精品亚洲中文一区二区三区,一级欧美一级日韩大片,精品女同性恋一区二区三区,在线免费观看国产视频你懂得,一级A在线免费观看

機器學習模型容易受到多種利用訓練模型數據泄露的攻擊。差分隱私（DP）是量化隱私風險并提供對抗攻擊的可證明保證的黃金標準。然而，在差分隱私下訓練機器學習模型通常會導致顯著的效用下降。本論文研究如何在差分隱私機器學習中有效地從數據中學習并生成數據。

為了在隱私保護的方式下有效地從數據中學習，首先需要識別可以利用的先驗信息類型。首先，我們研究了標簽-DP 設置，即特征信息公開，而標簽信息私有。我們通過利用公共特征來減少噪聲的添加，進而降低噪聲的影響，以此來提高標簽-DP 下的模型效用。其次，我們研究了如何利用合成圖像來改進差分隱私圖像分類。盡管這些合成圖像是在沒有訪問真實圖像的情況下生成的，并且對非隱私訓練幫助有限，我們發現這些合成圖像可以為差分隱私圖像分類提供更好的先驗。我們進一步研究了如何最大化這些合成先驗的使用，以充分釋放它們在改進隱私訓練中的潛力。

第三，我們研究了零階優化的私有化。零階優化已被證明在微調大型語言模型時與 SGD 性能相當，我們提出了 DPZO。我們的關鍵見解是，在零階優化中，從私有數據中派生的信息僅為一個標量。因此，我們只需對這個標量進行私有化。這種方法隱私友好，因為我們只需為標量添加噪聲，而不是對高維梯度加噪。第四，對于差分隱私的合成數據生成，我們研究了在不進行微調的情況下，僅通過訪問大型語言模型 API 來私有地生成數據。我們提出的方法可以為大型語言模型中的上下文學習提供隱私保護，同時支持無限查詢。綜上所述，本論文探討了如何在差分隱私機器學習中有效地從數據中學習并生成數據，并提供了在實踐中設計隱私保護機器學習模型的方向。

付費5元查看完整內容

相關內容

博士論文

關注 119

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下，選擇自己能夠把握和駕馭的潛在的研究方向，開辟新的研究領域。由此可見，這就對作者提出了較高要求，它要求作者必須在本學科的專業領域具備大量的理論知識，并對所學專業的理論知識有相當深入的理解和思考，同時還要具有相當水平的獨立科學研究能力，能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而，較之學士論文、碩士論文，博士論文具有更高的學術價值，對學科的發展具有重要的推動作用。

博士論文 · 表示學習 · 圖結構數據 ·

2024 年 9 月 30 日

[付費5元查看完整內容]【NTU博士論文】改進圖結構數據上的表示學習用于分類、生成和推薦

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本論文探討了圖表示學習中的創新方法及其在深度學習模型中的應用，在多個關鍵領域做出了重要貢獻。我們首先介紹了 Graph Meta-Contrast (GMeCo) 框架，這是一種用于圖上對比表示學習的全新元學習框架。GMeCo 能夠有效生成增強圖，并最大化增強圖與輸入圖之間的互信息，在魯棒性和判別性特征學習上優于當前方法。接下來，我們提出了 多分辨率基于 Meta-Framelet 的圖卷積網絡 (MM-FGCN) 模型。該模型在自適應多分辨率圖分析方面取得了進展，克服了固定變換的限制，并能夠動態處理不同尺度的圖數據。MM-FGCN 能夠捕捉圖的微觀和宏觀結構，展現了其在各種圖學習任務中的優越性。此外，我們引入了 圖譜擴散模型 (GSDM)，這是一種用于圖結構數據生成的全新方法。GSDM 在圖譜空間中使用低秩擴散隨機微分方程，增強了圖拓撲結構的生成，并降低了計算負荷。與現有模型相比，該方法在圖生成的效率和質量方面表現出顯著改進。最后，我們開發了一個基于多視角方法的序列推薦系統新框架，結合了圖神經網絡 (GNNs) 和 Transformer。該多視角結構利用用戶-項目交互和協作信息，提供了魯棒且準確的用戶偏好預測。該模型相較于傳統模型展現了其有效性。總體而言，本論文在圖表示學習方面提出了有效的方法和模型，為該領域的進步做出了貢獻，并為未來圖基深度學習應用的研究奠定了基礎。

付費5元查看完整內容

博士論文 · 因果機器學習 · 因果效應推斷 · 因果推理 · 因果結構發現 ·

2024 年 9 月 29 日

[付費5元查看完整內容]【牛津博士論文】大規模觀測因果機器學習中的結構與統計不確定性

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

因果機器學習 (Causal ML) 處理多種任務，包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大規模數據集和復雜高維輸入/輸出模式（如圖像、文本、時間序列和視頻）的因果機器學習方法中的不確定性。為了有效處理海量信息并預測復雜關系，可擴展性至關重要。隨著模型規模的擴大和靈活性增強，傳達未知信息變得愈發重要。我們研究了兩種主要的不確定性類型：統計不確定性和結構不確定性。統計不確定性是在將機器學習模型擬合到有限數據集時產生的。解決這種不確定性可以預測一系列可能的因果效應，并隨著訓練樣本的增加而縮小范圍，從而有助于做出更明智的決策，并指出需要進一步理解的領域。結構不確定性則來自對因果結構的不精確認知，通常需要對數據生成過程或與世界的交互做出進一步假設。在本論文中，我們開發了能夠有效應對統計和結構不確定性的可擴展因果機器學習方法。我們展示了在因果機器學習算法設計和應用中考慮可擴展性和不確定性的重要性，從而增強決策能力和知識獲取。我們的研究貢獻旨在推動因果機器學習領域的發展，并為未來研究奠定基礎。

因果機器學習 (CML) 涵蓋了多種任務，包括因果效應推斷、因果推理、因果結構發現以及因果表示學習。CML 為數據驅動算法提供了一種系統的方法，通過整合領域知識、表達建模假設的豐富語言，以及理解機器學習預測失敗原因的理論來增強其能力。本論文探討了適用于大規模數據集并處理復雜高維輸入輸出模式（如圖像、文本、時間序列和視頻）的可擴展 CML 方法中的不確定性。在大數據時代及復雜的現實世界問題中，可擴展性至關重要，因為它使 CML 算法能夠高效地處理和學習海量信息，同時建模預測復雜關系所需的上下文。

隨著模型規模的擴大和靈活性的提升，傳達未知信息變得越來越重要。挑戰在于將系統化的分析不確定性的方法應用到可擴展的方法中。解決不確定性對于做出更明智的決策以及識別我們需要學習的內容至關重要。基于這一點，我們研究了兩種主要的不確定性類型：統計不確定性和結構不確定性。統計不確定性，通常稱為認知不確定性，出現在將機器學習模型擬合到有限數據集時。解決這種不確定性有助于預測一系列可能的因果效應，并隨著訓練樣本數量的增加而縮小范圍。這一數值范圍不僅能夠促進更明智的決策，還能指出我們需要進一步理解的狀態或個體。然而，統計不確定性需要以正確的世界模型為前提。此時，結構不確定性變得相關，因為它源于對問題中潛在因果結構的不精確認知。通常，緩解結構不確定性需要對數據生成過程或與世界的交互做出進一步假設。盡管如此，CML 仍可以基于額外的領域知識傳達因果關系的不確定性，從而更好地為決策提供信息。

在本論文中，我們開發了能夠有效應對統計和結構不確定性的創新性可擴展 CML 方法和技術。我們展示了在設計和應用 CML 算法時考慮可擴展性和不確定性的重要性，因為它們增強了模型的魯棒性和泛化能力。我們的貢獻旨在推動 CML 領域的發展，并為未來在該領域的研究奠定堅實基礎。

付費5元查看完整內容

博士論文 · 物理啟發的生成式模型 · 麻省理工學院 (MIT) · 擴散模型 ·

2024 年 9 月 6 日

[付費5元查看完整內容]【MIT博士論文】物理啟發的生成式模型

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

物理啟發的生成模型（如擴散模型）構成了一類強大的生成模型家族。該模型家族的優勢在于相對穩定的訓練過程和強大的容量。然而，仍有許多可能的改進空間。在本論文中，我們首先將深入探討擴散模型在訓練和采樣方面的改進技術。擴散模型的訓練目標在數據分布為多模態時呈現出較高的方差。為了解決這一問題，我們提出了一種訓練目標，它推廣了傳統的去噪得分匹配方法，顯著減少了訓練目標的方差。除此之外，我們還引入了一種將可學習的離散潛變量整合到連續擴散模型中的訓練框架。這些潛變量簡化了擴散模型復雜的噪聲到數據映射的學習過程。

另一方面，擴散模型的采樣過程通常涉及求解微分方程。為加速采樣過程，我們提出了一種新穎的采樣算法，結合了之前常見的ODE和SDE采樣器的優點，大幅提升了預訓練擴散模型的性能。此外，我們的研究探索了在有限樣本中引入互斥力以促進生成過程中的多樣性。在物理啟發的生成模型領域，許多物理過程都可以用于開發生成模型。我們將介紹一類基于靜電理論的新生成模型家族，稱為泊松流生成模型（PFGM）。PFGM在采樣穩健性上表現出色，并與領先的擴散模型相媲美。其擴展版本PFGM++將擴散模型和PFGM置于同一框架下，并引入了新的、更優的模型。我們還將提出一種系統化的方法，將物理過程轉化為生成模型。

生成模型在近年來顯著改變了人們工作的、創作的和學習的方式。其突出應用包括ChatGPT [1]、文本到圖像模型 [2]-[4]、文本到3D模型 [5]、[6] 和文本到視頻模型 [7]、[8]。這些能力可以極大地激發創造力，并提高眾多領域的工作效率，包括教育、游戲產業、社交媒體和專業編輯軟件。生成模型的訓練基于這樣一個假設，即訓練數據是從未知的數據分布中采樣的 [9]。現代生成模型通常使用深度神經網絡來基于有限的訓練數據逼近復雜的數據分布，并通過從這些建模的分布中采樣來生成新的數據點。

在生成建模中使用的各種數據類型中，高維數據由于維度詛咒而面臨著顯著的挑戰。隨著維度的增加，數據空間的體積呈指數級擴展。這一現象使得在高維空間中用有限的訓練數據有效捕獲和建模數據分布變得困難。此外，感興趣的數據分布通常高度復雜且呈多模態，進一步增加了生成建模的難度。近年來，擴散模型 [10]–[12] 以及更廣泛的物理啟發生成模型 [13]，在處理高維數據的生成任務中，展現了強大的框架并取得了令人印象深刻的結果。在擴散模型之前，主要的方法包括：（i）利用對抗訓練目標的生成對抗網絡（GANs [14]）；（ii）使用最大似然目標訓練的模型，如PixelCNN [15] 和正規化流模型 [16]、[17]；（iii）變分自編碼器（VAEs）[18]、[19] 以及（iv）基于能量的模型 [20]、[21]。然而，每種方法都有其自身的缺點：（i）可能導致訓練不穩定和生成樣本的多樣性低；（ii）需要特定的架構設計，可能限制模型的容量；（iii）需要多個神經網絡的仔細協調；（iv）訓練和采樣速度較慢。利用自然的物理過程作為編碼器將數據轉化為噪聲，擴散模型通過逆轉這些物理過程來執行生成任務。這種方法使它們繞過了早期生成模型的許多限制。

1.1 通過逆轉物理過程進行生成建模

基于熱力學的原理 [10]，擴散模型涉及兩個對立的過程：一個前向過程將數據分布逐漸轉化為一個更簡單的先驗分布，另一個反向過程通過逐步去噪從該噪聲先驗分布中生成樣本。擴散模型中的前向過程是一個簡單的布朗運動，通過逐步增加高斯噪聲來降解數據。為了逆轉這一過程，只需學習一個時間依賴的向量場，即得分函數，并迭代求解一個微分方程 [22]。與GANs和VAEs不同，擴散模型的訓練不需要多個神經網絡之間的同步，從而使訓練過程更加穩定。此外，它們在架構設計上不受限，采用類似于神經網絡串聯的迭代過程，從而增強了整體容量。這種穩定性和增強的容量使擴散模型能夠有效擴展到大規模數據集。

盡管擴散模型具有諸多優勢，但它們仍面臨一些挑戰，包括在處理多模態數據時高方差的訓練過程，以及緩慢的迭代采樣過程。此外，獨立同分布（i.i.d.）的采樣過程往往會導致重復的樣本。這些問題強調了在復雜數據集上穩定和改進擴散模型訓練方法的必要性，并且需要新技術來加速采樣過程并提高小批量樣本的多樣性。此外，擴散模型只是眾多物理啟發生成模型之一。除布朗運動外，仍有許多物理過程尚未開發，可以用來構建生成模型。這引出了一個重要問題：我們能否發現其他物理啟發的生成模型，它們展示出更好的性能？在接下來的部分中，我們將簡要總結擴散模型的改進訓練和采樣技術，并討論我們開發其他物理啟發生成模型的研究，這些將在后續章節中詳細闡述。

1.1.1 擴散模型的改進訓練技術

擴散模型的訓練利用了一種擾動-去噪方法來估計向量場。其過程是先通過高斯噪聲擾動干凈的數據，然后網絡從這些擾動樣本中重構原始數據 [12]。然而，對于復雜的多模態數據，許多干凈的數據點可能被擾動為相似的噪聲樣本，導致訓練目標不明確并引發不穩定性。

在文獻 [23] 中，我們通過多個干凈數據點的加權求和來估計真實目標，精確地指示從擾動樣本到真實向量場的方向。該新穎的訓練目標推廣了傳統的單點估計方法，顯著減少了訓練目標中的方差。因此，在各種擴散模型變體中，樣本質量得到了提高，訓練過程更加穩定，訓練速度也得到了加快。

擴散模型面臨的另一個挑戰是，需要學習一個從單峰高斯分布到多峰數據分布的非線性且高度復雜的映射。這種復雜性增加了訓練的難度，并導致生成常微分方程（ODE）[24] 軌跡呈現強烈的曲率。為解決這一問題，我們在擴散模型中引入了離散潛變量。這些離散潛變量有助于捕獲數據分布中的不同模式，而擴散模型的任務則轉變為基于給定的離散潛變量捕獲每個模式內的連續變化。離散與連續變化的分離建模顯著簡化了模型復雜的噪聲到數據映射的學習過程。這一方法有效降低了擴散模型生成ODE的曲率，尤其是在較大的擴散時間下，整體訓練損失得到了減少。

1.1.2 擴散模型的改進采樣技術

在擴散模型的采樣過程中，求解微分方程通常涉及速度和質量之間的權衡。確定性采樣器（基于ODE的）[25]–[27] 速度快，但性能達到平臺期，而隨機采樣器（基于SDE的）[27]、[28] 樣本質量更好，但速度較慢。我們的分析將這種差異歸因于采樣誤差：ODE采樣器的離散化誤差較小，而SDE中的隨機性會收縮采樣過程中的累積誤差 [29]。

基于這些見解，在文獻 [29] 中，我們提出了一種名為Restart的新采樣算法，該算法結合了ODE和SDE的優點。該方法在附加的前向步驟中加入大量噪聲，并嚴格遵循逆ODE過程。前向噪聲的引入增強了隨機性的收縮效應，而逆ODE過程的遵循則加快了采樣速度。這種將隨機性和確定性采樣過程分離的方法極為有效，Restart在標準基準（CIFAR-10和ImageNet-64）上超過了SDE和ODE采樣器的速度和質量，并在大規模文本到圖像的Stable Diffusion模型中展示了文本-圖像對齊、視覺質量和多樣性的卓越平衡。

傳統上，擴散模型從模型分布中生成獨立同分布的樣本。然而，在實際操作中，模型通常需要多次采樣以獲得一組多樣化的小批量樣本，這會帶來與采樣時間無關的成本。我們提出超越獨立樣本假設，以提高樣本的多樣性和效率。我們的方法引入了一種擴展的基于擴散的生成采樣方法，稱為粒子引導。在這種方法中，聯合粒子的時間演化勢通過在樣本（粒子）之間加入互斥力來強制多樣性。根據實驗結果，我們的框架在文本到圖像生成和分子構象生成等應用中提高了樣本的多樣性并減輕了記憶效應。

1.1.3 基于其他物理過程的生成模型

以擴散模型為顯著例子，物理啟發的生成模型包含一個前向過程，該過程將復雜的數據分布簡化為逐步的先驗分布，隨后通過一個反向過程（即采樣過程）逐步將這些先驗分布還原為原始數據分布。因此，為了定義新的物理啟發生成模型，必須確定一個合適的前向過程。該過程應自然地隨著時間簡化數據分布，并且是可逆的，同時其相關的向量場應該易于被神經網絡學習。借助靜電學原理，我們為物理啟發的生成模型開辟了一條新路徑，并介紹了泊松流生成模型（Poisson Flow Generative Models, PFGM）[30] 及其擴展版本PFGM++ [31]。PFGM將數據解釋為增廣空間中的電荷。如圖1.1所示，當我們從數據支撐遠離足夠遠時，電荷分布坍縮為一個點電荷，電場在各個方向上呈現輻射狀。因此，可以證明這些電荷發出的電場線定義了數據分布和大半球上均勻分布之間的雙射。實驗結果表明，這一新模型家族在樣本質量、采樣速度和穩健性方面超越了擴散模型。此外，我們還探索了物理過程和生成模型之間的對偶性，旨在概念化和設計更多新的物理啟發生成模型 [13]。

1.2 論文摘要

本論文分為三個主題部分。下面簡要概述每個部分的內容。 第一部分 重點開發新技術，旨在穩定擴散模型的訓練，并在處理復雜的多模態數據集時，優化生成軌跡。

第三章 我們通過引入參考批次來解決擴散模型目標中的高方差問題，并使用參考批次計算加權條件得分，作為更穩定的訓練目標。我們展示了這一過程在具有挑戰性的中間階段中，通過減少訓練目標協方差（的跡）確實起到了幫助作用。本章基于文獻 [23]。

第四章 我們通過一個編碼器推斷可學習的離散潛變量，并對擴散模型和編碼器進行端到端訓練。離散潛變量通過降低擴散模型生成ODE的曲率，顯著簡化了其復雜的噪聲到數據映射的學習過程，并通過ODE采樣器提高了在各種數據集上的樣本質量。本章基于文獻 [32]。

第二部分 討論了加速擴散模型采樣過程的技術，以及通過施加樣本之間的互斥力來促進多樣性。所有討論的技術都不需要重新訓練，且可以直接應用于任何預訓練的擴散模型。

第五章 我們提出了一種名為Restart的新采樣算法，結合了先前ODE和SDE采樣器的優勢。Restart算法在附加的前向步驟中加入大量噪聲，并嚴格遵循逆ODE過程。實驗結果表明，Restart采樣器在速度和精度上均超過了先前的SDE和ODE采樣器。本章基于文獻 [29]。

第六章 我們提出了粒子引導，一種擴展的基于擴散的生成采樣方法，其中通過一個聯合粒子的時間演化勢來強制樣本多樣性。在條件圖像生成中，我們測試了該框架，并證明其在不影響質量的情況下增加了多樣性；在分子構象生成中，我們改進了相較于先前方法的中位誤差。本章基于文獻 [33]。

第三部分 探討了一類新型的生成模型，這些模型基于靜電理論，并與擴散模型在擴展視角下進行了統一。本部分還展望了通過物理過程構建生成模型的方法論。

第七章 我們介紹了一種新型生成模型——泊松流生成模型（PFGM），基于靜電理論。我們將數據點解釋為增廣空間中 z=0 超平面上的電荷，生成一個高維電場（泊松方程解的梯度）。我們證明了，如果這些電荷沿電場線向上流動，它們在 z=0 平面的初始分布會轉化為半徑為 r 的半球上的分布，并且在 r → ∞ 時變得均勻。我們展示了PFGM在圖像生成速度上提供了比先前最先進擴散模型更好的性能。本章基于文獻 [30]。

第八章 我們擴展了PFGM中使用的靜電理論，將擴散模型與PFGM統一起來。更有趣的是，在兩者之間的插值揭示了一個性能最優的新平衡點，達到了圖像生成的新標桿性能。我們為為什么PFGM和擴散模型都是次優解提供了理論解釋。本章基于文獻 [31]。

第九章 我們提出了一個統一的框架和算法，將物理過程轉化為平滑的密度流生成模型。此外，我們基于底層物理偏微分方程（PDE）的色散關系，提出了一種分類標準。這種理論方法可應用于各種物理PDE，從而發現新的生成模型家族。本章基于文獻 [13]。

第十章 我們總結了論文內容并討論了當前的局限性。

付費5元查看完整內容

博士論文 · 機器學習 · 魯棒性 ·

2024 年 8 月 26 日

[付費5元查看完整內容]【MIT博士論文】理解與提升機器學習模型的表征魯棒性

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現代機器學習模型的脆弱性引起了學術界和公眾的廣泛關注。在本論文中，我們將系統研究幾種機器學習模型的理解與改進，包括平滑模型和通用表征網絡。我們特別關注表征魯棒性的研究，將其定義為給定網絡在隱含空間中的“魯棒性”（或廣義上的可信屬性）。對于通用表征網絡，這對應于表征空間本身，而對于平滑模型，我們將網絡的logits視為目標空間。表征魯棒性是許多可信賴AI領域的基礎，例如公平性和魯棒性。

在本論文中，我們發現隨機平滑的可證魯棒性是以類別不公平性為代價的。我們進一步分析了改進基礎模型訓練過程的方法及其局限性。對于通用的非平滑表征模型，我們發現自監督對比學習與監督的鄰域成分分析之間存在聯系，這自然地使我們提出了一個可以實現更高準確性和魯棒性的通用框架。此外，我們意識到當前基礎表征模型的評估實踐涉及在各種現實任務上進行大量實驗，這既耗費計算資源又容易導致測試集泄漏。為此，我們提出了一種更輕量級、保護隱私且健全的評估框架，通過利用合成數據來評估視覺和語言模型。

**1.1 研究動機

深度神經網絡對人眼難以察覺的對抗性擾動的脆弱性，自從開創性工作[170, 7]發表以來，已經引起了機器學習領域廣泛的關注。這一問題在多個機器學習領域中都是一個重要的關注點，從計算機視覺[170]到語音識別[17]，無不如此。特別是在安全關鍵的應用中，如自動駕駛汽車和監控系統，幾乎無法容忍任何錯誤決策。因此，深度神經網絡中對抗樣本的存在，促使了對魯棒性量化的研究，以及旨在增強這種魯棒性的訓練算法的設計[42, 47, 95]。在本論文中，我們旨在理解和改進現代機器學習模型的表征魯棒性。

**1.1.1 機器學習模型的表征魯棒性

表征魯棒性指的是神經網絡模型中隱含空間的可靠性。這一概念在機器學習中尤為重要，因為網絡的隱藏層應該從輸入數據中捕捉到復雜的模式。在本論文中，我們將表征魯棒性定義為這些隱藏表示在面對不同輸入或擾動時，能夠維持理想的可信屬性的能力。理想的可信屬性可能包括準確性、公平性、對抗性魯棒性等。對于一個通用的表征網絡 Φ(?)\Phi(\cdot)Φ(?)，隱含空間的自然選擇是表征網絡的輸出空間。這些構建的空間通過表征學習被專門訓練用于編碼關于輸入數據的關鍵信息，使網絡能夠通過一個簡單的任務特定下游網絡執行分類、回歸或生成等各種任務。另一方面，在平滑模型的背景下，平滑濾波器應用于整個基礎網絡

。因此，我們將直接將網絡的

視為評估表征魯棒性的目標空間。在這種情況下，我們特別感興趣的是基礎網絡和平滑網絡之間的不同表現。研究表征魯棒性對于推動機器學習領域的發展至關重要，原因有以下幾點。首先，正如將在論文的后續章節中討論的那樣，對每個組件（如表征網絡、平滑操作符等）的深入理解有助于我們更加謹慎和意識到這些操作可能產生的副作用。這種理解也將為改進這些網絡設計奠定基礎。其次，隨著機器學習社區逐漸將重點轉向任務無關的預訓練和任務特定的微調，魯棒的表征變得越來越重要。在安全關鍵的應用中，由于脆弱表征導致的錯誤預測可能會產生嚴重后果。從這個角度來看，表征魯棒性是許多可信賴AI領域的基礎，因為預訓練的表征網絡將對任何基于它的機器學習系統的整體可信賴性產生貢獻。通過研究和增強表征魯棒性，可以構建更具彈性的AI系統，并防止錯誤的傳播。

付費5元查看完整內容

牛津大學 (University of Oxford) · 博士論文 · 深度生成建模 · 差分隱私 ·

2024 年 8 月 17 日

[付費5元查看完整內容]【牛津大學博士論文】生成建模：解決模型錯誤指定和差分隱私中的開放問題

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

生成建模已經成為人工智能的一個熱門應用。然而，當生成模型被錯誤指定，或當生成模型估計器被修改以遵守差分隱私等隱私概念時，模型性能可能會受到負面影響。在本論文中，我們通過展示四項不同的研究，探討了模型錯誤指定和差分隱私下的生成建模。

我們首先介紹了生成建模的相關工作。隨后，我們深入探討了在模型錯誤指定和差分隱私挑戰下研究生成建模的必要性。

作為初步貢獻，我們考慮了用于密度估計的生成建模。處理模型錯誤指定的一種方法是放寬模型假設。我們展示了這一方法在非參數模型中也具有幫助作用。具體而言，我們研究了一種最近提出的非參數準貝葉斯密度估計器，并發現其強模型假設是有限數據集下表現不佳的原因。我們提出了一種自回歸擴展，放寬模型假設，以允許先驗特征依賴關系。

接下來，我們考慮了用于缺失值填補的生成建模。在將當前深度生成填補方法分類為Rubin [1976]引入的不可忽略缺失模型類之后，我們擴展了變分自編碼器的公式，使其根據深度生成建模文獻中尚未研究過的不可忽略缺失模型類進行分解。這些模型顯式地對缺失機制進行建模，以防止在缺失值非隨機情況下的模型錯誤指定。

然后，本論文集中于提高差分隱私下的合成數據生成。為此，我們提出了對差分隱私合成數據樣本進行差分隱私重要性采樣的方法。我們觀察到，生成模型越好，重要性采樣的幫助越大。接著，我們通過考慮差分隱私擴散模型，進一步提高數據生成質量。我們識別了顯著提高DP圖像生成器性能的訓練策略。我們在論文的最后進行了討論，包括對所展示工作的貢獻和局限性，并提出了未來工作的潛在方向。

付費5元查看完整內容

博士論文 · 分布變遷 ·

2024 年 7 月 26 日

[付費5元查看完整內容]【CMU博士論文】理解、正式表征和穩健處理現實世界的分布變遷

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

分布變遷仍然是成功和可靠部署機器學習（ML）系統的重大障礙。解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現；同樣重要的是，通過仔細實驗AI系統，理解它們在實際分布變遷下的失敗。本論文描述了我在構建可信賴和可靠的機器學習基礎方面的工作。調查的工作大致分為三個主要類別：（i）設計正式的、實用的真實世界分布變遷結構表征；（ii）利用這種結構開發證明正確且高效的學習算法，能夠穩健處理這種變遷；以及（iii）實驗現代ML系統，理解現實世界重尾和分布變遷的實際影響，包括平均情況和最壞情況。

第一部分描述了可擴展地認證深度神經網絡對對抗攻擊的穩健性的工作。所提出的方法可用于認證對測試樣本、訓練數據或更一般地對任何影響模型最終預測的輸入的攻擊的穩健性。在第二部分中，我們關注變遷的潛變量模型，借鑒因果關系和其他結構化編碼的概念。我們展示了這些模型如何通過環境/干預復雜性這一新視角，進行使用多種分布進行穩健深度學習的方法的正式分析。環境/干預復雜性是領域泛化和因果表示學習的核心統計測量，通過訓練分布數量和多樣性來量化誤差和/或結構化可識別性條件。最后，在第三部分中，我們廣泛探索了更好地理解和利用自然數據中的變化的方法，并展示了所得見解如何促進設計在現實世界中更加穩健和可靠的新方法。

預測算法通過其在未見測試數據上的表現來評估和重視。在經典的機器學習（ML）中，通常假設這些數據是相互獨立地從與訓練算法所用數據集相同的分布中抽取的（這被稱為IID假設）。然而，在現實世界中，這種情況幾乎從未滿足。IID假設作為一種有價值的抽象，用于研究如何高效且可靠地從數據中學習。然而，統計學家早已明白這一假設是一種過度簡化，現實世界的數據底層分布不斷發生變遷：例如，時間上的變遷、異質子群體間的變遷、因過去行為而引發的變遷等。由于現實與理想化的IID數據假設之間的這種差異，在分布內提供強泛化保證的算法（如經驗風險最小化[Vapnik, 1999]）在現實世界中會出乎意料地失敗，通常伴隨著高置信度且無事先警告。特別是，盡管現代深度神經網絡在許多任務上實現了超人表現，但越來越多的證據表明，其令人難以置信的泛化能力主要限于測試數據與訓練數據非常相似的情況下。這些模型似乎依賴于數據的統計信息表示——出于尚未完全理解的原因——遠遠超越了對訓練數據的簡單記憶，但這些表示通常不能使其泛化到新領域或新任務。即使是對于看似微不足道的人類變化，這種情況也依然存在（Beery et al., 2018; Geirhos et al., 2018）。因此，現代最先進的生成和判別深度網絡在部署中是脆弱的，并且在出人意料的輕微分布變遷下容易出錯（Su et al., 2019; Recht et al., 2019）。

在考慮如何解決這一弱點時，人們可能會想象使得上述深度學習取得實際成功的方法最終也能解決這個問題。過去十年ML研究驚人速度的主要推動力是“基準測試方法”：通過對代表性基準數據集的一系列任務進行一致的、逐步的改進來推進。盡管這一策略的成功是不可否認的，但顯然它不足以實現真正穩健和可靠的ML未來。人工智能（AI）正在迅速部署到無數新的領域——并且只會變得更加普遍——但它尚不能被廣泛依賴，而意外失敗的潛在成本仍在增加。同時，在現實世界中引發這種失敗的變遷例子比比皆是：例如，自動駕駛汽車遇到的簡單景觀和/或天氣變化，或者用戶調整其行為以增加他們首選結果的可能性（Hardt et al., 2016）。更糟糕的是，AI越來越多地被用于安全關鍵環境，這在面對有意的對手時呈現出嚴重的安全漏洞（Sharif et al., 2016）。這種脆弱性仍然是進一步可信賴部署ML系統的重大障礙。

解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現。但是，顯然對所有分布變遷的穩健性是不可行的。相反，我們必須首先設計精確、現實的真實世界分布變遷的數學定義：通過正式指定我們希望穩健應對的變遷的“威脅模型”，我們將能夠朝著正式的穩健性保證可靠地前進。同時，ML理論和實踐（特別是在深度學習中）之間經常存在不匹配，因此單單數學定義變遷是不夠的。我們還需要仔細實驗AI系統，以理解它們在實際中的失敗模式——只有通過這樣的實驗，我們才能理解和調和現實世界數據與我們的數學理解之間的差異。反過來，這將推動新型、更可靠且可解釋的ML方法的發展，對性能產生實際的下游益處。

本論文描述了通過結合這兩種核心方法，為可信賴和可靠的機器學習奠定基礎的進展。更具體地說，所調查的工作大致分為三大類：（i）設計正式的、實用的真實世界分布變遷結構表征，包括良性和對抗性的；（ii）利用這種結構開發證明正確且高效的學習算法，能夠穩健處理這些變遷；以及（iii）實驗現代ML系統，以理解分布變遷的實際影響，包括平均情況和最壞情況，以便未來的分析能夠更好地捕捉我們期望AI在未來遇到的困難類型。

論文概述

**第一部分

本論文的第一部分描述了大規模認證深度神經網絡對抗攻擊穩健性的工作。第2章展示了如何將任何在高斯噪聲下分類良好的分類器轉變為對?2范數下的對抗擾動具有認證穩健性的新分類器。我們證明了使用高斯噪聲平滑在?2范數下的緊密穩健性保證，獲得了一個在ImageNet上在?2范數小于0.5 (=127/255) 的對抗擾動下具有49%認證top-1準確率的分類器。在第3章中，我們展示了如何使用所提出的方法來認證對更一般的攻擊的穩健性，例如對訓練數據的對抗性修改，或更一般地說，任何影響模型最終預測的輸入。

**第二部分

第二部分側重于變遷的潛變量模型，靈感來自因果關系和其他提出的真實世界變化的結構化編碼。我們展示了這些模型的重要性及其如何使使用多種分布進行穩健深度學習的方法的形式化分析成為可能。特別是，我們通過環境/干預復雜性這一新視角研究這些算法的行為——這是領域泛化和因果表示學習的核心統計測量，通過觀察的環境數量來量化誤差和/或潛在特征的可識別性。第4章在一個相當自然和一般的模型下，首次分析了為這些任務提出的各種目標下的分類。我們還在非線性領域中展示了這些方法的首個結果：除非測試數據與訓練分布足夠相似，否則這些方法可能會災難性地失敗。隨后在第5章中，我們提供了改進的分析以及更強的下界。第6章考慮了在線領域泛化的設置，首次正式量化了領域“插值”和“外推”之間的計算復雜性差距。

**第三部分

論文的最后一部分廣泛探索了更好地理解和利用自然數據中的變化的方法。首先，在第7章中，我們展示了預訓練特征足以生成比以前認為的更穩健的預測器。第8章描述了這一發現如何使得使用未標記的測試數據以證明神經網絡適時適應變遷，或給出（幾乎）有證明的非空的測試誤差界成為可能。接下來，第9章開發了一種穩健優化方法用于策略分類，使得雙重穩健預測能夠優雅地處理策略響應和用戶成本函數中的不可避免的不確定性。最后，第10章展示了離群值對神經網絡優化的顯著影響——這一結果為理解自然數據的重尾如何影響網絡行為提供了新的見解，并提出了神經網絡優化中各種現象起源的更一致的圖景。

付費5元查看完整內容

博士論文 · 麻省理工學院 (MIT) · 魯棒性 · 可解釋性 · 數據驅動 ·

2024 年 7 月 21 日

[付費5元查看完整內容]【MIT博士論文】高效的魯棒性和可解釋性在學習和數據驅動決策中的應用

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著機器學習算法在高風險應用中不斷開發和部署，確保其可靠性已變得至關重要。本論文介紹了在機器學習中提高可靠性的算法進展，重點強調兩個關鍵維度：魯棒性和可解釋性。本論文的第一部分側重于魯棒性，即保證算法在各種數據不確定性下仍能提供穩定和可預測的性能。我們研究了在不同數據不確定性來源下的學習魯棒性，包括基本的統計誤差以及數據噪聲和損壞。我們的研究揭示了這些不同來源如何相互作用并對數據驅動決策產生影響。我們引入了針對特定不確定性來源量身定制的新穎的分布魯棒優化方法。我們的研究結果表明，對一種來源的保護可能會增加對另一種來源的脆弱性。為了解決這個問題，我們開發了分布模糊集，能夠同時提供對所有來源的整體魯棒性。在每種情況下，我們證明了我們的新方法實現了“高效”的魯棒性，在平均性能與樣本外保證之間實現了最佳平衡。我們的新算法被應用于各種場景，包括訓練魯棒神經網絡，在這些場景中顯著優于現有基準。本論文的第二部分探討了可解釋性，這是高風險環境下決策支持工具的一個關鍵屬性，要求算法能夠為其決策提供可理解的解釋。我們的工作在這一部分的動機來自于數據驅動的個性化患者治療——一種越來越受歡迎的機器學習應用。在這個強化學習問題中，可解釋性至關重要：醫生不能依賴于一個黑箱算法來開具治療方案。我們在理論上引入了學習連續狀態空間動態系統最簡潔離散表示的問題。在患者治療的背景下，這相當于基于患者治療過程中不斷變化的特征來確定治療組。令人驚訝的是，我們在理論上證明，僅從觀察到的歷史樣本路徑數據中就有可能學習到動態系統的最簡潔表示。隨后，我們開發了一種算法，MRL，能夠學習這種簡潔的表示，從而增強可解釋性和可操作性。

付費5元查看完整內容

博士論文 · 機器人 ·

2023 年 11 月 26 日

[付費5元查看完整內容]【ETHZ博士論文】通過自適應和基于學習的模型預測控制的機器人移動操縱

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

動態穩定移動操縱器的使用正從受控研究實驗室擴展到真實世界。然而，自主操縱技能仍然專門用于單一任務，并且只能處理對象物理屬性的有限變化，這阻礙了機器人在非結構化人類環境中的部署。本論文關注于動態穩定移動操縱器的整體運動規劃和控制，以及為控制器提供實時適應由于與物體交互而引起的機器人動力學變化。

動態穩定移動操縱器，即配備機器人手臂的積極平衡移動機器人，在為人類設計的環境中工作潛力非常大。然而，它們的靈活性和順應性需要高控制復雜性。傳統的控制策略將移動和操縱問題分別處理，需要額外的啟發式方法來實現整體協調。此外，基于逆動力學的控制器不考慮系統未來的演變，這對平衡控制至關重要。另一方面，在本論文中，我們提出了一種基于模型預測控制（MPC）的整體運動規劃和控制公式。我們的方法利用了完整的機器人動力學，并共同優化平衡、基座追蹤、末端執行器追蹤和環境交互。我們在一個球平衡操縱器的廣泛實驗中驗證了所提出的整體MPC控制器。

當機器人動力學不準確或操縱新物體時，模型不確定性可能嚴重影響MPC的性能和通用性。為了解決這個問題，我們提出了兩種在線適應方案，用于MPC系統動力學中的物體參數，我們在一個球平衡操縱器的開門和舉起物體任務中展示了這一點。盡管我們最初將外部環境建模為線性系統，但對于更復雜的操縱任務或機器人動力學中的不確定性，需要更具描述性的表示。因此，我們提出將模型誤差近似為三角函數基函數的線性組合。假設當機器人執行類似操縱任務時，動力學的基本結構不會發生顯著變化，我們從相關實驗中收集的數據學習基函數的超參數，例如，讓機器人打開具有不同剛度系數的門。執行新任務時，基函數的超參數保持不變，而線性參數在線適應。我們在仿真和硬件實驗中測試了得到的多任務學習MPC控制器，并與其他自適應MPC控制器進行了廣泛比較。

最后，為了在參數不確定性下獲得更好的跟蹤性能，我們將機器人操縱器自適應控制中導出的控制Lyapunov函數（CLF）約束納入最優控制問題的不等式集合中。因此，我們獲得了一種結合了CLFs和MPC優勢的自適應控制器，在機器人與未知物體交互時提供了改進的性能，并減少了對MPC預測范圍調整的依賴。我們通過與幾個基線的比較展示了所提方法的優勢，并在一個四足機器人搬運磚塊和拖拽重箱的硬件測試中驗證了它。

付費5元查看完整內容

概率強化學習 · 強化學習 · 博士論文 ·

2023 年 7 月 31 日

[付費5元查看完整內容]【CMU博士論文】概率強化學習：使用數據定義期望的結果并推斷如何達到

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這篇論文研究了通過試錯學習教導自主智能體完成任務的算法。通常，這個問題被描述為一個強化學習(RL)問題，其中智能體試圖最大化用戶提供的獎勵函數。這里研究的算法采取了不同的方法，大部分避免使用獎勵函數，而是直接從數據中學習實現期望的結果。這種方法允許用戶使用來自監督學習和非監督學習的算法工具，同時也為非專家用戶提供了一個教導智能體新任務的界面。這些方法的設計中的主要挑戰是預測期望結果的概率，尤其是當這些結果在未來的數百步中才發生，特別是在使用離策略數據時。為此，這篇論文的第一部分基于遞歸分類開發了一種算法，該算法通過時間差分更新估計未來狀態的概率(第2章)。這種方法直接適用于具有連續狀態和動作的環境，不需要任何手工制作的距離度量，并導致了一個比之前的方法更高效的面向目標的RL算法。然后，我們將這個想法推廣到可以通過多種方式解決的任務，允許更靈活的任務規范，并提供更廣泛的泛化能力。

將控制問題以期望的結果來描述提供了一個簡單的機制來指定任務是什么，但它沒有為如何解決任務留下任何余地，這引發了一個問題：這些方法是否僅限于簡單任務。為了解決這個限制，我們考慮推斷復雜任務解決方案的結構。由于第一部分介紹的算法在本質上是概率性的，所以很容易將這種結構作為一個未觀察到的潛在變量納入其中。這些新算法推斷這種任務結構；在這樣做的過程中，它們將控制問題分解為一系列更容易的問題，從而加速學習。

我們首先討論以目標為條件的設置，這種推斷觀點導致了一個簡單且理論上有正當理由的方法，將面向目標的RL集成到傳統的規劃流程中（第4章）。RL被用來估計距離并學習一個局部策略，而觀察（如，圖像）上的圖搜索確定了通往目標的高級路徑。這種方法顯著優于標準的目標條件RL算法。接著，我們考慮一種不同的方式來構造任務解決方案：作為一個學習過的動態模型和策略的組合（第5章）。結果是一個基于模型的RL算法，其中模型和策略使用相同的目標聯合優化，這是預期回報的下界。

這篇論文基于初步論文提案中提出的工作在兩個主要方向上進行了深入。首先，我們探討了遞歸分類的幾何解釋（第2章），在表示學習和強化學習之間建立了緊密的聯系（第3章）。這種聯系使我們能夠將遞歸分類擴展到通過有限數量的獎勵標記狀態后設定的任務，并使我們能夠將這些方法應用到基于真實世界圖像的機器人操作任務上。其次，我們擴展了RL的潛在變量觀點（第4章和第5章）以在學習的表示上執行推斷（第5.6節）。這種擴展使我們的方法能夠擴展到更高維度的任務，并提供了大量的計算加速。

付費5元查看完整內容

斯坦福大學 (Stanford University) · 博士論文 · 機器學習 · 魯棒性 ·

2022 年 5 月 3 日

[付費5元查看完整內容]【斯坦福Nimit Sohoni博士論文】具有有限結構知識的機器學習和優化的魯棒性

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在本文中，我們開發并分析了三種不同機器學習環境下的魯棒性算法。在論文的第一部分，我們介紹了隱藏分層的問題——當一個分類模型在數據的某些未標記子類上表現不佳時——并提出了一種檢測和緩解這個問題的方法。以前的工作研究了如何在已知子類標簽的情況下處理這個問題。基于經驗觀察，未標記的子類通常在深度神經網絡的特征空間中是可分離的，我們轉而使用聚類技術估計數據的子類標簽。然后，我們使用估計的子類標簽作為分布魯棒優化目標中的一種噪聲監督形式，以便訓練一個對子類間變化更魯棒的模型。我們在幾個魯棒的圖像分類基準上證明了我們的方法的有效性。我們簡要討論了以下幾種替代方法:1)使用有限數量的子類標簽來進一步提高性能，2) 使用對比學習來學習不太容易受隱藏分層影響的表示。在論文的第二部分，我們研究了結構化分布漂移下的分類模型評價問題。給定來自“源”分布的標記樣本和來自“目標”分布的未標記樣本，重要性加權是執行這種評估的標準方法;然而，重要性加權在高維設置中會遇到困難，當源分布中不包含目標分布的支持時，重要性加權就會失敗。我們表明，人們可以通過對分布轉移性質的一些預見來回避這些問題;具體來說，我們提出了一種使用用戶定義的“切片函數”(旨在捕獲可能的分布偏移軸的二進制函數)來估計目標分布上的性能的算法。我們從理論上描述了我們的方法對切片函數中的噪聲和不完全性的魯棒性，并在各種分類任務上驗證了它的有效性。在論文的第三部分，我們提出了一種加速梯度法來有效地最小化一類光滑結構非凸函數，我們稱之為“類凸”函數。該算法是經典凸函數加速梯度下降法的推廣，對迭代間可能存在的非凸性具有較強的魯棒性。我們提供了一階求值次數的上界和下界，我們的算法需要找到一個近似最優，這表明我們的算法具有最優復雜度到對數因子

//searchworks.stanford.edu/view/14172616