因果機器學習(Causal ML) 處理各種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果ML方法中的不確定性。可擴展性對于高效處理大量信息和預測復雜關系至關重要。隨著模型靈活性的提升,傳達未知信息變得愈加重要。我們考察了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性在擬合機器學習模型到有限數據集時產生,解決這一不確定性有助于預測一系列合理的因果效應,隨著訓練樣本的增加而縮小,從而促進更明智的決策并指示需要進一步理解的領域。結構不確定性則源于對因果結構的模糊認識,通常需要對數據生成過程或與世界的互動做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果ML方法。我們展示了在因果ML算法設計和應用中考慮可擴展性和不確定性的重要性,提升決策能力和知識獲取。我們的貢獻旨在推動因果機器學習領域的發展,為未來研究奠定基礎。
機器學習模型容易受到多種利用訓練模型數據泄露的攻擊。差分隱私(DP)是量化隱私風險并提供對抗攻擊的可證明保證的黃金標準。然而,在差分隱私下訓練機器學習模型通常會導致顯著的效用下降。本論文研究如何在差分隱私機器學習中有效地從數據中學習并生成數據。
為了在隱私保護的方式下有效地從數據中學習,首先需要識別可以利用的先驗信息類型。首先,我們研究了標簽-DP 設置,即特征信息公開,而標簽信息私有。我們通過利用公共特征來減少噪聲的添加,進而降低噪聲的影響,以此來提高標簽-DP 下的模型效用。其次,我們研究了如何利用合成圖像來改進差分隱私圖像分類。盡管這些合成圖像是在沒有訪問真實圖像的情況下生成的,并且對非隱私訓練幫助有限,我們發現這些合成圖像可以為差分隱私圖像分類提供更好的先驗。我們進一步研究了如何最大化這些合成先驗的使用,以充分釋放它們在改進隱私訓練中的潛力。
第三,我們研究了零階優化的私有化。零階優化已被證明在微調大型語言模型時與 SGD 性能相當,我們提出了 DPZO。我們的關鍵見解是,在零階優化中,從私有數據中派生的信息僅為一個標量。因此,我們只需對這個標量進行私有化。這種方法隱私友好,因為我們只需為標量添加噪聲,而不是對高維梯度加噪。第四,對于差分隱私的合成數據生成,我們研究了在不進行微調的情況下,僅通過訪問大型語言模型 API 來私有地生成數據。我們提出的方法可以為大型語言模型中的上下文學習提供隱私保護,同時支持無限查詢。 綜上所述,本論文探討了如何在差分隱私機器學習中有效地從數據中學習并生成數據,并提供了在實踐中設計隱私保護機器學習模型的方向。
因果機器學習 (Causal ML) 處理多種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大規模數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果機器學習方法中的不確定性。為了有效處理海量信息并預測復雜關系,可擴展性至關重要。隨著模型規模的擴大和靈活性增強,傳達未知信息變得愈發重要。我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性是在將機器學習模型擬合到有限數據集時產生的。解決這種不確定性可以預測一系列可能的因果效應,并隨著訓練樣本的增加而縮小范圍,從而有助于做出更明智的決策,并指出需要進一步理解的領域。結構不確定性則來自對因果結構的不精確認知,通常需要對數據生成過程或與世界的交互做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果機器學習方法。我們展示了在因果機器學習算法設計和應用中考慮可擴展性和不確定性的重要性,從而增強決策能力和知識獲取。我們的研究貢獻旨在推動因果機器學習領域的發展,并為未來研究奠定基礎。
因果機器學習 (CML) 涵蓋了多種任務,包括因果效應推斷、因果推理、因果結構發現以及因果表示學習。CML 為數據驅動算法提供了一種系統的方法,通過整合領域知識、表達建模假設的豐富語言,以及理解機器學習預測失敗原因的理論來增強其能力。本論文探討了適用于大規模數據集并處理復雜高維輸入輸出模式(如圖像、文本、時間序列和視頻)的可擴展 CML 方法中的不確定性。在大數據時代及復雜的現實世界問題中,可擴展性至關重要,因為它使 CML 算法能夠高效地處理和學習海量信息,同時建模預測復雜關系所需的上下文。
隨著模型規模的擴大和靈活性的提升,傳達未知信息變得越來越重要。挑戰在于將系統化的分析不確定性的方法應用到可擴展的方法中。解決不確定性對于做出更明智的決策以及識別我們需要學習的內容至關重要。基于這一點,我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。 統計不確定性,通常稱為認知不確定性,出現在將機器學習模型擬合到有限數據集時。解決這種不確定性有助于預測一系列可能的因果效應,并隨著訓練樣本數量的增加而縮小范圍。這一數值范圍不僅能夠促進更明智的決策,還能指出我們需要進一步理解的狀態或個體。然而,統計不確定性需要以正確的世界模型為前提。此時,結構不確定性變得相關,因為它源于對問題中潛在因果結構的不精確認知。通常,緩解結構不確定性需要對數據生成過程或與世界的交互做出進一步假設。盡管如此,CML 仍可以基于額外的領域知識傳達因果關系的不確定性,從而更好地為決策提供信息。
在本論文中,我們開發了能夠有效應對統計和結構不確定性的創新性可擴展 CML 方法和技術。我們展示了在設計和應用 CML 算法時考慮可擴展性和不確定性的重要性,因為它們增強了模型的魯棒性和泛化能力。我們的貢獻旨在推動 CML 領域的發展,并為未來在該領域的研究奠定堅實基礎。
物理啟發的生成模型(如擴散模型)構成了一類強大的生成模型家族。該模型家族的優勢在于相對穩定的訓練過程和強大的容量。然而,仍有許多可能的改進空間。在本論文中,我們首先將深入探討擴散模型在訓練和采樣方面的改進技術。擴散模型的訓練目標在數據分布為多模態時呈現出較高的方差。為了解決這一問題,我們提出了一種訓練目標,它推廣了傳統的去噪得分匹配方法,顯著減少了訓練目標的方差。除此之外,我們還引入了一種將可學習的離散潛變量整合到連續擴散模型中的訓練框架。這些潛變量簡化了擴散模型復雜的噪聲到數據映射的學習過程。
另一方面,擴散模型的采樣過程通常涉及求解微分方程。為加速采樣過程,我們提出了一種新穎的采樣算法,結合了之前常見的ODE和SDE采樣器的優點,大幅提升了預訓練擴散模型的性能。此外,我們的研究探索了在有限樣本中引入互斥力以促進生成過程中的多樣性。 在物理啟發的生成模型領域,許多物理過程都可以用于開發生成模型。我們將介紹一類基于靜電理論的新生成模型家族,稱為泊松流生成模型(PFGM)。PFGM在采樣穩健性上表現出色,并與領先的擴散模型相媲美。其擴展版本PFGM++將擴散模型和PFGM置于同一框架下,并引入了新的、更優的模型。我們還將提出一種系統化的方法,將物理過程轉化為生成模型。
生成模型在近年來顯著改變了人們工作的、創作的和學習的方式。其突出應用包括ChatGPT [1]、文本到圖像模型 [2]-[4]、文本到3D模型 [5]、[6] 和文本到視頻模型 [7]、[8]。這些能力可以極大地激發創造力,并提高眾多領域的工作效率,包括教育、游戲產業、社交媒體和專業編輯軟件。生成模型的訓練基于這樣一個假設,即訓練數據是從未知的數據分布中采樣的 [9]。現代生成模型通常使用深度神經網絡來基于有限的訓練數據逼近復雜的數據分布,并通過從這些建模的分布中采樣來生成新的數據點。
在生成建模中使用的各種數據類型中,高維數據由于維度詛咒而面臨著顯著的挑戰。隨著維度的增加,數據空間的體積呈指數級擴展。這一現象使得在高維空間中用有限的訓練數據有效捕獲和建模數據分布變得困難。此外,感興趣的數據分布通常高度復雜且呈多模態,進一步增加了生成建模的難度。近年來,擴散模型 [10]–[12] 以及更廣泛的物理啟發生成模型 [13],在處理高維數據的生成任務中,展現了強大的框架并取得了令人印象深刻的結果。在擴散模型之前,主要的方法包括:(i)利用對抗訓練目標的生成對抗網絡(GANs [14]);(ii)使用最大似然目標訓練的模型,如PixelCNN [15] 和正規化流模型 [16]、[17];(iii)變分自編碼器(VAEs)[18]、[19] 以及(iv)基于能量的模型 [20]、[21]。然而,每種方法都有其自身的缺點:(i)可能導致訓練不穩定和生成樣本的多樣性低;(ii)需要特定的架構設計,可能限制模型的容量;(iii)需要多個神經網絡的仔細協調;(iv)訓練和采樣速度較慢。利用自然的物理過程作為編碼器將數據轉化為噪聲,擴散模型通過逆轉這些物理過程來執行生成任務。這種方法使它們繞過了早期生成模型的許多限制。
1.1 通過逆轉物理過程進行生成建模
基于熱力學的原理 [10],擴散模型涉及兩個對立的過程:一個前向過程將數據分布逐漸轉化為一個更簡單的先驗分布,另一個反向過程通過逐步去噪從該噪聲先驗分布中生成樣本。擴散模型中的前向過程是一個簡單的布朗運動,通過逐步增加高斯噪聲來降解數據。為了逆轉這一過程,只需學習一個時間依賴的向量場,即得分函數,并迭代求解一個微分方程 [22]。與GANs和VAEs不同,擴散模型的訓練不需要多個神經網絡之間的同步,從而使訓練過程更加穩定。此外,它們在架構設計上不受限,采用類似于神經網絡串聯的迭代過程,從而增強了整體容量。這種穩定性和增強的容量使擴散模型能夠有效擴展到大規模數據集。
盡管擴散模型具有諸多優勢,但它們仍面臨一些挑戰,包括在處理多模態數據時高方差的訓練過程,以及緩慢的迭代采樣過程。此外,獨立同分布(i.i.d.)的采樣過程往往會導致重復的樣本。這些問題強調了在復雜數據集上穩定和改進擴散模型訓練方法的必要性,并且需要新技術來加速采樣過程并提高小批量樣本的多樣性。此外,擴散模型只是眾多物理啟發生成模型之一。除布朗運動外,仍有許多物理過程尚未開發,可以用來構建生成模型。這引出了一個重要問題:我們能否發現其他物理啟發的生成模型,它們展示出更好的性能?在接下來的部分中,我們將簡要總結擴散模型的改進訓練和采樣技術,并討論我們開發其他物理啟發生成模型的研究,這些將在后續章節中詳細闡述。
1.1.1 擴散模型的改進訓練技術
擴散模型的訓練利用了一種擾動-去噪方法來估計向量場。其過程是先通過高斯噪聲擾動干凈的數據,然后網絡從這些擾動樣本中重構原始數據 [12]。然而,對于復雜的多模態數據,許多干凈的數據點可能被擾動為相似的噪聲樣本,導致訓練目標不明確并引發不穩定性。
在文獻 [23] 中,我們通過多個干凈數據點的加權求和來估計真實目標,精確地指示從擾動樣本到真實向量場的方向。該新穎的訓練目標推廣了傳統的單點估計方法,顯著減少了訓練目標中的方差。因此,在各種擴散模型變體中,樣本質量得到了提高,訓練過程更加穩定,訓練速度也得到了加快。
擴散模型面臨的另一個挑戰是,需要學習一個從單峰高斯分布到多峰數據分布的非線性且高度復雜的映射。這種復雜性增加了訓練的難度,并導致生成常微分方程(ODE)[24] 軌跡呈現強烈的曲率。為解決這一問題,我們在擴散模型中引入了離散潛變量。這些離散潛變量有助于捕獲數據分布中的不同模式,而擴散模型的任務則轉變為基于給定的離散潛變量捕獲每個模式內的連續變化。離散與連續變化的分離建模顯著簡化了模型復雜的噪聲到數據映射的學習過程。這一方法有效降低了擴散模型生成ODE的曲率,尤其是在較大的擴散時間下,整體訓練損失得到了減少。
1.1.2 擴散模型的改進采樣技術
在擴散模型的采樣過程中,求解微分方程通常涉及速度和質量之間的權衡。確定性采樣器(基于ODE的)[25]–[27] 速度快,但性能達到平臺期,而隨機采樣器(基于SDE的)[27]、[28] 樣本質量更好,但速度較慢。我們的分析將這種差異歸因于采樣誤差:ODE采樣器的離散化誤差較小,而SDE中的隨機性會收縮采樣過程中的累積誤差 [29]。
基于這些見解,在文獻 [29] 中,我們提出了一種名為Restart的新采樣算法,該算法結合了ODE和SDE的優點。該方法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。前向噪聲的引入增強了隨機性的收縮效應,而逆ODE過程的遵循則加快了采樣速度。這種將隨機性和確定性采樣過程分離的方法極為有效,Restart在標準基準(CIFAR-10和ImageNet-64)上超過了SDE和ODE采樣器的速度和質量,并在大規模文本到圖像的Stable Diffusion模型中展示了文本-圖像對齊、視覺質量和多樣性的卓越平衡。
傳統上,擴散模型從模型分布中生成獨立同分布的樣本。然而,在實際操作中,模型通常需要多次采樣以獲得一組多樣化的小批量樣本,這會帶來與采樣時間無關的成本。我們提出超越獨立樣本假設,以提高樣本的多樣性和效率。我們的方法引入了一種擴展的基于擴散的生成采樣方法,稱為粒子引導。在這種方法中,聯合粒子的時間演化勢通過在樣本(粒子)之間加入互斥力來強制多樣性。根據實驗結果,我們的框架在文本到圖像生成和分子構象生成等應用中提高了樣本的多樣性并減輕了記憶效應。
1.1.3 基于其他物理過程的生成模型
以擴散模型為顯著例子,物理啟發的生成模型包含一個前向過程,該過程將復雜的數據分布簡化為逐步的先驗分布,隨后通過一個反向過程(即采樣過程)逐步將這些先驗分布還原為原始數據分布。因此,為了定義新的物理啟發生成模型,必須確定一個合適的前向過程。該過程應自然地隨著時間簡化數據分布,并且是可逆的,同時其相關的向量場應該易于被神經網絡學習。 借助靜電學原理,我們為物理啟發的生成模型開辟了一條新路徑,并介紹了泊松流生成模型(Poisson Flow Generative Models, PFGM)[30] 及其擴展版本PFGM++ [31]。PFGM將數據解釋為增廣空間中的電荷。如圖1.1所示,當我們從數據支撐遠離足夠遠時,電荷分布坍縮為一個點電荷,電場在各個方向上呈現輻射狀。因此,可以證明這些電荷發出的電場線定義了數據分布和大半球上均勻分布之間的雙射。實驗結果表明,這一新模型家族在樣本質量、采樣速度和穩健性方面超越了擴散模型。此外,我們還探索了物理過程和生成模型之間的對偶性,旨在概念化和設計更多新的物理啟發生成模型 [13]。
本論文分為三個主題部分。下面簡要概述每個部分的內容。 第一部分 重點開發新技術,旨在穩定擴散模型的訓練,并在處理復雜的多模態數據集時,優化生成軌跡。
第三章 我們通過引入參考批次來解決擴散模型目標中的高方差問題,并使用參考批次計算加權條件得分,作為更穩定的訓練目標。我們展示了這一過程在具有挑戰性的中間階段中,通過減少訓練目標協方差(的跡)確實起到了幫助作用。本章基于文獻 [23]。
第四章 我們通過一個編碼器推斷可學習的離散潛變量,并對擴散模型和編碼器進行端到端訓練。離散潛變量通過降低擴散模型生成ODE的曲率,顯著簡化了其復雜的噪聲到數據映射的學習過程,并通過ODE采樣器提高了在各種數據集上的樣本質量。本章基于文獻 [32]。
第二部分 討論了加速擴散模型采樣過程的技術,以及通過施加樣本之間的互斥力來促進多樣性。所有討論的技術都不需要重新訓練,且可以直接應用于任何預訓練的擴散模型。
第五章 我們提出了一種名為Restart的新采樣算法,結合了先前ODE和SDE采樣器的優勢。Restart算法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。實驗結果表明,Restart采樣器在速度和精度上均超過了先前的SDE和ODE采樣器。本章基于文獻 [29]。
第六章 我們提出了粒子引導,一種擴展的基于擴散的生成采樣方法,其中通過一個聯合粒子的時間演化勢來強制樣本多樣性。在條件圖像生成中,我們測試了該框架,并證明其在不影響質量的情況下增加了多樣性;在分子構象生成中,我們改進了相較于先前方法的中位誤差。本章基于文獻 [33]。
第三部分 探討了一類新型的生成模型,這些模型基于靜電理論,并與擴散模型在擴展視角下進行了統一。本部分還展望了通過物理過程構建生成模型的方法論。
第七章 我們介紹了一種新型生成模型——泊松流生成模型(PFGM),基于靜電理論。我們將數據點解釋為增廣空間中 z=0 超平面上的電荷,生成一個高維電場(泊松方程解的梯度)。我們證明了,如果這些電荷沿電場線向上流動,它們在 z=0 平面的初始分布會轉化為半徑為 r 的半球上的分布,并且在 r → ∞ 時變得均勻。我們展示了PFGM在圖像生成速度上提供了比先前最先進擴散模型更好的性能。本章基于文獻 [30]。
第八章 我們擴展了PFGM中使用的靜電理論,將擴散模型與PFGM統一起來。更有趣的是,在兩者之間的插值揭示了一個性能最優的新平衡點,達到了圖像生成的新標桿性能。我們為為什么PFGM和擴散模型都是次優解提供了理論解釋。本章基于文獻 [31]。
第九章 我們提出了一個統一的框架和算法,將物理過程轉化為平滑的密度流生成模型。此外,我們基于底層物理偏微分方程(PDE)的色散關系,提出了一種分類標準。這種理論方法可應用于各種物理PDE,從而發現新的生成模型家族。本章基于文獻 [13]。
第十章 我們總結了論文內容并討論了當前的局限性。
AlphaGo和ChatGPT可能是過去十年中人工智能領域最重要的兩項突破。這些技術得益于在序列決策(例如,規劃、搜索和強化學習)以及基礎模型(例如,基于互聯網數據訓練的語言和視頻生成模型)方面的研究。本論文提出了在現實世界決策任務背景下,利用具有廣泛知識的基礎模型的新技術、算法和框架,這些研究將影響對話代理的構建、機器人控制和科學發現等應用。本論文從離線環境中的傳統決策制定開始,逐步通過表示學習和生成建模引入更廣泛的互聯網規模數據。論文強調了理論基礎與實際應用的結合。本論文的主要貢獻包括離線強化學習的算法進步、面向決策制定的表示學習改進、作為強化學習替代的全新生成建模技術,以及基于互聯網規模的生成代理和生成模擬器,所有這些都旨在增強基礎模型的決策能力,并使之相輔相成。通過廣泛的實證和理論分析,本論文表明,基礎模型在得到適當利用時,可以顯著提高決策任務的效果。這些發現為將機器學習模型與現實世界應用整合提供了新的方向,為更智能、適應性更強、效率更高的系統鋪平了道路。 在過去的十年中,人工智能(AI)領域的兩項重要突破包括2016年人工智能圍棋玩家AlphaGo擊敗人類選手李世乭 [21],以及2022年部署的人工智能聊天機器人ChatGPT [22]。這些技術進步得益于在序列決策和基礎模型方面的研究。在序列決策中,目標是讓計算機(代理)自動決定一系列動作(例如,在哪里放置圍棋子),并且讓計算機基于來自環境的反饋(例如圍棋比賽的結果)自動改進這些決策。機器學習在序列決策中的方法涉及訓練決策策略,即基于當前觀測(例如圍棋棋盤)選擇動作的策略,通過試驗和錯誤的方式進行訓練。這種方法在環境支持無限訪問的游戲場景中表現良好,但在現實世界中超越游戲場景的規模時卻難以實現,因為在現實環境中無限訪問是不切實際的。即使在游戲場景中,先前在序列決策中的工作大多集中在任務特定或“白板”設置中,缺乏先驗知識 [23]。因此,先前的序列決策工作在泛化和樣本效率方面通常表現不佳,例如解決單個Atari游戲需要7個GPU天的交互游戲時間 [24]。 最近,基礎模型(定義為使用自監督學習在大規模數據上訓練的大型機器學習模型 [25])在互聯網上的大量數據上進行了訓練。例如,自回歸語言模型 [26, 27]通過從互聯網抓取的文本數據來預測給定前述單詞(標記)后的下一個單詞(標記)。類似地,視頻生成模型 [28, 29]通過從互聯網抓取的視頻數據,在給定語言輸入和/或前述幀的情況下,預測下一幀。因此,這些模型能夠生成高度逼真的自然語言和視頻。然而,模仿互聯網內容并不是這些模型的最終目標。這些模型的最終目標是解決現實世界中的任務,如回答人們的問題和模擬現實世界的交互。為了實現這一目標,這些模型生成的內容必須由人類控制。如何引導這些模型根據用戶反饋生成理想的內容,以及如何使這些模型做出一系列決策以完成某些復雜任務(例如構建網站),是序列決策的核心問題。將基礎模型研究和序列決策研究結合起來具有巨大的優勢。一方面,基礎模型中的廣泛知識可以提高決策算法的樣本效率和泛化能力。另一方面,決策算法可以對原本與任務無關的基礎模型進行任務特定的優化。本論文研究了基礎模型在決策制定中的技術、框架和算法,并展示了如何將基礎模型中的廣泛知識有效轉化為任務特定的決策,以更好地解決廣泛的問題和應用。 本論文通過從傳統的決策制定技術開始,研究在離線數據集設置下的基礎模型在決策制定中的應用,隨后逐步引入更廣泛的數據,最終整合互聯網規模的視覺和語言數據。我們將對利用基礎模型解決序列決策問題的理論方面和實際應用方面給予高度關注。本論文的工作基于先前關于序列決策的研究思想,但新提出的方法展示了更高的全面性和可擴展性。 本章的其余部分組織如下。第1.1節介紹了基礎模型,這是一種在互聯網規模數據上訓練的機器學習模型。本節討論了訓練基礎模型的常見技術,包括表示學習和生成建模。隨后描述了基礎模型的局限性,包括指令遵循、長時間推理、多步驟規劃和多模態處理。然后概述了本論文如何通過結合決策制定技術來應對其中的一些挑戰。第1.2節描述了序列決策的典型設置和常見的決策制定算法,包括模仿學習、強化學習、搜索和規劃。接下來,本節重點介紹了序列決策的主要瓶頸,包括樣本效率和缺乏良好的視覺和文本表示。最后,簡要介紹了本論文如何通過結合基礎模型來應對這些挑戰。第1.3節闡述了本論文的貢獻,并總結了其結構。
在本論文中,我們發現隨機平滑的可證魯棒性是以類別不公平性為代價的。我們進一步分析了改進基礎模型訓練過程的方法及其局限性。對于通用的非平滑表征模型,我們發現自監督對比學習與監督的鄰域成分分析之間存在聯系,這自然地使我們提出了一個可以實現更高準確性和魯棒性的通用框架。此外,我們意識到當前基礎表征模型的評估實踐涉及在各種現實任務上進行大量實驗,這既耗費計算資源又容易導致測試集泄漏。為此,我們提出了一種更輕量級、保護隱私且健全的評估框架,通過利用合成數據來評估視覺和語言模型。
深度神經網絡對人眼難以察覺的對抗性擾動的脆弱性,自從開創性工作[170, 7]發表以來,已經引起了機器學習領域廣泛的關注。這一問題在多個機器學習領域中都是一個重要的關注點,從計算機視覺[170]到語音識別[17],無不如此。特別是在安全關鍵的應用中,如自動駕駛汽車和監控系統,幾乎無法容忍任何錯誤決策。因此,深度神經網絡中對抗樣本的存在,促使了對魯棒性量化的研究,以及旨在增強這種魯棒性的訓練算法的設計[42, 47, 95]。在本論文中,我們旨在理解和改進現代機器學習模型的表征魯棒性。
表征魯棒性指的是神經網絡模型中隱含空間的可靠性。這一概念在機器學習中尤為重要,因為網絡的隱藏層應該從輸入數據中捕捉到復雜的模式。在本論文中,我們將表征魯棒性定義為這些隱藏表示在面對不同輸入或擾動時,能夠維持理想的可信屬性的能力。理想的可信屬性可能包括準確性、公平性、對抗性魯棒性等。對于一個通用的表征網絡 Φ(?)\Phi(\cdot)Φ(?),隱含空間的自然選擇是表征網絡的輸出空間。這些構建的空間通過表征學習被專門訓練用于編碼關于輸入數據的關鍵信息,使網絡能夠通過一個簡單的任務特定下游網絡執行分類、回歸或生成等各種任務。另一方面,在平滑模型的背景下,平滑濾波器應用于整個基礎網絡
。因此,我們將直接將網絡的
視為評估表征魯棒性的目標空間。在這種情況下,我們特別感興趣的是基礎網絡和平滑網絡之間的不同表現。 研究表征魯棒性對于推動機器學習領域的發展至關重要,原因有以下幾點。首先,正如將在論文的后續章節中討論的那樣,對每個組件(如表征網絡、平滑操作符等)的深入理解有助于我們更加謹慎和意識到這些操作可能產生的副作用。這種理解也將為改進這些網絡設計奠定基礎。其次,隨著機器學習社區逐漸將重點轉向任務無關的預訓練和任務特定的微調,魯棒的表征變得越來越重要。在安全關鍵的應用中,由于脆弱表征導致的錯誤預測可能會產生嚴重后果。從這個角度來看,表征魯棒性是許多可信賴AI領域的基礎,因為預訓練的表征網絡將對任何基于它的機器學習系統的整體可信賴性產生貢獻。通過研究和增強表征魯棒性,可以構建更具彈性的AI系統,并防止錯誤的傳播。
在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。
本論文將因果關系與表示學習的思想結合在一起。因果模型通過描述每個變量受其直接原因影響的機制,提供了對復雜系統的豐富描述。因果模型支持對系統部分進行操作的推理,捕捉各種干預分布,從而有望解決人工智能(AI)的一些開放性挑戰,如規劃、在變化環境中的知識遷移或對分布變化的魯棒性。然而,因果模型在AI中更廣泛應用的一個關鍵障礙是需要預先指定相關變量,而這通常不適用于現代AI系統處理的高維、非結構化數據。同時,機器學習(ML)在自動提取此類復雜數據的有用和緊湊表示方面非常成功。因果表示學習(CRL)旨在通過學習具有因果模型語義的潛變量表示,結合ML和因果關系的核心優勢。在本論文中,我們研究并提出了不同CRL設置的新結果。一個核心主題是可識別性的問題:給定無限數據,何時保證滿足相同學習目標的表示是等價的?這可以說是CRL的重要先決條件,因為它正式表明了一個學習任務在原則上是否可行。由于學習因果模型——即使沒有表示學習成分——是出了名的困難,我們需要在模型類或豐富數據上超越經典的獨立同分布(i.i.d.)設置進行額外的假設。對于從i.i.d.數據中進行無監督表示學習,我們開發了獨立機制分析,這是一種對映射潛在變量到觀察變量的混合函數的約束,已證明可以促進獨立潛在變量的可識別性。對于從非獨立觀測對中學習的多視圖設置,我們證明了始終在視圖間共享的不變潛在塊是可識別的。最后,對于從單節點完美干預產生的非同分布數據集中學習的多環境設置,我們表明潛在變量及其因果圖是可識別的。通過研究和部分描述不同設置下的可識別性,本論文探討了在沒有直接監督的情況下,CRL的可能性和不可能性,從而為其理論基礎做出貢獻。理想情況下,所發展的見解可以幫助指導數據收集實踐,或激發新實用估計方法和算法的設計。
本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。
我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。
支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。
機器學習模型對抗性攻擊的脆弱性的理解日益重要。在對抗性機器學習中,一個基本問題是在存在所謂的規避攻擊的情況下量化需要多少訓練數據,其中數據在測試時會被損壞。在本論文中,我們采用了“球內精確性”概念,從學習理論的角度研究了對抗性魯棒學習的可行性,考慮樣本復雜性。我們首先得出了兩個負面結果。我們證明,在無分布設置下,任何非平凡的概念類都不能在對手能夠擾動單個輸入位的情況下得到魯棒學習。然后,我們展示了樣本復雜性的下界:單調合取的類以及布爾超立方體上的任何超類,其樣本復雜性至少是對手預算(即每個輸入上可以擾動的最大位數)的指數函數。特別地,這意味著在均勻分布下,不能對那些可以擾動輸入的 ω(log n) 位的對手進行魯棒學習。
作為獲得魯棒性學習保證的第一條途徑,我們考慮限制用于訓練和測試數據的分布類別。我們關注概率分布在輸入數據上滿足Lipschitz條件的學習問題:附近的點具有類似的概率。我們證明,如果對手被限制在擾動 O(log n) 位的情況下,那么可以在對數Lipschitz分布類別的條件下魯棒地學習單調合取類。然后,我們擴展了這一結果,展示了在相同的分布和對抗環境中學習 1-決策列表、2-決策列表和單調 k-決策列表的可行性。最后,我們展示對于每個固定的 k 值,k-決策列表類在 log(n) 有界對手條件下具有多項式樣本復雜性。考慮中間的 k-決策列表子類的優勢在于,我們能夠為這些情況獲得改進的樣本復雜性界限。
作為第二條途徑,我們研究了學習模型,其中學習者通過使用局部查詢獲得了更多的能力。我們首先考慮的學習模型使用局部成員查詢(LMQ),在該模型中,學習者可以查詢接近訓練樣本的點的標簽。我們證明,在均勻分布下,即使在學習者除了隨機示例外還可以訪問LMQ的情況下,對于擾動預算為 O(log n) 的對手,魯棒學習合取類和任何超類對于對數Lipschitz分布仍然不可避免地需要對對手的預算呈指數依賴。面對這個負面結果,我們引入了局部等價查詢預測器,該預測器返回假設和目標概念在訓練樣本中的某個點周圍區域內是否一致,以及如果存在反例的話也會返回反例。我們證明了一個分離結果:一方面,如果查詢半徑 λ 嚴格小于對手的擾動預算 ρ,那么在多種概念類別中是不可能進行無分布魯棒學習的;另一方面,當 λ = ρ 時,我們能夠在無分布環境中開發出魯棒的經驗風險最小化算法。然后,我們基于在線學習保證來限制這些算法的查詢復雜性,并在合取式特殊情況下進一步改進這些界限。接著,我們提供了一個在 {0, 1} n 上的半空間魯棒學習算法。最后,由于在 R n 上的半空間查詢復雜性是無界的,我們轉而考慮具有有界精度的對手,并在這種情況下給出了查詢復雜性的上界。
本博士論文包含了對統計因果模型領域的幾個貢獻。統計因果模型是嵌入因果假設的統計模型,允許對受外部操縱(干預)影響的隨機系統的行為進行推斷和推理。本文在因果效應估計、因果結構學習和分布魯棒(非分布廣義)預測方法等方面進行了深入的研究。我們提出了新的和一致的線性和非線性因果效應估計工具變量設置,采用數據依賴的均方預測誤差正則化。我們提出的估計量顯示,在某些情況下,均方誤差比標準和最先進的估計量都有所改善。我們表明,最近對分布穩健預測方法的研究與計量經濟學中經過充分研究的估計量有關。由此證明了一般k類估計具有分布魯棒性。此外,我們提出了一個關于干預誘發分布的分布穩健性的一般框架。在這個框架中,我們推導了分布魯棒預測方法可識別的充分條件,并給出了一些不可能的結果,證明了這些條件的必要性。提出了一種新的結構學習方法,適用于以有向樹為因果圖的加性噪聲模型。我們證明了消失可辨識性設置中的一致性,并提供了一種方法來檢驗具有漸近家族誤差控制的子結構假設,該方法在選擇后仍然有效。最后,我們提出了學習非線性時間序列模型總結圖的啟發式思想。