**本論文提出了用于在隨時間變化的曲面上進行穩健計算的算法和數據結構。在科學和幾何計算中,曲面通常被建模為三角網格。然而,找到高質量的網格仍然是一個挑戰,因為網格扮演著兩個截然不同且常常相互沖突的角色:既定義曲面幾何形狀,又定義該曲面上的函數空間。****解決這一難題的一種方法是使用內在三角剖分來解耦這兩個問題。其核心思想是,給定一個代表輸入曲面的三角網格,可以找到許多替代的三角剖分,它們編碼相同的內在幾何信息,但提供不同的函數空間。這項技術使得找到高質量的內在三角網格變得更加容易,從而避開了傳統網格構造中的折衷問題。然而,內在三角剖分正是因為能夠精確地保持輸入幾何形狀——這一技術的核心優勢——也使得其在應用于隨時間變化的曲面時變得具有挑戰性。**在本論文中,我們放寬了對精確幾何保持的假設,允許內在視角應用于時間演變的曲面。我們以網格簡化和曲面參數化問題為例。在網格簡化問題中,我們提供了一種通用的數據結構,用于內在三角剖分,這些剖分僅共享輸入曲面的拓撲類別,但可能具有不同的幾何形狀。在曲面參數化問題中,我們為幾何形狀以共形方式變化的特殊情況構建了更高效的數據結構和算法,利用了離散共形映射與超幾何學之間的聯系。在這兩種情況下,我們發現內在視角導致了簡單的算法,這些算法在各種示例上仍然穩健且高效。
圖像和自然語言在現實世界中非常常見。然而,生成具有高度藝術性的圖像和具有世界知識的文檔仍然具有挑戰性,尤其是當圖像和文本作為多模態數據處理時。開發一個能夠同時處理多模態數據的高效生成模型非常重要。此外,生成模型的特征展示了良好的語義屬性,受到這一啟發,將判別模型和生成模型集成到一個單一模型中將是一個非常有意義的任務。本論文旨在從三個方面改進生成模型:從數據角度重新思考基于擴散的生成模型,通過概率建模統一判別模型和生成模型,以及在多模態數據下的數據生成。 當前的深度生成模型是數據驅動的,但訓練方案大多是手工設計的,這需要為新的場景進行適應。因此,從數據角度出發,我們對基于擴散的生成模型進行了全面的實證分析。基于我們的調查,我們提出了一種新的度量標準——加權信噪比(WSNR),可以一致地量化RGB空間和潛在空間中的噪聲水平。這個度量標準使我們能夠建立WSNR等效訓練噪聲調度,顯著提升高分辨率模型在這些領域中的性能。此外,我們通過常微分方程(ODE)框架深入探討了反向采樣過程,闡明了數據驅動的采樣策略。最后,我們提出了一種適應性方案,在計算約束下選擇數值方法,平衡效果和效率。 近期的生成模型表明,它們的內部表示空間與語義概念相關。受到此啟發,我們提出通過概率建模統一判別模型和生成模型。具體來說,我們提出了一種基于能量的分類器和生成器,簡稱EGC,它可以通過一個神經網絡在兩個任務中都取得優異的性能。與傳統的分類器不同,傳統分類器根據給定的圖像生成標簽(即條件分布p(y|x)),而EGC中的前向傳遞是一個分類模型,輸出聯合分布p(x, y),在反向傳遞中,通過邊緣化標簽y來估計得分函數,從而啟用擴散模型。此外,EGC可以通過將標簽視為潛在變量來適應無監督學習。這項工作標志著使用統一的網絡參數集掌握這兩個領域的首次成功。我們相信,EGC彌合了判別學習和生成學習之間的鴻溝。 在實際應用中,大多數生成問題都涉及圖像和文本。視覺語言模型(VLMs)通過大語言模型的整合經歷了快速發展,但由于有限的空間意識和使用粗粒度的區域特定訓練數據,它們在區域視覺理解方面仍然存在困難。為了解決這個問題,我們提出了RegionGPT(RGPT),一個旨在處理復雜多模態區域級標注和理解的新框架。RGPT通過對現有視覺編碼器進行簡單而有效的修改,增強了區域表示的空間意識。我們證明,通用的RGPT模型可以有效地應用,并顯著提升多模態區域級任務的性能,包括但不限于復雜的區域描述、推理、物體分類和指代表達理解。
本論文提出了一些方法,用于從科學模擬器中學習數據的統計模型。由于其復雜性,科學模擬器的設計和運行成本較高。此外,求解反問題(即確定需要向模擬器提供哪些輸入,以輸出“匹配”實驗室中觀測到的模擬結果)通常是難以求解的。我們開發了生成模型,使我們能夠創建更多的合成數據或利用這些模擬器解決反問題。 第一個研究領域是基于模擬的推理 (Simulation-based Inference),該方法利用生成模型從輸出觀測中推斷輸入參數。主要貢獻如下:
第二個研究領域是將生成模型應用于提出穩定的晶體結構,以增強材料的性能,如用于電池和半導體技術。
近年來,語言模型(Language Models, LMs)已被確立為大多數自然語言任務中最具能力的模型。然而,除了Transformer架構的發明,大多數進展主要依賴于模型和數據規模的擴展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。這種擴展使得這些模型在標準自然語言基準上能夠與人類水平持平甚至超越。然而,盡管這些模型版本不斷迭代,其推理能力、可解釋性和學習能力依然與人類存在差距并較為遜色。自然語言解釋(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神經網絡的語言模型(Bengio et al., 2003)的研究,部分原因是其起步較晚。此外,LMs仍然通過反向傳播進行訓練,這種方式效率較低且與人腦的工作方式根本不同。在本論文中,我展示了使語言模型在自然語言理解和生物學合理性上更具類人特征的研究進展。首先,我研究了一組測試自然語言理解的具有挑戰性的問題集,即代詞解析的難例,如Winograd模式挑戰。我特別提出了通過合成訓練數據集、專用損失函數以及任務重構對語言模型進行代詞解析訓練的改進方法。其次,我利用語言模型在常識推理任務(如代詞解析難例和常識驗證)上生成自然語言解釋。我展示了語言模型可以高效地在不同領域之間轉移自然語言解釋,同時在下游任務中獲得較高準確率。最后,我探索了基于更符合生物學原理的預測編碼訓練方法用于語言模型的訓練,這種方法可能成為超越反向傳播的深度學習未來方向(Millidge et al., 2022)。我展示了這些方法在語言模型訓練中的首次應用,研究了其最佳實現方式、可擴展性,并確定了最佳使用方法,展示了在小型語言模型中與反向傳播具有競爭力的結果。
因果機器學習 (Causal ML) 處理多種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大規模數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果機器學習方法中的不確定性。為了有效處理海量信息并預測復雜關系,可擴展性至關重要。隨著模型規模的擴大和靈活性增強,傳達未知信息變得愈發重要。我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性是在將機器學習模型擬合到有限數據集時產生的。解決這種不確定性可以預測一系列可能的因果效應,并隨著訓練樣本的增加而縮小范圍,從而有助于做出更明智的決策,并指出需要進一步理解的領域。結構不確定性則來自對因果結構的不精確認知,通常需要對數據生成過程或與世界的交互做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果機器學習方法。我們展示了在因果機器學習算法設計和應用中考慮可擴展性和不確定性的重要性,從而增強決策能力和知識獲取。我們的研究貢獻旨在推動因果機器學習領域的發展,并為未來研究奠定基礎。
因果機器學習 (CML) 涵蓋了多種任務,包括因果效應推斷、因果推理、因果結構發現以及因果表示學習。CML 為數據驅動算法提供了一種系統的方法,通過整合領域知識、表達建模假設的豐富語言,以及理解機器學習預測失敗原因的理論來增強其能力。本論文探討了適用于大規模數據集并處理復雜高維輸入輸出模式(如圖像、文本、時間序列和視頻)的可擴展 CML 方法中的不確定性。在大數據時代及復雜的現實世界問題中,可擴展性至關重要,因為它使 CML 算法能夠高效地處理和學習海量信息,同時建模預測復雜關系所需的上下文。
隨著模型規模的擴大和靈活性的提升,傳達未知信息變得越來越重要。挑戰在于將系統化的分析不確定性的方法應用到可擴展的方法中。解決不確定性對于做出更明智的決策以及識別我們需要學習的內容至關重要。基于這一點,我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。 統計不確定性,通常稱為認知不確定性,出現在將機器學習模型擬合到有限數據集時。解決這種不確定性有助于預測一系列可能的因果效應,并隨著訓練樣本數量的增加而縮小范圍。這一數值范圍不僅能夠促進更明智的決策,還能指出我們需要進一步理解的狀態或個體。然而,統計不確定性需要以正確的世界模型為前提。此時,結構不確定性變得相關,因為它源于對問題中潛在因果結構的不精確認知。通常,緩解結構不確定性需要對數據生成過程或與世界的交互做出進一步假設。盡管如此,CML 仍可以基于額外的領域知識傳達因果關系的不確定性,從而更好地為決策提供信息。
在本論文中,我們開發了能夠有效應對統計和結構不確定性的創新性可擴展 CML 方法和技術。我們展示了在設計和應用 CML 算法時考慮可擴展性和不確定性的重要性,因為它們增強了模型的魯棒性和泛化能力。我們的貢獻旨在推動 CML 領域的發展,并為未來在該領域的研究奠定堅實基礎。
物理啟發的生成模型(如擴散模型)構成了一類強大的生成模型家族。該模型家族的優勢在于相對穩定的訓練過程和強大的容量。然而,仍有許多可能的改進空間。在本論文中,我們首先將深入探討擴散模型在訓練和采樣方面的改進技術。擴散模型的訓練目標在數據分布為多模態時呈現出較高的方差。為了解決這一問題,我們提出了一種訓練目標,它推廣了傳統的去噪得分匹配方法,顯著減少了訓練目標的方差。除此之外,我們還引入了一種將可學習的離散潛變量整合到連續擴散模型中的訓練框架。這些潛變量簡化了擴散模型復雜的噪聲到數據映射的學習過程。
另一方面,擴散模型的采樣過程通常涉及求解微分方程。為加速采樣過程,我們提出了一種新穎的采樣算法,結合了之前常見的ODE和SDE采樣器的優點,大幅提升了預訓練擴散模型的性能。此外,我們的研究探索了在有限樣本中引入互斥力以促進生成過程中的多樣性。 在物理啟發的生成模型領域,許多物理過程都可以用于開發生成模型。我們將介紹一類基于靜電理論的新生成模型家族,稱為泊松流生成模型(PFGM)。PFGM在采樣穩健性上表現出色,并與領先的擴散模型相媲美。其擴展版本PFGM++將擴散模型和PFGM置于同一框架下,并引入了新的、更優的模型。我們還將提出一種系統化的方法,將物理過程轉化為生成模型。
生成模型在近年來顯著改變了人們工作的、創作的和學習的方式。其突出應用包括ChatGPT [1]、文本到圖像模型 [2]-[4]、文本到3D模型 [5]、[6] 和文本到視頻模型 [7]、[8]。這些能力可以極大地激發創造力,并提高眾多領域的工作效率,包括教育、游戲產業、社交媒體和專業編輯軟件。生成模型的訓練基于這樣一個假設,即訓練數據是從未知的數據分布中采樣的 [9]。現代生成模型通常使用深度神經網絡來基于有限的訓練數據逼近復雜的數據分布,并通過從這些建模的分布中采樣來生成新的數據點。
在生成建模中使用的各種數據類型中,高維數據由于維度詛咒而面臨著顯著的挑戰。隨著維度的增加,數據空間的體積呈指數級擴展。這一現象使得在高維空間中用有限的訓練數據有效捕獲和建模數據分布變得困難。此外,感興趣的數據分布通常高度復雜且呈多模態,進一步增加了生成建模的難度。近年來,擴散模型 [10]–[12] 以及更廣泛的物理啟發生成模型 [13],在處理高維數據的生成任務中,展現了強大的框架并取得了令人印象深刻的結果。在擴散模型之前,主要的方法包括:(i)利用對抗訓練目標的生成對抗網絡(GANs [14]);(ii)使用最大似然目標訓練的模型,如PixelCNN [15] 和正規化流模型 [16]、[17];(iii)變分自編碼器(VAEs)[18]、[19] 以及(iv)基于能量的模型 [20]、[21]。然而,每種方法都有其自身的缺點:(i)可能導致訓練不穩定和生成樣本的多樣性低;(ii)需要特定的架構設計,可能限制模型的容量;(iii)需要多個神經網絡的仔細協調;(iv)訓練和采樣速度較慢。利用自然的物理過程作為編碼器將數據轉化為噪聲,擴散模型通過逆轉這些物理過程來執行生成任務。這種方法使它們繞過了早期生成模型的許多限制。
1.1 通過逆轉物理過程進行生成建模
基于熱力學的原理 [10],擴散模型涉及兩個對立的過程:一個前向過程將數據分布逐漸轉化為一個更簡單的先驗分布,另一個反向過程通過逐步去噪從該噪聲先驗分布中生成樣本。擴散模型中的前向過程是一個簡單的布朗運動,通過逐步增加高斯噪聲來降解數據。為了逆轉這一過程,只需學習一個時間依賴的向量場,即得分函數,并迭代求解一個微分方程 [22]。與GANs和VAEs不同,擴散模型的訓練不需要多個神經網絡之間的同步,從而使訓練過程更加穩定。此外,它們在架構設計上不受限,采用類似于神經網絡串聯的迭代過程,從而增強了整體容量。這種穩定性和增強的容量使擴散模型能夠有效擴展到大規模數據集。
盡管擴散模型具有諸多優勢,但它們仍面臨一些挑戰,包括在處理多模態數據時高方差的訓練過程,以及緩慢的迭代采樣過程。此外,獨立同分布(i.i.d.)的采樣過程往往會導致重復的樣本。這些問題強調了在復雜數據集上穩定和改進擴散模型訓練方法的必要性,并且需要新技術來加速采樣過程并提高小批量樣本的多樣性。此外,擴散模型只是眾多物理啟發生成模型之一。除布朗運動外,仍有許多物理過程尚未開發,可以用來構建生成模型。這引出了一個重要問題:我們能否發現其他物理啟發的生成模型,它們展示出更好的性能?在接下來的部分中,我們將簡要總結擴散模型的改進訓練和采樣技術,并討論我們開發其他物理啟發生成模型的研究,這些將在后續章節中詳細闡述。
1.1.1 擴散模型的改進訓練技術
擴散模型的訓練利用了一種擾動-去噪方法來估計向量場。其過程是先通過高斯噪聲擾動干凈的數據,然后網絡從這些擾動樣本中重構原始數據 [12]。然而,對于復雜的多模態數據,許多干凈的數據點可能被擾動為相似的噪聲樣本,導致訓練目標不明確并引發不穩定性。
在文獻 [23] 中,我們通過多個干凈數據點的加權求和來估計真實目標,精確地指示從擾動樣本到真實向量場的方向。該新穎的訓練目標推廣了傳統的單點估計方法,顯著減少了訓練目標中的方差。因此,在各種擴散模型變體中,樣本質量得到了提高,訓練過程更加穩定,訓練速度也得到了加快。
擴散模型面臨的另一個挑戰是,需要學習一個從單峰高斯分布到多峰數據分布的非線性且高度復雜的映射。這種復雜性增加了訓練的難度,并導致生成常微分方程(ODE)[24] 軌跡呈現強烈的曲率。為解決這一問題,我們在擴散模型中引入了離散潛變量。這些離散潛變量有助于捕獲數據分布中的不同模式,而擴散模型的任務則轉變為基于給定的離散潛變量捕獲每個模式內的連續變化。離散與連續變化的分離建模顯著簡化了模型復雜的噪聲到數據映射的學習過程。這一方法有效降低了擴散模型生成ODE的曲率,尤其是在較大的擴散時間下,整體訓練損失得到了減少。
1.1.2 擴散模型的改進采樣技術
在擴散模型的采樣過程中,求解微分方程通常涉及速度和質量之間的權衡。確定性采樣器(基于ODE的)[25]–[27] 速度快,但性能達到平臺期,而隨機采樣器(基于SDE的)[27]、[28] 樣本質量更好,但速度較慢。我們的分析將這種差異歸因于采樣誤差:ODE采樣器的離散化誤差較小,而SDE中的隨機性會收縮采樣過程中的累積誤差 [29]。
基于這些見解,在文獻 [29] 中,我們提出了一種名為Restart的新采樣算法,該算法結合了ODE和SDE的優點。該方法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。前向噪聲的引入增強了隨機性的收縮效應,而逆ODE過程的遵循則加快了采樣速度。這種將隨機性和確定性采樣過程分離的方法極為有效,Restart在標準基準(CIFAR-10和ImageNet-64)上超過了SDE和ODE采樣器的速度和質量,并在大規模文本到圖像的Stable Diffusion模型中展示了文本-圖像對齊、視覺質量和多樣性的卓越平衡。
傳統上,擴散模型從模型分布中生成獨立同分布的樣本。然而,在實際操作中,模型通常需要多次采樣以獲得一組多樣化的小批量樣本,這會帶來與采樣時間無關的成本。我們提出超越獨立樣本假設,以提高樣本的多樣性和效率。我們的方法引入了一種擴展的基于擴散的生成采樣方法,稱為粒子引導。在這種方法中,聯合粒子的時間演化勢通過在樣本(粒子)之間加入互斥力來強制多樣性。根據實驗結果,我們的框架在文本到圖像生成和分子構象生成等應用中提高了樣本的多樣性并減輕了記憶效應。
1.1.3 基于其他物理過程的生成模型
以擴散模型為顯著例子,物理啟發的生成模型包含一個前向過程,該過程將復雜的數據分布簡化為逐步的先驗分布,隨后通過一個反向過程(即采樣過程)逐步將這些先驗分布還原為原始數據分布。因此,為了定義新的物理啟發生成模型,必須確定一個合適的前向過程。該過程應自然地隨著時間簡化數據分布,并且是可逆的,同時其相關的向量場應該易于被神經網絡學習。 借助靜電學原理,我們為物理啟發的生成模型開辟了一條新路徑,并介紹了泊松流生成模型(Poisson Flow Generative Models, PFGM)[30] 及其擴展版本PFGM++ [31]。PFGM將數據解釋為增廣空間中的電荷。如圖1.1所示,當我們從數據支撐遠離足夠遠時,電荷分布坍縮為一個點電荷,電場在各個方向上呈現輻射狀。因此,可以證明這些電荷發出的電場線定義了數據分布和大半球上均勻分布之間的雙射。實驗結果表明,這一新模型家族在樣本質量、采樣速度和穩健性方面超越了擴散模型。此外,我們還探索了物理過程和生成模型之間的對偶性,旨在概念化和設計更多新的物理啟發生成模型 [13]。
本論文分為三個主題部分。下面簡要概述每個部分的內容。 第一部分 重點開發新技術,旨在穩定擴散模型的訓練,并在處理復雜的多模態數據集時,優化生成軌跡。
第三章 我們通過引入參考批次來解決擴散模型目標中的高方差問題,并使用參考批次計算加權條件得分,作為更穩定的訓練目標。我們展示了這一過程在具有挑戰性的中間階段中,通過減少訓練目標協方差(的跡)確實起到了幫助作用。本章基于文獻 [23]。
第四章 我們通過一個編碼器推斷可學習的離散潛變量,并對擴散模型和編碼器進行端到端訓練。離散潛變量通過降低擴散模型生成ODE的曲率,顯著簡化了其復雜的噪聲到數據映射的學習過程,并通過ODE采樣器提高了在各種數據集上的樣本質量。本章基于文獻 [32]。
第二部分 討論了加速擴散模型采樣過程的技術,以及通過施加樣本之間的互斥力來促進多樣性。所有討論的技術都不需要重新訓練,且可以直接應用于任何預訓練的擴散模型。
第五章 我們提出了一種名為Restart的新采樣算法,結合了先前ODE和SDE采樣器的優勢。Restart算法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。實驗結果表明,Restart采樣器在速度和精度上均超過了先前的SDE和ODE采樣器。本章基于文獻 [29]。
第六章 我們提出了粒子引導,一種擴展的基于擴散的生成采樣方法,其中通過一個聯合粒子的時間演化勢來強制樣本多樣性。在條件圖像生成中,我們測試了該框架,并證明其在不影響質量的情況下增加了多樣性;在分子構象生成中,我們改進了相較于先前方法的中位誤差。本章基于文獻 [33]。
第三部分 探討了一類新型的生成模型,這些模型基于靜電理論,并與擴散模型在擴展視角下進行了統一。本部分還展望了通過物理過程構建生成模型的方法論。
第七章 我們介紹了一種新型生成模型——泊松流生成模型(PFGM),基于靜電理論。我們將數據點解釋為增廣空間中 z=0 超平面上的電荷,生成一個高維電場(泊松方程解的梯度)。我們證明了,如果這些電荷沿電場線向上流動,它們在 z=0 平面的初始分布會轉化為半徑為 r 的半球上的分布,并且在 r → ∞ 時變得均勻。我們展示了PFGM在圖像生成速度上提供了比先前最先進擴散模型更好的性能。本章基于文獻 [30]。
第八章 我們擴展了PFGM中使用的靜電理論,將擴散模型與PFGM統一起來。更有趣的是,在兩者之間的插值揭示了一個性能最優的新平衡點,達到了圖像生成的新標桿性能。我們為為什么PFGM和擴散模型都是次優解提供了理論解釋。本章基于文獻 [31]。
第九章 我們提出了一個統一的框架和算法,將物理過程轉化為平滑的密度流生成模型。此外,我們基于底層物理偏微分方程(PDE)的色散關系,提出了一種分類標準。這種理論方法可應用于各種物理PDE,從而發現新的生成模型家族。本章基于文獻 [13]。
第十章 我們總結了論文內容并討論了當前的局限性。
在本論文中,我們發現隨機平滑的可證魯棒性是以類別不公平性為代價的。我們進一步分析了改進基礎模型訓練過程的方法及其局限性。對于通用的非平滑表征模型,我們發現自監督對比學習與監督的鄰域成分分析之間存在聯系,這自然地使我們提出了一個可以實現更高準確性和魯棒性的通用框架。此外,我們意識到當前基礎表征模型的評估實踐涉及在各種現實任務上進行大量實驗,這既耗費計算資源又容易導致測試集泄漏。為此,我們提出了一種更輕量級、保護隱私且健全的評估框架,通過利用合成數據來評估視覺和語言模型。
深度神經網絡對人眼難以察覺的對抗性擾動的脆弱性,自從開創性工作[170, 7]發表以來,已經引起了機器學習領域廣泛的關注。這一問題在多個機器學習領域中都是一個重要的關注點,從計算機視覺[170]到語音識別[17],無不如此。特別是在安全關鍵的應用中,如自動駕駛汽車和監控系統,幾乎無法容忍任何錯誤決策。因此,深度神經網絡中對抗樣本的存在,促使了對魯棒性量化的研究,以及旨在增強這種魯棒性的訓練算法的設計[42, 47, 95]。在本論文中,我們旨在理解和改進現代機器學習模型的表征魯棒性。
表征魯棒性指的是神經網絡模型中隱含空間的可靠性。這一概念在機器學習中尤為重要,因為網絡的隱藏層應該從輸入數據中捕捉到復雜的模式。在本論文中,我們將表征魯棒性定義為這些隱藏表示在面對不同輸入或擾動時,能夠維持理想的可信屬性的能力。理想的可信屬性可能包括準確性、公平性、對抗性魯棒性等。對于一個通用的表征網絡 Φ(?)\Phi(\cdot)Φ(?),隱含空間的自然選擇是表征網絡的輸出空間。這些構建的空間通過表征學習被專門訓練用于編碼關于輸入數據的關鍵信息,使網絡能夠通過一個簡單的任務特定下游網絡執行分類、回歸或生成等各種任務。另一方面,在平滑模型的背景下,平滑濾波器應用于整個基礎網絡
。因此,我們將直接將網絡的
視為評估表征魯棒性的目標空間。在這種情況下,我們特別感興趣的是基礎網絡和平滑網絡之間的不同表現。 研究表征魯棒性對于推動機器學習領域的發展至關重要,原因有以下幾點。首先,正如將在論文的后續章節中討論的那樣,對每個組件(如表征網絡、平滑操作符等)的深入理解有助于我們更加謹慎和意識到這些操作可能產生的副作用。這種理解也將為改進這些網絡設計奠定基礎。其次,隨著機器學習社區逐漸將重點轉向任務無關的預訓練和任務特定的微調,魯棒的表征變得越來越重要。在安全關鍵的應用中,由于脆弱表征導致的錯誤預測可能會產生嚴重后果。從這個角度來看,表征魯棒性是許多可信賴AI領域的基礎,因為預訓練的表征網絡將對任何基于它的機器學習系統的整體可信賴性產生貢獻。通過研究和增強表征魯棒性,可以構建更具彈性的AI系統,并防止錯誤的傳播。
分布變遷仍然是成功和可靠部署機器學習(ML)系統的重大障礙。解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現;同樣重要的是,通過仔細實驗AI系統,理解它們在實際分布變遷下的失敗。本論文描述了我在構建可信賴和可靠的機器學習基礎方面的工作。調查的工作大致分為三個主要類別:(i)設計正式的、實用的真實世界分布變遷結構表征;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這種變遷;以及(iii)實驗現代ML系統,理解現實世界重尾和分布變遷的實際影響,包括平均情況和最壞情況。
第一部分描述了可擴展地認證深度神經網絡對對抗攻擊的穩健性的工作。所提出的方法可用于認證對測試樣本、訓練數據或更一般地對任何影響模型最終預測的輸入的攻擊的穩健性。在第二部分中,我們關注變遷的潛變量模型,借鑒因果關系和其他結構化編碼的概念。我們展示了這些模型如何通過環境/干預復雜性這一新視角,進行使用多種分布進行穩健深度學習的方法的正式分析。環境/干預復雜性是領域泛化和因果表示學習的核心統計測量,通過訓練分布數量和多樣性來量化誤差和/或結構化可識別性條件。最后,在第三部分中,我們廣泛探索了更好地理解和利用自然數據中的變化的方法,并展示了所得見解如何促進設計在現實世界中更加穩健和可靠的新方法。
預測算法通過其在未見測試數據上的表現來評估和重視。在經典的機器學習(ML)中,通常假設這些數據是相互獨立地從與訓練算法所用數據集相同的分布中抽取的(這被稱為IID假設)。然而,在現實世界中,這種情況幾乎從未滿足。IID假設作為一種有價值的抽象,用于研究如何高效且可靠地從數據中學習。然而,統計學家早已明白這一假設是一種過度簡化,現實世界的數據底層分布不斷發生變遷:例如,時間上的變遷、異質子群體間的變遷、因過去行為而引發的變遷等。由于現實與理想化的IID數據假設之間的這種差異,在分布內提供強泛化保證的算法(如經驗風險最小化[Vapnik, 1999])在現實世界中會出乎意料地失敗,通常伴隨著高置信度且無事先警告。特別是,盡管現代深度神經網絡在許多任務上實現了超人表現,但越來越多的證據表明,其令人難以置信的泛化能力主要限于測試數據與訓練數據非常相似的情況下。這些模型似乎依賴于數據的統計信息表示——出于尚未完全理解的原因——遠遠超越了對訓練數據的簡單記憶,但這些表示通常不能使其泛化到新領域或新任務。即使是對于看似微不足道的人類變化,這種情況也依然存在(Beery et al., 2018; Geirhos et al., 2018)。因此,現代最先進的生成和判別深度網絡在部署中是脆弱的,并且在出人意料的輕微分布變遷下容易出錯(Su et al., 2019; Recht et al., 2019)。
在考慮如何解決這一弱點時,人們可能會想象使得上述深度學習取得實際成功的方法最終也能解決這個問題。過去十年ML研究驚人速度的主要推動力是“基準測試方法”:通過對代表性基準數據集的一系列任務進行一致的、逐步的改進來推進。盡管這一策略的成功是不可否認的,但顯然它不足以實現真正穩健和可靠的ML未來。人工智能(AI)正在迅速部署到無數新的領域——并且只會變得更加普遍——但它尚不能被廣泛依賴,而意外失敗的潛在成本仍在增加。同時,在現實世界中引發這種失敗的變遷例子比比皆是:例如,自動駕駛汽車遇到的簡單景觀和/或天氣變化,或者用戶調整其行為以增加他們首選結果的可能性(Hardt et al., 2016)。更糟糕的是,AI越來越多地被用于安全關鍵環境,這在面對有意的對手時呈現出嚴重的安全漏洞(Sharif et al., 2016)。這種脆弱性仍然是進一步可信賴部署ML系統的重大障礙。
解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現。但是,顯然對所有分布變遷的穩健性是不可行的。相反,我們必須首先設計精確、現實的真實世界分布變遷的數學定義:通過正式指定我們希望穩健應對的變遷的“威脅模型”,我們將能夠朝著正式的穩健性保證可靠地前進。同時,ML理論和實踐(特別是在深度學習中)之間經常存在不匹配,因此單單數學定義變遷是不夠的。我們還需要仔細實驗AI系統,以理解它們在實際中的失敗模式——只有通過這樣的實驗,我們才能理解和調和現實世界數據與我們的數學理解之間的差異。反過來,這將推動新型、更可靠且可解釋的ML方法的發展,對性能產生實際的下游益處。
本論文描述了通過結合這兩種核心方法,為可信賴和可靠的機器學習奠定基礎的進展。更具體地說,所調查的工作大致分為三大類:(i)設計正式的、實用的真實世界分布變遷結構表征,包括良性和對抗性的;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這些變遷;以及(iii)實驗現代ML系統,以理解分布變遷的實際影響,包括平均情況和最壞情況,以便未來的分析能夠更好地捕捉我們期望AI在未來遇到的困難類型。
本論文的第一部分描述了大規模認證深度神經網絡對抗攻擊穩健性的工作。第2章展示了如何將任何在高斯噪聲下分類良好的分類器轉變為對?2范數下的對抗擾動具有認證穩健性的新分類器。我們證明了使用高斯噪聲平滑在?2范數下的緊密穩健性保證,獲得了一個在ImageNet上在?2范數小于0.5 (=127/255) 的對抗擾動下具有49%認證top-1準確率的分類器。在第3章中,我們展示了如何使用所提出的方法來認證對更一般的攻擊的穩健性,例如對訓練數據的對抗性修改,或更一般地說,任何影響模型最終預測的輸入。
第二部分側重于變遷的潛變量模型,靈感來自因果關系和其他提出的真實世界變化的結構化編碼。我們展示了這些模型的重要性及其如何使使用多種分布進行穩健深度學習的方法的形式化分析成為可能。特別是,我們通過環境/干預復雜性這一新視角研究這些算法的行為——這是領域泛化和因果表示學習的核心統計測量,通過觀察的環境數量來量化誤差和/或潛在特征的可識別性。第4章在一個相當自然和一般的模型下,首次分析了為這些任務提出的各種目標下的分類。我們還在非線性領域中展示了這些方法的首個結果:除非測試數據與訓練分布足夠相似,否則這些方法可能會災難性地失敗。隨后在第5章中,我們提供了改進的分析以及更強的下界。第6章考慮了在線領域泛化的設置,首次正式量化了領域“插值”和“外推”之間的計算復雜性差距。
論文的最后一部分廣泛探索了更好地理解和利用自然數據中的變化的方法。首先,在第7章中,我們展示了預訓練特征足以生成比以前認為的更穩健的預測器。第8章描述了這一發現如何使得使用未標記的測試數據以證明神經網絡適時適應變遷,或給出(幾乎)有證明的非空的測試誤差界成為可能。接下來,第9章開發了一種穩健優化方法用于策略分類,使得雙重穩健預測能夠優雅地處理策略響應和用戶成本函數中的不可避免的不確定性。最后,第10章展示了離群值對神經網絡優化的顯著影響——這一結果為理解自然數據的重尾如何影響網絡行為提供了新的見解,并提出了神經網絡優化中各種現象起源的更一致的圖景。
這篇論文的目標是通過交互學習來提高AI代理的知識表示能力,使其能夠有效地規劃并適應環境中的變化。論文的貢獻橫跨三個主題:學習和利用選擇性注意力、時間抽象和可供性;目標是獲得促進規劃、超出分布泛化和快速適應的知識表示。 本工作的一個中心假設是,橋接狀態和行動對于強化學習(RL)代理發展廣泛智能行為是關鍵。我們首先關注利用計算模型來模擬人類視覺注意力,然后引入興趣函數來學習專業化的、可復用的技能,以便快速適應和泛化到新的獎勵動態中。接著,我們為RL代理發展了一個可供性的理論,并形式化了時間抽象的部分選項模型,旨在加快規劃和更好的泛化。 展望持續性RL的目標,我們回顧了這個問題的現有定義,提出了一種方法的分類,并提供了文獻中使用的基準和理解代理性能的重要指標的概述。最后,我們研究了在線元強化學習設置下模型不確定性下的規劃問題,并展示了規劃視界依賴于任務數量、每個任務的樣本數量和底層任務相似性的概念。
這篇論文的目標是為發展能夠處理所觀察數據(“看”)、學習表示知識(“思”)并利用獲得的信息進行規劃(“行”)的人工智能(AI)系統貢獻力量,這些系統具有隨時間適應變化的能力。這類代理的應用包括:通過表示為時間上抽象的行為(跨多個時間步發生,例如“螺絲緊固件-一起”)的自動化倉庫裝配、在日常任務中為人類提供個人助理,這些任務需要抽象行動(例如“開門”)、通過跨多個時間步的推理來促進各種面向用戶服務的自動化控制,如網頁導航(例如“預訂票”)、輔助技術,能夠在不同情況下確定行動的可能性(即可供性),以在變化的環境中實現高級目標,如用于醫院中的機器人導航等。 在這篇論文中,我們在強化學習(RL)(Sutton和Barto,1998b)的背景下追求這一目標,RL是一個框架,它使得一個交互式的決策代理能夠學習如何在處理不確定性和有限的環境數據時實現目標。RL范式源自于實驗心理學中的動物學習,并從神經科學中汲取了想法。例如,研究人員提供了關于人類能夠選擇性地關注視覺輸入的某些部分(Borji等,2012;Judd等,2009)、收集相關信息,并順序地結合觀察結果以在不同的時間尺度上構建表示(Hayhoe和Ballard,2005;Zhang等,2019b),這可以指導感知和行動(Dayan等,2000;Kahneman,1973)。值得注意的是,在所有這些案例中,對狀態和行動的良好理解都是至關重要的。為了提高RL代理在現實世界問題中的適用性和可擴展性,關鍵是要在狀態和行動之間架起橋梁,以促進快速適應、健壯的泛化以及更高效地學習模型的更快規劃。 雖然在推進RL的最新技術方面取得了巨大進展(Silver等,2016;Vinyals等,2019),但大多數當前方法缺乏對世界的基本理解以及與人類相比,持續學習和適應的能力(Mitchell,2021)。在這篇論文中,我們認為,選擇性注意、時間抽象和可供性都是使代理不僅能夠獲得技能,而且能夠在非平穩性面前繼續適應和學習的必要組成部分。
為了激發選擇性注意的需求,我們首先探索知道在圖像中何處尋找(“看”)是否允許RL代理在執行任務時對干擾因素保持魯棒性,尤其是面對非平穩性時。此外,大量證據表明,使人類能夠適應變化并隨時間改進的核心要素包括跨多個時間尺度使用抽象表示(Collins, 2018; Eckstein和Collins, 2018)、選擇性時間注意(Zhang等,2019b)和層次化組織的行為(Botvinick等,2009)。我們通過定義具有興趣函數的時間抽象行動為RL代理實現這一直覺;我們的實驗顯示,專業化是學習可重用、可解釋技能的關鍵,這些技能使RL代理能夠快速適應獎勵中的非平穩性。 用于形式化注意力概念以建立抽象的自然框架是可供性理論(Gibson, 1977)。在心理學文獻中(Chemero, 2003; Heft, 1989),可供性被視為代理-環境互動的屬性。在這篇論文中,我們為RL代理定義了可供性,并展示了知道可供性的模型可以導致更快的規劃和更好的泛化。此外,具身認知和感知的理論表明,人類能夠以不同時間尺度的內部模型的形式表示知識(Pezzulo和Cisek, 2016)。我們以時間抽象的部分模型的形式闡述了這一洞見,這些模型利用了時間抽象和可供性,并且從理論上和實證上展示了它們可以提高學習和規劃的效率。 最后,為了更接近現實世界的設置,我們研究了在線學習問題的表述,沒有關于任務之間相似性或代理可能遇到的任務數量的先驗知識。隨著代理對其環境的基本結構獲得更多知識,它應該能夠以更長的規劃視界和更高的確定性提前規劃。我們將規劃與在線學習之間的鴻溝橋接起來,以顯示跨任務的元學習模型可以直接導致有效規劃視界的適應。 總之,這篇論文的重點是通過超越狀態抽象的知識表示來橋接狀態和行動,并共同考慮行為(動作),朝著使持續RL代理能力成為目標。這篇論文提出了學習專業化時間抽象表示的新方法,將學習植根于直觀的可供性理論,并學習具有不斷增長的視界的規劃以實現持續適應。
為了發展廣泛的智能行為,這項工作的中心假設是,橋接狀態和行動對于表示知識、利用它進行規劃并能夠隨時間適應環境變化至關重要。在這篇論文中,我們展示了如何通過選擇性注意在原始行為和時間上抽象的行為的表示中橋接狀態和行動,以快速適應非平穩性,并引入了表示世界動態的新方法,以促進更快的規劃和更好的泛化。最后,我們探索在線學習設置中的規劃,以顯示元學習一個世界模型可以進一步改進理論和實證結果,導致能夠規劃越來越長視界的代理。圖1.1提供了本論文的概述。
在許多問題中,模型不規范是可靠推理的主要障礙。在貝葉斯設置中,模型的錯誤描述可能導致不一致,以及與任何數量的興趣相關的后驗分布的過度自信,即不確定性的低報告。 本文開發了一個貝葉斯框架,以減少在涉及時間序列數據的推斷問題中產生的一種模型錯誤規范的影響:觀測數據和建模數據之間未建模的時間規整。涉及動力系統、信號處理和更普遍的功能數據的推斷問題可能會受到這種類型的錯誤說明的影響。地震學中的逆問題是這類問題的一個重要例子:在描述復雜的、空間上不均勻的地震波傳播速度方面的不準確性會導致其建模的時間演化的錯誤。數據不足以約束這些傳播速度,因此我們轉而尋求對模型誤差的魯棒性。對我們的方法有幫助的是使用傳輸-拉格朗日(TL)距離作為損失/不匹配函數:這樣的距離可以被理解為“圖空間”的最佳傳輸距離,它們自然地忽略了對時間扭曲更敏感的數據的某些特征。我們表明,與標準的失配函數相比,它們產生的后驗分布既不偏置,也不分散。
特別地,我們將矩張量反演(一種地震反演問題)作為主要的激勵應用,并通過各種統計和物理指標證明了TL損失的反演性能的改善,用于一系列日益復雜的反演和錯誤描述的場景。與此同時,我們討論了幾個更廣泛的方法論問題。首先,在缺乏基于TL的可能性的可處理表達的情況下,我們使用吉布斯后驗的概念構建了一致的前驗到后驗更新。然后,我們通過一些統計評分規則和等級統計,以及特定應用的物理標準,通過更廣泛的探索,在錯誤指定的設置中,什么構成“好的”推斷,比較不同損失函數對吉布斯后驗的影響。為了將我們的廣義(吉布斯)貝葉斯方法與更傳統的貝葉斯設置聯系起來,我們還對隨機噪聲信號之間的傳輸-拉格朗日距離的統計特性進行了分析和數值研究。
作為對貝葉斯反演的補充,我們還證明了頻率回歸最優傳輸距離的效用。我們研究了帶有TL損失的線性回歸模型,描述了相關的混合整數優化問題的幾何形狀,并提出了利用其底層結構的專用算法。然后我們比較TL線性回歸和經典線性回歸在幾個應用。最后,我們討論了TL距離的潛在泛化,包括通過時間序列嵌入的“shape”概念,以及擬議框架的可能擴展到其他形式的模型錯誤說明。
//dspace.mit.edu/handle/1721.1/143171
論文摘要:
圖無處不在,從引文和社交網絡到知識圖譜(KGs)。它們是最富表現力的數據結構之一,已被用于建模各種問題。知識圖譜是圖中事實的結構化表示,其中節點表示實體,邊表示實體之間的關系。最近的研究已經開發出幾種大型知識圖譜;例如DBpedia、YAGO、NELL和Freebase。然而,它們都是稀疏的,每個實體只有很少的事實。例如,每個實體只包含1.34個事實。在論文的第一部分,我們提出了緩解這一問題的三個解決方案:(1)KG規范化,即(2)關聯提取,它涉及到從非結構化文本中提取實體之間的語義關系的自動化過程;(3)鏈接預測,它包括基于KG中的已知事實推斷缺失的事實。KG的規范化,我們建議CESI(規范化使用嵌入和邊信息),一個新穎的方法執行規范化學習嵌入開放KG。KG嵌入的方法擴展了最新進展將相關NP和關系詞信息原則的方式。對于關系提取,我們提出了一種遠程監督神經關系提取方法,該方法利用KGs中的附加邊信息來改進關系提取。最后,對于鏈路預測,我們提出了擴展ConvE的InteractE,這是一種基于卷積神經網絡的鏈路預測方法,通過三個關鍵思想:特征置換、新穎的特征重塑和循環卷積來增加特征交互的次數。通過對多個數據集的大量實驗,驗證了所提方法的有效性。
傳統的神經網絡如卷積網絡和遞歸神經網絡在處理歐幾里得數據時受到限制。然而,在自然語言處理(NLP)中圖形是很突出的。最近,圖卷積網絡(Graph Convolutional Networks, GCNs)被提出來解決這一缺點,并成功地應用于多個問題。在論文的第二部分,我們利用GCNs來解決文檔時間戳問題,它是文檔檢索和摘要等任務的重要組成部分。
為此,我們提出利用GCNs聯合開發文檔語法和時態圖結構的NeuralDater,以獲得該問題的最新性能。提出了一種靈活的基于圖卷積的詞嵌入學習方法——SynGCN,該方法利用詞的依賴上下文而不是線性上下文來學習更有意義的詞嵌入。在論文的第三部分,我們討論了現有GCN模型的兩個局限性,即(1)標準的鄰域聚合方案對影響目標節點表示的節點數量沒有限制。這導致了中心節點的噪聲表示,中心節點在幾個躍點中幾乎覆蓋了整個圖。為了解決這個缺點,我們提出了ConfGCN(基于信任的GCN),它通過估計信任來確定聚合過程中一個節點對另一個節點的重要性,從而限制其影響鄰居。(2)現有的GCN模型大多局限于處理無向圖。然而,更一般和更普遍的一類圖是關系圖,其中每條邊都有與之關聯的標簽和方向。現有的處理此類圖的方法存在參數過多的問題,并且僅限于學習節點的表示。我們提出了一種新的圖卷積框架CompGCN,它將實體和關系共同嵌入到一個關系圖中。CompGCN是參數有效的,并且可以根據關系的數量進行擴展。它利用了來自KG嵌入技術的各種實體-關系組合操作,并在節點分類、鏈接預測和圖分類任務上取得了明顯的優勢結果。