本論文通過創新性貢獻,推動了序列建模技術的發展,架起了狀態空間模型與深度學習之間的橋梁。序列建模技術能夠識別有序數據中的模式和關系,廣泛應用于時間序列預測、語音和音頻信號處理、文本生成、生物序列建模和神經記錄分析等多個領域。盡管深度學習已經改變了序列建模的格局,但當前的架構在計算效率、建模能力和可解釋性之間面臨著基本的權衡。我們通過三項互補的貢獻,解決了這些挑戰。 首先,我們提出了 S5 層,它重新設計了深度狀態空間方法,以支持并行掃描操作。我們通過與先前方法的數學聯系,解釋了其強大的實驗性能。接著,我們將這些洞察擴展到時空建模領域,提出了 ConvS5,將空間結構整合到狀態空間框架中。最后,我們通過雅可比切換線性動力系統(JSLDS)過程,開發了新的分析工具,為將復雜的非線性動力學分解為可解釋的線性成分提供了系統化的方法。 通過在多個領域的廣泛實驗證明,我們展示了這些方法如何在各自領域顯著推進了當前的技術水平。綜合來看,這些貢獻展示了將經典動力系統方法與現代深度學習技術結合,創造出更強大、高效且具可解釋性的序列模型的廣泛潛力。 序列建模——即學習有序數據中的模式和關系——是科學與工程多個領域的基礎任務。其應用范圍從金融時間序列預測[Salinas et al., 2020]、天氣模式分析[Rasp et al., 2020, Pathak et al., 2022],到語音與音頻信號處理[Oord et al., 2016]、生物序列建模[Jumper et al., 2021]、神經記錄分析[Pandarinath et al., 2018],以及文本[Brown et al., 2020]和視頻[Ho et al., 2022]生成等。序列建模中的關鍵挑戰在于捕捉短期模式和可能跨越數百、數千或數百萬時間步的長期依賴關系。 深度學習通過用學習到的表示代替手工設計的特征和傳統統計模型,已經改變了序列建模。然而,隨著序列模型在規模和能力上的增長,出現了三個基本挑戰:計算效率、建模精度和模型可解釋性。目前的架構在這些目標之間面臨顯著的權衡。遞歸神經網絡(RNNs)[Rumelhart et al., 1986, Elman, 1990]在推理效率方面表現出色,但在處理長期依賴時表現不佳,并且在訓練過程中天生是順序的。Transformer模型[ Vaswani et al., 2017]在捕捉長期模式方面表現優異,但其計算復雜度與序列長度呈二次增長。此外,隨著這些模型的復雜性增加,并且被部署在關鍵應用中,我們對其決策過程的理解變得愈發重要。 在本論文中,我們認為深度狀態空間方法——將經典動力系統理論中的狀態空間模型(SSMs)與現代深度學習相結合——能夠有效解決上述序列建模中的基本挑戰。通過三項互補的貢獻,我們展示了這種經典與現代方法的結合如何提升計算效率、建模精度和模型可解釋性。 首先,我們提出了S5層[Smith et al., 2023a],它簡化了深度狀態空間方法,同時擴展了其能力。通過精心重新設計架構以支持并行掃描,S5在保持線性計算擴展性的同時,達到了最先進的性能,即使是在時間變化的系統中也是如此。我們與先前方法建立的數學聯系解釋了其有效性,并為設計提供了有原則的選擇。 基于這些基礎,我們提出了ConvS5[Smith et al., 2023b],以解決時空建模中的挑戰。該工作展示了如何將S5背后的核心思想擴展到更復雜的領域,通過結合卷積操作處理空間結構,并將狀態空間動態應用于時間建模。ConvS5在有效處理空間依賴性的同時,保持了S5的計算優勢。 我們的第三項貢獻從不同的角度出發,將狀態空間模型作為分析工具,而不是計算構建塊。雅可比切換線性動力系統(JSLDS)[Smith et al., 2021]方法展示了如何通過共同訓練一個切換線性SSM和非線性RNN,提供對RNN計算機制的可解釋性見解。這項工作展示了經典動力系統概念如何幫助彌合深度學習的經驗成功與理論理解之間的差距。 這些貢獻統一在幾個共同主題下:
SSM與深度學習方法的創新整合:每種方法都展示了將經典動力系統與現代深度學習相結合的創新方式,無論是作為計算組件(S5、ConvS5)還是分析工具(JSLDS)。 * 增強的能力:前兩種方法在保持高效并行計算的同時,達到了最先進的性能,而JSLDS為理解RNN動態提供了新的分析能力,同時提升了共同訓練的切換SSM的能力。 * 廣泛的適用性:這些方法在包括語言、語音、視頻和神經數據等多個領域取得了成功,突顯了我們方法的普遍性。
本論文的其余部分組織如下:第二章提供了序列建模、狀態空間模型及相關架構的必要背景。第三章介紹了S5層及其在序列建模中的應用,基于我們在Smith et al. [2023a]中的工作。第四章介紹了ConvS5,并展示了其在時空建模中的有效性,基于我們在Smith et al. [2023b]中的工作。第五章發展了JSLDS框架及其應用,基于我們在Smith et al. [2021]中的工作。最后,第六章探討了本研究的廣泛影響,并概述了未來研究的有希望方向。
對比學習最近已成為一種強大的無監督表示學習方法,在多個領域取得了令人印象深刻的實證成功。盡管這些方法在實踐中表現有效,但要全面理解它們的理論基礎仍然是一個重大挑戰。本論文旨在通過提供一個基于接近現實場景假設的原則性調查,彌合對比學習的實證成功與理論理解之間的鴻溝。我們引入了一個受譜圖理論啟發的新分析框架,證明了對比學習在隱式地對由數據分布定義的概念圖上執行譜聚類。我們表明,對比學習所學習的表示與圖的鄰接矩陣的特征函數一致,從而為下游線性分類任務的性能提供了可證明的保證。我們擴展了這一框架,正式刻畫了一個現象,即在對比學習表示上訓練的線性分類器可以成功地跨領域遷移。此外,我們還正式刻畫了模型架構的歸納偏置如何導致表示在不同下游任務中的性能差異。
高質量的數據表示可以作為各種實際機器學習應用的基礎,涵蓋從搜索到面向新任務和新領域的數據高效適應等多個方面。許多成功的表示學習算法在很大程度上依賴于監督學習,而監督學習需要對數據進行昂貴且耗時的標注 [Salakhutdinov 和 Hinton,2007]。
與昂貴且有限的標注數據相比,互聯網上存在大量豐富且廉價的未標注數據。無監督表示學習旨在從沒有預先存在標簽的數據中發現模式,并生成能夠捕捉原始數據本質特征的表示。這種方法為訓練可遷移的數據表示提供了有希望的路徑,這些表示可以有效地適應各種下游任務。
特別是,對比學習最近作為一種強大的從未標注數據中學習表示的方法出現。對比學習的核心思想是“正對”(positive pairs)的概念,即語義上相近的成對數據點,可以直接從未標注數據中構造,而無需人工標注。相應地,還有“負對”(negative pairs)的概念,即通常語義上無關的成對數據點。在計算機視覺領域,正對通常由兩個通過數據增強從同一原始圖像生成的圖像組成,而負對則由兩個獨立隨機采樣的圖像組成。給定正對和負對,對比學習通過鼓勵正對的表示更加接近,同時使負對的表示遠離來學習數據點的表示。 許多對比學習方法使用孿生網絡(Siamese Networks)[Bromley 等,1993] 來學習特征,其中兩個具有共享權重的神經網絡應用于正對中的兩個數據點,表示是神經網絡對原始輸入的輸出。SimCLR 的開創性工作 [Chen 等,2020b] 表明,利用孿生網絡結構的對比學習表示可以在下游分類任務中取得與監督學習競爭的線性探測準確率。一些后續工作 [Chen 和 He,2020,Grill 等,2020,Bardes 等,2021] 探索了不同的損失目標和正則化技術,旨在減少算法中一些看似隨意且不自然的方面,例如停止梯度操作(即在訓練過程中通過孿生網絡的一條分支停止梯度反向傳播)或大批量大小的必要性。然而,它們大多仍圍繞孿生網絡結構這一核心思想展開。
這些方法取得了令人印象深刻的實證成功,通常超過了完全監督模型的性能,而無需標注數據。此外,學習到的表示通常具有良好的結構,例如線性可分性,在這些表示上訓練的線性分類器能夠在下游分類問題上表現良好。這些方法的驚人簡單性和對比學習表示中編碼的結構似乎表明該方法利用了數據分布通過正對構造定義的一些內在屬性。然而,開發對這些自監督表示為何如此有效的全面理論理解仍然是一個重大挑戰。需要超越經典統計學習理論的新數學框架來全面解釋它們的表現,而對比學習中廣泛使用的深度神經網絡進一步增加了分析的復雜性。
先前的工作嘗試通過信息理論的視角解釋對比學習的成功 [Tsai 等,2020,Tosh 等,2021]。這一理論框架關注于通過學習的表示捕獲的信息。從直觀上講,在初始化時,神經網絡的輸出捕獲了數據點的隨機子集信息。在訓練過程中,表示將捕獲正對之間更多共享的信息,并丟棄那些特定于正對中某一數據點的信息。如果共享信息包含了大部分與下游任務相關的信息,那么最終學習到的表示也將捕獲這些信息,從而具備解決下游任務所需的足夠信息。然而,由于多個表示可以包含相同的信息,但具有非常不同的幾何結構,因此該框架缺乏保證,無法確保使用簡單(例如線性)模型高效地解決下游任務。
如果對數據做出更多假設,便能解決這一限制。一個相對較強的假設是條件獨立性設置,其中給定類別標簽,正對是條件獨立的。例如,Arora 等 [2019] 表明,在給定類別標簽的條件獨立性下,對比學習算法可以在下游線性分類任務中實現較小的誤差。一些后續工作(例如,Lee 等 [2020])將這一思想擴展到正對在某些潛在變量上條件獨立的設置,這些潛在變量可能具有比類別標簽更細粒度的含義。然而,在計算機視覺應用中的實際算法中,正對通常由同一圖像的兩個增強組成,因此它們是高度相關的。它們可能只有在條件化于非常復雜的隱藏變量(如原始自然圖像)時才獨立,這可能使得之前的結果無法有意義地應用。
本論文旨在在反映現實世界的較少限制假設下,對對比學習進行原則性的理論研究。本論文的一個關鍵貢獻是提出了一種新的對比損失——我們稱之為譜對比損失——它作為更廣泛使用的 InfoNCE 損失的代理,后者在理論上較難分析。我們的實驗證明,譜對比損失捕獲了標準對比損失的大部分性能,同時使我們能夠建立一個受譜圖理論啟發的分析框架。 第三章介紹了我們基于譜圖理論理解對比學習成功的一般理論框架。為了建立我們的理論框架,我們引入了一個群體層級的“正對圖”,該圖捕捉了對比學習管道中的正對結構。在這個圖中,節點對應于所有出現在正對中的數據點,邊表示哪些節點對實際上形成正對。通過將數據置于這個圖的上下文中,我們能夠利用一些圖論(特別是譜圖理論)中的思想和工具來分析對比學習。 我們的關鍵洞察是,認為對比學習可以被視為隱式地在正對圖上執行譜聚類。譜聚類 [Ng 等,2001] 是一種流行的聚類算法,具有悠久的歷史。其核心思想是,給定任何圖,可以對圖的拉普拉斯矩陣進行譜分解,并使用特征向量在圖中找到近似最優的聚類。運行譜聚類需要對整個拉普拉斯矩陣進行操作,當圖非常大時,這可能計算上非常昂貴。 在正對圖的背景下,圖中的節點數基本上是數據分布中所有數據點的數量,因此可能非常龐大。然而,幸運的是,我們的結果表明,存在一個損失函數,使得最小化該損失函數等同于隱式執行圖拉普拉斯矩陣的譜分解。這個損失函數在精神上與許多對比損失相似,并且可以通過正對和負對進行有效采樣,因此我們稱其為譜對比損失。 我們證明,通過最小化譜對比損失學習到的表示與圖的鄰接矩陣的特征向量對齊,從而繼承其聚類結構。在對正對圖中的聚類與下游任務類別對齊的溫和假設下,來自不同下游類別的數據的對比表示將是線性可分的。值得注意的是,我們的框架不需要依賴先前對比學習理論工作中所依賴的嚴格條件獨立性假設 [Arora 等,2019,Tosh 等,2021]。 我們分析了使用譜對比損失學習到的表示進行線性分類的性能。在對正對圖進行溫和擴展假設的情況下,我們證明,當表示維度超過圖中聚類的數量時,在線性分類器上訓練的表示可以以高精度恢復真實標簽。我們進一步表明,譜對比損失可以通過經驗數據成功最小化,只需多項式數量的未標注樣本。我們的有限樣本分析利用標準泛化界限,證明所需的未標注樣本數量與所選函數類的 Rademacher 復雜度成比例。 第四章基于這一框架,研究了對比學習在分布變化下的表現。特別是,我們研究了對比學習如何幫助解決無監督領域自適應問題,在該問題中,給定有標簽的源領域和未標注的目標領域(具有相同類別標簽),我們希望在目標領域實現高分類準確率。我們正式分析了“線性遷移性”這一經驗現象,即在源領域對比表示上訓練的線性分類器在目標領域上表現良好,其中該表示通過在源領域和目標領域的聯合數據集上進行對比學習訓練。事實上,這種簡單的方法已經被證明能夠實現與多個最先進的領域自適應算法 [Shen 等,2022b] 競爭的性能。 我們證明,線性遷移性是在跨領域關系的弱假設下產生的:即,同類別的跨領域點之間比不同類別的跨領域點之間更相關。直觀地說,這意味著,盡管源領域和目標領域可能存在顯著的分布差異,但類別之間的相對相似性在跨領域中得到了保留。在這個假設下,我們證明了在源領域表示上學到的線性分類器(使用一種新的預處理平均方法)可以在目標領域的分類任務中成功地表現。
我們的結果表明,對比表示不僅捕捉了類內結構,還捕捉了不同類別之間的相對幾何結構。這與先前關于無監督領域自適應的理論工作有所不同,后者通常要求更強的假設,例如有界密度比或顯式的源目標重疊 [Sugiyama 等,2007,Ben-David 等,2010,Zhang 等,2019,Zhao 等,2019a]。
為了支持我們的理論發現,我們提出了一種改進的線性評估方法,用于無監督領域自適應與對比表示。我們的方法通過直接對類內表示進行平均并應用預處理矩陣來學習線性分類器。我們在多個標準領域自適應基準數據集上驗證了該方法的有效性,證明其優于先前的最先進方法。
第五章研究了神經網絡模型架構在對比學習中的作用。我們不再將神經網絡視為黑箱函數逼近器,而是明確描述了架構的歸納偏置如何塑造學習到的表示。
我們引入了“最小可實現聚類”的概念,以捕捉架構所施加的約束。盡管正對圖可能展示了大量的自然聚類,但架構可能只能實現其中的一部分聚類。我們證明,對比學習只恢復那些與架構兼容的聚類。因此,低維的對比表示即使在整個正對圖中的聚類數量很大時,仍然可以在下游任務中取得成功。 我們在多個合成數據分布上實例化了我們的理論,證明了架構的歸納偏置可以顯著減少所需的表示維度。例如,在具有少量不變特征和大量虛假特征的超立方體數據分布上,我們證明,當下游標簽依賴于單一的不變維度時,線性對比表示就足夠了,而 ReLU 網絡則能夠處理更復雜的標簽函數。我們為其他架構提供了更多示例,包括 Lipschitz 連續函數和卷積網絡。在每種情況下,我們展示了對比學習的樣本復雜度與可實現聚類的數量成比例,而不是與自然聚類的總數成比例。
為了支持我們的理論,我們提出了一種實證方法來估計可實現聚類的數量,并將其應用于具有 ResNet-18 架構的 CIFAR-10 數據集。我們的實驗驗證了架構施加的約束導致可實現聚類的數量相對較小,這與我們的理論預測一致。
本論文的其余部分組織如下:第三章展示了我們的對比學習譜框架,包括群體層級損失的分析、有限樣本泛化界限和實驗證明。第四章將該框架擴展到領域自適應設置,正式刻畫了對比表示的線性遷移性,引入了改進的線性評估方法,并展示了其實證有效性。第五章分析了歸納偏置在對比學習中的作用,引入了最小可實現聚類的概念,并在合成數據分布上實例化了理論,為架構約束提供了實證支持。最后,第六章總結了論文內容并討論了未來的研究方向。
本論文探討了圖表示學習中的創新方法及其在深度學習模型中的應用,在多個關鍵領域做出了重要貢獻。我們首先介紹了 Graph Meta-Contrast (GMeCo) 框架,這是一種用于圖上對比表示學習的全新元學習框架。GMeCo 能夠有效生成增強圖,并最大化增強圖與輸入圖之間的互信息,在魯棒性和判別性特征學習上優于當前方法。 接下來,我們提出了 多分辨率基于 Meta-Framelet 的圖卷積網絡 (MM-FGCN) 模型。該模型在自適應多分辨率圖分析方面取得了進展,克服了固定變換的限制,并能夠動態處理不同尺度的圖數據。MM-FGCN 能夠捕捉圖的微觀和宏觀結構,展現了其在各種圖學習任務中的優越性。 此外,我們引入了 圖譜擴散模型 (GSDM),這是一種用于圖結構數據生成的全新方法。GSDM 在圖譜空間中使用低秩擴散隨機微分方程,增強了圖拓撲結構的生成,并降低了計算負荷。與現有模型相比,該方法在圖生成的效率和質量方面表現出顯著改進。 最后,我們開發了一個基于多視角方法的序列推薦系統新框架,結合了圖神經網絡 (GNNs) 和 Transformer。該多視角結構利用用戶-項目交互和協作信息,提供了魯棒且準確的用戶偏好預測。該模型相較于傳統模型展現了其有效性。 總體而言,本論文在圖表示學習方面提出了有效的方法和模型,為該領域的進步做出了貢獻,并為未來圖基深度學習應用的研究奠定了基礎。
因果機器學習(Causal ML) 處理各種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果ML方法中的不確定性。可擴展性對于高效處理大量信息和預測復雜關系至關重要。隨著模型靈活性的提升,傳達未知信息變得愈加重要。我們考察了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性在擬合機器學習模型到有限數據集時產生,解決這一不確定性有助于預測一系列合理的因果效應,隨著訓練樣本的增加而縮小,從而促進更明智的決策并指示需要進一步理解的領域。結構不確定性則源于對因果結構的模糊認識,通常需要對數據生成過程或與世界的互動做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果ML方法。我們展示了在因果ML算法設計和應用中考慮可擴展性和不確定性的重要性,提升決策能力和知識獲取。我們的貢獻旨在推動因果機器學習領域的發展,為未來研究奠定基礎。
物理啟發的生成模型(如擴散模型)構成了一類強大的生成模型家族。該模型家族的優勢在于相對穩定的訓練過程和強大的容量。然而,仍有許多可能的改進空間。在本論文中,我們首先將深入探討擴散模型在訓練和采樣方面的改進技術。擴散模型的訓練目標在數據分布為多模態時呈現出較高的方差。為了解決這一問題,我們提出了一種訓練目標,它推廣了傳統的去噪得分匹配方法,顯著減少了訓練目標的方差。除此之外,我們還引入了一種將可學習的離散潛變量整合到連續擴散模型中的訓練框架。這些潛變量簡化了擴散模型復雜的噪聲到數據映射的學習過程。
另一方面,擴散模型的采樣過程通常涉及求解微分方程。為加速采樣過程,我們提出了一種新穎的采樣算法,結合了之前常見的ODE和SDE采樣器的優點,大幅提升了預訓練擴散模型的性能。此外,我們的研究探索了在有限樣本中引入互斥力以促進生成過程中的多樣性。 在物理啟發的生成模型領域,許多物理過程都可以用于開發生成模型。我們將介紹一類基于靜電理論的新生成模型家族,稱為泊松流生成模型(PFGM)。PFGM在采樣穩健性上表現出色,并與領先的擴散模型相媲美。其擴展版本PFGM++將擴散模型和PFGM置于同一框架下,并引入了新的、更優的模型。我們還將提出一種系統化的方法,將物理過程轉化為生成模型。
生成模型在近年來顯著改變了人們工作的、創作的和學習的方式。其突出應用包括ChatGPT [1]、文本到圖像模型 [2]-[4]、文本到3D模型 [5]、[6] 和文本到視頻模型 [7]、[8]。這些能力可以極大地激發創造力,并提高眾多領域的工作效率,包括教育、游戲產業、社交媒體和專業編輯軟件。生成模型的訓練基于這樣一個假設,即訓練數據是從未知的數據分布中采樣的 [9]。現代生成模型通常使用深度神經網絡來基于有限的訓練數據逼近復雜的數據分布,并通過從這些建模的分布中采樣來生成新的數據點。
在生成建模中使用的各種數據類型中,高維數據由于維度詛咒而面臨著顯著的挑戰。隨著維度的增加,數據空間的體積呈指數級擴展。這一現象使得在高維空間中用有限的訓練數據有效捕獲和建模數據分布變得困難。此外,感興趣的數據分布通常高度復雜且呈多模態,進一步增加了生成建模的難度。近年來,擴散模型 [10]–[12] 以及更廣泛的物理啟發生成模型 [13],在處理高維數據的生成任務中,展現了強大的框架并取得了令人印象深刻的結果。在擴散模型之前,主要的方法包括:(i)利用對抗訓練目標的生成對抗網絡(GANs [14]);(ii)使用最大似然目標訓練的模型,如PixelCNN [15] 和正規化流模型 [16]、[17];(iii)變分自編碼器(VAEs)[18]、[19] 以及(iv)基于能量的模型 [20]、[21]。然而,每種方法都有其自身的缺點:(i)可能導致訓練不穩定和生成樣本的多樣性低;(ii)需要特定的架構設計,可能限制模型的容量;(iii)需要多個神經網絡的仔細協調;(iv)訓練和采樣速度較慢。利用自然的物理過程作為編碼器將數據轉化為噪聲,擴散模型通過逆轉這些物理過程來執行生成任務。這種方法使它們繞過了早期生成模型的許多限制。
1.1 通過逆轉物理過程進行生成建模
基于熱力學的原理 [10],擴散模型涉及兩個對立的過程:一個前向過程將數據分布逐漸轉化為一個更簡單的先驗分布,另一個反向過程通過逐步去噪從該噪聲先驗分布中生成樣本。擴散模型中的前向過程是一個簡單的布朗運動,通過逐步增加高斯噪聲來降解數據。為了逆轉這一過程,只需學習一個時間依賴的向量場,即得分函數,并迭代求解一個微分方程 [22]。與GANs和VAEs不同,擴散模型的訓練不需要多個神經網絡之間的同步,從而使訓練過程更加穩定。此外,它們在架構設計上不受限,采用類似于神經網絡串聯的迭代過程,從而增強了整體容量。這種穩定性和增強的容量使擴散模型能夠有效擴展到大規模數據集。
盡管擴散模型具有諸多優勢,但它們仍面臨一些挑戰,包括在處理多模態數據時高方差的訓練過程,以及緩慢的迭代采樣過程。此外,獨立同分布(i.i.d.)的采樣過程往往會導致重復的樣本。這些問題強調了在復雜數據集上穩定和改進擴散模型訓練方法的必要性,并且需要新技術來加速采樣過程并提高小批量樣本的多樣性。此外,擴散模型只是眾多物理啟發生成模型之一。除布朗運動外,仍有許多物理過程尚未開發,可以用來構建生成模型。這引出了一個重要問題:我們能否發現其他物理啟發的生成模型,它們展示出更好的性能?在接下來的部分中,我們將簡要總結擴散模型的改進訓練和采樣技術,并討論我們開發其他物理啟發生成模型的研究,這些將在后續章節中詳細闡述。
1.1.1 擴散模型的改進訓練技術
擴散模型的訓練利用了一種擾動-去噪方法來估計向量場。其過程是先通過高斯噪聲擾動干凈的數據,然后網絡從這些擾動樣本中重構原始數據 [12]。然而,對于復雜的多模態數據,許多干凈的數據點可能被擾動為相似的噪聲樣本,導致訓練目標不明確并引發不穩定性。
在文獻 [23] 中,我們通過多個干凈數據點的加權求和來估計真實目標,精確地指示從擾動樣本到真實向量場的方向。該新穎的訓練目標推廣了傳統的單點估計方法,顯著減少了訓練目標中的方差。因此,在各種擴散模型變體中,樣本質量得到了提高,訓練過程更加穩定,訓練速度也得到了加快。
擴散模型面臨的另一個挑戰是,需要學習一個從單峰高斯分布到多峰數據分布的非線性且高度復雜的映射。這種復雜性增加了訓練的難度,并導致生成常微分方程(ODE)[24] 軌跡呈現強烈的曲率。為解決這一問題,我們在擴散模型中引入了離散潛變量。這些離散潛變量有助于捕獲數據分布中的不同模式,而擴散模型的任務則轉變為基于給定的離散潛變量捕獲每個模式內的連續變化。離散與連續變化的分離建模顯著簡化了模型復雜的噪聲到數據映射的學習過程。這一方法有效降低了擴散模型生成ODE的曲率,尤其是在較大的擴散時間下,整體訓練損失得到了減少。
1.1.2 擴散模型的改進采樣技術
在擴散模型的采樣過程中,求解微分方程通常涉及速度和質量之間的權衡。確定性采樣器(基于ODE的)[25]–[27] 速度快,但性能達到平臺期,而隨機采樣器(基于SDE的)[27]、[28] 樣本質量更好,但速度較慢。我們的分析將這種差異歸因于采樣誤差:ODE采樣器的離散化誤差較小,而SDE中的隨機性會收縮采樣過程中的累積誤差 [29]。
基于這些見解,在文獻 [29] 中,我們提出了一種名為Restart的新采樣算法,該算法結合了ODE和SDE的優點。該方法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。前向噪聲的引入增強了隨機性的收縮效應,而逆ODE過程的遵循則加快了采樣速度。這種將隨機性和確定性采樣過程分離的方法極為有效,Restart在標準基準(CIFAR-10和ImageNet-64)上超過了SDE和ODE采樣器的速度和質量,并在大規模文本到圖像的Stable Diffusion模型中展示了文本-圖像對齊、視覺質量和多樣性的卓越平衡。
傳統上,擴散模型從模型分布中生成獨立同分布的樣本。然而,在實際操作中,模型通常需要多次采樣以獲得一組多樣化的小批量樣本,這會帶來與采樣時間無關的成本。我們提出超越獨立樣本假設,以提高樣本的多樣性和效率。我們的方法引入了一種擴展的基于擴散的生成采樣方法,稱為粒子引導。在這種方法中,聯合粒子的時間演化勢通過在樣本(粒子)之間加入互斥力來強制多樣性。根據實驗結果,我們的框架在文本到圖像生成和分子構象生成等應用中提高了樣本的多樣性并減輕了記憶效應。
1.1.3 基于其他物理過程的生成模型
以擴散模型為顯著例子,物理啟發的生成模型包含一個前向過程,該過程將復雜的數據分布簡化為逐步的先驗分布,隨后通過一個反向過程(即采樣過程)逐步將這些先驗分布還原為原始數據分布。因此,為了定義新的物理啟發生成模型,必須確定一個合適的前向過程。該過程應自然地隨著時間簡化數據分布,并且是可逆的,同時其相關的向量場應該易于被神經網絡學習。 借助靜電學原理,我們為物理啟發的生成模型開辟了一條新路徑,并介紹了泊松流生成模型(Poisson Flow Generative Models, PFGM)[30] 及其擴展版本PFGM++ [31]。PFGM將數據解釋為增廣空間中的電荷。如圖1.1所示,當我們從數據支撐遠離足夠遠時,電荷分布坍縮為一個點電荷,電場在各個方向上呈現輻射狀。因此,可以證明這些電荷發出的電場線定義了數據分布和大半球上均勻分布之間的雙射。實驗結果表明,這一新模型家族在樣本質量、采樣速度和穩健性方面超越了擴散模型。此外,我們還探索了物理過程和生成模型之間的對偶性,旨在概念化和設計更多新的物理啟發生成模型 [13]。
本論文分為三個主題部分。下面簡要概述每個部分的內容。 第一部分 重點開發新技術,旨在穩定擴散模型的訓練,并在處理復雜的多模態數據集時,優化生成軌跡。
第三章 我們通過引入參考批次來解決擴散模型目標中的高方差問題,并使用參考批次計算加權條件得分,作為更穩定的訓練目標。我們展示了這一過程在具有挑戰性的中間階段中,通過減少訓練目標協方差(的跡)確實起到了幫助作用。本章基于文獻 [23]。
第四章 我們通過一個編碼器推斷可學習的離散潛變量,并對擴散模型和編碼器進行端到端訓練。離散潛變量通過降低擴散模型生成ODE的曲率,顯著簡化了其復雜的噪聲到數據映射的學習過程,并通過ODE采樣器提高了在各種數據集上的樣本質量。本章基于文獻 [32]。
第二部分 討論了加速擴散模型采樣過程的技術,以及通過施加樣本之間的互斥力來促進多樣性。所有討論的技術都不需要重新訓練,且可以直接應用于任何預訓練的擴散模型。
第五章 我們提出了一種名為Restart的新采樣算法,結合了先前ODE和SDE采樣器的優勢。Restart算法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。實驗結果表明,Restart采樣器在速度和精度上均超過了先前的SDE和ODE采樣器。本章基于文獻 [29]。
第六章 我們提出了粒子引導,一種擴展的基于擴散的生成采樣方法,其中通過一個聯合粒子的時間演化勢來強制樣本多樣性。在條件圖像生成中,我們測試了該框架,并證明其在不影響質量的情況下增加了多樣性;在分子構象生成中,我們改進了相較于先前方法的中位誤差。本章基于文獻 [33]。
第三部分 探討了一類新型的生成模型,這些模型基于靜電理論,并與擴散模型在擴展視角下進行了統一。本部分還展望了通過物理過程構建生成模型的方法論。
第七章 我們介紹了一種新型生成模型——泊松流生成模型(PFGM),基于靜電理論。我們將數據點解釋為增廣空間中 z=0 超平面上的電荷,生成一個高維電場(泊松方程解的梯度)。我們證明了,如果這些電荷沿電場線向上流動,它們在 z=0 平面的初始分布會轉化為半徑為 r 的半球上的分布,并且在 r → ∞ 時變得均勻。我們展示了PFGM在圖像生成速度上提供了比先前最先進擴散模型更好的性能。本章基于文獻 [30]。
第八章 我們擴展了PFGM中使用的靜電理論,將擴散模型與PFGM統一起來。更有趣的是,在兩者之間的插值揭示了一個性能最優的新平衡點,達到了圖像生成的新標桿性能。我們為為什么PFGM和擴散模型都是次優解提供了理論解釋。本章基于文獻 [31]。
第九章 我們提出了一個統一的框架和算法,將物理過程轉化為平滑的密度流生成模型。此外,我們基于底層物理偏微分方程(PDE)的色散關系,提出了一種分類標準。這種理論方法可應用于各種物理PDE,從而發現新的生成模型家族。本章基于文獻 [13]。
第十章 我們總結了論文內容并討論了當前的局限性。
AlphaGo和ChatGPT可能是過去十年中人工智能領域最重要的兩項突破。這些技術得益于在序列決策(例如,規劃、搜索和強化學習)以及基礎模型(例如,基于互聯網數據訓練的語言和視頻生成模型)方面的研究。本論文提出了在現實世界決策任務背景下,利用具有廣泛知識的基礎模型的新技術、算法和框架,這些研究將影響對話代理的構建、機器人控制和科學發現等應用。本論文從離線環境中的傳統決策制定開始,逐步通過表示學習和生成建模引入更廣泛的互聯網規模數據。論文強調了理論基礎與實際應用的結合。本論文的主要貢獻包括離線強化學習的算法進步、面向決策制定的表示學習改進、作為強化學習替代的全新生成建模技術,以及基于互聯網規模的生成代理和生成模擬器,所有這些都旨在增強基礎模型的決策能力,并使之相輔相成。通過廣泛的實證和理論分析,本論文表明,基礎模型在得到適當利用時,可以顯著提高決策任務的效果。這些發現為將機器學習模型與現實世界應用整合提供了新的方向,為更智能、適應性更強、效率更高的系統鋪平了道路。 在過去的十年中,人工智能(AI)領域的兩項重要突破包括2016年人工智能圍棋玩家AlphaGo擊敗人類選手李世乭 [21],以及2022年部署的人工智能聊天機器人ChatGPT [22]。這些技術進步得益于在序列決策和基礎模型方面的研究。在序列決策中,目標是讓計算機(代理)自動決定一系列動作(例如,在哪里放置圍棋子),并且讓計算機基于來自環境的反饋(例如圍棋比賽的結果)自動改進這些決策。機器學習在序列決策中的方法涉及訓練決策策略,即基于當前觀測(例如圍棋棋盤)選擇動作的策略,通過試驗和錯誤的方式進行訓練。這種方法在環境支持無限訪問的游戲場景中表現良好,但在現實世界中超越游戲場景的規模時卻難以實現,因為在現實環境中無限訪問是不切實際的。即使在游戲場景中,先前在序列決策中的工作大多集中在任務特定或“白板”設置中,缺乏先驗知識 [23]。因此,先前的序列決策工作在泛化和樣本效率方面通常表現不佳,例如解決單個Atari游戲需要7個GPU天的交互游戲時間 [24]。 最近,基礎模型(定義為使用自監督學習在大規模數據上訓練的大型機器學習模型 [25])在互聯網上的大量數據上進行了訓練。例如,自回歸語言模型 [26, 27]通過從互聯網抓取的文本數據來預測給定前述單詞(標記)后的下一個單詞(標記)。類似地,視頻生成模型 [28, 29]通過從互聯網抓取的視頻數據,在給定語言輸入和/或前述幀的情況下,預測下一幀。因此,這些模型能夠生成高度逼真的自然語言和視頻。然而,模仿互聯網內容并不是這些模型的最終目標。這些模型的最終目標是解決現實世界中的任務,如回答人們的問題和模擬現實世界的交互。為了實現這一目標,這些模型生成的內容必須由人類控制。如何引導這些模型根據用戶反饋生成理想的內容,以及如何使這些模型做出一系列決策以完成某些復雜任務(例如構建網站),是序列決策的核心問題。將基礎模型研究和序列決策研究結合起來具有巨大的優勢。一方面,基礎模型中的廣泛知識可以提高決策算法的樣本效率和泛化能力。另一方面,決策算法可以對原本與任務無關的基礎模型進行任務特定的優化。本論文研究了基礎模型在決策制定中的技術、框架和算法,并展示了如何將基礎模型中的廣泛知識有效轉化為任務特定的決策,以更好地解決廣泛的問題和應用。 本論文通過從傳統的決策制定技術開始,研究在離線數據集設置下的基礎模型在決策制定中的應用,隨后逐步引入更廣泛的數據,最終整合互聯網規模的視覺和語言數據。我們將對利用基礎模型解決序列決策問題的理論方面和實際應用方面給予高度關注。本論文的工作基于先前關于序列決策的研究思想,但新提出的方法展示了更高的全面性和可擴展性。 本章的其余部分組織如下。第1.1節介紹了基礎模型,這是一種在互聯網規模數據上訓練的機器學習模型。本節討論了訓練基礎模型的常見技術,包括表示學習和生成建模。隨后描述了基礎模型的局限性,包括指令遵循、長時間推理、多步驟規劃和多模態處理。然后概述了本論文如何通過結合決策制定技術來應對其中的一些挑戰。第1.2節描述了序列決策的典型設置和常見的決策制定算法,包括模仿學習、強化學習、搜索和規劃。接下來,本節重點介紹了序列決策的主要瓶頸,包括樣本效率和缺乏良好的視覺和文本表示。最后,簡要介紹了本論文如何通過結合基礎模型來應對這些挑戰。第1.3節闡述了本論文的貢獻,并總結了其結構。
大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。
大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:
第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。
第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。
第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。
在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。
**生成建模承諾為學習圖像和視頻等高維數據分布提供一種優雅的解決方案——但我們如何揭示和利用這些模型發現的豐富結構呢?**除了生成新樣本之外,智能體還能如何利用 p(x) 作為了解世界運作方式的知識來源呢?本論文探討了可擴展的歸納偏差,解鎖了生成模型對視覺數據的解耦理解,從而實現更豐富的交互和控制。 首先,我提出了一種將場景表示為特征“斑塊”集合的方案,在這種方案中,生成對抗網絡(GAN)無需任何標簽就能學會將每個斑塊綁定到其生成的圖像中的不同對象上。這使得GAN能夠更優雅地建模組合場景,而典型的無條件模型則受限于高度對齊的單對象數據。經過訓練的模型表示可以很容易地進行修改,以反事實地操縱生成和真實圖像中的對象。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2024/EECS-2024-65.html
接下來,我考慮了在訓練期間不對架構施加瓶頸的方法,從而使這些方法能夠應用于更多樣化、未經過濾的數據。我展示了擴散模型的內部可以被用于有意義地引導新樣本的生成,而無需進一步的微調或監督。從去噪器激活的一小組原始屬性中得出的能量函數可以組合起來,對迭代擴散采樣過程施加任意復雜的條件。這使得能夠控制任何可以用文本描述的概念的屬性,例如位置、形狀、大小和外觀。 我還證明,文本到圖像模型學習到的分布可以被蒸餾以生成組合性3D場景。主流方法專注于孤立地創建3D對象,而不是包含多個實體交互的場景。我提出了一種架構,在對其進行優化使其輸出位于圖像生成器的流形上時,可以生成分解為其包含對象的3D場景。這為模型僅通過2D圖像觀察到的世界推斷實際3D結構提供了證據。最后,我以一個視角總結了涌現、控制、可解釋性和規模之間的相互作用,并嘗試將這些主題與對智能的追求聯系起來。
本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。
我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。
支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。
本博士論文包含了對統計因果模型領域的幾個貢獻。統計因果模型是嵌入因果假設的統計模型,允許對受外部操縱(干預)影響的隨機系統的行為進行推斷和推理。本文在因果效應估計、因果結構學習和分布魯棒(非分布廣義)預測方法等方面進行了深入的研究。我們提出了新的和一致的線性和非線性因果效應估計工具變量設置,采用數據依賴的均方預測誤差正則化。我們提出的估計量顯示,在某些情況下,均方誤差比標準和最先進的估計量都有所改善。我們表明,最近對分布穩健預測方法的研究與計量經濟學中經過充分研究的估計量有關。由此證明了一般k類估計具有分布魯棒性。此外,我們提出了一個關于干預誘發分布的分布穩健性的一般框架。在這個框架中,我們推導了分布魯棒預測方法可識別的充分條件,并給出了一些不可能的結果,證明了這些條件的必要性。提出了一種新的結構學習方法,適用于以有向樹為因果圖的加性噪聲模型。我們證明了消失可辨識性設置中的一致性,并提供了一種方法來檢驗具有漸近家族誤差控制的子結構假設,該方法在選擇后仍然有效。最后,我們提出了學習非線性時間序列模型總結圖的啟發式思想。