深度概率模型在高維、多模態數據合成和密度估計任務中已成為最新的技術前沿。通過將抽象的概率公式與神經網絡的表達能力和可擴展性相結合,深度概率模型已成為機器學習工具箱中的基本組成部分。然而,這些模型仍然存在一些局限性。例如,深度概率模型通常局限于基于梯度的訓練,因此難以結合非可微操作;它們的訓練和采樣成本較高;并且深度概率模型往往沒有利用先驗的幾何和特定問題的結構知識。 本論文由四部分研究工作組成,通過基于最優傳輸的仿真方法推動深度概率模型領域的發展。首先,使用Sinkhorn算法的正則化最優傳輸,我們提供了一個理論上有依據且可微的粒子濾波中重新采樣的近似方法。這使得人們能夠通過端到端可微粒子濾波對狀態空間模型(一類序列概率模型)進行基于梯度的訓練。接下來,我們探討了Sinkhorn算法的初始化策略以解決速度問題。我們展示了精心的初始化可以顯著加速Sinkhorn算法。這在可微排序、變分自編碼器潛在空間中的聚類以及粒子濾波中都有應用。 剩下的兩項工作通過薛定諤橋對基于擴散的生成模型領域作出了貢獻。首先,我們將擴散模型與薛定諤橋聯系起來,稱之為擴散薛定諤橋。這一方法論實現了加速采樣、數據到數據的仿真以及一種計算高維連續狀態空間問題的正則化最優傳輸的新方法。最后,我們將擴散薛定諤橋擴展到黎曼流形設置。這使得人們能夠結合先驗的幾何知識,從而實現對黎曼流形值數據的擴散模型的更高效的訓練和推理。這在氣候和地球科學中有應用。 觀察到的現象通常具有高維度、分布上多模態,并且來自于尚未完全理解的隨機復雜系統。科學家的職責是更好地理解我們周圍物理和社會世界中的這些觀察現象。對統計機器學習研究人員特別感興趣的是開發數據驅動的模型來模擬和預測感興趣的隨機量及其相互作用。此類數據驅動的機器學習方法通常包括利用大型數據集和富有表現力的模型參數化來彌合領域知識與經驗證據之間的差距。 隨著技術的進步,我們現在能夠捕獲、存儲和訪問大量且不斷增加的數據。結合現代計算資源,廣大數據可用于從業者訓練大型且靈活的神經網絡參數化模型。富有表現力的神經網絡與理論上有依據的統計方法之間的協同作用,提供了一種原則性的、可擴展的方式來準確表示感興趣的隨機量之間復雜關系。深度概率模型正位于此交匯點,并已成功應用于多個領域,包括:視覺和語言的經典機器學習任務;時間序列、預測或密度估計的統計推斷問題;以及自然科學應用。盡管進展迅速,但仍有許多未解決的挑戰。深度概率模型在訓練和部署方面都資源昂貴。如何高效地訓練和模擬概率模型尚不明確,尤其是對于迭代擴散模型。也不總是清楚如何將現有的特定問題知識或結構融入深度概率模型中。從直觀和實驗上來看,結合現有知識可以開發出更有效的損失目標和更高效的模型,從而減少學習高性能模型所需的數據量和參數量。最終,結合領域知識可以減少神經網絡需要通過從數據中學習來彌合的差距。在將涉及非可微操作(如排序、聚類或重采樣)的理論上有依據的統計方法與通常限于基于梯度訓練的深度網絡的表現力相結合方面,也存在許多挑戰。 本論文通過引入基于最優傳輸和仿真方法的新方法,對深度概率模型的發展作出了貢獻。 貢獻
本文包括多項研究成果,可大致分為兩個部分。論文的前半部分使用離散的熵正則化最優傳輸(OT)推導出新穎且改進的深度概率模型訓練方案。論文的后半部分探索了熵正則化最優傳輸在連續狀態空間和擴散模型中的新方法,通過擴散Schr?dinger橋和黎曼擴展來實現。 仿真方法。仿真是一個廣泛使用的術語,通常與蒙特卡羅(Monte Carlo)互換使用。在本研究中,仿真是指對隨機過程的評估,包括:蒙特卡羅積分、馬爾可夫鏈蒙特卡羅、概率模型以及簡單的隨機變量實現。本文中仿真將用于兩個上下文。首先,仿真在蒙特卡羅積分的意義上使用,指的是近似那些通常表現為不可解積分的損失。其次,運行概率模型的生成過程也稱為仿真。在某些方法中,從概率模型進行仿真直接用于近似訓練損失,例如GANs。然而,其他可擴展方法如擴散模型在訓練和部署期間有不同的仿真過程。 可微分粒子濾波。本文的第一篇文章【19】詳細介紹于第三章,考慮利用Sinkhorn算法實現端到端可微分粒子濾波。這允許訓練神經網絡參數化的狀態空間模型,從而以原則性的方式利用問題的序列結構以及神經網絡的表達能力。粒子濾波是一類蒙特卡羅方法,用于在狀態空間模型中執行狀態推斷和似然估計【30】。給定按時間t ∈ {1, . . . , T}索引的順序未觀察到的潛在狀態(Xt)t和觀測值(Yt)t,狀態空間模型是一個順序概率模型,其特征在于潛在狀態的轉移模型,表示為密度fθ(xt|xt?1),以及觀測模型gθ(yt|xt)。這在包括機器人技術、計量經濟學和流行病學在內的科學領域中有應用【18, 29, 31, 33】。粒子濾波提供了觀測值的漸近無偏對數似然估計log p(y1:T),可用于以原則性的方式學習轉移和觀測模型的參數。 粒子濾波包括三個主要操作的順序應用:
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
深度神經網絡因其強大的性能,越來越多地應用于計算機視覺任務。然而,它們的訓練需要大規模的標注數據集,而這些數據集的準備工作耗時費力。半監督學習(SSL)通過結合標注數據和未標注數據進行學習,提供了一種解決方案。雖然大多數最先進的SSL方法采用確定性方法,但對其概率模型的探索仍然有限。研究這一領域非常重要,因為概率模型可以提供不確定性估計,這在實際應用中至關重要。例如,由于未標注數據中的潛在偽標簽錯誤,SSL訓練的模型可能不如監督學習訓練的模型,且這些模型在實踐中更容易做出錯誤預測。特別是在醫學圖像分析和自動駕駛等關鍵領域,決策者必須了解模型的局限性以及何時可能出現錯誤預測,這些洞察通常由不確定性估計提供。此外,當使用未標注樣本進行訓練時,不確定性還可以作為過濾不可靠偽標簽的標準,從而有可能提高深度模型的性能。本論文進一步探索了SSL的概率模型。借助廣泛使用的貝葉斯近似工具——蒙特卡洛(MC) dropout,我提出了一種新的概率框架,即生成貝葉斯深度學習(GBDL)架構,用于半監督醫學圖像分割。這種方法不僅緩解了以往方法中潛在的過擬合問題,而且在四項評估指標上都取得了優異的結果。與其經驗設計的前輩不同,GBDL以完整的貝葉斯公式為基礎,提供了理論上的概率基礎。鑒于MC dropout的局限性,我引入了NP-Match,這是一種用于大規模半監督圖像分類的新概率方法。我們通過在不同挑戰性環境下(如標準、不平衡和多標簽半監督圖像分類)的大量實驗,評估了NP-Match的泛化能力。實驗結果表明,NP-Match不僅與先前最先進的方法競爭力強,而且比基于MC dropout的模型更快地估計不確定性,從而提高了訓練和測試的效率。最后,我提出了NP-SemiSeg,一種用于半監督語義分割的新概率模型。這個靈活的模型可以與各種現有分割框架集成,以進行預測和估計不確定性。實驗表明,NP-SemiSeg在準確性、不確定性量化和速度方面都優于MC dropout。
圖是簡單而強大的數據結構,通過節點和邊描述實體及其相互關系,使其成為模擬各種實際對象(從分子到社會或生物網絡)的流行候選者。由于其適用于各種建模場景,基于圖形狀數據的機器學習在過去幾年中已成為一個重要的研究領域。雖然與機器學習模型結合時非常強大,但圖在提出獨特挑戰方面也具有其特性,這些模型需要能夠適應不僅數據高度多樣化,而且圖域也可能在大小、連通性模式及其與節點特征的交互等方面變化。在這項工作中,我假設高斯過程——一類貝葉斯非參數模型,特別適合于圖域上的數據建模。 為了證明這一假設,我通過推導適用于圖數據的高斯過程模型來展示貝葉斯非參數建模的優點,這些模型適用于圖機器學習中三個最重要的任務:鏈接預測、圖級預測和節點級預測。結果模型展示了許多優勢,包括良好的模型擬合和由于其非參數性質而對過擬合的強大抵抗力,以及校準良好的不確定性估計。此外,高斯過程優化超參數的能力允許設計適應圖特定特征的模型,例如圖信號的平滑性和多尺度結構或特征的局部性。這些提議模型的優勢,特別是與一系列基線模型相比的競爭性能,已在廣泛的實際數據集上的大量實驗中得到證實。
深度神經網絡越來越多地被用于計算機視覺任務,這得益于它們的強大性能。然而,它們的訓練需要大規模的標記數據集,這些數據集的準備工作非常耗時。半監督學習(SSL)通過從標記和未標記數據的混合中學習提供了一個解決方案。雖然大多數最先進的SSL方法遵循確定性方法,但對其概率對應物的探索仍然有限。這一研究領域非常重要,因為概率模型可以提供對現實世界應用至關重要的不確定性估計。例如,由于未標記數據中潛在的偽標簽錯誤,接受SSL訓練的模型可能不及接受監督學習訓練的模型,這些模型在實踐中更可能做出錯誤的預測。特別是在醫學圖像分析和自動駕駛等關鍵領域,決策者必須了解模型的局限性以及可能發生錯誤預測的時機,這些洞察通常由不確定性估計提供。此外,當使用未標記樣本進行訓練時,不確定性還可以作為過濾不可靠偽標簽的標準,從而可能提高深度模型的性能。本論文進一步探索了SSL的概率模型。依靠廣泛使用的貝葉斯近似工具——蒙特卡洛(MC)dropout,我提出了一個新的概率框架,即生成式貝葉斯深度學習(GBDL)架構,用于半監督醫學圖像分割。這種方法不僅緩解了以前方法中發現的潛在過擬合問題,而且在四個評估指標中都取得了更優的結果。與其經驗設計的前身不同,GBDL由完整的貝葉斯公式支撐,提供了理論上的概率基礎。承認MC dropout的局限性,我引入了NP-Match,一種新的大規模半監督圖像分類的概率方法。通過在不同的挑戰性設置中進行廣泛的實驗,包括標準的、不平衡的和多標簽的半監督圖像分類,我們評估了NP-Match的泛化能力。根據實驗結果,NP-Match不僅與以前的最先進方法相比有優勢,而且比基于MC-dropout的模型更快地估計不確定性,從而提高了訓練和測試的效率。最后,我提出了NP-SemiSeg,一種新的半監督語義分割的概率模型。這種靈活的模型可以與各種現有的分割框架集成,以進行預測和估計不確定性。實驗表明,NP-SemiSeg在準確性、不確定性量化和速度方面都超過了MC dropout。
在給定某些數據分布的樣本情況下,生成建模的核心目標是從大致相同的分布中生成更多樣本。這一框架最近變得極其流行,其在圖像生成、語言模型和蛋白質合成等領域的應用令人印象深刻。這些方法的顯著成功引發了兩個關鍵問題:在什么條件下生成模型能提供對底層數據分布的準確近似?我們能否擴展它們的應用場景范圍?本論文在兩類生成模型的背景下考慮這些問題:擴散模型和重要性加權自編碼器。
擴散模型通過迭代地向數據分布應用噪聲,然后學習去除這種噪聲來工作。它們最初是為實數值數據引入的。然而,對于許多潛在應用來說,我們的數據最自然地定義在另一個狀態空間上——也許是流形或離散空間。我們描述了擴散模型到任意狀態空間的擴展,使用通用的馬爾可夫過程進行噪聲處理,并展示了這樣的模型如何被有效地學習。我們還提供了對離散狀態空間的特定擴展的詳細研究。接下來,我們調查了擴散模型的近似準確性。我們為流匹配推導出誤差界限——擴散模型的一個概括——并使用受隨機定位啟發的技術改進了擴散模型的現有最優界限。
重要性加權自編碼器(IWAEs)通過學習數據的潛變量表示,使用在證據下界中的重要性抽樣來獲得更緊的變分目標。IWAEs存在幾個限制,包括后驗方差低估、訓練中的信噪比差和重要性抽樣比率中的權重崩潰。我們提出了IWAE的一個擴展——VR-IWAE——解決了這三個問題中的前兩個。然后我們提供了第三個問題的詳細理論研究,表明它甚至在VR-IWAE中也存在。我們在一系列模擬和實際數據上提供了這些現象的實證演示。 在我們設計算法執行的許多最基本的任務中,基本層面上涉及生成數據。例如,我們可能希望有能合成音頻、編寫連貫文本或根據描述繪制圖像的算法。然而,對于大多數有趣的任務,合理數據的分布非常復雜且難以明確指定——準確描述使圖像或文本片段令人信服的特征極其具有挑戰性,最初嘗試構建能在人類水平上執行這些任務的人工智能系統大多因此失敗。幸運的是,對于我們希望生成的許多類型的數據,已有大量現有數據可用。這提出了一種可能性,即我們可以利用這些現有數據來了解一些關于底層分布的信息,然后使用我們所學到的知識來指導我們生成新數據。從數學上看,這一觀點在生成模型的核心問題中得到了體現:給定來自數據分布 pdata(x) 的樣本,我們能否生成來自大致相同分布的附加合成樣本?更一般地,我們問,給定來自聯合分布 pdata(ξ, x) 的樣本,我們能否生成來自條件分布 pdata(x|ξ) 的近似樣本。這使我們能夠例如根據給定的文本提示 ξ 生成圖像 x。能執行此任務的模型稱為生成模型,它們是生成各種條件數據的一種極具影響力的技術。
在過去的十年中,深度學習的興起激發了一系列基于神經網絡的生成建模技術。這些技術包括生成對抗網絡(Goodfellow等,2014年)、變分自編碼器(VAEs)(Kingma等,2014年)、規范化流(Rezende等,2015年)、自回歸模型(Oord等,2016b年)、擴散模型(Sohl-Dickstein等,2015年;Ho等,2020年;Song等,2021b年)以及流匹配方法(Lipman等,2023年;Albergo等,2023b年)。這些模型在各種領域取得了顯著進展,包括圖像合成(Karras等,2020年;Vahdat等,2020年;Ramesh等,2022年;Saharia等,2022年)、文本生成(Brown等,2020年;Anil等,2023年)、音頻生成(Oord等,2016a年;Popov等,2021年;Le等,2023年)和分子結構生成(Ingraham等,2019年;Trippe等,2023年)。這些方法的驚人成功引發了兩個問題,這將是本論文的核心主題: ? 我們能否理解這些生成模型在什么條件下提供對底層數據分布的準確近似? ? 我們能否擴大這些生成模型可能應用的場景范圍?
盡管可能的生成建模技術空間非常廣泛,但在本論文中,我們選擇關注現有技術的一個子集。在論文的第一部分,我們研究了擴散建模及其近親流匹配。在第二部分,我們將注意力轉向變分自編碼器,特別是一種稱為重要性加權自編碼器(IWAE)(Burda等,2016年)的擴展。 擴散模型最初是為定義在 R^d 上的數據開發的(Sohl-Dickstein等,2015年;Ho等,2020年;Song等,2021b年)。然而,有很多形式的數據并不是最自然地表示在 R^d 上。例如,文本數據自然是離散的,而地理空間數據通常取值于球面 S^2。盡管我們可以選擇將這些分布嵌入到實數向量空間中,但開發尊重數據分布內在結構的擴散模型可能更為合適。這些模型的開發是本論文第2章和第3章的主題。 其次,我們調查了擴散模型提供的近似有多準確。具體來說,我們研究了 R^d 上的擴散模型收斂到真實數據分布的速率。我們希望了解這些收斂率可以洞察為什么擴散模型在經驗上如此成功。此外,我們希望它能揭示它們在什么條件下會(或不會)提供準確的近似,可能激勵更有效的擴散方法的設計。這是第4章和第5章的主題。 第三,在第6章中,我們轉向 VAE 及其表親 IWAE,后者在變分目標中使用重要性抽樣以獲得更緊的變分界限。這些方法已被觀察到有幾個實際限制,我們尋求解決。首先,VAE 通常遭受后驗方差低估的問題(Minka,2005年),意味著它們通常無法實現對數據分布的良好覆蓋。Li等(2016年)的先前工作用Rényi的α-散度(Rényi,1961年)替換了VAE目標中的Kullback–Leibler(KL)散度,試圖鼓勵模式尋求行為;我們問這一洞察是否可以推廣到IWAE設置。其次,盡管IWAE提供了更緊的變分界限,但實踐中它的信噪比(SNR)低(Rainforth等,2018年)。我們研究了我們基于α-散度的IWAE擴展對這個問題的影響。第三,我們懷疑 IWAE 邊界中的重要性抽樣應在高維中遭受權重崩潰(Bengtsson等,2008年),這可能使其在實踐中無效;我們旨在提供這一現象的量化分析并展示其實際相關性。
深度神經網絡已經展示了其在處理各種類型數據為包含關鍵信息的緊湊表征方面的卓越能力,這些信息對于理解數據至關重要。隨著強大計算設備的可用性,模型大小和用于訓練模型的數據量持續增長。因此,基礎模型的概念最近已經浮現。由于大型模型和用于訓練的廣泛數據范圍,人們認為基礎模型有強大的潛力,能為人工智能研究帶來重大變革。在這篇論文中,我們專注于視頻基礎模型。具體來說,我們希望探索從視頻中學習深度表征的方法,這是與視頻基礎模型相關的最重要的主題之一。我們確定了三個潛在阻礙視頻理解范式中基礎模型進步的挑戰:(一)當前用于處理視頻的模型結構在從視頻中提取特征方面效率不高。(二)從未標注數據中學習視頻表征的框架大多繼承自圖像,它們未能利用幀之間的運動,對于從未裁剪視頻中學習表征來說是次優的。(三)預訓練視頻模型的適應性僅限于時空理解任務,而許多空間理解任務可以通過結合連續幀之間的時間上下文而受益。針對上述挑戰,我們提供了解決方案的探索。在模型結構方面,我們首先介紹了TAdaConv,它在不增加太多計算開銷的情況下為圖像模型賦予了時間建模能力。然后,我們進一步優化了基于Transformer的模型的效率,通過掩蓋輸入視頻的相當比例,減輕了對視頻冗余部分的計算負擔。在從未標注數據中學習視頻表征方面,我們探索了從圖像生成的偽運動中學習,以增強模型對視頻中像素運動的理解。對于基于對比學習的框架,我們提出了一種參數化裁剪策略,用于在訓練期間自適應控制增強強度。為了從未裁剪視頻中學習,我們在標準對比學習框架的基礎上進一步引入了主題一致性學習,這被證明在利用網絡上未篩選的視頻數據方面是有效的。在泛化到空間理解任務方面,我們將TAdaConv擴展到視覺對象跟蹤的應用。
我們對世界的觀察由無數的、無休止的視覺刺激組成。因此,對機器來說,理解我們的世界的關鍵能力之一是理解視頻。自從幾十年前進入深度學習時代[160]以來,視頻理解領域已經取得了巨大的進展。處理視頻的最大模型已從1000萬參數[322]增長到超過10億[319],用于訓練視頻模型的數據也從幾千[282, 162]擴展到超過50萬[32],如果考慮到未標注數據,這個數字進一步擴大到超過1000萬[8]。為了更全面地理解視頻,涌現出了各種任務,如動作識別[149, 150]、動作檢測[24, 105]、視頻檢索[361, 267]、異常檢測[285]和對象跟蹤[85, 348, 228]等。
在早期,各種任務的方法是獨立開發的。盡管處理視頻的操作相似,但不同任務中的視頻模型結構是為每個任務專門設計的,而且視頻模型都是從隨機初始化開始訓練的。隨著發現在預訓練期間學習的特征表示可以將有用信息轉移到下游任務[102],動作識別的視頻模型開始利用預訓練的圖像模型(例如,在ImageNet[69]上預訓練的ResNet[119])作為初始化[33],其他下游任務[196, 397, 245]的解決方案開始利用在Kinetics-400[150]等大規模標注數據集上預訓練的視頻模型的特征表示。這導致了各種視頻應用框架的融合,遵循一般的預訓練和微調范式。通常,視頻模型首先通過監督或自監著學習進行預訓練。借助預訓練的表示,下游任務中的應用可以通過向視頻骨架添加特定于任務的模塊來完成,這實際上是對視頻模型的表示進行后處理。該過程如圖1.1所示。因此,在這樣的框架中,視頻表征的質量在下游任務的性能中起著關鍵作用。 盡管預訓練的視頻模型顯著加速了訓練并提高了下游視頻應用的性能,如動作識別[134, 255, 259]、動作定位[196, 403]、視頻定位[74, 75, 397]等,但預訓練模型仍然存在幾個缺點。在各種下游任務中,我們看到要獲得像樣的性能需要新的架構[75, 135]或訓練技術[74]。這顯著阻礙了視頻模型在各種現實世界應用中的使用。
最近,基礎模型的出現[20]為這個問題提供了一個有希望的解決方案。基礎模型的概念起源于自然語言處理(NLP),本質上指的是具有大量參數并在大量數據上訓練的模型。例如,著名的NLP模型GPT-3[21]擁有1750億參數,并使用3000億語言標記進行訓練。盡管基礎模型的技術并不是全新的,但其規模和由此產生的高度容量和泛化能力已經為各種現實世界應用打開了新的可能性。在大量未標注數據上預訓練如此大的模型之后,該模型能夠解決各種任務,而無需專門針對這些任務進行訓練。因此,有了視頻基礎模型,我們可以處理各種視頻應用,而無需針對不同的下游任務重新設計模型架構和訓練技術。
然而,與NLP相比,視覺基礎模型仍處于早期階段[20]。大多數現有的用于視覺應用的基礎模型仍然專注于傳統的計算機視覺任務[262, 68, 332],如圖像分類[69]和語義分割[200, 51],而更廣泛的能力,如常識推理,尚待開發。在視頻基礎模型方面,它們通常遵循基于圖像的模型的管道[319, 368],將二維操作擴展到三維操作以處理時空信息,并使用類似的替代任務進行模型的預訓練。 由于基礎模型范式是可擴展模型結構、無監督表征學習策略和各種任務統一的發展結果,我們在進一步挖掘視頻基礎模型潛力之前,仍面臨著以下挑戰:
(一)模型架構本質上決定了如何從輸入數據生成表征。從這個角度看,基礎模型的最新發展主要是由Transformer架構[307]的發明推動的,該架構有效地利用了GPU的并行性,并且對輸入內容具有很高的適應性。自2017年誕生以來,已經充分驗證了Transformer架構是處理一維文本輸入[307, 151, 263]的最合適方式之一。其在2020年擴展到視覺應用[79]也促進了對這種結構在理解復雜空間語義方面適用性的全面調查和評估。然而,它在視頻理解方面的適用性,特別是在理解復雜運動方面,尚待進一步探索。就數據結構而言,由于視頻通常由每秒24到60張圖像組成,每個視頻需要處理的像素數量大大增加,這本身就帶來了巨大的挑戰,因為計算量與幀數成線性增長。此外,正如我們自己的視覺系統所示[70, 92, 136, 211],時間信息的處理方式與空間信號本質上不同,而大多數現有方法通過對待空間維度和時間維度對稱地來融入理解時間動態的能力[3, 208, 13]。 (二)預訓練的替代任務定義了在一堆未標注數據上對預定義模型架構的學習過程。根據預訓練階段使用的數據,替代任務可以分為單模態[41, 118, 37, 263, 21],僅依賴于視覺信息,和多模態[262, 379, 334, 174],利用視覺數據和其他模態,如文本或音頻。盡管多模態預訓練模型已經展示了強大的泛化能力和執行各種任務的能力,但[385]中表明,僅從圖像中學習的表示更適合于模態內理解。大多數現有的學習視頻表征的方法都遵循與圖像范式中的對應方法類似的流程[253, 240, 146],忽略了視頻中運動的特殊性。此外,大多數當前的表征學習方法僅限于從手動策劃的數據集中學習,這些數據集包含特定的動作類別,并且在注釋過程中可能存在人為偏見。如何從網絡上更長、更復雜的未策劃視頻中學習,目前尚未知曉。
(三)泛化到更多的視覺任務。目前,大多數視頻模型結構和預訓練任務都是專門為時空理解任務設計的,例如動作理解和時刻檢索,而基于視頻的空間理解任務的發展,如單一[85]或多對象跟蹤[228]和視頻實例分割[370],通常與視頻基礎模型的發展平行進行。視頻基礎模型的研究如何幫助這些基于視頻的空間理解任務更好地利用視頻中嵌入的時間信息,尚待探索。
新型機器學習方法是科學和工程變革的核心。概率模型已成為知識發現的基礎學習模型。作為替代模型,它們允許在有限的預算下進行高效的黑箱優化或積極學習復雜系統的行為。另一個重要的用例是使用概率模型作為生成模型,生成具有所需屬性的新設計,或從物理系統的平衡分布中生成樣本。但是,為了充分發揮概率模型在知識發現中的潛力,必須開發既能應對不斷增長的數據大小和復雜性,又能讓領域專家容易解讀的模型。
在這篇論文中,我從開發一種新方法開始,該方法解決了貝葉斯優化中的概率替代模型的稀疏解識別問題。稀疏解的發現不僅增強了解決方案對人類的可解釋性,以便理解系統行為,還便于使用較少的參數更輕松地部署和維護。
接下來,我介紹了一種利用深度學習增強高斯過程推斷可擴展性的新方法。高斯過程被廣泛用作知識發現中的概率替代模型,但由于在GP回歸中識別核超參數的高成本,其實際使用受到限制,涉及到昂貴的邊緣可能性。我展示了如何通過使用“攤銷”超參數推斷來繞過昂貴的邊緣可能性的需求。這是通過訓練一個單一的神經網絡實現的,該網絡消耗一組數據并產生一個估計的核函數,用于不同的任務。
最后,我介紹了邊緣化模型,這是一種新的高維離散數據生成模型,在科學發現中無處不在。通過使用神經網絡對所有誘導的邊緣分布進行明確的建模,邊緣化模型提供了可擴展和靈活的生成建模與合理的可能性。直接建模邊緣使得邊緣推斷效率高,能夠對給定的(非規范化)概率函數進行任意階的生成模型的可擴展訓練,克服了以前具有精確可能性的方法的主要限制。
概率模型作為建模數據分布的原則機器學習方法,最近開始在促進科學探索和發現中起到重要作用。替代模型在科學、工程、機器人學和許多其他領域都是寶貴的工具,其中它們模擬復雜的系統行為。利用概率代理模型提供的不確定性量化,可以設計自動算法通過與系統主動交互來有效地完成給定用例的目標。一個主要的用例是優化,例如通過實驗測試確定電池正極的最佳材料組成。在這種情況下,使用概率模型進行貝葉斯優化(Shahriari等,2015b),根據實驗結果了解和迭代微調組成和性能之間的關系。同時,基于替代模型的不確定性量化,策略性地選擇下一個實驗條件,平衡對新組成的探索與對已知性能良好的組成的利用,從而加速最佳組成的發現。
主動學習提供了另一個主要的用例,例如在訓練替代模型準確模擬分子動力學(Vandermause等,2020)。該過程從基于有限數據的初始概率模型開始,然后通過主動查詢系統獲取額外的標記數據來系統地加強。選擇最具信息性的樣本進行標記是由替代模型的固有不確定性估計指導的,從而得到一個準確的模型,標記工作量最小。
除替代模型外,概率生成模型在跨多個領域建模復雜數據分布方面也取得了顯著進展,包括自然語言建模(Brown等,2020)、圖像生成(Song和Ermon,2019; Ho等,2020)、音頻合成(Huang等,2018)和科學發現應用(Wang等,2022; Schneuing等,2022)。在訓練科學發現的生成模型時,有兩個主要設置。第一個設置是最大似然訓練,目標是訓練生成模型以最大化訓練數據的似然。這種設置通常用于圖像生成、自然語言建模和藥物設計等任務,目標是生成與訓練數據分布非常相似的數據。第二個設置是分布匹配,目標是將生成分布與目標密度對齊。這種設置在圖像和語言方面研究較少,但在如采樣晶格模型和估計分子或材料的平衡性質等應用中經常使用,其中需要從物理系統的熱力學平衡分布中生成樣本。
在這篇論文中,我提出了新方法來解決知識發現背景下概率模型的解釋性和可擴展性挑戰。在深入研究所提議的方法的細節之前,我為替代模型和生成模型的現有文獻提供了簡短的概述。 本章的其余部分組織如下:第1.1.1節首先簡要介紹了高斯過程,這是一種在科學發現中使用的流行的概率替代模型。然后在第1.1.2節中,我回顧了貝葉斯優化的基本方法論方面。第1.2節簡要概述了關于生成模型的現有文獻,重點關注科學發現中的應用。最后,在第1.3節中,我總結了整個論文的大綱。
近年來,機器學習在許多應用中證明了其極高的用途性。然而,這些成功故事很多都源于在與訓練數據非常相似的數據上評估算法。當應用于新的數據分布時,機器學習算法已被證明會失敗。鑒于現實世界數據的非平穩和異構性質,我們需要更好地掌握算法在分布外(out-of-distribution)的泛化能力,以便算法能被廣泛部署和信任。我的論文提出了三個研究課題,旨在調查和發展分布外泛化的領域。這些研究努力的中心目標是產生新的工具,如算法、理論結果、實驗結果和數據集,以提高在數據分布發生變化時機器學習方法的理解和性能。貫穿這三個機器學習場景的高級思想是模塊性——由組合在一起形成一個整體的獨立部分的質量。模塊化方法被假設為引導機器學習方法遠離僵化的記憶示例,走向更靈活和“更智能”的支持泛化的學習。
在我的第一項貢獻中,我從多個訓練分布的學習角度來接近論文目標。對這一研究方向的貢獻有兩方面。首先,我呈現了一組新的標準化任務,用于評估和比較分布外泛化算法。其次,我陳述了一系列新的理論結果,填補了數據中心和算法方法之間在分布外泛化方面的現有差距。這些理論發現引導了一組關于如何采用算法方法的新的實用建議。
在第二項貢獻中,我處理了監督圖像識別中的泛化問題。在這一背景下,我首先調查了多級特征聚合對泛化的影響,并證明了使用其中一種考慮的方法進行增強可以持續提高性能。其次,我提出了一組簡單的圖像數據集,可作為評估和比較圖像分類方法在分布外泛化方面的墊腳石。最后,我深入研究了多個神經網絡通信以解決共享任務的學習場景。這項工作以兩種方式支持論文目標。首先,我提出了一個新的環境,圖引用游戲(graph referential games),并在數據表示和相應的數據表示學習方法對分布外泛化的影響上提出了結果。這些結果連接了之前不相連的圖表示學習和新興通信領域。其次,我解決了基于現實圖像的群體通信這一具有挑戰性的領域。這篇論文中的數據集、算法、定理和實驗結果代表了在機器學習中理解和改進分布外泛化方面的幾個步驟。它們為研究人員提供了旨在促進這一領域研究的新工具和結果,其中一些已被證明對研究社群有用。最后,這項工作提出了機器學習的多個分布學習、圖像分類和多代理通信子領域中重要的未來方向。
//www.repository.cam.ac.uk/items/8680585b-87ca-4196-987f-c4d379259092
記憶與學習是否相同?阿根廷作家豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)的短篇小說《記憶者富內斯》(Funes the Memorious,由James E. Irby翻譯成英文[71,第59–66頁])描述了一個名叫富內斯的男孩,在頭部受傷后獲得了完美的記憶。他開始詳細地記住他一生的每一個時刻。同時,他失去了泛化的能力:他的記憶彼此是孤立的。例如,他從不同的角度看到同一只狗,卻只把同一只狗的不同側面視為獨立的信息。他甚至不了解自己的身體是什么樣的(‘每次看到鏡中的自己的臉,看到自己的手,都讓他感到驚訝’),這導致了一個結論:‘思考就是忘記一個差異,進行泛化,進行抽象。在富內斯過于充實的世界里,只有細節。’""與富內斯相似,具有數百萬參數的現代神經網絡已被證明會記住訓練樣本,這可能導致一系列問題,例如:(1)對噪聲數據的高度敏感性[150, 221],(2)易受對抗性攻擊的影響[271, 87, 269, 287],(3)與人類學習相比樣本效率低[302, 303, 275],以及(4)對新數據的泛化能力差[62],即使新數據樣本直觀地與模型已經訓練過的數據有相似之處[61, 251]。這些問題可能出現在應用現代機器學習的任何領域。它們可能導致機器學習系統在使用過程中產生不透明的故障模式,從而導致對機器學習系統的信任度下降[297]。"
"標準機器學習方法中缺少對分布外泛化(Out-of-distribution generalisation)的能力。這些方法得到了統計學習理論[279]的支持,該理論證明了使用基于平均值的優化(經驗風險最小化[279])以及使用測試集估計泛化誤差的做法是合理的。然而,這一理論假設訓練(過去)和測試(未來)數據是獨立同分布的。在應用機器學習的許多實際領域中,這一假設是不正確的:現實世界的數據是異構的,其分布通常會隨時間變化。分布變化的實際來源包括機器學習系統用戶特性的變化,或一個有實體的代理(embodied agent)所處環境的變化。另一個常見的分布變化例子是由于語言(包括在線使用的語言)動態性而產生的。自然語言的不斷演變已被證明會改變語言模型的困惑度(perplexity),當這些模型在數月內多次應用時[164]。背景章節的第2.4節更多地涵蓋了分布變化的類型和相應的例子。由于這些變化,即使在常用的分布內測試集上達到接近100%的準確率也不總是能預示未來的性能,這一點已被眾多論文所證明[137, 15, 61, 235, 204, 62]。"
"在機器學習領域,關于分布外泛化(OOD generalisation)的主題實質上與機器學習本身一樣廣泛和復雜,并且在研究社群中同樣容易受到瞬息萬變的趨勢和不同觀點的影響。在我看來,面對分布變化提高泛化能力是必要的,原因如下: ? 工程原因 — 提高樣本效率,并在沒有數千個訓練樣本的低資源領域提高性能[110]; ? 科學原因 — 深入了解神經網絡是如何學習的,并可能讓機器學習更接近人類學習; ? 商業原因 — 在目前由人類執行的越來越復雜的任務中使用神經網絡; ? 社會原因 — 通過控制簡單性偏見[246]來消除機器學習系統的偏見。
利用數據中的‘捷徑’可能會導致不公平的解決方案(例如,這可以在招聘工具中利用性別信息時看到[59])。在我的博士研究期間,我一直在問自己:致力于分布外泛化的機器學習研究社群最需要什么樣的工具?這篇論文旨在以新數據集、新理論結果、新測試平臺、新實驗結果和新算法的形式提供這樣的工具。這些研究努力的具體成果總結在圖1.1中。"
導致這篇論文的研究工作涉及機器學習的三個子領域:多分布學習(第3章)、圖像分類(第4章)和多智能體通信(第5章)。這種廣泛的視角使我能夠收集更多證據來支持中心假設,并探討研究問題(第1.2節)。同時,本論文中介紹的工具旨在對我在博士研究期間有幸與之合作和學習的幾個機器學習社群有所用處:(1)不變學習和群體魯棒性社群(第3章),(2)視覺社群(第4章),以及(3)新興通信社群(第5章)。所有這些社群都在獨立地研究機器學習中的分布外泛化,正如我在背景章節(第2章)以及各自貢獻章節中所回顧的。本論文聯系了我在研究中涉足的之前是分離的社群,例如圖神經網絡[141]與新興通信[43](第5章),以及面向群體魯棒性的數據導向方法[36]與分布魯棒優化[21](第3章)。"
最近機器學習領域取得了重大的進展,其中序列模型是深度學習模型的核心,這些模型在科學應用中取得了廣泛的成功。然而,現有的方法需要針對不同任務、模態和能力進行大量的專門化,存在計算效率瓶頸,并且在建模更復雜的序列數據(例如涉及長依賴性的情況)時存在困難。因此,繼續開發有原則和實用性的建模通用序列的方法仍然具有基本重要性。本論文提出了一種使用狀態空間模型進行深度序列建模的新方法,該方法具有理論基礎、計算效率高,并在各種數據模態和應用中取得了強大的結果。首先,我們引入了一類具有多種表示和屬性的模型,它們綜合了標準深度序列模型(如循環神經網絡和卷積神經網絡)的優勢。然而,我們表明計算這些模型可能具有挑戰性,并且開發了一類在現代硬件上非常快速的結構化狀態空間,無論是在長序列的擴展上還是在其他設置(如自回歸推斷)上。最后,我們提出了一種新穎的數學框架,用于逐步建模連續信號,它可以與狀態空間模型相結合,賦予它們具有原則性的狀態表示,并提高其對長程依賴關系的建模能力。總的來說,這種新的方法類為機器學習模型提供了有效且多功能的構建模塊,特別是在大規模處理通用序列數據方面具有重要意義。
深度學習為我們提供了越來越復雜的神經網絡,可以通過梯度上升來調整,以最大化某些目標。貝葉斯統計為我們提供了一種原則性和統一的方法來指定統計模型和執行推斷。將這兩種方法配對的一種有效方法產生了深度生成模型(DGM),其中概率模型中統計參數之間的映射本身使用神經網絡進行參數化。在本文中,我們研究了這種方法可以用于解決機器學習中的各種問題的方法,以及由此產生的模型的屬性。在這篇論文中,有三個反復出現的主題,魯棒性,結構和層次,貫穿始終。
首先研究如何構建一個深度生成模型,以在一種稱為半無監督學習的新學習機制中進行學習。這是半監督學習的一個極端情況,對于某些類別的數據,沒有給定的標記示例。在學習將數據劃分為不同的成分,不同的基礎真值類時,模型必須能夠在未標記的類上進行聚類,并在給出了一些標記示例的類上進行半監督學習。本文展示了如何在一系列標準數據集上實現這一點。
從處理一個離散潛變量聚類分配開始,研究具有離散潛變量層次結構的模型。我們提出了一種新的方法來參數化這種類型的模型中的潛在變量,放松的責任向量量化,可以訓練非常深的潛在變量層的層次結構。該方法在一系列標準數據集上,對端到端的分層離散DGM進行訓練,在最大化數據證據(訓練和測試集)的下界方面取得了最先進的結果。在這樣做的過程中,這些模型有助于縮小具有離散潛在的分層DGM和具有連續潛在的分層DGM之間的差距,并提供極其穩定的訓練。
然后我們切換到另一個問題,如何構建一個模型,以有效地從高維數據中學習統計獨立的潛在表示。本文提出一種分層方法,使用雙射函數flow來產生一個中間表示,然后由高度約束的線性獨立成分分析(ICA)模型起作用。與其他方法相比,這導致了在各種玩具和真實數據集上的優越性能。
然后,研究迄今為止未考慮的問題,即如何使DGM對對抗性攻擊具有魯棒性。對這些模型的潛空間進行正則化可以可靠地誘導魯棒性,并通過將這種正則化應用于分層的DGM來獲得更魯棒的模型。最后,從理論角度研究了DGM算法的魯棒性問題。我們定義r-魯棒性,DGM魯棒性的新標準,然后得出該標準上的間隔,在該間隔內的模型可以說是魯棒的。與潛空間被正則化的各種DGM的最佳模型的新理論相結合,這種間隔的形式有助于了解這種正則化如何提高魯棒性。
**本文提出的工作表明,深度學習和貝葉斯統計的結合是多么有效,并提供了對他們的組合所產生的模型本質的見解。**這為這兩個方向開辟了新的研究——為建立在所提出工作之上的新模型,也為研究深度生成模型的理論工作開辟了新途徑。
//ora.ox.ac.uk/objects/uuid:fa76ad20-30bb-48a3-8ae4-56da578a1767
設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。