潛在變量模型假設某些潛在變量在觀測數據中缺失,這種模型已經被長期研究,并在實踐中找到了眾多應用。使用潛在變量的機器學習不僅可以提高預測的準確性,而且在增強數據的可解釋性以及發現數據背后的原理上起到了關鍵作用。本論文致力于為各種潛在變量模型的學習開發高效和可證明的算法。第一和第二個主題涉及使用無標簽樣本學習混合模型,這是一種對異質和復雜數據進行建模的強大技術。考慮了兩種具體設置:(1) 低秩模型的混合,將低復雜性的結構先驗整合到高維的混合線性回歸中;(2) 線性動態系統的混合,由于時間序列數據之間的時間依賴性,模型估計尤為具有挑戰性。對于這兩個問題,我們設計了有原則的和模塊化的算法,并正式導出了可靠模型估計所需的樣本復雜度。此外,實證證據證實,我們的方法有潛力推廣到更廣泛的設置,超出我們的理論研究所涵蓋的范圍。第三個主題涉及根據邊緣上的成對比較對一組項目進行排名,這些項目構成了一個連接圖。我們關注經典的Bradley-Terry-Luce模型,該模型假設成對比較的噪聲測量是基于項目的某些未知潛在分數生成的。在關注潛在得分估計的前提下,我們首先導出了在一般圖形拓撲下最大似然估計的接近最優的逐項錯誤,這是通過觀察統計估計和迭代優化算法之間的關聯來證明的。此外,我們開始研究具有局部性的圖形中的排名,這在實踐中由于物理約束而出現;我們的貢獻包括(1)確定局部性不受影響的條件,以及(2)設計新穎的分而治之算法,即使在最小的樣本復雜度下也能保證達到接近最優的錯誤,同時享有某些計算優勢。
深度生成模型(DGM)將深度神經網絡與生成模型結合,以學習感興趣數據的底層生成機制。這已經成為從數據中提取知識的重要方法,適用于機器學習和人工智能。然而,盡管具有潛在的潛力,學習和應用DGM在不同領域中仍然存在許多挑戰。因此,本論文的重點是理解、改進和應用不同的深度生成模型。
首先,我們介紹了不同DGM的基本原理,包括變分自動編碼器(VAE)、基于流的模型、生成對抗網絡(GAN)和基于能量的模型(EBM)。我們還提出了VAE的新對應物:變分潛在優化(VLO),它不需要編碼器結構。此外,我們提供了一種新的角度來理解EBM的生成過程,建立了EBM和GAN之間的聯系,并設計了一種新方法來提高EBM樣本質量。
接下來,我們提出了兩種混合型DGM,以改善當前模型的生成質量。首先,我們將基于流的模型和變分自動編碼器結合,以提高基于自動編碼器的生成模型的生成質量。其次,我們借鑒了指數傾斜的思想,將基于能量的模型與其他基于似然性的生成模型相結合,以獲得更好的樣本。
最后,我們進行了與現代深度生成模型相關的各種應用,包括將生成模型用作基于似然性方法的離群分布(OOD)檢測,并設計了可控的人臉生成模型。我們提出了一種新的OOD檢測分數,稱為似然性遺憾,以幫助使用VAE檢測OOD樣本。此外,我們建議在當前基于關鍵點的人臉重演模型中添加新結構,并將其與3D可變模型相結合,以提高其生成質量和泛化能力。
隨著全球可持續性挑戰的加劇,對創新的、跨學科的解決方案的需求正在激增,這些解決方案能夠利用多種數據來源和分析方法。我們研究了如何結合運籌學和人工智能,通過開發可適應的、普遍適用的框架來解決緊迫的可持續性和醫療保健問題。本論文深入研究了通過同時使用不同的數據類型(如表格、圖像、時間序列和自由文本)來實現的多模態性。我們制定了可以應用于各種任務的多功能方法,從熱帶氣旋預測和生物多樣性跟蹤到醫療保健運營,只需進行最小的適應。
我們模仿人類理解和連接不同數據類型的能力,將人工智能和優化結合到數據驅動的策略中。我們的貢獻包括開發了可泛化的數據預處理、特征提取和數據融合管道,以便在復雜的實際場景中進行大規模的多模態數據處理。值得注意的是,我們的熱帶氣旋預測模型的性能與美國國家颶風中心的頂級模型在24小時強度和軌跡預測上相當。此外,我們構建了連接運籌學和人工智能的預測到規定的數據驅動框架。為了支持多模態性,我們引入了確保在關鍵情況下模型的可靠性和性能的創新工具。我們探索了自適應的健壯集成建模,以增強在不確定性下的計劃和決策制定。
我們的預測和規定模型已在工廠、博物館和醫院中有效地實施,以解決可持續性和公共衛生問題,包括空氣污染管理、生態系統保護和罕見腫瘤分割。我們的污染管理模型在摩洛哥最大的化學工業廠OCP Safi Site顯著地減少了有害排放,同時減少了不必要的成本。此外,我們的腫瘤分割模型與醫學醫生的專業知識相匹配,同時提供了大量的時間節省。
從零開始的強化學習通常需要大量樣本來學習復雜任務,但是許多真實世界的應用場景卻只需要從少量樣本中進行學習。例如,一個有效的新聞推薦系統必須能夠在僅觀察到少量推薦結果后,適應新用戶的口味。為了滿足那些需要快速學習或適應新任務的應用的需求,本論文專注于元強化學習(meta-RL)。具體來說,我們考慮的場景是,智能體會反復接觸到一些來自相同任務族的新任務。智能體必須在極少的嘗試中學會每個新任務,這被形式化為與任務交互的幾個階段。智能體如何利用這些少量嘗試至關重要,因為這決定了它是否能夠隨后解決任務,但學習如何有效使用這些嘗試是具有挑戰性的,因為這里沒有直接的監督。
在本論文中,我們主張有效地利用這些少量的嘗試——因此,快速解決新任務需要仔細地將學習如何利用少量嘗試與學習解決任務相分離。具體來說,我們證明了現有的元強化學習算法如果不分離這兩個問題,就會因為雞和蛋的問題而無法學習到復雜的策略來有效地利用這些少量的嘗試。雞和蛋的問題是指,有效地利用這些少量嘗試的學習依賴于已經學會解決任務,反之亦然。我們用一個新的稱為Dream的算法來解決這個問題,它將這兩個問題分開。此外,我們還研究了如何在這個場景中利用預先收集的離線數據。我們證明了流行的從離線數據中提取技能以快速學習新任務的方法使用了一個具有退化解決方案的欠規定目標,并通過輔助目標來解決這個問題,使優化問題明確規定。我們的算法使得元強化學習中以前未探索的應用成為可能。具體來說,我們表明:(1) Dream通過在解決并不一定需要語言的任務的過程中學習語言,為無需大型文本數據集的語言學習開啟了新的范式。例如,在我們的實驗中,Dream在學習如何在各種建筑中導航到特定辦公室的過程中,學會了閱讀帶有語言描述的建筑平面圖;(2) Dream可以幫助自動評估通常需要大量手動評級的交互式計算機科學作業。我們在斯坦福大學的入門計算機科學課程中部署了Dream來協助評估Breakout作業,并發現它在不犧牲準確性的情況下將評估速度提高了28%,相當于節省了大約10小時的時間。
雖然在強化學習(RL)中從零開始(tabula rasa)的訓練已經取得了巨大的成功,但這需要大量的數據。例如,從零開始訓練以在圍棋(Silver等人,2017年)、Dota 2(Berner等人,2019年)和星際爭霸 II(Vinyals等人,2019年)中取得專家級的成績,都需要數百天的TPU或GPU訓練時間,相當于從常規云服務提供商那里花費數萬或數十萬美元。在許多應用領域,對單一任務進行如此長時間的訓練,或者僅僅是獲取這樣的訓練數據都是不切實際的——想象一下等待一百天讓新聞推薦系統開始推薦好的建議,或者等待新購買的家庭機器人廚師開始烹飪。因此,這篇論文探討了一種利用以前的經驗快速學習新任務的替代范式,稱為元強化學習(meta-RL)。在其核心,元強化學習試圖解決與標準的從零開始的RL不同的問題。元強化學習的目標不是嘗試學習一個全新的任務,而是構建可以快速適應新的,但與之前遇到的任務相關的任務的智能體,例如一個可以在新的家庭廚房中快速開始烹飪的機器人廚師,這得益于它以前的經驗(例如,在許多工廠廚房中的訓練)。我們主要關注典型的元強化學習環境,即智能體面臨一個新任務,并首先允許有少數嘗試(即,幾個階段)與任務交互,然后再被要求解決任務。例如,當被放置在一個新廚房中時,機器人廚師可能首先簡要探索以尋找食材和烹飪用具,然后利用這些信息來烹制美味的飯菜。最初的幾個階段構成了智能體的“快速學習”過程,因為預計智能體在這幾個階段過后能夠解決任務。
元強化學習中最初幾個階段的存在在標準的從零開始的RL中是沒有的挑戰,這就是如何最好地利用最初的階段以便之后能解決任務。直觀來說,學習如何有效地利用這些階段可能面臨兩個主要的挑戰:首先,有效地利用這些階段可能與解決任務大不相同,所以智能體可能需要學習兩種復雜的行為模式。例如,通過尋找食材來適應新廚房在質量上與烹飪一頓飯是不同的。其次,對于學習如何有效利用最初的階段沒有直接的監督——智能體在最初階段收集的信息(例如,食材的位置)可能在智能體學習如何實際使用這些信息之前并不明顯有用。因此,現有的元強化學習算法可能會遇到困難,尤其是在需要復雜且不同的行為來利用最初階段和解決任務的任務家族中。
為了應對這些挑戰,本文借鑒了一系列關于元強化學習的研究,始于Schmidhuber的開創性工作(Schmidhuber,1987年)。在深度RL時代的一些早期元強化學習方法(Finn等人,2017年;Houthooft等人,2018年)通過完全不針對最初的幾個階段進行優化,而是專注于構建能夠在給定適當數據的情況下有效適應新任務的智能體,來避開了這些挑戰。其他早期方法(Duan等人,2016年;Wang等人,2016a年)針對最初的幾個階段進行了優化,但是只是間接地從一個旨在最大化最終回報的端到端目標進行優化,對于最初的幾個階段并沒有特別的關注。后來,Stadie等人(2018年)提出了一個觀點,即最初的幾個階段最好用于收集信息或探索以找到高回報的區域,從而引領了一系列關于如何最好地進行這種探索的工作(Rakelly等人,2019年;Humplik等人,2019年;Zintgraf等人,2019年;Kamienny等人,2020年)。本文借鑒了Stadie等人(2018年)提出的信息收集觀點,并認為在最初的幾個階段有效地進行探索并因此快速適應新任務,需要仔細地將學習探索和學習實際解決任務分離開來。具體來說,在第三章中,我們展示了將這兩者結合在一起的算法遇到了一個雞和蛋的問題,即學習探索依賴于已經學會解決任務,反之亦然。然后,我們提出了一種算法,Dream,它將這兩者分離,從而在實際應用(第5章和第6章)上取得了更好的性能。
此外,我們還研究了如何在這種少樣本元強化學習環境中有效地利用預先收集的離線數據。具體來說,我們考慮了智能體在訓練期間可以訪問到其他策略在各種任務上預先收集的離線數據,而智能體的目標仍然是在僅經過幾個階段后在測試時解決新的相關任務。這些離線數據可以通過幾種方式來利用,包括學習動態模型(Finn等人,2016年),學習行為先驗(Singh等人,2021年),或提取有意義的技能或選項(Sutton等人,1999年;Kipf等人,2019年;Ajay等人,2020年)。我們選擇了最后這種方法,即從離線數據中提取常見的行為作為可以代替標準低級行為空間的高級技能,這使得學習新任務變得更容易。提取這種技能的常見方法是學習一個潛在變量模型來重建離線數據,其中潛在變量代表了提取出的技能。然而,我們發現這種方法是欠指定的,因為許多解決方案都可以等同地最大化似然性,包括退化的解決方案。然后,我們使用一個輔助目標來解決這種欠指定,這個目標最小化了提取技能的描述長度,這在直觀上鼓勵最大限度地提取常見的結構。我們的目標在實踐中結果在語義上有意義的技能,可以加速學習新任務。
在本論文的剩余部分,我們首先在第2章中正式定義我們的少樣本學習場景。然后,我們在兩個主要部分中討論快速學習新任務:在第一部分,我們討論了快速學習新任務的算法,并克服了上述挑戰,這些算法基于在智能體的少數嘗試中有效地探索以揭示解決任務所需的信息(第3章),以及從離線數據中提取可復用技能(第4章)。在第二部分,我們討論了由第一部分引入的算法所支持的兩個應用,具體來說,一種新的機器語言學習范式(第5章)和自動提供初級計算機科學作業的反饋(第6章)。最后,在第7章,我們通過討論(a)有效利用本論文中提出的元強化學習算法;以及(b)選擇適合元強化學習工具箱的應用來結束。盡管元強化學習仍是一個活躍發展的領域,并且其實用性在很大程度上取決于應用的選擇,但本論文的目標是為元強化學習實踐者提供適用于今天實際部署的工具。
機器學習領域,特別是深度學習,由于算法、計算能力和數據集的改進,近年來取得了巨大進步。為支持深度學習而構建的系統主要針對用于生成學習模型的計算。 本論文提出改為關注數據在訓練和驗證中的作用。在論文的第一部分,我們關注訓練數據,展示了負責訓練數據的數據管道是性能考慮的首要目標。為了解決性能問題,我們引入了一種在數據轉換空間中進行數據子采樣的方式,一種降低精度的輸入/輸出格式,以及一個自動調整數據管道性能參數的系統。在論文的第二部分,由于日益增長和表達能力增強的模型的趨勢,我們轉向驗證環境,開發了一個系統,可以使用標準正則表達式自動查詢和驗證大型語言模型的行為。我們以機器學習的數據系統領域的未來工作作為結論。在過去的十年里,機器學習(ML)在應用方面經歷了迅猛的增長。這個領域關注的是隨著數據或經驗而改進的算法[201],已經從一系列專業化的應用(例如,廣告[195],推薦系統[60, 106, 213],垃圾郵件檢測[316])演變為應用于幾乎所有技術領域。例如,深度學習應用于游戲玩法[261, 286],蛋白質折疊[143],機器人學[80],一系列自然語言處理任務[43, 55],并且預計將達到一種無處不在的程度,可能導致重大的經濟顛覆[87]。在這場革命的最前沿是深度學習子領域[108, 173]。深度學習使用多層結構 - 數學操作 - 來構建模型。這些層被聯合學習,以便早期層簡化后續層面臨的任務。雖然深度網絡在理論上可能不如其他機器學習或人工智能方法那么被理解,但它們已經表明,盡管在計算上開銷巨大但通用的方法最終會主導利用額外專業化的算法[268]。這種在計算上開銷巨大但通用的方法已經受益于像摩爾定律[209]這樣的趨勢 - 硬件性能的指數級增長 - 以及硬件和軟件的專業化[165, 275]。如今眾多的深度學習軟件使深度學習或許比其他替代方案更易于獲取 - 只需獲得通常是開源且隨時可用的模型規范代碼,就可以訓練最先進的模型。深度學習技術的核心已經被商品化和民主化,使任何人都可以受益于人類多年的研究和開發。
然而,盡管使用深度學習的常規方面變得更加容易,但仍然存在一些基本問題有待解決,并影響許多應用的下游性能。對這些問題(及其相應解決方案)進行分類的一種方法是將它們分為三個領域:1)機器學習算法,2)計算能力,和3)數據。這三個領域的每一個都已經經過優化以持續推動該領域的進步,并且被列為導致深度學習興起的關鍵因素[35]。例如,缺乏訓練數據和計算能力被歸因為深度網絡在2000年初的衰退[35]。直到大約十年后,這些因素的缺乏才得以彌補,當時在2012年ImageNet大規模視覺識別挑戰(ILSVRC)比賽中取得了創紀錄的表現[71]。獲勝的提交,AlexNet[156],是一個深度卷積神經網絡(CNN),并且在圖形處理單元(GPU)的幫助下接受了一百萬張圖像的訓練。機器學習算法也有所進步,使學習更加高效。例如,ReLU激活和dropout是2012年提交[156, 173]的關鍵算法組件,是廣泛用于加速學習的數學操作。當這些進步結合起來時,由此產生的模型以絕對誤差超過了僅次于其的提交,開始了計算機視覺的革命[173]。今天在自然語言處理方面的最新趨勢可以類似地視為核心算法創新[285],并擴展到大量數據和計算[43, 55],從而導致性能的可預測提升。在民主化機器學習的最前沿是機器學習系統[239]。這些系統包含并解決機器學習方法中足夠公式化的部分,使從業者能夠將時間集中在其他問題上。如果機器學習算法,計算能力和數據是支撐現代機器學習的支柱,那么機器學習系統就是用來將它們置于適當位置的工具。如今的系統包括用于數學表達式符號操作的功能,跨各種硬件平臺的可移植性,分布式執行,以及與常用實用程序和數學表達式一起預先打包的庫[11, 49, 96, 222]。
作為這篇論文的一部分,我們探討了現代機器學習技術棧中新功能或修訂功能的幾個方向,重點關注整個技術棧中數據的處理。研究數據很重要,因為在三個問題領域中,數據是最具動態性的 — 數據總是可以進一步優化以涵蓋更多樣本、更多特征或某些類型的行為,而模型(和計算)在處理某種類型的數據時必然是固定的。此外,對數據的優化可能導致應用程序的顯著增益,從而刺激數據為中心的AI研究[3]。然而,這并非輕而易舉,改變數據容易說難做。由于缺乏理論理解,對于任何新類型的機器學習任務,從業者可能必須測試哪種數據組合效果最好。如果沒有適當的數據抽象,任務中的單一變化可能導致從業者必須手動評估和調整應用程序數據的特征。調整數據的方面不僅是單調乏味的,而且根據數據評估模型以及系統性能的行為需要機器學習和系統的專業知識,而這些專業知識通常是由不同群體的人擁有的。如果機器學習系統的目標是支持從業者解決重復問題,那么可以合理地期望機器學習系統能夠使數據的快速配置和原型制作成為可能。簡而言之,數據管道應該是機器學習系統棧中的一等公民 - 它們不應該是作為附加工具支持模型和計算的事后考慮。本章其余部分的組織結構如下。首先,我們概述機器學習系統是如何構建和評估的(§1.1)。然后,我們概述機器學習中的工作負載是如何發生根本性變化的,這使得社區分裂成兩個部分(§1.2),并激勵對機器學習系統進行根本不同的處理。然后我們轉向論文的動機,重新審視數據在當前機器學習環境中的重要性(§1.3)。最后,我們介紹論文陳述并概述本文的章節(§1.4)。熟悉當前機器學習和機器學習系統狀態的讀者可以跳過第1.1節和第1.2節的“教科書材料”,并直接前往第1.3節。
本文的目的是表明,研究機器學習系統中潛在的組成和函數結構使我們能夠更好地理解它們。本文探索了機器學習許多子領域的范疇理論表述,包括優化、概率、無監督學習和有監督學習。本文首先研究了當用一般的范疇理論結構取代梯度時,各種優化算法的行為。證明了這些算法的關鍵性質在非常寬松的假設下是成立的,并通過數值實驗證明了這一結果。本文還探索了動態系統的范疇論視角,使我們能夠從簡單操作的組成中構建強大的優化器。其次,從范疇理論的角度研究了概率建模與梯度優化之間的關系;本文從這個角度來研究最大似然估計如何在從統計模型到監督學習算法的轉換中保持某些關鍵結構。
//ora.ox.ac.uk/objects/uuid:ec72e338-d95e-4bd6-9412-7ac76b7ddc15
接下來,我們從函數的角度來研究無監督學習。我們基于非監督學習算法的函式表示的范疇論性質,開發了非監督學習算法的分類法,并證明了這些分類法是算法行為的預測。用這個視角推導出了一系列用于聚類和流形學習的新無監督學習算法,并證明了這些新算法在真實世界數據上可以優于常用的替代算法。還用這些工具證明了關于流行的無監督學習算法的行為和局限性的新結果,包括細化界限和在噪聲面前的穩定性。最后,轉向監督學習,并證明數據科學和機器學習中許多最常見的問題都可以表示為Kan擴展。本文用這個角度推導出新的分類和監督聚類算法。同時在真實數據上對這些算法的性能進行了測試。
過去十年,深度學習在幾個重要應用中取得了巨大成功,但數學理解卻落后于它驚人的經驗成功。經典的機器學習理論不足以解釋深度學習中的各種新現象,并為算法選擇提供指導,很大程度上是由于過于簡化的黑盒觀點忽略了模型與優化算法之間的相互作用。本文提出了一組理論結果,考慮了模型和優化算法之間的相互作用,旨在彌合深度學習的理論和實踐之間的差距,以實現泛化和優化。在優化方面,我們首先通過呈現一個在經驗上工作良好的指數級增長的學習率計劃來說明傳統優化理論和具有標準化層的深度網絡之間的不匹配。本文通過建立其與具有權重衰減的SGD的等價性來解釋這種驚喜,并證明其收斂速度快且對初始化規模不敏感。在此基礎上,我們設計了一種名為SIBERT的BERT變體,它可以被SGD訓練,因此比ADAM等自適應算法更節省內存。最后,提出了第一個可證明的通用場景,根據經驗觀察,梯度下降以非單調的方式減少損失。在泛化方面,本文研究了優化算法的隱式偏差,即盡管存在因模型過參數化而泛化能力差的解,但算法仍返回泛化能力好的解。本文首先給出了一個嚴格的理由,為什么卷積網絡比全連接網絡的樣本效率更高。為經驗觀察提供了理論證明,包括矩陣分解在內的深度線性網絡,是由從小初始化隱偏置到低秩解的梯度下降訓練的。我們還確定了一個條件,即梯度下降與鏡像下降等價,可以用來理解非線性模型的隱式偏差,并恢復幾個先前的結果。進一步表明,當有一定的梯度噪聲或其學習率大于2的損失銳度時,梯度下降對"更平坦"的解決方案有隱性偏差。
機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們。
機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。
在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。
其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。
在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。
最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。
。
在本文中,我們研究了生成模型的幾個重要標準,并引入評價指標來解決每個問題,同時討論了生成模型評價中的上述問題。特別是,我們研究了測量生成輸出的感知現實主義的挑戰,并引入了一個人在循環中的評估系統,利用心理物理學理論,以人類知覺文獻和眾包技術為基礎,構建一個高效、可靠、并采用一致的方法比較不同的模型。除此之外,我們還分析了解纏性(Disentanglement),這是評估已學習表示的一個日益重要的特性,通過使用持久同調測量生成模型數據流形的內在特性。