盡管深度學習有著廣泛的應用,但在實際應用中仍面臨穩健性挑戰,尤其是在訓練和測試分布不一致的情況下。訓練和測試分布之間的差異原因包括人類行為的逐漸變化或服務使用環境的人口統計學差異。雖然獲取預期分布變化的標注數據可能非常困難,但未標注樣本相對便宜且數量充足。
我的研究利用目標領域的未標注數據,識別目標領域和源領域之間的結構關系,然后利用這些關系來適應和評估模型。本論文討論的工作涉及理論和實證上理解深度模型的行為,并利用這些見解開發穩健的方法。特別是,本論文調查了我在以下三個問題上的工作:
Q1:如何在分布變化的情況下適應模型?如果沒有對分布變化性質的假設,這項任務是不可能完成的。我的研究重點是制定在實際環境中出現的分布變化場景的假設,并通過利用未標注數據來改進和適應深度模型。論文的第一部分和第二部分詳細探討了這一研究。
Q2:在沒有標注數據的情況下,如何評估模型的性能?深度學習模型會無聲地失敗,即它們無法標記不確定的決策。為了構建可靠的機器學習系統,獲得準確性的證明與增強系統的穩健性同樣重要。第三部分討論了我在這方面的研究,并提出了利用未標注數據預測模型準確性的技術。
Q3:如何利用基礎模型來解決分布變化帶來的挑戰?基礎模型(如視覺語言模型)在廣泛的任務中表現出色。然而,這些模型也由于虛假關聯、圖像與文本對齊差等原因缺乏穩健性。此外,隨著互聯網數據的演變,這些模型也會變得過時,提出了保持它們更新的新的挑戰。第四部分討論了我對基礎模型行為的理解以及在分布變化下提高其穩健性的技術。
總體而言,本論文通過開發利用未標注數據在分布變化下適應和評估模型的技術,拓展了穩健機器學習的前沿。這里展示的工作是朝著在分布變化面前開發穩健機器學習全面工具包邁出的一步。
優化算法是機器學習和統計推斷的基石。隨著大規模數據集的出現,計算挑戰日益增加,迫使人們追求更高效的算法。現代優化技術通常針對特定的機器學習問題進行定制,這些方法利用問題的獨特結構特征,使其比當前應用于這些問題的方法效率更高。另一個關鍵方面是理解所得到估計量的估計精度。在某些情況下,盡管在訓練集上實現精確優化可能不切實際,但某些簡單而有效的啟發式方法在適當的統計框架內可以表現出令人贊嘆的估計精度。 在本文中,我們從優化和統計的角度研究了幾種大規模算法。第2章和第3章研究了兩種針對結構約束的連續優化算法。第2章集中討論了具有圓柱形約束的無界約束的一種廣義Frank-Wolfe方法。第3章則研究了具有少量極點的多面體約束的類似坐標下降(CD)方法。這兩種方法由于對問題結構的敏感性而表現出最先進的性能。 第4章研究了一種帶有解釋器-響應對之間可能存在不匹配的線性回歸變體。我們研究了一種簡單且高效的啟發式方法,并在統計環境中對其估計誤差進行了嚴格分析。 第5章和第6章研究了兩種決策樹算法。第5章研究了最優決策樹的計算,并引入了一種新的分支定界方法,用于具有一般連續特征的最優決策樹。第6章則轉向在足夠雜質減少條件下對CART算法的分析。我們為滿足該條件的信號函數證明了嚴格的誤差界,并討論了一些滿足該條件的函數類。 第7章研究了一種具有形狀約束的密度估計問題。我們提出了一種立方-牛頓法框架用于計算,并研究了有限混合的逼近性質。
近年來,自然語言生成的許多工作依賴于深度學習,通常使用帶有軟注意機制的神經網絡從數據中選擇顯著方面,然后構建流暢的自然語言文本。然而,在對數據的自然描述中,人類通常會提到更高級別的模式,這可能需要對數據進行復雜的計算。在許多情況下,僅使用軟注意機制的神經模型難以提取這些模式。此外,用戶可能會發現這些模型難以解釋和控制。在本論文中,我提出了一種通過在數據和文本上引入某些類型的離散層級操作的方法,以實現基礎自然語言生成。與僅使用注意力機制相比,這種層級操作可以更好地對數據中的復雜模式建模,揭示可解釋的中間計算,并實現可控的生成。
在論文的前半部分,我將討論在不同的基礎自然語言生成任務中向神經模型添加特定的離散層級操作,如圖像和表格標題生成、對話響應生成以及構建多跳問題回答的推理鏈。這些任務涵蓋了各種數據模態(包括圖像、表格數據、數值數據和知識庫)。在論文的后半部分,我將描述用于文本解碼器中的內容規劃的層級方法,研究詩歌生成中的押韻模式以及用于連貫敘事文本生成的離散計劃。
與機器學習系統不同,人類可以從少數示例中學習新概念,并有效適應變化的環境。機器學習系統通常需要大量數據來學習類似的概念或適應變化。這是因為它們缺乏領域特定的先驗知識(也稱為歸納偏差)。為了應對這些缺點,元學習旨在通過數據驅動的方式獲得領域特定的歸納偏差,通常是從一組相關數據集中獲得。文獻中的大多數現有元學習方法依賴于豐富的領域或問題特定的數據集。然而,在實踐中,我們通常只能獲取有限數量的此類數據集。因此,在本論文中,我們探討了如何僅從少量數據集中成功進行元學習。為了解決這個問題,我們開發了一個理論框架來理解元學習中的泛化。在此基礎上,我們提出了一類可擴展的算法,這些算法通過原理性的元級正則化來進行元學習先驗,防止數據集的過擬合。然后,我們研究了確保元學習先驗提供可靠不確定性估計的方法,使其適用于交互學習。為此,我們提出了一種在函數空間中的正則化方案,并證明所得到的元學習方法在貝葉斯優化中顯著提高了效率。隨后,我們將該方法擴展到安全約束設置中。此外,我們引入了一種基于模型的元強化學習方法,用于有效地適應控制策略的變化動態。最后,我們提出了一種新的元學習框架,該框架直接逼近數據生成的隨機過程。由于它完全在函數空間中進行元學習,因此不會受到神經網絡高維參數空間中先驗問題的影響。在整個論文中,我們通過醫療保健、分子生物學和自動化機器學習(AutoML)以及機器人控制等實際應用,實驗證明了我們提出的方法的實際有效性。
在機器學習領域,開發在世界中智能行為的代理仍是一個開放性挑戰。對這樣的代理的期望包括高效的探索、最大化長期效用以及能夠有效利用以往數據解決新任務的能力。強化學習(RL)是一種基于通過試錯直接與環境互動來學習的方法,并為我們訓練和部署此類代理提供了途徑。此外,將RL與強大的神經網絡功能逼近器結合使用——一個被稱為“深度RL”的子領域——已顯示出實現這一目標的證據。例如,深度RL已產生了能夠以超人水平玩圍棋的代理、提高微芯片設計的效率,以及學習控制核聚變反應的復雜新策略的代理。部署深度RL的一個主要問題是樣本效率低。具體來說,雖然可以使用深度RL訓練有效的代理,但主要成功案例大多數是在我們可以通過使用模擬器獲得大量在線互動的環境中實現的。然而,在許多現實世界的問題中,我們面臨的情況是樣本成本高昂。正如所暗示的,解決這個問題的一種方式是通過獲取一些以往的數據,通常稱為“離線數據”,這可以加速我們學習這些代理的速度,例如利用探索性數據防止重復部署,或使用人類專家數據快速引導代理朝向有前途的行為等。然而,將這些數據融入現有的深度RL算法的最佳方式并不直觀;簡單地使用RL算法在這些離線數據上進行預訓練,一種稱為“離線RL”的范式作為后續學習的起點,往往是不利的。此外,如何明確地在線派生出由這種離線預訓練積極影響的有用行為尚不清楚。鑒于這些因素,本文提出了一種三管齊下的策略來提高深度RL中的樣本效率。首先,我們研究了在離線數據上進行有效的預訓練。然后,我們解決在線問題,探討在純在線操作時對環境進行高效適應。最后,我們得出結論,使用離線數據在在線行動時明確增強策略。
當前流行的機器學習范式涉及對每一個新任務使用靜態數據集訓練一個獨立模型。與之相反,人類會隨時間積累知識,終身學習范式旨在通過使系統能夠持續地從一系列任務中學習,并保留過去的知識以實現未來學習的高效性,來模擬這一過程。這種范式還提供了諸如避免定期模型訓練、潛在地減少計算和能源需求、以及促進環保的綠色人工智能等優勢。在現代機器學習中,盡管深度神經網絡功能強大,但面臨如災難性遺忘(在新任務學習中丟失先前任務的知識)和負面干擾(先前學到的知識阻礙新任務學習)等挑戰。這些問題源于穩定性-可塑性困境,這需要在保留過去知識(穩定性)與獲取新知識(可塑性)之間找到正確的平衡。高效的終身學習系統必須解決這一困境,以及其他考慮,如支持在線數據流、利用小型且固定的內存緩沖容量(如果有的話)和從未標記的數據流中學習。
在本文中,我們從生物學習過程和深度學習的最新進展中獲得靈感,以實現高效的終身學習系統。我們提出將歸納偏置注入數據驅動機器學習的三個主要組成部分:模型(架構與初始化)、訓練(目標與優化)和數據。本論文分為三個部分,每個部分對應以上一個組件。在第一部分中,我們探索了預訓練初始化的角色,揭示了它們與隨機初始化相比在減輕遺忘方面的隱性優勢。接下來,我們設計了一個參數高效的專家架構,該架構動態擴展學習容量以解決穩定性-可塑性困境。在第二部分中,我們展示了針對平坦極小值的顯式優化如何改善網絡穩定性,并引入了一個元學習目標以平衡穩定性與可塑性。第三部分深入探討了終身半監督學習,通過復習偽標記數據來解決穩定性-可塑性困境。我們以從終身學習的角度檢驗預訓練結束,展示通過將上述策略應用于模型的(持續)預訓練,如何增強其性能。
在過去的十年中,訓練硬件的進步和大數據集的可用性使得深度神經網絡在機器學習領域取得了顯著進展。這些網絡在許多自然語言處理和計算機視覺任務中達到或超過了人類水平的表現,例如機器翻譯(Lepikhin et al., 2021)、問答(Du et al., 2022; Chowdhery et al., 2023)、開放式對話生成(Ouyang et al., 2022)、對象檢測和圖像生成(Lu et al., 2023),這些評估是基于獨立同分布(i.i.d)的保留數據進行的。然而,當這些網絡應用于數據分布隨時間變化的現實情況時,它們的表現往往會變差(Lazaridou et al., 2021)。它們失敗的主要原因是當前的機器學習方法專注于孤立學習(Chen and Liu, 2018),即使用靜態數據集為每個新任務或一組相關任務訓練一個單獨的網絡。一種保持這些網絡更新的方法是每當新信息變得可用時就從頭開始重新訓練它們。然而,先前訓練所用的數據可能因隱私或存儲限制而只是暫時可用(Farquhar and Gal, 2018)。此外,重新訓練方法可能在計算上昂貴,數據效率低,且耗時長,尤其是對于大型網絡。例如,GPT-3(Brown et al., 2020),一個具有175B參數的自回歸語言模型,訓練了499B個標記,使用的計算量相當于3.14e23次浮點操作,如果在單個NVIDIA Tesla V100 GPU上訓練,將需要355年和460萬美元的成本。另一種方法是連續地隨著新信息的到來更新網絡。然而,深度神經網絡和一般的參數模型容易發生災難性遺忘(McCloskey and Cohen, 1989; Ratcliff, 1990; French, 1999)現象。在這種現象中,網絡在新信息被整合進系統時會忘記或覆蓋之前學到的知識。此外,這些網絡可能會經歷負面干擾(Pan and Yang, 2009; Weiss et al., 2016)現象,即先前學到的知識可能會妨礙新事物的有效學習,從而增加了數據需求。這兩種現象都源于穩定性-可塑性困境(Mermillod et al., 2013)。穩定性與保留過去的知識有關,可塑性與學習新知識有關。需要一種平衡,因為過多的穩定性會阻礙新知識的獲取,而過多的可塑性會導致忘記以前的知識。這一困境使得當前網絡難以更新其知識,并有效地適應新任務的增量學習。
與此相反,我們人類的學習方式則大不相同。我們通過在一生中獲取和更新知識來學習,保留以前學到的知識,并利用它來促進新概念和技能的有效學習。受到這種人類學習過程的啟發,終身學習(Thrun and Mitchell, 1995; Thrun, 1995; Chen and Liu, 2018)或增量學習(Solomonoff et al., 1989; Syed et al., 1999; Ruping, 2001)或永不停止的學習(Mitchell et al., 2018)或連續學習(Parisi et al., 2019)范式旨在開發能夠從持續的數據流中學習的系統,理想情況下保留過去的知識,用新信息更新它,并利用它進行后續學習。此外,研究人員也認識到終身學習能力對于實現人工通用智能的進展至關重要(Silver, 2011; Chen and Liu, 2018; Yogatama et al., 2019)。除了與生物學習相似之外,終身學習范式還有潛力通過消除過度模型重新訓練來減少能源浪費,并實現環保和可持續的綠色人工智能(Hazelwood et al., 2018; Strubell et al., 2019; Schwartz et al., 2020)。終身學習范式還與其他知識轉移相關的范式有關,如轉移學習(Pan and Yang, 2009)和多任務學習(Caruana, 1997)。與這兩個范式不同的是,終身學習范式更為通用;它假設對任務的順序訪問,旨在改善對先前任務的表現(理想情況下是積極的后向轉移或消極的遺忘)和新任務的表現(積極的前向轉移)。當前的轉移學習范式主要關注從以前的任務到新任務的單向知識轉移,即使這可能損害先前學到的任務的表現。另一方面,多任務學習假設同時訪問所有任務的數據,并通過使任務之間的知識共享來改善所有任務的表現。此外,即使在單任務學習設置中,神經網絡也顯示出經歷災難性遺忘的情況(Toneva et al., 2019),這突出了終身學習范式不僅限于多任務場景。即使是任務的概念在終身學習范式中也非常開放。例如,考慮一個終身COVID-19命名實體識別(NER)標記器。任務有三種不同的表現形式 - (i)分類任務,如實體塊、實體檢測、實體鏈接、共指解析和關系提取,(ii)針對2020、2021、2022、2023年COVID-19研究文章的不同領域的NER,(iii)針對COVID-19變種如COVID-Alpha、COVID-Beta、COVID-Omicron的演化類別的NER。這些表現形式對應于終身學習的三個突出場景:任務、領域和類別增量學習(Van de Ven and Tolias, 2019)。除了解決災難性遺忘之外,終身學習系統還有幾個其他目標(Biesialska et al., 2020)。人類能夠迅速從持續的對話中學習新信息,而不需要明確的主題邊界(Chen and Liu, 2018)。我們有選擇地保留過去的經驗在我們有限的記憶容量中以防止遺忘,并在需要時稀疏地回放它們(Ratcliff, 1990; McGaugh, 2000)。此外,我們經常從環境中以無監督的方式學習,而不是依賴于明確的監督(Aljundi, 2019)。相比之下,當前的終身學習系統(Biesialska et al., 2020)需要明確的任務邊界,它們依賴于大內存容量,因此數據效率低,且在計算上昂貴,因為它們需要對標記數據進行多次傳遞。為了更有效地模仿人類學習,有必要開發在更現實的假設下運行且在數據、記憶和計算上更高效的終身學習系統(Farquhar and Gal, 2018)。 在本論文中,我們的目標是設計高效的終身學習系統,這些系統可以減輕之前學到的知識的災難性遺忘,并通過在現實假設下運行來促進未來的學習。受到生物學習過程和深度學習的最新進展的啟發,我們提議將適當的歸納偏見注入數據驅動機器學習的三個主要組成部分:模型、訓練和數據。通過這樣做,我們還希望提高終身學習系統在數據、內存和計算需求方面的效率。
生成式人工智能旨在制定特定類型的數據分布,以便能夠生成模仿底層分布的真實樣本的新數據實例。值得一提的是,在計算機視覺中,生成模型和判別模型是兩大主要類別。后者旨在基于特定數據實例準確預測類別、對象位置、分割等,而前者探索和制造復雜的數據流形。有人可能會爭論,由于旨在模擬現實世界中無限制領域的巨大復雜性的數據,計算機視覺中的生成式人工智能需要更加先進。然而,即使是最復雜的網絡設計,也很難準確地制定我們自然世界中的確切數據分布,因此還有很大的改進空間。 隨著最近生成式人工智能技術的突破,現在的研究人員和工程師創建了開始處理現實世界需求的高性能生成解決方案作為商業產品,幸運的是,這篇論文也參與其中。在這篇論文中,作者旨在通過探索最佳可能的視覺表征形式(即神經隱式嵌入、頻域表征、基于變換器的表征),以盡可能捕獲更多的視覺信息,進一步推動生成式人工智能的性能。毫無疑問,數據表征是生成式人工智能的一個關鍵前提,因為它揭示了模型能力的上限。此外,從一個更廣泛但不那么精確的角度來看,生成建模的目標——模擬精確的數據分布,也可以視為一種表征學習。在論文的最后部分,作者還探討了超越視覺表征的主題,向更一般的跨模態表征進發,適應多種類型的數據模態,這是朝著更具挑戰性的目標邁進的啟發式步驟:通用人工智能。
這篇論文始于UltraSR,探索適合圖像超分辨率的隱式神經視覺表征,通過任意上采樣比例合成圖像細節。UltraSR的核心思想將隱式神經表征與可學習的周期性編碼相結合,以連續函數的形式在高頻流形中制定視覺細節。當UltraSR探索神經視覺表征時,Spectral Hint GAN(SH-GAN)采取了不同的路線,深入涉及頻域中的視覺特征進行圖像完成。SH-GAN提出了一個新穎的頻譜網絡模塊:Spectral Hint Unit(SHU),以及兩種新策略:異構過濾和高斯分割。SH-GAN因以下原因超越了以往的圖像完成方法:通過基于StyleGAN的共調制框架有效地填充低頻圖像結構,以及通過SHU有效地填充高頻圖像紋理。最近在文本到圖像(T2I)擴散模型的進展激發我們探索新的工作Prompt-Free Diffusion,在這項工作中,我們用SeeCoder代替CLIP文本編碼器來捕獲視覺線索,從T2I系統中移除了提示的需要。SeeCoder自動提取各種視覺線索,包括但不限于語義、紋理、背景等,并將它們傳遞給擴散模型。我們的合成結果既高質量又緊密跟隨SeeCoder編碼的參考視覺線索。與Prompt-Free Diffusion并行,我們提出了Versatile Diffusion,這是第一個提出統一的多模態多流擴散管道的工作,均勻處理多種跨模態任務,生成圖像、文本和變體。Versatile Diffusion具有更廣泛的范圍,我們的目標是將不同模態的表征合并到一個生成網絡中,向通用生成式人工智能的大膽一步邁進。
總之,所有工作都提供了有關數據表征的寶貴見解,其中UltraSR、SH-GAN和Prompt-Free Diffusion積極探索了三種方案下的最佳視覺表征:隱式神經表征、頻域表征和基于變換器的表征。在最后一部分,Versatile Diffusion探索了圖像、文本和圖文跨模態的統一表征和生成。UltraSR在所有比例上的DIV2K數據集上比基線模型高出0.05 dB。SH-GAN在FFHQ數據集上達到FID 3.41,在Places2數據集上達到7.10,獲得了大規模自由形式圖像完成任務中的新最佳水平。Prompt-Free Diffusion和SeeCoder完成了以驚人質量完成流行的示例-based圖像生成任務。Versatile Diffusion在Coco2014數據集上的CLIP相似度為0.269和0.858;FID為11.20和4.57,測量文本到圖像和圖像變化,超越了所有方面的基線Stable Diffusion。
模型無關的特征重要性度量對于揭示不透明或“黑箱”機器學習模型的任務至關重要。這種模型在高風險決策環境(如醫療保健或銀行業)的激增,要求開發靈活且可信的方法來解決這個問題。由于沒有地面真實的特征重要性進行比較,各種競爭方法提供了不同的方法和/或理念,通常都聲稱自己更優越。最近一些最受歡迎的方法是從合作博弈論的工具進行適應,這些工具在獎勵或成本分享問題中被使用。在本文檔中,我們報告了這類特征重要性方法的最近進展。特別是,我們討論了一個使用Shapley值的“數據為中心”的群體(cohort)-基礎框架,用于模型不可知的局部特征重要性。我們提出了一個主要的重要性度量,并探討了更適合特定用例或數據環境的該方法的幾種適應。我們分析了這些方法的屬性和行為,并將它們應用于包括選民注冊和累犯數據在內的一系列合成和實際問題設置。然后,我們提出并討論了局部重要性聚合和特征重要性評估的新方法。
深度學習有望從數據中學習復雜的模式,特別是當輸入或輸出空間很大時。在機器人學習中,輸入(如圖像或其他傳感器數據)和輸出(如關節角度等動作)都可能很大,這暗示深度學習可能特別適合解決機器人學領域的挑戰性問題。
然而,與大多數機器學習應用不同,機器人學習涉及物理約束,使得標準的學習方法面臨挑戰。機器人昂貴,通常需要人工介入以重置環境和修復硬件。這些約束使得大規模的數據收集和訓練變得困難,為應用當前的數據密集型算法設置了一個主要的障礙。機器人學習在評估方面還有一個額外的障礙:每個物理空間都是不同的,這使得實驗室之間的結果不一致。
機器人學習范例的兩個常見假設限制了數據效率。首先,一個代理通常假設獨立的環境和沒有先前的知識或經驗 —— 學習是從零開始的。其次,代理通常只接收圖像觀察作為輸入,僅依賴視覺來學習任務。但在現實世界中,人類在多個環境中通過多種感官學習,并在學習新任務時帶有先前的經驗。這種方法不僅是實際的,而且在實際的機器人技術中也是至關重要的,因為從部署的物理系統中收集大量樣本在成本上是不切實際的。 在這篇論文中,我展示了一項工作,通過利用多模態和預訓練來提高機器人學習的數據效率。首先,我展示了如何通過多模態感知,如視覺和聽覺,提供豐富的自監督(第2章)。其次,我介紹了一個框架,用于預訓練和評估通過環境轉移的自監督探索(第3章)。在第4章中,我將這些想法應用于實際的操作,結合了大規模預訓練和多模態的好處,通過音頻-視頻預訓練來為接觸式微型麥克風提供訓練。最后,根據第3章的基準測試工作,我介紹了一個真實的機器人基準,用于通過共享數據和硬件評估視覺和策略學習方法的泛化能力(第5章)。
想象一個嬰兒玩一個她從未見過的物體。她搖晃它并聽那噪音。她觀察她的父母來了解它是如何使用的。盡管這些行為對成年人來說可能看起來并不聰明,但嬰兒的學習方式卻充分利用了他們早期生活的豐富性。他們利用所有的感官;他們尋求創意的反饋;他們在周圍的世界的多樣性中茁壯成長 [133]。我認為這些行為是為了構建更好的智能體而得到的靈感。具體來說,我旨在通過利用自監督、多模態和先前的經驗來提高機器人的學習能力。強化學習(RL)允許系統超越被動學習,并在與世界互動的同時從這些互動中學習。在標準的RL范式中,研究者手動指定一個獎勵函數(得分),代理則學會最大化這一獎勵。這在Atari或圍棋這樣的游戲中效果很好,但在機器人技術這樣的應用中,獎勵函數很難制定,而且從現實世界的數據中學習需要樣本效率。RL的挑戰可以分為兩個領域:如何在一個環境中收集有趣的數據(探索)和如何從這樣的數據中學習任務(策略學習)。在我的論文中,我探討了如何改進探索和策略學習,使RL在真實世界的環境中變得可行。目前的RL探索框架是兒童探索世界方式的差勁代理。RL代理往往從零開始(在一個環境中從零開始初始化)并且只使用視覺或狀態向量,而忽略了其他感覺模態。在這篇論文中,我旨在使探索更加符合真實世界:代理使用大規模數據(來自先前的環境和被動來源)有效地將知識轉移到新的環境中,其中自監督和多模態引導快速適應。
這篇論文研究了通過試錯學習教導自主智能體完成任務的算法。通常,這個問題被描述為一個強化學習(RL)問題,其中智能體試圖最大化用戶提供的獎勵函數。這里研究的算法采取了不同的方法,大部分避免使用獎勵函數,而是直接從數據中學習實現期望的結果。這種方法允許用戶使用來自監督學習和非監督學習的算法工具,同時也為非專家用戶提供了一個教導智能體新任務的界面。這些方法的設計中的主要挑戰是預測期望結果的概率,尤其是當這些結果在未來的數百步中才發生,特別是在使用離策略數據時。為此,這篇論文的第一部分基于遞歸分類開發了一種算法,該算法通過時間差分更新估計未來狀態的概率(第2章)。這種方法直接適用于具有連續狀態和動作的環境,不需要任何手工制作的距離度量,并導致了一個比之前的方法更高效的面向目標的RL算法。然后,我們將這個想法推廣到可以通過多種方式解決的任務,允許更靈活的任務規范,并提供更廣泛的泛化能力。
將控制問題以期望的結果來描述提供了一個簡單的機制來指定任務是什么,但它沒有為如何解決任務留下任何余地,這引發了一個問題:這些方法是否僅限于簡單任務。為了解決這個限制,我們考慮推斷復雜任務解決方案的結構。由于第一部分介紹的算法在本質上是概率性的,所以很容易將這種結構作為一個未觀察到的潛在變量納入其中。這些新算法推斷這種任務結構;在這樣做的過程中,它們將控制問題分解為一系列更容易的問題,從而加速學習。
我們首先討論以目標為條件的設置,這種推斷觀點導致了一個簡單且理論上有正當理由的方法,將面向目標的RL集成到傳統的規劃流程中(第4章)。RL被用來估計距離并學習一個局部策略,而觀察(如,圖像)上的圖搜索確定了通往目標的高級路徑。這種方法顯著優于標準的目標條件RL算法。接著,我們考慮一種不同的方式來構造任務解決方案:作為一個學習過的動態模型和策略的組合(第5章)。結果是一個基于模型的RL算法,其中模型和策略使用相同的目標聯合優化,這是預期回報的下界。
這篇論文基于初步論文提案中提出的工作在兩個主要方向上進行了深入。首先,我們探討了遞歸分類的幾何解釋(第2章),在表示學習和強化學習之間建立了緊密的聯系(第3章)。這種聯系使我們能夠將遞歸分類擴展到通過有限數量的獎勵標記狀態后設定的任務,并使我們能夠將這些方法應用到基于真實世界圖像的機器人操作任務上。其次,我們擴展了RL的潛在變量觀點(第4章和第5章)以在學習的表示上執行推斷(第5.6節)。這種擴展使我們的方法能夠擴展到更高維度的任務,并提供了大量的計算加速。
決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。