從零開始的強化學習通常需要大量樣本來學習復雜任務,但是許多真實世界的應用場景卻只需要從少量樣本中進行學習。例如,一個有效的新聞推薦系統必須能夠在僅觀察到少量推薦結果后,適應新用戶的口味。為了滿足那些需要快速學習或適應新任務的應用的需求,本論文專注于元強化學習(meta-RL)。具體來說,我們考慮的場景是,智能體會反復接觸到一些來自相同任務族的新任務。智能體必須在極少的嘗試中學會每個新任務,這被形式化為與任務交互的幾個階段。智能體如何利用這些少量嘗試至關重要,因為這決定了它是否能夠隨后解決任務,但學習如何有效使用這些嘗試是具有挑戰性的,因為這里沒有直接的監督。
在本論文中,我們主張有效地利用這些少量的嘗試——因此,快速解決新任務需要仔細地將學習如何利用少量嘗試與學習解決任務相分離。具體來說,我們證明了現有的元強化學習算法如果不分離這兩個問題,就會因為雞和蛋的問題而無法學習到復雜的策略來有效地利用這些少量的嘗試。雞和蛋的問題是指,有效地利用這些少量嘗試的學習依賴于已經學會解決任務,反之亦然。我們用一個新的稱為Dream的算法來解決這個問題,它將這兩個問題分開。此外,我們還研究了如何在這個場景中利用預先收集的離線數據。我們證明了流行的從離線數據中提取技能以快速學習新任務的方法使用了一個具有退化解決方案的欠規定目標,并通過輔助目標來解決這個問題,使優化問題明確規定。我們的算法使得元強化學習中以前未探索的應用成為可能。具體來說,我們表明:(1) Dream通過在解決并不一定需要語言的任務的過程中學習語言,為無需大型文本數據集的語言學習開啟了新的范式。例如,在我們的實驗中,Dream在學習如何在各種建筑中導航到特定辦公室的過程中,學會了閱讀帶有語言描述的建筑平面圖;(2) Dream可以幫助自動評估通常需要大量手動評級的交互式計算機科學作業。我們在斯坦福大學的入門計算機科學課程中部署了Dream來協助評估Breakout作業,并發現它在不犧牲準確性的情況下將評估速度提高了28%,相當于節省了大約10小時的時間。
雖然在強化學習(RL)中從零開始(tabula rasa)的訓練已經取得了巨大的成功,但這需要大量的數據。例如,從零開始訓練以在圍棋(Silver等人,2017年)、Dota 2(Berner等人,2019年)和星際爭霸 II(Vinyals等人,2019年)中取得專家級的成績,都需要數百天的TPU或GPU訓練時間,相當于從常規云服務提供商那里花費數萬或數十萬美元。在許多應用領域,對單一任務進行如此長時間的訓練,或者僅僅是獲取這樣的訓練數據都是不切實際的——想象一下等待一百天讓新聞推薦系統開始推薦好的建議,或者等待新購買的家庭機器人廚師開始烹飪。因此,這篇論文探討了一種利用以前的經驗快速學習新任務的替代范式,稱為元強化學習(meta-RL)。在其核心,元強化學習試圖解決與標準的從零開始的RL不同的問題。元強化學習的目標不是嘗試學習一個全新的任務,而是構建可以快速適應新的,但與之前遇到的任務相關的任務的智能體,例如一個可以在新的家庭廚房中快速開始烹飪的機器人廚師,這得益于它以前的經驗(例如,在許多工廠廚房中的訓練)。我們主要關注典型的元強化學習環境,即智能體面臨一個新任務,并首先允許有少數嘗試(即,幾個階段)與任務交互,然后再被要求解決任務。例如,當被放置在一個新廚房中時,機器人廚師可能首先簡要探索以尋找食材和烹飪用具,然后利用這些信息來烹制美味的飯菜。最初的幾個階段構成了智能體的“快速學習”過程,因為預計智能體在這幾個階段過后能夠解決任務。
元強化學習中最初幾個階段的存在在標準的從零開始的RL中是沒有的挑戰,這就是如何最好地利用最初的階段以便之后能解決任務。直觀來說,學習如何有效地利用這些階段可能面臨兩個主要的挑戰:首先,有效地利用這些階段可能與解決任務大不相同,所以智能體可能需要學習兩種復雜的行為模式。例如,通過尋找食材來適應新廚房在質量上與烹飪一頓飯是不同的。其次,對于學習如何有效利用最初的階段沒有直接的監督——智能體在最初階段收集的信息(例如,食材的位置)可能在智能體學習如何實際使用這些信息之前并不明顯有用。因此,現有的元強化學習算法可能會遇到困難,尤其是在需要復雜且不同的行為來利用最初階段和解決任務的任務家族中。
為了應對這些挑戰,本文借鑒了一系列關于元強化學習的研究,始于Schmidhuber的開創性工作(Schmidhuber,1987年)。在深度RL時代的一些早期元強化學習方法(Finn等人,2017年;Houthooft等人,2018年)通過完全不針對最初的幾個階段進行優化,而是專注于構建能夠在給定適當數據的情況下有效適應新任務的智能體,來避開了這些挑戰。其他早期方法(Duan等人,2016年;Wang等人,2016a年)針對最初的幾個階段進行了優化,但是只是間接地從一個旨在最大化最終回報的端到端目標進行優化,對于最初的幾個階段并沒有特別的關注。后來,Stadie等人(2018年)提出了一個觀點,即最初的幾個階段最好用于收集信息或探索以找到高回報的區域,從而引領了一系列關于如何最好地進行這種探索的工作(Rakelly等人,2019年;Humplik等人,2019年;Zintgraf等人,2019年;Kamienny等人,2020年)。本文借鑒了Stadie等人(2018年)提出的信息收集觀點,并認為在最初的幾個階段有效地進行探索并因此快速適應新任務,需要仔細地將學習探索和學習實際解決任務分離開來。具體來說,在第三章中,我們展示了將這兩者結合在一起的算法遇到了一個雞和蛋的問題,即學習探索依賴于已經學會解決任務,反之亦然。然后,我們提出了一種算法,Dream,它將這兩者分離,從而在實際應用(第5章和第6章)上取得了更好的性能。
此外,我們還研究了如何在這種少樣本元強化學習環境中有效地利用預先收集的離線數據。具體來說,我們考慮了智能體在訓練期間可以訪問到其他策略在各種任務上預先收集的離線數據,而智能體的目標仍然是在僅經過幾個階段后在測試時解決新的相關任務。這些離線數據可以通過幾種方式來利用,包括學習動態模型(Finn等人,2016年),學習行為先驗(Singh等人,2021年),或提取有意義的技能或選項(Sutton等人,1999年;Kipf等人,2019年;Ajay等人,2020年)。我們選擇了最后這種方法,即從離線數據中提取常見的行為作為可以代替標準低級行為空間的高級技能,這使得學習新任務變得更容易。提取這種技能的常見方法是學習一個潛在變量模型來重建離線數據,其中潛在變量代表了提取出的技能。然而,我們發現這種方法是欠指定的,因為許多解決方案都可以等同地最大化似然性,包括退化的解決方案。然后,我們使用一個輔助目標來解決這種欠指定,這個目標最小化了提取技能的描述長度,這在直觀上鼓勵最大限度地提取常見的結構。我們的目標在實踐中結果在語義上有意義的技能,可以加速學習新任務。
在本論文的剩余部分,我們首先在第2章中正式定義我們的少樣本學習場景。然后,我們在兩個主要部分中討論快速學習新任務:在第一部分,我們討論了快速學習新任務的算法,并克服了上述挑戰,這些算法基于在智能體的少數嘗試中有效地探索以揭示解決任務所需的信息(第3章),以及從離線數據中提取可復用技能(第4章)。在第二部分,我們討論了由第一部分引入的算法所支持的兩個應用,具體來說,一種新的機器語言學習范式(第5章)和自動提供初級計算機科學作業的反饋(第6章)。最后,在第7章,我們通過討論(a)有效利用本論文中提出的元強化學習算法;以及(b)選擇適合元強化學習工具箱的應用來結束。盡管元強化學習仍是一個活躍發展的領域,并且其實用性在很大程度上取決于應用的選擇,但本論文的目標是為元強化學習實踐者提供適用于今天實際部署的工具。
本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。
論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。
這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。
近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。
潛在變量模型假設某些潛在變量在觀測數據中缺失,這種模型已經被長期研究,并在實踐中找到了眾多應用。使用潛在變量的機器學習不僅可以提高預測的準確性,而且在增強數據的可解釋性以及發現數據背后的原理上起到了關鍵作用。本論文致力于為各種潛在變量模型的學習開發高效和可證明的算法。第一和第二個主題涉及使用無標簽樣本學習混合模型,這是一種對異質和復雜數據進行建模的強大技術。考慮了兩種具體設置:(1) 低秩模型的混合,將低復雜性的結構先驗整合到高維的混合線性回歸中;(2) 線性動態系統的混合,由于時間序列數據之間的時間依賴性,模型估計尤為具有挑戰性。對于這兩個問題,我們設計了有原則的和模塊化的算法,并正式導出了可靠模型估計所需的樣本復雜度。此外,實證證據證實,我們的方法有潛力推廣到更廣泛的設置,超出我們的理論研究所涵蓋的范圍。第三個主題涉及根據邊緣上的成對比較對一組項目進行排名,這些項目構成了一個連接圖。我們關注經典的Bradley-Terry-Luce模型,該模型假設成對比較的噪聲測量是基于項目的某些未知潛在分數生成的。在關注潛在得分估計的前提下,我們首先導出了在一般圖形拓撲下最大似然估計的接近最優的逐項錯誤,這是通過觀察統計估計和迭代優化算法之間的關聯來證明的。此外,我們開始研究具有局部性的圖形中的排名,這在實踐中由于物理約束而出現;我們的貢獻包括(1)確定局部性不受影響的條件,以及(2)設計新穎的分而治之算法,即使在最小的樣本復雜度下也能保證達到接近最優的錯誤,同時享有某些計算優勢。
強化學習和最優控制是解決動態系統決策問題的兩種方法,分別從數據驅動和模型驅動的角度出發。現代應用這些方法的場景往往涉及高維狀態和動作空間,因此開發高效的高維算法至關重要。本篇論文旨在從兩個角度來應對這一挑戰。在第一部分中,我們分析了強化學習在一般再生核希爾伯特空間(RKHS)中的樣本復雜性。我們關注一類馬爾可夫決策過程,其中獎勵函數位于RKHS的單位球內,而轉移概率位于任意集合中。我們引入了一個稱為分布不匹配下的擾動復雜性的量,用于描述在給定尺度下RKHS中的擾動所導致的可接受狀態-動作分布空間的復雜性。我們證明了這個量不僅為所有可能算法的誤差提供了下界,還為解決強化學習問題的兩種特定算法提供了上界。因此,擾動復雜性隨著給定尺度的衰減,衡量了強化學習問題的難度。我們進一步提供了一些具體例子,并討論了這些例子中擾動復雜性是否迅速衰減。在第二部分中,我們介紹了一種高效學習高維閉環最優控制的算法。該方法是從最近提出的基于監督學習的方法進行改進的,該方法利用強大的開環最優控制求解器生成訓練數據,并使用神經網絡作為高效的高維函數逼近器來擬合閉環最優控制。這種方法成功地處理了某些高維最優控制問題,但在更具挑戰性的問題上表現仍然不佳。其中一個關鍵原因是由受控動力學引起的所謂分布不匹配現象。在本篇論文中,我們對這一現象進行了研究,并提出了初始值問題增強采樣方法來緩解這個問題。我們進一步證明了所提出的采樣策略在經過測試的控制問題上顯著提高了性能,包括經典的線性二次調節器、四旋翼飛行器的最優著陸問題以及7自由度機械臂的最優達到問題。強化學習和最優控制是兩個不同的領域,它們都專注于動態系統的最優決策。強化學習是數據驅動的,旨在在未知環境中學習最優策略,以最大化累積獎勵。最優控制是模型驅動的,旨在基于動態系統的數學模型找到給定系統的最優控制策略。在強化學習中,智能體與環境進行交互,通過獎勵形式的反饋來改進策略。它不需要對系統進行顯式建模,直接從數據中進行學習。強化學習算法已成功應用于各種領域,如視頻游戲[60]、圍棋[80]、機器人技術[45]等。另一方面,最優控制使用模型來預測動態系統在不同控制策略下的行為,并通過優化預定義的成本函數來找到最優策略。這種方法可以對系統進行精確控制,并考慮系統的約束條件。它在機器人技術[52]、航空航天[55]等領域有廣泛的應用。現代強化學習和最優控制的應用往往涉及高維狀態空間和動作空間,這使得問題的解決變得非常困難。自從Bellman以來,人們就意識到解決高維閉環最優控制問題是一項艱巨的任務[7]。廣泛使用的術語“維度詛咒”最初是為了強調這些困難[7]。因此,從業者通常不得不采用不受控制的近似方法,比如假設值函數或策略函數具有特定的低維結構,以滿足實際需求[72]。然而,機器學習的出現帶來了新的希望,因為深度神經網絡能夠高效地逼近高維函數。這使得結合深度神經網絡的強化學習和最優控制算法能夠解決許多高維問題,包括圍棋[80]和50維隨機控制問題[35]。在這篇論文中,我們將討論高維強化學習和最優控制的兩個重要主題。在第一部分中,我們將分析在一般再生核希爾伯特空間(RKHS)中強化學習的樣本復雜性。RKHS是在核方法研究中引入的數學概念,與神經網絡密切相關,這在之前的神經切線核和Barron空間的研究中得到了證實。因此,理解在RKHS中強化學習的樣本復雜性是理解高維強化學習問題的關鍵一步。我們考慮一類馬爾可夫決策過程M,其中獎勵函數位于RKHS的單位球內,轉移概率位于給定的任意集合中。為了描述對RKHS中尺度為?的擾動所產生的可接受狀態-動作分布空間的復雜性,我們定義了一個稱為分布不匹配下的擾動復雜性?M(?)的量。我們展示了?M(?)既給出了所有可能算法的誤差下界,也給出了兩種具體算法——擬合獎勵算法和擬合Q迭代算法——對于強化學習問題的上界。因此,?M(?)隨著?的衰減衡量了在M上強化學習問題的難度。我們進一步證明了擾動復雜性與常用于研究RKHS中強化學習樣本復雜性的集中系數和特征值衰減有關。作為副產品,我們還表明當獎勵函數位于高維RKHS中時,即使轉移概率是已知的且動作空間是有限的,強化學習問題仍然可能受到維度詛咒的影響。這一部分主要基于我的先前工作[53]。
在第二部分中,我們提出了一種用于高維系統閉環最優控制學習的高效算法。該方法基于一種監督學習方法,利用開環最優控制求解器生成訓練數據,并使用神經網絡作為高維函數逼近器來擬合閉環最優控制。雖然這種方法成功地處理了某些高維最優控制問題,但在更具挑戰性的問題上表現較差,主要是由于受控動態引起的分布不匹配現象。該現象指的是訓練數據的狀態分布與由神經網絡控制器生成的狀態分布之間的差異通常會隨著時間的推移而增加,導致訓練數據不能很好地代表使用訓練后的神經網絡控制器時遇到的狀態。 為了解決這個問題,我們提出了初始值問題增強采樣方法。在這種方法中,我們通過解初始值問題迭代地重新評估神經網絡控制器到達的狀態,并通過解以這些狀態為起點的開環控制問題來重新計算新的訓練數據。我們從理論上證明了這種采樣策略在經典的線性二次調節器上的改進效果與總時間持續時間成比例。我們進一步通過數值實驗證明了所提出的采樣策略在經過測試的控制問題上顯著提高了性能,包括四旋翼飛行器的最優著陸問題和7自由度機械臂的最優達到問題。這一部分主要基于我的先前工作[92]。
盡管神經網絡在各種應用中的高度公開化的成就備受矚目,但它們尚未在安全關鍵的應用中得到廣泛部署。實際上,關于深度學習系統的魯棒性、公平性、隱私性和可解釋性存在基本的疑慮。在這篇論文中,我們致力于通過提出有關神經網絡驗證和訓練的貢獻,提高對深度學習系統的信任。首先,通過為流行的網絡松弛設計雙重求解器,我們提供了快速且可擴展的神經網絡輸出邊界。具體來說,我們提出了兩種求解元素激活函數凸殼的求解器,以及基于ReLU激活與前線性層組合凸殼的兩種算法。我們展示了這些方法比現有求解器明顯快,并且改善了以往雙重算法的速度-精度權衡。為了有效地利用它們進行正式的神經網絡驗證,我們圍繞邊界算法設計了一個大規模并行的分枝定界框架。我們的貢獻,作為OVAL驗證框架的一部分,已經公開發布,它們改善了現有網絡驗證器的可擴展性,并對更近期的算法開發產生了影響。其次,我們提出了一種直觀且經濟的算法,通過分枝定界來訓練神經網絡以進行可驗證性。我們的方法被證明可以在驗證對小的敵對性擾動的魯棒性方面達到最先進的性能,同時比之前的算法降低了訓練成本。最后,我們進行了全面的實驗評估,評估了一次訓練網絡執行多個任務的專門訓練方案,顯示它們與簡單基線的性能相當。我們對我們的驚人結果提供了部分解釋,旨在進一步激發對深度多任務學習理解的研究。
在過去的幾年里,神經網絡在各種備受關注的應用中取得了顯著的性能,從蛋白質折疊(Senior等人,2020;Jumper等人,2021)到快速矩陣乘法(Fawzi等人,2022)。由于這些成就的宣傳,基于神經網絡的系統現在常常出現在主流信息媒體中(Geddes,2022;Larousserie,2022;Iannaccone,2022),這導致了媒體曝光率的持續增加。直接的結果是,人們對機器學習算法的可信度產生了極大的興趣(Varshney,2022)。特別的,人們的努力已經朝著確保神經網絡的公平性(Du等人,2020),可解釋性(Angelov和Soares,2020),魯棒性(Carlini和Wagner,2017)和隱私性(Abadi等人,2016)方向發展。深度學習在計算機視覺方面的進展(Krizhevsky等人,2012;Voulodimos等人,2018)尤其迅速,其中已經在標準化任務上取得了超過人類的性能(O’Mahony等人,2019)。然而,對敵對性例子的發現(Szegedy等人,2014;Goodfellow等人,2015),即人類無法察覺的擾動可以顯著改變網絡預測,對這種進步的基礎產生了嚴重的質疑。因此,越來越多的注意力開始致力于提供關于神經網絡行為的正式保證(Liu等人,2021b)。此外,人們注意到深度學習的實踐常常基于民間觀察和固定的流程,而不是對正在使用的復雜算法的嚴謹理解(Sculley等人,2018;Hutson,2018)。幸運的是,有許多工作試圖提供對預先存在的算法的全面評估(Greff等人,2017;Lucic等人,2018),常常揭示了更簡單基線的競爭性能(Brockschmidt,2020;Narang等人,2021)。 在這篇論文中,我們通過開發或為神經網絡驗證和訓練的高效算法提供支持,向可信任的深度學習邁進一步。在概述這篇論文中提出的各項貢獻(§1.4)之前,我們現在將介紹神經網絡驗證(§1.2)以及我們感興趣的背景下的神經網絡訓練(§1.3)。
連續數據和離散數據之間的差異是計算機科學、數學以及認知科學等相關領域的一個基本問題。歷史上,大部分計算都是在離散領域進行的,但連接主義提供了一種使用連續向量表示數據的替代技術,這種替代技術在過去十年深度學習的崛起中愈發突出。本論文探索了將連續的高維數據(像深度學習那樣成功地處理)轉換為離散的緊湊表示(如傳統計算所用)的技術。五個主要章節每一個都介紹了一個新的技術,這些技術都有助于實現這個目標,但也可以作為一個獨立的研究項目來閱讀。這些技術主要涉及深度學習和聚類,并且,與一般的表示學習一致,主要(但不完全)處于無監督的環境中。有些章節分別關注深度學習或聚類,以形成連續數據的離散表示。其他章節則探討如何在一個單一的端到端學習系統中結合深度學習和聚類。這樣的組合本身就涉及到連續和離散之間的交界,因為深度學習操作的是前者,而聚類操作的是后者。能夠在連續和離散的世界之間搭建橋梁,也符合人工智能模擬人類智能的原始目標,因為人類認知的重要部分就是在連續和離散的世界之間的運動。我們的感官輸入主要是連續的,但我們使用的自然語言和推理裝置大都是離散的。有朝一日能夠像人類一樣思考和行動的機器也必須學會做同樣的事。
最近在無監督表示學習方面的進展導致了許多廣泛使用的人工智能工具,如ChatGPT和穩定擴散。這些工具是將相對簡單的訓練算法應用于大規模GPU集群上的大規模模型,甚至是大量未標記的訓練數據,以及在大量標記的評估任務上調整算法的結果。在這篇論文中,我們提出了一些方法來解決在訓練模型進行表示學習時去除這些組件的問題,即有限的計算量、有限的訓練數據和有限的評估數據。本文主要分為四章,重點研究數據和標簽高效的表示學習。
數據高效表示學習的重點是用較少的數據(有標記或無標記)學習有用的表示,這在本文中討論過,對于數據可用性有限的應用特別重要。標記高效表示學習專注于在訓練數據很少或沒有人工標注的情況下學習有用的表示。正如將要討論的,這對于通常很難或不可能獲得準確標記數據的應用程序很重要,例如在隱私敏感領域或具有高度模糊的標簽定義的應用程序。
(1)自增強:用于自監督學習的自動增強策略,探索了如何在很少/沒有標記訓練數據和少量無標記數據的情況下為無監督學習管道開發增強策略。(2)數據高效的自監督表示學習,探索了如何利用一種形式的分層預訓練進行數據高效80倍的預訓練。(3)區域相似性表示學習,通過在區域(基于塊的)水平上進行對比學習,探索了學習區域級表示的首批方法之一,并在標記數據很少的情況下,對目標檢測/分割等下游任務進行了實質性的改進。(4) scale - mae:一種面向多尺度地理空間表示學習的尺度感知掩碼自編碼器,探索了利用已知尺度信息進行地理空間表示學習的方法。
過去十年,深度學習在幾個重要應用中取得了巨大成功,但數學理解卻落后于它驚人的經驗成功。經典的機器學習理論不足以解釋深度學習中的各種新現象,并為算法選擇提供指導,很大程度上是由于過于簡化的黑盒觀點忽略了模型與優化算法之間的相互作用。本文提出了一組理論結果,考慮了模型和優化算法之間的相互作用,旨在彌合深度學習的理論和實踐之間的差距,以實現泛化和優化。在優化方面,我們首先通過呈現一個在經驗上工作良好的指數級增長的學習率計劃來說明傳統優化理論和具有標準化層的深度網絡之間的不匹配。本文通過建立其與具有權重衰減的SGD的等價性來解釋這種驚喜,并證明其收斂速度快且對初始化規模不敏感。在此基礎上,我們設計了一種名為SIBERT的BERT變體,它可以被SGD訓練,因此比ADAM等自適應算法更節省內存。最后,提出了第一個可證明的通用場景,根據經驗觀察,梯度下降以非單調的方式減少損失。在泛化方面,本文研究了優化算法的隱式偏差,即盡管存在因模型過參數化而泛化能力差的解,但算法仍返回泛化能力好的解。本文首先給出了一個嚴格的理由,為什么卷積網絡比全連接網絡的樣本效率更高。為經驗觀察提供了理論證明,包括矩陣分解在內的深度線性網絡,是由從小初始化隱偏置到低秩解的梯度下降訓練的。我們還確定了一個條件,即梯度下降與鏡像下降等價,可以用來理解非線性模型的隱式偏差,并恢復幾個先前的結果。進一步表明,當有一定的梯度噪聲或其學習率大于2的損失銳度時,梯度下降對"更平坦"的解決方案有隱性偏差。
自從深度學習和深度強化學習出現以來,已經有大量的經驗成功地利用某種人工神經網絡來解決給定的優化問題。然而,許多公司的內部運作方式只被人們模糊地了解,并隱藏在成功的故事中。通過揭示各種含義,這篇論文試圖建立一個理解為什么某些神經網絡架構設計工作,以及關鍵的是為什么其他的不能工作。本文不關注實證結果,而是從研究反向傳播在架構設計和訓練中的簡單數學含義開始。然后,提出一種稀疏的全連接層替代方案,以避免信號傳播中的瓶頸。它進一步展示了如何設計單調神經網絡,以及如何使用這些網絡在連續動作空間控制設置中為智能體提供更靈活的策略表示。這本書進一步討論了將神經網絡分成多個模塊的權衡和設計。特別是,模塊化的需求在目標相互沖突的多任務設置中得到了體現。最后,討論了最近提出的注意力架構及其隱含含義。貫穿整篇論文的結果強調了超參數之間的關聯效應和定制架構設計的必要性。本文適合有技術背景的讀者。它被寫得讓剛開始接觸神經網絡的人也能理解。然而,即使是該領域的資深研究人員也可能對所呈現的獨特觀點感興趣。
//www.research-collection.ethz.ch/handle/20.500.11850/541752
作為一個由經驗結果驅動的領域,深度學習是眾多神經結構設計方案的發源地。幾乎每天都有新的論文發表,建議對某些架構組件進行輕微修改,以提高性能。然而,由于大量的混雜因素,通常不清楚性能的提高實際上是由于架構的變化,還是由于超參數的差異,數據預處理的變化,表示能力的增加,或者只是初始化參數的幸運抽獎。本文著眼于深度強化學習的應用前景,旨在更好地理解神經網絡的基本內部工作原理及其設計。
特別地,本文首先強調了反向傳播的隱式內存需求、常用激活函數的工作范圍以及體系結構組件對梯度傳播的影響。展示了架構瓶頸和門控機制如何導致梯度消失,并討論了殘差連接對梯度動態的影響。它還強調了通過體系結構提供算法結構的必要性,以及結構和有利的訓練動態之間的內在權衡。在第一個實際示例中,本文提出了一種全連接層的稀疏替代方案,可以減少參數計數,而不會引入不必要的瓶頸。在強化學習方面,本文提出了一種在連續動作空間環境中控制的新方法。該方法基于分位數回歸和神經網絡的單調性約束。這種組合允許在網絡參數中隱式地表示策略,從而提供了表示復雜動作分布的靈活性。這種策略的必要性在競爭游戲和約束內存設置中得到了證明。此外,該方法還提高了經典控制問題的學習性能。本文進一步探討了多任務學習的局限性,并針對干擾任務目標的問題提出了兩種解決方案——一種是基于注意力架構先驗的解決方案,另一種是基于與無監督任務聚類配對的神經網絡解決方案。這兩種方法都有效地緩解了這個問題,從而提高了性能,并在不同的環境中具有更廣泛的適用性。 本文最后深入研究了注意力架構和transformer對超參數的敏感性。它強調了將注意力權重約束到概率單形的含義,以及這些如何反映訓練表現。它進一步展示了內部softmax激活如何像sigmoid一樣容易飽和,以及transformer在初始化時如何不是序列長度獨立的。在對抽象任務的大規模實證研究中,將Transformer與可選架構設計進行比較。結果突出了超參數選擇的相關效應,不同架構對數據偏差的魯棒性,以及算法對齊對底層任務的重要性。
在本文中,我們研究了生成模型的幾個重要標準,并引入評價指標來解決每個問題,同時討論了生成模型評價中的上述問題。特別是,我們研究了測量生成輸出的感知現實主義的挑戰,并引入了一個人在循環中的評估系統,利用心理物理學理論,以人類知覺文獻和眾包技術為基礎,構建一個高效、可靠、并采用一致的方法比較不同的模型。除此之外,我們還分析了解纏性(Disentanglement),這是評估已學習表示的一個日益重要的特性,通過使用持久同調測量生成模型數據流形的內在特性。