亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度神經網絡,尤其是大型語言模型(LLMs),在廣泛的任務中展現了顯著的成功;然而,其訓練過程計算密集,需要大量的數據和計算資源。即使是對預訓練的LLMs進行特定任務的微調,也常常會帶來顯著的計算成本。本論文從凸優化的角度,推進了對神經網絡的理論理解和實際優化。我們從一個基礎性結果出發,即兩層ReLU網絡的正則化訓練問題可以重新表述為凸優化問題。這種凸優化公式化闡明了優化景觀,刻畫了所有全局最優解和Clarke駐點,并將模型性能與超參數選擇解耦。通過與壓縮感知中最稀疏線性模型恢復的類比,我們證明了過參數化神經網絡本質上學習能夠有效解釋數據的簡單模型,這一結論得到了在隨機生成數據集中觀察到的相變現象的支持,從而確立了其卓越的泛化能力。將強對偶性概念擴展到深度網絡,我們提出了一種并行架構,使得在修改后的正則化下能夠實現全局最優訓練,同時也為標準架構中非零對偶間隙的存在提供了見解。通過將其與NP難的最大割問題聯系起來,我們嚴格分析了訓練正則化ReLU網絡到全局最優的計算復雜性,得出了NP難性證明,并為特定類型的數據集開發了高效的多項式時間近似算法。即使在缺乏顯式正則化的情況下,梯度流的隱式正則化也會驅動收斂到非凸最大間隔問題的全局最優解。我們通過利用隨機幾何代數進行大型語言模型(LLMs)的微調,展示了凸優化的實際應用。我們進一步通過凸幾何和對偶性視角分析了用于訓練兩層ReLU網絡的非凸次梯度流,表明其隱式偏差與凸正則化一致,并在對偶變量的某些條件下證明了其收斂到全局最優解。最后,我們提出了一種半定規劃(SDP)松弛,以近似具有平方ReLU激活的兩層網絡中的Wasserstein梯度,確保在特定條件下的緊密松弛,并展示了其在貝葉斯推斷和COVID-19參數估計中的有效性。這些發現彌合了關鍵的理論空白,并引入了具有深遠意義的創新方法,推動了我們對神經網絡訓練過程的理解。

付費5元查看完整內容

相關內容

 (StanfordUniversity)位于加利福尼亞州,臨近舊金山,占地35平方公里,是美國面積第二大的大學。它被公認為世界上最杰出的大學之一,相比美國東部的常春藤盟校,特別是哈佛大學、耶魯大學,斯坦福大學雖然歷史較短,但無論是學術水準還是其他方面都能與常春藤名校相抗衡。斯坦福大學企業管理研究所和法學院在美國是數一數二的,美國最高法院的9個大法官,有6個是從斯坦福大學的法學院畢業的。

深度神經網絡,尤其是大語言模型(LLMs),在廣泛的任務中展現了顯著的成功;然而,其訓練過程計算密集,需要大量的數據和計算資源。即使是對預訓練的LLMs進行特定任務的微調,也常常帶來顯著的計算成本。本論文從凸優化的視角出發,推進了對神經網絡的理論理解和實際優化。我們首先提出了一個基礎性結果:兩層ReLU網絡的正則化訓練問題可以重新表述為凸優化問題。這種凸優化公式化闡明了優化景觀,刻畫了所有全局最優解和Clarke穩定點,并將模型性能與超參數選擇解耦。借鑒壓縮感知中最稀疏線性模型的恢復,我們證明了過參數化神經網絡本質上學習能夠有效解釋數據的簡單模型,并通過在隨機生成數據集中觀察到的相變現象支持了這一結論,從而確立了其卓越的泛化能力。將強對偶性概念擴展到深層網絡,我們提出了一種并行架構,能夠在修改正則化的情況下實現全局最優訓練,同時也為標準架構中非零對偶間隙的存在提供了見解。通過將正則化ReLU網絡的訓練與NP難問題Max-Cut聯系起來,我們嚴格分析了訓練到全局最優的計算復雜度,得出了NP難證明,并為特定類型的數據集開發了高效的多項式時間近似算法。即使在缺乏顯式正則化的情況下,梯度流的隱式正則化也會驅動收斂到非凸最大間隔問題的全局最優解。我們通過利用隨機幾何代數對大語言模型(LLMs)進行微調,展示了凸優化的實際應用。我們進一步通過凸幾何和對偶視角分析了用于訓練兩層ReLU網絡的非凸次梯度流,表明其隱式偏差與凸正則化一致,并在對偶變量滿足特定條件時證明了其收斂到全局最優解。最后,我們提出了一種半定規劃(SDP)松弛方法,用于近似具有平方ReLU激活的兩層網絡中的Wasserstein梯度,確保在特定條件下的緊密松弛,并展示了其在貝葉斯推斷和COVID-19參數估計中的有效性。這些發現填補了關鍵的理論空白,并引入了具有深遠意義的創新方法,推動了我們對神經網絡訓練過程的理解。

付費5元查看完整內容

近年來,深度學習取得了顯著成功,但訓練神經網絡通常涉及一定的猜測和超參數調優。優化方法的一個關鍵方面是“隱性偏差”,即優化設置中的細微變化(在收斂時不影響小訓練損失)可能顯著改變模型收斂的解,從而影響測試性能。本論文提供了一系列數學結果,系統地刻畫了不同訓練方式中的這種隱性偏差。 本論文的第一部分探討了梯度下降,即使沒有顯式正則化,也可能收斂到最大化邊界的解。先前的研究已經為同類神經網絡的邊界一階最優性提供了理論依據,但由于其非凸性,邊界的全局最優性并無保障。本論文在數據具有簡單結構時提供了深入的理論分析:對于線性可分的數據,我們展示了關于是否可以達到邊界全局最優性的正反結論。此外,我們展示了如何利用基于邊界的視角來解釋神經網絡訓練中的一些有趣的泛化現象,無論是否存在顯式正則化,包括簡約偏差(simplicity bias)和頓悟現象(grokking phenomena)。

論文的第二部分提出了兩個結果,揭示了有限學習率引發的隱性偏差。許多現有分析,包括第一部分中的基于邊界的分析,描述了即使在學習率無限小的情況下也成立的隱性偏差。然而,實踐中通常使用有限學習率,并且觀察到它有助于泛化。我們分析了有限學習率下的全批次梯度下降(GD),結合歸一化層和權重衰減等關鍵訓練組件,如何產生向平坦極小值的偏差,而平坦極小值與更好的泛化正相關。此外,我們研究了隨機優化中的隱性偏差,并通過隨機微分方程(SDE)為自適應梯度方法(如 Adam 和 RMSprop)推導了嚴謹的動態近似,以捕捉有限學習率的影響。在此基礎上,我們還推導出平方根縮放規則,作為在更改批次大小時調整自適應梯度方法的優化超參數的實用指南。

付費5元查看完整內容

隨著越來越多的應用將數據表示為圖,圖神經網絡(GNNs)成為在圖數據上應用深度學習的有用工具。帶符號和有向網絡是與許多現實世界問題相關的重要網絡形式,如從成對比較中的排序和角同步。

在本報告中,我們提出了兩種用于帶符號和有向網絡中節點聚類的空間GNN方法,一種用于帶符號有向網絡節點聚類和鏈接預測的譜GNN方法,以及兩種針對排序和角同步具體應用的GNN方法。這些方法在嵌入生成和預測中結合為端到端的方法,沒有中間步驟。

在各種數據集上的實驗結果,包括幾個合成隨機塊模型、隨機圖異常模型以及不同規模的現實世界數據集,表明我們提出的方法在廣泛的噪聲和稀疏水平上能夠達到令人滿意的性能。這些模型還通過可能包括節點級特征或標簽的外生信息,補充了現有方法。 這些貢獻不僅有助于分析以網絡表示的數據,還形成了一系列工作,提出了用于網絡分析的GNNs的新穎架構和任務驅動的損失函數。

隨著越來越多的數據來自非歐幾里得領域,并以圖的形式表示(如社交網絡、引用網絡和生物化學圖),圖數據因其豐富的關系信息,與許多學習任務相關聯[1, 2]。需要從圖數據中學習的任務包括預測蛋白質界面、分類疾病、學習分子指紋和建模物理系統[2]。雖然傳統的網絡分析通常集中于單一的固定簡單網絡,這些網絡通常可以用具有非負條目的對稱鄰接矩陣表示,但更復雜的網絡類型往往更具現實性。 為了解決網絡推理任務,圖神經網絡(GNNs)是一種有用的工具。GNNs本質上是將深度學習應用于圖數據。深度學習非常強大,因為神經網絡是可訓練的函數,用于進行預測。通常根據下游任務構建專用的損失函數,從而通過優化損失函數來更新神經網絡參數。神經網絡因此通常靈活易訓練,并且往往能夠達到令人滿意的性能。利用標準的深度學習技術,如歸一化、梯度下降和并行計算,GNNs可以像標準神經網絡一樣進行訓練。通過利用網絡結構,GNNs能夠從具有長距離依賴的節點鄰域中保留信息[2]。 GNNs有廣泛的應用,如節點聚類、節點嵌入、鏈接預測、節點分類和時空圖預測[1]。在本論文中,我們在復雜圖中解決網絡分析問題,通過結合任務的定制化應對特定領域的挑戰。利用GNNs,我們能夠通過將現有方法的輸出作為輸入或添加可學習參數來改進現有方法。以這種方式,我們的GNNs可以被視為對非GNN方法(通常是譜方法)的改進,這些方法無法自然地使用外部信息。

付費5元查看完整內容

人類智能的標志是能夠通過應用從先前任務中學習到的相關知識來處理新任務。因此,人類在適應過程中只需要少量的新任務示例。相比之下,深度學習模型在實現這種卓越的泛化能力方面仍然落后于人類,特別是在數據有限的新任務中。這種學習方式被稱為資源高效學習。在本論文中,我們探討了面向具有視覺能力的深度學習模型的資源高效問題的公式化。我們首先研究了應用于長尾圖像分類的純視覺神經模型。在長尾圖像分類中,尾類的訓練樣本數量稀少,而頭類樣本則豐富。訓練分布的不平衡使得學習良好的尾類表示變得困難。我們提出了插值中心對比學習(ICCL)方法,通過利用豐富的頭類樣本來促進尾類表示的學習。我們在頭類和尾類之間創建插值樣本,并使用新的插值中心對比損失來優化表示。我們在多個長尾評估數據集上展示了ICCL的有效性。

接下來,我們將研究擴展到涉及圖像和文本模態的視覺語言模型(VLMs)。我們調查了零樣本視覺問答(VQA),該方法限制VLMs訪問任何VQA訓練樣本。我們設計了一個模塊化框架PnP-VQA,該框架執行零樣本VQA并且不需要訓練。我們利用自然語言和網絡可解釋性技術作為接口,結合多個預訓練模型。具體來說,我們首先通過關注相關的圖像區域生成多個問題引導的描述,然后將這些描述作為上下文輸入到預訓練語言模型中以回答問題。我們的問題引導描述能夠捕捉詳細的視覺屬性并包含答案詞,從而幫助問答模型獲得正確答案。我們的PnP-VQA在多個VQA基準測試中實現了最先進的結果。

我們最后研究了視覺語言模型(VLMs)的零樣本評估。至關重要的是,VLMs在零樣本設置下的測試任務性能應反映其真實的泛化能力,這樣我們才能對VLMs進行公平比較并跟蹤其進展。當測試任務與VLM的訓練任務高度相似時,該VLM的性能可能會高于那些沒有這種相似性的其他VLMs。因此,我們進行了遷移學習實驗,以研究訓練任務和測試任務之間的相似性,這是在評估VLMs時通常未考慮的。此外,我們通過利用遷移性能上的因子分析,直接從數據中發現潛在的視覺語言技能。我們證明了因子分析是一種有效的數據驅動方法,可以識別出合理但令人驚訝的視覺語言技能。 此外,我們通過提出一個新的基準測試OLIVE,解決了缺乏關注野外VLM評估的視覺語言基準的問題。OLIVE模擬了用戶在實際、現實場景中對VLMs的多樣化查詢。

//dr.ntu.edu.sg/handle/10356/174637

付費5元查看完整內容

現代神經網絡的成功歸因于兩個基本屬性:表達能力和泛化能力。前者指模型適應多種數據集的能力,后者使網絡能夠從訓練樣本中外推模式,并將其應用于以前未見過的數據。本論文解決了與這兩個關鍵屬性相關的一些挑戰。過度參數化的網絡能夠適應任何數據集,并不總是表明它們實際的表達能力。這是本論文第一部分的研究對象,我們將探討輸入信息在通過深層架構時如何丟失,我們提出了一個易于實施的可能解決方案,即引入適當的縮放因子和殘差連接。論文的第二部分關注泛化。盡管現代神經網絡過度參數化,但為何能夠很好地泛化到新數據而不過擬合,這是一個目前在研究界受到廣泛關注的開放問題。我們從信息論和PAC-貝葉斯的視角探索這一主題,提出了新的學習算法和泛化界限。

自從可編程計算機的首次構想以來,人們就對機器獲得智能的可能性感到好奇(Lovelace,1842年)。目前,已經明確計算機可以高效地執行計算和任務,這些對于任何人來說幾乎是無法解決的。然而,實現執行我們日常生活中的簡單動作的算法,如識別物體或理解口語句子,呈現出更大的挑戰,因為它需要以正式的方式表達我們的直覺和主觀理解。事實上,早期嘗試構建計算機,其世界知識直接由人類開發者以正式語言硬編碼,到目前為止還未能取得重大成功:為了學習,機器必須“通過從原始數據中提取模式來獲取[...]知識”(Goodfellow等人,2016年),這一能力被稱為機器學習。神經網絡已經顯示出能夠自主地從外部環境編碼知識的能力。這背后的成功是反向傳播算法的發展,該算法能夠有效地訓練能夠學習自己表征的多層架構,而不依賴于人為設計的特征。事實上,現代神經網絡被結構化為簡單參數化函數的順序組合,使不同層能夠學習輸入和輸出之間日益復雜的關系。這種層次化架構使網絡能夠從輸入中提取和組合不同類型的信息,從而導致更抽象和有用的特征的出現(LeCun等人,2015年)。對于絕大多數當前最先進的神經網絡,模型參數遠遠超過了調整它們的訓練樣本數量。從數學角度來看,這轉化為一個高度復雜的設置,為此找到嚴格的統計性能保證仍然是一個重大的開放問題(Zhang等人,2017年)。盡管如此,巨大的經驗成功使得多層過參數化神經架構成為多個領域包括醫學、電子郵件過濾、語音識別、計算機視覺和市場營銷等在內的幾個學習任務的標準首選(LeCun等人,2015年)。具有數百萬參數的神經網絡可以準確地逼近廣泛的功能,這一屬性被稱為表達性(或表現力)。這通常是一個理想的品質,因為它允許網絡學習復雜的模式并展示出極大的靈活性。然而,傳統智慧認為,如果一個模型可以輕易地逼近任何函數,它很可能過擬合訓練樣本,并在面對新數據時表現不佳。從訓練數據集中外推知識并有效應用于以前未見過的實例的能力被稱為泛化。盡管過參數化,神經網絡在幾個任務中展示了令人印象深刻的泛化能力。當前缺乏對這一現象的理論理解,以及隨后在提供先驗統計性能保證方面的困難,導致了神經網絡的泛化屬性研究成為一個活躍的研究領域(Zhang等人,2017年,2021年)。這篇論文的主要焦點是分析過參數化神經網絡的表達性和泛化屬性。

付費5元查看完整內容

本論文將因果關系和表示學習的思想結合起來。因果模型以一組機制的形式提供復雜系統的豐富描述,每個變量都受其直接原因的影響。它們支持對系統部分進行操縱的推理,捕獲一整套干預分布,因此有望解決人工智能(AI)的一些開放性挑戰,如規劃、在變化環境中轉移知識或對分布變化的魯棒性。然而,因果模型在AI中更廣泛使用的一個主要障礙是需要預先指定相關變量,這通常不適用于現代AI系統處理的高維、非結構化數據。與此同時,機器學習(ML)在自動提取此類復雜數據的有用且緊湊的表示方面已經證明相當成功。因果表示學習(CRL)旨在通過學習以因果模型語義賦予的潛變量形式的表示來結合ML和因果關系的核心優勢。在這篇論文中,我們研究并呈現了不同CRL設置的新結果。一個核心主題是可識別性的問題:給定無限數據,何時滿足相同學習目標的表示保證是等價的?這可以說是CRL的一個重要先決條件,因為它正式表明學習任務在原則上至少是可行的。由于學習因果模型——即使沒有表示學習組件——是出了名的困難,我們需要對模型類或超出經典i.i.d.設置的豐富數據進行額外假設。對于從i.i.d.數據進行的無監督表示學習,我們開發了獨立機制分析,這是對將潛變量映射到觀察變量的混合函數的約束,它被證明促進了獨立潛變量的可識別性。對于從非獨立觀察對學習的多視角設置,我們證明了在視圖中始終共享的潛在塊是可識別的。最后,對于從完美單節點干預產生的非同分布數據集學習的多環境設置,我們顯示了潛變量及其因果圖是可識別的。 通過研究和部分描述不同設置的可識別性,這篇論文調查了在沒有直接監督的情況下CRL的可能性和不可能性,因此為其理論基礎做出了貢獻。理想情況下,開發的見解可以幫助指導數據收集實踐或激發新的實用估計方法和算法的設計。

付費5元查看完整內容

深度學習的進步在許多自然語言處理(NLP)任務中取得了巨大成就。考慮到語言的性質,即序列數據,大多數NLP任務可以框架化為序列學習框架,如文本生成。作為現代NLP技術最重要的基礎之一,自回歸生成模型在大量NLP任務中實現了卓越的表現。因此,本論文強調了針對不同NLP任務改進自回歸生成模型的重要性。盡管許多任務可以自然地適應序列學習框架,但其中一些任務,例如構建話語解析樹,需要復雜的設計才能適應神經模型。因此,本論文首先強調了一個新穎的統一框架用于話語解析,該框架以自頂向下的深度優先方式構建話語樹,并將任務框架為一個自回歸生成任務,其目標是預測給定文本片段的節點位置。所提出的方法通過廣泛的實證實驗證明是有效的。

此外,我通過提出一個層次解碼器擴展了上述框架,該解碼器利用了當前處理節點的父節點和兄弟節點的信息。所提出的解碼器利用了樹結構的性質,并進一步提高了話語解析和依存解析任務的實驗性能。 另一方面,用于訓練自回歸生成模型的事實策略,即交叉熵損失和教師強制,在某些方面被證明是有問題的。例如,交叉熵損失,作為一種廣泛使用的訓練目標函數,常常導致文本生成中的文本退化,而教師強制則遭受曝光偏差問題,即訓練和測試設置之間存在不匹配。針對文本退化,我引入了一類遞減注意力機制,該機制強制序列到序列模型中通過交叉注意力計算的覆蓋度的次模性。所提出的遞減注意力在幾個神經文本生成任務上取得了顯著改進,包括文本摘要、機器翻譯和圖像段落生成。

進一步,我提出了一個新的訓練目標ScaleGrad,以替代交叉熵,顯著減少了不同文本生成任務中的退化問題。實際上,ScaleGrad可以擴展到文本退化之外的問題。它為通過直接修改輸出層中的梯度信息將不同的歸納偏差注入文本生成模型提供了廣泛的靈活性。

接下來,對于曝光偏差問題,本論文引入了一種基于訓練準確性的新型計劃采樣,與現有的計劃采樣方法相比,只需要極少的超參數調整。此外,提出了一種新穎的模仿損失,以進一步強制模型的生成行為與教師強制行為相匹配。此外,本論文證明,減少曝光偏差可以提高語言模型對重復和有害錯誤的魯棒性。

付費5元查看完整內容

人類智能的一個重要方面是能夠從簡單的想法中組合出越來越復雜的概念,從而實現快速學習和知識的適應。盡管目前的AI系統表現出色,但在這一領域卻有所欠缺,通常無法解決超出其訓練分布范圍的任務。本論文的工作旨在通過將組合性納入深度神經網絡來彌補這一差距,從而增強它們解決新穎和復雜任務的能力,例如根據復雜的規范生成2D圖像和3D資產,或使仿人代理執行多種家庭活動。這篇論文的影響深遠,因為組合性在生物學、機器人技術和藝術制作等領域有眾多應用。通過顯著提高AI系統的組合性能力,這項研究將為不同研究領域中更高效的數據和更強大的模型鋪平道路。

"組合性是現代AI系統所缺少的人類智能的一個關鍵方面。構建概念的能力:結合模式、思想和子目標來構建對世界的結構化表示,然后通過操縱個別組成部分來推理世界,體現在關鍵的認知能力中。人類可以將個別觀察結果融入復雜的知識和信念結構中,對復雜計劃進行小范圍的針對性調整,想象基本情景的替代方案,并創造出受現有作品啟發的新技術或藝術。此類組合能力在AI系統中基本上尚未實現,但實現這一點可能是解鎖主要AI能力(如持續學習、可控和穩健行為、高級規劃、反事實推理和更強大的泛化)的關鍵之一。 本論文專注于開發表現出組合能力的神經網絡,以解決廣泛的任務,如圖像生成、問題回答、數學推理、機器人操控和體現決策。目標是使網絡能夠解決在訓練過程中未曝露的概念、目標或技能組合的任務。 我們對組合AI的研究涵蓋以下兩個軸心:先驗知識和組合結構。先驗知識描述了模型在培訓過程中學習的基本概念和能力集合。在大量數據上訓練的大型深度學習模型[131, 125, 13]包含豐富的先驗知識,但它們缺乏實現組合性的另一個關鍵組成部分——組合結構。為了構建組合結構,我們提出了組合算子來組合基本概念。將組合算子應用于預訓練模型,使我們能夠顯著提高AI系統的組合生成能力。

本論文的前兩部分介紹了如何構建組合結構。第一部分:構思概念和目標:我們開發了可以組合概念或目標以產生高度可控和復雜、細致行為的神經網絡。第二部分:模型組合:我們組合來自不同領域的預訓練模型,以在沒有任何訓練或微調的情況下產生強大的跨模態能力。在第三部分:轉移組合性中,我們介紹了如何通過從預訓練模型轉移知識來以數據高效的方式實現先驗知識。"

付費5元查看完整內容

從零開始的強化學習通常需要大量樣本來學習復雜任務,但是許多真實世界的應用場景卻只需要從少量樣本中進行學習。例如,一個有效的新聞推薦系統必須能夠在僅觀察到少量推薦結果后,適應新用戶的口味。為了滿足那些需要快速學習或適應新任務的應用的需求,本論文專注于元強化學習(meta-RL)。具體來說,我們考慮的場景是,智能體會反復接觸到一些來自相同任務族的新任務。智能體必須在極少的嘗試中學會每個新任務,這被形式化為與任務交互的幾個階段。智能體如何利用這些少量嘗試至關重要,因為這決定了它是否能夠隨后解決任務,但學習如何有效使用這些嘗試是具有挑戰性的,因為這里沒有直接的監督。

在本論文中,我們主張有效地利用這些少量的嘗試——因此,快速解決新任務需要仔細地將學習如何利用少量嘗試與學習解決任務相分離。具體來說,我們證明了現有的元強化學習算法如果不分離這兩個問題,就會因為雞和蛋的問題而無法學習到復雜的策略來有效地利用這些少量的嘗試。雞和蛋的問題是指,有效地利用這些少量嘗試的學習依賴于已經學會解決任務,反之亦然。我們用一個新的稱為Dream的算法來解決這個問題,它將這兩個問題分開。此外,我們還研究了如何在這個場景中利用預先收集的離線數據。我們證明了流行的從離線數據中提取技能以快速學習新任務的方法使用了一個具有退化解決方案的欠規定目標,并通過輔助目標來解決這個問題,使優化問題明確規定。我們的算法使得元強化學習中以前未探索的應用成為可能。具體來說,我們表明:(1) Dream通過在解決并不一定需要語言的任務的過程中學習語言,為無需大型文本數據集的語言學習開啟了新的范式。例如,在我們的實驗中,Dream在學習如何在各種建筑中導航到特定辦公室的過程中,學會了閱讀帶有語言描述的建筑平面圖;(2) Dream可以幫助自動評估通常需要大量手動評級的交互式計算機科學作業。我們在斯坦福大學的入門計算機科學課程中部署了Dream來協助評估Breakout作業,并發現它在不犧牲準確性的情況下將評估速度提高了28%,相當于節省了大約10小時的時間。

雖然在強化學習(RL)中從零開始(tabula rasa)的訓練已經取得了巨大的成功,但這需要大量的數據。例如,從零開始訓練以在圍棋(Silver等人,2017年)、Dota 2(Berner等人,2019年)和星際爭霸 II(Vinyals等人,2019年)中取得專家級的成績,都需要數百天的TPU或GPU訓練時間,相當于從常規云服務提供商那里花費數萬或數十萬美元。在許多應用領域,對單一任務進行如此長時間的訓練,或者僅僅是獲取這樣的訓練數據都是不切實際的——想象一下等待一百天讓新聞推薦系統開始推薦好的建議,或者等待新購買的家庭機器人廚師開始烹飪。因此,這篇論文探討了一種利用以前的經驗快速學習新任務的替代范式,稱為元強化學習(meta-RL)。在其核心,元強化學習試圖解決與標準的從零開始的RL不同的問題。元強化學習的目標不是嘗試學習一個全新的任務,而是構建可以快速適應新的,但與之前遇到的任務相關的任務的智能體,例如一個可以在新的家庭廚房中快速開始烹飪的機器人廚師,這得益于它以前的經驗(例如,在許多工廠廚房中的訓練)。我們主要關注典型的元強化學習環境,即智能體面臨一個新任務,并首先允許有少數嘗試(即,幾個階段)與任務交互,然后再被要求解決任務。例如,當被放置在一個新廚房中時,機器人廚師可能首先簡要探索以尋找食材和烹飪用具,然后利用這些信息來烹制美味的飯菜。最初的幾個階段構成了智能體的“快速學習”過程,因為預計智能體在這幾個階段過后能夠解決任務。

元強化學習中最初幾個階段的存在在標準的從零開始的RL中是沒有的挑戰,這就是如何最好地利用最初的階段以便之后能解決任務。直觀來說,學習如何有效地利用這些階段可能面臨兩個主要的挑戰:首先,有效地利用這些階段可能與解決任務大不相同,所以智能體可能需要學習兩種復雜的行為模式。例如,通過尋找食材來適應新廚房在質量上與烹飪一頓飯是不同的。其次,對于學習如何有效利用最初的階段沒有直接的監督——智能體在最初階段收集的信息(例如,食材的位置)可能在智能體學習如何實際使用這些信息之前并不明顯有用。因此,現有的元強化學習算法可能會遇到困難,尤其是在需要復雜且不同的行為來利用最初階段和解決任務的任務家族中。

為了應對這些挑戰,本文借鑒了一系列關于元強化學習的研究,始于Schmidhuber的開創性工作(Schmidhuber,1987年)。在深度RL時代的一些早期元強化學習方法(Finn等人,2017年;Houthooft等人,2018年)通過完全不針對最初的幾個階段進行優化,而是專注于構建能夠在給定適當數據的情況下有效適應新任務的智能體,來避開了這些挑戰。其他早期方法(Duan等人,2016年;Wang等人,2016a年)針對最初的幾個階段進行了優化,但是只是間接地從一個旨在最大化最終回報的端到端目標進行優化,對于最初的幾個階段并沒有特別的關注。后來,Stadie等人(2018年)提出了一個觀點,即最初的幾個階段最好用于收集信息或探索以找到高回報的區域,從而引領了一系列關于如何最好地進行這種探索的工作(Rakelly等人,2019年;Humplik等人,2019年;Zintgraf等人,2019年;Kamienny等人,2020年)。本文借鑒了Stadie等人(2018年)提出的信息收集觀點,并認為在最初的幾個階段有效地進行探索并因此快速適應新任務,需要仔細地將學習探索和學習實際解決任務分離開來。具體來說,在第三章中,我們展示了將這兩者結合在一起的算法遇到了一個雞和蛋的問題,即學習探索依賴于已經學會解決任務,反之亦然。然后,我們提出了一種算法,Dream,它將這兩者分離,從而在實際應用(第5章和第6章)上取得了更好的性能。

此外,我們還研究了如何在這種少樣本元強化學習環境中有效地利用預先收集的離線數據。具體來說,我們考慮了智能體在訓練期間可以訪問到其他策略在各種任務上預先收集的離線數據,而智能體的目標仍然是在僅經過幾個階段后在測試時解決新的相關任務。這些離線數據可以通過幾種方式來利用,包括學習動態模型(Finn等人,2016年),學習行為先驗(Singh等人,2021年),或提取有意義的技能或選項(Sutton等人,1999年;Kipf等人,2019年;Ajay等人,2020年)。我們選擇了最后這種方法,即從離線數據中提取常見的行為作為可以代替標準低級行為空間的高級技能,這使得學習新任務變得更容易。提取這種技能的常見方法是學習一個潛在變量模型來重建離線數據,其中潛在變量代表了提取出的技能。然而,我們發現這種方法是欠指定的,因為許多解決方案都可以等同地最大化似然性,包括退化的解決方案。然后,我們使用一個輔助目標來解決這種欠指定,這個目標最小化了提取技能的描述長度,這在直觀上鼓勵最大限度地提取常見的結構。我們的目標在實踐中結果在語義上有意義的技能,可以加速學習新任務。

在本論文的剩余部分,我們首先在第2章中正式定義我們的少樣本學習場景。然后,我們在兩個主要部分中討論快速學習新任務:在第一部分,我們討論了快速學習新任務的算法,并克服了上述挑戰,這些算法基于在智能體的少數嘗試中有效地探索以揭示解決任務所需的信息(第3章),以及從離線數據中提取可復用技能(第4章)。在第二部分,我們討論了由第一部分引入的算法所支持的兩個應用,具體來說,一種新的機器語言學習范式(第5章)和自動提供初級計算機科學作業的反饋(第6章)。最后,在第7章,我們通過討論(a)有效利用本論文中提出的元強化學習算法;以及(b)選擇適合元強化學習工具箱的應用來結束。盡管元強化學習仍是一個活躍發展的領域,并且其實用性在很大程度上取決于應用的選擇,但本論文的目標是為元強化學習實踐者提供適用于今天實際部署的工具。

付費5元查看完整內容

過去十年,深度學習在幾個重要應用中取得了巨大成功,但數學理解卻落后于它驚人的經驗成功。經典的機器學習理論不足以解釋深度學習中的各種新現象,并為算法選擇提供指導,很大程度上是由于過于簡化的黑盒觀點忽略了模型與優化算法之間的相互作用。本文提出了一組理論結果,考慮了模型和優化算法之間的相互作用,旨在彌合深度學習的理論和實踐之間的差距,以實現泛化和優化。在優化方面,我們首先通過呈現一個在經驗上工作良好的指數級增長的學習率計劃來說明傳統優化理論和具有標準化層的深度網絡之間的不匹配。本文通過建立其與具有權重衰減的SGD的等價性來解釋這種驚喜,并證明其收斂速度快且對初始化規模不敏感。在此基礎上,我們設計了一種名為SIBERT的BERT變體,它可以被SGD訓練,因此比ADAM等自適應算法更節省內存。最后,提出了第一個可證明的通用場景,根據經驗觀察,梯度下降以非單調的方式減少損失。在泛化方面,本文研究了優化算法的隱式偏差,即盡管存在因模型過參數化而泛化能力差的解,但算法仍返回泛化能力好的解。本文首先給出了一個嚴格的理由,為什么卷積網絡比全連接網絡的樣本效率更高。為經驗觀察提供了理論證明,包括矩陣分解在內的深度線性網絡,是由從小初始化隱偏置到低秩解的梯度下降訓練的。我們還確定了一個條件,即梯度下降與鏡像下降等價,可以用來理解非線性模型的隱式偏差,并恢復幾個先前的結果。進一步表明,當有一定的梯度噪聲或其學習率大于2的損失銳度時,梯度下降對"更平坦"的解決方案有隱性偏差。

付費5元查看完整內容
北京阿比特科技有限公司