露脸视频一区二区三区在线播放,人人干人人操免播放器,日本高清在线人妻一区二区,视频一区高清欧美欧码

導航我們的周圍環境是一項重要技能，它使我們人類能夠自由地與環境互動。因此，導航技能對于在我們的世界中操作的真正自主的技術系統也是基礎。在這篇論文中，我們研究了自主智能體如何學習到達其環境中指定的目標位置，這需要執行一個精心選擇的動作序列。

強化學習（RL）是一種機器學習范式，用于通過與環境的互動來學習決策策略，該策略通常由神經網絡表示。如果智能體執行環境中的動作所接收的獎勵是稀疏的，那么改進策略變得困難且低效。因此，在這篇論文中，我們專注于在這種稀疏獎勵設置下，提高自主智能體的策略學習；特別是探討了結合RL和規劃的優勢。首先，我們研究了自動生成一個將最初無技能的智能體置于逐漸增加難度的起始狀態的課程。我們提出了一個基于性能的起始狀態課程框架，以及一個選擇在智能體能力的空間邊界開始的新穎空間梯度（SG）策略。之后，我們通過假設有一張粗略的地圖并且額外地目標是跨環境泛化，稍微調整了設置。我們提出了一個層次化策略架構，VI-RL，它將在問題抽象中以較低的時間分辨率規劃子目標與學習達到這些子目標的策略相結合。這通過將決策問題劃分為更短的子任務來簡化決策問題。我們展示了從可用的輪次數據中學習適合規劃的轉移模型的能力，該模型捕捉了智能體的能力并實現了泛化。

在這項工作的后續中，我們通過學習基于詳細的局部狀態信息來局部細化簡單最短路徑計劃，提高了子目標規劃的效率和性能。對于后者，我們提出了RL訓練的價值細化網絡（VRN）。它還使得在沒有重復全局重新規劃的情況下導航動態環境成為可能。

最后，我們通過提出HORIBLe-VRN算法來處理離線學習設置，以從預先收集的數據中學習上述基于層次規劃的策略。它結合了層次模仿學習，包括潛在子目標的推斷，以及隨后對VRN的離線RL細化。我們的實證評估顯示出良好的性能、泛化能力以及對次優演示的一定魯棒性。總結來說，我們提出了基于RL和規劃技術的算法，這些算法使得在稀疏獎勵智能體導航任務中的學習和數據效率得到了提高。

付費5元查看完整內容

相關內容

博士論文

關注 119

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下，選擇自己能夠把握和駕馭的潛在的研究方向，開辟新的研究領域。由此可見，這就對作者提出了較高要求，它要求作者必須在本學科的專業領域具備大量的理論知識，并對所學專業的理論知識有相當深入的理解和思考，同時還要具有相當水平的獨立科學研究能力，能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而，較之學士論文、碩士論文，博士論文具有更高的學術價值，對學科的發展具有重要的推動作用。

博士論文 · 牛津大學 (University of Oxford) ·

2024 年 4 月 25 日

[付費5元查看完整內容]【牛津大學博士論文】有效的離線訓練與高效的在線適應

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在機器學習領域，開發在世界中智能行為的代理仍是一個開放性挑戰。對這樣的代理的期望包括高效的探索、最大化長期效用以及能夠有效利用以往數據解決新任務的能力。強化學習（RL）是一種基于通過試錯直接與環境互動來學習的方法，并為我們訓練和部署此類代理提供了途徑。此外，將RL與強大的神經網絡功能逼近器結合使用——一個被稱為“深度RL”的子領域——已顯示出實現這一目標的證據。例如，深度RL已產生了能夠以超人水平玩圍棋的代理、提高微芯片設計的效率，以及學習控制核聚變反應的復雜新策略的代理。部署深度RL的一個主要問題是樣本效率低。具體來說，雖然可以使用深度RL訓練有效的代理，但主要成功案例大多數是在我們可以通過使用模擬器獲得大量在線互動的環境中實現的。然而，在許多現實世界的問題中，我們面臨的情況是樣本成本高昂。正如所暗示的，解決這個問題的一種方式是通過獲取一些以往的數據，通常稱為“離線數據”，這可以加速我們學習這些代理的速度，例如利用探索性數據防止重復部署，或使用人類專家數據快速引導代理朝向有前途的行為等。然而，將這些數據融入現有的深度RL算法的最佳方式并不直觀；簡單地使用RL算法在這些離線數據上進行預訓練，一種稱為“離線RL”的范式作為后續學習的起點，往往是不利的。此外，如何明確地在線派生出由這種離線預訓練積極影響的有用行為尚不清楚。鑒于這些因素，本文提出了一種三管齊下的策略來提高深度RL中的樣本效率。首先，我們研究了在離線數據上進行有效的預訓練。然后，我們解決在線問題，探討在純在線操作時對環境進行高效適應。最后，我們得出結論，使用離線數據在在線行動時明確增強策略。

付費5元查看完整內容

博士論文 · 深度神經網絡 · 終身學習 ·

2024 年 4 月 24 日

[付費5元查看完整內容]【CMU博士論文】高效的深度神經網絡終身學習：架構、訓練和數據的優化

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

當前流行的機器學習范式涉及對每一個新任務使用靜態數據集訓練一個獨立模型。與之相反，人類會隨時間積累知識，終身學習范式旨在通過使系統能夠持續地從一系列任務中學習，并保留過去的知識以實現未來學習的高效性，來模擬這一過程。這種范式還提供了諸如避免定期模型訓練、潛在地減少計算和能源需求、以及促進環保的綠色人工智能等優勢。在現代機器學習中，盡管深度神經網絡功能強大，但面臨如災難性遺忘（在新任務學習中丟失先前任務的知識）和負面干擾（先前學到的知識阻礙新任務學習）等挑戰。這些問題源于穩定性-可塑性困境，這需要在保留過去知識（穩定性）與獲取新知識（可塑性）之間找到正確的平衡。高效的終身學習系統必須解決這一困境，以及其他考慮，如支持在線數據流、利用小型且固定的內存緩沖容量（如果有的話）和從未標記的數據流中學習。

在本文中，我們從生物學習過程和深度學習的最新進展中獲得靈感，以實現高效的終身學習系統。我們提出將歸納偏置注入數據驅動機器學習的三個主要組成部分：模型（架構與初始化）、訓練（目標與優化）和數據。本論文分為三個部分，每個部分對應以上一個組件。在第一部分中，我們探索了預訓練初始化的角色，揭示了它們與隨機初始化相比在減輕遺忘方面的隱性優勢。接下來，我們設計了一個參數高效的專家架構，該架構動態擴展學習容量以解決穩定性-可塑性困境。在第二部分中，我們展示了針對平坦極小值的顯式優化如何改善網絡穩定性，并引入了一個元學習目標以平衡穩定性與可塑性。第三部分深入探討了終身半監督學習，通過復習偽標記數據來解決穩定性-可塑性困境。我們以從終身學習的角度檢驗預訓練結束，展示通過將上述策略應用于模型的（持續）預訓練，如何增強其性能。

在過去的十年中，訓練硬件的進步和大數據集的可用性使得深度神經網絡在機器學習領域取得了顯著進展。這些網絡在許多自然語言處理和計算機視覺任務中達到或超過了人類水平的表現，例如機器翻譯（Lepikhin et al., 2021）、問答（Du et al., 2022; Chowdhery et al., 2023）、開放式對話生成（Ouyang et al., 2022）、對象檢測和圖像生成（Lu et al., 2023），這些評估是基于獨立同分布（i.i.d）的保留數據進行的。然而，當這些網絡應用于數據分布隨時間變化的現實情況時，它們的表現往往會變差（Lazaridou et al., 2021）。它們失敗的主要原因是當前的機器學習方法專注于孤立學習（Chen and Liu, 2018），即使用靜態數據集為每個新任務或一組相關任務訓練一個單獨的網絡。一種保持這些網絡更新的方法是每當新信息變得可用時就從頭開始重新訓練它們。然而，先前訓練所用的數據可能因隱私或存儲限制而只是暫時可用（Farquhar and Gal, 2018）。此外，重新訓練方法可能在計算上昂貴，數據效率低，且耗時長，尤其是對于大型網絡。例如，GPT-3（Brown et al., 2020），一個具有175B參數的自回歸語言模型，訓練了499B個標記，使用的計算量相當于3.14e23次浮點操作，如果在單個NVIDIA Tesla V100 GPU上訓練，將需要355年和460萬美元的成本。另一種方法是連續地隨著新信息的到來更新網絡。然而，深度神經網絡和一般的參數模型容易發生災難性遺忘（McCloskey and Cohen, 1989; Ratcliff, 1990; French, 1999）現象。在這種現象中，網絡在新信息被整合進系統時會忘記或覆蓋之前學到的知識。此外，這些網絡可能會經歷負面干擾（Pan and Yang, 2009; Weiss et al., 2016）現象，即先前學到的知識可能會妨礙新事物的有效學習，從而增加了數據需求。這兩種現象都源于穩定性-可塑性困境（Mermillod et al., 2013）。穩定性與保留過去的知識有關，可塑性與學習新知識有關。需要一種平衡，因為過多的穩定性會阻礙新知識的獲取，而過多的可塑性會導致忘記以前的知識。這一困境使得當前網絡難以更新其知識，并有效地適應新任務的增量學習。

與此相反，我們人類的學習方式則大不相同。我們通過在一生中獲取和更新知識來學習，保留以前學到的知識，并利用它來促進新概念和技能的有效學習。受到這種人類學習過程的啟發，終身學習（Thrun and Mitchell, 1995; Thrun, 1995; Chen and Liu, 2018）或增量學習（Solomonoff et al., 1989; Syed et al., 1999; Ruping, 2001）或永不停止的學習（Mitchell et al., 2018）或連續學習（Parisi et al., 2019）范式旨在開發能夠從持續的數據流中學習的系統，理想情況下保留過去的知識，用新信息更新它，并利用它進行后續學習。此外，研究人員也認識到終身學習能力對于實現人工通用智能的進展至關重要（Silver, 2011; Chen and Liu, 2018; Yogatama et al., 2019）。除了與生物學習相似之外，終身學習范式還有潛力通過消除過度模型重新訓練來減少能源浪費，并實現環保和可持續的綠色人工智能（Hazelwood et al., 2018; Strubell et al., 2019; Schwartz et al., 2020）。終身學習范式還與其他知識轉移相關的范式有關，如轉移學習（Pan and Yang, 2009）和多任務學習（Caruana, 1997）。與這兩個范式不同的是，終身學習范式更為通用；它假設對任務的順序訪問，旨在改善對先前任務的表現（理想情況下是積極的后向轉移或消極的遺忘）和新任務的表現（積極的前向轉移）。當前的轉移學習范式主要關注從以前的任務到新任務的單向知識轉移，即使這可能損害先前學到的任務的表現。另一方面，多任務學習假設同時訪問所有任務的數據，并通過使任務之間的知識共享來改善所有任務的表現。此外，即使在單任務學習設置中，神經網絡也顯示出經歷災難性遺忘的情況（Toneva et al., 2019），這突出了終身學習范式不僅限于多任務場景。即使是任務的概念在終身學習范式中也非常開放。例如，考慮一個終身COVID-19命名實體識別（NER）標記器。任務有三種不同的表現形式 - （i）分類任務，如實體塊、實體檢測、實體鏈接、共指解析和關系提取，（ii）針對2020、2021、2022、2023年COVID-19研究文章的不同領域的NER，（iii）針對COVID-19變種如COVID-Alpha、COVID-Beta、COVID-Omicron的演化類別的NER。這些表現形式對應于終身學習的三個突出場景：任務、領域和類別增量學習（Van de Ven and Tolias, 2019）。除了解決災難性遺忘之外，終身學習系統還有幾個其他目標（Biesialska et al., 2020）。人類能夠迅速從持續的對話中學習新信息，而不需要明確的主題邊界（Chen and Liu, 2018）。我們有選擇地保留過去的經驗在我們有限的記憶容量中以防止遺忘，并在需要時稀疏地回放它們（Ratcliff, 1990; McGaugh, 2000）。此外，我們經常從環境中以無監督的方式學習，而不是依賴于明確的監督（Aljundi, 2019）。相比之下，當前的終身學習系統（Biesialska et al., 2020）需要明確的任務邊界，它們依賴于大內存容量，因此數據效率低，且在計算上昂貴，因為它們需要對標記數據進行多次傳遞。為了更有效地模仿人類學習，有必要開發在更現實的假設下運行且在數據、記憶和計算上更高效的終身學習系統（Farquhar and Gal, 2018）。在本論文中，我們的目標是設計高效的終身學習系統，這些系統可以減輕之前學到的知識的災難性遺忘，并通過在現實假設下運行來促進未來的學習。受到生物學習過程和深度學習的最新進展的啟發，我們提議將適當的歸納偏見注入數據驅動機器學習的三個主要組成部分：模型、訓練和數據。通過這樣做，我們還希望提高終身學習系統在數據、內存和計算需求方面的效率。

付費5元查看完整內容

博士論文 · 生成式深度學習 · 視覺表征學習 · 擴散模型 ·

2024 年 2 月 2 日

[付費5元查看完整內容]【UIUC博士論文】生成式深度學習：走向更好的視覺表征和多模態

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

生成式人工智能旨在制定特定類型的數據分布，以便能夠生成模仿底層分布的真實樣本的新數據實例。值得一提的是，在計算機視覺中，生成模型和判別模型是兩大主要類別。后者旨在基于特定數據實例準確預測類別、對象位置、分割等，而前者探索和制造復雜的數據流形。有人可能會爭論，由于旨在模擬現實世界中無限制領域的巨大復雜性的數據，計算機視覺中的生成式人工智能需要更加先進。然而，即使是最復雜的網絡設計，也很難準確地制定我們自然世界中的確切數據分布，因此還有很大的改進空間。隨著最近生成式人工智能技術的突破，現在的研究人員和工程師創建了開始處理現實世界需求的高性能生成解決方案作為商業產品，幸運的是，這篇論文也參與其中。在這篇論文中，作者旨在通過探索最佳可能的視覺表征形式（即神經隱式嵌入、頻域表征、基于變換器的表征），以盡可能捕獲更多的視覺信息，進一步推動生成式人工智能的性能。毫無疑問，數據表征是生成式人工智能的一個關鍵前提，因為它揭示了模型能力的上限。此外，從一個更廣泛但不那么精確的角度來看，生成建模的目標——模擬精確的數據分布，也可以視為一種表征學習。在論文的最后部分，作者還探討了超越視覺表征的主題，向更一般的跨模態表征進發，適應多種類型的數據模態，這是朝著更具挑戰性的目標邁進的啟發式步驟：通用人工智能。

這篇論文始于UltraSR，探索適合圖像超分辨率的隱式神經視覺表征，通過任意上采樣比例合成圖像細節。UltraSR的核心思想將隱式神經表征與可學習的周期性編碼相結合，以連續函數的形式在高頻流形中制定視覺細節。當UltraSR探索神經視覺表征時，Spectral Hint GAN（SH-GAN）采取了不同的路線，深入涉及頻域中的視覺特征進行圖像完成。SH-GAN提出了一個新穎的頻譜網絡模塊：Spectral Hint Unit（SHU），以及兩種新策略：異構過濾和高斯分割。SH-GAN因以下原因超越了以往的圖像完成方法：通過基于StyleGAN的共調制框架有效地填充低頻圖像結構，以及通過SHU有效地填充高頻圖像紋理。最近在文本到圖像（T2I）擴散模型的進展激發我們探索新的工作Prompt-Free Diffusion，在這項工作中，我們用SeeCoder代替CLIP文本編碼器來捕獲視覺線索，從T2I系統中移除了提示的需要。SeeCoder自動提取各種視覺線索，包括但不限于語義、紋理、背景等，并將它們傳遞給擴散模型。我們的合成結果既高質量又緊密跟隨SeeCoder編碼的參考視覺線索。與Prompt-Free Diffusion并行，我們提出了Versatile Diffusion，這是第一個提出統一的多模態多流擴散管道的工作，均勻處理多種跨模態任務，生成圖像、文本和變體。Versatile Diffusion具有更廣泛的范圍，我們的目標是將不同模態的表征合并到一個生成網絡中，向通用生成式人工智能的大膽一步邁進。

總之，所有工作都提供了有關數據表征的寶貴見解，其中UltraSR、SH-GAN和Prompt-Free Diffusion積極探索了三種方案下的最佳視覺表征：隱式神經表征、頻域表征和基于變換器的表征。在最后一部分，Versatile Diffusion探索了圖像、文本和圖文跨模態的統一表征和生成。UltraSR在所有比例上的DIV2K數據集上比基線模型高出0.05 dB。SH-GAN在FFHQ數據集上達到FID 3.41，在Places2數據集上達到7.10，獲得了大規模自由形式圖像完成任務中的新最佳水平。Prompt-Free Diffusion和SeeCoder完成了以驚人質量完成流行的示例-based圖像生成任務。Versatile Diffusion在Coco2014數據集上的CLIP相似度為0.269和0.858；FID為11.20和4.57，測量文本到圖像和圖像變化，超越了所有方面的基線Stable Diffusion。

付費5元查看完整內容

概率強化學習 · 強化學習 · 博士論文 ·

2023 年 7 月 31 日

[付費5元查看完整內容]【CMU博士論文】概率強化學習：使用數據定義期望的結果并推斷如何達到

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這篇論文研究了通過試錯學習教導自主智能體完成任務的算法。通常，這個問題被描述為一個強化學習(RL)問題，其中智能體試圖最大化用戶提供的獎勵函數。這里研究的算法采取了不同的方法，大部分避免使用獎勵函數，而是直接從數據中學習實現期望的結果。這種方法允許用戶使用來自監督學習和非監督學習的算法工具，同時也為非專家用戶提供了一個教導智能體新任務的界面。這些方法的設計中的主要挑戰是預測期望結果的概率，尤其是當這些結果在未來的數百步中才發生，特別是在使用離策略數據時。為此，這篇論文的第一部分基于遞歸分類開發了一種算法，該算法通過時間差分更新估計未來狀態的概率(第2章)。這種方法直接適用于具有連續狀態和動作的環境，不需要任何手工制作的距離度量，并導致了一個比之前的方法更高效的面向目標的RL算法。然后，我們將這個想法推廣到可以通過多種方式解決的任務，允許更靈活的任務規范，并提供更廣泛的泛化能力。

將控制問題以期望的結果來描述提供了一個簡單的機制來指定任務是什么，但它沒有為如何解決任務留下任何余地，這引發了一個問題：這些方法是否僅限于簡單任務。為了解決這個限制，我們考慮推斷復雜任務解決方案的結構。由于第一部分介紹的算法在本質上是概率性的，所以很容易將這種結構作為一個未觀察到的潛在變量納入其中。這些新算法推斷這種任務結構；在這樣做的過程中，它們將控制問題分解為一系列更容易的問題，從而加速學習。

我們首先討論以目標為條件的設置，這種推斷觀點導致了一個簡單且理論上有正當理由的方法，將面向目標的RL集成到傳統的規劃流程中（第4章）。RL被用來估計距離并學習一個局部策略，而觀察（如，圖像）上的圖搜索確定了通往目標的高級路徑。這種方法顯著優于標準的目標條件RL算法。接著，我們考慮一種不同的方式來構造任務解決方案：作為一個學習過的動態模型和策略的組合（第5章）。結果是一個基于模型的RL算法，其中模型和策略使用相同的目標聯合優化，這是預期回報的下界。

這篇論文基于初步論文提案中提出的工作在兩個主要方向上進行了深入。首先，我們探討了遞歸分類的幾何解釋（第2章），在表示學習和強化學習之間建立了緊密的聯系（第3章）。這種聯系使我們能夠將遞歸分類擴展到通過有限數量的獎勵標記狀態后設定的任務，并使我們能夠將這些方法應用到基于真實世界圖像的機器人操作任務上。其次，我們擴展了RL的潛在變量觀點（第4章和第5章）以在學習的表示上執行推斷（第5.6節）。這種擴展使我們的方法能夠擴展到更高維度的任務，并提供了大量的計算加速。

付費5元查看完整內容

斯坦福大學 (Stanford University) · 生成式AI · AI與安全 ·

2023 年 7 月 23 日

[付費5元查看完整內容]【普林斯頓博士論文】生成式人工智能的承諾與陷阱：以AI安全為中心的方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人工智能（AI）的發展迅速，為許多實際應用帶來了顯著的進步。但是，AI決策的普及也引發了對其潛在安全風險的擔憂，因為眾所周知AI系統在多個領域都會出現故障，例如自動駕駛、醫療診斷和內容審查。在這篇論文中，我們通過生成模型的角度探討AI的安全挑戰，這是一類能夠逼近訓練數據集的基礎分布并合成新樣本的機器學習模型。通過將生成模型與AI安全連接起來，我們揭示了生成模型在解決安全挑戰方面的巨大潛力，同時也識別了現代生成模型帶來的安全風險。首先，我們重點研究了如何通過將生成模型納入現有的機器學習流程并合成新的合成圖像來提高對抗性強健學習中的泛化能力。我們評估了各種生成模型，并提出了一個新的指標（ARC），基于對抗性擾動的合成數據和真實數據的不可區分性，來準確確定不同生成模型的泛化優勢。接下來，我們探討了生成模型的任務感知知識蒸餾，首先證明了單個合成圖像在提高泛化中的不同貢獻。為了自適應地采樣具有最高泛化效益的圖像，我們提出了一種自適應采樣技術，引導擴散模型的采樣過程以最大化生成的合成圖像的泛化效益。然后，我們利用生成模型從低密度區域生成高保真樣本，來解決長尾數據分布的不足，這些長尾分布是AI安全中的許多挑戰的基礎。我們為擴散模型提出了一種新的低密度采樣過程，引導該過程走向低密度區域同時保持保真度，并嚴格證明我們的過程成功地從低密度區域生成了新的高保真樣本。最后，我們展示了現有生成模型的一些關鍵限制。我們首先考慮了異常值檢測任務，并展示了現代生成模型在解決它時的不足。考慮到我們的發現，我們提出了SSD，這是一個基于未標記的分布數據的無監督異常值檢測框架。我們進一步發現，數百萬用戶使用的現代擴散模型泄漏了訓練數據的隱私，我們從預訓練的擴散模型中提取了大量的訓練圖像。總之，這篇論文解決了多個AI安全挑戰，并為新的生成AI范式下的AI系統的安全性和可靠性提供了一個綜合框架。

付費5元查看完整內容

深度強化學習 · 書籍 ·

2022 年 11 月 18 日

[付費5元查看完整內容]【2022新書】深度強化學習基礎: Python的理論與實踐

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度強化學習(Deep Reinforcement Learning, Deep RL)結合了深度學習和強化學習，人工智能體通過學習來解決順序決策問題。在過去的十年中，深度RL在一系列問題上取得了顯著的成果，從單人和多人游戲(如圍棋、Atari游戲和DotA 2)到機器人。

《深度強化學習基礎》是對深度學習的介紹，獨特地結合了理論和實現。它從直覺開始，然后仔細地解釋了深度RL算法的理論，討論了其伴生軟件庫SLM Lab中的實現，最后介紹了使深度RL工作的實際細節。本指南對于熟悉基本機器學習概念并對Python有實際理解的計算機科學學生和軟件工程師都是理想的。

理解深度RL問題的每個關鍵方面 * 探索基于策略和價值的算法，包括REINFORCE、SARSA、DQN、Double DQN和優先體驗重放(PER) * 深入研究組合算法，包括actor - critical和近端策略優化(PPO) * 理解如何同步和異步并行算法 * 在SLM Lab中運行算法，學習深入RL工作的實際實現細節 * 探索調優超參數的算法基準測試結果 * 理解深度RL環境是如何設計的

付費5元查看完整內容

斯坦福大學 (Stanford University) · 博士論文 · 強化學習 ·

2022 年 9 月 14 日

[付費5元查看完整內容]【斯坦福博士論文】利用離線數據構建多功能強化學習智能體

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

利用深度神經網絡進行機器學習的最新進展，在從大型數據集學習方面取得了重大成功。然而，這些成功主要集中在計算機視覺和自然語言處理方面，而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的，但相比之下，它們很難擴展到許多現實世界的應用中，因為它們依賴于成本高昂且可能不安全的在線試錯，而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作，這些智能體直接從離線數據中訓練，能夠掌握多種技能，以解決上述挑戰。

在本文的第一部分中，我們首先介紹了一種算法，從離線數據集中學習高性能策略，并通過使用學習到的動力學模型生成的推出來擴展離線數據，提高離線強化學習智能體的泛化能力。然后，我們將該方法擴展到高維觀測空間，如圖像，并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分，為了避免在之前的強化學習工作中從頭開始學習每個任務的問題，同時保持離線學習的好處，討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外，我們表明，共享數據需要標記來自其他任務的數據的獎勵，這依賴于繁重的獎勵工程，也是勞動密集型的。為了解決這些問題，我們描述了如何有效地利用離線RL中的各種未標記數據，繞過獎勵標記的挑戰。最后，我們列出了未來的研究方向，如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

基于模型的深度學習 · 斯坦福大學 (Stanford University) ·

2022 年 5 月 10 日

[付費5元查看完整內容]【斯坦福】基于模型的深度學習:論深度學習與優化的交集

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模，在此基礎上，人們可以通過易于處理的優化來確定決策。最近，深度學習方法正在變得越來越流行，這種方法使用從數據調整的高度參數架構，而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里，我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣，并為位于這個光譜中間的方法提供一個教程式的展示，稱為基于模型的深度學習。在我們的演示中，我們還附帶了超分辨率和隨機控制方面的運行示例，并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起，在生物醫學成像和數字通信等各種應用中使用實驗結果，證明了這種結合的好處。

付費5元查看完整內容

元學習 · 深度學習 ·

2021 年 5 月 4 日

[付費5元查看完整內容]【CVPR2021】基于噪聲魯棒深度學習的快速元更新策略

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基于meta-learning的方法在有噪聲標注的圖像分類中取得了顯著的效果。這類方法往往需要大量的計算資源，而計算瓶頸在于meta-gradient的計算上。本文提出了一種高效的meta-learning更新方式：Faster Meta Update Strategy (FaMUS)，加快了meta-learning的訓練速度 (減少2/3的訓練時間)，并提升了模型的性能。首先，我們發現meta-gradient的計算可以轉換成一個逐層計算并累計的形式; 并且，meta-learning的更新只需少量層數在meta-gradient就可以完成。基于此，我們設計了一個layer-wise gradient sampler 加在網絡的每一層上。根據sampler的輸出，模型可以在訓練過程中自適應地判斷是否計算并收集該層網絡的梯度。越少層的meta-gradient需要計算，網絡更新時所需的計算資源越少，從而提升模型的計算效率。

并且，我們發現FaMUS使得meta-learning更加穩定，從而提升了模型的性能。最后，我們在有噪聲的分類問題以及長尾分類問題都驗證了我們方法的有效性。

//www.zhuanzhi.ai/paper/fda93b750216436e45e6f660ed76776e

付費5元查看完整內容

微軟研究院 · 深度神經語言模型 · 自然語言處理 ·

2020 年 5 月 3 日

[付費5元查看完整內容]【微軟】大型神經語言模型的對抗性訓練，Adversarial Training for Large Neural Language Models

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： Adversarial Training for Large Neural Language Models

簡介： 泛化性和魯棒性都是設計機器學習方法的關鍵要求。對抗性訓練可以增強魯棒性，但是過去的工作常常發現它不利于推廣。在自然語言處理（NLP）中，預訓練大型神經語言模型（例如BERT）在針對各種任務的通用化方面顯示出令人印象深刻的收益，而從對抗性微調中得到了進一步的改進。但是，這些模型仍然容易受到對抗性攻擊。在本文中，我們表明對抗性預訓練可以同時提高泛化性和魯棒性。我們提出了一種通用算法ALUM（大型神經語言模型的專家訓練），該算法通過在嵌入空間中應用擾動來最大化訓練目標，從而使對抗性損失最大化。我們將對所有階段的對抗訓練進行全面的研究，包括從頭開始進行預訓練，在訓練有素的模型上進行連續的預訓練以及針對特定任務的微調。在常規和對抗性方案中，在各種NLP任務上，ALUM都比BERT獲得了可觀的收益。即使對于已經在超大型文本語料庫上進行過良好訓練的模型（例如RoBERTa），ALUM仍可以通過連續的預訓練獲得可觀的收益，而傳統的非對抗方法則不能。可以將ALUM與特定于任務的微調進一步結合以獲取更多收益。

付費5元查看完整內容