亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

當前流行的機器學習范式涉及對每一個新任務使用靜態數據集訓練一個獨立模型。與之相反,人類會隨時間積累知識,終身學習范式旨在通過使系統能夠持續地從一系列任務中學習,并保留過去的知識以實現未來學習的高效性,來模擬這一過程。這種范式還提供了諸如避免定期模型訓練、潛在地減少計算和能源需求、以及促進環保的綠色人工智能等優勢。在現代機器學習中,盡管深度神經網絡功能強大,但面臨如災難性遺忘(在新任務學習中丟失先前任務的知識)和負面干擾(先前學到的知識阻礙新任務學習)等挑戰。這些問題源于穩定性-可塑性困境,這需要在保留過去知識(穩定性)與獲取新知識(可塑性)之間找到正確的平衡。高效的終身學習系統必須解決這一困境,以及其他考慮,如支持在線數據流、利用小型且固定的內存緩沖容量(如果有的話)和從未標記的數據流中學習。

在本文中,我們從生物學習過程和深度學習的最新進展中獲得靈感,以實現高效的終身學習系統。我們提出將歸納偏置注入數據驅動機器學習的三個主要組成部分:模型(架構與初始化)、訓練(目標與優化)和數據。本論文分為三個部分,每個部分對應以上一個組件。在第一部分中,我們探索了預訓練初始化的角色,揭示了它們與隨機初始化相比在減輕遺忘方面的隱性優勢。接下來,我們設計了一個參數高效的專家架構,該架構動態擴展學習容量以解決穩定性-可塑性困境。在第二部分中,我們展示了針對平坦極小值的顯式優化如何改善網絡穩定性,并引入了一個元學習目標以平衡穩定性與可塑性。第三部分深入探討了終身半監督學習,通過復習偽標記數據來解決穩定性-可塑性困境。我們以從終身學習的角度檢驗預訓練結束,展示通過將上述策略應用于模型的(持續)預訓練,如何增強其性能。

在過去的十年中,訓練硬件的進步和大數據集的可用性使得深度神經網絡在機器學習領域取得了顯著進展。這些網絡在許多自然語言處理和計算機視覺任務中達到或超過了人類水平的表現,例如機器翻譯(Lepikhin et al., 2021)、問答(Du et al., 2022; Chowdhery et al., 2023)、開放式對話生成(Ouyang et al., 2022)、對象檢測和圖像生成(Lu et al., 2023),這些評估是基于獨立同分布(i.i.d)的保留數據進行的。然而,當這些網絡應用于數據分布隨時間變化的現實情況時,它們的表現往往會變差(Lazaridou et al., 2021)。它們失敗的主要原因是當前的機器學習方法專注于孤立學習(Chen and Liu, 2018),即使用靜態數據集為每個新任務或一組相關任務訓練一個單獨的網絡。一種保持這些網絡更新的方法是每當新信息變得可用時就從頭開始重新訓練它們。然而,先前訓練所用的數據可能因隱私或存儲限制而只是暫時可用(Farquhar and Gal, 2018)。此外,重新訓練方法可能在計算上昂貴,數據效率低,且耗時長,尤其是對于大型網絡。例如,GPT-3(Brown et al., 2020),一個具有175B參數的自回歸語言模型,訓練了499B個標記,使用的計算量相當于3.14e23次浮點操作,如果在單個NVIDIA Tesla V100 GPU上訓練,將需要355年和460萬美元的成本。另一種方法是連續地隨著新信息的到來更新網絡。然而,深度神經網絡和一般的參數模型容易發生災難性遺忘(McCloskey and Cohen, 1989; Ratcliff, 1990; French, 1999)現象。在這種現象中,網絡在新信息被整合進系統時會忘記或覆蓋之前學到的知識。此外,這些網絡可能會經歷負面干擾(Pan and Yang, 2009; Weiss et al., 2016)現象,即先前學到的知識可能會妨礙新事物的有效學習,從而增加了數據需求。這兩種現象都源于穩定性-可塑性困境(Mermillod et al., 2013)。穩定性與保留過去的知識有關,可塑性與學習新知識有關。需要一種平衡,因為過多的穩定性會阻礙新知識的獲取,而過多的可塑性會導致忘記以前的知識。這一困境使得當前網絡難以更新其知識,并有效地適應新任務的增量學習。

與此相反,我們人類的學習方式則大不相同。我們通過在一生中獲取和更新知識來學習,保留以前學到的知識,并利用它來促進新概念和技能的有效學習。受到這種人類學習過程的啟發,終身學習(Thrun and Mitchell, 1995; Thrun, 1995; Chen and Liu, 2018)或增量學習(Solomonoff et al., 1989; Syed et al., 1999; Ruping, 2001)或永不停止的學習(Mitchell et al., 2018)或連續學習(Parisi et al., 2019)范式旨在開發能夠從持續的數據流中學習的系統,理想情況下保留過去的知識,用新信息更新它,并利用它進行后續學習。此外,研究人員也認識到終身學習能力對于實現人工通用智能的進展至關重要(Silver, 2011; Chen and Liu, 2018; Yogatama et al., 2019)。除了與生物學習相似之外,終身學習范式還有潛力通過消除過度模型重新訓練來減少能源浪費,并實現環保和可持續的綠色人工智能(Hazelwood et al., 2018; Strubell et al., 2019; Schwartz et al., 2020)。終身學習范式還與其他知識轉移相關的范式有關,如轉移學習(Pan and Yang, 2009)和多任務學習(Caruana, 1997)。與這兩個范式不同的是,終身學習范式更為通用;它假設對任務的順序訪問,旨在改善對先前任務的表現(理想情況下是積極的后向轉移或消極的遺忘)和新任務的表現(積極的前向轉移)。當前的轉移學習范式主要關注從以前的任務到新任務的單向知識轉移,即使這可能損害先前學到的任務的表現。另一方面,多任務學習假設同時訪問所有任務的數據,并通過使任務之間的知識共享來改善所有任務的表現。此外,即使在單任務學習設置中,神經網絡也顯示出經歷災難性遺忘的情況(Toneva et al., 2019),這突出了終身學習范式不僅限于多任務場景。即使是任務的概念在終身學習范式中也非常開放。例如,考慮一個終身COVID-19命名實體識別(NER)標記器。任務有三種不同的表現形式 - (i)分類任務,如實體塊、實體檢測、實體鏈接、共指解析和關系提取,(ii)針對2020、2021、2022、2023年COVID-19研究文章的不同領域的NER,(iii)針對COVID-19變種如COVID-Alpha、COVID-Beta、COVID-Omicron的演化類別的NER。這些表現形式對應于終身學習的三個突出場景:任務、領域和類別增量學習(Van de Ven and Tolias, 2019)。除了解決災難性遺忘之外,終身學習系統還有幾個其他目標(Biesialska et al., 2020)。人類能夠迅速從持續的對話中學習新信息,而不需要明確的主題邊界(Chen and Liu, 2018)。我們有選擇地保留過去的經驗在我們有限的記憶容量中以防止遺忘,并在需要時稀疏地回放它們(Ratcliff, 1990; McGaugh, 2000)。此外,我們經常從環境中以無監督的方式學習,而不是依賴于明確的監督(Aljundi, 2019)。相比之下,當前的終身學習系統(Biesialska et al., 2020)需要明確的任務邊界,它們依賴于大內存容量,因此數據效率低,且在計算上昂貴,因為它們需要對標記數據進行多次傳遞。為了更有效地模仿人類學習,有必要開發在更現實的假設下運行且在數據、記憶和計算上更高效的終身學習系統(Farquhar and Gal, 2018)。 在本論文中,我們的目標是設計高效的終身學習系統,這些系統可以減輕之前學到的知識的災難性遺忘,并通過在現實假設下運行來促進未來的學習。受到生物學習過程和深度學習的最新進展的啟發,我們提議將適當的歸納偏見注入數據驅動機器學習的三個主要組成部分:模型、訓練和數據。通過這樣做,我們還希望提高終身學習系統在數據、內存和計算需求方面的效率。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

與機器學習系統不同,人類可以從少數示例中學習新概念,并有效適應變化的環境。機器學習系統通常需要大量數據來學習類似的概念或適應變化。這是因為它們缺乏領域特定的先驗知識(也稱為歸納偏差)。為了應對這些缺點,元學習旨在通過數據驅動的方式獲得領域特定的歸納偏差,通常是從一組相關數據集中獲得。文獻中的大多數現有元學習方法依賴于豐富的領域或問題特定的數據集。然而,在實踐中,我們通常只能獲取有限數量的此類數據集。因此,在本論文中,我們探討了如何僅從少量數據集中成功進行元學習。為了解決這個問題,我們開發了一個理論框架來理解元學習中的泛化。在此基礎上,我們提出了一類可擴展的算法,這些算法通過原理性的元級正則化來進行元學習先驗,防止數據集的過擬合。然后,我們研究了確保元學習先驗提供可靠不確定性估計的方法,使其適用于交互學習。為此,我們提出了一種在函數空間中的正則化方案,并證明所得到的元學習方法在貝葉斯優化中顯著提高了效率。隨后,我們將該方法擴展到安全約束設置中。此外,我們引入了一種基于模型的元強化學習方法,用于有效地適應控制策略的變化動態。最后,我們提出了一種新的元學習框架,該框架直接逼近數據生成的隨機過程。由于它完全在函數空間中進行元學習,因此不會受到神經網絡高維參數空間中先驗問題的影響。在整個論文中,我們通過醫療保健、分子生物學和自動化機器學習(AutoML)以及機器人控制等實際應用,實驗證明了我們提出的方法的實際有效性。

付費5元查看完整內容

在機器學習領域,開發在世界中智能行為的代理仍是一個開放性挑戰。對這樣的代理的期望包括高效的探索、最大化長期效用以及能夠有效利用以往數據解決新任務的能力。強化學習(RL)是一種基于通過試錯直接與環境互動來學習的方法,并為我們訓練和部署此類代理提供了途徑。此外,將RL與強大的神經網絡功能逼近器結合使用——一個被稱為“深度RL”的子領域——已顯示出實現這一目標的證據。例如,深度RL已產生了能夠以超人水平玩圍棋的代理、提高微芯片設計的效率,以及學習控制核聚變反應的復雜新策略的代理。部署深度RL的一個主要問題是樣本效率低。具體來說,雖然可以使用深度RL訓練有效的代理,但主要成功案例大多數是在我們可以通過使用模擬器獲得大量在線互動的環境中實現的。然而,在許多現實世界的問題中,我們面臨的情況是樣本成本高昂。正如所暗示的,解決這個問題的一種方式是通過獲取一些以往的數據,通常稱為“離線數據”,這可以加速我們學習這些代理的速度,例如利用探索性數據防止重復部署,或使用人類專家數據快速引導代理朝向有前途的行為等。然而,將這些數據融入現有的深度RL算法的最佳方式并不直觀;簡單地使用RL算法在這些離線數據上進行預訓練,一種稱為“離線RL”的范式作為后續學習的起點,往往是不利的。此外,如何明確地在線派生出由這種離線預訓練積極影響的有用行為尚不清楚。鑒于這些因素,本文提出了一種三管齊下的策略來提高深度RL中的樣本效率。首先,我們研究了在離線數據上進行有效的預訓練。然后,我們解決在線問題,探討在純在線操作時對環境進行高效適應。最后,我們得出結論,使用離線數據在在線行動時明確增強策略。

付費5元查看完整內容

目前流行的機器學習范式涉及針對每個新任務訓練一個單獨的模型,給定一個靜態數據集。與此相反,人類隨著時間的推移積累知識,而終身學習范式試圖通過使系統能夠持續從任務流中學習來模仿這一過程,保留過去的知識以實現高效的未來學習。這一范式還提供了諸如避免周期性模型訓練、潛在減少計算和能源需求以及促進環保的綠色AI等優勢。在現代機器學習中,深度神經網絡雖然強大,但面臨著災難性遺忘(在新任務學習過程中丟失之前任務的知識)和負面干擾(先前學到的知識阻礙新任務學習)等挑戰。這些問題源于穩定性-可塑性困境,需要找到保留過去知識(穩定性)與獲取新知識(可塑性)之間的正確平衡。高效的終身學習系統必須解決這一困境,以及其他考慮因素,如支持在線數據流,利用小型和固定的內存緩沖容量(如果有的話),以及從未標記的數據流中學習。在這篇論文中,我們從生物學習過程和深度學習的最新進展中汲取靈感,以實現高效的終身學習系統。我們提出將歸納偏置注入數據驅動機器學習的三個主要組成部分:模型(架構和初始化)、訓練(目標和優化)和數據。本論文分為三個部分,每部分對應上述的一個組成部分。在第一部分,我們探討了預訓練初始化的作用,揭示了與隨機初始化相比,它們對遺忘的隱性緩解。接下來,我們設計了一個參數高效的專家架構,動態擴展學習能力以解決穩定性-可塑性困境。在第二部分,我們展示了針對平坦極小值的顯式優化如何提高網絡穩定性,并引入了一個用于穩定性-可塑性平衡的元學習目標。第三部分深入探討了終身半監督學習,通過復習偽標簽數據解決穩定性-可塑性困境。我們以從終身學習的角度審視預訓練作為結論,通過將上述策略應用于模型的(持續)預訓練,展示了增強效果。

在過去的十年中,訓練硬件的進步和大型數據集的可用性使深度神經網絡在機器學習領域取得了重大進展。這些網絡在多項自然語言處理和計算機視覺任務中達到或超過了人類水平的表現,例如機器翻譯(Lepikhin et al., 2021)、問題回答(Du et al., 2022; Chowdhery et al., 2023)、開放式對話生成(Ouyang et al., 2022)、對象檢測和圖像生成(Lu et al., 2023),當評估獨立同分布(i.i.d)的保留數據時。然而,當這些網絡應用于數據分布隨時間變化的真實情況時,它們的表現往往會變差(Lazaridou et al., 2021)。它們失敗的主要原因是,當前的機器學習方法集中于孤立學習(Chen and Liu, 2018),即使用靜態數據集為每個新任務或一組相關任務訓練一個單獨的網絡。一種使這些網絡保持最新的方法是,每次有新信息可用時就從頭開始重新訓練它們。然而,由于隱私或存儲限制,之前用于訓練的數據可能只是暫時可用(Farquhar and Gal, 2018)。此外,重新訓練方法可能在計算上昂貴、數據效率低下且耗時,特別是對于大型網絡。例如,GPT-3(Brown et al., 2020),一個具有1750億參數的自回歸語言模型,訓練了4990億個標記,使用的計算量相當于3.14e 23浮點運算,并且在單個NVIDIA Tesla V100 GPU上的訓練需要355年和460萬美元。另一種方法是,隨著新信息的持續到來,不斷更新網絡。然而,深度神經網絡和一般的參數模型容易發生災難性遺忘現象(McCloskey and Cohen, 1989; Ratcliff, 1990; French, 1999)。在這種現象中,網絡在將新信息納入系統時,忘記或覆蓋之前學到的知識。此外,這些網絡可能會經歷負面干擾現象(Pan and Yang, 2009; Weiss et al., 2016),在此現象中,之前學到的知識可能會阻礙新事物的有效學習,導致數據需求增加。這兩種現象源于穩定性-可塑性困境(Mermillod et al., 2013)。穩定性涉及保留過去的知識,可塑性涉及學習新知識。需要平衡,因為過多的穩定性會阻礙新知識的獲取,過多的可塑性會導致忘記之前的知識。這個困境使得當前網絡難以更新其知識,并有效地適應新任務的增量學習。 與此相反,我們人類的學習方式大不相同。我們通過在一生中獲取和更新知識來學習,保留之前學到的知識,并利用它來有效地學習新的概念和技能。受到這種人類學習過程的啟發,終身學習(Thrun and Mitchell, 1995; Thrun, 1995; Chen and Liu, 2018)或增量學習(Solomonoff et al., 1989; Syed et al., 1999; Ruping, 2001)或永不停歇的學習(Mitchell et al., 2018)或持續學習(Parisi et al., 2019)范式旨在開發能夠從持續數據流中學習的系統,理想情況下保留過去的知識,用新信息更新它,并利用它進行后續學習。此外,研究人員已經認識到終身學習能力對于實現人工通用智能的進展至關重要(Silver, 2011; Chen and Liu, 2018; Yogatama et al., 2019)。除了與生物學習相似之外,終身學習范式還有潛力通過避免過度模型重新訓練來減少能源浪費,并實現環保和可持續的綠色AI(Hazelwood et al., 2018; Strubell et al., 2019; Schwartz et al., 2020)。

終身學習范式還與其他知識轉移相關的范式有關,如遷移學習(Pan and Yang, 2009)和多任務學習(Caruana, 1997)。與這兩個范式不同,終身學習范式更為通用;假設順序訪問任務,它旨在改善對之前任務(理想情況下是積極的向后轉移或負面遺忘)和新任務(積極的向前轉移)的表現。當代遷移學習范式主要集中于從之前的任務向新任務進行單向知識轉移,以提高新任務的表現,即使這會損害之前學到任務的表現。另一方面,多任務學習假設同時訪問所有任務的數據,并通過使它們之間的知識共享來提高所有任務的表現。此外,即使在單任務學習設置中,神經網絡也被證明會經歷災難性遺忘(Toneva et al., 2019),強調終身學習范式不僅限于多任務場景。甚至在終身學習范式中,任務的概念也非常開放。例如,考慮一個終身COVID-19命名實體識別(NER)標記器。任務有三種不同的表現形式 - (i)分類任務,如實體塊分割、實體檢測、實體鏈接、共指解析和關系提取,(ii)針對2020、2021、2022、2023年COVID-19研究文章不斷變化的領域的NER(iii)針對COVID-Alpha、COVID-Beta、COVID-Omicron等COVID-19變種的演化類別的NER。這些表現形式對應于終身學習中的三個突出場景:任務、領域和類增量學習(Van de Ven and Tolias, 2019)。

除了解決災難性遺忘之外,終身學習系統還有幾個其他目標(Biesialska et al., 2020)。人類可以迅速從持續的對話中學習新信息,而不需要明確的話題邊界(Chen and Liu, 2018)。我們有選擇地保留過去的經驗在我們有限的記憶容量中以防止遺忘,并在需要時稀疏地回放它們(Ratcliff, 1990; McGaugh, 2000)。此外,我們經常以非監督的方式從我們的環境中學習,而不是依賴于明確的監督(Aljundi, 2019)。相比之下,當前的終身學習系統(Biesialska et al., 2020)需要明確的任務邊界,它們依賴于大容量記憶,因此在數據上效率低下,并且因為它們需要對標記數據進行多次傳遞而在計算上昂貴。為了更有效地模仿人類學習,有必要開發在更現實的假設下運行并且在數據、記憶和計算上都高效的終身學習系統(Farquhar and Gal, 2018)。

付費5元查看完整內容

生成式人工智能旨在制定特定類型的數據分布,以便能夠生成模仿底層分布的真實樣本的新數據實例。值得一提的是,在計算機視覺中,生成模型和判別模型是兩大主要類別。后者旨在基于特定數據實例準確預測類別、對象位置、分割等,而前者探索和制造復雜的數據流形。有人可能會爭論,由于旨在模擬現實世界中無限制領域的巨大復雜性的數據,計算機視覺中的生成式人工智能需要更加先進。然而,即使是最復雜的網絡設計,也很難準確地制定我們自然世界中的確切數據分布,因此還有很大的改進空間。 隨著最近生成式人工智能技術的突破,現在的研究人員和工程師創建了開始處理現實世界需求的高性能生成解決方案作為商業產品,幸運的是,這篇論文也參與其中。在這篇論文中,作者旨在通過探索最佳可能的視覺表征形式(即神經隱式嵌入、頻域表征、基于變換器的表征),以盡可能捕獲更多的視覺信息,進一步推動生成式人工智能的性能。毫無疑問,數據表征是生成式人工智能的一個關鍵前提,因為它揭示了模型能力的上限。此外,從一個更廣泛但不那么精確的角度來看,生成建模的目標——模擬精確的數據分布,也可以視為一種表征學習。在論文的最后部分,作者還探討了超越視覺表征的主題,向更一般的跨模態表征進發,適應多種類型的數據模態,這是朝著更具挑戰性的目標邁進的啟發式步驟:通用人工智能。

這篇論文始于UltraSR,探索適合圖像超分辨率的隱式神經視覺表征,通過任意上采樣比例合成圖像細節。UltraSR的核心思想將隱式神經表征與可學習的周期性編碼相結合,以連續函數的形式在高頻流形中制定視覺細節。當UltraSR探索神經視覺表征時,Spectral Hint GAN(SH-GAN)采取了不同的路線,深入涉及頻域中的視覺特征進行圖像完成。SH-GAN提出了一個新穎的頻譜網絡模塊:Spectral Hint Unit(SHU),以及兩種新策略:異構過濾和高斯分割。SH-GAN因以下原因超越了以往的圖像完成方法:通過基于StyleGAN的共調制框架有效地填充低頻圖像結構,以及通過SHU有效地填充高頻圖像紋理。最近在文本到圖像(T2I)擴散模型的進展激發我們探索新的工作Prompt-Free Diffusion,在這項工作中,我們用SeeCoder代替CLIP文本編碼器來捕獲視覺線索,從T2I系統中移除了提示的需要。SeeCoder自動提取各種視覺線索,包括但不限于語義、紋理、背景等,并將它們傳遞給擴散模型。我們的合成結果既高質量又緊密跟隨SeeCoder編碼的參考視覺線索。與Prompt-Free Diffusion并行,我們提出了Versatile Diffusion,這是第一個提出統一的多模態多流擴散管道的工作,均勻處理多種跨模態任務,生成圖像、文本和變體。Versatile Diffusion具有更廣泛的范圍,我們的目標是將不同模態的表征合并到一個生成網絡中,向通用生成式人工智能的大膽一步邁進。

總之,所有工作都提供了有關數據表征的寶貴見解,其中UltraSR、SH-GAN和Prompt-Free Diffusion積極探索了三種方案下的最佳視覺表征:隱式神經表征、頻域表征和基于變換器的表征。在最后一部分,Versatile Diffusion探索了圖像、文本和圖文跨模態的統一表征和生成。UltraSR在所有比例上的DIV2K數據集上比基線模型高出0.05 dB。SH-GAN在FFHQ數據集上達到FID 3.41,在Places2數據集上達到7.10,獲得了大規模自由形式圖像完成任務中的新最佳水平。Prompt-Free Diffusion和SeeCoder完成了以驚人質量完成流行的示例-based圖像生成任務。Versatile Diffusion在Coco2014數據集上的CLIP相似度為0.269和0.858;FID為11.20和4.57,測量文本到圖像和圖像變化,超越了所有方面的基線Stable Diffusion。

付費5元查看完整內容

深度學習有望從數據中學習復雜的模式,特別是當輸入或輸出空間很大時。在機器人學習中,輸入(如圖像或其他傳感器數據)和輸出(如關節角度等動作)都可能很大,這暗示深度學習可能特別適合解決機器人學領域的挑戰性問題。

然而,與大多數機器學習應用不同,機器人學習涉及物理約束,使得標準的學習方法面臨挑戰。機器人昂貴,通常需要人工介入以重置環境和修復硬件。這些約束使得大規模的數據收集和訓練變得困難,為應用當前的數據密集型算法設置了一個主要的障礙。機器人學習在評估方面還有一個額外的障礙:每個物理空間都是不同的,這使得實驗室之間的結果不一致。

機器人學習范例的兩個常見假設限制了數據效率。首先,一個代理通常假設獨立的環境和沒有先前的知識或經驗 —— 學習是從零開始的。其次,代理通常只接收圖像觀察作為輸入,僅依賴視覺來學習任務。但在現實世界中,人類在多個環境中通過多種感官學習,并在學習新任務時帶有先前的經驗。這種方法不僅是實際的,而且在實際的機器人技術中也是至關重要的,因為從部署的物理系統中收集大量樣本在成本上是不切實際的。 在這篇論文中,我展示了一項工作,通過利用多模態和預訓練來提高機器人學習的數據效率。首先,我展示了如何通過多模態感知,如視覺和聽覺,提供豐富的自監督(第2章)。其次,我介紹了一個框架,用于預訓練和評估通過環境轉移的自監督探索(第3章)。在第4章中,我將這些想法應用于實際的操作,結合了大規模預訓練和多模態的好處,通過音頻-視頻預訓練來為接觸式微型麥克風提供訓練。最后,根據第3章的基準測試工作,我介紹了一個真實的機器人基準,用于通過共享數據和硬件評估視覺和策略學習方法的泛化能力(第5章)。

想象一個嬰兒玩一個她從未見過的物體。她搖晃它并聽那噪音。她觀察她的父母來了解它是如何使用的。盡管這些行為對成年人來說可能看起來并不聰明,但嬰兒的學習方式卻充分利用了他們早期生活的豐富性。他們利用所有的感官;他們尋求創意的反饋;他們在周圍的世界的多樣性中茁壯成長 [133]。我認為這些行為是為了構建更好的智能體而得到的靈感。具體來說,我旨在通過利用自監督、多模態和先前的經驗來提高機器人的學習能力。強化學習(RL)允許系統超越被動學習,并在與世界互動的同時從這些互動中學習。在標準的RL范式中,研究者手動指定一個獎勵函數(得分),代理則學會最大化這一獎勵。這在Atari或圍棋這樣的游戲中效果很好,但在機器人技術這樣的應用中,獎勵函數很難制定,而且從現實世界的數據中學習需要樣本效率。RL的挑戰可以分為兩個領域:如何在一個環境中收集有趣的數據(探索)和如何從這樣的數據中學習任務(策略學習)。在我的論文中,我探討了如何改進探索和策略學習,使RL在真實世界的環境中變得可行。目前的RL探索框架是兒童探索世界方式的差勁代理。RL代理往往從零開始(在一個環境中從零開始初始化)并且只使用視覺或狀態向量,而忽略了其他感覺模態。在這篇論文中,我旨在使探索更加符合真實世界:代理使用大規模數據(來自先前的環境和被動來源)有效地將知識轉移到新的環境中,其中自監督和多模態引導快速適應。

付費5元查看完整內容

這篇論文研究了通過試錯學習教導自主智能體完成任務的算法。通常,這個問題被描述為一個強化學習(RL)問題,其中智能體試圖最大化用戶提供的獎勵函數。這里研究的算法采取了不同的方法,大部分避免使用獎勵函數,而是直接從數據中學習實現期望的結果。這種方法允許用戶使用來自監督學習和非監督學習的算法工具,同時也為非專家用戶提供了一個教導智能體新任務的界面。這些方法的設計中的主要挑戰是預測期望結果的概率,尤其是當這些結果在未來的數百步中才發生,特別是在使用離策略數據時。為此,這篇論文的第一部分基于遞歸分類開發了一種算法,該算法通過時間差分更新估計未來狀態的概率(第2章)。這種方法直接適用于具有連續狀態和動作的環境,不需要任何手工制作的距離度量,并導致了一個比之前的方法更高效的面向目標的RL算法。然后,我們將這個想法推廣到可以通過多種方式解決的任務,允許更靈活的任務規范,并提供更廣泛的泛化能力。

將控制問題以期望的結果來描述提供了一個簡單的機制來指定任務是什么,但它沒有為如何解決任務留下任何余地,這引發了一個問題:這些方法是否僅限于簡單任務。為了解決這個限制,我們考慮推斷復雜任務解決方案的結構。由于第一部分介紹的算法在本質上是概率性的,所以很容易將這種結構作為一個未觀察到的潛在變量納入其中。這些新算法推斷這種任務結構;在這樣做的過程中,它們將控制問題分解為一系列更容易的問題,從而加速學習。

我們首先討論以目標為條件的設置,這種推斷觀點導致了一個簡單且理論上有正當理由的方法,將面向目標的RL集成到傳統的規劃流程中(第4章)。RL被用來估計距離并學習一個局部策略,而觀察(如,圖像)上的圖搜索確定了通往目標的高級路徑。這種方法顯著優于標準的目標條件RL算法。接著,我們考慮一種不同的方式來構造任務解決方案:作為一個學習過的動態模型和策略的組合(第5章)。結果是一個基于模型的RL算法,其中模型和策略使用相同的目標聯合優化,這是預期回報的下界。

這篇論文基于初步論文提案中提出的工作在兩個主要方向上進行了深入。首先,我們探討了遞歸分類的幾何解釋(第2章),在表示學習和強化學習之間建立了緊密的聯系(第3章)。這種聯系使我們能夠將遞歸分類擴展到通過有限數量的獎勵標記狀態后設定的任務,并使我們能夠將這些方法應用到基于真實世界圖像的機器人操作任務上。其次,我們擴展了RL的潛在變量觀點(第4章和第5章)以在學習的表示上執行推斷(第5.6節)。這種擴展使我們的方法能夠擴展到更高維度的任務,并提供了大量的計算加速。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在分布式機器學習中,高通信開銷和有限的設備上內存是導致系統效率低下的兩個主要原因。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-83.html

本文研究了在分布式機器學習工作負載下,在數據和模型并行性方面減輕通信瓶頸并實現更好的設備上內存利用的可能方法。

在通信方面,我們的Blink項目緩解了數據并行訓練中的通信瓶頸。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最佳的網絡吞吐量。為了消除模型并行訓練和推理過程中的通信問題,我們從系統層上升到應用層。我們的sensAI項目將多任務模型解耦到斷開的子網中,其中每個子網負責單個任務或原始任務集的子集的決策制定。

為了更好地利用設備上的內存,我們的小波項目有意增加任務啟動延遲,在加速器上的不同訓練任務波之間交錯使用內存峰值。通過將多個訓練波集中在同一個加速器上,它提高了計算和設備上的內存利用率。

付費5元查看完整內容

決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。

付費5元查看完整內容

深度強化學習解決很多復雜問題的能力已經有目共睹,然而,如何提升其學習效率是目前面臨的主要問題之一。現有的很多方法已驗證遷移學習可利用相關任務中獲得的先驗知識來加快強化學習任務的學習效率。然而,這些方法需要明確計算任務之間的相似度,或者只能選擇一個適合的源策略,并利用它提供針對目標任務的指導性探索。目前仍缺少如何不顯式的計算策略間相似性,自適應的利用源策略中的先驗知識的方法。本文提出了一種通用的策略遷移框架(PTF),利用上述思想實現高效的強化學習。PTF通過將多策略遷移過程建模為選項(option)學習,option判斷何時和哪種源策略最適合重用,何時終止該策略的重用。如圖1所示,PTF分為兩個子模塊,智能體(agent)模塊和option模塊。Agent模塊負責與環境交互,并根據環境的經驗和option的指導進行策略更新。

付費5元查看完整內容
北京阿比特科技有限公司