亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

表示學習對于強化學習的實際成功至關重要。通過狀態表示,一個代理可以描述其環境以有效地探索狀態空間,泛化到新狀態,并從延遲反饋中進行歸因分配。這些表示可能是狀態抽象、手工設計或固定特征,或由神經網絡隱含。在本論文中,我們調查了狀態表示的幾個理想的理論屬性,并利用這一分類,設計了新的原理性強化學習算法,旨在通過深度學習在大規模上學習這些狀態表示。 首先,我們考慮由行為指標引起的狀態抽象及其泛化特性。我們展示了支持價值函數連續性對于強化學習中的泛化至關重要。結合這種形式化,我們提供了一個實證評估,比較了各種指標,并展示了鄰域選擇在強化學習算法中的重要性。 然后,我們借鑒統計學習理論來描述任意狀態特征在強化學習中泛化的含義。我們引入了一個稱為表示的有效維度的新概念,它推動了對未見狀態的泛化,并展示了其在Atari游戲中基于價值的深度強化學習中的用處。 本論文的第三個貢獻是一種可擴展算法,通過深度學習從大量輔助任務中學習狀態表示。這是一種隨機梯度下降方法,通過神經網絡從少量條目中學習目標矩陣的主成分。 最后,論文的最后部分介紹了我們對狀態表示如何影響代理預測質量,以及這些預測如何塑造狀態表示的發現。我們提供了一個正式的數學模型來研究這種現象,并展示了如何利用這些理論結果來提高學習過程的質量。

付費5元查看完整內容

相關內容

深度強化學習 (DRL) 是一種使用深度學習技術擴展傳統強化學習方法的一種機器學習方法。 傳統強化學習方法的主要任務是使得主體根據從環境中獲得的獎賞能夠學習到最大化獎賞的行為。然而,傳統無模型強化學習方法需要使用函數逼近技術使得主體能夠學習出值函數或者策略。在這種情況下,深度學習強大的函數逼近能力自然成為了替代人工指定特征的最好手段并為性能更好的端到端學習的實現提供了可能。

這項工作旨在理解不變性和等變性對監督學習中泛化的影響。我們利用平均算子的視角來展示,對于任何非等變的預測器,存在一個具有嚴格更低測試風險的等變預測器,適用于所有正確指定等變性的回歸問題。這構成了一個嚴格的證明:對稱性(以不變性或等變性的形式)是一種有用的歸納偏差。 我們將這些想法應用于隨機設計最小二乘法和核嶺回歸中的等變性和不變性。這使我們能夠在更具體的設置中指定預期測試風險的減少,并根據群體、模型和數據的屬性來表達它。 在此過程中,我們給出了例子和額外的結果,以展示平均算子方法在分析等變預測器時的實用性。此外,我們采用了另一種視角,將使用不變模型進行學習的常見直覺形式化為關于軌道代表的問題。這種形式主義自然地擴展到對等變模型的類似直覺。我們通過連接這兩種視角并提出未來工作的一些想法來結束。

付費5元查看完整內容

在這篇論文中,我們研究了深度強化學習中的對稱性和結構。我們將論文分為兩部分。在第一部分,我們探討如何在強化學習中利用對稱性的知識。在第二部分,我們提出了一些方法,用于學習智能體的環境和狀態的結構。我們提出了MDP 同態網絡,這是一種在 MDP 的聯合狀態-動作空間下對稱性下是等變的神經網絡。由于等變性,我們發現與非等變的基線相比,數據效率得到了提高。我們提出了多智能體MDP 同態網絡,一類網絡,允許使用僅局部信息的分布式執行,但能夠在合作多智能體系統的聯合狀態-動作空間的全局對稱性之間分享經驗。我們顯示全局等變性比對稱協調問題的非等變分布式網絡的數據效率更高。我們提出了 PRAE。PRAE 利用動作等變性進行強化學習中的表示學習。動作下的等變性表明輸入空間中的轉換被潛在空間中的等效轉換所鏡像,而映射和轉換函數也應該交換。我們證明,在某些假設下,學到的映射是一個 MDP 同態,并且通過實驗證明該方法是數據高效的,易于訓練,能很好地推廣到具有相同環境動力學的新目標狀態和實例。我們提出了 C-SWMs,它使用對比編碼和圖神經網絡轉換函數,從像素中找到狀態的面向對象的表示。我們顯示與使用解碼器、非結構化轉換或非結構化表示相比,在多步預測和泛化到未見環境配置方面有所改善。

對稱性和結構無處不在。當我們行走時,右腿的運動鏡像了左腿的運動。當分子旋轉時,它們的分子性質不變。當我們導航到一個目的地時,我們會考慮不同路段的連通性。當我們交談時,我們可以將單詞串聯起來,形成完全新的句子。在日常生活中,我們使用關于任務的對稱性和結構的信息來指導我們的決策制定。

在人工智能中,對稱性和結構也無處不在。考慮一下在運動過程中鏡像左右腿運動的機器人,自動化芯片設計,追蹤野生動物運動的無人機群,玩 Atari Pong 的機器人,其中屏幕的上下部分是彼此的反射,分子設計,計算機玩家在圍棋游戲中考慮旋轉的棋盤狀態,以及自動駕駛車輛從荷蘭的右側道路切換到英國的左側道路。這些都是 AI 中展示了某種對稱性或結構的任務的例子。利用固有對稱性和結構的知識是構建可擴展系統的重要一步。

強化學習是人工智能的一個基礎研究領域,它鼓勵智能體從正反饋信號中學習,我們稱這為獎勵。通過試錯,智能體可以學會將情境、動作和反饋關聯起來,從而改善其決策。例如,我們可以給一個機器人正向獎勵以鼓勵它快速行走,而給它負向獎勵以防止它跌倒。同樣,我們可以給計算機玩家正向獎勵以鼓勵它贏得比賽,負向獎勵以防止輸掉比賽,或者給一個提出特別高效的芯片設計的智能體正向獎勵。使用強化學習領域的概念,我們可以將上述示例正式化,以提出導致智能體做出良好決策的方法。在深度強化學習中,智能體使用神經網絡來決定采取哪個動作,而神經網絡會根據收到的獎勵信號適應任務。然而,即使是那些遠遠不及人類能力的智能任務,對于人工決策者來說也可能會遇到問題。考慮任何一個在現實世界中運作的基于視覺的控制系統。智能體接收到攝像頭輸入作為觀測,然后必須學習采取最佳動作。可能的觀測數量是極其龐大的,而智能體不太可能遇到兩個完全相同的狀態。因此,我們希望智能體能夠重用先前狀態的經驗,以便在具有相似特征的未見狀態中做出良好的決策。例如,在決定如何移動左腿時,智能體應該模仿它學到的移動右腿的動作。

上述示例只是強化學習問題中對稱性和結構出現的幾個案例。這可以通過考慮在一個狀態中采取一個動作是否等同于在另一個狀態中采取另一個動作來形式化。在這篇論文中,我們將研究當我們知道對稱性和結構時如何在強化學習中使用它,以及如果不知道時如何提取它。智能體不應該學習已知的東西。知識是由系統設計者作為先驗知識提供的,還是通過智能體自身的泛化獲得的,應取決于問題的上下文。通過適當地重復使用知識,我們可以減少智能體需要與世界互動的次數,這是擴展到真實世界設置的重要部分。在這篇論文中,我們將特別關注強化學習中的對稱性和結構。

付費5元查看完整內容

在現代的統計和機器學習模型中,通常會施加結構約束以提高模型的可解釋性和降低模型復雜性。在這篇論文中,我們展示了一些可擴展的優化方法,用于處理在結構約束下的大規模機器學習問題,特別關注的是非參數統計的形狀約束和高維統計的稀疏性。在第一章中,我們考慮了梯度正則化的凸回歸問題,該問題的目標是在目標變量和協變量之間擬合一個凸函數。我們提出了新穎的大規模算法,這些算法基于近端梯度下降和活動集方法,并為我們提出的算法推導出了新穎的線性收斂保證。從實證結果來看,我們的框架可以在幾分鐘內大致解決?? = 105 和?? = 10的實例。在第二章中,我們開發了一個新的計算框架,用于計算對數凹密度的最大似然估計,這個框架基于平滑技術和逐漸提高精度的適當積分離散化。我們證明了我們的方法的收斂性,并顯示出比早期的凸方法明顯的運行時間改善。在第三章中,我們關注的是高斯圖形模型,該模型旨在從獨立同分布的多元高斯樣本中估計稀疏的精確矩陣。我們通過?0?2-penalized偽似然提出了一種新的估計器。然后,我們設計了一種專門的非線性Branch-and-Bound(BnB)框架,該框架解決了提出的估計器的混合整數編程(MIP)公式。我們的估計器在計算上可以擴展到?? ~ 10,000,并且相比于競爭的?1方法提供了更快的運行時間,同時帶來了優越的統計性能。

在第四章中,我們進一步研究如何改進用于具有?0?2懲罰和一般凸平滑損失的稀疏學習問題的BnB框架。我們在BnB框架內提出了一種新穎的篩選程序,以保證將松弛變量固定為0或1。我們的實驗表明,這種篩選程序可以顯著減少BnB求解器的運行時間。

付費5元查看完整內容

強化學習和最優控制是解決動態系統決策問題的兩種方法,分別從數據驅動和模型驅動的角度出發。現代應用這些方法的場景往往涉及高維狀態和動作空間,因此開發高效的高維算法至關重要。本篇論文旨在從兩個角度來應對這一挑戰。在第一部分中,我們分析了強化學習在一般再生核希爾伯特空間(RKHS)中的樣本復雜性。我們關注一類馬爾可夫決策過程,其中獎勵函數位于RKHS的單位球內,而轉移概率位于任意集合中。我們引入了一個稱為分布不匹配下的擾動復雜性的量,用于描述在給定尺度下RKHS中的擾動所導致的可接受狀態-動作分布空間的復雜性。我們證明了這個量不僅為所有可能算法的誤差提供了下界,還為解決強化學習問題的兩種特定算法提供了上界。因此,擾動復雜性隨著給定尺度的衰減,衡量了強化學習問題的難度。我們進一步提供了一些具體例子,并討論了這些例子中擾動復雜性是否迅速衰減。在第二部分中,我們介紹了一種高效學習高維閉環最優控制的算法。該方法是從最近提出的基于監督學習的方法進行改進的,該方法利用強大的開環最優控制求解器生成訓練數據,并使用神經網絡作為高效的高維函數逼近器來擬合閉環最優控制。這種方法成功地處理了某些高維最優控制問題,但在更具挑戰性的問題上表現仍然不佳。其中一個關鍵原因是由受控動力學引起的所謂分布不匹配現象。在本篇論文中,我們對這一現象進行了研究,并提出了初始值問題增強采樣方法來緩解這個問題。我們進一步證明了所提出的采樣策略在經過測試的控制問題上顯著提高了性能,包括經典的線性二次調節器、四旋翼飛行器的最優著陸問題以及7自由度機械臂的最優達到問題。強化學習和最優控制是兩個不同的領域,它們都專注于動態系統的最優決策。強化學習是數據驅動的,旨在在未知環境中學習最優策略,以最大化累積獎勵。最優控制是模型驅動的,旨在基于動態系統的數學模型找到給定系統的最優控制策略。在強化學習中,智能體與環境進行交互,通過獎勵形式的反饋來改進策略。它不需要對系統進行顯式建模,直接從數據中進行學習。強化學習算法已成功應用于各種領域,如視頻游戲[60]、圍棋[80]、機器人技術[45]等。另一方面,最優控制使用模型來預測動態系統在不同控制策略下的行為,并通過優化預定義的成本函數來找到最優策略。這種方法可以對系統進行精確控制,并考慮系統的約束條件。它在機器人技術[52]、航空航天[55]等領域有廣泛的應用。現代強化學習和最優控制的應用往往涉及高維狀態空間和動作空間,這使得問題的解決變得非常困難。自從Bellman以來,人們就意識到解決高維閉環最優控制問題是一項艱巨的任務[7]。廣泛使用的術語“維度詛咒”最初是為了強調這些困難[7]。因此,從業者通常不得不采用不受控制的近似方法,比如假設值函數或策略函數具有特定的低維結構,以滿足實際需求[72]。然而,機器學習的出現帶來了新的希望,因為深度神經網絡能夠高效地逼近高維函數。這使得結合深度神經網絡的強化學習和最優控制算法能夠解決許多高維問題,包括圍棋[80]和50維隨機控制問題[35]。在這篇論文中,我們將討論高維強化學習和最優控制的兩個重要主題。在第一部分中,我們將分析在一般再生核希爾伯特空間(RKHS)中強化學習的樣本復雜性。RKHS是在核方法研究中引入的數學概念,與神經網絡密切相關,這在之前的神經切線核和Barron空間的研究中得到了證實。因此,理解在RKHS中強化學習的樣本復雜性是理解高維強化學習問題的關鍵一步。我們考慮一類馬爾可夫決策過程M,其中獎勵函數位于RKHS的單位球內,轉移概率位于給定的任意集合中。為了描述對RKHS中尺度為?的擾動所產生的可接受狀態-動作分布空間的復雜性,我們定義了一個稱為分布不匹配下的擾動復雜性?M(?)的量。我們展示了?M(?)既給出了所有可能算法的誤差下界,也給出了兩種具體算法——擬合獎勵算法和擬合Q迭代算法——對于強化學習問題的上界。因此,?M(?)隨著?的衰減衡量了在M上強化學習問題的難度。我們進一步證明了擾動復雜性與常用于研究RKHS中強化學習樣本復雜性的集中系數和特征值衰減有關。作為副產品,我們還表明當獎勵函數位于高維RKHS中時,即使轉移概率是已知的且動作空間是有限的,強化學習問題仍然可能受到維度詛咒的影響。這一部分主要基于我的先前工作[53]。

在第二部分中,我們提出了一種用于高維系統閉環最優控制學習的高效算法。該方法基于一種監督學習方法,利用開環最優控制求解器生成訓練數據,并使用神經網絡作為高維函數逼近器來擬合閉環最優控制。雖然這種方法成功地處理了某些高維最優控制問題,但在更具挑戰性的問題上表現較差,主要是由于受控動態引起的分布不匹配現象。該現象指的是訓練數據的狀態分布與由神經網絡控制器生成的狀態分布之間的差異通常會隨著時間的推移而增加,導致訓練數據不能很好地代表使用訓練后的神經網絡控制器時遇到的狀態。 為了解決這個問題,我們提出了初始值問題增強采樣方法。在這種方法中,我們通過解初始值問題迭代地重新評估神經網絡控制器到達的狀態,并通過解以這些狀態為起點的開環控制問題來重新計算新的訓練數據。我們從理論上證明了這種采樣策略在經典的線性二次調節器上的改進效果與總時間持續時間成比例。我們進一步通過數值實驗證明了所提出的采樣策略在經過測試的控制問題上顯著提高了性能,包括四旋翼飛行器的最優著陸問題和7自由度機械臂的最優達到問題。這一部分主要基于我的先前工作[92]。

付費5元查看完整內容

過去十年,深度學習在幾個重要應用中取得了巨大成功,但數學理解卻落后于它驚人的經驗成功。經典的機器學習理論不足以解釋深度學習中的各種新現象,并為算法選擇提供指導,很大程度上是由于過于簡化的黑盒觀點忽略了模型與優化算法之間的相互作用。本文提出了一組理論結果,考慮了模型和優化算法之間的相互作用,旨在彌合深度學習的理論和實踐之間的差距,以實現泛化和優化。在優化方面,我們首先通過呈現一個在經驗上工作良好的指數級增長的學習率計劃來說明傳統優化理論和具有標準化層的深度網絡之間的不匹配。本文通過建立其與具有權重衰減的SGD的等價性來解釋這種驚喜,并證明其收斂速度快且對初始化規模不敏感。在此基礎上,我們設計了一種名為SIBERT的BERT變體,它可以被SGD訓練,因此比ADAM等自適應算法更節省內存。最后,提出了第一個可證明的通用場景,根據經驗觀察,梯度下降以非單調的方式減少損失。在泛化方面,本文研究了優化算法的隱式偏差,即盡管存在因模型過參數化而泛化能力差的解,但算法仍返回泛化能力好的解。本文首先給出了一個嚴格的理由,為什么卷積網絡比全連接網絡的樣本效率更高。為經驗觀察提供了理論證明,包括矩陣分解在內的深度線性網絡,是由從小初始化隱偏置到低秩解的梯度下降訓練的。我們還確定了一個條件,即梯度下降與鏡像下降等價,可以用來理解非線性模型的隱式偏差,并恢復幾個先前的結果。進一步表明,當有一定的梯度噪聲或其學習率大于2的損失銳度時,梯度下降對"更平坦"的解決方案有隱性偏差。

付費5元查看完整內容

圖聚類是無監督學習中的一個基本問題,在計算機科學和分析現實世界數據中有著廣泛的應用。在許多實際應用中,我們發現聚類具有重要的高層結構。這在圖聚類算法的設計和分析中經常被忽視,因為這些算法對圖的結構做了強烈的簡化假設。本文討論了聚類結構是否可以有效學習的自然問題,并描述了四個用于學習圖和超圖中聚類結構的新算法結果。論文的第一部分對經典的譜聚類算法進行了研究,并對其性能進行了更嚴格的分析。這一結果解釋了為什么它在更弱、更自然的條件下工作,并有助于縮小譜聚類算法的理論保證與其優秀的經驗性能之間的差距。

論文的第二部分在前一部分的理論保證的基礎上,表明當底層圖的簇具有一定的結構時,少于k個特征向量的譜聚類能夠比使用k個特征向量的經典譜聚類產生更好的輸出,其中k是聚類的個數。本文首次討論和分析了少于k個特征向量的譜聚類的性能,并表明一般的聚類結構可以用譜方法學習。第三部分考慮使用局部算法高效地學習簇結構,其運行時間僅依賴于目標簇的大小,且與底層輸入圖無關。經典的局部聚類算法的目標是找到一個與圖其他部分稀疏連接的簇,本文的這一部分提出了一種局部聚類算法,它可以找到一對彼此緊密連接的簇。這一結果表明,即使在現實世界中普遍存在的大圖中,某些聚類結構也可以在局部環境中有效地學習。

論文的最后研究了超圖中密集連接聚類的學習問題。該算法基于一種新的熱擴散過程,擴展了最近在超圖譜理論方面的一系列工作。它允許在建模對象的高階關系的數據集中學習簇的結構,可以應用于有效分析在實踐中發生的許多復雜數據集。在不同領域的合成數據集和真實數據集上進行了廣泛的評估,包括圖像分類和分割、遷移網絡、合著網絡和自然語言處理。實驗結果表明,新提出的算法是實用、有效的,可以立即應用于實際數據的聚類結構學習。

付費5元查看完整內容

自從深度學習和深度強化學習出現以來,已經有大量的經驗成功地利用某種人工神經網絡來解決給定的優化問題。然而,許多公司的內部運作方式只被人們模糊地了解,并隱藏在成功的故事中。通過揭示各種含義,這篇論文試圖建立一個理解為什么某些神經網絡架構設計工作,以及關鍵的是為什么其他的不能工作。本文不關注實證結果,而是從研究反向傳播在架構設計和訓練中的簡單數學含義開始。然后,提出一種稀疏的全連接層替代方案,以避免信號傳播中的瓶頸。它進一步展示了如何設計單調神經網絡,以及如何使用這些網絡在連續動作空間控制設置中為智能體提供更靈活的策略表示。這本書進一步討論了將神經網絡分成多個模塊的權衡和設計。特別是,模塊化的需求在目標相互沖突的多任務設置中得到了體現。最后,討論了最近提出的注意力架構及其隱含含義。貫穿整篇論文的結果強調了超參數之間的關聯效應和定制架構設計的必要性。本文適合有技術背景的讀者。它被寫得讓剛開始接觸神經網絡的人也能理解。然而,即使是該領域的資深研究人員也可能對所呈現的獨特觀點感興趣。

//www.research-collection.ethz.ch/handle/20.500.11850/541752

作為一個由經驗結果驅動的領域,深度學習是眾多神經結構設計方案的發源地。幾乎每天都有新的論文發表,建議對某些架構組件進行輕微修改,以提高性能。然而,由于大量的混雜因素,通常不清楚性能的提高實際上是由于架構的變化,還是由于超參數的差異,數據預處理的變化,表示能力的增加,或者只是初始化參數的幸運抽獎。本文著眼于深度強化學習的應用前景,旨在更好地理解神經網絡的基本內部工作原理及其設計。

特別地,本文首先強調了反向傳播的隱式內存需求、常用激活函數的工作范圍以及體系結構組件對梯度傳播的影響。展示了架構瓶頸和門控機制如何導致梯度消失,并討論了殘差連接對梯度動態的影響。它還強調了通過體系結構提供算法結構的必要性,以及結構和有利的訓練動態之間的內在權衡。在第一個實際示例中,本文提出了一種全連接層的稀疏替代方案,可以減少參數計數,而不會引入不必要的瓶頸。在強化學習方面,本文提出了一種在連續動作空間環境中控制的新方法。該方法基于分位數回歸和神經網絡的單調性約束。這種組合允許在網絡參數中隱式地表示策略,從而提供了表示復雜動作分布的靈活性。這種策略的必要性在競爭游戲和約束內存設置中得到了證明。此外,該方法還提高了經典控制問題的學習性能。本文進一步探討了多任務學習的局限性,并針對干擾任務目標的問題提出了兩種解決方案——一種是基于注意力架構先驗的解決方案,另一種是基于與無監督任務聚類配對的神經網絡解決方案。這兩種方法都有效地緩解了這個問題,從而提高了性能,并在不同的環境中具有更廣泛的適用性。 本文最后深入研究了注意力架構和transformer對超參數的敏感性。它強調了將注意力權重約束到概率單形的含義,以及這些如何反映訓練表現。它進一步展示了內部softmax激活如何像sigmoid一樣容易飽和,以及transformer在初始化時如何不是序列長度獨立的。在對抽象任務的大規模實證研究中,將Transformer與可選架構設計進行比較。結果突出了超參數選擇的相關效應,不同架構對數據偏差的魯棒性,以及算法對齊對底層任務的重要性。

付費5元查看完整內容

強化學習(RL)能夠在不需要學習領域動態模型的情況下求解領域。當與神經網絡作為函數逼近器相結合時,RL系統可以解決復雜問題。然而,由于這些特性,驗證和預測RL智能體的行為變得困難;一個博學的策略傳達的是“做什么”,而不是“為什么”。本文專注于對深度強化學習進行解釋,總結可用于下游分析的行為及其原因。具體來說,我們將重點放在從與環境的有限的已知交互集合中獲得最終策略的設置上。我們將現有的解釋方法分為兩個方向:

1. 方法是解釋單一動作行為還是策略級行為

2. 一種方法是否根據狀態特征或過去的經驗提供解釋

在這種分類下,有四種類型的解釋方法,它們能夠回答關于智能體的不同問題。我們將介紹創建這些類型的解釋的方法。此外,我們引入了一個統一的解釋結構,它是所有四種類型的組合。這種結構能夠獲得關于智能體已經學習到什么以及它為什么這樣做的進一步信息。

首先,我們介紹了CUSTARD,這是我們用狀態特征解釋單一動作行為的方法。CUSTARD的解釋是策略的決策樹表示。與生成這種決策樹的現有方法不同,CUSTARD在訓練后直接學習樹而不近似策略,并且與現有的RL技術兼容。

然后我們介紹了APG-Gen,這是我們根據狀態特征創建策略級行為解釋的方法。APG-Gen在抽象狀態上生成馬爾可夫鏈,從而能夠預測未來的行動和未來狀態的各個方面。APG-Gen只查詢智能體的Q值,對智能體的決策過程不做任何假設。

我們將這兩種方法集成起來,生成統一解釋樹(UET)。UET是一棵從狀態直接映射到操作和抽象狀態的樹,因此在狀態特征方面統一了單個操作和策略級行為解釋。

我們擴展了在深度神經網絡中尋找重要訓練點的現有工作。我們的方法,MRPS,根據過去的經驗來解釋單一動作行為。MRPS可以為點集找到重要值,并考慮特征的大小,從而產生更有意義的重要值。最后,我們找到UET中任何節點的過去經驗集的重要值。此外,我們還介紹了計算UET節點的近似和精確影響的方法。由于UET既傳達單一行為又傳達策略級行為,因此這些重要性和影響值根據過去的經驗解釋了這兩個級別的行為。我們的整體解決方案支持識別UET的部分,如果從智能體使用的集合中刪除或添加特定的經驗,則該部分將發生更改。

付費5元查看完整內容

自然智能具有從環境中不斷學習的能力,環境是不斷變化的,因此產生了需要應對的不確定性,以確保生存。相比之下,人工智能(AI)通常只在特定的訓練階段從數據中學習一次,很少明確表示或利用不確定性。在這篇論文中,我們通過設計和理解基于神經網絡的模型,在這些方面為改進人工智能做出貢獻,這些模型可以持續學習,并明確表示幾種不確定性來源,最終目標是獲得有用、可靠和實用的模型。

我們首先將這項研究置于一個更廣泛的背景下,并提供對不確定性估計和持續學習領域的介紹。對于那些有興趣熟悉這些主題的人來說,這個詳細的回顧可以成為一個入門點。在奠定這個基礎之后,我們將深入研究如何持續學習一組任務的具體問題,并提出我們基于神經網絡系統解決這一問題的方法。更具體地說,我們訓練一個元網絡為推理模型生成特定于任務的參數,并表明,在這種設置下,可以在元級別使用簡單的正則化來防止遺忘。由于任務特定解決方案的存在,出現了必須推斷不可見輸入所屬的任務的問題。我們研究了解決這一任務推理問題的兩種主要方法:(i)基于重玩的方法和(ii)基于不確定性的方法。盡管基于重放的任務推理在簡單的基準測試中表現出了顯著的性能,但我們的這種方法的實現依賴于生成建模,隨著任務復雜性的增加,這變得不成比例地困難。另一方面,基于不確定性的任務推理不依賴外部模型,更容易擴展到復雜的場景。因為校準任務推斷所需的不確定性是困難的,在實踐中,人們經常求助于應該知道他們不知道的東西的模型。這在理論上可以通過對模型參數的貝葉斯處理來實現。然而,由于對基于神經網絡的模型的先驗知識的難以解釋,也就很難解釋模型知道什么是不知道的。這種認識的意義超越了持續學習,更普遍地影響了當前機器學習模型如何處理看不見的輸入。我們討論了神經網絡中與選擇先驗知識相關的復雜性,并表明常見的選擇往往導致不確定性,這些不確定性在本質上不能反映特定的需求數據,如檢測模型不應推廣到的看不出的輸入。

總體而言,本文對當前深度學習研究中的兩個重要課題——不確定性估計和持續學習進行了總結和貢獻,同時揭示了現有的挑戰,評估了新的方法,并確定了未來研究的有前途的途徑。


付費5元查看完整內容

在這篇論文中,我們考慮了多模態在機器學習決策和協調問題中的作用。我們提出使用一系列多模態概率方法,使用(有限)混合模型的擴展來解決時間序列預測的挑戰,神經網絡中的高效不確定性量化,對抗模型和多智能體協調。在論文的第一部分中,我們關注多模態不確定性估計在時間序列預測中的應用,表明這種方法提供了易于操作的、有益的替代點估計方法,點估計仍然是預測的普遍選擇方法。我們討論了多模態不確定性的意義,并展示了更熟練的方法估計后驗目標分布的必要性。我們提出了一系列計算高效,但有能力的方法來估計豐富的多模態后驗分布。我們將我們的模型與用點測量或單峰分布估計不確定性的技術進行了比較,并在生成對抗網絡的啟發下,對所開發的方法進行了擴展,以此結束本部分。我們表明,該方法對加性噪聲提供了最先進的魯棒性,使其特別適用于包含大量未知隨機的數據集。

在本工作的第二部分,我們研究了協作多智能體系統(CMASs)的多模態模型的重要性,并將我們的工作擴展到采用概率方法。到目前為止,這一領域的大多數研究都局限于考慮自玩范式,即使這些方法解決了各種具有挑戰性的問題。雖然這些進步是重要的,但在自玩中使用任意約定會導致當智能體在此設置之外玩時的協調問題。我們考慮了特殊的CMAS設置,遠離了自玩框架。這是機器學習中一個特別具有挑戰性的領域,也是近年來備受關注的一個領域,為AI智能體在現實世界中能夠與人類(和其他智能體)有效交互提供了希望。我們通過在其他主體的策略上建立后驗信念來解決特別協調問題。這是通過吉布斯抽樣的擴展來實現的,以獲得接近最優的即席性能。我們在具有挑戰性的游戲Hanabi上測試了我們的算法,Hanabi是合作多智能體強化學習中最著名的測試平臺之一,近年來已成為一個具有發展勢頭的基準。我們表明,我們的方法可以實現強大的交叉游戲,即使與看不到的合作伙伴,實現成功的臨時協調,無需預先了解合作伙伴的戰略。

付費5元查看完整內容
北京阿比特科技有限公司