亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在這篇論文中,我們研究了深度強化學習中的對稱性和結構。我們將論文分為兩部分。在第一部分,我們探討如何在強化學習中利用對稱性的知識。在第二部分,我們提出了一些方法,用于學習智能體的環境和狀態的結構。我們提出了MDP 同態網絡,這是一種在 MDP 的聯合狀態-動作空間下對稱性下是等變的神經網絡。由于等變性,我們發現與非等變的基線相比,數據效率得到了提高。我們提出了多智能體MDP 同態網絡,一類網絡,允許使用僅局部信息的分布式執行,但能夠在合作多智能體系統的聯合狀態-動作空間的全局對稱性之間分享經驗。我們顯示全局等變性比對稱協調問題的非等變分布式網絡的數據效率更高。我們提出了 PRAE。PRAE 利用動作等變性進行強化學習中的表示學習。動作下的等變性表明輸入空間中的轉換被潛在空間中的等效轉換所鏡像,而映射和轉換函數也應該交換。我們證明,在某些假設下,學到的映射是一個 MDP 同態,并且通過實驗證明該方法是數據高效的,易于訓練,能很好地推廣到具有相同環境動力學的新目標狀態和實例。我們提出了 C-SWMs,它使用對比編碼和圖神經網絡轉換函數,從像素中找到狀態的面向對象的表示。我們顯示與使用解碼器、非結構化轉換或非結構化表示相比,在多步預測和泛化到未見環境配置方面有所改善。

對稱性和結構無處不在。當我們行走時,右腿的運動鏡像了左腿的運動。當分子旋轉時,它們的分子性質不變。當我們導航到一個目的地時,我們會考慮不同路段的連通性。當我們交談時,我們可以將單詞串聯起來,形成完全新的句子。在日常生活中,我們使用關于任務的對稱性和結構的信息來指導我們的決策制定。

在人工智能中,對稱性和結構也無處不在。考慮一下在運動過程中鏡像左右腿運動的機器人,自動化芯片設計,追蹤野生動物運動的無人機群,玩 Atari Pong 的機器人,其中屏幕的上下部分是彼此的反射,分子設計,計算機玩家在圍棋游戲中考慮旋轉的棋盤狀態,以及自動駕駛車輛從荷蘭的右側道路切換到英國的左側道路。這些都是 AI 中展示了某種對稱性或結構的任務的例子。利用固有對稱性和結構的知識是構建可擴展系統的重要一步。

強化學習是人工智能的一個基礎研究領域,它鼓勵智能體從正反饋信號中學習,我們稱這為獎勵。通過試錯,智能體可以學會將情境、動作和反饋關聯起來,從而改善其決策。例如,我們可以給一個機器人正向獎勵以鼓勵它快速行走,而給它負向獎勵以防止它跌倒。同樣,我們可以給計算機玩家正向獎勵以鼓勵它贏得比賽,負向獎勵以防止輸掉比賽,或者給一個提出特別高效的芯片設計的智能體正向獎勵。使用強化學習領域的概念,我們可以將上述示例正式化,以提出導致智能體做出良好決策的方法。在深度強化學習中,智能體使用神經網絡來決定采取哪個動作,而神經網絡會根據收到的獎勵信號適應任務。然而,即使是那些遠遠不及人類能力的智能任務,對于人工決策者來說也可能會遇到問題。考慮任何一個在現實世界中運作的基于視覺的控制系統。智能體接收到攝像頭輸入作為觀測,然后必須學習采取最佳動作。可能的觀測數量是極其龐大的,而智能體不太可能遇到兩個完全相同的狀態。因此,我們希望智能體能夠重用先前狀態的經驗,以便在具有相似特征的未見狀態中做出良好的決策。例如,在決定如何移動左腿時,智能體應該模仿它學到的移動右腿的動作。

上述示例只是強化學習問題中對稱性和結構出現的幾個案例。這可以通過考慮在一個狀態中采取一個動作是否等同于在另一個狀態中采取另一個動作來形式化。在這篇論文中,我們將研究當我們知道對稱性和結構時如何在強化學習中使用它,以及如果不知道時如何提取它。智能體不應該學習已知的東西。知識是由系統設計者作為先驗知識提供的,還是通過智能體自身的泛化獲得的,應取決于問題的上下文。通過適當地重復使用知識,我們可以減少智能體需要與世界互動的次數,這是擴展到真實世界設置的重要部分。在這篇論文中,我們將特別關注強化學習中的對稱性和結構。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

在這篇論文中,我們研究了穩定性的兩個不同方面:神經網絡動態模型的穩定性以及強化學習算法的穩定性。在第一章中,我們提出了一種新的方法,用于學習李雅普諾夫穩定的動態模型,這些模型在隨機初始化時甚至也是穩定的。我們在阻尼多鏈接擺上展示了這種方法的有效性,并展示了如何將其用于生成高保真度的視頻紋理。在第二和第三章中,我們關注強化學習的穩定性。在第二章中,我們證明了正則化作為解決不穩定性的常見方法在強化學習環境中的行為是違反直覺的。它不僅有時無效,還可能導致不穩定性。我們在線性和神經網絡環境中展示了這一現象。此外,標準的重要性抽樣方法也容易受到這種影響。在第三章中,我們提出了一種通過重新采樣來穩定離策略強化學習的機制。稱為“投影離策略時序差分(POP-TD)”,它重新采樣TD更新,使其來自“安全”分布的凸子集,而不是(如其他重新采樣方法中的情況)重新采樣到在策略分布上。我們展示了這種方法如何在一個旨在最大化分布偏移的任務中緩解離線強化學習中的分布偏移問題。總體而言,這篇論文在動態模型穩定性和強化學習訓練穩定性方面提出了新穎的方法,對領域內現有的假設提出了質疑,并指出了模型和強化學習穩定性的有希望的發展方向。

在這篇論文中,我們研究了兩種穩定性概念:神經網絡動態模型的穩定性和強化學習算法的訓練穩定性。從第一個穩定性概念自然地過渡到第二個穩定性概念:穩定訓練模型的參數在參數空間中限定了一個穩定軌跡。這種穩定性之間的關系在時序差分(Temporal Difference,TD)學習理論的基礎工作中有重要的先例[54]。

在第一章中,我們提出了一種全新的方法,以完全端到端的方式學習李雅普諾夫穩定的動力學模型和認證的李雅普諾夫函數。與通過某種損失函數強制穩定性不同,我們通過構造確保在任何地方都能保證穩定性。這通過精心構建一個神經網絡作為李雅普諾夫函數,學習一個單獨的、無約束的動力學模型,然后將這兩個模型與一種新穎的重新投影層結合起來實現。這樣可以在狀態空間的任何地方通過構造保證模型穩定,即使沒有任何訓練。我們展示了這種學習系統能夠模擬簡單的動態系統,如擺,還可以與額外的深度生成模型結合,以完全端到端的方式學習復雜的動態,例如視頻紋理。

在現代強化學習中,時序差分(Temporal Difference,TD)與函數逼近(即神經網絡)和離策略學習相結合。然而,這三者被稱為“致命三重奏”[48,第264頁],因為它們可能在學習過程中引發嚴重的不穩定性(Tsitsiklis和Van Roy [54])。盡管許多TD的變體在訓練不穩定性的情況下可以證明收斂,但在收斂時解的質量通常會非常差[24]。在文獻中,人們普遍認為正則化可以緩解這種不穩定性,這在對三個標準示例的基本分析中得到了支持。

然而,這并不正確!在第二章中,我們引入了一系列對正則化不敏感的新的反例。我們展示了存在“虛無”示例,無論正則化的數量如何,這些示例都不會比極限情況表現得更好。這個問題在大多數基于TD的算法中仍然存在,而這涵蓋了廣泛的強化學習文獻;我們通過展示這個例子如何迫使張、姚和Whiteson [63]得出的誤差界在實際中變得極其寬松來使我們的分析更具體。我們進一步證明,在TD環境中,正則化并不是單調的,而且正則化可能會在某些臨界值附近增加錯誤(或導致發散)。我們將這些例子擴展到神經網絡情況,表明這些影響并不局限于線性情況,并為在實際強化學習應用中更加謹慎地進行正則化提出了理由。最后,從Emphatic-TD開始,有一系列旨在通過重新采樣TD更新以使其出現在策略上來穩定離策略訓練的工作。當代的Emphatic算法通常使用反向版本的TD來估計重新采樣函數,這使它們容易受到與原始TD相同來源的不穩定性的影響。我們展示了這些技術同樣容易受到攻擊。我們表明,正則化并不是解決TD學習中穩定性問題的萬應草。

在第三章中,我們探討了對離策略發散有抵抗力的穩定TD學習的新方法。從Kolter [24]提出的一個想法出發,我們推導出了投影離策略時序差分(Projected Off-Policy TD,POP-TD),它將TD更新重新加權為最接近的分布,該分布在其訓練的固定點處是非擴張的。我們在訓練循環中使用隨機梯度下降學習重新加權因子(即時間和空間復雜度與學習值函數相當),然后將這些重新加權因子應用于每個TD更新。關鍵的是,與文獻中的現代工作不同,POP-TD不會重新采樣為在策略分布,而是尋找一個接近數據分布的“安全”分布。將其應用于新穎的離線強化學習示例中,我們可以清楚地演示POP-TD如何在盡量少重新采樣的情況下緩解數據集和學習策略之間的分布偏移問題[30]。

付費5元查看完整內容

在現代的統計和機器學習模型中,通常會施加結構約束以提高模型的可解釋性和降低模型復雜性。在這篇論文中,我們展示了一些可擴展的優化方法,用于處理在結構約束下的大規模機器學習問題,特別關注的是非參數統計的形狀約束和高維統計的稀疏性。在第一章中,我們考慮了梯度正則化的凸回歸問題,該問題的目標是在目標變量和協變量之間擬合一個凸函數。我們提出了新穎的大規模算法,這些算法基于近端梯度下降和活動集方法,并為我們提出的算法推導出了新穎的線性收斂保證。從實證結果來看,我們的框架可以在幾分鐘內大致解決?? = 105 和?? = 10的實例。在第二章中,我們開發了一個新的計算框架,用于計算對數凹密度的最大似然估計,這個框架基于平滑技術和逐漸提高精度的適當積分離散化。我們證明了我們的方法的收斂性,并顯示出比早期的凸方法明顯的運行時間改善。在第三章中,我們關注的是高斯圖形模型,該模型旨在從獨立同分布的多元高斯樣本中估計稀疏的精確矩陣。我們通過?0?2-penalized偽似然提出了一種新的估計器。然后,我們設計了一種專門的非線性Branch-and-Bound(BnB)框架,該框架解決了提出的估計器的混合整數編程(MIP)公式。我們的估計器在計算上可以擴展到?? ~ 10,000,并且相比于競爭的?1方法提供了更快的運行時間,同時帶來了優越的統計性能。

在第四章中,我們進一步研究如何改進用于具有?0?2懲罰和一般凸平滑損失的稀疏學習問題的BnB框架。我們在BnB框架內提出了一種新穎的篩選程序,以保證將松弛變量固定為0或1。我們的實驗表明,這種篩選程序可以顯著減少BnB求解器的運行時間。

付費5元查看完整內容

強化學習和最優控制是解決動態系統決策問題的兩種方法,分別從數據驅動和模型驅動的角度出發。現代應用這些方法的場景往往涉及高維狀態和動作空間,因此開發高效的高維算法至關重要。本篇論文旨在從兩個角度來應對這一挑戰。在第一部分中,我們分析了強化學習在一般再生核希爾伯特空間(RKHS)中的樣本復雜性。我們關注一類馬爾可夫決策過程,其中獎勵函數位于RKHS的單位球內,而轉移概率位于任意集合中。我們引入了一個稱為分布不匹配下的擾動復雜性的量,用于描述在給定尺度下RKHS中的擾動所導致的可接受狀態-動作分布空間的復雜性。我們證明了這個量不僅為所有可能算法的誤差提供了下界,還為解決強化學習問題的兩種特定算法提供了上界。因此,擾動復雜性隨著給定尺度的衰減,衡量了強化學習問題的難度。我們進一步提供了一些具體例子,并討論了這些例子中擾動復雜性是否迅速衰減。在第二部分中,我們介紹了一種高效學習高維閉環最優控制的算法。該方法是從最近提出的基于監督學習的方法進行改進的,該方法利用強大的開環最優控制求解器生成訓練數據,并使用神經網絡作為高效的高維函數逼近器來擬合閉環最優控制。這種方法成功地處理了某些高維最優控制問題,但在更具挑戰性的問題上表現仍然不佳。其中一個關鍵原因是由受控動力學引起的所謂分布不匹配現象。在本篇論文中,我們對這一現象進行了研究,并提出了初始值問題增強采樣方法來緩解這個問題。我們進一步證明了所提出的采樣策略在經過測試的控制問題上顯著提高了性能,包括經典的線性二次調節器、四旋翼飛行器的最優著陸問題以及7自由度機械臂的最優達到問題。強化學習和最優控制是兩個不同的領域,它們都專注于動態系統的最優決策。強化學習是數據驅動的,旨在在未知環境中學習最優策略,以最大化累積獎勵。最優控制是模型驅動的,旨在基于動態系統的數學模型找到給定系統的最優控制策略。在強化學習中,智能體與環境進行交互,通過獎勵形式的反饋來改進策略。它不需要對系統進行顯式建模,直接從數據中進行學習。強化學習算法已成功應用于各種領域,如視頻游戲[60]、圍棋[80]、機器人技術[45]等。另一方面,最優控制使用模型來預測動態系統在不同控制策略下的行為,并通過優化預定義的成本函數來找到最優策略。這種方法可以對系統進行精確控制,并考慮系統的約束條件。它在機器人技術[52]、航空航天[55]等領域有廣泛的應用。現代強化學習和最優控制的應用往往涉及高維狀態空間和動作空間,這使得問題的解決變得非常困難。自從Bellman以來,人們就意識到解決高維閉環最優控制問題是一項艱巨的任務[7]。廣泛使用的術語“維度詛咒”最初是為了強調這些困難[7]。因此,從業者通常不得不采用不受控制的近似方法,比如假設值函數或策略函數具有特定的低維結構,以滿足實際需求[72]。然而,機器學習的出現帶來了新的希望,因為深度神經網絡能夠高效地逼近高維函數。這使得結合深度神經網絡的強化學習和最優控制算法能夠解決許多高維問題,包括圍棋[80]和50維隨機控制問題[35]。在這篇論文中,我們將討論高維強化學習和最優控制的兩個重要主題。在第一部分中,我們將分析在一般再生核希爾伯特空間(RKHS)中強化學習的樣本復雜性。RKHS是在核方法研究中引入的數學概念,與神經網絡密切相關,這在之前的神經切線核和Barron空間的研究中得到了證實。因此,理解在RKHS中強化學習的樣本復雜性是理解高維強化學習問題的關鍵一步。我們考慮一類馬爾可夫決策過程M,其中獎勵函數位于RKHS的單位球內,轉移概率位于給定的任意集合中。為了描述對RKHS中尺度為?的擾動所產生的可接受狀態-動作分布空間的復雜性,我們定義了一個稱為分布不匹配下的擾動復雜性?M(?)的量。我們展示了?M(?)既給出了所有可能算法的誤差下界,也給出了兩種具體算法——擬合獎勵算法和擬合Q迭代算法——對于強化學習問題的上界。因此,?M(?)隨著?的衰減衡量了在M上強化學習問題的難度。我們進一步證明了擾動復雜性與常用于研究RKHS中強化學習樣本復雜性的集中系數和特征值衰減有關。作為副產品,我們還表明當獎勵函數位于高維RKHS中時,即使轉移概率是已知的且動作空間是有限的,強化學習問題仍然可能受到維度詛咒的影響。這一部分主要基于我的先前工作[53]。

在第二部分中,我們提出了一種用于高維系統閉環最優控制學習的高效算法。該方法基于一種監督學習方法,利用開環最優控制求解器生成訓練數據,并使用神經網絡作為高維函數逼近器來擬合閉環最優控制。雖然這種方法成功地處理了某些高維最優控制問題,但在更具挑戰性的問題上表現較差,主要是由于受控動態引起的分布不匹配現象。該現象指的是訓練數據的狀態分布與由神經網絡控制器生成的狀態分布之間的差異通常會隨著時間的推移而增加,導致訓練數據不能很好地代表使用訓練后的神經網絡控制器時遇到的狀態。 為了解決這個問題,我們提出了初始值問題增強采樣方法。在這種方法中,我們通過解初始值問題迭代地重新評估神經網絡控制器到達的狀態,并通過解以這些狀態為起點的開環控制問題來重新計算新的訓練數據。我們從理論上證明了這種采樣策略在經典的線性二次調節器上的改進效果與總時間持續時間成比例。我們進一步通過數值實驗證明了所提出的采樣策略在經過測試的控制問題上顯著提高了性能,包括四旋翼飛行器的最優著陸問題和7自由度機械臂的最優達到問題。這一部分主要基于我的先前工作[92]。

付費5元查看完整內容

最近在無監督表示學習方面的進展導致了許多廣泛使用的人工智能工具,如ChatGPT和穩定擴散。這些工具是將相對簡單的訓練算法應用于大規模GPU集群上的大規模模型,甚至是大量未標記的訓練數據,以及在大量標記的評估任務上調整算法的結果。在這篇論文中,我們提出了一些方法來解決在訓練模型進行表示學習時去除這些組件的問題,即有限的計算量、有限的訓練數據和有限的評估數據。本文主要分為四章,重點研究數據和標簽高效的表示學習。

數據高效表示學習的重點是用較少的數據(有標記或無標記)學習有用的表示,這在本文中討論過,對于數據可用性有限的應用特別重要。標記高效表示學習專注于在訓練數據很少或沒有人工標注的情況下學習有用的表示。正如將要討論的,這對于通常很難或不可能獲得準確標記數據的應用程序很重要,例如在隱私敏感領域或具有高度模糊的標簽定義的應用程序。

(1)自增強:用于自監督學習的自動增強策略,探索了如何在很少/沒有標記訓練數據和少量無標記數據的情況下為無監督學習管道開發增強策略。(2)數據高效的自監督表示學習,探索了如何利用一種形式的分層預訓練進行數據高效80倍的預訓練。(3)區域相似性表示學習,通過在區域(基于塊的)水平上進行對比學習,探索了學習區域級表示的首批方法之一,并在標記數據很少的情況下,對目標檢測/分割等下游任務進行了實質性的改進。(4) scale - mae:一種面向多尺度地理空間表示學習的尺度感知掩碼自編碼器,探索了利用已知尺度信息進行地理空間表示學習的方法。

付費5元查看完整內容

自然智能具有從環境中不斷學習的能力,環境是不斷變化的,因此產生了需要應對的不確定性,以確保生存。相比之下,人工智能(AI)通常只在特定的訓練階段從數據中學習一次,很少明確表示或利用不確定性。在這篇論文中,我們通過設計和理解基于神經網絡的模型,在這些方面為改進人工智能做出貢獻,這些模型可以持續學習,并明確表示幾種不確定性來源,最終目標是獲得有用、可靠和實用的模型。

我們首先將這項研究置于一個更廣泛的背景下,并提供對不確定性估計和持續學習領域的介紹。對于那些有興趣熟悉這些主題的人來說,這個詳細的回顧可以成為一個入門點。在奠定這個基礎之后,我們將深入研究如何持續學習一組任務的具體問題,并提出我們基于神經網絡系統解決這一問題的方法。更具體地說,我們訓練一個元網絡為推理模型生成特定于任務的參數,并表明,在這種設置下,可以在元級別使用簡單的正則化來防止遺忘。由于任務特定解決方案的存在,出現了必須推斷不可見輸入所屬的任務的問題。我們研究了解決這一任務推理問題的兩種主要方法:(i)基于重玩的方法和(ii)基于不確定性的方法。盡管基于重放的任務推理在簡單的基準測試中表現出了顯著的性能,但我們的這種方法的實現依賴于生成建模,隨著任務復雜性的增加,這變得不成比例地困難。另一方面,基于不確定性的任務推理不依賴外部模型,更容易擴展到復雜的場景。因為校準任務推斷所需的不確定性是困難的,在實踐中,人們經常求助于應該知道他們不知道的東西的模型。這在理論上可以通過對模型參數的貝葉斯處理來實現。然而,由于對基于神經網絡的模型的先驗知識的難以解釋,也就很難解釋模型知道什么是不知道的。這種認識的意義超越了持續學習,更普遍地影響了當前機器學習模型如何處理看不見的輸入。我們討論了神經網絡中與選擇先驗知識相關的復雜性,并表明常見的選擇往往導致不確定性,這些不確定性在本質上不能反映特定的需求數據,如檢測模型不應推廣到的看不出的輸入。

總體而言,本文對當前深度學習研究中的兩個重要課題——不確定性估計和持續學習進行了總結和貢獻,同時揭示了現有的挑戰,評估了新的方法,并確定了未來研究的有前途的途徑。


付費5元查看完整內容

在這篇論文中,我們考慮了多模態在機器學習決策和協調問題中的作用。我們提出使用一系列多模態概率方法,使用(有限)混合模型的擴展來解決時間序列預測的挑戰,神經網絡中的高效不確定性量化,對抗模型和多智能體協調。在論文的第一部分中,我們關注多模態不確定性估計在時間序列預測中的應用,表明這種方法提供了易于操作的、有益的替代點估計方法,點估計仍然是預測的普遍選擇方法。我們討論了多模態不確定性的意義,并展示了更熟練的方法估計后驗目標分布的必要性。我們提出了一系列計算高效,但有能力的方法來估計豐富的多模態后驗分布。我們將我們的模型與用點測量或單峰分布估計不確定性的技術進行了比較,并在生成對抗網絡的啟發下,對所開發的方法進行了擴展,以此結束本部分。我們表明,該方法對加性噪聲提供了最先進的魯棒性,使其特別適用于包含大量未知隨機的數據集。

在本工作的第二部分,我們研究了協作多智能體系統(CMASs)的多模態模型的重要性,并將我們的工作擴展到采用概率方法。到目前為止,這一領域的大多數研究都局限于考慮自玩范式,即使這些方法解決了各種具有挑戰性的問題。雖然這些進步是重要的,但在自玩中使用任意約定會導致當智能體在此設置之外玩時的協調問題。我們考慮了特殊的CMAS設置,遠離了自玩框架。這是機器學習中一個特別具有挑戰性的領域,也是近年來備受關注的一個領域,為AI智能體在現實世界中能夠與人類(和其他智能體)有效交互提供了希望。我們通過在其他主體的策略上建立后驗信念來解決特別協調問題。這是通過吉布斯抽樣的擴展來實現的,以獲得接近最優的即席性能。我們在具有挑戰性的游戲Hanabi上測試了我們的算法,Hanabi是合作多智能體強化學習中最著名的測試平臺之一,近年來已成為一個具有發展勢頭的基準。我們表明,我們的方法可以實現強大的交叉游戲,即使與看不到的合作伙伴,實現成功的臨時協調,無需預先了解合作伙伴的戰略。

付費5元查看完整內容

在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。

//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。

付費5元查看完整內容

在本論文中,我們研究了兩類涉及大規模稀疏圖的問題,即圖數據的壓縮問題和網絡中的負載均衡問題。我們利用局部弱收斂的框架,或所謂的目標方法來實現這一點。這個框架提供了一個觀點,使人們能夠理解稀疏圖的平穩隨機過程的概念。

利用局部弱收斂框架,我們引入了有根圖上概率分布的熵概念。這是Bordenave和Caputo將熵概念推廣到頂點和邊帶有標記的圖上。這樣的標記可以表示關于真實數據的信息。這種熵的概念可以看作是稀疏圖數據世界中香農熵率的自然對應。我們通過介紹一種用于稀疏標記圖的通用壓縮方案來說明這一點。此外,我們研究了圖數據的分布式壓縮。特別地,我們介紹了一個關于稀疏標記圖的Slepian-Wolf定理的版本。

除了研究壓縮問題外,我們還研究了網絡中的負載均衡問題。我們通過將問題建模為超圖來實現這一點,其中每個超邊表示承載一個單元負載的任務,而每個頂點表示一個服務器。配置是分配此負載的一種方式。我們研究平衡分配,粗略地說,就是沒有需求希望改變其分配的分配。將局部弱收斂理論推廣到超圖,研究了均衡分配的某些漸近行為,如典型服務器上的漸近經驗負荷分布,以及最大負荷的漸近性。

本文所研究的問題可以作為實例來說明局部弱收斂理論和上述熵概念的廣泛適用性。事實上,這個框架為稀疏標記圖提供了平穩隨機過程的觀點。時間序列理論在控制理論、通信、信息論和信號處理等領域有著廣泛的應用。可以預料,平穩隨機過程的組合結構理論,特別是圖形,將最終有類似廣泛的影響。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-166.html

付費5元查看完整內容
北京阿比特科技有限公司