亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在過去的幾十年里,強化學習(RL)已經成為解決復雜控制任務的有效方法。馬爾可夫決策過程(MDP)是描述人工智能與環境之間順序交互的典型模型。在MDP中,智能體感知環境的狀態并執行操作。因此,環境轉換到一個新的狀態,并產生一個獎勵信號。智能體的目標包括學習一個策略,即最大化長期獎勵的動作配方。在傳統的環境設置中,環境被假定為一個固定的實體,不能從外部改變。然而,現實世界中存在一些場景,在這些場景中,環境可以在有限的程度上進行修改,因此,對其某些特性采取行動可能是有益的。我們將此活動稱為環境配置,它可以由智能體本身或外部實體(如配置器)執行。盡管環境配置在實際應用中經常出現,但文獻中很少探討這個主題。在本論文中,我們旨在形式化和研究環境配置的各個方面。其貢獻包括理論、算法和實驗,可以大致細分為三個部分。論文的第一部分介紹了一種新的可配置馬爾可夫決策過程(Configurable Markov Decision Processes, Conf-MDPs)的形式化描述方法,用于描述環境提供的配置機會。在直覺層面上,環境、策略和學習過程之間存在著緊密的聯系。本文探討了環境配置的不同細微差別,根據配置是完全輔助智能體的學習過程(合作設置),還是由具有可能與智能體的目標沖突的配置器(非合作設置)指導。在第二部分中,我們專注于協作的Conf-MDP設置,并研究了由尋找一個agent策略和一個環境配置組成的學習問題,該策略和環境配置共同優化長期回報。本文提供了有限和連續Conf-MDPs的求解算法,并在合成域和真實域上進行了實驗評估。第三部分介紹了Conf-MDP框架的兩個具體應用:策略空間識別和控制頻率自適應。在前者中,我們利用環境可配置性來提高智能體的感知和驅動能力。在后者中,分析了特定的可配置環境參數,即控制頻率,如何影響批量強化學習算法的性能。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

近年來,機器人領域發展迅速,機器人被用于越來越多的應用中,從制造業到醫療健康再到家務勞動。機器人技術的關鍵挑戰之一是使機器人能夠在非結構化和動態環境中執行復雜的操作任務。雖然機器人學習和控制已經取得了重大進展,但許多現有方法受到限制,因為它們依賴于預定義的運動基元或通用模型,而這些模型沒有考慮到個人用戶、其他合作智能體或交互對象的特定特征。為了在這些不同的環境中有效地工作,機器人需要能夠適應不同的任務和環境,并與不同類型的智能體進行交互,如人類和其他機器人。本論文研究學習方法,使機器人能夠適應他們的行為,以實現智能機器人行為。

在本文的第一部分中,我們專注于使機器人更好地適應人類。我們首先探索如何利用不同的數據源為人類用戶實現個性化。研究了人類如何喜歡用低維控制器(如操縱桿)遙控輔助機器人手臂。本文提出一種算法,可以有效地開發輔助機器人的個性化控制。這里的數據是通過最初演示機器人的行為,然后詢問用戶以從操縱桿收集他們相應的首選遙操作控制輸入來獲得的。探索了利用較弱的信號來推斷智能體的信息,如物理修正。實驗結果表明,人工修正是相互關聯的,共同推理這些修正可以提高精度。最后,研究了機器人如何通過推理和利用團隊結構更有效地與人類團隊合作和影響人類團隊,而不是只適應單個人類用戶。將該框架應用于兩種類型的群體動力學,即領導-跟隨和捕食者-被捕食者,并證明機器人可以首先開發一種群體表示,并利用這種表示成功地影響一個群體以實現各種目標。

在本文的第二部分,我們將研究范圍從人類用戶擴展到機器人智能體。本文解決了分散的機器人團隊如何通過只觀察其他智能體的行動來相互適應的問題。本文發現了團隊中存在無限推理循環的問題,并通過為機器人智能體分配不同的角色,如"發言人"和"聽眾",提出了解決方案。這種方法使我們能夠將觀察到的行動視為一個溝通渠道,從而實現分散團隊內的有效協作。在本文的第三部分,我們探討了如何通過開發定制的工具來適應不同的任務。強調了工具在確定機器人如何與物體交互方面的關鍵作用,使它們在為特定任務定制機器人方面變得重要。為解決這個問題,本文提出一個端到端的框架,通過利用可微物理模擬器來自動學習富接觸操作任務的工具形態學。最后,對全文進行了總結,并對未來的研究方向進行了展望。

付費5元查看完整內容

本文為強化學習和計算機視覺應用構建深度學習模型,重點是設計新穎有效的表示學習框架。所提出的方法有兩個主要方面:神經網絡模型架構設計和目標工程。為演示如何操縱每個方面,深入研究了人工智能中兩個重要研究領域的代表性應用,即強化和計算機視覺。在這兩個領域,都強調了如何操縱抽象表示,以從目標任務和可用數據類型中建立強大的歸納偏差。我們希望我們的例子可以為今后處理相關領域和其他領域的問題提供啟發。 論文的第一部分研究了強化學習中的代表性任務。我們的貢獻如下:

作為起點,旨在改善通用和探索性行為,并反映一類流行的無模型、基于策略的強化學習算法、actor - critic方法的環境不確定性。本文提出隨機actor-critic方法(Shang et al., 2019b; Chapter 2;第2章)它采用了一種有效而靈活的方式將隨機性注入到actor-critic模型中。隨機性被注入到高級抽象表示中。測試了幾個用隨機激活增強的actor-critic模型,并在廣泛的Atari 2600游戲、連續控制問題和賽車任務中證明了它們的有效性。

接下來,我們將注意力轉向如何在一個更具體但更常見的RL問題設置中進行結構化探索:一個承載著不同任務套件的持久環境或世界。本文提出對環境進行世界圖分解,以加速強化學習(Shang et al., 2019a; Chapter 3;第3章)世界圖的節點是重要的航路點狀態,邊表示它們之間的可行遍歷。在識別世界圖之后,該框架將其應用于分層強化學習算法,以將探索偏向于與任務相關的航路點和區域。在一套具有挑戰性的迷宮任務上徹底評估了所提出方法,并表明使用環境的世界圖抽象可以顯著加速強化學習,實現更高的回報和更快的學習。

最后,考慮多智能體必須合作以實現共同目標的場景,這是多智能體強化學習的一個子集。建議將以智能體為中心的表示納入多智能體強化學習(Shang等人,2020a;第四章)以兩種方式。引入了一個以智能體為中心的注意力模塊,具有跨智能體的顯式連接。注意力模塊建立在智能體的抽象表示之上。利用了一個以智能體為中心的無監督預測目標,作為輔助損失或預訓練步驟的基礎。在谷歌Research Football環境和DeepMind Lab 2D上評估了這些方法,表明它們導致了智能體之間更復雜的合作策略的出現,并提高了樣本效率和泛化能力。

論文的第二部分將重點轉移到各種計算機視覺任務和領域的無監督學習。我們的貢獻如下:

為了更好地利用無標簽數據并增強無監督圖像建模,本文提出通道遞歸變分自編碼器(crVAE) (Shang等人,2018;第5章)。它將抽象卷積特征的跨通道循環連接集成到推理和生成步驟,允許以全局到局部、粗到細的方式捕獲由此產生的高級特征。結合對抗性損失,產生的通道循環VAE-GAN (crVAE-GAN)在生成不同光譜的高分辨率圖像方面優于基線VAE-GAN,同時保持相同的計算效率水平。

下一步,進一步擴展通道循環框架,并提出了注意力的條件通道循環自編碼;)屬性條件人臉合成。評估通過定性的視覺檢查和定量的指標進行,即inception分數、人類偏好和屬性分類精度。

考慮對無標記視頻序列進行無監督學習,并建議學習視頻級靜態和動態表示(Shang等人,2020b;第7章從時間一致性和動力學角度對視頻進行分解。本文展示了在幾個應用中學習到的表示的重要性,包括一個新的動力學檢索任務,在人臉、人類活動和機器人抓取數據集上。

付費5元查看完整內容

//dataspace.princeton.edu/handle/88435/dsp01v979v6238 強化學習在過去幾年里獲得了極大的興趣,主要是由于實際成功和在各個領域的新應用。然而,我們對這些強化學習技術的理論理解與其經驗上的成功之間仍然存在差距。本文從主要的理論角度研究強化學習,并為1)帶約束的強化學習和2)帶函數逼近的強化學習這兩個具有挑戰性的情況設計了可證明有效的算法,從而加深了我們的理解。 1)在標準強化學習中,學習智能體尋求優化整體獎勵。然而,期望行為的許多關鍵方面更自然地表示為約束。提出了一種算法方案,可以處理具有一般凸約束的強化學習任務,改進了之前局限于線性約束或缺乏理論保證的工作。其次,專注于樣本高效的探索,開發了第一個可證明有效的表格式偶發約束強化學習算法,具有處理凸約束和背包設置的能力。最后,在無獎勵強化學習最新進展的激勵下,本文提出了一種簡單的元算法,在給定任何無獎勵強化學習oracle的情況下,約束強化學習問題可以直接解決,而樣本復雜度的開銷可以忽略不計。 2)尋找能夠支持樣本高效學習的最小結構假設是強化學習最重要的研究方向之一。本文通過引入一種新的復雜性度量——bellman Eluder (BE)維度,推進了對這一基本問題的理解。低BE維的強化學習問題家族非常豐富,包含了絕大多數現有的可處理的強化學習問題。本文進一步設計了一個新的基于優化的算法——GOLF,并針對幾個著名的低BE維問題子類提供了匹配或改進現有最佳結果的遺憾和樣本復雜度結果。為了實現更具挑戰性的部分可觀察強化學習,研究了部分可觀察馬爾可夫決策過程(POMDPs)的一個新的子類,其潛狀態可以用短長度m的最近歷史來解碼。結果表明,短期記憶對這些環境中的強化學習足夠了。

付費5元查看完整內容

做出決定是很難的! 值得慶幸的是,人類已經開發了許多概念框架,如決策理論、運籌學、倫理理論、統計學、博弈論和強化學習,以幫助解決這個過程。這些框架中的每一個都可以通過它們將決策的哪些方面放在前面和中心,哪些方面被忽略來描述。

本論文涉及統計學、博弈論和強化學習的交叉領域的課題。廣義上講,這些領域可以有以下特點。

  • 統計學是關于不確定性的量化:給定一些產生數據的過程,統計學提供了正式的工具,將數據轉換為關于該過程的陳述,這些陳述是根據數據所傳達的證據量來校準的。在一個典型的統計問題中,科學家對一個系統進行干預,并在每次干預后收集系統的數字測量。統計學家的任務是利用這些數據來提供(i)干預措施效果的估計值,以及(ii)這些估計值中不確定性的一些原則性量化。如何處理這些估計值的問題完全由科學家(或其他領域的專家)來決定。

  • 博弈論是關于戰略的,即在有其他決策者存在的情況下的決策考慮。它把有關相互作用的決策者或智能體之間的沖突、合作和激勵的問題放在最前面和中心。一個典型的博弈論問題是:給定一組智能體可用的選項和智能體對結果的偏好,什么樣的智能體行為分配是穩定的,以至于沒有智能體會有動力改變他們的行為?博弈論想當然地認為,智能體確切地知道他們的偏好(用數字表示),并且通常假設,一旦考慮到其他智能體行動的不確定性,就可以確定地知道行動的后果。

  • 強化學習是關于從經驗中學習。在強化學習中,決策者通過采取行動和觀察與所采取行動的質量相關的數字 "獎勵 "信號來與系統互動。學習問題是更新決策規則以獲得更大的獎勵。這些更新可能會影響到收集到的數據的分布,從而引入統計方面的挑戰。在這種情況下,決策者面臨著基本的權衡,如是否采取行動以收集更多的信息,或是否采取行動以獲得更大的獎勵(所謂的探索-利用權衡)。強化學習的一個典型問題是反復玩有限數量的老虎機,保持對其報酬分布的估計,目的是獲得最大的累積報酬。鑒于其對行為和行為引起的獎勵的強調,強化學習(狹義上的解釋)不關注不確定性的量化,也不關注其他決策者的存在。

上述每個框架都提供了一個獨特的視角來分析決策問題,并提供了強大的工具來進行分析。每個框架也都有其局限性。例如,傳統的統計學可以被認為是一種完全的描述性工作,適用于分析者不與之互動的系統:它沒有明確地納入決策,并經常假設數據是以一種方便的方式取樣的,例如,作為獨立和相同的人口抽樣。這就排除了分析本身可能會改變產生的數據。在光譜的另一端,經典博弈論幾乎沒有試圖進行描述,而是相當規范,詳細說明了 "理性 "智能體必須采取行動的方式,并規定了這些智能體的理論上穩定的配置。博弈論是抽象的,它假設了許多不確定性的來源,如環境中的不確定性或自己對結果的偏好。

寬泛地說,強化學習在純粹的描述性或規范性之間做出了妥協:它的工具可以用來分析現實世界的智能體所產生的數據,或者為智能體推薦或規定行動。它的研究重點通常是制造理想的行為,這使得它更適合作為一門工程學科(如控制理論),而不是用于對不確定性進行仔細量化的數據稀缺環境,或對其他智能體的考慮至關重要的現實世界環境。

鑒于它們的優點和缺點,這些框架中的每一個都有一些強大的東西可以提供給其他的框架。正是這種觀察激勵了本論文的工作,它試圖以各種方式將這些框架融合在一起,以提供更好的工具,在復雜的世界中做出決策。下面,我們概述了三種不同的框架融合方式的動機和結果,每一種都構成了本論文的一個章節。

統計學與博弈論的結合

鑒于其規范性方向,博弈論并沒有提供數據驅動的分析工具,因為它們是由人或算法進行的游戲。這種類型的分析是很重要的。視頻游戲是全世界范圍內大規模流行的娛樂形式,為了創造或平衡它們,游戲設計師必須了解它們是如何被玩的。例如:某些策略是否對游戲的結果產生了不良影響?隨機性是否發揮了過大的作用?除了游戲設計之外,在美國和全世界的許多司法管轄區,在游戲上賭博的合法性取決于在決定該游戲的結果時是技巧還是機會 "占優勢"。這個概念并沒有一個既定的正式說法。因此,在游戲設計和賭博法中,都需要有統計工具來描述各方面對游戲結果的影響。

在第二章(廣義形式游戲的方差分解)中,我們采用了一種常見的統計工具,并為廣義形式游戲開發了一個版本,廣義形式游戲是一種具有離散步驟和部分可觀察性的游戲的一般模型,包括國際象棋和撲克這些特殊情況。這個工具就是方差分解,它在統計學中被用來量化感興趣的結果中的變化來源。游戲的方差分解允許用戶將游戲結果的變化歸因于不同的玩家和機會,使分析游戲的新方法可能對賭博法或游戲設計產生影響。具體來說,我們推導出一個封閉式表達式,并估算出可歸因于單一玩家或機會的廣義游戲結果的方差。我們分析了撲克牌,發現發牌的隨機性對每一手牌的結果的影響小得令人吃驚。我們簡要地評論了這一想法的延伸,它可以用來測量游戲的其他有趣的屬性。本章是Cloud和Laber(2021)的翻版,稍作修改。

結合博弈論和強化學習

在過去的五年里,機器學習方法在決策方面有了快速的發展,特別是在復雜的、大規模的、多人游戲中,如國際象棋、圍棋、Dota II、星際爭霸和戰略游戲。學習玩這些游戲的一個明顯的困難是弄清楚如何采取行動,以便在復雜的環境中實現某些變化。這正是強化學習所要解決的問題。然而,還有一個重要的困難,在文獻中得到了很好的理解,但也許并不普遍:在有多個智能體的情況下學習。在上述所有的游戲中,機器學習算法必須學會以尊重游戲的隱含動態性的方式行事:通過游戲環境,智能體可能面臨許多不同種類的對手。這些對手可能會利用曾對其他智能體產生有利結果的行為。例如,應用于 "剪刀石頭布 "游戲的天真強化學習算法,在對 "布"的對手進行訓練后,將產生一個 "剪刀 "智能體,在對其訓練對手時獲得高額獎勵,但被 "石頭 "智能體嚴重懲罰。對這些多智能體動態的考慮存在于博弈論的領域。因此,為了定義合適的收斂概念和設計達到收斂的算法,多智能體強化學習問題必須將博弈論引入其中。

在第三章(預期的虛構游戲)中,我們研究了一種經典的博弈論算法,這種算法之前已經被成功地擴展到多智能體強化學習中。該算法被稱為 "虛構游戲",用于在雙人競爭游戲中尋找平衡點。然而,正如我們在理論上和經驗上所顯示的,它在一些感興趣的游戲中收斂得很慢。為了解決這一缺陷,我們提出了一種新的虛構游戲的變體,稱為預期性虛構游戲。預測性虛構游戲被證明是收斂的,被證明具有優越的經驗性能,并被擴展到多智能體強化學習的環境中。在此過程中,我們提供了一種易于實現的多智能體強化學習算法,其性能優于由虛構游戲驅動的算法。本章是Cloud等人(2022)的復制品,做了些許修改,仿真結果也不那么廣泛。

結合統計學和強化學習

在許多數據驅動的決策問題中,對其他智能體的考慮并不重要,因此,不需要博弈論。例如,在臨床試驗、推薦系統或其他許多獨立個體與系統互動的環境中,通常把問題當作病人或網站用戶是可以互換的、獨立的和固定的。這是合理的,因為,例如,給一個病人提供治療,不太可能導致另一個病人后來對同一治療有不同的反應。使用數據為臨床試驗中的個人定制治療方法,或向網絡用戶推薦媒體,是一個強化學習問題。然而,在需要 "安全 "概念的環境中,強化學習的天真應用不可能是合適的。如果一個決策系統要可靠地遵守對其行動效果的約束,就必須能夠量化其行動效果的不確定性。進行這種不確定性的量化是統計推理的一個問題。

在第四章(上下文強盜中的安全約束在線學習)中,我們提出并研究了一個受約束的強化學習問題,除了獎勵最大化之外,決策者還必須根據對其 "安全性 "的約束來選擇行動。約束滿足,就像潛在的獎勵信號一樣,是由噪聲數據估計的,因此需要仔細處理不確定性。我們提出了一個新的算法框架,它采用了樣本分割,以便比現有的安全算法更有效地利用數據。我們框架的通用性意味著它有可能被應用于各種現實世界中的安全關鍵決策問題,包括那些使用人工神經網絡等難以分析的函數近似器的問題。然而,我們在更有限的線性背景下研究了我們的框架,以便得出理論結果,暗示該方法的實際安全性和實用性。我們證明,在適當的條件下,我們的算法保證在極限情況下產生最佳的安全行為,甚至在小樣本環境下也是近似安全的。在各種模擬中,我們驗證了該理論,并證明了卓越的經驗性能。通過這種方式,我們提供了一種可靠的算法,可用于現實世界的安全關鍵數據驅動的決策問題。本章是Cloud, Laber和Kosorok(即將出版)的論文的預印本。

付費5元查看完整內容

自從深度學習和深度強化學習出現以來,已經有大量的經驗成功地利用某種人工神經網絡來解決給定的優化問題。然而,許多公司的內部運作方式只被人們模糊地了解,并隱藏在成功的故事中。通過揭示各種含義,這篇論文試圖建立一個理解為什么某些神經網絡架構設計工作,以及關鍵的是為什么其他的不能工作。本文不關注實證結果,而是從研究反向傳播在架構設計和訓練中的簡單數學含義開始。然后,提出一種稀疏的全連接層替代方案,以避免信號傳播中的瓶頸。它進一步展示了如何設計單調神經網絡,以及如何使用這些網絡在連續動作空間控制設置中為智能體提供更靈活的策略表示。這本書進一步討論了將神經網絡分成多個模塊的權衡和設計。特別是,模塊化的需求在目標相互沖突的多任務設置中得到了體現。最后,討論了最近提出的注意力架構及其隱含含義。貫穿整篇論文的結果強調了超參數之間的關聯效應和定制架構設計的必要性。本文適合有技術背景的讀者。它被寫得讓剛開始接觸神經網絡的人也能理解。然而,即使是該領域的資深研究人員也可能對所呈現的獨特觀點感興趣。

//www.research-collection.ethz.ch/handle/20.500.11850/541752

作為一個由經驗結果驅動的領域,深度學習是眾多神經結構設計方案的發源地。幾乎每天都有新的論文發表,建議對某些架構組件進行輕微修改,以提高性能。然而,由于大量的混雜因素,通常不清楚性能的提高實際上是由于架構的變化,還是由于超參數的差異,數據預處理的變化,表示能力的增加,或者只是初始化參數的幸運抽獎。本文著眼于深度強化學習的應用前景,旨在更好地理解神經網絡的基本內部工作原理及其設計。

特別地,本文首先強調了反向傳播的隱式內存需求、常用激活函數的工作范圍以及體系結構組件對梯度傳播的影響。展示了架構瓶頸和門控機制如何導致梯度消失,并討論了殘差連接對梯度動態的影響。它還強調了通過體系結構提供算法結構的必要性,以及結構和有利的訓練動態之間的內在權衡。在第一個實際示例中,本文提出了一種全連接層的稀疏替代方案,可以減少參數計數,而不會引入不必要的瓶頸。在強化學習方面,本文提出了一種在連續動作空間環境中控制的新方法。該方法基于分位數回歸和神經網絡的單調性約束。這種組合允許在網絡參數中隱式地表示策略,從而提供了表示復雜動作分布的靈活性。這種策略的必要性在競爭游戲和約束內存設置中得到了證明。此外,該方法還提高了經典控制問題的學習性能。本文進一步探討了多任務學習的局限性,并針對干擾任務目標的問題提出了兩種解決方案——一種是基于注意力架構先驗的解決方案,另一種是基于與無監督任務聚類配對的神經網絡解決方案。這兩種方法都有效地緩解了這個問題,從而提高了性能,并在不同的環境中具有更廣泛的適用性。 本文最后深入研究了注意力架構和transformer對超參數的敏感性。它強調了將注意力權重約束到概率單形的含義,以及這些如何反映訓練表現。它進一步展示了內部softmax激活如何像sigmoid一樣容易飽和,以及transformer在初始化時如何不是序列長度獨立的。在對抽象任務的大規模實證研究中,將Transformer與可選架構設計進行比較。結果突出了超參數選擇的相關效應,不同架構對數據偏差的魯棒性,以及算法對齊對底層任務的重要性。

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容

強化學習定義了僅通過行動和觀察來學習做出好的決策的代理所面臨的問題。為了成為有效的問題解決器,這些代理必須能有效地探索廣闊的世界,從延遲的反饋中分配信用,并歸納出新的經驗,同時要利用有限的數據、計算資源和感知帶寬。抽象對所有這些努力都是必要的。通過抽象,代理可以形成其環境的簡潔模型,以支持一個理性的、自適應的決策者所需要的許多實踐。在這篇論文中,我提出了強化學習中的抽象理論。首先,我提出了執行抽象過程的函數的三個要求:它們應該1)保持近似最優行為的表示,2) 有效地被學習和構造,3) 更低的規劃或學習時間。然后,我提出了一套新的算法和分析,闡明了代理如何根據這些需求學習抽象。總的來說,這些結果提供了一條通向發現和使用抽象的部分路徑,將有效強化學習的復雜性降到最低。

強化學習問題如下。RL代理通過以下兩個離散步驟的無限重復與環境進行交互:

  1. 代理收到觀察和獎勵。
  2. 代理從這種交互中學習并執行一個動作。 這個過程如圖1.2所示。在這種互動過程中,agent的目標是做出決策,使其獲得的長期報酬最大化。

論文余下組織如下: 第1部分。在第2章中,我提供了關于RL(2.1節)以及狀態抽象(2.2節)和動作抽象(2.3節)的必要背景知識。

第2部分。下一部分將專注于狀態抽象。我提出了新的算法和三個緊密相連的分析集,每一個目標是發現滿足引入的需求的狀態抽象。在第3章中,我開發了一個形式化的框架來推理狀態抽象,以保持近似最優的行為。這個框架由定理3.1總結,它強調了值保持狀態抽象的四個充分條件。然后,在第4章中,我將這一分析擴展到終身RL設置,在終身RL設置中,代理必須不斷地與不同的任務交互并解決不同的任務。本章的主要觀點是介紹了用于終身學習設置的PAC狀態抽象,以及澄清如何有效計算它們的結果。定理4.4說明了保證這些抽象保持良好行為的意義,定理4.5說明了有多少以前已解決的任務足以計算PAC狀態抽象。我著重介紹了模擬實驗的結果,這些結果說明了所介紹的狀態抽象類型在加速學習和計劃方面的效用。最后,第五章介紹了信息論工具對狀態抽象的作用。我提出了狀態抽象和率失真理論[283,43]和信息瓶頸方法[318]之間的緊密聯系,并利用這種聯系設計新的算法,以高效地構建狀態抽象,優雅地在壓縮和良好行為表示之間進行權衡。我以各種方式擴展了這個算法框架,說明了它發現狀態抽象的能力,這些狀態抽象提供了良好行為的樣本高效學習。

第3部分。然后我轉向行動抽象。在第6章中,我展示了Jinnai等人的分析[144],研究了尋找盡可能快地做出計劃的抽象動作的問題——主要結果表明,這個問題通常是NP困難的(在適當簡化的假設下),甚至在多項式時間內很難近似。然后,在第7章中,我解決了在規劃中伴隨高層次行為構建預測模型的問題。這樣的模型使代理能夠估計在給定狀態下執行行為的結果。在本章中,我將介紹并分析一個用于這些高級行為的新模型,并證明在溫和的假設下,這個簡單的替代仍然是有用的。我提供的經驗證據表明,新的預測模型可以作為其更復雜的對等物的適當替代者。最后,在第8章中,我探討了抽象行動改善探索過程的潛力。我描述了Jinnai等人開發的一種算法[145],該算法基于構建可以輕松到達環境所有部分的抽象行動的概念,并證明該算法可以加速對基準任務的探索。

第4部分。最后,我轉向狀態動作抽象的聯合過程。在第9章中,我介紹了一個將狀態和動作抽象結合在一起的簡單機制。使用這個方案,然后我證明了哪些狀態和動作抽象的組合可以在任何有限的MDP中保持良好的行為策略的表示,定理9.1總結了這一點。接下來,我將研究這些聯合抽象的反復應用,作為構建分層抽象的機制。在對層次結構和底層狀態動作抽象的溫和假設下,我證明了這些層次結構也可以保持全局近最優行為策略的表示,如定理9.3所述。然后,我將在第十章中總結我的思考和今后的方向。

總的來說,這些結果闡明了強化學習的抽象理論。圖1.4展示了本文的可視化概述。

付費5元查看完整內容
北京阿比特科技有限公司