**強化學習(Reinforcement learning, RL)是一種機器學習范式,研究智能體如何學習預測和控制自己的經驗流,以最大化長期累積獎勵。**在過去的十年中,深度強化學習(deep reinforcement learning, DeepRL)是一個旨在將強化學習中的序列決策技術與深度學習提供的強大的非線性函數逼近工具相結合的子領域,取得了巨大的成功,例如在古老的棋盤游戲圍棋中擊敗人類冠軍,以及在復雜的戰略游戲如Dota 2和星際爭霸中取得專家級別的表現。它還對現實世界的應用產生了影響。例如機器人控制、平流層氣球導航和控制核聚變等離子體。
//deepblue.lib.umich.edu/handle/2027.42/174601
**本文旨在進一步推進深度學習技術。**具體而言,本文在以下四個方面做出了貢獻:1)在獎勵設計方面,提出了一種新的元學習算法,用于學習有助于策略優化的獎勵函數。該算法提高了策略梯度方法的性能,并優于手工設計的啟發式獎勵函數。在后續研究中,學習到的獎勵函數可以捕獲關于長期探索和開發的知識,并可以泛化到不同的強化學習算法和環境動態的變化。2)在時間信用分配中,本文探索了基于成對權重的方法,這些權重是采取行動的狀態、收到獎勵的狀態和之間經過的時間的函數。本文開發了一種元梯度算法,用于在策略學習期間自適應這些權重。實驗表明,該方法比其他方法取得了更好的性能。3)在狀態表示學習中,本文研究使用隨機深度動作條件預測任務作為輔助任務,以幫助智能體學習更好的狀態表示。實驗表明,隨機的深度動作條件預測通常可以產生比手工設計的輔助任務更好的性能。4)在模型學習和規劃中,提出了一種學習價值等價模型的新方法,這是一類最近表現出強大經驗性能的模型,推廣了現有的方法。實驗結果表明,該方法能夠提高模型預測精度和下游規劃過程的控制性能。
密歇根大學是美國的一所頂尖公立院校,被譽為中西部的哈佛。密歇根大學的主校區在底特律的衛星城安娜堡,綽號是狼獾。它成立于1817年,被稱為公立大學的典范,是公立常青藤之一。
在過去的幾十年里,強化學習(RL)已經成為解決復雜控制任務的有效方法。馬爾可夫決策過程(MDP)是描述人工智能與環境之間順序交互的典型模型。在MDP中,智能體感知環境的狀態并執行操作。因此,環境轉換到一個新的狀態,并產生一個獎勵信號。智能體的目標包括學習一個策略,即最大化長期獎勵的動作配方。在傳統的環境設置中,環境被假定為一個固定的實體,不能從外部改變。然而,現實世界中存在一些場景,在這些場景中,環境可以在有限的程度上進行修改,因此,對其某些特性采取行動可能是有益的。我們將此活動稱為環境配置,它可以由智能體本身或外部實體(如配置器)執行。盡管環境配置在實際應用中經常出現,但文獻中很少探討這個主題。在本論文中,我們旨在形式化和研究環境配置的各個方面。其貢獻包括理論、算法和實驗,可以大致細分為三個部分。論文的第一部分介紹了一種新的可配置馬爾可夫決策過程(Configurable Markov Decision Processes, Conf-MDPs)的形式化描述方法,用于描述環境提供的配置機會。在直覺層面上,環境、策略和學習過程之間存在著緊密的聯系。本文探討了環境配置的不同細微差別,根據配置是完全輔助智能體的學習過程(合作設置),還是由具有可能與智能體的目標沖突的配置器(非合作設置)指導。在第二部分中,我們專注于協作的Conf-MDP設置,并研究了由尋找一個agent策略和一個環境配置組成的學習問題,該策略和環境配置共同優化長期回報。本文提供了有限和連續Conf-MDPs的求解算法,并在合成域和真實域上進行了實驗評估。第三部分介紹了Conf-MDP框架的兩個具體應用:策略空間識別和控制頻率自適應。在前者中,我們利用環境可配置性來提高智能體的感知和驅動能力。在后者中,分析了特定的可配置環境參數,即控制頻率,如何影響批量強化學習算法的性能。
**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。
**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。
多年來,有幾個游戲被研究人員作為人工智能(AI)研究領域的關鍵挑戰來推廣,其最終目標是在這些游戲中擊敗最好的人類玩家。深度學習的最新發展使計算機能夠為許多游戲學習強大的策略,而以前的方法在這方面卻有所欠缺。然而,最復雜的游戲,如實時戰略(RTS)游戲《星際爭霸》(Blizzard Entertainment, 1998),仍然沒有被人工智能所掌握。我們確定了自適應的三個屬性,我們認為這是用人工智能完全掌握最難的游戲所需要的。這些屬性是 (1)游戲內自適應:在游戲內適應對手策略的能力,(2)游戲間自適應:在游戲間智能地轉換策略的能力,以及(3)通用性:對許多不同的,而且很可能是未見過的變化(如不同等級)進行概括的能力。我們分析了最先進的游戲算法在適應性方面的缺點,并提出了針對每個屬性的新算法方法。其中一些方法還試圖克服在獎勵稀少的游戲中學習適應性策略的困難。本論文的主要貢獻是 (a) 在《星際爭霸》中執行在線自適應構建順序規劃的持續進化規劃算法,(b) 在《星際爭霸》中的游戲內自適應構建順序規劃的模仿學習方法,產生了第一個(據我們所知)基于神經網絡的機器人,可以玩完整個游戲,(c) 從演示中學習行為重排的新型模仿學習方法,(d) 一種用于強化學習的自動獎勵塑造技術,該技術根據預先定義的事件的時間稀有性自動分配反饋值,作為一種課程學習和正則化技術的形式,在獎勵稀少的游戲中避免過度適應的行為,(e) 一個新的強化學習框架,它結合了程序性內容生成,每集產生新的訓練水平,隨著智能體的改進,難度逐漸增加,這被證明可以克服稀疏的獎勵,并增加學習策略的通用性,(f) 一種評估人類和人工智能之間游戲競賽公平性的實用方法,進一步強調了適應的重要性,以及(g) 一個新的人工智能挑戰和競賽,是基于棋盤游戲,它比圍棋復雜得多,需要高水平的通用性。這些貢獻為玩復雜游戲的人工智能挑戰帶來了一個新的視角,其重點在于適應。我們相信這一觀點對于實現強大而穩健的游戲AI至關重要。我們的貢獻有可能對游戲之外的許多重要的現實世界問題產生影響,例如在不斷變化的環境中的機器人任務,以及需要高度適應性的復雜互動。
在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。
//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。
強化學習(Reinforcement Learning, RL)是一種訓練人工智能體自主與世界互動的方法。然而,在實踐中,強化學習仍然有局限性,禁止在許多現實世界環境中部署強化學習智能體。這是因為RL需要很長時間,通常需要人工監督,并產生在不熟悉的情況下可能表現出出乎意料的特殊智能體。本文的目標是使RL智能體在現實世界中部署時更加靈活、穩健和安全。我們開發具有快速適應能力的智能體,即能夠有效學習新任務的智能體。為此,我們使用元強化學習(Meta- RL),在這里我們不僅教智能體自主行動,而且教智能體自主學習。基于快速適應可以分為“任務推理”(理解任務)和“任務求解”(解決任務)的直覺,我們提出了四種新的元RL方法。我們假設這種分離可以簡化優化,從而提高性能,并且更適合下游任務。為了實現這一點,我們提出了一種基于上下文的方法,在這種方法中,智能體以表示其對任務的當前知識的上下文為條件。然后,智能體可以使用這一點來決定是進一步了解任務,還是嘗試解決它。在第5章中,我們使用確定性上下文,并確定這確實可以提高性能并充分捕獲任務。在接下來的章節中,我們將在上下文中引入貝葉斯推理,以實現在任務不確定性下的決策。通過結合元強化學習、基于上下文的學習和近似變分推理,開發了為單智能體設置(第6章)和多智能體設置(第7章)計算近似貝葉斯最優智能體的方法。最后,第8章解決了稀疏獎勵的元學習的挑戰,這是許多現實世界應用的重要設置。觀察到,如果獎勵稀疏,現有的元強化學習方法可能會完全失敗,并提出一種方法來克服這一問題,即鼓勵智能體在元訓練期間進行探索。我們以對當前發展背景下的工作的反思和對開放問題的討論來結束論文。綜上所述,本文的研究成果極大地推動了基于Meta-RL的快速適應領域的發展。本文開發的智能體可以比以前的任何方法更快地適應各種任務,并且可以為比以前可能的更復雜的任務分布計算近似貝葉斯最優策略。我們希望這有助于推動Meta-RL研究的發展,并從長遠來看,利用RL解決重要的現實世界挑戰。
強化學習是一種為需要做出一系列決定的任務制定最佳策略的方法。以平衡短期和長期結果的方式做出決定的能力,使強化學習成為醫療機構中規劃治療的潛在強大工具。不幸的是,傳統的強化學習算法需要對環境進行隨機實驗,這在醫療衛生領域通常是不可能的。然而,強化學習提供了從觀察數據中評估策略的工具,這是一個被稱為離策略評估的子項目。
在這項工作中,我們討論了離策略評估在應用于醫療數據時變得如此困難的主要挑戰,并設計了一些算法來改進目前執行離策略評估的方法。我們描述了幾種改進現有方法的準確性和統計能力的算法,最后介紹了一種新的方法,通過開發一種將專家臨床醫生及其知識納入評價過程的評價技術來提高離策略評估方法的可靠性。
強化學習(RL)是機器學習(ML)中的一個子領域,它為學習需要平衡短期和長期結果的任務中的連續決策策略提供了一個框架。RL的關鍵范式是將學習算法視為一個與環境互動的智能體,采取行動并觀察環境對這些行動的變化。通過與環境的不斷互動和實驗,智能體學會了實現預期目標的最佳策略。這個強大的想法促進了RL算法在廣泛的應用中的成功,如游戲和機器人。
然而,在這些應用中,與環境的隨機互動--使RL如此強大的關鍵特性--是不可能的。例如,在醫療保健中,隨機治療病人并觀察其反應是不道德的。
從批量觀察數據中評估RL決策的任務被稱為離策略評估(OPE),這個術語用來表示用于收集數據的策略與我們希望評估的策略不同。OPE只關注評估一個特定的策略,而不是學習一個最優的onc,這是大多數RL應用的目標。
這項工作的動力來自于這樣的認識:盡管在OPE方面取得了重大的理論突破,但目前的方法仍然遠遠不夠可靠,無法證明其在實際應用中的使用和部署。這些限制在醫療保健領域尤為突出,因為那里的數據非常嘈雜,而且錯誤的代價很高。 我們首先強調了使OPE在觀察性醫療環境中如此困難的關鍵因素,并展示了這些算法可能失敗的主要方式。然后,我們描述了幾種改善OPE算法性能的方法。這些方法可以應用于所有RL領域,但我們在醫療數據中經常遇到的具體特征是其強大的動力。
雖然這項工作中所描述的方法有助于提高OPE方法的性能,但它們基本上都試圖從數據中提取出更多的統計能力。不幸的是,僅從數據中提取出的知識是有限的,而且往往我們所能做的最好的也是不夠好。 然而,試圖僅從原始數據中獲得知識,卻忽視了臨床醫生和其他醫療專家所擁有的大量知識和專長。在這項工作的最后一部分,我們將論證,為了使OPE的性能足夠好,使其能夠被信任并用于醫療領域,領域專家必須被納入評估過程。為了能夠在OPE中使用領域專家,必須開發新的方法,使幾乎總是不熟悉RL和OPE技術細節的臨床醫生能夠有效地提供對OPE過程有用的意見。我們將在這個方向上邁出一步,描述一種方法,使臨床醫生能夠隨意地識別OPE方法何時可能給出不可靠的結果,并討論發展這一研究途徑的未來方向。
總而言之,這項工作應該概述了OPE在醫療領域的狀況,以及將其引入現實世界所必須做出的努力--從詳細說明當前方法可能失敗的方式和解決這些問題的可能方法,到描述臨床醫生可以被納入評估過程的方式。本論文的其余部分的結構如下:本章的其余部分介紹了本論文將使用的基本符號,并涵蓋了相關文獻。 第三章繼續討論基于模型的OPE,并介紹了一種建立模型的方法,該方法的訓練強調從評估策略下可能出現的例子中學習,并沿用了Liu等人的工作。最后,在第四章中,我們討論了如何利用臨床醫生的輸入來調試和驗證OPE的結果,沿用了Gottesman等人的方法。
利用監督學習(SL)的力量開發更有效的強化學習(RL)方法已經成為最近的一種趨勢。為了解決稀疏獎勵目標條件問題**,我們提出了一種新的分階段方法,即在線反饋學習和離線反饋學習交替進行**。在在線階段,我們執行RL訓練并收集上線數據,而在離線階段,我們對數據集中成功的軌跡執行SL。為了進一步提高樣本效率,我們在在線階段采用了額外的技術,包括減少任務生成更可行的軌跡和基于價值差異的內在獎勵來緩解稀疏獎勵問題。我們稱這種整體算法為PhAsic自擬約簡(PAIR)。在稀疏獎勵目標條件機器人控制問題(包括具有挑戰性的堆疊任務)上,PAIR大大優于非相位RL和相位SL基線。PAIR是第一個RL方法,它學習了從零開始堆疊6個立方體,只有0/1的成功獎勵。
//www.zhuanzhi.ai/paper/007d9cb1ce12650d123764621e0b319d
多智能體強化學習 (RL) 解決了每個智能體應該如何在多個智能體同時學習的隨機環境中表現最佳的問題。它是一個歷史悠久的跨學科領域,位于心理學、控制理論、博弈論、強化學習和深度學習的聯合領域。繼 AlphaGO 系列在單智能體 RL 中取得顯著成功之后,2019 年是蓬勃發展的一年,見證了多智能體 RL 技術的重大進步;在開發許多具有挑戰性的任務(尤其是多人視頻游戲)上,勝過人類的人工智能已經取得了令人矚目的突破。盡管如此,多智能體 RL 技術的主要挑戰之一仍是可擴展性。設計高效的學習算法來解決包括遠多于兩個智能體 (N2) 的任務仍然不是一件容易的事,我將其命名為大量智能體強化學習 (many-agent reinforcement learning,MARL) 問題。
在本論文中,我從四個方面對解決MARL問題做出了貢獻。首先,我從博弈論的角度提供了多智能體 RL 技術的獨立概述。該概述填補了大多數現有工作要么未能涵蓋自 2010 年以來的最新進展,要么沒有充分關注博弈論的研究空白,我認為博弈論是解決多智能體學習問題的基石。其次,我在多智能體系統中開發了一種易于處理的策略評估算法——。
的關鍵優勢在于它可以在多人廣義和博弈中輕松計算 α-Rank 的解概念,而無需存儲整個收益矩陣。這與經典的解概念形成對比,例如納什均衡,即使在兩人的情況下也被認為是 PPAD 難的。
讓我們第一次能夠實際進行大規模的多智能體評估。第三,我在多智能體系統中引入了一種可擴展的策略學習算法——平均場 MARL。平均場 MARL 方法利用了物理學中的平均場近似,它是第一個試圖打破 MARL 任務維數詛咒的可證明收斂的算法。使用所提出的算法,我給出了通過 MARL 方法解決 Ising 模型和多智能體戰斗博弈的第一個結果。第四,我研究了開放式元博弈(即策略空間中的博弈)中的多智能體學習問題。具體來說,我專注于對元博弈中的行為多樣性進行建模,并開發保證在訓練期間擴大多樣性的算法。所提出的基于行列式點過程的度量,是多樣性的第一個數學嚴格定義。重要的是,多樣性感知學習算法在可利用性方面大大擊敗了現有的最先進的博弈求解器。
除了算法開發之外,我還貢獻了 MARL 技術的兩個實際應用。具體來說,我展示了MARL的巨大應用潛力, 研究了自然界中涌現的人口動態,并為自動駕駛中的多樣化和現實交互建模。這兩個應用程序都體現了 MARL 技術可以在純視頻游戲之外的真實物理世界中產生巨大影響的前景。
與單智能體 RL 相比,多智能體 RL 是一個通用框架,可以更好地匹配現實世界 AI 應用的廣泛范圍。然而,由于存在同時學習的多個智能體,除了單智能體 RL 中已經存在的那些之外,MARL 方法還提出了更多的理論挑戰。與通常有兩個智能體的經典 MARL 環境相比,解決大量智能體 RL 問題更具挑戰性。事實上,1 組合復雜性、2 多維學習目標、3 非平穩性問題,都導致大多數 MARL 算法能夠解決只有兩個玩家的博弈,特別是兩個玩家的零和博弈。
本論文主要圍繞大量智能體強化學習的研究課題。我為這個主題貢獻的方法位于圖 1.8 中列出的三個研究領域:它們是博弈論,它提供了現實且易于處理的解決方案概念來描述大量智能體系統的學習結果; RL 算法,提供可證明的收斂學習算法,可以在順序決策過程中達到穩定和合理的均衡;最后是深度學習技術,它提供了學習算法表達函數逼近器。
圖 1.8:本論文的研究范圍包括三個支柱。深度學習是學習過程中強大的函數逼近工具。博弈論提供了一種描述學習成果的有效方法。 RL 提供了一種有效的方法來描述多智能體系統中智能體的激勵。
圖 1.9:本文后續章節的結構,與列出的三個挑戰(1 組合復雜性、2 多維學習目標、3 非平穩性)相關,每章都試圖解決這些挑戰。
以下各章的結構和貢獻如下(另請參見圖 1.9):
第 2 章:由于 MARL 的可擴展性問題深深植根于其博弈論基礎,在本章中,我將首先概述現代 MARL 方法的博弈論方面,以及最近的進展。我相信這個概述是對社區的重要貢獻,因為大多數現有調查要么不關注博弈論,要么就遺漏了自 2010 年以來的大多數近期文獻而過時。第 1 章和第 2 章構成了 MARL 的獨立專著。該專著的目標是從博弈論的角度對當前最先進的 MARL 技術進行專門評估。我希望這項工作能夠為即將進入這個快速發展領域的新研究人員和想要獲得全景,并根據最新進展確定新方向的現有領域專家提供基礎。
第 3 章:本章提供了 MARL 技術在理解 AI 智能體的新興種群動態方面的應用。本章的目標是在我介紹方法學發展之前作為開篇,展示 MARL 方法的巨大潛力。具體來說,在這項工作中,我將 RL 智能體放入模擬的捕食者-獵物世界中,并驗證自然界中開發的原理是否可用于理解人工創造的智能種群,反之亦然。這項工作的主要貢獻在于,它啟發了許多人口生物學家和計算生物學家,在對宏觀生物學研究中的自利智能體進行建模時,為他們提供了一種基于 MARL 的新方法。
第 4 章:本章介紹了一種新的大量智能體系統策略評估方法:。
是 α-rank 的隨機變體,是一種新穎的解概念,在多人廣義和博弈中具有多項式時間解。
的一個主要好處是,人們現在可以輕松地評估大型多智能體系統(即多人廣義和博弈),例如,具有
聯合策略配置文件的多智能體系統只需一臺機器;這與計算納什均衡相反,即使在兩人的情況下,這也是眾所周知的 PPAD-hard。
第 5 章:在本章中,我將重點解決大量智能體系統中策略學習的核心問題。具體來說,我提出了平均場 MARL (MFMARL) 方法,該方法利用了物理學中平均場近似的經典思想。 MF-MARL 通過僅??考慮總體的平均效應,有效地將大量智能體學習問題轉化為雙智能體問題。使用 MF-MARL 方法,可以有效地訓練數百萬智能體來解決大型合作博弈。我測試了 MF-MARL 算法來解決 Ising 模型,這是一個眾所周知的物理學難題,因為它的組合性質,并得出了第一個基于 MARL 的 Ising 模型解。總的來說,本章的主要貢獻是提供了第一個可證明收斂的可擴展 MARL 算法,并證明了它在遠不止兩個智能體的場景中的有效性。
第 6 章:本章研究開放式元博弈(即策略級別的博弈,也稱為聯盟訓練或自動課程)中的大量智能體學習問題,其中行為多樣性是一個關鍵但尚未充分探索的主題。本章為策略空間中的行為多樣性提供了第一個數學上嚴格的定義,并提出了被證明可以在策略訓練期間擴大多樣性的學習算法。零和博弈的經驗結果表明,所提出的方法在很大程度上優于現有的最新技術。這項研究可能會產生重大的經濟影響,因為所提出的算法可以直接插入到開發游戲 AI 的聯盟訓練中(例如,訓練能夠在撲克游戲中擊敗人類玩家的 AI 群體)。
第 7 章:除第3章外,本章介紹MARL的第二種應用,即自動駕駛(AD)。我展示了使用 MARL 技術來模擬 AD 中現實和多樣化的多智能體交互的巨大潛力。具體來說,我介紹了 SMARTS 平臺:第一個專門支持 RL 和 MARL 訓練的 AD 模擬器。基于 SMART,我分享了一個藍天理念,即在 MARL 中創建多樣化的自動課程是在 AD 中建模現實交互的關鍵。我詳細闡述了多樣化自動課程的必要性,并列出了應用這種技術的四個開放挑戰。本章的貢獻有兩方面:首先,我展示了 MARL 技術可以在真實的物理世界中產生有影響力的應用,而不是純粹的視頻游戲;其次,我向 AD 中的研究人員介紹了一種新方法,以便他們能夠生成當前缺失的高質量交互。
第8章:在最后一章中,我總結了這篇論文,并提出了四個未來的研究方向;它們是深度 MARL 理論、安全魯棒的 MARL、基于模型的 MARL 和多智能體元 RL。
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。