亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多年來,有幾個游戲被研究人員作為人工智能(AI)研究領域的關鍵挑戰來推廣,其最終目標是在這些游戲中擊敗最好的人類玩家。深度學習的最新發展使計算機能夠為許多游戲學習強大的策略,而以前的方法在這方面卻有所欠缺。然而,最復雜的游戲,如實時戰略(RTS)游戲《星際爭霸》(Blizzard Entertainment, 1998),仍然沒有被人工智能所掌握。我們確定了自適應的三個屬性,我們認為這是用人工智能完全掌握最難的游戲所需要的。這些屬性是 (1)游戲內自適應:在游戲內適應對手策略的能力,(2)游戲間自適應:在游戲間智能地轉換策略的能力,以及(3)通用性:對許多不同的,而且很可能是未見過的變化(如不同等級)進行概括的能力。我們分析了最先進的游戲算法在適應性方面的缺點,并提出了針對每個屬性的新算法方法。其中一些方法還試圖克服在獎勵稀少的游戲中學習適應性策略的困難。本論文的主要貢獻是 (a) 在《星際爭霸》中執行在線自適應構建順序規劃的持續進化規劃算法,(b) 在《星際爭霸》中的游戲內自適應構建順序規劃的模仿學習方法,產生了第一個(據我們所知)基于神經網絡的機器人,可以玩完整個游戲,(c) 從演示中學習行為重排的新型模仿學習方法,(d) 一種用于強化學習的自動獎勵塑造技術,該技術根據預先定義的事件的時間稀有性自動分配反饋值,作為一種課程學習和正則化技術的形式,在獎勵稀少的游戲中避免過度適應的行為,(e) 一個新的強化學習框架,它結合了程序性內容生成,每集產生新的訓練水平,隨著智能體的改進,難度逐漸增加,這被證明可以克服稀疏的獎勵,并增加學習策略的通用性,(f) 一種評估人類和人工智能之間游戲競賽公平性的實用方法,進一步強調了適應的重要性,以及(g) 一個新的人工智能挑戰和競賽,是基于棋盤游戲,它比圍棋復雜得多,需要高水平的通用性。這些貢獻為玩復雜游戲的人工智能挑戰帶來了一個新的視角,其重點在于適應。我們相信這一觀點對于實現強大而穩健的游戲AI至關重要。我們的貢獻有可能對游戲之外的許多重要的現實世界問題產生影響,例如在不斷變化的環境中的機器人任務,以及需要高度適應性的復雜互動。

付費5元查看完整內容

相關內容

智能體,顧名思義,就是具有智能的實體,英文名是Agent。

現代強化學習(RL)方法在各種應用中取得了巨大的成功。然而,由于過度的樣本復雜性負擔,具有大狀態空間和長規劃時界的強化學習問題仍然具有挑戰性,而我們目前對這類問題的理解相當有限。此外,RL中還有一些經典框架無法解決的重要問題。本文研究了上述問題,以建立對現代RL方法的更好理解。本文主要分為以下三個部分:

**第一部分:具有長期規劃時界的RL。**學習為長期時界做計劃是強化學習的一個核心挑戰,而一個基本問題是了解強化學習的難度如何隨著時界的增加而增加。在本文的第一部分中,我們證明了表格式強化學習是可能的,其樣本復雜度完全獨立于規劃周期,因此,長周期強化學習并不比短周期強化學習更難,至少在極大極小意義上是這樣。

**第二部分:具有大狀態空間的RL。**在現代RL方法中,函數逼近方案被部署來處理大型狀態空間。根據經驗,將RL算法與神經網絡相結合進行特征提取,在各種任務上取得了巨大的成功。然而,這些方法通常需要大量的樣本來學習一個好的策略,并且不清楚此類方法是否有基本的統計限制。在本文的第二部分,通過理論分析和實驗,研究了允許樣本有效強化學習的特征表示能力的充要條件。

**第三部分:其他環境下的強化學習。**經典的強化學習范式旨在最大化智能體獲得獎勵值時的累積獎勵。盡管能夠形式化一個龐大的序列決策問題族,但仍有一些重要的應用無法歸入經典框架。在本文的第三部分,我們研究了兩種新的設置,即無獎勵探索設置和具有一般目標函數的規劃,它們泛化了經典的框架。

付費5元查看完整內容

隨著AlphaGo的突破,深度強化學習成為解決順序決策問題的公認技術。盡管深度強化學習有著良好的聲譽,但由于其試錯學習機制導致的數據效率低下,使得深度強化學習很難在廣泛的領域應用。樣本高效深度強化學習的方法有環境建模、經驗轉移和分布式修改等,其中分布式深度強化學習在人機博弈、智能交通等領域顯示出了巨大的應用潛力**

本文通過比較經典的分布式深度強化學習方法,研究實現高效分布式學習的重要組成部分,總結了這一激動人心的研究領域的現狀,從單一玩家單一智能體分布式深度強化學習到最復雜的多玩家多智能體分布式深度強化學習。此外,我們回顧了最近發布的有助于實現分布式深度強化學習的工具箱,而無需對其非分布式版本進行大量修改。在分析其優缺點的基礎上,開發并發布了多玩家多智能體分布式深度強化學習工具箱,并在復雜游戲環境Wargame上進行了進一步驗證,顯示了該工具箱在復雜游戲環境下多玩家多智能體分布式深度強化學習的可用性。最后,我們試圖指出分布式深度強化學習的挑戰和未來的發展趨勢,希望通過本文的簡要回顧可以為那些對分布式深度強化學習感興趣的研究者提供指導或啟發。

1.概述

隨著智能體AlphaGo[1],[2]的突破,在人機博弈中贏得了眾多專業圍棋棋手的勝利,深度強化學習(DRL)開始受到大多數研究人員的關注,成為一種公認的解決順序決策問題的技術。許多算法都是為了解決DRL與現實世界應用之間的挑戰性問題,如勘探和開發困境、數據效率低下、多智能體合作和競爭。在所有這些挑戰中,由于DRL的試錯學習機制需要大量的交互數據,數據效率低下是最受批評的。

為了緩解數據效率低下的問題,提出了幾個研究方向。例如,基于模型的深度強化學習構建環境模型,生成假想軌跡,以幫助減少與環境的交互時間。遷移強化學習從源任務中挖掘共享的技能、角色或模式,然后使用學到的知識來加速目標任務中的強化學習。受分布式機器學習技術(已成功應用于計算機視覺和自然語言處理[4])的啟發,開發了分布式深度強化學習(DDRL),該技術已顯示出訓練非常成功的智能體的潛力,如Suphx [5], OpenAI Five[6]和AlphaStar[7]。

通常,訓練深度強化學習智能體由兩個主要部分組成,即: 通過與環境交互拉動策略網絡參數生成數據,通過消費數據更新策略網絡參數。這種結構化模式使得分布式修改DRL成為可能,并且開發了大量的DDRL算法。例如,通用的強化學習體系結構[8]可能是第一個DDRL體系結構,它將訓練系統分為四個部分,即參數服務器、學習者、參與者和重放緩沖區,這激發了后續的數據效率更高的DDRL體系結構。最近提出的SEED RL[9]是IMPALA[10]的改進版本,據稱能夠每秒產生和消耗數百萬幀,基于此,AlphaStar在44天內(192 v3 + 12 128個核心tpu, 1800個cpu)成功訓練,擊敗了專業人類玩家。

為了使DRL的分布式修改能夠使用多臺機器,需要解決機器通信和分布式存儲等幾個工程問題。幸運的是,已經開發并發布了幾個有用的工具箱,將DRL的代碼修改為分布式版本通常需要少量的代碼修改,這在很大程度上促進了DDRL的發展。例如Uber發布的Horovod[11],充分利用了ring allreduce技術,相對于單一GPU版本,只需要增加幾行代碼就可以很好地使用多個GPU進行訓練加速。Ray[12]是UC Berkeley RISELab發布的一個分布式機器學習框架,它為高效的DDRL提供了一個RLlib[13],由于它的強化學習抽象和算法庫,使用起來很方便。

鑒于DDRL研究取得的巨大進展,梳理DDRL技術的發展歷程、面臨的挑戰和機遇,為今后的研究提供線索是十分必要的。最近,Samsami和Alimadad[14]對DDRL進行了簡要的回顧,但他們的目標是單玩家單智能體分布式強化學習框架,而缺乏更具挑戰性的多智能體多玩家DDRL。捷克[15]對強化學習的分布式方法進行了簡要的綜述,但只對幾種具體算法進行了分類,沒有討論關鍵技術、比較和挑戰。與以往的總結不同,本文通過比較經典的分布式深度強化學習方法,研究實現高效分布式學習的重要組成部分,進行了更全面的考察,從單一參與者單一智能體分布式深度強化學習到最復雜的多參與者多智能體分布式深度強化學習。

本文的其余部分組織如下。在第二節中,我們簡要介紹了DRL的背景、分布式學習和典型的DDRL測試平臺。在第3節中,我們詳細闡述了DDRL的分類。在第4節中,我們將比較當前的DDRL工具箱,這些工具箱在很大程度上幫助實現了高效的DDRL。在第5節中,我們介紹了一個新的多玩家多智能體DDRL工具箱,它為復雜游戲提供了一個有用的DDRL工具。在第6部分,我們總結了DDRL的主要挑戰和機遇,希望能啟發未來的研究。最后,我們在第7節對本文進行了總結。

2. 背景知識

強化學習是一種典型的機器學習范式,其本質是通過交互進行學習。在一般的強化學習方法中,智能體通過采取行動來驅動環境的動態,并接受獎勵來改進其追逐長期結果的策略,從而與環境進行交互。為了學習一個能夠進行順序決策的智能體,有兩種典型的算法,即學習算法。一種是不使用環境模型的無模型方法,另一種是使用預先給定或學習的環境模型的基于模型的方法。已經提出了大量的算法,讀者可以參考[16],[17]獲得更全面的回顧。 深度學習的成功離不開龐大的數據和計算能力,這就導致了對能夠處理數據密集型和計算密集型計算的分布式學習的巨大需求。由于深度學習算法的結構化計算模式,針對深度學習[20]、[21]的并行性,提出了一些成功的分布式學習方法。早期流行的分布式深度學習框架是由谷歌設計的DistBelief[22],其中提出了參數服務器和A-SGD的概念。谷歌基于DistBelief發布了第二代分布式深度學習框架Tensorflow[23],成為廣泛使用的工具。其他典型的分布式深度學習框架,如PyTorch、MXNet和Caffe2也被研究和工業團體開發和使用。

3. 分布式深度強化學習的分類法

目前已有大量的DDRL算法或框架,其代表有GORILA[8]、A3C[32]、APEX[33]、IMPALA[10]、Distributed PPO[34]、R2D2[35]、Seed RL[9]等,我們可以根據這些算法或框架繪制出DDRL的關鍵組成部分,如圖1所示。我們有時使用框架而不是算法或方法,因為這些框架不針對特定的強化學習算法,它們更像是各種強化學習方法的分布式框架。一般來說,一個基本的DDRL算法主要由三個部分組成,構成了一個單玩家單agent的DDRL方法:

行動者 Actor:通過與環境的交互產生數據(軌跡或梯度)。 * 學習者Learner: 使用數據(軌跡或梯度)執行神經網絡參數更新。 * 協調器 Coordinators: 協調數據(參數或軌跡),以控制學習者和行動者之間的交流。

行動者從學習者中提取神經網絡參數,從環境中接收狀態,并執行推理以獲得動作,這些動作將環境的動態驅動到下一個狀態。通過對多個參與者重復上述過程,可以提高數據吞吐量,并收集足夠的數據。學習者從行動者那里提取數據,進行梯度計算或后處理,并更新網絡參數。多個學習器可以通過使用多個GPU和諸如ring allreduce或參數服務器[11]等工具來緩解GPU的有限存儲。通過重復上述過程,可以得到最終的強化學習智能體。

協調器是DDRL算法的重要組成部分,它控制著學習者和行動者之間的通信。例如,當使用協調器同步參數更新和提取(由參與者)時,DDRL算法是同步的。當參數的更新和提取(參與者)不嚴格協調時,DDRL算法是異步的。因此,DDRL算法的基本分類可以基于協調器的類型。

  • 同步:全局策略參數的更新是同步的,策略參數的提取(行動者)是同步的,即不同的行動者共享最新的全局策略。
  • 異步:全局策略參數的更新是異步的,或者說策略更新(由學習者進行)和策略拉取(由行動者進行)是異步的,即行動者和學習者通常具有不同的策略參數。

利用上述基本框架,可以設計出一個單玩家單agent的DDRL算法。然而,當面對多個智能體或多個參與者時,基本框架無法訓練可用的強化學習智能體。基于目前支持AlphaStar[7]、OpenAI Five[6]和JueWU[36]等大型系統級AI的DDRL算法,構建多玩家和多agent DDRL需要兩個關鍵組件,即agent合作和玩家進化,如圖2所示:

基于多智能體增強學習算法[18],采用智能體協作模塊對多智能體進行訓練。通常,多智能體強化學習可以根據如何進行智能體關系建模分為獨立訓練和聯合訓練兩大類。

獨立訓練:通過將其他學習智能體視為環境的一部分,獨立地訓練每個智能體。

聯合訓練:將所有智能體作為一個整體進行訓練,考慮智能體通信、獎勵分配和分布式執行的集中訓練等因素。

玩家模塊進化是為每個玩家的智能體迭代而設計的,其中其他玩家的智能體同時學習,從而為每個玩家學習多代智能體,如AlphaStar和OpenAI Five。根據目前主流的玩家進化技術,玩家進化可以分為兩種類型:

  • 基于自玩:不同的玩家共享相同的策略網絡,玩家通過面對過去的版本來更新當前生成的策略。
  • 基于群體的游戲:不同的玩家有不同的策略網絡,或稱為群體,玩家通過對抗其他玩家或/及其過去的版本來更新當前世代的策略。

最后,基于上述DDRL的關鍵組件,DDRL的分類如圖3所示。下面,我們將根據代表性方法的主要特點,對其進行總結和比較。

付費5元查看完整內容

在過去的幾年里,大西洋上的敵對潛艇活動一直在穩步加強。此外,戰略對手已經開發了復雜和隱蔽的潛艇,使它們更難被定位。活動的加劇加上先進的平臺,使美國的對手能夠挑戰其在水下領域的主導地位。盡管已經對使用貝葉斯搜索方法的優化搜索策略進行了廣泛的研究,但公開文獻中的大多數方法都側重于搜索靜止的物體,而不是搜索由Blue潛艇進行的移動的Red潛艇。因此,我們開發了一個敵方潛艇的模型,其目標是避免被發現。隨著搜索努力的消耗,根據負面搜索結果計算出敵方潛艇位置的后驗概率分布。我們提出了一種尋找搜索模式的方法,該模式試圖在貝葉斯框架內利用馬爾科夫特性使探測的概率最大化。具體來說,我們研究了三種不同的運行窗口方法:一個簡單的網絡優化模型,一個在每個時間段后執行更新的網絡優化模型,該模型正在規劃整個路線,以及一個只提前兩個時間段的動態程序。

近年來,戰略對手在水下領域的進展,加上在大西洋的更多部署,給美國海軍(USN)帶來了新的挑戰。更加隱蔽的潛艇在聲學上與弗吉尼亞級SSNs相當,這使得美國海軍更加難以定位和跟蹤這些潛艇。這些挑戰已經確定需要完善可用來尋找敵對潛艇的工具。

在這篇論文中,討論了為潛艇上的決策者提供一個完善的搜索工具的需求,以幫助他們搜索敵對潛艇。我們研究了基本搜索算法的不同方法,該算法能夠進一步發展并在潛艇上實施。

我們首先介紹了我們為Red的運動建模的方法。我們假設Red最初位于一個大小為200乘200海里的搜索區域(SR)內,該區域被描述為一個劃分為400個10乘10海里單元的網格。然后,我們定義一個離散時間馬爾可夫鏈來模擬Red在SR中的運動,鏈中的一個狀態是Red潛艇的單元位置,過渡概率管理Red從一個單元到另一個單元的運動。為了決定單元之間的過渡概率,我們假設有關于Red任務的可用情報,這些情報以概率方式決定了Red的運行方式。

接下來,我們研究了三種算法,以幫助潛艇指揮官對Red潛艇進行搜索的能力。對于我們考慮的所有三種算法,重要的是要明確,搜索計劃是在進行任何搜索之前產生的。我們首先考慮簡單的網絡算法(NA)算法,其中生成的搜索計劃使在搜索時間范圍內未發現Red的概率最小。在優化方面,這相當于找到Red的概率最大化,而且它不考慮搜索時間范圍內的任何搜索結果;它是在搜索開始前計算的,不會改變。然后,我們通過利用貝葉斯定理來修改這個帶有更新的算法(稱為帶有更新的網絡算法(NAU)),在假設被搜索的單元格不包含Red的情況下,更新Red位置的概率分布。利用每個時間段的更新概率分布,網絡優化算法在Blue花費搜索精力的每個剩余時間段重新運行,這給了Blue一條新的搜索路線。盡管NAU算法的結果是為剩余時間段提供了一條搜索路線,但只使用了下一個要搜索的單元。接下來,我們開發了一種動態編程(DP)算法,以最大化在下一個時間段或下一個時間段找到Red的概率。該算法還利用貝葉斯定理來進行Red位置分布的更新,假設Red從未在Blue搜索的單元中出現過。所有三種算法的完整搜索路徑都是在搜索開始前計算出來的。

在我們的Blue搜索算法中,我們做了幾個假設。首先,我們假設Blue概率地知道Red的起始位置和Red運動的過渡矩陣。這些信息的來源是Blue搜索者外部的傳感器對Red的初始探測以及關于Red任務的情報。我們還假設Blue搜索者有完美的傳感器;也就是說,如果Blue和Red同時出現在同一個小區,Blue將以100%的概率探測到Red。此外,我們假設Red和Blue在每個時間段只能移動一個單元,這本質上意味著兩艘潛艇以相同的速度行駛。在我們的方案中,我們假設Blue在SR中最北面的任何一行開始搜索,如果Red離開SR,它就不會返回。如果Red在離開SR之前沒有被發現,或者在搜索期間沒有被發現,則搜索失敗。最后,我們假設Red有一個固定的過渡矩陣;也就是說,Red對Blue的存在沒有反應,在搜索期間,Red在單元格之間過渡的概率保持不變。

為了研究算法的表現,我們運行了多種方案,在這些方案中,我們改變了Red的起始特征,如起始單元和Red可能開始的不同單元的數量。然而,Red的過渡矩陣在每個場景中保持不變。對于每個場景,Blue的搜索路徑在每種算法中都被計算一次。同樣,對于每個場景,Red的路線被模擬了10,000次,使用假設的可能的起始單元集,每個單元都以相同的概率選擇,以及每個場景的相應過渡矩陣。確定Red被Blue檢測到的復制比例,如果被檢測到,檢測發生在哪個時間段。模擬的輸出是檢測到Red的估計概率,以及相應的95%置信區間和每種算法的經驗CDFs。經驗CDF是指在每個時間段或之前檢測到Red的概率。CDF顯示了每種算法在搜索工作中的表現。我們還計算了計算時間,以CPU周期衡量,以確定每種算法的計算成本。

我們的結果表明,三種算法產生了類似的結果;然而,NAU和DP算法的表現一直優于簡單的NA算法。對于NAU和DP算法來說,計算出的檢測概率的95%置信區間是重疊的;因此,NAU和DP算法的真實檢測概率都在彼此的誤差范圍之內。在我們考慮的前五種情況中,最高的估計檢測概率接近20%,最差的也達到8%左右。探測概率低的原因有三種可能的解釋。首先,在我們考慮的場景中,Red很有可能在Blue可能探測到Red之前離開SR。另外,因為我們假設Red在單元之間的轉換概率是均勻的,所以Red的路線存在高度的不確定性。最后,Blue在指定的有限時間內進行搜索。

我們還運行了一個方案,將Red的起始位置固定在一個單元中,并改變過渡矩陣中的概率,以代表Red很有可能過渡到西北方向的單元的情況。這種情況表示Red向指定方向移動的確定性更高。很明顯,隨著Red向某些單元的過渡概率增加,檢測到Red的概率也會增加。通過這種情況,我們也表明貝葉斯更新是有效的,因為在NAU和DP算法中,如果Red不在最初最有可能出現的地方,Blue會繼續找到Red;然而,使用NA算法,如果Red在有可能探測到Red的第一個時間段內不在最有可能出現的地方,那么Blue就無法探測到Red。這個結果是合理的,因為如果當Blue第一次可以探測到Red時,Red不在它最有可能出現的小區里,那么Red就沒有遵循最可能的路線;Blue使用這一信息來更新NAU和DP算法中Red位置的概率分布,但對NA算法則沒有。

就計算成本而言,DP算法的求解效率比其他算法高得多,需要的CPU周期比NAU算法少三個數量級。然而,我們表明,對于NAU和DP算法,計算成本隨著Blue可能檢測到Red的時間段的增加而增加。由于NA算法不執行更新,它的成本在整個場景中保持不變。

我們的研究結果表明,DP算法是最適合未來發展的。它的性能始終與NAU算法相似,而計算成本卻大大降低。當充分發展后,這種算法可以在潛艇上使用,并在操作員可用的任務規劃工具中實施。

付費5元查看完整內容

強化學習(Reinforcement Learning, RL)是一種訓練人工智能體自主與世界互動的方法。然而,在實踐中,強化學習仍然有局限性,禁止在許多現實世界環境中部署強化學習智能體。這是因為RL需要很長時間,通常需要人工監督,并產生在不熟悉的情況下可能表現出出乎意料的特殊智能體。本文的目標是使RL智能體在現實世界中部署時更加靈活、穩健和安全。我們開發具有快速適應能力的智能體,即能夠有效學習新任務的智能體。為此,我們使用元強化學習(Meta- RL),在這里我們不僅教智能體自主行動,而且教智能體自主學習。基于快速適應可以分為“任務推理”(理解任務)和“任務求解”(解決任務)的直覺,我們提出了四種新的元RL方法。我們假設這種分離可以簡化優化,從而提高性能,并且更適合下游任務。為了實現這一點,我們提出了一種基于上下文的方法,在這種方法中,智能體以表示其對任務的當前知識的上下文為條件。然后,智能體可以使用這一點來決定是進一步了解任務,還是嘗試解決它。在第5章中,我們使用確定性上下文,并確定這確實可以提高性能并充分捕獲任務。在接下來的章節中,我們將在上下文中引入貝葉斯推理,以實現在任務不確定性下的決策。通過結合元強化學習、基于上下文的學習和近似變分推理,開發了為單智能體設置(第6章)和多智能體設置(第7章)計算近似貝葉斯最優智能體的方法。最后,第8章解決了稀疏獎勵的元學習的挑戰,這是許多現實世界應用的重要設置。觀察到,如果獎勵稀疏,現有的元強化學習方法可能會完全失敗,并提出一種方法來克服這一問題,即鼓勵智能體在元訓練期間進行探索。我們以對當前發展背景下的工作的反思和對開放問題的討論來結束論文。綜上所述,本文的研究成果極大地推動了基于Meta-RL的快速適應領域的發展。本文開發的智能體可以比以前的任何方法更快地適應各種任務,并且可以為比以前可能的更復雜的任務分布計算近似貝葉斯最優策略。我們希望這有助于推動Meta-RL研究的發展,并從長遠來看,利用RL解決重要的現實世界挑戰。

《元強化學習》最新,70頁ppt

付費5元查看完整內容

近年來,人工學習系統在計算機視覺、自然語言處理和語音識別等許多具有挑戰性的領域取得了巨大的進展。這些最新進展的一個顯著特點是,將靈活的深度函數逼近器與為特定問題收集的大型數據集結合起來,這似乎是一個簡單的公式。然而,這些系統在泛化新輸入以獲取新功能時,很難利用其學習能力,通常需要在類似的大型數據集上從頭開始重新訓練。這與人類形成了鮮明的對比,人類有一種非凡的能力,可以在之前的經驗基礎上,從少數幾個例子中學習新概念。在本論文的第一部分,我們將研究如何構建系統來模擬這種快速適應新任務的能力。本文這一部分的核心原則之一是,利用大量以前的經驗/任務中的結構來實現快速適應和不確定性。首先,我們將研究獎勵規范的設置,這是強化學習中的一個常見挑戰,接下來,我們將研究元學習設置的概率框架如何能夠在不確定性下進行推理。

在本文的第二部分中,鑒于先前的任務數據集在加速學習方面發揮的潛在作用,我們將提出一個自然的問題:如何讓智能體完全自主地收集數據。這將消除人類為人工智能“管理”任務數據集的需要,并實現完全可擴展的、永無止境的具身學習。我們所采取的方法的中心主題將是考慮智能體必須解決的在線現實世界“任務”的本質,并通過它重新審視偶發性RL的基本假設。最后,我們將在現實世界靈巧操作領域展示這些想法,并為今后在這種更“自主”的強化學習設置方面的工作提供一些提示。

付費5元查看完整內容

現代深度強化學習(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題,在本論文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在特定的環境分布上進行學習,從這些環境中采樣特定的任務,并直接優化元學習器,以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布,元學習器可以調整自己的歸納偏見,使其能夠在測試時快速適應。

本論文的重點是設計元學習算法,利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法,利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此,在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念簡單,但使用情景間記憶的元學習非常有效,仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。

論文的第一部分集中在“具身”類環境,其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分,我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先,我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環境中行動。接下來,我們討論了一個通用的和強大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數據效率的巨大改進。最后,我們開發了一種方法,可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲,目的是(1)使它們在研究社區中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應用中使用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

來自卡內基梅隆大學機器人研究所Zhanghao博士論文,他師從著名的邢波教授!博士題目是機器學習并行可以是自適應的、可組合的和自動化的,不可錯過!

Zhang hao, 卡內基梅隆大學機器人研究所博士,導師是Eric Xing教授。畢業后將加入加州大學伯克利分校的RISE實驗室,做博士后。 //www.cs.cmu.edu/~hzhang2/

Machine Learning Parallelism Could Be Adaptive, Composable and Automated

近年來,機器學習(ML)領域的創新步伐加快,SysML的研究人員已經創建了在多個設備或計算節點上并行化ML訓練的算法和系統。隨著ML模型在結構上變得越來越復雜,許多系統都努力在各種模型上提供全面的性能。一般來說,根據從適當的分布策略映射到模型所需的知識數量和時間,ML的規模通常被低估了。將并行訓練系統應用到復雜的模型中,除了模型原型之外,還增加了重要的開發開銷,并且經常導致低于預期的性能。本文識別并解決并行ML技術和系統實現在可用性和性能方面的研究挑戰。

本文的第一部分提出了一個簡單的設計原則,自適應并行化,它根據特定的ML屬性將適當的并行化技術應用于模型構建塊(如層)。接下來,我們導出了一系列優化ML并行化不同方面的優化和實現。我們對它們進行了研究,并表明它們顯著提高了ML訓練在適用場景下對集群進行2-10倍的效率或可伸縮性。

為了推廣這種方法,本論文的第二部分將ML并行化為端到端優化問題,并尋求自動解決它,用于ML并行任務的兩種廣泛范例:單節點動態批處理和分布式ML并行。我們提出了有原則的表示來表示兩類ML并行性,以及可組合的系統架構,分別是Cavs和AutoDist。它們支持為不可見的模型快速組合并行化策略,提高并行化性能,并簡化并行ML編程。

在此基礎上,本文的第三部分提出了自動并行化框架AutoSync,用于自動優化數據并行分布訓練中的同步策略。AutoSync實現了“開框即用”的高性能——它在提議的表現方式所覆蓋的范圍內導航,并自動識別同步策略,這些同步策略的速度比現有手動優化的系統快1.2 - 1.6倍,降低了分布式ML的技術障礙,并幫助更大的用戶社區訪問它。本文所開發的技術和系統為分布式環境下大規模ML訓練的端到端編譯器系統的概念和原型實現提供了理論依據。

論文結構:

第一部分(第三章-第五章):通過自適應并行來理解和優化并行ML在各個方面的性能; 第二部分(第六章-第七章):開發ML并行的統一表示和可組合系統; 第三部分(第八章):自動化ML并行化

付費5元查看完整內容

與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。

由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。

在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。

//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

付費5元查看完整內容
北京阿比特科技有限公司