大型對抗性不完全信息博弈的均衡發現
不完全信息博弈模型是指具有私有信息的多個主體之間的交互作用。在這種情況下,一個典型的目標是接近一個均衡,在這個均衡中,所有主體的策略都是最優的。本文描述了大型對抗不完全信息博弈均衡計算方面的若干進展。這些新技術使人工智能智能體首次有可能在全規模撲克游戲中擊敗頂級人類專業人員。幾十年來,撲克一直是人工智能和博弈論領域的一大挑戰。
我們首先介紹了反事實后悔最小化(CFR)的改進,這是一種收斂于雙方零和博弈納什均衡的迭代算法。我們描述了CFR的新變種,使用折現來顯著加快收斂速度。這些新的CFR變體現在是大型對抗非完全信息博弈的最先進的均衡發現算法。我們還介紹了第一種熱啟動CFR的通用技術。最后,我們介紹理論健全的剪枝技術,可以在大型博弈中數量級地加速收斂。
接下來,我們將描述通過自動抽象和函數近似將CFR擴展到大型游戲的新方法。特別地,我們介紹了第一個在不完全信息博弈中離散連續動作空間的算法。我們將其擴展到求解具有連續動作空間博弈的算法中。
之后,我們介紹了Deep CFR,一種使用神經網絡函數近似而不是基于bucketing的抽象形式。Deep CFR是第一個可擴展到大型游戲的non-tabular形式的CFR,它使CFR能夠在幾乎沒有領域知識的情況下成功部署。最后,我們提出了一種新的不完全信息博弈搜索技術,以確保智能體的搜索策略不會被對手利用。方法,它在計算上比以前的方法要代價要少得多。最最后,我們提出了一種在訓練和測試時結合強化學習和搜索的算法ReBeL。它朝著彌合完全信息游戲和不完全信息游戲研究之間的差距邁出了重要的一步。
人類具有從經驗中不斷學習的非凡能力。我們不僅可以把以前學過的知識和技能應用到新的情況中,我們還可以把這些作為以后學習的基礎。人工智能(AI)的宏偉目標之一是構建一種人工的“持續學習”代理,通過對越來越復雜的知識和技能的自主增量開發,從自身經驗構建對世界的復雜理解。然而,盡管有早期的推測和開創性的工作,很少有研究和努力致力于解決這一愿景。當前的人工智能系統在面對新數據或環境下時會受到很大的影響,這些數據或環境甚至與它們所接受的訓練稍有不同。此外,學習過程通常局限于狹窄、孤立的任務中的固定數據集,這很難導致更復雜、更自主的智能行為的出現。從本質上說,持續學習和適應能力,雖然通常被認為是每一個智能主體的基本支柱,但基本上被排除在人工智能的主要研究焦點之外。在這篇論文中,我們根據機器學習研究的最新進展和人工智能的深層架構來研究這些思想的應用。我們提出了一個全面和統一的框架,以持續學習,新的指標,基準和算法,以及提供大量的實驗評估在不同的監督,非監督和強化學習任務。
與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。
由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。
在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。
//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/
這是一本關于理論計算機科學的本科入門課程的教科書。這本書的教育目的是傳達以下信息:
? 這種計算出現在各種自然和人為系統中,而不僅僅是現代的硅基計算機中。 ? 類似地,除了作為一個極其重要的工具,計算也作為一個有用的鏡頭來描述自然,物理,數學,甚至社會概念。 ? 許多不同計算模型的普遍性概念,以及代碼和數據之間的二元性相關概念。 ? 一個人可以精確地定義一個計算的數學模型,然后用它來證明(有時只是猜測)下界和不可能的結果。 ? 現代理論計算機科學的一些令人驚訝的結果和發現,包括np完備性的流行、交互作用的力量、一方面的隨機性的力量和另一方面的去隨機化的可能性、在密碼學中“為好的”使用硬度的能力,以及量子計算的迷人可能性。
當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在連續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。****
表示學習(representation learning), 又稱表征學習,是指將輸入數據轉化成 適用于機器學習形式的過程。通常地,機器學習的性能依賴于對數據表示的選 擇,一個好的表示可以使得模型對輸入數據進行更好的理解。近年來,神經網絡 的興起,使得我們可以自動地對輸入數據進行特征抽取。這極大推動了表示學習 的發展,并給我們帶來了進一步探究的可能性。
一般地,表示學習的研究可以按照不同角度進行劃分:從學習方式上,可以 分為有監督學習和無監督學習;從輸入數據模態上,可以分為文本表示、圖像表 示以及語音表示;從共享獨立性上,可以分為共享表示和私有表示。在自然語言 處理中,使用深度學習技術(即深度神經網絡)對文本進行表示學習已經成為一 個很有價值的研究方向。本文工作圍繞著以下問題展開:1)對于不同粒度的文 本(詞語、句子、句對),如何設計合理的結構,使得模型可以學習到適合最終任 務的表示?深度學習的到來使得自然語言處理中的研究工作由原來的特征工程 (feature engineering) 過渡到了現在的結構工程 (architecture engineering) ,而對于 文本的表示學習,首先要解決的最基本問題就是尋找合適的歸納偏置 (inductive bias),使得模型可以更好地對輸入文本進行編碼。而本文分別針對不同粒度的文 本信號,進行相應的網絡結構探索,希望找到更適合下游任務的結構偏置。2)如 何進行針對性的遷移學習?有針對性地進行遷移是指我們要對遷移的知識“按 需分配”,這就要求我們學習的知識應該具備可遷移性,此外,我們還要對已有 的知識進行可理解分析,從而可以分離我們真正需要的知識,最終實現知識的定 向遷移。對于以上兩個亟待解決的問題,本文通過兩個方面,九個章節進行遞進 式探討,其貢獻總結如下:
一方面,對于不同粒度文本的表示學習,本文分別探索了最適合下游任務的 歸納偏置,并且利用這些歸納偏置設計新的模型,這些模型在主流的數據集上都 取得了當時最好的效果。
關鍵詞:深度學習;語義表示學習;自然語言處理;歸納偏置;知識遷移
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。
在復雜的以人為中心的系統中,每天的決策都具有決策相關信息不完全的特點。現有決策理論的主要問題是,它們沒有能力處理概率和事件不精確的情況。在這本書中,我們描述了一個新的理論的決策與不完全的信息。其目的是將決策分析和經濟行為的基礎從領域二價邏輯轉向領域模糊邏輯和Z約束,從行為決策的外部建模轉向組合狀態的框架。
這本書將有助于在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學的專業人員,學者,經理和研究生。
讀者:專業人士,學者,管理者和研究生在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學。
強化一詞來源于實驗心理學中對動物學習的研究,它指的是某一事件的發生,與某一反應之間有恰當的關系,而這一事件往往會增加該反應在相同情況下再次發生的可能性。雖然心理學家沒有使用“強化學習”這個術語,但它已經被人工智能和工程領域的理論家廣泛采用,用來指代基于這一強化原理的學習任務和算法。最簡單的強化學習方法使用的是一個常識,即如果一個行為之后出現了一個令人滿意的狀態,或者一個狀態的改善,那么產生該行為的傾向就會得到加強。強化學習的概念在工程領域已經存在了幾十年(如Mendel和McClaren 1970),在人工智能領域也已經存在了幾十年(Minsky 1954, 1961;撒母耳1959;圖靈1950)。然而,直到最近,強化學習方法的發展和應用才在這些領域占據了大量的研究人員。激發這種興趣的是兩個基本的挑戰:1) 設計能夠在復雜動態環境中在不確定性下運行的自主機器人代理,2) 為非常大規模的動態決策問題找到有用的近似解。
教機器理解人類語言文檔是人工智能中最難以捉摸和長期存在的挑戰之一。本文探討了閱讀理解的問題:如何構建計算機系統來閱讀文章和回答理解問題。一方面,我們認為閱讀理解是評價計算機系統對人類語言理解程度的一項重要任務。另一方面,如果我們能夠構建高性能的閱讀理解系統,那么它將成為問答和對話系統等應用的關鍵技術。本文以神經閱讀理解為研究對象:一種基于深度神經網絡的閱讀理解模型。與傳統的稀疏的、手工設計的基于特征的模型相比,這些端到端神經模型在學習豐富的語言現象方面更加有效,并且在所有現代閱讀理解基準上的表現都有很大的提高。本文由兩部分組成。第一部分是對神經閱讀理解的本質進行概括,介紹我們在構建有效的神經閱讀理解模型方面所做的努力,更重要的是了解神經閱讀理解模型實際學到了什么,以及解決當前任務需要什么樣的語言理解深度。我們還總結了該領域的最新進展,討論了該領域的未來發展方向和有待解決的問題。在本文的第二部分,我們探討了如何在最近神經閱讀理解成功的基礎上建立實際應用。特別是,我們開創了兩個新的研究方向:1)如何將信息檢索技術與神經閱讀理解相結合,解決大規模開放領域的問題;(2)如何從當前的單圈、跨步閱讀理解模式中構建會話問答系統。我們在DrQA和CoQA項目中實現了這些想法,并證明了這些方法的有效性。我們相信他們對推動未來的語言技術有很大幫助。
論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning
作者:Tuomas Haarnoja
導師:Pieter Abbeel and Sergey Levine
網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html
論文摘要:
在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。