本項目的目標是提高具有智能體間通信基礎設施的多智能體分布式任務協調的效率。在這個項目的第一階段,我們探索了基于共識的捆綁算法(CBBA)在預算約束下的分布式任務分配的改進。CBBA技術的局限性在于,環境必須被所有的智能體預先知道,任務必須被明確定義,并有已知的成本和獎勵。這種技術顯然不適合在未知環境中的合作任務,在這種環境中,智能體必須一起探索和即興行動。在這個項目的第二階段,我們研究了在未知環境中執行任務的合作技術,其中智能體只有部分觀察。該研究使用多智能體捕食者和獵物游戲作為平臺。目標是讓智能體聯合定位并捕獲獵物。智能體對環境和獵物的逃逸算法沒有事先了解。他們相互交流,以獲得超出他們自己本地觀察范圍的環境信息。基于他們對環境的局部理解,智能體選擇自己的行動,包括在哪里移動以及是否與其他智能體溝通,以使團隊獎勵最大化。強化學習被應用于優化智能體的政策,以便用最少的步驟完成游戲。
第二階段研究的主要貢獻是信仰圖譜輔助的多智能體系統(BAMS)。信念圖代表了智能體在融合了傳入的信息后所保持的環境的隱藏狀態。通過將信仰圖譜與強化學習框架相結合,并向信仰圖譜提供反饋,我們加速了訓練并提高了系統可以獲得的獎勵。在不同復雜程度的環境中,使用合作的捕食者和獵物游戲對BAMS的性能進行了評估。與現有的具有信息傳遞能力的多智能體模型相比,BAMS具有以下優點。
1)訓練收斂速度快68%,使用BAMS模型訓練的智能體完成游戲的步驟少27.5%。
2)它具有強大的性能。在應用模式中,智能體的數量不必與訓練環境相同。
3)智能體之間的信息是加密的。BAMS中的信息是智能體對環境信念的學習表示的向量。它們不僅包含關于智能體和環境的當前狀態的信息,而且還包含未來的狀態。每個數字都與智能體或環境的任何物理屬性沒有對應關系。除非有經過訓練的BAMS模型,否則不可能解碼這些信息。
4)智能體在訓練中達成默契。從實驗結果來看,使用BAMS訓練的智能體似乎不需要明確的交流就能理解對方的意圖。
強化學習(RL)是一種有希望的訓練智能體的框架,這些代理通過直接與環境互動來學習優化長期效用。創建可擴展到大規模狀態-行動空間的RL方法是確保RL系統在現實世界中部署的關鍵問題。然而,幾個挑戰限制了RL在大規模設置中的適用性。這些包括與探索、低樣本效率、計算不可行性、任務約束(如去中心化)有關的困難,以及關于在可能未見過的情況下的表現、泛化和穩健性等重要屬性的保證的缺乏。
這篇論文的動機是為了彌合上述的差距。我們提出了幾種原則性的算法和框架來研究和解決RL中的上述挑戰。所提出的方法覆蓋了廣泛的RL設置(單一和多代理系統(MAS),后者中的所有變化,預測和控制,基于模型和無模型的方法,基于價值和基于策略的方法)。在這項工作中,我們針對幾個不同的問題提出了首次的結果:例如,Bellman方程的張量化,這允許指數樣本效率的增益(第4章),MAS中由結構約束導致的可證明的次優性(第3章),合作MAS中的組合泛化結果(第5章),關于觀察偏移的泛化結果(第7章),在概率RL框架中學習確定性策略(第6章)。我們的算法明顯地提高了性能和樣本效率,并提高了可擴展性。此外,我們還闡述了在不同框架下代理的泛化方面。這些屬性都是通過使用幾種高級工具(例如,統計機器學習,狀態抽象,變分推斷,張量理論)來驅動的。總的來說,這篇論文的貢獻顯著推動了使RL代理準備好應用于大規模,真實世界應用的進程
本項目的目標是利用智能體間通信基礎設施提高多智能體任務分布式協調的效率。在這個項目的第一階段,我們探索了基于共識捆綁算法(CBBA)的增強,用于預算約束下的分布式任務分配。CBBA技術的局限性在于,所有智能體必須預先知道環境,并且必須清楚地定義具有已知代價和回報的任務。這種技術顯然不適合在未知環境下的合作任務,因為智能體間必須一起探索和即興發揮他們的行動。在本項目的第二階段,我們研究了在未知環境下,智能體只有部分觀測的任務合作技術。本研究以多智能體捕食博弈為平臺。目標是讓智能體共同定位和捕獲獵物。智能體對環境和獵物的逃跑算法沒有先驗知識。他們相互交流,以獲得超出自己局部觀測的環境信息。基于對環境的局部理解,智能體選擇自己的行動,包括移動到哪里以及是否與其他智能體通信,以最大化團隊獎勵。應用強化學習來優化智能體的策略,使游戲以最少的步驟完成。
我們第二階段研究的主要貢獻是信念圖輔助多智能體系統(BAMS)。信任映射表示智能體在融合傳入消息后維護環境的隱藏狀態。通過將信念圖與強化學習框架集成,并向信念圖提供反饋,我們加速了訓練并提高了系統可以接收的獎勵。在不同復雜程度的環境中,使用捕食者和獵物合作游戲來評估BAMS的性能。與具有消息傳遞功能的現有多智能體模型相比,BAMS提供了以下優點:
1)訓練收斂速度加快68%,使用BAMS模型訓練的智能體完成游戲的步數減少了27.5%。
2)性能穩健:應用模式下,智能體的數量不必與訓練環境相同。
3)對智能體之間的通信信息進行加密。BAMS中的信息是智能體對環境信念的學習表征的向量。它們不僅包含關于智能體和環境的當前和未來狀態的信息。每個數字與智能體或環境的任何物理屬性都不對應。除非有經過訓練的BAMS模型,否則不可能解碼信息。
4)智能體在訓練過程中達成默契。從實驗結果來看,使用BAMS訓練的智能體似乎可以在沒有明確通信的情況下理解彼此的意圖。
5)解碼后的信念圖為智能體的決策提供了一個粗略的解釋。在BAMS中,信念圖解碼器與策略網絡一起訓練。通過將信念圖與實際圖進行比較,系統接收到額外的反饋通道,從而監督訓練過程。在執行過程中,信念圖提供了一種解釋智能體隱藏狀態的方法,可以進一步用于解釋智能體的行為。
人工智能(AI)智能體正在并將繼續成為我們周圍世界中不可或缺的關鍵參與者。我們希望智能體能使我們的生活變得更好、更容易、更安全、更有趣、更有價值。但很明顯,智能體并不總是以我們期望的和我們希望的方式行事。有時,這是因為它們的設計中存在錯誤的規定或缺陷,有時則是因為它們在建造時考慮到了惡意的目標。這篇論文表明,通過仔細思考智能體的世界模型和激勵機制,我們可以設計出性能更強、對對抗性攻擊更強大的多智能體系統。
其中一項研究考慮了在有買票人的情況下選舉系統的設計--買票人是一個試圖付錢給選民讓他們以某種方式投票,從而改變選舉結果的實體。假設選票購買者的預算有限,并試圖從有可能改變選舉結果的選民亞群中購買選票,這項研究顯示了運行和管理選舉的選舉當局如何通過分發誘餌選票并利用這些選票來消耗選票購買者的預算來保護選舉的完整性。
介紹了兩個新的多智能體學習框架。第一個框架包括對Arcade學習環境和OpenAI Gym的一系列修改,允許訓練和部署多個智能體,以及通過寫入模擬器RAM任意修改環境。第二個是一個新的環境(Javatari學習環境),用于將人工智能體與人類一起部署。利用這些新的框架,這項工作研究了可以與人類或低技能智能體在同一世界中合作行動的輔助代理的設計。
**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。
**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。
DCIST聯盟成員的一篇論文開發了一種多智能體強化學習(MARL)算法,該算法使用編碼理論來減輕分布式訓練中的滯留者效應。滯留者是指延遲的、無反應的或被破壞的計算節點,由于通信瓶頸和對抗性條件,在分布式學習系統中經常發生。編碼技術已經被用來加速存在散兵游勇的分布式計算任務,如矩陣乘法和逆問題。他們提出的編碼分布式學習框架可以與任何策略梯度方法一起應用,在存在散兵游勇的情況下為MARL問題訓練策略。他們開發了多智能體深度確定性策略梯度(MADDPG)的編碼分布式版本,這是一種最先進的MARL算法。為了全面了解編碼在分布式MARL中的好處,他們研究了各種編碼方案,包括最大距離可分離(MDS)編碼、隨機稀疏編碼、基于復制的編碼和常規低密度奇偶校驗(LDPC)編碼。所有這些方法都在幾個多機器人問題的模擬中實現,包括協作導航、捕食者-獵物、物理欺騙和遠離任務。他們的方法實現了相同的訓練精度,同時大大加快了策略梯度算法的訓練速度。
圖 1:MARL 的未編碼分布式學習示意圖。
在戰術情報、監視、目標獲取和偵察(ISTAR)中,移動特設傳感器智能體合作實現收集任務,以彌補信息需求和信息收集之間的差距,從而保持持久的態勢感知。針對有限的機載傳感器平臺資源能力和能耗,最新的貢獻往往采用特設規定的傳感器行為,導致過度保守的連接約束和有偏見的決策。 其他的方法是假設一個分割的空間,持續的網絡連接或約束放松,以減少問題的復雜性。但是,這些可能會傳達一個重要的機會成本,并不利于整體性能,遠離收集價值最大化,只要數據路由是可行的。本文提出了一種創新的方法來處理移動特設傳感器網絡/蜂群收集任務的問題,該方法考慮了有限的機載處理能力和數據傳播的能耗預算。收集規劃依賴于一種新的開環反饋決策模型的制定。它包括反復求解一個靜態決策問題,使采集值在一個逐漸縮小的時間范圍內最大化。偶發性決策受傳入請求、累計采集值、正在進行的資源承諾、剩余資源能力和上一階段的反饋影響。該方法結合了一個新的緊湊圖表示和一個近似的路徑規劃決策模型,受制于周期性連接。
本科學報告提出了新的收集任務決策支持技術概念,為實現數字化指揮和控制(C2)解決方案鋪平了道路,以支持戰術陸地指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)。這種新的傳感器網絡收集任務概念,以保持持久的態勢感知,完全符合加拿大陸軍陸上需求局(DLR)2的意圖,即實現戰術決策-行動周期的自動化和優化。這項工作旨在及時向DLR 2和陸地情報、監視、偵察(ISR)現代化資本采購項目的定義階段通報戰術邊緣的新的自動化和優化收集任務技術概念,并確定有希望的研究方向。倡導的概念為敏感目標定位、動態收集任務重新分配、收集器集成以及新的自動化收集任務解決方案的可行性和價值帶來了新的視角。所提出的核心概念計劃在適當的國家和國際場合,如關鍵的選定的軍事演習和/或技術合作計劃(TTCP)中逐步和適時地展示。這將為其他 "五眼 "國家提供必要的能見度和適當驗證的機會窗口,同時獲得對加拿大感興趣的有競爭力的最新技術。
該文件的其余部分分為以下幾個部分:
第2節介紹了傳感器網絡收集任務的問題。
然后在第3節中強調了一種新的收集任務的方法,以保持持久的態勢感知。第3節介紹了一種新的收集任務分配方法,以保持持久的態勢感知。該節提出了一個總體概述,并強調了其主要特征和相關的新穎性。然后分別進一步描述了一種創新的收集圖表示、一種新的連接性約束處理方法和一種管理臨時代理收集的數學決策模型表述。然后介紹了所促進的具有成本效益的通信規劃/路由方案的細節。
第4節描述了自然問題模型的擴展,以處理連通性的不確定性,并隨時捕捉多個目標。
第5節簡要討論了問題復雜性的降低。
第6節報告了計算結果,并對各種基線問題解決技術進行了一些性能比較分析,以評估擬議方法的價值。
最后,第7節給出了一個結論,簡要總結了報告的主要貢獻和預期的未來工作。
人工智能的進步往往源自于新環境的開發,這些環境將現實世界中的情況抽象為便于研究的形式。本文基于初級微觀經濟學的啟發,提供了這樣一個新環境。智能體學會在一個復雜空間的世界中生產資源,相互交易,并消費他們喜歡的資源。我們發現出現的生產、消費和定價行為對環境條件改變的反應與微觀經濟學中的供給和需求轉變所預測的方向一致。我們還證明了智能體商品的緊急價格隨空間的變化能夠反映當地商品的豐富程度。在價格差異出現后,一些智能體發現了在具有不同現行價格的地區之間運輸貨物的商機--這是一個有利可圖的策略,因為他們可以在便宜的地方購買貨物,在昂貴的地方出售貨物。最后,在一系列的消融實驗中,我們研究了如何在環境獎勵、易貨貿易行動、智能體結構和消費可交易商品的能力中進行選擇,從而幫助或抑制這種經濟行為的出現。這項工作是一項研究計劃中環境開發分支的一部分,該計劃旨在通過模擬社會中的多智能體互動來建立類似人類的人工通用智能。通過探索學習過程中自動出現的初級微觀經濟學基本現象所需的環境特征,我們得到了一個不同于先前多智能體強化學習在多個維度上進行研究的新環境。例如,該模型包含了各種各樣的興趣和能力,并且智能體之間的談判是一種基礎的通信形式。為了促進這方面的進一步工作,我們將發布環境的開源實現作為 Melting Pot 套件的一部分(Leibo 等人,2021 年)。
我們希望構造能夠像人類一樣進行創新的人工智能體。我們認為決策理論和強化學習(或 RL)等理論和算法框架與此目標相關。然而,我們還沒有成功地建立這樣的智能體,原因之一是這些理論擅長的東西(主要是加強薄弱和不可能的行為,使其變得更加普遍和完善)與我們實際希望它們做的事情之間的存在根本矛盾,我們希望它們能夠發現真正新穎和創新的行為,然而這些行為在它們學習的開始階段根本沒有任何出現的頻率。
任何曾經試圖訓練鴿子打保齡球的人都可以證明,如果你必須等到鴿子自發的出現期望的行為時才提供第一個獎勵,那么你將不得不等待很長的時間(Peterson, 2004)。就貝葉斯決策理論而言,先驗分布必須在其支持范圍內包含新行為。 否則,任何證明其優越性的證據都不足以將其概率從零推低(Kalai 和 Lehrer,1993 年)。 L. J. Savage 用一對諺語說明了這個問題。 一個小世界是一個你總是可以“先看再跳”的世界。 一個廣闊的世界是一個你有時必須“當你到達它時越過那座橋”的世界(Binmore,2007;Savage,1951)。 貝葉斯決策理論只在小世界中有效。 然而現實世界很大。
在大的世界里,RL變成了一個關于如何加強薄弱行為的理論,而不是一個關于如何產生全新行為的理論。這是因為,在第一次出現足夠接近的創新行為之前,創新行為是無法被強化的。RL研究人員采用了各種方法來鼓勵智能體不斷產生新的行為。許多方法相當于在行動選擇中注入隨機性,如e-greedy和熵正則化玻爾茲曼探索(Sutton和Barto,2018)。Osband等人(2019)稱這種方法為隨機抖動。抖動為智能體提供了體驗其從未嘗試過的行為并獲得的獎勵的機會。然而,抖動是一種穿越大世界的低效方式。考慮一下:一個e-greedy的智能體以1的概率選擇它目前認為是最好的行動,否則就從所有可用的行動中均勻地隨機選擇。它發出任何特定的新行為序列--即不包含最初認為有價值的行動的序列--的概率隨著序列長度的增加而呈指數下降(Kakade,2003;Osband等人,2019)。樂觀的初始化是另一種探索方法,它使智能體對每個狀態和行動的初始獎勵估計有積極的偏差(Sutton和Barto,2018)。然而,由于缺乏關于將”樂觀“放在何處的先驗知識,它會降低到的一般驅動力去探索所有狀態和行動,在大世界中這是一項不可能的任務,也是一種低效和分散注意力的偏見。
在RL中還有許多其他更復雜的探索方法,但由于同樣的原因,所有這些方法在大世界中都很困難:目標行為離當前最清楚的行為越遠,智能體必須對它認為不具吸引力的行為做出更多地嘗試,以便找到它。在大世界中,目標行為可能確實非常遙遠。更復雜的探索方法尋求比隨機抖動更明智地選擇實驗動作,但在不結合先驗知識的情況下,這種方式可以獲得多少效率是有限度的(Osband 等人,2019 年)。因此,當有益的行為(即行動序列)在學習之前從未偶然出現,而且隨機智能體從未產生這些行為時,RL往往不善于發現這些行為。然而,這些正是我們最想發現的行為。我們知道人類可以創新:例子包括譜寫貝多芬的第五交響曲,設計航天器將宇航員帶到月球,以及設計農業技術為數十億人提供食物。我們希望開發能夠像人類一樣創新的算法。
到目前為止,我們已經假設我們不能依賴智能體的學習環境具有任何特定的結構。這個假設背后的邏輯很清楚:既然我們希望我們的RL智能體在任何環境中都能成功,那么我們就必須傾向于最終在所有環境中都收斂的探索技術,如e-greedy,特別是那些沒有先驗知識可以利用的環境。這個出發點使我們對RL解釋創新的能力得出了一個悲觀的結論。另一方面,允許有先驗知識將完全改變情況。有許多RL算法在獲得某種形式的正確先驗知識時,即使在大世界中也能有效地探索(例如Gupta等人(2018))。也許通過將我們的注意力限制在像人類進化的自然環境中,我們可以發現創新的根本要素。畢竟,自然環境只覆蓋了所有可能環境空間的一小部分,而它們可能具有促進其中的智能體進行探索的有用特性。此外,我們通常用于研究的 RL 環境從未打算作為有助于自然智能進化或發展的情境模型。他們可能無法系統地捕捉自然環境的重要特性。
事實上,兩條獨立的生物學證據和推理表明,我們大多數的RL環境錯過了自然環境中存在的一些重要東西。在實驗室的動物中,對飼養環境的操作而產生的變化對動物大腦結構和行為都產生了深刻的影響。例如,實驗室嚙齒動物的環境可以通過使用更大的籠子來豐富,籠子里有更多的其他個體--創造更多的社會互動機會,可變的玩具和喂食地點,以及一個允許自己轉動的輪子。在這種豐富的環境中飼養動物可以提高它們的學習和記憶力,增加突觸分支,并增加大腦的總重量(Van Praag等人,2000)。生物學推理的第二個分支是關于靈長類動物進化中出現智力的 "社會腦假說"(Dunbar, 1998)。它是基于這樣的觀察:一個物種的大腦大小與其典型的社會群體大小(根據整體身體大小調整)有很好的相關性。這種相關性在整個靈長類動物中保持不變,它們的大腦大小跨越了三個數量級(Dunbar和Shultz,2017)。一般來說,生活在較大群體中的靈長類動物具有較大的大腦。社會大腦假說表明,由于諸如減輕捕食風險等原因而需要更大的社會群體,從而引發了無數新的社會起源問題。解決這些問題的需要推動了靈長目動物越來越高的智能進化。在RL術語中,該假設是“更聰明”物種的社會豐富環境包含正確的問題組合,以鼓勵智能體尋找智能解決方案。
此外,許多關鍵創新涉及不止一個智能體的協作行為。RL領域解決探索問題的標準方法--內在動機(例如Pathak等人(2017)),特別不適合發現涉及智能體之間廣泛協作的平衡,因為根據定義,內在動機是內在的 - 僅依賴于 自我產生的信號,這些信號不容易與其他人的信號相關聯。
幸運的是,RL 有一個考慮社會豐富環境的子領域:多智能體強化學習 (MARL)。多智能體環境本質上是非穩定的,因為每個智能體的經驗流和最佳行為隨著其他智能體的學習和行為的改變而改變。隨著種群的學習,可能會產生新的智能體可以填補的新利基市場,或者其他智能體可能會開始競爭智能體當前的利基市場。這為智能體提供了外在動機,以隨著人口的適應不斷探索新的行為(Baker 等人,2019;Balduzzi 等人,2019;Leibo 等人,2019a;Wang 等人,2019b)。在理論上,這樣的多智能體系統可以永遠繼續探索。在實踐中,他們經常達到一個平衡點并停止探索。為理解這些系統如何工作所做的工作與人工智能和認知科學的主流 "單智能體范式 "產生了矛盾。簡而言之,所有重要的表示不再位于智能體的“頭腦”內部,而是以某種方式分布在智能體、種群、環境和訓練協議本身之間。
多智能體環境的特點是提供探索的外在動力:因果力量。例如:考慮微觀經濟學中的供應和需求要素。它們是由單個智能體的多個行為聚合而創造的。它們構成了對的智能體的真正激勵力量,這些智能體在經濟理論中充斥著供給和需求的變化將會導致智能體在特定方向上產生改變其行為的系統激勵。例如,我出售一個小部件的價格的增加,激勵我生產更多的小部件。同樣,相互競爭購買我的小部件的智能體商數量減少會激勵我降低出售它們的價格或減少產量。這些因素有時也能激勵創新。如果對我的工廠生產的小商品的需求有足夠大的增長,而且我不能簡單地提高價格,那么我就會被激勵去尋找方法來生產更多的小商品,或者更有效地生產小商品,也許是通過改進制造工藝。這個例子說明,不一定存在探索與開發的權衡。事實上,現實世界的環境往往具有使智能體通過獲利進行探索的屬性(另見Leibo等人(2019b))。
到目前為止,我們已經論證了社會環境--即世界上其他智能體的集合--塑造了reward landscape,從而為智能體的探索和創新提供了外在動力。這些智能體所在的底層環境或基質在激勵智能體創新方面也發揮著作用。例如,一個非常簡單的底層環境只包括一個沒有物體的空房間,無論在其中的智能體群體有多大或多復雜,都不會有創新。我們可以進一步擴展這種論證。考慮一下,如果你將GPT-3(Brown等人,2020)這樣的大型語言模型與最新的基于RL的智能體連接起來,在三維世界中解決復雜的問題(具體來說,也許可以考慮Parisotto等人(2020)或任何其他適用于三維模擬世界的最先進的單智能體RL算法)會發生什么。另外,在這個思想實驗中,假設我們已經以某種方式解決了language grounding的問題(例如在Harnad(1990)中描述)。選擇一個具有現實物理學的三維模擬作為基底,如DMLab-30環境套件的基礎(Espeholt等人,2018)。然后將100個這些最先進的RL智能體連接到它。讓它們能夠通過查詢大型語言模型和相互發送文本流來相互交流。由于我們已經假設語言基礎問題已經解決,因此智能體能夠用名字來指代他們世界中的所有對象,并且這些知識被整合到他們由語言模型提供的更廣泛的語言理解中。讓所有100個智能體同時生活在同一個模擬世界中。現在,會發生什么?社會就是你所需要的 "假說似乎表明,這將足以啟動一個累積性的文化創新爆炸棘輪。但真的會這樣嗎?當然,底層的具體屬性也很重要。我們不相信任何含有足夠復雜性的環境都能產生創新,甚至對于一個包含大量認知能力的個體智能體的多智能體系統也是如此。這就提出了一個問題:環境的哪些屬性重要,哪些不重要?一個環境是否有必要和充分的條件來 "允許 "實質性的創新?我們甚至如何研究這樣的問題?本論文涉及該領域的一個特定假設:微觀經濟學中重要的屬性對于激勵智能體進行探索和創新也很重要。原因是經濟學是一門激勵科學。經濟學中強調的環境屬性是那些為智能體互動創造激勵的環境屬性。同時在人工智能中,激勵也是智能體探索的動力。激勵是我們認為在僅限社交的思想實驗中所缺乏的。如果沒有任何創新動力,智能體根本不會創新。
通過獲利進行的探索取決于環境對探索的激勵。激勵措施在策略空間上導致了價值梯度的產生。例如,競爭激勵提供了探索的內在動力。一旦一個智能體開始習慣性地利用任何特定的解決方案,它就會激勵其他智能體投入時間和精力來學習如何適應這種反應。在嚴格的競爭性雙人游戲環境中,如圍棋或抬頭撲克游戲(Bowling等人,2015;Silver等人,2017),我們將智能體描述為適應性地利用對方,并且(如果使用適當的算法)將最終將收斂到僵局:納什均衡。然而,這一點可能離他們的初始行為的距離是任意的。在一個大世界里,智能體有可能在很長一段時間內不斷完善它們的行為,并創新新的行為以更好地適應對方。
生產、消費和貿易等經濟行為是由個人制定的,但又交織成一個復雜的整體,由許多個體及其所處環境的相互作用組成。這種行為的相互支持系統會激勵個人學習特定種類的事物,例如如何提高生產過程的效率。這適用于人類經濟,也應該適用于人工經濟。Read(1958)用一個小故事說明了這個觀點,這個故事從一支鉛筆的角度出發,鉛筆自豪地描述了它的誕生。鉛筆的木材來自北加州的一棵直紋雪松樹,由一隊帶著鋸子、卡車和繩子的伐木工人砍下。鉛筆的石墨是在斯里蘭卡開采的,其開采涉及一系列其他工具,必須通過海運運到鉛筆廠。眾多碼頭工人、水手和燈塔看守人都采取行動,以確保其安全通過。故事就這樣持續了好幾頁,直到讀者對誕生了鉛筆的、橫跨全球的合作機器的復雜性產生了真正的敬畏感。Read (1958) 指出,甚至沒有必要讓所有參與鉛筆構造的人都看到最終產品或對它本身有任何興趣。但無論如何,鉛筆生產系統作為一個整體是連接在一起的。事實上,這個系統不僅僅是這樣,它還在蓬勃發展。參與其中的個人不需要關心鉛筆,也不需要知道鉛筆生產的上游或下游步驟,但他們都通過市場經濟提供的激勵系統聯系在一起。所有的人都朝著他們的目標行動,而市場這只 "看不見的手 "協調著他們的活動。此外,考慮一下如果對鉛筆的需求增加會發生什么,例如,如果總人口數量增加,就會發生這種情況。在其他條件相同的情況下,對鉛筆的更大需求創造了對石墨和雪松木的更大需求。這激勵了所有參與鉛筆生產供應鏈的許多不同的人,使他們提高當地的效率,所以他們最終可能會利用需求的增加,銷售更多的產品,獲得更大的利潤。就強化學習而言,市場經濟所創造的激勵措施被智能體體驗為策略空間上的價值梯度。施加這樣的梯度對代理人最終學習的策略可能有很大影響。
在本文中,我們將準確研究最先進的RL多智能體群體中的微觀經濟行為(生產、貿易和消費)是如何產生的。在我們稱為 Fruit Market 的環境中,利用深度RL智能體從頭開始學習如何生產、交易和消耗資源,以最大化他們的個人獎勵。當環境以微觀經濟學 101 學生熟悉的方式發生變化時,通過調整與供給或需求相關的環境特征,人口的均衡生產、消費和定價行為等要素使其在很大程度上朝著我們對微觀經濟學的預期方向轉變。我們的環境包括空間和時間的維度,允許出現諸如反映附近資源豐富的當地價格以及學習利用這些價格差異的智能體的套利行為等現象。然而,我們的工作并不是真正將最先進的人工智能應用于經濟建模(為此,請參閱 Zheng et al. (2020))。相反,我們的目標是探索這種微觀經濟行為的產生,就像我們在創建通用人工智能 (AGI) 的廣泛項目中研究任何其他社會行為一樣。
這項工作的一個關鍵要素是我們探索必須將哪些微觀經濟知識(如果有)構建到環境中,以便當前最先進的智能體發現和改進生產、消費、易貨和套利行為。我們把自己限制在只調整環境上。我們使用的智能體是通用的深度強化學習智能體,它已被廣泛用于其他MARL研究中。它們從一個隨機初始化的狀態開始訓練,沒有特定領域的先驗知識、參數調整或代碼。在這種情況下,我們發現了許多操縱環境的方法,這些方法可以從根本上改變群體收斂的最終行為,方法中包括智能體之間的貿易是否繁榮,或者根本沒有出現。除了證明智能體成功學習的經驗結果外,我們還對這些環境選擇進行了大量分析,以說明為什么會做出這些選擇,以及其他選擇的表現如何。例如,我們將證明,如果當前的智能體進行交易的行動過于簡易,如 "在地上丟一個物品 "或 "給另一個代理人一個物品",則他們不會學會交易。這些動作可以用來交易貨物,但很難學會恰當地使用它們:如果另一個智能體還沒有學會給予其他東西作為回報,為什么要把物品給他?然而,如果環境含有一種機制,通過使交換原子化來促進交易--在已達成協議的代理之間同時交換物品--那么智能體就能持續學習如何進行交易。在現實世界中,會有一整套的慣例、規范和制度來支持這一點,例如私有財產所有權的概念,用來協調每個人的期望,使交易能夠或多或少地以原子方式進行(Segal and Whinston, 2013)。當我們假設一個自動的貿易便利化機制時,我們避開了所有這些結構如何出現的關鍵問題。這一舉措對于目前的工作是至關重要的。否則,我們將無法使用今天最先進的通用智能體取得進展。然而,如果我們的智能體在未來沒有這樣的機制就不能學習,這將最終對我們的MARL智能體的通用性產生負面影響,因為肯定有許多重要的經濟行為和現象是由潛在的市場誘導慣例、規范和機構的屬性決定的(Coase, 1988)。在不否定這種市場誘導結構的重要性的情況下,我們暫時把它們放在一邊。通過把注意力集中在以自動貿易解決機制為特征的案例上,我們能夠在下游問題上取得進展,如環境變化(如供應和需求轉變)如何影響出現的生產、消費、易貨和套利行為。學習這些行為對MARL智能體來說仍然是一項復雜的壯舉,因為它們涉及到在哪里收獲什么,到哪里去尋找其他人進行交易的交錯決策,以及提出和接受什么提議。
人工智能研究依賴于捕捉重要認知和社會挑戰的模擬環境。這是因為在這種環境中學習的智能體面臨著激勵措施,該環境中包含促使他們養成認知的習慣,發現描述他們的世界以及他們如何在其中進行有效行為等基本概念(Silver等人,2021)。這種研究方法的一個含義是,為了實現構建具有通用能力的智能體為目標,研究人員必須不斷地增加所考慮的環境集。最終,它應該反映對所有概念上不同的智力原則的全面解釋。對于在現實生活中如此豐富的社會智能領域,它在MARL研究中的鏡像仍然非常不完整。我們在這項工作中的目標是將交易、談判、專業化和適應不斷變化的人口等主題加入到MARL研究的領域中。為了促進這個方向的進一步研究,我們已經準備了一個開源版本的環境,并將把它作為熔爐環境套件納入下一個版本(Leibo等人,2021)。