多智能體學習(MAL)中的合作是一個跨越多個學科的主題,包括博弈論、經濟學、社會科學和進化生物學。這一領域的研究旨在理解智能體如何在目標一致時有效協調以及在合作可能帶來收益但沖突可能性豐富的環境中如何合作。在這篇論文中,我們提供了多智能體學習的基本概念、問題設置和算法的概述。這包括強化學習、多智能體順序決策制定、與多智能體合作相關的挑戰,以及對最近進展的全面回顧,連同相關度量標準的評估。最后,我們討論了該領域的開放性挑戰,旨在激發新的研究途徑。 合作型多智能體學習(MAL)研究讓多個智能體能夠學習如何在共享環境中協作、適應和做出決策的算法和策略。隨著多智能體系統在我們這個科技驅動的世界中變得越來越普遍,確保智能體之間有效和無縫合作的重要性也在增長。
合作型MAL自然與經濟學[Zheng et al., 2021a; Johanson et al., 2022]和進化生物學[Jaderberg et al., 2019; Dué?ez-Guzmán et al., 2023]等多個其他領域交叉。社會科學的其他概念,如溝通、規范和信任[Hertz et al., 2023],也扮演著重要角色。博弈論為理解智能體之間的戰略互動提供了堅實的基礎,包括合作和非合作決策制定[Shapley, 1953; Littman, 1994]。它的數學形式主義與經濟學原理相一致,并在智能體需要最大化共享效用或在充滿潛在沖突的環境中需要鼓勵合作的情況下特別有用。
雖然MAL這一更廣泛的領域涵蓋了廣泛的主題,但我們旨在關注其合作維度。隨著合作型AI的勢頭增長(例如[Dafoe et al., 2020]),為讀者提供該領域的綜合理解變得尤為重要。該領域有兩個主要分支:基于團隊的MAL(在第4節中介紹)和混合動機的MAL(在第5節中介紹)。
在基于團隊的MAL中,由于單一標量獎勵信號是所有團隊智能體活動的唯一反饋,因此難以有效地學習協調的聯合政策。考慮當一個智能體采取有獎勵的行動而另一個智能體行為不利時會發生什么。共享的標量獎勵無法區分哪個智能體的行動是獲得獎勵的原因。這使得在這種環境中的信用分配變得困難[Claus and Boutilier, 1998; Foerster et al., 2018a; Sunehag et al., 2018]。 在混合動機設置中,存在個體獎勵,這些獎勵更容易從中學習。然而,這樣的游戲包含許多次優平衡,這一事實導致了社會困境的產生——即個體與集體理性之間存在緊張關系的情況[Rapoport, 1974]。在MAL中,社會困境的博弈論概念已被推廣到空間/時間擴展的復雜行為學習設置[Leibo et al., 2017]。這一領域已經看到了大量技術的發展,用以實現更接近人類世界所見合作的形式,因此,與社會科學和進化生物學的交集更多,后者是研究合作出現的重要課題[Dué?ez-Guzmán et al., 2023]。為方便起見,我們使用“共玩者”一詞來描述基于團隊和混合動機設置中的其他智能體,與零和設置中的“對手”相對。 本文的結構如下所述。第2節介紹了多智能體學習的自成一體的基礎知識,包括單智能體和多智能體RL、博弈論公式化。第4節考慮具有純粹動機的合作系統。第5節討論智能體具有混合動機的情況。第6節回顧基準和評估度量。第7節以討論該領域的挑戰和未解決的問題作為結論。
人類反饋強化學習(RLHF)是強化學習(RL)的一個變體,它從人類反饋中學習,而不是依賴于工程化的獎勵函數。建立在相關領域的偏好基強化學習(PbRL)的先前工作上,它位于人工智能和人機交互的交匯點。這一定位為提高智能系統的性能和適應性提供了有希望的途徑,同時也改善了它們的目標與人類價值觀的一致性。在近年來,大型語言模型(LLMs)的訓練已經令人印象深刻地展示了這一潛力,其中RLHF在使模型的能力針對人類目標方面發揮了決定性作用。本文提供了一個全面的RLHF基礎概述,探索了機器智能體和人類輸入之間復雜的動態。雖然最近的焦點是針對LLMs的RLHF,但我們的綜述采取了更廣泛的視角,考察了這項技術的多樣化應用和廣泛影響。我們深入探討支撐RLHF的核心原則,闡明算法與人類反饋之間的共生關系,并討論了該領域的主要研究趨勢。通過綜合當前RLHF研究的全景,本文旨在為研究人員和從業者提供對這一迅速發展領域的全面理解。
1 引言
在強化學習(RL)中,智能體傳統上通過環境導航,并試圖通過試錯過程做出最優的行動或決策。一個決策是否最優完全由獎勵信號決定。這些信號必須基于智能體性能的測量手動定義,以確保學習智能體接收到學習正確行為所需的信號。然而,手動設計獎勵函數是具有挑戰性的。在許多應用中,成功難以正式定義和衡量。除此之外,稀疏的成功信號可能不適合智能體學習——導致需要獎勵塑形(Ng等人,1999),即將獎勵信號轉化為更適合學習的形式。這通常使獎勵信號更容易受到假性相關的影響,即因通常與真正目標相關而被獎勵的行為,并不本身具有價值。這最終導致了獎勵黑客問題(Skalse等人,2022b),即學習智能體利用獎勵特定的漏洞以實現不希望的結果,同時仍然產生高獎勵。
作為對這些挑戰的回應,人類反饋強化學習(RLHF)作為一種實際意義上的替代方案出現,它在標準RL學習范式中引入了至關重要的人在循環中組件。簡而言之,RLHF與RL的不同之處在于,目標是由循環中的人定義并迭代完善的,而不是提前指定的。這種方法不僅有潛力克服經典RL方法的局限性和問題,而且對智能體對齊有潛在的好處,其中智能體的學習目標與人類價值觀更緊密對齊,促進倫理上健全和社會負責的AI系統。 自上一次類似的綜述(Wirth等人,2017)以來,RLHF在應用、方法論進展和理論見解方面取得了許多成功。應用范圍從大型語言模型(LLMs)(OpenAI 2022)到圖像生成(Lee等人,2023),連續控制(Christiano等人,2017)和游戲(Ibarz等人,2018)以及機器人(Hejna等人,2023a)。與此同時,自上次類似的綜述(Wirth等人,2017)以來,方法論也有了很多發展。方法論發展的例子包括使用數據增強和半監督學習方法來提高樣本復雜度(Park等人,2022),使用元學習快速適應學習的偏好到新任務(Ren等人,2022),融合多種反饋類型(Palan等人,2019),使用自監著表征學習提高反饋效率(Metcalf等人,2022),主動合成假設行為進行查詢(Reddy等人,2020),以及優化查詢以便于回答(B?y?k等人,2020b)。最后,RLHF領域也取得了一些理論成果,為基礎數學問題的建模提供了新的見解,但也提出了新的問題。
因此,在這項綜述中,我們討論了RLHF正在進行的研究的當前狀態,分類了當前的方法以及簡潔地描述了它們的主要特征,并對應用領域進行了簡要概述。
1.1 為何需要人類反饋 在傳統的RL中,代理的目標由其旨在最大化的獎勵函數定義(Sutton等人,2018)。特別是在復雜領域,指定這個獎勵函數可能是具有挑戰性的:對于在家庭環境中協助人類的機器人或在繁忙的城市環境中導航的自動駕駛汽車,合適的獎勵函數是什么樣的?此外,即使是定義良好的獎勵函數也可能由于分布變化或過度優化導致意外行為,引發實際和安全問題。從人類反饋中學習代理的目標,可以繞過獎勵工程挑戰,并促進穩健訓練,隨著代理學習,獎勵函數會動態地細化和調整,以適應分布變化。 反饋與示范 逆向RL旨在從人類示范中推斷出獎勵函數(Arora等人,2021)。雖然這可以部分解決獎勵工程挑戰,但它面臨內在困難:(i)通常不可能從示范中穩健地識別獎勵(Cao等人,2021a),(ii)僅適用于可以獲得良好示范的場景,(iii)難以超越示范者的表現,以及(iv)人類通常不會展示他們希望機器采用的行為(Basu等人,2017)。相比之下,交互式反饋可以使用主動查詢區分人類偏好和無關噪聲,比提供示范更容易,不要求人類評估者接近最優表現,并引導出人類更偏好的機器行為。交互式反饋也可以用來補充示范,在這種情況下,它可以用來塑造和完善通過初步訓練(如行為克隆)學到的能力,從而防止過擬合于示范行為(Abramson等人,2022)。 避免獎勵工程 在RL中的獎勵工程提出了重大挑戰,因為準確指定獎勵函數是眾所周知的困難(Amodei等人,2016; Knox等人,2023)。通過利用人類反饋,可以緩解這些挑戰,使代理能夠訓練難以手動定義的任務,并幫助避免由不匹配的獎勵引起的安全問題(Skalse等人,2022b)。與代理的目標和人類目標之間的不匹配相關的安全問題被研究為AI對齊問題(Gabriel 2020),特別是代理對齊和價值對齊(Kirchner等人,2022)。盡管RLHF在解決這些對齊問題的有效性仍存在爭議(Christiano 2023),但它提出了一個促進對齊的有希望的方法(Leike等人,2018)。 過度優化不良指定的獎勵通常會導致意外行為。代理可能會利用模擬缺陷獲得更高獎勵(Lehman等人,2020; Baker等人,2020)或參與獎勵黑客行為(Skalse等人,2022b),即行為最大化了指定獎勵但偏離了預期目標。這在代理專注于中間獎勵而沒有實現實際目標(Clark等人,2016)或為避免負面獎勵而過早退出游戲(Saunders等人,2018)的情況下顯而易見。這些問題的根源在于獎勵函數沒有正確反映實際學習任務。雖然這些問題在類似游戲的環境中可能看似微不足道,但在諸如醫療保健和自動駕駛等安全關鍵的環境中,其含義則更為嚴重。在這些環境中,防止不匹配的獎勵函數導致有害結果至關重要,比如護理機器人造成傷害或自動駕駛汽車危及道路安全。
1.2 人類反饋強化學習的起源
作為RL的一個子領域,從人類反饋中學習行為已經被研究了很長時間,但方法和術語隨時間發展而演變。如Knox(2012)更詳細討論的早期方法,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的方法,即從人類反饋中推斷目標。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,如行為或給定狀態下行動之間的成對偏好,而不是以數值獎勵形式的定量反饋。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。 由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。這一點由Jeon等人(2020)強調,他們將PbRL限定為僅從偏好直接進行策略學習。然而,這與其他來源不同,后者將獎勵學習包括在RLHF的范圍內(Christiano等人,2017;Wirth等人,2017)。
盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。盡管PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。表1提供了我們對這些術語的解釋性概述。
從人類反饋中學習行為長期以來被作為RL的一個子領域進行研究,但隨著時間的推移,方法和術語已經發展。早期方法,如Knox(2012)詳細討論的,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的推斷目標的方法,即從人類反饋中推斷。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,而不是使用定量的數值獎勵。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。
由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。Jeon等人(2020)將PbRL限定為僅從偏好直接進行策略學習,而Christiano等人(2017)和Wirth等人(2017)則將獎勵學習包括在RLHF的范圍內。
盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。我們的綜述提供了這些術語的解釋性概述。
1.3 綜述范圍
本節概述了我們選擇RLHF領域方法的指導標準。我們關注的是那些依賴獎勵模型作為目標信息唯一來源的作品。這個獎勵模型應該以互動、在線、可擴展和異步的方式學習。以下將詳細描述這些標準。
獎勵建模 我們關注的是從人類反饋中學習獎勵模型,然后使用這個模型來訓練策略的方法。盡管可以直接從人類反饋中優化策略(Wirth等人,2017),但到目前為止,這種方法很少被實踐。獎勵學習和策略訓練的分解提供了許多概念上和實際上的好處。
人類定義 盡管有許多方法將人類包括在RL循環中,但在本綜述中,我們關注的是以人類反饋作為目標唯一真理來源的方法。這排除了獎勵塑形、特征工程和其他形式的人類指導。
互動和在線 我們還強調以互動、在線方式提供反饋。這排除了模仿學習、從示范學習和純逆向RL。 可擴展和異步 我們關注的是將人類包括在循環中,但代理不被人類反饋阻塞,人類也不需要持續存在的工作。 此外,我們主要關注2017年后發表的作品,因為更早的作品已由Wirth等人(2017)綜述。然而,為了闡述仍然是最新技術或已經顯著塑造了最新技術的某些概念,我們不時回顧這一時期的一些作品。如果使用的方法對RLHF方法有興趣,將會作出例外。
1.4 先前的綜述
根據上一節提到的標準,我們首先將我們的綜述與其他邊緣相關主題領域的綜述區分開來,這些領域共享人類參與RL的共同主題。然后,我們將描述我們的綜述與RLHF領域內存在的先前綜述或類似綜述文章的差異。
本文提供了一個關于大型語言模型(LLMs)在軟件工程(SE)中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力,其應用覆蓋了軟件工程活動的全譜,包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而,這些同樣的新興屬性也帶來了重大的技術挑戰;我們需要能夠可靠地剔除錯誤的解決方案,如幻覺。我們的調查揭示了混合技術(傳統的SE與LLMs相結合)在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果;即大型語言模型(LLMs)在軟件工程(SE)應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會,我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的,但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中,但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是,我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接(和共鳴)。盡管總的來說,我們找到了很多樂觀的理由,但仍然存在重要的技術挑戰,這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出,LLMs普遍存在幻覺問題[1],而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣,幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下,這意味著創造的工程制品可能是錯誤的,但看起來是合理的;LLMs可能引入錯誤。然而,與LLMs的許多其他應用不同,軟件工程師通常有可自動化的真實依據(軟件執行),大部分軟件工程制品都可以基于此進行評估。此外,軟件工程研究社區已經花了很多時間開發自動化和半自動化技術,以檢查人類可能產生的錯誤結果。這意味著,對于這個學科和研究社區,當面對像幻覺這樣的問題所帶來的挑戰時,有大量的經驗和專業知識可以借鑒。
顯然,自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用,就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時,由于缺乏可自動化的oracle [6](一種自動技術,用于確定給定輸入刺激的輸出行為是否正確),自動測試數據生成受到限制。考慮到LLMs的幻覺傾向,Oracle問題仍然非常相關,對它的解決方案將變得更加有影響力。但是,一些SE應用關心現有軟件系統的適應、改進和開發,對于這些應用,有一個現成的可自動化的oracle:原始系統的功能行為。在本文中,我們稱其為“自動回歸Oracle”,這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考,以對任何后續的適應和更改的輸出進行基準測試。當然,有“烘焙”功能錯誤的風險,因為自動回歸Oracle無法檢測系統應該做什么,只能捕捉它當前做什么。因此,自動回歸Oracle只能測試功能退化,所以它最適合于需要保持現有功能的用例。例如,對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點,我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中,我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼,還可以包括其他軟件工程制品,如需求、測試用例、設計圖和文檔。總的來說,LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出,但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求,不僅要優化prompt工程(專注于LLM的輸入),還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的:相同的prompt在不同的推斷執行中產生不同的答案(除非溫度設為零,這在多次執行中經常被發現是次優的)[9]。此外,無論溫度設置如何,prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理,這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰:如果每次我們運行整個工程過程時結果都會變化,我們如何確定所提議的技術是否超越了現有的技術?這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是,SBSE與基于LLM的軟件工程有很多相似之處,在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此,已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如,參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文,我們過濾了出版物,將其細分為以下子類別:人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選(我們手動排除了重載縮寫,例如將GPT誤認為是通用規劃工具),結果是L列。最后,我們使用相同的查詢來識別基于LLM的軟件工程論文,這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的,因此我們只局限于基于總體趨勢得出的結論,而這些總體趨勢有強有力的證據支持,而不是觀察到的數字的具體細節。盡管如此,我們報告了觀察到的原始數字,以支持其他人的復制。
圖2展示了arXiv上發布的計算機科學論文數量(|A|,以藍色表示)和LLM相關論文的數量(|L|,以橙色表示)的增長。特別是與軟件工程和LLM相關的論文以綠色表示(|L ∩ S|)。考慮到總體發表量的快速增長,我們為縱軸使用了對數刻度。不出所料,我們看到了計算機科學出版物數量的整體增長。同時,鑒于LLM最近受到的關注增多,LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納,如圖中的綠色所示。為了更詳細地檢查這一趨勢,我們在圖3中畫出了LLM出版物(L)與所有計算機科學出版物(A)的比例(以藍色表示),以及基于LLM的軟件工程出版物(L ∩ S)與所有LLM出版物的比例(以橙色表示)。如圖所示,自2019年以來,基于LLM的軟件工程論文的比例已經急劇上升。目前,所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長,我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制,但我們可以預期會有許多關于感興趣的子領域的全面調查,以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧(SLRs)。例如,Hou等人[14]提供了一個出色的最新SLR,涵蓋了2017年至2023年的229篇研究論文,報告了所處理的軟件工程任務、數據收集和預處理技術,以及優化LLM性能的策略(例如提示工程)。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。
終身學習(LLL)作為一種新興方法打破了傳統機器學習的局限性,并賦予了模型能夠像人類一樣在學習 過程中不斷積累、優化并轉移知識的能力。近年來,隨著深度學習的廣泛應用,越來越多的研究致力于解決深度神經 網絡中出現的災難性遺忘問題和擺脫穩定性-可塑性困境,并將LLL方法應用于各種各樣的實際場景中,以推進人工 智能由弱向強的發展。針對計算機視覺領域,首先,在圖像分類任務中將LLL方法歸納為四大類型:基于數據驅動的 方法、基于優化過程的方法、基于網絡結構的方法和基于知識組合的方法;然后,介紹了 LLL方法在其他視覺任務中 的典型應用和相關評估指標;最后,針對現階段LLL方法的不足之處進行討論并提出了LLL方法未來發展的方向。
傳統的機器學習總是被限制在一個封閉的靜態環境中, 通常被稱為孤立學習,這種學習方式不考慮任務以外的信 息,即針對一個任務,模型的訓練和推理只在符合獨立同分 布假設的數據上進行;然而這樣的學習方式是低效的,畢竟 現實場景顯然是一個開放的動態環境,人類在這種環境下會 不斷地積累知識并優化形成經驗,用于幫助解決出現的 問題[1] 。 終身學習(LifeLong Learning, LLL)范式是通過模仿人類 的學習過程抽象而來。人類擁有強大的獲取、調整和遷移知 識的能力,例如會騎自行車的人能夠很快學會騎摩托車,在 遇到新任務或者新問題時會很快產生聯想并無縫地將這些 知識遷移,然后根據特定的問題進行特別的學習。這樣的學 習方式是高效且自然的,這也是終身學習過程中最為重要的 一環。
在計算機視覺領域,以深度學習為代表的學習框架尚未 達到終身學習范式的要求。例如要單獨訓練一個過參數化 的深度模型,就必須為每個任務收集大量的數據和進行繁瑣 的人工預處理等,這使得學習成本隨著任務量大幅增加,這 無疑是耗時且低效的方式,尤其是在一些對時間和性能有特 殊要求的應用場景下甚至是不被允許的。深度學習獨特的 訓練和推理模式使得深度學習模型還遠遠達不到人類的學 習效果,例如要融入終身學習范式目前還存在著兩個嚴峻的挑戰:1)災難性遺忘,即網絡在學習了新的知識之后,可能會 徹底遺忘在先前任務上學到的知識[2] ;2)概念漂移,即網絡 對屬于同類但是不同分布的新數據表現效果差[3] 。因此要 求深度學習模型既要滿足一定的可塑性以適應新數據的輸 入,又要具備一定的穩定性以避免在整合新知識的同時產生 大量的遺忘,即擺脫穩定性-可塑性困境[4] 。 此外,一個簡單的思路是融合所有的數據訓練一個大規 模模型,即聯合訓練或者多任務學習,但這并不在本文定義 的終身學習范式內;因為把時間線拉長,無休止地存儲所有 數據必然無法實現,所以需要對它進行一定程度的限制,其 次每當接受新任務時就要重新訓練所有的數據也不符合人 類的學習方式。針對深度學習的框架,直觀上聯合訓練或許 是終身學習方法的一個上界,因為深度學習是一個優化問 題,聯合訓練更有可能找到所有任務的全局最優解。 為滿足對模型存儲上的限制要求,大量的研究者從深度 學習的框架入手,從多個角度探索終身學習的解決方式,并 在多個應用方向展現了它的可行性。本文調研并跟蹤了近 年來的終身學習相關文獻,相較于文獻[5-6],本文增加了評 估終身學習模型性能的相關指標,不僅考慮了模型在終身學 習過程中識別的能力,同時考慮了存儲即資源利用的能力; 相較于文獻[7-8],本文不僅在圖像分類中詳細調研了終身 學習的相關應用,還介紹了終身學習在其他計算機視覺如目 標檢測等中的應用。終身學習不僅要解決實際應用環境中 的成本問題,更有可能是現階段弱人工智能邁向未來強人工 智能的重要一步。
1 終身學習的定義
終身學習是一個連續學習的過程。假設在時間點 t模型 Mt 已經完成了 N 個學習任務 T1,T2,?,TN,其中每個任務都 有對應的數據集 D1,D2,?,DN,任務之間沒有嚴格的約束并 且此時模型積累了源自這 N 個任務的知識并存儲于知識庫 中。當面對新的任務 TN + 1 及其數據 DN + 1 時,Mt 可以利用知 識庫中積累的先驗知識幫助學習 TN + 1,并且在學習 TN + 1 后, Mt能夠根據從 TN + 1中學到的知識進行同步更新為 Mt + 1以供 未來繼續使用,同時 Mt + 1 能最大限度地保留在先前 N 個任 務上的性能。由此可見,終身學習的關鍵是持續地學習和不 斷積累知識,即 Mt 如何利用先驗知識學習 TN + 1 和如何存儲 新知識演化為 Mt + 1。在這個定義下,還額外需增加一個存儲 限制,即知識庫不能保留所有的訓練數據,否則將會與多任 務學習無異,違背終身學習的初衷。
2 終身學習方法的分類
計算機視覺作為深度學習最為成功的應用,框架一般可 以拆解為輸入、優化和結構這 3 個部分,用于積累和再應用 的知識就可以以這 3 個部分作為切入點,同時也可以組合使 用它們。本文將從知識的角度對終身學習方法進行分類與 歸納,如表 1所示。
3 終身學習的其他應用
終身學習不僅在解決基礎問題中開闊了研究空間,也逐 漸 助 力 于 目 標 檢 測(Object Detection)[77-81] 、語 義 分 割 (Semantic Segmentation)[77-81] 、圖像生成[90-95] 和其他[96-102] 等各 類計算機視覺的研究方向。
4 結語 本文主要回顧了終身學習在圖像分類任務上的基本方 法,介紹了在其他計算機視覺任務上的成功應用,最后簡要 探討了在未來可以進一步推動終身學習發展的方向。終身 學習給予了模型在動態環境中更多更強大的學習能力,雖然 目前仍處于起步階段,但不可置疑這是人工智能發展的重要 一環,無論是理論上的研究,還是工業界的落地都具有非常 大的意義。
序列決策,通常形式化為馬爾可夫決策過程(MDP)優化,是人工智能的一個重要挑戰。解決這個問題的兩種關鍵方法是強化學習(RL)和規劃。這項綜述是這兩個領域的集成,更廣為人知的是基于模型的強化學習。基于模型的RL有兩個主要步驟。首先,我們系統地介紹了動力學模型學習的方法,包括處理隨機性、不確定性、部分可觀察性和時間抽象等挑戰。其次,我們提出了規劃-學習集成的系統分類,包括:從哪里開始規劃,為規劃和實際數據收集分配哪些預算,如何規劃,以及如何在學習和行動循環中集成規劃。在這兩個部分之后,我們還討論了隱式基于模型的RL作為模型學習和規劃的端到端替代方案,并討論了基于模型的RL的潛在好處。在此過程中,調研還與幾個相關的RL領域建立了聯系,如分層RL和傳輸。
多智能體協同決策問題是群體智能領域一個重要的研究方向,隨著深度強化學習算法在多智能體決策領域如游戲AI、推薦系統、智能交通等方面的應用,基于深度強化學習的多智能體算法已經成為一個研究熱點。文中分別針對不完全信息決策、復雜決策空間設計以及動態博弈等問題開展分析,并闡述了相應的算法或模型,最后對未來多智能體領域的研究進行了展望。
多智能體[1-5]系統由一群有自主性的,可互相 交互的實體組成,它們共享一個相同的環境,通過感 知器感知環境并通過執行器采取行動。根據系統中 智能體的結構不同可以分為同構多智能體系統和異 構多智能體系統,異構多智能體系統個體間模型不 統一,使得個體感知環境的方式或者決策空間存在 一定的差異。在多智能體系統中,智能體通過與環 境進行交互獲取當前決策下的獎勵,智能體基于獎 勵改善策略并獲得最優策略的方法為多智能體強化 學習算法。
相對于單智能體策略學習問題,多智能體策略 學習過程具有更高的復雜度。一方面在于多智能體 不僅要考慮環境因素,還要考慮到己方、敵方、中立 方的行動和意圖; 另一方面考慮智能體間的神經網 絡網絡是相互連接的,以此來促進智能體之間的協 同性。在單智能體強化學習中,智能體所在的環境 通常是穩定不變的,但是在多智能體強化學習中,環 境是復雜的、動態的,因此給學習過程帶來很大的困 難。強化學習[5]算法包含狀態值函數和動作- 狀態 值函數等要素。在多智能體強化環境中,狀態空間、 動作空間隨智能體數量指數增長,因此多智能體情形下搜索空間通常非常巨大,對計算資源要求高。基于每個智能體的任務不同,其決策動作的獎勵設 計不同,但是彼此之間又相互耦合影響,其設計的優 劣對學習到的策略好壞有直接的影響。多個智能體 的策略是同時學習的,在單個智能體的策略發生改 變時,其他智能體的最優策略也可能會變化,這將對 算法的收斂性帶來影響。
根據對多智能體控制形式的不同,多智能體協 同算法可以分為集中式( 中心化) 控制算法與分布 式( 去中心化) 控制算法。集中式控制算法通常把 整個多智能體系統的協作機制看成一個整體,通過 一個全局性的中央單元對所有單元進行統一控制。與集中式控制算法對應,分布式控制算法將各個智 能體劃分為單個主體,每一個主體獨立處理環境狀 態信息,并做出行為決策。隨著深度思考等知名研 究機構在星際爭霸 2、守護古樹 2 等多智能體游戲 環境中取得突破,基于深度強化學習算法[6-8]實現 對多智能體集中式或分布式協同控制的研究已經成 為人工智能領域的研究熱點。本文主要介紹應對多智能體博弈環境下面臨信 息不完全、動作空間維度爆炸、動態不確定性等問題 的主要方法,并對未來深度強化學習算法的發展及 應用進行展望。
知識圖譜嵌入是監督學習模型,學習帶標簽、有向多圖的節點和邊的向量表示。我們描述了它們的設計原理,并解釋了為什么它們在圖表示學習和更廣泛的NLP社區中受到越來越多的關注。我們強調了它們的局限性、開放的研究方向和真實世界的用例。除了理論概述之外,我們還提供了一個handson會議,在那里我們展示了如何在實踐中使用這些模型。
繼AlphaGO系列的巨大成功之后,2019年是一個蓬勃發展的一年,見證了多智能體強化學習(MARL)技術的重大進展。MARL對應于多智能體系統中多個智能體同時學習的學習問題。這是一個具有悠久歷史的跨學科領域,包括博弈論、機器學習、隨機控制、心理學和優化。盡管MARL在解決現實世界的游戲方面取得了相當大的經驗上的成功,但文獻中缺乏一個完整的概述來闡述現代MARL方法的博弈理論基礎,并總結最近的進展。事實上,現有的大多數綜述都是過時的,沒有完全涵蓋2010年以來的最新發展。在這項工作中,我們提供了一個關于MARL的專著,包括基本原理和研究前沿的最新發展。本綜述分為兩部分。從§1到§4,我們介紹了MARL的完備的基礎知識,包括問題公式、基本解決方案和現有的挑戰。具體地說,我們通過兩個具有代表性的框架,即隨機博弈和廣義博弈,以及可以處理的不同博弈變體,來呈現MARL公式。這一部分的目的是使讀者,即使是那些相關背景很少的人,掌握MARL研究的關鍵思想。從§5到§9,我們概述了MARL算法的最新發展。從MARL方法的新分類開始,我們對以前的研究論文進行了調研。在后面的章節中,我們將重點介紹MARL研究中的幾個現代主題,包括Q函數分解、多智能體軟學習、網絡化多智能體MDP、隨機潛在博弈、零和連續博弈、在線MDP、回合制隨機博弈、策略空間響應oracle、一般和博弈中的近似方法、以及具有無限個體的游戲中的平均場類型學習。在每個主題中,我們都選擇了最基礎和最先進的算法。我們調研的目的是從博弈理論的角度對當前最先進的MARL技術提供一個完備的評估。我們希望這項工作能夠為即將進入這個快速發展的領域的新研究人員和現有的領域專家提供一個跳板,他們希望獲得一個全景視圖,并根據最近的進展確定新的方向。
//openreview.net/forum?id=ORgCYmo0os
機器學習可以看作是將數據轉換為知識的過程(Shalev-Shwartz & Ben-David, 2014)。學習算法的輸入是訓練數據(例如,含有貓的圖像),輸出是一些知識(例如,關于如何在圖像中檢測貓的規則)。這些知識通常表示為能夠執行某些任務的計算機(例如,自動貓探測器)。在過去的十年中,一種特殊的機器學習技術——深度學習(LeCun et al., 2015)取得了長足的進步。深度學習的一個重要體現的是不同種類的深層神經網絡(DNNs)(Schmidhuber, 2015),可以找到分離表示(Bengio, 2009)在高維數據, 這使得軟件訓練本身執行新任務而不是僅僅依賴于程序員手工設計規則。通過使用DNNs,計算機視覺(Krizhevsky et al., 2012)和自然語言處理(Brown et al., 2020; Devlin et al., 2018)是取得了顯著的進展。
現代人工智能應用正在從純粹的特征識別(例如,在圖像中檢測一只貓)轉變為決策(安全通過交通十字路口),其中不可避免地會發生多個智能體之間的交互。因此,每個智能體都必須采取戰略性的行為。此外,這個問題變得更具挑戰性,因為當前的決定會影響未來的結果。
除了從現有數據進行特征識別,現代人工智能應用通常需要計算機程序根據所獲得的知識做出決策(見圖1)。為了說明決策的關鍵組成部分,讓我們考慮現實世界中控制汽車安全通過十字路口的例子。在每一個時間步,機器人汽車都可以通過轉向、加速和制動來移動。目標是安全駛出十字路口并到達目的地(可以選擇直走或左轉/右轉入另一條車道)。因此,除了能夠檢測對象,如交通信號燈、車道標記,和其他汽車(通過將數據轉化為知識),我們的目標是找到一個能控制汽車的方向盤政策做出一系列演習達到目標(決策基于獲得的知識)。在這樣的決策環境中,還會出現兩個額外的挑戰:
首先,在決策過程中,在每一個時間步,機器人小車不僅要考慮當前行動的即時價值,還要考慮當前行動在未來的后果。例如,在開車通過一個十字路口的情況下,如果策略選擇在過程的開始轉向一個“安全”的方向,這將是有害的,如果它最終會導致隨后的車禍。
其次,為了正確安全地做出每一個決定,汽車還必須考慮到其他汽車的行為,并采取相應的行動。例如,人類駕駛員通常會提前預測其他車輛的移動,然后采取戰略性的應對措施(比如給迎面駛來的車輛讓路,或者加速駛入另一條車道)。
對適應性決策框架的需求,以及處理多個交互學習者的復雜性,導致了多智能體學習的發展。Multi-agent RL解決的是在一個共享的隨機環境中運行多個智能agent的順序決策問題,每個智能agent的目標是通過與環境和其他agent的交互來最大化其長期回報。多智能體強化學習是在多智能體系統和資源學習的基礎上建立起來的。在下一節中,我們將簡要概述(單agent) RL及其近幾十年的研究進展。
**RL是機器學習的一個子領域,其中代理學習如何在與環境的交互過程中基于試錯過程的最佳行為。與以帶標簽的數據作為輸入的監督學習(例如帶有貓標簽的圖像)不同,RL是面向目標的:它構建了一個學習模型,學習通過試錯改進來實現最優的長期目標,學習者沒有帶標簽的數據來獲取知識。“強化”一詞指的是學習機制,因為導致滿意結果的行動在學習者的行為集合中得到了強化。
歷史上,RL機制最初是在研究貓在謎盒中的行為的基礎上發展起來的(Thorndike, 1898)。Minsky(1954)在他的博士論文中首次提出了RL的計算模型,并將他得到的模擬機器命名為隨機神經模擬強化計算器。幾年后,他首先提出了動態規劃(Bellman, 1952)和RL (Minsky, 1961)之間的聯系。在1972年,Klopf(1972)將試錯學習過程與心理學中發現的時間差異(TD)學習結合起來。在為更大的系統擴展RL時,TD學習很快成為不可或缺的。Watkins & Dayan(1992)在動態規劃和TD學習的基礎上,使用馬爾可夫決策過程(MDP)為今天的RL奠定了基礎,并提出了著名的Q-learning方法作為求解器。作為一種動態規劃方法,原來的Q-learning過程繼承了Bellman (Bellman, 1952)的“維數災難”(curse of dimensional維數災難),當狀態變量數量較大時,極大地限制了它的應用。為了克服這一瓶頸,Bertsekas & Tsitsiklis(1996)提出了基于神經網絡的近似動態規劃方法。最近,來自DeepMind的Mnih等人(2015)通過引入深度q -學習(DQN)架構取得了重大突破,該架構利用了DNN對近似動態規劃方法的表示能力。DQN已經在49款Atari游戲中展示了人類水平的表現。從那時起,深度RL技術在機器學習/人工智能中變得普遍,并引起了研究社區的大量關注。
RL源于對動物行為的理解,動物使用試錯法來強化有益的行為,然后更頻繁地執行這些行為。在其發展過程中,計算RL整合了諸如最佳控制理論和其他心理學發現等思想,這些思想有助于模仿人類做出決策的方式,從而使決策任務的長期收益最大化。因此,RL方法自然可以用來訓練計算機程序(代理),使其在某些任務上達到與人類相當的性能水平。RL方法對人類玩家的最早成功可以追溯到西洋雙陸棋(Tesauro, 1995)。最近,應用RL解決順序決策問題的進展標志著AlphaGo系列的顯著成功(Silver et al., 2016;2017;2018年),一名自學的RL智能體,擊敗了圍棋游戲的頂級專業玩家,這款游戲的搜索空間(10761種可能的游戲)甚至比宇宙中的原子數量還要多。
AlphaGo系列的成功標志著單agent決策過程的成熟。2019年是MARL技術蓬勃發展的一年;在解決極具挑戰性的多人實戰策略電子游戲和多人不完全信息撲克游戲方面取得了顯著進展。
事實上,大多數成功的RL應用,如游戲GO2、機器人控制(Kober et al., 2013)和自動駕駛(Shalev-Shwartz et al., 2016),自然涉及多個人工智能智能體的參與,這探索了MARL領域。正如我們所預期的,單agent RL方法取得的重大進展——以2016年GO的成功為標志——預示著未來幾年多agent RL技術的突破。
2019年是MARL發展的繁榮之年,在過去人們認為不可能通過人工智能解決的極具挑戰性的多智能體任務上取得了一系列突破。盡管如此,MARL領域取得的進展,盡管令人矚目,但在某種程度上已經被AlphaGo之前的成功所掩蓋(Chalmers, 2020)。AlphaGo系列有可能(Silver et al., 2016;2017;2018年)已經在很大程度上滿足了人們對RL方法有效性的期望,因此對該領域的進一步發展缺乏興趣。MARL的進展在學術界引起的反響相對溫和。在本節中,我們將重點介紹幾項工作,我們認為這些工作非常重要,并且可能深刻影響MARL技術的未來發展。
單代理MDP(左)和多代理MDP(右)示意圖
MARL的一個熱門測試平臺是星際爭霸2 (Vinyals等人,2017年),這是一款擁有自己職業聯賽的多人即時策略電腦游戲。在這個博弈中,每個參與人關于博弈狀態的信息都是有限的,而且搜索空間的維度比圍棋大了幾個數量級(每一步有1026種可能的選擇)。《星際爭霸2》中有效的RL方法的設計曾一度被認為是人工智能的一個長期挑戰(Vinyals等人,2017)。然而,AlphaStar在2019年實現了突破(Vinyals et al., 2019b),它已經展示了特級大師水平的技能,排名超過人類玩家的99.8%。
MARL的另一個著名的基于視頻游戲的測試平臺是Dota2,這是一個由兩支隊伍玩的零和游戲,每支隊伍由5名玩家組成。從每個agent的角度來看,除了不完全信息的難度(類似于星際爭霸2),Dota2更具挑戰性,在這個意義上,團隊成員之間的合作和與對手的競爭都必須考慮。OpenAI Five人工智能系統(Pachocki et al., 2018)在一場公開的電子競技比賽中擊敗了世界冠軍,在Dota2中展現了超人的表現。除了星際爭霸2和Dota2, Jaderberg等人(2019)和Baker等人(2019a)分別在抓旗和捉迷藏游戲中表現出了人類水平的表現。雖然游戲本身不如星際爭霸2或Dota2復雜,但對于人工智能agent來說,掌握戰術仍然不是一件容易的事情,所以agent令人印象深刻的表現再次證明了MARL的有效性。有趣的是,兩位作者都報告了由他們提出的MARL方法引發的緊急行為,人類可以理解,并以物理理論為基礎。
MARL最后一個值得一提的成就是它在撲克游戲《Texas hold ' em》中的應用,這是一種多玩家廣泛形式的游戲,玩家可以獲得不完整的信息。Heads-up(即兩個玩家)無限持有的游戲中有超過6 × 10161種信息狀態。直到最近,游戲中才出現了突破性的成就,這多虧了MARL。兩個獨立的程序,DeepStack (Morav?ík等人,2017)和Libratus (Brown & Sandholm, 2018),能夠擊敗專業的人類玩家。最近,Libratus被升級為Pluribus (Brown & Sandholm, 2019年),并表現出非凡的表現,在無限制設置中贏得了5名精英人類專業人士的100多萬美元。為了更深入地理解RL和MARL,需要對概念進行數學表示法和解構。在下一節中,我們將提供這些概念的數學公式,從單代理RL開始,逐步發展到多代理RL方法。
**單agent RL通過試錯,RL agent試圖找到最優策略,使其長期回報最大化。該過程由馬爾可夫決策過程制定。
多智能體RL在多智能體場景中,很像在單智能體場景中,每個智能體仍然試圖通過試錯過程來解決順序決策問題。不同之處在于,環境狀態的演化以及每個agent收到的獎勵函數現在都是由所有agent的聯合行動決定的(見圖3)。因此,agent不僅需要考慮環境,還需要與其他學習agent進行交互。一個涉及多個主體的決策過程通常通過隨機對策(Shapley, 1953)來建模,也被稱為馬爾可夫對策(Littman, 1994)。
與單agent RL相比,多agent RL是一個更適合現實世界AI應用的通用框架。然而,由于多個agent同時學習的存在,除了單agent RL中已經存在的方法外,MARL方法提出了更多的理論挑戰。與通常有兩個代理的經典MARL設置相比,解決多代理RL問題更具挑戰性。事實上,1 組合復雜性,2 多維學習目標和3 非平穩性問題都導致大多數MARL算法能夠解決只有4個參與者的博弈,特別是兩方零和博弈。
持續學習變得越來越重要,因為它使NLP模型能夠隨著時間的推移不斷地學習和獲取知識。以往的持續學習方法主要是為了保存之前任務的知識,并沒有很好地將模型推廣到新的任務中。在這項工作中,我們提出了一種基于信息分解的正則化方法用于文本分類的持續學習。我們提出的方法首先將文本隱藏空間分解為對所有任務都適用的表示形式和對每個單獨任務都適用的表示形式,并進一步對這些表示形式進行不同的規格化,以更好地約束一般化所需的知識。我們還介紹了兩個簡單的輔助任務:下一個句子預測和任務id預測,以學習更好的通用和特定表示空間。在大規模基準上進行的實驗證明了我們的方法在不同序列和長度的連續文本分類任務中的有效性。
圖神經網絡(GNN)已經在許多具有挑戰性的應用中展示了優越的性能,包括小樣本學習任務。盡管GNN具有強大的從少量樣本中學習和歸納的能力,但隨著模型的深入,GNN通常會出現嚴重的過擬合和過平滑問題,這限制了模型的可擴展性。在這項工作中,我們提出了一個新的注意力GNN來解決這些挑戰,通過合并三重注意機制,即節點自我注意,鄰居注意和層記憶注意力。我們通過理論分析和實例說明了所提出的注意模塊可以改善小樣本學習的GNN的原因。廣泛的實驗表明,在mini-ImageNet 和Tiered-ImageNet數據集上,通過誘導和直推設置,提出的注意力GNN在小樣本學習方面優于基于最先進的GNN方法。