多智能體強化學習(MARL)近年來大受歡迎。雖然已開發出許多方法,但它們大致可分為三大類:集中式訓練和執行(CTE)、分布式執行的集中式訓練(CTDE)以及分布式訓練和執行(DTE)。
CTE 方法假定在訓練和執行期間是集中的(例如,具有快速、自由和完美的通信),并且在執行期間擁有最多的信息。也就是說,每個智能體的行動可以依賴于所有智能體的信息。因此,通過使用具有集中行動和觀測空間的單智能體 RL 方法(在部分可觀測的情況下保持集中的行動觀測歷史),可以實現一種簡單形式的 CTE。CTE 方法有可能優于分散執行方法(因為它們允許集中控制),但可擴展性較差,因為(集中的)行動和觀察空間會隨著智能體數量的增加而呈指數級擴展。CTE 通常只用于合作式 MARL 情況,因為集中控制意味著要協調每個智能體將選擇哪些行動。
CTDE 方法是最常見的方法,因為它們在訓練過程中利用集中信息,同時實現分散執行--在執行過程中只使用該智能體可用的信息。CTDE 是唯一一種需要單獨訓練階段的模式,在訓練階段可以使用任何可用信息(如其他智能體策略、底層狀態)。因此,它們比 CTE 方法更具可擴展性,不需要在執行過程中進行通信,而且通常性能良好。CTDE 最自然地適用于合作情況,但也適用于競爭或混合情況,這取決于假定觀察到哪些信息。
分布式訓練和執行方法所做的假設最少,通常也很容易實現。事實上,只要讓每個智能體分別學習,任何單智能體 RL 方法都可以用于 DTE。當然,這些方法各有利弊,下面將對此進行討論。值得注意的是,如果沒有集中訓練階段(如通過集中模擬器),就需要 DTE,要求所有智能體在沒有事先協調的情況下在在線交互過程中學習。DTE 方法可用于合作、競爭或混合情況。MARL 方法可進一步分為基于價值的方法和策略梯度方法。基于價值的方法(如 Q-learning)學習一個價值函數,然后根據這些價值選擇行動。策略梯度法學習明確的策略表示,并試圖沿著梯度方向改進策略。這兩類方法在 MARL 中都得到了廣泛應用。
本文介紹的是合作 MARL-MARL,其中所有智能體共享一個單一的聯合獎勵。它旨在解釋 CTE、CTDE 和 DTE 設置的設置、基本概念和常用方法。它并不涵蓋合作 MARL 的所有工作,因為該領域相當廣泛。
商業和軍事系統簇(SoS)的復雜性已發展到包含先進、多樣和新興技術的程度。
要對這些 SoS 及其相關行為進行工程設計,就需要為人類決策提供支持,而這種支持遠遠超出了人類的推理能力。
本文
提供一種自主方法,用于在任務執行過程中生成和修改任務計劃,有時也稱為行動方案(COA)。
基于人工智能/機器學習的系統,可自主篩選來自系統的大量傳感器數據,并將這些原始數據轉化為可操作的信息。
傳感器觀測和收集技術的進步帶來的一個結果就是數據超載。
國防部門尋求一種解決方案,將大量的 ISR 數據轉化為可操作的 ISR 信息,同時提高工作人員的能力。
此前,推出了 MiData(多因素信息分布式分析技術輔助工具)應用于本地/區域/全球聯合目標識別(MAJOR),以滿足這一需求。
ORDERLY 提供了一種元算法,用于增強 MAJOR 算法的應用,以檢測和分類感興趣的對象。
運行過程:
訓練過程:
D2CRaB 提供了一種新方法,用于
在擁塞節點丟棄數據包后應用反向壓力方案
應用強化學習 (RL) 策略,持續調整流量重定向的有效時間 (ET)
新的背壓方案和強化學習 (RL) 策略可解決流量擁堵問題并保持高效通信
因果推理提供了一套原則和工具,使人們能夠結合有關環境的數據和知識,推理出具有反事實性質的問題--即如果現實情況不同,會發生什么--即使目前沒有這種未實現現實的數據。強化學習提供了一系列方法,當智能體被部署在一個環境中,并采用探索性的試錯方法時,可以學習一種能優化特定衡量標準(如獎勵、遺憾)的策略。這兩門學科各自獨立發展,彼此之間幾乎沒有互動。我們注意到,它們在同一構件(即反事實關系)的不同方面進行操作,這使得它們之間有著千絲萬縷的聯系。基于這些觀察,我們進一步認識到,當這種聯系被明確承認、理解和數學化時,各種新的學習機會就會自然而然地產生。為了實現這一潛能,我們進一步指出,任何部署有智能體的環境都可以分解為一系列自主機制,這些自主機制會導致不同的因果不變性,并可被簡化為一個結構因果模型;今天的任何標準智能體設置都隱含地編碼了其中的一個模型。這種自然的形式化反過來又允許我們將不同的學習模式(包括在線學習、非策略學習和因果微積分學習)置于統一的處理之下,而這些模式在文獻中似乎并不相關。人們可能會猜測,這三種標準學習模式是詳盡無遺的,因為所有可能的反事實關系都可以通過它們的連續實施來學習。我們通過介紹幾類相當自然且普遍存在的學習環境,證明事實并非如此,這些學習環境并不符合這些模式,而是包含了新的分析維度和類型。具體來說,我們將通過因果視角介紹和討論離線到在線學習、在何處干預、模仿學習和反事實學習等問題。這一系列新任務和新理解將為反事實學習帶來更廣闊的視角,并表明因果推理和強化學習并行研究的巨大潛力,我們稱之為因果強化學習(CRL)。
關鍵詞 結構因果模型、干預、反事實、強化學習、可識別性、穩健性、策略外評估、模仿學習。
本文其余部分的組織結構如圖 2 所示。在第 2 節中,我們提供了理解本文其余部分所必需的背景和因果推斷的邏輯基礎。我們回顧了結構因果模型的定義(第 2.1 節)、觀察和干預分布的評估(第 2.2 節)以及在單片機中構建表示定性知識的因果圖(第 2.3 節)。本文提供了大量實例來說明這些概念。
第 3 章是基礎性章節,將 RL 中的不同學習模式與本章介紹的因果語言聯系起來。特別是,第 3 章使用單片機語義語言(稱為因果決策模型)將策略學習問題形式化(第 3.1 節)。基于這個框架,我們引入了因果強化學習任務,這些任務考慮了學習智能體的交互能力和智能體可獲取的環境先驗知識(第 3.2 節)。我們將 CRL 形式與馬爾可夫決策過程標準模型假設下的強化學習進行比較,強調這里不存在自由裁量權,因果知識是解決 CRL 任務不可或缺的。
第 4 節通過 CRL 框架研究強化學習和因果推理的經典學習任務,包括非策略學習(第 4.1 節)、在線學習(第 4.2 節)和因果識別(第 4.3 節)。具體而言,我們討論了針對上述各項任務進行策略學習的若干條件和算法程序。在最后一節中,我們介紹了一種圖形標準,它將非策略學習方法擴展到了結構因果關系語言中,在這種語言中,未觀察到的混雜因素并沒有被先驗地排除。
第 5 節考慮了因果離線到在線學習(COOL)問題,智能體試圖首先從離線數據中預先訓練最優策略的信息表征,然后通過進行在線實驗來微調策略估計值。第 5.1 節介紹了在強盜模型中轉移觀測數據的混雜穩健程序。第 5.2 和 5.3 節將這種轉移策略擴展到智能體必須決定一系列行動以最大化主要結果的順序決策環境(例如動態治療制度)。
第 6 節引入了一項新任務,稱為混合策略學習。這項任務關注的是智能體是否應該對系統進行干預,如果干預,干預的目標應該是哪里。第 6.1 節研究了具有原子干預的混合策略空間的內在結構特性,這些特性可以幫助智能體更高效、更有效地探索該空間。第 6.2 節進一步研究了智能體可以進行軟干預的場景,即選擇觀察哪些變量來執行軟干預。
第 7 節拓寬了策略的范圍,并引入了一種新穎的反事實決策標準,該標準適用于智能體自身存在偏見并在對抗性環境中運行的情況。第 7.1 節正式提出了反事實策略的概念,使智能體能夠通過考慮其最初的預期行動來進行反事實推理。第 7.2 節介紹了一種新型反事實隨機化策略,它支持反事實決策標準的實現,并有助于學習最優反事實策略。在最后一節,我們正式提出了反事實決策標準下最優性與自主性之間的權衡,并提供了一種實用的規劃算法來解決這一權衡問題。
第 8 節研究了在不完全了解衡量智能體績效的獎勵函數的情況下,從觀測數據中學習策略的問題--稱為模仿學習。第 8.1 節提出了學習模仿策略的完整圖形條件,利用行為克隆達到專家的性能。第 8.2 節對這一條件進行了擴展,通過逆 RL 利用有關未知獎勵函數的參數知識,生成了一種可以持續支配專家的策略。我們還開發了一種算法方法,可以在提供環境因果圖的更廣義單片機系列中應用逆 RL。
最后,第 9 節總結了前幾節中研究的工作和算法,并給出了結束語。我們還討論了其他基本的 CRL 任務,包括可遷移性、可泛化性和模型歸納,并概述了設計 CRL 智能體的未來挑戰。
隨著人類-智能體團隊(HAT)研究的不斷發展,模擬 HAT 行為和衡量 HAT 效果的計算方法也在不斷發展。其中一種正在興起的方法涉及使用人類數字孿生(HDT)來近似模擬人工智能驅動的智能體團隊成員的人類行為和社會情感認知反應(Barricelli & Fogli, 2024)。本文將探討與使用數字孿生為 HAT 建立信任模型相關的三個研究問題。首先,為了解決如何通過 HDT HAT 實驗對 HAT 信任進行適當建模和操作的問題,對團隊交流數據進行了因果分析,以了解移情、社會認知和情感建構對信任形成的影響。此外,還反思了HAT信任科學的現狀,討論了HAT信任必須通過HDT才能復制的特征,如信任傾向的個體差異(如信任傾向,Jessup等人,2019年)、新興信任模式(如信任侵犯和修復,Wildman等人,2024年)以及對這些特征的適當測量(如增長建模,Abramov等人,2020年)。其次,為了解決人類發展工具信任的測量方法在近似人類對 HATs 信任方面的有效性問題,討論了人類發展工具信任的特性:自我報告測量方法、基于互動的測量方法和遵從型行為測量方法。此外,還分享了初步模擬的結果,其中比較了用于生成 HDT 通信的不同 LLM 模型,并分析了它們復制類人信任動態的能力。第三,針對 HAT 實驗操作將如何擴展到人類數字孿生研究,分享了實驗設計,重點關注 HDT 的信任傾向與人工智能體的透明度和基于能力的信任。
將人工智能(AI)融入作戰環境在各個領域變得越來越重要,從根本上改變了人類與機器合作實現共同目標的方式。在過去十年中,人類與人工智能團隊(HAT)研究已成為一個重要領域,學者們運用認知科學原理來理解這些新型合作關系的復雜性。這一不斷增長的研究成果反映了了解人類和人工智能如何有效、安全、高效地合作的緊迫性。
隨著 HAT 文獻的擴展和人工智能能力的進步,出現了研究這些互動的創新方法。其中一種很有前景的方法是使用人類數字雙胞胎(HDTs)--旨在復制人類在 HAT 環境中的反應和行為的計算模型。這些 HDTs 可以進行配置,以模擬基于狀態的反應(如瞬時認知和情感反應)和基于特征的特性(包括性格上的個體差異),為傳統的人類受試者研究提供了一個多功能的替代方案[1, 2]。
人類發展工具在人類活動能力研究中的優勢是顯著的。除了解決人類受試者研究的實際限制(如成本和招募挑戰)外,HDT 還提供了前所未有的實驗變量控制和快速測試多種情景的能力。這種能力對于研究復雜的團隊現象尤為重要,而信任則是一個關鍵的重點領域。信任--愿意對另一個智能體的行動處于弱勢--是 HAT 有效性和成功的基本決定因素。
然而,使用人類發展工具來研究 HAT 中的信任動態是否有效,還需要仔細研究。
本文探討了在信任研究中實施 HDT 的三個關鍵問題:
通過研究這些問題,我們旨在建立一個框架,用于在 HAT 信任研究中驗證和實施 HDT,最終促進我們對人類與人工智能協作和信任發展的理解。
圖 1:移情建構如何影響 HAT 信任度的因果分析結果。
強化學習(RL)是一種強大的序列決策工具,在許多具有挑戰性的現實任務中取得了超越人類能力的表現。作為RL在多智能體系統領域的擴展,多智能體強化學習(MARL)不僅需要學習控制策略,還需要考慮與環境中其他所有智能體的交互、不同系統組件之間的相互影響以及計算資源的分配。這增加了算法設計的復雜性,并對計算資源提出了更高的要求。同時,模擬器對于獲取現實數據至關重要,這是RL的基礎。在本文中,我們首先提出了一系列模擬器的指標,并總結了現有基準測試的特征。其次,為了便于理解,我們回顧了基礎知識,并綜合了最近與MARL相關的自動駕駛和智能交通系統的研究進展。具體而言,我們考察了它們的環境建模、狀態表示、感知單元和算法設計。最后,我們討論了當前面臨的挑戰以及未來的前景和機會。我們希望本文能夠幫助研究人員整合MARL技術,并激發更多關于智能和自動駕駛的深刻見解。 關鍵詞——多智能體強化學習、自動駕駛、人工智能
大規模自動駕駛系統近年來吸引了大量關注,并獲得了來自工業界、學術界和政府的數百萬資金支持【1】【2】。開發此類系統的動機在于用自動化控制器取代人類駕駛員,這可以顯著減少駕駛時間和工作負擔,提升交通系統的效率與安全性,促進經濟發展。一般來說,為了檢測車輛狀態并生成可靠的控制策略,自動駕駛車輛(AVs)需要配備大量電子單元,如視覺傳感器,包括雷達、激光雷達(LiDAR)、RGB-深度(RGB-D)攝像頭、事件攝像頭、慣性測量單元(IMU)、全球定位系統(GPS)等【3】–【5】。該領域的一個突出挑戰是構建一個能夠處理海量信息并將其轉化為實時操作的穩健且高效的算法。早期的工作將這一大問題分為感知、規劃和控制問題,并獨立解決,這被稱為模塊化自動駕駛。 另一方面,作為一種強大的序列決策工具,強化學習(RL)可以通過獎勵信號優化智能體行為模型。隨著其發展,深度RL結合了RL和深度神經網絡的優勢,能夠抽象復雜的觀測并學習高效的特征表示【6】。在過去的代表性研究中,它在棋類游戲【7】【8】、電子游戲【9】【10】以及機器人控制【11】–【13】等領域表現出色,甚至在某些情況下超越了人類表現。對于自動駕駛而言,RL使端到端控制成為現實,即從車輛感知到車輛應該做什么的直接轉換,就像人類駕駛員一樣。盡管RL在自動駕駛車輛方面取得了許多顯著成就,大多數相關工作仍是從單個車輛的角度出發,這導致了以自我為中心并可能具有攻擊性的駕駛策略,可能會引發安全事故并降低交通系統的效率。
對于現實世界的交通系統,我們通常將其定義為多智能體系統(MAS),并旨在優化整個系統的效率,而不僅僅是最大化個體利益。在MAS中,所有智能體在共享的環境中做出決策并進行交互。這意味著每個智能體的狀態不僅取決于其自身的行為,還取決于其他智能體的行為,使得環境動態呈現非靜態和時間變化性。此外,根據任務設置,智能體可能相互合作或競爭。在如此復雜的場景中,手動編程預先行動幾乎是不可能的【15】。得益于多智能體強化學習(MARL)的重大進展,交通控制【16】【17】、能源分配【18】【19】、大規模機器人控制【20】【21】以及經濟建模與預測【22】【23】領域均取得了實質性突破。圖1展示了這些相關研究主題的出版物數量。使用Dimensions數據庫進行AI搜索【14】,我們搜索了包括多智能體強化學習、自動駕駛和智能交通在內的關鍵詞。統計結果表明,學術界對這些問題高度關注,相關研究領域正處于快速增長階段。為了加速進一步研究并幫助新研究人員快速入門,我們審閱了200多篇出版物、開源軟件和代碼庫,然后系統地總結了現有成就和最新進展。
在此,我們提及其他近期的綜述。在里程碑系列【25】–【27】中,作者簡要總結了從歷史到未來的藍圖,并簡要介紹了自動駕駛中具有影響力的算法。還有許多綜述【28】–【30】介紹了RL的基本理論和應用,并分析了其發表時最先進的(SoTA)自動駕駛算法,但它們主要關注單智能體學習。綜述【31】的作者首次定義了分層結構的自動駕駛系統,并將其研究范圍限定在局部運動規劃。他們說明了車輛的動力學,并展示了采樣和基于搜索的方法如何在數學上工作。然而,他們忽略了基于學習的方法的貢獻。在最近的運動規劃綜述【2】中,研究人員全面調查了管道和學習方法,包括深度學習、逆向RL和模仿學習以及MARL。同樣,詳細的概述涵蓋了軌跡預測中最新的分類法和方法論【32】。還有一些優秀的綜述總結了AVs的MARL方法【1】【33】【34】。盡管如此,近年來研究人員在理論和應用方面取得了顯著進展,并且在高級機器人模擬器中也取得了進展。作為在線RL訓練的關鍵組成部分,模擬器決定了從模擬到現實的差距,即智能體學習的策略是否可以輕松地轉移到物理機器人上。因此,為了使工程師和研究人員能夠捕捉最新的進展并加速技術進步,我們全面總結了該領域的技術、挑戰和前景。
總體而言,本文的主要貢獻可總結如下:
在圖2中,我們可視化了MARL的發展歷程、數據集、模擬器、硬件和軟件在自動駕駛及其他相關領域的發展。總體來說,隨著大規模數據集和深度學習的發展,自動駕駛已從分層控制邁向數據驅動時代。隨著先進模擬器的出現,基于RL的方法登上了舞臺,隨后新技術如大語言模型帶來了更多的機遇。我們將在后文詳細分析,本文的其余部分組織如下:在第二節中,我們首先描述了基準的指標。我們還分析了最先進的自動駕駛模擬器和數據集的特征。在第三節中,我們回顧了RL和MARL的基本概念、定義和開放問題。在第四節中,我們詳盡介紹了自動駕駛領域最先進的MARL算法。具體而言,我們分析了它們的狀態和動作設置、方法論見解和應用。在第五節中,我們指出了現有挑戰并給出了可能的解決方案。在第六節中,我們捕捉了最新的進展,并提出了朝向更安全和智能的自動駕駛的有前途的方向。
II. 自動駕駛基準
強化學習(RL)通常需要大量的數據。一般來說,它需要與環境進行持續交互,以獲得行為軌跡,從而幫助深度神經網絡進行更準確的價值估計【35】【36】。然而,由于不確定的探索過程可能造成的經濟損失,我們通常不會將RL策略直接部署在真實的機器人上。因此,在RL范式中,來自真實駕駛和高保真模擬器的數據被廣泛用于基于RL的自動駕駛開發。在本節中,我們將介紹用于自動駕駛和交通系統中的大規模多智能體強化學習(MARL)的各種數據源。
最先進的方法論
本節將介紹用于多車輛系統運動規劃和控制的最新多智能體強化學習(MARL)方法。我們無法涵蓋所有相關研究,但本綜述中選取的代表性技術均來源于發表在最具影響力的會議和期刊的報告。此外,我們鼓勵研究人員在我們的網站上報告更多相關工作。 A. 集中式多智能體強化學習
在集中式訓練與分散執行(CTDE)方案中,每輛車都有一個獨立的策略網絡,并設有一個核心計算機來合并和處理來自所有車輛的信息。首先,我們從所有車輛獲取合并的觀測,通過預定義的全局獎勵函數評估系統狀態,然后在完成信用分配后訓練獨立的策略。PRIMAL [154] 是路徑規劃集中式訓練的里程碑式工作,它為每個智能體分配了一個獨立且精心設計的參數共享的actor-critic網絡,并使用A3C [155]算法進行訓練。在這項工作中,研究人員說明了獨立策略可能導致自私行為,而帶有安全懲罰的手工設計獎勵函數是一個不錯的解決方案。此外,系統還提供了一個開關,使智能體可以從交互或專家示范中學習。強化學習與模仿學習的結合有助于快速學習,并緩解自私行為對整個系統的負面影響。在本文中,定義了一個離散網格世界,每個智能體的局部狀態設為10×10方塊的信息,并使用指向目標的單位向量來表示方向。為了驗證在現實世界中的可行性,作者還在工廠模型中實現了PRIMAL系統。 在MADDPG [24]中,作者提出了基于深度確定性策略梯度(DDPG)[156]的首個可泛化CTDE算法,并使用玩具多粒子環境作為測試平臺。它提供了一個基本平臺,具有簡單的車輛動力學,用于在設計無關的場景下學習連續觀測和動作空間中的連續駕駛策略,并吸引了許多杰出的后續研究者【21】【157】。同時,價值函數分解方法與CTDE方案的結合在智能體數量上的可擴展性方面表現更好,并減輕了策略訓練中的非靜態性影響,從而在大規模多智能體系統中提高了性能【116】【158】。這些方法已在Highway-Env [84][159]中無信號交叉路口等復雜場景中得到了驗證。此外,專家示范有助于降低收斂到次優策略的風險【159】。為了驗證在無地圖導航任務中部署CTDE方法的可行性,Global Dueling Q-learning (GDQ) [160] 在MPE [24] 中為每個turtlebot3設置了一個獨立的DDQN [161] 來訓練策略并估計價值。此外,他們引入了一個全局價值網絡,將每個智能體的價值網絡輸出組合起來以估計聯合狀態價值。事實證明,該方法比常規的價值分解方法更為有效。同時,研究人員還嘗試將單智能體RL中的基本算法(如PPO [65]或SAC [66])擴展到多智能體任務,并提供了許多重要的基線,如MAAC [162]和MAPPO [163]。特別是,MAPPO在大量基準測試中得到了全面驗證,并提供了系統的超參數選擇和訓練指南。為了克服從模擬到現實的差距并將MAPPO部署到實際機器人上,開發人員在Duckietown-Gym模擬器中訓練了一個用于跟隨地面航點的策略網絡。MAPPO策略網絡采用了循環神經網絡(RNN)[164],用于回憶前一狀態的知識,并為每輛車輸出高層次的目標線速度和角速度。與大多數室內導航任務類似,光學跟蹤系統捕獲車輛的位置和姿態。通過線性化逆動力學,可以在域適應后獲得車輛的低級執行命令。這項工作揭示了如何在實際機器人上部署CTDE方案,其工程經驗對于未來的研究具有重要價值。 B. 獨立策略優化
考慮到實際部署中的通信、帶寬和系統復雜性等挑戰,完全去中心化系統通過允許智能體獨立操作而無需持續協調,減少了通信開銷和帶寬需求。此外,它更容易在通信基礎設施有限或不可靠的環境中部署,降低了決策延遲,并簡化了每個智能體的本地計算。這些因素使得去中心化的MARL成為現實世界多智能體應用中更實用且更具適應性的方法。近年來,獨立策略優化(IPO)[165]獲得了越來越多的關注,并提出了大量相關方法。同時,這些研究中所涉及場景的復雜性和智能體的規模也同步增加,反映出去中心化學習更符合現實世界中大規模自動駕駛的需求。 為了在集中式方案中解決可擴展性問題,MAPPER [166]采用了基于A2C [155]算法的去中心化actor-critic方法。首先,占用地圖的局部觀測表示為包含靜態場景、動態障礙物和A規劃器[167]規劃軌跡信息的三通道圖像。這些三通道觀測通過卷積神經網絡(CNN)抽象為潛在向量,并與通過多層感知機(MLP)抽象的航點信息一起輸入共享的全連接層。隨后,兩個獨立的MLP分別輸出動作概率和價值估計。此外,MAPPER在優化過程中使用了額外的進化算法來消除不良策略。與PRIMAL [154]相比,MAPPER在大規模場景中可以更快地學習并更有效地處理動態障礙物。另一種提高可擴展性的方法是G2RL [168],這是一種適用于任意數量智能體的網格地圖導航方法。同樣,它利用A為每個智能體提供全局引導路徑。同時,本地占用地圖輸入到本地DDQN [161]規劃器中,以捕捉本地觀測并生成糾正指令以避免動態障礙物。由于智能體之間無需通信,該方法無需考慮通信延遲,可擴展至任何規模。 作為PRIMAL的繼任者,PRIMAL2 [169]保留了相同的分層結構,即由A規劃器生成全局路徑,并由A3C和模仿學習指導的智能體訓練。關鍵區別在于PRIMAL2采用了完全去中心化的訓練方法,增強了其處理結構化和高密度復雜場景的靈活性。與MAPPER類似,它采用了11×11的觀測范圍,并將觀測分為多通道圖像輸入。前四個通道包括靜態障礙物、智能體自身的目標點、其他智能體的位置和其他智能體的目標點。第五到第八通道提供了A規劃的本地路徑,以及在觀測范圍內其他智能體在未來三個時間步長的位置。最后三個通道提供了走廊出口的X和Y坐標偏移,以及一個布爾狀態,指示是否有其他智能體阻擋路徑。更細致的觀測輸入使PRIMAL2能夠有效解決高密度復雜占用網格中的智能體死鎖問題,并生成比前代方法更短的路徑。 上述方法是為具有離散動作空間的結構化占用網格開發的,適用于結構化倉庫和貨運終端中的自動地面車輛。盡管與真實交通系統存在差異,這些方法仍然為后續工作提供了靈感。其他去中心化學習研究在更先進的連續基準測試上進行【24】【63】【70】。例如,在PIPO [21]中,研究人員利用圖神經網絡的置換不變性開發了一種端到端的運動規劃方案。他們在MPE中定義了一個逐步擴大的連續場景,場景中有各種靜態障礙物。在訓練過程中,觀察到的其他智能體狀態的隨機置換增強了actor-critic網絡的特征表示。我們注意到還有許多優秀且具有代表性的去中心化訓練方案,但我們將在其他子主題中對它們進行分類,并在后續章節中詳細介紹。 C. 帶有社會偏好的學習
盡管獨立策略學習在許多任務中是可行的,但當多個智能體的利益發生沖突時,純粹的自我中心的獨立策略學習可能會失敗,導致每個智能體都以自我為中心【20】。因此,一個重要的問題是如何平衡智能體的自私與利他行為。在圖4中,我們給出了一個玩具示例,以說明社會偏好如何影響智能體的行為。如果智能體無法平衡其利他和自私行為,這兩個智能體可能會發生碰撞或互相阻礙。因此,在策略學習中應該考慮社會行為和偏好【170】。為了找到社會偏好的數學表示,在早期工作中,研究人員首先提出使用三角函數來表示這種偏好。 D. 安全性和可信學習
安全性是部署自動駕駛系統的核心要素,也是首要任務,因為它直接關系到自動駕駛車輛(AVs)的可靠性和人們的生命安全。近年來,強化學習(RL)研究人員投入了大量精力,確保所學策略在探索過程中以及部署后不會引發安全問題。具體來說,受【172】啟發,我們將現有的多智能體強化學習(MARL)安全標準和方法分為三類。 首先,軟安全保障涉及設計安全懲罰項,以減少危險行為的發生概率。通過精細調整的獎勵,學習算法可以在其他性能指標的同時優先考慮安全性。然而,盡管軟安全保障已被證明可以有效提高多智能體系統中的安全性能,但其局限性在于它依賴于獎勵函數能夠準確捕捉所有安全方面的假設,而這在復雜環境中往往具有挑戰性。 第二類是優化過程中發生的概率性保障。例如,一些最新的MARL算法在策略優化過程中利用拉格朗日約束【21】或安全閾值【173】【174】。本質上,這種方法改善了策略梯度,有助于避免危險的探索行為。然而,由于策略仍然表示為概率分布,因此我們無法為這種方法獲得明確、可解釋和穩定的安全邊界。同時,現實世界駕駛中的關鍵安全約束是瞬時的和確定性的【175】。例如,避碰是一個依賴于系統當前狀態的瞬時約束,而不是依賴于歷史軌跡或隨機變量。 E. 方法總結
如表II所示,我們收集了過去五年中關于戶外自動駕駛、交通系統控制和結構化場景運輸中多智能體強化學習(MARL)的代表性工作。同時,我們列出了它們的分類、最大智能體數量、使用的模擬器以及是否進行了現實世界的實驗。在此需要注意的是,即使使用相同的模擬類型,動作設置也可能完全不同。例如,在PRIMAL和PRIMAL2中,智能體的動作設置為(↑, →, ↓, ←, ?),代表二維網格地圖中在水平和垂直方向上的四種移動以及停留在原地。相比之下,MAPPER為智能體增加了四個額外的對角移動(↗, ↘, ↙, ↖)。 此外,我們發現許多研究采用預定義的高層次動作指令來簡化任務。策略網絡輸出離散值,這些值映射到相應的預設動作,然后低級控制器執行這些動作,生成命令并將其發送到執行器。兩個具體的例子是MFPG【182】和CPO-AD【183】。它們預設了低級單向控制映射,僅考慮自動駕駛車輛在一個方向上的移動。 我們從該領域過去的研究中總結出三大趨勢。首先,早期的研究由于算法多樣性和模擬器性能的限制,更側重于網格地圖中的集中式MARL。然而,近期研究探討了去中心化方法在更復雜的連續觀測中的潛力。其次,只有少數研究進行了現實世界的實驗,并且僅使用離散模擬器和少量智能體,這是未來工作可以改進的方面。第三,最新的研究采用了更復雜的設計,并整合了來自其他領域的更多方法,如數據壓縮和機器視覺。 在本節中,我們將介紹多智能體強化學習(MARL)中的主要挑戰。需要注意的是,集中式訓練與分散執行(CTDE)和分散式訓練與分散執行(DTDE)方案所面臨的問題是不同的。盡管已經提出了一些可行的解決方案來解決這些問題,但這些方案仍然不是唯一的,也不完美。我們希望讀者能夠提前認識到這些問題的存在及其特性,從而更好地理解后續先進方法的動機和技術創新。
多標簽學習是一個迅速發展的研究領域,旨在從單個輸入數據點預測多個標簽。在大數據時代,涉及多標簽分類(MLC)或排名的任務提出了重大而復雜的挑戰,在多個領域吸引了相當多的注意力。MLC固有的困難包括處理高維數據、解決標簽相關性和處理部分標簽,傳統方法在這些方面效果不佳。近年來,采用深度學習(DL)技術來更有效地解決MLC中的這些挑戰的嘗試顯著增加。值得注意的是,有一個增長中的努力旨在利用DL的強大學習能力,以改進對標簽依賴性及MLC中其他挑戰的建模。 然而,值得注意的是,專門針對多標簽學習的DL的綜合研究相對有限。因此,這項綜述旨在徹底回顧DL在多標簽學習中的最新進展,以及MLC中開放研究問題的總結。 該綜述整合了DL在MLC中的現有研究努力,包括深度神經網絡、變換器(Transformer)、自編碼器、卷積和循環架構。最后,該研究提出了現有方法的比較分析,以提供有洞察力的觀察,并激發該領域未來研究方向的思考。
在許多實際應用中,一個對象可能同時與多個標簽關聯,這類問題被認為是多標簽學習(MLL)【1】。MLL是標準單標簽學習范式的擴展,在這個范式中,通常有一個有限的潛在標簽集,這些標簽可以應用于多標簽數據(MLD)的實例。基本目標是同時預測給定單個輸入的輸出向量,這意味著它可以解決更復雜的決策問題。這與單標簽分類相對,單標簽分類中每個實例只與一個標簽關聯。在多標簽任務的上下文中,一個實例通常與一組標簽相關聯,構成稱為相關標簽(活動標簽)的不同組合,而與實例未鏈接的標簽被稱為不相關標簽。相關和不相關標簽都表示為一個二進制向量,其大小與MLD中標簽的總數對齊。根據目標的不同,MLL中存在兩個主要任務:多標簽分類(MLC)和多標簽排名(MLR)【2】。MLC是主要的學習任務,涉及學習一個模型,該模型輸出一個標簽集的二分劃分,將其分為與查詢實例相關和不相關的標簽。另一方面,MLR關注于學習一個模型,該模型輸出類標簽的排序,根據它們對查詢實例的相關性進行排序。
盡管MLC應用傳統上集中在文本分析、多媒體和生物學上,但它們的重要性正在逐漸增長,涵蓋了多個領域,如文檔分類【3】【4】【5】、醫療保健【6】【7】【8】、環境建模【9】【10】、情感識別【11】【12】、商業【13】【14】、社交媒體【15】【16】【17】等。許多其他要求嚴格的應用,如視頻注釋、網頁分類和語言建模,也可以從被構建為MLC任務中獲益,這涉及到數百、數千甚至數百萬的標簽。如此廣泛的標簽空間提出了研究挑戰,例如與數據稀疏性和可擴展性相關的問題。MLC還包含額外的復雜性,包括建模標簽相關性【18】【19】、不平衡標簽【20】和噪聲標簽【21】。傳統的MLC方法,如問題轉換和算法適配【22】【23】,在解決這些挑戰時表現出次優性能。
除了傳統方法外,深度學習(DL)技術在解決MLC挑戰中越來越受歡迎。深度學習的強大學習能力特別適用于解決MLC挑戰,這通過它們在解決單標簽分類任務中的顯著成功得到了證明。目前,MLC中的一個主要趨勢是廣泛地結合DL技術,即使是對于更具挑戰性的問題,如極端MLC【24】【25】【26】、不平衡MLC【27】【28】、弱監督MLC【29】【30】【31】和缺失標簽的MLC【32】【33】。有效地利用DL的強大學習能力對于更好地理解和建模標簽相關性至關重要,從而使DL能夠有效地解決MLC問題。一些研究表明,專門設計用于捕獲標簽依賴性的MLC方法通常展示出更優越的預測性能【34】【19】。本文對現有文獻進行了簡要回顧,旨在識別一系列基于DL的技術用于MLC問題,以激發對MLC的創新DL基方法的進一步探索。已有一些關于MLC傳統方法的綜述,如在【35】【23】【36】中引用的那些。此外,還有一些綜述包含了傳統方法和DL方法【37】【38】,但這些綜述對MLC的DL方法的覆蓋有限,并且集中在特定領域。然而,本文獨特地關注于一系列DL架構,包括循環和卷積網絡、變換器、自編碼器和混合模型,用于解決多個領域中的MLC挑戰。在圖1中,我們提出了一個包含傳統方法和DL方法的多標簽學習方法的分類。
本文的主要貢獻可以概括如下:
據作者所知,本綜述是第一個全面覆蓋用于解決MLC任務的DL方法的,涵蓋了多種領域和數據模態,包括文本、音樂、圖像和視頻。
提供了一個關于多個公開可用數據集上最新DL方法的綜合總結(表I、II和III),簡要概述了每種DL方法并進行了深刻的討論。因此,本綜述為讀者提供了最先進的方法。
我們提供了當前面臨MLC領域挑戰的簡要描述。此外,我們還總結了在MLC中使用的多標簽數據集,以及評估這些數據集特性所用的屬性定義。 最后,本文提供了一項涉及各種DL技術的現有方法的比較研究,并調查了每種方法的優缺點(表V)。它提供了可以指導選擇合適技術和在未來研究中開發更好DL方法的見解。 本文的后續部分組織如下。 第II部分介紹多標簽學習的基本概念。第III部分介紹了研究方法論,重點是數據來源和搜索策略、選擇標準以及出版物的統計趨勢。第IV部分是本綜述的主要部分,討論了解決MLC挑戰的各種DL方法。第V部分關注MLC中的開放性挑戰和數據集。第VI部分提供了解決方案的比較分析,包括優勢和局限。最后,第VII部分給出了本文的結論。
近年來,DL(深度學習)的進步顯著豐富了MLC(多標簽分類)的領域景觀。DL架構在生成輸入特征和輸出空間的嵌入表示方面發揮了關鍵作用。DL的強大學習能力在各個領域的MLC任務中得到了廣泛應用,例如圖像、文本、音樂和視頻。用于MLC的最常用DL方法包括深度神經網絡、卷積、循環、自編碼器和變壓器架構,以及混合模型。有效地利用這些DL方法的優勢對于解決MLC中的標簽依賴性和其他挑戰至關重要。本節提供了這些突出DL方法在MLC中的應用概覽,并對每種技術進行了專門針對MLC的詳細考察。
多智能體強化學習(MARL)是一個種類繁多、高度活躍的研究領域。隨著深度學習在 2015年引入多智能體強化學習,該領域的研究活動出現了爆炸式增長,現在所有主要的人工智能和機器學習會議都會例行討論開發新的多智能體強化學習算法或以某種方式應用多智能體強化學習的論文。此后發表的調查論文數量不斷增加,也證明了這一急劇增長,我們在附錄 A 中列出了其中的許多論文。
隨著這一增長,該領域顯然需要一本教科書來對 MARL 進行原則性介紹。本書部分基于 "多智能體學習:基礎與最新趨勢 "教程,并在很大程度上沿用了該教程的結構: Stefano V. Albrecht 和 Peter Stone 在澳大利亞墨爾本舉行的 2017 年國際人工智能聯合會議上所做的題為 "多智能體學習:基礎與最新趨勢 "的教程。編寫本書的目的是對MARL中的模型、求解概念、算法思想和技術挑戰進行基本介紹,并描述MARL中融合深度學習技術以產生強大新算法的現代方法。從本質上講,我們認為本書所涉及的材料應該為每一位 MARL 研究人員所了解。此外,本書還旨在為研究人員和從業人員在使用 MARL 算法時提供實用指導。為此,本書附帶了用 Python 編程語言編寫的代碼庫,其中包含本書討論的幾種 MARL 算法的實現。代碼庫的主要目的是提供自成一體、易于閱讀的算法代碼,以幫助讀者理解。
本書假定讀者具有本科水平的基礎數學背景,包括統計學、概率論、線性代數和微積分。要理解和使用代碼庫,需要熟悉基本的編程概念。一般來說,我們建議按照給定的順序閱讀本書的各個章節。對于不熟悉強化學習和深度學習的讀者,我們分別在第2章、第7章和第8章提供了基礎知識。已經熟悉強化學習和深度學習的讀者,如果想快速掌握基于深度學習的最新 MARL 算法,可以先閱讀第 3 章,然后跳到第 9 章及以后的章節。為了幫助講師采用本書,我們制作了講義幻燈片(可從本書網站獲取),講義幻燈片可根據課程需要進行修改。
MARL 已成為一個龐大的研究領域,本書并未涵蓋 MARL 的所有方面。例如,關于在 MARL 中使用通信的研究成果越來越多,但本書并未涉及。這包括的問題有:當通信渠道嘈雜、不可靠時,智能體如何學會穩健地進行通信;以及智能體如何利用 MARL 學習特定任務的專用通信協議或語言。雖然本書的重點不是 MARL 中的通信,但本書介紹的模型具有足夠的通用性,也可以表示智能體可以觀察到但不影響環境狀態的通信行為。此外,還有關于使用進化方法進行多智能體學習的研究,即智能體種群中的突變和交叉,本書不涉及這方面的內容。最后,近年來,MARL 領域的研究活動急劇增加,試圖寫一本書來跟上新算法的步伐是徒勞的。我們將重點放在 MARL 的基本概念和思想上,并參考調查論文(包括附錄 A 中列出的論文),以獲得更完整的算法發展列表。
加固網絡物理資產既重要又耗費人力。最近,機器學習(ML)和強化學習(RL)在自動化任務方面顯示出巨大的前景,否則這些任務將需要大量的人類洞察力/智能。在RL的情況下,智能體根據其觀察結果采取行動(進攻/紅方智能體或防御/藍方智能體)。這些行動導致狀態發生變化,智能體獲得獎勵(包括正獎勵和負獎勵)。這種方法需要一個訓練環境,在這個環境中,智能體通過試錯學習有希望的行動方案。在這項工作中,我們將微軟的CyberBattleSim作為我們的訓練環境,并增加了訓練藍方智能體的功能。報告描述了我們對CBS的擴展,并介紹了單獨或與紅方智能體聯合訓練藍方智能體時獲得的結果。我們的結果表明,訓練藍方智能體確實可以增強對攻擊的防御能力。特別是,將藍方智能體與紅方智能體聯合訓練可提高藍方智能體挫敗復雜紅方智能體的能力。
由于網絡威脅不斷演變,任何網絡安全解決方案都無法保證提供全面保護。因此,我們希望通過機器學習來幫助創建可擴展的解決方案。在強化學習的幫助下,我們可以開發出能夠分析和學習攻擊的解決方案,從而在未來防范類似威脅,而不是像商業網絡安全解決方案那樣簡單地識別威脅。
我們的項目名為MARLon,探索將多智能體強化學習(MARL)添加到名為CyberBattleSim的模擬抽象網絡環境中。這種多智能體強化學習將攻擊智能體和可學習防御智能體的擴展版本結合在一起進行訓練。
要在CyberBattleSim中添加MARL,有幾個先決條件。第一個先決條件是了解CyberBattleSim環境是如何運行的,并有能力模擬智能體在做什么。為了實現這一點,該項目的第一個目標是實現一個用戶界面,讓用戶看到環境在一個事件中的樣子。
第二個先決條件是為CyberBattleSim添加MARL算法。目前CyberBattleSim的表Q學習和深Q學習實現在結構上無法處理這個問題。這是因為CyberBattleSim實現的表Q學習和深Q學習不符合適當的OpenAI Gym標準。因此,需要添加新的強化學習算法。
當前的防御者沒有學習能力,這意味著要啟用多智能體學習,防御者需要添加以下功能:添加使用所有可用行動的能力,將這些行動收集到行動空間,實現新的觀察空間,并實現獎勵函數。
最后,為了增加MARL,新創建的攻擊者算法和新的可學習防御者必須在同一環境中組合。這樣,兩個智能體就可以在相互競爭的同時進行訓練。
學習解決順序決策任務是困難的。人類花了數年時間,基本上以一種隨機的方式探索環境,直到他們能夠推理,解決困難的任務,并與他人合作實現一個共同的目標。人工智能智能體在這方面和人類很像。強化學習(RL)是一種眾所周知的通過與環境的交互來訓練自主智能體的技術。遺憾的是,學習過程具有很高的樣本復雜性來推斷一個有效的驅動策略,特別是當多個智能體同時在環境中驅動時。
然而,以前的知識可以用來加速學習和解決更難的任務。同樣,人類通過關聯不同的任務來構建技能并重用它們,RL代理可能會重用來自先前解決的任務的知識,以及來自與環境中其他智能體的知識交換的知識。事實上,目前RL解決的幾乎所有最具挑戰性的任務都依賴于嵌入的知識重用技術,如模仿學習、從演示中學習和課程學習。
本書概述了多agent RL中關于知識重用的文獻。作者為重用知識定義了最先進的解決方案的統一分類,提供了該領域最近進展的全面討論。在這本書中,讀者將發現關于知識在多智能體順序決策任務中重用的許多方法的全面討論,以及在哪些場景中每種方法更有效。作者還提供了他們對該地區目前低垂的發展成果的看法,以及仍然開放的大問題,可能導致突破性的發展。最后,本書為想要加入這一領域或利用這些技術的研究人員提供了資源,包括會議、期刊和實現工具的列表。
這本書將對廣大讀者有用;并有望促進社區間的新對話和該地區的新發展。
//www.morganclaypool.com/doi/10.2200/S01091ED1V01Y202104AIM049
BERT、GPT 等大規模預訓練模型(PTM)最近取得了巨大成功,成為人工智能領域的里程碑。由于復雜的預訓練目標和龐大的模型參數,大規模 PTM 可以有效地從大量標記和未標記的數據中捕獲知識。通過將知識存儲到大量的參數中并對特定任務進行微調,大量參數中隱式編碼的豐富知識可以使各種下游任務受益,這已通過實驗驗證和實證分析得到廣泛證明。現在人工智能社區的共識是采用 PTM 作為下游任務的支柱,而不是從頭開始學習模型。
在本文中,我們深入研究了預訓練的歷史,尤其是它與遷移學習和自監督學習的特殊關系,以揭示 PTM 在 AI 開發領域中的關鍵地位。此外,我們全面回顧了 PTM 的最新突破。這些突破是由計算能力的激增和數據可用性的增加推動的,朝著四個重要方向發展:設計有效的架構、利用豐富的上下文、提高計算效率以及進行解釋和理論分析。最后,我們討論了 PTMs 的一系列開放問題和研究方向,希望我們的觀點能夠啟發和推動 PTMs 的未來研究。
盡管在深度學習方面取得了最近的進展,但大多數方法仍然采用類似“筒倉”的解決方案,專注于孤立地學習每個任務:為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實問題需要多模態方法,因此需要多任務模型。多任務學習(MTL)旨在利用跨任務的有用信息來提高模型的泛化能力。在這個綜述中,我們提供了一個最先進的在深度神經網絡的背景下MTL技術的全面觀點。我們的貢獻涉及以下方面。首先,我們從網絡架構的角度來考慮MTL。我們包括了一個廣泛的概述,并討論了最近流行的MTL模型的優缺點。其次,我們研究了解決多任務聯合學習的各種優化方法。我們總結了這些工作的定性要素,并探討了它們的共性和差異。最后,我們在各種數據集上提供了廣泛的實驗評估,以檢查不同方法的優缺點,包括基于架構和優化的策略。
概述
在過去的十年中,神經網絡在許多任務中都顯示了令人印象深刻的結果,例如語義分割[1],實例分割[2]和單目深度估計[3]。傳統上,這些任務是單獨處理的,即為每個任務訓練一個單獨的神經網絡。然而,許多現實世界的問題本質上是多模態的。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,定位它們,了解它們是什么,估計它們的距離和軌跡,等等,以便在它的周圍安全導航。同樣的,一個智能廣告系統應該能夠在它的視點上檢測到人們的存在,了解他們的性別和年齡,分析他們的外貌,跟蹤他們正在看的地方,等等,從而提供個性化的內容。與此同時,人類非常擅長同時解決許多任務。生物數據處理似乎也遵循多任務處理策略: 不同的處理過程似乎共享大腦中相同的早期處理層,而不是將任務分開單獨處理。上述觀察結果促使研究人員開發了多任務學習(MTL)模型,即給定一個輸入圖像可以推斷出所有所需的任務輸出。
在深度學習時代之前,MTL工作試圖對任務之間的共同信息進行建模,希望通過聯合任務學習獲得更好的泛化性能。為了實現這一點,他們在任務參數空間上放置了假設,例如:任務參數應該彼此靠近w.r.t.一些距離度量[5],[6],[16]0,[16]2,共享一個共同的概率先驗[16]1,[10],[11],[12],[13],或駐留在一個低維子空間[14],[15],[16]或流形[17]。當所有任務都是相關的[5]、[14]、[18]、[19]時,這些假設可以很好地工作,但是如果在不相關的任務之間發生信息共享,則可能導致性能下降。后者是MTL中已知的問題,稱為負轉移。為了緩解這一問題,其中一些研究人員選擇根據先前對任務的相似性或相關性的認識將任務分組。
在深度學習時代,MTL轉化為能夠從多任務監控信號中學習共享表示的網絡設計。與單任務情況下,每個單獨的任務由自己的網絡單獨解決相比,這種多任務網絡理論上給表帶來了幾個優點。首先,由于它們固有的層共享,結果內存占用大大減少。其次,由于他們明確地避免重復計算共享層中的特征,每次都要計算一次,因此他們的推理速度有所提高。最重要的是,如果相關的任務能夠分享互補的信息,或者互相調節,它們就有可能提高績效。對于前者,文獻已經為某些對任務提供了證據,如檢測和分類[20],[21],檢測和分割[2],[22],分割和深度估計[23],[24],而對于后者,最近的努力指向了那個方向[25]。這些工作導致了第一個深度多任務網絡的發展,歷史上分為軟或硬參數共享技術。
在本文中,我們回顧了在深度神經網絡范圍內的MTL的最新方法。首先,我們對MTL基于架構和優化的策略進行了廣泛的概述。對于每種方法,我們描述了其關鍵方面,討論了與相關工作的共性和差異,并提出了可能的優點或缺點。最后,我們對所描述的方法進行了廣泛的實驗分析,得出了幾個關鍵的發現。我們在下面總結了我們的一些結論,并提出了未來工作的一些可能性。
首先,MTL的性能在很大程度上取決于任務字典。它的大小、任務類型、標簽源等等,都影響最終的結果。因此,最好根據每個案例選擇合適的架構和優化策略。盡管我們提供了具體的觀察結果,說明為什么某些方法在特定設置中工作得更好,但是MTL通常可以從更深的理論理解中獲益,從而在每種情況下最大化預期收益。例如,這些收益似乎取決于多種因素,例如數據量、任務關系、噪音等。未來的工作應該嘗試分離和分析這些不同因素的影響。
其次,當使用單一MTL模型處理多個密集預測任務時,基于解碼器的架構目前在多任務性能方面提供了更多優勢,與基于編碼器的架構相比,其計算開銷有限。如前所述,這是由于基于解碼器的體系結構促進了常見的跨任務模式的對齊,這自然很適合密集的預測任務。基于編碼器的架構在密集預測任務設置中仍然具有一定的優勢,但其固有的層共享似乎更適合處理多個分類任務。
最后,我們分析了多種任務均衡策略,并分離出對任務均衡學習最有效的要素,如降低噪聲任務的權重、平衡任務梯度等。然而,許多優化方面仍然缺乏了解。與最近的研究相反,我們的分析表明避免任務之間的梯度競爭會損害性能。此外,我們的研究顯示,一些任務平衡策略仍然存在不足,突出了現有方法之間的一些差異。我們希望這項工作能促進對這一問題的進一步研究。