本報告介紹了在三個主要議題方面取得的成果：

對小型無人機系統（SUAS）的分布式團隊進行實驗驗證，以協調執行復雜的行為。
開發了一個現實的多架無人機模擬器，以應用強化學習技術來協調一組小型無人機系統以達到特定目的。
設計并驗證了安裝在無人機上的帶有主動多輸入多輸出（MIMO）毫米波雷達傳感器的融合光學相機。

與驗證SUAS團隊有關的工作提出并實驗測試了我們的態勢感知、分布式SUAS團隊所使用的框架，該團隊能夠以自主方式實時運行，并在受限的通信條件下運行。我們的框架依賴于三層方法：（1）操作層，在這里做出快速的時間和狹窄的空間決定；（2）戰術層，在這里為智能體團隊做出時間和空間決定；以及（3）戰略層，在這里為智能體團隊做出緩慢的時間和廣泛的空間決定。這三層由一個臨時的、軟件定義的通信網絡協調，即使在通信受限的情況下，也能確保各層的智能體小組和團隊之間的信息傳遞稀少而及時。實驗結果顯示，一個由10個小型無人機系統組成的團隊負責在一個開放區域搜索和監測一個人。在操作層，我們的用例介紹了一個智能體自主地進行搜索、探測、定位、分類、識別、跟蹤和跟蹤該人，同時避免惡意碰撞。在戰術層，我們的實驗用例介紹了一組多個智能體的合作互動，使其能夠在更廣泛的空間和時間區域內監測目標人物。在戰略層，我們的用例涉及復雜行為的檢測--即被跟蹤的人進入汽車并逃跑，或者被跟蹤的人離開汽車并逃跑--這需要戰略反應以成功完成任務。

目標搜索和檢測包括各種決策問題，如覆蓋、監視、搜索、觀察和追逐-逃避以及其他問題。我們開發了一種多智能體深度強化學習（MADRL）方法來協調一組飛行器（無人機），以定位未知區域內的一組靜態目標。為此，我們設計了一個現實的無人機模擬器，它復制了真實實驗的動態和擾動，包括從實驗數據中提取的統計推斷，用于其建模。我們的強化學習方法，利用這個模擬器進行訓練，能夠為無人機找到接近最優的政策。與其他最先進的MADRL方法相比，我們的方法在學習和執行過程中都是完全分布式的，可以處理高維和連續的觀察空間，并且不需要調整額外的超參數。

為了給在受限通信條件下運行的SUAS開發一個分布式的分類和協調框架，我們的第一個目標是在無人駕駛飛行器（UAV）上建立一個多傳感器系統，以獲得高探測性能。眾所周知，安裝在無人機上的光學和熱傳感器已被成功用于對難以進入的區域進行成像。然而，這些傳感器都不提供關于場景的范圍信息；因此，它們與高分辨率毫米波雷達的融合有可能改善成像系統的性能。我們提出了一個配備了無源光學攝像機和有源多輸入多輸出（MIMO）毫米波雷達傳感器的下視無人機系統的初步實驗結果。毫米波雷達的三維成像是通過收集通過運動線的數據來實現的，從而產生一個合成孔徑，并使用垂直于運動軌跡的結線MIMO陣列。我們的初步結果顯示，融合的光學和毫米波圖像提供了形狀和范圍信息，最終導致無人機系統的成像能力增強。

付費5元查看完整內容

具有距離相關通信時延的大規模蜂群環面分叉

蜂群模型采用了全局耦合的蜂群，并明確放寬了固定延遲的假設，包括基于固定通信半徑的范圍相關延遲。我們表明，當包括與范圍有關的延遲時，就會引入新的頻率，并產生環形的分叉。其結果是一個蜂群，只取決于幾個參數。這里的結果對機器人蜂群很重要，其目標之一是在沒有外部控制的情況下，自主地產生所需的模式。這里預測的模式形成顯示了延遲的信息，無論是來自通信、行動還是兩者，都會影響蜂群狀態的穩定性，如環形和/或旋轉狀態。通過揭示模式不穩定的那些參數區域，我們提供了在存在與范圍有關的延遲的情況下自主可得的蜂群狀態的全面特征。

混合現實實驗中延遲引起的蜂群模式分叉

在這項工作中，我們通過提出一個混合現實的實驗框架來解決工程化蜂群系統的這些實驗挑戰，作為走向全面實驗驗證的第一個重要步驟。混合現實是在模擬和現實世界中同時使用虛擬機器人和真實機器人，它保留了物理機器人的關鍵特征，同時能夠擴展到更多數量的智能體，或更大的工作空間，而不受到資源的物理限制。混合現實帶來的好處包括：能夠與大量的機器人一起工作，并確保人類機器人互動的安全性。由于所需的機器人數量減少，使用混合現實技術的實驗成本較低，同時還能從幾個真實的機器人中引入現實世界的復雜動態。混合現實是向理論研究結果的全面實驗驗證邁出的重要第一步。此外，混合現實框架提供了對理論和改進實驗設計的額外見解的機會。

我們目前的研究使用混合現實作為進一步研究Szwaykowska等人提出的控制器的方式，并在實驗中繪制出物理參數方面的完整分叉圖。除了揭示蜂群動力學的分叉結構外，我們還將重點了解行為之間的轉換和增加防撞的影響。新的實驗使用兩個不同的感興趣的平臺：一個使用無人駕駛飛行器（UAV），另一個使用自主地面車輛（ASV），都在一個混合現實框架內。使用兩個不同的平臺有幾個優點。首先，它測試了不同平臺和巨大的不同時間尺度的延遲耦合群的普遍分叉結構。其次，它允許在實驗過程中安全地測試不同數量的機器人和約束。

碰撞蜂群——用一個蜂群控制另一個蜂群

由于自然蜂群的穩健性、可擴展性和集體解決問題的能力，許多研究都集中在設計和構建具有大量且不斷擴展的平臺以及虛擬和物理交互機制的移動機器人群上。這類系統的應用范圍包括探索、繪圖、資源分配和用于防御的群組。

由于近年來機器人系統的整體成本大幅下降，在現實世界中使用人工群已成為可能。這就引入了讓多個蜂群占據同一物理空間的可能性，從而導致相互之間的互動和對彼此動態的擾動。隨著這種蜂群之間相互作用的可能性增加，對多個蜂群如何碰撞和合并的理解變得很有必要。

盡管人們對具有物理啟發的、非線性相互作用的單個孤立蜂群的行為和穩定性有很多了解，但對多個這樣的蜂群的交叉動力學卻知之甚少，即使在一個蜂群是單個粒子的情況下，如捕食者-獵物模型中。最近的數值研究表明，當兩個蜂群發生碰撞時，所產生的動態通常表現為蜂群合并成一個單一的蜂群，作為一個統一的蜂群進行研磨，或散射成單獨的復合蜂群向不同方向移動。雖然很有趣，但需要對這些行為如何以及何時發生有更詳細的分析了解，特別是在設計機器人實驗和控制其結果時。

為了取得進展，我們考慮了一個在自推進力、摩擦力和成對相互作用力影響下運動的移動智能體的通用系統。在沒有相互作用的情況下，每個個體都傾向于一個固定的速度，這平衡了它的自推進力和摩擦力，但沒有首選方向。

結論

我們考慮了自主蜂群中的三個基本的開放性問題：在存在范圍相關的通信網絡的情況下，蜂群的穩定性如何作為系統參數的函數而變化。目前混合現實實驗的蜂群模式的動態，以驗證以前的分叉分析。最后，我們展示了一個蜂群如何通過兩個蜂群的碰撞來改變另一個蜂群的行為。

具體來說，我們考慮了一個具有延遲耦合通信網絡的蜂群的新模型，其中延遲被認為是與范圍有關的。也就是說，給定一個范圍半徑，如果兩個智能體在半徑之外，延遲就是開，否則就是零。其含義是，如果智能體彼此靠近，小的延遲并不重要。額外的范圍依賴性創造了一套新的分叉，這是以前沒有看到的。對于沒有延遲的一般蜂群，通常的狀態包括成群（平移）或環形/旋轉狀態，智能體以相位傳播。隨著固定延遲的增加，旋轉狀態分叉，所有的智能體都處于相位，一起旋轉。范圍依賴性引入了一個新的旋轉分叉狀態，表現為觀察到的新的混合狀態，結合了環形和旋轉狀態的動力學。半徑參數，被用來量化旋轉混合狀態的分叉。對于小半徑，我們看到整個蜂群的動力學顯示出集群的反旋轉行為，是周期性的。這與平均場描述中的小半徑值一致。隨著半徑的增加，混合的周期性狀態在整個模型中產生了新的頻率，這些頻率在平均場中表現為環形分叉。均值場分析是通過跟蹤以復數對形式穿過虛軸的Floquet乘數來完成的。頻率分析明確地顯示了均值場中的額外頻率。

最后，我們跟蹤了不同半徑值的耦合振幅和延遲的位置，定位了發生環形分叉的參數。結果顯示，隨著延遲半徑的增加，環形分叉在較低的耦合振幅和延遲值上發生。其含義是，如果包括延遲的范圍依賴性，比周期性運動更復雜的行為在理論和實驗中被觀察到的概率更大。

通過操縱通信延遲和耦合強度，我們采取了第一個重要步驟，利用混合現實測試不同的突發蜂群狀態。混合現實框架允許通過使用模擬來增加智能體的數量，同時保持關鍵的現實世界的相互作用，這是很難用物理平臺來建模的，從而對突發的蜂群行為進行研究。由于混合現實可以處理許多不同的抽象層次，我們能夠使用兩個不同的機器人平臺來驗證蜂群行為。我們選擇了行為所需的抽象水平，在我們的案例中，它集中于表現出簡單的動態和使用延遲信息的智能體，就像在現實世界中一樣。ASVs和UAV都測試了所有三種理論上預測的行為，以及預測的蜂群狀態之間的轉換。這強調了所提出的蜂群模型有可能適用于各種平臺，并強調了通信延遲對系統行為的影響。

有一系列的理論支持所提出的模型，所提出的結果是顯示理論有效的重要步驟，同時也證明了有一些感興趣的領域是理論所沒有捕捉到的。理解這個系統的多重穩定性在分析上是很困難的，但是通過使用模擬和混合現實，我們能夠觀察到多重穩定性，以及它在與真實車輛配對時對擬議的理論模型的影響。

這項工作的下一步包括調查增加更多的現實世界的假設如何改變預測的出現模式。例如，由于網絡的限制，我們的全局耦合的通信模型在所有真實的機器人中并不實用。下一步是研究基于范圍的通信的影響。雖然經常對同質智能體進行研究，但也可以考慮異質性的影響，這可能需要使用不同類型的防撞措施來說明不同的硬件限制。最后，存在不同的動態模型，其中可以添加延遲。這就提出了新的潛在模式，可以使用所述的分析形式進行研究。這些變化將繼續增加對我們當前模型的理解，以及對物理世界中這種類型的突發行為的使用。

最后，我們研究了具有非線性相互作用的兩個蜂群的碰撞，并特別側重于預測這種蜂群何時會結合成一個群體。與完整的散射圖不同的是，它取決于一組特定的初始條件是否屬于集群的高維吸引盆地（一般來說是一個困難的問題），我們集中于預測在近乎正面碰撞時維持一個集群所需的最小耦合。通過注意到最終形成碰撞群，最初是圍繞一個密度近似恒定的共同中心旋轉，我們能夠將臨界耦合的問題轉化為確定均值場近似的極限循環狀態的穩定性。我們的分叉分析與許多智能體的模擬結果一致。盡管我們的分析直接涉及到軟核內互動的蜂群，但只要智能體之間的非線性力有一個有限的范圍，基本方法可以很容易地擴展到更廣泛的模型。此外，提高我們分析的準確性的一個直接方法是超越均勻密度假設，用具有一般相互作用的蜂群狀態的精確穩態密度來取代它。除此之外，下一步的改進將是直接包括密度動力學，這可能為控制蜂群碰撞提供進一步的見解，包括在其他設置中，如蜂群。盡管如此，這項工作為理解和分析非線性蜂群碰撞邁出了重要的一步。

付費5元查看完整內容

AI與軍事 · 士兵狀態估計 · 建模與分析 · 美國陸軍研究實驗室（ARL） · 人工智能 ·

2022 年 10 月 27 日

[付費5元查看完整內容]《士兵狀態估計：建模與分析（技術報告摘要》美陸軍2022最新12頁報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

美國陸軍未來司令部的士兵致命性（SL）跨職能小組（CFT）正在研究通過頭戴式和武器式能力的組合來增強下馬步兵的新方法。根據SLCFT的指示，美國陸軍作戰能力發展司令部（DEVCOM）陸軍研究實驗室的研究人員探索了加強輔助目標識別能力的技術，作為陸軍下一代智能班組武器計劃的一部分。

敵對環境中涉及潛在目標的復雜決策必須由下馬的士兵做出，以保持戰術優勢。這些決定可能是人工智能（AI）技術的強大信息，如AI支持的火力或指揮和控制決策輔助工具。例如，一個士兵發射武器是一個明確的跡象，表明該地區有一個敵對的目標。然而，一個士兵在環境中追蹤一個潛在的目標，然后放下他們的武器，這是一個模糊的、隱含的跡象，表明該目標受到關注，但最終被該士兵認為不是一個直接的威脅。在近距離作戰的環境中，與士兵狀態相關的隱性標記數據（如光電視頻、位置信息或火力行動）可用于輸入決策輔助工具，以得出真實的戰場背景。然而，需要對這些行動進行更徹底的檢查。此外，來自單個士兵的突發非交流行為在整個班級中的匯總可以增強戰術態勢感知。盡管它們有可能產生戰術影響，但這些狀態估計或行為指標往往不能以立即可用的形式獲得。

DEVCOM陸軍研究實驗室（ARL）的研究人員調查了一種通過機會主義感應來進行下馬士兵狀態估計的方法--一種不需要人類明確行動就能收集和推斷關鍵的真實世界數據的方法。在通過正常使用武器追蹤和攻擊移動和靜止目標時，連續獲得數據以解釋士兵的行為。這項工作中使用的士兵-武器行為分類方法主要來自人類活動識別（HAR）研究。然而，在這項工作中，為了提高行為結果的生態有效性，在眼球追蹤文獻中經常使用的實驗范式被反映出來，將眼球運動和認知推理聯系起來。具體來說，眼動跟蹤研究的一個子集的目標是收集和解釋與公開的視覺注意力有關的眼動事件（即固定、囊狀運動和追逐），這可以揭示認知過程和關于環境的客觀內容。在戰斗中，士兵們可能會將他們的目標停留在一個靜態的目標上（固定），當出現新的目標時迅速轉換目標點，有潛在的目標出現（囊狀運動），或者在潛在目標移動時跟蹤他們的目標點（平滑追擊）。

目前，頭戴式眼動跟蹤技術正在開發用于戰斗。然而，與校準誤差有關的凝視數據中的噪聲使其難以有效地使用這些數據。一個更突出的解決方案可能存在于士兵和他們的武器之間的互動中，這項工作使用傳統的HAR技術進行。執行HAR的主要方法是在一個人進行一些身體活動時，使用慣性測量單元收集時間序列數據。然后使用機器學習技術來訓練分類模型，根據數據信號預測行動。這種方法可以擴展到包括在人類與物體互動時對其運動的分類。在這種情況下，當近距離作戰的士兵與潛在的威脅進行互動時，武器的運動特征被伺機獲得，這為這些士兵在這種環境中做出的復雜決定提供了一個窗口。

論文中記錄并發表了對這一評估的全面分析。對來自動態士兵狀態估計的運動數據進行建模和分析以實現對形勢的理解。

付費5元查看完整內容

AI與軍事 · 四軸飛行器 · 非線性控制 · 美國陸軍研究實驗室（ARL） ·

2022 年 10 月 21 日

[付費5元查看完整內容]《強風下四軸飛行器的自適應非線性控制》美國陸軍研究實驗室2022最新28頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在有環境因素的城市區域內安全有效地使用四旋翼飛行器，對美國軍事和民用部門具有巨大的重要性。本技術報告探討了一個高度適應性的模擬設置，其中有一個包含學習元素的非線性控制器。其他模型因素--如無人機的幾何形狀、權重和風的力量--在所提出的框架內很容易被修改。用虛幻引擎進行的模擬，可以結合現實世界的城市數據、現實的風和現有的開源軟件。

引言及與美國陸軍的相關性

無人系統和無人駕駛航空系統（UAS）的使用在全世界的軍隊中激增，在通信、監視、偵察和戰斗中都有應用（Nacouzi等人，2018）。在敵對地區，無人機系統將受到多種威脅，包括網絡和物理威脅，以及環境危害。生存和任務的成功往往取決于以最小的通信或依賴全球導航衛星系統（GNSS）的能力，如GPS（Guvenc等人，2018；Sathyamoorthy等人，2020；Fan等人，2022）。例如，無人機系統的通信可用于檢測和獲得無人機系統的位置，而基于衛星的導航很容易被欺騙或干擾，因為信號非常弱。其他傳感器也經常被用來增強GNSS的位置分析，并可以用來取代它，如光學系統--包括照相機、雷達、光探測和測距（LiDAR）系統和慣性測量單元（IMU）（Angelino等人，2012）。這些都提出了自己的挑戰。慣性測量單元是標準設備，但只能檢測線性和角加速度，同時通過檢測地球的局部磁場來確定方向（共9個自由度）。因此，位置誤差，即測量的加速度的第二個時間積分，會隨著時間的推移而累積。在使用IMU進行UAS導航時，其他令人擔憂的來源包括環境影響（即風或降水）。 UAS結構的物理變化，如增加一個傳感器或武器包，包括武器發射后的變化，使工作進一步復雜化。這種質量和質量分布的變化改變了UAS的質量中心和慣性張量。光學傳感器、雷達和LiDAR系統增加了重量，并經常發射射頻或光，使它們更容易被探測到和/或需要處理資源。增加的重量和/或處理可能對電池壽命產生不利影響，從而影響運行時間和整體可靠性。

為了解決這些問題，我們正在研究在大風環境中使用控制算法，以了解IMU信號如何在控制中被用來考慮（和/或改變）UAS的位置計算。再加上不確定性措施，這些最終可用于檢測UAS飛行性能的變化，或對GNSS信號的欺騙。

城市環境是安全和可靠的無人機系統運行的第二個關注領域（Watkins 2020）。它們被認為是國防部行動的一個挑戰領域，也是政府和商業服務的一個巨大的技術增長領域。在這份報告中，我們展示了一個模擬空間，我們正在建立專門用于模擬城市環境中的無人機系統，以解決自主和半自主控制的問題，重點是環境的相互作用，包括風和靜態碰撞威脅。物理學和控制的關鍵部分直接用C++實現。除此之外，在可能的情況下，我們正在利用當前的免費和開源資源（即軟件、軟件框架和數據），但要注意的是，我們包括使用一些在產品商業化成功后需要付費的工具。我們采取了一種模塊化的方法，隨著其他軟件框架和系統的成熟，將能夠靈活地過渡到其他軟件框架和系統。我們目前的系統已經基于用于小型無人機系統的PX4控制器庫和實時發布-訂閱（RTPS）數據傳輸協議。RTPS應能使我們的發展在其他工具成熟時過渡到其他工具，并使用通用的應用編程接口（即API）過渡到其他工具和數據，如計算的風數據。對于圖形和用戶界面，我們使用虛幻引擎（UE）（Matej 2016），這是一個游戲引擎，提供最先進的圖形功能和我們的模型中使用的一些物理學--最重要的是無人機系統和其環境之間的碰撞檢測。

第2-4節詳細介紹了整個模擬的主要計算部分：納入現實世界的城市數據，生成現實的風模型，無人機的幾何和物理建模，以及線性和非線性控制。我們對整體模擬的這些主要部分中的每一個都依賴開源軟件，如UE、OpenStreetMap（OSM）（Anderson等人，2019年）、Mapbox和AirSim（Shah等人，2017年），并根據需要詳細說明（見圖1；例如，真實城市的模型導入游戲引擎中）。第5節和第6節提供了樣本結果和結語。

圖1 將城市數據納入UE進行大規模模擬的兩個例子。伊利諾伊州的芝加哥（上）；弗吉尼亞州的水晶城（下）。這兩張圖片都是使用開源工具創建的，將開源的Mapbox城市數據導入UE中。

付費5元查看完整內容

AI與軍事 · 無人機群 · 印度聯合戰爭研究中心 ·

2022 年 10 月 19 日

[付費5元查看完整內容]《全球軍用無人機蜂群的發展》【各國蜂群計劃、未來發展】2022最新報告，印度聯合戰爭研究中心

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

世界各地的軍隊現在正在開發和構想無人機群。蜂群由多個無人駕駛飛行器（UAV）組成，具有一定的自主性，可以導航和感知周圍區域。與 "捕食者 "或 "死神 "相比，它們更聰明、更自主，被設計為自行起飛和降落，自行飛行任務集，自行在空中加油，并自行穿透敵人的防空設施。

在最近和正在進行的敘利亞、也門和納戈爾諾-卡拉巴赫的沖突中，無人機的使用凸顯了大規模應用無人駕駛和自主平臺的意義和效用。這種蜂群也迫使對手消耗彈藥和其他軍事資源，從而以一種能夠進一步精確攻擊或電子反制的方式發出陣地信號。

無人機群的發展和該技術在各國的進一步發展將在后面的段落中介紹。

美國：美國蜂群計劃

為了保持領先地位，美國一直在大力投資于無人機群的研究和開發。美國蜂群計劃中的三項發展特別令人感興趣：Perdix無人機蜂群、低成本無人機蜂群技術（LOCUST）、機器人智能體指揮和傳感的控制架構，即CARACaS系統。

Perdix無人機群。2016年10月，美國戰略能力辦公室（SCO）在加利福尼亞發射了一個由103架Perdix無人機組成的蜂群。這些無人機是從三架F/A-18 "超級大黃蜂 "戰斗機上發射的，表明美國空軍有能力結合其先進的空中優勢和 "尖端創新 "來使用蜂群技術的發展。

Perdix無人機是一種微型無人機，因為它的翼展不到30厘米--使它成為在城市環境中運行的理想選擇。它有兩組機翼，一個小型電池組，以及一個內置攝像頭。這是一個簡單的設計，起源于2011年麻省理工學院的林肯實驗室，后來被SCO拿去做實驗。無人機被裝在一個小盒子里，可以從戰斗機上的照明彈分配器中彈出，這是一個重要的解決方案，因為它意味著這些系統可以輕松地安裝在現有的飛機上。該蜂群展示了先進的行為，"如集體決策、自適應編隊飛行和自我修復"。它被比喻為一個集體有機體，共享一個分布式大腦進行決策，并像自然界中的蜂群一樣相互適應。

Perdix系統相互連接并自行形成蜂群，不需要操作員的微觀管理。即使一些系統死亡，蜂群也能做出反應，重新制定模式或完成任務，這意味著一架Perdix無人機的失敗不會導致其他無人機放棄任務。Perdix微型無人機演示如上所示。

LOCUST計劃。Perdix無人機表明向自主運作的硬件邁進，而LOCUST計劃是指所使用的軟件。LOCUST目前正被用于Coyote（叢林狼）無人機，該無人機從一個平臺上發射--與目前美國海軍艦艇上的反艦導彈發射器一致。被認為是獲得攻擊能力的一種更便宜的方式，LOCUST計劃有可能取代單一的、昂貴的反艦導彈。LOCUST系統在40秒內至少發射30個 "叢林狼 "無人機，然后在飛行過程中進行同步，形成蜂群。30架無人機群的價格約為50萬美元，單機價格僅為1.5萬美元，LOCUST的成本不到目前部署的價值百萬美元的魚叉反艦導彈的一半。LOCUST的具體目的是利用低成本的無人機，如Coyote--無人機是可消耗的，因此如果一個被摧毀，"其他的無人機會自主地改變其行為以完成任務"--進入進攻層面。

CARACaS計劃。最后，美國蜂群計劃的第三個發展可以在CARACaS計劃中找到。CARACaS開發的軟件和硬件都可以安裝在美國海軍的任何船只上，這說明走向自主系統的過程正在多個戰場上發生。CARACaS目前用于小型無人船--但也可用于任何船只--并使用群集技術進行操作，使船只能夠相互溝通。這個項目背后的想法是，昂貴但重要的日常任務，如港口巡邏，可以委托給一個無人監督的系統。海軍的CARACaS系統正在消除 "水手生活中枯燥、骯臟和危險的任務"。

小精靈計劃。美國國防高級研究計劃局（DARPA）也展示了X-61A Gremlin空中發射無人機。DARPA的 "小精靈 "計劃背后的想法是將像C-130這樣的貨運飛機變成母艦，能夠在遠離敵人防線的地方發射和回收成群的小型無人機。小精靈 "飛行器長約14英尺，加滿燃料后重約1,600磅。這比Perdix微型無人機大得多。

最初展示的是回收四個Gremlins，從長遠來看，一個C-130可以回收多達16個這樣的飛行器，這取決于操作要求。從概念上講，"小精靈 "也可以從F-16戰斗機、B-52戰斗機和其他飛機上發射，只需對飛機進行少量改裝。這可以大大改變蜂群中的系統數量。

這將為軍方開辟一個可能性的世界，允許部署小型、廉價、可重復使用的無人機群，其傳感器和有效載荷與傳統的飛機不同。

俄羅斯

俄羅斯軍方正在努力開發空中、地面和海上的機器人系統群，其中一些項目已經接近于現實。

早在2017年，在關于 "俄羅斯武裝部隊機器人化 "的年度會議上，就審議了機器人群的概念。

2018年，俄羅斯國防部MOD的 "ERA軍事創新技術城"與高級研究基金會--一個類似于美國 "國防DARPA "的組織--以及莫斯科物理技術學院的科學家一起主辦了無人機群試驗。

同年，關注無線電電子技術公司，一家國有企業集團，聲稱到2025年，它將開發一種能夠控制無人機群的直升機。

2020年，俄羅斯國防部還用三種不同的無人機類型進行了首次空中蜂群試驗，這些無人機在敘利亞被廣泛使用，使俄羅斯軍隊的分層覆蓋范圍擴大到250公里。

Staya-93計劃。俄羅斯國防部的茹科夫斯基和加加林航空學院的科學研究中心目前正在研究Staya-93提案--Staya在俄語中是 "flock"的意思--專注于領導者和跟隨者無人機之間的連接和通信，特別是當無人機可能受到對手的廣泛反制。

Molniya計劃。Kronshtadt設計局最近提出的另一個名為Molniya的蜂群概念涉及從有人和無人的平臺上發射多個噴氣動力的隱形無人機，進行空中和地面打擊，并提供電子戰和偵察能力。

到2021年底，俄羅斯軍隊將獲得多功能遠程無人機，以提供精確打擊，可與有人駕駛飛機以及地面和海基機器人系統一起群起而攻之。這些無人機包括Okhotnik S-70重型戰斗無人機和Altius無人機。

俄羅斯國防部對軍用無人機開發的優先事項包括將人工智能元素引入無人機控制系統，同時進行無人機群開發。

2021年4月，俄羅斯國防部宣布，它正在進行一個項目，以創建一個專門的無人駕駛飛行器來識別和打擊敵人的潛艇。按照設想，這些無人機將能夠利用人工智能的元素在群中運行。俄羅斯國防部暗示，為了容納必要的設備和武器，可以使用具有大型有效載荷的無人機模型，如S70 Okhotnik或Altius。另一項建議涉及俄羅斯未來的遠程隱形PAK-DA轟炸機發射和指揮無人機群。

高級研究基金會正在開發Marker UGV，作為多種技術的試驗臺，包括地面和空中機器人的人工智能和群集控制。

另一種UGV，即重型Udar，以BMP-3裝甲車底盤為基礎，設想與無人機和UGV編隊協同作戰。

正在接受俄羅斯國防部評估的新Kungas概念涉及一組不同大小的UGV，用于情報、監視和偵察以及戰斗任務。

俄國防部還在設計一個水下微型機器人群，可以在北極條件下連續工作數小時，同時還在為北極探索設計一個巨大的冰山水下概念，將涉及多個有人和無人的平臺。

當談到利用人工智能進行蜂群 "指揮和控制 "時，俄羅斯軍事機構及其專家承認，在開發關鍵算法方面還有很多工作要做。

中國

中國是最接近美國高密度無人機群能力的國家，開發人工智能授權的自主無人機群。最近，中國電子信息研究院（CAEIT）測試了一個由CH-901無人機組成的48×管狀發射無人機群。CAEIT過去曾在2017年展示了一個200個單位的無人機群。中國公司還展示了令人印象深刻的1000多架無人機群，使用四旋翼無人機進行大型公開展示，然而這些無人機是由地面控制的，不具備分布式智能。

中國正在進行現有無人機機群的整合，與軍方進行強有力的協作自主作用。它還有一個忠誠的僚機AVIC 601-S '暗劍'正在開發中，它將與第四代和第五代PLAAF戰斗機平臺一起運行。中國已經保持了一項吉尼斯世界紀錄，即同時飛行3,051架預設程序的無人機。

英國

英國可能在2021年中期擁有世界上第一支可操作的蜂群無人機部隊，以執行包括在敵方防線內執行自殺式任務和壓倒對手防空的任務。皇家空軍的№216中隊已被賦予測試和部署未來無人機群能力的任務。英國還宣布了 "蚊子項目"，這是英國皇家空軍的輕量級廉價新型作戰飛機（LANCA）無人駕駛忠誠僚機計劃的一部分。這旨在到2023年飛出一個聯網的無人駕駛僚機。

英國還測試了一個自主的無人機群，每個無人機都攜帶萊昂納多的BriteCloud消耗性主動誘餌的變種，作為電子戰有效載荷。使用含有電子戰干擾器的BriteClouds，無人機能夠對作為假想敵綜合防空網絡代理的雷達發動模擬的非動能攻擊。

法國

法國空中客車公司首次為未來戰斗航空系統（FCAS）/Systeme de Combat Arien du Futur（SCAF）計劃展示了協作式遠程載具（RC）群和僚機技術。

其他國家

以色列正在開發蜂群技術，關于這種舉措的細節被嚴密保護。有趣的是，IAI提供了一個基于智能手機的蜂群指揮和控制應用程序，在全球范圍內銷售。

土耳其已經通過TB-2等國產平臺在敘利亞和利比亞證明了成熟的MALE無人機能力，它也有各種蜂群無人機計劃。其中最主要的是 "卡爾古（Kargu）"四旋翼飛機，它可以在戰術戰場上發揮動能攻擊作用。在未來的日子里，土耳其正在努力成為一個全球無人機大國。

伊朗是另一個在行動上使用無人機的中東國家。伊朗當局將無人機用于兩個主要目的--監視和攻擊，伊朗有能力在地平線上和大多數天氣條件下執行任務。這些無人機包括有能力投擲炸彈或發射導彈并返回基地的無人機和尋找機會目標的 "神風 "無人機。伊朗當局在后者方面取得了更大的成功，這在2019年沙特油田襲擊事件中可見一斑，據稱當時使用了伊朗制造的無人機和巡航導彈。雖然在車輛群方面可能有基本的協作自主權，但伊朗和土耳其都沒有在其無人機群中展示真正的分布式情報能力。但他們的努力清楚地表明了該技術是如何成熟和擴散的。

印度：無人機群發展

印度陸軍展示了一種成熟的進攻能力，由75架具有分布式智能和邊緣計算的自主無人機群組成，在2021年1月新德里的印度建軍節閱兵期間用神風攻擊摧毀了各種模擬目標。在演示中，偵察無人機調查了目標，然后攻擊和母艦無人機釋放有效載荷和裝有炸藥的神風特攻隊無人機，進行攻擊。西方評論家注意到印度陸軍演示的幾個重要特點，并將其與美國圍繞無人機所做的努力相比較，后者往往強調一個大型同質化的蜂群。有人指出，印度的原創工作，在世界上第一次公開展示了異質蜂群的努力，是這一領域可能的發展方向。一家印度初創公司NewSpace Research & Technologies與印度陸軍的蜂群開發項目有關。

印度斯坦航空有限公司（HAL）已經公布了空中發射靈活資產（ALFA -S）空中發射蜂群無人機系統，作為其下一代戰斗空中編隊系統（CATS）的一部分。這是一個獨特的計劃，它利用空中發射的遠程載體和蜂群單位的網絡來滲透到有爭議的空域。美國空軍的空軍研究實驗室正在與印度就ALFA-S的各個方面進行合作。新空間研究與技術有限公司也是HAL的ALFA計劃的合作伙伴。

HAL的CATS計劃的另一個組成部分是 "勇士 "忠誠翼人資產。這是為防空和進攻性打擊任務準備的，將與印度的Tejas LCA和即將到來的AMCA第五代作戰飛機一起以載人和無人機組隊（MUM-T）的方式使用。值得注意的是，印度被本土研究的力量和政府的 "印度制造 "所推動，以擁抱顛覆性技術，這在某些領域與世界各地發生的類似努力不相上下。HAL在班加羅爾舉行的2021年印度航空展上公布了勇士號的第一個1:1模擬模型。

三家印度初創公司在印度空軍組織的為期三年的蜂群無人機競賽中獲勝。"蜂群架構"獎由前印度空軍軍官Sameer Joshi經營的新空間研究與技術私人有限公司獲得。順便說一下，新空間公司最近從印度陸軍贏得了1500萬美元的蜂群無人機訂單。"通信架構"獎由德里科技大學團隊與阿達尼防御公司合作獲得，"無人機架構"獎由Dhaksha無人系統公司獲得。

IAF構思了2018年10月3日啟動的 "梅哈爾-巴巴蜂群無人機競賽"，以鼓勵開發蜂群無人機，在不同領域中使用。該競賽的名稱是為了紀念已故空軍準將梅哈爾-辛格，他在IAF的同事和崇拜者親切地稱為 "Baba"梅哈爾-辛格。它的概念是為蜂群無人機技術發展專有的設計、開發、制造和生產的 "低成本-高影響 "解決方案。該競賽只對本地人才和本地初創企業開放。

無人機群的特性

美國戰略能力辦公室（SCO）實際上并沒有創造出蜂群；麻省理工學院（MIT）的工程學生采用了 "全商業組件設計"。因此，如果無人機蜂群技術足夠容易獲得，以至于學生可以開發它，全球擴散幾乎是不可避免的。因此，新的無人機技術正在被各個國家迅速部署。

創建任務分配算法。創建無人機群從根本上說是一個規劃問題。無人機可以很容易地在電子商店買到，或者就像伊拉克和敘利亞伊斯蘭國那樣用膠帶和膠合板建造。無人機群的挑戰是讓各個單元一起工作。這意味著開發通信協議，以便它們能夠共享信息，管理無人機之間的沖突，并共同決定哪些無人機應該完成哪些任務。要做到這一點，研究人員必須創建任務分配算法。這些算法允許蜂群將特定的任務分配給特定的無人機。一旦創建了算法，它們就可以隨時共享，只需要在無人機上進行編碼。

人工智能（AI）的利用。國家安全和人工智能方面的專家爭論的是，單一的自主武器是否能夠充分區分民用和軍用目標，更不用說數千或數萬架無人機。據美國的人工智能專家稱，在某些狹窄的環境中，這種武器可能在50年內就能做出這種區分。他們認為，人工智能還不能管理戰場上的復雜情況。

先進的蜂群能力。先進的蜂群能力，如異質性（不同大小的無人機或在不同領域運行的無人機）和靈活性（輕松增減無人機的能力）仍然相當新穎。然而，讓無人機協作并投擲炸彈是可以實現的。

涉及的風險量。無人機群惡化了致命的自主武器所帶來的風險。即使一個精心設計、測試和驗證的自主武器擊中錯誤目標的風險只有0.1%，但如果乘以數千架無人機，仍然意味著巨大的風險。

無人機通信。無人機通信意味著一架無人機的錯誤可能會傳播到整個蜂群。

涌現行為。這是一個術語，指的是由單個單元的行為導致的復雜的集體行為，是蜂群的一個強大的優勢，允許像自我修復這樣的行為，在這種情況下，蜂群會改革以適應無人機的損失。但是，涌現行為也意味著每個無人機共享的不準確信息可能導致集體錯誤。

無人機群未來發展路徑

武裝的、完全自主的無人機群是未來的大規模毀滅性武器。蜂群可以造成與在長崎和廣島使用的核武器同樣程度的破壞、死亡和傷害--即數萬人死亡。這是因為無人機群結合了傳統大規模殺傷性武器特有的兩個特性：大規模傷害和缺乏控制以確保武器不傷害平民。

各國已經在把非常大的無人機群放在一起。美國海軍研究生院也在探索在海上、水下和空中運行的100萬架無人機群的潛力。要達到長崎的潛在傷害水平，無人機群只需要39,000架武裝無人機，如果無人機上有能夠傷害多人的爆炸物，也許會更少。

繼2021年1月在新德里建軍節閱兵式上展示了75架無人機群后，印度已表示有意將無人機群規模擴大到1000架以上。

無人機群也可以作為沒有核武器的國家的戰略威懾武器，以及作為恐怖分子的暗殺武器而發揮作用。

消耗性微型無人機。佩迪克斯微型無人機能夠進行低空情報、監視和偵察以及其他短期任務。它們可以從空中、海上或地面發射，并以小群和大群的方式運行，以執行其任務。

DARPA的Gremlins計劃，如這個藝術家的概念所示，設想從轟炸機、運輸機和戰斗機上發射無人駕駛飛機群，在主機仍在射程之外的時候攻擊目標。

在飛行中改變。DARPA的 "拒止環境中的協作行動"（CODE）計劃將使多個配備CODE的無人駕駛飛機能夠協作地感知、適應和應對意外的威脅和新目標。這些系統可以共享信息，計劃和分配任務目標，做出協調的戰術決策，并在高威脅環境中做出反應。

俄羅斯S-70 Okhotnik忠實僚機與蘇-57戰斗機

2021年建軍節，印度軍隊在新德里展示了75架無人機的異構蜂群

土耳其軍隊已經部署了500多個卡爾古群集無人機系統進行動力攻擊

付費5元查看完整內容

AI與軍事 · 美國陸軍 · 數據計劃 ·

2022 年 10 月 17 日

[付費5元查看完整內容]美陸軍2022最新發布《美國陸軍數據計劃》，17頁報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

2022 年 10 月 11 日，美國陸軍發布了一份綜合數據計劃（ADP），這是一種全軍范圍內改進數據管理以確保陸軍成為以數據為中心的組織的方法。

該計劃是一項為期三年的工作，將改善整個陸軍的數據管理、數據治理和數據分析。作戰任務是陸軍數據計劃的當前重點。ADP 在該任務領域的成果是通過進行必要的更改來確保作戰人員的數據得到正確管理和使用，從而為作戰人員提供優勢。陸軍已經開始對數據管理能力、工具和模型進行原型設計，以實現這一目標。

陸軍首席信息官 Raj Iyer 博士說：“數據以及如何在所有梯隊中整合這些數據以實現真正快速、敏捷的決策，才是真正為陸軍提供其在未來戰爭中所需的競爭優勢的關鍵。”

數據和數據分析將為 2030 年的陸軍提供動力。士兵將需要在正確的時間和正確的地點獲得正確的數據，以便在每個梯隊做出更快、更好的決策——以超越任何對手的思維和步伐。

與早期的軍事行動相比，現在的戰爭范圍更大且范圍不斷擴大。作為聯合全域作戰的一部分，多域作戰是陸軍必須準備并贏得下一場戰斗的地方。這是一個數據豐富的環境。

每個領域都有自己的信息和數據流，一些信息來自開源情報，一些來自天基傳感器，還有一些來自網絡空間。今天的士兵和指揮官需要跨領域的綜合來主宰戰場。

ADP 概述了工作的組織并提供了總體戰略目標。它側重于中期努力，未來將被另一個更新所取代。

通過陸軍數據計劃實現這一決策優勢是陸軍的關鍵目標。

付費5元查看完整內容

多智能體系統 · 任務分配 · 博弈論 · 美國空軍 · AI與軍事 ·

2022 年 10 月 5 日

[付費5元查看完整內容]《綜述：多智能體系統（MAS）中的任務分配技術》美國空軍項目支持

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多Agent系統，尤其是無人駕駛系統，是解決很多現實問題的關鍵部分，因此必須改進任務分配技術。在這篇綜述中，我們介紹了用于任務分配算法的主要技術，并根據所使用的技術對其進行了分類，主要側重于最近的工作。我們還分析了這些方法，主要集中在它們的復雜性、優化性和可擴展性上。我們還提到了任務分配方法中使用的常見通信方案，以及任務分配中不確定性的作用。最后，我們根據上述標準對它們進行了比較，試圖找到文獻中的差距，并提出最有希望的方法。

關鍵詞：任務分配、MAS、優化、學習、博弈論、元啟發式方法

I. 簡介

眾所周知，自然界中的大多數系統都是復雜的分布式系統。這樣的系統主要需要溝通和合作，以實現一個共同的目標，如改善群體內每個人的表現，旨在實現最佳的整體表現[1]。因此，由于受到自然界的啟發，許多復雜的工程系統也采用了同樣的原則。特別是在過去的15年里，很多研究工作都集中在多智能體系統上，這些系統可以更好地完成很多單一智能體有時無法完成的任務。智能體可以是一個物理實體，如UAVs、UGVs或UUVs，一般類型的機器人，但甚至是計算機資源，如處理器，或一個計算機程序[2]。

科學界將注意力集中在MAS上的原因有很多。一些任務，特別是分布式任務，由于其復雜性和前提條件，可能無法由單個智能體來完成。此外，多個智能體的存在提高了執行任務的性能和可信度，因為更多的智能體可以合作更快地完成相同的任務，而且系統對智能體的損失或故障更加強大。另外，成本可能會降低，因為可以使用許多便宜的、有時是一次性的智能體，而不是一個昂貴的智能體[3]。

但是，在使用多智能體系統完成多項任務時，出現了分工的問題，即哪項任務將被分配給哪個智能體，智能體將有什么類型的通信，一般來說，每個智能體的行為將被定義，以便有一個最佳和強大的性能[3], [4]。所有這些問題的答案就是任務分配技術。為MAS中的任務分配問題找到一個最優或接近最優的解決方案是一個相當困難的過程，在一般情況下已被證明是NP困難的[5], [6]。任務分配的一些主要目標，除了實現整體最優的系統性能外，還可以是任務執行時間的最小化，一些智能體保持不活動的時間最小化，在特定的時間內完成的任務數量最大化，任務分配程序的可靠性最大化，即任務的成功完成，等等。[7]. 由于最佳整體性能是一個模糊的概念，難以量化，而且可能取決于每個智能體的感知，因此使用了效用的概念，即對任務分配程序對系統性能的價值或成本進行估計[4]。

任務分配的第一步是靜態的，但由于現實環境是動態環境，動態任務分配領域在過去幾年中已經成為一個很大的研究領域。在動態任務分配中，系統可以處理任務或環境的在線變化，具有更強大的性能[8]。使用的算法可以是集中式的，也可以是分散式的，取決于智能體的通信結構，也可以使用同質或異質的智能體。在任務分配技術的最初應用中，主要是假設同質智能體，因為相應算法的計算負擔較小。但是，在現實世界的應用中，經常需要異質的智能體。例如，在機器人系統中可能存在不同類型的傳感器，或者同一問題的不同任務可能需要不同類型的機器人。盡管異質性增加了計算成本，但它在許多應用中的必要性，促使研究人員為異質MAS開發了大量的任務分配算法[9], [10]。

用于解決MAS中任務分配問題的主要技術是基于拍賣（或市場）的方法、基于博弈論的方法、基于優化的方法（啟發式算法、元啟發式算法等），以及機器學習技術。根據所使用的技術，可以找到一個最佳的，或者幾乎總是一個近似的解決方案，而且問題的可擴展性、復雜性和適應性也會存在不同程度。MAS中的任務或任務分配的應用包括搜索和救援任務（SAR）[11]-[14]，軍事行動，如攻擊或監視[15]-[18]，物理災害管理[11]，[12]，[19]-[22]，其中主要使用無人駕駛系統，也包括眾包平臺的使用，云計算[23]-[28]，智能電網，制造業的資源分配[29]-[32]和其他。

II. 任務分配技術的不同通信方案

解決任務分配問題的算法主要有兩大類，即集中式算法和分布式算法。

A. 集中式任務分配

集中式算法是過去研究較多的一類算法。其主要概念是，有一個中央協調者智能體，它與所有其他智能體有通信渠道。這個智能體管理其他智能體的談判，并決定分配給其他智能體的任務。在這些情況下，大多數時候，會考慮全局效用函數[14]，[33]，[3]，[34]。

圖1. 一個集中式系統，智能體A7是中央協調人

這些方法的優點是使用較少的系統資源，可能有較低的實施成本，但由于計算成本高，它們只能用于少量的智能體，而且它們不能適應動態環境，因此它們主要用于靜態任務分配。任務集中分配的事實避免了任務分配的沖突，因此不需要共識階段，也可以找到分配問題的最優解。它們也缺乏穩健性，因為它們很容易受到智能體，特別是中央智能體的損失，導致整體性能的惡化。此外，所有的智能體與中央智能體進行通信的事實，限制了它們的可擴展性[17]，[35]。

B. 分布式任務分配

分布式算法克服了集中式算法的一些缺點，因此它們在過去幾年中吸引了研究人員的注意。在這種類型的算法中，沒有中央協調者，智能體對環境有一個局部的感知，并可能相互協商。因此，任務分配的決定是以分布式方式在局部做出的。每個智能體也可能有自己的效用函數，總體效用函數可能是近似的[14]、[33]、[3]、[34]。

圖2. 一個分布式系統

這些方法的優點是它們具有穩健性，因為智能體的失敗對整體性能的影響很小，而且由于智能體之間的通信水平較低，所以也是可擴展的。此外，它們的計算成本比集中式方法小，使它們成為大規模系統的理想選擇，即使通信帶寬很小。權衡之下，它們找到了任務分配問題的次優（近似）解決方案，而且可能需要一種共識算法，因為局部任務分配可能導致任務之間發生沖突[17]，[35]。

III. MAS任務分配中的不同算法

在MAS中，有很多用于任務分配的技術。下面對所使用的方法進行分類介紹（見圖3）。

A. 基于拍賣的算法

在MAS中用于任務分配的一大類算法是基于拍賣的算法。這類算法以經濟學為基礎，智能體使用談判協議，根據他們對環境的局部感知，在拍賣中為任務投標。這就是為什么有時這些方法也被稱為基于市場的原因。智能體根據他們計算的效用或成本出價，他們的目標是為分配的任務完成最高的效用或最低的成本。基于智能體的效用函數，一個全局目標函數被優化。拍賣者可能是一個中央智能體，也可能由系統的智能體以分布式方式進行拍賣，拍賣可能需要幾輪，可以考慮一個或幾個任務[10], [14], [36], [37]。

基于拍賣的算法有很多優點，例如，即使找到了次優的解決方案，也有很高的解決效率，因為它們同時使用了集中式和分布式的方法及穩健性。它們也是可擴展的，因為它們有適度的計算成本或通信負擔，不是完全集中式的算法，它們對動態任務分配很好，因為它們可以從拍賣程序中增加或刪除新任務[3]。

圖3. 任務分配技術分類

a) 基于CBBA的算法：基于共識的捆綁算法（CBBA）是一種分布式的算法，它為多目標優化問題提供解決方案，與智能體態勢感知的不一致無關，其成本函數是每個智能體對執行捆綁任務所感知的效用。在第一階段，該算法使用帶有貪婪啟發式的拍賣來選擇任務，在第二階段，該算法應用基于共識的程序來解開任何重疊的任務。該算法被證明可以為單機器人單任務的任務分配問題提供次優解（完整的分類法見[4]），并且具有高度的可擴展性，使其適用于動態任務分配應用，因為它具有多項式時間競標[38] [39]。

最近發現的方法包括PI（性能影響）算法的改進，如PI-MaxAss[14]和[35]。此外，其他技術是CBBA算法的改進，如修改的CCBBA[38]，G-CBBA[40]和[41]。

b) 基于CNP的技術：Smith[42]開發的合約網協議（CNP）是第一個用于任務分配問題的談判平臺，構成了眾多任務分配算法的基礎。它是一個標準化的協議，可以將任務分配給最合適的智能體，同時它能夠在需要時進行任務重新分配[43]。另一方面，CNP有信息擁塞的問題，有時會使智能體之間的談判程序變得不方便。與其他方法不同，如基于信息素的方法，CNP在很大程度上依賴于智能體之間的信息通信，這些信息的計算成本可能非常高，從而降低了通信效率和系統性能[44]。

最近一些基于CNP的方法包括[45]、[46]、[11]、[27]、[44]。此外，一種不屬于上述類別的基于拍賣的方法是（FMC TA）[47]。

B. 基于博弈論的方法

在基于博弈論的方法中，假定智能體是采取特定行動的玩家，任務分配方案是他們應該遵循的策略。在博弈結束時，玩家根據他們的行動所獲得的回報被稱為報酬。當玩家選擇了最佳策略，那么他們就不會希望改變他們的策略，因為這是他們能夠完成的最佳結果，達到納什均衡[48]。

博弈可以分為兩大類，合作博弈和非合作博弈。在合作博弈中，智能體在采取具體行動之前進行合作或形成聯盟，影響他們的一般戰略和效用。合作博弈的一個例子是聯盟形成博弈。在非合作博弈中，智能體單獨選擇他們的行動和策略，這意味著智能體是自私的，希望達到最高的回報。一些例子包括貝葉斯博弈、非合作性差分博弈、子模態博弈等。[49].

最近一些基于博弈論的方法包括[50]、[20]、[51]、[52]、[53]、[54]、[55]。

C. 基于優化的技術

優化是應用數學的一個領域，旨在從一組可能的解決方案中找到一個特定問題的解決方案，使某一成本或目標函數的成本最小或利潤最大。這個成本函數根據一些約束條件進行優化，決定了系統的目標。有很多優化技術可以是確定性的或隨機性的[3], [56]。確定性方法不考慮隨機性，也就是說，如果使用相同的起點，通往解決方案的路徑將是相同的。確定性方法包括諸如圖形方法、基于圖形的方法、順序規劃、線性規劃、混合整數線性規劃（MILP）等技術。隨機方法或元啟發式方法是指在計算過程中包含隨機性的方法。元啟發法包括進化算法、蜂群智能、模擬退火等。此外，啟發式算法是用來尋找快速和高質量的解決方案的算法，以解決確定性方法會有難以承受的計算成本的困難優化問題。這些方法雖然提供了近似的解決方案[57]。

a) 基于確定性的優化：一個經常被用作開發新任務分配算法的基礎的優化算法是匈牙利算法[58]。匈牙利算法將任務分配問題視為一個組合優化問題，使用圖論并在多項式時間內解決該問題。該算法計算每個智能體效用的估計值，從而使整體效用最大化。但這在計算上是很昂貴的，而且當系統存在高不確定性時，有時價值較低，因此對該算法提出了很多改進[59]。最近的一些方法包括[60]、[61]和[62]。

b) 元啟發式算法：元啟發式算法包括幾種方法，如蜂群智能、遺傳算法、模擬退火和其他。蜂群智能已被廣泛用于MAS的任務分配，它是一類受生物啟發的算法，主要來自具有社會行為的動物，如昆蟲群、魚群、鳥群等[63]。這些動物表現出高效的分工，由于團隊成員的專業化，導致了群體的高效率[64]。即使智能體可能相當簡單，但由于他們的合作，他們可以作為一個整體完成復雜的任務，導致強大、高效和低成本的解決方案[65]。另一方面，這些算法有時會給智能體分配不必要的任務，導致沖突，并對環境變化有緩慢的整體反應[63]。主要使用的方法分為基于閾值和概率的方法。

在基于閾值的方法中，如響應閾值法[66]，智能體決定其關于任務的行動，取決于一些監測量的值和閾值的值。閾值可以是固定的，也可以是可變的，智能體可能只有關于該數量的局部或整體信息。在概率方法中，智能體根據環境觀察或歷史數據計算出的概率，隨機地改變任務。另外，可能會使用一個刺激物，當刺激物對特定的任務來說是高的時候，可能會選擇一個任務[67]。

最近一些基于元啟發式的任務分配方法包括改進的分布式蜜蜂算法[63]、動態蟻群的分工[17]、分布式免疫多Agent算法[68]、改進的QPSO[69]、分層任務分配和路徑尋找方法[70]、多目標多類人機器人任務分配[71]和其他技術如[72]、[73]、[15]。

c) 啟發式方法：最近基于啟發式的方法包括Lazy max-sum算法[19]、平均Hamilton分區--多個旅行推銷員算法[74]、One-To-Many Bipartite Matching[75]、基于最近鄰的聚類和路由方法[76]和[77]。

D. 基于學習的方法

要預測一個智能體必須處理的未來干擾是非常困難的，特別是在沒有具體的數學模型來描述環境行為的情況下，這對實際應用來說是動態的。因此，一個解決方案是智能體學習如何面對這種干擾，考慮到他們過去的行動和其他智能體的行動，從而提高系統效率[78], [79], [80]。

一個典型的機器學習技術是強化學習，其中智能體使用他們的經驗來學習如何在環境的不同狀態下采取行動。環境通常是以馬爾科夫決策過程（MDP）的形式形成的，智能體優化成本或獎勵函數，以便從環境中學習。經常使用的RL方法是Q-learning，它是一種無模型的RL方法，幫助智能體找到MDP的最優解。[78], [79]. RL有很多優點，包括處理環境中的不確定性、實時實施（對于訓練有素的網絡）和處理不同的任務[16]。另一方面，特別是在大規模的復雜系統中，大多數RL算法需要高計算能力[81]。

已發現的基于學習的方法包括[82]中的分布式自組織地圖方法、[12]中的隨機強化學習算法、基于圖的多智能體強化學習方法[83]、帶有增強爬坡搜索方法的MARL[84]、基于Q-學習的快速任務分配算法[16]、使用合作深度強化學習策略的任務分配過程[79]和基于MARL軟Q-學習方法[85]。

E. 混合方法

除了上述解決任務分配問題的方法外，還有一些結合了上述一些方法的其他方法，它們被稱為混合方法。

在[86]中，優化和基于拍賣的方法被結合起來，而在[87]中，基于市場的方法與基于博弈論的方法被結合起來。此外，[88]、[89]和[13]是基于市場和元啟發式的結合，[90]是基于市場和學習的結合。在[91]中，進化算法與貪婪算法相結合，而在[92]中，基于博弈論的方法與學習算法相結合。

IV. 任務分配程序的關鍵因素

評價MAS中的任務分配程序的一些基本標準是所使用的算法的計算復雜性、解決方案的最優性和所使用方法的可擴展性。此外，算法處理不確定性的能力，以及通信程序的有效性，對整個系統的性能起著重要作用。

A. 復雜性、最優性和可擴展性

影響任務分配計算成本的因素是所使用的算法的復雜性，這些算法的使用頻率，以及智能體之間需要的通信方法的計算成本（智能體為實現成功的任務分配需要交換的信息比特）[93], [94]。

另一個關鍵因素是找到的解決方案的最優性。當我們提到任務分配程序的最優性時，我們的意思是所找到的解決方案具有可能的最高總體效用，受到系統特性的限制，如提供給智能體的信息的噪聲、不確定性和不準確性。為了找到動態而非靜態的解決方案而執行算法的頻率，以及可以重新分配的任務的比例，都會影響解決方案的質量[4]。此外，隨著越來越多的復雜任務和更多的智能體被用于任務分配方案，算法的可擴展性對其有效性至關重要。

表一一些有代表性的任務分配算法的復雜性

a) 基于CBBA的方法：所提出的基于CBBA的方法，是CBBA和PI算法的改進，比基線CBBA方法有更好的效率和可擴展性，但缺點是計算成本較高。具體來說，PI-MaxAss[14]算法的計算復雜性相當于，其中是任務數。此外，改進的CCBBA算法[38]的復雜度為，其中Θ是收斂前需要的最大迭代次數，是每個任務的最大傳感器數量，是智能體數量，是任務數量，M是規劃范圍。

b) 基于CNP的方法：一般來說，基于CNP的技術在重新分配任務方面非常好，但高度依賴于智能體之間的通信程序，通常造成高計算成本。此外，CNP的另一個問題是觀察到的信息擁堵。所提出的改進的CNP算法，比基線CNP有更高的效率和更小的計算成本。但是，即使有一些方法試圖解決消息擁塞的問題，例如[44]，這仍然是一個開放的研究領域。

c) 基于博弈論的方法：所提出的博弈論方法，比基線方法更有效，有更好的次優（近優）解決方案。此外，一些博弈論的算法比基于市場的方法有更好的效率。至于復雜度，基于Apollonius圈的主動追擊者檢查（AAPC）[52]，其復雜度為其中為追擊者的數量。基于匿名享樂博弈[50]的GRAPE算法的復雜度由約束，盡管在大多數情況下要小得多，其中是網絡的圖徑，是任務數，是智能體的數量。至于每個智能體的通信復雜度是，其中是智能體i所通信的智能體數量。

d) 啟發式方法:有很多解決DCOP問題的技術。提供最優解決方案的技術通常具有指數級的協調負擔，而基于啟發式的技術具有較低的協調成本，但提供次優的解決方案。一些提議的技術顯示了比一些基于遺傳和市場的方法更高的效率和更小的計算成本[19]。懶惰的最大和方法[19]的信息傳遞復雜性為但如果我們考慮所有智能體對所有任務的分配，復雜度會上升到對于找到次優解的AHP-mTSP算法[74]（平均哈密爾頓分區，多個旅行銷售人員問題），對于個智能體和個任務，每個迭代的復雜度為平均運行時間為。此外，集中式啟發式基于最近鄰的聚類和路由（ncar）方法[76]的計算成本為，其中是智能體的數量。OTMaM技術[75]適用于大規模的系統，其時間復雜度為，其中是智能體的數量，是任務的數量。

e) 元啟發法：元啟發式技術成本低、穩健、高效，但有時會造成任務間的沖突，為智能體分配不必要的任務，對環境變化的反應也很慢。與基線算法相比，所提出的算法具有較低的復雜性和更好的可擴展性。但是，其中一些算法是次優的，或者假設通信程序沒有故障。此外，其中一些算法比一些貪婪的和基于市場的（如CNP）方法具有更高的可擴展性和更好的性能。對于MOMHTA算法[71]，總體最壞情況下的復雜度是，其中是任務的數量，H是超平面上參考點的數量，L是目標的數量，K是創建集群的數量。

f) 基于學習的方法：基于學習的方法，特別是強化學習的方法，通常具有很高的效率，可以在線實施，并對環境干擾有很好的表現。我們注意到，很多技術比基線模擬退火、爬坡和貪婪算法有更好的性能。此外，我們還注意到比基于邊界的方法和匈牙利方法的效率更高。盡管一些方法的計算成本比基于拍賣的方法小，但計算成本和維度的增加仍然是其他強化學習方法的一個問題。

表二一些有代表性的任務分配算法的通信類型

g) 混合方法：使用混合方法是一個非常好的解決方案，因為兩種技術可以結合起來，利用它們的優勢，實現比基線方法或只使用一種方法更高的效率或更小的計算成本。在[86]中，使用了簡化的MILP程序和多智能體投標的迭代調度算法，迭代調度器的計算復雜度為，其中是智能體的子集。此外，在這個調度器的低級階段，使用了GSTP算法，增加了整體的復雜性。在[89]中，基于CBBA的方法與蟻群系統（ACS）算法相結合，并且在CBBA的包含階段使用了基于貪婪的策略，最壞情況下的計算復雜性是，其中是幸存者（任務）的數量。

表一中列出了上述算法的復雜度摘要。我們可以看到大多數方法都有多項式的時間復雜度。計算成本較高的是基于CBBA的算法，以及一些混合方法。另一方面，基于啟發式的方法和基于博弈論的方法的復雜性較低。

B. 通信

智能體之間的通信是其協調性能的一個非常重要的因素。目標是智能體使用最小的可用帶寬，在不使通信網絡過載的情況下，交換有關其狀態以及周圍環境的重要信息[12]。智能體的通信可以是明確的或隱含的。顯性或直接通信，是指智能體之間使用通信網絡和專用網絡協議交換信息。大多數現有的協調方法都使用這種類型的通信。隱式方法是指通過環境，使用智能體配備的傳感器，獲得關于多智能體系統中其他智能體的信息。如果智能體利用其他智能體在環境中留下的信息進行交流，那么隱式交流是主動的（生物學啟發技術），如果智能體使用他們的傳感器來感知環境發生的變化，那么隱式交流是被動的[96]。

顯式通信方式通常比隱式情況有更高的準確性，缺點是通信負荷較高，特別是對于大規模的系統。隱式的情況下，即使缺乏準確性，也有更好的穩定性和更強的容錯性。因此，混合使用這些方法是一個非常好的主意，可以利用它們的優勢，導致更好的整體系統性能[96]。在表二中列出了一些任務分配的特征算法的通信技術。我們看到，一些經常使用的技術是社會網絡技術、黑板計劃、信息素圖和一般基于圖的技術。

表三主要任務分配方法的比較

C. 不確定性

考慮到不確定性的任務分配技術，對于在現實生活中實現高效和穩健的任務分配非常有用。到目前為止，大多數技術，特別是分布式技術，比集中式技術更難融入不確定性。不確定性可以考慮到傳感器的不準確性、智能體的失敗、環境干擾等[97] [98]。根據以前的研究，應該把可靠性作為優先考慮的因素，因為如果忽略了失敗的可能性，性能就會下降（次優性能）[99]。例如，在[100]中，作者發現在通信程序不確定的環境中使用基于異步共識的捆綁算法（ACBBA）（現實的有損網絡環境），會產生低效的任務分配，特別是對于大量的智能體。因此，該算法的性能與理論上的預期性能相比是不同的。

在[99]中，使用啟發式方法和非馬爾科夫狀態，研究了多智能體系統中的不確定性問題（通常是任務分配程序中的元素失效）。他們的結論是，做出簡化的假設，如馬爾科夫狀態，會導致結果不能公平地反映系統的性能。此外，他們證明了在某些類別的問題中，使用更復雜的啟發式方法，更好地描述物理環境和發生的不確定性，導致了性能的提高。在[97]中，作者通過處理不確定的環境，開發了性能影響（PI）算法的改進版本，提高了魯棒性。提出了三種穩健的PI變體，使用蒙特卡洛抽樣從高斯分布中抽取不確定的變量。與基線CBBA和PI相比，所提出的方法降低了不確定情況下的故障率和未分配任務的數量，但增加了計算的復雜性，使得它們對時間關鍵型應用不可靠。

因此，納入不確定性在很多應用中是非常有用的，可以帶來更好的性能。但是，總是存在著計算復雜度較高的危險，因此在效率、穩健性和收斂時間之間應該有一個平衡，這取決于可用的計算能力和每個應用的具體需求。

V. 結論

表三是主要任務分配技術的一些主要性能特征的總結，從1（低值）到4（非常高的值）進行了分類。我們看到，基于CBBA和CNP的技術通常具有較高的計算成本，使它們不適合大規模的系統。此外，確定性優化技術也有極高的成本和低可擴展性，使得它們也不適合于中到大規模的系統，盡管它們有非常好的效率。另一方面，啟發式和博弈論方法具有非常低的成本，使它們成為提供具有中等和良好效率的快速解決方案的理想選擇。這些方法也可以用于大規模的系統，因為它們具有非常好的可擴展性。元啟發式方法和學習方法具有適度的成本、良好的效率和可擴展性，可用于中等規模，有時也可用于大規模環境，這取決于具體問題。特別是學習技術在動態任務分配和動態環境中非常好。

隨著MAS系統技術的發展和計算能力的逐年提高，在實際環境中實施改進的任務分配算法的需求勢在必行。這樣的環境有很高的不確定性，復雜的任務，并且可能需要實時實現所用的算法。由于對這種環境的適應性，RL方法是一個很有前途的任務分配研究領域，在過去的幾年里被科學界廣泛研究。此外，博弈論和元啟發式方法對這類系統也很有前途。如[101]所述，基于RL和博弈論的技術的結合改善了多Agent情況下的RL（MARL），因此基于博弈論和RL的技術的結合對于任務分配方法來說也是非常有前途的。

付費5元查看完整內容

AI與軍事 · 深度終身強化學習 · 美國空軍研究實驗室（AFRL） · 反卷積因子卷積神經網絡（DFCNN） · 情報、監視、偵察 (ISR) ·

2022 年 7 月 15 日

[付費5元查看完整內容]《彈性控制和協調的深度終身強化學習》美國空軍研究實驗室30頁技術總結報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這項工作的目的是開發能夠成功處理復雜動態環境中順序決策的深度終身學習方法，重點是多Agent情報、監視和偵察（ISR）場景。我們為深度卷積神經網絡開發了一個新的架構，支持通過去卷積因子化的終身學習（DF-CNN），探索了通過Distral和Sobolev訓練的策略提煉的組合，并開發了一個混合控制器，將深度學習應用于ISR智能體。我們的方法在標準基準深度學習數據集、DOOM環境和ATE3模擬環境中的ISR場景中進行了評估。

我們的主要貢獻是反卷積因子卷積神經網絡（DFCNN）。DF-CNN框架調整了標準卷積神經網絡（CNN）框架，以實現任務之間的轉移。它在每個CNN層維護一個共享知識庫，并通過這個共享知識促進不同任務的CNN之間的轉移。每個具體任務的CNN模型的各個過濾層都是由這個共享知識庫重建的，隨著網絡在多個任務中的訓練，這個知識庫會隨著時間的推移而調整。DF-CNN代表了ELLA終身學習框架對深度網絡的概括。

實驗表明，DF-CNN在終身中的基準識別任務上的表現優于其他方法（包括單任務學習、低層的硬參數共享和漸進式神經網絡）。此外，該框架能夠抵抗災難性遺忘，同時仍然允許從未來的學習中反向轉移到以前學習的模型。

對于深度強化學習，我們研究了將Sobolev訓練整合到Distral多任務框架中，以努力改善轉移和訓練，探索了DF-CNN在深度RL中的應用，并開發了一個混合控制器，將本地學習的深度RL策略結合在一起，在ATE3仿真環境中完成ISR場景。

付費5元查看完整內容

AI與軍事 · 完全自適應雷達 · 美國空軍研究實驗室（AFRL） ·

2022 年 7 月 14 日

[付費5元查看完整內容]美國空軍研究實驗室支持《用于跟蹤和分類的完全自適應雷達資源分配》35頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現代數字雷達在其波形、雷達參數設置和傳輸方案方面提供了前所未有的靈活性，以支持多種雷達系統目標，包括目標探測、跟蹤、分類和其他功能。這種靈活性為提高系統性能提供了潛力，但需要一個閉環感知和響應方法來實現這種潛力。完全自適應雷達（FAR），也被稱為認知雷達，是模仿認知的感知-行動周期（PAC），以這種閉環方式適應雷達傳感器。在這項工作中，我們將FAR概念應用于雷達資源分配（RRA）問題，以決定如何將有限的雷達資源如時間、帶寬和天線波束寬度分配給多個相互競爭的雷達系統任務，并決定每個任務的傳輸參數，使雷達資源得到有效利用，系統性能得到優化。

已經提出了一些感知-行動的RRA方法。這一領域的最新工作被稱為認知雷達資源管理，而較早的相關工作則被稱為簡單的傳感器管理或資源分配。這些算法依賴于兩個基本步驟。首先，它們以概率方式捕獲（感知）監視區域的狀態。其次，他們使用這種概率描述，通過確定哪些行動有望實現效用最大化來選擇未來的傳感行動。

任何RRA算法的一個關鍵挑戰是平衡目標探測、跟蹤、分類和其他雷達任務的多個競爭性目標。這一點通過優化步驟中用于選擇下一步雷達行動的目標函數來解決。目標函數也被稱為收益、標準、價值或成本函數。因此，以適合優化的數學形式闡明系統目標，對完全自適應雷達資源分配（FARRA）系統的運行至關重要。隨著可用于適應的參數數量和雷達系統任務數量的增加，這變得越來越困難。這種優化有兩種基本方法：任務驅動和信息驅動。

在任務驅動的方法中，為每個任務指定性能服務質量（QoS）要求，如探測目標的預期時間或跟蹤的均方根誤差（RMSE），并通過加權各種任務的效用來構建一個綜合目標函數。這樣做的好處是能夠分別控制任務性能，并確定任務的相對重要性。然而，它需要用戶有大量的領域知識和判斷力，以指定任務要求和傳感器成本，并構建成本/效用函數和加權，以結合不同的任務性能指標。

在信息驅動的方法中，一個全局信息測量被優化。常見的信息測量包括熵、相互信息（MI）、Kullback-Leibler分歧（KLD）和Renyi（alpha）分歧。信息指標隱含地平衡了一個雷達可能獲得的不同類型的信息。這具有為所有任務提供共同的衡量標準（信息流）的理想特性，但沒有明確優化諸如RMSE等任務標準。因此，信息理論的衡量標準可能很難被終端用戶理解并歸結為具體的操作目標。此外，如果沒有額外的特別加權，它們不允許單獨控制任務，并可能產生以犧牲其他任務為代價而過度強調某些任務的解決方案，或者選擇在用戶偏好判斷下只提供邊際收益的傳感器行動。

在這項工作中，我們考慮一個雷達系統對多個目標進行同步跟蹤和分類。基于隨機優化的FAR框架[28]，為我們的PAC提供了結構。我們開發并比較了用于分配系統資源和設置雷達傳輸參數的任務和信息驅動的FARRA算法，并在模擬機載雷達場景和俄亥俄州立大學的認知雷達工程工作區（CREW）實驗室測試平臺上說明其性能。這項工作結合并擴展了我們以前在傳感器管理[8-14]和FAR[18, 21, 27, 29-31]的工作。初步版本發表于[32]。結果表明，任務和信息驅動的算法具有相似的性能，但選擇不同的行動來實現其解決方案。我們表明，任務和信息驅動的算法實際上是基于共同的信息理論量，所以它們之間的區別在于所使用的指標的粒度和指標的加權程度。

本章的組織結構如下。在第10.2節中，我們提供了FAR框架的概述，在第10.3節中，我們通過為這個問題指定FAR框架的組成部分來開發多目標多任務FARRA系統模型。在第10.4節中，我們描述了組成FARRA PAC的感知和執行處理器，包括我們采用的任務和基于信息的目標函數。在第10.5節中，我們提供了比較優化方法的機載雷達仿真結果，在第10.6節中，我們展示了CREW測試平臺的結果。最后，第10.7節介紹了這項工作的結論。

完全自適應雷達框架

單個PAC的FAR框架是在[18, 27]中開發的，在此總結一下。圖10.1是一個系統框圖。PAC由感知處理器和執行處理器組成。PAC通過硬件傳感器與外部環境互動，通過感知處理器和執行處理器與雷達系統互動。感知處理器接收來自硬件傳感器的數據，并將其處理為對環境的感知。該感知被傳遞給雷達系統以完成系統目標，并傳遞給執行處理器以決定下一步行動。執行處理器接收來自感知處理器的感知以及來自雷達系統的要求，并解決一個優化問題以決定下一個傳感器的行動。執行處理器通知硬件傳感器下一次觀察的設置，傳感器收集下一組數據，然后循環往復。

圖10.1: 單一PAC FAR框架

付費5元查看完整內容

AI與軍事 · 強化學習 · 多智能體協同 · 戰略機動策略 · 美國陸軍研究實驗室（ARL） ·

2022 年 6 月 23 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在未來的軍事行動中，通過協調多智能體系統（MAS）來實施戰略機動以獲得對對手的優勢，是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施，以及通過多智能體強化學習（RL）來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為，這有可能抑制對抗性協作，反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域（如陸地、海洋、空中、網絡、電磁和空間）對美國構成的威脅所推動的，這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行，人工智能（AI）將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程（TTPs）。這些機器人將聚集在一起，形成智能多Agent團隊，與人類士兵有效協作，完成任務。

美國陸軍作戰能力發展司令部（DEVCOM）陸軍研究實驗室（ARL）的基本研究計劃（ERPs）構建了開發和實施智能多Agent系統（MAS）的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案，這些問題匯聚在一起，指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性（AIMM）和新興超限技術（EOT）是ERP的例子，明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃，并通過戰場上的自主機動（AIMM）和保護（EOT）向士兵提供支持。本報告重點關注需要進行的自主協作，以使多智能體系統（即人類、智能體或人類和智能體混合）在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步，重點是超越我們目前的能力，以有效地對付同等裝備的對手（同行或接近同行）的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動（OODA-Loop）。雖然新的努力促進了對多智能體范式中情報的一般理解，但目前對情報的解釋并不明確。最近的文獻表明，基于強化學習（RL）的方法可能為實現這種技術進步提供了一條可行的途徑，本文介紹的一系列工作就是證明。

在本報告中，介紹了RL領域的貢獻，以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作，以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外，協作的戰略機動可以通過各種RL方法學習，以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作，我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展（如alphago）促進了更復雜的多智能體強化學習（MARL）算法在現實世界應用。此外，近年來也有一些框架來實現多智能體協作。這些努力加在一起，可以為開發和實施多機器人協作提供一條道路，以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中，對近年來突出的RL方法進行了分類和概述，并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說，本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外，對選定的RL方法類別進行了分類，以深入了解戰略機動的潛在實施，并考慮到情報、監視、目標獲取和偵察（ISTAR）任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說，戰略機動可以解釋為一組智能體協調他們的行動，通過戰勝對手來實現一個共同的目標。破壞，是戰略機動的一個特例，可以表示為對對手協作戰略機動的抑制。因此，戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方，他們處于動態的斗爭中，通過限制、抑制或以其他方式破壞對手的協調或戰術，并強加自己的協作戰術來獲得對對方的優勢。

在本節中，提供了一個對抗性的交戰場景，其核心是使用選定的遠程資產，這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例，描述了與所述多域作戰（MDO）情景相關的選定資產和部隊的軍事符號學。根據MDO理論，在武裝沖突中，對手的遠程反介入和區域拒止（A2AD）火力系統可以被用來拒絕友軍在戰區的機動自由（見圖1）。這是通過將情報、監視和偵察（ISR）資產與致命性和非致命性火力相結合來實現的，以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產（如部隊和裝備）的傳統集結地（見圖2）。對手有能力在友軍后方深處識別和攻擊目標，導致這些實體在地理上與戰術支持區和近距離區分離，這有效地提高了友軍的損耗率，即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離，敵對勢力可以利用這種友軍孤立無援的情況，將其消滅。

圖1 友軍（BLUEFOR，左）和敵軍（OPFOR，右）部隊的資產和資源。在所描述的MDO情景中，假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍（OPFOR）使用遠程導彈和火箭炮干擾或破壞友軍（BLUEFOR）戰略支援區的維持行動，這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略，BLUEFOR執行反擊任務，以摧毀位于深火區的OPFOR遠程火力系統（藍色箭頭）。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術，它打破了對手的隊形和節奏。

圖3 壓制（S）或解除（N）敵方遠程火力系統和ISR資產，使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人，并使機動指揮官有能力利用他們的成功，迅速將部隊轉移到深度機動區，摧毀（D）脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定"，可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃（即對峙），以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰（即穿透和瓦解A2AD系統以利用機動自由）。在這里，我們只關注友軍（BLUEFOR）野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分，這可能需要在未來的戰斗中使用自主MAS。此外，據推測，圖1中友軍（BLUEFOR）和敵軍（OPFOR）的所有符號都將包含自主化的編隊（例如，機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產）。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示，敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視（未顯示）接收有針對性的情報，在狹窄的時間窗口內打擊高價值目標（即多管火箭系統[MLRS]），以減少對手的位置調整。除了監視之外，還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中，MARL可以通過利用敵軍理論和敵軍行動中的局部觀察，戰略性地照亮和跟蹤敵軍目標的位置。此外，經過MARL訓練的具有自主能力的編隊，結合高度機動和分散的空中和地面火力，可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP，進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅，戰略和作戰支援部隊能夠向前方的作戰部隊推進（機動）（見圖2）。

敵軍利用ISR資產識別作戰支援區的友軍資產，并從作戰縱深火力區用遠程火力系統（即多管火箭炮）攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力，這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外，這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論，為了消除對峙，友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制（C2）節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口，可以被機動指揮官所利用。在這種覆蓋下，友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區，近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊（即MAS），利用MARL訓練的策略來利用對手的TTP（來自理論）、本地觀察和ISR收集的信息。如圖2所示，聯合部隊將協調其ISR和遠程精確火力的能力，為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下，擁有自主能力的前線部隊可以在近距離和縱深地區進行協調，以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊（OPFOR），使遠程火力系統容易受到地面攻擊（瓦解），如圖2所示。

聯合火力（即友軍或BLUEFOR）壓制或消滅對手的遠程火力系統，使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊（見圖3）。然后，友軍機動部隊利用這一優勢，在深度機動區（見圖3中的D區）摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出，并在深層機動區域建立一個新的戰線。這個過程不斷重復，直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外，鑒于目前正在積極研究開發和部署這種自主系統，預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景；然而，在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試，或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中，我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講，RL是機器學習（ML）的一個分支，它超越了從數據中建立精確的預測，通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式，但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習（或訓練），最終確定在當前情況下（即該智能體在環境中的狀態），哪一個是智能體要選擇的最佳行動。例如，RL智能體可以與環境互動，產生與獎勵掛鉤的經驗，這將形成學習的策略（即一系列的狀態-行動對）。然而，在后面的章節中強調，目前的RL方法可能還不夠成熟，無法克服與人類類似的適應性相關的挑戰，以便在新情況或環境中進行智能決策。盡管RL算法有其缺點，但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中，協作通常是定義不清的，而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中，開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性，以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件，而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下，最佳行為可能是可取的，但如果任務以某種不可預見的方式發生了變化，一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此，未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分，描述了與開發戰略機動MAS有關的一些挑戰，其中時間尺度、能力和局部目標可能有很大的不同（例如，MDO），但需要某種程度的協作。此外，假設更大程度的靈活協作可以促進任務執行的改進（例如，更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成）。

隨著環境在動態戰場上的變化，敵對雙方（至少）可能需要重復規劃和預測，以便1）跟上，或2）領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外，如果學習智能體建立了一個關于對手協作行動的適當模型，然后采取行動破壞這種協作，也可以實現這一目標。

在一個理想的情況下，一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力（獲得新的能力或失去以前的能力）、團隊組成（例如，改變合作者）和局部目標的變化。然而，大多數最先進的（sota）方法受到經驗的限制（正如許多RL方法的情況一樣）。此外，在大多數模擬中，團隊的能力和組成通常是固定的，不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此，在選擇一種算法來指導旨在產生戰略機動的MAS的行為時，必須考慮新的或動態的事件、行為、資產和實體。

總之，目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1）數據要求，由于情況的新穎性，數據是有限的，數據集不足以產生準確的預測，或者數據以某種方式被污染（例如，嘈雜、臟亂或對手的改變），2）有限的計算資源，以及3）算法不能泛化到訓練期間遇到的情況之外（例如，不同的目標、改變的能力或修改的團隊組成），導致狹隘或脆弱的MAS解決方案。

在下一節中，我們將更詳細地討論RL的缺點，以闡明如何克服這些問題，為軍事防御MDO環境提供解決方案。為此，我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力，這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一，特別是因為這種任務可能需要大量的智能體來完成一個目標。此外，軍事任務可能涉及多個子任務，每個子任務都有自己的子目標，從而進一步復雜化了場景。在MDO中，預計一個子目標由無數復雜的戰略演習組成，這需要MAS的快速計算，以及使用最小計算資源（如在戰術邊緣計算）的最佳（或至少足夠）戰略。因此，一個可擴展的RL算法必須考慮到：1）環境和任務的復雜性；2）智能體（伙伴和對手）的數量，以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性（即智能體的狀態和行動空間的大小）可以指環境的狀態空間中可用的狀態數量，以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中，在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體（例如，擴展到MAS），其中狀態空間被放大以考慮到額外的智能體，而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的，因為連續的領域會使表格無法維持，而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源（如過多的計算機內存）來包含所有的狀態，在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反，一個解決方案是使用非參數函數近似器（例如，權重為參數的深度神經網絡）來近似整個狀態空間的值。然而，函數近似器必須是可微分的，這樣就可以計算出一個梯度，以提供參數調整的方向。

有兩種方法來訓練值函數近似器：1）增量方法和2）批量方法。增量方法使用隨機梯度，在梯度方向上調整近似器的參數，使估計值和目標值之間的誤差最小。然而，增量方法的樣本效率不高，因此不具備可擴展性。相比之下，批量處理方法從一組經驗中保存數據，并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處，即結果是已知的（例如，數據被標記），計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡（DQN）玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功，但如果不考慮額外智能體的加入（即非平穩性或部分可觀察性），單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比，策略學習方法依靠策略梯度（PG）的計算來明確優化策略，而不是間接依靠價值函數。與函數近似方法相比，PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效（即在復雜環境中可擴展）。在蒙特卡洛（MC）策略梯度（例如REINFORCE算法）中，實際回報（選擇行動）與一個分數函數相乘，以計算梯度。該梯度被用于策略調整（通過改變參數值）以找到最大的回報行動。MC策略梯度具有高方差，收斂速度慢，因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中，PG方程被修改為使用價值函數的近似值，而不是使用真實的行動-價值函數乘以分數（如REINFORCE算法）。這表明行為者按照評論者所指向的方向調整策略，以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法（即MC、時差-TD（0）和TD（λ））來完成。為了減少策略梯度的差異，可以使用一個優勢函數。優勢函數告訴我們，與一般的狀態值函數相比，一個行動比另一個行動（Q值）好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error，它是優勢函數的無偏樣本，評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是，MC（高方差）和TD方法可以與行為人一起使用，隨著時間的推移（即收集的經驗）修改策略。

由于MDO涉及軍事任務，RL算法必須有能力與許多其他智能體協調，以實現最佳的戰略機動，因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間（即許多智能體）和多領域環境的大量觀察能力。在接下來的章節中，我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法，其中狀態行動空間可以是連續的或離散的。在這一節中，討論了無模型算法的優勢和劣勢，以及它們如何與戰略機動相一致，從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡（DQN）

深度Q網絡（DQN）是一種單一的RL智能體算法，它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡，從高維輸入（連續圖像）中學習。

DQN算法是一種有效的樣本方法，因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大，可以使用相同的超參數進行訓練，玩六種不同的Atari游戲，其中智能體在其中三個游戲中的表現比人類專家更好。

然而，DQN的一個缺點是，在理論上不能保證訓練好的神經網絡實現穩定的Q值預測（即在不同的獨立模型中，訓練好的策略可能會有很大的差異）。

鑒于DQN本質上是一個單一的RL智能體模型，它應該不足以在MDO中進行戰略機動。在MDO中，多智能體RL算法可能更適合，因為智能體在執行時間內典型的分散化，允許智能體彼此獨立運作。此外，DQN的原始實現只利用了四個觀察序列來學習Q值，這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上，這是DQN在評估的三個Atari游戲（即Q*bert、Seaquest和Space Invaders）中與人類相比表現不好的主要原因。然而，存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體，它學習了一個Q網絡的集合，以提高采樣效率，并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法，以解決大的行動空間。帶有記憶類型的DQN（即循環神經網絡）也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境，這種方法就特別有用。另外，分布式DQN返回一個分布信息，可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途，但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術，而這是MDO中戰略機動的需要。此外，DQN在大多數情況下計算量太大，無法用于軍事相關環境。最后，DQN算法方法對未見過的例子（例如，伙伴的新行為或環境中出現的實體/障礙）缺乏足夠的適應性。

4.2 深度確定性策略梯度（DDPG）

在現實世界中，大多數常規任務涉及連續狀態和行動空間。然而，DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度（DDPG）方法。DDPG通過結合價值函數近似和確定性策略梯度（DPG），推進了DQN方法的進展。DDPG利用行為批判的方法，可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務（如車桿、靈巧的操縱、腿部運動或汽車駕駛）。

另一種使用深度神經網絡的方法是信任區域策略優化（TRPO）。這種方法直接構建一個隨機策略，而不需要演員-評論者模型（不要與環境模型混淆，這將使其成為一種基于模型的方法）。與TRPO類似，引導式策略搜索（GPS）不需要角色評論模型，而是使用軌跡引導的監督式策略學習以及一些額外的技術（例如，減少視覺特征的維度，在網絡的第一層增加機器人配置動態的信息）。因此，GPS的數據效率很高，如果需要的話，可以改編成DDPG。另一方面，PILCO首先學習一個概率模型，然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率；然而，它的計算量很大。此外，D4PG對DDPG算法提出了一些改進：分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級，以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看，DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法（即獨立學習者）。因此，DDPG算法不便于在多智能體場景中進行協作。因此，使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外，DDPG不具備處理基于角色的多目標任務的能力，而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度（MADDPG）

RL智能體互動對于戰略機動的人工智能系統至關重要，不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題，多智能體深度確定性策略梯度（MADDPG）算法擴展了一個演員評論家方法，這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練，并在測試期間部署分散的演員。一個評論者（每個智能體都有一個）接收每個智能體的策略，這允許開發具有潛在不同獎勵功能的依賴性策略（例如，MADDPG允許訓練具有相反獎勵功能的對抗性團隊）。相反，演員（即策略網絡）在訓練和測試期間只擁有本地知識。演員（通過訓練）在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是，對Q函數的輸入隨著環境中智能體數量的增加而增加（不可擴展）。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除，可能需要進行再訓練。在戰略機動中，智能體可能需要定期轉換角色或改變能力，這對MADDPG適應軍事領域構成了重大挑戰。此外，頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷，使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用，希望有一個強大的對手或智能體模型，以便使作戰時間最大化（即有足夠的時間來執行戰略機動）。

為解決其可擴展性問題，對MADDPG的一個潛在修改是形成智能體集群，為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下，可以推遲重新訓練的需要，因為從理論上講，一個智能體集群將有一套處理動態情況的可變能力。此外，這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而，問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務，并使最優分組策略的退化程度最小？

雖然MADDPG可以形成一組異質的多智能體策略，能夠完成不同的任務，但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加，策略梯度的方差會呈指數級增長。因此，這種方法不太適合MDO中的戰略機動，在這種情況下，必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法，該算法計算鄰近智能體Q值的均值估計，當智能體之間的鄰近互動變得復雜時，可能導致高誤差率。此外，進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合，使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功，可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是，反事實多智能體（COMA）方法對所有智能體使用一個集中的評論家，但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性，但它可能導致一套同質的策略，在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似，Minmax多智能體DDPG（M3DDPG）比MADDPG的原始版本增加了一項改進，允許智能體制定更穩健的策略來對抗對手（即具有對立獎勵結構的競爭游戲）。然而，M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法，有時需要利用常見的技術來操作輸入或輸出，如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中，離散的策略組件被用來計算連續的行動。從另一個角度來看，多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制，然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法，但這些算法方法沒有用連續信息進行訓練，這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的，其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值，而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體，仍需進行再訓練。然而，與MADDPG相比，它更具有可擴展性，因為單個Q值僅從局部觀察中學習，避免了通過學習因子化的Qtot來學習聯合行動值。但是，當有超過40個智能體時，這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性，已經提出了基于角色的算法RODE，其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動，RODE算法是非常有前途的，因為各組智能體可以被分配到不同的角色，其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為（對于盟友或甚至敵人）。然后，該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制，該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用，這可能會在未來的工作中進行研究。即使RODE是非常可擴展的，我們也不清楚當新的智能體將被添加到環境中時如何調整它；需要學習一個集中的策略以實現最佳協作。

與RODE算法相比，一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略，實驗表明它能夠擴展到1000多個智能體。如前所述，可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多，狀態空間越大。RODE是有限的，因為它使用一個集中的策略，當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法（即共享一個中央經驗重放緩沖器），其執行是分布式的（即每個智能體根據其本地觀察做出自己的控制決定），而不是來自中央控制器。由于這種分布式的方案，當智能體被添加或從系統中移除時，團隊不受影響，繼續執行他們的策略。

在可擴展性方面，訓練大型MAS（即許多智能體）是很困難的，而且已經表明，即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題，該方法允許在較小的智能體集合上訓練策略（例如，在目標追蹤場景中，四個智能體追蹤四個目標），并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整（即用1000個智能體測試和評估）。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化：它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看，這種提法是戰略機動的理想選擇，因為現場的智能體可能會在原地丟失或獲得，可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素，包括科技進步，美國的對手正在變得更加先進。在未來的MAS自主戰爭中，協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中，我們討論了一些最突出的RL算法，以發現訓練MAS的可行候選策略，這些MAS可以有效地進行戰略機動，從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法，并對最突出的RL算法進行了概述。研究發現，由于訓練和測試因素的不同，大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案，AIMM和EOT ERPs特別促成了研究，可以為協作的自主MAS提供一個路徑，可以克服與1）環境，2）對手戰術和能力，3）自身能力（即，獲得新的能力，失去以前的能力，或能力被改變），4）團隊組成（例如，增加、刪除或交換隊友），5）戰略團隊定位、進入、導航（機動）以支持部隊并壓倒對手，以及6）任務目標。最近，AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法，并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性，此外還評估了利用一系列集中訓練技術的新算法方法。

此外，還需要進行更多的調查，以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下，將完全自主的MAS送入高風險情況（即預期因果率高的情況）是可取的；然而，由于目前的技術限制，僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此，在未來的工作中，將進行研究以確定一套強有力的交戰方案。最后，這項工作將導致自主MAS的最終整合，以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容