執行摘要

研究要求：

21世紀的美國陸軍領導人面臨著無與倫比的復雜情況。越來越多的陸軍領導人被賦予管理作戰環境的任務，這些環境是多方面的、高度動態的，而且經常在 "灰色地帶 "進行，沖突的性質本身并不明確（ISAB，2017）。這些極其復雜的環境對軍事領導人提出了空前的要求。雖然技術能力和戰斗力是過去常規武力沖突中的關鍵區別，但今天的沖突中的關鍵區別是精神力量和敏捷性（Kay，2016）。軍隊領導人需要先進的認知和行為技能來理解和管理領導人面臨的模糊和復雜的問題，并有效地領導他們的單位。為了做出有效的決策，領導人需要能夠進行整體思考，認識到各種聯系，預測決策的二階和三階效應，質疑假設，想象情況可能會演變到未來，并向他人傳達他們的理解。

為了滿足對能夠有效理解和管理復雜作戰問題的陸軍領導人的需求，陸軍于2010年將陸軍設計方法學（ADM）引入條令。陸軍條令將ADM定義為"......一種應用批判性和創造性思維來理解、想象和描述不熟悉的問題和解決方法的方法"（陸軍部，2015，第1-3頁）。在2010年推出ADM條令后不久，美國陸軍行為和社會科學研究所（ARI）啟動了一項關于設計思維、陸軍設計方法和戰略思維的多年研究計劃。ARI的研究計劃包含了一系列的研究，以確定與設計和戰略思維相關的行為和高級認知技能的發展和維持有關的挑戰和要求。這里報告的工作目標是對設計和戰略思維研究項目的結果進行總體分析、綜合和整合，并根據項目的關鍵見解向軍隊提出建議。

程序：

為了支持研究要求，研究小組對ARI的研究項目進行了系統的檢查，以提取整個研究項目中出現的關鍵見解。分析和綜合過程是由報告或產品審查、分析、討論、綜合和記錄的反復循環組成的，既可以單獨進行，也可以作為一個團隊進行。

研究結果：

在各種研究工作中出現了幾個突出的發現。研究項目的一個核心發現是，與戰略思維和設計相關的語言是提高軍隊這些能力的障礙。使用替代框架與作戰部隊交流這些概念（例如，"管理復雜問題"）可能為分享相關見解帶來希望。第二個發現是，設計和戰略思維共享相關的知識、技能和能力（KSAs），這可以作為培訓和教育、評估和績效管理以及實際指導的組織結構。第三個發現是，士兵們應該在職業生涯的早期就發展設計和戰略思維能力，接觸替代性的觀點。第四，有必要為設計和戰略思維能力開發有效和可靠的評估工具。第五，士兵們需要接觸到支持管理復雜問題的實用工具和資源。最后一個突出的發現是，軍隊文化應該更加積極地支持與設計和戰略思維相關的關鍵行為、心態和高級認知技能。

研究結果的利用和傳播：

研究結果和產品可以使各種利益相關者受益，包括那些有興趣為自己和自己的部隊在作戰環境中管理復雜問題做準備的現任和新任陸軍領導人，以及那些有興趣創造鼓勵與設計和戰略思維相關的心態和行為的部隊氛圍的人。一些研究產品已被開發出來，供那些在課堂上教授與設計和戰略思維相關的高級認知技能的教官使用，以及供那些希望為自己或單位發展這些高級認知技能的士兵或單位指揮官使用。最后，這些研究結果對致力于軍隊人才管理的政策制定者，以及那些希望進行與培養管理復雜問題的軍隊領導人有關的額外研究的人都是有用的。

付費5元查看完整內容

引言

1.1 背景

選擇項目清單或武器系統組合的過程是一個戰略決策過程。它使軍隊能夠發展使未來部隊在戰略上具有相關性、在行動上具有響應性、在戰術上具有決定性的能力。在這個過程中，最合適的未來部隊選項是由應該實現的目標倒推到需要的目標來設計的。然而，選擇最合適的國防組合面臨著幾個復雜和極具挑戰性的困難（DND，2014）[1]。困難的主要來源包括但不限于：（Kangaspunta等人，2012 [2]；Tate和Thompson, 2017 [3]；Harrison等人，2020 [4]）。

多重目標--這些目標涉及多個利益相關者，他們有不同的偏好和相互沖突的目標。籌資決策不僅影響投資成本，還影響犧牲其他項目的機會成本。隨著關鍵利益相關者立場的不斷變化，通常不容易將這些與環境相關的目標減少到一個單一的維度，并找到一個共識的解決方案。目標和約束條件之間也存在著持續的二元性。決策者可能希望確定實現某一特定能力水平的最低成本，或者相反，在預算約束下確定可能的最高能力水平。

風險和不確定性--組合決策涉及長期承諾，其中許多變量是不確定的。這種不確定性的關鍵驅動因素是成本、進度和運營需求過程的結果。這些驅動因素之間的相互依賴使得風險分析更加困難。例如，一個項目執行中的任何變化都會對成本和進度的不確定性產生直接影響。任何成本的降低或進度的收緊都會增加結果的不確定性。此外，這樣的決定同時將生命、美元和時間置于風險之中，導致了對風險的復雜和不一致的態度。這種不確定性通常與其他幾個不確定性的來源結合在一起，如能力要求、預算和地緣政治局勢。

復雜的替代方案--選擇一個最佳的投資組合以達到預期效果或緩解特定的能力差距，在軍事部門不是一件容易的事。軍事投資組合決策涉及廣泛的相互依賴和重疊的備選方案。它們的影響往往是非線性的，并且取決于環境。它們的相互依賴程度一般很難描述。軍事選擇也是離散的和非二元的，這使得稀缺資源的優化更加困難。這些特點往往與既非線性也非加法的復雜成本函數結合在一起。

到目前為止，還缺少一種評估和選擇國防能力組合的綜合方法。為了在最有效地利用資源的情況下構建最合適的能力組合，首席財務官（CFO）責成加拿大國防研究與發展中心（DRDC）-運營研究與分析國防經濟團隊（DET）開發ECM（Morrisey, 2021）[5]。作為這項工作的一部分，我們進行了兩項研究以支持該項目。在第一個研究中，我們提供了一個評估和選擇能力組合的二元反應模型[6]。第二項研究通過能力組合風險分析[7]補充了最初的工作。這種新的隨機方法將蒙特卡洛模擬技術應用于二元反應模型。

1.2 目的

這項工作的目的是綜合參考文獻[6]和[7]中提出的前兩種能力組合評估和選擇方法。它有兩個相互關聯的主要目標：

開發一個完整的方法，該方法在理論上是合理的，并與國防能力組合建設實際相關；以及
說明該方法并演示其過程實現。

1.3 方法

建議的方法結合了或然估值法（CVM）的一個變種和投資組合風險分析來選擇能力組合。1963年，CVM在哈佛大學的一篇經濟學博士論文中得到實施。包括美國陸軍工程兵團在內的許多組織都使用了這種方法，并對所采用的方法的發展做出了貢獻（Hanemann, 1984 [8]; Cameron, 1988 [9]; Sokri, 2012 [10]）。我們的方法包括四個主要步驟，如圖1中的流程圖所總結的。首先是選擇能夠比較能力的主題專家（SMEs），最后是對備選方案進行排名并進行組合風險分析。

圖 1：主要方法步驟的示意圖。

1.3.1 選擇主題專家

這種方法成功的關鍵在于選擇有經驗的主題專家。正如過去所做的那樣，他們應該來自整個國防組織，并在分析能力的性質方面擁有廣泛的專業經驗。他們應該能夠比較能力并回答調查問題。這些問題將取決于每套能力（飛機、艦艇等）的性質。它們的范圍可以從戰略防御目標（例如，保衛國家及其盟友）到能力的技術措施（例如，規模、生存能力、范圍、持久性、響應性和互操作性）。

1.3.2 評估備選方案

如附件A所示，每個主題專家要求從每個標準的角度對每個備選方案進行0-100分的評分。每個主題專家還被要求(1)以0-100的尺度對每個備選方案進行總體評價，(2)決定該備選方案是否應被納入防御組合。如果主題專家決定將其納入，該替代方案將被賦予1的數值，否則為0。

1.3.3 估計回歸模型

分析師將從每個標準的角度使用0-100分的比率作為解釋變量。對于因變量，分析者有兩種選擇：（1）他/她可以使用一個非線性回歸模型，其中因變量只能取兩個值（即每個主題專家的決定），（2）他/她可以使用每個備選方案在0-100等級上的總體評價來計算 "提供的幾率"（而不是預測的幾率）。在這種情況下，分析員將估計一個線性回歸，其中因變量是賠率的自然對數（即對數）。

1.3.3.1 對備選方案進行排名

可以使用三種預測措施（產出）之一，對備選方案從最好到最差進行排名。(1) 它們被納入防御組合的概率，(2) 它們的幾率，(3) 它們的量化經濟價值。賠率是列入概率的一個增加函數。它們將提供相同的結果。經濟價值應該與它們呈正相關關系。這些衡量標準是根據專家們的評價進行統計推斷的。

1.3.3.2 進行組合風險分析

為了評價結果的穩健性，可以進行能力組合風險分析。進行這種風險分析可采用三種互補技術：（1）通過評估每個預測因素的邊際效應，（2）通過估計每個結果的三點估計值（樂觀、最可能和悲觀），以及（3）通過使用計算機模擬得出每個備選方案的風險狀況。關于這個方法步驟的更多細節，請讀者參考附件A。

建議的方法為能力組合的評估和選擇提供了更多的機會：

嚴謹性（基于合理的理論基礎）。
可靠性（以正確的評估為基礎）。
可復制性（明確的程序，而不是黑箱）；以及
一致性（方法步驟的一致性）。

由此產生的科學報告將為分析人員和決策者提供一個共同的基礎：

以一致的方式匯總若干評價標準。
用它們的價值來描述替代品。
對它們進行排名；和/或
將它們歸入預先確定的類別。

本報告分為七個部分。導言之后，第2節概述了能力組合分析領域的最新進展。第3節建立了所采用的二元模型，并指出其數學推導。它還說明了如何對一組候選能力進行估值和排序。第4節介紹并討論了一種新的能力組合風險分析方法。第5節提供了一個說明性的例子，使形式主義更容易被理解。第6節展示了建議的方法與一些傳統方法和投資規劃的聯系。最后一節提出了一些結論性意見。

付費5元查看完整內容

AI與軍事 · 美國陸軍 · 高速基準飛行器 · 美國陸軍研究實驗室（ARL） · 高超音速飛行器 ·

2022 年 10 月 24 日

[付費5元查看完整內容]《美國陸軍高速基準飛行器》2022最新美國陸軍研究實驗室21頁報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。要實現一個有效的未來美國軍隊，必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解，從而促使對基礎研究的需求。本報告的目標是定義一個經典的、與陸軍相關的配置，適合于基礎研究，以允許與適當的主題專家的關鍵數量的集中合作。從這種開放的幾何構型研究中獲得的數據和知識可能會受到更多的限制性分配。

美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。

要實現一個有效的未來美國軍隊，必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解，從而促使對基礎性研究的需求。缺乏對高超音速飛行器周圍發生的復雜物理和化學的預測性知識，抑制了及時的、優化的多部件設計。對邊界層過渡和沖擊-邊界層相互作用等具體現象了解不多。不能正確地對現象進行建模，會產生一些不確定的特征，如表面壓力分布和熱通量，這對飛行器技術，包括穩定性、控制和熱負荷管理，都有負面影響。

幸運的是，有一個先例，即通過定義政府基準飛行器來促進全社會的科學討論，這些飛行器包含功能相關的工件，但對具體的發展計劃不敏感（見陸軍-海軍基本芬納導彈、空軍改良基本芬納導彈、陸軍-海軍旋轉火箭、國家航空航天飛機和NASA研究）。本報告的目標是定義一個典型的、與軍隊相關的配置，適合于基礎研究，以便與足夠數量的適當的主題專家進行重點合作。從這個開放的幾何構型的研究中獲得的數據和知識可能會受到更多的限制性分配。

付費5元查看完整內容

AI與軍事 · 態勢感知 · 飛行決策 ·

2022 年 10 月 12 日

[付費5元查看完整內容]美國陸軍《飛行決策和態勢感知研究：決策文獻綜述》58頁技術報告，美國陸軍“飛行決策和態勢感知”項目的第一個成果

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本報告是“飛行決策和態勢感知”項目的第一個成果。該項目的總體目標是提供系統評估新興技術的方法建議，這些技術可能會影響或促成決策，并提高美國陸軍未來垂直升降機（FVL）飛行員的態勢感知（SA）。

這第一份報告的目標是：（1）回顧描述決策和SA的主要理論方法，以及（2）確定在美陸軍航空兵環境中，新技術對決策和SA的影響，及替代理論對作戰評估方法的影響。

為了理解FVL航空環境下的決策，我們采用了以下決策的定義：決策包括形成和完善一個信念或行動方案所涉及的認知活動。

回顧了人的因素和自然決策（NDM）研究界最突出的與FVL航空有關的決策模型。對于每一個模型，我們都簡要地總結了對評估決策的方法和措施的影響，以及新技術對個人和團隊決策的影響。審查的模型包括 "雙系統 "模型（Kahneman，2011）、識別-判斷（RPD）模型（Klein，1989）和SA模型（Endsley，1995）。我們還回顧了OODA循環模型，這是一個在軍事上很有影響力的模型，由一名戰斗機飛行員開發（Boyd, 1987），以及從過程控制界產生的決策階梯模型（Rasmussen, 1976），以及最近從NDM界出現的決策宏觀認知模型系列。我們還描述了兩個高度專業化的數學模型，它們在分析和評估新技術對人類決策的影響方面被證明非常有用--信號檢測理論和LENS模型。

我們包括一個題為 "把它放在一起 "的部分，綜合了我們審查的一系列模型，以(1)確定各模型的核心概念，這些概念對描述FVL環境中的決策特點很重要；(2)總結來自不同決策模型傳統的方法和措施，它們與評估新技術對FVL環境中決策的影響有關；以及(3)提出一個與FVL有關的決策綜合框架。這個框架綜合了我們所審查的各種決策模型中常見的核心概念，這些概念對于FVL背景下的建模和支持決策非常重要。

各個模型所確定的核心概念包括：

決策可以產生于直覺過程、審議過程或兩者的結合。
專家的表現往往是基于更直觀的、以識別為基礎的過程。
決策是一個動態的、循環的過程，與其他認知活動密不可分，而這些活動又反過來影響著決策（如感知、感性認識、計劃）。
感知包括自上而下（即根據預期搜索信息）和自下而上的過程（即檢測環境中的突出信息，然后影響理解并進一步反饋預期）。
人們積極嘗試了解當前的情況（即感覺），這種了解是決策的核心。
人們隨著對當前形勢的理解的發展而制定、修改和調整計劃。
有效的團隊合作需要對當前形勢和目標有共同的理解，有時稱為共同的SA或共同點。

這些核心概念為我們開發的綜合框架提供了基礎，以指導我們接下來的工作。

我們審查的決策模型為評估新技術對個人和團隊決策的影響提供了重要的觀點、方法和措施。最特別的是，我們審查的所有決策模型都強調了在現實條件下研究決策的重要性，這些條件反映了在感興趣的現實世界中出現的挑戰。許多模型對設計和進行評估決策的研究做出了方法上的貢獻。最重要的是，他們強調需要創造研究條件（例如，通過設計評價情景），以便觀察和測量決策的重要方面。許多模型還激發了用于評估決策的新措施。關于SA的文獻記載最多，使用最廣泛，但其他決策模型也導致了更多的新措施。這些都在報告中進行了總結，并將在項目的下一階段進行更充分的探討。

在本階段研究中開發的綜合框架強調了使有效決策得以實現的宏觀認知活動，以及它們是如何相互關聯的。它特別強調了感覺認知功能（對態勢的理解），這種功能產生的期望反過來又會驅動感知、注意和工作量管理（期望循環）。感知也會產生目標，反過來驅動決定和計劃，以及有效的團隊工作所需的溝通和協調（目標到行動的循環）。綜合框架為下一組任務的執行提供了基礎，最終確定了可用于評估新技術對動態陸軍航空決策的各種認知活動的影響的方法和措施。

圖11. 一個表征決策的綜合框架

付費5元查看完整內容

AI與軍事 · 美國陸軍行為與社會科學研究所 · 戰略思維 ·

2022 年 10 月 9 日

[付費5元查看完整內容]《戰略思維能力建設練習》美國陸軍160頁指導手冊

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本手冊中的練習是為了滿足進一步發展美國陸軍戰略思維能力的需要。它們旨在通過提供使用這些技能的練習，幫助發展和加強成為一名有效的戰略思想家所需的認知和行為技能。

誰將從這些練習中受益？

這些練習旨在供教官、部隊指揮官和其他希望為其學生或員工提供戰略思維所需技能的指導和練習的人使用。參與者可以是年輕的中尉到有經驗的軍士，再到野戰級軍官及以上。

練習涉及哪些技能？

美國陸軍行為和社會科學研究所（ARI）創建了一套實用練習，使學生和士兵能夠加強技能，幫助他們發展成為有效的戰略思想家。這些戰略思維練習遵循成人學習原則：以問題為中心，提供與其他學習者互動的機會，與學習者的工作直接相關，提供重復和刻意練習的機會，涉及與同伴和主持人的反饋，并提供個人和團體反思的機會。熟練的輔導員可以在各種情況下使用這些練習，并與來自不同層級的領導者一起使用。這些練習集中在四個技能領域：反思性思考、提問和尋求信息、在不同的信息中建立聯系，以及預測未來狀態。


練習名稱	所涉及的主要技能	解決的次要技能
對環境的反思	反思性思維	系統思考、假設的產生
提問以深化學習	提問、掃描	系統思考，綜合
講述一個故事:關聯能力的練習	系統思考，綜合	假設生成，認知靈活性，感知賦予
設想潛在的未來	時間思考/戰略遠見	提問、系統思考、感知

許多技能都與戰略思維有關。之所以選擇上述主要和次要技能，是因為過去的研究表明，這些技能在軍隊中是需要的，目前還沒有得到很好的解決，與其他關鍵技能相關，適用于多個梯隊，并且可以發展。

如何使用這些練習？

這些練習的設計是為了適應不同的參與者和不同的環境。每個練習都可以單獨使用。練習也可以結合起來，形成一個更全面的發展項目。練習既可以作為獨立的活動，也可以作為現場教學的一部分，或者嵌入課程中。其中三個練習，特別是 "提問以深化學習"、"講故事"。講述一個故事：關聯能力的練習，以及設想潛在的未來，需要一個主持人。反思環境的練習可以在有或沒有主持人的情況下進行；因此，這個特別的練習也可以作為一個自我發展活動來使用。

付費5元查看完整內容

AI與軍事 · 智能體 · 美國陸軍研究實驗室（ARL） · 人機協作 · 人機通信 ·

2022 年 9 月 27 日

[付費5元查看完整內容]《綜述：人類與智能體間的通信問題》美國陸軍29頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

本報告涵蓋了與設計評估人類和智能軟件Agent之間通信有關的問題，這些通信是實現協作關系所必需的。為了使人與Agent之間的互動在動態的現實世界中保持穩定，軟件Agent和人類都必須能夠在任務目標方面溝通他們的整體意圖。由于推理過程、能力和知識庫的不同，人類和Agent并不是人類團隊的模擬。我們討論了有效通信所涉及的技術問題，包括相互透明的模型、自然語言處理（NLP）、人工智能（AI）和可解釋的AI。由于缺乏使人類能夠洞察其隊友心理過程的心智理論，Agent很難預測人類的信息需求和未來行動。涉及多個Agent的協作計劃研究和合成共享心智模型的研究被作為嘗試將人類和Agent整合成一個協同單位典范。然而，我們的結論是，在人類和Agent在復雜的、不確定的任務中像人類團隊一樣通信之前，NLP、可解釋人工智能和人類科學的進展將是必要的。

1. 引言

自主系統的前景和問題都將改變未來系統的動態，這不僅體現在自主系統對社會的影響上，也體現在它們與人類的互動上（《經濟學人》2016；Schaefer等人，2017）。人類和自主系統之間的伙伴關系涉及到將人工和人類融合成一個有凝聚力的系統，這種結合意味著所有的優勢和限制（Bradshaw等人，2009；Chen和Barnes，2014）。自主系統的范圍可以從那些獨立的、只由人類偶爾監控的系統到由人類指導的、受到密切監督的系統（Barnes等人，2017）。能夠自主行動并根據新信息更新行動以實現其目標的軟件系統被確定為智能Agent（IA）；Russell和Norvig 2009）。在人類與IA的合作關系中，人類和IA共享決策空間的混合倡議能力，但人類擁有最終的權力，在危險的時間有限的情況下，允許靈活性，同時保持人類的責任（Chen和Barnes 2015；Barnes等人2017）。在大多數情況下，不可能先驗地將每個人分配到動態環境中的特定角色，因為他們的角色可以隨著情況的變化而改變。例如，自適應Agent可以在高工作負荷的任務段中掌握決策主動權，而不需要等待操作者的許可，但在正常的操作中會將決策主動權還給操作者（Chen和Barnes 2014）。一些與任務分配有關的規定性規則可以根據任務的優先級預先設定。其他規則可能會根據情況的緊急程度而改變（例如，在時間期限過后自主擊落來襲導彈[Barnes等人，2017；Parasuraman等人，2007]）。然而，在動態環境中，溝通、對意圖的理解和共同的態勢感知（SA）是有效協作的必要條件（Barnes等人，2017；Evans等人，2017；Holder，2018；Chen等人，2018）。

隨著IA復雜性的增加，有效通信的必要性也隨之增加。Cooke（2015）認為，高效的團隊合作關系更多的是取決于有效的互動，而不是擁有廣泛的共享知識庫。除了有一個共同的語言框架，每個團隊成員都必須知道什么時候向他們的伙伴推送信息，什么時候要求提供信息。因此，人類和IA不僅要有任務環境的SA，而且要有彼此角色的SA，以便在沒有公開交流的情況下回應伙伴的要求（Scherri等人，2003；Chen等人，2018）。我們討論三個主要的主題。第一個主題是對人-Agent架構的描述，以及為什么它與人-人團隊不同，強調相互透明度的重要性。接下來，我們討論了人類與人工智能（AI）系統通信所涉及的技術問題，包括多模態交互、語言限制、AI的類型以及可解釋AI（XAI）的重要性，以確保相互理解。最后，我們討論了共享意圖的重要性，以促進操作者和人工智能之間信息交互的自然節奏。

付費5元查看完整內容

AI與軍事 · 任務式指揮 · 致命性自主武器 · 國家安全 · 美國陸軍司令部總參謀部學院（CGSC） ·

2022 年 7 月 27 日

[付費5元查看完整內容]《應用于致命性自主武器系統的任務指揮原則》美國陸軍指揮和總參謀部學院57頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

《應用于致命性自主武器系統的任務指揮原則》，Curtis R. Michael少校，56頁。

這部專著研究了任務指揮的七項原則及其在致命性自主武器系統中的應用。像機器人和人工智能這樣的創新技術正在迅速重塑社會規范。只是在過去幾年里，美國軍方才認真考慮自主技術在戰場上的影響。隨著政治和軍事領導人處理這個新的戰爭時代，有關人類和機器在戰爭中的角色的新問題正在呈現。盡管圍繞自主系統的知識和經驗還很有限，但有一個既定的框架，即任務指揮原則，它經過了戰斗的檢驗，非常適合解決模糊性問題。任務指揮原則是使用致命自主武器的明智方法。這七項原則是幫助軍事指揮官應對復雜戰爭穩定的指導性方針。更重要的是，這些原則確保指揮官是最終的決策者，人民和信任是任務指揮的重點。信任在這個新的戰爭時代的重要性是不可低估的。信任確保了軍事行動的凝聚力和統一性。了解自主武器系統中的人機信任關系，對于釋放人機團隊的競爭優勢以及維護美國的國家安全利益至關重要。

簡介

“第一臺超智能機器是人類需要做出的最后一項發明，只要機器足夠溫順，告訴我們如何控制它。奇怪的是，這一點在科幻小說之外很少被提及。有時，認真對待科幻小說是值得的。”歐文-約翰-古德，《第一臺超智能機器》

今天，沖突的復雜特征也許比以往任何時候都更加明顯。混合戰爭、網絡攻擊和非國家行為者正在不斷地使戰斗空間變得更加不確定、動態和模糊。革命性的技術，如高超音速武器、人工智能（AI）和自主系統（AS）進一步增加了這種復雜性。商業和軍事工業對創新技術的空前依賴似乎是戰爭特征變化的催化劑，可能也是戰爭性質的催化劑。前美國國防部長吉姆-馬蒂斯在評論人工智能和戰爭這個話題時說："我當然質疑我原來的前提，即基本性質不會改變。你現在必須質疑這一點。"隨著政治和軍事領導人小心翼翼或不顧一切地跳入這個幾乎沒有先例的戰爭新時代，關于人類和機器在戰爭中的作用的新問題在等待著他們。

2014年，前國防部副部長羅伯特-沃克和他的同事發表了一份報告，解釋了未來的戰爭會是什么樣子。他們認為，未來的戰爭將主要由無人駕駛和自主武器等機器人技術來進行。"這種走向機器人時代的主要驅動力是來自商業公司的創新，而不是由政府研究和開發項目資助的軍工綜合體。"雖然這些新技術使眾多民用行業受益，如醫療保健和金融，但軍隊以及恐怖組織越來越依賴它們。2019年9月對沙特阿拉伯能源基礎設施的襲擊就是一個例子，恐怖分子輕松地改裝了少量的無人機，破壞了該國一半的石油和天然氣生產。此外，在過去十年中，使用軍用無人機的主權國家有九十五個，增加了百分之五十八。

從商業角度來看，機器人技術和自主技術的市場已經大大增長。例如，在過去六年中，工業機器人的銷售量每年都在增加，導致全世界的機器人存量超過240萬臺。此外，2018年有1630萬臺服務機器人用于家庭用途，比前一年增加了59%。另一個說明自主技術增長趨勢的例子是自動駕駛汽車。自動駕駛汽車在商業上和軍事上都有很大的前景。用先進的傳感器套件改裝的車輛有可能消除對人類操作員的需求，或通過提高駕駛員的態勢感知來減少人為錯誤。

美國軍方利用人工智能通過致命和非致命的應用來加強國家安全。人工智能的一個非致命性應用是一個名為Maven項目的軟件套件。Maven是國防部的一個人工智能應用，它研究遙控飛機的圖像和視頻資料，目的是改善無人機的打擊。人工智能的致命應用，也被稱為致命自主武器系統（LAWS），不僅被美國軍隊使用，也被世界各地的軍隊使用。本專著將致命性自主武器系統定義為：一旦啟動，就可以在沒有人類操作員進一步干預的情況下選擇和攻擊目標。

LAWS的例子包括以色列國防軍的HARPY導彈。HARPY是一種旨在有選擇地攻擊敵方防空設施的游蕩彈藥。同樣地，美國空軍最近出動了它的第一枚自主巡航導彈--遠程反艦導彈（LRASM）。LRASM的設計是獨特的，因為它可以根據敵方軍艦的圖像識別、紅外、雷達和其他傳感器的特征，自主地探測和攻擊敵方軍艦。

美國國防部（DoD）將人工智能定義為機器執行通常需要人類智能來執行任務的能力，無論是數字還是作為自主物理系統背后的智能軟件。從本質上講，人工智能是一個處理數據以識別模式、學習、建議作戰方案或指導行動的融合系統。與商業行業一樣，軍方認識到人工智能支持的硬件和軟件的好處。

隨著自主武器的發展和使用變得突出，與它們的道德使用和可信度有關的問題將浮出水面。朱莉婭-麥克唐納和杰奎琳-施耐德進行了一項調查，顯示了目前無人駕駛飛行器的信任障礙。他們的調查顯示，聯合終端攻擊控制人員（JTAC）和聯合火力觀察員（JFO）認為無人機 "比有人駕駛的飛機風險更大，更不值得信任"。此外，他們得出結論，在 "人類與敵人直接接觸的領域，部隊不愿意將決策權交給機器"。然而，他們有限的調查確實顯示，當JTAC和JFO對無人駕駛飛機有更多的經驗時，他們更可能傾向于無人駕駛飛機。這一發現表明，經驗可能有助于解決控制人員對無人駕駛飛機的一些信任問題。

前面的例子說明了國防部的采購和企業在開發致命性自主武器系統時遇到的許多挑戰之一。軍方開發的新武器系統要經過廣泛的測試和政策審查。在某些情況下，這一過程需要多年時間才能完成。然而，這一深思熟慮和務實的過程的總體目標是推出一種有能力和強大的武器，使軍事指揮官能夠在戰場上自信地使用。致命武器系統是獨特的，因為它們挑戰了這種傳統的武器采購和部署模式。使致命性自主武器系統的開發更加復雜的是國防部的3000.09號指令。該指令指出，指揮官和作戰人員必須對武力的使用進行適當的人為判斷。指令中沒有明確界定什么是 "適當的判斷水平"。此外，在當前的作戰環境中，對手正專注于爭奪、拒絕和降低通信系統，對適當控制的理解變得更加不明確。

人工智能技術的普遍性及其在整個民用和軍用部門的廣泛增長表明，戰爭的特征正在發生變化。美國的核心政治和軍事戰略文件，國家安全戰略（NSS）和國防戰略（NDS）承認這些技術的重要性，因為他們指示美國優先考慮并保持在新興技術方面的競爭優勢。在未來的沖突中，這些新興技術將很可能超過人類的理解能力。Robert Latiff寫道，時間將更加寶貴，戰斗的純粹速度將給決策帶來壓力。考慮到未來戰爭的這一背景，軍隊應該預期軍事主動權的鐘擺將逐漸從軍事指揮官手中擺開，轉到自主代理人身上。為了在人工智能主導的戰斗空間中做好準備并取得成功，指揮官將需要把任務指揮的一些原則擴展到致命性自主武器系統。

付費5元查看完整內容

AI與軍事 · 強化學習 · 多智能體協同 · 戰略機動策略 · 美國陸軍研究實驗室（ARL） ·

2022 年 6 月 23 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在未來的軍事行動中，通過協調多智能體系統（MAS）來實施戰略機動以獲得對對手的優勢，是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施，以及通過多智能體強化學習（RL）來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為，這有可能抑制對抗性協作，反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域（如陸地、海洋、空中、網絡、電磁和空間）對美國構成的威脅所推動的，這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行，人工智能（AI）將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程（TTPs）。這些機器人將聚集在一起，形成智能多Agent團隊，與人類士兵有效協作，完成任務。

美國陸軍作戰能力發展司令部（DEVCOM）陸軍研究實驗室（ARL）的基本研究計劃（ERPs）構建了開發和實施智能多Agent系統（MAS）的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案，這些問題匯聚在一起，指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性（AIMM）和新興超限技術（EOT）是ERP的例子，明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃，并通過戰場上的自主機動（AIMM）和保護（EOT）向士兵提供支持。本報告重點關注需要進行的自主協作，以使多智能體系統（即人類、智能體或人類和智能體混合）在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步，重點是超越我們目前的能力，以有效地對付同等裝備的對手（同行或接近同行）的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動（OODA-Loop）。雖然新的努力促進了對多智能體范式中情報的一般理解，但目前對情報的解釋并不明確。最近的文獻表明，基于強化學習（RL）的方法可能為實現這種技術進步提供了一條可行的途徑，本文介紹的一系列工作就是證明。

在本報告中，介紹了RL領域的貢獻，以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作，以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外，協作的戰略機動可以通過各種RL方法學習，以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作，我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展（如alphago）促進了更復雜的多智能體強化學習（MARL）算法在現實世界應用。此外，近年來也有一些框架來實現多智能體協作。這些努力加在一起，可以為開發和實施多機器人協作提供一條道路，以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中，對近年來突出的RL方法進行了分類和概述，并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說，本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外，對選定的RL方法類別進行了分類，以深入了解戰略機動的潛在實施，并考慮到情報、監視、目標獲取和偵察（ISTAR）任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說，戰略機動可以解釋為一組智能體協調他們的行動，通過戰勝對手來實現一個共同的目標。破壞，是戰略機動的一個特例，可以表示為對對手協作戰略機動的抑制。因此，戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方，他們處于動態的斗爭中，通過限制、抑制或以其他方式破壞對手的協調或戰術，并強加自己的協作戰術來獲得對對方的優勢。

在本節中，提供了一個對抗性的交戰場景，其核心是使用選定的遠程資產，這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例，描述了與所述多域作戰（MDO）情景相關的選定資產和部隊的軍事符號學。根據MDO理論，在武裝沖突中，對手的遠程反介入和區域拒止（A2AD）火力系統可以被用來拒絕友軍在戰區的機動自由（見圖1）。這是通過將情報、監視和偵察（ISR）資產與致命性和非致命性火力相結合來實現的，以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產（如部隊和裝備）的傳統集結地（見圖2）。對手有能力在友軍后方深處識別和攻擊目標，導致這些實體在地理上與戰術支持區和近距離區分離，這有效地提高了友軍的損耗率，即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離，敵對勢力可以利用這種友軍孤立無援的情況，將其消滅。

圖1 友軍（BLUEFOR，左）和敵軍（OPFOR，右）部隊的資產和資源。在所描述的MDO情景中，假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍（OPFOR）使用遠程導彈和火箭炮干擾或破壞友軍（BLUEFOR）戰略支援區的維持行動，這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略，BLUEFOR執行反擊任務，以摧毀位于深火區的OPFOR遠程火力系統（藍色箭頭）。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術，它打破了對手的隊形和節奏。

圖3 壓制（S）或解除（N）敵方遠程火力系統和ISR資產，使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人，并使機動指揮官有能力利用他們的成功，迅速將部隊轉移到深度機動區，摧毀（D）脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定"，可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃（即對峙），以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰（即穿透和瓦解A2AD系統以利用機動自由）。在這里，我們只關注友軍（BLUEFOR）野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分，這可能需要在未來的戰斗中使用自主MAS。此外，據推測，圖1中友軍（BLUEFOR）和敵軍（OPFOR）的所有符號都將包含自主化的編隊（例如，機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產）。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示，敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視（未顯示）接收有針對性的情報，在狹窄的時間窗口內打擊高價值目標（即多管火箭系統[MLRS]），以減少對手的位置調整。除了監視之外，還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中，MARL可以通過利用敵軍理論和敵軍行動中的局部觀察，戰略性地照亮和跟蹤敵軍目標的位置。此外，經過MARL訓練的具有自主能力的編隊，結合高度機動和分散的空中和地面火力，可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP，進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅，戰略和作戰支援部隊能夠向前方的作戰部隊推進（機動）（見圖2）。

敵軍利用ISR資產識別作戰支援區的友軍資產，并從作戰縱深火力區用遠程火力系統（即多管火箭炮）攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力，這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外，這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論，為了消除對峙，友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制（C2）節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口，可以被機動指揮官所利用。在這種覆蓋下，友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區，近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊（即MAS），利用MARL訓練的策略來利用對手的TTP（來自理論）、本地觀察和ISR收集的信息。如圖2所示，聯合部隊將協調其ISR和遠程精確火力的能力，為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下，擁有自主能力的前線部隊可以在近距離和縱深地區進行協調，以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊（OPFOR），使遠程火力系統容易受到地面攻擊（瓦解），如圖2所示。

聯合火力（即友軍或BLUEFOR）壓制或消滅對手的遠程火力系統，使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊（見圖3）。然后，友軍機動部隊利用這一優勢，在深度機動區（見圖3中的D區）摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出，并在深層機動區域建立一個新的戰線。這個過程不斷重復，直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外，鑒于目前正在積極研究開發和部署這種自主系統，預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景；然而，在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試，或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中，我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講，RL是機器學習（ML）的一個分支，它超越了從數據中建立精確的預測，通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式，但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習（或訓練），最終確定在當前情況下（即該智能體在環境中的狀態），哪一個是智能體要選擇的最佳行動。例如，RL智能體可以與環境互動，產生與獎勵掛鉤的經驗，這將形成學習的策略（即一系列的狀態-行動對）。然而，在后面的章節中強調，目前的RL方法可能還不夠成熟，無法克服與人類類似的適應性相關的挑戰，以便在新情況或環境中進行智能決策。盡管RL算法有其缺點，但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中，協作通常是定義不清的，而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中，開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性，以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件，而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下，最佳行為可能是可取的，但如果任務以某種不可預見的方式發生了變化，一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此，未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分，描述了與開發戰略機動MAS有關的一些挑戰，其中時間尺度、能力和局部目標可能有很大的不同（例如，MDO），但需要某種程度的協作。此外，假設更大程度的靈活協作可以促進任務執行的改進（例如，更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成）。

隨著環境在動態戰場上的變化，敵對雙方（至少）可能需要重復規劃和預測，以便1）跟上，或2）領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外，如果學習智能體建立了一個關于對手協作行動的適當模型，然后采取行動破壞這種協作，也可以實現這一目標。

在一個理想的情況下，一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力（獲得新的能力或失去以前的能力）、團隊組成（例如，改變合作者）和局部目標的變化。然而，大多數最先進的（sota）方法受到經驗的限制（正如許多RL方法的情況一樣）。此外，在大多數模擬中，團隊的能力和組成通常是固定的，不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此，在選擇一種算法來指導旨在產生戰略機動的MAS的行為時，必須考慮新的或動態的事件、行為、資產和實體。

總之，目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1）數據要求，由于情況的新穎性，數據是有限的，數據集不足以產生準確的預測，或者數據以某種方式被污染（例如，嘈雜、臟亂或對手的改變），2）有限的計算資源，以及3）算法不能泛化到訓練期間遇到的情況之外（例如，不同的目標、改變的能力或修改的團隊組成），導致狹隘或脆弱的MAS解決方案。

在下一節中，我們將更詳細地討論RL的缺點，以闡明如何克服這些問題，為軍事防御MDO環境提供解決方案。為此，我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力，這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一，特別是因為這種任務可能需要大量的智能體來完成一個目標。此外，軍事任務可能涉及多個子任務，每個子任務都有自己的子目標，從而進一步復雜化了場景。在MDO中，預計一個子目標由無數復雜的戰略演習組成，這需要MAS的快速計算，以及使用最小計算資源（如在戰術邊緣計算）的最佳（或至少足夠）戰略。因此，一個可擴展的RL算法必須考慮到：1）環境和任務的復雜性；2）智能體（伙伴和對手）的數量，以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性（即智能體的狀態和行動空間的大小）可以指環境的狀態空間中可用的狀態數量，以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中，在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體（例如，擴展到MAS），其中狀態空間被放大以考慮到額外的智能體，而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的，因為連續的領域會使表格無法維持，而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源（如過多的計算機內存）來包含所有的狀態，在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反，一個解決方案是使用非參數函數近似器（例如，權重為參數的深度神經網絡）來近似整個狀態空間的值。然而，函數近似器必須是可微分的，這樣就可以計算出一個梯度，以提供參數調整的方向。

有兩種方法來訓練值函數近似器：1）增量方法和2）批量方法。增量方法使用隨機梯度，在梯度方向上調整近似器的參數，使估計值和目標值之間的誤差最小。然而，增量方法的樣本效率不高，因此不具備可擴展性。相比之下，批量處理方法從一組經驗中保存數據，并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處，即結果是已知的（例如，數據被標記），計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡（DQN）玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功，但如果不考慮額外智能體的加入（即非平穩性或部分可觀察性），單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比，策略學習方法依靠策略梯度（PG）的計算來明確優化策略，而不是間接依靠價值函數。與函數近似方法相比，PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效（即在復雜環境中可擴展）。在蒙特卡洛（MC）策略梯度（例如REINFORCE算法）中，實際回報（選擇行動）與一個分數函數相乘，以計算梯度。該梯度被用于策略調整（通過改變參數值）以找到最大的回報行動。MC策略梯度具有高方差，收斂速度慢，因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中，PG方程被修改為使用價值函數的近似值，而不是使用真實的行動-價值函數乘以分數（如REINFORCE算法）。這表明行為者按照評論者所指向的方向調整策略，以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法（即MC、時差-TD（0）和TD（λ））來完成。為了減少策略梯度的差異，可以使用一個優勢函數。優勢函數告訴我們，與一般的狀態值函數相比，一個行動比另一個行動（Q值）好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error，它是優勢函數的無偏樣本，評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是，MC（高方差）和TD方法可以與行為人一起使用，隨著時間的推移（即收集的經驗）修改策略。

由于MDO涉及軍事任務，RL算法必須有能力與許多其他智能體協調，以實現最佳的戰略機動，因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間（即許多智能體）和多領域環境的大量觀察能力。在接下來的章節中，我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法，其中狀態行動空間可以是連續的或離散的。在這一節中，討論了無模型算法的優勢和劣勢，以及它們如何與戰略機動相一致，從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡（DQN）

深度Q網絡（DQN）是一種單一的RL智能體算法，它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡，從高維輸入（連續圖像）中學習。

DQN算法是一種有效的樣本方法，因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大，可以使用相同的超參數進行訓練，玩六種不同的Atari游戲，其中智能體在其中三個游戲中的表現比人類專家更好。

然而，DQN的一個缺點是，在理論上不能保證訓練好的神經網絡實現穩定的Q值預測（即在不同的獨立模型中，訓練好的策略可能會有很大的差異）。

鑒于DQN本質上是一個單一的RL智能體模型，它應該不足以在MDO中進行戰略機動。在MDO中，多智能體RL算法可能更適合，因為智能體在執行時間內典型的分散化，允許智能體彼此獨立運作。此外，DQN的原始實現只利用了四個觀察序列來學習Q值，這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上，這是DQN在評估的三個Atari游戲（即Q*bert、Seaquest和Space Invaders）中與人類相比表現不好的主要原因。然而，存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體，它學習了一個Q網絡的集合，以提高采樣效率，并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法，以解決大的行動空間。帶有記憶類型的DQN（即循環神經網絡）也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境，這種方法就特別有用。另外，分布式DQN返回一個分布信息，可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途，但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術，而這是MDO中戰略機動的需要。此外，DQN在大多數情況下計算量太大，無法用于軍事相關環境。最后，DQN算法方法對未見過的例子（例如，伙伴的新行為或環境中出現的實體/障礙）缺乏足夠的適應性。

4.2 深度確定性策略梯度（DDPG）

在現實世界中，大多數常規任務涉及連續狀態和行動空間。然而，DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度（DDPG）方法。DDPG通過結合價值函數近似和確定性策略梯度（DPG），推進了DQN方法的進展。DDPG利用行為批判的方法，可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務（如車桿、靈巧的操縱、腿部運動或汽車駕駛）。

另一種使用深度神經網絡的方法是信任區域策略優化（TRPO）。這種方法直接構建一個隨機策略，而不需要演員-評論者模型（不要與環境模型混淆，這將使其成為一種基于模型的方法）。與TRPO類似，引導式策略搜索（GPS）不需要角色評論模型，而是使用軌跡引導的監督式策略學習以及一些額外的技術（例如，減少視覺特征的維度，在網絡的第一層增加機器人配置動態的信息）。因此，GPS的數據效率很高，如果需要的話，可以改編成DDPG。另一方面，PILCO首先學習一個概率模型，然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率；然而，它的計算量很大。此外，D4PG對DDPG算法提出了一些改進：分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級，以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看，DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法（即獨立學習者）。因此，DDPG算法不便于在多智能體場景中進行協作。因此，使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外，DDPG不具備處理基于角色的多目標任務的能力，而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度（MADDPG）

RL智能體互動對于戰略機動的人工智能系統至關重要，不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題，多智能體深度確定性策略梯度（MADDPG）算法擴展了一個演員評論家方法，這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練，并在測試期間部署分散的演員。一個評論者（每個智能體都有一個）接收每個智能體的策略，這允許開發具有潛在不同獎勵功能的依賴性策略（例如，MADDPG允許訓練具有相反獎勵功能的對抗性團隊）。相反，演員（即策略網絡）在訓練和測試期間只擁有本地知識。演員（通過訓練）在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是，對Q函數的輸入隨著環境中智能體數量的增加而增加（不可擴展）。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除，可能需要進行再訓練。在戰略機動中，智能體可能需要定期轉換角色或改變能力，這對MADDPG適應軍事領域構成了重大挑戰。此外，頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷，使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用，希望有一個強大的對手或智能體模型，以便使作戰時間最大化（即有足夠的時間來執行戰略機動）。

為解決其可擴展性問題，對MADDPG的一個潛在修改是形成智能體集群，為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下，可以推遲重新訓練的需要，因為從理論上講，一個智能體集群將有一套處理動態情況的可變能力。此外，這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而，問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務，并使最優分組策略的退化程度最小？

雖然MADDPG可以形成一組異質的多智能體策略，能夠完成不同的任務，但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加，策略梯度的方差會呈指數級增長。因此，這種方法不太適合MDO中的戰略機動，在這種情況下，必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法，該算法計算鄰近智能體Q值的均值估計，當智能體之間的鄰近互動變得復雜時，可能導致高誤差率。此外，進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合，使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功，可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是，反事實多智能體（COMA）方法對所有智能體使用一個集中的評論家，但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性，但它可能導致一套同質的策略，在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似，Minmax多智能體DDPG（M3DDPG）比MADDPG的原始版本增加了一項改進，允許智能體制定更穩健的策略來對抗對手（即具有對立獎勵結構的競爭游戲）。然而，M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法，有時需要利用常見的技術來操作輸入或輸出，如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中，離散的策略組件被用來計算連續的行動。從另一個角度來看，多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制，然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法，但這些算法方法沒有用連續信息進行訓練，這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的，其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值，而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體，仍需進行再訓練。然而，與MADDPG相比，它更具有可擴展性，因為單個Q值僅從局部觀察中學習，避免了通過學習因子化的Qtot來學習聯合行動值。但是，當有超過40個智能體時，這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性，已經提出了基于角色的算法RODE，其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動，RODE算法是非常有前途的，因為各組智能體可以被分配到不同的角色，其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為（對于盟友或甚至敵人）。然后，該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制，該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用，這可能會在未來的工作中進行研究。即使RODE是非常可擴展的，我們也不清楚當新的智能體將被添加到環境中時如何調整它；需要學習一個集中的策略以實現最佳協作。

與RODE算法相比，一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略，實驗表明它能夠擴展到1000多個智能體。如前所述，可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多，狀態空間越大。RODE是有限的，因為它使用一個集中的策略，當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法（即共享一個中央經驗重放緩沖器），其執行是分布式的（即每個智能體根據其本地觀察做出自己的控制決定），而不是來自中央控制器。由于這種分布式的方案，當智能體被添加或從系統中移除時，團隊不受影響，繼續執行他們的策略。

在可擴展性方面，訓練大型MAS（即許多智能體）是很困難的，而且已經表明，即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題，該方法允許在較小的智能體集合上訓練策略（例如，在目標追蹤場景中，四個智能體追蹤四個目標），并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整（即用1000個智能體測試和評估）。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化：它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看，這種提法是戰略機動的理想選擇，因為現場的智能體可能會在原地丟失或獲得，可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素，包括科技進步，美國的對手正在變得更加先進。在未來的MAS自主戰爭中，協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中，我們討論了一些最突出的RL算法，以發現訓練MAS的可行候選策略，這些MAS可以有效地進行戰略機動，從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法，并對最突出的RL算法進行了概述。研究發現，由于訓練和測試因素的不同，大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案，AIMM和EOT ERPs特別促成了研究，可以為協作的自主MAS提供一個路徑，可以克服與1）環境，2）對手戰術和能力，3）自身能力（即，獲得新的能力，失去以前的能力，或能力被改變），4）團隊組成（例如，增加、刪除或交換隊友），5）戰略團隊定位、進入、導航（機動）以支持部隊并壓倒對手，以及6）任務目標。最近，AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法，并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性，此外還評估了利用一系列集中訓練技術的新算法方法。

此外，還需要進行更多的調查，以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下，將完全自主的MAS送入高風險情況（即預期因果率高的情況）是可取的；然而，由于目前的技術限制，僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此，在未來的工作中，將進行研究以確定一套強有力的交戰方案。最后，這項工作將導致自主MAS的最終整合，以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容

AI與軍事 · 人與人工智能協作決策 · 人機交互 · 兵棋推演 · 人工智能 ·

2022 年 6 月 22 日

[付費5元查看完整內容]《人與人工智能協作決策在作戰任務規劃中的未來》美國陸軍作戰能力發展司令部-美國陸軍研究實驗室，2022最新論文（初譯版）

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本研究由美國陸軍研究實驗室贊助，根據合作協議號W911NF-21-2-0227完成。

?在日益復雜的軍事行動環境中，下一代兵棋推演平臺可以減少風險，降低作戰成本，并改善整體結果。基于具有多模態交互和可視化能力軟件平臺的新型人工智能（AI）兵棋推演方法，對于提供滿足當前和新興戰爭現實所需的決策靈活性和適應性至關重要。我們強調了未來作戰人-機器交互的三個發展領域：由人工智能引導的決策指導，高計算力下的決策過程，以及決策空間的真實呈現。這些領域的進展將使有效的人機協作決策得以發展，以滿足當今戰斗空間日益增長的規模和復雜性。

關鍵詞：決策、交互、兵棋推演、人工智能、增強/混合現實、可視化

1 引言

在傳統的兵棋推演中，指揮官利用一個共同的基于地圖的作戰地形，并在軍事決策過程（MDMP，方框1）中模擬各種因素的組合如何產生行動方案（COA）、可能的反擊行動、資源使用估計和預測結果（美國陸軍，1997年，2014年，2015年）。在幾天或幾周的時間里，MDMP過程導致了一套精煉的COAs，它對作戰環境做出了一定的假設，包括地形、天氣以及戰區資產的可用性和能力（即塑造支持主要作戰行動的活動）。

方框1. 軍事決策過程（MDMP）
MDMP是美國陸軍解決問題的理論方法，從接到任務開始，到生成作戰命令結束。MDMP被用作一種工具，幫助指揮人員審查眾多的友軍和敵軍的作戰行動。MDMP的7個步驟在規劃新任務、擴展行動和執行訓練演習所需的決策過程中灌輸徹底、清晰、合理的判斷、邏輯和專業知識（美陸軍，1997年，2015年）。
指揮官在接到任務后啟動了MDMP。在MDMP的第1步中，所有的工作人員和關鍵的任務參與者都被告知任務和待定的規劃要求，包括進行MDMP的可用時間量。確定進行任務分析所需的工具，并收集與任務和作戰區有關的文件。步驟2，執行任務分析，建立對任務的全面理解，包括關鍵的事實和假設，形成擬議的任務說明和任務分析簡報，為制定COA做準備。
MDMP的第3至第6步著重于制定COA以進行分析和比較。這些步驟包括：第3步，制定COA；第4步，COA分析（兵棋推演）；第5步，COA比較；第6步，COA批準。COA是對一個已確定的問題的潛在解決方案。每個COA都要使用篩選標準來檢查其有效性，如在既定的時間框架、空間和資源限制內完成任務。COA的選擇過程通常涉及到兵棋推演，它試圖在考慮到友軍力量和敵人能力的情況下，將行動的順序流程可視化，同時考慮到行動區域內平民的影響和要求（美陸軍，2014）。戰術模擬（兵棋推演）方法的好處是突出了作戰行動的優勢和劣勢。這往往是一個反復的過程，對作戰行動方案進行評估，然后根據需要進行修改，直到出現一個或多個具有最高成功概率的作戰行動方案來完成任務目標。
在一個具體的行動方案得到指揮部的批準后，MDMP的最后一步是制作行動指令，這是一份給下屬和鄰近單位的指令，旨在協調所有參與任務的組織的活動。這一步驟涉及到所有受命令傳播影響的組織之間的積極合作，并建立起對局勢的共同理解。

盡管MDMP幫助指揮官了解作戰環境和考慮作戰方法，但這個過程有很多局限性，如時間密集、假設僵化、跨場景訓練的機會有限，以及將人工智能（AI）指導納入決策過程的機會很少。傳統上，一項任務的成功與指揮部執行MDMP的能力直接相關。然而，鑒于當今多域作戰（MDO）的復雜性增加（Feickert，2021年），有大量的任務指揮系統和流程，與行動相關的所有活動的整合和同步變得越來越困難，甚至到了人為無法完成的地步。由于MDMP的缺陷而導致的規劃專業知識的缺乏，可能會導致不同步和不協調的行動，從而最終導致士兵的生命損失。

MDMP中沒有具體描述戰斗空間的可視化能力，但它顯然在決策過程中發揮著重要作用。最近，集成了先進可視化能力的新系統和新技術已經被開發出來，它們可以提高態勢感知，從而增強決策過程。美陸軍的例子包括Nett Warrior（Gilmore，2015），它使下馬戰士能夠直觀地看到附近的友軍和敵軍，同時根據當地的地形協同規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士，但它缺乏一個底層的人工智能引擎來提供決策幫助。戰斗空間可視化和交互平臺（BVI，前身為增強現實沙盤，ARES）是陸軍技術的另一個例子，它能夠為任務規劃提供分布式協作，具有從任意視角和廣泛選擇設備的共同作戰畫面的二維和三維可視化能力（Su等人，2021）。BVI架構的制定是為了拉入外部計算服務，如分析管道、模型和人工智能引擎。美陸軍研究實驗室正在努力將這些類型的服務納入BVI，包括用于加強決策支持的人工智能。

目前，MDMP并沒有將人工智能指導納入整體任務規劃方法中。美陸軍的自動規劃框架（APF）（Bailey，2017）開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策問題。指揮人員可以通過APF的數字規劃呈現、規劃創建和規劃監控工具，在任務規劃和COA開發期間獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展，為改進決策跟蹤和支持活動提供自動協助。盡管APF為MDMP引入了基本的自動化水平，但它缺乏Nett Warrior和BVI所提供的先進的可視化和用戶互動能力。

提供地面部隊自動化和用戶可視化能力的是美陸軍最知名的兵棋推演平臺--半自動化部隊（OneSAF），為計算機生成的地面部隊提供建模和模擬能力（PEO_STRI, 2022）。OneSAF提供了半自動和全自動的軍事實體（即士兵、坦克、直升機和綜合單位）的建模，在類似真實世界的戰斗空間中以不同的保真度來支持特定的應用和場景。OneSAF主要用于訓練，并與目前的任務指揮系統具有互操作性。它可以使用多分辨率的地形和詳細的實體相關數據庫來模擬廣泛的作戰環境。然而，OneSAF對地形和實體系統的高保真建模的優勢使得它的設置和運行成本很高。它受到老化系統的限制，而且眾所周知，士兵需要大量的培訓來學習如何操作模擬，使用起來很困難（Ballanco，2019）。OneSAF的復雜功能并不適合開發人工智能能力，以實現快速和敏捷的戰士-機器決策。

除了MDMP和上面提到的陸軍平臺外，最近將人工智能納入決策過程的工作包括一些方法（Goecks等人，2021a），在模擬人類決策過程方面取得了一些成功。一般來說，人工智能在決策變量有限的問題上取得了一些成功，如資源分配（Surdu等人，1999）、飛行模擬器（Drubin，2020）和更簡單的場景。正在進行的挑戰包括需要提高人工智能的能力，以解決有多個行為者、不完整和可能沖突的信息、不斷變化的單位行動和環境屬性的復雜決策，以及需要將這些決策的后果在許多空間和時間尺度和領域內可視化。

以下各節描述了對MDMP的潛在改進。"未來軍事決策過程所需的進步"一節概述了支持MDO決策的三個研究領域，并以圖表形式描述了這些研究領域與軍事理論決策方法之間的關系。"未來軍事決策過程所需的進步 "一節中的小節對每個研究領域進行了更深入的討論。"展望推進人-人工智能團隊決策的交互技術 "一節概述了未來的作戰人員-機器接口（WMI）的發展方向，重點是與決策有關的人-人工智能團隊的跨學科研究。

2 未來軍事決策過程所需的進步

軍事決策過程在支持MDO復雜決策方面的局限性，突出了在三個研究領域的改進需要。首先，有必要將人工智能產生的指導和輔助決策支持納入MDMP。這既包括進一步開發和整合人工智能到戰斗空間決策規劃，也包括進一步改善人工智能決策過程的可解釋性和透明度（Chen等人，2018）。第二，有必要在戰略層面以及戰術邊緣，盡可能地將決策分析與高性能計算（HPC）的力量結合起來。這將能夠利用HPC系統的力量來支持建模、分析和計算時間，同時整合和同步來自所有戰區領域的信息。最后，有必要利用先進的可視化技術，如混合現實技術，對決策空間進行更準確和互動表述。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染，而是需要可視化不同領域的決策是如何相互作用的，并利用混合現實技術來提高理解的吞吐量，并產生平面顯示不可能的洞察力。

除了MDMP之外，其他更廣泛適用的支持戰斗性問題解決的軍事理論包括：DOTMLPF[例如，學說、組織、訓練、物資、領導、人員和設施；（美陸軍，2018年）]，這是一個確定差距并為當前和未來作戰要求提出設計解決方案的框架；以及METT-TC[例如，任務、敵人、地形和天氣、部隊、可用時間和民事考慮；（美陸軍，2019年）]，這是一個結構化框架，用于捕捉任務相關因素的狀態，以便在軍事行動期間進行共享評估。這些理論定義了MDO戰場的信息背景，構成了應用于上述三個研究領域的軍事決策的核心基礎。如圖1所示，在為人類和人工智能指揮開發復雜軍事決策空間的新表述時，研究進展和MDO相關理論相互借鑒、相互啟發、相互加強（美陸軍，2010）。

圖1. 新型作戰人員-機器交互（WMIs）和人工智能輔助決策所需的三個研究發展領域，以支持和加強基本的MDO理論[右下圖來源：Lebsack（2021）]。

2.1 人工智能導向的決策指導

需要新的人工智能支持的WMI，以利用人工智能決策方面正在取得的進展，并為復雜的適應性決策的人工智能學習作出貢獻。在簡化的戰斗空間中測試人工智能決策輔助工具是開發過程中重要的第一步，也是將人工智能納入更成熟的戰斗空間平臺（即BVI、OneSAF）的前奏。開發用于決策輔助實驗的人工智能測試平臺可以在MDO中產生能力越來越強的潛在COA建議。圖2顯示了陸軍開發的兩個人工智能測試平臺的例子。

圖2. 兩個ARL人工智能測試平臺的例子。左邊：ARL Battlespace（Hare等人，2021）（ //github.com/USArmyResearchLab/ARL_Battlespace ）。右邊：ARL的Simple Yeho測試平臺。圖片由C. Hung制作。

人工智能測試平臺能夠開發出匯集所有領域信息的AI，并計算出人類和AI智能體的風險和預期回報。圖2的左側顯示了ARL戰斗空間測試平臺（Hare等人，2021年），它是從頭開始開發復雜決策的新型人工智能的理想場所。它對戰斗空間的抽象強調了軍隊相關場景下的核心推理原則，在這種情況下，用蜜罐進行網絡欺騙。較小的網格空間使人工智能的學習和發展能夠集中在不確定性下的復雜推理，有多個友好和敵對的agent。圖2的右側顯示了ARL的Simple Yeho測試平臺，它提供了將人工智能開發與更多真實世界場景中的默契推理結合起來的能力，有多個基于地形的海拔高度、視線范圍、障礙物、樹葉（隱蔽）、道路和城市區域。紅色陰影和黑色線條表示任務的起點和終點、左右邊界以及人工智能建議的路線。這種額外的真實性使其能夠與MDO理論相結合，包括DOTMLPF和METT-TC，并使人工智能與自然的、機會主義的士兵行為共同發展。這兩個人工智能測試平臺都可以擴展為傳統和沉浸式混合現實WMI開發平臺。

使用漸進式和可擴展的人工智能測試平臺，可以調查現有人工智能的幾個基本限制，特別是對于具有不確定性的復雜和適應性決策，以及人類和AI智能體的協作和對抗。對多智能體的協作和對抗性決策進行建模可能特別復雜，因為其遞歸性質，其他智能體是模型的一部分（Goldman，1973；Grüning和Krueger，2021），需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域，適當設計的交互界面和人工智能測試平臺的人機協作可以提供加速和更有效的決策。對于有效的團隊合作，新穎的WMI應該幫助作戰人員篩選復雜的信息，并幫助人工智能發現決策的隱含規則。下面，我們提供了關于人機協作如何有效的案例。

多域兵棋推演中需要的復雜決策是開發有效人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋、國際象棋、Minecraft和大富翁等游戲中的成功（Silver等人，2017；Goecks等人，2021b；Haliem等人，2021）是基于對世界現有狀態有完整了解的游戲（即 "開放 "游戲），而兵棋推演平臺通常包括關于作戰環境的不完整（如星際爭霸）、不確定或欺騙性信息（Vinyals等人，2019）。不確定性也可能來自變化的物理學或其他環境規則，正如在《憤怒的小鳥》中所探索的那樣（Gamage等人，2021）。由于世界狀態、不同行動者的狀態以及所采取的行動不確定性，知識的缺乏使得人工智能agent難以計算未來行動的風險回報情況（Cassenti和Kaplan，2021）。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力，而這是計算有效的博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒（Lavine，2019），即由于信息有限而選擇錯誤的選項，這種情況并不罕見，因為人類在制定有效探索隱藏信息的策略時，采用啟發式方法進行有效的選擇和預測（Gardner，2019）。為了幫助發展人工智能的隱性知識和探索能力，新型的WMI需要有效地解釋和展示決策景觀，以使作戰人員能夠快速和自然地瀏覽可能的選擇，同時使人工智能能夠在不施加認知負擔的情況下從人類的決策中機會主義地學習（Lance等人，2020）。這種機會主義學習可以包括：例如，凝視跟蹤，以捕捉吸引人類興趣和意圖的視覺區域和未標記的目標。它們還可以包括建立在自然的士兵選擇行為基礎上的行動者批評方法，以改善人工智能對人類專家在不確定、不完全信息和欺騙的情況下如何優先考慮某些選擇的學習，這取決于任務相關的背景。

開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息，特別是空間和網絡，因為這些領域的信息具有不同的時空尺度（Gil等人，2018）。對于網絡，決策的規模和速度可能比人類處理和理解的能力更快，需要人類的輸入來指導半自動化的決策，以及實施進攻和防御性欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖景，即可以解釋一小部分最優和接近最優的決策策略（例如，圖3中的決策樹）。這應該包括對關鍵agent在不確定情況下的未來狀態和風險回報情況的估計（Hare等人，2020），以使有效的博弈論決策能夠被共同開發和相互理解。

圖3. 在頂部，是BVI網絡戰術規劃器應用程序中友軍與敵軍戰爭場景的三維視圖。三維視圖提供了一個比二維視圖更真實的決策視角，例如，顯示友軍（藍色）和敵軍（紅色）機載預警系統（AEWs）和周圍地形的海拔。這使得快速審查可能的視線和相對于周圍地形的感應。下面是人工智能的導航決策樹，為人工智能計算的幾個關鍵選擇的風險/回報概況以及它們如何映射到地形上提供透明度。這種抽象的決策空間還可以整合非空間決策，例如網絡欺騙。虛線表示與友方AEW的通信聯系和對敵方AEW的可能干擾。圖片由C. Hung制作。

這些挑戰為有效的WMIs設計提供了參考。也就是說，我們需要有能力從不同的來源（包括從其他國家的決策輔助工具）提取信息，以及一個能夠承載整合這些信息的計算能力的架構，同時還要處理基礎的人工智能計算（用于學習和部署）。我們還需要共同開發一個界面和算法設計，以適時地利用人類和人工智能agent的優勢并減少其局限性。

2.2 高計算能力下的決策過程

在復雜的決策過程中，需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從積累的動態狀態空間的數據集中建立過去、現在和預測模型，需要利用HPC資源來產生分析性的見解，并在決策背景下創建有用的表述。

實施HPC分析工作流程的一種方法是使用持久性服務框架（PSF）。PSF是一個最近可用的分布式虛擬化解決方案，它可以通過一個基于網絡的前端實現對HPC服務的非傳統訪問，而不像傳統的HPC環境，計算節點在特定的時間段內以批處理模式分配給用戶。此外，PSF提供對數據、數據庫、容器化工具集和其他托管平臺的分布式連續訪問（Su等人，2021）。

在一個PSF方法的例子中，一個模擬引擎連接到PSF，用于記錄人類和人工智能做出的所有決定。這允許分析在任務規劃和COA開發過程中發生的決策行為，以及識別決策模式和戰略，以開發競爭性和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上，并使用消息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。

使用PSF方法并利用HPC資源，可以實施人工智能輔助決策機制，利用大數據攝取和分析，同時可供地理分布的用戶用于協作決策工作和 "永遠在線 "的個性化培訓和紅色團隊。連接到PSF托管服務器的各種混合現實顯示模式可以支持一系列作戰場景，從戰略層面的指揮和控制到作戰邊緣的更多移動戰術使用。

2.3 決策空間的真實呈現

用圖形表示各級行動的軍事決策戰略需要新的可視化方法，這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境（Dennison等人，2020；Hung等人，2020；Raglin等人，2020）。戰斗空間的視覺表現應該在技術上盡可能準確和逼真，但又保持在人類可以理解和解釋的認知水平（Kase等人，2020；Larkin等人，2020；Hung等人，2021）。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步，成本降低，硬件的可靠性和實用性顯著提高，混合二維和三維可視化方法現在已經成為可能。

由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力，可以為指揮人員提供理解復雜的兵棋推演狀態空間所需的洞察力（Su等人，2021）。當需要一個共享的戰斗空間表示時，可以通過在不同的可視化模式上實現多個協調的視圖來實現協作的戰略規劃模式，以根據分布式指揮人員的輸入進行互動更新。

BVI（Garneau等人，2018）平臺表示地理空間地形信息和地圖圖像，允許指揮人員建立和修改戰術任務規劃和COA。作為一個數據服務器，BVI將地形和作戰數據分發給支持多種可視化模式的客戶端應用程序，包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備（例如，HoloLens 2、Oculus Quest）。

例如，圖3（頂部）顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景（Wikipedia, 2021）。與MDMP期間經常使用的傳統2D地圖顯示相比，戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖，在BVI的網絡戰術計劃器（WTP）中，將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化（美國防部，2014）。可以想象，地理空間視角，如BVI提供的視角，支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間（圖3，底部）搭配，組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合，可以提供必要的廣度，以協調物理行動與網絡和其他非空間領域的行動，跨越多個時間尺度，并具有快速適應變化的任務目標的靈活性。

3 人-人工智能團隊決策的交互技術展望

人工智能和人-人工智能團隊的快速發展需要WMI同步發展。隨著新型人工智能對有價值的COA產生更好的預測，并能更好地處理復雜的決策，它們也必須利用人類的專業知識，學習如何處理具有高度不確定性、欺騙、隱性知識和博弈論的決策。相反，人工智能的推理必須既抽象又能與兵棋推演環境相聯系，以實現透明和信任，同時又不造成過度的認知負擔。基于三維混合現實的WMI可以利用和增強人類固有的三維認知和預測能力（Welchman等人，2005；Kamitani和Tong，2006；Kim等人，2014；Boyce等人，2019；Krokos等人，2019），如果設計得當，其交互將感覺自然，同時擴大顯示多個領域的信息的能力，同時使AI能夠適時地從用戶的決策中學習。

我們強調了三個關鍵的發展領域，即人工智能引導的決策指導，支持這種指導的計算基礎設施，以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想，以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘，以及更具體的兵棋推演問題，如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展，因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發，應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性，并為使用和故障排除提供清晰的文檔，以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞，同時提供靈活性和適應性，以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后，交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解，以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息，而是對世界進行預測和假設，以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外，人工智能決策輔助工具必須估計用戶的默契，使其能夠提供最相關的信息和最有希望的選擇，這些信息來自整個作戰領域。

結論

信息作戰和指揮與控制（C2）是美國陸軍可以向盟友和伙伴提供的兩種能力。在未來的作戰環境中，不僅要為動能作戰做準備，而且要為混合作戰和以信息為重點的戰爭做準備。這需要在復雜和默契推理的人工智能能力方面取得進展，在能夠提供持續訓練、分布式混合決策和大數據分析系統方面取得進展，以及在人與人工智能協作決策和機會主義學習方面取得進展，以實現人工智能的持續進步和人與人工智能的共同適應。這些進展中的每一項都需要跨學科的計劃性努力，以克服復雜的技術挑戰，創造新的決策原則、理論和理論方法，包括持續開發綜合測試平臺和技術，以實現政府、學術界和工業界的合作和協同發展。

付費5元查看完整內容

AI與軍事 · 多域作戰 · 任務式指揮 · 美國陸軍戰爭學院 · 報告 ·

2022 年 5 月 31 日

[付費5元查看完整內容]《多域作戰的任務指揮：美國陸軍戰爭學院學生綜合研究項目》技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

該項目支持美國陸軍戰爭學院保持一個公認的領導者，并在與美國陸軍和全球陸軍應用有關的戰略問題上創造寶貴的思想。該項目于2018年由美國陸軍訓練與理論司令部總部要求，描述一個新的或修改過的作戰框架，以使陸軍部隊和聯合部隊在多域作戰（MDO）中對同行競爭者成功實現可視化和任務指揮。

由此主要形成一個在2019學年進行的學生綜合研究項目，該項目涉及4名美國陸軍戰爭學院學生和4名教員，由John A. Bonin博士領導。該項目研究了MDO的概念，即它如何影響任務指揮的理念和指揮與控制職能的執行。向MDO的過渡改變了陸軍指揮官和參謀人員在競爭連續體中進行物理環境作戰和信息環境作戰的傳統觀點。

該項目以第一次世界大戰期間美國陸軍引進飛機為案例，研究將新領域納入軍隊的挑戰。該項目還提供了對MDO的概述和分析，以及它正在改變我們的戰斗方式以及軍隊的角色和責任。這些變化將使聯合部隊能夠更有效地進行連續作戰，特別是在武裝沖突之下的競爭中。

向MDO的過渡將需要新的流程，該項目調查了多領域同步周期如何能帶來好處。物質系統、聯合專業軍事教育、聯合和陸軍理論以及總部人員結構將需要改變，因為領導人及其工作人員將需要不同的技能來在這個新環境中運作。

報告總結

陸軍新興的多域作戰（MDO）概念對最近修訂的陸軍任務指揮理論提出了新的挑戰。美國已經有75年沒有與同行競爭者作戰了；因此，個別軍種在概念上側重于打自己的對稱領域戰爭，而較少注意在其他領域支持其他軍種。隨著技術的變化和國防預算的縮減，各軍種正在迅速失去通過純粹的存在和數量來控制其領域的能力和實力。因此，各軍種需要從不同領域獲得不對稱的優勢，以便在其領域作戰中取得成功。

陸軍的指揮和控制方法是任務指揮。這種方法要求指揮官有能力理解、可視化、溝通和評估關鍵決策、風險以及關鍵情報和信息要求。多域作戰的任務指揮將要求指揮官在多個領域以及指揮梯隊之間和內部保持單領域的卓越和知識。同樣重要的是，指揮官必須創造、確保并維持對其自身決策過程的共同認識。風險分析和關鍵的情報和信息需求過程是必要的，以確保指揮官能夠設定條件，賦予下屬領導權力，并在多個領域的范圍內影響分布式行動。因此，為了滿足這些新的要求，需要有新的框架來理解和調整多領域的指揮關系和人員結構。

這些新的框架將需要一個多領域的同步化進程，為指揮官提供一個確定新需求并為其提供資源的方法。與使用軍事決策程序或聯合規劃程序的傳統作戰程序不同，這兩種程序都側重于單一領域的規劃，而多領域同步程序則是在整個規劃和執行周期中，從指揮官和參謀部之間的持續合作中演變而來，跨越所有領域和環境。這種演變創造了對關鍵決策、相關風險以及指揮官認為至關重要的關鍵情報和信息要求的共同理解。

這項研究支持美國陸軍戰爭學院繼續保持在創造與陸軍和全球陸軍應用相關戰略問題寶貴思想方面的公認領導地位。該研究考察了MDO概念的應用，即它如何影響任務指揮的理念以及指揮和控制功能的執行。第一次世界大戰期間飛機的引入提供了一個與當前情況相似的背景，因為1918年的陸軍在如何為大規模的地面行動提供最佳的指揮和控制，以對抗同行的對手，以及如何整合空中對陸地的支持。當陸軍試圖了解如何在多個領域進行整合時，從約翰-J-潘興將軍對飛機的整合中得到的啟示可以說明問題。威廉-米切爾在戰時和戰后的角色說明了我們在試圖執行MDO時可能面臨的一些挑戰，例如在未來大規模地面作戰行動中保衛網絡和空間領域。

對MDO的概述和分析將提供陸軍對該概念的定義，并描述陸軍在競爭連續體中的作用。MDO概念將需要新的組織和人員框架來在沖突連續體的所有方面實施MDO。陸軍不能保持一個靜態的組織；陸軍必須既能在陸地領域贏得武裝戰斗，又能幫助塑造競爭以防止未來的沖突。

武裝沖突以下的行動歷來都是聯合部隊和陸軍的斗爭。陸軍在戰斗中指揮和控制的任務指揮方法將不足以組織在武裝沖突以下對對手的日常競爭。陸軍在競爭期間為聯合部隊執行重要的任務，特別是在信息環境中，這些任務在MDO下將會擴大。

目前的作戰流程專注于單一領域，對于支持特定領域以外的功能適用性有限。我們必須有新的流程，允許所有領域的資產同步，以優化我們的效率，同時將這些資產的風險降到最低。盡管適用于所有級別的指揮部，但擬議的流程主要集中在高級行動和戰略層面所需的規劃和數據收集。

從單一領域到多領域的重點變化，使得聯合部隊和陸軍的理論必須進行修訂和更新。聯合專業軍事教育課程和聯合學說將需要進行調整，以教導下一代領導人如何跨域整合。僅僅了解其他部門是不夠的；指揮官和參謀人員需要了解其他領域的能力如何支持他們的工作，以及他們在支持其他領域方面的要求是什么。長期以來，聯合部隊只是名義上的聯合，每個領域都在為贏得自己的戰斗而戰斗。MDO概念使聯合部隊能夠優化其有限的資源，既能應對危機，又能在最好的情況下防止競爭中的危機發生。

表3-1. 陸戰、空戰、海戰和信息戰的特點