大國競爭中快速變化的技術和近乎同等的對手正在極大地改變未來的戰場,人工智能和自主系統正在成為小單位機動的主要組成部分。超能力作戰員系統(HEO)旨在讓作戰(操作)員與自主系統對接,而不增加用戶的認知負荷,以實現成功的人機互動,提高作戰員的生存能力和殺傷力。然而,為了使HEO獲得成功,所有的技術組件都必須凝聚在一個強大的人機交互(HMI)周圍,并且傳感器、武器、計算和無線電系統的架構是為實際使用情況下的人類作戰員設計的。這個頂點項目的目標是強調以 HMI 為中心的設計作為 HEO 系統關鍵支柱的重要性,并警告不要在未徹底考慮作戰員在實際作戰中如何使用技術的情況下實施技術。過分關注開發HEO技術而不充分注意最終用戶如何采用這種創新技術,會造成技術能力和人的能力的差距,從而導致用戶的認知過載,浪費開發和采購資源。
作戰員在未來戰場上的角色將與今天有很大的不同。快速變化的、強大的技術意味著更多的無人系統在作戰員的控制下將是第一個突破口,而傳感器將把無線電通訊轉化為三維音頻耳機饋送,以提供精確的位置數據。大國競爭中的近鄰對手也將擁有類似的技術和有效利用它們的訓練。美國的軍事優勢將依賴于其在理論和組織上將人工智能和自動化系統技術整合到更廣泛的常規部隊和盟軍中,并跨越多個領域,以利用龐大的信息收集網絡。為了防止認知過載給最終用戶帶來負擔,軍隊必須確保數據是可理解的,可見的,最重要的是以可靠和直觀的人機交互(HMI)連接。采用與人工智能和自主系統的早期整合,定制用戶界面設計,并進行適當的培訓,將建立操作者對系統提供的信息的顯著性的信任。
超能力作戰員(HEO)系統旨在讓作戰員與自主系統對接,而不增加用戶的認知負荷,以實現成功的人機互動,提高作戰員的生存能力和殺傷力。HEO的目標是確保在正確的時間向正確的人提供正確的信息,以確保他們能更有效地工作。 HEO的概念是從現已停止的戰術突擊輕型作戰套裝(TALOS)項目演變而來的--這是一種動力裝甲外骨骼套裝,它為作戰員提供了增強現實的態勢感知。HEO放棄了外骨骼的概念,而是整合了強大的傳感、處理和增強現實技術,使作戰員在從反恐到機動行動的一系列任務類型中獲得能力。
本項目的目標是強調以人機交互為中心的設計的重要性,作為HEO系統的關鍵支柱,并確保組織變革允許作戰員接受適當的培訓,以建立對人工智能(AI)和無人自主系統(UAS)的信任和熟練程度。為了使超能力作戰員的概念獲得成功,所有的技術組件必須凝聚在一個強大的人機交互(HMI)架構上,該架構將所有的傳感器輸入、武器和無線電系統與無縫計算聯系起來,為人類作戰員提供最大的態勢感知,同時減少他們的認知過載。此外,通過性能和神經生理學數據識別認知過載,以提高作戰員的認知優勢,然后單獨調整訓練,是創造組織變化的開始,這將優化個人對戰場的影響。
高空作業系統的設計沒有適當考慮人類的認知局限性和優化人類任務和決策能力的最佳設計特征。這就造成了技術能力和人類能力的差距,會導致用戶的認知過載,浪費開發和采購資源。本報告旨在填補這一空白,重點關注人工智能用于小單位機動(AISUM)的獨特需求和采用創新的挑戰。
本報告通過六個關鍵的視角來研究以人機交互為中心的設計的重要性:
定義HEO的主要元素
AISUM的具體需求
神經科學中認知負荷的性質
良好的用戶體驗和用戶交互(UX/UI)的關鍵因素
通過社會技術系統(STS)對人類行為和互動的分析
創新采用的挑戰和機遇
圖1. 項目可視化
HEO通過整合傳感技術、算法和處理技術、通信技術和系統級技術,利用HMI為作戰員提供可操作的智能和精確的信息。這些技術要求反過來又推動了使能技術--應用創新,促進用戶能力的快速和徹底改變。
隨著AI SUM進行更強大的任務,人類控制機器的能力必須越來越依賴于強大的自主性和人工智能來減少認知負擔和操作機器所需的團隊規模。
通過對人工智能自動化系統進行適當的培訓來管理認知負荷,將有助于作戰員獲得對其系統的信任。此外,在培訓中應使用認知測量工具,以確定并糾正個人認知負荷過重的情況。對每一種特定情況的培訓應根據在這種先進的教學方法中發現的作戰員的優勢和劣勢進行個性化。例如,提供給作戰員的數據的重要性可以通過聽覺、視覺、觸覺和動覺的方法進行調整,以防止個人的認知負擔過重。最后,通過基于個人認知評估的定制系統來改進人機界面設計,將有助于每個人感知和接受符合其先天優勢和劣勢的信息。
用戶體驗/用戶界面設計是人機團隊中的一個重要的關鍵;繁瑣的用戶界面將作戰員從戰場上移開,同時降低了無人機群的效用。為了提高創新的采用率,用戶界面/用戶體驗必須在整個開發過程中得到突出和強調。
社會技術系統思維發現,有效的工作和工作流程是那些通過平衡作戰員的內在需求和操作對技術效率的需求來考慮這種技術和人類需求的互動。
創新的采用涉及到個人和集體層面的獨立變量,包括組織中領導者的特點、內部結構的特點和組織的外部特點。美國防部的任務和系統的規模和復雜性給決策帶來了摩擦和延遲,增加了所需的協調、規則、條例和其他機制的額外層次,這些機制本身就阻礙了創新的步伐。
USSOCOM的HEO概念和NSW的AISUM必須優化用戶體驗/用戶界面,以減輕認知和信息過載。
這不僅需要開發技術來完成,還需要確保SOCOM及其下屬司令部實施正確的創新采用和社會技術方法,以成功實現HEO的概念。
在主要武器系統項目中不考慮人類用戶,會導致影響作戰員生存能力的嚴重問題,更不用說不必要的重新設計、延遲和額外的財務成本。
特種作戰部隊社區必須優先考慮使用人工智能和自動化系統的早期培訓,以建立作戰員對所提供信息的重要性的信任,這樣作戰員就可以減少監控無人系統所需的認知努力。
軍方應投資于神經生理學測量設備,該設備可在動態的全任務簡介(FMP)場景中識別和量化實時認知過載,以減輕認知過載對戰斗中作戰員的不利影響。
重新關注保護部隊和家庭(POTFF),強調可穿戴技術對實現個人神經健康--或認知、情感和身體健康的平衡的重要性。隨著軍隊中保護部隊和家庭倡議的繼續,利用新興可穿戴設備收集的數據進行持續的身體和心理健康監測應該被投入,成為個人健康和神經健康的日常組成部分。
在高度競爭的空域中,反空防行動對人的生命和稀缺物質資源構成了巨大的風險,因此希望減少人員遭受生命損失的風險。因此,在爭奪空中優勢的過程中,用一群低成本的無人駕駛系統取代人類駕駛的空中平臺是一個備受關注的領域。然而,目前還沒有關于蜂群作戰的理論或戰術的最佳實踐。這篇論文記錄了在認知智能體的控制下,利用強化學習方法,為無人駕駛飛行器發現反空防衛戰術而進行的系統性框架研究。傳統上,反空防衛任務的有效性是通過使用具有高數量、低雷達截面、高速度、低高度和/或電子攻擊組合的武器來實現。在沒有任何這些力量倍增器的情況下,可以利用合作性的蜂群戰術來實現任務的有效性。與其他更有約束性的基于規則的游戲相比,這一領域呈現出高度復雜的狀態-行動空間,在這些游戲中,人工智能agent已經成功地學習了游戲策略。本研究采取的方法是開發高度語義化的觀察和行動功能,將認知agent行為功能與游戲環境對接,通過重復游戲進行訓練。對認知agent的觀察和行動功能的各種設計進行了開發和分析,開發的框架被用來促進agent的強化學習以及評估任務的有效性。所提出的框架被證明能夠產生高效的認知agent,學習支持蜂群的戰術行為,使任務效率最大化,并利用傳統的優化,而非認知agent無法做到這一點。
本章介紹了空中優勢、防空的概念,并討論了現代空軍用來擊敗現代防空網絡的傳統和現代方法。然后闡述了研究的主要假設,接著討論了本論文其他部分的組織。
美國空軍(USAF)的主要任務目標是實現空中優勢,作為所有其他聯合戰斗行動的先導[1]。美國聯合部隊將空中優勢定義為[2] :
在被防衛的空域實現空中優勢所產生的沖突對人員的生命帶來了巨大的風險,以及昂貴的物質資源損失的風險。
壓制(SEAD)或摧毀(DEAD)敵方防空是進攻性反空作戰,試圖通過破壞性(DEAD)或干擾性(SEAD)手段,使敵方地表防空系統失效、被摧毀或暫時退化,以使聯合部隊能夠無爭議地進入受控空域。除了針對AD的傳感器和武器外,DEAD任務通常還針對高價值的固定地點的地面資產,如[2] 。
1)機場和作戰基地
a) 飛機
b) 跑道
c) 空中交通管制
d) 機庫
e) 燃料儲存
f) 庇護所和人員設施
g) 維修設施
a) 預警(EW)系統
b) 情報收集系統
c) 通信基礎設施
a) 發射設施
b) 儲存設施
a) 發電和配電
b) 鐵路和鐵路終端
c) 港口和海運碼頭
敵方的防空系統對試圖在有爭議的空域,對實現空中優勢的空降部隊提出了實質性的挑戰。敵方綜合防空系統(IADS)的防衛性反空任務是摧毀、破壞或抵消空中和導彈攻擊、情報、監視和偵察收集,或其他未經授權的對防衛空域的滲透。現代IADS已經變得越來越復雜,在組織、復雜性和操作程序方面可以有很大的不同。現代地對空導彈(SAM)系統在射程和能力方面都得到了極大的提高,并對美國部隊構成了嚴重的威脅。遠程薩姆導彈通常部署在高價值資產附近,以提供點防御覆蓋,同時也有效地拒絕進入廣泛的空域。
反坦克元素的分布、分層和相互連接的性質允許采取深度防御戰略,允許進行多次交戰以增加成功的概率。許多對手采用集中的AD活動的C2,而其他對手可能采用分散的系統,其中多個節點有必要的冗余來指揮部分或整個IADS。數據基礎設施包括無線電、固定電話(電纜/光纖)、微波、蜂窩電話、衛星和互聯網系統[2]。
圖1.1顯示了一個概念性的IADS布局,其中幾個遠程防空導彈(LRS)站點被部署在兩個高價值的受保護資產(PA)的前方,以形成一個受保護的正面。LRS站點由兩個預警雷達和指揮、控制和通信(C3)站點支持,這些站點提供了對防御空域的綜合態勢感知。此外,每個PA都有一個LRS站點,提供點狀防御。圖中的橙色楔形代表了每個LRS的武器交戰區(WEZ)。
圖1.1: 國際防空系統的概念布局
顯然,本例中的防空系統是為了防御預計來自保護前線東南部某處的攻擊而布置的。
成功壓制敵方的防空系統可以通過多種方式實現。干擾通信系統和傳感器可以提供短期的局部壓制,如果足夠的話,或者作為一種臨時措施來實現所需的高階間接效果。破壞C3或EW資源,或迫使敵方反坦克部隊自主行動,有時可以充分降低對友軍的威脅程度,以獲得所需的空中優勢水平。然而,通常情況下,如果一個反坦克基地的自主行動能力繼續對友軍構成重大威脅,那么它本身就必須成為摧毀目標[3]。
鑒于IADS的相互聯系和分層性質,DEAD任務需要一個作戰概念(CONOPS),以解決在整個有爭議的空域的不同點上具有不同能力的防御性武器。很少有單一的故障點可供利用。事實上,IADS的設計是隨著AD元件由于破壞、性能下降或彈藥耗盡而被關閉而優雅地退化。事實上,反坦克部隊包含先進的技術武器和為防御性反空襲任務而優化的傳感器,并由各級C2的人類決策來支持,這意味著反空襲任務可以以相當難以預測的方式展開。這些因素,再加上人命的高風險和稀缺的物質資源,使得在實現空中優勢的沖突中,減少友軍人員和高成本空中平臺面臨的損耗風險是可取的。因此,在爭奪空中優勢的競賽中,最好是用低成本的無人系統取代人類操作昂貴的載人空中平臺[4] 。
與傳統的機載打擊包相比,無人機群呈現出一系列獨特的特征,使其能夠以不同的方式執行DEAD任務。首先,如果蜂群是由大量的單位組成,它可以實現更大的幾何多樣性。蜂群的規模也允許戰術上的多樣性。蜂群對損耗也很強大:雖然打擊包中單個有人平臺的損失可能會導致人的生命損失,但它也經常導致嚴重的損害。首先,如果蜂群由大量的單位組成,它可以實現更大的幾何多樣性。蜂群的規模也允許戰術上的多樣性。蜂群對損耗也很強大:雖然打擊包中單個載人平臺的損失可能導致人命損失,但它也經常導致任務結果受到嚴重影響。一個無人機群可以通過替換角色、調整戰術和調整目標來適應單個單位的損失。此外,由于蜂群的性質,由大量單位組成的蜂群更能適應不斷變化的條件:可用于執行行動的單位數量越多,可用于實現有利解決方案的自由變量數量就越多。
然而,由大量無人機組成的蜂群將很難由人類操作員協調和控制,除非每個人都由人類操作員單獨遠程駕駛。即使如此,操作者可用的數據的延遲和質量可能不足以完全實現最佳的合作行為,以支持動態DEAD任務。將人類飛行員與遠程控制的無人機裝置聯系起來,大大增加了該裝置的成本,因此也增加了整個任務的成本。一個(半)自主的蜂群的一大優勢是,生產和運營成本可能遠遠低于遙控無人機蜂群。因此,至少在某種程度上,無人機群將從某種類型的自主行為中大大受益。
蜂群中的每個無人機都有可能根據自己從環境中觀察到的信息以及蜂群中其他成員與它共享的信息,執行自主行動。為無人機群自主性開發行為算法的問題,很自然地被歸入多Agent學習領域,特別是合作多Agent學習。文獻中已經考慮了幾種技術來實現合作式多代理學習:團隊學習、混合團隊學習和并發學習[5]。基于代理的建模(ABM)是一種通過模擬相互作用的代理來理解系統的一般方法。
無人機群應用于DEAD任務問題的復雜、動態性質,肯定會導致多Agent系統中眾所周知的 "涌現的復雜性 "現象。這指的是這樣一個概念:隨著大量的Agent相互作用,特別是沖突雙方的Agent,每個團隊的聯合行為都會令人吃驚[5]。本研究沒有將其視為消極的副作用,而是表明這種現象導致了蜂群Agent行為的新穎性和信息量,特別是由于在DEAD任務領域中還沒有關于無人機蜂群作戰CONOPS的理論或戰術最佳實踐。
除去隱身、電子攻擊、遠距離武器和嚴重不對稱的數量等昂貴的特征,無人機群能夠用來對付IADS的主要武器是它能夠在整個有爭議的空域中動態地擺出其各種成分,采用的戰術主要是調節攻擊時機、節奏和幾何表現。
本研究的假設是,通過使用ABM,可以通過機器學習(ML)發現無人機群代理行為的新型合作行為,產生一種認知Agent,即
1)在DEAD領域展示任務有效性(ME)。
2)等同于或超過由更多單位組成的 "啞巴"群體的有效性,例如一大排常規巡航導彈的有效性
3)對人類控制的對抗性IADS有效
一旦發現無人機群Agent的行為,顯示出對由算法控制的Agent組成的IADS成功執行DEAD任務,將通過實時戰略游戲(RTSG)對人類控制的IADS測試相同的蜂群Agent。這將允許對潛在的微妙的蜂群Agent策略進行定性,并評估蜂群Agent適應不同和變化的IADS防御策略的能力。
對行為學習的ABM的一個重要批評是,行為的學習是使用不能代表現實世界效果的模擬,也就是說,如果模擬環境走了太多的捷徑或做了簡化或不正確的假設,那么學到的行為就不會有現實世界的意義[6]。本研究的一個目標是在無人機DEAD領域開發適用于現實世界的CONOPS,因此對這一批評意見相當重視。為了克服這一潛在的缺陷,ABM學習的模擬環境將采取RTSG的形式。這為無人機群學習行為的結果提供了一個重要的檢查,原因有幾個。
1)基于物理學的DEAD任務模擬具有很高的保真度
a)無人機飛行動力學、飛行持久性、對各種目標的殺傷概率
b)AD傳感器探測、跟蹤、測量分辨率、信息共享
c)AD導彈攔截器飛行動力學、對無人機的殺傷概率
實時戰略格式強制執行人類決策的及時性,這是問題領域的一個關鍵特征。
每個游戲環節都會捕獲非常豐富的狀態數據集
RTSG的性質也帶來了各種挑戰,例如取消了傳統的回合制游戲。這意味著代理人的決策必須實時發生,從一組不斷變化的環境輸入數據中工作。
本論文分為13章和5個附錄。
第2章討論了任務有效性的概念,以及預測空中飛行器對由先進防空網絡防御的一組地面目標進行大規模突襲結果的分析方法。
第3章描述了為進行這項研究而采取的基于agent的模擬方法。
第4章記錄了用于訓練認知群agent的方法,描述了環境、agent和實體的模擬,并討論了有關基于agent的機器學習和游戲方法的現有文獻。
第5章描述了用于在強化學習過程中提供獎勵的目標函數的設計背景和發展。
第6章描述了用于蜂群單元的運動學模型。
第7章描述了用于防空傳感器和武器的物理學模型。
第8章描述了基本的非認知性蜂群agent的設計,這些agent被用來了解針對各種防空agent的基線任務有效性。
第9章描述了基本防空agent邏輯的設計,這些agent是認知蜂群agent在游戲訓練課程中競爭的對手。
第10章記錄了通過蒙特卡洛分析編制的基本非認知型蜂群agent的統計任務有效性。
第11章記錄了本研究中探索的各種實驗性認知蜂群agent的設計。
第12章記錄了對選定的認知蜂群agent學到的高效戰術的分析和評估。
第13章是論文的結論,總結了主要和次要的發現,并提出了繼續這項工作可能關注的領域。
在面對同行競爭對手的遠程精確火力威脅時,已經提出了很多關于重新加強西方空中優勢的新作戰概念。大多數專家主張采用更加綜合的軍隊方法,以高節奏的方式將多種軍事困境強加給對手。基于網絡協作的有人和無人資產將重新獲得戰斗力和機動能力。這樣一來,對手將被迫根據不確定的選擇做出決策,從而危及其行動結果。這樣一種新模式涉及多域作戰(MDO)概念。
多域作戰可以被描述為在一個領域內利用來自所有領域的傳感器和效應器產生軍事效果的能力,以及將指揮和控制(C2)下方給盡可能低的級別。倡導平臺整合和C2鏈中的輔助性,構成了重新加強部隊靈活性、復原力和反應力的基線。戰區的聯合部隊指揮官(JFC)將作為MDO的協調者。他們將有能力在戰術指揮官之間分配傳感器和效應器以執行專門的任務,在所有領域之間同步效果,并根據需要將任務的控制權下放到戰術邊緣。
這可以通過一個被稱為多域作戰云(MDCC)的包容信息技術和通信(IT & COM)的生態系統實現,形成一個由跨域的可操作傳感器、效應器和C2節點組成的作戰網絡。利用北約的C3分類法,MDCC將提供一種手段,以實現和加強北約國家和合作伙伴的互操作性,從而提高作戰效率。
下文將通過2040年的一個虛構的作戰場景來說明整合和輔助的原則,并強調其在作戰角度和MDCC功能要求方面的結果。
虛構的作戰場景從"空軍保護"開始,在一個國家對其少數種族進行了令人無法接受的突襲之后,隨后轉變為空中前沿基地作戰(A2BO)。聯合國(UN)授權北約進行一場軍事行動。北約部隊包括一個擁有新一代戰斗機(NGFs)和遠程航母(RCs)的下一代武器系統(NGWS)中隊,一些增強型傳統戰斗機,一個C2機載平臺,加上光學、雷達和通信衛星群,油罐車,網絡資產和地面特種部隊。一個帶有兩棲部隊的航母戰斗群也加入了該作戰區。
關于空軍保護,目標是防止任何空襲和對少數民族聚集地的騷擾進行反擊。在這個階段,聯合部隊司令部決定將空軍指定為受援部分,受援部分是特種部隊和海軍。因此,聯合部隊空軍部分指揮官(JFACC)負責戰術層面上所有空中平臺的指揮。
為了應對襲擊,JFACC需要一個由多領域傳感器輸入(空中、陸地、太空和網絡)建立的完全認可的畫面。探測特定社交網絡上的公眾騷動,結合特種部隊和天基資產的實時情報監視偵察(ISR),就可以從NGWS在動亂地區上空迅速展示武力。此外,任何支援該國家并呼吁對少數種族實施暴力的社交網絡都將受到網絡反擊,使其無法運作。
在行動的這一階段,MDCC是基于共享的開放式IT和COM架構,將所有可用的傳感器互聯起來形成包容性的助推器。它正在提供一個由實時ISR收集和過去情報融合形成的共同畫面。這樣一來,MDCC提供了一個高水平的態勢感知能力,以便根據JFC的指令,從JFACC到未來作戰航空系統(FCAS)任務指揮官層面,可以適當地開發和提出軍事行動選擇。
該突襲國家向少數種族聚集地發射了幾枚地對地中程導彈,造成了人員傷亡,局勢迅速惡化。此外,該國家啟動了他們所有的綜合防空系統(IADS),特別是遠程導彈。根據新的聯合國決議,北約立即決定改變其軍事態勢。聯盟下令破壞該國家的綜合防空系統,同時確保北約的戰略主動權,以便在以后需要時進行兩棲攻擊。
總體目標是堅定地應對襲擊,同時保持對升級態勢的控制。JFC收到來自戰略層面的指令,進行空中前沿基地作戰(A2BO),以消除該國家的空軍基地,阻礙其奪取少數種族聚集地控制權的 "既成事實"戰略。這些A2BO的目的是擴大空軍的行動選擇,同時減輕所有航空資產在脆弱作戰基地的風險。A2BO還必須提供更大的靈活性和超越該國家行動的能力。在戰斗附近,分散的空中作業點(AOL)可能有助于空中打擊,但也將有助于對方反介入空中阻斷(A2/AD)。
在從JFC分配額外的資產后,JFACC現在負責用地面、海基NGWS和來自防御與干預護衛艦(FDI)的巡航導彈對該國家空軍基地進行交戰。然而,根據局勢演變和對航母戰斗群可能出現的突發威脅,JFC在JFACC和聯合部隊海上組成部分指揮官(JFMCC)之間保持NGWS和FDI的反應性和動態重新分配。因此,JFMCC在與JFC立即同步后,將能夠向JFACC提出實時空中任務指令(ATO)或空域控制指令(ACO)的變更要求。
因此,這些由北約領導的持久前線空軍必須能夠使用彈性的、低特征的、低維護的、大量的有人和無人駕駛航空資產進行防御性和進攻性反空作戰。其目的是通過建立更加分散的、有彈性的和難以定位的AOL,形成針對A2/AD能力的效果,而不存在力量集中的相關脆弱性。這支部隊包括NGFs、各種RCs(包括傳感器和效應器)、增強型傳統戰斗機和空中戰術運輸機,作為戰區內武器、無人平臺、燃料和后勤支持的運輸工具,所有這些都通過動態利益共同體運作。根據AOL和NGF之間的通信狀態,特定的 "多域戰術功能 "將被委托給駕駛艙,以允許FCAS任務指揮官承擔 "動態目標 "和 "時間敏感ISR "的控制權。由于戰區的延伸,NGF加上衛星群將從擴展的態勢感知中受益,并在需要時承擔更廣泛的控制責任,與C2機載平臺上的 "前線控制小組 "已經承擔的責任并列。
將A2BO與JFACC和JFMCC的網絡結合起來,可以在MDCC內實現 "網絡可選系統"。這種 "網絡可選系統 "在可用時利用 "集中式網絡",并在與上級當局隔絕時在戰術邊緣的可用平臺中形成 "機會網絡"。在這里,MDCC是這種復雜MDO的助推器。一方面,MDCC整合了從JFC到戰術指揮官的所有決策過程(從計劃到評估再到執行),包括部隊分配和效果同步,為跨領域的動態支持/支援框架鋪平了道路。另一方面,它提供了所有指揮官之間的輔助性,允許在盡可能低的級別上授權C2,如AOL和NGF。
在成功的A2BO之后,北約希望利用這一情況,并指揮開展兩棲行動,以充分保障少數種族的安全。在這次行動中,JFMCC被指定為被支持的司令部,空軍和特種部隊則是被支持的司令部。所有平臺都有可能在海軍的授權下用于兩棲作戰。MDCC將使JFMCC能夠將所有領域的傳感器和平臺整合到大型海軍計劃演習艦隊中,并在需要時將C2授權給最佳海軍平臺指揮官。
這個虛構的場景說明了通過所有決策過程進行整合和輔助的必要性。這樣做有助于形成一個可靠的技術環境,以高作戰節奏產生全球戰斗力,整合所有領域的機動性,而不存在力量集中的弱點,并因此給對手帶來多種困境。這種技術環境是由MDCC提供的,它可以被描述為一個 "定制網絡系統",包括從后方到邊緣的所有可用平臺。因此,如前所述,MDCC是動態分配部隊和分配C2的MDO助推器。
作為新技術的設計者和提供者,工業界隨時準備支持武裝部隊塑造MDO作為一種新的作戰模式。考慮到利害關系,兩者之間強有力的伙伴關系對于確保徹底掌握需求和設計MDCC而不過早選擇某些技術方案至關重要,因為這將阻礙未來的MDO。在作戰概念和技術解決方案方面,這一旅程仍處于早期階段。只有攜手合作才能應對未來的挑戰。
Brigadier General準將(退役)(法國空軍)1987年畢業于法國空軍學院,2003年畢業于美國空戰學院。他有3000個飛行小時(美洲虎、幻影2000D),執行過122次戰爭任務,并作為總部官員擁有C2專業知識。他于2021年加入空中客車公司,擔任FCAS多領域行動的高級運營顧問。
Thomas Vin?otte上校(退役)(法國空軍)于1987年畢業于法國空軍戰斗機飛行員,2003年畢業于戰爭學院。他有超過3300個飛行小時(美洲虎、幻影F1CR、幻影2000 RDI和幻影2000-5),執行了83次戰爭任務,包括一次彈射,并作為總部官員擁有C2專業知識。他于2019年加入空中客車公司,擔任FCAS高級運營顧問。
Laurent le Quement于1996年畢業于阿斯頓大學。在2010年加入空中客車公司的發射器部門之前,他曾在汽車和轉型咨詢部門工作。在2018年成為FCAS的營銷主管之前,他在業務發展和創新方面擔任過許多職位
美國國防部和空軍領導人認為,人工智能(AI)是一種改變游戲規則的技術,將幫助空軍情報、監視和偵察(ISR)體系克服大國沖突所需的情報分析速度和規模方面的長期挑戰。傳感網格概念(最近更名為傳感器集成)被作為未來框架引入,以整合人工智能和認知建模工具融入空軍ISR,但對于對手的威脅和道德方面的考慮卻很少討論,而這些考慮應該貫穿于系統的設計和功能模塊。為了讓空軍內部的人力和組織做好準備,以整合高度自動化的人工智能情報分析系統,領導人必須倡導以人為本的設計,從歷史上人機協作的成功和失敗中吸取教訓。領導人還必須采取積極主動的方法來培訓空軍的ISR勞動力,以便與革命性的但不完善的人工智能技術進行有效協作。
根據美國空軍作戰集成能力(AFWIC)傳感跨職能小組的說法,空軍情報、監視和偵察(ISR)的現狀是高度專業化、專有化,并且過于依賴人力密集的回傳(reach-back)過程。當規劃人員展望未來的大國沖突時,他們評估目前的硬件和分析過程將不足以建立對同行對手的決策優勢,情報工作在勝利所需的速度和規模方面落后。空軍A2的 "下一代ISR主導地位飛行計劃"對目前的ISR體系也提出了類似的批評,主張擺脫今天的 "工業時代的單一領域方法",以追求 "架構和基礎設施,以實現機器智能,包括自動化、人機合作,以及最終的人工智能。"雖然為空軍人員提供更快更智能的工具來制作和分享評估是空軍高級領導人的優先事項,但引入更高水平的自動化和機器主導的感知為情報界帶來了一系列新問題。考慮到這些工具可能遇到的篡改和故意提供錯誤信息的威脅,依靠算法走捷徑是否安全?追求由自動化武器系統促成的戰爭到底是否合乎道德?如果是這樣,情報界采用自動化工具以更快的速度產生關鍵的情報評估會帶來什么風險?
人工智能(AI)一詞被美國防部聯合人工智能中心定義為 "機器執行通常需要人類智慧的任務能力--例如,識別模式、從經驗中學習、得出結論、進行預測或采取行動。"參議員們希望AI能夠很快為人類分析師用來進行評估的軟件套件提供動力,并使物理系統在更多的自主應用中發揮作用。機器學習(ML)被國防部高級研究計劃局(DARPA)定義為人工智能中的一個領域,"將統計和概率方法應用于大型數據集",并可以將衍生模型應用于未來的數據樣本。利用ML好處的一個流行方法是通過深度神經網絡(DNN),它可以使用歷史數據被訓練成執行一系列的分類和預測任務。雖然在AFWIC或A2的出版物中沒有特別提及,但在模擬人類思維過程的應用中使用AI、ML和DNN是計算機科學和心理學的一個混合領域,稱為認知建模。在AFWIC對未來空軍ISR體系的設想中,AI、ML、DNNs和認知建模概念是向數字化、以網絡為中心的情報方法轉變的關鍵部分。
為了給空軍ISR體系的現代化舉措提供一個框架,AFWIC建立了傳感網的概念,定義為 "傳感器、平臺、人員、設備、內容和服務的組合,為決策者提供整體、準確、預測和及時的作戰環境特征。"該概念的設計者設想了一個具有預測分析、自主傳感和響應、融合多個數據源和邊緣處理的系統,所有這些都是通過利用AI、ML、DNN、數據分析和其他認知建模方法來實現的。盡管沒有公布傳感網格的首次亮相日期,但大多數討論表明,優化的系統簇至少還有十年。同時,美國防部領導層非常迫切地要趕上中國和俄羅斯在軍事人工智能應用方面的投資,鼓勵快速原型設計和實驗,以找到解決方案。人工智能在國防論壇上經常被認為是使以數據為中心的情報任務更快、加快戰術決策的答案,但如果所涉及的系統處于工程的初級階段,并且在國家安全領域仍未得到證實,這僅僅是猜想。
雖然AFWIC和空軍A2專注于人工智能傳感器和工具的研發投資,但很少討論使傳感網格安全和有效所需的人機合作動態。為了使傳感網格成為一個有效的系統,為空軍執行ISR和分析的方式帶來價值和進步,領導人應該在技術中倡導以人為本的設計,培訓和準備一線分析員與新系統有效的協作,并根據人工智能的優勢和劣勢調整組織做法。空軍領導人必須承認將更多的分析任務分配給人工智能工具所固有的對抗性威脅和道德問題,這些問題必須告知感知網格的藍圖。這并不是說正在進行的系統軟件開發應該停滯不前,而是說在情報和物資領導人之間必須同時進行對話,討論人類分析員的作用,因為這對減輕越來越多地依賴人工智能的弊端至關重要。空軍領導人還必須推行一項深思熟慮的計劃,將傳感網格組件整合到當前的傳感、識別、歸屬和共享(SIAS)活動中,使一線分析員為 "更高級別的推理和判斷"任務做好準備,同時承認機器應該增強人類任務,而不是完全取代人類。
接下來本文將提供與人工智能系統相關的脆弱性和道德問題的文獻回顧,以深入了解建設和應用傳感網格可能面臨的挑戰。它還將包括討論在完成和應用這個改變游戲規則的系統之前,情報和物資領導人應該考慮哪些因素。本文最后將就如何為空軍ISR戰斗空間準備傳感網格提出進一步的建議,為空軍人員在數字時代的行動提供必要的場景設置。
最近關于將人工智能應用于認知任務的相關弱點的研究大多強調了對抗性樣本的危險性,這些樣本修改了DNN的輸入,導致它們控制的系統以各種方式發生故障。對抗性輸入可以是物理的或非物理的,可以影響各種數據分類器分類媒體,包括圖像、音頻文件和文本。最常提到的物理欺騙樣本是一個實驗,工程師通過將停車標志調整成不同的角度來愚弄自動駕駛汽車上的光學傳感器,導致車輛錯過停車。物理欺騙在國防應用中不是一個新穎的計劃,但將邊緣處理和自動化納入像傳感網格這樣的系統可能排除了人類分析師第一手識別這些戰術。在非物理領域,訓練算法以類似于人腦的方式來識別模式是一項具有挑戰性的任務。計算機視覺(CV)算法對圖像的分類與人類分析人員非常不同,當只有幾個像素不合適時,很容易對物體進行錯誤分類。在不太直接的情況下,工程師無法解釋模型的錯誤,刺激了DARPA等組織對可解釋人工智能的倡議。 在最好的情況下,對抗性輸入被識別為異常值,并被具有強大訓練樣本的CV模型所忽略;在最壞的情況下,它們可能會破壞現實世界的輸入,并在人類分析師不知情的情況下從樣本中數字化地刪除物體或活動。如果對抗性輸入導致分析師錯過他們通常會在沒有協助的情況下捕捉到的重要活動,就會產生災難性的后果。
如果將AI、ML和DNN應用于情報數據集背后的目標是以更高的速度分析和傳播更多的信息,那么自然語言處理(NLP)也可能是感知網格架構的一部分。NLP模型今天被廣泛用于個人和商業用途,像Siri和亞馬遜Alexa這樣的工具使用語音提示來啟動其他應用程序。NLP模型也可用于大量文本或其他媒體的理解任務,使用衍生數據回答問題。這種技術在融合多種數據源的SIAS任務中可能非常有用,但也可能容易受到干擾。NLP中的對抗性輸入可以引入錯誤的句子或用文本文件中的反義詞替換關鍵詞,導致模型在沒有時間或能力進行人工審查的情況下錯誤描述數據集。
與任何分層模型的方案一樣,CV和NLP模型是否能像預測的那樣有效地協同工作還是個未知數,更不用說檢測像Deepfakes這樣在非保密領域進入DNN的偽造數據了。人類分析員離通常可以檢測錯誤信息的源數據流越遠,SIAS就越容易受到錯誤輸入的影響。盡管有這種擔憂,但空軍A2的指導意見表明,人們對分層模型利用非保密的公開信息(PAI)進行無縫傳感器提示寄予厚望,使ISR體系能夠更有效地找到相關目標。如果沒有一種強大的方法來檢測提示傳感器的PAI樣本中的偽造媒體,這個過程可能難以安全地實現。
技術的復雜性和自動化、人工智能系統對篡改的潛在脆弱性,引發了關于在軍事行動中應用這類技術是否符合道德的討論。雖然傳感網格的設計不是為了直接使用武器,但來自該系統的情報數據很可能為關于多個領域的關鍵決策提供信息。關于AI/ML的倫理學文獻通常對采用自主運作、人類干預窗口有限的系統持批評態度,其邏輯與反對地雷等傳統自動化武器的倫理學論點相似。雖然傳感網格及其前驅系統將具有比壓力板裝置高得多的認知行為屬性,但一些人認為,人類對黑盒系統的控制同樣很少,這些系統在向人類操作者提出選擇或結論之前,會執行層層的算法通信。
幸運的是,人工智能系統可能也能夠在人類容易出現道德失誤的情況下進行補償,因為機器不會經歷像恐懼或驚慌這樣的情緒,而這些情緒可能會引發危險的決定或違反LOAC。盡管利用人類與認知模型合作的這一潛在優勢是謹慎的,但美國防部的指導意見將速度作為人工智能最有用貢獻的具體價值,這引入了更多道德難題。對個人決策的測試表明,人類在復雜環境中的風險評估能力已經很差,而引入人工智能,使人類判斷的價值邊緣化,只會導致更快的、風險更高的結論。當人工智能帶來的錯誤評估或草率決定導致災難性錯誤時,問責也是美國防部領導人必須準備解決的混亂道德問題。
大多數文獻中隱含的減輕對手篡改和道德失誤威脅的解決方案,是在人類控制器和自主的人工智能系統之間進行最佳分工。不足為奇的是,對于這應該是什么樣子,以及它如何適用于像傳感網格這樣的系統,有許多觀點。一些人認為,在國際協議框架中沒有雇用自動武器系統的空間,并將其缺乏責任感與兒童兵相比較。其他人認為,如果像聯合目標定位這樣的程序以同樣的嚴格和參與規則進行,人工智能工具將不會導致不可接受的失控。雖然人們認為迫切需要通過購買現有的商業軟件向聯合情報界提供傳感網格的能力,但如果美國防部領導人希望減少前面討論的風險,工程師、需求所有者和分析師必須致力于仔細討論人工智能應用在ISR體系中最有幫助的地方以及它們有可能造成傷害的地方。
當涉及到投資建設由人工智能和認知建模應用驅動的未來ISR體系的項目時,美國防部和空軍除了需要快速投資并與大學和國家實驗室合作外,提供的指導有限。除了系統 "事故風險較低;對黑客和對手的欺騙行為更有彈性和表現出較少的意外行為"之外,對該部門在人工智能投資方面所期望的指導也是有限的。缺乏特殊性可能是人工智能在國防部戰略中首次出現的癥狀,但自滿和滿足于為投資而投資的情況并沒有遠遠超過這種情況。使用該技術的社區有責任決定與認知模型建立哪種類型的協作關系將提供最大的利益,但戰略指導似乎將責任交給了實驗室和行業合作伙伴,責成外部人士確定人工智能將解決的問題和解決方案。如果空軍ISR領導人在討論如何最好地將人類分析員與人工智能工具協作方面不發揮積極作用,他們將如何評估開發人員是否在提供資金的情況下取得足夠的進展?美國防部如何相信由非業務伙伴開發的解決方案能夠充分解決安全和道德問題?在什么時候,人工智能會從一個脆弱的研究項目過渡到改善SIAS的速度和準確性的可行解決方案?
討論人工智能及其在情報工作中的預期功能的一個更有成效的方法是,不要把它當作一個神奇的子彈,因為它的定義太不明確,根本無法研究。雖然將認知模型應用于情報過程可能是新的,但在戰爭中實現自動化的技術已經存在了幾十年。領導人必須考慮現代戰爭中已經存在的人機合作結構,以獲得設計和整合傳感網格的經驗。對于空軍ISR來說,分析當前和歷史上人類分析員、機載傳感器和戰區決策者的團隊合作是一項有益的工作。機載ISR傳感器的性能衡量通常通過傳感器輸出的響應性和準確性等因素來評估,但了解傳感器數據引發的分析和決策過程也很重要。例如,光譜成像傳感器可以被用作異常檢測器,突出不尋常的物體或活動,供人類分析員審查和報告。報告可以傳播給行動領導人,然后他根據情報做出決定,命令對異常活動的來源進行空襲。如果這一連串的事件在行動過程中習慣性地發生,那么傳感器和人類在循環中的互動可能會開始改變,而傳感器被潛意識地重新歸類為威脅探測器。在這種情況下,傳感器的性能規格并沒有改變,但隨著時間的推移,團隊關系中的人類開始對傳感器的輸出應用不同的價值,這可能是外部激勵因素的影響。雖然大多數分析家都知道,假設所有的異常情況都是威脅是不正確的,也是危險的,但人機協作關系演變為扭曲人類判斷的微妙方式是值得關注的。為了確保人機協作以道德方式進行,領導者必須反思協作結構如何在無意中抑制組織的價值觀。對新作戰技術的準確性和穩健性的要求是合理的,但了解技術煽動的組織行為和習慣對有效和道德地使用是最重要的。
除了在ISR體系內應用現有的人機合作經驗外,人工智能感應網格的設計也應以人為本。雖然在建立一個由人類分析員使用的系統時,這似乎是顯而易見的,但在復雜的系統工程項目中,人因工程和人機協作的考慮往往是一個低優先級的問題。這部分是由于傳統的組織障礙,將軟件工程師和人因專家放在不同的部門,尤其是后者專門研究認知心理學、神經科學和機器人學等學科,這些學科在一些項目中可能發揮有限的作用。未能在復雜系統中適當整合人的因素的后果是可怕的,這在波音公司的737 Max飛機上可以看到,該飛機在2018年和2019年發生了兩起致命事故。兩份事故報告都提到高度自動化的機動特性增強系統(MCAS)軟件是導致飛機失事的一個重要因素。 雖然MCAS被設計為使用傳感器輸入來協助飛行安全,但糟糕的人為因素考慮使得該系統在觸發自動程序后,飛行員很難覆蓋。雖然培訓用戶與新系統合作是入職的自然部分,但由于缺乏人為因素工程而導致的陡峭學習曲線是一種風險,可以通過對人類和機器行為進行建模來減輕,因為它們與手頭的任務相關。 在這種情況下,建模將幫助系統架構師確定在特定的團隊合作關系中造成誤解的溝通差距,也許可以提供關于機器如何在緊急情況發生前向人類操作員充分披露其局限性的洞察力。
當我們推測如何最好地促進人機互動,充分解決與人工智能和自動化相關的安全和倫理問題時,尋求視覺分析專家的咨詢可以提供有價值的設計見解。"視覺分析是一個科學領域,它試圖通過交互式可視化增加人機對話來提高自動化、高容量數據處理的透明度。 為分析師提供一個團隊結構,讓他們選擇如何可視化數據集,可以在自動化、機器輔助的數據精簡和人類判斷之間取得有利的平衡。在傳感網格的可視化分析的最佳應用中,分析師將以高度的信心理解數據集的重要性,這得益于調整基礎分析過程的能力。 理想情況下,可視化分析使用戶能夠通過向系統提出關于數據的假設和問題來利用他們的學科專長,使他們能夠通過對話得出結論。視覺分析中的一種被稱為語義互動的方法也可能是有幫助的,創建的模型可以將分析師與視覺數據的對話轉化為模型的調整,推斷和學習人類伙伴執行常規任務的原因,如突出、復制等。考慮到前面詳述的學科有多新,建立明確的測試和評估標準將是準備將這些和其他團隊技術納入SIAS任務的重要步驟。
美國空軍研究實驗室(AFRL)內的各局無疑面臨著許多挑戰,在這個概念正式確定之前,他們一直致力于建立傳感網格的組成部分。將人工智能整合到智能架構和軟件中的工程師和開發人員主要在羅馬實驗室AFRL信息局(AFRL/RI)工作,分為多個核心技術能力(CTC)團隊。特別是處理和開發(PEX)CTC將深入參與開發實現傳感網的DNN,其任務是"為空軍、國防部和情報界提供快速感知,以提高對形勢的認識和對抗的洞察力"。在PEX CTC中,項目按功能分為特征化、極端計算、理解和預測項目,涵蓋了從數據提取到高級感知的一系列步驟。人因工程方面的專業知識來自位于兩個州外的萊特-帕特森空軍基地的飛行員系統(RH),一個跨學科局。下一步,PEX CTC的項目可能會與AFRL的其他部門(如傳感器(RY)或航空航天系統(RQ))的開發項目相結合,將RI的SIAS部分與新的機載收集傳感器和車輛聯系起來。目前,RI的工程師使用來自實際聯合和國家情報來源的樣本數據流,逐步解決在大量非結構化數據中進行分類的計算挑戰。尋找解決方案以保持物理系統的尺寸、重量和功率要求可控,也是一個持續關注的問題,特別是在像Agile Condor這樣尋求在機載系統上提供高水平邊緣處理的項目。
正如前面的文獻調查所示,在DNN中建立穩健性和安全性,以防止ML中的對抗性干擾,是任何網絡開發者都關心的問題,RI內部的團隊也不例外。DNN已經在實驗室環境中以意想不到的方式學習或失敗,引入與人類感知相矛盾的對抗性輸入,可能會使開發有用工具的進展受挫。如果系統繼續隨著新數據集的發展而發展,那么可能很難確定技術成熟度的基準,在這種情況下,AFRL將維持責任轉移給空軍生命周期管理中心(AFLCMC)是合適的。雖然這一點與建立人工智能傳感網格組件的測試和評估標準的重要性有關,但它也應該引發關于復雜系統在開發和維持組織之間的移交是否適合這種技術的討論。理想的情況是,在DNN上擁有最多專業知識的團隊建立模型,并在其整個生命周期內維護它們。一個更有可能和更少破壞性的行動方案是建立具有可升級底盤和外形尺寸的傳感網組件,允許在可用時用替換設備進行簡化升級。考慮到國家實驗室、DARPA、麻省理工學院、卡內基梅隆大學和其他機構的大量人工智能研究投資,空軍領導人應該考慮如何在研究結果公布后,整合部門的投資回報,以改善感知網的設計和功能。
對于美國防部和空軍領導人來說,為未來傳感網的整合創造條件,還有其他獨特的倫理挑戰需要協調。如果 "傳感網格"及其組件能夠提供該概念所承諾的快速和強大的傳感功能,那么期望所有使用該系統的一線分析員都能理解其工作原理是否合理?在發生災難性錯誤的情況下,初級分析員是否需要了解該技術,以便對涉嫌疏忽的錯誤負責?"將邊緣處理納入傳感網設計也是一個有道德爭議的話題。雖然自動數據處理可以節省SIAS的時間,但分析師如何知道邊緣計算程序是否出現故障,或者他們是否被對手欺騙?從傳感器的邊緣去除人類的認知勞動可以更快地提供數據,但結果的準確性可能會有所不同。那些認識到這些問題,但卻因為要比中國或俄羅斯更快地投入技術的壓力而推遲解決的領導人,應該仔細思考這一立場背后的原因。雖然中國和俄羅斯的政府形式與美國根本不同,但事實是,這兩個國家都有等級制度,對國防事務中的錯誤和不精確性的責任也很重視。以類似于核計劃的方式,美國政府應該領導國際社會與競爭對手分享安全、設計良好的人工智能算法的傳統技術,確保沒有國家因為糟糕的態勢感知工具而引發誤解導致的沖突。最好的國際人工智能軍備控制可能來自于對人工智能研究結果的盡可能透明,并倡導負責任地使用該技術。
盡管完整形式的傳感網格還需要幾年時間才能實現,但最終系統的組成部分可能會在未來十年內逐步投入使用。在為下一代人機協作做好技術、人員和組織的準備方面,還有大量的工作要做。美國防部和空軍ISR領導人不應等到正式的系統首次亮相時才開始倡導在傳感網格技術中采用以人為本的設計,將人工智能的培訓目標納入對一線分析員的指導,并為組織接受該技術和與之合作做好準備。當涉及到設計和構建這個復雜的系統時,物資領導人在考慮采購商業的、現成的軟件以獲得更快的數據匯總解決方案時,應該謹慎行事。在沒有為傳感網格及其系統如何運作建立測試、評估和安全標準的情況下,過早地整合多用途商業軟件可能會給傳感網的人工智能互動帶來不確定性和風險。
此外,找到更快解決方案的愿望不應該先于對人的因素的考慮,因為這對安全和富有成效的人機合作至關重要。美國防部領導人還應該認真審視在整個傳感網中整合邊緣處理的計劃,將其作為一個安全和道德問題,并應仔細思考在哪些地方將人類感知與傳感器輸出分離才是真正合適的。雖然培訓人類分析員是ISR體系可以采取的最明顯的措施之一,以減輕來自外部干預和道德失誤的威脅,但物資領導人也必須考慮他們在采購精心設計的、以人為本的技術方面的作用,作為一個同樣重要的保障。
正如美國國防創新委員會的AI原則。雖然年輕的分析員在快速學習數字應用和程序方面表現出很強的能力,但初級人員也傾向于以令人驚訝的方式信任技術。因此,這些分析員必須繼續接受情報分析基礎知識的培訓,使他們善于識別傳感網格中的算法錯誤和遺漏。空軍領導人在2018年為促進AI和ML素養邁出了務實的第一步,啟動了一項試點計劃,以確定具有計算機語言經驗的空軍人員,希望在各種舉措中利用那些具有編碼專長的人。雖然這項措施將有助于區分具有較高數字熟練度的分析員,但教導勞動力如何運作計算機模型可能是一個更有用的技能組合,以準備在傳感網中進行人機合作。"為傳感網就業準備一線分析員的最壞方法是依靠及時培訓來彌補勞動力對技術知識的差距,從而為SIAS活動引入更大的錯誤率。
為了讓組織準備好接收和整合傳感網格,美國防部和空軍領導人必須首先解決人力需求。盡管像傳感網格這樣的系統被設計成模仿人類的認知勞動,但分析人員的勞動對于質量控制和任務管理仍然是至關重要的,更不用說作為識別DNN內潛在篡改或系統故障的保障。現在還不是為預期的技術進步做出任何急劇的力量結構調整的時候,而這種技術進步離投入使用還有好幾年的時間。此外,到目前為止,關于傳感網將如何整合來自聯合部隊的數據,或者是否允許作戰司令部像今天一樣擁有自己獨特的數據戰略和情報資源的討論很少。如果傳感網由于來自一個服務部門或地理作戰司令部的人為縫隙而無法為分析人員提供更多的情報來源,那么該系統是否真正做到了其設計者所宣傳的?這些問題必須在聯合參謀部層面加以解決和調和。最后,利用來自傳感網的情報的組織必須認識到,當他們與機器合作時,他們很容易受到偏見和捷徑的影響。了解外部壓力和交戰規則如何導致對機器輸出的質疑失敗,對于改善人機伙伴關系,真正使SIAS更加有效至關重要。
美國防部和空軍對人工智能在情報中的應用所進行的研究投資,對于確定部隊應如何準備與傳感網格進行人機合作是至關重要的。對領導人和一線分析人員進行培訓,讓他們了解在自動化、人工智能支持的SIAS中存在的道德難題和對手攻擊的可能性,這對保護組織不傳播錯誤信息至關重要。幸運的是,美國防部和空軍ISR領導人主張在傳感網格系統中采用以人為本的設計和培訓模式還為時不晚,因為AFRL的工程師們正在繼續努力為部隊提供一個安全、務實的解決方案。領導人必須認識到以速度換取精確性的組織傾向,并理解精心設計的系統分階段整合將是值得等待的。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
指揮、控制和通信(C3)系統是所有軍事作戰的基礎,為國防部(DoD)的所有任務提供計劃、協調和控制部隊和作戰所需的關鍵信息。歷史上,美軍取得并保持了C3技術的主導優勢,但同行的競爭者和對手已經縮小了差距。國防部目前的C3系統沒有跟上威脅增長的步伐,也沒有滿足我們聯合作戰人員不斷增長的信息交流需求。聯合部隊必須配備最新的C3能力,為所有領域提供實時態勢感知和決策支持。
未來的沖突很可能由信息優勢決定,成功的一方將來自多個領域的分布式傳感器和武器系統的大量數據轉化為可操作的信息,以便更好、更快地做出決策并產生精確的效果。國防部(DoD)正在執行一項重點工作,通過綜合和同步的能力發展,在所有領域迅速實現靈活和有彈性的指揮和控制(C2),以確保對我們的對手的作戰和競爭優勢。這項工作被稱為聯合全域指揮與控制(JADC2),是決策的藝術和科學,將決策迅速轉化為行動,利用所有領域的能力并與任務伙伴合作,在競爭和沖突中實現作戰和信息優勢。JADC2需要新的概念、科學和技術、實驗以及多年的持續投資。
該戰略代表了國防部對實施國防部數字化現代化戰略中C3部分的設想,并為彌合今天的傳統C3使能能力和JADC2之間的差距提供了方向。它描述了國防部將如何創新以獲得競爭優勢,同時為完全網絡化的通信傳輸層和先進的C2使能能力打下基礎,以使聯合全域作戰同步應對21世紀的威脅。該戰略的重點是保護和保持現有的C3能力;確保美國、盟國和主要合作伙伴在需要的時候能夠可靠地獲得關鍵信息;提供無縫、有彈性和安全的C3傳輸基礎設施,使聯合部隊在整個軍事作戰中更具殺傷力。這一戰略的實施需要在作戰領域內和跨作戰領域內同步進行現代化工作,從完美的解決方案過渡到一個高度連接的、敏捷的和有彈性的系統。
本文件確定的目標為DOD的C3系統和基礎設施的現代化提供了明確的指導和方向。然而,現代化并不是一個終點,而是一項持續的工作。國防部將評估和更新該戰略,以適應在通往JADC2道路上的新的作戰概念和技術。
美國防部正面臨著幾十年來最復雜和競爭激烈的全球安全環境。在這個大國競爭的新時代,國防部必須提高聯合作戰人員的殺傷力,加強聯盟伙伴關系,吸引新的合作伙伴,并改革國防部以提高績效和經濟效益。
當我們建立一支更具殺傷力的部隊并加強聯盟和伙伴關系時,DOD必須專注于關鍵的有利工具,以有效地運用聯合多國部隊對抗大國競爭。有效的部隊使用始于有效的C2,即由適當指定的指揮官在完成任務的過程中對指定和附屬部隊行使權力和指導。在現代戰爭中,這可能是人對人、機器對機器(M2M)的循環,或者隨著自主程度的提高,M2M的循環中也有人類。在其最基本的層面上,成功的C2需要有可靠的通信、發送和接收信息的手段,以及其他處理和顯示可操作信息的能力,以幫助指揮官進行決策并取得決定性的信息優勢。
圖1:指揮、控制和通信現代化
該戰略的重點是支持有效的聯合和多國作戰的C3使能能力(圖1)。C3使能能力由信息整合和決策支持服務、系統、流程以及相關的通信運輸基礎設施組成,使其能夠對指定和附屬的部隊行使權力和指導。這些能力使指揮官和決策者能夠迅速評估、選擇和執行有效的作戰方案以完成任務。
具體而言,該戰略為2020-2025年的C3使能能力現代化提供了方法和實施指南。作為2018年國防戰略(NDS)實施的一部分,聯合參謀部正在制定聯合和任務伙伴網絡的工作概念,以便在有爭議的環境中執行全域聯合作戰。根據這些概念,負責研究和工程開發的國防部副部長辦公室(OUSD(R&E))正在開發和發展一個長期的(2024年及以后)全網絡化指揮、控制和通信(FNC3)架構。實施這些未來的概念和架構將需要時間來使得新的技術和多年的投資成熟可用。這個C3現代化戰略為彌合今天的傳統C3使能能力和未來的FNC3使能JADC2之間的差距提供了方向,以確保聯合部隊能夠 "今晚作戰(fight tonight)",同時為聯合全域作戰所需的未來技術創造一個可行的過渡路徑。
本戰略提出的C3現代化目標與國防部數字化現代化戰略(DMS)和其他更高層次的指導意見相一致,包括國家發展戰略、國防部2018年網絡戰略、聯合作戰的基石概念:《聯合部隊2030》和《國防規劃指南》。它實施近期的現代化作戰和創新解決方案,通過更安全、有效和高效的C3環境提供競爭優勢。為此,國防部必須解決這些C3現代化的目標:
1.開發和實施敏捷的電磁頻譜操作;
2.加強定位、導航和授時信息的交付、多樣性和彈性;
3.加強國家領導指揮能力;
4.提供綜合的、可互操作的超視距通信能力;
5.加速和同步實施現代化的戰術通信系統;
6.全面建立和實施國防部公共安全通信生態系統;
7.創造一個快速發展5G基礎設施和利用非美國5G網絡的環境;
8.提供有彈性和響應的C2系統;9.提供任務伙伴環境能力。提供任務伙伴環境能力和服務。
圖2:DOD數字現代化戰略
圖3:DOD C3現代化和數字現代化戰略的一致性
圖2和圖3分別顯示了本戰略中實施的DMS要素以及兩個戰略之間的目標和目的的一致性。
DOD C3依賴于一個復雜的、不斷發展的系統,從網絡基礎設施和核心服務到戰術邊緣的手持無線電和移動設備。本戰略中包含的九個目標是對圖2中強調的六個DMS目標的更細粒度的分解。C3現代化的其他關鍵因素包括聯合信息環境能力目標、數據中心化和數據分析,分別包含在DMS、國防部云戰略和國防部人工智能戰略中。有效的國防部事業管理將確保這些戰略的成功同步和實施。