計算思維和數據科學的進步導致了人工智能系統的新時代,這些系統被設計來適應復雜的情況并開發可操作的知識。這些學習系統旨在可靠地理解情況的本質,并構建關鍵的決策建議,以支持自主和人機團隊的運作。
同時,數據的數量、速度、種類、真實性、價值和變異性的不斷增加,使這些新系統的復雜性受到影響--在其開發和實施方面造成了挑戰。對于支持具有較高后果的關鍵決策的人工系統來說,安全已經成為一個重要的問題。需要有方法來避免故障模式,并確保只允許期望的行為。
元認知是一種解決策略,它能促進人工智能系統內部的自我意識,以了解其外部和內部的運行環境,并利用這些知識來識別潛在的故障,實現自我修復和自我管理,以實現安全和理想的行為。
人工智能戰爭決策輔助工具通過增強戰斗空間知識、解決不確定性、推薦戰術行動方案、制定交戰戰略來支持作戰人員決策。
以下定義摘自美國陸軍訓練與條令司令部:
多域作戰(MDO)描述了美國陸軍作為聯合部隊[陸軍、海軍、空軍、海軍陸戰隊和太空部隊]的一部分,如何在競爭和武裝沖突中對抗和擊敗能夠在所有領域[空中、陸地、海上、太空和網絡空間]與美國抗衡的近鄰對手。該概念描述了美國地面部隊作為聯合和多國團隊的一部分,如何在2025-2050年的時間框架內威懾對手并擊敗能力強大的近鄰對手。
MDO為指揮官提供了許多選擇,以執行同時和連續的行動,利用出其不意以及快速和持續地整合所有領域的能力,給對手帶來多種困境,以獲得物質和心理上的優勢以及對作戰環境的影響和控制。
滲透敵方的反介入和區域拒止(A2/AD)系統(分層和綜合遠程精確打擊系統、沿岸反艦能力、防空系統、遠程火炮和火箭系統),使美軍能夠進行戰略和作戰機動。
破壞--擾亂、降低或摧毀A2/AD系統,使美軍能夠進行作戰和戰術機動。
利用由此產生的機動自由,通過擊敗所有領域的敵軍來實現作戰和戰略目標。
重新競爭--鞏固各領域的成果,迫使其以對美國和盟國有利的條件恢復競爭。
戰爭的速度和決策的速度可以說從來沒有像今天這樣快過,而且明天可能也會這樣。
在陸、海、空、天,甚至網絡領域運作的資產的密切協調,以促進ISR活動和對敵對目標的殺傷鏈,需要精確性,以及在各種平臺上 "蓄勢殺傷 "的能力。
系統的通用性可以減少后勤的負擔,簡化培訓和維護,并有助于確保各平臺的性能一致、可靠。
基于成熟技術的解決方案能夠迅速投入使用,并為作戰人員增加更多的靈活性和選擇,是一種力量的倍增劑。
現代戰場比以往任何時候都要復雜,武器的技術進步也在不斷加快。為了贏得下一場戰斗,對對手的行動作出更快的反應時間是至關重要的。人工智能(AI)有可能使作戰人員超過敵人的決策周期,減少信息過載,從而克服 "戰爭迷霧"。在開發作戰系統時,可靠性可能是生與死的區別。因此,最重要的是,這些武器系統(尤其是像人工智能這樣的新型系統)在被引入戰斗空間并被委托保護作戰人員之前,就已經以最高標準的可靠性和安全性進行開發。該項目利用系統工程方法來確定與人工智能及其在戰斗空間中的作用有關的潛在危險和風險。使用一個既定的風險管理框架(RMF),該團隊提供了一些緩解策略,開發人員在培養這項技術以用于未來的美國武器系統和程序時必須考慮。
現代戰場比以往任何時候都更加復雜,武器的技術進步也在加速。為了贏得下一場戰斗,對對手的行動有更快的反應時間至關重要。人工智能(AI)有可能使作戰人員超越敵人的決策周期,減少信息過載,從而克服 "戰爭迷霧"。人工智能可能的用途的一些例子包括幫助操作者決策的綜合戰斗管理輔助工具(BMAs),預測未來交戰結果的算法,以及識別朋友或敵人。
為了有效地運用人工智能,開發者必須了解與創造能夠像人類一樣 "思考 "的戰爭機器相關的好處和風險。這種風險并不局限于技術,還可能包括人類層面,例如當作戰人員不信任計算機為他們做決定時。另一個潛在風險的例子是,"訓練 "人工智能的數據可能是錯誤的,陳舊的,或沒有意義的,使其無效。此外,人工智能可能會 "失敗",在面臨另一個人工智能實體或BMA不同意的情況下,錯誤地選擇行動,導致威脅影響到友好目標。
在開發作戰系統時,可靠性可能是生與死的區別。因此,最重要的是,這些武器系統(特別是像人工智能這樣的新型系統)在被引入戰斗空間并被委托保護作戰人員之前,就已經以最高標準的可靠性和安全性進行開發。該項目利用系統工程方法來確定與人工智能及其在戰斗空間中的作用有關的潛在危險和風險。使用一個既定的風險管理框架(RMF),該團隊提供了一些緩解策略,開發人員在培育這項技術以用于未來的美國武器系統和流程時必須考慮。
該團隊還采用了系統工程來進行項目分析。首先,他們以問題為導向,確定需求。為了實現這一目標,團隊通過對該主題的前期工作進行廣泛的文獻回顧,了解了人工智能和機器學習(ML)到底是什么。這使該團隊能夠開發系統架構圖,以了解潛在的系統結構和層次。然后,該小組利用其成員的個人知識(如兩名在導彈防御局工作的成員和一名現役海軍陸戰隊軍官),為人工智能在戰斗空間的潛在應用開發用例場景。使用Innoslate開發人工制品,該團隊然后從這些用例中進行安全分析,以確定危險和故障模式。使用美國國家標準和技術研究所特別出版物800-37修訂版中的RMF對這些危險和失效模式進行了分析。這使團隊能夠為確定的危險制定緩解策略。
如上所述,團隊開發了三個用例:(1)彈道導彈防御場景;(2)一艘受到無人駕駛飛行器群攻擊的船只;(3)戰區級和戰略級人工智能系統產生相互矛盾的建議的場景。該團隊選擇這些情景的依據是它們可能對國家造成的影響程度(如配備核彈頭的彈道導彈)、它們的可能性(如大型海軍艦艇這樣的高回報目標),以及未來戰爭轉向遠征性質(如前沿作戰基地(FOB)和遠征先進基地)。每種情況下都有廣泛的故障模式和緩解策略(以及計算機資產的常見系統危險)。通過確定這些故障模式和緩解策略,該小組為未來針對其他可能性和情景的規劃提供了一個基線。
情景1的彈道導彈防御情況突出了作戰人員的不信任。在這種情況下,作戰人員根據自己的作戰概念,而不是人工智能的建議,對來襲的彈道導彈作出反應。與這種不信任相關的危害包括無效的反應時間、無效的反制措施、不正確的致命物體選擇以及反制措施將影響的不正確位置/時間。情景2的艦艇自衛情況側重于人工智能發展的訓練數據。該小組確定了諸如錯誤識別和無效反應等危險,以及與之相關的故障模式。情景3的主要危害來自于敵方成功攻擊友方FOB的主要事故。導致這種意外發生的危險是敵方的威脅沒有被解除,以及是否根本沒有參與。
該小組為每一種情況制定了緩解策略。情景1的首要策略是建立人工智能在決策過程中要遵守的時間標準,以及用戶的行動概念(CONOPS)要定期更新,并在部署前階段進行。對于情景2,在部署前采用適當的編程技術,定期(每月)更新訓練數據,并利用備份數據,可以防止誤認和無效的反應。情景3的危險可以通過在部署前階段的適當編程和聯合部隊的投入來減輕。
最后,小組建議進一步研究如何在戰術和行動層面實施AI/ML,AI/ML被用來收集新的或現有威脅的性能數據,國防部指導如何管理將使用AI/ML的系統的驗證和確認,并對AI/ML BMA進行服務水平和國防部水平的可靠性研究。在本報告結束時,讀者應該更好地了解AI/ML如何使作戰人員受益,以及必須采取哪些預防措施以確保其盡可能安全地發展。
自動化和人工智能的概念已經存在很多年了。Gregory Allen (2020)說,"盡管許多人工智能技術是舊的,但在過去的十年里,有一些合法的技術突破,大大增加了人工智能實用、強大和有用的應用的多樣性。" 機器學習(ML)是人工智能領域的一個子集,是最近許多研究工作的重點。圖3說明了自動化、人工智能和ML之間的聯系。
圖3. 自動化、AI和ML的維恩圖。
人工智能/機器學習有可能提高作戰人員對戰斗空間的態勢感知,改善時間緊迫和復雜威脅情況下的戰術決策過程和速度。在實施人工智能和ML的過程中,這些好處不會沒有潛在的安全風險。圖4描述了與在戰斗管理輔助工具中使用人工智能和ML有關的一些安全風險。自動系統容易受到網絡攻擊,操作人員可能會遇到信任或互動問題,特別是ML系統,很容易提供歪曲或有偏見的結果。
圖4. AI/ML系統的失敗模式實例。
人工智能作為一種具有廣泛用途的能力,對美國防部的吸引力越來越大。根據2018年國防部關于人工智能的戰略,"不實施這一戰略的代價是明確的。不采用人工智能將導致與我們的人民的防御無關的遺留系統,侵蝕盟友和合作伙伴之間的凝聚力,減少進入市場的機會,這將導致我們的繁榮和生活水平下降,以及對建立在個人自由基礎上的社會的日益挑戰"(國防部2018年)。特別是,鑒于彈道導彈防御、巡航導彈防御、高超音速導彈防御和防空的復雜性,空中和導彈防御(AAMD)任務領域特別值得關注。存在多種防御系統,以擊敗由人類作戰人員控制的各個飛行階段的威脅。在某些情況下,當決策空間因時間限制、信息挑戰(太多、太少或太差)或威脅挑戰(多種和/或不同的AAMD威脅)而變得復雜時,這些人類作戰人員變得不知所措。包括一個自動決策輔助工具來協助作戰人員,甚至承擔決策者的角色,是國防部許多地方正在探索的領域空間(國防部2018)。
以下兩個作戰視圖(OVs)描述了在戰略層面(圖5)和區域層面(圖6)使用帶有AI/ML的作戰管理輔助工具,以及嵌入的風險圖表,確定一些需要調查的安全風險。
圖5. 戰略層面OV-1-自動作戰管理輔助工具的安全性
圖6. 區域級OV-1-自動作戰管理輔助工具的安全性
鑒于人工智能和ML很有可能被整合到指揮和控制、作戰管理輔助工具和武器系統本身,這個頂點項目探討了為AAMD任務引入人工智能和ML能力作為自動戰斗管理輔助工具(BMA)的潛在危險。
技術的進步提高了戰爭的速度,需要更快的反應時間和人類決策。美國防部(2017)已經承認有必要獲得戰術決策輔助工具,以減輕指揮官和作戰人員的戰場決策壓力。在BMAs中使用自動化方法,包括AI和ML,可以幫助滿足多樣化的任務需求,以及協助從計劃到執行的過渡(美國防部2017)。然而,由于人工智能系統的非確定性和不斷發展的性質、復雜的人機互動以及與學習系統的開發和運行有關的挑戰,在未來的BMA中使用人工智能和ML會引入安全風險和新的故障模式。
該頂點項目的目標是研究與未來利用人工智能和ML為AAMD任務開發和實施BMAs有關的安全風險。具體來說,這項研究涉及以下問題。
與支持未來自動戰術決策和任務規劃輔助工具的人工智能系統的部署有關的安全風險是什么?
在戰術決策中使用的人工智能系統的安全相關問題可能會產生什么后果?
該小組確定了關鍵的利益相關者,并評估了他們的需求,如表1所示。利益相關者包括將從這項研究中受益的組織和終端用戶。特別是終端用戶(作戰人員),將從利用人工智能和ML能力的成功和安全的BMA的實施中受益。項目經理和工程師可以將本研究的結果納入為AAMD任務提供的安全AI/ML BMA的系統要求和設計中。
表1. 關鍵利益相關者
頂點團隊由以下NPS系統工程學生組成。Angela Hoopes, Luis Cruz, Ryane Pappa, Savanna Shilt, 和Samuel Wuornos。表2介紹了該團隊的角色和他們各自的組織。
表2. 項目團隊成員
團隊成員 | 角色 | 組織機構 |
---|---|---|
安吉拉-胡普 | 團隊負責人 | 系統評估小組首席工程師NH-04 0801,導彈防御局-宙斯盾BMD項目辦公室-工程局 |
路易斯-克魯茲 | 開發和集成負責人 | 導彈防御局以色列合作項目辦公室測試主任 |
瑞恩-帕帕 | 工程負責人 | 美國陸軍作戰能力和發展指揮部軍備中心(DEVCOM-AC)系統工程局DB-03 0801總工程師團隊負責人 |
薩瓦娜-希爾特 | 首席分析師 | 美國陸軍信息系統工程指揮部(USAISEC),計算機科學家NH-03 1550 |
塞繆爾-烏爾諾斯少校 | 首席編輯 | 美國海軍陸戰隊第3航空聯隊海軍陸戰隊重型直升機466中隊飛機維修員和飛行員 |
圖7中的團隊組織結構圖描述了A.ctual I.ntelligence團隊的高層組織結構,包括頂點顧問、團隊領導、第二讀者、建模領導、工程領導、首席編輯和首席分析師等角色。
圖7. 團隊組織
組織結構圖中每個角色的職責是根據整個頂點項目過程中要完成的關鍵研究和活動來確定的。表3列出了每個團隊成員以及他們的角色和責任。
表3. 項目團隊成員
該團隊利用系統工程的方法來進行本項目的分析。首先,他們以問題為導向,確定需求。為了實現這一目標,團隊專注于學習人工智能和ML到底是什么,對該主題的先前工作進行廣泛的文獻回顧。這使團隊能夠開發系統架構圖,以幫助他們了解潛在的系統結構和層次。然后,該團隊利用其成員的個人知識(如兩名在導彈防御局工作的成員和一名現役海軍陸戰隊軍官),為人工智能在戰斗空間的潛在應用開發用例場景。使用Innoslate開發人工制品,該團隊然后從這些用例中進行安全分析,以確定危險和故障模式。然后使用國家標準和技術研究所特別出版物800-37修訂版中的風險管理框架(RMF)對這些危險和失敗模式進行分析。這使該小組能夠為所確定的危險制定緩解策略。
第一章提供了項目的介紹和背景。它介紹了問題陳述、項目目標、利益相關者描述、團隊組織和項目方法。
第二章提供了團隊研究的以往作品的回顧。這些作品提供了關于機器學習、人工智能和作戰人員決策的關鍵背景信息。本章介紹了為什么這些作品與本項目有關。
第三章涵蓋了對導彈防御中涉及人工智能/ML的三個用例場景的關鍵分析。這些用例包括彈道導彈防御、海軍軍艦自我防御和戰略與戰區偏見。該章詳細討論了已確定的故障模式和危害,為風險評估提供了一個基線。
第四章以第三章的分析為基礎,對每個用例已確定的故障模式和危害進行了深入的風險分析。團隊利用這一風險分析,提供緩解策略,供未來的開發者考慮。
第五章討論了前幾章得出的結論,并討論了在導彈防御和未來作戰系統和進程方面,人工智能/ML的發展/采購的潛在途徑。
目前,人工智能(AI)為改造許多軍事行動領域提供了巨大的機會,包括作戰、指揮與控制(C2)、后勤、安全和維護,以提高其整體作戰效率。空中和導彈防御(AMD)是一個特別復雜的任務領域,人工智能的應用至關重要。空中導彈防御任務指的是保衛國土、保護區、地面基地、地面部隊或艦艇免受敵對的空中或導彈威脅。AMD的威脅包括敵對的飛機、無人駕駛飛行器(UAV)或機載導彈。AMD行動的復雜性源于威脅的嚴重性、威脅的意外性、對形勢認識的不確定性以及事件的快速發展,因為作戰人員必須迅速評估形勢,制定適當的行動方案,并最好地利用他們的戰爭資產來應對。美國國防部(U.S. DOD)正在研究使用AI系統(或AI-enabled AMD[AI-AMD]系統)作為AMD作戰人員的自動決策輔助工具,以大大減少他們的認知負荷(Jones等人,2020),使AMD決策更快、更好。
人工智能的一個關鍵方面已經聚集了大量的研究興趣,那就是信任。信任是有效團隊的一個基本原則。它同時適用于人類和人機團隊。信任使團隊成員能夠很好地合作,是有效團隊表現的基礎(Lee and See 2004)。與人工智能系統的成功合作將需要人類對人工智能系統有一個校準的信任和依賴程度(泰勒等人,2016)。
隨著更先進和更快的空中和導彈威脅彈藥的發展和投入使用,操作人員更需要在AMD行動中迅速作出監測。不及時的決策和反應將導致災難性的后果。因此,人工智能是一個可能的解決方案,通過自動決策輔助工具加快和加強決策過程。這些AMD自動戰斗管理輔助工具可以幫助戰術操作人員應對更快的決策周期、大量的數據以及需要觀察的幾個系統或屏幕(Galdorisi 2019)。然而,為了有效地利用人工智能能力的潛力,需要操作員的高度信任。操作員對系統的信任程度低,可能會導致人工智能-AMD系統利用不足,受到不適當的監控,或者根本不使用(Floyd, Drinkwater, and Aha 2016)。這些問題中的任何一個都可能導致操作者的工作量不必要的增加,或者任務失敗的可能性。
論文對信任的定義、人機交互(HMI)的概念、信任因素以及包括AMD殺傷鏈模型、威脅場景、架構、模型和功能在內的概念模型進行了廣泛的回顧。有了這樣的認識,論文提出了人工智能-AMD系統的信任框架,對人機交互和人工智能-AMD系統信任因素的描述。論文最后提出了在人類操作者和AI-AMD系統之間實現校準信任的策略。
信任框架始于對系統背景的分析。圖1顯示了AI-AMD指揮與控制(C2)系統(包括AI-AMD操作員和決策輔助工具)及其他與之互動的子系統的背景圖,這些子系統有助于操作員和AI-AMD決策輔助工具之間信任的發展。背景圖使我們能夠研究各系統之間的相互作用,以及它們對AI-AMD操作員和決策輔助工具之間信任動態的影響。
圖1. AI-AMD系統框架圖。
這篇論文將信任定義為操作者的態度,即AI-AMD決策輔助工具將有助于實現操作者的目標,即在一個以不確定性和脆弱性為特征的作戰環境中迅速摧毀來襲威脅的任務。這種信任的定義表明,它是對操作者相信或感知AI-AMD決策輔助工具的一種情感評估。為了積極地影響信任,操作者必須親自看到并感受到AI-AMD決策輔助行動的優勢。AI-AMD行動涉及很多不確定因素,以及天氣、電磁干擾和地形等環境因素以及不斷變化的威脅的性質所帶來的脆弱性。操作員將預期AI-AMD決策輔助系統按照 "合同 "執行,以處理這些不確定性和脆弱性。這些合同將是人工智能-AMD決策輔助工具應該執行的感知功能或任務,以及執行這些功能或任務的理想表現。
圖2說明了操作員和AI-AMD決策輔助工具之間的信任框架。y軸代表人類對AI-AMD決策輔助系統的信任程度,x軸代表AI-AMD決策輔助系統的能力。綠色的45°虛線表示最佳的信任水平或校準的信任線,其中的信任與AI-AMD的能力相對應,導致正確的利用(Lee and See 2004)。過度信任由最佳信任水平線以上的區域表示,此時的信任超過了系統能力,導致誤用。低于理想信任水平線的區域表示不信任,這時的信任沒有達到系統能力,導致濫用。假設存在一些默認的信任水平(如黃框所示),目標是制定一個策略,以提高AI-AMD輔助決策能力的信任。在使用該系統時,可能會發生違反信任的情況,從而降低操作員的信任。因此,信任修復行動必須被納入,以保持信任在最佳水平。
圖2. 人類操作員和AI-AMD決策輔助工具之間的信任。
基于功能分配的操作員和AI-AMD決策輔助工具之間的人機交互研究表明,操作員和AI-AMD決策輔助工具應該被設計成在大多數殺戮鏈功能中作為一個 "團隊"運作。這引導論文研究了單獨和集體考慮人類和決策輔助的信任因素。對操作員和人工智能-AMD決策之間的人機交互的研究還顯示,操作員的角色已經從手動控制器變成了監督控制器。因此,一個值得信賴的決策輔助工具是很重要的,因為操作者會期望系統的表現符合預期,以幫助操作者更好地履行他的角色。另外,為了進一步幫助減輕操作者的認知工作量,信息的外部表示、決策輔助工具的建議必須易于閱讀和理解。
關于信任因素,本論文提出了一個 "由外而內 "的框架,如圖3所示。論文首先考慮了與操作環境相關的因素,這些因素描述了AMD操作系統的背景。第二,它研究了與組織環境相關的因素,操作人員和人工智能-AMD系統得到了培訓和發展。第三,論文研究了操作人員和人工智能-AMD決策輔助工具之間的交互,以提出與操作人員、人工智能-AMD、單獨和集體相關的因素。
圖3. 建議的信任因素
圖4顯示了擬議的戰略銜接圖,以實現操作者和AI-AMD輔助決策之間的校準信任。對信任定義、人機界面和信任因素的審查表明,該戰略應關注三個關鍵領域:(1)人類對自動化技術和AI-AMD決策輔助系統的集體和個人感知;(2)增強操作員和AI-AMD決策輔助系統的團隊活力;(3)AI-AMD決策輔助系統的可信度,重點是系統開發。該戰略利用DOTMLPF-P框架提出了三個關鍵原則和五個支持原則。首先,軍事作戰人員需要被告知自動化技術的真正能力和局限性,特別是AI-AMD輔助決策。第二,操作員的培訓要求必須增加,以應對新的工作范圍和不斷變化的威脅。第三,必須在人工智能-AMD決策輔助系統的開發中加入新的要求,以提高系統的可感知的可信度。這三個關鍵原則得到了DOTMLPF-P框架其他方面的支持,如組織、領導、人員、設施和政策。
圖4. 實現操作員和人工智能-AMD決策輔助工具之間校準信任的戰略銜接圖
《美國陸軍多域作戰2028》(MDO 2028)是陸軍的未來作戰概念。該文件說明了陸軍需要如何適應和發展以在未來作戰中保持競爭性軍事優勢。該概念的關鍵組成部分是多域作戰的原則--校準部隊結構、多域編隊和融合--這使得敵人的反介入和區域拒止系統能夠被瓦解,并使軍隊能夠利用短暫的優勢窗口。這是一個取決于在時間、空間和目的上持續同步能力的概念,以實現跨領域的協同作用,并創造一個可利用的優勢窗口。聯合部隊目前通過"域聯合解決方案的階段性同步"來實施能力融合,這并不支持在針對未來同行威脅的競爭和利用的重復循環中快速和持續地整合多個領域的能力。因此,關鍵是要考慮什么能力可以讓軍事領導人克服這些技術和人類認知的局限性。一個可能的解決方案是將人工智能融入作戰管理過程。
本專著重點說明了將人工智能融入作戰管理過程以促進多域作戰融合的必要性。通過分析多域作戰的融合差距、人工智能的發展以及當前的指揮和控制系統,該研究旨在說明多域作戰中能力持續融合的復雜性迅速超過了人類的認知能力。此外,由于美國的對手正在大量投資于人工智能和自主性,將人工智能融合到作戰管理過程中的問題不是在戰場上取得優勢的問題。相反,問題在于如何擁有競爭性臨時可利用的優勢窗口的能力。
簡而言之,速度在兩個不同的方面很重要。首先,自主性可以提高決策速度,使美國能夠在對手的行動周期內采取有效措施。其次,如果美國要維持軍事優勢,作戰能力向自主性的持續快速轉變至關重要。— DSB 自主性報告,2016 年
《美國陸軍多域作戰2028》(MDO 2028)是陸軍的未來作戰概念。這份文件說明了陸軍預計它需要如何適應和發展,以在未來的作戰中保持競爭性軍事優勢。該概念的關鍵組成部分是多域作戰的原則——經過校準的部隊結構、多域編隊和融合——這使得敵方反介入和區域拒止 (A2AD) 系統能夠被瓦解,并允許軍隊利用短暫的優勢窗口。這一概念取決于指揮官在時間、空間和目的上不斷同步的能力,以實現跨域協同并創造可利用的優勢處境。
目前,聯合部隊正在通過“域聯合解決方案的階段性同步”來融合能力,這一過程不支持在針對未來對等威脅的競爭和利用的循環中快速和持續地整合多個領域的能力。軍方領導人承認這一缺點和任務的復雜性,因此引入了需要開發新的軍事技術來填補關鍵空白的融合考慮。基于這些差距,未來的指揮和控制系統需要為所有梯隊的指揮官提供戰斗空間內所有聯合單位的完整共同作戰圖,并有能力快速傳輸偵察和目標數據,以通過動能和非動能手段攻擊擬議的目標。
然而,敵人在自主性和人工智能 (AI) 方面的發展極大地壓縮了時間窗口。由于時間窗口短,協調融合工作的任務很快超出了人類的能力。其他因素,例如彈藥優化和能力重置時間的需要,進一步增加了任務的復雜性。因此,至關重要的是要考慮軍事領導人需要具備哪些能力來克服這些技術和人類認知限制。一種可能的解決方案是將人工智能集成到作戰管理過程中。因此,多域作戰融合所帶來的挑戰提出了一個關鍵問題:美國陸軍是否需要一個人工智能引導的作戰管理系統,以便在多域作戰中成功地融合能力,對抗一個有能力使用自主和人工智能引導能力的同行競爭對手?
我們尋求獲得優勢的方式是在決定性的空間優化所有領域,以影響滲透。— 美國陸軍能力整合中心主任埃里克-韋斯利中尉
武裝競爭的一種現象是技術創新的武器化。從軍事角度來看,這是一個關鍵的進步,可以讓一個國家的戰斗力量在戰場上保持競爭優勢。為了推動能力發展,軍方領導人引入了未來的作戰概念。這些概念是預測軍隊需要如何訓練、裝備和組織自身以競爭和戰勝新興威脅的文件。目前,美國陸軍正在進行重大改革。此次重組將使軍隊轉向大規模作戰行動,并調整部隊以滿足國家安全戰略 (NSS)、嵌套式國防戰略 (NDS) 和國家軍事戰略 (NMS) 中概述的需求。這種變化代表了軍隊的范式轉變。在將近兩個十年的時間里,這主要集中在平叛上。對于美國陸軍來說,這項工作驗證了歷史不會重演,但卻是會押韻的格言。主要是因為當前未來作戰概念“MDO 2028”的引入促使轉型讓人想起過去的重組周期。一個相關的例子是 20世紀80年代中期引入空地一體戰學說引發的重組。
空地之戰是美國陸軍在冷戰高峰期對俄羅斯威脅的回應。它于 1986 年出版,提出了一個依賴于陸地和空中能力有效同步的作戰框架。在技術進步的推動下,復雜性不斷增加,導致 "事件的節奏加快",這是基本的前提。該文件的一個關鍵組成部分是引入了反映戰爭不斷發展的新術語。其中一個新術語是綜合戰斗——集中使用所有能力來擊敗敵人——它依賴于獲得和保持態勢感知的能力。基于對新興技術可以在戰場上提供優勢的認識,空地戰指導正在迅速發展的計算機技術集成。1986年美國防部向國會提交的年度報告中提出了所需的創新努力。聯合戰術融合計劃 (JTFP) 和聯合監視和目標獲取系統 (JSTAS) 是隨后出現的系統。這兩個系統都旨在為指揮官提供從各種來源收集信息并指導采用聯合動力努力追擊地面目標的能力。開發這些系統的必要性表明了兩個事實。首先,這些系統顯示了技術和戰爭之間的整體關系。第二,這些系統強調了軍事領導人承認,從現在開始,在戰場上有效同步軍事能力所需的速度和復雜性超過了人類的認知能力。目前的多域作戰概念將這一認識帶到了未來。
認識到美軍的競爭優勢正在減弱,麥克馬斯特中將(退役)和當時的國防部副部長羅伯特-O-沃克呼吁開發空地戰2.0。時任訓練與條令司令部司令的大衛-G-帕金斯將軍(退役)響應號召,推出了多域作戰。然而,在2016年美國陸軍年會和博覽會期間,帕金斯將軍(退役)指出,這個概念不是對空地戰或全譜作戰的改造,而是描述了一種革命性的戰爭方法。多域作戰被稱為革命性的一個關鍵原因是,它要求軍事力量的運作方式發生轉變。新的作戰方式的基本驅動力是科學和技術的快速發展,以及需要在競爭、失敗、利用和再競爭的連續循環中與所有領域的同行威脅進行競爭。
在中國和俄羅斯等大國競爭的推動下,2017 年的美國國家安全戰略 (NSS)指示軍隊需要擁有同時在多個領域與競爭對手競爭的能力。要建立跨域對抗敵人的能力,需要發展“新的作戰概念和能力,以在不保證在空中、海上、陸地、太空和網絡空間領域的主導地位的情況下取得勝利”。來自聯合推動者的可靠和及時的跨領域支持是成功競爭的關鍵要求和隱含任務。由此產生的域相互依賴意味著“一個域中缺乏訪問可能會在一個或多個域中產生級聯效應”。因此,美國空軍多域作戰戰略計劃助理教授賈里德·唐納利博士預測,未來的戰爭將在一個快速而復雜的多域連續體中進行,不依賴于一系列作戰條件的連續設置但需要跨多個域的能力永久同步。因此,了解不同域中存在的能力以及如何利用每種能力來獲得暫時的優勢是多域作戰成功的基礎。
在 NSS 和 NDS 的指導下,美國訓練和條令司令部 (TRADOC) 于 2018 年初推出了 TRADOC 手冊 525-3-1,即“美國陸軍多域作戰2028”。這是一個概念,作為前 TRADOC 總司令Stephen J. Townsend 強調,承認敵人有能力在多層次的對峙中提出挑戰并與美軍抗衡,其目的是“在時間、空間和功能上將美軍和其盟友分開,以擊敗我們。”
該概念提出戰爭演變的一個原因是,它將多個領域的能力互動形象化,這超越了在不同領域內的機動性或擁有實現跨領域效果的能力。相反,這個概念承認,技術進步改變了領域之間的相互關系和跨領域連接的速度。MDO 2028將這些變化納入了該概念的多域作戰原則--校準的部隊結構、多域編隊和融合--這使得敵方的反介入和反侵略系統被瓦解,并使軍事力量能夠創造短暫的優勢窗口。它們結合在一起,為指揮官在時間、空間和目的上匯聚能力創造了條件,以實現跨領域的協同,并創造一個可利用的優勢地位。此外,多域融合是一個可以通過整合人工智能引導系統來優化和加速的過程。
我們必須習慣這樣一個激進的想法,即我們人類將只是智能生物之一。— Alexander Kott,美國陸軍研究實驗室網絡科學部主管
人工智能是技術系統執行此前需要人類智能才能執行的任務的能力。這些任務包括觀察和識別模式、通過觀察學習、預測事件或采取行動的能力。中國是美國的主要競爭對手之一,認識到人工智能可以使戰場對稱性向他們的優勢傾斜。中國在人工智能引導軍事能力(包括自主武器系統)發展方面的大量投資證明了此觀點。為了在武裝沖突中保持相對優勢地位,美國需要發展將人工智能與決策過程聯系起來的反擊能力。當前的美國人工智能計劃主要集中在模式識別上,由于計算能力的快速增長,模式識別可以分析越來越多的數據以創建信息。
多域作戰是需要收集和分析大量數據以觀察和評估作戰環境發展。目前人工智能在軍事上的應用主要集中在后勤運輸和數據分析的支持上。然而,聯合人工智能中心和白宮人工智能特別委員會的成立,都標志著人工智能將擴展到國防部的其他領域。例如,美國陸軍未來司令部目前正在開展多項計劃,分析人工智能如何提高指揮官獲得態勢感知和做出明智決策的能力。一個重點領域是發展能力,以提高美軍同步效果和減輕日常認知任務的速度。強調開發人員和潛在的最終用戶之間的迭代合作,為該部門開發人工智能指導系統創造了條件,該系統可以 "產生并幫助指揮官探索新的選擇",并使他們能夠專注于選擇有利的作戰方案,使部隊和任務的風險最小化。
關于將人工智能納入作戰管理過程,關鍵是要區分將人類置于環中或環上的系統。根據機器人和自主系統的聯合概念,自主的定義是 "自動化的范圍,其中獨立決策可以為特定的任務、風險水平和人機合作的程度量身定做"。范圍本身包含了不同程度的自主性。在由TRADOC和佐治亞理工學院主辦的2017年瘋狂科學家會議上,專家們介紹了三種程度的自主性--完全自主、受監督的自主和自主基線。 一個完全自主的系統獨立于人類的實時干預,在人類不參與的情況下運行。在有監督的自主系統中,人類保持著實時干預和影響決策的能力,因此仍然處于循環之中。自主基線是目前各種現有系統中存在的自主性。在軍事應用中,這種自主性存在于人類監督的武器中,如愛國者和宙斯盾導彈系統,或AH-64D阿帕奇攻擊直升機長弓火控雷達,它獨立地 "搜索、探測、定位、分類和優先處理陸地、空中和水中的多個移動和靜止目標。"
Mitre公司的Richard Potember將機器學習視為 "人工智能的基礎",其重點是系統在無監督下學習的能力,并創建深度神經網絡,以支持決策和機器人應用。自主性和人工智能的整合是一個過程,不經意間將導致 "我們以前電氣化的一切,現在將'認知化'"。 支持將人工智能引導的作戰管理系統納入多域作戰的一個關鍵技術發展趨勢是,自主性和學習逐漸從感知轉向決策。這樣一來,人工智能可以減輕多域作戰中固有的復雜性。一個固有的復雜性是整合能力和做出跨越多個領域的決策能力,不是在幾分鐘或幾小時內,而是幾秒鐘內,如果需要的話。因此,將人工智能整合到決策和同步過程中,平衡有利于美國的觀察-定向-決定-行動周期。
在戰略層面,人工智能引導的系統可以影響推動不同領域的升級和降級的決策。在作戰層面,通用人工智能可以建立態勢感知和同步效果。為了支持多個領域的能力融合,人工智能 "處理來自在多個領域運作的各種平臺的大量信息 ",直接促進了MDO戰爭的兩個基本方面:速度和范圍。人工智能支持比敵人更快、更遠的打擊能力。這種能力能夠實時分析動態戰場,為快速打擊創造條件,將美國“友軍”的風險降到最低。美國國防科學委員會2016年的一項研究,提出人工智能系統能夠在一個動能瞄準周期內整合多種作戰管理、指揮與控制、通信和情報能力的觀點。此外,委員會評估說,這些人工智能引導的系統的累積效應可以在整個多域融合周期內改變戰斗的運行和戰略動態。
AI 即將上戰場,這不是是否會出現的問題,而是何時和誰的問題。— 美國陸軍未來司令部司令約翰·默里將軍
在武裝沖突中,美國的競爭對手旨在整合他們的A2AD系統以建立分層對峙區。其目的是剝奪美軍聯合部隊在時間和空間上同步作戰的能力。俄羅斯的S-400 Triumf是美國部隊在大規模戰斗中可能面臨的系統代表。S-400是一種移動式地對空導彈系統,擁有對付從無人機到終端彈道導彈的各種武器系統的能力。該雷達可在600公里范圍內跟蹤目標,并具有100公里的交戰范圍。該系統提供的關鍵技術進步之一是傳感器到操作手的全自動循環,使該系統能夠同時跟蹤和打擊多達80個目標。這是支持MDO 2028假設的一個例子,即美軍在大規模對抗同行威脅的敵對行動開始時,不能假設自己在任何領域擁有優勢。為了在競爭、滲透、分解和利用的連續循環中攻破敵人的防御系統,美國陸軍的多域作戰框架引入了多域作戰的三個原則--校準的部隊態勢、多域編隊和融合。
校準的部隊態勢是指能夠迅速適應和改變作戰環境的部隊和能力組合。其目的是找出潛在的弱點或在戰場上創造不對稱性,以建立一個可利用的局部優勢窗口。前方存在的部隊支持在整個軍事行動范圍內快速升級,以滲透和瓦解敵人的系統。這些部隊被安排具有任務指揮、火力、情報收集、維持、信息活動和特種作戰能力。遠征部隊具有在需要時進行聯合強行進入行動的能力,并為后續部隊創造了條件。這些部隊通過空中和海上部署,可在幾天或幾周內完成。
多域編隊的重點是使較低的梯隊能夠對近距離的威脅進行進攻和防御行動。支持多域編隊的三種能力是進行獨立機動的能力、采用跨域火力的能力和最大限度地發揮人的潛力。為了支持在有爭議的領域內達到軍事目的,MDO 2028認識到軍團、師和旅梯隊的單位需要獨立行動,不受上級總部資源優先級的限制。因此,他們需要擁有有機的后勤、機動、火力、醫療和通信網絡,使部隊能夠在預先確定的時間內獨立作戰。作戰概念目前的框架要求這些梯隊 "在通信線路高度競爭的情況下,仍能維持數天的進攻行動。"維持進攻的能力是由指揮官采用跨域火力的能力來驅動的。
跨域火力是指在暫時脫離上級總部火力支援的情況下,對火力能力進行整合,并具有冗余性。這個過程包括直接和間接火力單位、保護能力和電子戰裝置,以及 "多光譜融合彈藥,以及網絡空間、空間和信息相關能力"。為了加強在復雜和快速發展的多域作戰環境中的決策過程,需要開發 "由人工智能和高速數據處理支持的人機交互"。 校準部隊態勢和創建多域編隊都是為了實現本文所認為的多域作戰的一個關鍵組成部分--融合。
MDO 2028將融合定義為 "在所有領域、電磁頻譜和信息環境中快速和持續地整合能力,通過跨領域的協同作用,優化效果以超越敵人"。盡管它可能看起來像目前聯合能力的整合和同步延伸,但這個概念與目前應用的聯合能力有很大不同。這主要是因為它不是在時間和空間上按順序消除沖突的過程,而是由目標周期和任務分配命令指導和限制。相反,它是在窗口期中對所有領域的效果進行持續的同步化,在空間和時間上都有很大差異。要在一個同行競爭的環境中競爭,需要有能力通過跨域的協同作用創造暫時的領域超越。這種協同作用集中在決定性的空間。決定性空間是時間和空間上的一個物理的、虛擬的和認知的位置,它使美國部隊能夠獲得一個可利用的明顯優勢位置。此外,由于軍事單位期望同時對抗多種威脅,多域融合要求在所有領域的競爭連續體中同時進行系統分解和中立化。
快速指揮和控制為指揮官通過跨域協同和分層選擇,實現融合創造了條件。因此,軍事指揮官在任何特定時間點擁有對戰斗空間內運作的所有聯合力量的整體態勢感知是融合的一個關鍵組成部分。MDO 2028確定了兩項要求,即必須開發技術先進的指揮和控制系統并將其整合到多域編隊中以促進這一進程。第一個是需要 "每個梯隊的指揮官和參謀人員都能得到所有領域的戰斗可視化呈現并且指揮",并迅速調整能力以實現融合。第二是有能力迅速協調聯合能力的匯合,以對付敵人的特定弱點。
指揮官在目的和時間上實現融合能力的關鍵是五個融合要素的同步化--準備時間、計劃和執行時間、持續時間、重置時間和周期時間。對這些要素的考慮使指揮官能夠計算出從啟動開始達到效果所需的時間,以及為新一輪的重新競爭重置能力所需的時間。在這個框架內收斂多種能力的過程因不同的能力使用率而進一步復雜化。雖然周期率提出了一個無限的使用序列,但使用率代表了一個與 "彈藥和消耗性虛擬武器 "相聯系的不斷減少的單位。 由于后勤是有爭議的,可預測的補給沒有保證,指揮官在多域融合中面臨著額外的挑戰。這個挑戰就是優化現有彈藥的使用,并使彈藥的使用與聯合能力的協調相一致。
目前可用彈藥的數量限制和無法建立庫存可能會導致未來大規模作戰行動中后勤儲備嚴重不足。為了延長軍隊的續航能力,特別是在跨越軍事爭端地區的交通線作戰時,需要對各種系統的武器狀況進行持續評估。在動能范圍內對所有聯合平臺進行 "優化和排序射擊 "變得至關重要。這種優化和排序過程,同樣迅速超過了人類決策者的認知能力,并提出了一個技術作戰管理系統的缺陷,該缺陷會對聯合能力的有效融合產生不利影響。
美國陸軍在多域戰斗空間中實現作戰敏捷性的核心是能夠從不斷增長的綜合數據集中創造理解,同時保持 "卓越的決策速度"。戰場上永遠存在著未知情況和沖突,但減少觀察環境變化和相應調整部隊方向所需的時間,可以提高決策和行動速度。提高對聯合部隊在各個領域內的所處位置的認識,相對于敵人和他們的作戰和戰術計劃,對于加速較低層次的機動是必要的。此外,短暫的機會窗口要求未來的作戰管理系統迅速將傳感器與射手相匹配。
在美國陸軍的現代化框架內,新興技術需要為兩個關鍵的技術和組織上的不足提供一個解決方案。首先是保持對作戰區域內所有聯合軍事單位完全態勢感知的能力。第二是迅速建立從傳感器到射手的冗余回路能力,其中包括所有可用的聯合單位并考慮到能力的不同再生周期。這是一項任務,根據需要處理的數據量,當聯合軍事單位在有爭議的戰場上競爭時,需要持續同步,這很快就會超過人類的認知能力。將人工智能融入作戰管理過程可以減輕這種人類的局限性。
我們的投資重點之一是網絡,這并非巧合……因此我們有能力將這種目標快速傳達給另一個領域。— 美國陸軍未來司令部司令約翰·默里將軍
實現多域融合的最關鍵步驟之一是開發聯合指揮和控制(C2)系統,將整個戰斗空間的能力縱向和橫向聯系起來。2017年,SYSTEMATIC公司獲得了設計美國陸軍新型作戰管理系統 SitaWare 的合同。美國陸軍戰術任務指揮部負責人 Shane Taylor 中校稱該系統是“一種開箱即用的解決方案,用于跨梯隊同步任務指揮數據,這為陸軍遷移到通用架構的目標提供了一個跨越式發展的機會。”該系統提供的一些進步包括簡化指揮所 C2、改進與聯合和聯盟伙伴的互操作性以及標準作戰功能融合框架。該系統的另一個關鍵功能是能夠快速擴展大量數據并以提高指揮官態勢感知的方式呈現。
在美國陸軍的作戰環境中,SitaWare 是一個指揮后計算環境組件,有望消除信息和情報孤島,并可集成為通用作戰平臺。 SYSTEMATIC公司承認未來的作戰需要情報、后勤和作戰系統的快速同步。因此,當前系統旨在分析大型數據集并在直觀的用戶界面上顯示相關信息。因此,它可以實時建立指揮官的態勢感知并提高他們的決策速度。此外,系統軟件符合各種民用和軍用互操作性標準,這使得系統更容易與其他聯合和聯盟平臺連接。
為了在各梯隊之間嵌套系統,SitaWare的用戶界面應用程序和顯示器可根據操作環境的要求進行定制。縱向信息共享確保所有梯隊之間共享共同數據。為了提供戰術層面上的態勢理解,該系統具有對輕型、輪式和裝甲編隊的美國“友軍”跟蹤能力。該系統的另一個關鍵特征是綜合指揮層。這一功能使指揮官能夠根據作戰環境的變化,迅速傳播對原始命令的更新和修改。然而,SitaWare的設計并不是為了指導效果。因此,它不能充分加快傳感器到射手的周期,不能提高指揮官在有爭議的環境中有效地匯聚聯合能力,以對抗擁有自主和人工智能支持的武器平臺的同行威脅。
在解決未來多域作戰要求的另一項努力中,美國陸軍啟動了一個內部項目,旨在 "增加物理目標、數據收集、數據分析和自主決策在戰場物聯網中的整合。"該項目專門用于填補美國陸軍領導人評估的商業生產技術沒有充分解決的差距。弗吉尼亞理工大學的專家預測,項目的主要挑戰之一是 "處理許多復雜的變量 "的能力,這影響了結合從博弈論到分布式學習等方面的能力。這些挑戰由于以下事實而被放大:美國陸軍目前的技術開發工作側重于能力的實戰化,很少考慮整合軟件和硬件,使這些系統能夠與各種聯合能力溝通。
該項目的重點是將人工智能引導的系統置于回路中,為指揮官提供在戰斗空間的各種傳感器平臺上收集的大量數據的綜合分析。通過收集相關傳感器系統的數據,分析敵人的能力分布,并將其與可用的美國“友軍”武器系統進行比較,該系統提供關于如何最有效地實現效果的建議。為了使這一過程有效運作,指揮官必須放棄相當程度的控制權,因為他們允許系統 "為如何發動戰爭選擇最合適的戰略"。盡管有這種擔憂,陸軍下一代戰車跨功能小組的副主任凱文-麥凱納里承認,人工智能在多域作戰中是必不可少的,因為它提供了可將目前九十六小時的師級目標定位周期 "減少到九十六秒 "的能力。總的來說,"四分衛項目 "是幫助指揮官 "準確了解戰場上的情況,然后根據可用的和其他因素選擇最合適的戰略。"該倡議是能夠在時間有限的決策空間中有效地融合能力邁出的重要一步,因為它將人工智能的作用提升到數據可視化工具之外,使其成為戰斗戰略工具。
對人工智能在作戰管理過程中的可靠性的擔憂可以通過云架構和深度學習系統的快速發展來緩解。與人類互動類似,在人工智能和自主系統發動的戰爭中建立信任需要時間。中校Wisham,"四分衛"項目的負責人之一,指出這需要一個深思熟慮的策略來證明系統是可靠和有效的,由于很難或不可能追蹤到神經網絡的決策路徑,這就很復雜。 然而,Nvidia公司的機器人研究員Dieter Fox預測,這是一個有解決方案的問題,因為研究人員繼續開發分析神經網絡和機器學習過程的新程序,在未來可以解決這一問題。要分析網絡和學習過程是人工智能的一個關鍵方面,因為它允許開發人員在一個設定的決策框架內約束自主學習系統。另一個認識到發展人工智能啟用能力重要性的部門是美國空軍。
由于確定需要開發多域 C2 系統,美國空軍打算用“衛星、有人機和無人機上不同傳感器的全新網絡”取代其傳統的聯合監視目標攻擊雷達系統。這種新能力的名稱是先進作戰管理系統(ABMS)。盡管項目當前的重點是連接美國空軍單位,但其最終目標是開發“未來作戰的數字神經系統”。美國空軍準將、美國空軍聯合部隊整合總監戴維·熊城(David Kumashiro)表明,他們的方法集中在這樣一種觀念上,即如果“你不遵循開放系統架構的標準,你就會發現自己在場邊,與戰斗無關。” ABMS結構建立在現有的基于云的目標定位助手之上,旨在有效跟蹤目標和飛機。通過擴展這一概念,美國空軍規劃人員希望專注于網絡機器對機器的交互。該項目的指導思想是開發可以“像樂高積木一樣拼在一起”的系統,以快速輕松地連接聯合能力。
總體而言,將人工智能整合到作戰管理過程中的需求是由一種認識驅動的,即在作戰領域將美國軍事部門聯系起來對于保持競爭性軍事優勢是必要的。如果不走人工智能整合的道路,就有可能對美軍在未來的戰斗中擊敗近似競爭對手的能力產生不利影響。以下兩個場景說明了在軍團和師級的多域作戰中,人工智能引導的作戰管理系統如何影響戰場上的動態。
長期規劃使軍方能夠集中研究和開發工作,并指導人員配備、訓練和裝備決策。這個過程的核心是制定評估發展中威脅的概念。 MDO 2028 是一個包含假設和預測以推動軍事戰略的文件示例。聯合出版物 5-0“聯合規劃”,將假設定義為“關于當前態勢或事件未來進程的假設,在缺乏事實的情況下假設被認為是真實”,這對于推進規劃過程至關重要。為了提供一個將軍事能力和需求與預期的未來作戰環境聯系起來的背景框架,軍事規劃人員創建情境以增加理解。這一過程使各級軍事領導人能夠“接觸可能的未知情況,并且吸收理解它”,并提出解決方案。因此,情景模擬是作為創建承認技術發展可行框架的一種方式。然而,重要的是不要將情景與具體預測混為一談,而應將其視為擴展可能性領域并根據預期的技術發展識別未來機會的工具。此外,重要的是要認識到情景構建的一個潛在因素是不確定性。為了展現不確定性和復雜性,同時保持情景“介于預測和推測之間”,需要整合歷史和當前信息,識別行為模式,以及“構建 關于未來的連貫敘事。”其他重要的考慮因素是場景需要與可信的現實生活條件保持一致。
布加勒斯特國防大學國防與安全研究中心的研究員 Marius Potirnich 創建了特定軍事情景分類。他提出的兩個類別是戰略情景和演習情景。戰略情景是出現最廣泛的類別,考慮了在整個軍事行動中可能發生和使用的軍事事件和能力。演習場景嵌套在戰略場景框架內,并進一步細分為真實和虛構。真實場景使用現有軍事能力,在現有作戰環境的約束下,分析現實世界任務集中的情況。虛構環境評估軍事能力的現狀以及預期的未來能力,并將它們置于基于已發布的軍事行動概念和現代化框架的預期威脅環境中進行預測。
本專著介紹了兩個虛構的場景,以說明在未來的多域作戰中集成人工智能引導作戰管理系統的潛在影響。所有場景都基于與對手(如中國)發生沖突的環境。第一個場景以軍梯隊為背景,重點關注空中和海上動能打擊的融合,以及“支持軍區機動計劃或代表下屬梯隊”的網絡空間活動。第二個場景設置在師梯隊,側重于聯合能力的融合和需要分析和傳播的“大量情報的定制”。對手的A2AD和軍事創新努力以及美國陸軍的 MDO 2028 和當前的現代化舉措被用作背景情景。場景是嵌套的,最后評估了美國陸軍是否能將人工智能納入其作戰管理流程,以便在當前的MDO 2028現代化框架下有效地融合多域作戰能力,以及如果該部門不能這樣做的潛在風險。
這本專著的框架是美國陸軍的多域作戰概念。重點不是討論人工智能在戰場上的法律和道德以及考慮人工智能產生在兩個方面產生的后果。相反,它旨在評估人工智能如何幫助在日益復雜的作戰環境中實現多域元素的融合。由于人工智能領域的快速變化和發展,評估是在概念層面進行的,沒有深入探討人工智能在戰爭戰術和作戰層面的廣闊應用前景。對算法是否可以指導能力融合的評估是基于當前的發展,以及機器學習、量子計算和自主機器對機器組合領域的預期進行的。該專著所介紹的和用作基礎的所有信息都完全來自于已被批準公開發布的渠道。因此,有可能存在與本專著的假設相矛盾的機密文件。
在2035年。根據“一個中國”的政策,中國軍隊已經開始收復臺灣,并開始阻止美國海軍進入中國南海。為了捍衛自己的利益,中國軍隊的導彈防御力量處于高度戒備狀態。綜合性的反介入和反侵略網絡得到了中遠程導彈、各種反飛行器和防空武器以及各種中遠程情報收集和監視能力的支持。中國的《新一代人工智能發展規劃》在過去15年中指導了軍事技術的發展。在 2017 年的介紹中,中國領導層宣稱“人工智能已成為國際競爭的新焦點。人工智能是一項引領未來的戰略技術; ……發展人工智能作為增強國家競爭力和保護國家安全的重大戰略。”因此,中國每年投資超過 150 億美元用于“智能技術”的發展,重點是人工智能引導的自主能力。中國的人工智能整合上付出不僅僅在軍用機器人領域,還包括自主軍事決策。基于人工智能在推理、作戰指揮和決策的潛力,中國領先的國防公司負責人,認為“在未來的智能戰爭中,人工智能系統將就像人類的大腦一樣”。因此,美國軍方面對的是一支具有在機器對機器團隊的前沿運作能力的中國部隊。
自主偵察無人機、攻擊機和導彈發射器整合到一個由人工智能引導的傳感器到射手網絡中。這些發展成倍地加快了戰斗的速度。對手的系統可以同時跟蹤和打擊數百個目標,并在需要時快速重新接觸和重新分配單位。為了競爭和滲透對手多余的防御結構,需要美軍快速、持續地匯聚能力,以“滲透和瓦解”A2AD 保護傘。這些行動能夠建立臨時的優勢窗口,軍和師梯隊可以利用這些優勢機動進入戰術支援區和近距離區域。在這些區域內,軍以下的梯隊可以集中他們的有機能力對抗敵人。這反過來又使軍團能夠在不斷的滲透和整合的循環中重新競爭和整合能力,為下級梯隊部隊的利用創造條件。
為了應對對手的現代化努力,美國陸軍在國家安全戰略、人工智能指令和多域作戰理念指導下,對機器-機器團隊聯動進行了大量投資。因此,美國的軍事能力包括一系列可以感知、協調效果以及指揮和控制的自主學習的作戰網絡系統。單個自主機器人和無人機系統,以及更大的無人駕駛飛機、海軍和導彈投送系統,都在該框架內作為自主節點運行。美國私營公司在量子計算領域的重大進展為美國軍隊提供了處理速度和響應時間方面的競爭優勢。這提供了一個戰機,使美國“友軍”能夠比對手更快地觀察、定位、決定和行動。但是,由于技術的進步,John Boyd 的 OODA 循環不再以分鐘為單位執行,而是以秒或毫秒為單位。這些新出現的威脅導致美國越來越多地將人從循環中移除,這使得聯合部隊能夠“以比對手更快、更有效的節奏作戰”。然而,受到有關在戰爭中使用自主制導系統和人工智能的道德法規的限制,美國軍方仍然將人類置于決策循環中。其結果是在指揮和控制層面有效整合了人機協作,允許指揮官在連續競爭期間從一系列進攻行動中選擇進攻方案,同時依靠自主的人工智能引導行動進行保護。
美國陸軍的關鍵指揮控制系統是由人工智能引導的作戰管理系統。它是美軍戰場網絡的樞紐。該系統從作戰環境中的所有聯合傳感器收集數據,并不斷從戰區和國家收集數據的單位中提取和推送數據,以構建共同的作戰圖景。這使系統能夠分析敵方和美國“友軍”在戰場上的位置。由于該系統是自主學習的,它會不斷評估敵人的行動和能力。同時,它對美國“友軍”能力及其狀態有完整的認識,包括各種系統的再生時間、彈藥消耗率和補給狀態。因此,該系統可以識別敵人的弱點和威脅,并執行一個連續的評估周期,以預測美國“友軍”聯合能力如何融合以在戰場上創造暫時的優勢。此外,作戰管理器還計算彈藥優化、能力調配和能力的使用,以達到預期的效果,同時最大限度地減少附帶損害和對部隊的風險。
在戰場網絡內,該系統與所有領域的聯合能力相聯系。各種作戰管理系統本身是橫向和縱向連接的,這使它們能夠跨多個域快速執行任務和重新分配任務,而不會失去實現各自目標的能力。與所有的傳感器和射手相連,允許系統控制傳感器到射擊者的連接,并分配最好的武器系統來實現動能和非動能效果。在保護作用中,作戰管理系統完全自主運行控制消除敵人對美國“友軍”和指定保護區的威脅。由于連續的進攻性競爭的融合能力必須嵌套在更高的總體目標中,作戰管理系統將人置于進攻行動的循環中。該系統分析了美國“友軍”能力通過在不同梯隊的聯合能力融合所能達到的各種效果。
多域框架將美國陸軍部隊視為遠征部隊。這個梯隊的關鍵作用之一是擊敗和消滅遠程和中程系統。因此,他們是在其控制范圍內各師的輔助力量。為了與同級別的威脅相抗衡,關鍵是要整合能力,以對抗對手的防空、遠程地面火力和反艦導彈。此外,在需要時,軍團總部負責指揮和控制在其作戰區域內運行的多域聯合能力。融合動能聯合火力的主要目標是摧毀敵人的中程武器系統,以促進師和旅單位的自由機動。最后,軍團負責同步國家、戰區和內部單位的情報收集工作。網絡空間能力本質上集成在融合工作中,包括國家和戰區級單位。總體意圖是對融合工作進行分層,以提供多種選擇并創建各種跨域協同能力變化。
在競爭周期內,軍團的重點是對敵方防御系統的滲透和瓦解。對對手A2AD保護傘的滲透,包括瓦解敵人的遠程火力系統。這包括使雷達和關鍵指揮和控制節點失效,這可能比破壞運載系統產生的影響更大。滲透的另一個方面是對手地面部隊機動的較量,以及在暫時優勢窗口期間與美國“友軍”從作戰和戰略距離機動的同步。
在師級,部隊的重點是分解和利用。在沖突開始時,他們可以作為前沿存在或遠征部隊。該師的主要作用是為下級部隊在近距離區域機動和對抗創造條件。該師的主要職責是“航空、火力、電子戰、機動 支援和多旅機動以獲得優勢位置。”關鍵是摧毀或消滅對手的中程火力單位。在這個梯隊,該師有能力將有機單位與上級司令部同步,并整合分配的空軍和海軍能力。與擁有自主和人工智能引導系統的相同競爭者相比,兩個梯隊的成功都受到他們進行多域同步的能力和能力自主水平的影響。
美國陸軍第 18 空降兵團總部位于作戰支援區。該組織的主要作用在戰場上創造條件,使其控制下的各師和增援部隊可以利用這些條件進入近距離機動區域。進攻行動以四個目標為中心--消滅對手的遠程防空單位,瓦解對手的中程火力能力,限制對手的地面部隊速度,以及創造 "通過分配資源、安排師的機動順序并將其與縱深結合起來,在較低層次上實現匯合。" 雖然近距離和縱深機動區的距離超過1500公里,但盟軍一直處于中程彈道導彈的動能目標和網絡及太空領域內的非動能目標的威脅之下。
為了保護,美國第 18 陸軍空降兵團的 AI 作戰管理系統不斷連接到國家和戰區的情報收集單位以收集情報。一旦發現對手的威脅,作戰管理系統就會自動與戰區和國家傳感器協調,以確定威脅,并促進傳感器的交接,確保收集情報的完整性,同時減少不必要的情報冗余。同時,它識別出跨所有領域的多個交付平臺,以構建一個強大的殺傷鏈,盡管可能丟失主要聯系,但該殺傷鏈可在時間受限的環境中執行。
空間傳感器為系統提供有關敵人遠程和中程火力能力的各個組成部分配置信息并且能持續更新。與此同時,作戰管理系統將海軍驅逐艦識別為最有可能成功摧毀來襲導彈的單位。同時,該系統識別出可以對威脅做出反應的其他美國“友軍”單位,并根據其當前對整體作戰環境的評估對其進行優先級排序。系統基于其算法考慮的一些因素是:強制風險、成功概率、彈藥狀態、能力重置時間和附帶損害。
對于保護工作,作戰管理系統以人在環結構中運行。這意味著軍團的作戰中心可以觀察事態發展,并在緊急情況下進行干預,但該過程是為作戰管理系統自主運行而設計的。對手威脅的程度以及他們可以運行的速度推動了對自主運行的需要。一旦檢測到來襲導彈,作戰管理系統就會在幾秒鐘內執行概述的序列以摧毀對手的威脅。這個循環實時并持續運轉,以應對新出現的威脅。三個方面使得智能引導的作戰管理系統在國防領域的自主運行方面變得至關重要。首先,能夠在幾秒鐘內關閉射手到傳感器的鏈接,以應對以高超音速單位的威脅。其次,建立強大和冗余殺傷鏈的能力,可以快速整合備用和應急能力。第三,在優化使用有限且難以再補給的資源的同時指導保護工作的能力。在保護行動的同時,該系統分析作戰環境以檢測進攻行動的機會。
對于進攻行動,作戰管理系統以人在回路中的模式運作。美國政府關于人工智能和自主武器的道德使用政策,以及公眾對使用人工智能引導的自主武器系統的看法,是決定將人類留在決策鏈中的基礎。美國陸軍的“四分衛項目”為構建當前的作戰管理系統提供了框架。與保護工作類似,作戰管理系統不斷從外部和有機傳感器中提取數據。然后,它評估聯合能力如何融合以暫時禁用對手的部分防御傘,并允許下屬單位推進并將其有機單位帶入射程。
由于聯合單位在在時間和空間上的協調需要在幾秒鐘內執行和同步,因此需要作戰管理系統不斷分析作戰環境。在此過程中,它重組了 OODA 循環概念的部分內容,以獲得以秒或毫秒為單位的自主對手決策周期的能力。該系統通過持續觀察戰場空間并同時分析美國“友軍”的行動來應對威脅,而不是觀察后再確定方向來實現這一目的。然后,該系統會產生一系列可用的選項來進行攻擊性打擊。在軍團的行動中心內,選項顯示在交互式顯示器上,允許具有適當釋放權限的個人決定采取何種行動。通過不斷分析和重新配置可能的傳感器到射擊者的回路,該系統創建了一個決策空間,可以減輕將人置于回路中對抗嚴重依賴自主能力的對手缺點。在作戰中心的相關權力機構確認以對手單位為目標后,作戰管理系統通過在時間和空間上同步依賴的效果,將來自各種選定的聯合推動者的能力融合起來。
在這種情況下,在發射美國“友軍”導彈之前,作戰管理系統會協調進攻性網絡行動,威脅信號淹沒對手雷達,這增加了導彈成功穿透敵人的反介入和區域封鎖傘的機會。一旦產生網絡效應,作戰管理系統就會指揮導彈的發射并觀察對手的反應,以在必要時重新發射另一枚導彈,并檢測更多額外的目標。導彈找到目標并摧毀它。一旦傳感器確認影響,作戰管理系統就會向與現有信息作戰工作線相一致的媒體傳播消息。同時,作戰管理系統會重新計算美國“友軍”運載平臺的彈藥可用性和回收率。這些數據用于優化未來打擊的彈藥使用,并為保障部隊建立補給優先順序清單。
隨著美國“友軍”的推進和軍團塑造縱深機動區和作戰縱深火力區,這一過程不斷重復。美國陸軍師利用暫時的優勢窗口和機動自由來推進并將對手帶入其有機武器系統的有效射程內。這為近距離和縱深機動區域的對抗創造了條件,從而改變了戰場邊界并重新啟動了競爭循環。
在美國陸軍第18空降團創造條件后,第3步兵師陣地機動進入附近區域,擊敗對手地面部隊。該地區是第一次軍事編隊爭奪“控制物理空間以支持戰役” 目標,在與對手近距離作戰。由于美國“友軍”地面部隊預計將在這個爭端空間進行獨立機動,因此擁有比對手更快的能力匯合對于推動節奏并保持主動權至關重要。地面機動部隊的目標是在臨時優勢窗口期間協調機動,以“擊敗敵軍、破壞敵方能力、物理控制空間以及保護民眾”。附近地區的對手依賴于由自主情報、監視和偵察 (ISR) 打擊系統、綜合防空系統和地面聯合兵種編隊組成的互聯網絡。將人工智能整合到決策周期中,大大加快了對手的行動節奏。為了獲得優勢地位,需要不斷中斷對手的能力,最好是在他們的指揮、控制和傳感器節點。
隨著第 3 步兵師部隊的機動,作戰管理系統不斷收集和比較數據,以構建一個共同的作戰圖,說明美國“友軍”和敵軍的組成和部署。根據數據,系統開始分析對手的防御網絡,以識別對手的傳感器、ISR 平臺和信息流。在此階段,地面部隊分散作戰,作戰管理系統側重于迫使對手暴露其能力的欺騙措施。一旦對手暴露了他們的系統,作戰管理系統就會將國家和戰區單位收集的偵察數據與鄰近單位情報和偵察能力收集的數據同步。然后它與相鄰單位和上級司令部的作戰管理系統協調,以消除交戰沖突。此操作可確保多個跨梯隊單位不繼續攻擊同一目標。
一旦上級司令部的作戰管理系統將權力下達給第 3 步兵師,該師的作戰管理系統就會掃描整個組織的能力,以建立一個成功可能性最大的傳感器與射手的連接。如果系統無法建立連接,或成功概率低于預定閾值,系統會將目標推回上級總部系統,以擴大可繼續攻克目標的可用聯合單位陣列并提高成功概率成功。當威脅單位可以用有機單位追擊時,師作戰管理系統會確認美國“友軍”的部署以清理地面,分析各種武器系統的彈藥狀態,并分配給確定的投送平臺。一旦傳感器周期完成,作戰管理系統就會向選定的武器系統發出信號以進行交戰。
釋放彈藥后,作戰系統會立即更新彈藥供應狀態,重置再生周期,向后勤作戰支援部隊發送補給請求,并跟蹤威脅直至其銷毀。這是一個需要幾秒鐘的循環,并且在滲透和分解過程中反復發生。隨著師部隊的推進,作戰管理系統在支持美國的各種媒體平臺上推送信息作戰信息。每一次積極的參與都伴隨著針對該地區人口統計的信息傳遞工作。隨著行動的進展,該系統不斷評估對手的信息活動并提出建議的反信息,使美國“友軍”在信息頻譜中保持主動權。
當美國“友軍”繼續在對手的反介入和區域拒止保護傘內展開對抗時,作戰管理系統會反復識別對手傳感器并建立冗余殺傷鏈來擊敗對手地面部隊。每次消滅對手ISR 傳感器時,系統都會評估破壞對敵方與美國“友軍”編隊交戰能力的影響。機動部隊利用隨后建立的臨時非覆蓋區域來推進其建制單位。同時,作戰管理系統重新啟動網絡、空間和無人機傳感器的融合以檢測新目標,并融合能力以建立一個新的臨時窗口期,可用于推進機動師地面部隊。
這些活動在幾秒鐘內發生,并且事件發生的速度遠遠超過人類的認知周期。隨著行動的進展,作戰管理系統的自主學習算法繼續分析和識別對手行為中的模式。因此,該系統可以實現與對手地面部隊及其防御努力的持續競爭循環。
美國對手整合和融合自主性和人工智能的意愿推動了美軍發展和使用對抗能力的需求。這些進展提出了在面臨對等威脅時快速連續執行多域融合的需求。由于跨多個領域融合能力需要分析大量信息,因此該過程將人為主導的同步過程推到了敵人的決策周期之外。此外,多域融合涉及建立冗余殺傷鏈。通過消除沖突建立一個單一的傳感器到射手銜接鏈是不夠的。相反,融合需要在必要時識別和使用可以繼續攻擊目標或提供保護工作的冗余能力。由于存在優勢窗口的時間框架不斷縮短,建立快速同步聯合能力的冗余殺傷鏈是一項關鍵且需要同步完成的工作。
總體而言,未來的作戰管理系統必須在聯合平臺上進行橫向和縱向鏈接,以滿足多域作戰需求,并具備秒級或毫秒級的協同作戰能力。此外,為了融合能力,人工智能引導的作戰管理系統可以在爭端地區補給環境縮小對抗中彈藥優化的能力差距。該系統通過持續評估最佳目標-彈藥組合并避免不必要地消耗彈藥以及過度殺傷來實現這一目標。不幸的是,目前開發指揮和控制平臺的方法主要是沿著服務的孤島進行的,這將減緩建立在未來作戰中融合能力所需技術框架的能力。
人工智能和自主性對作戰節奏的影響支持羅伯特·萊昂哈德的說法,即“時間越來越成為戰爭的關鍵維度。”人工智能與自主能力的結合使軍隊能夠大幅增加活動發生的頻率,進而推動序列的節奏并縮短機會之窗。當人工智能在沒有人的情況下在觀察決策-行動循環中引導自主系統時,這種關系會進一步加速。時間,以及比對手更快地觀察和行動的能力,成為執行匯合的關鍵因素,使美國“友軍”能夠獲得暫時的優勢位置。
自從計算機網絡、戰術數據鏈和衛星通信的普及以來,美國還沒有遇到過對手。目前在量子技術、人工智能和自主性領域的努力對美國各軍種在其各自的統治范圍內獨立運作的能力提出了挑戰。因此,正如美國陸軍的多域作戰 2028 概念所預期的那樣,在戰場上創造臨時可利用優勢的能力依賴于跨多個域融合聯合能力。目前,這一過程主要由協調小組執行,其主要任務是通過 "域聯合解決方案的階段性同步"來匯聚能力。然而,與同行競爭者進行融合的復雜性,其人工智能引導和自主武器系統將決策和同步循環縮短到幾分鐘或幾秒鐘,這需要開發新技術。 MDO 2028的設計師承認這一缺陷,以及任務的復雜性,并列出了融合的考慮,要求開發新的軍事技術來填補這一關鍵的空白。
因此,未來的 C2 系統需要為所有梯隊的指揮官提供盡可能接近完整的戰場空間內所有聯合單位的通用作戰圖。此外,這些系統需要快速傳輸偵察和目標數據,以使用動能和非動能手段繼續攻擊目標。然而,即使未來的C2系統能夠為指揮官和他們的參謀人員提供數據,使他們能夠在多個領域融合能力,但與在快速轉瞬即逝的機會窗口內任務相關的大量信息融合很快就超過了人類的認知能力。此外,其他因素,如彈藥優化要求和不同的能力再生窗口,進一步增加了在多域作戰中融合能力的復雜性。
目前為應對新出現的威脅所做的努力表明,美國各軍種在開發和部署國防部范圍內的能力方面仍然進展緩慢。美國軍隊正處于重組過程中,這為創建專注于打仗的系統提供了機會,而打仗需要嵌套和連接的C2系統,以促進快速交接和整合聯合使能器。如果現在不建立這些能力,將導致發展出一支名副其實的“多域部隊”,因為軍隊將不再具備2028發展目標所設想的那樣融合能力,而是退回到既定的解沖突和同步過程,這種程序太慢,效率太低,無法保持競爭力。
正如本文所說明的那樣,面對擁有人工智能引導和自主武器系統的同行威脅,保持競爭力的唯一途徑是發展類似的能力,在幾秒鐘內建立并執行冗余的傳感器到射手的連接。將人工智能整合到作戰管理過程中不是一個保持領域優勢的問題,而是確保美國軍隊能夠在對抗、利用和再對抗的連續循環中創造短暫的優勢窗口,這種對抗在所有作戰領域中以秒計。
本報告描述了2021財年美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)未來風險項目 "決策動力學、欺騙和博弈論"的研究工作。為了提高指揮和控制多域作戰的決策輔助工具的有效性,有必要開發能夠協助復雜決策的人工智能(AI)工具。該項目開發了一個人工智能測試平臺--ARL戰斗空間(ARL Battlespace),用于創建和研究復雜推理的人工智能決策輔助工具。ARL Battlespace是一個由友好和敵對的人類和人工智能Agent組成的多人網絡兵棋推演工具。分層貝葉斯模型的初步結果說明,在具有不確定性、欺騙和博弈論的情況下,具有復雜推理功能的人工智能多學科發展框架具有潛力。該項目還開始開發一個基于與戰場可視化和交互平臺以及高性能計算持久服務框架的潛在集成的人機協作決策框架。這些成果為改善人-人工智能團隊的復雜決策和協作能力開啟了研究的大門。
作為美國防部人工智能(AI)戰略的一部分,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)正在開發基于人類系統適應戰略的研究項目和技術,包括開發基于人-AI團隊決策和相互適應的超人能力的目標。這些新能力對于解決陸軍的多域作戰(MDO)戰略是必要的,特別是其滲透和分解階段,在此期間,人工智能輔助決策可以增強指揮官處理高速和大量信息以及地面、海上、空中、太空和網絡領域的復雜動態的能力。一個關鍵的挑戰是,現有的人工智能算法,對于復雜的決策來說是遠遠不夠的,而且對MDO相關場景的概括能力有限。另一個挑戰是,現有的陸軍理論和決策支持程序沒有將人工智能納入軍事決策過程(MDMP),而陸軍的自動規劃框架(APF)剛剛開始解決這一差距。此外,現有的人-人工智能編隊決策理論和技術僅限于簡單的決策,為復雜的深度決策在提供人工智能透明度方面非常有限,在這種情況下,多種依賴性、不確定性以及信息領域和行為者與復雜的人類、物資和環境動態相交。它們與人類專家的隱性推理協同工作的能力也很有限。發展這些能力需要一個綜合的、多學科的研究方法,包括為新的人工智能研究和人類與人工智能的編隊協作開發人工智能試驗基地。
對于兵棋推演,有必要開發能夠模擬包括戰術和戰略層面在內的多個梯隊的決策測試平臺。現有的兵棋推演決策工具,如Opsim、AFSIM和OneSAF,可以在多個規模上對許多因素進行建模和模擬,以預測基于戰略、物資能力和資源的結果,但它們受到老化系統的限制,有經驗的士兵可能難以學習,也不太適合開發人工智能和人類+人工智能編隊協作的能力。最近,人工智能能力的快速上升為開發和納入新型人工智能作為兵棋推演的決策輔助工具打開了研究的大門。最近人工智能推理的改進(例如,基于深度強化學習)是基于環境狀態完全已知的“開放”游戲(例如,跳棋、國際象棋和圍棋),它們是基于有限的合作性或欺騙性。即使在有額外復雜性的情況下,如環境的不確定性(憤怒的小鳥、雅達利),決策的復雜性、靈活性和對多人兵棋推演的可轉移性也是有限的(如撲克、Minecraft、星際爭霸[圖1])。盡管這些模型可以深入探索決策,但它們只限于選擇結果的潛在價值可以很容易測量和量化的條件。兵棋推演環境給人工智能學習帶來了困難和未解決的挑戰,因為有許多信息不確定性的來源,不僅來自環境,也來自人類和人工智能Agent。人工智能需要適應不斷變化的規則和戰略,迅速減輕出乎意料的敵方能力,并利用新的機會和友好的能力。人工智能還需要與他們的人類隊友相互適應,他們需要有默契的推理能力來與人類專家協同工作,并補償個人的偏見和啟發式方法以及變化的認知狀態。與博弈論等經典方法不同的是,未來狀態的預期效用可以根據合作或不合作的選擇對有限的行動集進行明確的量化,兵棋推演提出了跨環境和社會動態(包括合作性和欺騙性)以及跨多個時空尺度和領域的相互作用的可能性,這使人工智能學習決策如何與未來狀態價值相聯系的能力受到影響。
圖1 ARL在更廣泛的人工智能研究戰略中的Battlespace平臺
解決這一差距需要持續的基礎研究工作,實驗的重點是為決策中的具體問題發現原則和開發新的算法,并有能力將這些原則和算法與MDO的兵棋推演聯系起來。例如,在具有不完善的知識和不確定性的復雜情況下,提供接近最佳解決方案的人工智能可能比提供單一的"最佳"解決方案更有幫助。這種解決問題的方式與人工智能的透明度也需要探討。對近乎最優和不確定性等條件進行實驗,并采用新的作戰人員機器界面(WMIs),可以產生新的算法、通用工具和原則,更好地協同人類和人工智能對復雜決策的探索。
陸軍戰略科技(S&T)計劃的一部分是為 "超人類"的決策和行動開發能力。對于科技計劃中的"人-系統適應"部分,預期的結果是將人類特有的能力和機器的新興能力結合起來,最大限度地提高速度和選擇,以有效應對2035年及以后的社會技術環境的復雜性、智能化和動態性。預計這些研究工作將為人類引導的機器適應、訓練精通技術的士兵、混合人機思維、以及下一代人類系統集成和系統級分析創造新的能力。由于戰爭正在快速變化,包括不斷的技術變化,實現這樣的能力需要制定一個研究計劃,以推進人工智能、人類與人工智能的合作,專門用于復雜的決策。
作為DEVCOM陸軍研究實驗室未來風險投資(DFV)計劃的一部分,這個項目的目標是開發一個跨學科的計劃,以解決人工智能決策的復雜性和人類-人工智能團隊決策中的差距。這包括開發一個人工智能研究測試平臺--ARL戰斗空間,將復雜的兵棋推演決策抽象為關鍵要素,以便人工智能和人類-人工智能團隊的發展可以專門關注復雜的決策過程本身,同時避免物理現實主義和當今材料和理論的計算和概念限制。這也包括為如何發展人類-人工智能協作決策創造新的概念,了解如何塑造信息流以實現人類-人工智能決策的相互透明,以及在人類和人工智能都難以篩選出不確定性和欺騙的條件下實現相互適應性學習。顯性和隱性的決策框架都需要通過這個抽象的兵棋推演測試平臺來實現,以便人工智能可以在多個推理層次上學習和接受挑戰。還需要一個適當的抽象水平,以使多種類型的研究,包括神經科學、人工智能和決策理論交叉的學術研究,以提高人工智能決策的能力和復雜性,并改善其在軍事方面的轉化。
根據設想,在2035年及以后的陸軍中,指揮與控制(C2)決策將由決策輔助系統來激活,該系統利用分布在多個梯隊的人工智能能力,并以復雜和快速的方式攝取所有領域的數據,這將使沒有輔助的士兵感到不知所措。啟用人工智能的決策輔助工具將能夠對戰斗空間進行前沿模擬和分布式訓練;在MDO的滲透和解除整合階段,能夠對條件、友軍和敵軍戰略以及能力變化的可能影響進行調整和前瞻預測;并能夠對關鍵決策進行事后審查。人工智能將為其決策提供透明度,使真實和抽象的決策空間互動可視化,并根據陸軍理論和未來理論的要求,對士兵的個體化和情境進行優化。相反,人工智能將與士兵共同適應,學習如何在信息不足、沖突或欺騙的情況下做出復雜的決定,并為有效的團隊決策重新塑造、完善和展示信息。有了人工智能Agent作為數據有效轉化和行動化以及利用顯性和隱性知識的合作伙伴,預計分布式C2指揮官將能夠在MDO的許多時空尺度和維度上共同制定和協調行動方案,并且戰術和戰略的跨領域互動將被向前模擬,對環境、人和戰略的動態有更強的彈性。除了增加復雜決策的能力外,預計決策過程本身將通過消除繁瑣的計算和其他延遲而加速,從而使計劃和戰略能夠比實時更快適應不斷變化的戰場和外部(如外交、經濟)因素。
為了實現這一未來,為復雜決策開發新型人工智能的計劃的長期目標是利用多個學科的持續進步。用于推理的"核心人工智能"的發展,在為簡單決策迅速取得進展的同時,需要持續的協同創新,以及來自神經科學和心理學等領域的研究,以便在獎勵難以分配給具體事件或行動的條件下(例如,因為不清楚以何種程度的確定性將獎勵的原因歸于誰、什么、何時、何地或為何),為強化學習開發新型理論。需要機械層面的理論(例如,神經膠質網絡如何支持將不同的事件與獎勵聯系起來)和更高層次的理論(例如,社會規則如何塑造學習)來彌補目前核心人工智能的有限能力和C2決策的需求之間的差距。還需要協同創新和研究,將人工智能的發展與士兵的隱性推理過程相結合,以實現元學習和元推理的決策互動。
ARL DFV項目是一種機制,旨在促進跨學科基礎和應用研究的新方向,解決研究差距,并為軍隊的任務創造新的能力。DEVCOM ARL研究員認為分析科學是一個需要能力的領域,具有高回報的潛力,需要對現有項目進行重新規劃和擴展,并需要新的項目來建立新的核心能力和建立內部的專業知識。
為了創造這些能力,這個DFV項目的主要目標是建立一個新的研究項目,為C2決策輔助工具的復雜推理開發新型人工智能。這包括開發一個人工智能測試平臺:ARL Battlespace,以便靈活地開發專門用于MDO C2決策的復雜推理的新型人工智能。現有的兵棋推演人工智能測試平臺往往局限于較簡單的決策,更注重于戰術性的地面行動。例如,正在進行的人工智能測試平臺開發工作,如ARL Simple Yeho人工智能測試平臺,側重于環境的真實性,有多個地圖層,包括道路、樹葉和海拔高度,向排長推薦決策,如路線規劃和士兵重新分配任務。由于對當地地形環境的關注,在該環境中開發的人工智能推理將集中在精細的社會和生態動態上,對協作和敵對決策動態進行深入訓練的機會比較稀少。這些稀少和復雜的問題("微小的、骯臟的、動態的和欺騙性的數據")迷惑了發展人工智能的經典方法,尤其是復雜推理。相反,這個DFV項目的ARL戰斗空間人工智能測試平臺抽象了當地地形的元素,將人工智能的學習和推理更具體地集中在復雜的MDO相關的C2深度推理上(多個決策步驟,包括更頻繁的合作和欺騙的機會)。這使得在C2兵棋推演的背景下,更有針對性地發展人工智能對復雜的多Agent(人、人工智能和人+人工智能團隊)的決策能力。
第二個目標是通過開發一個有效的WMI來研究和開發如何呈現人工智能的理解和預測以及如何利用人類的理解和預測,為復雜決策的有效人類-人工智能團隊合作創造條件。這項工作包括利用和開發高性能計算(HPC)資源進行計算支持,同時開發用于決策的商業二維交互和混合現實交互的定制軟件(例如,基于增強現實沙盤[ARES]平臺的戰斗空間可視化和互動(BVI)平臺)。通過開發多種WMI方法,我們期望這些平臺能夠實現復雜決策的快速原型研究,并能夠將我們的新型AI與更成熟的兵棋推演訓練和模擬框架與團隊進行整合。
我們預計,在新型人工智能開發、HPC計算支持和用于決策空間現實表現的WMI開發方面的這些努力將為人類-人工智能團隊的發展創造一個新的范例,為未來多個陸軍理論(MDMP、DOTMLPF、27 METT-TC28)的進步和現代化鋪平道路(圖2)。
圖2 在更廣泛的人類-Agent團隊決策研究戰略中的新型人工智能開發
這個項目開發了兩個研究框架 。首先,它開發了一個人工智能測試平臺,被稱為ARL戰斗空間,用于創建和調查人工智能的復雜協作和敵對決策。其次,它認識到目前軍事決策過程中的局限性,構思了一個用于人與人工智能協作的復雜決策的WMI,利用軍隊和商業開發的戰斗空間可視化平臺,與非傳統的HPC資源進行潛在的連接,實現人工智能增強的兵棋推演平臺。
這里,我們描述了我們開發ARL Battlespace的方法,這是一個開源的靈活的兵棋推演平臺,將促進開發基于強化學習算法的新決策輔助工具。特別是,我們關注的是有三個或更多合作和敵對玩家的博弈論的理論和算法能力的差距。雖然博弈論的概念,如囚徒困境和Brinksmanship("吃雞"),對于兩個玩家已經發展得很好,但它們還沒有擴展到三個或更多的玩家,由于鞍點和局部最小值的存在,決策環境可能很復雜,這可能混淆了強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。該兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
為了實現這些解決方案,我們開發了一個類似于國際象棋的棋盤游戲,由兩支隊伍組成,一支紅色部隊和一支藍色部隊,每支隊伍可以有多個聯盟(玩家)。游戲是在一個共同的戰斗空間上進行的,這個戰斗空間目前被設計為MDO每個領域的一套棋盤。圖3顯示了一組游戲棋盤的例子,我們考慮了一個"空中"和一個"陸地"棋盤。每個棋盤都被劃分為一組單元格,"空中"棋盤被放在"陸地"棋盤上,形成一個共同的戰斗空間。在這個例子中,我們選擇了創建方形網格,并且只考慮兩個領域。然而,在一般情況下,棋盤格可以采取任何形狀,并且可以任意縮小,而棋盤的數量可以靈活處理MDO中的每一個域。例如,"空中"盤可以由多個代表不同海拔高度的板組成。這種提法提供了一個通用的應用編程接口(API),允許在兵棋推演中取得基本的研究進展,因為它可以被定制以適應任何兵棋推演的場景。
圖3 用于復雜決策的ARL戰斗空間AI測試平臺
每個聯盟都被假定有一組部件,我們稱之為單位。目前,我們假設有四個地面單位和一個空中單位。地面單位由士兵、坦克、卡車和旗幟組成,而空中單位是飛機。每個地面單位目前都有相同的能力(即,相同的行動和視圖集)。然而,API的設計是為了使聯盟的每個單位都有定制的能力,從而使設計特定場景變得容易。
目前各單位的規則和行動如下。士兵、坦克和卡車都有一個目標,描述他們的導向。他們的行動包括 "什么都不做(doNothing)"、"轉向(turnH)"、"前進1(advance1)"、"射擊(shoot)"和"沖撞(ram)"。"doNothing"意味著該單位停留在他們的位置,不改變他們的狀態。"turnH"將單位的方向旋轉H度,其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移動一個單元。"shoot"向單位的方向射出一個彈丸,彈丸繼續向前推進一個單元,直到它與另一個單位相撞或在游戲盤外飛行。最后,"ram"行動使單位在其方向上向前推進一格,同時進行攻擊。與 "advance1"行動相比,"ram"行動總是有利的,因為攻擊可以消滅敵方單位。
飛機單位的規則和行動與士兵、坦克和卡車相似。這些行動是"什么都不做(doNothing)"、"轉向(turnH)"、"前進X、Y(advanceX,Y)"、"射擊(shoot)"和 "轟炸(ram)"。“doNothing”、“turnH”和“shoot”的動作與地面單位相同。行動“advanceX,Y”允許該單位沿東西軸線移動X單元,沿南北軸線移動Y單元。飛機也可以 "上升(ascend)"和 "下降(descend)"來起飛和降落。最后,"炸彈(bomb)"行動在飛機的正下方射出一個彈丸到陸地游戲盤上。旗幟單位無法移動,如果被俘,則被清除。
目前游戲玩法的實施很簡單。最初,每個聯盟(玩家)將其單位放在游戲盤的各自區域。當每隊有多個聯盟時,各隊的游戲板部分被平均分配給各聯盟。請注意,每個單位的位置對所有其他聯盟都是未知的。然后,每個單位觀察其可見范圍內是否有其他單位,提供一個戰爭迷霧的場景。我們將每個單位的觀察范圍定義為從該單位的當前位置開始的一個方塊;然而,可視范圍可以根據場景和單位的情況進行定制。一旦每個單位觀察到了,同一團隊的聯盟就會合作確定他們想為每個單位采取的行動集。這允許每個聯盟觀察其隊友的單位位置,并進行溝通以協調他們的計劃。接下來,每個聯盟為每個單位選擇一個行動。請注意,所選擇的行動只有屬于同一團隊的聯盟才知道。在選擇了行動后,游戲決議被應用,根據他們選擇的行動移動單位,并解決是否有任何單位被攻擊或與另一個單位相撞。如果一個單位被攻擊或與另一個單位相撞,它將被從棋盤上移走。這個過程不斷重復,直到游戲結束。
完成游戲取決于游戲的基本規則,這些規則可以根據具體場景進行定制。在這里,我們研究了兩種類型的游戲:(1)奪旗和(2)殲滅。奪旗游戲的目標是操縱地面部隊進入敵方領土以奪取對方的旗幟,旗幟的位置是未知的,必須通過探索才能發現。一旦所有的敵方旗幟被占領,游戲就會終止。殲滅戰的目標是發現并攻擊所有敵人的地面單位。在這里,一旦發現并消滅了所有敵人的地面單位,游戲就終止了。每種游戲的基本規則都是相同的,但實現每個目標的最佳策略是不同的。在這兩種類型的游戲中,由于敵方單位和旗幟的能見度有限,存在著高度的不確定性。
接下來,我們報告了我們在開發基于模仿學習思想的人工智能Agent方面的初步結果,模仿學習使用的是由人類演示構建的分層貝葉斯模型。我們從討論數據收集過程開始,對數據進行分析,最后用啟發式方法使一個簡單的人工智能Agent勝過一個隨機Agent。
為了學習人類的策略,我們讓五個人類受試者組合在一起,針對第2.1節中討論的兩類游戲(即奪旗和殲滅),與兩個隨機Agent進行ARL戰斗空間游戲。在每個回合中,每個隨機Agent根據一個固定的分類分布為每個單位??選擇一個行動,其中采取一個行動的概率是
,
取決于單位??可以采取的行動數。回顧一下,每個單位的行動在第2.1節中有描述。
每個游戲由一對人類受試者對兩個隨機Agent組成,在每個游戲開始時,人類受試者合作討論他們對該游戲類型的整體策略。這導致了20場游戲的收集,其中奪旗和殲滅戰各10場。一旦所有的游戲都進行了,就對游戲數據進行分析以確定人類的策略。
分析游戲數據的第一個方法是研究人類玩家的行動頻率。行動頻率被定義為 ,其中D代表奪旗或殲滅的游戲數據。
是指在所有游戲中,單位??采取的行動次數,而??(??)是所有游戲中的總回合數。
圖4顯示了地面單位(即士兵、坦克和卡車)的行動頻率,圖5顯示了空中單位(即飛機)的行動概率。游戲的總體目標決定了所選擇的行動,使我們能夠確定所玩游戲的類型。如圖4所示,奪旗游戲的地面單位更有可能選擇前進和攻擊的方式,用 "沖撞"的動作來尋找旗子。此外,"什么也不做"的行動也被更頻繁地選擇。這是因為一旦團隊找到旗子,離旗子最近的單位就會采取行動去搶奪旗子,而其余單位則什么都不做。對于空中單位,人類受試者更傾向于選擇 "advance0,-2 "的行動,即把單位推進到敵人的領土上尋找國旗。
圖4 從人類游戲中產生的所有地面單位,以游戲類型為條件的行動概率
圖5 從人類游戲中產生的空中單位,以游戲類型為條件的行動概率
在 "殲滅"游戲中,人類Agent更傾向于選擇攻擊行動來消滅敵人的目標(即對地面單位采取 "射擊",對空中單位采取 "射擊"和 "轟炸")。為了進一步驗證這一策略,圖6顯示了每回合平均射彈數量的累積總和。顯然,"殲滅"游戲的射彈數量比"奪旗"游戲要多。
圖6 每一回合中射彈總數的平均累積總和
兩種游戲的另一個區別是,奪旗游戲的總回合數要比殲滅游戲少得多。這是因為人類Agent找到旗子的速度比他們找到敵方單位并消滅它們的速度要快。
基于對人類Agent如何與隨機Agent玩游戲的簡單理解,我們可以按照類似的方法來學習策略,為簡單的人工智能Agent開發啟發式方法。
一個簡單的人工智能Agent的算法如下。最初,Agent隨機地將他們的單位放置在棋盤的指定區域。然后,每個Agent確定每個單位的狀態。考慮到狀態和游戲的目標,Agent從預定的概率分布中為每個單位抽取一個行動。
這個過程在每個回合中都會重復,直到游戲結束。預定的概率分布遵循一個分層貝葉斯模型。為了便于表述,我們在附錄中提供了相關理論。對于最簡單的情況,我們認為單位在每個回合中可能處于兩種狀態,或
。然后,概率分布
根據附錄中的公式A-1定義,與圖4和圖5中的行動頻率類似。然后我們將這個分布實現在兩個簡單的人工智能Agent中,并與兩個隨機Agent進行比賽。作為一個基線性能,我們與兩個隨機Agent進行了比較。在這兩種情況下,都進行了1000場比賽,并計算了獲勝百分比。通過使用雙狀態概率分布,簡單的人工智能Agent能夠在奪旗游戲中贏得84.5%的時間,在殲滅游戲中贏得76.9%的時間。
接下來,我們為每個單位i考慮了一個更大的九態狀態空間,定義為,其中??r0和??r1分別表示一個友好單位是否被i單位觀察。??0和??1分別表示i單位是否觀察到敵方單位;以及??l0和??l1分別為團隊是否看到敵方旗幟。同樣,概率分布
然后根據附錄中的公式A-1定義,并落實到兩個簡單的人工智能Agent。在奪旗游戲中,簡單人工智能Agent對兩個隨機Agent的獲勝比例為89.4%,在殲滅游戲中為82.3%。
結果摘要見圖7。有趣的是,在兩種形式的概率分布(即雙狀態分布和九狀態分布)中,奪旗策略都優于殲滅策略。這是因為 "消滅 "游戲中的Agent更有可能選擇 "射擊 "行動,由于隨機的初始位置,這將導致更多的友好射擊。因此,作為一個簡單的人工智能Agent,采取先攻后守的方法更有利。此外,當我們考慮到單位的額外狀態時,獲勝的百分比會增加。未來工作的一個可能方向是開發深度強化學習策略,以學習最大化獲勝比例所需的狀態定義和數量,即使是面對人類Agent,也要為MDO中的C2提供建議。
圖7 簡單AI Agent的獲勝比例
ARL戰斗空間測試平臺的關鍵優勢在于其靈活性和適應MDO任務規劃的變化需求。它的抽象性使關鍵的決策過程及其互動和動態被壓縮到一個較小的游戲盤中,并有更多可量化的人與人工智能的互動,用于開發人與人工智能的團隊合作。這使得人工智能的開發能夠集中于復雜決策的獎勵塑造,同時減少由于滋擾因素(如時空縮放)造成的學習障礙,這些因素使決策在時間和空間上變得稀疏,因此,更多的努力(人工智能以及人工智能開發者的部分)可以被用于在各種時空尺度的不確定性和欺騙下的學習。它還將兵棋推演互動中可能不容易被整合到人與人工智能團隊中的特質(例如,人類心理學的某些方面,如個人關系)放在一邊,以利于在人工智能推理發展方面取得更切實的進展。在下面一節中,我們介紹了幾個挑戰和發展人工智能進行復雜推理的例子。這些例子包括博弈論、元推理和網絡欺騙,涉及到現有人工智能算法尚未處理或解決的各種復雜決策。由于人工智能的C2決策輔助工具將有望超過人類水平的決策,不僅在速度上,而且在復雜性上,我們設想這樣的C2決策輔助工具需要能夠解決大多數(如果不是所有)的情景。
我們首先關注博弈論和兵棋推演之間的差距,在一個簡單的突破場景中,這是兵棋推演中經常遇到的一個經典問題(例如,在橋梁交叉口、地雷區和山口[圖8])。在經典的博弈論概念Brinksmanship("吃雞")中,友好的藍色和綠色坦克被激勵著越過缺口到達另一邊。通常情況下,這些坦克會協調他們的行動,但如果藍、綠坦克之間的通信被破壞,一個單位(如藍坦克)的行動可能會因為與另一個單位(綠坦克)的碰撞或友好射擊而導致低回報。如果還包括囚徒困境的元素,那么這個場景就迅速超越了經典的博弈論,因為可能需要綠色和藍色坦克一起穿越,共同攻擊更強大的紅色坦克,這需要仔細協調。額外單位的存在(例如,綠色飛機對敵對單位提供觀察、轟炸或干擾,如黃色士兵提供可能的增援)能夠進一步操縱動態和環境對決策的限制或機會。飛機也可能發現第二個缺口,或者 "墻"可以滲透,以創造缺口(例如,清除地雷或建立額外的橋梁交叉點)。
在粗略尺度(如10×10板)和背景下學到的行為可以通過獎勵塑造逐步推廣到更細的尺度和其他背景下。額外的地圖層也可以被添加到諸如快速地下運輸等領域,以繞過地面層中的墻壁。環境因素,如天氣,也可以包括在內,以改變機動性。因此,即使是一個看似簡單的場景,也可以提供豐富的機會來操縱影響決策動態和結果的因素,并探索不同類型的不確定性之間的相互作用如何改變決策景觀,以創建鞍點和局部最小值,從而混淆強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
圖8 帶有豐富博弈論條件的場景
在ARL戰斗空間游戲中,每個玩家都有一面彩色的旗幟,游戲可以通過殲滅所有對方的地面單位或奪取對方的所有旗幟來獲得勝利(現實生活中的一個等價物是奪取所有關鍵的橋梁或指揮中心)。根據游戲的狀態,指揮官可以決定改變整體策略(殲滅戰與奪旗戰),以更快地取得勝利。例如,如果一輛坦克已經接近一面旗幟,那么將剩余的單位轉到其他地方尋找剩余的旗幟可能是有利的(圖9)。相反,如果一支敵對部隊守衛著第一面旗幟,那么優先奪取這面旗幟可能會更好,這樣搜索第二面旗幟的效率會更高。這種未闡明的推理,或稱 "默契推理",往往在自然的人類決策中根深蒂固,這是一種需要開發的人工智能能力,以便人工智能能夠有效地參與人類-人工智能團隊的決策,使人工智能的發展能夠開始有工具來獲得人類決策的創造性。
圖9 帶有隱性推理和任務重新分配的元推理標志方案
對于人工智能的發展,這就需要一個額外的更高級別的推理Agent不斷地監測游戲的狀態,以做出切換策略的選擇,并將此傳達給控制各個單位的Agent。元推理包括監測推理所涉及的步驟,以及平衡影響活動結果的標準。此外,元推理結合了不同信息的不確定性,以產生更有意義的、符合背景的決策建議。納入元推理可以使約束條件和各種決策方法得到權衡,為行動方案提供不同的選擇。例如,基于元推理的替代選擇可以決定是否優先考慮探索與攻擊已知敵方單位與防御,部署哪種機動戰略,或者考慮到敵方部隊的可觀察位置如何重新分配任務。由于ARL戰斗空間環境的網格大小較小,游戲可以快速進行,導致經常有機會使用元推理,并使人工智能有機會學習結合和預測多種類型的元推理方法的相互作用。由于抽象環境增加了人工智能學習戰略如何交互的頻率,這將使人工智能學習更高級的戰略,例如需要平衡不同戰略、能力和任務要求之間的交互,保持選擇的自由,并產生戰略模糊性以迷惑對手。總的來說,這種方法的好處是通過增加控制和監測機制來改善決策,這些機制包括一個平衡行動和環境約束的元推理Agent。
對抗性決策的一個關鍵方面,特別是在戰爭中,就是欺騙。欺騙可以發生在多個層面,包括戰略、可觀察的信息、單位能力和位置。在ARL戰斗空間中,單位的可觀察性有限,這自然為欺騙創造了機會,而飛機在敵方空間深處的探索能力也為揭開單位位置的欺騙提供了機會。圖10展示了一個簡單的欺騙場景的例子,在這個場景中,友軍的藍色和綠色部隊試圖穿越到另一邊。左下方的友軍士兵開始通過左邊的缺口發射導彈,因為他們的Agent推斷(通過對方Agent的人工智能心智理論),看到導彈后,敵方Agent會推斷出友軍正準備通過該缺口進行攻擊。這種欺騙,通過將敵方Agent的注意力和計劃集中到左邊的缺口,使他們偏離右邊的缺口,為藍綠坦克從右邊進入創造機會。通過設計有兩個缺口的情景,該情景建立在經典心理學的兩個替代性強迫選擇任務的基礎上,能夠應用敏感的心理學工具進行決策分析,并開發動物模型,從神經生理學和行為學上剖析支配欺騙的情境依賴性學習和決策的基本細胞和分子機制。例如,人們可以引入一些因素,使友好或敵對的決策出現偏差(例如,通過操縱傳感器的噪音或操縱總部的命令),或應用光遺傳學和化學遺傳學工具等方法,了解他人的認知、信念或策略的神經表征(例如,在前扣帶回和眶額皮層中)對決策計算的貢獻(在前額皮層中)。這種調查還可以發現決定一意孤行、啟發式方法和隱性偏見與對其他假設的開放性的因素,這可以幫助確定在特定條件下如何最好地重新分配任務(例如,當一個人對等級指揮結構有偏見時,他可能不太愿意追求與總部的命令相矛盾的傳感器信息)。這種固有的偏見、啟發式方法和默契的推理是人類推理的自然組成部分,在我們與他人的互動中會被預期到;人工智能的心智理論包括這種偏見補償,對優化人類+人工智能的團隊合作可能是有益的。
圖 10 需要人工智能心智理論的簡單欺騙場景
在人類的決策中,來自不同領域的信息可以結合起來,產生意想不到的效果。心理上的McGurk效應是指口型"ga"和聽覺上的音節"ba"在時間上有很強的同步性,從而產生幻覺"da"。雖然多感官整合似乎沒有在C2決策中得到探索,但MDO中多個領域的匯合,特別是其在穿透和分解整合階段的高容量和高速度,可能會產生意想不到的非線性跨領域的相互作用(這可能有助于"戰爭迷霧")。圖11說明了一個例子,在這個例子中,實際跡象(導彈)和坦克誘餌(由中間人[MITM]網絡攻擊產生)的組合可以協同作用,迫使敵方單位向左側缺口移動。為網絡欺騙創造趨同的跡象線是一種普遍的策略,然而特定的欺騙模式可能比其他模式更有效。例如,人們認為大腦會將相似或相關的跡象分組,以進行有效的處理(如格式塔分組),這樣就可以克服信息瓶頸(如處理七個以上的名義項目,從而減少單個項目的影響)。如果進行每一次網絡攻擊都會產生一定的成本或風險,那么了解如何將這些成本分配到不同的線索特征中,以便以最小的風險提供最有效的影響可能是有益的(例如,如果MITM攻擊產生導彈誘餌,那么它的效果可能會降低,甚至是反作用)。了解不同的線索組合如何被不同的士兵所感知,也可能是有意義的。具有不同偏見或處于不同角色或梯隊的指揮官可能對相同的跡象組合有不同的感知、解釋或行動(例如,一個誘餌的有效性可能取決于它與目標指揮官的距離以及與他的決策過程的相關性)。更高級的策略可能包括主動防御(例如,通過 "蜜罐 "策略[圖12]),以提高網絡欺騙的有效性。為了給MDO提供超人的能力,人工智能決策輔助工具可能需要根據即時可用的跡象在多個領域協助生成可信的誘餌,以網絡的速度迅速調整這些展示,并保持虛擬和現實世界之間的一致性,以保持幻覺的有效性。
圖11 帶有中間人攻擊的網絡場景
圖12 帶有蜜罐的網絡場景
上一節所述的ARL戰斗空間人工智能測試平臺通過將戰斗空間地形抽象為一個沒有現實表現的網格狀環境,提供了人工智能開發和測試所需的靈活性。例如,圖8顯示了一個類似于墻的障礙物,它被表示為幾個網格塊,與單位互動時應用的環境約束條件有關。人類團隊和AI都在共同的雙級網格化戰斗空間內進行游戲。人類玩家通過在控制臺窗口中輸入基于文本的編碼命令與ARL戰斗空間互動。這種命令行的交互和顯示加速了人工智能算法的開發過程,并為人工智能兵棋推演所需的大規模實時計算建立了與計算資源的潛在聯系。為人工智能兵棋推演測試平臺(如ARL Battlespace)構思一個用戶界面,并建立通往外部計算服務的管道,構成了DFV第二個目標的基本組成部分--開發一個用于復雜決策的WMI。
一個跨梯隊和作戰級別的軍事決策過程模型構成了為人類和人工智能兵棋推演開發一個有效的WMI的基礎。在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并模擬MDMP中各種因素的組合如何產生行動方案(COAs)、可能的反擊行動、資源使用估計和預測結果。在幾天或幾周內,MDMP過程形成一套精煉的COAs,對作戰環境做出某些假設,包括地形、天氣和設置戰場的單位的可用性和能力(即為支持主要作戰行動而塑造活動)。
盡管MDMP幫助指揮人員了解作戰環境和考慮作戰方法,但這個過程有許多局限性,如時間密集性、假設的僵硬性、跨場景變化的訓練機會有限,以及很少有機會將人工智能指導納入決策過程。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于MDO的復雜性增加,有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人力無法完成的地步。缺少MDMP所導致的規劃專業知識的缺乏會導致行動的不同步和不協調,并最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,整合了先進可視化能力的新系統和技術已經被開發出來,這些系統和技術可以提高對局勢的認識,從而加強決策過程。陸軍的例子包括Nett Warrior,它使下馬的戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協作規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個提供決策幫助的基礎人工智能引擎。BVI是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇的設備對共同作戰圖進行2D和3D可視化的能力。BVI架構可以被制定,以拉入外部計算服務,如分析管道、模型和AI引擎。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。陸軍的APF開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策的問題。指揮人員可以通過APF的數字規劃顯示、規劃創建者和規劃監控工具,在任務規劃和COA開發過程中獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF在MDMP中引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的高級可視化和用戶交互能力。
除了MDMP之外,最近將人工智能納入決策過程的努力包括了一些方法,在模擬人類決策過程方面取得了一些成功。一般來說,對于決策變量有限的問題,如資源分配、飛行模擬器和較簡單的場景,人工智能取得了一些成功。目前面臨的挑戰包括:需要提高人工智能的能力,以解決有多個行動者、不完整和可能相互沖突或欺騙的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度上可視化。
MDMP在支持MDO復雜決策方面的局限性,突出表明需要在三個方面進行改進。首先,有必要將人工智能生成的指導和輔助決策支持納入MDMP。這包括進一步發展和整合人工智能到戰斗空間決策規劃,以及進一步改善人工智能決策過程的可解釋性和透明度。第二,有必要在可能的情況下,將決策分析與戰略層面以及戰術邊緣的HPC的力量結合起來。這將能夠利用HPC系統的力量來改善建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動的展現。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何互動的,并利用混合現實技術來提高理解的吞吐量和深度,并實現平面顯示不可能的洞察力。
MDMP是陸軍設計方法的核心,用于應用批判性和創造性思維來理解、可視化和描述問題以及解決這些問題的方法。作為解決問題的行之有效的分析過程,必須克服前面描述的MDMP的局限性,以便快速制定一個靈活的、戰術上合理的、完全整合的、同步的規劃,以最小的傷亡增加任務成功的可能性。下面的小節描述了對MDMP的潛在改進,以支持人類與人工智能的合作決策。
需要新的人工智能支持的WMI,以利用人工智能決策的持續進步,并為復雜的適應性決策的人工智能學習做出貢獻。通過匯集所有領域的信息,計算人類和人工智能Agent的風險和預期回報,人工智能決策輔助工具的發展將提供能力越來越強的COA建議。現有的人工智能有幾個局限性,特別是對于有不確定性的復雜和適應性決策,以及人類和人工智能Agent的協作和對抗。對多Agent的協作和對抗性決策進行建模可能特別復雜,因為它的遞歸性質,其他Agent是模型的一部分,需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的人機協作交互可以提供加速和更有效的決策。為了實現有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,幫助人工智能發現決策的隱含規則。在此,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效的人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋和國際象棋等游戲中的成功是基于對世界現有狀態的完全了解(即 "開放"游戲),而兵棋推演通常包括關于作戰環境的不完整(如星際爭霸)、不確定和/或欺騙性的信息。由于世界狀態、不同行動者的狀態以及所采取的行動影響的不確定性,知識的缺乏使得人工智能Agent難以計算未來行動的風險回報情況。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(即由于信息有限而選擇錯誤)的情況并不少見,因為人類在制定有效探索隱藏信息的策略時,會采用啟發式方法來進行有效的選擇和預測。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策圖,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠適時地從人類的決策中學習,而不施加認知負荷。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動的決策,以及一個實施進攻和防御欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖,即一小部分最優和接近最優的決策策略清單是可以解釋的(例如,通過決策樹)。這應該包括對關鍵Agent在不確定情況下的未來狀態和風險回報情況的估計,以使有效的博弈論決策能夠被共同開發和相互理解。
這些挑戰為有效的WMIs的可能設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)攝取信息,以及一個能夠承載整合這些信息的計算能力架構,同時還要處理基礎的人工智能計算(包括學習和部署)。我們還需要共同開發一個交互和算法設計,以適時地利用人類和人工智能Agent的優勢并減少其局限性。
在MDO兵棋推演的復雜決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從動態狀態空間的累積數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析見解,并創建在復雜決策背景下有用的表示。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對高性能計算服務的非傳統訪問,而不像傳統的HPC環境那樣,計算節點在特定時期內以批處理模式分配給用戶。此外,PSF可以提供對數據、數據庫、容器化工具集和其他托管平臺的分布式持續訪問。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決策。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用信息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實現利用大數據攝取和分析的人工智能輔助決策機制,同時可供地理分布的用戶用于協作決策工作。連接到PSF托管服務器的各種混合現實顯示模式可以支持從戰略層面的C2到作戰邊緣的更多移動戰術使用等一系列作戰場景。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境。
戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供了解復雜的戰爭游戲狀態空間所需的洞察力。例如,BVI平臺可以使用多種可視化模式的組合,真實地呈現地理空間的地形。作為一個數據服務器,BVI向支持多種可視化模式的客戶端應用程序分發地形、作戰和Agent行為數據,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
圖13(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化。
可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖13,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性
圖13 BVI網絡戰術規劃器中的兵棋推演場景的三維視圖(上)與人工智能決策樹的概念(下)。
人工智能對人類自然決策行為的機會性學習,以及學習環境的適當結構和順序,使人工智能被訓練過程有效地塑造,是已經建立起來的提高人工智能快速學習困難挑戰能力的框架。要進一步提高人工智能在兵棋推演中的復雜決策能力,需要提高人工智能在具有高度不確定性的MDO背景下處理決策的能力、欺騙性和博弈論,這些都是人工智能發展過程中獎勵分配的挑戰。克服這些挑戰需要利用多學科的進展,從了解大腦的決策、獎勵和計算的神經生物學進展到專業知識、隱性知識、心智理論、博弈論和元推理在復雜決策過程中如何應用的心理學進展。
人工智能如何能夠最好地學習人類的復雜決策仍然是一個開放的問題。盡管對復雜決策進行獎勵塑造的確切機制還沒有被發現,但這個項目已經產生了如何通過一個新的人工智能測試平臺和WMIs來發現這種機制的設想。ARL戰斗空間人工智能測試平臺和場景將人類和人工智能置于與MDO相關的決策環境中,使人工智能能夠學習不同的決策和因素如何相互作用,以及人類如何通過這種復雜的決策樹進行合作和對抗。一個關鍵的進展是,測試平臺和場景提供了一個豐富的環境,通過抽象化那些會使決策要領稀疏化和阻礙學習的因素,有效地開發人工智能心智理論和與MDO相關的元推理,以進行復雜的決策。
另一個進展是開發高性能計算框架,以實現人工智能決策支持的連續分布式訓練。這將使人工智能決策輔助系統能夠托管在ARL的持久性服務框架上,因此,將來士兵可以隨時隨地以人類和人工智能混合團隊的形式,針對人工智能兵棋推演Agent進行單獨或協作訓練。
這個項目的第三個進展是開發了一種可視化人工智能決策過程的方法,以實現人工智能的透明度和信任,以及人類與人工智能團隊的合作決策。人工智能的推理必須既抽象又與兵棋推演環境相關,這樣人類就可以理解人工智能對不同決策結果的評價,并有效地瀏覽人工智能的決策樹,而不會造成過度的認知負擔。我們已經向人工智能增強的WMI邁出了第一步,它基于三維混合現實,利用和增強人類固有的三維認知和預測的能力。隨著進一步的設計,我們設想它的界面將給人以自然的感覺,同時擴大顯示多個領域的信息,并使人工智能能夠適時地從用戶的決策中學習。這種自然的、直觀的人工智能輔助決策系統,是為了支持MDO C2決策而開發的,包括隱性推理,以及協作和對抗推理,對于人類在復雜決策中信任人工智能對COA結果的估計至關重要。
雖然最近在游戲中對深度強化學習算法的利用顯示出巨大的前景,但這種成功的前提是與一個相對簡單、結構良好的游戲合作。真正的挑戰出現了,因為環境越來越依賴于稀疏的觀察數據、復雜和動態的Agent策略。完全在內部開發平臺與在現有的開放源碼庫上建立平臺相比,有幾個權衡因素--主要是限制因素的最小化和環境開發的純粹工作量。創建一個全新的定制平臺可以完全定制與游戲相關的錯綜復雜的問題,盡管變得非常耗時。相反,在使用現有的庫,如StarCraft2LearningEnvironment(SC2LE)時,會出現各種不可逾越的限制,但投入游戲開發的工作量會減少十倍。我們正在進行的ARL戰斗空間人工智能測試平臺的第二代開發,名為Simple Yeho(圖14),是建立在天平兩端的平衡上的,OpenAI Gym是一個用于開發強化學習算法的工具包,對輸入的Agent和環境結構不做任何假設。顯然必須遵循一個基本的框架,但OpenAI Gym除了提供大量的文件和例子供客戶參考外,還提供了完全的設計自由。從游戲開發的角度來看,并沒有立即需要解決的問題,但它確實需要成為未來一個更優先的事項。
圖14 簡單的Yeho人工智能測試平臺
未來的問題并不局限于游戲環境,因為它們將不可避免地延伸到理論上的強化學習挑戰,如無縫的多Agent通信、任務協調和固定的策略。更多需要關注的實際問題包括算法效率(限制計算密集型任務以及內存分配的心態),一種新穎的去中心化強化學習算法,以及跨多個領域的數據泛化。過度消耗硬件資源是人工智能所有分支中的一個共同瓶頸。從軟件的角度來看,ARL Battlespace AI測試平臺對資源消耗很少,該環境仍然專注于AI發展的研究問題,而不是全面的MDO實施,這就是為什么計算效率還不是一個緊迫的問題。歸納游戲狀態信息的潛在解決方案,特別是在動態環境中,包括時差變異自動編碼器和分布式時差強化學習,因為它們除了在數據點之間提供一個平滑的潛在空間外,還允許對未來的幾個狀態有明確的信念(這在元推理方面起作用)。我們的新型強化學習算法應該解決的其他主要問題是安全/認證、Agent決策透明度和Agent間的實時通信。將區塊鏈整合到DEVCOM ARL框架中,將確保節點之間的安全通信線路,提供一個不可改變的分布式賬本,以揭示Agent的低級決策,并向Agent引入民主投票系統,以促進團體合作,同時仍然保持個人的自私性。
目前軍事決策過程中的局限性確定了一個多學科的研究方法,用于開發復雜決策的人類和人工智能WMI。作為基礎層的決策空間的現實表示,包括具有地理空間精確性的自然和人工制作的戰斗空間地形。一個先進而直觀的用戶交互允許混合現實視角的戰斗空間,使決策者能夠根據作戰因素探索COA的替代方案。這兩個要求指導了對陸軍和商業開發的戰斗空間交互系統BVI的選擇,作為ARL戰斗空間人工智能測試平臺中實現的人工智能和人類-人工智能團隊發展的潛在過渡媒介。
過渡的第一步是將ARL戰斗空間的網格狀環境疊加到BVI真實世界的作戰地形上,并將現有的BVI多模態用戶交互調整為兵棋推演。圖15顯示了使用BVI的網絡戰術規劃器3D視角在歐文堡地形上疊加的擴展網格的一個部分,其中友軍和敵軍單位位于兵棋推演會話的開始。在瀏覽器窗口中,可以使用戰術規劃工具欄的鼠標、觸控板或觸摸屏互動來放置和操作單位。BVI提供了添加單位的功能;路線點、戰術符號和圖形;以及繪制線條、多邊形和文本框等特征。
圖15 BVI網絡戰術規劃器中帶有網格覆蓋的兵棋推演場景的三維視圖
一個尚未解決的問題是,如何最好地利用BVI的混合現實(XR)可視化功能來進行協作決策(例如,在兵棋推演期間,通過加強決策者對地形的地理空間因素的理解)。加載不同的地形和創建定制的訓練場景可能來自于多維數據,并以各種身臨其境的形式觀看,這超過了陸軍其他系統的可視化能力。根據這些三維地形的廣度和細節,當決策者使用一系列強大的交互方式在大面積的地形上進行操作時,界面如何顯示這些信息可能會造成大量的信息過載或混亂。一個有效的界面需要被設計成不僅要選擇傳達哪些環境和決策空間信息,而且要選擇如何從用戶的有利位置呈現這些信息。
如果不可能有開發時間和精力,BVI的API提供了機會,以標記、標簽和定位在地形之上的場景適應性網格的形式嵌入視覺輔助,作為決策者的空間管理干預措施。例如,圖15中描述的網格的行和列可以被標記或編碼,以快速定位實時事件和人工智能產生的活動。多維網格結構和編碼方案可以將兵棋推演提升到以MDO為特征的復雜水平,同時減輕一些基于地形的空間管理問題。
在空間和時間領域的數據分析中協調戰斗空間的多個視圖,可視化提供了額外的方法,促進兵棋推演期間的復雜決策。當需要一個共享的MDO戰斗空間呈現時,可以通過在不同的可視化模式上實施多個協調視圖來實現協作戰略規劃模式,根據分布式指揮人員的輸入進行互動更新。指揮人員的輸入也可以指導視覺過濾器對協調視圖的應用,從而減少不必要的復雜性,突出場景或任務關鍵的戰斗空間信息。
圖16顯示了SyncVis視覺分析系統,該系統旨在顯示多個協調的數據分析視圖,支持數據探索和理解。SyncVis通過用戶互動將每個視圖中顯示的信息與其他視圖聯系起來,從而產生多種數據可視化。這個例子顯示了SyncVis在四個協調視圖中對COVID分類人群數據分析的二維界面。變量選擇器(選擇六個屬性)、地圖/地形、相互信息圖和每個選定變量的疊加區域圖。
圖16 SyncVis二維界面顯示COVID數據分析的多種協調的可視化效果
SyncVis的可視化功能可以與使用PSF的HPC分析工作流程后端集成。PSF服務器可以向BVI和SyncVis流傳作戰和Agent行為數據,創造一個統一的戰斗空間探索體驗。基于用戶按需輸入和過濾的協調戰斗空間視圖的好處有待研究。
一個靈活的兵棋推演環境似乎是關鍵,因為每個訓練場景、COA和任務計劃都是在MDMP和相關軍事理論的約束下制定的,但又是獨一無二的,并取決于戰斗空間及其操作變量。一個HPC PSF數據分析處理管道為WMI提供動力,士兵或指揮官按需協調戰斗空間的BVI和SyncVis可視化,將徹底改變現有的兵棋推演范式,并觸及MDO固有的復雜程度,以及贏得勝利所需的人類和AI指導的決策水平。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。
記錄一個系統或集成系統內所有信息變化的出處,這提供了關于正在做出的決定和促使這些決定的重要信息。從取證的角度來看,這可以用來重新創建決策環境。然而,出處也可以為其他兩個重要功能服務。收集的數據可以支持組件的整合,而生成的圖形數據結構可以通過解釋、總結和告警來支持操作員進行態勢感知。混合戰爭將必然匯集不同決策支持能力,因為決策者必須在多個戰爭領域運作。自主代理將可能在計劃和執行過程中發揮作用,有時能夠在沒有人類干預的情況下做出決定,但人類決策者必須意識到這一點。事實證明,證據圖可以轉化為修辭結構圖(RSG),使代理能夠用自然語言甚至多模態交流,向人類解釋他們的行動。證據還被證明可以加強對計劃執行監控,并可用于向人類或自主代理提供通知,當計劃中使用的信息發生變化時,可能需要重新考慮計劃。隨著我們朝著智能機器在復雜環境中支持人類決策者團隊的方向發展,跟蹤決策及其輸入的需要變得至關重要。
出處是關于實體、活動、代理以及這些概念之間關系的信息[1]。這些信息不僅僅解釋了發生了什么,它還回答了關于實體如何被操縱、何時發生以及誰參與了這個過程的問題。我們很可能熟悉關于追蹤藝術作品出處的新聞和虛構的故事。任何實體的創造、破壞或修改的出處都可以被追蹤。在本文中,我們將重點討論軍事系統內的信息。在指揮與控制(C2)內,信息出處對于記錄行動背后的決策過程是必要的,特別是當自主和人工智能(AI)代理深入參與時。參與某一過程的 "誰 "可能是人類或人工智能代理。
信息出處有幾個目的。在取證方面,出處追蹤提供了參與決策的人和代理,以及數據是如何演化為該決策的。美國公共政策委員會指出,數據出處是算法透明度和問責制的一個明確原則[2]。完整記錄的出處可以闡明數據的依賴性、責任流,并幫助解釋為什么采取某些行動。隨著人工智能和自主代理繼續自動化進程,它們在做出關鍵決策時已變得更加不可或缺[3]。