對美國陸軍戰備來說,基于模擬的訓練提供了一種成本和時間效益高的方式來保持人員對其角色、責任、戰術和行動的充分了解。目前,由模擬支持的演習需要很長的計劃時間和大量的資源。盡管半自動化的軍事模擬提供了基本的行為人工智能來協助完成參與者的角色,但它們仍然需要人類模擬操作員來控制友軍和敵軍。演習支持模擬操作員直接來自預期的訓練對象,分配給士兵的角色扮演職責與他們組織的訓練。單位用他們團隊的一小部分人進行訓練,降低了訓練質量和整體效果。減少開銷和提高模擬支持訓練質量的一個方法是實施全自動和自適應的敵對部隊(OPFOR)。
DeepMind的AlphaStar、AlphaZero和MuZero說明了機器學習研究的進展情況。使用大型數據集或通用算法,這些代理人學會了如何在復雜的戰斗性戰略游戲中發揮并擊敗職業玩家。這些游戲包括延遲和稀疏的獎勵、不完善的信息和大規模的狀態空間,所有這些功績都支持機器學習可能是在建設性的軍事模擬中開發適應性OPFOR的關鍵。
本文調查了關于使用機器學習進行自動OPFOR決策、計劃分類和智能體協調的現有文獻。這一分析是未來研究支持建設性軍事模擬自適應OPFOR的現有能力和局限性的一個起點。
美國陸軍未來司令部(AFC)的未來與概念中心(FCC)在其戰斗能力發展司令部(DEVCOM)和情報與安全局(DOIS)的協調下,開展了其2021財政年度(FY21)未來研究計劃的第一項活動--2035年戰爭特征研討會(CoW35)。
在2020年11月16日至20日期間,來自陸軍現代化事業(AME)、聯合部隊、13個盟國和伙伴國、其他政府機構、工業界、智囊團和學術機構的400多名小組成員和參與者聚集在一個虛擬的在線研討會上,以確定和描述未來對手可能采取的新的和變革的戰爭方式。主題專家就廣泛的主題進行了小組討論,包括地緣政治、未來環境趨勢、未來對手趨勢、新興科技趨勢、生物技術、人工智能/機器學習(AI/ML)、機器人技術、聯合優勢和陸地戰爭。
CoW35研討會的一個關鍵產出是一份問題陳述,它最能說明2035年未來戰爭的一系列相互關聯的問題和特點。在AFC最近發布的2035-2050年未來作戰環境(FOE)的基礎上,CoW35研討會小組提出了關鍵的意見和見解,以確定未來戰爭的特點,并為未來決定性的陸軍力量的應用提供參考。CoW35研討會確定,2035年陸軍面臨的問題是,作為全球部署的聯合部隊和聯合部隊的一部分,陸軍如何在以爭奪領域、快速機器化決策和人機協作為特征的拒絕環境中,在與同行對手的武裝沖突中運用決定性的陸地力量來支持作戰指揮員。
本報告將為問題陳述的發展提供信息的關鍵觀察和見解分為三大領域:威脅趨勢、概念趨勢和科學技術(S&T)趨勢。此外,報告還描述了對陸軍創造轉型變革的能力至關重要的未來考慮,并為AimPoint Force 2035敘述和下一個未來陸軍作戰概念的發展提供信息。
鑒于2035年戰爭特征研討會的見解,并結合過去從未來研究計劃中的學習,本節討論了軍隊的廣泛影響,旨在引發思考和辯論,并協助軍隊發展未來的概念和部隊。
戰爭的歷史反映了達爾文進化論的核心。通過這個視角,對手將他們的戰術、武器和技術集中在摧毀對手的同時確保自己的生存。一個國家如果擁有優越的戰術、武器和技術,或者以創造性和協同性的方式使用它們,就能為在武裝沖突中獲勝創造條件。戰術、武器和技術隨著時間的推移不斷發展,但速度可能正在加快,這將挑戰關于未來如何進行戰爭的規范和假設。例如,在第二次世界大戰之前,人們認為戰艦與艦隊之間的戰斗仍將是海軍思維和規劃的中心。正是在珊瑚海戰役中,新技術--航空母艦、飛機和無線電--將海戰的新時代提前到來。在這場戰役中,戰艦既沒有看到也沒有直接向對方開火;是來自航空母艦的飛機摧毀了敵人的飛機,從而獲得了海上的指揮權。與上面的小插曲類似,陸軍部隊采用機器人和自主系統,利用人工智能和其他新興技術,可能會以新的方式進行陸地作戰。
最近的三場沖突預示著戰爭特征的變化。首先,伊斯蘭國(ISIS)和反伊斯蘭國聯軍在敘利亞的戰斗表明了無人系統作為力量倍增器的價值。ISIS在人員和資金有限的情況下,利用無人系統,通過自制的無人機和商用的四旋翼飛機進行偵察和空中攻擊。第二個事件是2019年的也門危機,伊朗支持的也門胡塞武裝完成了對位于Abqaiq和Khurais的沙特阿拉伯石油加工和儲存設施的復雜、遠程、無人機群攻擊。也門胡塞武裝通過使用新興技術,能夠復制出更能代表民族國家軍隊的能力和行動,而不是叛亂團體。最后,最近亞美尼亞和阿塞拜疆之間的納戈爾諾-卡拉巴赫戰爭表明了機器人系統在大規模作戰行動中的潛在用途。阿塞拜疆部隊廣泛使用無人駕駛系統來偵察、監視和瞄準亞美尼亞部隊。阿塞拜疆部隊利用無人機群和游蕩彈藥打擊亞美尼亞的坦克、火炮、防空系統和維持部隊,以擊敗亞美尼亞部隊。如果非國家行為者、叛軍和軍事力量較弱的民族國家能夠通過使用新興技術來發展戰爭行為,從同行競爭者的新興技術發展軌跡來看,威脅將更加嚴重。
鑒于這種潛在的范式轉變,陸軍現代化事業(AME)在發展利用新興技術的新概念和能力方面是正確的。然而,從想法到現實可能需要陸軍以新的方式審視自己。首先,陸軍應該仔細檢查其編制、組織結構、流程和習慣。例如,在近乎無處不在的傳感器下,編隊將如何集結能力和效果?大多數作戰平臺是否應該配備人員?什么是對戰斗人員的充分保護?在使用無人系統進行動能效應時,人類是否能夠保持 "在環 "內,無論是防御還是進攻行動?各級指揮官是否仍然需要大量的參謀人員,包括親自上陣,進行詳細的分析?是否有替代方法來制定行動方案?人永遠是陸軍的不對稱優勢嗎?以美國大陸為基地的部隊是否能夠在危機和沖突期間安全地將部隊投射到有爭議的地區?這些都是陸軍應該更詳細地探討的問題類型,以確定他們為什么要改變,如何改變,以及在哪里改變,以應對未來的挑戰。
陸軍可能還必須重新審視其定義作戰職能的方式。目前,陸軍的作戰職能有獨立的卓越中心和能力發展與整合局(CDID),負責新能力的獲取、訓練和裝備。然而,新興技術的運用和不斷變化的威脅可能會產生具有多個利益相關者的交叉作戰職能。例如,隨著新興技術的使用,保護作戰功能可能會發生變化,指揮官如何保護他們的部隊,以便他們能夠應用最大的戰斗力。也許,在未來,陸軍部隊需要執行一系列廣泛的保護相關活動,以獲得陣地優勢。陸軍部隊可以同時執行包含欺騙活動的移動防空(火力、防護、任務指揮),指揮無人駕駛拖拉機建立戰斗陣地(機動支援、機動、防護),指派空中無人機提供周邊安全(情報、火力、機動、航空、防護),同時遠程火力掩蓋敵人的雷達系統(火力、網絡、情報、任務指揮)以實現作戰機動,同時為預計補給(維持)發送維持更新。這個小插曲只是代表了未來戰爭的特點是如何演變的,這就需要陸軍審查其發展關鍵需求的過程,并創造更多的合作努力來獲得對可能的敵人的優勢。預測競爭優勢需要跨領域的整合,包括跨作戰功能和技術領域。
美國、其盟友和合作伙伴之間的互操作性可能是在未來武裝沖突中獲勝的必要條件。陸軍將3級互操作性--最高級別的技術互操作性--定義為盟友和伙伴在抵達后進行整合的能力,以及例行建立網絡并與陸軍編隊有效運作的能力。當代海外應急行動揭示了以今天的部隊實現互操作性的局限性,從網絡挑戰到安全考慮。隨著盟友和合作伙伴開發他們自己的人工智能、機器人和自主技術解決方案,這些挑戰可能會增加。支持未來能力的算法和數據也有可能成為專利和機密,挑戰陸軍在沖突期間整合盟友和合作伙伴的能力,而這時作為一個聯合和聯合團隊作戰是至關重要的。這些因素表明,新的能力和概念的開發應該是合作的,并考慮到盟友和合作伙伴。
展望2035年,研討會指出,戰爭的特點正在發生變化。正如在納戈爾諾-卡拉巴赫戰爭中所看到的,大國競爭者和對手正在投資于新興技術,以創造決定性的優勢并在武裝沖突中獲勝。美國陸軍正在明確表示,它也必須改變。三個關鍵的含義抓住了創建一支變革型部隊所需的變革思維類型:質疑長期存在的假設,重新評估作戰功能,以及確定未來的互操作性要求。
創造能夠適應人類的人工智能隊友的一個必要步驟是,開發能夠向人工智能系統表達人類目標和意圖的計算建模方法。用各種各樣的方法來實現這個目標是可能的,從基于過去數據的純粹預測模型到僅基于理論的生成模型。一種有希望的方法是所謂的從示范中學習的方法(Argall等人,2009;Ravichandar等人,2020),這種研究主旨是利用示范數據,如專家執行任務的行為,并訓練模型(通常被稱為 "智能體")來執行專家的任務。在本報告中,我們采用了從示范中學習的方法來模擬和預測模擬機器人在避撞的團隊任務中的行為。具體來說,我們采用了逆向強化學習(IRL)(Ng和Russell,2000年;Arora和Doshi,2021年),這是一種從演示中推斷獎勵函數的方法。
這項任務是基于一個研究性的視頻游戲,被用來研究人類自主性的團隊合作(Adamson等人,2017年),涉及一個由人類玩家和一個AI智能體共同控制的機器人。在沒有玩家輸入的情況下,AI智能體控制機器人,但玩家可以在任何時候推翻智能體,類似于現實世界中與自動駕駛助手一起駕駛的情況。這項任務對旨在模擬人類意圖的示范學習方法提出了挑戰,因為觀察到的任務行為來自兩個示范者的控制:一個是人類,一個是自動駕駛。例如,人類的行為可能是由對自己的目標的理解和對人工智能的目標的估計產生的。此外,當人工智能處于控制狀態時,所有關于人類的信息都是他們不提供輸入的,人類同意人工智能選擇的程度是隱藏的。
我們對這一特定任務的關注是由我們的團隊正在進行的工作所激發的,即利用激發這一任務的研究視頻游戲從參與者那里收集數據。最終,我們將嘗試模擬真實的人在長時間內的行為--每天玩180天--以促進適應性AI智能體的發展。這里描述的工作是對一種方法的驗證,這種方法將推動我們的團隊實現這一目標;然而,這種方法具有足夠的通用性,其核心概念可以應用于其他地方。
為了滿足現代戰場的需求,美陸軍必須通過將人工智能(AI)納入其系統來加強戰術指揮所。人工智能為軍團、師、旅甚至是營級指揮所提供了巨大的機會,使其在相對于潛在威脅編隊和指揮官的情況了解方面具有數量和質量上的優勢。適當開發、測試和投入使用的人工智能能力將更好地整合、優先處理和聯系信息,以加強對形勢的了解,并使決策更加有效。現代戰場上的多域作戰(MDO)要求指揮官及其參謀人員在多維的戰斗空間中作戰。這甚至會挑戰最擅長的參謀人員,而且部隊已經在處理大量的信息了。精心設計的人工智能算法和支持人工智能的應用程序將幫助美國機動部隊更好地了解他們的作戰環境,并將實現一個更強大的共同作戰圖景。
"促成決策"是信息優勢活動中的一項核心任務,執行這一核心任務將使指揮官、參謀部和編隊獲得并保持信息優勢。加強對形勢的了解是指揮官取得決策優勢的必要條件,但還不夠;加強對形勢的了解既是當務之急,也是目前可實現的技術在短期內可以實現的。人工智能與這一核心任務的整合將在不同程度上間接促進陸軍在信息優勢活動的所有核心任務中的能力。本文詳細介紹了在未來三年內將人工智能融入現有系統和網絡的具體當前需求和建議。這篇文章沒有也不打算為進一步發展或實戰化的新生能力提供詳細的建議,并有較長的時間安排。相反,作者的腳步堅定地站在當前的現實情況、眼前的需求和可用的技術上。
圖:薩拉-米勒上尉和技術員。2019年6月1日,德克薩斯州圣安東尼奧-拉克蘭聯合基地,第834網絡作戰中隊的卡洛爾-布魯斯特軍士長在拍攝空軍后備司令部任務視頻的場景時,討論應對假想網絡攻擊的方案。(Photo by Maj. Christopher Vasquez, U.S. Air Force)
在未來,由人工智能驅動的傳感器、火控系統、投送資產和算法可能會創造出令人難以置信的速度和殺傷力的戰場,人類在其中掙扎著跟上旨在為指揮官服務的機器的步伐。采集和投送資產群有一天可能會自主地執行任務,并動態地完成采集、投送和評估,同時隨著事件的發展不斷調整,做出反應。在物理領域的這些系統和事件中,隨著友好、中立和威脅系統的互動,在網絡空間領域也會有類似的人工智能能力的先進應用。這種能力目前還不能廣泛地投入使用,而且基礎的人工智能技術還不夠強大,我們不能認真考慮在不久的將來引入這種能力。同時,陸軍必須以一種可行、及時和有效的方式開始整合人工智能。
正如《2028年多領域作戰中的美國陸軍》所斷言的那樣:"融合所有領域、EMS[電磁波譜]和信息環境能力的關鍵是人工智能所帶來的大批量分析能力和傳感器到射手的鏈接,它通過自動交叉提示和目標識別使敵人的欺騙和遮蔽變得復雜。瓦解所需的情報精煉取決于五個相互關聯的系統。"1這五個系統如下:廣域監視、穿透性偵察、遠距離監視和偵察、消耗性監視和偵察以及人類網絡。這五個系統中的每一個都可以通過改善對形勢的理解,從立即開發、實驗和在戰術總部使用人工智能系統中受益。這種整合不會使決策自動化,而是使人類指揮官和參謀人員能夠更好地決策。正如《2028年多域作戰中的美國陸軍》中所述,"由人工智能和高速數據處理促成的人機界面,在速度和準確性方面都能改善人類的決策"。
作者重申將人工智能融入戰術總部,并更廣泛地融入整個機動部隊的系統,以改善人類的決策。隨著陸軍在2028年之前實現這一作戰愿景,或者根據參考的出版物,提前幾年實現這一愿景,作者發現在為即將到來的軍事事務革命創造條件而提供的理論和領導指導方面存在兩個關鍵差距。首先,陸軍缺乏評估其在實現AI-enabled MDO方面進展的手段。其次,在如何為整合人工智能系統做準備方面,還沒有向機動部隊發布實際指導。在解決了這兩個差距之后,作者還提出了一個陸軍可以利用現有技術建立的系統,以加強戰術指揮所的情況了解。
如果陸軍要將人工智能整合到MDO中,如果我們要提供一種評估人工智能準備情況的方法,我們首先需要了解什么是人工智能。在這篇文章中,作者使用了國家安全委員會人工智能委員會(NSCAI)在其最終報告中引用的定義,該定義最初由卡內基梅隆大學現任和前任高級教員發表。摩爾等人將人工智能定義為一個 "堆棧 "或技術層的集合,需要 "人才、數據、硬件、算法、應用和整合"。NSCAI的最終報告更加重視將推動人工智能系統的采用和實施的人才,以及將使其包含的算法和模型得以實現的數據。這篇文章鼓勵盡早采用相同領域的建議,因為它們與軍隊目前的能力相一致。
除了人工智能的組成部分,重要的是要了解人工智能系統為用戶提供了什么。使用專門為訓練人工智能而設計的算法,一個應用程序的人工智能組件被 "教導 "在大量的數據中識別模式,這樣它就可以對新數據進行分類或預測額外的信息。這是有意的寬泛和含糊;它是一個抽象的過程,可以應用于許多情況。它受限于對大量標記數據的需求和不斷收集更多數據的需要。標簽數據是用關于人工智能組件可以學習預測的類別或價值的識別信息充實的數據。標簽必須與所需的預測能力相關。例如,建立一個可以在衛星圖像中識別坦克的人工智能,將需要一個衛星圖像的數據集,標記為識別它們是否包含坦克。更詳細的預測將需要更詳細的標簽,這意味著如果我們想預測坦克的模型,標簽將需要包括圖像中坦克的類型。任何人工智能形式的質量都與該系統可用的高質量數據的數量直接相關。
實戰化和開發人工智能系統是一個過程,作者建議用四個階段類似地評估陸軍的人工智能準備情況。這是由卡內基梅隆大學的Eric Nyberg提出的四個階段,即一個組織如何評估其對人工智能的準備和使用。雖然這些步驟暗示了一個進展,但一個單位無法控制的情況變化可能會導致其在人工智能啟用過程中向后或向前移動。
這個過程從做好數據科學準備開始。當相關的數據源被識別、可訪問和持續管理時,一個組織就已經做好了數據科學準備。處于這一階段的陸軍單位的領導人將能夠以可靠、及時和與背景相關的方式獲取相關的人員、后勤、訓練、情報和戰術數據。關鍵是,一個機動部隊必須考慮如何在戰斗環境中做到這一點。單位將需要建立在訓練和戰斗中組織、規范和存儲信息的程序。此外,數據必須在系統和作戰功能之間進行整合。在這個階段,數據是完整的,擁有統計分析技能的士兵可以使用這些數據來更好地描述他們的環境、行動和隨后的結果。為數據科學做好準備的陸軍單位將有參與的領導,他們了解如何在其組織內收集、維護和共享數據。
一個做好數據科學準備的組織將努力成為數據科學啟用者,這是第二階段。當多個數據源之間的相關性被確定,并且從組織數據中創建的預測模型被用于改善工作流程和決策時,一個組織就具備了數據科學功能。啟用數據科學的陸軍部隊將利用他們收集、維護和獲取的數據來加強對形勢的了解,了解敵方和友方行動的背景,并預測未來行為。啟用數據科學的機動部隊將在野外訓練演習、指揮所演習和作戰訓練中心輪換期間在戰術指揮所收集、清理和組織數據。士兵們將采用在準備訓練期間開發的預測性分析方法來識別敵人的行為,并對高度動態、復雜的戰場做出更快速的反應。啟用數據科學的陸軍部隊將擁有投入的領導層,他們將大量的數據整合到軍事決策過程中,并迅速調整以適應不斷變化的條件。
圖:根據美國陸軍發展司令部的說法,"陸軍研究人員開發了一個能夠學習和理解復雜事件的人工智能架構,增強了人與機器之間的信任和協調。" (圖片說明:Rudi Petry,美國陸軍提供)。
在使用數據科學來實現更好的性能之后,各單位將追求成為人工智能準備,即第三階段。在這個階段,組織將數據科學作為操作流程的一部分,并且已經整合了軟件應用,使其工作流程現代化,以整合計算技術。將采用人工智能的領導人了解哪些流程和要求將被用來加強,他們能夠直接與人工智能工程師溝通,設計和實施相關的解決方案。陸軍單位將對人工智能作為武器系統的能力和局限性有實際了解。機動部隊將與陸軍未來司令部的單位合作,如軟件工廠或人工智能集成中心(AI2C),開發人工智能解決方案,以增強其任務準備和能力。數據將與兄弟組織共享,并在戰術和駐軍環境中進行訪問,在后方創建的軟件更新可以通過陸軍網絡推送到戰術邊緣的應用程序。為人工智能做好準備的陸軍單位將有知情的領導,他們指揮他們的數據存在,并推動未來人工智能支持的軟件和應用程序的需求過程。
最后,當一個組織部署了人工智能系統并能夠直接衡量其對任務成功的影響時,它將成為人工智能的受益者。這些單位可以在戰術環境中采用人工智能來實現流程自動化,并提供任務成功。這些系統在任務中工作,并在關鍵環境和條件下工作。對于陸軍單位來說,這些是有彈性的應用程序,可以適應動態的網絡條件,并在敵人破壞或拒絕通信網絡時提供價值。處于這一階段的組織的特點是高度彈性的流程和系統,能夠迅速適應不斷變化的情況,在多領域的戰場上取得決策主導權。這些系統及時顯示關鍵的多維數據和洞察力。隨著現代系統產生和消費大量的信息,數據收集的規模和速度將不斷增長。啟用人工智能的陸軍部隊將擁有被授權的領導層,他們利用人工智能來領導復雜的任務,并通過人機界面的互動獲得創新解決方案。
意識到機動部隊今天甚至沒有為數據科學做好準備是令人生畏的,而成為人工智能的過程將需要一個巨大的轉變。這就是像人工智能這樣革命性的技術進步的本質,它代表了小單位接受和影響軍隊中人工智能未來的一個難以置信的機會。機動部隊應該從今天開始做出實際反應,以配合陸軍和國防部領導人提供的政策和理論重點。人工智能是一種不對稱的能力,相對較小的投資可以產生巨大的影響。雖然這可能會損害大型的、行動緩慢的組織,但它也可以為個人和小型單位提供機會,對整個組織產生巨大的積極影響。通過鼓勵和支持小單位及其領導人的創新解決方案,軍隊可以對人工智能在軍事事務中的破壞性影響做出靈活的反應。鼓勵這種創新的一個早期步驟是為人工智能準備數據環境。
陸軍也有一個獨特的機會從更大的人工智能社區的錯誤中學習,特別是在涉及數據時。正如谷歌的一個人工智能工程師團隊去年所寫的那樣,缺乏對 "數據工作 "的關注是對大公司和人工智能先驅的重大損害,他們在部署人工智能系統時遭遇了明顯的失誤和誤區。通過將組織和文化變革的重點首先放在數據管理流程的現代化上,陸軍自然會對其中的一些問題產生免疫。陸軍任務的性質和與人工智能系統的錯誤相關的危險,加劇了陸軍中低估數據質量的影響。
類似于陸軍通過維護地形行走等演習指導維護活動的方式,各單位可以通過數據健康評估來準備數據環境。這是一個適合戰區司令部在下屬各師進行的評估。軍團總部在其下屬的旅級戰斗隊中進行類似的評估也可能是合適的。這些評估考慮的是各單位如何很好地管理他們所產生的和他們所獲得的數據。評估數據健康狀況,是繼人才培養之后,開始為機動部隊的人工智能系統做準備的最佳場所。
圖:"美國陸軍發展司令部稱:"明天的作戰環境將充滿了智能自主設備和平臺,它們會產生多樣化和復雜的信息特征。(圖片來源:美國陸軍/Shutterstock)
雖然評價應該是獨特的,并在對被評價單位的特別了解下進行規劃,但各單位的一般概念將是相似的。數據健康評估提出了以下問題。這個單位對駐軍和戰術環境中的日常行動的數據收集、清理和管理得如何?數據收集應該是完整的,因為它描述了單位活動的背景、環境、行動和結果。當收集工作自動化并融入所有流程時,單位將很好地收集數據。當數據的結構、類型、格式和存儲位置一致時,它就是干凈的。干凈的數據可以用于描述性分析,并且可以通過良好的文件來理解。當數據是可訪問的、持久的和可靠的時候,它就得到了良好的管理。做得好的單位會考慮如何將他們收集的數據應用于系統和流程。徹底的數據健康評估的一部分也會考慮到有多少信息是可以在員工部門和工作小組中看到的。廣泛共享的數據鼓勵合作和建立共同的理解。這種評估可以考慮的一些具體行為如下。
進行數據健康評估,首先需要對單位在這一領域的準備情況進行誠實的評估,這是所有其他優先事項中的一個。正如戰略研究所的Leonard Wong和Stephen Gerras在他們的報告中所分享的,本文的作者也可以用軼事來證實,陸軍在競爭的要求和激勵結構中掙扎,導致單位有時故意報告不準確的信息以滿足戰備要求。7人工智能系統將對這些挑戰特別敏感,因此,陸軍的數據健康評估必須包括一個機制來評估其收集的數據的真實性。這方面的一個機制可以是去除一些人為干預的因素。例如,車輛、飛機或大炮可以用傳感器來識別它是否正常運行或其系統部件是否有故障。這有一個重大的挑戰,就是增加了這些系統的復雜性。另一個符合行業最佳實踐的機制是隨機對數據點進行子抽樣來重新評估。這方面的例子包括選擇一些單位進行簡單的行動來驗證他們的設備狀況,如在155毫米榴彈炮上執行機組演習,用所有能用的車輛組成一個車隊前往訓練區的集合點,或對個別武器執行無通知的記錄鑒定。要求這些警報活動來驗證一個單位所存儲的數據的準確性,是確保我們的人工智能系統配備高質量數據的絕佳方式。陸軍領導人必須為各單位創造空間,讓他們如實報告這些信息,而不必擔心遭到報復。陸軍在人工智能多領域戰場上有效作戰的能力,取決于改變陸軍文化的這一要素。
圖:美國陸軍正在尋求智能車輛以減輕士兵在多領域作戰中的負擔。(圖片來源:美國陸軍/Shutterstock)
除了為準確的數據收集設定條件并進行評估外,各單位今天還可以采取一些步驟,為整合人工智能系統做準備。以下建議適用于所有梯隊的單位。它們以當今可用的能力為基礎,代表了為人工智能系統準備數據環境的最初步驟。這些建議將幫助各單位為數據科學做好準備。
機動部隊必須通過立即停止刪除共享文件系統中的數據來體會他們每天與之互動的數據的價值。這些 "共享驅動器 "或SharePoint系統使單位內部和跨單位的合作努力成為可能,但其中也蘊含著單位行為、訓練演習和報告的寶藏。當各單位沒有足夠的空間來維持前幾年的記錄時,這些系統上的文件往往被刪除。為了創造有效的情報,陸軍數據科學家和人工智能工程師將需要為他們開發的每一項人工智能技術獲得數以萬計的標記數據點。這代表了人工智能界相對較小的數據集,陸軍不能因為不經意地刪除舊文件而失去更多的數據。各單位應將可自由支配的支出資金用于購買外部硬盤,并對其共享文件系統進行間歇性備份;要做到這一點,各單位必須獲得具體的額外資金和要求。此外,所有官員都應該有能力從至少高于他們兩個梯隊的所有單位讀取非敏感文件。這將鼓勵合作并引入即時效率,同時將我們的數據文化轉變為共享文化。在未來接受數據科學家或人工智能工程師的支持時,這些設備應該作為背景提供給單位,以幫助創造有效的情報。
組織應該調整他們從下屬單位收集信息的方式,增加Excel等表格格式的使用。這些格式已經成為許多狀態、后勤和維修報告以及檢查文件的標準。以表格格式收集這些數據將通過在短期內強制執行數據的完整性而為各單位提供直接的好處。這樣做也將使未來基于計算機的方法能夠更容易地處理和訓練人工智能。在戰術環境中,表格格式的結構將有助于標準化文件,如情報收集、火力支援協調和行動同步矩陣。它還將為陸軍參謀部創造更有用和可復制的產品,同時為未來基于計算機的系統提供豐富的、可理解的陸軍行動數據。在實際和有效的情況下,任何單位使用的文件或工具--如上所述,但目前停留在基于文檔(微軟Word)或幻燈片(微軟PowerPoint)的格式--應立即替換成表格文件(微軟Excel)。在Excel中收集數據時,各單位應在文件中指定一致的列標題名稱和一致的數據類型(數字、時間序列或文本)。這種過渡將直接導致更強大和準確的人工智能系統,是快速做出決定的關鍵步驟。當陸軍的標準表格和文件結構更好,更容易使用,并為用戶和數據消費者提供更有用的信息時,這種過渡就得以實現。
為了指導人工智能的發展和需求的產生,各單位應該收集和記錄在駐軍和野外訓練演習中的時間。這可能是一項具有挑戰性的繁重任務,作者建議各單位可以通過兩種不同的方式來完成這項工作。第一種是收集有關在系統之間手工復制數據或依靠人類在數據源之間協調的領域或過程的軼事信息。這在戰術指揮所可能特別有用,以確定我們依靠士兵在不同的系統之間協調的領域。第二個選擇是指揮官指示首席信息官/G-6通過軍隊計算機上的擊鍵記錄器和應用程序監控設備來安裝和收集數據。數據科學家和人工智能工程師可以利用這些信息來識別低效率和耗時的計算活動,以開發出針對的系統。原始使用數據和數據效率低下的軼事可以與陸軍未來司令部的組織共享,如軟件工廠或AI2C,然后可以與各單位合作,快速開發和實施解決方案。
未來的所有陸軍系統和最近的許多系統都會產生大量的數據,這些數據必須被立即訪問。首先,對于陸軍考慮獲得的任何會產生數據的記錄程序,作者建議進行數據可及性和存儲審查。這項審查的目的是評估陸軍人員訪問該系統收集和存儲的數據的能力。除了少數幾個陸軍系統外,所有的陸軍系統都缺乏通用的應用編程接口和支持程序性系統訪問的能力,這是不可接受的。此外,這些系統所存儲的歷史數據是美國陸軍的財產,因此必須通過行業標準的方法向其士兵和軍官提供,而不需要任何民間中介機構。這些系統目前的數據環境對于開發人工智能系統來說是非常困難的。
其次,陸軍應啟動對當前未能達到這一標準的系統的審查,并重新考慮對這些項目的具體要求。通過修改采購流程和審查目前授予的合同,陸軍將在政府和私營部門組織中建立起自己的數據質量和可訪問性標準的領先地位。
在專業軍事教育課程中,美國陸軍訓練和理論司令部應立即引入數據管理和使用策略方面的適當指導。作為基礎軍官領導課程的一部分,數據教育應包括一般數據收集策略、單位和部門特定信息的組織以及現代數據可視化工具等主題。這些工具將使后勤人員能夠更好地組織單位維護數據,情報人員能夠更好地綜合不同的情報來源,而機動人員能夠更好地報告和收集數據。這種教育的核心原則必須是相關的;教導學生這如何直接適用于他們的下一個工作。在上尉職業課程中,可以在此基礎上加入如何管理多種數據來源和建立數據收集文化的教學。指揮和總參謀部學院應該開設一門數據收集選修課,以教育戰地級軍官整合權威數據源、管理共同行動圖以及支持數據收集和管理所需的基礎設施。陸軍戰爭學院應該教育高級戰地級軍官識別數據收集戰略中的戰略差距,并讓他們準備好利用計算機增強的態勢感知進行領導。此外,旅、師和軍團的指揮官和參謀長應該有機會完成AI2C的高級領導教育項目,以了解和理解如何用人工智能系統領導組織。陸軍需要調整數據收集和管理技術方面的軍官教育,以便為MDO中不斷變化的戰斗要求做好準備。
戰斗訓練中心為開發和實施戰術應用的AI-enabled系統提供了一個很好的場所。通過存儲單位輪換的標記數據,并向對方部隊提供為戰術指揮所創建的人工智能系統的早期版本,作戰訓練中心可以成為陸軍人工智能發展的核心,同時也為復雜的系統提供快速反饋,這些系統在陸軍面臨近似對手的戰斗時才會有全面測試和實施的挑戰。類似的機會也存在于由任務指揮訓練計劃進行的指揮所演習的訓練中。
雖然大型組織之間的協同作用和共同的努力路線是有價值的,但陸軍將從不同單位獨立考慮和采納這些建議中受益。隨著時間的推移,這些獨立的想法將形成一個更強大的人工智能系統的基礎,隨著人們的流動和職位的改變,自然的分享和混合想法。陸軍可以仿照開源軟件社區分享想法并迅速學習彼此的獨特方法,在MDO中創造一個人工智能環境。通過在本地開發獨特的解決方案,然后隨著時間的推移進行合作,各單位將確定共同的挑戰,同時也減少了忽視具體特征或特定任務的獨特因素的可能性。
在進行上述努力的同時,陸軍應該開發、試驗并采用最先進的技術來實現戰術總部的運作。為了實現這一目標,陸軍可以在任務指揮訓練計劃進行的指揮所演習和作戰訓練中心的訓練輪換中開始將人工智能納入訓練。這將首先記錄來自控制系統中使用的計算機的數據,參與者的聲音,以及來自作戰系統的位置數據。然后,這些數據將提供給數據科學家,讓他們從受控環境中獲取作戰數據。使用人工智能和自然語言處理,結合事件和敵對勢力行動的細節和時間,然后可以分析這些數據,以確定當前流程無法滿足戰斗需求的趨勢。然后可以進一步研究這些趨勢中具有最佳或更好性能的異常情況,以確定成功的戰術、技術和程序。這將促進對現有系統的改進,并開發更多的工具來實現作戰。一個例子是分析一個旅戰斗隊對敵方部隊的防空雷達系統啟動的反應。通過捕捉與事件相關的所有數據并了解對方部隊行動的精確細節,行動后的分析可以更有力地了解技術方法和友軍探測的細節,工作人員和友軍單位內部的溝通(包括內容和傳輸方法),采取的行動,以及目標的有效性,包括評估。在眾多單位中反復進行,這將使我們能夠準確了解陸軍單位的能力、差距和有效性。由于指揮所演習和訓練輪換中固有的事件的數量和種類,有一個巨大的和未被充分利用的可用數據山,以提高軍隊的作戰能力。
將人工智能整合到戰術總部的近期目標是為從旅到軍團的各梯隊制作一個增強的共同作戰畫面(COP)。這將減少行動和瞄準過程中的友好周期時間,同時提高指揮官的決策質量。強化的作戰圖將提供更準確和詳細的友軍信息,提供對作戰和任務變量的更多情況了解,并增強指揮官看穿戰爭迷霧的能力。這將通過整合戰術行動中心內目前不同的系統來實現,包括指揮所計算環境、高級野戰炮兵戰術數據系統、空中和導彈防御工作站、電子戰規劃和管理工具、分布式共同地面系統-軍隊和全球戰斗支持系統-軍隊。目前,這些系統并沒有在一個單一的人機界面上提供足夠的綜合COP。此外,必須優先考慮開發、實驗和實戰化的軟件和硬件,這些軟件和硬件可以攝取任務和作戰變量的數據,以分析數據并優先處理時間敏感的數據,供參謀部和指揮官分析和采取行動。
這個系統以及其他類似的系統將同步和整合陸軍數據,以便在復雜、動態的環境中做出更快的決策。這是在現代戰爭中作戰的必要進步;然而,它也將引入更多的風險。就系統的復雜性而言,人工智能組件明顯比軟件組件更復雜,并帶來額外的挑戰。沒有任何人工智能可以解釋它為什么會做出這樣的預測,而且不幸的是,表現最好的智能形式也是最不容易理解的。最先進的人工智能系統只能提供有效性和準確性的措施,以證明其使用的合理性。此外,現實世界不可能完全由人工智能工程師在進行智能訓練時使用的數據來模擬,也沒有干凈的、有標簽的數據集用于戰斗。這種數據偏差必須用道德的軟件工程和對軍隊和人工智能的深入了解來解釋。與私營部門公司類似的雄心勃勃的產品相比,目前為軍隊帶來這種技術的努力小得驚人。2022年,陸軍畢業并開始雇用20名人工智能專業人士。相比之下,谷歌在2016年雇用了大約一個滿員的軍團,41456人,只是軟件工程師。在這個數字中,有兩個師的價值,27,169人,只是專門用于研究和開發。自2016年以來,谷歌的全職員工總數已增加了一倍多。如果陸軍要通過開發和部署其在MDO中作戰所需的人工智能系統來實現其勞動力的現代化,那么它必須從今天開始準備數據環境。
(備:本文機器翻譯)
數據高效的機器學習(DEML)對AF/DoD(美空軍/美國防部)的運作至關重要,原因如下:首先,訓練機器學習算法通常需要一個大型的、完全標記的訓練數據集。人類對原始數據的標注是一個昂貴而耗時的過程,尤其是在專家分析師隊伍有限的情況下。因此,機器學習算法必須從有限的標記的訓練數據中產生準確的預測模型。此外,任務環境和目標可能是多樣的、快速變化的,因此,機器學習模型必須能夠快速適應手頭的情況。機器學習系統(和人類分析員)可用的原始數據的質量也往往是不可預測的。可能經常發生的情況是,并非所有用于預測和決策的理想特征都可用。因此,機器學習算法必須對缺失或部分未觀察到的數據具有魯棒性。
這項工作的范圍是在以下關鍵領域為DEML創造新工具:1)為涉及豐富的高維特征空間的分類和搜索問題開發數據效率高的主動學習算法;2)開發新的交互式工具,使人類分析者能夠快速和準確地標記大型數據集;3)開發一個新的框架,用于豐富的人類注釋,除標簽外還提供解釋和特征相關性反饋;4)在軟件中建立算法原型。這些目標將需要對DEML問題進行基本的數學研究和分析、算法開發和原型設計,以及用真實和合成數據集進行測試和實驗。
2022 年 10 月 11 日,美國陸軍發布了一份綜合數據計劃(ADP),這是一種全軍范圍內改進數據管理以確保陸軍成為以數據為中心的組織的方法。
該計劃是一項為期三年的工作,將改善整個陸軍的數據管理、數據治理和數據分析。作戰任務是陸軍數據計劃的當前重點。ADP 在該任務領域的成果是通過進行必要的更改來確保作戰人員的數據得到正確管理和使用,從而為作戰人員提供優勢。陸軍已經開始對數據管理能力、工具和模型進行原型設計,以實現這一目標。
陸軍首席信息官 Raj Iyer 博士說:“數據以及如何在所有梯隊中整合這些數據以實現真正快速、敏捷的決策,才是真正為陸軍提供其在未來戰爭中所需的競爭優勢的關鍵。”
數據和數據分析將為 2030 年的陸軍提供動力。士兵將需要在正確的時間和正確的地點獲得正確的數據,以便在每個梯隊做出更快、更好的決策——以超越任何對手的思維和步伐。
與早期的軍事行動相比,現在的戰爭范圍更大且范圍不斷擴大。作為聯合全域作戰的一部分,多域作戰是陸軍必須準備并贏得下一場戰斗的地方。這是一個數據豐富的環境。
每個領域都有自己的信息和數據流,一些信息來自開源情報,一些來自天基傳感器,還有一些來自網絡空間。今天的士兵和指揮官需要跨領域的綜合來主宰戰場。
ADP 概述了工作的組織并提供了總體戰略目標。它側重于中期努力,未來將被另一個更新所取代。
通過陸軍數據計劃實現這一決策優勢是陸軍的關鍵目標。
本報告描述了2020財年在美國陸軍作戰能力發展司令部陸軍研究實驗室的主任戰略倡議(DSI)項目《人工智能(AI)用于多域作戰(MDO)的指揮和控制(C2)》下進行的工作。多域作戰的速度和復雜性要求在高度活躍的環境中對近似對手進行高速決策和執行,這往往可能超出人類的認知能力。最近,新興的人工智能技術,如深度強化學習(DRL),在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中的表現超過了人類世界冠軍。這表明這種人工智能有可能對MDO的C2做出貢獻。然而,關于這種新的人工智能技術的行為和限制的許多問題仍未得到解答。作為DSI的一部分,我們正在研究DRL是否可以支持未來多域部隊的敏捷和適應性C2,這將使指揮官和工作人員能夠迅速有效地利用轉瞬即逝的優勢窗口。在第一年,我們開發了兩個新的C2測試平臺,并在這些測試平臺上進行了基于DRL的學習。本報告包括項目的概述,并展示了初步的研究成果,其中一個“人造指揮官”在模擬的旅級戰斗中執行了一個綜合規劃-執行過程。
同行對手多域作戰(MDO)的速度和復雜性可能會超過人類指揮員在傳統的、主要是人工指揮和控制(C2)過程中的認知能力。同時,人工智能(AI)技術的新成果,如深度強化學習(DRL),開始顯示出有可能支持多域作戰的指揮與控制。過去兩年的發現表明,基于DRL的算法可以在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中勝過人類世界冠軍。通過這些突破,強化學習(RL)已經證明了人工智能在復雜游戲中開發和實施多層策略后控制多個智能體的潛力。未來MDO作戰指揮的特點是在非結構化的任務領域內具有高度的復雜性,這與復雜的游戲模擬環境有一些相似之處。因此,將基于人工智能的方法擴展到軍事領域,可能為提高戰斗指揮能力提供了重要的可能性。
本報告中描述項目的長期意圖并不新鮮。在過去的幾十年里,有許多想法和相應的研究,旨在開發自動化或半自動化的工具,以支持規劃和執行軍事行動的決策。以下是過去在這一領域的一些工作,本報告的一些作者親自參與了這些工作。
美國國防部高級研究計劃局(DARPA)的聯合部隊空中部分指揮官(JFACC)項目在20世紀90年代末進行,為聯合空戰的敏捷管理開發了一些概念和原型。當時考慮的大多數方法涉及各種航空資產的路線和活動的持續實時優化和再優化(隨著情況的不斷變化)。同樣在20世紀90年代中后期,陸軍資助了行動方案開發和評估工具(CADET)項目,該項目探討了經典的分層規劃的潛在效用,該計劃適用于對抗性環境,可以將高水平的戰斗草圖轉化為詳細的同步矩陣--這是理論上的軍事決策過程(MDMP)的關鍵產品。在21世紀初,DARPA啟動了實時對抗性情報和決策(RAID)項目,該項目探索了一些預測敵方作戰規劃的技術,以及動態地提出友好的戰術行動。在所探索的技術方法中,博弈求解算法是最成功的。
2000年代末,DARPA的沖突建模、規劃和結果實驗(COMPOEX)計劃探討了多個領域的作用及其非常復雜的相互作用--除了傳統的動能戰斗,還有政治、經濟和社會影響。該計劃研究了相互關聯的模擬子模型的使用,主要是系統動力學模型,以協助高級軍事和文職領導人在復雜的作戰環境中規劃和執行大規模戰役。非傳統作戰領域如網絡領域的重要性已經得到認可,2010年,北約的一個研究小組研究了評估網絡攻擊任務影響的模擬方法,并強調了網絡、人類和傳統物理領域之間相互作用的強大非線性效應。
在前面提到的研究工作中所采取的所有方法,以及許多其他類似的方法,都有主要的和一些共同的弱點。它們往往需要對問題領域進行嚴格、精確的表述。一旦這樣的表述被構建出來,它們往往能產生有效的結果。然而,一旦有新的元素需要被納入到表述中(例如,一種新的軍事資產類型或一種新的戰術),就需要進行困難的、昂貴的、手工的和長期的努力來“重新連接”問題的表述和微調解決方案的機制。而現實世界呈現出無窮無盡的新元素,必須加以考慮。
在20世紀80年代的基于規則的系統中,隨著越來越多的規則(它們之間的相互作用往往是不可預測的)必須被添加以代表現實世界中錯綜復雜的領域,一個系統將變得不可維護。在基于優化的方法中,同樣地,重要變量和各種約束條件之間無窮無盡的關系必須不斷地手動添加(維護的噩夢),以代表現實世界中復雜的領域。在基于游戲的方法中,由于越來越多的領域的現實情況不得不被手動設計并添加到游戲的表述中,管理每個棋子的合法移動和移動效果的規則將逐漸變得無可救藥地復雜。
簡而言之,這種方法在建立和維護表征方面是高成本的。理想情況下,我們希望看到一個系統能夠直接從真實或模擬世界的經驗中 "學習"(即自我規劃)其問題的制定和解決算法,而不需要任何(或很少)人工規劃。機器學習,特別是RL,正是提供了這樣的希望。這是我們項目背后的一個主要動機。
美國陸軍目前還沒有一個基于人工智能的、部分自主的任務指揮工具,在戰術或作戰層面上以高作戰節奏(OPTEMPO)運作。通常情況下,生死攸關的決定是由少數人在時間限制下利用不完善的信息作出的。目前可供規劃者使用的工具(如高級野戰炮兵戰術數據系統[AFATDS]、藍色部隊追蹤器等)通常僅限于分析戰場地形的基本決策輔助工具和記錄決策的自動化工具。指揮官在向下級提供快速OPTEMPO指導時,會遇到信息過載。戰斗損傷評估(BDA)很慢,而且不能與單位運動/傳感器與射手的聯系同步,也不允許利用優勢窗口。行動方案(CoA)分析主要集中在對友軍計劃的評估上,很少強調對手的目標和能力的復雜性。
隨著空間、網絡電磁活動(CEMA)和機器人資產的加入,MDO成倍地增加了C2的復雜性,這可能會使OPTEMPO比過去更高。此外,人類指揮官使用目前可用的決策輔助工具來提供高度詳細的指令將是難以解決的。有可靠的報告稱,美國的同行和近鄰競爭對手,特別是中國,正在大力追求人工智能在軍事上的應用,包括指揮決策和軍事推演(即兵棋推演)。因此,在追求人工智能C2系統的過程中,存在著很大的失敗風險,只有不斷地朝著這個目標前進,不斷地努力實現一個能夠在MDO中執行C2的人工智能系統,才能克服這個風險。
到2035年,我們設想需要開發敏捷和適應性強的人工智能C2系統,用于復雜、高OPTEMPO、超活躍的MDO中的作戰規劃和決策支持。這些系統將不斷整合未來戰爭的幾個領域。設想中的系統將能夠分析敵人的活動;不斷地規劃、準備、執行和評估戰役,通過不斷地感知、識別和快速利用新出現的優勢窗口,使軍隊的能力得到快速反應。這些優勢窗口將在不同梯隊的MDO框架內的行動中出現,但識別和利用它們需要較少地依賴刻意的規劃周期,而更多地依賴持續、綜合的規劃能力。啟用人工智能的C2系統有可能在不同的梯隊、領域和多個同時運作的資產之間快速同步采取多種行動,以利用優勢窗口。部隊將主要由機器人資產(地面、空中)組成,人工智能C2系統將收集和處理來自智能傳感器和平臺的數據,評估作戰環境中的新趨勢,并建議采取減少認知負擔的行動,使人類指揮官能夠快速有效地采取行動。啟用人工智能的流程還將提供定量分析、預測分析和其他可供人類有效使用的突出數據。這最終將使美國陸軍有能力在武裝沖突期間,根據對敵人弱點的理解和詳細的友軍估計,重新分配、重組和使用能力,并將產生具體、詳細的指令來控制自主資產。
DEVCOM陸軍研究實驗室在機器人學、自主性、人工智能和機器學習方面有積極的研究計劃。本報告的作者領導了政府、學術界和工業界合作伙伴之間的大型合作機器人研究工作的研究和整合活動,在場景理解、人類與人工智能的合作、RL、多智能體強化學習和多智能體協作系統方面進行了開拓性的研究。此外,ARL還擁有廣泛的基礎設施來進行上述領域的研究。這包括用于機器人研究的地面和空中平臺;用于場景驅動研究的機器人研究合作園區(R2C2),能夠承載實時的、可擴展的、多領域的實驗;旨在支持人工智能和機器學習應用的新興要求的集裝箱式超級計算機;這只是其中的幾個例子。我們相信,這些專業知識和資源可以被用來建立一個成功的計劃,將人工智能納入C2應用。
ARL主任戰略倡議(DSI)計劃是一個跨學科基礎和應用研究的機制,成功的提案可以跨越科學和技術學科的界限。該計劃確定了代表戰略研究機會的主題領域,對陸軍任務具有非常高的潛在回報,以擴大現有的計劃或建立新的核心能力,并在這些領域建立內部的專業知識。
作為20財政年度授予的 "用于MDO C2的人工智能 "DSI項目的一部分,我們探索基于DRL的算法在多大程度上可用于估計紅方部隊的狀態,評估紅方和藍方的戰斗損失(損耗),預測紅方的戰略和即將展開的行動,并根據所有這些信息制定藍方計劃。這種方法有可能為藍方部隊產生新的計劃,利用潛在的機會窗口,其速度比專家規劃者快得多。最近,DRL在非結構化戰略游戲中的成功提供了重要的暗示性證據,表明人工智能方法可能能夠基本上 "從零開始 "發現適當的戰術概念,并以高于人類的速度選擇、應用和執行戰略。
在這個DSI中,我們探索使用DRL在戰斗行動前制定詳細的計劃,并在執行正在進行的行動中生成實時計劃和建議。我們計劃在兩個關鍵領域推動技術水平的發展:1)構思、設計和實施基于DRL的智能體,以生成與專家計劃員生成的計劃一樣好或更好的計劃;2)將人類納入指揮和學習回路,并評估這些人工智能-人類(人在回路中)的解決方案。在為這種人工智能支持的C2開發途徑的同時,需要回答幾個研究問題。在這個DSI中,我們試圖回答三個具體問題:
DRL C2智能體的訓練和數據要求是什么,以便準確和足夠快地學習?
我們如何才能使DRL智能體具有通用性,以便根據人類專家的判斷,特別是在以前未曾見過的細節被引入到一個情況中時,它們能夠合理地執行?
在人工智能支持的C2系統中,人類的干預有什么影響?
該項目第一年的重點是開發研究的基本構件,包括:1)通過調整和使用基于《星際爭霸II》和OpSim的環境來開發模擬能力和高級界面;2)開發執行C2功能的初始端到端人工智能;3)通過與高性能計算(HPC)環境整合來開發計算能力;4)初步確定數據量和訓練要求。本報告提供了這些任務中每個任務的細節。
作為該項目的一部分,我們開發了C2模擬和實驗能力,包括與基于DRL的人工智能算法和國防部高性能計算系統上的可擴展RL的接口的模擬戰斗空間(圖1)。我們使用兩種模擬環境來生成C2場景:星際爭霸II學習環境(SC2LE)29和OpSim。虎爪,一個由卓越機動中心(Fort Benning,Georgia)開發的場景,在模擬環境中生成了真實的戰斗環境。最后,我們使用RLlib31,一個為RL提供可擴展軟件基元的庫,在HPC系統上擴展學習。
圖1 C2基礎設施概述
虎爪行動(Tiger Claw)是一個預定義的戰斗場景,由紅軍和藍軍組成,由喬治亞州本寧堡的上尉職業課程的軍事主題專家(SME)開發。這個假想場景顯示特遣部隊(1-12 CAV)在區域內進攻,以奪取OBJ Lion,以便將師的決定性行動(DO)向東傳遞。特遣部隊的目標是穿越Thar Thar Wadi,摧毀紅色部隊,并奪取OBJ Lion(圖2)。特遣部隊包括使用M1A2艾布拉姆斯的戰斗裝甲,使用布拉德利的步兵戰車,野戰炮和迫擊炮,使用布拉德利的裝甲偵察騎兵,戰斗航空兵,防空兵和無人駕駛飛機。紅軍由裝備BMP-2M的機械化步兵、裝備T-90坦克的戰斗裝甲、野戰榴彈炮、裝備BMP-2M的裝甲偵察騎兵、戰斗航空兵、反裝甲兵和戰斗步兵組成。虎爪方案還包括由中小型軍事專家制定的藍軍和紅軍的可能計劃。這些計劃是根據作戰命令(OPORD)和相應的威脅戰術,使用理論上的力量部署產生的。虎爪方案已被納入OpSim和《星際爭霸II》,并作為一個基準基線,用于比較不同的神經網絡架構和獎勵驅動屬性。
圖2 TF 1-12 CAV在《虎爪》中的作戰區域(AO)。
星際爭霸II》是一個復雜的實時戰略游戲,玩家要在高水平的經濟決策和低水平的個人控制可能的數百個單位之間取得平衡,以壓倒和擊敗對手的部隊。星際爭霸II》對人工智能有許多困難的挑戰,使它成為MDO中C2的一個合適的模擬環境。例如,游戲有復雜的狀態和行動空間,可以持續數萬個時間步驟,實時選擇數千個行動,并由于游戲的部分可觀察性或 "戰爭迷霧 "而捕捉到不確定性。此外,該游戲具有可用于MDO模擬的異質資產、固有的C2架構、嵌入式軍事(動能)目標,以及與更強大的模擬(例如,One Semi-Automated Force [OneSAF])相比,實施/修改的學習曲線較淺。DeepMind的SC2LE框架將暴雪娛樂公司的《星際爭霸II》機器學習應用編程接口暴露為RL環境。這個工具提供了對《星際爭霸II》和相關地圖編輯器的訪問,以及RL智能體與《星際爭霸II》互動的接口,獲得觀察和發送行動。
作為DSI的一部分,一個SC2LE地圖是根據Tiger Claw OPORD和支持文件開發的(圖3)。通過重新繪制圖標以納入2525B軍事符號和與虎爪計劃相關的單位參數(武器、范圍、比例),游戲被軍事化。內部評分系統被重新使用,以計算RL的獎勵函數,其中包括任務目標的收斂(穿越瓦迪),藍色損耗的最小化,以及紅色損耗的最大化。
圖3 《星際爭霸II》中的虎爪地圖
虎爪劇情是在《星際爭霸II》中使用其編輯器重新創建的。這個編輯器包含在暴雪娛樂公司免費下載的《星際爭霸II》中,它有許多創建自定義內容的功能。掌握這些功能的一個很好的資源是專門用于編輯器的在線社區論壇。在下面的章節中,將詳細討論使用編輯器開發地圖、單位和獎勵的問題。
我們使用《星際爭霸II》編輯器為《虎爪》場景創建了一個新的近戰地圖。地圖的大小是編輯器中最大的(256乘256),使用《星際爭霸II》的坐標系統。荒地瓷磚組被用作地圖的默認表面,因為它在視覺上類似于《虎爪》中AO的沙漠地區(圖4)。
圖4 《星際爭霸II》編輯器中的初始虎爪地圖
在最初的設置之后,我們使用地形工具修改地圖,使其大致接近AO的情況。關鍵的地形特征是無法通行的瓦迪,其交叉點有限。
距離縮放是創建場景的一個重要因素。在最初的地圖中,我們使用已知的地標之間的距離,將《星際爭霸II》的距離,使用其內部坐標系統,轉換為公里數。這種轉換對于在單位修改期間調整武器射程非常重要(圖5)。
圖5 修改后的《星際爭霸II》編輯地圖
最初的實驗使用《星際爭霸II》來可視化模擬復制品。這些回放的游戲感成為一個明顯的干擾因素。為了補救這個問題,我們希望采用其他的可視化方法,特別是ARL開發的混合現實環境Aurora。新的可視化方法使用AO的地理地圖。因此,有必要修改《星際爭霸II》的地圖,以便與AO的經緯度相一致。在修改后的地圖中,距離比例是通過將《星際爭霸II》的坐標轉換為經緯度來確定的。
為了模擬 "虎爪 "場景,我們選擇了與軍事單位能力相近的《星際爭霸II》單位。我們復制了《星際爭霸II》中的單位,并在編輯器中修改了它們的屬性以支持該場景。
首先,我們修改了這些單位的外觀,并用適當的MIL-STD-2525符號代替(表1)。在《星際爭霸II》中,每個單位都與多個角色相關聯,這些角色控制著該單位在游戲中的外觀。我們能夠將演員與他們的默認效果圖解開,有效地使這些單位不可見。接下來,我們將所需的軍事符號的圖像導入編輯器。最后,我們使用了SCMapster.com上發布的 "rr Sprite Engine"(LGPL 2.1許可)庫,將這些單位與它們的軍事符號聯系起來。
表1 虎爪部隊與《星際爭霸II》部隊的映射關系
為該場景修改的其他屬性包括武器射程、武器傷害、單位速度和單位壽命(它能承受多少傷害)。武器射程是從公開資料中發現的,并根據地圖的尺寸進行縮放。單位速度在《虎爪行動指令》中確定,并固定在該值上。傷害和生命的屬性是估算出來的,其指導原則是保持平衡的沖突。每個《星際爭霸II》單位通常只有一種武器,這使得模擬一個連級單位可用的各種武器具有挑戰性。額外的努力來提高單位修改的準確性,需要戰爭游戲的主題專家。
修改后的部隊被放置在地圖上,以接近虎爪的場景(圖6)。在實驗過程中,藍色部隊將由一個使用PySC2(DeepMind的SC2LE的Python組件)開發的智能學習智能體控制。此外,藍軍部隊被修改為沒有天生的攻擊性。換句話說,他們不會參與進攻或防守,除非有智能體的特別命令。為了控制紅色部隊,我們使用了兩種不同的策略。第一種策略是為紅色部隊的行動加入一個腳本化的CoA,在每次模擬中都會執行。該部隊默認的攻擊性屬性控制它如何與藍方交戰。第二種策略是讓《星際爭霸II》的機器人AI控制紅方部隊執行全面攻擊,或在編輯器中稱為自殺。內置的《星際爭霸II》機器人有幾個難度級別(1-10),這決定了機器人的熟練程度,其中1級是一個相當初級的機器人,可以很容易地被擊敗,10級是一個非常復雜的機器人,使用玩家無法獲得的信息(即一個作弊的機器人)。最后,環境因素,如戰爭迷霧,在不同的實驗中被切換,以調查其影響。
圖6 使用MILSTD2525符號的星際爭霸II
獎勵功能是RL的一個重要組成部分,它通過對每種情況給予積極或消極的獎勵來控制智能體人對環境變化的反應。我們在SC2LE中加入了虎爪場景的獎勵功能,我們的實現超越了SC2LE內部的評分系統。原來的計分系統根據玩家的單位和結構的資源價值進行獎勵。我們的新計分系統只關注游戲的軍事方面,即獲得和占領新的領土,以及摧毀敵人。
我們的獎勵功能為藍軍越過瓦迪(河流)提供+10分,為撤退提供-10分。此外,我們還對摧毀紅軍部隊給予+10分,如果藍軍部隊被摧毀則給予-10分。
為了實現獎勵功能,首先需要使用SC2LE編輯器來定義地圖的各個區域和目標。區域是由用戶定義的區域,它被觸發器所利用(圖7)。
圖7 《星際爭霸II》中的區域和目標
觸發器是創建一套指令的模板,允許用戶將與特定事件相關的效果編入模擬中(圖8)。一般來說,一個觸發器由以下部分組成。
事件。啟動觸發器(例如,一個單位進入一個區域)。
變量。存儲信息。(例如,BlueForceScore,藍軍的得分)。
條件。對行動的限制,需要在行動發生時為真。(例如,單位是藍色部隊的成員)。
行動。事件的結果或成果(例如,單位獲得積分)。
圖8 《星際爭霸II》中虎爪場景的觸發實例
作為未來工作的一部分,我們計劃根據指揮官在虎爪警告令(WARNORD)中的意圖所定義的具體團隊目標來納入額外的獎勵。獎勵功能將試圖訓練智能體維持單位作為團隊,作為團隊一起參與預定目標,并創造對軍事主題專家來說合理的最佳行為。
OpSim是由科爾工程服務公司(CESI)開發的決策支持工具,提供計劃支持、任務執行監控、任務演練、嵌入式訓練以及任務執行監控和重新計劃。OpSim與SitaWare指揮、控制、通信、計算機和情報(C4I)集成,后者是由項目執行辦公室指揮控制通信-戰術(PEOC3T)投入使用的指揮所計算環境(CPCE)的重要組成部分,使各級指揮部門能夠共享態勢感知并協調作戰行動,從而使其成為直接與作戰任務指揮相連的嵌入式模擬。它從根本上被構造成一個基于可擴展的面向服務架構(SOA)的模擬,能夠比目前最先進的模擬環境如OneSAF和MAGTF戰術戰爭模擬器(MTWS)運行得更快。傳統的建設性模擬最多運行1-20次墻鐘時間,而OpSim可以運行30次虎爪的復制--如果實時連續運行,需要240小時。OpSim中模擬計劃的輸出包括根據彈藥支出、傷亡、設備損失、燃料使用等標準對藍軍計劃進行綜合排名。然而,OpSim工具并不是為人工智能應用而設計的,必須通過整合接口來運行基于DRL的算法。開發了一個OpenAI Gym接口,以暴露模擬狀態,并向外部智能體提供模擬控制,能夠為模擬中的選定實體提供改變的行動,以及在回應接口之前的模擬時間。
強化學習可以被形式化為一個馬爾科夫決策過程,由一組行動、一個過渡概率函數、一個獎勵信號和一個環境狀態組成。32 在RL中,目標是找到一個最佳行動,使預期的、累積的折現獎勵之和最大化。將深度神經網絡與RL結合起來,DRL將深度神經網絡架構與RL框架結合起來,以接近環境中各狀態的最佳行動。DRL的設計包括以下部分:狀態空間(環境狀態表示)、行動空間(行動集)、獎勵信號和一個深度神經網絡。
對于環境狀態的訪問,RL框架使用類似OpenAI Gym的接口與OpSim和StarCraft II模擬器,為RL提供環境的抽象(圖9)。OpenAI Gym是一個開源的軟件包,為RL的開發和測試提供了一個具有通用接口的環境集合。OpenAI Gym專注于RL環境的抽象化,從而保持智能體開發的靈活性。兩種模擬環境中使用的具體行動、狀態空間和獎勵信號將在后續章節中詳細討論。
圖9 使用OpenAI Gym與OpSim和StarCraft II模擬器的RL框架
DRL需要智能體與環境互動的許多情節來收集經驗,一個標準的方法是通過平行數據收集來擴展。在這個項目中,HPC被用來擴展DRL算法,以支持智能體群體從成千上萬的平行實例中學習,以解決C2的行動空間復雜性。ARL的FOB系統最初用于分布式訓練,然后被移植到國防部超級計算資源中心(DSRC)的最新SCOUT系統。FOB系統是一個由64個節點組成的實驗性異構集群,每個節點有一個英特爾8核至強CPU和64GB的內存。SCOUT是位于ARL DSRC的一個非保密的HPC-in-a-container系統,有22個訓練節點和128個推理節點。SCOUT的每個計算節點都配備了IBM Power9 40核處理器,推理節點有256GB內存,訓練節點有700GB內存。
同時,RLlib,一個由加州大學伯克利分校RISELab開發的可擴展RL框架的開源庫,被用于執行分布式學習。RLlib提供了一個與框架無關的機制,以便在OpSim和StarCraft II上有效地擴展DRL神經網絡架構的訓練。該框架部署在HPC系統上,以展示RLlib算法在系統的多個節點上的擴展性,并提供可定制的神經網絡模型和模擬環境的靈活性。
利用第2節所述的基礎設施,我們為《星際爭霸II》和OpSim環境開發了一個端到端的DRL框架,并進行了初步實驗。在這一節中,我們將描述網絡架構、實現和一些初步的實驗結果。
我們使用第2.2節中描述的戰術版《星際爭霸II》訓練了一個多輸入和多輸出的深度強化神經網絡。我們使用了異步優勢演員批判(A3C)算法,這是一種由多層卷積網組成的狀態輸入處理方法,長短期記憶(LSTM)遞歸層給網絡增加了記憶。
在《星際爭霸II》中,狀態空間由7個大小為64x64的迷你地圖特征層和13個大小為64x64的屏幕特征層地圖組成,總共有20個64x64的二維圖像(圖9的左側面板)。此外,它還包括13個非空間特征,包含玩家資源和建造隊列等信息。這些游戲特征是用輸入處理管道來處理的,如圖10所示。星際爭霸II》中的動作是函數形式的復合動作,需要參數和關于該動作要在屏幕上發生的位置的說明。例如,像 "攻擊 "這樣的動作被表示為一個函數,需要屏幕上的X-Y攻擊位置。行動空間由行動標識符(即運行哪個行動)和兩個空間行動(x和y)組成,這兩個空間行動被表示為兩個長度為64個實值項的向量,在0和1之間。 表2劃分了觀察空間、行動空間和《星際爭霸II》模擬的獎勵。
圖10提供了星際爭霸II任務中相互嵌入模型和A3C智能體的狀態輸入處理管道的概述。星際爭霸II提供了三個主要的狀態信息流:小地圖層、屏幕層和非空間特征(如資源、可用行動和建造隊列)。小地圖和屏幕特征由相同的兩層卷積神經網絡(CNN)處理(頂部兩行),以便分別提取地圖的全局和局部狀態的視覺特征表示。非空間特征通過一個具有非線性激活的全連接層進行處理。然后,這三個輸出被連接起來,形成智能體的完整狀態空間表示,以及基于狀態的相互嵌入模型的部分。
圖10 《星際爭霸II》的狀態輸入處理
表2 《星際爭霸II》模擬的觀察空間、行動空間和獎勵
A3C是優勢行動者-批評算法的分布式版本,其中創建了行動者的多個平行副本,以同時執行行動和收集經驗。讓多個行為體收集經驗可以提高探索效率,從而改善學習。我們使用的A3C智能體的結構類似于Mnih等人的Atari-net智能體,它是一個從Atari改編的A3C智能體,在SC2LE狀態和行動空間上運行。我們對這個智能體做了一點修改,增加了一個LSTM層,因為Mnih等人的研究表明,增加模型的內存可以提高性能。我們的A3C智能體的結構如圖11所示。
圖11 A3C智能體的結構。這里顯示的是一個完整的RL智能體及其與《星際爭霸II》的連接示意圖。作為典型的政策性智能體,這里的A3C智能體(綠色)從任務環境中獲取狀態和獎勵信息,并使用這些信息來計算下一個時間步驟的行動,以及計算梯度來增加獎勵最大化。
我們用20個并行的演員學習者來訓練A3C模型,使用了8000個模擬的《星際爭霸II》機器人的戰斗,操作由DeepMind開發的手工制作的規則。如果BLUEFOR穿過瓦迪或OPFOR排被摧毀,則提供+10的正強化,如果BLUEFOR被摧毀則提供-10的負強化。
我們在《星際爭霸II》的 "虎爪 "場景中對訓練好的A3C模型進行了100次的測試。這些模型與具有隨機行動的隨機基線以及人類玩家與《星際爭霸II》機器人進行的10場模擬戰斗進行了比較。圖12中提供了收集到的指標的匯總圖,包括總的情節獎勵和藍軍的傷亡人數。我們看到,與人類玩家相比,人工智能指揮官不僅取得了相當的表現,而且在任務中表現得稍好,同時還減少了藍軍的傷亡。
圖12 與人類和隨機智能體基線相比,訓練有素的人工智能指揮官(A3C智能體)的總獎勵和BLUEFOR傷亡情況。人工智能指揮官能夠實現與人類基線相當(略好)的獎勵,同時減少藍軍的傷亡。
為OpSim模擬環境開發了兩種類型的指揮官。第一種是基于專家設計的規則引擎,由喬治亞州本寧堡的軍事主題專家使用理論規則開發。第二種是DRL訓練的神經網絡,采用A2C算法訓練的多輸入多輸出的LSTM神經網絡。A2C與A3C類似,但沒有異步部分。OpSim的RL界面支持多智能體訓練,每個部隊可以是基于規則的,也可以是人工智能指揮官。
政策網絡首先在FOB的15個節點上進行訓練,75個平行工作者收集了482k次模擬戰斗,耗時36小時。此外,在SCOUT系統上應用和訓練了局部切面位置和無目標獎勵更新。有了更新的觀察和獎勵,39個平行工作者收集了175k次戰斗經驗,花了37小時。
觀察空間由17個特征向量組成,其中觀察空間是基于每個實體的設備傳感器的部分觀察。與S2CLE不同,OpSim目前不使用圖像輸入或屏幕圖像的空間特征。行動空間主要包括簡單的運動和交戰攻擊(表3)。
表3 OpSim模擬的觀察空間、行動空間和獎賞
訓練好的模型用100個推出的模擬結果進行評估,在檢查站使用凍結政策,BLUFOR的平均獎勵最高。在SCOUT上,4510號檢查站的BLUFOR政策平均獎勵達到了200,OPFOR政策平均獎勵達到了-322的滾動平均值。對100次滾動的分析表明,經過DRL訓練的BLUFOR智能體將損失從4左右降至0.5,而增加了OPFOR的損失(圖13)。這一結果是通過采用僅使用戰斗裝甲連和戰斗步兵連進行交戰的策略達到的。它學會了利用BLUFOR最致命的部隊與Abrams和Bradleys的策略,同時保護脆弱的資產不與OPFOR交戰(圖14)。
圖13 主題專家和人工智能指揮員之間的實體損失比較
圖14 一次推廣的開始和結束的快照
作為DSI的一部分,為C2的DRL開發了兩個新型測試平臺。基于StarCraft II和OpSim。使用這些最先進的測試平臺開發了端到端的DRL方法。該基礎設施被移植到國防部的HPC系統中,以擴大訓練的規模,進行平行數據收集。
初步實驗結果顯示,初步觀察到DRL在沒有預編碼知識的情況下實現了有效和合理的C2,基于DRL的 "人工指揮官 "可以在模擬的旅級戰斗中執行綜合規劃-執行過程。一些結果,特別是在《星際爭霸II》的環境中,表明人工智能采取的策略與有能力的人類玩家的策略相當。它還表明,計算資源并不是人工智能在C2中的障礙;我們看到使用HPC系統學習的速度足夠快,在37小時內就能收斂。總之,DSI的第一年提供了充分的證據,表明基于學習的人工智能有可能被用作未來軍事行動C2的關鍵技術。
機器學習(ML),從廣義上講,是一類自動優化參數以處理給定輸入并產生所需輸出的計算機算法。ML的一個經典例子是線性回歸,據此找到一條最適合(通過)一組點的線。最近的一個例子是分類任務,如用 "貓 "這樣的單字來標記一張百萬像素的圖像。
對于許多應用,ML完成了人類可以做得同樣好的任務。然而,ML在兩種情況下大放異彩:1)任務的數量巨大,例如數百萬;2)問題的維度超出了人類思維的理解。一個簡單的例子是同時實時監控成千上萬的安全攝像頭,尋找可疑的行為。也許一個ML方法可以發現異常事件,并只與人類觀察者分享這些視頻片段。更好的是,異常圖像可以被暫時貼上諸如 "1號入口處的蒙面入侵者 "之類的標簽,以幫助保安人員只關注相關的信息。
除了減少人類的負擔外,ML還可以將人類可能無法識別的復雜的相互聯系拼湊起來。例如,一個ML算法可以發現,在一百萬個銀行賬戶中,有五個賬戶的交易似乎是同步的,盡管它們沒有相互發送或接收資金,也沒有向共同的第三方發送或接收資金。
鑒于手持和固定設備的計算資源不斷增加,我們有必要想象一下,ML可以在哪些方面改變戰爭的打法。當然,ML已經對美國陸軍的科學研究產生了影響,但我們也可以很容易地想象到自主車輛和改進的監視等作戰應用。
本文件的主要目標是激勵美國陸軍和美國防部的人員思考ML可能帶來的結果,以及為實現這些結果,哪些研究投資可能是有成效的。
在ARL的許多研究項目中,機器學習目前正在被使用,或者可以被使用。我們列出了一些使用ML或可能從ML中受益的研究項目。我們列出的與ML相關的ARL研究工作絕非完整。
雖然從技術上講,機器學習自19世紀初高斯發明線性回歸以來就一直存在,但我們相信,ML的最新進展將以我們目前無法想象的方式影響軍隊。在本節中,我們概述了我們認為將得到加強的軍隊行動的許多領域,以及可能采用的ML方法的種類。
軍事情報包括信息收集和分析,因為它涉及到指揮官做出最佳決策所需的信息。由于收集的數據量越來越大,處理必須自動化。需要考慮的主要問題是數據的數量、速度、真實性和多樣性。大量的數據(又稱大數據)需要在許多計算節點上對數據進行智能分配。速度要求快速計算和網絡連接到數據流。真實性是對信息來源和異常檢測的信任問題。多樣性相當于使用許多不同的ML算法的不同訓練模型的應用。我們在本小節中概述了不同類型的數據和分析要求。
讓計算機從從各種媒體來源收集到的大型文本數據庫中提煉出重要的概念和文本部分,有很大的好處。最近報道的另一個ML突破是不同語言之間的精確文本翻譯。 軍隊的一個獨特挑戰是翻譯不常見的語言,因此專業翻譯人員較少。在人工通用智能(AGI)領域,一些團體聲稱,自然語言處理將是類似人類認知的基礎。
鑒于人類、傳感器和代理產生的數據的激增,一個很大的問題是,除了證明其收集的直接用途之外,這些數據還包含什么剩余價值。數據挖掘可以是統計學和機器學習的努力,以發現數據中的模式,否則人類操作者就會錯過。
傳統上,異常檢測是通過首先識別已知數據的群組和描述數據的分布來進行的。然后,當新的輸入被處理時,它們被識別為屬于或不屬于原始分布。如果它們在已知分布之外,就被認為是異常的。以下許多類型的異常檢測系統可能對軍隊有用。
網絡入侵檢測:超出常規的網絡流量。McPAD和PAYL是目前使用的軟件中的2個這樣的例子,它們使用了異常檢測。
生活模式異常:人們的視覺和生物統計學上的行為方式與常人不同,表明他們可能正在進行一些對抗性行動。
基于條件的維護:在當前生命周期中,材料/系統在其年齡段不典型的信號。
士兵異常:有理由相信士兵的生物識別技術不正常。
異物檢測:在已知物資數據庫中無法識別的物體的視覺效果。
自動目標識別(ATR)是一個非常成熟的領域,已經使用機器學習幾十年了。
1)目前深度學習的進展將在多大程度上增強ATR?
2)更復雜的算法是否需要更復雜/更耗電的機載計算?
ML是否能對目標的各種欺騙性的混淆行為具有魯棒性?
強化學習在多大程度上可以用來進行實時軌跡調整?
機器學習在機器人學中的應用也是一個巨大的領域。ML應用領域包括傳感、導航、運動和決策。目前,傳感將從計算機視覺的所有進展中受益。導航,除了使用標準的GPS之外,還可以從自我運動中受益,也就是基于自身感知的運動估計。運動可以被學習,而不是規劃,這不僅會導致更快的開發時間,而且還能在新的環境或受損的模式下重新適應(例如,失去四條腿中的一條)。最后,隨著機器人的數量超過人類操作員的數量,機器人將有必要自行決定如何執行其規定的任務。它將不得不做出這樣的決定:"由于電池電量不足,我是否要回到大本營?"或者 "我是否繼續前進一點,然后自我毀滅?"
除了機器人技術,人們最終希望任何系統在損壞或不能滿負荷工作時能夠自我糾正。這需要在某種程度上的智能,以自主診斷缺陷和問題,并利用其可用的資源糾正這些問題。
在通過機器學習來學習自主權的情況下,問題將是:"自主系統將如何應對X情況?" 這里的問題是,對于一個擁有潛在致命武力的系統,我們怎么能確定它只會正確合法地使用武力?我們推測,在機器學習的算法擁有使用致命武力的實際能力之前,必須對其進行廣泛的測試,即使它與人類的環形決策相聯系。
近年來,大量的研究都在研究使用機器學習來自主地玩各種視頻游戲。在某些情況下,報告的算法現在已經超過了人類玩游戲的水平。在其他情況下,仍然存在著處理長期記憶的挑戰。對于美國空軍來說,智能代理已經成功地在以戰斗為中心的飛行模擬器上進行了訓練,這些模擬器密切模仿現實生活。陸軍的問題包括以下內容。
智能代理能否附加到機器人平臺上?
智能在多大程度上可以通用于處理現實生活與視頻游戲中遇到的各種情況?
當我們可能不理解一個訓練有素的代理的邏輯時,我們能相信它的行動嗎?
代理在多大程度上能夠與人類合作?
在過去的十年里,機器學習在網絡安全方面發揮了不可或缺的作用。具體來說,ML可以用于異常檢測,檢測已知威脅的特定模式,并辨別網絡行為是否可能由惡意代理產生。隨著該領域的不斷加強,問題是ML是否能使安全比對手領先一步,因為對手可能利用ML來混淆檢測。
一個長期的設想是,軍隊使用的每一個機械系統都有一些關于系統當前和預測健康的內部感應。相關問題如下。
我們能從有限的傳感器中辨別出一個系統或系統組件的當前健康狀況嗎?
機載ML能否預測一個系統或系統部件在暴露于特定環境或彈道侮辱之后的健康狀況?
隨著基因組序列的數量繼續呈指數級增長,比較在現場獲得的序列所需的計算工作可能變得無法管理。機器學習可以通過對序列進行不同層次的分類來減少必要的比較。
93 近年來,機器學習已經在檢測各種組織中的惡性腫瘤方面取得了長足的進步。94 它同樣可以被用來描述創傷或創傷后應激障礙(PTSD)95,并制定治療計劃。
陸軍的一個重要組成部分集中在對行動、系統、研究和測試的分析上。傳統上,分析人員使用大量的工具,包括機器學習,以多維回歸、聚類和降維的形式。隨著深度學習的出現,一套新的工具應該是可能的,可以更有效地處理需要更復雜模型的大型數據集。例如,應該有可能從測試期間拍攝的視頻流中提取特征和物理屬性,這可能超過目前的標準做法。
自適應用戶界面(AUI)和情感計算。ML可以用來確定用戶的心理和/或情緒狀態,并提供適合這種狀態的界面。此外,可變的AUI可以服務于用戶的變化。例如,一些用戶可能喜歡音頻反饋而不是視覺反饋。
推薦系統。最流行的推薦系統之一是根據以前看過的電影的評分來選擇用戶想看的下一部電影(例如,所謂的 "Netflix問題")。對于軍隊來說,可以根據以前的使用情況和庫存核算的反饋來推薦后勤補給的情況。
搜索引擎/信息檢索。傳統上,搜索引擎返回文件的 "點擊率"。新的范式是以簡明的形式回答用戶的問題,而不是簡單的模式匹配。
情感分析。社交媒體上的流量和對環境進行訓練的各種傳感器不僅可以檢測關鍵的關鍵詞或特定物體的存在,還可以推斷出可能的攻擊的可能性。
有針對性的宣傳。傳統上,宣傳是通過散發傳單來完成的,如今,宣傳可以通過社交媒體來傳播。ML的角度是如何以最有說服力的信息向正確的人口群體進行宣傳。此外,重要的是快速檢測和顛覆來自對手針對我們自己的人員/人民的宣傳。
本研究的目標之一是確定當前研究中的差距,這些差距可能會限制ML在軍隊研究和行動中的全部潛力。本節借用了ARL運動科學家Brian Henz博士和Tien Pham博士(未發表)的戰略規劃工作。
傳統上,在一個特定領域采用ML的一半戰斗是弄清楚如何適應現有的工具和算法。對于陸軍所面臨的許多問題來說,這一點更為突出,與其他學術、商業或政府用途相比,這些問題可能是獨一無二的。任何數據分析員面臨的第一個問題是使數據適應他們想要使用的統計或ML模型。并非所有的數據都使用連續變量或者是一個時間序列。離散/標簽數據的管理可能非常棘手,因為標簽可能不容易被轉換成數學上的東西。在自然語言處理中的一個例子是,單詞經常被轉換為高維的單熱向量。另一個例子可能是如何將大量的維修報告轉換為對某一特定車輛在一段時間內的表現的預測。
此外,陸軍的要求超出了典型的商業部門的使用范圍,不僅需要檢測物體和人,還需要檢測他們的意圖和姿態。這將需要開發新的模型。另一個大的要求是可解釋性,正如DARPA最近的一個項目所概述的那樣:是什么因素導致ML算法做出一個特定的決定?在一個真實的事件中,如果一個ML算法在沒有人類驗證的情況下宣布一個重要目標的存在,我們能相信這一決定嗎?
隨著對計算要求高的ML任務的設想,開發人員正在使用多線程、并行和異構架構(GPU、多核)來加快計算速度。ML的分布式實現遠不如GPU版本常見,因為分布式計算中的節點間通信存在固有的網絡瓶頸,而且在單精度浮點性能方面,GPU相對于CPU有很大優勢。除了目前對GPU的強烈依賴,生物啟發式神經計算旨在尋找非馮-諾伊曼架構來更有效地執行ML,并可能更快。這方面的一個例子是IBM的神經形態芯片。97 未來的研究應該關注如何分配ML處理,使節點之間的網絡通信最小化。另外,像聚類這樣的無監督學習算法在多大程度上可以被映射到神經網絡中?
其他需要考慮的事情。
目前的ML軟件(特定的神經網絡)在一個小型的GPU集群中表現最好。
大多數基于非神經網絡的ML算法的并行性不高,或者根本就沒有并行。
另一個軍隊的具體挑戰是分析基本上沒有標記的數據集(例如,用無監督學習)。手動標注集群將是一種半監督學習的形式。
隨著進入偏遠地區或任何遠離基地的地區,軍隊必須限制系統的尺寸、重量和功率。此外,在 "激烈的戰斗 "中,時間是關鍵。例如,人們不能在遭到槍擊時等待作戰模擬的完成。最后,在其他商業發射器占主導地位的地區,或者在限制無線電通信以提高隱蔽性的情況下,網絡帶寬可能會受到很大限制。
在這種倍受限制的環境中,機器學習將需要有效地進行,而且往往是以一種孤立的方式進行。截然相反的條件是使用大型數據庫訓練大型神經網絡,這往往是最先進的機器學習功力的情況。商業部門正在開發自動駕駛汽車,據推測將使用低功耗的計算設備(如現場可編程門陣列、移動GPU)進行自主駕駛、道路/障礙物檢測和導航。然而,陸軍將有更多的要求,包括自主傳感器和執行器、態勢感知/理解、與人類的通信/合作,以及廣泛的戰場設備。這將需要多幾個因素的計算能力和特定算法的硬件,以實現最佳的小型化和低功耗。
在混亂的環境中,操作環境預計會有比通常密度更高的靜態和動態物體。此外,人們完全期待主動欺騙以避免被發現。我們也希望能夠開發出足夠強大的算法,至少能夠意識到欺騙,并相應地調低其確定性估計。
基于CNN的目標分類的突破可以部分歸功于每個物體類別的成千上萬個例子的可用性。在軍隊場景中,某些人和物體的數據可能是有限的。人們最終將需要one-hot99或multishot分類器,其中幾個有代表性的數據條目就足以學習一個新的類別。到目前為止,最好的選擇是 "知識轉移",通過調整以前訓練的模型的所有參數的子集來學習新的類別。我們的想法是,由于需要優化的參數較少,修改這些參數所需的數據也較少。
即使對于我們可以產生大量圖像的目標類別(例如,友好物體),我們也需要訓練自己的模型,以便從每個類別的潛在的數千張圖像中識別軍隊相關類別。軍隊還使用商業車輛中通常不存在的其他傳感模式(例如,熱能和雷達)。因此,需要為這些非典型的傳感設備訓練模型。從根本上說,非典型傳感設備可能需要新的神經網絡拓撲結構以達到最佳的準確性和緊湊性。
一個值得研究的有趣領域是將模型和模擬與機器學習相結合。有很多方法可以做到這一點。例如,ML可以用來推導出模擬的起始參數。此外,ML還可以用來處理模擬的輸出。一個耐人尋味的新領域是開發基于物理學或類似物理學的模擬,使用類似ML的模型/方程。一個這樣的應用是預測 "如果?"的情景。例如,"如果我跑過這棵樹呢?接下來會發生什么?"
機器學習在傳統上被認為是人工智能的硬性(即數學)表現形式。有可能最終,所有的人工智能任務都會被簡化為數學。然而,就目前而言,一些智能任務似乎更多的是基于推理或情感。對于之前描述的方法中的任務,ML并不能充分解決以下軟性人工智能的特點。
人類并不總是完全按邏輯推理,但他們也有能力將不完整的信息拼湊起來,做出 "最佳猜測 "的決定。幾十年來,對這種行為進行編碼一直是一個挑戰。
情緒似乎是驅動人類達到某些目的的動機/目標功能。例如,快樂可能會導致不活動或追求生產性的創造力。另一方面,恐懼則可能會導致忍氣吞聲。計算機是否需要情感來更有效地運作,還是說它們最好擁有100%的客觀性?這既是一個哲學問題,也是一個未來的研究方向。不過現在,毫無疑問的是,在人與代理人的團隊合作中,計算機需要準確地解釋人類的情感,以實現最佳的團體結果。
與人類的互動性是陸軍研究未來的首要關注點。一個類似的問題是,不同的計算機系統之間如何進行交流,而這些系統不一定是由同一個實驗室設計的。研究的一個領域是用計算機來教那些在這方面有困難的人進行社會交流。 再一次,對于人與代理的合作,代理將需要能夠參與社會互動,并在人類的陪伴下遵守社會規范。
創造力通常被認為是隨機合并的想法,與新的元素相結合,由一個鑒別功能決定新創造的項目的功能和/或美學。在某些方面,創造力已經被某些計算機實驗室所證明。例如,為了設計的目的,計算機可以被賦予某些方面的創造力。
人工智能的最終目標是將許多狹義的智能算法合并成一個統一的智能,就像人類的頭腦一樣。75鑒于許多狹義的人工智能任務已經比人類的某些任務要好,即使是早期的所謂人工通用智能(AGI)也可能具有一些超人的能力。AGI的一個主要目標是將目前由人類執行的某些任務自動化。
如果不提及許多哲學家的猜測,機器學習將最終能夠改進自己的編程,導致能力的指數級提高,也許會遠遠超過人類智能,那么機器學習的研究就不完整了。這些設想既是烏托邦式的104,也是烏托邦式的105。希望超級智能能夠解決世界上的許多問題。
在這項工作中,我們回顧了機器學習的不同類別,并描述了一些更常用的方法。然后,我們指出了一小部分關于ML在ARL中的應用的例子。最后,我們預測了ML在未來可以應用于軍隊的各個領域,并概述了為實現這一結果需要解決的一些挑戰。我們希望這份文件能夠激勵未來的研究人員和決策者繼續投資于研究和開發,以充分利用ML來幫助推動美國陸軍的發展。
?在日益復雜的軍事行動環境中,下一代兵棋推演平臺可以減少風險,降低作戰成本,并改善整體結果。基于具有多模態交互和可視化能力軟件平臺的新型人工智能(AI)兵棋推演方法,對于提供滿足當前和新興戰爭現實所需的決策靈活性和適應性至關重要。我們強調了未來作戰人-機器交互的三個發展領域:由人工智能引導的決策指導,高計算力下的決策過程,以及決策空間的真實呈現。這些領域的進展將使有效的人機協作決策得以發展,以滿足當今戰斗空間日益增長的規模和復雜性。
關鍵詞:決策、交互、兵棋推演、人工智能、增強/混合現實、可視化
在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并在軍事決策過程(MDMP,方框1)中模擬各種因素的組合如何產生行動方案(COA)、可能的反擊行動、資源使用估計和預測結果(美國陸軍,1997年,2014年,2015年)。在幾天或幾周的時間里,MDMP過程導致了一套精煉的COAs,它對作戰環境做出了一定的假設,包括地形、天氣以及戰區資產的可用性和能力(即塑造支持主要作戰行動的活動)。
方框1. 軍事決策過程(MDMP) | |
---|---|
MDMP是美國陸軍解決問題的理論方法,從接到任務開始,到生成作戰命令結束。MDMP被用作一種工具,幫助指揮人員審查眾多的友軍和敵軍的作戰行動。MDMP的7個步驟在規劃新任務、擴展行動和執行訓練演習所需的決策過程中灌輸徹底、清晰、合理的判斷、邏輯和專業知識(美陸軍,1997年,2015年)。 | |
指揮官在接到任務后啟動了MDMP。在MDMP的第1步中,所有的工作人員和關鍵的任務參與者都被告知任務和待定的規劃要求,包括進行MDMP的可用時間量。確定進行任務分析所需的工具,并收集與任務和作戰區有關的文件。步驟2,執行任務分析,建立對任務的全面理解,包括關鍵的事實和假設,形成擬議的任務說明和任務分析簡報,為制定COA做準備。 | |
MDMP的第3至第6步著重于制定COA以進行分析和比較。這些步驟包括:第3步,制定COA;第4步,COA分析(兵棋推演);第5步,COA比較;第6步,COA批準。COA是對一個已確定的問題的潛在解決方案。每個COA都要使用篩選標準來檢查其有效性,如在既定的時間框架、空間和資源限制內完成任務。COA的選擇過程通常涉及到兵棋推演,它試圖在考慮到友軍力量和敵人能力的情況下,將行動的順序流程可視化,同時考慮到行動區域內平民的影響和要求(美陸軍,2014)。戰術模擬(兵棋推演)方法的好處是突出了作戰行動的優勢和劣勢。這往往是一個反復的過程,對作戰行動方案進行評估,然后根據需要進行修改,直到出現一個或多個具有最高成功概率的作戰行動方案來完成任務目標。 | |
在一個具體的行動方案得到指揮部的批準后,MDMP的最后一步是制作行動指令,這是一份給下屬和鄰近單位的指令,旨在協調所有參與任務的組織的活動。這一步驟涉及到所有受命令傳播影響的組織之間的積極合作,并建立起對局勢的共同理解。 |
盡管MDMP幫助指揮官了解作戰環境和考慮作戰方法,但這個過程有很多局限性,如時間密集、假設僵化、跨場景訓練的機會有限,以及將人工智能(AI)指導納入決策過程的機會很少。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于當今多域作戰(MDO)的復雜性增加(Feickert,2021年),有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人為無法完成的地步。由于MDMP的缺陷而導致的規劃專業知識的缺乏,可能會導致不同步和不協調的行動,從而最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,集成了先進可視化能力的新系統和新技術已經被開發出來,它們可以提高態勢感知,從而增強決策過程。美陸軍的例子包括Nett Warrior(Gilmore,2015),它使下馬戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協同規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個底層的人工智能引擎來提供決策幫助。戰斗空間可視化和交互平臺(BVI,前身為增強現實沙盤,ARES)是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇設備的共同作戰畫面的二維和三維可視化能力(Su等人,2021)。BVI架構的制定是為了拉入外部計算服務,如分析管道、模型和人工智能引擎。美陸軍研究實驗室正在努力將這些類型的服務納入BVI,包括用于加強決策支持的人工智能。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。美陸軍的自動規劃框架(APF)(Bailey,2017)開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策問題。指揮人員可以通過APF的數字規劃呈現、規劃創建和規劃監控工具,在任務規劃和COA開發期間獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF為MDMP引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的先進的可視化和用戶互動能力。
提供地面部隊自動化和用戶可視化能力的是美陸軍最知名的兵棋推演平臺--半自動化部隊(OneSAF),為計算機生成的地面部隊提供建模和模擬能力(PEO_STRI, 2022)。OneSAF提供了半自動和全自動的軍事實體(即士兵、坦克、直升機和綜合單位)的建模,在類似真實世界的戰斗空間中以不同的保真度來支持特定的應用和場景。OneSAF主要用于訓練,并與目前的任務指揮系統具有互操作性。它可以使用多分辨率的地形和詳細的實體相關數據庫來模擬廣泛的作戰環境。然而,OneSAF對地形和實體系統的高保真建模的優勢使得它的設置和運行成本很高。它受到老化系統的限制,而且眾所周知,士兵需要大量的培訓來學習如何操作模擬,使用起來很困難(Ballanco,2019)。OneSAF的復雜功能并不適合開發人工智能能力,以實現快速和敏捷的戰士-機器決策。
除了MDMP和上面提到的陸軍平臺外,最近將人工智能納入決策過程的工作包括一些方法(Goecks等人,2021a),在模擬人類決策過程方面取得了一些成功。一般來說,人工智能在決策變量有限的問題上取得了一些成功,如資源分配(Surdu等人,1999)、飛行模擬器(Drubin,2020)和更簡單的場景。正在進行的挑戰包括需要提高人工智能的能力,以解決有多個行為者、不完整和可能沖突的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度和領域內可視化。
以下各節描述了對MDMP的潛在改進。"未來軍事決策過程所需的進步"一節概述了支持MDO決策的三個研究領域,并以圖表形式描述了這些研究領域與軍事理論決策方法之間的關系。"未來軍事決策過程所需的進步 "一節中的小節對每個研究領域進行了更深入的討論。"展望推進人-人工智能團隊決策的交互技術 "一節概述了未來的作戰人員-機器接口(WMI)的發展方向,重點是與決策有關的人-人工智能團隊的跨學科研究。
軍事決策過程在支持MDO復雜決策方面的局限性,突出了在三個研究領域的改進需要。首先,有必要將人工智能產生的指導和輔助決策支持納入MDMP。這既包括進一步開發和整合人工智能到戰斗空間決策規劃,也包括進一步改善人工智能決策過程的可解釋性和透明度(Chen等人,2018)。第二,有必要在戰略層面以及戰術邊緣,盡可能地將決策分析與高性能計算(HPC)的力量結合起來。這將能夠利用HPC系統的力量來支持建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動表述。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何相互作用的,并利用混合現實技術來提高理解的吞吐量,并產生平面顯示不可能的洞察力。
除了MDMP之外,其他更廣泛適用的支持戰斗性問題解決的軍事理論包括:DOTMLPF[例如,學說、組織、訓練、物資、領導、人員和設施;(美陸軍,2018年)],這是一個確定差距并為當前和未來作戰要求提出設計解決方案的框架;以及METT-TC[例如,任務、敵人、地形和天氣、部隊、可用時間和民事考慮;(美陸軍,2019年)],這是一個結構化框架,用于捕捉任務相關因素的狀態,以便在軍事行動期間進行共享評估。這些理論定義了MDO戰場的信息背景,構成了應用于上述三個研究領域的軍事決策的核心基礎。如圖1所示,在為人類和人工智能指揮開發復雜軍事決策空間的新表述時,研究進展和MDO相關理論相互借鑒、相互啟發、相互加強(美陸軍,2010)。
圖1. 新型作戰人員-機器交互(WMIs)和人工智能輔助決策所需的三個研究發展領域,以支持和加強基本的MDO理論[右下圖來源:Lebsack(2021)]。
需要新的人工智能支持的WMI,以利用人工智能決策方面正在取得的進展,并為復雜的適應性決策的人工智能學習作出貢獻。在簡化的戰斗空間中測試人工智能決策輔助工具是開發過程中重要的第一步,也是將人工智能納入更成熟的戰斗空間平臺(即BVI、OneSAF)的前奏。開發用于決策輔助實驗的人工智能測試平臺可以在MDO中產生能力越來越強的潛在COA建議。圖2顯示了陸軍開發的兩個人工智能測試平臺的例子。
圖2. 兩個ARL人工智能測試平臺的例子。左邊:ARL Battlespace(Hare等人,2021)( //github.com/USArmyResearchLab/ARL_Battlespace )。右邊:ARL的Simple Yeho測試平臺。圖片由C. Hung制作。
人工智能測試平臺能夠開發出匯集所有領域信息的AI,并計算出人類和AI智能體的風險和預期回報。圖2的左側顯示了ARL戰斗空間測試平臺(Hare等人,2021年),它是從頭開始開發復雜決策的新型人工智能的理想場所。它對戰斗空間的抽象強調了軍隊相關場景下的核心推理原則,在這種情況下,用蜜罐進行網絡欺騙。較小的網格空間使人工智能的學習和發展能夠集中在不確定性下的復雜推理,有多個友好和敵對的agent。圖2的右側顯示了ARL的Simple Yeho測試平臺,它提供了將人工智能開發與更多真實世界場景中的默契推理結合起來的能力,有多個基于地形的海拔高度、視線范圍、障礙物、樹葉(隱蔽)、道路和城市區域。紅色陰影和黑色線條表示任務的起點和終點、左右邊界以及人工智能建議的路線。這種額外的真實性使其能夠與MDO理論相結合,包括DOTMLPF和METT-TC,并使人工智能與自然的、機會主義的士兵行為共同發展。這兩個人工智能測試平臺都可以擴展為傳統和沉浸式混合現實WMI開發平臺。
使用漸進式和可擴展的人工智能測試平臺,可以調查現有人工智能的幾個基本限制,特別是對于具有不確定性的復雜和適應性決策,以及人類和AI智能體的協作和對抗。對多智能體的協作和對抗性決策進行建模可能特別復雜,因為其遞歸性質,其他智能體是模型的一部分(Goldman,1973;Grüning和Krueger,2021),需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的交互界面和人工智能測試平臺的人機協作可以提供加速和更有效的決策。對于有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,并幫助人工智能發現決策的隱含規則。下面,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋、國際象棋、Minecraft和大富翁等游戲中的成功(Silver等人,2017;Goecks等人,2021b;Haliem等人,2021)是基于對世界現有狀態有完整了解的游戲(即 "開放 "游戲),而兵棋推演平臺通常包括關于作戰環境的不完整(如星際爭霸)、不確定或欺騙性信息(Vinyals等人,2019)。不確定性也可能來自變化的物理學或其他環境規則,正如在《憤怒的小鳥》中所探索的那樣(Gamage等人,2021)。由于世界狀態、不同行動者的狀態以及所采取的行動不確定性,知識的缺乏使得人工智能agent難以計算未來行動的風險回報情況(Cassenti和Kaplan,2021)。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效的博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(Lavine,2019),即由于信息有限而選擇錯誤的選項,這種情況并不罕見,因為人類在制定有效探索隱藏信息的策略時,采用啟發式方法進行有效的選擇和預測(Gardner,2019)。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策景觀,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠在不施加認知負擔的情況下從人類的決策中機會主義地學習(Lance等人,2020)。這種機會主義學習可以包括:例如,凝視跟蹤,以捕捉吸引人類興趣和意圖的視覺區域和未標記的目標。它們還可以包括建立在自然的士兵選擇行為基礎上的行動者批評方法,以改善人工智能對人類專家在不確定、不完全信息和欺騙的情況下如何優先考慮某些選擇的學習,這取決于任務相關的背景。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度(Gil等人,2018)。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動化的決策,以及實施進攻和防御性欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖景,即可以解釋一小部分最優和接近最優的決策策略(例如,圖3中的決策樹)。這應該包括對關鍵agent在不確定情況下的未來狀態和風險回報情況的估計(Hare等人,2020),以使有效的博弈論決策能夠被共同開發和相互理解。
圖3. 在頂部,是BVI網絡戰術規劃器應用程序中友軍與敵軍戰爭場景的三維視圖。三維視圖提供了一個比二維視圖更真實的決策視角,例如,顯示友軍(藍色)和敵軍(紅色)機載預警系統(AEWs)和周圍地形的海拔。這使得快速審查可能的視線和相對于周圍地形的感應。下面是人工智能的導航決策樹,為人工智能計算的幾個關鍵選擇的風險/回報概況以及它們如何映射到地形上提供透明度。這種抽象的決策空間還可以整合非空間決策,例如網絡欺騙。虛線表示與友方AEW的通信聯系和對敵方AEW的可能干擾。圖片由C. Hung制作。
這些挑戰為有效的WMIs設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)提取信息,以及一個能夠承載整合這些信息的計算能力的架構,同時還要處理基礎的人工智能計算(用于學習和部署)。我們還需要共同開發一個界面和算法設計,以適時地利用人類和人工智能agent的優勢并減少其局限性。
在復雜的決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從積累的動態狀態空間的數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析性的見解,并在決策背景下創建有用的表述。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對HPC服務的非傳統訪問,而不像傳統的HPC環境,計算節點在特定的時間段內以批處理模式分配給用戶。此外,PSF提供對數據、數據庫、容器化工具集和其他托管平臺的分布式連續訪問(Su等人,2021)。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決定。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭性和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用消息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實施人工智能輔助決策機制,利用大數據攝取和分析,同時可供地理分布的用戶用于協作決策工作和 "永遠在線 "的個性化培訓和紅色團隊。連接到PSF托管服務器的各種混合現實顯示模式可以支持一系列作戰場景,從戰略層面的指揮和控制到作戰邊緣的更多移動戰術使用。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境(Dennison等人,2020;Hung等人,2020;Raglin等人,2020)。戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平(Kase等人,2020;Larkin等人,2020;Hung等人,2021)。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供理解復雜的兵棋推演狀態空間所需的洞察力(Su等人,2021)。當需要一個共享的戰斗空間表示時,可以通過在不同的可視化模式上實現多個協調的視圖來實現協作的戰略規劃模式,以根據分布式指揮人員的輸入進行互動更新。
BVI(Garneau等人,2018)平臺表示地理空間地形信息和地圖圖像,允許指揮人員建立和修改戰術任務規劃和COA。作為一個數據服務器,BVI將地形和作戰數據分發給支持多種可視化模式的客戶端應用程序,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
例如,圖3(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景(Wikipedia, 2021)。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化(美國防部,2014)。可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖3,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性。
人工智能和人-人工智能團隊的快速發展需要WMI同步發展。隨著新型人工智能對有價值的COA產生更好的預測,并能更好地處理復雜的決策,它們也必須利用人類的專業知識,學習如何處理具有高度不確定性、欺騙、隱性知識和博弈論的決策。相反,人工智能的推理必須既抽象又能與兵棋推演環境相聯系,以實現透明和信任,同時又不造成過度的認知負擔。基于三維混合現實的WMI可以利用和增強人類固有的三維認知和預測能力(Welchman等人,2005;Kamitani和Tong,2006;Kim等人,2014;Boyce等人,2019;Krokos等人,2019),如果設計得當,其交互將感覺自然,同時擴大顯示多個領域的信息的能力,同時使AI能夠適時地從用戶的決策中學習。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。
信息作戰和指揮與控制(C2)是美國陸軍可以向盟友和伙伴提供的兩種能力。在未來的作戰環境中,不僅要為動能作戰做準備,而且要為混合作戰和以信息為重點的戰爭做準備。這需要在復雜和默契推理的人工智能能力方面取得進展,在能夠提供持續訓練、分布式混合決策和大數據分析系統方面取得進展,以及在人與人工智能協作決策和機會主義學習方面取得進展,以實現人工智能的持續進步和人與人工智能的共同適應。這些進展中的每一項都需要跨學科的計劃性努力,以克服復雜的技術挑戰,創造新的決策原則、理論和理論方法,包括持續開發綜合測試平臺和技術,以實現政府、學術界和工業界的合作和協同發展。
2022年5月31日,美國國會研究服務局向國會提交《國防部反無人機系統》更新版報告。報告簡要介紹了美國國防部面臨的無人機威脅及反無人機投資計劃,概述了反無人機技術及方法,介紹了美國海軍、陸軍、空軍、海軍陸戰隊及國防部及其它機構反無人機武器的最新研究進展,并給出了國會面臨的潛在問題。
** **
**美國國防部近期反無人機系統有何進展?存在什么問題?美國國會研究服務局向國會提交的《國防部反無人機系統》更新版報告編譯:學術plus觀察員 潛行,文文子
**本文主要內容及關鍵詞
0. 背景:小型無人機對美國安全構成威脅;國防部2023財年計劃投巨資發展反無人機系統(技術研發6.68億/武器采購7800萬美元);國會發揮監督職能1. 反無人機發展現狀
①反無人機技術:無人機探測技術,反無人機技術方法 ②戰略技術文件與機構設置:《反無人駕駛飛機系統技術》《國防部反小型無人機戰略》,反小型無人機聯合辦公室/JCO ③反無人機武器研發進展:陸、海、空、海軍陸戰隊、國防部其它機構研究情況2. 國會關心的問題與未來發展方向:平衡研發和采購資金;空域管理/作戰概念/交戰規則及戰術等方面的調整;操作風險的識別與管理
美軍研究認為,近年來無人機技術迅速擴散,易于被對手和恐怖分子獲得和使用。這些無人機系統成本低,可執行針對美軍的情報、監視和偵察或攻擊任務,對美軍構成嚴重威脅。多數小型無人機飛行高度低、使用特殊材料,傳統的防空系統難以探測。 **美國國防部計劃2023財年至少投資6.68億美元用于反無人機技術研發,7800萬美元用于反無人機武器采購。**國會將加強其監督職能,必須就未來的授權、撥款和其他立法行動做出決定。
1.發展現狀****
反無人機通常由探測和壓制/擊敗兩個主要步驟完成。
1.1 反無人機技術
**無人機探測技術:**一是使用光電、紅外或聲學傳感器分別通過目標的光學、熱量或聲學特征探測目標;二是使用雷達系統,該方法探測到微小型無人機效果不佳;三是使用射頻傳感器識別用于控制無人機的無線信號。這些方法經常結合使用可提供更有效的分層探測能力。
**反無人機技術方法:**在探測到非法無人機后,電子戰“干擾”裝置可干擾無人機通信鏈路,或使用槍支、網絡、定向能、傳統防空系統,甚至訓練有素的動物(如鷹)壓制、擊敗或摧毀無人機。
1.2 反無人機文件、機構與培訓
陸軍先后于2016年7月和2017年4月發布了反無人機戰略及技術出版物3-01.81**《反無人駕駛飛機系統技術》**概述了作戰期間防御低、慢、小無人機威脅的規劃考慮,以及如何規劃并將反無人機士兵任務納入陸軍訓練活動。
2019年12月,國防部指定陸軍為反小型無人機執行機構,負責監督國防部所有反小型無人機開發工作。**2020年1月,成立反小型無人機聯合辦公室(JCO)。**JCO評估了超過40種反小型無人機系統后,選擇了10種小型無人機防御系統和一個標準化的指揮和控制系統進行進一步開發。JCO于2021年1月發布了《國防部反小型無人機戰略》。JCO將另外制定一份國防部關于反小型無人機指揮和反小型無人機能力評估。國防部計劃到2024財年建立聯合反小型無人機學院,在各軍種同步開展反無人機戰術訓練。
1.3 反無人機武器研發最新進展
圖 便攜式反UAS技術
海軍先后開發出30千瓦激光武器系統(LaWS)、干擾無人機傳感器的光學致盲器(ODIN)及60千瓦“太陽神”(HELIOS)激光武器。2014年,LaWS部署在美海軍“龐塞”號(LPD-15)上。2021年,ODIN部署在“普雷布爾”號(USS Preble DDG-88)艦上。此外,海軍還與國防數字服務處合作,快速開發新的網絡賦能反無人機武器。
海軍陸戰隊2019年完成了海上防空綜合系統(MADIS)的海外測試,并于2019年7月壓制了一艘伊朗無人機。海軍陸戰隊還采購了2千瓦、5千瓦和10千瓦緊湊型激光武器系統(CLaWS)。海軍陸戰隊開展了單兵攜帶反無人機試驗,但受限于重量和功率要求,沒有取得成功。
圖 海上防空綜合系統
反無人機是美國陸軍作戰能力發展司令部的六層防空和導彈防御概念的一部分,包括:彈道導道、低空無人機交戰;多任務高能激光;下一代火控雷達;機動防空技術(MADT);高能激光戰術車輛驗證機;低成本增程防空。目前這些系統仍在開發中,陸軍已部署了一些便攜式、車載和機載反無人機系統。此外,陸軍與國防數字服務處合作開發計算機支持的反無人機產品。
國防部及其它機構也在研究和開發多種反無人機技術。聯合參謀部和其他國防部機構參與了如**“黑鏢”(Black Dart)演習反無人機工作。**國防高級研究計劃局為反蜂群人工智能及用于艦載點防御的多方位防御快速攔截彈交戰系統等項目提供研究資金。
2.發展方向
美國國會:反無人技術管理與發展方向
一是國防部如何平衡研發和采購資金及與其他部門(如國土安全部、司法部和能源部)的協調,減少反無人機系統冗余并提高采購的效率;
二是為優化反無人機系統的使用和/或消除與其他美國軍事行動的沖突,國防部對空域管理、作戰概念、交戰規則或戰術是否需要進行改變;
三是國防部與聯邦航空管理局和國際民用航空當局協調以識別和減輕民用飛機的反無人機操作風險。
3.評析
3.1 美軍持續在反無人機領域發力,以獲取未來競爭優勢
3.2 美國防部成立專門部門,統整反無人機方案,評估擇優,確保優勢
3.3 國會關心的幾個問題的解決將為反無人機系統走向應際應用鋪平道路
(全文完) 參考鏈接: //news.usni.org/2022/06/01/report-to-congress-on-anti-drone-weapons