通過整合人工智能輔助指揮系統和無人技術,未來戰爭正在經歷變革,這將對作戰行動和軍事決策周期所需的速度產生重大影響。未來的決策支持系統將協助軍事決策者評估威脅,為部隊制定最佳行動方案,甚至通過自主系統的協作群行為執行行動。要實現這些系統,建模與仿真以及先進的深度強化學習(RL)技術的結合將發揮至關重要的作用。
本文介紹了德國陸軍概念與能力發展中心和空中客車公司開展的幾項研究的結果。這些研究評估了模擬和人工智能技術的調整和利用情況,利用 RL 優化模擬 "ReLeGSim "訓練了一個能夠在陸軍作戰中充當營級指揮員或在 ISR 任務中控制無人機群的AI智能體。AI智能體利用語言模型生成自然語言命令,在 ReLeGSim 中執行行動,加強了人類顧問與人工智能系統之間的交流,同時將目標和條令納入人工智能推理過程。通過軍事條令感知反饋功能,智能體在每個訓練周期內評估并改進其行為。
訓練完成后,AI智能體可應用于真實世界的場景,根據所學的AI智能體策略為營長制定行動方案,或直接在自主系統中執行,以控制無人機蜂群。這項研究為使智能體具備在未來行動中維護軍事條令和規則的能力奠定了基礎。
近年來,人工智能(AI)取得了長足的進步,而強化學習(RL)則是其中一個突出的范例。強化學習因其在 Dota2 和《星際爭霸》等復雜游戲場景中實現卓越性能,甚至超越人類能力的能力而備受關注。它已成為機器學習領域用于解決復雜任務的最先進的人工智能技術。
當前軍事研究的主要目標是將最初為游戲應用而設計的 RL 技術移植到軍事行動領域。其總體目標是為軍事行動開發基于人工智能的系統,使其在許多使用案例中都能表現出超人水平的性能,例如[16]:
戰場決策: 通過使用模擬環境,RL 可用于訓練智能體在復雜的軍事場景中做出決策[1]。人工智能做出的決策可用作向指揮官提出的建議,例如,有效的行動方案。
自主系統: RL 可用于訓練智能體在模擬環境中控制軍用車輛(如無人機、坦克)[2]。智能體可以學會在環境中導航車輛并執行各種任務(如偵察、目標捕獲)。經過訓練的智能體可以轉移到真實車輛上,而無需重新訓練人工智能。
規劃與優化: 例如,RL 可用于優化軍事模擬中的后勤規劃[3]。智能體可以學習將資源(如部隊、補給)分配到戰場的不同區域,以實現任務目標,同時將損失降到最低。
網絡安全: 在軍事模擬中,RL 可用于訓練智能體檢測和應對網絡攻擊 [4]。智能體可以學會識別和減輕對軍事網絡和系統的威脅。
培訓與評估: RL 可用于在模擬中培訓和評估軍事人員 [5]。智能體可以模擬不同的場景,并對受訓人員采取的行動提供反饋。
應用于 RL 的技術在不斷變化和改進。變壓器模型[6]等新架構和 SiLU [7]等新激活函數正在進一步改善用 RL 訓練的人工智能體的架構和整體性能。轉換器模型允許使用新的架構,如視覺轉換器(VisionTransformers)[8],也是所有最新大型語言模型的基礎,如 OpenAI [9] 的 GPT(生成預訓練轉換器)。
在這些發展的推動下,本文研究了如何使用新的語言模型架構來解決軍事行動所需的巨大行動空間問題,并提高智能體的整體性能。
在 RL 中,復雜的決策能力往往伴隨著巨大的行動空間,而緩解行動空間爆炸是一個活躍的研究領域。論文 "不斷增長的行動空間"[10] 強調,隨機探索對于大型空間來說不夠好,課程學習對于學習這些行動空間至關重要。最近的發展使用了以自然語言為特征的動作空間,并成功地利用了其復雜動作生成的靈活性[11]。
自然語言處理領域的最新進展激發了開發人員拓展使用自然語言的可能性。語言模型通常用于問題解答和對話。不過,這些模型也可以通過 RL 訓練與環境互動。在他們的論文 "學習用語言模擬世界"[12]中,介紹了構建智能體的概念,這些智能體可以理解并以多種方式使用不同的語言,包括傳達常識、描述世界狀態和提供反饋。其核心思想是,語言可以幫助智能體預測未來,包括將觀察到什么、世界將如何表現以及哪些行為將得到獎勵。作者介紹的 "Dynalang "是一種學習多模態世界模型的智能體,它能預測未來的文本和圖像表征,并根據模擬模型的推出做出決策。與傳統智能體不同,Dynalang 不僅使用語言進行行動預測,還使用語言預測未來的語言、視頻和獎勵,從而獲得豐富的語言理解能力。此外,Dynalang 還可以在沒有動作或獎勵的語言和視頻數據集上進行預訓練,它能有效地利用語言來提高從網格世界到逼真家庭掃描等各種環境中的任務性能。
RL 的另一個重要方面在于獎勵系統的適應性,即為智能體提供激勵措施以鼓勵所期望行為的概念。獎勵塑造是一種用于系統修改這些獎勵結構的技術。在實踐中,這涉及對獎勵進行微調,以引導智能體實現特定目標。舉例來說,在迷宮導航的背景下,人工智能體可以在探索之前未知區域時獲得遞增獎勵,從而刺激全面探索。另一種策略是元學習或多任務學習,它使人工智能系統能夠同時監督多個可能不同的目標。這種方法類似于同時掌握幾項任務,通過在這些任務之間共享所獲得的知識和技能來實現。然而,在人工智能中動態改變獎勵功能的過程伴隨著內在的挑戰。
如果目標的轉變過于突然,人工智能系統可能難以適應,需要進行資源密集型的再訓練。頻繁改變目標可能會給人工智能帶來困惑。總之,在人工智能中動態調節獎勵機制的做法體現了一種強有力的工具,盡管這種工具需要謹慎管理。首要目標是在人工智能的學習過程中實現適應性和穩定性之間的平衡,確保在適應不斷變化的目標和保持有效的學習動力之間達到和諧的平衡。
最近發表的論文“Designing Rewards for Fast Learning”[13] 探討了獎勵函數設計對 RL 智能體學習速度的影響。它強調了選擇基于狀態的獎勵的重要性,這種獎勵能最大化行動差距,使智能體更容易區分最優行動和次優行動。論文還引入了最小化一種稱為 "主觀折扣 "的度量的概念,以鼓勵智能體在減少前瞻性的情況下做出最優決策。為了解決獎勵設計問題,本文提出了一種線性編程算法。在表格環境中使用 Q-Learning 的實驗結果表明,生成的獎勵能加快學習速度。該研究確定了獎勵設計的三個關鍵原則:1)與獎勵目標相比,懲罰每一步有助于加快學習速度。2) 沿目標軌跡獎勵子目標時,獎勵應隨著目標的接近而逐漸增加。3) 只有經過精心設計,在每個狀態下都不為零的密集獎勵才是有益的。
ReLeGSim(強化學習通用人工智能訓練模擬,如圖 1 所示)是一個類似棋盤的模擬環境,用于強化學習,以開發棋手在游戲中的自我優化策略。任意棋手都要通過一系列棋步達到目標,并且可以相互影響。ReLeGSim 可用于模擬各種民用和軍用場景,如 ISR 任務或大營地面作戰場景。ReLeGSim 允許為類似國際象棋游戲的環境定義角色,賦予它們相應的屬性和可能的行動。為此,可以使用 Python 編程語言,通過適當的特定應用仿真模型(如傳感器)對仿真進行擴展。
在 ReLeGs1 研究范圍內,ReLeGSim 被配置為 2 個營的對抗模型,其中每個營的指揮官都必須指揮其指定的連隊和支援單元。它允許玩家(無論是人類還是智能體)在攻擊或防御的戰術場景中生成營的命令。該模擬由論文[1]介紹,使用了用于強化學習的 "Gymnasium "API[14]。
圖 1 ReLeGSim 用戶界面
在模擬游戲中,一名玩家扮演進攻方,旨在從防守方手中奪取一個特定的目標區域,而防守方則必須在整個過程中守住該區域。雙方玩家都可以使用由排和單個單元組成的各種具有獨特能力的連隊。要想取得成功,玩家必須了解對手的觀點,了解自己連隊的能力,并有效地控制地形。
圖 2 人工智能工具鏈 - ReLeGSim
人工智能工具鏈(圖 2)可根據矢量、高程和衛星信息等真實世界數據自動創建三維地形。然后,柵格化地圖將用于 ReLeGSim 中的人工智能訓練,并為不同區域分配特定的實地類型(如森林或道路)。帶有附加工具的模擬旨在提供一個平臺,通過強化學習訓練不同的人工智能模型,同時也支持人類與人工智能的博弈。因此,可以對訓練好的智能體的能力進行基準測試、評估和分析。該工具鏈還包括對訓練好的人工智能體進行自動測試,并根據客戶需求提供各種指標和復雜的分析。
ReLeGSim 的作者從 DeepMind 的 AlphaStar [15](復雜 RL 問題的領先模型)中汲取靈感,開發出一種創新架構(圖 3)。受軍事戰術的影響,該設計利用標量數據和可視化地圖進行場景觀察。標量數據包括部隊人數和彈藥,以擴展人工智能的視野。所有輸入參數都經過歸一化處理,以提高訓練效果。標量值采用多頭注意力網絡,而不是全連接層,提高了智能體的質量。為了了解地形,人工智能接收了包含大量地形信息和實體編碼的可視化地圖。為了將這些豐富的數據納入人工智能,我們開發了一個帶有卷積層的空間編碼器。
通過自動編碼器設置對架構進行評估,并將其減少到最低限度,將參數從 200 萬減少到 4.7 萬,并生成一個預訓練模型。可選的語言輸入可將目標或任務考慮在內。在分層設置中,給定任務可由上級智能體定義。來自視覺、任務和標量數據的編碼值被輸入到一個核心網絡(LSTM 組件)中,以處理長期規劃。
行動頭(action head)最初是基于 AlphaStar 實現的多離散行動空間。由于行動空間不斷擴大,行動頭被一個基于最新研究的語言模型所取代,該模型可預測自然語言中的行動指令。
圖 3 ReLeGSim 使用的人工智能架構
人工智能的復雜決策能力問題伴隨著 RL 中巨大的行動空間而產生,隨著 RL 應用變得越來越復雜和逼真,這也是一個巨大的挑戰。小而固定的行動空間在表現力、探索性和效率方面都有局限性。研究人員正在不斷開發新的技術和算法,以減輕不斷膨脹的行動空間所帶來的影響,如函數近似、離散化和分層 RL。這些方法使智能體能夠處理日益復雜的任務,并更有效地應對大型行動空間的挑戰。隨著 RL 的不斷進步,解決行動空間爆炸的問題仍將是一個重要的研究領域,以便在現實世界中成功應用 RL。
利用自然語言與人工智能建立交流的方法(如文獻[2]所示),以及利用自然語言制定條令的發展(如文獻[16]所強調),為在多方面作戰環境中實現多用途人工智能能力開創了先例。ReLeGSim 在人工智能與模擬中的智能體之間建立了一個自然語言接口,可對給定命令進行復雜的解析和執行。這些命令可以是不同層次的,可以控制各種智能體。
最初的試驗表明,大量未使用的詞匯不利于訓練,而且會導致訓練速度減慢。因此,我們使用了一個小而有效的詞匯表。該詞匯表只包含以下標記:
<colon>標記將輸出文本序列分割為多個動作,而<comma>標記則結束或填充結果。標記的縮減和優化都是手動完成的,并與模擬中執行的結果行為直接對應。為了標記動作,我們使用了單擊編碼,因為這允許我們對給定的動作進行隨機抽樣,并可通過多離散表示法輕松集成到任何給定的 RL 框架中。
ReLeGSim 人工智能模型深度整合了人類對任務優先級排序的干預,通過將任務信息納入觀察空間來實現目標的實時變化(圖 3)。為了訓練這種行為,我們采用了課程學習策略,引入了用自然語言表達的各種優先級,每種優先級都與指導遵守規則的獎勵相關聯。這種方法鼓勵智能體發展廣泛的技能組合,在不同的場景中表現出色,并高效地實現目標。
為了將訓練有素的智能體用于行動方案(COA)決策支持,我們開發了一個行動方案決策支持網絡應用程序。根據給定的戰斗情況和藍軍與紅軍的 ORBAT,決策支持網絡應用程序會生成大量 ReLeGSim 模擬運行,以獲得人工智能體在給定情況下如何行動的統計數據。此外,所有可能的決策因素(如可用的聯合火力打擊數量)都會發生變化,以便讓用戶設置特定的過濾設置,分析由此產生的數據。然后,對人工智能指揮的模擬運行結果進行統計分析,并通過基于網絡的儀表板中的熱圖等方式將其可視化。
圖 4 顯示了一個熱圖可視化示例。它顯示了在相同起始條件下多次模擬運行中所有藍色和紅色單元的移動情況。此外,在此示例中,紅方營指揮官被賦予了兩種不同的攻擊優先級:a) 盡快攻擊 vs. b) 攻擊時盡量減少自身損失。圖 4 說明了人工智能如何根據不同的目標調整自己的行為,例如優先考慮快速進攻還是盡量減少損失。
圖 4 根據給定的優先級(a)和(b)比較營行動
這只是在給定場景中探索不同可能性的一種方法,可幫助操作員生成并驗證行動方案。ReLeGSim 的工具箱中提供了從戰爭游戲、統計分析到紅軍行動方案預測的各種選項。該決策支持工具可自動進行場景測試、戰術優化和人工智能模型評估,促進多樣化探索和適應性決策。
在德國陸軍總部的 "戰術無人機系統的人工智能(KITU)"研究中,空中客車防務與航天公司與兩家德國初創公司量子系統公司(Quantum-Systems)和Sleenlab正在探索在軍事場景中使用人工智能(AI)控制戰術無人機系統(UAS)。這項研究的重點是演示和分析用于自主無人機群的人工智能組件,重點是與主地面作戰系統(MGCS)和北約東翼監視方案保持一致。重點領域是異源無人機群的協調、目標探測和動態任務執行。使用人工智能對各種自動化任務進行訓練,以了解從傳感器到射手鏈的工作量、有效性和效率。該研究還調查了數據處理位置、恢復能力以及群控制在中斷情況下的穩健性。
采用深度強化學習方法來開發能夠在人類監督下控制無人機群的人工智能。圖 5 顯示了從 RL 訓練、驗證到實際飛行測試的過程。為了訓練對無人機群的控制,對 ReLeGSim 仿真進行了調整,使其能夠提供具有不同飛行特性、電池供電和消耗以及光學傳感器等有效載荷的固定翼和多旋翼無人機的簡化模型。對所謂的無人機群控制器的行動空間進行了調整,以賦予無人機搜索和跟蹤任務,以及在地面降落的可能性,從而以較低的電池消耗從地面觀察目標。一旦訓練成功,行為就會轉移到真正的無人機系統上,在空中客車無人機中心進行飛行測試。首次飛行實驗表明,在 ReLeGSim 仿真環境中訓練的智能體在真實情況下表現良好,通過提高模型保真度和根據實際情況校準模型參數,減少了一些模擬與現實之間的差距。
所獲得的見解旨在為將人工智能學習行為集成到真實無人機系統中提供信息,并評估其與人工控制的相似性。總之,像KITU這樣的項目對歐洲國防計劃(包括無人機群、人工智能和云計算)至關重要,并可能為MGCS和未來戰斗航空系統(FCAS)開發計劃帶來益處。無人機群可實現兵力倍增并提高偵察能力,因此在戰術場景中非常有價值。
圖 5 - 將 ReLeGSim 人工智能體用于控制真實的無人機群
總之,本文論述了未來戰爭在人工智能輔助指揮系統和無人技術整合的推動下發生的變革。這些變化將對作戰行動產生重大影響,并要求加快軍事決策周期。要實現這些未來的決策支持系統,建模、模擬和先進的深度強化學習技術的整合至關重要。這些系統將協助軍事決策者評估威脅、制定最佳行動方案,甚至通過自主系統的協作蜂群行為來執行行動。
本文介紹的研究展示了如何調整和利用模擬與人工智能技術,利用 RL 優化模擬 "ReLeGSim "訓練能夠擔任營級指揮官或控制無人機群的人工智能體。這些智能體通過自然語言命令進行交流,增強了人與人工智能的互動,同時將目標和條令納入人工智能推理過程。軍事條令感知反饋功能的整合使智能體能夠在訓練周期內自我完善。
雖然 "ReLeGs "和 "KITU "兩項研究的目標都不是完全取代人類決策者,但它們為人工智能在軍事行動中的潛力提供了寶貴的見解。RL 代理的開發雖然具有挑戰性,但已展示出有希望的行為模式,包括智能地形利用和戰略決策。隨著研究的深入,預計還會出現更多的見解和行為模式。這項研究為使智能體具備維護軍事條令和規則的能力奠定了基礎,為人類決策者提供了更有力的支持,并為人工智能在各種軍事場景、訓練和決策支持系統中的應用開辟了道路。人工智能在戰爭中的未來將以協作和增強為標志,人工智能將成為與人類專業技術并駕齊驅的寶貴工具,確保 "人類做出決策,機器提供支持"。
許多國家和國際研究工作都強調,未來各梯隊作戰行動的執行速度必須大大提高。與過去不同的是,過去一個旅的指揮官可以有幾個小時的時間進行決策,而現在要想取得優勢地位,就必須明顯并逐步縮短可用于決策的時間。有幾個因素促成了這種不斷變化的局面。前進的道路上有幾個關鍵的方向,可以進一步推動研究和實際應用:
1.繼續培訓和評估:應完成對 RL 智能體的持續培訓,進一步完善其行為模式。這包括開發更復雜的戰術行為,如目標優先級排序、組建預備隊和反擊策略。此外,應更詳細地探索通過可解釋人工智能(XAI)來解釋 RL 智能體的行為,以增強人類的理解能力。
2.可擴展性和真實世界測試:雖然 ReLeGSim 等模擬環境提供了寶貴的訓練場地,但仍應努力擴大這些智能體的規模,以便在現實世界中進行測試和部署。這包括解決硬件和計算要求,以確保實際適用性。
3.人機一體化:人工智能作為決策支持的整合必須繼續強調人類的控制和干預。為人類指揮官與人工智能體之間的無縫協作開發接口和協議至關重要。
4.人工智能應用的多樣性: 研究重點應超越決策支持,探索人工智能在軍事領域的廣泛應用。這包括訓練自主無人系統、為訓練演習進行模擬,以及評估人工智能模型的性能和戰術。此外,其他仿真模型也應與 ReLeGSim RL 架構一起應用,在 PAXSEM 等高度詳細的戰斗模型中訓練 RL 智能體,這對于模擬密集空戰或防空等場景是必要的。
5.倫理和法律方面的考慮:隨著人工智能在軍事行動中的作用越來越大,必須解決倫理和法律方面的問題。研究應包括有關負責任地使用人工智能、問責制以及遵守國際法和國際公約的討論和解決方案。
6.測試與驗證:人工智能模型的嚴格測試和驗證,尤其是在復雜多變的作戰場景中的測試和驗證,仍應是一個優先事項。這包括評估人工智能在城市戰、非正規戰爭和維和行動等各種情況下的表現。
7.適應不斷發展的技術:鑒于人工智能發展的快節奏,研究應保持適應性和開放性,納入新興技術、架構和最佳實踐,以保持在人工智能輔助軍事決策支持領域的領先地位。大型語言模型(LLM),尤其是多模態 LLM 有可能徹底改變對態勢感知、推理和行動計劃的理解。這項技術具有極大的潛力,可以顯著改進智能體。
總之,前進的道路包括采取全面的戰略,推進人工智能并將其無縫整合到軍事行動中,同時始終遵守道德和法律標準。通過解決這些關鍵問題,本研究可為人工智能決策支持系統的發展及其在復雜軍事環境中的謹慎應用做出貢獻。
無人飛行器/無人機(UAV)技術的最新進展極大地推動了無人飛行器在軍事、民用和商業領域的應用。然而,為無人機群建立高速通信鏈路、制定靈活的控制策略和開發高效的協同決策算法等方面的挑戰,限制了無人機群的自主性、魯棒性和可靠性。因此,越來越多的人開始關注協作通信,使無人機群能夠自主協調和通信,在短時間內合作完成任務,并提高效率和可靠性。本研究全面回顧了多無人機系統中的協作通信。我們深入探討了智能無人機的特點及其自主協作和協調所需的通信和控制要求。此外,還回顧了各種無人機協作任務,總結了無人機蜂群網絡在密集城市環境中的應用,并介紹了使用案例場景,以突出基于無人機的應用在各個領域的當前發展情況。最后,我們確定了未來需要關注的幾個令人興奮的研究方向,以推進無人機協作研究。
起初,單無人機系統用于導航、監視和災難恢復,每個無人機作為一個孤立的節點直接與中央地面站連接。然而,在單無人機系統中,由于無人機在指定區域內獨立運行,因此更容易出現系統和通信故障。此外,無人機在網絡中獨立工作還需要更長的時間和更高的帶寬來完成任務。相比之下,在多無人機系統中,無人機共同工作以實現共同目標。例如,無人機可以協同工作,生成高分辨率圖像和三維地圖,以確定救災過程中的熱點區域。同時,配備嗅探器的無人機可以探測到高濃度的甲烷,從而找到破損的天然氣管道。因此,無人機還可以在不危及救援人員生命的情況下提供水和食物。因此,協調與合作對于在多無人機環境中實現理想性能至關重要。本節將詳細討論協作式無人機的要求和挑戰,如智能、通信、控制和協作。此外,我們還將介紹最先進的協作通信方法,以突出無人機網絡的貢獻和局限性。
傳統無人機的主要組成部分包括傳感、通信、控制和計算單元 [25]。傳感單元由集成在無人機上的多個傳感器組成,用于不同的目的,如評估高分辨率物體、溫度估計、光探測和天線配置[36]。同時,通信單元使無人機能夠相互通信并與中央控制站交換信息。強制控制單元通常控制傳統無人機的操作,包括避免碰撞、路徑規劃、目標跟蹤和資源管理。然而,與中央控制單元的頻繁通信以及無人機與無人機之間有限的通信能力限制了無人機獨立完成任務的自主性和協作性。例如,在救災行動中,具有自主功能的多架無人機可以執行協作功能,如一組無人機可以檢查危險區域,而其他無人機可以執行醫療援助補給投放任務,幫助災民。此外,配備高分辨率攝像頭和資源管理算法的無人機可以執行智能決策,將損失降到最低。同時,當無人機對城市環境中的風向模式有了更深入的了解后,它們可以利用這些知識避開亂流,選擇能量最小的路線,而無需頻繁接受控制單元的指令。
同樣,具有協作通信能力的智能無人機可以執行各種分布式操作,并為智慧城市應用做出獨立決策[32]。例如,在城市環境中工作的無人機需要與其他傳感設備、機器、機器人、無人機和人進行高度協調和協作,才能執行某些操作。因此,加強合作和對部署環境的了解有助于無人機與周圍物體進行無縫互動,以處理監測到的數據并做出實時決策,從而提高復雜環境中的安全性和可靠性[37]。同樣,無人機可以通過對城市環境中周圍物體的語義理解來提高物體識別能力,從而更好地理解和設計與周圍環境互動的方法。
然而,由于缺乏高效的智能自主無人機對無人機通信機制,無法實現無人機的獨立飛行、軌跡形成、目標定位和數據操作決策,這阻礙了基于無人機的應用范圍。因此,為了從無人機的天然特性(如高機動性、靈活部署和不同類型傳感器集成)中獲益,有必要更加關注無人機的自主性和智能協作通信能力集成,以提高無人機作為一個團隊了解環境、共享知識和資源以做出智能決策的性能,而無需高度依賴中央控制的系統指令[38]。
在多無人機系統中,無人機之間以及無人機與中央骨干基礎設施之間都要進行通信,以順利完成各種指定任務。無人機與基礎設施網絡之間的通信一般遵循兩種通信模式,即無人機與基礎設施之間的通信和無人機與無人機之間的通信,以交換數據并確保高水平的連接性,從而實現協作通信。本節將詳細討論這兩種模式的通信要求。
由于無人飛行器體積小、成本低,因此需要一種成本效益高的控制系統,能夠在起飛、著陸、懸停、機動性、高度控制、定位和避免碰撞等方面實現靈活的移動和軌跡跟蹤。下文將討論無人機的主要控制要求:
起降:無人機可分為固定翼和旋翼兩種,兩者對起降都有特定要求。固定翼無人機的起飛和降落需要跑道,而旋轉翼無人機可以垂直起飛和降落,從而提高了其在各種民用領域的適用性[69]-[71]。在文獻[72]中,作者提出了一種混合垂直起降 VTOL 解決方案,該方案將固定翼和旋轉翼無人機的功能集成在一個平臺上,從而實現了長續航時間和高飛行效率。VTOL 方法需要一個固定翼位置控制器、旋轉翼位置控制器、過渡控制器和基于氣動特性的 VTOL 混合器,以實現過渡和提高飛行穩定性。在另一項工作[73]中,不同的 PID 控制器用于沒有跑道和發射回收設備的 VTOL,通過控制指令實現平穩運行。此外,在現有文獻[74]-[76]中,還介紹了使用可見光攝像傳感器、全球定位系統和 IMU,利用 PID 控制器進行起降的各種解決方案。
受控運動和懸停: 無人飛行器的旋翼使用螺旋槳,可實現滾動、推力控制、俯仰、偏航和六個自由度的旋轉、機動和懸停。無人飛行器的控制算法可調整滾轉、俯仰和偏航,以實現在 X 軸、Y 軸和 Z 軸上的穩定旋轉。現有研究提出了各種控制無人機運動的模型,例如,Thu 等人在文獻[77]中根據 "+"和"×"飛行配置,模擬了著名的四旋翼飛行器控制系統,以實現靈活的運動和機動。在另一項研究[78]中,設計了一個動態模型來控制無人飛行器在一個旋轉軸上的運動。Elkaim 等人在文獻[79]中介紹了一種無人機控制系統,該系統利用位置、速度和高度估計來控制無人機的運動和軌跡形成。另一篇論文[80]介紹了一種自主無人機飛行控制系統,該系統集成了全球定位系統,可生成最佳飛行路徑。此外,現有文獻還對油門運動、狀態信息和機載傳感組件進行了分析和建模,以實現穩定機動和懸停 [81]-[83]。
飛行中控制: 無人機的位置和速度等狀態信息用于引導和控制無人機進行著陸或物體跟蹤等精確操作。遙控航空模型自動駕駛儀(RAMA)在文獻[84]中有詳細描述,它利用高度、角速度和位置信息來設計小型無人機的控制系統。此外,PID 控制器也引起了學術界和工業界對無人機自主運行的極大關注 [85]。集成 PID 自動駕駛儀可實現一整套無人機自主導航和實時操作的航空電子設備 [86]。此外,PID 控制器還能提高可靠性,并以最小的誤差和能耗將飛行中的無人機穩定在預定軌跡上。
避免碰撞:這是無人機設計中確保無人機自主飛行的基本要求。現有文獻 [80]、[87] 提出了各種方法,如 GPS 導航和不同的防撞傳感器來避免碰撞。此外,根據現有研究[88]、[89],廉價的商用傳感器(如紅外、壓力和高度傳感器)可以很容易地集成到無人機飛行系統中,以估計與障礙物的距離,從而控制其移動。此外,無人機的精確位置估計和軌跡規劃也是避免碰撞的基本要求[90]。
本節將全面介紹協作通信方面的現有發展。無人機的協同任務允許多架無人機共享信息,以分布式的方式低成本、高效率地執行各種任務,并提高靈活性、魯棒性和容錯性。近年來,人們提出了一些協作通信架構,主要側重于將無人機網絡與 WSN、Ad-hoc 網絡和物聯網范例整合起來,以實現有效監測和數據收集[91]。此外,還提出了一些基于蜂群的方法,用于協作軌跡規劃、路由選擇和目標定位。
基于蜂群的協作通信: 最近有幾項研究利用無人機群在短時間內協作完成任務,具有更好的覆蓋范圍、可靠性和效率。
無人機群網絡的深度強化學習: 在過去幾年中,強化學習技術已被廣泛應用于提高無人機蜂群網絡在復雜環境中的路徑規劃、導航和控制性能[97], [98]。
軌跡形成: 協作軌跡形成可使多個無人機找到從起點到目標點的最佳路徑。這是無人機系統的新興研究領域之一,因為協同路徑規劃可最大限度地降低定位成本、改進機動決策并有助于避免碰撞 [109]-[111]。
合作目標定位: 精確定位可為目標指示、空中拍攝、數據傳感和空對地攻擊帶來顯著優勢[121]。
數據收集: 在過去的幾年中,人們引入了許多協作通信機制,以改善遠程數據收集體驗[128]。
協同決策: 無人機的自主操作需要做出復雜的決策,以實現應用目標,如消除威脅或時間緊迫的救援行動。這些復雜決策受到信息不足、高度不確定性、延遲和任務耦合的影響 [137]。
2021年1月,美國防部發布了第一個反小型無人機系統戰略,以應對小型無人機系統的快速技術進步和擴散給軍事人員、設施和資產帶來的日益增長的風險。現有的反無人機能力--嚴重依賴電子戰來破壞用戶和設備之間的通信聯系--不再能解決不斷變化的威脅,包括自主無人機、COTS技術以及空域中越來越多的無人機,這些都能使C-sUAS操作者不知所措。為了應對日益復雜的小型無人機威脅,由陸軍領導的聯合反無人機系統辦公室正在為其新的系統方法尋求物資和非物資解決方案。一個令人困擾的C-UAS挑戰涉及到雷達探測系統將一些SUAS與其他飛行物體(如鳥類)區分開來,因為它們的尺寸相當,運動緩慢,高度較低。由于電子光學傳感器和人類操作員在規模上的分類數量有限,使用雷達數據進行不準確或低效的sUAS分類可能是一種武力保護威脅。本論文使用來自兩個不同訓練環境的鳥類和無人機雷達軌跡數據,探索數據中的隱藏結構,使用這兩個數據集開發獨立的無監督和監督學習模型,并試驗數據采樣和特征工程,以提高模型對不同環境和動態環境條件的魯棒性。
圖. 本論文方法包括兩個迭代,每個迭代都涉及不同的數據采樣技術(第3.4節)的兩階段統計學習方法(第3.5節)。然后,通過比較兩個迭代中各自的表現來分析和評估每個訓練算法,通過使用訓練算法的訓練地點的整個數據集和備用訓練地點的整個數據集來驗證每個算法的預測準確性。
無人機技術的快速發展--包括傳感器小型化、電池壽命、飛行效率和改進的控制機制--再加上無人機越來越便宜和商業用途,使其在社會中無處不在。然而,隨著無人機可用于越來越多的善意目的,有責任對無人機的使用進行適當的監管,以盡量減少高風險的意外事件和惡意行為者(包括恐怖分子和敵對政權)的邪惡活動的可能性。雖然無人駕駛飛機系統(UAS)已經存在了幾十年,但小型無人駕駛飛機系統(sUAS)的全球擴散給美國國防部(DOD)帶來了特別棘手的挑戰,因為不僅需要保護美國的領空、設施和關鍵基礎設施免受這種日益強大的新威脅,還需要將這種力量保護擴展到前沿作戰基地(FOB)或臨時任務支持點(MSS),此外還需要在戰斗中提供移動力量保護(MFP)。2020年,在納戈爾諾-卡拉巴赫44天的戰爭中,阿塞拜疆對其鄰國亞美尼亞的一系列攻擊(使用低成本的土耳其Baykar Bayraktar [TB2]無人機),以及烏克蘭堅韌不拔的防御和反擊。 在2022年俄烏戰爭初期,烏克蘭(在[TB2]無人機和數以千計的其他無人機系統的幫助下)進行了頑強的防御和反擊,以抵消俄羅斯前進的壓倒性軍事優勢,這提供了兩個引人注目的例子,說明傳統作戰系統在大規模無人機的不對稱威脅面前的脆弱性。
雖然反小型無人機系統(C-sUAS)的問題集有多個方面--從探測到動能或非動能威脅反應--國防工業正在努力解決,但數據科學家已經特別被雷達系統快速有效地從鳥類和其他大氣雜波中分辨出sUAS的挑戰吸引。雷達系統在探測和分類無人機系統方面通常有兩個主要問題。第一個問題涉及它們的尺寸(容易與鳥類混淆)和速度(非常快或慢,包括它們的懸停能力)的組合。第二,涉及到對具有各種飛行現象、雷達截面(RCS)、光學發射、反射特性和材料結構的多樣化的sUAS類型(介于兩個一般的旋轉翼和固定翼類別之間)的描述。盡管這一領域的一些研究致力于探索一種包括其他傳感器類型的系統方法--如光電/紅外(IR)、聲學和人員監視--以減少雷達系統的脆弱性,但這種解決方案假設了當今有這樣一個傳感器套件在一個固定地點協同工作的奢侈。然而,追求這種 "黃金標準 "的解決方案對于有效地從探測到分類空中物體的重要性,并不否認改進雷達系統的鑒別性能的持續重要性,無論是獨立的還是在不同傳感器類型的總體系統中。
經與Anduril工業公司協商,并使用來自兩種截然不同的訓練環境的鳥類和無人機的雷達跟蹤數據,本論文旨在實現兩個目標。首先,試圖用獨立的無監督和有監督的學習方法來驗證(或改進)來自國防工業的現有分類算法的性能,并在這兩種環境中分別訓練模型。第二,試圖加強模型對兩種不同環境和動態環境條件(即降水和風)的穩健性,目前在每個新環境中都需要一個漫長而昂貴的系統校準過程。
為了實現這兩個目標,本研究通過開發、測試和驗證各種無監督和有監督學習模型對來自訓練模型的環境和替代環境的鳥類和無人機的判別性能,對兩個訓練環境中的數百只鳥類和無人機的雷達軌跡數據(由Anduril Industries提供)進行了實驗。通過采用獨立方法,在兩個訓練環境中表現最好的模型成功地驗證了Anduril的分類器(由數據贊助商提供)的性能,該模型在同一環境中訓練和驗證的準確率分別達到97%和98%。然而,觀察到在另一個環境下驗證的準確率下降了20-25%(表現最好的模型),以及對兩種環境下的數據集和模型的明顯差異的直覺,促使對方法的第二次迭代進行了修改,在模型的穩健性方面取得了邊際改善。本論文最后提出了四項建議,即繼續使用這種方法進行統計和機器學習研究,但要探索收集更多的雷達軌跡數據特征,以便更好地捕捉鳥類和不同類型無人機之間的飛行現象學差異。
深度強化學習(DRL)已經在單智能體學習中得到了廣泛的研究,但在多智能體領域還需要進一步發展和理解。作為最復雜的集群問題之一,競爭性學習評估了多智能體團隊合作實現某些目標的性能,同時超越了其他候選方案。這樣的動態復雜性使得即使是小眾的DRL方法也難以解決多智能體問題。在一個競爭性的框架內,我們研究了最先進的演員評論家算法和Q算法,并從性能和收斂性方面深入分析了它們的改型(如優先化、雙重網絡等)。為了討論的完整性,我們提出并評估了一個異步和優先版本的近似策略優化行為批判技術(P3O)與其他基準的對比。結果證明,在給定的環境中,基于Q的方法比演員評論家的配置更加穩健和可靠。此外,我們建議納入本地團隊通信,并將DRL與直接搜索優化相結合,以提高學習效果,特別是在具有部分觀察的挑戰性場景中。
圖3 多智能體深度強化學習系統。已實現的深度強化學習技術所使用的主要算法數據流圖。a) 具有單一團隊經驗重放緩沖區的深度Q網絡。盡管保存了異步強化學習轉換,但樣本是隨機的。目標網絡,其參數以緩慢的方式更新,給學習過程帶來了穩定性。b) 帶有優先團隊經驗重放緩沖器的決斗雙深Q網絡。根據時差誤差為每個存儲的過渡分配隨機優先級。c) 帶有分布式記憶的近似策略優化。網絡更新由團隊智能體異步進行。d) 帶有智能體分布式記憶、演員評論家網絡的優先級近似策略優化。每個智能體存儲自己的經驗,并使用它們來進行異步網絡更新。同時,根據有效的召回系數建立優先的數據集,然后用來訓練網絡。此外,該算法還與團隊共享的演員評論家網絡以及團隊共享的演員評論家網絡進行了研究。e)具有分布式記憶的異步優勢演員評論家。
人工智能(AI)領域的不斷進步以及在關鍵部門整合AI系統的工作正在逐步改變社會的各個方面,包括國防部門。盡管人工智能的進步為增強人類能力和改善各種決策提供了前所未有的機會,但它們也帶來了重大的法律、安全、安保和倫理問題。因此,為了確保人工智能系統的開發和使用是合法的、道德的、安全的、有保障的和負責任的,政府和政府間組織正在制定一系列規范性文書。這種方法被廣泛稱為 "負責任的人工智能",或道德的或值得信賴的人工智能。目前,負責任的人工智能最引人注目的方法是開發和運作負責任或道德的人工智能原則。
聯合國裁研所的 "在國防中實現負責任的人工智能 "項目首先尋求對負責任的人工智能系統的研究、設計、開發、部署和使用的關鍵方面建立共同的理解。然后,它將審查負責任的人工智能在國防部門的運作情況,包括確定和促進良好做法的交流。該項目有三個主要目標。首先,它旨在鼓勵各國采用和實施能夠在開發和使用人工智能系統中實現負責任行為的工具。它還試圖幫助提高透明度,促進國家和其他關鍵人工智能行為者之間的信任。最后,該項目旨在建立對負責任的人工智能關鍵要素的共同理解,以及如何將其付諸實施,這可以為制定國際公認的治理框架提供參考。
本研究簡報概述了該項目的目標。它還概述了項目第一階段的研究方法和初步結果:制定共同的原則分類法和對各國采用的人工智能原則進行比較分析。
隨著無人平臺越來越多地出現在戰場上,與人類一起,以不同的配置(從遠程操作到完全自主的平臺,有人-無人的團隊,蜂群等)和領域(空間、空中、陸地、海洋和水下),也有必要使決策過程適應這一新的現實。這個過程將不再是完全由人類完成的,這就要求人類和機器對他們行動和互動的環境有一個共同的、有意義的、及時的理解,即共同的態勢感知。我們將研究如何通過基于本體的推理和推理的人工智能相關技術來實現這一目標,這些技術將使所有參與者(人類和非人類)之間共享所有級別的信息(數據、知識和模型)。這項工作的成功應體現在異質實體之間實現高水平的互操作性,在此范圍內,他們將能夠利用彼此的最佳發展能力。
圖2展示了基于先前所述斷言和要求的人工智能驅動SA評估的高級概念模型。
廣泛的人工智能方法可用于支持所需的過程,適用于每個層次,從歸納法到演繹法。在歸納推理方法中,我們提到了傳統的機器學習--邏輯回歸(LR)、支持向量機(SVM)、Naive-Bayes(NB)或深度學習--卷積神經網絡(CNN)、長短時記憶(LSTM)、門控循環單元(GRU)。演繹法是由knowledgerule系統代表的。但是,只有當系統的所有組成部分對目標、概念和關系有相同的理解時,才能以有效的方式實現各級的無縫協作。本體是實現這一目的最合適的工具(Sharman, Kishore, & Ramesh, 2004)。
本體是對知識的正式描述,是一個領域內概念的集合以及它們之間的關系(Ontotext, 2022; Earley, 2015)。本體的組成部分在圖3中顯示。3,其詳細的正式描述可以在Sharman, Kishore & Ramesh (2004)找到。
圖2: AI驅動的態勢感知評估概念
人工智能在軍事領域的前景之一是其廣泛的適用性,這似乎可以保證其被采用。在軍事方面,人工智能的潛力存在于所有作戰領域(即陸地、海洋、空中、太空和網絡空間)和所有戰爭級別(即政治、戰略、戰役和戰術)。然而,盡管有潛力,需求和人工智能技術進步之間的銜接仍然不是最佳狀態,特別是在軍事應用的監督機器學習方面。訓練監督機器學習模型需要大量的最新數據,而這些數據往往是一個組織無法提供或難以產生的。應對這一挑戰的絕佳方式是通過協作設計數據管道的聯邦學習。這種機制的基礎是為所有用戶實施一個單一的通用模型,使用分布式數據進行訓練。此外,這種聯邦模式確保了每個實體所管理的敏感信息的隱私和保護。然而,這個過程對通用聯邦模型的有效性和通用性提出了嚴重的反對意見。通常情況下,每個機器學習算法在管理現有數據和揭示復雜關系的特點方面表現出敏感性,所以預測有一些嚴重的偏差。本文提出了一種整體的聯邦學習方法來解決上述問題。它是一個聯邦自動集成學習(FAMEL)框架。FAMEL,對于聯邦的每個用戶來說,自動創建最合適的算法,其最優的超參數適用于其擁有的現有數據。每個聯邦用戶的最優模型被用來創建一個集成學習模型。因此,每個用戶都有一個最新的、高度準確的模型,而不會在聯邦中暴露個人數據。實驗證明,這種集成模型具有更好的可預測性和穩定性。它的整體行為平滑了噪音,同時減少了因抽樣不足而導致的錯誤選擇風險。
關鍵詞:聯邦學習;元學習;集成學習;軍事行動;網絡防御
隨著步伐的加快,人工智能(AI)正在成為現代戰爭的重要組成部分,因為它為大規模基礎設施的完全自動化和眾多防御或網絡防御系統的優化提供了新的機會[1]。人工智能在軍事領域[2]的前景之一,似乎保證了它的采用,即它的廣泛適用性。在軍事方面,人工智能的潛力存在于所有作戰領域(即陸地、海洋、空中、太空和網絡空間)和所有級別的戰爭(即政治、戰略、戰役和戰術)[3]。但與此同時,隨著參與連續互聯和不間斷信息交換服務的互聯系統數量的實時擴大,其復雜性仍在成倍增長[4]。從概括的角度來看,可以說人工智能將對以下任務產生重大影響:
1.太快的任務,反應時間為幾秒鐘或更少,在高復雜度(數據、背景、任務類型)下執行。
2.操作時間超過人類耐力的任務,或意味著長期的高操作(人員)成本。
3.涉及巨大的復雜性的任務,需要靈活地適應環境和目標的變化。
4.具有挑戰性的行動環境,意味著對作戰人員的嚴重風險。
支持上述任務的實時監測事件的應用程序正在接收一個持續的、無限的、相互聯系的觀察流。這些數據表現出高度的可變性,因為它們的特征隨著時間的推移而發生巨大的、意想不到的變化,改變了它們典型的、預期的行為。在典型情況下,最新的數據是最重要的,因為老化是基于它們的時間。
利用數據的軍事人工智能系統可以將軍事指揮官和操作員的知識和經驗轉化為最佳的有效和及時的決策[3,4]。然而,缺乏與使用復雜的機器學習架構相關的詳細知識和專業知識會影響智能模型的性能,阻止對一些關鍵的超參數進行定期調整,并最終降低算法的可靠性和這些系統應有的概括性。這些缺點正在阻礙國防的利益相關者,在指揮鏈的各個層級,信任并有效和系統地使用機器學習系統。在這種情況下,鑒于傳統決策系統無法適應不斷變化的環境,采用智能解決方案勢在必行。
此外,加強國防領域對機器學習系統不信任的一個普遍困難是,采用單一數據倉庫對智能模型進行整體訓練的前景[1],由于需要建立一個潛在的單點故障和對手的潛在戰略/主要目標[6],這可能造成嚴重的技術挑戰和隱私[5]、邏輯和物理安全等嚴重問題。相應地,可以使更完整的智能分類器泛化的數據交換也給敏感數據的安全和隱私帶來了風險,而軍事指揮官和操作人員并不希望冒這個風險[7]。
為了克服上述雙重挑戰,這項工作提出了FAMEL。它是一個整體系統,可以自動選擇和使用最合適的算法超參數,以最佳方式解決所考慮的問題,將其作為一個尋找算法解決方案的模型,其中通過輸入和輸出數據之間的映射來解決。擬議的框架使用元學習來識別過去積累的類似知識,以加快這一過程[8]。這些知識使用啟發式技術進行組合,實現一個單一的、不斷更新的智能框架。數據保持在操作者的本地環境中,只有模型的參數通過安全流程進行交換,從而使潛在的對手更難干預系統[9,10]。
在提議的FAMEL框架中,每個用戶在水平聯邦學習方法中使用一個自動元學習系統(水平聯邦學習在所有設備上使用具有相同特征空間的數據集。垂直聯邦學習使用不同特征空間的不同數據集來共同訓練一個全局模型)。以完全自動化的方式選擇具有最佳超參數的最合適的算法,該算法可以最佳地解決給定的問題。該實施基于實體的可用數據,不需要在遠程存儲庫中處置或與第三方共享[11]。
整個過程在圖1中描述。
圖1.FAMEL框架。
具體來說就是:
步驟1--微調最佳局部模型。微調過程將有助于提高每個機器學習模型的準確性,通過整合現有數據集的數據并將其作為初始化點,使訓練過程具有時間和資源效率。
步驟2--將本地模型上傳至聯邦服務器。
步驟3--由聯邦服務器對模型進行組合。這種集成方法使用多種學習算法,以獲得比單獨使用任何一種組成的學習算法都要好的預測性能。
步驟4--將集成模型分配給本地設備。
從這個過程中產生的最佳模型(贏家算法)被輸送到一個聯邦服務器,在那里通過啟發式機制創建一個集成學習模型。這個集成模型基本上包含了本地最佳模型所代表的知識,如前所述,這些知識來自用戶持有的本地數據[12]。因此,總的來說,集成模型提供了高概括性、更好的預測性和穩定性。它的一般行為平滑了噪音,同時降低了在處理本地數據的場景中由于建模或偏見而做出錯誤選擇的總體危險[13,14]。
將機器學習應用于現實世界的問題仍然特別具有挑戰性[44]。這是因為需要訓練有素的工程師和擁有豐富經驗和信息的軍事專家來協調各自算法的眾多參數,將它們與具體問題關聯起來,并使用目前可用的數據集。這是一項漫長的、費力的、昂貴的工作。然而,算法的超參數特征和理想參數的設計選擇可以被看作是優化問題,因為機器學習可以被認為是一個搜索問題,它試圖接近輸入和輸出數據之間的一個未知的潛在映射函數。
利用上述觀點,在目前的工作中,提出了FAMEL,擴展了制定自動機器學習的一般框架的想法,該框架具有有效的通用優化,在聯邦層面上運作。它使用自動機器學習在每個聯邦用戶持有的數據中找到最佳的本地模型,然后,進行廣泛的元學習,創建一個集成模型,正如實驗所顯示的那樣,它可以泛化,提供高度可靠的結果。這樣,聯邦機構就有了一個專門的、高度概括的模型,其訓練不需要接觸他們所擁有的數據的聯合體。在這方面,FAMEL可以應用于一些軍事應用,在這些應用中,持續學習和環境適應對支持的行動至關重要,而且由于安全原因,信息交流可能很難或不可能。例如,在實時優化有關任務和情況的信息共享方面就是這種情況。在部署了物聯網傳感器網格的擁擠環境中,FAMEL的應用將具有特別的意義,需要滿足許多安全限制。同樣,它也可以應用于網絡空間行動,在雜亂的信息環境和復雜的物理場景中實時發現和識別潛在的敵對活動,包括對抗負面的數字影響[45,46]。必須指出的是,在不減少目前所描述的要點的情況下,所提出的技術可以擴展到更廣泛的科學領域。它是一種通用的技術,可以發展和產生一種開放性的整體聯邦學習方法。
盡管總的來說,聯邦學習技術的方法論、集成模型以及最近的元學習方法已經強烈地占據了研究界,并提出了相關的工作,提升了相關的研究領域,但這是第一次在國際文獻中提出這樣一個綜合框架。本文提供的方法是一種先進的學習形式。計算過程并不局限于解決一個問題,而是通過一種富有成效的方法來搜索解決方案的空間,并以元啟發式的方式選擇最優的解決方案[47,48]。
另一方面,聯邦學習模型應該對合作訓練數據集應用平均聚合方法。這引起了人們對這種普遍方法的有效性的嚴重關注,因此也引起了人們對一般聯邦架構的有效性的關注。一般來說,它將單個用戶的獨特需求扁平化,而不考慮要管理的本地事件。如何創建解決上述局限性的個性化智能模型,是目前一個突出的研究問題。例如,研究[49]是基于每個用戶必須以聯邦的形式解決的需求和事件。解釋是可解釋系統的各種特征,在指定的插圖的情況下,這些特征有助于得出結論,并在局部和全局層面提供模型的功能。建議只對那些變化程度被認為對其功能的演變相當重要的特征進行再訓練。
可以擴大擬議框架研究領域的基本課題涉及元集成學習過程,特別是如何解決創建樹和它們的深度的問題,從而使這個過程自動完全簡化。還應確定一個自動程序,以最佳的分離方式修剪每棵樹,以避免負收益。最后,探索將優化修剪的樹的版本添加到模型中的程序,以最大限度地提高框架效率、準確性和速度。
(完整內容請閱讀原文)
為了面對軍事防御的挑戰,軍隊及其戰術工具的現代化是一個持續的過程。在不久的將來,各種任務將由軍事機器人執行,以實現100%的影響和0%的生命風險。國防機器人工程師和公司有興趣將各種戰略自動化,以獲得更高的效率和更大的影響,因為陸地防御機器人的需求正在穩步增長。在這項研究中,軍事防御系統中使用的陸地機器人是重點,并介紹了各種類型的陸地機器人,重點是技術規格、控制策略、戰斗參與和使用目的。本研究還介紹了陸地機器人技術在世界軍事力量中的最新整合,其必要性,以及各國際防務公司對世界經濟的貢獻,表明其在軍事自動化和經濟穩定中的優勢。本報告還討論了近期發展的局限性和挑戰、機器人倫理和道德影響,以及與機器人安全有關的一些重要觀點和克服近期挑戰的一些建議,以促進未來的發展。
為了加強軍事防御系統,必須大力發展和提高智能自主戰略能力。在大多數第一世界國家,研究國防技術改進是實現軍事防御現代化的優先事項。未來戰爭的特點可以根據不同領域的沖突進行分析,如:海洋、陸地、空中、網絡、太空、電磁和信息。隨著現代智能和機器人技術的改進,跨域(X域)和多域戰略也需要被關注。無人自主X域(多域)系統,簡稱UAxS,現在是研究和發展的重點,以使軍事力量更加強大、有力和智能。圖1展示了多域和X域的戰爭模式。
圖 1:多域和 X 域戰爭模型
現代防御機制可以在四個相互關聯的領域進行研究:先進的戰艦、良好的通信、人工智能和自主武器。這基本上意味著在軍事防御系統中實施機器人技術。在戰場上,一支裝備精良的機械化部隊是指揮官非常重要的資產。在戰爭中,指揮官必須專注于火力、機動性、人機合作、決策、支持裝甲和指揮步兵。在未來,機器人和自動化系統將通過提供支持和減少負擔來幫助解決這些問題,因為這些系統將更加智能、可靠和合作。在最近的軍事活動中,機器人和自主技術被用于偵察、設備供應、監視、掃雷、災難恢復、受傷士兵的檢索等(Dufourda, & Dalgalarrondo, 2006;Akhtaruzzaman, et al., 2020)。
為了確保可靠的使用和獲得最高的技術影響,機器人必須在半自動化、自動化和人機交互工程方面進行良好的設計。無人地面車輛(UGV)很有前途,在國防應用中具有很大的潛力,在這些應用中高度需要更快和可靠的通信鏈接(鏈接預算)和快速獲取信息(RAtI)(Akhtaruzzaman, et al., 2020)。機器人的價值比人的生命還要低。機器人在感知、檢測、測量和分析方面速度更快。機器人沒有任何激情或情感,不會像人類那樣感到疲勞或疲倦,而是在極端和關鍵條件下保持運作。在不久的將來,機器人將成為作戰計劃和參與的核心技術(Abiodun, & Taofeek, 2020)。它們將能夠通過智能傳感器技術與環境溝通,通過建模理解環境,理解人類的行動,定義威脅,服從命令,以更高的處理能力獲取信息,通過信息交換和共享與其他機器人互動,通過先進的控制技術自主適應敵對環境,并通過強大的計算能力與自動生成的程序應用智能進行自我學習(Akhtaruzzaman, & Shafie, 2010a, 2010b; Karabegovi?, & Karabegovi?, 2019)。
在不久的將來,UGV系統將成為軍事行動的關鍵技術,因為它們將確保幾乎零人力風險,不需要將人力直接安置到戰斗中。UGV系統還將能夠開放各種設施,如負載、自動監視、邊境巡邏、風險降低、障礙物清除、力量倍增器、遠程操縱、信號中繼等(Sathiyanarayanan等人,2014)。陸地防衛機器人必須能夠適應各種崎嶇的地形、惡劣的環境和非結構化的區域,同時發揮指定的作用并保持指揮層次。作為軍事部隊的一種程度,陸地機器人不能給團隊帶來任何額外的工作負擔。因此,必須實施有效的人工智能(AI)工程,以實現UGV或陸地機器人與行動部隊之間可靠的人機合作。
今天的智能機器人或自主武器仍然處于狹義人工智能(ANI)的水平(Horowitz,2019年),或者以某種方式處于ANI和通用人工智能(AGI)之間。這反映出它們還沒有準備好在災難或戰爭等敵對情況下完全自主并做出可靠的決定。人類擁有在很大程度上應用感知經驗的智慧,能夠適應環境,并能在關鍵情況下做出適當的決定。如果這些能力能夠被植入機器人的大腦,該系統就可以說是AGI系統。盡管與人類相比,機器人可以抵御枯燥、骯臟和危險的工作,但它們包括一些有限的功能,如航點或目標導向的導航、障礙物檢測、障礙物規避、威脅檢測、人類檢測和識別、定位、地圖構建、通過圖像和聲音處理提取信息,以及與其他機器人的某種合作。因此,如果能確保機器人和人類之間的良好合作,機器人將在人類的監督下自主工作,那么軍用地面機器人將是最有效的。
本研究對軍用陸地機器人系統、最近的技術進步、應用和道德影響進行了回顧。一些發達國家和不發達國家的現狀,以及通過推進和發展軍事武器、自動化武器和智能技術對世界經濟的工業影響,都反映在審查研究中。本文還闡述了參與戰爭的機器人倫理以及該技術對道德國家的影響。該研究主要試圖通過確定最近的差距、局限性和技術進步的倫理影響,來確定地面機器人技術的最新應用和實施情況。
在本文中,我們討論了如何將人工智能(AI)用于政治-軍事建模、仿真和兵棋推演,針對與擁有大規模殺傷性武器和其他高端能力(包括太空、網絡空間和遠程精確武器)國家之間的沖突。人工智能應該幫助兵棋推演的參與者和仿真中的智能體,理解對手在不確定性和錯誤印象中行動的可能視角、感知和計算。人工智能應該認識到升級導致無贏家的災難的風險,也應該認識到產生有意義的贏家和輸家的結果可能性。我們將討論使用幾種類型的AI功能對建模、仿真和兵棋的設計和開發的影響。 我們在使用或沒有使用AI的情況下,根據理論和使用仿真、歷史和早期兵棋推演的探索工作,討論了基于兵棋推演的決策輔助。
在本文中,我們認為(1)建模、仿真和兵棋推演(MSG)是相關的調查方法,應該一起使用;(2)人工智能(AI)可以為每個方法做出貢獻;(3)兵棋推演中的AI應該由建模和仿真(M&S)提供信息,而M&S的AI應該由兵棋推演提供信息。我們概述了一種方法,為簡潔起見,重點是涉及擁有大規模毀滅性武器(WMD)和其他高端武器的國家的政治-軍事MSG。第2節提供了我們對MSG和分析如何相互聯系的看法。第3節通過討論20世紀80年代的系統來說明這一點是可行的。第4節指出今天的挑戰和機遇。第5節簡述了結構的各個方面。第6節強調了在開發人工智能模型和決策輔助工具方面的一些挑戰。第7節得出了結論。在本文中,我們用 "模型"來涵蓋從簡單的數學公式或邏輯表到復雜的計算模型的范圍;我們用"兵棋"來包括從小型的研討會練習(例如Day-After練習)到大型的多天、多團隊的兵棋推演。
MSG可以用于廣泛的功能,如表1所示。每種功能都可以由每個MSG元素來解決,盡管相對簡單的人類活動,如研討會兵棋和Day-After練習已被證明對后兩個主題具有獨特的價值。
通常形式的M&S和兵棋推演有不同的優勢和劣勢,如表2前三欄中的定型。M&S被認為是定量的、嚴格的和 "權威的",但由于未能反映人的因素而受到嚴重的限制。M&S的批評者走得更遠,認為M&S的 "嚴格 "轉化為產生的結果可能是精確的,但卻是錯誤的。在他們看來,兵棋推演糾正了M&S的缺點。M&S的倡導者則有不同的看法。
我們確實認識到并長期批評了正常建模的缺點。我們也從兵棋推演中受益匪淺,部分是通過與赫爾曼-卡恩(P.B.)、蘭德公司和安德魯-馬歇爾的長期合作,但兵棋推演的質量從浪費時間甚至起反作用到成為豐富的洞察力來源。雖然這種見解在沒有后續研究的情況下是不可信的,但來自建模的見解也是如此。
我們本文的一個論點是,這種刻板印象不一定是正確的,我們的愿望(不加掩飾的崇高)應該是表的最后一欄--"擁有一切",將建模、仿真和推演整合在一起。圖1顯示了一個相應的愿景。
這種理想化的活動隨著時間的推移,從研究、兵棋推演、軍事和外交經驗、人類歷史、人類學等方面開始(第1項),匯集關于某個領域(例如印度-太平洋地區的國際安全問題)的知識。這就是對棋盤、行動者、潛在戰略和規則書的定性。
兩項工作的進行是不同步的。如圖1的上半部分,兵棋推演在進行中,為某種目的而結構化。無論圖中的其他部分是否成功執行,這都可能獨立發生。同時,M&S以游戲結構化模擬的形式進行。隨著時間的推移,從M&S和兵棋推演中獲得的經驗被吸收,使用人工智能從M&S實驗中挖掘數據(第4項),以便為后續周期完善理論和數據(第5項)。在任何時候,根據問題定制的MSG都會解決現實世界的問題(第7項)。如同在淺灰色的氣泡中,人類團隊的決策輔助工具(項目6a)和智能體的啟發式規則(項目6b)被生成和更新。有些是直接構建的,但其他的是從分析實驗和兵棋推演中提煉出來的知識。有些智能體直接加入了人工智能,有些是間接的,有些則根本沒有。圖1鼓勵MSG活動之間的協調,盡管這種協調有時可能是非正式的,可能只是偶爾發生。
圖1的意圖可以在一個單一的組織中完成(例如,敏感的政府內工作)和/或在智囊團、實驗室、私營企業、學術界和政府中更開放的持續努力計劃中完成,就像圖2中的DARPA研究稱為社會行為建模實驗室(SBML)。在任何一種情況下,這種方法都會鼓勵多樣性、辯論和競爭。它也會鼓勵使用社區模塊來組成專門的MSG組件。這與專注于一個或幾個得天獨厚的單一模型形成鮮明對比。直截了當地說,這個愿景是革命性的。
圖1的愿景的一個靈感是20世紀80年代的蘭德公司戰略評估系統(RSAS)(附錄1指出了文件)。為了回應美國防部關于更好地利用兵棋推演進行戰略分析的要求,由卡爾-鮑爾領導的蘭德公司團隊提出了自動化兵棋推演,它將利用那個時代的人工智能、專家系統,但它將允許可互換的人工智能模型和人類團隊。這導致了一個多年的項目,我們中的一個人(P.K.D.)在1981年加入蘭德公司后領導這個項目。
該項目從深入設計開始,保留了可互換團隊和人工智能智能體的開創性想法,但也包括一個靈活的全球軍事模型;與人工智能有關的新概念,如替代的紅方和藍方智能體,每個都有彼此的模型;代表其他各方的綠方智能體,有簡單的參數化規則子模型;紅方和藍方智能體在做決定前做 "前瞻 "的能力;以及 "分析性戰爭計劃"--代表軍事指揮官的自適應插槽式腳本人工智能模型。該設計還預計:多情景分析,納入 "軟因素",如定性的戰斗力,以及人工智能模型的解釋能力。圖3勾勒出高級RSAS架構。整個80年代都在實施。蘭德公司將RSAS用于國防部的研究,例如,歐洲的常規平衡和常規軍備控制的建議,并將其出口到各政府機構和戰爭學院。聯合參謀部收到了RSAS,但事實證明連續性是不切實際的,因為一旦有適當才能的官員學會使用它,他們就會被提升到其他任務。
盡管RSAS在技術上取得了成功,但它在某些方面還是領先于時代。一方面,其創新的全球作戰模型被廣泛接受并用于分析和聯合兵棋推演。它成為聯合綜合作戰模型(JICM),在過去的30年中不斷發展,現在仍在使用。另一方面,RSAS的人工智能部分除了用于演示外,很少在蘭德公司之外使用。大多數指導RSAS工作的政府辦公室對政治層面的問題沒有興趣,如危機決策、戰爭路徑或升級。少數人有興趣,這導致了蘭德公司的研究,但在大多數情況下,他們的需求可以通過相對簡單的兵棋推演來解決,包括事后演習(Roger Molander,Peter Wilson)。此外,完整的RSAS是昂貴、復雜和苛刻的。更為普遍的是,隨著蘇聯的解體,美國防部對兵棋推演的興趣驟然下降。
幸運的是,事實證明有可能實現 "去粗取精":用人工智能智能體進行類似RSAS的模擬,可以通過非常簡單的模型和游戲獲得一些重要的見解,正如最近未發表的用對手的替代形象進行核戰爭的工作中所說明的。
RSAS在某種程度上納入了表2最后一欄的大部分想法,所以它顯示了可行性。也就是說,它可以作為某種存在的證明。然而,那是在冷戰時期,采用1980年代的技術。今天能做什么?
今天的國際安全挑戰遠遠超出了冷戰時期的范圍。它們呼喚著新的兵棋推演和新的M&S。新的挑戰包括以下內容。
現在的世界有多個決策中心,他們的行動是相互依賴的。從概念上講,這將我們置于n人博弈論的世界中。不幸的是,盡管諸如公地悲劇和食客困境等現象可以用n人博弈論的語言來描述,而且平均場理論有時也可以作為一種近似的方法來使用,但似乎n人博弈的復雜的解決方案概念還沒有被證明是非常有用的。由于種種原因,這種解決方案并沒有被廣泛采用。商學院的戰略課程很少使用這些技術,國防部的智囊團也很少將這些技術納入他們的M&S中。可能是現實世界的多極化太過復雜,難以建模,盡管在戰略穩定方面已經做出了一些努力。就像物理學中的三體問題一樣,n方系統的行為甚至可能是混亂的。我們還注意到,隨機混合策略在n人博弈中通常發揮的作用很小。同樣,在計算其他玩家的行動時,可能有很多內在的復雜性,以至于隨機化產生的一層額外的不確定性對我們理解未來的危機動態沒有什么貢獻。
與1980年代相比,有更多的國家擁有大規模殺傷性武器(即印度、巴基斯坦、朝鮮),甚至更多的國家擁有大規模破壞性武器。網絡作為一種戰略武器的加入,使問題進一步復雜化。在這里,人工智能可能有助于理解事件。作為一個例子,假設一支核力量受到攻擊,使其用于電子控制的電力系統癱瘓(由于分散和防御,這可能并不容易)。一支導彈部隊只能在短時間內依靠備用電力系統執行任務。大國肯定意識到自己和對手的這種脆弱性。在商業電力領域,人工智能對于在電力中斷后向需求節點快速重新分配電力資源變得非常重要,例如2021年發生在德克薩斯州的全州范圍內的冰凍溫度。
武器裝備的變化擴大了高端危機和沖突的維度,如遠程精確打擊和新形式的網絡戰、信息戰和太空戰。這意味著卡恩很久以前提出的44級升級階梯現在必須被更復雜的東西所取代,正如后面6.3節中所討論的。
一個推論被低估了,那就是現在的世界比以前更加成熟,可以進行有限的高端戰爭--盡管更熱衷于威懾理論的人有相反的斷言--其中可能存在有意義的贏家和輸家。在考慮俄羅斯入侵波羅的海國家、朝鮮入侵韓國等可能性時,這一點變得很明顯。出現的一些問題包括俄羅斯對 "升級-降級 "戰略(北約冷戰戰略的俄羅斯版本)的依賴,以及網絡戰爭和攻擊空間系統的前景。因此,觀察到更多國家部署跨洋范圍的精確打擊武器也是麻煩的。即使是曠日持久的“有限”戰略戰爭現在也可能發生,盡管如第6.3節所討論的那樣,升級很容易發生。
今天的美國安全伙伴有著不同的重要利益和看法。北約在整個冷戰期間表現出的非凡的團結,在現代危機或沖突中可能無法重現。在亞太地區,朝鮮和韓國、中國、日本、臺灣、印度和巴基斯坦之間的矛盾關系是危機中困難的預兆。所有這些國家都有通過使用太空、網絡空間或區域范圍內的精確武器進行升級的選擇。
這里的總體問題是,聯盟仍然非常重要,但今天的聯盟可能與冷戰時期緊繃的街區不同。我們可能正在進入一個類似于20世紀初的多極化階段。第一次世界大戰爆發的一個因素是,柏林認為倫敦不會與法國一起發動戰爭,在歐洲阻擊德國。這導致人們相信,戰爭將類似于1871年的普法戰爭--有限、短暫,而且沒有特別的破壞性。甚至法國在1914年8月之前也不確定英國是否會加入戰爭。這種對自己的盟友會做什么的計算,對穩定至關重要。這里的不確定性確實是一個具有巨大意義的戰略問題。
在考慮現代分析性兵棋推演的前景時,新的技術機會比比皆是。下面的章節列出了一些。
基于智能體的建模(ABM)已經取得了很大的進展,對生成性建模尤其重要,它提供了對現象如何展開的因果關系的理解。這種生成性建模是現代科學的革命性發展。與早期專家系統的智能體不同,今天的智能體在本質上通常是追求目標或提高地位的,這可能使它們更具有適應性。
當然,更普遍的人工智能研究比ABM要廣泛得多。它提供了無限的可能性,正如現代文本中所描述的那樣。我們在本文中沒有多加討論,但是在考慮M&S的未來,以及兵棋推演的決策輔助工具時,最好能有長篇大論的章節來論述有時被確認的每一種人工智能類型,即反應式機器、有限記憶的機器、有限自動機、有自己的思維理論的機器,以及有自我意識的機器。這在這里是不可能的,這一限制也許會被后來的作者所彌補。
聯網現在是現代生活的一個核心特征,人與人之間、組織與組織之間都有全球聯系。數據是無處不在的。這方面的一個方面是分布式兵棋推演和練習。另一個方面是在線游戲,甚至到了大規模并行娛樂游戲的程度,對這些游戲的研究可能產生國家安全方面的見解。這類游戲并不"嚴肅",但在其中觀察到的行為可能暗示了在更多的學術研究中無法認識到的可能性和傾向性。
現在,建立獨立有用的模型(即模塊)并根據手頭問題的需要組成更復雜的結構是有意義的。這種組合與國防部歷史上對標準化的大型綜合單體模型的偏愛形成鮮明對比。在不確定因素和分歧普遍存在的情況下,這種標準化的吸引力要小得多,比如在更高層次的M&S或兵棋推演中。模塊化設計允許帶著對被建模的東西的不同概念。這可以打開思路,這對預見性是很有用的,就像避免驚訝或準備適應一樣。也有可能將替代模型與數據進行常規比較,部分用于圖2中建議的常規更新。另外,模塊化開發有利于為一個特定的問題插入專業性,這是2000年中期國防部研討會上建模人員和分析人員社區推薦的方法。
今天,AI一詞通常被用來指機器學習(ML),這只是AI的一個版本。ML已經有了很大的進步,ML模型通常可以準確地擬合過去的數據,并找到其他未被認識到的關系。一篇評論描述了進展,但也指出了局限性--提出了有理論依據的ML版本,在面向未來的工作中會更加有效,并強調了所謂的對抗性人工智能,包括擊敗對手的深度學習算法的戰術。
規劃的概念和技術取得了根本性的進展,在深度不確定性下的決策(DMDU)的標題下討論。這從 "優化 "最佳估計假設的努力,轉向預期在廣泛的可能未來,也就是在許多不確定的假設中表現良好的戰略。在過去,解決不確定性問題往往是癱瘓的,而今天則不需要這樣。這些見解和方法在國防規劃和社會政策分析中有著悠久的歷史,應該被納入人工智能和決策輔助工具中。
設計"永遠在線"的系統,并不斷提高智能。從技術上講,大多數國防部的MSG都是人工智能界所謂的"轉型"。該模型或游戲有一個起點;它運行后會報告贏家和輸家。可以進行多次運行,并將結果匯總,以捕捉復雜動態中固有的差異。較新的人工智能模型的設計是不同的,它所模擬的系統是 "永遠在線的"。這被稱為反應式編程,與轉化式編程不同。這些系統永遠不會停止,并且不只是將輸入數據轉化為輸出數據。例子包括電梯系統和計算機操作系統。國防方面的例子包括網絡預警系統,導彈預警系統,或作戰中心。這些都不會"關閉"。防御系統正變得更加反應靈敏,所以必須用模型來表示它們。這一點在1980年代RSAS的更高級別的紅方和藍方智能體的設計中已經預見到了,它們會在事件發生后'醒來',并對局勢和選項進行新的評估,而不是繼續按照腳本行事。
在轉換型模型中,環境中的事件可能會觸發程序按順序采取某種行動。反應式模型則不同。程序在環境中同時做出改變。他們一起改變,或幾乎一起改變。國防工作的一個有趣的例子涉及自主武器。人類和機器決策之間的界限已經模糊了,因為在一個反應式系統中人和機器之間的互動可能是連續和交織的。反應式系統是美國、中國和俄羅斯國防投資的一個主旨。無人機群和網絡預警系統將如何在M&S和兵棋推演中得到體現?除非表述恰當,否則相關人工智能模型在模擬中的價值可能會適得其反。
然而,這僅僅是個開始。隨著機器擁有更好的記憶和利用它們所學到的東西,以及它們納入世界理論,包括對手的思想理論,人工智能將如何變化?一個令人擔憂的問題是,正如Yuna Wong及其同事所討論的那樣,對人工智能的更多使用將增加快速升級的前景。這方面的風險對于專注于最大化某些相對量化措施,而不是更多的絕對結果及其定性評價的人工智能來說尤其高。以冷戰時期的經驗為例,執著于誰會在全球核戰爭中以較高的核武器交換后比率 "贏得"的分析是危險的。幸運的是,決策者們明白,結果將是災難性的,沒有真正的勝利者。即使是1983年電影《兵棋》中的計算機約書亞也明智地得出結論:"核戰爭。一個奇怪的游戲。唯一的勝利之舉就是不玩。來一盤漂亮的國際象棋如何?無論約書亞體現的是什么人工智能,它都不只是關于如何通過數字贏得一場娛樂游戲的ML。
為現代分析性兵棋推演開發一個完整的架構超出了本文的范圍,但建議一些方向是可能的。圖4勾勒了一個頂層架構,表3則更詳細地提出了各種特征。圖4認識到,在考慮許多可能的危機和沖突時,需要深入關注至少三個主要的行為者,以解決當前時代的危機和沖突。一個例子可能是朝鮮、韓國、美國和中國。圖4還要求對軍事模擬采取模塊化方法。
如表3所示,1980年代RSAS的一些特征可能會延續到現代化的版本。然而,許多其他特征應該有很大不同。我們認為表3是討論的開端,而不是終點。
由于在我們的討論中,為大規模的場景生成、探索性分析和不確定性下的決策做準備是很突出的,因此需要強調兩個重要問題:
只有當模擬在結構上是有效的(即只有當模型本身是有效的),不同參數值的探索性分析才是有用的。
從探索性分析中得出的結論可能會有問題,當所研究的案例(情景)的可能性不一樣,它們的概率是相關的,但沒有很好的基礎來分配概率分布。
1、模型驗證
正如其他地方所討論的,模型的有效性和數據的有效性應該分別對描述、解釋、后預測、探索和預測進行定性。另外,必須根據特定的問題和背景來判斷它們。參數化方法有很長的路要走,但模型的不確定性常常被忽視,需要更多的關注,正如最近的一篇文章中所討論的那樣。攜帶目標和價值非常不同的對手模型只是這樣做的一個例子。
關于在不知道案件的相對概率的情況下如何使用探索性分析這個令人困擾的問題,我們建議探索性分析至少在表4中說明的目的上很可能有價值,這些目的都不需要概率。對于每一個例子,探索的目的是找到可能性(如脆弱性或機會),促使采取措施來防止它們,預測它們,或準備相關的適應措施。如果存在一個關鍵的漏洞,就應該修復它,無論它被利用的概率 "看起來 "是低還是高(如果它的概率被知道是很小的,那將是另外一回事)。
本節討論了在思考建模和兵棋推演的人工智能和決策輔助工具時出現的一些問題。首先討論了決策輔助功能。接下來討論了在設想使用人工智能的ML版本來利用大規模場景生成時的一個挑戰。最后一節討論了開發 "認知人工智能 "和相關決策輔助工具所涉及的基本挑戰之一。
如果我們根據我們所看到的對玩家的重要性,而不是對人工智能提供者的興奮點來詢問決策輔助工具的主要功能,那么一些關鍵的功能就會如表5所示。
從科幻小說中,我們可能期望現代游戲的決策輔助工具是高度計算機化的,并由人工智能以相對個性化的形式提供信息,就像艾薩克-阿西莫夫的機器人或電影《2001》中不那么邪惡的計算機哈爾9000。然而,作者迄今為止的經驗是,在游戲中 "幫助 "人類的努力往往被證明是適得其反的,阻礙了本質上人類的自由討論。事實上,這些努力有時會因為分散注意力而使玩家生氣。考慮到這一點,我們分別討論了實用的短期決策輔助工具和更具推測性的長期目標。
表6提供了我們對第一欄所示的簡單決策輔助工具的價值的主觀估計,從低到高。這些都不涉及人工智能。相反,最有價值的輔助工具是具有簡潔的檢查表、信息表或圖表的簡單視圖。評估區分了不同類型的游戲或演習,也區分了玩家之前是否接受過決策輔助工具訓練的游戲。這些評價是在蘭德公司與韓國國防分析研究所合作進行的一些兵棋推演實驗后制定的。
關于簡單決策輔助工具的另一個數據點是蘭德公司同事開發的(但尚未出版)的 "奇怪的游戲"。這是一個關于核使用的高效兵棋推演,玩家代表一個戰區指揮官,通過選擇適當的卡片來進行游戲。該游戲建立了決策輔助工具,包括目標類別和評估選擇何種目標的簡單線性算術。
作為近期決策輔助工具的最后一個例子,最近的一個原型研究采用了一種低技術的方法來進行人類演習,考慮如何在危機和沖突中影響對手。該方法涉及一種定性的方法,即不確定性敏感認知模型(UCM),如圖5所概述。這些機制都是定性的,通過真實或虛擬的白板和互動軟件進行展示和討論。它們包括因素樹、表示有限理性的Red替代模型、影響圖以及戰略明顯優缺點的表格比較。沒有一個涉及人工智能。很明顯,人工智能甚至不會有幫助。也許這是一個重要的洞察力,也許這反映了想象力的不足。現在讓我們來看看長期的情況。
從長遠來看,可能會有更多的東西,我們應該從科幻小說、電子娛樂游戲、甚至主要電視網絡對新出現的選舉結果的實時討論中尋找靈感。僅僅舉例說明在不遠的將來可能出現的功能,在每一個功能中,人工智能系統都會對查詢作出反應。
一個團隊口頭命令對 "成功之路 "進行探索性分析,包括是否有某一盟友的堅定合作。
一個小組詢問,鑒于最近發生的事件,對手的哪些替代模型仍然是可信的。人工智能報告反映了依賴于主觀可能性函數的貝葉斯式分析,這些函數已被更新以反映最近的歷史。
一個考慮有限升級的團隊詢問了潛在的反應。人工智能幫助器顯示了在以前的兵棋推演中觀察到的反應,玩家被認為很好地代表了實際的決策人。它還確定了在模擬中反應不好的條件(在下一節中討論),從而強調了條件的哪些方面需要特別注意以避免災難。
這些猜測是最低限度的,只是為了激發人們對人工智能如何在決策輔助方面發揮作用的更多創造性思維。這個領域是開放的,從某些類型的人工智能的名稱中可以看出,從反應型機器到具有有限記憶、內置心智理論和自我意識的機器,這個領域是開放的,甚至更加明顯。一些主要人物,如珀爾和麥肯錫,自信地預計后者將包括意識本身。然而,那是未來的事了。佩爾將目前的機器人描述為 "像鼻涕蟲一樣有意識"。也就是說,蜂群武器很快就會像鳥群、魚群和昆蟲一樣有 "意識"。
讓我們接下來談談涉及人工智能與M&S的一些棘手問題。它們涉及到哪些人工智能決策輔助工具是可行的。
如前所述,機器學習類人工智能(AI/ML)有可能通過挖掘大規模場景生成的結果來尋找洞察力。然而,成功取決于(1)模擬的質量和(2)用于搜索結果的方法。
大量場景生成的成果可能是有用的,也可能是反作用的,這取決于基礎模型是否足夠豐富,結構上是否符合探索的目的。在研究可能的高端危機時,如果基礎模型假設了完美的理性、認知、聯盟關系,并專注于例如核武器的交換后比率作為結果的衡量標準,那么一百萬種情景的數據庫有什么用呢?對于軍事技術目的,如部隊規劃,可能有價值,但對于威懾或預測實際沖突中的問題,甚至是嚴肅的精英兵棋推演,可能沒有價值。
模型建立者所面臨的挑戰的某些方面是眾所周知的,如認識到對決策者(性格、人格、健康)的替代概念的需要,認識到錯誤認知的可能性,以及允許卡尼曼和特沃斯基的前景理論和其他心理現象所描述的那種非理性決策。應對這些挑戰,至少可以說是困難重重,但至少挑戰是被認可的。
相比之下,軍事模擬和社會行為模擬的一個骯臟的小秘密是,工作場所的模型通常不會產生黑天鵝事件、不連續現象或各種突發現象,而這些現象是研究復雜適應性系統的核心要素,在現實世界和一些大型游戲中都會出現,比如20世紀50年代的 "精英 "高級冷戰兵棋推演。原因有很多,但通常是由于模型是 "腳本化的",而不是基于智能體的,或者--即使它們確實有智能體--沒有給智能體足夠的多樣性、自由度和激勵來產生現實的適應性行為,以及不允許有長尾分布的隨機性。在這些問題上做得更好,對社會行為模擬來說是一個巨大的挑戰,特別是對那些打算與現實兵棋推演相聯系的模擬來說。一些成分包含在復雜的兵棋推演中,因此人們可以觀察到,例如,聯盟的解體和新集團的建立,在團隊看來,這更符合他們的國家利益。今天的模擬通常不允許這樣做。從推測上看,我們認為至少有兩條路可以做得更好。如果可以預見感興趣的突發現象(比如上面的聯盟問題),那么就可以建立適當的對象,模擬可能會識別出何時引導它們出現或消失。但是,最重要的突發現象(包括一些在兵棋推演中出現的現象)可能無法被預期。盡管我們并不聲稱知道什么是必要的,但我們從過去的復雜性研究的經驗中觀察到,突發現象的產生往往是因為復雜的自下而上的互動、多樣性和隨機事件。然而,傳統的高層政治軍事模擬并不具備這些特征。它們的價值在很大程度上是由于它們代表了更高層次的實體和過程,大致與系統動力學的模型相類似。我們的結論是,在前進的過程中,重要的是開發多分辨率的模型系列和將它們相互聯系的方法。例如,一個更高分辨率的基于智能體的模型可能有適應性的智能體,用于所有卷入危機或沖突的國家。仿真實驗可能會發現(就像人類游戲一樣)上面提到的那種突發行為,例如聯盟的偶爾解散、側翼切換和新的便利聯盟的出現。這將是''洞察力'',然后可以導致在更高層次的模型中添加新的智能體,根據模擬中的情況激活或停用的智能體。然而,這將需要類似于最近一本關于社會行為建模的書中所討論的 "自我感知的模擬",特別是伊爾馬茲的那一章,他設想的計算可以監測自己的狀態,并在必要時改變自己的結構,還有一章是作者之間關于出現的辯論。
如果模擬足夠豐富,那么有意義的大規模場景生成是可能的。但然后呢?對模擬數據進行探索性分析的一個核心挑戰是了解如何評估不同情況的相對重要性。一種方法是分配主觀的概率分布,但哪里能找到能夠可靠地估計概率的專家,而不在前面加上諸如 "嗯,如果明天像過去一樣 "的評論。現實上,專家并不是預測或概率的好來源,Tetlock及其同事已經深入討論過了。
一種變通的方法是報告結果的頻率(以百分比計算),例如,好或壞。這可以通過全因子設計或使用蒙特卡洛抽樣來完成。不幸的是,存在著滑向討論"可能性"而不是百分比的趨勢,即使案例的可能性不一樣。另外,在MSG的背景下,這種類型的展示掩蓋了這樣一個現實,即行為者不斷尋找他們將獲得重大優勢的情景空間的模糊 "角落"。因此,在模擬中不經常觀察到的情況可能正是發展中的情況。
我們建議的方法是避開明確的概率分配,而是 "尋找問題"或 "尋找成功"。也就是說,當探索性分析產生的大量數據時,人們可能會尋求找到結果非常好、非常壞或其他的條件。這在關于穩健決策(RDM)和DMDU的文獻中被稱為情景發現。
更進一步,我們敦促人工智能以 "聚合片段"的形式得到提示,其動機來自理論、簡單模型和主題領域的專業知識。一個例子可能是 "沖突開始時的準備狀態"。對于戰略預警時間、戰術預警時間、領導層特征、先前的軍事準備狀態和動員率的巨大不同組合,其數值可能是相同的。也就是說,這個變量是許多微觀初始狀態的集合。另一個例子(假設有合適的智能體)可能是危機發生時的心理狀態,其值包括偏執狂、冷靜和理性以及自信的攻擊性。
鑒于足夠豐富的模擬和理論為人工智能在探索性分析中提供了提示,我們懷疑人工智能可以在識別 "完美風暴 "的情況等活動中完成大量工作--不是為了預測它們,而是為了注意要避免的條件,就像在簡單的兵棋推演中以低技術方式完成的那樣。
另一個ML應用可以從關于對手行動的大規模情報收集中為兵棋推演和M&S創建算法,例如那些潛艇或地面移動導彈。曾經需要幾個月或幾年的時間來收集和分析的東西,現在可能在很短的時間內就能得到,產生可用于兵棋推演或M&S的操作程序的算法。作為一個類比,考慮獲得關于駕駛安全的洞察力。今天最深刻的洞察力來自保險公司(Progressive, GEICO),它基于可下載的軟件,跟蹤個人操作者:他們的速度,左轉的數量,加速模式,等等。這些數據可以與信用評分和其他數據整合。其結果可以是個性化的保險費率。這樣的數據分析已經是今天的現實。應該有類似的軍事和MSG影響。當然,有一些必然是分類的,對于本文的政治軍事重點來說,其意義不如MSG的其他應用。
上面的討論集中在ML式的人工智能上,但所需要的豐富的模擬必須有智能體以更像人類的方式進行推理,這種東西可以被描述為認知型人工智能。在這一點上,決策邏輯使用的因素和推理與人類喜歡相信的東西相似,是他們實際行為的基礎。
1980年代RSAS的紅方和藍方智能體是早期的例子。他們利用廣泛接受的升級階梯結構來描述核危機和沖突中的情況、選擇和決策選擇。
今天,我們需要新一代的更高層次的決策模型,但不存在升級階梯的替代品。也許也不會找到替代品。當從兩方博弈到甚至三方博弈時,復雜性大大增加。一個替代的概念必然會更加復雜--更像是一個n維網格而不是一個階梯--因為升級可能不僅涉及核武器及其目標的數量,還涉及與網絡戰爭、太空戰爭和精確射擊的戰略使用有關的數量、強度和目標。
圖6簡單說明了這一概念,結合了幾個維度,以便人為地顯示只有三個維度的結果。它顯示了一個說明性的情景,開始是一場溫和的常規戰爭(第1項),但隨后依次過渡到嚴重的網絡攻擊(第2項),更廣泛地使用精確制導導彈(PGMs)(第3項),有限的核使用(如箭頭所示的核升級)(第4項),甚至更具破壞性的使用PGMs(如針對大壩和發電廠)。 例如,針對水壩和電網)(第5項),也許大規模殺傷性武器的水平略有提高(也許只是為了以牙還牙),以及全面核戰爭(第6項)。然而,今天,對于某種特定的攻擊會出現在某一軸線上,以及行為者是否會有相同的評估,并沒有共同的理解。不僅"客觀"的答案充其量是短暫的,認知很可能取決于路徑,取決于國家,并受到隨機影響。規劃的一個核心問題是核武近鄰國家之間的長期非核戰爭是否可信。由于常規戰爭和核戰爭的指揮和控制系統的糾纏,這些問題變得更加麻煩。似乎預測模型,無論是否基于人工智能,都不在考慮之列,盡管產生值得擔心的合理情況的模型應該在考慮之列。
對于那些尋求建立認知型人工智能模型以代表危機中的國家決策者的人來說,可能還會列出更多的挑戰,但我們希望我們的例子能吸引眼球。
本文的主要建議是推薦一個研究議程,將建模、模擬、游戲和分析視為相關的和相互交織的。在這樣一個綜合的觀點中,兵棋推演的人工智能將通過使用模型的分析來了解,這些模型包括包含了部分由兵棋推演提供的人工智能智能體。例如,這將導致具有類似于兵棋推演決策助手的人工智能智能體,以及更復雜的算法。它將導致基于兵棋推演的決策輔助工具,它將類似于將有理論依據的ML應用于由探索性分析產生的 "數據",這些探索性分析來自于利用決策智能體形式的AI的M&S。
關于人工智能本身,我們對今天的ML中常見的一些做法提出警告。我們注意到缺乏關于未來危機和沖突的可靠的信息性經驗數據。此外,我們強調,在決策輔助工具和模型中使用的智能體中,都需要解釋。這表明我們更傾向于由認知模型構成的人工智能,即使ML被用來填充和調整該結構。
最后,我們敦促對兵棋推演(包括小規模的活動,如事后演習)和模型所提出的問題要非常謹慎。模型、模擬、游戲和分析仍然是不完美的,有時甚至是明顯不完美的,但我們有可能很好地利用它們來解決許多問題,也就是說,提高決策的質量。預測可能性有很大的潛力;可靠的預測則沒有。
人工智能已經使用了幾十年。它已經被部署在有人駕駛的編隊中,并將在未來幾年內繼續被用于軍事。目前的戰略和作戰概念要求在整個國防企業中增加使用人工智能能力,從高級領導人到戰術邊緣。不幸的是,人工智能和它們所支持的戰士不會 "開箱即用"地兼容。簡單地將人工智能植入人類團隊并不能確保成功。美國防部必須仔細注意如何將人工智能與人類一起部署。這在團隊中尤其如此,因為團隊的結構和成員的行為可以決定業績的好壞。由于人類和機器的工作方式不同,團隊的設計應該利用每個伙伴的優勢。團隊設計應該考慮到機器伙伴的固有優勢,并利用它們來彌補人類的弱點。這項研究通過提交新的概念模型,捕捉人類和機器在人機合作結構中運作時的理想團隊行為,對知識體系做出了貢獻。這些模型可以為人機團隊的設計提供信息,從而提高團隊的績效和敏捷性。
圖1 智能自主系統技術框架
圖3 美國人工智能相關戰略
核導彈發射被探測到。那是1960年10月5日,北約正處于最高級別的警戒狀態。以99.9%的準確率,來襲的蘇聯彈道導彈被格陵蘭島的預警系統探測到。值得慶幸的是,北約的報復行動被制止了,操作人員發現,"智能 "系統正在跟蹤上升的月亮(Singer,2009)。自然,這并不是唯一一次世界幾乎在人工智能(AI)引起的核交換中喪生。1983年9月26日,蘇聯的彼得羅夫中校發現自己是莫斯科附近Serpukhov15掩體內的值班人員。在太空中運行的蘇聯Oko預警衛星系統完全肯定地報告說,多枚導彈正在前往莫斯科的路上。問題是,奧科系統把從云頂反射的陽光誤認為是美國的一系列導彈發射(Scharre,2018)。解讀其系統的局限性,并將事件置于背景中,操作人員能夠防止災難的發生。當然,這些極端案例是少見的,對于今天的人工智能,我們沒有那么依賴人類的判斷,對嗎?不幸的是,不盡然。人類和人工智能(AI)的工作方式不同,所以像美國防部(DOD)這樣的組織在將人工智能系統插入操作團隊時,需要非常慎重。
本研究試圖回答以下問題:
將對文獻進行詳盡的回顧,并對兩個適用的案例研究進行分析。這項研究的目標是產生一個人機協作的概念模型,并提供有關人機團隊內部溝通的背景性、現實世界的知識。鑒于目前可用的基于實驗室的人機協作實驗數量有限,本研究將檢查數據以確定廣泛的主題和模式。
人類團隊和人類團隊動態的性質已經得到了廣泛的研究。這一領域的文獻有豐富的發現,可以提供關于人與人團隊動態的細節;然而,關于機器融入人與人團隊的文章卻很少。隨著機器伙伴被納入傳統意義上的人類團隊,就需要對人機團隊進行研究。本研究將首先描述人工智能的特點及其對戰爭的預期影響。將提供關于機器-機器團隊的現有文獻分析,然后是人類認知和人-人團隊的更多發展主題。這項研究在描述人機團隊的通信、協調和互動動態之前,將對人機團隊進行特征描述。然后,作者將展示這些動態如何與團隊敏捷性和績效的概念相聯系。
本研究目的是探索人機團隊中的溝通、協調和互動動態,并闡述它們對團隊敏捷性和績效的潛在影響。隨著人機團隊結構在DON中變得越來越普遍,這種探索對于發展對團隊動態的理解是必要的。這項研究將產生人機團隊的概念模型,可以為未來系統的設計提供參考。這項研究的結果可以幫助美海軍軍部更好地理解將狹義的人工智能能力整合到團隊構建中的影響。這種知識將最終使美國防部能夠應用研究結果來提高人機團隊的敏捷性。