本文旨在分析人工智能(AI)在遠征先進基地作戰(EABO)中的應用,重點是作戰和后勤行動。使用 Atlatl 作為模擬引擎,在模擬待命部隊在兩棲環境中分布式作戰所面臨挑戰的場景中測試了多個智能體。測試了每種人工智能在軍事行動臨界值以下開展維持行動的能力,以及在越過臨界值時抵御兩棲攻擊的能力。就腳本智能體而言,事實證明,根據聯合作戰方法對行為進行調整可創造出生存能力更強的人工智能,同時保持其殺傷力水平。就建立在神經網絡基礎上的智能體而言,由于問題的規模和范圍,其性能受到了限制,可能需要進行更多的研究才能顯示出顯著的效果。這項研究是繼續開發 EABO 概念的探索工具,可為繼續完善操作概念提供反饋。
本文屬于建模、虛擬環境和模擬領域。具體來說,它分析了在作戰模型和模擬中使用人工智能(AI)來評估未來潛在沖突場景中的作戰概念。戰爭游戲和模擬為行動的發展提供了寶貴的反饋,檢驗了我們對特定場景下所面臨的環境和挑戰的理解。2019 年,美國(U.S. )海軍陸戰隊(USMC)發布了新的指南--指揮官規劃指南,將重點轉向圍繞中國在南太平洋帶來的挑戰而開展的防御工作,從而提出了遠征先進基地行動(EABO)的概念(Berger,2019 年)。隨著重點的轉移,有了一個新的機會,可以對我們的概念和想法進行兵棋推演,評估那些能提供最廣闊成功之路的概念和想法。
在軍事領域,兵棋推演的目的是對想法進行分析,找出行動方案的優缺點,進一步完善最終方案。通過在 EABO 兵棋中引入人工智能,可以對概念進行更深入的分析,從而在行動發展過程中獲得更精細的反饋。一旦捕捉到這些數據,對其進行研究就能進一步促進對 EABO 的探索,檢驗我們對過去和未來軍事模擬在同一領域的判斷,并提供信息,幫助圍繞 EABO 和其他目標行動繼續開發人工智能能力。具體來說,通過了解現有人工智能體在場景驅動模擬中的行為,我們可以評估和推斷人工智能可能如何應對更廣泛的模擬(圍繞一個主題場景提出類似的挑戰),以及如何改進人工智能以更好地在其中使用。
盡管技術取得了長足進步,但戰爭迷霧--戰場上的不確定性和不完整信息--仍對軍事行動構成挑戰。由于缺乏定量支持工具,在這種條件下進行有效決策仍然是一個關鍵問題。本文通過將軍事人工智能(AI)融入美海軍開發的六邊形戰場模擬環境(即 Atlatl 平臺)來彌補這一不足。研究重點是開發和評估各種人工智能算法,包括腳本人工智能、分層和非分層人工智能以及強化學習(RL)模型。這些模型利用概率分布來加強戰爭迷霧場景下的導航和戰略規劃。通過模擬多次戰斗迭代,人工智能模型在戰爭迷霧中定位和跟蹤敵方陣地的精確性和作戰效率方面表現出明顯的優勢,可幫助指揮官做出決策。此外,本研究獲得的見解不僅有助于完善戰爭迷霧場景中的行動方案(COA)決策,還可實際應用于反潛戰(ASW)和海上搜救(SAR)行動。本文強調了利用概率分布的人工智能支持決策的有效性。
美國國防部(DOD)開發了各種模型和模擬,供各分支和部門使用。表 1 列出了國防部內使用模擬和兵棋的組織名單。這些工具通過不同的方法為指揮官的決策過程提供支持。采用的方法包括定制開發的軟件;商業游戲的改編;研討會、系統和混合等各種形式的戰爭游戲;以及電子表格的使用。每種模擬都是針對特定情況設計的,并為其所針對的特定梯隊提供支持。因此,并非所有模擬都能實現定量戰爭迷霧(精確到足以用數字表示不確定性);有些模擬可能根本不包括戰爭迷霧,而有些模擬可能實現的戰爭迷霧過于寬泛。此外,即使實施了戰爭迷霧,由于需要大量啟發式干預,其為指揮決策提供定量支持的效果也可能有限。
解決 “戰爭迷霧 ”問題的研究已在游戲行業等多個商業領域展開,但在軍事領域的探索卻相對有限。因此,本研究旨在為最大限度地減少軍事領域的 “戰爭迷霧 ”做出重大貢獻,主要是幫助指揮官做出明智決策。此外,在應用人工智能、自動化作戰行動(COA)開發和評估方面,正如 “2035 年戰爭的特征研討會”(2020 年 11 月)所討論的那樣,本研究將為開發由機器支持的快速決策和人機協作做出貢獻(Taliaferro 等人,2021 年)。
為了拓寬視野,本文采用了 “戰爭迷霧 ”的概念來描述情報僅限于目標定位的狀態。這種情況與海軍反潛戰以及海上搜救行動中普遍存在的基礎條件極為相似。因此,這項研究可應用于具有類似條件的各種情況,包括海軍行動、反潛戰和海上失蹤人員搜索行動。
本論文分為五章。第一章介紹了研究的主要課題和總體范圍。第二章 “背景和文獻綜述 ”解釋了對本研究至關重要的概念,如模擬、戰爭游戲、認知行為人工智能和強化學習(RL)的基礎知識,以及如何在研究中應用這些概念。第三章 “方法論 ”詳細介紹了研究中使用的代碼結構、代碼實現以及所進行的實驗。隨后,第四章 “情景和結果 ”將重點介紹這些實驗的結果并討論其性能。第五章 “結論與未來工作 ”回顧了第四章的討論,總結了研究的主要發現,并概述了該領域未來研究的潛在方向。
將人工智能(AI)融入軍事作戰決策過程(MCDMP)已引起眾多國家和國際組織的關注。本論文探討了軍事決策的復雜領域,其特點往往是高風險情況和時間限制,這可能導致認知偏差和啟發式錯誤。在需要做出關鍵決策的流程中添加新技術,需要人類操作員做出某些調整和采取某些方法。鑒于所做決定的人道主義影響,人工智能的整合必須謹慎進行,解決潛在的阻礙因素,以確保負責任地使用這些技術。其中一些因素圍繞著人類與人工智能的合作,特別是對技術的接受程度,這可能會影響技術的使用和發展,正如文獻所指出的那樣。我們的研究將采用多方面的定性方法,結合學術文獻綜述、對具有人工智能知識的軍事科學專家的訪談以及對軍事人員的訪談,全面了解專家和軍事人員對人工智能作為決策支持系統(DSS)的印象。
這項研究提高了人們對認知結構在促進人類與人工智能合作中的重要性的認識,并揭示了軍事作戰決策者目前對使用人工智能技術輔助決策的看法。我們的目標是為正在進行的有關將人工智能作為決策支持系統整合到軍事行動中的挑戰和機遇的討論做出貢獻。我們將提供有助于在高風險環境中更明智、更有效地采用人工智能技術的見解。通過技術接受模型(TAM)和技術框架理論,我們揭示了感知、假設、期望和信任這些影響人工智能作為決策支持系統接受程度的因素。因此,通過負責任地使用人工智能工具,可以提高軍事作戰決策的有效性。
關鍵詞:軍事作戰決策過程(MCDMP)、人工智能(AI)、人-AI 合作、假設、期望、信任、認知、新技術接受、AI 應用中的挑戰、AI 在軍事中、AI 在決策中的應用
隨后的一章建立了理論框架,全面概述了將人工智能納入 MCDMP 的現狀,并討論了人工智能和軍事決策過程等相關概念。它還介紹了重要的技術接受模型、技術框架和TAM,并討論了與模型相關的概念:感知、假設、期望和信任。第三章詳細介紹了研究方法,包括定性方法、選擇標準以及數據收集和分析方法。其中包括半結構式訪談、數據分析技術、有效性和可靠性的衡量標準,以及倫理方面的考慮。第四章對收集到的數據進行分析和討論。我們將揭示和討論來自文獻和訪談的研究結果,從人工智能在 MCDMP 中的整合現狀入手,將研究結果分為以下幾類:(1)感知有用性;(2)感知易用性;(3)期望和假設;(4)信任和可信度。此外,我們還將回答研究問題。最后,第五章將對研究進行反思,總結主要發現、研究貢獻以及對進一步研究和行業行動的建議。
圖 3:軍事戰斗決策過程中人工智能整合程度的簡化模型
這項具有前瞻性的研究探索了大語言模型(LLM)生成式人工智能(GAI)在國土安全項目計劃中的應用,調查了其在增強對復雜挑戰的適應性和響應能力方面的潛力。本研究通過文獻綜述、專題分析以及在一個虛構的訓練轄區內進行實際規劃和演習開發實驗,來評估 LLM 的有效性。根據標準和最佳實踐制定的分級評分標準對 LLM 的產出效果進行了分類。結果表明,盡管 LLM 提供了支持,特別是在演習設計方面,但其應用取決于提示開發、訓練數據和場景人力輸入的質量。該研究提倡謹慎采用策略,強調倫理考慮、持續評估和分解復雜任務以優化 LLM 輸出的重要性。建議包括利用人工智能執行數據密集型任務,定義人工智能協作以提高決策和創造力,并使用新開發的LLM人工智能審議實施框架來指導人工智能項目集成的政策復雜性。這項工作闡明了國土安全領域中人工智能與人類能力之間微妙的相互作用,為人工智能改造和增強計劃的潛力提供了一個視角,同時告誡人們不要過度依賴技術而犧牲人類的判斷力。
本研究探討了 LLM 在加強國土安全行動方面的潛力。評估了生成式人工智能工具為國土安全從業人員提供支持、優化國土安全領域工作流程的能力。通過細致的研究設計(包括文獻綜述、專題分析和實際實驗),本研究以國家戰備系統的六個組成部分為基礎,調查了將 LLM融入國土安全的情況。這些組成部分包括風險識別和評估、能力需求估計、建設和維持能力、計劃提供能力、以及驗證這些能力。LLM的先進能力提供了超越傳統作戰挑戰的機會,促進建立一個適應性更強、反應更迅速、復原能力更強的備災框架。
LLM有可能徹底改變國土安全,提高對復雜挑戰的適應性和響應能力。然而,要最大限度地發揮這些優勢,就必須克服人工智能(AI)集成在倫理、技術和財務方面的挑戰。本研究主張采取謹慎的采用策略,強調在不斷研究完善應用、提高透明度并確保在敏感環境中負責任地使用人工智能的同時,還需要制定模型訓練指南和倫理考慮因素。生成式語言模型(GLM)領域,尤其是 ChatGPT,技術發展迅速,不斷重新定義這些模型的能力和局限性。這種快速發展要求采用適應性強的研究方法,并對 GLM 在國土安全應用中的適用性進行持續評估。值得注意的是,從 GPT-3 到 GPT-4,通過改進語言理解能力和上下文意識,這些模型在復雜規劃和演習場景中的功能得到了顯著增強。
研究方法包括為 LLM創建有效提示,執行實驗以衡量其在模擬國土安全場景中的實用性,以及分析結果以收集可操作的見解。這一探索是在“中央城”(Central City)這一虛構的訓練轄區內進行的,它為實際評估提供了統一的操作環境。為應對這些挑戰,介紹了一個強大的驗證框架,強調了持續評估的必要性,以及整合專門特定場景數據集以增強 LLM 輸出的必要性。設計有效提示對于利用 GPT 模型的能力至關重要,它直接影響到所生成輸出的相關性、準確性和國土安全目的的可操作性。嫻熟的提示開發對于最大限度地發揮 GLM 的優勢,同時最大限度地降低相關風險和不準確性至關重要。因此,本研究使用了兩個用戶定制的 GPT,專門用于計劃制定和演習設計。研究強調了在國土安全背景下,定制提示在從 ChatGPT 等 LLM中提取準確、相關的回答方面所起的關鍵作用。研究指出,LLM 的有效性在很大程度上取決于提示的質量,這就強調了最初人工監督的必要性。
需要制定標準,將 LLM 生成的內容與公認的標準和最佳實踐進行比較,以衡量研究結果的準確性、可靠性和實用性。研究選擇了 Quarantelli的“判斷災難規劃的 10 個主要標準”和一套新穎的“判斷演習開發的 10 個主要標準”,這套標準源自國土安全演習和評估計劃。研究表明,GPT 模型為國土安全規劃和演習開發提供了寶貴的支持。在規劃場景中,GPT 在一致性和缺乏局部細節方面面臨重大挑戰,即使提供了所需的背景信息也是如此。GPT 模型在演習設計中表現較好。在演習設計中,更多的通用場景輸出是有價值的,而不是被嚴格審查的。如果引導得當,GPT 在創建“事件場景總清單”(MESL)方面表現出色,展示了其固有的創造力。建議采用的方法是將 GPT 的創新與國土安全專業人員的專業知識相結合,形成合力,改進規劃流程,為應急場景制定切實可行的戰略。由于 GPT 無法進行分級規劃,研究建議將復雜的任務分解成較小的、相互關聯的組成部分,由定制的 GPT 模型來解決,從而克服障礙。這種模塊化方法完善了人工智能在國土安全功能方面的特殊性,提高了其產出的質量和相關性。
在正在進行的國土安全計劃中采用GLM功能,有可能不斷提高國土安全能力。通過對訓練演習、真實場景和績效評估的持續數據投喂,LLM可確定優勢和需要改進的領域,確保對新信息和不斷變化的情況的適應性和響應能力。采用 LLM 能力標志著國土安全計劃管理將從目前的年度迭代流程轉向更高效、實時、數據驅動的國土安全計劃管理。從加強風險評估到優化能力開發,LLM 都有望成為通過即時趨勢分析應對威脅的變革性方法。然而,人工智能幻覺和產生偏見或有害內容等固有風險必須謹慎管理。要降低這些風險,就必須完善訓練數據,建立健全的驗證流程,并在國土安全領域開發和部署這些技術時考慮倫理因素。要在國土安全領域有效使用生成式語言模型,平衡通用性和特殊性至關重要。實現這種平衡可確保模型在有效應用其廣泛知識的同時,還能提供準確的、針對具體情況的響應,這對滿足國土安全項目的細微要求至關重要。將生成語言模型納入國土安全領域既是機遇也是挑戰。這些模型有望為該領域帶來革命性的操作效率,但同時也帶來了有關不準確性、倫理考量和不斷變化的技術能力等問題。
本研究設想了這樣一個未來:人工智能驅動的流程與人類的專業知識協同合作,共同應對多方面的威脅和挑戰。研究提出了兩種將人工智能整合到國土安全領域的戰術模式:在數據密集型任務中利用人工智能,同時將復雜的分析和戰略功能留給人類專家;或者采用無縫的人類-人工智能合作模式,以增強決策和創造力。這兩種戰術策略并不相互排斥,旨在將人工智能的計算優勢與人類寶貴的洞察力和適應性相結合。缺乏新穎的預見性和前瞻性是國土安全領域完全實現人工智能自動化的致命傷。神經網絡是現代人工智能(包括生成語言模型)的關鍵,當遇到超出其訓練范圍的數據或情況時,神經網絡就會受到限制,影響其在國土安全等不可預測領域的功效。許多國土安全威脅的快速出現凸顯了人工智能系統在沒有人工干預的情況下有效運行的不足,因為它們依賴于預先存在的數據進行決策。從數據模式中得出的輸出結果,而不是對基本原理或邏輯的理解,不足以進行獨立決策。
最后,這項工作為 LLM 人工智能提供了一個慎重的實施框架,以駕馭人工智能集成的復雜性。這一工具有助于評估人工智能應用的適宜性,同時考慮到使用范圍和根本性的變革水平。該框架嚴格評估風險和機遇,確保人工智能在戰略上符合倫理標準和業務目標。它倡導一種平衡的方法,利用人工智能提高具體效率和創新,同時保持人類專業知識在決策過程中的關鍵作用。這項工作闡明了國土安全領域中人工智能與人類能力之間微妙的相互作用。從平衡的角度闡述了人工智能改造和加強項目的潛力,同時告誡人們不要過度依賴技術而犧牲人的判斷力。這項工作為將人工智能有效融入國土安全戰略提供了路線圖,確保技術成為人類專業知識的補充而非替代。
本研究探討了無人駕駛飛行器(UAV)與有人駕駛飛機合作進行集中任務規劃的發展情況。我們采用經過近端策略優化(PPO)訓練的單一智能體來模擬敵方防空壓制(SEAD)場景。我們的目標是掌握最佳任務策略。我們的模型在各種環境條件下進行了測試,在 100 次測試中,消除敵方防御的成功率達到 78%。我們的模型所取得的巨大成功強調了它在未來戰爭場景中的應用潛力,代表了空戰和強化學習應用領域的重大進展。
集中式任務規劃架構是指一種先進的技術架構,能夠在復雜多變的作戰場景中高效協調和管理無人機。該架構從各種信息來源收集數據,實時評估局勢,并規劃和執行最佳戰略,以最大限度地提高整個任務的成功潛力。
該架構的主要組成部分如下:
戰斗信息管理: 該組件持續監控當前的戰斗態勢并跟蹤信息,以提供實時戰場情報。信息來源多種多樣,包括各種傳感器、傳感器網絡和人工觀察,從而能夠深入了解動態復雜的作戰環境。這相當于強化學習中收集環境信息的過程,為有效的學習過程提供了第一步。
戰斗狀態(觀察): 在這一階段,戰場信息被提供給智能體。在戰場上收集到的各種信息會被實時處理,并傳遞給強化學習智能體。這樣,智能體就能通過綜合戰場態勢感知了解當前形勢,預測未來的可能性,并決定下一步行動。
3)任務規劃器(智能體): 作為中心的核心要素,這個基于強化學習的智能體根據傳入的實時作戰態勢數據做出最優行動。這一決策過程由一個預訓練的強化學習模型執行,該模型學習如何在復雜環境中實現任務目標。
因此,集中任務規劃架構實現了從各種信息源收集和處理數據、規劃和調整無人機行動以適應實時戰場條件的戰略。這就實現了實時戰略決策和快速反應,提高了整體作戰效率和生存能力。
我們為 MUM-T 問題開發了一個量身定制的強化學習環境。在這個環境中,我們部署了一架戰斗機無人機、一個干擾器和一個防空導彈系統,每個系統都有預定義的攻擊范圍和干擾距離。任務的主要目標是協同參與干擾行動,使目標防空導彈系統失效,隨后通過操縱戰斗機無人機將其消滅。任務的成功完成取決于是否到達指定的目標點。
在無人機任務規劃的背景下,我們為 MUM-T 構建了一個定制的強化學習環境。在 MUM-T 環境中,我們部署了一架戰斗機無人機、一個干擾器和防空導彈系統,每個系統都有明確的攻擊范圍和干擾距離。任務的最終目標是與干擾機進行合作干擾,使防空導彈無法攻擊,隨后通過操縱戰斗機無人機摧毀防空導彈。當無人機到達最終目的地(稱為 "目標點")時,即成功完成任務。
為了開發環境,我們使用了 Gym 庫,這是一個用于強化學習環境的開源框架。無人飛行器可以移動的空間用二維網格表示。由于無人機的航向和速度等低層次控制方面的問題假定由 AFRL ACL 5 級自主處理,因此集中式任務規劃框架側重于負責規劃任務相關值(即航點和任務點)的高層次控制,這些值基于多架無人機的信息和戰場狀態。為促進學習過程,我們將任務空間離散化為 30x30 的網格,共由 900 個單元組成。
每個無人機的行動空間被定義為離散的多行動空間,使每個智能體能夠獨立選擇行動。戰斗機無人機和干擾機有五種可能的行動:向左、向右、向上、向下和攻擊。行動空間的離散化簡化了學習和控制[圖 5、6]。
在每個時間步長內,智能體根據其選擇的行動在網格環境中移動。我們施加了邊界條件(懲罰),以防止無人機在網格邊界外移動。此外,我們還通過檢測碰撞并分配相應的懲罰來處理戰斗機和干擾機之間的潛在碰撞。為了解決無人飛行器之間的協作問題,我們為智能體之間的特定功能和互動建立了模型。當干擾機進行干擾時,如果薩母不在攻擊范圍內,則會產生懲罰。但是,如果防空導彈在攻擊范圍內,干擾成功則會獲得獎勵,使防空導彈無法使用。戰斗機總共有五次攻擊機會,攻擊失敗(當防空導彈不在攻擊范圍內時)會導致失去一次攻擊機會并受到懲罰。另一方面,如果防空導彈在規定的攻擊范圍內,防空導彈就會失效,并獲得獎勵。重要的是,如果戰斗機沒有進行干擾,則無法攻擊,因為戰斗機的攻擊范圍小于干擾距離。
為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。
為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。
標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。
為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。
為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。
一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。
視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。
動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。
除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。
美國空軍越來越關注人工智能(AI)在增強作戰各方面能力方面的潛力。在這個項目中,空軍要求蘭德公司的研究人員考慮人工智能無法做到的事情,以了解人工智能在作戰應用中的局限性。
研究人員沒有試圖確定人工智能的一般限制,而是選擇并調查了四個具體的作戰應用作為潛在用例:網絡安全、預測性維護、兵棋推演和任務規劃。選擇這些應用是為了代表各種可能的用途,同時突出不同的限制因素。在可以獲得足夠數據的三個案例中進行了人工智能實驗;剩下的兵棋推演案例則廣泛探討了如何應用或不能應用人工智能。
本報告是五卷系列中的第一卷,總結了所有應用案例的研究結果和建議。報告面向政策制定者、采購專業人員以及對將人工智能應用于作戰普遍感興趣的人員。
美國空軍部對人工智能(AI)徹底改變作戰各個方面的潛力越來越感興趣。在這個項目中,美國空軍要求蘭德公司的 "空軍項目"(Project AIR FORCE)廣泛考慮人工智能無法做到的事情,以了解人工智能在作戰應用中的局限性。本報告討論了人工智能系統在執行兩種常見網絡安全任務(檢測網絡入侵和識別惡意軟件)中的應用,以及分布轉移對這些任務的影響,這種現象會極大地限制人工智能的有效性。當人工智能系統在部署后遇到的數據與經過訓練和測試的數據有明顯差異時,就會發生分布偏移。
本報告闡述了分布偏移的重要性,它如何并確實顯著限制了人工智能在檢測網絡入侵和識別惡意軟件方面的有效性,如何測試和量化其影響,以及如何減輕這些影響。這項工作主要針對大型組織,如總部設施,它們有足夠的帶寬和計算能力來實施人工智能網絡安全系統并定期更新系統。
本報告是五卷系列報告中的第二卷,論述了如何利用人工智能在網絡安全、預測性維護、兵棋推演和任務規劃四個不同領域為作戰人員提供幫助。本卷面向技術讀者;整個系列面向對作戰和人工智能應用感興趣的讀者。
本報告研究了如何利用人工智能(AI)解決方案,結合傳感器數據和更高級的企業級機器學習(ML)算法,改進戰術決策,提供先進的目標定位解決方案,并為艱苦環境中的步行作戰人員推薦行動方案(COA)。該團隊采用系統工程分析方法,為戰術邊緣的人工智能輔助決策系統提出要求并進行概念設計。團隊將這一未來能力命名為 "地面感知作戰決策(GAWD)系統"。設想中的 GAWD 能力將提供一個功能強大的人工智能/ML 骨干架構,用于在邊緣傳輸戰術相關數據,供士兵實時處理和分析,以確定目標和選擇路線。此外,該能力還能監測士兵的健康狀況,并將信息提供給指揮部。未來的 GAWD 系統概念將利用人工智能、ML、增強現實 (AR)、虛擬現實 (VR) 和機身處理來分析數據,從而在終端用戶設備 (EUD) 或平視顯示器 (HUD) 上觸發實時通知和建議行動方案 (COA),以幫助下裝作戰人員及時做出作戰決策。研究小組進行了場景分析,探討了在三種不同的地面部署士兵場景中使用 GAWD 系統的問題。研究小組研究了在軍事行動中引入 GAWD 系統的道德影響。
圖 14. 用于瞄準的地面感知作戰決策邊緣計算系統架構圖。
雖然具有未來性,但將人工智能(AI)和機器學習(ML)作為下馬兵棋推演的輔助工具,是美國在戰場內外保持優勢的下一步。美國國防部(DOD)和聯合軍種正在探索將人工智能/機器學習用于各種應用,以支持作戰人員執行任務。本畢業設計項目研究了如何使用人工智能/ML 來實現未來的兵棋推演決策輔助功能,以支持下裝士兵執行任務。頂點團隊(Linchpin 小組)采用系統分析方法,研究人工智能和機器學習的當前和預期能力,了解下裝士兵的需求和任務,并利用人工智能和機器學習開發決策輔助系統的概念設計。
頂點團隊設想實施一種前沿、全面的人工智能/ML 機器兵棋推演決策輔助系統,稱為地面感知作戰決策(GAWD)系統。該系統是一個數據套件,搭配最先進的軟件(SW),可確保步兵單元在艱苦環境中的戰術決策能力,有助于挽救生命。利用人工智能、機器學習和先進的數據分析技術,這一創新工具可以提供一個適應性強、可擴展的系統,可以滿足各種單元規模的需求,并能與現有的軍事技術和網絡無縫集成。
這種實時和不斷發展的系統有可能使下馬士兵能夠清晰、全面地了解作戰環境,包括對手陣地的位置、地形特征以及使用各種傳感器和數據集提供戰場最新信息的友軍。此外,這種兵棋推演輔助工具將通過利用機器學習和歷史數據,為士兵及其指揮部提供態勢感知(SA)。這些信息將能夠快速分析各種場景,預測敵人的潛在動向,并根據當前形勢和單元目標提出最佳行動方案(COA),從而做出關鍵的戰術決策。
Linchpin 集團為下馬士兵設計的概念性人工智能/機器學習 GAWD 系統代表了步兵戰的突破性進展。通過利用人工智能/機器學習的力量,這一尖端工具將為下馬士兵提供無與倫比的戰略部署、決策支持和協調能力。根據設想,這一工具還將作為一個訓練平臺,使士兵能夠參與虛擬兵棋推演和模擬場景。該系統可記錄個人和單元在訓練演習和真實場景中的表現,從而為行動后評估(AAR)和持續改進單兵和整個陸軍提供有價值的見解。
該小組進行了一項情景分析,以探討士兵在地面任務中如何使用 GAWD 系統。團隊確定了三種相關場景,這些場景將通過添加人工智能支持的 GAWD 系統得到增強。這三種情況是 (1) 目標交戰,(2) 路線選擇,以及 (3) 士兵健康和狀態監控。研究小組探討了每種場景,然后比較了三種場景下未來 GAWD 能力所需的功能。
人工智能/機器學習作為一種力量倍增器,有可能顯著提高下裝單元的戰斗力和生存能力,確保現代戰場上的軍事優勢。它的部署將徹底改變下裝作戰,并為軍隊的卓越戰術設定新的標準。
最近,機器學習和人工智能的快速發展為改進美國防部(DOD)兵棋推演創造了越來越多的機會。本研究旨在利用現代框架、算法和云硬件來提高美國防部的兵棋推演能力,具體重點是縮短訓練時間、提高部署靈活性,并展示經過訓練的神經網絡如何為推薦行動提供一定程度的確定性。這項工作利用開源并行化框架來訓練神經網絡并將其部署到 Azure 云平臺。為了衡量訓練有素的網絡選擇行動的確定性,采用了貝葉斯變異推理技術。應用開源框架后,訓練時間縮短了十倍以上,而性能卻沒有任何下降。此外,將訓練好的模型部署到 Azure 云平臺可有效緩解基礎設施的限制,貝葉斯方法也成功提供了訓練模型確定性的衡量標準。美國防部可以利用機器學習和云計算方面的這些進步,大大加強未來的兵棋推演工作。
圖 4.1. 未來兵棋推演開發者與用戶在云和本地實例中的關系
人工智能(AI)在過去幾十年中取得了顯著進步。最近在深度學習和強化學習(RL)方面取得的進步使人工智能模型在各種視頻游戲中的表現超過了人類。隨著美國國防部(DOD)繼續投資開發用于兵棋推演和戰爭規劃應用的人工智能模型,許多方面都有了改進。
本研究調查了現代機器學習(ML)技術的應用,以提高兵棋推演的功效。這項研究表明,即使在沒有圖形處理器(GPU)的情況下,并行化也能大幅縮短 RL 問題的訓練時間,而且對平均得分的影響微乎其微。這一發現強調了并行處理框架對未來 RL 訓練工作的重要性。本研究利用 Ray 框架來協調 RL 訓練的并行化,并評估了兩種算法:近端策略優化(PPO)和重要性加權行為者學習者架構(IMPALA),包括使用和不使用 GPU 加速的情況。這項研究成功地表明,在保持總體平均性能的同時,訓練時間可以減少一到兩個數量級。
本研究的第二部分探討了將本地訓練的模型與本地環境解耦的實用方法,展示了將這些模型部署到云環境的可行性。采用的模型是利用開源框架開發的,并部署在微軟 Azure 云平臺上。這項研究成功地將訓練有素的 RL 模型部署到云環境中,并集成到本地訓練和評估中。
最后,本論文證明了貝葉斯技術可以集成到 RL 模型中,從而有可能提高人機協作的價值。這是通過將貝葉斯方法納入模型架構,并在運行時利用這些實施層的獨特屬性來實現的。這項研究取得了成功,并展示了如何將人工智能移動選擇的確定性措施合成并呈現給人類。
總之,這項研究強調了并行化的重要性,為基于云環境的訓練模型提供了概念驗證,并證明了將貝葉斯方法納入人工智能模型以改善人機協作的可行性,從而為推進 ML 和兵棋推演技術做出了貢獻。
本文介紹了在卡勒獎學金第一年內進行的研究,研究如何自主控制檢查平臺向故障平臺行駛以完成檢查相關任務。這項研究的目的是開發一個有限時間的相對位置控制框架,使檢查衛星能夠安全地接近發生故障的平臺,因為平臺的通信能力受到阻礙,導致其在接近過程中根本無法通信。故障平臺導致獨特的挑戰,即平臺的狀態被認為是先驗未知的,檢查器可能無法從故障平臺提供的準確和連續的信息中受益;故障平臺也可能受到機動和干擾。
在該獎學金的第一期內,使用 MATLAB 和 Simulink 開發了仿真軟件,以演示檢查平臺與故障平臺執行會合操作。首先引入基于視線的相對運動模型,直接使用導航信息,然后以自適應非奇異終端滑模控制器的形式開發魯棒控制框架,以確保閉環系統穩定并保證有限時間收斂到所需的狀態。然后在最終討論未來的工作和目標之前展示和討論模擬結果。