軍事模擬既是培訓工具,也是分析手段。在訓練方面,模擬為領導者提供了一個機會,讓他們做出名義上的重大決策,并演練這些決策的后果。另外,分析性模擬還提供了一種測試能力、部隊設計和理論的反復且相對廉價的方法。鑒于所需的專業知識和數據,通過腳本或模仿學習的方式為大規模作戰模擬實施人工智能(AI)似乎令人生畏;然而,最近業界在強化學習方面取得的成功,開發出了能玩商業電子游戲的人工智能,這提供了一條令人興奮的前進道路。多模型方法與強化學習相結合,在行動空間和可擴展性方面相對簡單,因此在軍事模擬中具有巨大潛力。多模型方法不使用結構復雜的組合式行動空間進行強化學習,而是使用下級人工智能模型作為智能體的行動空間,有效地委托下級行動決策。本研究提供了強化學習(RL)多模型和分級多模型的概念驗證,分級多模型是一種利用軍事單位固有分級結構的多模型類型。此外,本文還展示了時間抽象和方向變換器的應用如何提高分層多模型的性能。
無人駕駛技術的采用促進了對機器人蜂群系統的多學科研究,尤其是在軍事領域。受生物群解決問題能力的啟發,這些系統具有從局部互動中產生全局行為的優勢,從而減少了對集中控制的依賴。在機器人蜂群中創造突發行為的傳統方法要求蜂群具有可預測和可控制的特性,同時具有明確的局部規則和對所有智能體的全面了解。在反蜂群交戰中,蜂群系統需要一種全局策略,這種策略應具有魯棒性并能適應動態環境,同時盡量減少對完整知識的依賴。本研究探討的是一個反向問題:設計局部規則,以近似于通常基于每個無人機的完整知識和通信的突發行為。目標是創建分散區域,在這些區域中,防御方無人機利用在模擬數據基礎上廣泛訓練的神經網絡模型。從涉及三個攻擊方和一個防御方的交戰中提取的數據被組織成代表不同特征的各種輸入集。訓練后的回歸分析確定了與甲骨文算法相比能生成最佳防御方航向角的特征集。結果表明,神經網絡模型比oracle更有效地優化了更短的交戰時間,驗證了使用經過訓練的網絡代替傳統算法的可行性。
在當今快速發展的軍事領域,推進人工智能(AI)以支持兵棋推演變得至關重要。盡管強化學習(RL)在開發智能體方面大有可為,但傳統的 RL 在處理作戰模擬固有的復雜性方面仍面臨局限。本文提出了一種綜合方法,包括有針對性的觀測抽象、多模型集成、混合人工智能框架和總體分層強化學習(HRL)框架。使用片斷線性空間衰減的局部觀測抽象簡化了強化學習問題,提高了計算效率,并顯示出優于傳統全局觀測方法的功效。多模型框架結合了各種人工智能方法,在優化性能的同時,還能使用多樣化、專業化的個體行為模型。混合人工智能框架將 RL 與腳本智能體協同作用,利用 RL 進行高級決策,利用腳本智能體執行低級任務,從而提高了適應性、可靠性和性能。HRL 架構和訓練框架將復雜問題分解為易于管理的子問題,與軍事決策結構保持一致。雖然最初的測試并未顯示出性能的提高,但獲得了改進未來迭代的見解。這項研究強調了人工智能在兵棋推演中的革命性潛力,并強調了在這一領域繼續開展研究的必要性。
正如 CeTAS 報告所詳述的那樣,利用人工智能支持兵棋推演的方法有很多。不過,本文將重點關注人工智能在創建智能體方面的應用,這些智能體能夠在現代作戰建模與仿真 M&S 中典型的龐大而復雜的狀態空間中做出理性決策。
然而,創建一個能夠在游戲中獲勝或超越人類表現的人工智能,僅僅是表明人工智能能夠為兵棋推演者、作戰規劃者和軍事領導人提供有意義的見解的開始。盡管如此,這些智能體是開發現代決策輔助和支持工具的基礎,與傳統工具相比,它們能為決策者提供更高的準確性、速度和敏捷性。當在多領域行動中與裝備了人工智能的對手作戰時,忽視這一步會帶來巨大風險。
人機協作的概念,在文獻中也被稱為人機協同,最初是由利克利德在 1960 年提出的,但是前國際象棋世界冠軍加里-卡斯帕羅夫(Garry Kasparov)在 1997 年被 IBM 的 “深藍 ”擊敗后,提出了 “半人馬國際象棋”(Centaur Chess)的概念--即人類在對弈過程中與計算機協作。盡管輸給了人工智能,但卡斯帕羅夫倡導的理念是,不要將人工智能視為一種威脅,而應將其視為一種工具,在與人類能力相結合的情況下,可以取得非凡的成就。
在他的著作《深度思考》(Deep Thinking: 機器智能的終點和人類創造力的起點》[48]一書中,卡斯帕羅夫強調了利用人類和機器不同優勢的重要性。他指出,計算機擅長暴力計算,每秒能分析數百萬個局面,并計算出最佳的短期戰術棋步,而人類則主要通過直覺,帶來更深層次的戰略理解、創造力和辨別棋步長期后果的能力[48]。卡斯帕羅夫認為,人類直覺與機器計算的結合往往會產生比頂尖特級大師或計算機單獨發揮更強的棋藝。他觀察到,在許多情況下,即使是計算機輔助下的低級棋手也能超越頂級特級大師。
卡斯帕羅夫還討論了人類在這種 “半人馬 ”伙伴關系中的角色是如何隨著國際象棋人工智能的改進而演變的。最初,人類專注于戰略,而計算機負責戰術。然而,隨著國際象棋人工智能的進步,人類越來越多地承擔起 “質量控制 ”的角色,確保計算機建議的棋步符合更廣泛的戰略目標。他推測,國際象棋的未來可能并不取決于人類與機器的對決,而是取決于使用何種界面的人機團隊能發揮出最佳水平。這種合作將機器的計算能力與人類提供上下文、理解和直覺的能力結合在一起,使雙方的水平都超過了各自的能力。
最后,開發智能體是充分利用人工智能進行兵棋推演的基礎,無論是作為對手部隊、智能隊友、戰術顧問、COA 生成器、COA 分析器、COA 利用器、未來部隊設計、戰斗裁決、場景規劃,還是僅僅為了深入了解潛在結果。雖然腳本化智能體迄今為止已被證明是有用的,并將繼續有用,但現代戰爭的復雜性和不可預測性需要新水平的適應性和學習能力,而這只有 ML 才能提供。通過將超級智能體融入戰斗模擬,相信兵棋推演最終可以從靜態和可預測發展到動態和有洞察力,從而反映真實世界行動的不確定性。
本章介紹了開發智能體的基本背景概念,如搜索方法、博弈論、腳本代理、強化學習和分層強化學習。這些核心要素對于全面理解后續章節的研究至關重要。
在本章中,重點是介紹和驗證一種新穎的方法,通過采用片斷線性空間衰減的局部觀測抽象,克服 RL 智能體在較大場景中面臨的狀態空間挑戰。本章的核心內容已被第 16 屆國際 MODSIM 世界大會接受發表。所介紹的方法通過將智能體的觀測結果抽象為更緊湊、更易于計算管理的形式,簡化了智能體的感知狀態空間,同時保留了關鍵的空間信息。該研究通過一系列實驗證明,在不同的場景復雜度下,具有片斷線性空間衰減的局部觀測抽象始終優于傳統的全局觀測方法。這表明,這些類型的觀測簡化可以為在復雜環境中擴展 RL 提供計算成本更低的卓越解決方案,而這一直是該領域的重大挑戰。這些發現有助于推進 RL 觀察抽象的研究,并說明此類技術有潛力促進 RL 在復雜真實世界環境中的更廣泛應用,特別是在軍事模擬和兵棋推演領域。
本章介紹并驗證了多模型框架,該框架利用腳本模型和強化學習(RL)模型的組合,根據游戲的當前狀態動態采用最佳模型來提高性能。本章的核心內容已接受在 2024 年 SPIE 國防與商業傳感會議上發表。
這種多模型框架顯著提高了性能,最全面的多模型(即包含最多單個行為模型的多模型)優于所有單個模型和較簡單的復合模型。這表明,即使是表現較差的單個模型也能在特定情況下做出積極貢獻,突出了模型庫中多樣性和專業化的價值。研究結果強調了多模型系統在增強軍事模擬等典型的復雜、動態環境中的決策能力方面的潛力,提倡戰略性地融合人工智能模型和技術,以克服訓練單一通用模型所固有的挑戰。
本章介紹并驗證了一種混合分層人工智能框架,該框架將 RL 代理與腳本代理整合在一起,以優化大型作戰模擬場景中的決策。傳統的腳本代理雖然具有可預測性和一致性,但由于其僵化性,在動態場景中往往會失敗。與此相反,RL 智能體雖然在大型模擬環境和不透明的決策制定過程中舉步維艱,但卻能提供適應性和從互動中學習的能力。
開發了一種新穎的方法,在這種方法中,分層結構采用腳本智能體進行常規、戰術級決策,采用 RL 智能體進行戰略、更高級決策。腳本模型的一致性和 RL 模型的適應性之間的協同作用大大提高了性能,在利用這兩種方法的優勢的同時似乎也減輕了它們的弱點。這種整合產生了一個更有效的人工智能系統,它可以應對軍事模擬中更廣泛的戰略和戰術挑戰。
本章是論文工作的頂點部分,概述了設計、開發以及將整個論文中討論的方法整合到新型 HRL 架構和訓練框架中的過程。通過將不同層次的觀測抽象和多模型方法整合到所提出的框架中,探索了這一 HRL 方法在復雜決策環境建模中的潛在優勢和局限性。通過評估這些技術對學習過程和決策效率的影響,與傳統的腳本和RL方法相比,旨在進一步了解構建和訓練HRL系統的動態和挑戰。
最后一章介紹了論文的核心研究成果。討論了研究的理論和實踐意義,強調了研究的優勢和局限性,概述了對人工智能和作戰 M&S 領域的貢獻,并回答了本章提出的研究問題。此外,還利用整個 HRL 實驗的結果來激勵和明確未來的工作。
圖 6.12. MOBA 智能體分層架構。分層架構由宏觀戰略和微觀操作組成。
決策輔助系統是國防指揮與控制裝置的基礎,為各級決策過程提供信息。圍繞人工智能(AI)在決策輔助系統中的應用開展的現有研究認為,人工智能是此類系統性能和應用的關鍵驅動因素。然而,很少有研究探討時間因素和中間決策的存在對決策者對此類系統信任度的影響,或者當決策由另一個人輔助時,與由人工智能輔助時的影響有何不同。現有文獻認為,對人工智能的信任不同于其他信任對象。本論文通過探究信任的產生是否更多地取決于信任的對象或來源來探索這一假設。之前的一項實驗研究了當決策支持僅由人工智能系統提供時,時間和中間判斷對信任的影響。本論文對該實驗進行了擴展,同時操縱了決策輔助的來源,即人類,而不僅僅是人工智能。通過加入人與人之間信任的基礎案例,本研究可以就中間判斷和時間對決策輔助系統信任的相對影響進行比較分析。
決策輔助系統是美國防部(DOD)指揮與控制機構的基礎,為各級決策過程提供信息。團隊是美國軍隊組織和完成任務的主要要素。美國防部打算通過將人工智能嵌入戰術、組織和戰略層面的組織結構(團隊),更快地做出更好的決策,從而獲得優勢(國防部,2022、2023a、2023b)。圍繞人工智能(AI)在決策支持系統中應用的現有研究表明,信任是此類系統性能和采用的關鍵驅動因素。
問題在于,人們尚未充分認識到若干設計參數對信任和性能的影響,這可能會延遲或抵消人工智能決策支持系統的優勢(Ashoori & Weisz, 2019; Tangredi & Galdorisi, 2021)。由于這些系統將用于做出關鍵決策,或在動態、混亂的環境中為人類提供支持,因此這些系統必須值得信賴且性能良好(Babo?,2021;人工智能特設委員會,2023)。本研究的目的是,與人工智能(AI)相比,當人類的決策過程得到人類分析師的支持時,研究自變量(中間判斷和時機)對因變量(信任)的影響。這項研究旨在促進人機系統的整合,實現有效的機器/人工智能設計并更快地應用于軍事領域,加強這些機器的穩健性和復原力,并為設計有效的人機系統提供支持理論。
之前的一項調查試圖了解在僅與人工智能輔助決策系統互動時,信任是如何隨著時間的推移而演變的(Humr 等人,2023 年)。本調查比較了當決策支持來源是人類分析師和人工智能分析師時,信任度是如何演變的。通過操縱決策支持的來源,本調查旨在比較人類和人工智能群體的信任度和表現,并分析人類和人工智能群體本身的自變量的影響。
現有文獻的基本假設是,人類決策者對人工智能決策支持系統產生信任的過程不同于決策者對提供相同決策支持的另一個人類產生信任的過程。這一假設在人工智能研究中基本上沒有受到質疑。雖然人工智能系統中信任和性能的關鍵驅動因素須要并將繼續得到確定,但值得確定的是,它們與現有的以人類之間的信任為基本情況的信任模型相比有何不同。這種調查可能會挑戰現有的假設,即人類建立信任的過程因信任對象的不同而不同。按理說,無論是人類還是人工智能,信任決定都是由人類主體做出的,可能會也可能不會受到人類所信任的對象的影響。
現有文獻表明,人類建立信任的過程更多地取決于信任的對象(被信任的人或事物),而不是信任的來源(決定信任的人類)。鑒于人工智能系統的新穎性和細微差別,以及它們與人類的生物和社會稟賦的截然不同,當決策支持、信任對象是人工智能系統而非人類時,決策背景下的信任模型會有所不同這一假設通過了表面有效性的檢驗。然而,本次調查對現有文獻中這一近乎教條的假設提出了質疑,直接探討了人類對人工智能的信任是否與人類對其他人的信任有本質區別。畢竟,人類的信任過程已經發展了數千年,而機器和人工智能的存在不過是進化過程中的一眨眼。
這項研究試圖擴展之前的一項實驗(Humr 等人,2023 年),在這項實驗中,人工智能分析師為人類決策者提供意見。在該研究中,操縱的自變量是中間判斷形式的選擇和分配的時間。因變量是信任評價,其形式是詢問受試者在與決策支持體互動后,未來將某項任務委托給人工智能的可能性有多大。這項研究重復了之前的實驗,但用人類分析師代替了人工智能分析師。其他一切保持不變,以便在人類支持組和人工智能支持組之間進行比較。
這項研究發現,在由人類與人工智能系統支持決策的受試者之間,信任評價在統計學上沒有顯著差異。這些發現與人工智能信任研究領域的傳統假設相沖突,即人工智能信任是一種與一般信任根本不同的現象,因此需要獨立表達。
雖然這些發現并不能概括所有類型的信任、人工智能的使用案例或人類可能與之互動的人工智能類型,但它確實表明,與試圖重新發現人工智能或人工智能系統中可能使其值得信任的方面相比,更努力地識別人類之間信任的關鍵驅動因素對于設計可信任的人工智能可能更有價值。本研究建議未來的實驗探索信任的另一個關鍵驅動因素,即決策支持(人工智能或人類)的性能,并將其對信任的影響與本實驗中使用的自變量進行比較。此外,本研究還建議調查選擇和時機這兩個自變量如何影響決策者的整體決策表現。畢竟,信任是影響績效的一個中介變量,因此,通過直接觀察這些自變量對績效的影響,決策支持系統的設計者就能建立盡可能好的系統。
全資源情報分析員的主要工作是根據不確定和不完整的信息,對相關目標及時作出來源可靠的評估。每項評估都包括評估屬實的可能性,以及根據所用信息來源的不確定性確定的置信度。盡管定性情報評估有公認的局限性,而且也有擬議的定量方法,但所有來源情報的定量分析并未廣泛實施。這是由于在基于文本的情報報告(即人類情報、開源情報、信號情報)中定量表示不確定性所面臨的挑戰,這限制了以前建議的方法的有效性和可用性。這項研究通過調整多目標決策分析中使用的定量決策模型,創建了一個新的框架,用于定量評估基于文本的情報來源的不確定性。這種新穎的模型可讓分析人員輕松識別并以數學方式說明造成情報源不確定性的根本原因,對這些原因的重要性進行加權,并輸出一個介于 0 和 1 之間的單一數值,代表情報源的總體不確定性。然后,分析人員可將這一數值輸出作為先前提出的定量情報分析方法的輸入。最終,這一量化情報源不確定性的框架有助于使用先前提出的方法,并創建更多可追溯和可辯護的情報評估。
圖2。基于文本的情報源不確定性變量分解
復雜領域的團隊訓練往往需要大量資源,如車輛、機器和角色扮演者。因此,要在真實世界中實現高效和有效的訓練場景可能比較困難。相反,部分訓練可以在計算機生成的合成環境中進行。在這些環境中,受訓人員可以操作模擬器來代替真實車輛,而合成演員則可以代替人類角色扮演者,從而以較低的操作成本提高模擬場景的復雜性。然而,為合成演員構建行為模型極具挑戰性,尤其是對于通常不具備人工智能專業知識的終端用戶而言。在本論文中,我們研究了如何利用機器學習來簡化基于仿真訓練的智能體的構建。本論文以一個模擬空戰訓練系統為例進行研究。
論文的貢獻分為兩個部分。第一部分旨在提高對基于模擬訓練領域的強化學習的理解。首先,進行了一項用戶研究,以確定旨在支持戰斗機飛行員訓練的學習智能體的重要能力和特征。研究發現,在基于模擬的訓練中,學習智能體最重要的能力之一是其行為可以適應訓練的不同階段,以及人類受訓者個人的訓練需求。其次,在簡化的訓練場景中研究了學習如何與其他智能體協調的方法,以探究智能體的觀察空間、行動空間和獎勵信號的設計如何影響學習的表現。研究發現,時間抽象和分層強化學習可以提高學習效率,同時還能為條令行為建模提供支持。在更復雜的環境中,即使使用稀疏、抽象的獎勵信號,課程學習和相關方法也有望幫助找到新戰術。第三,根據用戶研究和實際實驗的結果,提出了用戶自適應訓練系統的系統概念,以支持進一步的研究。
貢獻的第二部分側重于基于效用的多目標強化學習方法,這種方法在尋找平衡多個相互沖突的目標的策略時納入了用戶效用函數的知識。本文提出了兩個用于多目標強化學習的新智能體:可調智能體(T-Actor)和多目標夢想家(MO-Dreamer)。T-Actor 通過學習一組帕累托最優策略為教師提供決策支持,這些策略由一個以目標偏好為條件的神經網絡表示。這樣就能調整智能體的行為,以適應學員當前的訓練需求。在網格世界和目標系統中進行的實驗評估表明,T-Actor 減少了學習所需的訓練步驟數量。MO-Dreamer 可根據用戶效用的變化(如訓練需求的變化)進行在線調整。它通過學習環境模型來做到這一點,并可利用該環境模型與一系列不同的效用函數進行預測性推出,以探索應遵循哪種策略來優化給定目標偏好的回報。實驗評估表明,對于效用的頻繁變化和稀疏變化,MO-Dreamer 在經驗遺憾方面優于先前的無模型方法。
總之,本論文所進行的研究有助于提高人們對如何將機器學習方法應用于構建模擬訓練環境的認識。雖然我們的研究重點是空戰訓練,但研究結果的通用性足以適用于其他領域。
圖 1.1: LVC 分布式模擬集成了實時飛機、虛擬飛行模擬器和由人工智能控制的合成模擬。
復雜領域的團隊訓練通常需要大量資源,如車輛、角色扮演者和教員。因此,要在真實環境中實現高效和有效的訓練場景可能比較困難。相反,部分訓練可以在計算機生成的合成環境中進行。在這些環境中,受訓者可以操作模擬器來代替真實車輛,而合成演員則可以代替人類角色扮演者,從而以較低的操作成本提高模擬場景的復雜性。然而,構建能控制這類角色的智能體是一項挑戰[136, 14, 137, 37],尤其是對于訓練系統的最終用戶來說,他們通常不具備人工智能方面的專業知識。在本論文中,我們將研究如何利用機器學習來簡化智能體的構建,使其行為適應人類學員的需求。通過構建更智能的代理,可以減少對人類訓練提供者的依賴,同時提高訓練的可用性和質量。作為一個案例研究,我們使用了一個基于模擬的空戰訓練系統,該系統在完成模擬世界中的任務以及為人類學員提供高效和有效的訓練方面,對合成智能體提出了許多挑戰。
為戰斗機飛行員提供高效和有效的訓練解決方案正變得越來越具有挑戰性。由于飛機運營成本高、可用空域有限以及嚴格的安全規定,很難在實戰環境中實現所需的訓練內容和密度。此外,在公開場合進行訓練有可能泄露有關戰術和系統性能的敏感信息。為了應對這些挑戰,必須在更大程度上利用虛擬和建設性模擬資源。如圖 1.1 所示,實戰、虛擬和建構(LVC)仿真旨在將真實飛機、地面系統和士兵(實戰)、載人模擬器(虛擬)和計算機控制的合成實體(建構)[100]整合在一起。通過使用建設性模擬來增強受訓者和角色扮演者操作的實機和虛擬飛機,可以模擬有大量友軍、敵軍和中立實體參與的場景,從而提高訓練效率和效果[51, 111, 55]。理想情況下,智能體應能充當訓練者,并根據人類受訓者的訓練需求調整自己的行為。這將使我們能夠最大限度地減少開展訓練所需的人力支持人員數量,從而降低成本并提高訓練的可用性。
如圖 1.2 所示,我們可以將訓練系統的用戶分為兩大類:訓練受眾和訓練提供者。訓練對象包括接受訓練的人員,如學習如何操作新飛機的飛行員。訓練提供者包括提供訓練的人員,如教員、角色扮演者、場景操作員和場景開發人員。教員負責訓練課程的教學內容,而角色扮演者和場景操作員則分別作為演員或通過控制部分模擬場景來幫助開展訓練。場景開發人員負責開發應模擬的場景,包括控制合成演員的行為模型。實際上,一個人可以扮演多個角色。例如,由于資源有限,一個人可以同時擔任教員、角色扮演者和操作員。
圖 1.2:模擬訓練系統的用戶。
這通常會造成很大的工作量,而且可能無法實現理想的訓練場景。我們希望減少對訓練提供者的需求,以提高訓練效率和效果。如果合成智能體變得更加智能,它們就可以取代或增強人類角色扮演者,減少場景操作員的輸入量,使訓練場景按預期方式進行。為了進一步提高系統的自主水平,智能體還可以協助教員評估學員的表現,并調整訓練場景的內容和特點[16]。然而,為智能體創建行為模型具有挑戰性,尤其是對于訓練系統的最終用戶(如教員)來說,他們可能不具備所需的專業知識和經驗[37]。過去,這制約了智能體在訓練中的應用。現在,隨著人工智能(AI)的最新進展,人們希望數據驅動方法能簡化構建智能體的過程,從而在基于模擬的訓練中取代或協助人類輔助人員。
在學習順序決策方面,強化學習 [128] 已成為最先進的方法。在人類設計的獎勵信號引導下,這類智能體可以純粹通過與環境互動來學習決策策略。通過將深度學習[38]與強化學習相結合,在經典棋盤游戲和多人電腦游戲中擊敗人類冠軍成為可能[122, 123, 61, 148]。這些成果激發了研究強化學習在許多領域應用的興趣,包括空戰模擬,學習智能體既可以充當隊友,也可以充當對手。雖然一般的強化學習研究往往側重于在某些領域(如游戲)實現超人的表現,但這項工作并不側重于將強化學習用于開發新的空戰戰術,而是研究智能體如何學習行為,從而提高參與模擬場景的人類的表現。在開發新智能體的過程中,我們重點關注多目標強化學習,它可以在多個相互沖突的目標之間找到權衡,特別是基于效用的方法,它利用有關用戶效用函數的知識,使學習更加高效和有效。
本論文的目的是分析基于模擬的訓練系統并為其建模,其中包含合成學習智能體,以提高效率和效果;通過開發基于效用的強化學習方法,支持提供基于自適應模擬的訓練,該方法旨在根據有關應用領域的知識及其用戶的效用函數提供最佳解決方案。長期目標是使訓練能夠有效地適應每個學員的需要,而不是提供一刀切的解決方案。
為了實現論文的目標,我們探討了以下研究問題:
問題 1:合成智能體需要具備哪些能力和特征,才能作為行動者參與基于合作和競爭的混合模擬訓練場景?
問題 2:強化學習方法如何協助教員開展訓練?
問題 3: 如何調整模擬內容以適應受訓者的訓練需求?
研究問題 RQ1 的重點是強化學習智能體作為合成角色扮演者,與人類受訓者進行互動,從而有效地提供有效的訓練環境。研究問題 RQ2 的重點是強化學習智能體作為合成助手,為教員的工作提供支持。研究問題 RQ3 涉及在用戶自適應訓練環境中部署的合成角色扮演者和合成教員助手的理想特性。
論文工作中使用的方法包括三個迭代和互動過程:領域分析、概念開發和實驗評估,如圖 1.3 所示。領域分析旨在增進對應用領域(包括其用戶及其需求)的了解,從而引導概念開發朝著最有前途的方向發展。由來自工業界和空軍的主題專家(SMEs)組成的參考小組將為這一過程提供支持。概念開發的目的是更詳細地研究和比較幾個有前途的概念,以便在進行實驗評估之前進一步縮小選擇范圍和進行專業化。在實驗評估中,將在簡單的模擬場景中對概念進行研究,以找出其優缺點。概念開發和實驗評估的結果將用于支持反饋循環中的進一步領域分析。
圖 1.3:三個相互作用的迭代過程:確定用戶需求、開發可滿足這些需求的概念,然后在實驗中對概念進行評估。
在本論文中研究的方法是在模擬場景中進行評估的,這些場景與實際訓練中使用的場景相比較為簡單。原因在于,當前的強化學習算法需要智能體在復雜環境中尋找決策策略,這需要大量的計算資源。此外,大多數評估都不包括人類參與者,因為要得出具有統計學意義的結果,需要大量的參與者。因此,實驗應被視為對想法和概念的初步評估。通過使用較簡單的場景,可以根據第 1.4 節中介紹的方法完成更多的迭代。更高級的驗證性實驗最好與其他研究工作結合進行,并作為操作訓練的一部分,一旦所研究的方法發展到更高的成熟度。
本論文的貢獻可概括如下:
C1:進行了領域分析,以確定不同類型空戰訓練場景中的用戶需求和理想的智能體功能。分析包括用戶訪談、書面調查和目標系統中的實際實驗。該分析有助于解決研究問題 RQ1 和 RQ2。
C2: 根據領域分析的結果,制定了一個系統概念,以確定該領域未來研究工作的框架。該系統概念提出了用戶自適應訓練系統的架構,旨在不斷調整模擬環境,以適應每個學員的訓練需求。該系統概念有助于解決研究問題 RQ1、RQ2 和 RQ3。
C3:開發了一個可調智能體(T-Actor)。T-Actor 通過學習一組參數化效用函數的策略,為教員提供決策支持。效用函數模擬智能體對一系列目標的偏好,并影響其行為。教員可以通過對效用函數進行后驗調整,為每個學員選擇合適的策略。T-Actor 有助于解決研究問題 RQ2 和 RQ3。
C4:我們開發了基于多目標模型的演員評判器--多目標夢想家(MO-Dreamer)。MO-Dreamer 在具有動態效用函數的環境中進行在線學習,并利用所學世界模型中的想象力滾動來改進其政策,以預測效用的變化。MO-Dreamer 有助于解決研究問題 RQ2 和 RQ3。
圖 3.2:敵對實體沿紅色路線接近空中戰斗巡邏隊 (CAP)。CAP 的飛機正在保護藍色的戰斗機責任區 (FAOR),有標記為黃色的高價值資產。
本章以用戶為中心,分析了在基于模擬的飛行員訓練系統中引入智能學習代理的問題。首先,我們討論了教員在使用實時、虛擬和建構模擬提供訓練時必須應對的制約因素,以及如果解決目前代理技術的不足,合成代理如何消除部分制約因素。然后,我們構建了一個飛行員在反空中作戰中的決策模型,以確定智能體設計應支持哪些決策模式。最后,通過訪談和調查來確定在飛行員訓練的不同階段對智能體能力和特性的要求。
我們發現,學習智能體有可能提高建設性模擬的能力,從而在減少使用現場和虛擬仿真資源的同時,仍能為學員提供有效的訓練場景。我們還注意到,改進后的用戶界面可以讓在人工智能方面幾乎沒有專業知識的主題專家構建高質量的智能體,從而減少對模擬器工程師支持的需求,并有可能縮短根據訓練需求更新系統的周轉時間。
用戶的反饋意見表明,必須使智能體的行為能夠適應不同類型的訓練以及具有不同訓練需求的學員。此外,智能體還必須能夠在各組智能體競爭的場景中扮演不同的角色,如對手、組長和僚機等。最后,能夠解釋合成智能體的行為對于支持匯報環節的分析非常重要。目前為合成飛行員開發行為模型的方法很難滿足這些要求。例如,用戶認為建構實體無法在空戰場景中扮演領導角色,無法與人類受訓者有效合作,也缺乏以可信方式響應命令的能力[7, 106, 159]。因此,改進行為模型可以提高 LVC 仿真的訓練價值。
在本章中,在四個與反空作戰有關的簡化場景中對多智能體強化進行了實驗評估: 進攻性對空作戰、防御性對空作戰、人機協作防御性對空作戰和空中偵察。學習智能體在這些場景中的表現能力關系到它們在場景中是作為友好實體還是敵對實體行動。
在 "進攻性反空 "和 "防御性反空 "場景中,我們看到具有時間延伸的行動可以顯著提高學習性能。此外,還可以將條令行為編碼到此類行動中,使合成智能體的行為顯得更加真實。利用智能體組隊進行空中防御的結果表明,利用低級動作進行學習反而會產生不必要的定性效果,如飛機頻繁轉向,即使定量結果表明行為得體。可以通過在獎勵功能中增加額外的目標來減少這種不必要的副作用,例如對不受歡迎的行為進行懲罰。不過,這將使獎勵設計變得更加復雜。例如,在近距離戰斗中很自然的飛行動作,如果在沒有任何敵人的情況下進行巡航,可能會顯得不自然。防空反擊場景中的結果表明,交流機制可以提高學習績效,正如討論中所說,這種機制在某種程度上也可以在人類-智能體團隊合作中實施。
進攻型和防御型空中對抗場景的結果表明,在學習低層次行動時,智能體可能需要先學習實現子目標的策略,然后才能找到完成整個任務的策略。為了提高學習效率,智能體的行為可以取決于當前的場景背景。例如,可以使用不同的策略來處理進攻性對空方案中的進入、攻擊和出口階段。完整的策略可以組織成一個決策層次結構,其中位于層次結構頂端的智能體負責在 LACC 的第 6 層 FRA 中確定當前形勢,然后將背景情況分配給負責導航、傳感器管理和武器投放等工作的下層智能體。
空中偵察場景中的結果表明,即使是簡單的問題,獎勵設計也會極大地影響學習智能體的表現,通過構建學習課程,可以顯著提高學習成績。然而,為更復雜的問題構建這樣的課程可能具有挑戰性。相反,也可以采用學習方法來定義課程,就像人類教員利用他們獲得的領域知識來更新人類受訓者的訓練內容一樣。這就要求負責課程的智能體評估學習代理當前的表現,并確定如何調整環境以實現難度的適當變化。
在本研究中,我們采用了集中式訓練和分布式執行(CTDE)的方法。由于在我們的實驗設置中,學習型智能體在訓練過程中與人類沒有互動,因此學習到的策略有可能會過度適應環境中其他合成的學習型智能體的行為。當智能體需要與人類互動時,這可能會導致性能損失,因為人類的行為可能與合成智能體不同。此外,預計不同人類飛行員的行為也會有所不同,特別是當飛行員正在接受訓練和完善技能時。避免過擬合風險的一種方法是在智能體群體中強制執行多樣性,例如,按照文獻[84]的建議,通過學習政策集合。另一種方法是使智能體具備從開發環境轉移到運行系統后迅速調整其行為的能力。
我們還注意到,我們使用的 MADDPG 參考實現并沒有實現優先經驗重放,因為在訓練中央批判者時,所有智能體的經驗都需要來自同一時間步。當使用較大的重放緩沖區進行學習時,這可能會對性能產生負面影響,因為對學習最有價值的經驗可能不會經常被采樣。
圖 4.5:防空反擊模擬場景。
圖 5.1:使用學習智能體的訓練系統架構。
在本章中,我們介紹了用戶自適應訓練系統的概念,該系統可幫助教員提供適合學員個人能力的訓練。這一概念基于通過訪談、調查和實際實驗獲得的有關空戰訓練領域及其用戶的知識。系統架構有兩個主要元素,可實現訓練適應性:場景適應智能體和合成訓練器智能體。
場景適應智能體負責高層次的適應,其作用類似于教官。這包括根據受訓者過去的表現對其進行分析,并確定當前的訓練需求。為滿足這些需求,訓練環境將通過改變訓練場景、訓練任務和分配給學員的任務進行調整。
合成訓練師智能體作為演員參與訓練場景,其行為方式與人類角色扮演者類似。它的行為特征由場景適應智能體通過其效用函數進行調整,就像人類角色扮演者可以根據教員的輸入調整自己的行為一樣。
我們討論了與架構各組成部分相關的要求,以及實現這些要求的不同方法。在構建這些智能體時,我們建議采用基于效用的多目標強化學習方法,因為其使用案例與我們的領域分析和用戶研究中確定的案例相吻合。作為第一步,論文的第二部分介紹并評估了合成訓練智能體的兩種實現方式。
圖 5.2:強化學習多目標方法的激勵場景[45]:(a) 未知效用函數場景,(b) 決策支持場景,(c) 已知效用函數場景,(d) 交互式決策支持場景,(e) 動態效用函數場景,以及 (f) 審查和調整場景。
圖 6.1: 左圖:可調actor結構。右圖:效用條件神經網絡
在本章中,我們為基于智能體的模擬提出了一種智能體架構和訓練方案。該架構允許我們在多目標環境中使用標準的深度強化學習算法。通過指定智能體對一組目標的偏好,我們提出的方法可用于訓練可在運行時調整其行為的智能體。我們的實驗證明,這些可調整的智能體可以近似于具有固定目標偏好的幾種不同行為類別的智能體的策略。實驗還表明,訓練時間與具有固定偏好的智能體的訓練時間相當,這意味著與從頭開始學習一套策略相比,可以提高采樣效率。一旦發現了解決方案前沿的有趣區域,例如與主題專家的互動,就可以通過進一步的訓練來改進這些區域的政策。我們認為,這一功能對于高效構建適應用戶需求的智能體模擬(如應用于訓練系統)非常有價值。
我們所使用的線性效用函數的一個缺點是,如果使用的是確定性策略,而問題的帕累托前沿是一個凹面,則可能無法找到所有理想的策略[144, 141]。為了更好地覆蓋解空間,必須使用非線性標量化函數。如果允許使用隨機策略,則可以使用 CCS 中的凸混合策略來形成帕累托前沿的連續估計值,該估計值在凹面中支配所有解[141]。不過,如果我們感興趣的是每個事件的結果(ESR),而不是多個事件的平均結果(SER),這可能就沒有什么用處了。對于基于用戶自適應模擬的訓練,ESR 設置是合適的,這將在第 5 章中討論。
我們研究的環境相對簡單。在現實世界中,訓練這類智能體可能更具挑戰性。在未來的工作中,我們希望研究擬議方法在更復雜環境中的性能,包括具有大型行動空間、部分可觀測性的環境,以及需要智能體之間進行更復雜交互的任務。我們還想研究智能探索策略,讓智能體在訓練時可以有很多目標和高維度的偏好空間,以及對未見權重的高效遷移學習。未來工作的另一個有趣課題是開發有效的方法來激發用戶對智能體特征的偏好,從而構建符合用戶需求的模擬。最后,我們還希望研究基于模擬的訓練系統中的人機互動。
在本章研究的場景中,風險意識飛行路線選擇場景面臨的挑戰最大,在該場景中,可調代理需要在連續空間中選擇飛行路線。要為效用空間中的每個效用函數找到合適的航線,需要進行大量的學習,而這對于復雜的場景來說可能需要進行昂貴的計算。作為進一步提高多效用函數學習效率的第一步,下一章將提出一種基于模型的方法,用于用戶效用函數隨時間變化的環境中的多目標強化學習。
圖 7.1: MO-Dreamer 與環境互動,建立了一個包含各種經驗的數據集,用于構建一個想象力推廣模型,在這個模型中,過去的經驗狀態與經驗和想象中的效用函數一起被重新審視,以改進材料。
在本章中,提出了MO-Dreamer,一種基于模型的多目標actor-critic,用于在具有動態效用函數的環境中進行學習。MO-Dreamer 強化了經驗回放緩沖區中存儲和采樣的軌跡回報的多樣性,以便在學習過程的早期進行高強度訓練,同時降低過度擬合的風險。此外,MO-Dreamer 還利用具有多種效用函數的想象力,探索在給定目標偏好的情況下,應遵循哪種策略來優化收益。
在效用函數頻繁變化和稀疏變化的 Minecart 基準上進行的實驗評估表明,在動態效用函數情況下,MO-Dreamer 在累積遺憾和平均偶發遺憾方面明顯優于無模型的多目標強化學習最先進算法。在 "深海寶藏 "基準測試中,MO-Dreamer 的收斂速度很快,總體上優于無模型智能體,但在完全可觀測的情況下,MO-Dreamer 學習到的最終策略較差。在部分可觀測性條件下,MO-Dreamer 的表現明顯優于無模型基線。在簡單的 "深海寶藏 "任務中,MO-Dreamer 的表現與無模型算法不相上下,這說明了世界模型學習的效率。
基于模型的方法可以更有效地適應學員訓練需求的變化。在操作訓練系統中,世界模型可以根據每次訓練的數據進行優化。然后,該模型可用于優化合成智能體的策略,這些策略對訓練中心學員群體觀察到的每個效用函數都是最優的。與飛行模擬器的戰術環境模擬相比,學習到的世界模型更加緊湊,計算效率更高。這意味著,只要模型的質量足夠好,利用世界模型進行學習就能對政策進行更大程度的微調。
在今后的工作中,我們打算擴展世界模型,以處理具有多個學習智能體的環境。除了支持政策學習外,這種世界模型還可以在線使用,對其他智能體的未來決策進行預測。這既可以支持合作決策,也可以支持競爭決策。未來工作的另一個有趣方向是研究如何將學習到的世界模型用于各種形式的遷移學習。例如,我們想研究在使用線性效用函數行動時學習到的世界模型如何用于非線性效用函數的遷移學習。這可能需要新的探索策略,在與非線性效用函數相關而與線性效用函數無關的環境中改進世界模型。最后,我們希望將實驗評估擴展到與戰術飛行員訓練更相關的環境中。
任務規劃涉及將離散資產分配給優先目標,包括在復雜的環境條件下將這些資產動態路由到目的地。由于快速周轉的價值和模擬作戰環境的相對簡單性,人們非常有興趣通過添加人工智能 (AI) 的強化學習技術來改進任務規劃過程,這可以產生更好、更快或只是人類考慮的獨特解決方案。本報告描述了如何使用人工智能進行任務規劃,以及人工智能方法與更傳統的運籌學 (OR) 方法的比較。
任務規劃涉及將離散資產分配給優先目標,包括在復雜的環境條件下將這些資產動態路由到目的地。由于快速周轉的價值和模擬作戰環境的相對簡單性,人們非常有興趣通過添加人工智能 (AI) 的強化學習技術來改進任務規劃過程,這可以產生更好、更快或只是人類考慮的獨特解決方案。本報告描述了如何使用人工智能進行任務規劃,以及人工智能方法與更傳統的運籌學 (OR) 方法的比較。
本報告是五卷系列中的第五卷,探討了如何利用人工智能在四個不同領域協助作戰人員:網絡安全、預測性維護、兵棋推演和任務規劃。本報告主要針對那些對任務規劃、運籌學和人工智能應用感興趣的人。
美國國防部在建模和仿真技術方面投入了大量資金,以提供有價值且具有成本效益的訓練和兵棋推演。然而,現有的兵棋推演平臺主要側重于動能效應和常規作戰。在此,介紹了開發的 "平原(Pineland)"兵棋推演平臺,旨在填補這一空白。該平臺提供了一個強大、用戶友好的解決方案,支持影響行動、非正規戰爭和其他超出常規動能行動范圍的行動的場景生成、管理和培訓受眾評估。作為其中的一部分,介紹了一個系統的概念背景和實施細節,該系統利用社會認同理論自動生成和 "白方小組"管理信息環境中兵棋推演行動的強大場景,包括詳細的人口、文化和政治數據及傳播。進一步討論了人工智能系統的實施,該系統能夠處理物理層、網絡層和認知層中的數千個角色,并配有用戶友好型編輯器和演示系統。最后,將討論該平臺如何彌補面向國防的兵棋推演平臺在影響力-作戰方面的不足,以及陸軍和海軍陸戰隊如何利用該項目加強對影響力專家、指揮官和技術研究人員的培訓。
美國國防部在建模、模擬和兵棋推演技術方面投入巨資,旨在以更低的成本為部隊提供更有效的訓練。然而,現有的兵棋推演平臺主要側重于動能效應和常規作戰;因此,影響力作戰和非正規戰爭的實踐者無法像傳統作戰部隊的同行那樣充分利用建模和仿真技術帶來的好處。
在此詳細介紹的 "平原 "戰爭游戲平臺旨在填補這一空白,并為旨在認知領域產生影響的行動的軍事實踐者提供可行的培訓工具。該平臺對陸軍和海軍陸戰隊尤為重要,因為這兩支部隊都在進行重大的兵力重新設計,著眼于威懾和戰略競爭。這樣一個平臺可以讓這兩個軍種的人員對心理作戰、民政任務和公共事務問題進行戰棋推演,而且成本效益高,幾乎不需要額外的人力,還能充分利用現有的軟件和硬件。
在研究方面,這項工作的核心問題--是否有可能在現有防御平臺允許的范圍之外,創建一個解決信息環境中作戰問題的兵棋推演平臺--在這里得到了肯定的回答。
從更廣泛的意義上講,該平臺的開發表明,利用陸軍或海軍陸戰隊的人員創建這樣一個量身定制的兵棋推演平臺是有可能的,而且開發本身在軟件和硬件方面的額外成本都很低,這有可能加強各軍種在訓練和教育中對增加兵棋推演的推動,并提高部隊在兵棋推演設計方面的熟練程度。另一個值得關注的發現是,開放源代碼、現成的游戲軟件現在已經可以提供為軍事應用開發可靠的戰爭游戲工具所需的顯示、輸入和網絡功能,從而為陸軍和海軍陸戰隊開發自己的戰爭游戲和模擬中心和能力節約成本。
Pineland 的一些關鍵技術特點彌補了這一差距,是國防部現有兵棋推演平臺的進步:
自動生成和 "白方"管理用于信息環境中兵棋推演行動的強大場景,包括詳細的人口、文化和政治數據。
實施一個人工智能(AI)系統,該系統能夠在物理和認知領域處理數千名行動者,并配有用戶友好型編輯器和演示層。
利用社會認同理論建立一個可擴展的模型,模擬知識、態度和行為在人群中的傳播。
整合與應用建議
為影響專家培訓提供 "白方"支持。Pineland 的明確目標是為陸軍心理作戰學校等課程提供用戶友好型情景管理工具。心理作戰培訓人員提出的具體需求在 Pineland 中得到了明確解決,包括自動建模信息傳播、生成合成互聯網流量,以及執行其他情景支持工作,否則教員將需要管理白板、地圖和電子表格,而不是對學生進行評估和指導。
軍種或聯合專業軍事教育。Pineland 的信息環境視角相對較高,易于培訓受眾和培訓人員使用,加上其零價格和有限的硬件要求,使其在向非專業受眾介紹信息環境中作戰的基本概念方面大有可為。海軍陸戰隊的 "指揮與參謀課程 "或陸軍的 "上尉職業課程 "等學校已經包含了信息環境下作戰模塊,作為更廣泛地接觸各種作戰功能和領域的一部分。
計算機科學及相關領域的技術技能培訓。由于 Pineland 采用了以可用性為中心的架構和開源軟件棧,因此該平臺為機器學習和基于智能體的人工智能方法的技能培訓提供了一個易于使用的基礎。用戶可以使用現有的基于 Python 的腳本環境和圖形實用工具系統,而不需要配置環境,也不需要構建或調整兵棋推演環境,就能嘗試基于智能體行為的算法。
戰斗機飛行員通常使用模擬器來練習他們需要的戰術、技術和程序。訓練可能涉及計算機生成的力量,由預定的行為模型控制。這種行為模型通常是通過從有經驗的飛行員那里獲取知識而手工制作的,并且需要很長的時間來開發。盡管如此,這些行為模型由于其可預測性和缺乏適應性而通常是不夠的,教官必須花時間手動監測和控制這些力量的各個方面。然而,最近人工智能(Al)研究的進展已經開發出能夠產生智能代理的方法,在復雜的游戲(如圍棋和《星際爭霸II》)中擊敗人類專家玩家。
同樣,人們可以利用人工智能的方法來組成空戰的高級行為模型,使教官能夠更專注于飛行員的訓練進展,而不是手動控制他們的對手和隊友。這種智能行為必須表現得逼真,并遵循正確的軍事理論,以證明對飛行員訓練是有用的。實現這一目標的一個可能方法是通過模仿學習,這是一種機器學習(ML)類型,代理學習模仿專家飛行員提供的例子。
本報告總結了使用模仿學習技術優化空戰行為模型的工作。這些行為模型被表述為控制計算機生成的部隊的行為轉換網絡(BTN),由下一代威脅系統(NGTS)模擬,這是一個主要針對空域的軍事模擬應用。遺傳算法Neuroevolution of Augmenting Topologies (NEAT)的一個改編版本優化了BTNs,使其行為與飛行員行為的演示相似。與大多數ML方法一樣,NEAT需要許多連續的行為模擬來產生滿意的解決方案。NGTS不是為ML目的而設計的,因此圍繞NGTS開發了一個系統,該系統自動處理模擬和數據管理并控制優化過程。
進行了一組實驗,其中開發的ML系統對BTN進行了優化,以模仿三個簡單空戰場景中的例子行為。實驗表明,NEAT的改編版本(BTN-NEAT)產生的BTN能成功地模仿簡單的示范行為。然而,優化過程需要相當長的時間,計算時間長達44小時或模擬飛行時間為92天。緩慢的優化主要是受NGTS不能快速運行同時保持可靠的影響。這個可靠性問題是由NGTS缺乏時間管理造成的,它可以將代理人的狀態與模擬時間戳聯系起來。為了在更復雜的場景和演示中實現成功的行為優化,人們應該在高可靠性的前提下以比實時快得多的速度模擬行為。因此,我們認為NGTS并不適合于未來的ML工作。相反,需要一個為ML目的設計的輕量級空戰模擬,能夠快速可靠地運行。
戰斗機飛行員通過嚴格的訓練學習并保持他們的戰術技能。相當多的訓練是以模擬為基礎的,在訓練中,受訓者面對友軍和敵軍,他們的行為最好能加速訓練并建立起理想的能力。計算機生成的部隊(CGFs),是自主的、計算機控制的實體,被用來扮演這些友軍和敵軍的角色。理想情況下,在基于模擬的訓練中使用CGF應該提供一些好處,如增加飛行員的訓練可用性,減少訓練中對主題專家(SME)的需求。然而,手動模擬CGF的行為,使其對教學作用有足夠的代表性,這是很繁瑣的,而且已被證明具有挑戰性。因此,目前手工制作的行為模型往往是可預測的,不能適應新的情況或在軍事理論、戰術、技術和程序(TTP)方面表現得很真實。在基于模擬的空戰訓練中保持真實的體驗對于確保受訓者獲得必要的技能至關重要。然而,由于CGF的表現和行為被認為是不足的,中小企業往往在訓練中對CGF進行微觀管理,這是不幸的,因為中小企業的成本很高,他們的時間很寶貴,而且數量有限。
人工智能研究的最新進展已經開發出能夠產生智能代理的方法,在復雜的游戲中擊敗人類專家玩家,如圍棋[1]和星際爭霸II[2]。隨著這些進展,學習用于空戰的指導性和適應性代理行為已成為一個越來越受關注的研究領域。然而,為了發揮作用,飛行員模擬的對手和盟友的行為必須是真實的,并符合軍事理論,而不是,例如,試圖不惜一切代價贏得交戰。該研究領域的一些貢獻集中在強化學習方法上,并且已經顯示出一些有希望的結果。然而,即使仔細設計目標函數,強化學習代理也有可能學習到用于飛行員訓練的次優政策,這意味著他們的行為與根據既定理論和TTP所期望的不同。另一種方法是向ML算法提供專家示范,從中提取飛行員的具體知識,并將其納入代理人使用的行為模型。據我們所知,在空戰領域,很少或沒有先前的研究探討過這種方法。
本報告介紹了基于達爾文自然選擇原則的模仿學習算法被用來產生以行為轉換網絡(BTNs)表示的空戰行為模型。雖然BTNs已經出現在之前使用強化學習的空戰行為建模的相關工作中,但這項工作研究了BTNs是否適合模仿學習。下一代威脅系統(NGTS)被用來模擬BTNs,并進行了評估以考慮該模擬系統對機器學習(ML)的適用性。已經開發了一個ML系統,包括使用NGTS和選定的學習算法成功生產空中戰斗機代理所需的工具和方法。這個ML系統自動處理模擬和數據管理并控制學習算法。簡單的空戰場景被定義,并在使用該ML系統進行的一系列實驗中使用,在這些實驗中產生了反映示范飛行員行為的BTN。
為了限制這項工作的范圍,我們做了一些限定。開發的ML系統不是生產級的,而是一個概念驗證。因此,實驗中使用的場景和試點演示保持簡單。具體來說,這些都是一對一的場景,演示僅限于二維空間的運動。此外,行為演示是基于報告作者手工制作的BTN,而不是由專業飛行員制作的。
本報告是為從事軍事訓練和人工智能相關課題的研究人員準備的,最好具有空戰和行為建模的知識,其組織結構如下。第2章介紹了工作的背景,包括與空戰訓練和模擬有關的概念、人工智能理論和相關工作。第3章涵蓋了實驗中使用的選定的學習算法及其配置,而第4章介紹了構成ML系統的過程和工具。第5章和第6章通過定義空戰場景和行為演示來回顧實驗的設置和執行,并介紹了結果。第7章討論了這些結果,以及ML系統和NGTS的性能。第8章本報告的總結和對未來工作的思考。
圖5.2 第一個場景的總結: 逃亡。CGF從它們的初始位置向對方飛去。一旦藍色飛機進入紅色飛機的導彈射擊范圍內,紅色飛機就會轉身向相反方向逃離。
由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。
本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。
對美國陸軍戰備來說,基于模擬的訓練提供了一種成本和時間效益高的方式來保持人員對其角色、責任、戰術和行動的充分了解。目前,由模擬支持的演習需要很長的計劃時間和大量的資源。盡管半自動化的軍事模擬提供了基本的行為人工智能來協助完成參與者的角色,但它們仍然需要人類模擬操作員來控制友軍和敵軍。演習支持模擬操作員直接來自預期的訓練對象,分配給士兵的角色扮演職責與他們組織的訓練。單位用他們團隊的一小部分人進行訓練,降低了訓練質量和整體效果。減少開銷和提高模擬支持訓練質量的一個方法是實施全自動和自適應的敵對部隊(OPFOR)。
DeepMind的AlphaStar、AlphaZero和MuZero說明了機器學習研究的進展情況。使用大型數據集或通用算法,這些代理人學會了如何在復雜的戰斗性戰略游戲中發揮并擊敗職業玩家。這些游戲包括延遲和稀疏的獎勵、不完善的信息和大規模的狀態空間,所有這些功績都支持機器學習可能是在建設性的軍事模擬中開發適應性OPFOR的關鍵。
本文調查了關于使用機器學習進行自動OPFOR決策、計劃分類和智能體協調的現有文獻。這一分析是未來研究支持建設性軍事模擬自適應OPFOR的現有能力和局限性的一個起點。