摘要--基于模擬的訓練有可能大幅提高空戰領域的訓練價值。然而,合成對手必須由高質量的行為模型控制,以表現出類似人類的行為。手工建立這種模型被認為是一項非常具有挑戰性的任務。在這項工作中,我們研究了如何利用多智能體深度強化學習來構建空戰模擬中合成飛行員的行為模型。我們在兩個空戰場景中對一些方法進行了實證評估,并證明課程學習是處理空戰領域高維狀態空間的一種有前途的方法,多目標學習可以產生具有不同特征的合成智能體,這可以刺激人類飛行員的訓練。
索引詞:基于智能體的建模,智能體,機器學習,多智能體系統
只使用真實的飛機進行空戰訓練是很困難的,因為飛行的成本很高,空域的規定,以及代表對方部隊使用的平臺的有限可用性。取而代之的是,可以用合成的、計算機控制的實體來代替一些人類角色。這可以降低訓練成本,減少對人類訓練提供者的依賴(見圖1),并提高訓練價值[1]。理想情況下,受訓飛行員的對手應該都是合成實體,這樣就不需要角色扮演者和真實飛機來支持訓練。然而,為了達到較高的訓練價值,合成對手必須由高質量的行為模型控制,并表現出類似人類的行為。手工建立這樣的模型被認為是一項非常具有挑戰性的任務[2], [3]。
圖1. 空戰訓練系統的用戶。通過構建更智能的合成智能體,可以減少對人類訓練提供者的需求。
近年來,強化學習算法的性能得到了迅速提高。通過將強化學習與深度學習相結合,在復雜的控制任務[4]-[6]、經典的棋盤游戲[7]-[9]以及具有挑戰性的實時、多人計算機游戲[10],[11]中取得令人印象深刻的結果成為可能。這使我們相信,強化學習也可以成為構建空戰模擬中合成智能體行為模型的一個可行的選擇。有了這種方法,訓練系統的用戶就不需要明確地對智能體的行為進行編程,而是可以簡單地指定他們所需的目標和特征。然而,目前還沒有很多研究來評估空戰領域中最新的多智能體學習方法的性能。
在這項工作中,我們研究了如何在空戰模擬中使用多智能體深度強化學習來學習協調。在空戰領域,多個智能體的協調是很重要的,因為飛行員從來不會單獨飛行。我們的貢獻可以總結為以下幾點:
首先,我們討論了用于訓練飛行員的空戰模擬領域的強化學習算法的用例、設計原則和挑戰
其次,我們使用高保真模擬引擎,對有助于實現所確定的用例的方法進行了廣泛的實證評估。
具體來說,我們研究了空戰模擬場景中學習算法的兩個挑戰。1)用稀疏的獎勵學習,以及2)創建具有可調整行為的智能體。我們的實驗表明,在空戰的高維狀態空間中,課程學習可以促進稀疏獎勵的學習,而多目標學習可以產生具有不同行為特征的智能體,這可以刺激飛行員的訓練。
航空仿真環境(葡萄牙語為Ambiente de Simula??o Aeroespacial - ASA)是一個定制的面向對象的仿真框架,主要用C++開發,能夠對軍事作戰場景進行建模和仿真,以支持巴西空軍在航空航天方面的戰術和程序開發。這項工作描述了ASA框架,帶來了其管理多個仿真機的分布式架構、用于后處理仿真數據的數據分析平臺、在仿真運行時加載模型的能力,以及同時進行多個獨立執行的批處理模式執行平臺。此外,我們還介紹了最近在空戰背景下使用ASA框架作為仿真工具的工作清單。
關鍵詞:仿真環境,分布式仿真,數據分析,軍事,作戰場景
高級研究所(IEAv)是巴西空軍(For?a Aérea Brasileira - FAB,葡萄牙語)的一個研究組織,自2018年以來,開發了航空航天仿真環境(Ambiente de Simula??o Aeroespacial - ASA,葡萄牙語),以提供一個計算解決方案,實現作戰場景的建模和仿真,允許用戶建立戰略、參數和指揮決策,支持在航空航天背景下為國防目的制定戰術、技術和程序。
現代戰場場景的特點給建立實際的戰斗仿真帶來了新的挑戰,需要更多的綜合和靈活的解決方案,不僅要解決技術問題,還要解決組織問題[10]。仿真、集成和建模高級框架(AFSIM)是一個正在開發的框架的例子,以解決其中的一些挑戰[1];然而,它只限于少數美國合作伙伴。在這種情況下,ASA環境被設想為同時足以支持FAB的戰略規劃,滿足作戰分析的需要,并允許開發和評估新技術以加強軍事研究,將自己定位為一個靈活的解決方案,可以根據用戶需求進行調整。這種靈活性是針對客戶的不同特點,這導致了廣泛的要求,而這些要求僅靠商業現成的(COTS)仿真軟件是無法滿足的。由于開發一個全新的解決方案并不高效,ASA團隊決定研究公開可用的工具,旨在將它們整合到一個靈活、可訪問和可擴展的環境中。
擬議的解決方案使用混合現實仿真平臺(MIXR)[11]作為其仿真引擎,這是一個開源的軟件項目,旨在支持開發強大的、可擴展的、虛擬的、建設性的、獨立的和分布式的仿真應用。ASA擴展了MIXR的可能性,增加了額外的元素,創造了一個環境來優化開發者和分析者的任務。我們創建了一個管理器應用程序,作為多種資源之間的接口,作為一個樞紐來運行、存儲和分析眾多計算機上的各種仿真。此外,這個應用程序允許同時創建大量的仿真,只需根據分析員的需要改變初始條件。同時,模型和工具可以在運行時動態加載,以增加靈活性。所有仿真數據都存儲在一個專門的數據庫中,這加快了數據收集過程,促進了更強大的統計分析。此外,考慮到結果的復雜性和ASA用戶的不同技術知識,我們在系統中整合了一個專門的數據分析平臺,不僅用于規劃或可視化目的,還用于對情景產生的數據進行后期處理。
因此,這項工作的主要貢獻是為軍事目的的航空航天背景下的建模和仿真引入了一個新的環境,包含:一個管理多個仿真機的分布式架構;一個用于后處理仿真數據的增強型軍事作戰場景數據分析平臺;一個在仿真運行時加載模型的能力;一個使用不同初始參數進行多次執行的批處理模式執行。此外,我們介紹了最近使用ASA平臺作為空戰領域解決問題的仿真工具的工作清單。
本文的其余部分組織如下。第2節介紹了ASA的架構。在第3節中,我們帶來了一些使用ASA作為仿真工具的研究,這些研究與空戰分析有關,作為這個仿真框架的應用實例。最后,第4節陳述了關于ASA當前狀態的結論,并為未來的工作帶來一些想法。
現代綜合防空系統(IADS)所帶來的日益復雜的反介入區域拒止(A2AD)威脅,加上高端隱形平臺所提供的日益強大的優勢,促使美國空軍高級領導人投資于徹底改變2030年及以后的空中力量。這一新設想的一個突出因素是蜂群武器,其目的是通過用大量低成本、可損耗的航空資產來壓倒國際航空運輸系統,并通過自主能力來解決這一挑戰。這項研究提出了一個框架,按照三個獨立的維度對不同級別的自主能力進行分類,即單獨行動的能力、合作能力和適應能力。使用模擬、集成和建模高級框架(AFSIM)構建了一個虛擬作戰模型,模擬以有人駕駛的穿透式轟炸機和自主巡航導彈群為特征的友軍空襲包與以A2AD角色行動的敵軍IADS之間的交戰。通過使用自主性框架作為設計實驗的基礎,評估了不同水平的自主性對攻擊包性能的影響。對實驗結果的分析揭示了哪些方面和什么級別的自主性對促進這一模擬場景的生存能力和殺傷力最有影響。
戰爭的技術性質正在迅速發展,人們越來越重視對大量數據的收集、處理和決策。隨著指揮與控制(C2)決策空間的復雜性增加,指揮系統根據現有信息采取行動的速度越來越成為一個限制性因素。具有不同程度的人與系統互動的自主系統為緩解這一不足提供了機會。美國2018年國防戰略(NDS)[18]明確要求國防部(DoD)"廣泛投資于自主性的軍事應用",作為促進大國競爭優勢的一項關鍵能力。
參與大國競爭的一個自然后果是反介入區域拒止(A2AD)環境在聯合沖突的所有方面擴散。從美國空軍(USAF)的角度來看,現代綜合防空系統(IADS)構成了卓越的A2AD威脅,這嚴重抑制了通過常規手段建立空中優勢的前景[2, 20]。這一挑戰促使部隊結構的優先事項發生了變化,因為將能力集中在相對較少的高端系統中的感知風險越來越大。美國空軍科學和技術戰略[26]設想,數量龐大的低成本、易受攻擊的航空資產將很快發揮曾經由數量有限的高價值資產完成的作用。這種大規模的蜂群的任務規劃和空戰管理(ABM)工作的規模可能很快超過人類的認知能力,這使得它成為非常適合自主性研究和開發的應用領域。
本研究試圖評估幾種自主巡航導彈群的行為對A2AD環境中藍方(友方)空中性能的影響。具體來說,所研究的A2AD場景考慮了紅方(對手)的IADS被藍方聯網的自主巡航導彈群吸引,以促進穿透式轟炸機的后續打擊。在任務規劃時沒有考慮到的突然出現的威脅,可能會進入該場景以增加紅色IADS的力量。蜂群必須在沒有外部反彈道導彈的幫助下,檢測并應對這些突發威脅以及任何其他對抗性任務參數的變化。A2AD場景的建模是使用模擬、集成和建模高級框架(AFSIM)完成的。
為了解決問題陳述,本研究將對以下問題提供答案:
1.具有自主反彈道導彈能力的巡航導彈蜂群能在多大程度上提高藍方空襲包在A2AD環境下的生存能力(即避免被紅方IADS發現和摧毀的能力)?
2.具有自主反彈道導彈能力的巡航導彈群能在多大程度上提高A2AD環境下藍方空襲包的殺傷力(即探測和摧毀紅方IADS元素的能力)?
本論文的其余部分包含四章,組織如下:第二章對包括自主性、A2AD環境、基于代理的建模和仿真(ABMS)以及實驗設計(DOE)等主題的參考材料進行了回顧。第三章建立了A2AD場景、AFSIM模型實現和實驗設計的結構,作為本研究的框架。第四章介紹了實驗模擬運行的結果和附帶的分析。最后,第五章討論了從這項研究中得出的結論,以及對未來研究方向的建議。
深度強化學習因其在解決復雜的視頻游戲和工業應用方面的成功而引起了工業界和學術界的廣泛關注。最近,硬件和計算方面的進步成倍地增加了計算能力的可用性,促進了深度神經網絡的訓練。這些網絡可以從高維數據中學習RL行為策略,并且比精確的表格解決方案表現得更好,盡管需要相當多的計算機資源。
游戲是評估強化學習(RL)算法的行為特性和規劃效率最常用的應用之一。它們可以提供訓練深度學習模型所需的數據結構和數量。專門制作的游戲可以表達現實世界的工業應用,以減少設置成本,同時大幅提高可重復性。RL可以提高專家系統占主導地位的工業應用的效率,減少人工和潛在的危險勞動。應用工業強化學習的問題是,傳統方法是通過試驗和錯誤來學習。正因為如此,RL智能體在學習過程中存在遇到災難性事件的風險,這可能會對人類或設備造成損害。因此,使用游戲來訓練和研究安全的RL智能體很有吸引力。
即時戰略(RTS)游戲由于其高維的狀態和行動空間而特別吸引人。此外,RTS游戲與工業和現實世界的應用有許多共同的屬性,如同時行動、不完美信息和系統隨機性。最近的進展表明,無模型RL算法可以在《星際爭霸II》這樣的游戲中學習到超人的表現,同樣使用了大量的計算能力。因此,缺點是這些算法昂貴且難以訓練,使得將同樣的方法用于工業應用具有挑戰性。在開源環境中也有大量的狀態空間復雜性的差距。這就限制了算法的評估,使其只適用于工業應用中充分操作所需的任務子集。
游戲環境:本論文通過提出六個新的游戲環境來解決環境差距問題,以評估幾個任務中的RL算法。Deep Line Wars和Deep RTS是兩個新的RTS環境,用于測試不完美信息下長期規劃的算法。Deep Maze是一個靈活的迷宮環境,用于學習RL智能體從記憶中導航迷宮。Deep Warehouse是一個專門制作的環境,用于評估自動存儲和檢索系統(ASRS)中RL算法的安全性,這也是本論文的唯一重點。ASRS有自主車輛,在一個三維網格中尋求最大的物品吞吐量。擬議環境的設計目標是為RL算法的評估提供大量的額外問題。因此,所有的環境都提供了調整問題復雜性的參數和一個靈活的場景引擎,可以挑戰各種問題的算法,如記憶和控制。我們的經驗表明,我們的環境比類似復雜度的環境在計算上明顯更有效率。提出的環境的多樣性可以幫助填補文獻中的復雜性空白。我們最后介紹了用于高性能RL研究的人工智能和強化學習中心(CaiRL)工具包,它在一個單一的運行時間內收集了所有提議的環境。
基于模型的RL:本論文還介紹了新的節能、高性能的RL算法,用于RTS游戲和使用所介紹的環境的工業近似模擬。無模型強化學習在模擬環境中顯示出有希望的結果,但對于工業應用來說是不夠的。他們需要收集數以百萬計的樣本并通過試驗和錯誤來學習。相反,基于模型的強化學習(MBRL)利用已知的或學到的動力學模型,可以大幅提高樣本效率。因此,與無模型的RL方法相比,基于模型的RL在工業應用中是一個更穩健的研究選擇。目前基于模型的RL文獻顯示,基于深度學習的模型表現最好,但也有一些不足之處。深度學習模型通常對超參數很敏感,真實環境的輕微變化都會顯著影響模型的準確性。此外,現有的模型在推導行為策略時并不考慮安全或風險,這使得此類方法在工業應用中存在問題。
這篇論文解決了其中的一些挑戰,并提出了新的基于模型的強化學習方法,這些方法注重決策安全和樣本效率。我們的算法,Dreaming變分自動編碼器(DVAE),深度變分 Q 網絡(DVQN)和觀察獎勵行動成本學習集成(ORACLE),結合了基于模型的RL和改進貝葉斯方法來訓練現有和擬議環境中的動力學模型。DVAE算法使用遞歸神經網絡和變異自動編碼器來學習動力學模型,并在原始環境中顯示出有效性。DVQN使用變異自動編碼器和深度Q網絡來實現可解釋和可分離的潛在空間,并有助于分層強化學習中的自動選項發現。最后,ORACLE結合了狀態空間、遞歸神經和隨機神經網絡。該算法顯示了最先進的預測能力,同時使用輔助的安全目標進行更安全的學習。
然后,我們利用動力學模型的優勢,離線訓練無模型算法。此外,我們利用風險導向的探索和好奇心來建立對風險敏感的智能體,以提高游戲和工業應用的決策安全性。我們的經驗表明,我們的方法在大多數情況下比最先進的無模型和基于模型的算法在傳統的RL基準、RTS游戲和模擬的工業應用中表現更好。
總而言之,我們相信本論文中提出的游戲環境、RL方法和研究將推動所課題中最先進的研究,并為在工業應用中實現基于模型的RL做出積極的貢獻。
本學位論文由兩部分組成。第一部分概述了整個博士學習期間所進行的工作。第二部分包括代表本論文主要貢獻的出版物和在審文章,見貢獻清單。本論文的其余部分結構如下。
第二章:背景介紹了本論文中使用的技術的背景文獻。這包括馬爾科夫決策過程、強化學習、安全強化學習和各種深度學習建模技術。
第三章:文獻綜述介紹了強化學習的科學進展的全面文獻綜述,這些文獻激勵并啟發了我們的貢獻。我們研究的關鍵詞是基于模型的、安全的、環境的、目標導向的RL、可解釋的RL,以及,分層的RL。
第四章:軟件貢獻和評估描述了我們對新型強化學習環境的科學軟件貢獻。我們提出了新的環境,以填補目前最先進的狀態復雜性的差距,并討論了我們的動機,設計規范,并提供基線結果和評估。
第五章:算法貢獻介紹了我們在RTS游戲中基于安全模型的強化學習的新技術的主要貢獻,以實現一個功能性的工業級強化學習解決方案。具體來說,我們介紹了開展這項工作的動機,并描述了我們算法的細節。我們提供了在實驗中導致最佳結果的超參數,并總結了算法的貢獻。
第六章:貢獻評估使用提議的軟件貢獻實證評估我們的算法貢獻,包括強化學習文獻中最先進的環境。每一節都提出了一個假設,我們的目標是在實驗和評估中解決這個問題。
第七章:結論和未來的工作結束了本論文的第一部分,并討論了進行了博士工作的最終成就。最后,我們概述了未來的研究方向,這些方向有可能改進本論文中提出的工作。
第二部分介紹了博士工作期間的全部出版物。這些論文按時間順序排列,大致代表本論文的流程。研究進展的詳細圖示見圖1.1。
圖1.1:顏色代碼說明了以下主題。藍色說明了新的研究環境的貢獻,灰色是可解釋性和層次性RL(選項)。紫色表示安全強化學習,黃色代表目標導向強化學習的工作。最后,綠色是我們在基于模型和安全RL方面的主要貢獻。
荷蘭的Smart Bandits項目旨在開發顯示真實戰術行為的計算機生成部隊(CGF),以提高戰斗機飛行員模擬訓練的價值。盡管重點在于展示空對空任務中的對抗行為,但其結果更廣泛地適用于模擬領域。
傳統上,CGF的行為是由腳本控制的,這些腳本規定了在一組特定事件中的預定行動。腳本的使用有一定的缺陷,例如,在考慮完整的任務場景時,腳本的復雜性很高,而且腳本的CGF往往表現出僵硬和不現實的行為。為了克服這些缺點,需要更復雜的人類行為模型,并結合最先進的人工智能(AI)技術。Smart Bandits項目探討了應用這些人工智能技術的可能性。
本文解釋了在理論行為模型和用于戰斗機訓練的CGF中的實際實施之間架起橋梁的主要架構。測試CGF的訓練環境包括四個聯網的F-16戰斗機模擬器。這種設置能夠為飛行員提供實驗性訓練,以對抗敵人的戰斗機編隊(以智能CGF的形式)。該架構是通用的,因為它可以滿足各種人類行為模型,在概念上,它們在使用人工智能技術、認知的內部表示和學習能力方面彼此不同。基于認知理論的行為模型(例如,基于情境意識、心智理論、直覺和驚訝的理論)和基于機器學習技術的行為模型實際上都嵌入到這個架構中。
戰斗機飛行員在模擬器中的戰術訓練已經被廣泛使用。戰術訓練的一個基本特征是除了受訓者之外,還有其他參與者的存在。這些參與者可以是隊友,如編隊中的其他戰斗機,支持力量,如前方空中管制員,中立力量,如平民,或敵方力量,如對手的戰斗機。在模擬中,這些參與者的角色可以由人類、半自動化部隊(SAFs)或CGFs來完成。半自動部隊有一些執行角色相關任務的功能,例如,多個虛擬實體可以由一個人控制。然而,使用人類專家參與戰術模擬可能既不符合成本效益,也不具有操作性。首先,這些人類參與者是昂貴的資產。其次,由于模擬的目的不是為他們提供訓練,他們可以在其他地方使用。因此,由CGF來扮演這些角色更為有效,只要這些CGF有能力以適當的方式扮演這些角色。
然而,目前最先進的CGFs在許多情況下并不能滿足戰術訓練的需要,因為它們的行為很簡單。除了前面提到的SAFs,可以區分四類CGF-行為(Roessingh, Merk & Montijn, 2011)。
1)非反應性行為,在這種情況下,CGF根據預先確定的行動序列行事,對環境的觀察或反應能力最小;例如,這種CGF能夠遵循由航點定義的路線。
2)刺激-反應(S-R)行為,在這種行為中,CGF對來自環境的某一組刺激或輸入的反應,總是表現出一致的行為;例如,這樣的CGF能夠在能夠連續觀察到飛機位置時攔截飛機。
3)延遲反應(DR)行為,在這種情況下,CGF不僅考慮到當前環境中的一組刺激,而且還考慮到以前的刺激,這些刺激存儲在CGF的存儲器中。這樣的CGF通過記憶以前的位置,能夠攔截一架飛機,即使這架飛機不能被連續觀察到。
4)基于動機的行為,這種CGF結合了S-R和DR行為,但另外考慮到其動機狀態。這些動機狀態是內部過程的結果,可以代表目標、假設、期望、生物和情感狀態。例如,這樣一個CGF可以假設,一架目標飛機的燃料不足,它將返回基地。因此,CGF可能決定放棄攔截。或者,CGF可能預計到飛機的路線改變,并決定在一個更有利的位置攔截飛機。
到目前為止,CGF的一個特點沒有被納入討論,那就是學習行為或適應行為(在Russell和Norvig, 2003的意義上)。表現出S-R、DR或基于動機的行為的CGF,可以在機器學習(ML)的基礎上擴展適應這種行為的能力。ML技術使CGF的發展能夠更好地適應受訓者的專業知識。此外,ML技術還可以防止為每個要解決的具體問題或情況制定一套艱苦的規則(例如 "如果-那么規則"),這些規則是基于對業務知識的人工啟發,而這些知識在很大程度上是隱性的,不能簡單地用邏輯規則來解釋。
本文的目標是說明在 "智能強盜 "項目(2010-2013年)中開發智能CGFs。該項目旨在將類似人類的智能植入模擬任務場景中出現的CGF中。通過Smart Bandits項目,荷蘭國家航空航天實驗室(NLR)和荷蘭皇家空軍(RNLAF)的目標是在模擬戰術戰斗機飛行員訓練領域邁出重要一步。本文的核心信息是,認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知建模的缺點,我們主張額外使用ML技術。這些技術對于減少開發在復雜領域中行動的代理的知識誘導工作至關重要。它展示了如何將不同的方法組合成混合模型。
產生智能行為的一種方法是認知建模。在這種方法中,計算模型被設計來模擬人類的認知。在Smart Bandits項目中,到目前為止已經設計了三個認知模型:一個自然的決策模型,一個驚喜生成模型和一個情況意識模型。所有這三個模型都是利用空戰領域的抽象場景進行評估的。
由于決策是產生任何智能行為的關鍵部分,在項目的早期就開發了一個自然決策模型。該模型的靈感來自于達馬西奧的體細胞標記假說。軀體標記假說提供了一種決策理論,該理論將體驗到的情感作為決策的直覺部分發揮了核心作用,同時將這種直覺部分與理性推理相結合,形成一個兩階段的決策過程。Hoogendoorn, Merk & Treur (2009)對這個模型進行了描述。
驚訝被認為是人類對意外情況的普遍體驗的認知反應,對行為有可識別的影響。然而,在CGF的研究中,很少有人關注驚訝現象,很少有CGF有類似人類的機制來產生驚訝強度和驚訝行為。這就導致了CGF在人類會做出驚訝反應的情況下,其行為是貧乏的和不現實的。對于空戰來說,這形成了一個問題,因為許多軍事專家認為驚訝因素是軍事行動的一個重要因素。
出于這個原因,我們開發了一個產生驚訝強度及其對行為影響的模型(Merk, 2010)。該模型是基于各種理論和對人類驚訝行為的認知研究的經驗結果。除了情境的意外性,其他的認知因素,如情境的新穎性也被考慮在內。
有效決策的一個重要因素是情景意識(Situation Awareness,SA)。SA在工作領域尤其重要,在那里信息流可能相當大,錯誤的決定可能導致嚴重的后果。為此,我們根據Endsley(1995)的SA的三個層次設計了一個模型:(1)對線索的感知,(2)對信息的理解和整合,(3)對未來事件的信息投射。
在Smart Bandits中用于智能CGF的基本SA模型(見Hoogendoorn, van Lambalgen & Treur, 2011)包括五個部分。(1)觀察,(2/3)對當前情況的信念形成,(4)對未來情況的信念形成和(5)心理模型。對當前情況和未來情況的信念通過閾值函數被激活(接收一個激活值),這是一種從神經學領域采用的技術。圖1中的SA模型代表了用于形成信念的領域的知識。人類使用專門的心理模型,這些模型代表了各種觀察和關于環境的信念形成之間的關系,反過來,這些模型又指導了要進行的進一步觀察。
圖1:情況意識的認知模型:概述
另一個重要的方面是在苛刻的環境下可能出現的SA的退化。當時間有限時,感知和線索的整合會受到影響,導致對環境的不完整了解。此外,由于工作記憶的限制,人類并不總是能夠進行所有必要的觀察。根據可用時間的多少,可以通過考慮不太活躍的信念來進一步完善對情況的了解。這些特點反映在智能CGF的行為中。上述模型的詳細描述可以在Hoogendoorn, Lambalgen and Treur (2011)中找到。
機器學習技術的一個常見區別是監督學習和無監督學習(例如Russel和Norvig,2003)。在監督學習中,在每次試驗后,代理人會得到與他應該采取行動的輸入演示(也稱為輸入實例)相匹配的反應。實際反應和預期反應之間的差異被用來訓練代理,就像培訓師或監督員讓學生意識到預期反應一樣。例如,代理人可以通過向其展示正確的反應來學習飛行動作。在無監督學習中,代理只是被告知輸入的例子。代理人必須在所提供的例子中找到隱藏的結構。由于給代理的例子沒有伴隨著反應,所以沒有差異信號來訓練代理。例如,代理可以學習區分友軍和敵軍的戰術。
強化學習具有上述兩種學習技術的要素。代理人在每次試驗后不是被告知正確的反應,而是在每次試驗的執行過程中收到來自環境的反饋。雖然反饋不一定代表每個單獨行動的正確反應,但該學習技術的目的是為整個試驗提供匯總反饋,從而平均強化正確反應。然而,這并不能保證收斂到正確的反應。強化學習的技術實現在Sutton & Barto (1998)中有所解釋。
強化學習特別適合代理在模擬環境中的應用,因為在這種環境中,代理能夠探索環境,從而可以評估大量成功和不成功的反應。另外,在復雜的環境中,所需的反應,如最佳的對手交戰戰術,往往是未知的。強化學習提供了一種技術,通過每次試驗來改進反應,從而發現更好的戰術。
強化學習的一個普遍問題是,它需要大量的內存來存儲中間計算值(反應與代理在其環境中的狀態相結合,如其位置、速度和方向)。在現實的戰術環境中,這實際上轉化為無限量的反應-狀態組合("狀態-行動空間")。在Smart Bandits項目中,模擬了兩架友軍飛機和兩架敵軍飛機之間的空對空交戰,后兩者由學習型代理人代表。在這些交戰中,學習型代理只能以四種方式做出反應(左、右、前和射擊)。在這個例子中,我們將狀態-動作空間存儲在一個表格中,在可接受的學習試驗數量之后,它需要2千兆字節的內存。這種內存需求隨著額外參數的增加而呈指數級增長。驚人的內存需求可以通過對狀態-動作-空間的近似來減少,而不是保留所有的精確值。近似一個大的狀態動作空間的方法是使用神經網絡(NN),這將在下一節解釋。
在一般意義上,NN(Haykin,1998)可以被認為是一個可以模擬任何數學函數的網絡。在這種情況下,我們使用NN來近似上述的狀態-動作空間。NN的輸入是代理人在其環境中的當前狀態。NN的輸出是代理的每個可能行動的值。NN的輸出是在RL算法產生的數據基礎上進行優化的。RL算法的數據不需要再被存儲。事實上,NN是用RL算法產生的數據來訓練的。以前我們需要2千兆字節的內存來解決一個相對簡單的空對空問題,現在我們只需要大約10千兆字節的數據來存儲這個問題的NN知識。這種知識是由NN的權重值表示的。而且,內存需求不再隨著問題的復雜性呈指數增長,而只是呈線性增長。為此,可以使用相對簡單的前饋型NN,而不是遞歸型NN。然而,我們發現有兩個原因要為需要在復雜戰術場景中行動的代理類型開發替代的ML技術。
1)與一些領域不同,如解決象棋等游戲中的問題,其中最佳的下一步行動完全由世界的當前狀態決定,而解決戰術問題的特點是需要使用以前的世界狀態。例如,一個空對空的對手可能會消失一段時間,并可能在不同的位置突然出現,代理人必須考慮到這一點。換句話說,戰術問題的特點是對環境的不完善或不完全了解1。眾所周知,RL技術對這些類型的問題并不太健壯,當面對更復雜的問題時,我們確實經歷了與我們的代理人的正確反應相背離的情況。
2)一些現實的戰術問題需要在當前的決策中考慮到對以前狀態的記憶。正因為如此,基于RL的代理不能很好地適用于現實的戰術問題。對于需要延遲反應行為或基于動機的行為的應用(見第1章),RL可能不是首選技術。
對于空對空領域的更高級問題,下一節將研究進化技術作為RL的替代品。
人工自主系統被期望在動態、復雜的環境中生存和運行。在這樣的環境中,代理人的具體能力是很難事先預測的,更不用說詳細說明了。自主系統的人工進化使代理人能夠在復雜的動態環境中優化他們的行為,而不需要使用領域專家的詳細先驗知識。RL技術假定問題的解決方案具有馬爾科夫特性(見前面的腳注),而進化技術(B?ck, Fogel, Michalewicz, 1997)不受這種約束,適用于更大的問題集。
進化技術使用一個迭代過程,在一個解決方案的群體中搜索適配性景觀,在這種情況下,就是戰術問題的解決方案。種群中更成功的實例在有指導的2次隨機搜索中被選擇,使用平行處理來實現期望的解決方案。這種過程通常受到生物進化機制的啟發,如突變和交叉。許多進化技術的實驗使用神經網絡來控制代理。神經網絡提供了一個平滑的搜索空間,對噪聲具有魯棒性,提供了概括性并允許擴展(見Nolfi和Floreano, 2000)。此外,網絡結構可以被進化或優化以允許延遲響應行為。這些特性與優化網絡的進化方法相結合,為復雜、動態領域提供了一個有趣的研究領域。作為一個例子,我們可以使用智能強盜的進化技術更新SA模型(見第2.3節)的連接強度的權重。
由于像SA模型這樣的認知模型通常有一大套相互關聯的參數,使用主題專家來確定它們的(初始)值是很麻煩的,而且是投機性的和勞動密集的。這就需要使用進化學習技術來為上述觀察、簡單信念、復雜信念和未來信念之間的聯系確定適當的權重。圖2給出了第2.3節中提到的SA模型的網絡表示的一個簡化例子(取自Hoogendoorn, van Lambalgen & Treur, 2011)。
圖2:情況意識的例子模型(Hoogendoorn, van Lambalgen & Treur, 2011)。
為了學習圖2中網絡的連接權重,我們采用了兩種不同的方法(Gini, Hoogendoorn & van Lambalgen, 2011),即遺傳算法應用和基于權重重要性的專門方法。后一種方法被稱為 "基于敏感度 "的方法。這兩種方法都利用了一個健身函數,表示一個解決方案與期望狀態的符合程度。在這種情況下,可以通過實際激活水平和主題專家估計的激活水平之間的差異來衡量適合度。遺傳算法的表現明顯優于基于敏感性的方法。
多Agent系統(MASs)屬于兩類中的一類:集中式或分散式控制的系統。集中式控制系統由具有一定程度自主權的代理組成,但整個系統由一個統一的戰略、方法或代理控制,以實現特定的目標。然而,盡管有整體的統一策略,單個代理并不知道其他代理在做什么,所以團隊策略通常在任務中的不同點與單個代理的策略相沖突。這個問題3已經成為在復雜環境中實施MAS的典型障礙。分散式系統與集中式系統不同,它的代理具有更高的自主性,但缺乏指導所有代理的預先存在的戰略。它們通常有某種形式的通信系統,允許代理在探索其環境的同時制定所需的整體戰略。開發能夠進行空對空戰術的智能CGF的挑戰,直接屬于MAS環境的集中式類別。因此,各個代理必須在同一環境中一起訓練。然而,這使狀態空間以環境中存在的代理數量的倍數膨脹。這是每個代理保持自己對環境的獨特看法的結果,這種看法被記錄在自己的狀態空間中。然而,追求多代理的方法是有道理的,特別是在與領域有關的問題上,不同的飛行成員可能有不同的,可能有沖突的目標和不完整的情況意識。
Smart Bandits項目中用于CGF的仿真環境是STAGE ?,這是一個場景生成和CGF軟件套件。作為一個基本的場景工具,STAGE為我們提供了一定的保真度和抽象度,很適合目前考慮的戰術空對空作戰模擬。當需要更高的平臺、傳感器或武器模型的保真度時,STAGE提供的基本功能將得到擴展。這種擴展CGF環境基本功能的能力是STAGE被選為Smart Bandits的主要CGF軟件套件的原因之一。
傳統上,代理人的刺激-反應(S-R)行為(見第1章)可以通過使用腳本和/或基本條件語句在CGF軟件中實現。結合這些簡單的構件,通常可以為CGF行為提供一定程度的可信度,這對于許多模擬培訓練習來說可能是足夠的。然而,對于更高級的問題和相關的代理行為,包括學習行為,如第2和第3節所述,這種方法將是不夠的。正如前幾節所論述的那樣,存在著大量的技術用于發展CGF行為和在模擬環境中控制CGF。一個標準的CGF平臺并不能滿足實現這些不同的技術。
為了將STAGE作為Smart Bandits中的CGF平臺,同時將CGF的控制權委托給外部軟件(即使用選擇的編程語言構建的特定軟件),我們開發了一個接口,外部軟件可以通過該接口接收來自STAGE中任何CGF的觀察結果,并可以命令CGF在仿真環境中執行操作。這個中間件層(圖3中所謂的調解器)通過特定的協議(nCom,Presagis專有)與STAGE進行實時通信,可以向不同的代理(可能分布在不同的計算機上)發送和接收上述的觀察和行動。為了與調解器通信,外部軟件使用一個特定的接口,該接口定義在一個庫中,可以很容易地鏈接到軟件中,例如用Java或C++。
圖 3:將智能代理納入商用現成 CGF 包(STAGE?)的架構,智能代理可以使用 C++ 或 Java 接口,通過調解器與 STAGE 通信。
本文介紹了一種認知建模的技術和各種機器學習技術。不幸的是,似乎沒有一種單一的技術來解決從事空對空任務的智能CGF的所有突發戰術問題。
認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知模型的缺點,我們主張額外使用機器學習技術。機器學習技術對于減少在復雜領域中行動的CGFs的開發的知識誘導工作至關重要。本文建議將不同的方法組合成混合模型。
這里提出的主要架構的目標有三個方面:
將智能CGF模型與戰術戰斗機模擬脫鉤。
促進人類行為模型與上述模擬的連接過程。
使得智能CGF模型能夠在不同的客戶端進行分配。
這三個特點共同促成了對混合方法的追求。
在Smart Bandits項目中,智能CGF的行為和設計必須適應手頭的戰術訓練目標。在本文中,我們沒有明確地處理訓練要求。然而,在本文中,我們隱含著這樣的假設:作戰戰斗機飛行員的戰術訓練所需的CGF行為包括以下方面:使人類對手吃驚的能力,看似隨機的行為,即不重復的反應,以及從武器平臺的角度來看是真實的。到目前為止,已經創建的智能CGF將在未來的項目階段(2012/2013)根據訓練要求進行驗證。因此,在 "智能土匪 "項目中,未來工作的兩個主要項目是:
實施混合模型,其中認知建模和ML相結合,以及
根據具體的學習目標或能力來調整智能機器人的行為。
強化學習在最近的學術和商業研究項目中的應用已經產生了能夠達到或超過人類性能水平的強大系統。本論文的目的是確定通過強化學習訓練的智能體是否能夠在小型戰斗場景中實現最佳性能。在一組計算實驗中,訓練是在一個簡單的總體層面上進行的,模擬能夠實現確定性和隨機性的戰斗模型,神經網絡的性能被驗證為質量和武力經濟性戰術原則。總的來說,神經網絡能夠學習到理想的行為,其中作戰模型和強化學習算法對性能的影響最為顯著。此外,在集結是最佳戰術的情況下,訓練時間和學習率被確定為最重要的訓練超參數。然而,當武力的經濟性是理想的時候,折扣系數是唯一有重大影響的超參數。綜上所述,本論文得出結論,強化學習為發展戰斗模擬中的智能行為提供了一種有前途的手段,它可以應用于訓練或分析領域。建議未來的研究對更大、更復雜的訓練場景進行研究,以充分了解強化學習的能力和局限性。
人工智能(AI)的進展,特別是深度強化學習(RL),已經產生了能夠達到或超過專業人類水平的系統。這項研究探索了RL訓練人工智能agent的能力,以實現小型戰術交戰中的最佳進攻行為。agent在一個簡單的、總體級別的軍事建設性模擬中接受了訓練,其行為得到了規模和經濟力量戰術原則的驗證。結果顯示,所應用的戰斗模型和RL算法對訓練性能的影響最大。此外,特定的超參數訓練也有助于行為的質量和類型。未來的工作將尋求在更大和更復雜的戰斗場景中驗證RL的性能。
人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。
由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。
AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。
在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。
自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。
一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。
最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。
與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。
將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。
我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。
為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。
圖1: 仿真環境的渲染圖
每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。
每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。
圖2:武器交戰區(WEZ)
WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。
我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。
圖4:PHANG-MAN agent的高層結構
博弈論提供了一些分析工具,旨在幫助人們更全面地理解決策者互動時出現的現象。博弈描述了玩家之間的戰略互動,他們在利益的指引下,意識到自己的行動會影響到對方。所有博弈論模型中的基本實體是玩家。博弈者可以被理解為一個人、一群人或任何類型的組織,甚至是面臨決策挑戰和機會的國家或聯盟。在這方面,"能力 "這一概念為優化國防資源分配所需的規劃 "游戲 "要素提供了維度和變量。本文開發的模型側重于在假設的能力上分配可用的國防資源,以實現對國家安全的最佳響應。參與國防資源管理的戰略決策者與國家安全威脅之間的競爭是一種博弈。
戰爭是一種代價高昂的經濟活動。博弈論提供了一些分析工具,旨在幫助人們更全面地理解決策者互動時發生的現象。博弈描述了參與者之間的戰略互動,他們以自己的利益為導向,并意識到他們的行動會影響對方。所有博弈論模型中的基本實體是玩家。博弈者可以被理解為一個人、一群人或任何類型的組織,甚至是需要做出決定的國家或聯盟。
為了描述一個理論博弈,我們需要明確四個基本要素:玩家、行動、報酬和信息。Rasmussen用PAPI的縮寫來指代這些要素[2]。
為了在博弈論的基礎上建立一個能夠描述最佳防御資源分配的模型,并確定規劃的 "游戲"要素,需要對 "防御能力 "有一個全面的概念性理解。
澳大利亞國防軍將 "防御能力 "定義為 "在指定的環境中,在指定的時間內達到預期的作戰效果,并在指定的時間內保持這種效果的能力"[3]。這包括多種投入的綜合效果,如:人員、組織、訓練、主要系統、物資。美國國防部將軍事能力定義為 "在規定的標準和條件下,通過執行一系列任務的手段和方法的組合,達到預期效果的能力"[CJCSI/M 3010系列]。它包括四個主要部分:部隊結構、現代化、戰備和可持續性。
這兩個定義都是圍繞著 "效果 "的概念。這使我們想到一個問題:"在有限的可用資源(如分配的國防預算)的壓力下,在設計了某些能力以應對某些威脅后,可以采取什么決定來最大化一般的安全效果?"
本文建立的模型側重于在假定的能力上分配可用的國防資源,以實現對國家安全的最佳反應。參與國防資源管理的戰略決策者與國家安全威脅之間的競爭是一種博弈。
由HAVELSAN公司開發的虛擬環境中的部隊(FIVE)模擬器軟件,利用各種虛擬戰爭設備(如武器、傳感器和通信工具等),以安全和具有成本效益的方式提供全面的戰術和行動訓練環境。目前,管理FIVE實體的行為模型高度依賴于由現場專家和系統工程師開發的基于規則的行為。然而,FIVE軟件的基于規則的操作需要密集的編程和現場專家的指導,因此是高度勞動密集型。此外,這項任務的復雜性和負擔隨著場景的復雜性而大大增加。此外,具有基于規則的行為的虛擬實體對其環境有標準和可預測的反應。因此,在這項研究中,我們通過強化學習技術和其他機器學習技術,即FIVE-ML項目,提出了從基于規則的行為到基于學習的自適應行為的過渡研究。為此,我們主要對空對空和空對地兩種情況下的六個虛擬實體進行了基于強化學習的行為模型訓練。據觀察,用強化學習訓練的虛擬實體主導了現有的基于規則的行為模型。在這些實驗中,我們還發現,在強化學習之前,利用監督學習作為起點,可以大大減少訓練時間,并創造出更真實的行為模型。
今天,培訓將使用飛機的飛行員是最重要的。用真實的飛機訓練飛行員是相當困難的,原因包括空域法規、過高的成本和訓練中可能出現的風險,以及創造真實世界場景的復雜性,包括對手或盟友使用的真實防御和戰爭平臺。飛行員訓練中使用的飛行模擬經常與戰術環境模擬結合在一起工作。通過這些戰術環境模擬,飛行員通過控制高保真飛機模型在許多低保真實體的存在下完成場景的訓練。這些低保真資產由計算機創建和控制,通常被命名為計算機生成的部隊(CGF)[1],它們是代表空中、陸地或海上防御或攻擊系統的自主單位。
CGFs被用于人員部署的準備過程、戰術訓練或新戰略的開發。CGFs需要為每個應用(或每個場景)進行不同的編程。這些由傳統方法創造的力量會導致非適應性和不靈活的行為模式。這導致學生在靜態編程的資產面前接受模擬訓練,降低了訓練的質量。當需要新的場景時,需要專家來創建新的場景。此外,由于情景創建將使用經典的控制分支進行,在創建新情景的過程中,考慮所有的可能性往往是不可行的,即使是可能的,也是一項相當有挑戰性的任務。由于這些原因,人們越來越需要更真實的虛擬環境和新的場景來適應不斷變化的世界,以模擬飛行員候選人自己的任務和敵對部隊的當前能力和戰術。
在這項研究中,提出了向以人工智能為導向的行為建模過渡,而不是傳統的特定場景建模,以此來解決前面描述的問題。換句話說,虛擬實體將被轉化為能夠學習的動態虛擬實體。但這些虛擬實體在訓練過程中需要考慮許多情況。首先,他們必須學會對他們用傳感器感知到的環境因素作出適當的反應。然后,它必須識別他的隊友和敵人,并根據他們的等級信息和附加在他們身上的彈藥類型采取行動。它應該能夠與他的隊友合作,采取團隊行動。
為虛擬資產添加智能的機器學習的首選方法是強化學習(RL)[2],其根本原因是:實體將采取的行動有延遲的后果。近年來,與傳統的控制方法相比,RL被認為是解決復雜和不可預測的控制問題的新方法,并在許多領域得到利用,如機器人、計算機視覺、自動駕駛、廣告、醫學和保健、化學、游戲和自然語言處理[3]-[9]。自從將深度學習引入RL概念(即深度RL[10])后,文獻中的研究得到了提升,如許多具有挑戰性的計算機視覺和自然語言處理任務[11]-[15]。
為了這個目的,在這項研究中(即FIVE-ML),已經實現了從HAVELSAN FIVE軟件的基于規則的行為模型向基于RL的行為模型過渡的第一階段實驗。從這些實驗中可以看出,用RL算法訓練的智能虛擬實體在空對空和空對地的情況下都優于HAVELSAN現有的基于規則的實體。此外,模仿學習[16]、[17]和RL的聯合實施也取得了成功,這加快了FIVE軟件的完整過渡過程。
可以預見,通過學習飛行員候選人的選擇來開發新策略的模擬將把飛行員培訓帶到一個非常不同的點。當項目完成后,將設計一個新的系統,允許在其領域內培訓更多裝備和專業的戰斗機飛行員。一個現有的基于規則的場景系統將演變成一個可以自我更新的系統。因此,飛行員候選人將有機會針對智能實體發現的新策略來發展思路,而不是滿足于該領域的專家的知識和經驗。此外,從一個經過大量努力準備的場景機制,計算場景自動化機制將使整個過程自動化。