亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

戰斗機飛行員通常使用模擬器來練習他們需要的戰術、技術和程序。訓練可能涉及計算機生成的力量,由預定的行為模型控制。這種行為模型通常是通過從有經驗的飛行員那里獲取知識而手工制作的,并且需要很長的時間來開發。盡管如此,這些行為模型由于其可預測性和缺乏適應性而通常是不夠的,教官必須花時間手動監測和控制這些力量的各個方面。然而,最近人工智能(Al)研究的進展已經開發出能夠產生智能代理的方法,在復雜的游戲(如圍棋和《星際爭霸II》)中擊敗人類專家玩家。

同樣,人們可以利用人工智能的方法來組成空戰的高級行為模型,使教官能夠更專注于飛行員的訓練進展,而不是手動控制他們的對手和隊友。這種智能行為必須表現得逼真,并遵循正確的軍事理論,以證明對飛行員訓練是有用的。實現這一目標的一個可能方法是通過模仿學習,這是一種機器學習(ML)類型,代理學習模仿專家飛行員提供的例子。

本報告總結了使用模仿學習技術優化空戰行為模型的工作。這些行為模型被表述為控制計算機生成的部隊的行為轉換網絡(BTN),由下一代威脅系統(NGTS)模擬,這是一個主要針對空域的軍事模擬應用。遺傳算法Neuroevolution of Augmenting Topologies (NEAT)的一個改編版本優化了BTNs,使其行為與飛行員行為的演示相似。與大多數ML方法一樣,NEAT需要許多連續的行為模擬來產生滿意的解決方案。NGTS不是為ML目的而設計的,因此圍繞NGTS開發了一個系統,該系統自動處理模擬和數據管理并控制優化過程。

進行了一組實驗,其中開發的ML系統對BTN進行了優化,以模仿三個簡單空戰場景中的例子行為。實驗表明,NEAT的改編版本(BTN-NEAT)產生的BTN能成功地模仿簡單的示范行為。然而,優化過程需要相當長的時間,計算時間長達44小時或模擬飛行時間為92天。緩慢的優化主要是受NGTS不能快速運行同時保持可靠的影響。這個可靠性問題是由NGTS缺乏時間管理造成的,它可以將代理人的狀態與模擬時間戳聯系起來。為了在更復雜的場景和演示中實現成功的行為優化,人們應該在高可靠性的前提下以比實時快得多的速度模擬行為。因此,我們認為NGTS并不適合于未來的ML工作。相反,需要一個為ML目的設計的輕量級空戰模擬,能夠快速可靠地運行。

引言

戰斗機飛行員通過嚴格的訓練學習并保持他們的戰術技能。相當多的訓練是以模擬為基礎的,在訓練中,受訓者面對友軍和敵軍,他們的行為最好能加速訓練并建立起理想的能力。計算機生成的部隊(CGFs),是自主的、計算機控制的實體,被用來扮演這些友軍和敵軍的角色。理想情況下,在基于模擬的訓練中使用CGF應該提供一些好處,如增加飛行員的訓練可用性,減少訓練中對主題專家(SME)的需求。然而,手動模擬CGF的行為,使其對教學作用有足夠的代表性,這是很繁瑣的,而且已被證明具有挑戰性。因此,目前手工制作的行為模型往往是可預測的,不能適應新的情況或在軍事理論、戰術、技術和程序(TTP)方面表現得很真實。在基于模擬的空戰訓練中保持真實的體驗對于確保受訓者獲得必要的技能至關重要。然而,由于CGF的表現和行為被認為是不足的,中小企業往往在訓練中對CGF進行微觀管理,這是不幸的,因為中小企業的成本很高,他們的時間很寶貴,而且數量有限。

人工智能研究的最新進展已經開發出能夠產生智能代理的方法,在復雜的游戲中擊敗人類專家玩家,如圍棋[1]和星際爭霸II[2]。隨著這些進展,學習用于空戰的指導性和適應性代理行為已成為一個越來越受關注的研究領域。然而,為了發揮作用,飛行員模擬的對手和盟友的行為必須是真實的,并符合軍事理論,而不是,例如,試圖不惜一切代價贏得交戰。該研究領域的一些貢獻集中在強化學習方法上,并且已經顯示出一些有希望的結果。然而,即使仔細設計目標函數,強化學習代理也有可能學習到用于飛行員訓練的次優政策,這意味著他們的行為與根據既定理論和TTP所期望的不同。另一種方法是向ML算法提供專家示范,從中提取飛行員的具體知識,并將其納入代理人使用的行為模型。據我們所知,在空戰領域,很少或沒有先前的研究探討過這種方法。

本報告介紹了基于達爾文自然選擇原則的模仿學習算法被用來產生以行為轉換網絡(BTNs)表示的空戰行為模型。雖然BTNs已經出現在之前使用強化學習的空戰行為建模的相關工作中,但這項工作研究了BTNs是否適合模仿學習。下一代威脅系統(NGTS)被用來模擬BTNs,并進行了評估以考慮該模擬系統對機器學習(ML)的適用性。已經開發了一個ML系統,包括使用NGTS和選定的學習算法成功生產空中戰斗機代理所需的工具和方法。這個ML系統自動處理模擬和數據管理并控制學習算法。簡單的空戰場景被定義,并在使用該ML系統進行的一系列實驗中使用,在這些實驗中產生了反映示范飛行員行為的BTN。

為了限制這項工作的范圍,我們做了一些限定。開發的ML系統不是生產級的,而是一個概念驗證。因此,實驗中使用的場景和試點演示保持簡單。具體來說,這些都是一對一的場景,演示僅限于二維空間的運動。此外,行為演示是基于報告作者手工制作的BTN,而不是由專業飛行員制作的。

本報告是為從事軍事訓練和人工智能相關課題的研究人員準備的,最好具有空戰和行為建模的知識,其組織結構如下。第2章介紹了工作的背景,包括與空戰訓練和模擬有關的概念、人工智能理論和相關工作。第3章涵蓋了實驗中使用的選定的學習算法及其配置,而第4章介紹了構成ML系統的過程和工具。第5章和第6章通過定義空戰場景和行為演示來回顧實驗的設置和執行,并介紹了結果。第7章討論了這些結果,以及ML系統和NGTS的性能。第8章本報告的總結和對未來工作的思考。

圖5.2 第一個場景的總結: 逃亡。CGF從它們的初始位置向對方飛去。一旦藍色飛機進入紅色飛機的導彈射擊范圍內,紅色飛機就會轉身向相反方向逃離。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

本書揭示了人類決策的局限性,探討了如何使用人工智能(AI)來優化決策,以提高業務結果和效率,以及展望了決策智能(DI)可以對社會做出的重大貢獻和它可能提出的道德挑戰。 //www.routledge.com/Decision-Intelligence-Human-Machine-Integration-for-Decision-Making-Human-Machine/OCallaghan/p/book/9781032384108 從用于設計自主智能代理的理論和概念,到支持DI系統的技術,以及公司使用決策構建模塊構建DI解決方案的方式,使企業能夠使AI民主化,本書提出了一個令人印象深刻的框架,以整合人工智能和人類智能,以實現不同類型的商業決策的成功。 本書充滿了DI應用的案例研究,以及對該技術的社會影響的更廣泛的討論,《決策智能:用于決策的人機集成》吸引了人工智能和數據科學的學生以及考慮采用DI的企業。 想象一下,你正在做人生中最重要的決定之一,需要對信息進行徹底的分析。不幸的是,你沒有時間收集所有數據并進行深入研究。相反,你可以根據朋友的建議在手機上安裝一個價格合理的應用程序。該應用程序允許你用自然語言提出問題,并使用高度復雜的人工智能模型,根據對大量數據的分析提供快速答案。當你問一個問題時,該應用程序確定哪些數據最相關,收集數據,選擇合適的模型和分析類型,執行分析,做出預測,評估結果,最后以簡要報告、可操作的見解和建議的形式為你提供答案。你現在可以利用大數據和人工智能的力量,以最有效的方式做出最優的決策,而不是僅僅基于直覺做出重要的決策。這聽起來像是科幻小說的情節,但事實并非如此。幫助我們更好更快地做出決定的前沿技術系統今天正在成為現實——這一新興學科被稱為決策智能(DI)。在很大程度上,DI是人工智能的應用,以提高決策的質量和準確性,同時使決策過程更有效。本書的目的是幫助讀者了解DI這一新興學科。他們將探討與個人和組織決策有關的各種概念,包括人類和機器智能體如何做決策,在構建依賴注入系統時使用了什么技術、工具和技術,如何為采用依賴注入做好組織準備,以及如何利用依賴注入做出道德上最優的決策。本書基于對多個領域的數百份研究和文獻的分析,其中包括決策科學、行為科學、管理決策、博弈論、系統思維、決策支持系統、決策建模、商業智能、行為經濟學、人工智能和機器學習等。

付費5元查看完整內容

對蜂群機器人的研究已經產生了一個強大的蜂群行為庫,它們擅長確定的任務,如集群和區域搜索,其中許多有可能應用于廣泛的軍事問題。然而,為了成功地應用于作戰環境,蜂群必須足夠靈活,以實現廣泛的特定目標,并且可以由非專業人員配置和使用。這項研究探索了使用基于任務的蜂群可組合性結構(MASC)來開發特定任務的戰術,作為更普遍的、可重復使用的規則組合,供高級機器人系統工程實驗室(ARSENL)蜂群系統使用。開發了三種戰術,用于對一個地理區域進行自主搜索。這些戰術在現場飛行和虛擬環境實驗中進行了測試,并與預先存在的完成相同任務的單體行為實現進行了比較。對性能的衡量標準進行了定義和觀察,驗證了解決方案的有效性,并確認了組合在可重用性和快速開發日益復雜的行為方面所提供的優勢。

1.1 動機

美國軍方對無人駕駛飛行器(UAV)的研究和利用有很長的歷史,早在第二次世界大戰之前就有了。最近,"捕食者 "無人機的推出,首先作為偵察平臺,后來作為武裝戰斗成員,徹底改變了現代戰爭。使用 "捕食者 "型無人機的優勢很多,而且有據可查,但是這類系統并不能為每一類任務提供通用的解決方案。系統的可用性、便攜性、后勤和維護要求、人力專業化和道德問題只是限制無人機向各級作戰部隊傳播的部分因素。一些人認為,戰爭的下一次革命將來自于蜂群技術:大量低成本的自主系統采用合作行為和分散控制來實現任務目標[1]-[3]。

在過去的十年中,已經進行了大量的工作來擴展無人機群的行為、能力以及指揮和控制(C2)。海軍研究生院先進機器人系統工程實驗室(ARSENL)小組以前的研究推動了以任務為中心的C2方法的發展[4],并通過分散的動態任務分配實現了蜂群自主[5]。然而,在描述高層行為和目標以及在機器人代理的強大分布式系統中實現這些目標方面,設計蜂群系統仍然存在獨特的挑戰。目前的行為實現往往是單一的,而有效的設計需要專家編程。這項研究探索了在一個面向任務的分層框架內組成原始蜂群行為的方法,以自主實現復雜的任務目標。在面向任務的框架內應用行為組合技術,可以促進簡化行為開發和重用,并有可能加速創建復雜的以任務為重點的蜂群行為,用于軍事應用。

1.1.1 蜂群案例

蜂群飛行器并沒有提供將完全取代目前無人駕駛航空系統(UAS)的好處和能力,但它們確實有可能吞并許多目前的能力。然而,更有趣的是,蜂群有可能迫使戰爭行為的技術轉變。在[1]中,Arquilla提出蜂群是一種建立在高度連接和機動能力的小型單位上的戰爭形式,這些小型單位可以快速分散和聚集在一起。Scharre[2]和Hurst[3]通過分析機器人群的屬性及其對現代戰場的潛在影響,闡述了群戰的概念。與目前的無人機系統相比,蜂群通過飛行器的異質性使自己與眾不同,這種異質性提供了單一無人機所不具備的廣泛能力。特別是,合作行為和分散控制所帶來的決策和執行速度,可能再加上人工智能(AI),使蜂群系統具有潛在的決定性作戰優勢。或者正如[2]中指出的,"擁有最智能的算法可能比擁有最好的硬件更重要"。

美國防部已經認識到蜂群技術的內在可能性,并將蜂群行為列為具有 "推動無人系統的巨大潛力 "的人工智能技術之一[6]。這種認識進一步體現在國防高級研究計劃局(DARPA)的項目中,如進攻型蜂群戰術(OFFSET)[7]。各軍種也在各自探索蜂群技術[8],成功的概念驗證包括海軍研究辦公室(ONR)的低成本無人機蜂群技術(LOCUST)[9],海軍航空系統司令部(NAVAIR)的Perdix系統[10],以及NAVAIR對DARPA的CODE計劃的收購[11]。這些計劃不僅探討了自主協作系統的發展,而且還探討了與這些系統相關的C2和人機界面(HSI)要求。蜂群C2和HSI已被確定為建議研究的核心,以使該技術進入軍事應用范圍[2]、[6]、[8]。

1.1.2 蜂群特征

蜂群機器人的研究源于早期的元胞自動機領域的研究。元胞自動機通常可以被描述為一組細胞的數學模型,其中單個細胞的狀態由其鄰居的狀態隨時間變化的某些函數決定[12]。細胞本身的效用是有限的,但一組細胞可以有效地模擬自然和生物模式,而且一些細胞自動機已被證明能夠模擬任何計算機器[12]。

貝尼[13]的早期工作將自動機的概念應用于機器人學。他和Wang[14]的工作創造了"蜂群智能 "一詞,即 "非智能機器人系統表現出集體的智能行為,表現為在外部環境中不可預測地產生特定的有序物質模式的能力。" 該定義后來被完善,指出智能蜂群是 "一群能夠進行普遍物質計算的非智能機器人" [15]。這種蜂群智能的概念是蜂群的一個基本屬性。對于這項研究來說,這個概念可以簡化為:蜂群是一個無人機的集合,這些無人機單獨只能夠進行簡單的行為,但當它們聚集成一個集體系統時,能夠產生特定的額外和更復雜的行為。

確保蜂群中的集體行為產生最終的預期行為是蜂群工程的一個基礎概念[16]。蜂群行為通常依賴于涌現,被定義為由單個智能體構成集體行為,進而產生全系統行為[17]。雖然涌現是蜂群的一個理想和基本特征,但它并不容易預測。意外的涌現行為會表現出潛在的負面后果,降低對系統的信任度[16], [17]。涌現行為不僅在蜂群智能方面得到了廣泛的研究,而且在多Agent系統的背景下也得到了更廣泛的研究,包括經濟、物流和工程等廣泛的應用。因此,有大量的行為問題的涌現算法解決方案,已經成為該領域的基礎。直接適用于機器人群領域的是基于生物的行為集合,如成群結隊[18],螞蟻和蜜蜂群優化[19],以及粒子群優化[20],[21]。在這些問題中的每一個,單個智能體,即本研究中的單個無人機,根據本地知識和對蜂群其他部分的有限知識決定自己的最佳行動。

分散控制和集體行為使關鍵蜂群屬性成為可能:適應性(靈活性)、穩健性和可擴展性[22]。適用于蜂群機器人和蜂群智能的這些屬性的精確定義在[22]-[24]中提供。一般來說,適應性是突發行為的結果,是蜂群在動態環境中實現一系列任務的能力。穩健性源于分散控制,即無論其他智能體是否失敗,單個蜂群智能體仍然可以做出適當的決定;也就是說,即使單個智能體失敗,蜂群仍然可以集體完成行為。可擴展性與此類似,即蜂群的規模應根據需要進行調整,以便在約束條件下完成特定目標。

1.1.3 機器人群

在過去的十年里,隨著低成本機器人和通信組件的普及,蜂群的實現已經取得了快速進展。像Kilobot[25]這樣的開源機器人很容易獲得,而像海軍研究生院(NPS)ARSENL的Zephyr II固定翼和Mosquito Hawk四旋翼無人機這樣更先進的平臺也很容易制造[26]。仿真環境,如Autonomous Robots Go Swarming(ARGoS)[27]、Open Robotics的Gazebo模擬器[28]和ArduPilot的軟件在環(SITL)環境[29],可免費用于測試與物理系統相結合的行為,以加快開發速度。

物理機器人群的C2系統并不像模擬器那樣發達,而且很少有管理機器人群的總體框架。值得注意的框架包括用于無人機的Aerostack[30]和ARSENL的基于任務的蜂群可組合性結構(MASC)[4]框架。此外,C2要求與蜂群的HSI研究密切相關。鑒于蜂群的潛在規模和相對于人的認知能力而言的行為復雜性,蜂群對人類互動提出了獨特的挑戰[31]。由于集體行為的突發性質與軍事環境中固有的嚴格的操作控制結構相匹配,HSI對軍事應用具有特別的意義[32]。在進攻性機動中使用無人駕駛車輛已經引起了倫理方面的爭論,而蜂群的自主性質只會使這個問題更加復雜[33]。

1.1.4 技術現狀

目前對多機器人系統和多機器人任務分配(MRTA)的重要研究工作集中在實現機器人群中復雜行為的規劃和執行。多機器人系統通常依靠任務分配技術和高層規劃來確定實現整體蜂群目標所需的單個平臺行動。有任務的機器人可以利用蜂群智能和涌現來實現子任務目標,但也有可能采用更多慎重的方法。Khaldi[23]和Arnold等人[34]對多機器人系統和蜂群機器人技術進行了比較和分析,重點是蜂群智能的應用。

MRTA的進展通過考慮時間和任務優先級限制的綜合能力匹配,使越來越復雜的任務領域成為可能[35], [36]。例如,NPS的ARSENL小組以前的研究推動了分散的、基于市場的任務分配的發展[5],[37],并在復雜的多域蜂群行動中成功地進行了演示[26]。ARSENL已經成功地采用大型蜂群來合作執行定義明確的復雜任務。對這些系統的有效控制仍然需要操作員的實時監督。

最近的論文如[38]將機器學習和人工智能技術應用于蜂群系統以實現行為發展。在這一領域的工作相對較少,實現先進的蜂群自治的目標,即通過 "提供指揮官的意圖,系統能夠從該指揮官的意圖中找出系統能夠做什么"[11],仍然是相當遙遠的。

1.2 研究目標

這項研究的目的是實施和評估基于MASC的分層解決方案,將能夠自主搜索和調查任務的不同規則組合成更強大的戰術,在異質蜂群上執行。基于市場的任務分配被調整為向參與戰術的平臺分配行為角色。本論文假設,以這種方式組成的簡單行為可以實現與更多單一行為相媲美的性能特征,并且該方法廣泛適用于創建面向任務的一般戰術。這一目標為實現MASC的目標提供了一個步驟,即促進簡單行為的設計和重用,并為任務應用創建越來越有能力的戰術。

對所開發的解決方案進行分析,以驗證復合任務分配方法的使用,并為未來實施和研究異構多無人機群的性能和C2提供建議的基礎。特別是,本論文討論了以下研究問題。

  • 使用組合行為的蜂群與使用單體行為的蜂群相比,其性能是否具有可比性?

  • 在有效性和可用性方面,可組合行為比單體行為有哪些好處(如果有的話)?

  • 哪些性能指標適合于比較行為的實現?

  • 如何將建議的行為開發方法擴展到支持適用于任意任務的行為開發?

  • 所開發的方法是否提供了所需的靈活性和接口,以納入更大的任務控制框架中?

這項研究的范圍僅限于利用原始的規則和算法來組成強大的戰術。它沒有探索或開發在單個平臺上執行行為的算法。

1.2.1 方法

開發了三個符合MASC戰術理念的蜂群行為,該戰術由[4]中描述的更原始的規則組成。這些戰術是作為現有ARSENL規則的組合來實現的。每個戰術都由一個搜索規則和一個調查規則組成,前者指導平臺參與協調的區域搜索,后者指導平臺協調調查一個或多個感興趣的聯系體。這兩種戰術都利用以前開發的拍賣算法進行任務分配[37]。戰術動態地將每個平臺分配到其中一個規則中,并且在任何給定的時間,只有被分配的規則被用來控制平臺。

該戰術是為使用由具有獨特特征的平臺組成的異質群而開發的,這些特征影響了它們執行搜索和調查行為的適宜性。該戰術利用基于市場的方法(即拍賣算法)來考慮單個平臺的能力,具體描述如下。

  • SearchTacticStatic。一種戰術,在行為初始化時,搜索者和調查者的角色被靜態地分配給特定平臺。分配規定了搜索者的最低數量,并有效地按飛機類型優先分配(例如,更快的固定翼無人機被分配為搜索者)。

  • SearchTacticDynamic。采用這種戰術,所有平臺開始時都是搜索角色,但隨著行為的進展,可以在搜索者和調查者角色之間動態切換。當遇到聯系人時,一個單項拍賣被用來重新分配角色。需要改變角色的車輛會推遲執行向新角色的轉換,直到當前分配的任務完成之后。

  • SearchTacticImmediate。這個戰術實現了與SearchTacticDynamic戰術相同的分配方法;但是,搜索者和調查者角色之間的轉換會立即發生,而不是在當前分配的任務完成后發生。也就是說,如果平臺需要轉換角色,一個正在進行的搜索單元或調查任務將被中止。

1.3 論文組織

本論文分為五章。第一章討論了空中蜂群系統的現狀,它們與美國防部的相關性,以及這項研究的動機。第二章對相關的蜂群研究領域及其與本研究的關系進行了更詳細的討論。第三章描述了組成行為的實現,并將其與之前實現的單體行為進行了比較。第四章描述了所利用的實驗過程,并討論了所收集的數據,以提供實施的戰術性能和理論上的最佳性能之間的比較。最后,第五章提供了這項工作的結論和對該領域未來工作的建議。

付費5元查看完整內容

不斷變化的戰爭特點使得信息環境中的行動(OIE)必須處于軍事規劃和執行的最前沿。由于無法與美國的物質力量相提并論,美國的對手越來越依賴包括信息戰能力在內的不對稱方法來破壞美國的行動和影響。未來的聯合全域作戰(JADO)將需要一個綜合的、跨學科的作戰方法。本文認為,針對對手的認知和信息過濾器而采取的蓄意行動將阻礙對手的決策過程,使其失去對有效運用軍事力量作出明智決定的能力。通過研究俄羅斯在信息環境中的行動、信息戰活動以及反射性控制理論,作者提出了決策優勢理論。該理論試圖提供一種方法,故意利用信息來針對對手的行為和信息系統。其目的是剝奪對手感知和認識形勢的能力,并阻礙其有效利用呈現在他面前的信息來做出經過計算的決策的能力。

圖1 決策優勢理論。

決策優勢理論

決策優勢是通過信息力量來實現的,而信息力量是通過控制信息、利用信息和加強信息來保證自己的利益。信息力量可以達到與物質火力相同的效果,甚至更大的效果。它通過預測對手的行動,了解對手的動機,管理和操縱信息,改變決策算法,以及在信息環境中發展機會、活動和投資(OAI)來增強全領域的聯合軍事力量和效力。

  • 決策優勢:一種理想狀態,在這種狀態下,指揮官比其對手更快、更有效地感知、理解、決定和行動。決策優勢在敵人的決策周期內發揮作用,以消除時間上的庇護所,并消除空間上的選擇。

  • 信息力量是利用信息來塑造認知、態度和其他推動預期行為和事件進程的要素的能力。信息力量涉及獲取、處理、分配和運用數據的能力,以最大限度地提高戰斗力。作者進一步斷言,信息力量是通過控制、利用和加強信息來實現的,這使得信息戰的結果能夠持久、靈活和精心計算,以加強戰斗力并拒絕敵人的決策優勢。

信息力量--控制信息、利用信息和增強信息的組合--將使美國能夠把信息環境中的行動納入聯合防衛行動的規劃和執行。這將使規劃者能夠利用信息來實現結果。信息戰能力--信息作戰;電子戰;網絡;以及情報、監視和偵察(ISR)--提供了改變對手的指揮和控制過程,減少決策,并削弱其作戰行動的有效性的手段。信息力量和物質力量相結合,將通過在環境中制造多種困境,造成混亂,延遲或剝奪敵人采取適當行動的能力,從而降低對手的戰斗力。信息力量和物質力量的結合能加強軍事力量。

信息力量的第一個支柱,控制信息,涉及到保護自己的網絡不被敵人破壞或操縱。保持對信息傳輸和信息系統的控制可以確保信息的保密性、信息的完整性以及美國規劃者和作戰單位對信息的可用性。不受限制地進入值得信賴的系統和相關架構,確保最及時和最相關的信息指導決策。剝奪對手對信息的控制權使其無法了解自己的環境,造成不確定性,并使其決策復雜化。

決策也受到信息利用的影響。利用,是指利用資源并從中獲益的行為,包括改變、變更或操縱信息,使之對自己有利。通過了解對手的信息和認知過濾器、信息系統和情報結構,這是最有效的做法。創造信息戰結果的能力取決于精心制作信息并將其置于敵人決策周期中的正確時間和地點的能力。信息可以在四個過濾點被鎖定或武器化--傳感器、分析中心、分發點或個人。利用過濾器,人們可以降低決策者可獲得的信息的收集和質量,導致對情況的不完整或故意的錯誤理解。決策和具體行動是根據對環境的感知理解而做出的。阻斷信息流的能力阻止和延遲了重要數據到達組織,導致感知、理解和發展局勢的能力下降。傳統的信息操作活動與故意和持續地針對對手的過濾器相結合,將有機會同時針對代理人、信息和對所提交信息的解釋。反過來,這可以減緩對手感知、觀察、定位、決定和行動的能力,促進錯誤的結論,并破壞決策能力。

增強信息使人們能夠制定戰略目標和選擇,為對手創造跨越時間和空間的多種困境。 這需要強大的、敏捷的、分層的ISR資源和綜合指揮與控制過程。JADO的規劃和執行需要有能力同時在戰術、作戰和戰略梯隊中,在所有領域和統一的信息空間中進行機動。協調的計劃需要對形勢的理解,觀察模式和行為的能力,以及識別信息和行動環境的變化。支撐一個人加強信息的能力的是信任。信任包含了團體或個人對所收集信息的完整性所賦予的權重。經過處理、過濾和分析的信息能夠回答知識中的一個特定缺口。這種經過處理的信息被稱為情報。有了準確的情報和被充分理解的假設,決策者可以更準確地評估局勢,塑造環境,并削弱對手自己的決策過程。這樣一來--信息,更具體地說是強化的信息(或情報)--是一種武器,可以用來操縱和欺騙對手,剝奪他做出符合自己最佳利益的決定的能力。

控制、利用和增強信息的結合使決策者擁有了信息力量。信息力量使信息優勢得以實現,而信息優勢又能保證決策優勢。增強信息的能力使人能夠觀察敵人的習慣和行為,幫助人了解敵人的動機和意圖,并確定敵人的作戰能力。管理、放大和操縱信息可以使有針對性的、精心設計的信息到達指定的受眾。類似于過去信息傳遞的錯誤信息和虛假信息可以在過濾器上針對敵人。在信息系統的過濾器處進入情報裝置的信息以傳感器、分析中心和向作戰人員分發信息為目標。此外,通過在一個被認為可信的來源處提供虛假或誤導性的信息,可以改變敵人的決策算法。在特定的時間和地點呈現特定的信息可以改變對環境的理解并改變行為。這也會使人改變他的時間范圍。隨著不確定性的增加,一個人可能會根據感知到的情況選擇加快或減慢他的計劃。

雖然這一理論的每一部分,單獨來看,并沒有提出什么新意,但有兩點是明顯不同的。首先,必須把信息放在軍事規劃的最前沿,并與傳統的物質力量相結合。軍事文化認為,物質力量是至高無上的。現代戰爭要求在同等水平上考慮信息和物質力量。第二,控制、利用和加強信息的活動是美國空軍現在所接受的功能;然而,跨領域和跨職能的綜合規劃是有限的。缺少的環節是有意的整合和專門的過程,在一個同步和審慎的過程中納入所有領域的現有能力。為了實現決策主導權并通過信息力量獲得信息優勢,必須將信息環境中的行動納入規劃過程,如聯合規劃過程(JPP)、軍事決策過程(MDMP)、海軍陸戰隊規劃過程(MCPP)和空中聯合行動規劃過程(JOPPA)。指揮和控制必須充分考慮到所有領域--空中、太空、網絡、陸地和海洋--的非動能和動能行動。在信息環境中執行行動的能力要求在行動層面上有一個集中的規劃過程,以同時計劃和執行對信息的控制、利用和加強。這一點目前并不存在。集中化的規劃將使一個綜合的方法能夠與物質火力結合起來。控制可以保護美國的網絡和計劃,同時阻止敵人獲得重要信息。利用允許有機會拒絕、降低、破壞、改變和放大敵方使用的信息。加強為決策、目標定位和環境中的戰術行動提供所需的關鍵ISR收集。信息力量為指揮官提供了有效處理、分析數據和信息并采取行動的機會,同時剝奪了對手的同樣能力。因此,實現決策主導權需要一個協調和同步的計劃,利用控制、利用和加強所有領域和作戰功能的信息,目的是統一信息空間。

本文針對美軍提出的建議

本文闡述了統一信息空間的重要性,以通過在信息環境中的精心策劃和綜合行動實現決策優勢。充分執行聯合全域作戰的能力需要在規劃周期中重新強調信息和信息戰活動。這項研究提出了四項建議:

  • 建議1:聯合部隊應考慮實現信息力量的要求。這項研究和相關的決策優勢理論斷言,信息力量是通過控制、利用和加強信息來實現的。信息力實現了信息優勢,從而保證了決策優勢。信息環境中的運作為物質環境創造了條件。信息力量與物質力量相結合,形成了軍事力量。

  • 建議2:美軍需要進行組織、領導和文化變革,以實現信息力量和決策優勢。信息系統和情報架構必須在所有梯隊中得到整合--戰術、作戰和戰略。戰術任務規劃和更廣泛的作戰規劃必須轉變為將信息置于規劃的最前沿。個人和團隊必須理解信息環境中的行動的重要性,以及這些行動塑造物理環境條件的方式。正規化的領導者發展和專業軍事教育必須強調認知上的轉變,不再將沖突理解為物質力量,而是將信息力量和活動納入規劃、命令和執行。應更加強調了解如何使用和信任信息,如何操縱和處理信息,使之成為情報,以及如何利用信息來實現決策主導權。最后,數字素養應成為未來培訓的一項要求。

  • 建議3:JADO要求有能力評估信息環境中的績效措施和有效性措施。必須制定一個有效的評估程序,以了解和衡量信息環境中行動的影響。應更詳細地研究這一點,因為這將建立信任,并更好地了解信息戰和信息相關活動如何產生軍事力量和作戰成功。

  • 建議4:未來的指揮和控制程序應該能夠整合信息環境下的行動規劃和執行。應該制定一個聯合防務辦公室的軍事力量計劃,以協調和指導所有領域的戰略,并在信息環境中執行行動。這個過程應該與物質和動能規劃相結合,而不是分開,因為信息和與信息有關的活動為物質操作環境塑造和設定條件。

付費5元查看完整內容

軍隊為訓練、規劃和研究目的進行兵棋推演。人工智能(AI)可以通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。以前的研究人員根據強化學習(RL)在其他人類競技游戲中的成功應用,探討了將強化學習(RL)用于兵棋推演。雖然以前的研究已經證明RL智能體可以產生戰斗行為,但這些實驗僅限于小規模的兵棋推演。本論文研究了擴展分層強化學習(HRL)的可行性和可接受性,以支持將人工智能融入大型軍事兵棋推演。此外,本論文還通過探索智能體導致兵棋推演失敗的方式,研究了用智能體取代敵對勢力時可能出現的復雜情況。在越來越復雜的兵棋推演中,對訓練封建多智能體層次結構(FMH)和標準RL智能體所需的資源以及它們的有效性進行了比較。雖然FMH未能證明大型兵棋推演所需的性能,但它為未來的HRL研究提供了啟示。最后,美國防部提出了核查、驗證和認證程序,作為一種方法來確保未來應用于兵棋推演的任何人工智能應用都是合適的。

引言

兵棋推演是成功軍隊的寶貴訓練、規劃和研究工具。自然,美國(U.S.)國防部(DOD)計劃將人工智能(AI)納入兵棋推演。將人工智能融入兵棋推演的一種方式是用智能體取代人類玩家;能夠展示戰斗行為的算法。本論文研究了用智能體取代人類兵棋推演操作員的可行性、可接受性和適宜性。為此,本章解釋了為什么兵棋推演對成功的軍隊至關重要。

A. 軍方為什么要進行兵棋推演

軍隊進行兵棋推演是為了回答關于戰爭的關鍵問題,這些問題必須在實際沖突發生之前被理解。兵棋推演是利用對立的力量模擬實際的戰斗,并由人類的決策來決定[1]。雖然有廣泛的不同類型的兵棋推演,但它們都有一個共同的目標:"獲得有效和有用的知識" [2]。這種劃分很重要,因為兵棋推演的不同目的會導致玩家和游戲控制者的行為不同。圖1顯示了兵棋推演從訓練到分析到實驗的廣泛范圍。

1.訓練用的兵棋推演

最直接的兵棋推演類型是用于訓練的兵棋推演。大型參謀部使用建設性的模擬(數字兵棋推演)來鍛煉他們的參謀過程,并驗證他們的軍事準備。小型參謀部使用虛擬模擬器來訓練他們的戰斗演習和船員演習。軍隊進行這些兵棋推演是為了了解戰爭和鍛煉決策能力[3]。所有隊員的行動和決策一般都要符合已知的條令和戰術、技術和程序(TTP)。對于大型的參謀部演習,對手可能會突破TTP的界限來挑戰參謀部(例如,表現得更有侵略性,但仍然依賴相同的TTP)。

2.用于分析的兵棋推演

兵棋推演可用于分析,即 "確定在部隊對抗中會發生什么"[3]。這些是大多數軍事人員所熟悉的兵棋推演類型:作為行動方案(COA)分析的一部分而進行的兵棋推演。這些類型的兵棋推演允許對戰爭計劃、部隊結構或理論進行評估。在這些戰役中,雙方都要采用已知的理論和TTP,但 "在這些戰役中,創新精神可以自由發揮"[4]。

3.實驗性的兵棋推演

在譜的另一端是實驗性兵棋推演。在這些戰役中,雙方都可以使用新的力量、武器和/或戰術來探索潛在的未來戰爭[5]。歸根結底,組織進行實驗性兵棋推演是為了產生 "關于戰爭問題性質的知識"[2]。美國軍方在演習中整合了這些類型的兵棋推演,如美國陸軍未來司令部的聚合項目和聯合作戰人員評估。

4.兵棋推演的好處

盡管兵棋推演既不是預測性的,也不是對現實的完全復制,但它們確實提供了一些沒有實戰就無法獲得的東西:對戰爭中決策的洞察力。當為訓練而進行戰爭演習時,組織正在學習良好的決策是什么樣子的(包括過程和最終結果)。當為分析而進行戰爭演習時,計劃者正在評估他們在計劃期間做出的決定,以及在執行期間需要做出的潛在決定。

這些好處足以讓美國防部副部長羅伯特-沃克在2015年發布了一份備忘錄,呼吁在整個美國防部重新努力開展兵棋推演[6]。沃克副部長認為,兵棋推演有利于創新、風險管理和專業軍事教育。沃克認為,最終,兵棋推演將推動美國防部的規劃、計劃、預算和執行過程,這是告知國防部資源分配的方法。美國和它的西方盟友并不是唯一相信兵棋推演好處的軍隊。中國正在為兵棋推演投入大量資源,包括將人工智能融入兵棋推演[7]。

B.兵棋推演中的人工智能

人工智能提供了一個機會,通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。為兵棋推演中的許多角色雇用人類操作員是昂貴的。組織必須給自己的人員分配任務(使他們脫離正常的職能)或支付外部支持。這種成本可以通過將人工智能整合到兵棋推演中而消除。兵棋推演分析的速度只能和人類操作者一樣快。用智能體代替操作員可以加快兵棋推演的速度,并允許多個兵棋推演同時發生,從而實現更廣泛的分析。最后,智能體因其在游戲中的創造性而受到關注[8]。創造性的智能體可以通過探索人類戰爭者可能沒有考慮的可能性,使戰爭計劃、部隊編隊或戰術得到更好的分析。

美國國內的國家安全組織認識到將人工智能融入兵棋推演的潛力。人工智能國家安全委員會在其最終報告中主張立即將人工智能能力整合到兵棋推演中,以確保美國及其盟友保持與同行的競爭力[9]。美國陸軍未來的模擬訓練系統--合成訓練環境(STE)設想整合人工智能來監測和調整訓練場景的難度[10]。美國陸軍研究實驗室有許多項目在調查人工智能與軍事指揮和控制系統的整合。具體來說,他們正在探索使用人工智能的一個子領域,即強化學習(RL)來進行連續規劃,以開發 "藍色部隊的新計劃"[11]。連續規劃將需要一個能夠評估其計劃的智能體,可能通過兵棋推演。

基于其他RL智能體在人類競技游戲中的成功,如《星際爭霸II》[12]、《古人防御》(DotA)[13]和圍棋[14],多名研究人員正在研究用于戰爭游戲的RL智能體。像《星際爭霸II》和DotA這樣的實時戰略(RTS)游戲最能代表兵棋推演。與兵棋推演類似,RTS游戲需要在有限的信息環境中進行長期的目標規劃和短期的戰術決策。以前的研究表明,RL智能體可以在兵棋推演中復制理想的戰斗行為[5], [11]。根據Kania和McCaslin的說法,谷歌的AlphaGo成功擊敗了世界上最好的圍棋大師,證明了人工智能可以應用于兵棋推演[7]。

C. 問題陳述

雖然以前的研究已經證明RL智能體可以產生戰斗行為,但實驗僅限于小型交戰。研究人員只要求RL智能體控制三到五個下屬單位。強化學習智能體將需要成功擴展,以滿足涉及幾百個單位的大型兵棋推演的規模要求。

問題是,隨著兵棋推演中單位數量和類型的增加,信息量和可能的動作數量變得難以解決。Newton等人提出可擴展性是一組目標:速度、收斂和性能,同時保持在一組約束條件下:隨著項目規模的增加,成本、計算能力和時間[15] 。分層組織是擴展的一種方法。本論文將研究分層強化學習(HRL)的可擴展性。換句話說,任何可行的、可接受的人工智能集成到戰爭游戲中,隨著戰爭游戲中單位數量的增加,必須仍然顯示出理想的戰斗行為。

除了將人工智能整合到軍事兵棋推演中的可行性和可接受性之外,這種整合還需要是合適的。開發和執行一個失敗的兵棋推演是有可能的,因為從中得出的知識是無效的或沒有用的。Weuve等人[16]解釋了可能導致兵棋推演失敗的不同途徑,他們稱之為兵棋推演病癥。以取代人類操作者為目的的智能體的設計和實施,需要防止兵棋推演的病態,從而確保有效的結果。

這導致了以下的研究問題。HRL是否允許智能體在不損失性能的情況下增加合作單位的數量和有效性?什么框架可以確保智能體的設計和應用正確,以滿足兵棋推演的目的?

D. 研究范圍

本論文延續了[17]和[18]對Atlatl戰斗環境中RL的調查。Atlatl是一個離散的、基于六邊形的兵棋推演,模擬陸地作戰行動。最初的研究使用一個簡單的多層感知器[17]成功地在RL智能體中產生了戰斗行為。隨后的研究使用卷積神經網絡(CNN)架構在復雜的地形和動態的對手中研究RL智能體[18]。

雖然有廣泛的HRL方法,但本研究的重點是封建多智能體層次結構(FMH)。在FMH中,一個單一的R智能體(即經理),將任務分配給一系列被稱為工人的下級RL智能體[19]。本論文比較了在Atlatl中越來越大的場景中采用基于規則的智能體、單一RL智能體和FMH所需的資源和有效性。

兵棋推演是由玩家和裁判員組成的[1]。友軍單位的玩家被稱為藍軍,他們的對手被稱為紅軍,任何一個玩家之外的平民或軍事單位被稱為綠軍。雖然有可能通過使用所有玩家和裁判員的智能體來實現兵棋推演的完全自動化,但本論文只評估了對單個玩家的替換。

本論文還研究了用智能體替換對方部隊(OPFOR)即紅色部隊時可能出現的復雜情況。討論了具體的兵棋推演病癥,并提出了緩解這些病癥的方法。美國防部的驗證、核實和認證(VV&A)框架被應用于通過RL對OPFOR的建模。

E. 研究結果

本論文發現,當FMH智能體以分布式方式進行訓練時,FMH智能體未能比單一RL智能體表現得更好。當經理和工人在同一環境中訓練時,FMH智能體的學習能力有所提高。然而,工人的不一致行動使經理無法制定最佳策略。此外,FMH的訓練要求超過了單個RL智能體的要求,這抑制了FMH擴展到大型軍事兵棋推演的能力。最后,本論文發現,將人工智能整合到軍事兵棋推演中的方法適合于像美國防部的VV&A框架那樣的過程。否則,基于模型的去太原的病癥會使兵棋推演的目標失效,并對美軍產生負面影響。

F. 論文對研究的貢獻

本論文通過進一步研究在建設性模擬中采用完全自主的智能體,對美國政府有直接好處。完全自主的兵棋推演智能體,能夠在多個層次上運作,需要支持兵棋推演的全部范圍。這很容易延伸到軍事規劃期間的決策支持工具,協助規劃者快速評估不同的COA。此外,探索在兵棋推演中使用智能體的適宜性將促進兵棋推演界采用人工智能。

付費5元查看完整內容

摘要

荷蘭的Smart Bandits項目旨在開發顯示真實戰術行為的計算機生成部隊(CGF),以提高戰斗機飛行員模擬訓練的價值。盡管重點在于展示空對空任務中的對抗行為,但其結果更廣泛地適用于模擬領域。

傳統上,CGF的行為是由腳本控制的,這些腳本規定了在一組特定事件中的預定行動。腳本的使用有一定的缺陷,例如,在考慮完整的任務場景時,腳本的復雜性很高,而且腳本的CGF往往表現出僵硬和不現實的行為。為了克服這些缺點,需要更復雜的人類行為模型,并結合最先進的人工智能(AI)技術。Smart Bandits項目探討了應用這些人工智能技術的可能性。

本文解釋了在理論行為模型和用于戰斗機訓練的CGF中的實際實施之間架起橋梁的主要架構。測試CGF的訓練環境包括四個聯網的F-16戰斗機模擬器。這種設置能夠為飛行員提供實驗性訓練,以對抗敵人的戰斗機編隊(以智能CGF的形式)。該架構是通用的,因為它可以滿足各種人類行為模型,在概念上,它們在使用人工智能技術、認知的內部表示和學習能力方面彼此不同。基于認知理論的行為模型(例如,基于情境意識、心智理論、直覺和驚訝的理論)和基于機器學習技術的行為模型實際上都嵌入到這個架構中。

1.0 引言

戰斗機飛行員在模擬器中的戰術訓練已經被廣泛使用。戰術訓練的一個基本特征是除了受訓者之外,還有其他參與者的存在。這些參與者可以是隊友,如編隊中的其他戰斗機,支持力量,如前方空中管制員,中立力量,如平民,或敵方力量,如對手的戰斗機。在模擬中,這些參與者的角色可以由人類、半自動化部隊(SAFs)或CGFs來完成。半自動部隊有一些執行角色相關任務的功能,例如,多個虛擬實體可以由一個人控制。然而,使用人類專家參與戰術模擬可能既不符合成本效益,也不具有操作性。首先,這些人類參與者是昂貴的資產。其次,由于模擬的目的不是為他們提供訓練,他們可以在其他地方使用。因此,由CGF來扮演這些角色更為有效,只要這些CGF有能力以適當的方式扮演這些角色。

然而,目前最先進的CGFs在許多情況下并不能滿足戰術訓練的需要,因為它們的行為很簡單。除了前面提到的SAFs,可以區分四類CGF-行為(Roessingh, Merk & Montijn, 2011)。

1)非反應性行為,在這種情況下,CGF根據預先確定的行動序列行事,對環境的觀察或反應能力最小;例如,這種CGF能夠遵循由航點定義的路線。

2)刺激-反應(S-R)行為,在這種行為中,CGF對來自環境的某一組刺激或輸入的反應,總是表現出一致的行為;例如,這樣的CGF能夠在能夠連續觀察到飛機位置時攔截飛機。

3)延遲反應(DR)行為,在這種情況下,CGF不僅考慮到當前環境中的一組刺激,而且還考慮到以前的刺激,這些刺激存儲在CGF的存儲器中。這樣的CGF通過記憶以前的位置,能夠攔截一架飛機,即使這架飛機不能被連續觀察到。

4)基于動機的行為,這種CGF結合了S-R和DR行為,但另外考慮到其動機狀態。這些動機狀態是內部過程的結果,可以代表目標、假設、期望、生物和情感狀態。例如,這樣一個CGF可以假設,一架目標飛機的燃料不足,它將返回基地。因此,CGF可能決定放棄攔截。或者,CGF可能預計到飛機的路線改變,并決定在一個更有利的位置攔截飛機。

到目前為止,CGF的一個特點沒有被納入討論,那就是學習行為或適應行為(在Russell和Norvig, 2003的意義上)。表現出S-R、DR或基于動機的行為的CGF,可以在機器學習(ML)的基礎上擴展適應這種行為的能力。ML技術使CGF的發展能夠更好地適應受訓者的專業知識。此外,ML技術還可以防止為每個要解決的具體問題或情況制定一套艱苦的規則(例如 "如果-那么規則"),這些規則是基于對業務知識的人工啟發,而這些知識在很大程度上是隱性的,不能簡單地用邏輯規則來解釋。

本文的目標是說明在 "智能強盜 "項目(2010-2013年)中開發智能CGFs。該項目旨在將類似人類的智能植入模擬任務場景中出現的CGF中。通過Smart Bandits項目,荷蘭國家航空航天實驗室(NLR)和荷蘭皇家空軍(RNLAF)的目標是在模擬戰術戰斗機飛行員訓練領域邁出重要一步。本文的核心信息是,認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知建模的缺點,我們主張額外使用ML技術。這些技術對于減少開發在復雜領域中行動的代理的知識誘導工作至關重要。它展示了如何將不同的方法組合成混合模型。

2.0 基于動機的行為建模

2.1 智能強盜模型

產生智能行為的一種方法是認知建模。在這種方法中,計算模型被設計來模擬人類的認知。在Smart Bandits項目中,到目前為止已經設計了三個認知模型:一個自然的決策模型,一個驚喜生成模型和一個情況意識模型。所有這三個模型都是利用空戰領域的抽象場景進行評估的。

2.1.1 自然主義決策

由于決策是產生任何智能行為的關鍵部分,在項目的早期就開發了一個自然決策模型。該模型的靈感來自于達馬西奧的體細胞標記假說。軀體標記假說提供了一種決策理論,該理論將體驗到的情感作為決策的直覺部分發揮了核心作用,同時將這種直覺部分與理性推理相結合,形成一個兩階段的決策過程。Hoogendoorn, Merk & Treur (2009)對這個模型進行了描述。

2.1.2 驚奇的產生

驚訝被認為是人類對意外情況的普遍體驗的認知反應,對行為有可識別的影響。然而,在CGF的研究中,很少有人關注驚訝現象,很少有CGF有類似人類的機制來產生驚訝強度和驚訝行為。這就導致了CGF在人類會做出驚訝反應的情況下,其行為是貧乏的和不現實的。對于空戰來說,這形成了一個問題,因為許多軍事專家認為驚訝因素是軍事行動的一個重要因素。

出于這個原因,我們開發了一個產生驚訝強度及其對行為影響的模型(Merk, 2010)。該模型是基于各種理論和對人類驚訝行為的認知研究的經驗結果。除了情境的意外性,其他的認知因素,如情境的新穎性也被考慮在內。

2.1.3 情境意識

有效決策的一個重要因素是情景意識(Situation Awareness,SA)。SA在工作領域尤其重要,在那里信息流可能相當大,錯誤的決定可能導致嚴重的后果。為此,我們根據Endsley(1995)的SA的三個層次設計了一個模型:(1)對線索的感知,(2)對信息的理解和整合,(3)對未來事件的信息投射。

在Smart Bandits中用于智能CGF的基本SA模型(見Hoogendoorn, van Lambalgen & Treur, 2011)包括五個部分。(1)觀察,(2/3)對當前情況的信念形成,(4)對未來情況的信念形成和(5)心理模型。對當前情況和未來情況的信念通過閾值函數被激活(接收一個激活值),這是一種從神經學領域采用的技術。圖1中的SA模型代表了用于形成信念的領域的知識。人類使用專門的心理模型,這些模型代表了各種觀察和關于環境的信念形成之間的關系,反過來,這些模型又指導了要進行的進一步觀察。

圖1:情況意識的認知模型:概述

另一個重要的方面是在苛刻的環境下可能出現的SA的退化。當時間有限時,感知和線索的整合會受到影響,導致對環境的不完整了解。此外,由于工作記憶的限制,人類并不總是能夠進行所有必要的觀察。根據可用時間的多少,可以通過考慮不太活躍的信念來進一步完善對情況的了解。這些特點反映在智能CGF的行為中。上述模型的詳細描述可以在Hoogendoorn, Lambalgen and Treur (2011)中找到。

3.0 機器學習

3.1 強化學習

機器學習技術的一個常見區別是監督學習和無監督學習(例如Russel和Norvig,2003)。在監督學習中,在每次試驗后,代理人會得到與他應該采取行動的輸入演示(也稱為輸入實例)相匹配的反應。實際反應和預期反應之間的差異被用來訓練代理,就像培訓師或監督員讓學生意識到預期反應一樣。例如,代理人可以通過向其展示正確的反應來學習飛行動作。在無監督學習中,代理只是被告知輸入的例子。代理人必須在所提供的例子中找到隱藏的結構。由于給代理的例子沒有伴隨著反應,所以沒有差異信號來訓練代理。例如,代理可以學習區分友軍和敵軍的戰術。

強化學習具有上述兩種學習技術的要素。代理人在每次試驗后不是被告知正確的反應,而是在每次試驗的執行過程中收到來自環境的反饋。雖然反饋不一定代表每個單獨行動的正確反應,但該學習技術的目的是為整個試驗提供匯總反饋,從而平均強化正確反應。然而,這并不能保證收斂到正確的反應。強化學習的技術實現在Sutton & Barto (1998)中有所解釋。

強化學習特別適合代理在模擬環境中的應用,因為在這種環境中,代理能夠探索環境,從而可以評估大量成功和不成功的反應。另外,在復雜的環境中,所需的反應,如最佳的對手交戰戰術,往往是未知的。強化學習提供了一種技術,通過每次試驗來改進反應,從而發現更好的戰術。

強化學習的一個普遍問題是,它需要大量的內存來存儲中間計算值(反應與代理在其環境中的狀態相結合,如其位置、速度和方向)。在現實的戰術環境中,這實際上轉化為無限量的反應-狀態組合("狀態-行動空間")。在Smart Bandits項目中,模擬了兩架友軍飛機和兩架敵軍飛機之間的空對空交戰,后兩者由學習型代理人代表。在這些交戰中,學習型代理只能以四種方式做出反應(左、右、前和射擊)。在這個例子中,我們將狀態-動作空間存儲在一個表格中,在可接受的學習試驗數量之后,它需要2千兆字節的內存。這種內存需求隨著額外參數的增加而呈指數級增長。驚人的內存需求可以通過對狀態-動作-空間的近似來減少,而不是保留所有的精確值。近似一個大的狀態動作空間的方法是使用神經網絡(NN),這將在下一節解釋。

3.2 強化學習與神經網絡

在一般意義上,NN(Haykin,1998)可以被認為是一個可以模擬任何數學函數的網絡。在這種情況下,我們使用NN來近似上述的狀態-動作空間。NN的輸入是代理人在其環境中的當前狀態。NN的輸出是代理的每個可能行動的值。NN的輸出是在RL算法產生的數據基礎上進行優化的。RL算法的數據不需要再被存儲。事實上,NN是用RL算法產生的數據來訓練的。以前我們需要2千兆字節的內存來解決一個相對簡單的空對空問題,現在我們只需要大約10千兆字節的數據來存儲這個問題的NN知識。這種知識是由NN的權重值表示的。而且,內存需求不再隨著問題的復雜性呈指數增長,而只是呈線性增長。為此,可以使用相對簡單的前饋型NN,而不是遞歸型NN。然而,我們發現有兩個原因要為需要在復雜戰術場景中行動的代理類型開發替代的ML技術。

1)與一些領域不同,如解決象棋等游戲中的問題,其中最佳的下一步行動完全由世界的當前狀態決定,而解決戰術問題的特點是需要使用以前的世界狀態。例如,一個空對空的對手可能會消失一段時間,并可能在不同的位置突然出現,代理人必須考慮到這一點。換句話說,戰術問題的特點是對環境的不完善或不完全了解1。眾所周知,RL技術對這些類型的問題并不太健壯,當面對更復雜的問題時,我們確實經歷了與我們的代理人的正確反應相背離的情況。

2)一些現實的戰術問題需要在當前的決策中考慮到對以前狀態的記憶。正因為如此,基于RL的代理不能很好地適用于現實的戰術問題。對于需要延遲反應行為或基于動機的行為的應用(見第1章),RL可能不是首選技術。

對于空對空領域的更高級問題,下一節將研究進化技術作為RL的替代品。

3.3 進化技術和神經網絡

人工自主系統被期望在動態、復雜的環境中生存和運行。在這樣的環境中,代理人的具體能力是很難事先預測的,更不用說詳細說明了。自主系統的人工進化使代理人能夠在復雜的動態環境中優化他們的行為,而不需要使用領域專家的詳細先驗知識。RL技術假定問題的解決方案具有馬爾科夫特性(見前面的腳注),而進化技術(B?ck, Fogel, Michalewicz, 1997)不受這種約束,適用于更大的問題集。

進化技術使用一個迭代過程,在一個解決方案的群體中搜索適配性景觀,在這種情況下,就是戰術問題的解決方案。種群中更成功的實例在有指導的2次隨機搜索中被選擇,使用平行處理來實現期望的解決方案。這種過程通常受到生物進化機制的啟發,如突變和交叉。許多進化技術的實驗使用神經網絡來控制代理。神經網絡提供了一個平滑的搜索空間,對噪聲具有魯棒性,提供了概括性并允許擴展(見Nolfi和Floreano, 2000)。此外,網絡結構可以被進化或優化以允許延遲響應行為。這些特性與優化網絡的進化方法相結合,為復雜、動態領域提供了一個有趣的研究領域。作為一個例子,我們可以使用智能強盜的進化技術更新SA模型(見第2.3節)的連接強度的權重。

由于像SA模型這樣的認知模型通常有一大套相互關聯的參數,使用主題專家來確定它們的(初始)值是很麻煩的,而且是投機性的和勞動密集的。這就需要使用進化學習技術來為上述觀察、簡單信念、復雜信念和未來信念之間的聯系確定適當的權重。圖2給出了第2.3節中提到的SA模型的網絡表示的一個簡化例子(取自Hoogendoorn, van Lambalgen & Treur, 2011)。

圖2:情況意識的例子模型(Hoogendoorn, van Lambalgen & Treur, 2011)。

為了學習圖2中網絡的連接權重,我們采用了兩種不同的方法(Gini, Hoogendoorn & van Lambalgen, 2011),即遺傳算法應用和基于權重重要性的專門方法。后一種方法被稱為 "基于敏感度 "的方法。這兩種方法都利用了一個健身函數,表示一個解決方案與期望狀態的符合程度。在這種情況下,可以通過實際激活水平和主題專家估計的激活水平之間的差異來衡量適合度。遺傳算法的表現明顯優于基于敏感性的方法。

3.5 多代理系統中ML的復雜方面

多Agent系統(MASs)屬于兩類中的一類:集中式或分散式控制的系統。集中式控制系統由具有一定程度自主權的代理組成,但整個系統由一個統一的戰略、方法或代理控制,以實現特定的目標。然而,盡管有整體的統一策略,單個代理并不知道其他代理在做什么,所以團隊策略通常在任務中的不同點與單個代理的策略相沖突。這個問題3已經成為在復雜環境中實施MAS的典型障礙。分散式系統與集中式系統不同,它的代理具有更高的自主性,但缺乏指導所有代理的預先存在的戰略。它們通常有某種形式的通信系統,允許代理在探索其環境的同時制定所需的整體戰略。開發能夠進行空對空戰術的智能CGF的挑戰,直接屬于MAS環境的集中式類別。因此,各個代理必須在同一環境中一起訓練。然而,這使狀態空間以環境中存在的代理數量的倍數膨脹。這是每個代理保持自己對環境的獨特看法的結果,這種看法被記錄在自己的狀態空間中。然而,追求多代理的方法是有道理的,特別是在與領域有關的問題上,不同的飛行成員可能有不同的,可能有沖突的目標和不完整的情況意識。

4.0 架構

4.1 仿真環境

Smart Bandits項目中用于CGF的仿真環境是STAGE ?,這是一個場景生成和CGF軟件套件。作為一個基本的場景工具,STAGE為我們提供了一定的保真度和抽象度,很適合目前考慮的戰術空對空作戰模擬。當需要更高的平臺、傳感器或武器模型的保真度時,STAGE提供的基本功能將得到擴展。這種擴展CGF環境基本功能的能力是STAGE被選為Smart Bandits的主要CGF軟件套件的原因之一。

4.1.1 中間件(調解器)

傳統上,代理人的刺激-反應(S-R)行為(見第1章)可以通過使用腳本和/或基本條件語句在CGF軟件中實現。結合這些簡單的構件,通常可以為CGF行為提供一定程度的可信度,這對于許多模擬培訓練習來說可能是足夠的。然而,對于更高級的問題和相關的代理行為,包括學習行為,如第2和第3節所述,這種方法將是不夠的。正如前幾節所論述的那樣,存在著大量的技術用于發展CGF行為和在模擬環境中控制CGF。一個標準的CGF平臺并不能滿足實現這些不同的技術。

為了將STAGE作為Smart Bandits中的CGF平臺,同時將CGF的控制權委托給外部軟件(即使用選擇的編程語言構建的特定軟件),我們開發了一個接口,外部軟件可以通過該接口接收來自STAGE中任何CGF的觀察結果,并可以命令CGF在仿真環境中執行操作。這個中間件層(圖3中所謂的調解器)通過特定的協議(nCom,Presagis專有)與STAGE進行實時通信,可以向不同的代理(可能分布在不同的計算機上)發送和接收上述的觀察和行動。為了與調解器通信,外部軟件使用一個特定的接口,該接口定義在一個庫中,可以很容易地鏈接到軟件中,例如用Java或C++。

圖 3:將智能代理納入商用現成 CGF 包(STAGE?)的架構,智能代理可以使用 C++ 或 Java 接口,通過調解器與 STAGE 通信。

5.0 結論與討論

本文介紹了一種認知建模的技術和各種機器學習技術。不幸的是,似乎沒有一種單一的技術來解決從事空對空任務的智能CGF的所有突發戰術問題。

認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知模型的缺點,我們主張額外使用機器學習技術。機器學習技術對于減少在復雜領域中行動的CGFs的開發的知識誘導工作至關重要。本文建議將不同的方法組合成混合模型。

這里提出的主要架構的目標有三個方面:

  • 將智能CGF模型與戰術戰斗機模擬脫鉤。

  • 促進人類行為模型與上述模擬的連接過程。

  • 使得智能CGF模型能夠在不同的客戶端進行分配。

這三個特點共同促成了對混合方法的追求。

在Smart Bandits項目中,智能CGF的行為和設計必須適應手頭的戰術訓練目標。在本文中,我們沒有明確地處理訓練要求。然而,在本文中,我們隱含著這樣的假設:作戰戰斗機飛行員的戰術訓練所需的CGF行為包括以下方面:使人類對手吃驚的能力,看似隨機的行為,即不重復的反應,以及從武器平臺的角度來看是真實的。到目前為止,已經創建的智能CGF將在未來的項目階段(2012/2013)根據訓練要求進行驗證。因此,在 "智能土匪 "項目中,未來工作的兩個主要項目是:

  • 實施混合模型,其中認知建模和ML相結合,以及

  • 根據具體的學習目標或能力來調整智能機器人的行為。

付費5元查看完整內容

前言

從歷史上看,一支部隊的成功與參謀部執行軍事決策過程(MDMP)的能力直接相關。鑒于當今作戰環境的復雜性增加,以及大量的任務指揮系統和程序,與作戰有關的所有活動的整合和同步化越來越困難。

在過去的十年中,從已部署的部隊以及戰斗訓練中心(CTCs)的訓練員那里得到的觀察結果表明,部隊在進行詳細的MDMP方面的能力大大喪失。這種規劃專業知識的缺乏導致了行動的不同步,并最終可能導致士兵的生命損失。

無論是在實際行動中還是在反恐中心的訓練中,計劃時間往往是極其有限的。在這種情況下,部隊往往會省略MDMP的步驟。大多數反恐訓練員都認為,當時間有限時,完全省略MDMP的任何步驟都不是解決辦法,而且往往會降低任務的成功率。在伊拉克和阿富汗的作戰行動導致了在計劃過程中使用非理論性的故事板。這種做法缺乏必要的保真度,無法為指揮官提供他所需要的決策信息,并可能導致行動中失去同步性。

MDMP是一個制定問題解決方案的堅實模式。然而,如果進行MDMP的工作人員不熟悉每一個步驟,這個過程就會變得非常復雜,而且隨著計劃的繼續,在過程早期犯下的錯誤會變得越來越多。

MDMP促進了指揮官、參謀部和下屬總部在整個行動過程中的互動。它為參謀部提供了一個結構,使其能夠集體工作并產生一個協調的計劃。在計劃期間,參謀部成員監測、跟蹤并積極尋求對其職能領域重要的信息。他們評估這些信息如何影響行動方案的制定,并將其應用于他們提出的任何建議。

有許多重要的理論手冊涉及MDMP。**本手冊旨在將這些理論與最近的部署和CTC輪換中的觀察分析相結合,整合成一個單一的來源,對初級領導人進行MDMP是有用的。**通過學習本手冊第13章所列的關鍵理論手冊,可以完成對MDMP的更詳細研究。

簡介

"一個現在猛烈執行的好計劃勝過下周執行的完美計劃"。- 喬治-S-巴頓將軍

規劃是一門藝術,也是一門科學,它理解一種情況,設想一個理想的未來,并制定出實現這一未來的有效方法。規劃幫助指揮官在他們自己、他們的參謀部、下級指揮官和統一行動伙伴之間建立和交流一個共同的愿景。

所有的規劃都是基于對未來的不完全了解和假設。規劃無法準確預測行動的效果、敵人的行為方式,以及平民對友軍或敵人的反應。盡管如此,在U規劃過程中出現的理解和學習具有很大的價值。

規劃活動是一個從概念到細節的連續體。連續體的一端是概念性規劃。了解作戰環境和問題,確定行動的最終狀態,確立目標,并對行動進行廣泛的排序,這些都說明了概念性規劃。

另一端是詳細規劃。詳細規劃將廣泛的行動方法轉化為一個完整和實用的計劃。詳細的計劃可以解決調度、協調或與部隊的移動、維持、同步和指揮有關的技術問題。

陸軍領導人采用三種方法進行規劃,根據問題的范圍和他們對問題的熟悉程度、可用的時間和參謀人員的可用性來確定適當的組合。協助指揮官和參謀部進行規劃的方法包括陸軍設計方法、軍事決策程序(MDMP)和部隊領導程序。

本手冊將簡要討論陸軍設計方法,以及它是如何與MDMP結合和補充的,但本手冊的重點是為指揮官及其參謀人員提供一個工具,以協助理解和實施MDMP。

付費5元查看完整內容

人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。

1 引言

由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。

AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。

在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。

2 相關工作

自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。

一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。

最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。

與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。

3 背景-分層強化學習

將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。

我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。

4 ADT仿真環境

為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。

圖1: 仿真環境的渲染圖

每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。

每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。

圖2:武器交戰區(WEZ)

WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。

5 agent結構

我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。

圖4:PHANG-MAN agent的高層結構

付費5元查看完整內容

摘要

由HAVELSAN公司開發的虛擬環境中的部隊(FIVE)模擬器軟件,利用各種虛擬戰爭設備(如武器、傳感器和通信工具等),以安全和具有成本效益的方式提供全面的戰術和行動訓練環境。目前,管理FIVE實體的行為模型高度依賴于由現場專家和系統工程師開發的基于規則的行為。然而,FIVE軟件的基于規則的操作需要密集的編程和現場專家的指導,因此是高度勞動密集型。此外,這項任務的復雜性和負擔隨著場景的復雜性而大大增加。此外,具有基于規則的行為的虛擬實體對其環境有標準和可預測的反應。因此,在這項研究中,我們通過強化學習技術和其他機器學習技術,即FIVE-ML項目,提出了從基于規則的行為到基于學習的自適應行為的過渡研究。為此,我們主要對空對空和空對地兩種情況下的六個虛擬實體進行了基于強化學習的行為模型訓練。據觀察,用強化學習訓練的虛擬實體主導了現有的基于規則的行為模型。在這些實驗中,我們還發現,在強化學習之前,利用監督學習作為起點,可以大大減少訓練時間,并創造出更真實的行為模型。

引言

今天,培訓將使用飛機的飛行員是最重要的。用真實的飛機訓練飛行員是相當困難的,原因包括空域法規、過高的成本和訓練中可能出現的風險,以及創造真實世界場景的復雜性,包括對手或盟友使用的真實防御和戰爭平臺。飛行員訓練中使用的飛行模擬經常與戰術環境模擬結合在一起工作。通過這些戰術環境模擬,飛行員通過控制高保真飛機模型在許多低保真實體的存在下完成場景的訓練。這些低保真資產由計算機創建和控制,通常被命名為計算機生成的部隊(CGF)[1],它們是代表空中、陸地或海上防御或攻擊系統的自主單位。

CGFs被用于人員部署的準備過程、戰術訓練或新戰略的開發。CGFs需要為每個應用(或每個場景)進行不同的編程。這些由傳統方法創造的力量會導致非適應性和不靈活的行為模式。這導致學生在靜態編程的資產面前接受模擬訓練,降低了訓練的質量。當需要新的場景時,需要專家來創建新的場景。此外,由于情景創建將使用經典的控制分支進行,在創建新情景的過程中,考慮所有的可能性往往是不可行的,即使是可能的,也是一項相當有挑戰性的任務。由于這些原因,人們越來越需要更真實的虛擬環境和新的場景來適應不斷變化的世界,以模擬飛行員候選人自己的任務和敵對部隊的當前能力和戰術。

在這項研究中,提出了向以人工智能為導向的行為建模過渡,而不是傳統的特定場景建模,以此來解決前面描述的問題。換句話說,虛擬實體將被轉化為能夠學習的動態虛擬實體。但這些虛擬實體在訓練過程中需要考慮許多情況。首先,他們必須學會對他們用傳感器感知到的環境因素作出適當的反應。然后,它必須識別他的隊友和敵人,并根據他們的等級信息和附加在他們身上的彈藥類型采取行動。它應該能夠與他的隊友合作,采取團隊行動。

為虛擬資產添加智能的機器學習的首選方法是強化學習(RL)[2],其根本原因是:實體將采取的行動有延遲的后果。近年來,與傳統的控制方法相比,RL被認為是解決復雜和不可預測的控制問題的新方法,并在許多領域得到利用,如機器人、計算機視覺、自動駕駛、廣告、醫學和保健、化學、游戲和自然語言處理[3]-[9]。自從將深度學習引入RL概念(即深度RL[10])后,文獻中的研究得到了提升,如許多具有挑戰性的計算機視覺和自然語言處理任務[11]-[15]。

為了這個目的,在這項研究中(即FIVE-ML),已經實現了從HAVELSAN FIVE軟件的基于規則的行為模型向基于RL的行為模型過渡的第一階段實驗。從這些實驗中可以看出,用RL算法訓練的智能虛擬實體在空對空和空對地的情況下都優于HAVELSAN現有的基于規則的實體。此外,模仿學習[16]、[17]和RL的聯合實施也取得了成功,這加快了FIVE軟件的完整過渡過程。

可以預見,通過學習飛行員候選人的選擇來開發新策略的模擬將把飛行員培訓帶到一個非常不同的點。當項目完成后,將設計一個新的系統,允許在其領域內培訓更多裝備和專業的戰斗機飛行員。一個現有的基于規則的場景系統將演變成一個可以自我更新的系統。因此,飛行員候選人將有機會針對智能實體發現的新策略來發展思路,而不是滿足于該領域的專家的知識和經驗。此外,從一個經過大量努力準備的場景機制,計算場景自動化機制將使整個過程自動化。

付費5元查看完整內容

美國的空中優勢是美國威懾力的基石,正受到競爭對手的挑戰。機器學習 (ML) 的普及只會加劇這種威脅。應對這一挑戰的一種潛在方法是更有效地使用自動化來實現任務規劃的新方法。

本報告展示了概念驗證人工智能 (AI) 系統的原型,以幫助開發和評估空中領域的新作戰概念。該原型平臺集成了開源深度學習框架、當代算法以及用于模擬、集成和建模的高級框架——美國國防部標準的戰斗模擬工具。目標是利用人工智能系統通過大規模回放學習、從經驗中概括和改進重復的能力,以加速和豐富作戰概念的發展。

在本報告中,作者討論了人工智能智能體在高度簡化的壓制敵方防空任務版本中精心策劃的協作行為。初步研究結果突出了強化學習 (RL) 解決復雜、協作的空中任務規劃問題的潛力,以及這種方法面臨的一些重大挑戰。

研究問題

  • 當代 ML 智能體能否被訓練以有效地展示智能任務規劃行為,而不需要數十億可能情況組合的訓練數據?
  • 機器智能體能否學習使用攻擊機、干擾機和誘餌飛機的組合來對抗地對空導彈 (SAM) 的策略?干擾機需要離地空導彈足夠近才能影響它們,但又要保持足夠遠,以免它們被擊落。誘餌需要在正確的時間分散 SAM 對前鋒的注意力。
  • 是否可以建立足夠泛化的表示來捕捉規劃問題的豐富性?吸取的經驗教訓能否概括威脅位置、類型和數量的變化?

主要發現

RL 可以解決復雜的規劃問題,但仍有局限性,而且這種方法仍然存在挑戰

  • 純 RL 算法效率低下,容易出現學習崩潰。
  • 近端策略優化是最近朝著解決學習崩潰問題的正確方向邁出的一步:它具有內置約束,可防止網絡參數在每次迭代中發生太大變化。
  • 機器學習智能體能夠學習合作策略。在模擬中,攻擊機與 SAM 上的干擾或誘餌效應協同作用。
  • 經過訓練的算法應該能夠相當容易地處理任務參數(資產的數量和位置)的變化。
  • 很少有關于成功和不成功任務的真實數據。與用于訓練當代 ML 系統的大量數據相比,很少有真正的任務是針對防空飛行的,而且幾乎所有任務都取得了成功。
  • 對于涉及使用大型模擬代替大型數據集的分析,所需的計算負擔將繼續是一個重大挑戰。針對現實威脅(數十個 SAM)訓練現實能力集(數十個平臺)所需的計算能力和時間的擴展仍不清楚。
  • 建立對人工智能算法的信任將需要更詳盡的測試以及算法可驗證性、安全性和邊界保證方面的根本性進步。

建議

  • 未來關于自動化任務規劃的工作應該集中在開發強大的多智能體算法上。RL 問題中的獎勵函數可以以意想不到的方式徹底改變 AI 行為。在設計此類功能時必須小心謹慎,以準確捕捉風險和意圖。
  • 盡管模擬環境在數據稀缺問題中至關重要,但應調整模擬以平衡速度(較低的計算要求)與準確性(現實世界的可轉移性)。
付費5元查看完整內容
北京阿比特科技有限公司