亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

強化學習(RL)的成功,如《星際爭霸》和《DOTA 2》等視頻游戲達到了高于人類的性能水平,這就提出了關于該技術在軍事建設性模擬中的未來作用的問題。本研究的目的是使用卷積神經網絡(CNN)來開發人工智能(AI)Agent,能夠在具有多個單位和地形類型的簡單場景中學習最佳行為。這篇論文試圖納入一個可用于軍事建設性模擬領域的多Agent訓練方案。八個不同的場景,都有不同的復雜程度,被用來訓練能夠表現出多種類型戰斗行為的Agent。總的來說,結果表明,人工智能Agent可以學習在每個場景中實現最佳或接近最佳性能所需的強大戰術行為。研究結果還表明,對多Agent訓練有了更好的理解。最終,CNN與RL技術的結合被證明是一種高效可行的方法,可以在軍事建設性模擬中訓練智能Agent,其應用有可能在執行實戰演習和任務時節省人力資源。建議未來的工作應研究如何最好地將類似的深度RL方法納入現有的軍事記錄構建性模擬項目中。

引言

A. 戰斗建模和戰爭

正確預測對手在戰爭中的戰略或戰術行為的愿望與人類進行這些戰爭的能力一樣古老[1]。在中國古代,像魏黑和圍棋這樣的游戲最初被用作加強軍事和政治領導人的戰略思維能力的方法。后來,羅馬人利用沙盤在戰役或戰斗前討論自己和敵人的可能行動。然而,直到19世紀初,普魯士人用他們的兵棋推演(Kriegsspiel)才開始利用具有嚴格規則的游戲來預測軍事交戰的可能結果。雖然這些兵棋推演在接下來的幾十年里在世界各地的許多武裝部隊中越來越受歡迎,但進行必要計算的能力有限,總是限制了這些基于棋盤的兵棋推演所能達到的復雜程度。此外,棋盤游戲的物理限制限制了設計者簡化行為和游戲元素,而不是努力追求真實。然而,計算能力的提高和用戶友好的圖形界面使設計者在20世紀末能夠以更高的復雜性來模擬兵棋推演的規則和游戲中的組件數量。此外,計算機的使用允許實施基于計算機的對手,在基于硬編碼規則的人工智能軟件的基礎上成功地與人類玩家進行比賽。

今天,基于計算機的兵棋推演,也被稱為建設性模擬[2],已經成為整個國防部(DOD)的一個有用工具。它們使軍事領導人能夠進一步學習和發展他們在那些通常被認為成本太高或太危險而無法定期演練的領域的行動程序。領導人有能力在實際執行前針對多種紅色力量設計使用他們的部隊,使他們有機會在不承擔任何額外風險的情況下驗證他們的機動方案。在戰略層面上,大型單位的工作人員經常使用建設性的模擬作為訓練方法[3],領導人可以在模擬環境中進行投入,但他們不參與確定場景的結果[2]。

B. 范圍和問題陳述

在基于計算機的兵棋推演中用來表現對抗行為的方法,需要由場景設計者通過腳本直接編碼,或者使用真人玩家進行所有紅軍的決策。這兩種方法都能提供足夠的分辨率來表現對抗性行為,但每種方法都有其缺點[4]。對于低級別的場景來說,直接對特定行為進行編碼可能是可行的,但隨著場景的擴大,單位的數量和可能的行動對于腳本的控制來說變得太有挑戰性,往往會導致不現實的行為[4]。對于大型場景,使用人類玩家作為紅色力量可能會提供更真實的結果,但額外的人力資源會造成后勤方面的壓力,而且整體的生產力也受限于單個玩家的知識和能力。

解決這個問題的一個可能的方法可能在于利用人工神經網絡。在計算機游戲領域,這種方法最近已被證明是相當成功的。例如,對于實時戰略游戲《星際爭霸II》,一個人工神經網絡被開發出來,打敗了99.8%經常參加在線比賽的玩家[5]。雖然在計算機游戲領域,人工神經網絡的利用最近取得了巨大的進展,但在軍事用途的兵棋推演領域,研究才剛剛開始。在最近的研究中,Boron[6]和Sun等人[7].已經表明,人工神經網絡適合解決簡單軍事兵棋推演場景中的挑戰。基于以前的工作,特別是Boron[6]的工作,本論文旨在提高所使用的軍事場景的復雜性。雖然Boron使用了簡單的多層感知器(MLP)神經網絡,但在處理己方和敵方單位的動態起始位置以及敵人的動態行為時,這種結構被證明是不合適的。此外,所使用的場景被限制在戰場上最多五個單位[6]。在本論文中,將建立一個支持卷積神經網絡(CNN)架構的訓練模擬,包括多個單位和地形類型以克服這些限制。此外,將在一個確定的場景中應用多智能體訓練,以測試這種方法是否可以成功地用于軍事建設性模擬領域。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

該項目旨在利用強化學習(RL)開發防御性無人機蜂群戰術。蜂群是一種軍事戰術,許多單獨行動的單元作為一個整體進行機動,以攻擊敵人。防御性蜂群戰術是美國軍方當前感興趣的話題,因為其他國家和非國家行為者正在獲得比美國軍方更多的優勢。蜂群智能體通常簡單、便宜,而且容易實現。目前的工作已經開發了飛行(無人機)、通信和集群的方法。然而,蜂群還不具備協調攻擊敵方蜂群的能力。本文使用預先規劃的戰術模擬了兩個軍用固定翼無人機蜂群之間的戰斗。即使在數量多到100%的情況下,也有有效的戰術可以克服規模上的差異。當用于防御艦艇時,這些規劃的戰術平均允許0到0.5架無人機通過防御并擊中艦艇,這超過了阿利-伯克級驅逐艦目前的防御系統和其他研究的無人機蜂群防御系統。這項研究表明,使用某些機動和戰術有可能獲得對敵人蜂群的戰術優勢。為了開發更有效的戰術,使用RL訓練了一種 "智能體 "戰術。RL是機器學習的一個分支,它允許智能體學習環境,進行訓練,并學習哪些行動會導致成功。"智能體"戰術沒有表現出突發行為,但它確實殺死了一些敵人的無人機,并超過了其他經過研究的RL訓練的無人機蜂群戰術。繼續將RL落實到蜂群和反蜂群戰術的發展中,將有助于美國保持對敵人的軍事優勢,保護美國利益。

關鍵詞 無人機蜂群戰術 強化學習 策略優化 無人機 艦船防御 軍事蜂群

引言

現代計算機科學家試圖解決的問題正變得越來越復雜。對于大規模的問題,人類不可能想到每一種可能的情況,為每一種情況確定所需的行動,然后為這些行動編碼讓計算機執行。如果計算機能夠編寫自己的指令,那么計算機科學的世界可以擴展得更大,以完成更困難的任務。這就是機器學習領域。最近的工作為世界帶來了各種照片分類器、計算機視覺、搜索引擎、推薦系統等等。利用機器學習,計算機甚至能夠學習和掌握蛇、國際象棋和圍棋等游戲。有了這項技術,自動駕駛汽車、智能機器人和自主機械似乎不再是不可能的了。

美國軍方一直在推動技術的發展,使其在戰術上對敵人有優勢。利用機器學習來協助美國作戰,將提高軍事能力。非傳統戰爭的最新發展催生了無人駕駛車輛和無人機等自主智能體戰術蜂群。當務之急是,美國軍方必須建立對敵方類似技術的防御措施,并開發出利用蜂群的有利方法。將機器學習方法應用于多智能體無人機群問題,可以為美國軍隊提供對抗和反擊敵人蜂群的能力。

1.1 動機

美國軍方一直在探索最新的技術進步,以保持對敵人的競爭優勢。蜂群戰術是目前軍事研究的一個主要領域。美國和其他國家正在尋找使用無人機、船只和車輛與現有蜂群技術的新方法。例如,俄羅斯正在開發令人印象深刻的無人機蜂群能力。[Reid 2018] 伊朗已經創造了大規模的船群。[Osburn 2019] 大大小小的國家,甚至非國家行為者都在利用目前的蜂群技術來增加其軍事力量,與美國抗衡。這種對美國安全的可能威脅和獲得對其他大國優勢的機會是本研究項目的動機。如果美國不發展防御和戰術來對付敵人的蜂群,其人民、資產和國家利益就處于危險之中。這個研究項目旨在使用最先進的RL算法來開發無人機群戰術和防御性反擊戰術。研究當前的RL算法,并學習如何將其應用于現實世界的問題,是計算機科學界以及軍事界下一步的重要工作。該項目旨在將現有的RL工具與無人機群結合起來,以便找到能擊敗敵人機群的蜂群戰術和反擊戰術,改進軍事條令,保護美國國家利益。

1.2 本報告組織

本報告首先介紹了促使需要無人機蜂群戰術的當前事件,以及試圖解決的問題的定義。接下來的章節提供了關于無人機、軍事蜂群、強化學習以及本研究項目中使用的策略優化算法背景。還包括以前與RL有關的工作,以及它是如何與當前的無人機和蜂群技術結合使用的。下一節介紹了建立的環境/模擬。之后介紹了目前的成果。建立了兩個不同的場景,并對每個場景進行了類似的測試。第一個是蜂群對戰場景,第二個是船舶攻防場景。這兩個場景描述了實施的程序化戰術,并介紹了這些戰術的比較結果。接下來,描述了RL智能體的設計和RL訓練,并測試其有效性。在介紹完所有的結果后,分析了研究發現,并描述了這個研究項目的倫理和未來方向。

軍事蜂群應用

無人駕駛飛行器被廣泛用于監視和偵查。無人機可以從上面捕捉到戰斗空間的狀況。這些智能體非常小,可以快速地去一些地方而不被發現。無人機有能力收集信息并回傳給蜂群的主機或電子中心。蜂群智能體可以使用信號情報和數據收集戰術從敵人那里收集信息。

美國軍方和世界各地的軍隊正在使用蜂群作為一種進攻性威脅。無人機、船只、甚至車輛都可以在無人駕駛的情況下運作,并作為一個單元進行蜂擁,以攻擊敵人。大量使用小型和廉價的智能體可以使小型軍隊在面對美國軍隊的力量時獲得優勢。例如,小船或無人機可以匯聚到一艘船上,并造成大量的損害,如摧毀船只的雷達。作為一種進攻性技術,蜂群是強大的資產,可以作為一種進攻性戰爭的方案來使用。

作為對進攻性蜂群技術的回應,各國軍隊開始研究并使用蜂群作為防御機制,以對付來襲的蜂群和其他威脅。其他的防御性武器系統并不是為了對抗大量的小型無人機而建造的,因此,發射反蜂群可能是對最新的蜂群戰術的一種可行的防御。蜂群也可用于防御單一實體對來襲的武器系統。研究人員正在創造新的方法來建造、武裝和訓練小型無人駕駛飛行器,以便它們能夠成為美國軍隊的可靠資產。

相關成果

介紹了最近在智能體群體和無人機群的強化學習方面的一些工作。

  • 1 用近似策略優化強化學習對四旋翼飛機進行智能控制

Cano Lopez等人使用當前的強化算法來訓練四旋翼無人機飛行、懸停和移動到指定地點[G. Cano Lopes 2018]。該系統使用了馬爾科夫決策過程,并實現了強化學習的演員評論法,在飛行模擬器中訓練智能體。這些強化學習方法與我們希望應用于無人機群戰術問題的方法類似。使用Coppelia機器人公司的虛擬實驗平臺(V-REP)作為模擬,訓練無人機飛行。他們的訓練策略能夠實現快速收斂。在訓練結束時,他們能夠保持飛行并移動到模擬中的不同位置。這項工作表明,強化學習是訓練無人機操作的一種有效方法。我們希望在這個項目中使用的方法可以用目前的技術來實現。我們將擴展本文的實驗,在類似的模擬中把RL算法應用于固定翼無人駕駛飛機。然而,我們不是只讓無人機飛行和移動,而是要訓練它們一起工作,并戰略性地計劃在哪里飛行和如何操作。

  • 2 多重空中交戰的協調

斯特里克蘭等人利用模擬來測試各種無人駕駛飛行器的戰術,并測試贏得戰斗的決定性因素可能是什么。他們對一個具有戰術的蜂群進行編程,并讓這個蜂群與敵人的蜂群作戰。智能體試圖使用圖8.1所示方法協調對敵方無人機的攻擊。只有當有兩架無人機對抗一架敵方無人機時,這些戰術比單槍匹馬射擊敵人更有效,而且它們與其他成對的無人機之間有足夠的空間。其次,一些特工會飛離敵人,作為保護自己的手段,從不對敵人使用任何攻擊性戰術。[Strickland 2019]

  • 3 多智能體交互中的涌現工具使用

這個項目使用PPO在一個捉迷藏的游戲中使用強化學習來訓練多個智能體。兩個紅色智能體是一個團隊,被指定為尋找者,兩個藍色智能體是一個團隊,被指定為隱藏者。如圖8.2所示,這些智能體在一個有幾面墻和一些積木的開放環境中游戲。智能體可以跑來跑去,對可移動的積木施加壓力。紅隊在看到藍隊時得到獎勵,藍隊在未被隱藏時得到獎勵。兩個智能體都是用自我發揮和策略優化算法進行訓練的。兩隊進行了數百萬次的訓練迭代競爭,并制定了戰術和技術來對付對方的行動。起初,兩個團隊都是漫無目的地跑來跑去,但他們最終發展出一些智能行為來幫助他們獲得獎勵。藍隊學會了如何堵住門,為自己創造庇護所,并從紅隊那里藏起其他物體。紅隊追趕藍隊特工,利用斜坡潛入他們的庇護所,跳到積木上面看墻。這些特工制定的一些戰術甚至比人類程序員指示他們做的更有創意。最重要的是,這些智能體教會了自己如何合作,并為每個智能體分配一個特定的角色,以完成團隊目標。這項研究的結果顯示了強化學習和自我發揮的學習方法的力量。兩個智能體都能發展出智能行為,因為它們之間存在競爭。我們將使用這個項目的框架來解決我們的無人機蜂群戰術問題。將捉迷藏游戲擴展到無人機群戰,將提高強化學習的能力。自我游戲技術在本項目未來工作的RL蜂群對戰部分有特色,該部分詳見第13.3節。[Baker 2018]

  • 4 用自主反蜂群應對無人機群的飽和攻擊

在這項研究中,研究人員利用計算機編程和強化學習模擬并測試了無人機群戰術。該小組創建了一個可能的蜂群戰術清單,包括一個簡單的射手,一個將敵人引向隊友的回避者,以及一個將敵人的蜂群分成子蜂群的牧羊人。研究人員隨后創建了一個模擬器來測試這些戰斗戰術。他們收集了關于哪些戰術最有效的數據,甚至在現實生活中的固定翼無人機上測試了這些算法。我們將在研究的第一階段實施其中的一些戰術,并擴大目前可編程蜂群戰術的理論。

這篇研究論文的第二個方面是實施強化學習方法,使智能體能夠制定自己的蜂群戰術。盟軍無人機在殺死敵方無人機時獲得正獎勵,被敵方殺死時獲得負獎勵。敵方蜂群是用研究第一階段的成功單人射手預先編程的。這個項目的目標是讓智能體制定對抗敵方蜂群的戰術。然而,盟軍的無人機學會了應該逃跑,干脆飛離敵人,以避免被殺死的負面獎勵。因為敵人太有效了,盟軍無人機無法獲得足夠的正向獎勵來學習如何攻擊敵人的蜂群。我們將使用強化學習以類似的方式來訓練智能體,然而我們希望獲得更多的結論性結果。為了防止盟軍無人機逃離敵人,我們將對攻擊和殺死敵人的智能體給予比死亡風險更多的獎勵。我們還可以對智能體進行編程,使其保衛像船只或基地這樣的資產。這個研究項目為我們所做的研究提供了一個良好的基礎。[Strickland, Day, et al. 2018]。

美國海軍學院先前的工作

該研究項目是近期強化學習和無人機群工作的延續。計算機科學領域一直在開發最先進的強化學習算法,如PPO和SAC,該項目旨在應用于當前的無人機群戰術的軍事問題。

MIDN 1/C Abramoff(2019級)研究了無人機蜂群戰術,并在Python中模擬了微型蜂群對蜂群戰斗。他創建了一個二維空間,用一個點代表蜂群中的每個特工。每個智能體可以向前射擊(在它移動和面對的方向)。被另一個智能體的 "子彈 "擊中的智能體被假定為死亡,并從模擬中刪除。阿布拉莫夫創建了蜂群,并編寫了一個蜂群算法,以便特工能夠作為一個整體蜂擁飛行,而不會發生碰撞、分離或破壞蜂群。一旦智能體真實地成群,阿布拉莫夫探索了各種無人機群戰術,如選擇-最近和分配-最近,并測試了它們對敵人群的有效性。選擇-最近 "允許每個特工瞄準離自己最近的敵人。當蜂群向對方移動時,智能體將根據每個時間點上哪個敵人的無人機最近而改變其目標。分配最近的任務給每個智能體一個任務,以消除一個不同的敵方無人機。任務是根據哪個敵方無人機離友軍蜂群最近來決定的,并在每一幀重新更新。阿布拉莫夫對兩個蜂群的模擬戰斗進行了實驗,以測試哪種蜂群戰術最有效。他還嘗試使用反蜂群戰術進行戰斗,如在蜂群前面派出一個 "兔子 "特工,并分成子蜂群。總之,阿布拉莫夫發現,在他的實驗中,"最近分配 "是最有效的,一些反蜂群戰術也很成功。這些結果不是結論性的,但顯示了在發展蜂群和反蜂群軍事戰術方面的進展。本研究提案將在MIDN 1/C Abramoff的工作基礎上進行擴展,創建一個3-D環境模擬,并改進智能體能力,以代表一個現實的無人機群戰。這個研究提案的環境將有一個更大的戰斗空間,智能體可以采取更多的行動,包括改變高度、武器瞄準和蜂群間的通信/團隊合作。

MIDN 1/C湯普森(2020級)建立了一個三維環境,他用來模擬更多戰術。這個環境比MIDN 1/C阿布拉莫夫使用的更真實地模擬了現實世界的戰斗空間。蜂群要在三維空間中自由移動,并根據現實世界的物理學原理采取相應的行動,即重力和高度以及飛機上可行的轉彎率。圖8.3顯示了湯普森的Python環境模擬。左上角的無人機群被染成藍色,代表盟軍的無人機群。右下角的無人機群為紅色,代表敵人的無人機群。盡管在二維顯示中,每架無人機周圍的圓圈代表高度。在圖8.3中,更大的圓圈顯示了更高的高度,這意味著敵人的蜂群比盟軍的蜂群要高。MIDN 1/C湯普森固定了環境的三維方面,并將無人機融入該空間。他還研究了每架無人機的轉彎率,以確保模擬符合現實生活中的無人機規格。

蜂群vs蜂群場景

模擬開始時有兩個由任何數量的無人機組成的蜂群。每隊的無人機都被初始化在比賽場地各自一側的隨機位置上。模擬開始時,兩隊都起飛了。每隊都執行給定的戰術,可以是預先編程的,也可以是智能體學習的。如果進行了多輪比賽,每隊的勝負和平局都會被計算在內。

艦艇攻擊和防御場景

模擬開始時有兩個任意數量的無人機群。防御隊被初始化在放置在比賽場地中心的飛船中心。這艘船是靜止的,不會還擊,但它會計算它所收到的無人機的數量。進攻隊被初始化在比賽場地的一個隨機位置,該位置距離飛船中心至少有200米。模擬開始時,兩隊都要起飛。每隊都執行給定的戰術,可以是預先編程的,也可以是智能體學習的。如果進行多輪比賽,每隊都要計算無人機擊中飛船的總次數和剩余的防御性無人機數量。

付費5元查看完整內容

在這項研究中,提出了一種智能兵棋推演方法,以評估軍事行動方案在作戰成功和資產生存能力方面的有效性。擬議的應用是基于經典的軍事決策和規劃(MDMP)工作流程開發的,以便于在現實世界應用中實施。本研究的貢獻有三個方面:a)開發一個智能兵棋推演方法,以加速MDMP中的行動方案(COA)分析步驟,從而為軍事行動創造更多的候選COA;b)產生針對對面部隊的有效戰術,以提高作戰成功率;以及c)為未來的系統開發一個高效的、基于可視化兵棋推演的MDMP框架,這些系統需要一個小型操作團隊來監督一個自動智能體網絡。為了評估系統的能力,執行了幾個交戰場景示例,并給出了結果。此外,研究了自動智能體的兵力組成問題,并提出了具有超參數調整結構的兵力組成算法。

引言

隨著無人系統在復雜任務中的作用越來越突出,包括情報、監視和偵察行動,最近的應用傾向于轉向異構的無人系統組合之間的合作,以執行這些行動并獲得高任務成功率[1]。為了完成復雜的任務,異質智能體之間的合作帶來了對多域作戰能力的需求,其中人工智能(AI)輔助的兵棋推演策略發揮了重要作用[2]。特定的目標,如使用人工智能來發現戰術,這可能會通過現有的軍事能力提高作戰效益,或可能為新的軍事能力提出有效的使用概念。人工智能決策最近集中在開放型游戲,即所有玩家都能看到所有的游戲狀態,或封閉游戲,即存在有限的兵棋靈活性。然而,在戰術和戰略層面上對決策策略進行建模需要有新的算法,這些算法可以在規則變化、不確定性、個人偏見和隨機性的動態環境中運行[3]。

戰術模擬是MDMP的一個重要組成部分,MDMP是軍隊制定作戰計劃、預測敵方部隊的反擊行動和評估擬議作戰計劃有效性的理論方法,因為它提供了一個安全和替代性的與武裝沖突有關的一些情況和決策動態的再現。雖然 "兵棋推演"一詞沒有統一的定義,但普遍接受的定義可以追溯到19世紀初。它被認為是通過任何手段,使用特定的規則、數據、方法和程序來模擬軍事行動[4]。因此,在進行MDMP的定義和重要性之前,必須對兵棋推演做出明確的說明。MDMP始于從上級總部收到的任務。然后,通過利用其他來源的情報進行任務分析。在下一步,處理指揮官的意圖、行動要求和可用資源,以制定行動方案(COA),包括任務組織計劃。在制定行動方案后,通過兵棋推演進行行動方案分析,重點是行動、反應、反擊和裁決過程,以重新確定行動方案和潛在決策點。

圖1 軍事決策過程總結。

在MDMP中,COA分析通常被稱為兵棋推演,它將COA的發展與COA的比較和批準聯系起來[5]。在比較步驟中,每一個COA都根據規定的標準進行評估,如簡單性、機動性、熱能、民用控制和規模性,這些標準在一個決策矩陣中被賦予了評估的權重。此外,從比較步驟中選出的COA應具有最小的風險、最大的安全性和靈活性。然后,根據COA的比較結果完成COA的審批過程,在最后一步,指令生成并與相關單元共享[6]。從總體上看,圖1給出了MDMP的整體流程。

在這項研究中,提出了開發情報、監視和偵察(ISR)和壓制敵人防空(SEAD)作戰計劃,這些計劃由上層人工智能和輔助的、分布式的決策策略支持,以評估生成的COA的成功概率、資產的生存能力和作戰效率。這個過程是在經典的MDMP方案的基礎上發展起來的,以便于在現實世界的應用中實施,它能夠在行動前或行動中提供快速評估和客觀比較COA。這個過程從接收來自MDMP第二步的任務分析結果開始。在COA開發步驟中,最初的任務分配過程是利用CBBA算法進行的,該算法能夠解決具有分布式的通信結構、異質集合和在線重新規劃要求的分配問題。在創建了幾個行動計劃(即COA)后,它們被輸入兵棋推演過程以評估其有效性。之后,這些行動方案在成功概率、生存能力和成本方面被相互比較,最有效的方案被送去審批步驟。圖2給出了重點框架的總體概況。

圖2 COA生成框架。

本研究的貢獻有三個方面:a)開發一種智能兵棋推演方法,以加速MDMP中的行動方案分析步驟,從而為軍事行動創造更多的候選COA;b)產生針對對面部隊的有效戰術,以提高作戰成功率;c)為未來的系統開發一種有效的、可視化的和強大的基于兵棋推演的MDMP框架,這些系統需要一個小型的操作團隊來監督自動智能體網絡。本研究的其余部分結構如下:在第2節,將對文獻中的相關研究進行調查。第3節描述了問題陳述,第4節給出了針對該問題的解決方案所需的背景。在第5節中,將給出在創建這項工作時遵循的方法,第6節展示了模擬研究的結果。最后,第7節是文章結尾。

相關工作

兵棋推演模擬被用作不同領域的決策工具,從商業到軍事[8],從沖突場景到監視或危機演習,從軍事角度看搜索和救援任務[9] 。在Filho等人[10]中,使用兵棋推演的方法優化了無人機在超視距戰斗中的位置。考慮到兵棋推演中敵人的不確定性,研究了友軍蜂群團隊戰術編隊的有效性。Chen等人[11]提出了一個基于決策樹的城市暴雨情況下的緊急救援兵棋推演模型。在該模型中,雖然敵人的任務僅限于道路積水,但友軍團隊由試圖防止這種積水的應急車輛組成。Su等人提出了基于地理信息系統(GIS)的兵棋推演援助平臺,以防止臺灣地區的蓄水[12]。基于兵棋推演的策略的另一種使用方法是危機演習,Song等人指出,兵棋推演是一種有效的危機演習方式,成本低,方式方便[13]。

一個有效的兵棋推演策略取決于對下屬指揮官完成任務所需資產的準確和最佳分配/配置[7]。許多方法已經被開發出來,使智能體能夠根據已知行動的任務列表在他們之間分配任務。這些方法的主要思想是不僅要提高任務的有效性,而且要降低行動成本和風險。集中式任務分配,需要在智能體和中央服務器之間建立通信聯系,為整個團隊生成一個分配計劃。由于集中式系統能夠減少地面處理要求的負擔,它們能夠有效地使代理人更小、更便宜地建造。此外,據調查,在集中式任務分配系統中使用啟發式方法,如遺傳算法[14-16]和粒子群優化方法[17-19],在計算時間方面有更好的表現[20]。另一方面,由于集中式任務分配的結構,智能體和行動基地之間應保持持久的通信,以提供合作,這需要發送/接收操作更新。這種對通信系統的要求直接影響到智能體組的能力和穩健性。

與集中式應用相反,可以通過利用分布式方法來提高兵力組合的性能和穩健性,在這種方法中,需要智能體之間的通信來獲得對特定任務集的共識。這種類型的通信拓撲結構在智能體損失、通信損失和任務列表的實時更新(即添加和刪除任務)的情況下增加了兵力組合的穩健性[21]。在這種情況下,文獻中已經研究了消除對中央基地的需要的分布式規劃方法。這些方法中的大多數都假設有完美的通信,并有一定的帶寬,以確保智能體在規劃前有相同的態勢感知。然而,這在現實世界的場景中很容易被違反,包括搜索和救援任務,在這些場景中,智能體的通信范圍有限或通信渠道的帶寬有限[22]。在態勢感知不一致的情況下,分散的任務分配算法可以通過利用基于共識的算法,如基于共識的捆綁算法(CBBA)來增強,以便收斂在一個一致的解決方案上[23-25]。不僅有可以集成到分布式框架中的共識算法,文獻中也有基于部分可觀察馬爾可夫決策過程(POMDP)的方法[26]。盡管共識算法保證了信息的收斂,即達成共識,但這可能需要大量的時間,并且經常需要傳輸大量的數據,這可能導致在低帶寬環境下的高延遲,并增加了為無人系統找到最佳任務分配解決方案的處理時間[27]。也有一些關于中間層次結構的報告,即混合結構,介于集中式和分布式結構之間,用于從兩種方法的優點中獲益[28]。

盡管有許多嘗試試圖解決無人駕駛異構飛行器的任務分配問題,而且前面提到的所有研究都考察了底層自動化(以規劃和控制算法的形式)分配異構無人駕駛飛行器(UxVs)網絡的能力,但在產生COA的MDMP中整合增強/高級人工智能生成的指導和輔助決策支持是至關重要的[29]。一些初步的嘗試,如國防高級研究計劃局(DARPA)的 "拒止環境中的協作行動"(CODE)計劃和 "分布式戰斗空間管理"(DBM)的廣泛機構公告(BAA),被提出來改善人類與自動化的協作和決策,通過執行一系列自動化和自主行動來協助戰斗管理者和飛行員[30]。然而,這種具有不同任務分配方法的框架可能是脆弱的,無法對突發事件做出反應。這樣的系統可以通過人類操作者帶來他們基于知識的推理和經驗來緩解[31]。

因此,很明顯,任務規劃者和平臺內的操作者框架都應該被仔細構建。模擬和分析這種框架的最重要的平臺之一是兵棋推演,它被用來執行關于未來部隊資產、軍事能力的決策,并為許多行動做準備。兵棋推演能夠以許多不同的方式執行,從研討會的兵棋推演,到手工棋盤游戲,再到復雜的計算機輔助兵棋推演[32],其中由計算機判斷交戰的后果[33]。

關于該主題的初步研究以來,智能兵棋推演對于促進軍事決策是否有價值一直受到質疑[34]。這些系統在決策過程中的作用也在四個主要學科下進行了討論,即傳感、態勢感知、計劃生成和學習[35, 36]。在這些討論之后,隨著人工智能學科的進步和技術的發展,據報道,將人工智能應用于軍隊的MDMP具有很大的潛力,可以支持指揮中心對競爭激烈和更加復雜的戰場進行規劃,因此Schwartz等人在輔助性人工智能架構中用遺傳算法(GA)來解決這個問題[37]。Boron等人將基于人工智能的兵棋推演整合到決策過程中,他們在不同的戰斗場景中使用強化學習(RL)來評估其算法的性能[38]。Xin等人考慮了以往研究中通常被忽略的不確定性,因此他們提出了一個名為混合智能多分支兵棋推演的解決方案,通過融合基于RL的人工智能方法和人類智能來考慮不確定性[39]。最近,Tarraf等人提出了一個兵棋推演框架,其中規則和交戰統計用于商業桌面兵棋推演,以實現遠程操作和完全自主的戰斗智能體和具有AI/ML支持的態勢感知的智能體[40]。Goecks等人討論了過去和現在關于游戲和模擬器以及人工智能算法如何被調整以模擬軍事任務的某些方面的努力,以及它們如何影響未來的戰場。此外,他們研究了虛擬現實(VR)和視覺增強(VA)系統的進展如何為游戲平臺的人機界面及其軍事提供新的前沿[41]。

基于共識的捆綁算法(CBBA)

在MDMP的步驟2中確定了問題、任務要求、假設和評估標準后,重要的是將藍隊的軍事單位分配給合適的紅隊任務。這是通過利用基于共識的捆綁算法(CBBA)[27]來完成的,該算法支持分布式的、異構的任務和動態環境。在本節中,將給出和描述CBBA算法的細節。

CBBA是一個去中心化的基于市場的協議,它為異質智能體網絡上的多智能體多任務分配問題提供了可證明的良好近似解決方案,并通過使用去中心化的通信方法來解決協調異質自主車輛的任務分配問題[27]。這種類型的通信拓撲結構消除了對中央基地的需求,并且在智能體損失、通信損失和任務列表的實時更新(即添加和刪除任務)的情況下,它增加了任務組的穩健性。CBBA是由兩個階段交替進行的迭代組成的:第一階段是捆綁構建階段,其中每個車輛貪婪地生成一個有序的工作捆綁,第二階段是共識階段,其中相鄰的智能體之間通過本地通信找到并解決沖突的任務。圖3展示了CBBA的內部循環。

方法

A 仿真環境

為了創建可支持、可擴展和易修改的模塊化架構,我們決定將智能任務規劃器分成四個子組。引擎模塊包括主要的引擎腳本,它包含了關鍵的方法,如任務分配、尋路、戰略、交戰和其他一些重要的方法,以便在模擬過程中前進。引擎腳本中的任務分配方法使用基于共識的捆綁算法(CBBA),該算法也在引擎模塊中。環境模塊包括腳本中的世界對象,它給出了仿真環境的邊界,也是這個環境的網格表示,并附有任務、地形、敵人存在的費用。模型包含關于模擬過程中使用的代理和任務的必要信息。為了創建異質智能體,UAV、UGV、USV和近距離防空(CAD)智能體對象被單獨創建,團隊對象被創建用于設置敵方團隊并跟蹤團隊所做的動作。視圖模塊負責以視覺角度表示結果。圖4給出了智能任務規劃器的模塊結構概要。

B 生成殺傷力熱圖

在模擬環境中,殺傷力熱圖在空中、地面和海上層生成,以模擬特定區域內敵對力量的火力。這些熱圖是基于內核密度估計(KDE)算法生成的,該算法用于估計地圖上某一點相對于對面部隊位置的危險等級(即對面部隊的有效等級)。在這項研究中,假定軍事單位根據范圍的致命性分布被建模為夸特函數或埃帕尼科夫函數,如公式5所示。

其中d是軍事單位與地圖上指定點(即相關六邊形的中心)之間的距離。對于在d=0時的殺傷力計算,分布的最大值被縮放為1。 圖5中給出了空中、地面和海上層的熱圖生成結果示例。這里給出了a)地面層、b)海軍層和c)空中層的紅隊單位的殺傷力熱圖。在地面層,UAV、UGV、USV和CAD單位都是對藍軍的有效威脅,在給定的自由區域。在海軍層,USV是主要威脅,但UAV、UGV和CAD也是有效的。在空中層,乍一看,似乎對藍隊沒有威脅,因為紅隊的UAV、UGV和USV對藍隊的空軍沒有效果。然而,如果CAD資產存在于該地區,它將是對藍隊的關鍵威脅,結果將是致命的。

圖 5 紅隊在 a) 地面、b) 海軍和 c) 空中層的殺傷力熱圖。

圖 6 示例案例:地面層紅隊的殺傷力熱圖

圖6給出了模擬環境的另一個例子。為了便于可視化,沒有在環境中插入CAD單元。這里給出了地面層的無人機、UGV和USV的殺傷力熱圖。在這種情況下,與地面層的USV相比,UAV和UGV的殺傷力相對較高,因為USV的射程和效率有限。這可以通過利用表1中給出的軍事單位的效率表來直接模擬。該表提供了每種類型的資產對不同層的破壞效率的信息。

表1每種資產的損害效果表。

C 戰斗模型

戰斗模型對戰斗實體、它們的行為、活動和相互關系進行抽象和簡化,以回答與國防有關的研究問題。沒有一個通用的模型可以回答所有的問題,即使可以構建這樣的模型,它也會變得比現實更復雜,因為它不僅包括真實的系統,還包括想象中的系統。戰斗模型可以是隨機的,也可以是決定性的。直觀地說,一個隨機的模型假設關于某種情況的不確定或概率性的輸入,并對結果作出不確定的預測。一個確定性的模型準確地指出將會發生什么,就像沒有不確定性一樣。更正式地說,一個隨機模型需要用概率理論的術語來描述,而一個確定性的模型則不需要。

其中F, HP, L, PH, PD , PT, PW, PL分別是總火力、火力健康度、致命性、命中概率、探測概率、瞄準系統可靠性、武器可靠性和層效率。在這里,建立軍事單位的損傷矩陣也很重要,它決定了它們在交戰中對敵軍的有效性。在模擬環境中,損害矩陣被假定為表1中的內容。通過使用這些定義,每個資產的生存能力被建模為公式7和8中給出的。

其中Fk、Mk是相關團隊在時間k的火力和機動性。Fok是敵對部隊在時間k的火力。

D 評估指標和作戰評估

有效的評估包括定量(基于觀察)和定性(基于意見)指標。人的判斷是評估的組成部分。任何評估的一個關鍵方面是它對人類判斷的依賴程度,以及對直接觀察和數學嚴謹性的依賴程度。嚴密性解決了不可避免的偏見,而人的判斷將嚴密性和過程集中在往往是成功關鍵的無形因素上。口頭定義是直截了當的陳述,但為了以智能方式訓練整個系統,將這些句子表示為數學指標是關鍵。從口頭到數學指標定義的過渡是一個開放式的程序,它可以通過手動選擇的方式來捕捉最佳決策[42]。

為了評估紅隊和藍隊的機動性和火力能力,制定了幾個戰斗力評估指標,如公式9和10所給出。

作戰兵力組成

兵力的組成與CBBA的評分功能密切相關,具體如下。

這個函數給出了一個智能體在時間tj到達任務時從任務j中得到的分數。分數由兩部分組成,第一部分是任務的名義獎勵,Rj(aj),它是aj的函數,即分配給任務j的智能體指數,第二部分是折扣函數,它是任務j的到達時間的函數,tj。λ是一個折扣系數,用于解釋目標值隨時間的減少。這個系數包含在目標函數中,以更好地代表現實世界中的問題,即訪問目標的價值與訪問的時間成比例地減少[43]。

由于折扣系數改變了任務到達時間的影響,它需要根據世界的大小進行調整。因此,我們提出了以下結構,從圖7中可以看出,以克服選擇最佳折扣系數和兵力配置的問題。

圖7 基于λ搜索算法的兵力編碼器結構

付費5元查看完整內容

軍隊為訓練、規劃和研究目的進行兵棋推演。人工智能(AI)可以通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。以前的研究人員根據強化學習(RL)在其他人類競技游戲中的成功應用,探討了將強化學習(RL)用于兵棋推演。雖然以前的研究已經證明RL智能體可以產生戰斗行為,但這些實驗僅限于小規模的兵棋推演。本論文研究了擴展分層強化學習(HRL)的可行性和可接受性,以支持將人工智能融入大型軍事兵棋推演。此外,本論文還通過探索智能體導致兵棋推演失敗的方式,研究了用智能體取代敵對勢力時可能出現的復雜情況。在越來越復雜的兵棋推演中,對訓練封建多智能體層次結構(FMH)和標準RL智能體所需的資源以及它們的有效性進行了比較。雖然FMH未能證明大型兵棋推演所需的性能,但它為未來的HRL研究提供了啟示。最后,美國防部提出了核查、驗證和認證程序,作為一種方法來確保未來應用于兵棋推演的任何人工智能應用都是合適的。

引言

兵棋推演是成功軍隊的寶貴訓練、規劃和研究工具。自然,美國(U.S.)國防部(DOD)計劃將人工智能(AI)納入兵棋推演。將人工智能融入兵棋推演的一種方式是用智能體取代人類玩家;能夠展示戰斗行為的算法。本論文研究了用智能體取代人類兵棋推演操作員的可行性、可接受性和適宜性。為此,本章解釋了為什么兵棋推演對成功的軍隊至關重要。

A. 軍方為什么要進行兵棋推演

軍隊進行兵棋推演是為了回答關于戰爭的關鍵問題,這些問題必須在實際沖突發生之前被理解。兵棋推演是利用對立的力量模擬實際的戰斗,并由人類的決策來決定[1]。雖然有廣泛的不同類型的兵棋推演,但它們都有一個共同的目標:"獲得有效和有用的知識" [2]。這種劃分很重要,因為兵棋推演的不同目的會導致玩家和游戲控制者的行為不同。圖1顯示了兵棋推演從訓練到分析到實驗的廣泛范圍。

1.訓練用的兵棋推演

最直接的兵棋推演類型是用于訓練的兵棋推演。大型參謀部使用建設性的模擬(數字兵棋推演)來鍛煉他們的參謀過程,并驗證他們的軍事準備。小型參謀部使用虛擬模擬器來訓練他們的戰斗演習和船員演習。軍隊進行這些兵棋推演是為了了解戰爭和鍛煉決策能力[3]。所有隊員的行動和決策一般都要符合已知的條令和戰術、技術和程序(TTP)。對于大型的參謀部演習,對手可能會突破TTP的界限來挑戰參謀部(例如,表現得更有侵略性,但仍然依賴相同的TTP)。

2.用于分析的兵棋推演

兵棋推演可用于分析,即 "確定在部隊對抗中會發生什么"[3]。這些是大多數軍事人員所熟悉的兵棋推演類型:作為行動方案(COA)分析的一部分而進行的兵棋推演。這些類型的兵棋推演允許對戰爭計劃、部隊結構或理論進行評估。在這些戰役中,雙方都要采用已知的理論和TTP,但 "在這些戰役中,創新精神可以自由發揮"[4]。

3.實驗性的兵棋推演

在譜的另一端是實驗性兵棋推演。在這些戰役中,雙方都可以使用新的力量、武器和/或戰術來探索潛在的未來戰爭[5]。歸根結底,組織進行實驗性兵棋推演是為了產生 "關于戰爭問題性質的知識"[2]。美國軍方在演習中整合了這些類型的兵棋推演,如美國陸軍未來司令部的聚合項目和聯合作戰人員評估。

4.兵棋推演的好處

盡管兵棋推演既不是預測性的,也不是對現實的完全復制,但它們確實提供了一些沒有實戰就無法獲得的東西:對戰爭中決策的洞察力。當為訓練而進行戰爭演習時,組織正在學習良好的決策是什么樣子的(包括過程和最終結果)。當為分析而進行戰爭演習時,計劃者正在評估他們在計劃期間做出的決定,以及在執行期間需要做出的潛在決定。

這些好處足以讓美國防部副部長羅伯特-沃克在2015年發布了一份備忘錄,呼吁在整個美國防部重新努力開展兵棋推演[6]。沃克副部長認為,兵棋推演有利于創新、風險管理和專業軍事教育。沃克認為,最終,兵棋推演將推動美國防部的規劃、計劃、預算和執行過程,這是告知國防部資源分配的方法。美國和它的西方盟友并不是唯一相信兵棋推演好處的軍隊。中國正在為兵棋推演投入大量資源,包括將人工智能融入兵棋推演[7]。

B.兵棋推演中的人工智能

人工智能提供了一個機會,通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。為兵棋推演中的許多角色雇用人類操作員是昂貴的。組織必須給自己的人員分配任務(使他們脫離正常的職能)或支付外部支持。這種成本可以通過將人工智能整合到兵棋推演中而消除。兵棋推演分析的速度只能和人類操作者一樣快。用智能體代替操作員可以加快兵棋推演的速度,并允許多個兵棋推演同時發生,從而實現更廣泛的分析。最后,智能體因其在游戲中的創造性而受到關注[8]。創造性的智能體可以通過探索人類戰爭者可能沒有考慮的可能性,使戰爭計劃、部隊編隊或戰術得到更好的分析。

美國國內的國家安全組織認識到將人工智能融入兵棋推演的潛力。人工智能國家安全委員會在其最終報告中主張立即將人工智能能力整合到兵棋推演中,以確保美國及其盟友保持與同行的競爭力[9]。美國陸軍未來的模擬訓練系統--合成訓練環境(STE)設想整合人工智能來監測和調整訓練場景的難度[10]。美國陸軍研究實驗室有許多項目在調查人工智能與軍事指揮和控制系統的整合。具體來說,他們正在探索使用人工智能的一個子領域,即強化學習(RL)來進行連續規劃,以開發 "藍色部隊的新計劃"[11]。連續規劃將需要一個能夠評估其計劃的智能體,可能通過兵棋推演。

基于其他RL智能體在人類競技游戲中的成功,如《星際爭霸II》[12]、《古人防御》(DotA)[13]和圍棋[14],多名研究人員正在研究用于戰爭游戲的RL智能體。像《星際爭霸II》和DotA這樣的實時戰略(RTS)游戲最能代表兵棋推演。與兵棋推演類似,RTS游戲需要在有限的信息環境中進行長期的目標規劃和短期的戰術決策。以前的研究表明,RL智能體可以在兵棋推演中復制理想的戰斗行為[5], [11]。根據Kania和McCaslin的說法,谷歌的AlphaGo成功擊敗了世界上最好的圍棋大師,證明了人工智能可以應用于兵棋推演[7]。

C. 問題陳述

雖然以前的研究已經證明RL智能體可以產生戰斗行為,但實驗僅限于小型交戰。研究人員只要求RL智能體控制三到五個下屬單位。強化學習智能體將需要成功擴展,以滿足涉及幾百個單位的大型兵棋推演的規模要求。

問題是,隨著兵棋推演中單位數量和類型的增加,信息量和可能的動作數量變得難以解決。Newton等人提出可擴展性是一組目標:速度、收斂和性能,同時保持在一組約束條件下:隨著項目規模的增加,成本、計算能力和時間[15] 。分層組織是擴展的一種方法。本論文將研究分層強化學習(HRL)的可擴展性。換句話說,任何可行的、可接受的人工智能集成到戰爭游戲中,隨著戰爭游戲中單位數量的增加,必須仍然顯示出理想的戰斗行為。

除了將人工智能整合到軍事兵棋推演中的可行性和可接受性之外,這種整合還需要是合適的。開發和執行一個失敗的兵棋推演是有可能的,因為從中得出的知識是無效的或沒有用的。Weuve等人[16]解釋了可能導致兵棋推演失敗的不同途徑,他們稱之為兵棋推演病癥。以取代人類操作者為目的的智能體的設計和實施,需要防止兵棋推演的病態,從而確保有效的結果。

這導致了以下的研究問題。HRL是否允許智能體在不損失性能的情況下增加合作單位的數量和有效性?什么框架可以確保智能體的設計和應用正確,以滿足兵棋推演的目的?

D. 研究范圍

本論文延續了[17]和[18]對Atlatl戰斗環境中RL的調查。Atlatl是一個離散的、基于六邊形的兵棋推演,模擬陸地作戰行動。最初的研究使用一個簡單的多層感知器[17]成功地在RL智能體中產生了戰斗行為。隨后的研究使用卷積神經網絡(CNN)架構在復雜的地形和動態的對手中研究RL智能體[18]。

雖然有廣泛的HRL方法,但本研究的重點是封建多智能體層次結構(FMH)。在FMH中,一個單一的R智能體(即經理),將任務分配給一系列被稱為工人的下級RL智能體[19]。本論文比較了在Atlatl中越來越大的場景中采用基于規則的智能體、單一RL智能體和FMH所需的資源和有效性。

兵棋推演是由玩家和裁判員組成的[1]。友軍單位的玩家被稱為藍軍,他們的對手被稱為紅軍,任何一個玩家之外的平民或軍事單位被稱為綠軍。雖然有可能通過使用所有玩家和裁判員的智能體來實現兵棋推演的完全自動化,但本論文只評估了對單個玩家的替換。

本論文還研究了用智能體替換對方部隊(OPFOR)即紅色部隊時可能出現的復雜情況。討論了具體的兵棋推演病癥,并提出了緩解這些病癥的方法。美國防部的驗證、核實和認證(VV&A)框架被應用于通過RL對OPFOR的建模。

E. 研究結果

本論文發現,當FMH智能體以分布式方式進行訓練時,FMH智能體未能比單一RL智能體表現得更好。當經理和工人在同一環境中訓練時,FMH智能體的學習能力有所提高。然而,工人的不一致行動使經理無法制定最佳策略。此外,FMH的訓練要求超過了單個RL智能體的要求,這抑制了FMH擴展到大型軍事兵棋推演的能力。最后,本論文發現,將人工智能整合到軍事兵棋推演中的方法適合于像美國防部的VV&A框架那樣的過程。否則,基于模型的去太原的病癥會使兵棋推演的目標失效,并對美軍產生負面影響。

F. 論文對研究的貢獻

本論文通過進一步研究在建設性模擬中采用完全自主的智能體,對美國政府有直接好處。完全自主的兵棋推演智能體,能夠在多個層次上運作,需要支持兵棋推演的全部范圍。這很容易延伸到軍事規劃期間的決策支持工具,協助規劃者快速評估不同的COA。此外,探索在兵棋推演中使用智能體的適宜性將促進兵棋推演界采用人工智能。

付費5元查看完整內容

I. 引言

1.1 問題背景

自人工智能(AI)誕生以來,復雜的游戲為測試和探索搜索技術提供了一個具有挑戰性的領域。甚至阿蘭-圖靈也提出將國際象棋游戲作為人工智能的基準,提出了一種他親手執行的游戲算法[1]。游戲在搜索算法中的重要性后來在1958年得到了擴展,當時阿瑟-塞繆爾使用早期版本的強化學習創造了一個跳棋游戲程序[2]。自20世紀70年代以來,重點是國際象棋比賽,最終為IBM深藍程序在1996年擊敗世界國際象棋冠軍加里-卡斯帕羅夫鋪平了道路[3]。在最近幾年,玩游戲的人工智能仍然處于該領域的前沿。2016年,谷歌DeepMind的經典大狀態空間游戲Go的智能體在比賽中擊敗了世界冠軍[4],標志著人工智能發展的一個里程碑。

游戲有很大的搜索空間,很難完全探索。盡管一個人可以采取的狀態和行動組合的數量很多,但人類在為復雜的游戲制定策略方面卻異常出色。然而,隨著計算能力和算法理論的進步,人工智能Agent現在能夠在復雜游戲中擊敗世界冠軍人類。這些現代游戲算法往往擺脫了人類的理解能力,并試圖取代人類的決策,而不是增強它。

在整個人工智能領域,存在著使人工智能更加透明、可解釋和可說明的普遍工作[5]。然而,在玩游戲的人工智能領域,這種努力對學習Agent來說是稀疏的,因為現代Agent傳統上使用非符號方法。符號Agent通過使用所學概念的符號描述來表示其知識,而非符號Agent則以內部格式表示其知識,如加權突觸、邏輯單元或連接網絡[6]。游戲可以特別受益于符號方法的可解釋性,以幫助人類用戶理解游戲,并在人工智能的輔助推理被移除后提高他們的表現[7]。

符號化人工智能用于游戲的一個例子是學習分類器系統(LCS)算法家族。LCS是基于規則的學習機器,采用遺傳算法(GA)來發現新的規則[8]。LCS的實現分為兩個系列,即密歇根式和匹茲堡式。密歇根式LCS評估單個規則的適用性,而匹茲堡式LCS則評估規則集的適用性。最近的研究工作絕大部分集中在密歇根式的實現上[8]。此外,由于較小的評估時間和在線學習能力,密歇根式的LCS實現在游戲中比匹茲堡式的對應系統受到廣泛青睞。然而,由于規則數量眾多,它們的推理能力較低[7]。雖然匹茲堡式的LCS在實時戰略游戲中經常擁有局限性[9],但它們在其他游戲環境中顯示出了前景,因為在這些環境中可以進行離線學習[10],同時保持可解釋性[11] 。

本論文探討了LCS在一類特殊游戲中的應用:兵棋推演。兵棋推演并沒有一個標準的定義。2020年版的《聯合出版物5-0》將兵棋推演定義為 "在合成環境中的沖突或競爭的表現,其中人們做出決定并對這些決定的后果做出反應"。[12] 相比之下,國防建模與仿真協調辦公室(DMSCO)使用現已失效的電氣和電子工程師協會(IEEE)610.3-1989的兵棋推演定義,將其定義為 "一種模擬游戲,參與者在預先確定的資源和約束條件下尋求實現特定的軍事目標;例如,模擬參與者做出戰場決策,計算機決定這些決策的結果。" [13] 在本論文中,我們將兵棋推演定義為以現實世界的邏輯為模型的戰場模擬,其中參與者做出決定以完成一個或多個目標,并由計算機決定結果和互動。

這篇論文的重點是LCS在回合制、同時移動和多行動游戲Stratagem MIST中的實現。Stratagem MIST是空軍研究實驗室(AFRL)正在開發的一個游戲,作為戰時沖突的多域模擬器。據作者所知,專門用于軍事戰爭游戲的LCS Agent目前還沒有被探索。此外,在一般的游戲中缺乏涉及匹茲堡式的LCS的研究,這也提供了一個興趣點和未開發的領域。我們的假設是,LCS,特別是匹茲堡式LCS,除了產生可解釋的輸出,可以讓外部觀察者理解其決策過程外,還可以成為Stratagem MIST的有效的符號游戲Agent。

1.2 動機

兵棋推演對于軍事科學領域尤其重要,因為它們可以用于發展作戰理論[14]。現代兵棋推演的概念是1780年在普魯士發明的,記錄顯示,年輕的軍官通過玩桌面兵棋推演來學習軍事戰略。從歷史上看,從兵棋推演中學到的經驗往往能轉化為現實世界的場景。在第一次世界大戰中,每個主要作戰國都采用了兵棋推演來幫助戰爭計劃[15]。在第二次世界大戰中,美國和英國皇家海軍利用分析后的兵棋推演結果來制定更好的戰術,而軸心國部隊則利用兵棋推演來預測盟軍的戰略[14]。近年來,一些項目證明了應用人工智能技術解決復雜兵棋推演的成功[16]。然而,解決游戲或開發先進的搜索技術以勝過人類的目標可能與兵棋推演的既定目的相沖突。如果兵棋推演的目的是通過模擬為人類玩家準備實際的沖突,那么非符號Agent的行動可能無法轉移到現實世界的表現。相反,一個能夠很好地發揮兵棋能力,并以可解釋的形式呈現其理由的Agent有可能幫助發現新的戰略和戰術,從而轉化為現實世界的場景。

戰略MIST是探索兵棋推演中使用LCS的一個主要領域。其巨大的復雜性、一般的兵棋結構以及對多個多領域場景的適應性,促使人們在多個方面產生研究興趣。由于在兵棋和Stratagem MIST中沒有其他LCS的實現,因此跟蹤LCS規則在條件分布、行動分布和行動選擇傾向方面的內部構成是很重要的。這些數據可以回答關于LCS在保持可解釋性和性能的同時做出復雜決策的能力的問題。

1.3 研究問題

本論文試圖回答以下研究問題:

1.在兵棋環境中,LCS Agent的有效性如何?

2.在Stratagem MIST中,LCS生成的規則的內部構成是怎樣的?

3.LCS Agent生成的默認規則集的可解釋性如何,如何才能提高可解釋性?

1.4 研究任務

為回答上述研究問題,進行了以下任務:

1.開發能夠使用已知的LCS方法有效發揮Stratagem MIST的Agent。

2.進行實驗,比較使用不同符號和非符號游戲方法的Agent勝率。

3.分析LCS Agent能夠為一般的Stratagem MIST場景制定策略的程度。

4.檢查最終確定的LCS規則集中的條件和行動的分布。

5.分析如何解釋所產生的規則集,并將其簡化為可讀的形式。

1.5 文件概述

第二章介紹了博弈論的概念,LCS研究的概述,以及Stratagem MIST的描述。第三章概述了為回答研究問題所實施的工作。第四章分析和討論了所得數據。最后,第五章提出結論并討論了未來的工作。

付費5元查看完整內容

摘要

兵棋模擬是一種決策工具,可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近,無人駕駛飛行器(UAVs)已經成為這些模擬中的一個相關元素,因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如,容許戰術編隊中的飛機損失,有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素,無人機在超視距(BVR)作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性,如射擊距離和位置,使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊,稱為line abreast,作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊,以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序,將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里,并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。

索引詞:優化方法,計算機模擬,無人駕駛飛行器(UAV),自主智能體,決策支持系統,計算智能。

I. 引言

兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲,用于分析作戰概念,訓練和準備指揮官和下屬,探索情景,并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用,為參與者提供了對決策過程和壓力管理的洞察力[1]。

最近,無人駕駛飛行器(UAVs)作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此,它們的有效性經常在兵棋中被測試和評估。

由于具有一些性能上的優勢,如增加敏捷性、增加過載耐久性和增加隱身能力,無人機已經逐漸發展起來,并在許多空中任務中取代了有人系統[3]。然而,由于戰斗的動態性質,在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中,無人機可以被遠程控制,但由于無人機飛行員對形勢的認識有限,它將在與有人平臺的對抗中處于劣勢。然而,這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外,使用無人機可以允許一些戰術編隊和戰略,而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的,例如允許中隊的飛機被擊落,如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距(BVR)作戰中的飛機戰術編隊的文章[5]表明,空戰戰術是用遺傳算法(GA)進行優化的候選方案。該實施方案采用分層概念,從小型常規作戰單位建立大型編隊戰術,并從兩架飛機的編隊開始,然后是四架飛機,最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區(WEZ)的高殺傷概率(Pkill)區域內一段特定時間,簡化的交戰模擬器就宣布傷亡。事實證明,所提出的方法的應用是有效的,它消除了團隊中所有沒有優化編隊的飛機,并為整個優化編隊的飛機團隊提供了生存空間。

Keshi等人[6]使用了與[5]相同的分層概念,從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法(SAGA)被用來優化編隊,使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化,提出的最優解表明SAGA比基本的GA更有效。最后,為了探索一個穩健的SAGA,對不同的馬爾科夫鏈進行了比較,事實證明自調整馬爾科夫電流更適合所提出的問題。

Junior等人[7]提出使用計算機模擬作為一種解決方案,以確定BVR空戰的最佳戰術,使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模,并改編了名為COMPASS的模擬優化算法,模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明,擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈,并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。

Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法,即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先,計算戰斗機的戰斗力,這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來,包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此,通過采用前景理論和綜合模糊評估來優化空戰訓練。最后,一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱,利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。

?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器(UCAVs)進行空戰的決策方法。首先,確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后,每個航空飛行器被分配到一個目標,以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法;因此,該方法在一個數字案例上進行了測試,并證明了其有效性。

Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃(CTAPPP)問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后,訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置,發射武器裝備。合作目標分配(CTAP)問題通過增強型粒子群優化(IPSO)、蟻群算法(ACA)和遺傳算法(GA)來解決,并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃(CPPP)問題,其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子,并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。

Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組(R和B)無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化(離散化),通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈,并被解決以獲得納什均衡。

Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發,因此也影響到最終的結果。例如,如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬,新的沖突可能會發生,直到模擬結束。因此,每個在交戰中幸存的無人機將能夠選擇一個新的目標,這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的:它們直接影響飛機之間的交戰結果。

在這項研究中,我們試圖解決文獻中發現的一些局限性,如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認,旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究,RED蜂群使用了空軍經常采用的戰術編隊,稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性,我們解決了新的問題,改變了RED蜂群每架飛機的位置,目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。

我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊,考慮與敵人相關的不確定性,如戰術編隊中的位置誤差和導彈發射距離。統一行為框架(UBF)被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度(DoFs)建模。

該程序將在接下來的章節中進一步討論。

付費5元查看完整內容

強化學習在最近的學術和商業研究項目中的應用已經產生了能夠達到或超過人類性能水平的強大系統。本論文的目的是確定通過強化學習訓練的智能體是否能夠在小型戰斗場景中實現最佳性能。在一組計算實驗中,訓練是在一個簡單的總體層面上進行的,模擬能夠實現確定性和隨機性的戰斗模型,神經網絡的性能被驗證為質量和武力經濟性戰術原則。總的來說,神經網絡能夠學習到理想的行為,其中作戰模型和強化學習算法對性能的影響最為顯著。此外,在集結是最佳戰術的情況下,訓練時間和學習率被確定為最重要的訓練超參數。然而,當武力的經濟性是理想的時候,折扣系數是唯一有重大影響的超參數。綜上所述,本論文得出結論,強化學習為發展戰斗模擬中的智能行為提供了一種有前途的手段,它可以應用于訓練或分析領域。建議未來的研究對更大、更復雜的訓練場景進行研究,以充分了解強化學習的能力和局限性。

付費5元查看完整內容

人工智能(AI)的進展,特別是深度強化學習(RL),已經產生了能夠達到或超過專業人類水平的系統。這項研究探索了RL訓練人工智能agent的能力,以實現小型戰術交戰中的最佳進攻行為。agent在一個簡單的、總體級別的軍事建設性模擬中接受了訓練,其行為得到了規模和經濟力量戰術原則的驗證。結果顯示,所應用的戰斗模型和RL算法對訓練性能的影響最大。此外,特定的超參數訓練也有助于行為的質量和類型。未來的工作將尋求在更大和更復雜的戰斗場景中驗證RL的性能。

付費5元查看完整內容

人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。

1 引言

由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。

AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。

在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。

2 相關工作

自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。

一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。

最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。

與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。

3 背景-分層強化學習

將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。

我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。

4 ADT仿真環境

為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。

圖1: 仿真環境的渲染圖

每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。

每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。

圖2:武器交戰區(WEZ)

WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。

5 agent結構

我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。

圖4:PHANG-MAN agent的高層結構

付費5元查看完整內容

摘要

由HAVELSAN公司開發的虛擬環境中的部隊(FIVE)模擬器軟件,利用各種虛擬戰爭設備(如武器、傳感器和通信工具等),以安全和具有成本效益的方式提供全面的戰術和行動訓練環境。目前,管理FIVE實體的行為模型高度依賴于由現場專家和系統工程師開發的基于規則的行為。然而,FIVE軟件的基于規則的操作需要密集的編程和現場專家的指導,因此是高度勞動密集型。此外,這項任務的復雜性和負擔隨著場景的復雜性而大大增加。此外,具有基于規則的行為的虛擬實體對其環境有標準和可預測的反應。因此,在這項研究中,我們通過強化學習技術和其他機器學習技術,即FIVE-ML項目,提出了從基于規則的行為到基于學習的自適應行為的過渡研究。為此,我們主要對空對空和空對地兩種情況下的六個虛擬實體進行了基于強化學習的行為模型訓練。據觀察,用強化學習訓練的虛擬實體主導了現有的基于規則的行為模型。在這些實驗中,我們還發現,在強化學習之前,利用監督學習作為起點,可以大大減少訓練時間,并創造出更真實的行為模型。

引言

今天,培訓將使用飛機的飛行員是最重要的。用真實的飛機訓練飛行員是相當困難的,原因包括空域法規、過高的成本和訓練中可能出現的風險,以及創造真實世界場景的復雜性,包括對手或盟友使用的真實防御和戰爭平臺。飛行員訓練中使用的飛行模擬經常與戰術環境模擬結合在一起工作。通過這些戰術環境模擬,飛行員通過控制高保真飛機模型在許多低保真實體的存在下完成場景的訓練。這些低保真資產由計算機創建和控制,通常被命名為計算機生成的部隊(CGF)[1],它們是代表空中、陸地或海上防御或攻擊系統的自主單位。

CGFs被用于人員部署的準備過程、戰術訓練或新戰略的開發。CGFs需要為每個應用(或每個場景)進行不同的編程。這些由傳統方法創造的力量會導致非適應性和不靈活的行為模式。這導致學生在靜態編程的資產面前接受模擬訓練,降低了訓練的質量。當需要新的場景時,需要專家來創建新的場景。此外,由于情景創建將使用經典的控制分支進行,在創建新情景的過程中,考慮所有的可能性往往是不可行的,即使是可能的,也是一項相當有挑戰性的任務。由于這些原因,人們越來越需要更真實的虛擬環境和新的場景來適應不斷變化的世界,以模擬飛行員候選人自己的任務和敵對部隊的當前能力和戰術。

在這項研究中,提出了向以人工智能為導向的行為建模過渡,而不是傳統的特定場景建模,以此來解決前面描述的問題。換句話說,虛擬實體將被轉化為能夠學習的動態虛擬實體。但這些虛擬實體在訓練過程中需要考慮許多情況。首先,他們必須學會對他們用傳感器感知到的環境因素作出適當的反應。然后,它必須識別他的隊友和敵人,并根據他們的等級信息和附加在他們身上的彈藥類型采取行動。它應該能夠與他的隊友合作,采取團隊行動。

為虛擬資產添加智能的機器學習的首選方法是強化學習(RL)[2],其根本原因是:實體將采取的行動有延遲的后果。近年來,與傳統的控制方法相比,RL被認為是解決復雜和不可預測的控制問題的新方法,并在許多領域得到利用,如機器人、計算機視覺、自動駕駛、廣告、醫學和保健、化學、游戲和自然語言處理[3]-[9]。自從將深度學習引入RL概念(即深度RL[10])后,文獻中的研究得到了提升,如許多具有挑戰性的計算機視覺和自然語言處理任務[11]-[15]。

為了這個目的,在這項研究中(即FIVE-ML),已經實現了從HAVELSAN FIVE軟件的基于規則的行為模型向基于RL的行為模型過渡的第一階段實驗。從這些實驗中可以看出,用RL算法訓練的智能虛擬實體在空對空和空對地的情況下都優于HAVELSAN現有的基于規則的實體。此外,模仿學習[16]、[17]和RL的聯合實施也取得了成功,這加快了FIVE軟件的完整過渡過程。

可以預見,通過學習飛行員候選人的選擇來開發新策略的模擬將把飛行員培訓帶到一個非常不同的點。當項目完成后,將設計一個新的系統,允許在其領域內培訓更多裝備和專業的戰斗機飛行員。一個現有的基于規則的場景系統將演變成一個可以自我更新的系統。因此,飛行員候選人將有機會針對智能實體發現的新策略來發展思路,而不是滿足于該領域的專家的知識和經驗。此外,從一個經過大量努力準備的場景機制,計算場景自動化機制將使整個過程自動化。

付費5元查看完整內容

摘要

現代多領域沖突日益復雜,使得對其戰術和戰略的理解以及確定適當行動方案具有挑戰性。作為概念開發和實驗 (CD&E) 的一部分的建模和仿真提供了新的見解,以更快的速度和更低的成本比物理機動更易實現。其中,通過計算機游戲進行的人機協作提供了一種在各種抽象級別模擬防御場景的強大方法。然而,傳統的人機交互非常耗時,并且僅限于預先設計的場景,例如,在預先編程的條件計算機動作。如果游戲的某一方面可以由人工智能來處理,這將增加探索行動過程的多樣性,從而導致更強大和更全面的分析。如果AI同時扮演兩個角色,這將允許采用數據農場方法,從而創建和分析大量已玩游戲的數據庫。為此,我們采用了強化學習和搜索算法相結合的方法,這些算法在各種復雜的規劃問題中都表現出了超人的表現。這種人工智能系統通過在大量現實場景中通過自我優化來學習戰術和策略,從而避免對人類經驗和預測的依賴。在這篇文章中,我們介紹了將基于神經網絡的蒙特卡羅樹搜索算法應用于防空場景和虛擬戰爭游戲中的戰略規劃和訓練的好處和挑戰,這些系統目前或未來可能用于瑞士武裝部隊。

付費5元查看完整內容
北京阿比特科技有限公司