亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在空戰中,斗狗提出了錯綜復雜的挑戰,需要同時了解戰略機動和敏捷戰斗機的空中動態。在本文中,我們介紹了一種新穎的長短時間融合變換器 TempFuser,該變換器旨在學習空中斗狗中的戰術和敏捷飛行動作。我們的方法采用兩種不同的基于 LSTM 的輸入嵌入來編碼長期稀疏和短期密集狀態表征。通過變壓器編碼器對這些嵌入進行整合,我們的模型捕捉到了戰斗機的戰術和靈活性,使其能夠生成端到端的飛行指令,從而確保優勢位置并超越對手。在高保真飛行模擬器中與各種類型的對手飛機進行廣泛訓練后,我們的模型成功地學會了執行復雜的戰斗機機動動作,性能始終優于幾個基線模型。值得注意的是,我們的模型即使在面對具有超強規格的對手時,也能表現出類似人類的戰略機動能力,而這一切都無需依賴明確的先驗知識。此外,它還在極具挑戰性的超音速和低空環境中表現出強大的追擊性能。演示視頻請訪問 //sites.google.com/view/tempfuser。

圖 8:評估結果。(A): 針對對手的歸一化傷害率的學習曲線。(B): 與對手交戰的結果(左:F-15E,中:F-16,右:蘇-27)。圖中顯示了本機(藍色)和對手(紅色)從開始到獲勝時刻的三維飛行和水平投影軌跡。(C): 與高規格飛機(蘇-30)對抗時學習到的機外戰術機動的量化結果。(D): 與 F/A-18A 對手進行近音速對抗的量化結果。所有駕駛艙和外部視圖均由 Tacview [36] 可視化。

在空中斗狗中學習戰術和敏捷飛行機動

空對空作戰是操縱戰斗機智能體到達瞄準對手位置的戰術藝術。它也被稱為 "斗狗",因為在大多數情況下,每架戰斗機都會在短距離戰斗中追擊對方的機尾。

要想成功地進行斗狗,智能體需要從長期和短期角度出發,將態勢感知、戰略規劃和機動性能結合起來。

首先,智能體要通過了解對手的長期軌跡來規劃自己的戰術位置。天真地追逐對手的近期位置可能會帶來暫時的優勢,但最終會使自己在日后處于弱勢地位。因此,智能體應不斷評估對手的長期操縱,對其行動做出反應,并對自己進行戰略定位,以獲得對對手的優勢。

其次,智能體需要具備從短期動力學角度理解飛機敏捷機動性的能力。現代戰斗機具有很高的機動性,能夠迅速改變方向和速度,從而使交戰情況迅速發生變化。因此,為了在與對手的交戰中保持優勢地位,智能體應及時從動態角度把握對手的敏捷動作和自身的潛在機動。

長時短時融合變換器(TempFuser)

長短期時態融合變換器(或稱 TempFuser)是一種網絡架構,專為空中激戰中的策略模型而設計。該架構使用基于 LSTM 的輸入嵌入和變換器編碼器。它處理兩種類型的狀態軌跡:代表機動級狀態轉換的長期時間軌跡和表示動態級狀態轉換的短期時間軌跡。每種軌跡都使用基于 LSTM 的管道進行嵌入,然后通過變換器編碼器進行整合。隨后,使用多層感知器(MLP)模塊和高斯策略架構將編碼器輸出轉換為飛行指令。

使用數字戰斗模擬器(DCS)的高保真環境

在數字戰斗模擬器(DCS)中使用深度強化學習(DRL)解決空中狗斗問題,DCS 被認為是最真實、最逼真的戰斗機模擬環境之一。DCS 提供了一個獨特的平臺,可以配置各種高質量的飛機和空中場景。我們將斗犬問題表述為一個強化學習框架,并設計了一個可以學習戰略性斗犬演習的獎勵函數。

我們用各種對手飛機(如 F-15E、F-16、F/A-18A 和 Su-27)對我們的網絡進行了廣泛的訓練和驗證。結果表明,TempFuser 能夠以端到端的方式學習具有挑戰性的飛行動作,并在性能上優于各種對手飛機,包括那些具有卓越規格的飛機。此外,它還在低空和 1 馬赫以上的高速飛行場景中表現出強大的追擊性能。

在tempfuser為基礎的空中斗狗在DCS模擬器的快照。

不同類型的飛機為對手:F- 15e, F/A-18A, F-16,蘇-30,蘇-27。

學習飛行行為(基本飛行動作)

圖:與F-15E交戰

圖:飛行軌跡與水平投影

圖:與F-16交戰

圖:飛行軌跡與水平投影

圖:與蘇-27交戰

圖:飛行軌跡與水平投影

學習飛行行為(戰術飛行動作)

圖:對蘇-30對手的定量結果

學習的飛行行為(超音速魯棒追蹤)

圖:對F/A-18A對手的定量結果

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

這項工作使用來自建設性模擬的可靠數據,比較了有監督的機器學習方法,以估計空戰中發射導彈的最有效時刻。我們采用了重采樣技術來改進預測模型,分析了準確度、精確度、召回率和f1-score。事實上,我們可以發現基于決策樹的模型性能卓越,而其他算法對重采樣技術非常敏感。在未使用重采樣技術和使用重采樣技術的情況下,最佳f1-score模型的值分別為0.378和0.463,提高了22.49%。因此,如果需要,重采樣技術可以提高模型的召回率和f1-score,但準確率和精確度會略有下降。此外,通過創建基于機器學習模型的決策支持工具,有可能提高飛行員在空戰中的表現,這有助于提高攻擊任務命中特定目標的有效性。

付費5元查看完整內容

在現代空戰中,超視距(BVR)交戰越來越頻繁。飛行員面臨的主要挑戰之一是機動計劃,這反映了他們的決策能力,并能決定成敗。為確保采用虛擬BVR空戰模擬的飛行員訓練取得成功,計算機生成部隊(CGF)的高精度水平至關重要。要實現這一目標,不僅要充分復制和模擬實體的物理特性,還要使其具有接近人類的行為。在本文中,我們提出了應對這些挑戰的總體概念: 首先,我們引入飛行運動動態模型(飛機、導彈、箔條)以及干擾器。然后,我們分析典型的超視距空戰的工作流程,將其分為攻擊、自衛和決定。在此背景下,我們引入行為樹作為這些任務的建模方法,并解釋其優點。進一步的計劃包括在未來由人類控制的對手飛機(飛行員)與CGF對飛的實驗活動中驗證和確認CGF的行為。最后,我們對未來的工作進行了展望,我們打算在包含多個自由度的任務中采用強化學習。

付費5元查看完整內容

在這項工作中,我們提出了貝葉斯優化算法,用于調整大規模光子庫計算機中的超參數。我們在以前報道的實驗系統上測試了這種方法,應用于計算機視覺中的一項具有挑戰性的任務,其中對來自標準圖像識別數據庫KTH和MNIST的視頻片段的圖像識別準確率分別為91.3%和99%,用于驗證所開發的光子遞歸神經網絡(RNN)的性能。我們還將其結果與非光子RNN計算(RC)界常用的光子RNN的網格搜索和貝葉斯優化進行了比較。我們報告了以下方面的改進:(1)分類性能,準確率提高了4%;(2)收斂到最佳超參數集的時間,大約減少了30%的時間(在準確率低于1.5%的情況下可以增加一倍)。考慮到我們的光子水庫計算機的精度接近于這項任務的最先進結果,以及以天為單位的實驗超參數優化時間,這些改進被證明是系統性能的寶貴提升。此外,用貝葉斯方法對超參數空間的廣泛探索為其基本結構和參數的相對重要性提供了寶貴的見解。考慮到貝葉斯優化算法提供的所有優勢,它可能很快成為光子庫計算中超參數優化的新標準方法。

圖2-基于光子學的系統說明,創建一個具有隨機拓撲結構的光子學遞歸神經網絡,用于自動分析視頻記錄中的人類行動。SLM:空間光調制器。Pol.:偏振器。改編自[Antonik2019]。

付費5元查看完整內容

這項工作比較了有監督的機器學習方法,使用來自建設性模擬的可靠數據來估計空戰期間發射導彈的最有效時刻。我們采用了重采樣技術來改進預測模型,分析了準確性、精確性、召回率和f1-score。事實上,我們可以識別出基于決策樹的模型的顯著性能和其他算法對重采樣技術的顯著敏感性。具有最佳f1分數的模型在沒有重采樣技術和有重采樣技術的情況下,分別帶來了0.379和0.465的數值,這意味著增加了22.69%。因此,如果可取的話,重采樣技術可以提高模型的召回率和f1-score,而準確性和精確性則略有下降。因此,通過建設性模擬獲得的數據,有可能開發出基于機器學習模型的決策支持工具,這可能會改善BVR空戰中的飛行質量,提高攻擊性任務對特定目標的打擊效果。

付費5元查看完整內容

該研究項目解決了下一代自主蜂群網絡系統的分布式控制和優化的挑戰,其中快速變化和超動態的網絡狀態(如網絡拓撲結構、頻譜和信道狀態信息、數據緩沖區排隊狀態等)需要分布式優化算法的快速收斂和低延時。最近基于PI對網絡控制和優化的研究,利用二階信息(SOI),在這個研究計劃中,我們提出了一系列新的分布式算法技術,與傳統方法相比,在收斂速度和排隊延遲方面都有數量級的改進,同時達到了同樣的可證明的網絡效用優化。

具體來說,我們在這個項目中的研究任務集中在基于動量(Heavy-ball)的聯合擁堵控制和多路徑路由(部分SOI)的EMANE仿真實現上。我們提出的研究計劃采取了一種綜合的、整體的方法,從數學建模、優化理論、控制理論、排隊理論和隨機分析等領域吸取技術。擬議的研究不僅將推進我們在下一代復雜網絡的算法設計方面的知識,而且還將通過探索基于SOI的網絡控制和優化的新領域來滿足一般網絡研究界的關鍵需求。

所提出的方法將影響廣泛的應用,如機載網絡和無人機系統的圖像/視頻,特別是在控制和優化行動不能承受大的延遲和緩慢收斂的系統。將尋求與AFRL進行實質性的合作,以促進這一研究工作的潛在過渡途徑。

圖1:在高度動態的無線網絡下,無人機系統通信有嚴格的延遲要求。

引言

背景和動機:

隨著部署在戰場上的通信網絡的激增以及它們所產生的大量移動數據,今天的無線網絡技術正被拉伸到極限。不僅戰術信息的爆炸性增長要求不斷增加網絡容量,大規模無線網絡的復雜協調也在實時控制和優化中引入了嚴格的延遲和收斂速度要求。為了設計高效的優化算法來應對新興的戰術無線網絡,一個關鍵的方面是有效地處理擁塞控制和鏈路調度之間的交叉互動,包括在協議棧層內和跨協議棧。因此,近年來出現了對戰術無線網絡的低延遲和快速轉換的聯合擁堵控制和調度算法的迫切需求。此外,聯合擁塞控制和路由優化不僅是信息網絡設計的要求,也是許多復雜網絡運行的核心問題,如智能電網需求響應[1-3]、供應鏈管理[4-7]、交通網絡流量控制[8, 9],僅舉幾例。

一個動機示例: 為了說明快速收斂、低延遲和分布式設計的重要性,我們在此以無人機系統網絡為例。控制和優化無人機系統網絡的一大挑戰來自于快速變化和高度動態的網絡狀態(如網絡拓撲結構、頻譜/信道狀態、數據緩沖區排隊狀態等),這使得傳統的擁堵控制、路由和頻譜訪問技術變得無效(見圖1的說明性例子)。這種高度動態的性質需要網絡控制和優化算法的快速收斂。否則,在完成緩慢的收斂過程后,網絡拓撲結構、頻譜/信道狀態信息和排隊狀態很可能被大大改變,使所有的計算結果和控制行動變得過時和無用。

使網絡控制問題更加嚴重的是,控制行動與需要實時傳輸大量數據的時間密切相關(例如,無人機系統圖像或視頻監控等)。因此,當數據到達量激增時,需要低延遲的網絡控制算法來避免過度延遲和大量的丟包(由于超時事件)。否則,可能會發生突然的大規模網絡中斷,這不僅會導致大范圍的不便,而且會導致毀滅性的戰斗失敗甚至是生命損失。此外,機載網絡的地理規模大,網絡子系統之間物理層技術的異質性,以及快速響應時間的要求,意味著控制和優化算法既不能集中,也不能有高的復雜性。這就要求開發出完全分布式的算法,以規避單點故障問題,簡單易行,又能達到可證明的優化性能。

目前的技術狀況:

由于移動數據需求的快速增長,近年來出現了大量關于資源分配的工作,旨在使無線網絡中的網絡效用最大化(例如,見[10-13],和[14]的調查)。這導致了一個優雅的數學分解框架,"松散耦合 "的擁堵控制、調度和路由算法自然而然地出現。這些算法不需要關于到達或信道狀態的統計知識。相反,它們只依賴隊列長度和信道狀態信息來做出控制決策。這些算法也與非線性優化理論中的拉格朗日對偶分解框架和子梯度方法有內在聯系[10, 11],其中(按比例)隊列長度可以被解釋為拉格朗日對偶變量,隊列長度更新起到子梯度方向的作用。

盡管這些基于隊列長度的算法(QLA)具有吸引人的特點,但它們受到了幾個關鍵的限制。首先,在現有的QLA框架中,已經證明了效用優化差距O(1/K)可以通過排隊延遲的O(K)懲罰來實現,其中K>0是一個系統參數。因此,一個小的效用優化差距需要一個大的K,并導致大的排隊延遲。為了解決這一局限性,近年來有大量的工作(如[13,15-17]等)集中在減少這些方案的排隊延遲上(后面對相關工作有更深入的討論)。同時,在現有的QLA框架中,基于隊列長度的權重調整忽略了目標函數輪廓的曲率,并且在每次迭代中使用小的步長[10-13],這導致收斂速度不理想。為了解決這個問題,最近提出了一些二階擁塞控制和路由/調度算法來提高收斂速度(見,例如,[18,19])。然而,由于其復雜的算法結構,這些二階方法需要更大的信息交換開銷,并且不能隨著網絡規模的擴大而很好地擴展。現有方法的這些限制促使我們在這個項目中追求一種新的重球設計。

更具體地說,在這個項目中,我們開發了一個基于重球的權重調整方案,在不影響網絡效用性能和不增加任何計算復雜性的情況下,大幅減少隊列長度,提高收斂速度。我們的方法是基于將隊列長度與權重分離的巧妙想法,然后使用一個權重更新方案,該方案只利用前一個時隙的權重變化的一個更多的記憶槽。令人驚訝的是,我們表明這個簡單的方案提供了兩個控制自由度,使我們能夠實現效用優化、低延遲以及快速收斂。

從歷史上看,重球法是由Polyak在20世紀60年代首次提出的[20],用于解決無約束的凸優化問題,其最初的目標是加速梯度下降法的收斂。重球法的基本思想是,不是只使用當前迭代的(子)梯度信息和完全不記憶過去迭代的軌跡,而是使用當前梯度(類似于 "勢")和上一步的更新方向(類似于 "動量")的線性組合來計算搜索方向。該方法是由物理學中描述重體在勢場中運動的二階常微分方程(ODE)激發的,并可被視為該方程的離散版本,因此被稱為 "重球(HeavyBall)"。在[21]中已經表明,通過適當地權衡當前的 "勢 "和 "動量",該算法對目標輪廓不敏感,這導致了更快的收斂。事實上,收斂加速的優勢是我們在無線網絡跨層優化中采用重球方法的第一個基本理由。但令人驚訝的是,我們隨后的研究表明,采用重球思想的好處遠遠超出了收斂加速的范圍。

然而,我們注意到,由于一些技術上的挑戰,為無線網絡中的效用最大化問題開發一個基于重球的解決方案并不簡單。首先,由于重球法最初是為無約束的靜態優化問題設計的,目前還不清楚如何為無線網絡效用最大化修改重球法,因為無線網絡是一個有約束的隨機優化問題,問題結構要復雜得多。其次,與QLA設計中隊列長度和拉格朗日對偶變量之間的明顯聯系不同,重球法與可觀測的網絡狀態信息(如隊列長度、信道狀態等)之間的關系是未知的。因此,在重球法下,延遲和網絡效用之間的權衡仍然是一個開放的問題。第三,由于包含了過去的迭代值,重球方法的算法結構與QLA方法不同。因此,QLA中用于建立吞吐量-優化和效用-延遲權衡的傳統技術并不適用。因此,在重球方法的性能分析中需要新的分析技術。

技術貢獻:

本項目的主要貢獻是,我們首次開發了一個基于重球的無線網絡效用優化框架,克服了上述的技術挑戰。我們建立了一系列關于大幅減少延遲和快速收斂的新分析結果,同時保留了效用優化的特點。本文的主要結果和技術貢獻如下:

  • 在重球思想的啟發下,我們提出了一個新的權重調整方案,用于無線網絡中的聯合擁塞控制和路由/調度。我們的工作不僅提供了重球算法和可觀察的網絡狀態信息(隊列長度和信道狀態)之間的協同作用,允許在實踐中簡單實現,它還擴展和概括了經典的重球方法,從無約束的靜態優化到約束的隨機網絡效用優化范式,從而推進了數學優化理論中重球方法的先進性。

  • 在我們的基于重球的聯合擁堵控制和調度方案下,有一個β參數化的動量(β∈[0,1]是一個系統參數,通常選擇接近1),我們表明,延遲是(1-β)-QLA方法的小數部分。更具體地說,我們的理論分析表明,可以用O((1-β)K)+O((1+β)√K)的排隊延遲成本實現效用最優差距O(1/K),其中參數K與重球法的步長成反比。此外,在β被選為β=1-O(1/ √ K)的K的漸進制度中,我們的重球算法實現了[O(1/K), O( √ K)]效用-延遲權衡,這明顯優于眾所周知的QLA方法的[O(1/K), O(K)]權衡。

  • 鑒于參數K和β,我們表明我們基于重球的算法的收斂時間擴展為O[log(√ K) (- log-1 (1 + β - √ β))]。結合前面的結果,我們提出的重球算法提供了一個重要而優雅的三方權衡關系,由K和β中的兩個控制旋鈕控制。最值得注意的是,通過權衡收斂速度,同時實現效用最優和低延遲。我們注意到,這種重要的三向權衡關系迄今在文獻中尚未被發現。

  • 除了理論結果,本項目的一個重點是開發高保真的基于EMANE的模擬,以測試和驗證我們上述的理論結果和見解。在這個項目中,我們已經成功地開發了一個基于Shim層的EMANE跨層仿真平臺來測試我們的HeavyBall算法。我們基于EMANE的仿真結果表明,所有的理論預測在高保真仿真中是可以觀察到的。此外,值得一提的是,我們的基于EMANE的跨層仿真平臺具有很強的通用性,對于AFRL所重視的其他基于EMANE的無線網絡跨層仿真來說,可以具有獨立的利益。

相關工作:

在本節中,我們首先回顧了與本文密切相關的QLA文獻的最新進展。如前所述,在減少QLA方法的延遲方面已經有了很大的努力。例如,在[13]中,采用了類似于[22-24]中的虛擬隊列技術,其中虛擬隊列長度根據服務速率演變,是實際服務速率的一小部分。在[16]中,提出了一種用占位者比特代替真實數據的虛擬積壓機制。研究表明,通過接受一些非零的丟包概率,這種方法實現了[O(1/K), O(log2 (K))]效用-延遲權衡。在[15]中還提出了一個指數Lyapunov虛擬積壓方法與基于閾值的丟包方案相結合,以實現O(log(K))的延遲。雖然具有對數型的時延擴展,但[15,16]的一個主要限制是,[16]中選擇占位器比特的大小和[15]中的閾值都需要非因果的全局到達和信道統計(參見[15,公式(17)],[16,公式(45)]),這通常是不可能實現的。另外,如果參數設置不當,這些方案可能會導致不可忽略的丟包概率。為了解決這個問題,在[17]中提出了一個每迭代學習,以在線方式學習最佳的占位比特大小。然而,每迭代學習組件大大增加了算法的復雜性。在某種意義上,所有這些減少延遲的方案都可以被看作是為了減少延遲而犧牲了一些吞吐量的優化(體現在降低服務速率或丟包)。相比之下,在不犧牲任何吞吐量優化和不需要任何非因果統計知識的情況下,我們的重球方案通過設置β=1-O( 1/√ K),實現了[O(1/K), O( √ K)]效用-延遲折衷。此外,我們的重球算法實現了一個優雅的三方權衡,這是現有作品[13, 15-17]所不能提供的。

接下來,我們進一步提供重球法的背景,然后回顧重球領域的相關工作。在優化文獻中,重球法也被稱為多步驟或動量法。自其誕生以來[20],重球法已經在信號處理和機器學習中找到了應用(見,例如,[25]和其中的參考文獻)。然而,到目前為止,重球法在網絡研究中仍然基本上沒有被探索。據我們所知,重球法在網絡領域的唯一應用可以在[26]中找到,作者在那里開發了一個基于重球的互聯網擁堵控制方案。我們注意到,我們的工作與[26]在以下關鍵方面有所不同: 首先,我們提出的重球算法是一個動態方案,適用于隨機的無線信道,而[26]中提出的算法解決的是有線網絡的靜態擁塞控制速率優化問題。其次,[26]中的算法需要一些假設(參見[26, Sec. VII-C])來把問題變成無約束的表述,這樣經典的重球方法就可以被應用。然而,正如[26]中所指出的,這些假設限制了重球法的使用,使其只能用于具有某些路由結構的問題。相比之下,我們提出的方法可以處理所有的網絡約束,并適用于所有的效用優化問題。第三,我們在本文中推導出明確的效用-延遲-收斂權衡比例法,而[26]中沒有提供這樣的結果。

報告組織:

總的來說,我們的成果為跨層網絡控制和優化理論貢獻了一個令人興奮的新設計范式,該范式利用了動量/記憶信息。本報告的其余部分組織如下。第2節介紹了我們提出的重球算法和擬議算法的性能分析。第3節介紹了數值結果,第4節是本文的結論。

付費5元查看完整內容

本文提出了一種方法,旨在優化穿越敵人高射炮火力范圍的飛行路徑。這適用于在完全或部分由高射炮控制的空域中移動的各種飛機、導彈和無人機。為此,使用了Q-learning--一種強化(機器)學習--試圖通過反復的半隨機飛行路徑試驗,找到避開高射炮的最佳策略。Q-learning可以在不直接模擬高射炮的情況下產生一條穿過敵人火力的最佳飛行路徑。仍然需要對手的反應,但這可以來自于黑盒模擬、用戶輸入、真實數據或任何其他來源。在這里,使用一個內部工具來生成防空炮火。這個工具模擬了一個由火控雷達和卡爾曼飛行路徑預測濾波器引導的近距離武器系統(CIWS)。Q-learning也可以用神經網絡來補充--所謂的深度Q-learning(DQN)--以處理更復雜的問題。在這項工作中,展示了使用經典Q-learning(無神經網絡)對一個穿越高射炮位置的亞音速飛行路線的優化結果。

付費5元查看完整內容

在這份報告中,我們提出了一種數據驅動的方法,用于實驗室技術載具的閉環控制。我們使用近似策略優化(PPO)算法,這是一種強化學習算法,已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性,此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的,但在獎勵稀疏的情況下,它確實受到了影響;這恰好是我們的精確彈藥應用的情況,其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題,我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段,這些階段的復雜度逐漸增加,緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。

1 引言

最近,用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展,特別是深度學習和人工神經網絡。強化學習(RL)是深度學習的一種類型,旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射,從而使所需的輸出最大化。這個程序的靈感來自于自然過程,因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中,來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動,而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中,我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化(PPO)RL算法的。

快速發展的機器學習行業導致了RL的新進展,使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入,如圖像幀,也可以推斷出行動,使性能最大化。很多時候,這種方法使閉環控制更加直接,如在基于視覺的系統中,基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反,它是一種基于模型的方法,依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似,往往阻礙了基于模型的方法,導致控制器性能不足或保守的控制器。例如,自主特技飛行是一個具有挑戰性的控制問題,因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳,但它們確實對已知的操作領域提供了寶貴的性能保證,使它們通常是安全的和可預測的。另外,無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動,無模型方法可以學習系統的復雜性,甚至可以擴展使用的代理數量。然而,他們需要更多的數據,而且控制設計中的性能保證可能更難實現。

RL方法得益于環境的簡化,如獎勵的塑造或行動空間和狀態的離散化,以實現更快的學習。在經典的RL任務中,可以同時收集行動和獎勵,以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如,當訓練一個自主代理找到一個迷宮的盡頭時,在每個時間步驟中,沒有跡象表明代理正在對系統應用正確的行動,直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習,設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點,即無意中支配了閉環控制的解決方案,減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而,當有廣泛的領域知識可供利用時,這種方法仍有其優點。好奇心驅動的方法采取相反的方法,鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的,因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化,使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習,其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是,當任務容易時,獎勵會在開始時更頻繁地出現,為RL算法提供有價值的反饋,以用于調整其控制器。

2 問題

RL已經在許多空間得到了實現,包括醫療、社會和工程應用。在本報告中,我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述,這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學,自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰,比例導航可能難以實現。

比例導航是基于線性化的嚙合幾何,這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性,這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分,這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而,由于稀疏的獎勵信號,機器學習過程非常困難。

2.1 貢獻

在這份報告中,我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境,其中嵌入了一個功能模擬單元(FMU)模型,以密切模擬真實的射彈。因此,由于尋找有用的控制策略所需的探索任務的規模,這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵,因此實施了一種課程學習方法,其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明,通過這個系統,我們可以學會駕駛智能彈藥并精確地擊中目標。

2.2 組織

我們在第3節中介紹了我們的環境模擬,在第4節中提供了PPO算法的概述,在第5節中介紹了我們的課程學習方法,在第6節中給出了訓練的概述,然后在第7節中介紹了我們的結果。

付費5元查看完整內容

美國空軍正在投資人工智能(AI)以加速分析,努力使自主無人駕駛戰斗飛行器(AUCAVs)在打擊協調和偵察(SCAR)任務中的使用現代化。這項研究探討了AUCAV在SCAR任務中執行目標打擊和提供偵察的能力。一個定向問題被制定為馬爾可夫決策過程(MDP)模型,其中一個AUCAV必須優化其目標路線,以幫助消除時間敏感的目標,并收集所要求的指定興趣區域的圖像,同時躲避作為障礙物的地對空導彈(SAM)電池威脅。AUCAV根據SAM電池和目標進入戰斗空間的位置來調整其路線。開發了一種近似動態規劃(ADP)的解決方案,其中數學規劃技術與成本函數近似(CFA)政策一起被用來開發高質量的AUCAV路由政策,以提高SCAR任務的性能。CFA政策與確定的重復定向問題(DROP)基準政策進行了比較,在四個實例中探討了動態目標和SAM電池的不同到達行為。當AUCAV被分配到120分鐘來完成它的任務,并且防空導彈電池到達戰斗空間時,結果顯示,所提出的CFA政策優于DROP政策。總的來說,擬議的CFA策略在所有四種情況下的表現幾乎與DROP策略相同或更好。

關鍵字:馬爾科夫決策過程(MDP)、近似動態規劃(ADP)、強化學習(RL)、人工智能(AI)、定向問題(OP)、車輛路由問題(VRP)、目標定位、成本函數近似(CFA)、直接前瞻近似(DLA)、網格自適應直接搜索(MADS)

I. 引言

根據美國國防部長(SecDef)的說法,美國(US)軍隊近期的重點是將目前的 "能力現代化,以應對未來的先進威脅",并確保美國軍隊仍然是 "世界上最杰出的戰斗力量"(國防部,2021)。國防部長的重點可以通過美國國防部(DoD)有效調整其資源以應對不斷變化的威脅來實現(國防部,2021)。本論文支持國防部未來的首要任務,這些任務涉及使用自主無人駕駛作戰飛行器(AUCAVs)來壓制敵方防空(SEAD)和打擊任務。這些優先事項包括人工智能(AI)、偵察機能力、作戰司令部(COCOM)策略和威懾對手方面的進步。通過開發用于AUCAV路徑規劃和目標選擇的近似動態規劃(即基于模型的強化學習)算法,我們可以探索空軍打擊深度、時間敏感目標和威懾對手的能力,與國防部的主要倡議直接保持一致(國防部副部長(主計長)/首席財務官辦公室,2021)。這些資產的一個共同點是它們都對司令部的任務至關重要,并且可以與AUCAV打擊高價值目標的能力一起工作。

1.1 美國防部的舉措

AUCAV有多種方式可以用來支持COCOM的任務。一種獨特的方式是對時間敏感目標(TST)的位置進行偵察,使其他盟軍飛機或地面資產能夠打擊該目標。第五代F-35可以在不被發現的情況下遠距離攻擊地面目標,包括地對空導彈(SAM),并使用精確武器成功完成空對地任務(Military Advantage, 2014)。AUCAVs對薩姆導彈可能沒有那么有效,可能會被它們擊落。然而,AUCAVs有能力對要求命名的興趣區(NAIs)或更適合其他軍事資產打擊的目標類型進行偵察,如F-35或B-52。

F-15EX是美國國防部批準的項目,與F-35不同,它不是隱形的,不能在敵后不被察覺。然而,空軍已經考慮將F-15EX與隱形戰斗機配對,并將這對戰斗機作為遠程空對空導彈發射平臺(Mizokami,2021)。盡管F-15EX也有能力進行空對地打擊,但該機的主要優勢在于其雷達和攜帶大量武器載荷的能力,包括二十多枚空對空導彈或高超音速武器(Mizokami, 2021)。這種作戰能力是需要考慮的,因為將一架隱身飛機(如F-35)與一架不具備相同屬性的飛機(如F-15EX)配對,以完成時間敏感的目標打擊任務,作為AUCAV的目標確認能力的結果,可能會達到優越的性能。

在每個COCOM的責任區(AOR),指揮官要求提供NAI和高價值目標打擊的圖像。假設沒有能夠擊落AUCAV的敵方威脅(例如,防空導彈炮臺),AUCAV可以滿足指揮官的要求。然而,這種假設忽略了一個現實,即敵人可能會施加障礙,嚴重影響精心策劃的任務。路徑規劃必須結合禁飛區(NFZ)的情報信息,以達到避免威脅的目的。本論文討論的近似動態規劃(ADP)算法將探討未預見的NFZ或戰斗區(例如,由于防空導彈電池)如何影響AUCAV的目標選擇,以及AUCAV如何隨著時間的推移學會避免這些區域。

美國軍方已經對使用JDAMs打擊目標的無人駕駛作戰飛行器(UCAV)進行了作戰測試和評估(OT&E)(Butler and Colarusso, 2002)。因此,本論文假設AUCAVs使用JDAMs來打擊高價值目標。JDAM能夠使用從聯合監視目標攻擊雷達系統(JSTARS)傳送的飛行中目標更新(IFTU)信息單獨指向其目標(Butler and Colarusso, 2002)。已經完成的測試表明,使用負擔得起的移動水面目標攻擊系統(AMSTE)而不是JSTAR,使UCAV打擊移動目標的能力大大增強。這一發展應作為后續工作進一步探討,但在本論文中不會詳細討論。

美國特種作戰司令部(USSOCOM)正在投資人工智能(AI)以加快分析速度(國防部副部長(主計長)/首席財務官辦公室,2021)。這篇論文的重點是建立一個人工智能算法,使戰斗指揮部,如USSOCOM,能夠及時有效地執行目標打擊,并對要求的國家情報機構進行偵察。除各司令部外,聯合情報支援部隊(JISE)和聯合特遣部隊(JTF)也依賴偵察機,這是因為他們在管理各種形式的偵察和監視敵人方面的作用,這些偵察和監視對了解情況、確定目標和合適的目標以及向部隊提供警告是必要的(國防部,2018a)。如果目前的AUCAV路徑規劃AI算法得到改進,所有這三個適用的軍事組織都可以提供更多的情報信息,從而在目前的限制性資源(如燃料容量、彈藥或在戰區的時間)下,產生更多的目標打擊和NAI的圖像。

1.2 空軍關于目標選擇的學說

鎖定目標是一項指揮職能,需要指揮官的監督和參與,以確保正確執行(美國空軍部,2019年)。它不是某類專業或部門的專屬領域,如情報或行動,而是融合了許多學科的專業知識(美國空軍部,2019)。本論文通過將AUCAV任務前收到的情報與美軍的聯合、戰術和空軍理論相結合,探索這種專業知識的融合。最好同時考慮聯合學說和空軍學說,以更好地理解空軍如何定義目標。根據聯合學說,目標是一個實體或物體,被視為可能的交戰或其他行動(國防部,2018b)。實體可以被描述為設施、個人、虛擬(非物質)事物、設備或組織(美國空軍部,2019)。

有兩類目標:故意的和動態的(美國空軍部,2019年)。當有足夠的時間將目標添加到空中任務單或其他計劃中時,故意瞄準適用。蓄意的目標定位包括計劃由待命資源攻擊的目標。動態目標定位包括那些發現得太晚或沒有及時選擇而被列入蓄意目標定位的目標,但當發現或定位時,符合實現目標的特定標準。

本論文試圖確定AUCAV的最佳路線,以選擇故意和動態目標的組合。AUCAV進入戰斗空間時,有一組要求攻擊或偵察的故意目標。一旦進入戰斗空間,AUCAV就會遇到新的目標請求(即動態目標到達),必須重新計算其最佳目標選擇路線,并考慮到新到達的目標。

需要特別考慮的兩個目標子集是敏感和時間敏感(Department of the United States Air Force, 2019)。敏感目標是指指揮官估計在軍事行動中發生的對平民和/或非戰斗人員、財產和環境的實際影響和附帶影響超過既定的國家級通知門檻的目標(Department of Defense, 2018b)。敏感目標并不總是與附帶損害相關(美國空軍部,2019)。它們也可能包括那些超過國家一級交戰規則閾值的目標,或者作戰指揮官確定打擊目標的效果可能會產生不利的政治影響(美國空軍部,2019)。時間敏感目標是聯合部隊指揮官確認的目標或需要立即做出反應的目標集,因為它們是高度有利可圖的、轉瞬即逝的機會目標,或者它們對友軍構成(或即將構成)危險(國防部,2018b)。

這篇論文的重點是AUCAV對時間敏感的目標進行打擊,并對可能包括敏感目標的NAI進行偵察,同時避開代表薩姆電池威脅區的NFZ。這是通過使用ADP方法、整數規劃技術和馬爾科夫決策過程(MDP)模型框架解決具有隨機目標到達的無人駕駛飛機定向問題,同時避開障礙物來實現的。車輛路由問題MDP模型框架被用來對AUCAV的目標選擇進行基線分析,同時避開障礙物(即防空導彈電池),并確定哪些時間敏感的目標應該在指定的時間段內被摧毀。然后,采用CFA策略的ADP解決方法來優化AUCAV的目標路線,在做決定時利用未來動態時間敏感目標和障礙物到達的預測位置。

本論文的其余部分的結構是:第二章討論類似于具有隨機目標到達的自主車輛定向問題的文學作品,第三章討論問題的制定框架和解決方法,第四章討論計算測試和結果,第五章討論結論。第二章從ADP的角度詳細探討了具有隨機到達、服務時間和等待時間的類似路徑規劃問題。第三章對用于建模和解決問題的方法進行了深入探討。第4章揭示了分析的結果和建議。第5章是本論文的結論,提出了為AUCAV選擇目標和躲避敵人威脅而產生改進的解決程序的未來建議。

付費5元查看完整內容

這項工作的目的是開發能夠成功處理復雜動態環境中順序決策的深度終身學習方法,重點是多Agent情報、監視和偵察(ISR)場景。我們為深度卷積神經網絡開發了一個新的架構,支持通過去卷積因子化的終身學習(DF-CNN),探索了通過Distral和Sobolev訓練的策略提煉的組合,并開發了一個混合控制器,將深度學習應用于ISR智能體。我們的方法在標準基準深度學習數據集、DOOM環境和ATE3模擬環境中的ISR場景中進行了評估。

我們的主要貢獻是反卷積因子卷積神經網絡(DFCNN)。DF-CNN框架調整了標準卷積神經網絡(CNN)框架,以實現任務之間的轉移。它在每個CNN層維護一個共享知識庫,并通過這個共享知識促進不同任務的CNN之間的轉移。每個具體任務的CNN模型的各個過濾層都是由這個共享知識庫重建的,隨著網絡在多個任務中的訓練,這個知識庫會隨著時間的推移而調整。DF-CNN代表了ELLA終身學習框架對深度網絡的概括。

實驗表明,DF-CNN在終身中的基準識別任務上的表現優于其他方法(包括單任務學習、低層的硬參數共享和漸進式神經網絡)。此外,該框架能夠抵抗災難性遺忘,同時仍然允許從未來的學習中反向轉移到以前學習的模型。

對于深度強化學習,我們研究了將Sobolev訓練整合到Distral多任務框架中,以努力改善轉移和訓練,探索了DF-CNN在深度RL中的應用,并開發了一個混合控制器,將本地學習的深度RL策略結合在一起,在ATE3仿真環境中完成ISR場景。

付費5元查看完整內容

人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。

1 引言

由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。

AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。

在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。

2 相關工作

自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。

一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。

最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。

與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。

3 背景-分層強化學習

將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。

我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。

4 ADT仿真環境

為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。

圖1: 仿真環境的渲染圖

每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。

每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。

圖2:武器交戰區(WEZ)

WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。

5 agent結構

我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。

圖4:PHANG-MAN agent的高層結構

付費5元查看完整內容
北京阿比特科技有限公司