亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文報告了在使用基于遺傳學的機器學習過程和戰斗模擬發現新型戰斗機機動系統方面的經驗。實際上,這一應用中的遺傳學習系統正在取代測試平臺,從經驗中發現復雜的動作。這項工作的目標與許多其他研究不同,因為創新和發現新穎性本身就是有價值的。這使得目標和技術的細節與其他基于遺傳學的機器學習研究有所不同。

本文討論了應用的細節、動機以及所采用技術的細節。介紹了一個玩家適應固定策略對手的系統和兩個玩家共同適應的系統的結果。論文還討論了這項工作在其他自適應行為應用中的普遍意義。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

本文設計并驗證了一種用于高效開發多機器人海洋任務的新型模擬器。為了加快合作行為的開發,該模擬器以中等高保真度模擬機器人的工作條件,運行速度明顯快于實時速度,包括聲學通信、動態環境數據和大型世界中的高分辨率測深。該模擬器的實時系數(RTF)超過 100,這一點已通過強大的持續集成套件進行了測試,并被用于開發多機器人現場實驗。

圖 1: (a) 多車模擬。(b) 在蒙特雷灣從 R/V Paragon 上實地部署的 LRAUV

圖 4:熱掩體任務階段。部署完成后,救生飛行器(RV)開始向漂移的采樣飛行器(SV)進行三階段歸航:在中途制導過程中到達 GPS 航點后,RV 切換到聲學終端歸航階段,速度很快,然后在距離減小到 r1 時減速。一旦距離達到 r2,就會發生雙向聲學握手,RV 命令 SV 浮出水面,SV 則確認命令并浮出水面。在 "完成 "階段,RV 開始采樣。

自主機器人是現代海洋勘探的主流。與傳統的船舶作業相比,機器人收集的現場測量數據尺度更大、精度更高、成本更低。此外,與單個自主潛水器(AUV)相比,長時間部署的多機器人系統能更有效地收集更大規模的數據[1], [2], [3]。然而,復雜的水下多機器人系統需要在模擬和現場進行嚴格驗證才能可靠運行。

開發長時間的多潛航器任務具有挑戰性,因為許多故障模式可能會危及為期一周或一個月的部署的成功。水下平臺必須在通信受限、電力緊張和定位不確定的情況下可靠運行。故障可能導致昂貴的有效載荷和數據丟失。多個智能體的故障點越多,風險就越大。仿真技術發揮著關鍵作用,它允許在高風險部署前對代碼進行測試。然而,現有的模擬器速度太慢,或者不支持多車輛。

我們設計了一個模擬堆棧 LRAUV Sim,用于開發復雜的多無人飛行器任務。該模擬器可以擴展到任意螺旋槳驅動的水下航行器,但目前模擬的是長距離自主水下航行器(LRAUV),這是一種細長型 AUV,在現實世界中經常由兩個機構部署。LRAUV Sim 擴展了新的 Gazebo 模擬器[4],并以我們認為比以前的模擬器更快的速度模擬了流體力學、聲學通信和海洋傳感器,同時允許從用戶提供的標量場可視化科學數據。LRAUV Sim 為野外機器人技術提供了一種開發模式,可以快速模擬多個動作序列,以測試復雜系統中的故障情況和任務邏輯。

雖然任務開發仍需要真實世界的驗證,但快速模擬各種場景的能力可讓從業人員在現場集中時間對任務進行微調,以考慮到模擬中未完全建模的因素,如微妙的流體力學行為以及傳感器和執行器特性,而不是在現場發現任務邏輯或控制流中的軟件錯誤。

我們通過持續集成(CI)測試驗證了模擬器,并從模擬到成功的現場試驗,開發了一種復雜的行為,以維持多機器人團隊的觀測。在這一行為中,一個自動潛航器利用聲學定位和通信技術精確地替換另一個自動潛航器,使被替換的潛航器能夠重新充電或重新調度:這是一種與海洋研究人員相關的監測技術。

貢獻如下

  • 多機器人快于實時(FTRT)海洋模擬,具有我們所知的最快 RTF

  • 基于堅實理論基礎的流體力學驗證的連續控制器集成

  • 物理模擬時間步長與黑盒控制器迭代同步

  • 在現實世界中演示模擬加速任務開發和驗證

  • 模擬器內可視化大規模密集數據,包括動態插值科學數據和高分辨率真實世界水深測量數據

  • 軟件貢獻被接受為通用模擬器(新的 Gazebo [4])的本地內置功能

付費5元查看完整內容

在安全關鍵型應用中,驗證和認證人工智能驅動的自主系統(AS)所做的決策至關重要。然而,這些系統中使用的神經網絡的黑盒性質往往使實現這一目標具有挑戰性。這些系統的可解釋性有助于驗證和認證過程,從而加快其在安全關鍵型應用中的部署。本研究通過語義分組獎勵分解研究了人工智能驅動的空戰智能體的可解釋性。論文介紹了兩個使用案例,以展示這種方法如何幫助人工智能和非人工智能專家評估和調試RL智能體的行為。

圖 3. 訓練有素的 RL 智能體跟蹤性能。左上圖為鳥瞰圖。右上圖是從藍色智能體框架透視的,每個綠色圓圈的半徑為 1000 米。下圖是分解獎勵條形圖,黑色 x 符號代表選擇的行動,其他 x 符號代表與每個 DQN 的最大預期獎勵相關的行動,它們分別代表各自的獎勵類型。

付費5元查看完整內容

本研究探討了無人駕駛飛行器(UAV)與有人駕駛飛機合作進行集中任務規劃的發展情況。我們采用經過近端策略優化(PPO)訓練的單一智能體來模擬敵方防空壓制(SEAD)場景。我們的目標是掌握最佳任務策略。我們的模型在各種環境條件下進行了測試,在 100 次測試中,消除敵方防御的成功率達到 78%。我們的模型所取得的巨大成功強調了它在未來戰爭場景中的應用潛力,代表了空戰和強化學習應用領域的重大進展。

方法

集中式任務規劃架構

集中式任務規劃架構是指一種先進的技術架構,能夠在復雜多變的作戰場景中高效協調和管理無人機。該架構從各種信息來源收集數據,實時評估局勢,并規劃和執行最佳戰略,以最大限度地提高整個任務的成功潛力。

該架構的主要組成部分如下:

  1. 戰斗信息管理: 該組件持續監控當前的戰斗態勢并跟蹤信息,以提供實時戰場情報。信息來源多種多樣,包括各種傳感器、傳感器網絡和人工觀察,從而能夠深入了解動態復雜的作戰環境。這相當于強化學習中收集環境信息的過程,為有效的學習過程提供了第一步。

  2. 戰斗狀態(觀察): 在這一階段,戰場信息被提供給智能體。在戰場上收集到的各種信息會被實時處理,并傳遞給強化學習智能體。這樣,智能體就能通過綜合戰場態勢感知了解當前形勢,預測未來的可能性,并決定下一步行動。

3)任務規劃器(智能體): 作為中心的核心要素,這個基于強化學習的智能體根據傳入的實時作戰態勢數據做出最優行動。這一決策過程由一個預訓練的強化學習模型執行,該模型學習如何在復雜環境中實現任務目標。

  1. 指揮官: 最后,智能體的決策將交由指揮官執行。智能體決定的行動將作為指令傳遞給實際的無人機,從而實現移動、目標探測和攻擊等具體任務。

因此,集中任務規劃架構實現了從各種信息源收集和處理數據、規劃和調整無人機行動以適應實時戰場條件的戰略。這就實現了實時戰略決策和快速反應,提高了整體作戰效率和生存能力。

強化學習環境的構建

我們為 MUM-T 問題開發了一個量身定制的強化學習環境。在這個環境中,我們部署了一架戰斗機無人機、一個干擾器和一個防空導彈系統,每個系統都有預定義的攻擊范圍和干擾距離。任務的主要目標是協同參與干擾行動,使目標防空導彈系統失效,隨后通過操縱戰斗機無人機將其消滅。任務的成功完成取決于是否到達指定的目標點。

在無人機任務規劃的背景下,我們為 MUM-T 構建了一個定制的強化學習環境。在 MUM-T 環境中,我們部署了一架戰斗機無人機、一個干擾器和防空導彈系統,每個系統都有明確的攻擊范圍和干擾距離。任務的最終目標是與干擾機進行合作干擾,使防空導彈無法攻擊,隨后通過操縱戰斗機無人機摧毀防空導彈。當無人機到達最終目的地(稱為 "目標點")時,即成功完成任務。

為了開發環境,我們使用了 Gym 庫,這是一個用于強化學習環境的開源框架。無人飛行器可以移動的空間用二維網格表示。由于無人機的航向和速度等低層次控制方面的問題假定由 AFRL ACL 5 級自主處理,因此集中式任務規劃框架側重于負責規劃任務相關值(即航點和任務點)的高層次控制,這些值基于多架無人機的信息和戰場狀態。為促進學習過程,我們將任務空間離散化為 30x30 的網格,共由 900 個單元組成。

每個無人機的行動空間被定義為離散的多行動空間,使每個智能體能夠獨立選擇行動。戰斗機無人機和干擾機有五種可能的行動:向左、向右、向上、向下和攻擊。行動空間的離散化簡化了學習和控制[圖 5、6]。

在每個時間步長內,智能體根據其選擇的行動在網格環境中移動。我們施加了邊界條件(懲罰),以防止無人機在網格邊界外移動。此外,我們還通過檢測碰撞并分配相應的懲罰來處理戰斗機和干擾機之間的潛在碰撞。為了解決無人飛行器之間的協作問題,我們為智能體之間的特定功能和互動建立了模型。當干擾機進行干擾時,如果薩母不在攻擊范圍內,則會產生懲罰。但是,如果防空導彈在攻擊范圍內,干擾成功則會獲得獎勵,使防空導彈無法使用。戰斗機總共有五次攻擊機會,攻擊失敗(當防空導彈不在攻擊范圍內時)會導致失去一次攻擊機會并受到懲罰。另一方面,如果防空導彈在規定的攻擊范圍內,防空導彈就會失效,并獲得獎勵。重要的是,如果戰斗機沒有進行干擾,則無法攻擊,因為戰斗機的攻擊范圍小于干擾距離。

付費5元查看完整內容

為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。

RELEGS:針對復雜作戰情況的強化學習

為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。

標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。

為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。

為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。

一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。

視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。

動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。

除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。

付費5元查看完整內容

人工智能在空戰領域正變得越來越重要。目前,大多數空戰研究都假定所有飛機信息都是已知的。但在實際應用中,由于現實限制和傳感器誤差,一些飛機信息,如位置、姿態、速度等,可能是不正確的,或者是不可能獲得的。在本文中,我們提出了一種基于深度強化學習的框架,用于開發一種能夠在信息不足的部分可觀測馬爾可夫決策過程(POMDP)條件下執行可視范圍(WVR)內空對空作戰的模型。為了穩健地應對這種情況,我們使用了遞歸神經網絡,并應用了軟評價器(SAC)算法,以有效應對現實限制和傳感器誤差。此外,為了提高學習效率和效果,我們還應用了課程學習技術來限制狀態空間的探索范圍。最后,模擬和實驗結果表明,所提出的技術能夠在嘈雜的環境中處理傳感器限制和誤差引起的實際問題,同時還能高效地減少學習的訓練時間。

圖 2 顯示了本研究提出的空戰模型學習框架概覽,該框架由矢量化空戰模擬環境和包括重放緩沖器在內的循環 SAC 模塊組成。環境中有兩個動態模型:己方和目標。它們分別從 SAC 模塊的角色和基于規則的行為模型中獲得動作 at 和 atarget,并輸出飛機狀態 sownship 和 starget。模擬器根據這些狀態生成獎勵 rt 和觀測值 ot,同時考慮到配置的傳感器特性。軌跡(ot、at、rt)被存儲在重放緩沖區中,固定長度的軌跡序列將被采樣用于批判。

付費5元查看完整內容

本文所介紹的研究得到了德國聯邦國防軍裝備、信息技術和在役支持辦公室 (BAAINBw) 的支持。

有人無人編隊是提高民用和軍事行動效率的一個關鍵方面。本文概述了一個為期四年的項目,該項目旨在開發和評估有人-無人編隊飛行的方法。編隊飛行場景是針對執行近距離編隊飛行的有人和無人駕駛旋翼機量身定制的。本文介紹了使用案例和測試方法。開發了兩種編隊飛行算法,并對照基于航點的預編程基線進行了評估。評估是在由不同飛行員參與的模擬器活動和由一名評估飛行員參與的飛行測試活動中進行的。在最后的飛行測試活動中,首次實現了有人駕駛和無人駕駛直升機之間的耦合近距離編隊飛行。最后,本文包含了飛行測試和模擬器測試的結果。

人機編隊飛行

在德國航天中心 MUM-T 研究期間,對三種一般編隊策略進行了調查。

第一種方法在評估過程中被用作基線。這種方法被稱為航點模式,假定有人駕駛直升機的機組人員通過基于航點的界面指揮無人機的移動。這種基于航點的導航是無人直升機最先進的能力。由于耗時和可能的輸入錯誤,飛行任務需要大量的準備時間。由于缺乏靈活性,無人直升機被認為是編隊的領導者。因此,載人直升機跟隨無人機的飛行模式并保持編隊,同時監控空間間隔以避免碰撞。在這種模式下,載人直升機可以隨時離開編隊,但只要編隊還在,就必須監控兩架飛機之間的距離。通過引入最小距離或半徑(稱為安全半徑)來確保飛行安全。圖 1 給出了簡要概述。

請注意,編隊的領隊是確定飛行速度或方向等飛行參數的飛機。在 DLR MUM-T 飛行測試活動中,出于安全考慮,無人機始終位于載人直升機之前。

第二種基于相對導航的方法在下文中稱為 RelNav。在這種模式下,無人機使用控制器保持與載人直升機的相對位置。有關編隊飛行控制模式的詳細介紹,請參閱參考文獻[21]。[21]. 在該模式下,無人直升機與有人駕駛直升機直接耦合,無人機跟隨有人駕駛直升機飛行,不執行任何規定任務。在 RelNav 模式下,有人駕駛直升機指揮編隊,無人機保持相對位置。此外,還在有人駕駛直升機前方劃定了一個安全區域,從駕駛艙可以目視到無人直升機,以提高飛行安全性。在圖 2 中,該區域顯示為允許區域,而最小距離則表示為安全半徑。

第三種方法旨在將 RelNav 模式中任務期間改變飛行路線的靈活性與航點模式中載人直升機不直接耦合運動相結合。這種模式被命名為 "走廊模式",因為它的主要特征是 "走廊"。走廊是一種類似航點的任務,具有規定的速度和轉彎,但使用的不是規定的航點位置,而是允許的無障礙區域。在 "走廊 "模式下,無人飛行器會沿著走廊飛行,但如果違反了規定的邊界,則會發出額外的速度指令。這些邊界可以是最大或最小距離,也可以是相對于載人直升機的某個方向。在這種模式下,無人機能夠對載人直升機的行為做出反應,但對細微的航向或速度變化不太敏感。無人機在走廊模式下的行為可分為兩種不同情況。首先,在標稱行為中,無人機完全處于走廊的邊界內。因此,無人飛行器是按照規定的走廊飛行。邊界上有預定義的緩沖區,為防止違反邊界,會對無人飛行器發出速度指令。無人機在接近允許區域的邊界或允許走廊的邊界時會改變行為。在這兩種情況下,如果同時到達兩個邊界,就會產生一個速度指令,以防止違反邊界;詳細計算可參見參考文獻[21]。[21]。 如果違反了允許走廊的邊界,無人飛行器應切換到 RelNav 模式。或者,如果走廊和載人直升機的允許區域都被侵犯,無人機應切換到航點模式。圖 3 是走廊模式的示意圖。

為確保飛行安全,該項目還開發了另一種應急模式,該模式被命名為 "脫離模式"。在任何 MUMT 編隊飛行中,該子模式始終可用。如果違反了安全關鍵邊界或出現技術缺陷,就會啟用該模式。該模式將兩架飛機分離,并觸發無人機的預定義行為。載人直升機的脫離行為被定義為 90° 轉身離開無人機并爬升約 150 英尺。

引入的 MUM-T 模式具有不同的自動化程度。不過,要實現安全的 MUM-T 編隊飛行,必須執行幾項共同任務。它們是:

領導編隊:一架飛機(稱為領隊)確定編隊參數(如速度、高度或航跡)。

避免碰撞:這項任務要求監控飛機之間的距離,并對任何違反安全規定的情況做出反應。

保持編隊:監控編隊領隊位置并保持相對位置不變是保持編隊的任務。

付費5元查看完整內容

我們的研究展示了如何將技術和數據科學實踐與用戶知識相結合,既提高任務性能,又讓用戶對所使用的系統充滿信心。在本手稿中,我們重點關注圖像分類,以及當分析師需要及時、準確地對大量圖像進行分類時出現的問題。利用著名的無監督分類算法(k-means),并將其與用戶對某些圖像的手動分類相結合,我們創建了一種半監督圖像分類方法。這種半監督分類方法比嚴格的無監督方法具有更高的準確性,而且比用戶手動標記每張圖像所花費的時間要少得多,這表明機器和人工優勢的結合比任何替代方法都能更快地產生更好的結果。

付費5元查看完整內容

這項工作使用來自建設性模擬的可靠數據,比較了有監督的機器學習方法,以估計空戰中發射導彈的最有效時刻。我們采用了重采樣技術來改進預測模型,分析了準確度、精確度、召回率和f1-score。事實上,我們可以發現基于決策樹的模型性能卓越,而其他算法對重采樣技術非常敏感。在未使用重采樣技術和使用重采樣技術的情況下,最佳f1-score模型的值分別為0.378和0.463,提高了22.49%。因此,如果需要,重采樣技術可以提高模型的召回率和f1-score,但準確率和精確度會略有下降。此外,通過創建基于機器學習模型的決策支持工具,有可能提高飛行員在空戰中的表現,這有助于提高攻擊任務命中特定目標的有效性。

付費5元查看完整內容

圖4. 人工智能對目標定位的增強:人工智能可以通過搜索目標并在發現后發出警報來增強動態目標定位周期。

開發和使用新的軍事技術是一個軍事專業人員工作的一部分。事實上,軍事歷史在很大程度上是一個技術革新的故事,士兵需要學習如何操作新系統。因此,關于整合人工智能的很多東西并不新鮮。就像坦克、飛機甚至弩一樣,隨著時間的推移,士兵們學會了使用和運用技術,工業界學會了以足夠的數量和質量生產技術,高級領導人學會了運用技術來實現戰略效果。如前所述,人工智能技術與它們的顛覆性“前輩”之間的區別在于,前者有能力改善廣泛的軍事武器、系統和應用。由于這種潛在的普遍性,幾乎所有的士兵都必須在某種程度上變得熟練,才能有效地和道德地運用AI技術。隨著這項技術在應用上的擴展,戰爭將像管理暴力一樣管理數據。

這種普遍性也提出了關于人類發展和人才管理的問題。盡管培訓計劃最終會培養出更多的知識型士兵,人事系統也會提高管理士兵的能力,但軍警人員能夠獲得知識和技能的限制仍然存在,特別是在作戰層面。盡管討論的目的不是要建立嚴格的指導方針,但討論確定了士兵需要獲得的許多知識。例如,士兵將需要知道如何策劃和培訓數據庫,而該數據庫對他們正在執行的任務有著重要作用。這樣做需要確保數據的準確、完整、一致和及時。使用這些數據需要熟練應用推薦模型卡中描述的條件,而熟練的操作有助于確保算法以有效和道德的方式執行。

當然,信任不能僅靠政策和程序來保證。指揮官、參謀員和操作員需要知道他們被信任做什么,以及他們信任系統做什么。指揮官、參謀員和操作員信任人工智能系統來識別合法目標,并避免識別非法目標。參與這一過程的人必須在使用這些信息時,既需要擊敗敵人,又必須避免友軍和非戰斗人員的傷亡。要找到這種平衡,就需要判斷人應該承擔多大的風險。

只要參與流程的人類能夠與系統進行有效的互動,由人工智能賦能的系統就能促進找到這種平衡。在將人類控制整合到機器流程中時,人們經常被迫在控制和速度之間做出選擇:強加的人類控制越多,系統的運行速度就越慢。但本研究發現這種兩難的局面是錯誤的。盡管在某些情況下,在人的控制和速度之間進行平衡可能是必要的,但如果系統要最佳地運作,人的輸入是必要的。

實現最佳性能首先要求指揮官確保參謀和操作人員了解模型能力,理解數據質量的重要性,以及洞悉模型在作戰環境中的表現。盡管它可能不會使系統更加精確或準確,但實現這些任務可使系統能夠更好地對輸出進行概率分配。第二,指揮官需要確定對任務、友軍戰斗人員和敵方非戰斗人員的風險有多大才合適。這一決定很復雜,其中關鍵任務可能是需要容忍更多的友軍和非戰斗人員傷亡。同樣,如果非戰斗人員的密度較低,即使任務不那么緊急,也可以容忍較高的風險。尋找這種平衡將是人類的工作。

但在前面描述的模糊邏輯控制器的幫助下,指揮官可以更好地確定什么時候可以信任一個人工智能系統在沒有人類監督的情況下執行一些目標定位步驟。此外,可以通過構建交互的邏輯,以找到多種不同的人機互動配置,確保系統的最佳使用,同時避免不必要的傷害。在LSCO期間,讓指揮官在需要時選擇智能和負責任地加快目標定位過程將是至關重要的,本報告中提出的設計實現了這一目標。這一成就在未來尤其重要,因為為了保護部隊并實現任務目標,指揮官將面臨大量時間敏感目標,及面臨承擔更多風險的操作條件。

在培養具有正確技能的足夠數量士兵以充分利用人工智能技術方面,仍有大量的工作。目前的人才管理計劃尚未達到管理這一挑戰的要求,盡管多個有前途的計劃準備最終滿足需求。然而,在大多數情況下,這些計劃都是為了滿足機構層面的要求,在機構層面上做出全軍采買人工智能和相關技術的決策。但是,這些技能將如何滲透到作戰陸軍,尚不清楚。

盡管人工智能在目標定位中的使用并不違反當前的戰爭法,但它確實引起了一些道德倫理問題。在所討論的目標定位系統背景下,這些倫理問題中最主要的是問責制差距和自動化偏見。第一個問題對于回答核心問題至關重要,“指揮官在什么基礎上可以信任人工智能系統,從而使指揮官可以對這些系統的使用負責?”自動化偏見和數據衛生與問責制差距有關,因為當這些問題存在時,它們會破壞指揮官可能希望實施的有意義的人類控制措施。指揮官可以通過以下方式縮小問責差距:首先,確保人員受到適當的教育、技能和培訓,以整理相關數據;其次,確保指揮官允許的風險,準確地反映完成任務與保護友軍士兵和非戰斗人員之間的平衡需求。指揮官還可以通過在機器需要更多監督時向參與該過程的人類發出信號來減少自動化偏見的機會及其潛在影響。

作為一個專業人員,不僅僅意味著要提供服務,還要在出問題時承擔責任。專業人員還必須了解各種利益相關者,包括公眾和政府及私營部門實體,如何與本行業互動和競爭。鑒于這些技術的潛力,軍事專業人員必須首先學會在技術及其應用的發展中管理預期。由于這種演變影響到專業工作的特點,軍事專業人員還必須注意專業以外的人如何重視、獎勵和支持這項工作。因此,隨著美軍繼續將人工智能和數據技術整合到各種行動中,對其專業性的考驗將在于擁有專業知識的能力,以及建立能夠繼續發展、維護和認證這種專業知識的機構,這些機構既能滿足美國人民的國防需求,又能反映他們的價值觀。

付費5元查看完整內容

摘要--基于模擬的訓練有可能大幅提高空戰領域的訓練價值。然而,合成對手必須由高質量的行為模型控制,以表現出類似人類的行為。手工建立這種模型被認為是一項非常具有挑戰性的任務。在這項工作中,我們研究了如何利用多智能體深度強化學習來構建空戰模擬中合成飛行員的行為模型。我們在兩個空戰場景中對一些方法進行了實證評估,并證明課程學習是處理空戰領域高維狀態空間的一種有前途的方法,多目標學習可以產生具有不同特征的合成智能體,這可以刺激人類飛行員的訓練。

索引詞:基于智能體的建模,智能體,機器學習,多智能體系統

I. 引言

只使用真實的飛機進行空戰訓練是很困難的,因為飛行的成本很高,空域的規定,以及代表對方部隊使用的平臺的有限可用性。取而代之的是,可以用合成的、計算機控制的實體來代替一些人類角色。這可以降低訓練成本,減少對人類訓練提供者的依賴(見圖1),并提高訓練價值[1]。理想情況下,受訓飛行員的對手應該都是合成實體,這樣就不需要角色扮演者和真實飛機來支持訓練。然而,為了達到較高的訓練價值,合成對手必須由高質量的行為模型控制,并表現出類似人類的行為。手工建立這樣的模型被認為是一項非常具有挑戰性的任務[2], [3]。

圖1. 空戰訓練系統的用戶。通過構建更智能的合成智能體,可以減少對人類訓練提供者的需求。

近年來,強化學習算法的性能得到了迅速提高。通過將強化學習與深度學習相結合,在復雜的控制任務[4]-[6]、經典的棋盤游戲[7]-[9]以及具有挑戰性的實時、多人計算機游戲[10],[11]中取得令人印象深刻的結果成為可能。這使我們相信,強化學習也可以成為構建空戰模擬中合成智能體行為模型的一個可行的選擇。有了這種方法,訓練系統的用戶就不需要明確地對智能體的行為進行編程,而是可以簡單地指定他們所需的目標和特征。然而,目前還沒有很多研究來評估空戰領域中最新的多智能體學習方法的性能。

在這項工作中,我們研究了如何在空戰模擬中使用多智能體深度強化學習來學習協調。在空戰領域,多個智能體的協調是很重要的,因為飛行員從來不會單獨飛行。我們的貢獻可以總結為以下幾點:

  • 首先,我們討論了用于訓練飛行員的空戰模擬領域的強化學習算法的用例、設計原則和挑戰

  • 其次,我們使用高保真模擬引擎,對有助于實現所確定的用例的方法進行了廣泛的實證評估。

具體來說,我們研究了空戰模擬場景中學習算法的兩個挑戰。1)用稀疏的獎勵學習,以及2)創建具有可調整行為的智能體。我們的實驗表明,在空戰的高維狀態空間中,課程學習可以促進稀疏獎勵的學習,而多目標學習可以產生具有不同行為特征的智能體,這可以刺激飛行員的訓練。

付費5元查看完整內容
北京阿比特科技有限公司