亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

利用深度強化學習(RL)來優化針對多目標的多車高超音速打擊的武器與目標分配(WTA)策略。目標是在每一集中最大化被摧毀目標的總價值。每個隨機生成的事件都會改變高超音速打擊武器(HSW)和目標的數量和初始條件、目標的價值分布以及 HSW 被攔截的概率。們將此 WTA 策略的性能與使用非線性整數編程(NLIP)推導出的基準 WTA 策略的性能進行了比較,發現 RL WTA 策略的性能接近最優,計算速度提高了 1000 倍,允許實時操作,有利于任務終局的自主決策。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

事后分析(AAR)在軍隊和組織中用于評估事件及其相應的培訓成果。團隊討論提供了一種以學習為中心的方法,用于評估表現、分析失敗或對未來活動可能的改進。有用的信息經常以非結構化文本和語音的形式嵌入這些 AAR 中。本文提出了一種對 AAR 進行數字分析和趨勢分析的解決方案。討論了使用手持設備采集數據的解決方案。此類設備可將音頻輸入數據管道,在管道中進行語音到文本的處理。音頻處理的操作方法是識別音素等原始語言成分,并對其關系進行上下文建模,以識別最有可能的文本輸出。然后,將討論語音到文本的轉換以及自然語言處理 (NLP) 在分析中的應用。NLP 技術可發現非結構化文本中的語義模式,然后將其與團隊績效指標相關聯。通過揭示 AAR 與團隊表現之間的成功促進因素,這種趨勢可以優化軍事訓練課程。

付費5元查看完整內容

現代軍事模擬在幾個關鍵方面受到限制。軍事模擬器結構復雜,交互簡單,對作戰藝術發展的應用微乎其微。作者建議開發一種沒有這些限制的戰場模擬器。這種模擬器將包括一個跨平臺和跨領域的數字環境。它將允許在戰術層面和作戰層面的參與。它允許引入新的平臺,而這些平臺的屬性可以改變,這樣不僅能將開發中的平臺納入現有的戰術流程,還能確定尚未構想出的平臺的需求。由于這種結構同樣適用于敵方部隊,因此不僅可以針對現有的實際問題對當前的概念進行大規模測試和改進,還可以針對新出現的問題對未來的概念進行測試和改進。這樣的作戰模擬器將使用基于物理的開放世界軟件架構、大規模多玩家結構和大數據,以隨著時間的推移改進其對敵人和環境的建模。

圖 1 - 現代兵棋推演模擬器的模型

目前,在戰場上采用新技術的戰術和作戰方法需要幾十年的時間,通常是在一場或多場重大沖突中通過實戰總結經驗教訓。這是因為戰術的制定最好以戰場為實驗室,通過經驗來完成。現在有了權宜之計。為此,演習、兵棋推演和智囊團都在努力模擬戰場。但這些權宜之計很少得到充分利用。模擬的質量總是低于現實生活。正因為如此,采用通過模擬制定的戰術是有風險的。

現代技術,特別是現代數字戰場模擬技術,有可能改善這一過程,特別是在游戲和演習方面,但在很大程度上仍未得到發展。現代軍事模擬在幾個關鍵方面受到限制。首先,軍事模擬器是一種結構復雜的程序化訓練器,其設計初衷是在讓操作人員或機組人員在實戰演習和隨后的戰斗中執行任務之前,先讓他們掌握基本的操作技能。這是因為軍事模擬器設計的唯一目的是降低培訓的前端成本,而不是完善現有程序或改進擬議程序。

其次,軍用模擬器交互簡單。很少為了創新戰術而將模擬器連接起來。即使有,也通常范圍較小,僅限于單一平臺或領域。這就排除了平臺之間的大規模集體模擬器訓練,也排除了在現代戰場上執行任務所需的跨領域集體訓練。這與第一個限制有關,因為軍事模擬器是以自下而上的思維方式一次開發一個平臺,而不是以自上而下的整體思維方式進行開發。雖然目前正在努力將模擬器連接起來,但由于軍用模擬器軟件的專有性,以及大多數模擬器軟件都有幾十年的歷史,遠非最先進的技術,這些努力都受到了阻礙。

第三,軍事模擬器不用于驗證正在開發的平臺的擬議戰術。由于新平臺的開發需要數十年時間,因此有必要提前測試、開發和完善這些戰術,從而在這一過程中驗證作戰概念,并確保在戰場上使用新平臺時,能最大限度地發揮其致命效果,同時通過在實戰中吸取經驗教訓,對其進行最小限度的完善。這就需要建立一個與平臺無關的戰場模擬器,以集體而非個人學習為目標。目前還不存在這種利用最先進技術的模擬器,但在技術上是可行的。

作者建議開發一種沒有上述限制的戰場模擬器。這種模擬器不是任何一個平臺的程序化訓練器。它將是一個跨平臺、跨領域的數字環境。它允許在戰術層面和作戰層面的參與,允許進行跨作戰功能的訓練,除火力和機動外,還包括指揮與控制、情報和維持。它允許引進新的平臺,其屬性可以改變,不僅能將開發中的平臺納入現有的戰術流程,還能確定尚未構想的平臺的需求。最后,由于這種結構同樣適用于敵方部隊,因此不僅可以針對現有的實際問題對當前的概念進行大規模測試和改進,還可以針對新出現的問題對未來的概念進行測試和改進。這種兵棋推演模擬器將使用基于物理的開放世界軟件架構、大規模多玩家結構和大數據,以不斷改進對敵人和環境的建模(圖 1)。

付費5元查看完整內容

我們比較了四種分布式機器人群聚類算法對來自群內惡意機器人的偽裝攻擊的抵御能力。這些聚類算法是 DBSCAN 和 k-Means 的分布式變體,經過修改后可用于只能進行本地通信和本地距離測量的分布式機器人群。我們讓 k-Means 和 DBSCAN 的這些分布式變體遭受惡意偽裝攻擊,并觀察聚類性能受到的影響。然后,我們對每個變體進行修改,使其包含一個分布式入侵檢測和響應系統(IDRS),以檢測惡意機器人,并在受到攻擊時保持群的完整性。我們在模擬和包含 25 個 Kilobot 機器人群的硬件測試平臺上對所有四種變體進行了評估。我們發現,將數據集中在蜂群內會使蜂群更容易受到惡意攻擊,而依賴本地消息傳遞的分布式 IDRS 能有效識別惡意機器人,并減少其對蜂群聚類性能的負面影響。

圖 1. 上:我們評估了分布式蜂群聚類算法對惡意偽裝攻擊的抵御能力(中間),并實施了保護蜂群的安全措施(右)。顏色疊加表示機器人集群,紅色圓圈勾勒出惡意機器人。右:k-Means(左)和 DBSCAN(右)算法的變體,經修改后可用于使用本地通信和定位的機器人群。左下:在由 25 個 Kilobots 組成的蜂群上進行的硬件實驗。

付費5元查看完整內容

在空戰中,斗狗提出了錯綜復雜的挑戰,需要同時了解戰略機動和敏捷戰斗機的空中動態。在本文中,我們介紹了一種新穎的長短時間融合變換器 TempFuser,該變換器旨在學習空中斗狗中的戰術和敏捷飛行動作。我們的方法采用兩種不同的基于 LSTM 的輸入嵌入來編碼長期稀疏和短期密集狀態表征。通過變壓器編碼器對這些嵌入進行整合,我們的模型捕捉到了戰斗機的戰術和靈活性,使其能夠生成端到端的飛行指令,從而確保優勢位置并超越對手。在高保真飛行模擬器中與各種類型的對手飛機進行廣泛訓練后,我們的模型成功地學會了執行復雜的戰斗機機動動作,性能始終優于幾個基線模型。值得注意的是,我們的模型即使在面對具有超強規格的對手時,也能表現出類似人類的戰略機動能力,而這一切都無需依賴明確的先驗知識。此外,它還在極具挑戰性的超音速和低空環境中表現出強大的追擊性能。演示視頻請訪問 //sites.google.com/view/tempfuser。

圖 8:評估結果。(A): 針對對手的歸一化傷害率的學習曲線。(B): 與對手交戰的結果(左:F-15E,中:F-16,右:蘇-27)。圖中顯示了本機(藍色)和對手(紅色)從開始到獲勝時刻的三維飛行和水平投影軌跡。(C): 與高規格飛機(蘇-30)對抗時學習到的機外戰術機動的量化結果。(D): 與 F/A-18A 對手進行近音速對抗的量化結果。所有駕駛艙和外部視圖均由 Tacview [36] 可視化。

在空中斗狗中學習戰術和敏捷飛行機動

空對空作戰是操縱戰斗機智能體到達瞄準對手位置的戰術藝術。它也被稱為 "斗狗",因為在大多數情況下,每架戰斗機都會在短距離戰斗中追擊對方的機尾。

要想成功地進行斗狗,智能體需要從長期和短期角度出發,將態勢感知、戰略規劃和機動性能結合起來。

首先,智能體要通過了解對手的長期軌跡來規劃自己的戰術位置。天真地追逐對手的近期位置可能會帶來暫時的優勢,但最終會使自己在日后處于弱勢地位。因此,智能體應不斷評估對手的長期操縱,對其行動做出反應,并對自己進行戰略定位,以獲得對對手的優勢。

其次,智能體需要具備從短期動力學角度理解飛機敏捷機動性的能力。現代戰斗機具有很高的機動性,能夠迅速改變方向和速度,從而使交戰情況迅速發生變化。因此,為了在與對手的交戰中保持優勢地位,智能體應及時從動態角度把握對手的敏捷動作和自身的潛在機動。

長時短時融合變換器(TempFuser)

長短期時態融合變換器(或稱 TempFuser)是一種網絡架構,專為空中激戰中的策略模型而設計。該架構使用基于 LSTM 的輸入嵌入和變換器編碼器。它處理兩種類型的狀態軌跡:代表機動級狀態轉換的長期時間軌跡和表示動態級狀態轉換的短期時間軌跡。每種軌跡都使用基于 LSTM 的管道進行嵌入,然后通過變換器編碼器進行整合。隨后,使用多層感知器(MLP)模塊和高斯策略架構將編碼器輸出轉換為飛行指令。

使用數字戰斗模擬器(DCS)的高保真環境

在數字戰斗模擬器(DCS)中使用深度強化學習(DRL)解決空中狗斗問題,DCS 被認為是最真實、最逼真的戰斗機模擬環境之一。DCS 提供了一個獨特的平臺,可以配置各種高質量的飛機和空中場景。我們將斗犬問題表述為一個強化學習框架,并設計了一個可以學習戰略性斗犬演習的獎勵函數。

我們用各種對手飛機(如 F-15E、F-16、F/A-18A 和 Su-27)對我們的網絡進行了廣泛的訓練和驗證。結果表明,TempFuser 能夠以端到端的方式學習具有挑戰性的飛行動作,并在性能上優于各種對手飛機,包括那些具有卓越規格的飛機。此外,它還在低空和 1 馬赫以上的高速飛行場景中表現出強大的追擊性能。

在tempfuser為基礎的空中斗狗在DCS模擬器的快照。

不同類型的飛機為對手:F- 15e, F/A-18A, F-16,蘇-30,蘇-27。

學習飛行行為(基本飛行動作)

圖:與F-15E交戰

圖:飛行軌跡與水平投影

圖:與F-16交戰

圖:飛行軌跡與水平投影

圖:與蘇-27交戰

圖:飛行軌跡與水平投影

學習飛行行為(戰術飛行動作)

圖:對蘇-30對手的定量結果

學習的飛行行為(超音速魯棒追蹤)

圖:對F/A-18A對手的定量結果

付費5元查看完整內容

加固網絡物理資產既重要又耗費人力。最近,機器學習(ML)和強化學習(RL)在自動化任務方面顯示出巨大的前景,否則這些任務將需要大量的人類洞察力/智能。在RL的情況下,智能體根據其觀察結果采取行動(進攻/紅方智能體或防御/藍方智能體)。這些行動導致狀態發生變化,智能體獲得獎勵(包括正獎勵和負獎勵)。這種方法需要一個訓練環境,在這個環境中,智能體通過試錯學習有希望的行動方案。在這項工作中,我們將微軟的CyberBattleSim作為我們的訓練環境,并增加了訓練藍方智能體的功能。報告描述了我們對CBS的擴展,并介紹了單獨或與紅方智能體聯合訓練藍方智能體時獲得的結果。我們的結果表明,訓練藍方智能體確實可以增強對攻擊的防御能力。特別是,將藍方智能體與紅方智能體聯合訓練可提高藍方智能體挫敗復雜紅方智能體的能力。

問題描述

由于網絡威脅不斷演變,任何網絡安全解決方案都無法保證提供全面保護。因此,我們希望通過機器學習來幫助創建可擴展的解決方案。在強化學習的幫助下,我們可以開發出能夠分析和學習攻擊的解決方案,從而在未來防范類似威脅,而不是像商業網絡安全解決方案那樣簡單地識別威脅。

工程描述

我們的項目名為MARLon,探索將多智能體強化學習(MARL)添加到名為CyberBattleSim的模擬抽象網絡環境中。這種多智能體強化學習將攻擊智能體和可學習防御智能體的擴展版本結合在一起進行訓練。

要在CyberBattleSim中添加MARL,有幾個先決條件。第一個先決條件是了解CyberBattleSim環境是如何運行的,并有能力模擬智能體在做什么。為了實現這一點,該項目的第一個目標是實現一個用戶界面,讓用戶看到環境在一個事件中的樣子。

第二個先決條件是為CyberBattleSim添加MARL算法。目前CyberBattleSim的表Q學習和深Q學習實現在結構上無法處理這個問題。這是因為CyberBattleSim實現的表Q學習和深Q學習不符合適當的OpenAI Gym標準。因此,需要添加新的強化學習算法。

當前的防御者沒有學習能力,這意味著要啟用多智能體學習,防御者需要添加以下功能:添加使用所有可用行動的能力,將這些行動收集到行動空間,實現新的觀察空間,并實現獎勵函數。

最后,為了增加MARL,新創建的攻擊者算法和新的可學習防御者必須在同一環境中組合。這樣,兩個智能體就可以在相互競爭的同時進行訓練。

付費5元查看完整內容

這項工作使用來自建設性模擬的可靠數據,比較了有監督的機器學習方法,以估計空戰中發射導彈的最有效時刻。我們采用了重采樣技術來改進預測模型,分析了準確度、精確度、召回率和f1-score。事實上,我們可以發現基于決策樹的模型性能卓越,而其他算法對重采樣技術非常敏感。在未使用重采樣技術和使用重采樣技術的情況下,最佳f1-score模型的值分別為0.378和0.463,提高了22.49%。因此,如果需要,重采樣技術可以提高模型的召回率和f1-score,但準確率和精確度會略有下降。此外,通過創建基于機器學習模型的決策支持工具,有可能提高飛行員在空戰中的表現,這有助于提高攻擊任務命中特定目標的有效性。

付費5元查看完整內容

具有高度自主性的軍事系統發展帶來了許多作戰優勢。這些系統通常是高度協作的,并允許優化對復雜問題的多效應對。人工智能,包括深度強化學習,有助于提高這些系統的效率。這項工作提出了一個與信任這些算法有關問題的綜合觀點,并提出了一些改善人機信任的準則。這項工作是在由歐盟資助的30個合作伙伴歐洲財團委托編寫的報告框架內完成的。

用于水雷戰的自主水下無人機,MMCM計劃實例

法國和英國在2010年啟動了一項計劃,評估和開發 "海上反水雷"(MMCM)能力,包括在與母艦安全距離外遠程操作的無人系統。通過持續化解靜態水下威脅,這些系統將提供戰略、行動和戰術上的機動自由,確保海上力量的安全投送,包括在海峽等高風險地區。

MMCM計劃的目標是提供一種新的敏捷的、可互操作的和強大的水雷戰能力。它將有助于在現有水雷戰艦退役時取代它們。這一雙邊計劃于2010年底根據法國和英國之間的《蘭開斯特宮條約》正式啟動。在2018年1月的法國/英國峰會上,法蘭西共和國總統和英國首相申明了他們打算迅速將該系統投入作戰服務[13]。

特別是,在2020年測試了四種作戰方案,分別采用了:一個水面無人機及其探測聲納、一個拖曳聲納、兩個水下無人機和一個水下滅雷機器人。前兩種情況主要是隨著任務的進行對威脅進行探測、分類和定位,其次是通過與前一次任務的數據進行比較來改變探測結果,最后是重新定位和識別幾枚地雷并解除其中一枚地雷。

該計劃的核心是在水下環境中自主發展的能力。這種自主性是通過使用人工智能算法,特別是DRL來實現的,以便自主地將無人機從母艦上移開[14]。盡管水下無人機必須能夠自主行動,但仍有許多人機互動:任務準備、驗證地雷分類和實時任務監測、授權投擲炸藥。這種人機互動是由MMI(人機界面)實現的,比如你會發現下面這個界面。

有一些項目旨在優化這些關系并建立信任關系:例如,泰雷茲國防任務系統公司DxLab的AR{iA}NE項目,旨在顯示操作者和人工智能之間可以有真正的互動[14]。人工智能在這里由控制臺的下半部分代表。它的突出顯示取決于性能指數:這就是人工智能以非常直觀的方式與操作者交流的方式。這個演示設備是為工業展覽準備的。它的設計經過特別考慮,給人以未來主義的印象,讓客戶感覺到他正在與人工智能進行交流。該控制臺集成了一個軟件分析界面,為聲納數據的利用提供了實質內容,因此非常適用于研究人機互動,更確切地說,是人機互動。

用于反無人機作戰的輕型自主無人機

國防公司,如泰利斯、空客和MBDA,正在開發項目,旨在提供反無人機(UAV:無人機)解決方案。商用無人機的擴散化和相當便宜的價格引發了安全和保障問題。例如,在無人機和飛機之間發生了一些事件,還有一些情況,如跨越邊界和在監獄中走私貨物(武器、毒品),或向目標運送爆炸物。這些公司提出了智能解決方案,可以檢測無人機,但也可以通過高度的自主性和人類的環形控制來消除它們。這些系統可以對敵方目標進行探測、識別、定位和消滅。反無人機問題被概念化,并通過以下步驟得到部分解決[16]:

  • 威脅探測:利用部署在保護區域的地面傳感器,如雷達、聲學、射頻或光電傳感器來解決;
  • 威脅分類:在威脅探測步驟中捕獲的地面傳感器數據上執行的后處理任務;
  • 威脅識別:這是一項額外的后處理任務,旨在完善前一步獲得的分類,最好是評估一套獨特的威脅特征特征;
  • 威脅追蹤:該任務的結果是威脅所遵循的軌跡或一組軌跡。其目的是保持對威脅的關注,并將其保持在系統傳感器的視野范圍內;
  • 威脅評估:評估入侵的無人機所代表的威脅程度,例如通過有效載荷分析或行為理解。執行這一步驟是為了收集情報,并可能調整對該威脅的反應;
  • 威脅消除:使用物理或非物理損傷使威脅失效。當然,這是迄今為止最不成熟的步驟。中和技術最終應取決于威脅的性質、其威脅程度和環境條件(以避免或盡量減少附帶損害)。

最新項目的目標是創建和展示一個完整的反無人機系統,能夠解決上述六個步驟,并整合兩個主要部分,一個地面部分和一個空中部分。地面部分可由一個作為指揮和控制站的地面控制站和一些地面傳感器組成,其數量和在空間的分布可根據需要和保護空間的配置進行調整。空中部分可以由盟軍無人機隊組成,這些無人機可以是相同的,具有類似的能力(同質蜂群),也可以具有不同的能力,每個都有一套獨特的專長(異質蜂群)。擁有一個空中段提供了兩個優勢。首先,在傳感方面,它使系統具有盯住目標的能力,可能為人類操作員提供實時視覺反饋,但也能對敵方無人機及其有效載荷進行更詳細和有效的分類和識別。第二,在消滅方面,它應該允許防御者部署更多的外科手術式的反措施,特別是避免過多的附帶損害或不想要的副作用。許多國防公司正在為中和部分開發智能DRL解決方案[17],以便在盟軍無人機群中做出自主決定。DRL算法也可用于指揮和控制站,以監測整體作戰情況。

用于未來戰斗空中系統(FCAS)的重型自主無人機群

未來戰斗航空系統(FCAS)是一個 "系統簇",它涉及到新一代戰斗機(NGF)、遠程航母(RC)和一個將所有參與者連接在一起的戰斗云系統: NGF、RC群、衛星、戰艦、地面系統等。

遠程運載器是用來做什么的?設想的應用是非常多樣的:通過幾十架飛機的飽和來穿透敵人的防御,誘騙敵機,執行電子戰任務(干擾),為其他飛機指定目標,執行偵察任務,甚至發射導彈而不是作戰飛機。這些新型機組成員為未來幾十年的空中行動開辟了一個巨大的可能性領域:用無人機代替戰斗機發射導彈,這樣就不會有飛行員的生命危險,騷擾敵人的防線,執行偵察任務,等等。這些設備也可以假裝成駕駛飛機,吸引敵人的巡邏隊,為作戰飛機打開缺口。在遠程載具的核心,制造商正在開發人工智能算法,特別是DRL[18],以控制每架無人機,但也控制無人機群。DRL算法出色的適應性在這里被用來管理高層和自主決策。

"系統簇"的非常高的互連性也要求建立一個抗網絡攻擊的戰斗云。這些攻擊確實可以破譯通信以獲取情報,甚至干擾或破壞通信,或者更糟糕的是,向半自主系統發出錯誤指令。DRL算法可用于應對正在進行的網絡攻擊。這些攻擊確實可以快如閃電,而人類沒有能力做出足夠快的反應。因此,必須使用智能自動系統來抵御攻擊。DRL似乎再次成為快速、自主和適應性行動的良好解決方案[19]。

邁向可信AI

A. 科學的信任和可解釋人工智能

正如我們所說,在自主系統中使用人工智能有很多問題:倫理、法律、政治等等。這就是為什么有必要在這場技術革命的不同參與者之間建立一種信任關系,從研究人員到用戶和工程師。

數學上的保證。為了確保我們提出的技術解決方案的可靠性,最好能在理論上和數學上保證算法的性能。然而,重要的是要記住,有關的保證在性質上是概率性的,因為大多數ML算法的性質是不確定的。因此,我們將試圖證明,例如,如果該算法有無限量的訓練數據可供支配,它就能夠完成提交給它的任務。或者,人們可能會試圖證明該算法收斂到一個解決方案,而且幾乎可以肯定它是以一個已知的和可控的速度收斂的。這種類型的結果保證存在于許多經典的ML算法中,用于解決某些簡單的問題,并受制于關于訓練和測試數據的某些假設。人工智能的整個研究領域都是關于知道什么是或不是可以通過ML學習的問題,以及什么精度:可能是近似正確的學習[20]。在RL方面還有很多工作要做,它仍然是一種年輕的技術,但理論上的保證越來越多[21]。然而,這些理論結果一般都是基于非常強的假設,這些假設往往是還原性的,并沒有考慮無人機在實踐中使用的非常真實的環境,這有時會使它們不那么相關。

可解釋人工智能。第二個軸心是要建立對人工智能所支配的自主系統的信任,即其行動的可解釋性。當我們可以理解導致人工智能獲得結果的原因時,一個算法被認為是可解釋的。一般來說,目前可解釋的ML算法(XAIs)能夠報告相對簡單的決定,例如指出圖像的哪些區域被用來確定它是一個蘋果。關于RL,為算法的可解釋性設想了幾條途徑。

  • 一些RL算法是以完全透明的方式建立的,它允許追蹤不同代理在一段時間內做出的決定。然而,這種方法不能應用于DRL,由于使用了人工神經網絡,DRL并不是完全可解釋的。
  • 表征學習是另一種方法,它試圖在推理的某些階段提取最相關的信息。
  • 也可以訓練另一種人工智能算法來解釋RL算法的行動,同時相互配合[22]。其他的解決方案仍然存在,提及這些解決方案需要太長的時間,這里的興趣主要是要意識到RL算法的可解釋性正在全面發展,在未來的幾年或幾十年里應該會通過新的里程碑。

讓我們細化前面的觀點,像一些作者那樣考慮人工智能算法的區別,這些算法不僅是可解釋的,而且是可解釋的。事實上,為了解釋它們的推理,已經建立了一些后驗算法,但它們并不能幫助理解初始算法的 "黑匣子"。出于這個原因,人們正在對可解釋的人工智能方面進行研究,這樣就可以說明導致輸出的不同推理步驟[24]。即使DRL算法的參數數量非常大,仍然是廣泛實施這種方法的技術障礙,但可以預期在這個領域會有明顯的進展。

B. 性能信任

對受DRL支配的自主系統有信心的第二個論據是測試期間的性能測量。事實上,即使目前關于人工智能可解釋性的知識狀況不允許完美地理解算法是如何達到其輸出的,但實踐中的結果是好的,表明有非常大的發展潛力。

對其他問題進行歸納的能力。首先,用戶對人工智能技術的信心可以建立在算法解決其他問題的良好能力上,或多或少有些類似。例如,眾所周知,Deepmind的AlphaFold 2 DRL算法在預測蛋白質結構方面特別出色[25]。這種優秀的聲譽源于該算法的大量已發表的測試研究,這讓該領域的大多數科學家對其給予了極大的肯定。雖然蛋白質結構預測與自主無人機的使用無關,但將蛋白質中單個原子的放置與無人機在協作作戰任務中的放置相提并論是很容易和有意義的。在前一種情況下使用DRL,以及所獲得的結果,也有可能使最終用戶對DRL應用于另一個領域的潛力充滿信心。

算法驗證。然而,與經典的ML算法不同,不可能在RL中實現我們在第一部分討論的驗證測試。這是因為所涉及的數據是隨時間變化的,而且所提出的問題也是不同的。要限定所識別的對象是否被正確預測是很容易的(是的,它是一個蘋果,或者不是,它是一個梨子)。另一方面,量化無人機和飛機之間合作的成功要微妙得多:許多標準必須被評估(無人機的定位、它們的速度、它們不同行動的時間)。因此,RL算法的性能測量是通過建立針對要解決的任務的指標來完成的。例如,對于負責訪問一個空間區域的無人機來說,比較正確識別目標的比例、任務完成時間或其他更精確的指標是相關的,這取決于情況和要解決的具體問題。

爭取在RL中實現更好的可重復性。最近還強調了RL算法的一個臭名昭著的問題,即當一些研究人員想要復制他們同事的結果時,一些算法的不穩定性[26]。實驗的可重復性是科學中的一個基本問題,因為它構成了被測試定律(例如,萬有引力定律)的有效性證明。在這里,算法性能的證明之一是可以讓它多次承受相同的情況,并在不同的迭代中獲得非常相似的結果。為了克服缺乏可重復性的問題,新的算法開發框架、新的測試程序和明確的指導方針已經到位,使科學和開發團隊對他們的結果有了更大的信心。

C. 建立一個有人-無人之間的信任協作

優化人機互動

人機協作是現代(協作)戰爭的核心,但人類和智能機器之間的成功協作主要取決于信任。然而,安全與新興技術中心對自主性和人工智能相關的研究[27]發現,在美國軍方的科技項目投資中,789個自主性相關項目中只有18個,287個人工智能相關項目中只有11個提到 "信任 "一詞。研究人員沒有直接研究信任,而是將開發更透明、可解釋和可靠的人工智能作為優先事項。這些努力對于培養人機團隊的信任是必要的,但技術驅動的解決方案并不總是考慮這個等式中的人類因素。

對高性能技術的不充分信任會導致人工智能系統的使用不足或廢棄,而對有限的或未經測試的系統的過度信任會導致對人工智能的過度依賴。這兩種情況在軍事背景下都有獨特的風險,包括事故、友軍交火、對平民的意外傷害和附帶損害。為了讓士兵對自主系統有信心,他們必須知道系統在遇到障礙物時將會做什么。從系統工程的角度來看,這意味著要指定和實施一些能力,如通過假設查詢和信息交流進行信息檢索,以便系統能夠以人類操作者容易理解的方式解釋其推理和行為。換句話說,"在系統中建立信任 "是一種以技術為中心的方法,通過改善與信任密切相關的系統特性和能力,如透明度、可解釋性和可靠性,來建立人機團隊的信任。

DARPA的Squad X計劃[28]將美國陸軍和海軍陸戰隊的步兵小隊與配備先進傳感設備的無人地面和空中飛行器配對,以提高敵對環境中作戰人員的態勢感知和決策。X小隊在2019年初進行的一系列實驗[29]的主要收獲之一是,將人工智能納入任務的規劃和演練階段非常重要。這樣做,士兵可以 "在如何信任人工智能方面進行搏斗"。最終,目標是讓人類作戰人員更好地了解這些自主系統在戰場上的表現,并對它們作為未來任務中的伙伴更有信心。

要怎樣才能讓人們信任技術?在使用先進系統時,一些個人或群體是否更有可能感到自信,而另一些人則更不情愿?人機團隊的部署環境如何影響信任?認知科學、神經科學、心理學、通信、社會科學以及其他研究人類對技術的態度和經驗的相關領域的見解為這些問題提供了寶貴的啟示[30]。

解決道德問題

"殺手機器人 "一直引起人們對潛在自主能力的恐懼[31]。法國國防倫理委員會在2021年批準在武器系統中引入一定程度的自主能力[32]。在法國,沒有辦法授權 "殺手機器人"。這一表述指的是LAWS(致命性自主武器系統)。這只是證實了法國幾年來在這個問題上的立場。但事情很復雜,倫理委員會認為不反對引入一定程度的自主權,因此不反對使用PAWLS(部分自主武器致命系統)。將LAWS與PAWLS區分開來的是 "性質上的差異,這與人類在某些關鍵功能中的地位有關"。致命武器系統的設計是為了演化出自己的操作規則,并自行重新定義其任務。它們不需要指揮部對情況的評估。PAWLS可以自主地被賦予某些任務的責任和執行,但只是暫時的,而且只用于識別、分類、攔截或接觸任務。道德委員會明確表示,它不能在沒有人類控制的情況下采取致命的舉措。即使在這個限制性框架內,也必須制定技術和組織保障措施,以防止任何過度行為。委員會認為,應繼續在與國防有關的人工智能和武器系統自動化領域進行研究。其目的是避免任何 "科學和技術上的放棄",防止對手開發致命性自主武器,并在對手使用這種武器時進行防御。

自主系統不應

  • 破壞指揮系統;
  • 違背擁有處置武裝部隊的行動自由的憲法原則;
  • 不能為遵守國際人道主義法律原則提供任何保證;
  • 違背軍事道德和士兵的基本承諾,即榮譽、尊嚴、
  • 控制使用武力和人道。

指南:在以人為本的國防人工智能領域建立信任

G1. 為自主軍事系統上嵌入式人工智能的操作使用案例制定并提供一個法律框架。

G2. 確保在所有情況下都有人類的監督,有人類在環形系統。

G3. 保證在發生事故時的責任追溯。這種責任必須始終由人承擔,而不是由機器承擔。

G4. 開發符合人體工程學的人機界面,允許人與機器之間的對話和理解。

G5. 開發穩健、安全、準確、可重復和可靠的算法,以及評估這些標準的方法。

G6. 為與人工智能互動的軍事人員建立培訓計劃,讓他們了解這些算法的機制、能力和局限性。

G7. 通過對算法、數據和設計過程的評估,確保責任、問責和可審計性。

G8. 制定技術評估程序,以評估對上述準則的遵守情況。

G9. 加快歐洲在人工智能技術方面的培訓工作,特別是針對學術和工業環境的DRL。

G10. 加快歐洲在整合人工智能的國防系統方面的立法工作,以保持歐洲在這一法律方面的領先地位,并確認其在這一領域的領先形象。

G11. 發展國際合作,在自主系統領域進行立法。

G12. 促進研究人員、哲學家、律師、政治家和業務人員之間關于自主系統的對話。

G13. 在有關國防人工智能的研究和應用項目中始終包括信任的概念。

G14. 對協同作戰的未來利害關系有一個明確而具體的看法,以便將人和他們的利益置于系統的中心。

付費5元查看完整內容

北約科技組織(STO)應用車輛技術(AVT)329 "NexGen旋翼機對軍事行動的影響 "評估了2035+時間框架內適用科學技術(S&T)發展對軍事行動的潛在影響。對預計的未來任務進行的兩次作戰分析(OA)評估時,評估采用了基于風險的主題專家判斷。

利用定義的任務小插曲,參與評估的主題專家確定了利用當前北約軍用直升機能力實現各項任務的風險。然后評估每個風險發生的可能性和對實現任務的影響。對于每個風險,確定的緩解措施包括技術的應用、戰術的改變和其他措施。隨后對確定的風險緩解措施的行動影響進行了評估,以確定其軍事價值。

基于風險的評估框架使來自多個北約和伙伴國的具有軍事行動、需求和技術專長的主題專家能夠進行定性評估。由于所有參與者以前都熟悉風險評估過程,該框架很容易被調整為進行貿易空間業務需求和關鍵技術的審計。

付費5元查看完整內容

人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。

1 引言

由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。

AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。

在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。

2 相關工作

自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。

一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。

最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。

與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。

3 背景-分層強化學習

將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。

我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。

4 ADT仿真環境

為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。

圖1: 仿真環境的渲染圖

每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。

每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。

圖2:武器交戰區(WEZ)

WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。

5 agent結構

我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。

圖4:PHANG-MAN agent的高層結構

付費5元查看完整內容

摘要

拒絕和欺騙(D&D)技術利用錯誤信息和對手的認知偏差,長期以來一直是混合作戰的一部分。這種戰術給傳統上由人類分析員制作的情報、監視和偵察(ISR)產品帶來了不確定性和懷疑。在一個由人工智能(AI)擴散主導的未來戰斗空間中,算法生成的ISR產品數量可能會增加。因此,D&D戰術將越來越多地被顛覆人類而非機器推理的需要所驅動。對抗性機器學習(AML)的發展,即對欺騙性人工智能的研究,對未來混合作戰空間中的實踐狀態有重大影響。**本文回顧了對抗性機器學習技術之間的關鍵區別,以及它們對敵方對作戰人工智能的了解和訪問做出的假設。然后,我們總結了我們團隊最近與混合作戰有關的幾個對抗機器學習研究方向:對成像系統的物理對抗性攻擊,數據中毒攻擊,以及AML與設計強大的人工智能系統的相關性。

引言

混合戰爭指的是使用顛覆性的、非軍事的手段來推進民族國家的利益,特別是俄羅斯近年來采用的技術,在不訴諸公開的、常規的軍事行動的情況下占領領土并影響各國的政治和政策[1]。所采用的混合戰術包括網絡攻擊、動員智能體團體采取行動、施加經濟影響以及其他秘密措施。由于混合作戰存在于常規軍事沖突和平民生活之間的 "灰色地帶",因此戰術上采用了拒絕和欺騙(D&D),通過利用民眾或敵對勢力的認知偏差來迷惑、威懾或影響理想的行為。D&D戰術在常規戰場上的歷史使用是有據可查的[3]。有效的D&D技術通過對依賴人類專家分析的軍事情報、監視和偵察(ISR)產品產生懷疑而獲得成功。在混合軍事行動中,情況不一定如此,在混合軍事行動中,D&D也可能試圖影響平民的看法。此外,隨著人工智能(AI)成為國家軍事投資戰略的重點(如[4]和[5]),以及商業信息技術部門越來越多地采用人工智能[6],人工智能在未來的 "灰色地帶 "可能會無處不在。因此,我們必須考慮在未來由人工智能的使用主導的混合戰斗空間中可能存在的D&D威脅。

當前的人工智能能力是由機器學習的進步所帶來的,特別是在深度學習這個子領域,在過去的10年里。機器學習(ML)涉及將系統的輸入映射到預測結果的問題,例如,將車輛的圖像映射到一個類別的標簽。通常情況下,這是在大型數據集中通過統計模式識別實現的。深度學習具體涉及到多層神經網絡的使用,它是具有數百萬自由參數的高度非線性回歸模型,作為模式識別的統計模型。雖然深度網絡在各種任務上的表現優于人類(最著名的是圖像分類[7]),但在諸如[8]和[9]等作品中觀察到它們容易被愚弄之后,對抗性機器學習(AML)領域作為一個活躍的研究領域出現了。許多作者指出,ML算法所犯的錯誤可能會在民用領域產生嚴重后果[10]-[15]。我們也認為必須提出類似的擔憂,即軍事人工智能系統在常規戰場和混合戰斗空間中的脆弱性。

本文的其余部分組織如下:第2.0節將提供關于對抗性機器學習的進一步背景介紹,以及我們認為目前在解決其與混合軍事行動的相關性方面存在的差距。在第3.0節中,我們描述了約翰霍普金斯大學應用物理實驗室(JHU/APL)目前正在進行的三項研究工作,以解決這些知識差距。最后,我們在第4.0節中做了總結性發言,并總結了我們到目前為止的發現。

圖1. 使用深度學習模型將貓的圖像識別為 "鴕鳥 "的對抗性實例的例子

圖 6. AI 開發周期(圓形流程圖)和采用機器學習的典型算法步驟(橙色大框)。

付費5元查看完整內容
北京阿比特科技有限公司