亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

創造能夠適應人類同行的人工智能隊友的一個必要步驟是開發能夠向人工智能系統表達人類目標和意圖的計算建模方法。用各種各樣的方法來實現這個目標是可能的,從提供過去數據的純粹預測的模型到僅基于理論的生成模型。一種有希望的方法是所謂的從示范中學習的方法(Argall等人,2009;Ravichandar等人,2020),這種研究主旨是利用示范數據,如專家執行任務的行為,并訓練模型(通常被稱為 "智能體")來執行專家的任務。在本報告中,我們采用了從示范中學習的方法來模擬和預測模擬機器人在避免碰撞的團隊任務中的行為。具體來說,我們采用了逆向強化學習(IRL)(Ng和Russell,2000年;Arora和Doshi,2021年),這是一種從演示中推斷獎勵函數的方法。

這項任務是基于一個研究性的視頻游戲,被用來研究人類-自主性的團隊合作(Adamson等人,2017年),涉及一個由人類玩家和一個人工智能agent共同控制的機器人。在沒有玩家輸入的情況下,人工智能agent控制機器人,但玩家可以在任何時候推翻agent,類似于現實世界中與自動駕駛助手一起駕駛的情況。這項任務對旨在模擬人類意圖的示范學習方法提出了挑戰,因為觀察到的任務行為來自兩個示范者的控制:一個是人類,一個是自動駕駛。例如,人類的行為可能是由對自己的目標的理解和對人工智能的目標的估計產生的。此外,當人工智能處于控制狀態時,所有關于人類的信息都是他們不提供輸入的,人類對人工智能的選擇的同意程度是隱藏的。

我們對這一特定任務的關注是由我們的團隊正在進行的工作所激發的,即利用激發這一任務的研究視頻游戲從參與者那里收集數據。最終,我們將嘗試模擬真實的人在長時間內的行為--每天玩180天--以促進適應性AI代理的發展。這里描述的工作是對一種方法的驗證,這種方法將推動我們的團隊實現這一目標;然而,這種方法具有足夠的通用性,其核心概念可以應用于其他地方。

付費5元查看完整內容

相關內容

創造能夠適應人類的人工智能隊友的一個必要步驟是,開發能夠向人工智能系統表達人類目標和意圖的計算建模方法。用各種各樣的方法來實現這個目標是可能的,從基于過去數據的純粹預測模型到僅基于理論的生成模型。一種有希望的方法是所謂的從示范中學習的方法(Argall等人,2009;Ravichandar等人,2020),這種研究主旨是利用示范數據,如專家執行任務的行為,并訓練模型(通常被稱為 "智能體")來執行專家的任務。在本報告中,我們采用了從示范中學習的方法來模擬和預測模擬機器人在避撞的團隊任務中的行為。具體來說,我們采用了逆向強化學習(IRL)(Ng和Russell,2000年;Arora和Doshi,2021年),這是一種從演示中推斷獎勵函數的方法。

這項任務是基于一個研究性的視頻游戲,被用來研究人類自主性的團隊合作(Adamson等人,2017年),涉及一個由人類玩家和一個AI智能體共同控制的機器人。在沒有玩家輸入的情況下,AI智能體控制機器人,但玩家可以在任何時候推翻智能體,類似于現實世界中與自動駕駛助手一起駕駛的情況。這項任務對旨在模擬人類意圖的示范學習方法提出了挑戰,因為觀察到的任務行為來自兩個示范者的控制:一個是人類,一個是自動駕駛。例如,人類的行為可能是由對自己的目標的理解和對人工智能的目標的估計產生的。此外,當人工智能處于控制狀態時,所有關于人類的信息都是他們不提供輸入的,人類同意人工智能選擇的程度是隱藏的。

我們對這一特定任務的關注是由我們的團隊正在進行的工作所激發的,即利用激發這一任務的研究視頻游戲從參與者那里收集數據。最終,我們將嘗試模擬真實的人在長時間內的行為--每天玩180天--以促進適應性AI智能體的發展。這里描述的工作是對一種方法的驗證,這種方法將推動我們的團隊實現這一目標;然而,這種方法具有足夠的通用性,其核心概念可以應用于其他地方。

付費5元查看完整內容

先進智能技術將不斷改變戰場性質和士兵需要執行的任務本質。因此,已經有許多關于人工智能(AI)在戰場上的作用討論,特別是集中在AI最有利的任務方面,士兵-AI編隊必須提供有效執行任務的能力,以及在這個任務演變過程中人和機器的必要適應。在這里,系統必須解決試圖利用復雜環境適應性強的智能敵手。在這種情況下,理解信任和信任測量的概念是至關重要的。然而,理解信任的動態性質以及如何準確測量和評估它是復雜的。

隨著越來越多地強調在未來的作戰行動中整合人類和自主系統,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)建立了人類自主團隊基本研究計劃(HAT ERP)。HAT ERP的目標是解決在復雜的戰術環境中人類和自主系統的合作所面臨的挑戰,以創建有效運作的協同團隊,并適應戰斗的動態性質。在HAT ERP的項目5中,正在解決的一個具體領域是如何有效地衡量關鍵的團隊過程,如信任和凝聚力。因此,HAT項目5的總體目標是開發新的、多模態的團隊信任和凝聚力指標,以有效地校準信任并提高支持下一代戰斗車輛(NGCV)的人類自主團隊的性能。HAT項目5更具體的目標包括:1)確定非侵入性的、實時/近實時的信任度量,以捕捉團隊信任的動態性質;以及2)為適當的信任干預提供信息,以便對個人和團隊信任進行適當校準。

盡管已知測量和評估信任在團結互助互動中的重要性,但仍有一些評估的復雜性和考慮。第一個問題集中在信任測量上。信任是一個復雜的結構,傳統上有點難以定義,因此也難以測量。例如,仍然需要努力了解信任測量的類型和應該利用的適當指標,因為并非所有的信任測量都是平等的。雖然有一些現有的信任測量方法,但它們大多使用自我報告的問卷;這些問卷提供了有價值的信息,但只是在離散的時間點上。我們需要與信任的動態性質相一致的測量方法,并允許在特定時間段內進行更連續的測量;從而提供有關信任變化以及它如何影響團隊互動和績效的更有力信息。此外,正如項目5(Krausman等人,2022年)下進行的研究所證明的那樣,對人類自主性團隊信任的評估必須考慮團隊發展和/或團隊工作的前、中、后階段,必須包括超越績效的多模式指標(Schaefer等人,2019年;Brewer等人,2022年)。見圖 1。

圖1 包括壓力、信任和凝聚力在內的事前事后主觀狀態的多模態數據表示,數據流來自通信指標和生理數據

鑒于這一要求,并基于文獻、實驗室和實地研究,Krausman等人(2022年)開發了一個概念性的工具包,由新的信任措施組成,包括以下內容: 1)主觀(即人際信任、技術信任);2)通信(即通信流、網絡動態、語義內容分析);3)生理(即心率、心率變異性和呼吸率);4)行為(眼球追蹤、界面互動等);以及5)情感(即面部表情追蹤)。認識到對信任評估平臺的需求,一個多模態的信任測量軟件工具箱逐漸形成--人類-自主性團隊信任工具箱(HAT3)。

第二部分將概述HAT3軟件的開發和其中包含的旨在測量信任的具體技術。此外,所討論的每個模塊將在隨后的章節中進一步詳細說明,并將包括信任測量類型的概要,以及有利于HAT ERP和NGCV項目的具體指標。

付費5元查看完整內容

(2020年2月5日,美海軍陸戰隊網絡空間司令部的海軍陸戰隊員在馬里蘭州米德堡拉斯韋爾大廳的網絡作戰中心觀察計算機運行情況。海軍陸戰隊開展進攻性和防御性網絡作戰以支持美國網絡司令部,并操作、保護和保衛海軍陸戰隊事務網絡)

沖突的勝負取決于軍事抵消,也就是國防單位可以用不對稱的方式來打擊對手的優勢。隨著大國競爭、對手技術的超常發揮以及不斷擴大的戰場,傳統的抵消手段往往被人工智能(AI)所增強。然而,國防部(DOD)將人工智能投入使用的能力剛剛起步。五角大樓采用的最初的人工智能計劃側重于將商業能力轉移到國防部門,因此強調技術性能,不強調以任務為導向的功能。因此,最初的試點項目未能進入現實世界的作戰環境(OE)。

人工智能的實用化

實用化取決于這樣一種認識,即人工智能不是一種最終狀態,而是實現軍事優勢的一種方式。為此,人工智能相關方法的技術執行必須與作戰環境相結合。這種考慮與傳統思維不同,因為人工智能解決方案的開發通常是為了實現某種統計閾值(例如,召回率、精確度),而不是軍事目標(例如,增加對峙距離)。

這一動態被 "算法戰"一詞所混淆,目前該詞混淆了技術和軍事特征。算法戰旨在減少處于危險境地的作戰人員的數量,在時間緊迫的行動中提高決策速度,并在人類無法操作的時候和地方進行操作。然而,這些目標都不涉及數學或計算機科學;它們完全建立在軍事最終狀態之上。問題是,在五角大樓走上人工智能的道路之前,科學、技術、工程和數學學科與軍事目的之間的橋梁從未建立。

所需的橋梁是一個指導和評估人工智能實用化的框架,一邊是算法性能,另一邊是任務效用。這樣的組合確保了數學方程可以證明或從數字上驗證一個人工智能系統,而定性的基準則保證了實際應用。其結果是算法戰不僅基于統計數據,而且基于更廣泛的作戰相關性架構。這種相關性體現在五個要求上:

  • 最低限度的生存能力。
  • 適應未知和不可知情況的能力。
  • 將洞察力置于信息之上。
  • 應用所需的自主性水平,以及
  • 戰場準備就緒。
  • 這些要求首次為評估軍事人工智能項目和定義成功奠定了基礎。

將技術方法和國防條令結合起來

為軍事人工智能項目制定有效性措施(MOE)需要將研究和技術方法(例如,基礎理論)與美國防部的條令相結合。如果沒有這種映射,算法戰就會淪為算法開發過程,而不是作戰部署。例如,一個旨在檢測視頻中目標的計算機視覺算法(如地理空間情報分析)被簡化為該模型發現的車輛數量或其發現這些車輛的準確性。那么,成功是指該算法在85%的時間內正確找到車輛。

但在軍事行動中,85%的時間檢測到車輛有什么用?這就是維護理論的完整性所帶來的背景。以上面的例子為例,評估同一算法時不是看它正確探測車輛的頻率,而是看它對任務的影響:由于該模型的存在,分析人員識別感興趣的車輛的速度提高了95%。這樣的方法將算法的設計與任務的部署聯系起來。雖然這似乎是常識,而且這種關系甚至可能在項目文件中被模糊地表示出來,但在國防部的任何地方都沒有一個表示的標準。

評估標準仍然需要保持解決方案的獨立性(即,無論情報類型、使用的算法、部署的作戰環境或任務要求如何,這些標準都適用)。因此,在這項研究中,人工智能原則被編入可量化的屬性和指標中,與系統和程序無關。評估標準也以 "去 "與 "不去 "的方式進行表述,以創建一個符合邏輯的、自上而下的層次結構,與相關的聯合出版物同義。其結果是規范、監測和評估國防部人工智能系統的基線。

國防人工智能運作的框架

如前所述,可實操化的人工智能是由任務效用的五個方面定義的人工智能:最低限度的可行性、適應未知和不可知情況的能力、洞察力優先于信息、應用所需的自主性水平以及戰場準備情況。這些MOE中的每一個都是算法戰的基礎。對這些信息的分析產生了一個全面的框架,其中包括每個MOE的指標和效果。整個框架是以條令定義和程序為基礎的。

(2017 年 11 月 1 日在華盛頓特區舉行的 NVIDIA GPU 技術大會期間,顯示屏展示了用于執法的車輛和人員識別系統。該大會展示了人工智能、深度學習、虛擬現實和自主機器。)

衡量有效性

衡量有效性的軍事程序依賴于一個自上而下的架構。這意味著,只有當一項措施的每一個指標也存在時,該措施才會存在。同樣,一個指標只有在該指標的所有影響也存在時才會存在。這是一個二元的、全有或全無的過程,可以像常規軍事活動一樣隨時適用于人工智能。

在傳統的高價值目標(HVT)生命模式分析中,一個MOE定義了軍事行動的一個預期結果(例如,高價值目標移出責任區[AOR])。該MOE的所有定義指標必須得到滿足,因此不能任意或有選擇地稱之為成功。例如,情報應該表明:(a) 在新的責任區發現了HVT,(b) 在新的責任區發現了已知的HVT同伙,以及(c) HVT在新的責任區獲得了基本的生活支持系統(例如,住房,交通)。隨后的效果遵循同樣的過程:支持指標 "a "的效果可能包括識別已知的物理特征和探測通信信號。

因此,盡管常規和人工智能MOE在戰術執行上有所不同,但決策驗證的基本系統是相同的。只有在對人工智能領域有基本了解的情況下,才能驗證人工智能MOE,這與情報部門制定的MOE不能由作戰部門驗證的情況是一樣的。

描述有效性--技術浪尖

算法戰是通過人工智能手段進行的戰爭。人工智能手段是指那些不僅是智能的(收集和應用洞察力),而且是人工的(以人類無法做到的方式對智能采取行動)。在沒有人類干預的情況下,系統必須學習如何為自己表示數據。這方面的另一個術語被稱為機器學習。有不同類型的機器學習,但當涉及到戰場時,無監督的機器學習將成為黃金標準,因為它的靈活性和從未知和非結構化信息中獲取輸出的能力。在這個黃金標準中,一種被稱為深度學習的特定方法是獨一無二的,它能夠更精確地表示復雜的問題。鑒于戰場的動態性質,更精確地表示復雜問題的能力是最重要的。

因此,算法戰只能通過以下方式實現:(a) 工作系統(最低限度可行)能夠(b)從未知和不可知的場景(無監督)中自行學習,同時(c)將復雜的戰場環境轉化為有用的洞察力(啟用深度學習)(d)幾乎沒有無指導(自主)和(e)在實時任務環境中(戰場準備)。這些MOE和圖中的架構是人工智能實操化的第一步;它們為如何凝聚技術和操作因素奠定了基礎,同時也使任何人工智能項目的 "成功 "標準化。

(圖 數字算法(人工智能)戰爭的有效性度量)

人工智能作戰必須發揮作用

最低限度的可行性檢驗了算法戰是否積極地改變了作戰環境。"積極改變作戰環境 "意味著存在著競爭優勢和性能改進,證明人工智能的部署是合理的。該理由來自行業指標(技術因素)、針對類似系統的排名以及對人類操作員的效用。

在翻譯的例子中,一個自然語言處理算法在以下情況下是最可行的:(1)行業指標證實它準確地將地面真相數據翻譯成正確的語言;(2)該算法在同一技術類別和OE中優于其他可用算法;(3)機器翻譯優于人類。

與最低生存能力相關的競爭優勢和性能改進因素是必要的,因為如果沒有這些因素,非算法衍生的戰爭將更加有效--因此,否定了對可操作人工智能的需求。

靈活和適應性強的系統

無監督算法是實戰任務的理想選擇,因為它們的靈活性和即使在未知情況下也能得出洞察力的能力。簡而言之,無監督系統可以在沒有預設信息的情況下運行,并在新信息出現時學習。

可以從敵人交戰的例子中得出一個常規的等價物。例如,部署的服務成員在交火結束之前并不知道交火會如何發展。然而,他們被期望在沒有警告的情況下對敵人的火力做出適當的反應,并對新的對手的運動和活動得出相關結論。

成功的算法戰項目將需要在戰術執行和長期學習能力方面表現出與軍人相同的適應性。

減少任務的復雜性

回顧一下,深度學習可以降低復雜性。在實際任務中降低復雜性是關于如何表示和理解信息。正如人類一樣,有效的算法戰是以模式檢測、推理和問題解決為前提的。

模式檢測本質上是獲得知識,然后可以概括地預測未來的未知情況。假設一個部署在機場的非航空部門的軍人看到一架直升機從頭頂飛過。這個人注意到該直升機獨特的物理特征,如整體尺寸或串聯旋翼。這些獨特的特征將直升機與其他變化區分開來,隨著時間的推移,服役人員可以利用學到的視覺線索在整個機群中選擇正確的直升機。人工智能以同樣的方式識別視覺模式;在隨后的觀察中反復學習直升機特征。然后,這些特征被概括為區分一架直升機和另一架直升機或一架直升機和非直升機。

推理改進了知識的獲得,以便發現環境中的微妙之處,并將這些微妙之處邏輯地聯系起來。例如,如果在某些天氣模式下從未見過直升機,推理將推斷出天氣(OE的次要元素)影響了飛行能力。有了人工智能,惡劣的天氣會增加二次確認,即沒有旋翼的飛行物不是直升機。

最后,順序問題的解決將一個大問題(即如何駕駛直升機)分解成更小的問題(即飛行路徑是什么,有多少燃料,需要多少飛行員,等等)。因此,如果不降低復雜性,算法戰將缺乏將信息轉化為洞察力的能力。

在很少或沒有指導的情況下運作

由于算法戰假定利用了非人類的手段,人工智能必須獨立地制定和裁決行動方案。而人工智能必須根據自己的決策、反應能力和對形勢的認識來完成這一裁決。

決策是一個在環境中發展和解決選擇的問題。在一個慣例的環境中,一個指揮官面對相互沖突的情報、監視和偵察飛行路線,會制定一個資產優先級矩陣,然后根據這些要求進行沖突處理。這不僅僅是一個產生可行方案的問題,而且還要弄清楚這些方案中哪個對整個任務最有利。為了做到這一點,系統必須能夠融合決策標準(例如,資產的數量、收集要求、飛行時間等)。必須有傳感器來定義決策標準(例如,飛機燃油表或人類/口頭提示)。然后,必須對所有可用的選項進行修剪。最后,系統必須認識到當前狀態的變化,并對該變化產生的新信息做出反應(例如,航空資產的駐留時間結束,所以不再需要解消沖突)。

響應性是對決定性的補充。也就是說,系統能否在規定的時間內對它從未見過的情況作出適當的反應?要做到這一點,系統必須具備必要的態勢感知功能:攝入、處理、迭代和行動。所有的指標都能確保可操作的人工智能改善決策時間表,而不是抑制它們。

將人工智能推向現實世界

戰場準備度是衡量系統是否能在實際任務空間中運作的標準。由于任務限制是巨大的,人工智能不能在實驗室里開發,而不預先考慮它將如何在現實世界中運作。明確地說,實驗室人工智能的局限性并沒有被戰場所規避,而是被放大了。開放式架構受到軍事基礎設施的限制。不可知的管道被孤立的、傳統的系統所困。普及的高速網絡一旦部署到前方就會變得零星或斷斷續續。而商業部門普遍存在的未經審核的專家則被訪問受限的用戶社區取代,他們幾乎沒有人工智能的專業知識。

簡而言之,人工智能必須補充,而不是混淆正在進行的行動。從一開始就解決任務限制,然后必須包括與現有系統的整合和溝通。此外,這種整合應該進行測試或鑒定,以便在部署前證明效用,以及這種效用的左右限制。這就像軍事人員被授予可部署性的范圍一樣,或者反過來說,糟糕的體能測試會導致不可部署性的發生。

五個可操作的人工智能MOE共同代表了初始和完全操作能力(IOC/FOC)的標準閾值。使用MOE框架中的決策門做出的IOC/FOC決定將加速人工智能的采用并改善美國在算法戰爭領域的定位。

(圖 軍事人工智能發展的目標之一是在人類智能代理團隊中將戰場上的士兵與無人駕駛車輛直接聯網,這將加速情報收集、目標識別和火力任務執行。)

建議

如果沒有一個支持算法戰的人工智能操作框架,當前的美國防部計劃將會失敗。本文提出的框架是第一個在國防人工智能領域定義成功的框架,并將為政府監督提供必要的問責措施。

雖然本文的意圖是對算法戰爭的不可知的解決方案,但額外的研究是必要的。應指定資金用于將這一框架串聯到具體的系統、學科和項目。為了支持這一努力,獲取機密材料和對機密系統進行定量實驗將是至關重要的。定量實驗不僅可以驗證本文的前提,還可以開始創建一個網絡來比較和改進國防人工智能測試和評估。也就是說,在多種環境、系統和問題集中持續、一致地使用MOE架構將使人工智能項目在一個單一、共同的評估框架下保持一致。為此,本文介紹的MOE架構支持兩種功能:(1)通過迭代改進 "走-不走 "決策門的結果來實現更有效的系統;(2)通過比較各自的MOE來決定各種系統。

從戰略上講,圖中概述的架構應該被整合到國防部的采購、技術和后勤流程中。目前的范式不是為人工智能項目的指數增長和非傳統性質而建立的。圍繞普遍的評估標準校準當前和未來的國防部人工智能解決方案將實現標準化,同時加快耗時的采購流程。此外,負責企業人工智能活動的組織應在其工作中實現框架的標準化,以便更迅速地將應用研究和開發過渡到業務使用。

不過,組織的努力不應停留在政策上。目前,國防部沒有利用軍事人員進行人工智能活動的機制。具體來說,沒有與人工智能相關的軍事職業專業(MOS),也沒有官方系統來識別和分配熟練人員到人工智能項目。其結果是缺乏可用的混合人才;也就是說,既精通人工智能又精通任務的人員。建立一個數據科學或以人工智能為導向的MOS,類似于在網絡領域發生的情況,將使人工智能能力的運作更具可持續性。它還將以越來越多的合格軍事人員來充實小規模的合格人工智能專業人員庫。另外,傳統的MOS可以適應現代戰爭的特點。例如,在一個多情報融合普遍存在的世界中,特定學科的情報分析員可能并不重要。修改或增加人工智能技能標識或專業將遏制MOS相關性的下降。

在戰術上,五角大樓對人工智能的推動需要伴隨著一場自下而上的運動,這樣采用人工智能的組織就不會簡單地被賦予一種沒有背景的能力。相反,他們應該在他們帶來的抵償中擁有積極的發言權。基層的努力可能包括在IOC/FOC設計計劃之前在單位層面進行影響分析和壓力測試,以了解脆弱性和優先需求。

結論

人工智能的操作是一項以任務為中心的努力,必須在戰術上有意義,才能產生任何戰略影響。在為地面部隊帶來切實的投資回報之前,人們對算法戰爭的價值普遍猶豫不決;因此,對抗性的超限戰將成為一個越來越無法獲勝的現實。

國防部不能在沒有操作這些項目的框架下繼續執行人工智能項目。本文介紹的架構正是通過加速和規范政府通過高度創造性的、具有操作性的技術發展人工智能能力的努力來實現的。

付費5元查看完整內容

提綱

  • 戰術無人機營--一個場景
  • 背景和框架
    • 未來戰斗行動的開展
    • 人工智能
    • 政治和法律框架
  • 目標
    • G1:提高日常工作的效率
    • G2: 提高行動能力
    • G3: 解決潛在的能力差距
  • 驅動力
    • DF1: 潛在對手的人工智能能力
    • DF2:作戰行動的動態性不斷增強
    • DF3: 更少的合格人員
    • DF4: 資源短缺
    • DF5: 信息的數量和密度
    • DF6:信息技術和人工智能發展的動態性
  • 陸軍發展的行動領域(FoA)
    • FoA1:現有系統的進一步發展
    • FoA2:新的武器系統和武器裝備
    • FoA3:人員/物資的人工智能能力管理
    • FoA4:在培訓中使用人工智能
  • 組織結構的行動領域
    • 招聘人工智能專家
    • 軍隊、研究和工業之間的合作
    • 國際合作
    • 使用測試和實驗結構
    • AI數據基礎設施和組織
  • 總結
  • 附件:德國陸軍概念和能力發展中的實施措施

在軍事上有許多行動領域使用人工智能。除了對正在使用的系統進行持續的進一步開發和人工智能鑒定,特別是具有新特性的未來系統將能夠從人工智能的應用中受益。日常工作中的人員和物資管理,以及培訓,也提供了主要的潛在行動領域。

一個精心定義的政治和法律框架是必不可少的,特別是對于軍事力量的使用。因此,目前和將來使用自動化和自主系統必須符合FMoD的政治和法律要求。除了政治和法律方面,從軍事角度來看,使用致命性自主武器系統也是一種不可取的、非預期的選擇。

人工智能是一種高技術,需要大量的專業知識和開發努力。為了實現這一目標,德國陸軍正在尋求與歐洲工業和研究的密切合作。在德國陸軍發展的背景下已經建立的技術與能力(TmC)模式正被用作進一步活動的起點。

為了能夠充分應對未來所有與人工智能相關的挑戰,德國陸軍必須擁有合格的人工智能人才。在這方面,聯邦國防軍面臨著來自民用部門的強烈競爭。為了滿足短期內的需求,軍隊正在依靠現有的OR/M&S人員。

目前所有的數據表明,利用人工智能的方法和程序可以大幅提高陸軍的效率和效力。為了能夠適當地應對即將到來的挑戰,必須采取與組織程序和結構有關的措施。因此,"陸軍中的人工智能 "立場文件建議為陸軍設立人工智能工作臺,為陸軍設立人工智能開發中心,為陸軍設立人工智能數據中心。只有這樣才能全面覆蓋人工智能領域的創新、人工智能系統的培訓和數據的提供。

下文將在附件中詳細介紹使早期實現成為可能所需的所有措施。

德國陸軍概念和能力發展中的實施措施

2018/2019年,在德國陸軍概念和能力發展中心開展了關于人工智能(AI)主題的 "技術與能力 "形式。在一系列研討會的過程中,根據北約綜合作戰計劃指令(COPD),確定了人工智能在陸軍所有能力領域以及武器和服務中的應用,并按行動路線進行分類。下面詳細列出了五個應用領域,每個領域都有不同的行動路線。

根據內容和發展的成熟度,這些措施和行動方針的實施是通過CD&E和R&T活動進行的,或者在CPM的范圍內通過適當的舉措進行。與聯邦國防軍的能力概況相匹配是至關重要的。陸軍概念和能力發展中心負責實施。

  • 1 圖像分析

這個領域匯集了基于人工智能的目標識別和分類系統領域的所有活動。這些項目正在逐步建立起一種功能,以模塊化的方式擴展陸軍的各種保護和效果組件,包括從ISR到基于效果的自動系統。一個重點是將現有的民用方法用于軍事目的。

  • 2 戰術無人機

這一領域匯集了與不同幾何形狀的小型無人機系統有關的所有活動。這些活動包括從偵察到障礙物,再到進攻性武器系統。不管是什么活動,重點都是在防御和部署自己的TaUAS的能力。一個重要的挑戰是,特別是創造出足夠堅硬和強大的TaUAS,使其能夠使用被動傳感器系統,在非常有限的通信和沒有GPS的情況下,在白天和晚上半自主地行動。

  • 3 下一代戰斗管理系統(NGBMS)

這一領域匯集了所有側重于指揮和控制的活動。它既包括實現單一的功能,在適用的情況下,也可以在已經進行的活動中進行改裝,也包括將可能用于超戰爭情況的系統和方法概念化。沒有任何跡象表明有任何明顯的雙重用途。挑戰在于對指揮和控制過程的相關部分進行建模,以創建超戰可行的指揮和控制組件。理想情況下,指揮和控制過程的一部分可以按照博弈論的思路被描述為一個游戲,這樣人工智能就可以在決策支持或指揮和控制的自動手段的意義上使用。MUM-T是這方面的一個關鍵挑戰。

  • 4 材料和基礎設施

這一領域匯集了后勤、維護和IT管理領域的所有活動。該行動路線包含了各種可以相對快速實施的措施,并有助于更好地應對當前在支持方面的挑戰。許多力爭實現的功能正在民用部門以非常類似的形式使用或開發。

  • 5 分析方法

這個領域匯集了各種單獨的解決方案,其中人工智能和大數據可以為有關數據分析和優化的經典問題提供支持。數字化和人工智能提供了一個新的質量機會,因為某些問題(識別,......)可以實時和提前解決(也適用于車輛)或技術設備(如防火墻)。

付費5元查看完整內容

在這份報告中,我們提出了一種數據驅動的方法,用于實驗室技術載具的閉環控制。我們使用近似策略優化(PPO)算法,這是一種強化學習算法,已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性,此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的,但在獎勵稀疏的情況下,它確實受到了影響;這恰好是我們的精確彈藥應用的情況,其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題,我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段,這些階段的復雜度逐漸增加,緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。

1 引言

最近,用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展,特別是深度學習和人工神經網絡。強化學習(RL)是深度學習的一種類型,旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射,從而使所需的輸出最大化。這個程序的靈感來自于自然過程,因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中,來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動,而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中,我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化(PPO)RL算法的。

快速發展的機器學習行業導致了RL的新進展,使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入,如圖像幀,也可以推斷出行動,使性能最大化。很多時候,這種方法使閉環控制更加直接,如在基于視覺的系統中,基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反,它是一種基于模型的方法,依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似,往往阻礙了基于模型的方法,導致控制器性能不足或保守的控制器。例如,自主特技飛行是一個具有挑戰性的控制問題,因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳,但它們確實對已知的操作領域提供了寶貴的性能保證,使它們通常是安全的和可預測的。另外,無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動,無模型方法可以學習系統的復雜性,甚至可以擴展使用的代理數量。然而,他們需要更多的數據,而且控制設計中的性能保證可能更難實現。

RL方法得益于環境的簡化,如獎勵的塑造或行動空間和狀態的離散化,以實現更快的學習。在經典的RL任務中,可以同時收集行動和獎勵,以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如,當訓練一個自主代理找到一個迷宮的盡頭時,在每個時間步驟中,沒有跡象表明代理正在對系統應用正確的行動,直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習,設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點,即無意中支配了閉環控制的解決方案,減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而,當有廣泛的領域知識可供利用時,這種方法仍有其優點。好奇心驅動的方法采取相反的方法,鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的,因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化,使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習,其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是,當任務容易時,獎勵會在開始時更頻繁地出現,為RL算法提供有價值的反饋,以用于調整其控制器。

2 問題

RL已經在許多空間得到了實現,包括醫療、社會和工程應用。在本報告中,我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述,這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學,自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰,比例導航可能難以實現。

比例導航是基于線性化的嚙合幾何,這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性,這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分,這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而,由于稀疏的獎勵信號,機器學習過程非常困難。

2.1 貢獻

在這份報告中,我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境,其中嵌入了一個功能模擬單元(FMU)模型,以密切模擬真實的射彈。因此,由于尋找有用的控制策略所需的探索任務的規模,這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵,因此實施了一種課程學習方法,其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明,通過這個系統,我們可以學會駕駛智能彈藥并精確地擊中目標。

2.2 組織

我們在第3節中介紹了我們的環境模擬,在第4節中提供了PPO算法的概述,在第5節中介紹了我們的課程學習方法,在第6節中給出了訓練的概述,然后在第7節中介紹了我們的結果。

付費5元查看完整內容

美國陸軍未來司令部的士兵致命性(SL)跨職能小組(CFT)正在研究通過頭戴式和武器式能力的組合來增強下馬步兵的新方法。根據SLCFT的指示,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室的研究人員探索了加強輔助目標識別能力的技術,作為陸軍下一代智能班組武器計劃的一部分。

敵對環境中涉及潛在目標的復雜決策必須由下馬的士兵做出,以保持戰術優勢。這些決定可能是人工智能(AI)技術的強大信息,如AI支持的火力或指揮和控制決策輔助工具。例如,一個士兵發射武器是一個明確的跡象,表明該地區有一個敵對的目標。然而,一個士兵在環境中追蹤一個潛在的目標,然后放下他們的武器,這是一個模糊的、隱含的跡象,表明該目標受到關注,但最終被該士兵認為不是一個直接的威脅。在近距離作戰的環境中,與士兵狀態相關的隱性標記數據(如光電視頻、位置信息或火力行動)可用于輸入決策輔助工具,以得出真實的戰場背景。然而,需要對這些行動進行更徹底的檢查。此外,來自單個士兵的突發非交流行為在整個班級中的匯總可以增強戰術態勢感知。盡管它們有可能產生戰術影響,但這些狀態估計或行為指標往往不能以立即可用的形式獲得。

DEVCOM陸軍研究實驗室(ARL)的研究人員調查了一種通過機會主義感應來進行下馬士兵狀態估計的方法--一種不需要人類明確行動就能收集和推斷關鍵的真實世界數據的方法。在通過正常使用武器追蹤和攻擊移動和靜止目標時,連續獲得數據以解釋士兵的行為。這項工作中使用的士兵-武器行為分類方法主要來自人類活動識別(HAR)研究。然而,在這項工作中,為了提高行為結果的生態有效性,在眼球追蹤文獻中經常使用的實驗范式被反映出來,將眼球運動和認知推理聯系起來。具體來說,眼動跟蹤研究的一個子集的目標是收集和解釋與公開的視覺注意力有關的眼動事件(即固定、囊狀運動和追逐),這可以揭示認知過程和關于環境的客觀內容。在戰斗中,士兵們可能會將他們的目標停留在一個靜態的目標上(固定),當出現新的目標時迅速轉換目標點,有潛在的目標出現(囊狀運動),或者在潛在目標移動時跟蹤他們的目標點(平滑追擊)。

目前,頭戴式眼動跟蹤技術正在開發用于戰斗。然而,與校準誤差有關的凝視數據中的噪聲使其難以有效地使用這些數據。一個更突出的解決方案可能存在于士兵和他們的武器之間的互動中,這項工作使用傳統的HAR技術進行。執行HAR的主要方法是在一個人進行一些身體活動時,使用慣性測量單元收集時間序列數據。然后使用機器學習技術來訓練分類模型,根據數據信號預測行動。這種方法可以擴展到包括在人類與物體互動時對其運動的分類。在這種情況下,當近距離作戰的士兵與潛在的威脅進行互動時,武器的運動特征被伺機獲得,這為這些士兵在這種環境中做出的復雜決定提供了一個窗口。

論文中記錄并發表了對這一評估的全面分析。對來自動態士兵狀態估計的運動數據進行建模和分析以實現對形勢的理解。

付費5元查看完整內容

摘要

本報告涵蓋了與設計評估人類和智能軟件Agent之間通信有關的問題,這些通信是實現協作關系所必需的。為了使人與Agent之間的互動在動態的現實世界中保持穩定,軟件Agent和人類都必須能夠在任務目標方面溝通他們的整體意圖。由于推理過程、能力和知識庫的不同,人類和Agent并不是人類團隊的模擬。我們討論了有效通信所涉及的技術問題,包括相互透明的模型、自然語言處理(NLP)、人工智能(AI)和可解釋的AI。由于缺乏使人類能夠洞察其隊友心理過程的心智理論,Agent很難預測人類的信息需求和未來行動。涉及多個Agent的協作計劃研究和合成共享心智模型的研究被作為嘗試將人類和Agent整合成一個協同單位典范。然而,我們的結論是,在人類和Agent在復雜的、不確定的任務中像人類團隊一樣通信之前,NLP、可解釋人工智能和人類科學的進展將是必要的。

1. 引言

自主系統的前景和問題都將改變未來系統的動態,這不僅體現在自主系統對社會的影響上,也體現在它們與人類的互動上(《經濟學人》2016;Schaefer等人,2017)。人類和自主系統之間的伙伴關系涉及到將人工和人類融合成一個有凝聚力的系統,這種結合意味著所有的優勢和限制(Bradshaw等人,2009;Chen和Barnes,2014)。自主系統的范圍可以從那些獨立的、只由人類偶爾監控的系統到由人類指導的、受到密切監督的系統(Barnes等人,2017)。能夠自主行動并根據新信息更新行動以實現其目標的軟件系統被確定為智能Agent(IA);Russell和Norvig 2009)。在人類與IA的合作關系中,人類和IA共享決策空間的混合倡議能力,但人類擁有最終的權力,在危險的時間有限的情況下,允許靈活性,同時保持人類的責任(Chen和Barnes 2015;Barnes等人2017)。在大多數情況下,不可能先驗地將每個人分配到動態環境中的特定角色,因為他們的角色可以隨著情況的變化而改變。例如,自適應Agent可以在高工作負荷的任務段中掌握決策主動權,而不需要等待操作者的許可,但在正常的操作中會將決策主動權還給操作者(Chen和Barnes 2014)。一些與任務分配有關的規定性規則可以根據任務的優先級預先設定。其他規則可能會根據情況的緊急程度而改變(例如,在時間期限過后自主擊落來襲導彈[Barnes等人,2017;Parasuraman等人,2007])。然而,在動態環境中,溝通、對意圖的理解和共同的態勢感知(SA)是有效協作的必要條件(Barnes等人,2017;Evans等人,2017;Holder,2018;Chen等人,2018)。

隨著IA復雜性的增加,有效通信的必要性也隨之增加。Cooke(2015)認為,高效的團隊合作關系更多的是取決于有效的互動,而不是擁有廣泛的共享知識庫。除了有一個共同的語言框架,每個團隊成員都必須知道什么時候向他們的伙伴推送信息,什么時候要求提供信息。因此,人類和IA不僅要有任務環境的SA,而且要有彼此角色的SA,以便在沒有公開交流的情況下回應伙伴的要求(Scherri等人,2003;Chen等人,2018)。我們討論三個主要的主題。第一個主題是對人-Agent架構的描述,以及為什么它與人-人團隊不同,強調相互透明度的重要性。接下來,我們討論了人類與人工智能(AI)系統通信所涉及的技術問題,包括多模態交互、語言限制、AI的類型以及可解釋AI(XAI)的重要性,以確保相互理解。最后,我們討論了共享意圖的重要性,以促進操作者和人工智能之間信息交互的自然節奏

付費5元查看完整內容

摘要

荷蘭的Smart Bandits項目旨在開發顯示真實戰術行為的計算機生成部隊(CGF),以提高戰斗機飛行員模擬訓練的價值。盡管重點在于展示空對空任務中的對抗行為,但其結果更廣泛地適用于模擬領域。

傳統上,CGF的行為是由腳本控制的,這些腳本規定了在一組特定事件中的預定行動。腳本的使用有一定的缺陷,例如,在考慮完整的任務場景時,腳本的復雜性很高,而且腳本的CGF往往表現出僵硬和不現實的行為。為了克服這些缺點,需要更復雜的人類行為模型,并結合最先進的人工智能(AI)技術。Smart Bandits項目探討了應用這些人工智能技術的可能性。

本文解釋了在理論行為模型和用于戰斗機訓練的CGF中的實際實施之間架起橋梁的主要架構。測試CGF的訓練環境包括四個聯網的F-16戰斗機模擬器。這種設置能夠為飛行員提供實驗性訓練,以對抗敵人的戰斗機編隊(以智能CGF的形式)。該架構是通用的,因為它可以滿足各種人類行為模型,在概念上,它們在使用人工智能技術、認知的內部表示和學習能力方面彼此不同。基于認知理論的行為模型(例如,基于情境意識、心智理論、直覺和驚訝的理論)和基于機器學習技術的行為模型實際上都嵌入到這個架構中。

1.0 引言

戰斗機飛行員在模擬器中的戰術訓練已經被廣泛使用。戰術訓練的一個基本特征是除了受訓者之外,還有其他參與者的存在。這些參與者可以是隊友,如編隊中的其他戰斗機,支持力量,如前方空中管制員,中立力量,如平民,或敵方力量,如對手的戰斗機。在模擬中,這些參與者的角色可以由人類、半自動化部隊(SAFs)或CGFs來完成。半自動部隊有一些執行角色相關任務的功能,例如,多個虛擬實體可以由一個人控制。然而,使用人類專家參與戰術模擬可能既不符合成本效益,也不具有操作性。首先,這些人類參與者是昂貴的資產。其次,由于模擬的目的不是為他們提供訓練,他們可以在其他地方使用。因此,由CGF來扮演這些角色更為有效,只要這些CGF有能力以適當的方式扮演這些角色。

然而,目前最先進的CGFs在許多情況下并不能滿足戰術訓練的需要,因為它們的行為很簡單。除了前面提到的SAFs,可以區分四類CGF-行為(Roessingh, Merk & Montijn, 2011)。

1)非反應性行為,在這種情況下,CGF根據預先確定的行動序列行事,對環境的觀察或反應能力最小;例如,這種CGF能夠遵循由航點定義的路線。

2)刺激-反應(S-R)行為,在這種行為中,CGF對來自環境的某一組刺激或輸入的反應,總是表現出一致的行為;例如,這樣的CGF能夠在能夠連續觀察到飛機位置時攔截飛機。

3)延遲反應(DR)行為,在這種情況下,CGF不僅考慮到當前環境中的一組刺激,而且還考慮到以前的刺激,這些刺激存儲在CGF的存儲器中。這樣的CGF通過記憶以前的位置,能夠攔截一架飛機,即使這架飛機不能被連續觀察到。

4)基于動機的行為,這種CGF結合了S-R和DR行為,但另外考慮到其動機狀態。這些動機狀態是內部過程的結果,可以代表目標、假設、期望、生物和情感狀態。例如,這樣一個CGF可以假設,一架目標飛機的燃料不足,它將返回基地。因此,CGF可能決定放棄攔截。或者,CGF可能預計到飛機的路線改變,并決定在一個更有利的位置攔截飛機。

到目前為止,CGF的一個特點沒有被納入討論,那就是學習行為或適應行為(在Russell和Norvig, 2003的意義上)。表現出S-R、DR或基于動機的行為的CGF,可以在機器學習(ML)的基礎上擴展適應這種行為的能力。ML技術使CGF的發展能夠更好地適應受訓者的專業知識。此外,ML技術還可以防止為每個要解決的具體問題或情況制定一套艱苦的規則(例如 "如果-那么規則"),這些規則是基于對業務知識的人工啟發,而這些知識在很大程度上是隱性的,不能簡單地用邏輯規則來解釋。

本文的目標是說明在 "智能強盜 "項目(2010-2013年)中開發智能CGFs。該項目旨在將類似人類的智能植入模擬任務場景中出現的CGF中。通過Smart Bandits項目,荷蘭國家航空航天實驗室(NLR)和荷蘭皇家空軍(RNLAF)的目標是在模擬戰術戰斗機飛行員訓練領域邁出重要一步。本文的核心信息是,認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知建模的缺點,我們主張額外使用ML技術。這些技術對于減少開發在復雜領域中行動的代理的知識誘導工作至關重要。它展示了如何將不同的方法組合成混合模型。

2.0 基于動機的行為建模

2.1 智能強盜模型

產生智能行為的一種方法是認知建模。在這種方法中,計算模型被設計來模擬人類的認知。在Smart Bandits項目中,到目前為止已經設計了三個認知模型:一個自然的決策模型,一個驚喜生成模型和一個情況意識模型。所有這三個模型都是利用空戰領域的抽象場景進行評估的。

2.1.1 自然主義決策

由于決策是產生任何智能行為的關鍵部分,在項目的早期就開發了一個自然決策模型。該模型的靈感來自于達馬西奧的體細胞標記假說。軀體標記假說提供了一種決策理論,該理論將體驗到的情感作為決策的直覺部分發揮了核心作用,同時將這種直覺部分與理性推理相結合,形成一個兩階段的決策過程。Hoogendoorn, Merk & Treur (2009)對這個模型進行了描述。

2.1.2 驚奇的產生

驚訝被認為是人類對意外情況的普遍體驗的認知反應,對行為有可識別的影響。然而,在CGF的研究中,很少有人關注驚訝現象,很少有CGF有類似人類的機制來產生驚訝強度和驚訝行為。這就導致了CGF在人類會做出驚訝反應的情況下,其行為是貧乏的和不現實的。對于空戰來說,這形成了一個問題,因為許多軍事專家認為驚訝因素是軍事行動的一個重要因素。

出于這個原因,我們開發了一個產生驚訝強度及其對行為影響的模型(Merk, 2010)。該模型是基于各種理論和對人類驚訝行為的認知研究的經驗結果。除了情境的意外性,其他的認知因素,如情境的新穎性也被考慮在內。

2.1.3 情境意識

有效決策的一個重要因素是情景意識(Situation Awareness,SA)。SA在工作領域尤其重要,在那里信息流可能相當大,錯誤的決定可能導致嚴重的后果。為此,我們根據Endsley(1995)的SA的三個層次設計了一個模型:(1)對線索的感知,(2)對信息的理解和整合,(3)對未來事件的信息投射。

在Smart Bandits中用于智能CGF的基本SA模型(見Hoogendoorn, van Lambalgen & Treur, 2011)包括五個部分。(1)觀察,(2/3)對當前情況的信念形成,(4)對未來情況的信念形成和(5)心理模型。對當前情況和未來情況的信念通過閾值函數被激活(接收一個激活值),這是一種從神經學領域采用的技術。圖1中的SA模型代表了用于形成信念的領域的知識。人類使用專門的心理模型,這些模型代表了各種觀察和關于環境的信念形成之間的關系,反過來,這些模型又指導了要進行的進一步觀察。

圖1:情況意識的認知模型:概述

另一個重要的方面是在苛刻的環境下可能出現的SA的退化。當時間有限時,感知和線索的整合會受到影響,導致對環境的不完整了解。此外,由于工作記憶的限制,人類并不總是能夠進行所有必要的觀察。根據可用時間的多少,可以通過考慮不太活躍的信念來進一步完善對情況的了解。這些特點反映在智能CGF的行為中。上述模型的詳細描述可以在Hoogendoorn, Lambalgen and Treur (2011)中找到。

3.0 機器學習

3.1 強化學習

機器學習技術的一個常見區別是監督學習和無監督學習(例如Russel和Norvig,2003)。在監督學習中,在每次試驗后,代理人會得到與他應該采取行動的輸入演示(也稱為輸入實例)相匹配的反應。實際反應和預期反應之間的差異被用來訓練代理,就像培訓師或監督員讓學生意識到預期反應一樣。例如,代理人可以通過向其展示正確的反應來學習飛行動作。在無監督學習中,代理只是被告知輸入的例子。代理人必須在所提供的例子中找到隱藏的結構。由于給代理的例子沒有伴隨著反應,所以沒有差異信號來訓練代理。例如,代理可以學習區分友軍和敵軍的戰術。

強化學習具有上述兩種學習技術的要素。代理人在每次試驗后不是被告知正確的反應,而是在每次試驗的執行過程中收到來自環境的反饋。雖然反饋不一定代表每個單獨行動的正確反應,但該學習技術的目的是為整個試驗提供匯總反饋,從而平均強化正確反應。然而,這并不能保證收斂到正確的反應。強化學習的技術實現在Sutton & Barto (1998)中有所解釋。

強化學習特別適合代理在模擬環境中的應用,因為在這種環境中,代理能夠探索環境,從而可以評估大量成功和不成功的反應。另外,在復雜的環境中,所需的反應,如最佳的對手交戰戰術,往往是未知的。強化學習提供了一種技術,通過每次試驗來改進反應,從而發現更好的戰術。

強化學習的一個普遍問題是,它需要大量的內存來存儲中間計算值(反應與代理在其環境中的狀態相結合,如其位置、速度和方向)。在現實的戰術環境中,這實際上轉化為無限量的反應-狀態組合("狀態-行動空間")。在Smart Bandits項目中,模擬了兩架友軍飛機和兩架敵軍飛機之間的空對空交戰,后兩者由學習型代理人代表。在這些交戰中,學習型代理只能以四種方式做出反應(左、右、前和射擊)。在這個例子中,我們將狀態-動作空間存儲在一個表格中,在可接受的學習試驗數量之后,它需要2千兆字節的內存。這種內存需求隨著額外參數的增加而呈指數級增長。驚人的內存需求可以通過對狀態-動作-空間的近似來減少,而不是保留所有的精確值。近似一個大的狀態動作空間的方法是使用神經網絡(NN),這將在下一節解釋。

3.2 強化學習與神經網絡

在一般意義上,NN(Haykin,1998)可以被認為是一個可以模擬任何數學函數的網絡。在這種情況下,我們使用NN來近似上述的狀態-動作空間。NN的輸入是代理人在其環境中的當前狀態。NN的輸出是代理的每個可能行動的值。NN的輸出是在RL算法產生的數據基礎上進行優化的。RL算法的數據不需要再被存儲。事實上,NN是用RL算法產生的數據來訓練的。以前我們需要2千兆字節的內存來解決一個相對簡單的空對空問題,現在我們只需要大約10千兆字節的數據來存儲這個問題的NN知識。這種知識是由NN的權重值表示的。而且,內存需求不再隨著問題的復雜性呈指數增長,而只是呈線性增長。為此,可以使用相對簡單的前饋型NN,而不是遞歸型NN。然而,我們發現有兩個原因要為需要在復雜戰術場景中行動的代理類型開發替代的ML技術。

1)與一些領域不同,如解決象棋等游戲中的問題,其中最佳的下一步行動完全由世界的當前狀態決定,而解決戰術問題的特點是需要使用以前的世界狀態。例如,一個空對空的對手可能會消失一段時間,并可能在不同的位置突然出現,代理人必須考慮到這一點。換句話說,戰術問題的特點是對環境的不完善或不完全了解1。眾所周知,RL技術對這些類型的問題并不太健壯,當面對更復雜的問題時,我們確實經歷了與我們的代理人的正確反應相背離的情況。

2)一些現實的戰術問題需要在當前的決策中考慮到對以前狀態的記憶。正因為如此,基于RL的代理不能很好地適用于現實的戰術問題。對于需要延遲反應行為或基于動機的行為的應用(見第1章),RL可能不是首選技術。

對于空對空領域的更高級問題,下一節將研究進化技術作為RL的替代品。

3.3 進化技術和神經網絡

人工自主系統被期望在動態、復雜的環境中生存和運行。在這樣的環境中,代理人的具體能力是很難事先預測的,更不用說詳細說明了。自主系統的人工進化使代理人能夠在復雜的動態環境中優化他們的行為,而不需要使用領域專家的詳細先驗知識。RL技術假定問題的解決方案具有馬爾科夫特性(見前面的腳注),而進化技術(B?ck, Fogel, Michalewicz, 1997)不受這種約束,適用于更大的問題集。

進化技術使用一個迭代過程,在一個解決方案的群體中搜索適配性景觀,在這種情況下,就是戰術問題的解決方案。種群中更成功的實例在有指導的2次隨機搜索中被選擇,使用平行處理來實現期望的解決方案。這種過程通常受到生物進化機制的啟發,如突變和交叉。許多進化技術的實驗使用神經網絡來控制代理。神經網絡提供了一個平滑的搜索空間,對噪聲具有魯棒性,提供了概括性并允許擴展(見Nolfi和Floreano, 2000)。此外,網絡結構可以被進化或優化以允許延遲響應行為。這些特性與優化網絡的進化方法相結合,為復雜、動態領域提供了一個有趣的研究領域。作為一個例子,我們可以使用智能強盜的進化技術更新SA模型(見第2.3節)的連接強度的權重。

由于像SA模型這樣的認知模型通常有一大套相互關聯的參數,使用主題專家來確定它們的(初始)值是很麻煩的,而且是投機性的和勞動密集的。這就需要使用進化學習技術來為上述觀察、簡單信念、復雜信念和未來信念之間的聯系確定適當的權重。圖2給出了第2.3節中提到的SA模型的網絡表示的一個簡化例子(取自Hoogendoorn, van Lambalgen & Treur, 2011)。

圖2:情況意識的例子模型(Hoogendoorn, van Lambalgen & Treur, 2011)。

為了學習圖2中網絡的連接權重,我們采用了兩種不同的方法(Gini, Hoogendoorn & van Lambalgen, 2011),即遺傳算法應用和基于權重重要性的專門方法。后一種方法被稱為 "基于敏感度 "的方法。這兩種方法都利用了一個健身函數,表示一個解決方案與期望狀態的符合程度。在這種情況下,可以通過實際激活水平和主題專家估計的激活水平之間的差異來衡量適合度。遺傳算法的表現明顯優于基于敏感性的方法。

3.5 多代理系統中ML的復雜方面

多Agent系統(MASs)屬于兩類中的一類:集中式或分散式控制的系統。集中式控制系統由具有一定程度自主權的代理組成,但整個系統由一個統一的戰略、方法或代理控制,以實現特定的目標。然而,盡管有整體的統一策略,單個代理并不知道其他代理在做什么,所以團隊策略通常在任務中的不同點與單個代理的策略相沖突。這個問題3已經成為在復雜環境中實施MAS的典型障礙。分散式系統與集中式系統不同,它的代理具有更高的自主性,但缺乏指導所有代理的預先存在的戰略。它們通常有某種形式的通信系統,允許代理在探索其環境的同時制定所需的整體戰略。開發能夠進行空對空戰術的智能CGF的挑戰,直接屬于MAS環境的集中式類別。因此,各個代理必須在同一環境中一起訓練。然而,這使狀態空間以環境中存在的代理數量的倍數膨脹。這是每個代理保持自己對環境的獨特看法的結果,這種看法被記錄在自己的狀態空間中。然而,追求多代理的方法是有道理的,特別是在與領域有關的問題上,不同的飛行成員可能有不同的,可能有沖突的目標和不完整的情況意識。

4.0 架構

4.1 仿真環境

Smart Bandits項目中用于CGF的仿真環境是STAGE ?,這是一個場景生成和CGF軟件套件。作為一個基本的場景工具,STAGE為我們提供了一定的保真度和抽象度,很適合目前考慮的戰術空對空作戰模擬。當需要更高的平臺、傳感器或武器模型的保真度時,STAGE提供的基本功能將得到擴展。這種擴展CGF環境基本功能的能力是STAGE被選為Smart Bandits的主要CGF軟件套件的原因之一。

4.1.1 中間件(調解器)

傳統上,代理人的刺激-反應(S-R)行為(見第1章)可以通過使用腳本和/或基本條件語句在CGF軟件中實現。結合這些簡單的構件,通常可以為CGF行為提供一定程度的可信度,這對于許多模擬培訓練習來說可能是足夠的。然而,對于更高級的問題和相關的代理行為,包括學習行為,如第2和第3節所述,這種方法將是不夠的。正如前幾節所論述的那樣,存在著大量的技術用于發展CGF行為和在模擬環境中控制CGF。一個標準的CGF平臺并不能滿足實現這些不同的技術。

為了將STAGE作為Smart Bandits中的CGF平臺,同時將CGF的控制權委托給外部軟件(即使用選擇的編程語言構建的特定軟件),我們開發了一個接口,外部軟件可以通過該接口接收來自STAGE中任何CGF的觀察結果,并可以命令CGF在仿真環境中執行操作。這個中間件層(圖3中所謂的調解器)通過特定的協議(nCom,Presagis專有)與STAGE進行實時通信,可以向不同的代理(可能分布在不同的計算機上)發送和接收上述的觀察和行動。為了與調解器通信,外部軟件使用一個特定的接口,該接口定義在一個庫中,可以很容易地鏈接到軟件中,例如用Java或C++。

圖 3:將智能代理納入商用現成 CGF 包(STAGE?)的架構,智能代理可以使用 C++ 或 Java 接口,通過調解器與 STAGE 通信。

5.0 結論與討論

本文介紹了一種認知建模的技術和各種機器學習技術。不幸的是,似乎沒有一種單一的技術來解決從事空對空任務的智能CGF的所有突發戰術問題。

認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知模型的缺點,我們主張額外使用機器學習技術。機器學習技術對于減少在復雜領域中行動的CGFs的開發的知識誘導工作至關重要。本文建議將不同的方法組合成混合模型。

這里提出的主要架構的目標有三個方面:

  • 將智能CGF模型與戰術戰斗機模擬脫鉤。

  • 促進人類行為模型與上述模擬的連接過程。

  • 使得智能CGF模型能夠在不同的客戶端進行分配。

這三個特點共同促成了對混合方法的追求。

在Smart Bandits項目中,智能CGF的行為和設計必須適應手頭的戰術訓練目標。在本文中,我們沒有明確地處理訓練要求。然而,在本文中,我們隱含著這樣的假設:作戰戰斗機飛行員的戰術訓練所需的CGF行為包括以下方面:使人類對手吃驚的能力,看似隨機的行為,即不重復的反應,以及從武器平臺的角度來看是真實的。到目前為止,已經創建的智能CGF將在未來的項目階段(2012/2013)根據訓練要求進行驗證。因此,在 "智能土匪 "項目中,未來工作的兩個主要項目是:

  • 實施混合模型,其中認知建模和ML相結合,以及

  • 根據具體的學習目標或能力來調整智能機器人的行為。

付費5元查看完整內容

摘要--基于模擬的訓練有可能大幅提高空戰領域的訓練價值。然而,合成對手必須由高質量的行為模型控制,以表現出類似人類的行為。手工建立這種模型被認為是一項非常具有挑戰性的任務。在這項工作中,我們研究了如何利用多智能體深度強化學習來構建空戰模擬中合成飛行員的行為模型。我們在兩個空戰場景中對一些方法進行了實證評估,并證明課程學習是處理空戰領域高維狀態空間的一種有前途的方法,多目標學習可以產生具有不同特征的合成智能體,這可以刺激人類飛行員的訓練。

索引詞:基于智能體的建模,智能體,機器學習,多智能體系統

I. 引言

只使用真實的飛機進行空戰訓練是很困難的,因為飛行的成本很高,空域的規定,以及代表對方部隊使用的平臺的有限可用性。取而代之的是,可以用合成的、計算機控制的實體來代替一些人類角色。這可以降低訓練成本,減少對人類訓練提供者的依賴(見圖1),并提高訓練價值[1]。理想情況下,受訓飛行員的對手應該都是合成實體,這樣就不需要角色扮演者和真實飛機來支持訓練。然而,為了達到較高的訓練價值,合成對手必須由高質量的行為模型控制,并表現出類似人類的行為。手工建立這樣的模型被認為是一項非常具有挑戰性的任務[2], [3]。

圖1. 空戰訓練系統的用戶。通過構建更智能的合成智能體,可以減少對人類訓練提供者的需求。

近年來,強化學習算法的性能得到了迅速提高。通過將強化學習與深度學習相結合,在復雜的控制任務[4]-[6]、經典的棋盤游戲[7]-[9]以及具有挑戰性的實時、多人計算機游戲[10],[11]中取得令人印象深刻的結果成為可能。這使我們相信,強化學習也可以成為構建空戰模擬中合成智能體行為模型的一個可行的選擇。有了這種方法,訓練系統的用戶就不需要明確地對智能體的行為進行編程,而是可以簡單地指定他們所需的目標和特征。然而,目前還沒有很多研究來評估空戰領域中最新的多智能體學習方法的性能。

在這項工作中,我們研究了如何在空戰模擬中使用多智能體深度強化學習來學習協調。在空戰領域,多個智能體的協調是很重要的,因為飛行員從來不會單獨飛行。我們的貢獻可以總結為以下幾點:

  • 首先,我們討論了用于訓練飛行員的空戰模擬領域的強化學習算法的用例、設計原則和挑戰

  • 其次,我們使用高保真模擬引擎,對有助于實現所確定的用例的方法進行了廣泛的實證評估。

具體來說,我們研究了空戰模擬場景中學習算法的兩個挑戰。1)用稀疏的獎勵學習,以及2)創建具有可調整行為的智能體。我們的實驗表明,在空戰的高維狀態空間中,課程學習可以促進稀疏獎勵的學習,而多目標學習可以產生具有不同行為特征的智能體,這可以刺激飛行員的訓練。

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容
北京阿比特科技有限公司