亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本研究項目的目標是開發一種認知助手,以支持美國防部(DoD)對新成本估算人員的培訓。認知助手(CA)在這里被定義為一種人工智能(AI)工具,通常具有自然語言界面,通過檢索和處理來自多個信息源的相關信息,并在適當的時候將其提供給用戶,從而在特定任務中增強人類的智力。它還具有學習和適應用戶和手頭問題的能力。

成本估算是一個復雜的迭代過程,由多個步驟組成:收集所需信息、選擇總體戰略和一個或多個現有模型、根據需要開發新模型(包括校準和驗證)、執行估算以及酌情進行敏感性分析。初級成本估算人員在每個步驟中都會遇到挑戰,包括處理不完整的數據集、適當評估新模型的性能、預測歷史有效范圍之外的情況、充分報告點估算的不確定性水平、了解如何使用成本-進度聯合分布等。

目前,對新成本估算人員的培訓主要是通過現場課堂的傳統教學進行的,因此這是一個耗時的過程。傳統教學通常意味著實踐學習機會的減少,而眾所周知,實踐學習可以提高學習效果。這種教學方式也不是根據每個人的具體情況量身定做的,因此對于某些學員來說,教學進度可能太快,而對于另一些學員來說,教學進度可能太慢。正如其他教育領域的智能輔導系統所證明的那樣(Corbett et al.)

使用人工智能工具來提高受訓人員的學習能力并不是什么新想法,幾十年來一直在研究(Ong 和 Ramachandran,2003 年)。然而,在國防部采購領域,仍處于將先進的人工智能工具納入工作流程的早期階段,特別是 CA 還沒有被用作培訓工具。由于底層機器學習(ML)模型性能不足和用戶不熟悉這種交互模式,以前在工作場所采用這種技術的嘗試都失敗了。隨著 CA 在日常生活中無處不在,以及最近在機器學習方面取得的重大進展,將這種技術引入工作場所的時機已經成熟。

在該項目的第一孵化階段(10 萬美元,2021 年 9 月至 2022 年 6 月),研究團隊與贊助商和其他利益相關者合作,確定了 CA 的用例。決定將重點放在已經熟悉成本估算方法,但希望學習一種新商品(即空間系統)的用戶身上。該工具將幫助用戶以個性化的方式學習新材料。在團隊開發的名為 Daphne 的現有智能體的基礎上開發了 CA 的初始版本。這使能夠快速取得進展,因為一些軟件基礎架構可以重復使用。此外,還展示了在為各種學習評估和學習機會選擇問題時進行個性化培訓的能力,這些問題和機會最能滿足用戶的需求(例如,強化薄弱環節)。對美國防部開發和維護這種工具所需的資源進行了初步估算。

該項目被批準進入第二階段,目標是進一步開發智能體,并與實際用戶進行驗證。本文件報告了第二階段第一年的成果(13.4 萬美元,2022 年 9 月至 2023 年 9 月)。在此期間,開發了第二版智能體,利用大語言模型(LLMs)使系統更加靈活、可擴展、易維護。此外,還開發了一個包含幻燈片、例題和測驗的三模塊空間系統在線課程,并已開始在德克薩斯農工大學(TAMU)對該工具的有效性進行全面測試。

未來的研究計劃包括提供更長的在線課程,并與成本評估和項目評價辦公室 (CAPE) 的真實用戶進行測試。此外,研究小組還將完善對開發和維護成本的估算。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

該項目是為了支持美國國防部高級研究計劃局(DARPA)的 "開放世界新奇事物的人工智能與學習科學"(SAIL-ON)計劃。在第二階段基期工作中,我們推進了第一階段 TALONS 框架的理論和實施,并收集了智能體在新奇事物生成器生成的新奇事物上的基線性能的初步實證結果。在第二階段的選擇階段,我們將基礎階段的工作擴展到更廣泛的新奇事物生成和實施形式。

這項工作的主要成果包括:完成了新奇事物生成器的開發;對來自 3 個不同 SAIL-ON TA1 團隊的新奇事物進行了性能分析;開發了自動且可最大程度減少人為偏差的新奇事物生成與實施流程;將我們的新奇事物生成流程應用于 Monopoly、Vizdoom 和 Blocksworld 領域,從而證明我們的新奇事物生成器與領域無關;以及為 SAIL-ON 計劃提供支持。下面的項目總結和后續報告將更詳細地介紹這些成就。

項目總結

目前最先進的人工智能可以在已知已知甚至未知的情況下穩健運行。然而,人工智能仍無法可靠地檢測、描述和適應開放世界中的新奇事物。隨著研究界不斷努力實現先進的自主性,我們需要有科學依據的方法來評估人工智能體在開放世界環境中的表現。

PacMar Technologies(PMT)和 Parallax 高級研究公司開發了一套獨立于領域的理論、原則性技術和軟件工具,用于生成、描述和評估新穎性。這些理論和技術涵蓋了與領域無關的新穎性。在合同基期內,我們開發了一個測試平臺,用于評估智能體在自動駕駛汽車領域對新奇事物的反應性能,我們還在南加州大學 SAIL-ON 團隊提供的大富翁領域中實施了由我們的軟件工具自動生成的新奇事物。

我們的新奇事物生成器方法使用原則性技術自動生成新奇場景。這些場景被加載到模擬環境中,與給定的第三方人工智能體對接,以收集該智能體的性能數據。然后評估智能體在各種不同情況下處理各類新奇事物的能力。

我們將新奇定義為環境中的變化。簡而言之,變化可以是過渡函數的變化,也可以是狀態空間的變化。我們的方法有能力在過渡函數(包括行動和事件)、狀態空間定義和觀察函數中生成新穎性。精確生成新穎性的計算方法可分為兩種類型的轉換,其方式與創造性系統框架(Wiggins,2006 年)一致。我們方法的關鍵在于從八個維度對新穎性進行表征,從而支持將情景生成的重點放在可能挑戰智能體魯棒性的情況上。

我們的方法目標如下
 1.為新奇性的特征描述奠定科學基礎。 2.開發生成可用于評估智能體的新情景的技術。 3.確定這些技術的可行性及其在各領域的適用性。

本報告旨在清晰地描述我們的方法,包括新穎性生成、模擬和評估的方法。將我們的方法應用于 CARLA 的自動駕駛汽車領域、Monopoly、VizDoom 和海洋領域,有助于進一步發展理論和測試平臺軟件。最后,我們對本報告進行了總結,并提出了進一步研究的思考和啟示。

在第一階段的工作中,我們開發了一個基于新穎性多維表征的新穎情景生成框架。我們正式規定了這一多維表征、收集受測智能體數據的指標,以及評估智能體對不同類型新穎性的魯棒性的方法。在使用轉換生成新穎性的過程中,我們定義了 24 個函數簽名,并計算了應用這些簽名生成新穎性的上限復雜度。我們的研究表明,根據我們對新穎性的多維表征,使用這兩種類型的變換來改變場景生成,我們能夠顯著減少新穎場景的空間。為了支持新穎性的精確生成,我們構思了 TALONS 模擬器抽象語言(T-SAL)來描述環境和這些環境中的各個場景。我們利用這些概念來支持第三方智能體對新奇事物的魯棒性評估。

在第二階段基期工作中,我們推進了 TALONS 框架的理論和實施,并收集了智能體在新奇事物生成器生成的新奇事物上的基線性能的初步實證結果。我們制作了三個源代碼庫,詳見基礎階段最終報告,其中包含以下內容的實現:(1) TSAL 語言;(2) 新穎性生成器(實現 R 變換);(3) 使用 CARLA 自動駕駛汽車模擬器的評估框架。從理論角度來看,我們利用第一階段工作中開發的新穎性維度理論對新穎性進行了初步分析研究,并正式定義了 R 變換,然后利用這些定義正式定義了新穎性層次結構級別。

我們在第二階段選擇期內做出的獨特貢獻包括以下內容:

  • 提供更新的 TSAL 解釋器 - 基于 python 的庫,可將 TSAL 語言文檔轉換為 python 類實例。其功能包括讀取、寫入和修改 TSAL 語言文檔。在選擇期內,我們為 TSAL 問題文件文檔解析組件添加了目標表示。
  • 修訂了 T-SAL 規范定義。
  • 完成了新穎性生成器的開發--這是一個基于 python 的庫,使用 R 變換和 T 變換生成新的 TSAL 領域和問題文件。功能包括
    • 用戶可以選擇要考慮的 R 變換,從而集中搜索特定類型的新穎性。
    • 初始 T 變換包括生成隨機情景和從種子情景生成情景,種子情景具有可選規格,可防止某些謂詞類型在新情景中發生變化。
    • 我們實現了與領域無關的過濾功能,以確定新穎性是否相關--如果不處理新穎性,智能體將會看到性能降低。
  • R 變換的正式定義
  • T 變換的正式定義
  • 更新了大富翁領域的 TSAL 領域文件,并為 Vizdoom 領域、Blocksworld 領域和一個海事領域創建了 TSAL 領域文件。
  • 在 Monopoly、Vizdoom 和 Blocksworld 域中進行了評估,以完善新穎性生成器的操作,并證明它可用于多個域。
  • 為 Blocksworld 領域添加了 T 變換情景生成器示例
  • 使用我們的新穎性維度對來自 SAIL-ON TA1 團隊(WSU、UTD 和 ISI)的新穎性進行了分析。
  • 我們提供了嚴格定義的 SAIL-ON 創新水平邏輯定義。這些定義可用于檢驗新穎性是否屬于某一特定級別。
  • 正式定義了發現有價值新奇事物的三個條件,我們將這些條件稱為 "可學性條件",因為它們反映了智能體是否有望 "學會 "一個新奇事物:相關性、可注意性、可控性。
  • 我們創建了一個 "人在回路中 "的流程,開發人員可以使用我們的新奇事物生成器在其他模擬器中創建新奇事物,這些模擬器是在 TSAL 之外定義的,例如 Monopoly 和 Vizdoom。
  • 在整個執行期間出版了 4 份討論我們工作的出版物
  • 支持第 36 個月和第 42 個月的 SAIL-On 會議,包括在這兩次會議上介紹我們的工作。

付費5元查看完整內容

結合復雜不確定系統的框架(FICUS)提供了地理時間風險分析能力,將極大地改進美國陸軍工程研究與發展中心(ERDC)人類基礎設施系統評估(HISA)和城市安全模型建立和校準地點的軍事情報(MI)。再經過一年的開發,FICUS 工具可以提供復原力監測,并進行全面的地理和時間風險分析,通過整合美國國家地理空間情報局 (NGA)、ERDC 和 FICUS 原型模型的現有工具,改進情報產品:即使在沒有人類基礎設施系統評估或城市安全能力的地方也是如此。FICUS 將支持對人口、環境和基礎設施相互作用進行更高保真的情報分析。

近幾十年來,世界各地重大、復雜的緊急事件都發生在人口稠密的城市地區。雖然許多技術解決方案對當今復雜的多維城市地形有一定的了解,但要在城市物理系統的背景下建立人類系統模型,還需要做更多的工作。FICUS 填補了這一信息空白,它系統地將多種來源的人類數據和調查(已例行收集)結合起來,提供了一種包含分析和預測復雜人類行為所需的相互關系的人口表征。

FICUS 能夠將不同的調查和數據源(如家庭信息)與基礎設施系統的數字網絡結合起來,在采取不同行動的情況下生成一系列可能的情景。FICUS 能以更高的分辨率和保真度為決策者提供最壞和最好的情況,其效果遠遠超出了以往的設想,從而極大地提高了作戰指揮官或基地指揮官計算和管理城市行動風險的能力。

FICUS 可通過計算處理人口密集地區內部和周圍的物理、人類和信息系統的復雜重疊,使規劃人員、分析人員和作戰人員能夠跟蹤、監控和評估人類與物理系統之間的聯系如何影響軍事行動。反過來,FICUS 還能為決策者提供在密集的城市環境以及農村和較小城市中各種軍事決策和行動方案的二級和三級階梯效應。從根本上說,FICUS 是一種重要的補充分析工具,可用于任何類型的定性分析,并從利用大型不同數據集所獲得的情報中獲益

付費5元查看完整內容

在美國陸軍作戰能力發展司令部陸軍研究實驗室,正在研究行為、建立數據集并開發異常分類和解釋技術,其中自主智能體可生成對可能包含異常屬性的環境的自然語言描述和解釋。這項技術將支持在不確定條件下做出決策,并支持士兵和機器人隊友在網絡受限的情況下,在未知或危險環境中完成探索性導航任務(如自然災害后的搜救)的彈性自主機動。在本報告中詳細介紹了我們的貢獻如下:借鑒視覺異常檢測方面的相關工作,設計了異常分類法;設計了兩個在虛擬環境中進行的實驗,根據分類法操縱虛擬環境以顯示異常屬性;收集了一小部分人類語音和人機對話語料,用于異常檢測和解釋任務;最后,設計了一個新穎的注釋模式,并將其應用于的語料庫子集。

圖 1. 帶有實例的類異常分類法。矩形框中包含類的類型(如實體的 "顏色"),橢圓形是類屬性的實例或示例(如 "粉色小貓")。

付費5元查看完整內容

該項目旨在推進多模態機器翻譯(MMT)的技術水平。多模態機器翻譯是一個以視覺信息(圖像或視頻)補充源語言文本的領域,以作為額外的背景,更好地理解文本并將其翻譯成目標語言。所提出的進展的核心是指代基礎,即指導圖像區域和源(和/或目標)詞之間的對齊,從而使視覺背景對翻譯更有用。

項目期間所做的工作包括以下幾個方向:

1.改進監督下的注意力機制,將源詞或目標詞映射到圖像區域,解決編碼時(即學習源詞和圖像中的物體之間的排列)和解碼時(即學習目標詞和圖像中的物體之間的排列)的注意力,以及改進底層多模態神經機器翻譯架構和融合策略以使用這些信息,并探索更多最新和更好的視覺特征類型。

2.利用來自多個視覺和語言任務及數據集的信息,提高多語言基礎。

3.創建資源以促進參考依據的工作。

本報告集中在項目的最后4個月,涵蓋了方向1的進一步工作,即我們提出了第一個同步視頻翻譯的方法,即實時翻譯或口譯,其中需要為不完整的源句子生成翻譯,并有視頻作為額外的背景。一個應用的例子是對新聞等現場廣播的音頻流進行翻譯。與我們以前的工作不同的是,在我們以前的工作中,每一個文本片段都有一個單一的圖像作為靜態的視覺信息來翻譯,而在我們最近的工作中,每一個文本片段都有一個包含多個視覺信息的視頻。這給MMT帶來了許多挑戰,包括決定如何處理視頻(幀取樣方法、視頻編碼方法)以及如何將多件視覺(幀或甚至幀中的圖像區域)和文本(源和/或目標詞)信息結合起來。后者可以被看作是幀和文本子段之間的一種參考性基礎。

使用視頻作為MMT的視覺信息是很有吸引力的,因為它提供了更豐富的視覺背景,特別是對于較長的文本片段。它還為參考依據的研究開辟了新的途徑:為了實現正確的翻譯依據,模型需要識別特定的視頻幀或幀的一部分之間的對應關系,這些對應關系與到目前為止在不完整的文本輸入中看到的詞有關,這些輸入是逐步提供的。本報告附有所做工作的總結草案(論文待提交)。在本文中,我們使用了一個人們描述他們出租公寓的視頻數據集來訓練和評估我們的同步視頻翻譯模型。

圖1:源文本和翻譯文本的生成示意圖。視頻的WAV文件被提取并上傳到微軟Azure語音翻譯服務,以生成英文字幕、中文翻譯和時間戳。每個段落的時間戳包括偏移量和持續時間,單位為100納秒(1納秒=1×10-9秒)。

圖3:多模式同步機器翻譯模型,由語言通道、視頻通道和翻譯網絡組成。語言通道用于文本處理,視頻通道用于視覺特征提取。在翻譯網絡中,兩種模式在解碼器一側或編碼器一側被融合。

付費5元查看完整內容

美國陸軍作戰能力發展司令部陸軍研究實驗室正在研究行為,建立數據集,并開發異常分類和解釋的技術,其中自主智能體生成自然語言描述和對可能包含異常屬性的環境的解釋。這項技術將支持在不確定條件下的決策,以及士兵和機器人隊友在網絡限制的情況下,在未知或危險的環境中完成探索性的導航任務(例如,自然災害后的搜索和救援)的彈性自主機動。在本報告中詳細介紹了貢獻:借鑒視覺異常檢測的相關工作,設計了一個異常分類法;設計了兩個在虛擬環境中進行的實驗,這些環境被操縱以顯示基于分類法的異常屬性;為異常檢測和解釋任務收集了一個小型人類語音和人類-機器人對話的語料庫;最后,設計了一個新的注釋模式,并將其應用于語料庫的一個子集。

圖1. 帶有實例樣本的類的異常分類法。矩形框包含了類的類型(例如,實體的 "顏色"),橢圓是類屬性的實例或例子(例如,"粉色小貓")。

引言

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL),正在研究行為,建立數據集,并開發異常分類和解釋的技術,其中自主代理生成自然語言描述和對可能包含異常屬性的環境的解釋。這項技術將支持在不確定條件下的決策,以及士兵和機器人隊友在網絡受限的情況下,在未知或危險的環境中完成探索性的導航任務(例如,自然災害后的搜索和救援)的有彈性的自主操作。自動生成的自然語言解釋將促進在篩選大量低質量或重復的視覺數據時遇到的信息過載問題,迅速引起對非典型情況的注意。

將異常情況檢測的任務放在士兵由于可能對他們有危險的條件而無法穿越環境的場景中。此外,由于可用帶寬的限制和約束,接收環境的圖像或實時流可能是不可行的。因此,機器人隊友的作用就變成了在空間中導航,并通過簡潔和信息豐富的自然語言陳述或文本報告向士兵傳達信息。這種設想中的異常情況檢測技術的成功部署必須能夠:

  • 識別環境中與預期相矛盾的方面;
  • 詳細說明為什么這種方面是矛盾的,并提供預期狀態;
  • 推斷出至少一種可能導致偏差的合理可能性;以及
  • 推斷出至少一種合理的可能性,即由于偏差而可能發生的情況。

由ARL主持并通過國家安全創新網絡X-Force獎學金招募的兩名實習生組成的團隊花了10周時間探索這個問題的空間。在本報告中詳細介紹了貢獻:借鑒視覺異常檢測的相關工作,設計了一個異常分類法(第2和第3節);設計了兩個在虛擬環境中進行的實驗,根據分類法,這些實驗被操縱以表現出異常屬性(第4節);為異常檢測和解釋任務收集了一個人類語音和人類-機器人對話的小型語料庫(第5節);最后,設計了一個新的注釋模式,并將其應用于我們語料庫的一個子集(第6節)。

付費5元查看完整內容

約翰霍普金斯大學(JHU)與羅切斯特大學合作,致力于研究和開發分析技術,以支持一個更大的知識驅動的假設測試框架。該計劃的參與者負責合作開發一個數據處理框架,該框架從原始的非結構化內容(文本、圖像、帶有音頻的視頻)開始,將這些內容轉換為共享本體下的知識聲明,將各信息源的結果合并為一個知識圖譜,然后對該圖譜進行推理,提出可以從直接觀察到的內容中獲得的額外信息。我們,JHU的團隊,專注于這個過程的第一步。我們提出了一個框架,可以處理所有需要的輸入模式,但被選擇專注于多語言文本和語音(沒有計算機視覺)。我們作為一個獨立的團隊參與了該計劃的初始階段,提供分析結果作為NIST運行的全計劃評估的一部分。在第二階段,我們提供了較少的組件,只專注于文本。在項目評估期間,我們與BBN共享這些組件。在第三階段,我們的主要重點是在新提出的 "聲稱框架(claim frame) "任務下的數據注釋,這鍛煉了我們在眾包豐富語言注釋方面的背景。

我們提出了對語義分割的關注:對意義的細粒度多值化處理。由于該項目的共同目標和集中在一個單一的項目范圍內的本體,我們專注于針對共同任務的新的最先進的語言分析技術,以及針對項目本體之外的方面的新的分解性資源的開發。我們團隊的成果中值得注意的例子包括: 構建RAMs,這是第一個公開可用的多句子事件提取數據集;開發最先進的多語言核心推理模型,包括以固定內存量處理長文件的在線變體,以及專注于多人對話的新多語言數據集; 一個新的有監督的跨語言對齊方法,支持通過從英語到資源較少的語言的投射來自動創建訓練數據;一個句子級的轉述和數據增強的框架;在 "探測 "神經語言模型的新興科學方面的合作;以及開發新的分解資源和跨越一些新語言維度的分析。

引言

在過去的十年里,語言分析的技術水平已經迅速提高。DARPA AIDA發生時,文本分析的神經模型在準確性方面正在迅速突破。這始于對之前的統計NLP管道的改進,然后分析開始被訓練成 "端到端":模型不再需要部分語音標記、同步語法分析等等,以支持整體的語言理解過程。相反,模型直接在目標輸出上進行訓練,并假定在預訓練的語言模型的參數中捕獲足夠的語言特征。AIDA結束時,社區開始考慮方法上的另一個進步,即通過像GPT3這樣的大規模語言模型(LMs)的語境學習(提示-黑客),以及對生成性LMs的普遍關注。

JHU和合作伙伴羅切斯特大學對信息提取的神經模型的技術水平做出了貢獻,同時也對探測大型語言模型的新科學做出了貢獻。模型的新科學。利用我們在分解語義學的數據集創建方面的專長,開發了專門針對信息提取的新數據集。新的數據集,專門針對AIDA計劃的提取問題(特別是在事件提取和核心推理方面)。我們開發了分解語義學的新資源,在項目的最后階段,我們致力于新的倡議 了解如何對文本中的事實主張(所謂的 "主張框架")進行注釋。

在項目評估方面,我們努力滿足NIST及其合作伙伴不斷變化的要求。我們發現,在我們所關注的部分,特別是在多語種核心參考文獻的解決方面,我們經常具有競爭力,甚至優于其他執行者。由于管道要求和知識驅動的工作流程是在項目進行過程中臨時制定的,所以大家都認為在不同的執行者之間進行協調是不容易的,特別是在評估前后的時間敏感的情況下。不幸的是,這導致JHU對管道的貢獻往往是有限的:強大的分析組件并不總是在更大的原型框架中得到充分鍛煉。與正式的評估分開,我們建立了一個獨立的分析框架,并將其開源,重新發布給社區。這個 "LOME "包(大型本體多語言提取)在AIDA計劃之外的相關應用中被采用,并以該計劃所設想的任務需求為目標。我們在AIDA中的努力部分地導致了對其他相關項目的參與,包括DARPA KAIROS和IARPA BETTER,所有這些項目的主要重點都是增強語言技術的發展。

在下文中,我們將重點介紹我們在參與AIDA項目過程中出現的關鍵方法和結果。在有參考資料的地方,我們審查了提供進一步細節的科學文章。正如我們在總結中所說,我們的成果中值得注意的例子包括: 構建了RAMS,這是第一個公開可用的多句子事件提取數據集;開發了最先進的多語言核心推理模型,包括一個用固定內存處理長文檔的在線變體,以及一個專注于多人對話的新的多語言數據集; 一個新的有監督的跨語言對齊方法,支持通過從英語到資源較少的語言的投射來自動創建訓練數據;一個句子級的轉述和數據增強的框架;在 "探測 "神經語言模型的新興科學方面的合作;以及開發新的分解資源和跨越一些新的語言層面的分析。

付費5元查看完整內容

創造能夠適應人類的人工智能隊友的一個必要步驟是,開發能夠向人工智能系統表達人類目標和意圖的計算建模方法。用各種各樣的方法來實現這個目標是可能的,從基于過去數據的純粹預測模型到僅基于理論的生成模型。一種有希望的方法是所謂的從示范中學習的方法(Argall等人,2009;Ravichandar等人,2020),這種研究主旨是利用示范數據,如專家執行任務的行為,并訓練模型(通常被稱為 "智能體")來執行專家的任務。在本報告中,我們采用了從示范中學習的方法來模擬和預測模擬機器人在避撞的團隊任務中的行為。具體來說,我們采用了逆向強化學習(IRL)(Ng和Russell,2000年;Arora和Doshi,2021年),這是一種從演示中推斷獎勵函數的方法。

這項任務是基于一個研究性的視頻游戲,被用來研究人類自主性的團隊合作(Adamson等人,2017年),涉及一個由人類玩家和一個AI智能體共同控制的機器人。在沒有玩家輸入的情況下,AI智能體控制機器人,但玩家可以在任何時候推翻智能體,類似于現實世界中與自動駕駛助手一起駕駛的情況。這項任務對旨在模擬人類意圖的示范學習方法提出了挑戰,因為觀察到的任務行為來自兩個示范者的控制:一個是人類,一個是自動駕駛。例如,人類的行為可能是由對自己的目標的理解和對人工智能的目標的估計產生的。此外,當人工智能處于控制狀態時,所有關于人類的信息都是他們不提供輸入的,人類同意人工智能選擇的程度是隱藏的。

我們對這一特定任務的關注是由我們的團隊正在進行的工作所激發的,即利用激發這一任務的研究視頻游戲從參與者那里收集數據。最終,我們將嘗試模擬真實的人在長時間內的行為--每天玩180天--以促進適應性AI智能體的發展。這里描述的工作是對一種方法的驗證,這種方法將推動我們的團隊實現這一目標;然而,這種方法具有足夠的通用性,其核心概念可以應用于其他地方。

付費5元查看完整內容

人類-系統集成(HSI)度量貿易空間探索環境(HMTee)是一個方便的R Shiny應用程序,用于人類因素和HSI分析問題。它構成了確定相關HSI因素的定量準則和指標的數字參考,使從業人員能夠將分析結果可視化,并為決策者提供性能模擬的視覺證據。它允許分析員、研究人員或從業人員探索和記錄假設、參數和性能指標,并隨后在相互競爭的因素之間進行權衡。

本報告旨在為開發人員或其他具有技術專長的人提供技術文件,以了解HMTee的實施情況,并將其他軟件或HSI模型與HMTee的功能相結合。本指南包括對技術方法的概述,對與HMTee集成的模型所需組件的描述(即HMTee應用編程接口[API]),以及將與該工具集成的示范模型的文檔。本指南是美國陸軍作戰能力發展司令部(DEVCOM)分析中心的另一份報告的配套文件,該報告被稱為DAC,即HSI公制貿易空間探索環境(HMTee)。整合人類系統性能量化模型的范式(Garneau,2022)。本指南打算定期更新,并將最新版本與軟件分發一起維護。

付費5元查看完整內容

這個孵化器項目的目標是展示認知助手的概念證明,以支持美國防部(DOD)新成本估算師的培訓。認知助手(CA)在這里被定義為一種人工智能(AI)工具,通常有一個自然語言界面,通過從多個信息源檢索和處理相關信息,并在正確的時間提供給用戶,在特定的任務中增強人類的智力。它還具有學習和適應用戶和手頭問題的能力。

成本估算是一個復雜的迭代過程,包括各種步驟:收集所需的信息,選擇一個總體戰略和一個或多個現有模型,如果需要,開發新的模型(包括校準和驗證),進行估算,并酌情進行敏感性分析。在這些步驟中的每一個步驟中,初學者都面臨著挑戰,包括處理不完整的數據集,適當地評估新模型的性能,超越歷史有效范圍的預測,適當地報告圍繞一個點估計的不確定性水平,了解如何使用聯合成本-進度分布,等等。

目前,新的成本估算師的培訓主要是通過在現場教室的傳統教學進行的,因此這是一個耗時的過程。傳統的教學通常意味著減少了實踐學習的機會,而實踐學習是眾所周知的,可以提高學習效果。這種類型的教學也不是為每個人量身定做的,所以節奏對一些受訓者來說可能太快,對另一些人來說可能太慢。正如智能輔導系統在其他教育領域所展示的那樣,使用CA可以為每個人和每個地區提供更多的互動和定制的指導(Corbett等人,1997)。

使用人工智能工具來提高受訓者的學習能力的想法并不新鮮,已經被研究了幾十年(Ong & Ramachandran, 2003)。然而,在國防部采購的背景下,我們仍然處于將先進的人工智能工具納入工作流程的早期階段,特別是CA還沒有被作為培訓工具。以前在工作場所采用這種技術的嘗試之所以失敗,是因為底層機器學習模型的性能不足,以及用戶對這種互動模式的不熟悉。隨著CA在我們的日常生活中無處不在,以及最近我們在機器學習方面取得的重大進展,現在在工作場所注入這項技術的時機已經成熟。

本白皮書的其余部分描述了在這個項目中所做的工作。

我們對認知助手和智能輔導系統的相關文獻進行了回顧。結果在第2節中進行了總結。

這個CA的用例最初在高層次上被定義為為學員提供互動的實踐機會,以學習與估計一個復雜系統,即空間任務的生命周期成本有關的概念、方法和最佳做法。在整個項目中,我們與國防部的利益相關者合作,以完善這個用例。由此產生的用例在第3節中有更詳細的定義。

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容
北京阿比特科技有限公司