創造能夠適應人類的人工智能隊友的一個必要步驟是,開發能夠向人工智能系統表達人類目標和意圖的計算建模方法。用各種各樣的方法來實現這個目標是可能的,從基于過去數據的純粹預測模型到僅基于理論的生成模型。一種有希望的方法是所謂的從示范中學習的方法(Argall等人,2009;Ravichandar等人,2020),這種研究主旨是利用示范數據,如專家執行任務的行為,并訓練模型(通常被稱為 "智能體")來執行專家的任務。在本報告中,我們采用了從示范中學習的方法來模擬和預測模擬機器人在避撞的團隊任務中的行為。具體來說,我們采用了逆向強化學習(IRL)(Ng和Russell,2000年;Arora和Doshi,2021年),這是一種從演示中推斷獎勵函數的方法。
這項任務是基于一個研究性的視頻游戲,被用來研究人類自主性的團隊合作(Adamson等人,2017年),涉及一個由人類玩家和一個AI智能體共同控制的機器人。在沒有玩家輸入的情況下,AI智能體控制機器人,但玩家可以在任何時候推翻智能體,類似于現實世界中與自動駕駛助手一起駕駛的情況。這項任務對旨在模擬人類意圖的示范學習方法提出了挑戰,因為觀察到的任務行為來自兩個示范者的控制:一個是人類,一個是自動駕駛。例如,人類的行為可能是由對自己的目標的理解和對人工智能的目標的估計產生的。此外,當人工智能處于控制狀態時,所有關于人類的信息都是他們不提供輸入的,人類同意人工智能選擇的程度是隱藏的。
我們對這一特定任務的關注是由我們的團隊正在進行的工作所激發的,即利用激發這一任務的研究視頻游戲從參與者那里收集數據。最終,我們將嘗試模擬真實的人在長時間內的行為--每天玩180天--以促進適應性AI智能體的發展。這里描述的工作是對一種方法的驗證,這種方法將推動我們的團隊實現這一目標;然而,這種方法具有足夠的通用性,其核心概念可以應用于其他地方。
創造能夠適應人類同行的人工智能隊友的一個必要步驟是開發能夠向人工智能系統表達人類目標和意圖的計算建模方法。用各種各樣的方法來實現這個目標是可能的,從提供過去數據的純粹預測的模型到僅基于理論的生成模型。一種有希望的方法是所謂的從示范中學習的方法(Argall等人,2009;Ravichandar等人,2020),這種研究主旨是利用示范數據,如專家執行任務的行為,并訓練模型(通常被稱為 "智能體")來執行專家的任務。在本報告中,我們采用了從示范中學習的方法來模擬和預測模擬機器人在避免碰撞的團隊任務中的行為。具體來說,我們采用了逆向強化學習(IRL)(Ng和Russell,2000年;Arora和Doshi,2021年),這是一種從演示中推斷獎勵函數的方法。
這項任務是基于一個研究性的視頻游戲,被用來研究人類-自主性的團隊合作(Adamson等人,2017年),涉及一個由人類玩家和一個人工智能agent共同控制的機器人。在沒有玩家輸入的情況下,人工智能agent控制機器人,但玩家可以在任何時候推翻agent,類似于現實世界中與自動駕駛助手一起駕駛的情況。這項任務對旨在模擬人類意圖的示范學習方法提出了挑戰,因為觀察到的任務行為來自兩個示范者的控制:一個是人類,一個是自動駕駛。例如,人類的行為可能是由對自己的目標的理解和對人工智能的目標的估計產生的。此外,當人工智能處于控制狀態時,所有關于人類的信息都是他們不提供輸入的,人類對人工智能的選擇的同意程度是隱藏的。
我們對這一特定任務的關注是由我們的團隊正在進行的工作所激發的,即利用激發這一任務的研究視頻游戲從參與者那里收集數據。最終,我們將嘗試模擬真實的人在長時間內的行為--每天玩180天--以促進適應性AI代理的發展。這里描述的工作是對一種方法的驗證,這種方法將推動我們的團隊實現這一目標;然而,這種方法具有足夠的通用性,其核心概念可以應用于其他地方。
本報告全面總結了作為機器人語言項目的一部分所做出的貢獻,該項目是由美國陸軍作戰能力發展司令部陸軍研究實驗室牽頭,與南加州大學創意技術研究所和卡內基梅隆大學的研究人員合作開展的一項為期五年的倡議。特別是,本報告描述了在 "用智能系統進行共同理解和解釋的自然行為 "項目下資助的成就。這項研究的目標是為人們使用語言與機器人交流提供更自然的方式。愿景是使機器人能夠與人類隊友進行來回對話,機器人可以提供狀態更新,并在適當的時候要求澄清。為此,我們進行了四個分階段的實驗,在這些實驗中,人類參與者向遠程的機器人發出導航指令,而機器人的對話和導航過程最初由人類實驗者控制。在實驗過程中,自動化被逐步引入,直到對話處理完全由一個在以前的實驗中收集的數據上訓練出來的分類器驅動。
機器人語言項目的新貢獻包括:1)這種多階段的方法來收集無約束的自然語言,作為機器學習算法的訓練數據,以支持對話互動;2)收集對話和機器人數據的語料庫,并策劃成SCOUT語料庫(理解交易的情景語料庫);3)一系列完全自動化的、 3)一系列全自動的概念驗證系統,顯示了所采取的方法的技術前景,4)作為項目一部分創建的算法,現在構成了陸軍聯合理解和對話接口能力的基礎,使士兵和自主系統之間的對話互動成為可能,以及5)通過對話-AMR(抽象意義表示)形式主義在人類-機器人對話的指令語義方面的創新。
圖1 指揮官向機器人發出口頭指令,機器人的能力由兩個向導來執行,分別代表對話管理和機器人導航的能力。
這項研究的重點是通過采用對話作為交流模式,使士兵與智能體的互動,特別是與機器人等具身智能體的互動,既安全又更有效。對話,特別是使用自然語言的來回口頭對話,比傳統的圖形用戶界面有許多好處。其中,對話使智能體能夠在指令不明確時提示人類隊友進行澄清,并在任務完成后提供狀態更新。自然語言對話可以幫助實現智能智能體作為士兵身邊的隊友的愿景,提供士兵今天在完成任務時使用的直觀的無約束的交流模式。
以收集與智能體的自然對話為目標,我們希望采用一種實驗方法,使我們能夠解決以下問題: 1)智能體如何作為隊友與人類進行有效的交流,以完成共同的任務? 2)當人類指導機器人等智能體時,交流的協議如何能以智能體可以使用的形式,從人類那里引出自然的多樣性交流策略?為了回答這些問題,我們與陸軍大學附屬研究中心南加州大學創意技術研究所(USC ICT)的研究人員合作,通過實驗確定如何將開發智能虛擬人的方法適應于機器人。雖然物理機器人平臺是我們的主要任務,但我們的目標是確定可以推廣到各種可以從對話中受益的軟件智能體的方法。
在南加州大學ICT的SimSensei項目中,研究人員使用了一種我們稱之為數據驅動的 "Wizard-of-Oz"(DWoZ)的方法來觀察人類如何與他們認為是自主的虛擬化身聊天。實際上,他們在屏幕上看到的頭像是由人類 "巫師 "實驗者控制的。在與南加州大學ICT的合作中,我們的目標是評估這些貢獻是否可以擴展到自主系統,即地面機器人,以支持與人類隊友的合作搜索和導航任務。該項目由美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的資助項目 "與智能系統共同理解和解釋的自然行為 "贊助,對外稱為 "機器人語言 "項目,由一系列實驗組成,執行多階段實驗的設想,其中向導代表人工智能(AI)組件,在后期階段 "自動消失"。操作上的假設是,像移動機器人這樣的物理智能體的對話系統可以通過基于DWoZ的對話收集來訓練。
這項研究對對話、人機交互、人類因素和自然語言處理領域的新貢獻如下:
一種多階段的、經驗性的方法來收集機器學習算法的訓練數據,以支持與指向物理世界的智能體(如移動機器人)的對話互動(第4和第5節)。
一個對話和機器人數據的語料庫(Situated Corpus of Understanding Transactions [SCOUT]),作為告知智能體在協作搜索和導航任務中如何回應人類隊友的基礎(6.1節)。
在研究過程中開發的一系列完全自動化、端到端的概念驗證系統,顯示了使用DWoZ方法與智能體進行自然對話互動的技術前景(第6.2節)。
作為項目的一部分而創建的算法,現在構成了陸軍聯合理解和對話界面(JUDI)能力的基礎,使士兵和自主系統之間的對話互動得以實現(第6.3節)。
一套新穎的注釋方案,對指導智能體和控制機器人行為的向導實驗者之間的對話交流的結構、內容和語義進行建模(第6.4節)。
本報告的其余部分組織如下。第2節提供了相關工作的基本概述。第3節將先前的研究和本項目之前進行的預試驗研究與DWoZ設計的選定配置聯系起來。第4節概述了任務和實驗設置。第5節對實驗及其結果進行了高水平的描述。最后,第6節討論了項目的影響,第7節是衡量標準,第8節是總結性意見。
由于沒有足夠快地開發和部署人工智能(AI),美國在常規戰斗中面臨被超越的風險。對手,特別是中國,正在擁抱人工智能,并試圖利用所認為的美國弱點。中國計劃到2030年成為人工智能的世界領導者,并繼續在其民用和軍用部門大量投資于人工智能能力。使用致命性自主武器(LAWS)是不可避免的,并正在所有領域發展這種能力。人工智能是一種力量倍增器,但美國對在戰斗中使用致命性自主武器感到不安。中國和美國對未來的人工智能應用有著截然不同的戰略。為了使美國軍隊既能最大限度地發揮人工智能的全部潛力,又能維護國際法治,在未來的大規模沖突中,人-智能體(H-A)編隊合作是必不可少的。
雖然人工智能是一種力量倍增器,但美國的政策制定者和軍事指揮官目前對在未來的戰斗中使用致命性自主武器系統感到憂慮。如果一個或多個對手對美國或其盟國部署致命性自主武器系統,這一政策可能會引起爭論。解決這個問題的一個潛在辦法是將人工智能與人類對應方組合起來。人-智能體(H-A)團隊是一個網絡,其中智能系統(智能體)和人在一個小組內有效合作,通過加強彼此的強項和預測彼此的弱點來創造協同效應。團隊合作的特點和屬性因模型而異,但貫穿始終的一個概念是相互依賴的重要性。H-A團隊合作取決于人與人工智能系統之間的這種相互依存關系,才能取得成功。
DeepMind之前提到的AlphaGo是一個完美的例子,說明如何有效地將人工智能與人類同行配對。2017年,也就是AlphaGo第二次擊敗圍棋世界冠軍的那一年,兩名人類專業人士與人工智能系統結成了伙伴。在 "配對圍棋 "中,人類和AlphaGo交替下棋,每個人都必須學習和適應他們的隊友正在下的棋。這種耦合使人類能夠從他們的人工智能對手那里學習,成為更好的棋手。與AlphaGo配對的中國圍棋大師連笑解釋說:"AlphaGo非常自信,他也給了我信心。他幫助我相信我應該掌好舵"。雖然人類在AlphaGo手中的失敗讓一些人感到失望,但這實際上是一種變相的祝福。H-A組隊有可能增強,甚至可能改善人類目前的能力。
本文將試圖回答美軍將如何利用人工智能和H-A團隊合作,為未來10到20年的大規模戰斗做準備。為了使美國軍隊既能最大限度地發揮人工智能的潛力,又能維護國際法治,H-A團隊合作在未來的沖突中是必不可少的。通過理論、歷史、條令、已完成的研究項目和潛在的未來情景,這項研究將有助于回答人工智能在美國軍事行動中的未來是什么樣子。證據將集中在利用自主武器系統(AWS)和人工智能的積極和消極方面。
本文還將探討H-A組隊的能力,以及當兩者結合在一起時,性能是否會提高。研究結果將解決 "終結者難題 "的可能性,特別是在自主機器提供明顯優勢的情況下是否使用它們。雖然這個話題相對較新,但有許多關于人工智能研究和在美國軍隊中使用的書籍、期刊文章和新聞報道。研究將擴展這一主題,并提出在未來戰場上人工智能和人類合作的方式。人工智能有可能引領下一次軍事事務的革命(RMA);然而,除非人工智能成為人類有效團隊的一部分,否則美國無法在大規模戰斗中充分發揮其潛力。
本報告介紹了在三個主要議題方面取得的成果:
對小型無人機系統(SUAS)的分布式團隊進行實驗驗證,以協調執行復雜的行為。
開發了一個現實的多架無人機模擬器,以應用強化學習技術來協調一組小型無人機系統以達到特定目的。
設計并驗證了安裝在無人機上的帶有主動多輸入多輸出(MIMO)毫米波雷達傳感器的融合光學相機。
與驗證SUAS團隊有關的工作提出并實驗測試了我們的態勢感知、分布式SUAS團隊所使用的框架,該團隊能夠以自主方式實時運行,并在受限的通信條件下運行。我們的框架依賴于三層方法:(1)操作層,在這里做出快速的時間和狹窄的空間決定;(2)戰術層,在這里為智能體團隊做出時間和空間決定;以及(3)戰略層,在這里為智能體團隊做出緩慢的時間和廣泛的空間決定。這三層由一個臨時的、軟件定義的通信網絡協調,即使在通信受限的情況下,也能確保各層的智能體小組和團隊之間的信息傳遞稀少而及時。實驗結果顯示,一個由10個小型無人機系統組成的團隊負責在一個開放區域搜索和監測一個人。在操作層,我們的用例介紹了一個智能體自主地進行搜索、探測、定位、分類、識別、跟蹤和跟蹤該人,同時避免惡意碰撞。在戰術層,我們的實驗用例介紹了一組多個智能體的合作互動,使其能夠在更廣泛的空間和時間區域內監測目標人物。在戰略層,我們的用例涉及復雜行為的檢測--即被跟蹤的人進入汽車并逃跑,或者被跟蹤的人離開汽車并逃跑--這需要戰略反應以成功完成任務。
目標搜索和檢測包括各種決策問題,如覆蓋、監視、搜索、觀察和追逐-逃避以及其他問題。我們開發了一種多智能體深度強化學習(MADRL)方法來協調一組飛行器(無人機),以定位未知區域內的一組靜態目標。為此,我們設計了一個現實的無人機模擬器,它復制了真實實驗的動態和擾動,包括從實驗數據中提取的統計推斷,用于其建模。我們的強化學習方法,利用這個模擬器進行訓練,能夠為無人機找到接近最優的政策。與其他最先進的MADRL方法相比,我們的方法在學習和執行過程中都是完全分布式的,可以處理高維和連續的觀察空間,并且不需要調整額外的超參數。
為了給在受限通信條件下運行的SUAS開發一個分布式的分類和協調框架,我們的第一個目標是在無人駕駛飛行器(UAV)上建立一個多傳感器系統,以獲得高探測性能。眾所周知,安裝在無人機上的光學和熱傳感器已被成功用于對難以進入的區域進行成像。然而,這些傳感器都不提供關于場景的范圍信息;因此,它們與高分辨率毫米波雷達的融合有可能改善成像系統的性能。我們提出了一個配備了無源光學攝像機和有源多輸入多輸出(MIMO)毫米波雷達傳感器的下視無人機系統的初步實驗結果。毫米波雷達的三維成像是通過收集通過運動線的數據來實現的,從而產生一個合成孔徑,并使用垂直于運動軌跡的結線MIMO陣列。我們的初步結果顯示,融合的光學和毫米波圖像提供了形狀和范圍信息,最終導致無人機系統的成像能力增強。
指揮官可以通過將人工智能與他們的直覺和經驗相結合,做出更快、更明智的作戰役級決策。本文研究了作戰指揮官如何依靠他們的下級指揮官和強大的參謀人員來收集和分析信息,以提供建議來幫助指揮部決策。如果信息不充分或存在不確定性,指揮官就依靠他們的直覺和經驗來填補空白。目前決策過程中的每個變量都有局限性,其中大數據分析、機器學習和神經網絡的人工智能技術有助于指揮官的決策。本文介紹了在博伊德上校的觀察、定向、決定和行動(OODA)循環中合成的指揮官-人工智能決策模型(CAIDMM),以獲得對對手的明顯優勢。最后,本文研究了 "是什么 "和 "為什么 "作戰指揮官必須使用CAIDMM,以便在當今的大國競爭中獲得對近似競爭對手的戰略優勢。
CAIDMM從觀察階段開始,如圖3所示。在這個階段,指揮官收集所有可用的信息和數據。人工智能通過大數據分析對這一過程進行補充,大數據分析的重點是衛星和傳感器圖像、流媒體數據、社交媒體數據、手機GPS數據以及將被納入外部觀察的關系數據。至關重要的是,"大數據 "是結構化的,具有一定形式的網絡保護的彈性,以確保輸入的安全是合法的信息。神經網絡也會接受額外的輸入,如指令指導、展開的情況以及與環境的互動。這個階段實現了兩個目標。首先,收集大量的數據來分析一個結構化的問題。第二,非結構化的數據被提交給機器學習算法,以綜合、定向并向指揮官做出預測。
CAIDMM的第二步是定向階段。對原始統計資料、數據和信息進行分析、評估和優先排序,以向指揮官提供洞察力。具體來說,在支持他們的指揮官和工作人員的協助下,指揮官結合文化傳統、遺傳遺產和作戰經驗來確定問題的方向。同時,大數據分析法從觀察到的數據中提取價值和知識。方向階段根據工作人員的考慮增加了新的信息,作為機器學習和神經網絡的輸入,因為將數據合成為一個解決方案是未知的。基于定向階段內的互動,指揮官從人類和人工智能這兩個角度獲得知識。這些視角能更好地為指揮官的決策提供信息。
在CAIDMM中,如果問題是無結構的,則由指揮官決定。如果問題是結構化的,則由人工智能決定。在任何一種情況下,人工智能都可以根據決策選擇的數量來補充指揮官的工作。確認法和探索法是人工智能對指揮官的非結構化決策的兩種補充方式。確認法用于指揮官做出直觀的決定,然后使用人工智能來分析和完善解決方案。而探索式方法允許人工智能做出決定,指揮官使用他們的直覺來完善解決方案。
在確認法中,指揮官根據目標和期望的最終狀態做出直觀的決定。確認法在決策選擇數量有限的情況下最有用。如果人工智能同意所提出的最佳解決方案,指揮官就可以執行該決定。下至DL和神經網絡的ML可以使用分類和回歸分析、聚類、異常檢測、對抗性網絡和盲目的信號分離來評估決策。如果人工智能出現矛盾或產生不確定的結果,指揮官會根據可用時間采取兩種行動。如果時間和條件允許,指揮官重新評估更多的解決方案,確認輸入AI的數據,并尋求解釋,直到達成一個滿意的結果。如果時間不允許,指揮官應該根據他們的專業知識和直覺做出決定,因為在非結構化的任務中,研究證明直覺決定勝過人工智能的分析方法。
相比之下,當一項決策有許多備選方案時,指揮官可以使用探索法。這種方法允許指揮官利用大量的數據,讓人工智能首先確定幾組決策備選方案,然后由指揮官進行評估。大數據分析、無監督ML和網絡可以縮小決策選項的范圍,為指揮官提供幾個行動方案,讓指揮官從中選擇。接下來,如果指揮官的直覺與提議的行動之一相一致,他就會執行決定。如果不是,根據時間,指揮官根據他們的專業知識進行,或重新啟動決策過程,直到可以采取行動。
CAIDMM最重要的部分是要求持續的反饋,以允許人類和人工智能算法的發展。指揮官的決定產生二階和三階效應,必須反饋到隨后的觀察階段周期。此外,神經網絡會根據特定指揮官的想法和直覺進行演變,從而不斷發展,并有可能提供更完善的針對指揮官的解決方案。博伊德的OODA循環,在其起步階段,并不是為了成為一個機械的循環,而是為了進入對手的思想和決策循環的一種手段。CAIDMM必須是循環的,以利用數據做出更明智、更有效、更快速的決策。該模型還在決策矩陣中提出了兩個關鍵因素:時間和不確定性。CAIDMM的目標是在時間限制內盡可能地減少不確定性,以選擇最合適的行動方案。
先進的人工智能系統無法成為唯一的決策權威,這強調了將人類專業知識與人工智能能力相結合的重要性。在第二次世界大戰中,圖靈的 "Bombe "每天破譯了數千條納粹加密信息,而杰出的數學家和密碼破譯者只破譯了幾條。最重要的是,Bombe機器為指揮官提供了可操作的情報,使艦隊指揮官能夠做出快速、明智和果斷的決定,通過避免或攻擊德國 "狼群 "U型潛艇來挽救他們在大西洋的后勤保障。今天的大國競爭取決于控制、傳播和處理來自所有領域的大量數據。這些數據的速度和數量超過了人類的認知能力,無法做出有效的知情決策。人工智能使作戰指揮官能夠管理和分析大型數據集以支持決策。人類和人工智能技術可以合作處理決策的不同方面。人工智能很適合使用分析方法來處理復雜的問題。人類的認知更適合于更多地關注不確定性和平衡性,使用更多的創造性、直觀性和基于經驗的決策。指揮官和人工智能可以隨著業務的發展而發展。這兩個實體都成為學習型組織,一個提供分析數據,另一個提供決策的操作 "藝術",兩者都在作戰環境中不斷發展。指揮官-人工智能決策模型描述了人工智能如何補充指揮官的決策過程,并為作戰指揮官整合人工智能技術提供了一個矩陣。
自動化使系統能夠執行通常需要人類投入的任務。英國政府認為自動化對保持軍事優勢至關重要。本論文討論了當前和未來全球自動化的應用,以及它對軍事組織和沖突的影響。同時還研究了技術、法律和道德方面的挑戰。
許多軍事系統都有自動化的特點,包括執行物理任務的機器人系統,以及完全基于軟件的系統,用于數據分析等任務。自動化可以提高某些現有軍事任務的效率和效力,并可以減輕人員的 "枯燥、骯臟和危險 "的活動。 許多專家認為,自動化和自主性是與系統的人類監督水平有關的,盡管對一些系統的定位存在爭議,而且對系統是否應被描述為 "自動化 "或 "自主 "可能存在分歧。英國防部在其 "自主性譜系框架 "中概述了5個廣泛的自主性水平,從 "人類操作 "到 "高度自主"。一個系統可能在不同的情況下有不同的操作模式,需要不同程度的人力投入,而且只有某些功能是自動化的。方框1概述了本公告中使用的定義。
方框1:該領域的術語并不一致,關鍵術語有時可以互換使用。
自動化系統。自動系統是指在人類設定的參數范圍內,被指示自動執行一組特定的任務或一系列的任務。這可能包括基本或重復的任務。
自主系統。國防科學與技術實驗室(Dstl)將自主系統定義為能夠表現出自主性的系統。自主性沒有公認的定義,但Dstl將其定義為 "系統利用人工智能通過自己的決定來決定自己的行動路線的特點"。自主系統可以對沒有預先編程的情況作出反應。
無人駕駛車輛。朝著更高水平的自主性發展,使得 "無人駕駛 "的車輛得以開發,車上沒有飛行員或司機。有些是通過遠程控制進行操作,有些則包括不同程度的自主性。最成熟的無人駕駛軍事系統是無人駕駛航空器,或稱 "無人機",其用途十分廣泛。
人工智能。人工智能沒有普遍認同的定義,但它通常是指一套廣泛的計算技術,可以執行通常需要人類智慧的任務(POSTnote 637)。人工智能是實現更高水平的自主性的一項技術。
機器學習:(ML,POSTnote 633)是人工智能的一個分支,是具有自主能力的技術的最新進展的基礎。
英國政府已經認識到自主系統和人工智能(AI,方框1)的軍事優勢以及它們在未來國防中可能發揮的不可或缺的作用。在其2021年綜合審查和2020年綜合作戰概念中,它表示致力于擁抱新的和新興的技術,包括自主系統和人工智能。2022年6月,英國防部發布了《國防人工智能戰略》,提出了采用和利用人工智能的計劃:自動化將是一個關鍵應用。在全球范圍內,英國、美國、中國和以色列擁有一些最先進的自主和基于AI的軍事能力。方框2中給出了英國和全球活動的概述。
方框2:英國和全球活動
英國 英國政府已表明其投資、開發和部署用于陸、海、空和網絡領域軍事應用的自主和人工智能系統的雄心。最近的投資項目包括NELSON項目,該項目旨在將數據科學整合到海軍行動中;以及未來戰斗航空系統,該系統將為皇家空軍提供一個有人員、無人員和自主系統的組合。在2021年綜合審查發表后,政府成立了國防人工智能中心(DAIC),以協調英國的人工智能國防技術的發展。這包括促進與學術界和工業界的合作,并在紐卡斯爾大學和埃克塞特大學以及艾倫-圖靈研究所建立研究中心。
全球背景 對自主軍事技術的投資有一個全球性的趨勢:25個北約國家已經在其軍隊中使用一些人工智能和自主系統。有限的公開信息給評估軍隊的自主能力帶來了困難,但已知擁有先進系統的國家包括。
俄羅斯和韓國也在大力投資于這些技術。在俄羅斯,機器人技術是最近成立的高級研究基金會的一個重點,該基金會2021年的預算為6300萬美元。
自主系統可以被設計成具有多種能力,并可用于一系列的應用。本節概述了正在使用或開發的軍事應用系統,包括情報、監視和偵察、數據分析和武器系統。
自動化正越來越多地被應用于情報、監視和偵察(ISR),通常使用無人駕駛的車輛(方框1)。無人駕駛的陸上、空中和海上車輛配備了傳感器,可以獲得數據,如音頻、視頻、熱圖像和雷達信號,并將其反饋給人類操作員。一些系統可以自主導航,或自主識別和跟蹤潛在的攻擊目標。英國有幾架ISR無人機在服役,還有一些正在試用中。這些無人機的范圍從非常小的 "迷你 "無人機(其重量與智能手機相似)到可以飛行數千英里的大型固定翼系統。英國正在試用的一個系統是一個被稱為 "幽靈 "無人機的迷你直升機,它可以自主飛行,并使用圖像分析算法來識別和跟蹤目標。無人駕駛的水下航行器被用于包括地雷和潛艇探測的應用,使用船上的聲納進行自主導航。這些車輛還可能配備了一種技術,使其能夠解除地雷。
許多軍事系統收集了大量的數據,這些數據需要分析以支持操作和決策。人工智能可用于分析非常大的數據集,并分辨出人類分析員可能無法觀察到的模式。這可能會越來越多地應用于實地,為戰術決策提供信息,例如,提供有關周圍環境的信息,識別目標,或預測敵人的行動。英國軍隊在2021年愛沙尼亞的 "春季風暴 "演習中部署了人工智能以提高態勢感知。美國的Maven項目旨在利用人工智能改善圖像和視頻片段的分析,英國也有一個類似的項目,利用人工智能支持衛星圖像分析。
以自動化為特征的武器系統已被開發用于防御和進攻。這些系統包括從自動響應外部輸入的系統到更復雜的基于人工智能的系統。
防御系統。自動防空系統可以識別和應對來襲的空中威脅,其反應時間比人類操作員更快。這種系統已經使用了20多年;一份報告估計有89個國家在使用這種系統。目前使用的系統可以從海上或陸地發射彈藥,用于應對來襲的導彈或飛機。英國使用Phalanx CIWS防空系統。雖然沒有在全球范圍內廣泛采用,但以色列將固定的無機組人員火炮系統用于邊境防御,并在韓國進行了試驗。這些系統能夠自動瞄準并向接近的人或車輛開火。
導向導彈。正在使用的進攻性導彈能夠在飛行中改變其路徑,以達到目標,而不需要人類的輸入。英國的雙模式 "硫磺石"(DMB)導彈于2009年首次在阿富汗作戰中使用,它可以預先設定搜索特定區域,利用傳感器數據識別、跟蹤和打擊車輛。
用于武器投送的無人平臺。為武器投送而設計的無人空中、海上和陸地運載工具可以以高度的自主性運行。這些系統可以自主地搜索、識別和跟蹤目標。大多數發展都是在空中領域。英國唯一能夠自主飛行的武裝無人機是MQ-9 "收割者",但有幾個正在開發中。英國防部還在開發 "蜂群 "無人機(方框3)。雖然存在技術能力,但無人駕駛的進攻性武器并不用于在沒有人類授權的情況下做出射擊決定;報告的例外情況很少,而且有爭議。 自主系統在識別目標和作出射擊決定方面的作用,是廣泛的倫理辯論的主題(見下文)。
方框3:無人機蜂群
無人機蜂群是指部署多個能夠相互溝通和協調的無人機和人員,以實現一個目標。在軍事環境中,蜂群可能被用來監視一個地區,傳遞信息,或攻擊目標。2020年,英國皇家空軍試驗了一個由一名操作員控制的20架無人機群,作為Dstl的 "許多無人機做輕活 "項目的一部分。蜂群技術還沒有廣泛部署。據報道,以色列國防軍于2021年首次在戰斗中使用無人機蜂群。
自動化技術和人工智能的擴散將對英國軍隊產生各種影響,包括與成本和軍事人員的角色和技能要求有關的影響。對全球和平與穩定也可能有影響。
一些專家表示,從長遠來看,軍事自動化系統和人工智能可能會通過提高效率和減少對人員的需求來降低成本。然而,估計成本影響是具有挑戰性的。開發成本可能很高,而且回報也不確定。提高自動化和人工智能方面的專業知識可能需要從提供高薪的行業中招聘。軍隊可能不得不提高工資以進行競爭,英國防部將此稱為 "人工智能工資溢價"。
自動化可能會減少從事危險或重復性任務的軍事人員數量。然而,一些軍事任務或流程,如高層戰略制定,不太適合自動化。在許多領域,自主系統預計將發揮對人類的支持功能,或在 "人機團隊 "中與人類合作。專家們強調,工作人員必須能夠信任與他們合作的系統。一些角色的性質也可能會受到自動化的影響,所需的技能也是如此。例如,對具有相關技術知識的自主系統開發者和操作者的需求可能會增加。英國防部已經強調需要提高整個軍隊對人工智能的理解,并承諾開發一個 "人工智能技能框架",以確定未來國防的技能要求。一些利益相關者對自動化對軍事人員福祉的影響表示擔憂,因為它可能會限制他們的個人自主權或破壞他們的身份和文化感。
人員對自動化的態度:
關于軍事人員對自動化的態度的研究是有限的。2019年對197名英國防部人員的研究發現,34%的人對武裝部隊使用可以使用ML做出自己的決定的機器人有普遍積極的看法,37%的人有普遍消極的態度。有報道稱,人們對某些自主武器系統缺乏信任,包括在2020年對澳大利亞軍事人員的調查中。在這項研究中,30%的受訪者說他們不愿意與 "潛在的致命機器人 "一起部署,這些機器人在沒有人類直接監督的情況下決定如何在預定的區域使用武力。安全和目標識別的準確性被認為是兩個最大的風險。有證據表明,信任程度取決于文化和熟悉程度。
一些專家提出了這樣的擔憂:在武器系統中越來越多地使用自主權,有可能使沖突升級,因為它使人類離開了戰場,減少了使用武力的猶豫性。蘭德公司最近的一份戰爭游戲報告(上演了一個涉及美國、中國、日本、韓國和朝鮮的沖突場景)發現,廣泛的人工智能和自主系統可能導致無意中的沖突升級和危機不穩定。這部分是由于人工智能支持的決策速度提高了。升級也可能是由自動系統的非預期行為造成的。
還有人擔心,由于自動化和基于人工智能的技術變得更便宜和更豐富,非國家行為者更容易獲得這種技術。這些團體也可能獲得廉價的商業無人機,并使用開放源碼的人工智能對其進行改造,以創建 "自制 "武器系統。關于非國家行為者使用自主系統的報告是有限的和有爭議的。然而,非國家團體確實使用了武裝無人機,而且人們擔心人工智能會使這種系統更加有效。
正在進行的包括機器人和人工智能在內的技術研究,主要是由商業驅動的,預計將增加自動化系統的應用范圍和采用程度。該領域的一些關鍵技術挑戰概述如下。一個更普遍的挑戰是,相對于數字技術的快速發展,軍事技術的發展速度緩慢,有可能在部署前或部署后不久組件就會過時。
無人駕駛的車輛和機器人經常需要向人員傳輸數據或從人員那里接收數據。這可以讓人類監督和指導它們的運作或接收它們收集的數據。在某些情況下,系統也可能需要相互通信,如在無人機群中(方框3)。軍方通常使用無線電波在陸地上傳輸數據,其帶寬(頻率的可用性)可能有限。在傳輸大量數據,如高分辨率圖像時,這可能是個問題。5G技術(POSTbrief 32)可能會促進野外更有效的無線通信。系統之間的無線電通信可以被檢測到,提醒對手注意秘密行動。對手也可能試圖阻止或破壞系統的通信數據傳輸。目前正在研究如何最大限度地減少所需的數據傳輸和優化數據傳輸的方法。更多的 "板載 "或 "邊緣 "處理(POSTnote 631)可以減少傳輸數據的需要。然而,減少通信需要系統在沒有監控的情況下表現得像預期的那樣。
具有更高水平的自主性的更復雜的系統通常在運行時在船上進行更多的數據處理和分析。這要求系統有足夠的計算能力。一般來說,一個系統能做多少嵌入式數據處理是有限制的,因為硬件會占用空間并需要額外的電力來運行。這可能會限制需要電池供電運行的系統的敏捷性和范圍。然而,人工智能的進步也可能使系統更有效地運行,減少計算要求。由于未來軟件、算法和計算機芯片技術的進步,計算機的處理能力也有望提高。
創建和整理與軍事應用相關的大型數據集,對生產可靠的人工智能自主系統非常重要。機器學習(ML,方框1)依賴于大型數據集來訓練其基礎算法,這些數據可以從現實世界中收集,或者在某些情況下,使用模擬生成。一般來說,用于訓練ML系統的數據越有代表性、越準確、越完整,它就越有可能按要求發揮作用。準備訓練數據(分類并確保其格式一致)通常需要手動完成,并且是資源密集型的。
數據隱私:
一些人工智能系統可能會在民用數據上進行訓練。人們普遍認為,如果使用與個人有關的數據,他們的隱私必須得到保護。這可以通過對個人數據進行匿名化處理或只分享經過訓練的人工智能系統來實現。
由計算機軟件支撐的系統數量的增加增加了網絡攻擊的機會。網絡攻擊者可能試圖控制一個系統,破壞其運作,或收集機密信息。基于人工智能的系統也可以通過篡改用于開發這些系統的數據而遭到破壞。英國防部在2016年成立了網絡安全行動中心,專注于網絡防御。在英國,2021年成立的國防人工智能中心,有助于促進行業伙伴或其他合作者對高度機密數據的訪問。
重要的是,軍事系統要可靠、安全地運行,并符合法律和法規的規定。人工智能和自動化給傳統軟件系統帶來了不同的測試和保證挑戰。 進一步的挑戰來自于ML的形式,它可能不可能完全理解輸出是如何產生的(POSTnote 633)。人工智能軟件可能還需要持續監測和維護。利益相關者已經強調缺乏適合的測試工具和流程,并正在開發新的工具和指南。英國政府的國防人工智能戰略致力于建立創新的測試、保證、認證和監管方法。
目前還沒有專門針對將自動化或人工智能用于軍事應用的立法。雖然它們在戰爭中的使用受現有的國際人道主義法的約束,但這與新技術的關系是有爭議的。在國家和國際層面上有許多關于人工智能更普遍使用的準則,這些準則可以適用于自動化系統。然而,2021年數據倫理與創新中心(CDEI)的人工智能晴雨表研究發現,工業界很難將一般的法規適應于特定的環境。2022年,英國防部與CDEI合作發布了在國防中使用人工智能的道德原則。
一些利益相關者強調,如果自主系統的行為不合法或不符合預期,那么它的責任是不明確的。這可能導致系統及其決定與設計或操作它的人類之間出現 "責任差距",使法律和道德責任變得復雜。英國防部的原則說,在人工智能系統的整個設計和實施過程中,應該有明確的責任。國防人工智能戰略為供應商設定了類似的期望。
這一領域的大部分法律和道德辯論都集中在武器系統上。然而,某些非武裝系統(例如,基于軟件的決策支持工具)可能在識別目標方面發揮關鍵作用,因此提出了許多與那些同時部署武器的系統相同的道德問題。
國際上對 "致命性自主武器系統"(LAWS)的使用存在著具體的爭論。這個術語沒有普遍認同的定義,它被用來指代具有不同自主能力的廣泛的武器。關于使用致命性自主武器系統的報告存在很大爭議,例如,由于系統使用模式的不確定性。 聯合國《特定常規武器公約》(CCW)自2014年以來一直在討論致命性自主武器系統的可能立法。它在2019年發布了指導原則,但這些原則沒有約束力,也沒有達成進一步的共識。雖然大多數參加《特定常規武器公約》的國家支持對致命性自主武器進行新的監管,但包括英國、美國和俄羅斯在內的其他國家認為,現有的國際人道主義法已經足夠。根據運動組織 "阻止殺手機器人"(SKR)的說法,83個國家支持關于自主武器系統的具有法律約束力的文書,12個國家不支持。
許多利益相關者認為,必須保持人類對武器和瞄準系統的某種形式的控制,才能在法律和道德上被接受。某些組織,如SKR,呼吁禁止不能由 "有意義的人類控制 "的自主武器系統,并禁止所有以人類為目標的系統。他們還呼吁制定法規,確保在實踐中保持足夠的人為控制。在其2022年國防人工智能戰略中,英國政府表示,識別、選擇和攻擊目標的武器必須有 "適當的人類參與"。作為回應,一些呼吁監管的非政府組織表示,需要更加明確如何評估或理解 "適當的人類參與"。包括英國政府在內的利益相關者建議的維持人類控制的潛在措施包括限制部署的時間和地理范圍。被認為會破壞人類控制的因素包括人類做出決定的有限時間和 "自動化偏見",即個人可能會過度依賴自動化系統,而不太可能考慮其他信息。
大多數關于軍事自動化的公眾意見調查都集中在自主武器系統上。SKR委托對28個國家的19,000人進行了民意調查。62%的受訪者反對使用致命性武器系統;這一數字在英國是56%。關于公眾對人工智能、數據和更廣泛的自動化的態度的研究發現,公眾關注的主要問題包括數據安全、隱私和失業。然而,公眾的觀點會因系統的功能和使用環境的不同而有很大差異。
2022 年 10 月 11 日,美國陸軍發布了一份綜合數據計劃(ADP),這是一種全軍范圍內改進數據管理以確保陸軍成為以數據為中心的組織的方法。
該計劃是一項為期三年的工作,將改善整個陸軍的數據管理、數據治理和數據分析。作戰任務是陸軍數據計劃的當前重點。ADP 在該任務領域的成果是通過進行必要的更改來確保作戰人員的數據得到正確管理和使用,從而為作戰人員提供優勢。陸軍已經開始對數據管理能力、工具和模型進行原型設計,以實現這一目標。
陸軍首席信息官 Raj Iyer 博士說:“數據以及如何在所有梯隊中整合這些數據以實現真正快速、敏捷的決策,才是真正為陸軍提供其在未來戰爭中所需的競爭優勢的關鍵。”
數據和數據分析將為 2030 年的陸軍提供動力。士兵將需要在正確的時間和正確的地點獲得正確的數據,以便在每個梯隊做出更快、更好的決策——以超越任何對手的思維和步伐。
與早期的軍事行動相比,現在的戰爭范圍更大且范圍不斷擴大。作為聯合全域作戰的一部分,多域作戰是陸軍必須準備并贏得下一場戰斗的地方。這是一個數據豐富的環境。
每個領域都有自己的信息和數據流,一些信息來自開源情報,一些來自天基傳感器,還有一些來自網絡空間。今天的士兵和指揮官需要跨領域的綜合來主宰戰場。
ADP 概述了工作的組織并提供了總體戰略目標。它側重于中期努力,未來將被另一個更新所取代。
通過陸軍數據計劃實現這一決策優勢是陸軍的關鍵目標。
本報告描述了2020財年在美國陸軍作戰能力發展司令部陸軍研究實驗室的主任戰略倡議(DSI)項目《人工智能(AI)用于多域作戰(MDO)的指揮和控制(C2)》下進行的工作。多域作戰的速度和復雜性要求在高度活躍的環境中對近似對手進行高速決策和執行,這往往可能超出人類的認知能力。最近,新興的人工智能技術,如深度強化學習(DRL),在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中的表現超過了人類世界冠軍。這表明這種人工智能有可能對MDO的C2做出貢獻。然而,關于這種新的人工智能技術的行為和限制的許多問題仍未得到解答。作為DSI的一部分,我們正在研究DRL是否可以支持未來多域部隊的敏捷和適應性C2,這將使指揮官和工作人員能夠迅速有效地利用轉瞬即逝的優勢窗口。在第一年,我們開發了兩個新的C2測試平臺,并在這些測試平臺上進行了基于DRL的學習。本報告包括項目的概述,并展示了初步的研究成果,其中一個“人造指揮官”在模擬的旅級戰斗中執行了一個綜合規劃-執行過程。
同行對手多域作戰(MDO)的速度和復雜性可能會超過人類指揮員在傳統的、主要是人工指揮和控制(C2)過程中的認知能力。同時,人工智能(AI)技術的新成果,如深度強化學習(DRL),開始顯示出有可能支持多域作戰的指揮與控制。過去兩年的發現表明,基于DRL的算法可以在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中勝過人類世界冠軍。通過這些突破,強化學習(RL)已經證明了人工智能在復雜游戲中開發和實施多層策略后控制多個智能體的潛力。未來MDO作戰指揮的特點是在非結構化的任務領域內具有高度的復雜性,這與復雜的游戲模擬環境有一些相似之處。因此,將基于人工智能的方法擴展到軍事領域,可能為提高戰斗指揮能力提供了重要的可能性。
本報告中描述項目的長期意圖并不新鮮。在過去的幾十年里,有許多想法和相應的研究,旨在開發自動化或半自動化的工具,以支持規劃和執行軍事行動的決策。以下是過去在這一領域的一些工作,本報告的一些作者親自參與了這些工作。
美國國防部高級研究計劃局(DARPA)的聯合部隊空中部分指揮官(JFACC)項目在20世紀90年代末進行,為聯合空戰的敏捷管理開發了一些概念和原型。當時考慮的大多數方法涉及各種航空資產的路線和活動的持續實時優化和再優化(隨著情況的不斷變化)。同樣在20世紀90年代中后期,陸軍資助了行動方案開發和評估工具(CADET)項目,該項目探討了經典的分層規劃的潛在效用,該計劃適用于對抗性環境,可以將高水平的戰斗草圖轉化為詳細的同步矩陣--這是理論上的軍事決策過程(MDMP)的關鍵產品。在21世紀初,DARPA啟動了實時對抗性情報和決策(RAID)項目,該項目探索了一些預測敵方作戰規劃的技術,以及動態地提出友好的戰術行動。在所探索的技術方法中,博弈求解算法是最成功的。
2000年代末,DARPA的沖突建模、規劃和結果實驗(COMPOEX)計劃探討了多個領域的作用及其非常復雜的相互作用--除了傳統的動能戰斗,還有政治、經濟和社會影響。該計劃研究了相互關聯的模擬子模型的使用,主要是系統動力學模型,以協助高級軍事和文職領導人在復雜的作戰環境中規劃和執行大規模戰役。非傳統作戰領域如網絡領域的重要性已經得到認可,2010年,北約的一個研究小組研究了評估網絡攻擊任務影響的模擬方法,并強調了網絡、人類和傳統物理領域之間相互作用的強大非線性效應。
在前面提到的研究工作中所采取的所有方法,以及許多其他類似的方法,都有主要的和一些共同的弱點。它們往往需要對問題領域進行嚴格、精確的表述。一旦這樣的表述被構建出來,它們往往能產生有效的結果。然而,一旦有新的元素需要被納入到表述中(例如,一種新的軍事資產類型或一種新的戰術),就需要進行困難的、昂貴的、手工的和長期的努力來“重新連接”問題的表述和微調解決方案的機制。而現實世界呈現出無窮無盡的新元素,必須加以考慮。
在20世紀80年代的基于規則的系統中,隨著越來越多的規則(它們之間的相互作用往往是不可預測的)必須被添加以代表現實世界中錯綜復雜的領域,一個系統將變得不可維護。在基于優化的方法中,同樣地,重要變量和各種約束條件之間無窮無盡的關系必須不斷地手動添加(維護的噩夢),以代表現實世界中復雜的領域。在基于游戲的方法中,由于越來越多的領域的現實情況不得不被手動設計并添加到游戲的表述中,管理每個棋子的合法移動和移動效果的規則將逐漸變得無可救藥地復雜。
簡而言之,這種方法在建立和維護表征方面是高成本的。理想情況下,我們希望看到一個系統能夠直接從真實或模擬世界的經驗中 "學習"(即自我規劃)其問題的制定和解決算法,而不需要任何(或很少)人工規劃。機器學習,特別是RL,正是提供了這樣的希望。這是我們項目背后的一個主要動機。
美國陸軍目前還沒有一個基于人工智能的、部分自主的任務指揮工具,在戰術或作戰層面上以高作戰節奏(OPTEMPO)運作。通常情況下,生死攸關的決定是由少數人在時間限制下利用不完善的信息作出的。目前可供規劃者使用的工具(如高級野戰炮兵戰術數據系統[AFATDS]、藍色部隊追蹤器等)通常僅限于分析戰場地形的基本決策輔助工具和記錄決策的自動化工具。指揮官在向下級提供快速OPTEMPO指導時,會遇到信息過載。戰斗損傷評估(BDA)很慢,而且不能與單位運動/傳感器與射手的聯系同步,也不允許利用優勢窗口。行動方案(CoA)分析主要集中在對友軍計劃的評估上,很少強調對手的目標和能力的復雜性。
隨著空間、網絡電磁活動(CEMA)和機器人資產的加入,MDO成倍地增加了C2的復雜性,這可能會使OPTEMPO比過去更高。此外,人類指揮官使用目前可用的決策輔助工具來提供高度詳細的指令將是難以解決的。有可靠的報告稱,美國的同行和近鄰競爭對手,特別是中國,正在大力追求人工智能在軍事上的應用,包括指揮決策和軍事推演(即兵棋推演)。因此,在追求人工智能C2系統的過程中,存在著很大的失敗風險,只有不斷地朝著這個目標前進,不斷地努力實現一個能夠在MDO中執行C2的人工智能系統,才能克服這個風險。
到2035年,我們設想需要開發敏捷和適應性強的人工智能C2系統,用于復雜、高OPTEMPO、超活躍的MDO中的作戰規劃和決策支持。這些系統將不斷整合未來戰爭的幾個領域。設想中的系統將能夠分析敵人的活動;不斷地規劃、準備、執行和評估戰役,通過不斷地感知、識別和快速利用新出現的優勢窗口,使軍隊的能力得到快速反應。這些優勢窗口將在不同梯隊的MDO框架內的行動中出現,但識別和利用它們需要較少地依賴刻意的規劃周期,而更多地依賴持續、綜合的規劃能力。啟用人工智能的C2系統有可能在不同的梯隊、領域和多個同時運作的資產之間快速同步采取多種行動,以利用優勢窗口。部隊將主要由機器人資產(地面、空中)組成,人工智能C2系統將收集和處理來自智能傳感器和平臺的數據,評估作戰環境中的新趨勢,并建議采取減少認知負擔的行動,使人類指揮官能夠快速有效地采取行動。啟用人工智能的流程還將提供定量分析、預測分析和其他可供人類有效使用的突出數據。這最終將使美國陸軍有能力在武裝沖突期間,根據對敵人弱點的理解和詳細的友軍估計,重新分配、重組和使用能力,并將產生具體、詳細的指令來控制自主資產。
DEVCOM陸軍研究實驗室在機器人學、自主性、人工智能和機器學習方面有積極的研究計劃。本報告的作者領導了政府、學術界和工業界合作伙伴之間的大型合作機器人研究工作的研究和整合活動,在場景理解、人類與人工智能的合作、RL、多智能體強化學習和多智能體協作系統方面進行了開拓性的研究。此外,ARL還擁有廣泛的基礎設施來進行上述領域的研究。這包括用于機器人研究的地面和空中平臺;用于場景驅動研究的機器人研究合作園區(R2C2),能夠承載實時的、可擴展的、多領域的實驗;旨在支持人工智能和機器學習應用的新興要求的集裝箱式超級計算機;這只是其中的幾個例子。我們相信,這些專業知識和資源可以被用來建立一個成功的計劃,將人工智能納入C2應用。
ARL主任戰略倡議(DSI)計劃是一個跨學科基礎和應用研究的機制,成功的提案可以跨越科學和技術學科的界限。該計劃確定了代表戰略研究機會的主題領域,對陸軍任務具有非常高的潛在回報,以擴大現有的計劃或建立新的核心能力,并在這些領域建立內部的專業知識。
作為20財政年度授予的 "用于MDO C2的人工智能 "DSI項目的一部分,我們探索基于DRL的算法在多大程度上可用于估計紅方部隊的狀態,評估紅方和藍方的戰斗損失(損耗),預測紅方的戰略和即將展開的行動,并根據所有這些信息制定藍方計劃。這種方法有可能為藍方部隊產生新的計劃,利用潛在的機會窗口,其速度比專家規劃者快得多。最近,DRL在非結構化戰略游戲中的成功提供了重要的暗示性證據,表明人工智能方法可能能夠基本上 "從零開始 "發現適當的戰術概念,并以高于人類的速度選擇、應用和執行戰略。
在這個DSI中,我們探索使用DRL在戰斗行動前制定詳細的計劃,并在執行正在進行的行動中生成實時計劃和建議。我們計劃在兩個關鍵領域推動技術水平的發展:1)構思、設計和實施基于DRL的智能體,以生成與專家計劃員生成的計劃一樣好或更好的計劃;2)將人類納入指揮和學習回路,并評估這些人工智能-人類(人在回路中)的解決方案。在為這種人工智能支持的C2開發途徑的同時,需要回答幾個研究問題。在這個DSI中,我們試圖回答三個具體問題:
DRL C2智能體的訓練和數據要求是什么,以便準確和足夠快地學習?
我們如何才能使DRL智能體具有通用性,以便根據人類專家的判斷,特別是在以前未曾見過的細節被引入到一個情況中時,它們能夠合理地執行?
在人工智能支持的C2系統中,人類的干預有什么影響?
該項目第一年的重點是開發研究的基本構件,包括:1)通過調整和使用基于《星際爭霸II》和OpSim的環境來開發模擬能力和高級界面;2)開發執行C2功能的初始端到端人工智能;3)通過與高性能計算(HPC)環境整合來開發計算能力;4)初步確定數據量和訓練要求。本報告提供了這些任務中每個任務的細節。
作為該項目的一部分,我們開發了C2模擬和實驗能力,包括與基于DRL的人工智能算法和國防部高性能計算系統上的可擴展RL的接口的模擬戰斗空間(圖1)。我們使用兩種模擬環境來生成C2場景:星際爭霸II學習環境(SC2LE)29和OpSim。虎爪,一個由卓越機動中心(Fort Benning,Georgia)開發的場景,在模擬環境中生成了真實的戰斗環境。最后,我們使用RLlib31,一個為RL提供可擴展軟件基元的庫,在HPC系統上擴展學習。
圖1 C2基礎設施概述
虎爪行動(Tiger Claw)是一個預定義的戰斗場景,由紅軍和藍軍組成,由喬治亞州本寧堡的上尉職業課程的軍事主題專家(SME)開發。這個假想場景顯示特遣部隊(1-12 CAV)在區域內進攻,以奪取OBJ Lion,以便將師的決定性行動(DO)向東傳遞。特遣部隊的目標是穿越Thar Thar Wadi,摧毀紅色部隊,并奪取OBJ Lion(圖2)。特遣部隊包括使用M1A2艾布拉姆斯的戰斗裝甲,使用布拉德利的步兵戰車,野戰炮和迫擊炮,使用布拉德利的裝甲偵察騎兵,戰斗航空兵,防空兵和無人駕駛飛機。紅軍由裝備BMP-2M的機械化步兵、裝備T-90坦克的戰斗裝甲、野戰榴彈炮、裝備BMP-2M的裝甲偵察騎兵、戰斗航空兵、反裝甲兵和戰斗步兵組成。虎爪方案還包括由中小型軍事專家制定的藍軍和紅軍的可能計劃。這些計劃是根據作戰命令(OPORD)和相應的威脅戰術,使用理論上的力量部署產生的。虎爪方案已被納入OpSim和《星際爭霸II》,并作為一個基準基線,用于比較不同的神經網絡架構和獎勵驅動屬性。
圖2 TF 1-12 CAV在《虎爪》中的作戰區域(AO)。
星際爭霸II》是一個復雜的實時戰略游戲,玩家要在高水平的經濟決策和低水平的個人控制可能的數百個單位之間取得平衡,以壓倒和擊敗對手的部隊。星際爭霸II》對人工智能有許多困難的挑戰,使它成為MDO中C2的一個合適的模擬環境。例如,游戲有復雜的狀態和行動空間,可以持續數萬個時間步驟,實時選擇數千個行動,并由于游戲的部分可觀察性或 "戰爭迷霧 "而捕捉到不確定性。此外,該游戲具有可用于MDO模擬的異質資產、固有的C2架構、嵌入式軍事(動能)目標,以及與更強大的模擬(例如,One Semi-Automated Force [OneSAF])相比,實施/修改的學習曲線較淺。DeepMind的SC2LE框架將暴雪娛樂公司的《星際爭霸II》機器學習應用編程接口暴露為RL環境。這個工具提供了對《星際爭霸II》和相關地圖編輯器的訪問,以及RL智能體與《星際爭霸II》互動的接口,獲得觀察和發送行動。
作為DSI的一部分,一個SC2LE地圖是根據Tiger Claw OPORD和支持文件開發的(圖3)。通過重新繪制圖標以納入2525B軍事符號和與虎爪計劃相關的單位參數(武器、范圍、比例),游戲被軍事化。內部評分系統被重新使用,以計算RL的獎勵函數,其中包括任務目標的收斂(穿越瓦迪),藍色損耗的最小化,以及紅色損耗的最大化。
圖3 《星際爭霸II》中的虎爪地圖
虎爪劇情是在《星際爭霸II》中使用其編輯器重新創建的。這個編輯器包含在暴雪娛樂公司免費下載的《星際爭霸II》中,它有許多創建自定義內容的功能。掌握這些功能的一個很好的資源是專門用于編輯器的在線社區論壇。在下面的章節中,將詳細討論使用編輯器開發地圖、單位和獎勵的問題。
我們使用《星際爭霸II》編輯器為《虎爪》場景創建了一個新的近戰地圖。地圖的大小是編輯器中最大的(256乘256),使用《星際爭霸II》的坐標系統。荒地瓷磚組被用作地圖的默認表面,因為它在視覺上類似于《虎爪》中AO的沙漠地區(圖4)。
圖4 《星際爭霸II》編輯器中的初始虎爪地圖
在最初的設置之后,我們使用地形工具修改地圖,使其大致接近AO的情況。關鍵的地形特征是無法通行的瓦迪,其交叉點有限。
距離縮放是創建場景的一個重要因素。在最初的地圖中,我們使用已知的地標之間的距離,將《星際爭霸II》的距離,使用其內部坐標系統,轉換為公里數。這種轉換對于在單位修改期間調整武器射程非常重要(圖5)。
圖5 修改后的《星際爭霸II》編輯地圖
最初的實驗使用《星際爭霸II》來可視化模擬復制品。這些回放的游戲感成為一個明顯的干擾因素。為了補救這個問題,我們希望采用其他的可視化方法,特別是ARL開發的混合現實環境Aurora。新的可視化方法使用AO的地理地圖。因此,有必要修改《星際爭霸II》的地圖,以便與AO的經緯度相一致。在修改后的地圖中,距離比例是通過將《星際爭霸II》的坐標轉換為經緯度來確定的。
為了模擬 "虎爪 "場景,我們選擇了與軍事單位能力相近的《星際爭霸II》單位。我們復制了《星際爭霸II》中的單位,并在編輯器中修改了它們的屬性以支持該場景。
首先,我們修改了這些單位的外觀,并用適當的MIL-STD-2525符號代替(表1)。在《星際爭霸II》中,每個單位都與多個角色相關聯,這些角色控制著該單位在游戲中的外觀。我們能夠將演員與他們的默認效果圖解開,有效地使這些單位不可見。接下來,我們將所需的軍事符號的圖像導入編輯器。最后,我們使用了SCMapster.com上發布的 "rr Sprite Engine"(LGPL 2.1許可)庫,將這些單位與它們的軍事符號聯系起來。
表1 虎爪部隊與《星際爭霸II》部隊的映射關系
為該場景修改的其他屬性包括武器射程、武器傷害、單位速度和單位壽命(它能承受多少傷害)。武器射程是從公開資料中發現的,并根據地圖的尺寸進行縮放。單位速度在《虎爪行動指令》中確定,并固定在該值上。傷害和生命的屬性是估算出來的,其指導原則是保持平衡的沖突。每個《星際爭霸II》單位通常只有一種武器,這使得模擬一個連級單位可用的各種武器具有挑戰性。額外的努力來提高單位修改的準確性,需要戰爭游戲的主題專家。
修改后的部隊被放置在地圖上,以接近虎爪的場景(圖6)。在實驗過程中,藍色部隊將由一個使用PySC2(DeepMind的SC2LE的Python組件)開發的智能學習智能體控制。此外,藍軍部隊被修改為沒有天生的攻擊性。換句話說,他們不會參與進攻或防守,除非有智能體的特別命令。為了控制紅色部隊,我們使用了兩種不同的策略。第一種策略是為紅色部隊的行動加入一個腳本化的CoA,在每次模擬中都會執行。該部隊默認的攻擊性屬性控制它如何與藍方交戰。第二種策略是讓《星際爭霸II》的機器人AI控制紅方部隊執行全面攻擊,或在編輯器中稱為自殺。內置的《星際爭霸II》機器人有幾個難度級別(1-10),這決定了機器人的熟練程度,其中1級是一個相當初級的機器人,可以很容易地被擊敗,10級是一個非常復雜的機器人,使用玩家無法獲得的信息(即一個作弊的機器人)。最后,環境因素,如戰爭迷霧,在不同的實驗中被切換,以調查其影響。
圖6 使用MILSTD2525符號的星際爭霸II
獎勵功能是RL的一個重要組成部分,它通過對每種情況給予積極或消極的獎勵來控制智能體人對環境變化的反應。我們在SC2LE中加入了虎爪場景的獎勵功能,我們的實現超越了SC2LE內部的評分系統。原來的計分系統根據玩家的單位和結構的資源價值進行獎勵。我們的新計分系統只關注游戲的軍事方面,即獲得和占領新的領土,以及摧毀敵人。
我們的獎勵功能為藍軍越過瓦迪(河流)提供+10分,為撤退提供-10分。此外,我們還對摧毀紅軍部隊給予+10分,如果藍軍部隊被摧毀則給予-10分。
為了實現獎勵功能,首先需要使用SC2LE編輯器來定義地圖的各個區域和目標。區域是由用戶定義的區域,它被觸發器所利用(圖7)。
圖7 《星際爭霸II》中的區域和目標
觸發器是創建一套指令的模板,允許用戶將與特定事件相關的效果編入模擬中(圖8)。一般來說,一個觸發器由以下部分組成。
事件。啟動觸發器(例如,一個單位進入一個區域)。
變量。存儲信息。(例如,BlueForceScore,藍軍的得分)。
條件。對行動的限制,需要在行動發生時為真。(例如,單位是藍色部隊的成員)。
行動。事件的結果或成果(例如,單位獲得積分)。
圖8 《星際爭霸II》中虎爪場景的觸發實例
作為未來工作的一部分,我們計劃根據指揮官在虎爪警告令(WARNORD)中的意圖所定義的具體團隊目標來納入額外的獎勵。獎勵功能將試圖訓練智能體維持單位作為團隊,作為團隊一起參與預定目標,并創造對軍事主題專家來說合理的最佳行為。
OpSim是由科爾工程服務公司(CESI)開發的決策支持工具,提供計劃支持、任務執行監控、任務演練、嵌入式訓練以及任務執行監控和重新計劃。OpSim與SitaWare指揮、控制、通信、計算機和情報(C4I)集成,后者是由項目執行辦公室指揮控制通信-戰術(PEOC3T)投入使用的指揮所計算環境(CPCE)的重要組成部分,使各級指揮部門能夠共享態勢感知并協調作戰行動,從而使其成為直接與作戰任務指揮相連的嵌入式模擬。它從根本上被構造成一個基于可擴展的面向服務架構(SOA)的模擬,能夠比目前最先進的模擬環境如OneSAF和MAGTF戰術戰爭模擬器(MTWS)運行得更快。傳統的建設性模擬最多運行1-20次墻鐘時間,而OpSim可以運行30次虎爪的復制--如果實時連續運行,需要240小時。OpSim中模擬計劃的輸出包括根據彈藥支出、傷亡、設備損失、燃料使用等標準對藍軍計劃進行綜合排名。然而,OpSim工具并不是為人工智能應用而設計的,必須通過整合接口來運行基于DRL的算法。開發了一個OpenAI Gym接口,以暴露模擬狀態,并向外部智能體提供模擬控制,能夠為模擬中的選定實體提供改變的行動,以及在回應接口之前的模擬時間。
強化學習可以被形式化為一個馬爾科夫決策過程,由一組行動、一個過渡概率函數、一個獎勵信號和一個環境狀態組成。32 在RL中,目標是找到一個最佳行動,使預期的、累積的折現獎勵之和最大化。將深度神經網絡與RL結合起來,DRL將深度神經網絡架構與RL框架結合起來,以接近環境中各狀態的最佳行動。DRL的設計包括以下部分:狀態空間(環境狀態表示)、行動空間(行動集)、獎勵信號和一個深度神經網絡。
對于環境狀態的訪問,RL框架使用類似OpenAI Gym的接口與OpSim和StarCraft II模擬器,為RL提供環境的抽象(圖9)。OpenAI Gym是一個開源的軟件包,為RL的開發和測試提供了一個具有通用接口的環境集合。OpenAI Gym專注于RL環境的抽象化,從而保持智能體開發的靈活性。兩種模擬環境中使用的具體行動、狀態空間和獎勵信號將在后續章節中詳細討論。
圖9 使用OpenAI Gym與OpSim和StarCraft II模擬器的RL框架
DRL需要智能體與環境互動的許多情節來收集經驗,一個標準的方法是通過平行數據收集來擴展。在這個項目中,HPC被用來擴展DRL算法,以支持智能體群體從成千上萬的平行實例中學習,以解決C2的行動空間復雜性。ARL的FOB系統最初用于分布式訓練,然后被移植到國防部超級計算資源中心(DSRC)的最新SCOUT系統。FOB系統是一個由64個節點組成的實驗性異構集群,每個節點有一個英特爾8核至強CPU和64GB的內存。SCOUT是位于ARL DSRC的一個非保密的HPC-in-a-container系統,有22個訓練節點和128個推理節點。SCOUT的每個計算節點都配備了IBM Power9 40核處理器,推理節點有256GB內存,訓練節點有700GB內存。
同時,RLlib,一個由加州大學伯克利分校RISELab開發的可擴展RL框架的開源庫,被用于執行分布式學習。RLlib提供了一個與框架無關的機制,以便在OpSim和StarCraft II上有效地擴展DRL神經網絡架構的訓練。該框架部署在HPC系統上,以展示RLlib算法在系統的多個節點上的擴展性,并提供可定制的神經網絡模型和模擬環境的靈活性。
利用第2節所述的基礎設施,我們為《星際爭霸II》和OpSim環境開發了一個端到端的DRL框架,并進行了初步實驗。在這一節中,我們將描述網絡架構、實現和一些初步的實驗結果。
我們使用第2.2節中描述的戰術版《星際爭霸II》訓練了一個多輸入和多輸出的深度強化神經網絡。我們使用了異步優勢演員批判(A3C)算法,這是一種由多層卷積網組成的狀態輸入處理方法,長短期記憶(LSTM)遞歸層給網絡增加了記憶。
在《星際爭霸II》中,狀態空間由7個大小為64x64的迷你地圖特征層和13個大小為64x64的屏幕特征層地圖組成,總共有20個64x64的二維圖像(圖9的左側面板)。此外,它還包括13個非空間特征,包含玩家資源和建造隊列等信息。這些游戲特征是用輸入處理管道來處理的,如圖10所示。星際爭霸II》中的動作是函數形式的復合動作,需要參數和關于該動作要在屏幕上發生的位置的說明。例如,像 "攻擊 "這樣的動作被表示為一個函數,需要屏幕上的X-Y攻擊位置。行動空間由行動標識符(即運行哪個行動)和兩個空間行動(x和y)組成,這兩個空間行動被表示為兩個長度為64個實值項的向量,在0和1之間。 表2劃分了觀察空間、行動空間和《星際爭霸II》模擬的獎勵。
圖10提供了星際爭霸II任務中相互嵌入模型和A3C智能體的狀態輸入處理管道的概述。星際爭霸II提供了三個主要的狀態信息流:小地圖層、屏幕層和非空間特征(如資源、可用行動和建造隊列)。小地圖和屏幕特征由相同的兩層卷積神經網絡(CNN)處理(頂部兩行),以便分別提取地圖的全局和局部狀態的視覺特征表示。非空間特征通過一個具有非線性激活的全連接層進行處理。然后,這三個輸出被連接起來,形成智能體的完整狀態空間表示,以及基于狀態的相互嵌入模型的部分。
圖10 《星際爭霸II》的狀態輸入處理
表2 《星際爭霸II》模擬的觀察空間、行動空間和獎勵
A3C是優勢行動者-批評算法的分布式版本,其中創建了行動者的多個平行副本,以同時執行行動和收集經驗。讓多個行為體收集經驗可以提高探索效率,從而改善學習。我們使用的A3C智能體的結構類似于Mnih等人的Atari-net智能體,它是一個從Atari改編的A3C智能體,在SC2LE狀態和行動空間上運行。我們對這個智能體做了一點修改,增加了一個LSTM層,因為Mnih等人的研究表明,增加模型的內存可以提高性能。我們的A3C智能體的結構如圖11所示。
圖11 A3C智能體的結構。這里顯示的是一個完整的RL智能體及其與《星際爭霸II》的連接示意圖。作為典型的政策性智能體,這里的A3C智能體(綠色)從任務環境中獲取狀態和獎勵信息,并使用這些信息來計算下一個時間步驟的行動,以及計算梯度來增加獎勵最大化。
我們用20個并行的演員學習者來訓練A3C模型,使用了8000個模擬的《星際爭霸II》機器人的戰斗,操作由DeepMind開發的手工制作的規則。如果BLUEFOR穿過瓦迪或OPFOR排被摧毀,則提供+10的正強化,如果BLUEFOR被摧毀則提供-10的負強化。
我們在《星際爭霸II》的 "虎爪 "場景中對訓練好的A3C模型進行了100次的測試。這些模型與具有隨機行動的隨機基線以及人類玩家與《星際爭霸II》機器人進行的10場模擬戰斗進行了比較。圖12中提供了收集到的指標的匯總圖,包括總的情節獎勵和藍軍的傷亡人數。我們看到,與人類玩家相比,人工智能指揮官不僅取得了相當的表現,而且在任務中表現得稍好,同時還減少了藍軍的傷亡。
圖12 與人類和隨機智能體基線相比,訓練有素的人工智能指揮官(A3C智能體)的總獎勵和BLUEFOR傷亡情況。人工智能指揮官能夠實現與人類基線相當(略好)的獎勵,同時減少藍軍的傷亡。
為OpSim模擬環境開發了兩種類型的指揮官。第一種是基于專家設計的規則引擎,由喬治亞州本寧堡的軍事主題專家使用理論規則開發。第二種是DRL訓練的神經網絡,采用A2C算法訓練的多輸入多輸出的LSTM神經網絡。A2C與A3C類似,但沒有異步部分。OpSim的RL界面支持多智能體訓練,每個部隊可以是基于規則的,也可以是人工智能指揮官。
政策網絡首先在FOB的15個節點上進行訓練,75個平行工作者收集了482k次模擬戰斗,耗時36小時。此外,在SCOUT系統上應用和訓練了局部切面位置和無目標獎勵更新。有了更新的觀察和獎勵,39個平行工作者收集了175k次戰斗經驗,花了37小時。
觀察空間由17個特征向量組成,其中觀察空間是基于每個實體的設備傳感器的部分觀察。與S2CLE不同,OpSim目前不使用圖像輸入或屏幕圖像的空間特征。行動空間主要包括簡單的運動和交戰攻擊(表3)。
表3 OpSim模擬的觀察空間、行動空間和獎賞
訓練好的模型用100個推出的模擬結果進行評估,在檢查站使用凍結政策,BLUFOR的平均獎勵最高。在SCOUT上,4510號檢查站的BLUFOR政策平均獎勵達到了200,OPFOR政策平均獎勵達到了-322的滾動平均值。對100次滾動的分析表明,經過DRL訓練的BLUFOR智能體將損失從4左右降至0.5,而增加了OPFOR的損失(圖13)。這一結果是通過采用僅使用戰斗裝甲連和戰斗步兵連進行交戰的策略達到的。它學會了利用BLUFOR最致命的部隊與Abrams和Bradleys的策略,同時保護脆弱的資產不與OPFOR交戰(圖14)。
圖13 主題專家和人工智能指揮員之間的實體損失比較
圖14 一次推廣的開始和結束的快照
作為DSI的一部分,為C2的DRL開發了兩個新型測試平臺。基于StarCraft II和OpSim。使用這些最先進的測試平臺開發了端到端的DRL方法。該基礎設施被移植到國防部的HPC系統中,以擴大訓練的規模,進行平行數據收集。
初步實驗結果顯示,初步觀察到DRL在沒有預編碼知識的情況下實現了有效和合理的C2,基于DRL的 "人工指揮官 "可以在模擬的旅級戰斗中執行綜合規劃-執行過程。一些結果,特別是在《星際爭霸II》的環境中,表明人工智能采取的策略與有能力的人類玩家的策略相當。它還表明,計算資源并不是人工智能在C2中的障礙;我們看到使用HPC系統學習的速度足夠快,在37小時內就能收斂。總之,DSI的第一年提供了充分的證據,表明基于學習的人工智能有可能被用作未來軍事行動C2的關鍵技術。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。