亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

集群是一項顛覆性的、改變游戲規則的技術,其基礎是協調使用在多個領域(空中、地面、海上、太空)運作的多個無人駕駛系統。新的微電子技術、制導和導航技術、傳感器和人工智能技術的發展使得低成本、微型無人機器人能夠執行具有挑戰性的任務。當與新的決策、目標跟蹤、通信技術和算法相結合時,蜂群可以在戰場上產生非常顛覆性的影響,其應用范圍包括持續的和未被發現的監測,以及提供關鍵的防御能力,如游蕩彈藥。本文介紹了歐洲在蜂群方面的活動,并就其對國防和民用部門可能產生的改變游戲規則的影響提出了見解。

關鍵詞:無人系統(UxV),自主性,決策,目標跟蹤,引導和控制,傳感器融合,情報、監視和偵察(ISR),無人交通管理(UTM)。

1 引言

無人系統集群(UxVs)由大量異質無人車(空中、陸地、海上)組成,作為自主 "系統"的智能群體運作,具有決策、目標跟蹤、制導和控制、傳感器融合和指揮能力,作為單一智能群(自主系統)運作。如果利用機器人、人工智能(AI)、通信、制導和控制、傳感器融合、航空航天和無人交通管理(UTM)等領域的發展,將無人系統群設計成蜂群或鳥群,使其具有必要的智能和自主性,就能為國防部門創造顛覆性的、改變游戲規則的能力,將數量和智能、智慧技術的優勢相結合。無人系統群可以創造出前所未有的能力,可以提高歐洲的安全和國防能力,同時對其他非國防部門產生顛覆性影響,如城市交通、UTM、自動駕駛或機器人技術。在國防方面,無人駕駛車輛的聯合使用可以限制人類在危險環境中的風險/暴露,允許枯燥和骯臟的軍事行動發生,如對大面積地區(如地中海、歐洲邊界)的持續監測,甚至可以在未來的軍事場景中用來迷惑和壓倒對手。圖1顯示了一個多領域(空-空-地-海-空)的無人系統群概念,用于保護和提供對高價值資產(如軍營/駐地)的持續監視,這是在2016年EDA研發試點項目EuroSWARM中首次提出。

圖1:多域蜂群概念(空-空-地-地)。

2 集群技術

無人系統(UV)集群是由自主或半自主的飛行器組成的群體,它們相互協作以達到共同的目的。無人系統群體可以在國防應用中用于各種任務,如偵察、監視、目標獲取和打擊行動。本節探討了用于國防應用的集群的三個主要特征:(1)總結了使高效集群發展的最關鍵的能力和技術,(2)設計集群時使用的主要架構模式,以及(3)一些經常結合起來描述集群國防應用任務的作戰類型。談到集群設計,有四個主要的技術模塊必須考慮國防應用[1]。每個模塊對集群的性能和穩健性起著非常重要的作用,從感知能力到集群通信協議[2]和路由[3]。

1.感知: 感知能力對于無人系統群的成功至關重要。感知能力使集群能夠感知和了解它所處的環境,探測障礙物,識別目標,并保持態勢感知。有效的感知能力使集群能夠在復雜和動態的環境中運行,并以極高的效率執行廣泛的復雜任務。機器學習和人工智能技術可以增強這些能力,通過傳感器融合,集群可以在以前不可能的水平上實現態勢感知。

2.任務分配和決策: 任務分配和獨立決策對于集群的成功至關重要。有效的任務分配確保每個機器人被分配到與其能力相符的具體任務,從而優化可用資源的使用。集群可以彌補一個或多個機器人的失敗,而任務分配有助于分配決策,使集群能夠快速適應不斷變化的環境。任務分配也有利于適應性、可擴展性和更快的決策,使集群在動態和不確定的環境中更加有效。集群能夠通過集群的機器人之間的無縫數據交換做出更好的決定。這使得資源得到有效利用,提高了魯棒性和容錯性,改善了適應性,大大增強了可擴展性。

3.路徑規劃和消除沖突: 當涉及到集群時,預計會有大量的機器人。這使得路徑規劃和解除沖突的方法對高效和安全的集群操縱至關重要。集群中路徑規劃的目標是為每個機器人找到一條到達目的地的最佳路徑,同時避開障礙物,并使所需的時間和能量最小化。解除沖突確保機器人不會相互碰撞,使每個機器人都能成功完成其任務。例如,在監視任務中,路徑規劃可以優化機器人的路線,以盡量減少重疊,增加覆蓋面積。路徑規劃和消除沖突可以通過各種技術實現,包括集中式和分散式方法。集中式方法包括由一個實體來規劃和協調集群中所有機器人的路徑。另一方面,分散式方法涉及每個機器人根據本地信息做出自己的路徑規劃決定。

4.通信: 當機器人之間的通信是無縫和強大的時候,集群的運行是最理想的。通過傳感器融合,集群可以提供具有更高確定性和分辨率的信息。有效的通信協議使機器人能夠共享信息,如他們的位置、狀態和任務分配,而路由將負責尋找信息在機器人之間傳播的最佳路徑。這使得集群能夠團結一致地運作,協調行動,并實時分享信息。通信協議和路由可以通過各種技術來實現,如特設網絡、網狀網絡和多跳路由。特設網絡允許機器人直接相互通信而不需要固定的基礎設施,而網狀網絡使機器人形成一個具有冗余路徑的網絡進行通信。多跳路由涉及將信息從一個機器人傳遞到另一個機器人,直到它到達目的地,從而實現更遠距離的通信。

無人系統群是利用通信協議來交換信息的,而協議是由任務的具體要求以及車群的特點決定的[4]。有三種主要的架構方法可用于設計國防應用的無人系統群,包括:

1.集中式架構:在這種方法中,集群中所有無人系統的運行都由一個中央實體協調,如地面控制站。中央實體與集群的代理進行通信,收集數據,處理數據,并作出明智的決定。這種方法適用于小規模的集群和簡單的任務。

2.分布式結構:在這種方法中,沒有中央實體,集群中的每個無人系統都獨立運作,根據本地信息做出決定,并將其信息與鄰近的車輛進行交流。這種方法適用于大規模集群和復雜任務。

3.混合結構:這種方法結合了集中式和非集中式結構的優點。在這種方法中,有一個中央實體向無人系統提供高級指導,而每個無人系統都配備了本地決策能力。

無人系統群呈現出大量的軍事應用,能夠執行各種不同的任務。這里確定了自主集群的一些關鍵操作類型的例子。提出的操作可以組合成一系列的任務。

1.區域覆蓋: 在區域覆蓋操作中,集群的任務是利用機器人配備的傳感器掃描一個特定的領域。在大多數情況下,希望區域覆蓋是全面的,必須對該區域進行全面掃描。多無人系統區域覆蓋問題的常見方法包括使用分解技術將感興趣的區域劃分為一組子區域,并將每個子區域分配給一個機器人。對于異質群,在區域分解過程中必須考慮到傳感器的范圍、機器人的流動性和電池的自主性,以提高系統的效率[5]。在每個機器人被分配到一個子區域后,機器人在其區域內獨立規劃其路徑。在[6]中介紹了覆蓋路徑規劃方法的調查,總結了二維、三維和多機器人區域覆蓋的最常用方法。

2.全面和持久的區域覆蓋:全面和持久的區域覆蓋要求集群的部署方式能夠在整個任務期間提供整個給定區域的傳感器覆蓋。集群的機器人應考慮其傳感器的范圍和可能的環境特征(例如,障礙物或遮擋區域),創建一個編隊。機器人以靜態隊形部署,或以動態隊形部署,以防區域特征或所需監測的區域隨時間變化[5]。主要目標是設計一種編隊模式,以最小的機器人數量實現全面的靜態覆蓋。

3.區域搜索: 在區域搜索行動中,機器人群的任務通常是在一個感興趣的區域內尋找特定目標。在這種操作中,不需要對該地區進行完全或全面覆蓋。機器人群必須探索該區域,目的是在最短的時間內識別目標。機器人必須在任務期間進行合作,它們使用在線決策和路徑規劃技術,根據它們對環境的感知和機器人群中其他機器人的行為改善系統的性能。區域搜索算法可以被調整以考慮目標分布的概率。生物啟發的集群算法已經引起了科學界對區域搜索行動的興趣[7], [8]。

4.區域監視: 區域監視行動要求機器人群持續地監視一個給定的區域。區域監控通常用于巡邏、監測、探測突發或動態威脅以及邊境安全。目標通常被定義為在長時間內最小化區域的最大年齡(即自上次訪問以來所經過的時間)[9]。

5.目標跟蹤: 通常情況下,目標追蹤行動涉及一個目標和一個機器人。機器人的范圍是根據其感官數據和對目標位置的估計,以及在某些情況下對目標的預測行為或未來位置的估計,在線規劃其路徑[10]。機器人必須引導自己不斷跟隨目標。隨著機器人群功能的引入,目標跟蹤問題可以被增強為一個多機器人問題,跟蹤單個[11]或多個目標[12]。

總的來說,為國防應用設計機器人群需要仔細考慮幾個因素,包括任務要求、機器人群規模、通信能力和計算資源。

3 集群項目和應用

3.1 EUROSWARM

EuroSWARM[13]項目(為國防應用中的無人機蜂群開發技術)是歐洲防務局的一個項目,該項目于2016年11月-2017年11月舉行,聯合體由來自希臘、英國、法國和瑞典的4個合作伙伴組成。該項目的關鍵技術,包括靜態傳感器網絡設計、移動傳感器任務分配和信息融合,能夠開發出用于商用無人駕駛車輛的新型算法。這些算法具有低計算能力要求、靈活性和可重新配置性。在圖2中,介紹了項目的結構和使用的模塊。基于貪婪地排除技術的任務分配算法確保了實時的接近最優的任務分配,允許在快速變化的環境中進行有效的蜂群控制。通過無人機的空中傳感、自主行為監測的一般框架和軌跡分析工具,實現了增強的態勢感知。傳感器融合技術和分散的跟蹤算法支持自動目標檢測和跟蹤,增加了系統的可靠性和容錯性。為移動車輛設計了一個反應式和分布式合作制導法,解決了任務和安全目標,以及車輛和靜態傳感器網絡之間的相互作用。這些蜂群技術在戶外環境中的實際演示驗證了這些算法和技術在軍事和執法應用中持續監測的有效性。

實際演示結合了前面幾節介紹的所有集群技術,在一個按比例的戶外環境中進行了模擬和驗證。由于時間和預算的限制,測試區域的大小是有限的,用于形成機器人群的無人平臺是基于市場上的COTS系統。實際演示的主要目的是建立演示環境、通信網絡,并測試持續監測場景下的蜂群功能。實施了代理、車輛類型和目標數量的多種組合,以評估同質(同一類型的車輛/傳感器)和異質車輛(光學/紅外傳感器、固定翼/四旋翼無人機)。

3.2 低可觀察性戰術無人機系統--Lotus

LOTUS項目(低可觀測戰術無人機系統)是一個EDIDP項目,財團由來自希臘和塞浦路斯的9個合作伙伴以及來自西班牙和荷蘭的另外兩個合作伙伴組成。該項目于2020年12月啟動,持續時間為45個月,由Intracom防御公司領導。通過LOTUS項目,一個最先進的無人駕駛飛行器(UAV)系統被設計用于戰術空中偵察和監視任務。它擁有幾個關鍵特征,包括躲避敵軍的隱身特性、對峙作戰能力、適航性和基于北約標準的互操作性,以及考慮到網絡安全的可靠通信。此外,該系統還廣泛采用了人工智能,確保其能夠高度準確地執行復雜的任務。該母艦配備了多個ISR傳感器,設計為低可觀察性和高續航能力,并加入了自我保護系統,以應對敵人的威脅。它可以部署四個管狀發射的可折疊翼無人機,這些無人機具有先進的自主功能,使它們能夠執行復雜的ISR任務。母艦和無人機共同組成了一個強大的蜂群,可以無縫運行,為地面的決策者提供關鍵的情報和監視數據。在圖3中,地面目標的智能任務分配(左)和合作覆蓋(右)是通過帕特雷大學開發的蜂群算法執行的。

3.3 自主的、可重新配置的無人駕駛車輛群在國防方面的應用 - ACHILLES

ACHILLES項目(用于國防應用的自主、可重新配置的無人駕駛車輛群)是一個EDA項目,其財團包括希臘和德國的工業和大學。

該項目于2023年1月啟動,由佩特雷大學牽頭,涉及工業界(ATOS、DroniQ、Scytalys、Intracom Defense)和學術界(佩特雷大學、英戈爾施塔特技術學院和雅典大學)。該項目旨在通過提高自主的、可重新配置的無人駕駛車輛群的TRL來推動無人駕駛車輛群在國防領域的發展和使用,并展示無人駕駛車輛群在國防領域持續監測的能力和準備水平。無人駕駛車輛群的多種好處和潛在應用已被認可,并成為ACHILLES項目的靈感來源。最近的科學和技術進步使無人駕駛車輛能夠自主地收集關鍵數據,以提高對形勢的認識。可擴展的、自主的和可重新配置的蜂群可以實現高效的代理協調,并且對故障事件(例如,代理的損失)有很強的適應性。項目的預期成果和創新包括形成新的蜂群能力,以及以安全和高效的方式將無人機納入軍事和民用空域的方法。預計產生的能力將支持基于無人機群的系統和技術的成熟和驗證。

3.4 使用有人-無人系統的車隊行動--COMMANDS

COMMANDS項目(有人無人系統車隊行動)是EDF的一個項目,由來自10個成員國的21個合作伙伴組成的聯合體。該項目于2022年12月啟動,由Sener航空航天和防務公司領導,執行時間為3年,并得到了七個國防部的支持,提供了共同的要求。COMMANDS項目旨在為敏捷、智能和合作的有人和無人系統開發全壽命能力(TLC)。幾個模塊系統將成為這個項目的一部分,通過無縫的功能服務和數據交換實現群集能力。載人和無人地面車輛以及無人機將是該系統的一部分。該項目將消除風險并利用技術來解決自力更生的歐盟國防TLC可持續發展的路線圖。這些成果將升級目前的地面車輛,并被整合到未來的車輛中。技術演示計劃包括一個實驗室和一個真實場景的移動演示器,重點是具有部隊保護的最后一公里再補給車隊。

3.5 無人駕駛交通管理: 歐洲無人機和大都市2

集群技術正被用于民用領域,包括自動駕駛、無人交通管理(UTM)和城市流動。EuroDRONE和Metropolis 2是歐盟SESAR資助的活動,已經證明了集群/自主技術在民用空域安全運行的成功實踐,在物流、安全、醫療貨運和精準農業方面有重要的商業應用[14]。EuroDRONE是歐洲首批UTM測試中心之一,由帕特雷大學開發和協調(2019-2021)。

4 影響

集群技術使大量的無人機變得高度互聯,有能力有效地計劃和分配任務目標,做出協調的戰術決策,并在最小的監督下對動態環境做出協作反應,同時向人類操作員提出建議。隨著蜂群技術的成熟,蜂群軍事技術的使用是不可避免的。許多人認為,蜂群的發展可與精確制導武器的發展相提并論,后者在20世紀70年代和80年代進行了測試和改進,但在20世紀90年代初的第一次海灣戰爭中才開始發揮其作用。蜂群的使用可以使載人防御系統在簡單的、低/中水平的、監測、監視防御場景/任務中的使用變得過時,并對攻擊系統進行補充,以分散或限制敵方部隊。在未來的幾十年里,遠程操作的單體無人飛行器,如無人機,將逐漸變得過時,因為空中、地面、海上的無人系統將能夠部署多個飛行器并作為蜂群操作,從而擴大各種防御任務的范圍、監視、ISTAR和攻擊能力。

在國防方面的顛覆性影響 大量(10-100s)的異質無人系統群作為智能單元運行,可用于執行骯臟、危險和枯燥的任務(持續監測)或擾亂對手(攻擊敵方戰略地點/資產),同時減少人類風險和成本。無人系統群可以成為一種獨特的防御能力,這種能力目前還不存在,處于低技術準備水平(<3)。
激進的愿景 無人系統群是一個縮影或激進的愿景,使歐洲新的防御能力,并為無人駕駛/自主系統和防御創造一個新的范式。無人系統群利用歐盟/北約以前在UTM、機器人、傳感器、自主性、無人駕駛飛機等領域的國防研發(EUROSWARM、ACHILLES、COMMANDS)和H2020活動(EuroDRONE)來創造一個高風險/高收益能力(無人系統群)。
突破性的技術目標 未來在空中、陸地或海上使用數以百計的無人系統群將創造一種新穎的、雄心勃勃的能力,并取得突破。正如在中東和烏克蘭已經顯示的那樣,使用協調的多倍的無人機智能體可以擾亂軍事理論和行動。
軍事意義 集群可以成為歐洲主導的史無前例的防御能力。作為一個智能單元運作的多個UxVs將能夠執行破壞性任務,從持續的大面積監測(執行枯燥、危險、乏味的任務)到在利基行動中壓倒對手,最大限度地減少人員風險、任務成本和提高態勢感知能力。

表1:集群的創新和影響

集群可以在多個具有社會和經濟利益的領域做出重大貢獻,如無人駕駛交通管理、自動駕駛和城市交通,所有這些都利用了集群技術。圖3顯示,根據知名金融機構的預測,到2030年,集群系統的綜合市場領域可以達到近9000億歐元,對民用領域有明顯影響。

5 結論

北約的多個防務機構已經宣布打算將集群技術應用于現有的武器系統,如F-35戰斗機/攻擊機、英國的Tempest下一代戰斗機和三方(法國、德國、西班牙)的FCAS飛機/無人機系統。顯然,集群技術正在被整合到世界各地的軍事能力中,并開始影響國防能力。集群是一項關鍵的防御技術,它將使多個技術領域得到直接改善,如嵌入式集群、自動化和自主系統的人工智能技術、在非結構化、快速變化、受限和有爭議的環境中執行的防御系統合作行動的安全性、效率和有效性。正如在烏克蘭和中東沖突地區所顯示的那樣,蜂群正在通過使用無人機群和閑置彈藥來改變戰爭。因此,為歐洲的國防、安全和繁榮開發自主集群系統是非常重要的,并且可以將關鍵技術轉到民用部門,如運輸、機器人和人工智能。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

隨著技術的飛速發展和威脅環境變得更加復雜,今天的海軍行動經常面臨著具有挑戰性的決策空間。人工智能(AI)的進步為解決海軍行動中日益復雜的問題提供了潛在的解決方案。未來的人工智能系統提供了潛在的意義深遠的好處--提高對態勢的認識,增加對威脅和對手能力和意圖的了解,識別和評估可能的戰術行動方案,并提供方法來預測行動方案決定的結果和影響。人工智能系統將在支持未來海軍作戰人員和保持作戰和戰術任務優勢方面發揮關鍵作用。

人工智能系統為海戰提供了優勢,但前提是這些系統的設計和實施方式能夠支持有效的作戰人員-機器團隊,改善作戰情況的不確定性,并提出改善作戰和戰術結果的建議。實施人工智能系統,以滿足海軍應用的這些苛刻需求,給工程設計界帶來了挑戰。本文確定了四個挑戰,并描述了它們如何影響戰爭行動、工程界和海軍任務。本文提供了通過研究和工程倡議來解決這些挑戰的解決思路。

引言

人工智能是一個包括許多不同方法的領域,目的是創造具有智能的機器(Mitchell 2019)。自動化系統的運作只需要最小的人類輸入,并經常根據命令和規則執行重復性任務。人工智能系統是自動化機器,執行模仿人類智能的功能。它們將從過去的經驗中學習到的新信息融入其中,以做出決定并得出結論。

如表1所述,人工智能系統有兩種主要類型。第一種類型是明確編程的專家系統。Allen(2020,3)將專家系統描述為手工制作的知識系統,使用傳統的、基于規則的軟件,將人類專家的主題知識編入一長串編程的 "如果給定x輸入,則提供y輸出"的規則。這些系統使用傳統的編程語言。第二種類型是ML系統,從大型數據集中進行訓練。ML系統自動學習并從經驗中改進,而不需要明確地進行編程。一旦ML系統被 "訓練",它們就被用于操作,以產生新的操作數據輸入的結果。

表1. 兩類人工智能系統

人工智能系統--包括專家系統和學習系統--為海軍提供了巨大的潛力,在大多數任務領域有不同的應用。這些智能系統可以擴展海軍的能力,以了解復雜和不確定的情況,制定和權衡選擇,預測行動的成功,并評估后果。它們提供了支持戰略、作戰計劃和戰術領域的潛力。

本文確定了工程設計界必須解決的四個挑戰,以便為未來海戰任務實施人工智能系統。表2強調了這四個挑戰領域。這些挑戰包括:(1)復雜的海戰應用領域;(2)需要收集大量與作戰相關的數據來開發、訓練和驗證人工智能系統;(3)人工智能系統工程的一些新挑戰;(4)存在對手的人工智能進展,不斷變化和發展的威脅,以及不斷變化的人工智能系統的網絡弱點。本文側重于海軍戰爭的四個挑戰領域,但認識到這些挑戰可以很容易地被概括為整個軍隊在未來人工智能系統可能應用的所有戰爭領域中廣泛存在的挑戰。

表2. 為海軍實施人工智能系統的四個挑戰領域

挑戰一:戰爭復雜性

人工智能正被視為一種能力,可應用于廣泛的應用,如批準貸款、廣告、確定醫療、規劃航運路線、實現自動駕駛汽車和支持戰爭決策。每個不同的應用領域都提出了一系列的挑戰,人工智能系統必須與之抗衡,才能成為一種增加價值的可行能力。表3比較了一組領域應用的例子,從潛在的人工智能系統解決方案的角度說明了挑戰的領域。該表在最上面一行列出了一組10個因素,這些因素對一個特定的應用程序產生了復雜性。根據每個因素對作為實施人工智能的領域的整體復雜性的貢獻程度,對六個應用領域的特征進行了定性評估。顏色代表低貢獻(綠色)、中貢獻(黃色)和高貢獻(紅色)。

表3中最上面一行顯示的特征包括: (1)認識上的不確定性水平(情況知識的不確定性程度),(2)情況的動態性,(3)決策時間表(可用于決策的時間量),(4)人類用戶和人工智能系統之間的互動所涉及的錯綜復雜的問題、 (5)資源的復雜性(數量、類型、它們之間的距離以及它們的動態程度),(6)是否涉及多個任務,(7)所需訓練數據集的復雜性(大小、異質性、有效性、脆弱性、可獲得性等 8)對手的存在(競爭者、黑客或徹頭徹尾的敵人),(9)可允許的錯誤幅度(多少決策錯誤是可以接受的),以及(10)決策后果的嚴重程度。該表的定性比較旨在提供一個高層次的相對意義,即基于一組樣本的貢獻因素,不同應用領域的不同復雜程度。

表3. 影響應用復雜性的因素比較

對于所有的應用領域來說,人工智能系統的工程都是具有挑戰性的。人工智能系統在本質上依賴于具有領域代表性的數據。獲得具有領域代表性的數據會帶來基于數據大小、可用性、動態性和不確定性的挑戰。決策時間--由情況的時間動態決定--會給人工智能系統工程帶來重大挑戰--特別是當一個應用領域的事件零星發生和/或意外發生時;以及當決策是時間緊迫的時候。具有更多決策時間、充分訪問大型數據集、直接的用戶互動、完善的目標和非致命后果的應用,如貸款審批、廣告、醫療診斷(在某種程度上)面臨工程挑戰,但其復雜程度較低。確定最佳運輸路線和為自動駕駛汽車設計AI系統是更復雜的工作。這些應用是動態變化的,做決定的時間較短。航運路線將在可能的路線數量上具有復雜性--這可能會導致許多可能的選擇。然而,航運錯誤是有空間的,而且后果通常不會太嚴重。對于自動駕駛汽車來說,決策錯誤的空間非常小。在這種應用中,決策失誤會導致嚴重的事故。

影響開發支持海戰決策的人工智能系統的因素在表3所示的所有類別中都具有高度的復雜性。因此,戰術戰爭領域對工程和實施有效的人工智能系統作為解決方案提出了特別棘手的挑戰。表4強調了導致這種復雜性的海戰領域的特點。作為一個例子,海軍打擊力量的行動可以迅速從和平狀態轉變為巨大的危險狀態--需要對威脅保持警惕并采取適當的反應行動--所有這些都是在高度壓縮的決策時間內進行。戰術威脅可能來自水下、水面、空中、陸地、太空,甚至是網絡空間,導致需要處理多種時間緊迫的任務。由于海軍和國防資產在艦艇、潛艇、飛機、陸地和太空中,戰術決策空間必須解決這些分散和多樣化資源的最佳協作使用。制定有效的戰術行動方案也必須在高度動態的作戰環境中進行,并且只有部分和不確定的情況知識。決策空間還必須考慮到指揮權、交戰規則和戰術理論所帶來的限制。人類作為戰術決策者的角色增加了決策空間的復雜性--信息過載、操作錯誤、人機信任和人工智能的模糊性/可解釋性問題等挑戰。最后,對于戰術決策及其可能的后果來說,風險可能非常大。

表4. 導致戰術決策復雜性的因素

解決高度復雜的決策領域是對海軍的挑戰。人工智能為解決海軍作戰的復雜性提供了一個潛在的解決方案,即處理大量的數據,處理不確定性,理解復雜的情況,開發和評估決策選擇,以及理解風險水平和決策后果。Desclaux和Prestot(2020)提出了一個 "認知三角",其中人工智能和大數據被應用于支持作戰人員,以實現信息優勢、控制論信心和決策優勢。約翰遜(2019年)開發了一個工程框架和理論,用于解決高度復雜的問題空間,這些問題需要使用智能和分布式人工智能系統來獲得情況意識,并做出適應動態情況的協作行動方案決定。約翰遜(2020a)建立了一個復雜的戰術場景模型,以證明人工智能輔助決策對戰術指揮和控制(C2)決策的好處。約翰遜(2020b)開發了一個預測分析能力的概念設計,作為一個自動化的實時戰爭游戲系統來實施,探索不同的可能的戰術行動路線及其預測的效果和紅色部隊的反應。首先,人工智能支持的C2系統需要描述戰術行動期間的復雜程度,然后提供一個自適應的人機組合安排來做出戰術決策。這個概念包括根據對目前戰術情況的復雜程度最有效的方法來調整C2決策的自動化水平(人與機器的決策角色)。約翰遜(2021年)正在研究這些概念性工程方法在各種防御用例中的應用,包括空中和導彈防御、超視距打擊、船舶自衛、無人機操作和激光武器系統。

在海軍作戰中實施人工智能系統的一個額外挑戰是在戰術邊緣施加的限制。分散的海軍艦艇和飛機的作戰行動構成了戰術邊緣--在有限的數據和通信下作戰。"在未來,戰術邊緣遠離指揮中心,通信和計算資源有限,戰場形勢瞬息萬變,這就導致在嚴酷復雜的戰地環境中,網絡拓撲結構連接薄弱,變化迅速"(Yang et. al. 2021)。戰術邊緣網絡也容易斷開連接(Sridharan et. al. 2020)。相比之下,許多商業人工智能系統依賴于基于云的或企業內部的處理和存儲,而這些在海戰中是不存在的。在戰術邊緣實施未來的人工智能系統時,必須進行仔細的設計考慮,以了解哪些數據和處理能力可用。這可能會限制人工智能系統在邊緣所能提供的決策支持能力。

在軍事領域使用人工智能必須克服復雜性的挑戰障礙,在某些情況下,人工智能的加入可能會增加復雜性。辛普森等人(2021)認為,將人工智能用于軍事C2可能會導致脆弱性陷阱,在這種情況下,自動化功能增加了戰斗行動的速度,超出了人類的理解能力,最終導致 "災難性的戰略失敗"。Horowitz等人(2020)討論了通過事故、誤判、增加戰爭速度和升級以及更大的殺傷力來增加國際不穩定和沖突。Jensen等人(2020)指出,人工智能增強的軍事系統增加的復雜性將增加決策建議和產生的信息的范圍、重要性和意義的不確定性;如果人類決策者對產出缺乏信心和理解,他們可能會失去對人工智能系統的信任。

挑戰二:數據需求

實施人工智能系統的第二個挑戰是它們依賴并需要大量的相關和高質量的數據用于開發、訓練、評估和操作。在海戰領域滿足這些數據需求是一個挑戰。明確編程的專家系統在開發過程中需要數據進行評估和驗證。ML系統在開發過程中對數據的依賴性甚至更大。圖1說明了ML系統如何從代表作戰條件和事件的數據集中 "學習"。

ML系統的學習過程被稱為被訓練,開發階段使用的數據被稱為訓練數據集。有幾種類型的ML學習或訓練--它們是監督的、無監督的和強化的方法。監督學習依賴于地面真相或關于輸出值應該是什么的先驗知識。監督學習算法的訓練是為了學習一個最接近給定輸入和期望輸出之間關系的函數。無監督學習并不從地面真相或已知的輸出開始。無監督學習算法必須在輸入數據中推斷出一個自然結構或模式。強化學習是一種試錯法,允許代理或算法在獎勵所需行為和/或懲罰不需要的行為的基礎上學習。所有三種類型的ML學習都需要訓練數據集。在部署后或運行階段,ML系統繼續需要數據。

圖1顯示,在運行期間,ML系統或 "模型 "接收運行的實時數據,并通過用其 "訓練 "的算法處理運行數據來確定預測或決策結果。因此,在整個系統工程和采購生命周期中,ML系統與數據緊密相連。ML系統是從訓練數據集的學習過程中 "出現 "的。ML系統是數據的質量、充分性和代表性的產物。它們完全依賴于其訓練數據集。

圖1. 使用數據來訓練機器學習系統

美國海軍開始認識到對這些數據集的需求,因為許多領域(戰爭、供應鏈、安全、后勤等)的更多人工智能開發人員正在了解人工智能解決方案的潛在好處,并開始著手開發人工智能系統。在某些情況下,數據已經存在并準備好支持人工智能系統的開發。在其他情況下,數據存在但沒有被保存和儲存。最后,在其他情況下,數據并不存在,海軍需要制定一個計劃來獲得或模擬數據。

收集數據以滿足海軍領域(以及更廣泛的軍事領域)的未來人工智能/ML系統需求是一個挑戰。數據通常是保密的,在不同的項目和系統中被分隔開來,不容易從遺留系統中獲得,并且不能普遍代表現實世界行動的復雜性和多樣性。要從并非為數據收集而設計的遺留系統中獲得足夠的數據,可能非常昂貴和費時。數據收集可能需要從戰爭游戲、艦隊演習、系統測試、以及建模和模擬中收集。此外,和平時期收集的數據并不代表沖突和戰時的操作。海軍(和軍方)還必須教導人工智能系統在預計的戰時行動中發揮作用。這將涉及想象可能的(和可能的)戰時行動,并構建足夠的ML訓練數據。

數據收集的另一個挑戰是潛在的對抗性黑客攻擊。對于人工智能/ML系統來說,數據是一種珍貴的商品,并提出了一種新的網絡脆弱性形式。對手可以故意在開發過程中引入有偏見或腐敗的數據,目的是錯誤地訓練AI/ML算法。這種邪惡的網絡攻擊形式可能很難被發現。

海軍正在解決這一數據挑戰,開發一個數據基礎設施和組織來管理已經收集和正在收集的數據。海軍的Jupiter計劃是一個企業數據和分析平臺,正在管理數據以支持AI/ML的發展和其他類型的海軍應用,這些應用需要與任務相關的數據(Abeyta,2021)。Jupiter努力的核心是確定是否存在正確的數據類型來支持人工智能應用。為了生產出在行動中有用的人工智能/ML系統,海軍需要在游戲中保持領先,擁有能夠代表各種可能情況的數據集,這些情況跨越了競爭、沖突和危機期間的行動范圍。因此,數據集的開發和管理必須是一項持續的、不斷發展的努力。

挑戰三:工程化人工智能系統

第三個挑戰是,人工智能系統的工程需要改變傳統的系統工程(SE)。在傳統系統中,行為是設定的(確定性的),因此是可預測的:給定一個輸入和條件,系統將產生一個可預測的輸出。一些人工智能解決方案可能涉及到系統本身的復雜性--適應和學習--因此產生不可預見的輸出和行為。事實上,一些人工智能系統的意圖就是要做到這一點--通過承擔一些認知負荷和產生智能建議,與人類決策者合作。表5強調了傳統系統和人工智能系統之間的區別。需要有新的SE方法來設計智能學習系統,并確保它們對人類操作者來說是可解釋的、可信任的和安全的。

SE作為一個多學科領域,在海軍中被廣泛使用,以將技術整合到連貫而有用的系統中,從而完成任務需求(INCOSE 2015)。SE方法已經被開發出來用于傳統系統的工程設計,這些系統可能是高度復雜的,但也是確定性的(Calvano和John 2004)。如表5所述,傳統系統具有可預測的行為:對于一個給定的輸入和條件,它們會產生可預測的輸出。然而,許多海軍應用的人工智能系統在本質上將是復雜的、適應性的和非決定性的。Raz等人(2021年)解釋說,"SE及其方法的雛形基礎并不是為配備人工智能(即機器學習和深度學習)的最新進展、聯合的多樣化自主系統或多領域操作的工程系統而設想的。" 對于具有高風險后果的軍事系統來說,出錯的余地很小;因此,SE過程對于確保海軍中人工智能系統的安全和理想操作至關重要。

表5. 傳統系統和人工智能系統的比較

在整個系統生命周期中,將需要改變SE方法,以確保人工智能系統安全有效地運行、學習和適應,以滿足任務需求并避免不受歡迎的行為。傳統的SE過程的大部分都需要轉變,以解決人工智能系統的復雜和非確定性的特點。在人工智能系統的需求分析和架構開發階段需要新的方法,這些系統將隨著時間的推移而學習和變化。系統驗證和確認階段將必須解決人工智能系統演化出的突發行為的可能性,這些系統的行為不是完全可預測的,其內部參數和特征正在學習和變化。運營和維護將承擔重要的任務,即隨著人工智能系統的發展,在部署期間不斷確保安全和理想的行為。

SE界意識到,需要新的流程和實踐來設計人工智能系統。國際系統工程師理事會(INCOSE)最近的一項倡議正在探索開發人工智能系統所需的SE方法的變化。表6強調了作為該倡議一部分的五個SE重點領域。除了非決定性的和不斷變化的行為,人工智能系統可能會出現新類型的故障模式,這些故障模式是無法預料的,可能會突然發生,而且其根本原因可能難以辨別。穩健設計--或確保人工智能系統能夠處理和適應未來的情景--是另一個需要新方法的SE領域。最后,對于有更多的人機互動的人工智能系統,必須仔細注意設計系統,使它們值得信賴,可以解釋,并最終對人類決策者有用。

表6.人工智能系統工程中的挑戰(改編自:Robinson,2021)。

SE研究人員正在研究人工智能系統工程所涉及的挑戰,并開發新的SE方法和對現有SE方法的必要修改。Johnson(2019)開發了一個SE框架和方法,用于工程復雜的適應性系統(CASoS)解決方案,涉及分布式人工智能系統的智能協作。這種方法支持開發智能系統的系統,通過使用人工智能,可以協作產生所需的突發行為。Johnson(2021)研究了人工智能系統產生的潛在新故障模式,并提出了一套跨越SE生命周期的緩解和故障預防策略。她提出了元認知,作為人工智能系統自我識別內部錯誤和失敗的設計方案。Cruz等人(2021年)研究了人工智能在空中和導彈防御應用中使用人工智能輔助決策的安全性。他們為計劃使用人工智能系統的軍事項目編制了一份在SE開發和運行階段需要實施的策略和任務清單。Hui(2021年)研究了人類作戰人員與人工智能系統合作進行海軍戰術決策時的信任動態。他制定了工程人工智能系統的SE策略,促進人類和機器之間的 "校準 "信任,這是作為適當利用的最佳信任水平,避免過度信任和不信任,并在信任失敗后涉及信任修復行動。Johnson等人(2014)開發了一種SE方法,即協同設計,用于正式分析人機功能和行為的相互依賴性。研究人員正在使用協同設計方法來設計涉及復雜人機交互的穩健人工智能系統(Blickey等人,2021年,Sanchez 2021年,Tai 2021年)。

數據的作用對于人工智能系統的開發和運行來說是不可或缺的,因此需要在人工智能系統的SE生命周期中加入一個持續不斷的收集和準備數據的過程。Raz等人(2021)提出,SE需要成為人工智能系統的 "數據策劃者"。他們強調需要將數據策劃或轉化為可用的結構,用于開發、訓練和評估AI算法。French等人(2021)描述了需要適當的數據策劃來支持人工智能系統的發展,他們強調需要確保數據能夠代表人工智能系統將在其中運行的預期操作。他們強調需要安全訪問和保護數據,以及需要識別和消除數據中的固有偏見。

SE界正處于發展突破和進步的早期階段,這些突破和進步是在更復雜的應用中設計人工智能系統所需要的。這些進展需要與人工智能的進展同步進行。在復雜的海軍應用以及其他非海軍和非軍事應用中實施人工智能系統取決于是否有必要的工程實踐。SE實踐必須趕上AI的進步,以確保海軍持續的技術優勢。

挑戰四:對抗性

海軍在有效實施人工智能系統方面面臨的第四個挑戰是應對對手。海軍的工作必須始終考慮對手的作用及其影響。表7確定了在海軍實施人工智能系統時必須考慮的與對手有關的三個挑戰:(1)人工智能技術在許多領域迅速發展,海軍必須注意同行競爭國的軍事應用進展,以防止被超越,(2)在海軍應用中實施人工智能系統和自動化會增加網絡脆弱性,以及(3)海軍應用的人工智能系統需要發展和適應,以應對不斷變化的威脅環境。

表7. AI系統的對抗性挑戰

同行競爭國家之間發展人工智能能力的競賽,最終是為了進入對手的決策周期,以便比對手更快地做出決定和采取行動(Schmidt等人,2021年)。人工智能系統提供了提高決策質量和速度的潛力,因此對獲得決策優勢至關重要。隨著海軍對人工智能解決方案的探索,同行的競爭國家也在做同樣的事情。最終實現將人工智能應用于海軍的目標,不僅僅取決于人工智能研究。它需要適當的數據收集和管理,有效的SE方法,以及仔細考慮人類與AI系統的互動。海軍必須承認,并采取行動解決實施人工智能系統所涉及的挑戰,以贏得比賽。

網絡戰是海軍必須成功參與的另一場競賽,以保持在不斷沖擊的黑客企圖中的領先地位。網絡戰的特點是利用計算機和網絡來攻擊敵人的信息系統(Libicki, 2009)。海軍對人工智能系統的實施導致了更多的網絡攻擊漏洞。人工智能系統的使用在本質上依賴于訓練和操作數據,導致黑客有機會在開發階段和操作階段用腐敗的數據欺騙或毒害系統。如果一個對手獲得了對一個運行中的人工智能系統的控制,他們可能造成的傷害將取決于應用領域。對于支持武器控制決策的自動化,其后果可能是致命的。海軍必須注意人工智能系統開發過程中出現的特殊網絡漏洞。必須為每個新的人工智能系統實施仔細的網絡風險分析和網絡防御戰略。海軍必須小心翼翼地確保用于開發、訓練和操作人工智能系統的數據集在整個人工智能系統的生命周期中受到保護,免受網絡攻擊(French等人,2021)。

威脅環境的演變是海軍在開發AI系統時面臨的第三個對抗性挑戰。對手的威脅空間隨著時間的推移不斷變化,武器速度更快、殺傷力更大、監視資產更多、反制措施更先進、隱身性更強,這對海軍能夠預測和識別新威脅、應對戰斗空間的未知因素構成了挑戰。尤其是人工智能系統,必須能夠加強海軍感知、探測和識別新威脅的能力,以幫助它們從未知領域轉向已知領域的過程。他們必須適應新的威脅環境,并在行動中學習,以了解戰斗空間中的未知因素,并通過創新的行動方案快速應對新的威脅(Grooms 2019, Wood 2019, Jones et al 2020)。海軍可以利用人工智能系統,通過研究特定區域或領域的長期數據,識別生活模式的異常(Zhao等人,2016)。最后,海軍可以探索使用人工智能來確定新的和有效的行動方案,使用最佳的戰爭資源來解決棘手的威脅情況。

結論

人工智能系統為海軍戰術決策的優勢提供了相當大的進步潛力。然而,人工智能系統在海戰應用中的實施帶來了重大挑戰。人工智能系統與傳統系統不同--它們是非決定性的,可以學習和適應--特別是在用于更復雜的行動時,如高度動態的、時間關鍵的、不確定的戰術行動環境中,允許的誤差范圍極小。本文確定了為海戰行動實施人工智能系統的四個挑戰領域:(1)開發能夠解決戰爭復雜性的人工智能系統,(2)滿足人工智能系統開發和運行的數據需求,(3)設計這些新穎的非確定性系統,以及(4)面對對手帶來的挑戰。

海軍必須努力解決如何設計和部署這些新穎而復雜的人工智能系統,以滿足戰爭行動的需求。作者在這一工作中向海軍提出了三項建議。

1.第一個建議是了解人工智能系統與傳統系統之間的差異,以及伴隨著人工智能系統的開發和實施的新挑戰。

人工智能系統,尤其是那些旨在用于像海戰這樣的復雜行動的系統,其本身就很復雜。它們在應對動態戰爭環境時將會學習、適應和進化。它們將變得不那么容易理解,更加不可預測,并將出現新型的故障模式。海軍將需要了解傳統的SE方法何時以及如何在這些復雜系統及其復雜的人機交互工程中失效。海軍將需要了解數據對于開發人工智能系統的關鍵作用。

2.第二個建議是投資于人工智能系統的研究和開發,包括其數據需求、人機互動、SE方法、網絡保護和復雜行為。

研究和開發是為海戰行動開發AI系統解決方案的關鍵。除了開發復雜的戰術人工智能系統及其相關的人機協作方面,海軍必須投資研究新的SE方法來設計和評估這些適應性非決定性系統。海軍必須仔細研究哪些新類型的對抗性網絡攻擊是可能的,并且必須開發出解決這些問題的解決方案。海軍必須投資于收集、獲取和維護代表現實世界戰術行動的數據,用于人工智能系統開發,并確保數據的相關性、有效性和安全性。

3.第三個建議是承認挑戰,并在預測人工智能系統何時準備好用于戰爭行動方面采取現實態度。

盡管人工智能系統正在許多領域實施,但海軍要為復雜的戰術戰爭行動實施人工智能系統還需要克服一些挑戰。人工智能系統在較簡單應用中的成功并不能保證人工智能系統為更復雜的應用做好準備。海軍應該保持一種現實的認識,即在人工智能系統準備用于戰爭決策輔助工具之前,需要取得重大進展以克服本文所討論的挑戰。實現人工智能系統的途徑可以依靠建模和模擬、原型實驗、艦隊演習以及測試和評估。可以制定一個路線圖,彌合較簡單應用的人工智能和復雜應用的人工智能之間的差距--基于一個積木式的方法,在為逐漸復雜的任務開發和實施人工智能系統時吸取經驗教訓。

海軍將從未來用于戰術戰爭的人工智能系統中獲益。通過安全和有效地實施人工智能系統,戰術決策優勢的重大進步是可能的。此外,海軍必須跟上(或試圖超越)對手在人工智能方面的進展。本文描述了為在海戰中實施人工智能系統而必須解決的四個挑戰。通過對這些新穎而復雜的人工智能系統的深入了解,對研究和開發計劃的投資,以及對人工智能技術進步時限的現實預期,海軍可以在應對這些挑戰方面取得進展。

付費5元查看完整內容

無人系統,無論是遙控操作還是不同程度的自主操作,已經成為國防庫存的一部分,除了用于情報、監視和偵察(ISR)之外,還迅速成為作戰部隊的重要組成部分。無人駕駛飛行器(UAVs)具有數天的續航能力和洲際范圍的打擊能力,正在重新定義戰爭理論和作戰戰術。海軍和地面部隊將成為無人系統的新領地,而這一領地至今仍由無人機主導。真正的轉折點將是人類和自主無人系統的合作,無論是在任何戰斗空間。另一個領域將是空中、地面和海軍異質無人系統的合作,并迅速形成業務自主團隊。重要的是要認識到,無論是基于確定性模型還是人工智能的算法計算,都不能取代人類對手頭關鍵信息的戰術判斷。所謂的態勢感知可以由經驗豐富的戰場指揮官來理解,而不是由實驗室訓練的自主系統來理解。在復雜的情況下,特別是在識別朋友和敵人、誘餌以及確定目標的優先次序方面,團隊合作將是一個挑戰。自主系統將需要學會節約能源和彈藥,并具備應對不利情況的生存技能。另一個重要的領域將是開發 "天生自主 "的平臺,其性能將超過所有的載人平臺,特別是大型平臺。本質上,人類注意力持續時間的限制和生物的必要性是國防系統設計者的主要挑戰。無人自主系統(UAS)克服了這些限制,同時放棄了人類獨特的敏銳性和啟發式知識。緊湊的可能性、承擔風險的能力和巨大的耐力和范圍,以及最重要的是,可以部署的數量超過了每一個方面。無人戰場系統領域仍處于起步階段,具有先驅者的優勢,因此將永遠決定領導者的地位。該領域屬于那些敢于和不畏懼未知和不確定因素的人。這個領域的創新的簡單規則是快速失敗和快速發展。

1 引言

機器人的第一個應用是在核反應堆中裝載和收回燃料棒,這是一項危險的任務,絕對需要使用機械手和夾持器遠程完成。由于對柔性制造工廠的需要,工業機器人大舉進入生產線。由于機器人具有適應新任務的靈活性,應用機器人完成重復以及危險的任務已成為該行業的一種常態。這些系統的遠程操作,無論有無電線,都已經被業界掌握。在第二次世界大戰期間,德國人使用了歌利亞履帶式地雷。埃弗雷特很好地記錄了這個遠程操作系統和其他無人系統的發展。歌利亞 "的基本思想是用小而便宜的東西殺死大東西;即使在今天,這也是所有無人系統的主要思想,廣泛地說,它是用更少的錢實現更多的東西。任何未來的國防規劃都無法想象會遺漏無人系統。傳統的防御技術一直依賴于傳感器、推進器、制導、軍備等核心技術的進步,并在此基礎上發展壯大。毫無疑問,這些核心技術的研究將以同樣的強度繼續下去,然而,使用無人平臺的創新將為部隊提供前所未有的力量。事實上,今天的無人系統所使用的技術很早就有了,是創新的動力和新的信心水平在推動著新的增長。

日本特種部隊的神風特攻隊飛行員在一次自殺任務中展示了飛行器的殺傷力,突出了這樣一個事實:如果飛行員遠程操作飛機,冒險的能力會成倍增加。然而,無人駕駛飛行器(UAVs)的第一個更高的技術應用是用于情報、監視和偵察(ISR)的作用,與有人駕駛的飛機相比,具有更高的續航能力和射程,以及更高的被擊落接受度。特別是在航空平臺上,取消機上人員提供了巨大的優勢;首先,消除了飛行員寶貴生命的風險,其次,可以獲得額外的空間和重量。載人飛機只會在非常特殊的情況下參與,將大部分任務留給遙控平臺,包括戰斗任務。

有必要回顧一下美國的U2間諜飛機在非常高的高度飛行,對蘇聯執行偵察任務。最初沒有武器來擊落這些飛機。這種導彈最終被開發出來。美國開發的SR-71飛機可以以3.4馬赫的速度飛行,但很快就退役了,改用間諜衛星。現在是無人機填補這一空間的時候了,即使不是完全填補。一群無人機聯網并覆蓋一個巨大的區域可以提供大量的情報和通信覆蓋。

隨著學習算法的成熟,人工智能(AI)作為主要推動力的出現將成為無人駕駛系統的主要工作動力。具體來說,基于人工智能的圖像處理和推理引擎是最近一段時間的主要發展。其中包括人臉識別,目標的識別和分類--一個人是拿著槍還是拿著杖,一輛車是否是值得的軍事目標。重要的方面是人工智能系統可以得到多好的訓練,他們的推斷能力有多強,當出現反直覺的情況時,會發生什么。必須接受的是,在該領域有經驗的人可能會很慢,而且可能會犯錯,但當涉及到未知因素時,他的啟發式方法和直覺可能是更好的選擇。

整個現代戰爭都取決于通信領域,誰在戰場上主導了這個領域,誰就會有巨大的優勢。整個無人系統如果沒有一個強大的通信系統,就會使自己失去作用。能夠與指揮中心有效溝通的空間資產甚至更加重要。

最令人興奮的是 "蜂群 "的概念,其中蜂群的單個實體可能有非常簡單的傳感器和控制器,但在一個具有簡單蜂群算法的編隊中,它們可以成為一支重要的力量,當它們攻擊傳統平臺時,沒有人能夠對付它們。想象一下,當反艦導彈在其目標附近投放蜂群時,這些攜帶小型炸藥的蜂群實體可以擊中戰艦的重要系統,或者可以做任何事情,包括將戰艦圍困。目前,唯一可以想象的針對蜂群的可靠對策是反蜂群。

科學和技術研究將在核心技術和材料科學方面繼續保持同樣的活力,特別是在非金屬材料方面。未來的無人系統研究將更多地以應用為導向,學術界和國防科學家共同合作,調整和配置技術,包括非常嚴肅的實驗室模擬和實際場景的仿真,以及對必須處理這些情況的人工智能引擎的培訓。

2 未來的研究方向

審慎的做法是看一下一些可能的未來主旨領域,在這些領域中,可以預期會有顯著的增長。建造未來無人系統的技術將與建造傳統戰爭機器的技術相同,然而,有幾個重要的應用研究領域將需要立即關注和努力。

2.1 通信系統

首先,最重要的是要有能力與異質系統進行無縫通信,這些系統將有不同的起源和建造日期。所有的東西都不可能是最新的和最先進的。有必要建立一個骨干網,以無縫地處理所有最先進的和傳統的系統,以便指揮中心的人類指揮官能夠快速更新和理解情況,并給這些無人駕駛系統提供適當的指示。將需要具有容錯和快速重新配置能力的分布式通信網絡。這些網絡應該能夠使用多種資源,即衛星、無人機、地面光纖網絡、帶有或不帶中繼器的不同頻段的無線網絡。這些系統將是軟件驅動的,有能力用任何可用的最佳資源建立從戰場到指揮中心的聯系。通信系統需要應對固定電話的物理破壞、無線鏈接的干擾等。毋庸強調,通信網絡應該有強大的加密、解密和認證系統。據說,在未來的任何戰爭中,誰主導了電磁空間,誰就是贏家。應該承認,現代系統有很強的屏蔽能力和抗干擾能力,它們可以 甚至可以承受高能量的脈沖。使敵方平臺失明到支配水平所需的能量水平是巨大的,不切實際的,甚至是不可能的。其次,利用衛星、無人機作為通信平臺,可以快速連接備用通信渠道。總而言之,誰擁有更好的和強大的通信網絡,誰能更快地處理數據并有效地利用現有的數據,誰就能在戰場上處理無人駕駛系統方面擁有巨大的優勢。

2.2 有人與無人機編隊

有人與無人機編隊(MUMT)是一個預期的增長方向,其主要目標是在最大限度保護載人平臺的情況下有效打擊目標。這帶來了一個優越的形勢思考者--人類--的優勢,這樣他就可以指導無人平臺達到最佳效果。有人-無人合作可能有許多技術挑戰,但它似乎是一個值得追求的研究領域。一個典型的場景可能是傳統戰斗機與無人平臺一起飛行。美國的國際防務、航空航天和安全公司BAE系統公司已經宣布了無人駕駛僚機的概念,并且可以使用無人駕駛僚機的戰斗機具有更多的生存能力和更大的殺傷力。諾斯羅普-格魯曼公司也發表了一篇論文,提出了一個典型的作戰場景,即一群無人機干擾敵人的雷達,并在進行救援行動時自主地參與戰斗。有人和無人平臺之間的合作以及戰術場景需要由各自的專業人員進行想象和制定。團隊合作的不同場景必須被模擬、仿真,并對人工智能引擎和人類作戰員進行培訓。

2.3 蜂群系統

無人機、無人地面飛行器和無人水面及水面下系統組成的蜂群可以對沒有任何反制措施的常規平臺造成不成比例的破壞。一輛作戰坦克如果被一群炸藥包圍,僅憑數量就沒有生存的機會。電子對抗措施可能起作用,也可能不起作用,這取決于這些實體被設計成如何在受挑戰的環境中運作。很難想象常規平臺在面對蜂群時的命運。使用誘餌,如照明彈、金屬箔片、高強度輻射來蒙蔽搜尋者、反射器、熱信號模擬器的經典方法可能對蜂群沒有用。它不像一個單一的彈頭朝向目標,你甚至可以用反導彈系統將其擊落。無人機群更容易建造和部署,它們可以由一個較大的無人機運送到離目標足夠近的地方,但又足夠遠以保證自身的安全。它類似于從戰斗機上遠距離發射的反艦導彈。飛機從未進入艦艇防空導彈的射程,但其射程足以讓反艦導彈到達目標。

蜂群依賴于蜂群算法,這些算法將通過在計算機模型或實驗室的實驗裝置中的模擬環境中進行訓練而發展。Eric Bonabeau、Marco Dorigo和Guy Theraulaz在他們的書中提供了對蜂群算法的良好見解。人工神經網絡(ANN)、遺傳算法(GA)、模糊邏輯、圖論等的組合,成為學習和建立人工智能系統的基本工具。這些基于人工智能的系統和一些確定性的算法將能夠處理蜂群操作的一些重要方面,即:蜂群的傳播、目標的識別和將目標分配給蜂群成員、目標的優先次序、蜂群的領導和等級制度、它們的操作情緒,即:保存能量、保壘、全力攻擊或撤退。就像自然界的蜂群或獸群一樣,它們需要具備生物世界的一些特征,以獲得更好的效率和生存。有些情況可能是為了部落的更大利益而進行自我犧牲。一個直接的需要是解決識別朋友或敵人的問題,并在與指揮中心失去聯系時以最佳方式采取行動。一群無人駕駛的戰斗坦克的成本和大小將是四分之一,并且有更多的裝甲來打敗傳統的反坦克射擊。

在極低地球軌道上的太空衛星群具有較短的壽命,將給部隊帶來優勢。將會有一種 "軍事物聯網 "的出現。

未來的戰場如果沒有各種蜂群將是不可想象的。武裝部隊別無選擇,要么盡快接納它們,要么面對它們。

2.4 先天自主性

不難預見,超音速無人駕駛作戰飛機的出現,以及類似的無人駕駛作戰坦克、無人駕駛海軍艦艇和潛艇的出現,與現有的常規平臺相比,其殺傷力要大很多。這些系統將以自上而下的方式設計為 "天生自主",并能夠在人類指揮官的指揮下以群組的形式運行,戰術上避開障礙物、與指定目標交戰等任務都是自主完成的。諾斯羅普-格魯曼公司的X-47B已經完成了半自主和自主模式的飛行試驗。預計它將在半自主模式下投入運行。

直觀地講,可以理解的是,不能讓自主系統自己操作,因為它們是根據所學的內容來操作的,對于不熟悉的和大綱以外的問題,人工智能可能沒有答案,但在完全不確定的情況下,人類的理解力可能要好得多。像無人駕駛作戰坦克這樣的大型平臺可以在半自主模式下運行,其中發射武器的決定將由人類控制,而其他操作,如避開障礙物和移動將是自主的。一個操作員控制幾個平臺的可能性將需要有效的算法開發,最重要的是培訓。

將接近報廢的常規平臺轉換為無人系統是另一種選擇,以便在 "先天自主"類型的系統擴散之前擁有一個相當大的無人系統基地。這樣的轉換需要非常小心,因為大多數子系統可能需要調整和手動調整,甚至是修改。戰斗機、作戰坦克、海軍艦艇包括潛艇的轉換可能需要更深入的研究,如果是許多大型平臺,可能不值得努力。未來具有可比火力的無人系統在尺寸和重量上將更小,并將攜帶更多的傳感器,而且必然會有一個完整的健康監測系統。

2.5 改變戰場

推動未來發展的另一個重要方面是大型平臺面對不斷發展的導彈技術時的脆弱性。尋的器變得更加智能和精確,推進系統變得更快,而高超音速導彈也不是很遙遠。現在已經到了裝甲部隊更難戰勝彈藥的階段。除非使用大型航空母艦的部隊能夠完全支配敵人,否則大型航空母艦的前景確實很暗淡。抵消這種情況的唯一方法是擁有大量的無人駕駛系統,形成無法對抗的集群。需要注意的是,任何反制措施的發展都會滯后于任何新的戰爭武器。目前,無人系統,尤其是蜂群具有這種優勢。任何擁有蜂群打擊能力的武裝力量都將在戰場上擁有巨大的優勢。

指揮中心將需要大量的軟件來吸收來自無人駕駛系統的巨大數據流。人類不可能處理和控制具有不同任務的多個蜂群,因此,指揮中心的軟件工具需要具有優先考慮的能力,并為人類決策者提供圖形化的情況,以便向自主無人平臺蜂群發出指令,有效地完成任務。首先,我們應該建立這樣的指揮中心,能夠處理巨大的通信流量。其次,軟件應該能夠吸收數據并大致推斷出情況,并提出人類指揮官必須知道并采取行動的重要和關鍵信息。

軍事硬件的庫存將是異質的,種類繁多,這與維修專業人員的意愿相反。使用傳統的記賬和存儲方法將是不可能的。幸運的是,可以建立具有健康監測功能的系統,其升級和維護記錄可以通過軟件集成來實現自動化,大部分傳統的存儲管理也可以實現自動化。庫存的種類和巨大的類型反而是可取的,而不是維護的禍根。即使從管理的角度來看,這些系統的自動化也會使尾牙比率下降。然而,這些系統的技術支持需要工業企業的支持,無人駕駛系統和人類指揮官的培訓需要特殊的實驗室基礎設施。

2.6 未來水雷戰

目前,壓力驅動型和影響型地雷被埋在地下,這些地雷等待著敵人的戰斗坦克不小心踏過去而啟動。埋設的地雷將真正被埋入歷史,原因有二:第一,埋設數公里的地雷將無法阻止敵人,因為地雷探測已經變得更快,用掃雷器或布雷器或拖網清除一些地雷的突破口將形成車輛安全通道。強大的掃雷系統可以在一兩個小時內清除一條車道,而敵方車輛可以突破,使苦心營造的雷區完全失去作用。其次,有可能設計出具有智能和移動性的地雷,使雷場具有致命性。未來的雷場將是智能化的地面地雷,對任何企圖突破的行為進行監視,這些地雷也可以是移動的,可以迅速治愈雷場,拒絕敵方車輛和部隊通過,同時為自己的車輛和人員提供安全通道。這樣的智能雷場將是可怕的,并為懲罰敵人提供更多時間。

海底水雷是致命的,因為它們無法被探測到,拆除它們的唯一方法可能是派遣一艘無人駕駛的水面下的船只來目測和消除地雷。目前,海面下的地雷是由耐力有限的特殊破雷船破除的。無人駕駛的破雷自主車輛群可以有效地執行探測和解除這些地雷的任務。

無人機的另一個未來應用是通過各種手段物理攔截低空巡航導彈和其他導彈來保護機場。這個概念類似于地面或海上的雷區。用無人機群在機場周圍設置雷場,可以完全保護機場不受任何入侵。蜂群的方法之一可能是幾個無人機攜帶像網一樣的物理屏障,并將網置于來襲導彈的彈道中。這些可以自主操作,而友軍的飛機將在蜂群提供安全通道的情況下沒有任何問題地運行。

2.7 無人系統隱形技術

擁有隱身技術的第五代飛機將擁有巨大的優勢。具有相同水平的隱身技術和較小的雷達截面的無人機將成為一種可怕的武器。如前所述,常規平臺的所有技術都將流入無人駕駛系統。如果這些系統的群集,最初從群集中分散開來,匯聚到一起攻打敵人的陣地,如機場等,這將是一種致命的和可怕的武器。當出現反戰時,隱身能力將變得很重要,在這種情況下,誰能給誰帶來驚喜將成為制勝點。內部武器艙、合并機身的飛翼和蛇形進氣口將成為UCAVs的基本特征。帶有雷達吸收夾雜物和涂層的復合材料以及具有最小反射邊緣的變形翼將是未來的趨勢。

2.8 無人戰場雷達

不難猜測,現有的雷達在對付RCS非常不明顯的小型無人機時有什么缺點。這些雷達從來就不是為這個角色而設計的。為了謹慎起見,我們應該指出這樣一個事實:能夠提供最遠射程的最節能和緊湊的雷達取決于材料技術和特定半導體技術的制造技術。這是一個被嚴密保護的技術領域,這些技術中最好的技術將被列入拒絕名單,以便技術發展國家始終保持領先。長期以來一直如此,除了先進的半導體之外,所有先進材料也將繼續如此。能夠對大面積地區進行監視的天基雷達也將提供巨大的優勢。然而,另一種方法是擁有無人駕駛的預警監視飛機,其機載雷達以蜂群的形式運作,并持續提供集體情況數據。這不僅可以提供敵方機場行動的數據,還可以提供地面活動的數據。

由無人機或無人水面艦艇進行的海面監視將提供對水面艦艇活動的情況了解。然而,最具挑戰性的部分是次表層領域,其傳感器的范圍非常小,而且介質的不一致性使得探測潛艇極為困難。適當的做法是讓較小的無人潛水艇在感興趣的區域運行,以探測任何敵方的潛水艇。

2.9 國產或進口系統

與傳統系統不同,無人駕駛系統非常容易受到外國供應商可能在代碼中實施的殺傷開關的影響。事實上,從外國提供的所有高科技系統都有保障措施,使武器不能被用來對付原產國,因為它可能落入壞人之手,或者進口國可能在未來變成敵對國家,這不是什么秘密。其次,必須認識到,無人系統的主要優勢在于其數量和在必要時被犧牲的能力,所有進入這些系統的技術總量都是成熟的技術,設計創新是優勢的主要支點。因此,可以得出結論,在國內用已經成熟的技術建立可信的無人系統是可能的。由于數量、種類和不同的尺寸會很高,謹慎的做法是,本土系統應以比發展本身更快的速度引進。

同時,軟件升級和諸如傳感器單元等組建的升級必須經常進行,至少以三年為一個周期,電子和軟件的完整升級壽命最長為10年。無人系統的數量和它們的賭注在未來將繼續增長,這有很多原因。武裝部隊總是期待著技術上最好的產品。然而,技術的創新和應用的增長將是如此之快,以至于超過了傳統的現場試驗、采購和誘導時間周期。非常規的系統需要非常規的入伍方式,而武裝部隊需要一些創新的管理過程。平臺和技術集合體有不同的生命周期,隨著新的步伐,必須盡早考慮預先計劃的產品升級。一些未來的技術可能仍處于理論或早期實驗室階段。更快的誘導和升級的經濟性既不會打動管理者,也不會打動財務控制人員。

3 結論

無人戰場系統,尤其是 "神風 "無人機,已經經過了實戰檢驗。具有非常有效的人工智能的蜂群技術將在戰場上幾乎是無敵的,具有無可比擬的優勢,因為傳統平臺目前對這種蜂群沒有任何對策。主要的驅動力將是利用已經證實的技術的創新設計,并探索和利用人的生命不受威脅時的獨特優勢。在人工智能系統的開發和實施以及針對特定場景的蜂群訓練方面的應用研究有巨大的潛力。作者第一次接觸人工智能是在1996年,當時印度孟買理工學院的一位研究學者正在研究人工神經網絡,他咨詢確認網絡是否在學習。 該網絡的學習能力確實令人驚訝。后來,作者在研究了一些關于蜂群的學術著作后,于2008年寫了一篇內部論文。然而,所進行的研究并沒有形成一個可交付的產品。

現在用于先進常規平臺的所有先進技術將被部署在無人系統中,這將更加有效。有效的載人-無人機組隊可以給作戰部隊帶來不對稱的優勢。

由于常規導彈系統和定位技術的巨大進步,大型常規平臺更加脆弱,但也因為無人系統的蜂擁而至。陸地和海上的地雷戰將被重新定義,無人預警和監視群將是關鍵領域。

指揮中心將需要智能推斷引擎,以吸收來自無人系統的數百個傳感器的大量數據,并將可理解的數據呈現給人類指揮官,以便他們做出關鍵的決定。

誘導一個創新的首創系統具有先鋒優勢,因為不存在針對這種系統的對策,這將為先鋒提供不對稱的優勢。這不是一個等待和觀察心態的領域。在這里,創造者和先驅者拿走一切。自主無人戰場系統有無限的可能性等待我們去探索。

有必要在每個行動領域建立專門的無人駕駛戰場系統開發中心。在我們建立和測試這些系統時,"天生的無人駕駛 "將有不同的設計原則需要發展。學術研究人員和設計專業人員之間需要協同合作,特別是在算法和軟件的開發方面。謹慎的做法是強調確定性的算法是基礎,而基于人工智能的算法則是通過計算機和物理模擬的系統學習過程中產生的。健全的算法構成了無人駕駛戰場行動的支柱,尤其是在有挑戰的環境中。最后,控制戰斗的人類指揮官將根據他們的啟發式方法和直覺做出最后的決定。

付費5元查看完整內容

人工智能(AI)應用于武器系統是過去10年研究的一個主要趨勢。這些舉措旨在提高武器的準確性,執行非主動的瞄準手段,幫助導航和制導與控制(例如,在全球定位系統被拒絕的情況下),并減少與傳統的基于物理學的方法相比的整體計算資源,以便在更小、更實惠的武器系統上實現智能瞄準。這項研究還包括將作戰人員的戰斗空間擴展到無人駕駛飛行器,并使用蜂群方法與有人和無人平臺進行合作。

我們首先概述了人工智能的描述和歷史,并概述了人工智能在武器系統中的原理、技術和應用。這包括對監督自主系統;制導、導航和控制;行為和路徑規劃;傳感器和信息融合;智能戰略和規劃;兵棋推演建模;以及認知電子戰的研究和計劃的回顧。

然后,對將人工智能應用于武器系統的系統和項目進行了調查。雖然重點是基于美國的系統和項目,但也包括一個關于俄羅斯和中國相關系統的小節。最后,我們對將人工智能用于武器系統的倫理考慮進行了簡要評論。

引言

1.1 問題陳述

機器學習(ML)和人工智能研究的最新進展揭示了人工智能在實現創新、增加機器的效用以及增強人類能力和經驗方面的力量和潛力。人工智能技術的顛覆性和其影響的深度還沒有被廣大公眾完全掌握。考慮到新時代的新興技術威脅,展示關鍵和相關的人工智能研究和最先進的技術是很重要的,這些技術不僅為武器系統提供了比傳統武器系統更多的自主權,而且大大增加了它們的殺傷力和戰斗生存能力。最終,人工智能在開發改變游戲規則的技術方面帶來了巨大的戰略機遇,這將確保國家安全、繁榮和技術領先地位。

1.2 常規武器系統

美國軍方在創造先進的常規武器技術方面取得了巨大的進步,這些技術支持了士兵在戰場上的任務并增強了他們的能力。這些常規武器技術大多是自動化系統,在計劃、執行和完成一項任務或使命時依靠一套預先編程的規則。然而,在中國和俄羅斯等國家新開發的武器的前沿陣地上,人工智能支持的戰爭和高超音速武器給美國武裝部隊帶來了新一代的質量挑戰。下一代戰斗的步伐要求為戰略決策進行時間緊迫和大量的戰斗信息處理,這使得美國的許多常規武器系統只能執行低風險的任務,并在核領域之外處于威懾力減弱的態勢。

必須承認,人是昂貴的訓練資產。在戰場上增加更多的人員并不是推進最先進的戰爭的優雅或廉價的解決方案。相反,用支持人工智能的智能硬件來增強人在回路中的系統,可以在戰區提供更多的眼睛和耳朵,并通過使人工智能系統執行一些簡單和常規的任務來釋放人類的決策。

此外,無人駕駛作戰飛機系統(UCAS)是一種成熟的具有成本效益的系統解決方案,用于執行情報、監視和偵察(ISR)任務和遠程空襲。然而,自動化能力仍然受到人類在環形操作、評估和接觸的限制。雖然在任何可預見的未來都沒有打算消除武器化人工智能系統中的人類元素,但人類的能力仍然構成這些系統協同潛力的上限。但是,一個由人工智能驅動的智能武器系統的新生態系統將迎來新的戰爭形式和戰略。

人工智能國家安全委員會在其2021年的報告中提出,美國國防部(DoD)的軍事企業在整合人工智能技術方面落后于商業部門,并敦促在2025年前為整個國防部廣泛整合人工智能奠定基礎[1]。

1.3 人工智能的簡要歷史

幾個世紀以來,哲學家們一直在考慮以某種形式人工復制人類智能的某個方面的概念。1869年,威廉-杰農創造了第一臺基于布爾邏輯實現邏輯計算的機器。該機器能夠比人類更快地計算布爾代數和維恩圖。隨著這種邏輯計算機器的發展,人們很自然地質疑機器是否可以通過邏輯推理來為人類解決問題并做出決定。圖1-1中的時間軸顯示了人工智能的歷史和演變,并在本節中進行了詳細說明[2]。

在理論計算機科學的一些最早的工作中,英國數學家阿蘭-圖靈(Alan Turing)思考了機器是否能像人類一樣智能地行為和解決問題的問題。他在他的圖靈測試中提出,如果一臺機器能模糊地模仿人類這樣的智能生物,那么這臺機器就是智能的。這一理論測試成為一種指導性的形式主義,在這種形式主義中,當前的機器被測試其模仿人類智能概念的能力或潛力。作為測試的見證,Loebner獎是一個圖靈測試競賽,其任務是根據圖靈提出的基本問題來評估機器智能研究的現狀。

1928年,約翰-馮-諾伊曼證明了Minimax算法的基本定理,該算法旨在提供一種在零和博弈過程中使最大可能損失最小的策略。

圖1-1. AI歷史年表

在第二次世界大戰的高峰期,阿蘭-圖靈和他的團隊開發了一種機器算法,可以破譯德國的英格瑪信息密碼。他的算法的成功,推動了將復雜任務委托給機器的進一步努力,是機器計算的基礎,也是ML發展的先導。

1943年,McCulloch和Pitts開創了神經網絡(NN)的最早概念--McCulloch-Pitts的形式網絡理論--這在1949年馮-紐曼在伊利諾伊大學的四次演講中得到了體現[3]。

大約在同一時間,約翰-麥卡錫,一位計算機科學家,在1955年創造了 "人工智能 "來指代機器智能;計算機科學家艾倫-紐維爾;以及赫伯特-A-西蒙,一位經濟學家和政治學家,開創了第一個旨在自動推理的真正程序(稱為邏輯理論家)。隨著這一突破性的努力,對智能機器的探索開始了,為人工智能作為計算機科學的一個新的學術研究領域鋪平了道路。

1957年,一位名叫弗蘭克-羅森布拉特博士的心理學家開發了一個名為 "感知器 "的簡化數學模型,描述了我們大腦中的神經元如何運作。這一成就被強調為 "Perceptron收斂定理"。

同年,理查德-貝爾曼開發了動態編程,用于解決一類最佳控制問題。他還介紹了離散隨機最優控制問題的馬爾科夫決策過程表述,這為現在所稱的 "強化學習 "奠定了重要基礎。

在這些發展之后,另一位名叫阿瑟-塞繆爾的人工智能先驅利用他早先在ML方面的開創性工作,成功地開發了第一個檢查者算法。他實現了現在被稱為 "Alpha-Beta修剪 "的早期版本,這是一種搜索樹方法,通過Minimax算法減少評估節點的數量。1959年,一位名叫威廉-貝爾森(William Belson)的統計學家開發了一種名為決策樹的非參數、監督學習方法的早期版本。

在20世紀60年代,人工智能研究的重點是解決數學和優化問題。1960年,羅納德-霍華德提出了馬爾科夫決策過程的策略迭代方法,建立了一些與強化學習有關的最早的工作。

到1968年,著名的路徑搜索算法A-star是由計算機科學家尼爾斯-尼爾森提出的。60年代末,機器人建模、控制和機器視覺方面取得了進展,導致在1972年開發了第一個名為WABOT-1的 "智能 "擬人機器人,并整合了肢體操縱、視覺和語音系統。

Harry Klopf的 "適應性系統的異質理論 "的復興對適應性系統的試錯范式的發展有很大影響。1977年,Ian Witten提出了最早的強化學習系統之一,使用了時間差法。理查德-薩頓和安德魯-巴托設計了一種強化學習算法,稱為演員批評法。

由于70年代中期到80年代末計算機的計算能力限制,人工智能研究在有大量數據處理要求的應用中發現了困難,如視覺學習或優化問題。同時,數學研究 "證明 "了(單層)感知器不能學習某些模式。此外,1973年發表的一份Lighthill報告對人工智能的潛力非常悲觀,這導致人工智能研究的資金被削減。結果,資金短缺導致人工智能的研究經歷了一個被稱為 "人工智能冬天 "的時期。

到了80年代中后期,繼1986年多層感知器的發展之后,在NNs方面也做出了重要的理論貢獻。這些貢獻是David Rumelhart在1986年開發的遞歸神經網絡(RNNs),John Denker等人在1987年開發的貝葉斯網絡,以及Yann LeCun在1989年開發的卷積神經網絡(CNNs)。

此外,Chris Watkins在1989年開發了另一種重要的強化學習方法,稱為 "Q-Learning"。1992年,在IBM的Thomas J. Watson研究中心,Gerald Tesauro通過自我強化學習為雙陸棋游戲訓練了TD Gammon程序。1997年,IBM的 "深藍 "計算機使用粗暴的、基于搜索的算法擊敗了國際象棋世界冠軍加里-卡斯帕羅夫,使其成為第一個在國際象棋中戰勝頂級職業選手的程序。

在90年代末和21世紀初,在ML中看到的大部分進展是由計算機處理、存儲和分布式計算方面的指數級進展所推動的。2007年,需要大量計算資源的保證最優玩法在跳棋中得到了解決。在過去的20年里,圖形處理單元用于通用計算的激增導致了今天人工智能應用的進一步進展,特別是在2012年和2014年,不同的NN拓撲結構,如殘差網絡和生成式對抗網絡的發展。

2015年,ImageNet競賽,一個為約400萬張圖像的ImageNet圖像集開發分類器的公開競賽,有一個冠軍,其錯誤率被認為低于一個人。2016年,DeepMind的AlphaGo程序在擊敗當時被認為是最優秀的圍棋選手李世石后,成為最佳AlphaGo選手。繼AlphaGo的學習能力之后,AlphaZero在2017年擴展了AlphaGo,成為國際象棋和Shogi的最佳棋手。

2019年,美國國防部高級研究計劃局(DARPA)推出了AlphaDogfight,這是基于人工智能的空戰算法在模擬的F-16狗斗中與經過頂級訓練的飛行員進行的一系列三輪競賽。第一輪和第二輪比賽中,人工智能程序相互競爭。第三輪將人工智能勝利者的飛行員提煉出來,與美國空軍武器學校的優秀畢業生進行競爭。蒼鷺系統的人工智能飛行員不僅在競爭激烈的人工智能空中戰斗人員中獲勝,而且在與訓練有素的人類F-16飛行員的較量中取得了令人難以置信的五次勝利。

OpenAI在2020年5月推出了一個名為GP3的 "自然語言處理 "模型,它生成的寫作內容與人類無異。其最新版本可以從簡單的描述性語言生成編程語言代碼[4]。人工智能的歷史繼續向前發展,特別是對國防部的武器系統應用。本報告的其余部分將調查與武器系統有關的當代人工智能技術和系統。

1.4 什么是AI?

根據Barr和Feigenbaum的說法,人工智能被定義為 "計算機科學中與設計智能計算機系統有關的部分,即表現出我們與人類行為中的智能有關的特征的系統--理解語言、學習、推理、解決問題等等"[5]。

Stuart Russel和Peter Norvig在他們的《人工智能:一種現代方法》一書中對人工智能的最新定義是:"設計和建造能夠從環境中接收感知并采取影響環境的行動的智能體" [6]。

Pei Wang優雅地將智能定義為 "在知識和資源不足的情況下的適應"[7]。雖然該定義沒有說明適應的目的(如目標),但它揭示了為達到這種智能需要完成的工作。

如果要以人類為中心定義人工智能,即執行人類智能水平的任務,那么人工智能需要感知、推理、知識構建、推理、決策和計劃、學習、交流,以及有效移動和操縱環境的能力。

人工智能的科學目標是回答哪些關于知識表示、學習、規則系統、搜索等的想法可以解釋各種類型和水平的真實智能。工程目標是為不同的應用領域開發人工智能技術,以解決現實世界的問題。

在人工智能的科學基礎上,我們發現來自不同科學領域的可識別概念--哲學、邏輯/數學、計算、心理學和認知科學、生物學和神經科學以及進化。在尋求發現和更好地理解人工智能是什么或將是什么的過程中,來自這些不同知識領域的貢獻已經被證明是不可避免和不可或缺的了。許多研究人工智能的領域都在同時構建人類認知如何運作的模型,并在它們之間采用有用的概念。例如,NN,一個源于生物學的概念,試圖在簡化的人工神經元的基礎上建立人工系統,這個概念導致了一個簡單的抽象知識結構的表示,足以解決大型計算問題集。

人工智能大致分為三個主要層級--人工狹義智能(ANI)、人工通用智能(AGI)和人工超級智能(ASI)。圖1-2說明了這三個層級中的各種分組,本節將更多地討論這些分組。

1.4.1 人工狹義智能(ANI)

ANI是對一個執行狹窄或單一任務的人工智能系統的描述。它可以包括各種方法來獲得結果,如傳統的ML(以圖像分類為例)或目標檢測(包括ML和基于規則的系統)。給定一組規則或約束,它的目標是提供一組代表狹義任務的輸出。ANI不會擴展或學習新的認知,也不會自我學習新的操作模式。數據挖掘、大多數專家系統和針對某一應用的預測功能(例如,垃圾郵件檢測和面部識別)都被認為是ANI的形式。ANI還包括 "有限記憶人工智能"--用于自動駕駛汽車的系統類型,使用過去的經驗(訓練),并學習做決定,隨著時間的推移而改進。

1.4.2 人工通用智能(AGI)

AGI是一種更強大的智能形式,因為它被更多類似人類智能的特征所增強,例如自主學習的能力和解釋情緒和語音語調的能力。這使得與AGI相關的智能與人類的智能水平相當。AGI的一些關鍵核心能力如下:

  • 推理、解決問題、運用策略和在不確定情況下做出決定的能力。
  • 展示知識的能力。
  • 計劃的能力。
  • 學習的能力。
  • 用自然語言交流的能力。
  • 將所有上述內容整合為一個共同目標的能力。
  • 類似人類的思維與圖靈測試等計算的結合。

1.4.3 人工超級智能(ASI)

ASI是一種超越最聰明的人類頭腦的智能模型。實現ASI的方法仍在概念化中,但將是那些超越AGI并需要某種自我意識的系統。這些系統最好能代表所有人類的認知能力,甚至更多。

1.5 機器學習(ML)

ML是機器從數據中學習的能力,目的是做出準確的預測。它大致分為四類學習,提供了豐富的專用和通用的技術家族。

1.5.1 監督學習

在這種形式的學習中,訓練數據使用包含的輸入和標記的或預定的輸出數據。如果有缺失的輸入或輸出條目,它們會被預處理,以便將一個輸入正確地映射到其真正的對應輸出。通過從正確生成的訓練數據集中學習,系統學會了將不在原始數據集中的輸入與預測的輸出(標簽或值)聯系起來。這種類型的訓練解決的典型問題是回歸和分類[8]。

1.5.2 無監督學習

這種形式的學習中,系統直接從未標記的數據中發現有趣的或隱藏的結構[9]。無監督學習被用于聚類分析、降維或估計可能產生輸入數據的密度[8]。

1.5.3 半監督學習

當數據集包含有標記的和無標記的數據時,這種學習形式的系統利用無標記的數據來更好地捕捉潛在的數據分布,并獲得一個更好的預測,如果它只從標記的數據中訓練的話。這種學習形式適用于訓練數據集中的標注數據遠遠少于未標注數據的情況[8]。

1.5.4 強化學習

在這種學習模式中,系統使用獎勵/懲罰機制進行訓練,這樣它所選擇和執行的行動,當行動可取時,會使系統得到獎勵,當行動不可取時,會受到懲罰。強化學習問題涉及學習如何做(如何將情況映射到行動上)以最大化數字獎勵信號[9]。

03 人工智能在武器系統中的應用

人工智能有可能應用于武器系統生態系統的許多方面。它被用來控制系統,從而實現自主性和提高性能,以在具有挑戰性的環境中選擇指導、導航和控制方面的問題。同樣,人工智能可用于解決任務和路徑規劃中的挑戰性問題,從而實現更高水平的復雜任務目標和操作要求。人工智能也被用于電子戰領域的支持、反制,甚至是反制措施。它還可能被用于來自不同系統層次和領域的信息融合,以泄露抽象的高價值戰場情報,并提供關鍵線索和快節奏的決策,從而在現代戰爭中創造寶貴的戰術優勢。

報告的這一部分將強調最先進的人工智能方法在適用于自主和武器系統的各種人工智能問題領域的使用。它是根據以下問題領域來組織的。

  • 自主性

  • 感知中的人工智能

  • 制導、導航和控制中的人工智能

  • 任務和路徑規劃

  • 智能戰略

  • 對手建模

  • 認知型電子戰

提綱

第一章 引言

1.1問題陳述

1.2常規武器系統

1.3 AI簡史

1.4什么是AI?

1.4.1 ANI

1.4.2 AGI

1.4.3 ASI

1.5 ML

1.5.1監督學習

1.5.2無監督學習

1.5.3半監督學習

1.5.4強化學習

第二章 最先進的方法

2.1學習人工智能范例

2.1.1深度學習

2.1.2強化學習

2.2隨機優化和搜索算法

2.2.1隨機優化

2.2.2圖形搜索算法

2.3新興人工智能范例

2.3.1神經符號AI

2.3.2 NE

第三章 人工智能在武器系統中的應用

3.1自主性

3.1.1定義、級別和框架

3.1.2自主系統的功能組件

3.2感知中的人工智能

3.2.1圖像分割

3.2.2目標檢測、分類和場景理解

3.2.3傳感器融合

3.3制導、導航和控制中的人工智能

3.3.1 GN&C系統

3.3.2常規控制理論方法

3.3.3智能控制

3.3.4本地化和導航

3.3.5系統識別

3.4任務和路徑規劃

3.4.1GAs

3.4.2群體智能

3.5智能策略

3.6對手建模和兵棋推演

3.7認知電子戰

3.7.1電子支持措施

3.7.2 ECMs

3 .7.3 ECCMs

第四章 將人工智能應用于武器系統的系統和程序

4.1天線系統

4.1.1下一代空中優勢計劃

4.1.2 Shield AI Hivemind

4.1.3 Shield AI V-Bat

4.1.4 Kratos XQ-58 Valkyrie

4.1.5 MQ-20 Avenger UCAS

4.1.6自主彈藥

4.1.7 Dynetics X-61小精靈

4.2 海軍系統

4.3 陸軍系統

4.3.1 QinetiQ/Pratt Miller的遠征自主模塊化飛行器

4.3.2Textron系統公司的Ripsaw M5

4.3.3 Rheinmetall公司的Lynx KF41

4.4 群系統

4.4.1 DARPA的攻擊性蜂群戰術

4.4.2自主協同小直徑炸彈群

4.4.3 Perdix群

4.4.4 Mako UTAP22

4.4.5 Coyote UAS Block 3

4.4.6機器人代理命令和傳感群的控制架構

4.4.7激流勇進微型無人潛水器

4.5戰斗管理和智能指揮與控制

4.6 ISR和目標系統

4.6.1 SRC的HPEC Pod

4.6.2復仇女神

4.7導航

第五章 未來作戰中的AI

第六章 人工智能和外來威脅

6.1俄羅斯

6.2中國

第七章 倫理考量

第八章 總結

參考文獻

付費5元查看完整內容

本報告描述了2020財年在美國陸軍作戰能力發展司令部陸軍研究實驗室的主任戰略倡議(DSI)項目《人工智能(AI)用于多域作戰(MDO)的指揮和控制(C2)》下進行的工作。多域作戰的速度和復雜性要求在高度活躍的環境中對近似對手進行高速決策和執行,這往往可能超出人類的認知能力。最近,新興的人工智能技術,如深度強化學習(DRL),在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中的表現超過了人類世界冠軍。這表明這種人工智能有可能對MDO的C2做出貢獻。然而,關于這種新的人工智能技術的行為和限制的許多問題仍未得到解答。作為DSI的一部分,我們正在研究DRL是否可以支持未來多域部隊的敏捷和適應性C2,這將使指揮官和工作人員能夠迅速有效地利用轉瞬即逝的優勢窗口。在第一年,我們開發了兩個新的C2測試平臺,并在這些測試平臺上進行了基于DRL的學習。本報告包括項目的概述,并展示了初步的研究成果,其中一個“人造指揮官”在模擬的旅級戰斗中執行了一個綜合規劃-執行過程。

1. 引言

同行對手多域作戰(MDO)的速度和復雜性可能會超過人類指揮員在傳統的、主要是人工指揮和控制(C2)過程中的認知能力。同時,人工智能(AI)技術的新成果,如深度強化學習(DRL),開始顯示出有可能支持多域作戰的指揮與控制。過去兩年的發現表明,基于DRL的算法可以在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中勝過人類世界冠軍。通過這些突破,強化學習(RL)已經證明了人工智能在復雜游戲中開發和實施多層策略后控制多個智能體的潛力。未來MDO作戰指揮的特點是在非結構化的任務領域內具有高度的復雜性,這與復雜的游戲模擬環境有一些相似之處。因此,將基于人工智能的方法擴展到軍事領域,可能為提高戰斗指揮能力提供了重要的可能性。

本報告中描述項目的長期意圖并不新鮮。在過去的幾十年里,有許多想法和相應的研究,旨在開發自動化或半自動化的工具,以支持規劃和執行軍事行動的決策。以下是過去在這一領域的一些工作,本報告的一些作者親自參與了這些工作。

美國國防部高級研究計劃局(DARPA)的聯合部隊空中部分指揮官(JFACC)項目在20世紀90年代末進行,為聯合空戰的敏捷管理開發了一些概念和原型。當時考慮的大多數方法涉及各種航空資產的路線和活動的持續實時優化和再優化(隨著情況的不斷變化)。同樣在20世紀90年代中后期,陸軍資助了行動方案開發和評估工具(CADET)項目,該項目探討了經典的分層規劃的潛在效用,該計劃適用于對抗性環境,可以將高水平的戰斗草圖轉化為詳細的同步矩陣--這是理論上的軍事決策過程(MDMP)的關鍵產品。在21世紀初,DARPA啟動了實時對抗性情報和決策(RAID)項目,該項目探索了一些預測敵方作戰規劃的技術,以及動態地提出友好的戰術行動。在所探索的技術方法中,博弈求解算法是最成功的。

2000年代末,DARPA的沖突建模、規劃和結果實驗(COMPOEX)計劃探討了多個領域的作用及其非常復雜的相互作用--除了傳統的動能戰斗,還有政治、經濟和社會影響。該計劃研究了相互關聯的模擬子模型的使用,主要是系統動力學模型,以協助高級軍事和文職領導人在復雜的作戰環境中規劃和執行大規模戰役。非傳統作戰領域如網絡領域的重要性已經得到認可,2010年,北約的一個研究小組研究了評估網絡攻擊任務影響的模擬方法,并強調了網絡、人類和傳統物理領域之間相互作用的強大非線性效應。

在前面提到的研究工作中所采取的所有方法,以及許多其他類似的方法,都有主要的和一些共同的弱點。它們往往需要對問題領域進行嚴格、精確的表述。一旦這樣的表述被構建出來,它們往往能產生有效的結果。然而,一旦有新的元素需要被納入到表述中(例如,一種新的軍事資產類型或一種新的戰術),就需要進行困難的、昂貴的、手工的和長期的努力來“重新連接”問題的表述和微調解決方案的機制。而現實世界呈現出無窮無盡的新元素,必須加以考慮。

在20世紀80年代的基于規則的系統中,隨著越來越多的規則(它們之間的相互作用往往是不可預測的)必須被添加以代表現實世界中錯綜復雜的領域,一個系統將變得不可維護。在基于優化的方法中,同樣地,重要變量和各種約束條件之間無窮無盡的關系必須不斷地手動添加(維護的噩夢),以代表現實世界中復雜的領域。在基于游戲的方法中,由于越來越多的領域的現實情況不得不被手動設計并添加到游戲的表述中,管理每個棋子的合法移動和移動效果的規則將逐漸變得無可救藥地復雜。

簡而言之,這種方法在建立和維護表征方面是高成本的。理想情況下,我們希望看到一個系統能夠直接從真實或模擬世界的經驗中 "學習"(即自我規劃)其問題的制定和解決算法,而不需要任何(或很少)人工規劃。機器學習,特別是RL,正是提供了這樣的希望。這是我們項目背后的一個主要動機。

1.1 軍隊的相關性和問題領域

美國陸軍目前還沒有一個基于人工智能的、部分自主的任務指揮工具,在戰術或作戰層面上以高作戰節奏(OPTEMPO)運作。通常情況下,生死攸關的決定是由少數人在時間限制下利用不完善的信息作出的。目前可供規劃者使用的工具(如高級野戰炮兵戰術數據系統[AFATDS]、藍色部隊追蹤器等)通常僅限于分析戰場地形的基本決策輔助工具和記錄決策的自動化工具。指揮官在向下級提供快速OPTEMPO指導時,會遇到信息過載。戰斗損傷評估(BDA)很慢,而且不能與單位運動/傳感器與射手的聯系同步,也不允許利用優勢窗口。行動方案(CoA)分析主要集中在對友軍計劃的評估上,很少強調對手的目標和能力的復雜性。

隨著空間、網絡電磁活動(CEMA)和機器人資產的加入,MDO成倍地增加了C2的復雜性,這可能會使OPTEMPO比過去更高。此外,人類指揮官使用目前可用的決策輔助工具來提供高度詳細的指令將是難以解決的。有可靠的報告稱,美國的同行和近鄰競爭對手,特別是中國,正在大力追求人工智能在軍事上的應用,包括指揮決策和軍事推演(即兵棋推演)。因此,在追求人工智能C2系統的過程中,存在著很大的失敗風險,只有不斷地朝著這個目標前進,不斷地努力實現一個能夠在MDO中執行C2的人工智能系統,才能克服這個風險。

1.2 長期目標

到2035年,我們設想需要開發敏捷和適應性強的人工智能C2系統,用于復雜、高OPTEMPO、超活躍的MDO中的作戰規劃和決策支持。這些系統將不斷整合未來戰爭的幾個領域。設想中的系統將能夠分析敵人的活動;不斷地規劃、準備、執行和評估戰役,通過不斷地感知、識別和快速利用新出現的優勢窗口,使軍隊的能力得到快速反應。這些優勢窗口將在不同梯隊的MDO框架內的行動中出現,但識別和利用它們需要較少地依賴刻意的規劃周期,而更多地依賴持續、綜合的規劃能力。啟用人工智能的C2系統有可能在不同的梯隊、領域和多個同時運作的資產之間快速同步采取多種行動,以利用優勢窗口。部隊將主要由機器人資產(地面、空中)組成,人工智能C2系統將收集和處理來自智能傳感器和平臺的數據,評估作戰環境中的新趨勢,并建議采取減少認知負擔的行動,使人類指揮官能夠快速有效地采取行動。啟用人工智能的流程還將提供定量分析、預測分析和其他可供人類有效使用的突出數據。這最終將使美國陸軍有能力在武裝沖突期間,根據對敵人弱點的理解和詳細的友軍估計,重新分配、重組和使用能力,并將產生具體、詳細的指令來控制自主資產。

DEVCOM陸軍研究實驗室在機器人學、自主性、人工智能和機器學習方面有積極的研究計劃。本報告的作者領導了政府、學術界和工業界合作伙伴之間的大型合作機器人研究工作的研究和整合活動,在場景理解、人類與人工智能的合作、RL、多智能體強化學習和多智能體協作系統方面進行了開拓性的研究。此外,ARL還擁有廣泛的基礎設施來進行上述領域的研究。這包括用于機器人研究的地面和空中平臺;用于場景驅動研究的機器人研究合作園區(R2C2),能夠承載實時的、可擴展的、多領域的實驗;旨在支持人工智能和機器學習應用的新興要求的集裝箱式超級計算機;這只是其中的幾個例子。我們相信,這些專業知識和資源可以被用來建立一個成功的計劃,將人工智能納入C2應用。

1.3 DSI的目標

ARL主任戰略倡議(DSI)計劃是一個跨學科基礎和應用研究的機制,成功的提案可以跨越科學和技術學科的界限。該計劃確定了代表戰略研究機會的主題領域,對陸軍任務具有非常高的潛在回報,以擴大現有的計劃或建立新的核心能力,并在這些領域建立內部的專業知識。

作為20財政年度授予的 "用于MDO C2的人工智能 "DSI項目的一部分,我們探索基于DRL的算法在多大程度上可用于估計紅方部隊的狀態,評估紅方和藍方的戰斗損失(損耗),預測紅方的戰略和即將展開的行動,并根據所有這些信息制定藍方計劃。這種方法有可能為藍方部隊產生新的計劃,利用潛在的機會窗口,其速度比專家規劃者快得多。最近,DRL在非結構化戰略游戲中的成功提供了重要的暗示性證據,表明人工智能方法可能能夠基本上 "從零開始 "發現適當的戰術概念,并以高于人類的速度選擇、應用和執行戰略。

在這個DSI中,我們探索使用DRL在戰斗行動前制定詳細的計劃,并在執行正在進行的行動中生成實時計劃和建議。我們計劃在兩個關鍵領域推動技術水平的發展:1)構思、設計和實施基于DRL的智能體,以生成與專家計劃員生成的計劃一樣好或更好的計劃;2)將人類納入指揮和學習回路,并評估這些人工智能-人類(人在回路中)的解決方案。在為這種人工智能支持的C2開發途徑的同時,需要回答幾個研究問題。在這個DSI中,我們試圖回答三個具體問題:

  • DRL C2智能體的訓練和數據要求是什么,以便準確和足夠快地學習?

  • 我們如何才能使DRL智能體具有通用性,以便根據人類專家的判斷,特別是在以前未曾見過的細節被引入到一個情況中時,它們能夠合理地執行?

  • 在人工智能支持的C2系統中,人類的干預有什么影響?

該項目第一年的重點是開發研究的基本構件,包括:1)通過調整和使用基于《星際爭霸II》和OpSim的環境來開發模擬能力和高級界面;2)開發執行C2功能的初始端到端人工智能;3)通過與高性能計算(HPC)環境整合來開發計算能力;4)初步確定數據量和訓練要求。本報告提供了這些任務中每個任務的細節。

2. 實驗能力

作為該項目的一部分,我們開發了C2模擬和實驗能力,包括與基于DRL的人工智能算法和國防部高性能計算系統上的可擴展RL的接口的模擬戰斗空間(圖1)。我們使用兩種模擬環境來生成C2場景:星際爭霸II學習環境(SC2LE)29和OpSim。虎爪,一個由卓越機動中心(Fort Benning,Georgia)開發的場景,在模擬環境中生成了真實的戰斗環境。最后,我們使用RLlib31,一個為RL提供可擴展軟件基元的庫,在HPC系統上擴展學習。

圖1 C2基礎設施概述

2.1 虎爪行動

虎爪行動(Tiger Claw)是一個預定義的戰斗場景,由紅軍和藍軍組成,由喬治亞州本寧堡的上尉職業課程的軍事主題專家(SME)開發。這個假想場景顯示特遣部隊(1-12 CAV)在區域內進攻,以奪取OBJ Lion,以便將師的決定性行動(DO)向東傳遞。特遣部隊的目標是穿越Thar Thar Wadi,摧毀紅色部隊,并奪取OBJ Lion(圖2)。特遣部隊包括使用M1A2艾布拉姆斯的戰斗裝甲,使用布拉德利的步兵戰車,野戰炮和迫擊炮,使用布拉德利的裝甲偵察騎兵,戰斗航空兵,防空兵和無人駕駛飛機。紅軍由裝備BMP-2M的機械化步兵、裝備T-90坦克的戰斗裝甲、野戰榴彈炮、裝備BMP-2M的裝甲偵察騎兵、戰斗航空兵、反裝甲兵和戰斗步兵組成。虎爪方案還包括由中小型軍事專家制定的藍軍和紅軍的可能計劃。這些計劃是根據作戰命令(OPORD)和相應的威脅戰術,使用理論上的力量部署產生的。虎爪方案已被納入OpSim和《星際爭霸II》,并作為一個基準基線,用于比較不同的神經網絡架構和獎勵驅動屬性。

圖2 TF 1-12 CAV在《虎爪》中的作戰區域(AO)。

2.2 《星際爭霸II》模擬環境

星際爭霸II》是一個復雜的實時戰略游戲,玩家要在高水平的經濟決策和低水平的個人控制可能的數百個單位之間取得平衡,以壓倒和擊敗對手的部隊。星際爭霸II》對人工智能有許多困難的挑戰,使它成為MDO中C2的一個合適的模擬環境。例如,游戲有復雜的狀態和行動空間,可以持續數萬個時間步驟,實時選擇數千個行動,并由于游戲的部分可觀察性或 "戰爭迷霧 "而捕捉到不確定性。此外,該游戲具有可用于MDO模擬的異質資產、固有的C2架構、嵌入式軍事(動能)目標,以及與更強大的模擬(例如,One Semi-Automated Force [OneSAF])相比,實施/修改的學習曲線較淺。DeepMind的SC2LE框架將暴雪娛樂公司的《星際爭霸II》機器學習應用編程接口暴露為RL環境。這個工具提供了對《星際爭霸II》和相關地圖編輯器的訪問,以及RL智能體與《星際爭霸II》互動的接口,獲得觀察和發送行動。

作為DSI的一部分,一個SC2LE地圖是根據Tiger Claw OPORD和支持文件開發的(圖3)。通過重新繪制圖標以納入2525B軍事符號和與虎爪計劃相關的單位參數(武器、范圍、比例),游戲被軍事化。內部評分系統被重新使用,以計算RL的獎勵函數,其中包括任務目標的收斂(穿越瓦迪),藍色損耗的最小化,以及紅色損耗的最大化。

圖3 《星際爭霸II》中的虎爪地圖

2.2.1 《星際爭霸II》編輯器

虎爪劇情是在《星際爭霸II》中使用其編輯器重新創建的。這個編輯器包含在暴雪娛樂公司免費下載的《星際爭霸II》中,它有許多創建自定義內容的功能。掌握這些功能的一個很好的資源是專門用于編輯器的在線社區論壇。在下面的章節中,將詳細討論使用編輯器開發地圖、單位和獎勵的問題。

2.2.1.1 《星際爭霸II》地圖開發

我們使用《星際爭霸II》編輯器為《虎爪》場景創建了一個新的近戰地圖。地圖的大小是編輯器中最大的(256乘256),使用《星際爭霸II》的坐標系統。荒地瓷磚組被用作地圖的默認表面,因為它在視覺上類似于《虎爪》中AO的沙漠地區(圖4)。

圖4 《星際爭霸II》編輯器中的初始虎爪地圖

在最初的設置之后,我們使用地形工具修改地圖,使其大致接近AO的情況。關鍵的地形特征是無法通行的瓦迪,其交叉點有限。

距離縮放是創建場景的一個重要因素。在最初的地圖中,我們使用已知的地標之間的距離,將《星際爭霸II》的距離,使用其內部坐標系統,轉換為公里數。這種轉換對于在單位修改期間調整武器射程非常重要(圖5)。

圖5 修改后的《星際爭霸II》編輯地圖

最初的實驗使用《星際爭霸II》來可視化模擬復制品。這些回放的游戲感成為一個明顯的干擾因素。為了補救這個問題,我們希望采用其他的可視化方法,特別是ARL開發的混合現實環境Aurora。新的可視化方法使用AO的地理地圖。因此,有必要修改《星際爭霸II》的地圖,以便與AO的經緯度相一致。在修改后的地圖中,距離比例是通過將《星際爭霸II》的坐標轉換為經緯度來確定的。

2.2.1.2 《星際爭霸II》單位修改

為了模擬 "虎爪 "場景,我們選擇了與軍事單位能力相近的《星際爭霸II》單位。我們復制了《星際爭霸II》中的單位,并在編輯器中修改了它們的屬性以支持該場景。

首先,我們修改了這些單位的外觀,并用適當的MIL-STD-2525符號代替(表1)。在《星際爭霸II》中,每個單位都與多個角色相關聯,這些角色控制著該單位在游戲中的外觀。我們能夠將演員與他們的默認效果圖解開,有效地使這些單位不可見。接下來,我們將所需的軍事符號的圖像導入編輯器。最后,我們使用了SCMapster.com上發布的 "rr Sprite Engine"(LGPL 2.1許可)庫,將這些單位與它們的軍事符號聯系起來。

表1 虎爪部隊與《星際爭霸II》部隊的映射關系

為該場景修改的其他屬性包括武器射程、武器傷害、單位速度和單位壽命(它能承受多少傷害)。武器射程是從公開資料中發現的,并根據地圖的尺寸進行縮放。單位速度在《虎爪行動指令》中確定,并固定在該值上。傷害和生命的屬性是估算出來的,其指導原則是保持平衡的沖突。每個《星際爭霸II》單位通常只有一種武器,這使得模擬一個連級單位可用的各種武器具有挑戰性。額外的努力來提高單位修改的準確性,需要戰爭游戲的主題專家。

修改后的部隊被放置在地圖上,以接近虎爪的場景(圖6)。在實驗過程中,藍色部隊將由一個使用PySC2(DeepMind的SC2LE的Python組件)開發的智能學習智能體控制。此外,藍軍部隊被修改為沒有天生的攻擊性。換句話說,他們不會參與進攻或防守,除非有智能體的特別命令。為了控制紅色部隊,我們使用了兩種不同的策略。第一種策略是為紅色部隊的行動加入一個腳本化的CoA,在每次模擬中都會執行。該部隊默認的攻擊性屬性控制它如何與藍方交戰。第二種策略是讓《星際爭霸II》的機器人AI控制紅方部隊執行全面攻擊,或在編輯器中稱為自殺。內置的《星際爭霸II》機器人有幾個難度級別(1-10),這決定了機器人的熟練程度,其中1級是一個相當初級的機器人,可以很容易地被擊敗,10級是一個非常復雜的機器人,使用玩家無法獲得的信息(即一個作弊的機器人)。最后,環境因素,如戰爭迷霧,在不同的實驗中被切換,以調查其影響。

圖6 使用MILSTD2525符號的星際爭霸II

2.2.1.3 星際爭霸II的獎勵實現

獎勵功能是RL的一個重要組成部分,它通過對每種情況給予積極或消極的獎勵來控制智能體人對環境變化的反應。我們在SC2LE中加入了虎爪場景的獎勵功能,我們的實現超越了SC2LE內部的評分系統。原來的計分系統根據玩家的單位和結構的資源價值進行獎勵。我們的新計分系統只關注游戲的軍事方面,即獲得和占領新的領土,以及摧毀敵人。

我們的獎勵功能為藍軍越過瓦迪(河流)提供+10分,為撤退提供-10分。此外,我們還對摧毀紅軍部隊給予+10分,如果藍軍部隊被摧毀則給予-10分。

為了實現獎勵功能,首先需要使用SC2LE編輯器來定義地圖的各個區域和目標。區域是由用戶定義的區域,它被觸發器所利用(圖7)。

圖7 《星際爭霸II》中的區域和目標

觸發器是創建一套指令的模板,允許用戶將與特定事件相關的效果編入模擬中(圖8)。一般來說,一個觸發器由以下部分組成。

  • 事件。啟動觸發器(例如,一個單位進入一個區域)。

  • 變量。存儲信息。(例如,BlueForceScore,藍軍的得分)。

  • 條件。對行動的限制,需要在行動發生時為真。(例如,單位是藍色部隊的成員)。

  • 行動。事件的結果或成果(例如,單位獲得積分)。

圖8 《星際爭霸II》中虎爪場景的觸發實例

作為未來工作的一部分,我們計劃根據指揮官在虎爪警告令(WARNORD)中的意圖所定義的具體團隊目標來納入額外的獎勵。獎勵功能將試圖訓練智能體維持單位作為團隊,作為團隊一起參與預定目標,并創造對軍事主題專家來說合理的最佳行為。

2.3 OpSim模擬環境

OpSim是由科爾工程服務公司(CESI)開發的決策支持工具,提供計劃支持、任務執行監控、任務演練、嵌入式訓練以及任務執行監控和重新計劃。OpSim與SitaWare指揮、控制、通信、計算機和情報(C4I)集成,后者是由項目執行辦公室指揮控制通信-戰術(PEOC3T)投入使用的指揮所計算環境(CPCE)的重要組成部分,使各級指揮部門能夠共享態勢感知并協調作戰行動,從而使其成為直接與作戰任務指揮相連的嵌入式模擬。它從根本上被構造成一個基于可擴展的面向服務架構(SOA)的模擬,能夠比目前最先進的模擬環境如OneSAF和MAGTF戰術戰爭模擬器(MTWS)運行得更快。傳統的建設性模擬最多運行1-20次墻鐘時間,而OpSim可以運行30次虎爪的復制--如果實時連續運行,需要240小時。OpSim中模擬計劃的輸出包括根據彈藥支出、傷亡、設備損失、燃料使用等標準對藍軍計劃進行綜合排名。然而,OpSim工具并不是為人工智能應用而設計的,必須通過整合接口來運行基于DRL的算法。開發了一個OpenAI Gym接口,以暴露模擬狀態,并向外部智能體提供模擬控制,能夠為模擬中的選定實體提供改變的行動,以及在回應接口之前的模擬時間。

2.4 使用OpenAI Gym和RLlib接口的深度強化學習

強化學習可以被形式化為一個馬爾科夫決策過程,由一組行動、一個過渡概率函數、一個獎勵信號和一個環境狀態組成。32 在RL中,目標是找到一個最佳行動,使預期的、累積的折現獎勵之和最大化。將深度神經網絡與RL結合起來,DRL將深度神經網絡架構與RL框架結合起來,以接近環境中各狀態的最佳行動。DRL的設計包括以下部分:狀態空間(環境狀態表示)、行動空間(行動集)、獎勵信號和一個深度神經網絡。

對于環境狀態的訪問,RL框架使用類似OpenAI Gym的接口與OpSim和StarCraft II模擬器,為RL提供環境的抽象(圖9)。OpenAI Gym是一個開源的軟件包,為RL的開發和測試提供了一個具有通用接口的環境集合。OpenAI Gym專注于RL環境的抽象化,從而保持智能體開發的靈活性。兩種模擬環境中使用的具體行動、狀態空間和獎勵信號將在后續章節中詳細討論。

圖9 使用OpenAI Gym與OpSim和StarCraft II模擬器的RL框架

DRL需要智能體與環境互動的許多情節來收集經驗,一個標準的方法是通過平行數據收集來擴展。在這個項目中,HPC被用來擴展DRL算法,以支持智能體群體從成千上萬的平行實例中學習,以解決C2的行動空間復雜性。ARL的FOB系統最初用于分布式訓練,然后被移植到國防部超級計算資源中心(DSRC)的最新SCOUT系統。FOB系統是一個由64個節點組成的實驗性異構集群,每個節點有一個英特爾8核至強CPU和64GB的內存。SCOUT是位于ARL DSRC的一個非保密的HPC-in-a-container系統,有22個訓練節點和128個推理節點。SCOUT的每個計算節點都配備了IBM Power9 40核處理器,推理節點有256GB內存,訓練節點有700GB內存。

同時,RLlib,一個由加州大學伯克利分校RISELab開發的可擴展RL框架的開源庫,被用于執行分布式學習。RLlib提供了一個與框架無關的機制,以便在OpSim和StarCraft II上有效地擴展DRL神經網絡架構的訓練。該框架部署在HPC系統上,以展示RLlib算法在系統的多個節點上的擴展性,并提供可定制的神經網絡模型和模擬環境的靈活性。

3. 結果和討論

利用第2節所述的基礎設施,我們為《星際爭霸II》和OpSim環境開發了一個端到端的DRL框架,并進行了初步實驗。在這一節中,我們將描述網絡架構、實現和一些初步的實驗結果。

3.1 使用《星際爭霸》的深度強化學習

我們使用第2.2節中描述的戰術版《星際爭霸II》訓練了一個多輸入和多輸出的深度強化神經網絡。我們使用了異步優勢演員批判(A3C)算法,這是一種由多層卷積網組成的狀態輸入處理方法,長短期記憶(LSTM)遞歸層給網絡增加了記憶。

3.1.1 異步優勢演員批判結構

在《星際爭霸II》中,狀態空間由7個大小為64x64的迷你地圖特征層和13個大小為64x64的屏幕特征層地圖組成,總共有20個64x64的二維圖像(圖9的左側面板)。此外,它還包括13個非空間特征,包含玩家資源和建造隊列等信息。這些游戲特征是用輸入處理管道來處理的,如圖10所示。星際爭霸II》中的動作是函數形式的復合動作,需要參數和關于該動作要在屏幕上發生的位置的說明。例如,像 "攻擊 "這樣的動作被表示為一個函數,需要屏幕上的X-Y攻擊位置。行動空間由行動標識符(即運行哪個行動)和兩個空間行動(x和y)組成,這兩個空間行動被表示為兩個長度為64個實值項的向量,在0和1之間。 表2劃分了觀察空間、行動空間和《星際爭霸II》模擬的獎勵。

圖10提供了星際爭霸II任務中相互嵌入模型和A3C智能體的狀態輸入處理管道的概述。星際爭霸II提供了三個主要的狀態信息流:小地圖層、屏幕層和非空間特征(如資源、可用行動和建造隊列)。小地圖和屏幕特征由相同的兩層卷積神經網絡(CNN)處理(頂部兩行),以便分別提取地圖的全局和局部狀態的視覺特征表示。非空間特征通過一個具有非線性激活的全連接層進行處理。然后,這三個輸出被連接起來,形成智能體的完整狀態空間表示,以及基于狀態的相互嵌入模型的部分。

圖10 《星際爭霸II》的狀態輸入處理

表2 《星際爭霸II》模擬的觀察空間、行動空間和獎勵

A3C是優勢行動者-批評算法的分布式版本,其中創建了行動者的多個平行副本,以同時執行行動和收集經驗。讓多個行為體收集經驗可以提高探索效率,從而改善學習。我們使用的A3C智能體的結構類似于Mnih等人的Atari-net智能體,它是一個從Atari改編的A3C智能體,在SC2LE狀態和行動空間上運行。我們對這個智能體做了一點修改,增加了一個LSTM層,因為Mnih等人的研究表明,增加模型的內存可以提高性能。我們的A3C智能體的結構如圖11所示。

圖11 A3C智能體的結構。這里顯示的是一個完整的RL智能體及其與《星際爭霸II》的連接示意圖。作為典型的政策性智能體,這里的A3C智能體(綠色)從任務環境中獲取狀態和獎勵信息,并使用這些信息來計算下一個時間步驟的行動,以及計算梯度來增加獎勵最大化。

3.1.2 實驗和結果

我們用20個并行的演員學習者來訓練A3C模型,使用了8000個模擬的《星際爭霸II》機器人的戰斗,操作由DeepMind開發的手工制作的規則。如果BLUEFOR穿過瓦迪或OPFOR排被摧毀,則提供+10的正強化,如果BLUEFOR被摧毀則提供-10的負強化。

我們在《星際爭霸II》的 "虎爪 "場景中對訓練好的A3C模型進行了100次的測試。這些模型與具有隨機行動的隨機基線以及人類玩家與《星際爭霸II》機器人進行的10場模擬戰斗進行了比較。圖12中提供了收集到的指標的匯總圖,包括總的情節獎勵和藍軍的傷亡人數。我們看到,與人類玩家相比,人工智能指揮官不僅取得了相當的表現,而且在任務中表現得稍好,同時還減少了藍軍的傷亡。

圖12 與人類和隨機智能體基線相比,訓練有素的人工智能指揮官(A3C智能體)的總獎勵和BLUEFOR傷亡情況。人工智能指揮官能夠實現與人類基線相當(略好)的獎勵,同時減少藍軍的傷亡。

3.2 使用OpSim的深度強化學習

為OpSim模擬環境開發了兩種類型的指揮官。第一種是基于專家設計的規則引擎,由喬治亞州本寧堡的軍事主題專家使用理論規則開發。第二種是DRL訓練的神經網絡,采用A2C算法訓練的多輸入多輸出的LSTM神經網絡。A2C與A3C類似,但沒有異步部分。OpSim的RL界面支持多智能體訓練,每個部隊可以是基于規則的,也可以是人工智能指揮官。

政策網絡首先在FOB的15個節點上進行訓練,75個平行工作者收集了482k次模擬戰斗,耗時36小時。此外,在SCOUT系統上應用和訓練了局部切面位置和無目標獎勵更新。有了更新的觀察和獎勵,39個平行工作者收集了175k次戰斗經驗,花了37小時。

觀察空間由17個特征向量組成,其中觀察空間是基于每個實體的設備傳感器的部分觀察。與S2CLE不同,OpSim目前不使用圖像輸入或屏幕圖像的空間特征。行動空間主要包括簡單的運動和交戰攻擊(表3)。

表3 OpSim模擬的觀察空間、行動空間和獎賞

3.2.1 實驗和結果

訓練好的模型用100個推出的模擬結果進行評估,在檢查站使用凍結政策,BLUFOR的平均獎勵最高。在SCOUT上,4510號檢查站的BLUFOR政策平均獎勵達到了200,OPFOR政策平均獎勵達到了-322的滾動平均值。對100次滾動的分析表明,經過DRL訓練的BLUFOR智能體將損失從4左右降至0.5,而增加了OPFOR的損失(圖13)。這一結果是通過采用僅使用戰斗裝甲連和戰斗步兵連進行交戰的策略達到的。它學會了利用BLUFOR最致命的部隊與Abrams和Bradleys的策略,同時保護脆弱的資產不與OPFOR交戰(圖14)。

圖13 主題專家和人工智能指揮員之間的實體損失比較

圖14 一次推廣的開始和結束的快照

4. 結論

作為DSI的一部分,為C2的DRL開發了兩個新型測試平臺。基于StarCraft II和OpSim。使用這些最先進的測試平臺開發了端到端的DRL方法。該基礎設施被移植到國防部的HPC系統中,以擴大訓練的規模,進行平行數據收集。

初步實驗結果顯示,初步觀察到DRL在沒有預編碼知識的情況下實現了有效和合理的C2,基于DRL的 "人工指揮官 "可以在模擬的旅級戰斗中執行綜合規劃-執行過程。一些結果,特別是在《星際爭霸II》的環境中,表明人工智能采取的策略與有能力的人類玩家的策略相當。它還表明,計算資源并不是人工智能在C2中的障礙;我們看到使用HPC系統學習的速度足夠快,在37小時內就能收斂。總之,DSI的第一年提供了充分的證據,表明基于學習的人工智能有可能被用作未來軍事行動C2的關鍵技術。

付費5元查看完整內容

美國海軍的無人作戰框架和智能自主系統(IAS)戰略解析了美國海軍的愿景,即如何通過迭代實驗來發展無人平臺,重點是發展新的作戰概念和實現這些想法的關鍵技術。美國海軍需要制定一個作戰概念(CONOPS),將無人水面和水下航行器(USV/UUV)納入現有情報、監視和偵察(ISR)流程。無人平臺(UV)面臨著操作和續航方面的挑戰,這將使它們在情報周期的處理和開發功能中成為獨特的難點。本文討論僅限于兩個具有顯著續航能力和收集能力的無人平臺,這兩項能力使無人平臺對作戰具有重大影響。這項工作回顧了關于超大型UUV(XLUUV)和中型USV(MUSV)能力和預期任務的非機密文獻,并與MQ-4C海神偵察機的發展進行了比較。確定了海軍在開發CONOPs時應該考慮的幾個因素和解決方案,如何在戰役層面將XLUUV和MUSV集成到ISR中。

1 簡介

“無人平臺在我們未來的艦隊中發揮著重要作用。成功地整合無人平臺——在海面下、在海面上和海面上空——為我們的指揮官提供了更好的選擇,以便在有爭議的空間里作戰和獲勝。它們將擴大我們的情報、監視和偵察優勢......”--美國海軍作戰司令部,2021年航行計劃

美國海軍目前正在開發一系列無人的空中、水面和水下航行器,以滿足其未來部隊需求。海軍的無人作戰框架和智能自主系統(IAS)戰略解析了海軍的愿景,即如何通過反復實驗來開發這些新平臺,重點是發展新的作戰理念和實現這些理念的關鍵技術。無人平臺將支持海軍的目標,即建立一支更加分散的部隊,能夠在通信退化的環境中作戰,同時在受到反介入和區域拒絕威脅的挑戰時能夠應對。雖然海軍的無人平臺仍處于不同的發展階段,但有足夠的數據表明它們的能力,可以提出新作戰概念,將這些新平臺與海軍長期以來的優先事項相結合。

美國海軍需要制定一個作戰概念(CONOPS),將無人水面和水下航行器(USV/UUV)納入現有情報、監視和偵察(ISR)流程中,無論是在戰斗期間還是在日常的非戰斗行動中。這種CONOPs將支持智能自主系統中至少兩個子類——分布式和持久性傳感器,以及戰斗空間的擴展、清晰化和精確化。無人平臺(UV)雖然有潛在的強大的收集能力,但面臨著操作和續航方面的挑戰,這將使它們在情報周期的處理和開發功能方面成為獨特的麻煩。海軍使用無人平臺作為ISR資產的概念將需要納入這些平臺獨特的適合完成的作戰目標,并且應該在這些平臺能力正在形成和實戰化的時候就開始制定。

為了把重點放在戰爭的戰役層面上,討論將限于兩個具有重要續航能力和收集能力的無人平臺,使它們具有實質性的作戰影響。這項工作回顧了關于超大型UUV(XLUUV)和中型USV(MUSV)能力和預期任務的非機密文獻,并與MQ-4C Triton(一種大型海上無人駕駛飛行器)的發展相比較。它確定了海軍在制定將XLUUV和MUSV整合到作戰層面的ISR的CONOP時,應該考慮的幾個因素和解決方案。分析的重點是在以海洋為中心的戰場上使用這些平臺,對手是在海面下、水面、空中和太空領域使用軍事力量的近鄰或同級對手。提到作戰指揮官時,設想了一個戰區聯合部隊海上分指揮官(JFMCC)和情報人員,在岸上或海上作戰中心(MOC)內運作。

2 背景介紹

美國海軍的分布式海上作戰(DMO)概念是為了在反介入、區域拒止(A2AD)戰場上擊敗競爭對手,它依賴于分布式、網絡化的ISR平臺。ISR資產將定位對手并為武器使用平臺提供目標支持。無人平臺與多域作戰(DMO)概念極其相關,因為DMO設想在對手的對峙或反介入武器的交戰區域內使用海軍資產。海軍23財年的長期海軍建設計劃指出,海軍預計在45財年擁有89-145個無人平臺,并提到更詳細的信息,可在機密的能力發展計劃中獲得。22財年的建設計劃明確指出,海軍正在尋求59-89艘USV和18-51艘UUV。海軍的資金優先級和迭代式無人平臺開發支持CNO將無人平臺作為分布式作戰的一個重要組成部分。

情報、監視和偵察是三個獨立但密切相關的功能,對于軍事行動至關重要。廣義上講,情報是收集和分析與決策有關的信息。監視是使用收集資產來監測一個地點的相關活動,而偵察是將收集資產部署到一個確定的區域,以定位或確認沒有相關活動。當無人平臺用于ISR功能時,將主要作為收集資產來監視或偵察特定區域,尋找相關活動。這些平臺的 "無人"性質,使平臺本身更具有成本效益,不容易被置于危險之中,但卻使其作為ISR資產的有效性變得復雜。采集行動必須以足夠嚴格的方式進行預規劃,以滿足指揮官在不可能重新分配任務的通信環境中繼續生存。此外,收集到的數據必須傳送給有能力將信息開發成情報的分析人員,以便為作戰決策提供依據。

3 MQ-4C "海神"偵察機

MQ-4C "海神"是由RQ-4 "全球鷹 "改裝的大型無人機,用于提供持久的海上ISR。"海神"的開發是為了滿足海軍對持久性ISR的需求,最終被確定為廣域海上監視(BAMS),用于A2AD環境。"海神"在一次任務中可以飛行超過24小時,作戰范圍為8,200海里。為了滿足海軍的要求,對RQ-4進行了具體的修改,最明顯的是要求在惡劣的海上天氣下下降和上升,以便目視識別通過電子信號定位的水面航行器。這一要求需要增加除冰能力、防雷和其他強化措施。

2020年1月,海軍對 "海神 "進行了首次早期作戰能力(EOC)部署,向關島的安徒生機場派出了兩架飛機。該飛機作為CTF-72的一部分,向在INDO-PACOM責任區作戰的聯合部隊提供海上巡邏和偵察,這是ISR的一個方面。在飛行行動中,"海神 "由四名飛行員組成的機組控制,他們在地面控制點進行操作。這些操作員駕駛飛機,不進行情報開發,情報開發由一個單獨的專家小組提供。2020年派往關島的機體并不具備整套預期的收集能力,只有光電/紅外(EO/IR)視頻流和一個海上雷達。海軍目前正在測試 "海神 "的升級版、多智能改進版,它增加了信號情報收集能力,是打算取代有人駕駛的EP-3E Aeries II飛機的平臺。

盡管還沒有完全投入使用,但 "海神 "號的早期使用提供了一些經驗,應該為大型無人水面和水下船只的發展提供參考。首先,"海神"和其他無人平臺所收集的信息將需要傳送給人類分析人員進行開發。雖然存在識別感興趣的信號的自動化程序,但它們還不能將這些信息置于當前友軍和敵軍行動的背景下,并告知決策者。其次,大型無人駕駛系統依賴于岸上的維持和維護。像 "海神 "一樣,任何大型的平臺都需要返回基地或港口進行維修、加油和卸載收集的數據。這些岸上的設施是平臺操作的關鍵要求,可能會受到干擾或攻擊。第三,在建造無人平臺時,應了解任務和有效載荷在未來可能發生變化。為平靜的海況和適度的溫度而建造的無人平臺,在大海里、惡劣的天氣或極端的水溫下,可能不那么有效或無法操作。

4 “虎鯨”超大型無人潛航器(XLUUV)

5個“虎鯨”超大型無人潛航器(XLUUV) 中的第一個,在19財年得到資助。其基于波音公司的Echo Voyager XLUUV進行開發,預計在22財年作為一個測試平臺,用于開發作戰概念和關鍵的使能技術。XLUUV幾乎肯定不會有能力以載人潛艇的保真度來探測、跟蹤和分類聲音。這主要是因為UUV缺乏訓練有素和有經驗的船上潛艇人員的專業知識,而且XLUUV是一個比載人潛艇小得多的平臺,限制了任何船上聲納陣列的能力。然而,XLUUV的模塊化性質擴大了其潛在的收集能力,包括船上攜帶的任何可部署的系統,以及船體安裝或牽引的聲納陣列。下面將討論基于有機傳感器或XLUUV攜帶的有效載荷進行數據收集。

將XLUUV作為ISR資產使用的最重大挑戰是缺乏與地面控制點的頻繁通信。現有的能力并沒有確定XLUUV是否有能力升起一個通信桅桿或浮標來傳輸數據和接收修訂的指令。這樣做會削弱使用水下航行器作為ISR資產的主要優勢,即它的隱蔽性。這為作戰計劃者確定了三種可能的行動方案。第一,XLUUV在其行動期間不能發送或接收任何數據。這將限制XLUUV只執行預先計劃的行動,并剝奪行動指揮官重新分配資產的任何能力。第二,XLUUV可以部署一個僅有接收能力的通信天線。這將允許指揮官重新分配XLUUV的任務,但不允許該資產廣播接收指令,這使得操作人員不確定新的指導是否正在執行。用來傳達這種新指導的廣播有可能揭示UUV或潛艇的行動區域。第三,XLUUV可以采用一個同時具有發射和接收能力的通信浮標。這將使指揮官能夠發布新的指令,并確認XLUUV已經收到并將執行新的任務,但也有可能將UUV的位置暴露給對手。每種方案都是在安全和作戰指揮官的靈活性之間做出的折衷。

繼隱身之后,UUV作為ISR資產的第二個主要優勢是其收集聲學數據的能力。聲學情報,即對這些數據的處理和利用,是一門極富挑戰性的學科。聲學數據需要分析人員花費數年甚至數十年的訓練和經驗來進行分析。由于這門學科的挑戰,海軍應該尋求現有的聲學情報卓越中心來分析XLUUV收集的數據。海軍在弗吉尼亞和華盛頓有兩個海軍海洋處理設施(NOPFs),由聲學和情報專家共同管理。這些設施作為綜合海底監視系統(IUSS)的一部分運作,并對來自海上采集資產的聲學數據進行持續分析使用。對于ISR功能,海軍應考慮將XLUUV作為IUSS資產,并利用NOPFs的常駐聲學情報專家來處理和分析收集的數據。

需記錄的聲學信息通常也會產生大量的數據,覆蓋較長的時間段。可能需要幾周或幾個月的時間來充分開發XLUUV任務的所有記錄數據。當考慮到前面討論的通信挑戰時,使用XLUUV作為ISR資產將需要對XLUUV支持的確切行動目標進行詳細規劃。這種規劃應導致對UUV的反應進行預先規劃,以滿足指揮官意圖的具體檢測。操作員應考慮三種反應,即立即反應、暫時延遲反應,或決定繼續執行任務并在回港后分析數據。

一旦XLUUV檢測到特定的標準,例如特定對手潛艇的聲學特征,它的反應應該由作戰指揮官仔細預先確定。在這種情況下,XLUUV有三種可能的行動。第一,停止其任務,并通過通信桅桿或非系留的單向傳輸浮標,立即向作戰指揮官發出通知,說它已經探測到對手的潛艇。如果敵方潛艇對指揮官的部隊構成危險,并且需要時間敏感的定位信息來使反潛戰(ASW)資產加入戰斗,這種反應可能是適當的。二,XLUUV可以釋放一個單向的通信浮標,在延遲后將探測結果廣播給作戰指揮官。這種折中的反應將為指揮官提供最近的定位數據,并提高他的態勢感知,但也允許UUV離開該地區,繼續執行其任務而不暴露其位置。如果指揮官希望在近乎沖突的時期提高態勢感知,但又不試圖主動瞄準對手的潛艇,這種反應可能是合適的。第三,XLUUV可以簡單地繼續記錄聲學數據,對探測進行日志記錄,并繼續執行其任務。日志記錄將有助于回港后的開發。這種反應在非沖突時期和XLUUV執行一般監視任務或收集作業環境信息時可能是合適的。這些反應選項中的每一個都利用了當今可用的技術,并為作戰指揮官提供了靈活性,以根據作戰需要指揮所需的反應。

波音公司公開的Echo Voyager XLUUV的數據顯示,它的航程為6500海里(NM),最大速度為8.0節,最佳速度為2.5-3.0節。從關島阿普拉港到俄羅斯太平洋艦隊所在地阿瓦查灣約2450海里,到中國南部戰區海軍駐地亞龍灣約2050海里。如果Orca XLUUV的能力與Echo Voyager的能力相近,這將使最有可能收集情報的地點處于部署在關島的XLUUV的行動范圍之內。然而,在離母港很遠的地方使用XLUUV可能會導致在接收和利用收集的數據方面出現重大延誤。根據2.5-8.0節的前進速度,從阿瓦查灣返回關島大約需要13至40天。該平臺漫長的旅行時間,加上分析所收集的數據所需的大量時間,促使XLUUV在ISR中最有可能的用途是對作戰環境的一般性收集,或有可能實施監視任務,將該平臺的長耐久性與前面描述的即時或延遲傳輸通信方法相結合。

作為一個無人平臺,XLUUV在維持和維護方面也將面臨獨特的挑戰,這將影響其作為ISR資產的使用。XLUUV被設想為一種可部署或遠征的能力。對這種能力的討論似乎僅限于單個或少量的船體,然而DMO概念和海軍造船計劃設想了幾十個平臺,所有這些平臺都將需要運輸、地面支持和碼頭空間來運作。任何降低或拒絕完成任務的物質缺陷都需要長時間返回港口或可能返回位于對手威脅范圍之外的水面艦艇。維護和保養的現實需要被納入任何利用無人武器作為ISR資產的作戰計劃中,這可能導致它們主要被用于非戰斗性的情報準備任務,在這些任務中,故障的影響比戰斗行動中要小。

5 中型無人水面艦艇(MUSV)

美國海軍的MUSV目前正在基于最初的原型平臺Sea Hunter(SH1)和Seahawk(SH2)的基礎上進行開發。MUSV的具體目的是發揮ISR的作用,提供一個集成到海軍戰術網格中的無人傳感器和電子戰平臺。MUSV計劃目前在平臺能力方面的定義不如XLUUV,但其發展足以考慮具體的ISR功能和作戰概念。將MUSV作為ISR資產使用的關鍵決定是確定它們是作為獨立的收集器還是作為從屬于有人駕駛的水面艦艇的資產。

無論是哪種使用方式,MUSV都將以類似的方式發揮作用--收集現有的電子數據,進行初步的開發和處理,并將收集的結果轉發給岸上和海上的分析人員和系統。區別在于船上的收集系統在尋找什么信號,以及向誰和如何轉發收集的信息。當MUSV作為載人艦艇的支持力量運行時,它的收集系統應集中于探測和跟蹤來襲的威脅,并為被支持的艦艇提供目標定位的幫助。傳感器包應能同時識別和跟蹤反艦巡航導彈、彈道導彈、高超音速導彈、水面艦艇、有人和小型無人駕駛飛機,并提供潛望鏡探測能力。MUSV應該能夠將其收集的結果直接提供給被支持的艦艇,而不依靠干預的地面站或衛星,然后協助選擇和確定防御措施或反擊的目標。

如果作為一個獨立的收集器運行,MUSV最好配備能夠超越基線追蹤多個空中和地面目標的傳感器,并自動將這些追蹤與已知或可疑的對手平臺聯系起來。這些數據應該被轉發給作戰指揮官,以建立共同作戰圖(COP)。這兩項任務,直接支持載人艦艇或提供COP發展的獨立行動,包含了監視和偵察任務的要素。然而,最佳的傳感器和通信能力在不同的任務之間是不同的,這需要在進一步發展MUSV時予以考慮。

作為主要的電子情報(ELINT)收集器,MUSV將需要依靠現有的ELINT分析員來分析所收集的數據。海軍水面艦艇上一般都有可以進行這種分析的密碼學人員,盡管他們目前的任務是操作和利用其艦艇的有機收集能力。如果MUSV上有足夠的通信能力,那么收集到的數據可以被發送到岸上的分析人員進行利用。在這種情況下,海軍信息戰指揮部(NIOCs)是數據利用的合理地點。將需要開發基礎設施和信息技術,以便將MUSV收集的ELINT納入現有的處理系統。此外,水面艦艇和岸上設施的密碼人員配置將需要反映出增加了一個新的收集平臺,提供多個需要分析的數據流。

6 反論點

像“虎鯨”和MUSV這樣的大型無人平臺被設想為未來技術的一個組成部分,它將實現海軍的DMO概念。這一設想聲稱,從無人平臺收集的數據將通過海軍戰術網格和聯合全域指揮與控制(JADC2)網絡傳達給作戰級指揮官。CNO的NAVPLAN 2021指出,建立一個強大的海軍作戰架構(NOA),這將支持將無人平臺收集的數據納入JADC2,是僅次于調整海上戰略威懾力量的第二大發展重點。目前的ISR平臺開發正在將重點從人力密集型部隊轉向自動化能力,以在有爭議的環境中擊敗同行的對手。AI/ML的使用將導致收集的數據處理和利用的速度呈指數級增長,大大增強作戰指揮官的態勢感知,并減少從檢測到對手到使用武器的時間。對收集到的數據進行網絡化、自動化的利用,將是分布式作戰的一個重要推動因素。

7 辯證

網絡化通信和AI/ML的發展必然會導致無人平臺的有效使用,這有三個原因。第一,作戰藝術取決于對作戰環境、敵方和友方部隊以及作戰目標的深入分析和理解。無論提供何種工具,這種理解和部隊的有效使用將始終取決于一個有能力的作戰指揮官。作為一種ISR資產,無人平臺將依賴于指揮官和情報人員的明確行動任務。第二,目前人工智能/ML工具在情報分析中的狀態是有希望的,但離開始復制人類分析的能力可能還有很長的路要走。人工智能/ML工具只能復制人類思維和行動所形成的模式,而且幾乎可以肯定的是,無論開發何種算法,都會錯過與作戰藝術相關的新趨勢和異常數據。海軍在培訓和保留AI/ML專業知識方面也面臨挑戰。第三,大型UV目前正處于迭代實驗階段,在設計平臺能力的同時,現在就需要制定作戰概念。等到無人平臺達到最終的生產狀態,再為這些新的收集資產制定ISR CONOPs,將使海軍情報專家無法在開發過程中告知滿足作戰意圖所需的傳感器和能力。

8 結論

美國海軍情報界需要充分投資于大型無人平臺的發展,特別是發展將這些平臺用于ISR角色所需的能力和概念。海軍在將無人平臺納入ISR過程中的經驗將為利用無人水面和海底艦艇提供參考,但不能直接轉化為利用無人平臺。在通信惡化或被拒絕的環境中運行的無人平臺可能需要大量的岸邊基礎設施來處理和利用收集的數據,對這種基礎設施和人力的投資應該與平臺的開發同時進行。從無人平臺收集的數據可能需要大量的時間來處理和利用,減少了它們在指示和警告(I&W)任務中的作用,并可能引導最佳傳感器套件來支持作戰環境的收集。由于在處理和利用收集的數據方面的挑戰,無人平臺不會取代現有的載人飛機、水面和水下航行器以及國家高空收集的ISR功能,但如果開發和使用正確的能力和作戰概念組合,無人平臺可能會成為發展指揮官態勢感知的有力工具。

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容
北京阿比特科技有限公司