亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在美國陸軍作戰能力發展司令部陸軍研究實驗室,正在研究行為、建立數據集并開發異常分類和解釋技術,其中自主智能體可生成對可能包含異常屬性的環境的自然語言描述和解釋。這項技術將支持在不確定條件下做出決策,并支持士兵和機器人隊友在網絡受限的情況下,在未知或危險環境中完成探索性導航任務(如自然災害后的搜救)的彈性自主機動。在本報告中詳細介紹了我們的貢獻如下:借鑒視覺異常檢測方面的相關工作,設計了異常分類法;設計了兩個在虛擬環境中進行的實驗,根據分類法操縱虛擬環境以顯示異常屬性;收集了一小部分人類語音和人機對話語料,用于異常檢測和解釋任務;最后,設計了一個新穎的注釋模式,并將其應用于的語料庫子集。

圖 1. 帶有實例的類異常分類法。矩形框中包含類的類型(如實體的 "顏色"),橢圓形是類屬性的實例或示例(如 "粉色小貓")。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

如果海軍陸戰隊要與近似對手競爭,海軍陸戰隊必須將人工智能(AI)作為一種決策支持系統(DSS),以加快規劃-決策-執行(PDE)周期,從而在認知、時間和致命性方面取得優勢。

信息系統和監視技術正在改變戰爭的特點,使較小的部隊也能分布和影響較大的區域。但是,目前的指揮、控制、通信、計算機、情報、監視和偵察系統(C4ISR)以及機器人和自主系統(RAS)都是人力密集型系統,會產生大量數據,海軍陸戰隊必須迅速利用這些數據來提供可操作的情報。由于遠征高級基地行動(EABO)要求部隊規模小、分布廣、復原力強,必須迅速做出明智決策,才能在各種不斷發展和演變的威脅面前生存下來,因此這就存在問題。

使用數據分析和機器學習的人工智能處理、利用和傳播信息的速度比人類更快。配備了人工智能 DSS 的 EAB 指揮官將以比對手更快的速度做出更明智的決策。然而,在實現這一目標之前,目前還存在著巨大的障礙。海軍陸戰隊必須為 EABO 制定一個人工智能支持概念,并將其納入海軍作戰概念中,充分確定人工智能工作的優先次序和資源,并為企業數據管理提供資源,以最大限度地利用數據分析和機器學習來發現數據庫中的知識(KDD)。此外,海軍陸戰隊必須利用美國陸軍的人工智能實驗和概念開發來實現多域作戰(MDO)。最后,海軍陸戰隊應確定當前可通過狹義人工智能加以改進的技術和作戰領域。

引言

指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)以及機器人和自主系統(RAS)技術的普及正在改變戰爭的特點,使較小的部隊能夠分布和影響更大的區域。然而,作戰期間收集的數據正在迅速超越人類的認知能力。早在 2013 年,美國國防部就指出:"ISR 收集和......收集的數據急劇增加。我們繼續發現,我們收集的數據往往超出了我們的處理、利用和傳播能力。我們還認識到,就戰術層面的分析人員數量而言,PED 的資源需求可能永遠都不夠"。

如果能迅速加以利用,C4ISR/RAS 數據將為指揮官提供戰勝敵人的信息優勢。但是,從這些來源獲取及時、可操作的情報需要大量人力,而且必須通過人工手段對數據進行快速處理、利用和傳播(PED)才能發揮作用。如果遠征軍要通過 C4ISR 與近鄰競爭并獲得競爭優勢,這對海軍陸戰隊來說是個問題。這些豐富的信息可以加快計劃-決策-執行(PDE)周期,但如果不加以管理,就會使領導者被信息淹沒,猶豫不決。必須采取相應措施,利用新技術實現數據自動化和管理。如果海軍陸戰隊要與近似對手競爭,海軍陸戰隊必須將人工智能(AI)作為決策支持系統(DSS),以加快 PDE 周期,從而在認知、時間和致命性方面取得優勢。

本文旨在證明,利用人工智能技術可加快指揮官在其環境中的觀察、定位、決策和行動能力。本文承認,但并不打算解決射頻通信、信息系統和組織變革中出現的技術問題的重大障礙。本文分為四個不同的部分。第一部分重點討論不斷變化的安全環境和新興技術帶來的挑戰,以及這些挑戰將如何影響指揮官。第二部分討論技術解決方案、決策模型,以及人工智能作為 DSS 如何為 EAB 指揮官創造認知、時間和致命優勢。第三部分將在未來沖突中,在 EAB 指揮官很可能面臨的假想作戰場景中說明這種系統的優勢。最后一部分重點討論了實施過程中遇到的障礙,并對今后的工作提出了建議。

第 I 部分:新的安全環境和新出現的挑戰

自 2001 年以來,海軍陸戰隊在 "持久自由行動"(OEF)、"伊拉克自由行動"(OIF)和最近的 "堅定決心行動"(OIR)中重點打擊暴力極端組織(VEO)和反叛亂戰爭。美國武裝部隊所處的是一個寬松的環境,有利于技術優勢、不受限制的通信線路和所有領域的行動自由。隨著 2018 年《國防戰略》(NDS)和海軍陸戰隊第 38 任司令官《司令官規劃指南》(CPG)的出臺,這種模式發生了變化,《司令官規劃指南》將大國競爭重新定為國家國防的首要任務,并將海軍陸戰隊重新定為支持艦隊行動的海軍遠征待命部隊。

為了支持這一新的戰略方向,海軍陸戰隊開發了 "先進遠征作戰"(EABO),作為在有爭議環境中的瀕海作戰(LOCE)和分布式海上作戰(DMO)的一種使能能力。EABO 為聯合部隊海上分隊指揮官或艦隊指揮官提供支持,在反介入區域拒止(A2/AD)環境中提供兩棲部隊,以獲取、維持和推進海軍利益,作為控制海洋的綜合海上縱深防御。然而,EABO 對部隊提出了一些必須考慮的具體挑戰。這些挑戰包括在所有領域與近似對手的競爭、對新興技術的依賴、人員與能力之間的權衡,以及地理距離和分布式行動帶來的復雜性。總的主題是如何通過在關鍵點上集成人工智能技術來克服這些挑戰,從而增強指揮官的 PDE 循環。

處理開發傳播 (PED) 問題

如果情報驅動軍事行動,那么海軍陸戰隊就會出現問題。如前所述,數據收集的速度超過了戰術層面的處理、利用和傳播(PED)過程。數據本身是無用的,必須經過組織和背景化處理才有價值。根據認知層次模型(圖 1),數據和信息對形成共同理解至關重要。聯合情報流程通過規劃和指導、收集、處理和利用、分析和制作、傳播和整合以及評估和反饋這六個階段來實現這一目標。C4ISR/RAS 的擴散擴大了收集范圍,但 PED 卻沒有相應增加。除非采取措施實現信息管理自動化,否則指揮官將面臨信息超載和決策癱瘓的風險。

信息超載是指由于一個人無法處理大量數據或信息而導致的決策困難。 羅伯特-S-巴倫(Robert S. Baron)1986 年關于 "分心-沖突理論"(Distraction-Conflict Theory)的開創性研究表明 執行復雜任務的決策者幾乎沒有多余的認知能力。由于中斷而縮小注意力,很可能會導致信息線索的丟失,其中一些可能與完成任務有關。在這種情況下,學習成績很可能會下降。隨著分心/干擾的數量或強度增加,決策者的認知能力會被超越,工作表現會更加惡化。除了減少可能關注的線索數量外,更嚴重的干擾/中斷還可能促使決策者使用啟發式方法、走捷徑或選擇滿足型決策,從而降低決策準確性。

鑒于 Baron 的結論,C4ISR/RAS 將降低而不是提高戰術指揮官的決策能力。筆者在擔任海軍陸戰隊作戰實驗室(MCWL)科技處地面戰斗部(GCE)處長期間進行的研究證實了這一結論。2013 年,海軍陸戰隊作戰實驗室 (MCWL) 開展了戰術網絡傳感器套件 (TNS2) 有限技術評估 (LTA)。一個海軍陸戰隊步槍連及其下屬排配備了空中和地面機器人、地面傳感器以及戰術機器人控制器(TRC)。戰術機器人控制器使一名操作員能夠在白天或黑夜,在視線范圍外同時控制多輛戰車進行 ISR。MCWL 將這種 ISR 形式命名為多維 ISR(圖 2)。LTA顯示,使用TNS2的排級指揮官在防御、進攻和巡邏時都能迅速發現威脅,但LTA也發現了兩個重大問題:1.在軟件和機器人能夠自主分析和關聯傳感器輸入之前,海軍陸戰隊員仍需收集和整理ISR數據;2.在中高作戰壓力下... 在中度到高度的作戰壓力下......操作人員會超負荷工作......無法探測和識別目標,并普遍喪失態勢感知能力。

海軍陸戰隊情報監視和偵察--企業(MCISR-E)正在通過海軍陸戰隊情報中心(MIC)、海軍陸戰隊情報活動(MCIA)與戰斗支援機構(CSA)和國家情報界(IC)連接,納入預測分析流程,以解決這些問題。通過海軍陸戰隊情報活動(MCIA),MCISRE 解決了全動態視頻(FMV)聯合 PED 支持問題,并于 2017 年成立了全動態視頻聯合 PED 小組,該小組具有全面運作能力,每周 7 天提供 12 小時支持,費用由 14 名分析員和 3 名特派團指揮官承擔。

雖然這是朝著正確方向邁出的一步,但由于人力需求量大,這可能證明是不夠的。EAB 指揮官必須依靠地理位置相隔遙遠的上級總部提供的、通過有爭議的電磁頻譜傳輸的情報成品。海軍陸戰隊司令部的 MIX 16(海軍陸戰隊空地特遣部隊綜合演習)實驗結果證實了這一結論: "未來戰爭將在具有挑戰性的電磁環境中進行,分布在各地的部隊......從上級總部 "伸手回來 "獲取日常情報援助的能力可能有限,而且無法依賴"。此外,在戰術和作戰層面增加更多的分析人員會導致循環報告,這只會加劇信息超載問題。

EABO/分布式作戰 (DO) 困境

根據《EABO 手冊》,EAB 必須 "產生大規模的優點,而沒有集中的弱點"。美國陸軍在 2016 年進行的實驗表明,較小的單位有可能分布并影響較大的區域(圖 3)。有人無人協同作戰概念(MUMT)認為,采用縱深傳感器、縱深效應和支援行動的部隊可實現戰斗力并擴大其影響范圍。

然而,DO 和 EABO 是零和博弈。C4ISR 和 RAS 技術可以讓部隊分布得更遠,但實驗表明,規模經濟會喪失。增加兵力將增加所有領域的需求。正如皮涅羅在 2017 年的一篇研究論文中總結的那樣:"當部隊分散時,就會失去指揮與控制、情報和火力等輔助功能的效率。"在后勤方面也是如此。這種 "DO 困境 "可以用以下經過修訂的 "三重約束范式 "來表示(圖 4)。隨著部隊的分散,一個領域的整合將削弱另一個領域的能力。如果 EAB 指揮官能在不增加 EAB 占地面積的情況下提高能力,就能重新獲得規模經濟效益。智能技術整合可以解決這一問題。

第II部分:融合技術、決策和概念

人工智能展示了解決 PED 問題和 EABO/DO 困境的最大潛力,同時為指揮官提供了對抗性超配。據審計總署稱,"人工智能可用于從多個地點收集大量數據和信息,描述系統正常運行的特征,并檢測異常情況,其速度比人類快得多"。由聯合規劃流程(JPP)提供信息的人工智能系統可以產生更快、更明智的 PDE 循環。如果海軍陸戰隊想要實現 EABO,就不能僅僅依靠人類。相反,未來的關鍵在于如何利用人工智能來增強人類的決策能力。

決策和決策支持系統

研究表明,人類的決策并不完美,在復雜和緊張的情況下會迅速退化。人類的決策在很大程度上是憑直覺做出的,并在進化過程中不斷優化,通過使用判斷啟發法(偏差)來防止認知超載。偏差是快速決策的捷徑,它根據以往的經驗和知識做出假設。36 偏差是一種快速決策的捷徑,它根據以往的經驗和知識做出假設。雖然這些決策已經過優化,但并沒有參考因啟發式方法而被否定的大量數據。由于這些決策都是基于以往的經驗和現有的知識,人們在面對混亂的新情況時可能毫無準備。如前文所述,這對 EAB 指揮官來說是個問題。決策支持系統可以提供幫助。

決策支持系統可以是一個人用來提高決策質量的任何方法。海軍陸戰隊營長利用其參謀人員和聯合規劃流程 (JPP) 提供專家判斷來提高決策質量,而商業部門也越來越依賴于決策支持系統和人工智能來處理大量數據。在本文中,決策支持系統被定義為 "幫助用戶進行判斷和選擇活動的基于計算機的交互式系統",也被稱為基于知識的系統,因為 "它們試圖將領域知識形式化,使其適合于機械化推理"。大多數 DSS 都采用西蒙的有限理性理論(Theory of Bounded Rationality)來建模,該理論承認人類在信息、時間和決策認知方面的局限性。西蒙提出了一個四步模型(圖 5),包括:1.觀察現實的智能;2.制定和衡量標準和備選方案的設計;3.評估備選方案和建議行動的選擇;以及 4.根據信息采取行動的實施。4. 執行,根據信息采取行動,最后反饋到第一步。

指揮官決策的兩個關鍵要素是選擇活動和推理。選擇活動,也稱為選項意識,是指在某種情況下對不同行動方案或備選方案的認識。選擇意識為指揮官提供了通往解決方案的不同途徑。能夠自主分析海量數據的 DSS 可能會揭示出以前不知道的選項。推理是一種邏輯思維能力。通過構建決策過程,數據支持系統可以不帶偏見和感情色彩地對數據得出結論。一些研究表明,在現實環境中,簡單的線性決策模型甚至優于該領域的專家。

DSS 有不同的類型,而類型決定了其性能和對人類增強的效用。智能決策支持系統(IDSS)是與作戰行動最相關的系統,因為它使用人工智能技術和計算機技術來模擬人類決策,以解決實時復雜環境中的一系列問題。在本文中,它將被稱為人工智能決策支持系統或 AI-DSS。它由一個數據庫管理系統(DBMS)、一個模型庫管理系統(MBMS)、一個知識庫和一個用戶界面組成,前者用于存儲檢索和分析數據,后者用于獲取結構化和非結構化數據的決策模型。人工智能-決策支持系統結合了人類構建問題結構的能力,以及通過統計分析和人工智能技術來支持復雜決策的系統,從而壓縮了 PED 流程(圖 6)。

人工智能輔助OODA循環

約翰-博伊德上校(美國空軍退役)被譽為機動作戰條令及其相應心理過程模型的主要作者之一。通過對實驗性戰斗機的研究,他認識到 "錯配有助于一個人的成功和生存,以及敏捷性和節奏之間的關系,以及如何利用它們使對手的感知現實與實際現實相背離"。為了解釋這些不匹配,他提出了一個 PDE 循環,后來被稱為 OODA(觀察、定向、決定和行動)循環(圖 7)。博伊德認為,誰能通過歸納或演繹推理更快地執行這一過程,誰就能獲勝。通過將人工智能融入 OODA 循環,EABO 指揮官可以獲得對敵決策優勢。正如伯杰司令在其規劃指南中所說:"在任何規模的沖突環境中,我們必須比對手更快地做出并執行有效的軍事決策。

更好的信息和選擇有助于做出更迅速、更明智的決策,同時減輕認知負擔。EAB 部隊將面臨超音速和潛在的高超音速武器,這將使他們幾乎沒有時間做出充分知情的決策。EAB 指揮官將被迫利用大量有人和無人傳感器平臺感知威脅,并迅速確定行動方案。

人工智能輔助 OODA 循環(圖 8)直觀地描述了 EAB 指揮官如何借助人工智能技術做出決策。它將博伊德的 OODA 循環作為指揮官 PDE 循環的基礎。這反映出指揮官是決策過程的中心,也是情報和決策支持的主要消費者。下一層是國家情報總監辦公室(ODNI)的六步情報循環,用于將數據處理成情報。下一層是西蒙的有界理性模型,用于描述 AIDSS 如何嵌套在 EAB 指揮官的決策框架中。最后,使用狹義人工智能增強的外部代理被疊加以代表物理工具(如 RAS、武器系統、AI-DSS 和圖形用戶界面 (GUI))。在關鍵點集成狹義人工智能,以實現傳感器操作和利用、數據和情報的 PED 以及武器使用的自動化,從而減少人力并壓縮 PDE 周期時間,為指揮官創造可利用的優勢窗口。

作戰概念

由于 EAB 指揮官將在一個簡樸、分散和資源有限的環境中工作,他必須重新獲得在這些方面失去的效率,以超越對手。AI-OODA 循環將按以下方式解決問題。在執行任務前,指揮官進行任務分析/人員規劃流程,以確定指揮官的關鍵信息需求(CCIR)(優先情報需求(PIR)/友軍情報需求(FFIR))以及與上級總部意圖相關的任務(作戰空間的情報準備(IPB)、行動區域、任務、約束/限制等)。

在步驟 1. 觀察階段,指揮官收集有關作戰環境、敵我態勢和友軍態勢的數據,以驗證 IPB 中的基準假設并更新態勢感知。為此,將利用國防部云服務和配備計算機視覺和機器學習技術的無人系統提供的多源情報,自主分析環境,查找 CCIR。這些系統在收集和識別 CCIR 時,可根據威脅程度和排放控制(EMCON)狀態采取兩種行動方案:1. 從云和/或邊緣 AI 平臺(AI-DSS)分發/縮減信息;2. 限制通信并返回基地進行開發。從這一過程中收集到的數據將反饋到第二階段--定向,以確定其意義和相關性。

在步驟 2. 在第 2 步 "定向"階段,指揮官要對收集到的大量數據進行意義分析,以便做出適當的決策。隨著數據池的不斷擴大,第一步的輸出結果必須由人工進行處理,這將耗費大量的時間和資源。如果處理不當,指揮官就有可能因信息過載而無法確定行動方案。研究表明,在面臨信息超載等人類認知極限時,人們會使用次優的應對策略,從而導致認知偏差。第二步是當前流程中的瓶頸,也是人工智能輔助決策支持系統(AI-DSS)緩解信息過載和縮短 PDE 周期的理想場所。

AI-DSS 的優勢在于它可以自主地以數字方式整合來自無限量來源的數據,包括多源情報、RAS、鄰近邊緣 AI 節點、開放源數據以及最終基于國防部云的服務,以生成決策輔助工具、預測性威脅預報或響應行動方案。通過監控這些來源,人工智能可利用 KDD 推斷出模式和意義,以探測敵方意圖,并在人工智能-OODA 循環的第 4 步中利用 F2T2EA(發現、修復、跟蹤、瞄準、交戰、評估)的殺傷鏈模型做出反應。與計算機網絡防御(CND)中使用的技術類似,EABO 部隊可以探測敵人的行動,將敵人的殺傷鏈指標與防御者的行動方針聯系起來,并識別出將敵人的個別行動與更廣泛的戰役聯系起來的模式,從而建立起陸基情報驅動的 SLOC(海上交通線)防御(IDSD),以控制當地海域。現在,他的情報系統已獲得最佳數據,并輔以人工智能生成的行動方案 (COA),為第 3 步 "決定 "做好準備。

在步驟 3. “決定”步驟中,指揮官現在可以決定采取何種行動方案來實現預期結果。AI-DSS 可以推薦 COA、確定成功概率并建議后續行動或對手行動。通過圖形用戶界面,她的決定可以在整個梯隊中傳達,并傳遞給 RAS 平臺,從而在分布式作戰空間中形成一個綜合的有人無人團隊。

在步驟 4.“ 行動”中,指揮官正在執行任務,并利用反饋機制為其下一個決策周期提供信息,該決策周期已通過綜合通信、火力和指揮控制網絡進行了溝通,以確定可用和適當的武器系統。人工智能 OODA 循環將循環往復地進行下去,直到指揮官達到預期的最終狀態或情況不再需要采取戰術行動。通過利用人工智能作為 DSS,指揮官實現了以下目標:

1.融合--在梯隊中快速、持續、準確地整合來自所有領域、電磁頻譜(EMS)和信息環境的內部和外部能力;

2.優化 - 在正確的時間,以最有效和最高效的方式,向正確的目標提供效果的能力;

3.同步--將態勢感知、火力(致命和非致命)和機動結合起來進行滲透和利用的能力;以及

4.感知和行動速度--在沖突的各個階段都能識別和直觀地看到導致領域優勢和/或挑戰的條件,并采取相應行動;

確信所有數據點都以不偏不倚的方式加權,且周期速度快于敵方。

第 III 部分:關于人工智能輔助 EABO 的小故事

本節將通過一個小故事來解釋人工智能-OODA 循環系統在未來沖突中如何運作,從而將前面討論的主題結合起來。本節旨在從概念上向讀者概述如何使用該系統、它能解決哪些挑戰以及它能創造哪些機遇。

第 IV 部分:障礙和建議

有幾個問題不是本文的主題,但卻是接受和開發 AI-DSS 的重大障礙。將精力和資源集中在這些領域將激發行業解決方案,并協助海軍陸戰隊制定必要的政策、程序和戰術,以實現這一概念,并使海軍陸戰隊與國防部的人工智能戰略保持一致。

第一個問題是 EABO 的人工智能支持概念。如果對問題沒有清晰的認識,海軍陸戰隊就無法在技術、培訓和實驗方面進行適當的投資。一個可以考慮的途徑是與美國陸軍合作。2019 年 8 月,陸軍未來司令部發布了《2019 年未來研究計劃--人工智能在多域作戰(MDO)中的應用》。MDO 是聯合部隊的一個概念,海軍陸戰隊可以輕松嵌套在遠征梯隊中。這項研究通過戰爭游戲得到加強,概述了在 A2/AD 環境中建立人工智能能力的要求、優勢/劣勢和作戰案例。

第二個問題是海軍陸戰隊人工智能的資源配置。國防部人工智能戰略的美國海軍陸戰隊附件在 MCWL 設立了人工智能利益共同體(COI)和人工智能處,以確定人工智能工作的優先順序和同步性,并制定海軍陸戰隊人工智能戰略。這是一個良好的開端,但還不足以滿足人工智能運作所需的資源。海軍陸戰隊必須利用美國陸軍在多域作戰中開展的人工智能工作的范圍和規模,加速技術成熟、實驗和部隊發展。軍事、戰爭和后勤部人工智能有限技術評估應重點關注人工智能-DSS 如何能夠實現、改進或完全修改與 ISR-Strike、C2、維持和部隊保護相關的任務執行。2020 年有機會與陸軍人工智能任務組 (A-AITF) 就其 20 財年人工智能操作化研究計劃開展合作。

第三個問題是企業數據管理。國防部在匯集數據并將其組合成可用的形式方面舉步維艱。為了解決這個問題,國防部數字化現代化戰略要求提供企業云數據服務,也稱為聯合企業防御基礎設施(JEDI)。司令還認識到海軍陸戰隊在數據收集、管理和利用方面的不足,以促進更好的決策。機器要進行 KDD,必須有大量可用的數據集。海軍陸戰隊必須以人工智能-DSS 和其他深度學習技術能夠利用的方式構建其數據,以獲得業務收益。

第四個問題是對人工智能技術的信任。根據美國政府問責局的說法,人工智能正在接近第三次浪潮,但并非沒有嚴重障礙: "第三波人工智能的一個重要部分將是開發不僅能夠適應新情況,而且能夠向用戶解釋這些決策背后原因的人工智能系統"。目前的深度學習方法具有強大的分析能力,但有時會產生不尋常的結果。要讓指揮官信任并在軍事行動中使用 AI-DSS,就必須具備解釋人工智能如何得出答案的能力。可解釋的人工智能是國防部和商業部門共同關注的問題,而商業部門正在牽頭研究可能的解決方案。53 可解釋的人工智能是國防部和商業部門都關注的問題,而商業部門正在引領可能的解決方案研究。了解為什么會做出好的或壞的決策,會讓人對技術產生信任,這對軍事行動至關重要。

第五個問題是邊緣計算,即 "將計算能力下推到數據源,而不是依賴集中式計算解決方案"。這是必要的,因為電磁頻譜將受到爭奪,機器將無法依賴一致的通信和基于云的計算。數據網絡架構將需要重組,以便變得更加分散,并可抵御災難性損失,每個邊緣設備都應能夠與相鄰節點進行網狀連接和通信。在實踐中,數據連接將根據威脅環境從完全連接到拒絕連接的滑動范圍進行。這樣,AI-DSS 就能對本地收集的數據進行快速、實時的 PED,為 EAB 指揮官的決策周期提供支持。此外,國防部必須在戰術邊緣提供基于云的服務,并采用 5G 數據傳輸速率,以機器速度和低延遲充分利用人工智能和 RAS。同樣,這也是與美國陸軍在多域作戰方面的合作領域。

第六個問題是,這在以前已經嘗試過。2002 年,美國國防部高級研究計劃局(DARPA)創建了 PAL(個性化學習助手)計劃,作為一種認知計算系統,它可以通過學習來協助用戶完成任務,從而做出更有效的軍事決策。其主要目標之一是減少對大量人員的需求,從而使決策更加分散,不易受到攻擊。PAL 的一些功能包括將多源數據融合為單一饋送,這些功能已過渡到蘋果 Siri 個人助理和美國陸軍的未來指揮所 (CPOF) 計劃。筆者無法獲得有關 PAL 計劃局限性的詳細信息,但陸軍認識到遠征決策支持系統的必要性,目前正在精簡 CPOF。指揮所計算環境(CPCE)將多個環境整合為一個單一的用戶界面,整體重量從 1200 磅減至 300 磅,主要用于移動作戰。這是朝著正確方向邁出的一步,也是陸軍和海軍陸戰隊的潛在合作領域。

最后,MCWL 應研究在 RAS、計算機視覺、機器學習和數據分析方面的狹窄人工智能領域,這些領域可立即應用于減少指揮官的認知負荷。

結論

當前的 C4ISR/RAS 是勞動密集型的,會產生大量數據,必須迅速加以利用,才能為海軍部隊提供可操作的情報。使用數據分析和機器學習的人工智能可以比人類更快地處理、利用和傳播信息。配備了人工智能信息系統的 EAB 指揮官將以比對手更快的速度做出更明智的決策。然而,在實現這一目標之前,目前還存在著巨大的障礙。展望未來,海軍陸戰隊必須制定一個與海軍作戰概念相匹配的海軍陸戰隊作戰概念,對人工智能工作進行充分的優先排序和資源配置,對企業數據管理進行資源配置,以最大限度地利用數據分析和機器學習來發現數據庫中的知識(KDD),并利用美國陸軍的人工智能實驗和概念開發來實現多域作戰(MDO)。此外,海軍陸戰隊應確定當前可通過狹義人工智能加以改進的技術和作戰領域。

海軍陸戰隊不能再依賴過時的決策支持系統和信息管理方法來進行戰術決策。隨著友軍和敵軍利用技術獲取戰術利益,指揮官的信息負荷將繼續增加。人工智能決策支持系統可以解決這個問題。軍事指揮與控制發展計劃》(MCDP 6)指出了這一點的必要性:"無論時代或技術如何發展,有效的指揮與控制都將歸結為人們利用信息做出明智的決定和行動....,衡量指揮與控制有效性的最終標準始終如一:它能否幫助我們比敵人更快、更有效地采取行動?

付費5元查看完整內容

人工智能解決方案在陸軍野戰應用中的使用將在很大程度上依賴于機器學習(ML)算法。當前的ML算法需要大量與任務相關的訓練數據,以使其在目標和活動識別以及高級決策等任務中表現出色。戰場數據源可能是異構的,包含多種傳感模式。目前用于訓練ML方法的開源數據集在內容和傳感模式方面都不能充分反映陸軍感興趣的場景和情況。目前正在推動使用合成數據來彌補與未來軍事多域作戰相關的真實世界訓練數據的不足。然而,目前還沒有系統的合成數據生成方法,能夠在一定程度上保證在此類數據上訓練的ML技術能夠改善真實世界的性能。與人工生成人類認為逼真的語音或圖像相比,本文為ML生成有效合成數據提出了更深層次的問題。

1 引言

人工智能(AI)是美國國防現代化的優先事項。美國國防部的人工智能戰略指示該部門加快采用人工智能并創建一支適合時代的部隊。因此,它自然也是陸軍現代化的優先事項。從陸軍多域作戰(MDO)的角度來看,人工智能是解決問題的重要因素,而MDO是建立在與對手交戰的分層對峙基礎上的。雖然人工智能本身沒有一個簡明和普遍接受的定義,但國防部人工智能戰略文件將其稱為 "機器執行通常需要人類智能的任務的能力--例如,識別模式、從經驗中學習、得出結論、進行預測或采取行動--無論是以數字方式還是作為自主物理系統背后的智能軟件"。這句話的意思是,當機器在沒有人類幫助的情況下獨立完成這些任務時,它就表現出了智能。過去十年中出現的人工智能解決方案的一個重要方面是,它們絕大多數都符合模式識別模式;在大多數情況下,它們根據經過訓練的人工神經網絡(ANN)對相同輸入數據的輸出結果,將輸入數據分配到數據類別中。具體來說,深度學習神經網絡(DNN)由多層人工神經元和連接權重組成,最初在已知類別的大量數據上進行訓練以確定權重,然后用于對應用中的實際輸入數據進行分類。因此,機器學習(ML),即自動機(這里指DNN)在訓練階段學習模式的過程,一直是一個主導主題。事實上,DNN在計算機視覺領域的成功是商業和政府部門加大對人工智能關注和投資的原因。訓練算法和軟件開發工具(如tensorflow)的進步、圖形處理器(GPU)等計算能力的可用性,以及通過社交媒體等途徑獲取大量數據,使得深度學習模型在許多應用中得到了快速探索。

在監督學習中,人類專家創建一組樣本來訓練ML算法,訓練數據與實際應用數據的接近程度對人工智能方法的性能起著重要作用。將ML模型應用于軍事問題的主要瓶頸是缺乏足夠數量的代表性數據來訓練這些模型。有人提出使用合成數據作為一種變通辦法。合成數據集具有某些優勢:

  • 它們帶有準確的地面實況。
  • 使用現成的模擬產品可輕松生成大量各種類型的數據。
  • 它們在程序上的障礙較少,例如,生物識別數據需要獲得機構審查委員會的許可。

然而,最關鍵的問題是在合成數據或混合合成和真實數據上訓練ML模型是否能使這些模型在真實數據上表現良好。美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員和合作者使用合成生成的人類視頻進行機器人手勢識別所獲得的初步結果表明,在合成數據和真實數據混合的基礎上進行訓練可以提高ML手勢識別器的性能。然而,并沒有普遍或分類的結果表明,當全部或部分使用合成數據進行訓練時,真實世界的ML性能會得到一致的提高。因此,有必要進行系統調查,以確定使用合成數據訓練ML方法的可信度。我們有理由假設,合成數據在提高ML性能方面的有效性將受到實際應用領域、合成數據與真實數據的保真度、訓練機制以及ML方法本身等因素的影響。合成數據與真實數據的保真度反過來又取決于數據合成方法,并提出了通過適當指標評估保真度的問題。以圖像為例,合成數據訓練的ML方法的性能與人類視覺感知的真實場景的保真度是否成正比并不清楚。有可能數據的一些關鍵特征對于ML的性能比那些影響人類感知的特征更為重要。組織這次陸軍科學規劃和戰略會議(ASPSM)的一個主要目的是讓合成數據生成、人工智能和機器學習(AI & ML)以及人類感知方面的頂尖學術界和國防部專家討論這些問題。會議的技術重點主要是圖像和視頻數據,反映了組織者在計算機視覺和場景感知方面的任務領域。

2 組織

根據上一節提出的問題,會議圍繞三個主題展開:

1.人類的學習和概括: 人類可以從最小的抽象和描述概括到復雜的對象。例如,在許多情況下,觀察一個物體的卡通圖像或線描,就足以讓人類在真實場景中識別出實際的三維物體,盡管后者比卡通圖像或線描具有更復雜的屬性。 這遠遠超出了當前人工智能和ML系統的能力。如果能夠開發出這種能力,將大大減輕數據合成機器的負擔,確保真實數據的所有屬性都嚴格保真。這個例子也說明了一個事實,即用于訓練ML模型的合成數據生成研究與提高ML模型本身的能力密切相關。因此,這項研究的重點是探索人類和動物的學習,以啟發ML和數據合成的新方法。

2.數據合成方法和驗證: 大多數應用ML方法的領域都有針對其領域的數據合成技術和工具。游戲平臺提供了一個流行的視頻合成商業范例。問題是如何評估特定領域中不同合成方法的性能。顯然,我們必須確定執行此類評估的指標或標準。通常情況下,合成工具的作者也會就工具的性能或功效發表聲明。驗證將是評估此類聲明的過程。本研究的目的是探討指導合成和驗證過程的原則。合成技術的例子包括基于計算機圖形的渲染器(如電影中使用的)、基于物理的模擬(如紅外圖像)和生成模型(目前傾向于基于神經網絡)。

3.領域適應挑戰: ML中的領域適應是指使用一個領域(稱為源領域)的數據訓練ML模型,然后將ML應用于不同但相關領域(稱為目標領域)的數據。例如,使用主要為民用車輛的源圖像數據集訓練識別車輛的ML算法,然后使用訓練好的算法識別主要為軍用車輛的目標數據集中的車輛。在使用合成數據進行訓練時,它們通常構成源域,而實際應用數據則是目標域。本次會議的重點是確定和討論有效領域適應中的關鍵問題和挑戰。

ASPSM的審議分四次會議進行。第一天的兩場會議討論了前兩個主題。第二天的第一場會議討論第三個主題,第二場會議在三個主題下進行分組討論。ASPSM兩天的日程安排分別如圖1和圖2所示。從圖中可以看出,每個主題會議首先由該領域的學術專家進行40分鐘的主講,然后由大學專家進行兩個20分鐘的講座。隨后由來自學術界和國防部的專家組成的小組進行討論。最后一個環節是分組討論,與會者可以討論與主題相關的各個方面。

3 口頭報告和小組討論

麻省理工學院電子工程與計算機科學系的Antonio Torralba教授在第一分會場發表了關于人類學習與泛化的主題演講。他的演講題目是 "從視覺、觸覺和聽覺中學習",深入探討了深度學習方法如何在不使用大量標注訓練數據的情況下發現有意義的場景表征。舉例說明了他們的DNN如何在視覺場景和環境中的聲音之間建立聯系。讀者可參閱Aytar等人關于這一主題的代表性文章。

同樣來自麻省理工學院的James DiCarlo博士的下一個演講題目是 "視覺智能逆向工程"。他將 "逆向工程 "定義為根據對行為的觀察和對輸入的反應推斷大腦的內部過程,將 "正向工程 "定義為創建ANN模型,以便在相同輸入的情況下產生相應的行為。他的研究小組的一個目標是建立神經認知任務的性能基準,人類或其他靈長類動物以及ML模型可以同時達到這些基準。他的演講展示了大腦處理模型如何適應ANN實現的初步結果,并提出了ANN通過結合這些適應密切模擬人類行為,進而準確描述大腦功能的理由。

第一場會議的第三場講座由加州大學伯克利分校的Jitendra Malik教授主講,題為 "圖靈的嬰兒"。這個題目也許是指最早的電子存儲程序計算機之一,綽號 "寶貝",其創造者之一受到了阿蘭-圖靈的啟發。馬利克教授首先引用了圖靈的觀點:與其創建一個模擬成人思維的程序,不如從模擬兒童思維開始。從本質上講,這意味著創造一種人工智能,通過與環境互動以及向其他人工智能和人類學習來學習和成長。這被稱為具身機器智能。馬利克教授認為,監督學習本質上是處理靜態數據集,因此顯示了在精心策劃的時間點上運行的非實體智能。具體而言,他認為監督訓練方法不適合創建能夠提供人類水平的世界理解,特別是人類行為理解的人工智能。Malik教授介紹了 "Habitat",這是一個由他和他的合作者開發的平臺,用于嵌入式人工智能的研究。在隨后的小組討論中,與會人員討論了演講者所涉及的主題,以及與機器人學習和當前兒童智力發展模型相關的主題。

第二部分“數據合成:方法和驗證”以一個題為“學習生成還是生成學習?”,作者是斯坦福大學的Leonidas gu教授。在研究用于訓練ML的合成數據生成的動機中,他指出可以減輕大量人工注釋訓練數據的負擔。他的前提是,無論合成數據是用于訓練ML還是供人類使用,其生成效率和真實性都非常重要。不過,他表示其他質量指標還沒有得到很好的定義,需要進一步研究。他舉例說明了在混合合成數據和真實數據上訓練ML時,ML的物體識別性能有所提高,但他也承認很難得出可推廣的結論。

卡內基梅隆大學的Jessica Hodgins博士發表了第二場會議的第二個演講,題為 "生成和使用合成數據進行訓練"。演講展示了她的研究小組生成的精細合成場景。利用從真實場景到合成場景的風格轉移過程,她的研究小組創造了一些實例,說明在混合了大量風格適應的合成數據和一些真實數據的基礎上進行訓練的ML方法的性能優于僅在真實數據集或僅在合成數據集上進行訓練的方法。性能提高的原因在于風格轉移克服了合成數據集與真實數據集之間的 "分布差距"。

第二場會議的最后一場講座由加州大學伯克利分校的Trevor Darrell教授主講。他的演講題為 "生成、增強和調整復雜場景",分為三個部分。第一部分詳細介紹了演講者及其核心研究人員開發的一種名為 "語義瓶頸場景生成 "的技術,用于根據地面實況標簽合成場景。該技術可進一步與通過生成過程生成此類地面標簽的模型相結合。Azadi等人對該技術進行了詳細描述。 第二部分涉及增強和自我監督學習。發言人提出,當前的對比學習方法在合成增強數據時建立了不變量,而這些不變量可能是有益的,也可能是無益的。例如,建立旋轉不變性可能有利于識別場景中的花朵,但可能會阻礙對特定方向物體的有效識別。演講者介紹了他的研究小組考慮具有特定不變性的多種學習路徑的方法,并展示了與現有技術相比性能有所提高的結果。 第三部分介紹了一種名為 "Tent"(測試熵)的技術。其前提是DNN應用過程中遇到的數據分布可能與訓練數據不同,從而導致性能下降。因此,需要對DNN參數進行實時或測試時調整,以防止性能下降。Tent技術通過調整權重使DNN輸出的測量熵最小化來實現這一目標。演講者隨后用常用數據集展示了該技術相對于先前方法的改進性能。隨后的小組討論涉及合成方面的挑戰,尤其是紅外圖像方面的挑戰。

第二天的第三場會議以 "領域轉移的挑戰 "開始。約翰霍普金斯大學布隆伯格特聘教授Rama Chellappa博士發表了題為 "解決美國防部實際問題的綜合數據期望與最大化"的演講。演講首先回顧了過去二十年來國防部處理合成圖像的多個項目的歷史。他提出了一個重要論斷,即如果在合成過程中考慮到真實數據的物理特性,那么真實數據和合成數據之間的領域轉換就會減少。Chellappa教授還就領域自適應表示法提供了快速教程,涵蓋了正規數學方法以及較新的生成對抗網絡(GANs)。演講者及其核心研究人員開發的基于GAN的方法可以修改合成數據的分布,使之與目標分布相匹配。講座舉例說明了這種方法優于之前的非GAN方法。

佐治亞理工學院的Judy Hoffman教授發表了題為 "從多個數據源進行泛化的挑戰 "的演講。她考慮的問題是在模擬中學習模型,然后將模型應用于現實世界。她指出了四個挑戰: 生成、列舉、泛化和適應。發言人介紹了應對這些挑戰的幾種不同方法。具體來說,用于泛化的特定領域掩碼(DMG)方法通過平衡特定領域和領域不變特征表征來生成一個能夠提供有效領域泛化的單一模型,從而解決多源領域學習問題。

第三場會議的第三位也是最后一位演講者是波士頓大學的Kate Saenko教授,他的演講題目是 "圖像分類和分割的Sim2Real領域轉移的最新進展和挑戰"。Saenko教授延續了前兩場講座的主題,介紹了視覺領域適應的歷史,并探討了領域和數據集偏差問題。在糾正數據集偏差的不同方法中,講座詳細討論了領域適應。特別重要的是,Saenko教授及其合作者開發的技術能夠顯示合成到真實的適應性,就像從游戲引擎到真實數據一樣。隨后的小組討論提出了幾個有趣的問題,包括訓練域和測試域的不同,不是感興趣的對象不同,而是對象所處的環境不同,例如訓練時軍用車輛在沙漠環境中,而測試時則在熱帶植被背景中。

4 分組討論

三個主題的分組討論同時進行。在 "人類學習與泛化 "分組討論中,首先討論了 "人類如何學習?"、"ML模型如何模仿人類過程?"以及 "合成數據如何實現這些過程?"等問題。從童年到青春期和成年期,學習和成長之間的關系成為關鍵點。其他被認為有助于人類學習的因素包括人類心理、情感、同時參與多維活動、記憶以及解除學習的能力。

關于 "數據綜合: 方法與驗證 "分論壇確定了數據合成的幾個問題,特別是圖像和視頻。主要問題涉及結合物理學的有用性、視覺外觀保真度與成本之間的權衡、保真度的衡量標準、保真度本身的重要性以及當前技術(包括GANs技術)的局限性。據觀察,合成圖像和視頻生成至少已有幾十年的歷史,但大多數產品要么是為視覺效果而設計,要么是為再現物理測量而設計(例如,紅外模擬中的輻射剖面)。它們并不適合用于ML培訓。提出的另一個問題是,合成的二維圖像必須與物體和環境的底層三維幾何圖形保持一致。還有人提出,能夠在特定的感興趣的環境中生成大量合成數據,可以作為第一道工序測試新的人工智能和ML方法,而不管這些方法是否能夠在真實數據中很好地工作。

專題3 "領域轉移挑戰 "的分組討論確定了MDO所需的關鍵人工智能能力,即從孤立學習到機器與人類之間的聯合或協作學習。會議還討論了在多種數據模式下同時訓練ML的聯合學習。人們認識到,這些領域的工作才剛剛開始。分組討論的牽頭人強調,需要向士兵明確說明基于人工智能的系統在特定情況下將會做什么。這引發了對系統魯棒性的討論。分組組長向ASPSM聽眾提供了討論摘要。

5 差距和建議

根據本次ASPSM的討論,我們確定了以下值得陸軍進一步進行科技投資的領域:

1.支持多模式互動學習的合成技術和數據集。與當前流行的捕捉 "時間瞬間 "的靜態數據集(如農村環境中的車輛圖像)相比,有必要開發更能代表支持持續學習的體現性體驗的模擬器,就像我們在人類身上看到的那樣,并實現對世界更豐富的表征。混合方法(如增強現實)也可將人類監督的優勢與合成環境的靈活性結合起來。

2.學習和合成因果關系和層次關系的算法和架構。最近的一些方法,如基于圖的卷積神經網絡,已經在學習空間和時間的層次關系(如物體-部件和因果關系)方面顯示出前景。鑒于在現實世界中收集和注釋此類數據的復雜性,合成數據的生成可能特別有用。識別層次關系是一般國防部和戰場情報分析的關鍵要素。

3.支持持續、增量、多模態學習的算法和架構。深度強化學習方法被成功地用于訓練虛擬或機器人代理的相關行動策略,如捕食者與獵物之間的相互作用。基于模仿的方法承認學習的社會性,通常讓代理與(通常是人類)教師合作學習新策略。這些類型的交互式持續學習可進一步與多模態學習(即融合來自多個傳感器的數據)相結合,以實現更豐富的世界表征,使其更穩健、更具通用性。同樣,在這一領域難以獲得大量經過整理的數據,這也為探索合成引擎提供了動力。

4.學習物理或具備相關物理領域知識的算法和架構。在許多領域(例如紅外光下的物體感知),從圖像感知和合成圖像需要了解世界的基本物理特性,例如光與材料之間的相互作用。然而,當前的深度學習模型缺乏這種物理知識。開發賦予ML物理領域知識的技術對這些系統的性能至關重要。

5.具有豐富中間表征的領域適應技術。為了縮小真實數據和合成數據之間的領域差距,必須進一步推動當前建立領域不變中間表征的趨勢,特別是使用語義詞典和生成式對抗網絡。能夠理解數據底層結構(如光照、旋轉、顏色)的表征更有可能成功抽象出合成數據中不重要的細節。

6.深入了解ML模型內部表征的方法,以及合成表征與真實表征的比較。網絡剖析技術 "打開 "了深度學習模型的隱藏層,允許解釋網絡中的每個階段正在學習哪些特定概念或其更細的方面。這些技術揭示了具有真實輸入和合成輸入的DNN的內部表征,有助于識別所學內容的關鍵差異,從而找到克服這些差異的解決方案。

6 結論

為期兩天的虛擬ASPSM吸引了眾多美國防部科學家和工程師、頂尖學術專家以及科技項目管理人員的熱情參與。多學科的討論強化了這樣一種觀點,即開發用于訓練ML方法的生成合成數據的改進方法與理解和改進ML方法本身是分不開的。一個特別重要的需求是了解ML方法,尤其是當前的學習架構,是如何創建場景的內部表示的。另外兩個重要領域是:1)理解人類學習與ML世界中可能存在的學習之間的異同;2)多模態數據--從合成和ML的角度。我們預計近期國防部和學術研究人員將在本報告確定的領域加強合作。

付費5元查看完整內容

美國陸軍作戰能力發展司令部陸軍研究實驗室正在研究行為,建立數據集,并開發異常分類和解釋的技術,其中自主智能體生成自然語言描述和對可能包含異常屬性的環境的解釋。這項技術將支持在不確定條件下的決策,以及士兵和機器人隊友在網絡限制的情況下,在未知或危險的環境中完成探索性的導航任務(例如,自然災害后的搜索和救援)的彈性自主機動。在本報告中詳細介紹了貢獻:借鑒視覺異常檢測的相關工作,設計了一個異常分類法;設計了兩個在虛擬環境中進行的實驗,這些環境被操縱以顯示基于分類法的異常屬性;為異常檢測和解釋任務收集了一個小型人類語音和人類-機器人對話的語料庫;最后,設計了一個新的注釋模式,并將其應用于語料庫的一個子集。

圖1. 帶有實例樣本的類的異常分類法。矩形框包含了類的類型(例如,實體的 "顏色"),橢圓是類屬性的實例或例子(例如,"粉色小貓")。

引言

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL),正在研究行為,建立數據集,并開發異常分類和解釋的技術,其中自主代理生成自然語言描述和對可能包含異常屬性的環境的解釋。這項技術將支持在不確定條件下的決策,以及士兵和機器人隊友在網絡受限的情況下,在未知或危險的環境中完成探索性的導航任務(例如,自然災害后的搜索和救援)的有彈性的自主操作。自動生成的自然語言解釋將促進在篩選大量低質量或重復的視覺數據時遇到的信息過載問題,迅速引起對非典型情況的注意。

將異常情況檢測的任務放在士兵由于可能對他們有危險的條件而無法穿越環境的場景中。此外,由于可用帶寬的限制和約束,接收環境的圖像或實時流可能是不可行的。因此,機器人隊友的作用就變成了在空間中導航,并通過簡潔和信息豐富的自然語言陳述或文本報告向士兵傳達信息。這種設想中的異常情況檢測技術的成功部署必須能夠:

  • 識別環境中與預期相矛盾的方面;
  • 詳細說明為什么這種方面是矛盾的,并提供預期狀態;
  • 推斷出至少一種可能導致偏差的合理可能性;以及
  • 推斷出至少一種合理的可能性,即由于偏差而可能發生的情況。

由ARL主持并通過國家安全創新網絡X-Force獎學金招募的兩名實習生組成的團隊花了10周時間探索這個問題的空間。在本報告中詳細介紹了貢獻:借鑒視覺異常檢測的相關工作,設計了一個異常分類法(第2和第3節);設計了兩個在虛擬環境中進行的實驗,根據分類法,這些實驗被操縱以表現出異常屬性(第4節);為異常檢測和解釋任務收集了一個人類語音和人類-機器人對話的小型語料庫(第5節);最后,設計了一個新的注釋模式,并將其應用于我們語料庫的一個子集(第6節)。

付費5元查看完整內容

近年來,手勢識別(HGR)已經取得了巨大的成功,并在人機交互領域開辟了一個新的趨勢。然而,一些現有的手勢識別系統在實際應用中的部署仍然遇到一些挑戰,如傳感器的可測量范圍有限;由于使用單一的模式,缺乏重要的信息;由于復雜的深度模型的訓練,通信成本高,延遲和隱私負擔。本項目旨在克服這些主要問題,通過開發邊緣智能技術,使用可穿戴多模態傳感器(如加速度計和攝像頭)進行手勢識別,并減少注釋工作。在這個項目中,我們設計了一個可穿戴式多模態原型,能夠捕捉多模態信息,如RGB和運動數據。然后我們設計了一套在人機交互中常用的12種動態手勢。我們使用所設計的原型在不同的環境條件下對50名受試者收集了此類手勢的數據集。據我們所知,這個數據集可以被認為是研究界從腕戴式多模態傳感器識別手勢的第一個基準數據集。我們部署了各種最先進的CNN模型,對使用RGB和運動數據的手勢識別進行了比較研究。實驗結果顯示了該基準的挑戰,以及現有模型的最佳性能和未來的改進空間。此外,在該項目框架內,我們改進了帶有時間信息的手部姿勢估計和連續手勢識別的算法。我們還對用于時間序列預測的混合CNN-LSTM模型中的形狀分析和貝葉斯推理進行了基礎研究。我們引入了一個框架,便于研究聯邦學習。該原型和研究成果已在12個國際會議上發表,并提交給一個IEEE傳感器雜志。

付費5元查看完整內容

根據陸軍多域作戰(MDO)條令,從戰術平臺生成及時、準確和可利用的地理空間產品是應對威脅的關鍵能力。美國陸軍工程兵部隊、工程師研究與發展中心、地理空間研究實驗室(ERDC-GRL)正在進行6.2研究,以促進從戰術傳感器創建三維(3D)產品,包括全動態視頻、取景相機和集成在小型無人機系統(sUAS)上的傳感器。本報告描述了ERDCGRL的處理管道,包括定制代碼、開源軟件和商業現成的(COTS)工具,對戰術圖像進行地理空間校正,以獲得權威的基礎來源。根據美國國家地理空間情報局提供的地基數據,處理了來自不同傳感器和地點的四個數據集。結果顯示,戰術無人機數據與參考地基的核心登記從0.34米到0.75米不等,超過了提交給陸軍未來司令部(AFC)和陸軍采購、后勤和技術助理安全局(ASA(ALT))的簡報中描述的1米的精度目標。討論總結了結果,描述了解決處理差距的步驟,并考慮了未來優化管道的工作,以便為特定的終端用戶設備和戰術應用生成地理空間數據。

圖3. ERDC-GRL的自動GCP處理管道。輸入數據為JPEG格式的FMV/Drone圖像、參考/地基圖像和參考/地基高程。藍色方框代表地理空間數據,而綠色方框是處理和分析步驟。

付費5元查看完整內容

創造能夠適應人類的人工智能隊友的一個必要步驟是,開發能夠向人工智能系統表達人類目標和意圖的計算建模方法。用各種各樣的方法來實現這個目標是可能的,從基于過去數據的純粹預測模型到僅基于理論的生成模型。一種有希望的方法是所謂的從示范中學習的方法(Argall等人,2009;Ravichandar等人,2020),這種研究主旨是利用示范數據,如專家執行任務的行為,并訓練模型(通常被稱為 "智能體")來執行專家的任務。在本報告中,我們采用了從示范中學習的方法來模擬和預測模擬機器人在避撞的團隊任務中的行為。具體來說,我們采用了逆向強化學習(IRL)(Ng和Russell,2000年;Arora和Doshi,2021年),這是一種從演示中推斷獎勵函數的方法。

這項任務是基于一個研究性的視頻游戲,被用來研究人類自主性的團隊合作(Adamson等人,2017年),涉及一個由人類玩家和一個AI智能體共同控制的機器人。在沒有玩家輸入的情況下,AI智能體控制機器人,但玩家可以在任何時候推翻智能體,類似于現實世界中與自動駕駛助手一起駕駛的情況。這項任務對旨在模擬人類意圖的示范學習方法提出了挑戰,因為觀察到的任務行為來自兩個示范者的控制:一個是人類,一個是自動駕駛。例如,人類的行為可能是由對自己的目標的理解和對人工智能的目標的估計產生的。此外,當人工智能處于控制狀態時,所有關于人類的信息都是他們不提供輸入的,人類同意人工智能選擇的程度是隱藏的。

我們對這一特定任務的關注是由我們的團隊正在進行的工作所激發的,即利用激發這一任務的研究視頻游戲從參與者那里收集數據。最終,我們將嘗試模擬真實的人在長時間內的行為--每天玩180天--以促進適應性AI智能體的發展。這里描述的工作是對一種方法的驗證,這種方法將推動我們的團隊實現這一目標;然而,這種方法具有足夠的通用性,其核心概念可以應用于其他地方。

付費5元查看完整內容

在小型、受控的實驗室環境中,現有的人類自動駕駛運動規劃研究產生了寶貴的知識;然而,據我們所知,文獻中沒有長期運行的大型研究。作為傳統實驗室研究中獲得的高保真研究數據的補充,這種 "野外"方法將以以前無法達到的方式改進人類自動駕駛系統。通過使用對普通消費者來說普遍存在的技術,如智能手機和可穿戴電腦,參與這種長期的移動研究是可行的。已經有人努力將人類自動化研究環境改編為手機游戲,并開發了一個采用消費級可穿戴傳感器的被動連續數據收集平臺。像這樣的系統為設計和部署大規模的人類自動化研究提供了必要的構建模塊。

本技術報告介紹了一項正在進行的大樣本縱向研究的初步結果,其中人類參與者在與自主智能體交換控制權的同時玩動態避障游戲。參與者注冊并安裝了 "Busy Beeway",這是實驗設置中的移動游戲部分,并佩戴了連接到 "StudentLife "應用程序的Garmin傳感器,以提供反映每個玩家生活背景的額外數據。這里提出的評估主要集中在分配不同配置的人工智能伙伴對游戲表現的結果,以發現任何出現的行為模式,并確定玩家的生物背景是否能影響他們的游戲。我們發現各種各樣的游戲模式取決于特定的玩家、分配的人工智能,有時甚至取決于玩家的生物背景的變化。這表明需要在未來的工作中找到一種方法,可以根據每個人所有這些因素的組合來預測什么樣的人工智能配置能產生最理想的結果。

付費5元查看完整內容

人工智能(AI)應用于武器系統是過去10年研究的一個主要趨勢。這些舉措旨在提高武器的準確性,執行非主動的瞄準手段,幫助導航和制導與控制(例如,在全球定位系統被拒絕的情況下),并減少與傳統的基于物理學的方法相比的整體計算資源,以便在更小、更實惠的武器系統上實現智能瞄準。這項研究還包括將作戰人員的戰斗空間擴展到無人駕駛飛行器,并使用蜂群方法與有人和無人平臺進行合作。

我們首先概述了人工智能的描述和歷史,并概述了人工智能在武器系統中的原理、技術和應用。這包括對監督自主系統;制導、導航和控制;行為和路徑規劃;傳感器和信息融合;智能戰略和規劃;兵棋推演建模;以及認知電子戰的研究和計劃的回顧。

然后,對將人工智能應用于武器系統的系統和項目進行了調查。雖然重點是基于美國的系統和項目,但也包括一個關于俄羅斯和中國相關系統的小節。最后,我們對將人工智能用于武器系統的倫理考慮進行了簡要評論。

引言

1.1 問題陳述

機器學習(ML)和人工智能研究的最新進展揭示了人工智能在實現創新、增加機器的效用以及增強人類能力和經驗方面的力量和潛力。人工智能技術的顛覆性和其影響的深度還沒有被廣大公眾完全掌握。考慮到新時代的新興技術威脅,展示關鍵和相關的人工智能研究和最先進的技術是很重要的,這些技術不僅為武器系統提供了比傳統武器系統更多的自主權,而且大大增加了它們的殺傷力和戰斗生存能力。最終,人工智能在開發改變游戲規則的技術方面帶來了巨大的戰略機遇,這將確保國家安全、繁榮和技術領先地位。

1.2 常規武器系統

美國軍方在創造先進的常規武器技術方面取得了巨大的進步,這些技術支持了士兵在戰場上的任務并增強了他們的能力。這些常規武器技術大多是自動化系統,在計劃、執行和完成一項任務或使命時依靠一套預先編程的規則。然而,在中國和俄羅斯等國家新開發的武器的前沿陣地上,人工智能支持的戰爭和高超音速武器給美國武裝部隊帶來了新一代的質量挑戰。下一代戰斗的步伐要求為戰略決策進行時間緊迫和大量的戰斗信息處理,這使得美國的許多常規武器系統只能執行低風險的任務,并在核領域之外處于威懾力減弱的態勢。

必須承認,人是昂貴的訓練資產。在戰場上增加更多的人員并不是推進最先進的戰爭的優雅或廉價的解決方案。相反,用支持人工智能的智能硬件來增強人在回路中的系統,可以在戰區提供更多的眼睛和耳朵,并通過使人工智能系統執行一些簡單和常規的任務來釋放人類的決策。

此外,無人駕駛作戰飛機系統(UCAS)是一種成熟的具有成本效益的系統解決方案,用于執行情報、監視和偵察(ISR)任務和遠程空襲。然而,自動化能力仍然受到人類在環形操作、評估和接觸的限制。雖然在任何可預見的未來都沒有打算消除武器化人工智能系統中的人類元素,但人類的能力仍然構成這些系統協同潛力的上限。但是,一個由人工智能驅動的智能武器系統的新生態系統將迎來新的戰爭形式和戰略。

人工智能國家安全委員會在其2021年的報告中提出,美國國防部(DoD)的軍事企業在整合人工智能技術方面落后于商業部門,并敦促在2025年前為整個國防部廣泛整合人工智能奠定基礎[1]。

1.3 人工智能的簡要歷史

幾個世紀以來,哲學家們一直在考慮以某種形式人工復制人類智能的某個方面的概念。1869年,威廉-杰農創造了第一臺基于布爾邏輯實現邏輯計算的機器。該機器能夠比人類更快地計算布爾代數和維恩圖。隨著這種邏輯計算機器的發展,人們很自然地質疑機器是否可以通過邏輯推理來為人類解決問題并做出決定。圖1-1中的時間軸顯示了人工智能的歷史和演變,并在本節中進行了詳細說明[2]。

在理論計算機科學的一些最早的工作中,英國數學家阿蘭-圖靈(Alan Turing)思考了機器是否能像人類一樣智能地行為和解決問題的問題。他在他的圖靈測試中提出,如果一臺機器能模糊地模仿人類這樣的智能生物,那么這臺機器就是智能的。這一理論測試成為一種指導性的形式主義,在這種形式主義中,當前的機器被測試其模仿人類智能概念的能力或潛力。作為測試的見證,Loebner獎是一個圖靈測試競賽,其任務是根據圖靈提出的基本問題來評估機器智能研究的現狀。

1928年,約翰-馮-諾伊曼證明了Minimax算法的基本定理,該算法旨在提供一種在零和博弈過程中使最大可能損失最小的策略。

圖1-1. AI歷史年表

在第二次世界大戰的高峰期,阿蘭-圖靈和他的團隊開發了一種機器算法,可以破譯德國的英格瑪信息密碼。他的算法的成功,推動了將復雜任務委托給機器的進一步努力,是機器計算的基礎,也是ML發展的先導。

1943年,McCulloch和Pitts開創了神經網絡(NN)的最早概念--McCulloch-Pitts的形式網絡理論--這在1949年馮-紐曼在伊利諾伊大學的四次演講中得到了體現[3]。

大約在同一時間,約翰-麥卡錫,一位計算機科學家,在1955年創造了 "人工智能 "來指代機器智能;計算機科學家艾倫-紐維爾;以及赫伯特-A-西蒙,一位經濟學家和政治學家,開創了第一個旨在自動推理的真正程序(稱為邏輯理論家)。隨著這一突破性的努力,對智能機器的探索開始了,為人工智能作為計算機科學的一個新的學術研究領域鋪平了道路。

1957年,一位名叫弗蘭克-羅森布拉特博士的心理學家開發了一個名為 "感知器 "的簡化數學模型,描述了我們大腦中的神經元如何運作。這一成就被強調為 "Perceptron收斂定理"。

同年,理查德-貝爾曼開發了動態編程,用于解決一類最佳控制問題。他還介紹了離散隨機最優控制問題的馬爾科夫決策過程表述,這為現在所稱的 "強化學習 "奠定了重要基礎。

在這些發展之后,另一位名叫阿瑟-塞繆爾的人工智能先驅利用他早先在ML方面的開創性工作,成功地開發了第一個檢查者算法。他實現了現在被稱為 "Alpha-Beta修剪 "的早期版本,這是一種搜索樹方法,通過Minimax算法減少評估節點的數量。1959年,一位名叫威廉-貝爾森(William Belson)的統計學家開發了一種名為決策樹的非參數、監督學習方法的早期版本。

在20世紀60年代,人工智能研究的重點是解決數學和優化問題。1960年,羅納德-霍華德提出了馬爾科夫決策過程的策略迭代方法,建立了一些與強化學習有關的最早的工作。

到1968年,著名的路徑搜索算法A-star是由計算機科學家尼爾斯-尼爾森提出的。60年代末,機器人建模、控制和機器視覺方面取得了進展,導致在1972年開發了第一個名為WABOT-1的 "智能 "擬人機器人,并整合了肢體操縱、視覺和語音系統。

Harry Klopf的 "適應性系統的異質理論 "的復興對適應性系統的試錯范式的發展有很大影響。1977年,Ian Witten提出了最早的強化學習系統之一,使用了時間差法。理查德-薩頓和安德魯-巴托設計了一種強化學習算法,稱為演員批評法。

由于70年代中期到80年代末計算機的計算能力限制,人工智能研究在有大量數據處理要求的應用中發現了困難,如視覺學習或優化問題。同時,數學研究 "證明 "了(單層)感知器不能學習某些模式。此外,1973年發表的一份Lighthill報告對人工智能的潛力非常悲觀,這導致人工智能研究的資金被削減。結果,資金短缺導致人工智能的研究經歷了一個被稱為 "人工智能冬天 "的時期。

到了80年代中后期,繼1986年多層感知器的發展之后,在NNs方面也做出了重要的理論貢獻。這些貢獻是David Rumelhart在1986年開發的遞歸神經網絡(RNNs),John Denker等人在1987年開發的貝葉斯網絡,以及Yann LeCun在1989年開發的卷積神經網絡(CNNs)。

此外,Chris Watkins在1989年開發了另一種重要的強化學習方法,稱為 "Q-Learning"。1992年,在IBM的Thomas J. Watson研究中心,Gerald Tesauro通過自我強化學習為雙陸棋游戲訓練了TD Gammon程序。1997年,IBM的 "深藍 "計算機使用粗暴的、基于搜索的算法擊敗了國際象棋世界冠軍加里-卡斯帕羅夫,使其成為第一個在國際象棋中戰勝頂級職業選手的程序。

在90年代末和21世紀初,在ML中看到的大部分進展是由計算機處理、存儲和分布式計算方面的指數級進展所推動的。2007年,需要大量計算資源的保證最優玩法在跳棋中得到了解決。在過去的20年里,圖形處理單元用于通用計算的激增導致了今天人工智能應用的進一步進展,特別是在2012年和2014年,不同的NN拓撲結構,如殘差網絡和生成式對抗網絡的發展。

2015年,ImageNet競賽,一個為約400萬張圖像的ImageNet圖像集開發分類器的公開競賽,有一個冠軍,其錯誤率被認為低于一個人。2016年,DeepMind的AlphaGo程序在擊敗當時被認為是最優秀的圍棋選手李世石后,成為最佳AlphaGo選手。繼AlphaGo的學習能力之后,AlphaZero在2017年擴展了AlphaGo,成為國際象棋和Shogi的最佳棋手。

2019年,美國國防部高級研究計劃局(DARPA)推出了AlphaDogfight,這是基于人工智能的空戰算法在模擬的F-16狗斗中與經過頂級訓練的飛行員進行的一系列三輪競賽。第一輪和第二輪比賽中,人工智能程序相互競爭。第三輪將人工智能勝利者的飛行員提煉出來,與美國空軍武器學校的優秀畢業生進行競爭。蒼鷺系統的人工智能飛行員不僅在競爭激烈的人工智能空中戰斗人員中獲勝,而且在與訓練有素的人類F-16飛行員的較量中取得了令人難以置信的五次勝利。

OpenAI在2020年5月推出了一個名為GP3的 "自然語言處理 "模型,它生成的寫作內容與人類無異。其最新版本可以從簡單的描述性語言生成編程語言代碼[4]。人工智能的歷史繼續向前發展,特別是對國防部的武器系統應用。本報告的其余部分將調查與武器系統有關的當代人工智能技術和系統。

1.4 什么是AI?

根據Barr和Feigenbaum的說法,人工智能被定義為 "計算機科學中與設計智能計算機系統有關的部分,即表現出我們與人類行為中的智能有關的特征的系統--理解語言、學習、推理、解決問題等等"[5]。

Stuart Russel和Peter Norvig在他們的《人工智能:一種現代方法》一書中對人工智能的最新定義是:"設計和建造能夠從環境中接收感知并采取影響環境的行動的智能體" [6]。

Pei Wang優雅地將智能定義為 "在知識和資源不足的情況下的適應"[7]。雖然該定義沒有說明適應的目的(如目標),但它揭示了為達到這種智能需要完成的工作。

如果要以人類為中心定義人工智能,即執行人類智能水平的任務,那么人工智能需要感知、推理、知識構建、推理、決策和計劃、學習、交流,以及有效移動和操縱環境的能力。

人工智能的科學目標是回答哪些關于知識表示、學習、規則系統、搜索等的想法可以解釋各種類型和水平的真實智能。工程目標是為不同的應用領域開發人工智能技術,以解決現實世界的問題。

在人工智能的科學基礎上,我們發現來自不同科學領域的可識別概念--哲學、邏輯/數學、計算、心理學和認知科學、生物學和神經科學以及進化。在尋求發現和更好地理解人工智能是什么或將是什么的過程中,來自這些不同知識領域的貢獻已經被證明是不可避免和不可或缺的了。許多研究人工智能的領域都在同時構建人類認知如何運作的模型,并在它們之間采用有用的概念。例如,NN,一個源于生物學的概念,試圖在簡化的人工神經元的基礎上建立人工系統,這個概念導致了一個簡單的抽象知識結構的表示,足以解決大型計算問題集。

人工智能大致分為三個主要層級--人工狹義智能(ANI)、人工通用智能(AGI)和人工超級智能(ASI)。圖1-2說明了這三個層級中的各種分組,本節將更多地討論這些分組。

1.4.1 人工狹義智能(ANI)

ANI是對一個執行狹窄或單一任務的人工智能系統的描述。它可以包括各種方法來獲得結果,如傳統的ML(以圖像分類為例)或目標檢測(包括ML和基于規則的系統)。給定一組規則或約束,它的目標是提供一組代表狹義任務的輸出。ANI不會擴展或學習新的認知,也不會自我學習新的操作模式。數據挖掘、大多數專家系統和針對某一應用的預測功能(例如,垃圾郵件檢測和面部識別)都被認為是ANI的形式。ANI還包括 "有限記憶人工智能"--用于自動駕駛汽車的系統類型,使用過去的經驗(訓練),并學習做決定,隨著時間的推移而改進。

1.4.2 人工通用智能(AGI)

AGI是一種更強大的智能形式,因為它被更多類似人類智能的特征所增強,例如自主學習的能力和解釋情緒和語音語調的能力。這使得與AGI相關的智能與人類的智能水平相當。AGI的一些關鍵核心能力如下:

  • 推理、解決問題、運用策略和在不確定情況下做出決定的能力。
  • 展示知識的能力。
  • 計劃的能力。
  • 學習的能力。
  • 用自然語言交流的能力。
  • 將所有上述內容整合為一個共同目標的能力。
  • 類似人類的思維與圖靈測試等計算的結合。

1.4.3 人工超級智能(ASI)

ASI是一種超越最聰明的人類頭腦的智能模型。實現ASI的方法仍在概念化中,但將是那些超越AGI并需要某種自我意識的系統。這些系統最好能代表所有人類的認知能力,甚至更多。

1.5 機器學習(ML)

ML是機器從數據中學習的能力,目的是做出準確的預測。它大致分為四類學習,提供了豐富的專用和通用的技術家族。

1.5.1 監督學習

在這種形式的學習中,訓練數據使用包含的輸入和標記的或預定的輸出數據。如果有缺失的輸入或輸出條目,它們會被預處理,以便將一個輸入正確地映射到其真正的對應輸出。通過從正確生成的訓練數據集中學習,系統學會了將不在原始數據集中的輸入與預測的輸出(標簽或值)聯系起來。這種類型的訓練解決的典型問題是回歸和分類[8]。

1.5.2 無監督學習

這種形式的學習中,系統直接從未標記的數據中發現有趣的或隱藏的結構[9]。無監督學習被用于聚類分析、降維或估計可能產生輸入數據的密度[8]。

1.5.3 半監督學習

當數據集包含有標記的和無標記的數據時,這種學習形式的系統利用無標記的數據來更好地捕捉潛在的數據分布,并獲得一個更好的預測,如果它只從標記的數據中訓練的話。這種學習形式適用于訓練數據集中的標注數據遠遠少于未標注數據的情況[8]。

1.5.4 強化學習

在這種學習模式中,系統使用獎勵/懲罰機制進行訓練,這樣它所選擇和執行的行動,當行動可取時,會使系統得到獎勵,當行動不可取時,會受到懲罰。強化學習問題涉及學習如何做(如何將情況映射到行動上)以最大化數字獎勵信號[9]。

03 人工智能在武器系統中的應用

人工智能有可能應用于武器系統生態系統的許多方面。它被用來控制系統,從而實現自主性和提高性能,以在具有挑戰性的環境中選擇指導、導航和控制方面的問題。同樣,人工智能可用于解決任務和路徑規劃中的挑戰性問題,從而實現更高水平的復雜任務目標和操作要求。人工智能也被用于電子戰領域的支持、反制,甚至是反制措施。它還可能被用于來自不同系統層次和領域的信息融合,以泄露抽象的高價值戰場情報,并提供關鍵線索和快節奏的決策,從而在現代戰爭中創造寶貴的戰術優勢。

報告的這一部分將強調最先進的人工智能方法在適用于自主和武器系統的各種人工智能問題領域的使用。它是根據以下問題領域來組織的。

  • 自主性

  • 感知中的人工智能

  • 制導、導航和控制中的人工智能

  • 任務和路徑規劃

  • 智能戰略

  • 對手建模

  • 認知型電子戰

提綱

第一章 引言

1.1問題陳述

1.2常規武器系統

1.3 AI簡史

1.4什么是AI?

1.4.1 ANI

1.4.2 AGI

1.4.3 ASI

1.5 ML

1.5.1監督學習

1.5.2無監督學習

1.5.3半監督學習

1.5.4強化學習

第二章 最先進的方法

2.1學習人工智能范例

2.1.1深度學習

2.1.2強化學習

2.2隨機優化和搜索算法

2.2.1隨機優化

2.2.2圖形搜索算法

2.3新興人工智能范例

2.3.1神經符號AI

2.3.2 NE

第三章 人工智能在武器系統中的應用

3.1自主性

3.1.1定義、級別和框架

3.1.2自主系統的功能組件

3.2感知中的人工智能

3.2.1圖像分割

3.2.2目標檢測、分類和場景理解

3.2.3傳感器融合

3.3制導、導航和控制中的人工智能

3.3.1 GN&C系統

3.3.2常規控制理論方法

3.3.3智能控制

3.3.4本地化和導航

3.3.5系統識別

3.4任務和路徑規劃

3.4.1GAs

3.4.2群體智能

3.5智能策略

3.6對手建模和兵棋推演

3.7認知電子戰

3.7.1電子支持措施

3.7.2 ECMs

3 .7.3 ECCMs

第四章 將人工智能應用于武器系統的系統和程序

4.1天線系統

4.1.1下一代空中優勢計劃

4.1.2 Shield AI Hivemind

4.1.3 Shield AI V-Bat

4.1.4 Kratos XQ-58 Valkyrie

4.1.5 MQ-20 Avenger UCAS

4.1.6自主彈藥

4.1.7 Dynetics X-61小精靈

4.2 海軍系統

4.3 陸軍系統

4.3.1 QinetiQ/Pratt Miller的遠征自主模塊化飛行器

4.3.2Textron系統公司的Ripsaw M5

4.3.3 Rheinmetall公司的Lynx KF41

4.4 群系統

4.4.1 DARPA的攻擊性蜂群戰術

4.4.2自主協同小直徑炸彈群

4.4.3 Perdix群

4.4.4 Mako UTAP22

4.4.5 Coyote UAS Block 3

4.4.6機器人代理命令和傳感群的控制架構

4.4.7激流勇進微型無人潛水器

4.5戰斗管理和智能指揮與控制

4.6 ISR和目標系統

4.6.1 SRC的HPEC Pod

4.6.2復仇女神

4.7導航

第五章 未來作戰中的AI

第六章 人工智能和外來威脅

6.1俄羅斯

6.2中國

第七章 倫理考量

第八章 總結

參考文獻

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容
北京阿比特科技有限公司