亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

擴展現實(XR)教育應用通常與實體教學中難以實現的動機激發、參與度提升及知識經驗獲取相關聯。此類知識在軍事教育中的典型案例即武裝沖突中基于威脅導向的平民保護策略。挪威國防大學學院(NDUC)采用該策略培訓軍官,其挑戰傳統軍事實踐,提出軍隊保護平民免受暴力侵害之可為與不可為的新思維方式。當代軍隊依照國際人道法被賦予更廣泛職責,需保護平民免受戰爭中有意針對他們的施暴者侵害。這種任務拓展對多數軍官構成"疑難知識",要求深入理解施暴者針對平民的動機機制與策略。為攻克此教學難題,我們開發融合沉浸體驗與教學法的XR教育項目——結合360度全景視頻與數字具身化技術、虛擬人類對話系統及協同式VR場景,推動沉浸式同儕學習。初步成效顯著:學員對威脅導向概念接受度高,有效激發批判性討論,且對XR輔助學習反饋積極。

本文闡述挪威國防大學學院(NDUC)在高等軍事教育中運用擴展現實(XR)技術教授復雜概念的實踐。該學院開設本科與碩士課程,涵蓋防務安全政策、軍事領導力、戰史及軍事行動研究。盡管軍事教育與普通教育遵循相同教學標準,仍存在顯著差異:軍事教育日益呈現多學科融合特征,涉及武器操作、戰術推演、編制管理、領導力培養、談判技巧及文化認知等領域。核心挑戰在于將戰場實戰經驗轉化至課堂教學。軍事教育者如同普通教育領域,運用教學方法論與現代技術(如擴展現實(XR))提升教學成效,但部分復雜概念(如武裝沖突中基于威脅導向的平民保護策略)的教學解釋仍具挑戰。

該概念旨在協助軍事策劃者認知武力保護平民免受暴力侵害的作用邊界與應用邏輯[6,7]。然而鮮有政策條令明確指導軍事人員如何應對不同類型平民威脅。威脅導向方法通過具象化威脅場景與工具,助力軍事學員理解并探討武力在不同情境下的功能邊界。其模型涵蓋近30年平民遭遇的典型暴力場景。

該方法基石在于基于歷史戰爭實證研究系統化理解施暴者行為邏輯。唯有軍事策劃者透徹掌握施暴者針對平民的動因、手段及效果,方能設計及時精準的軍事保護方案[32]。該概念從五維度分析平民威脅:施暴主體類型、行為動機、策略戰術、相關軍事能力、預期人道后果。據此五維指標,通過八類基礎場景劃分平民威脅類型——每類場景描述本質迥異的威脅態勢,要求差異化軍事響應。

此概念不僅是提升軍事人員情境認知能力的思維工具,更重新定義武裝力量超越國際人道法傳統框架的"保護者"角色。當學習內容與學員既有認知沖突時,即形成"疑難知識"。其教學挑戰源于多重因素:

  • 平民保護被視為武裝力量"過于柔性"的職能,常被視作人道組織職責范疇

  • 其顛覆軍事力量職能的傳統認知,構成學員知識、職業及文化維度的"認知閾值"

  • 保護對象差異(陌生平民vs本國同胞)引發教學張力

  • 威脅導向方法的多維復雜性形成新知識層面的理解壁壘

這些挑戰促使NDUC啟動專項研究,開發針對性教學工具。基于教育學、技術理論與學習科學的三維整合,項目確立三大核心要素:

沉浸式擴展現實技術(XR) 作為虛擬/增強/混合現實(VR/AR/MR)的總稱,可生成多模態數字體驗。XR在教培領域的獨特賦能優勢[19,36]使其成為構建現實難重現的計算機模擬場景的理想載體。XR教育項目能刺激感官反射并鏡像行為模式,從而強化多視角共情理解,使學員決策前充分考量多元因素——這對理解威脅導向方法至關重要。

閾值概念 指學科核心的突破性認知節點,要求學習者重建知識框架[11]。其涉及學習軌跡中需突破的認知障礙、世界觀重構(本體論轉變)及既有概念體系解構[11]。該教學框架精準契合平民保護新方法中與傳統軍事認知沖突的"疑難知識",可深化知識邏輯理解并轉變職業實踐態度。當學員成功內化疑難知識,即實現認知躍遷。這種蛻變過程伴隨專業身份與個人認同的重構[17,28,56]。

共情培養 作為第三支柱要求理解受害者、施暴者及保護者三重立場。共情不僅關注情緒識別,更需洞悉情感動因(如經歷、文化背景、倫理觀念)[48]。本項目采用具身化設計[40]促進視角切換與角色轉換。

本文核心研究命題為:XR技術如何輔助軍事參謀人員掌握武力保護平民的新型疑難知識?為解答該問題,本研究通過準實驗設計檢驗融合閾值理論與共情機制的XR教學方案。NDUC聯合挪威科技大學(NTNU)及產業伙伴Fynd Reality與Try公司,共同開發整合前沿技術的VR/XR教育系統——融合360度全景視頻與數字具身化、虛擬施暴者對話系統及協同式VR場景,推動沉浸式同儕學習。創新性XR方案有效協助軍事學員理解武裝沖突中武力保護平民的核心要素。

全文結構如下:后續章節呈現相關研究、教學化XR應用設計方案,以及2022年5-6月原型系統評估結果。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

傳統軟件框架實現的智能體"信念-愿望-意圖(BDI)模型"未涵蓋人機協作場景,其焦點局限于情境智能體的自主目標導向行為。然而基于BDI框架開發的智能體已在諸多挑戰性領域成功部署,包括航天飛機故障診斷、無人機控制、空中交通管制、制造自動化及大規模軍事仿真(Jarvis等,2013)。此類部署得益于商用級軟件框架的支持:早期PRS(過程推理系統)(Georgeff & Lansky 1986)、dMARS(分布式多智能體推理系統)(D'inverno等,2005)、JACK智能體(Agent Oriented軟件公司2012b)以及近年問世的GORITE(Jarvis等,2013;R?nnquist 2007)。BDI框架與Soar(Laird, Newell & Rosenbloom 1987)共同成為知識密集型智能體應用開發的主流選擇(Jones & Wray 2006)。

但BDI框架在需要智能體與人類協作達成目標的情境中應用有限。核心癥結在于:傳統BDI智能體內部雖使用目標導向機制,其表征卻非顯性化,導致人類難以直接干預智能體活動,反之亦然。隨著GORITE框架問世,此表征限制已被突破,BDI智能體現具備與人類協同實現目標的能力,為新一代智能決策支持系統開發鋪平道路。本論文提出擴展BDI智能體模型的協作行為概念框架,并通過為GORITE框架增配協作功能模塊、基于擴展框架開發概念驗證應用進行模型驗證。

全文結構如下:第二章文獻綜述涵蓋BDI模型、人機團隊協作、半自主決策支持系統(含智能體與非智能體方案)的相關應用,最終凝練研究命題;第三章解析GORITE BDI智能體框架;第四章闡述研究方法論;第五、六章分別論述所開發的概念模型及其驗證過程;第七章總結研究成果并展望未來工作。

付費5元查看完整內容

擴展現實(XR)是涵蓋三大相似技術的統稱:(1)虛擬現實(VR)、(2)增強現實(AR)及(3)混合現實(MR)。盡管XR領域自1960年代末便在美國國防部(DoD)啟動研發,近年仍持續取得重大突破。這項變革性技術已在國防部門體系內產生顯著影響,并具備在未來數年內革新防務領域的巨大潛力。

本報告剖析XR技術現狀,探討其在美國防部維修訓練中的應用,同時展示XR領域核心機構的最新科技成果,輔以學術期刊與科研報告數據。通過分析技術優勢與挑戰,報告闡釋VR、AR與MR如何通過節約成本、提升效率、降低風險賦能防務訓練體系。隨著XR領域的最新進展,國防部將獲得利用技術能力強化訓練體系與維修流程的機遇。

研發人員開發頭戴顯示裝置原型機以輔助軍事機修人員執行裝甲車輛維護任務。該設備通過提供文本、標簽等可視化指引引導用戶完成復雜操作流程。為驗證裝置效能,研究人員在機修人員使用該設備作業時開展專項研究,發現使用原型機人員操作效率顯著提升,機修人員評價該技術"在執行測試任務序列時兼具直觀性與滿意度"。此案例僅是擴展現實(XR)融入現有維修流程以提升效能的范例之一。作為新興技術,XR在國防部各機構具有廣泛適用場景。XR已被公認為變革性力量,能重塑用戶與物理/數字元素的交互方式。隨著技術成熟度提升,XR軟件將在國防部作業體系中日益關鍵,尤其在維修訓練領域。本報告概述XR技術現狀,研判其在維修訓練領域的當前及未來應用價值,并聚焦國防部特定需求,梳理XR維修訓練領域核心機構的現狀。

XR技術優勢

網絡安全與信息系統信息分析中心研究發現,XR可優化維修流程以提升教學效率、降低成本、節省時間并減少風險。該技術通過實時可視化輔助向用戶推送關鍵任務信息以強化訓練成效,同時支持個性化學習模塊,為人員定制專屬培訓體驗以提升戰備能力。AR技術使現場技術人員能實時獲取遠程專家支持,在執行復雜維修程序時獲得視覺引導或通訊協助。XR技術已為國防部維修訓練催生創新型解決方案,為多領域作戰帶來全新工具。

XR技術挑戰

盡管XR在訓練與維修領域優勢顯著,仍存在亟待突破的瓶頸。該技術普遍存在長期佩戴頭顯導致身體不適的問題,可能引發頭痛、頸部酸痛、視覺疲勞、眩暈及倦怠等健康風險。XR應用應僅以便捷方式在用戶視野內展示必要信息,避免信息過載。開發者尚未完美實現用戶界面的平視顯示功能。另一顯著挑戰在于裝備與零件狀態的視覺檢測——要使算法在真實場景中精準識別細微特征,高效圖像處理算法必須實現近乎零誤差的精確性與可靠性。在團隊協作或請求訓練/維修支持時,系統運行時間與網絡連通性亦可能成為制約因素。當前高保真XR頭顯單價成本高達數千美元,價格門檻突出。海軍研究實驗室作為國防部內首個測試XR設備效能的機構,著力探索其強化訓練項目的路徑。該實驗室攻克了XR硬件在圖形處理、深度感知及便攜性等方面的難題,其中可穿戴設備的亮度與對比度調節能力尤為關鍵——工程師需確保顯示器在戶外強光環境下仍能提供清晰視覺,同時避免光線直射用戶眼部造成眩光。XR系統交互設計聚焦用戶界面直觀性,例如士兵使用AR系統時低頭注視腳部即可在視野內調取地圖進行路徑規劃。

付費5元查看完整內容

本指南提供關于將生成式人工智能(Gen AI)工具融入學術環境的思路與案例研究。隨著基于Transformer的機器學習模型興起,AI應用已從計算機科學家的專屬領域擴展至普通職場人群。OpenAI的ChatGPT系列、Google的Gemini等商用模型使學生、從業者及各級領導者得以利用新能力提升效率。

本指南旨在匯集多元視角,探索如何將Gen AI能力融入學習環境,并提煉最佳實踐方案。非技術背景的教師可通過實用案例了解應用方法。這些案例雖具廣泛適用性,但更應作為教育者探索傳統課堂與在線繼續教育等場景的起點。

指南價值
 本研究探索Gen AI優化教學方法、提升學生參與度與簡化教育內容創作的潛力。指南涵蓋通用與應用場景的用例、課堂實施工具提示,同時提出倫理使用建議與規避偏見的方法,包括警示模型可能產生"幻覺"(即自信地陳述錯誤信息)的風險,以及如何避免從安全網絡向云端模型傳輸敏感數據。

應用潛力
 隨著Gen AI工具發展與普及,我們發現了提升師生教育體驗的機遇。研究表明,Gen AI可加速課程與練習生成,通過主動學習推動學生躍升至布魯姆分類法更高層級,甚至逆向工程化課程——從現有內容提取學習成果。此外,該技術助力概念生成與構思,優化課程審查,并在編程開發、數據分析等技術任務中發揮作用。

學生賦能
 除輔助開發教育產品外,允許學生在課堂使用Gen AI工具同樣有益,助其理解此類模型的優勢、風險與局限。我們通過設計引導式課堂討論(學生與模型互動)及創建學習指南、討論問題等教學活動,探索實踐路徑。

未來展望
 AI工具將持續融入人類社會。盡管其能力不斷演進,教育者始終需善用新工具提升教學成效,并培養學生對日常觀察與互動的批判性思維。

關鍵發現

  1. 以教學法為導向的整合:當教師將Gen AI用于支持高階學習目標(分析、綜合、評估而非簡單記憶)時,其潛力最大化。要求學生分析AI輸出、質疑假設、優化解題策略的結構化活動,可深化批判性思維并與布魯姆分類法等教學框架契合。

  2. 構建學生與AI的積極互動:鼓勵學生將AI作為輔助工具而非主要解決方案至關重要。例如對比AI生成方案與自主成果的活動,能增進對Gen AI能力邊界認知,強化評估、解讀與改進AI結果的能力。

  3. 復雜場景的實踐應用:Gen AI為軍事與國防領域現實場景的復雜問題解決提供支持。例如基于模型的系統工程、戰術模擬等案例,使學生通過實踐迭代應用AI,培養負責任使用AI的信心及高風險管理場景的可遷移技能。

  4. 倫理考量與數據完整性:負責任整合Gen AI需關注數據完整性、安全與倫理使用。教師應明確教導學生規避數據泄露、維護學術誠信,并通過結構化課程闡明Gen AI對信息安全與隱私的廣泛影響。

  5. 自適應學習與教師效率提升:Gen AI通過自動化教案制定、內容適配與形成性評估等常規任務提升教學效率,使教師能將更多時間投入以學生為中心的互動,提升整體教學質量。

  6. 面向技術驅動國防未來的準備:Gen AI工具整合培養學生對技術的務實適應思維,這對國防需求演變至關重要。結構化學習環境中的AI熟悉度,助力學生駕馭技術驅動決策場景并高效參與國防事務。

最佳實踐
? 融入批判性分析訓練:布置學生批判與優化AI輸出的任務,培養分析能力與工具使用判斷力。
? 引導倫理使用:制定AI使用倫理準則,鼓勵學生披露AI輔助、識別局限并維護數據隱私。
? 定位AI為輔助工具:強調AI是學習任務的增效器而非替代品,聚焦其促進深度學習的作用。
? 構建以學生為中心的學習:設計利用Gen AI支持高階認知任務(決策、現實問題解決、自適應學習)的作業。
? 推廣適應性教學實踐:利用Gen AI簡化教案制定與評估開發,使教師專注指導學生自主探究。

付費5元查看完整內容

多智能體強化學習(MARL)近年來大受歡迎。雖然已開發出許多方法,但它們大致可分為三大類:集中式訓練和執行(CTE)、分布式執行的集中式訓練(CTDE)以及分布式訓練和執行(DTE)。

CTE 方法假定在訓練和執行期間是集中的(例如,具有快速、自由和完美的通信),并且在執行期間擁有最多的信息。也就是說,每個智能體的行動可以依賴于所有智能體的信息。因此,通過使用具有集中行動和觀測空間的單智能體 RL 方法(在部分可觀測的情況下保持集中的行動觀測歷史),可以實現一種簡單形式的 CTE。CTE 方法有可能優于分散執行方法(因為它們允許集中控制),但可擴展性較差,因為(集中的)行動和觀察空間會隨著智能體數量的增加而呈指數級擴展。CTE 通常只用于合作式 MARL 情況,因為集中控制意味著要協調每個智能體將選擇哪些行動。

CTDE 方法是最常見的方法,因為它們在訓練過程中利用集中信息,同時實現分散執行--在執行過程中只使用該智能體可用的信息。CTDE 是唯一一種需要單獨訓練階段的模式,在訓練階段可以使用任何可用信息(如其他智能體策略、底層狀態)。因此,它們比 CTE 方法更具可擴展性,不需要在執行過程中進行通信,而且通常性能良好。CTDE 最自然地適用于合作情況,但也適用于競爭或混合情況,這取決于假定觀察到哪些信息。

分布式訓練和執行方法所做的假設最少,通常也很容易實現。事實上,只要讓每個智能體分別學習,任何單智能體 RL 方法都可以用于 DTE。當然,這些方法各有利弊,下面將對此進行討論。值得注意的是,如果沒有集中訓練階段(如通過集中模擬器),就需要 DTE,要求所有智能體在沒有事先協調的情況下在在線交互過程中學習。DTE 方法可用于合作、競爭或混合情況。MARL 方法可進一步分為基于價值的方法和策略梯度方法。基于價值的方法(如 Q-learning)學習一個價值函數,然后根據這些價值選擇行動。策略梯度法學習明確的策略表示,并試圖沿著梯度方向改進策略。這兩類方法在 MARL 中都得到了廣泛應用。

本文介紹的是合作 MARL-MARL,其中所有智能體共享一個單一的聯合獎勵。它旨在解釋 CTE、CTDE 和 DTE 設置的設置、基本概念和常用方法。它并不涵蓋合作 MARL 的所有工作,因為該領域相當廣泛。

付費5元查看完整內容

軍事模擬既是培訓工具,也是分析手段。在訓練方面,模擬為領導者提供了一個機會,讓他們做出名義上的重大決策,并演練這些決策的后果。另外,分析性模擬還提供了一種測試能力、部隊設計和理論的反復且相對廉價的方法。鑒于所需的專業知識和數據,通過腳本或模仿學習的方式為大規模作戰模擬實施人工智能(AI)似乎令人生畏;然而,最近業界在強化學習方面取得的成功,開發出了能玩商業電子游戲的人工智能,這提供了一條令人興奮的前進道路。多模型方法與強化學習相結合,在行動空間和可擴展性方面相對簡單,因此在軍事模擬中具有巨大潛力。多模型方法不使用結構復雜的組合式行動空間進行強化學習,而是使用下級人工智能模型作為智能體的行動空間,有效地委托下級行動決策。本研究提供了強化學習(RL)多模型和分級多模型的概念驗證,分級多模型是一種利用軍事單位固有分級結構的多模型類型。此外,本文還展示了時間抽象和方向變換器的應用如何提高分層多模型的性能。

付費5元查看完整內容

事后分析(AAR)在軍隊和組織中用于評估事件及其相應的培訓成果。團隊討論提供了一種以學習為中心的方法,用于評估表現、分析失敗或對未來活動可能的改進。有用的信息經常以非結構化文本和語音的形式嵌入這些 AAR 中。本文提出了一種對 AAR 進行數字分析和趨勢分析的解決方案。討論了使用手持設備采集數據的解決方案。此類設備可將音頻輸入數據管道,在管道中進行語音到文本的處理。音頻處理的操作方法是識別音素等原始語言成分,并對其關系進行上下文建模,以識別最有可能的文本輸出。然后,將討論語音到文本的轉換以及自然語言處理 (NLP) 在分析中的應用。NLP 技術可發現非結構化文本中的語義模式,然后將其與團隊績效指標相關聯。通過揭示 AAR 與團隊表現之間的成功促進因素,這種趨勢可以優化軍事訓練課程。

付費5元查看完整內容

在國防訓練中應用模擬器不僅具有經濟意義,而且還能顯著減少排放。然而,直到現在,人們還沒有對應用模擬器所帶來的環境效益進行深入研究。本研究旨在量化印度陸軍使用選定模擬器進行訓練所帶來的環境和經濟效益。研究的一些主要發現如下

  • T-90 駕駛模擬器在 30 年的假定壽命期內,在團級和中隊級可分別減少碳排放達 1919 噸和 640 噸。在經濟方面,它可以幫助裝甲團和中隊每年分別節省 45.4 億印度盧比和 1.4 億印度盧比。
  • 在假設的 30 年壽命期內,T-90 乘員射擊模擬器可分別為裝甲團和裝甲中隊減少高達 3676 噸和 1225 噸的碳排放。而在經濟方面,它可以幫助裝甲團和裝甲中隊每年分別節省 12.7 億印度盧比和 4.13 億印度盧比。
  • 用于輕型四輪汽車駕駛培訓的自動駕駛模擬器在 15 年的假定使用壽命內可減少 103 噸二氧化碳當量。而在經濟方面,它可以為一個團每年節省 375 萬印度盧比。
  • 先進武器模擬器(AWeSim)可在 10 年內減少 55 噸碳當量,從經濟角度看,每年可節省 2460 萬印度盧比。
  • 由于某些尖端武器系統的彈藥價格昂貴,實彈射擊訓練受到限制。盡管如此,還是有必要對人員進行此類系統的培訓,以提高其熟練程度和熟悉程度。模擬器(如防空模擬器,或稱 "3ADS")彌補了這一不足,同時還消除了大氣中有毒氣體的釋放。
付費5元查看完整內容

陸軍一直認為有必要將其決策建立在行之有效的作戰研究方法的基礎上,這些方法旨在為指揮部提供決策過程中的替代方案,從優化戰役到戰略評估和成本經濟學。戰斗傷亡是軍事行動研究的一個主題,它應用數學模型來量化勝利與失敗的概率。特別是,已經提出了不同的方法來模擬戰斗過程。然而,這些方法都不能為高層指揮提供足夠的決策支持。為了克服這種情況,本文提出了一個顛覆性的框架,它克服了傳統模型的大多數局限性,支持最高指揮層的決策:戰略層和戰役層,將確定戰斗力水平的衰減(通常稱為減員(損失))作為評估決策的機制。該框架采用自適應和預測控制工程方法,根據戰斗變化進行動態調整,同時考慮到對手的能力和演習以及產生的效果。此外,它還包括一個學習機制,以改進高不確定性條件下的決策。

引言

蘭徹斯特(Lanchester)在戰斗動力學建模方面的開創性工作[1]啟發了對戰斗抽象發展的重要研究,以支持不確定條件下的軍事決策,追求如何在戰斗中取得優勢。長期以來,蘭徹斯特的原始模型及其不斷演化的擴展模型[2]一直主導著常規陸軍力量平衡的動態評估,被主要機構(如美國陸軍、國防部長辦公室等)用于評估各種問題(如評估戰區平衡[3, 4]、指導武器裝備選擇決策[5]等)。

然而,值得注意的是,蘭徹斯特模型有其重要的局限性,例如,它們只進行了過于簡單的單面處理,而沒有考慮對手的能力,并且不能用于分類交戰[6]。

另一個需要考慮的問題是決策程序所支持的抽象層次。軍事理論通常將指揮層次分為以下三個等級:

1.戰略層次從最抽象的角度研究沖突,從整體上考慮戰爭的最終結果。它涉及軍事力量的整體規劃、資源分配和組織。此外,它還確定并支持國家政策。

2.戰役層面涉及戰役和主要行動的設計、安排和執行。

3.戰術層面在戰場上實施戰役行動。

有趣的是,大多數決策方法,包括非蘭徹斯特的決策方法,都集中在戰術指揮層面[6,7]。換句話說,現有決策系統對作戰和戰略指揮層面的支持不足。

本文提出了一個創新框架,它克服了蘭徹斯特模型的大部分局限性,并支持最高指揮層的決策:戰略層和作戰層。我們的框架應用了自適應和預測控制工程方法,以動態適應戰斗中的變化,同時考慮到對手的能力和演習以及產生的效果。此外,它還包括一個學習機制,以改進高不確定性條件下的決策。

最后,本文報告了我們的框架在克里特島戰役、硫磺島戰役和庫爾斯克戰役中的實證評估。這本身就是一個相關的貢獻,因為大多數關于軍事決策的文獻都缺乏足夠的實驗驗證。特別是,大多數驗證都是按照非現實的假設[8]或依賴于簡單化的編造例子[9]的數學程序進行的。

本文的其余部分按以下順序組織。第2節描述了我們的框架工作,第3節報告了其經驗驗證。最后,第4節提供了一些結論性意見并討論了未來的挑戰。

支持戰役戰略決策的框架

在經典的蘭徹斯特模型之外,還有兩種主要的戰爭分析機制:(i)隨機模型和(ii)確定性模型,其中一 些是傳統的蘭徹斯特模型[10,11]。目前,智能代理等其他方法正獲得巨大發展[12,13]。這些新模型的目的是擴展能力[6,9]和減少以前方法的缺點[14,15]。然而,它們無法成為高層決策的適當基準。

本框架克服了蘭徹斯特原著的局限性,[16, 6]中對這些局限性進行了深入探討,將戰斗視為一個因果過程,該過程根據蘭徹斯特方程的動態變化和外部行動而演變。為此,我們的方法應用了[17]中介紹的自適應和預測控制理論,并結合了不確定性建模技術。我們的方法架構由一系列模塊組成,這些模塊協同工作,確保按照軍事理論協調一致地進行決策。特別是,一組順序階段觸發了適用戰略的定義、不同可能行動方案(COA)的評估和選擇,以及模型對行動演變的適應。

圖中x(t)和y(t)分別表示每一瞬間x部隊和y部隊的戰斗員數量,x(t+1)e和y(t+1)e表示下一瞬間的估計戰斗員數量。

圖1. 我們框架的架構設計。每個模塊都代表了軍事思維的機制,即:(i)評估戰斗事件,以確定應遵循的戰略并選擇完成任務的COA;(ii)確定執行任務所需的資源;最后(iii)適應結果。

實施需要邏輯過程能力,并應模擬從預測到行動的決策過程。在此背景下,我們制定并測試了新的框架(如果其在實際對抗中的應用在性能和一致性方面符合預期,則該框架將是穩健的)。

圖2 新框架中通過順序模型觸發選擇特定COA的主要因素。

圖2顯示了迭代觸發特定COA選擇的基本要素。預測模塊產生預測演變。自適應模塊根據輸出信號(實際情況)與預測信號之間的差異調整組成模塊的參數,并根據最后執行的COA進行適當更新。專家模塊通過調度模塊試圖改變預測模塊所定義的趨勢,從而根據戰斗需要改變行動路線。值得注意的是,設定點與完成任務有關,行動發展時間是操作時間,在最好的情況下,可用的沖突信息數據庫通常以天為單位表示。

付費5元查看完整內容

美國缺乏一套專門的人工智能(AI)戰爭的理論。這導致了在戰爭的作戰層面上缺乏對人工智能影響的討論。人工智能的定義通常采用技術視角,不考慮對作戰藝術的影響。提議的作戰藝術的新要素 "抓手(Grip)"解釋了人工智能和人類在兩個方面的基本關系:自主性和角色交換。“抓手”為人工智能戰爭的理論奠定了基礎,除了揭示改變任務指揮理論的必要性外,還提出了作戰的假設。美國空軍陸戰隊的發展以及由此產生的戰爭作戰水平(和作戰藝術)在歷史上有類似的案例,說明關鍵假設如何影響戰場的可視化。去除“人在回路中”的人工智能戰爭的假設,揭示了需要一種新的作戰藝術元素來安排部隊的時間、空間和目的,此外,美國陸軍任務指揮理論需要調整,以使指揮官能夠在各種形式的控制之間移動。

簡介

“機器人和人工智能可以從根本上改變戰爭的性質......誰先到達那里,誰就能主宰戰場。”- 美國陸軍部長馬克-埃斯佩爾博士,2018年

預計人工智能(AI)將極大地改變21世紀的戰爭特征。人工智能的潛在應用只受到想象力和公共政策的限制。人工智能擁有縮短決策周期的潛力,超過了人類的理論極限。人工智能也有望執行人類、機器和混合編隊的指揮和控制功能。人工智能在自主武器系統(AWS)中的潛力同樣是無限的:分布式制造、蜂群和小型化的先進傳感器為未來的指揮官創造了大量的配置變化。與圍繞人工智能的技術、倫理和概念問題相關的無數問題,為如何將這項技術整合到戰爭的戰術層面上蒙上了陰影。現代軍隊幾個世紀以來一直在為正確整合進化(和革命)的技術進步而奮斗。美國內戰期間的鐵路技術對 "鐵路頭 "軍隊和格蘭特將軍在維克斯堡戰役中的勝利都有貢獻。25年后,法國人忽視了普魯士的鐵路試驗,給第三帝國帶來了危險,同時也沒能把握住小口徑步槍的優勢。卡爾-馮-克勞塞維茨在《論戰爭》中指出,每個時代都有自己的戰爭和先入為主的觀念。本專著將探討當前的先入為主的觀念和人工智能在戰爭的操作層面的出現。

對作戰層面的討論側重于作戰藝術,以及指揮官和他們的參謀人員如何通過整合目的、方式和手段,以及在時間、空間和目的上安排部隊來發展戰役。在作戰藝術中缺乏以人工智能為主題的討論,增加了不適當地部署裝備和以不充分的理論進行戰斗的風險;實質上是在邦聯的火車上與追兵作戰。美國的政策文件和技術路線圖主要集中在能力發展和道德影響上,而沒有描述一個有凝聚力的人工智能戰爭的理論。但美國和中國在自主行動方面的實驗趨于一致;這引起了沖突的可能性,其特點是越來越多的被授權的人工智能和AWS沒有得到實際理論框架的支持。這個問題導致了幾個問題。美國軍隊的人工智能戰爭理論是什么?大國競爭者的人工智能戰爭理論是什么?有哪些關于顛覆性技術的歷史案例?理論應該如何改變以解釋顛覆性技術?

本專著旨在回答上述問題。它還提出了兩個概念,以使指揮官能夠在戰場上可視化和運用人工智能;一個被暫時稱為 "抓手"的作戰藝術的新元素和一個任務指揮理論的延伸。該論點將分三個主要部分進行闡述。第一節(理論)將證明人工智能需要一個認知工具來在時間、空間和目的上安排部隊,方法是:綜合美國的人工智能戰爭理論,描述中國的人工智能戰爭理論,以及揭示當前文獻中的“抓手”理論。第二節(歷史)是對1973年為應對技術轉變而從主動防御演變而來的空地戰(ALB)的案例研究。第二節將重點討論戰場維度的思想、任務指揮理論的演變以及相關的作戰藝術的正式出現。第三節(新興理論)提出了作戰藝術的新要素,作為一種認知工具,幫助指揮官和參謀部將21世紀的戰場可視化。第三節將把以前的章節整合成一個有凝聚力的模型,讓指揮官和參謀部在時間、空間和目的方面可視化他們與AI和AWS的關系。第三節還將提供一個任務指揮理論的建議擴展,以說明人機互動的情況。

主要研究成果

人工智能的復雜性導致了正式的戰爭理論的缺乏;然而,在美國的政策和發展文件中存在著一個初步的美國人工智能戰爭理論。人工智能戰爭理論必須解釋人類和人工智能之間的關系,這樣才能完整。通過作戰藝術和任務指揮的視角來看待人工智能,揭示了自主性和角色互換的兩個頻譜,通過不同的組合創造了人工智能戰爭理論的維度。這些維度,或者說掌握的形式,代表了作戰藝術的一個新元素。同樣,需要將任務指揮理論擴展到一個過程-產出模型中,以實現掌握形式之間的移動。

方法論

綜合美國目前的人工智能政策和AWS的發展路線圖,提供了一幅戰略領導人如何看待人工智能的圖景,允許發展一個暫定的戰爭理論。由于缺乏關于武器化人工智能的歷史數據,政策和發展路線圖是必需的,因此本專著中提出的理論是由提煉出來的概念產生的。由于中國的工業和技術基礎的規模,中國被選為對抗模式,預計在10到15年內,中國將超越俄羅斯成為美國最大的戰略競爭對手。

圖文并茂的案例研究方法將被用來分析主動防御和空地戰之間的過渡。該案例研究將整合技術、政策和戰爭理論,以喚起人們對多域作戰(MDO)和人工智能在21世紀戰爭中作用的疑問。第二節的批判性分析側重于理論的發展,而不是其應用。第二節的詳細程度是有限制的,因為它仍然是一個更大(和有限)整體的一部分,因此重點應繼續揭示戰場可視化和認知輔助工具之間的聯系。第三節通過作戰藝術的新元素和任務指揮理論的調整來回答每一節中發現的問題,從而將前幾節連接起來。人工智能缺乏歷史,考慮到人們不能直接分析以前的沖突,以獲得教訓或原則。在這種情況下,任務指揮理論提供了一種間接的方法來理解使人類能夠集中式和分布式指揮和控制功能的機制,以及為什么人工智能缺乏相應的機制會抑制我們感知機會的能力。第三節將把美國現行政策和路線圖中的幾個抓手成分匯總到任務指揮理論提供的框架中。

范圍和限制

本專著存在于美國陸軍多域作戰概念的框架內,其理解是解決方案是聯合性質的,因為 "陸軍不能單獨解決問題,概念發展必須在整個聯合部隊中保持一致,清晰的語言很重要。"本專著不能被理解為對MDO中提出的問題的單一解決方案,而是一種幫助實現戰斗力聚合的方法。

關于人工智能的討論充滿了倫理、法律和道德方面的考慮,本專著不會涉及這些方面。本專論的假設是,人工智能的軍事用途在政治上仍然是可行的,而且 "戰略前提 "允許該技術的軍事應用走向成熟。由于運用的變化幾乎是無限的,人工智能的戰術實施將不會被詳細討論,而重點是在作戰層面上的概念整合。一般能力將被限制在與作戰藝術和作戰過程有關的具體趨勢上。

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容
北京阿比特科技有限公司