亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

鑒于深度強化學習最近在訓練智能體贏得《星際爭霸》(StarCraft)和《DoTA》(Defense Of The Ancients)等復雜游戲方面產生的影響,利用基于學習的技術進行專業兵棋推演、戰場模擬和建模的研究出現了熱潮。實時戰略游戲和模擬器已成為作戰計劃和軍事研究的寶貴資源。然而,最近的研究表明,這種基于學習的方法極易受到對抗性擾動的影響。在本文中,我們研究了在主動對手控制的環境中為指揮與控制任務訓練的智能體的魯棒性。C2 智能體是在定制的《星際爭霸 II》地圖上使用最先進的 RL 算法--A3C 和 PPO 訓練出來的。我們通過經驗證明,使用這些算法訓練的智能體極易受到對手注入的噪聲的影響,并研究了這些擾動對訓練后的智能體性能的影響。我們的工作凸顯了開發更穩健的訓練算法的迫切性,尤其是在戰場等關鍵領域。

在《星際爭霸》[1] 和《DoTA》[2] 等幾款涉及復雜規劃和決策的戰術和即時戰略游戲中,深度強化學習(DRL)已被成功用于訓練智能體。這些智能體通過自我博弈、模仿學習等技術,熟練地提出了可與經驗豐富的人類玩家相媲美的制勝策略(AlphaStar [3]、OpenAI Five [4])。因此,近年來,軍事研究界對將這些 RL 技術應用于作戰計劃和指揮控制(C2)等任務的興趣與日俱增。與此同時,傳統的游戲引擎也被重新利用來促進自動學習(pySC2 [5]、SMAC [6,7]、pyDoTA [8]),并為戰場模擬開發了新的游戲引擎 [9-13],從而創造了實際上的數字兵棋推演。這項研究背后的驅動力是改進和增強未來戰場上使用的戰略,預計未來戰場將更加復雜和非常規,可能超出人類指揮官的認知能力。

最近的研究成果[14]表明,通過強化學習技術和合成數據訓練的 C2 智能體在贏得模擬兵棋推演方面取得了相當大的成功。這在一定程度上歸功于 RL 訓練的可擴展性,事實證明,在面對困難或復雜的場景以及只有部分環境信息的情況下,RL 在探索和利用不同策略方面具有巨大優勢。然而,這些評估都是在良性環境中進行的,在這種環境中,C2 智能體可用的信息被假定為未被破壞。實際上,這在戰場情況下是不太可能的,因為那里的信息可能因為收集方式(來自傳感器或其他輸入源)而存在固有噪聲,或者可能被敵軍篡改。在這項工作中,我們將評估這種訓練有素的智能體在面對 C2 環境中潛在的對抗性輸入時的魯棒性。

為此,首先使用《星際爭霸 II 學習環境》(SCLE [15])來模擬藍方和紅方兩支隊伍之間的沖突。C2 智能體指揮 "藍方"消滅 "紅方"部隊,從而贏得戰斗。接下來,假設環境中存在攻擊者,在 C2智能體獲得從戰場收集到的觀測數據之前對其進行篡改。添加的擾動被稱為對抗性擾動,其構造非常難以察覺,以躲避檢測,同時最大限度地顛覆 C2 智能體的策略,使其變成有害的東西(圖 1)。然后,我們將從多個指標評估智能體性能的下降,并從軍事角度分析行動方案的偏差。

圖 1:魯棒性評估方法: 圖中顯示了良性環境(上圖)和惡意環境(下圖)在時間步長 t 上的差異。t - 1 時的觀測數據被輸入到在良性環境中經過預訓練的 C2 智能體。由于輸入中注入了敵意擾動(橙色),智能體采樣了次優行動,最終導致 BlueForce 損失。

主要貢獻總結如下:

  • 通過經驗證明了訓練有素的 C2 智能體在輸入觀測數據的微小對抗性擾動面前的脆弱性。我們的研究量化了一些預期趨勢,并揭示了一些非顯而易見的趨勢。例如,我們的研究顯示,部分訓練有素的智能體似乎比完全訓練有素的智能體更能抵抗噪聲。

  • 出于通用性考慮,評估了兩種不同場景下的攻擊效果,這兩種場景分別對應 C2 智能體的攻擊和防御任務。

  • 還對使用 A3C 和 PPO 這兩種最先進的 RL 算法訓練的智能體進行了評估,并對它們對注入噪聲的魯棒性進行了評論。

  • 通過分析策略網絡預測的行動分布因攻擊者的擾動而發生的變化,提供了模型輸出的可解釋性。

我們的評估結果表明,香草 RL 訓練很容易受到敵方擾動的影響,因此需要建立穩健的訓練機制,并采用復雜的檢測和預防技術,尤其是在這種關鍵場景下。

本文的結構如下。首先,我們簡要介紹了將 RL 用于 C2 的背景,然后在第 2.1 節中描述了星際爭霸環境和兩個自定義場景--虎爪和 NTC,我們使用這兩個場景來訓練我們的智能體。在第 4 節中,我們描述了自定義場景的狀態和行動空間,以及 RL 智能體的細節。第 4.2 節和第 5 節分別介紹了攻擊方法和評估。最后,我們討論了利用對抗性魯棒訓練技術的必要性和未來工作方向。

圖 5:C2 策略網絡: C2 智能體的策略網絡組合圖。輸入和輸出分別用藍色和黃色表示。陰影矩形表示連接操作。Conv2D 層和 FC 層被 ReLU 激活。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

在這個前所未有的技術驅動轉型時代,比以往任何時候都更需要積極投資開發強大的人工智能(AI),用于兵棋推演以支持決策。通過推進人工智能系統并將其與人類判斷力相結合,將能夠增強全域感知,提高決策周期的速度和質量,為新的行動方案提供建議,并更迅速地反擊對手的行動。因此,必須加快人工智能的發展,以幫助更好地應對目前需要人類智慧才能應對的現代挑戰和困境的復雜性,并在可能的情況下嘗試超越人類智慧--不是取代人類,而是以機器的速度增強人類決策并為其提供更好的信息。盡管深度強化學習在智能體行為開發方面不斷取得令人鼓舞的成果,可用于戰斗建模和模擬中常見的長視距復雜任務,但仍需進一步研究,才能使人工智能的規模擴大到能夠處理兵棋推演中錯綜復雜的廣闊狀態空間,從而進行概念開發、教育或分析。為了幫助應對這一挑戰,在研究中,正在開發和實施一個分層強化學習框架,其中包括多模型方法和維度不變觀測抽象。

利用人工智能進行兵棋推演

鑒于這些令人擔憂的活動以及最近在人工智能變革能力方面取得的突破,顯然必須開始更認真地投資于專門用于兵棋推演的人工智能開發。美國國家人工智能安全委員會(NSCAI)[27]詳細闡述了兩個信念:(1)"計算機系統解決問題和完成原本需要人類智慧才能完成的任務--在某些情況下甚至超過人類的表現--的能力迅速提高,正在改變世界";(2)"人工智能正在擴大美國已經進入的脆弱窗口"。因此,有鑒于此,NSCAI得出結論:"美國必須立即行動起來,將人工智能系統投入實戰,并在人工智能創新方面投入更多的大量資源,以保護美國的安全,促進繁榮,保障民主的未來"[27]。NSCAI [27] 認為,通過推進人工智能系統并將其與人類判斷力相結合,將能夠增強全域意識,提高決策周期的速度和質量,為不同的作戰行動提供建議,并更迅速地反擊對手的行動。

盡管美國在大多數領域都享有軍事優勢,但機器學習(ML)的擴散已開始為競爭對手和其他國家行為者提供無數的破壞機會[28]。因此,現在比以往任何時候都更有必要積極開展研究和實驗,以便對人工智能的優缺點以及如何將其用于規劃和兵棋推演有一個扎實的了解,只有這樣,國防部才能更好地做好準備,以應對戰略突襲和破壞[28]。例如,如今的作戰行動分析主要側重于評估友軍的計劃,而很少強調對手可能會如何根據自身的目標和能力做出反應[26]。盡管不遺余力地試圖了解對手的想法以及他們在沖突中會如何行動,但總是會受到自己想象力的限制。托馬斯-謝林(Thomas Schelling)在他的 "不可能定理"(Impossibility Theorem)中說得最好: "一個人,無論他的分析多么嚴謹,想象力多么豐富,都不可能做的一件事,就是列出一個他不會想到的事情清單"[29]。人工智能支持的兵棋推演甚至有可能克服這一限制,創造出有自己目標的智能體,而這些智能體并不一定受限于思維和計劃方式,因為思維和計劃方式通常是通過幾十年的經驗根深蒂固的。此外,僅從數據中學習新的行為,人工智能就能自動執行原本需要人類智慧才能完成的任務[30]。

雖然在機器學習領域已經開展了大量研究,但兵棋推演和軍事規劃與迄今為止使用人工智能解決的傳統問題--如圖像分類和自然語言處理--有很大不同。任務分析和規劃通常需要人類的直覺和啟發式方法來限制搜索問題的規模 [28]。雖然啟發式方法確實能更容易地找到可接受的解決方案,但這些解決方案的可擴展性或可靠性通常不足以評估可能出現的大量突發情況 [28]。此外,直覺也可能在非常復雜的問題中失效,例如那些涉及到有許多不同參與者的高維空間以及復雜的武器和傳感器交互的問題[28]。不幸的是,這些復雜性正是可能決定未來戰爭的特征[26], [28]。

幸運的是,迄今為止,競技游戲已成為學習如何實施人工智能以支持兵棋推演的良好試驗平臺。早期的成功包括掌握跳棋[32]、五子棋[33]、國際象棋[34]和圍棋[35]。人工智能方法在視頻游戲中也取得了成功,如 Atari 游戲 [36]、超級馬里奧兄弟 [37]、Quake III [38]、Dota 2 [39]、星際爭霸 II [40] 和無上限德州撲克 [41]。然而,競技游戲通常都有一套固定的規則、確定的參數和基于已知變量的可預測結果。雖然這些游戲能為戰略、決策和風險評估提供有價值的見解,但真實世界中的兵棋推演場景往往更加復雜--可能的初始游戲狀態更多,分支系數更大,因此結果更加難以預測。因此,如何將人工智能從這些游戲中獲得的成功轉化為真正的軍事行動是一項挑戰。不過,從這些游戲中獲得的人工智能學習和適應能力方面的進步,為人工智能在作戰模擬中更細致的應用奠定了堅實的基礎。

利用 "半人馬 "概念進行兵棋推演

正如 CeTAS 報告[31]所詳述的那樣,可以采用大量不同的方法來利用人工智能支持兵棋推演;不過,在本文剩余部分的范圍內,將討論人工智能與兵棋推演的關系,即創建能夠在戰斗建模和模擬所特有的龐大而復雜的狀態空間中做出理性決策的智能體。

然而,要證明人工智能能夠贏得游戲或取得超人的表現,只是證明人工智能確實能為兵棋推演者、作戰規劃者和戰場指揮官提供有用見解的第一步[42]。盡管如此,設想這些智能體將成為創建現代決策輔助工具的基礎,與更傳統的工具相比,這些工具能為決策者提供更高的準確性、速度和靈活性[28]--有可能加快決策過程并提供關鍵的洞察力。隨著進一步深入多域作戰[26],在面對人工智能對手時,忽視這一步會帶來巨大風險。

雖然人機協作的概念最初是由 Licklider 在 1960 年提出的[43],但前國際象棋世界冠軍加里-卡斯帕羅夫(Gary Kasparov)在 1997 年輸給 IBM 的 "深藍"(Deep Blue)[44]多年后,首次提出了 "半人馬國際象棋"(Centaur Chess)的概念。盡管被人工智能擊敗,卡斯帕羅夫并沒有將人工智能視為一種威脅,而是鼓勵將人工智能視為一種工具,當它與人類的能力相結合時,可以帶來前所未有的成就[44]。卡斯帕羅夫在他的著作《深度思考》(Deep Thinking: 機器智能的終點和人類創造力的起點[44]》一書中,卡斯帕羅夫強調了利用人類和機器互補優勢的必要性。計算機擅長暴力計算,每秒能分析數百萬個局面,同時輕松計算出最佳的近期戰術行動。另一方面,人類對戰略、創造力和考慮特定棋步長期影響的能力有更深刻的理解,而這一切主要靠直覺[44]。卡斯帕羅夫認為,人類的直覺和機器的計算結合在一起,往往能比頂尖特級大師或計算機單獨發揮出更強的棋力。卡斯帕羅夫指出,在許多情況下,即使是排名相對較低的棋手與計算機配對也能勝過頂級特級大師。

有趣的是,卡斯帕羅夫還指出,隨著計算機國際象棋程序變得越來越強大,人類棋手在這種半人馬合作關系中的角色也發生了變化。最初,人類專注于戰略,而計算機則專注于戰術,但隨著國際象棋人工智能的改進,人類越來越多地開始扮演 "質量控制 "的角色,確保計算機推薦的棋步與人類更廣泛的戰略目標相一致[44]。事實上,卡斯帕羅夫經常說,國際象棋的未來可能不是人類與機器的對決,而是人類與機器配對,使用何種界面,能下出最好的棋。這種合作融合了機器的計算能力和人類提供背景、理解和直覺的能力--這種協同作用所產生的棋藝水平超過了任何一方單獨發揮所能達到的水平。

為兵棋推演開發人工智能

雖然有許多不同的人工智能技術和方法可以應用于兵棋推演,如監督學習、無監督學習、遺傳算法、自然語言處理、決策樹、專家系統、博弈論、對抗網絡等,但本文主要關注的是推進強化學習(RL)領域的需求,以支持為兵棋推演開發智能體行為。

說到機器學習,主要有三種類型:監督學習、無監督學習和強化學習。監督學習依賴于標注數據,每一組輸入都有相應的預期輸出。它類似于范例學習,最適合圖像分類、回歸和語音識別等任務。相反,無監督學習不依賴于標記數據。相反,它能發現數據中的模式或結構,比如對數據點進行分組或聚類,最適合異常檢測、降維和數據分割。值得注意的是,還有其他類型的機器學習,如遷移學習、主動學習、自我監督學習等;不過,這些通常是上述兩類學習的擴展或組合。

付費5元查看完整內容

利用人工智能實現認知優勢的目的是從海量數據中提取相關信息,以建立軍事和非軍事態勢感知。對視覺信息進行可靠而及時的解讀是獲得這種優勢的有利因素。隨著大規模、多模態深度學習模型(如對比語言-圖像預訓練(CLIP))的興起,一種有前途的神經網絡正在出現,以執行此類視覺識別任務。這種網絡能夠通過一次性應用光學字符識別(OCR)、面部識別或對象分類從視覺輸入中提取知識,而無需進行顯式微調。通過選擇針對圖像中搜索對象的特定文本提示,CLIP 可以實現這種 "零樣本"功能。

本文將研究 CLIP 如何用于識別軍事領域的車輛,并利用從烏克蘭-俄羅斯戰爭中吸取的經驗教訓。為了進行分析,創建了一個新的數據集,其中包含有軍用和民用車輛的圖像,但也有沒有車輛的圖像。首先,我們搜索適當的查詢,利用單個搜索結果,然后組合多個提示。其次,探討這種方法是否可用于從基于監控攝像頭和智能手機的視頻流中識別軍用車輛。在圖像數據集上表明,經過深思熟慮的提示工程,CLIP 模型能夠以較高的精確度和召回率識別軍用車輛。視頻數據集的性能取決于物體大小和視頻質量。有了這種方法,盟軍和敵方都可以系統地分析大量視頻和圖像數據,而無需耗時的數據收集和訓練。

CLIP 模型

CLIP 是目前最好的零樣本模型之一。Radford 等人[10] 開發了一種全新的方法,利用簡單的對比預訓練目標來學習盡可能多的概念。CLIP 在 4 億個圖像-文本對上進行了預訓練。不過,該數據集尚未公開,因此不知道有關訓練數據的詳細信息。圖像由圖像編碼器嵌入,文本由單獨的文本編碼器嵌入。目標是使用對稱交叉熵損失來減少嵌入的距離,如圖 1(左)所示。余弦相似度被用作距離度量。基于這一簡單的預訓練目標,CLIP 可以在沒有監督注釋的情況下學習一般概念,因此具有很強的零誤差能力。ResNet [2] 及各種改進 [13], [14] 和 Vision Transformer [15] 被用作圖像編碼器,Transformer 架構 [16] 被用于文本嵌入。Radford 等人提供了其 CLIP 模型的九種不同配置。在我們的分析中,我們使用了 ViT-B/16,這是一個中等規模的模型,圖像編碼器和文本編碼器分別有 8620 萬和 3780 萬個參數。為了防止過擬合,通常會使用一些數據增強,但由于預訓練數據集的大小,這些增強可以忽略不計,只進行簡單的裁剪。預訓練數據集并不公開,因此在訓練過程中與軍事相關的數據量不得而知。在推理過程中,使用不同的提示(T1、...、TN)對搜索到的類別進行編碼,然后根據文本向量與圖像向量(I1)之間的距離確定類別,如圖 1 所示。

付費5元查看完整內容

要在未來與技術先進的競爭對手的沖突中保持競爭力,就必須加快兵棋推演人工智能(AI)的研究與開發。更重要的是,利用機器學習進行智能作戰行為開發將是有朝一日在這一領域實現超人性能的關鍵--提高在未來戰爭中的決策質量并加快決策速度。盡管深度強化學習(RL)在游戲中的智能體行為開發方面不斷取得令人鼓舞的成果,但在戰斗建模與仿真中常見的長視距復雜任務中,其表現尚未達到或超過人類水平。利用分層強化學習(HRL)已被證實的潛力和最近取得的成功,我們的研究正在調查和擴展 HRL 的使用,以創建能夠在這些大型復雜模擬環境中有效執行任務的智能體。最終目標是開發出一種能夠發揮超人性能的智能體,然后將其作為軍事規劃者和決策者的人工智能顧問。本文介紹了正在進行的研究方法,以及五個研究領域中的前三個領域,這些領域旨在管理迄今為止限制人工智能在作戰模擬中應用的計算量指數級增長問題: (1) 為作戰單元開發一個 HRL 訓練框架和智能體架構;(2) 為智能體決策開發一個多模型框架;(3) 開發狀態空間的維度不變觀測抽象,以管理計算量的指數增長;(4) 開發一個內在獎勵引擎,以實現長期規劃;(5) 將此框架實施到更高保真的作戰模擬中。這項研究將進一步推動國防部正在進行的研究興趣,即擴展人工智能以處理大型復雜的軍事場景,從而支持用于概念開發、教育和分析的兵棋推演。

人工智能(AI)技術的最新進展,如 OpenAI 的 ChatGPT,再次體現了人工智能在重塑各行各業方面的變革潛力。正如生成式預訓練變換器(GPT)模型從根本上重新定義了對人工智能巨大威力的理解一樣,其他人工智能方法也能為國防部門開發改變游戲規則的工具做出貢獻,而迄今為止,人工智能已被證明過于復雜,無法有效解決這些問題。

人工智能可以產生變革性影響的一個領域是支持兵棋推演的戰斗建模和仿真領域。但遺憾的是,就像兵棋推演的歷史可以追溯到幾個世紀前一樣,如今用于現代兵棋推演的大多數工具和技術也是如此。雖然傳統兵棋推演工具(如實體游戲棋盤、紙牌和骰子)絕對仍有其作用,但將兵棋推演帶入 21 世紀的壓力也越來越大(Berger,2020 年,2022 年;美國國防科學委員會,2021 年;美國國防部副部長,2015 年;美國政府問責局,2023 年),并利用現代技術進步,如人工智能(Davis & Bracken,2022 年),"從技術和方法兩方面發展當前的兵棋推演范式"(Wong 等人,2019 年)。

雖然美國在大多數領域都享有軍事優勢,但機器學習(ML)的大眾化已開始為競爭對手和其他國家行為體提供無數的破壞機會(Zhang 等人,2020)。因此,比以往任何時候都更有必要積極投資于研究與開發,以建立對人工智能優缺點的扎實基礎理解(Schmidt 等人,2021 年),以及如何將其用于設計、規劃、執行和分析各種目的的兵棋推演。只有這樣,國防部(DOD)才能更好地應對戰略突襲和破壞(Zhang 等人,2020 年)。

然而,兵棋推演和軍事規劃與迄今為止成功利用人工智能的傳統領域--如圖像分類和后勤相關的優化問題--有很大不同。由于戰爭的復雜性,任務分析和規劃通常需要在早期應用直覺和思維啟發法來限制搜索問題的規模(Zhang 等人,2020 年)。雖然啟發式方法確實能讓我們更容易地找到可接受的解決方案,但這些解決方案的可擴展性或可靠性通常不足以評估可能出現的大量突發事件。此外,直覺也不足以解決高度復雜的問題,例如那些涉及許多不同參與者的高維空間以及復雜的武器和傳感器相互作用的問題(Zhang 等人,2020 年)--然而這些復雜性正是可能決定未來戰爭的特征(Narayanan 等人,2021 年)。

雖然不認為人工智能會在可預見的未來取代人類的判斷或決策,但我們確實認為,人工智能在融入決策輔助工具后,有機會加快決策過程并提供新的見解。事實上,如果不能充分利用人工智能的力量,那么當我們深入多域作戰時,就可能會面臨巨大風險(Narayanan 等人,2021 年)。最終,通過利用超人智能體作為人類決策者決策支持工具的基礎,有望在未來戰爭中取得超越對手的決策優勢--加快決策速度,提高決策質量。因此,要想在未來與技術先進的競爭對手的沖突中保持競爭力,就必須加快對兵棋推演人工智能的研究和開發。更重要的是,利用機器學習進行智能作戰行為開發將是有朝一日在這一領域實現超人表現的關鍵。

本文介紹了在擴展人工智能方面的研究方法,以處理兵棋推演中戰斗建模和模擬所特有的復雜而錯綜復雜的狀態空間。雖然研究仍在進行中,而且還不完整,但將在本文中介紹總體方法、初步成果和前進方向。

研究規劃

研究利用 RL 已證明的潛力和 HRL 最近取得的成功,打算進一步提高擴展機器學習的能力,以開發智能體行為,用于戰斗建模和仿真中常見的大型復雜場景。為了實現這一目標,我們打算吸收文獻中的許多見解,同時為這一領域做出我們自己的獨特貢獻。研究主要分為五個研究領域:(1) HRL 訓練框架和作戰單元的智能體架構;(2) 用于智能體決策的多模型框架;(3) 狀態空間的維度不變觀測抽象;(4) HRL 框架的內在獎勵工程;(5) 將此框架實施到高保真作戰模擬中。本文僅關注前三個研究領域。

HRL 訓練框架和智能體架構

首先開發了一個 HRL 訓練框架,通過擴展和吸收 Dayan & Hinton(Dayan & Hinton, 1992)、Vezhnevets 等人(Vezhnevets et al、 2017)、Levy(Levy 等人,2019)、Pope 等人(Pope 等人,2021)、Wang 等人(Wang 等人,2021)、Rood(Rood,2022)和 Li 等人(S. Li 等人,2022)。為了支持這一框架,我們還開發了一種新的智能體架構,由智能體層次結構和決策層次結構組成--每個單獨的智能體都是一個多模型智能體。

如圖 3 所示,"智能體層次結構 "中的每個層次主要對不同數量的下級智能體實施控制,最低層次控制單個實體。為便于說明,我們將這些層級命名為 指揮官、經理和操作員。然而,我們可以把這種層次結構看作從 1 到 n 層的任何深度,其中最低層級為 1,最高層級為 n。只有少數單元的簡單任務可能只需要兩個層級,而涉及多個交互單元的復雜任務可能需要三個或更多層級。由于我們的研究打算考察更復雜的場景,因此我們預計至少需要三個層次。

在這一分層框架內,還制定了決策分層。值得注意的是,盡管在圖 3 中列出了具體的決策,但這只是為了說明問題,并不一定 是決策的最終細分。薩頓等人最初為決策層次概念創造了 "選項 "一詞(薩頓等人,1999 年)。選項是對行動的概括,薩頓等人正式將其用于原始選擇。之前的術語包括宏觀行動、行為、抽象行動和子控制器。在層次結構中表示這一概念時,我們使用了決策一詞。在傳統的 RL 問題中,智能體接受觀察結果,并在固定的時間步輸出一個動作,而在 HRL 問題中,智能體要么被給予背景知識,要么必須發現背景知識,從而以顯式或隱式的方式分解問題(Sammut & Webb,2010 年)。然后,智能體利用這些知識,通過訓練優化未來回報的策略,更高效地解決問題。

分層結構中的多個層次還允許每個層次針對不同的目標和不同的抽象程度進行訓練,從而使擴展到非常復雜的場景成為一個更容易解決的問題。此外,這種分層方法還隱含著對智能體協調與合作的訓練,因為上層控制著下層的總體行為(Wang 等人,2021 年)。除最底層外,層次結構的每一層都可以被視為抽象或認知層(即,它們最初是高層決策,最終將為原始行動提供信息)。只有處于層次結構最底層的智能體才是游戲板上的實際實體,會采取影響環境的離散或原始行動。

圖 4 展示了 HRL 框架。層級結構的指揮官層級接收自己對狀態空間的獨特抽象觀察,并向下一層級輸出子目標和終止條件。在下一級中,管理者接收指揮者的子目標和對狀態空間的不同抽象觀察結果,并輸出其 自己的子目標。最后,在最底層,操作員接收子目標和對狀態空間的抽象本地觀察,并利用我們的多模型智能體框架輸出一個供實體采取的行動。

多模型智能體

為了構建我們的多模型智能體框架,我們借鑒并采用了專家混合(MoE)(Jacobs 等人,1991 年)、"多模型思想家"(Page,2018 年)、集合方法和 RL 的概念。盡管我們從 MoE 和集合文獻中借鑒了采用各種專家網絡的想法,但我們偏離了這些傳統方法提出的中心思想。雖然我們仍然利用了許多不同的模型,但我們并沒有采用純粹的分而治之的方法(Jacobs 等人,1991 年)或模型輸出的匯集(Page,2018 年),而是對模型進行了區分,以確定哪個特定的模型可以在每個行動選擇步驟中最大化智能體的整體性能。換句話說,我們并不是將模型輸出進行組合,而是簡單地將它們作為一個評估函數的輸入,然后由該函數決定在每個步驟中應使用哪個特定的行為模型。集合方法要求建模者考慮模型的偏差或缺陷,而我們的多模型方法則允許我們利用一組不同的模型(腳本模型或機器學習訓練的模型),而無需考慮模型的平衡或驗證。之所以能做到這一點,是因為我們不是將模型預測結合在一起,而是對模型預測進行區分,并采用能最大化特定目標的單一最佳策略。

多模型框架如圖 5 所示。在每個行動選擇步驟中,多模型都會接收一個觀察結果作為輸入,并將其傳遞給每個得分預測模型。每個得分預測模型都會推導出一個預測的游戲得分,并將其輸入評估函數。然后根據評估函數選擇特定的行為模型。最后,原始觀察結果被傳遞給選定的行為模型,由其產生一個動作。

為了提供選擇適當行為模型的評估函數,我們為資源庫中的每個行為模型訓練了一個單獨的分數預測模型。該分數預測模型是一個卷積神經網絡(CNN),可根據當前游戲狀態推斷出游戲分數。預測的游戲得分假定藍方按照各自的行為模型繼續游戲,紅方按照特定的對手行為模型繼續游戲。鑒于 Atlatl 是一款回合制游戲,而非時間步進模擬,我們將棋盤上實體被提示采取某項行動的每個實例都稱為行動選擇步驟。盡管迄今為止,我們一直在使用監督學習方法訓練得分預測模型,并在游戲中使用了 "行動選擇 "模型。數據來訓練得分預測模型,但我們最近開發了一個單獨版本的得分預測模型,并正在對其進行測試。

在實驗中評估了這種多模型方法相對于傳統單模型方法(無論是腳本還是基于 RL 的)的有效性,發現多模型方法比表現最好的單模型提高了 62.6%。此外,我們還發現,由更多模型組成的多模型明顯優于由較少模型組成的多模型,即使這些額外模型的整體性能較差。這表明,即使我們的某些單個模型在總體上表現不佳,但它們很可能在非常特殊的情況下取得了成功--我們的分數預測模型似乎準確地捕捉到了這一現象,而我們的評估函數也正確地用于為每個行動選擇步驟選擇最佳模型。

更重要的是,使用這種方法,不必訓練一個能夠在所有可能情況下都有效執行任務的單一模型,而是可以開發或訓練能夠在特定情況下執行任務的非常專業的模型,然后在遇到這些特定情況(即游戲中的特定狀態)時自動調用這些專業模型。此外,由于我們的多模型可以區分其嵌入的模型,因此我們可以根據需要加入新的模型,而無需考慮行為驗證、平衡甚至偏差等問題--傳統的集合建模方法通常需要將結果匯集在一起。

狀態空間的觀測抽象

即使使用 Atlatl 這樣的簡單環境,將其擴展到更大的場景也會導致性能不佳(Boron,2020;Cannon & Goericke,2020;Rood,2022)。部分原因在于,與人類不同,RL 的樣本效率不高,需要大量的訓練數據(Botvinick 等人,2019 年;Tsividis 等人,2017 年),而龐大的行動和觀察空間則進一步加劇了這一問題。不過,Abel 等人指出,RL 中的抽象可以提高采樣效率(Abel 等人,2020 年),從而有可能讓我們擴展到處理非常復雜的環境。此外,學習和使用適當的世界抽象表征是任何智能體(無論是生物還是人工智能)都必須具備的基本技能(Abel,2020)。

然而,由于抽象本質上會丟棄信息--這可能會損害基于這些抽象所做決策的有效性--我們必須在使學習變得更容易(或可操作)與保留足夠信息以實現最優策略發現之間權衡利弊(Abel,2020)。我們對狀態空間抽象得越多,丟失的信息就越多,就越難保證獲得最優或接近最優的解決方案(L. Li 等人,2016 年)。不過,這也是一種權衡,因為盡管更粗略的抽象可能會導致次優行動,但它們確實可以更好地進行規劃和價值迭代(李玲等人,2016 年)。

為了克服在大型狀態空間中進行訓練時所面臨的一些權衡挑戰,同時保留足夠的信息以找到最優或接近最優的解決方案,我們目前正在開發一種方法,其中包括根據層次結構的級別應用不同級別的抽象。在《模擬與兵棋推演》一書中,Tolk 和 Laderman 討論了 "任務通常會驅動所需的抽象層級"(Turnitsa 等人,2021 年)。同樣,正如我們在軍事規劃中通常看到的那樣,高層次的抽象會更粗,而低層次的抽象會更細(FM 5-0 Planning and Orders Production, 2022;Joint Publication 5-0 Joint Planning, 2020;MCWP 5-10 Marine Corps Planning Process, 2020)。因此,我們的 HRL 框架涉及在較高層次的決策中應用較粗略的抽象層次,同時仍通過本地觀測為較低層次的決策保留所有本地狀態空間信息。我們認為,這種方法將使高層的長期規劃更加有效,并使低層的計劃在當地得到更有效的實時執行。

為了說明這一概念,我們首先描述了一般的 Atlatl 觀測空間。盡管觀察空間在不斷演變,但最近的一個觀察空間由 n x m 網格的 17 個通道組成,其中網格的每個入口代表 n x m 大小棋盤的一個十六進制。這個觀察空間被編碼為張量。圖 6 舉例說明了每個通道所代表的信息。例如,每個通道編碼的信息包括單元移動、單元類型、地形類型等。

圖 7 顯示了一個 20 x 20 棋盤的狀態空間表示示例,其中疊加了三個通道(藍色部隊、紅色部隊、城市六角形)。我們在下面所有圖中疊加了三個通道,僅供參考;但在 Atlatl 中,這些通道將表示為 3 個獨立通道(共 17 個通道),如圖 6 所示。

付費5元查看完整內容

對分布式作戰資產進行最佳管理以實現協同作戰的能力可顯著增強軍事優勢。最近的研究指出,戰爭的速度越來越快,威脅的能力和數量不斷增加,越來越多的傳感器和網絡導致數據超載。面對復雜的決策空間、大量的信息和所需的快速反應時間,人類的決策面臨挑戰。自動化作戰管理輔助系統(BMA)具有縮短時間、提高決策可信度和優化戰爭資源的潛力。本文介紹了為未來海軍和聯合作戰任務構思和設計 BMA 的系統工程方法。系統方法將 BMA 視為管理未來分布式戰爭資產的能力使能因素,將其視為復雜自適應系統簇 (CASoS)。

引言

戰術戰爭是復雜的(Bar-Yam,2004 年)。它需要敏捷、適應性強、具有前瞻性思維、思維敏捷和有效的決策。威脅技術的不斷進步、戰爭節奏的加快、每個戰場情況的獨特性,再加上信息量的增加,而這些信息往往是不完整的,有時甚至是令人震驚的;所有這些因素都導致人類決策者不堪重負(Zhao 等人,2015 年)。自動化 BMA 是解決這種復雜性的一種方法--簡化復雜性,增加理解/知識,并對決策選項進行定量分析。

自動化 BMA 是計算機輔助決策支持系統,旨在加強和改進戰術決策。BMA 可通過以下方式改進決策:加快決策過程;使人們對決策所依據的知識更有信心;制定更多的決策方案;使人們對決策后果有更深入的了解;制定成功概率更大的方案;和/或改進資源使用的優化。軍方目前使用 BMA 共享和處理數據,以開發作戰圖片和態勢感知。不過,本文的重點是構想未來海軍和聯合作戰中的 BMA。

系統方法綜合了分析和合成方法,包括整體論和還原論(Checkland,1993 年)。它強調系統內部各要素之間以及系統與其外部環境之間的相互依存和相互作用(Gharajedaghi,2011 年)。本文提出有必要采用系統方法來構思和設計未來的自動化 BMA。本文首先描述了戰術決策的特點以及未來自動決策輔助工具可能發揮的作用。然后,針對這一復雜的問題空間提出了一種系統方法。

戰斗管理的決策輔助

作為自動 BMA 概念化的準備工作,本節介紹了戰斗管理決策的類型。它討論了如何在軍事戰術環境中使用 BMA 來支持人類決策者。最后,它介紹了 "決策復雜性 "的概念以及 BMA 在管理和解決戰術復雜性方面的作用。

A. 戰斗管理決策

軍事戰術行動涉及大量戰斗管理決策。大多數決策涉及戰爭資產的使用或部署,其中包括平臺(艦艇、飛機、潛艇等)、武器、傳感器、通信設備和人員(Johnson、Green 和 Canfield,2001 年)。圖 1 展示了戰爭決策的四個領域:時間領域、空間領域、主動/被動領域以及規則和政策領域。其中每個領域都會影響決策過程,并可能導致決策復雜度增加。

規劃性或主動性決策包括部隊定位(艦艇、戰斗群、飛機等)、隱形行動、進攻性攻擊,以及通過干擾或其他武力措施阻止敵方行動。反應性或響應性決策的例子包括抵御主動威脅、將平臺移動到防御態勢、從威脅環境中撤退以及評估戰斗損失。有效的戰斗管理必須認識到何時主動或被動決策需要自動支持。

圖1 -戰術決策域

軍事決策的性質會隨著時間的推移而變化,可以被視為分等級的。戰略決策的時間跨度較長,考慮的目標層次較高,有時甚至跨越數年。計劃層面的決策時間跨度較短,即使在安排防御時也是積極主動的。戰術決策是戰斗管理的重點,時間跨度最短,涉及近期規劃或主動決策以及應對敵方行動的被動決策。三個時間決策域之間需要保持一致,以實現戰術、計劃和戰略決策之間的兼容。同樣,計劃和戰略需要支持有效的戰術戰爭,并反映戰術威脅環境的重大變化。自動 BMA 的設計應支持分級決策范式,以及支持和適應不同決策時間跨度的范式。

分層時間決策領域的成果之一是一套指導戰術決策的規則和政策。這些規則是近實時決策與長期計劃和戰略保持一致的方法之一。這些規則和政策支持符合更高目標的有效戰術決策。自動決策輔助工具可支持跨時空和跨層級的動態和適應性決策,以實現各層級之間的一致性;考慮各層級的變化可能會如何影響其他層級;以及跨層級有效發布指導意見。

第四種對作戰管理決策進行分類的方法是按照空間領域進行分類,如太空、空中、海上、水下和陸地。在這些作戰環境中,威脅千差萬別。同樣,作戰系統的開發也是為了應對特定的威脅或威脅類型,這自然反映了其空間環境。海軍戰斗群必須同時應對所有空間領域的威脅。自動化 BMA 有可能通過提高跨空間域態勢感知能力,并通過制定可優先執行任務和交戰策略的備選決策來應對這種復雜性。

最終,隨著作戰行動從和平時期到遭遇多域威脅,作戰管理決策空間也從簡單到復雜不斷變化。影響決策空間復雜性的問題空間變化的例子包括:戰斗節奏(或反應時間)、同時發生的威脅(或戰斗事件)的數量、戰斗事件后果的嚴重性、威脅的異質性(由于威脅類型或空間領域)以及事件或事件的范圍(受影響的地區或人口)。所有這些作戰因素都轉化為構成 "決策空間 "的多維變量。隨著決策空間復雜性的增加,軍事決策者可能會力不從心。此時,自動化 BMA 可以為有效決策提供支持。

B. 支持人類決策的自動輔助工具

由于傳感器、網絡、參與者、回傳和情報的增多,作戰空間的信息量也隨之增加。人類決策者被信息淹沒,決策時間縮短。自動 BMA 是有效戰術決策的必要能力。

如圖 2 所示,自動決策輔助工具或 "機器 "可通過多種方式為人類決策者提供支持。圖中顯示了人機決策互動的三種模式(Johnson、Green 和 Canfield,2001 年)。人工決策模式包括人類在頭腦中收集和 "存儲 "相關信息并進行決策分析(處理和決策)的情況。這種模式意味著一個相當簡單明了的決策空間,其中的數據量和變體數量是可以人工管理的。在半自動化模式中,人類決策者可以依靠機器來管理、存儲、融合和處理輸入信息,從而向人類顯示決策分析結果。決策分析可包括對作戰空間和威脅的了解、行動方案(COA)選項以及對預期事件成功率和后果的定量測量。最后,在全自動模式中,人類的作用是監控自動化機器決策過程,并在必要時推翻或更改決策。

針對決策類型建立適當的機制非常重要。一般來說,當問題空間相對簡單,需要考慮的因素數量和信息量在人類決策者的管理范圍內時,決策可由人工執行。對于某些類型的決策,半自動化的人機界面機制最為合適。這對于具有潛在關鍵或嚴重后果的更復雜決策空間是有效的;需要自動化 BMA 的支持,但需要大量的人工參與。全自動人機交互適用于需要處理和融合大量復雜信息,但決策類型非常簡單的決策空間。全自動決策模式適用于和平時期的行動,在這種情況下,決策不會產生嚴重后果,或者適用于高度復雜的行動,在這種情況下,決策反應時間對人類來說過于緊迫。全自動決策模式適用于對信息和情況了解非常有把握的情況。例如,當高度確信被跟蹤物體實際上是敵方威脅目標時。

圖 2 - 人機決策模型

戰斗管理決策支持系統的未來目標是能夠為給定的決策空間選擇適當的決策模型。也許一個靈活的決策架構可以容納所有三種人機模式,并根據需要加以應用。上層結構本身將對決策空間進行監控,評估需要做出何種決策,然后確定人機之間的適當互動,以做出每項決策。

C. 戰斗管理: 復雜工作

戰斗管理行動十分復雜(Young,2012 年)。如圖 3 所示,戰術環境從和平環境到高度危險的環境都有,來自許多不同方向的威脅多種多樣。這就形成了復雜的戰斗管理決策空間。決策空間的 "狀態 "必須靈活轉變,從正常無威脅行動期間的線性和直接,轉變為作戰行動期間的高度非線性和多變。

圖 3 - 復雜戰術環境中的作戰管理

復雜問題空間的特征包括:復雜的目標、復雜的環境和/或行動;適應性;集體行為;以及決策結果的不可預測性。這些特征都是戰術行動所固有的(Young,2012 年)。戰斗空間呈現出多種目標,這些目標通常不一致且不斷變化。軍事系統必須權衡各自的作戰目標(如自衛)與部隊級任務(可能包括區域防御、隱形作戰或特定資產防御)。由于不利的環境和千差萬別的環境導致目標優先級不斷變化,以及多種跨空間域任務,因此需要復雜的作戰行動。在應對復雜多變的威脅環境時,適應性是作戰系統的必要特征。軍事行動必須有效地適應威脅,以提高生存機會,實現戰術和戰略目標。分布式作戰資產的集體行為必須得到適當的協調,以避免碰撞和友軍誤傷事件的發生;并且最好能從它們的累積貢獻中獲益。最后,戰術決策的結果難以預測,從誤射、錯誤識別到對戰損的錯誤評估,這些不準確的知識和行動漣漪效應以及不可預見的后果使問題空間變得更加復雜。

自動化 BMA 有可能通過描述作戰環境的復雜程度并將這一知識轉化為決策空間,為人類決策者提供支持。理想情況下,完整而準確的作戰空間 "圖像 "將為決策空間提供態勢感知。BMA 可以對 "圖景 "進行監控,并對問題空間的復雜性特征進行評估。這些知識可支持有效、及時地使用決策輔助工具,并使人類決策和機器決策有效地相互作用。

系統性方法

"......只有復雜的系統才能執行復雜的任務(Braha,2006 年)"。

Bar-Yam 寫道:"......高復雜性任務需要一個足夠復雜的系統來完成(Bar-Yam,2004 年)"。戰術軍事行動呈現出高度復雜的環境,轉化為戰爭資產必須執行的復雜任務。本節探討了在軍事行動中實施自動化 BMA 的復雜系統方法,以有效解決戰術問題空間。

上一節從決策的角度描述了作戰管理問題空間的特點;區分了人類決策與自動化決策輔助工具如何支持這些決策;并描述了作戰管理復雜性的特點。本節將介紹一種思考問題空間的方法,作為構思并最終實施系統解決方案的一種手段。

A. 將作戰資產視為資源系統

系統性方法的第一步是從系統角度 "看待 "問題和解決方案空間。對于戰術戰爭而言,首先要將戰爭資產視為資源系統。將資產(如:艦船、飛機、潛艇、武器系統、傳感器、通信設備/網絡和干擾器)定義為系統,就可以將其視為資源,并從其功能、性能、行為、結構和界面等方面加以審視。這樣就能根據它們的位置、狀態和預期能力等特征進行定量分析。隨著作戰行動日趨復雜,當存在多個目標重疊和沖突時,自動化 BMA 可以進行分析,以確定戰爭資源的有效利用。在 BMA 的幫助下,戰爭資源的利用可包括在系統間形成協作,以實現系統的行為和能力,從而更好地應對復雜的戰術任務。圖 4 展示了作為系統之系統的作戰資產網絡化協作。

"多維性可能是系統思維最有力的原則之一。它能夠從對立的趨勢中看到互補關系,并用不可行的部分創造出可行的整體(Gharajedaghi,2011 年)"。通過將作戰空間視為一組相互作用的系統,利用其多維性的能力可支持跨越空間和時間領域的部隊級協作行為。它使分層防御和綜合火力控制戰略成為可能,其中涉及到分布式武器和傳感器。當存在復雜的多維目標時,自動 BMA 可提供定量分析,以確定協作資源的利用情況。

圖 4 - 將作戰資產視為系統資源

B. 全面看待作戰管理

復雜的戰術環境要求從部隊層面以整體視角管理戰爭資源。隨著環境變得越來越復雜,事件發生得越來越快,而且是并行發生。決策數量和所需行動方案的數量都在增加。對有限的戰爭資源提出了更多的要求,其任務、目標和行動方案的相互關聯性也越來越強。從 "整體 "上了解多種威脅和任務,以及應對這些威脅和任務的可能方案和可能后果,就能做出更有效的軍事反應,這可能是有效應對高要求威脅的必要條件。作戰空間視角的概念可被描述為 "決策范圍",或圍繞問題空間和解決方案空間設定邊界。更全面的決策范圍包括一個地區或戰區,以及該地理空間區域內的所有威脅和戰爭資源。較窄的決策范圍可能只包括特定威脅和特定平臺及其相關資產。

確定決策范圍既是限制因素,也是必要的促進因素。隨著作戰環境日趨復雜,戰術決策在因果關系上變得更加相互依賴和 "混亂"(Jackson 和 Keys,1984 年)。當只有一個威脅需要清除或一個區域需要觀察時,做出特定的武器交戰決策或傳感器任務分配決策就比較簡單。然而,如果將決策范圍縮小到發射單一武器系統或管理一艘艦艇上的傳感器,就會在需要處理多個戰術任務或需要優先處理和應對多個威脅時,失去其在部隊層面的整體有效性。在這種情況下,"整體性 "原則適用于決策,包括 "同時和相互依賴地盡可能多地考慮系統的各個部分和層次(杰克遜和凱斯,1984 年)"。換言之,擴大決策空間的范圍,或許可以考慮一個戰術區域或戰區。確定決策范圍本身就是一項決策。我們的目標是設計出支持靈活決策范圍的未來部隊架構,當部隊層面的任務變得更加復雜并可能受益于分布式作戰資產協作時,決策范圍可以擴大。

一旦戰術軍事力量面臨復雜的作戰問題空間,未來的自動化 BMA 就能建立更全面、更廣泛的決策范圍,并支持平臺和部隊層面的資源管理。最終,各種自動化 BMA 可支持不同層面的資源使用。支持特定傳感器和武器的 BMA 可由更高層次的 BMA 架構進行協調。因此,可以實施一個 BMA 系統體系。

C. 將決策空間視為一個系統

決策空間 "可視為一個系統。通過對決策空間采取系統方法,可以定義邊界、輸入和輸出、功能、性能和結構。圖 5 展示了決策空間的背景環境。戰斗空間的知識(或態勢感知)是作為 "問題空間"(或作戰戰術圖)來開發和維護的。它包括跟蹤的威脅目標以及地形、天氣、防御資產和現實世界中的所有其他物理實體。此外,還必須開發和維護 "資源圖",其中包括戰爭資產的最新狀態、健康狀況、戰備狀態和預計能力。問題空間和資源圖景是決策空間的主要輸入。

概念決策空間系統的邊界圍繞決策架構和決策分析,其中包括決策輔助、評估、優先排序、備選方案生成和整體決策管理。決策空間系統的主要功能是開發決策備選方案。這些備選方案為管理戰爭資源資產提供建議。例如,傳感器任務分配、行動方案、武器調度、平臺(艦船、飛機等)移動等。次要功能包括估計與決策備選方案相關的置信度,以及為備選方案提供信息的多種類型的分析。分析實例包括:確定威脅的優先次序、兵棋推演可能產生的后果、估計傳感器誤差、估計知識的準確性和完整性、評估作戰復雜性、推薦最佳的人機決策互動。圖 5 所示的簡化概念沒有說明人機決策空間之間的互動。但在戰術行動中,這種互動將非常重要。

圖 5 - 決策空間的映射

概念決策空間系統的輸出可包括決策備選方案、預測后果估計、成功和失敗的估計概率,以及與源信息、備選方案和一般知識相關的置信度。

D. 解決方案空間:復雜自適應系統簇

在對BMA的系統方法進行概述的過程中,最后一步是對解決方案空間進行概念化。為了能夠對復雜的威脅空間做出戰術反應,解決方案空間包括有效利用分布式戰爭資產/資源。解決方案必須隨著威脅環境的變化而及時改變和調整。有時,進攻行動是最佳選擇;有時,單一平臺即可應對威脅;有時,可能需要并行或串聯多種進攻、防御、協作和自主行動。解決方案空間能夠從簡單操作無縫轉向復雜操作,從而改變其系統狀態的性質,這是一項具有挑戰性的要求。

本文將解決方案空間概念為復雜自適應系統簇(CASoS)(格拉斯,2011 年),其中分布式戰爭資源作為系統的系統進行交互,表現出突發性(部隊級)行為,并適應不斷變化的作戰環境。這類系統是有效解決復雜戰術問題空間所需的解決方案。設計未來戰爭系統使其表現為 CASoS,需要自動化 BMA 的決策架構和解決方案空間,以提供以下三種能力(Johnson,2017 年):

1.自適應關系--自適應智能架構可實現組成系統之間的靈活相互關系,這些系統最終構成一個自適應 SoS,能夠應對不斷變化的復雜環境。

2.由智能組成系統組成的系統--CASoS 的自適應突發行為受分布式組成系統自我管理的支配,這些組成系統可根據復雜情況的需要進行協作或獨立行動。

3.知識發現和預測分析--工程化 CASoS 的關鍵在于獲取和維護有關環境和分布式組成系統的共享態勢知識的能力。對這些知識進行分析,可確定任務的優先次序;制定任務和行動方案(對問題空間的自適應響應);制定 "假設 "和 "如果-那么 "預測方案,以形成未來智能決策和自適應 SoS 關系的綜合體。

決策空間必須支持概念化的 CASoS 解決方案空間。這種復雜應用的決策空間可以看作是一個 BMA 系統,由整體部隊級管理決策輔助工具支持與特定資源或平臺系統相關的低級 BMA 的協調。整體級 BMA 可以管理問題空間信息,并專注于高層次問題,如評估復雜程度、確定決策范圍和建議人機決策互動。所有這些都需要自動化的 BMA、自適應架構、"可執行任務 "的作戰資源以及支持這種系統方法的指揮與控制文化。

結論

總之,作戰管理問題空間是復雜的,而且隨著更多傳感器、更多信息、更多無人威脅、更多非國家對手和技術進步,其復雜性只會繼續增加。要想在這一問題空間中保持領先,就必須構思并最終實現一個復雜的解決方案空間,以促進快速行動和高度響應的戰爭利用。系統方法通過提供整體性、系統視角以及將決策空間定義為一個系統的系統,為解決所需的多維和適應性決策提供了一種方法。它將問題定義為 "CASoS",并強調了對決策架構的需求,這種架構可實現自適應關系、系統級情報、共享知識和預測分析。有效利用自動化 BMA 支持人類決策為 CASoS 解決方案空間奠定了基礎。

參考來源:美國海軍研究生院

付費5元查看完整內容

為計算機生成兵力(CGF)創建行為模型是一項具有挑戰性且耗時的任務,通常需要具備復雜人工智能算法編程方面的專業知識。因此,對于了解應用領域和培訓目標的主題專家來說,很難建立相關的場景并使培訓系統與培訓需求保持同步。近年來,機器學習作為一種為合成智能體建立高級決策模型的方法,已顯示出良好的前景。這類智能體已經能夠在撲克、圍棋和星際爭霸等復雜游戲中擊敗人類冠軍。我們有理由相信,軍事模擬領域也有可能取得類似的成就。然而,為了有效地應用這些技術,必須獲得正確的工具,并了解算法的能力和局限性。

本文討論了深度強化學習的高效應用,這是一種機器學習技術,可讓合成智能體學習如何通過與環境互動來實現目標。我們首先概述了現有的深度強化學習開源框架,以及最新算法的參考實現庫。然后,我們舉例說明如何利用這些資源為旨在支持戰斗機飛行員培訓的計算機生成兵力軟件構建強化學習環境。最后,基于我們在所介紹環境中進行的探索性實驗,我們討論了在空戰訓練系統領域應用強化學習技術的機遇和挑戰,目的是為計算機生成的兵力有效構建高質量的行為模型。

計算機生成兵力的學習環境

在實驗中,將強化學習環境構建為實現 OpenAI Gym 接口的 Python 模塊,因為許多現有的強化學習算法實現都支持該接口。環境的結構如圖 2 所示。環境的大部分功能都在 EnvironmentCore 類中實現。該類通過 SimulationInterface 與本地或遠程計算機上運行的仿真進程通信,在仿真中的實體和控制它們的強化學習智能體之間傳輸觀察結果和操作。SimulationInterface 還用于在計算機生成兵力軟件中加載模擬場景。

模擬與環境模塊之間的通信是通過 ZeroMQ 實現的,ZeroMQ 是一個開源、輕量級的消息傳遞中間件,可綁定多種編程語言,包括 C++ 和 Python。ZeroMQ 可以輕松實現幾種流行的消息傳遞模式,如請求-回復、發布-訂閱和推-拉。ZeroMQ使用谷歌協議緩沖區(Google protocol buffers)來指定消息,這是一種語言中立、平臺中立的結構化數據序列化機制。使用簡單的協議語言創建消息規范,然后將其編譯成各種編程語言(包括 C++ 和 Python)的源代碼。

要配置特定的環境,需要使用一些委托對象:

  • ActionDelegate: ActionDelegate 指定環境的動作空間(OpenAI Gym 中提供的空間定義之一)。在執行過程中,它將該空間中的動作作為輸入,并將其轉換為 ActionRequest 消息,然后由 EnvironmentCore 發送給模擬中的實體。 -ObservationDelegate:指定環境的觀察空間(OpenAI Gym 中提供的空間定義之一)。在執行過程中,它將來自模擬實體的狀態更新信息作為輸入,并將其轉換為來自觀察空間的狀態觀察信息,然后將其呈現給智能體。
  • RewardDelegate:將狀態觀測信息作為輸入,并計算出一個標量獎勵信號,然后將其發送給智能體。
  • ScenarioDelegate:管理要模擬的情景,包括終止標準。對于訓練過程中的每個情節,委托機構都會根據需要調整場景內容,并生成模擬請求(SimulationRequest)消息,由環境核心(EnvironmentCore)發送給模擬。
  • RenderDelegate:會渲染模擬場景當前狀態的視圖。這對調試非常有用。我們使用 Python Matplotlib 和 Basemap 庫實現了簡單的地圖渲染。

空戰仿真領域的深度強化學習

在空戰模擬領域的深度強化學習實驗中,我們發現了一些挑戰,這些挑戰通常不存在于許多強化學習的簡單基準環境中。狀態和行動空間的維度高且復雜,使得智能體難以學習重要的狀態特征和合適的決策策略。例如,在許多場景中,由于傳感器的限制或電子戰的影響,環境只能被部分觀測到。此外,在大多數場景中,智能體不會單獨行動,而是必須與盟友合作,同時與敵人競爭,以達到目標。為了處理長期和短期目標,可能需要在不同的時間尺度上進行決策。代表最重要目標的獎勵通常是延遲的、稀疏的,例如,如果智能體取得了勝利,就會在情景結束時給予獎勵,這樣就很難將功勞歸于正確的行動。此外,根據訓練需要,智能體的目標也有可能在不同的模擬運行中有所不同。例如,我們可能需要調整模擬的難度,以適應受訓者的熟練程度。最后,由于運行高保真模擬的計算成本很高,因此盡可能提高學習過程的樣本效率非常重要。在下面的章節中,我們將討論一些可以用來應對這些挑戰的技術。

付費5元查看完整內容

利用深度強化學習(RL)來優化針對多目標的多車高超音速打擊的武器與目標分配(WTA)策略。目標是在每一集中最大化被摧毀目標的總價值。每個隨機生成的事件都會改變高超音速打擊武器(HSW)和目標的數量和初始條件、目標的價值分布以及 HSW 被攔截的概率。們將此 WTA 策略的性能與使用非線性整數編程(NLIP)推導出的基準 WTA 策略的性能進行了比較,發現 RL WTA 策略的性能接近最優,計算速度提高了 1000 倍,允許實時操作,有利于任務終局的自主決策。

付費5元查看完整內容

強化學習(RL)方法的主要關注點之一是如何將在模擬環境中學到的策略轉移到現實環境中,同時獲得相似的行為和性能(即模擬到現實的可轉移性),這一點在機器人控制器中尤為重要[1]。在過去的幾年里,為了縮小模擬世界與現實世界之間的差距,實現更有效的策略轉移,人們已經跟蹤了多個研究方向。領域隨機化是學習遷移中應用最廣泛的方法之一,它將模型暴露在各種條件下,使模型對這些方面的建模誤差具有魯棒性。隨機化被認為是實現從模擬到真實轉移和一般穩健策略的關鍵[2]。另一種常用的方法是系統識別,它使用具有精確物理和動態系統數學模型的高保真環境。不過,系統識別的缺點是計算量大,因此需要更多時間進行訓練。其他相關方法有零點轉移法和域適應法 [3]。

大多數關于 RL 的研究都集中在使用端到端方法的低級控制器上,其中 RL 網絡將機載傳感器提供的原始信息作為輸入,并將應用于執行器的連續控制動作作為輸出 [4]。然而,這種方法有兩個主要局限性:(i) 它對平臺的配置有很強的依賴性,例如,與傳感器提供的信息及其質量有關,或與推進器等執行器的數量及其配置有關;(ii) 模擬到現實的傳輸差距更難縮小,因為經過訓練的策略會受到機器人平臺動態的強烈影響。例如,在文獻[5]中,作者在真實飛行器中使用了第二個訓練過程,學習過程繼續在線進行。在文獻[6]中,控制器需要進行額外的調整,以彌補模擬與真實世界之間的差異,但即便如此,現場結果仍顯示出較低的性能。

在本研究中,我們介紹了一種平臺便攜式深度強化學習方法,該方法已被用作自主車輛定位水下物體的路徑規劃系統,如圖 1 所示。我們設計了一個高級控制系統,以減少上述問題,并具有強大的模擬到實際的傳輸能力。此外,我們的方法易于配置,可在不同平臺和不同條件下部署。例如,訓練有素的智能體已成功部署在兩種不同的飛行器上: (i) 液體機器人公司(Liquid Robotics,美國)的自主水面飛行器(ASV)"波浪滑翔機";以及 (ii) IQUA 機器人公司(IQUA Robotics,西班牙)的自主水下飛行器(AUV)"Sparus II"。測試在加利福尼亞州蒙特雷灣和西班牙加泰羅尼亞 Sant Feliu de Gu?xols 港口進行。在這兩種情況下,飛行器都使用了僅測距的目標跟蹤方法來定位錨定的應答器[7]。

圖 1:制導、導航和控制系統,以及與制導相關的一些主要研究方向。用粗體字表示詳細描述的方面。

付費5元查看完整內容

在過去的幾年里,人工智能(AI)系統的能力急劇增加,同時帶來了新的風險和潛在利益。在軍事方面,這些被討論為新一代 "自主"武器系統的助推器以及未來 "超戰爭 "的相關概念。特別是在德國,這些想法在社會和政治中面臨著有爭議的討論。由于人工智能在世界范圍內越來越多地應用于一些敏感領域,如國防領域,因此在這個問題上的國際禁令或具有法律約束力的文書是不現實的。

在決定具體政策之前,必須對這項技術的風險和好處有一個共同的理解,包括重申基本的道德和原則。致命力量的應用必須由人指揮和控制,因為只有人可以負責任。德國聯邦國防軍意識到需要應對這些發展,以便能夠履行其憲法規定的使命,即在未來的所有情況下保衛國家,并對抗采用這種系統的對手,按照其發展計劃行事。因此,迫切需要制定概念和具有法律約束力的法規,以便在獲得利益的同時控制風險。

本立場文件解釋了弗勞恩霍夫VVS對當前技術狀況的看法,探討了利益和風險,并提出了一個可解釋和可控制的人工智能的框架概念。確定并討論了實施所提出的概念所需的部分研究課題,概述了通往可信賴的人工智能和未來負責任地使用這些系統的途徑。遵循參考架構的概念和規定的實施是基于人工智能的武器系統可接受性的關鍵推動因素,是接受的前提條件。

付費5元查看完整內容

模擬真實的人類行為,包括決策和創造力,是戰斗模擬中最難和最復雜的挑戰。行為樹(BTs)是一種相對較新的、越來越流行的為人工智能(AI)和智能代理開發行為模型的方法。這種方法在為計算機游戲中的非玩家角色(NPC)、機器人和自動駕駛汽車創建行為模型方面變得特別流行。

BTs被表示為具有控制流節點和任務節點的層次結構的有向樹,這些節點控制著一個代理的行為。使得BT如此強大的原因是其可組合性和模塊化。任務節點和控制流節點被組成子樹,代表更復雜的行動,這些行動可以被組成更高級別的行為。

在本文中,我們將根據現有文獻對BTs進行介紹,并討論在戰斗模擬中采用這種建模技術為計算機生成的部隊(CGF)創建行為模型的可能性和局限性。此外,我們將給出一個具體的例子,說明如何從戰斗演習的文本描述中創建一個BT,并提供如何創建BT的一般技巧和竅門。最后,我們將總結我們在BT方面的工作經驗。

付費5元查看完整內容

分析性游戲以研究為目的探索一個問題或一個領域。為了研究分析性游戲設計、執行和使用的改進,大量的研究正在進行。此外,許多領域的技術快速發展,如人工智能和虛擬現實,使得說明這些新能力的優勢和限制變得更加引人注目。在游戲設計中,數字手段的使用往往被視為一個單純的技術因素,與平臺選擇、主持人支持和數據記錄過程有關。在這項工作中,我們建議轉變視角,從以技術為導向的設計選擇標準轉向對設計選擇的更廣泛評估。事實上,技術的引入(即自動化和自主化)不會導致任務的替代,而是會內在地改變游戲環境。這項工作引入了一個框架,為分析性游戲的不同設計階段中需要考慮的方面提供了結構化的指導,包括采用自動化和自主性的潛在影響。提出的方法是基于以前在基于模擬的嚴肅游戲、模型驅動工程和人因工程領域的研究。該框架被應用于一個知識獲取分析游戲作為案例研究。

關鍵詞:嚴肅游戲,分析性游戲,知識獲取,設計框架,模型驅動工程,人因工程

1 引言

嚴肅游戲的第一個定義出現在[1]中,指的是用于改善教育的游戲。隨著時間的推移,其他幾個定義也被提出來了[2],這些定義將其確定為主要目的不是娛樂的游戲。盡管嚴肅游戲領域的大多數研究都集中在學習游戲上[3],但它們也可以為其他目的服務。例如,在嚴肅游戲的游戲性/目的/范圍(G/P/S)分類法[4]中,目的維度允許根據游戲的功能進行分類,即信息廣播、培訓或數據交換。數據交換游戲的具體目的是 "從[...]玩家那里收集信息"[4]。一些作者泛指以收集數據為目的而設計的游戲[4],而另一些作者則根據收集這些數據的具體目的(例如,為了實驗、研究或操作目的)來區分游戲[5]。按照[6],我們將使用分析性游戲這一術語來表示具有實驗或研究目的的游戲。因此,分析性游戲可以被納入數據交換嚴肅游戲的范疇。像其他嚴肅游戲一樣,分析性游戲使用模擬作為一種手段,使玩家沉浸在模擬環境中[7],在不同的抽象層次上模仿參考系統。參與者有一個特定的角色,需要評估情況,發現未知的東西,并運用他們的知識和技能來解決情況所帶來的問題。分析性游戲的主要目的是研究參與游戲的過程(如認知、行為和身體)。分析性游戲的一個具體類別是知識獲取分析性游戲(K2AGs)[8],它支持知識工程和知識獲取(KA)的決策支持和認知系統設計。知識獲取技術的目的是收集、構建和組織專家知識。這些技術有幾個缺點,如時間效率低下,有偏見和無法獲得隱性知識(例如,[9])。為了克服這些限制,知識工程領域正在探索使用游戲(例如,[10])。具體來說,K2AGs研究決策,重點是信息處理策略、不確定推理和決策周期(即情境評估、情境意識和決策[11])。游戲設計在游戲科學研究中得到了廣泛的討論,但大多數工作都集中在游戲工件本身的設計上[12]。最近,研究認識到需要考慮不同層次的設計,即游戲工件的設計和與它試圖告知或支持的社會技術系統問題有關的游戲設計[12]。為了給分析性游戲的設計者和使用者提供一個結構化的指導,在本文中,我們提出了一個設計框架,它建立在[13]在基于模擬的嚴肅游戲的背景下提出的方法之上,并且補充了K2AG設計形式化的工作,它側重于游戲工件[14]。具體來說,建議的解決方案旨在更好地將技術和非技術的游戲設計決策正規化,包括超越單純的游戲平臺的方面。事實上,我們建議明確說明與自動化和自主性(A&A)有關的方面。自動化是指 "通過[......]自動手段操作或控制一個過程的技術、方法或系統,如通過電子設備,將人類的干預減少到最低限度"[15],而自主性是指機器(硬件和軟件)在重要的不確定條件下長時間獨立執行而不需要外部干預的能力[16]。A&A代表的能力可能會提供有趣的機會,并可能大大支持分析性游戲。例如,玩家在空間(即分布式游戲)和時間上不在同一地點的分析性游戲,具有非常復雜的裁決需求的游戲或非游戲角色(如部隊或對手)可能有用的游戲。在過去的幾十年里,自動化和后來的自主性的好處已經被探索和明確討論(即[17])。然而,如果在設計階段沒有正確解決人與系統整合的因素,它們在游戲中的使用可能會對收集的數據的質量產生負面影響。事實上,它也被證明了它們的引入意味著性能、工作量和情景意識之間的權衡(即,[18])。在分析性游戲中引入A&A將從本質上改變游戲環境。這可能會影響人類(如玩家和主持人)與這種環境的互動方式以及分析中的決策過程。為了建立對該問題的共同理解,并為分析性游戲的初步設計選擇中需要考慮的方面提供初步指導,在整個框架中包括了自動化和自主性采用的評估方法。了解這些方面將有力地促進所采用的嚴肅游戲的科學嚴謹性,通過促進負責任地和適當地使用現有技術來進一步開發分析游戲的能力。事實上,這將有助于做出明智的設計決策。建議的框架建立在數十年來在人的因素和認知工程領域進行的研究之上。我們希望這項工作不僅可以作為設計的指南,也可以作為嚴肅游戲社區進一步研究的指南,同時也可以作為通往其他科學領域的橋梁。

本文的其余部分組織如下。第2節提供了嚴肅游戲在工程實踐中的使用和游戲設計形式化的一些背景;第3節討論了A&A和嚴肅游戲;第4節提出了擬議的設計周期,并總結了與分析性游戲相關的人因和認知工程的研究;第5節展示了設計框架在K2AGs中的應用案例;第6節報告了結論

付費5元查看完整內容
北京阿比特科技有限公司