本報告描述了Draper團隊作為DARPA能力感知機器學習（CAML）項目的一部分，根據HR0011-20-C-0032號合同所開展的研究。Draper與分包商UT Austin、ASU和CU Boulder合作，開發了ALPACA（能力感知的概率和抽象自主學習），這是一個能力感知自主智能體的一般框架，特別是那些基于強化學習（RL）的智能體。ALPACA提供了對RL智能體能力的洞察力，并使用戶能夠檢查和約束智能體行為，促進與人類隊友建立信任，并極大地提高現實世界應用的安全性。

一個支持ALPACA的自主智能體可以：

用自然語言交流其任務策略和預期性能
識別影響其行為的（可觀察和隱藏的）條件
評估其在特定情況下的行為和任務結果
量化其信心，包括對其任務表現和能力評估的信心
當它的能力發生變化或可能突破能力界限時，更新用戶。
調整其行為以更好地保持性能并符合用戶期望

ALPACA通過兩種方式進行能力交流：

1.一般能力聲明描述了以前觀察到的智能體的策略、性能和行為狀況。

2.具體的能力評估預測智能體在特定場景下的策略和表現，包括任務前和在線的情況。這些評估對用戶的興趣有反應，可以解決新的場景，并且可以在線更新。

為了實現DARPA CAML計劃的目標，Draper ALPACA團隊開發了以下關鍵技術進展：

通過對程序生成的人類可理解的特征（包括直接觀察到的和隱藏的）進行決策樹學習，進行條件識別。實現了DARPA的覆蓋要求。
基于在抽象和分割的軌跡數據上推斷的時間邏輯的結構化語言策略。達到DARPA的正確性要求。
基于遞歸深度生成模型的概率世界模型（PWMs），能夠準確預測長時間范圍內的代理狀態，同時量化無誤差和認識性不確定性。實現了DARPA的保真度要求。
事件觸發的在線結果評估，利用PWM來實時評估和重新評估智能體在特定場景中的能力。實現了DARPA的可靠性要求。

Draper ALPACA團隊在兩個基于模擬的RL應用系統上研究、演示和評估了這些進展：推土機機器人操縱任務和多變天氣下的無人機飛行任務。內部和第三方的核查和驗證表明，該團隊能夠實現DARPA為CAML項目制定的所有目標指標。

付費5元查看完整內容

引言

卷積神經網絡（CNN）等深度神經網絡（DNN）實現了深度學習。它們具有多層非線性特征轉換，每增加一層就能提取出越來越好的特征。然而，訓練一個大型 DNN 并在這樣的網絡上執行推理需要耗費大量的時間和精力。對于大型語言模型（LLM）和生成式對抗網絡（GAN）等大型深度網絡來說，訓練成本很高。由于小型人工智能物聯網（AIoT）設備在處理能力、內存占用和功耗預算方面存在嚴格的資源限制，因此在這些設備上進行訓練和推理更具挑戰性。有必要共同設計算法、模型和硬件參數，以便在這些嵌入式設備上執行高效的訓練和推理。在為嵌入式設備訓練復雜的深度模型時，并行處理、管理內存訪問時間表和利用數據稀疏性等高級計算技術至關重要。

本項目旨在針對嵌入式深度學習和推理中的關鍵挑戰開展廣泛研究。例如，我們探索了嵌入式深度學習與基于并行和分布式計算的高級計算之間的相互作用。該項目利用了 PI 在相關領域的經驗，包括他早期在系統陣列以及分布式和嵌入式神經網絡架構方面的工作。我們將在本報告的其余部分重點介紹我們已發表的部分成果。

付費5元查看完整內容

AI與軍事 · 少標簽數據學習 · 美國空軍研究實驗室（AFRL） ·

2023 年 5 月 10 日

[付費5元查看完整內容]DARPA項目總結報告《少標簽學習》2023最新51頁技術報告，美國空軍研究實驗室

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖1：GAN Turk假標簽和GAN Turk合成系統圖

這份最終報告記錄了在DARPA的“少標簽學習” (LwLL)項目過程中進行的一系列調查。專注于圖像分類的領域適應和目標檢測的地理空間應用。探索了生成建模技術，包括新穎的GAN Turk方法，以及主動學習，以減少圖像分類的標簽要求。還研究了使用GAN Turk、一致性正則化和自我訓練來進行地理空間數據集的目標檢測。發現：

使用生成模型來進行圖像翻譯的領域適應性對領域配對和生成對抗網絡（GAN）模型訓練的不穩定性很敏感
理想的主動學習方法很難預先選擇，而且不同數據集的選擇也不同
自我訓練和一致性正則化是半監督學習的一對有希望的技術。

評估了幾種用于圖像分類和物體檢測的生成式建模技術。評估了CycleGAN、CUT和我們自己的GAN Turk方法的兩次迭代，該方法受到CycleGAN的啟發。

作為第一年評估的一部分，還考慮了主動學習，并提交了一個coreset主動學習組件作為評估的一部分。coreset方法是在與基于熵的選擇方法和其他抽樣方法進行比較后選擇的，除了其以特征距離為動機的設計外，還基于公開和內部結果。然而，內部結果和評估結果顯示它不是一個可靠的方法。

自我訓練和一致性正則化的結合是在這個項目中研究的最有希望的方法。研究了STAC方法作為第三年評估的目標檢測系統。內部結果顯示，這兩種技術的結合可以用于合成到真實領域的適應性，也可以更普遍地用于地理空間應用。此外，還表明，在地理空間數據集中，為一致性正則化而對空圖像進行偽標簽的做法對STAC產生了好處。在第三年的評估中，假標簽空圖像的顯著優勢未能得到測試，因為這些數據集不包含任何圖像，即所有的圖像至少包含一個感興趣的目標。

作為項目要求的一部分，參加了年度獨立的第三方評估，并在第3.6至3.8節中記錄了這些結果。在評估過程中，主要挑戰之一是計算預算。提交的GAN Turk和STAC系統需要比基線方法多得多的計算。因此，這些方法學在每個評估任務中只提交了幾個檢查點。

在第4節中，記錄了我們的軟件可交付成果，并對軟件架構進行了簡要概述。還提供了Docker鏡像的配置，以打包系統進行評估。

總的來說，團隊為政府的知識庫做出了貢獻，即哪些方法對少許標簽的學習有希望，哪些沒有。這種探索是使用合理的科學方法和精心控制的實驗進行的，旨在對各種方法進行無偏見的評估。本報告總結了在整個LwLL計劃中的主要發現，并強調了認為有希望的幾個領域，以及根據我們在這個基礎研究計劃中收集到的證據，不建議追求的其他領域。

付費5元查看完整內容

AI與軍事 · 人類系統集成（HSI） · 美國陸軍研究實驗室（ARL） ·

2022 年 12 月 12 日

[付費5元查看完整內容]《人類系統集成 (HSI) 度量貿易空間探索環境 (HMTee) 》美陸軍研究實驗室2022最新36頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人類-系統集成（HSI）度量貿易空間探索環境（HMTee）是一個方便的R Shiny應用程序，用于人類因素和HSI分析問題。它構成了確定相關HSI因素的定量準則和指標的數字參考，使從業人員能夠將分析結果可視化，并為決策者提供性能模擬的視覺證據。它允許分析員、研究人員或從業人員探索和記錄假設、參數和性能指標，并隨后在相互競爭的因素之間進行權衡。

本報告旨在為開發人員或其他具有技術專長的人提供技術文件，以了解HMTee的實施情況，并將其他軟件或HSI模型與HMTee的功能相結合。本指南包括對技術方法的概述，對與HMTee集成的模型所需組件的描述（即HMTee應用編程接口[API]），以及將與該工具集成的示范模型的文檔。本指南是美國陸軍作戰能力發展司令部（DEVCOM）分析中心的另一份報告的配套文件，該報告被稱為DAC，即HSI公制貿易空間探索環境（HMTee）。整合人類系統性能量化模型的范式（Garneau，2022）。本指南打算定期更新，并將最新版本與軟件分發一起維護。

付費5元查看完整內容

AI與軍事 · 終身學習 · 美國國防高級研究計劃局（DARPA） ·

2022 年 11 月 7 日

[付費5元查看完整內容]【DARPA終身學習機器（L2M）計劃】《終身學習衡量標準》約翰霍普金斯大學應用物理實驗室2022最新23頁論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

引言

DARPA終身學習機器（L2M）計劃旨在推動人工智能（AI）系統的發展，使其能夠不斷學習（和改進），利用一項任務的數據來提高另一項任務的性能，并以一種計算上可持續的方式做到這一點。該計劃的參與者開發了能夠執行各種功能的系統，包括自動駕駛、實時戰略和無人機模擬。這些系統具有不同的特點（例如，任務結構、生命周期），該計劃的測試和評估團隊面臨的直接挑戰是衡量這些不同環境下的系統性能。本文件是與DARPA和項目執行者緊密合作開發的，概述了構建和描述執行終身學習方案的代理性能的形式主義。

在第2節，我們介紹了終身學習情景的一般形式。這需要指定智能體可能接觸到的不同類型的經驗，以及應該從這些經驗中產生什么指標。在第2.1節中，我們簡要地概述了智能體展示終身學習的標準。在第3節中，我們定義了一套衡量標準，以描述智能體在特定場景下表現出的終身學習的程度。諸如[4, 7, 24]等資料中的討論也有助于為終身學習背后的思想打下基礎。

我們的框架和指標是為了盡可能不受智能體配置（如漸進式網絡[21]或彈性權重整合[11]）、領域（如自主導航、機器人、戰略、分類）和環境（如StarCraft[25]、AirSim[23]、CARLA[2]、Habitat[14]、Arcade[1]、SplitMNIST[7]或Core50[12]）影響。它也可以與終身學習的平臺結合使用，如Avalanche [13] 或 CORA [19]。

智能體、領域、環境和其他術語在附錄C中有更詳細的定義。我們推薦[18]作為終身學習一般領域的最新方法和進展的概述。從歷史上看，在如何定義和評估終身學習的系統和指標方面存在著很大的差異；不同的論文可能關注不同的指標。除了這里引用的那些論文之外，還有許多其他的論文以正向轉移等概念為論據來激勵其系統設計。本文提供了一套適用于一般終身學習問題的、定義一致的衡量標準。特別是，盡管終身學習領域的許多早期工作都集中在減輕災難性遺忘的問題上[5]，[15]--一個代理在遇到新任務時失去了以前獲得的執行任務的能力--但我們這里的度量標準努力捕捉災難性遺忘和終身學習的其他特征，如轉移和與只接觸單一任務的代理比較。

一個包含這些指標實現的Python庫12metrics正在開發中，不久將公開發布。本文件將在開發完成后予以更新。

這份文件是如何制定的

在DARPA L2M項目的過程中，執行者、測試和評估團隊以及DARPA系統工程和技術顧問（SETA）組成了幾個工作組，定期開會討論終身學習背后的概念和特征的衡量標準。本文件記錄了這些討論后達成的共識，其內容只有在這個過程中的密切協作下才能形成。特別是，定義和情景工作組提出了終身學習的標準（第2.1節）以及任務和環境（第2節）等概念，度量工作組制定了度量標準（第3節），在項目評估期間和之后，執行者根據他們在系統中的使用經驗，對定義和度量標準進行了反饋。

圖 2：AirSim 和 L2StarCraft 等環境定義了性能指標。其中一些子集被視為特定于應用程序的指標（第 2.3 節），用于計算終身學習指標（第 3 節）。

付費5元查看完整內容

AI與軍事 · 人機協作 · 軍事自主系統 · 蘭德公司 · 澳大利亞皇家海軍 ·

2022 年 9 月 6 日

[付費5元查看完整內容]智庫蘭德《支持澳大利亞皇家海軍的機器人和自主系統戰略——推動人機協作和培養未來勞動力》最新46頁報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

研究問題

RAS-AI，更具體地說，人機協作（HMT）對皇家海軍的未來勞動力有什么影響？

澳大利亞皇家海軍（RAN）正在對其部隊進行現代化改造，以更好地應對澳大利亞在印度-太平洋地區面臨的日益增長的挑戰。本報告概述了機器人、自主系統和人工智能（RAS-AI）對國防人員的各種影響，為皇家海軍正在進行的促進RAS-AI整合的工作提供參考。

作者對相關的公開來源的學術和灰色文獻進行了審查，重點是為RAN確定可能的教訓。分析集中在RAS-AI對國防勞動力和技能的總體影響上，特別關注人機協作（HMT）對國防勞動力的影響。

研究結果強調了有效采用HMT所需的根本性的不同和新穎的工作方式。將HMT納入勞動力隊伍需要對復雜的人員網絡進行靈活管理，并不斷調整現有結構和概念。

本報告是為支持2020年發布的RAN的RAS-AI戰略2040而進行的工作的延續。蘭德公司被要求提供政策分析和建議，以支持制定一個可操作的RAS-AI運動計劃，協助RAS-AI的實施工作。研究小組已經研究了三個具體領域，以支持制定一個可操作的計劃：軍事創新，海上RAS-AI的任務和技術評估，以及HMT。這項工作應該為皇家海軍、澳大利亞其他國防部門和國防部更廣泛地了解HMT對皇家海軍未來員工隊伍的影響。

研究成果

在RAN中實現HMT的正常化將需要對國防人員進行靈活的管理，并不斷調整現有的結構和概念。
HMT需要在認知方面進行轉變，就像培訓和感知一樣。
HMT的目標是優化互動，發揮人和機器的優勢。
HMT包含了廣泛而復雜的問題，無法將其歸類為一個不可避免的原則、活動和資源的清單。
了解和考慮人機互動（HMI）的范圍是不可或缺的。
新技術的發展應該與實際問題/需求相一致。
人機交互所需的技能/屬性可能在傳統上并不被國防部所重視。
組織學習必須被接受，以提供這種挑戰性的能力。
HMT不僅應該作為一種有效的軍事作戰能力，而且還應該作為一種同步的訓練能力來利用。
HMT的成功需要在整個員工隊伍中得到顯著提升。
HMT需要識別人類和機器的長處和短處，并利用優勢，使其大于各部分之和。
HMT的重點應該是要解決的問題，適當的比例和HMI的模式，以及找到努力回報的最佳點。
RAS-AI的性能必須使它們在使用它們的人中灌輸一種信任、安全和可靠的感覺。
從設計的那一刻起，就必須主動關注HMT范式的概念和道德的復雜性。

付費5元查看完整內容

AI與軍事 · 博弈論 · 決策動力學 · 人工智能 · 報告 ·

2022 年 7 月 6 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本報告描述了2021財年美國陸軍作戰能力發展司令部（DEVCOM）陸軍研究實驗室（ARL）未來風險項目 "決策動力學、欺騙和博弈論"的研究工作。為了提高指揮和控制多域作戰的決策輔助工具的有效性，有必要開發能夠協助復雜決策的人工智能（AI）工具。該項目開發了一個人工智能測試平臺--ARL戰斗空間（ARL Battlespace），用于創建和研究復雜推理的人工智能決策輔助工具。ARL Battlespace是一個由友好和敵對的人類和人工智能Agent組成的多人網絡兵棋推演工具。分層貝葉斯模型的初步結果說明，在具有不確定性、欺騙和博弈論的情況下，具有復雜推理功能的人工智能多學科發展框架具有潛力。該項目還開始開發一個基于與戰場可視化和交互平臺以及高性能計算持久服務框架的潛在集成的人機協作決策框架。這些成果為改善人-人工智能團隊的復雜決策和協作能力開啟了研究的大門。

1. 簡介

作為美國防部人工智能（AI）戰略的一部分，美國陸軍作戰能力發展司令部（DEVCOM）陸軍研究實驗室（ARL）正在開發基于人類系統適應戰略的研究項目和技術，包括開發基于人-AI團隊決策和相互適應的超人能力的目標。這些新能力對于解決陸軍的多域作戰（MDO）戰略是必要的，特別是其滲透和分解階段，在此期間，人工智能輔助決策可以增強指揮官處理高速和大量信息以及地面、海上、空中、太空和網絡領域的復雜動態的能力。一個關鍵的挑戰是，現有的人工智能算法，對于復雜的決策來說是遠遠不夠的，而且對MDO相關場景的概括能力有限。另一個挑戰是，現有的陸軍理論和決策支持程序沒有將人工智能納入軍事決策過程（MDMP），而陸軍的自動規劃框架（APF）剛剛開始解決這一差距。此外，現有的人-人工智能編隊決策理論和技術僅限于簡單的決策，為復雜的深度決策在提供人工智能透明度方面非常有限，在這種情況下，多種依賴性、不確定性以及信息領域和行為者與復雜的人類、物資和環境動態相交。它們與人類專家的隱性推理協同工作的能力也很有限。發展這些能力需要一個綜合的、多學科的研究方法，包括為新的人工智能研究和人類與人工智能的編隊協作開發人工智能試驗基地。

對于兵棋推演，有必要開發能夠模擬包括戰術和戰略層面在內的多個梯隊的決策測試平臺。現有的兵棋推演決策工具，如Opsim、AFSIM和OneSAF，可以在多個規模上對許多因素進行建模和模擬，以預測基于戰略、物資能力和資源的結果，但它們受到老化系統的限制，有經驗的士兵可能難以學習，也不太適合開發人工智能和人類+人工智能編隊協作的能力。最近，人工智能能力的快速上升為開發和納入新型人工智能作為兵棋推演的決策輔助工具打開了研究的大門。最近人工智能推理的改進（例如，基于深度強化學習）是基于環境狀態完全已知的“開放”游戲（例如，跳棋、國際象棋和圍棋），它們是基于有限的合作性或欺騙性。即使在有額外復雜性的情況下，如環境的不確定性（憤怒的小鳥、雅達利），決策的復雜性、靈活性和對多人兵棋推演的可轉移性也是有限的（如撲克、Minecraft、星際爭霸[圖1]）。盡管這些模型可以深入探索決策，但它們只限于選擇結果的潛在價值可以很容易測量和量化的條件。兵棋推演環境給人工智能學習帶來了困難和未解決的挑戰，因為有許多信息不確定性的來源，不僅來自環境，也來自人類和人工智能Agent。人工智能需要適應不斷變化的規則和戰略，迅速減輕出乎意料的敵方能力，并利用新的機會和友好的能力。人工智能還需要與他們的人類隊友相互適應，他們需要有默契的推理能力來與人類專家協同工作，并補償個人的偏見和啟發式方法以及變化的認知狀態。與博弈論等經典方法不同的是，未來狀態的預期效用可以根據合作或不合作的選擇對有限的行動集進行明確的量化，兵棋推演提出了跨環境和社會動態（包括合作性和欺騙性）以及跨多個時空尺度和領域的相互作用的可能性，這使人工智能學習決策如何與未來狀態價值相聯系的能力受到影響。

圖1 ARL在更廣泛的人工智能研究戰略中的Battlespace平臺

解決這一差距需要持續的基礎研究工作，實驗的重點是為決策中的具體問題發現原則和開發新的算法，并有能力將這些原則和算法與MDO的兵棋推演聯系起來。例如，在具有不完善的知識和不確定性的復雜情況下，提供接近最佳解決方案的人工智能可能比提供單一的"最佳"解決方案更有幫助。這種解決問題的方式與人工智能的透明度也需要探討。對近乎最優和不確定性等條件進行實驗，并采用新的作戰人員機器界面（WMIs），可以產生新的算法、通用工具和原則，更好地協同人類和人工智能對復雜決策的探索。

1.1 軍隊的相關性和問題領域

陸軍戰略科技（S&T）計劃的一部分是為 "超人類"的決策和行動開發能力。對于科技計劃中的"人-系統適應"部分，預期的結果是將人類特有的能力和機器的新興能力結合起來，最大限度地提高速度和選擇，以有效應對2035年及以后的社會技術環境的復雜性、智能化和動態性。預計這些研究工作將為人類引導的機器適應、訓練精通技術的士兵、混合人機思維、以及下一代人類系統集成和系統級分析創造新的能力。由于戰爭正在快速變化，包括不斷的技術變化，實現這樣的能力需要制定一個研究計劃，以推進人工智能、人類與人工智能的合作，專門用于復雜的決策。

作為DEVCOM陸軍研究實驗室未來風險投資（DFV）計劃的一部分，這個項目的目標是開發一個跨學科的計劃，以解決人工智能決策的復雜性和人類-人工智能團隊決策中的差距。這包括開發一個人工智能研究測試平臺--ARL戰斗空間，將復雜的兵棋推演決策抽象為關鍵要素，以便人工智能和人類-人工智能團隊的發展可以專門關注復雜的決策過程本身，同時避免物理現實主義和當今材料和理論的計算和概念限制。這也包括為如何發展人類-人工智能協作決策創造新的概念，了解如何塑造信息流以實現人類-人工智能決策的相互透明，以及在人類和人工智能都難以篩選出不確定性和欺騙的條件下實現相互適應性學習。顯性和隱性的決策框架都需要通過這個抽象的兵棋推演測試平臺來實現，以便人工智能可以在多個推理層次上學習和接受挑戰。還需要一個適當的抽象水平，以使多種類型的研究，包括神經科學、人工智能和決策理論交叉的學術研究，以提高人工智能決策的能力和復雜性，并改善其在軍事方面的轉化。

1.2 長期目標

根據設想，在2035年及以后的陸軍中，指揮與控制（C2）決策將由決策輔助系統來激活，該系統利用分布在多個梯隊的人工智能能力，并以復雜和快速的方式攝取所有領域的數據，這將使沒有輔助的士兵感到不知所措。啟用人工智能的決策輔助工具將能夠對戰斗空間進行前沿模擬和分布式訓練；在MDO的滲透和解除整合階段，能夠對條件、友軍和敵軍戰略以及能力變化的可能影響進行調整和前瞻預測；并能夠對關鍵決策進行事后審查。人工智能將為其決策提供透明度，使真實和抽象的決策空間互動可視化，并根據陸軍理論和未來理論的要求，對士兵的個體化和情境進行優化。相反，人工智能將與士兵共同適應，學習如何在信息不足、沖突或欺騙的情況下做出復雜的決定，并為有效的團隊決策重新塑造、完善和展示信息。有了人工智能Agent作為數據有效轉化和行動化以及利用顯性和隱性知識的合作伙伴，預計分布式C2指揮官將能夠在MDO的許多時空尺度和維度上共同制定和協調行動方案，并且戰術和戰略的跨領域互動將被向前模擬，對環境、人和戰略的動態有更強的彈性。除了增加復雜決策的能力外，預計決策過程本身將通過消除繁瑣的計算和其他延遲而加速，從而使計劃和戰略能夠比實時更快適應不斷變化的戰場和外部（如外交、經濟）因素。

為了實現這一未來，為復雜決策開發新型人工智能的計劃的長期目標是利用多個學科的持續進步。用于推理的"核心人工智能"的發展，在為簡單決策迅速取得進展的同時，需要持續的協同創新，以及來自神經科學和心理學等領域的研究，以便在獎勵難以分配給具體事件或行動的條件下（例如，因為不清楚以何種程度的確定性將獎勵的原因歸于誰、什么、何時、何地或為何），為強化學習開發新型理論。需要機械層面的理論（例如，神經膠質網絡如何支持將不同的事件與獎勵聯系起來）和更高層次的理論（例如，社會規則如何塑造學習）來彌補目前核心人工智能的有限能力和C2決策的需求之間的差距。還需要協同創新和研究，將人工智能的發展與士兵的隱性推理過程相結合，以實現元學習和元推理的決策互動。

1.3 DFV項目的目標

ARL DFV項目是一種機制，旨在促進跨學科基礎和應用研究的新方向，解決研究差距，并為軍隊的任務創造新的能力。DEVCOM ARL研究員認為分析科學是一個需要能力的領域，具有高回報的潛力，需要對現有項目進行重新規劃和擴展，并需要新的項目來建立新的核心能力和建立內部的專業知識。

為了創造這些能力，這個DFV項目的主要目標是建立一個新的研究項目，為C2決策輔助工具的復雜推理開發新型人工智能。這包括開發一個人工智能測試平臺：ARL Battlespace，以便靈活地開發專門用于MDO C2決策的復雜推理的新型人工智能。現有的兵棋推演人工智能測試平臺往往局限于較簡單的決策，更注重于戰術性的地面行動。例如，正在進行的人工智能測試平臺開發工作，如ARL Simple Yeho人工智能測試平臺，側重于環境的真實性，有多個地圖層，包括道路、樹葉和海拔高度，向排長推薦決策，如路線規劃和士兵重新分配任務。由于對當地地形環境的關注，在該環境中開發的人工智能推理將集中在精細的社會和生態動態上，對協作和敵對決策動態進行深入訓練的機會比較稀少。這些稀少和復雜的問題（"微小的、骯臟的、動態的和欺騙性的數據"）迷惑了發展人工智能的經典方法，尤其是復雜推理。相反，這個DFV項目的ARL戰斗空間人工智能測試平臺抽象了當地地形的元素，將人工智能的學習和推理更具體地集中在復雜的MDO相關的C2深度推理上（多個決策步驟，包括更頻繁的合作和欺騙的機會）。這使得在C2兵棋推演的背景下，更有針對性地發展人工智能對復雜的多Agent（人、人工智能和人+人工智能團隊）的決策能力。

第二個目標是通過開發一個有效的WMI來研究和開發如何呈現人工智能的理解和預測以及如何利用人類的理解和預測，為復雜決策的有效人類-人工智能團隊合作創造條件。這項工作包括利用和開發高性能計算（HPC）資源進行計算支持，同時開發用于決策的商業二維交互和混合現實交互的定制軟件（例如，基于增強現實沙盤[ARES]平臺的戰斗空間可視化和互動（BVI）平臺）。通過開發多種WMI方法，我們期望這些平臺能夠實現復雜決策的快速原型研究，并能夠將我們的新型AI與更成熟的兵棋推演訓練和模擬框架與團隊進行整合。

我們預計，在新型人工智能開發、HPC計算支持和用于決策空間現實表現的WMI開發方面的這些努力將為人類-人工智能團隊的發展創造一個新的范例，為未來多個陸軍理論（MDMP、DOTMLPF、27 METT-TC28）的進步和現代化鋪平道路（圖2）。

圖2 在更廣泛的人類-Agent團隊決策研究戰略中的新型人工智能開發

這個項目開發了兩個研究框架。首先，它開發了一個人工智能測試平臺，被稱為ARL戰斗空間，用于創建和調查人工智能的復雜協作和敵對決策。其次，它認識到目前軍事決策過程中的局限性，構思了一個用于人與人工智能協作的復雜決策的WMI，利用軍隊和商業開發的戰斗空間可視化平臺，與非傳統的HPC資源進行潛在的連接，實現人工智能增強的兵棋推演平臺。

2. ARL戰斗空間人工智能測試平臺

這里，我們描述了我們開發ARL Battlespace的方法，這是一個開源的靈活的兵棋推演平臺，將促進開發基于強化學習算法的新決策輔助工具。特別是，我們關注的是有三個或更多合作和敵對玩家的博弈論的理論和算法能力的差距。雖然博弈論的概念，如囚徒困境和Brinksmanship（"吃雞"），對于兩個玩家已經發展得很好，但它們還沒有擴展到三個或更多的玩家，由于鞍點和局部最小值的存在，決策環境可能很復雜，這可能混淆了強化學習的作用。在戰爭中可能出現的情況下，理解和預測三個或更多的合作和敵對玩家的納什均衡，需要一個靈活的兵棋推演平臺，允許跨學科地探索這種決策空間。該兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用，使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習，以及如何優化其對決策空間的搜索。

2.1 框架

為了實現這些解決方案，我們開發了一個類似于國際象棋的棋盤游戲，由兩支隊伍組成，一支紅色部隊和一支藍色部隊，每支隊伍可以有多個聯盟（玩家）。游戲是在一個共同的戰斗空間上進行的，這個戰斗空間目前被設計為MDO每個領域的一套棋盤。圖3顯示了一組游戲棋盤的例子，我們考慮了一個"空中"和一個"陸地"棋盤。每個棋盤都被劃分為一組單元格，"空中"棋盤被放在"陸地"棋盤上，形成一個共同的戰斗空間。在這個例子中，我們選擇了創建方形網格，并且只考慮兩個領域。然而，在一般情況下，棋盤格可以采取任何形狀，并且可以任意縮小，而棋盤的數量可以靈活處理MDO中的每一個域。例如，"空中"盤可以由多個代表不同海拔高度的板組成。這種提法提供了一個通用的應用編程接口（API），允許在兵棋推演中取得基本的研究進展，因為它可以被定制以適應任何兵棋推演的場景。

圖3 用于復雜決策的ARL戰斗空間AI測試平臺

每個聯盟都被假定有一組部件，我們稱之為單位。目前，我們假設有四個地面單位和一個空中單位。地面單位由士兵、坦克、卡車和旗幟組成，而空中單位是飛機。每個地面單位目前都有相同的能力（即，相同的行動和視圖集）。然而，API的設計是為了使聯盟的每個單位都有定制的能力，從而使設計特定場景變得容易。

目前各單位的規則和行動如下。士兵、坦克和卡車都有一個目標，描述他們的導向。他們的行動包括 "什么都不做（doNothing）"、"轉向（turnH）"、"前進1（advance1）"、"射擊（shoot）"和"沖撞（ram）"。"doNothing"意味著該單位停留在他們的位置，不改變他們的狀態。"turnH"將單位的方向旋轉H度，其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移動一個單元。"shoot"向單位的方向射出一個彈丸，彈丸繼續向前推進一個單元，直到它與另一個單位相撞或在游戲盤外飛行。最后，"ram"行動使單位在其方向上向前推進一格，同時進行攻擊。與 "advance1"行動相比，"ram"行動總是有利的，因為攻擊可以消滅敵方單位。

飛機單位的規則和行動與士兵、坦克和卡車相似。這些行動是"什么都不做（doNothing）"、"轉向（turnH）"、"前進X、Y（advanceX,Y）"、"射擊（shoot）"和 "轟炸（ram）"。“doNothing”、“turnH”和“shoot”的動作與地面單位相同。行動“advanceX,Y”允許該單位沿東西軸線移動X單元，沿南北軸線移動Y單元。飛機也可以 "上升（ascend）"和 "下降（descend）"來起飛和降落。最后，"炸彈（bomb）"行動在飛機的正下方射出一個彈丸到陸地游戲盤上。旗幟單位無法移動，如果被俘，則被清除。

目前游戲玩法的實施很簡單。最初，每個聯盟（玩家）將其單位放在游戲盤的各自區域。當每隊有多個聯盟時，各隊的游戲板部分被平均分配給各聯盟。請注意，每個單位的位置對所有其他聯盟都是未知的。然后，每個單位觀察其可見范圍內是否有其他單位，提供一個戰爭迷霧的場景。我們將每個單位的觀察范圍定義為從該單位的當前位置開始的一個方塊；然而，可視范圍可以根據場景和單位的情況進行定制。一旦每個單位觀察到了，同一團隊的聯盟就會合作確定他們想為每個單位采取的行動集。這允許每個聯盟觀察其隊友的單位位置，并進行溝通以協調他們的計劃。接下來，每個聯盟為每個單位選擇一個行動。請注意，所選擇的行動只有屬于同一團隊的聯盟才知道。在選擇了行動后，游戲決議被應用，根據他們選擇的行動移動單位，并解決是否有任何單位被攻擊或與另一個單位相撞。如果一個單位被攻擊或與另一個單位相撞，它將被從棋盤上移走。這個過程不斷重復，直到游戲結束。

完成游戲取決于游戲的基本規則，這些規則可以根據具體場景進行定制。在這里，我們研究了兩種類型的游戲：（1）奪旗和（2）殲滅。奪旗游戲的目標是操縱地面部隊進入敵方領土以奪取對方的旗幟，旗幟的位置是未知的，必須通過探索才能發現。一旦所有的敵方旗幟被占領，游戲就會終止。殲滅戰的目標是發現并攻擊所有敵人的地面單位。在這里，一旦發現并消滅了所有敵人的地面單位，游戲就終止了。每種游戲的基本規則都是相同的，但實現每個目標的最佳策略是不同的。在這兩種類型的游戲中，由于敵方單位和旗幟的能見度有限，存在著高度的不確定性。

2.2 分層貝葉斯模型的試點實驗

接下來，我們報告了我們在開發基于模仿學習思想的人工智能Agent方面的初步結果，模仿學習使用的是由人類演示構建的分層貝葉斯模型。我們從討論數據收集過程開始，對數據進行分析，最后用啟發式方法使一個簡單的人工智能Agent勝過一個隨機Agent。

2.2.1 實驗設計

為了學習人類的策略，我們讓五個人類受試者組合在一起，針對第2.1節中討論的兩類游戲（即奪旗和殲滅），與兩個隨機Agent進行ARL戰斗空間游戲。在每個回合中，每個隨機Agent根據一個固定的分類分布為每個單位??選擇一個行動，其中采取一個行動的概率是，取決于單位??可以采取的行動數。回顧一下，每個單位的行動在第2.1節中有描述。

每個游戲由一對人類受試者對兩個隨機Agent組成，在每個游戲開始時，人類受試者合作討論他們對該游戲類型的整體策略。這導致了20場游戲的收集，其中奪旗和殲滅戰各10場。一旦所有的游戲都進行了，就對游戲數據進行分析以確定人類的策略。

2.2.2 游戲數據結果和分析

分析游戲數據的第一個方法是研究人類玩家的行動頻率。行動頻率被定義為，其中D代表奪旗或殲滅的游戲數據。是指在所有游戲中，單位??采取的行動次數，而??(??)是所有游戲中的總回合數。

圖4顯示了地面單位（即士兵、坦克和卡車）的行動頻率，圖5顯示了空中單位（即飛機）的行動概率。游戲的總體目標決定了所選擇的行動，使我們能夠確定所玩游戲的類型。如圖4所示，奪旗游戲的地面單位更有可能選擇前進和攻擊的方式，用 "沖撞"的動作來尋找旗子。此外，"什么也不做"的行動也被更頻繁地選擇。這是因為一旦團隊找到旗子，離旗子最近的單位就會采取行動去搶奪旗子，而其余單位則什么都不做。對于空中單位，人類受試者更傾向于選擇 "advance0,-2 "的行動，即把單位推進到敵人的領土上尋找國旗。

圖4 從人類游戲中產生的所有地面單位，以游戲類型為條件的行動概率

圖5 從人類游戲中產生的空中單位，以游戲類型為條件的行動概率

在 "殲滅"游戲中，人類Agent更傾向于選擇攻擊行動來消滅敵人的目標（即對地面單位采取 "射擊"，對空中單位采取 "射擊"和 "轟炸"）。為了進一步驗證這一策略，圖6顯示了每回合平均射彈數量的累積總和。顯然，"殲滅"游戲的射彈數量比"奪旗"游戲要多。

圖6 每一回合中射彈總數的平均累積總和

兩種游戲的另一個區別是，奪旗游戲的總回合數要比殲滅游戲少得多。這是因為人類Agent找到旗子的速度比他們找到敵方單位并消滅它們的速度要快。

基于對人類Agent如何與隨機Agent玩游戲的簡單理解，我們可以按照類似的方法來學習策略，為簡單的人工智能Agent開發啟發式方法。

2.2.3 從人類演示中學習的簡單人工智能Agent的性能

一個簡單的人工智能Agent的算法如下。最初，Agent隨機地將他們的單位放置在棋盤的指定區域。然后，每個Agent確定每個單位的狀態。考慮到狀態和游戲的目標，Agent從預定的概率分布中為每個單位抽取一個行動。

這個過程在每個回合中都會重復，直到游戲結束。預定的概率分布遵循一個分層貝葉斯模型。為了便于表述，我們在附錄中提供了相關理論。對于最簡單的情況，我們認為單位在每個回合中可能處于兩種狀態，或。然后，概率分布根據附錄中的公式A-1定義，與圖4和圖5中的行動頻率類似。然后我們將這個分布實現在兩個簡單的人工智能Agent中，并與兩個隨機Agent進行比賽。作為一個基線性能，我們與兩個隨機Agent進行了比較。在這兩種情況下，都進行了1000場比賽，并計算了獲勝百分比。通過使用雙狀態概率分布，簡單的人工智能Agent能夠在奪旗游戲中贏得84.5%的時間，在殲滅游戲中贏得76.9%的時間。

接下來，我們為每個單位i考慮了一個更大的九態狀態空間，定義為，其中??r0和??r1分別表示一個友好單位是否被i單位觀察。??0和??1分別表示i單位是否觀察到敵方單位；以及??l0和??l1分別為團隊是否看到敵方旗幟。同樣，概率分布然后根據附錄中的公式A-1定義，并落實到兩個簡單的人工智能Agent。在奪旗游戲中，簡單人工智能Agent對兩個隨機Agent的獲勝比例為89.4%，在殲滅游戲中為82.3%。

結果摘要見圖7。有趣的是，在兩種形式的概率分布（即雙狀態分布和九狀態分布）中，奪旗策略都優于殲滅策略。這是因為 "消滅 "游戲中的Agent更有可能選擇 "射擊 "行動，由于隨機的初始位置，這將導致更多的友好射擊。因此，作為一個簡單的人工智能Agent，采取先攻后守的方法更有利。此外，當我們考慮到單位的額外狀態時，獲勝的百分比會增加。未來工作的一個可能方向是開發深度強化學習策略，以學習最大化獲勝比例所需的狀態定義和數量，即使是面對人類Agent，也要為MDO中的C2提供建議。

圖7 簡單AI Agent的獲勝比例

3. 復雜決策的實例場景

ARL戰斗空間測試平臺的關鍵優勢在于其靈活性和適應MDO任務規劃的變化需求。它的抽象性使關鍵的決策過程及其互動和動態被壓縮到一個較小的游戲盤中，并有更多可量化的人與人工智能的互動，用于開發人與人工智能的團隊合作。這使得人工智能的開發能夠集中于復雜決策的獎勵塑造，同時減少由于滋擾因素（如時空縮放）造成的學習障礙，這些因素使決策在時間和空間上變得稀疏，因此，更多的努力（人工智能以及人工智能開發者的部分）可以被用于在各種時空尺度的不確定性和欺騙下的學習。它還將兵棋推演互動中可能不容易被整合到人與人工智能團隊中的特質（例如，人類心理學的某些方面，如個人關系）放在一邊，以利于在人工智能推理發展方面取得更切實的進展。在下面一節中，我們介紹了幾個挑戰和發展人工智能進行復雜推理的例子。這些例子包括博弈論、元推理和網絡欺騙，涉及到現有人工智能算法尚未處理或解決的各種復雜決策。由于人工智能的C2決策輔助工具將有望超過人類水平的決策，不僅在速度上，而且在復雜性上，我們設想這樣的C2決策輔助工具需要能夠解決大多數（如果不是所有）的情景。

3.1 突破情景和重新想象博弈論

我們首先關注博弈論和兵棋推演之間的差距，在一個簡單的突破場景中，這是兵棋推演中經常遇到的一個經典問題（例如，在橋梁交叉口、地雷區和山口[圖8]）。在經典的博弈論概念Brinksmanship（"吃雞"）中，友好的藍色和綠色坦克被激勵著越過缺口到達另一邊。通常情況下，這些坦克會協調他們的行動，但如果藍、綠坦克之間的通信被破壞，一個單位（如藍坦克）的行動可能會因為與另一個單位（綠坦克）的碰撞或友好射擊而導致低回報。如果還包括囚徒困境的元素，那么這個場景就迅速超越了經典的博弈論，因為可能需要綠色和藍色坦克一起穿越，共同攻擊更強大的紅色坦克，這需要仔細協調。額外單位的存在（例如，綠色飛機對敵對單位提供觀察、轟炸或干擾，如黃色士兵提供可能的增援）能夠進一步操縱動態和環境對決策的限制或機會。飛機也可能發現第二個缺口，或者 "墻"可以滲透，以創造缺口（例如，清除地雷或建立額外的橋梁交叉點）。

在粗略尺度（如10×10板）和背景下學到的行為可以通過獎勵塑造逐步推廣到更細的尺度和其他背景下。額外的地圖層也可以被添加到諸如快速地下運輸等領域，以繞過地面層中的墻壁。環境因素，如天氣，也可以包括在內，以改變機動性。因此，即使是一個看似簡單的場景，也可以提供豐富的機會來操縱影響決策動態和結果的因素，并探索不同類型的不確定性之間的相互作用如何改變決策景觀，以創建鞍點和局部最小值，從而混淆強化學習的作用。在戰爭中可能出現的情況下，理解和預測三個或更多的合作和敵對玩家的納什均衡，需要一個靈活的兵棋推演平臺，允許跨學科地探索這種決策空間。兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用，使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習，以及如何優化其對決策空間的搜索。

圖8 帶有豐富博弈論條件的場景

3.2 元推理場景、任務背景和戰略

在ARL戰斗空間游戲中，每個玩家都有一面彩色的旗幟，游戲可以通過殲滅所有對方的地面單位或奪取對方的所有旗幟來獲得勝利（現實生活中的一個等價物是奪取所有關鍵的橋梁或指揮中心）。根據游戲的狀態，指揮官可以決定改變整體策略（殲滅戰與奪旗戰），以更快地取得勝利。例如，如果一輛坦克已經接近一面旗幟，那么將剩余的單位轉到其他地方尋找剩余的旗幟可能是有利的（圖9）。相反，如果一支敵對部隊守衛著第一面旗幟，那么優先奪取這面旗幟可能會更好，這樣搜索第二面旗幟的效率會更高。這種未闡明的推理，或稱 "默契推理"，往往在自然的人類決策中根深蒂固，這是一種需要開發的人工智能能力，以便人工智能能夠有效地參與人類-人工智能團隊的決策，使人工智能的發展能夠開始有工具來獲得人類決策的創造性。

圖9 帶有隱性推理和任務重新分配的元推理標志方案

對于人工智能的發展，這就需要一個額外的更高級別的推理Agent不斷地監測游戲的狀態，以做出切換策略的選擇，并將此傳達給控制各個單位的Agent。元推理包括監測推理所涉及的步驟，以及平衡影響活動結果的標準。此外，元推理結合了不同信息的不確定性，以產生更有意義的、符合背景的決策建議。納入元推理可以使約束條件和各種決策方法得到權衡，為行動方案提供不同的選擇。例如，基于元推理的替代選擇可以決定是否優先考慮探索與攻擊已知敵方單位與防御，部署哪種機動戰略，或者考慮到敵方部隊的可觀察位置如何重新分配任務。由于ARL戰斗空間環境的網格大小較小，游戲可以快速進行，導致經常有機會使用元推理，并使人工智能有機會學習結合和預測多種類型的元推理方法的相互作用。由于抽象環境增加了人工智能學習戰略如何交互的頻率，這將使人工智能學習更高級的戰略，例如需要平衡不同戰略、能力和任務要求之間的交互，保持選擇的自由，并產生戰略模糊性以迷惑對手。總的來說，這種方法的好處是通過增加控制和監測機制來改善決策，這些機制包括一個平衡行動和環境約束的元推理Agent。

3.3 簡單的欺騙和人工智能的心智理論

對抗性決策的一個關鍵方面，特別是在戰爭中，就是欺騙。欺騙可以發生在多個層面，包括戰略、可觀察的信息、單位能力和位置。在ARL戰斗空間中，單位的可觀察性有限，這自然為欺騙創造了機會，而飛機在敵方空間深處的探索能力也為揭開單位位置的欺騙提供了機會。圖10展示了一個簡單的欺騙場景的例子，在這個場景中，友軍的藍色和綠色部隊試圖穿越到另一邊。左下方的友軍士兵開始通過左邊的缺口發射導彈，因為他們的Agent推斷（通過對方Agent的人工智能心智理論），看到導彈后，敵方Agent會推斷出友軍正準備通過該缺口進行攻擊。這種欺騙，通過將敵方Agent的注意力和計劃集中到左邊的缺口，使他們偏離右邊的缺口，為藍綠坦克從右邊進入創造機會。通過設計有兩個缺口的情景，該情景建立在經典心理學的兩個替代性強迫選擇任務的基礎上，能夠應用敏感的心理學工具進行決策分析，并開發動物模型，從神經生理學和行為學上剖析支配欺騙的情境依賴性學習和決策的基本細胞和分子機制。例如，人們可以引入一些因素，使友好或敵對的決策出現偏差（例如，通過操縱傳感器的噪音或操縱總部的命令），或應用光遺傳學和化學遺傳學工具等方法，了解他人的認知、信念或策略的神經表征（例如，在前扣帶回和眶額皮層中）對決策計算的貢獻（在前額皮層中）。這種調查還可以發現決定一意孤行、啟發式方法和隱性偏見與對其他假設的開放性的因素，這可以幫助確定在特定條件下如何最好地重新分配任務（例如，當一個人對等級指揮結構有偏見時，他可能不太愿意追求與總部的命令相矛盾的傳感器信息）。這種固有的偏見、啟發式方法和默契的推理是人類推理的自然組成部分，在我們與他人的互動中會被預期到；人工智能的心智理論包括這種偏見補償，對優化人類+人工智能的團隊合作可能是有益的。

圖 10 需要人工智能心智理論的簡單欺騙場景

3.4 網絡欺騙、多領域整合和可信度

在人類的決策中，來自不同領域的信息可以結合起來，產生意想不到的效果。心理上的McGurk效應是指口型"ga"和聽覺上的音節"ba"在時間上有很強的同步性，從而產生幻覺"da"。雖然多感官整合似乎沒有在C2決策中得到探索，但MDO中多個領域的匯合，特別是其在穿透和分解整合階段的高容量和高速度，可能會產生意想不到的非線性跨領域的相互作用（這可能有助于"戰爭迷霧"）。圖11說明了一個例子，在這個例子中，實際跡象（導彈）和坦克誘餌（由中間人[MITM]網絡攻擊產生）的組合可以協同作用，迫使敵方單位向左側缺口移動。為網絡欺騙創造趨同的跡象線是一種普遍的策略，然而特定的欺騙模式可能比其他模式更有效。例如，人們認為大腦會將相似或相關的跡象分組，以進行有效的處理（如格式塔分組），這樣就可以克服信息瓶頸（如處理七個以上的名義項目，從而減少單個項目的影響）。如果進行每一次網絡攻擊都會產生一定的成本或風險，那么了解如何將這些成本分配到不同的線索特征中，以便以最小的風險提供最有效的影響可能是有益的（例如，如果MITM攻擊產生導彈誘餌，那么它的效果可能會降低，甚至是反作用）。了解不同的線索組合如何被不同的士兵所感知，也可能是有意義的。具有不同偏見或處于不同角色或梯隊的指揮官可能對相同的跡象組合有不同的感知、解釋或行動（例如，一個誘餌的有效性可能取決于它與目標指揮官的距離以及與他的決策過程的相關性）。更高級的策略可能包括主動防御（例如，通過 "蜜罐 "策略[圖12]），以提高網絡欺騙的有效性。為了給MDO提供超人的能力，人工智能決策輔助工具可能需要根據即時可用的跡象在多個領域協助生成可信的誘餌，以網絡的速度迅速調整這些展示，并保持虛擬和現實世界之間的一致性，以保持幻覺的有效性。

圖11 帶有中間人攻擊的網絡場景

圖12 帶有蜜罐的網絡場景

4. 人與人工智能編隊協作的復雜決策

上一節所述的ARL戰斗空間人工智能測試平臺通過將戰斗空間地形抽象為一個沒有現實表現的網格狀環境，提供了人工智能開發和測試所需的靈活性。例如，圖8顯示了一個類似于墻的障礙物，它被表示為幾個網格塊，與單位互動時應用的環境約束條件有關。人類團隊和AI都在共同的雙級網格化戰斗空間內進行游戲。人類玩家通過在控制臺窗口中輸入基于文本的編碼命令與ARL戰斗空間互動。這種命令行的交互和顯示加速了人工智能算法的開發過程，并為人工智能兵棋推演所需的大規模實時計算建立了與計算資源的潛在聯系。為人工智能兵棋推演測試平臺（如ARL Battlespace）構思一個用戶界面，并建立通往外部計算服務的管道，構成了DFV第二個目標的基本組成部分--開發一個用于復雜決策的WMI。

一個跨梯隊和作戰級別的軍事決策過程模型構成了為人類和人工智能兵棋推演開發一個有效的WMI的基礎。在傳統的兵棋推演中，指揮官利用一個共同的基于地圖的作戰地形，并模擬MDMP中各種因素的組合如何產生行動方案（COAs）、可能的反擊行動、資源使用估計和預測結果。在幾天或幾周內，MDMP過程形成一套精煉的COAs，對作戰環境做出某些假設，包括地形、天氣和設置戰場的單位的可用性和能力（即為支持主要作戰行動而塑造活動）。

盡管MDMP幫助指揮人員了解作戰環境和考慮作戰方法，但這個過程有許多局限性，如時間密集性、假設的僵硬性、跨場景變化的訓練機會有限，以及很少有機會將人工智能指導納入決策過程。傳統上，一項任務的成功與指揮部執行MDMP的能力直接相關。然而，鑒于MDO的復雜性增加，有大量的任務指揮系統和流程，與行動相關的所有活動的整合和同步變得越來越困難，甚至到了人力無法完成的地步。缺少MDMP所導致的規劃專業知識的缺乏會導致行動的不同步和不協調，并最終導致士兵的生命損失。

MDMP中沒有具體描述戰斗空間的可視化能力，但它顯然在決策過程中發揮著重要作用。最近，整合了先進可視化能力的新系統和技術已經被開發出來，這些系統和技術可以提高對局勢的認識，從而加強決策過程。陸軍的例子包括Nett Warrior，它使下馬的戰士能夠直觀地看到附近的友軍和敵軍，同時根據當地的地形協作規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士，但它缺乏一個提供決策幫助的基礎人工智能引擎。BVI是陸軍技術的另一個例子，它能夠為任務規劃提供分布式協作，具有從任意視角和廣泛選擇的設備對共同作戰圖進行2D和3D可視化的能力。BVI架構可以被制定，以拉入外部計算服務，如分析管道、模型和AI引擎。

目前，MDMP并沒有將人工智能指導納入整體任務規劃方法中。陸軍的APF開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策的問題。指揮人員可以通過APF的數字規劃顯示、規劃創建者和規劃監控工具，在任務規劃和COA開發過程中獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展，為改進決策跟蹤和支持活動提供自動協助。盡管APF在MDMP中引入了基本的自動化水平，但它缺乏Nett Warrior和BVI所提供的高級可視化和用戶交互能力。

除了MDMP之外，最近將人工智能納入決策過程的努力包括了一些方法，在模擬人類決策過程方面取得了一些成功。一般來說，對于決策變量有限的問題，如資源分配、飛行模擬器和較簡單的場景，人工智能取得了一些成功。目前面臨的挑戰包括：需要提高人工智能的能力，以解決有多個行動者、不完整和可能相互沖突或欺騙的信息、不斷變化的單位行動和環境屬性的復雜決策，以及需要將這些決策的后果在許多空間和時間尺度上可視化。

4.1 未來MDMP需要的進步

MDMP在支持MDO復雜決策方面的局限性，突出表明需要在三個方面進行改進。首先，有必要將人工智能生成的指導和輔助決策支持納入MDMP。這包括進一步發展和整合人工智能到戰斗空間決策規劃，以及進一步改善人工智能決策過程的可解釋性和透明度。第二，有必要在可能的情況下，將決策分析與戰略層面以及戰術邊緣的HPC的力量結合起來。這將能夠利用HPC系統的力量來改善建模、分析和計算時間，同時整合和同步來自所有戰區領域的信息。最后，有必要利用先進的可視化技術，如混合現實技術，對決策空間進行更準確和互動的展現。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染，而是需要可視化不同領域的決策是如何互動的，并利用混合現實技術來提高理解的吞吐量和深度，并實現平面顯示不可能的洞察力。

MDMP是陸軍設計方法的核心，用于應用批判性和創造性思維來理解、可視化和描述問題以及解決這些問題的方法。作為解決問題的行之有效的分析過程，必須克服前面描述的MDMP的局限性，以便快速制定一個靈活的、戰術上合理的、完全整合的、同步的規劃，以最小的傷亡增加任務成功的可能性。下面的小節描述了對MDMP的潛在改進，以支持人類與人工智能的合作決策。

4.1.1 人工智能引導的決策指導

需要新的人工智能支持的WMI，以利用人工智能決策的持續進步，并為復雜的適應性決策的人工智能學習做出貢獻。通過匯集所有領域的信息，計算人類和人工智能Agent的風險和預期回報，人工智能決策輔助工具的發展將提供能力越來越強的COA建議。現有的人工智能有幾個局限性，特別是對于有不確定性的復雜和適應性決策，以及人類和人工智能Agent的協作和對抗。對多Agent的協作和對抗性決策進行建模可能特別復雜，因為它的遞歸性質，其他Agent是模型的一部分，需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域，適當設計的人機協作交互可以提供加速和更有效的決策。為了實現有效的團隊合作，新穎的WMI應該幫助作戰人員篩選復雜的信息，幫助人工智能發現決策的隱含規則。在此，我們提供了關于人機協作如何有效的案例。

多域兵棋推演中需要的復雜決策是開發有效的人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋和國際象棋等游戲中的成功是基于對世界現有狀態的完全了解（即 "開放"游戲），而兵棋推演通常包括關于作戰環境的不完整（如星際爭霸）、不確定和/或欺騙性的信息。由于世界狀態、不同行動者的狀態以及所采取的行動影響的不確定性，知識的缺乏使得人工智能Agent難以計算未來行動的風險回報情況。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力，而這是計算有效博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒（即由于信息有限而選擇錯誤）的情況并不少見，因為人類在制定有效探索隱藏信息的策略時，會采用啟發式方法來進行有效的選擇和預測。為了幫助發展人工智能的隱性知識和探索能力，新型的WMI需要有效地解釋和展示決策圖，以使作戰人員能夠快速和自然地瀏覽可能的選擇，同時使人工智能能夠適時地從人類的決策中學習，而不施加認知負荷。

開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息，特別是空間和網絡，因為這些領域的信息具有不同的時空尺度。對于網絡，決策的規模和速度可能比人類處理和理解的能力更快，需要人類的輸入來指導半自動的決策，以及一個實施進攻和防御欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖，即一小部分最優和接近最優的決策策略清單是可以解釋的（例如，通過決策樹）。這應該包括對關鍵Agent在不確定情況下的未來狀態和風險回報情況的估計，以使有效的博弈論決策能夠被共同開發和相互理解。

這些挑戰為有效的WMIs的可能設計提供了參考。也就是說，我們需要有能力從不同的來源（包括從其他國家的決策輔助工具）攝取信息，以及一個能夠承載整合這些信息的計算能力架構，同時還要處理基礎的人工智能計算（包括學習和部署）。我們還需要共同開發一個交互和算法設計，以適時地利用人類和人工智能Agent的優勢并減少其局限性。

4.1.2 高計算能力下的決策過程

在MDO兵棋推演的復雜決策過程中，需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從動態狀態空間的累積數據集中建立過去、現在和預測模型，需要利用HPC資源來產生分析見解，并創建在復雜決策背景下有用的表示。

實施HPC分析工作流程的一種方法是使用持久性服務框架（PSF）。PSF是一個最近可用的分布式虛擬化解決方案，它可以通過一個基于網絡的前端實現對高性能計算服務的非傳統訪問，而不像傳統的HPC環境那樣，計算節點在特定時期內以批處理模式分配給用戶。此外，PSF可以提供對數據、數據庫、容器化工具集和其他托管平臺的分布式持續訪問。

在一個PSF方法的例子中，一個模擬引擎連接到PSF，用于記錄人類和人工智能做出的所有決策。這允許分析在任務規劃和COA開發過程中發生的決策行為，以及識別決策模式和戰略，以開發競爭和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上，并使用信息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。

使用PSF方法并利用HPC資源，可以實現利用大數據攝取和分析的人工智能輔助決策機制，同時可供地理分布的用戶用于協作決策工作。連接到PSF托管服務器的各種混合現實顯示模式可以支持從戰略層面的C2到作戰邊緣的更多移動戰術使用等一系列作戰場景。

4.1.3 決策空間的逼真呈現

用圖形表示各級行動的軍事決策戰略需要新的可視化方法，這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境。

戰斗空間的視覺表現應該在技術上盡可能準確和逼真，但又保持在人類可以理解和解釋的認知水平。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步，成本降低，硬件的可靠性和實用性顯著提高，混合二維和三維可視化方法現在已經成為可能。

由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力，可以為指揮人員提供了解復雜的戰爭游戲狀態空間所需的洞察力。例如，BVI平臺可以使用多種可視化模式的組合，真實地呈現地理空間的地形。作為一個數據服務器，BVI向支持多種可視化模式的客戶端應用程序分發地形、作戰和Agent行為數據，包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備（例如，HoloLens 2、Oculus Quest）。

圖13（頂部）顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景。與MDMP期間經常使用的傳統2D地圖顯示相比，戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖，在BVI的網絡戰術計劃器（WTP）中，將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化。

可以想象，地理空間視角，如BVI提供的視角，支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間（圖13，底部）搭配，組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合，可以提供必要的廣度，以協調物理行動與網絡和其他非空間領域的行動，跨越多個時間尺度，并具有快速適應變化的任務目標的靈活性

圖13 BVI網絡戰術規劃器中的兵棋推演場景的三維視圖（上）與人工智能決策樹的概念（下）。

5. 討論

人工智能對人類自然決策行為的機會性學習，以及學習環境的適當結構和順序，使人工智能被訓練過程有效地塑造，是已經建立起來的提高人工智能快速學習困難挑戰能力的框架。要進一步提高人工智能在兵棋推演中的復雜決策能力，需要提高人工智能在具有高度不確定性的MDO背景下處理決策的能力、欺騙性和博弈論，這些都是人工智能發展過程中獎勵分配的挑戰。克服這些挑戰需要利用多學科的進展，從了解大腦的決策、獎勵和計算的神經生物學進展到專業知識、隱性知識、心智理論、博弈論和元推理在復雜決策過程中如何應用的心理學進展。

人工智能如何能夠最好地學習人類的復雜決策仍然是一個開放的問題。盡管對復雜決策進行獎勵塑造的確切機制還沒有被發現，但這個項目已經產生了如何通過一個新的人工智能測試平臺和WMIs來發現這種機制的設想。ARL戰斗空間人工智能測試平臺和場景將人類和人工智能置于與MDO相關的決策環境中，使人工智能能夠學習不同的決策和因素如何相互作用，以及人類如何通過這種復雜的決策樹進行合作和對抗。一個關鍵的進展是，測試平臺和場景提供了一個豐富的環境，通過抽象化那些會使決策要領稀疏化和阻礙學習的因素，有效地開發人工智能心智理論和與MDO相關的元推理，以進行復雜的決策。

另一個進展是開發高性能計算框架，以實現人工智能決策支持的連續分布式訓練。這將使人工智能決策輔助系統能夠托管在ARL的持久性服務框架上，因此，將來士兵可以隨時隨地以人類和人工智能混合團隊的形式，針對人工智能兵棋推演Agent進行單獨或協作訓練。

這個項目的第三個進展是開發了一種可視化人工智能決策過程的方法，以實現人工智能的透明度和信任，以及人類與人工智能團隊的合作決策。人工智能的推理必須既抽象又與兵棋推演環境相關，這樣人類就可以理解人工智能對不同決策結果的評價，并有效地瀏覽人工智能的決策樹，而不會造成過度的認知負擔。我們已經向人工智能增強的WMI邁出了第一步，它基于三維混合現實，利用和增強人類固有的三維認知和預測的能力。隨著進一步的設計，我們設想它的界面將給人以自然的感覺，同時擴大顯示多個領域的信息，并使人工智能能夠適時地從用戶的決策中學習。這種自然的、直觀的人工智能輔助決策系統，是為了支持MDO C2決策而開發的，包括隱性推理，以及協作和對抗推理，對于人類在復雜決策中信任人工智能對COA結果的估計至關重要。

5.1 進一步發展人工智能測試平臺和人工智能Agent的潛力

雖然最近在游戲中對深度強化學習算法的利用顯示出巨大的前景，但這種成功的前提是與一個相對簡單、結構良好的游戲合作。真正的挑戰出現了，因為環境越來越依賴于稀疏的觀察數據、復雜和動態的Agent策略。完全在內部開發平臺與在現有的開放源碼庫上建立平臺相比，有幾個權衡因素--主要是限制因素的最小化和環境開發的純粹工作量。創建一個全新的定制平臺可以完全定制與游戲相關的錯綜復雜的問題，盡管變得非常耗時。相反，在使用現有的庫，如StarCraft2LearningEnvironment（SC2LE）時，會出現各種不可逾越的限制，但投入游戲開發的工作量會減少十倍。我們正在進行的ARL戰斗空間人工智能測試平臺的第二代開發，名為Simple Yeho（圖14），是建立在天平兩端的平衡上的，OpenAI Gym是一個用于開發強化學習算法的工具包，對輸入的Agent和環境結構不做任何假設。顯然必須遵循一個基本的框架，但OpenAI Gym除了提供大量的文件和例子供客戶參考外，還提供了完全的設計自由。從游戲開發的角度來看，并沒有立即需要解決的問題，但它確實需要成為未來一個更優先的事項。

圖14 簡單的Yeho人工智能測試平臺

未來的問題并不局限于游戲環境，因為它們將不可避免地延伸到理論上的強化學習挑戰，如無縫的多Agent通信、任務協調和固定的策略。更多需要關注的實際問題包括算法效率（限制計算密集型任務以及內存分配的心態），一種新穎的去中心化強化學習算法，以及跨多個領域的數據泛化。過度消耗硬件資源是人工智能所有分支中的一個共同瓶頸。從軟件的角度來看，ARL Battlespace AI測試平臺對資源消耗很少，該環境仍然專注于AI發展的研究問題，而不是全面的MDO實施，這就是為什么計算效率還不是一個緊迫的問題。歸納游戲狀態信息的潛在解決方案，特別是在動態環境中，包括時差變異自動編碼器和分布式時差強化學習，因為它們除了在數據點之間提供一個平滑的潛在空間外，還允許對未來的幾個狀態有明確的信念（這在元推理方面起作用）。我們的新型強化學習算法應該解決的其他主要問題是安全/認證、Agent決策透明度和Agent間的實時通信。將區塊鏈整合到DEVCOM ARL框架中，將確保節點之間的安全通信線路，提供一個不可改變的分布式賬本，以揭示Agent的低級決策，并向Agent引入民主投票系統，以促進團體合作，同時仍然保持個人的自私性。

5.2 進一步發展人類-人工智能協作交互的潛力

目前軍事決策過程中的局限性確定了一個多學科的研究方法，用于開發復雜決策的人類和人工智能WMI。作為基礎層的決策空間的現實表示，包括具有地理空間精確性的自然和人工制作的戰斗空間地形。一個先進而直觀的用戶交互允許混合現實視角的戰斗空間，使決策者能夠根據作戰因素探索COA的替代方案。這兩個要求指導了對陸軍和商業開發的戰斗空間交互系統BVI的選擇，作為ARL戰斗空間人工智能測試平臺中實現的人工智能和人類-人工智能團隊發展的潛在過渡媒介。

過渡的第一步是將ARL戰斗空間的網格狀環境疊加到BVI真實世界的作戰地形上，并將現有的BVI多模態用戶交互調整為兵棋推演。圖15顯示了使用BVI的網絡戰術規劃器3D視角在歐文堡地形上疊加的擴展網格的一個部分，其中友軍和敵軍單位位于兵棋推演會話的開始。在瀏覽器窗口中，可以使用戰術規劃工具欄的鼠標、觸控板或觸摸屏互動來放置和操作單位。BVI提供了添加單位的功能；路線點、戰術符號和圖形；以及繪制線條、多邊形和文本框等特征。

圖15 BVI網絡戰術規劃器中帶有網格覆蓋的兵棋推演場景的三維視圖

一個尚未解決的問題是，如何最好地利用BVI的混合現實（XR）可視化功能來進行協作決策（例如，在兵棋推演期間，通過加強決策者對地形的地理空間因素的理解）。加載不同的地形和創建定制的訓練場景可能來自于多維數據，并以各種身臨其境的形式觀看，這超過了陸軍其他系統的可視化能力。根據這些三維地形的廣度和細節，當決策者使用一系列強大的交互方式在大面積的地形上進行操作時，界面如何顯示這些信息可能會造成大量的信息過載或混亂。一個有效的界面需要被設計成不僅要選擇傳達哪些環境和決策空間信息，而且要選擇如何從用戶的有利位置呈現這些信息。

如果不可能有開發時間和精力，BVI的API提供了機會，以標記、標簽和定位在地形之上的場景適應性網格的形式嵌入視覺輔助，作為決策者的空間管理干預措施。例如，圖15中描述的網格的行和列可以被標記或編碼，以快速定位實時事件和人工智能產生的活動。多維網格結構和編碼方案可以將兵棋推演提升到以MDO為特征的復雜水平，同時減輕一些基于地形的空間管理問題。

在空間和時間領域的數據分析中協調戰斗空間的多個視圖，可視化提供了額外的方法，促進兵棋推演期間的復雜決策。當需要一個共享的MDO戰斗空間呈現時，可以通過在不同的可視化模式上實施多個協調視圖來實現協作戰略規劃模式，根據分布式指揮人員的輸入進行互動更新。指揮人員的輸入也可以指導視覺過濾器對協調視圖的應用，從而減少不必要的復雜性，突出場景或任務關鍵的戰斗空間信息。

圖16顯示了SyncVis視覺分析系統，該系統旨在顯示多個協調的數據分析視圖，支持數據探索和理解。SyncVis通過用戶互動將每個視圖中顯示的信息與其他視圖聯系起來，從而產生多種數據可視化。這個例子顯示了SyncVis在四個協調視圖中對COVID分類人群數據分析的二維界面。變量選擇器（選擇六個屬性）、地圖/地形、相互信息圖和每個選定變量的疊加區域圖。

圖16 SyncVis二維界面顯示COVID數據分析的多種協調的可視化效果

SyncVis的可視化功能可以與使用PSF的HPC分析工作流程后端集成。PSF服務器可以向BVI和SyncVis流傳作戰和Agent行為數據，創造一個統一的戰斗空間探索體驗。基于用戶按需輸入和過濾的協調戰斗空間視圖的好處有待研究。

一個靈活的兵棋推演環境似乎是關鍵，因為每個訓練場景、COA和任務計劃都是在MDMP和相關軍事理論的約束下制定的，但又是獨一無二的，并取決于戰斗空間及其操作變量。一個HPC PSF數據分析處理管道為WMI提供動力，士兵或指揮官按需協調戰斗空間的BVI和SyncVis可視化，將徹底改變現有的兵棋推演范式，并觸及MDO固有的復雜程度，以及贏得勝利所需的人類和AI指導的決策水平。

6.結論

我們強調了三個關鍵的發展領域，即人工智能引導的決策指導，支持這種指導的計算基礎設施，以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想，以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘，以及更具體的兵棋推演問題，如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展，因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發，應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性，并為使用和故障排除提供清晰的文檔，以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞，同時提供靈活性和適應性，以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后，交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解，以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息，而是對世界進行預測和假設，以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外，人工智能決策輔助工具必須估計用戶的默契，使其能夠提供最相關的信息和最有希望的選擇，這些信息來自整個作戰領域。

付費5元查看完整內容

貝葉斯深度學習 ·

2021 年 1 月 4 日

[付費5元查看完整內容]MIT最新《貝葉斯深度學習》綜述論文，37頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

一個綜合的人工智能系統應該不止能“感知”環境，還要能“推斷”關系及其不確定性。深度學習在各類感知的任務中表現很不錯，如圖像識別，語音識別。然而概率圖模型更適用于inference的工作。這篇survey提供了貝葉斯深度學習（Bayesian Deep Learning, BDL）的基本介紹以及其在推薦系統，話題模型，控制等領域的應用。

基于深度學習的人工智能模型往往精于 “感知” 的任務，然而光有感知是不夠的，“推理” 是更高階人工智能的重要組成部分。比方說醫生診斷，除了需要通過圖像和音頻等感知病人的癥狀，還應該能夠推斷癥狀與表征的關系，推斷各種病癥的概率，也就是說，需要有“thinking”的這種能力。具體而言就是識別條件依賴關系、因果推斷、邏輯推理、處理不確定性等。

概率圖模型（PGM）能夠很好處理概率性推理問題，然而PGM的弊端在于難以應付大規模高維數據，比如圖像，文本等。因此，這篇文章嘗試將二者結合，融合到DBL的框架之中。

比如說在電影推薦系統中，深度學習適于處理高維數據，比如影評（文本）或者海報（圖像）；而概率圖模型適于對條件依賴關系建模，比如觀眾和電影之間的網絡關系。

從uncertainty的角度考慮，BDL適合于去處理這樣的復雜任務。復雜任務的參數不確定性一般有如下幾種：（1）神經網絡的參數不確定性；（2）與任務相關的參數不確定性；（3）perception部分和task-specific部分信息傳遞的不確定性。通過將未知參數用概率分布而不是點估計的方式表示，能夠很方便地將這三種uncertainty統一起來處理（這就是BDL框架想要做的事情）。

另外BDL還有 “隱式的”正則化作用，在數據缺少的時候能夠避免過擬合。通常BDL由兩部分組成：perception模塊和task-specific模塊。前者可以通過權值衰減或者dropout正則化（這些方法擁有貝葉斯解釋），后者由于可以加入先驗，在數據缺少時也能較好地進行建模。

當然，BDL在實際應用中也存在著挑戰，比如時間復雜性的問題，以及兩個模塊間信息傳遞的有效性。

付費5元查看完整內容

計算學習理論 · Transformer · PyTorch · 人工智能 · 微軟 ·

2019 年 11 月 8 日

[付費5元查看完整內容]微軟發布DialoGPT預訓練語言模型，論文與代碼 Large-Scale Generative Pre-training for Conversational Response Generation

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

論文摘要：我們提出了一個大型的可調神經會話響應生成模型DIALOGPT(對話生成預訓練Transformer)。經過2005年至2017年期間從Reddit評論中提取147M大小的類似的對話內容，DialoGPT擴展了Hugging Face PyTorch transformer，在單輪對話設置中實現了在自動和人類評估性方面都接近人類。我們表明，利用DialoGPT的會話系統比基線系統生成更相關、更有內容和上下文一致的響應。預訓練的模型和訓練方法已經公開發布，以促進對神經響應生成的研究和更智能的open-domain對話系統的開發。

代碼鏈接：//github.com/microsoft/DialoGPT

付費5元查看完整內容