在DARPA終身學習機器（L2M）項目下，我們探索了一種自主系統終身學習的綜合方法，解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括：感知和行動的持續學習，不同任務之間的遷移，可擴展的終身知識維護，自主發現的自我導向學習，以及任務的非平穩分布建模。我們分別探索了這些方面，為分類和強化學習設置開發了各種終身學習算法。然后，這些開發的算法通過模塊化框架整合在一起，產生了一個同時支持分類和強化學習任務的L2M系統。

我們使用約翰霍普金斯應用物理實驗室的MiniGrid終身學習基準評估了這個L2M系統的終身學習性能。與單任務專家相比，對于該基準的Condensed和Dispersed場景，我們的結果顯示我們的系統有能力大大加快學習速度，平均前向遷移率為4.18和3.55，平均樣本效率為1.32和1.15。除了效率之外，我們的系統還顯示出比單任務專家更有效的性能，相對性能比為1.04和1.03，正向遷移比為1.12和1.04。

我們還通過使用Matterport 3D的機器人尋寶游戲，將這個L2M系統應用于綜合感知和行動，展示了我們的L2M系統在非結構化環境中快速學習不同任務并快速適應變化的能力。我們的結果顯示，與單任務專家相比，我們的系統學習分類任務的速度和準確性大約是他們的兩倍，顯示出平均相對性能為2.21，平均樣本效率為1.71，同時完全緩解了災難性遺忘。對于該領域的強化學習設置，我們的系統獲得了4.37的平均性能維持率和1.11的平均后向遷移率，這表明我們的終身學習智能體能夠學習新的任務，同時減輕災難性遺忘。我們的系統在利用過去的知識來啟動強化學習任務的學習方面也顯示出強大的潛力，其平均前向遷移率為3.11。然而，經過調整的單一任務專家能夠在單個強化學習任務上勝過我們的系統，我們的系統的平均相對性能比只達到0.88。我們還進行了各種消融實驗和對單個終身學習組件的評估。總體而言，我們的項目產生了110多篇科學出版物，展示了我們的工作和成果，從根本上推進了我們對終身機器學習的理解和能力。作為其中的兩個例子，我們的項目開發了最先進的使用占位預測的視覺導航，贏得了2020年人居署PointNav挑戰賽，并在2022年ICRA會議期間，在觀眾面前展示了服務機器人的實時終身學習的現場演示。

引言

2.1 本報告的目的

本報告記錄了我們在 DARPA 終身學習機器 (L2M) 計劃下的項目，涵蓋了我們在該計劃第 1 階段和第 2 階段的工作。

2.2 研究方法概述

我們的項目探索了自主系統終身學習的綜合方法，解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體的變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括：感知和行動的持續學習，不同任務之間的遷移，可擴展的終身知識維護，自主發現的自我導向學習，以及任務的非平穩分布建模。

在第一階段，我們分別探索了這些方面，為分類和強化學習設置開發了各種終身學習算法。這些開發的算法在個別實驗中得到了評估。

在第二階段，我們開發了一個綜合的、模塊化的框架，將上述這些方面結合到一個支持分類和強化學習任務的L2M系統中。在第一階段的算法中，每個方面最有前途的算法被選為該系統中的模塊。然后，我們將這個L2M系統（1）應用于約翰霍普金斯應用物理實驗室（APL）的MiniGrid終身學習基準；（2）通過使用Matterport 3D的機器人尋寶游戲來整合感知和行動，展示了我們的L2M系統在非結構化環境中快速學習不同任務并迅速適應變化的能力。在第二階段，我們還繼續開發了第一階段的個別算法，并探索了其他終身學習的個別方法。當這些基本算法在我們的L2M評估中顯示出前景時，我們就把它們過渡到L2M系統的模塊中。

2.3 本報告組織結構

由于這個項目包含了大量的算法（詳見附錄A），本報告將在第3.1節中首先關注綜合的L2M系統，展示我們如何構建我們的終身學習系統以及它如何支持各個終身學習算法的高層觀點。然后，我們將在第3.3-3.4節中介紹我們在第一和第二階段中開發的主要的單個終身學習算法。我們對結果的介紹也是類似的，首先探討綜合L2M系統在APL MiniGrid（第4.2節）和我們對具身智能體的Scavenger Hunt（第4.3節）的應用中的評價，然后探討本項目下開發的單個算法的評價（第4.4-4.5節）。

2.4 主要貢獻

我們的工作產生了一些主要的貢獻，在本節中有所描述。為方便起見，我們將這些貢獻按照那些已被納入綜合L2M系統的方法和其他未被納入的方法進行分組。正如第3.1節所詳述的，我們選擇算法作為L2M系統的組成部分是基于它們在第一階段結束時和第二階段早期的成熟度，以及它們對我們應用的必要性。

2.4.1 集成系統和部件

一個綜合的終身學習框架。我們開發了一個模塊化的終身學習系統，在現實的服務機器人環境中支持分類和強化學習（RL）任務。該系統的核心是將因子化的終身學習方法與移動機器人的感知動作循環相結合，我們將其分為獨立的分類和RL管道。該系統包括額外的可選模塊，可以與核心分類和RL管道相結合，包括支持元學習、內在動機、探索、主動視覺映射和課程學習。這些組件可以根據問題領域來啟用或禁用，我們討論了為一個視覺尋寶游戲應用開發和評估的配置實例。

用于終身深度學習的去卷積因子化CNN（DF-CNN）。在非深度多任務和終身學習方面的現有工作表明，使用模型參數空間的因子化表示進行轉移是成功的，允許更靈活地構建任務模型。受此啟發，我們介紹了一種在卷積神經網絡（CNN）中共享潛伏因子化表征的新架構。所提出的方法被稱為去卷積因子化CNN[4, 5]，使用去卷積因子化和張量收縮的組合來進行任務間的靈活轉移。在兩個計算機視覺數據集上的實驗表明，DFCNN在具有挑戰性的終身學習環境中取得了卓越的性能，抵抗災難性的遺忘，并表現出反向轉移，從隨后的經驗中改善先前學到的任務，而無需重新訓練。與單任務學習者相比，DF-CNN在CIFAR-100和Office-Home任務上分別取得了19.2%和7.9%的改進，擊敗了其他多任務和終身學習基線。

終身策略梯度：無遺忘的快速訓練（LPG-FTW）。策略梯度（PG）方法在學習高維動態系統的控制策略方面已經顯示出成功。它們最大的缺點是在產生高性能的策略之前需要大量的探索。在終身學習的環境中，智能體在其一生中會面臨多個連續的任務，重用以前看到的任務的信息可以大大加快新任務的學習。我們提供了一種新的終身策略梯度學習方法，通過策略梯度直接訓練終身函數近似器，使智能體在整個訓練過程中受益于積累的知識。我們的經驗表明，我們的算法比單任務和終身學習基線學習得更快，收斂得更好，并完全避免了在各種挑戰性領域的災難性遺忘。在Meta-World任務中，LPG-FTW比在每個任務中單獨訓練的智能體取得了17.5%的改進，比最接近的終身學習方法改進了533%。

快速適應的元優化器(KFO)。我們開發了一種算法，META-KFO，它能夠在不增加模型的建模能力的情況下轉換較小模型的梯度，但仍能帶來更好的元可學習性。我們在討論和分析我們提出的META-KFO算法的同時，還簡要介紹了各種學習優化的方法。我們推測為什么足夠大的深層模型可以進行元學習：上層具有轉化底層梯度的同等效果，就好像上層是一個外部元優化器，在一個僅由底層組成的較小的網絡上運行。

高效探索和導航的占位預測（OCCANT）。最先進的導航方法利用空間記憶來概括新的環境，但它們的占位圖只限于捕捉智能體直接觀察到的幾何結構。我們開發了占位預測，智能體使用其以自我為中心的RGB-D觀察來推斷可見區域以外的占位狀態。這樣一來，智能體就能更迅速地建立起自己的空間意識，這有利于在三維環境中進行有效的探索和導航。通過利用以自我為中心的視圖和自上而下的地圖中的上下文，我們的模型成功地預測了一個更廣泛的環境地圖，其性能明顯優于強大的基線。我們的主要貢獻是 (1)一個新的占有率預測框架，利用來自自我中心RGB(D)視圖的語義和幾何背景；(2)一個新的探索策略方法，結合占有率預測，以較少的探索獲得更完整的地圖；(3)成功的導航結果，在蘋果對蘋果的比較中，包括在歸納到一個不相交的數據集中的環境時，比目前的技術水平有所改善。我們的方法是2020年人居環境點導航挑戰賽的獲勝作品。

**學習內在獎勵的策略梯度方法（LIRPG）**最佳獎勵問題[6]旨在學習內在獎勵的參數，使所得獎勵達到RL智能體的學習動態，使從某些分布中抽取的任務的壽命（外在）回報最大化。我們提出了一種元梯度方法[7, 8]來解決最佳獎勵問題。在高層次上，我們在每個生命周期的迭代中抽取一個新的任務和一個新的隨機策略參數，并使用具有策略梯度的內在獎勵函數模擬智能體的生命周期。同時，我們通過考慮內在獎勵對策略參數的影響來計算元梯度，用壽命值函數更新內在獎勵函數。通過對內在獎勵的分析，我們展示了我們的方法如何鼓勵在不確定的情況下進行探索，利用對象之間的因果關系，并考慮到非平穩的獎勵。

強化學習的課程策略（CMDP）。強化學習中的課程學習是一種訓練方法，旨在通過首先在一系列較簡單的任務上進行訓練，并將獲得的知識轉移到目標任務上，從而加快對困難目標任務的學習。自動選擇這樣的任務序列（即課程）是一個開放的問題，也是該領域最近許多工作的主題。在這個項目中，我們以最近的一種課程設計方法為基礎，將課程排序問題表述為馬爾科夫決策過程（MDP）。我們對這一模型進行了擴展，以處理多種遷移學習算法，并首次表明可以從經驗中學習這一MDP的課程策略[9]。我們探討了使之成為可能的各種表示方法，并通過在兩個不同領域為多個智能體學習課程策略來評估我們的方法。結果表明，我們的方法產生的課程可以訓練智能體在目標任務上的執行速度，甚至比現有的方法更快。此外，我們最近的進展表明，這種為一組任務學習的課程策略可以被推廣到未見過的新任務集上[10]。

目標關系和分布模型(OBJMAP)。為了幫助定位智能體更有效地解決視覺搜索任務，我們提出在多個環境中對目標-目標的空間關系進行建模。在探索一個環境的時候，一個智能體最好能利用已經看過的目標知識來幫助更快地找到目標物體。我們通過學習不同類別的目標之間的共同發生率統計來解決這個問題，建立一個包含所有看過的目標位置的環境地圖，然后結合這些信息來計算目標物體出現在地圖上每個位置的概率。

2.4.2 研究方法

組合式終身分類（COMPCLF）和強化學習（COMPRL）。人類智能的一個特點是能夠構建自成一體的知識塊，并以新穎的組合方式充分重用它們來解決不同但結構相關的問題。由于基礎搜索問題的組合性質，學習這種組合結構對人工系統來說是一個重大挑戰。到目前為止，對組合式學習的研究在很大程度上與終身學習或持續學習的工作分開進行。我們整合了這兩方面的工作，提出了一個通用的框架，用于終身學習可用于解決一系列相關任務的組合結構。我們的框架將學習過程分為兩個廣泛的階段：學習如何最好地結合現有的組件以吸收一個新的問題，以及學習如何調整現有的組件集以適應新的問題。這種分離明確地處理了記憶如何解決早期任務所需的穩定性和解決新任務所需的靈活性之間的權衡，正如我們在分類環境的廣泛評估中所顯示的那樣。然后，我們探索了一種基于神經模塊的RL的特殊形式的組合，并提出了一組直觀地承認組合解決方案的RL問題。從經驗上看，我們證明了神經組合確實捕捉到了這個問題空間的基本結構。我們進一步提出了一種組合式終身RL方法，該方法利用積累的神經組件來加速對未來任務的學習，同時通過重放經驗的離線RL來保持對以前任務的表現。在持續學習中使用可組合的表征，當任務大規模多樣化時，比非模數方法提供了82.5%的相對準確性的性能增益。

用于改進目標檢測的視頻中的無監督硬例挖掘（DETFLICK）。最近，通過使用專注于硬負面例子的訓練目標，即目前被檢測器評為正面或模糊的負面例子，在目標檢測中獲得了重要的收益。當網絡被訓練來糾正這些例子時，這些例子會強烈影響參數。不幸的是，它們在訓練數據中往往是稀疏的，而且獲取成本很高。在這項工作中，我們展示了如何通過分析視頻序列上經過訓練的檢測器的輸出來自動獲得大量的硬性否定。特別是，在時間上孤立的檢測，即沒有相關的之前或之后的檢測，很可能是硬否定句。我們描述了從無標簽的視頻數據中挖掘大量此類硬陰性（以及硬陽性）的簡單程序[11]。我們的實驗表明，在這些自動獲得的例子上重新訓練檢測器，往往能顯著提高性能。我們介紹了在多個架構和多個數據集上的實驗，包括人臉檢測、行人檢測和其他目標類別。

使用自我訓練使目標檢測器自動適應新領域（STSL）。這項工作解決了現有的目標檢測器在無監督的情況下適應新的目標領域的問題。我們假設這個領域中大量的無標簽的視頻是現成的。我們通過使用現有檢測器的高置信度檢測來自動獲得目標數據的標簽，再加上通過使用跟蹤器的時間線索獲得的硬（錯誤分類的）例子。這些自動獲得的標簽然后被用于重新訓練原始模型。我們提出了一個修改過的知識提煉損失，并研究了為目標領域的訓練例子分配軟標簽的幾種方法。我們的方法[12]在具有挑戰性的人臉和行人檢測任務上進行了實證評估：在WIDER-Face上訓練的人臉檢測器，由從網上抓取的高質量圖像組成，適用于大規模的監控數據集；在BDD-100K駕駛數據集的清晰、白天圖像上訓練的行人檢測器，適用于所有其他場景，如雨天、霧天、夜間。我們的結果證明了結合從跟蹤中獲得的硬例子的有用性，通過蒸餾損失使用軟標簽相對于硬標簽的優勢，并顯示了作為無監督領域適應目標檢測器的簡單方法的可喜性能，對超參數的依賴性最小。

一半和一半。研究視覺常識的新任務和基準（HNH）對物體、人、行動和場景類型的一般識別一直是計算機視覺研究的核心重點。然而，現在我們在這些問題上已經取得了一定程度的成功，現在是時候定義新的問題，以刺激我們達到視覺智能的下一個水平。視覺常識的發展對于開發能在動態、新穎環境中發揮作用的智能智能體至關重要。但究竟什么是視覺常識？我們認為，在不直接可見的情況下，對事物可能存在的位置進行智能評估的能力，是人類和其他智能生物共享的關鍵和普遍的能力，是視覺常識的一個基本組成部分。人類經常表現出在沒有明確視覺線索的情況下做出決定的能力。這種 "智能搜索 "是視覺常識的一個突出的例子，我們相信它代表了一種技能，在開發智能體中是必不可少的。與我們的工作密切相關的是早期關于將上下文信息納入視覺預測的努力[13, 14, 15, 16]。我們相信，以最基本的形式對這種能力進行正式的基準測試可以是一個有價值的補充。在這項工作中，我們將推斷圖像中我們無法看到的東西的存在這一問題正式化。為了做到這一點，我們依賴于這樣一個事實，即一幅圖像的不同視圖描繪的是同一個場景。因此，個別部分可以作為其他部分的背景線索。由于這個原因，我們把這些任務稱為 "一半和一半 "任務[17]。

高效的終身逆向強化學習（ELIRL）。從演示中學習（LfD）的方法在通過模仿用戶獲得行為策略方面已經顯示出成功。然而，即使是單一的任務，LfD也可能需要大量的示范。對于必須通過示范來學習許多任務的多功能智能體，如果每個任務都單獨學習，這個過程會給用戶帶來很大的負擔。為了解決這一挑戰，我們引入了從演示中終身學習的新問題，這使得智能體能夠不斷地建立在從以前演示的任務中學到的知識上，以加速新任務的學習，減少所需的演示量。作為這個問題的解決方案之一，我們提出了第一個反向強化學習的終身學習方法，它通過演示來學習連續的任務，不斷地在任務之間轉移知識以提高性能。在演示的任務之間分享信息導致恢復的獎勵函數減少約65%。

使用高級共享特征集（SHELS）的任務無關的終身學習。深度神經網絡（DNNs）通常不能在動態開放世界環境中對未見過的類別進行概括，在這種環境中，概念的數量是無限制的。相比之下，人類和動物的學習者有能力通過識別和適應新的觀察而逐步更新他們的知識。特別是，人類通過獨有的（唯一的）基本特征集來描述概念，這些特征用于識別已知類別和識別新奇事物。受自然學習者的啟發，我們開發了一個稀疏的高層-排他性、低層-共享特征表示法（SHELS），它同時鼓勵學習排他性的高層特征集和基本的、共享的低層特征。高層特征的排他性使DNN能夠自動檢測出分布外（OOD）的數據，而通過稀疏的低層特征有效地利用容量，可以容納新的知識。由此產生的方法使用OOD檢測，在沒有已知類別邊界的情況下進行類別遞增的終身學習。我們表明，在各種基準數據集上，使用SHELS進行新穎性檢測，在統計上比最先進的OOD檢測方法有明顯的改進。此外，我們證明了SHELS模型在類增量學習環境中減輕了災難性的遺忘，使一個結合了新奇性檢測和適應性的框架能夠支持開放世界環境中的學習。

復合強化學習的基準（CompoSuite）。我們創建了CompoSuite，一個開源的模擬機器人操作基準，用于復合多任務和持續的RL。每個CompoSuite任務要求一個特定的機器人手臂操縱一個單獨的物體，以實現任務目標，同時避開一個障礙物。任務的這種組合式定義使CompoSuite具有兩個顯著的特性。首先，改變機器人/物體/目標/障礙物的元素會導致數以百計的RL任務，其中每個任務都需要有意義的不同行為。其次，RL方法可以專門評估其學習任務組成結構的能力。后者對問題進行功能分解的能力將使智能體識別并利用學習任務之間的共性來處理大量高度多樣化的問題。我們對現有的單任務、多任務和組合式學習算法在不同的訓練環境中進行評估，并評估它們對未見過的任務進行組合概括的能力。我們的評估暴露了現有RL方法在組合性方面的缺陷，并開辟了新的研究途徑。平均而言，單任務和多任務智能體能夠解決大約40%的任務，而具有明確組成結構的智能體則在此基礎上有所提高，解決了全部基準任務的92%。

用于多智能體強化學習的多智能體-注意力批判（MAAC）。終身學習智能體可能需要在其生命周期內與其他學習智能體合作和/或競爭。傳統的強化學習算法無法考慮到其他智能體，并受到其他智能體學習所引起的環境非平穩性問題的影響。最近的多行為體強化學習方法[18, 19]試圖通過利用行為體批判范式中的集中批判來解決這些問題；然而，隨著存在的行為體數量增加，這些方法不能很好地擴展。我們的方法，即多行為體-注意力批評[20]，將注意力機制納入集中式批評者，以緩解這一問題。在多智能體領域的實驗表明，相對于最先進的基線而言，性能和可擴展性都有所提高。

用于多智能體強化學習的隨機實體明智因式分解（REFIL）。在智能體的一生中，它可能需要與具有不同能力/技能的智能體團隊合作；然而，在這些智能體的子組中經常出現共同的行為模式。我們提出的方法，即想象學習的隨機實體因式分解（REFIL）[21]，試圖利用這些共同模式，通過將價值函數隨機分解為由不相干的實體子組組成的條款，來提高類似團隊的概括性。通過以這種方式構建價值函數預測，我們能夠更好地預測熟悉的子組狀態的新組合中的預期收益。在復雜的多任務多智能體設置上的實驗表明，與最先進的基線相比，樣本效率和概括性都有所提高。

解決清道夫服務機器人的隨機旅行購買者問題（STPP）。創造能夠在人類居住的環境中執行通用服務任務的機器人，一直是人工智能和機器人研究的一個長期的大挑戰。與各種任務相關的一個特別有價值的技能是根據要求定位和檢索物體的能力。在這項工作中，我們將這種技能建模為 "尋寶游戲"（Scavenger Hunt，SH），該游戲被表述為NP-hard隨機旅行購買者問題的一個變種。在這個問題中，目標是盡可能快地找到一組物體，給定它們可能被找到的概率分布。我們在模擬和真實的移動機器人上研究了SH問題的幾種解決算法的性能。我們使用強化學習（RL）來訓練一個智能體來計劃一個最小成本的路徑，并表明RL智能體可以勝過一系列啟發式算法，實現接近最佳的性能。為了促進對這一問題的研究，我們介紹了一個公開可用的軟件棧和相關網站，使用戶能夠上傳尋寶游戲，機器人可以下載、執行并從中學習，以不斷提高他們在未來游戲中的表現。

基于模型的貝葉斯探索的終身強化學習（VBLRL）。我們提出了一種終身的RL算法，該算法提取了以前遇到的任務中存在的共同結構，以便智能體能夠快速學習新任務的特定動態。我們考慮的終身RL問題可以被建模為隱藏參數MDP或HiP-MDP[22, 23]，其中真實任務動態的變化可以由一組隱藏參數描述。我們的算法比以前的終身學習和HiP-MDPs的工作更進一步：1）在任務集合的不同抽象層次上單獨建模認識性和非認識性的不確定性：由描述任務概率分布的世界模型分布捕獲的不確定性，以及由單個任務內（隨機的）動態的特定任務模型捕獲的不確定性。為了實現更準確的順序知識轉移，我們將這兩個量的學習過程分開，并保持一個近似于它們的分層貝葉斯后驗。2）執行層次化后驗所啟用的貝葉斯探索。該方法讓智能體根據從后驗中采樣的模型進行優化操作，從而提高采樣效率。

關于這些算法的細節將在下一節提供。

付費5元查看完整內容

報告總結

1.1 項目計劃概述

在DARPA終身學習機（L2M）計劃下，Teledyne進行了兩個階段的努力，開發能夠選擇性可塑性的機器學習系統。我們的努力解決了終身學習系統所面臨的兩個關鍵挑戰：(1)對其參數進行持續而穩定的學習，以及(2)如何實現最佳能力分配，以便在任務和條件發生變化時獲得有效的學習和性能。我們的核心前提是，大腦通過神經調節來解決這兩個問題：持續調節神經活動和可塑性的化學信號。具體來說，我們研究了神經調節劑乙酰膽堿（ACh）調節長期突觸可塑性和短期突觸活動的機制，特別是在進行物體識別和鑒定的視覺通路（腹側）。我們的目標是ACh作為編碼信號處理和推理中不確定性水平的反饋信號的作用；我們探討了這一信號如何調節低層次感覺特征的計算和選擇，同時也推動了高層次推理的學習。

這些調節原則構成了我們新穎的、可塑結點網絡（PNN）架構的核心。我們的PNN有一個層次結構，反映了大腦腹側通路的兩階段組織，這也是其他感覺通路所共有的，如聽覺和視覺定位（背側）通路。圖1提供了分層機器學習系統中選擇性可塑性的架構的高層次概述，其中異質層被引入以實現連續的動態，以支持早期層的最佳特征提取和容量分配，同時在后期層實現穩定和連續的學習。以下括號中的數字是指圖1中的橙色數字。調控是由不確定性的措施驅動的（1）。通過分析信號（自下而上）和任務要求/獎勵（自上而下）得出的不確定性被用來（2）影響早期層的特征提取/選擇和后期層的推理。早期各層調制的結果是快速招募網絡能力的特定部分（3），而在后期各層，學習被更強烈地調制，以確保穩定性，同時為新的或更新的任務保持適當的可塑性（4）：網絡的早期各層進行特征提取（反映枕葉皮層），而后期各層計算推斷（匹配前額葉和顳葉皮層過程）。一個類似ACH的信號（測量不確定性）動態地調節著網絡的計算和學習。我們的網絡是異質的：不同層次和類型的節點對調制信號的反應不同。

1.2 普遍方法

終身學習需要不斷地適應；無論多少訓練都不能使一個網絡，無論是生物還是人工的，為它在其一生中可能收到的所有輸入做好準備。特別是，持續的學習需要有能力改變網絡的參數而不忘記先前的信息（即穩定的學習，也被稱為穩定性-可塑性困境[1]）。此外，終身學習系統還面臨著第二個困境：持續編碼新信息的能力需要大量的計算資源，但由于自由參數的數量巨大，非常大的網絡是難以優化的。圖2說明了深度學習架構情況下的擴展限制。正在進行的研究[2]表明，無論用多少數據來訓練深度學習網絡，都無法擴展到任意大小。特別是，我們在DARPA的TRACE項目下進行的內部實驗表明，一旦一個深度網絡超過了最佳規模（圖2中的[a]），其學習能力就會隨著規模的擴大而急劇下降（圖2中的[b]）。這意味著，僅僅建立更大的深度網絡并向其提供更多的數據，并不足以實現人類水平的學習。相比之下，我們的調制網絡只招募其節點的一小部分來優化容量（a），同時攜帶大的整體容量（b），使其能夠克服這個擴展限制。相比之下，終身學習系統必須以更智能的方式管理其計算資源，以實現最佳的容量分配和緩解性能下降。

圖 2. 深度學習擴展限制

1.2.1 理論工作

我們的基本前提是，大腦通過神經調節來實現這兩種能力：利用化學信號不斷調節突觸活動和可塑性。在神經系統中的許多神經調節劑中，乙酰膽堿是哺乳動物大腦中研究最廣泛的一種；它被認為與調節幾種高水平的認知功能有關，包括注意力、學習和記憶。更重要的是，ACh調節長期突觸可塑性和短期神經活動水平，特別是在腹側視覺通路（進行物體識別和鑒定）[2]。乙酰膽堿已被證明可以編碼不確定性，特別是預期的不確定性[3]（以及相關的意外獎勵信號[4]），這是觸發和調節學習的一個關鍵反饋信號。特別是在腹腔通路中，乙酰膽堿調節著低層次感覺特征的計算，并驅動著更高層次推理的學習。

作為我們努力的一部分，我們開發了一個分層的、異質的、可塑性結點網絡（PNN）算法，稱為不確定性調節學習（UML），其中基于神經調節的計算特性使網絡的能力得到優化，以允許適應性和穩定性學習（圖3）。UML是根據大腦皮層的分層感覺信號分解和推理機制、反饋注意以及對不匹配的期望進行的神經調控來建模的。在UML中，一個類似ACh的信號（由測量的不確定性觸發）動態地調節著計算和學習。UML在機器學習方面實現了幾個突破性的能力，具體而言：

穩定的學習，允許最大限度的更新，而不干擾現有的學習行為（即解決穩定-可塑性的困境）。
- 與自上而下的反饋相結合，使輸入和任務的連續和少量的學習與以前學到的信息完全不同
最佳的能力分配，只選擇和加強那些最大限度地提高信息含量和與當前任務相關的特征。
- 當網絡被配置為分層學習時，導致多種計算動機的共存（即UML可以在不同的任務或行為之間復用）。
- 以及每次有選擇地招募網絡的不同子集，允許它擴展到任意數量的節點（即幾乎沒有學習新信息的能力）。

UML代表了本地異質結構、反饋信號和神經調節作用的一個引人注目的新計算模型。

圖 3. Teledyne 在 L2M 階段 1 期間開發的 UML 算法

1.2.2 實驗和示范工作

我們的工作展示了算法和一個具有學習機制的集成系統，能夠在復雜的學習任務中進行終身學習。此外，我們證明了我們的UML算法能夠賦予其他機器學習算法以適應能力，在沒有災難性遺忘的情況下進行學習，并在非正常情況下恢復性能。這些結果的總結將在第1.3節介紹。

在該計劃的第二階段，Teledyne領導了一個系統組（SG），目標是整合一整套終身學習能力。為實現這一目標，Teledyne定義了一套最低限度的相關能力，并與我們的不確定性調制的持續學習范式保持一致（圖4，也見第2.2.1節）。該計劃第一階段的兩名L2M執行者被邀請加入我們的SG，他們是加州大學歐文分校，與加州大學圣地亞哥分校（UCI/UCSD）和密蘇里科技大學（S&T）的研究人員合作。在整個第一階段，Teledyne開發并演示了感官信號處理算法，該算法采用自下而上的信號分解架構來推斷與目標和決策有關的假設（圖4中的橙色和藍色塊）。此外，Teledyne開始展示使用注意力機制來調節學習和適應。S&T被招募來利用他們在這個算法系列中的經驗，共同實現一個受大腦自上而下注意力機制啟發的系統組件（圖4中綠色/黃色塊）。在與UCI/UCSD的合作中，我們著手研究睡眠啟發算法在任務執行后優化記憶和跨任務鞏固記憶（即知識）的作用（圖4中分別為洋紅色和青色塊）。

圖 4. 基于 SG 成員開發的類腦機制集成的關鍵 L2M 功能

1.3 成果概述

我們提出的方法的關鍵前提是，智能生物體測量和識別其環境、輸入、約束或目標的關鍵變化，以使它們能夠適應和學習而不需要外部指導（如教師、監督等）。正是通過這種自我監督的監測和評估，一個終身學習的智能體可以在復雜和變化的條件下具備可靠的功能。

通過我們的研究和實驗工作，我們確定了在生物智能系統中，測量和跟蹤不確定性是觸發適應和學習的關鍵機制。我們的L2M智能體被證明可以適應他們所學的技能或將新的技能納入他們的劇目，而不會出現災難性的遺忘。我們還證明了智能體有能力利用以前的技能來提高學習效率（前向和后向轉移），在存在干擾任務或條件變化的情況下快速恢復性能，利用樣本來適應或獲得技能，其效率與單一任務專家相同或更好（見4.1-4.4節）。

最后，Teledyne通過在整個項目第二階段進行的一系列里程碑式的實驗，證明了其綜合系統的有效性。這些結果將在第4.5節中介紹，并強調了在計劃定義的場景中L2M指標的性能。這些實驗有助于在所有L2M SG團隊之間建立穩定的節奏和協調的結果，并記錄性能方面的進展。此外，我們還利用這些實驗來確定我們的系統和/或算法的成功和缺點。對后者的分析被用來優化我們的工作，并適當地關注系統和算法的發展。結果是我們的系統在四個里程碑事件的過程中不斷改進，從第一次事件中只達到一個指標，到第四次事件中達到所有五個指標。這些結果也在第5.0節中進行了總結。

1.4 主要結論與建議

我們在整個項目中的工作完成了其主要目標：

從神經調節的生物機制中得到啟發，得出一個有效的算法
實現一種對現有機器學習系統具有廣泛適用性的算法
使得智能體能夠自我監督，不斷適應和學習
整合一個表現出注意力、基于不確定性的調節、分層學習和睡眠啟發的記憶優化機制的系統，以展示終身學習能力

我們工作的一個重要成就是開發了UML，一個新穎的終身學習算法，能夠自我監督以適應新的條件，從少數樣本中學習，并得出穩健的分層知識表示。最近一個令人振奮的認識是，我們著手研究并在最初提案中提出的關鍵能力（見表1）不僅完全實現，而且在整個計劃的所有實驗和演示中得到了徹底的證明。

表 1. Teledyne 方法的特點和優勢

特點	優勢
不確定性調控學習：我們認為，神經調控可以上調對解決兩個或多個類別之間的區別至關重要的神經元的學習。	證明新任務的學習表示不會覆蓋以前學習的任務。
不確定性調控容量分配：我們建議研究神經調控在上調網絡部分的激活和學習中的作用，這些部分可以最佳地解決特定任務并抑制那些無助于減少不確定性的部分。	構建具有非常大容量的網絡來支持終身學習，同時不會因為只激活網絡中最能支持任務性能的部分而導致準確性下降。
不確定性觸發新學習：通過跟蹤預期，新算法可以隨著時間的推移調整和改進其性能，尤其是在引入新任務或條件時。	展示了當響應確定性低于所需閾值時如何觸發學習，從而導致系統能夠自主檢測需要學習的新任務或條件。
不確定性調控特征提取：跨特征層的信號不確定性測量驅動早期層（特征提取器）中傳遞函數的調控。	實施的算法能夠適應特征提取處理以補償任務、條件或信號屬性的變化。

在第18個月（M18）的評估中，Teledyne SG顯示的結果表明，我們的終身學習者在五個項目指標中達到或超過了終身學習的門檻，在五個指標中的兩個指標超過了目標。這在第4.5.1節表11中顯示，淺綠色表示某項指標超過了終身學習門檻，深綠色表示某項指標超過了DARPA計劃目標。

我們從努力中得到的一個重要啟示是，不確定性已經被證明是一個有效的措施，它支持在線學習和創建強大的知識表征，而不需要監督或強化信號。我們還確定，我們開發的L2組件可以有效地集成到現有的ML系統中，以支持提高性能（例如，魯棒性、適應性等）。因此，存在大量的過渡機會（例子在第2.4節中討論）。Teledyne將繼續通過政府資助的工作、商業努力和內部資助的研究活動來尋求此類機會。Teledyne 也歡迎任何政府機構或個人要求進行討論，以促進對過渡機會的深入了解或識別。

我們的UML算法被證明是一個有效的組件（第2.3節），不僅適用于一個綜合的L2系統，而且可以作為現有機器學習系統的插件。其中包括為決策支持而設計的端到端系統，UML可以監測超出常規的條件或標記需要額外樣本或學習的條件。UML還被證明可以支持像基于強化學習的智能體那樣復雜的系統在新條件下的性能恢復。由于其輕量級的處理要求，UML可以在一個商品處理器（CPU）上以2000Hz的速度執行，因此適合在許多平臺上部署。

付費5元查看完整內容

AI與軍事 · 主動學習 · 美國空軍研究實驗室（AFRL） ·

2022 年 10 月 30 日

[付費5元查看完整內容]《數據高效的主動機器學習》美國空軍2022最新頁技術總結報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

數據高效的機器學習（DEML）對AF/DoD（美空軍/美國防部）的運作至關重要，原因如下：首先，訓練機器學習算法通常需要一個大型的、完全標記的訓練數據集。人類對原始數據的標注是一個昂貴而耗時的過程，尤其是在專家分析師隊伍有限的情況下。因此，機器學習算法必須從有限的標記的訓練數據中產生準確的預測模型。此外，任務環境和目標可能是多樣的、快速變化的，因此，機器學習模型必須能夠快速適應手頭的情況。機器學習系統（和人類分析員）可用的原始數據的質量也往往是不可預測的。可能經常發生的情況是，并非所有用于預測和決策的理想特征都可用。因此，機器學習算法必須對缺失或部分未觀察到的數據具有魯棒性。

這項工作的范圍是在以下關鍵領域為DEML創造新工具：1）為涉及豐富的高維特征空間的分類和搜索問題開發數據效率高的主動學習算法；2）開發新的交互式工具，使人類分析者能夠快速和準確地標記大型數據集；3）開發一個新的框架，用于豐富的人類注釋，除標簽外還提供解釋和特征相關性反饋；4）在軟件中建立算法原型。這些目標將需要對DEML問題進行基本的數學研究和分析、算法開發和原型設計，以及用真實和合成數據集進行測試和實驗。

付費5元查看完整內容

AI與軍事 · 終身學習 · 深度神經網絡 · 非參數貝葉斯 · 美國空軍研究實驗室（AFRL） ·

2022 年 10 月 21 日

[付費5元查看完整內容]《用于受生物啟發終身學習的集成非參數貝葉斯和深度神經網絡框架》美國空軍研究實驗室2022最新20頁項目技術報告，DARPA終身學習機器（L2M）計劃和持續學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，在獨立和相同分布（i.i.d.）數據的假設下，主要針對單一任務進行訓練的深度學習已經取得了巨大的進展。然而，當天真地在多個任務上連續訓練，而不重溫以前的任務時，已知神經網絡會遭受災難性的遺忘（McCloskey和Cohen，1989；Ratcliff，1990），即在學習新任務時，執行舊任務的能力往往會喪失。與此相反，生物生命能夠在一生中從明顯的非即得經驗中學習許多任務，獲得新的技能并重復使用舊的技能來學習新的能力，同時保留以前的重要知識。當我們努力使人工系統越來越智能時，自然生命不斷學習的能力是一種重要的模仿能力。持續學習（Parisi等人，2019）最近在機器學習研究中引起了相當大的關注，并出現了一些期望值。模型應該能夠依次學習多個任務，最終任務的數量和復雜程度未知。重要的是，在學習新的任務時，應該不會對以前的任務產生災難性的遺忘，最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移：以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率，這在數據稀缺的情況下尤為重要。一些方法通過擴展來解決持續學習的問題，也就是說，模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上，這些方法通過設計減輕了災難性的遺忘，因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整，但這樣做需要人為估計需要多少擴展，這不是一個簡單的過程。相反，通常對每個新任務采用預設的、恒定的擴展。另外，我們可以考慮動態的、數據驅動的模型擴展，或者采用模塊化的模型增長方法，從而開發出一個框架，為持續學習建立緊湊的模型，其中模型的大小隨著任務數量的增加（最好是不斷增加）而有效擴展，同時減輕災難性的遺忘現象。此外，我們試圖開發一個框架，使其可以通用于不同的持續學習任務，例如分類、圖像的生成過程和自然語言處理序列標簽，即命名實體識別。在一個持續學習的環境中，我們會遇到一連串具有預定目的的任務，但每個任務都由一個不同的數據集組成。主要目標是建立模型，使其在不同的任務中表現盡可能一致，同時i）重復使用以前任務的信息，以及ii）防止模型不受控制地增長（大小）。然而，我們的方法包括為每個任務建立一個模型，這樣，模型的大部分組件是跨任務共享的（全局的），剩下的幾個是特定任務的（局部的），從而允許信息共享和控制增長。因此，我們試圖開發具有全局和特定任務參數的特定任務（深度學習）模型，以實現有效和高效的持續學習。

引言

1.1 背景

近年來，在獨立和相同分布（i.i.d.）數據的假設下，主要針對單一任務進行訓練的深度學習取得了巨大的進展。然而，當天真地在多個任務上連續訓練，而不重溫以前的任務時，已知神經網絡會遭受災難性的遺忘（McCloskey和Cohen，1989；Ratcliff，1990），即在學習新任務時，執行舊任務的能力往往會喪失。與此相反，生物生命能夠在一生中從明顯的非即得經驗中學習許多任務，獲得新的技能并重復使用舊的技能來學習新的能力，同時保留以前的重要知識。當我們努力使人工系統越來越智能時，自然生命不斷學習的能力是一種重要的模仿能力。

持續學習（Parisi等人，2019）最近在機器學習研究中引起了相當大的關注，并出現了一些期望值。模型應該能夠依次學習多個任務，最終任務的數量和復雜程度未知。重要的是，在學習新的任務時，應該不會對以前的任務產生災難性的遺忘，最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移：以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率，這在數據稀缺的情況下尤為重要。

一些方法通過擴展來解決持續學習的問題，也就是說，模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上，這些方法通過設計減輕了災難性的遺忘，因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整，但這樣做需要人為估計需要多少擴展，這不是一個簡單的過程。相反，通常對每個新任務采用預設的、恒定的擴展。另外，我們可以考慮動態的、數據驅動的模型擴展，或者采用模塊化的模型增長方法，從而開發出一個框架，為持續學習建立緊湊的模型，其中模型的大小隨著任務數量的增加（最好是不斷增加）而有效擴展，同時減輕災難性的遺忘現象。此外，我們試圖開發一個框架，使其能夠通用于不同的持續學習任務，例如分類、圖像的生成過程和自然語言處理序列標簽，即命名實體識別。

在一個持續學習的環境中，我們會遇到一連串具有預定目的的任務，但每個任務都由一個不同的數據集組成。主要目標是建立模型，使其在不同的任務中表現盡可能一致，同時i）重復使用以前任務的信息，以及ii）防止模型不受控制地增長（大小）。然而，我們的方法包括為每個任務建立一個模型，這樣，模型的大部分組件是跨任務共享的（全局的），剩下的幾個是特定任務的（局部的），從而允許信息共享和控制增長。因此，我們試圖開發具有全局和特定任務參數的特定任務（深度學習）模型，以實現有效和高效的持續學習。

1.2 貢獻

我們的工作對DARPA終身學習機器（L2M）計劃和持續學習社區的貢獻列舉如下：

開發了生成式對抗網絡的持續適應模型（Cong等人，2020）。
- 影響。所提出的框架優于最先進的方法，其參數和計算成本大大降低。
開發了使用貝葉斯非參數字典權重因子的持續學習（Mehta等人，2021）。
- 影響。第一個用于持續學習中自適應（數據驅動）模型擴展的無啟發式方法。
為人類和機器的結構化任務分布開發了一個元學習框架（Kumar等人，2020）。
- 影響。我們發現了一種雙重分離，即人類在結構化（成分）任務中表現更好，而代理（機器）在統計（非成分）任務中表現更好，盡管其復雜性相當。
為鑒別性和生成性持續學習開發了高效的特征轉換（EFTs）（Verma等人，2021年）。
- 影響。EFTS最大限度地減少了新任務的參數數（比基礎模型少5%），同時允許在類增量設置中進行任務預測。
通過設計和利用參數有效的特征圖轉換，為生成式對抗網絡（GANs）開發了一種持續學習方法。
- 影響。所提出的方法提供了一種內存效率高的方法來執行有效的持續數據生成，我們表明，特征圖轉換方法優于最先進的持續學習GANs的方法，參數大大減少（Varshney等人，2021）。
開發了第一個用于NER的少許類增量學習的工作（Wang等人，2022a）。
- 影響。所提出的框架可以用最少的標記數據學習識別新的實體類。
開發了結構化稀疏卷積（SSC），利用圖像的固有結構來減少卷積濾波器的參數（Verma等人，2022）。
- 影響。與現有的方法不同，SSC過濾器不需要在訓練期間或之后進行額外的修剪。
開發了一個新的任務持續學習框架，該框架不假設任務序列是不同或唯一的，因此需要一個任務相似性識別模塊（Wang等人，2022b）。
- 影響。我們在不需要訓練新模型的情況下，通過利用任務相似性指標來識別相似的任務，在實踐中取得了很高的任務相似性識別精度。
在機器學習領域產生了9項學術科學貢獻，其中7項已經發表，2項目前正在審查。
- 影響。我們的論文出現在頂級的機器學習領域，如NeurIPS、ICLR、ICML、AISTATS和ACL。此外，我們所有發表的方法論都有公開的源代碼。詳見表1。
用我們的EFT框架為M21評估分類基準做出了貢獻（Verma等人，2021）。
- 影響。在不同的指標中表現出有競爭力的性能，即96.6±0.23的Top-1準確率，0.86±0.23的樣本效率，相對于單一任務專家的0.93±0.01的性能，1.21±前向轉移率，以及0.99±0.00的后向轉移率。

下面，我們為每個貢獻提供一個簡短的總結，然后是我們項目產生的公開可用的軟件包的清單，以及一個完整的參考文獻清單，我們向讀者介紹完整的方法學細節、實驗設置和經驗結果。

付費5元查看完整內容

AI與軍事 · 多域作戰 · 效能評估 · 美國海軍研究生院 ·

2022 年 9 月 26 日

[付費5元查看完整內容]《多域作戰（MDO）中的行動效力評估框架》美國海軍研究生院74頁報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

融合項目（PC）是一項美國陸軍學習活動，旨在整合和推進他們對聯合部隊（陸軍、海軍、空軍和海軍陸戰隊）的貢獻。根據研究和分析中心（TRAC）-蒙特雷的說法，"PC確保陸軍作為聯合戰斗的一部分，能夠快速和持續地整合或'融合'所有領域的效果--空中、陸地、海上、太空和網絡空間，以便在競爭和沖突中戰勝對手"（研究和分析中心[TRAC]2020）。目標是評估在PC21上展示的新的創新系統（SoS）技術是否滿足為聯合部隊提供必要的速度、范圍和融合所需的作戰能力，以產生未來的決策主導權和大國競爭的超能力。然而，鑒于PC期間各種現代技術的注入，TRAC-蒙特雷目前缺乏一種方法來衡量作戰效果以及作為軍隊和聯合部隊的融合是否正在實現。因此，本項目的重點是制定一個概念性的評估框架，以確定在PC21演習中測試的多域作戰（MDO）任務中SoS的作戰有效性。這個框架將集中在那些被證明可以減少傳感器到射手（S2S）時間的技術的行動有效性，以便在聯合MDO任務中消滅一個固定的目標。

該小組確定，對某一特定能力的功能分解，結合用于開發MOE的Langford綜合框架的修改版，將產生描述該特定能力的行動有效性的良好措施。為了將衡量標準轉化為價值分數，團隊使用了構建價值尺度的理想范圍方法，該方法為每個衡量標準建立了一個從最好到最壞的情況，使其具有適應任何能力的靈活性。帕內爾的搖擺加權法被用來量化利益相關者對每個蘭福衍生的MOE的重要性，以確定能力的每個MOE的加權價值分數（WVS）。WVS相加得出總分，這就提供了對運營有效性的最終評估。然后，該團隊產生了一個行動有效性量表，向利益相關者說明他們的能力在這個量表中的得分情況。

該項目最后針對概念評估框架應用了PC21用例，以衡量其在生成與用例中的能力最相關的MOE以及單一行動有效性分數方面的穩健性。該模型的最終驗證將在目前計劃于2021年10月開始的PC21期間進行。

總之，該團隊使用系統工程流程建立了一個概念性評估框架系統，該系統將使TRAC-Monterey有能力評估PC21期間展示的新的創新SoS技術的作戰能力。該團隊開發了一個利益相關者分析，一個由利益相關者衍生的目標層次，一個功能分解，以及一個創建良好措施的過程，將這些措施轉化為價值分數，量化措施的重要性，并將產生的價值匯總為一個單一的、行動有效性分數。該框架將為利益相關者提供信息，使他們能夠就進一步的技術開發做出明智的決定。TRAC-Monterey還可以將本研究中制定的衡量標準作為指南，在整個PC21和未來的PC活動中收集相關信息。

建議 TRAC 在 PC21 期間對照 S2S 用例 1-1 驗證概念性評估框架。還應采用其他用例來測試框架的靈活性和可用性。還建議進一步研究行動效率的認知方面，以及如何利用這些信息來擴大本評估框架的范圍。TRAC和JMC向團隊表示，PC的努力將有助于改寫聯合行動的理論。

付費5元查看完整內容

AI與軍事 · 人工智能 · 指揮與控制 · 多域作戰 · 美國陸軍研究實驗室（ARL） ·

2022 年 9 月 23 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本報告描述了2020財年在美國陸軍作戰能力發展司令部陸軍研究實驗室的主任戰略倡議（DSI）項目《人工智能（AI）用于多域作戰（MDO）的指揮和控制（C2）》下進行的工作。多域作戰的速度和復雜性要求在高度活躍的環境中對近似對手進行高速決策和執行，這往往可能超出人類的認知能力。最近，新興的人工智能技術，如深度強化學習（DRL），在復雜的、相對非結構化的、部分信息的戰略游戲（如Dota 2和StarCraft II）中的表現超過了人類世界冠軍。這表明這種人工智能有可能對MDO的C2做出貢獻。然而，關于這種新的人工智能技術的行為和限制的許多問題仍未得到解答。作為DSI的一部分，我們正在研究DRL是否可以支持未來多域部隊的敏捷和適應性C2，這將使指揮官和工作人員能夠迅速有效地利用轉瞬即逝的優勢窗口。在第一年，我們開發了兩個新的C2測試平臺，并在這些測試平臺上進行了基于DRL的學習。本報告包括項目的概述，并展示了初步的研究成果，其中一個“人造指揮官”在模擬的旅級戰斗中執行了一個綜合規劃-執行過程。

1. 引言

同行對手多域作戰（MDO）的速度和復雜性可能會超過人類指揮員在傳統的、主要是人工指揮和控制（C2）過程中的認知能力。同時，人工智能（AI）技術的新成果，如深度強化學習（DRL），開始顯示出有可能支持多域作戰的指揮與控制。過去兩年的發現表明，基于DRL的算法可以在復雜的、相對非結構化的、部分信息的戰略游戲（如Dota 2和StarCraft II）中勝過人類世界冠軍。通過這些突破，強化學習（RL）已經證明了人工智能在復雜游戲中開發和實施多層策略后控制多個智能體的潛力。未來MDO作戰指揮的特點是在非結構化的任務領域內具有高度的復雜性，這與復雜的游戲模擬環境有一些相似之處。因此，將基于人工智能的方法擴展到軍事領域，可能為提高戰斗指揮能力提供了重要的可能性。

本報告中描述項目的長期意圖并不新鮮。在過去的幾十年里，有許多想法和相應的研究，旨在開發自動化或半自動化的工具，以支持規劃和執行軍事行動的決策。以下是過去在這一領域的一些工作，本報告的一些作者親自參與了這些工作。

美國國防部高級研究計劃局（DARPA）的聯合部隊空中部分指揮官（JFACC）項目在20世紀90年代末進行，為聯合空戰的敏捷管理開發了一些概念和原型。當時考慮的大多數方法涉及各種航空資產的路線和活動的持續實時優化和再優化（隨著情況的不斷變化）。同樣在20世紀90年代中后期，陸軍資助了行動方案開發和評估工具（CADET）項目，該項目探討了經典的分層規劃的潛在效用，該計劃適用于對抗性環境，可以將高水平的戰斗草圖轉化為詳細的同步矩陣--這是理論上的軍事決策過程（MDMP）的關鍵產品。在21世紀初，DARPA啟動了實時對抗性情報和決策（RAID）項目，該項目探索了一些預測敵方作戰規劃的技術，以及動態地提出友好的戰術行動。在所探索的技術方法中，博弈求解算法是最成功的。

2000年代末，DARPA的沖突建模、規劃和結果實驗（COMPOEX）計劃探討了多個領域的作用及其非常復雜的相互作用--除了傳統的動能戰斗，還有政治、經濟和社會影響。該計劃研究了相互關聯的模擬子模型的使用，主要是系統動力學模型，以協助高級軍事和文職領導人在復雜的作戰環境中規劃和執行大規模戰役。非傳統作戰領域如網絡領域的重要性已經得到認可，2010年，北約的一個研究小組研究了評估網絡攻擊任務影響的模擬方法，并強調了網絡、人類和傳統物理領域之間相互作用的強大非線性效應。

在前面提到的研究工作中所采取的所有方法，以及許多其他類似的方法，都有主要的和一些共同的弱點。它們往往需要對問題領域進行嚴格、精確的表述。一旦這樣的表述被構建出來，它們往往能產生有效的結果。然而，一旦有新的元素需要被納入到表述中（例如，一種新的軍事資產類型或一種新的戰術），就需要進行困難的、昂貴的、手工的和長期的努力來“重新連接”問題的表述和微調解決方案的機制。而現實世界呈現出無窮無盡的新元素，必須加以考慮。

在20世紀80年代的基于規則的系統中，隨著越來越多的規則（它們之間的相互作用往往是不可預測的）必須被添加以代表現實世界中錯綜復雜的領域，一個系統將變得不可維護。在基于優化的方法中，同樣地，重要變量和各種約束條件之間無窮無盡的關系必須不斷地手動添加（維護的噩夢），以代表現實世界中復雜的領域。在基于游戲的方法中，由于越來越多的領域的現實情況不得不被手動設計并添加到游戲的表述中，管理每個棋子的合法移動和移動效果的規則將逐漸變得無可救藥地復雜。

簡而言之，這種方法在建立和維護表征方面是高成本的。理想情況下，我們希望看到一個系統能夠直接從真實或模擬世界的經驗中 "學習"（即自我規劃）其問題的制定和解決算法，而不需要任何（或很少）人工規劃。機器學習，特別是RL，正是提供了這樣的希望。這是我們項目背后的一個主要動機。

1.1 軍隊的相關性和問題領域

美國陸軍目前還沒有一個基于人工智能的、部分自主的任務指揮工具，在戰術或作戰層面上以高作戰節奏（OPTEMPO）運作。通常情況下，生死攸關的決定是由少數人在時間限制下利用不完善的信息作出的。目前可供規劃者使用的工具（如高級野戰炮兵戰術數據系統[AFATDS]、藍色部隊追蹤器等）通常僅限于分析戰場地形的基本決策輔助工具和記錄決策的自動化工具。指揮官在向下級提供快速OPTEMPO指導時，會遇到信息過載。戰斗損傷評估（BDA）很慢，而且不能與單位運動/傳感器與射手的聯系同步，也不允許利用優勢窗口。行動方案（CoA）分析主要集中在對友軍計劃的評估上，很少強調對手的目標和能力的復雜性。

隨著空間、網絡電磁活動（CEMA）和機器人資產的加入，MDO成倍地增加了C2的復雜性，這可能會使OPTEMPO比過去更高。此外，人類指揮官使用目前可用的決策輔助工具來提供高度詳細的指令將是難以解決的。有可靠的報告稱，美國的同行和近鄰競爭對手，特別是中國，正在大力追求人工智能在軍事上的應用，包括指揮決策和軍事推演（即兵棋推演）。因此，在追求人工智能C2系統的過程中，存在著很大的失敗風險，只有不斷地朝著這個目標前進，不斷地努力實現一個能夠在MDO中執行C2的人工智能系統，才能克服這個風險。

1.2 長期目標

到2035年，我們設想需要開發敏捷和適應性強的人工智能C2系統，用于復雜、高OPTEMPO、超活躍的MDO中的作戰規劃和決策支持。這些系統將不斷整合未來戰爭的幾個領域。設想中的系統將能夠分析敵人的活動；不斷地規劃、準備、執行和評估戰役，通過不斷地感知、識別和快速利用新出現的優勢窗口，使軍隊的能力得到快速反應。這些優勢窗口將在不同梯隊的MDO框架內的行動中出現，但識別和利用它們需要較少地依賴刻意的規劃周期，而更多地依賴持續、綜合的規劃能力。啟用人工智能的C2系統有可能在不同的梯隊、領域和多個同時運作的資產之間快速同步采取多種行動，以利用優勢窗口。部隊將主要由機器人資產（地面、空中）組成，人工智能C2系統將收集和處理來自智能傳感器和平臺的數據，評估作戰環境中的新趨勢，并建議采取減少認知負擔的行動，使人類指揮官能夠快速有效地采取行動。啟用人工智能的流程還將提供定量分析、預測分析和其他可供人類有效使用的突出數據。這最終將使美國陸軍有能力在武裝沖突期間，根據對敵人弱點的理解和詳細的友軍估計，重新分配、重組和使用能力，并將產生具體、詳細的指令來控制自主資產。

DEVCOM陸軍研究實驗室在機器人學、自主性、人工智能和機器學習方面有積極的研究計劃。本報告的作者領導了政府、學術界和工業界合作伙伴之間的大型合作機器人研究工作的研究和整合活動，在場景理解、人類與人工智能的合作、RL、多智能體強化學習和多智能體協作系統方面進行了開拓性的研究。此外，ARL還擁有廣泛的基礎設施來進行上述領域的研究。這包括用于機器人研究的地面和空中平臺；用于場景驅動研究的機器人研究合作園區（R2C2），能夠承載實時的、可擴展的、多領域的實驗；旨在支持人工智能和機器學習應用的新興要求的集裝箱式超級計算機；這只是其中的幾個例子。我們相信，這些專業知識和資源可以被用來建立一個成功的計劃，將人工智能納入C2應用。

1.3 DSI的目標

ARL主任戰略倡議（DSI）計劃是一個跨學科基礎和應用研究的機制，成功的提案可以跨越科學和技術學科的界限。該計劃確定了代表戰略研究機會的主題領域，對陸軍任務具有非常高的潛在回報，以擴大現有的計劃或建立新的核心能力，并在這些領域建立內部的專業知識。

作為20財政年度授予的 "用于MDO C2的人工智能 "DSI項目的一部分，我們探索基于DRL的算法在多大程度上可用于估計紅方部隊的狀態，評估紅方和藍方的戰斗損失（損耗），預測紅方的戰略和即將展開的行動，并根據所有這些信息制定藍方計劃。這種方法有可能為藍方部隊產生新的計劃，利用潛在的機會窗口，其速度比專家規劃者快得多。最近，DRL在非結構化戰略游戲中的成功提供了重要的暗示性證據，表明人工智能方法可能能夠基本上 "從零開始 "發現適當的戰術概念，并以高于人類的速度選擇、應用和執行戰略。

在這個DSI中，我們探索使用DRL在戰斗行動前制定詳細的計劃，并在執行正在進行的行動中生成實時計劃和建議。我們計劃在兩個關鍵領域推動技術水平的發展：1）構思、設計和實施基于DRL的智能體，以生成與專家計劃員生成的計劃一樣好或更好的計劃；2）將人類納入指揮和學習回路，并評估這些人工智能-人類（人在回路中）的解決方案。在為這種人工智能支持的C2開發途徑的同時，需要回答幾個研究問題。在這個DSI中，我們試圖回答三個具體問題：

DRL C2智能體的訓練和數據要求是什么，以便準確和足夠快地學習？
我們如何才能使DRL智能體具有通用性，以便根據人類專家的判斷，特別是在以前未曾見過的細節被引入到一個情況中時，它們能夠合理地執行？
在人工智能支持的C2系統中，人類的干預有什么影響？

該項目第一年的重點是開發研究的基本構件，包括：1）通過調整和使用基于《星際爭霸II》和OpSim的環境來開發模擬能力和高級界面；2）開發執行C2功能的初始端到端人工智能；3）通過與高性能計算（HPC）環境整合來開發計算能力；4）初步確定數據量和訓練要求。本報告提供了這些任務中每個任務的細節。

2. 實驗能力

作為該項目的一部分，我們開發了C2模擬和實驗能力，包括與基于DRL的人工智能算法和國防部高性能計算系統上的可擴展RL的接口的模擬戰斗空間（圖1）。我們使用兩種模擬環境來生成C2場景：星際爭霸II學習環境（SC2LE）29和OpSim。虎爪，一個由卓越機動中心（Fort Benning，Georgia）開發的場景，在模擬環境中生成了真實的戰斗環境。最后，我們使用RLlib31，一個為RL提供可擴展軟件基元的庫，在HPC系統上擴展學習。

圖1 C2基礎設施概述

2.1 虎爪行動

虎爪行動（Tiger Claw）是一個預定義的戰斗場景，由紅軍和藍軍組成，由喬治亞州本寧堡的上尉職業課程的軍事主題專家（SME）開發。這個假想場景顯示特遣部隊（1-12 CAV）在區域內進攻，以奪取OBJ Lion，以便將師的決定性行動（DO）向東傳遞。特遣部隊的目標是穿越Thar Thar Wadi，摧毀紅色部隊，并奪取OBJ Lion（圖2）。特遣部隊包括使用M1A2艾布拉姆斯的戰斗裝甲，使用布拉德利的步兵戰車，野戰炮和迫擊炮，使用布拉德利的裝甲偵察騎兵，戰斗航空兵，防空兵和無人駕駛飛機。紅軍由裝備BMP-2M的機械化步兵、裝備T-90坦克的戰斗裝甲、野戰榴彈炮、裝備BMP-2M的裝甲偵察騎兵、戰斗航空兵、反裝甲兵和戰斗步兵組成。虎爪方案還包括由中小型軍事專家制定的藍軍和紅軍的可能計劃。這些計劃是根據作戰命令（OPORD）和相應的威脅戰術，使用理論上的力量部署產生的。虎爪方案已被納入OpSim和《星際爭霸II》，并作為一個基準基線，用于比較不同的神經網絡架構和獎勵驅動屬性。

圖2 TF 1-12 CAV在《虎爪》中的作戰區域（AO）。

2.2 《星際爭霸II》模擬環境

星際爭霸II》是一個復雜的實時戰略游戲，玩家要在高水平的經濟決策和低水平的個人控制可能的數百個單位之間取得平衡，以壓倒和擊敗對手的部隊。星際爭霸II》對人工智能有許多困難的挑戰，使它成為MDO中C2的一個合適的模擬環境。例如，游戲有復雜的狀態和行動空間，可以持續數萬個時間步驟，實時選擇數千個行動，并由于游戲的部分可觀察性或 "戰爭迷霧 "而捕捉到不確定性。此外，該游戲具有可用于MDO模擬的異質資產、固有的C2架構、嵌入式軍事（動能）目標，以及與更強大的模擬（例如，One Semi-Automated Force [OneSAF]）相比，實施/修改的學習曲線較淺。DeepMind的SC2LE框架將暴雪娛樂公司的《星際爭霸II》機器學習應用編程接口暴露為RL環境。這個工具提供了對《星際爭霸II》和相關地圖編輯器的訪問，以及RL智能體與《星際爭霸II》互動的接口，獲得觀察和發送行動。

作為DSI的一部分，一個SC2LE地圖是根據Tiger Claw OPORD和支持文件開發的（圖3）。通過重新繪制圖標以納入2525B軍事符號和與虎爪計劃相關的單位參數（武器、范圍、比例），游戲被軍事化。內部評分系統被重新使用，以計算RL的獎勵函數，其中包括任務目標的收斂（穿越瓦迪），藍色損耗的最小化，以及紅色損耗的最大化。

圖3 《星際爭霸II》中的虎爪地圖

2.2.1 《星際爭霸II》編輯器

虎爪劇情是在《星際爭霸II》中使用其編輯器重新創建的。這個編輯器包含在暴雪娛樂公司免費下載的《星際爭霸II》中，它有許多創建自定義內容的功能。掌握這些功能的一個很好的資源是專門用于編輯器的在線社區論壇。在下面的章節中，將詳細討論使用編輯器開發地圖、單位和獎勵的問題。

2.2.1.1 《星際爭霸II》地圖開發

我們使用《星際爭霸II》編輯器為《虎爪》場景創建了一個新的近戰地圖。地圖的大小是編輯器中最大的（256乘256），使用《星際爭霸II》的坐標系統。荒地瓷磚組被用作地圖的默認表面，因為它在視覺上類似于《虎爪》中AO的沙漠地區（圖4）。

圖4 《星際爭霸II》編輯器中的初始虎爪地圖

在最初的設置之后，我們使用地形工具修改地圖，使其大致接近AO的情況。關鍵的地形特征是無法通行的瓦迪，其交叉點有限。

距離縮放是創建場景的一個重要因素。在最初的地圖中，我們使用已知的地標之間的距離，將《星際爭霸II》的距離，使用其內部坐標系統，轉換為公里數。這種轉換對于在單位修改期間調整武器射程非常重要（圖5）。

圖5 修改后的《星際爭霸II》編輯地圖

最初的實驗使用《星際爭霸II》來可視化模擬復制品。這些回放的游戲感成為一個明顯的干擾因素。為了補救這個問題，我們希望采用其他的可視化方法，特別是ARL開發的混合現實環境Aurora。新的可視化方法使用AO的地理地圖。因此，有必要修改《星際爭霸II》的地圖，以便與AO的經緯度相一致。在修改后的地圖中，距離比例是通過將《星際爭霸II》的坐標轉換為經緯度來確定的。

2.2.1.2 《星際爭霸II》單位修改

為了模擬 "虎爪 "場景，我們選擇了與軍事單位能力相近的《星際爭霸II》單位。我們復制了《星際爭霸II》中的單位，并在編輯器中修改了它們的屬性以支持該場景。

首先，我們修改了這些單位的外觀，并用適當的MIL-STD-2525符號代替（表1）。在《星際爭霸II》中，每個單位都與多個角色相關聯，這些角色控制著該單位在游戲中的外觀。我們能夠將演員與他們的默認效果圖解開，有效地使這些單位不可見。接下來，我們將所需的軍事符號的圖像導入編輯器。最后，我們使用了SCMapster.com上發布的 "rr Sprite Engine"（LGPL 2.1許可）庫，將這些單位與它們的軍事符號聯系起來。

表1 虎爪部隊與《星際爭霸II》部隊的映射關系

為該場景修改的其他屬性包括武器射程、武器傷害、單位速度和單位壽命（它能承受多少傷害）。武器射程是從公開資料中發現的，并根據地圖的尺寸進行縮放。單位速度在《虎爪行動指令》中確定，并固定在該值上。傷害和生命的屬性是估算出來的，其指導原則是保持平衡的沖突。每個《星際爭霸II》單位通常只有一種武器，這使得模擬一個連級單位可用的各種武器具有挑戰性。額外的努力來提高單位修改的準確性，需要戰爭游戲的主題專家。

修改后的部隊被放置在地圖上，以接近虎爪的場景（圖6）。在實驗過程中，藍色部隊將由一個使用PySC2（DeepMind的SC2LE的Python組件）開發的智能學習智能體控制。此外，藍軍部隊被修改為沒有天生的攻擊性。換句話說，他們不會參與進攻或防守，除非有智能體的特別命令。為了控制紅色部隊，我們使用了兩種不同的策略。第一種策略是為紅色部隊的行動加入一個腳本化的CoA，在每次模擬中都會執行。該部隊默認的攻擊性屬性控制它如何與藍方交戰。第二種策略是讓《星際爭霸II》的機器人AI控制紅方部隊執行全面攻擊，或在編輯器中稱為自殺。內置的《星際爭霸II》機器人有幾個難度級別（1-10），這決定了機器人的熟練程度，其中1級是一個相當初級的機器人，可以很容易地被擊敗，10級是一個非常復雜的機器人，使用玩家無法獲得的信息（即一個作弊的機器人）。最后，環境因素，如戰爭迷霧，在不同的實驗中被切換，以調查其影響。

圖6 使用MILSTD2525符號的星際爭霸II

2.2.1.3 星際爭霸II的獎勵實現

獎勵功能是RL的一個重要組成部分，它通過對每種情況給予積極或消極的獎勵來控制智能體人對環境變化的反應。我們在SC2LE中加入了虎爪場景的獎勵功能，我們的實現超越了SC2LE內部的評分系統。原來的計分系統根據玩家的單位和結構的資源價值進行獎勵。我們的新計分系統只關注游戲的軍事方面，即獲得和占領新的領土，以及摧毀敵人。

我們的獎勵功能為藍軍越過瓦迪（河流）提供+10分，為撤退提供-10分。此外，我們還對摧毀紅軍部隊給予+10分，如果藍軍部隊被摧毀則給予-10分。

為了實現獎勵功能，首先需要使用SC2LE編輯器來定義地圖的各個區域和目標。區域是由用戶定義的區域，它被觸發器所利用（圖7）。

圖7 《星際爭霸II》中的區域和目標

觸發器是創建一套指令的模板，允許用戶將與特定事件相關的效果編入模擬中（圖8）。一般來說，一個觸發器由以下部分組成。

事件。啟動觸發器（例如，一個單位進入一個區域）。
變量。存儲信息。(例如，BlueForceScore，藍軍的得分）。
條件。對行動的限制，需要在行動發生時為真。(例如，單位是藍色部隊的成員）。
行動。事件的結果或成果（例如，單位獲得積分）。

圖8 《星際爭霸II》中虎爪場景的觸發實例

作為未來工作的一部分，我們計劃根據指揮官在虎爪警告令（WARNORD）中的意圖所定義的具體團隊目標來納入額外的獎勵。獎勵功能將試圖訓練智能體維持單位作為團隊，作為團隊一起參與預定目標，并創造對軍事主題專家來說合理的最佳行為。

2.3 OpSim模擬環境

OpSim是由科爾工程服務公司（CESI）開發的決策支持工具，提供計劃支持、任務執行監控、任務演練、嵌入式訓練以及任務執行監控和重新計劃。OpSim與SitaWare指揮、控制、通信、計算機和情報（C4I）集成，后者是由項目執行辦公室指揮控制通信-戰術（PEOC3T）投入使用的指揮所計算環境（CPCE）的重要組成部分，使各級指揮部門能夠共享態勢感知并協調作戰行動，從而使其成為直接與作戰任務指揮相連的嵌入式模擬。它從根本上被構造成一個基于可擴展的面向服務架構（SOA）的模擬，能夠比目前最先進的模擬環境如OneSAF和MAGTF戰術戰爭模擬器（MTWS）運行得更快。傳統的建設性模擬最多運行1-20次墻鐘時間，而OpSim可以運行30次虎爪的復制--如果實時連續運行，需要240小時。OpSim中模擬計劃的輸出包括根據彈藥支出、傷亡、設備損失、燃料使用等標準對藍軍計劃進行綜合排名。然而，OpSim工具并不是為人工智能應用而設計的，必須通過整合接口來運行基于DRL的算法。開發了一個OpenAI Gym接口，以暴露模擬狀態，并向外部智能體提供模擬控制，能夠為模擬中的選定實體提供改變的行動，以及在回應接口之前的模擬時間。

2.4 使用OpenAI Gym和RLlib接口的深度強化學習

強化學習可以被形式化為一個馬爾科夫決策過程，由一組行動、一個過渡概率函數、一個獎勵信號和一個環境狀態組成。32 在RL中，目標是找到一個最佳行動，使預期的、累積的折現獎勵之和最大化。將深度神經網絡與RL結合起來，DRL將深度神經網絡架構與RL框架結合起來，以接近環境中各狀態的最佳行動。DRL的設計包括以下部分：狀態空間（環境狀態表示）、行動空間（行動集）、獎勵信號和一個深度神經網絡。

對于環境狀態的訪問，RL框架使用類似OpenAI Gym的接口與OpSim和StarCraft II模擬器，為RL提供環境的抽象（圖9）。OpenAI Gym是一個開源的軟件包，為RL的開發和測試提供了一個具有通用接口的環境集合。OpenAI Gym專注于RL環境的抽象化，從而保持智能體開發的靈活性。兩種模擬環境中使用的具體行動、狀態空間和獎勵信號將在后續章節中詳細討論。

圖9 使用OpenAI Gym與OpSim和StarCraft II模擬器的RL框架

DRL需要智能體與環境互動的許多情節來收集經驗，一個標準的方法是通過平行數據收集來擴展。在這個項目中，HPC被用來擴展DRL算法，以支持智能體群體從成千上萬的平行實例中學習，以解決C2的行動空間復雜性。ARL的FOB系統最初用于分布式訓練，然后被移植到國防部超級計算資源中心（DSRC）的最新SCOUT系統。FOB系統是一個由64個節點組成的實驗性異構集群，每個節點有一個英特爾8核至強CPU和64GB的內存。SCOUT是位于ARL DSRC的一個非保密的HPC-in-a-container系統，有22個訓練節點和128個推理節點。SCOUT的每個計算節點都配備了IBM Power9 40核處理器，推理節點有256GB內存，訓練節點有700GB內存。

同時，RLlib，一個由加州大學伯克利分校RISELab開發的可擴展RL框架的開源庫，被用于執行分布式學習。RLlib提供了一個與框架無關的機制，以便在OpSim和StarCraft II上有效地擴展DRL神經網絡架構的訓練。該框架部署在HPC系統上，以展示RLlib算法在系統的多個節點上的擴展性，并提供可定制的神經網絡模型和模擬環境的靈活性。

3. 結果和討論

利用第2節所述的基礎設施，我們為《星際爭霸II》和OpSim環境開發了一個端到端的DRL框架，并進行了初步實驗。在這一節中，我們將描述網絡架構、實現和一些初步的實驗結果。

3.1 使用《星際爭霸》的深度強化學習

我們使用第2.2節中描述的戰術版《星際爭霸II》訓練了一個多輸入和多輸出的深度強化神經網絡。我們使用了異步優勢演員批判（A3C）算法，這是一種由多層卷積網組成的狀態輸入處理方法，長短期記憶（LSTM）遞歸層給網絡增加了記憶。

3.1.1 異步優勢演員批判結構

在《星際爭霸II》中，狀態空間由7個大小為64x64的迷你地圖特征層和13個大小為64x64的屏幕特征層地圖組成，總共有20個64x64的二維圖像（圖9的左側面板）。此外，它還包括13個非空間特征，包含玩家資源和建造隊列等信息。這些游戲特征是用輸入處理管道來處理的，如圖10所示。星際爭霸II》中的動作是函數形式的復合動作，需要參數和關于該動作要在屏幕上發生的位置的說明。例如，像 "攻擊 "這樣的動作被表示為一個函數，需要屏幕上的X-Y攻擊位置。行動空間由行動標識符（即運行哪個行動）和兩個空間行動（x和y）組成，這兩個空間行動被表示為兩個長度為64個實值項的向量，在0和1之間。表2劃分了觀察空間、行動空間和《星際爭霸II》模擬的獎勵。

圖10提供了星際爭霸II任務中相互嵌入模型和A3C智能體的狀態輸入處理管道的概述。星際爭霸II提供了三個主要的狀態信息流：小地圖層、屏幕層和非空間特征（如資源、可用行動和建造隊列）。小地圖和屏幕特征由相同的兩層卷積神經網絡（CNN）處理（頂部兩行），以便分別提取地圖的全局和局部狀態的視覺特征表示。非空間特征通過一個具有非線性激活的全連接層進行處理。然后，這三個輸出被連接起來，形成智能體的完整狀態空間表示，以及基于狀態的相互嵌入模型的部分。

圖10 《星際爭霸II》的狀態輸入處理

表2 《星際爭霸II》模擬的觀察空間、行動空間和獎勵

A3C是優勢行動者-批評算法的分布式版本，其中創建了行動者的多個平行副本，以同時執行行動和收集經驗。讓多個行為體收集經驗可以提高探索效率，從而改善學習。我們使用的A3C智能體的結構類似于Mnih等人的Atari-net智能體，它是一個從Atari改編的A3C智能體，在SC2LE狀態和行動空間上運行。我們對這個智能體做了一點修改，增加了一個LSTM層，因為Mnih等人的研究表明，增加模型的內存可以提高性能。我們的A3C智能體的結構如圖11所示。

圖11 A3C智能體的結構。這里顯示的是一個完整的RL智能體及其與《星際爭霸II》的連接示意圖。作為典型的政策性智能體，這里的A3C智能體（綠色）從任務環境中獲取狀態和獎勵信息，并使用這些信息來計算下一個時間步驟的行動，以及計算梯度來增加獎勵最大化。

3.1.2 實驗和結果

我們用20個并行的演員學習者來訓練A3C模型，使用了8000個模擬的《星際爭霸II》機器人的戰斗，操作由DeepMind開發的手工制作的規則。如果BLUEFOR穿過瓦迪或OPFOR排被摧毀，則提供+10的正強化，如果BLUEFOR被摧毀則提供-10的負強化。

我們在《星際爭霸II》的 "虎爪 "場景中對訓練好的A3C模型進行了100次的測試。這些模型與具有隨機行動的隨機基線以及人類玩家與《星際爭霸II》機器人進行的10場模擬戰斗進行了比較。圖12中提供了收集到的指標的匯總圖，包括總的情節獎勵和藍軍的傷亡人數。我們看到，與人類玩家相比，人工智能指揮官不僅取得了相當的表現，而且在任務中表現得稍好，同時還減少了藍軍的傷亡。

圖12 與人類和隨機智能體基線相比，訓練有素的人工智能指揮官（A3C智能體）的總獎勵和BLUEFOR傷亡情況。人工智能指揮官能夠實現與人類基線相當（略好）的獎勵，同時減少藍軍的傷亡。

3.2 使用OpSim的深度強化學習

為OpSim模擬環境開發了兩種類型的指揮官。第一種是基于專家設計的規則引擎，由喬治亞州本寧堡的軍事主題專家使用理論規則開發。第二種是DRL訓練的神經網絡，采用A2C算法訓練的多輸入多輸出的LSTM神經網絡。A2C與A3C類似，但沒有異步部分。OpSim的RL界面支持多智能體訓練，每個部隊可以是基于規則的，也可以是人工智能指揮官。

政策網絡首先在FOB的15個節點上進行訓練，75個平行工作者收集了482k次模擬戰斗，耗時36小時。此外，在SCOUT系統上應用和訓練了局部切面位置和無目標獎勵更新。有了更新的觀察和獎勵，39個平行工作者收集了175k次戰斗經驗，花了37小時。

觀察空間由17個特征向量組成，其中觀察空間是基于每個實體的設備傳感器的部分觀察。與S2CLE不同，OpSim目前不使用圖像輸入或屏幕圖像的空間特征。行動空間主要包括簡單的運動和交戰攻擊（表3）。

表3 OpSim模擬的觀察空間、行動空間和獎賞

3.2.1 實驗和結果

訓練好的模型用100個推出的模擬結果進行評估，在檢查站使用凍結政策，BLUFOR的平均獎勵最高。在SCOUT上，4510號檢查站的BLUFOR政策平均獎勵達到了200，OPFOR政策平均獎勵達到了-322的滾動平均值。對100次滾動的分析表明，經過DRL訓練的BLUFOR智能體將損失從4左右降至0.5，而增加了OPFOR的損失（圖13）。這一結果是通過采用僅使用戰斗裝甲連和戰斗步兵連進行交戰的策略達到的。它學會了利用BLUFOR最致命的部隊與Abrams和Bradleys的策略，同時保護脆弱的資產不與OPFOR交戰（圖14）。

圖13 主題專家和人工智能指揮員之間的實體損失比較

圖14 一次推廣的開始和結束的快照

4. 結論

作為DSI的一部分，為C2的DRL開發了兩個新型測試平臺。基于StarCraft II和OpSim。使用這些最先進的測試平臺開發了端到端的DRL方法。該基礎設施被移植到國防部的HPC系統中，以擴大訓練的規模，進行平行數據收集。

初步實驗結果顯示，初步觀察到DRL在沒有預編碼知識的情況下實現了有效和合理的C2，基于DRL的 "人工指揮官 "可以在模擬的旅級戰斗中執行綜合規劃-執行過程。一些結果，特別是在《星際爭霸II》的環境中，表明人工智能采取的策略與有能力的人類玩家的策略相當。它還表明，計算資源并不是人工智能在C2中的障礙；我們看到使用HPC系統學習的速度足夠快，在37小時內就能收斂。總之，DSI的第一年提供了充分的證據，表明基于學習的人工智能有可能被用作未來軍事行動C2的關鍵技術。

付費5元查看完整內容

AI與軍事 · 深度終身強化學習 · 美國空軍研究實驗室（AFRL） · 反卷積因子卷積神經網絡（DFCNN） · 情報、監視、偵察 (ISR) ·

2022 年 7 月 15 日

[付費5元查看完整內容]《彈性控制和協調的深度終身強化學習》美國空軍研究實驗室30頁技術總結報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這項工作的目的是開發能夠成功處理復雜動態環境中順序決策的深度終身學習方法，重點是多Agent情報、監視和偵察（ISR）場景。我們為深度卷積神經網絡開發了一個新的架構，支持通過去卷積因子化的終身學習（DF-CNN），探索了通過Distral和Sobolev訓練的策略提煉的組合，并開發了一個混合控制器，將深度學習應用于ISR智能體。我們的方法在標準基準深度學習數據集、DOOM環境和ATE3模擬環境中的ISR場景中進行了評估。

我們的主要貢獻是反卷積因子卷積神經網絡（DFCNN）。DF-CNN框架調整了標準卷積神經網絡（CNN）框架，以實現任務之間的轉移。它在每個CNN層維護一個共享知識庫，并通過這個共享知識促進不同任務的CNN之間的轉移。每個具體任務的CNN模型的各個過濾層都是由這個共享知識庫重建的，隨著網絡在多個任務中的訓練，這個知識庫會隨著時間的推移而調整。DF-CNN代表了ELLA終身學習框架對深度網絡的概括。

實驗表明，DF-CNN在終身中的基準識別任務上的表現優于其他方法（包括單任務學習、低層的硬參數共享和漸進式神經網絡）。此外，該框架能夠抵抗災難性遺忘，同時仍然允許從未來的學習中反向轉移到以前學習的模型。

對于深度強化學習，我們研究了將Sobolev訓練整合到Distral多任務框架中，以努力改善轉移和訓練，探索了DF-CNN在深度RL中的應用，并開發了一個混合控制器，將本地學習的深度RL策略結合在一起，在ATE3仿真環境中完成ISR場景。

付費5元查看完整內容

AI與軍事 · 自適應 · 雷達系統 · 完全適應性雷達 · 機器學習 ·

2022 年 7 月 13 日

[付費5元查看完整內容]俄亥俄州立大學294頁博士論文《推進用于實時參數調整和決策的完全自適應雷達概念》美國空軍研究實驗室贊助

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

認知或完全自適應雷達（FAR）是一個受生物系統啟發的研究領域，其重點是開發一個能夠自主適應其特性的雷達系統，以實現各種不同的任務，如改進環境感知和光譜靈活性。FAR框架在一個軟件定義的雷達（SDR）系統和模擬感知行動周期（PAC）的環境中實現了一個動態反饋回路（感知、學習、適應）。FAR框架在SDRs上的實現依賴于基于求解器的優化技術，用于其行動選擇。然而，隨著優化復雜性的增加，對解決方案收斂的時間產生了嚴重影響，這限制了實時實驗。此外，許多 "認知雷達 "缺乏記憶組件，導致對類似/熟悉的感知進行重復的優化程序。

利用現有的FAR框架模型，在神經網絡的啟發下進行了完善。通過使用神經網絡、機器學習的一個子集和其他機器學習的概念，對應用于單一目標跟蹤的FAR框架基于求解器的優化組件進行了替換。靜態前饋神經網絡和動態神經網絡在模擬和實驗環境中被訓練和實施。神經網絡和基于求解器的優化方法之間的性能比較表明，基于靜態神經網絡的方法具有更快的運行時間，這導致了更多的感知，有時通過較低的資源消耗獲得更好的性能。還對靜態前饋神經網絡、動態遞歸神經網絡和求解器的模擬結果進行了比較。這些比較進一步支持了神經網絡能夠通過納入學習為認知雷達提供記憶組件的概念，從而走向真正的認知雷達。還進行了額外的研究，以進一步顯示神經網絡在雷達快速生成波形的應用中的優勢。

FAR框架也從單目標跟蹤FAR框架擴展到多目標跟蹤。FAR框架的多目標實現顯示了自適應雷達技術在多目標環境中的優勢，由于場景中存在的目標數量增加以及需要解決所有目標，復雜性也隨之增加。由于多目標環境，對現有的成本函數和探測/跟蹤框架進行了改進和補充。實驗和模擬結果證明了FAR框架的好處，它使一個穩健的自適應算法能夠在多目標環境下改善跟蹤和有效的資源管理。

除此之外，分層完全自適應雷達（HFAR）框架也被應用于需要執行多個任務系統的資源分配問題。分層完全自適應雷達的任務靈活性（HFAR-TF）/自主決策（ADM）工作將HFAR框架應用于一個需要參與平衡多項任務的系統：目標跟蹤、分類和目標意圖辨別（"朋友"、"可能的敵人 "和 "敵人"）。

本博士論文的目標是將這些目標結合起來，形成一個建立改進當前認知雷達系統的方法的基礎。這是通過融合機器學習概念和完全自適應雷達理論來實現的，以實現真正的認知雷達的實時操作，同時也將自適應雷達概念推進到新的應用中。

第一章：簡介

1.1 概述

現代雷達系統的發展促進了軟件定義雷達（SDR）系統能夠實現動態反饋回路行為，與傳統雷達不同。傳統雷達的前饋性質依賴于感知環境的假設特性，產生固定的參數設置，以保證預定的信號干擾加噪聲比（SINR）或雷達任務性能。然而，動態/變化的環境會導致任務性能下降或系統資源的管理不善。缺乏對雷達前端特性的自適應控制會導致雷達后端的信號處理工作增加，嚴重依賴雷達操作員或根據最壞情況設置靜態的雷達系統參數。

完全自適應雷達（FAR）框架旨在利用現代SDR系統實現的傳感器參數多樣性，允許自主適應雷達波形特征，以實現更好的環境感知和雷達任務性能。FAR框架的自主性質也轉向將雷達操作員的角色轉變為咨詢角色，以及減少用于目標信息提取的額外信號處理負擔。

FAR框架通過試圖模仿動物和人類中存在的認知的神經科學概念來實現自主適應。正如[2,3,4,5]所討論的，認知過程必須包括五個主要元素：感知、注意和分析（智能）、行動和記憶。在[6]中，Haykin討論了傳統主動雷達、FAR和認知雷達之間的區別。雖然FAR能夠通過反饋鏈路將接收機感知的環境與發射機的波形探測聯系起來，實現對環境的更好感知，但由于缺乏 "真正"學習所需的長期記憶，它的智能受到限制。

為了在認知雷達處理中進行優化，經常使用非線性函數。這些非線性函數在優化塊中實現，可以通過非線性約束目標函數的最小化進行雷達參數選擇和更新。對于FAR框架，這種 "執行優化"是在一個 "執行處理器塊 "中實現的，它試圖在服務質量（QoS）方法中平衡捕捉雷達系統基于任務的性能（性能成本）和傳感器資源消耗（測量成本）的成本函數。

在FAR框架中，執行優化被視為最關鍵的組成部分。在FAR框架中，通過結合注意力和分析，利用目標狀態的跟蹤和過去觀察的先驗知識（記憶）來選擇最佳參數指數選擇，執行處理器實現了"有限學習"。由于執行處理器中調用的傳感器參數選擇的性質，雷達波形參數被映射到雷達任務和目標性能上，給定的是先驗知識。此外，由于這種基于優化的適應性，隨著優化的復雜性增加，解決收斂的時間也在增加，因此限制了實時能力。

在概念上與FAR相似，機器學習是人工智能下的一個研究領域，它研究人類如何獲得知識，或學習，并在機器中表示這些概念。機器學習的一個子課題是神經網絡，通過它們的能力來模擬和實現學習過程，關聯、模式識別和關系建模都是神經網絡的有效任務，它可以用來提供對系統處理的較低影響，并通過識別/記憶開始學習。

1.2 動機和貢獻

學習被證明是認知系統中的一個關鍵組成部分，導致人們相信學習是認知雷達的一個主要組成部分。在[5]中，學習被定義為使用過去的信息來提高一個人的局部成功度。然而，為了充分地從記憶和行動中學習，實時能力和性能必須是可行的。正如前面所討論的，由于用于行動選擇的優化，可以看出，隨著問題的復雜性增加，優化的計算成本也在增加。高計算成本和缺乏記憶對實現 "正式 "認知系統構成挑戰。

在FAR和認知雷達研究領域已經取得了許多進展：然而，大多數集中在缺乏長期記憶和聯想的自適應系統上。同樣，在基于神經網絡和機器學習的雷達研究方面也取得了許多進展，但大多數集中在基于分類和圖像識別的問題上。本博士研究將著重于展示包括基于回歸的神經網絡如何通過降低對系統處理的影響來改善FAR的現有性能，并通過包括更強的記憶概念和將其擴展到展示學習來幫助認知雷達任務的執行，從而促成開發一個 "真正 "的認知系統。

這里討論的工作對認知雷達領域的貢獻如下：

通過用前饋神經網絡取代執行處理器中的優化組件，以降低對系統處理的影響并整合其固有的識別/記憶組件，開發了一個神經網絡啟發的FAR框架，即基于神經網絡控制的全適應雷達（FAR-NN）。
收集了不同參數適應情況下的模擬和實時實驗結果，并對局部解算器的實施和神經網絡進行了比較，結果表明靜態前饋神經網絡能夠實現較低的測量成本、更快的優化時間和類似的執行成本性能。
通過在每個傳感器感知行動周期（PAC）的 "執行處理器 "中模擬傳感器參數選擇，在分層全自適應雷達（HFAR）框架中實施靜態前饋神經網絡，以降低由于執行多個優化而對系統處理的影響。
通過對傳感器參數選擇的模擬，在FAR框架中實施了一個動態長短期記憶遞歸神經網絡（LSTM-RNN），將基于狀態的對不斷變化的環境的適應性和更強的記憶概念納入神經網絡激勵的FAR框架的優化部分，FAR-NN。
開發了一個LSTM-RNN，用于在動態頻譜擁擠的環境中生成低延遲、接近最佳的雷達頻率缺口波形。
將LSTM-RNN與現有的專門解算器 "減少誤差算法"（ERA）進行比較，其波形生成的仿真結果表明，網絡和算法的波形設計結果相似，LSTM-RNN生成波形的時間減少。
將現有的全適應雷達單目標跟蹤（FAR-STT）框架擴展到全適應雷達多目標跟蹤（FAR-MTT）的實現中，修改了目標函數和擴大了多目標環境的Fisher信息矩陣/Cramer Rao Bound度量。
收集了模擬和實驗結果，以證明將完全自適應雷達方法應用于多個目標跟蹤的好處，即能夠實現目標分離并保持單個目標的跟蹤，同時消耗較少的測量資源。
為一個需要執行多種任務[例如：目標跟蹤、分類和目標意圖辨別（朋友、可能的敵人和敵人）并自主分配雷達資源的雷達系統開發一個HFAR框架。
收集的模擬結果表明，通過使用自適應波形參數與固定參數集，將完全自適應的雷達方法應用于一個從事多種任務的系統的好處。
突出了使用完全自適應雷達概念的模擬和實驗演示，以證明認知雷達概念的可行實現。