DARPA終身學習機器(L2M)計劃旨在推動人工智能(AI)系統的發展,使其能夠不斷學習(和改進),利用一項任務的數據來提高另一項任務的性能,并以一種計算上可持續的方式做到這一點。該計劃的參與者開發了能夠執行各種功能的系統,包括自動駕駛、實時戰略和無人機模擬。這些系統具有不同的特點(例如,任務結構、生命周期),該計劃的測試和評估團隊面臨的直接挑戰是衡量這些不同環境下的系統性能。本文件是與DARPA和項目執行者緊密合作開發的,概述了構建和描述執行終身學習方案的代理性能的形式主義。
在第2節,我們介紹了終身學習情景的一般形式。這需要指定智能體可能接觸到的不同類型的經驗,以及應該從這些經驗中產生什么指標。在第2.1節中,我們簡要地概述了智能體展示終身學習的標準。在第3節中,我們定義了一套衡量標準,以描述智能體在特定場景下表現出的終身學習的程度。諸如[4, 7, 24]等資料中的討論也有助于為終身學習背后的思想打下基礎。
我們的框架和指標是為了盡可能不受智能體配置(如漸進式網絡[21]或彈性權重整合[11])、領域(如自主導航、機器人、戰略、分類)和環境(如StarCraft[25]、AirSim[23]、CARLA[2]、Habitat[14]、Arcade[1]、SplitMNIST[7]或Core50[12])影響。它也可以與終身學習的平臺結合使用,如Avalanche [13] 或 CORA [19]。
智能體、領域、環境和其他術語在附錄C中有更詳細的定義。我們推薦[18]作為終身學習一般領域的最新方法和進展的概述。從歷史上看,在如何定義和評估終身學習的系統和指標方面存在著很大的差異;不同的論文可能關注不同的指標。除了這里引用的那些論文之外,還有許多其他的論文以正向轉移等概念為論據來激勵其系統設計。本文提供了一套適用于一般終身學習問題的、定義一致的衡量標準。特別是,盡管終身學習領域的許多早期工作都集中在減輕災難性遺忘的問題上[5],[15]--一個代理在遇到新任務時失去了以前獲得的執行任務的能力--但我們這里的度量標準努力捕捉災難性遺忘和終身學習的其他特征,如轉移和與只接觸單一任務的代理比較。
一個包含這些指標實現的Python庫12metrics正在開發中,不久將公開發布。本文件將在開發完成后予以更新。
在DARPA L2M項目的過程中,執行者、測試和評估團隊以及DARPA系統工程和技術顧問(SETA)組成了幾個工作組,定期開會討論終身學習背后的概念和特征的衡量標準。本文件記錄了這些討論后達成的共識,其內容只有在這個過程中的密切協作下才能形成。特別是,定義和情景工作組提出了終身學習的標準(第2.1節)以及任務和環境(第2節)等概念,度量工作組制定了度量標準(第3節),在項目評估期間和之后,執行者根據他們在系統中的使用經驗,對定義和度量標準進行了反饋。
圖 2:AirSim 和 L2StarCraft 等環境定義了性能指標。其中一些子集被視為特定于應用程序的指標(第 2.3 節),用于計算終身學習指標(第 3 節)。
在DARPA終身學習機器(L2M)項目下,我們探索了一種自主系統終身學習的綜合方法,解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括:感知和行動的持續學習,不同任務之間的遷移,可擴展的終身知識維護,自主發現的自我導向學習,以及任務的非平穩分布建模。我們分別探索了這些方面,為分類和強化學習設置開發了各種終身學習算法。然后,這些開發的算法通過模塊化框架整合在一起,產生了一個同時支持分類和強化學習任務的L2M系統。
我們使用約翰霍普金斯應用物理實驗室的MiniGrid終身學習基準評估了這個L2M系統的終身學習性能。與單任務專家相比,對于該基準的Condensed和Dispersed場景,我們的結果顯示我們的系統有能力大大加快學習速度,平均前向遷移率為4.18和3.55,平均樣本效率為1.32和1.15。除了效率之外,我們的系統還顯示出比單任務專家更有效的性能,相對性能比為1.04和1.03,正向遷移比為1.12和1.04。
我們還通過使用Matterport 3D的機器人尋寶游戲,將這個L2M系統應用于綜合感知和行動,展示了我們的L2M系統在非結構化環境中快速學習不同任務并快速適應變化的能力。我們的結果顯示,與單任務專家相比,我們的系統學習分類任務的速度和準確性大約是他們的兩倍,顯示出平均相對性能為2.21,平均樣本效率為1.71,同時完全緩解了災難性遺忘。對于該領域的強化學習設置,我們的系統獲得了4.37的平均性能維持率和1.11的平均后向遷移率,這表明我們的終身學習智能體能夠學習新的任務,同時減輕災難性遺忘。我們的系統在利用過去的知識來啟動強化學習任務的學習方面也顯示出強大的潛力,其平均前向遷移率為3.11。然而,經過調整的單一任務專家能夠在單個強化學習任務上勝過我們的系統,我們的系統的平均相對性能比只達到0.88。我們還進行了各種消融實驗和對單個終身學習組件的評估。總體而言,我們的項目產生了110多篇科學出版物,展示了我們的工作和成果,從根本上推進了我們對終身機器學習的理解和能力。作為其中的兩個例子,我們的項目開發了最先進的使用占位預測的視覺導航,贏得了2020年人居署PointNav挑戰賽,并在2022年ICRA會議期間,在觀眾面前展示了服務機器人的實時終身學習的現場演示。
本報告記錄了我們在 DARPA 終身學習機器 (L2M) 計劃下的項目,涵蓋了我們在該計劃第 1 階段和第 2 階段的工作。
我們的項目探索了自主系統終身學習的綜合方法,解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體的變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括:感知和行動的持續學習,不同任務之間的遷移,可擴展的終身知識維護,自主發現的自我導向學習,以及任務的非平穩分布建模。
在第一階段,我們分別探索了這些方面,為分類和強化學習設置開發了各種終身學習算法。這些開發的算法在個別實驗中得到了評估。
在第二階段,我們開發了一個綜合的、模塊化的框架,將上述這些方面結合到一個支持分類和強化學習任務的L2M系統中。在第一階段的算法中,每個方面最有前途的算法被選為該系統中的模塊。然后,我們將這個L2M系統(1)應用于約翰霍普金斯應用物理實驗室(APL)的MiniGrid終身學習基準;(2)通過使用Matterport 3D的機器人尋寶游戲來整合感知和行動,展示了我們的L2M系統在非結構化環境中快速學習不同任務并迅速適應變化的能力。在第二階段,我們還繼續開發了第一階段的個別算法,并探索了其他終身學習的個別方法。當這些基本算法在我們的L2M評估中顯示出前景時,我們就把它們過渡到L2M系統的模塊中。
由于這個項目包含了大量的算法(詳見附錄A),本報告將在第3.1節中首先關注綜合的L2M系統,展示我們如何構建我們的終身學習系統以及它如何支持各個終身學習算法的高層觀點。然后,我們將在第3.3-3.4節中介紹我們在第一和第二階段中開發的主要的單個終身學習算法。我們對結果的介紹也是類似的,首先探討綜合L2M系統在APL MiniGrid(第4.2節)和我們對具身智能體的Scavenger Hunt(第4.3節)的應用中的評價,然后探討本項目下開發的單個算法的評價(第4.4-4.5節)。
我們的工作產生了一些主要的貢獻,在本節中有所描述。為方便起見,我們將這些貢獻按照那些已被納入綜合L2M系統的方法和其他未被納入的方法進行分組。正如第3.1節所詳述的,我們選擇算法作為L2M系統的組成部分是基于它們在第一階段結束時和第二階段早期的成熟度,以及它們對我們應用的必要性。
一個綜合的終身學習框架。 我們開發了一個模塊化的終身學習系統,在現實的服務機器人環境中支持分類和強化學習(RL)任務。該系統的核心是將因子化的終身學習方法與移動機器人的感知動作循環相結合,我們將其分為獨立的分類和RL管道。該系統包括額外的可選模塊,可以與核心分類和RL管道相結合,包括支持元學習、內在動機、探索、主動視覺映射和課程學習。這些組件可以根據問題領域來啟用或禁用,我們討論了為一個視覺尋寶游戲應用開發和評估的配置實例。
用于終身深度學習的去卷積因子化CNN(DF-CNN)。在非深度多任務和終身學習方面的現有工作表明,使用模型參數空間的因子化表示進行轉移是成功的,允許更靈活地構建任務模型。受此啟發,我們介紹了一種在卷積神經網絡(CNN)中共享潛伏因子化表征的新架構。所提出的方法被稱為去卷積因子化CNN[4, 5],使用去卷積因子化和張量收縮的組合來進行任務間的靈活轉移。在兩個計算機視覺數據集上的實驗表明,DFCNN在具有挑戰性的終身學習環境中取得了卓越的性能,抵抗災難性的遺忘,并表現出反向轉移,從隨后的經驗中改善先前學到的任務,而無需重新訓練。與單任務學習者相比,DF-CNN在CIFAR-100和Office-Home任務上分別取得了19.2%和7.9%的改進,擊敗了其他多任務和終身學習基線。
終身策略梯度:無遺忘的快速訓練(LPG-FTW)。 策略梯度(PG)方法在學習高維動態系統的控制策略方面已經顯示出成功。它們最大的缺點是在產生高性能的策略之前需要大量的探索。在終身學習的環境中,智能體在其一生中會面臨多個連續的任務,重用以前看到的任務的信息可以大大加快新任務的學習。我們提供了一種新的終身策略梯度學習方法,通過策略梯度直接訓練終身函數近似器,使智能體在整個訓練過程中受益于積累的知識。我們的經驗表明,我們的算法比單任務和終身學習基線學習得更快,收斂得更好,并完全避免了在各種挑戰性領域的災難性遺忘。在Meta-World任務中,LPG-FTW比在每個任務中單獨訓練的智能體取得了17.5%的改進,比最接近的終身學習方法改進了533%。
快速適應的元優化器(KFO)。 我們開發了一種算法,META-KFO,它能夠在不增加模型的建模能力的情況下轉換較小模型的梯度,但仍能帶來更好的元可學習性。我們在討論和分析我們提出的META-KFO算法的同時,還簡要介紹了各種學習優化的方法。我們推測為什么足夠大的深層模型可以進行元學習:上層具有轉化底層梯度的同等效果,就好像上層是一個外部元優化器,在一個僅由底層組成的較小的網絡上運行。
高效探索和導航的占位預測(OCCANT)。最先進的導航方法利用空間記憶來概括新的環境,但它們的占位圖只限于捕捉智能體直接觀察到的幾何結構。我們開發了占位預測,智能體使用其以自我為中心的RGB-D觀察來推斷可見區域以外的占位狀態。這樣一來,智能體就能更迅速地建立起自己的空間意識,這有利于在三維環境中進行有效的探索和導航。通過利用以自我為中心的視圖和自上而下的地圖中的上下文,我們的模型成功地預測了一個更廣泛的環境地圖,其性能明顯優于強大的基線。我們的主要貢獻是 (1)一個新的占有率預測框架,利用來自自我中心RGB(D)視圖的語義和幾何背景;(2)一個新的探索策略方法,結合占有率預測,以較少的探索獲得更完整的地圖;(3)成功的導航結果,在蘋果對蘋果的比較中,包括在歸納到一個不相交的數據集中的環境時,比目前的技術水平有所改善。我們的方法是2020年人居環境點導航挑戰賽的獲勝作品。
**學習內在獎勵的策略梯度方法(LIRPG)**最佳獎勵問題[6]旨在學習內在獎勵的參數,使所得獎勵達到RL智能體的學習動態,使從某些分布中抽取的任務的壽命(外在)回報最大化。我們提出了一種元梯度方法[7, 8]來解決最佳獎勵問題。在高層次上,我們在每個生命周期的迭代中抽取一個新的任務和一個新的隨機策略參數,并使用具有策略梯度的內在獎勵函數模擬智能體的生命周期。同時,我們通過考慮內在獎勵對策略參數的影響來計算元梯度,用壽命值函數更新內在獎勵函數。通過對內在獎勵的分析,我們展示了我們的方法如何鼓勵在不確定的情況下進行探索,利用對象之間的因果關系,并考慮到非平穩的獎勵。
強化學習的課程策略(CMDP)。 強化學習中的課程學習是一種訓練方法,旨在通過首先在一系列較簡單的任務上進行訓練,并將獲得的知識轉移到目標任務上,從而加快對困難目標任務的學習。自動選擇這樣的任務序列(即課程)是一個開放的問題,也是該領域最近許多工作的主題。在這個項目中,我們以最近的一種課程設計方法為基礎,將課程排序問題表述為馬爾科夫決策過程(MDP)。我們對這一模型進行了擴展,以處理多種遷移學習算法,并首次表明可以從經驗中學習這一MDP的課程策略[9]。我們探討了使之成為可能的各種表示方法,并通過在兩個不同領域為多個智能體學習課程策略來評估我們的方法。結果表明,我們的方法產生的課程可以訓練智能體在目標任務上的執行速度,甚至比現有的方法更快。此外,我們最近的進展表明,這種為一組任務學習的課程策略可以被推廣到未見過的新任務集上[10]。
目標關系和分布模型(OBJMAP)。 為了幫助定位智能體更有效地解決視覺搜索任務,我們提出在多個環境中對目標-目標的空間關系進行建模。在探索一個環境的時候,一個智能體最好能利用已經看過的目標知識來幫助更快地找到目標物體。我們通過學習不同類別的目標之間的共同發生率統計來解決這個問題,建立一個包含所有看過的目標位置的環境地圖,然后結合這些信息來計算目標物體出現在地圖上每個位置的概率。
組合式終身分類(COMPCLF)和強化學習(COMPRL)。人類智能的一個特點是能夠構建自成一體的知識塊,并以新穎的組合方式充分重用它們來解決不同但結構相關的問題。由于基礎搜索問題的組合性質,學習這種組合結構對人工系統來說是一個重大挑戰。到目前為止,對組合式學習的研究在很大程度上與終身學習或持續學習的工作分開進行。我們整合了這兩方面的工作,提出了一個通用的框架,用于終身學習可用于解決一系列相關任務的組合結構。我們的框架將學習過程分為兩個廣泛的階段:學習如何最好地結合現有的組件以吸收一個新的問題,以及學習如何調整現有的組件集以適應新的問題。這種分離明確地處理了記憶如何解決早期任務所需的穩定性和解決新任務所需的靈活性之間的權衡,正如我們在分類環境的廣泛評估中所顯示的那樣。然后,我們探索了一種基于神經模塊的RL的特殊形式的組合,并提出了一組直觀地承認組合解決方案的RL問題。從經驗上看,我們證明了神經組合確實捕捉到了這個問題空間的基本結構。我們進一步提出了一種組合式終身RL方法,該方法利用積累的神經組件來加速對未來任務的學習,同時通過重放經驗的離線RL來保持對以前任務的表現。在持續學習中使用可組合的表征,當任務大規模多樣化時,比非模數方法提供了82.5%的相對準確性的性能增益。
用于改進目標檢測的視頻中的無監督硬例挖掘(DETFLICK)。 最近,通過使用專注于硬負面例子的訓練目標,即目前被檢測器評為正面或模糊的負面例子,在目標檢測中獲得了重要的收益。當網絡被訓練來糾正這些例子時,這些例子會強烈影響參數。不幸的是,它們在訓練數據中往往是稀疏的,而且獲取成本很高。在這項工作中,我們展示了如何通過分析視頻序列上經過訓練的檢測器的輸出來自動獲得大量的硬性否定。特別是,在時間上孤立的檢測,即沒有相關的之前或之后的檢測,很可能是硬否定句。我們描述了從無標簽的視頻數據中挖掘大量此類硬陰性(以及硬陽性)的簡單程序[11]。我們的實驗表明,在這些自動獲得的例子上重新訓練檢測器,往往能顯著提高性能。我們介紹了在多個架構和多個數據集上的實驗,包括人臉檢測、行人檢測和其他目標類別。
使用自我訓練使目標檢測器自動適應新領域(STSL)。這項工作解決了現有的目標檢測器在無監督的情況下適應新的目標領域的問題。我們假設這個領域中大量的無標簽的視頻是現成的。我們通過使用現有檢測器的高置信度檢測來自動獲得目標數據的標簽,再加上通過使用跟蹤器的時間線索獲得的硬(錯誤分類的)例子。這些自動獲得的標簽然后被用于重新訓練原始模型。我們提出了一個修改過的知識提煉損失,并研究了為目標領域的訓練例子分配軟標簽的幾種方法。我們的方法[12]在具有挑戰性的人臉和行人檢測任務上進行了實證評估:在WIDER-Face上訓練的人臉檢測器,由從網上抓取的高質量圖像組成,適用于大規模的監控數據集;在BDD-100K駕駛數據集的清晰、白天圖像上訓練的行人檢測器,適用于所有其他場景,如雨天、霧天、夜間。我們的結果證明了結合從跟蹤中獲得的硬例子的有用性,通過蒸餾損失使用軟標簽相對于硬標簽的優勢,并顯示了作為無監督領域適應目標檢測器的簡單方法的可喜性能,對超參數的依賴性最小。
一半和一半。研究視覺常識的新任務和基準(HNH)對物體、人、行動和場景類型的一般識別一直是計算機視覺研究的核心重點。然而,現在我們在這些問題上已經取得了一定程度的成功,現在是時候定義新的問題,以刺激我們達到視覺智能的下一個水平。視覺常識的發展對于開發能在動態、新穎環境中發揮作用的智能智能體至關重要。但究竟什么是視覺常識?我們認為,在不直接可見的情況下,對事物可能存在的位置進行智能評估的能力,是人類和其他智能生物共享的關鍵和普遍的能力,是視覺常識的一個基本組成部分。人類經常表現出在沒有明確視覺線索的情況下做出決定的能力。這種 "智能搜索 "是視覺常識的一個突出的例子,我們相信它代表了一種技能,在開發智能體中是必不可少的。與我們的工作密切相關的是早期關于將上下文信息納入視覺預測的努力[13, 14, 15, 16]。我們相信,以最基本的形式對這種能力進行正式的基準測試可以是一個有價值的補充。在這項工作中,我們將推斷圖像中我們無法看到的東西的存在這一問題正式化。為了做到這一點,我們依賴于這樣一個事實,即一幅圖像的不同視圖描繪的是同一個場景。因此,個別部分可以作為其他部分的背景線索。由于這個原因,我們把這些任務稱為 "一半和一半 "任務[17]。
高效的終身逆向強化學習(ELIRL)。從演示中學習(LfD)的方法在通過模仿用戶獲得行為策略方面已經顯示出成功。然而,即使是單一的任務,LfD也可能需要大量的示范。對于必須通過示范來學習許多任務的多功能智能體,如果每個任務都單獨學習,這個過程會給用戶帶來很大的負擔。為了解決這一挑戰,我們引入了從演示中終身學習的新問題,這使得智能體能夠不斷地建立在從以前演示的任務中學到的知識上,以加速新任務的學習,減少所需的演示量。作為這個問題的解決方案之一,我們提出了第一個反向強化學習的終身學習方法,它通過演示來學習連續的任務,不斷地在任務之間轉移知識以提高性能。在演示的任務之間分享信息導致恢復的獎勵函數減少約65%。
使用高級共享特征集(SHELS)的任務無關的終身學習。深度神經網絡(DNNs)通常不能在動態開放世界環境中對未見過的類別進行概括,在這種環境中,概念的數量是無限制的。相比之下,人類和動物的學習者有能力通過識別和適應新的觀察而逐步更新他們的知識。特別是,人類通過獨有的(唯一的)基本特征集來描述概念,這些特征用于識別已知類別和識別新奇事物。受自然學習者的啟發,我們開發了一個稀疏的高層-排他性、低層-共享特征表示法(SHELS),它同時鼓勵學習排他性的高層特征集和基本的、共享的低層特征。高層特征的排他性使DNN能夠自動檢測出分布外(OOD)的數據,而通過稀疏的低層特征有效地利用容量,可以容納新的知識。由此產生的方法使用OOD檢測,在沒有已知類別邊界的情況下進行類別遞增的終身學習。我們表明,在各種基準數據集上,使用SHELS進行新穎性檢測,在統計上比最先進的OOD檢測方法有明顯的改進。此外,我們證明了SHELS模型在類增量學習環境中減輕了災難性的遺忘,使一個結合了新奇性檢測和適應性的框架能夠支持開放世界環境中的學習。
復合強化學習的基準(CompoSuite)。我們創建了CompoSuite,一個開源的模擬機器人操作基準,用于復合多任務和持續的RL。每個CompoSuite任務要求一個特定的機器人手臂操縱一個單獨的物體,以實現任務目標,同時避開一個障礙物。任務的這種組合式定義使CompoSuite具有兩個顯著的特性。首先,改變機器人/物體/目標/障礙物的元素會導致數以百計的RL任務,其中每個任務都需要有意義的不同行為。其次,RL方法可以專門評估其學習任務組成結構的能力。后者對問題進行功能分解的能力將使智能體識別并利用學習任務之間的共性來處理大量高度多樣化的問題。我們對現有的單任務、多任務和組合式學習算法在不同的訓練環境中進行評估,并評估它們對未見過的任務進行組合概括的能力。我們的評估暴露了現有RL方法在組合性方面的缺陷,并開辟了新的研究途徑。平均而言,單任務和多任務智能體能夠解決大約40%的任務,而具有明確組成結構的智能體則在此基礎上有所提高,解決了全部基準任務的92%。
用于多智能體強化學習的多智能體-注意力批判(MAAC)。終身學習智能體可能需要在其生命周期內與其他學習智能體合作和/或競爭。傳統的強化學習算法無法考慮到其他智能體,并受到其他智能體學習所引起的環境非平穩性問題的影響。最近的多行為體強化學習方法[18, 19]試圖通過利用行為體批判范式中的集中批判來解決這些問題;然而,隨著存在的行為體數量增加,這些方法不能很好地擴展。我們的方法,即多行為體-注意力批評[20],將注意力機制納入集中式批評者,以緩解這一問題。在多智能體領域的實驗表明,相對于最先進的基線而言,性能和可擴展性都有所提高。
用于多智能體強化學習的隨機實體明智因式分解(REFIL)。在智能體的一生中,它可能需要與具有不同能力/技能的智能體團隊合作;然而,在這些智能體的子組中經常出現共同的行為模式。我們提出的方法,即想象學習的隨機實體因式分解(REFIL)[21],試圖利用這些共同模式,通過將價值函數隨機分解為由不相干的實體子組組成的條款,來提高類似團隊的概括性。通過以這種方式構建價值函數預測,我們能夠更好地預測熟悉的子組狀態的新組合中的預期收益。在復雜的多任務多智能體設置上的實驗表明,與最先進的基線相比,樣本效率和概括性都有所提高。
解決清道夫服務機器人的隨機旅行購買者問題(STPP)。創造能夠在人類居住的環境中執行通用服務任務的機器人,一直是人工智能和機器人研究的一個長期的大挑戰。與各種任務相關的一個特別有價值的技能是根據要求定位和檢索物體的能力。在這項工作中,我們將這種技能建模為 "尋寶游戲"(Scavenger Hunt,SH),該游戲被表述為NP-hard隨機旅行購買者問題的一個變種。在這個問題中,目標是盡可能快地找到一組物體,給定它們可能被找到的概率分布。我們在模擬和真實的移動機器人上研究了SH問題的幾種解決算法的性能。我們使用強化學習(RL)來訓練一個智能體來計劃一個最小成本的路徑,并表明RL智能體可以勝過一系列啟發式算法,實現接近最佳的性能。為了促進對這一問題的研究,我們介紹了一個公開可用的軟件棧和相關網站,使用戶能夠上傳尋寶游戲,機器人可以下載、執行并從中學習,以不斷提高他們在未來游戲中的表現。
基于模型的貝葉斯探索的終身強化學習(VBLRL)。我們提出了一種終身的RL算法,該算法提取了以前遇到的任務中存在的共同結構,以便智能體能夠快速學習新任務的特定動態。我們考慮的終身RL問題可以被建模為隱藏參數MDP或HiP-MDP[22, 23],其中真實任務動態的變化可以由一組隱藏參數描述。我們的算法比以前的終身學習和HiP-MDPs的工作更進一步:1)在任務集合的不同抽象層次上單獨建模認識性和非認識性的不確定性:由描述任務概率分布的世界模型分布捕獲的不確定性,以及由單個任務內(隨機的)動態的特定任務模型捕獲的不確定性。為了實現更準確的順序知識轉移,我們將這兩個量的學習過程分開,并保持一個近似于它們的分層貝葉斯后驗。2)執行層次化后驗所啟用的貝葉斯探索。該方法讓智能體根據從后驗中采樣的模型進行優化操作,從而提高采樣效率。
關于這些算法的細節將在下一節提供。
為了面對軍事防御的挑戰,軍隊及其戰術工具的現代化是一個持續的過程。在不久的將來,各種任務將由軍事機器人執行,以實現100%的影響和0%的生命風險。國防機器人工程師和公司有興趣將各種戰略自動化,以獲得更高的效率和更大的影響,因為陸地防御機器人的需求正在穩步增長。在這項研究中,軍事防御系統中使用的陸地機器人是重點,并介紹了各種類型的陸地機器人,重點是技術規格、控制策略、戰斗參與和使用目的。本研究還介紹了陸地機器人技術在世界軍事力量中的最新整合,其必要性,以及各國際防務公司對世界經濟的貢獻,表明其在軍事自動化和經濟穩定中的優勢。本報告還討論了近期發展的局限性和挑戰、機器人倫理和道德影響,以及與機器人安全有關的一些重要觀點和克服近期挑戰的一些建議,以促進未來的發展。
為了加強軍事防御系統,必須大力發展和提高智能自主戰略能力。在大多數第一世界國家,研究國防技術改進是實現軍事防御現代化的優先事項。未來戰爭的特點可以根據不同領域的沖突進行分析,如:海洋、陸地、空中、網絡、太空、電磁和信息。隨著現代智能和機器人技術的改進,跨域(X域)和多域戰略也需要被關注。無人自主X域(多域)系統,簡稱UAxS,現在是研究和發展的重點,以使軍事力量更加強大、有力和智能。圖1展示了多域和X域的戰爭模式。
圖 1:多域和 X 域戰爭模型
現代防御機制可以在四個相互關聯的領域進行研究:先進的戰艦、良好的通信、人工智能和自主武器。這基本上意味著在軍事防御系統中實施機器人技術。在戰場上,一支裝備精良的機械化部隊是指揮官非常重要的資產。在戰爭中,指揮官必須專注于火力、機動性、人機合作、決策、支持裝甲和指揮步兵。在未來,機器人和自動化系統將通過提供支持和減少負擔來幫助解決這些問題,因為這些系統將更加智能、可靠和合作。在最近的軍事活動中,機器人和自主技術被用于偵察、設備供應、監視、掃雷、災難恢復、受傷士兵的檢索等(Dufourda, & Dalgalarrondo, 2006;Akhtaruzzaman, et al., 2020)。
為了確保可靠的使用和獲得最高的技術影響,機器人必須在半自動化、自動化和人機交互工程方面進行良好的設計。無人地面車輛(UGV)很有前途,在國防應用中具有很大的潛力,在這些應用中高度需要更快和可靠的通信鏈接(鏈接預算)和快速獲取信息(RAtI)(Akhtaruzzaman, et al., 2020)。機器人的價值比人的生命還要低。機器人在感知、檢測、測量和分析方面速度更快。機器人沒有任何激情或情感,不會像人類那樣感到疲勞或疲倦,而是在極端和關鍵條件下保持運作。在不久的將來,機器人將成為作戰計劃和參與的核心技術(Abiodun, & Taofeek, 2020)。它們將能夠通過智能傳感器技術與環境溝通,通過建模理解環境,理解人類的行動,定義威脅,服從命令,以更高的處理能力獲取信息,通過信息交換和共享與其他機器人互動,通過先進的控制技術自主適應敵對環境,并通過強大的計算能力與自動生成的程序應用智能進行自我學習(Akhtaruzzaman, & Shafie, 2010a, 2010b; Karabegovi?, & Karabegovi?, 2019)。
在不久的將來,UGV系統將成為軍事行動的關鍵技術,因為它們將確保幾乎零人力風險,不需要將人力直接安置到戰斗中。UGV系統還將能夠開放各種設施,如負載、自動監視、邊境巡邏、風險降低、障礙物清除、力量倍增器、遠程操縱、信號中繼等(Sathiyanarayanan等人,2014)。陸地防衛機器人必須能夠適應各種崎嶇的地形、惡劣的環境和非結構化的區域,同時發揮指定的作用并保持指揮層次。作為軍事部隊的一種程度,陸地機器人不能給團隊帶來任何額外的工作負擔。因此,必須實施有效的人工智能(AI)工程,以實現UGV或陸地機器人與行動部隊之間可靠的人機合作。
今天的智能機器人或自主武器仍然處于狹義人工智能(ANI)的水平(Horowitz,2019年),或者以某種方式處于ANI和通用人工智能(AGI)之間。這反映出它們還沒有準備好在災難或戰爭等敵對情況下完全自主并做出可靠的決定。人類擁有在很大程度上應用感知經驗的智慧,能夠適應環境,并能在關鍵情況下做出適當的決定。如果這些能力能夠被植入機器人的大腦,該系統就可以說是AGI系統。盡管與人類相比,機器人可以抵御枯燥、骯臟和危險的工作,但它們包括一些有限的功能,如航點或目標導向的導航、障礙物檢測、障礙物規避、威脅檢測、人類檢測和識別、定位、地圖構建、通過圖像和聲音處理提取信息,以及與其他機器人的某種合作。因此,如果能確保機器人和人類之間的良好合作,機器人將在人類的監督下自主工作,那么軍用地面機器人將是最有效的。
本研究對軍用陸地機器人系統、最近的技術進步、應用和道德影響進行了回顧。一些發達國家和不發達國家的現狀,以及通過推進和發展軍事武器、自動化武器和智能技術對世界經濟的工業影響,都反映在審查研究中。本文還闡述了參與戰爭的機器人倫理以及該技術對道德國家的影響。該研究主要試圖通過確定最近的差距、局限性和技術進步的倫理影響,來確定地面機器人技術的最新應用和實施情況。
近年來,在獨立和相同分布(i.i.d.)數據的假設下,主要針對單一任務進行訓練的深度學習已經取得了巨大的進展。然而,當天真地在多個任務上連續訓練,而不重溫以前的任務時,已知神經網絡會遭受災難性的遺忘(McCloskey和Cohen,1989;Ratcliff,1990),即在學習新任務時,執行舊任務的能力往往會喪失。與此相反,生物生命能夠在一生中從明顯的非即得經驗中學習許多任務,獲得新的技能并重復使用舊的技能來學習新的能力,同時保留以前的重要知識。當我們努力使人工系統越來越智能時,自然生命不斷學習的能力是一種重要的模仿能力。持續學習(Parisi等人,2019)最近在機器學習研究中引起了相當大的關注,并出現了一些期望值。模型應該能夠依次學習多個任務,最終任務的數量和復雜程度未知。重要的是,在學習新的任務時,應該不會對以前的任務產生災難性的遺忘,最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移:以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率,這在數據稀缺的情況下尤為重要。一些方法通過擴展來解決持續學習的問題,也就是說,模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上,這些方法通過設計減輕了災難性的遺忘,因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整,但這樣做需要人為估計需要多少擴展,這不是一個簡單的過程。相反,通常對每個新任務采用預設的、恒定的擴展。另外,我們可以考慮動態的、數據驅動的模型擴展,或者采用模塊化的模型增長方法,從而開發出一個框架,為持續學習建立緊湊的模型,其中模型的大小隨著任務數量的增加(最好是不斷增加)而有效擴展,同時減輕災難性的遺忘現象。此外,我們試圖開發一個框架,使其可以通用于不同的持續學習任務,例如分類、圖像的生成過程和自然語言處理序列標簽,即命名實體識別。在一個持續學習的環境中,我們會遇到一連串具有預定目的的任務,但每個任務都由一個不同的數據集組成。主要目標是建立模型,使其在不同的任務中表現盡可能一致,同時i)重復使用以前任務的信息,以及ii)防止模型不受控制地增長(大小)。然而,我們的方法包括為每個任務建立一個模型,這樣,模型的大部分組件是跨任務共享的(全局的),剩下的幾個是特定任務的(局部的),從而允許信息共享和控制增長。因此,我們試圖開發具有全局和特定任務參數的特定任務(深度學習)模型,以實現有效和高效的持續學習。
近年來,在獨立和相同分布(i.i.d.)數據的假設下,主要針對單一任務進行訓練的深度學習取得了巨大的進展。然而,當天真地在多個任務上連續訓練,而不重溫以前的任務時,已知神經網絡會遭受災難性的遺忘(McCloskey和Cohen,1989;Ratcliff,1990),即在學習新任務時,執行舊任務的能力往往會喪失。與此相反,生物生命能夠在一生中從明顯的非即得經驗中學習許多任務,獲得新的技能并重復使用舊的技能來學習新的能力,同時保留以前的重要知識。當我們努力使人工系統越來越智能時,自然生命不斷學習的能力是一種重要的模仿能力。
持續學習(Parisi等人,2019)最近在機器學習研究中引起了相當大的關注,并出現了一些期望值。模型應該能夠依次學習多個任務,最終任務的數量和復雜程度未知。重要的是,在學習新的任務時,應該不會對以前的任務產生災難性的遺忘,最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移:以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率,這在數據稀缺的情況下尤為重要。
一些方法通過擴展來解決持續學習的問題,也就是說,模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上,這些方法通過設計減輕了災難性的遺忘,因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整,但這樣做需要人為估計需要多少擴展,這不是一個簡單的過程。相反,通常對每個新任務采用預設的、恒定的擴展。另外,我們可以考慮動態的、數據驅動的模型擴展,或者采用模塊化的模型增長方法,從而開發出一個框架,為持續學習建立緊湊的模型,其中模型的大小隨著任務數量的增加(最好是不斷增加)而有效擴展,同時減輕災難性的遺忘現象。此外,我們試圖開發一個框架,使其能夠通用于不同的持續學習任務,例如分類、圖像的生成過程和自然語言處理序列標簽,即命名實體識別。
在一個持續學習的環境中,我們會遇到一連串具有預定目的的任務,但每個任務都由一個不同的數據集組成。主要目標是建立模型,使其在不同的任務中表現盡可能一致,同時i)重復使用以前任務的信息,以及ii)防止模型不受控制地增長(大小)。然而,我們的方法包括為每個任務建立一個模型,這樣,模型的大部分組件是跨任務共享的(全局的),剩下的幾個是特定任務的(局部的),從而允許信息共享和控制增長。因此,我們試圖開發具有全局和特定任務參數的特定任務(深度學習)模型,以實現有效和高效的持續學習。
我們的工作對DARPA終身學習機器(L2M)計劃和持續學習社區的貢獻列舉如下:
開發了生成式對抗網絡的持續適應模型(Cong等人,2020)。
開發了使用貝葉斯非參數字典權重因子的持續學習(Mehta等人,2021)。
為人類和機器的結構化任務分布開發了一個元學習框架(Kumar等人,2020)。
為鑒別性和生成性持續學習開發了高效的特征轉換(EFTs)(Verma等人,2021年)。
通過設計和利用參數有效的特征圖轉換,為生成式對抗網絡(GANs)開發了一種持續學習方法。
開發了第一個用于NER的少許類增量學習的工作(Wang等人,2022a)。
開發了結構化稀疏卷積(SSC),利用圖像的固有結構來減少卷積濾波器的參數(Verma等人,2022)。
開發了一個新的任務持續學習框架,該框架不假設任務序列是不同或唯一的,因此需要一個任務相似性識別模塊(Wang等人,2022b)。
在機器學習領域產生了9項學術科學貢獻,其中7項已經發表,2項目前正在審查。
用我們的EFT框架為M21評估分類基準做出了貢獻(Verma等人,2021)。
下面,我們為每個貢獻提供一個簡短的總結,然后是我們項目產生的公開可用的軟件包的清單,以及一個完整的參考文獻清單,我們向讀者介紹完整的方法學細節、實驗設置和經驗結果。
自人工智能(AI)誕生以來,復雜的游戲為測試和探索搜索技術提供了一個具有挑戰性的領域。甚至阿蘭-圖靈也提出將國際象棋游戲作為人工智能的基準,提出了一種他親手執行的游戲算法[1]。游戲在搜索算法中的重要性后來在1958年得到了擴展,當時阿瑟-塞繆爾使用早期版本的強化學習創造了一個跳棋游戲程序[2]。自20世紀70年代以來,重點是國際象棋比賽,最終為IBM深藍程序在1996年擊敗世界國際象棋冠軍加里-卡斯帕羅夫鋪平了道路[3]。在最近幾年,玩游戲的人工智能仍然處于該領域的前沿。2016年,谷歌DeepMind的經典大狀態空間游戲Go的智能體在比賽中擊敗了世界冠軍[4],標志著人工智能發展的一個里程碑。
游戲有很大的搜索空間,很難完全探索。盡管一個人可以采取的狀態和行動組合的數量很多,但人類在為復雜的游戲制定策略方面卻異常出色。然而,隨著計算能力和算法理論的進步,人工智能Agent現在能夠在復雜游戲中擊敗世界冠軍人類。這些現代游戲算法往往擺脫了人類的理解能力,并試圖取代人類的決策,而不是增強它。
在整個人工智能領域,存在著使人工智能更加透明、可解釋和可說明的普遍工作[5]。然而,在玩游戲的人工智能領域,這種努力對學習Agent來說是稀疏的,因為現代Agent傳統上使用非符號方法。符號Agent通過使用所學概念的符號描述來表示其知識,而非符號Agent則以內部格式表示其知識,如加權突觸、邏輯單元或連接網絡[6]。游戲可以特別受益于符號方法的可解釋性,以幫助人類用戶理解游戲,并在人工智能的輔助推理被移除后提高他們的表現[7]。
符號化人工智能用于游戲的一個例子是學習分類器系統(LCS)算法家族。LCS是基于規則的學習機器,采用遺傳算法(GA)來發現新的規則[8]。LCS的實現分為兩個系列,即密歇根式和匹茲堡式。密歇根式LCS評估單個規則的適用性,而匹茲堡式LCS則評估規則集的適用性。最近的研究工作絕大部分集中在密歇根式的實現上[8]。此外,由于較小的評估時間和在線學習能力,密歇根式的LCS實現在游戲中比匹茲堡式的對應系統受到廣泛青睞。然而,由于規則數量眾多,它們的推理能力較低[7]。雖然匹茲堡式的LCS在實時戰略游戲中經常擁有局限性[9],但它們在其他游戲環境中顯示出了前景,因為在這些環境中可以進行離線學習[10],同時保持可解釋性[11] 。
本論文探討了LCS在一類特殊游戲中的應用:兵棋推演。兵棋推演并沒有一個標準的定義。2020年版的《聯合出版物5-0》將兵棋推演定義為 "在合成環境中的沖突或競爭的表現,其中人們做出決定并對這些決定的后果做出反應"。[12] 相比之下,國防建模與仿真協調辦公室(DMSCO)使用現已失效的電氣和電子工程師協會(IEEE)610.3-1989的兵棋推演定義,將其定義為 "一種模擬游戲,參與者在預先確定的資源和約束條件下尋求實現特定的軍事目標;例如,模擬參與者做出戰場決策,計算機決定這些決策的結果。" [13] 在本論文中,我們將兵棋推演定義為以現實世界的邏輯為模型的戰場模擬,其中參與者做出決定以完成一個或多個目標,并由計算機決定結果和互動。
這篇論文的重點是LCS在回合制、同時移動和多行動游戲Stratagem MIST中的實現。Stratagem MIST是空軍研究實驗室(AFRL)正在開發的一個游戲,作為戰時沖突的多域模擬器。據作者所知,專門用于軍事戰爭游戲的LCS Agent目前還沒有被探索。此外,在一般的游戲中缺乏涉及匹茲堡式的LCS的研究,這也提供了一個興趣點和未開發的領域。我們的假設是,LCS,特別是匹茲堡式LCS,除了產生可解釋的輸出,可以讓外部觀察者理解其決策過程外,還可以成為Stratagem MIST的有效的符號游戲Agent。
兵棋推演對于軍事科學領域尤其重要,因為它們可以用于發展作戰理論[14]。現代兵棋推演的概念是1780年在普魯士發明的,記錄顯示,年輕的軍官通過玩桌面兵棋推演來學習軍事戰略。從歷史上看,從兵棋推演中學到的經驗往往能轉化為現實世界的場景。在第一次世界大戰中,每個主要作戰國都采用了兵棋推演來幫助戰爭計劃[15]。在第二次世界大戰中,美國和英國皇家海軍利用分析后的兵棋推演結果來制定更好的戰術,而軸心國部隊則利用兵棋推演來預測盟軍的戰略[14]。近年來,一些項目證明了應用人工智能技術解決復雜兵棋推演的成功[16]。然而,解決游戲或開發先進的搜索技術以勝過人類的目標可能與兵棋推演的既定目的相沖突。如果兵棋推演的目的是通過模擬為人類玩家準備實際的沖突,那么非符號Agent的行動可能無法轉移到現實世界的表現。相反,一個能夠很好地發揮兵棋能力,并以可解釋的形式呈現其理由的Agent有可能幫助發現新的戰略和戰術,從而轉化為現實世界的場景。
戰略MIST是探索兵棋推演中使用LCS的一個主要領域。其巨大的復雜性、一般的兵棋結構以及對多個多領域場景的適應性,促使人們在多個方面產生研究興趣。由于在兵棋和Stratagem MIST中沒有其他LCS的實現,因此跟蹤LCS規則在條件分布、行動分布和行動選擇傾向方面的內部構成是很重要的。這些數據可以回答關于LCS在保持可解釋性和性能的同時做出復雜決策的能力的問題。
本論文試圖回答以下研究問題:
1.在兵棋環境中,LCS Agent的有效性如何?
2.在Stratagem MIST中,LCS生成的規則的內部構成是怎樣的?
3.LCS Agent生成的默認規則集的可解釋性如何,如何才能提高可解釋性?
為回答上述研究問題,進行了以下任務:
1.開發能夠使用已知的LCS方法有效發揮Stratagem MIST的Agent。
2.進行實驗,比較使用不同符號和非符號游戲方法的Agent勝率。
3.分析LCS Agent能夠為一般的Stratagem MIST場景制定策略的程度。
4.檢查最終確定的LCS規則集中的條件和行動的分布。
5.分析如何解釋所產生的規則集,并將其簡化為可讀的形式。
第二章介紹了博弈論的概念,LCS研究的概述,以及Stratagem MIST的描述。第三章概述了為回答研究問題所實施的工作。第四章分析和討論了所得數據。最后,第五章提出結論并討論了未來的工作。
人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。
由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。
AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。
在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。
自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。
一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。
最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。
與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。
將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。
我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。
為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。
圖1: 仿真環境的渲染圖
每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。
每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。
圖2:武器交戰區(WEZ)
WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。
我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。
圖4:PHANG-MAN agent的高層結構
北約SCI-341研討會的主要科學目標是概述有關自主系統群體 (AS) 中態勢感知 (SA) 問題的最新技術,并確定未來發展與北約行動的相關性。在廣泛的領域研究了態勢感知:太空、海洋、網絡、社交媒體、特大城市。
這項研討會的想法源于關于將自動化和基于人工智能的系統集成到無需人工直接監督即可運行的系統和集群系統。我們知道,就人類而言,良好的 SA 水平是成功執行任務的重要先決條件。因此,我們詢問自動化系統和群體是否也是如此,以及群體的新興使用如何影響人類 SA。
研討會期間提交了所有八篇常規論文,除論文外,美國空軍前首席科學家 Mica Endsley 博士發表了一篇主題演講。
演講分為三個部分:1)自主和態勢感知,2)人類作為一個循環系統,3)群體智能和態勢感知。第一場會議討論了用于機器人和自主系統建模和仿真的群體控制方法、氣象情報和合成環境。第二場會議討論了如何通過群體展示、異常檢測和可解釋的人工智能為人類操作員提供更好的 SA。第三場討論了通過群體任務分配的群體智能、使用合成環境的群體性能評估以及群體與群體之間的交互。
Session 1: 態勢感知與自主性——3篇論文
Session 2: 人在循環系統中——2篇論文
Session 3: 群體智能與態勢感知——3篇論文
A Comparison of Distributed and Centralized Control for Bearing Only Emitter Localization with Sensor Swarms(分布式和集中式控制在單方位輻射源定位和傳感器群定位中的比較)
傳感器群具有增強態勢感知的潛力。如果傳感器群中多個資產協同工作,則存在兩個挑戰:優化傳感器部署和同時最大限度地減少操作員的工作量。如果管理單個資產的傳感任務使操作員超負荷,傳感器需要自動調整其行為。如何實現控制結構有多種可能性。
本文提供了對路徑規劃的調查。要完成的任務是使用兩個僅承載傳感器的平臺定位多個目標。作者認為,“通過目標分配算法解決路徑規劃問題特別有趣,因為存在解決分布式系統上的線性分配問題的方法,僅通過動態通信圖連接”。作者比較了六種不同的控制策略:分布式樹搜索 (DTS)、分布式優化器 (DO)、分布式迭代計劃交換 (DIEP)、中央樹搜索 (CTS)、中央優化器 (CO) 和中央分配 (CA)。比較考慮了兩個方面:一個場景中的所有目標都被本地化的時間,以及必要的計算時間。
中央控制意味著評估所有傳感器/平臺承載傳感器的聯合動作空間,并將最佳動作分配給每個單獨的傳感器載體。這種方法需要強大的計算能力,因為必須解決高維問題。作者建議在本地為每個平臺規劃行動。通過這種分散的方法,可以實現多個傳感器的聯合任務的協調行為,其中每個平臺計算自己的控制向量并將其發送給其他平臺。重復此過程,直到解決方案收斂。分散的方法通常不能提供最佳的聯合解決方案。
在評估中,目標被認為是威脅;因此,平臺需要與當前目標估計保持威脅距離。此外,不同算法的規劃范圍(h 總動作數,I 步數,具有恒定控制輸入)是不同的(由作為首字母縮略詞后綴的數字表示,例如 DTS3)。下圖顯示了三種評估場景:角度和水平/垂直、Circle-4 和 Circle-8。使用了兩種不同的起始配置(相同和相反)。所有模擬都使用了 100 次蒙特卡羅運行。論文(Schily, H., Hoffmann, F., Charlish, A. A Comparison of Distributed and Centralized Control for Bearing Only Emitter Localization with Sensor Swarms. STO-MP-SCI-341)的第2章提供了詳細的評估設計。
結果如下。總體而言,CA3 顯示出可喜的結果:它在角度、水平/垂直、Circle-4 和 Circle-8-Same 場景中表現最好。對于 Circle-8-Opposite,“CA 算法很難找到最佳分配。這是因為平臺在決定是按順時還是逆時針訪問目標時并不相鄰。”對于這種情況,DIEP 和 CP3 表現最好。DIEP 的表現與具有相同時間范圍的中央規劃者相似。由于它需要較低的計算成本,因此它被認為是路徑中央規劃的有趣替代方案。對于每種方法,較長的規劃范圍對結果是有益的。
作者認為 CA 算法“似乎在集中式和分布式規劃方法之間實現了很好的折衷。在所進行的實驗中,它唯一的弱點是同時定位許多目標,這些目標相對于傳感器平臺的起點在各個方向上均勻分布(第 8 圈)。”
AI-Powered High Resolution Weather Intelligence Platform(AI驅動的高分辨率天氣智能平臺)
天氣對 UxV(無人駕駛車輛)的運營安全和效率有重大影響。風、湍流、極端溫度、濕度、閃電、云、結冰和降水只是許多局部天氣現象中的一小部分,這些現象決定了 UxV 在給定區域可以做什么或不可以做什么,我們對這些微觀現象的理解實時和預測對于任務成功至關重要。當考慮成群的 UxV 時,挑戰甚至更大,其中每輛車的態勢感知 (SA) 都嚴重依賴于另一輛車。在當今的戰場上,天氣的影響以及我們預測和應對天氣的能力,可以決定任務的成敗。
Tomorrow.io 由軍事飛行員創立,是世界上發展最快的氣象技術公司。在短短的時間內,Tomorrow.io 已成為軍事、航空和無人駕駛航空系統 (UAS) 行業的領先氣象解決方案,客戶包括主要航空公司、武裝部隊以及無人機和無人機行業的領導者。Tomorrow.io 的團隊由 100 多名科學家、工程師、產品和業務經理組成。憑借在數值天氣預報、人工智能和大規模并行計算以及航空、國防、產品開發和用戶體驗/用戶界面 (UX/UI) 方面的豐富經驗,Tomorrow.io 具有獨特的資質,可以實現范式轉變氣象行業。
大多數天氣預報在全球范圍內都存在同樣的運營差距。缺乏數據源,特別是在武裝部隊行動的偏遠地區,以及沒有雷達和氣象站的地區,以及這些地區公開可用模型的粗分辨率,是缺乏準確性和細節的主要原因提供的數據和預測。此外,原始的、不可操作的天氣信息的輸出使最終用戶(如 UxVs 操作員)的決策過程和 SA 支持變得更加困難。
Tomorrow.io 開發了一種整體方法來解決特定于 UxV 的天氣挑戰。相關的 Tomorrow.io 功能集成了新穎的傳感技術、全面而靈活的數據同化引擎、定制的建模框架、機器學習技術以及用于靈活交付數據和見解的現代云原生軟件架構的組合。
對于高質量的天氣預報,觀測(地面、空中、衛星)、模型(全球、大陸)和高性能(數值天氣預報、大規模并行計算)計算是必要的。在大量 UxV 運行的地區,氣象站或雷達站可能不可用,或者可能在相關空域上方進行采樣。此外,這些地區的天氣模型也可能不可用。該貢獻通過提出高分辨率天氣情報平臺解決了這個問題;下圖顯示了用戶界面。數據來自各種“傳統和非傳統傳感技術”。這些模型能夠攝取不同的數據源,包括 UxVs 傳感器。這樣做,可以提供“以亞公里空間分辨率實時飛行條件的完整圖片”以及高頻時間更新。在數據稀疏的地區,UxVs可以創建一個獨立的天氣觀測“網絡”。使用綜合定制大氣模型 (CBAM),可以預測長達 14 天。提議的系統為 UxVs 操作提供了幾個好處,包括快速更新、多傳感器 UxVs 天氣分析和高分辨率歷史基線分析和預測。UxVs 跟蹤和提取原位數據支持人類操作員進行實時決策。此外,從高分辨率數據中獲得的洞察力和警報可以在必須快速做出決策的情況下為操作員提供支持。開發和發布時間表計劃從 2019 年到 2025 年。
Synthetic Environment for Robotics and Autonomous Systems(機器人與自主系統的合成環境)
在未來的軍事作戰環境中使用機器人自主系統(RAS)和機器人群將成為現代戰爭的主要挑戰之一。自 2016 年以來,北約建模與仿真卓越中心 (M&S COE) 一直在開發用于概念和能力開發的機器人研究 (R2CD2) 項目,以分三個年度階段交付開放、可擴展、模塊化、基于標準的 M&S 工具原型架構,用于 RAS 和 Robotic Swarms 的實驗。具體來說,它側重于將 C2SIM 標準擴展到無人自主系統 (UAxS) 的實驗,以便在指揮與控制 (C2) 和仿真系統之間交換命令和報告。R2CD2 第二代架構實現了戰術網絡模擬和網絡效果功能,以支持軍事通用作戰圖片 (COP) 表示中公認的網絡圖片層的實驗和概念驗證,以擴展和改進 RAS 和集群態勢感知在戰術和操作層面。該實驗于 2020 年進行,通過多個互操作性標準證明了在三個不同位置的不同系統之間進行復雜交互的可行性。
該架構的最后一代,名為 R2CD2 EVO,引入了虛擬模擬、用于真實和模擬無人機系統 (UAS) 的真實地面控制站 (GCS) 和提供包括網絡層的 RAS/Swarm COP 的 C2 系統。該平臺使我們能夠研究、分析和對抗 RAS 系統和群體,根據任務任務和模擬系統的動態姿態,突出描述對來自建模傳感器的外部刺激作出反應的過程的行為。平臺數據設置場景是基于未來特大城市模型 (WISDOM) 實施的城市環境開發的,并將兵棋推演概念擴展到 RAS,充當訓練測試場,不僅用于在軍事期間使用 RAS 系統人員的標準培訓任務,也可作為能力發展的態度訓練算法。作為研究和開發活動的結果,R2CD2 EVO 被提議作為開發 RAS 合成環境的基石,以支持北約和各國在多域 UAxS 上的概念開發、實驗、培訓和演習活動。
Swarm View: Situation Awareness of Swarms in Battle Management Systems(群體視角:戰斗管理系統中群體態勢感知)
多架無人機(UAV)的使用意義重大。因此,人機交互及其交互設計變得越來越重要,特別是在戰場上的軍事偵察中。然而,無人機群規模的不斷擴大帶來了許多需要解決的挑戰,例如具有高動態性的復雜情況增加了對用戶的需求。
作者解決了人機交互的人體工程學顯示問題,重點關注戰斗管理系統中的集群。隨著無人機群規模的增加(例如,多達數千個戰術無人機),情況可能很快變得復雜和混亂。因此,需要仍然能夠為群體的所有者提供 SA 以避免信息過載的解決方案。
首先,該貢獻提供了文獻調查的結果。一方面,作者提取了單個人類操作員必須監控大群體時可能出現的挑戰:復雜的操作畫面、高動態、信息過載以及對用戶的需求不斷增加。另一方面,它們為符合人體工程學的顯示器設計提供了現有的指導方針。基于此,作者設計了四種不同的面向應用的原型布局,針對鼠標、鍵盤和觸摸輸入進行了優化:
基于領導者的呈現:群體分成團隊;可視化一個團隊的領導機器人。 基于群體的呈現(下圖):將整個群體作為一個單元;整個群體的可視化,單一機器人可分解。 基于區域的呈現:區域、POIs等的可視化;與環境的交互。 基于縮放的呈現:縮放級別而定的可視化;信息級別由用戶決定。 所有布局都包含六個主要組件,這些組件適用于各自的布局。地圖 (1),基于谷歌地圖 (2021) 是基礎并位于顯示中心。它提供縮放、小地圖、帶有附加信息的藍軍和紅軍、未知對象以及區域和興趣點 (POI) 選項等功能。區域管理 (2) 允許用戶創建例如操作區域 (AO) 或 POI。任務管理 (3) 包含一個時間表,其中包含所有計劃的、當前的和已完成的任務,并允許為群體或部分群體計劃新任務。狀態信息 + 直播 (4) 顯示集群或無人機的狀態。直播的顯示尺寸(來自選定的無人機或區域)是可變可調的。Red Force 信息 (5) 在單獨的列表中顯示未知和已知對象(除了地圖顯示)。輔助系統優先考慮支持用戶決策的傳入對象。對話框 (6) 顯示傳入的警報、警告和消息。 這四種布局將很快與德國陸軍偵察部隊的焦點小組進行評估。根據來自特定軍事角色和層級的反饋,將迭代調整布局。進一步的開發/實驗將確定 SA、用戶體驗和直觀性(實驗室和現場測試),并為交叉設計和群體交互用戶界面提供建議。
Anomaly detection and XAI concepts in swarm intelligence(群體智能中的異常檢測和XAI概念)
對于群體智能中的人類操作員來說,關鍵情況下的決策支持至關重要。自主系統共享的大量數據很容易使人類決策者不堪重負,因此需要支持以智能方式分析數據。為此,使用了用于評估情況和指示可疑行為或統計異常值的自主系統。這增強了他們的態勢感知能力并減少了工作量。因此,在這項工作中,我們強調為檢測監視任務中的異常而開發的數據融合服務,例如在海事領域,可以適應支持集群智能的運營商。此外,為了使人類操作員能夠理解群體的行為和數據融合服務的結果,引入了可解釋的人工智能 (XAI) 概念。通過為某些決策提供解釋,這使得自主系統的行為更容易被人類理解。
作者解決了由于自主系統共享大量數據而導致的信息過載問題。為了緩解這個問題,他們建議通過兩種智能數據分析方式來幫助人類操作員。第一種方法是自動異常檢測,這可能會加強人類操作員的 SA 并減少他們的工作量。第二種方法是可解釋的人工智能 (XAI) 概念;它們有可能使群體行為以及異常檢測結果更易于理解。
作者認為,控制一群無人機仍然具有挑戰性。一方面,(半自動化)群體代理“必須決定行動方案”;另一方面,人類操作員必須決定他們的行動,例如與群體互動。提出的建議力求改善人在循環中。考慮到海上監視的應用,使用非固定代理的動態方法具有幾個優點。首先,某些場景只能使用動態方法進行管理;其次,與固定監視傳感器相比,代理更便宜;第三,在多個地點靈活使用代理可以減少操作群體所需的人員數量。然而,情況評估仍然需要知情的操作員。
作者認為,在海洋領域用于船舶分析的異常檢測算法可能適用于引入以下場景的群體。“假設我們有一個群體來支持海上船只,這些船只不僅會收集它們自己的傳感器系統可用的數據,還會收集所有資產的數據。所有來源收集的信息都需要融合成一幅連貫的畫面。這不應僅限于 JDL 數據融合的第一級,而應包括更高級別的數據融合過程,以獲取有關附近所有對象的可用信息。” 數據驅動方法能夠應對這種情況。文獻提供了三種檢測位置和運動異常的方法:統計解釋為與正常行為相比的異常值;聚類分析聚類相似的軌跡和確切的路線;用于建模正常移動模式的深度學習方法。為了應對更復雜的場景,包括船舶周圍環境(基礎設施、地理、天氣等)在內的算法是必要的。在某些復雜異常的情況下,區分正常和異常行為需要基于規則、基于模糊、多智能體或基于概率圖形模型的算法。對于所有提到的算法類別,作者都指出了大量的示例算法。
一些算法是黑盒模型,因此,它們的解釋對于人類操作員來說是復雜的。XAI 概念可以幫助緩解這個問題。XAI 概念旨在“提供道德、隱私、信心、信任和安全”,并努力在“它已經做了什么、現在正在做什么以及接下來會發生什么”中明確決策。,從而提高了人工操作員的 SA。考慮到 XAI 模型,模型特定方法(僅限于某些數學模型)可以與模型無關(適用于任何類型的模型)方法區分開來。
在目前的貢獻中,重點是與模型無關的方法。考慮到這些,局部解釋方法(解釋整個模型的單個預測結果)可以與全局解釋方法(解釋整個模型的行為,例如以規則列表的形式)區分開來。此外,作者使用特征屬性、路徑屬性和關聯規則挖掘來區分方法。通過特征屬性,“用戶將能夠了解他們的網絡依賴于哪些特征”;方法示例是提供全局和局部可解釋性的 Shapley Additive Explanations (SHAP) 和指示“模型在進行預測時考慮的輸入特征” 的局部可解釋模型無關解釋 (LIME)。路徑集成梯度(PIG,使用局部解釋)等路徑屬性提供了對模型預測貢獻最大的特征,從而深入了解導致決策的推理。關聯規則挖掘(ARM)是另一種使用全局解釋的方法,發現大型數據集中特征之間的相關性和共現。ARM 方法使用簡單的 if-then 規則,因此被認為是最可解釋的預測模型。可伸縮貝葉斯規則列表 (SBRL)、基尼正則化 (GiniReg) 和規則正則化 (RuleReg) 技術被認為適用于監視任務。
作者認為,使用這樣的 XAI 概念,人類操作員(決策者)可以更好地理解、更好地控制和更好地與一群自主代理進行通信,尤其是在具有挑戰性的環境中。總而言之,將異常檢測和 XAI 概念這兩種方法應用于人類在環、用戶對群體智能的理解和信任可能會得到改善。
A New Swarm Collection Tasking Approach for Persistent Situational Awareness(一種基于群體集合任務的持續態勢感知方法)
涉及移動自組織傳感器代理的群技術應用越來越多,并且可擴展到多個軍事問題領域,例如戰術情報、監視、目標獲取和偵察 (ISTAR)。在 ISTAR,一組半自主傳感器協同完成收集任務和執行,以彌合信息需求和信息收集之間的差距,以保持持續的態勢感知。最先進的貢獻在很大程度上暴露了多維問題的復雜性。由于傳感器平臺資源容量和能量預算有限,它們通常采用特定的規定傳感器行為,導致過度保守的連接約束、有偏見的決策和/或融合解決方案結構。這些可能會任意傳達顯著的機會成本并對整體績效產生不利影響。
作者介紹了一種用于 ISTAR 中移動 ad hoc 代理(情報、監視、目標獲取和偵察)的群體收集任務的方法。目標是利用代理來增強持續的態勢感知,代理彌合信息需求和信息收集之間的差距。為此,半自主代理必須協同完成收集任務和執行。盡管板載處理能力和能量預算有限,但要實現這一目標是一項挑戰。
下圖(左)顯示了一個典型的收集任務上下文:“它定義了一個網格認知圖表示,反映了對特定感興趣區域的態勢感知,捕獲了關于單元占用和目標行為的先驗知識、信念和/或已知概率分布”。
所提出的群體收集任務分配方法提出了集中收集計劃,由群體領導者偶爾調解;然而,計劃的執行是分散的。簡而言之,“該方法結合了一種新的緊湊圖表示和一個合理的近似決策模型來執行傳感器代理路徑規劃優化,受周期性連接的影響,以實現信息共享、融合、態勢感知和動態重新分配/規劃”。
用于收集計劃的帶有反饋決策的新開環模型(下圖,右)可在后退的時間范圍內最大化收集價值。周期性群連接支持匯節點的觀測傳播、數據/信息融合、情況評估和重新規劃。向匯節點的周期性最大收集傳播考慮到能量約束。傳播集合的通信規劃/路由方案利用最小生成樹來最小化能量消耗。有關包括相關數據在內的詳細信息,請參閱論文第 3 章中的大量論文部分。
由于作者,所提出的方法擴展了群體的能力,以更好地滿足任務需求,并允許顯著擴展觀察區域。“如果使用精確的問題解決方法,新的問題表述也為解決方案最優性的可計算上限鋪平了道路”。
A Framework Based On Deep Learning Techniques For Multi-Drone ISR Missions Performance Evaluation In Different Synthetic Environments(不同合成環境下基于深度學習技術的多無人機ISR任務性能評估框架)
本研究旨在關注當今模擬器的合成環境如何與應用于視頻分析的神經網絡和深度學習協同作用,特別是使用多無人機/集群系統執行 ISR 任務。事實上,用于模擬和游戲的現代虛擬引擎已經達到了讓不那么專心的觀察者感到困惑的真實水平。因此,自發出現的問題是,即使是人工智能也可以被“欺騙”,從而改變無人機上的行為和決策,從而改變機隊的最終行動。也就是說,用更科學的術語來評估無人機搭載的自動學習系統(例如神經網絡)的特征類型和數量是否可以從合成圖像中提取并反映在具有顯著優勢的連續環境中。訓練過程的精細和/或昂貴的階段,例如數據集創建和運動前測試。事實上,能夠隨意對模擬世界中的元素進行建模,可以可靠地再現甚至在現實生活中無法再現的情況和場景(例如,用于檢測閃電或爆炸的網絡),從而允許創建根據現代深度學習方法,數據集大小一致,并減少了恢復這些圖像的物理時間,同時還考慮了機載計算能力和容量的限制。此外,在降維過程中,由于真實場景的離散化導致的次要細節是否可以在某些情況下充當數據集預處理中的主成分分析 (PCA) 過濾器,這是值得詢問的。
所提出的研究方法將是實驗性的,并將預見到應用的雙重方向。在第一階段,我們想了解在真實數據集上訓練的神經網絡在一架或多架無人機上如何在不同的合成環境中表現。將檢查三個不同的模擬器,即 VRForces、ROS Gazebo 和 VBS4,以了解圖形細節的增加將如何影響準確度和精確召回曲線。擬議論文中提出的研究涉及人工智能對象識別和跟蹤領域,特別關注定位問題,因此檢測特定類別的對象,如人和車輛。在我們研究的第二階段,網絡將準備好部署,考慮到可能準備使用 COTS 或定制自動駕駛儀的硬件,使用協作和智能機隊模擬 ISR 任務的真實場景的無人機。在這個階段,我們集中在一個名為 SWARM 的項目上:一個大型工業研發 Vitrociset 項目。它是一個啟用人工智能的指揮和控制 (C&C) 系統,能夠執行和審查異構無人機小型/微型協作機隊的 ISR 任務。SWARM 將用作所提出框架的測試平臺,在不同的合成環境中測試和評估多無人機 ISR 任務的深度學習技術。
下圖(左)顯示了仿真系統架構。實驗框架包含三個合成環境。對于 VBS4,實現了一個使用一個或多個無人機生成合成場景的插件。每架無人機都配備了能夠生成視頻流的虛擬攝像頭。對于 ROS Gazebo,“圖像是使用配備 IMU 和可通過文件配置并作為 C++ 插件實現的 Iris 無人機相機獲取的”。為 VR-Forces 環境實現了類似的插件。使用針孔模型對三種環境的場景視圖進行標準化,以實現相同的觀看特性。
單獨使用合成圖像可能會引入新的偏見。因此,作者應用經典的計算機視覺和圖像處理方法來識別在 VISDRONE 數據集(真實)圖像中檢測到的對象與在三個模擬器中識別的對象之間的差異。與真實數據相比,將人和車輛的輪廓提取為對象類顯示信息丟失。
評估場景使用城市環境,包括人、車輛、道路、房屋和植被。飛行計劃包括低速(1-3 m/s)、5-30 m 的地面高度和靜止的天氣條件。有效載荷視頻流的采集使用 30 fps 的幀速率。生成了三個版本的 TFRecords(標準張量流數據格式)(過濾應用于邊界框的區域:非、100 像素和 200 像素)。所有三個測試集都包含 6 個對象類別(人、汽車、貨車、卡車、公共汽車、電機)。
考慮了 11 個 DNN 模型,使用 Tensorflow 作為 AI 框架。大型數據集 COCO、KITTI 和 VISDRONE 被視為預訓練數據集。使用 Fastern RCNN Resnet(在 VISDRONE 數據集上預訓練)獲得了最好的結果。VBS4 擁有三種模擬環境中最好的圖形引擎,是最接近現實的一種(下圖右)。總體而言,合成環境被證明是在現實世界中訓練的神經網絡的良好測試平臺(最佳情況下準確率約為 80%)。
Interacting Swarm Sensing and Stabilization(交互群感知與穩定化)
最近,在生物學和物理學中研究的群體理論已被應用于機器人平臺,包括將群體應用于防御。雖然相關工作側重于單個群體行為,但這一貢獻將調查擴展到多個相互作用的群體及其產生的模式。作者提供了一種理論方法來研究具有非線性相互作用的兩個群體的碰撞。目的是預測在什么情況下兩個群體在兩個群體碰撞后可以結合形成一個新引擎(mill)。這個問題的背景是在某些軍事場景中需要重定向或捕獲一個群體。
下圖(左)顯示碰撞后的狀態取決于碰撞角度以及耦合強度。下圖(右)顯示了一個示例,其中兩個群體(最初處于植絨狀態)接近融合狀態。這種行為的原因是,“當兩個群體接近時,每個智能體開始感知智能體內部群體的力量,導致兩個群體圍繞彼此旋轉,同時保持接近恒定的群體間密度。隨著時間的推移,這兩個群體慢慢地放松到由來自兩者的均勻分布的智能體組成的充分混合的融合狀態”。
應用的分析方法依賴于這樣的假設,即在碰撞時,兩個群體在一個極限循環附近振蕩,每個群體圍繞另一個群體旋轉,同時保持近似恒定的密度。使用確定極限圓狀態穩定性的剛體近似,可以做出僅取決于物理群參數的預測。這為小碰撞角的臨界耦合提供了一個下限。對于對稱群體(具有相同的數量和物理參數),從分散到融合的過渡點類似于逃逸速度條件,其中臨界耦合與每個群體的平方速度成比例,與每個群體中的智能體數量成反比。
使用包含 5-8 個 Crazyflie 微型無人機的混合現實設置,在初步碰撞群實驗中證實了理論預測。實驗考慮了 8 個真實機器人 + 8 個模擬機器人、5 個真實機器人 + 45 個模擬機器人和 50 個模擬機器人的場景。對于所有情況,都觀察到固定融合。初步結果表明,我們可以根據選擇的物理參數讓一個群體捕獲另一個群體。此外,基于已知的參數和群體大小,它還應該是可預測的,當碰撞群體不會形成融合狀態時,即一個群體無法捕獲另一個群體。未來的工作將解決如何進入散射狀態或保持聚集狀態,以及將通信延遲或內部和外部噪聲效應的影響納入理論。