加拿大國防研究與發展部(DRDC)已經確定需要為下車士兵-機器人團隊提供直觀、安全的人機交互(HRI)方法。本文介紹了一個多模態的HRI平臺,結合語音和手勢輸入來指揮一個無人地面車輛(UGV)。使用Mycroft,一個開源的數字助理,來促進語音輸入工具鏈,我們將命令翻譯成機器人操作系統(ROS)環境,以控制Argo Atlas J8 無人地面車輛。利用MediaPipe的手部檢測來識別關鍵的手部動作,我們實現了手勢識別作為一種替代的輸入形式。通過這種架構,我們成功地開發了一套語音和手勢命令,以操作Argo Atlas J8,調用現有的自主功能,并增加了新的、直觀的功能,如口頭的路線建設。為了簡化人與機器人的交互,我們增加了關鍵的架構修改,如 "推送 "功能和類似命令的上下文處理。我們在反饋和閑置時間方面進一步研究了人機交互識別系統。本文最后分析了我們系統的開源構建模塊的優點,并對未來的實施提出了建議。這個系統將被用于未來的士兵試驗,以推動未來人類機器人合作研究方向。
在未來的作戰環境中,預計加拿大武裝部隊(CAF)士兵將使用無人駕駛車輛來協助各種行動。然而,傳統的基于平板電腦的HRI方法可能會轉移操作者的注意力,使他們處于弱勢。因此,DRDC希望研究其他的HRI方法,使士兵能夠以手的方式與無人車互動。此外,直觀的控制可以最大限度地減少熟悉新系統及其復雜性的負擔,這對于必須在作為士兵-機器人團隊的一部分工作時專注于作戰任務的下車士兵來說尤其重要。基于語音和手勢的控制以前已經被證明是控制自主系統的有效手段。在這份報告中,我們介紹了在人類系統性能項目(HSP)下開發的一個混合語音/手勢人機交互識別系統。該系統與一個代用的UGV集成,該UGV將成為未來下車士兵測試的對象。這些試驗的結果將推動未來的研究,并協助CAF,特別是加拿大陸軍,制定對未來UGV系統的要求。
隨著無人駕駛地面車輛(UGVs)的普及,對直觀的、強大的人機交互(HRI)形式的需求也在增加。加拿大國防研究與發展部(DRDC)已經確定了一個成功的HRI平臺的三個關鍵因素:直觀的控制、用戶態勢感知(SA)和安全操作。直觀的控制需要一個直接的命令集和一個與UGV溝通的自然方法,這樣具有非技術背景的用戶可以很容易地與車輛互動。一個理想的系統通過提供信息,同時限制阻礙用戶對環境線索作出反應的分心,從而最大限度地提高安全系數。智能安全防護裝置在任何HRI系統中也是必不可少的,以確保用戶和周圍基礎設施的安全。
自從早期使用語音控制UGV[1]以來,數字語音助手,如亞馬遜的Alexa和蘋果的Siri,基于互聯網的系統已經取得了令人印象深刻的進展,并成為日常人機交互的主力軍。現在,隨著準確性和復雜性的提高,語音控制可以與傳統形式的HRI(如平板電腦界面和遙控器)競爭,甚至可以彌補。遙控器提供了一套有限的命令。平板電腦界面雖然提供了廣泛的控制,但由于將用戶的注意力集中在屏幕上,因此限制了對情況的了解。另一方面,語音控制和反饋提供了豐富的命令集,提高了用戶的環態勢感知,同時限制了分心。因此,語音控制為HRI提供了一種“抬頭、動手”的方法,從而減輕了傳統車輛控制方法所帶來的擔憂。
雖然語音控制在野外環境中具有明顯的優勢,但大風和嘈雜的環境可能會削弱音頻命令的準確性。此外,對無聲操作的需求可能使語音無法在操作環境中使用。手勢識別提供了另一種自然交流方法,它很適合機器人遠程操作,但仍然不受嘈雜環境的影響。此前,陸軍研究實驗室的研究人員證明,基于手勢的命令可以用來向大型UGV發出簡單的命令[2]。作者注意到各種手勢方法的局限性,其中包括傳感器的視線、惡劣天氣或夜間作業的能見度、需要明確的通信,以及在作業期間增強的視覺特征。由于不同的模式之間總是存在著權衡,因此最好是使用一個多模態的界面,將語音和手勢輸入結合起來。這使用戶能夠利用每種方法的優勢來完成手頭的任務,并有可能實現靈活、可靠和直觀的人機交互識別。以前的語音/手勢組合控制的嘗試,如士兵交互設備[3],表明用戶在指揮UGV時更喜歡語音而不是手勢,但如前所述,各種因素可能會降低語音的有效性。在某些情況下,可以依靠一種或兩種方法來提高系統的穩健性。此方法可以為語音命令提供額外的上下文(反之亦然),而且多種輸入方法可以同時使用,以提高命令檢測的穩健性。
本文探討了在DRDC-蘇菲爾德研究中心開發的多模態HRI平臺的方法和實現。HRI系統利用開源數字助理Mycroft,結合機器人操作系統(ROS)來指揮Argo Atlas J8 UGV。為了評估系統結構的有效性,我們創建了一個完整的命令套件,調用Argo Atlas J8上現有的自主功能,并在此基礎上增加了新的命令,如通過語音建立路線。
本文的結構如下。第2節快速介紹了這里設計的解決方案所使用的主要工具背景。第3節概述了系統結構并討論了語音命令子集的開發。第4節討論了HRI系統的主要成果。第5節批判性地分析了該系統及其開源構件的成功和缺點,第6節指出了未來人機交互識別研究的興趣領域。
這里開發的系統依賴于開源機器人軟件的使用。主要是ROS、Mycroft開源語音助手和MediaPipe。
作為最初的概念驗證,開始的目標是創建語音命令,以調用Argo Atlas J8上的一些現成的自主功能。這些功能包括切換車輛控制模式和參與補給行動(路徑記錄和回放)。在開發過程中,結構被逐漸調整,以促進更順暢的互動。手勢識別被添加為一種替代的輸入形式。此外,命令集被擴展到現有的UGV命令之外,包括口頭路線建設、視頻捕捉等。本節的其余部分將詳細介紹硬件設置和系統設計。
圖1:UGV硬件設置:1.Argo Atlas J8 UGV;2. 差分GPS;3. ZED2立體相機;4. System76筆記本電腦
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
?在日益復雜的軍事行動環境中,下一代兵棋推演平臺可以減少風險,降低作戰成本,并改善整體結果。基于具有多模態交互和可視化能力軟件平臺的新型人工智能(AI)兵棋推演方法,對于提供滿足當前和新興戰爭現實所需的決策靈活性和適應性至關重要。我們強調了未來作戰人-機器交互的三個發展領域:由人工智能引導的決策指導,高計算力下的決策過程,以及決策空間的真實呈現。這些領域的進展將使有效的人機協作決策得以發展,以滿足當今戰斗空間日益增長的規模和復雜性。
關鍵詞:決策、交互、兵棋推演、人工智能、增強/混合現實、可視化
在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并在軍事決策過程(MDMP,方框1)中模擬各種因素的組合如何產生行動方案(COA)、可能的反擊行動、資源使用估計和預測結果(美國陸軍,1997年,2014年,2015年)。在幾天或幾周的時間里,MDMP過程導致了一套精煉的COAs,它對作戰環境做出了一定的假設,包括地形、天氣以及戰區資產的可用性和能力(即塑造支持主要作戰行動的活動)。
方框1. 軍事決策過程(MDMP) | |
---|---|
MDMP是美國陸軍解決問題的理論方法,從接到任務開始,到生成作戰命令結束。MDMP被用作一種工具,幫助指揮人員審查眾多的友軍和敵軍的作戰行動。MDMP的7個步驟在規劃新任務、擴展行動和執行訓練演習所需的決策過程中灌輸徹底、清晰、合理的判斷、邏輯和專業知識(美陸軍,1997年,2015年)。 | |
指揮官在接到任務后啟動了MDMP。在MDMP的第1步中,所有的工作人員和關鍵的任務參與者都被告知任務和待定的規劃要求,包括進行MDMP的可用時間量。確定進行任務分析所需的工具,并收集與任務和作戰區有關的文件。步驟2,執行任務分析,建立對任務的全面理解,包括關鍵的事實和假設,形成擬議的任務說明和任務分析簡報,為制定COA做準備。 | |
MDMP的第3至第6步著重于制定COA以進行分析和比較。這些步驟包括:第3步,制定COA;第4步,COA分析(兵棋推演);第5步,COA比較;第6步,COA批準。COA是對一個已確定的問題的潛在解決方案。每個COA都要使用篩選標準來檢查其有效性,如在既定的時間框架、空間和資源限制內完成任務。COA的選擇過程通常涉及到兵棋推演,它試圖在考慮到友軍力量和敵人能力的情況下,將行動的順序流程可視化,同時考慮到行動區域內平民的影響和要求(美陸軍,2014)。戰術模擬(兵棋推演)方法的好處是突出了作戰行動的優勢和劣勢。這往往是一個反復的過程,對作戰行動方案進行評估,然后根據需要進行修改,直到出現一個或多個具有最高成功概率的作戰行動方案來完成任務目標。 | |
在一個具體的行動方案得到指揮部的批準后,MDMP的最后一步是制作行動指令,這是一份給下屬和鄰近單位的指令,旨在協調所有參與任務的組織的活動。這一步驟涉及到所有受命令傳播影響的組織之間的積極合作,并建立起對局勢的共同理解。 |
盡管MDMP幫助指揮官了解作戰環境和考慮作戰方法,但這個過程有很多局限性,如時間密集、假設僵化、跨場景訓練的機會有限,以及將人工智能(AI)指導納入決策過程的機會很少。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于當今多域作戰(MDO)的復雜性增加(Feickert,2021年),有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人為無法完成的地步。由于MDMP的缺陷而導致的規劃專業知識的缺乏,可能會導致不同步和不協調的行動,從而最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,集成了先進可視化能力的新系統和新技術已經被開發出來,它們可以提高態勢感知,從而增強決策過程。美陸軍的例子包括Nett Warrior(Gilmore,2015),它使下馬戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協同規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個底層的人工智能引擎來提供決策幫助。戰斗空間可視化和交互平臺(BVI,前身為增強現實沙盤,ARES)是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇設備的共同作戰畫面的二維和三維可視化能力(Su等人,2021)。BVI架構的制定是為了拉入外部計算服務,如分析管道、模型和人工智能引擎。美陸軍研究實驗室正在努力將這些類型的服務納入BVI,包括用于加強決策支持的人工智能。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。美陸軍的自動規劃框架(APF)(Bailey,2017)開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策問題。指揮人員可以通過APF的數字規劃呈現、規劃創建和規劃監控工具,在任務規劃和COA開發期間獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF為MDMP引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的先進的可視化和用戶互動能力。
提供地面部隊自動化和用戶可視化能力的是美陸軍最知名的兵棋推演平臺--半自動化部隊(OneSAF),為計算機生成的地面部隊提供建模和模擬能力(PEO_STRI, 2022)。OneSAF提供了半自動和全自動的軍事實體(即士兵、坦克、直升機和綜合單位)的建模,在類似真實世界的戰斗空間中以不同的保真度來支持特定的應用和場景。OneSAF主要用于訓練,并與目前的任務指揮系統具有互操作性。它可以使用多分辨率的地形和詳細的實體相關數據庫來模擬廣泛的作戰環境。然而,OneSAF對地形和實體系統的高保真建模的優勢使得它的設置和運行成本很高。它受到老化系統的限制,而且眾所周知,士兵需要大量的培訓來學習如何操作模擬,使用起來很困難(Ballanco,2019)。OneSAF的復雜功能并不適合開發人工智能能力,以實現快速和敏捷的戰士-機器決策。
除了MDMP和上面提到的陸軍平臺外,最近將人工智能納入決策過程的工作包括一些方法(Goecks等人,2021a),在模擬人類決策過程方面取得了一些成功。一般來說,人工智能在決策變量有限的問題上取得了一些成功,如資源分配(Surdu等人,1999)、飛行模擬器(Drubin,2020)和更簡單的場景。正在進行的挑戰包括需要提高人工智能的能力,以解決有多個行為者、不完整和可能沖突的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度和領域內可視化。
以下各節描述了對MDMP的潛在改進。"未來軍事決策過程所需的進步"一節概述了支持MDO決策的三個研究領域,并以圖表形式描述了這些研究領域與軍事理論決策方法之間的關系。"未來軍事決策過程所需的進步 "一節中的小節對每個研究領域進行了更深入的討論。"展望推進人-人工智能團隊決策的交互技術 "一節概述了未來的作戰人員-機器接口(WMI)的發展方向,重點是與決策有關的人-人工智能團隊的跨學科研究。
軍事決策過程在支持MDO復雜決策方面的局限性,突出了在三個研究領域的改進需要。首先,有必要將人工智能產生的指導和輔助決策支持納入MDMP。這既包括進一步開發和整合人工智能到戰斗空間決策規劃,也包括進一步改善人工智能決策過程的可解釋性和透明度(Chen等人,2018)。第二,有必要在戰略層面以及戰術邊緣,盡可能地將決策分析與高性能計算(HPC)的力量結合起來。這將能夠利用HPC系統的力量來支持建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動表述。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何相互作用的,并利用混合現實技術來提高理解的吞吐量,并產生平面顯示不可能的洞察力。
除了MDMP之外,其他更廣泛適用的支持戰斗性問題解決的軍事理論包括:DOTMLPF[例如,學說、組織、訓練、物資、領導、人員和設施;(美陸軍,2018年)],這是一個確定差距并為當前和未來作戰要求提出設計解決方案的框架;以及METT-TC[例如,任務、敵人、地形和天氣、部隊、可用時間和民事考慮;(美陸軍,2019年)],這是一個結構化框架,用于捕捉任務相關因素的狀態,以便在軍事行動期間進行共享評估。這些理論定義了MDO戰場的信息背景,構成了應用于上述三個研究領域的軍事決策的核心基礎。如圖1所示,在為人類和人工智能指揮開發復雜軍事決策空間的新表述時,研究進展和MDO相關理論相互借鑒、相互啟發、相互加強(美陸軍,2010)。
圖1. 新型作戰人員-機器交互(WMIs)和人工智能輔助決策所需的三個研究發展領域,以支持和加強基本的MDO理論[右下圖來源:Lebsack(2021)]。
需要新的人工智能支持的WMI,以利用人工智能決策方面正在取得的進展,并為復雜的適應性決策的人工智能學習作出貢獻。在簡化的戰斗空間中測試人工智能決策輔助工具是開發過程中重要的第一步,也是將人工智能納入更成熟的戰斗空間平臺(即BVI、OneSAF)的前奏。開發用于決策輔助實驗的人工智能測試平臺可以在MDO中產生能力越來越強的潛在COA建議。圖2顯示了陸軍開發的兩個人工智能測試平臺的例子。
圖2. 兩個ARL人工智能測試平臺的例子。左邊:ARL Battlespace(Hare等人,2021)( //github.com/USArmyResearchLab/ARL_Battlespace )。右邊:ARL的Simple Yeho測試平臺。圖片由C. Hung制作。
人工智能測試平臺能夠開發出匯集所有領域信息的AI,并計算出人類和AI智能體的風險和預期回報。圖2的左側顯示了ARL戰斗空間測試平臺(Hare等人,2021年),它是從頭開始開發復雜決策的新型人工智能的理想場所。它對戰斗空間的抽象強調了軍隊相關場景下的核心推理原則,在這種情況下,用蜜罐進行網絡欺騙。較小的網格空間使人工智能的學習和發展能夠集中在不確定性下的復雜推理,有多個友好和敵對的agent。圖2的右側顯示了ARL的Simple Yeho測試平臺,它提供了將人工智能開發與更多真實世界場景中的默契推理結合起來的能力,有多個基于地形的海拔高度、視線范圍、障礙物、樹葉(隱蔽)、道路和城市區域。紅色陰影和黑色線條表示任務的起點和終點、左右邊界以及人工智能建議的路線。這種額外的真實性使其能夠與MDO理論相結合,包括DOTMLPF和METT-TC,并使人工智能與自然的、機會主義的士兵行為共同發展。這兩個人工智能測試平臺都可以擴展為傳統和沉浸式混合現實WMI開發平臺。
使用漸進式和可擴展的人工智能測試平臺,可以調查現有人工智能的幾個基本限制,特別是對于具有不確定性的復雜和適應性決策,以及人類和AI智能體的協作和對抗。對多智能體的協作和對抗性決策進行建模可能特別復雜,因為其遞歸性質,其他智能體是模型的一部分(Goldman,1973;Grüning和Krueger,2021),需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的交互界面和人工智能測試平臺的人機協作可以提供加速和更有效的決策。對于有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,并幫助人工智能發現決策的隱含規則。下面,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋、國際象棋、Minecraft和大富翁等游戲中的成功(Silver等人,2017;Goecks等人,2021b;Haliem等人,2021)是基于對世界現有狀態有完整了解的游戲(即 "開放 "游戲),而兵棋推演平臺通常包括關于作戰環境的不完整(如星際爭霸)、不確定或欺騙性信息(Vinyals等人,2019)。不確定性也可能來自變化的物理學或其他環境規則,正如在《憤怒的小鳥》中所探索的那樣(Gamage等人,2021)。由于世界狀態、不同行動者的狀態以及所采取的行動不確定性,知識的缺乏使得人工智能agent難以計算未來行動的風險回報情況(Cassenti和Kaplan,2021)。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效的博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(Lavine,2019),即由于信息有限而選擇錯誤的選項,這種情況并不罕見,因為人類在制定有效探索隱藏信息的策略時,采用啟發式方法進行有效的選擇和預測(Gardner,2019)。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策景觀,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠在不施加認知負擔的情況下從人類的決策中機會主義地學習(Lance等人,2020)。這種機會主義學習可以包括:例如,凝視跟蹤,以捕捉吸引人類興趣和意圖的視覺區域和未標記的目標。它們還可以包括建立在自然的士兵選擇行為基礎上的行動者批評方法,以改善人工智能對人類專家在不確定、不完全信息和欺騙的情況下如何優先考慮某些選擇的學習,這取決于任務相關的背景。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度(Gil等人,2018)。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動化的決策,以及實施進攻和防御性欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖景,即可以解釋一小部分最優和接近最優的決策策略(例如,圖3中的決策樹)。這應該包括對關鍵agent在不確定情況下的未來狀態和風險回報情況的估計(Hare等人,2020),以使有效的博弈論決策能夠被共同開發和相互理解。
圖3. 在頂部,是BVI網絡戰術規劃器應用程序中友軍與敵軍戰爭場景的三維視圖。三維視圖提供了一個比二維視圖更真實的決策視角,例如,顯示友軍(藍色)和敵軍(紅色)機載預警系統(AEWs)和周圍地形的海拔。這使得快速審查可能的視線和相對于周圍地形的感應。下面是人工智能的導航決策樹,為人工智能計算的幾個關鍵選擇的風險/回報概況以及它們如何映射到地形上提供透明度。這種抽象的決策空間還可以整合非空間決策,例如網絡欺騙。虛線表示與友方AEW的通信聯系和對敵方AEW的可能干擾。圖片由C. Hung制作。
這些挑戰為有效的WMIs設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)提取信息,以及一個能夠承載整合這些信息的計算能力的架構,同時還要處理基礎的人工智能計算(用于學習和部署)。我們還需要共同開發一個界面和算法設計,以適時地利用人類和人工智能agent的優勢并減少其局限性。
在復雜的決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從積累的動態狀態空間的數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析性的見解,并在決策背景下創建有用的表述。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對HPC服務的非傳統訪問,而不像傳統的HPC環境,計算節點在特定的時間段內以批處理模式分配給用戶。此外,PSF提供對數據、數據庫、容器化工具集和其他托管平臺的分布式連續訪問(Su等人,2021)。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決定。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭性和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用消息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實施人工智能輔助決策機制,利用大數據攝取和分析,同時可供地理分布的用戶用于協作決策工作和 "永遠在線 "的個性化培訓和紅色團隊。連接到PSF托管服務器的各種混合現實顯示模式可以支持一系列作戰場景,從戰略層面的指揮和控制到作戰邊緣的更多移動戰術使用。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境(Dennison等人,2020;Hung等人,2020;Raglin等人,2020)。戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平(Kase等人,2020;Larkin等人,2020;Hung等人,2021)。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供理解復雜的兵棋推演狀態空間所需的洞察力(Su等人,2021)。當需要一個共享的戰斗空間表示時,可以通過在不同的可視化模式上實現多個協調的視圖來實現協作的戰略規劃模式,以根據分布式指揮人員的輸入進行互動更新。
BVI(Garneau等人,2018)平臺表示地理空間地形信息和地圖圖像,允許指揮人員建立和修改戰術任務規劃和COA。作為一個數據服務器,BVI將地形和作戰數據分發給支持多種可視化模式的客戶端應用程序,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
例如,圖3(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景(Wikipedia, 2021)。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化(美國防部,2014)。可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖3,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性。
人工智能和人-人工智能團隊的快速發展需要WMI同步發展。隨著新型人工智能對有價值的COA產生更好的預測,并能更好地處理復雜的決策,它們也必須利用人類的專業知識,學習如何處理具有高度不確定性、欺騙、隱性知識和博弈論的決策。相反,人工智能的推理必須既抽象又能與兵棋推演環境相聯系,以實現透明和信任,同時又不造成過度的認知負擔。基于三維混合現實的WMI可以利用和增強人類固有的三維認知和預測能力(Welchman等人,2005;Kamitani和Tong,2006;Kim等人,2014;Boyce等人,2019;Krokos等人,2019),如果設計得當,其交互將感覺自然,同時擴大顯示多個領域的信息的能力,同時使AI能夠適時地從用戶的決策中學習。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。
信息作戰和指揮與控制(C2)是美國陸軍可以向盟友和伙伴提供的兩種能力。在未來的作戰環境中,不僅要為動能作戰做準備,而且要為混合作戰和以信息為重點的戰爭做準備。這需要在復雜和默契推理的人工智能能力方面取得進展,在能夠提供持續訓練、分布式混合決策和大數據分析系統方面取得進展,以及在人與人工智能協作決策和機會主義學習方面取得進展,以實現人工智能的持續進步和人與人工智能的共同適應。這些進展中的每一項都需要跨學科的計劃性努力,以克服復雜的技術挑戰,創造新的決策原則、理論和理論方法,包括持續開發綜合測試平臺和技術,以實現政府、學術界和工業界的合作和協同發展。
目前,有大量的全動態視頻(FMV)檔案從未被查看過,而且隨著傳感器數量的增加,情況越來越糟糕。加拿大國防部(DND)、加拿大其他機構和盟友的問題基本相同:不具備分析來自監控的全動態視頻數據的人力。為解決此問題,要求有一種易于擴展的分析能力,這種能力與不斷增長的可用視頻傳感器數量成比例地增長。為了解決這個問題,加拿大國防研究與發展部(DRDC)--瓦爾卡蒂爾研究中心及其贊助者加拿大特種作戰部隊司令部(CANSOFCOM),已經開始了一項探索性的舉措,利用深度學習的最新進展來描述圖像和視頻內容。這種新興的能力可以被用來處理FMV,從而為軍事分析人員提供支持。本科學報告描述了用于實時FMV分析的自動視頻分析(LAVA)概念。它描述了科學家們所面臨的工程、創新和研究問題。報告提供了使用機載軍事傳感器進行的多次真實測試的結果。最后,提出了這項技術的潛在開發途徑。
這份研究文件對如何利用深度學習來分析加拿大武裝部隊和其他加拿大機構所掌握的大量FMV進行了深入的分析。該文件提出了一個在現實作戰條件下使用的概念論證,并提供了結果表現、問題、挑戰和未來的方向。這項技術可用于處理FMV檔案和分析實時FMV反饋,以協助情報分析人員。
量子技術將量子物理學的原理轉化為技術應用。總的來說,量子技術還沒有達到成熟的程度;然而,它可能對未來的軍事傳感、加密和通信,以及對國會的監督、授權和撥款有重大影響。
量子應用依賴于一些關鍵概念,包括疊加、量子比特(qubits)和糾纏。疊加是指量子系統同時存在于兩個或多個狀態的能力。量子位是一種利用疊加原理來編碼信息的計算單元。(經典計算機用比特編碼信息,這些比特可以代表0或1的二進制狀態,而量子計算機用量子比特編碼信息,每個比特可以同時代表0、1或0和1的組合。因此,量子計算機的功率隨著每個量子比特的增加而呈指數級增長)。
美國國家科學院(NAS)將糾纏定義為 "一個系統中的兩個或更多的量子對象可以有內在的聯系,從而使對一個對象的測量決定了對另一個對象可能的測量結果,無論這兩個對象相距多遠"。糾纏是量子技術的一些潛在軍事應用的基礎。然而,由于量子狀態的脆弱性,疊加和糾纏都很難維持,它們可能會被微小的運動、溫度變化或其他環境因素所破壞。
美國國防科學委員會(DSB),一個獨立的國防部(DOD)科學顧問委員會,已經得出結論,量子技術的三種應用對國防部來說最有希望:量子傳感,量子計算機,和量子通信。DSB的結論是,量子雷達,假設能夠識別物體的性能特征(例如,雷達截面,速度)--包括低可觀察性,或隱形飛機--"不會為國防部提供升級的能力"。
量子傳感在傳感器內使用量子物理學原理。根據國防部的說法,這是量子技術最成熟的軍事應用,目前 "準備用于任務"。量子傳感可以提供一些增強的軍事能力。例如,它可以提供替代性的定位、導航和計時選項,理論上可以使軍隊在GPS退化或GPS否認的環境中繼續全力以赴地工作。
此外,量子傳感器有可能被用于情報、監視和偵察(ISR)的作用。這種傳感器的成功開發和部署可能會導致潛艇探測的重大改進,并反過來損害海基核威懾力量的生存能力。量子傳感器還可以使軍事人員探測地下結構或核材料,因為它們預計 "對環境干擾極其敏感"。量子傳感器的敏感性同樣有可能使軍事人員探測到電磁輻射,從而增強電子戰能力,并有可能協助定位隱蔽的對手部隊。
根據美國國家航空航天局的說法,"量子計算機是唯一已知的計算模型,可以提供比今天的計算機更高的指數級速度。" 雖然量子計算機處于相對早期的發展階段,但其中許多進展是由商業部門推動的,可能對人工智能(AI)、加密和其他學科的未來產生影響。
例如,一些分析家認為,量子計算機可以使機器學習(人工智能的一個子領域)取得進展。這種進步可以刺激改善模式識別和基于機器的目標識別。這反過來又能促成更精確的致命自主武器系統的發展,或能夠選擇和打擊目標的武器,而不需要人工控制或遠程操作。啟用人工智能的量子計算機有可能與量子傳感器配對,以進一步加強軍事ISR應用。
此外,量子計算機有可能解密存儲在加密媒體上的機密或受控非機密信息,使對手能夠獲得有關美國軍事或情報行動的敏感信息。一些分析家指出,要打破目前的加密方法,可能需要在量子計算方面取得重大進展。他們的估計表明,要破解目前的加密方法,需要一臺具有約2000萬個量子比特的量子計算機;然而,目前最先進的量子計算機一般不超過256個量子比特。
量子計算機的實際應用可能只有在錯誤率提高和新的量子算法、軟件工具和硬件開發之后才能實現。雖然正如NAS所指出的,"不能保證[這些技術挑戰]將被克服",但一些分析家認為,能夠破解當前加密方法的初始量子計算機原型可能在2030至2040年的時間框架內開發出來。出于這個原因,NAS得出結論:"后量子密碼學的開發、標準化和部署對于最大限度地減少潛在的安全和隱私災難的機會至關重要"。(在部署后量子密碼學之前截獲的信息將不會受到保護)。
2022年5月,拜登政府發布了《關于促進美國在量子計算方面的領導地位,同時減少對脆弱的密碼系統的風險的國家安全備忘錄》(NSM-10),其中 "指示各機構在美國開始將脆弱的計算機系統遷移到抗量子密碼學的多年過程中采取具體行動"。NSM-10指出,國家標準和技術研究所所長和國家安全局局長正在制定并預計在2024年之前公開發布抗量子密碼學的技術標準,此外還列舉了一個國家 "在2035年之前盡可能多地緩解量子風險的目標"。
量子通信--不包括量子密鑰分配([QKD],將在下文中討論)--正處于一個新興的發展階段。量子通信在理論上可以實現量子軍事傳感器、計算機和其他系統的安全聯網,從而提高單個量子系統或經典通信網絡的性能。聯網還可以加強這些系統在射程上的穩健性,從而擴大它們可以部署的潛在環境(即在維持脆弱的量子狀態通常需要的實驗室環境之外)。這可以大大擴展量子通信的軍事用途。
量子密鑰分配是量子通信的一個子集,它利用量子物理學原理對信息進行加密,然后通過經典網絡發送。QKD實現了安全通信,在傳輸過程中不能被秘密截獲。(然而,QKD通信可以在目前長距離傳輸所需的中繼站被截獲)。據報道,中國正在大力投資QKD,并在2016年完成了北京-上海約1250英里的量子網絡的建設。然而,DSB的結論是:"QKD的實施還沒有足夠的能力或安全性來部署給國防部的任務使用。"
國會已經考慮了量子技術的管理和影響。例如,2019財年國防授權法(NDAA)(P.L. 115-232)第234條指示國防部長--通過國防部研究與工程副部長行事--與私營部門和其他政府機構協調,執行量子技術研究和開發計劃。
此外,FY2020 NDAA(P.L. 116-92)第220條要求國防部制定使用量子技術的道德準則,以及支持量子勞動力和減少與量子技術相關的網絡安全風險的計劃。它還授權每個軍事部門的部長建立量子信息科學(QIS)研究中心,可以 "與適當的公共和私營部門組織合作",以推進量子研究。迄今為止,海軍已指定海軍研究實驗室作為其QIS研究中心,而空軍已指定空軍研究實驗室作為空軍和太空部隊的QIS研究中心。陸軍說它目前不打算建立一個QIS研究中心。
2021財年NDAA(P.L. 116-283)第214條指示各部門編制并每年更新一份量子計算機在未來一到三年內可能解決的技術挑戰清單。該清單目前包括量子化學、優化和機器學習。第214條還指示各部門與中小型企業建立項目,為政府、工業和學術研究人員提供量子計算能力,以應對這些挑戰。第1722條指示國防部對量子計算機帶來的風險以及當前的后量子密碼學標準進行評估。
最后,2022財年NDAA(P.L. 117-81)第105條指示總統通過國家科學技術委員會建立量子信息科學的經濟和安全影響小組委員會,而第229條指示國防部長 "建立一套活動,以加速開發和部署雙重用途的量子能力"。
國防部在最近的預算請求中沒有提供量子研究的細目;然而,根據數據分析公司Govini,國防部在2021財政年度要求為量子技術和研究提供約6.88億美元。
目前量子技術軍事應用的成熟度需要多少資金?如果有的話,美國政府應該在多大程度上投資和研究能夠實現量子軍事應用的技術(例如,材料科學、制造技術)?
量子技術的商業進展在多大程度上(如果有的話)可以被用于軍事應用?
美國競爭者在開發量子技術的軍事應用方面的努力有多成熟?如果有的話,這種努力在多大程度上可以威脅到美國的先進軍事能力,如潛艇和隱形飛機?
正在采取哪些措施來開發抗量子加密技術和保護用現有方法加密的數據?
如果有的話,美國應該采取什么措施,以確保量子勞動力足以支持美國在量子技術方面的競爭力?
在加拿大國防研究與發展部(DRDC)05da聯合情報收集和分析能力(JICAC)項目下,本科學報告提出了創新貢獻,為作戰提供先進的情報收集任務支持,作為情報需求管理和收集管理(IRM/CM)能力的一部分。它報告了新型收集任務優化工具的設計,旨在支持收集管理人員處理復雜任務和支持收集資產設施。它總結了新的研究和開發情報收集概念和自動決策支持/規劃能力,以支持/建議收集經理有效和高效的資源分配。以多衛星收集調度用例問題為重點,簡要報告了導致快速、自動和優化收集任務的新技術解決方案概念,提供服務水平的改善和增強及時的態勢感知。從人工智能和運籌學中借用的基本概念,目的是在各種任務、機會、資源能力、時間和成本約束下實現收集價值最大化。報告總結了技術成果,描述了新的快速、自動和優化的收集任務解決方案和原型推薦器,以安排真實/虛擬的多衛星星座。它應對了一些缺陷和挑戰,如短視(以單一任務為重點)或臨時性的情報收集任務分配方法,不適合集中式/分布式的開放和閉環資源管理方法或框架,以確保靜態/動態規劃或處理約束的多樣性/差異性和不確定性管理。本報告還旨在向加拿大軍隊情報指揮部(CFINTCOM)、空間總督(DG SPACE)、加拿大聯合行動指揮部(CJOC)和主要的軍事聯合情報、監視和偵察(JISR)利益相關者提供信息。
本科學報告提出了適用于天基情報、監視和偵察的多衛星情報收集調度問題的新型收集任務技術概念和技術發現。這項工作與雷達衛星星座任務(RCM)項目的后續舉措和加拿大軍隊(CF)在北極和北方的持久性聯合情報、監視和偵察方面的一些優先事項相吻合,以便及時提出增強情報收集任務的解決方案和工具。它提出了新的科學和技術方法,為低密度、高需求的可部署收集資產提供近乎最佳的情報收集。
針對適當的情報、監視和偵察(ISR)應用領域的具有成本效益的天基情報收集任務,對發展適當的國防情報需求管理和收集管理(IRM/CM)能力至關重要。因此,收集管理,特別是收集任務分配,對于保持加拿大領土、空中和海上領域的準確、及時和持久的態勢感知至關重要。典型的收集管理要求包括在資源有限的情況下進行適應性和響應性收集(CFINTCOM);收集任務分配;規劃執行;傳感器組合優化;支持聯合ISR(JISR)資產的動態執行新任務(CJOC);實時收集規劃以及有效的傳感器提示(DG SPACE),等等。最終的目的是有效地彌補信息需求和信息收集之間的差距,最佳的資源管理主要是由人員短缺、有限的收集任務自動化、成本效益、資源限制和低密度高需求的收集資產(衛星)在一個時間限制的不確定環境中的發展。通過多衛星收集調度問題(m-SatCSP)開展北極情報和監視的基于空間的圖像情報(IMINT),代表了一個典型的相關使用案例。
為處理情報收集任務的缺陷和挑戰而提出的解決方案[1]有很多。最近關于收集任務,特別是多衛星圖像采集調度的公開文獻,在 "多異質衛星任務的收集規劃和調度:調查、優化問題和數學規劃公式"[2]和 "QUEST--多衛星調度問題的新二次決策模型,計算機與運籌學"[3]。以下是對擬議方法的主要局限性的簡要總結。讀者可以參考后面的出版物[2],[3]以了解更明確的細節。基于低密度高需求的集合資產為前提,一般的問題在計算上是困難的。大多數研究貢獻主要限于同質衛星和單一星座情景,主要處理簡單的觀測點目標("點 "區域)任務,并提出新的任務聚類和預處理策略以減輕計算復雜性。已呈現的工作大多忽略了大面積覆蓋的復雜性、及復雜的任務結構、聯合價值任務構成、觀測結果和成像機會質量的不確定性以及常見的操作約束。這些制約因素包括最小任務覆蓋閾值、相互任務排斥、任務優先級和成像成本。目前的采集資產任務分配方案大多提供基于短視啟發式的策略,以規劃或分配采集器任務。在實踐中,最好的資源往往是短視推薦或局部選擇,以完成一個特定的任務,而忽略了其他約束條件(例如,為其他采集請求服務的時間窗口和成像機會)、追求的全局目標和持續進行的部分規劃解決方案質量。因此,ISR資源分配和動態重新分配是臨時性的,因為它們是以單一任務為中心的,而不是采用更全面的任務觀,關注整體任務,更好地利用替代機會,更有效地滿足整體收集要求。擬議的基本收集任務的部分解決方案沒有提供一個健全的資源管理框架,以確保適應性動態規劃或處理約束的多重性/多樣性和不確定性管理。它們也未能展示有價值的分布式規劃和融合的協同作用或整合,同時對支持可重構的傳感器網絡提出很少的指導。一方面,減少感知或高級信息融合與資源分配(RA)任務之間的差距,另一方面,規劃(任務分配)和執行(收集)監測之間的差距,仍然難以實現。
這項工作提出了新的研究和發展情報收集概念和自動決策支持/規劃能力,以支持/建議收集人員有效和高效的資源分配。它旨在開發自動咨詢調度組件和概念驗證原型,以實現有效的收集任務分配。以多衛星圖像采集(IMINT)調度為重點,介紹了導致快速、自動和優化采集任務的新技術解決方案概念,改善提供的服務水平,并增強及時的態勢感知。所設想的問題包括許多新的附加功能和完善的元素,這些元素在公開的文獻中主要是被忽視或忽略的。假設在低密度、高需求的收集資產條件下的m-SatCSP,新的特征包括收集資產的多樣性和敏捷性、任務抽象化、更多的包容性目標和更多的約束多樣性。重新審視的表述涉及抽象的情報收集任務,將單一目標區域(點)的重點明確地包括在大面積覆蓋范圍內,同時考慮多個或虛擬的異質衛星星座,脫離了傳統的同質情景。新的空間和時間依賴性,反映更現實的任務復雜性,放松相互獨立和可分離的假設。它抓住了成像質量、部分任務執行和成功概率等概念,擺脫了對有序行動執行或確定性結果的不現實的假設。該方法還重新審視了任務優先級利用的概念。因此,優先權被用作沖突解決機制,而不是基于優先權的有偏見的短視策略,強加任意的任務部分排序來管理高復雜性需求。設想的問題目標是要捕捉到超越通常區域覆蓋范圍特定任務的性能措施,引入收集質量,考慮到探測成功率、跟蹤質量和識別的不確定性,以提高收集的信息價值。基于最近提出的一個問題陳述,即m-SatCSP的背景[3],將情報請求映射到收集資產成像機會,以實現收集價值最大化,這項工作簡要地擴展了標準確定性問題決策模型,使用常規的混合整數二次規劃優化問題表述[5]。針對基于空間的ISR應用領域,新的優化模型降低了計算復雜性,使得在某些情況下利用精確的問題解決方法成為可能,同時提供了對最優解的約束。在公開文獻中大量報道的傳統特征約束的基礎上,推廣的模型引入了額外的規范,如合適的任務覆蓋閾值、可選的任務互斥、任務優先級、聯合值任務組成、成像/服務時間窗口,以及單個和平均軌道的熱約束。報告了在集中式和分布式決策背景下各種靜態和動態情景下的主要貢獻和創新之處。簡要介紹了為支持收集任務而明確開發的創新模型、求解器和概念驗證原型(推薦器)。
本科學報告總結了技術成果,描述了新的快速、自動和優化的收集任務(改善服務水平,增強態勢感知)解決方案和原型推薦器,為規劃多衛星真實/虛擬星座。它還旨在向CFINTCOM、DG SPACE和CJOC軍事組織通報主要發現,并確定最有希望的收集管理性能要求、技術和工具,容易對正在進行的主要軍事舉措產生潛在影響。這項工作是在2015年12月至2020年3月的DRDC聯合部隊發展(JFD)05da聯合情報收集和分析能力(JICAC)項目下進行的。
本報告概述如下。第2節簡要介紹了m-SatCSP問題陳述。它描述了問題的基本特征,并強調了開環和閉環設定以及集中式和分布式的決策背景。第3節和第4節分別總結了各自的開環(靜態)和閉環(動態)建議的貢獻。簡要介紹和討論了所開發的概念、模型特征、算法或求解器以及主要結果。第5節介紹了在JICAC下明確開發的概念驗證集合任務原型,以檢驗靜態/動態問題。第6節總結了核心貢獻、發現及其潛在影響。最后,在第7節中提出了建議。提出了一些進一步的技術解決方案開發和未來工作擴展的方向。
指揮與控制(C2)的概念和實踐一直是與通信和信息技術共同發展的。最近人工智能(AI)的進步改變了信息技術世界的運行方式。這要求C2迅速適應,以充分利用人工智能的潛力。
深度學習(DL)一直處于人工智能近期發展的最前沿。作為一個例子,在計算機視覺領域,DL已經使物體檢測和分類模型的發展成為可能,在某些領域可以與人類的能力相媲美[1]。然而,DL算法通常是數據驅動的,它們需要在成千上萬的標記樣本上進行訓練。與軍事行動相關的注釋數據集可能很難得到。雖然開源數據集很容易獲得,但它們很少具備軍事行動背景下普遍存在的特征:
為了填補這一空白,有必要用數據收集活動來補充從開放源碼或盟友那里獲得的數據集。盡管數據收集本身需要大量的努力,但數據標記階段往往是創建數據集最耗費精力的步驟。它被認為是阻礙人工智能進一步應用的主要瓶頸[2]。由于時間的限制(這是一個漫長而乏味的過程)和內容專家驗證數據集質量的可用性,打標簽是一個挑戰。
在本文中,我們提出了Parakeet框架,該框架采用C2方法來建立標記數據集,為人工智能能力的發展和運作的成功創造必要的條件。這是通過確保適當利用現有資源(操作員、內容專家、時間和計算能力)來實現的。我們表明,用C2框架管理機器學習活動可以使物體檢測和分類模型的開發更快,這反過來將使C2性能更好,通過檢測、識別和跟蹤感興趣的物體和活動提供及時的情況分析。
深度學習(DL)一直處于人工智能近期發展的最前沿。在計算機視覺領域,深度學習使得物體檢測和分類模型的發展在某些領域可以與人類的能力相媲美[1]。然而,DL算法通常是數據驅動的;它們需要在成千上萬的標記樣本上進行訓練。與軍事行動相關的注釋數據集可能很難得到。
為了填補這一空白,有必要用數據收集活動來補充從開放源碼或盟友那里獲得的數據集。盡管數據收集本身需要大量的努力,但數據標記階段往往是創建數據集最耗費精力的步驟。它被認為是阻礙人工智能進一步應用的主要瓶頸[2]。由于時間的限制(這是一個漫長而乏味的過程)和內容專家驗證數據集質量的可用性,打標簽是一個挑戰。
在這份概念文件中,我們認為人工智能能力開發過程需要以一種高效的方式組織起來,以確保效率(優化人類在數據集標簽上的努力)、信息質量保證(建立信任,確保模型的有效性和數據集的完整性)和性能(在預期的操作條件下衡量模型的性能)。
作為實現這一目標的第一步,我們提出了Parakeet框架,該框架將C2方法應用于標記數據集建設,為人工智能能力的發展和操作的成功創造必要的條件。這是通過確保適當利用現有資源(操作員、內容專家、時間和計算能力)來實現的。
最后,對C2如何從利用人工智能潛力所提供的新能力中受益的想法結束本文。
作為人工智能開發周期的一部分,明確定義需要開發的能力是很重要的。這可以在啟動階段完成,在這個階段應該定義模型的目的,以及量化的性能目標和預期的操作條件。這些因要執行的任務不同而會有很大的不同。在停車場統計車輛數量需要較低物的體定位精度比起跟蹤單個車輛的運動模式,盡管兩者都與傳感器反饋中的車輛檢測有關。必須考慮操作條件,因為深度學習算法對背景環境很敏感,當我們將一個在夏季條件下收集的數據集開發的模型應用到冬季環境中時,可能不會有預期的表現,因為雪的存在會影響照明條件和圖像對比度。
驗證最終結果也將是人工智能開發周期的一部分。雖然這一步通常是在最后,但在開始時就需要考慮,因為收集驗證數據可能會涉及到與訓練數據所需的相同工作量,同時進行這兩項工作會更有效率。評估最終結果的指標也應該在這個過程的早期確定,因為它們將在整個模型訓練階段使用。
在啟動和驗證階段之間,我們需要建立檢測模型并策劃訓練模型所需的數據集。這兩個步驟通常構成了整個過程中最耗費精力的部分,而我們提出的Parakeet框架旨在有效地管理這些資源。
與軍事行動相關的有標簽的數據集往往很難得到。雖然開源數據集很容易獲得,但它們很少呈現出軍事行動背景下普遍存在的以下特征:
上述人工智能開發周期的核心是需要適當的訓練和評估數據來開發一個模型并評估其性能。有三種方法有助于實現這一目標:
一般現有數據集的利用。然而,我們不應低估重新利用和整合這些現有數據集所需的工作量。首先,我們必須確定并獲得這些數據集。然后,為了整合它們,我們需要花時間為新的目的在語義上調整注釋和本體。
數據增強策略將使現有的數據集變得更好,然而,它們并不能取代真實的圖像。
關于數據的生成,研究界到目前為止還沒有證明在合成數據集上訓練的模型能很好地生成真實情況。在任何情況下,仍然需要一個真實世界的數據集來驗證模型在現實情況下的結果。
最后,在評估了現有的東西之后,即評估數據集的覆蓋面和偏差,應該通過執行新的收集活動來補充。收集和利用方法都可能需要大量的標注工作,以確保為數據元素分配適當的標簽。
從C2的角度來看,我們可以把數據集的標注周期看作是一個目標定位任務周期。事實上,為了更好地表達數據集整理和模型訓練過程中所涉及的步驟,我們可以將標注周期的步驟與聯合目標定位周期[3]的步驟相一致,如圖1所示。
圖1:Parakeet的標注周期與目標定位周期的映射。
這個周期涉及以下活動,對目標選擇過程有了解的讀者會很容易認識到。
指揮官的目標、指導和意圖:在這一點上,我們在數據集標注覆蓋面和模型性能要求方面定義了我們標注任務的預期最終目標。這些都取決于標注任務的目的。我們確定每一類感興趣的物體必須存在的最低數量,并選擇預期的標注名稱。由于這些標注與任務有關,它們在不同的任務中會有所不同,這取決于所需的細節水平,以及在探測精度和開發工作之間的選擇權衡。最后,我們設置最小可接受的置信度,以允許無監督學習,并配置模型的訓練參數。
目標開發和優先排序:我們通過清點已經掌握的標注信息來確定標注的優先級,以突出哪些是缺失的,應該首先解決的。如果有的話,我們應用現有的模型來計算未標注數據的預測。我們評估預測的置信度和對所有數據元素的人工審查要求,以產生一個優先列表。
能力分析:我們評估模型能力以無監督方式標注目標對象。我們確定人類審查員的可用性和工作量,表明在這個迭代中可以驗證的數據元素的數量。
指揮官的決策和軍力分配:我們分配有限的人力驗證資源,即把預測集分配給人類進行審查,或分配給無監督訓練集進行下一個模型再訓練階段。我們決定哪些數據元素將被留作驗證集。我們將標簽集的命令分配給人類審查員。
任務規劃和部隊執行:在這一步,內容專家進行實際驗證,并根據需要對模型進行再訓練。
戰斗評估:我們計算指標以評估模型性能和數據集標注狀態。如果沒有達到最終目標,就會重復這個循環。這也是一個步驟,我們可以評估是否需要將標注的重點重新放在某些類型的對象上,因為我們的例子很少,類似于為情報周期設置和滿足優先信息請求。
通過我們在深度學習能力方面的研發工作,我們對各種數據集進行了收集、整合和標注。2019年10月,DRDC與加拿大5e Régiment d'artillerie légère du Canada(5e RALC)合作,領導了一項數據收集活動,建立了一個以加拿大多輛裝甲車為特征的視頻數據集。超過16個傳感器被用來收集圖像,包括位于地面或空中(無人機)的增強型、可見光和紅外相機。這導致了在一天內獲得了超過2.5萬億字節的數據。給這個數據集標注是一項重大的努力。2020年2月的第二次數據收集活動,也是與5e RALC和皇家22團1營合作進行的,通過現場超過25個傳感器獲得了超過4萬億字節的數據。很明顯,需要制定一個標注這些數據集的策略。
在一個相關的項目中,DRDC在2018年11月協調了一個關于航空視頻數據集的標注會議,為期一個月。來自CFB Valcartier Personnel Awaiting Training (PAT)排的兩名全職軍人在4個星期的時間里在4萬多張圖像中識別了大約12萬個目標對象。相比之下,開源的ImageNet數據集[4]有超過120萬張標注的圖像。按照PAT Platoon的標注率,要達到與ImageNet數據集同樣大小的訓練集,所需的標注工作需要30多個月。
在開發汽車顏色標簽的原型時,我們嘗試了一種不同的方法,即利用迭代的模型訓練過程。首先,我們花了43個小時對前8000張圖片進行人工標注。然后,我們在接下來的7000張圖片上采用了半自動化的方法,這些圖片都是由模型預先標注的。此后,人工審查過程花了不到一個小時。這代表了效率的顯著提高(標注速度提高了40倍以上),這啟發了我們開發Parakeet的概念。在建立軍用車輛數據集時,我們進行了第二次同樣的練習。這一次,我們首先在8小時內給8000張圖片標注。然后,對46000多張圖像的審查過程用了不到2小時。
本節介紹了Parakeet概念及其主要組成部分,它利用主動學習策略進行數據集標注和模型訓練,并使之自動化。更具體地說,Parakeet在三個方面改進了傳統的標注方法:
圖2顯示了用于多模態圖像和視頻數據集的完整Parakeet概念。與視頻數據集一起工作,增加了利用幀插值的可能性。多模態數據集可以包括圖像/視頻模態的混合數據(如可見光和紅外線)。在這種情況下,我們可以利用在一種模態(可見光)上訓練的檢測模型來標記另一種模態(紅外線)的數據。此外,如果數據是由兩個不同的傳感器同步捕獲的,我們可以利用這一信息在傳感器模式之間轉移標注信息。
圖2:完整的Parakeet原型概念
在圖3中,我們可以看到組成Parakeet框架的七個主要組件。
圖3:Parakeet框架組件。
指揮與控制的概念和實踐一直是與通信、信息技術共同發展的。最近人工智能(AI)的進步改變了信息技術世界的執行方式。這就要求C2迅速適應,以充分利用人工智能的潛力。
在企業層面上應用C2塑造我們的人工智能方法,將決定我們能夠達到的力量倍增水平以及這些能力隨著時間的推移可能達到的程度。作為回報,新的人工智能能力將影響C2的開展。我們預計,人工智能可以通過多種方式加以利用。從傳感器饋送中更好地探測物體,可以為更精確和完整的共同作戰畫面提供信息,使及時的形勢分析有助于戰斗空間管理和認知。識別局勢變化和跟蹤局勢演變對于確保C2的反應敏捷性至關重要。人工智能有可能通過自動檢測這些情況來加速決策-行動周期。此外,還有許多小的改進領域,人工智能可以增加效率和部分自動化,導致更快的反應時間,需要更少的人力資源或允許人員將時間用于更重要的任務。
為了達到這一點,我們需要解決關于訓練數據集的關鍵信息保障,以確保我們能夠識別不一致的、過時的、不正確的信息,以及錯誤信息。這是建立對所創建的人工智能能力的信任基礎,它需要一個管理人工智能發展的戰略方法。
當然,人工智能不會提供所有的答案,但我們可以預期,那些學會如何最好地利用人工智能技術的人將會形成對對手的競爭優勢。
在本文中,我們介紹了Parakeet框架,它利用主動學習、無監督學習和有效的預測驗證來實現更快的數據集標注和模型訓練。
我們表明,用C2框架管理機器學習活動可以使目標對象檢測和分類模型的開發更快,這反過來將使C2性能更好,通過檢測、識別和跟蹤感興趣的對象和活動提供及時的情況分析。
確保高質量的傳感器檢測反饋只是第一步。我們預計C2將塑造和運用人工智能。有必要反思我們如何才能最好地利用新的人工智能能力來支持更好的形勢認知和決策。我們需要一個靈活并能適應新問題的人工智能發展戰略。
達爾豪西大學大數據分析研究所、加拿大國防研究與發展研究所 (DRDC) – 大西洋研究中心和加拿大通用動力任務系統 (GDMS-C) 成功向加拿大自然科學與工程研究委員會 (NSERC) 提出申請, 促成了一個為期三年的資助項目,名為自動監控海軍信息空間 (AMNIS)。 AMNIS 啟動會議于 2020 年 10 月 14 日舉行,眾多教授、國防科學家和 GDMS-C 技術人員參加了會議。會議確定了三個組織的多項行動。與 DRDC 和 GDMS-C 相關的一項行動是需要與任務相關的情景來幫助指導預期的研究。因此,DRDC 率先描述了一個具有代表性的海陸情景,這將使研究人員能夠更好地了解與 AMNIS 相關的潛在研究途徑。開發的場景涉及由加拿大皇家海軍 (RCN) 和加拿大陸軍 (CA) 執行的加拿大人道主義任務。任務是向最近遭受自然災害襲擊的國家分發食品和醫療用品。敵對勢力也試圖竊取物資。該場景描述了通過更好的處理技術和決策來改進信息流、共享和使用的需求。該方案旨在引發進一步的討論并幫助鞏固 AMNIS 參與者的研究主題。
AMNIS 項目將推動國防界在機器學習、深度學習、人工智能、可視化的許多方面、弱勢網絡上的信息共享、基于場景的決策以及人類績效建模和團隊合作方面的知識。這里描述的海洋/陸地情景旨在激發支持這些主題的研究途徑。
美海軍部門從基于時間的維修到基于條件的維修+ (CBM+)的持續發展表明了提高艦隊武器系統操作可用性(Ao)的重要性。這一頂石采用了數字孿生(DT)與三維(3D)直接金屬激光熔化打印機相結合的數字效率概念,作為水面艦艇上的物理主機。DT為基于模型的系統工程與數字分析相結合提供了一種不可知的渠道,用于實時預測健康監測,同時改善預測維護。由于DT處于優先研發的前沿,3D打印機將增材制造的價值與動態船舶環境中的復雜系統相結合。為了證明DT具有提高物理主機Ao和最終目標任務的并行能力,開發了DT體系結構和高級模型。該模型聚焦于特定的打印機組件(去離子化[DI]水位、去離子化水電導率、空氣過濾器和激光電機驅動系統),以展示DT對CBM+的內在有效性。為了體現打印機適用性和性能的系統分析系統,應該評估更多的組件,并與船舶的環境數據相結合。此外,本文建議使用DTs作為連接更復雜武器系統的紐帶,同時使用更深層的實驗設計。
目前,美國海軍采用了持續或響應式維護戰略,以維持復雜防御系統的可用性(Ao)。特別是,這些維護策略是通過所謂的基于時間的維護(TBM)和糾正性維護來執行的。基于時間的維護需要定期檢查和/或維修部件,以確保故障不會發生在設計的使用壽命之前,這將影響Ao,因為系統停機。此外,糾正性維護是對組件或系統故障的一種反應,由于管理和后勤延遲時間,以及系統停機時間,會影響可用性。該項目的主要目標是為數字孿生(DT)開發一個體系結構和基本模型,在利用現有的預后健康管理技術的同時,探索維護策略從TBM到基于條件的維護+ (CBM+)的轉變。
為了探索在海軍水面艦艇上使用DT的概念,來自海軍研究生院(NPS)的一組學生檢查了當前可用或正在開發的DT能力,以及可能受益于DT使用的系統。該項目的范圍受到保密級別的限制,不超過受控非機密信息(CUI),這排除了對武器、戰斗和雷達系統的強調。此外,在CUI級以下的海軍系統的實際性能數據是不可用的,因此DT操作的概念是基于公開可用信息的研究發展起來的。為了解決分類約束和海軍非常感興趣的一個話題,增材制造(AM),該團隊探索了在水面艦艇上的三維(3D)打印機上應用DT系統。此外,為3D打印機創建一個DT體系結構,可以在海軍作戰獨特的動態環境中提供關于敏感、高精度系統的寶貴見解。該團隊通過創建架構和基本模型,確定了3D打印機的效率受益于DT。
一個操作視圖,或OV-1圖,這是一個高級的操作概念圖,被創建來說明這個頂點項目的操作概念(見圖1)。該圖描述了系統之間的系統交互,包括載人水面艦艇上的3D打印機,船上人員,混合云,衛星通信(SATCOM)和岸上支持,包括供應鏈系統。DT接收來自3D打印機的傳感器輸入,以及船上的環境數據,以預測必要的維護,以及打印部件的質量。包含DT的混合云存儲原始和處理過的數據,以維護歷史文物,并通過SATCOM或有線連接向船舶人員和岸上支持提供警報,當水面船只進入港口時。警報有助于向船舶人員提供有關即將進行的維修的必要信息,或提供岸上支持活動需要準備的部件,從而減少行政和后勤準備時間。
圖1:OV-1高級操作概念圖
該項目將焦點集中在一個特定的3D打印機模型上,以確定對DT架構至關重要的傳感器和數據的類型。該團隊選擇了一種打印機模型,這種模型目前在美國國防部的幾個實驗室使用,通用電氣的M2系列5。這臺打印機使用直接金屬激光熔化(DMLM)來制造打印。DMLM制造過程包括熔化金屬粉末顆粒,以創建超薄池,并在冷卻時固化(GE Additive 2021)。這種工藝生產的部件重量減輕,同時保持強度、耐久性和精度,以滿足海軍對部件的AM要求。DMLM 3D打印機的主要組成部分如圖2所示,包括激光器、焦透鏡、準直器、反射鏡、重拍刀片,以及供粉室、粉床搭建、用粉收集三個粉末室。準直器和焦距透鏡一起工作來聚焦激光。復蓋機刀片用于分散、磨平和壓平層間的金屬粉末。除了這些部件外,打印機在打印過程中還必須有優質的氣流,并保持惰性氣體環境;GE M2接口使用氮氣。該團隊專注于使用DT系統來利用3D打印機的嵌入式傳感器,以及放置在打印機和船艙中的傳感器,以確定影響系統可用性和打印部件質量的因素。
圖2:典型的激光電源床熔印機。
對于這個頂點項目,團隊決定最好遵循一個修改過的系統工程(SE)方法,如圖3所示,該方法包含一個計劃驅動的軟件過程,作為集成敏捷方法的基礎。這種混合過程允許團隊通過使用敏捷方法建立的迭代和協作環境,以及提供用于生成和細化需求的反饋,來增加整個設計和開發階段的靈活性和適應性。為了使這個頂點的重點與美國海軍(DON)建立的數字轉型戰略相一致,該團隊利用基于模型的系統工程(MBSE)方法來分解涉眾需求,制定概念設計,并在模擬操作環境中評估系統性能。MBSE的使用與DON數字轉換策略一致,通過使用標準語言創建相互關聯的模型,以提高系統的可追溯性和管理復雜性。
圖3:混合 SE 流程,計劃驅動的敏捷方法
MagicGrid方法是DT體系結構開發的主要過程。這種方法使用Cameo和系統建模語言(SysML)來定義問題和解決方案領域,概述了建模過程。這個頂點集中在問題領域,包括分解為兩個階段,黑盒透視圖和白盒透視圖,如圖4所示。每個階段都通過不同的透視圖來檢查問題,從而創建各種場景、表和圖來概述DT系統的結構、行為和功能。黑盒透視圖側重于通過創建用例和系統上下文圖對DT進行操作分析,而不需要指定DT系統的內部結構或行為。白盒透視圖通過為DT識別必要的行為和邏輯子系統來確定系統應該如何操作。此外,白盒透視圖建立活動、狀態機、塊定義和內部塊圖。
圖4:MagicGrid 問題域矩陣。
該團隊最初進行了一項利益相關者分析,其中考慮了將DT用于海軍系統的利益相關者。這些利益相關者的需求是基于主要贊助商(海軍水面作戰中心Hueneme港代碼00T)和NPS顧問的指導。利用涉眾的需求,進行了需求分析。基于DT系統的期望功能,分析確定了功能性/非功能性需求,以及外部接口。該團隊將DT系統的功能需求縮小為7個高級需求,如表1所示。
表1:高級功能需求表。
接下來,通過上下文關系圖、用例和場景的開發來說明系統的功能描述。系統上下文關系圖說明了與DT交互的用戶和外部系統。用例描述了DT實現涉眾目標所必需的功能。團隊開發DT體系結構的主要用例是執行DT函數。這個用例涵蓋了DT接收來自環境和3D打印機的傳感器數據,處理該數據,發送原始和處理過的數據進行存儲,并提供預測和警報。此外,還定義了一些有利于DON的有效性措施。這包括提高3D打印機的可維護性,提高打印部件的后勤保障性,以及提高打印部件的成功概率。
在確定系統完成任務所需的資源后,創建了DT系統功能的行為和結構圖。使用SysML圖,系統的動態行為被捕獲為功能分析和分配的一部分。功能分析包括一個自頂向下的過程,將系統級需求轉換為定義DT體系結構,以確保所有所需的系統功能都得到考慮。首先,在描述控制流和數據流程的活動圖中詳細說明了這一點。接下來,使用狀態機圖定義DT系統的各種系統狀態、轉換和事件。系統動作和狀態的確定有助于通過識別對系統執行必要功能至關重要的通用組件來識別邏輯子系統通信。我們創建了一個框圖來建立DT系統的輸入和輸出,其中包括傳感器數據、控制信號和能源。
隨著DT體系結構的開發,該團隊進行了研究,以確定哪些組件將受益于DT系統的應用。通過與利益相關方的互動和對3D打印機維護手冊的審查,確定分析的重點為以下部件/因素:去離子化(DI)水位、去離子水電導率、空氣過濾器和激光電機驅動系統。然后,該團隊創建了一個Excel模型作為基礎,以演示模型概念的證明。模型設計方法是基于所選部件的退化情況,因為3D打印機用于打印部件,比較了定期維護(TBM)和CBM的使用情況。基于Excel模型的結果表明,將DT系統應用于3D打印機,TBM的Ao值從90.56%提高到CBM的96.15%。這種可用性的增加是由于兩年期間預防性維護的數量減少。
在Excel模型的基礎上創建了一個ExtendSim模型,允許對Ao進行檢查,同時允許修改參數,如打印間隔時間和平均修復時間。對比TBM和CBM的結果表明,對于TBM, Ao在每次打印之間的時間間隔較短,這是因為3D打印機的部件更頻繁地出現故障,但仍需要進行定期維護。對于TBM來說,隨著每次打印間隔時間的增加,部件故障的影響似乎逐漸減弱,因為計劃維護的一致性,而每個部件的故障減少。相比之下,在每次打印之間較短的時間內,CBM的Ao大約高出5%,這是因為只有在部件出現故障時才進行維護。此外,隨著每次打印間隔時間的增加,由于無需進行預防性維護,使用CBM的Ao以穩定的速度增加。
在 3D 打印機上實施 DT 系統的效果表明,過渡到 CBM 方法通過減少系統停機時間改進了海軍目前使用的維護方法。從使用 TBM 到使用 DT 系統的 CBM 過渡,通過增強對系統條件和性能的了解,從根本上改變了維護理念從主動到被動。進行成本分析以補充模型并確定通過實施 DT 系統可以實現的成本節約。以維護手冊為指導,確定在兩年的時間里,僅更換空氣過濾器所節省的成本大約減少了 78 小時的人工和 4500 美元的維護成本。
建模和仿真工作與成本分析相結合,確定在3D打印機上實現DT系統,證明了系統可用性的改善,同時降低了與維護相關的成本。本文的研究范圍主要集中在如何利用CBM+改善Ao;因此,小組沒有探討各種主題和傳感器,而是將其確定為DT發展將受益的未來工作領域。進一步的分析證明,需要連接更多的內部和外部傳感器的數據收集計劃。為了充分了解環境因素和3D打印機如何影響性能指標,未來的工作應該包括方差分析(ANOVA)。將數據分析和歷史數據結合到實驗方法的標準設計中,提出了響應變量和關鍵因素,能夠為水面艦艇上的3D打印機提供方差分析。此外,DMLM過程將受益于額外的傳感器和環境數據輸入到DT。DT受益于數據收集的歷史部分,利用歷史性能、實時評估和預測性維護。當這些額外的傳感器與機器學習相結合時,將有助于更好地預測所需的維護、單個打印質量,并幫助任務規劃/性能。未來研究的其他主題包括混合云集成到艦隊和確保數據傳輸安全。
【報告概要】
認識到地面自主系統需要在未知的任務中運行,北約正在對地面車輛自主移動建模和仿真進行投資,以改進和準備未來運作。來自世界各地的北約工程師和科學家正在努力而有目的地塑造未來的作戰能力,并作為地面部隊保持準備和彈性。隨著北約展望未來,地面車輛界有機會幫助塑造陸軍在實現國家和國際安全目標方面的獨特作用。隨著情報、監視、目標獲取和偵察能力的快速發展,確保自主機動性和操作變得更加重要。北約的未來部隊必須能夠并準備好在極端條件下執行各種任務,因此它必須準備好運用地面力量/地面部隊,以在整個軍事行動中實現戰略成果。
地面自主系統是許多北約國家未來軍事戰略的關鍵部分,商業公司正在競相開發自主系統以率先進入市場。在這場部署這些系統的競賽中,仍然缺乏對這些系統的能力和可靠性的了解。自主地面系統的一項關鍵性能衡量指標是其在道路上和越野時的機動性。自主武器系統的開發和部署通常指向幾個軍事優勢,例如作為力量倍增器,更重要的是,可能需要更少的作戰人員來完成特定任務。與商業自治系統不同,軍隊必須在可能不存在道路的未知和非結構化環境中運作,但物資必須到達前線。在戰場上,機動性是生存能力的關鍵,指揮官知道在什么地形上部署哪種車輛至關重要。指揮官需要有能力評估自己和敵方部隊在作戰區域的車輛機動性,這將增加對任務規劃的信心,并降低因車輛受損而導致任務失敗的風險。
北約國家聯合探索評估地面自主系統性能和可靠性的方法,制定一項戰略,以制定一個總體框架,以開發、整合和維持先進的載人和地面自主系統能力當前和未來的力量。該活動利用了 AVT-ET-148、AVT-248 和 AVT-CDT-308 在下一代北約參考移動模型 (NG-NRMM) 上的結果,并共同證明了自動駕駛汽車具有專門的建模和仿真要求關于流動性。隨后,開發了任務領域,并組建了團隊以開展以下工作:
自主軍事系統 M&S 的挑戰和特殊要求;
與自主軍事系統相關的定義;
當前可用于評估自主系統移動性的軟件;
評估移動性與數據通信的相互依賴性的方法;
以NG-NRMM AVT-248 結果為基礎,確定評估自主系統越野機動性的方法。
這項工作提供了一份文件,簡要概述了現有能力、計劃的未來活動以及后續研究任務組 (RTG) 的戰略方向。這份總結報告將詳細介紹這些成就,并為自主導航框架的開發和實施提供建議。