本研究探討了無人駕駛飛行器(UAV)與有人駕駛飛機合作進行集中任務規劃的發展情況。我們采用經過近端策略優化(PPO)訓練的單一智能體來模擬敵方防空壓制(SEAD)場景。我們的目標是掌握最佳任務策略。我們的模型在各種環境條件下進行了測試,在 100 次測試中,消除敵方防御的成功率達到 78%。我們的模型所取得的巨大成功強調了它在未來戰爭場景中的應用潛力,代表了空戰和強化學習應用領域的重大進展。
集中式任務規劃架構是指一種先進的技術架構,能夠在復雜多變的作戰場景中高效協調和管理無人機。該架構從各種信息來源收集數據,實時評估局勢,并規劃和執行最佳戰略,以最大限度地提高整個任務的成功潛力。
該架構的主要組成部分如下:
戰斗信息管理: 該組件持續監控當前的戰斗態勢并跟蹤信息,以提供實時戰場情報。信息來源多種多樣,包括各種傳感器、傳感器網絡和人工觀察,從而能夠深入了解動態復雜的作戰環境。這相當于強化學習中收集環境信息的過程,為有效的學習過程提供了第一步。
戰斗狀態(觀察): 在這一階段,戰場信息被提供給智能體。在戰場上收集到的各種信息會被實時處理,并傳遞給強化學習智能體。這樣,智能體就能通過綜合戰場態勢感知了解當前形勢,預測未來的可能性,并決定下一步行動。
3)任務規劃器(智能體): 作為中心的核心要素,這個基于強化學習的智能體根據傳入的實時作戰態勢數據做出最優行動。這一決策過程由一個預訓練的強化學習模型執行,該模型學習如何在復雜環境中實現任務目標。
因此,集中任務規劃架構實現了從各種信息源收集和處理數據、規劃和調整無人機行動以適應實時戰場條件的戰略。這就實現了實時戰略決策和快速反應,提高了整體作戰效率和生存能力。
我們為 MUM-T 問題開發了一個量身定制的強化學習環境。在這個環境中,我們部署了一架戰斗機無人機、一個干擾器和一個防空導彈系統,每個系統都有預定義的攻擊范圍和干擾距離。任務的主要目標是協同參與干擾行動,使目標防空導彈系統失效,隨后通過操縱戰斗機無人機將其消滅。任務的成功完成取決于是否到達指定的目標點。
在無人機任務規劃的背景下,我們為 MUM-T 構建了一個定制的強化學習環境。在 MUM-T 環境中,我們部署了一架戰斗機無人機、一個干擾器和防空導彈系統,每個系統都有明確的攻擊范圍和干擾距離。任務的最終目標是與干擾機進行合作干擾,使防空導彈無法攻擊,隨后通過操縱戰斗機無人機摧毀防空導彈。當無人機到達最終目的地(稱為 "目標點")時,即成功完成任務。
為了開發環境,我們使用了 Gym 庫,這是一個用于強化學習環境的開源框架。無人飛行器可以移動的空間用二維網格表示。由于無人機的航向和速度等低層次控制方面的問題假定由 AFRL ACL 5 級自主處理,因此集中式任務規劃框架側重于負責規劃任務相關值(即航點和任務點)的高層次控制,這些值基于多架無人機的信息和戰場狀態。為促進學習過程,我們將任務空間離散化為 30x30 的網格,共由 900 個單元組成。
每個無人機的行動空間被定義為離散的多行動空間,使每個智能體能夠獨立選擇行動。戰斗機無人機和干擾機有五種可能的行動:向左、向右、向上、向下和攻擊。行動空間的離散化簡化了學習和控制[圖 5、6]。
在每個時間步長內,智能體根據其選擇的行動在網格環境中移動。我們施加了邊界條件(懲罰),以防止無人機在網格邊界外移動。此外,我們還通過檢測碰撞并分配相應的懲罰來處理戰斗機和干擾機之間的潛在碰撞。為了解決無人飛行器之間的協作問題,我們為智能體之間的特定功能和互動建立了模型。當干擾機進行干擾時,如果薩母不在攻擊范圍內,則會產生懲罰。但是,如果防空導彈在攻擊范圍內,干擾成功則會獲得獎勵,使防空導彈無法使用。戰斗機總共有五次攻擊機會,攻擊失敗(當防空導彈不在攻擊范圍內時)會導致失去一次攻擊機會并受到懲罰。另一方面,如果防空導彈在規定的攻擊范圍內,防空導彈就會失效,并獲得獎勵。重要的是,如果戰斗機沒有進行干擾,則無法攻擊,因為戰斗機的攻擊范圍小于干擾距離。
本論文旨在研究飛行員在不同模擬環境中的表現與認知、情緒、疲勞和生理的關系。本論文拓寬了對飛行員在作戰環境中非技術技能發展的理解并擴大了其可能性。論文在低保真和高保真兩種環境下對這些現象進行了研究。在研究 I 中,使用低保真模擬對商業飛行員的動態決策進行了調查。接下來,在研究二、三和四中,使用高仿真環境,重點調查了軍事背景下長時間飛行任務中的認知、情緒及其生理關聯。
研究 I 表明,低保真模擬有助于了解商業飛行員動態決策中的認知過程。使用此類模擬可幫助飛行員識別可用于不明確問題的有用信息,這對成功的決策過程至關重要。飛行員決策能力的培養可以通過使用低保真模擬來補充。這可能有利于整個決策過程,包括診斷、判斷、選擇、反饋提示和執行。
研究二、研究三和研究四表明,在評估個人心理方面的情況時,需要高保真環境,這就要求對自然環境有較高的再現水平。長時間單人駕駛飛機執行任務時,應考慮到飛行員在執行任務約 7 小時后可能會出現持續注意力下降、積極情緒減少和消極情緒增加的情況。然而,在 11 小時的飛行任務中,更復雜的認知任務的表現可能不會下降。心率變異性與情緒評級之間的關聯可能表明生理喚醒水平。這可能有助于評估飛行員在這種情況下的整體心理狀態。對飛行員在這種環境下的心理狀態進行全面評估,可能有助于飛行員做好準備,并有助于制定長時間飛行任務的計劃。
綜上所述,本論文的結論表明,適當使用低保真和高保真模擬可促進飛行員認識到適應環境變化的必要性。這促進了作為安全基本要素的應變能力。
本報告研究了如何利用人工智能(AI)解決方案,結合傳感器數據和更高級的企業級機器學習(ML)算法,改進戰術決策,提供先進的目標定位解決方案,并為艱苦環境中的步行作戰人員推薦行動方案(COA)。該團隊采用系統工程分析方法,為戰術邊緣的人工智能輔助決策系統提出要求并進行概念設計。團隊將這一未來能力命名為 "地面感知作戰決策(GAWD)系統"。設想中的 GAWD 能力將提供一個功能強大的人工智能/ML 骨干架構,用于在邊緣傳輸戰術相關數據,供士兵實時處理和分析,以確定目標和選擇路線。此外,該能力還能監測士兵的健康狀況,并將信息提供給指揮部。未來的 GAWD 系統概念將利用人工智能、ML、增強現實 (AR)、虛擬現實 (VR) 和機身處理來分析數據,從而在終端用戶設備 (EUD) 或平視顯示器 (HUD) 上觸發實時通知和建議行動方案 (COA),以幫助下裝作戰人員及時做出作戰決策。研究小組進行了場景分析,探討了在三種不同的地面部署士兵場景中使用 GAWD 系統的問題。研究小組研究了在軍事行動中引入 GAWD 系統的道德影響。
圖 14. 用于瞄準的地面感知作戰決策邊緣計算系統架構圖。
雖然具有未來性,但將人工智能(AI)和機器學習(ML)作為下馬兵棋推演的輔助工具,是美國在戰場內外保持優勢的下一步。美國國防部(DOD)和聯合軍種正在探索將人工智能/機器學習用于各種應用,以支持作戰人員執行任務。本畢業設計項目研究了如何使用人工智能/ML 來實現未來的兵棋推演決策輔助功能,以支持下裝士兵執行任務。頂點團隊(Linchpin 小組)采用系統分析方法,研究人工智能和機器學習的當前和預期能力,了解下裝士兵的需求和任務,并利用人工智能和機器學習開發決策輔助系統的概念設計。
頂點團隊設想實施一種前沿、全面的人工智能/ML 機器兵棋推演決策輔助系統,稱為地面感知作戰決策(GAWD)系統。該系統是一個數據套件,搭配最先進的軟件(SW),可確保步兵單元在艱苦環境中的戰術決策能力,有助于挽救生命。利用人工智能、機器學習和先進的數據分析技術,這一創新工具可以提供一個適應性強、可擴展的系統,可以滿足各種單元規模的需求,并能與現有的軍事技術和網絡無縫集成。
這種實時和不斷發展的系統有可能使下馬士兵能夠清晰、全面地了解作戰環境,包括對手陣地的位置、地形特征以及使用各種傳感器和數據集提供戰場最新信息的友軍。此外,這種兵棋推演輔助工具將通過利用機器學習和歷史數據,為士兵及其指揮部提供態勢感知(SA)。這些信息將能夠快速分析各種場景,預測敵人的潛在動向,并根據當前形勢和單元目標提出最佳行動方案(COA),從而做出關鍵的戰術決策。
Linchpin 集團為下馬士兵設計的概念性人工智能/機器學習 GAWD 系統代表了步兵戰的突破性進展。通過利用人工智能/機器學習的力量,這一尖端工具將為下馬士兵提供無與倫比的戰略部署、決策支持和協調能力。根據設想,這一工具還將作為一個訓練平臺,使士兵能夠參與虛擬兵棋推演和模擬場景。該系統可記錄個人和單元在訓練演習和真實場景中的表現,從而為行動后評估(AAR)和持續改進單兵和整個陸軍提供有價值的見解。
該小組進行了一項情景分析,以探討士兵在地面任務中如何使用 GAWD 系統。團隊確定了三種相關場景,這些場景將通過添加人工智能支持的 GAWD 系統得到增強。這三種情況是 (1) 目標交戰,(2) 路線選擇,以及 (3) 士兵健康和狀態監控。研究小組探討了每種場景,然后比較了三種場景下未來 GAWD 能力所需的功能。
人工智能/機器學習作為一種力量倍增器,有可能顯著提高下裝單元的戰斗力和生存能力,確保現代戰場上的軍事優勢。它的部署將徹底改變下裝作戰,并為軍隊的卓越戰術設定新的標準。
利用無人地面飛行器(UGV)進行自主導航和未知環境探索極具挑戰性。本報告研究了一種利用小尺寸、低重量、低功耗和低成本有效載荷的測繪和探索解決方案。本文介紹的平臺利用同步定位和繪圖功能,通過尋找可導航路線來有效探索未知區域。該解決方案利用多種傳感器有效載荷,包括輪子編碼器、三維激光雷達、紅-綠-藍相機和深度相機。這項工作的主要目標是利用 UGV 的路徑規劃和導航功能進行測繪和探索,從而生成精確的 3D 地圖。所提供的解決方案還利用了機器人操作系統。
本文探索了既能提供全覆蓋路徑規劃,又能避開負面障礙物的方法。這些方法專門針對無人地面車輛(UGV),因為它們需要不斷與可穿越的地面進行交互。在仿真中測試了多種潛在解決方案,并在本文中介紹了測試結果。對全覆蓋路徑規劃器(FCPP)方法進行了評估,主要是看它們是否能將路徑離散化,是否能有效地使用航點,以及是否能與當前的機器人平臺輕松集成。對于負障礙物,探索了能與當前導航堆棧集成的方法。首選解決方案將允許遠程操作、航路點導航和完全自主,同時避開正面和負面障礙物。
2021 年 9 月,在 2022 年陸軍機動支援和維持能力發展集成局主辦的機動支援、維持和保護集成實驗(MSSPIX)中展示了機器人平臺。在為期三天的時間里,三名士兵接受了使用機器人平臺的培訓。士兵們學會了使用手動導航、半自動航點導航和自主探索來繪制隧道和建筑物內部地圖。該團隊成功展示了一種平臺無關的無人地面運載工具(UGV)邊緣計算(利用機載硬件做出毫秒級低延遲決策)和傳感器有效載荷,用于勘測和繪制內部結構(包括地下環境)。具體來說,UGV 能夠在士兵不進入潛在危險環境的情況下實現三種操作模式:遠程操作、航點導航或自主繪圖。根據這些經驗和士兵的反饋,團隊確定了導航需要改進的兩個方面。
起初,假定在電池容量有限(約 3 小時)的情況下,自主導航的主要目標是在最短時間內覆蓋盡可能多的地面。因此,采用了基于前沿探索的方法。在這里,前沿被定義為機器人已經探索過的區域和尚未探索的區域之間的邊界。優先考慮數學上最大的邊界。在這種情況下,可以在相對較短的時間內提供一棟建筑的整體平面圖,但較小的房間則無法徹底探索。因此,如果行動概念(CONOP)也涉及到識別感興趣的對象,那么這種方法就有可能錯過感興趣的對象,尤其是如果該對象位于較小的房間中。因此,團隊研究了可用于徹底探索房間的全覆蓋路徑規劃器 (FCPP)。本報告的一個方面就是討論如何使用全覆蓋規劃器。
MSSPIX 22 演示中出現的另一個問題是負面障礙物。雖然機器人能夠很好地識別和避開正面障礙物,但負面障礙物,如下樓梯或地板上的洞,卻超出了機器人的初始能力。由于在演示之前已經知道了這些負面障礙物,因此能夠使用虛擬障礙物來阻止機器人探索這些區域。然而,必須開發一種方法來處理負面障礙,尤其是在無法獲得事先知識的情況下。因此,本報告的第二個方面側重于識別負面障礙。
本報告涉及《陸軍多域情報》中確立的重點領域: 21-22 財年科技重點領域》(參謀部副參謀長辦公室,2020 年)中確定的重點領域。具體而言,認為這項工作涉及到 "戰爭將以超高速、超大規模進行,由機器人和自主系統(RAS)、機器學習(ML)和人工智能(AI)能力等技術主導,這些技術可廣泛獲取、打包并隨時投入使用"(5)。通過整合全覆蓋規劃和檢測負面障礙物的能力,實現了創建更高效自主系統的目標。
方法包括在模擬中運行全覆蓋規劃器和負障礙物檢測方法。為了測試這兩種方案,使用了 Clearpath Robotics(2021 年)公司的 "障礙世界"。障礙世界是一個虛擬定義的室內世界,可作為全覆蓋規劃器的封閉區域,而非平面地板則可用于負障礙物檢測的模擬測試。圖 1 顯示了模擬環境中的世界。整個世界中出現的負障礙物都被標注出來。用于加載虛擬環境和機器人的完整啟動文件可在 0 部分附錄 A 中找到。啟動文件中包含的幾個參數可用于調整環境,包括機器人的起始位置和世界比例。為了啟動世界,使用了以下節點: 在這里,節點被定義為執行計算的進程。
目標是利用全覆蓋規劃器徹底探索每個房間,同時利用負障礙物檢測節點防止機器人被卡住。全覆蓋規劃器需要一個占用網格來規劃路徑。圖 2 顯示了用于路徑規劃的占用網格。由于占用網格通常是三元網格,空間通常被標記為占用(黑色)、空閑(白色)和未知(灰色)。因此,負障礙物無法識別,規劃的路徑將穿越非平面樓層幾何體。負障礙物的大小與車輪直徑大致相同,這意味著如果機器人掉入負障礙物中,將不太可能逃脫,從而無法完成任務。
本報告概述了我們在基于模型的自適應目標跟蹤以及識別來自電磁干擾(EMI)源的衛星欺騙和干擾攻擊方面所做的研究工作。我們假設可以利用不同電磁干擾源的射頻(RF)特征來識別和跟蹤主動和被動電磁干擾源。射頻信號被輸入一個基于模型的深度神經網絡(DNN),該網絡可對不同物體進行分類和跟蹤。
我們的初步結果表明,對于有源電磁干擾源,即使用不同調制方案發射射頻信號的源,使用 DNN 識別電磁干擾源射頻調制方案的準確性在很大程度上取決于射頻信號的質量,而射頻信號的質量又是信道的函數。特別是,如果信道是視距信道,且信噪比(SNR)較大,則調制類型的分類準確率很高(> 95%)。另一方面,如果信道參數未知和/或波動較大,信噪比較低,則分類準確率較低(< 60%)。調制類型識別的性能使我們得出結論,在現實世界中基于調制類型的目標跟蹤將非常困難。因此,這項研究的主要工作集中在使用有源雷達對無源信號源進行分類,并以人員計數系統為原型。
我們沒有使用模擬,而是在實驗室建立了一個小規模的測試環境來驗證假設。我們提出的人員計數系統使用多個發射天線,通過發送毫米波雷達啁啾掃描環境。物體反彈回來的信號由多個接收天線接收、處理并存儲到數字數據庫中。然后,我們對數字數據進行特征提取,并將特征輸入卷積神經網絡,以進行物體分類和跟蹤。在這些實驗中,我們將行走的人視為移動物體。我們的初步結果表明,在有限的環境中(如實驗室環境),卷積神經網絡可以利用射頻信號準確識別不同的物體(> 95%)。
圖 4. 從射頻信號中提取特征。特征/物體包含已識別物體的數量、其多普勒速度、其 x、y、z 位置和相對信噪比。
F-22 經過實戰驗證,在沖突地區作戰了十多年。盡管它是地球上最主要的空對空戰斗機,但飛機的不斷改進繼??續使 F-22 更具殺傷力。最大化任務能力 (MC) 率的最佳實踐沒有成功地編纂和保護數據。本文使用數據包絡分析 (DEA) 來識別 MC 率優化且高效的基準環境。 DEA 成功地比較了兩個單位的投入和產出的相對效率,并確定了效率更高的組織。此外,DEA 還為美國空軍現任高級領導人和戰術經理提供了對績效環境的洞察力,在這些環境中,可以最大限度地提高相對效率,以在財政受限的環境中支持國防戰略。最后,DEA 模型可用于分析額外的 F-22 單位、其他飛機機隊以及基地級維護操作中更細微的輸入/輸出關系。
本報告總結了迄今為止在路線偵察領域的本體開發的進展,重點是空間抽象。我們的重點是一個簡單的機器人,一個能夠感知并在其環境中導航的自主系統。該機器人的任務是路線偵察:通過觀察和推理,獲得有關條件、障礙物、關鍵地形特征和指定路線上的敵人的必要信息。路線偵察通常是由一個排的騎兵和非騎兵進行的。這項研究探討了機器人執行部分或全部必要任務的合理性,包括與指揮官進行溝通。
這是一項具有挑戰性的對抗性任務,即地形穿越加上信息收集和解釋。偵察的解釋方面需要考慮語義學--確定相關的信息和確定它如何相關(即有意義)。語義信息在本質上是定性的:例如,危險是一個定性的概念。為了將危險與某些特定的區域聯系起來,我們需要一種方法來指代該區域。這意味著至少能夠給空間的某些部分附上定性的標簽。
Kuipers在他的空間語義層次的早期工作中指出了空間的定性表示對機器人探索的重要性。例如,層次結構的拓撲層次包含了 "地方、路徑和區域的本體",歸納產生了對較低層次的因果模式的解釋。
最近,Izmirlioglu和Erdem為定性空間概念在機器人技術中的應用提供了以下理由:
對于負責路線偵察的無人地面車輛(UGV)來說,其架構中的不同模塊將消費和產生語義信息:負責語義感知和目標識別、計劃和執行、自然語言對話等的模塊,加上主要負責維護信息的語義世界模型。例如,在美國陸軍作戰能力發展司令部陸軍研究實驗室的自主架構中,語義/符號世界模型被用來 "實現符號目標(例如,去接近一個特定的物體)",*其中接近是一個語義概念。
一個關鍵問題是如何在世界模型和其他模塊之間分配維護和處理不同類型語義信息的責任。從語義世界模型的角度來看,這取決于有多少符號推理是合適的。例如,假設要接近的物體位于一個給定區域的某個位置,而不是靠近該區域的外部邊界。一旦機器人靠近物體,就可以推斷出機器人在物體的位置附近,而且也在同一區域內。如果有公制信息,就可以用幾何例程得出這個結論。在沒有公制信息的情況下,是否會出現在純粹的定性空間中推斷有用的情況?
本報告不涉及這個問題。我們的目標是確定什么應該被代表,而把如何代表和在哪里代表留給未來的工作。
以下片段取自FM7-92中對路線偵察的描述。空間表達是彩色的,周圍有一些文字作為背景。
路線偵察的結果是一份報告,以圖表的形式,并附有文字說明。FM7-92給出了一個例子,我們可以從中提取一些更必要的概念:
讓我們把這段關于路線偵察的描述中提到的概念建立一個綜合清單,重點放在空間概念上,并盡可能地保留軍事術語:
1)必須指定環境中的位置、路線、區域和感興趣的物體。稱這些為 "實體"。
2)這些實體之間的空間關系是相關的(例如,一個地點在另一個地點的北邊)。值得注意的是,不同類型的實體之間的關系是被指定的。
a. 物體(例如,障礙物)在位置或區域。
b. 一些地點在空間上與路線有關(例如,沿著路線,毗鄰,或靠近道路)。
c. 地點可能代表更大的區域(例如,雷區的位置)。
d. 道路和小徑可以與路線相關:它們可能相交、重疊(部分疊加),或平行運行。
a. 一些地點相對于其他地點或區域有方向性的定位(例如,一個防御性的位置)。
b. 有些區域是由其與另一個區域或地點的關系來定義的,這可能不是一種局部的關系(例如,觀察和火力場是由一個潛在的遠程位置來定義的,該位置有一條通往路線上的一個區域的線路)。
4)路線可能被障礙物阻擋,障礙物可能是明確的物體或更大的區域(例如,一個障礙物與一個雷區)。
6)有時,描述物理基礎設施(如道路、橋梁)及其屬性是很重要的。
路線偵查收集和解釋不同種類和不同來源的信息:
背景知識。這包括關于環境特征的類型和預期成為任務一部分的物體的信息,包括道路、障礙物、溝壑、橋梁等等。
任務規范。確定偵查的區域和路線,以及當時可獲得的任何信息。
環境。通過空間分析(包括幾何學、拓撲學等)、感知、地圖衛星數據的離線圖像處理和其他類型的分析,確定環境的相關特征。
任務執行期間的通信。我們假設指揮官或人類操作員在偵察過程中可以向UGV提出詢問或命令,提供新信息或集中注意力。
如前所述,一份報告。
原則上,所有這些信息都以某種抽象的形式組合在一個語義世界模型中。我們把環境的物理屬性和特征稱為 "實體"。把我們用來表示這些實體和它們之間關系的抽象概念稱為 "概念"。
不同類型的實體的概念。層次結構在語義表征中很常見,用來捕捉關于世界上遇到的實體類型的一般知識。一個類型就是一個概念,類型被組織在一個層次中:MRZR是一種輕型的、戰術性的、全地形的車輛,它是一種輪式地面車輛,它是一種地面車輛的類型,等等。屬性和關系可以與一個給定的概念相關聯,而下級概念則繼承這些屬性。在路線偵察中,如果有信息說某一地區有一條道路,但沒有更多的細節,仍然可以從道路的概念中推斷出它的預期屬性:它比它的寬度長得多;它在人們感興趣的地點之間通向;在其他條件相同的情況下,它可能比周圍的地形行駛得快。從實用的角度來看,這意味著如果有可能將某物歸類為一個已知的概念,那么語義世界模型就不需要記錄關于該物的每一條相關信息。
用于實體的目的和用途的概念。一個代表道路典型用途的概念可以進一步區分其長度和寬度的語義,這反過來又導致了跨越和沿途、穿越和跟隨等概念之間的區別。這將使UGV能夠以不同的方式對待 "偵察道路對面的區域 "和 "偵察前方的道路 "的命令。前方的道路也是一個語義概念:它取決于對過去去過的地方的了解。
代表部分信息的概念。有時可能會有定性的信息。想象一下,任務規范的一部分是關于雷區在計劃路線上存在的信息,但不知道具體位置,或者知道雷區的位置,但不知道其范圍。這種無知可以很容易地在代表實體的概念中得到體現。
新概念適用于新環境。另一個交流的例子可能是信息性的。想象一下,當一輛UGV穿越一條東西走向的道路時,它與遠程指揮官進行交流,指揮官問道:"道路北側是什么?"* 需要識別的物體可能不在道路和地形的邊界上(與 "建筑物的一側 "形成對比),而是在以道路邊緣為界的某個感興趣的區域內,距離UGV的位置向北不遠,向東和向西也有一些距離。這個區域可能沒有事先作為一個概念被劃定;相反,它是在當前的背景下構建或推斷出來的。這是一個有趣的例子,一個概念不是從公制數據中抽象出來的,而是被強加在公制數據上的。
背景中的概念的適應和組合。想象一下,對一張地圖的分析產生了對代表區域、道路等等的概念的分解。這些概念可能直接適用于某些目的。例如,與道路相聯系的概念在推理兩點之間的導航時是有用的。然而,在其他情況下,這些概念可能需要調整或與其他概念相結合。例如,如果一條道路被指定為 "危險區域",那么這個區域的概念可能會超出道路的邊界,延伸到周圍的地形。
本論文探討了區塊鏈與互聯網協議第六版(IPv6)數據包信息的使用,以支持與無人駕駛飛行器(UAVs)智能蜂群的安全、高性能和可擴展的通信。在這篇論文中,我們研究了三種情況下的加密數據包的交換,即點對點、點對多和多對點。我們模擬了每個場景下的蜂群行為,并在模擬運行中改變了蜂群中無人機的數量。基于仿真的結果顯示,對于點對點場景和多對多場景,即使在多對多場景中,交互節點的數量增加,延遲也沒有明顯增加。相反,在點對多的情況下,延遲會增加。需要進行更多的研究來評估本論文中提出的區塊鏈-IPv6方法的安全性和可擴展性。
圖. 使用區塊鏈技術的無人機群智能中的塊生成概念
越來越多的無人機被用于軍事目的,再加上自動化方面的進步,如為無人駕駛飛行器(UAV)配備不同程度的自主權和群集智能,使得這些飛行器成為敵對勢力的誘人目標。為了獲得競爭優勢,對手將試圖找到無人機的飛行控制器、接收器或發射器的可利用的物理和網絡漏洞,然后應用動能、網絡或某種動能和網絡攻擊機制的組合來操縱無人機的行為,例如使無人機墜毀或泄露敏感數據。
攻擊軍用無人機的一個途徑是操縱無人機使用的通信機制,無論是無人機與無人機之間的通信還是無人機與人類操作員之間的通信。例如,對手可以修改或阻止無人機群之間的數據交換,以降低無人機群的行動效率。重要的是,為軍事單位提供的無人機已經過動能和網絡脆弱性評估,與這些脆弱性相關的風險在無人機的操作使用之前就已經得到緩解,并且在無人機的使用壽命內對無人機系統進行修改時,也要進行風險評估和緩解。
安全風險管理也要在一個框架中進行規范,美國國家標準與技術研究所(NIST)就是這樣做的,它發布了一個風險管理框架。多種技術可用于實施降低安全風險的措施。例如,Vikas Hassija和Vinay Chamola[1]斷言。"當務之急是保持無人機和其他用戶之間交易的安全性、成本效益和隱私保護。區塊鏈技術是一個非常有前途的解決方案,可用于部署實時無人機應用"。
科學技術的創新和進步之間存在著一種共生關系。諸如自動駕駛汽車、自主無人駕駛飛行器(UAV)和智能家用電器等能力,一度被認為是科幻小說的范疇,或者在技術上太難實現,現在已經很普遍了。
無人機的概念最早出現在1783年,當時約瑟夫-米歇爾和他的伙伴雅克-艾蒂安-蒙戈爾費埃公開展示了一種當時可以說是無人機或無人駕駛飛機的交通工具[2],其形式是1849年在法國一個叫安諾奈的地方的熱氣球,在那次戰爭中,由奧地利中尉弗朗茨-馮-烏沙提斯創造的氣球炸彈被用來攻擊威尼斯市。雖然這次攻擊只造成了輕微的損失,但它可以被稱為成功,因為兩天后威尼斯就投降了[3]。尼古拉斯-特斯拉在1898年獲得了遙控(RC)的專利,大約20年后,一家名為拉斯頓-普羅克特空中目標的公司在特斯拉之前獲得專利的遙控技術基礎上發明了第一架無翼飛機[4]。
從那時起,無人機技術和它的應用已經穩步增長。它們已被用于科學研究,如收集有關火山活動的數據,在這些地方使用駕駛飛機會太危險或太昂貴。在20世紀90年代,亞伯拉罕-卡雷姆推出了 "捕食者",這是一種配備了攝像頭和其他傳感器的無人機,用于監視。國防界為 "捕食者 "配備了武器裝備,包括導彈[5]。掠奪者本身已被用于一些沖突,如在阿富汗、巴基斯坦、波斯尼亞、前南斯拉夫、伊拉克、也門、利比亞、敘利亞和索馬里的沖突[6]。在2022年,它們也被烏克蘭和俄羅斯武裝部隊廣泛用于戰斗。
無人機技術的一個重大進步是應用了蜂群智能,一群無人機模仿大量同質動物的智能行為,如蟻群、鳥群和蜜蜂群。蜂群通過蜂群成員之間的協調表現出集體行為。蜂群的行為可以被編碼為算法,而這些算法又可以通過軟件實現,在計算機上執行,比如無人機中使用的嵌入式計算機[7]。蜂群行為甚至被用來進行基于無人機的燈光表演,例如在2020年東京奧運會的開幕式上。
在蜂群中,蜂后是控制器,同樣地,在蜂群智能無人機中,系統中有一個控制中心,典型的控制器名為地面控制站(GCS)。無人機的工作方式很直接,這涉及到無人機和GCS之間的數據交換,然后GCS可以連接到衛星,或者衛星可以直接連接到無人機,一切都在實時發生。圖1說明了無人機和其基礎設施的一種通信方式。至少,通信需要是低延遲和安全的[8]。
有兩種技術可以在GCS和無人機之間進行通信。第一種技術是基于蜂群基礎設施的GCS,第二種是飛行Ad-Hoc網絡(FANET)。基于蜂群基礎設施的GCS本身有一個GCS,用于集中式通信。所有的無人機群都將與GCS進行通信,以便群組能夠運作。然而,這種技術的一個缺點是,它依賴于GCS的可用性和正確運作。如果GCS受到干擾,整個無人機群也會受到干擾。相比之下,FANET使用一個發射器向某個無人機發送命令,然后該無人機將這些命令轉發給第二個無人機。然后這些命令將以串行或并發的方式分發給其他無人機。所有的無人機將進行通信,并擁有發射器給出的命令列表,這樣,如果這個發射器發生故障,所有的無人機仍然可以執行命令,因為每個無人機都有一個有效的命令列表。最后,通過使用這種FANET技術,每個無人機將具有冗余性,而不完全依賴通信基礎設施。然而,這種技術也有缺點。例如,一個入侵者或一個未知的無人機可以進入并破壞無人機群。再比如,無人機群的授權成員無法檢測到,所以入侵者(即未經授權的參與者)的無人機,從而可以獲得將由授權無人機執行的命令列表[9]。
為了克服入侵者無人機的問題,也許可以應用區塊鏈來防止未經授權的無人機使用無人機群命令來獲取列表。區塊鏈本身已被廣泛用于金融領域,目的是在每筆交易的驗證過程中消除第三方。
在區塊鏈中,當數據被分發時,將很難被黑客攻擊并獲得完整的數據,因為它是由一個使用加密手段的網絡驗證的。每個區塊由前一個區塊的哈希值,驗證哈希值的隨機數,或稱nonce,以及時間戳組成。完整性的保證是由區塊鏈為第一個區塊的形成提供的,這個區塊是由一個經過驗證的交易形成的結果,稱為創世區塊。由于哈希值是不可預測的或唯一的,欺詐或復制行為將被發現。每個經過驗證的區塊都有其哈希值,對該區塊的任何改變都會對其他區塊產生影響。如果所有或大多數節點給予許可或同意,該區塊就會被添加到鏈上,因為共識機制安排交易的有效性在某個區塊的有效性。
區塊鏈上的這種共識機制可以通過三種方式進行,那就是工作證明、股權證明和投票,實用拜占庭容錯。在加密貨幣的世界里,工作證明被用于采礦。它的工作原理是在每個節點上進行數學方程的計算,然后每個首先完成計算的節點將有權將最新的區塊輸入區塊鏈。使用權益證明,只有合法的節點可以進行計算以達成共識。另一方面,實用拜占庭容錯是基于投票的,要求至少有三分之一的授權節點是拜占庭的。
認證過程是通過生成具有偽隨機函數的一次性密碼(OTP)來進行的。無人機在區塊鏈中注冊,每架無人機根據存儲在區塊鏈節點中的關系,確定它能夠認證的最近的無人機。認證請求從無人機發送至相關的無人機,后者在區塊鏈中觀察并檢查該無人機是否有關系,并能對其進行認證。這個方案能夠挫敗外部惡意無人機的攻擊或第三方攻擊,即使對手知道第一個令牌。
在本論文中,我們研究了使用IPv6(互聯網協議版本6)在無人機之間進行通信的方式。與IPv4(互聯網協議版本4)相比,IPv6有很多優點,即速度更快,更有效,因為它的路由表比IPv4少,所以路由過程將更有組織和有效,而且更安全,因為它配備了交換數據的加密功能。帶寬更有效,因為IPv6支持組播。配置更容易,因為它自動運行。總的來說,IPv6更適合無人機等移動設備,因為不需要通過網絡地址表(NAT),因此延遲低。IPv6將使用區塊鏈與權益證明共識相結合。
與加密貨幣一樣,區塊鏈上的每個節點都必須進行支付。在這項研究中,支付被替換成OTP。每個節點產生相同或同步的OTP。區塊鏈和OTP在這里的使用是為了檢測未經授權的無人機,并防止他們讀取或更新無人機群使用的命令列表。此外,我們探索了區塊鏈、智能合約共識(SCC)和分布式賬本技術在蜂群通信方面的能力。此外,還根據提出的無人機群智能通信架構的概念進行了模擬。
本論文的范圍僅限于探索區塊鏈技術和OTP的聯合使用,這兩種技術在IPv6數據包中都有填充。
在進行了模擬物理無人機在點對點、點對多、多對點場景下的運行,并使用1-10000次迭代或交易的實驗后,得到了各場景的延遲比較結果。從這些結果可以得出結論,對于點對點方案和多對多方案,即使在多對多方案中,交互節點的數量增加,延遲也沒有顯著增加。而在點對多的情況下,一個節點以廣播信息的形式同時向幾個節點進行交易,這導致了延遲的增加。第四章和第五章解釋了仿真結果和這些結論的總結。此外,第五章還討論了與本論文中的事項有關的未來工作的可能性和建議。
第二章介紹了無人機群智能通信區塊鏈功能的背景,并利用它作為無人機群智能的通信手段。它還對IPv6結構格式進行了概述。第三章討論了基于IPv6區塊鏈的通信數據傳輸的分析。具體而言,分析了IPv6區塊鏈數據包的場景、保密性、完整性和可用性。第四章闡述了IPv6區塊鏈在無人機蜂群智能中實現的可能性和挑戰的研究成果。第五章提供了結論和對未來研究的建議。
本報告是在 FA9453-19-1-0078 資助下編寫的。首先,提出了兩種數值方法來解決通信和導航中產生的非線性優化問題。其次,開發了兩個關于機器學習模型的解決方案質量和安全性的結果。
該研究項目的目標是開發高效的大規模非線性優化算法,以解決通信和導航方面的數據分析問題。這些問題被公認為在數學上具有挑戰性,并與空軍的利益直接相關。
在資助期間,我們成功研究了兩個研究方向。首先,我們設計了大規模非線性優化問題的最佳一階方法。在這個方向上,我們提出了兩個一階方法,可以對決策變量進行近似梯度更新。這兩種方法都可以解決分散通信的多Agent優化所產生的非線性優化問題。通過將多代理優化重新表述為約束性問題,我們開發的方法可以以最佳梯度/操作者評估復雜度來解決問題。我們開發的方法也可用于解決圖像重建問題。
第二,我們分析了機器學習模型中的解決方案質量和安全問題。在這個方向上,我們完成了兩個研究結果。我們的第一個成果是關于在多集群環境下,從二元結果的條件邏輯回歸模型中計算出來的估計值的屬性。我們表明,當每個單獨的數據點被無限次復制時,來自該模型的條件最大似然估計值漸進地接近最大似然估計值。我們的第二個結果是關于安全的矩陣乘法問題,我們設計了一種準確和安全地進行分布式矩陣乘法的方法。我們的安全協議可以確保在進行這種矩陣乘法的通信過程中沒有任何信息被泄露。
摘要--基于模擬的訓練有可能大幅提高空戰領域的訓練價值。然而,合成對手必須由高質量的行為模型控制,以表現出類似人類的行為。手工建立這種模型被認為是一項非常具有挑戰性的任務。在這項工作中,我們研究了如何利用多智能體深度強化學習來構建空戰模擬中合成飛行員的行為模型。我們在兩個空戰場景中對一些方法進行了實證評估,并證明課程學習是處理空戰領域高維狀態空間的一種有前途的方法,多目標學習可以產生具有不同特征的合成智能體,這可以刺激人類飛行員的訓練。
索引詞:基于智能體的建模,智能體,機器學習,多智能體系統
只使用真實的飛機進行空戰訓練是很困難的,因為飛行的成本很高,空域的規定,以及代表對方部隊使用的平臺的有限可用性。取而代之的是,可以用合成的、計算機控制的實體來代替一些人類角色。這可以降低訓練成本,減少對人類訓練提供者的依賴(見圖1),并提高訓練價值[1]。理想情況下,受訓飛行員的對手應該都是合成實體,這樣就不需要角色扮演者和真實飛機來支持訓練。然而,為了達到較高的訓練價值,合成對手必須由高質量的行為模型控制,并表現出類似人類的行為。手工建立這樣的模型被認為是一項非常具有挑戰性的任務[2], [3]。
圖1. 空戰訓練系統的用戶。通過構建更智能的合成智能體,可以減少對人類訓練提供者的需求。
近年來,強化學習算法的性能得到了迅速提高。通過將強化學習與深度學習相結合,在復雜的控制任務[4]-[6]、經典的棋盤游戲[7]-[9]以及具有挑戰性的實時、多人計算機游戲[10],[11]中取得令人印象深刻的結果成為可能。這使我們相信,強化學習也可以成為構建空戰模擬中合成智能體行為模型的一個可行的選擇。有了這種方法,訓練系統的用戶就不需要明確地對智能體的行為進行編程,而是可以簡單地指定他們所需的目標和特征。然而,目前還沒有很多研究來評估空戰領域中最新的多智能體學習方法的性能。
在這項工作中,我們研究了如何在空戰模擬中使用多智能體深度強化學習來學習協調。在空戰領域,多個智能體的協調是很重要的,因為飛行員從來不會單獨飛行。我們的貢獻可以總結為以下幾點:
首先,我們討論了用于訓練飛行員的空戰模擬領域的強化學習算法的用例、設計原則和挑戰
其次,我們使用高保真模擬引擎,對有助于實現所確定的用例的方法進行了廣泛的實證評估。
具體來說,我們研究了空戰模擬場景中學習算法的兩個挑戰。1)用稀疏的獎勵學習,以及2)創建具有可調整行為的智能體。我們的實驗表明,在空戰的高維狀態空間中,課程學習可以促進稀疏獎勵的學習,而多目標學習可以產生具有不同行為特征的智能體,這可以刺激飛行員的訓練。