開發既能安全導航又能在無人干預的情況下執行指定任務的空中機器人--即乘客和貨物的完全自主空中移動--是指導空中自主領域研究、設計和開發工作的更大愿景。然而,要同時實現所有類型的空中飛行器完全自主地共享空域是極具挑戰性的。航空運輸領域的完全自主包括幾個方面,如為飛行器提供動力的技術設計、多智能體機隊的運行以及符合航空領域嚴格安全要求的認證過程。因此,"自主先進空中機動性"仍然是一個模糊的術語,其對研究人員和專業人員的影響也不明確。為了填補這一空白,我們從一個全面的角度介紹了自主先進空中機動性這一新興領域,其中涉及使用無人駕駛飛行器(UAV)和電動垂直起降(eVTOL)飛機進行各種應用,如城市空中交通、包裹遞送和監視。文章提出了一個可擴展、可延伸的自主框架,由四個主要模塊組成:感知、知覺、規劃和控制。此外,文章還討論了多智能體機隊運營和管理方面的挑戰和機遇,以及自主航空系統的測試、驗證和認證方面的問題。最后,文章探討了單體模型在航空自主方面的潛力,并分析了其優勢和局限性。該視角旨在為先進的自主航空機動性領域及其未來發展方向提供一個整體圖景。
圖 1 先進的自主空中機動性--從整體和跨學科的角度詳細介紹。
圖 3 空中移動的自主模塊框架
圖 3 顯示了擬議的自主模塊框架。四個主要模塊(傳感、感知、規劃和驅動)被進一步細分為多個子模塊,分別描述了底層傳感機制、數據處理模塊、數據流模式和機器人算法,這些模塊完成了各種子任務,使航空飛行器能夠在特定環境中進行導航。
傳感是指利用各種傳感器和傳感技術從環境中收集數據或信息的過程。傳感包括捕捉周圍環境的原始數據,如視覺圖像、距離測量、速度、高度和其他相關信息。在空中移動方面,傳感器對于了解飛行器周圍環境(即環境)和自身狀態(飛行器的動態、配置等)至關重要,可幫助飛行器收集實時數據。這些傳感器可包括攝像頭、LiDAR(光探測與測距)、雷達、GPS(全球定位系統)、IMU(慣性測量單元)等。
感知是繼傳感之后的更高層次的過程。它涉及對傳感器收集和預處理(在一定程度上)的數據進行解釋和理解。感知算法和系統將來自不同傳感流的數據結合起來并進行分析,以識別和辨認物體、障礙物、地形、地標以及環境中的其他相關特征。感知還包括估計這些物體的相對位置和速度,確定其對飛行安全和導航的重要性,并預測其未來的移動[45]。吸收有關車輛自身狀態的數據也是感知過程的一部分。從本質上講,感知使自主系統能夠了解其周圍環境、相對于周圍環境的相對位置和狀態,并在此基礎上做出明智的決策。下表簡要列出了各種狀態變量和參數,這些變量和參數被感知、測量并最終輸入感知模塊。
a) 路徑規劃
路徑規劃是指為飛行器(如無人機或其他無人飛行器)確定最佳路徑或軌跡的過程,使其在避開障礙物并遵守某些約束條件的情況下,從當前位置導航到特定目標或目的地。路徑規劃算法會考慮飛行器的動態、環境信息(障礙物、地形等)以及其他相關因素,以計算出最有效且無碰撞的路徑。路徑規劃的目標是找到一條可行且安全的軌跡,引導車輛從起點到達終點,同時優化時間、能耗或平穩性等標準。
b) 任務規劃
任務規劃則是一個更高層次的概念,涉及定義和組織自主系統為實現特定目標而需要完成的一系列任務或目標。它包括確定車輛或機器人為成功完成任務而應遵循的行動順序、航點和目標。任務規劃包含多個方面,包括單個環節的路徑規劃、任務分配、資源管理以及多個車輛或智能體之間的協調(如適用)。它要考慮任務的總體目標,優化資源和任務分配,以高效實現任務的最終目標。下圖 4 顯示了任務規劃所考慮的各種因素。因此,路徑規劃可視為任務規劃流程中的一個子模塊。
自主系統框架的第四個也是最后一個功能塊是執行。在空中自動控制的情況下,執行就是控制。在感知和理解環境后,飛行器需要進行相應的操作。這是通過控制算法實現的。這些算法根據動態感知的環境、車輛的空氣動力學和當時的氣象條件來決定車輛應如何移動。
圖 9 國家空域系統 (NAS) 運行與城市空中交通 (UTM) 運行的整合。傳統飛行器和 AAM 飛行器共享 ATM 和 UTM 管理的空域(見圖右側)。
圖 9 提供了 NAS 和 UTM 運行的綜合視圖,其中 A 類至 G 類飛行器使用各自的 VLOS 和 BVOLS 協議運行。
完全自主的航空系統(FAAS)將邊緣和云硬件與無人機和大量軟件支持結合起來,以創建自主系統。FAAS 通過對環境的實時感知和響應,在無人駕駛的情況下完成復雜的任務。FAAS 需要高度復雜的設計才能正常運行,包括機載、邊緣和云硬件和軟件層。FAAS 還需要復雜的軟件,用于控制無人機的底層操作、數據收集和管理、圖像處理、機器學習、任務規劃和高層決策,這些軟件必須在整個計算層次結構中有效集成,以實時實現自主目標。
即使是相對簡單的 FAAS,其復雜性也難以保證效率。然而,效率對 FAAS 的有效性至關重要。FAAS 在資源稀缺的環境中執行任務,如自然災害地區、農田和偏遠的基礎設施設施。這些地區的計算資源、網絡連接和電力都很有限。此外,無人機電池壽命短,飛行時間很少超過 30 分鐘。如果 FAAS 設計不合理,無人機可能會浪費寶貴的電池壽命來等待遠程計算資源的進一步指示,從而延誤或無法完成任務。因此,FAAS 設計人員必須謹慎選擇或設計邊緣硬件配置、機器學習模型、自主策略和部署模式。
FAAS 有能力徹底改變許多行業,但要提高其可用性和有效性,還有許多研究工作要做。在本論文中,我將概述自己為設計和實施高效、有效的 FAAS 所做的努力。本文將重點討論以下五個主題,包括 FAAS 的設計、實施和應用:
§1. 創建新的通用和特定領域的機器學習算法,并謹慎使用其他算法
§2. FAAS 層次結構中各級硬件的選擇
§3. 為自主策略、硬件設備、機器學習技術和部署特性的選擇和切換提供動力和環境意識信息。
§4. 在線學習能力可抵御有限的云訪問、網絡中斷和電力短缺。
§5. 全面的應用,展示 FAAS 的技術價值,推動采用,并確定未來的研究挑戰。
圖:FAAS 非常復雜。它們在遠程環境中運行,使用新穎的自主策略和機器學習算法,必須承受功率限制并利用創造性的網絡解決方案來實現其目標。
由于近年來無人駕駛飛行器技術的蓬勃發展,這些飛行器正被用于許多涉及復雜任務的領域。其中一些任務對車輛駕駛員來說具有很高的風險,例如火災監控和救援任務,這使得無人機成為避免人類風險的最佳選擇。無人飛行器的任務規劃是對飛行器的位置和行動(裝載/投放載荷、拍攝視頻/照片、獲取信息)進行規劃的過程,通常在一段時間內進行。這些飛行器由地面控制站(GCS)控制,人類操作員在地面控制站使用最基本的系統。本文介紹了一種新的多目標遺傳算法,用于解決涉及一組無人飛行器和一組地面控制站的復雜任務規劃問題(MPP)。我們設計了一種混合擬合函數,使用約束滿足問題(CSP)來檢查解決方案是否有效,并使用基于帕累托的方法來尋找最佳解決方案。該算法已在多個數據集上進行了測試,優化了任務的不同變量,如時間跨度、燃料消耗、距離等。實驗結果表明,新算法能夠獲得良好的解決方案,但隨著問題變得越來越復雜,最佳解決方案也變得越來越難找到。
在新興的蜂群技術領域,無人機系統條令作為一種規定性的設計要素,一直處于缺乏、潛伏或被忽視的狀態。本文討論了一種與蜂群無人機系統任務條令并行的設計蜂群無人機系統的綜合方法。該方法的結構源自基于模型的系統工程、機器人學、人類系統集成、生物學和計算機科學等學科的啟發式方法。該方法為設計和操作蜂群無人機系統提供了一種標準方法,力求滿足任何預定任務的性能和條令要求。
蜂群體系結構的設計應支持 "少而精"、廣泛分散、高度網絡化、脈沖式攻擊的條令。一般來說,蜂群系統主要采用三種總體指揮與控制(C2)架構:協調控制、集中控制或分級控制,以及分布式控制或分散控制(Dekker,2008 年)。在協調控制中,根據指定的瞬時因素(如位置、狀態、任務場景)選擇一個智能體作為臨時領導者。領導者從其他智能體接收傳感器數據,并廣播融合后的共同綜合畫面。如果領導者失效,則會選擇一個替代者繼續扮演這一角色。這種架構具有一定的魯棒性,但無法擴展到更大的智能體群或地理位置分散的智能體群,而且會給一個智能體帶來很大的處理負擔。集中式控制架構類似于傳統的軍事指揮與控制結構,在這種結構中,智能體按層級組織,詳細的戰術信息通過指揮鏈向上反饋。雖然這種分層設計簡化了數據流,但并不穩健,在處理需要智能體快速反應的動態場景時缺乏靈活性。對蜂群進行集中控制需要一個樞紐-輻條式通信架構,這種架構有幾個缺點:它限制了蜂群的自主行為,無法實現智能體之間的通信,而且在設計中會出現單點故障(Chung 等人,2013 年)。分布式架構的特點是沒有領導者;而是通過智能體之間的集體共識做出蜂群決策。這種架構具有穩健性和可擴展性,但要求通信網絡能夠支持可能增加的數據流量。與蜂群系統設計的其他要素一樣,C2 架構的混合體也可用于發揮各自的優勢。美國海軍的 "合作參與能力"(Cooperative Engagement Capability)防空作戰系統采用分布式架構來獲取態勢感知數據,并采用協調架構來選擇目標定位(Dekker,2008 年)。分散控制架構,包括基于市場(或拍賣)的方法,以及隱式衍生的單智能體解決方案,已在蜂群無人機系統中得到成功驗證(Chung 等人,2013 年)。由于這些原因,無線網狀通信網絡被認為是蜂群無人機系統通信架構的一種潛在的關鍵使能形式(Frew,2008 年)。
有限狀態機(FSM)(或有限狀態自動機)已被證明可有效模擬多車自主無人系統架構(Weiskopf 等人,2002 年)。在有限狀態自動機架構中,每個智能體在給定時間內都處于幾種定義狀態之一。智能體感知到的環境條件或遇到的事件會觸發觸發事件,導致智能體在不同狀態間轉換。這種類型的結構適用于開發軍事蜂群系統,因為狀態和觸發器可以確定性地定義(就像交通信號燈一樣),這對于目標攻擊等高風險任務事件是必要的。相反,在搜索等其他任務事件中,可能需要一定程度的不可預測性。在這種情況下,可以使用概率有限狀態機 (PFSM)(或概率有限狀態自動機),允許在一個狀態內有不同的行為,或在狀態之間提供多種轉換(Paranuk,2003 年)。
數字化采購是美國空軍(USAF)優化飛機生命周期管理的趨勢。數字化采購的一個理想結果是提供準確、高效的數字化工具,通過數字孿生系統降低維護成本,提高飛機的可用性。與現代飛機相比,傳統飛機(如 A10)在開發數字孿生系統方面面臨更多挑戰;然而,傳統飛機將進一步并立即從數字孿生系統功能中受益。
本研究將調查美國空軍 A-10 飛機結構完整性項目(ASIP)和系統項目辦公室(SPO)實施完整數字線程解決方案的路線,以便為機隊開發數字孿生系統。數字孿生由三個要素組成:設計和特性數據、實時運行和維護數據以及信息模型。此外,要使數字孿生取得成功,還必須有一個能夠通過數字線程整合這三個要素的信息建模系統。
在理想情況下,數字線程在飛機概念設計階段就已開始實施,并在整個產品生命周期中保持連續性。圖 3 是這種生命周期的理想化概念。圖 3 顯示,數字線程需要在產品生命周期的每一方之間建立數據通信連接。圖 3 還顯示,數字孿生屬于所有者,而不是制造商。數字孿生屬于所有者有幾個原因。最主要的原因是,數字孿生不僅能為所有者提供最佳服務,還能確保在制造商或供應商過時時,數字孿生能得到保存和維護。
當采用 SLEP 時,如 A-10 的情況,這種數字線程生命周期將繼續下去,從而增強整體預測性維護行動的能力。與將數字線程用于設計壽命維護計劃相比,將數字線程用于SLEP更有價值。然而,對于像 A-10 這樣的老式飛機來說,這種理想狀態是不可能實現的,因為飛機的設計、制造和運行都是在計算機尚未興起的時代。因此,有必要收集歷史文物,并盡可能從非數字資源中拼湊出一個數字框架。
現代空對空導彈依賴于通過數據鏈更新的目標位置和速度數據,直到其自身的尋的器能夠鎖定目標。數據鏈目標數據的質量取決于位置和速度更新的誤差、更新延遲和更新丟失。本文介紹了一個分析這些數據利用情況的模擬框架。該框架由描述目標、導彈和生成數據鏈目標更新的模型組成。文中介紹的多功能模擬實驗分析了數據鏈數據質量對不同空對空導彈性能的影響。性能的衡量標準是殺傷概率。模擬結果表明,在嘗試過渡到使用導彈的尋的器之前,最終更新的質量對性能的影響最大。除非很大比例的目標更新丟失或尋的器鎖定目標延遲,否則導彈通常可以在致命失誤距離內擊中目標。本文提出的框架適用于評估所有類型制導武器的性能。
飛機的作戰生存能力取決于對敵方探測和火力的控制。因此,現代空戰幾乎全部使用超視距導彈(BVR)。因此,現代空戰幾乎都使用超視距導彈(BVR)。要提高生存能力,就必須努力提高導彈的運動射程。設計人員試圖通過進一步開發導彈火箭發動機和采用空氣呼吸導彈發動機來實現這一改進。本文討論的現代空對空導彈(AAM)使用主動雷達或被動光電紅外尋的器。Stillion、Fleeman、Eichblatt、Norman 和 Watson 的著作中包括了這類導彈的實例。受可用空間和電力以及成本因素的限制,尋的器的探測距離仍然大大低于導彈的運動距離。因此,在目標進入尋的器的探測范圍之前,需要持續的外部目標數據為導彈提供支持。
由目標位置和速度更新組成的數據通過數據鏈路發送。目標數據可能來自單個傳感器,也可能來自多個空基、地基或空基傳感器,它們相互補充測量結果。使用獨立的傳感器平臺可使發射平臺在發射導彈后離開交戰區。主要傳感器是雷達和紅外搜索與跟蹤系統(IRST)。一旦射手確定了目標軌跡,就可以從自身或導彈傳感器的探測范圍和萬向限制之外發射導彈。在導彈飛行過程中,網絡成員可重新瞄準導彈或中止交戰。圖 1 是空戰場景的一個簡化示例。
圖 1. 使用數據支持導彈的現代 BVR 空戰。
在圖 1 中,地基和空基傳感器平臺提供的目標數據在網絡中融合,然后通過數據鏈路發送給包括導彈在內的網絡成員。現代網絡結構中存在各種類型的平臺,網絡中可以包含更多數量的傳感器。不過,就本文而言,平臺數量最多限于四架飛機。導彈的飛行分為三個階段:發射、中段和末段。在發射階段,導彈脫離發射平臺、加速并利用彈道整形獲得勢能。在中段階段,導彈利用數據鏈更新(DLU)和機載導航系統向目標引導。這些更新本身包含誤差和延遲。射程、角度及其速率的測量精度各不相同。由于大射程、數據鏈天線模式和電磁頻譜操作的影響,導彈不可能接收到所有 DLU。一旦目標進入尋的器的探測范圍和萬向節限制之內,導彈就開始捕獲目標。DLU 的估計精度和導彈導航系統與 DLU 的延遲確定了不確定度量,導彈據此搜索目標。導彈利用不確定度量來確保獲取預定目標。對位置和速度同時使用不確定度量,可使導彈嘗試對位置接近但速度不同的目標進行分類。參與測量目標和網絡跟蹤目標數據融合的傳感器的類型、數量和位置會影響體積的形狀和大小。一旦尋的器鎖定目標并似乎能提供可靠的數據,導彈就會進入終端階段并停止使用 DLU。數據鏈目標數據的質量取決于位置和速度更新的誤差、更新延遲和更新丟失。
網絡中心戰和導彈的發展增加了數據鏈的使用。因此,必須研究如何利用數據鏈目標數據來制定空戰戰術、技術和程序(TTPs)。本文介紹了為這些研究開發的導彈數據鏈分析(MisDA)模擬框架。特別是,本文將集中分析數據鏈數據的質量因素對反坦克導彈性能的影響。這里,性能的衡量標準是殺傷概率 PK,即導彈是否能進入目標的致命失誤距離內。這個 PK 不能高于探測概率 PD,后者描述了導彈鎖定目標的能力。本文的模擬實驗結果包括 PD 和 PK,以便更精確地分析數據鏈目標數據的質量。目標數據融合的確切貢獻不在本文討論范圍之內,本文框架僅使用了一個簡單的目標數據融合模型。
關于導彈自動駕駛儀和制導法的分析與開發以及飛機對導彈的規避機動,已經發表了大量論文。然而,這些論文并未考慮使用數據鏈目標數據。此外,還研究了數據鏈導彈的最佳支持時間以及小組在空戰中對 DLU 的最佳使用。這些研究并未涉及數據鏈數據的質量問題。一項研究使用了一種輔助方法來分析導彈向終端階段的過渡。另一項研究側重于開發雷達尋的器模型,使用了數據鏈數據的隨機位置誤差和丟失的 DLU 的隨機貢獻。在上述所有研究中,導彈模型都對空氣動力學、尋的器和推進器進行了簡化。上文討論的一些研究只使用了導彈模型的三個平移自由度(3-DOF)。沒有考慮提供目標數據的傳感器的精度或不確定性量。高保真導彈模型已被用于空戰 TTPs 分析、空勤人員培訓以及武器系統的性能分析和比較。然而,目前還沒有關于使用這類模型分析數據鏈目標數據的使用情況或其質量影響的出版物。
本文有兩方面的貢獻。首先,新的仿真框架--MisDA--包含了本研究中開發的傳感器平臺、數據鏈和目標捕獲模型。像 MisDA 這樣的綜合仿真框架,能夠對現代空戰中數據鏈的使用進行透明、可控的分析,這在非保密文獻中還沒有出現過。第二個貢獻是通過多功能模擬實驗證明了 MisDA 的用途,其中分析了數據鏈目標數據的質量因素對反坦克導彈性能的影響。此外,這些實驗還包括研究使用雷達和 EO 傳感器的策略如何影響質量因素。這些戰術包括傳感器的數量和位置以及雷達傳感器的模式等。此外,本文還說明了不同類型導彈對質量因素與導彈性能之間相互聯系的影響。此類分析尚未在非保密文獻中發表過。
本文結構如下。第 2 部分介紹了 MisDA 及其模型。第 3 節介紹了仿真實驗,第 4 節討論了實驗結果。第 5 節為結束語。
MisDA 由描述導彈、目標、發射平臺(LP)、傳感器平臺(SP)、DLU 生成和目標捕獲的模型組成。MisDA 的結構如圖 2 所示。本文描述的模型以灰色標出,之前介紹的模型以白色標出。
圖 2. MisDA 模擬框架及其模型。
發射場景是指交戰的幾何形狀和參與行動者的飛行條件。它由 LP、SP 和目標的軌跡定義。軌跡指的是位置 p(t) 和速度 v(t) 的時間 t 歷史記錄。3-DOF 軌跡子模型根據用戶給 MisDA 的輸入,通過組合直線和水平飛行、爬升和下降、協調轉彎、上拉和編織機動等片段來生成這些軌跡。模型和子模型將在以下段落中介紹。MisDA 由 Matlab 實現,可在確定性或隨機模式下使用。
這項工作旨在利用無線音頻傳感器網絡為無人駕駛航空器系統(UAS)提出一種探測、識別和跟蹤解決方案。根據適用于無人機系統的技術趨勢(更小、更便宜、更合作),我們提出了一種采用與 "攻擊者 "相同技術方法的分布式監控解決方案。特別是,由于無人機會引起周圍聲學環境的變化,我們研究了音頻傳感器網絡的使用。更確切地說,我們采用了一種三階段算法來檢測監控環境中音頻能量的存在,識別特定的音頻特征,然后與多節點方法合作跟蹤無人機。通過實驗獲取的音頻信號,我們展示了所提方法的初步性能。我們還討論了改進實際實施的未來工作。
微型和小型無人機(1 千歐元及以下)成本低,易于采購,使恐怖分子使用這種技術的障礙降至零。此外,開放源碼技術通常用于設計無人機系統的某些組件,這就為設計專用有效載荷的人填補了一個很小的知識空白。如此易于采購和個性化的飛行平臺最終可以接近合理的目標。根據這一趨勢,協調無人機中隊很快就會成為任何人都可以利用的資源。應對這種威脅的措施不可能是集中式的。目前,我們看到的非對稱解決方案適用于前沿作戰基地或安裝了大型無人機探測器的沙漠場景。然而,這種威脅在城市場景中可能無處不在,因此建議采用對稱的對策,即分布式、小型和廉價的對策。
特別是近年來無線傳感器網絡的不斷發展,以及節點的小型化和低成本化,可以為城市環境或復雜場景提供最合適的解決方案,因為在城市環境或復雜場景中,可能會有平民存在,而固定的軍事設施可能并不合適。
如圖 2-1 所示,這項工作將以大量廉價音頻傳感器為參考場景,每個傳感器都能夠識別無人機的音頻特征,并在發現匹配時,通過與其他節點協作定位惡意來源。研究的重點是在空曠場地場景中,利用音頻陣列檢測、識別和跟蹤單架無人機或小型無人機群,即可與單個大型單元同化。
由于所提方法的目標具有三重性(即檢測、識別和跟蹤惡意無人機),因此我們的方法采用了三層算法疊加的方式。圖 3-1 給出了所追求的研究方法的總體描述。我們依靠獲取音頻信號來準確描述無人機系統的存在。第一層用于檢測無人機系統的存在。在這一階段,音頻傳感器從環境中采集少量樣本,例如每秒一次,以揭示從環境中感知到的音頻能量異常。
當這一層檢測到匹配時,第二層就會在短時間內(如約 240 毫秒[3])通過連續采樣進行識別。識別階段的目標是區分異常聲音是否與飛越音頻傳感器網絡的無人機有關,并最終確定其類型。我們將研究兩種主要方法:一些作者在 [1] 中提出的方法和循環神經網絡 (RNN) [6]。第二識別層中的正匹配將啟用第三階段的跟蹤算法。在這一階段,發出警報的節點(在識別階段匹配成功的節點)會喚醒鄰居節點,以執行波束形成跟蹤。這是耗電量最大的階段,因為需要維護音頻傳感器網絡與其遠程控制中心之間的通信鏈路,以及音頻傳感器的連續采樣階段。
所采用的分層策略應能優化計算能力和電池需求。事實上,始終處于活動狀態的第一層執行的是低復雜度、低消耗的數學計算。另一方面,只有在出現異常音頻時,才會執行更強大的計算,即細粒度簽名識別和音頻跟蹤。
美國軍方正在開發大型無人駕駛飛行器蜂群,這將降低飛行員的風險,并提高應對同行對手時的靈活性。本研究對空軍特種司令部目前在確定無人飛行器的預期成功率時所考慮的戰略進行了評估,這些戰略受距離、預算和特定場景假設的限制。我們將任務成功率定義為在一個 10×10 公里的模擬搜索區域內,飛行器蜂群發現并跟蹤指定目標的比例。通過模擬,我們發現根據預算和目標探測情況,Altius-900、Dominator 和 Voly 的任務成功率最高。我們的研究結果為無人機的未來應用提供了支持,并讓我們更深入地了解了哪些屬性對空軍特種作戰司令部的任務成功最為重要。
圖 1. AFSOC A2E 簡報(左)和未來戰斗(右)所定義的現狀(AFSOC,2022 年)
如表 1 所示,空軍目前部署的第 4 和第 5 組無人機(UAV)是重量超過 1320 千克的無人機,由地面控制站通過衛星通信進行控制。未來的目標是讓地面控制人員掌握從我們的研究中獲得的最新見解,使他們能夠提高無人機群的性能。這一新能力將使我們的戰斗減少對衛星的依賴,最大限度地降低人為風險,從而形成一支更靈活、更有效的部隊。空軍部長查爾斯-布朗(Charles Q. Brown)將軍在其 "加速變革或失敗 "的指令中指出:"我們必須專注于聯合作戰概念,通過聯合全域指揮與控制,快速推進數字化、低成本、高科技的作戰能力",這說明了技術先進的軍隊的必要性(布朗,2022 年)。目前,空軍特種作戰司令部(AFSOC)的發展工作正處于基礎階段,使用 "警戒精神"(VS),這是一種多功能控制站能力,提供軟件、模擬和自主性,旨在任務和控制多個無人系統。截至 2023 年,AFSOC 的大型無人機由一名飛行員和一名傳感器操作員控制,但未來的目標是從能夠自主運行的大型無人機中部署小型無人機。此外,如圖1所示,美國戰地指揮和控制中心只在有爭議或被封鎖的空域部署小型無人機,以盡量減少開支和人員傷亡。
圖 1 左側圖片展示了美國海軍陸戰隊目前和未來的新一代自適應機載企業(A2E)。目前,無人機由不同的地面站和不同的機組人員操作和控制。然而,未來的 A2E 將有一個多功能控制站,偏離 1:1 的控制方式,以便在有爭議的空間獲得競爭優勢。右圖顯示了美國海軍陸戰隊從 2024 年開始采用殺傷鏈方法增強作戰能力的計劃。任務分為允許區域、有爭議區域和拒絕區域。允許區域包括第 4 或第 5 組無人機的通信組件和部署地點。在有爭議地區,第 1 或第 2 組無人機跟蹤、瞄準和打擊被拒空間的敵軍。要想取得成功,美國海軍陸戰隊需要知道哪些小型無人機能夠成功完成任務,以及部署后應該如何行動。本研究探討了部署策略、使用哪種無人機以及哪種配置最有效。我們重點利用美國空軍司令部和 MITRE 提供的理論來指導我們的研究。
對使用無人駕駛飛行器(UAV),即無人機,在不同的應用中,如包裹遞送、交通監測、搜索和救援行動以及軍事戰斗交戰,有越來越多的需求。在所有這些應用中,無人機被用來自主導航環境--沒有人的互動,執行特定的任務和避免障礙。自主的無人機導航通常是通過強化學習(RL)完成的,智能體作為一個領域的專家,在避開障礙物的同時導航環境。了解導航環境和算法限制在選擇適當的RL算法以有效解決導航問題中起著至關重要的作用。因此,本研究首先確定了主要的無人機導航任務并討論了導航框架和仿真軟件。接下來,根據環境、算法特點、能力和在不同無人機導航問題中的應用,對RL算法進行了分類和討論,這將有助于從業人員和研究人員為他們的無人機導航用例選擇合適的RL算法。此外,確定的差距和機會將推動無人機導航研究。
自主系統(AS)是能夠在沒有人類干擾的情況下執行所需任務的系統,如機器人在沒有人類參與的情況下執行任務、自動駕駛汽車和無人機送貨。自主系統正在侵入不同的領域,以使操作更加有效,并減少人為因素產生的成本和風險。
無人駕駛航空器(UAV)是一種沒有人類飛行員的飛機,主要被稱為無人機。自主無人機由于其多樣化的應用而受到越來越多的關注,如向客戶交付包裹、應對交通事故以滿足傷員的醫療需求、追蹤軍事目標、協助搜索和救援行動,以及許多其他應用。
通常情況下,無人機配備有攝像頭和其他傳感器,可以收集周圍環境的信息,使無人機能夠自主地導航該環境。無人機導航訓練通常是在虛擬的三維環境中進行的,因為無人機的計算資源和電源有限,而且由于墜毀而更換無人機部件可能很昂貴。
不同的強化學習(RL)算法被用來訓練無人機自主導航的環境。強化學習可以解決各種問題,在這些問題中,代理人就像該領域的人類專家一樣。代理人通過處理環境的狀態與環境互動,用行動作出回應,并獲得獎勵。無人機相機和傳感器從環境中捕捉信息,用于表示狀態。代理人處理捕捉到的狀態并輸出一個行動,決定無人機的運動方向或控制螺旋槳的推力,如圖1所示。
圖1:使用深度強化智能體的無人機訓練
研究界對不同的無人機導航問題進行了回顧,如視覺無人機導航[1, 2]、無人機植群[3]和路徑規劃[4]。然而,據作者所知,目前還沒有與RL在無人機導航中的應用有關的調查。因此,本文旨在對各種RL算法在不同無人機自主導航問題上的應用進行全面系統的回顧。這項調查有以下貢獻:
本文的其余部分組織如下: 第2節介紹了系統回顧過程,第3節介紹了RL,第4節全面回顧了各種RL算法和技術在無人機自主導航中的應用,第5節討論了無人機導航框架和仿真軟件,第6節對RL算法進行分類并討論了最突出的算法,第7節解釋了RL算法的選擇過程,第8節指出了挑戰和研究機會。最后,第9節對本文進行了總結。
本報告總結了迄今為止在路線偵察領域的本體開發的進展,重點是空間抽象。我們的重點是一個簡單的機器人,一個能夠感知并在其環境中導航的自主系統。該機器人的任務是路線偵察:通過觀察和推理,獲得有關條件、障礙物、關鍵地形特征和指定路線上的敵人的必要信息。路線偵察通常是由一個排的騎兵和非騎兵進行的。這項研究探討了機器人執行部分或全部必要任務的合理性,包括與指揮官進行溝通。
這是一項具有挑戰性的對抗性任務,即地形穿越加上信息收集和解釋。偵察的解釋方面需要考慮語義學--確定相關的信息和確定它如何相關(即有意義)。語義信息在本質上是定性的:例如,危險是一個定性的概念。為了將危險與某些特定的區域聯系起來,我們需要一種方法來指代該區域。這意味著至少能夠給空間的某些部分附上定性的標簽。
Kuipers在他的空間語義層次的早期工作中指出了空間的定性表示對機器人探索的重要性。例如,層次結構的拓撲層次包含了 "地方、路徑和區域的本體",歸納產生了對較低層次的因果模式的解釋。
最近,Izmirlioglu和Erdem為定性空間概念在機器人技術中的應用提供了以下理由:
對于負責路線偵察的無人地面車輛(UGV)來說,其架構中的不同模塊將消費和產生語義信息:負責語義感知和目標識別、計劃和執行、自然語言對話等的模塊,加上主要負責維護信息的語義世界模型。例如,在美國陸軍作戰能力發展司令部陸軍研究實驗室的自主架構中,語義/符號世界模型被用來 "實現符號目標(例如,去接近一個特定的物體)",*其中接近是一個語義概念。
一個關鍵問題是如何在世界模型和其他模塊之間分配維護和處理不同類型語義信息的責任。從語義世界模型的角度來看,這取決于有多少符號推理是合適的。例如,假設要接近的物體位于一個給定區域的某個位置,而不是靠近該區域的外部邊界。一旦機器人靠近物體,就可以推斷出機器人在物體的位置附近,而且也在同一區域內。如果有公制信息,就可以用幾何例程得出這個結論。在沒有公制信息的情況下,是否會出現在純粹的定性空間中推斷有用的情況?
本報告不涉及這個問題。我們的目標是確定什么應該被代表,而把如何代表和在哪里代表留給未來的工作。
以下片段取自FM7-92中對路線偵察的描述。空間表達是彩色的,周圍有一些文字作為背景。
路線偵察的結果是一份報告,以圖表的形式,并附有文字說明。FM7-92給出了一個例子,我們可以從中提取一些更必要的概念:
讓我們把這段關于路線偵察的描述中提到的概念建立一個綜合清單,重點放在空間概念上,并盡可能地保留軍事術語:
1)必須指定環境中的位置、路線、區域和感興趣的物體。稱這些為 "實體"。
2)這些實體之間的空間關系是相關的(例如,一個地點在另一個地點的北邊)。值得注意的是,不同類型的實體之間的關系是被指定的。
a. 物體(例如,障礙物)在位置或區域。
b. 一些地點在空間上與路線有關(例如,沿著路線,毗鄰,或靠近道路)。
c. 地點可能代表更大的區域(例如,雷區的位置)。
d. 道路和小徑可以與路線相關:它們可能相交、重疊(部分疊加),或平行運行。
a. 一些地點相對于其他地點或區域有方向性的定位(例如,一個防御性的位置)。
b. 有些區域是由其與另一個區域或地點的關系來定義的,這可能不是一種局部的關系(例如,觀察和火力場是由一個潛在的遠程位置來定義的,該位置有一條通往路線上的一個區域的線路)。
4)路線可能被障礙物阻擋,障礙物可能是明確的物體或更大的區域(例如,一個障礙物與一個雷區)。
6)有時,描述物理基礎設施(如道路、橋梁)及其屬性是很重要的。
路線偵查收集和解釋不同種類和不同來源的信息:
背景知識。這包括關于環境特征的類型和預期成為任務一部分的物體的信息,包括道路、障礙物、溝壑、橋梁等等。
任務規范。確定偵查的區域和路線,以及當時可獲得的任何信息。
環境。通過空間分析(包括幾何學、拓撲學等)、感知、地圖衛星數據的離線圖像處理和其他類型的分析,確定環境的相關特征。
任務執行期間的通信。我們假設指揮官或人類操作員在偵察過程中可以向UGV提出詢問或命令,提供新信息或集中注意力。
如前所述,一份報告。
原則上,所有這些信息都以某種抽象的形式組合在一個語義世界模型中。我們把環境的物理屬性和特征稱為 "實體"。把我們用來表示這些實體和它們之間關系的抽象概念稱為 "概念"。
不同類型的實體的概念。層次結構在語義表征中很常見,用來捕捉關于世界上遇到的實體類型的一般知識。一個類型就是一個概念,類型被組織在一個層次中:MRZR是一種輕型的、戰術性的、全地形的車輛,它是一種輪式地面車輛,它是一種地面車輛的類型,等等。屬性和關系可以與一個給定的概念相關聯,而下級概念則繼承這些屬性。在路線偵察中,如果有信息說某一地區有一條道路,但沒有更多的細節,仍然可以從道路的概念中推斷出它的預期屬性:它比它的寬度長得多;它在人們感興趣的地點之間通向;在其他條件相同的情況下,它可能比周圍的地形行駛得快。從實用的角度來看,這意味著如果有可能將某物歸類為一個已知的概念,那么語義世界模型就不需要記錄關于該物的每一條相關信息。
用于實體的目的和用途的概念。一個代表道路典型用途的概念可以進一步區分其長度和寬度的語義,這反過來又導致了跨越和沿途、穿越和跟隨等概念之間的區別。這將使UGV能夠以不同的方式對待 "偵察道路對面的區域 "和 "偵察前方的道路 "的命令。前方的道路也是一個語義概念:它取決于對過去去過的地方的了解。
代表部分信息的概念。有時可能會有定性的信息。想象一下,任務規范的一部分是關于雷區在計劃路線上存在的信息,但不知道具體位置,或者知道雷區的位置,但不知道其范圍。這種無知可以很容易地在代表實體的概念中得到體現。
新概念適用于新環境。另一個交流的例子可能是信息性的。想象一下,當一輛UGV穿越一條東西走向的道路時,它與遠程指揮官進行交流,指揮官問道:"道路北側是什么?"* 需要識別的物體可能不在道路和地形的邊界上(與 "建筑物的一側 "形成對比),而是在以道路邊緣為界的某個感興趣的區域內,距離UGV的位置向北不遠,向東和向西也有一些距離。這個區域可能沒有事先作為一個概念被劃定;相反,它是在當前的背景下構建或推斷出來的。這是一個有趣的例子,一個概念不是從公制數據中抽象出來的,而是被強加在公制數據上的。
背景中的概念的適應和組合。想象一下,對一張地圖的分析產生了對代表區域、道路等等的概念的分解。這些概念可能直接適用于某些目的。例如,與道路相聯系的概念在推理兩點之間的導航時是有用的。然而,在其他情況下,這些概念可能需要調整或與其他概念相結合。例如,如果一條道路被指定為 "危險區域",那么這個區域的概念可能會超出道路的邊界,延伸到周圍的地形。
太空一直是一個需要高度自主的領域。所需的自主性帶來的挑戰使其難以在短時間內完成復雜的任務和操作。隨著越來越多地使用多Agent系統來增強空中領域的傳統能力和展示新能力,在軌道上和近距離多Agent操作的發展需求從未如此強烈。本文提出了一個分布式的、合作的多Agent優化控制框架,為在近距離操作環境中執行多Agent任務相關的分配和控制問題提供解決方案。然而,所開發的框架可以應用于各種領域,如空中、太空和海上。所提出的解決方案利用第二價格拍賣分配算法來優化每個衛星的任務,同時實施模型預測控制來優化控制Agent,同時遵守安全和任務約束。該解決方案與直接正交配位法進行了比較,并包括了對調整參數的研究。結果表明,所提出的技術允許用戶用模型預測控制來優化超越相位的控制,并以三個調諧參數實現編隊交會。與傳統的多相MPC相比,這更好地接近了配位技術中的相變。