無人機(UAVs)在軍事和民用領域發揮著至關重要的作用。本論文的研究有助于智能控制系統(ICS)領域,特別是實現旋轉翼無人飛行器(RUAV)可靠、便捷的自主控制。特別是,本論文解決了如何適應未建模動態和干擾(如在空中改變有效載荷)的難題。
無人機可以攜帶額外的重量,如傳感器、貨物,甚至被稱為有效載荷的懸掛物。已經開發了許多策略來穩定不斷變化的有效載荷,但這些策略都假定有效載荷是剛性的,重心(CoG)是靜態和已知的。有效載荷質量及其類型在飛行過程中的變化會極大地影響無人機的動態性能,這就要求控制器進行調整,以保持令人滿意的閉環性能。此外,還沒有探索過在半空中從一架較大的飛機(如氣象氣球)上發射一組具有隨機姿態的送貨無人機的情況。最后,未建模的動力學和陣風等不確定因素給飛行操作帶來了挑戰,因此綜合控制系統對于處理這些不確定因素至關重要,但對非基于模型的綜合控制系統的設計和開發關注不夠。
受這些研究空白的啟發,本論文探討了如何處理有效載荷在空中的 CoG 變化和姿態獨立發射的控制問題。為解決這些問題并實現理想的軌跡跟蹤控制,本文提出了一種新型非基于模型的綜合控制系統,稱為雙向模糊腦情感學習(BFBEL)控制系統。所提出的控制系統融合了模糊推理、神經網絡和基于強化學習的新型雙向腦情感學習(BBEL)算法。所提出的 BFBEL 控制器能夠從零開始快速適應,可用于控制 RUAV 的所有六自由度 (6DOF)。為擴大擬議控制器的適用性,開發了單輸入-單輸出(SISO)和多輸入-多輸出(MIMO)架構。本研究考慮的兩種無人駕駛飛行器模型是四旋翼無人駕駛飛行器(QUAV)和直升機無人駕駛飛行器(HUAV)。SISO 版本的 BFBEL 控制系統被應用于 QUAV,以解決處理 CoG 和重量不同的外部有效載荷的問題。BFBEL 控制系統的 MIMO 版本應用于 HUAV,以解決在空中獨立發射姿勢的問題。對這兩種系統都進行了模擬評估,并通過實驗驗證了如何處理 CoG 不確定的外部有效載荷問題。最后,在相同的控制情況下,將飛行能力和控制性能與傳統的比例積分微分(PID)控制器方案進行了比較。
本文探討了自主無人機系統(UAS)的制導和控制。具體而言,研究了基于模型參考自適應控制(MRAC)的尾翼無人機系統,以及用于戰術機動和覆蓋的多旋翼無人機系統的制導和控制。調查了當前和潛在的應用,并找出了現有技術的差距。
為了解決四旋翼無人機這一特殊類別的尾翼無人機系統的控制問題,研究人員開發了兩種方法,以解決建模不確定性、未建模有效載荷、陣風以及執行器故障和失靈等問題。在第一種方法中,尾翼無人機系統的縱向動力學采用 MRAC 法進行調節,以在新穎的控制架構中實現規定性能和輸出跟蹤。用于規定性能和輸出跟蹤的 MRAC 法則結合了線性二次調節器 (LQR) 基線控制器,使用積分反饋互連。利用障礙 Lyapunov 函數對軌跡跟蹤誤差進行約束,并通過采用軌跡跟蹤誤差瞬態動態參考模型來保證用戶定義的軌跡跟蹤誤差收斂速率。在該控制系統中,平移和旋轉動力學分別分為外環和內環,以考慮到四旋翼雙翼飛行器的動力不足問題。在外環中,氣動力的估計值和 MRAC 法則用于穩定平移動力學。此外 此外,還推導出參考俯仰角,使飛行器的總推力永遠不會指向地球,以確保安全,并避免通常用于確定方向的帶符號反正切函數固有的不連續性。在內環中,氣動力矩的估計值和 MRAC 法則用于穩定旋轉動力學。此外,還提出了一種用于確定所需總推力的法則,該法則可確保如果飛行器的方位與所需方位足夠接近,則會施加適當的推力。還提出了一種控制分配方案,以確保始終實現所需的推力力矩,并滿足對執行器產生的推力的非負約束。仿真驗證了針對規定性能和輸出信號跟蹤采用 MRAC 的控制架構,并將規定性能 MRAC 法與經典 MRAC 法進行了比較。
在第二種方法中,提出了一種基于 MRAC 的統一控制架構,該架構沒有將縱向和橫向動力學分開。平移和旋轉動力學分別被分離為外環和內環,以解決尾翼無人機系統的動力不足問題。由于預計飛行器會發生較大的旋轉,因此使用無奇異性的四元數來捕捉尾翼的方向。此外,還通過使用障壁 Lyapunov 函數來解決卷揚現象,以確保跟蹤誤差四元數的第一個分量為正,從而按照最短的旋轉將飛行器的當前方位驅動到參考方位。在外環中,利用對空氣動力的估計和 MRAC 法則確定所需的推力。參考方位是根據正交普羅克斯特問題的解確定的,該問題可找到從當前推力方位到所需推力方位的最小旋轉。由于正交普羅克里斯特問題的不連續性質,角速度和加速度無法通過對正交普羅克里斯特問題解的時間導數來推導。奇異值分解的不連續性。因此,我們使用兩次連續可微分函數--球面線性插值,來尋找連接捕捉車輛當前方位的單元四元數和捕捉參考方位的單元四元數的大地線。一個有趣的結果是,角速度和加速度只取決于參數化球面線性插值函數的標量值函數的一階導數和二階導數;實際函數并不重要。然而,確定該函數的形狀并非易事,因此采用了受模型預測控制啟發的方法。在內環中,使用氣動力矩估計值和 MRAC 法來穩定旋轉動力學,并將推力分配給各個螺旋槳。建議的控制方案的有效性通過仿真得到了驗證。
提出了一種用于自主無人機系統的集成制導和控制系統,可在未知、動態和潛在的敵對環境中,按照用戶規定的不計后果或戰術方式進行機動。在該制導和控制系統中,戰術操縱是通過在飛行器接近目標時利用環境中的障礙物來實現的。不計后果的機動是通過在向目標前進時忽略附近障礙物的存在,同時保持不發生碰撞來實現的。魯莽行為和戰術行為的劃分受到生物啟發,因為動物或地面部隊都會使用這些戰術。制導系統融合了路徑規劃器、避免碰撞算法、基于視覺的導航系統和軌跡規劃器。路徑規劃器以 A? 搜索算法為基礎,并提出了可定制調整的 "到達成本"(cost-to-come)和啟發式函數,通過降低底層圖中捕獲靠近障礙物集的節點的邊的權重,利用障礙物集進行躲避。啟發式的一致性已經確定,因此,搜索算法將返回最優解,而不會多次擴展節點。在現實場景中,需要快速重新規劃,以確保系統實現所需的行為,并且不會與障礙物發生碰撞。軌跡規劃器基于快速模型預測控制(fMPC),因此可以實時執行。此外,還采用了一個自定義的可調成本函數,該函數權衡了與障礙物集的接近程度和與目標的接近程度的重要性,為實現戰術行為提供了另一種機制。新穎的避免碰撞算法是基于解決一類特殊的半有限編程問題,即二次辨別問題。避撞算法通過尋找將無人機系統與障礙物集分隔開來的橢球體,生成無人機系統附近自由空間的凸集。凸集在 fMPC 框架中用作不等式約束。避撞算法的計算負擔是根據經驗確定的,并證明比文獻中的兩種類似算法更快。上述模塊被集成到一個單一的制導系統中,該系統為任意控制系統提供參考軌跡,并在多次模擬和飛行測試中展示了所提方法的有效性。此外,還提出了飛行行為分類法,以了解可調參數如何影響最終軌跡的魯莽性或隱蔽性。
最后,介紹了用于自主無人機系統的綜合制導和控制系統,該系統可在未知、動態和潛在敵對環境中,按照用戶的要求,以不計后果或戰術的方式執行戰術覆蓋。覆蓋的制導問題涉及收集環境信息的策略和路線規劃。收集未知環境信息的目的是幫助服務組織和第一反應人員了解態勢和制定計劃。為解決這一問題,需要綜合考慮目標選擇、路徑規劃、避免碰撞和軌跡規劃。我們提出了一種基于八叉樹數據結構的新型目標選擇算法,用于為路徑規劃器自主確定目標點。在該算法中,由導航系統推導出的體素地圖捕捉了環境中各區域的占用和探索狀態,并被分割成捕捉大面積未探索區域和大面積已探索區域的分區。大面積未探索區域被用作候選目標點。目標點的可行性通過采用貪婪 A? 技術來確定。該算法擁有可調參數,允許用戶在確定目標點序列時指定貪婪或系統行為。這種技術的計算負擔是根據經驗確定的,并證明可在現實場景中實時使用。路徑規劃器基于終身規劃 A?(LP A?)搜索算法,與 A?技術相比,該算法更具優勢。此外,還提出了一種可自定義調整的成本-歸宿和啟發式函數,以實現戰術或魯莽的路徑規劃。提出了一種新的避免碰撞算法,作為上述避免碰撞算法的改進版本,改進了所產生的約束集的體積,從而使更多的自由空間被凸集捕獲,因此,軌跡規劃者可以利用更多的環境進行戰術機動。該算法基于半定量編程和快速近似凸殼算法。軌跡規劃器以 fMPC 為基礎,采用自定義成本函數,通過滑行障礙物表面實現戰術機動,并將所需加速度作為與掩體距離的函數進行調節;采用障礙函數約束飛行器的姿態并確保推力正向性;采用四旋翼無人機系統的輸出反饋線性化運動方程作為微分約束,以實現積極的機動。利用定制的 C++ 模擬器驗證了所提系統的功效。
本論文將探討在海洋環境中運行的自主無人機系統在制導和控制算法方面存在的一些不足。
如今,許多機器人系統都是遠程操作的,需要不間斷的連接和安全的任務規劃。這類系統常見于軍用無人機、搜救行動、采礦機器人、農業和環境監測等領域。不同的機器人系統可能采用不同的通信方式,如無線電網絡、可見光通信、衛星、紅外線、Wi-Fi 等。然而,在機器人需要相互連接的自主任務中,由于信號超出范圍或不可用,經常會出現通信受限的環境。此外,一些自動化項目(建筑施工、裝配線)無法保證不間斷的通信,因此需要一個安全的項目計劃,以優化碰撞風險、成本和工期。在本論文中,我們提出了四管齊下的方法來緩解上述問題: 1) 通信感知世界地圖;2) 使用視線(LoS)進行通信保護;3) 通信感知安全規劃;以及 4) 用于導航的多目標運動規劃。
首先,重點開發了一種通信感知世界地圖,它將傳統的世界模型與多機器人位置規劃相結合。我們提出的通信地圖可選擇一連串中間中繼車輛的最佳位置,以便最大限度地提高與遠程單元的通信質量。我們還提出了一種算法,當有多個遠程單元需要服務時,可以建立一棵最小阿伯累樹(min-Arborescence tree)。 其次,在通信被剝奪的環境中,我們利用視線(LoS)在移動機器人之間建立通信,控制它們的移動并向其他自主單元轉發信息。我們提出并研究了多機器人中繼網絡定位問題的復雜性,并提出了近似算法,通過重新定位一個或多個機器人來恢復基于可見度的連接。
第三,開發了一個框架,用于量化全自動機器人任務的安全得分,在這種任務中,人與機器人的共存可能會帶來碰撞風險。我們使用運動規劃算法分析了一系列備用任務計劃,以選擇最安全的計劃。
最后,為機器人開發了一種基于多目標優化的高效路徑規劃,以處理若干帕累托最優成本屬性。
圖 2.1:(a) 由三個機器人組成的鏈,它們將操作員的通信轉發給遠程單元;(b) 包含三個中繼器的最小生成樹,優化了操作員與三個單元之間的通信。
近幾十年來,學術界對無人駕駛飛行器(UAV)的關注明顯激增。先進的無人飛行器能夠執行復雜的飛行動作、在復雜的空間內飛行,并在不斷變化的環境中執行復雜的任務,因此其發展備受關注。這些環境包括采礦、城市搜索與救援 (USAR)、軍事行動等部門,以及包括維護和修理地下基礎設施在內的一系列工業應用。進入密閉空間并在其中作業的迫切需求已成為迫使研究人員推進無人機技術的驅動力。這些進步旨在克服與在受限環境中工作相關的復雜性,解決無人機當前的局限性,同時提高其整體性能能力。
在本論文中,介紹了一套相互關聯的工具,旨在使無人飛行器能夠在受限空間內自主規劃飛行動作。為實現這一目標,本文提出了一種改進的 "教學-重復-再規劃"(I-TRP)迭代策略。該解決方案是一種離線-在線混合方法,包括三個階段戰略中的四個主要模塊。根據手工繪制的路徑(教學階段)和感知到的環境幾何特征,開發了具有新穎占用檢查特性的先進 3D 飛行走廊。此外,結合生成的飛行走廊,還開發了一種通用全局路徑規劃算法 Field D* 的增強版,以通過離線流程(重復階段)制定出近乎最優和平滑的拓撲等效路徑。最后,通過順序凸優化過程(重新規劃階段),制定出具有在線碰撞檢查和避障功能的局部規劃算法。利用無人飛行器機載傳感器捕捉到的地形信息,這種局部規劃可生成后優化的動態可行路徑。
后置參考路徑被用于制定一套包含飛機位置、姿態、速度和加速度的制導指令,以引導無人機飛行在生成的飛行走廊(可能具有復雜的幾何特征)內飛行。所開發的路徑跟蹤方法是通過使用非線性模型預測公式制定的。
所開發的 I-TRP 策略可引導自主無人機在幾乎任何結構化或非結構化環境中到達目的地,這些環境具有不同程度的幾何復雜性,從開放的自由空間到高度雜亂的環境不等。仿真結果表明,在適合實時飛行導航的高效計算過程中,所開發的 I-TRP 策略的能力優于現有機制。
多無人機協同升降系統使用多個無人機共同升降和運輸有效載荷。從可擴展性和便攜性的角度來看,這些系統有可能大大降低空中運輸任務的物流成本。與傳統的單機物流模式不同,通過在多架廉價飛機之間分配起升能力,可以有針對性地運送大量有效載荷。為了以高度自主的方式完成大跨度的任務,合作飛機必須能夠在多個點可靠地與單一有效載荷對接,并在系統參數未知的情況下,以可變幾何配置的方式在飛行途中穩健地穩定下來。本論文提出了一種新穎的自適應飛行控制框架,該框架使用擴展卡爾曼濾波器在控制分配方案中更新相關系統參數。此外,這項研究還對之前開發的模塊化對接系統進行了擴展,該系統支持在不同的復合系統幾何結構中進行自組裝,考慮了多智能體操作,并通過模擬交易研究優化了設計參數。論文介紹了高保真模型和模擬,利用多體反饋線性化約束穩定和基于約束的脈沖接觸模型等技術,以驗證控制策略,并在復雜動力學條件下優化設計。本論文還介紹了無人飛行器合作飛行控制和參數估計的實驗結果。
完全自主的航空系統(FAAS)將邊緣和云硬件與無人機和大量軟件支持結合起來,以創建自主系統。FAAS 通過對環境的實時感知和響應,在無人駕駛的情況下完成復雜的任務。FAAS 需要高度復雜的設計才能正常運行,包括機載、邊緣和云硬件和軟件層。FAAS 還需要復雜的軟件,用于控制無人機的底層操作、數據收集和管理、圖像處理、機器學習、任務規劃和高層決策,這些軟件必須在整個計算層次結構中有效集成,以實時實現自主目標。
即使是相對簡單的 FAAS,其復雜性也難以保證效率。然而,效率對 FAAS 的有效性至關重要。FAAS 在資源稀缺的環境中執行任務,如自然災害地區、農田和偏遠的基礎設施設施。這些地區的計算資源、網絡連接和電力都很有限。此外,無人機電池壽命短,飛行時間很少超過 30 分鐘。如果 FAAS 設計不合理,無人機可能會浪費寶貴的電池壽命來等待遠程計算資源的進一步指示,從而延誤或無法完成任務。因此,FAAS 設計人員必須謹慎選擇或設計邊緣硬件配置、機器學習模型、自主策略和部署模式。
FAAS 有能力徹底改變許多行業,但要提高其可用性和有效性,還有許多研究工作要做。在本論文中,我將概述自己為設計和實施高效、有效的 FAAS 所做的努力。本文將重點討論以下五個主題,包括 FAAS 的設計、實施和應用:
§1. 創建新的通用和特定領域的機器學習算法,并謹慎使用其他算法
§2. FAAS 層次結構中各級硬件的選擇
§3. 為自主策略、硬件設備、機器學習技術和部署特性的選擇和切換提供動力和環境意識信息。
§4. 在線學習能力可抵御有限的云訪問、網絡中斷和電力短缺。
§5. 全面的應用,展示 FAAS 的技術價值,推動采用,并確定未來的研究挑戰。
圖:FAAS 非常復雜。它們在遠程環境中運行,使用新穎的自主策略和機器學習算法,必須承受功率限制并利用創造性的網絡解決方案來實現其目標。
隨著技術的不斷進步和日常對海洋資源的依賴,無人水面航行器(USVs)的作用成倍增加。目前,具有海軍、民用和科學用途的 USV 正在各種復雜的海洋環境中進行廣泛的作業,并對其自主性和適應性提出了更高的要求。USV 自主運行的一個關鍵要求是擁有一個多車輛框架,在此框架下,USV 可以在實際海洋環境中作為一個群體運行,并具有多種優勢,例如可以在更短的時間內勘測更廣闊的區域。從文獻中可以看出,在單體 USV 路徑規劃、制導和控制領域已經開展了大量研究,而在了解多載體方法對 USV 的影響方面卻鮮有研究。本論文整合了高效的最優路徑規劃、穩健的路徑跟蹤制導和合作性集群聚合方法等模塊,旨在開發一種新的混合框架,用于 USV 蟲群的合作導航,以實現海洋環境中的最優自主操作。
首先,設計了一種基于 A* 算法的有效而新穎的最佳路徑規劃方法,其中考慮到了與障礙物的安全距離約束,以避免在移動障礙物和海面洋流的情況下發生碰撞。然后,將這種方法與為 USV 開發的新型虛擬目標路徑跟蹤制導模塊相結合,將路徑規劃器的參考軌跡輸入制導系統。當前工作的新穎之處在于將上述集成路徑跟蹤制導系統與分布式集群聚集行為相結合,通過基于簡單電位的吸引和排斥功能來維持 USV 蟲群的中心點,從而引導 USV 集群進入參考路徑。最后,介紹了一個用于 USV 船隊合作導航和制導的最佳混合框架,該框架可在實際海洋環境中實施,并可在海上有效地實際應用。
多智能體機器人技術有望塑造工業的未來,有可能改變日常生活的許多方面。在未來十年中,它們預計將對運輸系統、軍事應用(如偵察和監視、搜救行動或太空任務)產生影響,并為急救人員提供支持。
在機器人領域最新發展的推動下,隨著新一代多智能體機器人系統變得更加智能、精確,應用領域也更加多樣化,本論文將為這些系統的發展做出貢獻。但是,為了實現這些目標,組成合作機器人系統的各個智能體需要在確保準確性和保留執行多樣化任務能力的同時,對它們所能完成的任務進行專業化。
本論文在考慮單個智能體專業化能力的特定背景下,探討了蜂群機器人技術中的任務分配問題。基于每個智能體都擁有專門的功能能力,以及分布在周圍環境中的預期任務提出了特定要求的假設,提出的任務分配機制在兩個不同的空間中制定。首先,團隊成員專業化的初級形式被表述為嵌入智能體動力學控制空間的合作控制問題。其次,定義了智能體專業化的高級表述,在專用的專業化空間中估計單個智能體的任務分配概率,這是本論文對蜂群機器人領域的進步和實踐的核心貢獻。
在專業化空間中制定的原始任務分配過程經歷了四個發展階段。首先,從概念上引入了任務特征識別階段,利用嵌入在智能體中的傳感層的輸出來驅動所提出的任務分配方案。其次,制定匹配方案,將每個智能體的專業能力與相應的檢測任務進行最佳匹配。在這一階段,智能體專業化的一般二進制定義是任務-智能體關聯的基礎。第三,將任務-智能體匹配方案擴展為創新的基于概率專業的任務-智能體分配框架,以推廣這一概念并挖掘智能體專業化考慮的潛力。第四,根據智能體的機械、物理結構和嵌入式資源對其專業化進行調制定義,進一步完善了總體框架。此外,還對原有框架進行了擴展,并引入了優先級層,以提高系統對復雜任務的響應能力,這些復雜任務的特點是基于對多個類別的識別。
在模擬和實際實驗中對所提出的基于專長的任務分配方法進行了實驗驗證,并結合潛在應用對結果進行了介紹和討論,以證明所提框架的有效性和效率。
這項工作旨在填補以往解決機器人群個體專業化問題的工作中的技術空白。本論文的成果通過開發一個創新框架,利用傳感能力來支持智能體之間專業化的概念化和實施,從而推動了蜂群機器人領域的發展。重點在于定義單個智能體的專長,并根據每個任務的特定約束條件,將其與這些單個智能體所要掌握的任務相匹配。為此,本研究打算回答以下研究問題:
問題 1:一群智能水平相對較低的機器人如何完成復雜的任務,這些任務需要單個機器人代理的專業化?
過去二十年來,多智能體系統的合作編隊控制受到了研究人員的極大關注。本論文以文獻綜述(第 2 章)中提到的方法為基礎,提出了一種解決方案,以填補機器人團隊中單個成員專業化方面的研究空白。本論文的重點是通過利用智能體的非同質性來增強蜂群的能力。為此,本論文擴展了合作蜂群的概念,并提出了一個嚴格的流程來利用單個智能體之間的專業異質性。
為了回答問題 1,我們首先進行了一項早期調查,以驗證這一概念。這一過程將機器人團隊工作空間的不同區域定義為分配給不同任務的獨立區域。所開發的解決方案可讓機器人順利安全地切換位置,并根據每個訪問區域要執行的特定任務動態調整整體隊形。它定義了如何在每個區域管理機器人群的編隊。作為一種初級的專業化形式,當智能體從一個區域轉移到另一個區域時,該框架會將智能體的領導角色從一個智能體切換到另一個智能體。在第一階段的研究中,假定一個特定的智能體(即蜂群中的一個成員)是每個區域中唯一專門執行領導任務的智能體。在任務完成之前,該智能體被指定為相關區域的專門領導者。第一部分研究的詳細情況將在第 3.4 節中報告。
問題 2:能否對最初的方法進行升級,讓專業化個體從環境中的自動目標識別中獲益,能否讓智能體之間的合作變得足夠穩健和靈活,以便在發現目標后自動將適當的專業化智能體分配到相應的任務中?
為了回答這個問題,我們進一步擴展了原有的協調系統,用于在專用機器人之間分配基于任務的領導權。通過對分布在機器人群工作空間中的專業化影響區域的定義進行演化,對問題進行了重新表述。受早期編隊方法的啟發,出現了一種有趣的解決方案。從使用機載傳感器自動識別工作區目標的假設出發,選擇有資格執行識別任務的智能體的過程應逐步經歷三個基本狀態,分別稱為搜索狀態、任務狀態和執行狀態。這種方法還可擴展到目標移動時的動態影響區域,以及多個任務共享同一區域時的動態影響區域。這更好地反映了移動機器人的實際干預場景。這方面的工作將在第 3.5 節中報告。
問題 3:為了改進蜂群的管理,能否根據智能體的專業化程度,在一定程度上適合響應給定任務的概率匹配機制中,適當定義和制定每個智能體的專業化功能?
為了解決這個問題,可以利用基于概率的建模來完善用于實現單個智能體角色專業化的框架設計。建立這樣一種智能體行為的概率表征,可以形成一種可擴展的機制。后者支持自動化流程,能夠處理任務和專業化定義中的不確定性,并應對任務約束和智能體能力之間的不完美匹配。所提出的智能體選擇方案是根據任務識別的置信度和特定智能體滿足任務特定要求的概率來制定的。所提出的基于專業的任務分配方案旨在根據所識別的任務約束條件,計算蜂群中各個智能體的匹配適合度,即任務-智能體專業匹配概率。本框架的開發過程詳見第 4.3 和 4.4 節。
問題 4:提議的框架能否應用于實際系統?
為了證明所提方法的有效性及其在現實世界中的應用潛力,我們從兩個方面對其進行了測試。首先,在仿真中對所提出的框架進行驗證,以證明其有效性。第 5 章介紹了大量的模擬實驗。然后,作為案例研究介紹了擬議方法的潛在應用,同時詳細介紹了擬議框架在真實機器人平臺上的實施情況,以驗證和檢驗基于專業的任務分配方案在實現預期協調水平方面的性能。這項工作將在第 6 章中介紹。
圖 3.12 任務執行的先后順序:(a-c)影響區重疊,操作員選擇任務 1(紅色)為優先任務,這促使紅色機器人繼續擔任領導者,直到紅色任務完成;(d-f)第二優先任務(藍色)正在執行,藍色機器人轉為領導者位置;(g-h)蜂群恢復到影響區重疊外的搜索狀態,然后搜索其他任務(綠色,然后是紅色),由相應的領導者機器人執行。
在許多淺水和沿海水域應用中,視覺制導水下機器人與人類潛水員一起執行合作勘探、檢查和監測任務。這類陪伴機器人最基本的能力是在水下任務的各個階段以視覺解讀周圍環境并協助潛水員。盡管近年來技術不斷進步,但現有的實時視覺感知系統和解決方案在很大程度上受到能見度低、光照變化和突出特征稀少等海洋因素的影響。而水下光傳播的脆弱性(如與波長相關的衰減、吸收和散射)所導致的一系列非線性圖像失真又加劇了這些困難。在本論文中,我們提出了一套新穎的改進型視覺感知解決方案,以應對這些挑戰,從而實現有效的水下人機合作。研究成果包括底層視覺和基于學習的算法的新穎設計和高效實施,以及廣泛的現場實驗驗證和單板部署的實時可行性分析。
論文分為三個部分。第一部分側重于為自動潛航器(AUV)開發實用的解決方案,以便在執行水下任務期間陪伴人類潛水員。其中包括基于視覺的強大模塊,使自動潛航器能夠理解人類的游泳動作、手勢和身體姿勢,以便在保持平穩的時空協調的同時跟隨人類并與之互動。一系列封閉水域和開放水域現場實驗證明了我們提出的感知算法在水下人機合作中的實用性和有效性。我們還確定并量化了這些算法在不利視覺條件下不同操作約束條件下的性能變化。論文的第二部分致力于設計高效的技術,通過恢復水下圖像的感知和統計質量來克服能見度低和光學失真的影響。我們進一步證明了這些技術作為視覺導航自動潛航器自主流水線預處理器的實際可行性。最后,本論文的第三部分開發了高層次決策方法,如為快速視覺搜索建立空間注意力模型,學習識別何時需要圖像增強和超分辨率模塊來實現詳細感知等。我們證明,這些方法可將機載視覺感知模塊的處理速度提高 45%,使自動潛航器能夠做出智能導航和操作決策,尤其是在自主探索任務中。
總之,本論文描述了我們為解決水下人機合作實時機器視覺所面臨的環境和操作挑戰而進行的嘗試。針對各種重要應用,我們開發了穩健、高效的模塊,讓自動潛航器在僅依靠嘈雜的視覺傳感的情況下,通過準確感知周圍環境來跟隨同伴潛水員并與之互動。此外,我們提出的感知解決方案能讓視覺引導機器人在嘈雜條件下看得更清楚,并在有限的計算資源和實時限制條件下做得更好。除了推動最先進技術的發展之外,我們提出的方法和系統還讓我們朝著縮小理論與實踐之間的差距、改善野外人機合作的方向邁進了一步。
該項目旨在利用強化學習(RL)開發防御性無人機蜂群戰術。蜂群是一種軍事戰術,許多單獨行動的單元作為一個整體進行機動,以攻擊敵人。防御性蜂群戰術是美國軍方當前感興趣的話題,因為其他國家和非國家行為者正在獲得比美國軍方更多的優勢。蜂群智能體通常簡單、便宜,而且容易實現。目前的工作已經開發了飛行(無人機)、通信和集群的方法。然而,蜂群還不具備協調攻擊敵方蜂群的能力。本文使用預先規劃的戰術模擬了兩個軍用固定翼無人機蜂群之間的戰斗。即使在數量多到100%的情況下,也有有效的戰術可以克服規模上的差異。當用于防御艦艇時,這些規劃的戰術平均允許0到0.5架無人機通過防御并擊中艦艇,這超過了阿利-伯克級驅逐艦目前的防御系統和其他研究的無人機蜂群防御系統。這項研究表明,使用某些機動和戰術有可能獲得對敵人蜂群的戰術優勢。為了開發更有效的戰術,使用RL訓練了一種 "智能體 "戰術。RL是機器學習的一個分支,它允許智能體學習環境,進行訓練,并學習哪些行動會導致成功。"智能體"戰術沒有表現出突發行為,但它確實殺死了一些敵人的無人機,并超過了其他經過研究的RL訓練的無人機蜂群戰術。繼續將RL落實到蜂群和反蜂群戰術的發展中,將有助于美國保持對敵人的軍事優勢,保護美國利益。
關鍵詞 無人機蜂群戰術 強化學習 策略優化 無人機 艦船防御 軍事蜂群
現代計算機科學家試圖解決的問題正變得越來越復雜。對于大規模的問題,人類不可能想到每一種可能的情況,為每一種情況確定所需的行動,然后為這些行動編碼讓計算機執行。如果計算機能夠編寫自己的指令,那么計算機科學的世界可以擴展得更大,以完成更困難的任務。這就是機器學習領域。最近的工作為世界帶來了各種照片分類器、計算機視覺、搜索引擎、推薦系統等等。利用機器學習,計算機甚至能夠學習和掌握蛇、國際象棋和圍棋等游戲。有了這項技術,自動駕駛汽車、智能機器人和自主機械似乎不再是不可能的了。
美國軍方一直在推動技術的發展,使其在戰術上對敵人有優勢。利用機器學習來協助美國作戰,將提高軍事能力。非傳統戰爭的最新發展催生了無人駕駛車輛和無人機等自主智能體戰術蜂群。當務之急是,美國軍方必須建立對敵方類似技術的防御措施,并開發出利用蜂群的有利方法。將機器學習方法應用于多智能體無人機群問題,可以為美國軍隊提供對抗和反擊敵人蜂群的能力。
美國軍方一直在探索最新的技術進步,以保持對敵人的競爭優勢。蜂群戰術是目前軍事研究的一個主要領域。美國和其他國家正在尋找使用無人機、船只和車輛與現有蜂群技術的新方法。例如,俄羅斯正在開發令人印象深刻的無人機蜂群能力。[Reid 2018] 伊朗已經創造了大規模的船群。[Osburn 2019] 大大小小的國家,甚至非國家行為者都在利用目前的蜂群技術來增加其軍事力量,與美國抗衡。這種對美國安全的可能威脅和獲得對其他大國優勢的機會是本研究項目的動機。如果美國不發展防御和戰術來對付敵人的蜂群,其人民、資產和國家利益就處于危險之中。這個研究項目旨在使用最先進的RL算法來開發無人機群戰術和防御性反擊戰術。研究當前的RL算法,并學習如何將其應用于現實世界的問題,是計算機科學界以及軍事界下一步的重要工作。該項目旨在將現有的RL工具與無人機群結合起來,以便找到能擊敗敵人機群的蜂群戰術和反擊戰術,改進軍事條令,保護美國國家利益。
本報告首先介紹了促使需要無人機蜂群戰術的當前事件,以及試圖解決的問題的定義。接下來的章節提供了關于無人機、軍事蜂群、強化學習以及本研究項目中使用的策略優化算法背景。還包括以前與RL有關的工作,以及它是如何與當前的無人機和蜂群技術結合使用的。下一節介紹了建立的環境/模擬。之后介紹了目前的成果。建立了兩個不同的場景,并對每個場景進行了類似的測試。第一個是蜂群對戰場景,第二個是船舶攻防場景。這兩個場景描述了實施的程序化戰術,并介紹了這些戰術的比較結果。接下來,描述了RL智能體的設計和RL訓練,并測試其有效性。在介紹完所有的結果后,分析了研究發現,并描述了這個研究項目的倫理和未來方向。
無人駕駛飛行器被廣泛用于監視和偵查。無人機可以從上面捕捉到戰斗空間的狀況。這些智能體非常小,可以快速地去一些地方而不被發現。無人機有能力收集信息并回傳給蜂群的主機或電子中心。蜂群智能體可以使用信號情報和數據收集戰術從敵人那里收集信息。
美國軍方和世界各地的軍隊正在使用蜂群作為一種進攻性威脅。無人機、船只、甚至車輛都可以在無人駕駛的情況下運作,并作為一個單元進行蜂擁,以攻擊敵人。大量使用小型和廉價的智能體可以使小型軍隊在面對美國軍隊的力量時獲得優勢。例如,小船或無人機可以匯聚到一艘船上,并造成大量的損害,如摧毀船只的雷達。作為一種進攻性技術,蜂群是強大的資產,可以作為一種進攻性戰爭的方案來使用。
作為對進攻性蜂群技術的回應,各國軍隊開始研究并使用蜂群作為防御機制,以對付來襲的蜂群和其他威脅。其他的防御性武器系統并不是為了對抗大量的小型無人機而建造的,因此,發射反蜂群可能是對最新的蜂群戰術的一種可行的防御。蜂群也可用于防御單一實體對來襲的武器系統。研究人員正在創造新的方法來建造、武裝和訓練小型無人駕駛飛行器,以便它們能夠成為美國軍隊的可靠資產。
介紹了最近在智能體群體和無人機群的強化學習方面的一些工作。
Cano Lopez等人使用當前的強化算法來訓練四旋翼無人機飛行、懸停和移動到指定地點[G. Cano Lopes 2018]。該系統使用了馬爾科夫決策過程,并實現了強化學習的演員評論法,在飛行模擬器中訓練智能體。這些強化學習方法與我們希望應用于無人機群戰術問題的方法類似。使用Coppelia機器人公司的虛擬實驗平臺(V-REP)作為模擬,訓練無人機飛行。他們的訓練策略能夠實現快速收斂。在訓練結束時,他們能夠保持飛行并移動到模擬中的不同位置。這項工作表明,強化學習是訓練無人機操作的一種有效方法。我們希望在這個項目中使用的方法可以用目前的技術來實現。我們將擴展本文的實驗,在類似的模擬中把RL算法應用于固定翼無人駕駛飛機。然而,我們不是只讓無人機飛行和移動,而是要訓練它們一起工作,并戰略性地計劃在哪里飛行和如何操作。
斯特里克蘭等人利用模擬來測試各種無人駕駛飛行器的戰術,并測試贏得戰斗的決定性因素可能是什么。他們對一個具有戰術的蜂群進行編程,并讓這個蜂群與敵人的蜂群作戰。智能體試圖使用圖8.1所示方法協調對敵方無人機的攻擊。只有當有兩架無人機對抗一架敵方無人機時,這些戰術比單槍匹馬射擊敵人更有效,而且它們與其他成對的無人機之間有足夠的空間。其次,一些特工會飛離敵人,作為保護自己的手段,從不對敵人使用任何攻擊性戰術。[Strickland 2019]
這個項目使用PPO在一個捉迷藏的游戲中使用強化學習來訓練多個智能體。兩個紅色智能體是一個團隊,被指定為尋找者,兩個藍色智能體是一個團隊,被指定為隱藏者。如圖8.2所示,這些智能體在一個有幾面墻和一些積木的開放環境中游戲。智能體可以跑來跑去,對可移動的積木施加壓力。紅隊在看到藍隊時得到獎勵,藍隊在未被隱藏時得到獎勵。兩個智能體都是用自我發揮和策略優化算法進行訓練的。兩隊進行了數百萬次的訓練迭代競爭,并制定了戰術和技術來對付對方的行動。起初,兩個團隊都是漫無目的地跑來跑去,但他們最終發展出一些智能行為來幫助他們獲得獎勵。藍隊學會了如何堵住門,為自己創造庇護所,并從紅隊那里藏起其他物體。紅隊追趕藍隊特工,利用斜坡潛入他們的庇護所,跳到積木上面看墻。這些特工制定的一些戰術甚至比人類程序員指示他們做的更有創意。最重要的是,這些智能體教會了自己如何合作,并為每個智能體分配一個特定的角色,以完成團隊目標。這項研究的結果顯示了強化學習和自我發揮的學習方法的力量。兩個智能體都能發展出智能行為,因為它們之間存在競爭。我們將使用這個項目的框架來解決我們的無人機蜂群戰術問題。將捉迷藏游戲擴展到無人機群戰,將提高強化學習的能力。自我游戲技術在本項目未來工作的RL蜂群對戰部分有特色,該部分詳見第13.3節。[Baker 2018]
在這項研究中,研究人員利用計算機編程和強化學習模擬并測試了無人機群戰術。該小組創建了一個可能的蜂群戰術清單,包括一個簡單的射手,一個將敵人引向隊友的回避者,以及一個將敵人的蜂群分成子蜂群的牧羊人。研究人員隨后創建了一個模擬器來測試這些戰斗戰術。他們收集了關于哪些戰術最有效的數據,甚至在現實生活中的固定翼無人機上測試了這些算法。我們將在研究的第一階段實施其中的一些戰術,并擴大目前可編程蜂群戰術的理論。
這篇研究論文的第二個方面是實施強化學習方法,使智能體能夠制定自己的蜂群戰術。盟軍無人機在殺死敵方無人機時獲得正獎勵,被敵方殺死時獲得負獎勵。敵方蜂群是用研究第一階段的成功單人射手預先編程的。這個項目的目標是讓智能體制定對抗敵方蜂群的戰術。然而,盟軍的無人機學會了應該逃跑,干脆飛離敵人,以避免被殺死的負面獎勵。因為敵人太有效了,盟軍無人機無法獲得足夠的正向獎勵來學習如何攻擊敵人的蜂群。我們將使用強化學習以類似的方式來訓練智能體,然而我們希望獲得更多的結論性結果。為了防止盟軍無人機逃離敵人,我們將對攻擊和殺死敵人的智能體給予比死亡風險更多的獎勵。我們還可以對智能體進行編程,使其保衛像船只或基地這樣的資產。這個研究項目為我們所做的研究提供了一個良好的基礎。[Strickland, Day, et al. 2018]。
該研究項目是近期強化學習和無人機群工作的延續。計算機科學領域一直在開發最先進的強化學習算法,如PPO和SAC,該項目旨在應用于當前的無人機群戰術的軍事問題。
MIDN 1/C Abramoff(2019級)研究了無人機蜂群戰術,并在Python中模擬了微型蜂群對蜂群戰斗。他創建了一個二維空間,用一個點代表蜂群中的每個特工。每個智能體可以向前射擊(在它移動和面對的方向)。被另一個智能體的 "子彈 "擊中的智能體被假定為死亡,并從模擬中刪除。阿布拉莫夫創建了蜂群,并編寫了一個蜂群算法,以便特工能夠作為一個整體蜂擁飛行,而不會發生碰撞、分離或破壞蜂群。一旦智能體真實地成群,阿布拉莫夫探索了各種無人機群戰術,如選擇-最近和分配-最近,并測試了它們對敵人群的有效性。選擇-最近 "允許每個特工瞄準離自己最近的敵人。當蜂群向對方移動時,智能體將根據每個時間點上哪個敵人的無人機最近而改變其目標。分配最近的任務給每個智能體一個任務,以消除一個不同的敵方無人機。任務是根據哪個敵方無人機離友軍蜂群最近來決定的,并在每一幀重新更新。阿布拉莫夫對兩個蜂群的模擬戰斗進行了實驗,以測試哪種蜂群戰術最有效。他還嘗試使用反蜂群戰術進行戰斗,如在蜂群前面派出一個 "兔子 "特工,并分成子蜂群。總之,阿布拉莫夫發現,在他的實驗中,"最近分配 "是最有效的,一些反蜂群戰術也很成功。這些結果不是結論性的,但顯示了在發展蜂群和反蜂群軍事戰術方面的進展。本研究提案將在MIDN 1/C Abramoff的工作基礎上進行擴展,創建一個3-D環境模擬,并改進智能體能力,以代表一個現實的無人機群戰。這個研究提案的環境將有一個更大的戰斗空間,智能體可以采取更多的行動,包括改變高度、武器瞄準和蜂群間的通信/團隊合作。
MIDN 1/C湯普森(2020級)建立了一個三維環境,他用來模擬更多戰術。這個環境比MIDN 1/C阿布拉莫夫使用的更真實地模擬了現實世界的戰斗空間。蜂群要在三維空間中自由移動,并根據現實世界的物理學原理采取相應的行動,即重力和高度以及飛機上可行的轉彎率。圖8.3顯示了湯普森的Python環境模擬。左上角的無人機群被染成藍色,代表盟軍的無人機群。右下角的無人機群為紅色,代表敵人的無人機群。盡管在二維顯示中,每架無人機周圍的圓圈代表高度。在圖8.3中,更大的圓圈顯示了更高的高度,這意味著敵人的蜂群比盟軍的蜂群要高。MIDN 1/C湯普森固定了環境的三維方面,并將無人機融入該空間。他還研究了每架無人機的轉彎率,以確保模擬符合現實生活中的無人機規格。
模擬開始時有兩個由任何數量的無人機組成的蜂群。每隊的無人機都被初始化在比賽場地各自一側的隨機位置上。模擬開始時,兩隊都起飛了。每隊都執行給定的戰術,可以是預先編程的,也可以是智能體學習的。如果進行了多輪比賽,每隊的勝負和平局都會被計算在內。
模擬開始時有兩個任意數量的無人機群。防御隊被初始化在放置在比賽場地中心的飛船中心。這艘船是靜止的,不會還擊,但它會計算它所收到的無人機的數量。進攻隊被初始化在比賽場地的一個隨機位置,該位置距離飛船中心至少有200米。模擬開始時,兩隊都要起飛。每隊都執行給定的戰術,可以是預先編程的,也可以是智能體學習的。如果進行多輪比賽,每隊都要計算無人機擊中飛船的總次數和剩余的防御性無人機數量。
對使用無人駕駛飛行器(UAV),即無人機,在不同的應用中,如包裹遞送、交通監測、搜索和救援行動以及軍事戰斗交戰,有越來越多的需求。在所有這些應用中,無人機被用來自主導航環境--沒有人的互動,執行特定的任務和避免障礙。自主的無人機導航通常是通過強化學習(RL)完成的,智能體作為一個領域的專家,在避開障礙物的同時導航環境。了解導航環境和算法限制在選擇適當的RL算法以有效解決導航問題中起著至關重要的作用。因此,本研究首先確定了主要的無人機導航任務并討論了導航框架和仿真軟件。接下來,根據環境、算法特點、能力和在不同無人機導航問題中的應用,對RL算法進行了分類和討論,這將有助于從業人員和研究人員為他們的無人機導航用例選擇合適的RL算法。此外,確定的差距和機會將推動無人機導航研究。
自主系統(AS)是能夠在沒有人類干擾的情況下執行所需任務的系統,如機器人在沒有人類參與的情況下執行任務、自動駕駛汽車和無人機送貨。自主系統正在侵入不同的領域,以使操作更加有效,并減少人為因素產生的成本和風險。
無人駕駛航空器(UAV)是一種沒有人類飛行員的飛機,主要被稱為無人機。自主無人機由于其多樣化的應用而受到越來越多的關注,如向客戶交付包裹、應對交通事故以滿足傷員的醫療需求、追蹤軍事目標、協助搜索和救援行動,以及許多其他應用。
通常情況下,無人機配備有攝像頭和其他傳感器,可以收集周圍環境的信息,使無人機能夠自主地導航該環境。無人機導航訓練通常是在虛擬的三維環境中進行的,因為無人機的計算資源和電源有限,而且由于墜毀而更換無人機部件可能很昂貴。
不同的強化學習(RL)算法被用來訓練無人機自主導航的環境。強化學習可以解決各種問題,在這些問題中,代理人就像該領域的人類專家一樣。代理人通過處理環境的狀態與環境互動,用行動作出回應,并獲得獎勵。無人機相機和傳感器從環境中捕捉信息,用于表示狀態。代理人處理捕捉到的狀態并輸出一個行動,決定無人機的運動方向或控制螺旋槳的推力,如圖1所示。
圖1:使用深度強化智能體的無人機訓練
研究界對不同的無人機導航問題進行了回顧,如視覺無人機導航[1, 2]、無人機植群[3]和路徑規劃[4]。然而,據作者所知,目前還沒有與RL在無人機導航中的應用有關的調查。因此,本文旨在對各種RL算法在不同無人機自主導航問題上的應用進行全面系統的回顧。這項調查有以下貢獻:
本文的其余部分組織如下: 第2節介紹了系統回顧過程,第3節介紹了RL,第4節全面回顧了各種RL算法和技術在無人機自主導航中的應用,第5節討論了無人機導航框架和仿真軟件,第6節對RL算法進行分類并討論了最突出的算法,第7節解釋了RL算法的選擇過程,第8節指出了挑戰和研究機會。最后,第9節對本文進行了總結。