這個項目的主要目標是為無人駕駛飛行器(UAVs)設計、開發和制作一個自動化和自組織控制框架的原型。通過結合軟化和抽象原則、優化和人工智能(AI)成功地實現了目標,能夠開發出一個原型,能夠理解網絡操作者的目標,適應網絡參數和功能,以應對不斷變化的環境條件并保證高性能。
智能無人駕駛飛行器(UAVs)作為提供新功能、擴展無線網絡基礎設施和使網絡更靈活的工具,已經獲得了發展勢頭[1-4]。由于其獨特的特點,如快速部署、高機動性、處理能力和縮小的尺寸,無人機是未來眾多無線應用的一項有利技術。其中,增加網絡覆蓋面和為用戶提供情境感知的網絡服務是顯著的例子。
盡管有上述優勢,但如何部署能夠自適應和自組織的無人機群,以提供可靠、高性能和無處不在的服務并不是一件容易的事。事實上,網絡的無線和分布式性質使無人機暴露在干擾、障礙物和不斷變化的信道條件下,可能會對網絡運行產生負面影響(或者在最壞的情況下完全阻止)。這些挑戰在成功取決于無人機、移動終端用戶、基站、運營中心等之間無線通信的可靠性和效率的應用中更為重要。在這個項目中,我們通過設計、開發和原型驗證SwarmControl,推進了無人機網絡群的技術水平,這是一個新的軟件定義的無人機群控制框架,其目標是實現網絡操作的自動和智能重新配置,以保證高性能并適應不斷變化的網絡條件。SwarmControl結合了各種優化和數據驅動工具、軟件定義無線電(SDR)和分布式網絡控制原則,為網絡操作者提供了一個統一的網絡和飛行控制功能的抽象。有了SwarmControl,操作員可以通過在一個集中的抽象上指定無人機網絡的高級控制指令和要求來定義和實施復雜的網絡控制問題。SwarmControl(i)構建網絡操作員指令的網絡控制問題表示;(ii)將其分解為一組分布式子問題;以及(iii)自動生成數據驅動和分布式優化解決方案算法,在各個無人機上執行。
在下文中,我們將詳細介紹我們在該項目中所進行的研究活動,具體重點是描述SwarmControl從基于優化的框架[2-4]到數據驅動的框架[3]的演變,強調我們的原型設計工作和相應的實驗結果如何幫助我們證明其有效性。
這個項目在兩個不同的階段中發展。第一階段涉及基于模型的優化,其中無人機通過傳統的優化工具調整其位置和網絡功能[2,4,5]。第二階段則涉及優化工具被無模型人工智能解決方案所取代的研究活動,其中網絡的底層模型是由一組合作代理(即無人機)學習的,它們協調其移動性和網絡操作以滿足網絡操作者的目標[3]。
該項目第一階段開展的研究活動主要是為無人機群開發一個網絡操作系統,利用分解和分布式優化理論來實現網絡操作者的目標。為此,我們開發了圖1所示的系統。
該系統包括兩個關鍵部分:控制框架和無人機可編程協議棧(DPPS)。
如圖1所示,該組件負責(i)為網絡操作者提供控制接口,以指定所需的網絡行為;(ii)構建網絡操作者指令的數學網絡控制問題(NCP)表示;以及(iii)將NCP分解為一組獨立的子問題,并將其分配給各個無人機。
控制界面。與網絡操作者的互動是通過一個控制界面實現的。通過控制界面上的幾個輸入字符,網絡操作員可以指定所需的網絡行為、要實現的網絡協議和節點特定的約束。高層指令的例子包括通過最大化網絡吞吐量來提高網絡性能,通過最小化能源消耗來延長無人機網絡壽命,通過指定最小速率約束來確保QoS要求,以及覆蓋一個特定的空中空間,等等。控制接口為網絡操作者提供了一個無人機網絡的抽象,隱藏了低層網絡功能和底層網絡架構的細節,如無人機的數量以及它們的計算能力和電池水平等。通過SwarmControl,控制無人機網絡變得非常簡單,只需在預定義的控制模板中進行選擇,選擇首選的網絡協議,并指定單個節點的約束。
網絡控制問題的構建。一旦網絡控制問題被定義,SwarmControl將網絡操作員的指令和要求轉化為一組數學表達式,然后將其合并并重新排列成一個NCP。由此產生的NCP是網絡操作員通過控制接口定義的高級網絡行為的集中表示,它跨越了網絡和飛行控制領域,涉及多個節點和協議棧的所有層。
分布式解決方案算法生成。通過網絡控制問題構建得到的NCP的跨層性質以及其變量之間的耦合性,使得它很難以分布式方式計算出一個理想的解決方案。為了應對這一挑戰,SwarmControl采用了水平和垂直分解理論,將具有跨層和跨節點依賴關系的NCP解耦為一組分布式子問題,每個子問題只涉及一個網絡節點和協議棧的一個層。對于所產生的每個子問題,SwarmControl以自動化的方式生成一個分布式數字解決方案算法,然后將其轉發給各個無人機,并在網絡運行時根據本地網絡狀態信息執行。
無人機可編程協議棧(DPPS)。如圖1所示,DPPS安裝在每個單獨的無人機上,以分布式和自動化的方式解決從控制框架收到的數值解算法。DPPS跨越了網絡協議棧的所有層次,并與飛行控制器固件緊密互動。DPPS為復雜的跨層和跨域網絡協議的原型化提供了必要的構件和基元,允許在協議棧的所有層對網絡、傳感和運動參數進行完全控制。
SwarmControl DPPS接收將在各個無人機上執行的分布式數值解算法(如運動解算法、傳輸率解算法),并在其決策平面上運行,如圖2所示。這個平面有一個協議庫,包含不同網絡協議和運動策略的軟件實現(如TCP、Bellman-Ford路由算法),以及運行調度腳本的數學求解器。
決策平面監督分布式優化算法的實時運行,使用最新的網絡狀態和運動信息作為輸入參數(例如,噪音功率、隊列狀態、與其他無人機的距離)。這些信息從注冊平面檢索,注冊平面也被用來存儲計算的數值解決方案。DPPS在運行時根據計算出的數值解配置數據平面中包含的網絡和飛行控制操作參數(例如,根據優化的路由表改變當前無人機的位置,根據注入網絡的優化應用層速率配置TCP窗口大小)。
該平面實現了一個完全可編程和可重新配置的協議棧,橫跨所有網絡層和運動層,并通過SDR和飛行控制器驅動器與無線電和運動前端接口,如圖2下部所示。
數據平面對無線電前端(由軟件定義的無線電和運動前端實現)以及協議棧功能都有完全的控制權;它負責將實際的網絡狀態和無人機位置信息反饋給注冊平面。如圖2所示,網絡狀態信息和計算的數字解決方案都存儲在寄存器平面的專用查找表(LUT)中。
每個DPPS層在寄存器平面都有一個專門的網絡狀態LUT,用于存儲所有與層相關的網絡狀態參數(例如,物理層L1 LUT中的信號干擾加噪聲比(SINR)和鏈路容量;網絡層L3 LUT中的鄰居集合和它們的距離;運動層L0 LUT中的物理位置和附近的障礙物)。數值解決方案以類似的方式存儲在專用的數值解決方案LUT中,每個DPPS層一個(例如,傳輸層L4 LUT中的TCP窗口大小;網絡后期L3 LUT的路由表;物理層L1 LUT的位置)。
對SwarmControl進行評估的第一個挑戰是缺乏具有SDR的商用現成無人機平臺。為了解決這個問題,我們設計并建立了一個定制的無人機網絡節點平臺,稱為Dron-SDR,將Ettus Research通用軟件無線電外圍設備(USRP)B205mini-i SDR安裝在英特爾航空即興飛行無人機上,如圖3所示。
圖3 帶有SDR的SwarmControl原型:(左)原型的圖片;(右)結構
英特爾Aeros的飛行自主權超過20分鐘,輪轂到輪轂的對角線長度為360毫米,基座到頂部的高度為222毫米,具有高度的便攜性和可操作性。同樣,B205mini-i SDR是市場上最緊湊、最輕、最低功耗的SDR設備。英特爾航空容納了一塊計算板,提供足夠的計算能力來運行Ubuntu 16.04和SDR開發框架,如GNU Radio。飛行管理、電機控制和傳感器融合在直接連接到計算板的Pixhawk 4飛行控制單元(FCU)上進行。所有FCU的參數和命令(例如,遠程控制和傳感器讀數)都是通過MAVLink路由器的UDP通信來訪問。與傳統的無人機不同,SwarmControl無人機節點被賦予了一個DPPS運動層(圖3中的L0:運動),它承載了基于Pymavlink的控制實現,允許每個節點自主地執行飛行控制操作。
值得指出的是,SwarmControl完全依賴于開源軟件。具體來說,DPPS完全由高級腳本語言(即Python)實現,并在原生的Linux操作系統上運行,它與FCU和GNU Radio直接對接。這使得SwarmControl與所有基于MAVLink的可編程無人機接口(如Pymavlink、DroneKit)兼容。圖3顯示了Dron-SDR原型的概況、其結構和硬件設計。
在項目的第一階段,我們已經展示了SwarmControl如何通過優化理論提升網絡性能并利用自動化和分布式控制來適應當前的網絡條件。然而,第一代SwarmControl框架依賴于基于模型的優化,當環境過于復雜,無法用一個可行的模型來捕捉時,可能會導致不準確的近似。事實上,基于模型的優化方法的性能往往受到通過凸優化或類似技術解決無人機網絡控制問題所需的近似和放松的準確性以及所使用的信道網絡模型的準確性的限制。為了應對這些挑戰,該項目第二階段的重點是開發一個新的架構框架,以控制和優化基于無模型的深度強化學習(DRL)的無人機網絡。為了克服基于模型的優化的局限性,我們還開發了一個虛擬化的、"即用即飛 "的模擬環境,以生成訓練DRL算法所需的大量無線數據痕跡,這些數據在電池供電的無人機網絡上是很難生成和收集的。訓練環境將項目第一階段開發的DPPS與CORE/EMANE仿真工具結合起來,對無人機網絡進行精確仿真。
我們設計了一個由控制框架和DRL DPPS組成的兩層架構。網絡運營商使用控制框架來決定分布式無人機網絡的預期行為。我們的解決方案自動生成一組DRL代理(即一組神經網絡(NN)形式的政策),這些代理在控制框架內的虛擬環境中進行訓練。訓練完成后,NN配置經過測試并自動分發到各個網絡節點,在那里它們將被用來控制DRL DPPS中的網絡和運動參數。通過這種方式,各個無人機通過實時優化其網絡性能,分布式地實現網絡運營商的目標。
通過一次分配NN配置,并在網絡的邊緣節點執行所需的網絡控制政策,這種方法不會受到集中式控制系統所特有的陳舊信息檢索和延遲命令的影響。此外,由于使用了可編程的運動和射頻前端,擬議的基于NN的政策設想了飛行和無線網絡參數的全堆棧和跨層優化。
新開發的SwarmControl框架通過DRL解決了無人機網絡控制問題。我們考慮了一個多智能體的DRL方案,每個無人機都是一個不同的智能體,并在虛擬環境中為特定的飛行任務集體訓練復雜的無人機出動。訓練完成后,我們測試并向各個無人機分發適合任務的NN配置。這些用于計算網絡和運動策略,以通過適應動態網絡條件來實現網絡運營商的預期網絡行為。
與基于模型的優化相比,我們的數據驅動方法解決了不準確的建模表述和優化近似。與優化方法不同,DRL智能體不受優化求解器延遲的影響,可以以O(1)的復雜度推導出策略。
為了收集電池供電的無人機網絡的大量性能數據,我們開發了一個極具代表性的仿真虛擬環境。我們重新審視了第一階段開發的DPPS,并將其與深度強化學習(DRL)的功能相結合,將其稱為DRL DPPS。我們將DRL DPPS與CORE/EMANE仿真工具整合在一起,以獲得一個高保真的虛擬環境,同時捕捉到運動、無線信道和高層協議棧的互動。我們系統地使用我們的 "可飛行 "虛擬環境來收集大量高保真網絡性能數據。最終,這種整合工作產生了一個具有高度代表性的模擬環境,使我們能夠擴大學習時間,并以高度的真實性訓練我們的DRL智能體。
圖4報告了DRL無人機可編程協議棧(DRL DPPS)架構的概況。DRL DPPS用于單個無人機,在協議棧的所有層進行運動和無線操作,也用于控制框架的學習引擎,以訓練和測試特定任務目標的NN策略制定。在后者中,物理層和運動操作由虛擬化的CORE/EMANE環境執行,而在前者中,這些操作通過硬件運動和射頻前端實現。
通過在控制框架的學習引擎中采用整個DRL DPPS架構(不包括硬件前端),我們獲得了一個真實的模擬環境,這是我們高保真性能數據收集和有效的DRL訓練的關鍵。
我們對項目第一階段開發的DPPS進行了擴展,用新的DRL平面取代了決策平面,但仍保持其架構功能;以跨層的方式一次性優化網絡和運動控制參數。具體來說,控制邏輯是通過采用一種叫做Q-learning的DRL變體來實現的,其目的是優化我們試圖最大化的目標函數(即網絡運營商的目標)的估計值(稱為Q函數)。DRL采用的NN是一個深度Q網絡(DQN),它使用隨機梯度下降法(SGD)來近似Q函數。
本項目的主要貢獻之一是將DRL DPPS與CORE/EMANE仿真工具相結合。
這項整合工作的目標有兩個方面:
開發一個高保真仿真環境,捕捉實時無線信道現象(如路徑損耗、延遲傳播、干擾)和協議棧各層的網絡操作(如分組、分段、重傳、流量突發、處理延遲),這些都是很難或很昂貴的模型,只能在仿真中近似地進行;
為研究人員提供一個可重新配置的仿真工具,以設計不同的無人機網絡配置和拓撲結構,并大規模地收集高保真無人機網絡性能數據。這項工作是對收集電池供電的無人機網絡實驗性能數據的有效替代,因為后者既費時又費力。
同時,這個仿真工具可以在實驗實施前用于測試無人機網絡配置。
圖5說明了DRL DPPS和CORE/EMANE之間的架構整合。在控制框架的學習引擎中,虛擬訓練環境和虛擬測試環境都使用了相同的架構。此外,圖6描述了DRL智能體(即嵌入SwarmControl的DRL DPPS的無人機)之間的互動,其中我們展示了多個DRL代理如何與CORE/EMANE中模擬的同一環境進行互動。值得一提的是,盡管每個DRL智能體在一個單獨的容器中執行,但它們都通過所有DRL智能體共享的同一個CORE/EMANE容器進行交互。
該提案旨在創建一種新型的戶外無人機蜂群,計劃由自主和分層控制的空中機器人組成。雖然不是所有的目標都已經實現,但我們已經能夠實現并發表令人興奮的相關成果。美國空軍和大學提供了資源,并提供了一個環境、財政支持和工作場所,使能夠創建一個由30架四旋翼飛機組成的獨特的自主機蜂群,能夠執行任何其他戶外無人機蜂群尚未執行過的任務。在這種情況下,自主意味著無人機被賦予了一個全球性的 "任務",所有關于它們的軌跡的其他決定都是由它們自己決定(計算)的,而不是由任何中央計算機控制。事實證明,由于一些限制因素,最初的計劃(對蜂群的分層但仍然是分散/分布式的控制)超出了能力(關于這個問題的更多細節在結論中給出)。簡而言之,已經能夠在與提案主題非常直接或不太直接相關的幾個領域進行研究,并在著名期刊和其他媒體上發表我們的成果。
圖1 無人機顯示了如何存儲它們,以及我們在其控制/傳感器部分建立的許多電子部件。
為了解決如何利用現有數據的增長來建立有用的模型的問題,一個自動發現模型和管道的方法是有序的,它可以利用這些數據。我們已經探索了自動發現模型和管道所需的許多方面:建立一個模型知識庫和基于推薦系統方法的模型排名,通過數據集的圖形表示進行模型推薦,通過擴展基于樹的管道優化工具(TPOT)和基于強化學習的方法進行管道生成。我們探索了一種預算意識到的超參數調整算法和神經網絡的不確定性估計。我們探索了不同的訓練方法,包括無梯度優化、零點學習和持續學習。我們還解決了神經網絡架構的問題。我們將所有這些結合起來,形成了一個模塊化的自動機器學習(AutoML)系統,該系統支持廣泛的任務類型,在項目評估中一直處于前三名。
這項研究的目的是討論目前最先進的在點云數據上執行的機器學習算法的方法。所進行的研究將應用于三維激光雷達可視化和開發(3DLIVE)團隊的內部工作,其主要目標是為目標坐標測量(TCM)創建一個可視化和與點云數據互動的新系統。所提出的機器學習方法與三維點云和計算機視覺的機器學習的三個主要課題有關,每個課題都有自己研究的論文部分。這些主題是分割、分類和目標檢測,所選的論文是最近的研究,取得了最先進的性能。這項研究的結果是選定的幾種方法,它們向3DLIVE團隊展示了最有希望的結果和有效性。有效性在很大程度上取決于算法對3DLIVE使用案例的可擴展性和適用性,以及其準確性和精確性。
在傳統的計算機視覺問題中,二維數據一直是用于推理的主要信息形式。隨著近來價格低廉且廣泛使用的3D傳感器(如蘋果深度相機、Kinect和飛行時間相機)的發展,3D數據已經變得非常豐富,并為解決計算機視覺問題提供了許多優勢。也就是說,它包含了更多的拓撲信息(深度維度、形狀和比例信息),這些信息對場景的理解至關重要,并提供了一個更自然的世界表現。由于這一技術層面的原因,將三維數據應用于自動駕駛、機器人、遙感和醫療等領域已經成為近期研究的重點,并將繼續擴展到其他領域[1]。
三維數據可以有很多格式,包括網格、深度圖像、體積網格和點云。場景理解應用中最常見的格式是點云-結構化數據,因為這種數據形式保留了三維空間中的原始幾何信息,沒有任何離散化損失。在進行分析之前,需要對點云進行定義:點云是一組數據點(x,y,z),通常代表一個(多個)三維物體的外表面,由合成或三維掃描器產生。三維數據面臨的一個挑戰是存儲要求--三維場景比二維的同一場景需要多出幾個數量級的存儲。點云解決了這個問題,因為它不需要存儲多邊形網格,因此提高了性能并降低了開銷--這是對時間敏感的應用的關鍵考慮[2]。
三維LiDAR可視化和開發(3DLIVE)項目旨在為目標坐標測量(TCM)和三維分析創建一個新系統。目前的TCM方法使用立體圖像,利用英偉達3D視覺眼鏡以及專門的GPU和顯示器來查看重疊的二維圖像,給人一種三維的感覺。然而,這種方法很難訓練,而且會造成眼睛疲勞;此外,它所使用的英偉達軟件和硬件已經達到了使用壽命的終點,不再得到支持或生產。因此,需要開發一種新的3D數據開發解決方案。
用于TCM的3DLIVE方法旨在利用主要由LiDAR傳感器收集的3D點云。然后使用游戲引擎Unity將這些數據可視化。此外,由于上述數據可以通過Octree格式有效地加載到Unity中,因此可以使用大規模的數據集。點的元數據信息可以在查看器中查看和分析,用戶可以在整個大的地理區域內導航并選擇點進行分析。有多種方法可以與數據互動,從在某一地點投放一個感興趣的點到測量距離、長度和面積。
有多種模式可以與3D點云數據互動。它們包括標準的鼠標和鍵盤、虛擬現實和增強現實(使用Hololens 2)。增強現實的互動是3DLIVE團隊的主要開發重點,因為它使用戶沉浸在數據中,同時仍然類似于立體眼鏡的方法。我們目前還在尋求使用機器學習(ML),使我們能夠自動獲得這些點云數據集中的物體信息,例如它們是什么物體,在空間內有什么界限,并進行自動目標識別(ATR)。
在過去的10-20年里,大多數深度學習計算機視覺研究都集中在2D圖像上,但隨著更多可用的3D數據的興起,最近的研究著眼于將傳統的深度學習技術應用于計算機視覺的3D數據。這項新的研究使得場景理解的場景有了重大的進展,但是在將模型從二維過渡到三維的過程中,仍然存在著一些障礙。具體到點云,數據是非結構化和無序的,這意味著以點云為輸入的深度學習網絡不能直接應用標準的深度學習方法,如卷積神經網絡(CNN)[1]。相反,必須開發定制的解決方案,使其具有包絡不變性,通常用對稱函數實現。另一個挑戰是從點云中捕捉局部和全局結構信息。通過單個點來評估點云會失去點與點之間的局部和整體結構信息,因此網絡在設計時必須通過查看鄰近的數據來考慮這一點。由于直接處理點云的困難,許多方法將點云數據轉化為一種中間格式,如將點云投影到二維圖像中,這樣就可以應用傳統的深度學習方法[1]。最后,從三維傳感器收集的點云數據并不完美--由于傳感器的局限性,采集設備的固有噪聲,以及被采集表面的反射性質,往往存在噪聲污染和異常值,會破壞數據采集[1]。從上面可以看出,在點云數據上應用深度學習方法并不簡單,需要對現有的技術進行重新設計,以便在網絡中使用,但是三維點云比二維數據的描述能力的提升超過了負面因素。
計算機視覺任務通常被分成3個不同的類別:分類、目標檢測和分割。對于點云,這些類別通常被定義為: 三維形狀分類,三維目標檢測和跟蹤,以及三維點云分割[1]。
三維形狀分類方法試圖通過首先學習每個點的嵌入,然后使用聚合方法從整個點云中提取一個全局形狀嵌入,來對點云中的物體進行分類(標記)。這個全局嵌入被輸入到幾個完全連接的層中以實現分類[1]。
三維目標檢測和跟蹤方法可以分為3類: 1)目標檢測,2)物體跟蹤,以及3)場景流估計。對于目標檢測方法,它們在每個檢測到的物體周圍為輸入的點云產生定向的三維邊界盒。接下來,三維物體跟蹤的目的是預測物體的狀態,因為它以前的狀態。與物體跟蹤相關的是三維場景流估計,即給定同一場景在兩個不同時刻的兩個點云,描述每個點從第一個點云到第二個點云的運動[1]。
與目標檢測和跟蹤一樣,三維點云的分割也可以根據所需的粒度分為三類。這些類別從最普遍到最不普遍:語義分割(場景級別)、實例分割(物體級別)和部分分割(部分級別)。給定一個點云,三維點云語義分割的目標是根據點的語義將點云分成幾個子集(例如,將場景中的所有椅子涂成相同的顏色)。更低一級的是三維點云實例分割,它比語義分割更具挑戰性,因為它需要對點進行更準確和精細的推理。實例分割不僅需要區分具有不同語義的點,還需要區分具有相同語義的獨立實例(例如,給每把椅子涂上不同的顏色,而不是所有椅子都是同一顏色)。最后,在最細微的層面上,部分分割試圖將具有相同語義的物體的各個部分分開(例如,給椅子的各個部分涂上不同的顏色),由于具有相同語義標簽的形狀部分具有較大的幾何變化和模糊性,因此這項任務特別困難[1]。
3DLIVE努力的目標之一是創建一個系統(利用機器學習),該系統接收一個地理區域的點云,將具有類似屬性的點分組為對象,并為每個組成對象和結構貼上標簽,使數據更容易使用和分析。在我們著手實現這些目標之前,我們確定研究當前點云數據集的分割和分類技術狀況將是有價值的。Guo等人在2019年完成了一項關于點云的深度學習方法的調查[1]。我們的目的是確認研究中提出的信息仍然是準確和相關的(針對點云數據集的ML是一個快速發展的領域),進行我們自己的研究并創建一個類似的調查,并決定在研究的分類、分割和目標檢測的方法中,哪些是最適合我們的使用案例的。AFRL RIEA/RIED內部研究小組(IHURT)被召集起來,與3DLIVE團隊一起做這項研究,并回答以下研究問題:
目前3D點云分割和分類的技術水平如何,哪些方法對3DLIVE的工作最有效?我們能否開始為我們打算使用的大規模三維城市點云的分割、分類和目標檢測奠定框架并制定行動方案?
這項研究的結果將使3DLIVE團隊能夠推進ML點云的分析工作。我們希望最終能復制出性能最高、最相關的分割、分類和目標檢測方法,并將其用于NGA地理空間存儲和數據管理(GRID)服務器的地理3D點云數據。此外,3DLIVE團隊已經開發了一種生成大規模合成城市點云數據集的方法,我們可以利用這種合成數據作為我們創建和使用的模型的額外訓練數據。這項研究將為3DLIVE團隊使用ML創建額外的工具來幫助作戰人員分析和衡量三維數據奠定基礎。這將最終實現上述目標,即創建一個新的TCM系統,供目標人員(如第363 ISR聯隊和其他目標部門的人員)使用,用一種利用越來越多的本地3D數據的替代技術取代目前已被淘汰的技術。
圖2. RPVNet的概述。它是一個具有多種交互作用的三分支網絡,其中體素分支和范圍分支共享類似的Unet架構,而點分支只利用每點的MLPs。
多種類無人駕駛飛行器(UAV)的使用越來越重要。因此,人類和機器人之間的互動及其互動設計變得越來越重要,特別是在戰場上的軍事偵察。然而,越來越大的無人機蜂群導致許多需要解決的挑戰,例如,具有高動態的復雜情況增加了對用戶的要求。在這項工作中,研究了以應用為導向的人類與蜂群互動的展示方案,其重點是作戰管理系統中的蜂群。在一項文獻調查中,確定了潛在的應用和當單個操作者監控作為高度自動化系統的大型蜂群時可能出現的挑戰。此外,還確定了已經存在的設計準則。基于這些結果,為獲得全面的態勢感知,對蜂群的可視化的四種不同布局進行了原型設計。
根據收集到的文獻,定義了四種群組可視化的布局。這些都是在原型人機界面中實現的。可視化的重點是戰斗管理系統中的蜂群。人機交互是通過傳統的顯示器和鼠標/鍵盤或觸摸控制實現的。首先,介紹了四個布局,之后解釋了不同的組件。
基于蜂群的顯示器將整個蜂群作為一個單元來顯示,而不是每個智能體單獨顯示(見圖2-2)。用戶通過高級命令控制整個蜂群,蜂群則自行組織。仍然可以從蜂群中分離出個別的智能體,或發送個別的命令;這些可以單獨顯示或啟用。
蜂群載體的目的是設計、制造和演示一個系統,從一個載體無人機系統(UAS)上部署和回收幾個小型無人機系統(sUAS)。該項目開發的重點是實現由部署、回收和任務執行的全循環測試確定的系統級功能。硬件開發涉及UAS設計的有限元分析(FEA),系統驗證測試,以及載體無人機、蜂群無人機和多貨艙的設計迭代。軟件開發將集中在行為樹、自主著陸、投放模式和協作式蜂群控制。蜂群載體系統及其子組件的概念源于AerospaceNU的研究。在此基礎上,具體開發將涉及最終的原型和集成,以及系統級的軟件開發,以實現全面測試。
這項研究是由本世紀以來自主系統的增加以及測試和評估其性能的挑戰性所驅動。對當前文獻的回顧顯示,提出了驗證自主系統的方法,但很少有實施。它暴露了當前驗證和確認方法中的一些差距,并提出了填補這些差距的目標。通過使用建模、軟件循環(SITL)和飛行測試,這項研究驗證了無人駕駛航空系統(UAS)的自主蜂群算法,并驗證了測試框架的一個典范。
在兩天的飛行測試中產生的13組三飛行器群數據提供了一個基線算法分析。在這些測試中,飛行器分離距離平均偏離理想狀態5.61米,分離距離違規率<6.39%。蜂群在最佳情況下實現了0.27米的平均偏差和0.43%的違規率。在5赫茲的更新率下,飛行器之間的平均數據包損失為4.94%,最佳通信滯后< 0.04秒。
通過定性和定量分析的搭配所創建的多方位經驗分析提供了對飛行器行為的完整理解。該分析還確定了算法和測試框架的各種改進領域。這項研究的結果形成了一個基線測試連續體,可用于對自主系統的正式驗證的各種后續調查。
本報告介紹了在三個主要議題方面取得的成果:
對小型無人機系統(SUAS)的分布式團隊進行實驗驗證,以協調執行復雜的行為。
開發了一個現實的多架無人機模擬器,以應用強化學習技術來協調一組小型無人機系統以達到特定目的。
設計并驗證了安裝在無人機上的帶有主動多輸入多輸出(MIMO)毫米波雷達傳感器的融合光學相機。
與驗證SUAS團隊有關的工作提出并實驗測試了我們的態勢感知、分布式SUAS團隊所使用的框架,該團隊能夠以自主方式實時運行,并在受限的通信條件下運行。我們的框架依賴于三層方法:(1)操作層,在這里做出快速的時間和狹窄的空間決定;(2)戰術層,在這里為智能體團隊做出時間和空間決定;以及(3)戰略層,在這里為智能體團隊做出緩慢的時間和廣泛的空間決定。這三層由一個臨時的、軟件定義的通信網絡協調,即使在通信受限的情況下,也能確保各層的智能體小組和團隊之間的信息傳遞稀少而及時。實驗結果顯示,一個由10個小型無人機系統組成的團隊負責在一個開放區域搜索和監測一個人。在操作層,我們的用例介紹了一個智能體自主地進行搜索、探測、定位、分類、識別、跟蹤和跟蹤該人,同時避免惡意碰撞。在戰術層,我們的實驗用例介紹了一組多個智能體的合作互動,使其能夠在更廣泛的空間和時間區域內監測目標人物。在戰略層,我們的用例涉及復雜行為的檢測--即被跟蹤的人進入汽車并逃跑,或者被跟蹤的人離開汽車并逃跑--這需要戰略反應以成功完成任務。
目標搜索和檢測包括各種決策問題,如覆蓋、監視、搜索、觀察和追逐-逃避以及其他問題。我們開發了一種多智能體深度強化學習(MADRL)方法來協調一組飛行器(無人機),以定位未知區域內的一組靜態目標。為此,我們設計了一個現實的無人機模擬器,它復制了真實實驗的動態和擾動,包括從實驗數據中提取的統計推斷,用于其建模。我們的強化學習方法,利用這個模擬器進行訓練,能夠為無人機找到接近最優的政策。與其他最先進的MADRL方法相比,我們的方法在學習和執行過程中都是完全分布式的,可以處理高維和連續的觀察空間,并且不需要調整額外的超參數。
為了給在受限通信條件下運行的SUAS開發一個分布式的分類和協調框架,我們的第一個目標是在無人駕駛飛行器(UAV)上建立一個多傳感器系統,以獲得高探測性能。眾所周知,安裝在無人機上的光學和熱傳感器已被成功用于對難以進入的區域進行成像。然而,這些傳感器都不提供關于場景的范圍信息;因此,它們與高分辨率毫米波雷達的融合有可能改善成像系統的性能。我們提出了一個配備了無源光學攝像機和有源多輸入多輸出(MIMO)毫米波雷達傳感器的下視無人機系統的初步實驗結果。毫米波雷達的三維成像是通過收集通過運動線的數據來實現的,從而產生一個合成孔徑,并使用垂直于運動軌跡的結線MIMO陣列。我們的初步結果顯示,融合的光學和毫米波圖像提供了形狀和范圍信息,最終導致無人機系統的成像能力增強。
本項目的研究目標是使高通量無線網絡的設計、開發、評估和實驗有一個根本性的飛躍,在對抗性攻擊的情況下保證安全。為此,布法羅大學(UB)和通用電氣航空系統公司(GEAS)提議:i)設計新的無線電信號傳感和協議分類技術,以自動發現無線系統的漏洞;ii)在UB的機載網絡和通信(UB-ANC)模擬器中模擬有爭議的、退化的和操作有限的(CDO)環境中的無人機系統網絡,使用SwarmControl進行動態網絡管理和控制無人機群;iii)將同相和正交(IQ)樣本級保真射頻(RF)模擬整合到模擬、整合和建模高級框架(AFSIM)中,為蜂群操作提供完整的共同操作圖。通過這個項目,我們取得了六項主要成就:i)我們以數據包邊界識別(PBR)為例,為空中(OTA)射頻信號設計了一個新的協議無關的傳感框架;ii)我們設計了OSWireless,一個新的控制平面,用于優化軟件定義的無線網絡;iii)我們提出了一個基于云的框架,稱為CloudRAFT,在此基礎上,允許實驗者通過公共云Amazon Web Service(AWS)遠程訪問和控制實驗資源,并通過云分享所產生的數據和代碼。iv)我們提出了FlyBeam,一個基于學習的框架,用于蜂群無人機網絡中的聯合飛行和波束成形控制;v)我們提出了SwarmShare,一個用于6GHz頻段蜂群無人機網絡的移動性彈性頻譜共享框架;以及vi)我們與GE航空合作,將RF-SITL與他們的硬件在環仿真環境相結合,包括三個模擬無人機的M-100飛行控制器,在AFSIM仿真框架中作為獨立智能體行動。研究成果形成了11份出版物。
該項目主要研究在存在先進的基于協議的拒絕服務(DoS)攻擊的情況下的無線網絡安全,以及開發基于深度學習理論的新的無線電信號感應和協議分類技術,以實現自動發現無線系統的漏洞。考慮到攻擊者無法進入發射或接收節點的網絡場景,本項目的目標有兩個方面:(i)設計并通過實驗測試無線電信號傳感和協議分類技術,以自動發現無線系統的漏洞;(ii)了解現有無線系統在高級DoS攻擊下的安全程度。為了實現這一目標,本項目擬開發DeepWave,這是一個新的、基于深度學習的無線電信號傳感和協議分類系統,可用于自動識別無線電信號的類型,揭示信號的隱藏模式,并進一步發現合法無線系統采用的協議的漏洞,同時不需要合法系統的合作。
同時,空軍研究實驗室信息局(AFRL/RI)已經在開發任務響應型跨層網絡協議棧方面進行了大量投資,以支持無人機系統在有爭議、被拒絕和行動受限(CDO)環境中的自主蜂群行動,最近AFRL計劃跨層異構自主彈性按需網絡(CHARON)側重于跨應用、傳輸和網絡層的動態網絡管理,之前的努力強調了物理層和介質訪問控制層的跨層認知波形技術。為了充分利用CHARON的任務響應性跨層能力,一個關鍵步驟是解決建模、仿真和模擬(MS&E)基礎設施的要求,該基礎設施在將新技術和成果從研究界過渡到任務相關環境的硬件演示中發揮著關鍵作用。為了實現這一目標,通用電氣航空系統公司(GEAS)在2019年投資40萬美元用于CHARON和UB-ANC仿真器的開發。在這個項目中,GEAS和UB建議通過執行以下兩個關鍵要素來充分整合這些努力:i)在UB-ANC模擬器中模擬CDO環境下的無人機網絡,使用Swarm Control對無人機群進行動態網絡管理和控制;ii)將IQ-fidelity RF模擬納入AFSIM,為機群操作提供一個完整的通用操作圖。
通過這個項目,已經取得了以下六項成就:
圖 1:軟件定義的數據包識別框架。
圖 7:OSWireless SDN 控制器的架構。
圖 20:CloudRAFT:無線測試平臺的基于云的遠程訪問。
FlyBeam。這項工作旨在設計具有分布式波束成形能力的高數據率蜂群無人機(UAV)網絡。主要的挑戰是,蜂群無人機網絡的波束成形增益受到無人機的飛行高度、它們的運動和由此產生的間歇性鏈路阻塞,以及單個無人機的信道狀態信息(CSI)可用性的高度影響。為了應對這一挑戰,我們提出了FlyBeam,一個基于學習的框架,用于群集無人機網絡的聯合飛行和波束成形控制。我們首先提出了一個控制問題的數學表述,目標是通過聯合控制無人機的飛行和分布式波束成形,使蜂群無人機網絡的吞吐量最大化。然后,我們設計了一種基于回聲狀態網絡學習和在線強化學習相結合的分布式解決算法。前者通過共同考慮未知的阻塞動態和影響波束成形增益的其他因素,在在線測量的基礎上,對單個無人機的效用函數進行近似。后者被用來指導FlyBeam的開發和探索。FlyBeam的有效性通過廣泛的模擬活動進行了評估。結果表明,FlyBeam可以實現顯著的(高達450%)波束成形增益。我們還研究了阻塞物和無人機飛行高度對波束成形增益的影響。結果發現,在蜂群無人機網絡中,FlyBeam可以在更密集的阻擋下實現更高(而不是更低)的波束成形增益,這一點有些令人驚訝。
SwarmShare。在這個項目中,我們提出了SwarmShare,一個用于6GHz頻段的蜂群無人機網絡的抗移動性頻譜共享框架。我們首先提出了SwarmShare問題的數學表述,其目標是在現有系統的干擾約束下,通過聯合控制無人機的飛行和發射功率以及它們與地面用戶的聯系,使無人機網絡的頻譜效率最大化。我們發現,沒有封閉式的數學模型可以用來描述從無人機到現存系統的總干擾的統計行為。然后,我們提出了一個數據驅動的三階段頻譜共享方法,包括初始功率執行,離線數據集指導的在線功率適應,以及基于強化學習的無人機優化。我們通過廣泛的模擬活動驗證了SwarmShare的有效性。結果表明,基于SwarmShare,無人機對現存系統的總干擾可以有效地控制在目標水平以下,而不需要實時的跨系統信道狀態信息。在沒有精確的無人機位置信息的共存網絡中,SwarmShare的移動彈性也得到了驗證。
圖 28:SwarmShare 頻譜共享框架。
圖 36:具有 3 個收發器和 3x3 通道塊的示例 RF-SITL 流程圖。
這個項目的目標是開發在具有挑戰性的多目標環境中自主分布式傳感器管理和融合所需的基礎方法。這涉及到開發能夠自動跟蹤多個目標的算法,根據從具有數據關聯不確定性和高誤報率的多個平臺收到的信息進行分類并分配資源。在研究者最近在多目標跟蹤和分布式傳感器融合方面的發展基礎上,該工作方案開發了能夠在大規模多傳感器多目標跟蹤應用中基于信息理論標準實現自主傳感器分配的方法。這是通過重新評估信息理論中的關鍵工具來實現的,這些工具適用于基于點過程理論的多目標監視的挑戰,該理論旨在適應單個目標的狀態和目標數量的不確定性。所開發的信息理論方法被應用于多傳感器問題,使人們能夠決定如何分配傳感器資源,以及完善對場景的認識。所開發的工具將有助于減少監測單一傳感器饋電的勞動密集型負擔,并能做出適應性決定,以優化多模式網絡的運行,并增強對監測區域的整體認識。對多目標跟蹤情景的信息理論表述的關注,將使人們能夠驗證傳感器饋電是否能夠可靠地融合,以避免數據損壞的可能性。該項目在智能傳感方面提供了關鍵的先進技術,以實現動態環境中的連續和適應性監視。這些將是可擴展的,可用于從多個分布式傳感器對許多目標進行大規模跟蹤。
該項目的總體目標是研究和開發基于信息理論原則的分布式多傳感器多目標系統的自主傳感器控制的新策略:
為大規模系統的多目標跟蹤開發可擴展的解決方案。
開發基于信息論原理的多傳感器融合的分布式解決方案。
確定多傳感器多目標跟蹤系統可以交換多少信息。
該項目為多傳感器多目標跟蹤開發了基本的解決方案:
對許多目標進行大規模跟蹤。問題的規模越來越大,因此解決方案需要可擴展,跟蹤許多目標需要減輕組合復雜性的算法。多目標跟蹤的低復雜度解決方案將被開發出來,并在復雜環境中進行測試。開發了一種用于穩健地跟蹤大量目標的方法,該方法在目標數量和測量數量上是可擴展的,這使得數百萬目標可以被跟蹤。
確定多傳感器多目標跟蹤系統的信息含量。在具有高密度信息的傳感器網絡中,帶寬可能是多傳感器多目標跟蹤的一個制約因素。這個項目得出了確定用于多目標跟蹤的傳感器網絡的信息含量的結果。預計這將有助于評估傳感網絡的效率和有效性,并與發送數據的數量和頻率相平衡。
來自多個傳感器的數據的分布式整合。操作員需要根據來自多個跟蹤系統的信息做出決定,以提高整體的態勢感知。為多傳感器集成開發了一種分布式多傳感器多目標跟蹤的新方法,該方法可減輕來自不準確或誤導性數據源的損壞。
對多目標監視應用中的威脅進行評估。對許多物體的大規模跟蹤能夠識別直接威脅。然而,有些威脅可能比其他威脅更有針對性。開發了一種新的對抗性風險的表述,為操作人員提供態勢感知,以幫助確定傳感資產的優先次序。
目標跟蹤估計器的性能界限。費舍爾信息的倒數,即克拉默-拉奧約束,為參數的估計器提供了一個約束,是統計分析的基礎。它為一個參數提供了一個可實現的最小方差或協方差。根據量子場理論的數學概念,為點過程推導出克拉默-拉奧約束,將這一概念推廣到具有空間變量的變量。
這項工作的目的是開發能夠成功處理復雜動態環境中順序決策的深度終身學習方法,重點是多Agent情報、監視和偵察(ISR)場景。我們為深度卷積神經網絡開發了一個新的架構,支持通過去卷積因子化的終身學習(DF-CNN),探索了通過Distral和Sobolev訓練的策略提煉的組合,并開發了一個混合控制器,將深度學習應用于ISR智能體。我們的方法在標準基準深度學習數據集、DOOM環境和ATE3模擬環境中的ISR場景中進行了評估。
我們的主要貢獻是反卷積因子卷積神經網絡(DFCNN)。DF-CNN框架調整了標準卷積神經網絡(CNN)框架,以實現任務之間的轉移。它在每個CNN層維護一個共享知識庫,并通過這個共享知識促進不同任務的CNN之間的轉移。每個具體任務的CNN模型的各個過濾層都是由這個共享知識庫重建的,隨著網絡在多個任務中的訓練,這個知識庫會隨著時間的推移而調整。DF-CNN代表了ELLA終身學習框架對深度網絡的概括。
實驗表明,DF-CNN在終身中的基準識別任務上的表現優于其他方法(包括單任務學習、低層的硬參數共享和漸進式神經網絡)。此外,該框架能夠抵抗災難性遺忘,同時仍然允許從未來的學習中反向轉移到以前學習的模型。
對于深度強化學習,我們研究了將Sobolev訓練整合到Distral多任務框架中,以努力改善轉移和訓練,探索了DF-CNN在深度RL中的應用,并開發了一個混合控制器,將本地學習的深度RL策略結合在一起,在ATE3仿真環境中完成ISR場景。