在這份報告中,我們提出了一種數據驅動的方法,用于實驗室技術載具的閉環控制。我們使用近似策略優化(PPO)算法,這是一種強化學習算法,已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性,此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的,但在獎勵稀疏的情況下,它確實受到了影響;這恰好是我們的精確彈藥應用的情況,其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題,我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段,這些階段的復雜度逐漸增加,緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。
最近,用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展,特別是深度學習和人工神經網絡。強化學習(RL)是深度學習的一種類型,旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射,從而使所需的輸出最大化。這個程序的靈感來自于自然過程,因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中,來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動,而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中,我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化(PPO)RL算法的。
快速發展的機器學習行業導致了RL的新進展,使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入,如圖像幀,也可以推斷出行動,使性能最大化。很多時候,這種方法使閉環控制更加直接,如在基于視覺的系統中,基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反,它是一種基于模型的方法,依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似,往往阻礙了基于模型的方法,導致控制器性能不足或保守的控制器。例如,自主特技飛行是一個具有挑戰性的控制問題,因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳,但它們確實對已知的操作領域提供了寶貴的性能保證,使它們通常是安全的和可預測的。另外,無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動,無模型方法可以學習系統的復雜性,甚至可以擴展使用的代理數量。然而,他們需要更多的數據,而且控制設計中的性能保證可能更難實現。
RL方法得益于環境的簡化,如獎勵的塑造或行動空間和狀態的離散化,以實現更快的學習。在經典的RL任務中,可以同時收集行動和獎勵,以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如,當訓練一個自主代理找到一個迷宮的盡頭時,在每個時間步驟中,沒有跡象表明代理正在對系統應用正確的行動,直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習,設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點,即無意中支配了閉環控制的解決方案,減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而,當有廣泛的領域知識可供利用時,這種方法仍有其優點。好奇心驅動的方法采取相反的方法,鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的,因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化,使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習,其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是,當任務容易時,獎勵會在開始時更頻繁地出現,為RL算法提供有價值的反饋,以用于調整其控制器。
RL已經在許多空間得到了實現,包括醫療、社會和工程應用。在本報告中,我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述,這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學,自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰,比例導航可能難以實現。
比例導航是基于線性化的嚙合幾何,這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性,這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分,這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而,由于稀疏的獎勵信號,機器學習過程非常困難。
在這份報告中,我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境,其中嵌入了一個功能模擬單元(FMU)模型,以密切模擬真實的射彈。因此,由于尋找有用的控制策略所需的探索任務的規模,這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵,因此實施了一種課程學習方法,其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明,通過這個系統,我們可以學會駕駛智能彈藥并精確地擊中目標。
我們在第3節中介紹了我們的環境模擬,在第4節中提供了PPO算法的概述,在第5節中介紹了我們的課程學習方法,在第6節中給出了訓練的概述,然后在第7節中介紹了我們的結果。
完全依靠自主系統的技術在推動海底領域的環境研究方面發揮了重要作用。無人潛水器(UUV),如美海軍研究生院的UUV研究平臺,在推進用于研究目的的自主系統的技術水平方面發揮了作用。使用自主系統進行研究正變得越來越流行,因為自主系統可以將人類從重復性的任務中解脫出來,并減少受傷的風險。此外,UUVs可以以相對較低的成本大量制造。此外,由于計算和電池技術的進步,UUVs可以在沒有人類干預的情況下承擔更多的擴展任務。
UUV的重要部分之一是控制系統。UUV控制系統的配置可能會根據車輛的有效載荷或環境因素(如鹽度)而改變。控制系統負責實現和保持在目標路徑上的穩定飛行。PID控制器在UUV上被廣泛實施,盡管其使用伴隨著調整控制器的巨大成本。由于兩個主要問題,陡峭的成本并不能提供穩健或智能解決方案的好處。
第一個問題是,PID控制器依賴于復雜的動態系統模型來控制UUV。動態系統模型有簡化的假設,使控制問題得到有效解決。當假設不成立時,PID控制器可以提供次優的控制,甚至會出現完全失去控制的情況。第二個問題是,PID控制器并不智能,不能自主學習。PID控制器需要多名工程師和其他人員花數天時間收集和分析數據來調整控制器。調整PID控制器是一項手動任務,會帶來人為錯誤的機會。
在使用深度強化學習方法進行自主車輛控制系統方面,有很多正在進行的研究,并且已經顯示出有希望的結果[1,2]。深度強化學習控制器已被證明優于執行路徑跟蹤任務的UUV的PID控制器[3]。此外,與PID控制器相比,基于深度強化學習的控制器已被證明能夠為無人駕駛飛行器(UAVs)提供卓越的姿態控制[4-5]。雖然這個例子不是專門針對UUV的,但這個來自空中領域的概念可以轉化到海底領域。
一些最流行的深度強化學習算法被用于自主車輛控制系統的開發,包括近似策略優化(PPO)[6]和深度確定策略梯度(DDPG)[7]算法。本研究將重點關注DDPG算法。DDPG算法是一種角色批判型的深度強化學習算法。Actor-Critic算法同時學習策略和價值函數。Actor-Critic算法的概念是:策略函數(演員)根據當前狀態決定系統的行動,而價值函數(批評家)則對行動進行批評。在深度強化學習中,政策和價值函數是由DNNs近似的,在本研究中具體是多層感知器(MLPs)。
與UUV的傳統PID控制器相比,基于DDPG算法的深度強化學習控制器有兩個主要好處。第一個好處是,DDPG算法是無模型的。它不需要任何關于車輛或環境動態的知識來提供最佳控制。因此,它避免了有效解決復雜的車輛或環境動態系統模型所需的簡化假設的弊端。其次,基于深度強化學習的控制系統可以被自主地調整(訓練)。與PID控制系統相比,這將減少調整基于深度強化學習的控制系統所需的資源。
與UUV的傳統PID控制器相比,基于DDPG算法的深度強化學習控制器有兩個主要好處。第一個好處是,DDPG算法是無模型的。它不需要任何關于車輛或環境動態的知識來提供最佳控制。因此,它避免了有效解決復雜的車輛或環境動態系統模型所需的簡化假設的弊端。其次,基于深度強化學習的控制系統可以被自主地調整(訓練)。與PID控制系統相比,這將減少調整基于深度強化學習的控制系統所需的資源。
在利用降低精度來提高強化學習的計算效率方面,目前的研究很有限。[11]的作者展示了如何使用量化技術來提高深度強化學習的系統性能。文獻[12]的作者展示了一種具有6種方法的策略,以提高軟行為批評者(SAC)算法低精度訓練的數值穩定性。雖然正在進行的研究集中在基準強化學習問題上,但這一概念在科學應用上相對來說還沒有被開發出來,比如使用深度強化學習代理對UUV進行連續控制。
本研究將證明在混合精度和損失比例的情況下,訓練DDPG代理對UUV的連續控制不會影響控制系統的性能,同時在兩個方面使解決方案的計算效率更高。首先,我們將比較用固定和混合數值精度訓練的DDPG代理的性能與1自由度速度控制問題的PID控制器的性能。我們將研究用固定和混合精度訓練DDPG代理的訓練步驟時間。其次,本研究將研究DNN大小和批量大小的閾值,在此閾值下,用混合精度訓練DDPG代理的好處超過了計算成本。
本文的其余部分結構如下。問題表述部分將提供關于DDPG算法、NPSUUV動力學、PID控制和混合數值精度的簡要背景。實驗分析部分將描述本研究中運行的數值實驗的設置和結果。最后,在結論和未來工作部分將描述整體工作和未來計劃的工作。
本文介紹了在卡勒獎學金第一年內進行的研究,研究如何自主控制檢查平臺向故障平臺行駛以完成檢查相關任務。這項研究的目的是開發一個有限時間的相對位置控制框架,使檢查衛星能夠安全地接近發生故障的平臺,因為平臺的通信能力受到阻礙,導致其在接近過程中根本無法通信。故障平臺導致獨特的挑戰,即平臺的狀態被認為是先驗未知的,檢查器可能無法從故障平臺提供的準確和連續的信息中受益;故障平臺也可能受到機動和干擾。
在該獎學金的第一期內,使用 MATLAB 和 Simulink 開發了仿真軟件,以演示檢查平臺與故障平臺執行會合操作。首先引入基于視線的相對運動模型,直接使用導航信息,然后以自適應非奇異終端滑模控制器的形式開發魯棒控制框架,以確保閉環系統穩定并保證有限時間收斂到所需的狀態。然后在最終討論未來的工作和目標之前展示和討論模擬結果。
合成孔徑激光雷達(SAL)與合成孔徑雷達(SAR)有幾個不同的現象,使其成為自動目標識別(ATR)有希望的候選者。SAL的漫射性質導致目標上有更多的像素。光學波長提供厘米級的分辨率,其孔徑基線比SAR基線小10000倍。雖然漫反射散射和光學波長有一些優勢,但也有一些挑戰。與SAR相比,SAL的漫反射性質導致了更明顯的斑點效應。光學波長更容易受到大氣噪聲的影響,導致形成的圖像失真。雖然這些優點和缺點在理論上被研究和理解,但還沒有被付諸實踐。本論文旨在量化從鏡面SAR切換到漫反射SAL對算法設計的影響。此外,鑒于CAD模型的幾何和物理特性,提出了一種性能預測和模板生成的方法。這種方法不依賴于形成圖像,并減輕了生成多個斑點場和冗余光線追蹤的計算負擔。
圖2.1: MSTAR目標的例子和目標的照片。MSTAR圖像包含目標、背景和陰影信息。
自動目標識別(ATR)是指從收集的傳感器信息中自動檢測感興趣的目標并進行分類的行為[72]。ATR是一個多學科的領域,包括但不限于信號處理、圖像處理、人工智能、統計和人的表現。一個ATR系統要經歷一個多步驟的過程。這些步驟包括但不限于:
圖1.1顯示了ATR過程的一個例子。
為了收集ATR數據,我們利用了各種傳感方式。這些模式包括合成孔徑雷達(SAR)、合成孔徑聲納(SAS)、3-D激光雷達、超光譜成像(HSI)、廣域運動圖像(WAMI)、激光測振和紅外圖像。這些模式的例子見圖1.2。
圖1.1: 一個改編自[14]的ATR管道實例。在這個例子中,收集的傳感器信息是一個場景的圖像。另外還采取了一些步驟,如雜波抑制。
圖1.2:各種傳感模式的例子。每種模式都有自己的一套優勢和劣勢,普遍的操作條件和使用案例。圖片分別來自[22、28、24、80、1、55]。
每種模式都有其自身的優勢、劣勢和使用案例。每種模式都有一套獨特的因素,影響ATR系統的有效性。這些因素被稱為操作條件(OCs)。對OCs的研究以及它們如何影響ATR系統是ATR研究的前沿問題。OCs可以分為三個主要類別[72, 54]:
傳感器OCs - 影響傳感器收集高質量數據能力的因素。此類OCs包括傳感器噪聲、相位誤差和運動補償。
環境因素--改變傳感器和目標的環境屬性的因素。此類OCs包括天氣、對抗性干擾器、無源能源、雜波、樹葉和大氣噪聲。
目標OCs--改變物理屬性或感興趣的目標的因素。此類OCs包括偽裝網、銜接、材料特性、型號變化、誘餌和操作模式。
任何給定的傳感器的OC空間可能大得無法估量。第2章討論了克服這一問題的策略。
本節前面提到的模式有大量的知識,討論了傳感器現象學、ATR算法和傳感器現象學。本論文的重點是合成孔徑LADAR。對于ATR的目的,SAL是相對未被探索的。正如第二章所討論的,SAL的知識體系主要包括傳感器設計和現象學。對現象學和設計進行了很好的研究,可以確定在SAL數據上設計一個有效的ATR的潛在問題。此外,還討論了SAR ATR的技術現狀。
本文件的其余部分組織如下。
第2章是對SAR ATR技術現狀的回顧。討論了分類技術、預測性能、操作條件和合成數據策略。對SAL現象學的歷史和討論進行了更全面的介紹。
第3章介紹了基于第2章的回顧,在SAL和ATR的知識體系中的研究差距。列出了目標貢獻和影響。
第4章介紹了SAL ATR研究的方法和結果,以及SAL ATR性能預測的擬議技術。
第5章總結了第4章的結果并討論了擬議的未來工作。列出了所提出的和擬議的工作的發表時間表。
在有環境因素的城市區域內安全有效地使用四旋翼飛行器,對美國軍事和民用部門具有巨大的重要性。本技術報告探討了一個高度適應性的模擬設置,其中有一個包含學習元素的非線性控制器。其他模型因素--如無人機的幾何形狀、權重和風的力量--在所提出的框架內很容易被修改。用虛幻引擎進行的模擬,可以結合現實世界的城市數據、現實的風和現有的開源軟件。
無人系統和無人駕駛航空系統(UAS)的使用在全世界的軍隊中激增,在通信、監視、偵察和戰斗中都有應用(Nacouzi等人,2018)。在敵對地區,無人機系統將受到多種威脅,包括網絡和物理威脅,以及環境危害。生存和任務的成功往往取決于以最小的通信或依賴全球導航衛星系統(GNSS)的能力,如GPS(Guvenc等人,2018;Sathyamoorthy等人,2020;Fan等人,2022)。例如,無人機系統的通信可用于檢測和獲得無人機系統的位置,而基于衛星的導航很容易被欺騙或干擾,因為信號非常弱。其他傳感器也經常被用來增強GNSS的位置分析,并可以用來取代它,如光學系統--包括照相機、雷達、光探測和測距(LiDAR)系統和慣性測量單元(IMU)(Angelino等人,2012)。這些都提出了自己的挑戰。慣性測量單元是標準設備,但只能檢測線性和角加速度,同時通過檢測地球的局部磁場來確定方向(共9個自由度)。因此,位置誤差,即測量的加速度的第二個時間積分,會隨著時間的推移而累積。在使用IMU進行UAS導航時,其他令人擔憂的來源包括環境影響(即風或降水)。 UAS結構的物理變化,如增加一個傳感器或武器包,包括武器發射后的變化,使工作進一步復雜化。這種質量和質量分布的變化改變了UAS的質量中心和慣性張量。光學傳感器、雷達和LiDAR系統增加了重量,并經常發射射頻或光,使它們更容易被探測到和/或需要處理資源。增加的重量和/或處理可能對電池壽命產生不利影響,從而影響運行時間和整體可靠性。
為了解決這些問題,我們正在研究在大風環境中使用控制算法,以了解IMU信號如何在控制中被用來考慮(和/或改變)UAS的位置計算。再加上不確定性措施,這些最終可用于檢測UAS飛行性能的變化,或對GNSS信號的欺騙。
城市環境是安全和可靠的無人機系統運行的第二個關注領域(Watkins 2020)。它們被認為是國防部行動的一個挑戰領域,也是政府和商業服務的一個巨大的技術增長領域。在這份報告中,我們展示了一個模擬空間,我們正在建立專門用于模擬城市環境中的無人機系統,以解決自主和半自主控制的問題,重點是環境的相互作用,包括風和靜態碰撞威脅。物理學和控制的關鍵部分直接用C++實現。除此之外,在可能的情況下,我們正在利用當前的免費和開源資源(即軟件、軟件框架和數據),但要注意的是,我們包括使用一些在產品商業化成功后需要付費的工具。我們采取了一種模塊化的方法,隨著其他軟件框架和系統的成熟,將能夠靈活地過渡到其他軟件框架和系統。我們目前的系統已經基于用于小型無人機系統的PX4控制器庫和實時發布-訂閱(RTPS)數據傳輸協議。RTPS應能使我們的發展在其他工具成熟時過渡到其他工具,并使用通用的應用編程接口(即API)過渡到其他工具和數據,如計算的風數據。對于圖形和用戶界面,我們使用虛幻引擎(UE)(Matej 2016),這是一個游戲引擎,提供最先進的圖形功能和我們的模型中使用的一些物理學--最重要的是無人機系統和其環境之間的碰撞檢測。
第2-4節詳細介紹了整個模擬的主要計算部分:納入現實世界的城市數據,生成現實的風模型,無人機的幾何和物理建模,以及線性和非線性控制。我們對整體模擬的這些主要部分中的每一個都依賴開源軟件,如UE、OpenStreetMap(OSM)(Anderson等人,2019年)、Mapbox和AirSim(Shah等人,2017年),并根據需要詳細說明(見圖1;例如,真實城市的模型導入游戲引擎中)。第5節和第6節提供了樣本結果和結語。
圖1 將城市數據納入UE進行大規模模擬的兩個例子。伊利諾伊州的芝加哥(上);弗吉尼亞州的水晶城(下)。這兩張圖片都是使用開源工具創建的,將開源的Mapbox城市數據導入UE中。
本報告介紹了對動態數據驅動應用系統(DDDAS)異常檢測和響應的研究,以建立抗攻擊的多智能體系統。報告涵蓋了2019年1月至2021年11月期間的情況。除了之前報告中介紹的成就,我們還展示了一些關于所述策略實際執行的新結果,以及完成項目所有活動所需的最后細節。由于Covid-19大流行病,封鎖阻礙了實驗室的工作,不被允許雇用研究生研究助理,項目要求延期,并在2020年11月獲得批準。大學在2021年第二學期開放了實驗室,當時能夠雇用四個本科生研究人員。因此,所有的活動都是由這些本科生、三名研究生和兩名主要研究人員制定的。
這份最終報告的組織結構如下:
(i) 第一節總結了項目的目標和活動,到目前為止取得的進展,所需要素的購買情況,以及書面論文的清單。
(ii) 第二節介紹了一些與所制定的戰略共同的初步情況。
(iii) 第3節介紹了開發的方法和實驗結果。
(iv) 第4節提出了一種新穎的離散時間種群動力學來實現機器人的編隊。
(v) 第5節介紹了所開發的策略的發展和進一步的實際執行情況,以供測試。
(vi) 最后,第7節介紹了所開發工作的最終結論。
具有多個智能體的系統使我們能夠開發不同的策略來控制大規模的互連系統。與有單個智能體的系統相比,有多個智能體的系統可以更容易和更快地完成監視等任務。對這類系統的研究使我們能夠對動物和人類的行為進行建模,并根據這些行為設計控制策略。這種策略從基于鳥群和蜜蜂覓食的算法[1],沿網絡的分布式傳感[2],延伸到耦合振蕩器的同步[3],等等[4,5]。
進化博弈論對生物種群有重要的啟發作用,當與物理系統適當結合時,博弈論可以優化系統行為。這種理論的使用允許為不同的應用設計分布式控制器,如水系統的控制[6],或孤立的微電網的同步[3]。大多數提出的問題解決方案都采用連續時間的方法。然而,為了在一些系統上正確實施這些策略,需要有離散時間控制器。即使連續時間控制器是穩定的,離散化也可能變得不穩定。因此,必須發展理論結果以確保離散時間控制器是穩定的。
除了提到的離散化問題,控制器和系統還面臨另一個問題,因為它們很容易受到攻擊。惡意智能體可以修改系統信息以損害用戶和物理工廠。在多智能體系統中,對一個智能體的攻擊可以滲透到整個系統中,因為它向其余的智能體發送了損壞的信息。此外,攻擊者可以修改一個智能體發送給其鄰居的信息。對真實系統的一些攻擊表明,有必要開發一種自動反應來面對其影響[7, 8]。
該項目解決了上述問題,即使用離散時間群體動力學的系統控制和緩解對控制系統的攻擊。因此,本項目所取得的貢獻可以概括為以下幾點。首先,我們開發了一種策略來檢測和緩解對系統智能體之一的傳感器的攻擊。該策略減輕了對被攻擊智能體的影響,并防止攻擊通過通信網絡傳播到整個系統。第二,我們設計了一個使用新的離散時間群體動力學來優化凸函數的策略。我們開發了理論結果以確保系統的穩定性。這一新穎的發展使我們能夠設計一個控制器來實現機器人的編隊。第三,我們開發了一個基于軟件定義的網絡(SDN)的策略,以減輕對通信鏈路的攻擊。我們說明,使用SDN為網絡物理系統提供了不同的能力,以減輕智能體之間的通信攻擊。最后,我們不僅模擬,而且還在一個有多個差動驅動機器人的系統上實施了上述的一些策略,以顯示其效率。
為無人駕駛地面車輛(UGVs)設計并實現一個能夠減輕對傳感器讀數攻擊的編隊控制器。這項工作的重點是至少有三個機器人的編隊,并限于完整性和重放攻擊。
之前所說的目標可以在以下具體目標中分開:
開發一個編隊控制器,用于幾個UGV,即三到六個機器人,以及至少三個幾何編隊分布。
開發一種能夠檢測機器人傳感器異常情況(攻擊/失敗)的機制。
開發至少一種機制,能夠協調測量值和估計值,并計算控制行動所需的調整,以減輕異常情況對機器人編隊的影響。
開發一個機制的性能指數,以量化當緩解機制被添加到編隊控制器中時攻擊的影響的減少。
為了實現這些目標,我們在項目提案中陳述了以下活動:
(i) 設計和實現編隊隊長的控制器。
(ii) 設計和實現緩解對編隊領導的路徑跟蹤任務的攻擊的機制。
(iii) 選擇要探索的編隊集合,即定義每個編隊的機器人數量和幾何形狀(至少有三種情況)。
(iv) 為三個機器人系統的每個編隊中的跟隨者機器人設計和實現控制器。
(v) 開發機制,以檢測由領導者發送和/或由兩個追隨者接收的信息的異常情況(被攻擊的信息可能是不同的)。
(vi) 開發機制以減輕攻擊對編隊中兩個跟隨者機器人的影響。
(vii) 在一次專門會議上發表部分成果。該出版物將包括緩解對一個有三個機器人的編隊中的領導者和追隨者機器人的攻擊。
(viii) 設計和實現六個機器人的多智能體系統中的領導者和跟隨者的編隊控制器。
(ix) 開發機制,以檢測有六個智能體的系統中由領導者發送和/或由追隨者接收的信息的異常情況(在攻擊下可能是不同的)。
(x) 為六個智能體和不同的隊形形狀擴展緩解機制。
(xi) 定義一個性能指數,以量化受攻擊系統和包括緩解機制的受攻擊系統之間的差異。
(xii) 在專業期刊上發表最終結果。
圖1:不同移動地面機器人平臺的比較。EPFL是洛桑聯邦理工學院,USC是南加州大學。改編自[9]。
為了完成上述活動,我們已經購買了一些硬件。圖1顯示了不同研究小組制造的一些機器人的主要特征。盡管有些機器人如Khepera IV呈現出許多功能,但這些機器人的價格很高,或者它們沒有商業化的供應。因此,我們選擇了e-puck第2版;它有足夠的功能來開發目前的工作,其價格允許我們用現有的預算購買幾個機器人。
我們總共購買了六個地面機器人,一臺高性能的和三臺中等大小的計算機。表1顯示了每個部件的不含稅成本。機器人的價格是不同的,因為它們是在不同的日期購買的。此外,為了實現機器人的分布式通信,購買了6個樹莓派,為了檢測機器人的位置,還購買了一個攝像頭。作為項目的對應方,博士生Luis Francisco C′ombita在2015年獲得Colciencias 727資助的預算中的一些資源被用來購買項目用品,以及博士生Jorge Alfredo Lopez Jimenez的一些預算資源。Colciencias是哥倫比亞相當于國家科學基金會(NSF)的機構。
表1:為項目發展所獲得的要素
在可視范圍內的空戰涉及執行高度復雜和動態的活動,需要快速、連續的決策以生存和擊敗對手。戰斗機飛行員花費數年時間來完善交戰戰術和機動動作,然而不斷出現的無人自主飛行器技術引起了一個自然的問題--自主無人作戰飛行器(AUCAV)能否被賦予必要的人工智能,以獨立完成具有挑戰性的空戰機動任務?我們制定并解決了空戰機動問題(ACMP),開發了一個馬爾可夫決策過程(MDP)模型來控制一個尋求摧毀對手飛行器的AUCAV。該MDP模型包括一個5自由度、點質量的飛機狀態轉換模型,以準確表示機動時的運動學和能量。ACMP中狀態空間的高維和連續性質使得經典的解決方法無法實施。相反,我們提出了一種近似動態規劃(ADP)方法,其中我們開發并測試了一種近似的策略迭代算法,該算法實現了神經網絡回歸,以實現AUCAV的高質量機動策略。為了計算測試的目的,我們指定了一個有代表性的攔截場景,其中AUCAV的任務是保衛一個責任區,必須與試圖穿透保衛空域的敵方飛機交戰并摧毀它。進行了幾個設計實驗,以確定飛機特性和對手的機動戰術如何影響擬議ADP解決方案的功效。此外,設計的實驗使高效的算法超參數調整成為可能。ADP生成的策略與目前ACMP文獻中發現的兩個公認的基準機動策略進行了比較,一個只考慮位置,一個同時考慮位置和能量。在調查的18個問題實例中,ADP策略在18個實例中的15個超過了只考慮位置的基準策略,在18個實例中的9個超過了位置-能量基準策略,在最能代表典型空中攔截交戰的問題實例中獲得了更好的殺傷概率。作為一個有趣的探索,以及對我們方法的定性驗證,由ADP策略產生的機動與標準的、基本的戰斗機機動和常見的特技飛行機動進行了比較。結果表明,我們提出的ADP解決方法產生了模仿已知飛行動作策略。
人工智能技術的出現為空戰領域的許多研究鋪平了道路。學術界和許多其他研究人員對一個突出的研究方向進行了研究,即無人機的自主機動決策。形成了大量研究成果,但其中基于強化學習(RL)的決策更有效。已經有許多研究和實驗使agent以最佳方式到達目標,最突出的是遺傳算法(GA),A*,RRT和其他各種優化技術已經被使用。強化學習因其成功而廣為人知。在DARPA阿爾法斗狗試驗(Alpha Dogfight Trials)中,強化學習戰勝了由波音公司培訓的真正的F-16人類老飛行員。這個模型是由Heron系統公司開發的。在這一成就之后,強化學習帶來了巨大的關注。在這項研究中,將無人機作為目標,該無人機有一個杜賓斯車動態特性,在二維空間中使用雙延遲深確定策略梯度(TD3)以最佳路徑移動到目標,并用于經驗回放(HER)。首先,它的目的是讓agent采取最佳路徑到達目標,過程中有障礙物。在每個情節中,我們的agent從一個隨機點開始,我們的目標是穩定的,其位置沒有變化。它以最佳和快速的方式找到自己的路徑。然后,為了測試機制的極限,使我們的agent更難達到目標,并使其執行不同的機動性,我們添加了障礙物。它表現得很好,克服了所有的障礙。現在的研究是讓兩個無人機作為多agent在二維空間進行斗狗。這篇研究論文提出了一種運動規劃的算法,它使用了雙延遲深度確定性策略梯度(TD3),這是一種為具有連續行動的MDP定制的算法,使用強化學習作為基礎。