本文利用基于博弈論的粒子群優化(GPSO)為多個無人駕駛飛行器(UAVs)提出了新的合作路徑規劃算法。首先,編隊路徑規劃被表述為成本函數的最小化,其中包括每個無人機的多個目標和約束條件。然后,建立了一個基于博弈論的框架,將最小化問題歸結為尋找Stackelberg-Nash均衡的問題。接下來,開發了層次化的粒子群優化算法來獲得全局最優解。仿真結果顯示,GPSO算法可以為多個無人機生成高效可行的飛行路徑,在收斂率和靈活性方面優于其他路徑規劃方法。該編隊可以調整其幾何形狀以適應工作環境。對一組三個無人機的實驗測試證實了所提出的方法在實際應用中的優勢。
本報告介紹了在三個主要議題方面取得的成果:
對小型無人機系統(SUAS)的分布式團隊進行實驗驗證,以協調執行復雜的行為。
開發了一個現實的多架無人機模擬器,以應用強化學習技術來協調一組小型無人機系統以達到特定目的。
設計并驗證了安裝在無人機上的帶有主動多輸入多輸出(MIMO)毫米波雷達傳感器的融合光學相機。
與驗證SUAS團隊有關的工作提出并實驗測試了我們的態勢感知、分布式SUAS團隊所使用的框架,該團隊能夠以自主方式實時運行,并在受限的通信條件下運行。我們的框架依賴于三層方法:(1)操作層,在這里做出快速的時間和狹窄的空間決定;(2)戰術層,在這里為智能體團隊做出時間和空間決定;以及(3)戰略層,在這里為智能體團隊做出緩慢的時間和廣泛的空間決定。這三層由一個臨時的、軟件定義的通信網絡協調,即使在通信受限的情況下,也能確保各層的智能體小組和團隊之間的信息傳遞稀少而及時。實驗結果顯示,一個由10個小型無人機系統組成的團隊負責在一個開放區域搜索和監測一個人。在操作層,我們的用例介紹了一個智能體自主地進行搜索、探測、定位、分類、識別、跟蹤和跟蹤該人,同時避免惡意碰撞。在戰術層,我們的實驗用例介紹了一組多個智能體的合作互動,使其能夠在更廣泛的空間和時間區域內監測目標人物。在戰略層,我們的用例涉及復雜行為的檢測--即被跟蹤的人進入汽車并逃跑,或者被跟蹤的人離開汽車并逃跑--這需要戰略反應以成功完成任務。
目標搜索和檢測包括各種決策問題,如覆蓋、監視、搜索、觀察和追逐-逃避以及其他問題。我們開發了一種多智能體深度強化學習(MADRL)方法來協調一組飛行器(無人機),以定位未知區域內的一組靜態目標。為此,我們設計了一個現實的無人機模擬器,它復制了真實實驗的動態和擾動,包括從實驗數據中提取的統計推斷,用于其建模。我們的強化學習方法,利用這個模擬器進行訓練,能夠為無人機找到接近最優的政策。與其他最先進的MADRL方法相比,我們的方法在學習和執行過程中都是完全分布式的,可以處理高維和連續的觀察空間,并且不需要調整額外的超參數。
為了給在受限通信條件下運行的SUAS開發一個分布式的分類和協調框架,我們的第一個目標是在無人駕駛飛行器(UAV)上建立一個多傳感器系統,以獲得高探測性能。眾所周知,安裝在無人機上的光學和熱傳感器已被成功用于對難以進入的區域進行成像。然而,這些傳感器都不提供關于場景的范圍信息;因此,它們與高分辨率毫米波雷達的融合有可能改善成像系統的性能。我們提出了一個配備了無源光學攝像機和有源多輸入多輸出(MIMO)毫米波雷達傳感器的下視無人機系統的初步實驗結果。毫米波雷達的三維成像是通過收集通過運動線的數據來實現的,從而產生一個合成孔徑,并使用垂直于運動軌跡的結線MIMO陣列。我們的初步結果顯示,融合的光學和毫米波圖像提供了形狀和范圍信息,最終導致無人機系統的成像能力增強。
低成本、小型機器人平臺的廣泛使用,催生了機器人群。在機器人群中,大量的小型機器人平臺共同運作,協作完成一項復雜的任務。在所有有用的應用中,機器人群技術也可能對安全關鍵領域構成威脅。在機場、軍事基地、政府設施等安全關鍵區域周圍出現敵對的機器人群,意圖收集關鍵信息,或對該區域進行物理破壞,可能會造成災難性的后果。在這篇論文中,我們考慮了一個多智能體的區域防御游戲,它由以下部分組成:1)一隊或一群自主的、敵對的機器人平臺(稱為攻擊者),旨在到達一個安全關鍵區域,2)一隊自主的機器人平臺(稱為防御者),旨在阻止攻擊者到達安全關鍵區域,從而防止攻擊者可能造成的任何損害。我們考慮兩種類型的攻擊者:i)風險規避型,即關心自己生存的攻擊者;ii)風險承擔型,即不一定關心自己的生存,試圖到達安全關鍵區域的攻擊者。我們為防御者團隊提供協作任務分配和運動規劃算法,這樣他們就可以防止因安全關鍵區域附近存在規避風險和承擔風險的攻擊者而可能造成的損害。
首先,我們開發了一種叫做 "StringNet Herding"的放牧算法,讓防衛者將規避風險的攻擊者趕到一個預先指定的安全區域,在一個障礙物密集的環境中遠離安全關鍵區域。我們假設規避風險的攻擊者通過遠離防御者和環境中的其他靜態和動態智能體來避免對自己的傷害。在 "StringNet Herding "方法中,"規避風險的攻擊者 "被圍在由防御者形成的封閉的障礙物隊列中,稱為 "StringNet",這樣,攻擊者的運動被限制在 "StringNet "的內部,攻擊者可以被安全地趕到安全區域。開發了一個開環時間最優和狀態反饋有限時間控制法的組合,為防御者在障礙物密集的環境中成功進行 "StringNet Herding"提供了一個策略。StringNet Herding通過模擬以及使用內部制造的四旋翼飛行器的實驗演示得到了證明。然后,"StringNet Herding "方法被擴展到對抗性蜂群可能分裂成多個小蜂群的情況。對于多群的情況,使用基于密度的空間聚類算法(DBSCAN)來識別空間上呆在一起的攻擊者群(或集群)。然后,提供一個混合整數二次約束規劃(MIQCP)和一個基于幾何學的啟發式方法,將防御者分成較小的團隊,并將這些團隊分配到攻擊者群中去。StringNet Herding方法也被擴展到三維環境。
第二,為防御者開發了一種防御者之間的碰撞感知攔截策略(IDCAIS),以盡可能快地攔截盡可能多的冒險攻擊者,同時確保防御者之間不發生碰撞。特別是,防衛者被分配到使用混合整數二次規劃(MIQP)攔截攻擊者,該規劃:1)在時間最優控制下,最小化防御者捕獲攻擊者的時間總和;2)有助于消除或推遲防御者之間在最優軌跡上可能發生的碰撞。為了防止在最優軌跡上不可避免的碰撞,或由于攻擊者的時間次優行為而產生的碰撞,為每個防御者提供了一個使用指數控制障礙函數(ECBF)的最小增強控制。
最后,我們為防御者提供了一個綜合戰略,以防御安全關鍵區域的風險規避者和冒險攻擊者的各種行為。我們通過在一個協作框架內將針對規避風險的攻擊者的 "StringNet Herding "策略和針對承擔風險的攻擊者的碰撞感知攔截策略IDCAIS結合起來,來制定這一策略。使用混合整數規劃(MIPs)和幾何啟發式方法開發了幾種算法,以分組和分配防御者團隊或單個防御者,來驅趕規避風險的攻擊者群,或攔截冒險的攻擊者,以應對攻擊者的行為,如分裂成更小的群來躲避防御者,或由一些冒險的攻擊者進行高速機動以最大化對保護區域的破壞。我們提供了這些MIPs和幾何啟發式啟發法的計算成本的理論和數值比較。
由于最近的技術進步,自主系統(地面、海洋或空中)正變得無處不在。例如,根據美聯邦航空管理局的網站,截至2021年,美利堅合眾國(USA)有超過86萬架無人機注冊[1]。低成本技術已經催生了機器人(或機器人)群[2,3]。在機器人群中,大量的機器人車輛被一起使用,利用彼此間的局部互動,協作完成復雜的任務。這種協作可以提供:1)對系統部件故障的魯棒性,2)適應性,以及3)可擴展性。特別是,地面、海洋或空中機器人群正在被部署以完成:搜索和救援任務[4],[5];災害管理[6-8];農業[9,10]和海洋[11]環境中的監測和測繪;空中包裹投遞[12];以及合作運輸[13-15]等。機器人群的大量應用清單可以在評論文章[16]中找到。
圖1.1 集群機器人的應用
這類應用需要集群中各個智能體之間的合作,因此需要開發協作性任務分配、運動規劃和控制算法,以實現手頭的應用目標。一些智能體因故障而不合作,或因外部實體而不合作,對上述目標構成了進一步的挑戰。
然而,在機場、政府和軍事設施等安全關鍵基礎設施附近出現成群的對抗性智能體(攻擊者),旨在造成物理破壞或收集關鍵信息,可能導致災難性的后果。例如,媒體上有關于蜂群攻擊軍事基地的新聞[19-21]。在本論文中,我們考慮兩種類型的對抗性智能體(攻擊者):1)規避風險的(自利的)攻擊者,或2)承擔風險的攻擊者。規避風險的攻擊者是指那些不一定想為手頭的任務冒生命危險的攻擊者。因此,我們假設規避風險的攻擊者更可能試圖避免與其他靜態或動態智能體的碰撞,以避免對自己造成任何損害。我們還假設,規避風險的攻擊者可能更有興趣通過在安全關鍵區域(保護區)周圍閑逛來收集關鍵信息,而不是打算對保護區進行物理破壞。另一方面,承擔風險的攻擊者被認為與他們的任務相比,他們對自己的生存有較低的優先權。這樣的攻擊者可能對物理上破壞保護區感興趣。攻擊者的風險規避程度可能有所不同。此外,攻擊者可能1)相互合作,作為一個蜂群集合在一起,或者2)相互之間不合作。攻擊者的各種可能的行為以及它們的后果,要求仔細設計防御團隊的協作任務分配、運動規劃和控制算法,以保護安全關鍵的基礎設施免受攻擊團隊的影響。
保護安全關鍵區域不受冒險攻擊者影響的一個可能機制是攔截或捕獲這些攻擊者(見圖1.2a的一個例子)。研究表明,防衛者(防衛者)有各種攔截或捕獲策略來抵御冒險攻擊者。例如,在多智能體到達-規避游戲中使用的HamiltonJacobi-Isaacs方法[22, 23],攔截多個流氓智能體的Voronoibased分區方法[24],攔截或捕獲攻擊者的最優控制技術[25-32]。然而,在這些方法中,防御者之間的合作并不考慮他們自己的安全,以試圖攔截或捕獲冒險的攻擊者。此外,在城市環境中的低空,由于人類和其他脆弱實體或基礎設施的存在,通過物理攔截或捕獲的手段來對抗規避風險的攻擊者群,如[23-32]中研究的那樣,可能并不可取。在這種情況下,受動物放牧的啟發(見圖1.2b),可以作為一種間接的方式,將攻擊者引導到一些安全區域。這樣,攻擊者將被安全地帶離保護區,從而減少他們對保護區的威脅。一旦被帶到安全區域,這些攻擊者可以被摧毀,或者被重新配置,用于其他一些有用的任務。在文獻中,有一些研究放牧問題的作品。例如,使用n-wavefront算法將鳥群趕出機場[33],通過利用牧群和牧民之間基于幾何的互動,使用機器人牧民控制非合作的牧群[34],使用受海豚啟發的包圍技術限制一組智能體[35],使用勢能函數通過籠子進行牧群[36]。然而,這些方法大多沒有考慮到被自主智能體放牧的智能體對抗性[34-36],而有些方法沒有考慮到要保護的環境中存在的安全關鍵區域。
圖1.2 針對對手的防御機制
在這篇論文中,我們研究的問題是設計:1)一個協作決策框架,以形成防衛者的分隊,并將其分配給攻擊者;2)防衛者的協作運動規劃算法,以應對攻擊者(對手)的蜂群攻擊,表現出規避風險和承擔風險的行為。防御者的目標是防止對抗性攻擊者的不同行為可能造成的損害。在這篇論文中,我們開發了兩個任務分配和運動規劃框架,以便防御者解決規避風險的攻擊者(在第一個框架中)和承擔風險的攻擊者(在第二個框架中)。這兩個框架解決了現有蜂群防御方法的一些主要缺點,如。1)簡單的運動模型,如單積分器動力學;2)強烈依賴特定的勢場數學形式來模擬攻擊者的排斥運動;3)防御者之間缺乏合作,以避免它們之間的碰撞;4)缺乏對環境中障礙物的考慮。然后,這兩個框架被結合在一起,為防御者團隊提供一個系統的、協作的防御策略,以應對攻擊者的各種行為。
在這篇論文中,研究了為防御者團隊設計任務分配和運動規劃算法的問題,以應對風險規避者和風險承擔者的蜂群攻擊。本論文的章節大綱和本論文對解決上述問題的具體貢獻列舉如下。
圖1.5:StringNet:攻擊者群周圍形成的封閉式障礙物B的隊形(紅色的圓圈表示攻擊者,深綠色的圓圈表示防御者,連接這些防御者的白色虛線表示防御者之間的障礙物(字符串),藍色的圓圈表示在防御者完全包圍攻擊者之前,防御者形成的開放性障礙物)
在第3章中,第2章開發的 "StringNet Herding"方法被擴展到這樣的場景:攻擊者的蜂群可能會分裂成更小的蜂群,以應對防衛者的到來。特別是,使用混合整數規劃(MIP)開發了集中和分散的合作算法,以分組和分配防御者將識別的不同攻擊者群趕到最近的安全區域。還開發了一種受幾何學啟發的啟發式算法,以獲得對MIPs的次優但更快的分配方案。本章的結果是基于[101, 102]的工作。
在第4章中,為一組防守者開發了一種防守者之間的碰撞感知攔截策略(IDCAIS),以盡快攔截盡可能多的冒險攻擊者,同時確保防守者之間不發生碰撞。特別是,首先解決了防守者和攻擊者之間的非零和博弈,以獲得一個時間最優的防御策略,所有的防守者和攻擊者對。然后開發一個混合整數二次規劃(MIQP)來尋找碰撞感知的防御者-攻擊者分配(CADAA),以便盡可能多地和盡可能快地捕獲攻擊者,同時防止或推遲防御者之間的碰撞。本章的結果目前正在審查中[103]。
在第5章中,第2-3章開發的 "StringNet Herding"策略和第4章開發的碰撞感知攔截策略IDCAIS被結合在一起,以同時處理規避風險和冒險的攻擊者。特別是,使用MIPs和基于幾何學的啟發式方法開發了幾種算法,以分組和分配防御者團隊或單個防御者來驅趕風險規避型攻擊者群,或攔截風險規避型攻擊者,以應對攻擊者分裂成更小的群組來躲避防御者或一些風險規避型攻擊者的高速機動以最大限度地破壞保護區域。本章的結果目前正在審查中[104]。
在第6章中,"StringNet Herding"策略被擴展到三維環境中。特別是,為'StringNet Herding'策略的不同階段設計了三種三維防御隊形,對第2章中設計的控制法則進行了適當的修改以適應三維環境,然后提供了玩家初始狀態的條件,在這些條件下,保證防御者在攻擊者到達保護區前聚集在攻擊者最短路徑上的某個位置。本章的結果是基于我們在[105]的合作工作。
最后,在第7章中提供了論文的結論和未來的研究方向。
本論文中開發的任務分配和運動規劃算法是考慮應用于蜂群防御問題的(如前面第1.2節開頭所討論的),然而,這些算法,無論是原樣還是修改后的形式,也適用于其他場景。例如,第6章中開發的 "3D StringNet Herding "算法可用于解決[75]中研究的機器人放牧問題,該問題涉及將一群鳥從機場放牧到離機場足夠遠的安全區域,這樣鳥群就不會再對經過機場的航班造成任何危險。
如果我們不考慮問題中的對抗性攻擊者和保護區,那么這個問題可以被建模為一個協作載荷運輸問題,即一隊機器人圍繞著最初位于已知位置的載荷(如快遞包裹、緊急藥品或救援任務中的人)形成所需的隊形,然后將載荷運送到障礙物密集環境中的所需位置(安全區域)。在第二章介紹的 "StringNet Herding"方法中,只考慮聚集和放牧階段,通過在聚集階段結束時適當地改變所需的隊形,就可以實現這種協作式的負載運輸。
如果我們用動物代替對抗性攻擊者,那么這個問題就可以被建模為使用自主機器人的動物放養問題。第2章中開發的 "StringNet Herding"算法可以用來控制防御者(自主機器人),以便將動物趕到障礙物密集環境中的一個特定區域。
如果我們把敵對的攻擊者換成緊急情況下的人群(如火災、自然災害),那么這個問題可以被建模為使用自主機器人在緊急情況下的人群控制問題,自主機器人的任務是引導人類人群安全地到達一個沒有任何危險的指定區域。第2章中開發的 "StringNet Herding"算法可用于控制自主機器人(防衛者),以便通過在 "StringNet Herding"方法的每個階段適當地改變所需的隊形,引導(放牧)人類人群到障礙物密集環境的指定區域。
多智能體系統(MAS)已經在不同的環境和框架中得到了利用,因此已經成功地應用于許多應用中,以實現不同的目標。事實證明,與建立一個具有任務可能需要的所有能力的單一智能體相比,多智能體系統更具有成本效益。此外,成本并不是采用MASs的唯一驅動因素,例如,安全是另一個重要方面。在惡劣或極端的環境中部署一組智能體,而不是一個人類團隊,可以減少安全風險。此外,與單一智能體的解決方案相比,MAS提供了更多的靈活性和穩健性。靈活性來自于將資源分成不同的小組,而穩健性則來自于一個智能體的關鍵錯誤不一定會危及任務的成功這一事實。請注意,一個任務可能有許多不同的約束和方面,然而,最微不足道的情況是只有一個智能體和一個任務。
這些類型的任務可以由人類操作員計劃,監督任務,而不需要自動計劃器。另一方面,更復雜的任務,即利用大量的異質智能體和任務,以及約束條件(優先權、同步性等),對人類操作員來說并不是那么簡單的計劃。這些復雜的問題給制定一個可行的計劃帶來了巨大的挑戰,更不用說是最好的計劃了。此外,機器人系統中可用的計算平臺的功率增加,允許利用并行任務執行。更具體地說,它允許在傳感、計算、運動和操縱任務中可能的并行性。這反過來又有一個好處,即允許創建更復雜的機器人任務。然而,它的代價是增加了優化任務分配問題的復雜性。為了規避這些問題,需要一個自動規劃器。這些類型的問題是出了名的難解決,而且可能需要太長時間才能找到一個最佳計劃。因此,優化和產生計劃所需的計算時間之間的平衡變得非常重要。
本論文涉及兩個特殊的多機器人任務分配(MRTA)問題配置的正式定義,用于表示多智能體任務規劃問題。更具體地說,本論文的貢獻可以歸納為三類:
首先,這項工作提出了一個模型,以結構化的方式表示不同的問題配置,也被稱為任務。這個模型被稱為TAMER,它還允許以更系統的方式增加新的維度,與以前提出的MRTA分類法相比,擴大了可以描述的問題的數量。
其次,本論文以混合整數線性問題的形式,定義并提供了兩種不同的問題形式,即擴展的彩色旅行推銷員問題(ECTSP)。這些模型在CPLEX優化工具中對選定的問題實例進行了實施和驗證。此外,還設計了一個解決這些復雜問題的次優方法。提出的解決方案是基于遺傳算法(GA)的方法,并與最先進的(和實踐中的)求解器,即CPLEX獲得的解決方案進行比較。與經典方法相比,使用GA進行規劃的優勢在于它具有更好的可擴展性,使其能夠找到大規模問題的解決方案。盡管這些解決方案在大多數情況下是次優的,但它們比其他精確方法獲得的速度要快得多。另一個優勢體現在 "隨時停止 "選項的形式上。在時間緊迫的操作中,重要的是可以選擇停止規劃過程,并在需要時使用次優的解決方案。
最后,這項工作涉及到MRTA問題的一個維度,這個維度在過去沒有引起很多研究的關注。特別是,包括多任務(MT)機器人在內的問題配置被忽視了。為了克服上述問題,首先,對可能實現任務并行的情況進行了定義。此外,還介紹了物理和虛擬任務之間的區別以及它們在并行任務執行方面的相互關系。我們提出并比較了兩個模型。第一個模型以ILP的形式表達,并在CPLEX優化工具中實現。另一個被定義為限制性規劃(CP)模型并在CP優化工具中實現。兩種求解器都在一系列的問題實例上進行了評估。
太空一直是一個需要高度自主的領域。所需的自主性帶來的挑戰使其難以在短時間內完成復雜的任務和操作。隨著越來越多地使用多Agent系統來增強空中領域的傳統能力和展示新能力,在軌道上和近距離多Agent操作的發展需求從未如此強烈。本文提出了一個分布式的、合作的多Agent優化控制框架,為在近距離操作環境中執行多Agent任務相關的分配和控制問題提供解決方案。然而,所開發的框架可以應用于各種領域,如空中、太空和海上。所提出的解決方案利用第二價格拍賣分配算法來優化每個衛星的任務,同時實施模型預測控制來優化控制Agent,同時遵守安全和任務約束。該解決方案與直接正交配位法進行了比較,并包括了對調整參數的研究。結果表明,所提出的技術允許用戶用模型預測控制來優化超越相位的控制,并以三個調諧參數實現編隊交會。與傳統的多相MPC相比,這更好地接近了配位技術中的相變。
兵棋模擬是一種決策工具,可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近,無人駕駛飛行器(UAVs)已經成為這些模擬中的一個相關元素,因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如,容許戰術編隊中的飛機損失,有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素,無人機在超視距(BVR)作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性,如射擊距離和位置,使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊,稱為line abreast,作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊,以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序,將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里,并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。
索引詞:優化方法,計算機模擬,無人駕駛飛行器(UAV),自主智能體,決策支持系統,計算智能。
兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲,用于分析作戰概念,訓練和準備指揮官和下屬,探索情景,并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用,為參與者提供了對決策過程和壓力管理的洞察力[1]。
最近,無人駕駛飛行器(UAVs)作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此,它們的有效性經常在兵棋中被測試和評估。
由于具有一些性能上的優勢,如增加敏捷性、增加過載耐久性和增加隱身能力,無人機已經逐漸發展起來,并在許多空中任務中取代了有人系統[3]。然而,由于戰斗的動態性質,在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中,無人機可以被遠程控制,但由于無人機飛行員對形勢的認識有限,它將在與有人平臺的對抗中處于劣勢。然而,這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外,使用無人機可以允許一些戰術編隊和戰略,而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的,例如允許中隊的飛機被擊落,如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距(BVR)作戰中的飛機戰術編隊的文章[5]表明,空戰戰術是用遺傳算法(GA)進行優化的候選方案。該實施方案采用分層概念,從小型常規作戰單位建立大型編隊戰術,并從兩架飛機的編隊開始,然后是四架飛機,最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區(WEZ)的高殺傷概率(Pkill)區域內一段特定時間,簡化的交戰模擬器就宣布傷亡。事實證明,所提出的方法的應用是有效的,它消除了團隊中所有沒有優化編隊的飛機,并為整個優化編隊的飛機團隊提供了生存空間。
Keshi等人[6]使用了與[5]相同的分層概念,從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法(SAGA)被用來優化編隊,使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化,提出的最優解表明SAGA比基本的GA更有效。最后,為了探索一個穩健的SAGA,對不同的馬爾科夫鏈進行了比較,事實證明自調整馬爾科夫電流更適合所提出的問題。
Junior等人[7]提出使用計算機模擬作為一種解決方案,以確定BVR空戰的最佳戰術,使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模,并改編了名為COMPASS的模擬優化算法,模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明,擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈,并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。
Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法,即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先,計算戰斗機的戰斗力,這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來,包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此,通過采用前景理論和綜合模糊評估來優化空戰訓練。最后,一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱,利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。
?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器(UCAVs)進行空戰的決策方法。首先,確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后,每個航空飛行器被分配到一個目標,以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法;因此,該方法在一個數字案例上進行了測試,并證明了其有效性。
Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃(CTAPPP)問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后,訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置,發射武器裝備。合作目標分配(CTAP)問題通過增強型粒子群優化(IPSO)、蟻群算法(ACA)和遺傳算法(GA)來解決,并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃(CPPP)問題,其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子,并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。
Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組(R和B)無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化(離散化),通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈,并被解決以獲得納什均衡。
Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發,因此也影響到最終的結果。例如,如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬,新的沖突可能會發生,直到模擬結束。因此,每個在交戰中幸存的無人機將能夠選擇一個新的目標,這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的:它們直接影響飛機之間的交戰結果。
在這項研究中,我們試圖解決文獻中發現的一些局限性,如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認,旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究,RED蜂群使用了空軍經常采用的戰術編隊,稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性,我們解決了新的問題,改變了RED蜂群每架飛機的位置,目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。
我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊,考慮與敵人相關的不確定性,如戰術編隊中的位置誤差和導彈發射距離。統一行為框架(UBF)被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度(DoFs)建模。
該程序將在接下來的章節中進一步討論。
美國空軍正在投資人工智能(AI)以加速分析,努力使自主無人駕駛戰斗飛行器(AUCAVs)在打擊協調和偵察(SCAR)任務中的使用現代化。這項研究探討了AUCAV在SCAR任務中執行目標打擊和提供偵察的能力。一個定向問題被制定為馬爾可夫決策過程(MDP)模型,其中一個AUCAV必須優化其目標路線,以幫助消除時間敏感的目標,并收集所要求的指定興趣區域的圖像,同時躲避作為障礙物的地對空導彈(SAM)電池威脅。AUCAV根據SAM電池和目標進入戰斗空間的位置來調整其路線。開發了一種近似動態規劃(ADP)的解決方案,其中數學規劃技術與成本函數近似(CFA)政策一起被用來開發高質量的AUCAV路由政策,以提高SCAR任務的性能。CFA政策與確定的重復定向問題(DROP)基準政策進行了比較,在四個實例中探討了動態目標和SAM電池的不同到達行為。當AUCAV被分配到120分鐘來完成它的任務,并且防空導彈電池到達戰斗空間時,結果顯示,所提出的CFA政策優于DROP政策。總的來說,擬議的CFA策略在所有四種情況下的表現幾乎與DROP策略相同或更好。
關鍵字:馬爾科夫決策過程(MDP)、近似動態規劃(ADP)、強化學習(RL)、人工智能(AI)、定向問題(OP)、車輛路由問題(VRP)、目標定位、成本函數近似(CFA)、直接前瞻近似(DLA)、網格自適應直接搜索(MADS)
根據美國國防部長(SecDef)的說法,美國(US)軍隊近期的重點是將目前的 "能力現代化,以應對未來的先進威脅",并確保美國軍隊仍然是 "世界上最杰出的戰斗力量"(國防部,2021)。國防部長的重點可以通過美國國防部(DoD)有效調整其資源以應對不斷變化的威脅來實現(國防部,2021)。本論文支持國防部未來的首要任務,這些任務涉及使用自主無人駕駛作戰飛行器(AUCAVs)來壓制敵方防空(SEAD)和打擊任務。這些優先事項包括人工智能(AI)、偵察機能力、作戰司令部(COCOM)策略和威懾對手方面的進步。通過開發用于AUCAV路徑規劃和目標選擇的近似動態規劃(即基于模型的強化學習)算法,我們可以探索空軍打擊深度、時間敏感目標和威懾對手的能力,與國防部的主要倡議直接保持一致(國防部副部長(主計長)/首席財務官辦公室,2021)。這些資產的一個共同點是它們都對司令部的任務至關重要,并且可以與AUCAV打擊高價值目標的能力一起工作。
AUCAV有多種方式可以用來支持COCOM的任務。一種獨特的方式是對時間敏感目標(TST)的位置進行偵察,使其他盟軍飛機或地面資產能夠打擊該目標。第五代F-35可以在不被發現的情況下遠距離攻擊地面目標,包括地對空導彈(SAM),并使用精確武器成功完成空對地任務(Military Advantage, 2014)。AUCAVs對薩姆導彈可能沒有那么有效,可能會被它們擊落。然而,AUCAVs有能力對要求命名的興趣區(NAIs)或更適合其他軍事資產打擊的目標類型進行偵察,如F-35或B-52。
F-15EX是美國國防部批準的項目,與F-35不同,它不是隱形的,不能在敵后不被察覺。然而,空軍已經考慮將F-15EX與隱形戰斗機配對,并將這對戰斗機作為遠程空對空導彈發射平臺(Mizokami,2021)。盡管F-15EX也有能力進行空對地打擊,但該機的主要優勢在于其雷達和攜帶大量武器載荷的能力,包括二十多枚空對空導彈或高超音速武器(Mizokami, 2021)。這種作戰能力是需要考慮的,因為將一架隱身飛機(如F-35)與一架不具備相同屬性的飛機(如F-15EX)配對,以完成時間敏感的目標打擊任務,作為AUCAV的目標確認能力的結果,可能會達到優越的性能。
在每個COCOM的責任區(AOR),指揮官要求提供NAI和高價值目標打擊的圖像。假設沒有能夠擊落AUCAV的敵方威脅(例如,防空導彈炮臺),AUCAV可以滿足指揮官的要求。然而,這種假設忽略了一個現實,即敵人可能會施加障礙,嚴重影響精心策劃的任務。路徑規劃必須結合禁飛區(NFZ)的情報信息,以達到避免威脅的目的。本論文討論的近似動態規劃(ADP)算法將探討未預見的NFZ或戰斗區(例如,由于防空導彈電池)如何影響AUCAV的目標選擇,以及AUCAV如何隨著時間的推移學會避免這些區域。
美國軍方已經對使用JDAMs打擊目標的無人駕駛作戰飛行器(UCAV)進行了作戰測試和評估(OT&E)(Butler and Colarusso, 2002)。因此,本論文假設AUCAVs使用JDAMs來打擊高價值目標。JDAM能夠使用從聯合監視目標攻擊雷達系統(JSTARS)傳送的飛行中目標更新(IFTU)信息單獨指向其目標(Butler and Colarusso, 2002)。已經完成的測試表明,使用負擔得起的移動水面目標攻擊系統(AMSTE)而不是JSTAR,使UCAV打擊移動目標的能力大大增強。這一發展應作為后續工作進一步探討,但在本論文中不會詳細討論。
美國特種作戰司令部(USSOCOM)正在投資人工智能(AI)以加快分析速度(國防部副部長(主計長)/首席財務官辦公室,2021)。這篇論文的重點是建立一個人工智能算法,使戰斗指揮部,如USSOCOM,能夠及時有效地執行目標打擊,并對要求的國家情報機構進行偵察。除各司令部外,聯合情報支援部隊(JISE)和聯合特遣部隊(JTF)也依賴偵察機,這是因為他們在管理各種形式的偵察和監視敵人方面的作用,這些偵察和監視對了解情況、確定目標和合適的目標以及向部隊提供警告是必要的(國防部,2018a)。如果目前的AUCAV路徑規劃AI算法得到改進,所有這三個適用的軍事組織都可以提供更多的情報信息,從而在目前的限制性資源(如燃料容量、彈藥或在戰區的時間)下,產生更多的目標打擊和NAI的圖像。
鎖定目標是一項指揮職能,需要指揮官的監督和參與,以確保正確執行(美國空軍部,2019年)。它不是某類專業或部門的專屬領域,如情報或行動,而是融合了許多學科的專業知識(美國空軍部,2019)。本論文通過將AUCAV任務前收到的情報與美軍的聯合、戰術和空軍理論相結合,探索這種專業知識的融合。最好同時考慮聯合學說和空軍學說,以更好地理解空軍如何定義目標。根據聯合學說,目標是一個實體或物體,被視為可能的交戰或其他行動(國防部,2018b)。實體可以被描述為設施、個人、虛擬(非物質)事物、設備或組織(美國空軍部,2019)。
有兩類目標:故意的和動態的(美國空軍部,2019年)。當有足夠的時間將目標添加到空中任務單或其他計劃中時,故意瞄準適用。蓄意的目標定位包括計劃由待命資源攻擊的目標。動態目標定位包括那些發現得太晚或沒有及時選擇而被列入蓄意目標定位的目標,但當發現或定位時,符合實現目標的特定標準。
本論文試圖確定AUCAV的最佳路線,以選擇故意和動態目標的組合。AUCAV進入戰斗空間時,有一組要求攻擊或偵察的故意目標。一旦進入戰斗空間,AUCAV就會遇到新的目標請求(即動態目標到達),必須重新計算其最佳目標選擇路線,并考慮到新到達的目標。
需要特別考慮的兩個目標子集是敏感和時間敏感(Department of the United States Air Force, 2019)。敏感目標是指指揮官估計在軍事行動中發生的對平民和/或非戰斗人員、財產和環境的實際影響和附帶影響超過既定的國家級通知門檻的目標(Department of Defense, 2018b)。敏感目標并不總是與附帶損害相關(美國空軍部,2019)。它們也可能包括那些超過國家一級交戰規則閾值的目標,或者作戰指揮官確定打擊目標的效果可能會產生不利的政治影響(美國空軍部,2019)。時間敏感目標是聯合部隊指揮官確認的目標或需要立即做出反應的目標集,因為它們是高度有利可圖的、轉瞬即逝的機會目標,或者它們對友軍構成(或即將構成)危險(國防部,2018b)。
這篇論文的重點是AUCAV對時間敏感的目標進行打擊,并對可能包括敏感目標的NAI進行偵察,同時避開代表薩姆電池威脅區的NFZ。這是通過使用ADP方法、整數規劃技術和馬爾科夫決策過程(MDP)模型框架解決具有隨機目標到達的無人駕駛飛機定向問題,同時避開障礙物來實現的。車輛路由問題MDP模型框架被用來對AUCAV的目標選擇進行基線分析,同時避開障礙物(即防空導彈電池),并確定哪些時間敏感的目標應該在指定的時間段內被摧毀。然后,采用CFA策略的ADP解決方法來優化AUCAV的目標路線,在做決定時利用未來動態時間敏感目標和障礙物到達的預測位置。
本論文的其余部分的結構是:第二章討論類似于具有隨機目標到達的自主車輛定向問題的文學作品,第三章討論問題的制定框架和解決方法,第四章討論計算測試和結果,第五章討論結論。第二章從ADP的角度詳細探討了具有隨機到達、服務時間和等待時間的類似路徑規劃問題。第三章對用于建模和解決問題的方法進行了深入探討。第4章揭示了分析的結果和建議。第5章是本論文的結論,提出了為AUCAV選擇目標和躲避敵人威脅而產生改進的解決程序的未來建議。
移動機器人的自主控制和導航受到了很多關注,因為機器人有能力在復雜的環境中以高精度和高效率完成復雜的任務。與移動機器人有關的經典控制問題涉及到目標導航、目標跟蹤和路徑跟蹤,他們都有一個預先定義行為的目標。因此,控制設計沒有考慮到目標的未來行為。在監視、攔截、追擊-規避問題中,必須考慮到目標的未來行為。這些玩家(控制系統)與對手交戰的問題最好用博弈論來解決,博弈論提供了獲勝的最佳策略。然而,博弈論算法需要大量關于對手的信息來考慮對手的最優策略,從玩家的角度來看,這是最糟糕的情況。這種信息要求往往限制了博弈論在移動機器人上的應用。另外,在文獻中發現的大多數作品提出的離線解決方案只適用于整體系統。這篇博士論文提出了三種不同的解決方案,以每個玩家可獲得的對手信息為基礎,解決非合作性博弈問題。所提出的解決方案在本質上是在線的,并能納入避開障礙物的能力。此外,所設計的控制器首先在模擬中應用于非holonomic移動機器人,然后在類似環境中進行實驗驗證。在工作的第一部分,復雜環境中的點穩定問題是用非線性模型預測控制(NMPC)處理的,其中包括圍繞目標位置的靜態和動態避障。其次,該問題被轉換為涉及具有沖突的移動目標,以形成追逐-逃避博弈。該問題采用非線性模型預測控制來解決,其中比較了兩種穩定方法。NMPC方法的工作原理是,每個玩家只知道對手的當前狀態。然后提出了博弈論的算法來解決同樣的問題。第一種方法需要對手的所有信息,而另一種方法只需要對手的當前位置。這些方法在捕獲時間、計算時間、納入障礙物規避的能力以及對噪聲和干擾的魯棒性方面進行了比較。利用博弈論模型預測控制,提出并解決了一個位于點穩定和追逃問題的交叉點的新問題。這個問題被稱為目標防御的差分博弈(DGTD),它涉及到在到達靜態目標之前攔截一個移動物體。最后,所有提出的控制器都使用兩個移動機器人和實驗室的運動捕捉平臺進行了實驗驗證。
Keywords: 非線性模型預測控制,博弈論,自主系統,非完整移動機器人,避障,實時實驗驗證。
現代戰爭的特點是復雜性越來越高,敵手聰明且技術優良。為了解決現代戰爭的一些復雜性,基于機器學習(ML)的技術最近為戰場上的自動化任務提供了合適的手段。然而,配備了ML技術的聰明敵人不僅在戰場上參與公平競爭,而且還利用欺騙和隱蔽攻擊等策略,制造惡意方法來破壞ML算法,獲得不公平的優勢。為了應對這些威脅,自動化戰場系統上使用的ML技術必須能夠強大地抵御敵方的攻擊。
我們在一種稱為“示范學習”(LfD)的強化學習算法的背景下,分析了競爭場景中的對抗學習問題。在LfD中,學習智能體觀察由專家完成的操作演示,以學習快速有效地執行任務。LfD已成功應用于軍事行動,如使用機器人團隊進行自主搜索和偵察,或自主抓取拆除簡易爆炸裝置。然而,惡意的敵人可以通過植入敵對的專家來利用LfD,這些專家要么給出不正確的演示,要么修改合法的演示,從而使學習智能體在任務中失敗。為了解決這個問題,我們首先分析了在LfD框架內對抗專家可以使用的不同的演示修改策略,根據對手的修改成本和修改學習代理對任務性能的影響。然后,我們提出了一個新的概念,利用對手和學習智能體之間的博弈,學習智能體可以使用LfD從潛在的對手專家演示中戰略性地學習,而不顯著降低其任務性能。在AI-Gym環境中,我們對提出的魯棒學習技術進行了評估,該技術通過對雅達利類游戲“LunarLander”中的專家演示進行對抗性修改。
圖1所示。(左)使用LfD學習自動駕駛設置時敵對軌跡對策略的影響。(右)在我們提出的方法中,干凈(綠色)和對抗(紅色)軌跡首先是等分的。然后,在使用選項(金虛線)接受或拒絕軌跡部分后,對每個分區學習策略,或對未分區的軌跡使用傳統的強化學習(藍虛線)。
我們考慮這樣一個場景,學習智能體必須通過從專家給出的任務演示(LfD)中進行強化學習來在環境中執行任務。一些專家可能是敵對的,并修改軌跡演示的意圖,使學習智能體不能正確執行任務,而遵循修改的演示。在本文的其余部分中,為了便于閱讀,我們將對抗性專家稱為專家。LfD框架采用馬爾可夫決策過程(MDP)[12]進行形式化。LfD算法的輸出是一個策略,該策略為執行任務提供狀態到動作映射。RL通過一個叫做訓練的過程學習策略,在這個過程中,它探索環境,觀察在探索過程中收到的狀態-行為-獎勵配對,最后選擇一系列導致更高期望獎勵的狀態-行為-獎勵配對作為它的策略。
專家們的演示以被稱為軌跡的狀態-行動-獎勵元組序列的形式給出。專家軌跡可能是良性的,也可能是敵對的。良性和敵對的專家軌跡分別展示了完成任務的正確和不正確的方式,并幫助或阻礙了學習智能體學習執行任務。專家演示被整合到智能體的學習中,使用名為DAGGER[1]的LfD算法執行任務。DAGGER使用來自專家演示軌跡的監督學習來學習策略,但添加了一個權重參數β,該參數表示學習主體在將軌跡納入其學習策略時的權重或信任度。
算法1。學習器用來接受或拒絕軌跡演示的算法。
算法2。由專家用來修改干凈軌跡的算法。