亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

該研究項目的目標是開發高效的大規模非線性優化算法,以解決通信和導航方面的數據分析問題。這些問題被公認為在數學上具有挑戰性,并與空軍的利益直接相關。

在資助期間,我們成功研究了兩個研究方向。首先,我們設計了大規模非線性優化問題的最佳一階方法。在這個方向上,我們提出了兩個一階方法,可以對決策變量進行近似梯度更新。這兩種方法都可以解決分散通信的多Agent優化所產生的非線性優化問題。通過將多代理優化重新表述為約束性問題,我們開發的方法可以以最佳梯度/操作者評估復雜度來解決問題。我們開發的方法也可用于解決圖像重建問題。

第二,我們分析了機器學習模型中的解決方案質量和安全問題。在這個方向上,我們完成了兩個研究結果。我們的第一個成果是關于在多集群環境下,從二元結果的條件邏輯回歸模型中計算出來的估計值的屬性。我們表明,當每個單獨的數據點被無限次復制時,來自該模型的條件最大似然估計值漸進地接近最大似然估計值。我們的第二個結果是關于安全的矩陣乘法問題,我們設計了一種準確和安全地進行分布式矩陣乘法的方法。我們的安全協議可以確保在進行這種矩陣乘法的通信過程中沒有任何信息被泄露。

兩名博士生作為研究生研究助理得到支持,并在執行期間接受培訓。擬議項目的成果包括四篇學術期刊論文。一篇論文已經發表,另一篇正在進行第二輪審查,另外兩篇正在準備,不久將提交發表。[1-3]

付費5元查看完整內容

相關內容

 從飛鴿傳書到信息高速公路,人與人或人與自然之間通過某種行為或媒介進行的信息交流與傳遞。

本條令智慧書是由阿拉巴馬州馬克斯韋爾空軍基地的勒梅學說發展和教育中心編寫的空軍作戰條令摘要集。這些摘要反映了目前已批準的條令和新出現的條令。

條令智慧書的第一部分提供了空軍的頂點和作戰條令結構。條令智慧書的第二部分包括每份經批準的空軍條令出版物(AFDP)及其與聯合出版物(JP)關系的概要。空軍的頂點條令出版物,AFDP1《空軍》,由空軍參謀長簽署。《作戰條令》則由勒梅中心指揮官簽署。

每個概要都包含了每個出版物中所討論的基本特征、基本原理、術語和觀點。條令智慧書的主要讀者是所有的條令讀者--軍事、民事和承包商。

付費5元查看完整內容

多Agent系統,尤其是無人駕駛系統,是解決很多現實問題的關鍵部分,因此必須改進任務分配技術。在這篇綜述中,我們介紹了用于任務分配算法的主要技術,并根據所使用的技術對其進行了分類,主要側重于最近的工作。我們還分析了這些方法,主要集中在它們的復雜性、優化性和可擴展性上。我們還提到了任務分配方法中使用的常見通信方案,以及任務分配中不確定性的作用。最后,我們根據上述標準對它們進行了比較,試圖找到文獻中的差距,并提出最有希望的方法

關鍵詞:任務分配、MAS、優化、學習、博弈論、元啟發式方法

I. 簡介

眾所周知,自然界中的大多數系統都是復雜的分布式系統。這樣的系統主要需要溝通和合作,以實現一個共同的目標,如改善群體內每個人的表現,旨在實現最佳的整體表現[1]。因此,由于受到自然界的啟發,許多復雜的工程系統也采用了同樣的原則。特別是在過去的15年里,很多研究工作都集中在多智能體系統上,這些系統可以更好地完成很多單一智能體有時無法完成的任務。智能體可以是一個物理實體,如UAVs、UGVs或UUVs,一般類型的機器人,但甚至是計算機資源,如處理器,或一個計算機程序[2]。

科學界將注意力集中在MAS上的原因有很多。一些任務,特別是分布式任務,由于其復雜性和前提條件,可能無法由單個智能體來完成。此外,多個智能體的存在提高了執行任務的性能和可信度,因為更多的智能體可以合作更快地完成相同的任務,而且系統對智能體的損失或故障更加強大。另外,成本可能會降低,因為可以使用許多便宜的、有時是一次性的智能體,而不是一個昂貴的智能體[3]。

但是,在使用多智能體系統完成多項任務時,出現了分工的問題,即哪項任務將被分配給哪個智能體,智能體將有什么類型的通信,一般來說,每個智能體的行為將被定義,以便有一個最佳和強大的性能[3], [4]。所有這些問題的答案就是任務分配技術。為MAS中的任務分配問題找到一個最優或接近最優的解決方案是一個相當困難的過程,在一般情況下已被證明是NP困難的[5], [6]。任務分配的一些主要目標,除了實現整體最優的系統性能外,還可以是任務執行時間的最小化,一些智能體保持不活動的時間最小化,在特定的時間內完成的任務數量最大化,任務分配程序的可靠性最大化,即任務的成功完成,等等。[7]. 由于最佳整體性能是一個模糊的概念,難以量化,而且可能取決于每個智能體的感知,因此使用了效用的概念,即對任務分配程序對系統性能的價值或成本進行估計[4]。

任務分配的第一步是靜態的,但由于現實環境是動態環境,動態任務分配領域在過去幾年中已經成為一個很大的研究領域。在動態任務分配中,系統可以處理任務或環境的在線變化,具有更強大的性能[8]。使用的算法可以是集中式的,也可以是分散式的,取決于智能體的通信結構,也可以使用同質或異質的智能體。在任務分配技術的最初應用中,主要是假設同質智能體,因為相應算法的計算負擔較小。但是,在現實世界的應用中,經常需要異質的智能體。例如,在機器人系統中可能存在不同類型的傳感器,或者同一問題的不同任務可能需要不同類型的機器人。盡管異質性增加了計算成本,但它在許多應用中的必要性,促使研究人員為異質MAS開發了大量的任務分配算法[9], [10]。

用于解決MAS中任務分配問題的主要技術是基于拍賣(或市場)的方法、基于博弈論的方法、基于優化的方法(啟發式算法、元啟發式算法等),以及機器學習技術。根據所使用的技術,可以找到一個最佳的,或者幾乎總是一個近似的解決方案,而且問題的可擴展性、復雜性和適應性也會存在不同程度。MAS中的任務或任務分配的應用包括搜索和救援任務(SAR)[11]-[14],軍事行動,如攻擊或監視[15]-[18],物理災害管理[11],[12],[19]-[22],其中主要使用無人駕駛系統,也包括眾包平臺的使用,云計算[23]-[28],智能電網,制造業的資源分配[29]-[32]和其他。

II. 任務分配技術的不同通信方案

解決任務分配問題的算法主要有兩大類,即集中式算法和分布式算法。

A. 集中式任務分配

集中式算法是過去研究較多的一類算法。其主要概念是,有一個中央協調者智能體,它與所有其他智能體有通信渠道。這個智能體管理其他智能體的談判,并決定分配給其他智能體的任務。在這些情況下,大多數時候,會考慮全局效用函數[14],[33],[3],[34]。

圖1. 一個集中式系統,智能體A7是中央協調人

這些方法的優點是使用較少的系統資源,可能有較低的實施成本,但由于計算成本高,它們只能用于少量的智能體,而且它們不能適應動態環境,因此它們主要用于靜態任務分配。任務集中分配的事實避免了任務分配的沖突,因此不需要共識階段,也可以找到分配問題的最優解。它們也缺乏穩健性,因為它們很容易受到智能體,特別是中央智能體的損失,導致整體性能的惡化。此外,所有的智能體與中央智能體進行通信的事實,限制了它們的可擴展性[17],[35]。

B. 分布式任務分配

分布式算法克服了集中式算法的一些缺點,因此它們在過去幾年中吸引了研究人員的注意。在這種類型的算法中,沒有中央協調者,智能體對環境有一個局部的感知,并可能相互協商。因此,任務分配的決定是以分布式方式在局部做出的。每個智能體也可能有自己的效用函數,總體效用函數可能是近似的[14]、[33]、[3]、[34]。

圖2. 一個分布式系統

這些方法的優點是它們具有穩健性,因為智能體的失敗對整體性能的影響很小,而且由于智能體之間的通信水平較低,所以也是可擴展的。此外,它們的計算成本比集中式方法小,使它們成為大規模系統的理想選擇,即使通信帶寬很小。權衡之下,它們找到了任務分配問題的次優(近似)解決方案,而且可能需要一種共識算法,因為局部任務分配可能導致任務之間發生沖突[17],[35]。

III. MAS任務分配中的不同算法

在MAS中,有很多用于任務分配的技術。下面對所使用的方法進行分類介紹(見圖3)。

A. 基于拍賣的算法

在MAS中用于任務分配的一大類算法是基于拍賣的算法。這類算法以經濟學為基礎,智能體使用談判協議,根據他們對環境的局部感知,在拍賣中為任務投標。這就是為什么有時這些方法也被稱為基于市場的原因。智能體根據他們計算的效用或成本出價,他們的目標是為分配的任務完成最高的效用或最低的成本。基于智能體的效用函數,一個全局目標函數被優化。拍賣者可能是一個中央智能體,也可能由系統的智能體以分布式方式進行拍賣,拍賣可能需要幾輪,可以考慮一個或幾個任務[10], [14], [36], [37]。

基于拍賣的算法有很多優點,例如,即使找到了次優的解決方案,也有很高的解決效率,因為它們同時使用了集中式和分布式的方法及穩健性。它們也是可擴展的,因為它們有適度的計算成本或通信負擔,不是完全集中式的算法,它們對動態任務分配很好,因為它們可以從拍賣程序中增加或刪除新任務[3]。

圖3. 任務分配技術分類

a) 基于CBBA的算法:基于共識的捆綁算法(CBBA)是一種分布式的算法,它為多目標優化問題提供解決方案,與智能體態勢感知的不一致無關,其成本函數是每個智能體對執行捆綁任務所感知的效用。在第一階段,該算法使用帶有貪婪啟發式的拍賣來選擇任務,在第二階段,該算法應用基于共識的程序來解開任何重疊的任務。該算法被證明可以為單機器人單任務的任務分配問題提供次優解(完整的分類法見[4]),并且具有高度的可擴展性,使其適用于動態任務分配應用,因為它具有多項式時間競標[38] [39]。

最近發現的方法包括PI(性能影響)算法的改進,如PI-MaxAss[14]和[35]。此外,其他技術是CBBA算法的改進,如修改的CCBBA[38],G-CBBA[40]和[41]。

b) 基于CNP的技術:Smith[42]開發的合約網協議(CNP)是第一個用于任務分配問題的談判平臺,構成了眾多任務分配算法的基礎。它是一個標準化的協議,可以將任務分配給最合適的智能體,同時它能夠在需要時進行任務重新分配[43]。另一方面,CNP有信息擁塞的問題,有時會使智能體之間的談判程序變得不方便。與其他方法不同,如基于信息素的方法,CNP在很大程度上依賴于智能體之間的信息通信,這些信息的計算成本可能非常高,從而降低了通信效率和系統性能[44]。

最近一些基于CNP的方法包括[45]、[46]、[11]、[27]、[44]。此外,一種不屬于上述類別的基于拍賣的方法是(FMC TA)[47]。

B. 基于博弈論的方法

在基于博弈論的方法中,假定智能體是采取特定行動的玩家,任務分配方案是他們應該遵循的策略。在博弈結束時,玩家根據他們的行動所獲得的回報被稱為報酬。當玩家選擇了最佳策略,那么他們就不會希望改變他們的策略,因為這是他們能夠完成的最佳結果,達到納什均衡[48]。

博弈可以分為兩大類,合作博弈和非合作博弈。在合作博弈中,智能體在采取具體行動之前進行合作或形成聯盟,影響他們的一般戰略和效用。合作博弈的一個例子是聯盟形成博弈。在非合作博弈中,智能體單獨選擇他們的行動和策略,這意味著智能體是自私的,希望達到最高的回報。一些例子包括貝葉斯博弈、非合作性差分博弈、子模態博弈等。[49].

最近一些基于博弈論的方法包括[50]、[20]、[51]、[52]、[53]、[54]、[55]。

C. 基于優化的技術

優化是應用數學的一個領域,旨在從一組可能的解決方案中找到一個特定問題的解決方案,使某一成本或目標函數的成本最小或利潤最大。這個成本函數根據一些約束條件進行優化,決定了系統的目標。有很多優化技術可以是確定性的或隨機性的[3], [56]。確定性方法不考慮隨機性,也就是說,如果使用相同的起點,通往解決方案的路徑將是相同的。確定性方法包括諸如圖形方法、基于圖形的方法、順序規劃、線性規劃、混合整數線性規劃(MILP)等技術。隨機方法或元啟發式方法是指在計算過程中包含隨機性的方法。元啟發法包括進化算法、蜂群智能、模擬退火等。此外,啟發式算法是用來尋找快速和高質量的解決方案的算法,以解決確定性方法會有難以承受的計算成本的困難優化問題。這些方法雖然提供了近似的解決方案[57]。

a) 基于確定性的優化:一個經常被用作開發新任務分配算法的基礎的優化算法是匈牙利算法[58]。匈牙利算法將任務分配問題視為一個組合優化問題,使用圖論并在多項式時間內解決該問題。該算法計算每個智能體效用的估計值,從而使整體效用最大化。但這在計算上是很昂貴的,而且當系統存在高不確定性時,有時價值較低,因此對該算法提出了很多改進[59]。最近的一些方法包括[60]、[61]和[62]。

b) 元啟發式算法:元啟發式算法包括幾種方法,如蜂群智能、遺傳算法、模擬退火和其他。蜂群智能已被廣泛用于MAS的任務分配,它是一類受生物啟發的算法,主要來自具有社會行為的動物,如昆蟲群、魚群、鳥群等[63]。 這些動物表現出高效的分工,由于團隊成員的專業化,導致了群體的高效率[64]。即使智能體可能相當簡單,但由于他們的合作,他們可以作為一個整體完成復雜的任務,導致強大、高效和低成本的解決方案[65]。另一方面,這些算法有時會給智能體分配不必要的任務,導致沖突,并對環境變化有緩慢的整體反應[63]。主要使用的方法分為基于閾值和概率的方法。

在基于閾值的方法中,如響應閾值法[66],智能體決定其關于任務的行動,取決于一些監測量的值和閾值的值。閾值可以是固定的,也可以是可變的,智能體可能只有關于該數量的局部或整體信息。在概率方法中,智能體根據環境觀察或歷史數據計算出的概率,隨機地改變任務。另外,可能會使用一個刺激物,當刺激物對特定的任務來說是高的時候,可能會選擇一個任務[67]。

最近一些基于元啟發式的任務分配方法包括改進的分布式蜜蜂算法[63]、動態蟻群的分工[17]、分布式免疫多Agent算法[68]、改進的QPSO[69]、分層任務分配和路徑尋找方法[70]、多目標多類人機器人任務分配[71]和其他技術如[72]、[73]、[15]。

c) 啟發式方法:最近基于啟發式的方法包括Lazy max-sum算法[19]、平均Hamilton分區--多個旅行推銷員算法[74]、One-To-Many Bipartite Matching[75]、基于最近鄰的聚類和路由方法[76]和[77]。

D. 基于學習的方法

要預測一個智能體必須處理的未來干擾是非常困難的,特別是在沒有具體的數學模型來描述環境行為的情況下,這對實際應用來說是動態的。因此,一個解決方案是智能體學習如何面對這種干擾,考慮到他們過去的行動和其他智能體的行動,從而提高系統效率[78], [79], [80]。

一個典型的機器學習技術是強化學習,其中智能體使用他們的經驗來學習如何在環境的不同狀態下采取行動。環境通常是以馬爾科夫決策過程(MDP)的形式形成的,智能體優化成本或獎勵函數,以便從環境中學習。經常使用的RL方法是Q-learning,它是一種無模型的RL方法,幫助智能體找到MDP的最優解。[78], [79]. RL有很多優點,包括處理環境中的不確定性、實時實施(對于訓練有素的網絡)和處理不同的任務[16]。另一方面,特別是在大規模的復雜系統中,大多數RL算法需要高計算能力[81]。

已發現的基于學習的方法包括[82]中的分布式自組織地圖方法、[12]中的隨機強化學習算法、基于圖的多智能體強化學習方法[83]、帶有增強爬坡搜索方法的MARL[84]、基于Q-學習的快速任務分配算法[16]、使用合作深度強化學習策略的任務分配過程[79]和基于MARL軟Q-學習方法[85]。

E. 混合方法

除了上述解決任務分配問題的方法外,還有一些結合了上述一些方法的其他方法,它們被稱為混合方法。

在[86]中,優化和基于拍賣的方法被結合起來,而在[87]中,基于市場的方法與基于博弈論的方法被結合起來。此外,[88]、[89]和[13]是基于市場和元啟發式的結合,[90]是基于市場和學習的結合。在[91]中,進化算法與貪婪算法相結合,而在[92]中,基于博弈論的方法與學習算法相結合。

IV. 任務分配程序的關鍵因素

評價MAS中的任務分配程序的一些基本標準是所使用的算法的計算復雜性、解決方案的最優性和所使用方法的可擴展性。此外,算法處理不確定性的能力,以及通信程序的有效性,對整個系統的性能起著重要作用。

A. 復雜性、最優性和可擴展性

影響任務分配計算成本的因素是所使用的算法的復雜性,這些算法的使用頻率,以及智能體之間需要的通信方法的計算成本(智能體為實現成功的任務分配需要交換的信息比特)[93], [94]。

另一個關鍵因素是找到的解決方案的最優性。當我們提到任務分配程序的最優性時,我們的意思是所找到的解決方案具有可能的最高總體效用,受到系統特性的限制,如提供給智能體的信息的噪聲、不確定性和不準確性。為了找到動態而非靜態的解決方案而執行算法的頻率,以及可以重新分配的任務的比例,都會影響解決方案的質量[4]。此外,隨著越來越多的復雜任務和更多的智能體被用于任務分配方案,算法的可擴展性對其有效性至關重要。

表一 一些有代表性的任務分配算法的復雜性

a) 基于CBBA的方法:所提出的基于CBBA的方法,是CBBA和PI算法的改進,比基線CBBA方法有更好的效率和可擴展性,但缺點是計算成本較高。具體來說,PI-MaxAss[14]算法的計算復雜性相當于 ,其中 是任務數。此外,改進的CCBBA算法[38]的復雜度為 ,其中Θ是收斂前需要的最大迭代次數, 是每個任務的最大傳感器數量, 是智能體數量, 是任務數量,M是規劃范圍。

b) 基于CNP的方法:一般來說,基于CNP的技術在重新分配任務方面非常好,但高度依賴于智能體之間的通信程序,通常造成高計算成本。此外,CNP的另一個問題是觀察到的信息擁堵。所提出的改進的CNP算法,比基線CNP有更高的效率和更小的計算成本。但是,即使有一些方法試圖解決消息擁塞的問題,例如[44],這仍然是一個開放的研究領域。

c) 基于博弈論的方法:所提出的博弈論方法,比基線方法更有效,有更好的次優(近優)解決方案。此外,一些博弈論的算法比基于市場的方法有更好的效率。至于復雜度,基于Apollonius圈的主動追擊者檢查(AAPC)[52],其復雜度為 其中 為追擊者的數量。基于匿名享樂博弈[50]的GRAPE算法的復雜度由 約束,盡管在大多數情況下要小得多,其中 是網絡的圖徑, 是任務數, 是智能體的數量。至于每個智能體的通信復雜度是 ,其中 是智能體i所通信的智能體數量。

d) 啟發式方法:有很多解決DCOP問題的技術。提供最優解決方案的技術通常具有指數級的協調負擔,而基于啟發式的技術具有較低的協調成本,但提供次優的解決方案。一些提議的技術顯示了比一些基于遺傳和市場的方法更高的效率和更小的計算成本[19]。懶惰的最大和方法[19]的信息傳遞復雜性為 但如果我們考慮所有智能體對所有任務的分配,復雜度會上升到 對于找到次優解的AHP-mTSP算法[74](平均哈密爾頓分區,多個旅行銷售人員問題),對于 個智能體和 個任務,每個迭代的復雜度為 平均運行時間為 。此外,集中式啟發式基于最近鄰的聚類和路由(ncar)方法[76]的計算成本為 ,其中 是智能體的數量。OTMaM技術[75]適用于大規模的系統,其時間復雜度為 ,其中 是智能體的數量, 是任務的數量。

e) 元啟發法:元啟發式技術成本低、穩健、高效,但有時會造成任務間的沖突,為智能體分配不必要的任務,對環境變化的反應也很慢。與基線算法相比,所提出的算法具有較低的復雜性和更好的可擴展性。但是,其中一些算法是次優的,或者假設通信程序沒有故障。此外,其中一些算法比一些貪婪的和基于市場的(如CNP)方法具有更高的可擴展性和更好的性能。對于MOMHTA算法[71],總體最壞情況下的復雜度是 ,其中 是任務的數量,H是超平面上參考點的數量,L是目標的數量,K是創建集群的數量。

f) 基于學習的方法:基于學習的方法,特別是強化學習的方法,通常具有很高的效率,可以在線實施,并對環境干擾有很好的表現。我們注意到,很多技術比基線模擬退火、爬坡和貪婪算法有更好的性能。此外,我們還注意到比基于邊界的方法和匈牙利方法的效率更高。盡管一些方法的計算成本比基于拍賣的方法小,但計算成本和維度的增加仍然是其他強化學習方法的一個問題。

表二 一些有代表性的任務分配算法的通信類型

g) 混合方法:使用混合方法是一個非常好的解決方案,因為兩種技術可以結合起來,利用它們的優勢,實現比基線方法或只使用一種方法更高的效率或更小的計算成本。在[86]中,使用了簡化的MILP程序和多智能體投標的迭代調度算法,迭代調度器的計算復雜度為 ,其中 是智能體的子集。此外,在這個調度器的低級階段,使用了GSTP算法,增加了整體的復雜性。在[89]中,基于CBBA的方法與蟻群系統(ACS)算法相結合,并且在CBBA的包含階段使用了基于貪婪的策略,最壞情況下的計算復雜性是 ,其中 是幸存者(任務)的數量。

表一中列出了上述算法的復雜度摘要。我們可以看到大多數方法都有多項式的時間復雜度。計算成本較高的是基于CBBA的算法,以及一些混合方法。另一方面,基于啟發式的方法和基于博弈論的方法的復雜性較低。

B. 通信

智能體之間的通信是其協調性能的一個非常重要的因素。目標是智能體使用最小的可用帶寬,在不使通信網絡過載的情況下,交換有關其狀態以及周圍環境的重要信息[12]。智能體的通信可以是明確的或隱含的。顯性或直接通信,是指智能體之間使用通信網絡和專用網絡協議交換信息。大多數現有的協調方法都使用這種類型的通信。隱式方法是指通過環境,使用智能體配備的傳感器,獲得關于多智能體系統中其他智能體的信息。如果智能體利用其他智能體在環境中留下的信息進行交流,那么隱式交流是主動的(生物學啟發技術),如果智能體使用他們的傳感器來感知環境發生的變化,那么隱式交流是被動的[96]。

顯式通信方式通常比隱式情況有更高的準確性,缺點是通信負荷較高,特別是對于大規模的系統。隱式的情況下,即使缺乏準確性,也有更好的穩定性和更強的容錯性。因此,混合使用這些方法是一個非常好的主意,可以利用它們的優勢,導致更好的整體系統性能[96]。在表二中列出了一些任務分配的特征算法的通信技術。我們看到,一些經常使用的技術是社會網絡技術、黑板計劃、信息素圖和一般基于圖的技術。

表三 主要任務分配方法的比較

C. 不確定性

考慮到不確定性的任務分配技術,對于在現實生活中實現高效和穩健的任務分配非常有用。到目前為止,大多數技術,特別是分布式技術,比集中式技術更難融入不確定性。不確定性可以考慮到傳感器的不準確性、智能體的失敗、環境干擾等[97] [98]。根據以前的研究,應該把可靠性作為優先考慮的因素,因為如果忽略了失敗的可能性,性能就會下降(次優性能)[99]。例如,在[100]中,作者發現在通信程序不確定的環境中使用基于異步共識的捆綁算法(ACBBA)(現實的有損網絡環境),會產生低效的任務分配,特別是對于大量的智能體。因此,該算法的性能與理論上的預期性能相比是不同的。

在[99]中,使用啟發式方法和非馬爾科夫狀態,研究了多智能體系統中的不確定性問題(通常是任務分配程序中的元素失效)。他們的結論是,做出簡化的假設,如馬爾科夫狀態,會導致結果不能公平地反映系統的性能。此外,他們證明了在某些類別的問題中,使用更復雜的啟發式方法,更好地描述物理環境和發生的不確定性,導致了性能的提高。在[97]中,作者通過處理不確定的環境,開發了性能影響(PI)算法的改進版本,提高了魯棒性。提出了三種穩健的PI變體,使用蒙特卡洛抽樣從高斯分布中抽取不確定的變量。與基線CBBA和PI相比,所提出的方法降低了不確定情況下的故障率和未分配任務的數量,但增加了計算的復雜性,使得它們對時間關鍵型應用不可靠。

因此,納入不確定性在很多應用中是非常有用的,可以帶來更好的性能。但是,總是存在著計算復雜度較高的危險,因此在效率、穩健性和收斂時間之間應該有一個平衡,這取決于可用的計算能力和每個應用的具體需求。

V. 結論

表三是主要任務分配技術的一些主要性能特征的總結,從1(低值)到4(非常高的值)進行了分類。我們看到,基于CBBA和CNP的技術通常具有較高的計算成本,使它們不適合大規模的系統。此外,確定性優化技術也有極高的成本和低可擴展性,使得它們也不適合于中到大規模的系統,盡管它們有非常好的效率。另一方面,啟發式和博弈論方法具有非常低的成本,使它們成為提供具有中等和良好效率的快速解決方案的理想選擇。這些方法也可以用于大規模的系統,因為它們具有非常好的可擴展性。元啟發式方法和學習方法具有適度的成本、良好的效率和可擴展性,可用于中等規模,有時也可用于大規模環境,這取決于具體問題。特別是學習技術在動態任務分配和動態環境中非常好。

隨著MAS系統技術的發展和計算能力的逐年提高,在實際環境中實施改進的任務分配算法的需求勢在必行。這樣的環境有很高的不確定性,復雜的任務,并且可能需要實時實現所用的算法。由于對這種環境的適應性,RL方法是一個很有前途的任務分配研究領域,在過去的幾年里被科學界廣泛研究。此外,博弈論和元啟發式方法對這類系統也很有前途。如[101]所述,基于RL和博弈論的技術的結合改善了多Agent情況下的RL(MARL),因此基于博弈論和RL的技術的結合對于任務分配方法來說也是非常有前途的。

付費5元查看完整內容

摘要

本報告介紹了對動態數據驅動應用系統(DDDAS)異常檢測和響應的研究,以建立抗攻擊的多智能體系統。報告涵蓋了2019年1月至2021年11月期間的情況。除了之前報告中介紹的成就,我們還展示了一些關于所述策略實際執行的新結果,以及完成項目所有活動所需的最后細節。由于Covid-19大流行病,封鎖阻礙了實驗室的工作,不被允許雇用研究生研究助理,項目要求延期,并在2020年11月獲得批準。大學在2021年第二學期開放了實驗室,當時能夠雇用四個本科生研究人員。因此,所有的活動都是由這些本科生、三名研究生和兩名主要研究人員制定的。

這份最終報告的組織結構如下:

(i) 第一節總結了項目的目標和活動,到目前為止取得的進展,所需要素的購買情況,以及書面論文的清單。

(ii) 第二節介紹了一些與所制定的戰略共同的初步情況。

(iii) 第3節介紹了開發的方法和實驗結果。

(iv) 第4節提出了一種新穎的離散時間種群動力學來實現機器人的編隊。

(v) 第5節介紹了所開發的策略的發展和進一步的實際執行情況,以供測試。

(vi) 最后,第7節介紹了所開發工作的最終結論。

1 引言

具有多個智能體的系統使我們能夠開發不同的策略來控制大規模的互連系統。與有單個智能體的系統相比,有多個智能體的系統可以更容易和更快地完成監視等任務。對這類系統的研究使我們能夠對動物和人類的行為進行建模,并根據這些行為設計控制策略。這種策略從基于鳥群和蜜蜂覓食的算法[1],沿網絡的分布式傳感[2],延伸到耦合振蕩器的同步[3],等等[4,5]。

進化博弈論對生物種群有重要的啟發作用,當與物理系統適當結合時,博弈論可以優化系統行為。這種理論的使用允許為不同的應用設計分布式控制器,如水系統的控制[6],或孤立的微電網的同步[3]。大多數提出的問題解決方案都采用連續時間的方法。然而,為了在一些系統上正確實施這些策略,需要有離散時間控制器。即使連續時間控制器是穩定的,離散化也可能變得不穩定。因此,必須發展理論結果以確保離散時間控制器是穩定的。

除了提到的離散化問題,控制器和系統還面臨另一個問題,因為它們很容易受到攻擊。惡意智能體可以修改系統信息以損害用戶和物理工廠。在多智能體系統中,對一個智能體的攻擊可以滲透到整個系統中,因為它向其余的智能體發送了損壞的信息。此外,攻擊者可以修改一個智能體發送給其鄰居的信息。對真實系統的一些攻擊表明,有必要開發一種自動反應來面對其影響[7, 8]。

該項目解決了上述問題,即使用離散時間群體動力學的系統控制和緩解對控制系統的攻擊。因此,本項目所取得的貢獻可以概括為以下幾點。首先,我們開發了一種策略來檢測和緩解對系統智能體之一的傳感器的攻擊。該策略減輕了對被攻擊智能體的影響,并防止攻擊通過通信網絡傳播到整個系統。第二,我們設計了一個使用新的離散時間群體動力學來優化凸函數的策略。我們開發了理論結果以確保系統的穩定性。這一新穎的發展使我們能夠設計一個控制器來實現機器人的編隊。第三,我們開發了一個基于軟件定義的網絡(SDN)的策略,以減輕對通信鏈路的攻擊。我們說明,使用SDN為網絡物理系統提供了不同的能力,以減輕智能體之間的通信攻擊。最后,我們不僅模擬,而且還在一個有多個差動驅動機器人的系統上實施了上述的一些策略,以顯示其效率。

1.1 目標和活動

為無人駕駛地面車輛(UGVs)設計并實現一個能夠減輕對傳感器讀數攻擊的編隊控制器。這項工作的重點是至少有三個機器人的編隊,并限于完整性和重放攻擊。

之前所說的目標可以在以下具體目標中分開:

  • 開發一個編隊控制器,用于幾個UGV,即三到六個機器人,以及至少三個幾何編隊分布。

  • 開發一種能夠檢測機器人傳感器異常情況(攻擊/失敗)的機制。

  • 開發至少一種機制,能夠協調測量值和估計值,并計算控制行動所需的調整,以減輕異常情況對機器人編隊的影響。

  • 開發一個機制的性能指數,以量化當緩解機制被添加到編隊控制器中時攻擊的影響的減少。

為了實現這些目標,我們在項目提案中陳述了以下活動:

(i) 設計和實現編隊隊長的控制器。

(ii) 設計和實現緩解對編隊領導的路徑跟蹤任務的攻擊的機制。

(iii) 選擇要探索的編隊集合,即定義每個編隊的機器人數量和幾何形狀(至少有三種情況)。

(iv) 為三個機器人系統的每個編隊中的跟隨者機器人設計和實現控制器。

(v) 開發機制,以檢測由領導者發送和/或由兩個追隨者接收的信息的異常情況(被攻擊的信息可能是不同的)。

(vi) 開發機制以減輕攻擊對編隊中兩個跟隨者機器人的影響。

(vii) 在一次專門會議上發表部分成果。該出版物將包括緩解對一個有三個機器人的編隊中的領導者和追隨者機器人的攻擊。

(viii) 設計和實現六個機器人的多智能體系統中的領導者和跟隨者的編隊控制器。

(ix) 開發機制,以檢測有六個智能體的系統中由領導者發送和/或由追隨者接收的信息的異常情況(在攻擊下可能是不同的)。

(x) 為六個智能體和不同的隊形形狀擴展緩解機制。

(xi) 定義一個性能指數,以量化受攻擊系統和包括緩解機制的受攻擊系統之間的差異。

(xii) 在專業期刊上發表最終結果。

圖1:不同移動地面機器人平臺的比較。EPFL是洛桑聯邦理工學院,USC是南加州大學。改編自[9]。

1.2 基礎硬件

為了完成上述活動,我們已經購買了一些硬件。圖1顯示了不同研究小組制造的一些機器人的主要特征。盡管有些機器人如Khepera IV呈現出許多功能,但這些機器人的價格很高,或者它們沒有商業化的供應。因此,我們選擇了e-puck第2版;它有足夠的功能來開發目前的工作,其價格允許我們用現有的預算購買幾個機器人。

我們總共購買了六個地面機器人,一臺高性能的和三臺中等大小的計算機。表1顯示了每個部件的不含稅成本。機器人的價格是不同的,因為它們是在不同的日期購買的。此外,為了實現機器人的分布式通信,購買了6個樹莓派,為了檢測機器人的位置,還購買了一個攝像頭。作為項目的對應方,博士生Luis Francisco C′ombita在2015年獲得Colciencias 727資助的預算中的一些資源被用來購買項目用品,以及博士生Jorge Alfredo Lopez Jimenez的一些預算資源。Colciencias是哥倫比亞相當于國家科學基金會(NSF)的機構。

表1:為項目發展所獲得的要素

付費5元查看完整內容

1. 摘要

將不同的、異質的、時間變化的部件整合到復雜的自主系統中,同時保證系統級屬性,這就能滿足達到可靠自主性科學的要求。在安全機器學習或強化學習等課題上已經做了很多工作,以獲得對學習型自主系統的性能和安全的保證(包括通過這個項目),這項探索性的研究工作側重于具有挑戰性的步驟:如何在一個有多個學習組件相互作用的多智能體系統中提供可靠自主性。該項目成功地完成了對競爭和合作環境中分布式學習新算法的設計和分析。

2. 簡介

許多系統是由一系列相互作用的子系統組成,它們相互作用,或者明確地作為一個團隊進行合作,或者以非零和博弈的方式進行競爭。無人駕駛系統是具有這種結構的典型案例。這種系統已被設想用于許多不同的領域,從偵察、搜索和救援、地雷探測和清掃到戰術任務。賦予這些系統自主性,不僅可以減少人員傷亡,而且還可以使其成為一支靈活的、具有多種能力的部隊,從而取得主導地位。

盡管取得了重大進展,但要實現可靠長期自主性,即允許系統在不確定的操作條件下,在相當長的時間間隔內做出反應,它們必須對環境、子系統動態或配置、甚至目標和操作約束的意外變化做出自主反應,這仍然具有挑戰性。傳統的基于模型的技術很可能在這一探索中失敗,因為在復雜的、不確定的和時間變化的環境中獲得良好的模型要求太高了。然而,在智能體團隊的分布式控制方面,新的基于學習的策略目前還沒有得到充分的發展,其方式可以保證高置信度操作所需的整體安全和性能。

這項探索性的研究工作集中在這方面的兩個問題上。第一個問題集中在設計一個低級別的控制器,它能以一種組合的方式保證安全和穩定。考慮一個大規模的系統,其中子系統的動力學是未知的,因此需要用數據驅動的方法來識別子系統,并在局部設計(和更新)控制器,以確保滿足穩定性約束。雖然有很多理論可用于模型識別,但如果將使用模型設計的控制器應用于原始系統,幾乎沒有任何保證。把這個問題看作是純粹的基于強化學習的控制設計問題,用目前的集中式或分布式強化學習方法是無法擴展的。這里采取的方法是確定面向控制的學習和組合式控制器設計的方法,這樣就可以測試和保證全局屬性,如穩定性和安全性。在第二個問題中,重點是設計一個更高級別的控制器,以確定探索該地區的最佳軌跡。由于沒有環境模型,強化學習是少數可用的方法之一。大多數多智能體和分布式強化學習算法假設所有智能體在每個時間步驟與所有其他智能體分享其當前狀態、行動,甚至可能是獎勵。然而,考慮到惡劣的通信環境和可能存在的對手,需要分布式強化學習算法,其中智能體只與鄰居分享有限的信息,并且任何通信可能被惡意改變。這項研究工作開發了這種新的分布式強化學習算法。

3. 方法、假設和程序

在上述總體范圍內,這項研究工作考慮了各種問題背景,如下所述。

3.1 用基于學習的控制確保分布式系統的穩定性和安全性

對于使用學習算法的分布式系統的底層控制,該研究工作考慮了幾個方向。主要的想法是將系統理論概念,如耗散性(已被用于大規模系統基于模型的組合控制)與強化學習算法相結合。該研究在不同的方向上發展了這一想法。

其中一個方向是研究如何驗證在不確定對抗性環境中運行的大規模網絡物理系統的預期屬性,如耗散性。這項工作提出了基于學習的方法,以最小的系統動態知識實現驗證。為了在大規模模型中實現組合性,該研究將驗證過程分布在各個子系統中,這些子系統利用從其近鄰獲得的有限局部信息。通過一種新的強化學習啟發的方法避免了對子系統參數知識的需求,該方法能夠分散地評估可用于驗證耗散性的適當存儲函數。所提出的方法允許在確保耗散性的同時,將學習功能的子系統添加到物理網絡中。研究顯示了如何使用不同的學習規則來保證不同的屬性,如L2-增益穩定性或無損性。最后,這項工作解決了對復雜屬性的驗證需求。

在子系統開發基于強化學習的控制器,確保整個網絡系統的穩定性和魯棒性,特別是當不同的智能體可能不使用相同的強化學習算法時,這是一個具有多個基于學習組件的可靠自主性的核心問題,但在很大程度上仍然是開放的。這項工作考慮了當強化學習被用于網絡動態系統的分布式控制時保證穩定性的問題。具體來說,考慮一個由許多子系統組成的大規模系統,這些子系統通過它們的輸入和輸出耦合在一起,例如一個微電網網絡。每個子系統根據子系統的狀態、輸入和輸出信息設計一個本地控制器。特別是,研究假設控制器是使用強化學習算法實現的,因為子系統的動態可能是未知的。然而,值得注意的是,不同的控制器有可能使用不同的強化學習算法。這就留下了一個開放性的研究問題,即如何設計能保證整個系統仍然穩定的控制器?

研究工作通過設計分布式控制器來解決這個問題,以穩定一類網絡系統,其中每個子系統都是耗散的,并設計一個基于強化學習的局部控制器,以最大化單個累積獎勵函數。所開發的解決方案對每個子系統的局部控制器執行耗散性條件,以保證整個網絡系統的穩定性。所提出的方法在一個直流微電網的例子中得到了說明;其目的是利用每個發電單元的本地分布式控制器來維持網絡的電壓穩定性。

這項工作的主要貢獻是,當各個子系統利用強化學習來設計自己的控制器時,采用分布式方法來確保具有耗散性子系統的網絡系統的穩定性。除了研究重點關注的特定穩定問題外,將耗散性(和其他輸入輸出)規范整合到基于強化學習的控制中是非常有用的,因為它允許將經典的耗散性理論中的各種工具整合到基于強化學習的控制設計中。所提出的算法保證了穩定性,而不考慮在每個子系統中使用的強化學習算法的選擇。特別是,這些結果對每個子系統使用的異質強化學習算法也是成立的。應該指出的是,與大多數現有的多智能體強化學習文獻相比,所提出的方法只需要來自相鄰子系統的輸出來學習每個子系統的控制策略。換句話說,為了保證穩定性,不需要關于其他子系統的狀態、獎勵或政策的信息。

雖然上述設置是無模型學習,但研究小組也考慮了基于模型的學習設置,其方向是用基于學習的控制器設計保證系統的穩定性。在基于模型的學習中,所學的模型最好能保留系統的結構特性,以方便控制設計或提供性能、穩定性或安全保證。該方法考慮了一個未知的非線性系統擁有這樣的結構屬性--被動性,它可以被用來確保學習到的控制器的穩健性。該研究開發了一種算法,從時域輸入-輸出數據中學習該非線性系統的無源線性模型。該算法首先使用任何標準的系統識別技術學習該系統的近似線性模型。然后,該算法通過擾動線性模型的系統矩陣來強制執行被動性,同時確保擾動的模型緊密接近非線性系統的輸入-輸出行為。最后,該算法得出了擾動大小和區域半徑之間的權衡,其中線性模型的被動性保證了未知非線性系統的局部被動性。當使用通過學習算法學習的模型設計控制器時,這一結果可用于確保閉環系統的穩定性。

一旦穩定性得到保證,性能就可以被優化。針對系統模型未知的情況,研究了具有部分嵌套信息結構的分散狀態反饋線性二次方控制的控制策略設計問題。提出了一個基于模型的學習解決方案,它包括兩個步驟。首先,利用最小二乘法估計,從有限長度的單一系統軌跡中估計未知系統模型。接下來,基于估計的系統模型,設計了一個滿足所需信息結構的控制策略。結果表明,控制策略與最佳分散控制策略(利用系統模型的準確知識設計)之間的次優差距與系統模型的估計誤差成線性比例。利用這一結果,為學習具有部分嵌套信息結構的線性二次控制問題的分散控制器提供了一個端到端的樣本復雜性結果。

3.2 有對手存在時的強化學習

基于學習的可靠自主性的一個重要組成部分是開發一種廉價的、自動化的方法,可以回答 "如何保證安全關鍵系統在故障或對抗性攻擊下的彈性運行?" 確保安全關鍵型網絡物理系統即使在故障或對抗性攻擊下也能繼續滿足正確性和安全規范是非常具有挑戰性的,特別是在存在設計者不知道其準確模型的遺留組件的情況下。研究的一個主要方向是考慮這種設置中存在的對抗性智能體。

多智能體強化學習是基于各智能體之間的合作。智能體尋求使效用之和最大化的政策,所有智能體都要遵循規定的算法。研究的第一個方向是表明經典的多智能體強化學習算法對行為不端的智能體是脆弱的。最近,文獻中提出了許多合作的分布式多智能體強化學習算法。研究了對抗性攻擊對一個采用基于共識的多智能體強化學習算法的網絡的影響。研究表明,一個對抗性智能體可以說服網絡中的所有其他智能體執行優化它所希望的目標策略。在這個意義上,標準的基于共識的多智能體強化學習算法對攻擊是脆弱的。這揭示了設計新的有彈性的多智能體強化學習算法以可靠自主性的關鍵需求。

鑒于目前多智能體強化學習算法的這種脆弱性,我們設計了一種穩健的多智能體強化學習算法。我們考慮了一個完全分散的網絡,其中每個智能體收到一個本地獎勵并觀察全局狀態和行動。提出了一種彈性的基于共識的行為者批評算法,每個行為者估計團隊平均獎勵和價值函數,并將相關的參數向量傳達給其近鄰。研究表明,在存在拜占庭智能體(其估計和通信策略完全是任意的)的情況下,合作智能體的估計值以1的概率收斂到一個有界的共識值,條件是每個合作智能體的鄰域中最多有H個拜占庭智能體,并且網絡是(2H+1)健壯的。此外,已經證明,在假設對抗性智能體的政策漸進地成為靜止的情況下,合作智能體的政策以1的概率收斂到其團隊平均目標函數的局部最大化附近。

目前的安全設計系統工程技術并沒有為設計者提供一種端到端的方法,以通過識別系統動態和更新控制策略來應對新發現的故障、攻擊或其他變化(如系統升級),為安全關鍵系統提供實時保證。我們提出了一種新的方法,以及一個集成的軟件框架,以保證具有未知動態的安全關鍵系統的彈性運行。建議的框架由三個主要部分組成。運行時監控器根據以信號時態邏輯公式表示的正確性規范,對系統行為進行即時評估。模型合成器包含一個稀疏識別方法,用于持續更新工廠模型和控制策略以適應系統或環境的任何變化。決策和控制模塊設計一個控制器,以確保在運行時滿足正確性規范。為了評估,建議的框架被應用于確保兩個案例研究的彈性操作。

3.3 互動的智能體學習

如果智能體不合作,它們之間的互動可以考慮以游戲的形式進行。智能體應該遵循的策略(例如,在納什均衡背景中)現在可以通過合適的學習算法來學習。這項工作廣泛地考慮了這樣一種背景。

一個研究方向是以元學習框架的形式來研究適應性玩家之間的游戲。一個認知能力增強的智能體被賦予了一種結構,使他們能夠識別對手在游戲中的學習方式。這是通過在線調整的近似器實現的,這些近似器只利用從環境中觀察到的行動。研究表明,對對手效用的了解使近似權重漸進收斂。然后,該框架通過時間的反向傳播進行了擴展,這樣就不需要對效用的了解,并顯示了誤差向殘差集的收斂。最后,玩家在一分錢匹配游戲中的模擬學習證明了這種方法的有效性。

一旦確定了對手的學習算法,就可以利用這些信息來進一步獲得游戲中的效用。虛構游戲是一種流行的學習算法,其中玩家利用玩家的行動歷史和對自己報酬矩陣的了解,可以在游戲的某些條件下收斂到納什均衡。我們考慮了一個能夠獲得整個游戲報酬矩陣的智能玩家的存在。結果表明,通過不遵守虛構的游戲,這樣的玩家可以獲得比納什均衡更好的報酬。這一結果既可以看作是虛構博弈算法對戰略智能型棋手的脆弱性,也表明棋手不應拋棄他們可能擁有的額外信息,正如經典的虛構博弈所建議的。這一研究路徑的主要結果是,戰略智能體在競爭環境中使用的學習算法本身可以被對手利用來降低性能。

另一個研究方向是考慮串通和激勵的可能性。分布式系統中的許多場景需要系統主管或操作員激勵自利的智能體,使其付出昂貴的努力,做出與操作員的目標一致的決定。例如,在參與式傳感中,一個系統操作者需要許多自主傳感器進行測量,以便對一個全球數量進行估計。操作員不能直接觀察每個傳感智能體的努力(可能是出于隱私原因),而且智能體可能不會直接從操作員的目標中受益,因此需要根據噪聲輸出進行補償。這項研究考慮了需要通過學習算法來設計補償或激勵的情況。具體來說,這項工作研究了這樣一種設置,即委托人激勵多個不同類型的智能體,這些智能體可以相互勾結以獲取租金。委托人不能直接觀察所付出的努力,而只能觀察任務的結果,而任務的結果是努力的噪聲函數。每個智能體的類型影響著努力成本和任務產出。對于智能體在其支付中是耦合的雙頭壟斷,研究表明,如果委托人和智能體的互動次數有限,即使委托人知道智能體的類型,智能體也可以通過串通獲得租金。然而,如果委托人和智能體的互動次數是無限的,委托人可以通過一個合適的基于學習的合同來抑制智能體的串通。

4. 結果和討論

這項研究的技術成果在季度報告和出版物[SAG20, KFVG20, FKG21, KVGA21, NG21, FLLG21, KSS+21, YZG21, VKGV21, AVG22]中進行了總結。下面將討論所獲得的結果及其對第3節中提到的問題設置的意義。

4.1 設計基于學習的分布式控制器算法以保證穩定性

對于由多個相互作用的子系統組成的系統,即使在模型已知的情況下,保證穩定性、性能或安全性的控制設計也是一個困難的問題。一些系統理論屬性,如耗散性,已被證明對這個問題很有用;然而,傳統上保證這些屬性的驗證和控制器設計都是假設對模型有準確的了解。這項研究的首要貢獻是設計基于學習的分布式控制器算法,該算法可以與耗散性和類似屬性相結合,以保證穩定性。

在[KVGA21]中,大型系統被建模為線性時間不變的子系統的級聯互連。首先,得出了一些可能具有獨立意義的系統理論結果。在L2-增益穩定性定理的基礎上,得出了保證系統穩定性的條件,然后對這些條件進行處理,通過分散的對應物來表達集中的條件,其中子系統的屬性可以單獨考慮。所考慮的強化學習算法是Q-learning。利用Q-learning和耗散性條件之間的聯系,以無模型的方式重述了L2增益所需的屬性。這是一個非常有趣的結果,因為基于學習的函數近似現在可以用來驗證各個子系統的屬性以及它們與鄰居的耦合,以保證原始系統的穩定性。在進行集中分析時,L2增益條件可以放寬到更普遍的被動性條件,以擴大可以考慮的系統范圍。這項工作強調了如何利用動態系統的耗散性特性來驗證穩定性,即使是用無模型的強化學習算法也能做到。

在[KSS+21]中,研究從驗證耗散性(以及穩定性)到設計保證子系統耗散性的控制器,這反過來又導致了整個系統的穩定性。具體來說,當強化學習被用于網絡動態系統的分布式控制時,保證穩定性的問題得到了考慮。考慮一個由許多子系統組成的大規模系統,這些子系統通過它們的輸入和輸出耦合在一起,例如一個微電網網絡。每個子系統根據子系統狀態、輸入和輸出的信息,使用強化算法設計一個本地控制器,因為子系統的動態可能是未知的。然而,值得注意的是,不同的控制器可能會使用不同的強化算法。如何設計能保證整個系統仍然穩定的控制器?這里至少有兩個挑戰。首先,控制策略應該是分布式的。雖然存在大量關于多智能體系統的強化學習技術的文獻,但使用這種技術的分布式控制策略提供穩定性、安全性和穩健性等保證的文獻仍然很少。考慮到用強化控制器保證穩定性和魯棒性問題的作品主要局限于基于模型的強化學習和單智能體系統的線性二次調節器設計等情況。其次,大多數關于多智能體強化學習的現有文獻考慮的是所有子系統執行相同算法的情況,并進一步分享信息,如全局狀態或與其他子系統的獎勵。在子系統中開發基于學習的控制器,以確保整個網絡系統的穩定性和穩健性,特別是當不同的智能體可能不使用相同的強化學習算法時,這在很大程度上仍然是一個開放的問題。

這項研究開發了一種基于強化學習的分布式控制設計方法,利用單個子系統的耗散性特性來保證整個網絡系統的穩定性。所提出的方法是使用控制障礙函數來描述在每個子系統上執行耗散性條件的控制器集合。這種方法對強化學習算法學到的控制輸入施加最小的能量擾動,將其投射到這個集合中的一個輸入。這些結果共同保證了整個網絡系統的穩定性,即使子系統利用潛在的異質強化學習算法來設計其本地控制器。

據研究小組所知,這是第一個在各個子系統利用強化學習來設計自己的控制器時,確保具有耗散子系統的網絡系統穩定性的分布式方法。除了研究重點關注的特定穩定問題外,將耗散性(和其他輸入輸出)規范整合到基于學習的控制中是非常有用的,因為它允許將經典耗散性理論中的廣泛工具整合到基于學習的控制設計中。所提出的算法保證了穩定性,而不考慮在每個子系統中使用的學習算法的選擇。此外,建議的方法只需要來自相鄰子系統的輸出來學習每個子系統的控制策略。換句話說,為了保證穩定性,不需要關于其他子系統的狀態、獎勵或策略的信息。

在[SAG20]中,該項目考慮了強化學習算法首先學習系統模型時的補充問題。如上所示,系統模型中的耗散性可以用來保證穩定性。因此,該問題簡化為以下內容。能否識別出一個耗散性的系統模型,并進一步使所學模型的耗散性水平為真實未知系統的耗散性水平提供一些最壞情況的保證?

使用給定的時域輸入-輸出數據,解決了識別未知耗散非線性動力系統的耗散線性模型的問題。首先,該方法使用標準的系統識別技術學習了系統的近似線性模型,被稱為基線模型。接下來,這個基線線性模型的系統矩陣被擾動,以強制執行二次耗散性。研究表明,只要基線線性模型在輸入輸出意義上接近非線性系統的動態,就可以選擇這種擾動來確保耗散性線性近似的輸入輸出行為接近原始非線性系統的行為。此外,還提供了一個分析條件,將擾動的大小與非線性系統的局部二次耗散特性的半徑聯系起來,在這個半徑內,耗散線性模型可以保證非線性系統的局部二次耗散性。這種關系正式確定了較大的擾動會導致較差的近似的直覺;換句話說,非線性系統的局部耗散性半徑隨著擾動大小的增加而減少。因此,上面提出的問題就完全解決了。雖然所提出的方法是離線的,但在在線環境下,通常已經有了一個基線模型,擴展擾動方法來快速識別耗散模型是很有希望的。

在[YZG21]中,研究人員邁出了向性能保證邁進的第一步。眾所周知,分布式控制器的優化設計是一個不同的問題,即使模型是完全已知的。對于基于學習的控制器設計,該項目因此必須將方法限制在特定的信息結構和動力學上。

因此,該研究項目考慮了一個具有部分嵌套信息結構的分散的無限期狀態反饋線性二次調節器控制問題,并假設控制器無法獲得系統模型。采用了基于模型的學習方法,首先確定系統模型,然后用來設計滿足規定信息約束的控制策略。使用這種方法,提供了一個端到端的樣本復雜性結果,它將用于估計系統模型的數據樣本數量與控制策略的性能聯系起來。控制策略的性能由控制策略的無限期成本和部分嵌套信息結構的最優控制策略之間的差距來表征,當系統模型是先驗的。令人驚訝的是,盡管存在信息約束,而且最優控制器是一個線性動態控制器,但樣本復雜度結果與沒有任何信息約束的學習集中控制設計相匹配。

4.2 基于學習的控制器中存在的對手和故障

研究的第二個大方向是在使用基于學習的控制器時考慮對手和故障的存在。這是一個重要的方向,因為在多智能體系統中,不存在戰略智能體是一個非常有力的假設,同時也因為這種控制器可能被用于安全關鍵系統,在那里,故障的存在可能是災難性的。

研究從[FKG21]開始,表明文獻中提出的標準多智能體強化學習算法對于哪怕是一個戰略智能體的存在都是脆弱的。具體來說,該研究考慮了一種基于共識的多智能體強化學習算法,其目標函數中的獎勵被折現。所考慮的攻擊與強化學習中通常研究的數據中毒攻擊不同,后者試圖了解外部智能體改變數據或獎勵是否會降低學習算法的性能。相反,該項目考慮的是一個參與智能體本身是惡意的環境。具體來說,所問的問題是一個單一的對抗性智能體是否可以阻止算法的收斂,或者更糟糕的是,導致其他智能體優化它所選擇的效用函數。通過設計一個合適的攻擊并分析算法在該攻擊下的收斂性,已經證明這個問題的答案是肯定的。

這項工作很重要,因為它考慮了有對手的網絡,這些對手可以破壞共識和批評者的更新,并將損壞的信號值傳送給其鄰居。研究表明,當惡意智能體貪婪地試圖最大化它自己定義好的目標函數時,網絡中所有其他智能體最終也會最大化對手的目標函數。這項研究促使了彈性多智能體強化學習算法的發展。

在[FLLG21]中,提出了這種有彈性的多智能體強化學習算法。考慮的問題是,是否有可能設計一種基于共識的、具有參數化函數近似的分散式學習的多智能體強化學習算法,在合作智能體在受對抗智能體影響的環境中學習最優策略的意義上,該算法對對抗性攻擊具有可證明的彈性?重要的是要注意,所考慮的對抗性智能體會影響其他智能體,這是因為他們向他們傳達信息,以及通過實施影響環境狀態演變的控制政策。在指定的環境中,要實現對控制政策的對抗性攻擊的彈性是很困難的,因為它不假設智能體知道彼此的控制政策。目標是設計一種有彈性的算法,引導合作智能體在受對抗性智能體影響的環境中學習接近最優的政策。這仍然是一個獨特的挑戰,因為對抗性智能體可以對試圖降低網絡性能的通信通道進行建模攻擊。

為分散的行動者-批評者多智能體強化學習引入了一種新的基于投影的彈性共識方法,其中合作智能體估計批評者和團隊平均獎勵函數,這對接近真實政策梯度至關重要。該算法包括兩個重要步驟,共同促進批判者和團隊平均獎勵函數的高度彈性。在第一步中,接收到的參數被投射到對所有智能體都相同的特征向量中,因為智能體使用相同的基礎函數訓練線性模型。在第二步中,合作智能體在估計鄰居的估計誤差空間中進行彈性聚合,并在隨機梯度下降更新中應用聚合的估計誤差,這確保了本地數據在整個網絡中的擴散。同時考慮了線性和非線性函數的近似。所提出的算法大大減少了訓練中攻擊通信渠道的影響,因此允許合作智能體學習使其團隊平均目標函數最大化的政策。

4.3 非合作性智能體

研究考慮的第三個主要設置是當智能體不合作時。如果每個智能體都有不同的效用函數,那么他們的互動可以被認為是一種博弈,納什均衡等概念更適合于識別智能體的最優政策。由于這些政策通常很難確定,所以已經提出了收斂到這種政策的學習算法。這是分布式學習問題設置的自然環境,是本提案的重點,盡管它不是最初提議工作的一部分。

智能體使用異質學習算法的問題在游戲設置中甚至更為重要。這使得幾乎所有在游戲環境中學習的結果都假定智能體之間的學習算法是同質的,這更令人驚訝。在[KFVG20]中,研究人員解決了這個問題。具體來說,制定了一種學習算法,使智能體在玩重復游戲時能夠根據其他智能體的游戲內容調整他們的策略。隨后,制定了元學習框架--通過識別對手決策機制的調諧算法來獲得對學習算法的理解--的智能球員。最后,該算法通過時間的反向傳播進行了擴展,從而使決策機制和效用都得到學習。這是一個重要的貢獻,因為這個框架也允許在游戲學習中引入認知能力的異質性--就像有界理性一樣。

如果智能體之間不合作,他們將忠實地傳遞信息(如他們的效用)的假設也變得有問題。在[VKGV21]中,考慮了如何消除這一假設。該研究特別關注了n+1個玩家之間互動的虛構游戲,這些玩家重復地進行矩陣階段游戲。玩家根據他們的信息水平進行分類,其中第一類由一個知道完整游戲的單一智能玩家組成。第二類包含所有剩下的玩家,被稱為對手,他們只知道他們自己對不同策略向量的回報。當所有玩家都采用虛構的游戲時,在適當的條件下,玩家會收斂到納什均衡。然而,聰明的玩家不需要堅持虛構游戲。問題是。聰明的玩家能否通過偏離虛構游戲而獲得高于納什均衡的報酬?此外,如果存在這樣的策略概況,當對手實施虛構游戲時,智能型玩家如何執行它?

在這樣的背景下,我們確定了能夠為智能型玩家提供大于納什和斯塔克爾伯格均衡報酬的預期報酬的策略。對于游戲中存在2個玩家的情況,所確定的策略對智能玩家來說是最優的。對于n+1個玩家的一般情況,我們提供了一類更容易操作的策略,稱為基于收斂的混合策略,這些策略可能是次優的,但可以為智能玩家提供大于納什和斯塔克爾伯格報酬的預期報酬。還提供了一個線性編程公式,該公式決定了上述策略,而不必在每個時間點上探索所有對手的行動。最后,為智能型玩家確定了一個純粹的行動軌跡,該軌跡達到了所需的混合策略概率,同時使對手保持在其虛構的游戲中確定的策略。

這是一個有趣的貢獻,因為它既可以被看作是虛構博弈算法對戰略性智能棋手的脆弱性,也表明棋手不應該拋棄他們可能擁有的額外信息,正如經典的虛構博弈所建議的那樣。

5. 結論

這個項目考慮了在一個有多個學習組件相互作用的多智能體系統中可靠自主性。在三個主要方向上設計和分析了新算法:

  • 驗證和保證合作分布式控制中穩定性等特性的算法。

  • 在多Agent強化控制中面對對手時保證持續運行的算法。

  • 以及在游戲中學習的算法。

在如何將不同的學習組件整合到復雜的自主系統中,同時保證系統級別的屬性方面,獲得了新的見解,該項目成功完成。各種新的研究方向已被注意到,以便進行后續研究。

付費5元查看完整內容

地面軍事機器人(UGV)已經發展了二十多年,該領域的當代技術進步正在促進其應用慢慢接近成熟階段。我們可以預期,未來軍事行動的自動化程度將是巨大的,軍事后勤也不例外。軍事人員被機器人系統取代的趨勢在常規和危險任務中很明顯,重點是機器人系統的任務性能,它可以從非常低的傳感器和處理延遲中受益。這方面是人的能力所不能比擬的,它為未來軍事戰場的設想創造了關鍵的基礎。

1.0 引言

未來軍事機器人的關鍵組成部分之一是作戰決策能力,在實際或估計的共同作戰圖景中,實時地、用可用的資產來適應每一個行動方案。本文的重點是作戰物流適應性規劃,在復雜的作戰環境中,應用UGV群來建立一個供應輸送鏈。該任務在數學上被建模為運籌學(多標準)和情報分析問題,其中應用了離散建模和模擬技術。

在自主系統應用的軍事領域,我們對這個問題的理解還處于起步階段。很明顯,這個領域的復雜性非常高,而且分散在幾個層面。如果要對行動畫面的更新做出快速反應,就有一個強烈的假設,即高水平的數據分析過程(基于與C4ISTAR系統相連的數據集)必須是自動化的。

付費5元查看完整內容

摘要

在過去的15年里,人工智能(AI)代表了一個快速擴張的領域,它將從本質上徹底改變分析過程。歷史上以人為中心的流程和能力正迅速被不斷擴大的數據收集所淹沒,從而創造了一個人工智能工具可以填補的空白。使商業行業受益的人工智能應用提供了類似的機會,在軍事領域內增加價值。海軍陸戰隊正在大力投資擴大其在整個海軍陸戰隊情報、監視和偵察體系(MCISRE)的收集能力。2015-2020年MCISRE計劃指導所有情報學科的情報、監視和偵查資產的現代化。隨著收集能力的擴大,處理和利用信息的分析工具必須以類似的方式發展。為了擴大其分析能力,海軍陸戰隊情報部門必須建立一個戰略,確定如何整合人工智能能力。本論文利用當前的人工智能技術能力,提出了一個在MCISRE中整合它們的戰略。該戰略將在理論、組織、訓練、物資、領導/教育、政策和設施(DOTMLPF)方面提供一個整體的前景,為高級領導層提供物質和非物質解決方案的建議,以支持人工智能在MCISRE內的整合。

1 導言和概述

1.1 簡介

人工智能(AI)是一個快速擴張的領域,它將從本質上徹底改變分析過程。歷史上以人為中心的流程和能力正迅速被數據收集的擴展所淹沒,這就產生了一個缺口,而人工智能工具提供了填補這一缺口的能力。到目前為止,人工智能的大部分應用都集中在商業行業。信息技術、營銷、會計和客戶服務行業都從人工智能的算法和系統開發擴展中受益(Ramaswamy,2017)。軍事領域,包括海軍陸戰隊情報、監視和偵察事業(MCISRE),同樣可以從人工智能的商業行業應用中受益。

海軍陸戰隊在擴大整個MCISRE的情報、監視和偵察(ISR)能力方面進行了大量投資。2015-2020年MCISRE計劃指導所有情報學科的收集能力的現代化(HQMC-I,2014)。隨著收集能力的擴大,分析能力必須以類似的方式共同發展,以防止收集和利用之間出現差距。為了擴大其分析能力,海軍陸戰隊情報部門必須建立一個戰略,確定如何對待人工智能能力的整合。

這篇論文將探討當前的人工智能技術能力,并提出一項戰略,以利用它們應用于MCISRE。該戰略將在理論、組織、訓練、物資、領導/教育、人員、設施和政策(DOTMLPF-P)方面提供一個整體展望,為高級領導層提供物質和非物質解決方案的建議,以支持人工智能在情報企業中的整合。

1.2 問題陳述

2012年9月14日,15名塔利班叛亂分子突破了堡壘營的東部邊界(加勒特,2013)。在威脅被消除時,兩名美國軍人死亡,八人受傷,十幾架飛機被摧毀或損壞(加勒特,2013)。隨后的調查提供了因果關系,其中包括不適當的安全人員配置、沒有觀察到的地形、缺乏深度防御、缺乏巡邏和缺乏當地機場的安全(加勒特,2013)。所有這些因素都與不適當的友好行動路線(COA)的制定有關。報告中列出的其他促成因素包括通過錯誤的威脅評估低估了敵人,以及沒有考慮到所有可能的敵人COA。現有的人工智能工具可以應用于軍事領域,以更好地促成友軍的COA決策,并對敵人的能力和意圖提供更好的預測分析。如果軍事領導層配備了人工智能能力,他們可能已經為攻擊做了更多準備,并防止了巨大的生命和飛機損失。

在過去的15年里,人工智能的能力已經迅速擴大。能力的增長與同期人工智能創業公司14倍的擴張相對應(Shoham等人,2017)。盡管有這樣的增長,海軍陸戰隊卻未能在整個MCISRE中利用和充分納入人工智能。由于沒有納入這樣一種關鍵能力,未能適應人工智能技術,通過降低分析能力對海軍陸戰隊的情報作戰功能產生了負面影響。數據收集正在以指數級的速度擴展,人類歷史上產生的當前全球數據的90%是在過去兩年中收集的(Savitz,2013)。隨著數據收集的不斷擴大,海軍陸戰隊的分析退化將變得巨大,在收集和分析人員處理和利用數據的能力之間產生了差距。缺乏正式的戰略來整合整個MCISRE的人工智能,導致了這個問題。一項定性研究,調查DOTMLPF-P對人工智能整合的考慮,可以幫助制定一個有凝聚力的戰略,這將有助于解決這個問題。

1.3 目的聲明

這項研究的目的是對商業和美國防部(DoD)的人工智能能力和軟件與海軍陸戰隊的分析工具集進行評估和并列,以確定潛在的能力和整合方法。這種識別和隨后的建議旨在擴大情報分析員的分析技術,以彌補海軍陸戰隊在收集和利用大數據之間不斷擴大的能力差距。DOTMLPF-P的建議被整合到MCISRE的AI戰略中,代表了最終的結果。該研究將確定和考慮。

  • 海軍陸戰隊的分析工具和戰術、技術和程序(TTPs)

  • 人工智能賦能能力

  • 商業上可用的人工智能能力

  • 人工智能的軍事應用的分析要求的差異

  • DOTMLPF-P分析,以確定整合人工智能的要求。

1.4 研究問題

1.海軍陸戰隊情報監視和偵察事業(MCISRE)如何將已經開發的商業人工智能軟件和硬件能力納入其系統架構,以提高整個企業的分析能力?

2.鑒于商業人工智能的新興能力,需要對軟件和/或就業概念進行哪些調整以確保它們支持軍事分析要求?

3.將人工智能納入海軍陸戰隊情報工作的DOTMLPF-P考慮和影響是什么?

4.海軍陸戰隊應在此戰略的基礎上追求哪些技術選擇?

1.5 潛在利益、限制和假設

所進行的研究為海軍陸戰隊提供了一個機會,以確定將人工智能應用于其軍事情報工具集的優勢和風險。可交付的成果將是一項人工智能戰略,該戰略將為負責戰斗開發和整合的副司令部(DC CD&I)的未來記錄項目以及海軍陸戰隊總部情報部(HQMC-I)的政策提供信息。由于新興的商業人工智能能力目前不存在記錄項目,該研究將限于文獻和商業人工智能領域的研究,并利用演繹推理來達成戰略的建議。該戰略的一個假設是,MCISRE不會用額外的人力解決任何挑戰,所有提議的人工智能解決方案必須考慮到這一限制。這一假設是基于海軍陸戰隊部隊結構的最新趨勢。

1.6 論文布局

第二章是文獻綜述,研究了人工智能領域的學術工作,并對整個MCISRE實施人工智能所需的關鍵知識概念進行了闡述。第二章將分為兩部分,前半部分側重于通過研究戰術、技術和程序(TTPs)來了解目前如何進行情報工作。后半部分將重點關注情報周期各階段的人工智能使能能力。第三章解釋了用于推斷已確定的人工智能使能能力的方法,結合實地研究,制定構成人工智能整合戰略基礎的建議。第四章是介紹DOTMLPF-P的關鍵考慮。第五章介紹了結論和對未來研究的建議。

付費5元查看完整內容

人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。

1 引言

由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。

AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。

在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。

2 相關工作

自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。

一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。

最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。

與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。

3 背景-分層強化學習

將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。

我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。

4 ADT仿真環境

為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。

圖1: 仿真環境的渲染圖

每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。

每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。

圖2:武器交戰區(WEZ)

WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。

5 agent結構

我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。

圖4:PHANG-MAN agent的高層結構

付費5元查看完整內容

先進作戰管理系統(ABMS)是美國空軍創建下一代指揮和控制(C2)系統的最新計劃項目。ABMS建議使用云環境和新的通信方法,使空軍和太空部隊系統能夠使用人工智能無縫共享數據,以實現更快的決策。空軍將ABMS描述為其創建物聯網的努力,這將使傳感器和C2系統相互分解(與空軍傳統上執行C2的方式相反)。該計劃是空軍對國防部全域聯合指揮與控制(JADC2)工作的貢獻,重點是使國防部的作戰決策過程現代化。

ABMS最初的設想是取代目前指揮空戰行動的E-3機載預警和控制系統(AWACS)(圖1),但后來有了更廣泛的范圍。前空軍負責采購的助理部長威爾-羅珀指示,該計劃應減少對指揮中心和飛機的關注,而是創造數字技術,如安全云環境,在多個武器系統之間共享數據。羅珀博士表示,2018年國防戰略所設想的有爭議的環境迫使空軍重組ABMS項目。2021年5月,空軍副參謀長大衛-奧爾文將軍在DefenseOne的一篇文章中說:"ABMS究竟是什么?它是軟件嗎?硬件?基礎設施?策略?答案是都是"。換句話說,空軍將ABMS設想為一個采購項目,它既要采購東西,又要實施其他非開發性的工作,該部門認為這些工作同樣重要:指揮和控制空軍的新技術。

自ABMS成立以來,國會已經對下一代C2系統的發展表示了興趣。空軍表示,ABMS是一個非傳統的采購項目。因此,國會對空軍替換老舊系統的方法和試驗新興技術的方法提出了質疑。

ABMS的開發工作

迄今為止,空軍已經進行了五次活動,以展示其希望最終投入使用的新C2能力。2019年12月,空軍在其第一次ABMS "on-ramp"(空軍用來表示演示的術語)中,展示了從陸軍雷達和海軍驅逐艦向F-22和F-35戰斗機傳輸數據的能力。這次活動還展示了空軍的統一數據庫(UDL),這是一個結合天基和地基傳感器追蹤衛星的云環境。

2020年9月,ABMS進行了第二次"on-ramp"。這第二次上線演示了通過使用超高速武器作為防御手段,探測和擊敗一個飛向美國的模擬巡航導彈。此外,ABMS還展示了 "探測和擊敗破壞美國太空行動的手段"的能力。根據空軍的新聞稿,"70個工業團隊和65個政府團隊 "參加了這次活動。

空軍在2020年9月下旬舉行了第三次"on-ramp",以支持珍珠港-希卡姆聯合基地的 "勇敢之盾 "演習。在這次活動中,空軍展示了使用KC-46加油機通過將數據從較老的第四代戰斗機轉發到較新的第五代飛機,如F-22,來執行戰術C2。2021年5月,空軍表示,為KC-46采購通信吊艙將是ABMS項目的第一個能力發布。空軍說:"在戰斗中,無論如何,郵機將需要在作戰附近飛行,支持戰斗機,因此將它們作為指揮和控制系統,無論是作為主要的還是彈性的備份,都是有意義的。"

2021年2月在歐洲舉行了第四次"on-ramp"。根據新聞稿,空軍由于預算限制而減少了這次活動規模。這第四次將包括荷蘭、波蘭和英國在內的盟國聯系起來,進行聯合空中作戰。據美國駐歐洲空軍司令哈里根將軍說,這第四次活動測試了美國和盟國用F-15E飛機發射AGM-158聯合空對地對峙導彈(JASSM)執行遠程打擊任務的能力(見圖2),同時利用美國和盟國的F-35飛機執行空軍基地防御任務。

本預計2021年春季進行第五次"on-ramp"在太平洋地區,但由于預算限制,取消了這次活動。

GAO的報告建議

2019財年國防授權法案(NDAA)指示政府問責局(GAO)評估ABMS計劃。在2020年4月的一份報告中,GAO向空軍總設計師建議采取四項行動來提高項目績效。

1.制定一個計劃,在ABMS開發領域需要時獲得成熟技術。

2.制作一個定期更新的成本估算,反映ABMS的實際成本,每季度向國會匯報一次。

3.準備一份可購性分析,并定期更新。

4.正式確定并記錄參與ABMS的空軍辦公室的采購權力和決策責任。

空軍助理部長同意了所有的建議。前空軍參謀長David Goldfein將軍不同意這些建議,他指出GAO的分析沒有反映機密信息。美國政府問責局表示,它可以接觸到機密信息,這些額外的信息并不影響其分析和建議。

ABMS的管理結構

根據GAO關于ABMS的同一份報告,空軍最初確定由空軍總設計師(普雷斯頓-鄧拉普),來協調空軍每個項目執行辦公室的ABMS相關工作。GAO對這種管理結構可能導致ABMS缺乏決策權表示擔憂。然而,在2020年11月,羅珀博士選擇空軍快速能力辦公室作為ABMS項目執行辦公室。首席架構師辦公室繼續開發全軍的架構(即軟件和無線電如何能夠相互連接),以支持ABMS。

國會就AMBS采取的行動

國會已經對ABMS系統的發展表示了興趣。下面的清單總結了國會在前三個NDAA中的行動:

  • 2019財政年度NDAA(P.L. 115-232):

    • 第147節:限制E-8 JSTARS飛機退役的資金可用性
  • 2020年國防部(P.L. 116-92):

    • 第236節:與先進戰斗管理系統有關的文件
  • FY2021 NDA (P.L. 116-283) :

    • 第146節:移動目標指示器要求和先進戰斗管理系統能力的分析
    • 第221節:與先進戰斗管理系統有關的問責措施

2021財年國防撥款法案(P.L. 116-260 C分部)將ABMS的資金從要求的3.02億美元減少到1.585億美元,理由是 "不合理的增長和預先融資"。

在ABMS的整個發展過程中,國會對在確定合適的替代物之前退役舊的C2系統如JSTARS和AWACS表示關注。國會還指示空軍制定傳統的采購理由,如成本估算和需求文件,以確保國會和軍方都了解要采購的東西。這些行動反映了美國政府問責局的建議。

關于國會的潛在問題

  • 使用ABMS方法分解指揮和控制的風險是什么?

  • 空軍應如何平衡創新、實驗與采購成熟技術?

  • ABMS提供了哪些傳統指揮與控制系統無法提供的機會?

  • 利用6.8軟件和數字技術試點計劃預算活動代碼中的新預算授權靈活性,ABMS是否會受益?

付費5元查看完整內容

概述

2019 年的項目提案征集產生了 10 個項目,共包含 15 個研究工作流。這些項目涉及 140 多名教職員工、研究人員和學生,他們隸屬于麻省理工學院校園和麻省理工學院林肯實驗室的 20 多個不同的組織單位。所有項目團隊都涉及空軍人員,他們嵌入研究團隊并充當項目與國防部利益相關者之間的聯絡人。這些項目于 2020 年 1 月開始,推進了廣泛領域的人工智能研究,包括天氣建模和可視化、培訓計劃優化以及增強自主性以增強和放大人類決策。人工智能加速器的研究活動已成功擴展,包括與海軍研究生院和美國太空部隊合作的種子研究項目,以及于 2021 年 1 月啟動的人工智能教育研究項目。總共11個項目 。

1 安全決策的監護人自主性

Guardian Autonomy for Safe Decision Making

Air Guardian 旨在通過開發用于增強和放大人類決策的算法和工具來推進人工智能和自主性。AI Guardian 通過使用過去的數據建議行動并融合來自傳感器和信息源的輸入來幫助人類。AI Guardian 系統的支持在出現意外和復雜情況時特別有用。Guardian 的端到端機器學習算法向專家學習如何在高度動態和令人驚訝的情況下以常識推理做出反應。我們的目標是使代理能夠感知其環境,識別短期風險,對其操作員以及其他合作和對抗代理的意圖和行為進行推理,以確定最佳行動方案。

2 通過虛擬現實和增強現實轉移多機器人學習以實現快速災難響應

該項目旨在開發一種新的框架和算法類別,使無人機系統能夠在模擬器環境中學習復雜的多智能體行為,然后將其知識從模擬無縫轉移到現實世界的現場環境中。該團隊設想了一個急救系統,在該系統中,一群自動駕駛飛機接受了虛擬訓練,了解如何在新的災區模擬中導航和合作。然后,系統將在模擬中獲得的學習轉移到真正的自主飛機群中。一架飛機部署了一個大型“母艦”地面站,該地面站釋放這些訓練有素的自主飛機,以自動執行時間緊迫、勞動密集型的任務,例如勘測災區以及定位和識別幸存者。

3 合成孔徑雷達的多模態視覺

合成孔徑雷達 (SAR) 是一種能夠產生高分辨率景觀圖像的雷達成像技術。由于能夠在所有天氣和光照條件下生成圖像,與光學系統相比,SAR 成像在人道主義援助和救災 (HADR) 任務中具有優勢。該項目旨在通過利用來自相關模式(例如,EO/IR、LiDAR、MODIS)、模擬數據和基于物理的模型的補充信息,提高 SAR 圖像的人類可解釋性、SAR 目標檢測和自動目標識別 (ATR) 的性能. 項目結果和產生的技術將在整個政府企業中共享,以便在 HADR 問題空間中受益,跨服務的多個合作伙伴可能能夠利用已開發的技術。

4 人工智能輔助優化訓練計劃

為了改善人工調度飛機航班的極其復雜和耗時的過程,該項目旨在實現飛機航班調度的自動化,以提高調度效率和在存在不確定性的情況下的魯棒性。這將優化培訓飛行計劃,同時提供可解釋性并消除決策中的孤島。該技術使調度人員能夠在快速變化的環境中快速有效地重新構建調度,從而大大加快計劃和決策周期。雖然最初專注于飛機航班調度,但該技術適用于許多部門的所有復雜資源分配任務。

5 快速人工智能:數據中心和邊緣計算

5.1 快速人工智能:快速開發便攜式高性能人工智能應用

大量標記數據、新算法和計算機性能的可用性使人工智能革命成為可能。但漫長的計算機在環開發周期阻礙了人類發明和部署創造性的人工智能解決方案。此外,摩爾的終結削弱了半導體技術提供性能的歷史能力。AI 性能越來越依賴于硬件架構、軟件和算法。Fast AI 項目專注于為快速構建 AI 解決方案奠定基礎,在現代和傳統硬件平臺上實現性能和可移植性。我們在編程語言、編譯器技術、綜合儀器、分析生產力工具和并行算法等領域進行創新。

5.2 ML 增強的數據收集、集成和異常值檢測

人工智能技術成功的核心要求是高質量的數據。讓系統做好“AI 就緒”的準備工作包括收集和解析原始數據以供后續攝取、掃描、查詢和分析。該項目將開發 ML 增強數據庫技術,以降低存儲和處理成本,同時實現各種數據庫孤島之間的數據共享。此外,我們將開發一個異常值檢測引擎來識別來自多個來源的復雜事件流中的時間異常。

6 非結構化信息訪問和語言學習的會話交互

6.1 非結構化信息訪問的對話交互

AI Accelerator 自然語言處理項目旨在推進平面/文本圖像數據和空軍任務中的會話代理、知識表示和預測算法。隨著人工智能領域的進步,隨著我們在數據中記錄更多的工作,并在我們的家中找到更多的設備,人們能夠以有意義的方式與技術交互至關重要——就像人類一樣,語言很重要——尤其是在發現關于數字系統的信息。目標是通過對話交互和知識提取來推進人工智能社區,以進行開放域對話和非結構化信息。

6.2 人工智能個性化外語教育

AI加速器自然語言處理外語項目專注于構建個性化的外語教育框架,其中包括要獲得的語言知識模型。這項工作利用當前的外語,根據學習者在課程作業各個階段的預期知識水平量身定制,并制定標準化的能力測試措施。該模型將有助于個性化學習體驗,并闡明學習結果何時和/或何處對學生不利。

7 地球情報引擎

7.1 地球情報引擎

用于天氣和氣候的地球情報 (EI) 引擎包括一個新穎的 AI 測試平臺,以支持美國空軍的快速、有效決策和長期戰略規劃和運營。人工智能的進步有助于縮小人工智能研究人員與可用地球系統數據之間的差距,通過一個連接數據和模型的平臺、新穎的算法和圖像填補任務,將低質量的天氣和氣候數據集與高質量的天氣和氣候數據集聯系起來。EI引擎將為美國空軍提供改進的異常檢測算法;對集中式地球情報數據的關鍵遠程訪問;用于任務支持的地球智能的直觀超級計算機可視化;改進任務行動的臨近預報天氣預報;以及受氣候變化影響的戰略位置識別,以加強資源配置。

7.2 可解釋的機器學習

盡管機器學習模型的性能令人難以置信,但它們仍然難以理解——我們不明白它們是如何或為什么得出結論的。因此,我們不可能對模型的決策充滿信心,并在它們出現故障時對其進行調試。這種“黑盒”性質限制了我們部署和節約維護機器學習系統的能力,尤其是在高風險的環境中。該項目以全新的思維方式處理機器學習的可解釋性:將機器學習和人機交互方法相結合,使實際用戶的可操作性成為主要目標。目標是確定可解釋機器學習的標準,從而能夠開發具有與人類和任務一致的數據表示和決策界面的模型。

7.3 持續和少量學習

人工智能技術已被證明在許多關鍵應用中非常成功,例如對象識別、語音識別等。然而,這些成功依賴于收集大量數據集和仔細的手動注釋。這個過程成本高、耗時長,而且在很多情況下,沒有足夠的數據可用。遷移學習通過利用機器看到的過去數據僅使用少數帶注釋的示例來解決未來問題,從而為這些問題提供了解決方案。這項研究側重于遷移學習中的挑戰,旨在開發可以從根本上從多個異構任務中學習的算法,超越低級任務相似性,以實現跨不同任務的更廣泛遷移。此類算法將在包括計算機視覺和自然語言處理在內的多個領域具有普遍適用性,并將大大減少對大量注釋數據的依賴,從而降低部署和維護人工智能系統的成本和時間。

7.4 強大的人工智能開發環境

人工智能和機器學習 (ML) 方法已為美國空軍展示了巨大的前景。然而,當數據輸入或任務目標與算法訓練期間遇到的目標發生變化時,許多現有的 ML 算法通常會發生災難性的失敗。這種缺乏可靠性以及現代 ML 技術的不透明性使得無法在關鍵任務環境中自信地部署機器學習系統。此外,模型無法適應不斷變化的環境,這意味著每當環境發生變化時都需要(通常是昂貴且困難的)模型重新調整。本研究將側重于以魯棒性為中心的方法來開發 ML 算法。強大的 AI 開發環境 (RAIDEN) 優先考慮 ML 的可靠性、多功能性和適應性。我們努力提供的模型、框架和算法將簡化真正可靠和高效的機器學習系統的部署。

8 使用生理和認知指標進行客觀性能預測和優化

該項目匯集了生物醫學儀器、信號處理、神經生理學、心理物理學、計算機視覺、人工智能 (AI) 和機器學習 (ML) 方面的專家以及空軍飛行員,以開發和測試基于人工智能的多模式用于客觀性能預測和優化的生理傳感器融合方法。該項目將利用身臨其境的虛擬環境來訓練飛行員并不引人注目地測量性能預測指標。從該計劃開發的一系列挑戰數據集將用于參與社區。該團隊與多個政府研究工作以及空中教育和培訓司令部的無數飛行員培訓單位合作,尋求通過明顯加快飛行員培訓時間表來提供概念驗證,從而更快地培養“更好的飛行員”。

9 用于導航及其他領域的魯棒神經微分模型

國防部和民用部門正在研究幾種不同的 GPS 替代方案,以解決 GPS 替代方案;但是,每種替代方案都會帶來額外的成本和用例。磁導航提出了一種替代 GPS 系統,該系統依賴于地球的磁共振——一個眾所周知且不變的系統——進行導航。磁導航當前的一些問題涉及 1) 減少系統上的多余噪聲,例如飛機本身的磁輸出,2) 以與軍事系統一致的實時速度或速度確定位置,以及 3) 與其他系統相結合系統來展示一個完全替代的 GPS 系統。目前的項目著眼于使用魯棒的神經微分模型來解決磁導航的缺點并提供 GPS 的可行替代方案。

10 人工智能增強的光譜感知和干擾抑制

該項目旨在應用人??工智能來增強美國空軍檢測、識別和地理定位未知射頻 (RF) 信號的能力,同時提供自適應干擾緩解和智能頻譜分析工具。這些能力增強了空軍情報監視和偵察 (ISR) 任務、通信、信號情報 (SIGINT) 和電子戰。結果將提高帶寬利用效率和頻譜共享,提高空軍在高干擾環境中的通信性能,產生更高質量的射頻信號情報,并提高系統對對抗性攻擊和干擾的魯棒性。

11 AI 教育研究:Know-Apply-Lead (KAL)

KAL 是一個探索性研究項目,旨在推進教育研究活動,為具有不同角色和教育背景的學習者(從空軍和國防部 (DoD) 人員到公眾)大規模促進最大的學習成果。項目團隊將研究和評估與在各種現有課程中培訓空軍人員人工智能主題相關的各種教學實踐和學習效益,繪制教育需求和能力的格局,并試點實驗學習經驗,目標是盡早概述用于創新技術支持的培訓和學習的原型。

付費5元查看完整內容
北京阿比特科技有限公司