受自然界中蜂群的啟發,蜂群機器人技術已被開發出來,用于執行各種具有挑戰性的任務,如環境監測、災難恢復、物流,甚至軍事行動。盡管蜂群對社會有重大的潛在影響,但對針對蜂群機器人技術的對抗性情景的關注相對較少。
在本文中,我們探索了一種系統化的方法,以找到對手可以利用的蜂群機器人算法的邏輯缺陷。具體來說,我們為蜂群算法開發了一個自動測試系統,蜂群缺陷探測器(SWARMFLAWFINDER)。我們確定并克服了在理解和推理蜂群算法執行方面的各種挑戰。特別是,我們提出了一個新的機器人行為抽象,我們稱之為因果貢獻度(DCC),基于反事實的因果關系的想法。然后,我們建立了一個名為SWARMFLAWFINDER的反饋指導的灰盒模糊測試系統,利用DCC作為反饋指標。我們用四個進行導航、搜索和救援任務的蜂群算法來評估SWARMFLAWFINDER。SWARMFLAWFINDER在蜂群算法中發現了42個邏輯缺陷(并且所有這些缺陷都得到了開發者的承認)。我們對這些缺陷的分析表明,蜂群算法存在關鍵的邏輯錯誤/漏洞,或者存在不完整的實現,可以被對手利用。
對蜂群機器人的研究已經產生了一個強大的蜂群行為庫,它們擅長確定的任務,如集群和區域搜索,其中許多有可能應用于廣泛的軍事問題。然而,為了成功地應用于作戰環境,蜂群必須足夠靈活,以實現廣泛的特定目標,并且可以由非專業人員配置和使用。這項研究探索了使用基于任務的蜂群可組合性結構(MASC)來開發特定任務的戰術,作為更普遍的、可重復使用的規則組合,供高級機器人系統工程實驗室(ARSENL)蜂群系統使用。開發了三種戰術,用于對一個地理區域進行自主搜索。這些戰術在現場飛行和虛擬環境實驗中進行了測試,并與預先存在的完成相同任務的單體行為實現進行了比較。對性能的衡量標準進行了定義和觀察,驗證了解決方案的有效性,并確認了組合在可重用性和快速開發日益復雜的行為方面所提供的優勢。
美國軍方對無人駕駛飛行器(UAV)的研究和利用有很長的歷史,早在第二次世界大戰之前就有了。最近,"捕食者 "無人機的推出,首先作為偵察平臺,后來作為武裝戰斗成員,徹底改變了現代戰爭。使用 "捕食者 "型無人機的優勢很多,而且有據可查,但是這類系統并不能為每一類任務提供通用的解決方案。系統的可用性、便攜性、后勤和維護要求、人力專業化和道德問題只是限制無人機向各級作戰部隊傳播的部分因素。一些人認為,戰爭的下一次革命將來自于蜂群技術:大量低成本的自主系統采用合作行為和分散控制來實現任務目標[1]-[3]。
在過去的十年中,已經進行了大量的工作來擴展無人機群的行為、能力以及指揮和控制(C2)。海軍研究生院先進機器人系統工程實驗室(ARSENL)小組以前的研究推動了以任務為中心的C2方法的發展[4],并通過分散的動態任務分配實現了蜂群自主[5]。然而,在描述高層行為和目標以及在機器人代理的強大分布式系統中實現這些目標方面,設計蜂群系統仍然存在獨特的挑戰。目前的行為實現往往是單一的,而有效的設計需要專家編程。這項研究探索了在一個面向任務的分層框架內組成原始蜂群行為的方法,以自主實現復雜的任務目標。在面向任務的框架內應用行為組合技術,可以促進簡化行為開發和重用,并有可能加速創建復雜的以任務為重點的蜂群行為,用于軍事應用。
蜂群飛行器并沒有提供將完全取代目前無人駕駛航空系統(UAS)的好處和能力,但它們確實有可能吞并許多目前的能力。然而,更有趣的是,蜂群有可能迫使戰爭行為的技術轉變。在[1]中,Arquilla提出蜂群是一種建立在高度連接和機動能力的小型單位上的戰爭形式,這些小型單位可以快速分散和聚集在一起。Scharre[2]和Hurst[3]通過分析機器人群的屬性及其對現代戰場的潛在影響,闡述了群戰的概念。與目前的無人機系統相比,蜂群通過飛行器的異質性使自己與眾不同,這種異質性提供了單一無人機所不具備的廣泛能力。特別是,合作行為和分散控制所帶來的決策和執行速度,可能再加上人工智能(AI),使蜂群系統具有潛在的決定性作戰優勢。或者正如[2]中指出的,"擁有最智能的算法可能比擁有最好的硬件更重要"。
美國防部已經認識到蜂群技術的內在可能性,并將蜂群行為列為具有 "推動無人系統的巨大潛力 "的人工智能技術之一[6]。這種認識進一步體現在國防高級研究計劃局(DARPA)的項目中,如進攻型蜂群戰術(OFFSET)[7]。各軍種也在各自探索蜂群技術[8],成功的概念驗證包括海軍研究辦公室(ONR)的低成本無人機蜂群技術(LOCUST)[9],海軍航空系統司令部(NAVAIR)的Perdix系統[10],以及NAVAIR對DARPA的CODE計劃的收購[11]。這些計劃不僅探討了自主協作系統的發展,而且還探討了與這些系統相關的C2和人機界面(HSI)要求。蜂群C2和HSI已被確定為建議研究的核心,以使該技術進入軍事應用范圍[2]、[6]、[8]。
蜂群機器人的研究源于早期的元胞自動機領域的研究。元胞自動機通常可以被描述為一組細胞的數學模型,其中單個細胞的狀態由其鄰居的狀態隨時間變化的某些函數決定[12]。細胞本身的效用是有限的,但一組細胞可以有效地模擬自然和生物模式,而且一些細胞自動機已被證明能夠模擬任何計算機器[12]。
貝尼[13]的早期工作將自動機的概念應用于機器人學。他和Wang[14]的工作創造了"蜂群智能 "一詞,即 "非智能機器人系統表現出集體的智能行為,表現為在外部環境中不可預測地產生特定的有序物質模式的能力。" 該定義后來被完善,指出智能蜂群是 "一群能夠進行普遍物質計算的非智能機器人" [15]。這種蜂群智能的概念是蜂群的一個基本屬性。對于這項研究來說,這個概念可以簡化為:蜂群是一個無人機的集合,這些無人機單獨只能夠進行簡單的行為,但當它們聚集成一個集體系統時,能夠產生特定的額外和更復雜的行為。
確保蜂群中的集體行為產生最終的預期行為是蜂群工程的一個基礎概念[16]。蜂群行為通常依賴于涌現,被定義為由單個智能體構成集體行為,進而產生全系統行為[17]。雖然涌現是蜂群的一個理想和基本特征,但它并不容易預測。意外的涌現行為會表現出潛在的負面后果,降低對系統的信任度[16], [17]。涌現行為不僅在蜂群智能方面得到了廣泛的研究,而且在多Agent系統的背景下也得到了更廣泛的研究,包括經濟、物流和工程等廣泛的應用。因此,有大量的行為問題的涌現算法解決方案,已經成為該領域的基礎。直接適用于機器人群領域的是基于生物的行為集合,如成群結隊[18],螞蟻和蜜蜂群優化[19],以及粒子群優化[20],[21]。在這些問題中的每一個,單個智能體,即本研究中的單個無人機,根據本地知識和對蜂群其他部分的有限知識決定自己的最佳行動。
分散控制和集體行為使關鍵蜂群屬性成為可能:適應性(靈活性)、穩健性和可擴展性[22]。適用于蜂群機器人和蜂群智能的這些屬性的精確定義在[22]-[24]中提供。一般來說,適應性是突發行為的結果,是蜂群在動態環境中實現一系列任務的能力。穩健性源于分散控制,即無論其他智能體是否失敗,單個蜂群智能體仍然可以做出適當的決定;也就是說,即使單個智能體失敗,蜂群仍然可以集體完成行為。可擴展性與此類似,即蜂群的規模應根據需要進行調整,以便在約束條件下完成特定目標。
在過去的十年里,隨著低成本機器人和通信組件的普及,蜂群的實現已經取得了快速進展。像Kilobot[25]這樣的開源機器人很容易獲得,而像海軍研究生院(NPS)ARSENL的Zephyr II固定翼和Mosquito Hawk四旋翼無人機這樣更先進的平臺也很容易制造[26]。仿真環境,如Autonomous Robots Go Swarming(ARGoS)[27]、Open Robotics的Gazebo模擬器[28]和ArduPilot的軟件在環(SITL)環境[29],可免費用于測試與物理系統相結合的行為,以加快開發速度。
物理機器人群的C2系統并不像模擬器那樣發達,而且很少有管理機器人群的總體框架。值得注意的框架包括用于無人機的Aerostack[30]和ARSENL的基于任務的蜂群可組合性結構(MASC)[4]框架。此外,C2要求與蜂群的HSI研究密切相關。鑒于蜂群的潛在規模和相對于人的認知能力而言的行為復雜性,蜂群對人類互動提出了獨特的挑戰[31]。由于集體行為的突發性質與軍事環境中固有的嚴格的操作控制結構相匹配,HSI對軍事應用具有特別的意義[32]。在進攻性機動中使用無人駕駛車輛已經引起了倫理方面的爭論,而蜂群的自主性質只會使這個問題更加復雜[33]。
目前對多機器人系統和多機器人任務分配(MRTA)的重要研究工作集中在實現機器人群中復雜行為的規劃和執行。多機器人系統通常依靠任務分配技術和高層規劃來確定實現整體蜂群目標所需的單個平臺行動。有任務的機器人可以利用蜂群智能和涌現來實現子任務目標,但也有可能采用更多慎重的方法。Khaldi[23]和Arnold等人[34]對多機器人系統和蜂群機器人技術進行了比較和分析,重點是蜂群智能的應用。
MRTA的進展通過考慮時間和任務優先級限制的綜合能力匹配,使越來越復雜的任務領域成為可能[35], [36]。例如,NPS的ARSENL小組以前的研究推動了分散的、基于市場的任務分配的發展[5],[37],并在復雜的多域蜂群行動中成功地進行了演示[26]。ARSENL已經成功地采用大型蜂群來合作執行定義明確的復雜任務。對這些系統的有效控制仍然需要操作員的實時監督。
最近的論文如[38]將機器學習和人工智能技術應用于蜂群系統以實現行為發展。在這一領域的工作相對較少,實現先進的蜂群自治的目標,即通過 "提供指揮官的意圖,系統能夠從該指揮官的意圖中找出系統能夠做什么"[11],仍然是相當遙遠的。
這項研究的目的是實施和評估基于MASC的分層解決方案,將能夠自主搜索和調查任務的不同規則組合成更強大的戰術,在異質蜂群上執行。基于市場的任務分配被調整為向參與戰術的平臺分配行為角色。本論文假設,以這種方式組成的簡單行為可以實現與更多單一行為相媲美的性能特征,并且該方法廣泛適用于創建面向任務的一般戰術。這一目標為實現MASC的目標提供了一個步驟,即促進簡單行為的設計和重用,并為任務應用創建越來越有能力的戰術。
對所開發的解決方案進行分析,以驗證復合任務分配方法的使用,并為未來實施和研究異構多無人機群的性能和C2提供建議的基礎。特別是,本論文討論了以下研究問題。
使用組合行為的蜂群與使用單體行為的蜂群相比,其性能是否具有可比性?
在有效性和可用性方面,可組合行為比單體行為有哪些好處(如果有的話)?
哪些性能指標適合于比較行為的實現?
如何將建議的行為開發方法擴展到支持適用于任意任務的行為開發?
所開發的方法是否提供了所需的靈活性和接口,以納入更大的任務控制框架中?
這項研究的范圍僅限于利用原始的規則和算法來組成強大的戰術。它沒有探索或開發在單個平臺上執行行為的算法。
開發了三個符合MASC戰術理念的蜂群行為,該戰術由[4]中描述的更原始的規則組成。這些戰術是作為現有ARSENL規則的組合來實現的。每個戰術都由一個搜索規則和一個調查規則組成,前者指導平臺參與協調的區域搜索,后者指導平臺協調調查一個或多個感興趣的聯系體。這兩種戰術都利用以前開發的拍賣算法進行任務分配[37]。戰術動態地將每個平臺分配到其中一個規則中,并且在任何給定的時間,只有被分配的規則被用來控制平臺。
該戰術是為使用由具有獨特特征的平臺組成的異質群而開發的,這些特征影響了它們執行搜索和調查行為的適宜性。該戰術利用基于市場的方法(即拍賣算法)來考慮單個平臺的能力,具體描述如下。
SearchTacticStatic。一種戰術,在行為初始化時,搜索者和調查者的角色被靜態地分配給特定平臺。分配規定了搜索者的最低數量,并有效地按飛機類型優先分配(例如,更快的固定翼無人機被分配為搜索者)。
SearchTacticDynamic。采用這種戰術,所有平臺開始時都是搜索角色,但隨著行為的進展,可以在搜索者和調查者角色之間動態切換。當遇到聯系人時,一個單項拍賣被用來重新分配角色。需要改變角色的車輛會推遲執行向新角色的轉換,直到當前分配的任務完成之后。
SearchTacticImmediate。這個戰術實現了與SearchTacticDynamic戰術相同的分配方法;但是,搜索者和調查者角色之間的轉換會立即發生,而不是在當前分配的任務完成后發生。也就是說,如果平臺需要轉換角色,一個正在進行的搜索單元或調查任務將被中止。
本論文分為五章。第一章討論了空中蜂群系統的現狀,它們與美國防部的相關性,以及這項研究的動機。第二章對相關的蜂群研究領域及其與本研究的關系進行了更詳細的討論。第三章描述了組成行為的實現,并將其與之前實現的單體行為進行了比較。第四章描述了所利用的實驗過程,并討論了所收集的數據,以提供實施的戰術性能和理論上的最佳性能之間的比較。最后,第五章提供了這項工作的結論和對該領域未來工作的建議。
這項工作包括在征求研究、設計和開發用于人工智能(AI)系統對抗性測試和評估的反人工智能工具的初步建議和結論。該報告包括對相關人工智能概念的文獻回顧和對抗性人工智能領域的廣泛研究。一項密集的利益相關者分析,包括從20多個政府和非政府組織中征集需求,協助確定哪些功能需求應包括在反人工智能工具的系統設計中。隨后的系統架構圖接受用戶輸入,測試各種類型的對抗性人工智能攻擊,并輸出人工智能模型的脆弱性。在這個工具投入使用之前,伙伴組織將進行迭代實驗,這是開發和部署這個反人工智能工具的下一個步驟。
美國國防部(DoD)對使用人工智能(AI)技術來提高軍事任務能力和日常工作越來越感興趣。美國防部將人工智能定義為 "旨在像人一樣思考或行動的人工系統,包括認知架構和神經網絡"(Sayler, 2020)。它將對抗性人工智能定義為 "對手可能針對人工智能系統部署的反措施,以及保障性能所需的評估步驟和防御措施"(美國防部,2018)。美國防部承諾研究新的理論、技術和工具,使人工智能系統更有彈性,表現出更少的意外行為。美國防部的戰略概述包括提供解決關鍵任務的人工智能能力,通過共同的基礎擴大人工智能在整個國防部的影響,培養領先的人工智能勞動力,與各種合作伙伴合作,并在軍事道德和人工智能安全方面引領世界(美國防部,2018)。
然而,隨著人工智能系統實施和采用的增加,對手已經威脅要攻擊和操縱這些系統;目前,沒有現成的工具來幫助對人工智能系統進行對抗性測試和評估(T&E),以便在其投入使用之前評估漏洞和失敗模型。在任務使用情況下,美國防部不應該在沒有事先評估安全或反人工智能措施的有效性的情況下部署這些人工智能系統。設計和建立有彈性的人工智能系統對人工智能防御至關重要,因為這些系統更容易解釋,更值得信賴,并能確保其免受各種已確定的對抗性攻擊方法的影響。
因此,美國防部旨在確保部署的人工智能系統更加安全,以防止對手的操縱。對手將基于三種訪問范式攻擊人工智能:白盒、黑盒、灰盒。白盒攻擊給予攻擊者最高的能力,這發生在對手可以訪問所有模型組件時(Kurakin,2018)。在黑箱攻擊中,對手對模型沒有完全透明的看法,但能夠探測模型以推斷其結構和組件(Kurakin,2018)。攻擊者能力的最后一個順序是灰盒(或隱盒)攻擊,這是指對手不能直接訪問模型,只能對模型的結構進行假設(Kurakin,2018)。
對人工智能系統的潛在威脅包括各種攻擊模式,如中毒、規避和模型反轉。中毒攻擊是指污染訓練數據以歪曲模型行為的攻擊,例如將用戶輸入的數據錯誤地分類到AI系統中(Bae,2021)。逃避攻擊并不直接影響訓練數據,但有效地掩蓋了它所提供的內容,使攻擊對人類觀察者、人工智能系統識別和分類都不可見(Bae,2021)。模型反轉(偷竊)攻擊發生在對手探測人工智能系統以提取有關模型配置或訓練數據的信息,從而有效地重建模型(Bae,2021)。所有這三種對抗性攻擊對已部署的人工智能系統構成了不同的后果,最明顯的是與用戶隱私和數據安全有關。
鑒于感知到的威脅和缺乏充分評估對抗性人工智能漏洞的工具,我們的工作旨在了解如何設計、開發和利用反人工智能工具,以幫助保護人工智能系統免受這些新發現的對抗性威脅載體。具體來說,我們的工作有助于并支持研究、設計和開發用于人工智能系統的對抗性T&E的反人工智能工具,供人工智能紅隊成員使用,以提高人工智能系統的復原力。
無人駕駛飛行器(UAV),即所謂的無人機的使用在過去十年中一直在迅速增長。今天,它們被用于,除其他外,監測任務和檢查人們難以進入的地方。為了有效和穩健地執行這些類型的任務,可以使用無人機群,即一組無人機在一起協調。然而,這對用于控制和導航的解決方案提出了新的要求。無人機群自主導航的兩個重要方面是編隊控制和避免碰撞。
為了管理這些問題,我們提出了四個不同的解決方案算法。其中兩個使用領導者-追隨者控制來保持隊形,使用人工勢場(APF)進行路徑規劃,使用控制障礙函數(CBF)/指數控制障礙函數(ECBF)來保證控制信號的安全性,即無人機保持理想的安全距離。另外兩個解決方案使用運動規劃問題的優化控制問題表述,以產生開環或閉環軌跡,并使用線性二次調節器(LQR)控制器進行軌跡跟蹤。軌跡在時間和隊形保持方面進行了優化。解決方案中使用了兩種不同的控制器。其中一個使用級聯PID控制,另一個使用級聯PID控制和LQR控制的組合。
作為測試我們解決方案的一種方式,我們創建了一個場景,可以顯示所提出的算法的效用。該場景由兩個無人機群組成,它們將在同一環境中執行不同的任務,其中無人機群將處于相互直接碰撞的狀態。實施的解決方案應保持理想的隊形,同時順利避免碰撞和僵局。測試是在真實的無人機上進行的,使用Bitcraze AB的開源飛行開發平臺Crazyflie 2.1。由此產生的軌跡在時間、路徑長度、編隊誤差、平穩性和安全性方面進行了評估。
獲得的結果表明,與使用APF+領導-追隨者+CBF/ECBF相比,從優化控制問題中生成的軌跡更出色。然而,最后提到的算法的一個主要優點是,決策是在每一個時間步驟中完成的,使這些解決方案對環境中的干擾和變化更加穩健。
我們提出了因果ABM,一種推導描述復雜潛在行為現象的因果結構的方法。基于智能體的建模(ABM)在因果建模方面具有強大的優勢,而這些優勢還沒有得到充分的探索。與傳統的因果估計方法不同的是,ABM的兩個特性--等價性(不同的條件集或模型代表產生相同結果的能力)和多重性(同一ABM可能產生不同的結果)--可以被利用來從數據中學習多種不同的 "可靠因果模型"。我們用社交網絡上的新聞分享為例,展示了這一想法如何應用于學習這種因果集。我們還表明,由于遺傳算法的平行搜索結構,它可以作為一種估計技術,從數據中學習多種可靠因果模型。然而,在普遍應用之前,仍然存在重大的計算挑戰,因此,我們強調了在未來工作中需要解決的具體關鍵問題。
人工智能的主要目標之一是構建智能Agent,如計算機游戲中的對手或將包裹送到客戶手中的無人駕駛飛行器。這些智能Agent在各種環境中感知和行動以實現其目標。例如,在電腦游戲的情況下,目標是擊敗玩家。在包裹運送無人機的情況下,目標是將包裹及時送到客戶手中。
Agent感知環境的狀態,并需要決定下一步該做什么。一種可能的方法是強化學習[36],即Agent從與環境的互動中學習。這種方法在一些領域是成功的,在圍棋[60]、《星際爭霸》[66]或Atari游戲[41]中取得了超人的表現。Agent如何在環境中行動的另一種方法是事先創建一個行動計劃。對于一個給定的目標,Agent計算出導致它的行動序列。自動計劃在許多領域都是成功的,如深空1號[4]或火星探測器任務[1]。自動規劃的一個缺點是,當環境意外改變時,Agent通常不能再向目標前進。這種情況要么是隨機發生的,要么是由其他對手Agent的行動引起的。為了明確地推理其他Agent并找到一個穩健的計劃,必須使用博弈論方法[59],如 double-oracle(DO,見圖1)。博弈論算法在實踐中有幾個成功的應用,例如,在物理安全[64]或保護野生動物[19]領域。我們關注的更多案例是戰斗情況,如用無人機保衛核電站,抵御侵略者。
這項工作的主要目標是通過加強幾何推理來推進自動對抗性規劃的算法。盡管規劃域定義語言(PDDL)[39]是一個富有表現力的建模工具,但對行動的結構有一個重要的限制:行動的參數被限制在有限(實際上是明確列舉的)域的值上。這種限制的動機是,它確保了有基礎的行動集合是有限的,而且,忽略持續時間,在一個狀態下的行動選擇的分支因素也是有限的。盡管持續時間參數可以使這種選擇無限大,但很少有規劃者支持這種可能性,而是將自己限制在固定的持續時間上。像吉普車穿越未知寬度的沙漠這樣的問題是無法解決的[32]。
圖 1:對抗性規劃、資源分配、雙預言機算法、幾何導航(從左到右)。
我們提議對PDDL進行擴展,以豐富具有幾何特征的行動。我們實現了能夠將推理提升到空間領域的規劃器,并將其應用于對抗性環境。我們說明這些方法可以解決有趣的問題,并將這項工作應用于任務和運動規劃場景(圖2),以表明我們的工作有很大的潛力,可以重新發明機器人技術中使用任務規劃器的方式。即使沒有對手,幾何學也是有效的,但在DO算法中,規劃器被多次調用以獲得最佳響應,所以作為一個乘數,我們有,如果對手的規劃域是幾何學的,可溶性和擴展性會變得更好。
圖 2:幾何任務-運動規劃:循環、線性近似、檢查運動規劃(從左到右)。
美國軍隊繼續在日益復雜的安全環境中作戰,不能再期望在每個領域都有無爭議的或主導性的優勢。由特種作戰部隊(SOF)操作的飛機需要改進防御能力,以支持在非許可環境下的任務。將自動化和人機協作納入現有的防御能力,可以減少威脅的反應時間,提高有人和無人飛機配置的防御機動的有效性。這篇論文研究了作為威脅反應一部分的飛機機動的價值,以確定人類干預對時間和準確性產生負面影響的情況。它還考慮了復制Merlin實驗室的飛行自動化方法和將能夠進行防御性機動的機器訓練系統納入現有飛機的機會。分析表明,飛機的機動性對于有效的威脅反應至關重要,自動選擇操作者的行動可以提高對某些地對空威脅的生存能力。這篇論文建議重新關注特種部隊飛機的防御能力,并贊同將機載自主系統整合到傳統的載人平臺上,以提高防御性威脅反應。它還主張繼續研究在SOF任務中使用可選的載人飛機,以完善其操作效用,并在各種任務平臺上擴大能力。
美國軍隊繼續在日益復雜的安全環境中運作,不能再期望在每個領域都有無爭議的或主導性的優勢。由于地對空威脅已經擴散到在世界各地活動的敵對行為者,未來的作戰環境將以有爭議的空域為特征,這將對有人和無人駕駛飛機的操作構成挑戰。由特種作戰部隊(SOF)操作的飛機需要改進防御能力,以便在這些有爭議的地區進行機動,同時支持傳統SOF任務。這篇論文研究了商業能力的進步,以減少威脅的反應時間,提高有人和無人駕駛飛機配置的防御性機動的有效性。
通過與位于波士頓的飛行自動化初創公司Merlin實驗室合作,本分析探討了防御性機動的潛在自動化。飛機機動是對威脅作出有效反應的一個關鍵方面,自動選擇操作者的行動可以提高對某些地對空威脅的生存能力。通過確定AC-130J威脅反應中人為干預影響飛機操縱時機和準確性的步驟,這項分析揭示了復制梅林實驗室的飛行自動化方法和將能夠執行防御性操縱的機器訓練系統納入現有飛機的機會。
在威脅反應過程中確定的關鍵步驟包括威脅指示、威脅作戰識別和威脅反應配對。目前,機組人員手動執行這些步驟來完成防御性威脅機動。然而,這些步驟中的每一個都可以從自動化和人機協作中受益,通過三種明顯的方式提高整體性能。首先,生成簡化的視覺和聽覺威脅指示,確保及時通知威脅的存在。其次,自動識別過程以準確識別威脅的變體,減少了反應時間和人類識別錯誤的可能性。最后,將威脅識別與適當的飛機反應同步配對,減少了不必要的延誤,并提高了威脅操縱的準確性。
這篇論文建議重新關注SOF飛機的防御能力,并贊同將機載自主系統整合到傳統的載人平臺上,以改善防御性威脅反應。將人機協作和自主能力納入飛機防御系統,可以使防御機動性能優于傳統系統,并允許在更廣泛的環境中作戰。除了改善防御性機動,梅林實驗室的自動飛行甲板在各種不同的飛機和任務中提供了潛在的用途。繼續研究應該調查在SOF任務中使用可選擇的載人飛機,以完善其操作效用,并在各種任務平臺上擴大能力。最后,在整個特種部隊中采用梅林系統將顛覆既定的操作慣例,需要個人和組織行為的改變。為了緩解過渡期并提高采用率,AFSOC應采取步驟,盡量減少利益相關者的行為變化,同時最大限度地提高系統的操作效益。培養對人工智能、機器學習和自動化的理解,將使這些行為者為軍事技術的快速變化和戰爭特征的變化做好準備。
圖 9. AC-130 防御性威脅反應圖。
本報告介紹了對動態數據驅動應用系統(DDDAS)異常檢測和響應的研究,以建立抗攻擊的多智能體系統。報告涵蓋了2019年1月至2021年11月期間的情況。除了之前報告中介紹的成就,我們還展示了一些關于所述策略實際執行的新結果,以及完成項目所有活動所需的最后細節。由于Covid-19大流行病,封鎖阻礙了實驗室的工作,不被允許雇用研究生研究助理,項目要求延期,并在2020年11月獲得批準。大學在2021年第二學期開放了實驗室,當時能夠雇用四個本科生研究人員。因此,所有的活動都是由這些本科生、三名研究生和兩名主要研究人員制定的。
這份最終報告的組織結構如下:
(i) 第一節總結了項目的目標和活動,到目前為止取得的進展,所需要素的購買情況,以及書面論文的清單。
(ii) 第二節介紹了一些與所制定的戰略共同的初步情況。
(iii) 第3節介紹了開發的方法和實驗結果。
(iv) 第4節提出了一種新穎的離散時間種群動力學來實現機器人的編隊。
(v) 第5節介紹了所開發的策略的發展和進一步的實際執行情況,以供測試。
(vi) 最后,第7節介紹了所開發工作的最終結論。
具有多個智能體的系統使我們能夠開發不同的策略來控制大規模的互連系統。與有單個智能體的系統相比,有多個智能體的系統可以更容易和更快地完成監視等任務。對這類系統的研究使我們能夠對動物和人類的行為進行建模,并根據這些行為設計控制策略。這種策略從基于鳥群和蜜蜂覓食的算法[1],沿網絡的分布式傳感[2],延伸到耦合振蕩器的同步[3],等等[4,5]。
進化博弈論對生物種群有重要的啟發作用,當與物理系統適當結合時,博弈論可以優化系統行為。這種理論的使用允許為不同的應用設計分布式控制器,如水系統的控制[6],或孤立的微電網的同步[3]。大多數提出的問題解決方案都采用連續時間的方法。然而,為了在一些系統上正確實施這些策略,需要有離散時間控制器。即使連續時間控制器是穩定的,離散化也可能變得不穩定。因此,必須發展理論結果以確保離散時間控制器是穩定的。
除了提到的離散化問題,控制器和系統還面臨另一個問題,因為它們很容易受到攻擊。惡意智能體可以修改系統信息以損害用戶和物理工廠。在多智能體系統中,對一個智能體的攻擊可以滲透到整個系統中,因為它向其余的智能體發送了損壞的信息。此外,攻擊者可以修改一個智能體發送給其鄰居的信息。對真實系統的一些攻擊表明,有必要開發一種自動反應來面對其影響[7, 8]。
該項目解決了上述問題,即使用離散時間群體動力學的系統控制和緩解對控制系統的攻擊。因此,本項目所取得的貢獻可以概括為以下幾點。首先,我們開發了一種策略來檢測和緩解對系統智能體之一的傳感器的攻擊。該策略減輕了對被攻擊智能體的影響,并防止攻擊通過通信網絡傳播到整個系統。第二,我們設計了一個使用新的離散時間群體動力學來優化凸函數的策略。我們開發了理論結果以確保系統的穩定性。這一新穎的發展使我們能夠設計一個控制器來實現機器人的編隊。第三,我們開發了一個基于軟件定義的網絡(SDN)的策略,以減輕對通信鏈路的攻擊。我們說明,使用SDN為網絡物理系統提供了不同的能力,以減輕智能體之間的通信攻擊。最后,我們不僅模擬,而且還在一個有多個差動驅動機器人的系統上實施了上述的一些策略,以顯示其效率。
為無人駕駛地面車輛(UGVs)設計并實現一個能夠減輕對傳感器讀數攻擊的編隊控制器。這項工作的重點是至少有三個機器人的編隊,并限于完整性和重放攻擊。
之前所說的目標可以在以下具體目標中分開:
開發一個編隊控制器,用于幾個UGV,即三到六個機器人,以及至少三個幾何編隊分布。
開發一種能夠檢測機器人傳感器異常情況(攻擊/失敗)的機制。
開發至少一種機制,能夠協調測量值和估計值,并計算控制行動所需的調整,以減輕異常情況對機器人編隊的影響。
開發一個機制的性能指數,以量化當緩解機制被添加到編隊控制器中時攻擊的影響的減少。
為了實現這些目標,我們在項目提案中陳述了以下活動:
(i) 設計和實現編隊隊長的控制器。
(ii) 設計和實現緩解對編隊領導的路徑跟蹤任務的攻擊的機制。
(iii) 選擇要探索的編隊集合,即定義每個編隊的機器人數量和幾何形狀(至少有三種情況)。
(iv) 為三個機器人系統的每個編隊中的跟隨者機器人設計和實現控制器。
(v) 開發機制,以檢測由領導者發送和/或由兩個追隨者接收的信息的異常情況(被攻擊的信息可能是不同的)。
(vi) 開發機制以減輕攻擊對編隊中兩個跟隨者機器人的影響。
(vii) 在一次專門會議上發表部分成果。該出版物將包括緩解對一個有三個機器人的編隊中的領導者和追隨者機器人的攻擊。
(viii) 設計和實現六個機器人的多智能體系統中的領導者和跟隨者的編隊控制器。
(ix) 開發機制,以檢測有六個智能體的系統中由領導者發送和/或由追隨者接收的信息的異常情況(在攻擊下可能是不同的)。
(x) 為六個智能體和不同的隊形形狀擴展緩解機制。
(xi) 定義一個性能指數,以量化受攻擊系統和包括緩解機制的受攻擊系統之間的差異。
(xii) 在專業期刊上發表最終結果。
圖1:不同移動地面機器人平臺的比較。EPFL是洛桑聯邦理工學院,USC是南加州大學。改編自[9]。
為了完成上述活動,我們已經購買了一些硬件。圖1顯示了不同研究小組制造的一些機器人的主要特征。盡管有些機器人如Khepera IV呈現出許多功能,但這些機器人的價格很高,或者它們沒有商業化的供應。因此,我們選擇了e-puck第2版;它有足夠的功能來開發目前的工作,其價格允許我們用現有的預算購買幾個機器人。
我們總共購買了六個地面機器人,一臺高性能的和三臺中等大小的計算機。表1顯示了每個部件的不含稅成本。機器人的價格是不同的,因為它們是在不同的日期購買的。此外,為了實現機器人的分布式通信,購買了6個樹莓派,為了檢測機器人的位置,還購買了一個攝像頭。作為項目的對應方,博士生Luis Francisco C′ombita在2015年獲得Colciencias 727資助的預算中的一些資源被用來購買項目用品,以及博士生Jorge Alfredo Lopez Jimenez的一些預算資源。Colciencias是哥倫比亞相當于國家科學基金會(NSF)的機構。
表1:為項目發展所獲得的要素
自主機器人團隊組成中的異質性什么時候是有益的,什么時候是有害的?我們在一個最小可行的模型中研究并回答了這個問題,該模型研究了異質速度在周界防御問題中的作用,其中防御者共享一個總的速度分配預案。我們考慮了兩種不同的問題背景,并制定了基于動態規劃和局部互動規則的策略。我們對這兩種方法進行了理論分析,并使用模擬方法對我們的結果進行了廣泛的驗證。有趣的是,我們的結果表明,異質團隊的生存能力取決于防御者可用的信息量。此外,我們的結果表明了一個普遍性屬性:在廣泛的問題參數范圍內,防守方的最佳速度比率幾乎保持不變。
關鍵詞:周界防御,異質多機器人團隊,動態規劃
機器人系統的一項日益重要的任務是保衛一個地區免受外部因素的影響,這些因素構成了不同程度的威脅。這方面的例子包括保衛機場,防止無人機入侵[6],保衛野生動物棲息地,防止偷獵者侵入[1],撲滅和防止人類或自然活動造成的破壞性野火蔓延[8],以及軍事應用[13]。
一般來說,周界防御問題的解決方案是為一組限制在某一區域周界的智能體尋找策略,這些智能體受托保衛該區域不受試圖突破該區域周界的入侵者侵害[16]。
與同質化的機器人團隊相比,具有不同能力的機器人團隊(異質化團隊)有其獨特的優勢和挑戰。為不同的智能體配備不同的能力可以形成協同效應,在這種情況下,異質系統勝過由相同智能體組成的同質系統。因此,在過去十年中,機器人界對定義、探索和量化不同機器人應用中的異質性產生了極大的興趣[19,14,11,7,12,10]。
本文研究了多機器人團隊中異質性對周界防御問題的影響。我們提出了兩種最優策略,在不同的假設條件下有效。第一個策略是基于動態規劃(DP)[2]。當防御者能夠預測來襲攻擊的位置時,它是最優的,但受到維度詛咒的影響,因此相關計算成本相對較高。第二種策略是基于局部互動規則的,當防御者沒有關于來襲攻擊的信息時是最佳的。這種策略可以以在線方式高效計算,但沒有提供對攻擊位置的任何先驗知識。
我們證明了兩種策略的最優性并分析了它們的時間復雜性。這些算法在模擬中得到了廣泛的驗證。我們的數值實驗是二維的,但大多數理論結果對任何維度都有效。這包括無人機應用中的三維周界,以及作為任意維度狀態空間中約束集產生的更高維度的周界。
我們的結果表明,異質性在防守方能夠獲得有關來襲攻擊信息的情況下是有益的,而在防守方沒有攻擊信息的情況下是有害的。此外,我們顯示了一個普遍性的屬性,即在兩個防御者的情況下,防御者的最佳速度比率幾乎保持不變。
相關工作:周界防御問題是追擊-規避問題的一個變體,在文獻中已經被廣泛地研究。Issacs的開創性工作描述了微分博弈的方法,以得出一個追求者一個規避者博弈的均衡策略[4]。不同研究人員為解決涉及多個追擊者和規避者的追擊規避博弈各種變體做了大量的工作[20,21,3]。這些論文包含了從追擊者方面、從規避者方面或兩者來看待追擊-逃避博弈的工作。維度的詛咒對解決涉及多個追擊者和規避者的問題構成了相當大的挑戰。本文提出的周界防御問題是Isaacs[4]首次提出的目標守衛問題的一個變體。在目標守衛問題的設定中,一個智能體的任務是對抗一個敵對智能體以守衛一個目標區域。對周界防御問題的研究還處于初級階段。Shishika和Kumar的綜述文章[16]描述了最近關于多機器人周界防御問題的工作[15,5,18,17]。與這些工作中考慮的問題不同,我們考慮的是一類周界防御問題,其中攻擊者的數量遠遠大于防御者的數量。
本文的其余部分組織如下。第2節包含了我們的符號和問題陳述。第3節和第4節分別詳細介紹了我們在非限定和單位時間范圍內的理論結果。第5節討論了模擬結果。
圖1:三個防守者面對三個攻擊者,每個防守者的單位時間可達集顯示。請注意,第三個維度是時間;如果攻擊代表一個物理物體,它是從圓圈外的某個地方接近的,但我們只關心它將在哪里和什么時候擊中周界。在這個例子中,防守者不允許離開周界,所以可達集的大小隨著速度的增加而線性增加(直到它覆蓋整個周界)。