頻譜稀缺是許多通信系統面臨的問題,在軍事領域和其他領域都是如此。認知無線電網絡是一種機會主義地利用廣播頻譜的方法。其基本概念包括將用戶分為兩類:第一類和第二類。主要用戶在資源分配過程中擁有優先權,而次要用戶需要使用頻譜進行通信。本論文試圖應用認知無線電的概念來實現高流量環境下的蜂群通信。主要用戶可能包括無法控制的優先友好或敵對發射器。這項研究采用了認知無線電的概念和機器學習算法,在網絡內開發了一種動態聚類技術,將優化資源分配。提出了三種方法來訓練神經網絡以找到最佳的頻譜分配。即使提出的算法沒有超過基線啟發式的表現,但證明了最優解決方案的存在。建議繼續這項研究,因為所使用的算法可以進一步修改并以各種方式應用。
對蜂群機器人的研究已經產生了一個強大的蜂群行為庫,它們擅長確定的任務,如集群和區域搜索,其中許多有可能應用于廣泛的軍事問題。然而,為了成功地應用于作戰環境,蜂群必須足夠靈活,以實現廣泛的特定目標,并且可以由非專業人員配置和使用。這項研究探索了使用基于任務的蜂群可組合性結構(MASC)來開發特定任務的戰術,作為更普遍的、可重復使用的規則組合,供高級機器人系統工程實驗室(ARSENL)蜂群系統使用。開發了三種戰術,用于對一個地理區域進行自主搜索。這些戰術在現場飛行和虛擬環境實驗中進行了測試,并與預先存在的完成相同任務的單體行為實現進行了比較。對性能的衡量標準進行了定義和觀察,驗證了解決方案的有效性,并確認了組合在可重用性和快速開發日益復雜的行為方面所提供的優勢。
美國軍方對無人駕駛飛行器(UAV)的研究和利用有很長的歷史,早在第二次世界大戰之前就有了。最近,"捕食者 "無人機的推出,首先作為偵察平臺,后來作為武裝戰斗成員,徹底改變了現代戰爭。使用 "捕食者 "型無人機的優勢很多,而且有據可查,但是這類系統并不能為每一類任務提供通用的解決方案。系統的可用性、便攜性、后勤和維護要求、人力專業化和道德問題只是限制無人機向各級作戰部隊傳播的部分因素。一些人認為,戰爭的下一次革命將來自于蜂群技術:大量低成本的自主系統采用合作行為和分散控制來實現任務目標[1]-[3]。
在過去的十年中,已經進行了大量的工作來擴展無人機群的行為、能力以及指揮和控制(C2)。海軍研究生院先進機器人系統工程實驗室(ARSENL)小組以前的研究推動了以任務為中心的C2方法的發展[4],并通過分散的動態任務分配實現了蜂群自主[5]。然而,在描述高層行為和目標以及在機器人代理的強大分布式系統中實現這些目標方面,設計蜂群系統仍然存在獨特的挑戰。目前的行為實現往往是單一的,而有效的設計需要專家編程。這項研究探索了在一個面向任務的分層框架內組成原始蜂群行為的方法,以自主實現復雜的任務目標。在面向任務的框架內應用行為組合技術,可以促進簡化行為開發和重用,并有可能加速創建復雜的以任務為重點的蜂群行為,用于軍事應用。
蜂群飛行器并沒有提供將完全取代目前無人駕駛航空系統(UAS)的好處和能力,但它們確實有可能吞并許多目前的能力。然而,更有趣的是,蜂群有可能迫使戰爭行為的技術轉變。在[1]中,Arquilla提出蜂群是一種建立在高度連接和機動能力的小型單位上的戰爭形式,這些小型單位可以快速分散和聚集在一起。Scharre[2]和Hurst[3]通過分析機器人群的屬性及其對現代戰場的潛在影響,闡述了群戰的概念。與目前的無人機系統相比,蜂群通過飛行器的異質性使自己與眾不同,這種異質性提供了單一無人機所不具備的廣泛能力。特別是,合作行為和分散控制所帶來的決策和執行速度,可能再加上人工智能(AI),使蜂群系統具有潛在的決定性作戰優勢。或者正如[2]中指出的,"擁有最智能的算法可能比擁有最好的硬件更重要"。
美國防部已經認識到蜂群技術的內在可能性,并將蜂群行為列為具有 "推動無人系統的巨大潛力 "的人工智能技術之一[6]。這種認識進一步體現在國防高級研究計劃局(DARPA)的項目中,如進攻型蜂群戰術(OFFSET)[7]。各軍種也在各自探索蜂群技術[8],成功的概念驗證包括海軍研究辦公室(ONR)的低成本無人機蜂群技術(LOCUST)[9],海軍航空系統司令部(NAVAIR)的Perdix系統[10],以及NAVAIR對DARPA的CODE計劃的收購[11]。這些計劃不僅探討了自主協作系統的發展,而且還探討了與這些系統相關的C2和人機界面(HSI)要求。蜂群C2和HSI已被確定為建議研究的核心,以使該技術進入軍事應用范圍[2]、[6]、[8]。
蜂群機器人的研究源于早期的元胞自動機領域的研究。元胞自動機通常可以被描述為一組細胞的數學模型,其中單個細胞的狀態由其鄰居的狀態隨時間變化的某些函數決定[12]。細胞本身的效用是有限的,但一組細胞可以有效地模擬自然和生物模式,而且一些細胞自動機已被證明能夠模擬任何計算機器[12]。
貝尼[13]的早期工作將自動機的概念應用于機器人學。他和Wang[14]的工作創造了"蜂群智能 "一詞,即 "非智能機器人系統表現出集體的智能行為,表現為在外部環境中不可預測地產生特定的有序物質模式的能力。" 該定義后來被完善,指出智能蜂群是 "一群能夠進行普遍物質計算的非智能機器人" [15]。這種蜂群智能的概念是蜂群的一個基本屬性。對于這項研究來說,這個概念可以簡化為:蜂群是一個無人機的集合,這些無人機單獨只能夠進行簡單的行為,但當它們聚集成一個集體系統時,能夠產生特定的額外和更復雜的行為。
確保蜂群中的集體行為產生最終的預期行為是蜂群工程的一個基礎概念[16]。蜂群行為通常依賴于涌現,被定義為由單個智能體構成集體行為,進而產生全系統行為[17]。雖然涌現是蜂群的一個理想和基本特征,但它并不容易預測。意外的涌現行為會表現出潛在的負面后果,降低對系統的信任度[16], [17]。涌現行為不僅在蜂群智能方面得到了廣泛的研究,而且在多Agent系統的背景下也得到了更廣泛的研究,包括經濟、物流和工程等廣泛的應用。因此,有大量的行為問題的涌現算法解決方案,已經成為該領域的基礎。直接適用于機器人群領域的是基于生物的行為集合,如成群結隊[18],螞蟻和蜜蜂群優化[19],以及粒子群優化[20],[21]。在這些問題中的每一個,單個智能體,即本研究中的單個無人機,根據本地知識和對蜂群其他部分的有限知識決定自己的最佳行動。
分散控制和集體行為使關鍵蜂群屬性成為可能:適應性(靈活性)、穩健性和可擴展性[22]。適用于蜂群機器人和蜂群智能的這些屬性的精確定義在[22]-[24]中提供。一般來說,適應性是突發行為的結果,是蜂群在動態環境中實現一系列任務的能力。穩健性源于分散控制,即無論其他智能體是否失敗,單個蜂群智能體仍然可以做出適當的決定;也就是說,即使單個智能體失敗,蜂群仍然可以集體完成行為。可擴展性與此類似,即蜂群的規模應根據需要進行調整,以便在約束條件下完成特定目標。
在過去的十年里,隨著低成本機器人和通信組件的普及,蜂群的實現已經取得了快速進展。像Kilobot[25]這樣的開源機器人很容易獲得,而像海軍研究生院(NPS)ARSENL的Zephyr II固定翼和Mosquito Hawk四旋翼無人機這樣更先進的平臺也很容易制造[26]。仿真環境,如Autonomous Robots Go Swarming(ARGoS)[27]、Open Robotics的Gazebo模擬器[28]和ArduPilot的軟件在環(SITL)環境[29],可免費用于測試與物理系統相結合的行為,以加快開發速度。
物理機器人群的C2系統并不像模擬器那樣發達,而且很少有管理機器人群的總體框架。值得注意的框架包括用于無人機的Aerostack[30]和ARSENL的基于任務的蜂群可組合性結構(MASC)[4]框架。此外,C2要求與蜂群的HSI研究密切相關。鑒于蜂群的潛在規模和相對于人的認知能力而言的行為復雜性,蜂群對人類互動提出了獨特的挑戰[31]。由于集體行為的突發性質與軍事環境中固有的嚴格的操作控制結構相匹配,HSI對軍事應用具有特別的意義[32]。在進攻性機動中使用無人駕駛車輛已經引起了倫理方面的爭論,而蜂群的自主性質只會使這個問題更加復雜[33]。
目前對多機器人系統和多機器人任務分配(MRTA)的重要研究工作集中在實現機器人群中復雜行為的規劃和執行。多機器人系統通常依靠任務分配技術和高層規劃來確定實現整體蜂群目標所需的單個平臺行動。有任務的機器人可以利用蜂群智能和涌現來實現子任務目標,但也有可能采用更多慎重的方法。Khaldi[23]和Arnold等人[34]對多機器人系統和蜂群機器人技術進行了比較和分析,重點是蜂群智能的應用。
MRTA的進展通過考慮時間和任務優先級限制的綜合能力匹配,使越來越復雜的任務領域成為可能[35], [36]。例如,NPS的ARSENL小組以前的研究推動了分散的、基于市場的任務分配的發展[5],[37],并在復雜的多域蜂群行動中成功地進行了演示[26]。ARSENL已經成功地采用大型蜂群來合作執行定義明確的復雜任務。對這些系統的有效控制仍然需要操作員的實時監督。
最近的論文如[38]將機器學習和人工智能技術應用于蜂群系統以實現行為發展。在這一領域的工作相對較少,實現先進的蜂群自治的目標,即通過 "提供指揮官的意圖,系統能夠從該指揮官的意圖中找出系統能夠做什么"[11],仍然是相當遙遠的。
這項研究的目的是實施和評估基于MASC的分層解決方案,將能夠自主搜索和調查任務的不同規則組合成更強大的戰術,在異質蜂群上執行。基于市場的任務分配被調整為向參與戰術的平臺分配行為角色。本論文假設,以這種方式組成的簡單行為可以實現與更多單一行為相媲美的性能特征,并且該方法廣泛適用于創建面向任務的一般戰術。這一目標為實現MASC的目標提供了一個步驟,即促進簡單行為的設計和重用,并為任務應用創建越來越有能力的戰術。
對所開發的解決方案進行分析,以驗證復合任務分配方法的使用,并為未來實施和研究異構多無人機群的性能和C2提供建議的基礎。特別是,本論文討論了以下研究問題。
使用組合行為的蜂群與使用單體行為的蜂群相比,其性能是否具有可比性?
在有效性和可用性方面,可組合行為比單體行為有哪些好處(如果有的話)?
哪些性能指標適合于比較行為的實現?
如何將建議的行為開發方法擴展到支持適用于任意任務的行為開發?
所開發的方法是否提供了所需的靈活性和接口,以納入更大的任務控制框架中?
這項研究的范圍僅限于利用原始的規則和算法來組成強大的戰術。它沒有探索或開發在單個平臺上執行行為的算法。
開發了三個符合MASC戰術理念的蜂群行為,該戰術由[4]中描述的更原始的規則組成。這些戰術是作為現有ARSENL規則的組合來實現的。每個戰術都由一個搜索規則和一個調查規則組成,前者指導平臺參與協調的區域搜索,后者指導平臺協調調查一個或多個感興趣的聯系體。這兩種戰術都利用以前開發的拍賣算法進行任務分配[37]。戰術動態地將每個平臺分配到其中一個規則中,并且在任何給定的時間,只有被分配的規則被用來控制平臺。
該戰術是為使用由具有獨特特征的平臺組成的異質群而開發的,這些特征影響了它們執行搜索和調查行為的適宜性。該戰術利用基于市場的方法(即拍賣算法)來考慮單個平臺的能力,具體描述如下。
SearchTacticStatic。一種戰術,在行為初始化時,搜索者和調查者的角色被靜態地分配給特定平臺。分配規定了搜索者的最低數量,并有效地按飛機類型優先分配(例如,更快的固定翼無人機被分配為搜索者)。
SearchTacticDynamic。采用這種戰術,所有平臺開始時都是搜索角色,但隨著行為的進展,可以在搜索者和調查者角色之間動態切換。當遇到聯系人時,一個單項拍賣被用來重新分配角色。需要改變角色的車輛會推遲執行向新角色的轉換,直到當前分配的任務完成之后。
SearchTacticImmediate。這個戰術實現了與SearchTacticDynamic戰術相同的分配方法;但是,搜索者和調查者角色之間的轉換會立即發生,而不是在當前分配的任務完成后發生。也就是說,如果平臺需要轉換角色,一個正在進行的搜索單元或調查任務將被中止。
本論文分為五章。第一章討論了空中蜂群系統的現狀,它們與美國防部的相關性,以及這項研究的動機。第二章對相關的蜂群研究領域及其與本研究的關系進行了更詳細的討論。第三章描述了組成行為的實現,并將其與之前實現的單體行為進行了比較。第四章描述了所利用的實驗過程,并討論了所收集的數據,以提供實施的戰術性能和理論上的最佳性能之間的比較。最后,第五章提供了這項工作的結論和對該領域未來工作的建議。
美國海軍陸戰隊必須以最低的成本用新興技術解決材料準備的挑戰。使用機器學習的預測性維修是一個不斷增長的領域,可以使用免費或商業化的現成軟件來應用。海軍航空組織已經維護了一個數據儲存庫網絡,收集和儲存可維修的飛行關鍵部件的當前和歷史數據。許多部件在其制造商公布的預期結構壽命之前就失效了,這導致了昂貴的非計劃性維修。預測部件故障并計劃其更換或維修的能力可以大大增加操作的準備性。本論文開發并分析了機器學習模型,利用現有的海軍航空資料庫的數據來預測各種MV-22B飛行關鍵部件的故障條件概率。數據預處理、模型訓練和預測使用了現成的商業軟件。這項工作可以幫助提高材料的準備程度,并使軍事-航空人員適應決策中的新興技術。
這篇論文研究了機器學習算法在改進以可靠性為中心的維修(RCM)和基于條件的維修(CBM)以提高海軍航空的飛機可靠性方面的潛力。
海軍陸戰隊司令說,該部隊收集和保留的許多數據沒有被新興技術充分開發(美國和Berger,2019)。國防部(DOD)的飛機平臺一直在努力實現年度戰備目標,盡管為其項目分配了大量預算(Crusher,2020)。使用新興技術的預測性維護可以利用這些大量的數據,為提高航空準備狀態提供一個具有成本效益的方法。指揮官還強調,由于可用資金有限,解決方案必須使用現有的軍事數據存儲庫。海軍航空系統司令部(NAVAIR)的數據庫--后勤分析和技術評估決策知識編程(DECKPLATE),每月上傳的記錄超過400億條,可以成為機器學習應用的一個良好來源。
雖然在解決飛機準備不足的根本原因方面正在做出重大努力,但指揮官們現在需要部分解決方案來完成他們的任務。幾年來,指揮官們采用了高拆解率(從一架飛機上拆下零件裝到另一架飛機上)以及將完全具備任務能力的飛機從部署后返回的中隊轉移到準備部署的中隊。盡管 "只有在滿足作戰目標的必要情況下才是可接受的管理選擇"(海軍部,2021年),拆解和中隊轉移已經成為常態。在2011年和2017年之間,由于缺乏現成的基本飛機(RBA),海軍陸戰隊在各中隊之間轉移了超過650架MV-22B Ospreys,以滿足飛行時間和行動要求(Eckstein,2017)。同時,需求也在增加。由于個別飛機的過度使用或使用不足,以及轉移和接受飛機所花費的額外工時,這些臨時解決方案損害了未來的準備工作。
維修行動分為計劃內和非計劃內(Susto等人,2015)。計劃內的維護是主動的,在一個部件退化或運行到故障之前完成。一個部件的定期維修頻率通常是基于供應商或原始設備制造商(OEM)公布的結構壽命限制和推薦的維修時間表。非計劃維修是在一個部件退化或失效時進行。圖1比較了海軍陸戰隊MV-22B飛機用于計劃內與非計劃內維修的維修工時(MMH)的數量。在2021年3月至2022年2月期間,計劃外維修比計劃內維修的頻率高5至6倍。這個比率表明飛機部件的嚴重不可靠,以及預測非計劃維修的困難。
圖 1. 計劃與計劃外維護工時。資料來源:NAVAIR 準備分析報告 (2022)。
定期維修是預防性的,或旨在持續檢查和維護部件,使其達到其使用壽命。對于美國海軍航空的 "型號系列"(TMS),部件的檢查和拆卸時間表公布在《檢查要求手冊》(海軍航空部隊指揮官,2021)的相關定期維修信息卡(PMIC)中。所有強制性的檢查、拆除或更換事件都包括在該手冊中,該手冊規定了定期維修計劃。間隔由供應商或工程可靠性和可維護性分析,以及RCM計劃的故障管理策略決定(國防部,2011,國防部,2020a)。由他們制作的PMIC卡規定了機群或部件的預定維修。這樣做的一個問題是,每架飛機或部件的維護間隔是相同的。這些間隔沒有考慮到一個獨特的部件或飛機的使用、服務歷史或歷史數據。
海軍航空業可以從基于需求證據的維修創新實踐中獲益,或對個別部件進行預測。近年來,RCM采用了基于狀態的維修+(CBM+)戰略來提高可靠性。CBM+戰略的一部分是使用機器學習,根據歷史證據預測一個部件何時會失效。由于海軍陸戰隊的航空屬于海軍航空的范疇,任何MV-22B RCM或CBM+活動都屬于艦隊準備中心指揮官(COMFRC)。東部艦隊戰備中心(FRC)的V22艦隊支持小組(FST)一直致力于通過許多舉措提高飛機和部件的可靠性。
其中一項舉措是利用統計模型估計MV-22B部件的故障概率。利用現有的海軍航空企業(NAE)數據庫中的歷史維修記錄,使用Weibull概率密度函數(PDF)來估計一個部件經歷特定故障模式之前的時間。圖2是一個失敗時間(TTF)的例子,顯示了MV-22B塔架轉換執行器(PCA)因密封損壞而失敗的百分比。對于PCA模型,預測機隊庫存的70%在3326個飛行小時前因密封損壞而需要拆除,而80%在3696個飛行小時前會失效。第五章討論了模型的準確性,但這種方法為利用相關故障數據改進預防性維修政策邁出了一步。
圖 2. Pylon 轉換執行器的 Weibull 模型。資料來源:FRC East V22 FST 維護優化 (2022)。
這個統計模型是根據定義的故障模式前的組件群的真實使用壽命來計算可靠性。圖3顯示了FRC East V22 FST所考慮的所有PCA故障模式的Weibull分析結果。
圖 3. 飛行小時數中預測的 PCA 故障率。資料來源:FRC East V22 FST 維護優化 (2022)。
當考慮到所有的故障模式時,一個部件的估計可靠性可以決定一個更好的計劃維修間隔。平均而言,70%的機隊庫存預測在大約3700飛行小時前需要拆除,而80%的機隊預測在大約4500飛行小時前會出現故障。項目領導層可以根據一個置信區間做出決定,以取代PMIC卡中公布的當前計劃維修間隔。這個間隔將適用于機群中的部件,并提高在評估的任何故障模式發生之前更換部件的可能性。通過真實的服務數據來改進預定維修,并且隨著數據的不斷收集,可以很容易地重新計算。
不幸的是,這種方法只提供了組件的累積故障概率。一個更好的方法是估計一個部件隨時間變化的條件性故障概率,也稱為危險率。機器學習模型,如Cox比例危險(CPH)模型和人工神經網絡(ANN)可能是有用的,因為它們最近被用于醫學研究,預測死亡率(Spooner等人,2020)。類似的工作可以使用DECKPLATE中保存的數據。
本論文將重點討論以下研究問題。
主要問題。什么樣的機器學習算法能夠為飛機部件的預防性維護產生最佳的生存模型?
次要問題。DECKPLATE和其他資源庫中的哪些特征可以在預測部件存活率中得到利用?公布的PMIC要求和生存模型之間的平均故障時間(MTTF)有多大差異?對于適當的數據,Weibull等經典分布是否能很好地適應數據以估計未來的故障?
第二章介紹了機器學習和可靠性分析的基本概念,并研究了以前使用機器學習進行預測性維護的嘗試。第三章更精確地描述了本論文所要解決的問題,以及所采用的一般方法。第四章描述了本論文所使用的方法以及其結構的合理性。第五章和第六章討論了本論文的結果和得出的結論。
本論文探討了區塊鏈與互聯網協議第六版(IPv6)數據包信息的使用,以支持與無人駕駛飛行器(UAVs)智能蜂群的安全、高性能和可擴展的通信。在這篇論文中,我們研究了三種情況下的加密數據包的交換,即點對點、點對多和多對點。我們模擬了每個場景下的蜂群行為,并在模擬運行中改變了蜂群中無人機的數量。基于仿真的結果顯示,對于點對點場景和多對多場景,即使在多對多場景中,交互節點的數量增加,延遲也沒有明顯增加。相反,在點對多的情況下,延遲會增加。需要進行更多的研究來評估本論文中提出的區塊鏈-IPv6方法的安全性和可擴展性。
圖. 使用區塊鏈技術的無人機群智能中的塊生成概念
越來越多的無人機被用于軍事目的,再加上自動化方面的進步,如為無人駕駛飛行器(UAV)配備不同程度的自主權和群集智能,使得這些飛行器成為敵對勢力的誘人目標。為了獲得競爭優勢,對手將試圖找到無人機的飛行控制器、接收器或發射器的可利用的物理和網絡漏洞,然后應用動能、網絡或某種動能和網絡攻擊機制的組合來操縱無人機的行為,例如使無人機墜毀或泄露敏感數據。
攻擊軍用無人機的一個途徑是操縱無人機使用的通信機制,無論是無人機與無人機之間的通信還是無人機與人類操作員之間的通信。例如,對手可以修改或阻止無人機群之間的數據交換,以降低無人機群的行動效率。重要的是,為軍事單位提供的無人機已經過動能和網絡脆弱性評估,與這些脆弱性相關的風險在無人機的操作使用之前就已經得到緩解,并且在無人機的使用壽命內對無人機系統進行修改時,也要進行風險評估和緩解。
安全風險管理也要在一個框架中進行規范,美國國家標準與技術研究所(NIST)就是這樣做的,它發布了一個風險管理框架。多種技術可用于實施降低安全風險的措施。例如,Vikas Hassija和Vinay Chamola[1]斷言。"當務之急是保持無人機和其他用戶之間交易的安全性、成本效益和隱私保護。區塊鏈技術是一個非常有前途的解決方案,可用于部署實時無人機應用"。
科學技術的創新和進步之間存在著一種共生關系。諸如自動駕駛汽車、自主無人駕駛飛行器(UAV)和智能家用電器等能力,一度被認為是科幻小說的范疇,或者在技術上太難實現,現在已經很普遍了。
無人機的概念最早出現在1783年,當時約瑟夫-米歇爾和他的伙伴雅克-艾蒂安-蒙戈爾費埃公開展示了一種當時可以說是無人機或無人駕駛飛機的交通工具[2],其形式是1849年在法國一個叫安諾奈的地方的熱氣球,在那次戰爭中,由奧地利中尉弗朗茨-馮-烏沙提斯創造的氣球炸彈被用來攻擊威尼斯市。雖然這次攻擊只造成了輕微的損失,但它可以被稱為成功,因為兩天后威尼斯就投降了[3]。尼古拉斯-特斯拉在1898年獲得了遙控(RC)的專利,大約20年后,一家名為拉斯頓-普羅克特空中目標的公司在特斯拉之前獲得專利的遙控技術基礎上發明了第一架無翼飛機[4]。
從那時起,無人機技術和它的應用已經穩步增長。它們已被用于科學研究,如收集有關火山活動的數據,在這些地方使用駕駛飛機會太危險或太昂貴。在20世紀90年代,亞伯拉罕-卡雷姆推出了 "捕食者",這是一種配備了攝像頭和其他傳感器的無人機,用于監視。國防界為 "捕食者 "配備了武器裝備,包括導彈[5]。掠奪者本身已被用于一些沖突,如在阿富汗、巴基斯坦、波斯尼亞、前南斯拉夫、伊拉克、也門、利比亞、敘利亞和索馬里的沖突[6]。在2022年,它們也被烏克蘭和俄羅斯武裝部隊廣泛用于戰斗。
無人機技術的一個重大進步是應用了蜂群智能,一群無人機模仿大量同質動物的智能行為,如蟻群、鳥群和蜜蜂群。蜂群通過蜂群成員之間的協調表現出集體行為。蜂群的行為可以被編碼為算法,而這些算法又可以通過軟件實現,在計算機上執行,比如無人機中使用的嵌入式計算機[7]。蜂群行為甚至被用來進行基于無人機的燈光表演,例如在2020年東京奧運會的開幕式上。
在蜂群中,蜂后是控制器,同樣地,在蜂群智能無人機中,系統中有一個控制中心,典型的控制器名為地面控制站(GCS)。無人機的工作方式很直接,這涉及到無人機和GCS之間的數據交換,然后GCS可以連接到衛星,或者衛星可以直接連接到無人機,一切都在實時發生。圖1說明了無人機和其基礎設施的一種通信方式。至少,通信需要是低延遲和安全的[8]。
有兩種技術可以在GCS和無人機之間進行通信。第一種技術是基于蜂群基礎設施的GCS,第二種是飛行Ad-Hoc網絡(FANET)。基于蜂群基礎設施的GCS本身有一個GCS,用于集中式通信。所有的無人機群都將與GCS進行通信,以便群組能夠運作。然而,這種技術的一個缺點是,它依賴于GCS的可用性和正確運作。如果GCS受到干擾,整個無人機群也會受到干擾。相比之下,FANET使用一個發射器向某個無人機發送命令,然后該無人機將這些命令轉發給第二個無人機。然后這些命令將以串行或并發的方式分發給其他無人機。所有的無人機將進行通信,并擁有發射器給出的命令列表,這樣,如果這個發射器發生故障,所有的無人機仍然可以執行命令,因為每個無人機都有一個有效的命令列表。最后,通過使用這種FANET技術,每個無人機將具有冗余性,而不完全依賴通信基礎設施。然而,這種技術也有缺點。例如,一個入侵者或一個未知的無人機可以進入并破壞無人機群。再比如,無人機群的授權成員無法檢測到,所以入侵者(即未經授權的參與者)的無人機,從而可以獲得將由授權無人機執行的命令列表[9]。
為了克服入侵者無人機的問題,也許可以應用區塊鏈來防止未經授權的無人機使用無人機群命令來獲取列表。區塊鏈本身已被廣泛用于金融領域,目的是在每筆交易的驗證過程中消除第三方。
在區塊鏈中,當數據被分發時,將很難被黑客攻擊并獲得完整的數據,因為它是由一個使用加密手段的網絡驗證的。每個區塊由前一個區塊的哈希值,驗證哈希值的隨機數,或稱nonce,以及時間戳組成。完整性的保證是由區塊鏈為第一個區塊的形成提供的,這個區塊是由一個經過驗證的交易形成的結果,稱為創世區塊。由于哈希值是不可預測的或唯一的,欺詐或復制行為將被發現。每個經過驗證的區塊都有其哈希值,對該區塊的任何改變都會對其他區塊產生影響。如果所有或大多數節點給予許可或同意,該區塊就會被添加到鏈上,因為共識機制安排交易的有效性在某個區塊的有效性。
區塊鏈上的這種共識機制可以通過三種方式進行,那就是工作證明、股權證明和投票,實用拜占庭容錯。在加密貨幣的世界里,工作證明被用于采礦。它的工作原理是在每個節點上進行數學方程的計算,然后每個首先完成計算的節點將有權將最新的區塊輸入區塊鏈。使用權益證明,只有合法的節點可以進行計算以達成共識。另一方面,實用拜占庭容錯是基于投票的,要求至少有三分之一的授權節點是拜占庭的。
認證過程是通過生成具有偽隨機函數的一次性密碼(OTP)來進行的。無人機在區塊鏈中注冊,每架無人機根據存儲在區塊鏈節點中的關系,確定它能夠認證的最近的無人機。認證請求從無人機發送至相關的無人機,后者在區塊鏈中觀察并檢查該無人機是否有關系,并能對其進行認證。這個方案能夠挫敗外部惡意無人機的攻擊或第三方攻擊,即使對手知道第一個令牌。
在本論文中,我們研究了使用IPv6(互聯網協議版本6)在無人機之間進行通信的方式。與IPv4(互聯網協議版本4)相比,IPv6有很多優點,即速度更快,更有效,因為它的路由表比IPv4少,所以路由過程將更有組織和有效,而且更安全,因為它配備了交換數據的加密功能。帶寬更有效,因為IPv6支持組播。配置更容易,因為它自動運行。總的來說,IPv6更適合無人機等移動設備,因為不需要通過網絡地址表(NAT),因此延遲低。IPv6將使用區塊鏈與權益證明共識相結合。
與加密貨幣一樣,區塊鏈上的每個節點都必須進行支付。在這項研究中,支付被替換成OTP。每個節點產生相同或同步的OTP。區塊鏈和OTP在這里的使用是為了檢測未經授權的無人機,并防止他們讀取或更新無人機群使用的命令列表。此外,我們探索了區塊鏈、智能合約共識(SCC)和分布式賬本技術在蜂群通信方面的能力。此外,還根據提出的無人機群智能通信架構的概念進行了模擬。
本論文的范圍僅限于探索區塊鏈技術和OTP的聯合使用,這兩種技術在IPv6數據包中都有填充。
在進行了模擬物理無人機在點對點、點對多、多對點場景下的運行,并使用1-10000次迭代或交易的實驗后,得到了各場景的延遲比較結果。從這些結果可以得出結論,對于點對點方案和多對多方案,即使在多對多方案中,交互節點的數量增加,延遲也沒有顯著增加。而在點對多的情況下,一個節點以廣播信息的形式同時向幾個節點進行交易,這導致了延遲的增加。第四章和第五章解釋了仿真結果和這些結論的總結。此外,第五章還討論了與本論文中的事項有關的未來工作的可能性和建議。
第二章介紹了無人機群智能通信區塊鏈功能的背景,并利用它作為無人機群智能的通信手段。它還對IPv6結構格式進行了概述。第三章討論了基于IPv6區塊鏈的通信數據傳輸的分析。具體而言,分析了IPv6區塊鏈數據包的場景、保密性、完整性和可用性。第四章闡述了IPv6區塊鏈在無人機蜂群智能中實現的可能性和挑戰的研究成果。第五章提供了結論和對未來研究的建議。
近年來,美海軍對無人系統的綜合衛星-地面網絡(ISTN)架構表現出興趣。隨著衛星網絡的發展和越來越多的無人系統網絡的連接,安全和隱私是ISTN的主要問題。在這篇論文中,我們專門為ISTN開發了一個網絡入侵檢測系統(NIDS)。我們確定了NIDS在ISTN架構中的關鍵位置,并使用決策樹機器學習算法對各種威脅載體進行網絡攻擊檢測,包括分布式拒絕服務。決策樹算法被用來對攻擊流量和良性流量進行分類和隔離。我們使用文獻中提供的開放源ISTN數據集來訓練我們的算法。決策樹使用不同的分割標準,不同的分割數量,以及使用主成分分析(PCA)來實現。我們操縱訓練數據的大小和數據特征的數量以達到合理的假陽性率。我們表明,我們基于決策樹學習的NIDS框架可以有效地檢測和隔離不同的攻擊數據類別。
為了實現和保持決策和任務的優越性,美海軍已經將計算技術和數據分析方法的研究作為優先事項,用于自動化和改善戰斗管理和決策。該項目使用多學科系統分析方法研究了新的自動化技術,并為自動化兵棋推演系統開發了概念設計,以支持戰術決策和作戰規劃。該研究方法揭示了自動兵棋推演的三種不同應用:(1)支持桌面兵棋推演,作為裁決的自動白隊或作為紅隊認知智能體;(2)支持作戰任務規劃者,作為非實時行動方案(COA)引擎;以及(3)支持戰術士兵,作為實時COA引擎,在評估和推薦可能的戰術COA時考慮二階、三階和九階效應。該研究發現,需要自動化的兵棋推演戰斗管理系統(利用博弈論、規定性分析、預測性分析、人工智能等)來支持增強的態勢感知、推理和問題解決、更快的決策時間,以及對戰術和作戰COA的識別和評估。該研究建議進一步研究自動戰爭游戲系統的使用、新興的行動方案工程領域,以及這些新技術在支持桌面兵棋推演、作戰規劃和戰術決策方面的應用。
博弈論和規范性分析法為美海軍的任務和決策優勢提供了兩種潛在的改變游戲規則的能力。在實時自動兵棋推演戰斗管理輔助工具的幫助下,戰術行動可以有一個重大的飛躍,它可以預測不同行動方案(COA)的成功,并考慮可能的二階和三階效應。這種未來的能力將伴隨著目前的發展,即使用人工智能(AI)來提高戰斗空間知識,并為戰術作戰人員提供決策幫助。
主要的研究目標是開發和評估一種實時兵棋推演能力的概念設計,這種能力可以作為戰術戰斗管理的輔助手段在作戰中使用。其他的研究目標是:
研究對實時海軍兵棋推演戰斗管理援助的業務需求。
為實時海軍兵棋推演的戰斗管理援助制定要求和概念設計,以及
識別和評估數據分析方法,包括博弈論和規定性分析,以應用于實時兵棋推演的戰斗管理輔助能力。
由NPS研究人員和NPS研究生組成的NPS研究團隊對該項目采用了系統分析方法。研究小組首先對以下方面進行了文獻回顧:(1)自動化高級數據分析方法;(2)美海軍和美國防部已經開發的分析能力;以及(3)海軍兵棋推演的應用。研究小組確定了可以為海軍開發的三種類型的自動兵棋推演系統:(1)支持桌面兵棋推演的系統,(2)支持作戰計劃的系統,以及(3)支持實時戰術決策的系統。研究小組重點關注后兩種類型的自動兵棋推演能力。然后,研究小組對這些類型中的每一種應用了系統分析方法--從需求分析開始,然后開發需求,然后綜合概念設計。最后,研究小組用操作分析法研究了每一個概念設計--研究這些未來的概念性自動兵棋推演系統如何能提高每個應用中的兵棋推演需求。
本報告分為五章。第1章介紹了本研究,第2章包含文獻回顧,第3章和第4章介紹了對兩類自動兵棋推演系統的系統分析,第5章總結了本研究。
在這項研究中,基于強化學習(RL)的集中式路徑規劃被用于在人為的敵對環境中的無人作戰飛行器(UCAV)編隊。所提出的方法提供了一種新的方法,在獎勵函數中使用了閉合速度和近似的時間-去向項,以獲得合作運動,同時確保禁飛區(NFZs)和到達時間限制。近似策略優化(PPO)算法被用于RL智能體的訓練階段。系統性能在兩個不同的情況下進行了評估。在案例1中,戰爭環境只包含目標區域,希望同時到達以獲得飽和的攻擊效果。在情況2中,戰爭環境除了目標區和標準的飽和攻擊和避免碰撞的要求外,還包含NFZ。基于粒子群優化(PSO)的合作路徑規劃算法作為基線方法被實施,并在執行時間和開發的性能指標方面與提出的算法進行了比較。蒙特卡洛模擬研究被用來評估系統性能。根據仿真結果,所提出的系統能夠實時生成可行的飛行路徑,同時考慮到物理和操作限制,如加速限制、NFZ限制、同時到達和防撞要求。在這方面,該方法為解決UCAV機群的大規模合作路徑規劃提供了一種新穎的、計算效率高的方法。
在空中攻擊和防御場景的應用中,無人駕駛戰斗飛行器(UCAVs)被用來執行監視、偵察和消滅放置在人為敵對環境中的敵方資產。在戰爭環境中可以使用不同類型的敵方防御單位,如高射炮(AAA)、地對空導彈(SAM)、探測/跟蹤雷達和通信系統。這些資產的選擇和放置是以被防御單位的戰略重要性和被防御地區的地理規格為依據的。通過使用通信系統和防御單位,可以開發一個無縫防空系統來保護地面資產。圖1給出了一個樣本戰爭環境的總體概況。從攻擊者艦隊的角度來看,它的目標是以艦隊特工的最小殺傷概率摧毀敵人的資產。如果行動中需要隱蔽性,也希望以最小的探測和跟蹤概率完成任務。這可以通過兩種方式獲得。1)如果飛行路線必須通過敵人的雷達區域,則使用隱身飛機;2)通過生成不通過敵人雷達區域的飛行路線。如果任務要求和戰爭環境條件合適,可以考慮采用第二種方案,以達到最低風險。因此,飛行路徑規劃對于生成可行的、安全的飛行路線具有至關重要的意義,它可以提高在戰爭環境中的任務成功率和生存概率。本研究通過開發基于強化學習(RL)的合作集中式路徑規劃應用,重點關注第二種方式,在考慮任務和系統要求的同時,以最小的占用量生成飛行路線。
空中飛行器的合作是空對地攻擊情況下的另一個重要問題。[1]中指出,自主無人機系統的合作意味著資源共享、信息共享、任務分配和沖突解決。它需要先進的傳感器和遠程數據鏈來提高UCAV機群的任務成功率和生存能力。從生存能力的角度來看,合作對于避免UCAVs之間可能發生的碰撞相當重要。因此,在進行飛行路徑規劃時,應考慮智能體與智能體之間的安全距離。定義UCAV飛行器之間距離和角度的相對幾何數據可用于評估這種情況并生成無碰撞的飛行路線。此外,從任務成功的角度來看,合作可用于生成可同時到達目標區域的飛行路線。同時到達是空對地攻擊的一個關鍵作戰概念,以便在戰爭環境中飽和敵人的防空系統。例如,如果機群中的UCAV潛入目標區域并同時向敵方資產發起攻擊,防空系統就會飽和,它就無法對UCAV機群作出有效反應。這增加了任務成功的概率,盡管它可能會降低機群中幾個UCAV智能體的生存能力。
戰爭環境中UCAV機群的合作路徑規劃是一個復雜的問題。正如我們之前提到的,在生成所需路徑時,應考慮許多敵方資產。一個成功的合作是通過結合操作者定義的機群的生存能力和任務成功要求而獲得的。
在文獻中,對UCAV機群的合作路徑規劃進行了許多研究。在[2]中,UCAV機群的路徑規劃是通過使用勢場方法來壓制地表的敵方資產,如雷達、防空導彈和大炮。此外,Voronoi圖也被用于同一問題,并與所提出的算法的性能進行了比較。雖然生成的路徑是連續和平滑的,但它需要很高的計算成本來解決這個問題。在文獻[3]中,通過整合近似的允許攻擊區域模型、約束條件和多準則目標函數,提出了UCAV機隊執行合作空對地攻擊任務的軌跡規劃問題。然后,通過結合微分平坦性理論、高斯偽譜法(GPM)和非線性編程,開發了虛擬運動偽裝(VMC),以解決合作軌跡最優控制問題。所提出的VMC算法的性能與基于GPM的直接拼合方法進行了比較,后者是為生成最優軌跡而開發的。仿真結果表明,盡管在優化性能上有小的損失,導致次優解,但所提方法能夠比GPM算法更快地生成可行的飛行軌跡。
最近航空器的計算和通信能力的進步加速了對合作的研究。將RL應用于自主飛行器的路徑規劃是文獻中的一個新興話題,因為它能夠在適當的情況下解決復雜問題。在文獻[4]中,作者通過使用深度強化學習(DRL)為自主地面車輛開發了一個省時的導航策略。他們引入了具有社會意識的DRL防撞方法,并將其推廣到多Agent場景中。提出的算法在一個行人眾多的環境中進行了測試。在[5]中,開發了一種混合算法,其中包含DRL和基于力的運動規劃方法。它被用來解決動態和密集環境中的分布式運動規劃問題。根據仿真結果,所提出的算法比DRL方法產生的成功場景多50%,比基于力的運動規劃到達目標所需的額外時間少75%。在[6]中,為蜂窩連接的無人機群網絡開發了干擾感知路徑規劃算法。在這一應用中,能源效率與無線延遲和干擾之間存在著權衡。提出了基于回聲狀態網絡的DRL算法來解決路徑規劃問題。仿真結果顯示,與啟發式基線方法相比,每個無人機的無線延時和每個地面用戶的速率都得到了改善。同時,仿真結果指出了無人機的最佳高度、數據速率要求和地面網絡密度之間的關系。在[7]中,DRL被用于使用自主飛機的分布式野火監視。在這個問題上,由于高維狀態空間、隨機的火災傳播、不完善的傳感器信息以及飛機之間需要協調,要最大限度地擴大森林火災的覆蓋范圍是相當復雜的。我們開發了兩種DRL方法。在第一種方法中,飛機是通過使用單個飛機的即時觀測來控制的。在第二種方法中,野火狀態和飛機所到之處的時間歷史被用作控制器的輸入,以提供飛機之間的協作。根據仿真結果,所提出的方法提供了對野火擴張的精確跟蹤,并超過了退避水平線控制器。報告還指出,這些方法對于不同數量的飛機和不同的野火形狀是可擴展的。在[8]中,DRL算法被用來解決無人駕駛地面車輛(USV)車隊的合作路徑規劃問題。采用了領導者-追隨者策略,并制定了一個集中協調方案。為了在車隊中提供合作,使用了與避免碰撞和編隊形狀有關的獎勵函數元素。然而,在路徑規劃問題中沒有考慮同時到達。
多智能體強化學習(MARL)也是一種新興的方法,用于解決包含合作要求的多智能體問題,如同時到達和避免碰撞[9-15]。在[16]中,針對部分可觀察情況和網絡帶寬等有限通信能力下的合作,開發了深度遞歸多智能體行為者批評框架(R-MADDPG)。實驗表明,所提出的R-MADDPG算法能夠處理資源限制的問題,并且它能夠在同時到達的智能體之間進行協調。然而,空中飛行器的運動學沒有被考慮,環境中也沒有包括障礙物。在[17]中,通過結合改進的陶氏重力(I-tau-G)制導策略和多智能體Q-Learning(MAQL)算法,為多個無人駕駛飛行器(UAV)開發了分布式4-D軌跡生成方法。考慮了避免碰撞和同時到達的要求來提供合作。
這項研究是[18]的延續,其中對UCAVs進行了基于RL的集中式路徑規劃。在戰爭環境中集成了一個五種狀態的生存能力模型,包括搜索、探測、跟蹤、交戰和擊中狀態。RL智能體的訓練階段是通過使用近似策略優化(PPO)算法進行的。為了定量評估所提系統的有效性,制定了跟蹤和命中概率的性能指標,并用于蒙特卡洛分析。仿真結果表明,擬議的算法能夠產生可行的飛行路線,同時使UCAV機群的生存概率最大化。然而,將生存能力模型(每個UCAV的五個狀態)納入學習過程增加了觀察向量的大小,使系統的擴展變得復雜。另外,[18]中沒有研究UCAV機群的合作性能,這也是本研究的主要議題。
本文采用RL方法解決了UCAV機群的路徑規劃問題。采用集中式結構,將總的觀測向量輸入單一的RL智能體,并生成總的行動向量,其中包含相關UCAV的單獨控制信號。與[18]不同的是,生存能力模型沒有被整合到觀察向量中以減少向量大小。相反,禁飛區(NFZs)被定義為模擬防空系統,如防空導彈和火炮。除了在[18]中進行的研究外,這里特別關注艦隊的合作,這從兩個方面得到。首先,研究了UCAV機群同時到達目標區域的情況,這是一種廣泛使用的使敵人的防空系統飽和的方法。其次,還研究了避免碰撞的問題,以提供艦隊的安全。考慮到這些要求,我們開發了獎勵函數。RL智能體的訓練階段是通過使用PPO算法進行的。為避免NFZ、避免碰撞和同時到達的要求制定了幾個性能指標,以獲得對所提方法的定量評價。通過使用蒙特卡洛分析,在NFZ位置不確定和外部干擾(即風的影響)存在的情況下,根據船隊的避免碰撞和同時到達能力,對系統的合作性能進行了評估。
這項研究從兩個方面對文獻做出了貢獻。首先,據作者所知,這是第一次為UCAV機隊開發出一種可行的和可操作的基于RL的集中式路徑規劃方法。例如,與典型的基于PSO的方法相比,基于RL的方法提供了艦隊在面對動態和反擊/防御威脅時重新規劃的實時能力。第二,與目前的方法相比,所提出的方法提供了同時考慮關鍵操作限制的能力,如同時到達和避免碰撞的要求,同時考慮NFZ限制和系統限制,如UCAVs的橫向加速指令限制。例如,典型的方法,如基于PSO的方法,只考慮了這些限制的有限子集,因此它們只適用于現實生活場景的某些方面。考慮到這兩個方面的貢獻,所提出的方法不僅為現實生活中適用的合作操作能力提供了手段,如關閉速度和近似的時間信息,而且還為高度非線性和大規模的UCAV艦隊優化問題提供了一個實時的近似。
本文的其余部分組織如下。在第二部分,解釋了路徑規劃問題中使用的數學模型和相對幾何學。在第三部分,給出了RL智能體的一般結構,并描述了訓練算法。第四節,給出了仿真結果,并對1)無NFZ和2)有NFZ約束的情況進行了評估。在第五部分,說明了結論和未來的工作。
圖 3 RL 智能體及其與戰爭環境交互的總體概述。
圖 4 a) 同時到達、b) NFZ 限制和 c) 避免碰撞的定義。
美海軍陸戰隊長期以來一直使用戰術決策游戲(TDG)來訓練和評估領導和決策能力。使用紙筆或干擦板的陳舊過程需要一個主題專家在場,以評估和評價每個海軍陸戰隊員的演習計劃,并對他們的演習計劃提供即時反饋。這個過程很耗時,而且不允許海軍陸戰隊員進行必要的演練和集訓,以建立他們在各種情況下的直覺決策并獲得經驗。無論任務如何,海軍陸戰隊要求領導者在戰斗中取得成功,要做好準備,即使是在第一次遇到這種情況時也要采取行動。
基于計算機的TDG被設計為允許海軍陸戰隊員在時間有限的環境下,在未知的地形和不同的敵人情況下,通過連續的重復練習來獲得排級演習的經驗。這個系統使海軍陸戰隊員能夠獲得他們需要的重復訓練,以建立他們的決策技能,并補充教官指導的訓練。使用重復測量設計,數據表明,使用基于計算機的TDG縮短了海軍陸戰隊員的決策周期,并顯示出通過快速重復選擇正確機動路徑的準確性有所提高。
研究問題1:通過計算機模擬訓練排級決策,能在多大程度上縮短從數據收集到決策的周期?
HA1: 有效的訓練將體現在參與者在規定的時間內為每個場景選擇可接受的決定(70%的分數),μ>0.70。
HA2:參與者在整個培訓迭代過程中,完成TDG的平均時間減少,?μtime < 0。
研究問題2:基于計算機的戰術決策游戲(TDG)在多大程度上是一種可用的戰術決策培訓設備?
提供態勢感知是戰術領域的一項關鍵要求和一項具有挑戰性的任務。戰術網絡可以被描述為斷開、間歇和受限 (DIL) 網絡。在 DIL 網絡中使用跨層方法有助于更好地利用戰術通信資源,從而提高用戶感知的整體態勢感知。用于優化應用程序的規則,描述其合適跨層策略(啟發式)的規范仍然是一項具有挑戰性的任務。
我們之前介紹了一種學習環境架構,旨在訓練分散的強化學習 (RL) 智能體,這些智能體應該通過使用跨層信息 [1] 來改善 DIL 網絡中網絡資源的使用。由于這些智能體的訓練需要大量場景,因此定義了一個額外的戰術模型。戰術模型的目的是生成具有動態變化的網絡條件和應用程序之間動態信息交換的場景,從而為訓練 RL 智能體奠定基礎。戰術模型本身也基于 RL 智能體,它在博弈環境中模擬軍事單位。
在本文中,我們展示了這個戰術模型,實驗性的深度強化智能體放置在一個專注于控制多智能體合作博弈中的運動和通信戰術環境中。該博弈的重點是多個智能體,通過在二維空間中進行交流和移動來達到與對方團隊競爭的共同目標。我們研究智能體如何與彼此和環境交互以解決偶發性和連續性任務。由于這項工作的重點是在通信網絡上進行強化學習以增強 DIL 通信網絡,因此我們提出了基于近端策略優化 [2] 的智能體,以適應協作多智能體通信網絡問題。此外,該博弈的最終軌跡用于在 DIL 設置中訓練智能體。
圖4-1:戰術模型的高層架構
圖4-2:戰術環境的可視化
圖5-2:在PoIs和單個單位被打破之前積累單位