該項目旨在利用強化學習(RL)開發防御性無人機蜂群戰術。蜂群是一種軍事戰術,許多單獨行動的單元作為一個整體進行機動,以攻擊敵人。防御性蜂群戰術是美國軍方當前感興趣的話題,因為其他國家和非國家行為者正在獲得比美國軍方更多的優勢。蜂群智能體通常簡單、便宜,而且容易實現。目前的工作已經開發了飛行(無人機)、通信和集群的方法。然而,蜂群還不具備協調攻擊敵方蜂群的能力。本文使用預先規劃的戰術模擬了兩個軍用固定翼無人機蜂群之間的戰斗。即使在數量多到100%的情況下,也有有效的戰術可以克服規模上的差異。當用于防御艦艇時,這些規劃的戰術平均允許0到0.5架無人機通過防御并擊中艦艇,這超過了阿利-伯克級驅逐艦目前的防御系統和其他研究的無人機蜂群防御系統。這項研究表明,使用某些機動和戰術有可能獲得對敵人蜂群的戰術優勢。為了開發更有效的戰術,使用RL訓練了一種 "智能體 "戰術。RL是機器學習的一個分支,它允許智能體學習環境,進行訓練,并學習哪些行動會導致成功。"智能體"戰術沒有表現出突發行為,但它確實殺死了一些敵人的無人機,并超過了其他經過研究的RL訓練的無人機蜂群戰術。繼續將RL落實到蜂群和反蜂群戰術的發展中,將有助于美國保持對敵人的軍事優勢,保護美國利益。
關鍵詞 無人機蜂群戰術 強化學習 策略優化 無人機 艦船防御 軍事蜂群
現代計算機科學家試圖解決的問題正變得越來越復雜。對于大規模的問題,人類不可能想到每一種可能的情況,為每一種情況確定所需的行動,然后為這些行動編碼讓計算機執行。如果計算機能夠編寫自己的指令,那么計算機科學的世界可以擴展得更大,以完成更困難的任務。這就是機器學習領域。最近的工作為世界帶來了各種照片分類器、計算機視覺、搜索引擎、推薦系統等等。利用機器學習,計算機甚至能夠學習和掌握蛇、國際象棋和圍棋等游戲。有了這項技術,自動駕駛汽車、智能機器人和自主機械似乎不再是不可能的了。
美國軍方一直在推動技術的發展,使其在戰術上對敵人有優勢。利用機器學習來協助美國作戰,將提高軍事能力。非傳統戰爭的最新發展催生了無人駕駛車輛和無人機等自主智能體戰術蜂群。當務之急是,美國軍方必須建立對敵方類似技術的防御措施,并開發出利用蜂群的有利方法。將機器學習方法應用于多智能體無人機群問題,可以為美國軍隊提供對抗和反擊敵人蜂群的能力。
美國軍方一直在探索最新的技術進步,以保持對敵人的競爭優勢。蜂群戰術是目前軍事研究的一個主要領域。美國和其他國家正在尋找使用無人機、船只和車輛與現有蜂群技術的新方法。例如,俄羅斯正在開發令人印象深刻的無人機蜂群能力。[Reid 2018] 伊朗已經創造了大規模的船群。[Osburn 2019] 大大小小的國家,甚至非國家行為者都在利用目前的蜂群技術來增加其軍事力量,與美國抗衡。這種對美國安全的可能威脅和獲得對其他大國優勢的機會是本研究項目的動機。如果美國不發展防御和戰術來對付敵人的蜂群,其人民、資產和國家利益就處于危險之中。這個研究項目旨在使用最先進的RL算法來開發無人機群戰術和防御性反擊戰術。研究當前的RL算法,并學習如何將其應用于現實世界的問題,是計算機科學界以及軍事界下一步的重要工作。該項目旨在將現有的RL工具與無人機群結合起來,以便找到能擊敗敵人機群的蜂群戰術和反擊戰術,改進軍事條令,保護美國國家利益。
本報告首先介紹了促使需要無人機蜂群戰術的當前事件,以及試圖解決的問題的定義。接下來的章節提供了關于無人機、軍事蜂群、強化學習以及本研究項目中使用的策略優化算法背景。還包括以前與RL有關的工作,以及它是如何與當前的無人機和蜂群技術結合使用的。下一節介紹了建立的環境/模擬。之后介紹了目前的成果。建立了兩個不同的場景,并對每個場景進行了類似的測試。第一個是蜂群對戰場景,第二個是船舶攻防場景。這兩個場景描述了實施的程序化戰術,并介紹了這些戰術的比較結果。接下來,描述了RL智能體的設計和RL訓練,并測試其有效性。在介紹完所有的結果后,分析了研究發現,并描述了這個研究項目的倫理和未來方向。
無人駕駛飛行器被廣泛用于監視和偵查。無人機可以從上面捕捉到戰斗空間的狀況。這些智能體非常小,可以快速地去一些地方而不被發現。無人機有能力收集信息并回傳給蜂群的主機或電子中心。蜂群智能體可以使用信號情報和數據收集戰術從敵人那里收集信息。
美國軍方和世界各地的軍隊正在使用蜂群作為一種進攻性威脅。無人機、船只、甚至車輛都可以在無人駕駛的情況下運作,并作為一個單元進行蜂擁,以攻擊敵人。大量使用小型和廉價的智能體可以使小型軍隊在面對美國軍隊的力量時獲得優勢。例如,小船或無人機可以匯聚到一艘船上,并造成大量的損害,如摧毀船只的雷達。作為一種進攻性技術,蜂群是強大的資產,可以作為一種進攻性戰爭的方案來使用。
作為對進攻性蜂群技術的回應,各國軍隊開始研究并使用蜂群作為防御機制,以對付來襲的蜂群和其他威脅。其他的防御性武器系統并不是為了對抗大量的小型無人機而建造的,因此,發射反蜂群可能是對最新的蜂群戰術的一種可行的防御。蜂群也可用于防御單一實體對來襲的武器系統。研究人員正在創造新的方法來建造、武裝和訓練小型無人駕駛飛行器,以便它們能夠成為美國軍隊的可靠資產。
介紹了最近在智能體群體和無人機群的強化學習方面的一些工作。
Cano Lopez等人使用當前的強化算法來訓練四旋翼無人機飛行、懸停和移動到指定地點[G. Cano Lopes 2018]。該系統使用了馬爾科夫決策過程,并實現了強化學習的演員評論法,在飛行模擬器中訓練智能體。這些強化學習方法與我們希望應用于無人機群戰術問題的方法類似。使用Coppelia機器人公司的虛擬實驗平臺(V-REP)作為模擬,訓練無人機飛行。他們的訓練策略能夠實現快速收斂。在訓練結束時,他們能夠保持飛行并移動到模擬中的不同位置。這項工作表明,強化學習是訓練無人機操作的一種有效方法。我們希望在這個項目中使用的方法可以用目前的技術來實現。我們將擴展本文的實驗,在類似的模擬中把RL算法應用于固定翼無人駕駛飛機。然而,我們不是只讓無人機飛行和移動,而是要訓練它們一起工作,并戰略性地計劃在哪里飛行和如何操作。
斯特里克蘭等人利用模擬來測試各種無人駕駛飛行器的戰術,并測試贏得戰斗的決定性因素可能是什么。他們對一個具有戰術的蜂群進行編程,并讓這個蜂群與敵人的蜂群作戰。智能體試圖使用圖8.1所示方法協調對敵方無人機的攻擊。只有當有兩架無人機對抗一架敵方無人機時,這些戰術比單槍匹馬射擊敵人更有效,而且它們與其他成對的無人機之間有足夠的空間。其次,一些特工會飛離敵人,作為保護自己的手段,從不對敵人使用任何攻擊性戰術。[Strickland 2019]
這個項目使用PPO在一個捉迷藏的游戲中使用強化學習來訓練多個智能體。兩個紅色智能體是一個團隊,被指定為尋找者,兩個藍色智能體是一個團隊,被指定為隱藏者。如圖8.2所示,這些智能體在一個有幾面墻和一些積木的開放環境中游戲。智能體可以跑來跑去,對可移動的積木施加壓力。紅隊在看到藍隊時得到獎勵,藍隊在未被隱藏時得到獎勵。兩個智能體都是用自我發揮和策略優化算法進行訓練的。兩隊進行了數百萬次的訓練迭代競爭,并制定了戰術和技術來對付對方的行動。起初,兩個團隊都是漫無目的地跑來跑去,但他們最終發展出一些智能行為來幫助他們獲得獎勵。藍隊學會了如何堵住門,為自己創造庇護所,并從紅隊那里藏起其他物體。紅隊追趕藍隊特工,利用斜坡潛入他們的庇護所,跳到積木上面看墻。這些特工制定的一些戰術甚至比人類程序員指示他們做的更有創意。最重要的是,這些智能體教會了自己如何合作,并為每個智能體分配一個特定的角色,以完成團隊目標。這項研究的結果顯示了強化學習和自我發揮的學習方法的力量。兩個智能體都能發展出智能行為,因為它們之間存在競爭。我們將使用這個項目的框架來解決我們的無人機蜂群戰術問題。將捉迷藏游戲擴展到無人機群戰,將提高強化學習的能力。自我游戲技術在本項目未來工作的RL蜂群對戰部分有特色,該部分詳見第13.3節。[Baker 2018]
在這項研究中,研究人員利用計算機編程和強化學習模擬并測試了無人機群戰術。該小組創建了一個可能的蜂群戰術清單,包括一個簡單的射手,一個將敵人引向隊友的回避者,以及一個將敵人的蜂群分成子蜂群的牧羊人。研究人員隨后創建了一個模擬器來測試這些戰斗戰術。他們收集了關于哪些戰術最有效的數據,甚至在現實生活中的固定翼無人機上測試了這些算法。我們將在研究的第一階段實施其中的一些戰術,并擴大目前可編程蜂群戰術的理論。
這篇研究論文的第二個方面是實施強化學習方法,使智能體能夠制定自己的蜂群戰術。盟軍無人機在殺死敵方無人機時獲得正獎勵,被敵方殺死時獲得負獎勵。敵方蜂群是用研究第一階段的成功單人射手預先編程的。這個項目的目標是讓智能體制定對抗敵方蜂群的戰術。然而,盟軍的無人機學會了應該逃跑,干脆飛離敵人,以避免被殺死的負面獎勵。因為敵人太有效了,盟軍無人機無法獲得足夠的正向獎勵來學習如何攻擊敵人的蜂群。我們將使用強化學習以類似的方式來訓練智能體,然而我們希望獲得更多的結論性結果。為了防止盟軍無人機逃離敵人,我們將對攻擊和殺死敵人的智能體給予比死亡風險更多的獎勵。我們還可以對智能體進行編程,使其保衛像船只或基地這樣的資產。這個研究項目為我們所做的研究提供了一個良好的基礎。[Strickland, Day, et al. 2018]。
該研究項目是近期強化學習和無人機群工作的延續。計算機科學領域一直在開發最先進的強化學習算法,如PPO和SAC,該項目旨在應用于當前的無人機群戰術的軍事問題。
MIDN 1/C Abramoff(2019級)研究了無人機蜂群戰術,并在Python中模擬了微型蜂群對蜂群戰斗。他創建了一個二維空間,用一個點代表蜂群中的每個特工。每個智能體可以向前射擊(在它移動和面對的方向)。被另一個智能體的 "子彈 "擊中的智能體被假定為死亡,并從模擬中刪除。阿布拉莫夫創建了蜂群,并編寫了一個蜂群算法,以便特工能夠作為一個整體蜂擁飛行,而不會發生碰撞、分離或破壞蜂群。一旦智能體真實地成群,阿布拉莫夫探索了各種無人機群戰術,如選擇-最近和分配-最近,并測試了它們對敵人群的有效性。選擇-最近 "允許每個特工瞄準離自己最近的敵人。當蜂群向對方移動時,智能體將根據每個時間點上哪個敵人的無人機最近而改變其目標。分配最近的任務給每個智能體一個任務,以消除一個不同的敵方無人機。任務是根據哪個敵方無人機離友軍蜂群最近來決定的,并在每一幀重新更新。阿布拉莫夫對兩個蜂群的模擬戰斗進行了實驗,以測試哪種蜂群戰術最有效。他還嘗試使用反蜂群戰術進行戰斗,如在蜂群前面派出一個 "兔子 "特工,并分成子蜂群。總之,阿布拉莫夫發現,在他的實驗中,"最近分配 "是最有效的,一些反蜂群戰術也很成功。這些結果不是結論性的,但顯示了在發展蜂群和反蜂群軍事戰術方面的進展。本研究提案將在MIDN 1/C Abramoff的工作基礎上進行擴展,創建一個3-D環境模擬,并改進智能體能力,以代表一個現實的無人機群戰。這個研究提案的環境將有一個更大的戰斗空間,智能體可以采取更多的行動,包括改變高度、武器瞄準和蜂群間的通信/團隊合作。
MIDN 1/C湯普森(2020級)建立了一個三維環境,他用來模擬更多戰術。這個環境比MIDN 1/C阿布拉莫夫使用的更真實地模擬了現實世界的戰斗空間。蜂群要在三維空間中自由移動,并根據現實世界的物理學原理采取相應的行動,即重力和高度以及飛機上可行的轉彎率。圖8.3顯示了湯普森的Python環境模擬。左上角的無人機群被染成藍色,代表盟軍的無人機群。右下角的無人機群為紅色,代表敵人的無人機群。盡管在二維顯示中,每架無人機周圍的圓圈代表高度。在圖8.3中,更大的圓圈顯示了更高的高度,這意味著敵人的蜂群比盟軍的蜂群要高。MIDN 1/C湯普森固定了環境的三維方面,并將無人機融入該空間。他還研究了每架無人機的轉彎率,以確保模擬符合現實生活中的無人機規格。
模擬開始時有兩個由任何數量的無人機組成的蜂群。每隊的無人機都被初始化在比賽場地各自一側的隨機位置上。模擬開始時,兩隊都起飛了。每隊都執行給定的戰術,可以是預先編程的,也可以是智能體學習的。如果進行了多輪比賽,每隊的勝負和平局都會被計算在內。
模擬開始時有兩個任意數量的無人機群。防御隊被初始化在放置在比賽場地中心的飛船中心。這艘船是靜止的,不會還擊,但它會計算它所收到的無人機的數量。進攻隊被初始化在比賽場地的一個隨機位置,該位置距離飛船中心至少有200米。模擬開始時,兩隊都要起飛。每隊都執行給定的戰術,可以是預先編程的,也可以是智能體學習的。如果進行多輪比賽,每隊都要計算無人機擊中飛船的總次數和剩余的防御性無人機數量。
無人飛行器的使用是目前現代戰爭中的一個事實。將無人機作為一個蜂群使用,共同完成一項任務,將有助于拯救生命;然而,蜂群內無人機之間的通信是現有技術的一個挑戰,這主要是由于在一個小設備中運行的功率要求。受第五代移動網絡大規模機器式通信的啟發,這項工作為蜂群中的無人機提供了一種新的識別和測量方法。5G通信信道的序言采用Zadoff-Chu(ZC)序列,預計將提供低功率和較少的設備間干擾,并且在應用匹配濾波器時產生良好的均方誤差結果。考慮到嵌入在噪聲和多普勒影響環境中的無人機群中不同數量的無人機的模擬結果表明,即使在信噪比小和多普勒頻移大的惡劣情況下,特別是當一批ZC序列的根指數被選入一個特殊的組時,也會有很好的結果。
無人駕駛飛行器(UAV)的使用在現代戰爭中非常普遍。此外,多架無人機共同完成一項任務,也被稱為蜂群,可以幫助拯救生命;然而,在現有技術條件下,蜂群內無人機之間的通信是一個挑戰。這一挑戰主要是由于可用于操作小型設備中所有傳感器和電子設備的電力有限。
這個問題的一個可能的解決方案是利用通信渠道來交換含有關于蜂群內無人機的相關信息的數據。
這項工作詳細介紹了計算機模擬,以評估廣泛用于第五代移動網絡(5G)通信的ZadoffChu(ZC)序列的實際適用性,以攜帶關于蜂群中無人機的識別和位置信息。
當無人機首次被用于作戰時,現代戰爭在保護生命方面邁出了一大步。在以保護國家利益和生命為主要目的的情況下,未來的戰爭將由現役無人機的技術應用水平來決定。
無人機群的運行,而不是只有一架無人機,將增加可以完成的任務范圍,例如增加進入和離開戰斗的有效載荷。在這樣的任務中,無人機很可能會在嵌入噪音的環境中運行,而無人機很容易受到多普勒效應引起的頻率變化的影響。
這篇論文分析了位于5G通信數據包中的序言的使用,在這種情況下,該序言將攜帶一個帶有關于參考無人機的識別和位置信息的ZC序列。最具體地說,這項研究建立了一種方法,通過應用匹配濾波器(MF)來獲得該信息。
匹配濾波器在雷達系統中被廣泛使用,主要用于探測。在這里,眾所周知的交叉關聯,當應用于一個ZC序列和包含這個相同的ZC序列的樣本時,作為一個匹配濾波器。這個濾波器得到的結果表現出一個峰值,正好在ZC序列在樣本矢量開始的地方。鑒于匹配濾波器的預期結果,當無人機在有這些不利因素的情況下運行時,可以通過改變這些參數來評估噪聲和多普勒效應的影響。
無人機在戰區的應用是比較新穎的,始于冷戰時期[1],現代研究已經調查了許多無人機一起工作的應用,以及它們作為一個蜂群的效率如何[2]。
崔黔南、劉培志、王金華等人在2017年的研究中[3],提供了一種方法,試圖確定管理網狀蜂群的最佳網絡:移動廣告網絡(MANET)或車輛廣告網絡(VANET)。他們的方法將蜂群分成小群,每個群都有一個母親無人機,管理與其他無人機群的通信。
2015年,Luji Cui、Hao Zhang等人[4]的研究顯示,使用60 GHz正交頻分復用(OFDM)系統,以Guard Interval作為通信信道,估計范圍的結果很有希望。同樣在2015年,Vincent Savaux和Faouzi Bader[5]實現了一種基于均方誤差(MSE)的方法來分析OFDM信道的性能。最后,Min Hua、Mao Wang等人[6]在他們2014年的工作中分析了ZC序列的定時性能中的多普勒效應。
本論文提出的工作是剛才提到的所有研究的結合,使用MSE圖來分析ZC序列的性能,作為在噪聲和多普勒影響的環境中識別和測距在蜂群中運行的無人機的一種方法。
在這篇論文中,我們考慮了長度為839個符號的ZC序列。建立了一個模擬算法來復制現實世界中的蜂群場景。在算法執行過程中改變的參數包括:蜂群的大小、無人機在布局中的位置、數據包序言、噪聲的負載和多普勒效應的振幅。這項工作的主要目的是操縱這些參數,分析結果,并選擇ZC序列(R)的根指數集作為最佳或最差,以減輕在蜂群中運行的無人駕駛飛行器的測距誤差。
在第二章中,我們介紹了在模擬中應用的數學和方法的理論背景。這個數學和方法背景包括5G的基礎知識和ZC序列的特殊性,以及交叉相關作為識別和測距部署在噪聲和多普勒影響環境中的無人機群的一種手段的適用性。在第三章中,我們討論了所模擬的場景及其算法,顯示并解釋了改變參數的原因,最后是性能結果以及它們是否顯示了預期的結果。在第四章的結論中,我們對模擬結果進行了簡要的總結和討論,并提出了一些未來工作的想法。
蜂群是戰爭的下一個進化步驟。激光武器系統(LWSs)將是在這個新的戰斗空間中競爭的一種具有成本效益的方法。無人機系統正被用于各個層面,從恐怖組織到世界超級大國,廉價的無人機系統作為采用蜂群戰的一種方式。目前,無人機群已經被用于異質配置,并在軍事演示中被展示出來(Hambling 2021)。作為反擊,國防部必須制定一個具有成本效益的對策,而LWSs具有每次射擊成本低、見效時間短的優點。
隨著通信方法、機器學習和蜂群理論的發展,無人機系統的能力也在增長。它們按重量、范圍和速度的不同組合進行分類。無人機系統執行廣泛的任務類型,包括監視、反制、誘餌、傳感器失效和有效載荷的交付。它們通常由高強度低重量的材料制成,如鋁或碳纖維增強聚合物;然而,最近也在探索使用鎂基復合材料以實現更廉價的制造(Hoeche等人,2021)。容易獲得和廉價的無人機系統使得形成蜂群成為一種具有成本效益的方式。LWS將是準備應對這種新型威脅的有效方式。
通過適當的使用,LWS將成為對廉價的蜂群攻擊的相稱和有效的反應,變得非常寶貴。擬議的每發1美元將使海軍在這些交戰中贏得經濟損耗(Smalley 2014; Perkins 2017)。然而,也有一些需要注意的障礙,如大氣效應、湍流和熱膨脹。LWS還需要能力很強的傳感器和控制系統來精確跟蹤遠距離目標,并在所需的停留時間內保持訓練好的光束。這種需求在海洋環境中被放大了,船舶的湍流和運動使問題更加復雜。戰術官做出的復雜決定是對蜂群戰和LWS使用的另一個關注。在蜂群戰環境中,交戰時間可能短至個位數分鐘。幫助決策者快速過濾大量信息的自動化決策輔助工具將是贏得這些快速小規模戰斗的關鍵所在。這篇論文探討了各種無人機威脅情況和LWS交戰策略,以確定一些關鍵因素。
無人機群可能由同質群或異質群組成。使用同質群可以簡化獲取和使用具有成本效益的蜂群,而異質群則會增加蜂群的復雜性和能力。同質蜂群的操作者可以改變攻擊的規模和隊形。異質蜂群可以利用各種角色的單位,如戰斗機、轟炸機、誘餌、干擾器和偵察兵。改變蜂群的組成可能會對整體的成功機會產生相當大的影響。
使用的LWS交戰策略會嚴重影響交戰的結果。最直接的技術是基于距離的方法,即武器系統僅根據距離來確定目標的優先次序。最短交戰 "算法提供了一個模型,它也考慮了LWS的回轉時間。如果來襲的威脅是一個異質的蜂群,LWS可以采用更復雜的策略,優先考慮蜂群的各種功能,如感知或通信。這些異質性交戰方法將要求防御者對蜂群有大量的了解,因此需要有能力很強的傳感器和數據融合系統。
本論文使用建模虛擬環境和模擬(MOVES)研究所的一個名為 "蜂群指揮官戰術"(SCT)的程序來探索和模擬蜂群戰環境。SCT被用來測試各種蜂群編隊,包括直線、楔形和波浪形楔形。此外,本論文還開發了一種采用誘餌無人機來掩護轟炸機部隊的異質蜂群編隊。對于LWS,本論文評估了一種交戰策略,使轟炸機部隊優先于任何其他部隊。
主要的發現是,最大限度地增加單位之間的角位移的蜂群編隊比緊密聚集的群體更成功。這些結果是由于每個目標之間需要增加LWS的回轉時間。裝甲誘餌方案增加了整個蜂群的存活率,因此也增加了性能。在艦艇幸存的模擬中,轟炸機能夠活得更久,在被摧毀前更接近艦艇。在艦艇被摧毀的模擬中,有更多的轟炸機幸存下來。關于LWS的交戰策略,這一轉變對結果造成了巨大的影響。在艦艇存活的模擬中,交戰時間要短得多,轟炸機被摧毀的距離也遠得多。在艦艇被摧毀的模擬中,交戰持續時間更長,轟炸機群的大部分被摧毀。這些結果強調了利用各種編隊、異質無人機群以及制定LWS交戰策略來對付它們的潛在好處。
圖1. 使用艦載LWS來防御無人機群的威脅。改編自洛克希德-馬丁公司(2020)和愛德華茲公司(2021)。
由于固有的設計復雜性、無限的測試空間和缺乏自主性的具體措施,自主和協作無人系統的實施和測試具有挑戰性。這些挑戰限制了美國空軍部署和利用這些系統所提供的戰術和戰略優勢能力。這項研究在廣域搜索(WAS)場景中實例化了一個自主系統參考架構(ASRA),作為自主和協作系統的快速原型設計和評估的測試平臺。該研究旨在提供一個框架,以評估系統實現任務和自主目標的能力,開發可重復使用的自主行為,并開發可重復使用的協作決策算法。對于這項研究和對WAS任務的應用,自主性的衡量標準來自于自主系統的要求:響應性、穩健性和感知的準確性。自主行為,包括結合簡單(原子)行為的更復雜行為被開發出來,各種協作決策規則被定義。隨后的評估在四個場景中實施了立體實驗設計。按照嚴格的測試計劃,測試是在仿真中進行的,實現了自動測試和快速分析。測試結果被用來創建一個響應模型來描述系統,并進行多重響應優化,以確定一個最佳配置,在給定的目標密度下,使搜索面積、檢測百分比和感知精度最大化。
COGLE(COmmon Ground Learning and Explanation)是一個可解釋人工智能(XAI)系統,自主無人機向山區的野外部隊運送物資。任務風險隨地形、飛行決定和任務目標而變化。這些任務由人類加人工智能團隊參與,用戶決定兩架人工智能控制的無人機中哪一架更適合執行任務。這篇文章報告了該項目的技術方法和發現,并反思了復雜的組合問題對用戶、機器學習、用戶研究和XAI系統的使用環境所帶來的挑戰。COGLE創建了多種模式的解釋。敘述性的 "What"解釋比較了每架無人機在任務中的表現,以及基于使用反事實實驗確定無人機能力的 "Why"。可視化的 "Where"解釋突出了地圖上的風險,以幫助用戶解釋飛行計劃。研究的一個分支是研究這些解釋是否有助于用戶預測無人機的性能。在這個分支中,一個模型歸納的用戶研究顯示,決策后的解釋在教用戶自己確定哪架無人機更適合執行任務方面只有很小的作用。隨后的思考表明,用決策前的解釋來支持人類加人工智能的決策是一個更好的背景,可以從組合任務的解釋中受益。
COGLE(COmmon Ground Learning and Explanation)是一個可解釋的人工智能(XAI)系統,用于自主無人機向山區的野戰部隊運送物資。COGLE中的任務是在一個模擬的世界中進行的,其中有山區和森林環境、水體和結構。圖1顯示了一個任務地圖和人工智能控制的無人機的飛行計劃。黃色的棒狀圖顯示了徒步旅行者的位置。彎曲的箭頭顯示了無人機的飛行計劃。地圖下面的時間線顯示了無人機沿其飛行計劃的高度。地圖上的符號表示物體。尖尖的符號是太高的山,無法飛過。曲線頂的符號是低矮和高大的山麓。綠色區域是草地。樹木形狀的符號代表森林。
最初,我們使用ArduPilot SITL1,它可以高保真地模擬低空飛行器的動作。ArduPilot的詳細模擬所需的計算資源被證明是不方便的,對于任務的戰略規劃來說是不必要的。低空飛行控制在商業自動駕駛飛機和業余無人機中被廣泛實施。為了專注于任務規劃,我們開發了一個精度較低的模擬模型("ArduPilot Light"),在一個回合制的網格世界中,有五級高度和八個獨特方向。我們在ArduPilot SITL的API上模擬了ArduPilot Light的兼容編程接口(API)。圖2說明了COGLE的模擬網格世界的粗粒度,用于任務規劃。
圖 1 共同地面學習和解釋 (COgLE) 域中任務的示例地圖
圖 2 來自 COGLE 飛行學校的插圖展示了具有五個離散高度的模型以及當包裹從不同高度墜落時墜落區的擴大范圍
當無人機與處于同一高度或更高的障礙物飛得太近時,它們就會有墜毀的危險。如果無人機在森林、高山麓或水面上釋放其包裹,那么其包裹可能被損壞。包裹可能無法降落在河流、樹木或高山腳下。無人機飛得越高,其包裹在傘降過程中可能漂移得越遠。一個人工智能飛行員可能會在任務的開始、中間或結束時承擔風險。飛行員在任務中的早期決定會以微妙的方式與后來的決定產生互動。例如,在飛行計劃的早期,關于如何避開障礙物的選擇可能會導致在很晚的時候無法安全地接近選定的地點來投放包裹。
使用COGLE的早期版本,我們對用戶進行了自我解釋的研究,正如Gary Klein, Robert Hoffman, 和Shane Mueller等人所描述的。這樣的研究可以為參與者提供一個關于他們自己想要和使用的解釋種類的視角。用于無人機的人工智能飛行員是基于我們早期的深度強化學習者(RL)。他們在非常簡單的任務中表現出奇怪和次優的循環行為。研究參與者引用了無人機行為的觀察模式,指的是推斷的目標、效用和無人機的偏好。
在研究過程中,當被要求做出預測時,參與者經常的回答是 "我不知道"。研究參與者在自我解釋方面很有創意("它怕水!"),但他們沒有可靠的依據來確定他們的解釋是否正確。事實證明,我們早期的人工智能控制的無人機的奇怪行為是由于他們有限的訓練造成的。
認知方法在幾乎所有方面可提高現有雷達的性能,這導致了近年來研究的激增,空軍雷達建模和仿真(M&S)工具的一個關鍵差距是缺乏針對分布式全適應雷達(FAR)系統的全面、動態分布式雷達情景生成能力。截至2015年初,所有的研究都是在理論上推進概念,并通過模擬檢驗其性能,或者最多使用預先錄制的數據。沒有關于實驗驗證概念的報告,主要是因為還沒有開發出測試它們的必要硬件。然而,為了確定應用認知處理方法的真正性能潛力,這一步驟是至關重要的。為了解決這個問題,俄亥俄州立大學(OSU)電子科學實驗室(ESL)的認知傳感實驗室(CSL)與Metron公司、空軍研究實驗室(AFRL)和空軍科學研究辦公室(AFOSR)一起,已經開始了一項研究計劃,從分析和實驗上開發和檢驗認知雷達處理概念。
CSL設計并建造了認知雷達工程工作區(CREW),這是世界上第一個專門用來測試完全自適應和認知算法的雷達測試平臺,Metron和OSU開發了一個認知FAR系統的理論框架,在單一傳感器和目標的目標探測和跟蹤范圍內確定了關鍵的系統組件并進行了數學建模。我們一直在開發建模、模擬、分析和實驗能力,以證明FAR系統比傳統的前饋雷達(FFR)系統取得的性能改進。我們從OSU的軟件定義雷達(SDR)系統的模擬場景和預先記錄的數據開始。我們現在有能力利用CREW演示認知雷達跟蹤系統的實時操作。
這個項目的目標是為分布式FAR雷達開發一個基于MATLAB的M&S架構,從而能夠在模擬的、以前收集的和實時的流式數據上進行算法開發和測試。在第一階段,我們開發了一個基線FAR M&S架構,該架構采用面向對象編程(OOP)方法在MATLAB中編碼。它包括一個控制感知-行動(PA)周期運行的FAR引擎和確定下一組傳感參數的軟件對象;從傳感器獲取數據;處理數據以跟蹤目標;存儲和顯示傳感和跟蹤過程的結果。我們開發的模塊實現了模擬和預先錄制的SDR數據實例,以及實時和模擬的CREW數據實例。
第一階段開發的FAR M&S架構允許在模擬和實驗CREW數據源之間,以及在驅動傳感的FAR算法之間進行透明切換。輕松交換傳感和處理對象的能力將允許快速開發和測試認知雷達算法,通過構建M&S功能來避免重復工作和 "單點 "解決方案。它將使工業界、學術界和空軍的研究人員之間的合作成為可能,因為不同研究人員開發的算法可以使用一致的模擬、收集的數據和實驗室條件進行測試和比較。
人工智能(AI)是一項具有廣泛用途的新興技術。《美國防戰略》強調了人工智能對軍事行動的重要性,以使美國保持對其近似競爭對手的優勢。為了充分實現這一優勢,不僅要在戰術層面,而且要在戰爭的作戰層面整合人工智能。人工智能可以最有效地融入作戰計劃的復雜任務,方法是將其細分為其組成部分的作戰功能,這些功能可以由狹義的人工智能來處理。這種組織方式將問題減少到可以由人工智能解析的規模,并保持人類對機器支持的決策的監督。
人工智能是一套新興的、變革性的工具,有可能幫助軍事決策者。美國國家戰略將人工智能(AI)納入戰爭。《2020年國防授權法》11次提到了人工智能。國防戰略強調了利用人工智能和機器學習方面的商業突破的重要性。人工智能的軍事用途是保留國家安全的一個引人注目的方式。創造工具來支持戰術行動,如摧毀敵軍和從一個點導航到另一個點,具有顯著和可見的效果,使他們在資源有限的環境中在政治上可以接受。它們在訓練和測試方面的可重復性,使它們在采購過程中成為人工智能系統的快速贏家。然而,戰術行動的范圍和時間是有限的。僅在戰術層面上整合人工智能,忽視了在作戰層面上發生的決定性影響。
作戰,也就是實踐者將戰術行動轉化為戰略效果的層面,取決于領導者做出正確決策的能力。聯合部隊海事部分指揮官(JFMCC)的艱巨任務是制定計劃,將戰區戰略和聯合部隊指揮官(JFC)的目標結合起來,通過決定性的海軍交戰來塑造環境。在人工智能的快速認知能力的幫助下,JFMCC將能夠制定并更徹底地分析行動方案(COA)。這些品質對于未來的沖突是必要的。
人工智能必須在戰爭的各個層面進行整體集成,以充分實現其優勢。除了局部的、短期的戰斗,它還需要應用于主要的行動和戰役,涉及整個戰區的數月或數年。在戰爭的戰役(作戰)層面上的實施,放大了為實現戰略目標而進行的有序交戰和同步行動之間的協同作用。除了技術發展之外,行動上的整合將刺激政策和理論的建立,以使作戰人員有意愿使用人工智能。隨著使用人工智能的經驗的增加,其采用率也會增加。為協助海軍作戰計劃而實施的特定人工智能技術可能與那些用于計算射擊方案或在被拒絕的淺灘水域規劃路線的技術不同。然而,在作戰層面的接受度將推動戰術上的使用。
在JFMCC層面,人工智能系統網絡將為決策者提供決定性的優勢,將專注于作戰功能的獨立的人工狹義智能(ANI)單位統一起來將實現最顯著的好處。首先,人工智能解決方案比它們的通用人工智能(AGI)同行更適合于軍事問題的解決。其次,戰爭的性質促使有必要在作戰層面上整合人工智能。最后,雖然有許多方法可以整合,但沿著功能線這樣做會帶來最顯著的好處。不僅在技術意義上吸收人工智能,而且描述其在政策、理論和培訓中的使用,將使海軍能夠充分使用它,并在與我們的戰略競爭對手的競爭中獲得優勢。
目前人工智能在海上行動中的最佳應用是將復雜的海上行動問題分解成子問題,由人工智能來解決,并組合成COA建議。解決小問題的人工智能需要更少的訓練數據,有更直接的邏輯,并且可以連鎖起來解決更重要的問題。麻省理工學院人工智能實驗室前主任羅德尼-布魯克斯(Rodney Brooks)認為,創建動態環境的符號表示是困難的或不可能的。然而,特定任務的智能體可以利用足夠的傳感器數據智能地行動,更重要的是,可以連貫地互動。通過將簡單的活動連鎖起來,失敗的風險很低,更復雜的問題就可以得到解決。多個簡單的行動可以在低認知層平行運行,并將其輸出結合起來,為更高層次的復雜活動提供支持。這種結構的優點是允許軍事工程師開發和訓練人工智能,以首先解決可操作的問題。對人工智能開發者來說更具挑戰性的功能可以保留只由人類決定的方法,直到他們產生解決這些問題的專業知識。與其等待一個完整的系統,部分系統將提供一個臨時的邊際優勢。
鑒于人工智能可以通過將問題分解成更小的決策來最好地解決問題,問題仍然是如何劃分這些問題。重述作戰任務的一個模式是將它們分成作戰功能:指揮和控制(C2)、通信、情報、火力、運動和機動、保護和維持。這些作戰功能為開展有效行動提供了基礎。它們為一個行動提供了采用手段實現其目的的方法。因此,與決定如何實施這些功能以實現目標的決策者一起使用人工智能是很自然的。
如同應用于海上作戰戰爭,最低層的決策支持系統將由感知環境的活動組成:探測艦艇、飛機和潛艇;燃料水平;天氣;以及其他客觀的戰斗空間數據。通過將外部輸入限制在特定的、低層次的任務上,該系統將最大限度地減少對抗性例子或旨在消極操縱自動系統的數據的風險。中間層將把下層的輸出與作戰目標和因素結合起來,如時間、空間和力量的限制,以提供解決問題的方法和作戰功能。由于上層的對抗性數據注入的威脅較小,這些系統可以使用深度學習。深度學習是機器學習的一個子集,它不像其他形式那樣需要高度格式化的數據,但計算成本會更高,而且容易受到欺騙。深度學習將增加這一層的人類互動,并暴露出更復雜的關系。最高層將把C2流程應用于其他六個業務功能,以產生業務建議。中間層的每個功能人工智能將向其他功能人工智能和最高C2層提供建議。中間層的人工智能對復雜的數據和相鄰單位及C2功能的建議進行理解。
如果將中間層人工智能納入規劃和指導、收集、處理、分析和傳播的情報周期,將促進收集資產的更好分配。判斷對有限的收集資產的請求以滿足行動和戰術信息需求是JFMCC關注的一個問題。在收集計劃期間,人工智能可以使用已知的對手軌跡、地點、個人和組織來定義和優先考慮指定的利益區域(NAI)。在執行過程中,人工智能可以根據優先級驅動收集路線,就像企業用它來規劃送貨路線以減少勞動力、燃料和維護成本一樣。采集計劃者可以通過增加對手監視點的位置和范圍來減少反偵查的風險。在C2層面,指揮官和情報官員可以利用收集成果來證明更多的JFMCC收集資產和COA的修改。這種方法適用于其他功能。
人工智能可以在部隊部署不斷變化和對手存在不確定的環境中改善維持能力。相互沖突的要求使如何使用有限的后勤資產來滿足作戰人員的需求的決策變得復雜。后勤單位較低的生存能力促使人們決定是將它們帶入被對手防御系統拒絕的區域,還是將戰斗飛船引離目標。人工智能可以利用軍事和民用運輸的可用性、預先部署的庫存和供應商的響應能力來制定船舶和飛機需求的解決方案。企業利用人工智能準確預測需求,并分辨出影響運輸和倉儲的采購模式。維持型人工智能可以使用這個過程的一個變種,來計劃在高級后勤支持站點(ALSS)或前方后勤站點(FLS)的材料堆放。它可以決定如何以及何時使用穿梭船和站立船來運送到攻擊組。機器學習將使用燃料、食品和武器庫存、威脅環、戰備水平和維修時間來訓練維持人工智能。維持型人工智能可以提供比人類單獨完成的更有效的量化解決方案,并將其反饋給其他功能區和C2高層。
C2層將對來自下層的決定進行仲裁,并提供一個統一的建議。就像一個軍事組織的指揮官一樣,它將把其副手AI的建議合并起來。人工智能過程的早期階段使用傳感器數據和其他客觀信息來確定指揮官的方向;決定行動方案需要建立對戰斗空間的理解,這是一種更高層次的欣賞。戰斗空間的可變性和模糊性將使這一層的人工智能元素最難開發。最終,該系統將作為一個可信的智能體,壓縮指揮官負責的信息量。壓縮的信息減輕了時間有限的決策者工作時的疑慮負擔,使她能夠向下屬單位發出更及時的命令。
圖1說明了基于這些原則的系統的擬議架構。以對手預測為例,許多單一用途的ANI將在最低層結合原始傳感器和單位報告數據。它將評估敵方單位的最可能位置。公司分析評論、社交媒體和論壇發帖的情緒,以確定產品的滿意度。同樣地,這個系統將通過公開的言論和秘密的報告來確定對手的意圖。它將評估當前和歷史天氣模式,以評估氣候對敵人行動的影響。這三個輸入和其他信息將被功能情報ANI用來形成對敵方COA的評估。同樣,火力節點將使用敵人的組成、JFC的優先級和預測的彈藥可用性來產生目標指導。中間層節點將橫向傳遞他們的評估,以完善鄰近的建議,如部隊保護水平。獨立的功能建議也將直接反饋給C2層,以創建整體行動方案。
圖1. 海上人工智能系統的擬議架構
首先,利用聯合人工智能資源的優勢,針對海軍的具體問題修改標準組件。擅長開發軍事人工智能系統的工程師的稀缺性將限制新系統的開發。美國防部的人工智能戰略具體規定了建立通用的工具、框架和標準,以便進行分散的開發和實驗。使用這些現成的組件,為人工智能決策網的所有子系統創建低級別的系統和標準接口。將海軍的資源集中于采購和實施用于海事具體決策的中層和高層系統。避免技術上令人著迷但無效的解決方案,并通過將職能領域的專家與設計團隊相結合來保持解決海事問題的目標。
第二,創建并維護可通過機器學習攝入的作戰數據數據庫,以訓練海軍人工智能。實施能夠在海上作戰中心(MOC)讀取和集中匯總基本作戰數據報告的技術和工藝,如燃料狀態、導彈裝載量。開發記錄和定性評分作戰決策結果的方法,如對手態勢的變化、傷亡修復率和公眾對行動的反應。將輸入與作戰決策和結果聯系起來的數據庫將加速開發符合現實世界標準的系統。
第三,將人工智能的使用納入政策和條令。條令應該編纂人工智能可以被整合到戰爭戰役層面決策中的領域。明確地說,關于情報、行動、火力、后勤、規劃和通信的海軍作戰出版物應說明人工智能在決策過程中產生優勢的地方和方式。描述海上聯合行動的聯合出版物應明確說明如何將JFC的要求解析為JFMCC的AI系統。如果國防部和海軍的政策對指揮官因整合人工智能的決策建議而產生的責任量進行了定性,那么他們在使用人工智能時就可以采取經過計算的風險。讓指揮官和作戰人員掌握使用人工智能的戰術、技術和程序將加速其在艦隊中的應用。
認知型雷達,根據IEEE標準雷達定義686[1],是 "在某種意義上顯示智能的雷達系統,根據不斷變化的環境和目標場景調整其操作和處理"。特別是,嵌入認知型雷達的主動和被動傳感器使其能夠感知/學習動態變化的環境,如目標、雜波、射頻干擾和地形圖。為了達到探測、跟蹤和分類等任務的優化性能,認知雷達中的控制器實時適應雷達結構并調整資源分配策略[2, 3, 4]。對于廣泛的應用,已經提出了不同的適應技術和方法,例如,自適應重訪時間調度、波形選擇、天線波束模式和頻譜共享,以推進認知雷達背景下的數學基礎、評估和評價[5, 6, 7, 8, 9, 10]。
雖然認知方法和技術在提高雷達性能方面取得了很大進展,但認知雷達設計和實施的一個關鍵挑戰是它與最終用戶的互動,即如何將人納入決策和控制的圈子。在國家安全和自然災害預報等關鍵情況下,為了提高決策質量和增強態勢感知(SA),將人類的認知優勢和專業知識納入其中是必不可少的。例如,在電子戰(EW)系統中,在設計適當的反措施之前,需要探測到對手的雷達。在這種情況下,戰役的進程和成功取決于對一個小細節的觀察或遺漏,僅靠傳感器的自動決策可能是不夠的,有必要將人納入決策、指揮和控制的循環中。
在許多應用中,人類也充當了傳感器的角色,例如,偵察員監測一個感興趣的現象(PoI)以收集情報。在下一代認知雷達系統中,最好能建立一個框架來捕捉基于人類的信息來源所建議的屬性,這樣,來自物理傳感器和人類的信息都可以被用于推理。然而,與傳統的物理傳感器/機器4的客觀測量不同,人類在表達他們的意見或決定時是主觀的。人類決策的建模和分析需要考慮幾個因素,包括人類的認知偏差、處理不確定性和噪音的機制以及人類的不可預測性,這與僅由機器代理組成的決策過程不同。
已經有研究工作利用信號處理和信息融合的理論來分析和納入決策中的人類特定因素。在[11]中,作者采用了先驗概率的量化來模擬人類在貝葉斯框架下進行分類感知而不是連續觀察的事實,以進行協作決策。在[12,13]中,作者研究了當人類代理人被假定使用隨機閾值進行基于閾值的二元決策時的群體決策性能。考慮到人類受到起點信念的影響,[14]中研究了數據的選擇、排序和呈現對人類決策性能的影響。在人類協作決策范式中,已經開發了不同的方案和融合規則來改善人類人群工作者的不可靠和不確定性[15, 16]。此外,在[17,18]中,作者將前景理論(PT)用于描述人類的認知偏見,如風險規避,并研究了現實環境中的人類決策行為。在[19, 20]中也探討了基于人類和機器的信息源在不同場景下的信息融合。在[19]中,作者表明,人類的認知力量可以利用多媒體數據來更好地解釋數據。一個用戶細化階段與聯合實驗室主任(JDL)融合模型一起被利用,以在決策中納入人類的行為因素和判斷[20]。
未來的戰場將需要人類和機器專業知識的無縫整合,他們同時在同一個環境模型中工作,以理解和解決問題。根據[21],人類在隨機應變和使用靈活程序、行使判斷和歸納推理的能力方面超過了機器。另一方面,機器在快速反應、存儲大量信息、執行常規任務和演繹推理(包括計算能力)方面勝過人類。未來雷達系統中的高級認知尋求建立一種增強的人機共生關系,并將人類的優點與機器的優點融合在一起[22]。在本章中,我們概述了這些挑戰,并重點討論了三個具體問題:i)人類決策與來自物理傳感器的決策的整合,ii)使用行為經濟學概念PT來模擬人類在二元決策中的認知偏差,以及iii)在相關觀測下半自主的二元決策的人機協作。
本章的其余部分組織如下。在第11.1節中,我們介紹了一項工作,說明如何將人類傳感器的存在納入統計信號處理框架中。我們還推導出當人類擁有機器無法獲得的輔助/側面信息時,這種人機一體化系統的漸進性能。我們采用行為經濟學的概念前景理論來模擬人類的認知偏差,并在第11.2節中研究人類在二元假設檢驗框架下的決策行為。第11.3節討論了一種新的人機協作范式來解決二元假設檢驗問題,其中人的知識和機器的觀察的依賴性是用Copula理論來描述的。最后,我們在第11.4節中總結了與這個問題領域相關的當前挑戰和一些研究方向,然后在第11.5節中總結。
目前,人工智能(AI)為改造許多軍事行動領域提供了巨大的機會,包括作戰、指揮與控制(C2)、后勤、安全和維護,以提高其整體作戰效率。空中和導彈防御(AMD)是一個特別復雜的任務領域,人工智能的應用至關重要。空中導彈防御任務指的是保衛國土、保護區、地面基地、地面部隊或艦艇免受敵對的空中或導彈威脅。AMD的威脅包括敵對的飛機、無人駕駛飛行器(UAV)或機載導彈。AMD行動的復雜性源于威脅的嚴重性、威脅的意外性、對形勢認識的不確定性以及事件的快速發展,因為作戰人員必須迅速評估形勢,制定適當的行動方案,并最好地利用他們的戰爭資產來應對。美國國防部(U.S. DOD)正在研究使用AI系統(或AI-enabled AMD[AI-AMD]系統)作為AMD作戰人員的自動決策輔助工具,以大大減少他們的認知負荷(Jones等人,2020),使AMD決策更快、更好。
人工智能的一個關鍵方面已經聚集了大量的研究興趣,那就是信任。信任是有效團隊的一個基本原則。它同時適用于人類和人機團隊。信任使團隊成員能夠很好地合作,是有效團隊表現的基礎(Lee and See 2004)。與人工智能系統的成功合作將需要人類對人工智能系統有一個校準的信任和依賴程度(泰勒等人,2016)。
隨著更先進和更快的空中和導彈威脅彈藥的發展和投入使用,操作人員更需要在AMD行動中迅速作出監測。不及時的決策和反應將導致災難性的后果。因此,人工智能是一個可能的解決方案,通過自動決策輔助工具加快和加強決策過程。這些AMD自動戰斗管理輔助工具可以幫助戰術操作人員應對更快的決策周期、大量的數據以及需要觀察的幾個系統或屏幕(Galdorisi 2019)。然而,為了有效地利用人工智能能力的潛力,需要操作員的高度信任。操作員對系統的信任程度低,可能會導致人工智能-AMD系統利用不足,受到不適當的監控,或者根本不使用(Floyd, Drinkwater, and Aha 2016)。這些問題中的任何一個都可能導致操作者的工作量不必要的增加,或者任務失敗的可能性。
論文對信任的定義、人機交互(HMI)的概念、信任因素以及包括AMD殺傷鏈模型、威脅場景、架構、模型和功能在內的概念模型進行了廣泛的回顧。有了這樣的認識,論文提出了人工智能-AMD系統的信任框架,對人機交互和人工智能-AMD系統信任因素的描述。論文最后提出了在人類操作者和AI-AMD系統之間實現校準信任的策略。
信任框架始于對系統背景的分析。圖1顯示了AI-AMD指揮與控制(C2)系統(包括AI-AMD操作員和決策輔助工具)及其他與之互動的子系統的背景圖,這些子系統有助于操作員和AI-AMD決策輔助工具之間信任的發展。背景圖使我們能夠研究各系統之間的相互作用,以及它們對AI-AMD操作員和決策輔助工具之間信任動態的影響。
圖1. AI-AMD系統框架圖。
這篇論文將信任定義為操作者的態度,即AI-AMD決策輔助工具將有助于實現操作者的目標,即在一個以不確定性和脆弱性為特征的作戰環境中迅速摧毀來襲威脅的任務。這種信任的定義表明,它是對操作者相信或感知AI-AMD決策輔助工具的一種情感評估。為了積極地影響信任,操作者必須親自看到并感受到AI-AMD決策輔助行動的優勢。AI-AMD行動涉及很多不確定因素,以及天氣、電磁干擾和地形等環境因素以及不斷變化的威脅的性質所帶來的脆弱性。操作員將預期AI-AMD決策輔助系統按照 "合同 "執行,以處理這些不確定性和脆弱性。這些合同將是人工智能-AMD決策輔助工具應該執行的感知功能或任務,以及執行這些功能或任務的理想表現。
圖2說明了操作員和AI-AMD決策輔助工具之間的信任框架。y軸代表人類對AI-AMD決策輔助系統的信任程度,x軸代表AI-AMD決策輔助系統的能力。綠色的45°虛線表示最佳的信任水平或校準的信任線,其中的信任與AI-AMD的能力相對應,導致正確的利用(Lee and See 2004)。過度信任由最佳信任水平線以上的區域表示,此時的信任超過了系統能力,導致誤用。低于理想信任水平線的區域表示不信任,這時的信任沒有達到系統能力,導致濫用。假設存在一些默認的信任水平(如黃框所示),目標是制定一個策略,以提高AI-AMD輔助決策能力的信任。在使用該系統時,可能會發生違反信任的情況,從而降低操作員的信任。因此,信任修復行動必須被納入,以保持信任在最佳水平。
圖2. 人類操作員和AI-AMD決策輔助工具之間的信任。
基于功能分配的操作員和AI-AMD決策輔助工具之間的人機交互研究表明,操作員和AI-AMD決策輔助工具應該被設計成在大多數殺戮鏈功能中作為一個 "團隊"運作。這引導論文研究了單獨和集體考慮人類和決策輔助的信任因素。對操作員和人工智能-AMD決策之間的人機交互的研究還顯示,操作員的角色已經從手動控制器變成了監督控制器。因此,一個值得信賴的決策輔助工具是很重要的,因為操作者會期望系統的表現符合預期,以幫助操作者更好地履行他的角色。另外,為了進一步幫助減輕操作者的認知工作量,信息的外部表示、決策輔助工具的建議必須易于閱讀和理解。
關于信任因素,本論文提出了一個 "由外而內 "的框架,如圖3所示。論文首先考慮了與操作環境相關的因素,這些因素描述了AMD操作系統的背景。第二,它研究了與組織環境相關的因素,操作人員和人工智能-AMD系統得到了培訓和發展。第三,論文研究了操作人員和人工智能-AMD決策輔助工具之間的交互,以提出與操作人員、人工智能-AMD、單獨和集體相關的因素。
圖3. 建議的信任因素
圖4顯示了擬議的戰略銜接圖,以實現操作者和AI-AMD輔助決策之間的校準信任。對信任定義、人機界面和信任因素的審查表明,該戰略應關注三個關鍵領域:(1)人類對自動化技術和AI-AMD決策輔助系統的集體和個人感知;(2)增強操作員和AI-AMD決策輔助系統的團隊活力;(3)AI-AMD決策輔助系統的可信度,重點是系統開發。該戰略利用DOTMLPF-P框架提出了三個關鍵原則和五個支持原則。首先,軍事作戰人員需要被告知自動化技術的真正能力和局限性,特別是AI-AMD輔助決策。第二,操作員的培訓要求必須增加,以應對新的工作范圍和不斷變化的威脅。第三,必須在人工智能-AMD決策輔助系統的開發中加入新的要求,以提高系統的可感知的可信度。這三個關鍵原則得到了DOTMLPF-P框架其他方面的支持,如組織、領導、人員、設施和政策。
圖4. 實現操作員和人工智能-AMD決策輔助工具之間校準信任的戰略銜接圖
前沿作戰基地(FOB)防御是一項人力密集型任務,需要占用作戰任務的寶貴資源。雖然能力越來越強的無人駕駛飛行器(UAV)具備執行許多任務的能力,但目前的理論并沒有充分考慮將其納入。特別是,如果操作人員與飛行器的比例為一比一時,并沒有考慮提高無人機的自主性。本論文描述了使用先進機器人系統工程實驗室(ARSENL)蜂群系統開發和測試自主FOB防御能力。開發工作利用了基于任務的蜂群可組合性結構(MASC),以任務為中心、自上而下的方式開發復雜的蜂群行為。這種方法使我們能夠開發出一種基于理論的基地防御戰術,在這種戰術中,固定翼和四旋翼無人機的任意組合能夠自主分配并執行所有必要的FOB防御角色:周邊監視、關鍵區域搜索、接觸調查和威脅響應。該戰術在軟件模擬環境中進行了廣泛的測試,并在現場飛行演習中進行了演示。實驗結果將使用本研究過程中制定的有效性措施和性能措施進行討論。
2019年,美國海軍陸戰隊司令大衛-H-伯杰將軍發布了他的規劃指南,作為塑造未來四年的部隊的一種方式。他在其中指出:"我們今天做得很好,我們明天將需要做得更好,以保持我們的作戰優勢"[1]。這句話摘自海軍陸戰隊司令大衛-H-伯杰將軍的《2019年司令員規劃指南》(CPG),呼吁采取集中行動,以應對海軍陸戰隊在未來戰爭中預計將面臨的不斷變化的挑戰。在為海軍陸戰隊確定未來四年的優先事項和方向的CPG中的其他指導,呼吁建立一個 "適合偵察、監視和提供致命和非致命效果的強大的無人駕駛系統系列"[1]。伯杰將軍進一步呼吁利用新技術來支持遠征前沿基地作戰(EABO)。EABO將需要靈活的系統,既能進行有效的進攻行動,又能進行獨立和可持續的防御行動。簡而言之,實現EABO將需要最大限度地利用每個系統和海軍陸戰隊。
從本質上講,伯杰將軍正在呼吁改變無人駕駛飛行器的使用方式。通過使用大型的合作自主無人飛行器系統,或稱蜂群,將有助于實現這一目標。無人飛行器蜂群提供了在人力需求和后勤負擔增加最少的情況下成倍提高戰場能力的機會。正如伯杰將軍所提到的 "下一個戰場",海軍陸戰隊將必須利用各種技術,最大限度地利用自主性和每個作戰人員在戰場上的影響。
目前的無人系統使用理論是以很少或沒有自主性的系統為中心。另外,目前的系統依賴于單個飛行器的遠程駕駛;也就是說,每輛飛行器有一個操作員。部隊中缺乏自主系統,這在監視和直接行動的作戰能力方面造成了差距。此外,側重于一對一操作員-飛行器管理的無人系統理論要求操作員的數量與車輛的數量成線性比例。這對于 "下一個戰場 "來說是不夠的。相反,海軍陸戰隊將需要能夠讓操作員擺脫束縛或提高他們同時控制多個飛行器的能力系統[2]。
考慮到這些目標,美國海軍研究生院(NPS)的先進機器人系統工程實驗室(ARSENL)已經開發并演示了一個用于控制大型、自主、多飛行器的系統,該系統利用了分布式計算的優勢,并將駕駛的認知要求降到最低。ARSENL在現場實驗中證明了其系統的功效,在該實驗中,50個自主無人駕駛飛行器(UAV)被成功發射,同時由一個操作員控制,并安全回收[3]。
這項研究的主要目標是證明使用無人機蜂群來支持前沿作戰基地(FOB)的防御。特別是,這需要自主生成、分配和執行有效的、符合理論的基地防御所需的子任務。這部分研究的重點是開發基于狀態的監視、調查和威脅響應任務的描述;實施支持多飛行器任務分配的決策機制;以及任務執行期間的多飛行器控制。
輔助研究目標包括展示基于任務的蜂群可組合性結構(MASC)過程,以自上而下、以任務為中心的方式開發復雜的蜂群行為,探索自主蜂群控制和決策的分布式方法,以及實施一般的蜂群算法,并證明了對廣泛的潛在蜂群戰術有用。總的來說,這些目標是主要目標的一部分,是實現主要目標的手段。
基地防御戰術的制定始于對現有基地防御理論的審查。這一審查是確定該行為所要完成的基本任務和子任務的基礎。然后,我們審查了目前海軍陸戰隊使用無人機的理論,以確定這些系統在基地防御任務中的使用情況。
在確定了任務要求的特征后,我們為基地防御的整體任務制定了一個高層次的狀態圖。子任務級別的狀態圖等同于MASC層次結構中的角色。
ARSENL代碼庫中現有的算法和游戲以及在研究過程中開發的新算法和游戲被用來在ARSENL系統中實現子任務級的狀態圖。最后,根據高層次的狀態圖將這些游戲組合起來,完成基地防御戰術的實施。
在游戲和戰術開發之后,設計了基于理論的有效性措施(MOE)和性能措施(MOPs)。通過在循環軟件(SITL)模擬環境中的廣泛實驗,這些措施被用來評估基地防御戰術。在加利福尼亞州羅伯茨營進行的實戰飛行實驗中,也展示了該戰術和游戲。
最終,本研究成功地實現了其主要目標,并展示了一種包含周邊監視、關鍵區域搜索、接觸調查和威脅響應的基地防御戰術。此外,開發工作在很大程度上依賴于MASC層次結構,以此來制定任務要求,并將這些要求分解成可在ARSENL蜂群系統上實施的可管理任務。這一戰術在實戰飛行和模擬環境中進行了測試,并使用以任務為中心的MOP和MOE進行了評估。最后的結果是令人滿意的,在本研究過程中開發的戰術被評估為有效的概念證明。
本論文共分六章。第1章提供了這項研究的動機,描述了這個概念驗證所要彌補的能力差距,并提供了ARSENL的簡短背景和所追求的研究目標。
第2章討論了海軍陸戰隊和聯合出版物中描述的當前海軍陸戰隊后方作戰的理論。還概述了目前海軍陸戰隊內無人機的使用情況,并描述了目前各種系統所能達到的自主性水平。
第3章概述了以前自主系統基于行為的架構工作,ARSENL多車輛無人駕駛航空系統(UAS)和MASC層次結構。
第4章對基地防御戰術的整體設計以及高層戰術所依賴的游戲進行了基于狀態的描述。本章還詳細介紹了用于創建、測試和評估這一概念驗證的方法。在此過程中,重點是對每一戰術和戰術所針對的MOP和MOE進行評估。
第5章詳細介紹了所進行的實戰飛行和模擬實驗,并討論了與相關MOPs和MOEs有關的測試結果。
最后,第6章介紹了這個概念驗證的結論。本章還提供了與基地防御戰術本身以及更廣泛的自主蜂群能力和控制有關的未來工作建議。
態勢感知是作戰人員的必需能力。一種常見的監視方法是利用傳感器。電子光學/紅外(EOIR)傳感器同時使用可見光和紅外傳感器,使其能夠在光照和黑暗(日/夜)情況下使用。這些系統經常被用來探測無人駕駛飛機系統(UAS)。識別天空中的這些物體需要監測該系統的人員開展大量工作。本報告的目的是研究在紅外數據上使用卷積神經網絡來識別天空中的無人機系統圖像的可行性。本項目使用的數據是由作戰能力發展司令部軍備中心的精確瞄準和集成小組提供的。
該報告考慮了來自紅外傳感器的圖像數據。這些圖像被送入一個前饋卷積神經網絡,該網絡將圖像分類為有無無人機系統。卷積模型被證明是處理這些數據的第一次嘗試。本報告提供了一個未來的方向,以便在未來進行擴展。建議包括微調這個模型,以及在這個數據集上使用其他機器學習方法,如目標檢測和 YOLO算法。