本文研究了以數據驅動的方式創建軍事決策行為模型的可能性。由于實際作戰行動的數據不多,而且在軍事背景下不容易創建數據,因此大多數方法都使用模擬器來學習行為。然而,模擬器并不總是可用的,或者很難創建。本研究的重點是通過在實地演習中收集的數據創建行為模型。由于數據通常是有限的、有噪音的和錯誤的,這使得創建真實的模型具有挑戰性。除了使用基于數據手工制作模型的傳統方法外,我們還調查了新興的模仿學習研究領域。其技術之一,獎勵工程,被應用于學習城市戰爭行動中士兵的行為。我們學習了基本的、但現實的士兵行為,這為將來建立更復雜的模型打下了基礎。
【關鍵詞】行為, 模型, 模仿學習, 仿真, 軍事數據
在教育、培訓、分析和決策支持中越來越多地使用模擬仿真,這導致了對軍事決策行為模型的更高要求。除了需要準確模擬物理行為,如坦克運動或子彈/導彈軌跡外,還需要模擬實體或車輛的真實戰術行為。這些虛擬參與者的決策過程被記錄在一個行為模型中。行為模型最早是在[1]中提出的,我們將它們定義為類人、人控或自主操作的現實世界系統行為的操作、概念、心理或戰術模型。
這種現實世界系統的例子可以是由指揮官指揮的坦克;由船長指揮的船舶;由飛行員駕駛的戰斗機;由地面操作員控制的無人駕駛飛行器(UAV);或人類行為者本身,例如,一個步兵。此外,我們不限制系統的大小。例如,我們也考慮將一個坦克營、一個艦隊或一個無人機群作為行為模型的合適對象。在軍事模擬中,當機器決定一個單位或部隊的行動時,這些系統被稱為計算機生成部隊(CGFs)。
新行為模型的開發和應用是一個復雜的過程。由于缺乏互操作性的方法和標準,導致各種模型四分五裂,大多只在單一的仿真系統中使用。早期的工作[2]調查了在開發的哪個階段可以實現行為模型的有效重用,以及需要哪些支持過程、技術和標準。一個結論是,人們對這一研究領域很感興趣,工具和標準也在不斷發展,AI(人工智能)及其創建性能良好模型的能力將在各種軍事應用中發揮巨大作用。另一個結論是,目前對于荷蘭國防部來說,在不同環境中重復使用行為模型的價值不足。與其說是重復使用模型,不如說是希望建立更加高效和有效的模型。實現這一目標的方法之一,是使用人工智能研究領域的最先進技術[3]。
在機器學習的應用中,正確和不正確的行為或決定的例子被提交給一個學習系統,希望該系統能夠歸納出這些例子。這被稱為監督學習[4],它的成功取決于許多因素(例如,算法、數據的大小和類型,以及實施技術)。在軍事背景下使用實際數據的一個問題是,數據可能被分類或根本無法獲得,因為軍事沖突的數量很少。
第二種常見的方法是在模擬器中部署行為模型,并使用生成的數據來改進模型的參數;而最常見的方法是強化學習[5]。強化學習的一個困難是,獎勵函數必須精心設計,模擬器中的任何錯誤都可能被利用,導致學習不希望的行為[6]。這種錯誤可能發生在人類從未遇到的不可預見的情況下,但算法由于在數百萬次的模擬中對搜索空間的探索而發生。此外,必須首先開發一個準確的模擬器,因為模擬中的錯誤可能被利用或導致學習不現實的行為[7]。在軍事環境中,強化學習方法是困難的,但也是有希望的[8]。
對于監督學習來說,需要大量高質量的數據,對于強化學習來說,需要高質量的獎勵函數和模擬器,而很多用例都存在兩者都沒有的情況。如果沒有大量的高質量數據,或者沒有能夠創建這種數據的模擬器,那么人工智能領域的許多技術就不適用。在這種情況下,并不清楚哪種方法能以最少的努力獲得最好的結果。因此,本研究旨在創建行為模型,以有效的方式顯示真實的行為,同時擁有很少的數據和沒有模擬器可用。為此,我們采用了模仿學習[9]研究領域的方法。模仿學習的重點是在師生環境中用專家的行為明確地訓練模型。如果模型能夠模仿老師的行為,它就正確地學會了行為。我們在研究中應用了這些技術,為在城市戰爭行動演習中行動的士兵和Boxer車輛創建行為模型。收集到的數據非常有限,而且沒有辦法創造更多的數據或能夠在模擬器中測試模型。
通過這項研究,我們的目標是行為模型,它可以促進(1)創建新的訓練場景,其中計算機生成部隊的行為被用于創建更好的場景[10];(2)通過將受訓者產生的數據與事先用我們的方法學到的正確行為模型進行比較,支持行動后的審查;(3)將基本戰斗技術的模型行為與士兵在戰場上的行為進行比較。如果士兵的行為看起來更成功,這可以促使調整基本作戰技術的想法;(4)為合成包裝生成逼真的模擬實體行為[11,12];(5)通過使用學到的行為為決策者提供建議,實現對指揮官提供基于模擬的決策支持。
第二節研究了創建行為模型所需的數據要求。第三節介紹了本研究的用例。第四節介紹了手工制作模型的傳統方法。我們在第五節中介紹了模仿學習這一新興領域的背景信息,并在第六節中介紹了其在本用例中的應用。最后,第七節提供了結論性意見。
為了創建有效的行為模型,我們必須了解在什么情況下,用什么情報和什么命令來記錄行為。行為數據和模型必須與決策過程相匹配。因此,在開始檢索數據之前,我們首先要了解軍事決策過程。
在軍事環境中做出任何決策之前,必須先了解情況。通過分析所有可用的信息,就能建立起態勢感知(SA)[13, 14]。在軍事術語中,SA是指揮官對戰場的理解[15]。SA可以分為三個層次[16]。第一個層次是對當前局勢要素的感知,例如,了解自己和敵人部隊的位置和狀態。第二是對局勢的理解。通過了解局勢中的物理元素和人員的動態,可以對局勢進行解釋。例如,一架敵機是在攻擊飛行路線上還是在執行偵察任務。第三個層次是對局勢的未來狀態的預測,例如,如果不攔截,敵機將向航母運送危險的有效載荷。只有達到高水平的SA,才能做出有效的決策[17]。有了足夠的經驗,可以在一瞬間做出決定,因為情況被即時識別。這些被稱為識別激勵決策[18],本質上是數據驅動的(經驗)心理行為模型。提高指揮官的安全意識的技術,有助于更好地做出決策[19]。
當情況變得復雜時,為了不忽略重要的信息,要遵循系統的方法。這種過程的一個例子是軍事決策過程(MDMP)[20]。這是一個漫長的過程,不適合在戰場上幾分鐘或幾秒鐘內做出決策。另一個例子是北約綜合行動指令(NATO COPD)[21]。在所有這些情況下,都要詳細研究環境信息以獲得SA,只有在獲得足夠的SA后才會做出決策。我們將行為區分為四個層次:在(1)戰略層面上,決策是基于(多)國家目標做出的。在(2)戰役層面上,決策是為了開展大型行動而作出的。
根據當前的行為水平,所考慮的信息量也不同,決策的速度也不同。盡管行為模型可用于從瞬間決策到大型規劃環節的任何級別的行為,但我們在本文中將范圍限制在戰術行為上。
就其本質而言,行為模型在做決定時遵循與人類相同的步驟。一個突出的框架是OODA循環[22]。這個循環的四個階段是觀察、定位、決定和行動。觀察和定向階段的唯一目的是獲得安全保障。這個軍事模型已經成功地應用于各種自主代理[23],并被應用于大量的情況[24, 25, 26]。
第二個框架被稱為BDI:信念、欲望和意圖[27, 28]。基本的BDI范式被廣泛用于在基于代理的方法中實現類似人類的智能,但往往達不到真正的 "智能代理",因為代理缺乏 "協調和學習"等理想特征[25]。BDI在[29]中得到了擴展,現在被廣泛用于實踐中。BDI可以用于OODA循環步驟中,并且通常被應用于定向和決策步驟中[30]。
在這兩種情況下,模型的創建者決定世界的哪些相關因素被包括在所謂的世界模型中,以及這些因素如何被允許相互作用。如果互動是嚴格定義的,那么就會使用一個更經典的方法,如規則引擎或決策樹。如果不能創建足夠明確的模型,那么機器可以接受任務,根據數據學習各因素的相關性(例如,用神經網絡)。在所有情況下,如果一個因素被遺漏了,要么是模型設計者沒有包括它的定義,要么是排除了相關的數據,那么模型就不可能考慮到它。因此,模型的性能與創造者對問題的洞察力息息相關。
在仔細設計、調整或學習模型之后,模型的使用就很簡單了。設計的因素輸入到模型中,并通過預先設計或學習的步驟進行轉換,以產生所需的輸出。由于設計、調整和學習的方法和組合的數量是巨大的,因此出現了各種研究學科,專注于高效創建模型的研究領域。許多這些研究領域需要數據來創建行為模型。
當談到軍事數據時,首先想到的是分類和分享數據的限制[31]。由于信息的分類級別通常是受限制的,例如國家或北約的級別,可以獲得的數據量是有限的。這意味著,任何研究都取決于是否有適當的許可,以及是否在數據供應界(通常是國防部)內有適當的聯系。在獲得接收數據的許可之前,人們必須知道并確定需要什么樣的數據。
創建行為模型的最佳數據來自于實際的戰斗行動。然而,從實際作戰行動中記錄的數據并不多,而且記錄的數據往往不能用于創建行為模型。為研究目的生成數據是不可行的,因為這需要與敵對勢力交戰。使用歷史數據也是有問題的,因為軍事技術和理論變化很快,所需背景的數據并不存在。
一個合理的方法是使用在訓練和演習中收集的數據。這樣的訓練可以是(1)在模擬環境中執行,使用建設性的模擬,如VR部隊,它可以模擬許多規模的部隊[32],或者(2)在現場與實際士兵一起執行。使用實際數據的承諾是,可以創建行為模型,而不需要創建(復雜的)模擬器來促進訓練。在這項研究中,我們希望能實現這一承諾,盡管使用原始數據會帶來各種問題,如噪音和缺失的背景。如第三節所述,我們選擇了移動作戰訓練中心的一次演習作為使用案例。
移動作戰訓練中心(MCTC)[33]于2003年由荷蘭國防部引進,使士兵能夠在真實的環境中練習作戰,但不使用彈藥。激光器和傳感器被用來模擬發射武器。該系統跟蹤士兵和車輛的位置、使用的彈藥和健康狀況。各種武器(如步槍、重機槍、間接射擊)、車輛(如Fennek、Boxer)和地形(如越野、城市)都可以納入演習。系統產生的所有數據都被記錄下來,以便在行動后的審查中使用。圖1顯示了一名使用MCTC訓練的士兵。注意頭盔上的激光傳感器在士兵被擊中時進行記錄,而槍上的激光則用于射擊對方的部隊。
圖1:一名士兵在MCTC中訓練[35]
我們選擇了一個在荷蘭訓練村Marnehuizen進行的演習,該村完全是為了訓練城市地形上的軍事行動而建造的[34]。圖2顯示了該村的概況。在選定的演習中,藍方部隊從東北部的橋上進入村莊,任務是清除村莊中的敵軍。一場挨家挨戶的戰斗持續了兩天,直到村子西側的最后一棟房子被宣布沒有敵人。
圖2:荷蘭Marnehuizen的城市環境中軍事行動訓練場的地形圖。(右圖)解析過的地形圖,半自動地從左圖中得出[34]。
記錄的MCTC數據包含士兵和車輛的定期位置。此外,數據中還包括射擊事件、命中事件、殺傷事件和車輛關聯(當士兵進入或離開車輛時)。這些數據可以讓訓練員對戰場的當前狀態有一個大致的了解。數據的一致性在幾個方面有所欠缺。士兵的位置每15秒才提供一次,而且是在網格上的一個單元中(單元大小大約為1米×1米)。士兵的方向沒有被報告。有時士兵會同時移動幾個網格單元,例如車輛快速行駛時。也并不總是清楚一個士兵是在建筑物內還是在建筑物外,因為建筑物的墻可能穿過這樣一個網格單元的中心。其他的局限性包括,并不總是清楚士兵在向什么地方開火,而且(未)登上車輛的不確定性很大。這些局限性對于獲得數據所針對的行動狀態的粗略概述來說不是問題,但對于訓練模型來說確實是一個額外的障礙。
提高軍事行為模型真實性的一個直接方法是手動創建模型的結構,并根據收集的數據調整其參數。通過這種方式,專家保持對模型所能學習的內容控制,并且參數的調整應該很容易執行。創建的模型可以被看作是一種將數據與專家知識相結合的方法。該模型最常反映的是當前學說中明確定義的戰術或行為,如邊界超視距[36, 37]。然而,在這樣的方法中,模型永遠不會比它的創造者更聰明,因為在人造的結構中不存在創造力的空間。當更多的自由被賦予算法時,可以觀察到更多的創造力,甚至可以超過人類的表現[38, 39]。然而,手工制作的模型確實有一個優勢,那就是對軍事專家來說非常容易理解和解釋,因為該模型的結構與專家的決策過程非常相似。例如,這樣的模型可以通過比較從數據中產生的模型和正確行為的模型來用于行動后的審查,從而幫助只有有限時間分析訓練中所有數據的訓練教官向受訓者介紹情況。模型參數的巨大差異是學習點的指標。
在這一節中,我們想說明如何用Marnehuizen軍事演習的數據來創建和調整手工制作的行為模型。確定的用例是一輛Boxer車的行為,它為進行挨家挨戶作戰的士兵提供火力支援。該車被召喚到建筑物中,提供壓制性火力,并撤退,以便在很長一段時間內不容易受到反裝甲彈藥的影響。這種行為的示意圖見圖3。
圖3:Boxer車提供的火力支援示意圖。(1) 左上角:Boxer手的初始位置用紅色表示,一個步兵小組用藍色表示。(2) 右上角:Boxer車輛接近右下角的建筑物并提供火力壓制。(3) 左下角:步兵接近建筑物。(4) 右下角:Boxer的車輛撤退。
圖3中顯示的行為必須被抽象成一個模型。在這項研究中,我們純粹考慮時間方面。其他方面,如Boxer和步兵之間的相對位置,或Boxer和建筑物之間的相對位置,則留待今后的工作。我們對五個步驟進行了區分:
1.Boxer進入射擊位置所需的時間。
2.在步兵開始移動之前,Boxer提供壓制火力的時間。
3.步兵移動到建筑物所需的時間。
4.步兵到達建筑物和Boxer出發之間的時間間隔。
5.清理建筑物并從步驟1重新開始所需的時間。
在這項研究中,我們重點關注步驟2和3。為了確定這些參數,必須知道Boxer和步兵何時到達建筑物。其他參數可以用下面描述的類似方法得出。在練習中,如圖3所示,要接近幾座建筑物,可以對這一程序的每一次迭代進行分析。根據Boxer車輛和步兵小組的位置,對建筑物的位置以及這種迭代的開始和結束時間進行注釋,是手工完成的,這已經是一項具有挑戰性的任務。由于有多輛車,第一個問題是:哪輛Boxer目前正在提供壓制火力?這輛Boxer是否真的在向選定的建筑物開火?射擊事件是數據集的一部分,但是當射擊沒有與命中事件相聯系時,就不知道射擊的方向是什么。特別是在壓制火力的情況下,大多數的射擊都沒有擊中任何可以記錄射擊方向的傳感器。這就使得人們猜測Boxer是在對建筑物進行壓制射擊,還是在對其他東西進行射擊。另外,步兵群的移動也不是微不足道的。從一個建筑到另一個建筑的小組并沒有被定義為戰斗順序(Orbat)中的小組:他們是在現場從排(Orbat中定義的)的可用士兵中挑選出來的,并在每次迭代中進行改變。為了能夠衡量任何必須學習(一組)士兵和輔助車輛行為的算法的有效性,數據集通過選擇提供火力支援的Boxer車輛和步兵清理建筑物的時間段進行了人工注釋。
從算法的角度來看,我們把Boxer到達現場提供火力支援的時刻定義為車輛離建筑物最近的時間段。圖4顯示了Boxer車輛的距離如何隨時間變化的例子。演習開始時的大峰值是因為Boxer在沒有積極參與的情況下停在一個大的距離上。
圖4:隨著時間的推移(X軸),Boxer(Y軸,以英里為單位)與目標建筑的距離。
Boxer車輛到建筑物的最小距離被選為火力支援的開始。這個衡量標準可能是有問題的,因為在建筑物被清理后駛過可能會進一步減少距離,但這是一個直接的計算方法。圖5顯示了計算出的事件和人工注釋的事件之間的絕對差異,以分鐘為單位。在最壞的情況下,該算法的錯誤超過600分鐘。由于演習需要兩天時間,而且晚上沒有運動,在錯誤的一天選擇一個時刻就會產生很大的誤差。可以得出結論,這種檢測Boxer何時提供火力支援的方法并不十分準確。
圖5:通過選擇 Boxer 到建筑物的最近距離,以分鐘為單位測量與手動注釋事件的差異。每棟樓都是單獨的一列,各列已按誤差排序(即第1列的建筑物誤差最大,第25列的樓房是誤差最小的建筑物)
對于檢測步兵何時在清理建筑物,可以采取稍微不同的方法。由于在演習過程中,清理建筑物的士兵小組會被定期洗牌,我們必須在數據中找到哪些(子)士兵小組實際上正在清理哪座建筑物。為此,我們把清場的時刻定義為X個士兵在距離建筑物Y米范圍內的時刻,而X和Y的參數應該被仔細選擇。請注意,藍軍的任何X名士兵,無論他們在戰斗順序中的分配如何,都足以觸發這一條件。對于每個建筑,不同的士兵可以觸發該條件。參數X和Y可以通過使用提供的數據來選擇,如表1所示。通過選擇5名士兵在建筑物15米半徑范圍內的時間戳,可以獲得最佳效果。圖6顯示了每個建筑物在這種設置下獲得的誤差。
表1 在不同的士兵人數和距離參數下,檢測到士兵清理建筑物的時間與人工標注的時間戳的平均差異。(x)表示在該設置下,有x次沒有檢測到建筑物的清場,因為在演習中沒有出現所需數量的士兵足夠接近建筑物的情況。這個數字代表了演習中26座建筑物的平均誤差。
圖6:與手動注釋事件的差異,以分鐘為單位,選擇 5 名士兵,建筑半徑為 15 米。每棟樓都是一個單獨的列,并且列已經按錯誤排序(即第 1 列中的建筑物錯誤最高,第 25 列的建筑物是錯誤最低的)
本節表明,用軍事數據調整專家模型是可能的,但并不容易。主要的挑戰是,在記錄數據的行為層面和我們試圖建立模型的層面之間存在著不匹配(見第二節A)。數據是在技術層面上記錄的(例如,在不知道射擊方向的情況下開槍),而我們試圖模擬的決策是在戰術層面上(例如,清除建筑物)。如果數據能在戰術層面上創建(例如,清除建筑物的時間戳),以及更精確和一致,專家模型就能更容易地創建。在數據采集步驟中,用戰術信息自動充實技術層面的數據,這本身就是一個具有挑戰性的課題。我們現在已經創建了兩個模型,為Boxer的火力支援理論做出了貢獻(見圖3)。為了完成Boxer的理論,還需要幾個模型,但由于很難從軍事數據中創建專家模型,我們決定研究一種完全不同的方法:模仿學習。
模仿學習技術試圖模仿人類在特定任務中的行為[9, 40]。這些技術屬于更廣泛的觀察性學習范疇。在一般的觀察性學習中,原始行為不一定是由愿意或知道的參與者創造的[41]。模仿學習可以被看作是觀察學習的一個特例,學習的目的是在相同的情況下再現與原行為完全相同的動作,以及展現以前未見過情況的逼真行為。模仿學習與示范學習密切相關,在示范學習中,人有目的地示范如何執行任務,以使代理執行同樣的任務[42, 43]。從示范中學習這一術語經常被用于機器人技術[44, 45, 46, 47]。
除了在機器人領域的廣泛應用外,模仿學習也被應用于模擬器和游戲。玩家的行為可以通過這種方式被輕易地記錄下來,模擬器或游戲可以被用于訓練目的[48, 49, 50, 51]。一些應用側重于模仿玩家的確切行為,以便將學到的行為用于其他目的。例如,在[52]中,玩家在賽道上的行為被學習,這樣新的賽道就可以使用模型進行測試,而不是由人類游戲測試員進行測試。其他工作的重點是利用人類的例子來創造超人類的表現[53, 54, 55]。
模仿學習大致可以歸為三類。(1) 在最基本的形式中,人們有一個標記的狀態集。這些標簽是人類在給定狀態下選擇的行動。現在,這個問題可以被當作一個有監督的學習任務來處理,類似于分類任務。這種方法被稱為行為克隆[47]。行為克隆不需要訪問一個模擬器。(2) 當一個人確實有機會接觸到模擬器,因此也有機會接觸到狀態轉換內核時,我們說的是直接策略學習[50]。在這個類別中,我們知道行為人在每個狀態下的可用行動是什么,并且可以學習一個過渡策略。過渡策略在所有可用的行動中選擇最理想的行動。(3) 當人們對學習人類在評估未來狀態時使用的狀態屬性值權重感興趣時,我們說的是反強化學習[56]。這些方法通常使用過渡核來觀察可能的未來狀態,以便創建一個類似于人類演示者偏好狀態的可解釋評價函數。
手工制作的模型和模仿學習的主要區別在于算法在正確再現行為方面的自由度。在提供火力支援的Boxer的手工模型中,我們選擇距離是決定當前提供火力支援的最有辨識度的因素。唯一需要調整的參數是距離閾值。在模仿學習的環境中,算法被提供了所有的狀態信息,并被給予自由來決定最相關的特征是什么。這種方法在很難手動創建合適的模型領域中特別成功[57]。
模仿學習在軍事領域也有一些應用[58, 59]。例如在[60]中,模仿學習被應用于學習計算機生成部隊的決策策略。所學到的行為隨后可以在模擬器中用于訓練士兵[39]。
前面提到的研究有一個共同點,就是使用人在環模擬器來收集人類案例。它確切地知道當前的狀態是什么,可能的行動是什么,以及采取了行動后的下一個狀態會是什么。這使得行為模型的創建成為可能。然而,在MCTC數據的情況下,只有狀態信息是可用的,沒有關于當前可用行動的知識,也沒有關于士兵的信息位置是什么。例如,只知道士兵的位置,而不知道士兵所面對的方向或士兵正在考慮的潛在行動。這個問題在文獻中被定義為從觀察中模仿(Ifo)[61]。Ifo可以進一步細分為基于模型和無模型。在基于模型的情況下,要么必須學習從狀態到行動的轉換,要么必須學習從狀態-行動對到下一個狀態的轉換。MCTC的用例屬于無模型的范疇。在這個類別中,我們可以進一步區分為:(1)使用模擬器收集數據并將數據與專家示范進行比較的對抗性方法,以及(2)獎勵工程[62],用于學習狀態獎勵函數。典型的例子是通過觀看一個人執行所需任務的視頻圖像來學習一個任務[63, 64]。
由于MCTC沒有可執行的模擬器,對于MCTC的用例來說,只有獎勵工程是一個可行的選擇。我們開發了一個系統,當給定當前的參與狀態時,能夠預測未來一定秒數的狀態。這與[65]密切相關,后者在強化學習環境中使用預測狀態和實際狀態之間的差異作為獎勵函數。主要的區別是,由于沒有模擬器,所以不能用MCTC的數據進行強化學習。
我們必須定義 "狀態"在MCTC方面的含義。收集到的數據包擁有完整的數據,包括所有士兵和車輛、藍色和紅色部隊的數據。如果把整個交戰過程看作是狀態(即所有玩家和環境中一切事物的狀態),那么就有可能出現天文數字般的許多下一個狀態,例如每個士兵或車輛可以向任何方向移動。而且,士兵也不是用所有的全局信息來決定自己的行動,而是用自己的局部信息。因此,我們將狀態定義簡化為士兵的局部環境,并試圖預測士兵的下一個位置。盡管士兵的狀態還有很多,如射擊狀態、健康狀態、當前姿勢,但我們目前只關注預測下一個位置,以便評估獎勵工程的適用性和MCTC提供的數據的適用性。
周圍的狀態特征被抽象為一個網格,每個網格單元和特征的組合都是決策的輸入。做出決策的士兵位于網格的中心位置。真正的士兵有可能考慮到網格外的信息(例如,當能見度好時,或通過無線電接收信息時),但我們只考慮到屬于網格單元內的信息。也有可能目前考慮了太多的信息,因為包括了不在視線范圍內的信息(例如,當有建筑物擋住時)。可以增加士兵可能考慮的各種特征:河流的位置、一天中的時間、當前的任務、剩余的彈藥、當前的健康狀況、過去采取的行動等等。這與士兵的實際推理方式越接近,預計學習結果就越準確。
在我們的環境中,我們使用一個8x8的網格,每個網格的實際大小為83米乘83米,如圖7所示。我們考慮到友軍和敵軍士兵的鄰近情況。在圖7的狀態中,士兵西北面的單元格中有1名友軍士兵,而其他單元格都有0名友軍士兵,西南面有一名敵軍士兵。位于網格外的士兵沒有被考慮在內。我們還考慮到過去采取了什么行動(即過去三個episode的位置)。這個輸入網格是重復的,并為三個歷史episode中的每一個填補。我們選擇以15秒為一個episode的步驟,因為這符合MCTC收集數據的速度。任何更短的時間都是沒有用的,因為在各集之間沒有新的位置被告知。
作為監督學習的目標,如圖8所示,使用3乘3的網格,單元的寬度和高度為2米。單元的大小與數據記錄的分辨率一致。網格在單元移動到的位置上有一個1,其他地方有0。在單元的下一個已知位置在網格之外的情況下,將選擇最近的網格位置作為目標。
圖7:用于決策的局部特征的輸入網格。每個單元是83x83米,我們計算每個單元中友軍和敵軍的數量。最后三個episode的輸入網格構成了神經網絡的輸入。
圖8:決策的輸出。一個3x3的運動位置的網格,每個單元是2x2米。箭頭表示根據MCTC的數據,15秒后士兵的位置在左下角的網格單元,這個單元被用作情況的監督標簽。
我們訓練一個具有3個隱藏層的全連接神經網絡,每層有100個隱藏神經元。我們使用整流的線性單元激活函數和平均平方誤差作為損失函數。一個有趣的討論是如何評估創建的神經網絡的性能。雖然預測位置的小差異看起來并不壞,但一系列的小差異會在以后累積成一個大的差異。同時,一個決定可以將士兵帶入一個不同的環境(例如,通過左邊或右邊的建筑物)。這個決定點之后的行動可能會有很大的不同(例如,向左走時要找掩護,而向右走時要成功清除建筑物)。因此,我們無法評估士兵行為的真實性,除非準確的位置和狀態已經在原始數據中出現。
因此,我們以兩種方式來衡量學習行為的真實性。(1) 基于原始數據,使用測試集上的精度和召回率,這是定量的衡量標準。(2) 我們重新播放軍事演習,其中一個或幾個單位由所學模型控制,并判斷其行為。所有其他單位都使用原始數據進行放置和移動。這提供了對所學行為的洞察力,這是一種定性的衡量標準。
表2顯示了監督學習方法的衡量標準:準確度、精確度、召回率和f1-score。請記住,有9個輸出單元,隨機猜對的概率是0.11,在這種情況下,所有四個衡量標準的值預計都在0.11左右,用于隨機猜測。訓練集是平衡的,所以每個輸出單元都有同等數量的例子。表2顯示,準確度比隨機猜測高,但離穩定地預測下一個狀態仍有距離。
表2:預測士兵下一個狀態的量化
為了分析所學模型的行為,我們在演習中放置了一個由該模型控制的單一士兵。顯示了由模型創建的士兵的運動路徑與原始士兵的運動路徑的比較。這里我們看到,神經網絡的移動方式與原始士兵的移動方式大致相同。這個例子也突出了處理這些數據的難度。原始士兵的位置(綠色)有時會出現大的跳躍(例如,東部的第一個數據點附近沒有鄰居)。
圖9:模型的移動和實際的移動比較。突出顯示的藍色位置是由神經網絡引導的士兵。高亮的綠色位置是原始士兵的實際位置。兩者的起點都是在城鎮的東邊,并且都逐漸向西移動。
通過分析這些痕跡中的幾個,我們可以得出結論,該模型學到了兩個與實際士兵行為相似的行為特征。(1) 靠近友軍士兵是有益的。士兵們經常作為一個群體移動,模型通常選擇向友軍單位移動。(2) 當歷史上的移動是朝著一個方向的時候,下一次移動也是朝著這個方向的概率很高。由于士兵有一定的任務,即清除建筑物,所以士兵一直向目標方向移動,直到到達目標為止,這是合理的。盡管這些特征是有道理的,但它們也在某些情況下產生了不現實的行為。(1) 當多個士兵被模型控制時,他們往往會相互粘在一起,停止移動。人造的士兵并不想與對方拉開距離。(2)當一個模型控制的士兵進入一個沒有朋友或敵人的領地時,它傾向于一直朝同一方向行走,直到退出戰場。由于預測是由最近的歷史移動主導的,而所有其他的輸入都是0,所以模型決定繼續朝同一方向移動。造成這種情況的原因之一是,當前的任務不是輸入特征的一部分。
我們認為,這一結果表明,在自動創建一個基于獎勵工程方法的士兵決策過程模型方面邁出了第一步。雖然目前只學到了基本的行為,但我們預見到,當更多類型的輸入,如地形特征和命令,被納入學習過程中時,會出現更復雜的模式。
本文研究了以數據驅動的方式,利用軍事決策創建單位行為模型的可能性。我們表明,用軍事數據調整由主題專家創建的模型參數是可能的。但對于數據而言即使是手動注釋的,也不能直接使用。由于數據的收集是為了其他目標,行為背景是不同的,這阻礙有效使用數據達成我們的目的。我們調查了模仿學習這一新興的研究領域,并將其應用于學習預測城市建筑清理工作中的士兵行動這一用例。這種技術不僅可以在相同的情況下再現真實的士兵行為,而且還可以對行為進行概括,以獲得以前未見過情況下的真實行為。雖然該研究領域有許多子領域,但目前只有獎勵工程似乎是適用的,在既沒有模擬器,也沒有可能性在一個狀態下檢索一組動作來學習動作策略的情況下。我們通過嘗試根據本地狀態信息來預測士兵的下一個狀態來證明獎勵工程的方法。神經網絡學習了兩種基本的士兵行為特征,在某些情況下創造了現實行為,而在其他情況下則表現出不合邏輯的行為。我們認為,不符合邏輯的行為仍然可以通過額外的特征輸入進行改進。
我們的總體結論是,模仿學習對于創建軍事決策的行為模型似乎很有希望。如果成功的話,以這種方式創建的行為模型可以在幾個方面給軍隊帶來好處。例如,可以考慮為創造新的訓練場景做出貢獻,在這些場景中,計算機生成部隊的行為得到了改善,通過比較受訓者的行為和學到的正確行為來支持行動后的審查,比較并調整基本的戰斗程序以適應戰場上的行為,能夠顯示準確行為的模擬實體合成包。根據所開發模型的準確性,一些應用可能比其他應用更容易支持。例如,在決策支持環境中,與合成包環境相比,對精度的要求可能更高。
在未來,我們希望(1)創建自動方法,通過在戰術層面上創建額外的背景來預處理MCTC的數據。我們想到的方法有:估計當前的觀點,或當前執行的是什么(類型的)命令。這種額外的背景可以幫助改善模型的參數調整。(2)我們想改進獎勵工程方法的特征集,以使行為更加真實。(3) 我們想探索可解釋的學習方法,以便使學習的行為更加明確。然后,解釋可以用于各種目的,如行動后審查。
這項研究有助于V/L1801 AIMS(AI for Military Simulation)研究計劃,研究如何有效地創建軍事行為模型,用于解釋和模擬(人類和實體)行為。
對于人工智能的軍事用途所帶來的接受挑戰,傳統的反應是堅持要求人類保持 "有意義的人類控制",作為一種產生信心和信任的方式。考慮到人工智能和相關基礎技術的普遍性和快速發展,這不再是一個適當的回應。人工智能將在整個軍事行動范圍內廣泛的指揮和控制(C2)活動中發揮重要的、日益增長的作用。雖然在公眾心目中,人工智能的威脅沒有 "殺手機器人 "那么直接,但在軍事決策中使用人工智能會帶來關鍵的挑戰,同時也有巨大的優勢。加強人類對技術本身的監督并不能防止無意的(更不用說有意的)濫用。
本文以各級(作戰操作員、指揮官、政治領導人和公眾)的信任對有效采用人工智能進行軍事決策至關重要這一前提為基礎,探討了關鍵的相關問題。對人工智能的信任究竟意味著什么?如何建立和維持它以支持軍事決策?人類操作員和人工智能體之間的共生關系對未來的指揮需要作出哪些改變?
當人類對人工智能的行為持有某些期望,而不考慮人工智能體的意圖或道德時,可以說存在對人工智能的信任。然而,與此同時,信任不僅僅是技術性能和可靠性的一個功能--它不能僅僅通過解決數據完整性和可解釋性問題來保證,盡管它們很重要。軍事人工智能中的信任建設還必須解決軍事組織和指揮結構、文化和領導力方面的必要變化。實現總體上適當的信任水平需要一個整體的方法。除了信任人工智能的使用目的之外,軍事指揮官和操作人員還需要充分信任--并且在如何信任--支撐任何特定人工智能模型的輸入、過程和輸出方面得到充分的培訓和具有豐富經驗。然而,最困難的,也可以說是最關鍵的層面是組織生態系統層面的信任。如果不改變軍事決策的體制因素,未來人工智能在C2中的使用將仍然是次優的,被限制在一個模擬框架內。有效引進任何新技術,更不用說像人工智能這樣的變革性技術,需要從根本上重新思考人類活動的組織方式。
優先考慮人和制度層面并不意味著對技術進行更多的控制;相反,它需要在不斷發展的人機認知系統中重新思考人的作用和貢獻。未來的指揮官將需要能夠在一個真正的 "整體部隊"中領導不同的團隊,整合來自軍事、政府和民事領域的貢獻。他們必須對他們的人工隊友有足夠的了解,以便能夠與他們合作并挑戰他們。這更類似于海鷗的雜音,而不是個別 "翠鳥"領導人的天才。為了發展新的指揮和領導概念,英國防部必須重新思考其方法,不僅是培訓和職業管理,還有決策結構和程序,包括未來總部的規模、位置和組成。
人工智能已經在改變戰爭,挑戰人類長期的習慣。通過在訓練和演習中接受更多的實驗,以及探索C2的替代模式,國防部可以更好地準備迎接未來不可避免的變化。
人工智能正在改變人類的思維和決策方式。未來,它將越來越多地影響人類如何確定各種認知過程的優先次序,調整他們的學習、行為和訓練,并更廣泛地改造他們的機構。這些變化在整個軍隊中仍不完全明顯。盡管有新的技術和戰爭迅速發展的特點,今天的武裝部隊在組織結構上與后拿破侖時代歐洲的職業軍隊并沒有很大的區別。太多的人仍然參與到軍事任務中,而這些任務技術可以做得更好更快,并且對于重新思考人類對人機團隊的認知貢獻也沒有給予足夠的重視,而這正是解決未來指揮和控制(C2)問題所需要的。
本文以QinetiQ公司早先的一份報告為基礎,該報告將信任視為軍事能力的基本組成部分和2020年代軍事適應性的基本要求。本文探討了在軍事決策中越來越多地使用人工智能的最新趨勢和想法。本文并不直接關注這一趨勢的倫理(或法律)問題,盡管這些問題很重要。相反,本文強調了信任作為人工智能時代軍事指揮的一個因素的重要性和意義。
人工智能對軍事決策和C2的潛在深遠影響很少引起專家團體以外的關注。大多數公眾關注的是技術的優勢和風險,而不是人類認知和制度構建的潛力和限制。20多年前,著名的社會生物學家E-O-威爾遜抓住了人類當前的挑戰。威爾遜說,真正的問題是,"我們有舊石器時代的情感;中世紀的制度;和神一樣的技術。"在過去的幾十年里,技術的發展速度遠遠超過了人類適應它的能力。強調人工智能的技術屬性,而忽略其日益增長使用中的人類和制度層面,只會使挑戰更加復雜。
在許多領域,人工智能的軍事經驗仍然有限,需要做更多的工作來了解人工智能在人類決策中作用日益增長的影響。本文旨在引發一場更廣泛的辯論,討論英國國防企業內部所需的文化和組織變革,包括指揮部和指揮官的作用,以確保人工智能在未來軍事決策中的最佳使用。
本文的見解來自與人工智能、人類認知、軍事決策和信任理論有關的更廣泛的文獻。這項研究在2021年9月至2022年2月期間進行,大大受益于與來自國防、學術界和工業界的廣泛專家和用戶的訪談。
前兩章提供了本文的理論背景。第一章探討了人工智能和信任的概念,第二章則分析了人類機構的作用以及人工智能對人類做出選擇和決定的認知能力的影響。第三章結合信任、人工智能和人類機構的概念,提出了一個在人工智能支持的軍事決策中發展信任的五維框架。第四章擴大了對C2的分析范圍,特別關注人工智能對傳統上支撐武裝部隊行使權力和指導的人和體制結構的影響。最后一章提出了對未來指揮、領導和 "全軍 "團隊的進一步研究領域。
對于人工智能或與人工智能有關的信任,并沒有標準的定義。這兩個概念都有不同的解釋,有時也會有激烈的爭論。本章沒有試圖綜合所有關于這兩個術語的文獻,而是建立了一個基準定義,為隨后討論關于人工智能應用于軍事C2的信任作用提供框架。
人工智能的概念起源于1950年著名的圖靈測試,該測試發生在這個詞被創造出來的幾年前。通過關注它做什么而不是它是什么,更容易將人工智能概念化。人工智能 "試圖讓計算機做人類思想能做的各種事情"。在最基本的方面,它可以被理解為追求特定任務的虛擬信息處理能力。正如 "智能"(或 "思想")有許多層面和不同的用途,人工智能也是如此。因此,人工智能從廣泛的學科中汲取不同的想法和技術,不僅包括數學和計算機工程,還包括哲學、經濟學、神經科學、心理學和語言學。
廣義上講,有三種不同層次的人工智能:人工狹義智能,通常被稱為 "狹義人工智能";人工通用智能,有時被稱為人類水平的人工智能;或者更強大的人工超級智能,超過人類的智能水平。在這一點上,有些人認為會出現一個奇點,在這個奇點中,人工智能要么變得有自我意識,要么達到持續改進的能力,使它的發展超出人類控制。后兩種水平被認為仍有一段距離,盡管距離有多遠還存在爭議。不過,就目前而言,狹義人工智能更先進應用的出現,如先進的機器人技術,加上計算能力的爆炸,才是目前關于人工智能的軍事用途辯論的主要動力。本文重點討論狹義人工智能的應用。
圖 1:AI 類型的簡化分類
在狹義的人工智能中,還有更多的類別,盡管這些技術并不完全是離散的,而且經常被結合使用。最常見的區別是符號人工智能和亞符號或非符號人工智能,前者通常被描述為基于邏輯,后者基于自適應或學習。符號人工智能依賴于順序指令和自上而下的控制,使其特別適合于確定的問題和基于規則的過程。非符號人工智能,其中神經網絡是一種常見的方法,涉及并行、自下而上的處理和近似推理;這與動態條件和數據不完整的情況最相關。符號人工智能提供了精確性和可解釋性,而涉及神經網絡的非符號人工智能則不那么脆弱(網絡中缺少一個節點并不會導致整個網絡無法運行),并且能夠在沒有明確規則或一致證據的情況下識別模式。
有三種常見的機器學習類型,根據有助于智能體學習過程的反饋類型進行區分:監督學習;無監督學習;以及強化學習。在監督學習中,系統被訓練來產生假設或采取具體行動,以追求基于特定輸入的目標值或輸出(被稱為標簽)(例如,圖像識別)。無監督學習沒有設定規格或標簽,也沒有明確的反饋;相反,系統通過尋找數據中的模式進行學習(例如,DNA序列聚類)。強化學習依賴于一個反饋回路,通過試錯或獎懲機制穩定地強化系統的學習行為(例如,先進的機器人技術或無人駕駛汽車)。與監督學習不同,強化學習中使用的輸入數據不是預先定義的,這允許更廣泛的探索,但與無監督學習不同,它有一個預期的應用或總體目標(與總體獎勵最大化相關)。
所有三種類型的機器學習,無論監督或自律的程度如何,都提出了重要的信任和值得信賴的問題。所需的信任程度和性質因使用人工智能的目的不同而不同。
信任描述了兩個或多個智能體之間的互動。信任的傳統定義是假設信任者對受托人的能力和善意(或動機)存在合理的信念。對許多人來說,道德誠信(或意圖)的問題是信任與其他概念(如信心)的區別。另一些人認為,信任的范圍和所指比信心更廣,后者被視為與具體事件相關的獨立判斷。大多數信任的定義趨于統一的是一種脆弱的感覺。沒有背叛的可能性,沒有風險的存在,就不可能有信任。
正是因為經典的信任概念中隱含著假定的道德因素,一些人質疑使用該術語來描述人類與人工智能體的關系。他們認為,在目前狹義人工智能的水平上,我們不能將意向性或道德機構歸于人工智能系統,因此使用 "信任 "一詞是不恰當的。另一些人采取了不那么純粹的觀點,并以反映日常使用的方式應用該術語,意味著對系統的可靠性有信心。
信任作為一個術語在計算機科學中被廣泛使用。更重要的是,信任仍然是公眾和用戶接受人工智能的一個基本方面。今天,關于人工智能的國家政策、法規和專家建議經常強調 "值得信賴的人工智能 "的必要性。例如,DARPA的空戰進化計劃正在探索方法,以模擬和客觀地衡量飛行員在斗狗時對人工智能的信任。認識到這些尚未解決的定義問題,作者選擇了略微調整 "信任 "一詞,使之與通常的做法一致。
作者調整后的信任概念需要對人工智能的表現有一定的預期,而不需要假設人工智能方面的特定動機。因此,對人工智能體行為的積極預期可能是信任存在的充分條件,而不考慮意圖。
在目前大多數關于人工智能的討論中,重點往往是人作為信任者,系統作為受托人,盡管任何認知智能體,包括自主機器人和智能機器,原則上也可以履行信任者的角色。這樣理解的話,信任就成了 "系統成員之間互動的促進者,無論這些成員是人類智能體、人工智能體還是兩者的組合(混合系統)"。事實上,在人工智能更成熟的應用案例中,受托人最有可能同時包括人工智能支持的系統(人工智能體)和該系統的提供者(人類智能體)。在目前的人工智能水平上,信任似乎是一種單向的關系,涉及人類 "信任 "人工智能的程度,而不是真正的雙向信任,即人工智能對人類表現的看法。
各種因素決定了(人類)對技術的信任,包括但不限于信任者的能力水平和信任傾向,以及整體環境或背景(包括更廣泛的文化和機構動態)。除了這些針對人類和環境的考慮,決定一個人或組織對人工智能的信任程度的是技術的性能、過程(它如何產生特定的輸出),以及重要的是目的。所有這三者都決定了人工智能系統的設計和部署。
除了技術的穩健性和安全性,隱私、公平、透明度和問責制是一些最常被提出的影響公眾對人工智能信任的問題。然而,主要是由于設計適當的算法、理解復雜軟件系統的內部結構以及為基于算法的決策賦予責任等方面的困難,所以在值得信賴的人工智能的關鍵屬性列表中總是會加入進一步的考慮:這被交替稱為人類機構、監督或有意義的控制。在某些情況下,保持人類對技術使用的監督可能是唯一的保護措施,以防止無意中出現有偏見的、不可捉摸的和/或監管不力的人工智能系統的風險。
控制通常被看作是信任的反面。當對智能體執行任務的能力有信任時,就不需要監督。然而,即使在人工智能更適合做決定的情況下,人類也會經常傾向于干預。信任不足可能和過度信任一樣有風險或適得其反。事實上,正如絕對的控制是罕見的,絕對的信任也是如此。在開發和使用人工智能的過程中,有必要在適當的信任水平和適當的控制水平之間取得謹慎的平衡。這是 "校準的信任 "或可適應/適應性自主性等概念的核心。信任是根據人工智能的能力來校準的,對人工智能能做什么或不能做什么的期望將影響信任的水平。同樣,在可適應的自主性的情況下,用戶定制自主性水平的能力可以支持更大的信任水平。這在國家安全決策中尤為關鍵,因為信任或不信任人工智能的影響可能是最大的。
對技術在人類事務中的作用的擔憂并不新鮮。許多人認為關于人工智能的辯論與之前關于技術的爭論沒有什么不同。根據這一論點,人工智能構成了一種進化,而不是對過去活動的徹底背離,即使人類有時可能在背離以前的自動化水平的情況下被從決策圈中移除。雖然信任仍然是一個挑戰,特別是在機構和社會層面,但穩步應用最初仍然有限的人工智能來支持軍事活動,隨著時間的推移,可以培養出熟悉和越來越多的信心。
其他人,通常是政府以外的人,質疑這種漸進式的方法。他們認為人工智能的崛起是一種范式的轉變,與以前的任何技術都有質的不同。以前的技術都沒有將人工智能的雙重用途特性、傳播的便利性和實質性的破壞潛力結合起來。在過去,最具破壞性的技術都在政府的控制之下,或者在軍事領域之外幾乎沒有應用。此外,雖然以前政府主導了大部分新技術的開發,但這種趨勢幾乎完全逆轉;現在大部分投資和創新來自于工業。鑒于軍事和民用界限的模糊,以及我們的對手和競爭者對人工智能的投資,認為我們可以控制人工智能發展和使用的速度和程度是不明智的。在反思算法技術的進步時,一些人甚至進一步聲稱技術和人類之間的角色發生了逆轉,人們正在成為 "人類的人工制品"和"(技術系統的)智能體"。
如果我們接受對人工智能系統在未來如何操作(和運行)進行完全控制的限制,關鍵問題是我們如何在算法超過目前的性能水平后長期確保適當的交互和人類判斷。反應時間是軍事競賽中的一個關鍵優勢;加快OODA(觀察--方向--決定--行動)循環的各個方面,通常會給那些先到者帶來領先優勢。而這樣做只要一方開始使用人工智能來加快他們的決策和反應時間,另一方就會受到壓力。
2020年12月,美國空軍首次使用人工智能副駕駛飛行了一架軍用飛機。這種被稱為ARTUμ的算法完全控制了傳感器的使用和戰術導航,而其人類隊友則駕駛著U2間諜飛機。這是首次出現人工智能控制軍事系統的情況。用美國空軍前首席采購官員威爾-羅珀的話說,ARTUμ "是任務指揮官,是人機團隊的最終決定者"。
甚至在ARTUμ演示之前,美國國防部已經開始了其全域聯合指揮控制(JADC2)計劃的工作。JADC2旨在打造連接五個軍種的傳感器,承諾對作戰環境進行快速分析,以便在幾小時或幾分鐘內做出決策。在未來的JADC2中,人工智能將允許快速處理數據,為目標識別提供信息,并推薦最佳的交戰武器(無論是動能還是非動能)。美國空軍的先進作戰管理系統、美國陸軍的 "聚合項目"(被稱為 "學習運動")和美國海軍的 "超配項目 "都在嘗試使用人工智能與自主性相結合的方式來支持JADC2。
其他國家,包括英國通過英國陸軍的 "Theia計劃"等項目,以及北約也已經開始嘗試使用人工智能來支持C2和決策。然而,這種試驗的規模和范圍仍然有限。與數據挖掘和語言翻譯等領域不同,人工智能在軍事決策中的應用仍處于起步階段。
美國國防部高級研究計劃局目前開展的工作提供了對未來的一瞥。作為其 "AI Next "項目的一部分,該機構的第三波人工智能投資尋求 "將計算機從工具轉變為解決問題的伙伴",并 "使人工智能系統能夠解釋其行動,并獲得常識性知識并進行推理"。
人工智能已經塑造或推動了我們的許多日常決策。在某些情況下,它已經改變了整個行業。在高度交易性的活動中尤其如此,如保險或零售部門。人類已經將關鍵活動的責任交給了人工智能,讓算法在沒有人類干預的情況下做出決定。今天,人工智能塑造了谷歌和Facebook等網絡平臺提供的內容,也決定了哪些內容被刪除或屏蔽。保留了人類因素的人工智能決策支持系統也在激增,被用于從醫療診斷到改善制造工藝的各個方面。
很少有地方像金融業那樣,人工智能從根本上改變了人與機器的關系。人工智能現在負責絕大多數的高頻交易。在幾毫秒內做出的數千項微觀決定有能力改變整個財富,有時會帶來毀滅性的后果,2010年的 "閃電風暴 "證明了這一點。人類的決定對于金融市場的效率不再是必要的,事實上,甚至可能會起到反作用。無形的算法似乎已經超越了無形的手。
至于社會的其他部分,人工智能的潛在軍事用途涵蓋了廣泛的應用范圍。這些可以有效地分為企業、任務支持和業務人工智能應用。人工智能的軍事應用,特別是與任務支持和作戰用途有關的應用,在一些基本方面與日常的民用活動不同。在平民生活中,人工智能有機會利用大量容易獲得的數據,不斷針對現實生活中的例子進行訓練和學習。對于軍隊來說,與對手的接觸是零星的,來自真實行動的教訓或 "數據 "在數量和頻率上都相對較低。除了軍事對抗的偶發性質,國家安全決策通常依賴于一套復雜得多的條件,涉及多個參數和利益相關者(更不用說對手的意圖),而今天的算法沒有能力再現這些條件。最后,也是最重要的一點,在國防和國家安全問題上,面臨風險的不僅僅是財富,還有生命。數學邏輯不足以為決策提供依據;在使用武力時,道德和倫理考慮比任何其他人類活動都要突出。當人類生命的完整性受到質疑時,我們為技術設定的標準將永遠高于我們為容易出錯的人類設定的標準。
除了美國、英國和北約等國的現行政策外,人們普遍認為人類將在決策中保留一個關鍵角色。美國國防部的人工智能戰略指示以 "以人為本的方式 "使用人工智能,有可能 "將人類的注意力轉移到更高層次的推理和判斷"。納入人工智能的武器系統設計應 "允許指揮官和操作人員對武力的使用進行適當的人類判斷",并確保 "清晰的人機交互"。提到人類總是 "在循環中 "和 "完全負責選項的開發、解決方案的選擇和執行"--這是以前對我們日益自動化的未來的評估中的常見說法--已經被一種更細微的觀點所取代。
所謂的有監督的自主系統是指人類坐在 "循環 "上。雖然人類在理論上保持監督,但一些批評者認為,在實踐中,他們可能無法真正控制自動決策,因為他們可能不熟悉為他們提供決策信息的環境和人工智能程序。在這些情況下,人類的干預能力,除了停止機器之外,被降到最低,沒有達到"有意義的人類控制 "的想法。只有在完全自主系統的情況下,人類的干預才會被完全消除。然而,最終,試圖定義自主性水平的做法可能會產生誤導,因為它們假定人類和機器之間的認知活動是簡單分離的。2012年美國國防科學委員會的一份報告描述了如何:
兩個領域的發展揭示了各國政府在國防和國家安全的關鍵決策中信任先進的自動化方面已經走了多遠。一個是導彈防御,另一個是網絡防御。兩者的有效性都取決于反應速度,這通常超過了最有經驗的人類操作員的能力。
大多數防御性武器系統,從短程點防御到反彈道導彈系統,都采用先進的自動化操作,使其能夠在沒有人類干預的情況下探測和摧毀來襲導彈。算法實際上是在發號施令。在這種系統中,人類被稱為 "循環",在事先經過嚴格的人類測試后,在有限的設計空間內運作,因此其控制范圍受到限制。雖然錯誤永遠不可能被完全消除,但在大多數情況下,不做出反應或反應遲緩的風險可能超過偶爾發生事故的風險。雖然事故促使人們對這些自主系統的操作進行審查,并可能導致引入一些進一步的人為檢查,但這種干預也帶來了進一步的復雜性。對越來越快的導彈,特別是高超音速導彈的防御將繼續推動人工智能在導彈防御中的應用。
網絡戰是人工智能相對于人類具有明顯優勢的另一個領域,而這往往需要人類保持置身事外。人類操作員缺乏算法快速檢測和應對網絡事件以及不斷調整系統防御的能力。所謂的認知電子戰(EW)系統應用人工智能技術來自動檢測對EW系統的威脅,而不是依賴人類操作員。
將決策過程中高度耗時、勞動密集型和需要低層次人類推理的部分自動化,有巨大的好處。軍事評估過程是軍事決策過程的一個關鍵部分,一直是參謀學院教授的標準作戰計劃過程。這種方法的一部分涉及收集和處理信息,為一個或多個行動方案提供信息。由于信息時代的決策需要更大的速度和敏捷性,達成決策的過程將需要加速。人工智能已經證明了它在基于明確定義的規則、輸入和假設快速執行理性過程中的效用。只要人類負責設定假設并定義產生替代方案和概率評估的輸入,人工智能就能增強整個決策過程。
可以理解的是,政府內部和外部都不愿意讓人工智能發揮超出決策支持和適當決策的作用。"指揮和控制"的概念在軍隊的心理和結構中根深蒂固,許多人無法接受一個在某種程度上不涉及人類控制軍事行動或指揮任務的未來。人被要求帶著他們對問題的創造性見解,像現代的亞歷山大一樣解開這個死結。沒有什么比對 "翠鳥時刻 "的信念更能體現這種對直覺型指揮官形象的依戀。這種技能,即指揮官藝術的精髓,只限于那些在最苛刻的情況下能夠憑直覺做出決定的少數人。人工智能提供并非基于人類邏輯或經驗的獨特見解的能力,對這種思維提出了深刻的挑戰,并可能在未來改變指揮官的形象。
許多人將人工智能稱為決策支持而不是決策工具,其推論是人類最終仍然是所有決策的仲裁者。這樣的區別造成了一種令人放心的錯覺,即人工智能只是協助實現一種效果。人類根據一套算法挖掘、篩選和解釋的數據做出的致命行動決定,是否比由智能機器完全執行的決定需要更多的人類機構?對 "行動 "的癡迷--更不用說致命行動--作為更廣泛的 "殺傷鏈 "的最后元素,掩蓋了人工智能在整個行動范圍內的一系列C2活動中日益增長的影響。
許多專家對人類是否有能力控制由人工智能促成或驅動的決策持懷疑態度。這種懷疑往往圍繞著所謂的黑盒問題:高級人工智能,如深度學習,在本質上是無法被人類理解的。這不僅僅是由于它的工作速度,也是由于算法網絡相互作用的方式,以及它們所操作的數據的規模和復雜性。我們不能簡單地詢問系統以了解其思維過程。我們可能知道一個模型的輸入和輸出,但卻無法理解這中間發生的事情。一個相關的、更微妙的論點是,算法對人類的認知攝入施加了 "權力"。人工智能可以決定人類處理哪些信息,而不向他們透露哪些信息被遺漏或拒絕。它還挑戰了這樣一個概念,即如果人類的行動受到數據呈現的內容和方式的制約,他們可以行使 "有意義的 "控制。這與人工智能的好處之一正好相反,即它能夠減少人類的認知負荷,使人類能夠集中精力思考和作出最高價值的活動。
對黑盒挑戰的典型解決方案是開發可解釋的人工智能(XAI)。盡管能夠自我解釋的人工智能可能有助于理解,但它并不必然會導致信任。XAI并不等同于可解釋的AI;解釋不是一個決定,而是一個關于決定的敘事。因此,即使是一個令人信服的解釋也不一定是真的。對于許多潛在的用例,我們還遠遠沒有能力開發出足夠的可解釋(Explainability)的人工智能,更不用說可因果解釋(Interpretability)的了。對更先進的人工智能系統進行嚴格的測試可能會證明它們的部署是足夠的,即使是在沒有人類能力遵循其推理過程的情況下。不過,從根本上說,我們對測試的傳統方法需要重新思考。沒有充分的測試和評估,對不可解釋/可解釋的人工智能的信任將是 "盲目的信任"。對于美國前國防部副部長鮑勃-沃克的問題,我們仍然缺乏一個令人滿意的答案:你如何對學習系統進行測試和評估?
當存在不確定性或缺乏知識時,人類會應用啟發式方法來近似解決復雜問題。啟發式方法是驅動直覺思維的因素;它依賴于經驗法則,通常是通過經驗和實驗來了解。因此,它可能存在偏見和盲點,但它也可以作為一種非常強大和有效的快速認知形式。機器缺乏類似人類的直覺,但它們確實依靠啟發式方法來解決問題。與人類推理的關鍵區別在于,機器不需要記憶或 "個人 "經驗就能進行 "直覺 "或推理。它們利用巨大的數據庫和卓越的概率能力為決策提供信息。強大的模擬與先進的計算能力相結合,提供了一個測試和 "訓練 "算法的機會,其重復程度是人類無法想象的。在宣布任務準備就緒之前,ARTUμ在短短一個多月內經歷了超過一百萬次的訓練模擬。
即使在XAI領域取得了重大進展,仍然會有謹慎的理由,特別是在需要復雜決策的情況下。人工智能通常不善于看到 "全局",也不善于根據相關的內容做出決定。像人類一樣,它也會把相關性或偶然事件誤認為因果關系。人類和機器在處理復雜問題時都會遇到 "正常的意外"。創造力是人類通常具有的特質,但一些先進的人工智能可以產生人類無法企及的驚人結果。簡而言之,許多通常被認為是人類特有的屬性,如創造力和直覺,也可以說適用于人工智能系統--盡管方式不同,速度超過人類能力。
目前機器所缺乏的是人類思維的靈活性和關聯感("框架 "的能力)。人類可以橫向思考,通過實用主義得出合理的結果(這一過程被稱為歸納推理),并反思自己的思維過程(這一能力被稱為元認知)。這些心理過程可以產生驚人的適應和創新的壯舉。
人工智能的出現意味著未來的軍事決策將幾乎肯定需要更強大的人機共生關系,就像在已經接受該技術的商業組織中看到的那樣。目前的討論大多是假設人類繼續控制,或尋求將人類的屬性應用于未來的機器。一些人提倡一種新的 "決策演習"概念,將 "人的指揮和機器的控制"結合起來。但更有可能的是,指揮和控制的責任將越來越多地由人類和人工智能系統分擔,其方式可能是目前難以設想的。人類與人工智能的合作提供了利用各自優勢和減少不足的最佳方式,特別是在戰爭方面(目前戰爭的性質仍然沒有改變)有四個連續性:政治層面;人類層面;不確定性的存在;以及戰爭是一場意志的較量。
信任是動態的;它隨時間而變化。它的最初形成是至關重要的,但它的持續發展也是如此。信任是隨著熟悉程度的提高而自然產生的,因此,假設經驗是積極的,即使是在對技術不完全了解的情況下,技術的使用也會擴大信任的范圍。反過來也是如此,不好的經驗會促進不信任。移動電話技術復雜性對大多數用戶來說是未知的,但人們的積極經驗給了他們使用的信心。這種信心導致了與手機使用所形成的決定相適應的信任感。然而,手機一般不會決定生死大事,盡管它們會將盲目聽從指示的不謹慎的司機置于危險之中。在軍事背景下,賭注更大,用戶和策略制定者非常清楚他們的決定的潛在后果--信任門檻很高。
軍隊作為應急組織,不需要定期交付其主要產出,這影響了可以獲得最直接相關經驗的速度。與金融服務業不同的是,在金融服務業中,交易為人工智能決策提供了頻繁的驗證,而國防部門的時間線往往更長,結果在一個單一的因果鏈中也沒有明確的聯系。做出決定和觀察其影響之間的時間間隔更長,并受制于多種干預變量。雖然模擬演習創造了獲得經驗的機會,但它們只是現實的近似值。
建立和維持信任涉及五個主要的 "Trust Points"--在這些點上,擁有適當水平的信任問題是至關重要的。這些點是:
總的來說,這些Trust Points定義了一個整體的信任水平,并且是乘法的:如果對其中一個的信任是 "零",那么整體就是 "零"。只要整體信任是正向的,每個人的信任水平都可以變化--在不同的時間。
部署信任
對在特定情況下使用人工智能的決定的信任是至關重要的。對于人工智能的軍事使用(以及許多民用應用),這在三個層面上運作:社會;組織;和個人。第一個層面考慮的是整個社會是否愿意允許人工智能的使用,這將決定策略制定者如何看待它的使用。組織本身也必須愿意認可這一點。最后,個人必須愿意在這個角色中與人工智能合作。所有這三個層次都需要接受使用人工智能的必要性或其可取性的必然性。可取性可能反映了人工智能在以超過人類操作員的速度或數量(或兩者)處理數據方面的優勢,或在承擔枯燥或危險的工作方面的優勢。而軍方可能會認為,人工智能既實用又要避免將優勢讓給對手,但社會似乎更傾向于將致命的使用視為一個倫理問題,在這個問題上,人類生命的神圣性要求道德行為者決定奪取人的生命。
社會對人工智能使用的接受程度在很大程度上取決于其經驗、有效的溝通和教育,這將有助于為人工智能的使用選擇提供依據。在許多情況下,社會的某些部分可能會比軍方更多地接觸、熟悉和信任人工智能,但致命自主權可能仍然存在問題。雖然沒有致命自主權那么直接的威脅,但在決策中使用人工智能會帶來自己的挑戰,其中最重要的是在一個算法越來越強大、人機協作越來越緊密的世界里,"有意義的人類控制 "究竟意味著什么。
在組織層面,存在關于如何部署作戰和任務支持人工智能的重要問題:是以集中的方式在更高的戰略層面運作,還是以更分散的方式在戰術層面運作。在后一種情況下,人工智能將進一步滲透到組織中,變得更加分散,并用于反應時間可能限制人類干預或驗證人工智能的范圍。組織需要明確決定是否使用人工智能的原則,以及管理其使用的方法(見下文 "過程信任")。關于使用人工智能的決定必須考慮如果系統失敗會發生什么。美國國家航空航天局(NASA)由于擔心系統故障的后果而沒有充分利用其早期火星車的自主能力,對火星車進行微觀管理,并通過大型人類工程師團隊減輕風險。外部組織,如商業技術供應商,的想法也很重要。例如,谷歌的員工迫使該公司在2018年退出一份軍事合同,因為他們擔心軍方對面部識別技術的使用。
個人對人工智能的熟悉程度也將是重要的。目前,從事軍事人工智能工作的人是其使用的倡導者,但隨著接觸人工智能的人群的增加,這種情況將發生變化。與前幾代人相比,接觸技術較多的年輕軍人可能更容易接受人工智能在軍事決策中的應用,但在基礎等級的聯邦結構中,人才幾乎完全來自內部,對其使用的阻力可能來自那些有權力的人;這可能造成機構接受問題。然而,在 "代際特征 "方面,存在著過度簡化的危險。雖然年輕人是在較新的技術中長大的,而且可能更信任它,但技術是可以學習的。代際假設不能成為不使用現代技術的借口。
部署信任是復雜的,因為大多數西方國家的大規模防務活動都是以聯盟行動為前提的,而不是每個盟友或伙伴都對什么是可接受的人工智能的軍事用途有共同的看法。國防部和政府需要更好地傳達他們在使用人工智能方面的方法、用途和保障措施,包括向盟友傳達,而不向對手透露太多信息,因為他們可以制定戰略來抵消(或更糟)人工智能功能的優勢。北約將通過其公共宣傳活動、與成員國在政治層面的聯系以及在不同技術發展階段的軍隊中建立規范,在這方面發揮關鍵作用。
數據信任
這涉及到對人工智能做出判斷的數據的信任程度,這些數據為人類決策提供了依據。雖然測試硬件和軟件相對容易,但測試數據,甚至是準備讓人工智能接受訓練的數據,則更加困難。數據對于人工智能的有效學習至關重要。一些數據將被控制,駐留在現有的國防系統內,或從可靠的外部來源進行驗證,盡管國防部在數據的分類(不一致或不準確)、存儲、訪問和共享方面存在困難,特別是在較高的分類級別。不受控制的數據,如開放源碼數據,是在沒有人類知識或理解的情況下通過聚合產生的,這更具挑戰性。此外,狡猾的對手會試圖注入虛假數據,以破壞決策過程,或用不相關或不準確的數據淹沒決策過程。
武裝部隊需要定義、構建、清理和分析數據的能力,以及開發和維護底層基礎設施(如連接、安全和存儲容量)的能力。這是一個多學科的團隊工作,需要能夠在數據科學生命周期的所有階段工作的 "全棧 "數據科學家。現代戰場將需要更加多樣化的技能,包括心理學家、律師和通信專家。鑒于商業世界對這些技能的需求,吸引和保留這些專家的數量將是困難的。這將需要更靈活的人力資源做法和/或對整個部隊更復雜的理解和使用,包括允許非軍事人員在軍事總部擔任有影響力的職位。
過程信任
過程信任指的是人工智能系統如何運作,包括數據如何處理(匯總、分析和解釋)。目前英國國防部的(狹義的)人工智能決策支持系統吸引了高信任度,因為算法相對簡單且可預測。它們也僅限于參與開發的一小群用戶,或者認識那些開發了人工智能系統的用戶,并且了解該技術。該技術受益于一種源自人們對人類的信任的過渡性信任。雖然不是人工智能,但法國陸軍引進的包裝降落傘的機器導致了降落傘團的信心喪失。堅持要求機器的主管用機器隨機選擇的降落傘打包跳傘,有助于恢復用戶的信心。讓開發人員更接近指揮系統的用戶會有所幫助。法國的采購程序允許某些單位直接與人工智能供應商接觸,以建立對開發商的了解和關系。開發商成為一個關鍵的信任點,如果不是軍隊,他們必須了解和熟悉軍隊的情況。這可能需要加大投資,讓商業伙伴了解軍隊的工作方式,并確保軍事人員了解其文職同事。
要求高水平的可解釋性和透明度并不是一個永久的解決方案,目前限制了英國防部對更強大的、非符號形式的人工智能的訪問。隨著機器學習使技術超越其最初編程的參數,將需要不同的方式來確保對可能看起來是黑盒的信任。隨著這種人工智能系統的使用激增,因了解設計者而產生的過渡性信任將減少,在這個過程中克服最初的信任不足或過度信任將更加困難。應避免過度依賴過程信任,并加強其他信任點,以開發適應能力越來越強的人工智能。
過程信任必須超越技術本身。它需要信任那些為技術提供能量、與技術一起工作并接受技術產出的人類過程。因此,必須同樣重視那些共同構成整體過程的其他活動。這包括培訓和人員的過程,以及如何組建團隊。
輸出信任
對人工智能產出的信任對決策者根據他們收到的信息采取行動至關重要。即使是人類提供的情報,如果原始信息指向不同的方向,指揮官要求新的情報來支持他們的先入之見(一種 "基于決策的證據制作")也不是沒有。而隨著數據的激增,不同的解釋將成為可能,合法的或符合先入為主的解釋。因此,出現了這樣的問題,即人工智能或事實上的人類分析能夠現實地提供什么答案,以及如何驗證輸出。在友軍的部署和對手的物理位置方面,人工智能有可能提供更快的態勢感知。然而,盡管可以從現有的數據中得出更好的推論,但對手的實際意圖是無法可靠地確定的。可預測性通常被視為信任的關鍵因素,但在不穩定的環境中,能夠適應不穩定環境的人工智能輸出會被解釋為不可預測。為了克服這個問題,Bonnie M Muir認為,人類操作員必須具備估計技術可預測性的能力。這種可預測性也會影響整個部署和過程信任點,但在輸出信任方面最為敏感,以反映軍事行動等流動性和不可預測的環境。在這些情況下,數據還必須反映軍事決策者所面臨的大多數情況的離散性和特定對手的獨特文化方式,這加劇了建立大量訓練數據的難度。即使在情況類似于過去的事件時,由于缺乏可比的歷史數據來說明廣泛的變量,使得概率推理變得困難。
用Patricia L McDermott和Ronna N ten Brink的話說,輸出的校準是至關重要的。這可以通過更多地使用企業人工智能和模擬來實現,它擴大了信任的邊界,可以幫助開發輸出信任。如果經驗是積極的,與技術互動并看到它的輸出將產生信任。在作戰環境中,當描述可以知道和檢查的東西時,驗證將是最容易的(例如,關于自己部隊的數據和潛在的對手部隊的布局)。要接近了解對手的意圖是比較困難的,因此需要更高水平的輸出信任。這將包括提高描述的準確性和對從大數據處理中得出的推論進行更多的測試。分享演習和行動的正面敘事,對于實現過渡性信任和緩解從相對不頻繁的行動中積累成功證據的緩慢速度至關重要。
組織系統的信任
生態系統的信任涉及調整更廣泛的組織系統以最大化人工智能的價值所需的信任。C2系統作為一個整體必須被配置為利用人工智能輔助決策的好處,并有適當的檢查和平衡,以在可接受的風險水平內運作。當人工智能的弱點或失敗是在主管的專業知識之外的領域,需要在組織的不同部分進行校準時,這一點尤其重要。如果不在生態系統和組織層面上進行變革,組織將只是將其人類系統數字化。
需要生態系統的信任,以確保結構--包括軍事總部的組織、指揮官的角色以及集中式與更分散或分布式的決策權的平衡--準備好利用人工智能的機會。如果沒有準備好,采用人工智能的漸進式方法往往會鼓勵對結構和整體生態系統的變化采取被動或消極的方法。相比之下,實現人工智能變革力量的專門戰略將迫使人們盡早重新思考支持這種戰略所需的組織。這需要重新思考傳統的軍事結構,但對于走多遠并沒有共識。一些人設想總部變得更扁平,并將非軍事人員納入高級職位,在決策過程中擁有權力。對另一些人來說,生態系統的變化更為深刻;它要求完全取消目前被視為工業時代遺留的工作人員組織系統。這樣做,他們打算消除扼殺理解的信息邊界,并挑戰決策金字塔尖上的獨當一面指揮官的想法。這種轉變需要整個組織生態系統的信任。對于像軍隊這樣的保守組織來說,這將是困難的,在指揮部的激進替代方案被接受之前,需要得到保證。實驗、戰爭游戲和模擬環境提供了低風險的選擇,以測試為特定類型的任務(例如,戰爭、和平行動和能力建設)配置的不同總部結構。
信任是根本,但為技術設定一個不可能高的標準也有風險。幾千年來,指揮官和決策者們一直信任易變的人類。當人工智能開始觀察到輸入數據分布的變化時,技術可以通過自我監測的方式提供幫助,提醒人類 "操作員",或以以前未曾見過的方式進行操作,這樣錯誤輸出的風險會更大。風險容忍度,無論是關于人類還是機器演員,最終都是信任的表達。國防組織需要對自己是否是快速采用者或快速或緩慢的追隨者持誠實態度:商業世界的人工智能發展速度使大多數武裝部隊極不可能成為人工智能決策的 "第一用戶"。漸進派和未來派都是人工智能的支持者,他們之間的差異主要是風險問題,以及針對不同信任點的可實現的信任水平。
通過熟悉產生信任是至關重要的,這可能涉及到將軍事人員嵌入到使用復雜人工智能的商業組織中,或將平民帶入國防。這種變化需要在足夠高的級別上進行,以促進生態系統的信任。模擬、實驗和演習是重要的工具,而且必須足夠廣泛,以便不局限于一小群狂熱者。英國電信公司用人工智能決策支持工具取代英國的電話網絡的項目,當服務時間最長、知識最豐富的工程師與人工智能和數據專家合作時,效果最好,他們可能會對人工智能產生懷疑。將企業人工智能引入改革業務流程,如財務和人力資源,是將熟悉程度擴大到目前直接參與人工智能開發和使用的少數干部之外的另一種方式。
一旦熟悉的東西,信任是人類的天性,但信任的習慣會帶來自身的風險。眾所周知,人類不善于設定正確的目標,當遇到 "專家意見"(無論是人為的還是其他的)時,他們更容易同意而不是懷疑。必須避免 "信任和忘記 "的動態。一個考慮因素是為人工智能系統制定一個 "持續可信性 "的概念,類似于航空平臺的持續適航性,以確保它們仍然適合使用。因此,建立對人工智能的信任(并避免過度信任)的努力必須解決所有的信任點,并包括整個人類-機器團隊,其中人類操作員是其數字對應方的有效合作者和建設性批評者。
人工智能對決策的知情、制定和實施方式的影響將是深遠的。通過以超越目前人類進程的速度處理大量的數據,人工智能可以提高對作戰環境的理解,并減少決策者的認知負擔。這不僅僅是今天工作方式的演變。僅僅加快當前C2系統的速度是不切實際的。一輛設計為以70英里/小時速度行駛的汽車是為以該速度運行而配置的。將發動機調整到每小時100英里的速度也許是可能的,但會給車輛系統和駕駛員帶來無法承受的壓力。由人工智能驅動的決策所代表的不連續性需要一種新的方法。正如多國能力發展運動(MCDC)所述。
無論我們未來的C2模型、系統和行為是什么樣子,它們都不能是線性的、確定的和靜態的。它們必須是靈活的、自主的、自適應的和自我調節的,并且至少與它們形成和運行的環境一樣具有偶然性和突發性。
軍隊必須為明天的C2進行重組,并以不同的方式培養他們的指揮官和工作人員。如果沒有這些變化,"生態系統信任"可能被證明是不可能實現的。
C2包含兩個不同的元素:指揮,通常與創造力、靈活性和領導力相關;以及控制,與規則、可預測性和標準化相關。人工智能將首先影響控制功能,目前,指揮仍主要是人類的活動。人工智能的數據處理能力將消除控制的大量負擔,例如,為指揮官提供對其部隊的更好理解(如部署、狀態、設備和供應水平),目前這需要消耗大量的注意力和時間。它還將改變向指揮官提供信息的方式。目前,這些數據大部分是在 "拉取"的基礎上提供的--根據總部的報告程序要求或零星地收集。然而,人工智能可以持續監測局勢,并通過強調相關變化的活文件將信息推送給指揮官--類似于24小時的新聞編輯部。然而,通過進一步進入控制領域,人工智能將不可避免地影響指揮權的行使,并形成指揮決策;這對上述指揮和控制之間過于整齊的區分提出了挑戰。在未來的C2系統中,可以想象人工智能可以限制指揮權的行使,就像防抱死制動系統、牽引力控制和電子穩定性允許人類駕駛員指揮車輛,直到失去控制,此時系統會接管,直到情況穩定下來。
人工智能給人類指揮帶來了一個悖論。它同時使更多的知識被集中掌握,使總部能夠看到并與 "前線 "發生的事情互動,并將知識擴散到整個指揮系統,使較低級別的編隊能夠獲得以前只有高級指揮官才有的信息。將更多的權力下放給地方指揮官可以提高反應能力,這在事件發展不可預測、需要快速反應的情況下非常重要。西方武裝部隊傾向于采用(或多或少)任務指揮的概念,即指揮官的意圖描述了預期的效果,并允許下級指揮官根據他們面臨的情況自由執行。軍隊的學習和發展系統以及演習嵌入了這種方法--指揮官將需要相信人工智能能夠在其操作中實施這一意圖。鑒于數據和獎勵功能的戰略復雜性和模糊性,人工智能在戰術和作戰層面的使用可能比在戰略層面的指揮更有效,盡管這些層面并不離散,在現實中也不容易被分割開來。人工智能和更大的網絡連接將提供一個結構、流程和技術網絡,連接多個小型、分散的前方總部和分布式(和加固的)后方功能,即使在更透明的戰斗空間,也更難發現和反擊。如果敵人以C2系統為目標,這將增強復原力。
在每個層面上處理更大數據量的能力必須被仔細引導。人們應該能夠獲得與他們的地位和相對能力有關的信息,以影響他們在環境中發展。W-羅斯-阿什比將此描述為 "必要的多樣性 "問題:一個可行的(生態)系統是一個能夠處理其環境變化的系統。行為者應該在適合其任務的抽象水平上運作。一個旅部不能處理也不需要關于單個士兵的詳細信息;它需要對其下屬單位的身體和道德狀況有一個良好的總體了解。在更多的戰術層面上,NCO指揮官應該對他們團隊中的個人狀態保持警惕。戰略和作戰指揮官可能需要放松控制,讓戰術指揮官在更接近戰斗的地方利用新出現的機會。雖然任務指揮已經允許這樣做,但隨著高級別的指揮官獲得關于戰術層面發生的信息的空前機會,"控制"的誘惑會更大。
人工智能也需要使用抽象、近似和校準的杠桿,以避免將總部淹沒在數據洪流中。這需要在使用這些抽象和近似時的 "過程信任"。總部也可能需要使用不同的人工智能系統,其能力更適合或不適合不同時間范圍內的不同場景。決策也可能包括確定在特定情況下信任哪種人工智能模型(部署和過程信任)的因素。
人機聯合系統的自動化將提高人類的表現,在某些情況下,改變任務本身的性質。無論在什么層面上部署,人工智能不僅會影響人類執行任務的方式,也會影響人類執行的任務。目前的方法通常從研究哪些人類過程可以自動化開始,即人類工作的數字化。有可能從使用人工智能的假設開始,只有在人類是必要(出于法律、政策或道德原因)或可取(更適合這項任務)時才將人類放入系統中--決定什么不應該,而不是什么可以被數字化。這種方法挑戰了目前關于總部的規模、組織、人員配置和運作的概念。
聯合概念說明(JCN)2/17指出,C2有可能在不同的戰爭層次(戰略、作戰和戰術)上發生變化,并對作戰環境的變化特征做出反應,因為作戰環境不再僅僅是物理環境。戰爭與和平的模糊性--強調了在 "行動 "和 "作戰 "之間的連續過程中有效的必要性--以及英國向能夠持續參與的部隊結構的轉變,將需要超越戰斗所需的方法。然而,可能沒有單一的總部原型;因此,為戰斗而配置的總部將與處理上游參與和能力建設的總部不同。雖然現在確定人工智能對軍事總部的影響還為時過早,但商業組織已經發現,與傳統的垂直層次結構相比,具有更多橫向信息共享的扁平結構更適合利用人工智能的優勢,因為在垂直層次結構中,每一層都要保證和授權數據才會被發布。因此,軍事總部--無論其具體形式如何--很可能會比現在更小、更扁平,能夠更快地沿著水平線工作。
探索替代的總部概念可以通過更多地使用實驗和模擬來實現。這應該對經典的J1-9參謀部提出挑戰,或許可以用新的分組來反映人工智能取代人類密集型數據處理和共享任務的能力。在J3/5區域尤其如此,這是計劃和行動之間的界限;由更快的決策帶來的更快節奏的沖突使這種界限變得過時。組織總部的替代方法可能包括那些注重結果的方法。JCN 2/17中描述的英國常設聯合部隊總部(SJFHQ)的結構是圍繞著四個職能來組織的:理解;設計;操作;和啟用。SJFHQ后來又恢復了傳統的J1-9人員分支。然而,"聯合保護者2021 "演習是一項復雜的亞門檻行動,其中使用了人工智能決策支持工具,揭示了J1-9架構的弱點。總部開始演習時是為高強度戰爭而配置的,但隨后調整為更適合與其他機構合作的配置。SJFHQ內部正在開展工作,應用2021年聯合保護者的經驗教訓,并確定這對總部結構意味著什么。然而,不太可能有一個完美的總部模式適用于所有行動類型。需要進一步的實驗,不限于SJFHQ。很能說明問題的是,自JCN 2/17發布以來的四年多時間里,在實施其中的一些建議方面幾乎沒有取得進展。即使英國國防部采用技術的速度相對緩慢,但這也超過了國防部探索改變結構的能力,超越了小規模的愛好者群體。"生態系統信任"是至關重要的,需要有機會在模擬或真實的環境中對各種任務類型的替代方法進行測試,并讓更多的人參與進來,這對有效采用新技術、結構和過程至關重要。
現有的程序需要改變以連接和優化新的結構。這可能需要改變構成武裝部隊規劃過程基礎的軍事評估。雖然它是一個復雜的、符合邏輯的規劃工具,但它是相當線性的、確定性的,并且嚴重依賴于指揮官,特別是在 "指揮官領導 "的英國方法中。在其他國家,參謀部在推動解決方案方面發揮了更大的作用,這可能更適合于人工智能的方法。人工智能為更多的迭代和協作過程提供了機會,它能更好地響應軍事和民防資源中心的要求,轉向更敏捷的模式。新的方法應該給指揮官帶來更少的壓力,要求提供信息(指揮官的關鍵信息要求)。人工智能還可以構建、分析和比較作戰行動方案,允許在做出大規模投入部隊的選擇之前對情景進行建模、測試和完善。
英國常設聯合總部(PJHQ)的情報評估過程自動化的思想實驗發現了取代大量工作人員的機會,加快了總部的戰斗節奏,并允許使用自動總結和自然語言處理來橫向共享信息。在一次作戰部署中測試了這一點,英國第20裝甲步兵旅戰斗隊將部分計劃過程縮短了10倍。然而,當人類仍在環路中時,決策環路的速度可能是有限的。在某些時候,人類決策者將無法跟上,成為決策監控者。如果仍然需要人類來做人工智能自己不能做的決定,這將是一個問題,而這可能是最困難的決定。
盡管有明顯的優勢,但總部不太可能在技術允許的范圍內減少。目前的總部通過規模和保證程序的冗余來補償人類的脆弱性,這對于減輕人工智能團隊成員的脆弱性可能仍然是正確的。此外,隨著戰斗節奏演變成連續的24小時規劃周期,節奏的加快可能會推動某些領域的需求上升。這些壓力可能并不局限于總部本身;它可能會推動前線單位的活動增加,他們必須處理數據并對所發出的指令作出反應。人類行為者仍然需要時間來休息,即使技術不需要。此外,與商業組織不同,軍隊需要冗余,以應對競爭對手蓄意破壞或擾亂他們的決策機構,并需要確保固定基礎設施的安全,以建立他們的網絡。簡而言之,對彈性和流動性的需求影響了軍事C2系統的穩健性和效率。因此,軍隊將需要保留不完全依賴人工智能進行有效操作的結構,并確保在人工智能失敗或故意削弱對人工智能信任的情況下,有恢復性程序可用。
傳統上,指揮官是垂直決策結構的頂點,是所有信息的匯集點。雖然不是所有的軍事文化都強調個人的天才,正如 "翠鳥時刻"的概念所體現的那樣,但指揮官獲得信息的特權被總部的低層人員所拒絕。人工智能使信息民主化的潛力將改變這種情況;指揮可能會成為一種更加合議和反復的活動,不僅涉及那些穿制服的人,而且包括情報機構和具有數據科學多方面專業知識的承包商在內的更加折衷的組合--一種 "全部隊"的貢獻。面對一個復雜和適應性強的戰斗空間,另一種鳥也許為未來的指揮提供了一個更好的比喻:椋鳥。它們集體的、高度適應性的雜音為英國的發展、概念和理論中心的C2概念提供了一個更好的形象,即 "為設計和執行聯合行動而配置的動態和適應性的社會技術系統"。
指揮官必須繼續能夠處理動態環境;"沒有計劃能在與敵人的接觸中幸存下來 "這句話仍然是正確的。鑒于技術能夠提高速度(減少反應時間)和復雜性(通過更透明的戰斗空間),處理復雜、快速演變的問題將尤為重要。軍事組織正在試驗人工智能將如何改變C2,包括北約卓越指揮與控制中心、美國JADC2和英國軍隊的數字準備實驗。早期的跡象表明,指揮官將不得不更多地關注問題的框架,并確保在更小、更扁平的結構中的更多不同團隊之間的理解和目標的統一。這表明需要一個不同類型的指揮官和不同類型的工作人員;他們能夠整合由不同學科的成員組成的不同團隊的工作,而且往往是來自軍隊以外的成員。
確保指揮官能夠正確地設定問題的框架是至關重要的。人工智能非常善于在框架內操作,但目前至少在 "閱讀字里行間 "或從定義不明確的數據集中推斷方面很差--這種脆弱性仍然依賴于有人類來設定框架。在確定了問題的框架后,指揮官必須能夠判斷產出在該框架內是否合理。這需要能夠看到大局的人,武裝部隊需要通過在總部的參謀經驗來培養未來的指揮官,使他們熟悉環境和流程,從而能夠在越來越高的級別上進行指揮。模擬可以促進對總部的接觸,同樣可以確保較小的總部仍然保留人們獲得經驗的作用,通過這些經驗可以獲得必要的指揮技能。
雖然指揮官需要知道如何與技術互動,但他們必須繼續關注人工智能所要服務的作戰要求,并對其持適當的懷疑態度,以便他們成為這一過程中的知情者,而不是算法輸出的被動接受者。指揮官需要類似于工業界的 "π型領導人",在軍事專業的同時具有數字和數據意識。他們不需要成為技術專家,但應該有足夠的知識來了解其局限性,能夠與團隊中的專家合作,并有足夠的滿意度來允許對數據、流程和產出的信任。
集體而言,總部團隊需要這些技能,各個團隊成員能夠相互交流和理解。這超出了情報分析員的范圍,包括來自武裝部隊內部和外部的廣泛的行動、技術和數據專家。它還包括對風險更復雜的理解和溝通能力。戰爭從根本上說是一個風險管理的問題,這需要以經驗的方式來理解和溝通風險。因此,了解概率和信心水平是一項關鍵的指揮技能,但諸如沖突中的一次性決定也需要長期的判斷。
軍事教育需要通過在職業生涯中更早地引入數據和技術意識來應對。此外,軍隊對不同能力的評價方式也需要改變。據傳聞,英國陸軍的職業管理流程往往將那些在計算能力上取得好成績的人引向采購等領域,而不是作戰,被選入參謀學院的專業人員往往在計算能力上處于較低的四分之一。這不僅僅是軍隊面臨的挑戰:有望成功競爭的國家需要國家教育系統認識到數據和技術素養技能的價值,并從小培養他們。作者并不主張將教育變成就業前培訓;雖然需要STEM技能(數量比現在多),但人文和社會科學仍然很重要,培養出的畢業生適應性強,能夠解決復雜的問題,并以影響力進行溝通。國家的成功取決于學術和其他形式的多樣性,培養人們在數字世界中茁壯成長,不僅需要技術能力,還需要(人文)特質,如創造力和情商。指揮官和工作人員在未來將需要這兩套技能,也許比今天更需要。
除了分析之外,直覺是信息處理中的一個補充部分。在指揮官需要行使的雙軌制決策方法中,它是人類認知的一個重要部分。有效的決策結合了直覺和分析的優勢。當數據和直覺一致時,決策者可以放心地采取行動。如果它們不一致,則需要在行動前進一步探索。1983年,俄羅斯中校Stanislav Petrov避免了潛在的核戰爭。他的導彈探測系統報告說美國發射了五枚洲際彈道導彈,但他沒有立即報告,而是決定等待,因為這個信息感覺不對。他的(下意識的)雙模式決策使他做出了正確的決定。人工智能更強的數據處理和分析能力可以增強決策過程中的分析要素,但它需要指揮官認識到直覺的價值和局限性。專業軍事教育需要反映出對數據和直覺這兩個組成部分的平衡方法。
未來的指揮官所指揮的團隊必然比今天更加多樣化,領導跨學科團隊為復雜問題帶來新的見解。人類有效構思和發展直覺的能力通過接觸不同的看世界的方式得到加強。這不僅僅是改善受保護特征方面的多樣性,盡管這很重要,還包括確保整個部隊團隊中教育、經驗和觀點的廣泛性。整個部隊的不同元素是這種多樣性的一部分。
越來越多的跨軍事領域的綜合活動要求整個部隊的各軍事部門有效合作。對于正規軍事人員,在 "聯合"方面已經取得了進展,但還需要做更多的工作。在軍事生涯的早期引入聯合訓練是實現這一目標的一種方式;這可能需要重新思考軍事人員何時接受專業軍事教育,目前在英國是在30歲左右。相比之下,澳大利亞國防軍為參加澳大利亞國防軍學院的人員提供了基本的聯合軍事課程,海軍、陸軍和空軍專家也接受了單一軍種培訓。這為未來的指揮官在軍事生涯早期的成長提供了一個跨學科的 "聯合 "模式。正規軍的進展需要擴展到后備軍的整合,因為未來可能會有更多的技術專家駐扎在這里。
事實證明,整合整個部隊的非軍事因素更為困難。Serco研究所的一份報告指出,"盡管在過去十年中,整個部隊的運作取得了進展,但在實現軍事和工業之間的無縫合作方面的努力卻停滯不前。雖然武裝部隊在將非軍事人員帶入其總部方面做得更好,但在場和被納入之間有很大區別。如2021年聯合保護者等演習,經常邀請國際合作伙伴和民間主題專家來幫助規劃過程,但他們往往在軍事規劃人員完成工作后才被邀請對計劃發表意見。許多總部的規劃周期缺乏靈活性,這意味著當規劃被提出來供審查時,可能已經來不及進行修改了。
這不僅僅是對軍隊的觀察;文職專家往往不熟悉軍事進程,等待被邀請做出貢獻,這削弱了他們的影響力。軍事人員沒有本能地理解他們的非軍事同事所能做出的全部貢獻,因此沒有將他們納入其中。人工智能將迫使人們從一開始就需要在規劃過程中建立整個部隊的多樣性,從而使計劃成為真正的合作。
有了人工智能的能力,技術將越來越多地成為整個部隊的一個成員。國際象棋大師加里-卡斯帕羅夫(Gary Kasparov)曾指出,好的技術和好的人類棋手的結合,往往比卓越的技術或更好的人類棋手單獨工作更成功。在某些情況下,人和機器可能在共享任務中緊密結合,以至于他們變得相互依賴,在這種情況下,任務交接的想法就變得不協調了。這在支持網絡感知的工作設計中已經很明顯了,在這種情況下,人類分析員與軟件智能體相結合,以近乎實時的方式理解、預測和回應正在發生的事件。
從這些人機一體的團隊中獲得最大利益,不僅僅是有效的任務分配。它涉及到找到支持和提高每個成員(人或機器)績效的方法,從而使集體產出大于單個部分的總和。正確的行為和創造包容性文化的能力對于從這樣的團隊中獲得最大收益至關重要。指揮官不應專注于試圖管理 "突發事件"--一個試圖描述簡單的事情如何在互動中導致復雜和不可預測的結果概念--或團隊成員的活動,而是需要在塑造團隊和培養團隊內部的關系方面投入更多。
雖然人工智能目前作為一種工具,但隨著技術的發展,它應該被視為團隊的真正成員,擁有影響人類隊友的權利和對他們的責任。然而,無論其最終地位如何,人工智能都可能改變團隊的動態和對人類團隊成員的期望。將人工智能引入一個團隊會改變團隊的動態,而它與人類團隊成員的不同會使團隊的形成更加困難。通過布魯斯-塔克曼(Bruce W Tuckman)的經典階段,即形成、沖刺、規范和執行,需要妥協和適應。人工智能目前不太能做到這一點,需要人類參與者有更大的靈活性,這使得建立人機團隊更加困難,也更難恢復已經失去的信任。
高級人工智能,如果可以說有動機或偏見的話,很可能是以邏輯和任務為導向的(用實力部署清單術語來說,就是綠色和紅色)。一個平衡的團隊將越來越需要能夠維持團隊關系的人類,無論是內部還是跨團隊。因此,人機團隊將是不同的,盡管他們可能與包括神經多樣性同事在內的純人類團隊有一些相似之處,因為對他們來說,感同身受或理解情感線索是困難的。與神經多樣性團隊一樣,人機團隊將受益于團隊成員的多樣性給整體帶來的價值,但也需要進行調整,以最大限度地提高團隊績效的機會。人工智能作為團隊成員的概念究竟會如何發展,目前還不清楚,但有人呼吁組織在更平等的基礎上考慮先進技術的需求。加強企業人工智能在業務支持活動中的使用,將為探索人機團隊如何最有效地合作提供機會,并有可能實現預期運行成本的降低,使人類在價值鏈上從事更有意義的工作。
需要的新的領導風格、新的技能和對技術、數據和風險的進一步理解也需要新的職業管理方法。軍隊的職業管理系統(過于)頻繁地調動人員,但要形成具有必要信任度的有效團隊需要時間。軍隊可能會放慢關鍵人員的流動,甚至可能放慢團隊的流動,從而使總部高級團隊作為一個集體實體而不是個人來管理。然而,目前的人力資源實踐使軍隊或工業界不太可能愿意無限期地保留人們的職位以期待未來的需求。用拉斐爾-帕斯卡爾和西蒙-鮑耶的話說,這就產生了 "混合團隊",即那些成員不固定的團隊,對他們來說,迅速建立團隊信任的能力至關重要。即使是常設總部也會受此影響,特別是當他們成為 "整體部隊 "時。對于'臨時團隊',例如為特定任務而設立的臨時總部,這個問題就更加突出。需要有機制來加速信任的發展,經驗表明,這可以通過早期的行為實踐來實現,包括展示 "技術能力、信息公開、支持互惠和決策中被認為的誠信"。
放慢總部高級職位人員的流動速度將有所幫助,但這還不夠。在無法保證預先建立的團隊在需要時隨時準備好執行任務的情況下,需要有一種方法來減少組建新的部隊團隊的時間。模擬提供了一種方法,通過壓縮任務演練的時間來準備新組建的團隊,并為整個部隊的不同組成部分提供共同工作的經驗。軍隊在這方面做得很好;軍隊的社會化進程創造了強大的紐帶,包括派人到合作伙伴那里進行培訓、演習和任務。對于整個部隊的其他部分來說,這種對跨文化理解的投資是缺乏的。建立對對方的了解,從而建立信任,對文職部門來說同樣重要。軍隊可以做得更多,為其工作人員提供與商業部門合作的經驗,包括與技術專家、數據專家和編碼人員合作,而文職人員也需要更好地了解軍隊、其語言、流程和價值觀。武裝部隊可以通過提供交流任命和模塊化和/或縮短其課程來協助這一進程,使文職人員有可能參加。冠狀病毒大流行引入了新的工作方式,并加速了軍事訓練和教育的變化,這可以為信任提供基礎,在此基礎上可以出現新的團隊和總部類型。
簡而言之,人工智能輔助決策不僅僅是一個技術問題;它需要改變指揮結構、流程和人員技能,才能發揮其潛力,成為武裝部隊在所有任務中運作的一場革命。然而,至關重要的是,在適應不斷變化的戰爭特征時,武裝部隊不能忽視戰爭的持久性:指揮官必須保持領導者和戰士的身份,能夠激勵普通人在最困難的情況下做出非凡的事情,而不僅僅是善于管理戰斗的人。在軍事方面,人工智能是一種工具,可以最大限度地提高武裝部隊在激烈競爭環境中的獲勝機會。
人工智能正迅速成為我們國家安全結構的一個核心部分。軍方和情報機構正在嘗試用算法來理解大量的數據,縮短處理時間,并加速和改善他們的決策。對人工智能越來越多的使用和熟悉可以促進對它的信任,但正如專家們的辯論所表明的那樣,要建立和維持對像人工智能這樣的變革性技術的信任,存在著嚴重挑戰。
本文重點討論了人工智能的作戰和任務支持應用,并探討了不斷發展的人與人工智能關系對未來軍事決策和指揮的重要性和影響。當軍事指揮官的角色從控制者轉變為團隊伙伴時,當我們不能再將輔助功能只賦予人工智能體時,那么我們就需要從根本上重新思考人類的角色和我們的機構結構。簡而言之,我們需要重新評估人機決策中信任的條件和意義。沒有這種信任,人工智能的有效采用將繼續比技術的發展更慢,而且重要的是,落后于我們一些對手采用人工智能的速度。
一個稍加修改的信任概念--一個不需要將意向性或道德性歸于人工智能體的概念--可以而且確實適用于AI。只要我們委托機器做可能對人類產生嚴重甚至致命后果的事情,我們就會讓自己變得脆弱。只要存在人工智能的表現達不到我們預期的風險,對它的任何使用基本上都是一種信任的行為。
除了最罕見的情況,對人工智能的信任永遠不會是完全的;在某些情況下,用戶可能有意識地同意較低的信任水平。這種信任需要考慮五個不同的元素,作者稱之為 "信任點"。我們不應該依賴任何一個單一的點來產生整體的信任。事實上,往往得到最多關注的領域--關于數據質量或人工智能輸出的可解釋性問題--從長遠來看,必然會提供不令人滿意的答案,并有可能對技術產生錯位的放心感。
最常被忽視的是在組織生態系統層面上對信任的需求。這需要重新思考武裝部隊的組織及其C2結構。如果說機器的作用越來越大曾經是官僚軍隊結構興起的關鍵驅動力,以集中管理手段,那么人工智能正在以根本的方式挑戰常備軍的這一特點。如果人工智能的使用不僅僅是模擬工作方式的數字化,國防部必須改變其在 "行動(operate)"和 "作戰(warfight)"方面的決策結構。它還需要與整體部隊的各個方面進行更密切的接觸和參與,包括其未被充分利用的后備部隊以及工業和更廣泛的政府。
領導力作為軍事職業的一個持久要素也需要重新考慮。人們傾向于將領導力視為軍事指揮的一種抽象或不可改變的品質。在人工智能時代,指揮任務或領導團隊既需要新的技能(如 "表達數字(speak digital)"的能力),也需要更多樣化的特質(例如,在數據和直覺發生沖突時,橫向思考的能力,構建問題的框架,并應用批判性的判斷)。與以往相比,人工智能更需要那些能夠理解復雜性、構建問題并根據情況提出正確問題的指揮官。這些 "故意的業余愛好者 "摒棄了早期狹隘的專業化,選擇了范圍和實驗思維;他們可以建立專家團隊,吸取專家的意見,使集體人才既廣泛又深入。這些全軍團隊將包括人類和機器,所有這些人都將根據他們在塑造和決策方面的專長作出貢獻。
在尋求回答信任如何影響軍事決策中不斷發展的人與人工智能關系時,本文提出了幾個需要進一步研究的關鍵問題:
如果我們不從根本上改變如何獲取、培訓和培養領導崗位的人員,以及如何改革他們所處的機構和團隊,我們就有可能在人機關系的信任平衡上出錯,并將無法利用人工智能的全部變革潛力。
克里斯蒂娜-巴利斯是QinetiQ公司的培訓和任務演練的全球活動總監。她在大西洋兩岸有20年的經驗,包括咨詢、工業和公共政策環境,特別關注國防、全球安全和跨大西洋關系。她曾是華盛頓特區戰略與國際研究中心歐洲項目的研究員,Serco公司負責戰略和企業發展的副總裁,以及巴黎Avascent公司的負責人和歐洲業務主管。她擁有華盛頓特區約翰霍普金斯大學高級國際研究學院和意大利博洛尼亞大學的國際關系碩士和博士學位,以及英國和德國的商業學位。
保羅-奧尼爾是RUSI的軍事科學部主任。他在戰略和人力資源方面有超過30年的經驗,他的研究興趣包括國家安全戰略和國防與安全的組織方面,特別是組織設計、人力資源、專業軍事教育和決策。他是CBE,英國特許人事與發展協會的會員,溫徹斯特大學的客座教授,英國后備部隊外部審查小組的成員。
在 2016 年人工智能促進協會 (AI) 發表的講話中,當時的協會主席呼吁 AI 為了魯棒性而犧牲一些最優性 [1]。對于 AI,魯棒性描述了系統在各種情況下保持其性能水平的能力 [5]。通過機器學習開發和驗證高質量模型面臨著特殊的挑戰。一般公認的大多數人工智能需要魯棒的原因包括:
? 訓練和運行數據的不確定性;
? 輸入來自不同訓練集,但在統計上或語義上與訓練群體一致;
? 訓練群體之外的輸入;
? 用有限的數據學習;
? 面對新穎的情況,需要不同于學習策略和分類器的開發方式;
? 對抗性行動。
此外,對于人類 AI 協作團隊,人類必須適當地信任 AI 系統;因此,透明度也可以被視為魯棒性問題。混合戰爭為人工智能的魯棒性帶來了額外的挑戰。決策的不同性質和必要的決策支持擴大了所需模型的范圍。在不同條件下開發的模型組合使用會影響可以對復合系統質量做出的統計聲明。
如果我們需要魯棒性,我們必須考慮它的度量。對與上述條件相關的魯棒性研究的調查,提供了一系列可能的措施。北約聯盟實施的混合戰爭需要了解所使用能力的魯棒性。在本文中,我們從當前文獻中調查了魯棒性度量的前景。在這樣做的過程中,我們有助于了解聯盟內部各種模型和軟件的組合。
現代混合戰爭不僅包括傳統戰爭,還包括政治和網絡戰爭(以及其他),其越來越依賴人工智能 (AI) 在日益復雜的環境中執行任務。許多現代 AI 實現都是使用機器學習 (ML) 技術構建的,使用數據旨在來表示預期的情況。這意味著:
? 大多數當前的 AI 構建塊都是為特定目的而構建的,雖然旨在泛化以支持現實世界的輸入,但并不總是能夠處理不熟悉的情況(輸入)。它們是“黑盒”設計,可以實時或近乎實時地執行復雜的決策或環境解釋(分類),但通常只能為已知輸入產生可靠的答案。
? 如果提供以前從未見過的信息或通過人類可能察覺不到的攻擊,人工智能構建塊通常很容易被愚弄和混淆。
從本質上講,我們正在處理的是一個易受影響的問題:現代 ML 解決方案,實際上還有其他 AI 解決方案,本質上很容易被他們不熟悉的數據所欺騙 [2] [3]。例如,這使得依賴于它們的指揮和控制 (C2) 決策樹邏輯容易發生故障。當然,我們想知道如何通過確保利用人工智能的 C2 對故障具有魯棒性來保護自己免受此類漏洞的影響。
總結:
? 許多機器學習方法天生就容易受到環境變化和攻擊的影響;
? 因此,依賴機器學習(主要基于神經網絡(NN))的人工智能系統本質上是脆弱的;
? 因此,必須使依賴人工智能的混合戰爭變得強大。
ML 方法的訓練和運行都基于以下幾個方面:(1)輸入數據,(2)內部結構,以及(3)學習算法。機器學習的脆弱性可能是由許多因素造成的。出于本文的目的,我們假設網絡內部結構是靜態的、足夠強大且安全的,雖然還有許多其他因素,但我們考慮了兩個主要方面:(a) 訓練數據不佳,(b) 以前未使用的業務數據。因此,我們的重點是 ML 解決方案的輸入數據。
天真地,我們假設 ML 方法(尤其是 NN)是使用高質量(“好”)輸入數據訓練的:在運行期間可能期望 選擇性表示AI 處理的輸入范圍。這個想法是,在運行過程中,人工智能可以為運行數據產生“正確”的決策,這些決策與訓練它的數據相似。換句話說,人工智能必須能夠進行插值,并且在某種程度上還可以推斷其原理。
在最壞的情況下,糟糕的訓練數據會導致訓練出不符合目的的機器學習模型,或者在最好的情況下會導致生成“愚蠢”的模型;也就是說,只能做出具有高度不確定性的模糊決定。然而,在數據質量范圍的另一端也存在危險,因為雖然“好的”訓練數據可能會產生一個可以做出非常準確的決策的模型,但它可能只能使用窄范圍的輸入數據來做到這一點。當然,我們希望機器學習既能滿足其性能要求,又能適應它最初沒有訓練過的新環境;即能夠處理新穎事物場景。
因此,ML 的一個重要目標是構建一種泛化良好的能力。在狹窄的應用程序中,我們希望確保在環境樣本上訓練過的模型能夠像宣傳的那樣在整個環境中工作。最終,我們希望人工智能面向復雜環境的處理能力,可針對所有現實,或者至少是人類感知的所有現實。從某種意義上說,這完全涵蓋了所有情況,沒有新的情況。如果我們觀察牛頓宇宙并且擁有巨大內存量,那么所有情況都可以從當前數據中預測出來。但是,由于我們對宇宙建模的能力受到嚴重限制,因此可能會經常出現新穎情況。在不可能為復雜環境訓練模型的前提下,當這些模型被引入現實世界時,模型應該能應對各種突發情況。
因此,表征模型的魯棒性具有挑戰性,需要考慮模型的不同方面的魯棒性。雖然有許多可用的魯棒性定義,但應區分用于傳統軟件魯棒性的定義,例如 IEEE 24765[4] 的定義,以及與 AI 模型相關的定義。本文中使用 ISO CD22989 [5] 中提供的定義:
魯棒性是“系統在任何情況下保持其性能水平的能力。魯棒性屬性表明系統有能力(或無能力)在新數據上具有與訓練它的數據或典型運行數據相當的性能。”
在定義了術語“魯棒性”之后,由于本文的重點是魯棒性度量,我們現在將定義術語“度量”,應用于魯棒性。為了在編寫定義時為我們的思考過程提供信息,確定度量魯棒性可能具有的各種目的以及利益相關者可能是誰,是有用的。由于魯棒性度量的目的和要求將取決于 ML 模型的生命周期階段,因此我們分析了生命周期階段的目的。
盡管許多 ML 模型將基于 NN,但我們的分析擴展到涵蓋 ML 類型和架構的不同變體,并指出 ML 的主要變體是:NN、決策樹和強化學習。
在 ML 模型設計和開發階段,開發人員將試驗模型設計并調整模型的架構和參數,以優化模型的性能。在這個階段,魯棒性度量的目的既可以是提供一種在進行這些更改時度量魯棒性改進的方法,也可以描述模型如何表現魯棒性。此外,不同模型的開發人員之間商定的度量標準將允許在模型設計之間進行可靠的比較。
在系統設計階段,在選擇現成的ML模型納入整個系統時,度量魯棒性將通過提供一種方法來比較一個模型與另一個模型的魯棒性水平和性質,從而為系統設計者提供關于模型選擇的決策信息。
在部署之前,安全從業人員將使用魯棒性度量來為包含 ML 的系統的安全風險評估提供信息。具體來說,該度量將為 ML 模型的漏洞分析提供信息,若該模型具有低魯棒性,則表示攻擊者可以利用漏洞。
最后,在部署階段,從單個 ML 組件的魯棒性度量中得出的整體系統魯棒性度量,將支持最終用戶對系統輸出或行為的信任和信心。
鑒于上述使用范圍和相關利益者,出于本文的目的,我們將有意保留術語“度量”的寬泛定義。我們的定義超出了純粹的測量或量化行為,包括我們如何描述或表征 ML 在任何特定環境中的魯棒性。因此,我們將本文的其余部分基于以下定義:
魯棒性度量是 ML 模型在其生命周期中可能面臨的各種挑戰的魯棒性的度量或表征。特定度量的精確性質將取決于 ML 模型的類型、模型旨在完成的任務、以及模型所處生命周期的階段。
在考慮魯棒性度量時,我們通過提出“面對……什么的魯棒性?”這個問題開始分析。這生成了一個 ML 模型可能面臨的情況列表,在這些情況下,它們的魯棒性可能會受到挑戰。我們稱這些為“面對”條件。
? 訓練和運行數據的不確定性;
? 不同于訓練集的輸入,但在統計上或語義上與訓練群體一致;
? 訓練群體之外的輸入;
? 用有限的數據學習;
? 新穎的情況,不同于學習策略和分類器的開發方式;
? 對抗性行動;
我們的文獻檢索提供了許多關于魯棒性的先前研究,對于每一項,我們都試圖確定它們適合哪些類別。雖然這并不總是顯而易見的,但它似乎代表了一種構建分析合乎邏輯的方式。因此,在以下段落中,我們嘗試以這種方式對文獻檢索中的單個研究進行分類。
對于每個類別,我們描述了每個魯棒性挑戰的性質和細節,然后是用于度量魯棒性的度量指標類型。盡管本文中對魯棒性的審查不包括混合戰爭示例,但所討論的內容適用于混合戰爭方法。
能夠處理訓練和運行數據中的不確定性對于 AI 來說至關重要,它代表了當前 ML 系統的關鍵組成部分,尤其是那些在軍事領域等危急情況下使用的系統。
在 ML 中,目標是在給定的成本函數情況下,學習最適合訓練數據的模型參數。然后,部署該模型以獲取對新數據和未見過數據的預測。作為訓練過程的結果,任何學習模型都帶有不確定性,因為它的泛化能力必然基于歸納過程,即用數據生成過程的一般模型替換特定觀察[6]。盡管研究界做出了許多努力,但沒有任何現有的 ML 模型被證明是正確的,因為任何可能的實驗都嚴重依賴于假設,因此當受到以前未見的輸入數據影響時,每個當前的 ML 模型輸出仍然是不確定的。
不確定性在統計領域有著悠久的歷史,從一開始,它就經常被聯系起來并被視為一個類似于標準概率和概率預測的概念。然而,在最近,由于當前對 ML 的炒作以及如今基于此類解決方案的系統正在控制我們的日常生活,研究界對此類概念的興趣越來越大。這首先是出于安全要求,為此需要新的方法來應對。
在現有文獻中討論 ML 不確定性的不同方法中,可以根據所考慮的不確定性類型對它們進行聚類。當前的大多數作品都解決了偶然或認知不確定性。
對 ML 中的不確定性進行建模的傳統方法是應用概率論。這種概率建模通常處理單個概率分布,因此忽略了區分偶然不確定性和認知不確定性的重要性 [7] [8]。
偶然不確定性:我們可以將其稱為統計不確定性,它源于實驗結果可變性的隨機性概念。簡而言之,當提到偶然不確定性時,我們隱含地指的是即使存在任何其他信息源也無法減少的不確定性。讓我們通過一個非常基本的例子來描述這一點:假設我們想要模擬拋硬幣的概率結果。我們可以定義一個概率模型,該模型能夠提供頭部或尾部的概率,但不能提供保證的結果。這種不確定性定義了總不確定性的不能復歸的部分。
認知不確定性:也稱為系統不確定性,這是由無知/缺乏知識決定的總不確定性的一部分。這種不確定性是由于機器學習系統的認知狀態造成的,并且可以通過附加信息來減少。例如,假設我們有一個 ML 模型學習一門新語言,并且給它一個新詞,它應該猜測它是指頭還是尾。智能體對正確答案的不確定性與預測拋硬幣時一樣不確定,但是通過在情況中包含額外信息(即提供同義詞或解釋單詞的正確含義),我們可以消除任何不確定性在答案中。因此應該很清楚,與偶然性相反,認知不確定性定義了總不確定性的可還原部分。
既然我們已經定義了偶然不確定性和認知不確定性,我們將考慮有監督的 ML 算法以及這兩種不同類型的不確定性如何在 ML 中表示。
在監督學習環境中,我們可以訪問由 n 個元組 (xi,yi) 組成的訓練集 D = {(x1,y1),…,(xn,yn)},其中 xi (屬于實例空間 X)是包含特征的第 i 個樣本 (即,測量值),而 yi 是來自可能結果集 Y 的相關目標變量。
在這種情況下,ML 算法具有三個不確定性來源:
? 偶然不確定性:通常,X 和 Y 之間的相關性不是確定性的。因此,對于給定的輸入 xi,我們可以有多個可能的結果。即使存在完整的信息,實際結果 yi 也存在不確定性。
? 模型不確定性:為解決給定問題而選擇的模型可能遠非最適合該任務的模型。這是由于模型的正確性和假設的正確性存在不確定性。
? 近似不確定性:通過優化過程學習的模型參數只是對真實假設的估計。這種估計是由于在學習過程中使用的數據缺乏保真度。
模型和近似不確定性都代表認知不確定性。
應該注意的是,對于 ML 算法,偶然不確定性和認知不確定性在很大程度上取決于環境。例如,通過允許學習過程改變最初定義的場景的可能性,可以減少偶然不確定性以支持認知不確定性;也就是說,原始環境中的偶然不確定性并沒有改變,而是通過改變環境而改變(類似于在擲硬幣的例子中加權硬幣的一側)。相反,如果我們考慮一個固定的初始場景,我們知道認知不確定性(即缺乏 ML 算法知識)取決于學習過程中使用的數據量(多少觀察)。由于訓練樣本的數量趨于無窮大,機器學習系統能夠完全降低逼近不確定性。
表示不確定性的不同 ML 方法具有不同的能力,可以根據以下內容進行聚類: (i) 表示不確定性的方式; (ii) 如果處理兩種類型的不確定性(偶然性和認知性)中的兩種或僅一種; (iii) 如果他們提供了任何可用于提供不確定性數量粗略估計的解決方案。
高斯過程 (GP) [9] 是一種用于監督學習的通用建模工具。它們可用于泛化多元隨機變量的貝葉斯推理和函數推理。在分類的情況下,GP 具有離散的結果,不確定性定義的困難在于知識的表示,然后將其識別為模型的認知不確定性,就像在貝葉斯方法中一樣。在回歸的情況下,可以將偶然不確定性(即誤差項的方差)與認知不確定性區分開來。
在機器學習中,最大似然估計原理起著關鍵作用。事實上,如果一個模型可以“非常接近”似然函數的最大值,這意味著數據的微小變化可能對估計的影響有限。如果似然函數是平滑的,它可能是一個很好的指標,表明估計存在高度的不確定性,這可能是由于許多參數的配置具有相似的似然性。
在 ML 中,我們經常利用 Fisher 矩陣 [10] 來表示認知不確定性的數值 [11]。
生成模型可用于量化認知不確定性。考慮到這些方法的概率性質,這些方法旨在模擬數據分布的密度,通過確定給定數據是否位于高密度或低密度區域,這些模型隱含地提供有關認知不確定性的信息。這一類別中最相關的工作是基于核密度估計或高斯混合,最近在深度自動編碼器方面取得了一些進展[12]。
密度估計是處理異常和異常值檢測方法的關鍵要素,后者只是一個分類問題,當樣本位于低密度區域時,它被認為是分布之外的問題。這樣的成果反而捕捉了偶然的不確定性。
一般來說,生成模型解決了一個非常具有挑戰性的問題,需要大量數據才能正常工作,并且通常具有很高的不確定性。
人工深度神經網絡 (DNN) 本質上是一個概率分類器,我們可以將訓練 DNN 的過程定義為執行最大似然推理。這導致模型能夠生成給定輸入數據的概率估計,但不能提供有關其概率置信度的詳細信息:捕獲了偶然的不確定性,而沒有捕獲認知。盡管如此,后者通常被稱為模型參數的不確定性。在文獻中,最近有一些作品 [13] [14] 試圖通過將貝葉斯擴展引入 DNN 來模擬這種認知不確定性。
模型集成(Model Ensembles )模型類的常見示例是 bagging 或 boosting。這種方法非常受歡迎,因為它們可以通過產生一組預測而不是單個假設來顯著提高點預測的準確性[15]。可以包含在此類中的最相關的工作是隨機森林模型 [16]。此類別中的方法主要關注整體不確定性的任意部分。
Credal 集(Credal Sets)是一組概率分布,它是貝葉斯推理推廣的基礎,其中每個單一的先驗分布都被一個候選先驗的Credal 集所取代。作品 [17] [18] 研究如何定義Credal 集的不確定性以及相關表示,定義了存在于Credal 集中的兩種類型的不確定性:由于隨機性導致的“沖突”和“非特異性”。這些直接對應于任意和認知的不確定性;通常使用 Hartley 函數 [19] 作為標準不確定性度量; [20] 還定義了一種工具,可用于評估 ML 系統在面對訓練和操作數據的不確定性時的魯棒性。如果我們知道給定隨機變量的未知值在給定的有限集中,Hartley 函數可用于評估不確定性。此外,已經通過類似 Hartley [80] 和廣義 Hartley [81] 措施提出了對無限集的擴展。
在運行期間,分類器為輸入數據的每個樣本分配一個類標簽。考慮到上述魯棒性的定義,類內可變性,即分配到同一類的所有樣本之間的可能變化,隱含地包含在用于學習分類器的訓練數據集中。
使用更具建設性的方法來定義魯棒性有助于更好地模擬用戶對分類器性能的期望。為此,如果分類器對于輸入數據的所有有意義的變體是不變的,我們將暫時稱其為魯棒分類器。顯然,所有有意義的變體的集合取決于應用場景,這通常很難描述。然而,對于許多分類問題,這種有意義的變體可以分為兩類:(i)物理修改(例如,噪聲添加、混合失真、裁剪、旋轉、縮放)和(ii) 輸入樣本的語義修改(例如發音的不同方式)。圖 1(1) 說明了手寫數字分類示例的這兩類可能變體。我們考慮書寫數字“9”的不同變體。而(如圖 1 所示)噪聲添加 (a) 和混雜失真 (b) 可被視為屬于第一類,第三類 (c) 在數字“9”上添加一個小弧線是有意義的(句法)變體,特別是不同國家的當地文化,它使符號(“九”)的語義保持不變。
圖 1 (1) 手寫數字 9 的可能數據變體,(2) 使用變分自動編碼器 (VAE) 重建的數字 3、8、9 的空間,該編碼器對來自 MNIST 語料庫的各個數字進行訓練,(3) 對應的潛在空間表示顏色編碼數字類型。
AI/ML 相對于第一類變體的魯棒性,尚未得到令人滿意的解決,但近年來已在相當程度上得到解決。在許多涉及對第一類變體的魯棒性的出版物中,基礎數據樣本被建模為歐幾里得向量空間中的向量。然后通過將范數有界向量添加到數據樣本來對失真進行建模。這里,通常使用 Lebesguetype 范數(lp norms)(特別是 l1、l2 和 l∞)。在一篇被廣泛引用的論文 [20] 中表明,這種 l2 范數有界的“對抗性攻擊”可用于在基于神經網絡的分類器中導致錯誤分類。隨后,在對抗性攻擊和相應的保護方法領域做了很多工作(本文稍后將進一步詳細討論)。結果表明,在許多情況下,攻擊很難檢測到,并且對于當時最先進的方法,可以繞過檢測 [21]。顯然,在這種情況下的魯棒性需要保護免受對抗性攻擊。在這種對抗性攻擊環境中定義魯棒性的許多方法可以在一個通用框架下捕獲,如 [22] 所示。
第二類,數據樣本的語義上有意義的變體,導致了迄今為止很大程度上尚未解決的重大挑戰。相應地,在[68]中,對所謂的感知擾動的魯棒性被稱為一個開放的研究問題。盡管現代基于 AI 的分類器,特別是深度神經網絡,在眾所周知的公共分類挑戰上取得了破紀錄的改進,但相比之下,它們的判別性自然不會導致分類結果的易解釋性。近年來,整個研究分支都集中在可解釋的 AI 上,即,研究通過給定分類器對映射到相同類別的樣本集進行形式化甚至語義化的方法。
理解分類器語義的一個重要方法是將成功的判別分類器與生成模型結合起來。生成方法的優點是可以使用這些模型生成來自原始(樣本)空間的示例。一種結合分類器和生成模型的成功方法是生成對抗網絡(GAN)[24]。
也可以適用于分類的生成模型是(變分)自動編碼器(VAE)[25]。自動編碼器的基本思想是通過訓練一個深度神經網絡來學習原始數據的緊湊表示,該網絡在兩端具有全維(相對于原始數據)層,中間有一個稀疏的“瓶頸”層。圖 1 (2) 和 (3) 說明了如何使用 VAE 來“理解”網絡學習的類別:(2) 顯示了一組具有代表性的重構,這些重構是由經過訓練的 VAE 的生成部分獲得的,用于對 MNIST 數據集的數字“3”、“8”和“9”進行分類。因此,在某種意義上,(2)總結了分類器準備識別的內容。在圖 1 的右側,(3)顯示了從 VAE 的分類器分支獲得的輸入樣本(即 MNIST 數字)的潛在空間表示。顏色對三個數字進行編碼。潛在空間點和重構樣本之間的對應關系如箭頭所示。在藍色中,繪制了將 9 的流形與其他數字分開的曲線,以指示學習的分類邊界。考慮到這個例子,我們注意到上述變體 (c) 在重建部分 (2) 中沒有很好地表示 - 考慮到語義庫受到北美書寫數字風格的偏見,這并不奇怪。因此,為了使分類器對變化 (c) 具有魯棒性,必須應用額外的措施,例如增加或添加到訓練數據中。
基于生成模型,Buzhinsky 等人[26] 提出了幾個指標來衡量分類器對“自然”對抗樣本的魯棒性。為此,他們提出了一組在潛在空間中工作的六個性能指標,并隨后顯示了上述經典對抗魯棒性和“潛在對抗魯棒性”之間的聯系,即對潛在空間擾動的魯棒性。后者的有趣之處在于,幾個示例的潛在空間擾動已被證明與原始樣本空間中語義上有意義的變體相對應。
我們注意到經典的對抗魯棒性已經可以用于獲得關于小范數有界擾動的人工智能分類器的“認證”魯棒性。然而,語義魯棒性更難以形式化,并且與正確理解和建模目標類密切相關。為此,生成模型是一個重要的工具。諸如投影信念網絡 (PBN) 等新概念,即基于前饋神經網絡結構的分層生成模型,具有易于處理的似然函數的優勢,在該領域非常有前景 [27]。
最近的一項工作 [75] 涉及一種稱為復雜事件處理的 ML 形式,其中融合了來自多個傳感器的具有空間和時間關系的多模態輸入,以允許深度學習模型推斷特定類型的事件,例如槍聲或爆炸。此類事件被稱為“復雜事件”。因此,魯棒性的概念并不適用于模型本身,而是適用于機器學習功能所包含的整個組件系統。該研究聲稱,(a)人類邏輯在基于模式和序列預定義復雜事件中與(b)來自單個傳感器的深度學習推斷相結合,提高了系統對錯誤分類的魯棒性。
在 [78]中,Ashmore 等人識別一組關于輸入域及其子集的定義:I 輸入域空間——模型可以接受的輸入集; O,運行域空間——模型在預期運行域中使用時可能預期接收的一組輸入; F,故障域空間——如果系統其他地方出現故障,模型可能接收到的一組輸入; A,對抗域空間——模型在被對手攻擊時可能收到的一組輸入;其中 O、F 和 A 都是 I 的子集。這些定義不僅在考慮訓練群體之外的輸入(可以從 O、F 或 A 中得出)時很有用,而且在推理模型的輸入時更普遍。
小的、像素空間的擾動,人類可能察覺不到,通常使用 lp 范數測量擾動幅度,是評估模型魯棒性的合理方法(將在 2.6 節后面討論);特別是在對抗性攻擊的可能性更高的混合戰爭領域。然而,在考慮評估模型的魯棒性時,這些小擾動不一定適用于 Ashmore 的攻擊域空間 (A) 之外。最近,獨立的工作 [79] [80] 已經開始研究擾動模型的輸入,使其遠離經常討論和研究的小擾動方法,而不是生成被認為與環境相關且人類可區分的擾動:這些擾動看起來會在輸入上引入純粹、模糊或朦朧等(這可以合理地代表來自 F 或 O 的輸入)。
此外,在 [80] 中,作者建議對語義相關的圖像引入有意義的擾動,但這些擾動可能尚未包含在模型訓練集中;例如,例如,將一群鵝引入一個場景,在這個場景中,模型正在識別停車場中的車輛數量。雖然最后一類有意義的擾動顯然是 Ashmore 的輸入域空間 (I) 的一部分,但可以說,如果訓練數據集不足,這些語義相關的擾動也可以被視為運行域空間 (O) 的一部分。有趣的是,[80] 還發現,當增加系統對小擾動的魯棒性時,模型在處理語義上有意義的擾動時可能變得不那么魯棒,因此考慮評估模型對這兩種擾動類型的魯棒性顯然很重要。
為了評估模型對這種語義上有意義或環境相關的擾動的魯棒程度,[80] 的作者提出了一種用于引入擾動的滴定方法,這樣可以逐步測量在模型的準確性變得可疑之前引入擾動(例如,通過其置信度或已知基礎事實的分類變化)。當考慮模型在預期的運行域空間中的應用時,這提供了一個進一步的度量標準來評估模型的魯棒性。
眾所周知,使用深度學習需要大量數據來學習復雜的任務。如果訓練數據太小,模型會過擬合,泛化能力很差。不幸的是,獲取高質量的訓練數據既困難又昂貴,因為它通常需要人工標記。例如,細粒度的 Cityscapes 數據集平均需要 1.5 小時來標記每個樣本 [28]。此外,與為學術目的(概念驗證、評估、基準測試等)開發的數據集不同,軍事數據集還必須包含代表在現實世界可能發生但難以觀察甚至預測的大量邊緣情況的數據。如果沒有這樣的訓練數據,在可能最重要的時候,或者在條件因敵對行動而意外改變的時候,軍事模型的實際價值將是有限的。
軍事應用的數據采集挑戰是重大的,但也是必須解決的,以確保模型在現實世界中部署時是強大的。幸運的是,許多轉移學習技術[29][30][31]已經被提出,這些技術利用了深度神經網絡可以學習到可轉移的一般特征,因此,可以被其他類似的任務重新使用[32]。預訓練與微調相結合,通常用于利用少量/有限的數據進行學習,同時避免昂貴的大規模模型(如GPT-3)的再訓練,這些模型可能需要專門的硬件來學習。其主要思想是:
1.將預訓練的源模型的一部分復制到目標模型中;
2.向目標模型添加一個或多個隨機初始化的(未訓練的)層,使最后一層與目標的標簽空間相匹配;
3.使用標記的目標域數據訓練模型。
然而,這些技術不能用于軍事數據來自特殊傳感器(如激光雷達、紅外、合成孔徑雷達和高光譜)的情況,這些傳感器很少有預先訓練好的模型,或者過于敏感,甚至在盟友之間也不能共享。
無監督領域適應是另一種轉移學習技術,雖然它在淺層學習中已經被研究了幾十年,但最近在深度學習中也受到了很多關注[33]。使用這種技術,來自源域的標記訓練數據可以用來訓練一個使用目標域的無監督數據模型。該方法假設源域的標記數據成本低且容易獲得。
從軍事角度來看,這個想法很有吸引力,因為源數據有可能是合成的。也就是說,已經存在的模擬器或其他生成模型有可能被改編為不僅能生成完美標記的源數據,還能生成代表邊緣情況的數據,否則很難甚至不可能獲得這些數據。基于模擬的方法將完全消除人類的標記工作,否則可能會導致不正確、有偏見和不完整的數據集,這些數據集在訓練時也會轉移到模型中。使用無監督領域適應性來彌補 "模擬到真實"的差距(sim2real)正在積極進行[34][35],使用各種技術,其中許多依賴于使用對抗性方法,如領域損失函數[36][37]和生成性對抗網絡(GANs)[38][39]。
為了在復雜環境中發揮作用,人工智能必須表現出對新事物的魯棒性。DeepMind[41]的演示表明,ML可以被用來開發策略,從而在僵硬的游戲中實現超人的發揮。圍棋“Go”這個游戲提供了一個復雜的環境,超過了我們對游戲可能狀態的存儲極限,因此提供了前面討論的關于我們對牛頓宇宙建模的極限的情況。然而,如果改變了游戲規則,生成的代理就會變得很脆弱或者完全失敗。在[42]中,這種類型的結果在一個更簡單的環境中被證明,實驗闡明不同的變化如何影響代理的魯棒性。
但新穎性不僅僅是數據點不包含在 ML 訓練集中的情況。為了將新穎性的研究結合起來,[43] 提出了一個描述新穎性的框架。圖 2 說明了人們如何以一種可以同時衡量新穎性和代理反應的方式看待新穎性。這種新穎性觀點的關鍵在于,可以將新穎性考慮到與世界有關的方面以及與代理人的經驗有關的方面。同樣,對代理任務有影響的新穎性,對魯棒性的影響不同于對任務沒有影響的新穎性。這也是 Chao [42] 中證明的一個發現。
圖 2. 考慮新穎性的框架。
DARPA SAIL-ON 計劃 [40] 中采用的一種基于游戲的新穎性實驗方法。 DARPA SAIL-ON 計劃假設智能體具有以下四個要素:
? 一種性能要素,它使用已知的專業知識通過感知、推理、規劃、控制機制來完成任務并實現目標(例如,尋找和收集具有所需特征的水下物體);
? 一個監控元素,將觀察結果與期望值進行比較,以檢測環境(例如,聲納不可靠、不熟悉的捕食者)和代理自身行為(例如,車輛向右轉向)中的異常情況;
? 一種診斷要素,可定位專業問題,生成有關原因(例如,非反射表面、橫流、未對準的螺旋槳)、評估備選方案并從中進行選擇;
? 修復被認為是造成性能問題的專業知識并糾正它們的維修要素(例如,更新的聲納方程、電流敏感控制器或新的螺旋槳模型)。
正如上文關于新穎性的介紹部分所述,這項研究的大部分開始于認識到 DeepMind 用于解決圍棋、國際象棋、將棋和星際爭霸游戲的方法對游戲規則的變化并不魯棒。一個例子是南加州大學 (USC) 開發并通過 GitHub 發布的 GNOME 框架。
NIWC Pacific 與 USC 合作開發了一個版本,英國 Dstl 使用 GNOME 框架開發了“Hunting of the Plark”游戲。這將允許對受過訓練以玩該游戲的代理的新穎性影響進行實驗,這是圖靈研究所研究小組的重點。計劃對使用 ML 開發的決策支持工具進行進一步實驗,我們不僅可以處理模擬情況,還可以與美國海軍進行現場實驗。
個體在不知道世界形勢發生變化的情況下對新穎事物有很強的抵抗能力。這很可能是由于新穎事物對正在執行的任務并不重要,或者至少是在敏感度較低的領域變化。然而,處理新穎事物的一個策略是至少檢測到一個代理處于一個新穎的情況,即使該代理不知道如何在新穎的環境中工作,除了退出或提醒其他人注意這種情況。
代理的基本問題是:環境是否發生了變化,或者正在分析的數據是否只是在以前分布的一個尾部?目前,對于大部分的ML來說,僅僅認識到數據不在樣本范圍內可能就足夠了。至少能認識到其自身局限性的ML在許多情況下是一個進步。在這方面,經典的對抗性例子演示經常被提起:在這些實驗中,代理往往對他們的錯誤答案非常自信[44]。
在規劃系統中,識別可能基于對任務進度的動態評估。如果規劃無效,一種可能是世界以一種模型未反映的方式發生了變化。早期檢測可能會防止災難性結果,但這并不能保證。事實上,人們可以設想無法恢復的情景(在黑洞的事件視界上轉彎是一個極端的例子)。
[45] 將提供魯棒響應的任務定義如下:
? 假定:使用專業知識在一類環境情況下運行的代理架構;
? 假定:支持此類環境中可接受的代理性能專業知識;
? 假定:在突然的、未通知的更改環境中,經驗有限會導致性能降低;
? 發現:當環境發生變化時,哪些修改后的專業知識將支持可接受的性能。
對新穎事物的響應類型與正在執行的任務類型有關。在分類器中,系統可能需要調整其模型,不僅允許改變其提供的答案,還允許解釋這種變化意味著什么。例如,想象一個感知代理,其可確定機器人是否存在障礙物。相機系統的改變,例如鏡頭上的蒼蠅附著可能會為系統創造一個新局面。如果系統能夠適應并確定不存在障礙,則需要對情況進行解釋以證明答案的合理性。
圖 3. SAIL-ON 新穎性指標假設。注意程序中的 TA2 代理是那些對環境中的新穎事物做出反應的代理。
對于規劃系統,新穎性可能表現為采用新的行動或發現行動的成本與以前不同;目標可能會發生巨大變化。規劃系統可能不得不調整他們的知識,重新計算以前的任務,利用經驗來改變他們的計算。上面圖 3 中的假設說明了測量環境。在環境中出現變化之前,學習和運行可能會進行一段時間。對特定變化還不夠魯棒的代理性能會下降,必須找到一種方法來檢測新事物的發生,確定發生了什么變化并在運行中對其進行解釋。
在過去的幾十年里,已經證明基于深度學習技術的機器學習模型可以在各種任務中達到甚至超越人類水平的表現。另一方面,機器學習模型通常容易受到輸入擾動的影響,并且很容易被愚弄以產生不正確的輸出 [53] [54]。這些類型的操作被稱為對抗性攻擊,機器學習模型對抗這些攻擊的性能被測量為對抗魯棒性 [55]。在兩個不同方面研究了對抗魯棒性。第一個方面,研究人員試圖找到一種產生對抗性攻擊的方法,以最大程度地降低模型的魯棒性 [56] [57] [58] [59] [48]。第二方面,研究人員試圖找到更好的訓練或防御方法,使網絡架構對這種對抗性攻擊更加魯棒[60] [61] [62] [63] [64]。在本節中,我們調查了對抗性攻擊和防御方法,并從當前文獻中定義了對抗魯棒性的指標和測量方法。
[54] 中針對機器學習系統 M 和輸入樣本 C(稱為干凈樣本)定義了對抗性攻擊,如下所示:
“假設樣本 C 被機器學習系統正確分類,即 M(C) = y。可以構建一個對抗性樣本 A,它在感知上與 C 無法區分,但分類錯誤,即 M(A) ≠ y。”
基于此定義,對抗性攻擊的目的是修改模型輸入以導致不正確的模型輸出,使其無法被人類觀察者區分。不可區分性標準對可應用于輸入的擾動有一些限制,這在文獻中稱為 lp 范數,即
其中 ? 是最大允許擾動。最常用的范數是 l2 和 l∞。
考慮到這一限制,提出了幾種方法來生成對抗性樣本 [65] [55] [48]。生成對抗樣本主要遵循兩種不同的方法,即黑盒和白盒。在黑盒方法中,用戶不了解模型,只能訪問給定輸入的預測概率或預測類別。另一方面,假設模型及其參數在白盒方法中是完全已知的[47]。
白盒攻擊在欺騙模型方面比黑盒攻擊更有效,并且在文獻 [56] [57] [58] [48] 中使用不同的方法進行了廣泛的研究。白盒攻擊主要是基于梯度的攻擊方法:它們通常構造一個損失函數,可以導致擾動攻擊能力的提高和擾動幅度的降低,然后通過梯度優化損失函數以生成對抗樣本[66]。使用損失函數的梯度來確定對抗性擾動,可以像快速梯度符號法(FGSM)[65]那樣在一個步驟中進行,用于快速生成對抗性樣本。為了提高效果并減少擾動,在基于迭代梯度的攻擊中,不是在梯度方向上采取單一步驟,而是采取多個較小的步驟[54][48]。
對抗性攻擊也可以作為訓練的一部分。最近的一些工作[46]背景是一個對等網絡,其中每個對等體都有一份神經網絡模型的副本,以創建一個分布式的學習環境,這并不依賴于中央協調節點的存在。這樣的機器學習架構非常適用于有多個伙伴的軍事聯盟場景。最初,每個對等體擁有總訓練數據集的一個子集,隨著模型訓練的進行,模型參數在每次訓練迭代時都在對等體之間共享。
本實驗基于 Fashion-MNIST 數據集,并非試圖提高點對點 ML 的魯棒性,而是測量和優化中毒技術在導致對等體錯誤分類方面的有效性。中毒效果的衡量標準是,就訓練迭代次數而言,惡意對等體能夠可靠地毒化良性對等體的速度有多快。然而,我們相信相同的指標可以用來推斷 ML 對這種中毒的魯棒性:實現錯誤分類所需的迭代次數越多,魯棒性就越高。
已經提出了一些方法來保證在特定條件下對范數有界的對抗性攻擊的魯棒性。例如,Wong 和 Kolter [67] 使用對抗性多面體的概念為基于 ReLU 的分類器提出了可證明的防御措施。此外,[68] 中提出了一種有效且完整的分段線性神經網絡魯棒性驗證器。在該論文中,提出了一種算法,該算法基于最大 (l∞-) 范數在對抗性誤差上產生經過驗證的界限。
獲得強大的深度神經網絡的最成功的方法之一是通過對抗訓練。對抗性訓練的主要動機是將攻擊和防御都納入一個共同的理論框架,自然地封裝了大多數先前關于對抗性樣本的工作 [55]。在這種方法中,不是直接將原始數據集中的樣本輸入到訓練中,而是允許對抗性攻擊首先擾動輸入,然后將擾動的樣本輸入到訓練中。對抗性訓練以不同的方式得到增強,例如改變攻擊過程、損失函數或模型架構 [69] [50]。
對抗性訓練的性能很大程度上取決于生成增強訓練數據集時使用的損失函數和對抗性攻擊方法,并且由于需要生成對抗性樣本,與干凈訓練相比需要更長的時間。在 [73] 中,已經證明,使用具有早期停止的經典對抗訓練可以更容易地提高最先進的對抗訓練方法的性能。這表明我們對對抗性訓練的理解是有限的。在 [74] 中分析了對抗性訓練對魯棒性的影響,他們得出結論,在使用(隨機)梯度下降的干凈訓練過程中,神經網絡將在所有特征中積累一些與任何自然輸入,但極易受到(密集)對抗性擾動的影響。在對抗訓練期間,這種密集的混合物被“純化”以使模型更加魯棒。
最近開展的工作 [70] 專門研究了上述方法。事實上,這項工作旨在通過將隨機噪聲引入訓練輸入并使用隨機梯度下降 (SGD) 對其進行優化,同時最小化訓練數據的總體成本函數,從而使深度神經網絡對對抗性輸入更加魯棒。效果是在開始時隨機初始化的輸入噪聲在訓練過程中逐漸被學習。結果,噪聲近似地模擬了輸入分布,以有效地最大化給定輸入的類標簽的可能性。
作者 [70] 評估了他們在 MNIST、CIFAR10 和 CIFAR100 等分類任務上的方法,并表明以這種方式訓練的模型更具對抗性。發現噪聲和干凈圖像的組合方式對精度有重大影響,乘法比加法獲得更高的精度。魯棒性的直接度量沒有發展,而是隨著擾動水平的增加,魯棒性被量化為精度函數。
繼對抗性訓練的主題之后,[72] 表明,圖像分類深度神經網絡對對抗性輸入的魯棒性可以通過輸入空間和模型參數空間的離散化來提高,同時精度損失最小。在使用 MNIST、CIFAR10、CIFAR100 和 ImageNet 數據集的實驗中,輸入空間的離散化涉及將像素強度的數量從 256 (28) 減少到 4 (22),參數空間的離散化涉及使用低精度權重訓練模型以及諸如二元神經網絡 (BNN) 之類的激活。此外,結合這兩種離散化技術極大地提高了模型的魯棒性。與更昂貴的對抗性訓練過程(即使用對抗性示例訓練模型)相比,這種組合方案可以被視為提高魯棒性的另一種方法。在每個實驗中,通過比較分類的準確性來衡量魯棒性,同時對抗性擾動 (ε) 逐漸增加。實際上,這項工作中魯棒性的度量似乎是在保持給定精度的同時可以容忍的擾動程度。
在最后一個示例中,進行了一項相對簡單的工作 [71]。對圖像分類器的輸入進行預處理是通過將輸入饋入高斯核來實現的,其效果相當于平滑低通濾波器,其中平滑程度取決于內核的標準偏差參數。該實驗是使用 MNIST 數據集進行的,并測量了平滑和各種對抗性噪聲水平的不同組合的準確度。結果表明,為了優化給定水平的對抗性噪聲的準確性,存在一個最佳的平滑水平。在這種情況下,用于魯棒性的度量是針對給定數量的對抗性噪聲的成功攻擊的百分比。該度量允許直接比較使用和不使用平滑的性能。
對抗性魯棒性可以衡量為對抗性攻擊[47]擾動輸入的模型準確性。由于評估取決于應用的對抗性攻擊,因此很難衡量模型的實際對抗魯棒性。
文獻中的大多數作品通過使用在其訓練階段使用的相同或相似的對抗性攻擊方法和損失函數,來展示其方法的對抗性魯棒性。在[48]中已經表明,通過改變損失函數和生成對抗樣本的方法,可以實現比原始論文中報道的更低的對抗魯棒性。實際上,[48] 中指出,在 49 個案例中,有 13 個案例的魯棒性變化大于 10%,在 8 個案例中大于 30%。
在 [49] 中,通過將幾個深度神經網絡的性能與人類觀察者進行不同類型的操作進行比較,進行了類似的評估。在這項工作中,已經表明,只有在訓練階段知道所應用的操作時,深度神經網絡才能達到人類水平的性能。對于未知的操作,深度神經網絡的性能會急劇下降。此外,文獻中提出的許多防御策略都被更強大的對手打破了[48] [50]。因此,應仔細比較在不同方法下獲得的魯棒性,以確保評估盡可能有效[47]。
對抗魯棒性被報告為從擾動集中獲取的最壞情況輸入的模型精度。除了準確性之外,還可以測量兩種類型的性能指標來評估模型的魯棒性。第一個指標是對抗頻率,它衡量模型多久無法保持穩健[51]。第二個是對抗性嚴重性,用于衡量從原始輸入到對抗性樣本的預期最小距離 [51] [52],即模型被愚弄的難易程度。事實上,引用[51]:
“頻率和嚴重性捕獲了不同的魯棒性行為。神經網絡可能具有高對抗頻率但對抗嚴重程度低,這表明大多數對抗樣本距離原始點有非常小的距離。相反,神經網絡可能具有較低的對抗頻率但較高的對抗嚴重性,這表明它通常是魯棒的,但偶爾會嚴重不魯棒。頻率通常是更重要的指標,因為具有低對抗頻率的神經網絡在大多數情況下都是魯棒的。實際上,對抗性頻率對應于用于衡量魯棒性的對抗性樣本的準確性。嚴重性可用于區分具有相似對抗頻率的神經網絡。”
混合戰爭表明可能有許多系統和許多模型,因此如果假設人工智能將在混合戰爭系統的集合中使用,那么多種錯誤來源具有破壞人工智能在軍事領域應用的巨大潛力。
因此,上述當前技術的標準和調查都與了解將 AI 和 ML 應用于混合軍事領域的潛在弱點相關,因此在涉及與 AI 和 ML 的魯棒性有關的考慮時,顯然需要確保未來進行廣泛的評估。很明顯,有一個重要的考慮領域和可用的度量方法。然而,正如之前在第 2 節中提出的,這些度量方法適用于不同的利益相關者、不同的模型和潛在的不同任務。
因此,當前的問題是如何為特定模型確定和找到正確的度量方法,以獲得混合戰爭系統所需的置信度。 IST-169 打算推進這項初步調查來做到這一點。我們相信,開發各種類型的魯棒性及其適用于不同類型 AI 階段的圖形表示,將有助于全面了解 AI 魯棒性格局。這將加強并采取更嚴格的方法對人工智能應用進行開發。
由HAVELSAN公司開發的虛擬環境中的部隊(FIVE)模擬器軟件,利用各種虛擬戰爭設備(如武器、傳感器和通信工具等),以安全和具有成本效益的方式提供全面的戰術和行動訓練環境。目前,管理FIVE實體的行為模型高度依賴于由現場專家和系統工程師開發的基于規則的行為。然而,FIVE軟件的基于規則的操作需要密集的編程和現場專家的指導,因此是高度勞動密集型。此外,這項任務的復雜性和負擔隨著場景的復雜性而大大增加。此外,具有基于規則的行為的虛擬實體對其環境有標準和可預測的反應。因此,在這項研究中,我們通過強化學習技術和其他機器學習技術,即FIVE-ML項目,提出了從基于規則的行為到基于學習的自適應行為的過渡研究。為此,我們主要對空對空和空對地兩種情況下的六個虛擬實體進行了基于強化學習的行為模型訓練。據觀察,用強化學習訓練的虛擬實體主導了現有的基于規則的行為模型。在這些實驗中,我們還發現,在強化學習之前,利用監督學習作為起點,可以大大減少訓練時間,并創造出更真實的行為模型。
今天,培訓將使用飛機的飛行員是最重要的。用真實的飛機訓練飛行員是相當困難的,原因包括空域法規、過高的成本和訓練中可能出現的風險,以及創造真實世界場景的復雜性,包括對手或盟友使用的真實防御和戰爭平臺。飛行員訓練中使用的飛行模擬經常與戰術環境模擬結合在一起工作。通過這些戰術環境模擬,飛行員通過控制高保真飛機模型在許多低保真實體的存在下完成場景的訓練。這些低保真資產由計算機創建和控制,通常被命名為計算機生成的部隊(CGF)[1],它們是代表空中、陸地或海上防御或攻擊系統的自主單位。
CGFs被用于人員部署的準備過程、戰術訓練或新戰略的開發。CGFs需要為每個應用(或每個場景)進行不同的編程。這些由傳統方法創造的力量會導致非適應性和不靈活的行為模式。這導致學生在靜態編程的資產面前接受模擬訓練,降低了訓練的質量。當需要新的場景時,需要專家來創建新的場景。此外,由于情景創建將使用經典的控制分支進行,在創建新情景的過程中,考慮所有的可能性往往是不可行的,即使是可能的,也是一項相當有挑戰性的任務。由于這些原因,人們越來越需要更真實的虛擬環境和新的場景來適應不斷變化的世界,以模擬飛行員候選人自己的任務和敵對部隊的當前能力和戰術。
在這項研究中,提出了向以人工智能為導向的行為建模過渡,而不是傳統的特定場景建模,以此來解決前面描述的問題。換句話說,虛擬實體將被轉化為能夠學習的動態虛擬實體。但這些虛擬實體在訓練過程中需要考慮許多情況。首先,他們必須學會對他們用傳感器感知到的環境因素作出適當的反應。然后,它必須識別他的隊友和敵人,并根據他們的等級信息和附加在他們身上的彈藥類型采取行動。它應該能夠與他的隊友合作,采取團隊行動。
為虛擬資產添加智能的機器學習的首選方法是強化學習(RL)[2],其根本原因是:實體將采取的行動有延遲的后果。近年來,與傳統的控制方法相比,RL被認為是解決復雜和不可預測的控制問題的新方法,并在許多領域得到利用,如機器人、計算機視覺、自動駕駛、廣告、醫學和保健、化學、游戲和自然語言處理[3]-[9]。自從將深度學習引入RL概念(即深度RL[10])后,文獻中的研究得到了提升,如許多具有挑戰性的計算機視覺和自然語言處理任務[11]-[15]。
為了這個目的,在這項研究中(即FIVE-ML),已經實現了從HAVELSAN FIVE軟件的基于規則的行為模型向基于RL的行為模型過渡的第一階段實驗。從這些實驗中可以看出,用RL算法訓練的智能虛擬實體在空對空和空對地的情況下都優于HAVELSAN現有的基于規則的實體。此外,模仿學習[16]、[17]和RL的聯合實施也取得了成功,這加快了FIVE軟件的完整過渡過程。
可以預見,通過學習飛行員候選人的選擇來開發新策略的模擬將把飛行員培訓帶到一個非常不同的點。當項目完成后,將設計一個新的系統,允許在其領域內培訓更多裝備和專業的戰斗機飛行員。一個現有的基于規則的場景系統將演變成一個可以自我更新的系統。因此,飛行員候選人將有機會針對智能實體發現的新策略來發展思路,而不是滿足于該領域的專家的知識和經驗。此外,從一個經過大量努力準備的場景機制,計算場景自動化機制將使整個過程自動化。
機器學習是現代戰爭系統的關鍵組成部分。本文探討了人工智能的 7 個關鍵軍事應用。
機器學習已成為現代戰爭的重要組成部分,也是我(Nicholas Abell)作為陸軍退伍軍人和數據科學家的主要興趣點。與傳統系統相比,配備人工智能/機器學習的軍事系統能夠更有效地處理大量數據。此外,人工智能由于其固有的計算和決策能力,提高了作戰系統的自我控制、自我調節和自我驅動能力。
人工智能/機器學習幾乎被部署在所有軍事應用中,軍事研究機構增加研發資金有望進一步推動人工智能驅動系統在軍事領域的應用。
例如,美國國防部 (DoD) 的國防高級研究計劃局 (DARPA) 正在資助一種機器人潛艇系統的開發,該系統預計將用于從探測水下水雷到參與反潛行動的各種應用。此外,美國國防部在 2017 財年在人工智能、大數據和云計算方面的總體支出為 74 億美元。預計到 2025 年,軍事 ML 解決方案的市場規模將達到 190 億美元。
以下是機器學習將在未來幾年證明其重要性的七種主要軍事應用。
來自全球不同國家的國防軍隊正在將人工智能嵌入陸地、海軍、空中和太空平臺上使用的武器和其他系統中。
在基于這些平臺的系統中使用人工智能,可以開發出更少依賴人工輸入的高效作戰系統。它還增加了協同作用,提高了作戰系統的性能,同時需要更少的維護。人工智能還有望使自主和高速武器能夠進行協作攻擊。
軍事系統通常容易受到網絡攻擊,這可能導致機密軍事信息丟失和軍事系統損壞。然而,配備人工智能的系統可以自主保護網絡、計算機、程序和數據免受任何未經授權的訪問。
此外,支持人工智能的網絡安全系統可以記錄網絡攻擊的模式,并開發反擊工具來應對它們。
人工智能有望在軍事后勤和運輸中發揮關鍵作用。貨物、彈藥、武器和部隊的有效運輸是成功軍事行動的重要組成部分。
將人工智能與軍事運輸相結合可以降低運輸成本并減少人力工作負荷。它還使軍用艦隊能夠輕松檢測異常并快速預測組件故障。最近,美國陸軍與 IBM 合作,使用其 Watson 人工智能平臺來幫助預先識別 Stryker 戰車的維護問題。
正在開發人工智能技術以提高復雜戰斗環境中目標識別的準確性。這些技術使國防軍隊能夠通過分析報告、文檔、新聞提要和其他形式的非結構化信息來深入了解潛在的作戰領域。此外,目標識別系統中的人工智能提高了這些系統識別目標位置的能力。
支持人工智能的目標識別系統能力包括基于概率的敵人行為預測、天氣和環境條件匯總、潛在供應線瓶頸或漏洞的預測和標記、任務方法評估以及建議的緩解策略。機器學習還用于從獲得的數據中學習、跟蹤和發現目標。
例如,DARPA 的競爭環境中的目標識別和適應 (TRACE) 計劃使用機器學習技術在合成孔徑雷達 (SAR) 圖像的幫助下自動定位和識別目標。
在戰區,人工智能可以與機器人手術系統 (RSS) 和機器人地面平臺 (RGP) 集成,以提供遠程手術支持和疏散活動。美國尤其參與了 RSS、RGP 和其他各種用于戰場醫療保健的系統開發。在困難條件下,配備人工智能的系統可以挖掘士兵的病歷并協助進行復雜的診斷。
例如,IBM 的 Watson 研究團隊與美國退伍軍人管理局合作開發了一種稱為電子病歷分析器 (EMRA) 的臨床推理原型。這項初步技術旨在使用機器學習技術來處理患者的電子病歷,并自動識別和排列他們最嚴重的健康問題。
模擬與訓練是一個多學科領域,它將系統工程、軟件工程和計算機科學結合起來構建計算機模型,使士兵熟悉在軍事行動中部署的各種作戰系統。美國正在越來越多地投資于模擬和訓練應用。
美國海軍和陸軍都在進行戰爭分析,啟動了幾個傳感器模擬程序項目。美國海軍已經招募了 Leidos、SAIC、AECOM 和 Orbital ATK 等公司來支持他們的計劃,而美國陸軍的計劃得到了包括 SAIC、CACI、Torch Technologies 和 Millennium Engineering 在內的公司的支持。
威脅監控和態勢感知在很大程度上依賴于情報、監視和偵察 (ISR) 工作。ISR 行動用于獲取和處理信息以支持一系列軍事活動。
用于執行 ISR 任務的無人系統既可以遠程操作,也可以按照預先定義的路線發送。為這些系統配備人工智能有助于防御人員進行威脅監控,從而提高他們的態勢感知能力。
具有集成 AI 的無人駕駛飛行器 (UAV) - 也稱為無人機 - 可以巡邏邊境地區,識別潛在威脅,并將有關這些威脅的信息傳輸給響應團隊。因此,使用無人機可以加強軍事基地的安全,并提高軍事人員在戰斗中或偏遠地區的安全性和效率。
人工智能在軍事技術硬件和軟件的大規模采用,向我們展示了現代戰爭中令人難以置信和可怕的范式轉變。毫不奇怪,世界上最大的軍隊比其他任何事情都更加關注這項技術,而這場技術競賽的獲勝者可能會比美國在研制原子彈后擁有更多的全球影響力。 (作者:Nicholas Abell,美國陸軍退伍軍人)
如今,隨著技術飛速發展和威脅環境變得更加復雜,在信息爆炸的局面下,作戰人員面臨著具有挑戰性的決策空間。人工智能(AI)和機器學習(ML)可以減輕作戰人員負荷。人工智能系統具有深遠的好處——提高態勢感知能力,檢測威脅,理解對手的能力和意圖;確定和評估可能的戰術行動方針;并提供方法來預測行動決策的結果和影響。人工智能系統是理解和解決高度復雜的戰術情況的關鍵。
人工智能系統為作戰人員提供了優勢,但前提是這些系統被正確設計和實施,并且以減輕作戰人員的認知負荷的方式。為國防應用實施人工智能系統帶來了獨特的挑戰。本文確定了四個獨特的挑戰,并描述了它們如何影響戰術作戰人員、工程設計界和國防。本文通過國防采辦和系統工程計劃,為解決這些獨特的挑戰提供了解決方案。
Bonnie Johnson——在海軍工程研發方面擁有超過 25 年的領導和系統工程經驗。她曾是 SAIC 和諾斯羅普·格魯曼公司的高級系統工程師,研究用于海戰系統和導彈防御能力的自動決策輔助。她于 2011 年加入美國海軍研究生院 (NPS) 系統工程系。她擁有 NPS 系統工程博士學位、約翰霍普金斯大學系統工程碩士學位和弗吉尼亞理工大學物理學學士學位。
人工智能是一個包含許多不同方法的領域,其目標是創造具有智能的機器(Mitchell,2019)。圖 1 顯示了一個簡單的維恩圖,其中機器學習 (ML) 作為 AI 的子集,而 AI 作為更廣泛的自動化類別的子集。自動化系統以最少的人工輸入運行,并且經常根據命令和規則執行重復性任務。人工智能系統執行模仿人類智能的功能。他們將從過去的經驗中學到的知識與收到的新信息結合起來,以做出決策并得出結論。
圖 1. 自動化、人工智能和機器學習的維恩圖
如圖 2 所示,有兩種主要類型的 AI 系統。第一種類型是明確編程的,也稱為手工知識系統。 Allen (2020) 將手工知識系統描述為“使用傳統的、基于規則的軟件,將人類專家的主題知識編碼為一長串編程的‘如果給定 x 輸入,則提供 y 輸出’規則的人工智能”(第3頁)。這些系統使用傳統的或普通的編程語言。第二種類型是從大量數據集訓練而來的機器學習系統。 ML 系統從訓練過的數據集中“學習”,然后在操作上使用“訓練過的”系統在給定新的操作數據的情況下產生預測結果。
圖 2. 兩種類型的人工智能:顯式編程和學習系統
自動化、人工智能和機器學習系統,包括手工知識系統和學習系統,為美國國防部 (DoD) 提供了巨大的潛力,在大多數任務領域具有多種應用。這些智能系統可以擴展國防部理解復雜和不確定情況、制定和權衡選項、預測行動成功和評估后果的能力。它們提供了在戰略、規劃和戰術領域支持國防部的潛力。人工智能系統可以減輕作戰人員的負擔,但前提是這些系統的設計和實施正確,并且以減輕作戰人員認知負擔的方式。這為國防應用實施人工智能系統提出了獨特的挑戰。本文確定了四個獨特的挑戰,并描述了它們如何影響戰術作戰人員、工程設計界和國防。
第一個為國防應用實施人工智能系統的獨特挑戰是戰術戰爭呈現高度復雜的情況。戰術復雜性可能涉及信息超載、需要處理的多個并發任務、具有可怕后果的時間關鍵決策、態勢感知的未知/不準確/不完整,以及因各種分布式戰爭能力所需的互操作性而產生的工程挑戰。將人工智能系統添加到這個已經很復雜的環境中是一項必要但極具挑戰性的工作。
第二個獨特的挑戰是人工智能系統需要大量數據來訓練。所開發的人工智能系統的質量很大程度上取決于訓練數據集的質量和數量。軍事領域的數據尤其難以獲得。軍事數據可能涉及分類問題、網絡漏洞、數據驗證挑戰,并且根據艦隊演習和兵棋推演的需要,收集起來可能非常昂貴且耗時。
第三個獨特的挑戰是人工智能系統為系統工程提出了一個新的前沿。在傳統系統中,行為是固定的,因此是可預測的:給定輸入和條件,系統將產生可預測的輸出。一些人工智能解決方案可能涉及本身就很復雜的系統——適應和學習——因此會產生無法預料的輸出和行為。事實上,一些人工智能系統的目的就是為了做到這一點——與人類決策者合作,承擔一些認知負荷并產生智能建議。需要系統工程方法來設計智能系統,并確保它們對人類操作員來說是可解釋的、可信賴的和安全的。
第四個獨特的挑戰是,對于國防應用,總是需要考慮潛在的對手。在人工智能系統方面,采購界必須注意同行競爭對手國家,他們在人工智能進步方面取得了自己的進步。美國國防系統也必須在這場人工智能競賽中取得進步。網絡攻擊在防御系統中總是有可能發生的。隨著防御能力增加對自動化和人工智能系統的依賴,這可能會造成更多的網絡漏洞。最后,技術正在迅速發展,對抗性威脅空間正在發生變化。國防采購和系統工程界必須確保人工智能系統不斷發展和適應,以應對威脅環境的變化,并以可信賴和安全的方式做到這一點。
第一個獨特的挑戰是許多防御領域呈現出復雜的決策空間。因此,設計和實施適當的人工智能系統來解決這種復雜性將是極具挑戰性的。圖 3 突出顯示了導致戰術領域決策復雜性的許多因素。例如,海軍打擊部隊的行動可以迅速從和平狀態轉變為一種巨大的危險——需要對威脅保持警惕并采取適當的反應行動——所有這些都在高度壓縮的決策時間線上。戰術威脅可能來自水下、水面、空中、陸地、太空,甚至是虛擬的,因此需要處理多個時間緊迫的任務。在船舶、潛艇、飛機、陸地和太空中擁有海軍和國防資產;戰術決策空間必須解決這些分散和多樣化資源的最佳協作使用問題。制定有效的戰術行動方案也必須發生在高度動態的作戰環境中,只有部分和不確定的態勢知識。決策空間還必須考慮指揮權、交戰規則和戰術條令施加的限制。人類作為戰術決策者的角色增加了決策空間的復雜性——面臨信息過載、操作員錯誤、人工智能信任以及人工智能模糊性和可解釋性問題等挑戰。最后,戰術決策及其可能后果的風險可能非常高。
圖 3. 導致戰術決策空間復雜性的因素
解決高度復雜的決策空間是美國國防部面臨的挑戰。人工智能提供了解決這種復雜性的潛在解決方案——通過處理大量數據、處理不確定性、理解復雜情況、開發和評估決策替代方案以及了解風險水平和決策后果。人工智能解決方案可以應用于國防部的戰略、規劃和戰術層面。海軍研究生院 (NPS) 開發了一種工程框架和理論,用于解決高度復雜的問題空間,這些問題空間需要使用智能和分布式 AI 系統來獲得態勢感知并做出適應動態情況的協作行動決策(Johnson, 2019)。模擬了一個復雜的戰術場景,以演示使用 AI 來驗證該方法(Johnson,2020a)。 NPS 已經開發了一種預測分析能力的概念設計,該設計將被實施為一個自動化的實時戰爭游戲系統,該系統探索不同的可能戰術行動方案及其預測效果和紅軍反應(Johnson,2020b)。 NPS 研究已經確定了在戰術行動中描述復雜性水平的必要性,并實施自適應人機協作安排以做出戰術決策,其中自動化水平根據情境復雜性水平進行調整。正在進行的 NPS 研究正在研究這些概念工程方法在各種防御用例應用中的應用,包括防空和導彈防御、超視距打擊、船舶自衛、無人機操作和激光武器系統。
復雜的決策空間為 AI 系統嘗試和解決創造了具有挑戰性的問題。表 1 根據決策空間的復雜性比較了不同的 AI 應用領域。該表包含 10 個表征決策空間復雜性的因素:認知不確定性(對情境知識的不確定性數量)、情境動態、決策時間線(做出決策的時間量)、決策的復雜性決策過程中的人機交互、資源復雜性(數量、類型、它們之間的距離以及它們的動態程度)、是否涉及多個任務、對手(競爭對手、黑客或打算摧毀的徹底敵人)的存在,允許誤差的幅度(多少決策錯誤是可以接受的),以及決策后果的嚴重性。
表 1. 不同 AI 應用的決策復雜度比較
人工智能應用程序涉及的決策空間用于廣告(根據特定用戶的購買習慣或互聯網搜索確定將哪些廣告流式傳輸)、貸款批準(根據貸款金額和信用評分確定貸款資格)和醫療(根據診斷確定關于患者癥狀)相對簡單。存在大量訓練數據,決策過程中的計算和人為交互簡單,情況相對穩定。不良廣告的后果是微乎其微的。可以審計不良貸款批準決定。糟糕的醫學診斷可能會產生更嚴重的后果,但通常有足夠的時間在治療前尋求更多的評估和意見。為自動駕駛汽車確定最佳運輸路線和工程 AI 系統是更復雜的工作。這些應用程序是動態變化的,需要更短的時間來做出決策。運輸路線在可能路線的數量上會很復雜——這可能會導致許多可能的選擇。但是,存在運輸錯誤的空間,并且后果通常不會太嚴重。對于自動駕駛汽車來說,決策錯誤的余地非常小。此應用程序中的錯誤決定可能導致嚴重事故。
然而,軍事戰術領域在決策空間的所有領域都呈現出極端的復雜性:不確定性和有限的知識/意識、高度動態的情況、非常有限的時間線、復雜的人機交互、大量和類型的資源、多個任務、昂貴和困難- 獲取訓練數據集、極小的允許誤差范圍以及行動(或不行動)的生死攸關的后果。
第二個獨特的挑戰是 AI/ML 系統需要大量相關且高質量的數據用于訓練和開發,而這些數據在軍事領域可能很難獲得。明確編程的手工知識系統在開發過程中需要數據進行評估和驗證。 ML 系統在開發過程中對數據的依賴性更大。如圖 4 所示,ML 系統從代表操作條件和事件的數據集中“學習”。 ML系統學習的過程也稱為被訓練,開發階段使用的數據稱為訓練數據集。有幾種類型的 ML 學習或訓練——它們是有監督的、無監督的和強化的。所有三種類型的 ML 學習都需要訓練數據集。 ML 系統在部署后或運營階段繼續需要數據。圖 4 顯示,在運營期間,ML 系統或“模型”接收運營實時數據,并通過使用其“訓練過的”算法處理運營數據來確定預測或決策結果。因此,在整個系統工程和采集生命周期中,ML 系統與數據密切相關。 ML 系統從訓練數據集的學習過程中“出現”。機器學習系統是數據質量、充分性和代表性的產物。他們完全依賴于他們的訓練數據集。
圖 4. 開發和實施機器學習系統
隨著許多領域(戰爭、供應鏈、安全、物流等)的更多 AI 開發人員正在了解 AI 解決方案的潛在優勢并開始著手 AI 系統開發,DoD 開始認識到對這些數據集的需求。在某些情況下,數據存在并準備好支持 AI 系統開發。在其他情況下,數據存在但不保存和存儲。最后,在其他情況下,數據不存在,需要模擬或在艦隊演習或戰爭游戲中收集。圖 5 說明了收集、獲取和在某些情況下開發用于開發和訓練 AI 和 ML 系統的數據時需要考慮的過程。
圖 5. 人工智能和機器學習系統訓練數據集的開發
軍事領域對開發訓練數據集提出了一些獨特的挑戰——數據可能被分類,數據可能存在網絡漏洞(它可能被攻擊并被對手故意破壞),如果數據不存在,它可能需要從軍事/艦隊演習或兵棋推演中獲得。數據驗證也是一項具有挑戰性的工作。
NPS 正在為海軍的數據管理系統執行需求分析和概念設計,該系統將收集數據并向海軍內部許多正在開發 AI/ML 系統的不同組織提供數據(French 等人,2021 年)。圖 6 是海軍中央人工智能庫 (CAIL) 的上下文圖,它被設想為一個數據管理系統和流程,用于識別數據集并提供索引、驗證、審計和對 AI 可以使用的數據的安全訪問。從事海軍應用的機器學習開發人員。 CAIL 將不是一個數據存儲庫或數據庫,而是一個中央組織,使 AI/ML 開發人員能夠訪問經過驗證和保護的海軍數據——以幫助識別數據集的存在,啟用授權訪問,并幫助支持開發人員所需的數據尚不存在,需要獲得——可能通過艦隊演習或兵棋推演。
圖 6. 概念性中央人工智能庫
第三個獨特的挑戰是開發人工智能系統為系統工程提出了一個新的前沿。系統工程方法已被開發用于設計可能非常復雜但也具有確定性的傳統系統(Calvano & John,2004)。傳統系統具有可預測的行為:對于給定的輸入和條件,它們將產生可預測的輸出。圖 7 說明了對傳統 SE 方法(如 SE Vee 過程)進行更改的必要性,以便設計復雜且不確定的 AI 系統。特別是,需要新的方法來定義隨時間適應的學習系統的要求,并且系統驗證過程可能需要在操作過程中不斷發展和繼續,以確保安全和期望的行為。對于具有高風險后果的軍事系統,幾乎沒有出錯的余地,因此需要實施一個可以確保 AI 系統安全和預期操作的系統工程流程。
圖7. 人工智能:系統工程的新前沿
國際系統工程師理事會 (INCOSE) 最近的一項倡議已經開始探索需要對系統工程方法進行哪些改變才能有效地開發人工智能系統。圖 8 是作為該計劃的一部分創建的,旨在強調在 SE 過程中需要考慮的 AI 系統的五個方面。除了不確定性和不斷發展的行為之外,人工智能系統可能會出現新類型的故障模式,這些故障模式可能會突然發生,并且可能難以辨別其根本原因。穩健的設計——或確保人工智能系統能夠處理和適應未來的場景——是另一個系統工程設計考慮因素。最后,對于涉及更多人機交互的 AI 系統,必須特別注意設計系統,使其值得信賴、可解釋并最終對人類決策者有用。
圖 8. 人工智能系統工程中的挑戰
NPS 正在研究可以支持復雜、自適應和智能 AI 系統的設計和開發的系統工程方法。已經開發了一個系統工程框架和方法來設計系統解決方案的復雜自適應系統(Johnson,2019)。該方法支持系統系統的開發,通過使用人工智能,可以協作以產生所需的緊急行為。當前的一個研究項目正在研究可以在設計過程中設計到 AI 系統中的安全措施,以確保操作期間的安全(Cruz 等人,2021 年)。 NPS 正在研究一種稱為元認知的設計解決方案,作為 AI 系統識別內部錯誤的一種方法(Johnson,2021 年)。當前的另一個 NPS 論文項目正在研究如何將“信任”設計到 AI 系統中,以確保有效的人機協作安排(Hui,2021)。幾個 NPS 項目研究使用稱為協同設計的 SE 設計方法,來確定人類操作員與 AI 系統之間的相互依賴關系(Blickley 等人,2021;Sanchez,2021)。
第四個獨特的挑戰是對手在防御應用中的存在和作用。國防部必須與對手競爭以提升人工智能能力,人工智能系統必須免受網絡攻擊,人工智能系統必須適應不斷變化的威脅環境演變。圖 9 突出顯示了對手的存在給國防部正在開發的 AI 系統帶來的一系列獨特挑戰。
圖9. 敵手的挑戰
競爭對手國家之間開發人工智能能力的競賽最終是為了進入對手的決策周期,以比對手更快的速度做出決定和采取行動(Rosenberg,2010 年)。人工智能系統提供了提高決策質量和速度的潛力,因此對于獲得決策優勢至關重要。隨著國防部探索人工智能解決方案,同行競爭對手國家也在做同樣的事情。最終,實現將 AI 用于 DoD 的目標不僅僅取決于 AI 研究。它需要適當的數據收集和管理、有效的系統工程和采集方法,以及仔細考慮人類與人工智能系統的交互。國防部必須確保它能夠應對實施人工智能系統所涉及的所有挑戰,才能贏得比賽。NPS 研究計劃正在研究如何應用 AI 和博弈論來進入對手的戰術決策周期(Johnson,2020b)。該項目正在開發一個概念,用于創建戰術態勢模型、對手的位置和能力,以及預測對手對形勢的了解。然后,概念系統將進行實時“兵棋推演”,根據預測的對抗反應和二階和三階效應分析戰術決策選項。這是一個研究未來戰術戰爭可能是什么樣子的一個例子,它為藍軍和紅軍提供了增強的知識和決策輔助。為 AI 競賽準備國防部的其他 NPS 舉措包括研究新的 SE 方法和獲取實踐以開發 AI 能力、研究海軍和國防部的數據管理需求(French 等人,2021 年)以及研究 AI 系統安全風險開發確保安全 AI 能力的工程實踐(Cruz 等人,2021 年;Johnson,2021 年)。
賽博戰是國防部必須成功參與的另一場競賽,以保持領先于黑客攻擊的持續攻擊。隨著國防部實施更多的自動化,它自然會導致更多的網絡漏洞。使用本質上依賴于訓練數據和操作數據的人工智能系統,為黑客在開發階段和操作階段用損壞的數據毒害系統提供了機會。如果對手控制了一個可操作的人工智能系統,他們可能造成的傷害將取決于應用程序領域。對于支持武器控制決策的自動化,后果可能是致命的。在最近一項關于汽車網絡安全的研究中,一家汽車公司在網上發布了一個假汽車電子控制單元,在不到 3 天的時間里,進行了 25,000 次違規嘗試(Taub,2021 年)。國防部必須注意人工智能系統開發過程中出現的特定網絡漏洞。必須為每個新的人工智能系統實施仔細的網絡風險分析和網絡防御策略。 NPS 正在研究數據安全要求,以確保 ML 訓練數據集不受黑客攻擊,并且需要安全授權才能訪問(French 等人,2021 年)。 NPS 正在研究使用元認知作為 AI 系統執行自我評估的一種方法,以識別網絡入侵、篡改或任何異常行為(Johnson,2020b)。 NPS 還在研究使用 ML 來識別惡意欺騙和篡改全球定位系統 (GPS; Kennedy, 2020)。
威脅環境的演變是國防部在開發人工智能系統時的第三次對抗性競賽。由于對抗性威脅空間隨著時間的推移而不斷變化,擁有更快、更致命的武器、更多的自主權、更大的監視資產、更先進的對抗措施和更多的隱身性,這對國防部能夠預測和識別新威脅并進行應對提出了挑戰戰場上的未知數。 NPS 研究的重點是在作戰過程中不斷適應和學習的工程系統,以檢測和識別戰場中的未知未知,并通過創新的行動方案快速響應新威脅(Grooms,2019;Jones 等人,2020;Wood,2019 )。 NPS 正在研究通過研究特定區域隨時間變化的數據來識別異常變化的機器學習方法(Zhao et al., 2016)。一個例子是研究商用飛機飛行模式并根據異常飛行模式識別可疑飛機。隨著時間的推移,可以監視地面行動,以識別可能意味著軍事行動的新的和不尋常的建設項目。
人工智能系統為國防部在實現和保持知識和決策優勢方面提供了重大進展。然而,為國防應用實施人工智能系統提出了獨特的挑戰。軍事戰術領域在決策空間的所有領域都呈現出極端的復雜性:不確定性和有限的知識、高度動態的情況、非常有限的時間線、復雜的人機交互、大量和類型的資源、多個任務、昂貴且難以獲得訓練數據集、極小的允許誤差范圍以及行動(或不行動)的生死攸關的后果。 AI 系統,尤其是 ML 系統,需要有代表性、足夠、安全和經過驗證的數據集來進行開發。為國防應用收集合適的數據具有處理分類數據集和確保數據安全和免受網絡攻擊的額外挑戰;這也將是收集代表戰術行動的真實數據的一項重大努力。將需要新的系統工程方法來有效地指定、設計和評估人工智能系統,這些系統通過其不確定性、新型人機協作挑戰以及難以預測和預防的新安全故障模式而呈現出新的復雜性.最后,軍事領域中對手的存在呈現出三種形式的 AI 競賽:與對手一樣快地開發 AI 系統的競賽、保持領先于可能的網絡攻擊的競賽以及訓練能夠應對的 AI/ML 系統的競賽隨著不斷發展的對抗性威脅空間。
NPS 正在通過一系列正在進行的研究計劃來解決四個獨特的挑戰領域。 NPS 研究人員正在研究人工智能系統在海軍戰術作戰領域的實施,對軍事數據集進行需求分析和需求開發,研究開發復雜人工智能系統的系統工程方法,以及開發安全、可信賴的人工智能系統工程方法,并注意潛在對手的作用。 NPS 正在為軍官和平民學生提供人工智能研究和教育機會。 NPS 歡迎與國防部和海軍組織合作,繼續研究用于國防應用的人工智能系統,并繼續探索解決方案戰略和方法,以克服開發和實施人工智能能力的挑戰。