亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人工智能(AI)是機器顯示出來的智能行為。在日常用語中,當機器模仿人類進行學習和解決與認知功能相關的問題時,就會使用人工智能這個術語。人工智能中關鍵問題包括推理、規劃和學習。在軍事應用中,人工智能在不同軍事層面使用的系統中變得越來越重要,不管是從戰斗層面還是到戰術和作戰層面,人工智能都有極其重要的作用。這一發展導致決策支持系統被用于營級和旅級。基于通過以用戶為中心涉及軍事人員的結構化活動收集的經驗數據,本研究調查了人工智能如何在指揮和控制系統中應用。我們研究了它在情報和作戰過程中的用途。我們討論了人工智能方法如何用于決策支持的過程,這些過程提供了一個共同的作戰圖景,使用威脅分析來預測敵人的行動,并在執行前分析自己部隊的替代行動。我們的結論是,人工智能對武裝部隊的好處是,當時間有限或選擇太多,人們無法分析所有備選方案時,它可以提供關鍵的系統支持。我們相信,在指揮和控制系統中成功實施人工智能的一方可以成為分析信息的最優和最快的一方,并因此可以更快做出決策,獲得對對手的作戰優勢。

關鍵詞:人工智能;指揮與控制;OODA環;分析;規劃;執行

1 介紹

《牛津詞典》對人工智能(AI)的定義如下:"計算機系統的理論和開發,能夠完成通常需要人類智慧的任務,如視覺感知、語音識別、決策和語言之間的翻譯"。

目前,很難想象有什么比人工智能更突出的流行語了。當然,隨著最近性能的進步,人工智能在一些任務上的表現甚至超過了人類,如下圍棋、皮膚癌檢測和語音識別,而且使用它有一些很好的理由。

這些進展的共同點是都與深度學習(DL)這個子領域相關。深度學習是指由多層非線性處理單元組成的機器學習模型。通常,用人工神經網絡來表示這些模型,在這里,神經元指的是一個單一的計算單元,其輸出是通過一個(非線性)激活函數輸入的加權和(例如,一個只有在信號為正時才通過的函數)。

基于人工神經網絡的深度學習系統被稱為深度神經網絡(DNN),由并聯神經元組成的大量串聯層構成。對大量數據的處理和強大的計算機以及一系列創新(例如初始化策略和數據規范化)的結合使這些大容量網絡能夠成功訓練。表示學習是DNNs高性能的主要原因之一。使用 DL 和 DNN,不再需要手動制作學習特定任務所需的特征。相反,判別特征是在 DNN 的訓練過程中自動學習的。

應該強調的是,DNN不是解決所有人工智能問題的靈丹妙藥,根據具體場景和任務,還需要其他人工智能概念和機器學習模型。

根據McCann和Pigeau的說法,指揮和控制(C2)被定義為 "建立共同意圖以實現協作行動"。在軍事背景下,C2的核心問題如下:

  • 如何從一大批資源中獲得集體效應?
  • 如何處理內在的不確定性?
  • 如何能以比敵人更快的速度對敵方產生影響?

以比敵人更快的速度產生影響,迫使敵人做出反應而不是采取行動。實現這一目標的先決條件是要能夠處理大量的信息,并對不確定因素進行有效的建模。

為了以一種結構化的方式解決這些問題,C2總是伴隨著C2系統。C2系統由人、組織、流程、方法和設備組成。正如Brehmer所提到的,C2系統的產品是命令,為了產生命令,系統需要促進(i)數據收集,(ii)推理/感知(即分析信息并確定需要做什么),以及(iii)規劃(即把需要做的事情變成可以做的事情)。

對于軍事部門而言,將 AI 納入 C2 系統的好處在于,當時間有限或選項數量過多以至于人們無法分析替代行動方案時,它可能會提供關鍵系統支持。因此,在戰術和作戰層面使用人工智能的戰略重要性怎么強調都不為過。Ayoub和Payne寫道:"特定領域的人工智能可以從根本上轉變軍事力量的對比,使人工智能發展成熟的一方具有更強的軍事力量。特定領域的人工智能將對沖突產生變革性影響,并且與之前的軍事能力變革一樣,它有可能深刻地破壞戰略平衡。戰術和作戰系統最有希望被改變,而且這些系統將產生戰略影響。

在這份概念文件中,我們討論了AI方法在決策支持系統(DSS)中的應用。根據瑞典武裝部隊指揮與控制學校舉辦研討會的經驗數據,我們確定了人工智能在現有C2系統中對之前列出的C2的三個核心問題可能產生重大大影響的領域和任務。此外,我們還討論了人工智能方法的不同方面以及它們對具體任務的相應適合性。具體來說,能夠解釋人工智能產生的某些建議可能是基于人工智能的決策支持系統的核心。

本文的其余部分安排如下:在第2節中,我們介紹了C2系統的動態觀察、定位、決定和行動環路模型,并描述了以用戶為中心的方法,該方法被用來發現C2系統的挑戰,在這些挑戰中,人工智能有可能被利用來發揮作用。然后在第3節中總結了以用戶為中心的活動的結果。第4節和第5節分別介紹了在研討會上確定的人工智能方法在一些重點任務中的機會和挑戰。最后,第6節專門討論結論。

2 方法論

對于一個特定的任務,C2過程是一個高度動態的過程,正如博伊德所啟發的那樣,在某種程度上可以被抽象為一個動態的觀察、定位、決定和行動的循環(所謂的DOODA循環),如圖1所示。命令轉化為軍事活動,而軍事活動又會導致一些效果被摩擦(影響效果的未知因素)所過濾。這些影響由傳感器(在最廣泛的意義上,從電子傳感器到人的觀察)觀察這些影響,并將傳感器數據與來自系統內部狀態的數據(例如任務的進展)一起收集。對任務至關重要的事件與任務、資源和約束一起被識別并且確定。最后,命令依據規劃過程確定計劃、分配資產、評估風險、估計、選擇和排練計劃等。這個循環一直持續到任務完成、失敗或撤消。DOODA循環的所有階段都與C2系統必須考慮的一些不確定性有關。

圖1:DOODA-環的說明

在 C2 系統中的DSS中要處理的任務具有復雜性和多樣性等特點。因此,在不久的將來,我們不太可能擁有一個人工智能,它在給定所有可用傳感器數據和內部系統狀態的情況下簡單地輸出一組建議的命令。相反,在DSS中逐步引入人工智能似乎更有可能達到效果。為了確定當前武裝部隊C2系統中導致DOODA-循環速度降低的瓶頸所在,并確定哪里可以改進,我們采用了以用戶為中心的設計(UCD)方法。這種方法使最終用戶和非專業人員都可以發表意見,否則他們幾乎沒有機會影響未來技術的發展。UCD的特點是在一個復雜過程中使用適當的設計方法和設計活動。這些方法和活動取決于手頭的問題,需要哪些專家知識,以及最終用戶、設計工程師和決策者的可及性。這個想法是,設計師和設計工程師是促進設計活動和成為設計專家的推動者,而最終用戶和其他利益相關者被認為是各自領域內的專家。這明確了角色和能力,以便有關未來設計選擇和采購的決策可以基于相關和準確的信息。

在UCD哲學的啟發下,進行了一次結構化的頭腦風暴,目的是為了獲得有關用戶需求的更深層次的知識,并能夠設想未來C2系統的發展。參與者包括瑞典武裝部隊指揮與控制學校的軍官、設計工程師和研究人員。結構化的頭腦風暴內容包括個人和聯合的頭腦風暴活動,以及對需求的優先排序。

頭腦風暴中要回答的問題涉及到人工智能系統在C2系統背景下的目的、由誰和在哪里受益。為了確保考慮到未來技術的全部可能性,與會者被明確告知不考慮任何有關財務、法律和技術挑戰的問題。與會者被要求首先單獨寫下他們的想法。然后,所有參與者將這些想法分成若干組,每個組都有一個代表性的標簽。最后,為了評估所產生的想法的優先級,每個參與者在1到3的范圍內對三個不同的想法進行優先排序。

3 研究結果

三個不同的組別被確認:分析(和監測)、規劃和執行。這些都可以與前面描述的DOODA循環中的感知、規劃和行動過程聯系起來。鑒于參與者的背景和經驗,這并不令人驚訝。就重要性而言,分析組被認為具有最高的優先權,其次是規劃,然后是執行。

在分析組中,可以確定三個不同的子組:尋找信息、匯編信息和檢測信息中的異常情況。與尋找信息有關的例子是量身定做的搜索(針對個人或角色)和信息的自動元標記(例如,主題或安全級別)。在信息編纂子組中列出的一個想法是自動更新共同的作戰圖。最后,識別報告和命令之間以及報告之間的不一致被列為與檢測異常相關的示例。

規劃組內的想法可以分成兩個子組:規劃支持和戰術開發。在規劃支持方面,提出的想法有:地形分析(例如,以最小的可探測性顯示路線)、后勤計劃(例如,從A到B需要x、y和z)、預測敵人對形勢的認識、預測敵人的行為(從理論到實際數據)以及自動提出行動計劃。對于戰術的發展,有人提出將強化學習用于空戰和海戰,這將有可能引出新的軍事理論。

在執行組中列出的想法側重于為指揮官評估行動方案,以及在執行行動期間簡化軍事總部的人員工作。提出的兩個具體想法是自動生成(定制)報告摘要的人工智能和自動將語音轉錄為文本的人工智能。

4 機遇

今天,非軍事部門推動了人工智能的創新。然而,開發的技術和概念非常通用,可以用于軍事系統。在本節中,我們將討論在瑞典武裝部隊指揮與控制學校舉辦的研討會期間提煉出的一些問題背景下使用 AI 的機會。

重點是為分析形勢提供決策支持,并為我們自己的部隊提出和評估行動。我們確定了幾個子任務:分析當前形勢,為制定計劃提供決策支持,評估已經制定的規劃和執行過程中的規劃,為動態重新規劃提供決策支持,并隨著事件的發展不斷擴展和完善規劃

為獲得良好的決策支持,最重要的部分是為當前問題構建一個適當的知識表示。知識表示提供了一個框架,人工智能方法將在其中工作。構建知識表示是一個智力問題。鑒于這一點已經做得很好,決策支持的其余部分是在表示框架內的數學問題,并為決策者提供一個良好的演示。如果我們假設規劃、評估、實施和動態重新規劃的操作可以用具有多種可能值的參數形式完全描述,并且用幾種有效性措施(MOE)對這種計劃進行評估,那么問題就是要找到一個能提供良好MOE的計劃。

4.1 用于分析的人工智能

在分析階段,人們對信息進行處理和組合,以構建一個通用態勢圖(COP)。這包括對傳入的信息進行分類,確定當前的情況,構建一個動態更新的COP,并檢查自己的系統是否被欺騙了。利用信息融合技術,可以根據收到的一連串情報并且報告自動生成一個戰術性的行動計劃。因此,分析階段本身就很重要,但它還有一個進一步目的,即它的結果構成了在接下來的計劃和執行階段的決策支持的可用輸入。

理解已確定的情況意味著什么的方法很重要;"目前對理解的強調是由于英國軍事指揮官意識到一種軍事傾向,即對錯誤的問題匆忙采取精確的解決方案,而沒有充分考慮背景。美國指揮官也意識到了這一點"。這些指揮官認為有必要在進行數據分析、信息融合的基礎上構建一個抽象的COP并開始解決手頭的問題之前,制定方法來定義問題的框架。這是傳統上由情報單位進行的工作,但應該被納入總部的所有職能中。

研討會強調了三個不同的分析子組,它們都與信息處理有關:尋找信息、匯編信息和檢測信息中的異常情況。

尋找信息的問題存在于許多不同的尺度上。例如,一個常見的情況是檢索一組涉及某個主題的類似文件。如果所有的文件都有其主題的元標簽,那么這個過程就會很快。元標簽可以通過半監督學習自動進行。Salakhutdinov和Hinton使用深度自動編碼器的形式進行深度學習,將非常高維的文檔輸入向量(歸一化的字數)轉化為低維的潛在向量空間,其中相鄰的向量對應于相似的文件。學習自動編碼器本身可以以無監督的方式進行。然后,一個自動元標簽算法可以通過使用一些主題標記的樣本在潛空間中定義特定的聚類來構建。

在不同的尺度上尋找信息,可以確定文件中與某一主題相關的實體。例如,提取與后勤有關的物品和數量可以加速部隊調動的規劃過程,等等。在自然語言處理中,這個問題被稱為命名實體識別,神經網絡與命名實體詞典的結合已經顯示出很好的效果。

最后一個子組包含了與異常檢測有關的想法。目前最先進的異常檢測方法是使用深度自動編碼器作為基礎。假設“正常 "數據點位于自動編碼器的非線性低維嵌入模型上,因此在被自動編碼器解碼時具有較低的重建誤差。相反,異常值往往有較大的重建誤差。所描述的方法適用于大多數的問題,從檢測傳入傳感器數據中的異常到標記與標準非常不同的報告都可以適用。與異常檢測組相關的具體想法是檢測報告和命令中的沖突信息。最近的工作表明,在對兩個句子是否沖突進行分類方面取得了一些可喜的成果。

4.2 用于規劃的人工智能

對于規劃行動,人工智能與模擬的結合是一個富有成效的組合。那些必須規劃軍事行動的人可以進行 "如果 "測試,以衡量不同規劃的預期效果。目標是盡可能真實地模擬軍事行動產生的不同影響。這既包括對戰場的影響,也包括對道德、后勤和難民等其他因素的影響。

在演習中獲得的軍事知識可以幫助決策支持系統進行任務規劃這一點也同樣重要。在規劃制定要實現的目標、有效分配資源、執行任務以監控任務進展和根據需要重新規劃活動時,都需要這種知識。

在規劃過程中和計劃執行之前,可以用定性或定量的方法對計劃進行分析。在分析行動方案(COA)的定性方法中,一個強調論證模型之間相似性和差異性的框架可以用來選擇和完善觀點來評判軍事行動。這樣的框架在決策支持系統中很有用,可以對軍事計規劃進行支持和反對。當不同的規劃小組提出多個 COA 時,概念框架用于記錄領域專家對這些 COA 的批評。為了創建結構化的批評并系統地評估 COA 的某些方面,我們向專家提供了一個模板。這種方法有助于在規劃階段對備選COA進行結構化分析。

作為定性分析的替代方法,可以使用定量的方法。一個例子是將人工智能和多智能體系統結合起來組成紅隊。在軍事規劃和決策中,組建紅隊有一個長期的傳統劃分模式。一個藍隊代表我方的目的、目標和利益,而敵人則由紅隊代表。通過讓紅隊模仿敵人的動機、意圖、行為和預期行動,己方可以測試和評估自己的行動方案,找出利用敵人弱點的機會,并學習了解藍隊和紅隊的互動動態。組建紅隊是一種了解所有可能影響一個系統及其決策的設備的方法。從本質上講,敵人是一個單位,它和我們存在競爭關系,并采取行動阻止我們實現目標。在這里,可以集成人工智能和多智能體系統以支持決策和規劃。它允許決策者探索可能影響目標的事件發展情況,發現和評估我們自己的弱點,學習了解敵人的行為并找到獲勝的策略。

同樣值得一提的是最近關于為北約開發可操作的數據耕作決策支持工作(MSG-124),該工作使用數據耕作方法(即大規模并行模擬、數據分析和可視化)來分析模擬系統的輸出,其中有數十萬種地面戰爭作戰計劃的備選模擬。這是一種將模擬與大數據分析相結合的定性方法。

4.3 用于執行的人工智能

在執行行動時,重要的是迅速將可通過人工智能方法進行融合和分析的戰場信息送到指揮官手中。指揮官需要這些信息,以便在緊張的情況下迅速做出關鍵決定。處理和傳遞給指揮官的信息量往往很大,以至于存在信息過載的重大風險。如果信息沒有按照指揮官理解的邏輯、并且以簡明和有意義的方式呈現,就會出現問題。

除了人工智能和信息融合之外,高級模擬是決策支持系統框架內的一種重要方法,其中模擬可以與人工智能方法進行交互。 Moffat 和 Witty 開發了一種決策和軍事指揮模型,有助于深入了解軍事決策過程。 在這個模型中,軍事行動可以看作是一系列連續的對抗。 該模型基于博弈論和對抗分析。對抗不同方面的看法是基于他們對當前局勢的看法以及他們能夠采取的替代行動。該模型可用于高級模擬,以評估決策支持系統框架內的行動。

自2008年以來,美國國防部高級研究計劃局(DARPA)已經為軍事戰術指揮和控制開發了一項名為 "深綠"(DG)的技術。DG幫助指揮官發現和評估更多的行動選擇,從而積極主動地管理一項行動。DG背后的方法旨在進入對手的OODA環內。其想法是,決策應該非常迅速以至于OODA-環被分解成一個極快的OO-環,它提供一個定制的DA-環,當前的情況信息被用來模擬自己和對手的許多決策組合,以及模擬和評估這些選擇。該計劃在2013年被移交給美國陸軍。DARPA在DG之后采取了進一步的措施,最近開展了一個名為實時對抗性情報和決策(RAID)的研究項目,使用預測分析、人工智能和模擬來分析對手的行動 。

RAID開發的技術可以幫助戰術指揮官估計敵方部隊的位置、實力和目的,并有效打擊對手的行動時預測他們可能的戰術動向。這包括識別對手的意圖,預測對手的戰略,發現欺騙行為,規劃自己的欺騙行為,生成戰略等。這些問題發生在軍事行動的規劃、行動的執行、情報分析等方面。為了實現這一目標,RAID將用于規劃的人工智能與認知建模、博弈論、控制論和機器學習相結合。

機器學習也可以用來制定戰斗的戰術。然而,許多機器學習算法的速度不足以在空戰等應用中找到智能體的最佳行為。Q-learning是一種強化學習算法,已被成功用于評估空戰目標分配。該算法在不使用任何大型數據集或先驗數據的情況下,為智能體的行為學習最佳狀態-行動對。

有時,我們需要為一連串的類似場景學習行為規則。在這種情況下,我們可以使用遷移學習來減少學習時間。例如,當我們學習不同的2對2場景下的空戰規則時,我們可以先使用已經有2對1場景下戰斗經驗的智能體。一個實驗表明,在2對1場景中已經獲得的經驗在2對2場景中是非常有利的,因為進一步的學習所花費的成本是最小的。以這種方式使用遷移學習可以使智能體的行為在新的場景中得到快速發展。

如第3節所述,人工智能促進執行的重點還在于使工作人員在執行業務的過程中更有效地工作。其中提到的一個想法是自動生成報告摘要。確定的需求來自于分層的組織結構,每個上層都會收到來自相連的下層的報告,因此,如果不進行總結,可能會有一個指數級增長的信息向上傳遞。在過去,自動文本總結是提取式的,即從原始文件中剪切和粘貼相關的完整句子。隨著最近的深度學習技術--序列到序列模型的出現,抽象化的總結方法也隨之出現。抽象方法能夠產生摘要,其中產生了原始文件中不存在的新的表述方式。

另一個被提及的想法是將語音轉錄為文本。自計算機興起以來,機器學習一直是語音識別系統的基礎。今天最先進的算法都是基于深度學習技術。例如,微軟在2017年提出的算法能夠達到與人類相同的錯誤率。

5 挑戰

在本節中,我們討論了將人工智能納入決策支持系統時的一些潛在挑戰。具體來說,我們討論了當前人工智能技術的可行性和可解釋性。

5.1 可行性

研討會上浮現的不同想法具有不同的技術成熟度。 例如,美國軍方長期使用基于人工智能的后勤規劃工具“部署和執行聯合助理”(JADE),美國海軍研究實驗室開發了一種名為“狙擊手”的任務規劃和訓練工具 -RT。后者的工具是圍繞三維地形數據建立的,可以回答 "我能看到什么 "或 "我在哪里能被看到 "這類問題,這些問題在放置傳感器或保護部隊時是至關重要的。另一個技術上成熟的人工智能問題是自動語音識別。微軟、谷歌、亞馬遜和其他公司都有利用最新深度學習技術的產品,用于基于語音的對話系統。

在第4.1和4.3節中列出的自然處理語言應用中,尋找類似文件的有效算法已經足夠成熟,可以在實際系統中使用。稍微不那么成熟的是命名實體識別和自動總結的技術。然而,商業系統已經存在(參見www.primer.ai)。最困難的問題(在列出的分析想法中),因此也是最不成熟的問題,是尋找文件之間的矛盾。與更直接的分類問題相比,發現矛盾的學習算法需要另一層抽象的推理。

正如人工智能的最新進展所證明的那樣,海量數據的可用性是實現強大人工智能系統的基礎。根據場景或應用,這在某些軍事環境中可能是一個挑戰。如遷移學習之類的技術,其中針對相似但不同的應用程序訓練來說,機器學習模型被重新使用并適應新問題,當數據稀缺時,對于許多軍事應用程序來說將是重要的。例如,軍事報告和摘要與民用報告和摘要是不同的。然而,考慮到兩者的相似性,人們會期望對非軍事文本進行訓練算法將會是機器學習模型學習特定軍事用例摘要的良好起點。Kruithof研究了與使用遷移學習相比,深度學習需要多少輸入數據才能獲得更好的分類性能。

5.2 可解釋的人工智能

決策支持系統能夠解釋其建議對于決策者能夠理解和依賴該系統至關重要。在可解釋人工智能領域,重點是異構數據的分類、規劃、數據生成和決策策略的創建。該研究領域旨在創建能夠解釋模型的機器學習方法,其中機器學習系統能夠解釋其建議并描述其自身推理的優勢和局限性。

這個研究領域并不新鮮。它已經存在了幾十年,但隨著越來越多地在子符號級別上運行的機器學習方法的出現,它變得更加突出。人工智能系統有幾種方式可以解釋他們的建議。首先,一些類型的模型被認為比其他的更容易解釋,如線性模型,基于規則的系統,或決策樹。對這類模型的檢查可以讓人了解它們的組成和計算。此外,可解釋模型可用于近似亞符號人工智能系統的推理。近似推理可以對系統的整個決策區域或特定決策點周圍的區域進行采樣。

此外,混合系統是可以想象的,其中亞符號機器學習(如深度學習)層面與符號層面相連,在符號層面上進行近似推理,將來自不同推理過程的不確定數據結合到決策支持的基礎上。這樣一個可解釋的人工智能將連接機器學習和更高層次的近似推理和決策。每當決策部分是基于機器學習的結果時,它將為決策者提供解釋。

為了深入了解深度神經網絡的工作情況,必須對神經網絡進行概率性解釋,其中權重被視為概率,網絡被第二個解釋過程劃分為基于神經元之間共同信息處理行為的子網絡。這種劃分確實可以由另一個機器學習模塊來完成。對于這個次要任務,可以考慮幾種不同的方法(例如Kohonen網絡)。然后,每個子網絡(集群)可以被映射到決策樹中的一個節點,通過調查每個節點對決策樹得出的整體結論的影響,可以從可解釋性的角度進行分析。因此,這種方法將從詳細的子符號水平上的問題解決能力轉向聚合的符號水平上的問題解釋能力。 可以將深度學習與神經符號推理和可解釋的人工智能結合使用的應用程序來自通用應用程序池,這些應用程序要么具有大量歷史訓練數據、可從模擬器獲得的數據,要么具有事先不一定完全知道的流數據。 這些應用程序包含一個需要管理的問題(并且可能隨著時間的推移動態發展),需要高級近似推理來將來自不同來源的信息(包括機器學習過程)集成到提供管理問題解決方案的決策支持中。

可解釋人工智能的另一個活躍的研究領域是特征可視化,其中子符號推理被映射回了輸入空間。通常情況下,有兩種通用的方法被用于特征可視化,即激活最大化和DNN解釋。激活最大化計算哪些輸入特征將最大限度地激活可能的建議。DNN的解釋是通過突出有辨別力的輸入特征來解釋系統的建議,這些特征可以通過使用局部梯度或其他一些變化度量的敏感性來分析計算。

未來可解釋的人工智能可能會接近人們一般如何根據感知的信念、愿望和意圖來解釋其他智能體的行為。 Miller 對社會科學研究中的解釋以及如何使用這些知識來設計人工智能系統的解釋進行了回顧。 主要發現是(i)解釋是針對特定反事實事件的對比,(ii)解釋是有選擇的,集中在一個或兩個可能的原因上,以及(iii)解釋是一種社會對話和知識遷移的互動。

最后,對于已經在更高的符號水平上進行論證的軍事決策支持系統來說,基于敏感性分析的解釋特征是一種既定的方法,可以用來解釋為什么某項擬議的軍事計劃被認為是成功的。van Lent等人提出的另一個例子描述了一個人工智能架構,用于解釋野外作戰模擬系統中的人工智能智能體的戰術行為。該方法被美國陸軍用于培訓步兵軍官。

6 結論

本文提出的研究旨在調查人工智能如何被用于增強未來C2系統的決策支持功能。 該研究指出了不同的人工智能觀點,確定了人工智能工具可能產生影響的領域,并強調了可能從人工智能功能的引入中受益最大的具體 C2 任務。

從C2系統建模的角度來看,該研究指出了在C2過程中應該考慮人工智能的三個主要活動,即(i)感知,(ii)規劃,以及(iii)軍事活動,根據圖1中描述的公認的DOODA-循環。為了促進感知過程,管理和利用各種規模不同信息的工具,可以預期提供容易實現的有利條件。對于規劃,處理戰術數據庫(地形、后勤、理論等)的工具可以與決策支持工具相結合,使指揮官能夠在不同的抽象層次上評估不同的行動方案。最后,人工智能對執行的支持可以概括為指揮官評估行動方案,以及在執行行動期間促進不同類型的工作人員工作,例如使用語音到文本工具快速和正確地溝通不同的簡報。

從最終用戶的軍事角度來看,需要考慮的人工智能挑戰主要涉及成熟度和透明度。考慮到可行性,研究中出現的想法與研發方面的不同技術成熟度有關,這并不令人驚訝。一些工具,如語音轉文字工具、地形分析功能等,已經相當成熟,可以買到現成的工具,而其他領域,如推理對手想法的博弈論工具,還需要很多年的基礎研究才能實現其實際功能。關于透明度,這是軍事決策支持需要考慮的一個關鍵挑戰,在這方面,要求人工智能能夠解釋建議,并且人能夠理解和依賴系統是至關重要的。隨著可解釋人工智能領域地不斷探索,初步展現出利好結果,關于透明度還有很多需要學習的地方。

在未來,我們的目標是進行一系列的以用戶為中心的設計活動,目的是指定一套詳細的使用案例,這可以作為在涉及軍事人員的軍事C2環境中采購和進一步測試實際人工智能功能的基礎。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

現代戰術戰爭需要迅速而有效的決策和行動,以便在經常是高度動態和復雜的戰區保持競爭優勢。需要考慮的因素的數量因不確定性、事件的快速發展和人為錯誤的風險而放大。自動化、人工智能和博弈論方法的潛在應用可以為作戰人員提供認知支持。這項研究以自動兵棋推演輔助決策的形式探索了這些應用。該團隊為這個未來的系統開發了一個概念設計,并將其稱為兵棋推演實時人工智能輔助決策(WRAID)能力。

頂點項目的目標是探索自動化、人工智能和博弈論的應用,作為支持未來WRAID能力的方法。該團隊為WRAID能力開發了需求、概念設計和操作概念。該小組確定并探索了可能對未來實施WRAID能力構成障礙的挑戰性領域。該小組調查了與使用人工智能來支持戰爭決策有關的倫理挑戰和影響。

本報告首先對與WRAID能力相關的主題進行文獻回顧。文獻回顧從人工智能的回顧開始,提供了一個關于人工智能如何工作以及它能夠完成什么類型任務的概述。文獻綜述探討了人機協作的方法,以支持未來指揮官和人類用戶與WRAID系統之間的互動。需要翻譯指揮官的意圖,并讓WRAID將有意義的輸出傳達給指揮官,這需要一個強大的界面。審查包括傳統的兵棋推演,以研究目前的模擬兵棋推演是如何進行的,以便深入了解,未來的WRAID能力如何能夠實時復制兵棋推演的各個方面,并認為以前的兵棋推演可以為人工智能和機器學習(ML)算法的發展提供訓練數據。ML算法的訓練需要大量的代表性數據。文獻回顧研究了人類的認知負荷,以深入了解人類大腦的認知技能和上限;并確定人類思維的極限,以顯示人工智能可能提供的支持。文獻綜述中涉及的最后一個主題是,傳統的計劃和決策,以了解目前在軍事上如何制定戰術行動方案。

該小組進行了需求分析和利益相關者分析,探索WRAID能力如何支持作戰人員。該小組在需求分析的基礎上為WRAID系統開發了一套需求。這些要求被歸類為:硬件/軟件,人機界面,和道德規范。第一階段的分析結果包括 (1)戰爭的復雜性需要發展一種未來的WRAID能力,這種能力利用自動化方法,包括人工智能、ML和博弈論,(2)WRAID能力需要大量的計算能力和復雜的軟件算法,(3)實現未來WRAID系統的挑戰將是技術和道德的。

未來WRAID系統的概念設計是基于需求分析的。概念設計被記錄在一套系統模型中,包括背景圖、系統視圖、功能工作流程圖和操作視圖。該團隊開發了一個作戰場景,以支持對WRAID能力如何在作戰中使用。

在開發WRAID的過程中,預計會有一些路障。開發WRAID系統的技術是存在的,然而,研究小組發現數據挑戰、人工智能訓練、程序限制和當前系統工程的局限性將是需要解決的障礙。數據挑戰指的是獲得足夠的數據集的能力,這些數據集代表了訓練ML算法所需的真實世界的戰術行動和兵棋推演分析。程序性挑戰包括國防部實施網絡安全、機密數據、數據庫訪問和信息分配協議的能力。系統工程方面的障礙是需要新的方法來設計安全和可靠的人工智能系統,如WRAID能力。將需要SE方法來處理不可預見的故障模式,并在系統生命周期的早期確定根本原因。

對像WRAID能力這樣的人工智能系統的倫理考慮是系統發展的一個重要因素。開發系統以取代倫理學,將使系統更有可能被部署。有幾個有道德問題的自主武器系統被拉出來作為WRAID能力的道德對話的基礎。通過一個示例場景,對道德狀況進行定性分析,以了解在部署WRAID能力時可能出現的道德問題。倫理學在未來的技術中發揮著巨大的作用;從一開始就考慮到倫理學,建立技術是很重要的。

未來的重點需要放在繼續對想象中的WRAID系統采取正規的系統工程方法。WRAID系統需要一個強大的數據集,需要收集和注釋;收集的定性兵棋推演數據越多,WRAID系統的可行性和準確性就越高。與軍事部門的合作對于最大化WRAID的利益至關重要,例如情報和偵察組織。WRAID的模擬將是完善系統要求和創建現實模型的關鍵。關于如何使用WRAID的培訓和文檔應該同時開發,所以利益相關者,特別是指揮官已經準備好,知道如何使用這個新工具。未來的研究領域包括認知工程、基于正式模型的系統工程和人機協作。

隨著目前技術進步的速度和外國的目標,人工智能將在未來的沖突和戰爭中發揮作用。自上而下的指令將需要設計和實施WRAID能力:提供大量的資源,解決操作和文化變化,重組系統工程,并確保網絡安全和收購變化。實現未來的WRAID能力并不是一個微不足道的任務。然而,它對確保現在和未來的戰斗空間優勢至關重要。

付費5元查看完整內容

摘要

軍事決策在不同的領域--陸地、海洋、空中、太空和網絡--以及不同的組織層面--戰略、作戰、戰術和技術上發揮著關鍵作用。建模和仿真被認為是支持軍事決策的一個重要工具,例如,生成和評估潛在的行動方案。為了成功地應用和接受這些技術,人們需要考慮到整個決策 "系統",包括決策過程和做出決策的指揮官或操作員。

人工智能技術可以以各種方式改善這個決策系統。例如,人工智能技術被用來從(大)數據流中提取觀察結果,自動建立(物理/人類/信息)地形模型,產生對未來事件和行動方案的預測,分析這些預測,向人類決策者解釋結果,并建立人類決策者的用戶模型。

對于所有這些應用,人工智能技術可以在不同的情況下被使用,并且已經開始被使用,因此有不同的要求。在本文中,我們概述了人工智能技術和模擬在決策"系統"中的不同作用,目的是在我們的社區中促進對人工智能的綜合看法,并為用于軍事決策的各種人工智能研發奠定基礎。

1.0 引言

軍事決策有多種形式。它發生在不同的領域--陸地、海洋、空中、太空、網絡--以及不同的組織層次[7]。例如,在戰略層面上,決策是否以及何時在一個特定的作戰區域內開始一項軍事任務。在作戰層面上,聯合部隊指揮官決定為某項行動分配哪些軍事要素,并指定在具體行動中尋求的預期效果。在戰術層面上,例如,海上任務組的反空戰指揮官決定由哪艘護衛艦來應對來襲的威脅。最后,在技術層面上,要決定在什么范圍內使用什么武器來消滅對手。

建模和仿真被認為是支持這些現場決策過程的一個重要工具(例如,見[3]的清單)。它提供了一種理解復雜環境和評估潛在行動方案有效性的手段,而不必使用現場測試。因此,借助于建模和模擬可以更安全、更便宜、更快速,而且可以更容易地測試不同的操作方式。此外,對于戰場上的軍事行動來說,廣泛地試驗軍事行動應該如何進行,甚至可能在道德上不負責任。因為,在指揮官可以決定不繼續按照同樣的戰術行動之前,就已經產生了意想不到的效果。

現代建模和仿真經常得到人工智能(AI)技術的支持。例如,用于仿真單個節點、組織和社會行為模型(見一些背景資料[13][4]),以獲得對對手合理和可能行為的洞察力。在這種行為洞察力的基礎上,可以為許多決策層面的軍事行動設計提供智能分析和決策支持。此外,人工智能技術被用來構建這些模型,與這些模型互動,并迅速分析大量的模擬結果數據。這里的技術進步非常多,例如,使用機器學習來構建更真實的行為模型[11],改善人機協作[5],對大量的模擬數據進行理解[10]。然而,人工智能技術只有在對決策者有用的情況下才能也應該被用于軍事決策。這意味著,只有在決策質量提高或決策過程變得更容易的情況下,才應將人工智能技術(在建模和仿真中)整合起來。

成功應用和接受用于決策支持的模擬仿真--可能建立在人工智能技術之上--取決于與主要軍事決策過程的互動和不斷學習([1])。決策者和分析員應該知道如何提出正確的輸入問題,以便通過建模和仿真來回答。然后,這些問題應該通過建模和仿真研究轉化為正確的輸出答案。因此,在各種互補的人工智能技術的支持下,應該對軍事決策過程和軍事模擬之間的互動有一個廣泛、全面的看法,并服從不同的功能要求。在本文中,我們概述了由人工智能技術支持的軍事仿真在決策"系統"中的不同作用,目的是在我們的社區內促進對人工智能的綜合看法,并為軍事決策的各種人工智能研發奠定基礎。

2.0 基于仿真的軍事決策

如引言所述,決策發生在不同的領域和不同的組織層面。在這里,我們提出了一個決策系統的示意圖,以提供一個關于如何通過仿真來支持決策的一般見解。這一觀點(圖1)來自于對多個決策過程的分析,如聯合定位[5]、作戰計劃[7]、海上反空戰[1],并與著名的OODA環[8]相結合。該觀點中的元素解釋如下。

圖1:由建模和仿真支持的軍事決策周期的系統觀點。

觀察:OODA循環的第一步是觀察,從廣義上講,就是觀察現實世界中正在發展和出現的事件和情況。觀察包括,例如,來自傳感器的(原始)數據,包括我們自己的眼睛和耳朵,以及來自報告、報紙和社會媒體的符號數據。還收集了來自高層指揮和控制實體的指導意見。這些數據由分析員處理,對鏡頭中的個體進行命名,計算某些Twitter標簽的出現次數,驗證某個事件是否真的發生,等等。根據[9],這可以被稱為情境意識的第一級:對當前情況下的元素的感知。

世界模型:在OODA環的觀察步驟中,已經開始了構建世界模型的過程,無論是隱性的還是顯性的。符合軍事決策觀點的世界模型的另一個名稱是共同行動圖。所有相關的概念都在世界模型中得到體現,包括不確定因素和假設。請注意,世界模型可以被仿真,即個體、平臺、團體或社會的行為可以隨著時間的推移而被預測,即使是在用戶的頭腦中隱含完成。

定位:在OODA循環的第二步,分析者使用他的專業知識,對觀察結果進行推理,形成假設,例如對手的意圖。通過這樣做,實現了對真實世界的深入理解[12],這反映在世界模型中(仍然是顯性或隱性的)。在態勢感知方面,這被稱為第2級(對當前形勢的理解)和態勢感知能力第3級(對未來狀態的預測)。在任何時候,推理的結果可能是世界模型結構是不充分的,例如,現實世界的一個方面被認為是不相關的,但最后發現是相關的。因此,世界模型需要被更新。

決定:決策者,可能是與分析員相同的人,將根據對現實世界的理解,考慮如何采取行動的選項。世界模型的預測能力被用來演繹各種情景,讓人了解什么是理想的行動方案,什么不是,或者讓人了解空間和/或時間上的關鍵點,這樣就可以對這些關鍵點給予額外考慮。當然,如果世界模型是隱含的,這都是決策者的精神努力。此外,對于感興趣的現實世界系統的預測行為,可以得出的結論的精確性和/或確定性有很大不同:從精確的路線,到可能的戰略和理論的廣泛指示。

行動:在OODA-環的這一步,行動被執行。這些行動發生在真實世界中,然后一個新的OODA-環開始觀察是否需要重新考慮已經做出的決定。另一個行動可以是向 "較低層次"的決策過程下達命令,例如,讓下屬單位計劃和執行他們所得到的任務。這就是不同組織層次的決策過程的互動方式。還要注意的是,盡管每個組織層面的世界模型都與真實世界相聯系,但這些世界模型的結構(即被認為是相關的)可能是不同的。

從概念上講,在上述的決策過程中引入模擬(實際上首先是建模的巨大努力)是很直接的。在第一步和第二步中,建立了世界相關部分的模型,在以后的時間里,它被用來評估許多不同的情景,分析由此產生的結果,并根據其結論做出決定。正如后面將顯示的那樣,人工智能技術的作用與建模和模擬的使用有很大關系。

雖然從概念上來說,納入仿真模擬和人工智能技術是很簡單的,但為了給行動提供真正的附加值,它需要被嵌入到具體的決策過程中。而每個決策過程都是不同的,有不同的時間限制,不同的行動者,在不同的操作環境中。這將對開發使用的解決方案,包括人工智能技術,提出不同的功能要求。此外,根據具體的作戰決策環境,應用人工智能技術的附加值(或缺乏附加值)將是不同的。在下一節中,我們將對一個具體的案例進行進一步的探索,盡管肯定不是詳盡的努力,以允許對這種系統在這個過程中可能具有的不同角色進行更通用的識別。

3.0 案例研究:聯合目標定位周期

本節提供了一個關于如何利用仿真和人工智能技術來支持作戰層面上的(蓄意)聯合目標定位決策的案例研究。對于每個想法,都有以下描述:被加強的行為者(決策者)和/或產品,人工智能如何提供支持,以及使用這種形式的支持的附加值是什么。請注意,這個案例研究的目的是為了更好地了解人工智能技術應用的廣度,因此,目標不是完全涵蓋所有的可能性,也不是過于詳細。這種類型的案例研究已經確保了可以得出初步的功能要求,人工智能技術和智能建模與仿真應該應用于此。

圖2顯示了北約盟國聯合出版物3.9中的聯合瞄準決策周期,其中強調了五個想法。

圖2--來自北約盟國聯合出版物3.9的聯合目標定位周期,JFC=聯合部隊指揮官,JTCB=聯合瞄準協調委員會,JTL=聯合瞄準清單,TNL=目標

想法1--基于AI的目標系統分析的所有來源分析。第一個想法是支持目標小組的成員在聯合目標定位周期的第二階段參與目標系統分析,進行目標開發。例如,假設從第一階段開始,就打算通過瞄準對手的石油生產來擾亂其資金能力。在第二階段,分析人員將研究石油生產的目標系統,以確定油井、煉油廠、管道、重要的道路,也許還有相關的關鍵人物,等等,基于他們擁有的所有來源(圖像、信號情報、人類情報,等等)。

人工智能技術可以協助人類分析員建立 "目標系統模型",即通過采用模式識別算法來處理大量的所有來源的信息,通過使用推理算法將信息碎片組合成一個結構化和連貫的整體。分析傳入信息的算法可能--經過增量的人工智能驅動的創新--也能夠識別尚未反映在目標系統模型中的新概念,然后可以自動添加到模型中。另一種可能性是創建一個 "虛擬分析師"(見圖3),通過不斷挑戰假設、假說和人類偏見來協助人類分析師,這需要額外的用戶建模和可解釋的AI技術。

圖3:人類和虛擬分析員,一起解釋數據,推理信息和知識,以建立一個目標系統模型。

這個想法的潛在附加值首先體現在完整性上,更多的目標可以呈現給人類分析員--它仍然可以為交叉檢查的目的做最后一步的目標審查。因為所有來源的情報都被整合到目標識別決策中,所以可以得出更具體的目標信息。識別算法經過訓練后,與基于人眼從數據中識別目標時相比,可以更快更及時地進行識別。最后,該算法可以明確地轉向識別不同類型的目標,這些目標可能并不都在人類分析員的經驗或觀察能力范圍內。

想法2--通過算法識別來自目標系統分析的優先目標。第二個想法是支持從一個給定的目標系統分析中識別優先目標。這有助于目標支持小組成員得出一個聯合的優先目標清單,該清單是在聯合目標定位周期的第二階段,即目標開發階段制定的。人工智能技術的支持始于將目標系統分析(如果還沒有的話)轉化為計算機可理解的形式,該形式由功能關系連接的實體組成,并由目標任務的目標支持。然后,在相關的時間范圍內計算直接或間接瞄準不同實體所產生的效用(例如,效果和效果的持續時間)。

然后,最終結果可以由人類分析員檢查,該分析員可能會重新引導算法的某些部分,以確保最終結果選擇的優先目標盡可能地滿足和平衡任務目標。另一種可能性是,分析表明,對目標系統的某些部分還沒有足夠的了解,無法做出某種決定,然后發出新的情報請求,以減少這種不確定性。

在這種情況下,使用人工智能技術的附加價值首先體現在通過完整地確定優先事項,包括最大限度地實現任務目標,同時最大限度地減少負面問題,從而更好更快地確定優先次序。這種全面的分析可能會導致原始的目標選擇,在這種情況下,會發現反直覺但非常有效的目標。目標優先級的可追溯性增加了,因為目標選擇問題的算法規范以及積極和消極的相關功能迫使決策者在激發他們的偏好時完全明確。

想法3--能力和優先目標的自動映射。與目標開發(第二階段)密切相關的是第三階段的能力分析。第三個想法是協助,仍然支持目標支持小組的成員,找到最適當的(致命和非致命)能力的最佳同步組合,可以應用于產生所需的物理和心理效果。使用模擬和人工智能技術來自動生成和播放高水平和低水平的行動方案,可以獲得對計劃的優勢、機會、弱點和威脅的深刻理解。當然,只有在與人類分析員和決策者密切合作的情況下,建立這樣的理解才是有用的,這就需要有人類意識的 "虛擬分析員 "技術。

想法4--計算機輔助的穩健和適應性部隊規劃和分配。在聯合定位的第四階段,能力分析的結果被整合到進一步的行動考慮中,推動聯合部隊指揮官對目標的最終批準。仿真和人工智能優化技術可用于尋找稀缺資源對目標或其他任務的最佳分配。什么被認為是 "最好的 "可以是不同的,例如,爭取最大的效果、安全、穩健、靈活,或這些和更多因素的任何組合。這可能會提供原始的規劃和分配方案,從人類分析者的角度來看,這些方案部分是反直覺的,但卻富有成效。智能優化算法可以幫助確定時間和/或空間上值得監測的關鍵點。而且,如果可以實時跟蹤進展,在事件或機會實際發生之前就可以立即生成重新分配方案,在時間緊迫的情況下減少決策時間。

想法5--自動評估軍事行動績效措施。在聯合定位的最后階段,收集和分析數據和信息,以確定計劃的行動在多大程度上得到執行(績效的衡量),以及達到預期的效果(效果的衡量)。因為這種類型的分析與其他階段的分析基本相似(即需要觀察和理解),所以在這里采用的模擬和人工智能技術可以被重復使用。例如,"目標系統模型"可以用來事先確定哪些措施或措施的組合最能說明性能和/或成功,也許還要考慮到其他因素,如效果的可測量性和延遲性。這些見解可用于指導例如戰斗損失評估工作。算法可以自動產生多種假設,當數據/信息可用時,"虛擬分析師"可以協助對這些假設和信息進行推理,幫助人類分析師以結構化的方式更好地解釋復雜的情況。

4.0 討論:人工智能在軍事決策中的作用

在本節中,我們將討論人工智能技術在軍事決策中可以發揮的作用,并將這些作用與前面介紹的軍事決策系統聯系起來。這些作用是由上面的案例研究綜合而成的。不同的作用是沿著兩個層次結構的,從上到下:在 "過程"層面,不同但連貫的步驟/階段被執行;在 "個體"層面,人類(或團隊)負責執行決策過程的特定步驟。

在整個決策過程的層面上,有多個步驟可以區分。在前面介紹的決策系統觀點中,這些步驟是觀察、定位、決定和行動。在聯合定位案例研究中,這些對應于六個階段,由不同的人在不同的時間執行。在這個層面上,我們為人工智能技術定義了四個功能角色,以支持決策過程。

  • 感知:這個角色中的人工智能技術,主要以模式識別的形式,幫助處理大量的數據,如在圖像中尋找人,檢測數據流中的異常情況等。

  • 態勢理解:這個角色的功能是實現對當前或假設的作戰環境的理解[12],從而描述所有相關實體、它們之間的關系以及不可觀察的屬性,如它們的野心和目標。例如,對關于最近敵對活動的現有信息進行推理,結合關于他們的理論的一般知識,可以用來產生關于他們最可能的意圖的假設。

  • 計劃生成:在這個角色中,人工智能技術,例如搜索和優化,被用來生成旨在達到(或避免)某種目標情況的計劃、策略和行動方案。處理元標準,如計劃的穩健性或情況的實用性也是這個作用的一部分。顯然,在許多情況下,不確定性是行動環境所固有的,因此不能被忽視。盡管如此,對當前形勢的理解越好,預測能力就越強。

  • 學習:扮演這一角色的人工智能技術被用來更新有關作戰環境的知識。例如,在某個時間點,人們可能會發現一個被認為是正確的關于敵人理論的假設不再有效了。為了能夠保持正確的理解,這種新知識應該反映在所有其他決策步驟中。

在單個節點層面上,決策過程的單一步驟被執行,通常由一個或一組人類分析員和/或決策者負責。無論這一步需要什么,人工智能技術都可以在不同的合作角色中被使用,以支持人類。

  • 專家系統支持:在這個角色中,支持的形式就像一個經典的專家系統,以知識和優化結果的形式向人類決策者或分析員提供建議。重要的考慮因素是,例如,如何以人類能夠接受的方式向其提供建議。對可解釋人工智能的研究可能是一個方向。

  • 虛擬團隊成員:在這個角色中,人工智能技術被用來在人類和支持系統之間創造一種更平等的互動關系,積極為一個共同的目標工作。例如,虛擬團隊成員可以通過提出問題使假設明確化或挑戰偏見來幫助做出決定的(認知)過程。人類-人工智能的研究可能是一個追求的方向。

  • 自主決策:決策過程中的其他步驟的互動,專家系統和虛擬團隊成員支持的考慮同樣有效。例如,在其他決策中的人類需要能夠推斷出一個自主系統。

圖4顯示了在軍事決策系統視圖中繪制的人工智能的七個角色。當使用模擬和人工智能來支持決策過程時,應該始終考慮這些不同的角色是如何互動的,無論是在過程層面還是在個人層面。例如,在聯合目標定位的過程層面上,第二階段包括定位(目標系統分析)和決定(為達到預期效果而瞄準什么)。第三階段也包括定位(自身能力)和決定(如何實現預期效果)。這些階段共享相同的世界模型,在這個過程中引入人工智能支持將推動這些步驟的合并,這不是不可想象的。在個體層面上,例如再次考慮第2階段,分析員可以得到綜合態勢理解、規劃生成和學習技術的支持,以及虛擬團隊成員和專家系統支持技術的任何組合。

圖4:由建模和仿真支持的軍事決策周期的系統視圖,其中人工智能技術的功能(黃色)和協作(綠色)作用被描繪出來。

5.0 結論和進一步研究

在本文的第一部分,我們介紹了軍事決策的系統觀點,主要基于OODA循環,其中我們介紹了世界模型,作為向整個決策周期提供建模和仿真支持的核心手段。接下來,從我們的聯合目標定位案例研究中,我們推斷出人工智能可以為軍事決策做出貢獻的七個功能性和協作性角色。這些角色對應于決策步驟,或者對應于如何向負責該過程步驟的人提供支持。最后,我們將這些人工智能角色整合到決策系統視圖中。

本文的目標是為我們社區內人工智能的綜合觀點做出貢獻,并為軍事決策的人工智能各種研發奠定基礎。在開發支持軍事決策的模擬和人工智能時,我們建議同時考慮過程層面和單個節點層面。在過程層面上,通過使用建模和仿真可以獲得好處。在單個節點層面上,為人類分析員和決策者提供實際支持,人工智能技術可以通過不同的角色組合對此作出貢獻。鑒于決策過程的各個步驟都是不同的,并且提出了不同的要求,履行這些不同角色的人工智能技術需要作為一個整體來開發。

我們相信,隨著對這一主題的更多研究,軍事決策的速度和質量都可以得到改善。然而,非常重要的是,要持續關注特定的未來人工智能應用的附加值,以及研究這些應用可能對,例如,負責該過程的人的所需技能,甚至該過程本身的影響。最后需要的是一個系統,它的存在是因為它可以建立,而不是有人幫助。對于這一點,應該更普遍地回答如何限定然后量化應用人工智能進行具體軍事決策應用的附加價值的問題。這樣的見解反過來又會成為關于人工智能用于軍事決策的集體技術路線圖的寶貴基礎。

6.0 參考文獻

[1] Bloemen, A., Kerbusch, P., van der Wiel, W., Coalition Force Engagement Coordination, TNO Report TNO-2013-R12117, 2015.

[2] Connable B, Perry W, Doll A, et al. Modeling, Simulation, and Operations Analysis in Afghanistan and Iraq. Santa Monica, CA: RAND, 2014.

[3] Davis P., Kulick J., Egner M. Implications of Modern Decision Science for Military Decision-Support Systems. Santa Monica, CA: RAND, 2005.

[4] Kunc, M., Malpass, J., White, L.(2016). Behavioral Operational Research, Theory, Methodology and Practice. Palgrave Macmillan, London.

[5] Langley, P., Meadows, B., Sridharan, M., Choi, D. (2017). Explainable Agency for Intelligent Autonomous Systems. Proceedings of the Twenty-Ninth AAAI Conference on Innovative Applications (IAAI-17).

[6] NATO Allied Joint Doctrine For Joint Targeting AJP 3.9(B), 2015.

[7] NATO Allied Command Operations. Comprehensive Operations Planning Directive Interim V2.0.

[8] “OODA loop.” Wikipedia, The Free Encyclopedia. 10 Mar. 2018.//en.wikipedia.org/wiki/OODA_loop

[9] “Situation Awareness.” Wikipedia, The Free Encyclopedia. 17 Mar. 2018.

[10] Smit, S., Veldhuis, G., Ferdinandus,G., et al. KaV Advanced Visual Analytics, TNO Report DHWELSS-, 2016.

[11] Toubman, A., Poppinga, G., Roessingh, J. (2015). Modeling CGF Behaviour with Machine Learning Techniques: Requirements and Future Directions. Proceedings of Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2015.

[12] “Understanding.” Wikipedia, The Free Encyclopedia. 18 Apr. 2018.

[13] Zacharias, G., MacMillan, J., van Hemel, S. (2008). Behavioral modeling and simulation: From individuals to societies. National Research Council, National Academies Press.

付費5元查看完整內容

人工智能(AI)的最新進展為許多經典的AI應用帶來了突破,例如計算機視覺、自然語言處理、機器人和數據挖掘。因此,有很多人努力將這些進展應用于軍事領域,如監視、偵察、威脅評估、水雷戰、網絡安全、情報分析、指揮和控制以及教育和培訓。然而,盡管人工智能在軍事應用上有很多可能性,但也有很多挑戰需要考慮。例如,1)高風險意味著軍事人工智能系統需要透明,以獲得決策者的信任并能進行風險分析;這是一個挑戰,因為許多人工智能技術具有黑盒性質,缺乏足夠的透明度;2)軍用 AI 系統需要穩健可靠;這是一個挑戰,因為已經表明即使對所使用的 AI 技術沒有任何了解,AI 技術也容易受到輸入數據微小變動的影響,并且 3) 許多 AI 技術基于需要大量數據的機器學習訓練;這是一個挑戰,因為在軍事應用中經常缺乏足夠的數據。本文介紹了正在進行的項目成果,以說明軍事應用中人工智能的可能性,以及如何應對這些挑戰。

1 介紹

人工智能(AI),特別是機器學習(ML)和深度學習(DL),在十年內已經從研究機構和大學的原型設計轉向工業和現實世界應用。使用DL技術的現代人工智能已經徹底改變了傳統人工智能應用的性能,如機器翻譯、問答系統和語音識別。這一領域的許多進展也將其優秀的想法變成了卓越的人工智能應用,能夠進行圖像說明、唇語閱讀、語音模仿、視頻合成、連續控制等。這些成果表明,一個能夠自我編程的機器有潛力:1)提高軟件和硬件開發的效率,2)以超越人類的水平完成特定的任務,3)為人類以前沒有考慮過的問題提供創造性的解決方案,4)在人類已知的主觀、偏見、不公平、腐敗等方面提供客觀和公平的決定。

在軍事背景下,人工智能的潛力存在于所有維度的軍事空間中(即陸地、海洋、空中、空間和信息)和所有級別的戰爭內(即政治、戰略、作戰和戰術)。例如,在政治和戰略層面,人工智能可以通過制作和發布大量的虛假信息來破壞對手的穩定狀態。在這種情況下,人工智能很可能也是抵御這種攻擊的最佳人選。在戰術層面,人工智能可以改善無人系統的部分自主控制,以便人類操作員可以更有效地操作無人系統,最終擴大戰場影響力,增強戰場實力。

然而,正如我們將在這項工作中指出的那樣,有幾個關鍵挑戰可能會減緩或限制現代人工智能在軍事應用中的使用:

  • ML模型的透明度和可解釋性不足。舉一個例子,使用DL對使用深度神經網絡(DNN)的自動駕駛汽車進行控制建模需要幾十萬個參數。顯然,這樣一個復雜的程序不容易被解釋。即使是使用替代的ML算法生成的模型,其中模型可以被圖形化,如解析樹或決策樹,即使在應用于玩具模型問題時,也很難甚至不可能解釋。一個更重要的挑戰是人工智能系統向決策者或人類操作者解釋其推理的能力,或者在這種情況下是無能為力的。
  • 眾所周知,使用ML開發的模型很容易受到對抗性攻擊。例如,基于DL的模型可以很容易地通過操縱輸入信號而被欺騙,即使該模型對攻擊者來說是未知的。舉一個例子,使用最先進的目標檢測的無人駕駛飛行器(UAV)也有可能被地面上精心設計的偽裝圖案所欺騙。
  • 任何 ML 應用的原料是機器可以從中學習并最終深入理解的數據。軍事組織通常擅長收集數據用于匯報或重建目的。然而,不能保證同樣的數據可以成功用于ML。因此,軍事組織可能必須調整其數據收集過程,以充分利用現代人工智能技術,如DL。

本文的目的是強調人工智能在軍事應用中的可能性和主要挑戰。第2節簡要介紹了DL,它是本文關注的主要人工智能技術。第3節提供了幾個人工智能在軍事領域中應用的例子。第4節描述了與軍事領域中人工智能的關鍵挑戰,以及部分可用于解決這些挑戰的技術。第5節提出了結論。

2 深度學習

我們所說的DL是指由多個非線性處理單元層組成的機器學習模型。通常情況下,這些模型由人工神經網絡表示。在這種情況下,神經元指的是一個單一的計算單元,其輸出是通過一個(非線性)激活函數的輸入的加權和(例如,一個只有在信號為正時才通過的函數)。DNN指的是具有大量串連神經元層(神經元層由神經元并聯組成)的系統。與DNN相對的是淺層神經網絡,它只有一層平行連接的神經元。

直到大約十年前,DNN的訓練幾乎是不可能的。第一個成功的深度網絡的訓練策略是基于一次訓練一個層。逐層訓練的深度網絡的參數最終使用隨機梯度方法進行微調(同時),以最大限度地提高分類精度。此后,許多研究進展使得直接訓練DNN成為可能,而無需逐層訓練。例如,人們發現,網絡權重的初始化策略與激活函數的選擇相結合是解決問題的關鍵。甚至一些技術,如在訓練階段隨機停用神經元,以及在信號到達激活函數之前對其進行歸一化處理,也已證明對于使用 DNN 獲得良好結果非常重要。

表示學習是DNN高性能的主要原因之一。使用DL和DNN,不再需要手動制作學習特定任務所需的特征。相反,辨別特征是在 DNN 的訓練過程中自動學習的。

支持 DL 應用的技術和工具如今比以往任何時候都更加好用。通過廉價的計算資源、免費的 ML 框架、預訓練模型、開源數據和代碼,僅使用有限的編程/腳本技能即可成功應用和定制高級 DL。

3 軍事人工智能應用

本節介紹了幾個可以應用人工智能來提高軍事能力的例子。

3.1 監視

海上監視是利用固定雷達站、巡邏飛機、船舶,以及近年來使用自動識別系統(AIS)對海上船只進行的電子跟蹤。這些信息源提供了大量的關于船只運動的信息,這些信息可能會揭示船舶非法的、不安全的、有威脅的和異常的行為。然而,大量的船舶運動信息使得手動檢測此類行為變得困難。因此ML-方法被用來從船舶運動數據中生成常態模型。任何偏離常態模型的船舶運動都被認為是異常的,并提交給操作員進行人工檢查。

一種早期的海事異常檢測方法使用模糊 ARTMAP 神經網絡架構根據港口位置對正常船舶速度進行建模。另一種方法是利用運動模式的關聯學習來預測基于其當前位置和行駛方向的船舶運動。其他方法則使用基于高斯混合模型(GMM)和內核密度估計(KDE)的無監督聚類。這些模型能夠檢測出改變方向、穿越海路、向相反方向移動或高速行駛的船只。最近的方法是使用貝葉斯網絡來檢測錯誤的船舶類型,以及不連續的、不可能的和徘徊的船舶運動。海事異常檢測的未來發展還應該考慮周圍的船只和多艘船只之間的互動。

3.2 水下水雷戰

水雷對海上船只構成重大威脅,被用來限制船只行動或阻止船只通過受限水域。因此,反水雷措施(MCM)試圖定位和消除水雷,以實現行動自由。越來越多地使用配備合成孔徑聲納 (SAS) 的自主水下航行器 (AUV) 進行水雷搜索,該水下航行器能提供厘米分辨率的海底聲學圖像。由于AUV收集了大量的SAS圖像,自動目標分類對于區分潛在的水雷與其他物體是很有用的。雖然對水雷的自動目標分類已經研究了很長時間,但DNN在圖像分類方面的高性能表現使人們對如何將這種辦法用于自動地雷探測產生了興趣。

一些研究顯示了DNN在水雷探測方面的潛力。例如,這些研究描述了如何將假水雷的形狀、類似水雷的目標、人造物體和巖石放置在海底的各種地理圖形位置上。然后用AUV和SAS對海底進行測量。結果顯示,與傳統的目標分類器相比,DNN的性能明顯提高,對水雷形狀的檢測概率更高,誤報率更低。同樣,這些研究也描述了如何生成圓柱形物體和各種海底景觀的協同SAS圖像,并這些圖像用來訓練DNN。進一步的研究可能會探究如何從所有類型的雜波物體中分辨出水雷,結合檢測和分類,以及對噪聲、模糊和遮擋的魯棒性等

3.3 網絡安全

入侵檢測是網絡安全的重要組成部分,可在惡意網絡活動危及信息可用性、完整性或機密性之前對其進行檢測。入侵檢測是使用入侵檢測系統(IDS)進行的,該系統將網絡流量分類為正常或入侵。然而,由于正常的網絡流量往往具有與實際攻擊相似的特征,網絡安全分析師對所有入侵警報的情況進行分析,以確定是否存在實際的攻擊。雖然基于簽名的IDS通常擅長檢測已知的攻擊模式,但它們不能檢測以前未見過的攻擊。此外,基于簽名的檢測的開發往往是緩慢和昂貴的,因為它需要大量的專業知識。這限制了系統對快速演變的網絡威脅的適應性。

許多研究使用 ML 和其他 AI 技術來提高已知攻擊的分類準確性、檢測異常網絡流量(因為這可能表明新的攻擊模式偏離了正常網絡流量)以及自動化模型構建。然而,這些系統很少被實際使用。其原因是,入侵檢測給出了具體的挑戰,如缺乏訓練數據、網絡流量變化大、錯誤成本高以及難以進行相關評估。雖然可以收集大量的網絡流量,但這些信息往往是敏感的,只能部分匿名化處理。使用模擬數據是另一種選擇,但它往往不夠真實。然后,必須根據模式是正常還是入侵,或用于確保無攻擊的異常檢測來標記數據以進行監督學習,這通常很難做到。最后,模型需要是透明的,以便研究人員能夠理解檢測限制和特征的含義。

另一項提高網絡安全的措施是在安全審計期間進行滲透測試,以確定潛在的可利用的安全弱點。由于許多網絡的復雜性和其中的大量主機,滲透測試通常是自動化的。一些研究已經調查了如何使用網絡的邏輯模型而不是實際的網絡將 AI 技術用于模擬滲透測試。網絡通常用攻擊圖或樹來表示,描述對手如何利用漏洞闖入系統。描述了模型在表征方式方面的不同之處:1) 攻擊者的不確定性,從抽象的成功和檢測概率到網絡狀態的不確定性,以及 2) 從已知的前后條件到一般感知和觀察的攻擊者行為-結果的服務。此外,通過網絡和主機的正式模型,可以對不同的緩解策略進行假設分析。未來對滲透測試的研究可能會使用攻擊者和防御者之間交互的認知有效模型,例如,深度強化學習來探索可能攻擊的大問題空間。

4 挑戰

正如第3節中的案例所示,在為軍事目的開發和部署的基于人工智能的應用之前,有一些尚未解決的挑戰是很重要的。在本節中,我們將討論我們認為對軍事人工智能最關鍵的挑戰:1)透明度,2)脆弱性,以及3)在有限的訓練數據下的學習。其他重要的,但不太關鍵的,與優化、泛化、架構設計、超參數調整和生產級部署有關的挑戰,在本節中沒有進一步討論。

4.1 透明度

許多應用除了需要高性能外,還需要高透明度、高安全性以及用戶的信任或理解。這種要求在安全關鍵系統、監控系統、自主智能體、醫學和其他類似的應用中很典型。隨著最近人工智能技術的突破,人們對透明度的研究也越來越感興趣,以支持最終用戶在此類應用中的使用與透明度相關的成果。

4.1.1 對透明度的期望

人工智能所需的透明度取決于終端用戶的需求。利普頓描述了透明度可能涉及五種類型的用戶需求:

  • 1.信任-在用戶難以質疑系統建議的情況下。然而,可能不清楚用戶的信任是基于系統的性能或穩定性,相對于用戶的體驗,還是用戶對系統推薦的舒適度。
  • 2.理解之前未知的因果關系,可以用其他方法測試。
  • 3.由于與用戶的能力相比,模型的通用性有限,因此對系統性能的了解受到限制。
  • 4.有關系統建議的一些補充信息。
  • 5.公平性,以避免可能導致某些情況下的不平等待遇的系統性偏見。例如,對信貸申請的評估不應基于個人屬性,如性別或種族,盡管這種屬性可能在整體統計水平上用來區分人口群體。

原則上,有兩種方法可以使人工智能系統透明。首先,某些類型的模型被認為比其他的更容易解釋,例如線性模型、基于規則的系統或決策樹。檢查這些模型可以理解它們的組成和計算。Lipton描述了可解釋性取決于用戶是否能夠預測系統的建議,理解模型參數,以及理解訓練算法。其次,系統可以解釋其建議。這種解釋可以是文字的,也可以是視覺的。例如,通過指出圖像的哪些方面最有助于其分類。Miller 對社會科學研究中如何使用這些知識來設計 AI 系統的進行了的回顧。通常情況下,人們用他們感知到的信念、欲望和意圖來解釋其他智能體的行為。對于人工智能系統來說,信念對應于系統關于情況的信息,欲望對應于系統的目標,而意圖對應于中間狀態。此外,解釋可能包括行動的異常性、使成本或風險最小化的偏好、對預期規范的偏離、事件的回顧性和行動的可控性。主要的發現是:

  • 解釋是針對特定的反事實案例而進行的對比性解釋。因此,解釋的重點是為什么提出特定的建議而不是其他建議。
  • 解釋是有選擇的,并且集中在一兩個可能的原因上,而不是建議的所有原因。
  • 解釋是一種傳遞知識的社會對話和互動。

4.1.2 可解釋模型的實例

貝葉斯規則列表(BRL)是可解釋模型的一個例子。BRL由一系列的if(條件)then(結果)else(替代)語句組成。Letham等人描述了如何為一個高度準確和可解釋的模型生成BRL來估計中風的風險。條件離散化了影響中風風險的高維多變量特征空間,結果描述了預測的中風風險。BRL在預測中風風險方面具有與其他ML方法類似的性能,并且與其他現有評分系統一樣具有可解釋性,但其準確性較低。

基于詞典的分類器是文本分類的另一個可解釋模型的例子。基于詞典的分類器將術語的頻率與每個類別中出現的術語的概率相乘。得分最高的類別被選為預測對象。Clos等人使用一個門控遞歸網絡對詞典進行建模,該網絡同時學習術語和修飾語,如副詞和連詞。受過訓練的詞典是關于論壇中的帖子是支持還是反對死刑以及對商業作品的看法。詞典的表現比其他ML方法更好,同時也是可解釋的。

4.1.3 特征可視化的實例

盡管DNN在許多應用中提供了很高的性能,但它們的子符號計算可能有數百萬個參數,這使得人們很難準確理解輸入特征對系統推薦的貢獻。由于DNN的高性能對許多應用來說是至關重要的,因此人們對如何使它們更容易解釋產生了濃厚的興趣(見一篇評論)。許多用于解釋DNN的算法將DNN處理轉化為原始輸入空間,以便將辨別特征可視化。通常,有兩種通用方法用于特征的可視化,即激活最大化和DNN解釋。

激活最大化會計算哪些輸入特征將最大限度地激活可能的系統建議。對于圖像分類來說,這代表了理想的圖像,它顯示了每個類別的可區分和可識別的特征。然而,由于各類可能使用同一物體的許多方面,而且圖像中的語義信息往往是分散的,所以圖像往往看起來不自然。激活最大化的方法的一些例子是梯度上升法,更好的正則化方法以增加通用性,以及合成首選圖像法。

DNN的解釋是通過強調區分輸入特征來解釋系統建議。在圖像分類中,這種可視化可能會突出顯示支持或反對某個類別的區域,或者僅顯示包含區分特征的區域。計算鑒別特征的一種方法是使用局部梯度或其他變化度量的敏感性分析。然而,敏感性分析的一個問題是,它可能顯示輸入中不存在的判別特征。例如,在圖像分類中,敏感性分析可能會顯示物體被遮擋的部分,而不是可見部分。逐層相關性傳播通過考慮特征存在和模型反應來避免這個問題。

4.1.4 具體應用解釋的實例

與分類不同的是,人工智能規劃是基于動態的領域模型。Fox等人描述如何使用領域模型來解釋為什么行動被執行或不執行,為什么一些行動不能被執行,使未來行動的因果關系,以及重新規劃的需要。

由于公平性對許多人工智能應用來說非常重要,Tan等人描述了如何利用模型蒸餾來檢測黑箱模型的偏差。模型蒸餾法將更大更復雜的模型進行簡化,而沒有明顯的準確性損失。為了提高透明度,他們使用了基于淺層樹的廣義加性模型,對每個參數和兩個參數之間的相互作用進行建模。他們根據黑盒模型的系統建議訓練一個透明模型,并根據實際結果訓練一個透明模型。對兩個模型的推薦差異的假設檢驗體現了黑盒模型引入偏差的情況,然后可以通過比較兩個透明模型來診斷偏差。該系統在犯罪風險、借貸風險和卷入槍擊事件的個人風險方面進行了評估。結果顯示,一個黑盒模型低估了年輕罪犯和白種人的犯罪風險,而高估了美國本土非洲裔犯罪的風險。

4.2 脆弱性

在本節中,我們討論DNN在兩個不同方面的脆弱性。1)對輸入操縱的脆弱性和2)對模型操縱的脆弱性。我們首先看一下對輸入信號的操縱:

4.2.1 對輸入進行對抗性處理

在提供DNN的情況下,人們發現很容易調整輸入信號,從而使分類系統完全失敗。當輸入信號的維度很大時,例如圖片,通常只需對輸入中的每個元素(即像素)進行不易察覺的微小調整,就足以欺騙系統。用同樣的技術來訓練DNN,通常是采用隨機梯度法,通過觀察梯度的符號,你可以很容易地找到每個元素應該朝哪個方向改變,以使分類器錯誤地選擇目標類別或僅僅是錯誤分類。只需幾行代碼,最好的圖像識別系統就會被欺騙,相信一張車輛的圖片是一只狗。下面的圖 1 顯示了操作前后的圖像以及操作前后類的可能性。

上述方法假設有對DNN的完全訪問權,即所謂的白盒攻擊。人們發現,即使是所謂的黑箱攻擊,即你只觀察到系統的輸入和輸出類型,也是可能的。在其中,作者采用從他們想要攻擊的黑盒系統中稀疏采樣所獲得的數據來訓練一個替代網絡。鑒于替代網絡,你可以使用上述的白盒攻擊方法來制作對抗性輸入。一個學習替代網絡的替代方法被提出來,在這個方法中,遺傳算法被用來創建導致系統錯誤分類的攻擊向量。同一作者甚至表明,通常只需修改圖像中的一個像素,盡管常常是可察覺的,就能實現成功的攻擊。

圖 1:從小型貨車到西伯利亞雪橇犬。 原始圖像和操縱(對抗性制作)圖像之間的絕對差異(放大 20 倍)顯示在右側。 對抗性示例(中心)是使用 Kurakin 的基本迭代方法(BIM)生成的。

4.2.2 利用預訓練 DNN 中的隱藏后門

當設計一個DNN,但只能獲得少量的訓練數據時,通常會使用預訓練的模型來達到良好的性能。這個概念被稱為遷移學習,一個常見的應用是采用在大量數據上訓練過的模型,根據具體問題替換和定制網絡中的最后幾層,然后在最后階段(有時甚至是整個系統)利用可用的訓練數據微調參數。目前已經有大量的預訓練模型可以從互聯網上下載。那么一個相關的問題是:"我們怎么知道那些上傳模型的人沒有壞心眼?"。作者在識別美國交通標志的模型中插入后門,就考慮了這種類型的漏洞。例如,一個貼紙被訓練為屬于停止標志以外的類別。然后他們表明,當使用后門(即在交通標志上放置一個貼紙)時,基于美國交通標志網絡的識別瑞典交通標志的系統會有負面的反應(大大損害了瑞典交通標志系統的分類準確性)。

4.2.3 防御方法

減少DNN對輸入信號操縱的脆弱性的一種方法是在模型的訓練過程中明確包括被操縱/對抗的例子。也就是說,除了原始訓練數據外,還產生了對抗性例子,并用于模型的訓練。

另一種方法是使用一個叫做防御蒸餾的概念。簡而言之,該方法試圖降低輸出信號只指出真實類別的要求,并迫使其他類別的概率為零。這分兩步完成。第一步是對DNN進行常規訓練。在第二步,將第一個神經元網絡的輸出(類別概率)用作新的類別標簽,并使用新的(軟)類別標簽訓練一個新的系統(具有相同的架構)。這已被證明可以減少漏洞,因為你沒有把DNN與訓練數據貼得太緊,并保留了一些合理的類間關系。

其他防御方法,例如特征壓縮技術,例如均值或中值濾波或非線性像素表示,例如單熱或溫度計編碼。

不幸的是,所描述的方法都不能完全解決漏洞問題,尤其是如果攻擊者對模型和防御方法有充分的了解的話。

4.3 數據

在軍事背景下開發基于ML的應用是具有挑戰性的,因為軍事組織、訓練設施、平臺、傳感器網絡、武器等的數據收集應用最初不是為ML目的設計的。因此,在這個領域,往往很難找到真實世界的、高質量的、足夠大的數據集,可以用來學習和深入理解的。在本節中,我們將探討即使在有限的訓練數據中也可以用來建立ML應用的技術。

4.3.1 遷移學習

遷移學習(也在第4.2.2節中提到)是一種技術,通常在數據集較小和計算資源有限時使用。這個想法是在開發針對其他類似任務的新模型時,重復使用通常由 DNN 表示的預訓練模型的參數。至少有兩種方法可用于DL應用中的遷移學習:

  • 重新學習輸出層:使用這種方法,預先訓練好的模型的最后一層被替換成新的輸出層,與新任務的預期輸出相匹配。在訓練過程中,只有新輸出層的權重被更新,其他的都是固定的。
  • 微調整個模型:這種方法類似于第一種方法,但在這種情況下,可能會更新整個 DNN 的權重。 這種方法通常需要更多的訓練數據。

事實證明,遷移學習也可以提高模型的泛化能力。然而,隨著源任務和目標任務之間距離的增加,遷移學習的積極作用往往會減少。

4.3.2 生成性對抗網絡

生成性對抗網絡(GANs)是由Goodfellow等人發明的,是一種生成模型,可用于半監督學習,其中將一小組標記的數據與一大組未標記的數據相結合以提高模型的性能。基本的GAN實現由兩個DNN組成,分別代表一個生成器和一個判別器。生成器被訓練成產生假數據,而判別器被訓練成將數據分辨為真實或虛假。當這兩個網絡同時被訓練時,一個網絡的改進也會導致另一個網絡的改進,直到最后達到一個平衡。在半監督學習中,生成器的主要目標是產生未標記的數據,用于提高最終模型的整體性能。除了半監督學習之外,GANs還被用于:

  • 重建:填補部分被遮擋的圖像或對象的空白部分。
  • 超分辨率:將圖像從低分辨率轉換為高分辨率。
  • 磁帶到圖像的轉換:將圖像從冬天轉換為夏天,從夜晚轉換為白天,等等。這項技術的一個軍事應用是可以將夜視圖像轉換為日光圖像。

4.3.3 建模和仿真

建模和仿真已被軍隊廣泛用于培訓、決策支持和研究等。因此,有很多經過長期驗證的模型,也有可能被用于生成ML應用的合成數據。例如,飛行模擬器可以用來生成置于不同環境中飛機的合成圖像。在這種情況下,標簽是自動的,因為在生成合成圖像之前,飛機的類型是已知的。然而,不足為奇的是,在將模型應用于真實世界的圖像時,使用合成圖像可能會導致性能不佳。目前正在探索的一種方法是采用GANs增強合成圖像,使其具有照片般的真實性。這種方法已經得到成功的應用。

5 結論

人工智能最近的突破正在逐漸達到可以用于軍事應用的地步。 該論文描述了在監視、水下魚雷戰和網絡安全中使用人工智能的一些可能性。 其他潛在應用包括使用半自動駕駛車輛和傳感器系統進行偵察、在具有長時間要求的防空系統中進行威脅評估、新興模式的情報分析、指揮和控制系統以及教育和培訓。 然而,人工智能的軍事應用需要考慮以下方面的挑戰:

  • 確保模型性能符合軍事要求的透明度。
  • 脆弱性可能會導致系統性能大幅度降低。
  • ML的訓練數據不足。

專注于人工智能的透明度、可解釋性和可解釋性問題的研究人員已經取得了許多進展。這些進展中的許多部分也都可能被用于軍事人工智能應用中。然而,需要進行更徹底的需求分析以了解如何利用這些研究成果。軍事需求在風險、數據質量、法律要求等方面與一般情況相比非常不同,有些類型的透明度甚至可能不適用。此外,還需要對如何利用社會科學研究來提高人工智能的可解釋性進行更多研究。未來的研究還應該包括如何充分利用在視覺分析研究領域中開發地豐富的可視化技術。

由于目前還沒有解決脆弱性問題的有效方案,因此在監測這一研究領域不斷尋找有希望的解決方案非常重要。然而,在這種解決方案出現之前,有必要盡量減少外部對模型和防御技術的訪問。否則,對手可能會試圖利用這些漏洞來為自己謀利。

最后,遷移學習使其有可能將預先訓練好的模型應用于訓練數據和計算資源都有限的軍事應用。GAN是另一種有很前途的技術,它能夠采用標記的和未標記的數據進行學習(半監督學習)。GAN也可以與仿真結合使用,以提高合成的訓練數據的真實性。

付費5元查看完整內容

人工智能正在改變戰爭。英國防部如何準備應對未來的變化?

對于人工智能的軍事用途所帶來的接受挑戰,傳統的反應是堅持要求人類保持 "有意義的人類控制",作為一種產生信心和信任的方式。考慮到人工智能和相關基礎技術的普遍性和快速發展,這不再是一個適當的回應。人工智能將在整個軍事行動范圍內廣泛的指揮和控制(C2)活動中發揮重要的、日益增長的作用。雖然在公眾心目中,人工智能的威脅沒有 "殺手機器人 "那么直接,但在軍事決策中使用人工智能會帶來關鍵的挑戰,同時也有巨大的優勢。加強人類對技術本身的監督并不能防止無意的(更不用說有意的)濫用。

本文以各級(作戰操作員、指揮官、政治領導人和公眾)的信任對有效采用人工智能進行軍事決策至關重要這一前提為基礎,探討了關鍵的相關問題。對人工智能的信任究竟意味著什么?如何建立和維持它以支持軍事決策?人類操作員和人工智能體之間的共生關系對未來的指揮需要作出哪些改變?

當人類對人工智能的行為持有某些期望,而不考慮人工智能體的意圖或道德時,可以說存在對人工智能的信任。然而,與此同時,信任不僅僅是技術性能和可靠性的一個功能--它不能僅僅通過解決數據完整性和可解釋性問題來保證,盡管它們很重要。軍事人工智能中的信任建設還必須解決軍事組織和指揮結構、文化和領導力方面的必要變化。實現總體上適當的信任水平需要一個整體的方法。除了信任人工智能的使用目的之外,軍事指揮官和操作人員還需要充分信任--并且在如何信任--支撐任何特定人工智能模型的輸入、過程和輸出方面得到充分的培訓和具有豐富經驗。然而,最困難的,也可以說是最關鍵的層面是組織生態系統層面的信任。如果不改變軍事決策的體制因素,未來人工智能在C2中的使用將仍然是次優的,被限制在一個模擬框架內。有效引進任何新技術,更不用說像人工智能這樣的變革性技術,需要從根本上重新思考人類活動的組織方式。

優先考慮人和制度層面并不意味著對技術進行更多的控制;相反,它需要在不斷發展的人機認知系統中重新思考人的作用和貢獻。未來的指揮官將需要能夠在一個真正的 "整體部隊"中領導不同的團隊,整合來自軍事、政府和民事領域的貢獻。他們必須對他們的人工隊友有足夠的了解,以便能夠與他們合作并挑戰他們。這更類似于海鷗的雜音,而不是個別 "翠鳥"領導人的天才。為了發展新的指揮和領導概念,英國防部必須重新思考其方法,不僅是培訓和職業管理,還有決策結構和程序,包括未來總部的規模、位置和組成。

人工智能已經在改變戰爭,挑戰人類長期的習慣。通過在訓練和演習中接受更多的實驗,以及探索C2的替代模式,國防部可以更好地準備迎接未來不可避免的變化。

前言

人工智能正在改變人類的思維和決策方式。未來,它將越來越多地影響人類如何確定各種認知過程的優先次序,調整他們的學習、行為和訓練,并更廣泛地改造他們的機構。這些變化在整個軍隊中仍不完全明顯。盡管有新的技術和戰爭迅速發展的特點,今天的武裝部隊在組織結構上與后拿破侖時代歐洲的職業軍隊并沒有很大的區別。太多的人仍然參與到軍事任務中,而這些任務技術可以做得更好更快,并且對于重新思考人類對人機團隊的認知貢獻也沒有給予足夠的重視,而這正是解決未來指揮和控制(C2)問題所需要的。

本文以QinetiQ公司早先的一份報告為基礎,該報告將信任視為軍事能力的基本組成部分和2020年代軍事適應性的基本要求。本文探討了在軍事決策中越來越多地使用人工智能的最新趨勢和想法。本文并不直接關注這一趨勢的倫理(或法律)問題,盡管這些問題很重要。相反,本文強調了信任作為人工智能時代軍事指揮的一個因素的重要性和意義。

人工智能對軍事決策和C2的潛在深遠影響很少引起專家團體以外的關注。大多數公眾關注的是技術的優勢和風險,而不是人類認知和制度構建的潛力和限制。20多年前,著名的社會生物學家E-O-威爾遜抓住了人類當前的挑戰。威爾遜說,真正的問題是,"我們有舊石器時代的情感;中世紀的制度;和神一樣的技術。"在過去的幾十年里,技術的發展速度遠遠超過了人類適應它的能力。強調人工智能的技術屬性,而忽略其日益增長使用中的人類和制度層面,只會使挑戰更加復雜。

在許多領域,人工智能的軍事經驗仍然有限,需要做更多的工作來了解人工智能在人類決策中作用日益增長的影響。本文旨在引發一場更廣泛的辯論,討論英國國防企業內部所需的文化和組織變革,包括指揮部和指揮官的作用,以確保人工智能在未來軍事決策中的最佳使用。

本文的見解來自與人工智能、人類認知、軍事決策和信任理論有關的更廣泛的文獻。這項研究在2021年9月至2022年2月期間進行,大大受益于與來自國防、學術界和工業界的廣泛專家和用戶的訪談。

前兩章提供了本文的理論背景。第一章探討了人工智能和信任的概念,第二章則分析了人類機構的作用以及人工智能對人類做出選擇和決定的認知能力的影響。第三章結合信任、人工智能和人類機構的概念,提出了一個在人工智能支持的軍事決策中發展信任的五維框架。第四章擴大了對C2的分析范圍,特別關注人工智能對傳統上支撐武裝部隊行使權力和指導的人和體制結構的影響。最后一章提出了對未來指揮、領導和 "全軍 "團隊的進一步研究領域。

1. 人工智能和信任

對于人工智能或與人工智能有關的信任,并沒有標準的定義。這兩個概念都有不同的解釋,有時也會有激烈的爭論。本章沒有試圖綜合所有關于這兩個術語的文獻,而是建立了一個基準定義,為隨后討論關于人工智能應用于軍事C2的信任作用提供框架。

1.1 人工智能的性質和類型

人工智能的概念起源于1950年著名的圖靈測試,該測試發生在這個詞被創造出來的幾年前。通過關注它做什么而不是它是什么,更容易將人工智能概念化。人工智能 "試圖讓計算機做人類思想能做的各種事情"。在最基本的方面,它可以被理解為追求特定任務的虛擬信息處理能力。正如 "智能"(或 "思想")有許多層面和不同的用途,人工智能也是如此。因此,人工智能從廣泛的學科中汲取不同的想法和技術,不僅包括數學和計算機工程,還包括哲學、經濟學、神經科學、心理學和語言學。

廣義上講,有三種不同層次的人工智能:人工狹義智能,通常被稱為 "狹義人工智能";人工通用智能,有時被稱為人類水平的人工智能;或者更強大的人工超級智能,超過人類的智能水平。在這一點上,有些人認為會出現一個奇點,在這個奇點中,人工智能要么變得有自我意識,要么達到持續改進的能力,使它的發展超出人類控制。后兩種水平被認為仍有一段距離,盡管距離有多遠還存在爭議。不過,就目前而言,狹義人工智能更先進應用的出現,如先進的機器人技術,加上計算能力的爆炸,才是目前關于人工智能的軍事用途辯論的主要動力。本文重點討論狹義人工智能的應用。

圖 1:AI 類型的簡化分類

在狹義的人工智能中,還有更多的類別,盡管這些技術并不完全是離散的,而且經常被結合使用。最常見的區別是符號人工智能和亞符號或非符號人工智能,前者通常被描述為基于邏輯,后者基于自適應或學習。符號人工智能依賴于順序指令和自上而下的控制,使其特別適合于確定的問題和基于規則的過程。非符號人工智能,其中神經網絡是一種常見的方法,涉及并行、自下而上的處理和近似推理;這與動態條件和數據不完整的情況最相關。符號人工智能提供了精確性和可解釋性,而涉及神經網絡的非符號人工智能則不那么脆弱(網絡中缺少一個節點并不會導致整個網絡無法運行),并且能夠在沒有明確規則或一致證據的情況下識別模式。

有三種常見的機器學習類型,根據有助于智能體學習過程的反饋類型進行區分:監督學習;無監督學習;以及強化學習。在監督學習中,系統被訓練來產生假設或采取具體行動,以追求基于特定輸入的目標值或輸出(被稱為標簽)(例如,圖像識別)。無監督學習沒有設定規格或標簽,也沒有明確的反饋;相反,系統通過尋找數據中的模式進行學習(例如,DNA序列聚類)。強化學習依賴于一個反饋回路,通過試錯或獎懲機制穩定地強化系統的學習行為(例如,先進的機器人技術或無人駕駛汽車)。與監督學習不同,強化學習中使用的輸入數據不是預先定義的,這允許更廣泛的探索,但與無監督學習不同,它有一個預期的應用或總體目標(與總體獎勵最大化相關)。

所有三種類型的機器學習,無論監督或自律的程度如何,都提出了重要的信任和值得信賴的問題。所需的信任程度和性質因使用人工智能的目的不同而不同。

1.2 概念:信任(Trust)

信任描述了兩個或多個智能體之間的互動。信任的傳統定義是假設信任者對受托人的能力和善意(或動機)存在合理的信念。對許多人來說,道德誠信(或意圖)的問題是信任與其他概念(如信心)的區別。另一些人認為,信任的范圍和所指比信心更廣,后者被視為與具體事件相關的獨立判斷。大多數信任的定義趨于統一的是一種脆弱的感覺。沒有背叛的可能性,沒有風險的存在,就不可能有信任。

正是因為經典的信任概念中隱含著假定的道德因素,一些人質疑使用該術語來描述人類與人工智能體的關系。他們認為,在目前狹義人工智能的水平上,我們不能將意向性或道德機構歸于人工智能系統,因此使用 "信任 "一詞是不恰當的。另一些人采取了不那么純粹的觀點,并以反映日常使用的方式應用該術語,意味著對系統的可靠性有信心。

信任作為一個術語在計算機科學中被廣泛使用。更重要的是,信任仍然是公眾和用戶接受人工智能的一個基本方面。今天,關于人工智能的國家政策、法規和專家建議經常強調 "值得信賴的人工智能 "的必要性。例如,DARPA的空戰進化計劃正在探索方法,以模擬和客觀地衡量飛行員在斗狗時對人工智能的信任。認識到這些尚未解決的定義問題,作者選擇了略微調整 "信任 "一詞,使之與通常的做法一致。

作者調整后的信任概念需要對人工智能的表現有一定的預期,而不需要假設人工智能方面的特定動機。因此,對人工智能體行為的積極預期可能是信任存在的充分條件,而不考慮意圖。

在目前大多數關于人工智能的討論中,重點往往是人作為信任者,系統作為受托人,盡管任何認知智能體,包括自主機器人和智能機器,原則上也可以履行信任者的角色。這樣理解的話,信任就成了 "系統成員之間互動的促進者,無論這些成員是人類智能體、人工智能體還是兩者的組合(混合系統)"。事實上,在人工智能更成熟的應用案例中,受托人最有可能同時包括人工智能支持的系統(人工智能體)和該系統的提供者(人類智能體)。在目前的人工智能水平上,信任似乎是一種單向的關系,涉及人類 "信任 "人工智能的程度,而不是真正的雙向信任,即人工智能對人類表現的看法。

各種因素決定了(人類)對技術的信任,包括但不限于信任者的能力水平和信任傾向,以及整體環境或背景(包括更廣泛的文化和機構動態)。除了這些針對人類和環境的考慮,決定一個人或組織對人工智能的信任程度的是技術的性能、過程(它如何產生特定的輸出),以及重要的是目的。所有這三者都決定了人工智能系統的設計和部署。

除了技術的穩健性和安全性,隱私、公平、透明度和問責制是一些最常被提出的影響公眾對人工智能信任的問題。然而,主要是由于設計適當的算法、理解復雜軟件系統的內部結構以及為基于算法的決策賦予責任等方面的困難,所以在值得信賴的人工智能的關鍵屬性列表中總是會加入進一步的考慮:這被交替稱為人類機構、監督或有意義的控制。在某些情況下,保持人類對技術使用的監督可能是唯一的保護措施,以防止無意中出現有偏見的、不可捉摸的和/或監管不力的人工智能系統的風險。

1.3 概念:控制(Control)

控制通常被看作是信任的反面。當對智能體執行任務的能力有信任時,就不需要監督。然而,即使在人工智能更適合做決定的情況下,人類也會經常傾向于干預。信任不足可能和過度信任一樣有風險或適得其反。事實上,正如絕對的控制是罕見的,絕對的信任也是如此。在開發和使用人工智能的過程中,有必要在適當的信任水平和適當的控制水平之間取得謹慎的平衡。這是 "校準的信任 "或可適應/適應性自主性等概念的核心。信任是根據人工智能的能力來校準的,對人工智能能做什么或不能做什么的期望將影響信任的水平。同樣,在可適應的自主性的情況下,用戶定制自主性水平的能力可以支持更大的信任水平。這在國家安全決策中尤為關鍵,因為信任或不信任人工智能的影響可能是最大的。

對技術在人類事務中的作用的擔憂并不新鮮。許多人認為關于人工智能的辯論與之前關于技術的爭論沒有什么不同。根據這一論點,人工智能構成了一種進化,而不是對過去活動的徹底背離,即使人類有時可能在背離以前的自動化水平的情況下被從決策圈中移除。雖然信任仍然是一個挑戰,特別是在機構和社會層面,但穩步應用最初仍然有限的人工智能來支持軍事活動,隨著時間的推移,可以培養出熟悉和越來越多的信心。

其他人,通常是政府以外的人,質疑這種漸進式的方法。他們認為人工智能的崛起是一種范式的轉變,與以前的任何技術都有質的不同。以前的技術都沒有將人工智能的雙重用途特性、傳播的便利性和實質性的破壞潛力結合起來。在過去,最具破壞性的技術都在政府的控制之下,或者在軍事領域之外幾乎沒有應用。此外,雖然以前政府主導了大部分新技術的開發,但這種趨勢幾乎完全逆轉;現在大部分投資和創新來自于工業。鑒于軍事和民用界限的模糊,以及我們的對手和競爭者對人工智能的投資,認為我們可以控制人工智能發展和使用的速度和程度是不明智的。在反思算法技術的進步時,一些人甚至進一步聲稱技術和人類之間的角色發生了逆轉,人們正在成為 "人類的人工制品"和"(技術系統的)智能體"。

如果我們接受對人工智能系統在未來如何操作(和運行)進行完全控制的限制,關鍵問題是我們如何在算法超過目前的性能水平后長期確保適當的交互和人類判斷。反應時間是軍事競賽中的一個關鍵優勢;加快OODA(觀察--方向--決定--行動)循環的各個方面,通常會給那些先到者帶來領先優勢。而這樣做只要一方開始使用人工智能來加快他們的決策和反應時間,另一方就會受到壓力。

2. 人工智能和人類機構

2020年12月,美國空軍首次使用人工智能副駕駛飛行了一架軍用飛機。這種被稱為ARTUμ的算法完全控制了傳感器的使用和戰術導航,而其人類隊友則駕駛著U2間諜飛機。這是首次出現人工智能控制軍事系統的情況。用美國空軍前首席采購官員威爾-羅珀的話說,ARTUμ "是任務指揮官,是人機團隊的最終決定者"。

甚至在ARTUμ演示之前,美國國防部已經開始了其全域聯合指揮控制(JADC2)計劃的工作。JADC2旨在打造連接五個軍種的傳感器,承諾對作戰環境進行快速分析,以便在幾小時或幾分鐘內做出決策。在未來的JADC2中,人工智能將允許快速處理數據,為目標識別提供信息,并推薦最佳的交戰武器(無論是動能還是非動能)。美國空軍的先進作戰管理系統、美國陸軍的 "聚合項目"(被稱為 "學習運動")和美國海軍的 "超配項目 "都在嘗試使用人工智能與自主性相結合的方式來支持JADC2。

其他國家,包括英國通過英國陸軍的 "Theia計劃"等項目,以及北約也已經開始嘗試使用人工智能來支持C2和決策。然而,這種試驗的規模和范圍仍然有限。與數據挖掘和語言翻譯等領域不同,人工智能在軍事決策中的應用仍處于起步階段。

美國國防部高級研究計劃局目前開展的工作提供了對未來的一瞥。作為其 "AI Next "項目的一部分,該機構的第三波人工智能投資尋求 "將計算機從工具轉變為解決問題的伙伴",并 "使人工智能系統能夠解釋其行動,并獲得常識性知識并進行推理"。

2.1 人工智能的民事與軍事用途

人工智能已經塑造或推動了我們的許多日常決策。在某些情況下,它已經改變了整個行業。在高度交易性的活動中尤其如此,如保險或零售部門。人類已經將關鍵活動的責任交給了人工智能,讓算法在沒有人類干預的情況下做出決定。今天,人工智能塑造了谷歌和Facebook等網絡平臺提供的內容,也決定了哪些內容被刪除或屏蔽。保留了人類因素的人工智能決策支持系統也在激增,被用于從醫療診斷到改善制造工藝的各個方面。

很少有地方像金融業那樣,人工智能從根本上改變了人與機器的關系。人工智能現在負責絕大多數的高頻交易。在幾毫秒內做出的數千項微觀決定有能力改變整個財富,有時會帶來毀滅性的后果,2010年的 "閃電風暴 "證明了這一點。人類的決定對于金融市場的效率不再是必要的,事實上,甚至可能會起到反作用。無形的算法似乎已經超越了無形的手。

至于社會的其他部分,人工智能的潛在軍事用途涵蓋了廣泛的應用范圍。這些可以有效地分為企業、任務支持和業務人工智能應用。人工智能的軍事應用,特別是與任務支持和作戰用途有關的應用,在一些基本方面與日常的民用活動不同。在平民生活中,人工智能有機會利用大量容易獲得的數據,不斷針對現實生活中的例子進行訓練和學習。對于軍隊來說,與對手的接觸是零星的,來自真實行動的教訓或 "數據 "在數量和頻率上都相對較低。除了軍事對抗的偶發性質,國家安全決策通常依賴于一套復雜得多的條件,涉及多個參數和利益相關者(更不用說對手的意圖),而今天的算法沒有能力再現這些條件。最后,也是最重要的一點,在國防和國家安全問題上,面臨風險的不僅僅是財富,還有生命。數學邏輯不足以為決策提供依據;在使用武力時,道德和倫理考慮比任何其他人類活動都要突出。當人類生命的完整性受到質疑時,我們為技術設定的標準將永遠高于我們為容易出錯的人類設定的標準。

除了美國、英國和北約等國的現行政策外,人們普遍認為人類將在決策中保留一個關鍵角色。美國國防部的人工智能戰略指示以 "以人為本的方式 "使用人工智能,有可能 "將人類的注意力轉移到更高層次的推理和判斷"。納入人工智能的武器系統設計應 "允許指揮官和操作人員對武力的使用進行適當的人類判斷",并確保 "清晰的人機交互"。提到人類總是 "在循環中 "和 "完全負責選項的開發、解決方案的選擇和執行"--這是以前對我們日益自動化的未來的評估中的常見說法--已經被一種更細微的觀點所取代。

所謂的有監督的自主系統是指人類坐在 "循環 "上。雖然人類在理論上保持監督,但一些批評者認為,在實踐中,他們可能無法真正控制自動決策,因為他們可能不熟悉為他們提供決策信息的環境和人工智能程序。在這些情況下,人類的干預能力,除了停止機器之外,被降到最低,沒有達到"有意義的人類控制 "的想法。只有在完全自主系統的情況下,人類的干預才會被完全消除。然而,最終,試圖定義自主性水平的做法可能會產生誤導,因為它們假定人類和機器之間的認知活動是簡單分離的。2012年美國國防科學委員會的一份報告描述了如何:

  • 沒有完全自主的系統,就像沒有完全自主的士兵、水手、空軍或海軍陸戰隊一樣。也許對指揮官來說最重要的信息是,所有的系統在某種程度上都由人類監督,而最好的能力來自于人類和機器的協調和合作。

兩個領域的發展揭示了各國政府在國防和國家安全的關鍵決策中信任先進的自動化方面已經走了多遠。一個是導彈防御,另一個是網絡防御。兩者的有效性都取決于反應速度,這通常超過了最有經驗的人類操作員的能力。

大多數防御性武器系統,從短程點防御到反彈道導彈系統,都采用先進的自動化操作,使其能夠在沒有人類干預的情況下探測和摧毀來襲導彈。算法實際上是在發號施令。在這種系統中,人類被稱為 "循環",在事先經過嚴格的人類測試后,在有限的設計空間內運作,因此其控制范圍受到限制。雖然錯誤永遠不可能被完全消除,但在大多數情況下,不做出反應或反應遲緩的風險可能超過偶爾發生事故的風險。雖然事故促使人們對這些自主系統的操作進行審查,并可能導致引入一些進一步的人為檢查,但這種干預也帶來了進一步的復雜性。對越來越快的導彈,特別是高超音速導彈的防御將繼續推動人工智能在導彈防御中的應用。

網絡戰是人工智能相對于人類具有明顯優勢的另一個領域,而這往往需要人類保持置身事外。人類操作員缺乏算法快速檢測和應對網絡事件以及不斷調整系統防御的能力。所謂的認知電子戰(EW)系統應用人工智能技術來自動檢測對EW系統的威脅,而不是依賴人類操作員。

2.2 人類和人工的局限性

將決策過程中高度耗時、勞動密集型和需要低層次人類推理的部分自動化,有巨大的好處。軍事評估過程是軍事決策過程的一個關鍵部分,一直是參謀學院教授的標準作戰計劃過程。這種方法的一部分涉及收集和處理信息,為一個或多個行動方案提供信息。由于信息時代的決策需要更大的速度和敏捷性,達成決策的過程將需要加速。人工智能已經證明了它在基于明確定義的規則、輸入和假設快速執行理性過程中的效用。只要人類負責設定假設并定義產生替代方案和概率評估的輸入,人工智能就能增強整個決策過程。

可以理解的是,政府內部和外部都不愿意讓人工智能發揮超出決策支持和適當決策的作用。"指揮和控制"的概念在軍隊的心理和結構中根深蒂固,許多人無法接受一個在某種程度上不涉及人類控制軍事行動或指揮任務的未來。人被要求帶著他們對問題的創造性見解,像現代的亞歷山大一樣解開這個死結。沒有什么比對 "翠鳥時刻 "的信念更能體現這種對直覺型指揮官形象的依戀。這種技能,即指揮官藝術的精髓,只限于那些在最苛刻的情況下能夠憑直覺做出決定的少數人。人工智能提供并非基于人類邏輯或經驗的獨特見解的能力,對這種思維提出了深刻的挑戰,并可能在未來改變指揮官的形象。

許多人將人工智能稱為決策支持而不是決策工具,其推論是人類最終仍然是所有決策的仲裁者。這樣的區別造成了一種令人放心的錯覺,即人工智能只是協助實現一種效果。人類根據一套算法挖掘、篩選和解釋的數據做出的致命行動決定,是否比由智能機器完全執行的決定需要更多的人類機構?對 "行動 "的癡迷--更不用說致命行動--作為更廣泛的 "殺傷鏈 "的最后元素,掩蓋了人工智能在整個行動范圍內的一系列C2活動中日益增長的影響。

許多專家對人類是否有能力控制由人工智能促成或驅動的決策持懷疑態度。這種懷疑往往圍繞著所謂的黑盒問題:高級人工智能,如深度學習,在本質上是無法被人類理解的。這不僅僅是由于它的工作速度,也是由于算法網絡相互作用的方式,以及它們所操作的數據的規模和復雜性。我們不能簡單地詢問系統以了解其思維過程。我們可能知道一個模型的輸入和輸出,但卻無法理解這中間發生的事情。一個相關的、更微妙的論點是,算法對人類的認知攝入施加了 "權力"。人工智能可以決定人類處理哪些信息,而不向他們透露哪些信息被遺漏或拒絕。它還挑戰了這樣一個概念,即如果人類的行動受到數據呈現的內容和方式的制約,他們可以行使 "有意義的 "控制。這與人工智能的好處之一正好相反,即它能夠減少人類的認知負荷,使人類能夠集中精力思考和作出最高價值的活動。

對黑盒挑戰的典型解決方案是開發可解釋的人工智能(XAI)。盡管能夠自我解釋的人工智能可能有助于理解,但它并不必然會導致信任。XAI并不等同于可解釋的AI;解釋不是一個決定,而是一個關于決定的敘事。因此,即使是一個令人信服的解釋也不一定是真的。對于許多潛在的用例,我們還遠遠沒有能力開發出足夠的可解釋(Explainability)的人工智能,更不用說可因果解釋(Interpretability)的了。對更先進的人工智能系統進行嚴格的測試可能會證明它們的部署是足夠的,即使是在沒有人類能力遵循其推理過程的情況下。不過,從根本上說,我們對測試的傳統方法需要重新思考。沒有充分的測試和評估,對不可解釋/可解釋的人工智能的信任將是 "盲目的信任"。對于美國前國防部副部長鮑勃-沃克的問題,我們仍然缺乏一個令人滿意的答案:你如何對學習系統進行測試和評估?

當存在不確定性或缺乏知識時,人類會應用啟發式方法來近似解決復雜問題。啟發式方法是驅動直覺思維的因素;它依賴于經驗法則,通常是通過經驗和實驗來了解。因此,它可能存在偏見和盲點,但它也可以作為一種非常強大和有效的快速認知形式。機器缺乏類似人類的直覺,但它們確實依靠啟發式方法來解決問題。與人類推理的關鍵區別在于,機器不需要記憶或 "個人 "經驗就能進行 "直覺 "或推理。它們利用巨大的數據庫和卓越的概率能力為決策提供信息。強大的模擬與先進的計算能力相結合,提供了一個測試和 "訓練 "算法的機會,其重復程度是人類無法想象的。在宣布任務準備就緒之前,ARTUμ在短短一個多月內經歷了超過一百萬次的訓練模擬。

即使在XAI領域取得了重大進展,仍然會有謹慎的理由,特別是在需要復雜決策的情況下。人工智能通常不善于看到 "全局",也不善于根據相關的內容做出決定。像人類一樣,它也會把相關性或偶然事件誤認為因果關系。人類和機器在處理復雜問題時都會遇到 "正常的意外"。創造力是人類通常具有的特質,但一些先進的人工智能可以產生人類無法企及的驚人結果。簡而言之,許多通常被認為是人類特有的屬性,如創造力和直覺,也可以說適用于人工智能系統--盡管方式不同,速度超過人類能力。

目前機器所缺乏的是人類思維的靈活性和關聯感("框架 "的能力)。人類可以橫向思考,通過實用主義得出合理的結果(這一過程被稱為歸納推理),并反思自己的思維過程(這一能力被稱為元認知)。這些心理過程可以產生驚人的適應和創新的壯舉。

人工智能的出現意味著未來的軍事決策將幾乎肯定需要更強大的人機共生關系,就像在已經接受該技術的商業組織中看到的那樣。目前的討論大多是假設人類繼續控制,或尋求將人類的屬性應用于未來的機器。一些人提倡一種新的 "決策演習"概念,將 "人的指揮和機器的控制"結合起來。但更有可能的是,指揮和控制的責任將越來越多地由人類和人工智能系統分擔,其方式可能是目前難以設想的。人類與人工智能的合作提供了利用各自優勢和減少不足的最佳方式,特別是在戰爭方面(目前戰爭的性質仍然沒有改變)有四個連續性:政治層面;人類層面;不確定性的存在;以及戰爭是一場意志的較量。

3. 信任的維度

信任是動態的;它隨時間而變化。它的最初形成是至關重要的,但它的持續發展也是如此。信任是隨著熟悉程度的提高而自然產生的,因此,假設經驗是積極的,即使是在對技術不完全了解的情況下,技術的使用也會擴大信任的范圍。反過來也是如此,不好的經驗會促進不信任。移動電話技術復雜性對大多數用戶來說是未知的,但人們的積極經驗給了他們使用的信心。這種信心導致了與手機使用所形成的決定相適應的信任感。然而,手機一般不會決定生死大事,盡管它們會將盲目聽從指示的不謹慎的司機置于危險之中。在軍事背景下,賭注更大,用戶和策略制定者非常清楚他們的決定的潛在后果--信任門檻很高。

軍隊作為應急組織,不需要定期交付其主要產出,這影響了可以獲得最直接相關經驗的速度。與金融服務業不同的是,在金融服務業中,交易為人工智能決策提供了頻繁的驗證,而國防部門的時間線往往更長,結果在一個單一的因果鏈中也沒有明確的聯系。做出決定和觀察其影響之間的時間間隔更長,并受制于多種干預變量。雖然模擬演習創造了獲得經驗的機會,但它們只是現實的近似值。

3.1 信任點(Trust Points)

建立和維持信任涉及五個主要的 "Trust Points"--在這些點上,擁有適當水平的信任問題是至關重要的。這些點是:

  • 部署信任:使用人工智能的目的
  • 數據信任:正在使用的數據輸入
  • 過程信任:數據如何被處理
  • 輸出信任:由人工智能產生的輸出
  • 組織系統的信任:優化使用人工智能的整體生態系統

總的來說,這些Trust Points定義了一個整體的信任水平,并且是乘法的:如果對其中一個的信任是 "零",那么整體就是 "零"。只要整體信任是正向的,每個人的信任水平都可以變化--在不同的時間。

部署信任

對在特定情況下使用人工智能的決定的信任是至關重要的。對于人工智能的軍事使用(以及許多民用應用),這在三個層面上運作:社會;組織;和個人。第一個層面考慮的是整個社會是否愿意允許人工智能的使用,這將決定策略制定者如何看待它的使用。組織本身也必須愿意認可這一點。最后,個人必須愿意在這個角色中與人工智能合作。所有這三個層次都需要接受使用人工智能的必要性或其可取性的必然性。可取性可能反映了人工智能在以超過人類操作員的速度或數量(或兩者)處理數據方面的優勢,或在承擔枯燥或危險的工作方面的優勢。而軍方可能會認為,人工智能既實用又要避免將優勢讓給對手,但社會似乎更傾向于將致命的使用視為一個倫理問題,在這個問題上,人類生命的神圣性要求道德行為者決定奪取人的生命。

社會對人工智能使用的接受程度在很大程度上取決于其經驗、有效的溝通和教育,這將有助于為人工智能的使用選擇提供依據。在許多情況下,社會的某些部分可能會比軍方更多地接觸、熟悉和信任人工智能,但致命自主權可能仍然存在問題。雖然沒有致命自主權那么直接的威脅,但在決策中使用人工智能會帶來自己的挑戰,其中最重要的是在一個算法越來越強大、人機協作越來越緊密的世界里,"有意義的人類控制 "究竟意味著什么。

在組織層面,存在關于如何部署作戰和任務支持人工智能的重要問題:是以集中的方式在更高的戰略層面運作,還是以更分散的方式在戰術層面運作。在后一種情況下,人工智能將進一步滲透到組織中,變得更加分散,并用于反應時間可能限制人類干預或驗證人工智能的范圍。組織需要明確決定是否使用人工智能的原則,以及管理其使用的方法(見下文 "過程信任")。關于使用人工智能的決定必須考慮如果系統失敗會發生什么。美國國家航空航天局(NASA)由于擔心系統故障的后果而沒有充分利用其早期火星車的自主能力,對火星車進行微觀管理,并通過大型人類工程師團隊減輕風險。外部組織,如商業技術供應商,的想法也很重要。例如,谷歌的員工迫使該公司在2018年退出一份軍事合同,因為他們擔心軍方對面部識別技術的使用。

個人對人工智能的熟悉程度也將是重要的。目前,從事軍事人工智能工作的人是其使用的倡導者,但隨著接觸人工智能的人群的增加,這種情況將發生變化。與前幾代人相比,接觸技術較多的年輕軍人可能更容易接受人工智能在軍事決策中的應用,但在基礎等級的聯邦結構中,人才幾乎完全來自內部,對其使用的阻力可能來自那些有權力的人;這可能造成機構接受問題。然而,在 "代際特征 "方面,存在著過度簡化的危險。雖然年輕人是在較新的技術中長大的,而且可能更信任它,但技術是可以學習的。代際假設不能成為不使用現代技術的借口。

部署信任是復雜的,因為大多數西方國家的大規模防務活動都是以聯盟行動為前提的,而不是每個盟友或伙伴都對什么是可接受的人工智能的軍事用途有共同的看法。國防部和政府需要更好地傳達他們在使用人工智能方面的方法、用途和保障措施,包括向盟友傳達,而不向對手透露太多信息,因為他們可以制定戰略來抵消(或更糟)人工智能功能的優勢。北約將通過其公共宣傳活動、與成員國在政治層面的聯系以及在不同技術發展階段的軍隊中建立規范,在這方面發揮關鍵作用。

數據信任

這涉及到對人工智能做出判斷的數據的信任程度,這些數據為人類決策提供了依據。雖然測試硬件和軟件相對容易,但測試數據,甚至是準備讓人工智能接受訓練的數據,則更加困難。數據對于人工智能的有效學習至關重要。一些數據將被控制,駐留在現有的國防系統內,或從可靠的外部來源進行驗證,盡管國防部在數據的分類(不一致或不準確)、存儲、訪問和共享方面存在困難,特別是在較高的分類級別。不受控制的數據,如開放源碼數據,是在沒有人類知識或理解的情況下通過聚合產生的,這更具挑戰性。此外,狡猾的對手會試圖注入虛假數據,以破壞決策過程,或用不相關或不準確的數據淹沒決策過程。

武裝部隊需要定義、構建、清理和分析數據的能力,以及開發和維護底層基礎設施(如連接、安全和存儲容量)的能力。這是一個多學科的團隊工作,需要能夠在數據科學生命周期的所有階段工作的 "全棧 "數據科學家。現代戰場將需要更加多樣化的技能,包括心理學家、律師和通信專家。鑒于商業世界對這些技能的需求,吸引和保留這些專家的數量將是困難的。這將需要更靈活的人力資源做法和/或對整個部隊更復雜的理解和使用,包括允許非軍事人員在軍事總部擔任有影響力的職位。

過程信任

過程信任指的是人工智能系統如何運作,包括數據如何處理(匯總、分析和解釋)。目前英國國防部的(狹義的)人工智能決策支持系統吸引了高信任度,因為算法相對簡單且可預測。它們也僅限于參與開發的一小群用戶,或者認識那些開發了人工智能系統的用戶,并且了解該技術。該技術受益于一種源自人們對人類的信任的過渡性信任。雖然不是人工智能,但法國陸軍引進的包裝降落傘的機器導致了降落傘團的信心喪失。堅持要求機器的主管用機器隨機選擇的降落傘打包跳傘,有助于恢復用戶的信心。讓開發人員更接近指揮系統的用戶會有所幫助。法國的采購程序允許某些單位直接與人工智能供應商接觸,以建立對開發商的了解和關系。開發商成為一個關鍵的信任點,如果不是軍隊,他們必須了解和熟悉軍隊的情況。這可能需要加大投資,讓商業伙伴了解軍隊的工作方式,并確保軍事人員了解其文職同事。

要求高水平的可解釋性和透明度并不是一個永久的解決方案,目前限制了英國防部對更強大的、非符號形式的人工智能的訪問。隨著機器學習使技術超越其最初編程的參數,將需要不同的方式來確保對可能看起來是黑盒的信任。隨著這種人工智能系統的使用激增,因了解設計者而產生的過渡性信任將減少,在這個過程中克服最初的信任不足或過度信任將更加困難。應避免過度依賴過程信任,并加強其他信任點,以開發適應能力越來越強的人工智能。

過程信任必須超越技術本身。它需要信任那些為技術提供能量、與技術一起工作并接受技術產出的人類過程。因此,必須同樣重視那些共同構成整體過程的其他活動。這包括培訓和人員的過程,以及如何組建團隊。

輸出信任

對人工智能產出的信任對決策者根據他們收到的信息采取行動至關重要。即使是人類提供的情報,如果原始信息指向不同的方向,指揮官要求新的情報來支持他們的先入之見(一種 "基于決策的證據制作")也不是沒有。而隨著數據的激增,不同的解釋將成為可能,合法的或符合先入為主的解釋。因此,出現了這樣的問題,即人工智能或事實上的人類分析能夠現實地提供什么答案,以及如何驗證輸出。在友軍的部署和對手的物理位置方面,人工智能有可能提供更快的態勢感知。然而,盡管可以從現有的數據中得出更好的推論,但對手的實際意圖是無法可靠地確定的。可預測性通常被視為信任的關鍵因素,但在不穩定的環境中,能夠適應不穩定環境的人工智能輸出會被解釋為不可預測。為了克服這個問題,Bonnie M Muir認為,人類操作員必須具備估計技術可預測性的能力。這種可預測性也會影響整個部署和過程信任點,但在輸出信任方面最為敏感,以反映軍事行動等流動性和不可預測的環境。在這些情況下,數據還必須反映軍事決策者所面臨的大多數情況的離散性和特定對手的獨特文化方式,這加劇了建立大量訓練數據的難度。即使在情況類似于過去的事件時,由于缺乏可比的歷史數據來說明廣泛的變量,使得概率推理變得困難。

用Patricia L McDermott和Ronna N ten Brink的話說,輸出的校準是至關重要的。這可以通過更多地使用企業人工智能和模擬來實現,它擴大了信任的邊界,可以幫助開發輸出信任。如果經驗是積極的,與技術互動并看到它的輸出將產生信任。在作戰環境中,當描述可以知道和檢查的東西時,驗證將是最容易的(例如,關于自己部隊的數據和潛在的對手部隊的布局)。要接近了解對手的意圖是比較困難的,因此需要更高水平的輸出信任。這將包括提高描述的準確性和對從大數據處理中得出的推論進行更多的測試。分享演習和行動的正面敘事,對于實現過渡性信任和緩解從相對不頻繁的行動中積累成功證據的緩慢速度至關重要。

組織系統的信任

生態系統的信任涉及調整更廣泛的組織系統以最大化人工智能的價值所需的信任。C2系統作為一個整體必須被配置為利用人工智能輔助決策的好處,并有適當的檢查和平衡,以在可接受的風險水平內運作。當人工智能的弱點或失敗是在主管的專業知識之外的領域,需要在組織的不同部分進行校準時,這一點尤其重要。如果不在生態系統和組織層面上進行變革,組織將只是將其人類系統數字化。

需要生態系統的信任,以確保結構--包括軍事總部的組織、指揮官的角色以及集中式與更分散或分布式的決策權的平衡--準備好利用人工智能的機會。如果沒有準備好,采用人工智能的漸進式方法往往會鼓勵對結構和整體生態系統的變化采取被動或消極的方法。相比之下,實現人工智能變革力量的專門戰略將迫使人們盡早重新思考支持這種戰略所需的組織。這需要重新思考傳統的軍事結構,但對于走多遠并沒有共識。一些人設想總部變得更扁平,并將非軍事人員納入高級職位,在決策過程中擁有權力。對另一些人來說,生態系統的變化更為深刻;它要求完全取消目前被視為工業時代遺留的工作人員組織系統。這樣做,他們打算消除扼殺理解的信息邊界,并挑戰決策金字塔尖上的獨當一面指揮官的想法。這種轉變需要整個組織生態系統的信任。對于像軍隊這樣的保守組織來說,這將是困難的,在指揮部的激進替代方案被接受之前,需要得到保證。實驗、戰爭游戲和模擬環境提供了低風險的選擇,以測試為特定類型的任務(例如,戰爭、和平行動和能力建設)配置的不同總部結構。

3.2 多少信任是足夠的?

信任是根本,但為技術設定一個不可能高的標準也有風險。幾千年來,指揮官和決策者們一直信任易變的人類。當人工智能開始觀察到輸入數據分布的變化時,技術可以通過自我監測的方式提供幫助,提醒人類 "操作員",或以以前未曾見過的方式進行操作,這樣錯誤輸出的風險會更大。風險容忍度,無論是關于人類還是機器演員,最終都是信任的表達。國防組織需要對自己是否是快速采用者或快速或緩慢的追隨者持誠實態度:商業世界的人工智能發展速度使大多數武裝部隊極不可能成為人工智能決策的 "第一用戶"。漸進派和未來派都是人工智能的支持者,他們之間的差異主要是風險問題,以及針對不同信任點的可實現的信任水平。

通過熟悉產生信任是至關重要的,這可能涉及到將軍事人員嵌入到使用復雜人工智能的商業組織中,或將平民帶入國防。這種變化需要在足夠高的級別上進行,以促進生態系統的信任。模擬、實驗和演習是重要的工具,而且必須足夠廣泛,以便不局限于一小群狂熱者。英國電信公司用人工智能決策支持工具取代英國的電話網絡的項目,當服務時間最長、知識最豐富的工程師與人工智能和數據專家合作時,效果最好,他們可能會對人工智能產生懷疑。將企業人工智能引入改革業務流程,如財務和人力資源,是將熟悉程度擴大到目前直接參與人工智能開發和使用的少數干部之外的另一種方式。

一旦熟悉的東西,信任是人類的天性,但信任的習慣會帶來自身的風險。眾所周知,人類不善于設定正確的目標,當遇到 "專家意見"(無論是人為的還是其他的)時,他們更容易同意而不是懷疑。必須避免 "信任和忘記 "的動態。一個考慮因素是為人工智能系統制定一個 "持續可信性 "的概念,類似于航空平臺的持續適航性,以確保它們仍然適合使用。因此,建立對人工智能的信任(并避免過度信任)的努力必須解決所有的信任點,并包括整個人類-機器團隊,其中人類操作員是其數字對應方的有效合作者和建設性批評者。

4. 對指揮部和指揮員的影響

人工智能對決策的知情、制定和實施方式的影響將是深遠的。通過以超越目前人類進程的速度處理大量的數據,人工智能可以提高對作戰環境的理解,并減少決策者的認知負擔。這不僅僅是今天工作方式的演變。僅僅加快當前C2系統的速度是不切實際的。一輛設計為以70英里/小時速度行駛的汽車是為以該速度運行而配置的。將發動機調整到每小時100英里的速度也許是可能的,但會給車輛系統和駕駛員帶來無法承受的壓力。由人工智能驅動的決策所代表的不連續性需要一種新的方法。正如多國能力發展運動(MCDC)所述。

無論我們未來的C2模型、系統和行為是什么樣子,它們都不能是線性的、確定的和靜態的。它們必須是靈活的、自主的、自適應的和自我調節的,并且至少與它們形成和運行的環境一樣具有偶然性和突發性。

軍隊必須為明天的C2進行重組,并以不同的方式培養他們的指揮官和工作人員。如果沒有這些變化,"生態系統信任"可能被證明是不可能實現的。

4.1 指揮和控制

C2包含兩個不同的元素:指揮,通常與創造力、靈活性和領導力相關;以及控制,與規則、可預測性和標準化相關。人工智能將首先影響控制功能,目前,指揮仍主要是人類的活動。人工智能的數據處理能力將消除控制的大量負擔,例如,為指揮官提供對其部隊的更好理解(如部署、狀態、設備和供應水平),目前這需要消耗大量的注意力和時間。它還將改變向指揮官提供信息的方式。目前,這些數據大部分是在 "拉取"的基礎上提供的--根據總部的報告程序要求或零星地收集。然而,人工智能可以持續監測局勢,并通過強調相關變化的活文件將信息推送給指揮官--類似于24小時的新聞編輯部。然而,通過進一步進入控制領域,人工智能將不可避免地影響指揮權的行使,并形成指揮決策;這對上述指揮和控制之間過于整齊的區分提出了挑戰。在未來的C2系統中,可以想象人工智能可以限制指揮權的行使,就像防抱死制動系統、牽引力控制和電子穩定性允許人類駕駛員指揮車輛,直到失去控制,此時系統會接管,直到情況穩定下來。

人工智能給人類指揮帶來了一個悖論。它同時使更多的知識被集中掌握,使總部能夠看到并與 "前線 "發生的事情互動,并將知識擴散到整個指揮系統,使較低級別的編隊能夠獲得以前只有高級指揮官才有的信息。將更多的權力下放給地方指揮官可以提高反應能力,這在事件發展不可預測、需要快速反應的情況下非常重要。西方武裝部隊傾向于采用(或多或少)任務指揮的概念,即指揮官的意圖描述了預期的效果,并允許下級指揮官根據他們面臨的情況自由執行。軍隊的學習和發展系統以及演習嵌入了這種方法--指揮官將需要相信人工智能能夠在其操作中實施這一意圖。鑒于數據和獎勵功能的戰略復雜性和模糊性,人工智能在戰術和作戰層面的使用可能比在戰略層面的指揮更有效,盡管這些層面并不離散,在現實中也不容易被分割開來。人工智能和更大的網絡連接將提供一個結構、流程和技術網絡,連接多個小型、分散的前方總部和分布式(和加固的)后方功能,即使在更透明的戰斗空間,也更難發現和反擊。如果敵人以C2系統為目標,這將增強復原力。

在每個層面上處理更大數據量的能力必須被仔細引導。人們應該能夠獲得與他們的地位和相對能力有關的信息,以影響他們在環境中發展。W-羅斯-阿什比將此描述為 "必要的多樣性 "問題:一個可行的(生態)系統是一個能夠處理其環境變化的系統。行為者應該在適合其任務的抽象水平上運作。一個旅部不能處理也不需要關于單個士兵的詳細信息;它需要對其下屬單位的身體和道德狀況有一個良好的總體了解。在更多的戰術層面上,NCO指揮官應該對他們團隊中的個人狀態保持警惕。戰略和作戰指揮官可能需要放松控制,讓戰術指揮官在更接近戰斗的地方利用新出現的機會。雖然任務指揮已經允許這樣做,但隨著高級別的指揮官獲得關于戰術層面發生的信息的空前機會,"控制"的誘惑會更大。

人工智能也需要使用抽象、近似和校準的杠桿,以避免將總部淹沒在數據洪流中。這需要在使用這些抽象和近似時的 "過程信任"。總部也可能需要使用不同的人工智能系統,其能力更適合或不適合不同時間范圍內的不同場景。決策也可能包括確定在特定情況下信任哪種人工智能模型(部署和過程信任)的因素。

人機聯合系統的自動化將提高人類的表現,在某些情況下,改變任務本身的性質。無論在什么層面上部署,人工智能不僅會影響人類執行任務的方式,也會影響人類執行的任務。目前的方法通常從研究哪些人類過程可以自動化開始,即人類工作的數字化。有可能從使用人工智能的假設開始,只有在人類是必要(出于法律、政策或道德原因)或可取(更適合這項任務)時才將人類放入系統中--決定什么不應該,而不是什么可以被數字化。這種方法挑戰了目前關于總部的規模、組織、人員配置和運作的概念。

4.2 對未來總體結構的影響

聯合概念說明(JCN)2/17指出,C2有可能在不同的戰爭層次(戰略、作戰和戰術)上發生變化,并對作戰環境的變化特征做出反應,因為作戰環境不再僅僅是物理環境。戰爭與和平的模糊性--強調了在 "行動 "和 "作戰 "之間的連續過程中有效的必要性--以及英國向能夠持續參與的部隊結構的轉變,將需要超越戰斗所需的方法。然而,可能沒有單一的總部原型;因此,為戰斗而配置的總部將與處理上游參與和能力建設的總部不同。雖然現在確定人工智能對軍事總部的影響還為時過早,但商業組織已經發現,與傳統的垂直層次結構相比,具有更多橫向信息共享的扁平結構更適合利用人工智能的優勢,因為在垂直層次結構中,每一層都要保證和授權數據才會被發布。因此,軍事總部--無論其具體形式如何--很可能會比現在更小、更扁平,能夠更快地沿著水平線工作。

探索替代的總部概念可以通過更多地使用實驗和模擬來實現。這應該對經典的J1-9參謀部提出挑戰,或許可以用新的分組來反映人工智能取代人類密集型數據處理和共享任務的能力。在J3/5區域尤其如此,這是計劃和行動之間的界限;由更快的決策帶來的更快節奏的沖突使這種界限變得過時。組織總部的替代方法可能包括那些注重結果的方法。JCN 2/17中描述的英國常設聯合部隊總部(SJFHQ)的結構是圍繞著四個職能來組織的:理解;設計;操作;和啟用。SJFHQ后來又恢復了傳統的J1-9人員分支。然而,"聯合保護者2021 "演習是一項復雜的亞門檻行動,其中使用了人工智能決策支持工具,揭示了J1-9架構的弱點。總部開始演習時是為高強度戰爭而配置的,但隨后調整為更適合與其他機構合作的配置。SJFHQ內部正在開展工作,應用2021年聯合保護者的經驗教訓,并確定這對總部結構意味著什么。然而,不太可能有一個完美的總部模式適用于所有行動類型。需要進一步的實驗,不限于SJFHQ。很能說明問題的是,自JCN 2/17發布以來的四年多時間里,在實施其中的一些建議方面幾乎沒有取得進展。即使英國國防部采用技術的速度相對緩慢,但這也超過了國防部探索改變結構的能力,超越了小規模的愛好者群體。"生態系統信任"是至關重要的,需要有機會在模擬或真實的環境中對各種任務類型的替代方法進行測試,并讓更多的人參與進來,這對有效采用新技術、結構和過程至關重要。

現有的程序需要改變以連接和優化新的結構。這可能需要改變構成武裝部隊規劃過程基礎的軍事評估。雖然它是一個復雜的、符合邏輯的規劃工具,但它是相當線性的、確定性的,并且嚴重依賴于指揮官,特別是在 "指揮官領導 "的英國方法中。在其他國家,參謀部在推動解決方案方面發揮了更大的作用,這可能更適合于人工智能的方法。人工智能為更多的迭代和協作過程提供了機會,它能更好地響應軍事和民防資源中心的要求,轉向更敏捷的模式。新的方法應該給指揮官帶來更少的壓力,要求提供信息(指揮官的關鍵信息要求)。人工智能還可以構建、分析和比較作戰行動方案,允許在做出大規模投入部隊的選擇之前對情景進行建模、測試和完善。

英國常設聯合總部(PJHQ)的情報評估過程自動化的思想實驗發現了取代大量工作人員的機會,加快了總部的戰斗節奏,并允許使用自動總結和自然語言處理來橫向共享信息。在一次作戰部署中測試了這一點,英國第20裝甲步兵旅戰斗隊將部分計劃過程縮短了10倍。然而,當人類仍在環路中時,決策環路的速度可能是有限的。在某些時候,人類決策者將無法跟上,成為決策監控者。如果仍然需要人類來做人工智能自己不能做的決定,這將是一個問題,而這可能是最困難的決定。

盡管有明顯的優勢,但總部不太可能在技術允許的范圍內減少。目前的總部通過規模和保證程序的冗余來補償人類的脆弱性,這對于減輕人工智能團隊成員的脆弱性可能仍然是正確的。此外,隨著戰斗節奏演變成連續的24小時規劃周期,節奏的加快可能會推動某些領域的需求上升。這些壓力可能并不局限于總部本身;它可能會推動前線單位的活動增加,他們必須處理數據并對所發出的指令作出反應。人類行為者仍然需要時間來休息,即使技術不需要。此外,與商業組織不同,軍隊需要冗余,以應對競爭對手蓄意破壞或擾亂他們的決策機構,并需要確保固定基礎設施的安全,以建立他們的網絡。簡而言之,對彈性和流動性的需求影響了軍事C2系統的穩健性和效率。因此,軍隊將需要保留不完全依賴人工智能進行有效操作的結構,并確保在人工智能失敗或故意削弱對人工智能信任的情況下,有恢復性程序可用。

4.3 培養指揮官

傳統上,指揮官是垂直決策結構的頂點,是所有信息的匯集點。雖然不是所有的軍事文化都強調個人的天才,正如 "翠鳥時刻"的概念所體現的那樣,但指揮官獲得信息的特權被總部的低層人員所拒絕。人工智能使信息民主化的潛力將改變這種情況;指揮可能會成為一種更加合議和反復的活動,不僅涉及那些穿制服的人,而且包括情報機構和具有數據科學多方面專業知識的承包商在內的更加折衷的組合--一種 "全部隊"的貢獻。面對一個復雜和適應性強的戰斗空間,另一種鳥也許為未來的指揮提供了一個更好的比喻:椋鳥。它們集體的、高度適應性的雜音為英國的發展、概念和理論中心的C2概念提供了一個更好的形象,即 "為設計和執行聯合行動而配置的動態和適應性的社會技術系統"。

指揮官必須繼續能夠處理動態環境;"沒有計劃能在與敵人的接觸中幸存下來 "這句話仍然是正確的。鑒于技術能夠提高速度(減少反應時間)和復雜性(通過更透明的戰斗空間),處理復雜、快速演變的問題將尤為重要。軍事組織正在試驗人工智能將如何改變C2,包括北約卓越指揮與控制中心、美國JADC2和英國軍隊的數字準備實驗。早期的跡象表明,指揮官將不得不更多地關注問題的框架,并確保在更小、更扁平的結構中的更多不同團隊之間的理解和目標的統一。這表明需要一個不同類型的指揮官和不同類型的工作人員;他們能夠整合由不同學科的成員組成的不同團隊的工作,而且往往是來自軍隊以外的成員。

確保指揮官能夠正確地設定問題的框架是至關重要的。人工智能非常善于在框架內操作,但目前至少在 "閱讀字里行間 "或從定義不明確的數據集中推斷方面很差--這種脆弱性仍然依賴于有人類來設定框架。在確定了問題的框架后,指揮官必須能夠判斷產出在該框架內是否合理。這需要能夠看到大局的人,武裝部隊需要通過在總部的參謀經驗來培養未來的指揮官,使他們熟悉環境和流程,從而能夠在越來越高的級別上進行指揮。模擬可以促進對總部的接觸,同樣可以確保較小的總部仍然保留人們獲得經驗的作用,通過這些經驗可以獲得必要的指揮技能。

雖然指揮官需要知道如何與技術互動,但他們必須繼續關注人工智能所要服務的作戰要求,并對其持適當的懷疑態度,以便他們成為這一過程中的知情者,而不是算法輸出的被動接受者。指揮官需要類似于工業界的 "π型領導人",在軍事專業的同時具有數字和數據意識。他們不需要成為技術專家,但應該有足夠的知識來了解其局限性,能夠與團隊中的專家合作,并有足夠的滿意度來允許對數據、流程和產出的信任。

集體而言,總部團隊需要這些技能,各個團隊成員能夠相互交流和理解。這超出了情報分析員的范圍,包括來自武裝部隊內部和外部的廣泛的行動、技術和數據專家。它還包括對風險更復雜的理解和溝通能力。戰爭從根本上說是一個風險管理的問題,這需要以經驗的方式來理解和溝通風險。因此,了解概率和信心水平是一項關鍵的指揮技能,但諸如沖突中的一次性決定也需要長期的判斷。

軍事教育需要通過在職業生涯中更早地引入數據和技術意識來應對。此外,軍隊對不同能力的評價方式也需要改變。據傳聞,英國陸軍的職業管理流程往往將那些在計算能力上取得好成績的人引向采購等領域,而不是作戰,被選入參謀學院的專業人員往往在計算能力上處于較低的四分之一。這不僅僅是軍隊面臨的挑戰:有望成功競爭的國家需要國家教育系統認識到數據和技術素養技能的價值,并從小培養他們。作者并不主張將教育變成就業前培訓;雖然需要STEM技能(數量比現在多),但人文和社會科學仍然很重要,培養出的畢業生適應性強,能夠解決復雜的問題,并以影響力進行溝通。國家的成功取決于學術和其他形式的多樣性,培養人們在數字世界中茁壯成長,不僅需要技術能力,還需要(人文)特質,如創造力和情商。指揮官和工作人員在未來將需要這兩套技能,也許比今天更需要。

除了分析之外,直覺是信息處理中的一個補充部分。在指揮官需要行使的雙軌制決策方法中,它是人類認知的一個重要部分。有效的決策結合了直覺和分析的優勢。當數據和直覺一致時,決策者可以放心地采取行動。如果它們不一致,則需要在行動前進一步探索。1983年,俄羅斯中校Stanislav Petrov避免了潛在的核戰爭。他的導彈探測系統報告說美國發射了五枚洲際彈道導彈,但他沒有立即報告,而是決定等待,因為這個信息感覺不對。他的(下意識的)雙模式決策使他做出了正確的決定。人工智能更強的數據處理和分析能力可以增強決策過程中的分析要素,但它需要指揮官認識到直覺的價值和局限性。專業軍事教育需要反映出對數據和直覺這兩個組成部分的平衡方法。

4.4 管理整個部隊

未來的指揮官所指揮的團隊必然比今天更加多樣化,領導跨學科團隊為復雜問題帶來新的見解。人類有效構思和發展直覺的能力通過接觸不同的看世界的方式得到加強。這不僅僅是改善受保護特征方面的多樣性,盡管這很重要,還包括確保整個部隊團隊中教育、經驗和觀點的廣泛性。整個部隊的不同元素是這種多樣性的一部分。

越來越多的跨軍事領域的綜合活動要求整個部隊的各軍事部門有效合作。對于正規軍事人員,在 "聯合"方面已經取得了進展,但還需要做更多的工作。在軍事生涯的早期引入聯合訓練是實現這一目標的一種方式;這可能需要重新思考軍事人員何時接受專業軍事教育,目前在英國是在30歲左右。相比之下,澳大利亞國防軍為參加澳大利亞國防軍學院的人員提供了基本的聯合軍事課程,海軍、陸軍和空軍專家也接受了單一軍種培訓。這為未來的指揮官在軍事生涯早期的成長提供了一個跨學科的 "聯合 "模式。正規軍的進展需要擴展到后備軍的整合,因為未來可能會有更多的技術專家駐扎在這里。

事實證明,整合整個部隊的非軍事因素更為困難。Serco研究所的一份報告指出,"盡管在過去十年中,整個部隊的運作取得了進展,但在實現軍事和工業之間的無縫合作方面的努力卻停滯不前。雖然武裝部隊在將非軍事人員帶入其總部方面做得更好,但在場和被納入之間有很大區別。如2021年聯合保護者等演習,經常邀請國際合作伙伴和民間主題專家來幫助規劃過程,但他們往往在軍事規劃人員完成工作后才被邀請對計劃發表意見。許多總部的規劃周期缺乏靈活性,這意味著當規劃被提出來供審查時,可能已經來不及進行修改了。

這不僅僅是對軍隊的觀察;文職專家往往不熟悉軍事進程,等待被邀請做出貢獻,這削弱了他們的影響力。軍事人員沒有本能地理解他們的非軍事同事所能做出的全部貢獻,因此沒有將他們納入其中。人工智能將迫使人們從一開始就需要在規劃過程中建立整個部隊的多樣性,從而使計劃成為真正的合作。

有了人工智能的能力,技術將越來越多地成為整個部隊的一個成員。國際象棋大師加里-卡斯帕羅夫(Gary Kasparov)曾指出,好的技術和好的人類棋手的結合,往往比卓越的技術或更好的人類棋手單獨工作更成功。在某些情況下,人和機器可能在共享任務中緊密結合,以至于他們變得相互依賴,在這種情況下,任務交接的想法就變得不協調了。這在支持網絡感知的工作設計中已經很明顯了,在這種情況下,人類分析員與軟件智能體相結合,以近乎實時的方式理解、預測和回應正在發生的事件。

從這些人機一體的團隊中獲得最大利益,不僅僅是有效的任務分配。它涉及到找到支持和提高每個成員(人或機器)績效的方法,從而使集體產出大于單個部分的總和。正確的行為和創造包容性文化的能力對于從這樣的團隊中獲得最大收益至關重要。指揮官不應專注于試圖管理 "突發事件"--一個試圖描述簡單的事情如何在互動中導致復雜和不可預測的結果概念--或團隊成員的活動,而是需要在塑造團隊和培養團隊內部的關系方面投入更多。

雖然人工智能目前作為一種工具,但隨著技術的發展,它應該被視為團隊的真正成員,擁有影響人類隊友的權利和對他們的責任。然而,無論其最終地位如何,人工智能都可能改變團隊的動態和對人類團隊成員的期望。將人工智能引入一個團隊會改變團隊的動態,而它與人類團隊成員的不同會使團隊的形成更加困難。通過布魯斯-塔克曼(Bruce W Tuckman)的經典階段,即形成、沖刺、規范和執行,需要妥協和適應。人工智能目前不太能做到這一點,需要人類參與者有更大的靈活性,這使得建立人機團隊更加困難,也更難恢復已經失去的信任。

高級人工智能,如果可以說有動機或偏見的話,很可能是以邏輯和任務為導向的(用實力部署清單術語來說,就是綠色和紅色)。一個平衡的團隊將越來越需要能夠維持團隊關系的人類,無論是內部還是跨團隊。因此,人機團隊將是不同的,盡管他們可能與包括神經多樣性同事在內的純人類團隊有一些相似之處,因為對他們來說,感同身受或理解情感線索是困難的。與神經多樣性團隊一樣,人機團隊將受益于團隊成員的多樣性給整體帶來的價值,但也需要進行調整,以最大限度地提高團隊績效的機會。人工智能作為團隊成員的概念究竟會如何發展,目前還不清楚,但有人呼吁組織在更平等的基礎上考慮先進技術的需求。加強企業人工智能在業務支持活動中的使用,將為探索人機團隊如何最有效地合作提供機會,并有可能實現預期運行成本的降低,使人類在價值鏈上從事更有意義的工作。

4.5 職業管理

需要的新的領導風格、新的技能和對技術、數據和風險的進一步理解也需要新的職業管理方法。軍隊的職業管理系統(過于)頻繁地調動人員,但要形成具有必要信任度的有效團隊需要時間。軍隊可能會放慢關鍵人員的流動,甚至可能放慢團隊的流動,從而使總部高級團隊作為一個集體實體而不是個人來管理。然而,目前的人力資源實踐使軍隊或工業界不太可能愿意無限期地保留人們的職位以期待未來的需求。用拉斐爾-帕斯卡爾和西蒙-鮑耶的話說,這就產生了 "混合團隊",即那些成員不固定的團隊,對他們來說,迅速建立團隊信任的能力至關重要。即使是常設總部也會受此影響,特別是當他們成為 "整體部隊 "時。對于'臨時團隊',例如為特定任務而設立的臨時總部,這個問題就更加突出。需要有機制來加速信任的發展,經驗表明,這可以通過早期的行為實踐來實現,包括展示 "技術能力、信息公開、支持互惠和決策中被認為的誠信"。

放慢總部高級職位人員的流動速度將有所幫助,但這還不夠。在無法保證預先建立的團隊在需要時隨時準備好執行任務的情況下,需要有一種方法來減少組建新的部隊團隊的時間。模擬提供了一種方法,通過壓縮任務演練的時間來準備新組建的團隊,并為整個部隊的不同組成部分提供共同工作的經驗。軍隊在這方面做得很好;軍隊的社會化進程創造了強大的紐帶,包括派人到合作伙伴那里進行培訓、演習和任務。對于整個部隊的其他部分來說,這種對跨文化理解的投資是缺乏的。建立對對方的了解,從而建立信任,對文職部門來說同樣重要。軍隊可以做得更多,為其工作人員提供與商業部門合作的經驗,包括與技術專家、數據專家和編碼人員合作,而文職人員也需要更好地了解軍隊、其語言、流程和價值觀。武裝部隊可以通過提供交流任命和模塊化和/或縮短其課程來協助這一進程,使文職人員有可能參加。冠狀病毒大流行引入了新的工作方式,并加速了軍事訓練和教育的變化,這可以為信任提供基礎,在此基礎上可以出現新的團隊和總部類型。

簡而言之,人工智能輔助決策不僅僅是一個技術問題;它需要改變指揮結構、流程和人員技能,才能發揮其潛力,成為武裝部隊在所有任務中運作的一場革命。然而,至關重要的是,在適應不斷變化的戰爭特征時,武裝部隊不能忽視戰爭的持久性:指揮官必須保持領導者和戰士的身份,能夠激勵普通人在最困難的情況下做出非凡的事情,而不僅僅是善于管理戰斗的人。在軍事方面,人工智能是一種工具,可以最大限度地提高武裝部隊在激烈競爭環境中的獲勝機會。

5 結論

人工智能正迅速成為我們國家安全結構的一個核心部分。軍方和情報機構正在嘗試用算法來理解大量的數據,縮短處理時間,并加速和改善他們的決策。對人工智能越來越多的使用和熟悉可以促進對它的信任,但正如專家們的辯論所表明的那樣,要建立和維持對像人工智能這樣的變革性技術的信任,存在著嚴重挑戰。

本文重點討論了人工智能的作戰和任務支持應用,并探討了不斷發展的人與人工智能關系對未來軍事決策和指揮的重要性和影響。當軍事指揮官的角色從控制者轉變為團隊伙伴時,當我們不能再將輔助功能只賦予人工智能體時,那么我們就需要從根本上重新思考人類的角色和我們的機構結構。簡而言之,我們需要重新評估人機決策中信任的條件和意義。沒有這種信任,人工智能的有效采用將繼續比技術的發展更慢,而且重要的是,落后于我們一些對手采用人工智能的速度。

一個稍加修改的信任概念--一個不需要將意向性或道德性歸于人工智能體的概念--可以而且確實適用于AI。只要我們委托機器做可能對人類產生嚴重甚至致命后果的事情,我們就會讓自己變得脆弱。只要存在人工智能的表現達不到我們預期的風險,對它的任何使用基本上都是一種信任的行為。

除了最罕見的情況,對人工智能的信任永遠不會是完全的;在某些情況下,用戶可能有意識地同意較低的信任水平。這種信任需要考慮五個不同的元素,作者稱之為 "信任點"。我們不應該依賴任何一個單一的點來產生整體的信任。事實上,往往得到最多關注的領域--關于數據質量或人工智能輸出的可解釋性問題--從長遠來看,必然會提供不令人滿意的答案,并有可能對技術產生錯位的放心感。

最常被忽視的是在組織生態系統層面上對信任的需求。這需要重新思考武裝部隊的組織及其C2結構。如果說機器的作用越來越大曾經是官僚軍隊結構興起的關鍵驅動力,以集中管理手段,那么人工智能正在以根本的方式挑戰常備軍的這一特點。如果人工智能的使用不僅僅是模擬工作方式的數字化,國防部必須改變其在 "行動(operate)"和 "作戰(warfight)"方面的決策結構。它還需要與整體部隊的各個方面進行更密切的接觸和參與,包括其未被充分利用的后備部隊以及工業和更廣泛的政府。

領導力作為軍事職業的一個持久要素也需要重新考慮。人們傾向于將領導力視為軍事指揮的一種抽象或不可改變的品質。在人工智能時代,指揮任務或領導團隊既需要新的技能(如 "表達數字(speak digital)"的能力),也需要更多樣化的特質(例如,在數據和直覺發生沖突時,橫向思考的能力,構建問題的框架,并應用批判性的判斷)。與以往相比,人工智能更需要那些能夠理解復雜性、構建問題并根據情況提出正確問題的指揮官。這些 "故意的業余愛好者 "摒棄了早期狹隘的專業化,選擇了范圍和實驗思維;他們可以建立專家團隊,吸取專家的意見,使集體人才既廣泛又深入。這些全軍團隊將包括人類和機器,所有這些人都將根據他們在塑造和決策方面的專長作出貢獻。

在尋求回答信任如何影響軍事決策中不斷發展的人與人工智能關系時,本文提出了幾個需要進一步研究的關鍵問題:

  • 我們如何建立必要的信任,在戰術、作戰和戰略層面上重新配置指揮部的組織,其規模、結構、位置和組成
  • 我們如何調整軍事教育,使指揮官為人工智能時代做更好的準備
  • 我們如何優化和改造所有領域的集體訓練,以改善涉及與人工智能體更多協作的指揮
  • 我們如何運作 "全軍 "的概念,以更好地利用我們社會、工業和研究機構中的大量人才
  • 我們如何定義人工智能和人類在人機團隊中的需求和目標

如果我們不從根本上改變如何獲取、培訓和培養領導崗位的人員,以及如何改革他們所處的機構和團隊,我們就有可能在人機關系的信任平衡上出錯,并將無法利用人工智能的全部變革潛力。

作者

克里斯蒂娜-巴利斯是QinetiQ公司的培訓和任務演練的全球活動總監。她在大西洋兩岸有20年的經驗,包括咨詢、工業和公共政策環境,特別關注國防、全球安全和跨大西洋關系。她曾是華盛頓特區戰略與國際研究中心歐洲項目的研究員,Serco公司負責戰略和企業發展的副總裁,以及巴黎Avascent公司的負責人和歐洲業務主管。她擁有華盛頓特區約翰霍普金斯大學高級國際研究學院和意大利博洛尼亞大學的國際關系碩士和博士學位,以及英國和德國的商業學位。

保羅-奧尼爾是RUSI的軍事科學部主任。他在戰略和人力資源方面有超過30年的經驗,他的研究興趣包括國家安全戰略和國防與安全的組織方面,特別是組織設計、人力資源、專業軍事教育和決策。他是CBE,英國特許人事與發展協會的會員,溫徹斯特大學的客座教授,英國后備部隊外部審查小組的成員。

付費5元查看完整內容

摘要

由于人工智能(AI)、機器學習,特別是深度學習的進步,可解釋人工智能(XAI)研究領域最近受到了很多關注。XAI是一個研究領域,重點是確保人工智能系統的推理和決策可以向人類用戶解釋。在軍事背景下,這種解釋通常是為了確保:

  • 人類用戶對他們操作的人工智能系統有適當的心智模型。

  • 專家可以從人工智能系統及其隱藏的戰術和戰略行為中獲得洞察力并提取知識。

  • 人工智能系統遵守國際和國家法律。

  • 開發人員甚至在部署前就能發現人工智能系統的缺陷或漏洞。

本報告的目的是為基于深度學習的人工智能系統提供解釋而開發的XAI技術。這類系統本身就很難解釋,因為它們所模擬的過程往往過于復雜,無法使用可解釋的替代方法來建模

盡管深度學習XAI領域仍處于起步階段,但科學文獻中已經提出了許多解釋技術。今天的XAI技術主要用于開發目的(即識別錯誤)。需要進行更多的研究來得出結論,這些技術是否也有助于支持用戶為他們所操作的人工智能系統建立適當的心智模型、戰術開發,并確保未來的軍事人工智能系統遵循國家和國際法律。

關鍵詞

人工智能、可解釋人工智能、透明度、機器學習、深度學習、深度神經網絡

1 引言

人工智能(AI)是一個對瑞典[1]和瑞典武裝部隊(SwAF)具有戰略意義的研究領域。當今人工智能成功的主要因素是機器學習(ML)的突破,更確切地說,是深度學習(DL)的突破。DL是一種潛在的顛覆性技術,使我們能夠使用深度神經網絡(DNN)來模擬以前使用傳統技術無法模擬的復雜過程。例如,DL可以用來準確地轉錄(語音到文本)[2,3],翻譯(文本到文本)[4],合成語音(文本到語音)[5],玩實時戰略游戲(視頻到行動)[6,7],讀取唇語(視頻到文本)[8],識別人臉(圖像到身份)[9]和控制自動駕駛車輛(視頻到行動)[10,11]。

然而,DL仍然處于起步階段,沒有一個數學框架可以用來保證模型的正確性[12]。因此,在軍事應用中開發、部署、使用和維護DNN模型時,有許多挑戰需要考慮和解決。

從軍事用戶(操作員、數據分析師等)的角度來看,最重要的挑戰也許是可解釋性。根據經驗,當人的生命受到嚴重影響時,對可解釋性的需求更大。在軍事領域是這樣,在醫學、執法和其他民事服務領域也是如此。可解釋性很重要,因為它影響著用戶對系統的信任和依賴。信任關系必須是平衡的;過多的信任可能導致對系統的誤用,而過少的信任則可能導致對系統的完全廢棄[13]。最終,解釋的目的是幫助用戶建立一個適當的系統心智模型,以確保它能被有效使用[14]。

深度學習有可能改善復雜軍事系統的自主性,如戰斗機、潛艇、無人機和衛星監視系統。然而,它也會使這些系統變得更加復雜和難以解釋。主要原因是,DL是一種端到端的機器學習技術,意味著機器學習從輸入數據中提取最重要的特征,以實現高性能。這被稱為表征學習,它與傳統技術不同,傳統技術是用人類的直覺來手動提取這種特征。表征學習往往能帶來高性能,但它也要求模型具有高度的表現力和非線性。因此,使用DL訓練的DNN可能由數百萬甚至數十億的參數組成。這使得它們很難向人類解釋和說明,即使學習算法、模型結構、訓練數據等都是已知的和很好理解的。

美國國防部高級研究計劃局(DARPA)于2016年啟動的可解釋人工智能(XAI)計劃也許是為解決這一挑戰而采取的最全面的軍事舉措。該計劃的目的是:

  • "產生更多可解釋的模型,同時保持高水平的學習性能(預測精度)。"

  • "使人類用戶能夠理解、適當地信任并有效地管理新一代的人工智能伙伴"。

自XAI計劃開始以來,已經取得了許多技術上的進步。一些XAI技術甚至已經實現并打包在軟件庫中,可用于深入了解、調試和驗證DNN[16, 17, 18]。這是朝正確方向邁出的一步,但從軍事角度來看,關鍵是XAI技術和工具也要為軍事用戶量身定做,因為在這些地方需要高級解釋,以確保信任、使用和性能。

1.1 目的和范圍

本報告的目的是介紹在DL背景下開發的代表性XAI技術。本報告并非詳盡無遺,它并不涵蓋文獻中提出的所有XAI技術。

1.2 目標讀者群

本報告的目標讀者是操作、獲取或開發AI、ML和DL技術以用于系統或嵌入系統的軍事人員。

1.3 概要

第2章介紹了智能Agent、機器學習和深度學習的概念。第3章介紹了文獻中提出的各種XAI技術。第4章介紹了可用于評估XAI技術所提供的解釋的方法和技術。第5章介紹了一個案例研究,其中XAI被用來解釋一個深度學習模型的行為。最后,第6章對報告進行了總結,并對未來的工作提出了建議。

2 智能Agent、機器學習和深度學習

本章介紹了一些概念、方法、術語和技術,是本報告的其余部分的基礎。已經對智能Agent、機器學習和深度學習有基本了解的讀者可以跳過本章。

2.1 智能Agent

人工智能是一個廣泛的術語,可以有很多定義。在本報告中,人工智能是指對智能Agent(IA)的研究和設計。一個IA是一個能夠在環境中感知、推理和行動的自主實體。通常情況下,IA與環境中的其他Agent(即多Agent系統)以及人類(如人機合作)進行互動。

當在物理世界中實施時,IAs可以代表從簡單的恒溫器到復雜的自動駕駛車輛、自主機器人、無人機等任何東西。在虛擬環境中,人工智能通常由能夠翻譯、轉錄等的機器人或虛擬助理來代表。在軍事模擬中,IAs通常被稱為非玩家角色(NPCs)或計算機生成部隊(CGFs)。

圖2.1說明了IA的主要組成部分。這些組件通常使用傳統編程和人工智能技術的組合來實現,如專家系統、狀態機、行為樹和機器學習。本報告重點討論完全或部分使用DNN實現的IA的XAI。

圖2.1 - 智能Agent(IA)是一個能夠在環境中感知、推理和行動的自主實體。環境可以是物理的(即現實世界)或虛擬的(如互聯網、虛擬仿真、嚴格游戲)。IA通常與其他Agent、人類互動,分別形成多Agent系統和人機團隊。

2.2 機器學習

ML是人工智能的一個子領域,重點是開發能夠從觀察和經驗中學習的智能系統或IA。在本節中,將介紹ML中使用的主要學習策略。

2.2.1 監督式學習

在監督學習中,IA從已被標記或標注的訓練樣本中學習。學習的目的是使與這些樣本的偏差最小化,同時保持對未見過的輸入的概括能力。實際上,IA將模仿訓練數據中的行為。圖2.2說明了監督學習過程。

在監督學習中,標記過程通常是由人類手動完成的,這就是為什么這種方法在許多應用中可能是昂貴和不實用的。監督學習的主要優點是,一旦數據集建立起來,學習過程是穩定的,而且相對容易監控。

監督學習的主要應用是分類和回歸,其中,離散類標簽和連續值分別代表模型的輸出。分類器可用于檢測代理人視野中感興趣的物體,或識別某一特定情況是否危險。回歸通常用于對Agent的執行器(機器人肢體、方向盤位置等)進行低層次的連續控制。

圖2.2 - 監督式學習。IA從已被標記或標注的樣本中學習。學習過程的目標是創建一個模型,使其與所提供的訓練樣本的偏差最小。淺灰色的方框代表訓練樣本(即輸入和它們的標簽)。

2.2.2 強化學習

在強化學習中,IA通過在一個通常是模擬的環境中執行動作來學習。學習的目的是IA在模擬器中執行動作時使其獎勵最大化。獎勵通常由游戲的結果來表示,因此用于獲勝或失敗的行動分別由學習算法進行正向和負向強化。學習過程如圖2.3所示。

強化學習的一個主要優點是,不再需要手動標注訓練數據。相反,在某種意義上,獎勵函數被用來自動標記數據。然而,為現實世界的問題設計一個獎勵函數是一項非艱巨的任務。它要求隨著時間的推移,適當的獎勵可以被分配給IA的行動[19]。一個設計不良的獎勵函數可能會導致不理想的和意外的行為。

強化學習被用于IA需要學習最佳行動選擇策略的應用中。當應用于實時戰略游戲時,IA可以比大多數人類專家更好地學習選擇行動[6, 7]。因此,我們有理由相信,強化學習最終也能為軍事目的產生替代的甚至是新的戰術和戰略。

圖2.3 - 使用強化學習,IA通過在模擬環境中采取行動來學習。學習過程的目標是使環境提供的獎勵信號最大化。淺灰色的方框代表輸入,在這種情況下是一個模擬器和一個獎勵函數,是這個學習策略所需要的。

2.2.3 無監督學習

在無監督學習中,IA學習識別無標簽數據中的模式和結構,如圖2.4所示。請注意,盡管被稱為無監督學習,但總是由一個預先定義的指標指導。例如,k-means聚類算法使用歐氏距離對數據進行聚類。同樣,自動編碼器(AE)需要存在一個損失或誤差度量函數。

無監督學習的最常見應用包括聚類、可視化、降維和異常檢測。無監督學習在DL中的一個較新的應用是元學習,其中IA被訓練的目標是成為更快的學習者(即學習如何去學習)。

圖2.4 - 在無監督學習中,IA學習在未標記的數據中識別模式和集群。無監督學習由預先定義的指標(例如k-means聚類中的歐幾里得距離)指導,從數據中學習。

2.3 深度學習

深度學習是一種機器學習方法,可用于上述所有的學習策略(即監督式學習、強化式學習和無監督式學習)。

2.3.1 深度神經網絡

在DL中,用于捕捉和學習經驗的模型由DNN來表示。DNN本質上是一個數學表達式,由大量的嵌套和可微分的子函數組成。第 2.3.3 節解釋了 DNN 必須是可微分的原因。

DNN 通常使用圖形進行可視化,其中各層節點用邊相互連接,如圖 2.5 所示。在這種表示方法中,每條邊代表一個可訓練的參數或權重,每個節點代表一個神經元(即一個可區分的子函數),使用權重將輸入轉化為輸出。圖2.6說明了一個神經元所進行的操作。該神經元首先計算其輸入和權重的乘積之和。然后這個值被神經元的非線性激活函數處理,產生一個輸出。然后,該輸出被用作下一層神經元的輸入。

在現實世界的應用中,權重(圖2.5中的邊)的數量通常會增長到數百萬甚至數十億。還要注意的是,除了圖2.5中說明的全連接神經網絡(FCNN),還有不同類型的DNN。卷積神經網絡(CNN)用于數據中存在空間關系的情況,這在圖像中是典型的情況。同樣地,當數據中存在已知的時間關系時(如文本和音頻),經常使用遞歸神經網絡(RNN)。在現實世界的應用中,模型的設計通常是使用精心挑選的CNN、RNN和FCNN的混合。本節的其余部分主要討論FCNN。然而,推理和訓練的原則也同樣適用于CNN和RNNs。

在本報告中,用來表示DNN的數學符號是fθ,其中θ代表DNN的可訓練權重或參數。

圖 2.5 - 一個具有四個輸入、兩個隱藏層和一個輸出的全連接 DNN 的可視化。在這個表示中,每條邊代表一個可訓練的參數或權重,每個節點代表一個神經元(即一個可微分的子函數),使用權重將輸入轉化為輸出。每個神經元計算其輸入和權重的乘積之和。然后,該值由神經元的非線性激活函數處理,產生一個輸出。

圖2.6 - DNN中的神經元的可視化。首先,使用輸入x和權重ω的乘積之和被計算。然后,這個值被送入神經元的非線性激活函數g,以產生一個輸出,可以被送入下一層的神經元。代表一個神經元的數學表達式是。請注意,偏差b,也是一個可訓練的參數,與權重不同,它不與輸入相連。

2.3.2 推斷

推理是一個過程,在這個過程中,輸入被已經訓練好的 DNN 處理,產生一個輸出。在DNN中,處理是通過網絡的各層向前傳遞進行的。計算圖也許是描述推理的最直觀的方式。在計算圖中,DNN被模塊化為原始的子函數,代表網絡中嵌入的操作。作為一個例子,圖2.7中的計算圖表示有一個輸入的神經元。使用這種表示方法,很容易看到輸入是如何在圖中向前移動(從左到右)時被轉化的。

計算圖可以被擴展到具有任意數量的輸入、神經元和輸出的DNN模型。在實踐中,使用代表聚合層的計算圖來設計DNN是很常見的。然后,不同的層可以相互連接,形成最終的 DNN。

圖2.7--計算圖表示一個神經元的操作,fθ(x)=g(x×ω+b),有一個輸入x和預訓練的參數θ={ω,b}。計算圖可以擴展到包括任意的輸入和輸出。在現實世界的應用中,DNN由代表神經元聚集層的計算圖組成。

2.3.3 訓練

訓練是DNN,fθ,及其可訓練參數或權重θ,被更新的過程。訓練是一個迭代過程,目的是調整θ,使損失函數L(fθ)達到最小。在實踐中,方程2.1中的梯度下降(GD)優化方法或其變體被用來執行更新。

在GD方法中,α代表一個超參數(即一個用于控制學習過程的用戶定義參數),稱為學習率。學習率α,控制著學習過程的速度。重要的是,α被適當地初始化,以確保可訓練的參數能夠收斂到一個最佳的解決方案。一般來說,如果α太大,訓練過程就會變得不穩定,可訓練參數就不會收斂。此外,如果α太小,訓練將是穩定的,盡管它將花費太多的時間來收斂。由于這個原因,使用能在學習過程中動態地改變學習速率的調度器已經成為常見的做法。

方程2.1中的項表示可訓練參數的梯度。梯度決定了更新可訓練參數θ的方向,從而使損失函數增加。請注意,更新的方向與梯度的方向相反,以便使損失最小化。

為了找到這些梯度,我們使用了反向傳播算法。給定一個訓練實例(x, y?),反向傳播算法首先執行一個前向傳遞來計算損失。給定損失后,再進行后向傳遞,使用鏈式規則公式計算梯度。同樣,解釋反向傳播的最直觀的方法是使用計算圖,其中DNN由子函數的集合表示。要進行反向傳播,所需要的就是找到這些子函數的導數。讓我們用一個簡單的例子來說明反向傳播,其中DNN由線性函數fθ(x)=ωx+b表示,只有兩個可訓練參數θ={ω,b}。在這種情況下,損失函數可以定義為fθ(x)和期望輸出y?的平方誤差:

因此,損失衡量了DNN的預測是否接近已知的輸出值,即y。當損失較小時,預測是好的。同樣地,當損失大時,預測就很差。

圖2.8顯示了代表方程2.2中損失函數的計算圖。除了前向傳遞,這個計算圖還包括一個后向傳遞,利用鏈式規則將損失(或誤差)傳播到可訓練參數θ={ω,b}。請注意,訓練中只需要損失相對于可訓練參數的導數(即)。逆向傳播從設置開始。從這里很容易看出鏈式規則是如何將誤差向后傳播的(從右到左),從而找到。關于本節所述的訓練過程的演示,見附錄A。

即使訓練過程很簡單,可以用計算圖來解釋,也很難理解和解釋模型的行為。下一章將介紹為這些目的而開發的XAI技術。

圖2.8 - 表示平方誤差損失函數的計算圖,。在這個例子中,fθ(x) = ωx + b和θ = {ω, b}分別代表模型和它的可訓練參數,x和y?代表輸入和它的期望輸出(即訓練數據)。

3 可解釋人工智能的技術

可解釋人工智能(XAI)研究的重點是確保人工智能系統的推理和決策能夠被解釋給人類用戶。盡管由于DL的進步,XAI最近受到了很多關注,但XAI的研究領域并不新鮮。它至少在20世紀80年代就已經存在了[20]。對于XAI研究及其歷史的全面回顧,讀者可以參考[21]。

可解釋人工智能是任何用于影響人類生命高風險決策的軍事人工智能系統的關鍵組成部分。戰術層面上的人工智能應用的例子,重點是短期決策,包括無人駕駛車輛的自主控制以及武器和監視系統的目標識別、跟蹤和交戰。此外,XAI在戰爭的戰役和戰略層面同樣重要,甚至可能更重要,因為長期決策和規劃活動可能影響整個團體。在這個層面上,人工智能系統通常用于信息分析,但也可以通過模擬來提出規劃或行動方案(COA)。XAI在軍事應用中的主要目的是:

  • 心智建模[14, 22]。XAI可用于支持用戶為其操作的人工智能系統建立適當的心智模型。在任何軍事系統中,無論是否啟用了人工智能,用戶都必須清楚地了解系統的運行邊界,以確保適當和有效的使用。

  • 洞察力[23,24]。事實表明,DNN可以用來捕捉知識,并在對復雜過程的觀察中找出人類未知的模式。使用XAI技術,人類有可能解開這些知識并從中學習。使用強化學習的戰術和戰略發展是一個典型的應用,XAI有可能在軍事領域產生更深入的洞察力。

  • 法律和法規[25, 26, 27]。XAI有可能被用來確保AI系統遵循國家和國際法律。也許人工智能最具有爭議性的應用是致命的自主武器系統(LAWS)[26]。一些人希望完全禁止這種系統,而另一些人則認為應該允許使用致命性武器系統,因為它們有可能提高精確度并將附帶損害降到最低[27]。盡管如此,作者認為XAI可以在制定政策的過程中發揮重要作用,以規范何時、何地以及是否可以使用LAWS等AI系統。

  • 排除故障[23, 28]。在文獻中,有許多XAI被用來識別DNN中的錯誤的案例。當圖像中的版權水印或模擬器和游戲中的未知作弊器等現實世界數據中不存在的人工制品出現在訓練數據中時,通常會出現BUG。第2.3.3節中介紹的訓練過程可以學會利用,或走捷徑,利用這種人工制品。其結果是,當呈現測試數據時,DNN工作得很好,但當呈現真實世界的數據時卻失敗了。如果將XAI技術作為開發過程的一個組成部分,這種問題可以在部署前被發現和解決。

本章介紹了在DL背景下專門開發的幾種XAI技術。DL的XAI是一個重大挑戰,因為DNN可能由數百萬甚至數十億的參數組成,使得它們不透明,難以被人類解釋。請注意,據我們所知,擬議的技術還沒有在軍事背景下進行科學評估。因此,在這種情況下,這些技術能在多大程度上提供有用的解釋還不得而知。第四章介紹了如何進行這種評估。

3.1 全局解釋技術

全局解釋技術提供了對 DNN 及其整體行為的洞察力。在本節中,我們主要關注可用于分析和可視化高維訓練數據集的技術,但也關注如何獲取和解釋用于模型評估的性能測量。

3.1.1 大型高維數據集的可視化技術

在DL中,訓練數據集通常由大量的高維樣本組成。為了直觀地檢查這些數據集,它們必須被降低到人類可以觀察到的維度(即一維、二維或三維空間)。在可視化中總結大型數據集可以提供關于DNN所要學習的任務復雜性的有用見解。它也可以用來識別數據集中可能對DNN的性能產生負面影響的假象[23]。下面是三種無監督的技術,可用于降低維度以達到可視化的目的。

  • 主成分分析(PCA)[29]。這項技術確定了數據集的主成分。數據被投射到被認為是最重要的成分或向量上。PCA的主要缺點是它是一種線性技術,因此,它可能無法識別非線性數據的模式。PCA的主要優點是該技術很好理解(即它可以被解釋),而且與其他技術相比,它的計算效率高。

  • 可變自動編碼器(VAE)[30]。這是一種DL技術,使用DNNs來降低維度。VAE由兩個DNN組成:編碼器和解碼器。編碼器的目的是將高維的輸入數據壓縮成一個潛在的空間向量(在這種情況下是一維、二維或三維)。解碼器的目的是盡可能準確地使用低維潛空間表示重建高維數據。如第2.3.3節介紹的那樣,使用損失函數對DNN進行訓練,使原始輸入和其重建的誤差最小。一旦訓練完成,只需要編碼器來降低維度。這種技術的主要優點是它能夠學習數據中的非線性因素。缺點是VAE是用不透明的DNN構建的,不容易向人解釋。

  • t-分布式隨機近鄰嵌入(t-SNE)[31]。這項技術是專門為可視化目的開發的。與VAE類似,t-SNE使用GD程序來學習如何最佳地降低數據的維度。在這種情況下,目標函數的目標是保持鄰域距離。t-SNE的優點是,它通常會產生更好的可視化效果。缺點是它的計算很復雜。

為了證明上述技術,將使用MNIST數據集[32]。這個數據集包含灰度圖像,包括代表70000個手寫數字的標簽。每個圖像由28×28像素組成,因此,數據的維度為784。圖3.1說明了從數據集中隨機抽取的15個樣本。

圖3.2中的可視化圖(散點圖)是使用從MNIST數據集中隨機抽取的10000張圖像的子集創建的。在這種情況下,使用PCA(圖3.2a)、VAE(圖3.2b)和t-SNE(圖3.2c和圖3.2d)將維數從784降低到2。這些圖是用所有10000個數據點渲染的,每個數據點的標簽都用顏色編碼,這樣人類就可以直觀地檢查出聚類趨勢。在圖3.2d中,數據集首先使用PCA進行預處理,在使用t-SNE之前將維度從784降低到50。這是使用t-SNE時的標準做法,以確保計算效率。圖3.2中的可視化圖提供了對數據集復雜性的洞察力。如果集群可以被直觀地識別,那么DNN也很可能能夠有效地從數據中學習。同樣地,如果集群不能被識別,那么DNN也將更難從數據中學習。在這種情況下,PCA技術無法分離聚類。因此,不能指望線性分類器能有好的表現。

圖3.1 - 從MNIST數據集中隨機抽取的樣本。樣本的標簽在圖的說明中提供。

圖3.2 - 使用主成分分析(PCA)、可變自動編碼器(VAE)和t分布式隨機近鄰嵌入(t-SNE)在二維散點圖中對高維數據進行可視化。在這種情況下,維度從784(代表28×28像素的圖像)減少到2。這些圖是用10000個數據點呈現的,每個數據點用其標簽(0到9)進行顏色編碼,以便人類可以直觀地檢查聚類情況。在圖3.2d中,在使用t-SNE之前,數據集使用PCA進行了預處理,將維度從784降低到50。這是使用t-SNE時的標準做法,以確保計算效率。可視化提供了對數據集復雜性的洞察力。如果集群可以被直觀地識別,那么DNN也很可能能夠有效地從數據中學習。同樣地,如果集群不能被識別,那么DNN也將更難從數據中學習。

3.1.2 模型評估

在訓練機器學習模型時,模型開發者會不斷測量模型在它之前未見過的輸入數據上的表現,以確認模型是否在向有用的行為發展。當開發者對模型的表現感到滿意時,就會停止訓練過程,并使用未見過的測試數據進行最終評估。這個最終的測試衡量了模型在現實世界中應用時的預期性能,在那里它通常會遇到訓練時沒有看到的輸入。測試數據集能在多大程度上被用來測量實際性能,取決于測試集與現實世界數據的對應程度。雖然在模型訓練和調整過程中對性能的持續測量主要是對模型開發者有意義,但從XAI的角度來看,最終的性能測量對用戶也是有價值的。

(1)對分類器的評估

在從圖像中對軍用車輛進行分類的例子中,每一類車輛都有數千張圖像,相當一部分圖像將被用于訓練,另外一組圖像將被分開,用于在訓練期間對模型進行微調和測試,還有一組圖像將被保留用于最終的性能測量。由于分類器在訓練過程中沒有看到測試集中的圖像,因此測量它在這些圖像上的表現可以了解模型在新數據上的表現如何。

在一個分類任務中,最直接的性能測量是計算正確分類的比例。這個衡量標準被稱為準確性:

也就是說,如果車輛分類模型在100張圖片上進行測試,85張圖片被正確分類,則該模型在測試數據上的準確率為85%。如果不同類別的實例出現的頻率相同,也就是說,數據是平衡的,那么準確率就會很高。

在水雷分類的例子中,任務是分析類似雷的聲納圖像,并將該物體分類為雷或其他東西(通常是巖石)。在這種情況下,可能相對缺乏可供訓練的雷圖像,因為關于巖石的數據很容易收集,而關于雷的數據,特別是由敵對勢力部署的雷,則不容易收集。

雷檢測案例是一個不平衡問題的例子,如果測試數據集要反映真實世界的發生情況,那么它將包含比雷圖片更多的巖石圖片。作為一個例子,假設測試數據集中千分之一的例子是雷(其余都是巖石)。一個總是返回負面分類(不是雷)的分類器將在測試集上達到99.9%的準確率,因為999個分類中實際上是正確的。然而,它在尋找雷方面是無用的,因為在提交給它的實際雷中,它沒有檢測到任何雷。它的召回率為0%。

通過使分類器更容易對可疑物體返回正面分類(雷),可以提高召回率。在極端的情況下,一個總是返回正面分類的分類器可以達到100%的召回率,因為它可以捕捉到所有的雷和所有的巖石。然而,同樣,它也是無用的,因為每一千次正面預測中,只有一次是正確的。它的精確度將是0.1%。

顯然,一個好的探雷器,或任何分類器,都需要有合理的高精確度和高召回率的數值。也就是說,必須有可能相信正面的分類結果,足以投入更多的資源(如部署潛水員)。也必須有可能足夠信任負面輸出,以期望它能找到相當比例的實際存在的雷。然而,在現實中,這兩者之間總是有一個權衡,正確的平衡取決于特定的操作要求。例如,如果不遺漏雷是很重要的,那么分類器將被調整為高召回率。然而,要付出的代價是較低的精度,導致更多的時間被用于調查巖石。

通過在測試數據集上運行分類器,計算有多少雷被正確分類(真陽性或TP),有多少巖石被正確分類(真陰性或TN),有多少巖石被誤認為是雷(假陽性或FP),有多少雷被誤認為是巖石(假陰性或FN),可以計算出準確率、精確度和召回率。這就產生了一個混淆矩陣,如表3.1所示。

表3.1--混淆矩陣的結構,將正確的正面分類(TP)、正確的負面分類(TN)、錯誤的正面分類(FP)和錯誤的負面分類(FN)的數量列表。

混淆矩陣是代表模型性能的一種緊湊但豐富的方式,從中可以推導出許多不同的度量。與同一行的其他數值相比,一個高精確度的模型具有較高的TP值(FP),或者更正式地說:

與同列的其他數值相比,一個高召回率的模型具有較高的TP值(FN),或者更正式地說:

與非對角線位置相比,一個高精確度的模型在所有對角線位置都有很高的數值,或者更正式地說:

矩陣中數值的其他組合產生了其他指標,每個指標都揭示了模型性能的某些方面。一般來說,一個具有不平衡數據的案例(這往往是現實中的常態)將需要更多的指標來衡量模型的性能。然而,對于面臨問題,正確的指標集可以提供一個簡明的圖片,說明模型在實際環境的表現是怎樣的。由于所有的指標都是從混淆矩陣中計算出來的,一個訓練較好的分類器很快就能從中提取這些信息。

(2)多類分類器的評估

如果一個車輛分類器要區分坦克、摩托車和運輸車輛,就存在一個多指標或多類分類問題。在這種情況下,混淆矩陣的行和列的數量將與類別的數量相同。圖3.3是一個多類混淆矩陣的例子,任務是將手寫數字的圖像從0到9分類,也就是10個類別。

從混淆矩陣中計算出的度量可以概括為:通過比較對角線和其余部分給出準確度,而通過比較每個特定類別的對角線值與其行的總和(準確度)或其列的總和(召回率)給出準確度和召回率。因此,通過對矩陣進行顏色編碼,就像在數字分類的例子中那樣,僅僅通過檢查就可以收集到很多信息。例如,從這個例子中可以看出,總體準確率非常高(將對角線與其他部分進行比較),但在不同的數字類別中,表現卻有些不同。數字5有時會被誤歸為3或6或其他,反之,5有時會被誤認為3。然而,數字1幾乎不會與其他東西混淆。

圖3.3 - 混淆矩陣說明了使用MNIST數據集識別手寫數字而訓練的DNN的性能。混淆矩陣可以用來深入了解該模型最可能與其他數字混淆的數字。

(3)回歸模型的評估

在回歸任務中,不可能計算正確的分類。相反,有必要將模型產生的連續值與測試集中的正確值進行比較。

作為一個例子,假設一個自主地面車輛(AGV)的避障模型正在被訓練。AGV必須根據安裝的傳感器的輸入產生一個轉向信號。轉向信號表示為-1和1之間的數字,其中-1表示左急轉,1表示右急轉,0表示不轉,而兩者之間的所有數字都是相應方向上的轉彎等級。AGV已經根據人類操作員記錄的數據進行了訓練。它的測試方法是將它對給定的傳感器刺激產生的轉向信號,與記錄的數據進行比較。例如,記錄可能表明,檢測到遠處左側的障礙物應該產生有限的右轉信號(例如0.2),而檢測到近處左側的障礙物應該產生一個急劇的右轉(接近1)。一個在后一種情況下產生急劇左轉信號(-1)的模型,應該被判定為比另一個產生輕微右轉信號(如0.2)的模型B表現更差。將模型的預測值與期望值相比較,顯然,模型A與該值的距離是2,而模型B的距離是0.8。因此,模型B更接近于正確的行為。如果對測試數據集中所有實例的這種誤差進行測量和匯總,例如計算平均誤差,就可以得到模型性能的總體衡量。

回歸的評估技術主要在如何進行匯總方面有所不同。平均絕對誤差(MAE)取的是誤差絕對值的平均值。該指標衡量模型預測與期望值的偏差程度。均方根誤差取的是誤差平均平方根。它對應于誤差的標準偏差,與MAE不同的是,它對大偏差的懲罰更大。R平方(R2)將平均平方誤差與信號本身的方差進行比較。因此,它首先對變化很大的信號容忍較大的誤差。

3.2 局部解釋技術

與全局解釋技術相比,局部解釋是用來解釋對感興趣的特定輸入的預測的。這些輸入可以是真實世界的例子,也可以是訓練或測試數據集中的例子。DNN的輸入基本上是由一串數值構成的,代表了一些現實世界的過程,如圖像中的像素、文本中的字母、科學數據等等。因此,一個有300個像素的灰度圖像在300個維度上表示它的數據,每個維度講述故事的一部分(所有維度一起提供整體)。

本節重點討論局部解釋技術,其中顯著性地圖被用于解釋。顯著性地圖通過對每個輸入維度的相關性或顯著性打分,來解釋一個模型的輸出。也就是說,它顯示了每個維度在產生與該例子相對應的特定輸出方面的重要性。對于一幅圖像來說,這些顯著性分數可以轉化為熱圖,疊加在圖像上,以表明模型在產生其決定時注意到哪些像素。圖3.4提供了一個在模擬自動駕駛汽車的背景下生成的顯著性地圖的例子。

這里介紹的前兩種技術是白盒技術。這些技術依靠訪問DNN的內部表示(子函數、梯度等)來產生解釋。其他技術是黑盒技術,可以通過查詢模型(通常是多次)和選定的輸入來產生解釋。因此,黑盒技術往往需要更多的計算資源來產生其解釋。

圖3.4 - 突出顯示了DNN用來控制模擬自駕車的最重要的輸入像素的Saliency圖。在這種情況下,代表道路右側的像素似乎是最重要的。

3.2.1 梯度顯著性

梯度顯著性(也叫敏感性分析)是最早的局部解釋技術之一,它被用來解釋神經網絡的行為已經有很長時間了[33, 34]。梯度顯著性的想法是通過計算輸入值的變化會在多大程度上改變模型的輸出值來產生解釋。輸入值的變化會對模型輸出值產生最大影響的輸入被認為比其他輸入對模型輸出值更重要。在數學術語中,這被稱為模型輸出對給定輸入(如圖像)的導數。由于DNN訓練使用導數,許多深度學習軟件庫可以直接計算梯度顯著性。

圖2.8中用來解釋DNN訓練過程的計算圖也可以用來理解梯度顯著性的工作原理。梯度顯著性技術不是計算相對于可訓練參數的導數,也就是訓練過程中所做的,而是計算相對于輸入的導數(即)。

梯度顯著性的問題是,它不能區分影響模型輸出的信號和DNN被訓練為過濾掉的干擾物[35]。使用梯度顯著性技術產生的解釋往往是嘈雜的,也會隱藏模型實際使用的特征。解釋哪些特征使輸入的物體類型更多或更少,并不像解釋哪些特征使其成為現實中的物體類型那樣具有信息量[34]。

3.2.2 分層相關性傳播

分層相關性傳播(LRP)發表于2015年,是第一批使用理論框架來指導局部解釋啟發式方法發展的技術之一[36, 34, 37]。該理論框架的主要好處是,它提供了一種方法,可以找到適合于DNN中各層的多種類型的局部解釋啟發式,以及其他類型機器學習模型的局部解釋啟發式。

LRP首先假設為低層對每個輸出值的貢獻分配相關性,應該考慮哪些激活對輸出值是必要的。從輸入中去除這些相關的激活,最好能取消該輸出值。例如,去除被歸類為汽車的圖像中的所有汽車特征,應該意味著該模型的汽車輸出值為零。在數學術語中,這被稱為模型函數的根,而LRP的想法是使用適合搜索這個根的局部解釋啟發式方法。

雖然沒有已知的技術來優化搜索模型函數的根,但有一些對搜索的限制已被證明是足夠的。例如,根的激活應該在輸出值的激活附近,相關的激活應該在可能的輸入空間內,而且只有輸出值的可用相關性應該被用來給激活分配相關性。事實證明,這些約束條件足以找到將相關性從模型輸出傳播回輸入的局部解釋啟發式方法。

LRP假設模型函數可以用數學技術泰勒擴展來近似。泰勒擴展將模型函數分解為簡單的加法項,可以直接映射到神經網絡組件。加法項意味著模型函數可以被分解為作為模型輸出基礎的每個激活的相關性分數。

LRP是一個局部解釋啟發法系列,使用這些技術進行相關性傳播[37]。這些啟發法專門適用于不同類型的神經網絡層和層級。一些啟發式方法還可以將輸出相關性傳播為有助于模型輸出的正向激活和有損于模型輸出的負向激活。這可能有助于識別缺失的特征,使模型輸出的可能性更大。

3.2.3 沙普利加和解釋

沙普利加和解釋(SHAP)發表于2017年[38],改進以前的一些方法,指出它們之間的數學共性,然后證明它們都可以通過使用一個特定的數學公式進行改進。

該公式由諾貝爾獎得主勞埃德-沙普利于1953年[39]在經濟學的一個分支--博弈論領域提出。它計算出所謂的沙普利值,用于在參與方之間分配一些聯合游戲的收益。該公式旨在根據一組合理性條件公平地分配收益,因此所有的收益都應該被分配;貢獻大的行為者應該獲得更多的收益;沒有貢獻的行為者應該一無所獲;而且應該有可能將不同游戲的收益相加。事實上,沙普利表明,他的公式是唯一可能滿足所有條件的公式。

就解釋而言,第一步是觀察機器學習模型的輸入維度可以被視為參與模型產生輸出預測的游戲的行為者。輸出值可以看作是游戲的總收益,也就是要在玩家之間進行分配。進行公平分配就是在輸入維度之間按其貢獻比例分配輸出值。換句話說,這樣應用沙普利值,就會產生一個突出性掩碼。這個觀察在SHAP方法之前就已經提出了,例如在[40]和[41]。

最初的SHAP工作的貢獻是觀察到一些早期的方法所產生的解釋都可以統一在一個共同的線性形式下,稱為加和特征歸屬,也就是說,它們都有一個共同的屬性,即它們產生的突出度值加起來就是要解釋的模型的輸出值。然后,[38]的作者設定了與上述條件相對應的穩定性條件,并證明沙普利公式是特征歸屬方法滿足所有條件的唯一途徑。由于之前的所有方法都在某種程度上偏離了沙普利公式(通常是通過應用一些沒有太多理論基礎的啟發式方法),作者認為可以通過調整這些方法使其符合該公式來改進。因此,SHAP實際上是一個基于這些調整的方法系列。例如,調整LIME(見第3.2.4節)以符合沙普利公式,可以得到KernelSHAP,即SHAP的一個模型無關的版本。基于特定模型解釋方法的SHAP版本繼承了相同的模型特定性約束。

3.2.4 局部可解釋模型診斷性解釋

局部可解釋模型-診斷性解釋(LIME)在2016年發表時引起了極大的關注[42],因為它是首批可以作為黑盒應用于任何模型的解釋方法之一。LIME通過對樣本進行擾動并觀察所發生的情況來解釋模型對輸入樣本的預測。

任何機器學習模型都將其輸入和輸出之間的關系表示為某種數學函數,由神經網絡的權重和結構或其他參數來定義。這個函數反過來旨在捕捉一些現實世界的關系,例如,一串聲音和一串單詞之間的關系。一個典型的現代機器學習系統所模擬的功能是復雜的,這就是為什么簡單地檢查神經網絡的權重并不能做很多解釋。LIME不考慮函數的整體性,而是試圖描述函數在要解釋的例子附近的作用。通過以不同的方式擾動輸入,它能夠創建一個線性的,因此更簡單的模型,該模型在與所提供的樣本相似的情況下表現得接近于復雜的模型。這個線性模型的系數構成了對輸入的哪些維度對模型的輸出影響最大的直接測量,或者換句話說,這些系數是LIME版本的顯著性掩碼。由于LIME對模型所要做的就是給它提供不同的輸入擾動并觀察它的輸出,所以對模型的內部工作沒有任何了解。

3.2.5 用于解釋黑盒模型的隨機輸入采樣

用于解釋黑盒模型的隨機輸入采樣(RISE)是一種模型無關的局部解釋技術,于2018年發表[43]。與LIME類似,RISE通過擾動輸入并觀察模型的反應來生成解釋。因此,對于解釋的生成,不需要了解模型的內部工作。

RISE通過隨機生成掩碼來擾亂圖像,掩碼使圖像像素變暗。掩碼是通過將圖像劃分為較大的區域,并隨機選擇哪些區域包括在擾動的圖像中來生成的。模型對擾動圖像的輸出值描述了掩碼覆蓋圖像區域的程度,這些區域對該模型類別的分類很重要。與覆蓋較少重要圖像區域的掩碼相比,覆蓋許多對分類很重要的圖像區域的掩碼會導致更高的模型輸出值。通過隨機生成許多掩碼,RISE計算出每個圖像區域的平均重要性。圖像區域的重要性解釋了模型的分類。

RISE的一個好處是,它使用大小均勻的圖像區域來生成解釋。因此,這些解釋涵蓋了與圖像中的物體相同的圖像區域。另一方面,LIME使用超級像素(類似像素值的連續區域),這可能無法捕捉到正確的圖像區域。

3.3 混合解釋技術

混合解釋技術通過結合全局和局部XAI技術提供洞察力。混合解釋技術不是只在個案的基礎上使用局部XAI技術,而是在大量的案例上自動應用局部XAI技術,通常是整個數據集。然后,混合解釋技術會比較所有的本地XAI結果,以確定模型表現不符合預期的情況。這種異常情況可以為進一步的模型開發提供信息,或者指出使用模型時需要考慮的性能限制。

3.3.1 譜系相關性分析

譜系相關性分析(SpRAy)技術是在[23]中介紹的。SpRAy是一種半自動化的技術,它使用整個數據集的分析方法來尋找模型性能不符合預期的情況。例如,在圖像分類中,一個一般類型的物體,如狗或汽車,可能會出現在許多形式和背景中,但類似的物體形式和背景應該有類似的局部XAI結果。如果某些情況下的本地XAI結果與預期的不一樣,這可能表明模型行為異常。依賴于現實世界中可能不存在的虛假和人為的相關性的決策策略,也被稱為 "聰明的漢斯"行為。SpRAy包括五個步驟來尋找異常的模型行為:

  • 用LRP計算相關性圖(見3.2.2節)。

  • 對所有的相關性圖進行預處理,使其具有統一的形狀和大小。

  • 對相關性圖進行譜聚類。譜聚類是一種成熟的技術,它將相似性矩陣(衡量案例之間的相似性)轉化為增強相似性矩陣的聚類特性的表示方法[44]。然后可以在新的表示法中檢測到集群。相關性地圖之間的相似性是由成對的相關性圖之間的歐氏距離計算出來的最近的鄰居。兩個相關性圖之間的歐氏距離是由每個像素的每個顏色通道的強度差異計算出來的。

  • 識別有趣的聚類。譜聚類計算出表明不相交或弱聯系的集群的措施(特征值)。特征值的巨大差距表明集群是不同的。

  • 一個可選的步驟是使用例如t-SNE(見第3.1.1節)對聚類進行可視化。

在[23]中,SpRAy被用來證明上一代機器學習技術--支持向量機(SVM)在圖像分類中學習了虛假的相關關系。例如,SpRAy顯示,該分類器使用了四種不同的策略對馬匹的圖像進行分類,檢測馬匹和騎手,在橫向或縱向的圖像中檢測源標簽,以及檢測障礙物和其他環境元素。因此,在沒有源標簽和背景元素的實際應用中,這個分類器是不可靠的。將源標簽添加到其他物體的圖像上,如汽車,他們可以將分類改為馬。

4 評估可解釋人工智能技術

XAI的一個經常被忽視但很重要的方面是評估擬議的XAI技術的能力。第 4.1節從人類因素的角度介紹了評價標準,其中用戶(如操作員或分析師)是衡量XAI加入人工智能系統后的效果的核心。此外,第4.2節介紹了可用于比較本地XAI技術的測試,如第3.2章中介紹的使用啟發式的技術。

4.1 人為因素評價

對XAI技術的人為因素評估測試了解釋是否考慮了所有對用戶充分利用AI系統的重要因素。例如,用戶可能有不同的目標、需求、知識、經驗、任務背景、用例等。和許多類型的系統開發一樣,在人工智能系統的整個開發過程中,從系統規范到最后的用戶測試,都必須考慮這些因素。由于用于DL的XAI技術是一個新興的研究領域,這些技術的最初用戶往往是對評估模型性能感興趣的系統開發者。這些XAI技術是否對軍事用戶也有用,在很大程度上仍然是一個開放的問題。在[22]中,已經提出了六個指標來評價解釋。

  • 解釋善意。由一份檢查清單組成,其中包括在開發XAI技術時從用戶角度考慮的重要方面。該清單是基于對現有文獻中關于解釋的全面回顧,包括解釋的七個重要方面,例如,解釋是否有助于用戶理解人工智能系統的工作原理,解釋是否令用戶滿意,以及解釋是否足夠詳細和完整。

  • 解釋的滿意度。一個衡量用戶在解釋的好壞方面如何體驗解釋的量表。該量表由八個項目組成,這些項目被表述為聲明(七個好的方面和一個關于解釋對用戶的目標是否有用的項目)。有效性分析表明,該量表是可靠的,可以區分好的和壞的解釋。

  • 促進心智模式的發展。好的解釋會加強用戶對人工智能系統如何工作以及為什么會做出特定決定的理解。在認知心理學中,這種表述被稱為用戶對人工智能系統的心理模型。推薦四個任務來測量用戶對人工智能系統的心智模型,例如,一個提示性的回顧任務,要求用戶在用人工智能系統執行任務后描述他們的推理,以及一個預測任務,讓用戶預測人工智能系統會做什么。用戶的心理模型和專家的心理模型之間的比較顯示了用戶心理模型的完整性。

  • 促進好奇心。好的解釋會促進用戶的好奇心,以調查和解決心理模型中的知識差距。我們建議通過讓用戶識別促使他們要求解釋的觸發因素來衡量好奇心。一些觸發因素的例子是:人工智能系統行動的理由,為什么其他選項被排除在外,或者人工智能系統的行為不符合預期。

  • 對解釋的信任。一個好的心理模型能使用戶適當地信任人工智能系統,并在其操作范圍內使用它。建議使用一個包含八個項目的量表來衡量用戶對人工智能系統的信任。例如,這些項目涉及用戶對使用系統的信心以及系統的可預測性和可靠性。

  • 系統性能。與只使用人工智能系統而不使用XAI相比,XAI的最終目標是提高系統的整體性能。性能測量的例子包括主要任務目標的完成,用戶預測人工智能系統反應的能力,以及用戶的接受度。

未來的研究將提供更多關于在評估人工智能系統的XAI技術時如何解釋這些指標的信息。

4.2 評估本地解釋技術

第3.2章中描述的本地XAI技術產生了突出性地圖,以突出每個輸入維度的重要性。根據模型所處理的數據類型,顯著性圖的可視化程度是不同的。例如,在處理圖像時通常使用熱圖,而在處理文本時通常使用彩色編碼的字符和詞。

圖4.1展示了一個使用熱圖可視化的顯著性圖的例子。在這個例子中,熱圖是為數字0(圖4.1a)生成的,使用了梯度顯著性(圖4.1b)和LRP技術(圖4.1c)。重要的維度(即圖像中的像素)由較暖的顏色(如紅色、橙色、黃色等)表示,而非重要的維度則由較冷的顏色(深藍、藍、淺藍等)表示。這兩種技術之間的明顯區別可以從高亮維度的位置上直觀地觀察到。本節的其余部分介紹了可以用來定量比較和評估不同技術所產生的局部解釋的技術。最終,我們的目標是找出哪個解釋是最準確的。

圖4.1 - MNIST圖像及其相應的熱圖,使用梯度顯著性和LRP技術生成。圖像中的重要維度或像素用較暖的顏色(如紅色、橙色、黃色等)表示。

4.2.1 刪減

刪減[43, 34]是一個指標,通過測量模型在輸入逐漸被扭曲或刪減時準確做出預測的能力來計算。請注意,在這種情況下,刪減意味著將輸入的值轉換為中性的東西(例如,圖像的背景)。刪減過程是由XAI技術產生的顯著性圖指導的,因此更重要維度的值會在不太重要的值之前被刪減。這個指標的直覺是,如果在刪減過程中,性能下降很快,而不是很慢,那么解釋會更好。

圖4.2使用圖4.1b中的梯度顯著性圖說明了刪減過程。在圖4.2b中,50個最突出的像素已經被刪減。在這個階段,很容易推斷出該圖像仍然代表一個0。在圖4.2f中,超過一半的像素(400)已經被刪減。在這個階段,要推斷出圖像實際代表數字0要困難得多。

圖4.2 - 由MNIST圖像的刪減過程產生的圖像,其中0、50、100、200、300和400像素被刪除。

4.2.2 插入

插入指標[43]是對刪減的補充方法。圖4.3說明了在刪減例子中使用的同一MNIST圖像的插入過程。從最初的輸入(用黑色圖像表示)開始,隨著越來越多的輸入維度被插入,按照突出度圖的優先順序,測量準確度的增加。這里的直覺是,當更多的信息被插入到輸入中時,模型預測的準確性應該增加。也就是說,當增加的速度快時,與增加的速度慢時相比,解釋會更好。

圖4.3 - 從MNIST圖像的插入過程中產生的圖像,其中0、50、100、200、300和400像素被插入。

4.2.3 評價指標

為了證明刪減和插入的使用,使用梯度顯著性和LRP技術來衡量這些過程。在這種情況下,使用分類器對XAI技術進行了評估,該分類器從MNIST數據集中隨機抽取了100張圖像。

圖4.4和圖4.5分別顯示了刪減和插入過程的結果。曲線下的面積(AUC)是一種測量方法,可以用來定量比較XAI技術。對于刪減,較小的AUC值要比較大的值好。同樣,對于插入,較大的AUC值比較小的值要好。

在圖4.4中可以看到,LRP技術的性能曲線的下降更加尖銳,并在使用刪減過程時收斂到一個較低的平均概率值。這與它的熱圖是一致的,與梯度顯著性的熱圖相比,它突出了較少的特征(圖4.1c和4.1b),表明與梯度顯著性相比,LRP在較少的特征下更快地找到了解釋。同樣的結論可以從使用插入過程的結果中得出(圖4.5)。在這里,只需插入幾十個特征,就能觀察到平均概率的快速增加,在插入大約100個特征后達到高性能。

圖4.4 - 梯度顯著性和LRP的刪減曲線。

圖4.5 - 梯度突出性和LRP的插入曲線。

5 實驗結果:關于解釋自然語言預測的案例研究

在自然語言處理(NLP)領域,一個常見的機器學習任務是讓人工智能系統評估一個文本在多大程度上表達了消極、積極或中性的情緒(即情緒分析)。諸如 "我非常高興和感激!"這樣的句子顯然表達了積極的情緒,而 "我希望他很快見到他的造物主 "顯然是消極的,而 "他昨天到達 "可以被認為是中性的。積極的例子包含了直接標明它是積極的詞語,而消極的例子則需要對語言有更深的理解,才能抓住其明顯的消極含義。因此,一個文本可以在它所表達的情緒的種類和程度方面有所不同,也可以在它如何直接表達方面有所不同。為了理解人工智能系統是如何試圖理解輸入到它的文本中的情感,可以應用第4.2章中用來解釋圖像分類的同類技術。

5.1 情緒分析預測器

情緒分析模型是所謂的SentimentTagger模型的簡化版,該模型主要被內部用來預測推文(即Twitter上的帖子)中的情感。SentimentTagger模型由一個DNN和一個更傳統的NLP模塊組合而成。在這項工作中,只使用了該模型的DNN部分。DNN模型是使用遞歸(即RNN)和全連接(即FCNN)神經網絡層的組合設計的。RNN部分使用一種叫做長短時記憶(LSTM)的技術來實現,該技術專門為一個句子中的單詞或字符之間,甚至是跨句子的遠距離依賴關系建模。例如,在 "我昨天以便宜的價格買的車今天壞了 "這句話中,事件 "壞了 "指的是 "車",盡管它們被其他文字分開。

在SentimentTagger中使用的特定LSTM是通過將傳入的文本(一條推文)分解成其組成字母來觀察的。更確切地說,它看的是字符,如字母,但也包括標點符號、空白、表情符號等等。然后,該模型提取出一個善于模擬情感的中間表征。這個中間表征然后被送入FCNN以產生最終的情感預測。預測是一個在0和1之間的連續值,其中0是最消極的,1是最積極的。因此,這是一個回歸模型,就解釋而言,這意味著解釋不是對預測一個特定類別的貢獻,而是對該特定輸出值的貢獻。

SentimentTagger的預測過程如圖5.1所示。表5.1中還提供了該模型預測的一些例子。表5.1中前三條推文的預測結果與人類判斷的真實情感值很一致。接下來的三條是低估了積極情緒的例子,而最后三條是低估了消極情緒的例子。對于一些例子,如第六個例子,可以說SentimentTagger比人類標簽者做得更好。在所有情況下,了解SentimentTagger的估計依據是什么,將是有益的。

圖5.1 - SentimentTagger的結構。一條推文被送入LSTMRN,它產生一個中間表征。然后將其送入FCNN,反過來產生最終的情感預測。

表5.1 - SentimentTagger對推文進行情感預測的例子。

5.2 解釋方法

為了對SentimentTagger產生的預測進行解釋,我們采用了模型診斷性的LIME和SHAP技術。SHAP的版本(KernelSHAP)實際上是對LIME的修改(根據[38]中提出的一般公式),這使得比較變得有趣。在這種情況下,選擇與模型無關的方法的原因是,不同類型的神經網絡的串聯使得應用特定模型的方法變得非同尋常。

SentimentTagger分析推文所包含的字符,而不是在詞的層面。顯著性解釋的最直接表述是指出一條推文的每個字符對該推文的情緒預測有多大貢獻。圖5.2a給出了這樣一個解釋的例子,SentimentTagger預測該條推文的情緒為中性(0.47),而人類判斷的數值為輕微的消極(0.31)。那么,是什么推動了這種預測呢?在這里,顏色編碼被用來表示每個字符對增加或減少情感預測的貢獻。藍色表示消極貢獻(即消極情緒),紅色表示積極貢獻(即積極情緒)。接近透明紫色的顏色代表中性情緒。

這個例子似乎表明,"更好 "這個詞中的字符做出了積極的貢獻,而 "壞 "這個詞中的字符做出了消極的貢獻,而其他字符則提供了一個不太清晰的畫面。從單個字符的顯著性歸因中得出結論是很困難的,因為字符本身并不真正意味著什么。因此,雖然可能有理由讓情感預測模型在角色層面上工作,但可能應該在一個綜合的層面上提供解釋,以更好地映射到實際意義。

如果將字符級別的歸因匯總到包含相應字符的每個詞上,結果就會出現圖5.2b中的可視化。出現的畫面更加清晰,不僅可以看到 "更好 "和 "壞 "對預測的推動作用有多大,而且還可以看出 "什么時候"的輕微積極作用和 "某人 "和 "不耐煩"的輕微消極作用。最后,還可以注意到,"紅色 "和 "藍色 "的數量似乎大致相當,這解釋了為什么SentimentTagger決定對情緒進行中性評價。在后面的例子中,到單詞級別的解釋是可視化的。

圖5.2 - 一條推文,根據其對該推文的情感預測的貢獻,對字符和詞進行了顏色編碼。紅色表示對積極情緒的貢獻;藍色表示對消極情緒的貢獻。在這個案例中,模型預測的是中性情緒(0.47),而人類標注者對情緒的判斷是輕微的消極(0.31)。詞級顯著性的可視化似乎更清楚地映射了句子語義的重要性。

5.3 定性結果

表5.2顯示了九個在不同方面都很有趣的推文例子。顏色對應的是由SHAP做出的顯著性歸因(然后如上文所解釋的那樣匯總到詞級)。預測欄列出了由SentimentTagger預測的情感值,而真實值欄則顯示了由人類判斷分配的值。一個詞越紅,說明組成它的字符越多,共同推動了預測值的上升。反之,一個詞越是藍色,它的字符越是把預測值推低。

對于前三條推文,SentimentTagger的預測與人類的情緒判斷(在真值一欄)相當一致。盡管達成了一致,但有趣的是,SentimentTagger看了哪些詞來得出其預測結果。在第一條推文中,"愚蠢的"、"可怕的"、"丑陋的"、"糟糕的 "和 "不 "促使情緒向消極方向發展,但 "父親 "一詞是一個更強大的消極驅動因素。可以詢問SentimentTagger是否發現了消極形容詞與 "父親 "的組合,或者它是否足夠成熟,能夠識別出 "不是他們的父親 "是一個有害的聲明。第三條推文更清晰;"微笑 "做了大部分的積極作用。

第4條和第5條推文是SentimentTagger將消極情緒分配給實際上相當積極的推文例子。諸如 "醫院"、"走了 "和 "眼淚 "等詞被表面上解釋為消極的,而對上下文的正確理解會否定這種判斷。6號推文似乎也顯示了預測和真實情緒之間的差異。然而,可以說,問句形式所表達的不安全感實際上使預測比指定的標簽更接近事實。

在例子7到9中,關系是相反的,即預測嚴重低估了推文中表達的消極程度。一些被遺漏的消極情緒可能源于拼寫錯誤,如 "appauling"(7),缺失空格,如 "worstairline "和 "beyondajoke"(7),以及口語化的縮寫,如 "tf"(9),盡管一個字符級的LSTM預計會比一個單詞級的更好地處理輕微的拼寫錯誤和空格缺失。其他錯誤則更難解釋,如 "令人震驚"、"可怕"、"凄慘"(7)和 "刺激"(9)。例子8似乎表明,SentimentTagger錯過了 "刺激 "和 "高 "之間的聯系。

表5.3顯示了LIME對相同推文產生的顯著性歸因。雖然SHAP的歸因在很大程度上是可理解的,但并不完全符合直覺,LIME的版本則在很大程度上令人困惑。少數與直覺相符,如 "可笑"(1)、"欣賞"(2)和 "樂觀"(6),其中前兩個沒有被SHAP強調。有些直接與直覺相抵觸,例如 "無用"(7)和 "微笑"(3),后者也與SHAP相抵觸。然而,大多數只是顯得很隨意,如 "ajahnae"(1)、"ago"(2)、"will"(5)和 "today"(8)。這些不直觀的解釋是否表明SentimentTagger存在SHAP沒有發現的故障,或者SHAP的更直觀的歸因是否更準確地描述了LSTM實際在做什么?KernelSHAP在理論上是LIME的一個更好的基礎版本,這一事實表明了后者,但這些定性的結果不能提供任何證明。為了更客觀地比較這兩種解釋方法,在下一節將進行定量分析。

表5.2 - 選定的推文,按SHAP的顯著性數值進行著色,這些數值已經匯總到單詞級別。

表5.3 - 選定的推文,按照LIME的顯著性數值進行著色,這些數值已經匯總到單詞級別。

5.4 特征刪減分析

正如第4.2.1節所解釋的,刪減指標通過按照XAI技術賦予特征的顯著性順序來測試解釋方法的性能。一個好的XAI技術應該對那些對預測模型的輸出很重要的特征賦予很高的顯著性,因此按照這個順序刪減特征會使模型的性能急劇下降。在本案例中,按照突出性順序要刪減的特征是字符,在這種情況下,刪減一個特征意味著用一個空字符來代替它,比如一個制表符或一個空格,而預測模型是SentimentTagger。我們在一批500條推文的例子上對SentimentTagger的SHAP解釋和LIME解釋都進行了刪減測試,然后繪制了模型的預測性能如何隨著刪減的特征(字符)數量而下降。此外,作為一個基線,我們用一個隨機掩碼進行刪減,導致特征以隨機順序被刪減。由于SentimentTagger是一個回歸模型,它的性能不能用準確性來衡量。相反,我們使用了R2指標,該指標代表了對訓練好的模型解釋測試數據中的差異的程度的衡量。

圖5.3顯示了SentimentTagger的R2性能作為刪減數量的函數,分別按SHAP、LIME和隨機掩碼排序。很明顯,刪減測試有利于SHAP,因為它的曲線按照突出性歸因的順序迅速下降,而LIME的相應曲線則明顯不那么陡峭。LIME在刪減測試中的表現只比隨機掩碼略好。因此,SHAP似乎在識別少數特征(字符)方面做得更好,沒有這些特征,模型就無法準確預測。這也許并不奇怪,因為Shapley公式的設計就是為了做到這一點,而LIME則依賴于更多技術上的啟發式方法。然而,通過有選擇地將少數幾個字符替換為空白,甚至有可能完全消除SentimentTagger的性能,這一事實可能是關于此類模型的穩健性(或缺乏穩健性)的一個有趣的跡象。

更值得注意的是,在SHAP案例中,R2值在最初的10次左右的刪減后實際上下降到了零以下,然后隨著更多的刪減被執行,又向零移動。這意味著第一組刪減實際上導致模型的表現比忽略其輸入并總是做出相同預測的模型要差。隨著更多的刪減,模型的預測將趨向于中性預測,即對應于一個空推文,這相當于忽略輸入。因此,R2值會收斂到零。

圖5.3 - 對SentimentTagger預測的SHAP和LIME解釋的刪減分析。隨機順序的刪減被用作基線。該圖顯示了對模型性能的影響,如R2指標所衡量的,當特征按突出性順序被連續刪減(即字符被連續刪減)時。SHAP曲線最初的陡峭下降表明,SHAP善于發現哪些特征對模型性能最為關鍵。低于零的跌幅表明,戰略性的刪減會導致模型做出的情感預測與人類標注的真實情感相矛盾。LIME的緩慢下降表明LIME的顯著性值在尋找哪些特征對模型性能最關鍵方面不如SHAP值,只比隨機刪減稍好。

6 結論

深度學習將被用于補充和取代軍事系統的某些功能。事實上,DL技術已經在軍事監控系統中得到了應用,以自動檢測和跟蹤大量圖像數據中感興趣的物體[45]。與傳統的軟件技術相比,DL有幾個優勢。最重要的是,DL可以用來為那些使用傳統軟件技術無法建模的復雜過程建模。它還可以促進主動學習,即人工智能系統與用戶互動,以獲得高質量的數據,這些數據可用于增強運行中系統模型(即部署后)。

不幸的是,這些優勢也帶來了重大挑戰,不僅在技術上,而且在操作上都需要解決。在本報告中,重點是可解釋性的挑戰。DL的一個主要缺點是,即使學習算法、模型結構和訓練數據是已知的,并且被很好地理解,但模型本身的行為卻不是可解釋的。在許多用于音樂推薦和廣告目的民用應用程序中,這通常不是一個問題。然而,在軍事領域,理解和解釋人工智能系統的行為是至關重要的。在這種情況下,人工智能系統提供的決定和建議可能會對人類的生活產生深刻的影響。這在使用自主武器和無人機的戰術層面是有效的,在軍事領導人和政治決策者做出長期決定的作戰和戰略層面也是有效的。

也許有人會說,復雜的軍事系統,如戰斗機、潛艇、坦克和指揮與控制的決策支持工具,也是難以掌握的。雖然這是事實,但用于建立這些系統的技術本質上是可以解釋的。因此,如果出了問題,有可能完整地檢查系統以識別和糾正問題。而在DL中,情況并非如此。主要原因是,在現實世界的應用中,DNN經常由數百萬甚至數十億的參數組成。因此,即使是這些模型的創建者也沒有能力系統地解決模型中可能存在的錯誤。

在這份報告中,探討了為解決可解釋性挑戰而提出的幾種最先進的XAI技術。盡管已經取得了一些進展,但可以得出結論,用于軍事領域DL應用的XAI仍然處于起步階段。最終,即使已經提出了許多XAI技術,它們還沒有在軍事背景下被檢測過。因此,不能保證現有的XAI技術能夠在高風險的軍事AI系統中使用DL。

在為軍事目的開發人工智能系統時,我們建議在采購和開發過程中盡早確定可解釋性和可解釋性要求。最重要的是,這些要求的定義是可行的和可驗證的。也就是說,這些要求必須符合在可解釋性方面實際可能的期望。

在未來的工作中,我們打算開發一個評估框架,可以用來支持軍事人工智能系統中XAI能力的發展。

FOI

FOI,瑞典國防研究局,是瑞典國防部下屬的一個主要任務資助機構。其核心活動是研究、方法和技術開發,以及為瑞典國防和社會安全利益而進行的研究。該組織雇用了約1000名員工,其中約800名是科學家。這使得FOI成為瑞典最大的研究機構。FOI為其客戶提供了大量領域的前沿專業知識,如安全政策研究、國防和安全相關分析、各種類型威脅的評估、危機控制和管理的系統、有害物質的保護和管理、IT安全和新傳感器提供的潛力。

付費5元查看完整內容

本文討論了F-35 "閃電"戰斗機對挪威皇家空軍指揮與控制(C2)可能的影響方式。它強調了協調的重要性,回答了有關F-35的實施對其他能力相互依賴性的影響問題。這一基礎被進一步用來討論對C2核心要素的可能影響,如程序、人員、通信和信息系統。基于F-35系統的能力,發現挪威武裝部隊中跨領域和C2級別的相互依存關系的發展;這些相互依存關系的復雜性,既受到空中行動執行的影響,也受到環境突發事件的影響,意味著組織需要靈活使用協調機制。我們發現,相互依存關系,以及如果要獲得成功所需的協調,對涉及F-35的空中行動指揮和控制有影響。我們建議該組織應更積極地使用分層和水平結構,以適應跨領域和C2級別的知識和信息共享。程序需要包括授權的方法和系統,人員需要了解相互依存關系和多域作戰。最后,通信和信息系統必須是可用的、可互操作的和強大的。

關鍵詞:挪威,F-35,指揮與控制,相互依賴,多團隊協調

付費5元查看完整內容

人工智能(AI)正迅速融入軍事指揮與控制(C2)系統,成為許多國防部隊的戰略重點。人工智能的成功實施有希望預示著通過自動化實現C2靈活性的重大飛躍。然而,需要對人工智能在可預見的未來所能實現的目標設定現實的期望。本文認為,人工智能可能會導致脆弱性陷阱,即把C2功能委托給人工智能會增加C2的脆弱性,導致災難性的戰略失敗。這就要求在C2中建立一個新的人工智能框架以避免這種陷阱。我們將論證,"抗脆弱性 "和敏捷性應該構成人工智能C2系統的核心設計原則。這種雙重性被稱為敏捷、抗脆弱、人工智能驅動的指揮和控制(A3IC2)。一個A3IC2系統通過C2決策周期中的反饋過度補償,不斷提高其在面對沖擊和意外時的表現能力。一個A3IC2系統不僅能夠在復雜的作戰環境中生存,還能茁壯成長,從戰爭中不可避免的沖擊和波動中獲益。

I 引言

許多人認為,將人工智能(AI)納入軍事指揮和控制(C2)是建立軍事力量競爭優勢的一個關鍵因素[1],[2],[3]。人們對人工智能在戰場上能夠實現的目標抱有很高的期望,有些人宣稱它是下一場"軍事事務革命"[4]。人工智能有望在C2中實現復雜功能自動化,從而導致"戰場奇點"的概念,即決策周期自動化帶來的行動速度的增加導致人類的認知無法跟上機器做出決定的速度[3]。在這種對未來戰場的展望中,人被認為是C2系統中的一個薄弱環節[5]。

本文認為,人工智能的整合可能會對尋求機器速度決策的C2系統性能產生意想不到的后果;從戰略上講,一個已經達到 "戰場奇點"的系統在根本上是脆弱的。人工智能的快速發展及其對C2系統明顯的革命性/顛覆性影響在很大程度上是由對戰爭期間對對手的 "響應"程度的關注所引導的,而不是對這種技術可能對C2系統性能的整體影響。文獻中提出了兩個假設:第一,假設人工智能將通過優化系統的各個部分來進一步實現提高敏捷性的目標;第二,由于復雜的人工智能能夠在戰時做出決定,甚至在戰略層面做出決定,未來人工智能支持的C2系統將在盡可能少的人力投入下得到改善[6],[7]。這兩個假設都是錯誤的,因為人工智能帶來了獨特的特性,可能會增加C2系統的脆弱性。

傳統上,C2系統被認為受益于一種戰略,該戰略側重于在復雜的競爭環境中最大限度地提高敏捷性[8],[9],[10],[11]。David Alberts用 "敏捷C2"的概念體現了這一戰略,該概念指出,為了使C2系統有效,它必須能夠在復雜的環境中成功應對、利用和實現變化。C2的有效性是通過系統要素的相互作用來實現的,如適應性、響應性、靈活性、多功能性、創新性和復原力[8]。然而,對"敏捷C2"模式的接受使大多數軍事C2理論和文獻將人工智能技術作為提高C2決策單獨響應性的手段[1],[2],[7],[3],[5],而對C2系統需要響應性以滿足戰略利益這一單純的事實則關注較少。問題的核心就在這里,提高響應能力的人工智能是否能夠做到這一點,同時了解決策對跨多個領域的戰略和大戰略目標的影響。我們認為,盡管人工智能很先進,但由于人工智能系統容易受到具有戰略后果的黑天鵝事件的影響,在作戰環境中的預測從根本上來說是脆弱的[4]。人工智能的優化特性,加上人類責任的減少,可能成為阻礙C2敏捷性的 "脆弱 "方法。

為了否定上述可能導致人工智能C2系統脆弱性的一些問題,需要一個新的設計原則,以增強系統從波動中自我改善的能力,即所謂的 "抗脆弱性"[12],[13]。適當設計的人工智能可以通過在系統級存儲器中積累適當的遭遇和學習經驗來實現抗脆弱系統的發展,但它也可能鼓勵C2決策周期的過度優化。這可能會導致系統無法識別和解釋突發事件,但仍然快速推薦決策,導致負面風險的升級。因此,人工智能的整合支持了一種新模式的發展,擴展了敏捷C2的概念,并包含了抗脆弱性。這將被稱為 "敏捷、抗脆弱、人工智能驅動的指揮與控制"(A3IC2),它是敏捷C2、抗脆弱理論和人工智能用于C2的綜合體,建立在Boyd、Brehmer和Alberts[14],[8]所開發的模型之上。

為了探討A3IC2,本文的結構如下。第二節介紹了文獻回顧,將A3IC2概念與之前的其他概念區分開來。然后在第三節中介紹了人工智能導致脆弱性,接著在第四節中論證了抗脆弱性將使人工智能在C2系統中得到有效利用的原因。第五節討論了擬議的A3IC2功能模型,然后在第六節得出結論。

II 文獻回顧

A. 指揮與控制

就本文而言,軍事C2的定義是負責適當分配部隊以實現軍事目標的戰區級職能。軍事學說將其廣泛定義為 "對所分配的部隊行使權力和進行合法指揮的過程和手段"[1],[2],[15]。這有別于其他被描述為戰術層面的C2系統,如單個車輛或小單位的C2。

軍事C2與戰略決策是密不可分的。它包括一個等級組織,指揮官的意圖來自他們所保衛的國家戰略目標,為下屬的決策和行動提供方向[14]。C2的最高優先事項之一是保持對環境的態勢感知,并以軍事行動做出適當的響應(或不響應),以實現戰略目標。C2不僅要有效地進行作戰,而且還必須知道何時從非作戰行動(OOTW)過渡到作戰[16],反之亦然。因此,軍事C2的適當抽象(或模型)需要承認沖突的全部范圍;從作戰到非作戰行動[15]。它必須考慮到C2系統所處的 "作戰環境 "的動態復雜性;從戰術到戰略層面以及它在大戰略層面產生的影響。簡而言之,有效的C2不僅僅是能夠贏得戰斗,它還必須知道什么時候挑起戰斗是一種相稱的響應[2],[15],[16]。此外,它需要了解其行動對大戰略層面的影響;也就是整個政府的目標。

C2,作為一個系統,在一個非線性和復雜的環境中運作。它被歸類為 "社會技術"系統,是技術和 "社會 "或人類元素的混合體,它們相互作用,并與更廣泛的復雜環境相互作用[17]。一個C2系統表現出動態的、突發的行為,有許多意外的或不可預知的后果。這不僅是因為這些系統依靠人類來理解復雜的環境并制定解決問題的計劃,而且因為它也是一個技術系統,態勢感知依賴于數字系統和傳感器來傳遞信息,而這些信息可能無法準確地代表作戰環境[9],[17],[10],[4]。C2系統必須完成的任務或目標完全取決于未預料到的現實世界的事件,如戰爭、環境災難和其他雜項OTW。這發生在多個領域(物理的和非物理的),并且都是在分歧的作用下。從系統思維的角度來看,C2作戰環境是真正 "超復雜"的[18],[16]。

因此,軍事C2有一個非常困難的任務,即它必須在一個復雜的環境中做出具有重要意義的決策,并保證有幾乎不可能預測或逆轉的二階和三階戰略效應[19],[4]。長期以來,軍事戰略家們一直理解這一點,并在傳統上通過心理模型或啟發式方法來管理,以指導如何理解和應對戰爭的復雜性。這些心智模式現在被固化在戰略研究學科和現代軍事理論中[4]。C2是在戰爭中取得戰略成功的一個重要手段,它被定義為 "確定一種方法,使敵人的組織因無助或混亂而崩潰"[16]。與指導這一結果相關的心智模式(必然)是高度抽象的,反映了對復雜性的理解;戰略與其說是一門科學,不如說是一種藝術。Clausewitz和他的 "分歧"概念,描述了在這種復雜性中操作的困難,它習慣于破壞所有精心策劃的計劃,導致了 "戰爭中一切都很簡單,但最簡單的事情卻很困難 "的看法[20]。自Clausewitz以來,由于信息理論、人工智能、系統思維和控制論方面的重大進展,戰略的啟發式方法已經取得了進展。關于戰爭的心智模式繼續從技術中發展,但戰爭的核心性質卻沒有發展。它在政治中的基礎要求它是一種與人的因素密不可分的活動[4],[15]。將這些心智模式轉化為指導人工智能的具體指標,是一項非同尋常的、可能不可行的任務。這些心智模型的工作原理是對背景、指揮官的意圖以及一個決定可能產生的大戰略后果的整體理解。

科學、技術和信息理論對戰略和C2概念產生了重大影響[21]。John Boyd上校,作為控制論和戰略的學者,在這兩個學科的基礎上,創造了戰略研究領域中最有影響力的功能模型之一--觀察(Observe)-調整(Orient)-決定(Decide)-行動(Act)(OODA)環。OODA環路是一個詳細描述 "贏與輸 "理論的模型,大致描述了一個人如何管理競爭環境和生存[21]。對于一個有效和可生存的C2,Boyd認為,一個系統必須能夠比敵人更快地適應其環境。調整(Orient)的步驟代表了在觀察、分析和心理模型的基礎上做出 "正確的決定",但如果雙方對手的其他條件相同,誰能更快地循環到每個步驟,誰就能獲勝[21]。因此,推動沖突的速度超過對手反應速度的C2系統,將造成'致命的不穩定',從而取得勝利[4]。正是從OODA循環理論的發展中,系統思維C2文獻繼續研究什么是一個卓越的C2系統;這是一個結合了系統思維方法和戰略研究的多學科領域[14],[19],[21]。文獻中有一個廣泛的共識,即戰爭的復雜性要求C2系統必須是動態的或敏捷的,允許人們既取得勝利又避免系統失敗[8],[10],[11],[9],[21],[4]。

然而,盡管OODA環路作為一種輸贏理論是合理的,但它并不是在C2系統中實施敏捷性的充分模型,因為它忽略了特定的功能,如 "指揮概念、規劃、放行準則或系統延遲",導致模型過度強調速度為目的[14],[9],[19]。為了將OODA環作為C2的一個更好的模型,Brehmer開發了動態OODA環(DOODA環)。Brehmer認為,需要具體的細節,如整個決策過程中的延遲,以使該模型在C2背景下具有足夠的描述性[14]。因此,在圖1中看到的DOODA循環允許指揮官和工作人員實際了解C2過程的每個功能。它通過明確每個C2功能,說明了為了提高敏捷性和決策性需要實現什么[14]。出于這個原因,DOODA循環模型將被用作本文后面的A3IC2功能模型的基礎。

從上面的討論中,有一個概念是明確的:C2及其性能的測量與系統運行的戰略背景是不可分割的。C2系統內的動態變化不是在真空中發生的;C2系統的最終結果是控制的影響,或在指揮軍事力量的超復雜環境中做出有效決定的能力,以便生存和獲勝。如果一個高度復雜、高效、響應迅速的人工智能C2系統無法追蹤作戰環境的復雜性、產生的影響以及它們在大戰略層面的后果,那么C2系統將無法在高強度戰爭的動蕩下生存。

圖1. 動態OODA環[14]

B. C2系統定義

在文獻中,對C2系統類型的描述是有問題的,導致與敏捷性、適應性、穩健性和復原力的定義有很大的重疊,這取決于情況或背景[11],[22],[8]。然而,有兩個廣泛的基本生存方法被描述,所有C2系統類型至少有一個方面是相同的:

1)保持形式的力量(在不改變的情況下,在波動中生存的能力)。

2)改變形式以保持力量(通過改變在波動中能生存的能力)。

這兩種生存方法都可以根據情況而有效;因此,一個有用的C2功能模型必須包括這兩種方法。C2文獻大致了解這一點,并試圖在功能模型中結合各種定義來調和兩種方法[11]。"敏捷C2"的概念將彈性和穩健性納入其定義中,背離了人們對敏捷性的通常理解,即僅僅意味著改變形式的 "迅速"。Alberts將敏捷C2定義為 "成功影響、應對或利用環境變化的能力"[8]。這一定義有實現這一目的所需的六個方面[8],[23]:響應性、靈活性、適應性、多變性/穩健性、創新性和復原力/彈性。

所有這些要素的融合有望最大限度地減少與不利影響相關的事件的概率,并最大限度地增加提供機會的事件的概率。如果事件真的發生,這些要素也會努力使成本最小化或收益最大化[8]。需要強調的是,單一目標的優化并不等同于敏捷性;相反,它反映了響應能力高于靈活性和彈性的不平衡。當一個系統的優化依賴于單一目標時,它不一定是高效的,即使這個單一目標是預先確定的不同目標的加權和。然而,我們承認,優化是一個數學概念,可以被調整以實現任何目標。如果目的是平衡響應性、速度、靈活性和彈性,多目標優化是優化理論的一個分支,可以用數學方法處理這個問題,同時優化相互沖突的目標。

敏捷C2的目標是將不利影響最小化,將機會最大化,這與Nassim Taleb的 "凸"系統的想法相似;對波動的有益響應,也就是所謂的抗脆弱性[12]。敏捷性和抗脆弱性有很多相似之處。敏捷性和抗脆弱性都有一個共同的風險觀,即既要減少黑天鵝事件(災難性的、低概率的事件)的負面影響,又要避免在組織內低估其可能性的自滿情緒[8],[12]。其他的相似之處還體現在所列舉的組織如果要成為一個抗脆弱組織應該避免的特性,比如限制使用單目標優化、專業化、預測、標準化和微觀管理[24],[12],[8]。

與敏捷C2一樣,抗脆弱組織關注的是將行動自由(靈活性)最大化的策略和結構。它不鼓勵優化、缺乏多樣性、不容忍風險,關鍵是不切實際的簡化現實模型[8], [24]。然而,抗脆弱性和敏捷C2之間的關鍵區別是 "為了學習和過度補償的目的,有目的地在系統中實施誘導性的小壓力 "或 "非單調性" [25],[26],[12]。這是抗脆弱系統和敏捷或彈性系統之間的關鍵變量。抗脆弱系統積極尋求在其自身系統內注入波動性,以暴露脆弱性。這兩個概念之間的差異是互補的,它將被論證,當兩者結合起來時,可以為人工智能C2系統產生一個強大的功能模型。

C. 抗脆弱性與C2

抗脆弱性是一種系統特性或特征,它不僅能使系統對突如其來的沖擊和壓力具有魯棒性和彈性,而且還能從這些壓力中學習,在下次遇到這些壓力時改進自己[12],[27]。抗脆弱性是脆弱性的反面,因為穩健性和彈性的定義都不'意味著從沖擊中獲得力量'[16],[12]。Taleb指出,抗脆弱性系統'有一種機制,它通過利用而不是遭受隨機事件、不可預測的沖擊、壓力和波動來不斷自我再生'[12]。由此可見,"如果沒有反饋和記憶的機制,抗脆弱性是不可能的"[27]。因此,為了使一個系統走向抗脆弱的系統動力學,它必須能夠從對其系統的沖擊中學習(反饋),并從這種記憶中改善其運作(定向)。必須強調的是,這種反饋可以是內部的,并且是自我產生的,使用內部設計的性能和效果的衡量標準,同時使用內部模擬的外部環境進行情景的角色扮演。作為一個概念,抗脆弱性有以下五個維度[12],[28],[25]:

  1. 從沖擊和傷害中學習的能力:系統有能力從它收到的反饋中儲存其記憶和經驗。

2)利用過度補償進行系統改進:一旦收到反饋,系統就會自我改進,涵蓋未來管理類似沖擊的要求。

  1. 冗余:由于過度補償沖擊的結果,系統將開發多層次的冗余機制。

4)凸性和選擇性("杠鈴戰略"):該系統將以一種使潛在收益最大化但使潛在損失最小化的方式構建自己。換句話說,該系統將是穩健的,但準備運用收益函數。

5)小規模的實驗:承擔風險,以便在犧牲小故障的情況下獲得顯著的性能收益。對系統誘導小的壓力源,以確保非單調性。

將敏捷系統與抗脆弱系統區分開來的三個特征是:注重過度補償,有目的的誘發系統壓力,以及來自波動的記憶/反饋。抗脆弱的系統會改進自己,不僅能夠補償未來類似的壓力,而且能夠補償比所經歷的更嚴酷的沖擊[12]。因此,波動性是非常可取的,因為它允許系統收集信息,并通過從盡可能廣泛的輸入中學習來保護自己的未來。這就產生了對系統進行過度補償適應所需的數據,以管理沖擊。事實上,一個抗脆弱的系統將有目的地嘗試 "風險管理的實驗",以創造過度補償所需的波動性。Taleb明確指出,這包括來自黑天鵝的風險;那些具有高度不可能性和極端影響的事件[25],[28],[8]。黑天鵝對于抗脆弱系統來說具有很高的價值,因為它可以獲得加強系統的稀有信息,只要它們最初是可以生存的[12],因此,復原力和穩健性很重要。抗脆弱系統的設計是為了盡可能地抵御作為本體論現實的混沌,在復雜環境中無法消除或預測[28],[12]。

Alberts[8]討論了敏捷性的概念模型,"環境空間"代表系統的性能水平,取決于各種外部和內部變化。從敏捷C2的角度來看,一個抗脆弱的系統會探索環境空間,以便從盡可能多的生成環境中了解盡可能多的 "可接受的性能區域"。波動性和反饋允許這種探索。有效地使用反饋/記憶,并通過波動性實驗,以便過度補償,從而使敏捷C2系統通過探索越來越多地了解其 "自我模型",通過更多的 "實體可以識別和成功應對的各種情況 "來提高其敏捷性[8] 。此外,該系統對環境、可預期沖擊的背景以及形成環境壓力源的環境約束有了更好的理解。經驗教訓可以采取幾種形式,如經過驗證的作業環境模型、代表環境的人工智能數學函數,以及其他人類/機器產生的數據存儲。這些信息將隨著每次沖擊產生的新信息而更新,使C2系統能夠隨著時間的推移而提高效力。

現在,我們應該清楚,抗脆弱系統并不排除敏捷性作為系統內的一個有利特征;抗脆弱是一個額外的特征--而不是一個替代品[12],[29]。在Taleb對抗脆弱的定義中,Taleb將敏捷性與脆弱性、復原力和抗脆弱從同一范圍中分割出來。為了使A3IC2結構清晰,我們將繼續這樣做。在圖2中看到的是敏捷性和抗脆弱性的覆蓋范圍。兩者的定義分為 "從波動中生存的系統 "和 "系統為生存而進行改進的能力"。這很好地概括了上述系統動力學文獻中的定義[26]。例如,如果沒有系統恢復或適應的能力,就不可能有彈性,也不可能在受到沖擊后恢復到正常水平的性能。不變性也是脆弱的,因為所有系統的功能都來自于無常性;沒有變化,系統最終會失敗[30]。敏捷性是抗脆弱性的助推器,因為對反饋的有效過度補償需要一個敏捷的組織;反之亦然,敏捷的C2需要過度補償來主動創新,并從操作環境的變化中建立復原力。

圖2. 敏捷和抗脆弱范圍[8],[12]。

與彈性和穩健的系統相比,敏捷性與抗脆弱性相結合的好處是對沖擊的響應要好得多[22]。Taleb指出,脆弱性在數學上被定義為 "對有害壓力的加速敏感性:這種反應被繪制成一條凹形曲線,在數學上最終導致隨機事件帶來的傷害多于收益"。一個脆弱的系統將在極端的波動下崩潰,因為它沒有否定凹形響應的屬性。由此可見,抗脆弱性的動力學產生了 "凸型響應,導致更多的利益而不是傷害"[12]。因此,一個有彈性或堅固的系統處于脆弱和抗脆弱之間的中間位置。一個穩健的或有彈性的系統既不會從波動中得到什么,也不會失去什么。抗脆弱性有一些元素,使它不僅能在沖擊后恢復正常功能,而且能從壓力源中學習,以便進行過度補償。因此,要獲得一個抗脆弱和敏捷的C2系統,需要具備表1中所列的以下要素。

從表一中可以看出,這種組合能夠發揮兩種方法的優勢。最下面的三行是抗脆弱性要素,前三行是敏捷C2要素,而中間一行是兩者的必需要素。尋求創新的解決方案以消除脆弱性和提高敏捷性是兩者都需要的過度補償。記憶/反饋、可選擇性和對創新能力的補充,是將敏捷C2與A3IC2分開的新元素。一個C2系統如何實際發展這些元素,需要人工智能、混沌工程和具體組織戰略的交集;這是下一節的主題。

表1. A3ic2系統的要素[8],[12],[26],[22] 。

III. 人工智能和抗脆弱的C2系統工程

在C2系統中實施抗脆弱性需要利用和積累有關系統性能的反饋;最容易實現的是將數據收集作為在系統中保留記憶和學習的永久方法。這允許創建抗脆弱的反饋回路,使其能夠使用過度補償[26],[22]。Jones [31] 將抗脆弱機器描述為一種能夠適應意外環境的機器,因為它的腳本隨著時間的推移在決策、采取行動和觀察結果的過程中變得更加復雜。這種機器必須從它的環境中學習,并適應那些 "在設計時沒有預想過的 "變化[31]。換句話說,要做到真正的抗脆弱,系統所面臨的情景必須是新的,但也要熟悉到可以從以前的經驗中概括或抽象出來,創造出新的知識。機器通過與環境或感知數據的互動,從其經驗中更新其內部狀態的這一過程被稱為 "機器學習"(ML),是人工智能的一個分支。因此,這項技術是在系統內實現抗脆弱動態的基礎[31]。

文獻中對人工智能的定義還沒有達成共識,但為了本文的目的,人工智能被定義為 "為計算機提供認知技能和能力的算法,用于感知和決策"[32]。建立人工智能系統的方法各不相同。傳統的方法是通過 "專家系統 "或 "手工制作的知識",即通過人工編碼并咨詢專家來創建算法[33],[34]。然而,由于模型是手工更新的,這些系統對于不斷變化的環境來說通常是非常脆弱的。ML提供了一種更新系統知識的替代方法,可以從系統直接接收的數據中獲得,也可以通過與環境的互動獲得。先進的ML模型,如深度學習,依賴于大型數據集和專門的算法來學習結構化(表格)和非結構化(圖片、文件)數據中的特定模式;允許創建一個系統的復雜數學表示/模型。這種模型可用于對新數據進行預測,或在以前未見過的情況下采取行動。由于從環境本身的觀察中收集到的數據集的多維模式,人工智能模型在面對復雜的環境時可以表現得更加準確[33]。人工智能有望減少人類決策的許多限制,如注意力集中、有限的記憶、回憶和信息處理[35]。

ML方法試圖在功能上接近空間內的高維拓撲結構[4]。數據源系統通過傳感器提供拓撲結構,而ML算法試圖通過訓練學習這個拓撲結構,然后驗證其性能(即準確性)。當一個新的數據點被提交給受過訓練的人工智能時,它就會被放在這個相同的配置空間中,根據算法形成的近似值,它將對新的數據點進行預測。作為一個例子,圖3是一個ML分類算法的低維結果。它有四個標簽,代表對敵人當前行為的預測,每個標簽都是由人工智能設計師根據以前對數據的理解而指定的。當收到一個新的數據點并在這個狀態空間內進行評估時,該數據點可能被分配到最接近的群組。如果與數據點的歐幾里得距離最接近紅色集群,那么人工智能就會輸出一個 "可能的攻擊 "作為預測,可能會有一個從與紅點的距離與其他集群的距離相比得出的可能性。

圖3. 高度簡化的狀態空間與由ML聚類算法形成的拓撲結構

因此,人工智能是敏捷C2系統的一個有利工具,從根本上可以還原為形成這些適應性的復雜數學函數來模擬一個動態和變化環境的效用。有人認為,這些模型將為大多數C2任務提供比人類更高的精確度,并且盡管超復雜,也能提供快速和值得信賴的自動化[5],[1],[2]。通過精確和適應性的數學函數來取代OODA環路中的每個階段,可以實現卓越的感知和學習,并延伸到快速和卓越的決策[3],[36],[4],[7],[6]。下面將討論這樣做所帶來的風險。

A.脆弱性風險

人工智能伴隨著新形式的風險,需要加以管理。對C2系統影響最大的現象是戰爭的爆發。如果錯過了常規國家間沖突的爆發(一個非常罕見的事件),可能會導致災難性的突然襲擊。事實上,對手將積極尋求一種策略,對C2系統產生盡可能大的沖擊[16]。在這種情況下產生的問題是,通過人工智能算法實現C2決策自動化的好處是否值得承擔災難性失敗的風險?如果準備在人工智能預測有99%的信心,而1%的機會可能導致不可逆轉的戰略后果的情況下,自動做出提供致命武力(或不提供)的決定,那么C2的性能是否得到全面改善?對于C2來說,戰略決策失誤的后果可能是如此的極端,以至于會導致其自身的毀滅,這就需要一個抗脆弱的戰略,作為對抗黑天鵝事件的必要條件。

99%置信度的人工智能預測之所以會導致失敗,是因為在面對動態復雜系統時,人工智能會受到所謂的 "柏拉圖式折疊 "的困擾。柏拉圖式折疊描述了這樣一種情況:復雜環境的模型 "拓撲結構 "或 "狀態空間 "由于 "為了隱藏復雜性 "而省略細節,本質上是錯誤的,或者說是脆弱的[12],[29],[34],[4]。當復雜性被不明智地隱藏時,人工智能所操作的抽象水平比它應該操作的適當抽象水平更簡單。其結果是人工智能狀態空間中沒有體現的突發現象,或者無法區分需要不同決策的不同環境。這些變量可能是隱藏的強化反饋回路,可能導致黑天鵝現象,往往會產生災難性的影響[12],[13],[22],[37],[4]。這給C2操作環境中的自動決策帶來了風險。更糟糕的是,即使人工智能模型正在從環境中學習,如果它不能 "跟上 "拓撲結構的變化,隨著時間的推移發展出更多的隱藏變量,它也會變得很脆弱[29],[38]。忽視或低估這種不確定性影響的模型,作為他們試圖模仿的復雜環境的本體事實,將產生越來越多的脆弱程度,與模型失敗的后果一致[12],[28],[4]。

快速更新一個模型,以防止與人工智能對 "開放 "和復雜系統的理解有關的 "漂移"。Florio[38]認為,通過定期的訓練更新和足夠的獨特數據進行訓練,一個非常復雜的模型/函數可以隨著時間的推移保持對非線性系統的接近。這種方法通常被稱為 "ML管道 "或ML開發過程[33],是一種循環技術,其中一個ML模型正在運行并預測環境,而另一個正在被訓練。環境的變化只會導致新的數據供算法自我更新,改善C2系統的模型庫,以便在其活動適應環境時加以利用。模型的更新和替換速度將對模型準確反映復雜環境的保真度產生相應的影響[38]。

然而,模型快速更新并不能解決決策型人工智能的柏拉圖式折疊問題。一個ML模型可以快速更新一個持續不準確的模型,并且完全沒有意識到數據的退化[4]。人工智能可以迅速形成一個C2系統,對它所訓練的事件具有優化和卓越的決策,其代價是對尚未發生或被系統感知的事件具有脆弱性[4]。然而,如上所述,C2系統認為其最優先的正是這些尚未發生的罕見事件。

人工智能支持的C2的系統故障點是,由于作戰環境的拓撲結構和表征拓撲結構之間的不匹配,人工智能模型做出的快速決定有助于控制的崩潰,導致無助或混亂[4],[16]。作為一個例子,Wallace[4]討論了最近股票市場的 "閃電崩盤"(黑天鵝),認為它類似于C2系統中脆弱的人工智能應該產生的結果。這些崩潰的發生是由于自動化交易算法過于迅速而無法進行人工干預,其根本原因非常復雜,至今仍不為人知。對于C2來說,相當于兩個具有高度自主的人工智能決策的對立軍隊,導致了高強度戰爭的閃電式崩潰;所有這些都來自于以毫秒為單位的穩定性喪失[4]。

B.C2SIM和AI

針對人工智能遺漏罕見與災難性事件的風險,提議的解決方案是通過使用合成(人工構建)數據。合成數據是唯一現實的方法,使ML算法能夠從C2系統高度關注的現象數據中進行訓練,例如C2系統被設計為有效決策的未來常規高強度戰爭[39],[7],[5]。未來的戰爭沒有數據,而過去的戰爭是否有用也是可以爭論的。合成數據的生成過程分為三類[40]。

1)人工開發,通過手工建立的數據集進行策劃。

2)自動調整真實輸入,產生類似的輸入,幫助算法學習更廣泛的規則。

3)通過建模和模擬(M&S)以及仿真自動進行。

使用哪種程序完全取決于人工智能的目的和它試圖進行預測的環境稀缺性。如果人工智能要取代指揮官的決策能力,那么極有可能需要將人工創建的來自情報的數據與戰場模擬模型相結合,來訓練一個人工智能系統。這種方法將C2SIM和人工智能等概念整合在一起,可能使用強化學習算法[5],[41]。

然而,這種方法仍然存在風險。創建一個高度詳細的操作環境模型不僅很難驗證,而且很可能產生欺騙性的結果,因為人工智能將缺乏在不確定性下做出有效決策所需的保真度[37],[5],[41]。

然而,這種方法仍然存在風險。創建一個高度詳細的作戰環境模型不僅很難驗證,而且很可能產生欺騙性的結果,因為人工智能將缺乏在不確定性下做出有效決策所需的保真度[37],[5],[41]。Davis[37]將此描述為 "場景空間 "的減少,意味著人工智能被訓練的選項或靈活性變得狹窄。一個在C2系統中為指揮官制定行動方案的人工智能系統,如果針對特定場景進行了優化,那么作為一個反應式系統,它在高度特定的場景空間中只會有可靠的表現。對模型內變量之間的因果關系或非因果關系的假設,將不可避免地導致脆弱性[37]。

另一方面,一個高度抽象的模型,為一個"戰略層面"的推薦系統而忽略了作戰環境的大部分細節,有其自身的問題。合成數據的使用將與創造它的軍事文化密不可分。對敵人以及他們將如何進行下一場戰爭的假設,將被固化在人工智能所訓練的數據中[4]。如果敵人決定 "改變游戲規則",在戰略層面采取人工智能從未接受過的不對稱行動,任何新的敵人戰略或戰術都不會在發生之初就被準確預測[41]。相反,它們會被預測為完全不同的東西。在戰略層面上,比如戰區,與預測敵人行為相關的變量會有很長的統計 "尾巴",而在人工智能模型中卻沒有體現[4]。這可能會產生嚴重的戰略后果,導致系統不適合戰爭的 "深度不確定性 "或波動性[37],[41]。Zhang[41]指出,將人工智能'用于涉及戰略決策的應用,比如那些模擬甚至沒有物理學作為依托的應用,現實世界和模擬之間的對應關系可能非常小,以至于經過訓練的算法實際上是無用的'。由此可見,人工智能要想保持有用,就必須從對應于C2函數的數據中進行訓練,而C2函數是充分人為復雜的,而不是天生自然復雜的。顯然,為了使人工智能的使用不成為脆弱的風險,需要在對人工智能的信任、預測失敗的風險以及特定人工智能給C2功能帶來的響應能力的好處之間取得平衡。

圖4. 人工智能集成和增長的限制

與人工智能支持的C2系統相關的脆弱性風險,反映了上文圖4中顯示的增長限制的原型。決策性能通過復雜功能的自動化得到改善,從而提高了C2的響應能力。然而,人工智能整合到更復雜的功能(如決策),導致更多的風險被轉移到人工智能模型的準確性和與操作環境相比的差異。這可能會導致低概率但高后果的災難性事件的預測失敗。人工智能取代的需求和判斷來理解復雜環境的功能越多,系統就會變得越脆弱。黑天鵝事件在數學上是不可預測的,對系統也是有影響的。因此,C2系統暴露在重大沖擊下的風險越大,它就越有可能最終遭受災難性的失敗[12],[13],[42],[22]。

IV. 從AI的脆弱性到抗脆弱性

將人工智能整合到敏捷C2系統而不增加脆弱性的方法將需要仔細考慮上文表一中討論的抗脆弱性要素。具體來說,C2系統將需要確保對來自作戰環境的沖擊作出凸形響應。這可以通過兩種方法實現:

1)將人工智能的功能分配到C2系統中,使災難性故障的風險最小化,但使系統的收益最大化。

2)使用實驗來發現系統的脆弱性,產生創新和混沌;這使得過度補償和人工智能模型的不一致。

A. 功能分配

一個AI使能系統需要在其作為敏捷性工具與其存在的脆弱性風險(如果AI不能在復雜環境的極端波動下執行)之間取得平衡。人工智能并不適合所有的決策任務[43],[32],[36]。一個抗脆弱系統將需要特定的邊界,將在戰略/作戰層面上將具有黑天鵝高風險的C2決策功能與其他可以自動化的低風險復雜C2功能分開。明確說明人工智能在C2系統中負責哪些任務,對于避免脆弱性和整體上有利于系統至關重要。

由于C2系統是社會技術性的,那些為C2功能分配使用人工智能的人需要確保對人的替換不會對系統的性能產生風險。Abbass[32],討論了在這樣的系統中分配人工智能的幾種方法。一種 "靜態分配",即在C2系統中賦予人工智能的功能并不改變,可能不適合動態環境。具體的C2功能的需求將根據情況發生變化,特別是考慮到戰爭中對響應能力的需求,這可能需要快速變換功能分配[36]。例如,針對來襲的大規模超音速導彈防御場景將更傾向于速度而不是戰略環境。在這種情況下,什么都不做的后果是如此之大,以至于錯誤的風險可能值得AI完全控制。另一方面,批準超音速攻擊的決定將需要比速度更多的決策背景。因此,一種適應性的方法,或自動分配邏輯(AAL)是必要的[32]。

在戰略決策層面,關鍵事件邏輯最適合于評估脆弱性與自動化的好處。根據對響應能力的需求重要性,以及失敗的后果有多高或多低,C2功能將需要有人類或AI控制的適應性邏輯。圖5展示了一個與C2任務大類相關的潛在后果的例子,從感知到戰區級決策。

圖5. AI使能C2的脆弱性范圍

對于專注于感知型人工智能的系統來說,風險較低,因為來自人類決策者的數據適用于額外的背景[36]。感知型人工智能很可能需要多個專門的算法模塊來解析特定類別的數據,如視頻資料、圖片、文件和其他[33]。因此,這也是一個魯棒的算法系統,如果其中一個算法模塊不能感知關鍵信息,那么這個算法系統其他算法模塊也能捕捉到此信息。當然,風險仍然存在,這將需要通過理解決策中的 "風險轉移 "已經傳遞給人工智能系統的輸入和感知能力來進行評估[32]。

然而,如上所述,人工智能決策與戰爭期間高失敗風險相關聯。失敗的影響將取決于人工智能是支持戰術層面、戰役層面還是戰略層面;與戰略層面的單一失敗相比,戰術層面的單一失敗后果較小;不過,人們必須考慮到從戰術層面到戰略層面可能產生連帶效應。對于抗脆弱系統,Taleb[12]指出,人們應該避免依賴具有高度后果性輸出的系統,因為許多較小的、后果性較小的系統是不太脆弱的。當然,即使戰略層面的人工智能決策者的風險是通過人在環結構來管理的,由于建議依靠人工智能感知器,以及預測對人類決策者的額外影響,風險仍然存在。例如,如果C2系統使用受信任的非人類智能合作者(NIC)來推薦戰略層面的決策,可能會導致軍事指揮官在獲得99%的人工智能預測的情況下增加風險。這是因為NIC會表現得像一個預測者,有證據表明,這可能會增加決策者的風險承擔[12],[44],[45],[16]。

一旦確定了失敗的后果,就需要為每個場景分配適應性人工智能。這是一個 "指揮概念 "的C2功能;在為特定場景分配適應性人工智能功能時,需要考慮指揮官的意圖和國家的戰略目標。這些場景可以通過傳統的兵棋推演方法進行開發和測試,但也可以從創新和混沌生成的抗脆弱性過程中產生。適應性人工智能將需要持續測試脆弱性,以防止凹形響應;這是下一節的主題。

B. 創新和混沌的產生

為了將人工智能作為一種敏捷和抗脆弱的工具,反饋/記憶、小規模實驗和過度補償等元素需要在一個人工智能支持的C2系統結構中結合起來。這可以通過有目的地在系統中注入波動性來實現,并延伸到支持特定C2流程的人工智能功能。通過使用波動性,人工智能系統將發展出一個更廣泛/抽象的決策空間,增加其對更多種類沖擊的通用性。

對于合成數據的生成,可以將一致程度的波動和混沌應用于人工智能所訓練的數據。例如,可以在人工智能系統上測試極端情況,而不僅僅是預期的極端情況。C2組織內的 "混沌小組 "可以嘗試使用極端或極不可能的情況,來暴露人工智能模型的預測失敗。通過暴露失敗,人工智能開發團隊可以確定失敗發生的原因,探索人工智能采取什么行動會更好,然后嘗試重新訓練模型以增加其變異性,以處理未來類似的極端情況。因此,這個過程通過與外界復雜環境相比對自身的理解,加強了系統的能力[12]。這有可能也是由人工智能場景生成器實現的,主要目的是對開發導致人工智能C2系統失敗的場景進行獎勵。無論具體的方法是什么,目的是讓系統的壓力和失敗允許C2系統內的創新能力和發現發生,從而導致過度補償。

這些沖擊不僅僅是對人工智能本身的要求,也是對C2系統整體的要求。應該尋求一種分層的方法,作為一種穩健性的形式[12]。這樣做的一種方法可以在計算紅隊和混沌工程實踐中找到。計算紅隊[46]提供了人工智能所需的計算構件,以設計壓力源來挑戰自己和它所處的環境,并發展新的模型和戰術。類似地,混沌工程通過對計算機網絡或系統中的特定元素注入壓力或故意失敗的實驗來防止組織內部的脆弱性[30]。混沌工程的目的是確保C2 IT系統的所有功能的 "可用性",盡管環境中存在波動。對抗脆弱C2的用處是顯而易見的,因為其混沌工程實驗允許產生作戰環境效應,如網絡攻擊,作為極端波動的輸入。C2信息技術和通信網絡被視為一個單一的復雜系統,通過觀察其在真實世界的輸入或誘發故障后的行為,可以更好地理解它[30]。

將混沌工程、計算紅隊和人工智能結合起來,可以實現復雜的故障狀態生成,以實現抗脆弱性,但C2系統要有能力從自我造成的壓力中學習,以實現過度補償,需要組織文化上的巨大變化。在圖6中看到的是A3IC2系統的系統。在C2組織內建立這樣一個系統,需要改變組織的心智模式、組織規劃、C2結構,以及改變對人類操作人員的培訓方式,以支持抗脆弱的C2系統。A3IC2應該只關注C2操作的系統;作為一個抗脆弱系統成功進行C2的過程。對于一個C2組織來說,作為一個社會技術系統,它需要采取一種整體的方法,結構、系統、流程和文化都具有抗脆弱的特性,以便在壓力和沖擊下生存[25]。

圖6. 抗脆弱C2作為一個體系系統

V. 敏捷抗脆弱的指揮和控制(A3IC2)

通過將抗脆弱性概念與Boyd、Brehmer和Alberts[14]、[21]、[8]開發的功能C2模型相結合,可以開發出一個通過抗脆弱性動態提高C2系統有效性的新框架。這在下面的圖7中可以看到,說明了圖1中傳統C2運行周期與A3IC2結構之間的區別。

圖7描述了由Brehmer創建的相同的DOODA環路,并增加了對所實施的模型的積累的反饋。模型的建立作為系統的方法,在操作過程中從與復雜環境的互動中學習。從所做的決定、計劃、感覺活動和軍事行動的結果中得到的反饋的綜合,都為AI模型/功能提供了背景。開發的模型取決于具體的C2系統。對于一個空中機動/后勤C2單位來說,模型將反映諸如優先權、飛機選擇、選擇的路線和貨物驗證細節等決定。對于一個人工智能C2推薦系統的COA開發,反饋將代表變量,如敵人的位置,藍色的位置,單位的數量,以及許多其他。這些模型是在日常行動中通過與C2決策支持系統的互動和/或通過C2SIM建立的。

圖7. 抗脆弱的動態OODA循環

如上所述,"混沌生成 "功能是迫使系統從反饋中學到的東西進行過度補償的方法。它同時適用于社會技術系統中的人和機器。混沌生成是C2 "紅隊",它有目的地給系統施加壓力,以加強決策周期,提高敏捷性,減少脆弱性。對于人工智能支持的C2系統,混沌生成器包括基于先前經驗的合成數據生成過程,但對其進行修改以加強系統。因此,人工智能將在具有超出先前經驗的更多極端變量的任務中得到訓練和改進;導致過度補償。這些模型在性質上可能是極端的,并應盡可能多地覆蓋可能性空間。如果環境發生重大變化,或出現黑天鵝,可能性空間只會增加,允許系統改進并產生進一步的模型。C2系統的波動性越大,產生的模型就越多,以進行補償。

以前的討論假定,模型和數據需要提前建立,并預期未來結果。最近的趨勢是引入了形成、重新塑造和校準的模型。影子機器的概念[46]有一個專門的控制邏輯,隨著背景的展開學習模型。然而,這些概念假設來自實際環境的實時數據輸入,以持續測量偏差并進行相應的調整。這種方法仍然存在挑戰。關于自我的數據可能比關于敵人的數據多出幾個數量級。這種可供人工智能即時學習模型的數據不平衡,在人工智能界有其自身的挑戰。

VI. 結論

將人工智能整合到C2中,只有通過對其效果的整體理解來實施,才能提高系統的性能。如果一個由人工智能支持的C2功能有可能導致它所保衛的國家戰略目標無法實現,那么就需要認真考慮該人工智能的功效問題。當C2功能被分配給人工智能以避免脆弱性時,那么反饋和過度補償的使用有可能促進對系統波動的凸形響應。使用有目的的混沌生成將有助于C2系統能夠了解其自身的弱點,以便改進。使用A3IC2作為人工智能支持的C2戰略,可以確保人工智能仍然是建立一個抗脆弱系統的工具。最大限度地減少災難性失敗的可能性,同時最大限度地利用系統的好處,這將有助于在極端動蕩的戰爭中生存和制勝。

雖然本文的重點是人工智能所面臨的風險,但當新形勢展開時,人類指揮官仍將面臨類似的問題,特別是當軍事歷史的教訓可能阻礙他們對這些新形勢的思考能力時。如果敵人依靠人工智能產生接近光速的效果,未來的沖突場景將更具挑戰性。這就需要人類-人工智能的人機協作,利用各自的優勢,過度補償各自的弱點,以相關的速度產生效果。

付費5元查看完整內容

執行摘要

這項工作是在任務9 "關于指揮和控制系統的信息融合、數據分析和決策支持的人為因素問題 "下,由Calian和C3人為因素咨詢公司為加拿大國防研究和發展部(DRDC)進行的,作為更大的人機交互(HAI)任務授權合同(TAC;合同號W/001/TOR)的一部分。HAI TAC的目標是設計、開發、實施和評估人機協作(HAT)概念、方法和技術,以改善加拿大武裝部隊的整體人機系統性能。北美航空航天防御司令部(NORAD)是美國和加拿大的聯合軍事組織,一直在為北美大陸提供航空航天預警、空中主權和保護。自1957年以來,它一直在為整個北美大陸提供航空航天警報、空中主權和保護。現在已經超過60年了,面對新出現的威脅,北美防空司令部及其相關的機場、雷達站和衛星網絡需要進行一次大修。例如,美國和加拿大的對手專門開發了朝鮮彈道導彈、快速發展的巡航導彈技術和高超音速滑翔飛行器,以繞過NORAD主要是冷戰時期的防御系統。

北美防空司令部未來的現代化努力已經確定了 "探路者計劃",以建立國土防御數據生態系統(HDE)的原型,通過更多地采用自動化、人工智能(Al)和機器學習(ML)技術,提高防御決策的及時性。DRDC是對這一努力做出貢獻的關鍵參與者。如何融合信息,如何通過交互式界面向操作人員展示和解釋人工智能和ML模型所提供的決策,是探路者的關鍵人因(HF)問題。為了確保改進決策,減少操作人員的認知負荷,增加自動化的采用,需要使用HF原則、措施、方法和/或最佳實踐來設計和評估開拓者的技術。

這項工作的目的是審查現有的文獻和資源,并與DRDC中小型企業就指揮和控制(C2)系統的信息融合、數據分析和決策支持方面的高頻問題進行訪談,為NORAD提供初步的高頻建議,并確定可以探索的研究差距,以幫助改善開拓者的整體系統性能和未來行動的有效性。為此,我們對文獻進行了回顧,并與DRDC主題專家(SMEs)進行了訪談,以更好地了解從高頻角度設計、開發和評估信息融合、數據分析和決策支持系統的復雜性、挑戰和最佳實踐。文獻回顧和中小企業訪談集中在以下領域。

1.交互和界面設計。回顧C2系統的信息融合(即原則、措施、方法)的交互和界面設計的最新進展。系統和基于Al和ML的決策支持系統的交互和界面設計的最新進展,特別關注于可解釋的Al決策的設計。

2.人為因素的挑戰。確定信息融合和基于Al/ML的決策支持系統的以人為本的關鍵分析和設計挑戰,這些系統可用于航空航天防御任務的C2系統。

3.培訓系統。回顧在C2系統的信息融合和Al/ML決策輔助的背景下,針對操作者-自主性/操作者-操作者互動的培訓系統(如智能輔導系統)設計的最新進展。

總之,文獻審查包括HF、人機交互和Al領域的總共189篇文章。在這些文章中,134篇文章的子集在本報告的第3節中報告。此外,項目組還采訪了四個DRDC中小企業。

本報告還概述了由多倫多DRDC開發的高頻分析和設計框架--以交互為中心的設計(ICD),該框架已成功應用于智能自適應系統(IASs)的設計。兩個DRDC項目被確定為相關的案例研究,以展示如何將ICD框架應用于支持NORAD的開拓者計劃。具體而言。

1.創新戰斗管理決策支持技術演示項目(INCOMMANDS TDP)由DRDC Valcartier在2006年至2009年期間實施,旨在為加拿大皇家海軍哈利法克斯級護衛艦的指揮團隊開發和演示先進的指揮決策支持能力(CDSC)原型,以提高威脅評估(TE)和戰斗力管理(CPM)的整體決策效率。

2.多倫多DRDC在2014年至2019年期間開發了武器交戰的權威路徑(APWE)決策支持工具,以協助加拿大皇家空軍無人機系統機組人員在使用致命武器攻擊目標時遵循正確的交戰規則和武裝沖突法。

這兩個用例都與開拓者計劃的目標一致,即利用Al/ML技術將人類的參與從處理 "大數據 "轉移到關注高階決策過程。這樣一來,操作人員可以在比對手更清晰的數據基礎上做出更快、更好的決定,從而實現 "決策優勢"。

未來的研究可能會試圖確定INCOMMANDS CDSC和APWE與開拓者計劃的相關性。此外,作為ICD的延伸,人類-自主性信任的意圖、可測量性、可預測性、敏捷性、溝通、透明度和安全性(IMPACTS)模型可用于指導開拓者計劃中IAS設計概念的發展,以幫助運營商和半自主的TE和CPM系統之間建立有效的伙伴關系,實現共同目標。

總之,從文獻綜述和與多倫多DRDC和瓦爾卡蒂爾的中小企業的訪談中收集到的信息,以及本報告中的報告,提供了豐富的信息,DRDC可以在此基礎上為開拓者計劃做出重大貢獻;特別是通過利用他們現有的HAT工作,以及高頻分析和設計框架,如感知控制理論、以交互為中心的設計方法來設計IAS以及HAT信任的IMPACTS模型。

付費5元查看完整內容

摘要

如今,隨著技術飛速發展和威脅環境變得更加復雜,在信息爆炸的局面下,作戰人員面臨著具有挑戰性的決策空間。人工智能(AI)和機器學習(ML)可以減輕作戰人員負荷。人工智能系統具有深遠的好處——提高態勢感知能力,檢測威脅,理解對手的能力和意圖;確定和評估可能的戰術行動方針;并提供方法來預測行動決策的結果和影響。人工智能系統是理解和解決高度復雜的戰術情況的關鍵。

人工智能系統為作戰人員提供了優勢,但前提是這些系統被正確設計和實施,并且以減輕作戰人員的認知負荷的方式。為國防應用實施人工智能系統帶來了獨特的挑戰。本文確定了四個獨特的挑戰,并描述了它們如何影響戰術作戰人員、工程設計界和國防。本文通過國防采辦和系統工程計劃,為解決這些獨特的挑戰提供了解決方案。

作者簡介:

Bonnie Johnson——在海軍工程研發方面擁有超過 25 年的領導和系統工程經驗。她曾是 SAIC 和諾斯羅普·格魯曼公司的高級系統工程師,研究用于海戰系統和導彈防御能力的自動決策輔助。她于 2011 年加入美國海軍研究生院 (NPS) 系統工程系。她擁有 NPS 系統工程博士學位、約翰霍普金斯大學系統工程碩士學位和弗吉尼亞理工大學物理學學士學位。

引言

人工智能是一個包含許多不同方法的領域,其目標是創造具有智能的機器(Mitchell,2019)。圖 1 顯示了一個簡單的維恩圖,其中機器學習 (ML) 作為 AI 的子集,而 AI 作為更廣泛的自動化類別的子集。自動化系統以最少的人工輸入運行,并且經常根據命令和規則執行重復性任務。人工智能系統執行模仿人類智能的功能。他們將從過去的經驗中學到的知識與收到的新信息結合起來,以做出決策并得出結論。

圖 1. 自動化、人工智能和機器學習的維恩圖

如圖 2 所示,有兩種主要類型的 AI 系統。第一種類型是明確編程的,也稱為手工知識系統。 Allen (2020) 將手工知識系統描述為“使用傳統的、基于規則的軟件,將人類專家的主題知識編碼為一長串編程的‘如果給定 x 輸入,則提供 y 輸出’規則的人工智能”(第3頁)。這些系統使用傳統的或普通的編程語言。第二種類型是從大量數據集訓練而來的機器學習系統。 ML 系統從訓練過的數據集中“學習”,然后在操作上使用“訓練過的”系統在給定新的操作數據的情況下產生預測結果。

圖 2. 兩種類型的人工智能:顯式編程和學習系統

自動化、人工智能和機器學習系統,包括手工知識系統和學習系統,為美國國防部 (DoD) 提供了巨大的潛力,在大多數任務領域具有多種應用。這些智能系統可以擴展國防部理解復雜和不確定情況、制定和權衡選項、預測行動成功和評估后果的能力。它們提供了在戰略、規劃和戰術領域支持國防部的潛力。人工智能系統可以減輕作戰人員的負擔,但前提是這些系統的設計和實施正確,并且以減輕作戰人員認知負擔的方式。這為國防應用實施人工智能系統提出了獨特的挑戰。本文確定了四個獨特的挑戰,并描述了它們如何影響戰術作戰人員、工程設計界和國防。

第一個為國防應用實施人工智能系統的獨特挑戰是戰術戰爭呈現高度復雜的情況。戰術復雜性可能涉及信息超載、需要處理的多個并發任務、具有可怕后果的時間關鍵決策、態勢感知的未知/不準確/不完整,以及因各種分布式戰爭能力所需的互操作性而產生的工程挑戰。將人工智能系統添加到這個已經很復雜的環境中是一項必要但極具挑戰性的工作。

第二個獨特的挑戰是人工智能系統需要大量數據來訓練。所開發的人工智能系統的質量很大程度上取決于訓練數據集的質量和數量。軍事領域的數據尤其難以獲得。軍事數據可能涉及分類問題、網絡漏洞、數據驗證挑戰,并且根據艦隊演習和兵棋推演的需要,收集起來可能非常昂貴且耗時。

第三個獨特的挑戰是人工智能系統為系統工程提出了一個新的前沿。在傳統系統中,行為是固定的,因此是可預測的:給定輸入和條件,系統將產生可預測的輸出。一些人工智能解決方案可能涉及本身就很復雜的系統——適應和學習——因此會產生無法預料的輸出和行為。事實上,一些人工智能系統的目的就是為了做到這一點——與人類決策者合作,承擔一些認知負荷并產生智能建議。需要系統工程方法來設計智能系統,并確保它們對人類操作員來說是可解釋的、可信賴的和安全的。

第四個獨特的挑戰是,對于國防應用,總是需要考慮潛在的對手。在人工智能系統方面,采購界必須注意同行競爭對手國家,他們在人工智能進步方面取得了自己的進步。美國國防系統也必須在這場人工智能競賽中取得進步。網絡攻擊在防御系統中總是有可能發生的。隨著防御能力增加對自動化和人工智能系統的依賴,這可能會造成更多的網絡漏洞。最后,技術正在迅速發展,對抗性威脅空間正在發生變化。國防采購和系統工程界必須確保人工智能系統不斷發展和適應,以應對威脅環境的變化,并以可信賴和安全的方式做到這一點。

挑戰一:復雜的決策空間

第一個獨特的挑戰是許多防御領域呈現出復雜的決策空間。因此,設計和實施適當的人工智能系統來解決這種復雜性將是極具挑戰性的。圖 3 突出顯示了導致戰術領域決策復雜性的許多因素。例如,海軍打擊部隊的行動可以迅速從和平狀態轉變為一種巨大的危險——需要對威脅保持警惕并采取適當的反應行動——所有這些都在高度壓縮的決策時間線上。戰術威脅可能來自水下、水面、空中、陸地、太空,甚至是虛擬的,因此需要處理多個時間緊迫的任務。在船舶、潛艇、飛機、陸地和太空中擁有海軍和國防資產;戰術決策空間必須解決這些分散和多樣化資源的最佳協作使用問題。制定有效的戰術行動方案也必須發生在高度動態的作戰環境中,只有部分和不確定的態勢知識。決策空間還必須考慮指揮權、交戰規則和戰術條令施加的限制。人類作為戰術決策者的角色增加了決策空間的復雜性——面臨信息過載、操作員錯誤、人工智能信任以及人工智能模糊性和可解釋性問題等挑戰。最后,戰術決策及其可能后果的風險可能非常高。

圖 3. 導致戰術決策空間復雜性的因素

解決高度復雜的決策空間是美國國防部面臨的挑戰。人工智能提供了解決這種復雜性的潛在解決方案——通過處理大量數據、處理不確定性、理解復雜情況、開發和評估決策替代方案以及了解風險水平和決策后果。人工智能解決方案可以應用于國防部的戰略、規劃和戰術層面。海軍研究生院 (NPS) 開發了一種工程框架和理論,用于解決高度復雜的問題空間,這些問題空間需要使用智能和分布式 AI 系統來獲得態勢感知并做出適應動態情況的協作行動決策(Johnson, 2019)。模擬了一個復雜的戰術場景,以演示使用 AI 來驗證該方法(Johnson,2020a)。 NPS 已經開發了一種預測分析能力的概念設計,該設計將被實施為一個自動化的實時戰爭游戲系統,該系統探索不同的可能戰術行動方案及其預測效果和紅軍反應(Johnson,2020b)。 NPS 研究已經確定了在戰術行動中描述復雜性水平的必要性,并實施自適應人機協作安排以做出戰術決策,其中自動化水平根據情境復雜性水平進行調整。正在進行的 NPS 研究正在研究這些概念工程方法在各種防御用例應用中的應用,包括防空和導彈防御、超視距打擊、船舶自衛、無人機操作和激光武器系統。

復雜的決策空間為 AI 系統嘗試和解決創造了具有挑戰性的問題。表 1 根據決策空間的復雜性比較了不同的 AI 應用領域。該表包含 10 個表征決策空間復雜性的因素:認知不確定性(對情境知識的不確定性數量)、情境動態、決策時間線(做出決策的時間量)、決策的復雜性決策過程中的人機交互、資源復雜性(數量、類型、它們之間的距離以及它們的動態程度)、是否涉及多個任務、對手(競爭對手、黑客或打算摧毀的徹底敵人)的存在,允許誤差的幅度(多少決策錯誤是可以接受的),以及決策后果的嚴重性。

表 1. 不同 AI 應用的決策復雜度比較

人工智能應用程序涉及的決策空間用于廣告(根據特定用戶的購買習慣或互聯網搜索確定將哪些廣告流式傳輸)、貸款批準(根據貸款金額和信用評分確定貸款資格)和醫療(根據診斷確定關于患者癥狀)相對簡單。存在大量訓練數據,決策過程中的計算和人為交互簡單,情況相對穩定。不良廣告的后果是微乎其微的。可以審計不良貸款批準決定。糟糕的醫學診斷可能會產生更嚴重的后果,但通常有足夠的時間在治療前尋求更多的評估和意見。為自動駕駛汽車確定最佳運輸路線和工程 AI 系統是更復雜的工作。這些應用程序是動態變化的,需要更短的時間來做出決策。運輸路線在可能路線的數量上會很復雜——這可能會導致許多可能的選擇。但是,存在運輸錯誤的空間,并且后果通常不會太嚴重。對于自動駕駛汽車來說,決策錯誤的余地非常小。此應用程序中的錯誤決定可能導致嚴重事故。

然而,軍事戰術領域在決策空間的所有領域都呈現出極端的復雜性:不確定性和有限的知識/意識、高度動態的情況、非常有限的時間線、復雜的人機交互、大量和類型的資源、多個任務、昂貴和困難- 獲取訓練數據集、極小的允許誤差范圍以及行動(或不行動)的生死攸關的后果。

挑戰二: 數據很難獲取

第二個獨特的挑戰是 AI/ML 系統需要大量相關且高質量的數據用于訓練和開發,而這些數據在軍事領域可能很難獲得。明確編程的手工知識系統在開發過程中需要數據進行評估和驗證。 ML 系統在開發過程中對數據的依賴性更大。如圖 4 所示,ML 系統從代表操作條件和事件的數據集中“學習”。 ML系統學習的過程也稱為被訓練,開發階段使用的數據稱為訓練數據集。有幾種類型的 ML 學習或訓練——它們是有監督的、無監督的和強化的。所有三種類型的 ML 學習都需要訓練數據集。 ML 系統在部署后或運營階段繼續需要數據。圖 4 顯示,在運營期間,ML 系統或“模型”接收運營實時數據,并通過使用其“訓練過的”算法處理運營數據來確定預測或決策結果。因此,在整個系統工程和采集生命周期中,ML 系統與數據密切相關。 ML 系統從訓練數據集的學習過程中“出現”。機器學習系統是數據質量、充分性和代表性的產物。他們完全依賴于他們的訓練數據集。

圖 4. 開發和實施機器學習系統

隨著許多領域(戰爭、供應鏈、安全、物流等)的更多 AI 開發人員正在了解 AI 解決方案的潛在優勢并開始著手 AI 系統開發,DoD 開始認識到對這些數據集的需求。在某些情況下,數據存在并準備好支持 AI 系統開發。在其他情況下,數據存在但不保存和存儲。最后,在其他情況下,數據不存在,需要模擬或在艦隊演習或戰爭游戲中收集。圖 5 說明了收集、獲取和在某些情況下開發用于開發和訓練 AI 和 ML 系統的數據時需要考慮的過程。

圖 5. 人工智能和機器學習系統訓練數據集的開發

軍事領域對開發訓練數據集提出了一些獨特的挑戰——數據可能被分類,數據可能存在網絡漏洞(它可能被攻擊并被對手故意破壞),如果數據不存在,它可能需要從軍事/艦隊演習或兵棋推演中獲得。數據驗證也是一項具有挑戰性的工作。

NPS 正在為海軍的數據管理系統執行需求分析和概念設計,該系統將收集數據并向海軍內部許多正在開發 AI/ML 系統的不同組織提供數據(French 等人,2021 年)。圖 6 是海軍中央人工智能庫 (CAIL) 的上下文圖,它被設想為一個數據管理系統和流程,用于識別數據集并提供索引、驗證、審計和對 AI 可以使用的數據的安全訪問。從事海軍應用的機器學習開發人員。 CAIL 將不是一個數據存儲庫或數據庫,而是一個中央組織,使 AI/ML 開發人員能夠訪問經過驗證和保護的海軍數據——以幫助識別數據集的存在,啟用授權訪問,并幫助支持開發人員所需的數據尚不存在,需要獲得——可能通過艦隊演習或兵棋推演。

圖 6. 概念性中央人工智能庫

挑戰三:人工智能為系統工程開辟了新領域

第三個獨特的挑戰是開發人工智能系統為系統工程提出了一個新的前沿。系統工程方法已被開發用于設計可能非常復雜但也具有確定性的傳統系統(Calvano & John,2004)。傳統系統具有可預測的行為:對于給定的輸入和條件,它們將產生可預測的輸出。圖 7 說明了對傳統 SE 方法(如 SE Vee 過程)進行更改的必要性,以便設計復雜且不確定的 AI 系統。特別是,需要新的方法來定義隨時間適應的學習系統的要求,并且系統驗證過程可能需要在操作過程中不斷發展和繼續,以確保安全和期望的行為。對于具有高風險后果的軍事系統,幾乎沒有出錯的余地,因此需要實施一個可以確保 AI 系統安全和預期操作的系統工程流程。

圖7. 人工智能:系統工程的新前沿

國際系統工程師理事會 (INCOSE) 最近的一項倡議已經開始探索需要對系統工程方法進行哪些改變才能有效地開發人工智能系統。圖 8 是作為該計劃的一部分創建的,旨在強調在 SE 過程中需要考慮的 AI 系統的五個方面。除了不確定性和不斷發展的行為之外,人工智能系統可能會出現新類型的故障模式,這些故障模式可能會突然發生,并且可能難以辨別其根本原因。穩健的設計——或確保人工智能系統能夠處理和適應未來的場景——是另一個系統工程設計考慮因素。最后,對于涉及更多人機交互的 AI 系統,必須特別注意設計系統,使其值得信賴、可解釋并最終對人類決策者有用。

圖 8. 人工智能系統工程中的挑戰

NPS 正在研究可以支持復雜、自適應和智能 AI 系統的設計和開發的系統工程方法。已經開發了一個系統工程框架和方法來設計系統解決方案的復雜自適應系統(Johnson,2019)。該方法支持系統系統的開發,通過使用人工智能,可以協作以產生所需的緊急行為。當前的一個研究項目正在研究可以在設計過程中設計到 AI 系統中的安全措施,以確保操作期間的安全(Cruz 等人,2021 年)。 NPS 正在研究一種稱為元認知的設計解決方案,作為 AI 系統識別內部錯誤的一種方法(Johnson,2021 年)。當前的另一個 NPS 論文項目正在研究如何將“信任”設計到 AI 系統中,以確保有效的人機協作安排(Hui,2021)。幾個 NPS 項目研究使用稱為協同設計的 SE 設計方法,來確定人類操作員與 AI 系統之間的相互依賴關系(Blickley 等人,2021;Sanchez,2021)。

挑戰四: 敵手

第四個獨特的挑戰是對手在防御應用中的存在和作用。國防部必須與對手競爭以提升人工智能能力,人工智能系統必須免受網絡攻擊,人工智能系統必須適應不斷變化的威脅環境演變。圖 9 突出顯示了對手的存在給國防部正在開發的 AI 系統帶來的一系列獨特挑戰。

圖9. 敵手的挑戰

競爭對手國家之間開發人工智能能力的競賽最終是為了進入對手的決策周期,以比對手更快的速度做出決定和采取行動(Rosenberg,2010 年)。人工智能系統提供了提高決策質量和速度的潛力,因此對于獲得決策優勢至關重要。隨著國防部探索人工智能解決方案,同行競爭對手國家也在做同樣的事情。最終,實現將 AI 用于 DoD 的目標不僅僅取決于 AI 研究。它需要適當的數據收集和管理、有效的系統工程和采集方法,以及仔細考慮人類與人工智能系統的交互。國防部必須確保它能夠應對實施人工智能系統所涉及的所有挑戰,才能贏得比賽。NPS 研究計劃正在研究如何應用 AI 和博弈論來進入對手的戰術決策周期(Johnson,2020b)。該項目正在開發一個概念,用于創建戰術態勢模型、對手的位置和能力,以及預測對手對形勢的了解。然后,概念系統將進行實時“兵棋推演”,根據預測的對抗反應和二階和三階效應分析戰術決策選項。這是一個研究未來戰術戰爭可能是什么樣子的一個例子,它為藍軍和紅軍提供了增強的知識和決策輔助。為 AI 競賽準備國防部的其他 NPS 舉措包括研究新的 SE 方法和獲取實踐以開發 AI 能力、研究海軍和國防部的數據管理需求(French 等人,2021 年)以及研究 AI 系統安全風險開發確保安全 AI 能力的工程實踐(Cruz 等人,2021 年;Johnson,2021 年)。

賽博戰是國防部必須成功參與的另一場競賽,以保持領先于黑客攻擊的持續攻擊。隨著國防部實施更多的自動化,它自然會導致更多的網絡漏洞。使用本質上依賴于訓練數據和操作數據的人工智能系統,為黑客在開發階段和操作階段用損壞的數據毒害系統提供了機會。如果對手控制了一個可操作的人工智能系統,他們可能造成的傷害將取決于應用程序領域。對于支持武器控制決策的自動化,后果可能是致命的。在最近一項關于汽車網絡安全的研究中,一家汽車公司在網上發布了一個假汽車電子控制單元,在不到 3 天的時間里,進行了 25,000 次違規嘗試(Taub,2021 年)。國防部必須注意人工智能系統開發過程中出現的特定網絡漏洞。必須為每個新的人工智能系統實施仔細的網絡風險分析和網絡防御策略。 NPS 正在研究數據安全要求,以確保 ML 訓練數據集不受黑客攻擊,并且需要安全授權才能訪問(French 等人,2021 年)。 NPS 正在研究使用元認知作為 AI 系統執行自我評估的一種方法,以識別網絡入侵、篡改或任何異常行為(Johnson,2020b)。 NPS 還在研究使用 ML 來識別惡意欺騙和篡改全球定位系統 (GPS; Kennedy, 2020)。

威脅環境的演變是國防部在開發人工智能系統時的第三次對抗性競賽。由于對抗性威脅空間隨著時間的推移而不斷變化,擁有更快、更致命的武器、更多的自主權、更大的監視資產、更先進的對抗措施和更多的隱身性,這對國防部能夠預測和識別新威脅并進行應對提出了挑戰戰場上的未知數。 NPS 研究的重點是在作戰過程中不斷適應和學習的工程系統,以檢測和識別戰場中的未知未知,并通過創新的行動方案快速響應新威脅(Grooms,2019;Jones 等人,2020;Wood,2019 )。 NPS 正在研究通過研究特定區域隨時間變化的數據來識別異常變化的機器學習方法(Zhao et al., 2016)。一個例子是研究商用飛機飛行模式并根據異常飛行模式識別可疑飛機。隨著時間的推移,可以監視地面行動,以識別可能意味著軍事行動的新的和不尋常的建設項目。

結論

人工智能系統為國防部在實現和保持知識和決策優勢方面提供了重大進展。然而,為國防應用實施人工智能系統提出了獨特的挑戰。軍事戰術領域在決策空間的所有領域都呈現出極端的復雜性:不確定性和有限的知識、高度動態的情況、非常有限的時間線、復雜的人機交互、大量和類型的資源、多個任務、昂貴且難以獲得訓練數據集、極小的允許誤差范圍以及行動(或不行動)的生死攸關的后果。 AI 系統,尤其是 ML 系統,需要有代表性、足夠、安全和經過驗證的數據集來進行開發。為國防應用收集合適的數據具有處理分類數據集和確保數據安全和免受網絡攻擊的額外挑戰;這也將是收集代表戰術行動的真實數據的一項重大努力。將需要新的系統工程方法來有效地指定、設計和評估人工智能系統,這些系統通過其不確定性、新型人機協作挑戰以及難以預測和預防的新安全故障模式而呈現出新的復雜性.最后,軍事領域中對手的存在呈現出三種形式的 AI 競賽:與對手一樣快地開發 AI 系統的競賽、保持領先于可能的網絡攻擊的競賽以及訓練能夠應對的 AI/ML 系統的競賽隨著不斷發展的對抗性威脅空間。

NPS 正在通過一系列正在進行的研究計劃來解決四個獨特的挑戰領域。 NPS 研究人員正在研究人工智能系統在海軍戰術作戰領域的實施,對軍事數據集進行需求分析和需求開發,研究開發復雜人工智能系統的系統工程方法,以及開發安全、可信賴的人工智能系統工程方法,并注意潛在對手的作用。 NPS 正在為軍官和平民學生提供人工智能研究和教育機會。 NPS 歡迎與國防部和海軍組織合作,繼續研究用于國防應用的人工智能系統,并繼續探索解決方案戰略和方法,以克服開發和實施人工智能能力的挑戰。

附解讀PPT:(點擊下載)

付費5元查看完整內容

摘要

任務規劃對于建立成功執行任務所需的形勢意識至關重要。全面的計劃有助于預測不同的情況,這一點尤其重要,因為威脅的多樣性和復雜性會增加。規劃過程是團隊的努力,需要收集、分析相關信息并將其整合到一個全面的計劃中。由于第5代平臺、傳感器和數據庫生成的大量信息,這些過程面臨壓力。

本文描述了初始直升機任務規劃環境的創建,在該環境中,來自不同來源的數據被整合、分析和可視化。參與規劃過程的所有人員都可以查看所有可用信息并與之交互。算法處理傳入的數據,為計劃的特定部分提供潛在的解決方案。交互式可視化有助于直觀理解輸入數據和算法輸出,而交互式增強現實環境有助于有效協作。

集成系統和算法是未來智能協作任務規劃的重要組成部分,因為它們可以有效處理與第5代平臺相關的大量多樣的數據流。結合直觀的可視化和協作,這使工作人員能夠構建靈活且響應迅速的操作所需的共享SA。

付費5元查看完整內容
北京阿比特科技有限公司