亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人力資本和人力資源系統(如人員選擇、培訓)是一個組織適應變化能力的重要因素。然而,這些過程也必須保持對變化的響應,以保持高效和有效。在本報告中,我們探討了人事選拔領域內的主題,以確定該領域目前的趨勢、挑戰和發展。我們重點關注在當今國防背景下具有重要意義的三個具體領域:誠信、在線/計算機化測試、多樣性

鑒于每個主題領域的廣泛性,在本研究工作組內,由對某一特定主題感興趣的參與國分成了三個組。每個組根據對各自組織的當前需求、挑戰或要求的理解,確定并概述了小組所要探討的具體領域。本報告的不同部分記錄了每個主題的成果。

在誠信方面,本報告深入介紹了軍隊誠信測試的歷史;研究了各參與國誠信測試實踐和研究的現狀;總結了商業誠信測試和新出現的誠信評估方法;并為軍事人員選拔中的誠信評估提供了一個定義軍隊誠信的框架。

在在線/計算機化測試方面,本報告研究了參與國的選拔測試實踐,此外還探討了社會心理因素、測試安全挑戰、在線測試管理的選擇,以及技術實施可能帶來的人員選拔的好處。

在多樣性方面,本報告探討了多樣性的概念;概述了人員選拔實踐中的公平性和包容性的考慮;并探討了國防內部的神經多樣性倡議。

所有三個主題(即誠信、在線/計算機化測試和多樣性)都與國防背景特別相關。挑選具有誠信行為傾向的個人對軍事人員選拔實踐非常重要,因為公眾的信心和信任對武裝部隊的有效性至關重要。為了確保在招募頂尖人才方面的競爭優勢,軍事人員甄選測試實踐還必須吸引精通技術的勞動力市場,同時體現公平和包容性原則,因為這些市場在人口(如種族)和非人口(如語言)因素方面變得越來越異質化。總之,本報告借鑒了當前的實踐和研究狀況,以提高對軍事人員選拔中值得考慮的議題的認識并提供指導。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

摘要

由于人工智能(AI)、機器學習,特別是深度學習的進步,可解釋人工智能(XAI)研究領域最近受到了很多關注。XAI是一個研究領域,重點是確保人工智能系統的推理和決策可以向人類用戶解釋。在軍事背景下,這種解釋通常是為了確保:

  • 人類用戶對他們操作的人工智能系統有適當的心智模型。

  • 專家可以從人工智能系統及其隱藏的戰術和戰略行為中獲得洞察力并提取知識。

  • 人工智能系統遵守國際和國家法律。

  • 開發人員甚至在部署前就能發現人工智能系統的缺陷或漏洞。

本報告的目的是為基于深度學習的人工智能系統提供解釋而開發的XAI技術。這類系統本身就很難解釋,因為它們所模擬的過程往往過于復雜,無法使用可解釋的替代方法來建模

盡管深度學習XAI領域仍處于起步階段,但科學文獻中已經提出了許多解釋技術。今天的XAI技術主要用于開發目的(即識別錯誤)。需要進行更多的研究來得出結論,這些技術是否也有助于支持用戶為他們所操作的人工智能系統建立適當的心智模型、戰術開發,并確保未來的軍事人工智能系統遵循國家和國際法律。

關鍵詞

人工智能、可解釋人工智能、透明度、機器學習、深度學習、深度神經網絡

1 引言

人工智能(AI)是一個對瑞典[1]和瑞典武裝部隊(SwAF)具有戰略意義的研究領域。當今人工智能成功的主要因素是機器學習(ML)的突破,更確切地說,是深度學習(DL)的突破。DL是一種潛在的顛覆性技術,使我們能夠使用深度神經網絡(DNN)來模擬以前使用傳統技術無法模擬的復雜過程。例如,DL可以用來準確地轉錄(語音到文本)[2,3],翻譯(文本到文本)[4],合成語音(文本到語音)[5],玩實時戰略游戲(視頻到行動)[6,7],讀取唇語(視頻到文本)[8],識別人臉(圖像到身份)[9]和控制自動駕駛車輛(視頻到行動)[10,11]。

然而,DL仍然處于起步階段,沒有一個數學框架可以用來保證模型的正確性[12]。因此,在軍事應用中開發、部署、使用和維護DNN模型時,有許多挑戰需要考慮和解決。

從軍事用戶(操作員、數據分析師等)的角度來看,最重要的挑戰也許是可解釋性。根據經驗,當人的生命受到嚴重影響時,對可解釋性的需求更大。在軍事領域是這樣,在醫學、執法和其他民事服務領域也是如此。可解釋性很重要,因為它影響著用戶對系統的信任和依賴。信任關系必須是平衡的;過多的信任可能導致對系統的誤用,而過少的信任則可能導致對系統的完全廢棄[13]。最終,解釋的目的是幫助用戶建立一個適當的系統心智模型,以確保它能被有效使用[14]。

深度學習有可能改善復雜軍事系統的自主性,如戰斗機、潛艇、無人機和衛星監視系統。然而,它也會使這些系統變得更加復雜和難以解釋。主要原因是,DL是一種端到端的機器學習技術,意味著機器學習從輸入數據中提取最重要的特征,以實現高性能。這被稱為表征學習,它與傳統技術不同,傳統技術是用人類的直覺來手動提取這種特征。表征學習往往能帶來高性能,但它也要求模型具有高度的表現力和非線性。因此,使用DL訓練的DNN可能由數百萬甚至數十億的參數組成。這使得它們很難向人類解釋和說明,即使學習算法、模型結構、訓練數據等都是已知的和很好理解的。

美國國防部高級研究計劃局(DARPA)于2016年啟動的可解釋人工智能(XAI)計劃也許是為解決這一挑戰而采取的最全面的軍事舉措。該計劃的目的是:

  • "產生更多可解釋的模型,同時保持高水平的學習性能(預測精度)。"

  • "使人類用戶能夠理解、適當地信任并有效地管理新一代的人工智能伙伴"。

自XAI計劃開始以來,已經取得了許多技術上的進步。一些XAI技術甚至已經實現并打包在軟件庫中,可用于深入了解、調試和驗證DNN[16, 17, 18]。這是朝正確方向邁出的一步,但從軍事角度來看,關鍵是XAI技術和工具也要為軍事用戶量身定做,因為在這些地方需要高級解釋,以確保信任、使用和性能。

1.1 目的和范圍

本報告的目的是介紹在DL背景下開發的代表性XAI技術。本報告并非詳盡無遺,它并不涵蓋文獻中提出的所有XAI技術。

1.2 目標讀者群

本報告的目標讀者是操作、獲取或開發AI、ML和DL技術以用于系統或嵌入系統的軍事人員。

1.3 概要

第2章介紹了智能Agent、機器學習和深度學習的概念。第3章介紹了文獻中提出的各種XAI技術。第4章介紹了可用于評估XAI技術所提供的解釋的方法和技術。第5章介紹了一個案例研究,其中XAI被用來解釋一個深度學習模型的行為。最后,第6章對報告進行了總結,并對未來的工作提出了建議。

2 智能Agent、機器學習和深度學習

本章介紹了一些概念、方法、術語和技術,是本報告的其余部分的基礎。已經對智能Agent、機器學習和深度學習有基本了解的讀者可以跳過本章。

2.1 智能Agent

人工智能是一個廣泛的術語,可以有很多定義。在本報告中,人工智能是指對智能Agent(IA)的研究和設計。一個IA是一個能夠在環境中感知、推理和行動的自主實體。通常情況下,IA與環境中的其他Agent(即多Agent系統)以及人類(如人機合作)進行互動。

當在物理世界中實施時,IAs可以代表從簡單的恒溫器到復雜的自動駕駛車輛、自主機器人、無人機等任何東西。在虛擬環境中,人工智能通常由能夠翻譯、轉錄等的機器人或虛擬助理來代表。在軍事模擬中,IAs通常被稱為非玩家角色(NPCs)或計算機生成部隊(CGFs)。

圖2.1說明了IA的主要組成部分。這些組件通常使用傳統編程和人工智能技術的組合來實現,如專家系統、狀態機、行為樹和機器學習。本報告重點討論完全或部分使用DNN實現的IA的XAI。

圖2.1 - 智能Agent(IA)是一個能夠在環境中感知、推理和行動的自主實體。環境可以是物理的(即現實世界)或虛擬的(如互聯網、虛擬仿真、嚴格游戲)。IA通常與其他Agent、人類互動,分別形成多Agent系統和人機團隊。

2.2 機器學習

ML是人工智能的一個子領域,重點是開發能夠從觀察和經驗中學習的智能系統或IA。在本節中,將介紹ML中使用的主要學習策略。

2.2.1 監督式學習

在監督學習中,IA從已被標記或標注的訓練樣本中學習。學習的目的是使與這些樣本的偏差最小化,同時保持對未見過的輸入的概括能力。實際上,IA將模仿訓練數據中的行為。圖2.2說明了監督學習過程。

在監督學習中,標記過程通常是由人類手動完成的,這就是為什么這種方法在許多應用中可能是昂貴和不實用的。監督學習的主要優點是,一旦數據集建立起來,學習過程是穩定的,而且相對容易監控。

監督學習的主要應用是分類和回歸,其中,離散類標簽和連續值分別代表模型的輸出。分類器可用于檢測代理人視野中感興趣的物體,或識別某一特定情況是否危險。回歸通常用于對Agent的執行器(機器人肢體、方向盤位置等)進行低層次的連續控制。

圖2.2 - 監督式學習。IA從已被標記或標注的樣本中學習。學習過程的目標是創建一個模型,使其與所提供的訓練樣本的偏差最小。淺灰色的方框代表訓練樣本(即輸入和它們的標簽)。

2.2.2 強化學習

在強化學習中,IA通過在一個通常是模擬的環境中執行動作來學習。學習的目的是IA在模擬器中執行動作時使其獎勵最大化。獎勵通常由游戲的結果來表示,因此用于獲勝或失敗的行動分別由學習算法進行正向和負向強化。學習過程如圖2.3所示。

強化學習的一個主要優點是,不再需要手動標注訓練數據。相反,在某種意義上,獎勵函數被用來自動標記數據。然而,為現實世界的問題設計一個獎勵函數是一項非艱巨的任務。它要求隨著時間的推移,適當的獎勵可以被分配給IA的行動[19]。一個設計不良的獎勵函數可能會導致不理想的和意外的行為。

強化學習被用于IA需要學習最佳行動選擇策略的應用中。當應用于實時戰略游戲時,IA可以比大多數人類專家更好地學習選擇行動[6, 7]。因此,我們有理由相信,強化學習最終也能為軍事目的產生替代的甚至是新的戰術和戰略。

圖2.3 - 使用強化學習,IA通過在模擬環境中采取行動來學習。學習過程的目標是使環境提供的獎勵信號最大化。淺灰色的方框代表輸入,在這種情況下是一個模擬器和一個獎勵函數,是這個學習策略所需要的。

2.2.3 無監督學習

在無監督學習中,IA學習識別無標簽數據中的模式和結構,如圖2.4所示。請注意,盡管被稱為無監督學習,但總是由一個預先定義的指標指導。例如,k-means聚類算法使用歐氏距離對數據進行聚類。同樣,自動編碼器(AE)需要存在一個損失或誤差度量函數。

無監督學習的最常見應用包括聚類、可視化、降維和異常檢測。無監督學習在DL中的一個較新的應用是元學習,其中IA被訓練的目標是成為更快的學習者(即學習如何去學習)。

圖2.4 - 在無監督學習中,IA學習在未標記的數據中識別模式和集群。無監督學習由預先定義的指標(例如k-means聚類中的歐幾里得距離)指導,從數據中學習。

2.3 深度學習

深度學習是一種機器學習方法,可用于上述所有的學習策略(即監督式學習、強化式學習和無監督式學習)。

2.3.1 深度神經網絡

在DL中,用于捕捉和學習經驗的模型由DNN來表示。DNN本質上是一個數學表達式,由大量的嵌套和可微分的子函數組成。第 2.3.3 節解釋了 DNN 必須是可微分的原因。

DNN 通常使用圖形進行可視化,其中各層節點用邊相互連接,如圖 2.5 所示。在這種表示方法中,每條邊代表一個可訓練的參數或權重,每個節點代表一個神經元(即一個可區分的子函數),使用權重將輸入轉化為輸出。圖2.6說明了一個神經元所進行的操作。該神經元首先計算其輸入和權重的乘積之和。然后這個值被神經元的非線性激活函數處理,產生一個輸出。然后,該輸出被用作下一層神經元的輸入。

在現實世界的應用中,權重(圖2.5中的邊)的數量通常會增長到數百萬甚至數十億。還要注意的是,除了圖2.5中說明的全連接神經網絡(FCNN),還有不同類型的DNN。卷積神經網絡(CNN)用于數據中存在空間關系的情況,這在圖像中是典型的情況。同樣地,當數據中存在已知的時間關系時(如文本和音頻),經常使用遞歸神經網絡(RNN)。在現實世界的應用中,模型的設計通常是使用精心挑選的CNN、RNN和FCNN的混合。本節的其余部分主要討論FCNN。然而,推理和訓練的原則也同樣適用于CNN和RNNs。

在本報告中,用來表示DNN的數學符號是fθ,其中θ代表DNN的可訓練權重或參數。

圖 2.5 - 一個具有四個輸入、兩個隱藏層和一個輸出的全連接 DNN 的可視化。在這個表示中,每條邊代表一個可訓練的參數或權重,每個節點代表一個神經元(即一個可微分的子函數),使用權重將輸入轉化為輸出。每個神經元計算其輸入和權重的乘積之和。然后,該值由神經元的非線性激活函數處理,產生一個輸出。

圖2.6 - DNN中的神經元的可視化。首先,使用輸入x和權重ω的乘積之和被計算。然后,這個值被送入神經元的非線性激活函數g,以產生一個輸出,可以被送入下一層的神經元。代表一個神經元的數學表達式是。請注意,偏差b,也是一個可訓練的參數,與權重不同,它不與輸入相連。

2.3.2 推斷

推理是一個過程,在這個過程中,輸入被已經訓練好的 DNN 處理,產生一個輸出。在DNN中,處理是通過網絡的各層向前傳遞進行的。計算圖也許是描述推理的最直觀的方式。在計算圖中,DNN被模塊化為原始的子函數,代表網絡中嵌入的操作。作為一個例子,圖2.7中的計算圖表示有一個輸入的神經元。使用這種表示方法,很容易看到輸入是如何在圖中向前移動(從左到右)時被轉化的。

計算圖可以被擴展到具有任意數量的輸入、神經元和輸出的DNN模型。在實踐中,使用代表聚合層的計算圖來設計DNN是很常見的。然后,不同的層可以相互連接,形成最終的 DNN。

圖2.7--計算圖表示一個神經元的操作,fθ(x)=g(x×ω+b),有一個輸入x和預訓練的參數θ={ω,b}。計算圖可以擴展到包括任意的輸入和輸出。在現實世界的應用中,DNN由代表神經元聚集層的計算圖組成。

2.3.3 訓練

訓練是DNN,fθ,及其可訓練參數或權重θ,被更新的過程。訓練是一個迭代過程,目的是調整θ,使損失函數L(fθ)達到最小。在實踐中,方程2.1中的梯度下降(GD)優化方法或其變體被用來執行更新。

在GD方法中,α代表一個超參數(即一個用于控制學習過程的用戶定義參數),稱為學習率。學習率α,控制著學習過程的速度。重要的是,α被適當地初始化,以確保可訓練的參數能夠收斂到一個最佳的解決方案。一般來說,如果α太大,訓練過程就會變得不穩定,可訓練參數就不會收斂。此外,如果α太小,訓練將是穩定的,盡管它將花費太多的時間來收斂。由于這個原因,使用能在學習過程中動態地改變學習速率的調度器已經成為常見的做法。

方程2.1中的項表示可訓練參數的梯度。梯度決定了更新可訓練參數θ的方向,從而使損失函數增加。請注意,更新的方向與梯度的方向相反,以便使損失最小化。

為了找到這些梯度,我們使用了反向傳播算法。給定一個訓練實例(x, y?),反向傳播算法首先執行一個前向傳遞來計算損失。給定損失后,再進行后向傳遞,使用鏈式規則公式計算梯度。同樣,解釋反向傳播的最直觀的方法是使用計算圖,其中DNN由子函數的集合表示。要進行反向傳播,所需要的就是找到這些子函數的導數。讓我們用一個簡單的例子來說明反向傳播,其中DNN由線性函數fθ(x)=ωx+b表示,只有兩個可訓練參數θ={ω,b}。在這種情況下,損失函數可以定義為fθ(x)和期望輸出y?的平方誤差:

因此,損失衡量了DNN的預測是否接近已知的輸出值,即y。當損失較小時,預測是好的。同樣地,當損失大時,預測就很差。

圖2.8顯示了代表方程2.2中損失函數的計算圖。除了前向傳遞,這個計算圖還包括一個后向傳遞,利用鏈式規則將損失(或誤差)傳播到可訓練參數θ={ω,b}。請注意,訓練中只需要損失相對于可訓練參數的導數(即)。逆向傳播從設置開始。從這里很容易看出鏈式規則是如何將誤差向后傳播的(從右到左),從而找到。關于本節所述的訓練過程的演示,見附錄A。

即使訓練過程很簡單,可以用計算圖來解釋,也很難理解和解釋模型的行為。下一章將介紹為這些目的而開發的XAI技術。

圖2.8 - 表示平方誤差損失函數的計算圖,。在這個例子中,fθ(x) = ωx + b和θ = {ω, b}分別代表模型和它的可訓練參數,x和y?代表輸入和它的期望輸出(即訓練數據)。

3 可解釋人工智能的技術

可解釋人工智能(XAI)研究的重點是確保人工智能系統的推理和決策能夠被解釋給人類用戶。盡管由于DL的進步,XAI最近受到了很多關注,但XAI的研究領域并不新鮮。它至少在20世紀80年代就已經存在了[20]。對于XAI研究及其歷史的全面回顧,讀者可以參考[21]。

可解釋人工智能是任何用于影響人類生命高風險決策的軍事人工智能系統的關鍵組成部分。戰術層面上的人工智能應用的例子,重點是短期決策,包括無人駕駛車輛的自主控制以及武器和監視系統的目標識別、跟蹤和交戰。此外,XAI在戰爭的戰役和戰略層面同樣重要,甚至可能更重要,因為長期決策和規劃活動可能影響整個團體。在這個層面上,人工智能系統通常用于信息分析,但也可以通過模擬來提出規劃或行動方案(COA)。XAI在軍事應用中的主要目的是:

  • 心智建模[14, 22]。XAI可用于支持用戶為其操作的人工智能系統建立適當的心智模型。在任何軍事系統中,無論是否啟用了人工智能,用戶都必須清楚地了解系統的運行邊界,以確保適當和有效的使用。

  • 洞察力[23,24]。事實表明,DNN可以用來捕捉知識,并在對復雜過程的觀察中找出人類未知的模式。使用XAI技術,人類有可能解開這些知識并從中學習。使用強化學習的戰術和戰略發展是一個典型的應用,XAI有可能在軍事領域產生更深入的洞察力。

  • 法律和法規[25, 26, 27]。XAI有可能被用來確保AI系統遵循國家和國際法律。也許人工智能最具有爭議性的應用是致命的自主武器系統(LAWS)[26]。一些人希望完全禁止這種系統,而另一些人則認為應該允許使用致命性武器系統,因為它們有可能提高精確度并將附帶損害降到最低[27]。盡管如此,作者認為XAI可以在制定政策的過程中發揮重要作用,以規范何時、何地以及是否可以使用LAWS等AI系統。

  • 排除故障[23, 28]。在文獻中,有許多XAI被用來識別DNN中的錯誤的案例。當圖像中的版權水印或模擬器和游戲中的未知作弊器等現實世界數據中不存在的人工制品出現在訓練數據中時,通常會出現BUG。第2.3.3節中介紹的訓練過程可以學會利用,或走捷徑,利用這種人工制品。其結果是,當呈現測試數據時,DNN工作得很好,但當呈現真實世界的數據時卻失敗了。如果將XAI技術作為開發過程的一個組成部分,這種問題可以在部署前被發現和解決。

本章介紹了在DL背景下專門開發的幾種XAI技術。DL的XAI是一個重大挑戰,因為DNN可能由數百萬甚至數十億的參數組成,使得它們不透明,難以被人類解釋。請注意,據我們所知,擬議的技術還沒有在軍事背景下進行科學評估。因此,在這種情況下,這些技術能在多大程度上提供有用的解釋還不得而知。第四章介紹了如何進行這種評估。

3.1 全局解釋技術

全局解釋技術提供了對 DNN 及其整體行為的洞察力。在本節中,我們主要關注可用于分析和可視化高維訓練數據集的技術,但也關注如何獲取和解釋用于模型評估的性能測量。

3.1.1 大型高維數據集的可視化技術

在DL中,訓練數據集通常由大量的高維樣本組成。為了直觀地檢查這些數據集,它們必須被降低到人類可以觀察到的維度(即一維、二維或三維空間)。在可視化中總結大型數據集可以提供關于DNN所要學習的任務復雜性的有用見解。它也可以用來識別數據集中可能對DNN的性能產生負面影響的假象[23]。下面是三種無監督的技術,可用于降低維度以達到可視化的目的。

  • 主成分分析(PCA)[29]。這項技術確定了數據集的主成分。數據被投射到被認為是最重要的成分或向量上。PCA的主要缺點是它是一種線性技術,因此,它可能無法識別非線性數據的模式。PCA的主要優點是該技術很好理解(即它可以被解釋),而且與其他技術相比,它的計算效率高。

  • 可變自動編碼器(VAE)[30]。這是一種DL技術,使用DNNs來降低維度。VAE由兩個DNN組成:編碼器和解碼器。編碼器的目的是將高維的輸入數據壓縮成一個潛在的空間向量(在這種情況下是一維、二維或三維)。解碼器的目的是盡可能準確地使用低維潛空間表示重建高維數據。如第2.3.3節介紹的那樣,使用損失函數對DNN進行訓練,使原始輸入和其重建的誤差最小。一旦訓練完成,只需要編碼器來降低維度。這種技術的主要優點是它能夠學習數據中的非線性因素。缺點是VAE是用不透明的DNN構建的,不容易向人解釋。

  • t-分布式隨機近鄰嵌入(t-SNE)[31]。這項技術是專門為可視化目的開發的。與VAE類似,t-SNE使用GD程序來學習如何最佳地降低數據的維度。在這種情況下,目標函數的目標是保持鄰域距離。t-SNE的優點是,它通常會產生更好的可視化效果。缺點是它的計算很復雜。

為了證明上述技術,將使用MNIST數據集[32]。這個數據集包含灰度圖像,包括代表70000個手寫數字的標簽。每個圖像由28×28像素組成,因此,數據的維度為784。圖3.1說明了從數據集中隨機抽取的15個樣本。

圖3.2中的可視化圖(散點圖)是使用從MNIST數據集中隨機抽取的10000張圖像的子集創建的。在這種情況下,使用PCA(圖3.2a)、VAE(圖3.2b)和t-SNE(圖3.2c和圖3.2d)將維數從784降低到2。這些圖是用所有10000個數據點渲染的,每個數據點的標簽都用顏色編碼,這樣人類就可以直觀地檢查出聚類趨勢。在圖3.2d中,數據集首先使用PCA進行預處理,在使用t-SNE之前將維度從784降低到50。這是使用t-SNE時的標準做法,以確保計算效率。圖3.2中的可視化圖提供了對數據集復雜性的洞察力。如果集群可以被直觀地識別,那么DNN也很可能能夠有效地從數據中學習。同樣地,如果集群不能被識別,那么DNN也將更難從數據中學習。在這種情況下,PCA技術無法分離聚類。因此,不能指望線性分類器能有好的表現。

圖3.1 - 從MNIST數據集中隨機抽取的樣本。樣本的標簽在圖的說明中提供。

圖3.2 - 使用主成分分析(PCA)、可變自動編碼器(VAE)和t分布式隨機近鄰嵌入(t-SNE)在二維散點圖中對高維數據進行可視化。在這種情況下,維度從784(代表28×28像素的圖像)減少到2。這些圖是用10000個數據點呈現的,每個數據點用其標簽(0到9)進行顏色編碼,以便人類可以直觀地檢查聚類情況。在圖3.2d中,在使用t-SNE之前,數據集使用PCA進行了預處理,將維度從784降低到50。這是使用t-SNE時的標準做法,以確保計算效率。可視化提供了對數據集復雜性的洞察力。如果集群可以被直觀地識別,那么DNN也很可能能夠有效地從數據中學習。同樣地,如果集群不能被識別,那么DNN也將更難從數據中學習。

3.1.2 模型評估

在訓練機器學習模型時,模型開發者會不斷測量模型在它之前未見過的輸入數據上的表現,以確認模型是否在向有用的行為發展。當開發者對模型的表現感到滿意時,就會停止訓練過程,并使用未見過的測試數據進行最終評估。這個最終的測試衡量了模型在現實世界中應用時的預期性能,在那里它通常會遇到訓練時沒有看到的輸入。測試數據集能在多大程度上被用來測量實際性能,取決于測試集與現實世界數據的對應程度。雖然在模型訓練和調整過程中對性能的持續測量主要是對模型開發者有意義,但從XAI的角度來看,最終的性能測量對用戶也是有價值的。

(1)對分類器的評估

在從圖像中對軍用車輛進行分類的例子中,每一類車輛都有數千張圖像,相當一部分圖像將被用于訓練,另外一組圖像將被分開,用于在訓練期間對模型進行微調和測試,還有一組圖像將被保留用于最終的性能測量。由于分類器在訓練過程中沒有看到測試集中的圖像,因此測量它在這些圖像上的表現可以了解模型在新數據上的表現如何。

在一個分類任務中,最直接的性能測量是計算正確分類的比例。這個衡量標準被稱為準確性:

也就是說,如果車輛分類模型在100張圖片上進行測試,85張圖片被正確分類,則該模型在測試數據上的準確率為85%。如果不同類別的實例出現的頻率相同,也就是說,數據是平衡的,那么準確率就會很高。

在水雷分類的例子中,任務是分析類似雷的聲納圖像,并將該物體分類為雷或其他東西(通常是巖石)。在這種情況下,可能相對缺乏可供訓練的雷圖像,因為關于巖石的數據很容易收集,而關于雷的數據,特別是由敵對勢力部署的雷,則不容易收集。

雷檢測案例是一個不平衡問題的例子,如果測試數據集要反映真實世界的發生情況,那么它將包含比雷圖片更多的巖石圖片。作為一個例子,假設測試數據集中千分之一的例子是雷(其余都是巖石)。一個總是返回負面分類(不是雷)的分類器將在測試集上達到99.9%的準確率,因為999個分類中實際上是正確的。然而,它在尋找雷方面是無用的,因為在提交給它的實際雷中,它沒有檢測到任何雷。它的召回率為0%。

通過使分類器更容易對可疑物體返回正面分類(雷),可以提高召回率。在極端的情況下,一個總是返回正面分類的分類器可以達到100%的召回率,因為它可以捕捉到所有的雷和所有的巖石。然而,同樣,它也是無用的,因為每一千次正面預測中,只有一次是正確的。它的精確度將是0.1%。

顯然,一個好的探雷器,或任何分類器,都需要有合理的高精確度和高召回率的數值。也就是說,必須有可能相信正面的分類結果,足以投入更多的資源(如部署潛水員)。也必須有可能足夠信任負面輸出,以期望它能找到相當比例的實際存在的雷。然而,在現實中,這兩者之間總是有一個權衡,正確的平衡取決于特定的操作要求。例如,如果不遺漏雷是很重要的,那么分類器將被調整為高召回率。然而,要付出的代價是較低的精度,導致更多的時間被用于調查巖石。

通過在測試數據集上運行分類器,計算有多少雷被正確分類(真陽性或TP),有多少巖石被正確分類(真陰性或TN),有多少巖石被誤認為是雷(假陽性或FP),有多少雷被誤認為是巖石(假陰性或FN),可以計算出準確率、精確度和召回率。這就產生了一個混淆矩陣,如表3.1所示。

表3.1--混淆矩陣的結構,將正確的正面分類(TP)、正確的負面分類(TN)、錯誤的正面分類(FP)和錯誤的負面分類(FN)的數量列表。

混淆矩陣是代表模型性能的一種緊湊但豐富的方式,從中可以推導出許多不同的度量。與同一行的其他數值相比,一個高精確度的模型具有較高的TP值(FP),或者更正式地說:

與同列的其他數值相比,一個高召回率的模型具有較高的TP值(FN),或者更正式地說:

與非對角線位置相比,一個高精確度的模型在所有對角線位置都有很高的數值,或者更正式地說:

矩陣中數值的其他組合產生了其他指標,每個指標都揭示了模型性能的某些方面。一般來說,一個具有不平衡數據的案例(這往往是現實中的常態)將需要更多的指標來衡量模型的性能。然而,對于面臨問題,正確的指標集可以提供一個簡明的圖片,說明模型在實際環境的表現是怎樣的。由于所有的指標都是從混淆矩陣中計算出來的,一個訓練較好的分類器很快就能從中提取這些信息。

(2)多類分類器的評估

如果一個車輛分類器要區分坦克、摩托車和運輸車輛,就存在一個多指標或多類分類問題。在這種情況下,混淆矩陣的行和列的數量將與類別的數量相同。圖3.3是一個多類混淆矩陣的例子,任務是將手寫數字的圖像從0到9分類,也就是10個類別。

從混淆矩陣中計算出的度量可以概括為:通過比較對角線和其余部分給出準確度,而通過比較每個特定類別的對角線值與其行的總和(準確度)或其列的總和(召回率)給出準確度和召回率。因此,通過對矩陣進行顏色編碼,就像在數字分類的例子中那樣,僅僅通過檢查就可以收集到很多信息。例如,從這個例子中可以看出,總體準確率非常高(將對角線與其他部分進行比較),但在不同的數字類別中,表現卻有些不同。數字5有時會被誤歸為3或6或其他,反之,5有時會被誤認為3。然而,數字1幾乎不會與其他東西混淆。

圖3.3 - 混淆矩陣說明了使用MNIST數據集識別手寫數字而訓練的DNN的性能。混淆矩陣可以用來深入了解該模型最可能與其他數字混淆的數字。

(3)回歸模型的評估

在回歸任務中,不可能計算正確的分類。相反,有必要將模型產生的連續值與測試集中的正確值進行比較。

作為一個例子,假設一個自主地面車輛(AGV)的避障模型正在被訓練。AGV必須根據安裝的傳感器的輸入產生一個轉向信號。轉向信號表示為-1和1之間的數字,其中-1表示左急轉,1表示右急轉,0表示不轉,而兩者之間的所有數字都是相應方向上的轉彎等級。AGV已經根據人類操作員記錄的數據進行了訓練。它的測試方法是將它對給定的傳感器刺激產生的轉向信號,與記錄的數據進行比較。例如,記錄可能表明,檢測到遠處左側的障礙物應該產生有限的右轉信號(例如0.2),而檢測到近處左側的障礙物應該產生一個急劇的右轉(接近1)。一個在后一種情況下產生急劇左轉信號(-1)的模型,應該被判定為比另一個產生輕微右轉信號(如0.2)的模型B表現更差。將模型的預測值與期望值相比較,顯然,模型A與該值的距離是2,而模型B的距離是0.8。因此,模型B更接近于正確的行為。如果對測試數據集中所有實例的這種誤差進行測量和匯總,例如計算平均誤差,就可以得到模型性能的總體衡量。

回歸的評估技術主要在如何進行匯總方面有所不同。平均絕對誤差(MAE)取的是誤差絕對值的平均值。該指標衡量模型預測與期望值的偏差程度。均方根誤差取的是誤差平均平方根。它對應于誤差的標準偏差,與MAE不同的是,它對大偏差的懲罰更大。R平方(R2)將平均平方誤差與信號本身的方差進行比較。因此,它首先對變化很大的信號容忍較大的誤差。

3.2 局部解釋技術

與全局解釋技術相比,局部解釋是用來解釋對感興趣的特定輸入的預測的。這些輸入可以是真實世界的例子,也可以是訓練或測試數據集中的例子。DNN的輸入基本上是由一串數值構成的,代表了一些現實世界的過程,如圖像中的像素、文本中的字母、科學數據等等。因此,一個有300個像素的灰度圖像在300個維度上表示它的數據,每個維度講述故事的一部分(所有維度一起提供整體)。

本節重點討論局部解釋技術,其中顯著性地圖被用于解釋。顯著性地圖通過對每個輸入維度的相關性或顯著性打分,來解釋一個模型的輸出。也就是說,它顯示了每個維度在產生與該例子相對應的特定輸出方面的重要性。對于一幅圖像來說,這些顯著性分數可以轉化為熱圖,疊加在圖像上,以表明模型在產生其決定時注意到哪些像素。圖3.4提供了一個在模擬自動駕駛汽車的背景下生成的顯著性地圖的例子。

這里介紹的前兩種技術是白盒技術。這些技術依靠訪問DNN的內部表示(子函數、梯度等)來產生解釋。其他技術是黑盒技術,可以通過查詢模型(通常是多次)和選定的輸入來產生解釋。因此,黑盒技術往往需要更多的計算資源來產生其解釋。

圖3.4 - 突出顯示了DNN用來控制模擬自駕車的最重要的輸入像素的Saliency圖。在這種情況下,代表道路右側的像素似乎是最重要的。

3.2.1 梯度顯著性

梯度顯著性(也叫敏感性分析)是最早的局部解釋技術之一,它被用來解釋神經網絡的行為已經有很長時間了[33, 34]。梯度顯著性的想法是通過計算輸入值的變化會在多大程度上改變模型的輸出值來產生解釋。輸入值的變化會對模型輸出值產生最大影響的輸入被認為比其他輸入對模型輸出值更重要。在數學術語中,這被稱為模型輸出對給定輸入(如圖像)的導數。由于DNN訓練使用導數,許多深度學習軟件庫可以直接計算梯度顯著性。

圖2.8中用來解釋DNN訓練過程的計算圖也可以用來理解梯度顯著性的工作原理。梯度顯著性技術不是計算相對于可訓練參數的導數,也就是訓練過程中所做的,而是計算相對于輸入的導數(即)。

梯度顯著性的問題是,它不能區分影響模型輸出的信號和DNN被訓練為過濾掉的干擾物[35]。使用梯度顯著性技術產生的解釋往往是嘈雜的,也會隱藏模型實際使用的特征。解釋哪些特征使輸入的物體類型更多或更少,并不像解釋哪些特征使其成為現實中的物體類型那樣具有信息量[34]。

3.2.2 分層相關性傳播

分層相關性傳播(LRP)發表于2015年,是第一批使用理論框架來指導局部解釋啟發式方法發展的技術之一[36, 34, 37]。該理論框架的主要好處是,它提供了一種方法,可以找到適合于DNN中各層的多種類型的局部解釋啟發式,以及其他類型機器學習模型的局部解釋啟發式。

LRP首先假設為低層對每個輸出值的貢獻分配相關性,應該考慮哪些激活對輸出值是必要的。從輸入中去除這些相關的激活,最好能取消該輸出值。例如,去除被歸類為汽車的圖像中的所有汽車特征,應該意味著該模型的汽車輸出值為零。在數學術語中,這被稱為模型函數的根,而LRP的想法是使用適合搜索這個根的局部解釋啟發式方法。

雖然沒有已知的技術來優化搜索模型函數的根,但有一些對搜索的限制已被證明是足夠的。例如,根的激活應該在輸出值的激活附近,相關的激活應該在可能的輸入空間內,而且只有輸出值的可用相關性應該被用來給激活分配相關性。事實證明,這些約束條件足以找到將相關性從模型輸出傳播回輸入的局部解釋啟發式方法。

LRP假設模型函數可以用數學技術泰勒擴展來近似。泰勒擴展將模型函數分解為簡單的加法項,可以直接映射到神經網絡組件。加法項意味著模型函數可以被分解為作為模型輸出基礎的每個激活的相關性分數。

LRP是一個局部解釋啟發法系列,使用這些技術進行相關性傳播[37]。這些啟發法專門適用于不同類型的神經網絡層和層級。一些啟發式方法還可以將輸出相關性傳播為有助于模型輸出的正向激活和有損于模型輸出的負向激活。這可能有助于識別缺失的特征,使模型輸出的可能性更大。

3.2.3 沙普利加和解釋

沙普利加和解釋(SHAP)發表于2017年[38],改進以前的一些方法,指出它們之間的數學共性,然后證明它們都可以通過使用一個特定的數學公式進行改進。

該公式由諾貝爾獎得主勞埃德-沙普利于1953年[39]在經濟學的一個分支--博弈論領域提出。它計算出所謂的沙普利值,用于在參與方之間分配一些聯合游戲的收益。該公式旨在根據一組合理性條件公平地分配收益,因此所有的收益都應該被分配;貢獻大的行為者應該獲得更多的收益;沒有貢獻的行為者應該一無所獲;而且應該有可能將不同游戲的收益相加。事實上,沙普利表明,他的公式是唯一可能滿足所有條件的公式。

就解釋而言,第一步是觀察機器學習模型的輸入維度可以被視為參與模型產生輸出預測的游戲的行為者。輸出值可以看作是游戲的總收益,也就是要在玩家之間進行分配。進行公平分配就是在輸入維度之間按其貢獻比例分配輸出值。換句話說,這樣應用沙普利值,就會產生一個突出性掩碼。這個觀察在SHAP方法之前就已經提出了,例如在[40]和[41]。

最初的SHAP工作的貢獻是觀察到一些早期的方法所產生的解釋都可以統一在一個共同的線性形式下,稱為加和特征歸屬,也就是說,它們都有一個共同的屬性,即它們產生的突出度值加起來就是要解釋的模型的輸出值。然后,[38]的作者設定了與上述條件相對應的穩定性條件,并證明沙普利公式是特征歸屬方法滿足所有條件的唯一途徑。由于之前的所有方法都在某種程度上偏離了沙普利公式(通常是通過應用一些沒有太多理論基礎的啟發式方法),作者認為可以通過調整這些方法使其符合該公式來改進。因此,SHAP實際上是一個基于這些調整的方法系列。例如,調整LIME(見第3.2.4節)以符合沙普利公式,可以得到KernelSHAP,即SHAP的一個模型無關的版本。基于特定模型解釋方法的SHAP版本繼承了相同的模型特定性約束。

3.2.4 局部可解釋模型診斷性解釋

局部可解釋模型-診斷性解釋(LIME)在2016年發表時引起了極大的關注[42],因為它是首批可以作為黑盒應用于任何模型的解釋方法之一。LIME通過對樣本進行擾動并觀察所發生的情況來解釋模型對輸入樣本的預測。

任何機器學習模型都將其輸入和輸出之間的關系表示為某種數學函數,由神經網絡的權重和結構或其他參數來定義。這個函數反過來旨在捕捉一些現實世界的關系,例如,一串聲音和一串單詞之間的關系。一個典型的現代機器學習系統所模擬的功能是復雜的,這就是為什么簡單地檢查神經網絡的權重并不能做很多解釋。LIME不考慮函數的整體性,而是試圖描述函數在要解釋的例子附近的作用。通過以不同的方式擾動輸入,它能夠創建一個線性的,因此更簡單的模型,該模型在與所提供的樣本相似的情況下表現得接近于復雜的模型。這個線性模型的系數構成了對輸入的哪些維度對模型的輸出影響最大的直接測量,或者換句話說,這些系數是LIME版本的顯著性掩碼。由于LIME對模型所要做的就是給它提供不同的輸入擾動并觀察它的輸出,所以對模型的內部工作沒有任何了解。

3.2.5 用于解釋黑盒模型的隨機輸入采樣

用于解釋黑盒模型的隨機輸入采樣(RISE)是一種模型無關的局部解釋技術,于2018年發表[43]。與LIME類似,RISE通過擾動輸入并觀察模型的反應來生成解釋。因此,對于解釋的生成,不需要了解模型的內部工作。

RISE通過隨機生成掩碼來擾亂圖像,掩碼使圖像像素變暗。掩碼是通過將圖像劃分為較大的區域,并隨機選擇哪些區域包括在擾動的圖像中來生成的。模型對擾動圖像的輸出值描述了掩碼覆蓋圖像區域的程度,這些區域對該模型類別的分類很重要。與覆蓋較少重要圖像區域的掩碼相比,覆蓋許多對分類很重要的圖像區域的掩碼會導致更高的模型輸出值。通過隨機生成許多掩碼,RISE計算出每個圖像區域的平均重要性。圖像區域的重要性解釋了模型的分類。

RISE的一個好處是,它使用大小均勻的圖像區域來生成解釋。因此,這些解釋涵蓋了與圖像中的物體相同的圖像區域。另一方面,LIME使用超級像素(類似像素值的連續區域),這可能無法捕捉到正確的圖像區域。

3.3 混合解釋技術

混合解釋技術通過結合全局和局部XAI技術提供洞察力。混合解釋技術不是只在個案的基礎上使用局部XAI技術,而是在大量的案例上自動應用局部XAI技術,通常是整個數據集。然后,混合解釋技術會比較所有的本地XAI結果,以確定模型表現不符合預期的情況。這種異常情況可以為進一步的模型開發提供信息,或者指出使用模型時需要考慮的性能限制。

3.3.1 譜系相關性分析

譜系相關性分析(SpRAy)技術是在[23]中介紹的。SpRAy是一種半自動化的技術,它使用整個數據集的分析方法來尋找模型性能不符合預期的情況。例如,在圖像分類中,一個一般類型的物體,如狗或汽車,可能會出現在許多形式和背景中,但類似的物體形式和背景應該有類似的局部XAI結果。如果某些情況下的本地XAI結果與預期的不一樣,這可能表明模型行為異常。依賴于現實世界中可能不存在的虛假和人為的相關性的決策策略,也被稱為 "聰明的漢斯"行為。SpRAy包括五個步驟來尋找異常的模型行為:

  • 用LRP計算相關性圖(見3.2.2節)。

  • 對所有的相關性圖進行預處理,使其具有統一的形狀和大小。

  • 對相關性圖進行譜聚類。譜聚類是一種成熟的技術,它將相似性矩陣(衡量案例之間的相似性)轉化為增強相似性矩陣的聚類特性的表示方法[44]。然后可以在新的表示法中檢測到集群。相關性地圖之間的相似性是由成對的相關性圖之間的歐氏距離計算出來的最近的鄰居。兩個相關性圖之間的歐氏距離是由每個像素的每個顏色通道的強度差異計算出來的。

  • 識別有趣的聚類。譜聚類計算出表明不相交或弱聯系的集群的措施(特征值)。特征值的巨大差距表明集群是不同的。

  • 一個可選的步驟是使用例如t-SNE(見第3.1.1節)對聚類進行可視化。

在[23]中,SpRAy被用來證明上一代機器學習技術--支持向量機(SVM)在圖像分類中學習了虛假的相關關系。例如,SpRAy顯示,該分類器使用了四種不同的策略對馬匹的圖像進行分類,檢測馬匹和騎手,在橫向或縱向的圖像中檢測源標簽,以及檢測障礙物和其他環境元素。因此,在沒有源標簽和背景元素的實際應用中,這個分類器是不可靠的。將源標簽添加到其他物體的圖像上,如汽車,他們可以將分類改為馬。

4 評估可解釋人工智能技術

XAI的一個經常被忽視但很重要的方面是評估擬議的XAI技術的能力。第 4.1節從人類因素的角度介紹了評價標準,其中用戶(如操作員或分析師)是衡量XAI加入人工智能系統后的效果的核心。此外,第4.2節介紹了可用于比較本地XAI技術的測試,如第3.2章中介紹的使用啟發式的技術。

4.1 人為因素評價

對XAI技術的人為因素評估測試了解釋是否考慮了所有對用戶充分利用AI系統的重要因素。例如,用戶可能有不同的目標、需求、知識、經驗、任務背景、用例等。和許多類型的系統開發一樣,在人工智能系統的整個開發過程中,從系統規范到最后的用戶測試,都必須考慮這些因素。由于用于DL的XAI技術是一個新興的研究領域,這些技術的最初用戶往往是對評估模型性能感興趣的系統開發者。這些XAI技術是否對軍事用戶也有用,在很大程度上仍然是一個開放的問題。在[22]中,已經提出了六個指標來評價解釋。

  • 解釋善意。由一份檢查清單組成,其中包括在開發XAI技術時從用戶角度考慮的重要方面。該清單是基于對現有文獻中關于解釋的全面回顧,包括解釋的七個重要方面,例如,解釋是否有助于用戶理解人工智能系統的工作原理,解釋是否令用戶滿意,以及解釋是否足夠詳細和完整。

  • 解釋的滿意度。一個衡量用戶在解釋的好壞方面如何體驗解釋的量表。該量表由八個項目組成,這些項目被表述為聲明(七個好的方面和一個關于解釋對用戶的目標是否有用的項目)。有效性分析表明,該量表是可靠的,可以區分好的和壞的解釋。

  • 促進心智模式的發展。好的解釋會加強用戶對人工智能系統如何工作以及為什么會做出特定決定的理解。在認知心理學中,這種表述被稱為用戶對人工智能系統的心理模型。推薦四個任務來測量用戶對人工智能系統的心智模型,例如,一個提示性的回顧任務,要求用戶在用人工智能系統執行任務后描述他們的推理,以及一個預測任務,讓用戶預測人工智能系統會做什么。用戶的心理模型和專家的心理模型之間的比較顯示了用戶心理模型的完整性。

  • 促進好奇心。好的解釋會促進用戶的好奇心,以調查和解決心理模型中的知識差距。我們建議通過讓用戶識別促使他們要求解釋的觸發因素來衡量好奇心。一些觸發因素的例子是:人工智能系統行動的理由,為什么其他選項被排除在外,或者人工智能系統的行為不符合預期。

  • 對解釋的信任。一個好的心理模型能使用戶適當地信任人工智能系統,并在其操作范圍內使用它。建議使用一個包含八個項目的量表來衡量用戶對人工智能系統的信任。例如,這些項目涉及用戶對使用系統的信心以及系統的可預測性和可靠性。

  • 系統性能。與只使用人工智能系統而不使用XAI相比,XAI的最終目標是提高系統的整體性能。性能測量的例子包括主要任務目標的完成,用戶預測人工智能系統反應的能力,以及用戶的接受度。

未來的研究將提供更多關于在評估人工智能系統的XAI技術時如何解釋這些指標的信息。

4.2 評估本地解釋技術

第3.2章中描述的本地XAI技術產生了突出性地圖,以突出每個輸入維度的重要性。根據模型所處理的數據類型,顯著性圖的可視化程度是不同的。例如,在處理圖像時通常使用熱圖,而在處理文本時通常使用彩色編碼的字符和詞。

圖4.1展示了一個使用熱圖可視化的顯著性圖的例子。在這個例子中,熱圖是為數字0(圖4.1a)生成的,使用了梯度顯著性(圖4.1b)和LRP技術(圖4.1c)。重要的維度(即圖像中的像素)由較暖的顏色(如紅色、橙色、黃色等)表示,而非重要的維度則由較冷的顏色(深藍、藍、淺藍等)表示。這兩種技術之間的明顯區別可以從高亮維度的位置上直觀地觀察到。本節的其余部分介紹了可以用來定量比較和評估不同技術所產生的局部解釋的技術。最終,我們的目標是找出哪個解釋是最準確的。

圖4.1 - MNIST圖像及其相應的熱圖,使用梯度顯著性和LRP技術生成。圖像中的重要維度或像素用較暖的顏色(如紅色、橙色、黃色等)表示。

4.2.1 刪減

刪減[43, 34]是一個指標,通過測量模型在輸入逐漸被扭曲或刪減時準確做出預測的能力來計算。請注意,在這種情況下,刪減意味著將輸入的值轉換為中性的東西(例如,圖像的背景)。刪減過程是由XAI技術產生的顯著性圖指導的,因此更重要維度的值會在不太重要的值之前被刪減。這個指標的直覺是,如果在刪減過程中,性能下降很快,而不是很慢,那么解釋會更好。

圖4.2使用圖4.1b中的梯度顯著性圖說明了刪減過程。在圖4.2b中,50個最突出的像素已經被刪減。在這個階段,很容易推斷出該圖像仍然代表一個0。在圖4.2f中,超過一半的像素(400)已經被刪減。在這個階段,要推斷出圖像實際代表數字0要困難得多。

圖4.2 - 由MNIST圖像的刪減過程產生的圖像,其中0、50、100、200、300和400像素被刪除。

4.2.2 插入

插入指標[43]是對刪減的補充方法。圖4.3說明了在刪減例子中使用的同一MNIST圖像的插入過程。從最初的輸入(用黑色圖像表示)開始,隨著越來越多的輸入維度被插入,按照突出度圖的優先順序,測量準確度的增加。這里的直覺是,當更多的信息被插入到輸入中時,模型預測的準確性應該增加。也就是說,當增加的速度快時,與增加的速度慢時相比,解釋會更好。

圖4.3 - 從MNIST圖像的插入過程中產生的圖像,其中0、50、100、200、300和400像素被插入。

4.2.3 評價指標

為了證明刪減和插入的使用,使用梯度顯著性和LRP技術來衡量這些過程。在這種情況下,使用分類器對XAI技術進行了評估,該分類器從MNIST數據集中隨機抽取了100張圖像。

圖4.4和圖4.5分別顯示了刪減和插入過程的結果。曲線下的面積(AUC)是一種測量方法,可以用來定量比較XAI技術。對于刪減,較小的AUC值要比較大的值好。同樣,對于插入,較大的AUC值比較小的值要好。

在圖4.4中可以看到,LRP技術的性能曲線的下降更加尖銳,并在使用刪減過程時收斂到一個較低的平均概率值。這與它的熱圖是一致的,與梯度顯著性的熱圖相比,它突出了較少的特征(圖4.1c和4.1b),表明與梯度顯著性相比,LRP在較少的特征下更快地找到了解釋。同樣的結論可以從使用插入過程的結果中得出(圖4.5)。在這里,只需插入幾十個特征,就能觀察到平均概率的快速增加,在插入大約100個特征后達到高性能。

圖4.4 - 梯度顯著性和LRP的刪減曲線。

圖4.5 - 梯度突出性和LRP的插入曲線。

5 實驗結果:關于解釋自然語言預測的案例研究

在自然語言處理(NLP)領域,一個常見的機器學習任務是讓人工智能系統評估一個文本在多大程度上表達了消極、積極或中性的情緒(即情緒分析)。諸如 "我非常高興和感激!"這樣的句子顯然表達了積極的情緒,而 "我希望他很快見到他的造物主 "顯然是消極的,而 "他昨天到達 "可以被認為是中性的。積極的例子包含了直接標明它是積極的詞語,而消極的例子則需要對語言有更深的理解,才能抓住其明顯的消極含義。因此,一個文本可以在它所表達的情緒的種類和程度方面有所不同,也可以在它如何直接表達方面有所不同。為了理解人工智能系統是如何試圖理解輸入到它的文本中的情感,可以應用第4.2章中用來解釋圖像分類的同類技術。

5.1 情緒分析預測器

情緒分析模型是所謂的SentimentTagger模型的簡化版,該模型主要被內部用來預測推文(即Twitter上的帖子)中的情感。SentimentTagger模型由一個DNN和一個更傳統的NLP模塊組合而成。在這項工作中,只使用了該模型的DNN部分。DNN模型是使用遞歸(即RNN)和全連接(即FCNN)神經網絡層的組合設計的。RNN部分使用一種叫做長短時記憶(LSTM)的技術來實現,該技術專門為一個句子中的單詞或字符之間,甚至是跨句子的遠距離依賴關系建模。例如,在 "我昨天以便宜的價格買的車今天壞了 "這句話中,事件 "壞了 "指的是 "車",盡管它們被其他文字分開。

在SentimentTagger中使用的特定LSTM是通過將傳入的文本(一條推文)分解成其組成字母來觀察的。更確切地說,它看的是字符,如字母,但也包括標點符號、空白、表情符號等等。然后,該模型提取出一個善于模擬情感的中間表征。這個中間表征然后被送入FCNN以產生最終的情感預測。預測是一個在0和1之間的連續值,其中0是最消極的,1是最積極的。因此,這是一個回歸模型,就解釋而言,這意味著解釋不是對預測一個特定類別的貢獻,而是對該特定輸出值的貢獻。

SentimentTagger的預測過程如圖5.1所示。表5.1中還提供了該模型預測的一些例子。表5.1中前三條推文的預測結果與人類判斷的真實情感值很一致。接下來的三條是低估了積極情緒的例子,而最后三條是低估了消極情緒的例子。對于一些例子,如第六個例子,可以說SentimentTagger比人類標簽者做得更好。在所有情況下,了解SentimentTagger的估計依據是什么,將是有益的。

圖5.1 - SentimentTagger的結構。一條推文被送入LSTMRN,它產生一個中間表征。然后將其送入FCNN,反過來產生最終的情感預測。

表5.1 - SentimentTagger對推文進行情感預測的例子。

5.2 解釋方法

為了對SentimentTagger產生的預測進行解釋,我們采用了模型診斷性的LIME和SHAP技術。SHAP的版本(KernelSHAP)實際上是對LIME的修改(根據[38]中提出的一般公式),這使得比較變得有趣。在這種情況下,選擇與模型無關的方法的原因是,不同類型的神經網絡的串聯使得應用特定模型的方法變得非同尋常。

SentimentTagger分析推文所包含的字符,而不是在詞的層面。顯著性解釋的最直接表述是指出一條推文的每個字符對該推文的情緒預測有多大貢獻。圖5.2a給出了這樣一個解釋的例子,SentimentTagger預測該條推文的情緒為中性(0.47),而人類判斷的數值為輕微的消極(0.31)。那么,是什么推動了這種預測呢?在這里,顏色編碼被用來表示每個字符對增加或減少情感預測的貢獻。藍色表示消極貢獻(即消極情緒),紅色表示積極貢獻(即積極情緒)。接近透明紫色的顏色代表中性情緒。

這個例子似乎表明,"更好 "這個詞中的字符做出了積極的貢獻,而 "壞 "這個詞中的字符做出了消極的貢獻,而其他字符則提供了一個不太清晰的畫面。從單個字符的顯著性歸因中得出結論是很困難的,因為字符本身并不真正意味著什么。因此,雖然可能有理由讓情感預測模型在角色層面上工作,但可能應該在一個綜合的層面上提供解釋,以更好地映射到實際意義。

如果將字符級別的歸因匯總到包含相應字符的每個詞上,結果就會出現圖5.2b中的可視化。出現的畫面更加清晰,不僅可以看到 "更好 "和 "壞 "對預測的推動作用有多大,而且還可以看出 "什么時候"的輕微積極作用和 "某人 "和 "不耐煩"的輕微消極作用。最后,還可以注意到,"紅色 "和 "藍色 "的數量似乎大致相當,這解釋了為什么SentimentTagger決定對情緒進行中性評價。在后面的例子中,到單詞級別的解釋是可視化的。

圖5.2 - 一條推文,根據其對該推文的情感預測的貢獻,對字符和詞進行了顏色編碼。紅色表示對積極情緒的貢獻;藍色表示對消極情緒的貢獻。在這個案例中,模型預測的是中性情緒(0.47),而人類標注者對情緒的判斷是輕微的消極(0.31)。詞級顯著性的可視化似乎更清楚地映射了句子語義的重要性。

5.3 定性結果

表5.2顯示了九個在不同方面都很有趣的推文例子。顏色對應的是由SHAP做出的顯著性歸因(然后如上文所解釋的那樣匯總到詞級)。預測欄列出了由SentimentTagger預測的情感值,而真實值欄則顯示了由人類判斷分配的值。一個詞越紅,說明組成它的字符越多,共同推動了預測值的上升。反之,一個詞越是藍色,它的字符越是把預測值推低。

對于前三條推文,SentimentTagger的預測與人類的情緒判斷(在真值一欄)相當一致。盡管達成了一致,但有趣的是,SentimentTagger看了哪些詞來得出其預測結果。在第一條推文中,"愚蠢的"、"可怕的"、"丑陋的"、"糟糕的 "和 "不 "促使情緒向消極方向發展,但 "父親 "一詞是一個更強大的消極驅動因素。可以詢問SentimentTagger是否發現了消極形容詞與 "父親 "的組合,或者它是否足夠成熟,能夠識別出 "不是他們的父親 "是一個有害的聲明。第三條推文更清晰;"微笑 "做了大部分的積極作用。

第4條和第5條推文是SentimentTagger將消極情緒分配給實際上相當積極的推文例子。諸如 "醫院"、"走了 "和 "眼淚 "等詞被表面上解釋為消極的,而對上下文的正確理解會否定這種判斷。6號推文似乎也顯示了預測和真實情緒之間的差異。然而,可以說,問句形式所表達的不安全感實際上使預測比指定的標簽更接近事實。

在例子7到9中,關系是相反的,即預測嚴重低估了推文中表達的消極程度。一些被遺漏的消極情緒可能源于拼寫錯誤,如 "appauling"(7),缺失空格,如 "worstairline "和 "beyondajoke"(7),以及口語化的縮寫,如 "tf"(9),盡管一個字符級的LSTM預計會比一個單詞級的更好地處理輕微的拼寫錯誤和空格缺失。其他錯誤則更難解釋,如 "令人震驚"、"可怕"、"凄慘"(7)和 "刺激"(9)。例子8似乎表明,SentimentTagger錯過了 "刺激 "和 "高 "之間的聯系。

表5.3顯示了LIME對相同推文產生的顯著性歸因。雖然SHAP的歸因在很大程度上是可理解的,但并不完全符合直覺,LIME的版本則在很大程度上令人困惑。少數與直覺相符,如 "可笑"(1)、"欣賞"(2)和 "樂觀"(6),其中前兩個沒有被SHAP強調。有些直接與直覺相抵觸,例如 "無用"(7)和 "微笑"(3),后者也與SHAP相抵觸。然而,大多數只是顯得很隨意,如 "ajahnae"(1)、"ago"(2)、"will"(5)和 "today"(8)。這些不直觀的解釋是否表明SentimentTagger存在SHAP沒有發現的故障,或者SHAP的更直觀的歸因是否更準確地描述了LSTM實際在做什么?KernelSHAP在理論上是LIME的一個更好的基礎版本,這一事實表明了后者,但這些定性的結果不能提供任何證明。為了更客觀地比較這兩種解釋方法,在下一節將進行定量分析。

表5.2 - 選定的推文,按SHAP的顯著性數值進行著色,這些數值已經匯總到單詞級別。

表5.3 - 選定的推文,按照LIME的顯著性數值進行著色,這些數值已經匯總到單詞級別。

5.4 特征刪減分析

正如第4.2.1節所解釋的,刪減指標通過按照XAI技術賦予特征的顯著性順序來測試解釋方法的性能。一個好的XAI技術應該對那些對預測模型的輸出很重要的特征賦予很高的顯著性,因此按照這個順序刪減特征會使模型的性能急劇下降。在本案例中,按照突出性順序要刪減的特征是字符,在這種情況下,刪減一個特征意味著用一個空字符來代替它,比如一個制表符或一個空格,而預測模型是SentimentTagger。我們在一批500條推文的例子上對SentimentTagger的SHAP解釋和LIME解釋都進行了刪減測試,然后繪制了模型的預測性能如何隨著刪減的特征(字符)數量而下降。此外,作為一個基線,我們用一個隨機掩碼進行刪減,導致特征以隨機順序被刪減。由于SentimentTagger是一個回歸模型,它的性能不能用準確性來衡量。相反,我們使用了R2指標,該指標代表了對訓練好的模型解釋測試數據中的差異的程度的衡量。

圖5.3顯示了SentimentTagger的R2性能作為刪減數量的函數,分別按SHAP、LIME和隨機掩碼排序。很明顯,刪減測試有利于SHAP,因為它的曲線按照突出性歸因的順序迅速下降,而LIME的相應曲線則明顯不那么陡峭。LIME在刪減測試中的表現只比隨機掩碼略好。因此,SHAP似乎在識別少數特征(字符)方面做得更好,沒有這些特征,模型就無法準確預測。這也許并不奇怪,因為Shapley公式的設計就是為了做到這一點,而LIME則依賴于更多技術上的啟發式方法。然而,通過有選擇地將少數幾個字符替換為空白,甚至有可能完全消除SentimentTagger的性能,這一事實可能是關于此類模型的穩健性(或缺乏穩健性)的一個有趣的跡象。

更值得注意的是,在SHAP案例中,R2值在最初的10次左右的刪減后實際上下降到了零以下,然后隨著更多的刪減被執行,又向零移動。這意味著第一組刪減實際上導致模型的表現比忽略其輸入并總是做出相同預測的模型要差。隨著更多的刪減,模型的預測將趨向于中性預測,即對應于一個空推文,這相當于忽略輸入。因此,R2值會收斂到零。

圖5.3 - 對SentimentTagger預測的SHAP和LIME解釋的刪減分析。隨機順序的刪減被用作基線。該圖顯示了對模型性能的影響,如R2指標所衡量的,當特征按突出性順序被連續刪減(即字符被連續刪減)時。SHAP曲線最初的陡峭下降表明,SHAP善于發現哪些特征對模型性能最為關鍵。低于零的跌幅表明,戰略性的刪減會導致模型做出的情感預測與人類標注的真實情感相矛盾。LIME的緩慢下降表明LIME的顯著性值在尋找哪些特征對模型性能最關鍵方面不如SHAP值,只比隨機刪減稍好。

6 結論

深度學習將被用于補充和取代軍事系統的某些功能。事實上,DL技術已經在軍事監控系統中得到了應用,以自動檢測和跟蹤大量圖像數據中感興趣的物體[45]。與傳統的軟件技術相比,DL有幾個優勢。最重要的是,DL可以用來為那些使用傳統軟件技術無法建模的復雜過程建模。它還可以促進主動學習,即人工智能系統與用戶互動,以獲得高質量的數據,這些數據可用于增強運行中系統模型(即部署后)。

不幸的是,這些優勢也帶來了重大挑戰,不僅在技術上,而且在操作上都需要解決。在本報告中,重點是可解釋性的挑戰。DL的一個主要缺點是,即使學習算法、模型結構和訓練數據是已知的,并且被很好地理解,但模型本身的行為卻不是可解釋的。在許多用于音樂推薦和廣告目的民用應用程序中,這通常不是一個問題。然而,在軍事領域,理解和解釋人工智能系統的行為是至關重要的。在這種情況下,人工智能系統提供的決定和建議可能會對人類的生活產生深刻的影響。這在使用自主武器和無人機的戰術層面是有效的,在軍事領導人和政治決策者做出長期決定的作戰和戰略層面也是有效的。

也許有人會說,復雜的軍事系統,如戰斗機、潛艇、坦克和指揮與控制的決策支持工具,也是難以掌握的。雖然這是事實,但用于建立這些系統的技術本質上是可以解釋的。因此,如果出了問題,有可能完整地檢查系統以識別和糾正問題。而在DL中,情況并非如此。主要原因是,在現實世界的應用中,DNN經常由數百萬甚至數十億的參數組成。因此,即使是這些模型的創建者也沒有能力系統地解決模型中可能存在的錯誤。

在這份報告中,探討了為解決可解釋性挑戰而提出的幾種最先進的XAI技術。盡管已經取得了一些進展,但可以得出結論,用于軍事領域DL應用的XAI仍然處于起步階段。最終,即使已經提出了許多XAI技術,它們還沒有在軍事背景下被檢測過。因此,不能保證現有的XAI技術能夠在高風險的軍事AI系統中使用DL。

在為軍事目的開發人工智能系統時,我們建議在采購和開發過程中盡早確定可解釋性和可解釋性要求。最重要的是,這些要求的定義是可行的和可驗證的。也就是說,這些要求必須符合在可解釋性方面實際可能的期望。

在未來的工作中,我們打算開發一個評估框架,可以用來支持軍事人工智能系統中XAI能力的發展。

FOI

FOI,瑞典國防研究局,是瑞典國防部下屬的一個主要任務資助機構。其核心活動是研究、方法和技術開發,以及為瑞典國防和社會安全利益而進行的研究。該組織雇用了約1000名員工,其中約800名是科學家。這使得FOI成為瑞典最大的研究機構。FOI為其客戶提供了大量領域的前沿專業知識,如安全政策研究、國防和安全相關分析、各種類型威脅的評估、危機控制和管理的系統、有害物質的保護和管理、IT安全和新傳感器提供的潛力。

付費5元查看完整內容

斯考克羅夫特戰略與安全中心致力于制定可持續的、無黨派的戰略,以應對美國及其盟友和伙伴面臨的最重要的安全挑戰。該中心支持美國在與盟國、伙伴的合作中發揮領導作用,以及對培養下一代領導人提供指導。

執行摘要

在過去的幾年里,世界各地的軍隊對發展人工智能(AI)的興趣和投資有所增加,以支持一系列多樣化的國防和國家安全目標。然而,對于什么是人工智能,它如何影響美國和中國之間的戰略競爭,以及如何為這個部署軍事人工智能的新時代優化國防工業基礎,仍然缺乏普遍的理解。現在已經到了在人工智能方面見仁見智的時候了,在政策界和技術界之間建立對現代人工智能的共同理解,并在國防部(DoD)和其工業伙伴之間統一觀點和優先事項。因此,本文討論了以下核心問題。

(1)什么是人工智能,為什么國家安全政策制定者應該關心?

人工智能的能力有可能為美國國家安全和國防帶來改變游戲規則的優勢,包括

  • 大大加快和改善決策。
  • 加強軍事準備和作戰能力。
  • 提高人類的認知和身體能力。
  • 設計、制造和維持軍事系統的新方法。
  • 具有能打破微妙的軍事平衡的新能力。
  • 創造和檢測戰略網絡攻擊、虛假信息運動和影響作戰的能力。

對人工智能作為威懾和贏得未來戰斗所必需的關鍵能力,在美國防部內部得到了重視,美國防部在過去五年里對人工智能進行了顯著的投資。但是,五角大樓以外的政策制定者,以及公眾和正在開發人工智能技術的公司,都需要更好地了解當今人工智能的能力和局限性,并清楚地認識到人工智能對國家安全的積極影響和潛在的破壞性影響。

(2)為什么人工智能對戰略競爭至關重要?

五角大樓對人工智能的興趣也必須從與中國--以及在較小程度上與俄羅斯--的戰略競爭加劇的角度來看待,人們越來越理解在人工智能和相關新興技術方面的落后可能會損害美國軍隊自冷戰結束以來所保持的戰略、技術和行動優勢。一些國防領導人甚至認為,美國已經在軍事技術競爭中輸給了中國。

雖然本文不贊同這種宿命論的觀點,但本文認為軍事人工智能競爭的賭注很大,而且時間很短。

(3)美國防部采用人工智能的障礙是什么?

五角大樓臭名昭著的官僚主義、陳舊的采購和合同制度以及規避風險的組織文化,繼續抑制著美國防部引進外部創新和更快地走向廣泛的人工智能整合和采用的能力。解決這種系統性問題是一個很高的要求。但是,為促進美國防部與商業技術部門和創新初創企業的接觸,已經在進行重要的變革,而且似乎有一種共同的緊迫感,即鞏固這些公私伙伴關系,以確保美國持續的技術和軍事優勢。然而,在統一美國防部及其行業伙伴對人工智能發展最具影響力領域的看法,以及闡明和實施共同的技術標準和測試機制以實現可信賴和負責任的人工智能方面,仍有許多工作要做。

主要收獲和建議

國防部必須迅速行動起來,從對人工智能重要性的廣泛認可過渡到創建路徑、流程、實踐和原則,以加速采用人工智能技術所帶來的能力。如果沒有有意的、協調的和立即的行動,美國有可能在利用主導未來動能和非動能戰場的制勝技術方面落后于競爭對手。本報告為美國防部確定了三個行動方案,這些方案可以幫助確保美國軍隊保持其在人工智能領域的全球領先地位,促進更迅速地采用人工智能所需的內部變革,并利用充滿活力和多樣化的美國創新生態系統,包括

  • 優先考慮安全、可靠、可信和負責任的人工智能開發和部署
  • 調整人工智能發展的關鍵優先事項,加強美國防部和行業合作伙伴之間的協調,以幫助縮小人工智能能力的差距;以及
  • 促進領先的國防技術公司和非傳統供應商之間的協調,以加快美國防部人工智能的采用

本報告是在美國防部采用人工智能努力過程中和全球地緣政治的未來軌跡方面既合適又充滿不確定性的時候發表的。正在進行的烏克蘭沖突使限制獨裁者控制領土、人口、標準和言論的重要性變得非常明顯,而致力于維護長期國際行為規范的聯盟可以在這一努力中發揮作用。因此,作者敦促美國防部在政府層面,并在可能的情況下在工業層面與美國的盟友和可信賴的伙伴進行接觸和整合,以更好地實施本文的三項主要建議。

1 簡介

人工智能為國防政策制定者提供了一個重要的機會。人工智能處理和融合信息的能力,以及將數據提煉為增強決策的能力,可以在一個混亂的、有爭議的環境中撥開 "戰爭的迷霧",在這個環境中,速度是王道。人工智能還可以釋放出新型可損耗和一次性無人系統的可能性,從而增強威懾力。例如,它可以幫助保障美國軍人的生命,為指導沖突地區自主補給卡車的導航軟件提供動力。雖然人類仍然負責對目標做出最終決定,但人工智能算法在幫助情報專業人員識別和追蹤惡意行為者方面正日益發揮作用,目的是 "縮短殺戮鏈,加快決策速度"。

由于美國所處的更廣泛的地緣戰略背景,特別是與中國的戰略競爭,人工智能的發展和整合也勢在必行。中國人民解放軍(PLA)在人工智能方面的預算似乎與美國軍隊相當,而且解放軍正在為同樣廣泛的應用和能力開發人工智能技術,包括訓練和模擬、蜂群自主系統和信息操作,以及其他許多方面,所有這些都可能取代美國的軍事技術優勢。

正如美國國防部長勞埃德-奧斯汀在2021年7月指出的那樣,"中國的領導人已經明確表示,他們打算在2030年之前在人工智能方面成為全球主導。北京已經談及將人工智能用于一系列任務,從監視到網絡攻擊到自主武器"。美國不能落后于中國或其他競爭對手。

為了加快人工智能的采用,五角大樓必須面對它的弊端:一個孤立的官僚機構,它阻礙了有效的數據管理努力,并阻礙了大規模利用美國防部數據所需的技術基礎設施;陳舊的采購和合同流程,抑制了國防部引進外部創新和將成功的人工智能技術原型過渡到生產和部署;以及一種規避風險的文化,與已知的促進創新的開放、實驗和容忍失敗的類型不一致。

目前正在進行一些努力來解決其中的一些問題。直接向美國防部副部長報告的首席數據和人工智能官(CDAO)角色最近被宣布,以合并首席數據官辦公室、聯合人工智能中心(JAIC)和國防數字服務(DDS)。這一重組將美國防部的數據和人工智能工作置于一個屋檐下,以消除重疊的權力,原來的這種權力重疊性使得人工智能項目的規劃和執行變得困難。擴大使用替代性收購方法,像國防創新單位(DIU)和空軍的AFWERX正在彌合與商業技術部門的差距,特別是初創企業和非傳統供應商。盡管如此,一些技術領導人認為這些努力還不夠,警告說 "時間不多了"。

隨著美國國防部轉向大規模采用人工智能,本報告試圖提供有關現代人工智能未解決問題的見解,總結中國、俄羅斯在軍事人工智能發展方面的關鍵進展,并強調整個美國防部一些最引人注目的人工智能使用案例。報告還簡要評估了美國防部與其行業伙伴之間的不協調,這些不協調繼續阻礙五角大樓獲得美國軍隊所需的改變游戲規則的技術,以阻止對手的侵略并主導未來的戰場。

然而,競爭的緊迫性決不能掩蓋對指導美國軍隊進入人工智能時代的道德準則。因此,報告重申,有必要將美國防部的人工智能道德準則有效地轉化為評估可信度的共同技術標準和評估指標,并加強與國防部的行業合作伙伴--特別是初創企業和非傳統供應商在這些關鍵問題上的合作和協調。

在本報告的最后,為政策制定者和整個國家安全生態系統的其他人工智能利益相關者提出了一些考慮。具體而言,敦促美國防部優先考慮安全、可靠、可信和負責任的人工智能開發和部署,調整國防部和行業之間的人工智能發展的關鍵優先事項,以幫助縮小美國防部的人工智能能力差距,并促進領先的國防技術公司和非傳統供應商之間的協調,以加快國防部的人工智能采用進程。

2 人工智能創新和應用中的軍事競爭

推動美國防部人工智能開發和采用工作的緊迫性在很大程度上源于確保美國及其盟國在軍事技術競爭中超過中國,這種競爭已經主導了兩國之間的關系。俄羅斯的技術能力遠沒有那么發達,但其侵略行為破壞了全球安全,并威脅到美國和北約的利益。

中國

中國已將對人工智能的投資優先用于國防和國家安全,作為其努力成為 "世界級軍隊"的一部分,并在未來的 "智能化"戰爭中獲得優勢--人工智能(與其他新興技術一起)通過 "網絡化、智能化和自主系統和設備 "更完全地融入軍事系統和行動。

雖然中國人工智能相關活動的全部范圍并不廣為人知,但美國安全與新興技術中心(CSET)在2021年10月對343份與人工智能相關的中國軍事合同的審查估計,解放軍 "每年在人工智能相關的系統和設備上花費超過16億美元"。美國國家人工智能安全委員會(NSCAI)的最終報告評估說,"中國的計劃、資源和進展應該引起所有美國人的關注。它在人工智能的許多應用領域處于全球同等水平,而在一些應用領域是人工智能的領導者"。

CSET的審查和其他開源評估顯示,中國的人工智能發展的重點領域,就像美國的一樣廣泛,包括:

  • 智能和自動駕駛汽車,特別關注蜂群技術。
  • 情報、監視和偵查(ISR)。
  • 預測性維護和后勤。
  • 信息、網絡和電子戰。
  • 模擬和訓練(包括兵棋推演)。
  • 指揮和控制(C2);以及
  • 自動目標識別。

這些領域中的每一個進展都對美國在與中國的軍事技術競爭中保持同步的能力構成了挑戰。然而,值得研究的是,中國在兩個領域的進步能力可能對軍事平衡產生特別有力的影響

(1)整合

首先,人工智能可以通過人為地加強軍事整合和跨域作戰,幫助解放軍彌補作戰準備方面的差距。許多觀察家指出,解放軍缺乏沖突中的作戰經驗是一個關鍵的弱點。盡管從技術角度來看,中國不斷推進的軍事現代化令人印象深刻,但在過去二十年里,解放軍的人員都沒有像美國軍隊那樣在高端沖突中接受過火力考驗。解放軍繼續努力從組織和理論的角度提高其"聯合性",這也是剛剛起步,沒有經過測試。

使用人工智能來提高模擬和兵棋推演的質量、保真度和復雜性,是解放軍糾正這一關切領域的一種方式。新美國安全中心2019年的一份報告指出,"對中國軍事戰略家來說,從AlphaGo的勝利中學到的教訓之一是,人工智能可以在一場可以比作兵棋推演的游戲中創造出優于人類玩家的戰術和策略。"這可以更艱巨地考驗解放軍的決策者,改善指揮決策。事實上,CSET報告發現,在所調查的343份合同中,有百分之六是在模擬和訓練中使用人工智能,包括使用人工智能系統對臺灣突發事件進行戰爭演練。

圖:在美國國防部高級研究計劃局(DAPRA)的AlphaDogfight試驗中,一名作戰的F-16飛行員在虛擬現實模擬器中與Heron系統公司開發的冠軍F-16人工智能代理進行飛行。Heron人工智能代理在連續五場斗狗比賽中擊敗了人類飛行員,結束了試驗。資料來源:DARPA, //www.darpa.mil/news-events/2020-08-26

注重人工智能整合以減少經驗中的感知漏洞也適用于作戰和戰術訓練。2021年7月,中國出版物《環球時報》報道說,解放軍空軍(PLAAF)已經開始在飛行員的空戰訓練中部署人工智能作為模擬對手,以 "磨練他們的決策和戰斗技能,對抗快速計算的計算機"。

除了虛擬模擬,中國還旨在利用人工智能來支持飛行員在真實世界飛機上的訓練。在2020年11月播出的中國中央電視臺(CCTV)節目中,中國L-15教練機的總設計師張弘指出,訓練飛機上的人工智能可以 "識別每個飛行員在飛行中的不同習慣。通過管理它們,我們將讓飛行員更安全地成長,在未來獲得更多的戰斗能力"。

值得注意的是,解放軍空軍2021年7月的人工智能與人類的斗狗類似于美國國防部高級研究計劃局(DARPA)2020年9月的AlphaDogFight挑戰賽,在一系列五次模擬斗狗中,一個人工智能代理擊敗了人類飛行員。 同樣,美國在2021年9月宣布與訓練和模擬公司Red 6簽訂合同,將該公司的機載戰術增強現實系統(ATARS)--該系統允許飛行員駕駛真實世界的飛機,使用增強現實耳機與人工智能生成的虛擬飛機進行訓練--整合到T-38 "塔隆"訓練器中,并計劃最終在第四代飛機上安裝該系統。由于中國軍隊正在利用人工智能來提高戰備水平,美國防部不能落后。

(2)自主性

中國人工智能發展的第二個重點領域是自主系統,特別是蜂群技術,其中幾個系統將獨立運行或相互配合,以混淆和壓倒對手的防衛系統。中國對發展蜂群技術的興趣和能力已經得到了很好的證明,包括2017年6月創紀錄地發射了118架小型無人機組成的互聯蜂群。

據報道,2020年9月,中國電子信息研究院(CAEIT)從一輛改裝的東風猛士輕型戰術車上發射了200枚固定翼CH901徘徊彈藥群。2022年2月在阿布扎比舉行的2022年無人駕駛展的調查顯示,不僅中國的參展陣容強大--中國航空技術進出口總公司(CATIC)和中國北方工業公司(NORINCO)都有大型展館,而且還將重點放在 "協作"行動和智能蜂群。

圖:2月在阿布扎比舉行的UMEX 2022展會上展示的協作式蜂群無人機的一個例子。

對蜂群的興趣并不限于無人駕駛飛行器(UAVs)。據《環球時報》報道,中國也在發展部署自主無機組人員水面飛行器(USVs)群的能力,以"攔截、圍攻和驅逐入侵目標"。 2021年11月,中國公司云洲科技--它在2018年進行了一個由56個USV組成的蜂群的演示--發布了一段視頻,顯示六個USV進行了 "合作對抗",作為將一艘有船員的船只從中國水域移走的一部分。不難想象,這種合作對抗可以如何針對美國或盟國的海軍船只,甚至商業船只進行部署,以發展或維持海上控制。這種能力在灰色地帶的突發事件中尤為強大,在這種情況下,升級的擔憂可能會限制反應的選擇。

俄羅斯

在人工智能的投資和能力方面,俄羅斯落后于美國和中國。因烏克蘭戰爭而實施的制裁也可能給俄羅斯的科技部門帶來巨大損失。盡管如此,美國國家決策者不應低估俄羅斯以不對稱的方式使用人工智能技術來破壞美國和北約利益的潛力。俄羅斯國防部有許多自主性和人工智能相關的項目,處于不同的開發和實驗階段,涉及軍事機器人、無人系統、蜂群技術、預警和防空系統、ISR、C2、后勤、電子戰和信息操作。

俄羅斯軍事戰略家認為,在未來的戰場上,更大的自主權和人工智能具有巨大的潛力,可以加快信息處理,增強決策,提高態勢感知,并保障俄羅斯軍事人員的生命安全。自主和人工智能系統的發展和使用也在俄羅斯軍事理論的更廣泛背景下進行討論。其理論重點是利用這些技術來擾亂和破壞對手的指揮和控制系統以及通信能力,并利用非軍事手段在戰爭初期建立信息優勢,從俄羅斯的角度來看,這包括與美國和北約等對手的非軍事沖突時期。

俄羅斯人工智能的發展軌跡是不確定的。但是,由于持續的制裁,俄羅斯很可能會在微電子方面越來越依賴中國,并在與美國的技術競爭中進一步落后。

3 美國在人工智能方面的軍事進展概述

五角大樓對人工智能的興趣和緊迫性既是由于技術發展的速度加快,也是由于它所能帶來的變革性能力越來越強。事實上,人工智能正準備從根本上改變軍隊思考、準備、執行和維持行動的方式。根據大西洋理事會以前的報告大綱,"五次革命 "框架對人工智能在五個廣泛的能力領域的潛在影響進行了分類,下面的圖3說明了人工智能可以通過不同的方式增強人類的認知和身體能力,融合網絡和系統以獲得最佳效率和性能,并在信息空間中迎來一個網絡沖突和混亂的新時代,以及其他影響。

圖3:跨越未來軍事能力發展的五個廣泛目標的人工智能優先發展項目概述。

  • 邁向完美的態勢感知:感知、處理和認知

  • 即將到來的設計時代:制造、供應鏈和物流

  • 超能力平臺和人員:人機性能增強

  • 連接性、致命性和靈活性:通信、導航、目標定位和打擊

  • 監控、操縱和武器化:網絡和信息作戰

美國防部目前有六百多項與人工智能相關的工作正在進行中,其愿景是將人工智能融入國防部任務的每一個要素--從作戰行動到支持和維持功能,再到支撐龐大的國防部企業的商業運作和流程。美國政府問責局(GAO)2022年2月的一份報告發現,國防部正在追求人工智能的作戰能力,主要集中在"(1)通過情報和監視分析識別目標,(2)向戰場上的作戰人員提供建議(如在哪里移動部隊或哪種武器最適合應對威脅),以及(3)增加無人駕駛系統的自主性。 "國防部的大多數人工智能能力,特別是與作戰有關的努力,仍處于開發階段,尚未與具體的系統接軌或整合。而且,盡管在實驗中取得了明顯的進展,并在作戰行動中部署人工智能能力方面取得了一些經驗,但在廣泛采用方面仍然存在著重大挑戰。

2021年9月,空軍第一任首席軟件官尼古拉-沙伊蘭辭職,以抗議官僚主義和文化挑戰,這些挑戰減緩了技術的采用,阻礙了美國防部以足夠快的速度與中國有效競爭。在沙伊蘭看來,20年后,美國及其盟友 "將沒有機會在一個中國擁有巨大人口優勢的世界中競爭。"后來,他補充說,中國基本上已經贏了,他說,"現在,這已經是一筆交易了。"

沙伊蘭關于美國與中國進行無用競爭的評估肯定不是整個美國防部都認同的,但它反映了許多人認為在該部門規避風險和深思熟慮的文化中缺乏緊迫感。

JAIC的負責人Michael Groen中將同意,"在國防部內部,必須發生文化變革。"然而,他也吹捧了美國的創新能力,并強調建立了一個人工智能加速器,并最終確定了一個聯合共同基金會(JCF),用于人工智能的開發、測試和在國防部各實體之間共享人工智能工具。"支持云的JCF是向前邁出的重要一步,將允許基于共同標準和架構的人工智能開發。這應有助于鼓勵各軍種和國防部各部門之間的共享,并且根據JAIC的說法,確保 "國防部一個人工智能倡議的進展將在整個國防部企業中形成勢頭。"

雖然取得的進展值得贊揚,但仍然存在障礙,這些障礙延緩了人工智能能力的采用,而這種能力對于在不久的將來遏制威脅,以及應對中國在這十年及以后的競爭挑戰至關重要。

下面的三個案例研究提供了美國防部人工智能工作中出現的技術、官僚主義和采用方面的進步的例子。這些案例還強調了阻礙美國在與中國以及在較小程度上與俄羅斯的軍事技術競爭加劇的情況下,充分運用其國家創新生態系統的能力的持久性問題。

圖4:聯合人工智能中心(JAIC)的人工智能采用階段。

用例1:JADC2的不可逆轉勢頭、遠大目標和集成挑戰

五角大樓最重要的現代化優先事項之一是聯合全域指揮與控制(JADC2)計劃,該計劃被描述為 "將所有軍種的傳感器連接到一個單一網絡的概念。"根據美國國會研究服務部的說法,"JADC2打算通過從眾多傳感器收集數據,使用人工智能算法處理數據以識別目標,然后推薦最佳武器(包括動能和非動能武器)來對付目標,使指揮官能夠做出更好的決策。 "如果成功的話,JADC2有可能消除各軍種C2網絡之間的孤島,這些孤島以前減緩了整個部隊的相關信息傳輸。因此,產生更全面的態勢感知,指揮官可以據此做出更好和更快的決定。

2021年12月,有報道稱JADC2跨職能小組(CTF)將成立一個 "AI for C2 "工作組,該工作組將研究如何利用負責任的AI來加強和加速指揮和控制,這加強了負責任的AI對該項目的核心作用。

2022年3月,美國防部發布了其JADC2實施計劃的非保密版本,用參謀長聯席會議主席馬克-米利將軍的話說,此舉代表了實施JADC2 "不可逆轉的勢頭"。

然而,觀察家們強調,在按照保持(或恢復)感知、處理和認知方面的優勢所需的緊迫時間表實施JADC2方面,有幾個持續的挑戰。特別是相對于中國而言。

圖5. JADC2的邏輯圖反映了與國防部JADC2實施計劃相關的復雜性和雄心。資料來源:美國國防部。

數據安全和網絡安全、數據管理和共享問題、與盟友的互操作性以及與軍方網絡整合相關的問題,都被認為是認識到JADC2方法的宏偉前景所面臨的挑戰。一些人還強調,這種包羅萬象的雄心也是一種挑戰。哈德遜研究所的布萊恩-克拉克和丹-帕特認為,"當今威脅的緊迫性和新技術帶來的機遇要求五角大樓領導人將JADC2的重點從美國軍事部門的需求轉向作戰人員的需求。

可以肯定的是,在人工智能開發和整合項目中,不一定要避免宏偉的野心。然而,采用的途徑將需要在難以實現的、官僚主義的、耗時的和昂貴的目標與開發能夠在美國部隊面臨的更直接的威脅時限內提供能力和優勢的系統之間取得平衡。

用例2:脆弱的人工智能和將人工智能納入目標的道德和安全挑戰

2021年9月,空軍部長弗蘭克-肯德爾宣布,空軍已經 "首次將人工智能算法部署到實際作戰的殺傷鏈中,這表明部署人工智能的時代確實已經到來。"根據肯德爾的說法,將人工智能納入目標定位過程的目的是 "大大減少人工識別目標的人力密集型任務--縮短殺傷鏈并加快決策速度。" 成功使用人工智能支持目標定位是人工智能發展的一個里程碑,盡管在更全面地采用人工智能的作用方面仍然存在道德、安全和技術挑戰。

例如,2021年美國防部的一項測試強調了人工智能的脆弱性問題。根據Defense One的報道,測試中使用的人工智能目標定位在人工智能不得不從不同角度破譯數據的環境中只有大約25%的時間是準確的,盡管它認為它有90%的時間是準確的,這表明缺乏 "適應一套狹窄的假設之外條件"的能力。"這些結果說明了今天的人工智能技術在安全關鍵環境中的局限性,并加強了在一系列條件下對人工智能進行積極和廣泛的現實世界和數字世界測試和評估的必要性。

人工智能目標定位的道德和安全也可能構成對進一步采用的挑戰,特別是隨著對人工智能算法的信心增加。空軍的行動涉及自動目標識別的輔助作用,協助 "情報專家"--即人類決策者。當然,國防部有一個嚴格的目標定位程序,人工智能的目標定位算法將是其中的一部分,再往前想,自主系統將必須通過這一程序。然而,即使它們是這一程序的一部分,并被設計用來支持人類的決定,高錯誤率加上對人工智能輸出的高度信任,有可能導致不理想或嚴重的結果。

用例3:人工智能在信息領域應用的局限性

與中國和俄羅斯日益激烈的競爭正在信息和網絡領域上演,對美國安全以及美國經濟、社會和政體具有真實、持久和破壞性的影響。

對于網絡和信息行動來說,人工智能技術和技能是未來進攻和防御行動的核心,突出了人工智能在信息領域的危險性和前景。

人們對智能機器人、合成媒體的威脅越來越關注,例如描述沒有發生過的事件或聲明的逼真視頻或音頻制品,以及能夠創造出令人信服的散文和文本的大型語言模型。雖然虛假信息是一個需要社會和整個政府應對的挑戰,但國防部無疑將在管理和應對這一威脅方面發揮關鍵作用--由于其在美國政治和社會中的突出地位,其職能作用的性質,以及其持續活動的影響。

人工智能在五角大樓和其他美國政府檢測機器人和合成媒體的努力中處于領先地位。例如,DARPA的MediaForensics(MediFor)項目正在使用人工智能算法來 "自動量化圖像或視頻的完整性"。

然而,鑒于合成媒體通過社交媒體的傳播速度,人們對這種檢測的速度表示擔憂。正如聯合參謀部首席信息官丹尼斯-克拉爾中將所觀察到的,"機器和人工智能贏得其中一些信息運動的速度改變了我們的游戲......數字化轉型、預測分析、ML、人工智能,它們正在改變游戲......如果我們不匹配這種速度,我們將使其達到正確的答案,而這種正確的答案將完全不相關。"

4 加快美國防部AI的應用

正如上面的討論所示,美國防部在成功部署人工智能信息管理和決策支持工具的基礎上,有一系列廣泛的人工智能相關舉措,處于不同的發展和實驗階段。隨著重點轉向整合和擴展,加快這些采用工作對于保持美國在與中國的戰略競爭中的優勢以及有效遏制俄羅斯至關重要。

在這一節中,本文強調了美國防部與其工業伙伴之間關系的一些不協調,這些不協調可能會導致失去創新和有影響力的人工智能項目的機會,擴大使用替代采購方法的積極影響,以及日益緊迫的調整過程和時間表,以確保美國軍隊能夠獲得未來戰爭的高水準技術能力。此外,本節還討論了國防部實施道德人工智能原則的方法,以及與可信和負責任系統的標準和測試有關的問題。

4.1 美國防部和工業界的伙伴關系:統一觀點、流程和時間安排

盡管國防部已經發布了一些高級別文件,概述了人工智能發展和部署的優先領域,但市場滿足,甚至理解這些需求的能力還遠遠不夠。最近,IBM對來自全球國防組織的250名技術領導人進行了調查,揭示了國防技術領導人和國防部如何看待人工智能對組織和任務的價值的一些重要差異。例如,只有約三分之一的受訪技術領導人表示,他們認為人工智能對軍事后勤、醫療和健康服務以及信息操作和深層假想有重大的潛在價值。當被問及人工智能支持的解決方案對商業和其他非戰斗應用的潛在價值時,不到三分之一的人提到了維護、采購和人力資源。

這些觀點與國防部在人工智能方面的目標有些不一致。例如,包括設備維護和采購在內的軍事后勤和維持職能是國防部實施人工智能的首要任務之一。Leidos與退伍軍人事務部的合作也說明了人工智能在醫療和健康服務方面的潛力。最后,隨著人工智能在虛假信息運動中的使用已經開始,正如上一節的討論所強調的那樣,迫切需要開發技術措施和人工智能支持的工具,以檢測和反擊人工智能驅動的信息行動。

國防部及其行業伙伴基于各自的問題集和任務,有不同的優先事項和激勵措施。但是,對人工智能發展的有價值和關鍵領域的不同觀點可能會導致失去有影響力的人工智能項目的機會。也就是說,即使五角大樓和它的工業伙伴在人工智能方面意見一致,有效的合作也常常被一個笨拙的官僚機構所阻撓,這個機構常常被傳統的流程、結構和文化束縛。

國防部的預算規劃、采購、收購和簽約流程,總的來說,不是為購買軟件而設計的。這些 這些體制上的障礙,再加上復雜而冗長的軟件開發和合規條例,對小型初創企業和非傳統供應商來說尤其困難,因為他們缺乏資源、人員和事先的知識,無法像國防部的主要部門那樣駕馭這個系統。

國防部清楚地意識到這些挑戰。自2015年以來,國防部長辦公室和各軍種已經建立了幾個實體,如DIU、AFWERX、NavalX和陸軍應用實驗室,與商業技術部門,特別是初創企業和非傳統供應商對接,目的是加速提供同類最佳的技術解決方案。同時,國防部還采取了其他值得注意的措施,以促進使用替代性的采購和合同,這為構建和執行協議提供了比傳統采購更大的靈活性。這些包括 "其他交易授權、中間層采購、快速原型設計和快速投入使用以及軟件采購的專門途徑"。

DIU一直處于使用其中一些替代性采購途徑的前沿,從商業技術部門采購人工智能解決方案。空軍的AFWERX還與空軍研究實驗室和國家安全創新網絡合作,創新地利用小企業創新研究(SBIR)和小企業技術轉讓(STTR)資金,以 "提高項目的效率、有效性和過渡率"。例如,在2021年6月,美國空軍SBIR/STTR人工智能投標日向關于 "可信人工智能,這表明系統是安全、可靠、強大、有能力和有效的 "主題的提案提供了超過1800萬美元。

這些都是朝著正確的方向邁出的步伐,而且確實變得更容易獲得國防部的研究、開發和原型制作資金。然而,及時獲得生產資金仍然是一個重大挑戰。這個 "死亡之谷 "的問題--研究和開發階段與一個既定的、有資金記錄的項目之間的差距--對于非傳統的國防公司尤其嚴重,因為風險資本對初創企業的資助周期與將一個項目納入國防部預算所需的時間之間存在差異。

五角大樓明白,彌合 "死亡之谷 "對于推進和擴大創新至關重要,并在最近啟動了快速國防實驗儲備,以處理這些問題。然而,使預算規劃、采購和簽約流程與私人資本的步伐相一致所需的系統性變化,需要國會采取行動,并可能需要數年時間來實施。在實施這些改革方面的延誤正在損害國防部獲得尖端技術的能力,而這些技術在未來的戰場上可能是至關重要的。

4.2 建立可信賴和負責任的人工智能系統

確保美國軍隊能夠使用安全可信的人工智能和自主系統,并按照國際人道主義法律使用這些系統,將有助于美國保持其競爭優勢,以對抗俄羅斯等對人工智能的道德使用承諾較少的專制國家。強調值得信賴的人工智能也是至關重要的,因為國防部的大多數人工智能項目都需要人機合作和協作的元素,它們的成功實施在很大程度上取決于操作者對系統的足夠信任和使用。最后,國防部和行業伙伴之間就可信和負責任的人工智能的共享標準和測試要求進行更密切的協調,對于推進國防部人工智能的采用至關重要。

除了國防部現有的武器審查和目標程序,包括自主武器系統的協議,該部門還在尋求解決倫理、法律和政策的模糊性,以及人工智能更具體的風險。2020年2月,五角大樓通過了五項道德原則來指導人工智能的發展和使用,呼吁人工智能是負責任的、公平的、可追溯的、可靠的和可治理的。為了將這些原則付諸實踐,國防部副部長凱瑟琳-希克斯發布了一份備忘錄,指示采取一種 "整體的、綜合的和有原則的方法 "來整合負責任的人工智能(RAI),包括六個原則:管理、作戰人員的信任、產品和采購生命周期、需求驗證、負責任的人工智能生態系統和人工智能勞動力。

同時,2021年11月,DIU發布了其負責任的人工智能指導方針,響應了備忘錄中對 "工具、政策、流程、系統和指導 "的呼吁,將道德的人工智能原則納入該部門的采購政策。這些指導方針是在國防部人工智能項目中操作和實施道德的具體步驟,建立在DIU在預測健康、水下自主、預測性維護和供應鏈分析等領域的人工智能解決方案的經驗上。它們的目的是可操作的、自適應的和有用的,同時確保人工智能供應商、國防部利益相關者和DIU項目經理在人工智能系統生命周期的規劃、開發和部署階段考慮到公平、問責和透明度。

國防部人工智能項目的成功將在很大程度上取決于確保人類發展并保持對其智能機器隊友的適當信任。因此,國防部對可信人工智能的強調越來越多地體現在其一些旗艦人工智能項目中。例如,2020年8月,DARPA的空戰進化(ACE)項目吸引了大量的關注,因為一個人工智能系統在模擬的空中斗犬比賽中擊敗了空軍的一名頂級F-16戰斗機飛行員。 ACE的一個關鍵問題是 "如何讓飛行員足夠信任人工智能并使用它",而不是讓人類與機器對決。ACE選擇了斗狗場景,很大程度上是因為這種類型的空對空戰斗包含了許多成為戰斗機飛行員群體中值得信賴的伙伴所必需的基本飛行動作。讓人工智能掌握作為更復雜任務基礎的基本飛行動作,如壓制敵方防空系統或護送友軍飛機。根據ACE項目經理的說法,AlphaDogfight試驗是 "關于增加對人工智能的信任"。

人工智能的發展速度很快,因此很難設計和實施一個足夠靈活的監管結構,以保持相關性,同時又不至于限制性太強而扼殺創新。與國防部合作的公司正在尋求符合國防部人工智能道德原則的人工智能系統的開發、部署、使用和維護的指導方針。這些行業伙伴中的許多人已經采用了他們自己的可信和負責任的人工智能解決方案的框架,強調了安全、安保、穩健、彈性、問責制、透明度、可追溯性、可審計性、可解釋性、公平性和其他相關質量等屬性。

圖:2021年10月19日,在亞利桑那州尤馬試驗場,一名美國陸軍士兵使用戰術機器人控制器來控制遠征模塊化自主車輛,作為準備 "聚合項目 "的練習活動。在 "聚合項目21 "期間,士兵們試驗了使用這種車輛進行半自主偵察和再補給。無論是在戰場上還是在戰場之外,對自主和半自主車輛等人工智能能力的信任對于成功至關重要。

目前,對于什么是道德或值得信賴的人工智能系統,沒有共同的技術標準,這可能會使非傳統的人工智能供應商難以設定預期,并在官僚機構中穿梭。國防部不直接負責制定標準。相反,2021年國防授權法案(NDAA)擴大了國家標準與技術研究所(NIST)的任務,"包括推進人工智能的合作框架、標準、指導方針,支持開發人工智能系統的風險緩解框架,并支持開發技術標準和指導方針,以促進值得信賴的人工智能系統"。2021年7月,NIST在制定其人工智能風險管理框架時,向利益相關者發出了信息請求,旨在幫助組織 "將可信性考慮納入人工智能產品、服務和系統的設計、開發、使用和評估"。

對這一挑戰沒有簡單的解決方案。但是,讓政府、行業、學術界和民間社會的利益相關者參與進來的合作過程可以幫助防止人工智能的發展走上社交媒體的道路,在社交媒體上,公共政策未能預測到虛假信息和其他惡意活動在這些平臺上造成的風險和損失,而且反應緩慢。

與標準相關的是與測試、評估、驗證和確認(TEVV)相關的挑戰。測試和驗證過程是為了 "幫助決策者和操作者了解和管理開發、生產、操作和維持人工智能系統的風險",對于建立對人工智能的信任至關重要。國防部目前的TEVV協議和基礎設施主要是針對主要的國防采購項目,如船舶、飛機或坦克;它是線性的、順序的,而且一旦項目過渡到生產和部署,最終是有限的。然而,對于人工智能系統,"開發從未真正完成,所以測試也是如此。"因此,像人工智能這樣的適應性強、不斷學習的新興技術需要一個更加敏捷和迭代的開發和測試方法,正如NSCAI建議的那樣,"將測試作為需求規范、開發、部署、培訓和維護的持續部分,包括運行時監測操作行為。"

建立在開發、安全和運營(DevSecOps)的商業最佳實踐基礎上的綜合和自動化的開發和測試方法,更適合于人工智能/ML系統。雖然JAIC的聯合基金有可能實現真正的人工智能DevSecOps方法,但在整個國防部擴大這種努力是一個重大挑戰,因為它需要對當前的測試基礎設施進行重大改變,以及更多的資源,如帶寬、計算支持和技術人員。也就是說,如果不開發更適合人工智能的新測試方法,不調整當前的測試基礎設施以支持迭代測試,將阻礙大規模整合和采用可信和負責任的人工智能的努力。

上述關于標準和TEVV的討論概括了現代人工智能系統對現有國防部框架和流程的獨特挑戰,以及商業技術公司和國防部對人工智能開發、部署、使用和維護的不同方法。為了加速人工智能的采用,國防部及其行業伙伴需要在具體的、現實的、與操作相關的標準和性能要求、測試過程和評估指標上更好地保持一致,并納入道德的人工智能原則。一個以可信和負責任的人工智能為導向的國防技術生態系統可以促進最佳做法的相互交流,并降低非傳統供應商和初創公司所面臨的官僚主義和程序性障礙。

5 主要收獲和建議

充分發揮人工智能推動成本和時間效率的能力,支持人類決策者,并實現自主性,將需要更多的技術進步或開發新的作戰概念。下面,我們概述了優先努力的三個關鍵領域,以更成功地將人工智能納入整個國防部事業,并確保美國能夠阻止威脅,并保持對其競爭對手和潛在對手的戰略、戰役和戰術優勢。

5.1 優先考慮安全、可靠、受信任和負責任的人工智能開發和部署

與中國日益激烈的戰略競爭,精湛的技術和強有力作戰能力,以及與私營部門快速的技術開發和整合速度的比較,都給國防部帶來了壓力,使其更快地走向人工智能系統的實戰。在人工智能發展中鼓勵更大的風險容忍度,以便在大規模采用人工智能方面取得進展,這有很多好處。但是,僅僅為了 "超越 "中國而匆忙部署容易受到一系列對手攻擊的人工智能系統,并且很可能在作戰環境中失敗,這將被證明是適得其反。

指導美國軍隊的道德準則反映了對遵守戰爭法則的基本承諾,而此時,一些獨裁國家對人權和人道主義原則很不重視。同時,國防部對新能力的測試和保證采取了嚴格的方法,旨在確保新武器的使用是負責任的和適當的,并盡量減少事故、誤用和濫用系統和能力的風險,因為這可能會產生危險,甚至是災難性的影響。美國與許多盟友和伙伴共享的這些價值觀和原則,在與專制國家競爭時是一種戰略資產,因為它們正在部署人工智能軍事系統。為了鞏固國防部在這個領域的優勢,我們建議采取以下步驟。

  • 美國防部應將DIU的“負責任的人工智能指南”納入相關的提案請求、招標和其他材料中,要求承包商展示他們的人工智能產品和解決方案是如何實施國防部的人工智能道德原則。這將設定一套共同和明確的期望,幫助非傳統的人工智能供應商和初創公司在五角大樓的提案過程中游刃有余。最近有國防部為項目制定收購類別的先例,要求工業界調整其開發過程,以滿足不斷變化的國防部標準。例如,在2020年9月,美國空軍為所有采購工作制定了e系列采購指定,要求供應商使用數字工程實踐--而不是原型--作為他們激勵行業接受數字工程的一部分。

  • 美國防部的行業合作伙伴,特別是非傳統的人工智能供應商,應積極與NIST合作,因為該機構繼續努力制定標準和指導方針,以促進可信賴的人工智能系統,以確保他們的觀點為后續框架提供信息。

  • 本文提到的有效采用人工智能的挑戰包括人工智能的脆弱性和對手旨在破壞人工智能算法的網絡攻擊可能性。克服這些挑戰將需要國防部繼續致力于提高國防部人工智能系統測試和評估的速度、種類和能力,以確保這些系統在更廣泛的不同環境下發揮預期功能。其中一些測試需要在真實世界的環境中進行,但基于模型的模擬的進步可以使人工智能系統的性能在數字/虛擬世界中得到越來越多的驗證,減少與這種測試相關的成本和時間。

圖:人工智能可以極大地重塑未來的戰場。為了實現這一愿景,美國防部必須采取關鍵步驟,有效利用人工智能。資料來源:美國陸軍。

  • 此外,美國防部還應該利用國防部研究與工程副部長(USDR&E)的測試實踐和優先事項,以確保計劃和部署的人工智能系統能夠抵御對手的攻擊,包括數據污染和算法損壞。

  • 美國防部應利用盟友和外國合作伙伴來開發、部署和采用可信的人工智能。這種性質的參與對于協調人工智能發展和使用的共同規范至關重要,這些規范遏制并對抗中國和俄羅斯的獨裁技術模式。擴大現有合作模式和建立新的伙伴關系的途徑可以包括以下內容:

i. 加強對道德、安全和負責任的人工智能的重視,將其作為全日空防務伙伴關系的一部分,通過評估成員方法的共同點和差異,確定未來聯合項目和合作的具體機會。

ii. 與 "五眼"、北約和AUKUS伙伴交叉分享和實施聯合道德項目。除了支持互操作性,這將增加視角和經驗的多樣性,并有助于確保人工智能發展工作限制各種形式的偏見。正如本項目所采訪的一位前將軍所指出的,"多樣性是我們確保可靠性的方式。它是必不可少的。"

iii. 擴大與不同能力和地域的盟友和合作伙伴的聯系,包括印度、南非、越南,以探索雙邊和多邊研發工作和技術共享計劃的機會,解決可信和負責任的人工智能的技術屬性。

5.2 調整人工智能發展的關鍵優先事項,加強國防部和工業伙伴之間的協調,以幫助縮小國防部人工智能能力的差距

如果不與廣泛的技術公司建立密切的伙伴關系,國防部將無法實現其在人工智能方面的雄心壯志,并與中國通過軍民融合采購技術創新的模式進行有效競爭。這包括與五角大樓有長期聯系的國防工業領導人,處于全球創新前沿的技術巨頭,尋求擴大其政府投資組合的商業技術參與者,以及處于人工智能發展前沿的初創企業。但是,國防部的預算規劃、采購、收購、簽約和合規流程可能需要從根本上進行重組,以有效地與這個充滿活力和多樣化的技術生態系統的整體接觸。

系統性變革是一個緩慢而艱巨的過程。但是,拖延這一過渡有可能使美國軍隊在利用人工智能承諾提供的優勢方面落后,從作戰速度到決策主導權。同時,以下行動可以幫助改善與行業伙伴的協調,以加快國防部采用人工智能的努力。

  • 國防部應評估其溝通和外聯戰略,以澄清和精簡圍繞該部門在人工智能方面的優先事項的信息。

  • 國防部應與技術公司合作,重新審查他們對某些類別的人工智能解決方案的潛在價值的評估,包括但不限于后勤、醫療和健康服務以及信息操作。

  • 國防部應實施NSCAI的建議,加快對采購專業人員的培訓,使其了解采購和簽約的全部可用選擇,并激勵他們使用人工智能和數字技術。" 此外,這種采購人員培訓舉措應確保采購專業人員充分了解國防部的人工智能倫理原則以及可信和負責任的人工智能的技術層面。國防部的道德準則可以作為這種培訓的基礎。

5.3 促進領先的國防技術公司和非傳統供應商之間的協調,以加快美國防部人工智能的采用

在中短期內,美國防部將不會建立全新的人工智能系統,而是將人工智能整合到一系列現有的軟件和硬件系統中--從網絡防御架構到戰斗機到C2。因此,實施人工智能的進展也將取決于簡化國防部一直在爭取的創新和尖端技術的初創公司和非傳統人工智能供應商與負責將新能力整合到傳統系統的國防部門之間的合作。

NSCAI建議確定 "國防部門與非傳統公司合作的新機會,以便在現有平臺上更快地采用人工智能能力。"我們贊同這一建議:改進國防部門與非傳統公司之間的協調可以幫助確保人工智能解決方案是強大的,有彈性的,與作戰相關的,以及引導有前途的原型穿過 "死亡之谷"。

毫無疑問,從概念到實踐可能是很棘手的。本文的研究顯示,在將創新的新技術從實驗室轉移到記錄項目中采用的主要挑戰在哪里,人們的觀點存在著很大的分歧。初創企業傾向于認為系統集成商抗拒參與,而初創企業可能被認為缺乏對收購過程的理解,以及開發的技術難以整合到記錄項目中,或難以擴大規模。

彌補這一差距將需要政府采取新的方法來解決非傳統供應商對知識產權的擔憂。大多數人不愿意放棄敏感技術的所有權,這些技術主要是賣給國防市場以外的客戶。這也將涉及到國防部幫助小企業通過加快網絡認證和運營授權(ATO)過程等步驟來瀏覽聯邦采購流程,以及幫助有興趣的公司為國防部的不同組成部分開發使用案例。這種積極的促進作用將幫助那些通過研究和開發撥款與國防部合作的非傳統供應商更有準備地與系統集成商達成合作。

最重要的是,優化大型系統集成商和小型創新者的利益,將需要國防部在連接小型公司和那些正在運行的項目方面發揮更積極的對話者作用。目前,國防部在要求公司合作方面存在一些可以理解的猶豫,主要是擔心觸犯聯邦采購條例(FAR)。但是,正如本項目采訪的一位行業專家所認為的,國防部可以更積極地了解《聯邦采購條例》所允許的內容,并幫助公司建立聯系,特別是為了滿足特定的采購優先權或計劃。

6 結論

在過去的幾年里,對人工智能的興趣和投資已經獲得了動力。這在國家安全和國防界尤其如此,因為戰略家、政策制定者和行政人員在不斷上升的地緣戰略競爭中尋求決定性的優勢,并為以復雜性、不確定性和最重要的速度為特征的未來操作環境做準備。人工智能現在是美國和中國之間軍事技術競爭的中心,這兩個國家以及世界上其他國家的軍隊都已經在部署人工智能系統,目的是為了主導未來的戰場。

美國不能冒落后于中國的風險--在人工智能的創新方面,在人工智能的采用方面,在人工智能全面融入國防事業方面,都不能。迫切需要解決一系列技術和官僚程序以及文化問題,迄今為止,這些問題已經抑制了國防部采用人工智能的步伐。具體來說,國防部應優先考慮以下問題。

  • 建立對人工智能的信任:國防部的人工智能努力主要集中在增強人類理解、決策和效能的技術上,而不是取代人類。因此,在人類和他們的智能機器隊友之間建立信任和信心是成功開發和部署軍事人工智能的一個關鍵方面。

  • 制定和實施可信和負責任的人工智能標準:目前,對于什么是可信和負責任的人工智能,還沒有共同的標準或系統性能要求。因此,五角大樓及其行業伙伴必須與NIST等機構合作,制定和實施與作戰相關的標準、測試流程和評估指標,其中包括道德的、可信賴的和負責任的人工智能原則。這將有助于將成功的人工智能研究原型推進到可投入生產的解決方案中。

  • 促進美國創新生態系統和國防工業基地的優化。將尖端的人工智能技術引入國防部還需要五角大樓減少國防部采購過程中經常出現的官僚主義挑戰,特別是對于那些在傳統國防工業基地之外的創新公司。開發新的手段來支持和激勵這些公司的參與,并促進領先的國防技術公司與初創公司和非傳統供應商之間的行業內伙伴關系將是至關重要的。

  • 吸引盟友和合作伙伴。正如本文開頭所述,烏克蘭戰爭加強了盟友和合作伙伴在執行地緣政治規范和標準方面的重要性。未來人工智能的發展和采用也可能是如此。國防部不僅將受益于工業界和國家安全界的合作,還將受益于與盟友和外國伙伴的合作,以確保建立和頒布規范和標準,從而實現可信、負責和可互操作的人工智能開發和部署。

關于本報告

本報告是在對人工智能的國家安全和國防影響進行為期八個月的研究項目的最終成果。

關于作者

瑪格麗特-科納耶夫(Margarita Konaev)是大西洋理事會斯考克羅夫特戰略與安全中心前沿防御業務的非常駐高級研究員。此外,她還擔任喬治敦安全與新興技術中心(CSET)的分析副主任和研究員,對人工智能的軍事應用和俄羅斯軍事創新感興趣。她也是新美國安全中心的兼職高級研究員。在此之前,她是西點軍校現代戰爭研究所的非駐地研究員,弗萊徹法律和外交學院的博士后研究員,以及賓夕法尼亞大學佩里世界之家的博士后研究員。在加入CSET之前,她曾在Gartner公司的營銷和溝通部門擔任高級負責人。

科納耶夫博士對國際安全、武裝沖突、非國家行為者和中東、俄羅斯和歐亞大陸的城市戰爭的研究已經在《戰略研究雜志》、《全球安全研究雜志》、《沖突管理與和平科學》、法國國際關系研究所、《原子科學家公報》、《法律戰》、《巖石上的戰爭》、現代戰爭研究所、外交政策研究所以及其他一系列機構和組織發表。她擁有圣母大學的政治學博士學位,喬治敦大學的沖突解決碩士學位,以及布蘭代斯大學的學士學位。

泰特-努爾金(Tate Nurkin)是OTH情報集團的創始人,也是大西洋理事會斯考克羅夫特戰略與安全中心的高級研究員。

在2018年3月建立OTH情報集團之前,努爾金在IHS Markit的簡氏公司工作了12年,擔任各種職務,包括管理簡氏國防、風險和安全咨詢業務。從2013年到他離開,他擔任戰略評估和未來研究(SAFS)中心的創始執行主任,該中心提供有關地緣政治、未來軍事能力和全球國防工業的全球競爭的思想領導和定制分析。

實質上,努爾金的研究和分析特別關注中美競爭、國防技術、未來軍事能力和全球國防工業及其市場問題。他還擅長設計和提供替代性未來分析活動,如情景規劃、紅色團隊和兵棋推演。

他曾在聯合管理服務公司、SAIC的戰略評估中心以及博思艾倫公司的建模、模擬、兵棋推演和分析團隊工作。2014-2018年,他在世界經濟論壇的核安全全球議程委員會和國際安全未來委員會連續任職兩年,該委員會的成立是為了診斷和評估第四次工業革命的安全和防御影響。

努爾金擁有佐治亞理工學院薩姆-納恩國際事務學院的國際事務科學碩士學位,以及杜克大學的歷史和政治學學士學位。

付費5元查看完整內容

背景

美國的許多國防專家認為,將人工智能(AI)的潛力發揮到極致,可能是保持美國軍事優勢的決定性因素。然而,盡管這項技術對美國國防部(DoD)具有潛在的重要性,但人工智能的軍事研究和開發資金只占這項技術總投資的一小部分。而且,與傳統的國防承包商不同,國防部即使不是主要客戶,也是重要客戶,國防部在大多數這些高科技軟件公司的整體客戶群中所占比例相對較小。由于這些公司雇用了一些領先的人工智能人才,并建立了一些最有能力的技術框架,利用這些專家的才能可以使國防部利用人工智能為其自身轉型的努力受益。

為了評估軟件工程師和私營部門技術人員對國防部人工智能應用的看法,研究小組進行了一項調查,提出了美國軍方如何使用人工智能的各種場景,并要求受訪者描述他們以這些方式應用人工智能的認同度。這些場景改變了幾個因素,包括戰場的距離,作戰破壞性,以及人類對人工智能算法的監督程度。調查結果發現,大多數美國人工智能專家并不反對國防部的基本任務或人工智能在軍事領域中的應用。

研究問題

  • 1.哪些因素會影響軟件工程師對人工智能在美國軍方應用感到舒服和不舒服?

  • 2.軟件工程師對社會機構——特別是國防部的信任程度與他們對國防部構建人工智能應用的可接受性的看法之間有關聯嗎?

  • 3.軟件工程師是否將國防部認定為戰略競爭對手的國家視為對美國的重大威脅?

  • 4.軟件工程師依靠什么類型的新聞媒體和其他信息來源來知曉他們與國防部有關的事件?

主要發現

  • 1.硅谷和美國防部之間似乎不存在不可逾越的鴻溝

    • 來自硅谷技術公司的受訪者和擁有頂級計算機科學的大學對人工智能軍事應用感到滿意。
  • 2.對于涉及使用致命武力的人工智能應用來說,認同度存在著差異

    • 來自三家接受調查的硅谷科技公司,約三分之一受訪者對人工智能的致命用途感到不安。
  • 3.科技工作者對領導的信任度很低,甚至對他們自己的領導也是如此

    • 軟件工程師和其他技術人員對擔任領導職位的個人信任度較低。

    • 科技工作者對科技公司首席執行官的信任幾乎與他們對民選官員或聯邦機構負責人的信任一樣少。

  • 4.科技工作者最擔心的是對美國的網絡威脅

    • 這三個群體中超過75%的受訪者認為中國和俄羅斯是美國的嚴重威脅。
  • 5.科技工作者支持使用軍事力量來抵御外來侵略

    • 調查受訪者強烈支持使用軍事力量保衛美國及其北約盟國免受外來侵略,近90%的參與者認為在這種情況下使用軍事力量是正當的。
  • 6.硅谷的科技工作者與軍方沒有什么個人聯系

    • 不到2%的硅谷受訪者曾在美國軍隊服役。

    • 幾乎20%在國防承包商工作的軟件工程師以前曾在美國軍隊服役。

主要建議

  • 1.應該探索各種機制,擴大國防部和硅谷之間在網絡作戰方面的合作,網絡作戰是人工智能的潛在應用,硅谷工程師將其視為重要的全球威脅。

  • 2.應該探索擴大軍事作戰人員、國防部技術專家和硅谷科技人員之間的協同,以評估在組織之間建立更大信任的途徑。

  • 3.應該探索國防部讓硅谷工程師參與國防部人工智能應用。

  • 4.應該調查國防部和硅谷雇員共建共享的價值。

  • 5.另一個潛在的富有成效的調查領域是評估各種類型的參與的好處,以幫助最具創新和經驗的美國人工智能專家了解國防部如何完成其任務,并發現他們的才能和專業知識如何有助于解決國防部和國家的問題。

付費5元查看完整內容

毫無疑問,今天圍繞人工智能(AI)的最復雜的治理挑戰涉及國防和安全。CIGI正在促進戰略制定:人工智能對軍事防御和安全的影響項目將這一領域的主要專家與來自國防部的40多名公務員和加拿大武裝部隊的人員聚集在一起,討論人工智能對國家安全和軍事領域的力量倍增效應。

這一努力依賴于一系列的四次研討會,以產生關于數據驅動技術如何引發巨大的技術重組的前瞻性思考,這將對加拿大的國防規劃產生深遠影響。具體來說,這些研討會集中在數據治理和政策(道德、云計算、數據準備和互操作性);決策(可信賴性、人機一體化、生物技術和問責制);模擬工具(培訓、兵棋推演、人機合作、機器人、自主和可信的人工智能);以及信息時代的加拿大情報(將人工智能用于情報)。CIGI還主辦了一個研究生研討會,以激勵整個加拿大在全球公共政策、計算機科學和安全等領域學習的新興學者。

報告總結

本文探討了在人工智能(AI)和機器學習背景下的軍事特定能力的發展。在加拿大國防政策的基礎上,本文概述了人工智能的軍事應用和管理下一代軍事行動所需的資源,包括多邊參與和技術治理。

維持先進軍事能力的前景現在與人工智能的武器化直接聯系在一起。作為一項通用技術,人工智能代表著一種力量的倍增器,有能力重塑戰爭規則。事實上,在核彈頭仍然是一種單一的技術應用的情況下,人工智能有能力支持許多不同類型的武器和系統。正如北大西洋公約組織(NATO)的指導意見所指出的,人工智能和其他 "智能 "技術現在對加拿大及其盟國的未來安全至關重要。

新技術在改變戰爭的性質方面有著悠久的歷史。從馬匹和盔甲的使用到航空母艦和戰斗機的引進,人工智能和機器人只是代表了軍事技術發展的最新階段。常規武器與人工智能和機器學習的融合,必將重塑決策的性質和軍事戰略轉型中的武力應用。

即使當代人工智能系統的能力被限制在機器學習算法的狹窄范圍內,這種限制可能不會持續太久。與神經科學、量子計算和生物技術相重疊的發現領域正在迅速發展,代表了 "智能機器 "進化的未知領域。在這些新的研究領域中的科學和技術發現給加拿大的國防帶來了巨大的風險,但同時也代表著巨大的機遇。

顯而易見的是,新興技術已經成為高度緊張的地緣政治競爭的基礎,它與一系列商業產業和技術平臺相重疊。中國、俄羅斯、美國和其他國家和非國家行為者正在積極追求人工智能和其他前沿技術的軍事應用。競爭的領域包括云技術、高超音速和新導彈技術、空間應用、量子和生物技術以及人類增強。

盡管技術創新一直塑造著國家間沖突的性質,但新興和顛覆性技術(EDT)的規模和速度是前所未有的。加拿大的國防政策反映了這種擔憂,它呼吁使加拿大武裝部隊(CAF)適應不斷變化的地緣政治環境。加拿大國防規劃已著手擴大和發展加拿大武裝部隊,在新的軍事平臺整合中納入下一代偵察機、遙控系統和天基設施。

基于對不斷變化的技術環境的廣泛評估,加拿大國防部(DND)認識到,這個新時代的特點是全球力量平衡的變化。這包括在快速發展的創新經濟中大國競爭性質的變化。就像石油和鋼鐵為工業時代設定條件一樣,人工智能和機器學習現在也可能為數字時代設定條件。

這種規模的破壞是由技術和制度變化的融合所驅動的,這些變化可以以新的和不可預測的方式觸發復雜的反饋回路。在這個新的環境中,人工智能技術將迫使世界各國軍隊投射力量的能力倍增。確定軍事人工智能發展中的護欄對于避免未來危機至關重要。應用減少風險的措施來識別和減輕軍事人工智能可能帶來的一系列風險將是關鍵。事實上,在這些能力完全嵌入世界上目前和未來的軍隊之前,治理人工智能可能會更容易。

從整體上看,這種轉變預示著從初級機器到數據驅動技術和精密電子的巨大轉變。這種物理、數字和生物技術的加速融合代表了一場巨大技術革命的早期階段。在全球范圍內管理這些新興和顛覆性的技術,對于減少未來沖突的風險至關重要。

1 引言

從人工智能和機器人到電池存儲、分布式賬本技術(DLT)和物聯網(IoT),新興和顛覆性技術(EDT)現在正在激起一個商業創新的新時代。這一巨大的技術變革景觀正在醞釀一場社會和經濟變革,對中央銀行的發展具有巨大影響。正如北約最近的一份報告所指出的(北約新興和顛覆性技術咨詢小組2020),這些技術包括:

→ 人工智能和機器學習。人工智能/機器學習的發展及其對創新的潛在影響。這包括神經形態計算、生成式對抗網絡,以及人工智能從已經收集或尚未收集的數據中揭示出意想不到的見解的能力。

→ 量子技術。正在進行的從量子過程研究中獲得的知識轉化為量子技術的應用,包括量子計算、量子傳感、量子密碼系統,以及在量子尺度上對材料的操縱和開發。

→ 數據安全。用于保障和損害通信、數據交易和數據存儲安全的算法和系統的設計,包括量子證明加密方法、區塊鏈和分布式賬本架構,以及更廣泛的網絡安全領域。

→ 計算功能的硬件。微型化、電力采集和能源儲存方面的進展,包括在全球范圍內提供數字化關鍵基礎設施所需的物理系統(物聯網)和機器人的廣泛使用及其對全球系統和流程的持續影響。

→ 生物和合成材料。從原子/分子層面的材料設計、合成和操作到中觀和宏觀尺度的創新,支持生物工程、化學工程、基因層面的操作、增材制造和AI介導的生成設計。

正如蒸汽機和印刷術激發了工業革命一樣,人工智能和機器人技術現在也在軍事技術的性質和全球力量平衡方面引發了巨大變革。人工智能的興起并非沒有歷史先例,但伴隨著人工智能的變化表明,需要對國防規劃進行更精確的調整,以適應一個數據驅動的時代。

在大國競爭和多極體系的背景下,人工智能已經成為競爭的一個特別焦點。中國、俄羅斯、美國和其他許多國家都在積極追求人工智能能力,并把重點放在國防和安全方面。例如,中國希望到2030年在人工智能方面領先世界,并期望通過利用大量的豐富數據,擴大其在人工智能產業化方面的領先優勢(Lucas和Feng,2017年)。

事實上,數據和數據驅動的技術現在占據了全球經濟的制高點。整個全球數據經濟的競爭已經與大國競爭密不可分(Mearsheimer 2021)。盡管美國和中國的經濟深深地相互依存,但中國在整個歐亞大陸不斷擴大的投資將很快使其成為世界貿易的中心。

技術優勢仍然是北約國家的關鍵支柱,但中國正在迅速趕超。即使美國在人工智能發現方面建立了強大的領先優勢,中國也越來越有可能在人工智能驅動的應用產業化方面占據主導地位。中國不僅有先進的商業能力,而且還有一個連貫的國家戰略。中國的技術部門正在達到專業知識、人才和資本的臨界質量,正在重新調整全球經濟的指揮高度(Lucas and Waters 2018)(見圖1)。

中國產業部署的大部分技術創新都是 "漸進式 "的,而不是 "顛覆式 "的,但現在這種情況正在改變。將新興市場聚集在其軌道上,中國前所未有的經濟擴張現在對世界經濟產生了引力(The Economist 2018)。標志性項目,價值數萬億美元的 "一帶一路 "倡議(世界銀行2018年)為圍繞電動汽車、電信、機器人、半導體、鐵路基礎設施、海洋工程以及最終的人工智能的廣泛戰略轉變提供了一個全球平臺(McBride和Chatzky 2019年)。

毫不奇怪,中國已經是國際專利申請的世界領導者(世界知識產權組織2020)。隨著自主機器(Etzioni和Etzioni 2017)、可再生能源基礎設施、量子通信(?iljak 2020)、增強型腦機接口(Putze等人2020)和天基武器(Etherington 2020)的出現,重新思考加拿大國家安全,特別是加拿大國防的性質的壓力正在增加。鑒于技術創新的步伐不斷加快,以及亞洲作為世界貿易中心的崛起(Huiyao 2019),來自國外的技術的影響可能是巨大的。

圖1:按購買力平價計算的國內生產總值預測(以萬億美元計)

2 AI與軍事防御

2.1 AI定義

人工智能的概念已被廣泛討論,但該術語的精確定義仍然是一個移動的目標。與其說人工智能是一項具體的技術或特定的創新,不如說它是一個材料的集合。事實上,即使人工智能技術已經成為廣泛的主流商業應用的基礎,包括網絡搜索、醫療診斷、算法交易、工廠自動化、共享汽車和自動駕駛汽車,人工智能仍然是一個理想的目標。

盡管人工智能領域的研究始于20世紀40年代,但隨著機器學習和計算機處理能力的改進,過去十年對人工智能興趣的爆炸性增長已經加速。人工智能的持續進步被比喻為在人腦中發現的多尺度學習和推理能力。當與大數據和云計算相結合時,預計人工智能將通過將 "智能 "人工智能和機器學習系統與第五代(5G)電信網絡(即物聯網)上的大量聯網設備連接起來,使數字技術 "認知化"。

作為人工智能的一個子集,機器學習代表了人工智能的最突出的應用(見圖2)。機器學習使用統計技術,使機器能夠在沒有明確指令的情況下 "學習",推動許多應用和服務,改善一系列分析和物理任務的自動化。通過使用數據自動提高性能,這個過程被稱為 "訓練 "一個 "模型"。使用一種算法來提高特定任務的性能,機器學習系統分析大量的訓練數據集,以便做人類自然而然的事情:通過實例學習。

今天,機器學習的最常見應用是深度學習。作為更廣泛的機器學習家族的一部分,深度學習利用人工神經網絡層來復制人類智能。深度學習架構,如深度神經網絡、遞歸神經網絡和卷積神經網絡,支持一系列廣泛的研究領域,包括計算機視覺、語音識別、機器翻譯、自然語言處理和藥物設計。

圖2:人工智能的層級

2.2 加拿大國防部:將人工智能應用于國家安全

安全人工智能位于新興和顛覆性技術(EDT)星座的中心,包括機器人學、基因組學、電池存儲、區塊鏈、3D打印、量子計算和5G電信。在研究層面,美國仍然是人工智能的全球領導者。目前,國家科學基金會每年在人工智能研究方面的投資超過1億美元(國家科學基金會2018年)。國防高級研究計劃局(DARPA)最近宣布投資20億美元用于一項名為AI Next的計劃,其目標是推進上下文和適應性推理(DARPA 2018)。

與過去的原子武器或隱形飛機的技術發展不同,沒有國家會壟斷軍事人工智能。研究人員和領先的商業企業之間廣泛的全球合作意味著人工智能和機器學習的進步可能會在全球范圍內擴散。事實上,人工智能發展的大多數技術進步是由工業界而不是政府推動的。除了市場主導的技術公司,世界各地廣泛的網絡集群正在孵化新一代的商業創新(Li and Pauwels 2018)。因此,許多未來的軍事應用將可能是為商業產業開發的技術的改編。

幸運的是,加拿大一直是人工智能研究前沿的領導者,并繼續通過2017年推出的泛加拿大人工智能戰略下的幾個項目培育一個強大的人工智能生態系統。加拿大政府積極參與人工智能咨詢委員會和各種國際伙伴關系,包括2020年啟動的全球人工智能伙伴關系;人工智能國防伙伴關系,其第二次對話在2021年舉行;以及重疊人工智能驅動的安全和規劃的多邊協議(五眼,北約)。事實上,加拿大的國防政策,"強大、安全、參與"(SSE),反映了加拿大政府對增加年度國防開支的承諾,重點是技術。

目前的聯邦預算包括對人工智能發展的實質性承諾,承諾在10年內投入4.438億美元(Silcoff 2021)。在政府2021年的預算中,1.85億美元將支持人工智能研究的商業化;1.622億美元將用于在全國范圍內招聘頂尖的學術人才;4800萬美元將用于加拿大高級研究所;五年內4000萬美元將旨在加強埃德蒙頓、多倫多和蒙特利爾的國家人工智能研究所的研究人員的計算能力;五年內860萬美元將幫助推進人工智能相關標準的發展和采用(加拿大政府2021年,148)。

2.3 增強加拿大的情報能力

人工智能是一個影響廣泛的商業和軍事技術的模糊領域。像電力或化石燃料一樣,人工智能的廣泛應用意味著人工智能和其他通用技術有能力重新配置現代軍隊的步伐和組織(Bresnahan和Trajtenberg 1995)。從整體上看,人工智能代表了國家安全性質的結構性轉變。出于這個原因,SSE設想了一個未來的軍事態勢,更加注重開發、獲取和整合先進的變革性技術,包括網絡和自主系統。

即使加拿大在傳統聯盟(北美防空司令部、北約和五眼聯盟)中的持續作用仍然是國家安全的基礎,EDT正在從根本上改變沖突的性質。正如格雷格-菲夫(2021年)所觀察到的,人工智能作為戰爭工具的崛起與升級加拿大國家安全架構,特別是加拿大情報部門的日益增長的需求相重疊。技術變革和信息爆炸的復合周期,新的技能組合和新的數據分析戰略對國防規劃的演變變得至關重要。

在數字時代,戰爭正日益成為基于知識的戰爭。隨著沖突進入信息領域,軍事規劃開始重新聚焦于信息/虛假信息行動、網絡行動、情報行動和政治或經濟影響行動。事實上,這種混合戰爭作為一種戰爭工具由來已久,其目的是利用宣傳、破壞、欺騙和其他非動能軍事行動,從內部破壞對手(Bilal 2021)。

網絡仍然是潛在對手、國家代理人、犯罪組織和非國家行為者的一個關鍵目標。這包括對通信、情報和敏感信息的嵌入式監視和偵察。正如Amy Zegart(2021年)所解釋的那樣,技術正在通過極大地擴展數據和信息的獲取,使情報的性質民主化。事實上,今天驅動戰略情報的大部分信息實際上是開放源碼情報(OSINT)或在公共領域。

現代軍隊正變得嚴重依賴安全、及時和準確的數據。隨著數據的急劇膨脹,消化它變得不可能。這種數據爆炸正在推動對新的分析模式和新型網絡工具的需求。在數字時代,安全和情報人員需要新的平臺、新的工具和跨領域工作的新OSINT機構。在這方面,人工智能可能特別有幫助。

隨著數據的重要性增加,在廣闊的數字領域的對抗性競爭也在增加。人工智能和機器學習可以通過篩選巨大的數據庫來極大地提高加拿大的國家情報能力。人工智能不是銀彈。人工智能系統不能產生意義或提供因果分析。然而,人工智能和機器學習可以極大地增強人類在管理數據和數據驅動的分析方面的情報能力。

2.4 增強加拿大軍力

隨著決策者為數據驅動的世界調整其安全態勢,人工智能有望改變軍事沖突的既定模式。DND/CAF面臨的關鍵挑戰之一是數據驅動的網絡重塑指揮和控制系統的速度(Thatcher 2020)。集中式系統的優勢在于其協調人類活動的效率。在指揮系統中,人員和傳感器推動威脅檢測,將信息向決策堆棧上移,以便決策者可以做出適當的反應。數字技術深刻地加速了這個過程。

人工智能在軍事領域的應用可能被證明對傳統的指揮和控制系統具有挑戰性。例如,在美國,五角大樓的第一位首席軟件官最近辭職,以抗議技術轉型的緩慢步伐。在離開國防部職位后的一次采訪中,尼古拉-沙伊蘭告訴《金融時報》,美國未能對技術變革和其他威脅作出反應,使國家的未來面臨風險(Manson 2021)。

除了變化的速度緩慢,軍事指揮和控制系統的集中性意味著單點故障提供了脆弱的攻擊點。指揮機關和自動或人類控制者往往容易受到利用不良或欺騙性信息的對抗性技術的影響,甚至自上而下的決策在適應復雜的突發挑戰方面也會很緩慢。

神經形態計算、生成式對抗網絡(GANs)、人工智能決策支持、數據分析和情報分析方面的新創新在增強軍事行動的結構和進程方面可能會產生巨大影響。機器學習算法的快速發展已經在商業和軍事領域引發了一波投資熱潮。

超越對損耗和動能攻擊的傳統關注,轉向基于加速和適應的新方法,數據驅動的技術可能是促成國家安全性質徹底轉變的關鍵。人工智能不是一種單一的技術。相反,它是一類可以在一系列軍事和商業應用中整合的技術。這些技術不斷演變的基礎是數據。

數字技術現在由數據推動,并將繼續推動創造越來越多的數據驅動的技術--特別是人工智能。數據是訓練人工智能和先進機器學習算法的基礎。數據既是大規模運行的數字系統產生的 "操作廢氣",也是機器對數據輸入作出反應的過程,它現在推動了機器的 "自主性"。

數據驅動的技術支撐著現代社會的核心社會和經濟功能,涵蓋了基礎設施、能源、醫療保健、金融、貿易、運輸和國防。隨著5G網絡的全球推廣,預計在高度健全的全球信息網絡中創建、收集、處理和存儲的數據將出現爆炸性增長。根據市場研究公司IDC的數據,目前全球數據正以每年61%的速度增長(Patrizio 2018)。預計到2025年,數據將達到175 zettabytes(一萬億吉字節),改變數字經濟的性質和規模(同上)。

出于這個原因,DND/CAF將數據提升到國家資產的水平是明智的。這對經濟增長和加拿大國防都至關重要。將數據作為國家資產加以保護和利用,將意味著重新思考目前構成當代數據架構的大型集中式數字基礎設施。可以肯定的是,網絡時代的數據安全應該是分散的和聯合的,以避免集中式系統的脆弱性。

3 武器化AI:致命的自治系統

關于技術破壞的傳統預測往往會犯一個錯誤,即假設這種規模的系統變化只是以一對一的方式取代舊技術。在現實中,這種規模的顛覆往往會不成比例地取代舊的系統,使其具有巨大的新的架構、界限和能力(Arbib和Seba 2020)。

正在進行的人工智能武器化正在助長一場全球軍備競賽,有望重塑加拿大國防戰略的輪廓。事實上,世界上許多國家在人員系統自動化、設備維護、監視系統以及無人機和機器人的部署方面已經遠遠領先(斯坦利和平與安全中心、聯合國裁軍事務廳和史汀生中心2019)。從美國到俄羅斯到以色列再到中國,軍事研究人員正在將人工智能嵌入網絡安全舉措和支持遠程手術、戰斗模擬和數據處理的機器人系統。

以先進的物流、半自動車隊、智能供應鏈管理和預測性維護系統的形式將人工智能應用于軍事行動代表了人工智能的近期應用(Perry 2021)。然而,能夠在陸地、海洋、空中、太空和網絡領域針對個人(無論是否需要人類干預)的自主武器的演變代表了軍事沖突的可能未來(見圖3)。事實上,近100個國家的軍隊目前擁有某種程度的武裝或非武裝無人機能力(Gettinger 2019)。

圖3:全球無人機激增

商業無人機技術在采礦、農業和能源領域的縱橫捭闔,正在助長無人機技術的廣泛擴散。正如最近亞美尼亞和阿塞拜疆之間的沖突所表明的那樣,一群相對便宜的自主和半自主無人機可以被利用來壓倒傳統的軍事系統,使一系列當代平臺變得過時(Shaikh和Rumbaugh 2020)。輕型、可重復使用的武裝無人機,如土耳其的Songar(Uyan?k 2021)可以配備一系列有效載荷,包括迫擊炮、手榴彈和輕機槍。最近對沙特阿拉伯的Abqaiq石油加工設施(Rapier 2019)和俄羅斯的Khmeimim空軍基地(Hambling 2018)的攻擊反映了軍事無人機在不同戰場環境中的應用越來越多。

致命自主武器系統(LAWS)被定義為可以在沒有人類授權的情況下選擇和攻擊目標的武器,它被設計為在獨立識別目標之前在指定的行動區域內長期徘徊。多個無人機或機器人可以并行運作,以克服對手的防御或摧毀一個特定目標。開發人員傾向于將致命性武器系統分為三大類,即觀察、定位、決定和行動(OODA)循環(見圖4)。這些類別包括。"循環中的人"、"循環中的人 "和 "循環外的人"。這種區分也被框定為 "半自主"、"受監督的自主 "和 "完全自主 "的技術系統。不幸的是,受監督的致命性自主武器系統和完全自主的致命性自主武器系統之間的區別,可能只是一個軟件補丁或一個監管程序。

圖4:OODA環

隨著致命性自主武器系統和其他數據驅動的技術變得更便宜和更廣泛,它們可能會給廣泛的國家和非國家行為者提供平臺和工具,以新的和破壞性的方式利用人工智能和機器學習。除了收緊OODA循環外,軍事人員將需要了解人工智能在加速OODA循環方面的影響,以確定在特定情況下哪種模式最合適。

3.1 網絡平臺

鑒于EDT的范圍和規模,認為我們可以簡單地保持從上個世紀繼承的系統和做法是錯誤的。正如英國查塔姆研究所2018年的一份報告所警告的那樣,美國、英國和其他核武器系統正變得越來越容易受到網絡攻擊(Unal and Lewis 2018)。這些擔憂是有根據的。人工智能和EDT的擴散一起,幾乎肯定會通過利用人工智能和自主系統的規模效應,為小國和非國家行為者帶來好處。

對于許多北約國家來說,網絡平臺已經成為多領域行動的關鍵--海、空、陸、網絡和空間。大規模的網絡使得在復雜環境中可視化和協調大量資源成為可能。在5G電信和云計算的基礎上,信息系統現在可以有效地收集、傳輸和處理大量的戰場數據,提供實時數據分析。

連接設備正在成為協調空襲、駕駛無人機、消化戰斗空間的實時視頻和管理高度復雜的供應鏈的關鍵。在英國,國防數據框架提供了一個結構,以解決軍事組織與數據驅動的企業需求相一致的挑戰(Ministry of Defence 2021)。從戰略到通信到后勤到情報,數字平臺現在是協調復雜軍事行動的基礎。數據現在是所有作戰領域的命脈。

在一個數字化的戰斗空間中,每個士兵、平臺和資源現在都是一個復雜軍事網絡中的節點。從20世紀90年代以網絡為中心的美國軍事行動開始,數字技術已經成為先進武器、戰術和戰略的基礎。從戰場態勢感知和自主無人機到精確制導彈藥和機器驅動的心理行動,網絡正在使戰爭進入網絡時代。

在集中式機構對工業時代至關重要的地方,平臺和網絡正在成為數字時代的關鍵。人工智能本質上是一種 "自下而上 "的技術,依靠不斷 "喂養 "大量的數據來支持機器學習作為 "學習引擎"。隨著數字生態系統的激增,網絡平臺和它們所依賴的數據管理系統成為管理不斷擴大的資源和人員的關鍵。

與金融部門一樣,DND應該尋求區塊鏈等DLT,以加速加拿大軍隊的數字化轉型。通過在分散的網絡中橫向分配數據,CAF區塊鏈可以幫助減少官僚化系統固有的限制和脆弱性。DLT提供了一個高度分散的驗證系統,可以確保所有的通信和數據傳輸免受對手的攻擊,同時消除集中式節點的潛在故障。

3.2 無人機群和機器人技術

人工智能在軍事規劃中的應用正在迅速推進,許多國家在部署無人機和機器人方面已經取得了很大進展。事實上,無人機技術的全球擴散正在順利進行中。

世界各地的軍隊正在加速開發或采購攻擊型無人機(見圖5)。俄羅斯的 "閃電"(BulgarianMilitary.com 2021)、西班牙的Rapaz8以及英國、9美國10和以色列11的各種無人機項目共同代表了軍事技術新時代的早期階段。與工業時代的軍事技術不同,無人機可以以低成本獲得,并需要相對較少的技術技能。

無人機群技術涉及微型/迷你無人機/無人駕駛飛行器或無人機群,利用基于共享信息的自主決策。事實上,當代軍用無人機已經可以被設計成在沒有人參與的情況下定位、識別和攻擊目標。利用蜂群技術,數以百計的非武裝無人機可以從現場收集信息,同時用各種武器(即火器、火炮和/或彈藥)引導數以千計的無人機。

正如簡短的視頻 "Slaugherbots "所展示的那樣,完全自主的武器將使瞄準和殺死獨特的個人變得非常容易和便宜。在面部識別和決策算法的基礎上,國家和非國家行為者都可以廣泛使用致命性武器。數以千計的相對便宜的無人機配備了爆炸性的彈頭,有可能壓倒防空系統,攻擊基礎設施、城市、軍事基地等等。

圖5:無人機對比

3.3 馬賽克戰爭

無人機群壓倒加拿大軍事設施的威脅,以及對關鍵基礎設施的網絡攻擊或在衛星傳感器檢測到威脅時自動發射的高超音速導彈,代表了一個令人不安但越來越可能的未來。從復雜性科學和對昆蟲的研究中產生的,使用無人機來支持 "集群情報 "代表了一個加速戰爭節奏的新工具集。

為了應對這種不斷變化的環境,DARPA提出了 "馬賽克戰爭"的概念。馬賽克戰爭的中心思想是,模塊化系統可以成為應對高度網絡化環境的廉價、靈活和高度可擴展的工具。就像馬賽克中的瓷片一樣,單個作戰平臺可以被設計成高度可配置的。編隊利用分散的代理在 "殺戮網 "上進行重新配置。殺戮網的目標是避免 "單體系統 "的結構僵化。

與傳統戰爭中需要的復雜棋局不同,馬賽克戰爭利用數字網絡,利用模塊的靈活性和增強的決策(時間壓縮)加快動態響應時間。像自然界中的復雜系統一樣,殺傷性網絡使用算法來消除單點故障,通過模塊化設計加速反應時間。

從主導地位(預測)轉向加速反應(適應),"馬賽克戰爭 "旨在支持混合軍事單位,利用 "決策棧 "上下的橫向網絡。人工智能、無人機、傳感器、數據和人員結合在一起,為地面上的作戰指揮官提供支持,使小型編隊能以更快的速度獲得情報、資源和后勤資產。

像 "馬賽克戰爭 "這樣的模塊化系統表明,未來的戰爭將越來越多地利用現在驅動戰爭游戲和模擬的計算、數據分析和算法。推動高度流動、游戲化和不可預測的環境,未來的人工智能系統可以將戰爭加速到一個隨著結果范圍的擴大而變得極其密集的計算速度和節奏。

DARPA最近的AlphaDogfight(2019-2020年)為這一新現實提供了一個窗口。使用復雜的F-16飛行模擬器讓計算機與有經驗的人類飛行員對決,試驗的目的是為DARPA的空戰進化計劃推進人工智能開發者。毫不奇怪,F-16人工智能代理通過積極和精確的機動性擊敗了人類飛行員,而人類飛行員根本無法與之相提并論,五局為零。

4 對抗性攻擊

人工智能的武器化也在激起對抗人工智能系統的新戰略和方法。正如網絡行動(無論是間諜活動還是攻擊)可以指示計算機網絡或機器以它們不打算的方式運行,對手也可以對人工智能系統使用同樣的策略。這個過程被稱為對抗性機器學習,旨在找出機器學習模型的弱點并加以利用。攻擊可能發生在開發或部署階段,包括通過提供欺騙性輸入(例如,"毒化"數據)或針對模型本身來誤導模型。

這些方法在國家安全環境中特別危險,因為在許多情況下,它們是微妙的,人類無法察覺。此外,具有挑戰性的是,對手不一定需要對目標模型的具體知識或直接訪問其訓練數據來影響它。隨著人工智能系統變得更加普遍,更多的人可以接觸到,對手的吸引力和攻擊機會將增加。

4.1 攻擊數據

攻擊者可能試圖修改訓練數據或測試數據。這是通過創造對抗性樣本來實現的,這些樣本被故意 "擾亂 "或改變并提供給模型,從而導致錯誤。例如,通過改變洗衣機圖像的分辨率,研究人員能夠欺騙一個模型,將機器分類為 "安全 "或 "擴音器"(Kurakin, Goodfellow and Bengio 2017)。對人的眼睛來說,對抗性圖像看起來幾乎是一樣的。

在國家安全方面,對手可能會試圖使用同樣的技術來暗示武器系統實際上是一個社區中心。如果這是在孤立的情況下發生的,那么這個問題很可能被識別和解決。如果對手的樣本被長期大規模使用,這可能成為一個重大的挑戰,并影響對情報收集系統的信任。

此外,一些對手可能并不精確--或有技能--并可能試圖迫使一個模型對整個類別而不是特定類別進行錯誤分類。由于我們在國家安全環境中越來越依賴計算機圖像,并不總是能夠實時或在有爭議的空間進行驗證,因此在這種攻擊中出現誤判的風險是很大的。

高后果的人工智能系統并不是對抗性攻擊的唯一目標。受對抗性樣本影響的人工智能系統可以包括生物識別,其中假的生物特征可以被利用來冒充合法用戶,語音識別中攻擊者添加低量級的噪音來混淆系統(Zelasko等人,2021)和計算機安全(包括在網絡數據包中混淆惡意軟件代碼)。

由于DND/CAF尋求通過部署人工智能系統來提高效率--如軍艦上的語音助手(McLeod 2019)--必須在部署前評估對抗性使用的風險并制定對策。

4.2 攻擊模型

除了改變輸入,另一種攻擊方法可用于逆向工程模型以獲取訓練數據(Heaven 2021)。由于機器學習模型對訓練數據的表現比新的輸入更好,對手可以識別目標模型預測的差異,并與包括個人身份信息在內的已知數據相匹配(Shokri等人,2017)。隨著機器學習即服務變得越來越多--而且在許多情況下,被用作開發更復雜的能力的基礎--DND將需要仔細審查國家安全系統的數據泄漏風險。這甚至適用于看似無害的系統,如語音助手。

人工智能系統的弱點的例子很多(Hadfield-Menell等人,2017)。這些例子包括吸塵器將收集到的灰塵彈回它剛打掃過的地方,以便它能收集更多的灰塵,或者數字游戲中的賽艇在原地循環以收集分數,而不是追求贏得比賽的主要目的。雖然這些例子沒有生命危險,但同樣的技術--被稱為獎勵黑客(當一個模型被指示使其目標函數最大化,但卻以非故意的方式進行)--可以被用于更嚴重的效果。

從旨在用固定的訓練數據解決 "單步決策問題 "的機器學習過渡到解決 "順序決策問題 "和更廣泛的數據集的深度機器學習,將使對抗性攻擊更難發現。這種威脅是如此之大,以至于美國情報高級研究項目活動正在資助一個項目,以檢測木馬人工智能對已完成系統的攻擊。令人擔憂的是,政府可能會在不知情的情況下操作一個產生 "正確 "行為的人工智能系統,直到出現 "觸發 "的情況。例如,在部署過程中,對手可能會攻擊一個系統,并在更晚的時候才導致災難性的故障發生。這些類型的攻擊可能會影響到圖像、文本、音頻和游戲的人工智能系統。

4.3 防御和反制措施

正如對抗性樣本可以用來愚弄人工智能系統一樣,它們可以被納入訓練過程中,以使它們對攻擊更加強大。通過對最重要的國家安全人工智能系統進行清潔和對抗性數據的訓練--要么給它們貼上這樣的標簽,要么指示一個模型將它們分離出來--更大的防御是可能的。但是,復雜的對手很可能會自行躲避這種防御方法,而使用額外的戰術進行深度防御將是必要的。

GANs有各種各樣的用例,從創建深度假說到癌癥預后(Kim, Oh and Ahn 2018)。它們也可用于防御對抗性攻擊(Short, Le Pay and Ghandi 2019),使用一個生成器來創建對抗性樣本,并使用一個判別器來確定它是真的還是假的。一個額外的好處是,使用GANs作為防御,實際上也可能通過規范數據和防止 "過度擬合 "來提高原始模型的性能(IBM云教育2021)。

對抗性攻擊和防御模型進行基準測試--如使用GANs--是一種全面的對策,可以對AI系統進行比較。這種方法為制定和滿足安全標準提供了一個量化的衡量標準,并允許評估人工智能系統的能力和限制。

作為這個測試和評估過程的一部分,博弈論可能有助于建立對手的行為模型,以確定可能的防御策略。由于人工智能系統無法在傳統的信息安全意義上進行 "修補",因此在部署前應仔細分析針對國家安全人工智能系統的對抗性攻擊的風險,并定期進行審查。此外,訓練有素的模型--特別是那些關于機密數據和最敏感應用的模型--應該得到仔細保護。

5 關于人工智能的全球治理

數據驅動的戰爭的速度和范圍表明,我們正在進入一個新的時代,其中致命性武器系統的潛力--無論是否有人類參與--都可能極大地改變全球力量平衡。從殺手級無人機和人機合作到增強的軍事決策(殺手2020),人工智能技術將使世界各國軍隊投射力量的能力大大增加。正在進行的人工智能武器化也與空間武器化相重疊(《經濟學人》2019年),因為低地球軌道(LEO)日益成為軍事監視、遙感、通信、數據處理(Turner 2021)和彈道武器(Sevastopulo和Hille 2021)的操作環境。

人工智能與低地軌道和致命性自主武器系統的興起,代表了全球安全性質的一個關鍵轉折點。為此,世界各地的學術研究人員、技術企業家和公民都對人工智能的軍事化所帶來的危險表示擔憂。正如他們正確地指出的那樣,在規范負責任地開發和使用人工智能的規范和法律方面缺乏國際共識,有可能造成未來的危機。

5.1 戰爭法則

除了我們在科幻小說中經常看到的對人工智能的夸張描述,重要的是建立適當的制衡機制,以限制人工智能技術可能提供的權力集中。關于管理人工智能和其他數字技術的共同國際規則和條例將塑造未來幾十年的戰爭和沖突的輪廓。在軍事人工智能的發展中制定護欄,對于減少未來沖突的可能性至關重要。

加拿大和其他北約國家積極參與這一討論可能是未來全球和平與安全的關鍵。在發動戰爭的條件(jus ad bellum)和戰爭中的人工智能行為(jus in bello)方面,規范人工智能使用的戰爭法仍有待確定。鑒于美國和中國之間不斷擴大的競爭,需要制定關于致命性自主武器系統的使用及其擴散的條約是再及時不過了。

正如北約所觀察到的,加拿大及其盟國應尋求促進、參與和建立合作機會,以支持開發和應用人工智能和其他EDT的廣泛、全面的架構(北約新興和顛覆性技術咨詢小組2020)。盡管面臨著艱巨的挑戰,全球治理在規范軍事人工智能方面可以發揮重要作用。盡管對人工智能及其武器化有不同的看法,但過去的談判可以作為未來條約的基礎,特別是在定義戰爭規則方面。這包括關于常規武器、核軍備控制、生物和化學武器、地雷、外層空間和平民保護的條約(見圖6)。

到目前為止,《聯合國特定常規武器公約》(CCW)已經監督了一個討論應對自主武器帶來的人道主義和國際安全挑戰的進程。已經提出了一系列監管致命性自主武器系統的潛在方案,包括《特定常規武器公約》下的一項國際條約,一個不具約束力的行為準則,宣布各國承諾負責任地開發和使用致命性自主武器系統。在聯合國之外,2013年發起了 "停止殺手機器人 "運動,目標是完全禁止致命性自主武器系統。

聯合國秘書長安東尼奧-古特雷斯強調了人工智能和其他數字技術的風險和機遇(聯合國2020),并呼吁禁止致命性自主武器系統(古特雷斯2021)。不幸的是,聯合國成員國,特別是聯合國安理會的觀點存在分歧,一些國家認為監管是民族國家的專屬權限,而另一些國家則側重于更多部門的做法。除了人工智能的武器化,在圍繞人權、算法偏見、監控(公共和私人)以及國家支持的或國家支持的網絡攻擊等問題上也存在廣泛的分歧。

對于世界上的主要軍事大國來說,缺乏互信仍然是追求人工智能集體軍備控制協議的一個重大障礙。即使相當多的國家支持提供新的具有法律約束力的條約,禁止開發和使用致命性自主武器,但世界上大多數主要軍事大國都認為人工智能的武器化具有重大價值。鑒于這些分歧,致命性自主武器系統的多邊管理將需要建立信任措施,作為打開政治僵局的軍控進程的手段。

走向平凡的監管 也許制定管理人工智能的政策和監管制度的最具挑戰性的方面是難以準確地確定這些制度應該監管什么。與生物和化學武器不同,人工智能大多是軟件。事實上,人工智能是一個移動的目標:40年前被定義為人工智能的東西,今天只是傳統的軟件。

人工智能是一個模糊的技術領域,影響著廣泛的商業和軍事應用。例如,機器學習算法是搜索引擎(算法排名)、軍用無人機(機器人技術和決策)和網絡安全軟件(算法優化)的成分。但它們也支撐著平凡的行業,甚至兒童玩具(語義分析、視覺分析和機器人技術)、金融軟件和社交媒體網絡(趨勢分析和預測分析)。

與屬于這些平凡的監管領域的產品和流程一樣,人工智能技術不是被設計成最終實體,而是被設計成在廣泛的產品、服務和系統中使用的成分或組件。例如,一個 "殺手機器人 "不是一種特定技術的結果。相反,它是人工智能 "成分 "重新組合的結果,其中許多成分也被用來檢測癌癥或增加駕駛者的安全。

雖然人們傾向于使用一個專門的不擴散鏡頭來監管人工智能,但雙重用途的挑戰仍然存在。與核擴散或轉基因病原體不同,人工智能不是一種特定的技術。相反,它更類似于一個材料或軟件成分的集合。與大多數二元的核不擴散鏡頭相比,可以在食品監管中找到更相關(盡管不那么令人興奮)的監管模式的靈感,特別是食品安全和材料標準(Araya和Nieto-Gómez 2020)。

5.2 治理人工智能

鑒于對人工智能進行全面監管存在重大的概念和政治障礙,治理仍然是一項艱巨的挑戰。一方面,如果我們把人工智能理解為一系列復制人類活動的技術實踐,那么就根本沒有一個單一的領域可以監管。相反,人工智能的治理幾乎重疊了每一種使用計算來執行任務的產品或服務。另一方面,如果我們將人工智能理解為大幅改變人民和國家之間權力平衡的基礎,那么我們就會面臨重大挑戰。

幸運的是,這并不是民族國家第一次面臨影響全球安全的新技術。在第二次世界大戰之后,世界上最強大的國家--美國、英國、蘇聯、中國、法國、德國和日本--對核武器、化學制劑和生物戰的全球治理進行監督。當時和現在一樣,世界必須采取集體行動來治理人工智能。

與冷戰時期一樣,包括定期對話、科學合作和分享學術成果在內的建立信任措施可以幫助減少地緣政治的緊張。為管理軍事人工智能帶來的風險制定一個共同的詞匯,可以為隨著時間的推移制定更有力的人工智能多邊條約提供基礎。

在這方面,經濟合作與發展組織(OECD)已經公布了其關于人工智能的建議,作為一套政府間標準,于2020年2月啟動了人工智能政策觀察站。加拿大和法國政府還與經合組織一起領導了一個全球人工智能伙伴關系(GPAI),旨在成為一個人工智能政策的國際論壇。GPAI的成員專注于以 "人權、包容、多樣性、創新和經濟增長原則 "為基礎的負責任的人工智能發展。

除了GPAI,一些歐洲國家已經呼吁歐盟成員開始一個關于負責任地使用新技術的戰略進程--特別是人工智能。美國已經邀請盟國討論人工智能的道德使用問題(JAIC公共事務2020)。北約已經啟動了一個進程,鼓勵成員國就一系列道德原則和具有軍事用途的電子技術關鍵領域的國際軍備控制議程達成一致(Christie 2020;NATO 2020)。認識到EDT對全球安全的深遠影響,北約于2019年12月推出了EDT路線圖(北約科技組織2020)。

從整體上看,二十一世紀需要進行正式監管。從長遠來看,這很可能包括尋求與禁止生物武器、化學武器和殺傷人員地雷一樣的人工智能條約。然而,鑒于人工智能的創新速度和世界超級大國之間日益擴大的分歧,就人工智能的全球治理進行談判的機會之窗可能正在關閉。

圖6:人工智能的全球治理

6 結論:走向國家創新體系

即使在工業時代即將結束的時候,技術創新也在加速進行(Araya 2020)。自從大約80年前誕生以來,人工智能已經從一個神秘的學術領域發展成為社會和經濟轉型的強大驅動力。人工智能在戰爭中的整合被一些軍事分析家描述為一個不斷發展的 "戰場奇點"(Kania 2017)。在 "技術奇點"(Schulze-Makuch 2020)的概念基礎上,人們越來越多地猜測,人工智能和機器人將超越人類的能力,有效地應對算法驅動的戰爭。

人工智能和其他EDT的演變正在將先進的數據、算法和計算能力匯集起來,以 "認知 "軍事技術。在這種新環境下,現代軍隊正變得嚴重依賴提供安全、及時和準確數據的網絡。數據已經成為數字系統的 "作戰用氣 "和驅動 "智能機器 "的原料。隨著數據重要性的增加,在廣闊的數字領域的對抗性競爭也在增加。事實上,數據的真正價值在于其推動創新的數量和質量。

正如北約關于EDT的年度報告(北約新興和顛覆性技術咨詢小組2020)明確指出,要想跟上技術變革的步伐,就必須在技術的開發、實驗和應用方面保持靈活性和快速迭代。整個CAF的創新能力必須是一個更廣泛的創新生態系統的一部分,該系統有效地整合了公共和私人生態系統的研究和實施。這包括與加拿大工業界合作利用雙重用途的GPT的明確目標,以便利用已經存在的技術。

這種多領域的合作在歷史上被定義為國家創新體系(NSI)(OECD 1997)。事實上,NSI政策和規劃可以采取多種形式,從松散的協調到高度整合的伙伴關系。在美國(Atkinson 2020)、中國(Song 2013)和歐洲(Wirkierman, Ciarli and Savona 2018)應用的各種NSI規劃模式表明,在最大化政府-產業-研究伙伴關系方面可以找到大量的經濟和社會回報。政府應通過稅收優惠、采購和研究資金以及戰略規劃,努力建設加拿大的技術能力。但它不能單獨行動。

國家創新必然取決于機構參與者在一個共享的生態系統中進行合作。出于這個原因,一個協調的加拿大國家統計局將需要在推動長期創新的過程中,人們和機構之間的技術和信息的相互流動。鑒于EDT的許多創新是由工業界主導的,推進公私伙伴關系對加拿大軍隊的發展至關重要。對于國防部/加拿大空軍來說,要推進適合數字時代的軍隊,政府、工業界和學術界將需要以更綜合的方式進行合作。

建立一個強大的加拿大創新生態系統將意味著更廣泛的公私合作和持續的知識和資源的再培訓、培訓和孵化。盡管開發尖端人工智能需要人力資本投資,但大多數人工智能應用現在可以通過開源許可獲得,即使核心學習算法可以在公共平臺和整個學術生態系統中獲得。這種 "開放一切 "環境的影響是對封閉的等級制度和深思熟慮的官方機構的實質性挑戰。

政府程序和規劃將需要適應加速的創新生命周期,以配合EDT積極的淘汰周期。除了與網絡技術相關的巨大的不對稱安全風險外,向數據驅動型軍隊的轉變將需要大量關注數據安全和數據治理。與進行傳統的國家間沖突所需的大量成本和規劃不同,網絡攻擊的破壞性影響可以由僅有一臺個人電腦的小團體對關鍵基礎設施發動。鑒于未來不斷增加的挑戰,大型官僚機構(公司、政府、學術和軍事)的設計變化是不可避免的。

除了對新的和不同的知識、資源和專長的需求,加拿大政府和加拿大軍方將需要平衡硬實力和不斷變化的地緣政治格局的需求。在美國占主導地位的時代之外,二十一世紀正被一個以技術民族主義和后布雷頓森林體系為特征的多極體系所塑造。面對一個快速發展的數字時代,國際合作將是確保和平與安全的關鍵。信息共享、專家會議和多邊對話可以幫助世界各民族國家及其軍隊更好地了解彼此的能力和意圖。作為一個全球中等國家,加拿大可以成為推動這一努力的主要伙伴。

國際治理創新中心(CIGI)

國際治理創新中心(CIGI)是一個獨立的、無黨派的智囊團,其經同行評議的研究和可信的分析影響著政策制定者的創新。其全球多學科研究人員網絡和戰略伙伴關系為數字時代提供政策解決方案,目標只有一個:改善各地人民的生活。CIGI總部設在加拿大滑鐵盧,得到了加拿大政府、安大略省政府和創始人吉姆-巴爾西利的支持。

付費5元查看完整內容

作者

  • 加拿大陸軍陸戰中心的Geofrey Priems少校
  • 加拿大國防研究與發展--作戰研究與分析中心的Peter Gizewski

引言

全世界對人工智能(AI)軍事應用的興趣正在增長。事實上,與其他一些技術進步一樣,人工智能越來越被視為軍事效力的潛在重要推動力。

毫不疑問,人們對人工智能對加拿大陸軍(CA)的影響以及其采用人工智能的可能性的興趣正在上升。關于如何以及在多大程度上可以利用人工智能來潛在地幫助實現緊密作戰應用的問題:加拿大陸軍的頂點作戰概念--"不確定性時代的陸地力量 "的實現,以及加強陸軍的五項作戰功能的實施,這些問題尤為突出。有關有效采用人工智能可能面臨的挑戰以及克服這些挑戰所需措施的問題也同樣突出。

本文對這些問題進行了初步研究。它源于加拿大陸軍陸戰中心正在進行的關于人工智能的工作,以研究和確定人工智能對加拿大陸軍和有效實現陸軍頂點作戰概念的影響。

文章概述了人工智能在軍隊采用和開展軍事行動方面所帶來的潛在好處和挑戰。然后,文章研究了人工智能對實現密切交戰的潛在影響,確定了人工智能的應用有望提高軍隊的作戰效率的領域。文章最后概述了一些必要的關鍵前提條件和做法,以確保這些工作是負責任的和有效的。

人工智能

人工智能的定義有很多,而且在不斷發展。然而,按照國防部目前的定義,人工智能是 "計算機執行與人類邏輯有關功能的能力,如推理、學習和自我改進"。 雖然沒有被普遍接受,但這樣的表述為在CA背景下討論人工智能提供了一個體制上熟悉和充分的基礎。

潛在利益

軍事組織探索、開發和采用人工智能的激勵措施是引人注目的。鑒于高速計算機(網絡速度和處理能力)和人工智能算法處理和分析大量數據的能力,其速度和準確性遠遠超過人類,聲稱人工智能系統有可能全面改變國防,這并不令人驚訝。通過作為一種提高人類和機器分析速度的手段,人工智能有希望提高數據使用、管理和態勢感知能力。對于軍隊來說,其結果很可能轉化為成本節約、改進控制系統、加快決策、新的作戰概念和更大的行動自由。

由人工智能支持的信息和決策輔助系統有可能促進在 "復雜的、時間緊迫的戰地環境 "中做出更好的決策,允許更快地識別威脅,更快、更精確地確定目標,并根據戰地條件的變化為指揮官創造靈活的選擇。應用范圍可以從指揮和控制以及情報、監視和偵察到訓練和后勤。此外,作為機器人和自主系統的骨干技術,人工智能為武器裝備的創新提供了前景,使具有相當大的軍事潛力的先進自主系統(如機器人系統和無人機)得以發展。人工智能甚至可能在部隊結構和作戰概念方面產生巨大的變化,有可能減少人員的負擔和軍事硬件的成本,同時提高戰爭本身的效率和效力。

這些技術無處不在,而且越來越多的盟軍和對手都可以使用,這一事實進一步刺激了對人工智能軍事技術的追求。就前者而言,盟國對人工智能日益增長的興趣突出表明,需要有足夠的人工智能能力來確保未來盟國的互操作性和軍事有效性。至于后者,有證據表明,對手(如俄羅斯、中國)對人工智能的軍事應用進行了持續的探索和投資,這增強了追求此類技術的動力,以檢測和防御未來越來越多的人工智能軍事威脅。

采用的限制和挑戰

然而,有效引進人工智能的先決條件是相當多的,很可能對軍事組織充分實現人工智能應用所帶來的一些可能性的能力造成限制。此外,軍隊可能不完全愿意追求人工智能技術本身所固有的一些可能性。

事實上,目前的能力僅限于執行離散的功能和學習具體的任務(如狹義的人工智能)。人工智能技術的脆弱性令人擔憂。脆弱性是指任何算法不能泛化或適應狹窄的假設集以外的條件。例如,在添加了一些位數后,一個停車標志可以被讀成一個45英里/小時的限速標志。應用于涉及過度不確定性的情況實際上可能特別危險。例如,錯誤地選擇和起訴友軍目標,如友軍戰士或民用車輛。因此,在軍事環境中,特別是在軍事行動中,對人工智能的使用限制是相當大的。面對傳來的信息可能不可靠、不完整或甚至被對手故意偽造的環境,相信這些技術提供的解決方案仍然很脆弱。

除此之外,即使在這種技術被普遍認為是可靠的領域,其開發和應用也可能是苛刻的。要求包括確保有足夠數量的數據可供開發用于啟用軍事系統的算法。它們還包括確保算法本身的質量,這一要求取決于在將人工智能納入軍事系統之前提供和有效地準備和編碼訓練數據,以及確保來自現實世界數據的有效性,其中包括邊緣案例(不常見的使用案例)。而且,它們包括確保開發和集成到軍事系統中的人工智能是可靠的(即它以預定的方式工作)。

這些要求中的每一項都可能涉及相當大的挑戰。獲取大量的訓練數據可能會遇到基于政治和法律限制的數據共享阻力,從而降低待訓練算法的質量和使用這些算法的系統的可靠性。獲得的數據可能包含種族、性別和其他源于數據準備和編碼的偏見。此外,隨著算法變得更加復雜,通過對手在訓練數據集中注入不良數據而被操縱的可能性會增加。只要存在這些挑戰,對人工智能的信任及其在軍事領域的應用就可能受到影響。

這些風險可以通過仔細的人工監督和強大的測試得到控制。也就是說,真正有效的監督需要操作者熟悉人工智能技術的細節,以及重要的系統整合和社會化,這可能很難實現。由于對技術本身的理解存在困難,有效監督挑戰就更大了。機器推理的過程不等同于人類,人工智能系統采用的邏輯也不容易理解。對于負責使用這些能力的指揮官和系統操作者來說--其中一些能力可以很好地決定生命和死亡--相信那些決策過程不透明的技術,可能是一座太遙遠的橋梁。

對加拿大陸軍的影響

這些現實表明,加拿大陸軍采用人工智能,雖然有希望,但必須謹慎行事,并對限制有一個現實的認識。無論是加拿大還是加拿大陸軍,都無法避免遇到上述挑戰。例如,人工智能技術在沒有適當人類監督的情況下越接近殺戮鏈,可能發生災難性后果的風險就越大。因此,必須注意研究或采用能夠幫助人類決策的技術。一個指示人類做什么的 "黑盒"人工智能將是不可接受的。人工智能顧問必須能夠解釋其建議/結論,以便人類能夠理解并對所提出的建議有信心。人類決策者必須能夠對人工智能所提供的解決方案向領導作出清晰和可理解的解釋。

然而,如果謹慎地追求和應用,人工智能的大部分內容通常與《近距離接觸,不確定時代的陸地力量》中詳述的陸軍要求非常吻合。緊密的作戰應用目的是應對以快速變化為特征的作戰環境的挑戰,以及廣泛的復雜的人道主義挑戰和技術能力越來越強的對手,他們能夠使用一系列機動性越來越強的致命和非致命系統以及精心設計的反措施。應對這些挑戰在很大程度上取決于確保獲得必要的信息和分析的能力,以便比對手更快地了解和調整不斷變化的條件。作為一種先進的信息處理方法,人工智能可以提供一種重要的手段,通過提供比人類更快、更準確地處理和分析來自越來越多來源的數據來幫助滿足這些需求。因此,人工智能可以作為一個重要的決策輔助工具,使個人和共同的理解得到發展,這對于確定潛在的作戰方案,優先獲得、處置和使用軍事資產,以及提供及時開展行動所需的數據、信息和可操作的情報至關重要。

除此之外,人工智能甚至可能有助于加強陸軍所依賴的網絡安全。"能夠遠距離運行的高容量網絡為軍隊行動的開展提供了顯著的優勢。事實上,一個安全和強大的網絡是確保快速、安全地分發有效開展軍隊作戰所需的數據和分析的核心。通過開發能夠防范網絡故障、電子戰和網絡攻擊的算法,人工智能可以更充分地確保軍隊能夠 "獲得網絡的優勢",從而以更安全、協調和協作的方式開展行動。在諸如互操作性、力量生成、力量投射和維持以及開展分散行動等方面的改進,都可能因此而受益。

自始至終,隨著人工智能技術被推向戰術邊緣,將有必要確保有足夠的電力(能源)來支持它。除了網絡,先進的電源管理和電池技術將是至關重要的。

圖:加拿大國防研究與發展部-瓦爾卡蒂爾項目的數據收集工作,該項目被稱為聯合算法戰機傳感器。該項目是較大的加拿大陸軍科學和技術組合的一部分,即數字時代的授權分布式作戰。

付費5元查看完整內容

引言

俄羅斯總統弗拉基米爾·普京宣布 2021 年為俄羅斯科技年,11 月被命名為人工智能 (AI) 月,這表明俄羅斯領導層對這一總括性術語的濃厚興趣。俄羅斯國防部門尤其被這些人工智能技術相關機遇所吸引。近年來,人工智能、機器人技術以及將自動化和自主性進一步整合到武器系統和軍事決策中,都被強調為俄羅斯武裝部隊現代化的優先事項。

2017 年,普京有句名言:“人工智能是未來,不僅是俄羅斯,也是全人類……誰成為這一領域的領導者,誰就成為世界的統治者”。引用這句話,分析人士經常將俄羅斯的發展歸因于、測試和使用武器化的 AI 來與當前領先的 AI 開發商:美國和中國在所謂的全球 AI 競賽或全球技術競賽中競爭的必要性。雖然認為競爭和追趕的需求是俄羅斯動機的一部分,但它對軍事人工智能的興趣不應僅僅歸因于對相對實力的追求。要了解俄羅斯圍繞人工智能、自治和自動化的辯論的深度和復雜性,需要審查有關其對俄羅斯軍隊的戰略影響、自治的好處和風險,以及更廣泛地說技術現代化和技術現代化的重要性的討論。俄羅斯在世界上的地位的創新。

本報告旨在概述面向國際受眾的不同概念和動機,這些概念和動機一直并正在指導俄羅斯政治和軍事領導人實現其追求武器化人工智能的雄心。首先,它概述了俄羅斯軍隊追求人工智能、自主和自動化背后的各種外部和內部因素。其次,它介紹了俄羅斯在這一領域的一些計劃、對其能力的了解以及加強這些計劃所面臨的挑戰。第三,它深入探討了俄羅斯關于自主,特別是自主武器系統的辯論,以及關于開發所謂的“殺手機器人”或自主戰斗機器人的倫理討論,這是一個經常使用的術語在俄語文學中。

該分析基于對開源材料的調查,包括媒體報道、新聞稿、官方聲明和演講、同行評議的文章和智囊團報告,以及俄羅斯軍事期刊上的出版物。作者希望將其作為正在進行的博士研究項目的第一步,以及對新興的關于俄羅斯如何看待武器化 AI 的英語文獻做出貢獻。

概念注釋

本報告分析了自主、自動化和人工智能的概念——這三個術語在俄羅斯和國外經常相互混淆。值得從探索這些概念開始。自動化是一種基于特定動作或規則序列將任務委派給機器的方式,從而使流程更具可預測性。自動化系統是“根據預編程腳本執行具有定義的進入/退出條件的任務”。自主性是一個更復雜的過程,廣義上的意思是“對機器進行編程以執行通常由人員執行的某些任務或功能人類”,但沒有詳細的規則,因此更難以預測。人工智能可以定義為“數字計算機或計算機控制的機器人執行通常與智能相關的任務的能力。” 人工智能及其子集,例如機器學習,以及其在計算機視覺、面部和聲音識別等方面的應用,可用于實現武器系統更高水平的自動化和自主性。自主武器系統通常被定義為“一旦啟動,無需人工操作員進一步干預即可選擇和攻擊目標的機器人武器系統。” 聯合國安理會 2021 年 3 月發布的一份報告表明,土耳其制造的 Kargu-2在利比亞內戰期間,游蕩彈藥系統被編程為以自主模式選擇和攻擊目標。這被世界各地的媒體描述為首次使用致命的“殺手機器人”。但是,尚不清楚該系統在攻擊時是否真正自主運行。

【在人工智能進步的幫助下,武器系統可以在自主范圍內進一步發展,承擔更多任務,并最終在戰場上取代人類】

圖1. 武器系統的自主性

同時,這些領域之間的能力并不總是相同的。在俄羅斯的案例中,自動化和無人機器人系統的開發比集成更現代的基于機器學習的系統更先進。俄羅斯軍事文獻中經常提到的“自動化”(автоматизация)過程——其他術語包括“機器人化”(роботизация)、“智能化”(интеллектуализация)或“數字化”(дигитализация)并不是一個新現象。 俄羅斯在自動化和遠程控制武器系統方面的能力相對優于其在人工智能總稱下整合機器學習和廣泛技術的其他子元素的能力。許多軍事決策者和分析人士的立場是,借助人工智能的進步,武器系統可以在自主范圍內進一步發展,承擔更多任務,并最終在戰場上取代人類。

付費5元查看完整內容

本報告描述了北約第一個多領域小組IST-173所取得的成果。與會者包括來自不同小組和團體的科學家,以及來自北約機構和軍事利益攸關方、學術界和工業界的科學家,這為AI和軍事決策大數據這一主題創造了第一個利益共同體。該團隊在實踐中證明了一種新的STO方法的可行性,即任務導向研究,以激發公開對話、自我形成的研究合作和跨小組活動。此外,該方法還有助于為人工智能和軍事決策大數據這兩個主要能力領域聯合開發北約首個科技路線圖,以應對北約在這些領域面臨的作戰挑戰。由于新的組織(軍事利益相關者積極參與的多領域團隊)和這種創新方法的應用,確定了一些經驗教訓,應該支持軍事決策AI和大數據的進一步操作。

付費5元查看完整內容
北京阿比特科技有限公司