美國海軍和國防部(DOD)正在優先考慮在各戰爭領域迅速采用人工智能(AI),以保持對美國有利的技術優勢。機器學習(ML)是最近人工智能發展的基礎,它存在著一個持續的、沒有得到充分解決的關鍵缺陷:對抗性樣本。自2013年發現以來,在深度神經網絡(DNN)分類器中出現了許多新形式的對抗性樣本攻擊,并提出了許多狹義和特殊的防御措施。這些防御措施都沒有經受住反測試。一些研究人員提出,這種易受攻擊性可能是不可避免的。到目前為止,還沒有發現有效的、可計算的、通用的方法,可以加固DNN,使其免受這種和相關的泛化問題的影響。我們的前提是,ML模型對所有對抗性樣本的魯棒性與抵抗力,可以通過將模型分類空間數據密集區之間的數據點稀疏的潛在空間,作為障礙隔離來改進。我們研究了兩種不同的方法來實現這種對基于對抗性樣本的攻擊防御,測試這些防御對最有效的攻擊,并將結果與現有的技術狀態的防御進行比較。
人工智能(AI)已被提出來作為推進國防部能力的一個關鍵推動因素。人工智能國家安全委員會在其最終報告中寫道:"如果我們的武裝部隊不加速采用人工智能,他們的軍事技術競爭優勢可能會在未來十年內喪失",建議 "美國現在必須采取行動,將人工智能系統投入使用,并在人工智能創新方面投入大量資源,以保護其安全,促進其繁榮,并保障民主的未來" [1]。鑒于人工智能或更具體地說,深度神經網絡(DNN)中的機器學習(ML)最近在科學和工業領域取得了廣泛的突破,這種關注無疑是恰當的。然而,在國防應用中利用ML和其他現代 "深度學習 "方法并非沒有其固有的附加風險。
最近的人工智能主張已經近乎夸大其詞;當然,在與軍事和文職領導層的高層溝通中,也發生了一些夸大其詞的情況。作為這種夸張的例子,參考一下《2019年美國總統經濟報告》是如何向美國領導人介紹機器視覺方面的人工智能狀況的。在第343頁題為 "2010-17年人工智能和人類的圖像分類錯誤率 "的圖表中,它顯示了 "人類分類 "錯誤率與機器分類錯誤率將在2015年超過人類圖像分類能力。對這一說法仔細考慮并對參考研究甚至是當前最先進研究進行檢查,顯示這一特殊的發展仍然是一個遙遠的、尚未達到的里程碑。
即使ML仍然存在挑戰,近年來,機器學習在科學、工業和商業領域的成功應用也在急劇增加。深度神經網絡已經在自然語言處理、天文學、癌癥診斷、蛋白質折疊、語音識別和機器視覺等不同領域取得了巨大的進步[2]-[8]。因此,這類系統的潛在軍事應用同樣比比皆是:分析頻譜上下的聲學和電磁傳感器數據、機器視覺、尋找-修復-跟蹤和瞄準對手的飛機、地下、水面和陸地戰斗人員、人類語言處理、語音識別、自主空中/地面/地下/陸地車輛、信息戰、情報、監視和偵察(ISR)整合、機器人技術、網絡防御、網絡攻擊、戰術決策輔助,等等。
盡管這項技術帶來了巨大進步,但目前的ML分類方法創建的模型在其核心上是有缺陷的,因為它們非常容易受到對抗性樣本攻擊和相關欺騙技術的影響[9]。廣義上講,文獻中定義的這類攻擊有三類:探索性攻擊、逃避性攻擊和中毒性攻擊。在本報告中,我們主要關注防御我們認為最關鍵的需求,即逃避攻擊。為了提供背景,我們簡要地概述了這三種攻擊。探索性攻擊,對手并不試圖實現錯誤分類,而是試圖通過精心設計輸入來獲得模型的知識,這些輸入的結果將提供關于模型內部狀態的信息,其目的是減少模型的不確定性,以支持未來的攻擊。中毒攻擊試圖在訓練期間修改模型,以偷偷地完成模型的一些未被發現的行為變化。最后,在逃避攻擊中,攻擊者不知不覺地修改了人工制定或模型的輸入,以產生分類的變化,從良性的或最初設定的類別到一些其他的、欺騙性的不真實的類別[10]。這最后一類是我們防御的重點,從這一點出發,我們把這些簡單地稱為對抗性樣本攻擊[11]。
自從2013年最初發現DNN分類器中的對抗性攻擊(逃避)以來,已經出現了許多種這樣的攻擊,并且至少提出了同樣多的狹義的特定防御措施作為回應。不幸的是,到目前為止,所提出的防御措施沒有一個能經受住反測試和適應性攻擊[12]。一些研究人員提出,這種易感性可能是空間中問題表述的一個不可避免的特征[13]。目前,還沒有發現一種有效的、計算上可接受的、通用的方法,可以支撐DNN對抗類似的相關的泛化問題[12], [14]。
在國防部的范圍內,大家都承認欺騙在戰爭中起著核心作用。因此,戰爭系統必須被設計成對欺騙有高度的適應性[15]。馬基雅弗利在“Prince”中寫道:"......雖然在任何行動中使用欺騙都是可憎的,但在發動戰爭時,它是值得稱贊的,并能帶來名聲:用欺騙征服敵人與用武力征服敵人一樣受到稱贊。" 對孫子來說,這甚至是更重要的因素,"所有的戰爭都是基于欺騙"。在國防應用中,至關重要的是,不僅系統在戰斗開始時就如設計之處那樣工作,而且它們應該具備有彈性對狡猾的、有同樣資源和動機的對手的潛在計劃。
誠然,ML在民用和科學方面已經取得了巨大的成功。盡管民用工業技術領域與軍事技術需求有很大的內在交集,但應該注意到,后者并不是前者的完美子集。也就是說,戰爭的現實要求其技術必須為虛假信息和故意欺騙的行動、展示和通信做好準備。這兩個領域之間的這些不同假設意味著,在一個領域已經準備好的東西,在另一個領域可能還沒有準備好。在整個國防部,納入這些技術的系統正在被考慮、開發,在某些情況下已經被采用,目的是增強或取代我們一些最關鍵的國家安全能力。在軍事應用中,特別是武器系統和殺傷鏈內的系統,必須消除或至少減少對抗樣本,并對其進行補償,使故障呈現最小的風險。其余的風險必須被明確指出、發現并被作戰人員充分理解。不仔細和充分地解決這個問題是不可想象的,否則我們就有可能采用脆弱性技術,將災難性的漏洞引入我們關鍵戰爭系統。
在防御基于機器學習技術的系統不受欺騙的潛在戰略背景下,我們介紹了一種防御措施。我們的前提是,ML模型對所有對抗性樣本的魯棒性與抵抗力,可以在模型分類器的分類空間數據密集區之間的數據點稀疏潛在空間中插入一個 "填充 "或 "屏障 "的方法來提高[13], [16]。我們相信,通過統計學插值或采用變分自動編碼器(VAE)[17]或生成對抗網絡(GAN)[18]來插值和投射到這個空間的模型可以創建人工填充類樣本來增加數據集,所產生的模型將能夠成功地區分合法數據點和對抗性樣本,同時保持與最先進分類方法相稱的準確性。
《軍事中的人工智能和自主:北約成員國戰略和部署概述》報告以及相關文件《附錄A -國家概況》提供了人工智能和自主技術在北約盟國軍事中的作用的高層視圖。這是第一個專門針對北約國家軍事人工智能的學術研究。
該報告概述了每個北約國家在軍事人工智能方面的觀點和雄心,并概述了它們目前對人工智能技術的使用。在附錄A中,報告探討了每個國家在軍事和國防背景下與人工智能的接觸程度,審查了國家人工智能戰略和當前人工智能技術使用的公開來源。
本研究的策略含義如下:
鼓勵負責任的人工智能規范:作為一個基于共識的聯盟,北約在促進安全和軍事人工智能討論方面處于獨特地位,并有機會協調成員國之間的規范建設活動。
人工智能的采用:北約是一個有價值的機制,通過該機制,可以按需向成員國提供能力建設指導和更廣泛的援助。
協作增強抵御能力:加強聯盟合作可能使各國能夠利用能力建設努力,更好地應對與人工智能技術相關的安全挑戰。
維持集體防御:人工智能技術的能力差距不斷擴大,可能導致一些成員國在應對更快的沖突環境方面裝備相對不足,在這種環境中,對手越來越多地利用人工智能和自主系統。
關注未來的互操作性: 豎井式創新為聯盟提出了未來的互操作性挑戰,例如在跨國運營中共享數據和AI應用。
雖然有許多信息/知識來源可以確定作戰能力的差距并提供建議,以消除差距或向艦隊提供新的/改進的能力,但沒有一個全面的系統和負責任的實體能捕獲所有這些信息,正在取得或沒有取得進展,以提供一個清晰和簡潔的圖景,消除確定的差距或提供能力。為了解決這個問題,我們開發了一種基于多標準決策分析(MCDA)方法的方法,以計算和可視化任何特定時間點的能力差距得分,以描述基于證實的實時信息的能力差距解決進展。在這項工作中,我們通過在框架中增加新的元素和子元素來擴展用于評估能力的框架,并通過納入不同的模型來計算能力差距分數來擴展MCDA方法。這些模型包括加權總和模型(WSM)、加權產品模型(WPM)、加權總和產品評估(WASPA)、與理想方案相似度排序偏好技術(TOPSIS)和層次分析過程(AHP)。目標是開發一種全面的方法,以1)支持基于硬數據的能力優先排序,2)提供一個清晰和簡明的進展情況,以消除確定的差距或提供一種能力,以及3)支持創建一個中央存儲庫,供各組織分發相關信息。
海軍水面作戰發展中心(SMWDC)指揮官的任務是為水面類型指揮官所管轄的任務領域提供監督、調整、同步和端到端的戰爭改進規劃(WIP)評估。WIP過程是一個正式的框架,用于捕獲、審查和優先考慮艦隊的能力需求,以提高戰備狀態并優化海軍部隊在執行作戰司令官(CCDR)任務中的資源(美國太平洋艦隊司令,2013)。對于每個任務領域,SMWDC總部負責確保WIP艦隊協作小組(FCT)的組成,以參與為年度產出產品的發展提供信息的活動。每個WIP在第一季度和第二季度進行執行工作組(EWG),并在當前財政年度的計劃目標備忘錄(POM)周期的第三季度初進行研討會。在整個WIP周期中,利用SMWDC總部N8/9認可的排名工具來幫助客觀地確定能力差距的優先次序。年度能力領域評估(CAA)是一項協作努力,由EWG主席領導,并得到FCT工作組領導和戰爭發展中心的支持。在第一和第二工作組期間收到的英特爾簡報和FCT更新有助于為CAA的創建提供信息,并最終提供 "家庭作業 "或支持文件,以確定能力差距的優先次序。每個能力領域所有者(CAO)向SMWDC N00通報他們的CAA和IPCL。通過在WIP研討會上提出的努力,CAA報告成為當前WIP周期IPCL發展的基礎(海軍水面和地雷作戰發展中心指揮官,2018)。
在以前的研究工作中,我們開發了一種基于多標準決策分析(MCDA)的方法,以計算和可視化任何特定時間點的能力差距得分,以描述基于證實的實時信息的能力差距解決進展。在這項工作中,我們通過擴大用于評估不同能力的框架和納入計算能力差距分數的不同模型來擴展MCDA方法。這些模型包括加權產品模型(WPM)、加權總和產品評估(WASPA)、與理想方案相似度排序偏好技術(TOPSIS),以及。這種方法的應用將為決策者提供客觀的信息,以1)支持基于硬數據的能力優先排序,2)提供一個清晰和簡明的進展情況,以消除確定的差距和/或提供能力,以及3)支持創建一個中央存儲庫,供各組織分發相關信息。
在以前的工作中,我們建議使用多標準決策分析(MCDA)來計算在特定時間點上的特定優先級的能力差距得分。多標準決策分析既是一種方法,也是一套技術,其目的是提供備選方案的總體排序,從最優先到最不優先。替代方案可能在滿足若干標準的程度上有所不同,而且沒有一個替代方案能最好地滿足所有標準。此外,這些標準之間通常會有一些沖突或權衡。MCDA是一種看待受許多決策標準影響的復雜問題的方法,它將問題分解成更容易管理的部分,以便將數據和判斷帶到這些部分,然后將這些部分重新組合,向決策者展示一個連貫的整體情況。這種方法是對思考和決策的一種幫助,但不是對決策的一種幫助(Department for Communities and Local Government, 2009)。
在能力差距分析的情況下,標準代表影響差距的因素(如理論、組織、物資、資金等),而備選方案是優先能力清單所規定的優先事項。每個因素都有特定的權重,以反映其相對重要性,并由主題專家單獨或集體分配。每個優先事項都會根據每個因素進行定期評估(例如,每季度一次),并根據適當的尺度進行打分。然后使用適當的MCDA模型計算每個優先事項的總分,并將其可視化,以產生一個能力差距分數。
為了實施擬議的方法,需要完成以下任務:
1.使用一個合適的能力管理框架,確定能力差距的因素和子因素的綜合清單。這些因素是對能力進行評估的性能衡量標準。這些因素可能包括:理論、組織、訓練、物資、資金、政策等。這些因素可以按照高層次因素和低層次子因素的層次結構進行分組,以此類推。
2.使用一個適當的尺度對每個因素的能力進行評級。例如,對資金因素可以使用1到5的量表,其中1表示相當大的資金削減,5表示在某一特定時間點對優先事項有充分的資金供應。對于其他因素,如理論、組織、訓練、物資等,也可以制定類似的評分標準。
3.為已確定的因素分配權重以反映其重要性。這可以基于從個人評估到在主題專家小組之間達成共識的模型等各種方法。
4.通過使用合適的MCDA模型將每個備選方案的權重和評級結合起來,計算出總體的優先級差距分數。這些模型包括加權總和模型(WSM)、加權產品模型(WPM)、加權總和產品評估(WASPA)、通過與理想方案相似度排序偏好技術(TOPSIS)和分析層次過程(AHP)(Parlos,2000)。
5.進行敏感性分析,揭示不同的權重或偏好如何影響能力差距得分。敏感性分析提供了一種手段,以檢查權重和偏好的模糊性或評價者之間的分歧對最終總體結果的影響程度。
6.將不同時期的能力差距得分可視化,以提供一個清晰和簡明的畫面,說明在消除已確定因素的差距方面正在取得或尚未取得的進展。
毫無疑問,今天圍繞人工智能(AI)的最復雜的治理挑戰涉及國防和安全。CIGI正在促進戰略制定:人工智能對軍事防御和安全的影響項目將這一領域的主要專家與來自國防部的40多名公務員和加拿大武裝部隊的人員聚集在一起,討論人工智能對國家安全和軍事領域的力量倍增效應。
這一努力依賴于一系列的四次研討會,以產生關于數據驅動技術如何引發巨大的技術重組的前瞻性思考,這將對加拿大的國防規劃產生深遠影響。具體來說,這些研討會集中在數據治理和政策(道德、云計算、數據準備和互操作性);決策(可信賴性、人機一體化、生物技術和問責制);模擬工具(培訓、兵棋推演、人機合作、機器人、自主和可信的人工智能);以及信息時代的加拿大情報(將人工智能用于情報)。CIGI還主辦了一個研究生研討會,以激勵整個加拿大在全球公共政策、計算機科學和安全等領域學習的新興學者。
本文探討了在人工智能(AI)和機器學習背景下的軍事特定能力的發展。在加拿大國防政策的基礎上,本文概述了人工智能的軍事應用和管理下一代軍事行動所需的資源,包括多邊參與和技術治理。
維持先進軍事能力的前景現在與人工智能的武器化直接聯系在一起。作為一項通用技術,人工智能代表著一種力量的倍增器,有能力重塑戰爭規則。事實上,在核彈頭仍然是一種單一的技術應用的情況下,人工智能有能力支持許多不同類型的武器和系統。正如北大西洋公約組織(NATO)的指導意見所指出的,人工智能和其他 "智能 "技術現在對加拿大及其盟國的未來安全至關重要。
新技術在改變戰爭的性質方面有著悠久的歷史。從馬匹和盔甲的使用到航空母艦和戰斗機的引進,人工智能和機器人只是代表了軍事技術發展的最新階段。常規武器與人工智能和機器學習的融合,必將重塑決策的性質和軍事戰略轉型中的武力應用。
即使當代人工智能系統的能力被限制在機器學習算法的狹窄范圍內,這種限制可能不會持續太久。與神經科學、量子計算和生物技術相重疊的發現領域正在迅速發展,代表了 "智能機器 "進化的未知領域。在這些新的研究領域中的科學和技術發現給加拿大的國防帶來了巨大的風險,但同時也代表著巨大的機遇。
顯而易見的是,新興技術已經成為高度緊張的地緣政治競爭的基礎,它與一系列商業產業和技術平臺相重疊。中國、俄羅斯、美國和其他國家和非國家行為者正在積極追求人工智能和其他前沿技術的軍事應用。競爭的領域包括云技術、高超音速和新導彈技術、空間應用、量子和生物技術以及人類增強。
盡管技術創新一直塑造著國家間沖突的性質,但新興和顛覆性技術(EDT)的規模和速度是前所未有的。加拿大的國防政策反映了這種擔憂,它呼吁使加拿大武裝部隊(CAF)適應不斷變化的地緣政治環境。加拿大國防規劃已著手擴大和發展加拿大武裝部隊,在新的軍事平臺整合中納入下一代偵察機、遙控系統和天基設施。
基于對不斷變化的技術環境的廣泛評估,加拿大國防部(DND)認識到,這個新時代的特點是全球力量平衡的變化。這包括在快速發展的創新經濟中大國競爭性質的變化。就像石油和鋼鐵為工業時代設定條件一樣,人工智能和機器學習現在也可能為數字時代設定條件。
這種規模的破壞是由技術和制度變化的融合所驅動的,這些變化可以以新的和不可預測的方式觸發復雜的反饋回路。在這個新的環境中,人工智能技術將迫使世界各國軍隊投射力量的能力倍增。確定軍事人工智能發展中的護欄對于避免未來危機至關重要。應用減少風險的措施來識別和減輕軍事人工智能可能帶來的一系列風險將是關鍵。事實上,在這些能力完全嵌入世界上目前和未來的軍隊之前,治理人工智能可能會更容易。
從整體上看,這種轉變預示著從初級機器到數據驅動技術和精密電子的巨大轉變。這種物理、數字和生物技術的加速融合代表了一場巨大技術革命的早期階段。在全球范圍內管理這些新興和顛覆性的技術,對于減少未來沖突的風險至關重要。
從人工智能和機器人到電池存儲、分布式賬本技術(DLT)和物聯網(IoT),新興和顛覆性技術(EDT)現在正在激起一個商業創新的新時代。這一巨大的技術變革景觀正在醞釀一場社會和經濟變革,對中央銀行的發展具有巨大影響。正如北約最近的一份報告所指出的(北約新興和顛覆性技術咨詢小組2020),這些技術包括:
→ 人工智能和機器學習。人工智能/機器學習的發展及其對創新的潛在影響。這包括神經形態計算、生成式對抗網絡,以及人工智能從已經收集或尚未收集的數據中揭示出意想不到的見解的能力。
→ 量子技術。正在進行的從量子過程研究中獲得的知識轉化為量子技術的應用,包括量子計算、量子傳感、量子密碼系統,以及在量子尺度上對材料的操縱和開發。
→ 數據安全。用于保障和損害通信、數據交易和數據存儲安全的算法和系統的設計,包括量子證明加密方法、區塊鏈和分布式賬本架構,以及更廣泛的網絡安全領域。
→ 計算功能的硬件。微型化、電力采集和能源儲存方面的進展,包括在全球范圍內提供數字化關鍵基礎設施所需的物理系統(物聯網)和機器人的廣泛使用及其對全球系統和流程的持續影響。
→ 生物和合成材料。從原子/分子層面的材料設計、合成和操作到中觀和宏觀尺度的創新,支持生物工程、化學工程、基因層面的操作、增材制造和AI介導的生成設計。
正如蒸汽機和印刷術激發了工業革命一樣,人工智能和機器人技術現在也在軍事技術的性質和全球力量平衡方面引發了巨大變革。人工智能的興起并非沒有歷史先例,但伴隨著人工智能的變化表明,需要對國防規劃進行更精確的調整,以適應一個數據驅動的時代。
在大國競爭和多極體系的背景下,人工智能已經成為競爭的一個特別焦點。中國、俄羅斯、美國和其他許多國家都在積極追求人工智能能力,并把重點放在國防和安全方面。例如,中國希望到2030年在人工智能方面領先世界,并期望通過利用大量的豐富數據,擴大其在人工智能產業化方面的領先優勢(Lucas和Feng,2017年)。
事實上,數據和數據驅動的技術現在占據了全球經濟的制高點。整個全球數據經濟的競爭已經與大國競爭密不可分(Mearsheimer 2021)。盡管美國和中國的經濟深深地相互依存,但中國在整個歐亞大陸不斷擴大的投資將很快使其成為世界貿易的中心。
技術優勢仍然是北約國家的關鍵支柱,但中國正在迅速趕超。即使美國在人工智能發現方面建立了強大的領先優勢,中國也越來越有可能在人工智能驅動的應用產業化方面占據主導地位。中國不僅有先進的商業能力,而且還有一個連貫的國家戰略。中國的技術部門正在達到專業知識、人才和資本的臨界質量,正在重新調整全球經濟的指揮高度(Lucas and Waters 2018)(見圖1)。
中國產業部署的大部分技術創新都是 "漸進式 "的,而不是 "顛覆式 "的,但現在這種情況正在改變。將新興市場聚集在其軌道上,中國前所未有的經濟擴張現在對世界經濟產生了引力(The Economist 2018)。標志性項目,價值數萬億美元的 "一帶一路 "倡議(世界銀行2018年)為圍繞電動汽車、電信、機器人、半導體、鐵路基礎設施、海洋工程以及最終的人工智能的廣泛戰略轉變提供了一個全球平臺(McBride和Chatzky 2019年)。
毫不奇怪,中國已經是國際專利申請的世界領導者(世界知識產權組織2020)。隨著自主機器(Etzioni和Etzioni 2017)、可再生能源基礎設施、量子通信(?iljak 2020)、增強型腦機接口(Putze等人2020)和天基武器(Etherington 2020)的出現,重新思考加拿大國家安全,特別是加拿大國防的性質的壓力正在增加。鑒于技術創新的步伐不斷加快,以及亞洲作為世界貿易中心的崛起(Huiyao 2019),來自國外的技術的影響可能是巨大的。
圖1:按購買力平價計算的國內生產總值預測(以萬億美元計)
人工智能的概念已被廣泛討論,但該術語的精確定義仍然是一個移動的目標。與其說人工智能是一項具體的技術或特定的創新,不如說它是一個材料的集合。事實上,即使人工智能技術已經成為廣泛的主流商業應用的基礎,包括網絡搜索、醫療診斷、算法交易、工廠自動化、共享汽車和自動駕駛汽車,人工智能仍然是一個理想的目標。
盡管人工智能領域的研究始于20世紀40年代,但隨著機器學習和計算機處理能力的改進,過去十年對人工智能興趣的爆炸性增長已經加速。人工智能的持續進步被比喻為在人腦中發現的多尺度學習和推理能力。當與大數據和云計算相結合時,預計人工智能將通過將 "智能 "人工智能和機器學習系統與第五代(5G)電信網絡(即物聯網)上的大量聯網設備連接起來,使數字技術 "認知化"。
作為人工智能的一個子集,機器學習代表了人工智能的最突出的應用(見圖2)。機器學習使用統計技術,使機器能夠在沒有明確指令的情況下 "學習",推動許多應用和服務,改善一系列分析和物理任務的自動化。通過使用數據自動提高性能,這個過程被稱為 "訓練 "一個 "模型"。使用一種算法來提高特定任務的性能,機器學習系統分析大量的訓練數據集,以便做人類自然而然的事情:通過實例學習。
今天,機器學習的最常見應用是深度學習。作為更廣泛的機器學習家族的一部分,深度學習利用人工神經網絡層來復制人類智能。深度學習架構,如深度神經網絡、遞歸神經網絡和卷積神經網絡,支持一系列廣泛的研究領域,包括計算機視覺、語音識別、機器翻譯、自然語言處理和藥物設計。
圖2:人工智能的層級
安全人工智能位于新興和顛覆性技術(EDT)星座的中心,包括機器人學、基因組學、電池存儲、區塊鏈、3D打印、量子計算和5G電信。在研究層面,美國仍然是人工智能的全球領導者。目前,國家科學基金會每年在人工智能研究方面的投資超過1億美元(國家科學基金會2018年)。國防高級研究計劃局(DARPA)最近宣布投資20億美元用于一項名為AI Next的計劃,其目標是推進上下文和適應性推理(DARPA 2018)。
與過去的原子武器或隱形飛機的技術發展不同,沒有國家會壟斷軍事人工智能。研究人員和領先的商業企業之間廣泛的全球合作意味著人工智能和機器學習的進步可能會在全球范圍內擴散。事實上,人工智能發展的大多數技術進步是由工業界而不是政府推動的。除了市場主導的技術公司,世界各地廣泛的網絡集群正在孵化新一代的商業創新(Li and Pauwels 2018)。因此,許多未來的軍事應用將可能是為商業產業開發的技術的改編。
幸運的是,加拿大一直是人工智能研究前沿的領導者,并繼續通過2017年推出的泛加拿大人工智能戰略下的幾個項目培育一個強大的人工智能生態系統。加拿大政府積極參與人工智能咨詢委員會和各種國際伙伴關系,包括2020年啟動的全球人工智能伙伴關系;人工智能國防伙伴關系,其第二次對話在2021年舉行;以及重疊人工智能驅動的安全和規劃的多邊協議(五眼,北約)。事實上,加拿大的國防政策,"強大、安全、參與"(SSE),反映了加拿大政府對增加年度國防開支的承諾,重點是技術。
目前的聯邦預算包括對人工智能發展的實質性承諾,承諾在10年內投入4.438億美元(Silcoff 2021)。在政府2021年的預算中,1.85億美元將支持人工智能研究的商業化;1.622億美元將用于在全國范圍內招聘頂尖的學術人才;4800萬美元將用于加拿大高級研究所;五年內4000萬美元將旨在加強埃德蒙頓、多倫多和蒙特利爾的國家人工智能研究所的研究人員的計算能力;五年內860萬美元將幫助推進人工智能相關標準的發展和采用(加拿大政府2021年,148)。
人工智能是一個影響廣泛的商業和軍事技術的模糊領域。像電力或化石燃料一樣,人工智能的廣泛應用意味著人工智能和其他通用技術有能力重新配置現代軍隊的步伐和組織(Bresnahan和Trajtenberg 1995)。從整體上看,人工智能代表了國家安全性質的結構性轉變。出于這個原因,SSE設想了一個未來的軍事態勢,更加注重開發、獲取和整合先進的變革性技術,包括網絡和自主系統。
即使加拿大在傳統聯盟(北美防空司令部、北約和五眼聯盟)中的持續作用仍然是國家安全的基礎,EDT正在從根本上改變沖突的性質。正如格雷格-菲夫(2021年)所觀察到的,人工智能作為戰爭工具的崛起與升級加拿大國家安全架構,特別是加拿大情報部門的日益增長的需求相重疊。技術變革和信息爆炸的復合周期,新的技能組合和新的數據分析戰略對國防規劃的演變變得至關重要。
在數字時代,戰爭正日益成為基于知識的戰爭。隨著沖突進入信息領域,軍事規劃開始重新聚焦于信息/虛假信息行動、網絡行動、情報行動和政治或經濟影響行動。事實上,這種混合戰爭作為一種戰爭工具由來已久,其目的是利用宣傳、破壞、欺騙和其他非動能軍事行動,從內部破壞對手(Bilal 2021)。
網絡仍然是潛在對手、國家代理人、犯罪組織和非國家行為者的一個關鍵目標。這包括對通信、情報和敏感信息的嵌入式監視和偵察。正如Amy Zegart(2021年)所解釋的那樣,技術正在通過極大地擴展數據和信息的獲取,使情報的性質民主化。事實上,今天驅動戰略情報的大部分信息實際上是開放源碼情報(OSINT)或在公共領域。
現代軍隊正變得嚴重依賴安全、及時和準確的數據。隨著數據的急劇膨脹,消化它變得不可能。這種數據爆炸正在推動對新的分析模式和新型網絡工具的需求。在數字時代,安全和情報人員需要新的平臺、新的工具和跨領域工作的新OSINT機構。在這方面,人工智能可能特別有幫助。
隨著數據的重要性增加,在廣闊的數字領域的對抗性競爭也在增加。人工智能和機器學習可以通過篩選巨大的數據庫來極大地提高加拿大的國家情報能力。人工智能不是銀彈。人工智能系統不能產生意義或提供因果分析。然而,人工智能和機器學習可以極大地增強人類在管理數據和數據驅動的分析方面的情報能力。
隨著決策者為數據驅動的世界調整其安全態勢,人工智能有望改變軍事沖突的既定模式。DND/CAF面臨的關鍵挑戰之一是數據驅動的網絡重塑指揮和控制系統的速度(Thatcher 2020)。集中式系統的優勢在于其協調人類活動的效率。在指揮系統中,人員和傳感器推動威脅檢測,將信息向決策堆棧上移,以便決策者可以做出適當的反應。數字技術深刻地加速了這個過程。
人工智能在軍事領域的應用可能被證明對傳統的指揮和控制系統具有挑戰性。例如,在美國,五角大樓的第一位首席軟件官最近辭職,以抗議技術轉型的緩慢步伐。在離開國防部職位后的一次采訪中,尼古拉-沙伊蘭告訴《金融時報》,美國未能對技術變革和其他威脅作出反應,使國家的未來面臨風險(Manson 2021)。
除了變化的速度緩慢,軍事指揮和控制系統的集中性意味著單點故障提供了脆弱的攻擊點。指揮機關和自動或人類控制者往往容易受到利用不良或欺騙性信息的對抗性技術的影響,甚至自上而下的決策在適應復雜的突發挑戰方面也會很緩慢。
神經形態計算、生成式對抗網絡(GANs)、人工智能決策支持、數據分析和情報分析方面的新創新在增強軍事行動的結構和進程方面可能會產生巨大影響。機器學習算法的快速發展已經在商業和軍事領域引發了一波投資熱潮。
超越對損耗和動能攻擊的傳統關注,轉向基于加速和適應的新方法,數據驅動的技術可能是促成國家安全性質徹底轉變的關鍵。人工智能不是一種單一的技術。相反,它是一類可以在一系列軍事和商業應用中整合的技術。這些技術不斷演變的基礎是數據。
數字技術現在由數據推動,并將繼續推動創造越來越多的數據驅動的技術--特別是人工智能。數據是訓練人工智能和先進機器學習算法的基礎。數據既是大規模運行的數字系統產生的 "操作廢氣",也是機器對數據輸入作出反應的過程,它現在推動了機器的 "自主性"。
數據驅動的技術支撐著現代社會的核心社會和經濟功能,涵蓋了基礎設施、能源、醫療保健、金融、貿易、運輸和國防。隨著5G網絡的全球推廣,預計在高度健全的全球信息網絡中創建、收集、處理和存儲的數據將出現爆炸性增長。根據市場研究公司IDC的數據,目前全球數據正以每年61%的速度增長(Patrizio 2018)。預計到2025年,數據將達到175 zettabytes(一萬億吉字節),改變數字經濟的性質和規模(同上)。
出于這個原因,DND/CAF將數據提升到國家資產的水平是明智的。這對經濟增長和加拿大國防都至關重要。將數據作為國家資產加以保護和利用,將意味著重新思考目前構成當代數據架構的大型集中式數字基礎設施。可以肯定的是,網絡時代的數據安全應該是分散的和聯合的,以避免集中式系統的脆弱性。
關于技術破壞的傳統預測往往會犯一個錯誤,即假設這種規模的系統變化只是以一對一的方式取代舊技術。在現實中,這種規模的顛覆往往會不成比例地取代舊的系統,使其具有巨大的新的架構、界限和能力(Arbib和Seba 2020)。
正在進行的人工智能武器化正在助長一場全球軍備競賽,有望重塑加拿大國防戰略的輪廓。事實上,世界上許多國家在人員系統自動化、設備維護、監視系統以及無人機和機器人的部署方面已經遠遠領先(斯坦利和平與安全中心、聯合國裁軍事務廳和史汀生中心2019)。從美國到俄羅斯到以色列再到中國,軍事研究人員正在將人工智能嵌入網絡安全舉措和支持遠程手術、戰斗模擬和數據處理的機器人系統。
以先進的物流、半自動車隊、智能供應鏈管理和預測性維護系統的形式將人工智能應用于軍事行動代表了人工智能的近期應用(Perry 2021)。然而,能夠在陸地、海洋、空中、太空和網絡領域針對個人(無論是否需要人類干預)的自主武器的演變代表了軍事沖突的可能未來(見圖3)。事實上,近100個國家的軍隊目前擁有某種程度的武裝或非武裝無人機能力(Gettinger 2019)。
圖3:全球無人機激增
商業無人機技術在采礦、農業和能源領域的縱橫捭闔,正在助長無人機技術的廣泛擴散。正如最近亞美尼亞和阿塞拜疆之間的沖突所表明的那樣,一群相對便宜的自主和半自主無人機可以被利用來壓倒傳統的軍事系統,使一系列當代平臺變得過時(Shaikh和Rumbaugh 2020)。輕型、可重復使用的武裝無人機,如土耳其的Songar(Uyan?k 2021)可以配備一系列有效載荷,包括迫擊炮、手榴彈和輕機槍。最近對沙特阿拉伯的Abqaiq石油加工設施(Rapier 2019)和俄羅斯的Khmeimim空軍基地(Hambling 2018)的攻擊反映了軍事無人機在不同戰場環境中的應用越來越多。
致命自主武器系統(LAWS)被定義為可以在沒有人類授權的情況下選擇和攻擊目標的武器,它被設計為在獨立識別目標之前在指定的行動區域內長期徘徊。多個無人機或機器人可以并行運作,以克服對手的防御或摧毀一個特定目標。開發人員傾向于將致命性武器系統分為三大類,即觀察、定位、決定和行動(OODA)循環(見圖4)。這些類別包括。"循環中的人"、"循環中的人 "和 "循環外的人"。這種區分也被框定為 "半自主"、"受監督的自主 "和 "完全自主 "的技術系統。不幸的是,受監督的致命性自主武器系統和完全自主的致命性自主武器系統之間的區別,可能只是一個軟件補丁或一個監管程序。
圖4:OODA環
隨著致命性自主武器系統和其他數據驅動的技術變得更便宜和更廣泛,它們可能會給廣泛的國家和非國家行為者提供平臺和工具,以新的和破壞性的方式利用人工智能和機器學習。除了收緊OODA循環外,軍事人員將需要了解人工智能在加速OODA循環方面的影響,以確定在特定情況下哪種模式最合適。
鑒于EDT的范圍和規模,認為我們可以簡單地保持從上個世紀繼承的系統和做法是錯誤的。正如英國查塔姆研究所2018年的一份報告所警告的那樣,美國、英國和其他核武器系統正變得越來越容易受到網絡攻擊(Unal and Lewis 2018)。這些擔憂是有根據的。人工智能和EDT的擴散一起,幾乎肯定會通過利用人工智能和自主系統的規模效應,為小國和非國家行為者帶來好處。
對于許多北約國家來說,網絡平臺已經成為多領域行動的關鍵--海、空、陸、網絡和空間。大規模的網絡使得在復雜環境中可視化和協調大量資源成為可能。在5G電信和云計算的基礎上,信息系統現在可以有效地收集、傳輸和處理大量的戰場數據,提供實時數據分析。
連接設備正在成為協調空襲、駕駛無人機、消化戰斗空間的實時視頻和管理高度復雜的供應鏈的關鍵。在英國,國防數據框架提供了一個結構,以解決軍事組織與數據驅動的企業需求相一致的挑戰(Ministry of Defence 2021)。從戰略到通信到后勤到情報,數字平臺現在是協調復雜軍事行動的基礎。數據現在是所有作戰領域的命脈。
在一個數字化的戰斗空間中,每個士兵、平臺和資源現在都是一個復雜軍事網絡中的節點。從20世紀90年代以網絡為中心的美國軍事行動開始,數字技術已經成為先進武器、戰術和戰略的基礎。從戰場態勢感知和自主無人機到精確制導彈藥和機器驅動的心理行動,網絡正在使戰爭進入網絡時代。
在集中式機構對工業時代至關重要的地方,平臺和網絡正在成為數字時代的關鍵。人工智能本質上是一種 "自下而上 "的技術,依靠不斷 "喂養 "大量的數據來支持機器學習作為 "學習引擎"。隨著數字生態系統的激增,網絡平臺和它們所依賴的數據管理系統成為管理不斷擴大的資源和人員的關鍵。
與金融部門一樣,DND應該尋求區塊鏈等DLT,以加速加拿大軍隊的數字化轉型。通過在分散的網絡中橫向分配數據,CAF區塊鏈可以幫助減少官僚化系統固有的限制和脆弱性。DLT提供了一個高度分散的驗證系統,可以確保所有的通信和數據傳輸免受對手的攻擊,同時消除集中式節點的潛在故障。
人工智能在軍事規劃中的應用正在迅速推進,許多國家在部署無人機和機器人方面已經取得了很大進展。事實上,無人機技術的全球擴散正在順利進行中。
世界各地的軍隊正在加速開發或采購攻擊型無人機(見圖5)。俄羅斯的 "閃電"(BulgarianMilitary.com 2021)、西班牙的Rapaz8以及英國、9美國10和以色列11的各種無人機項目共同代表了軍事技術新時代的早期階段。與工業時代的軍事技術不同,無人機可以以低成本獲得,并需要相對較少的技術技能。
無人機群技術涉及微型/迷你無人機/無人駕駛飛行器或無人機群,利用基于共享信息的自主決策。事實上,當代軍用無人機已經可以被設計成在沒有人參與的情況下定位、識別和攻擊目標。利用蜂群技術,數以百計的非武裝無人機可以從現場收集信息,同時用各種武器(即火器、火炮和/或彈藥)引導數以千計的無人機。
正如簡短的視頻 "Slaugherbots "所展示的那樣,完全自主的武器將使瞄準和殺死獨特的個人變得非常容易和便宜。在面部識別和決策算法的基礎上,國家和非國家行為者都可以廣泛使用致命性武器。數以千計的相對便宜的無人機配備了爆炸性的彈頭,有可能壓倒防空系統,攻擊基礎設施、城市、軍事基地等等。
圖5:無人機對比
無人機群壓倒加拿大軍事設施的威脅,以及對關鍵基礎設施的網絡攻擊或在衛星傳感器檢測到威脅時自動發射的高超音速導彈,代表了一個令人不安但越來越可能的未來。從復雜性科學和對昆蟲的研究中產生的,使用無人機來支持 "集群情報 "代表了一個加速戰爭節奏的新工具集。
為了應對這種不斷變化的環境,DARPA提出了 "馬賽克戰爭"的概念。馬賽克戰爭的中心思想是,模塊化系統可以成為應對高度網絡化環境的廉價、靈活和高度可擴展的工具。就像馬賽克中的瓷片一樣,單個作戰平臺可以被設計成高度可配置的。編隊利用分散的代理在 "殺戮網 "上進行重新配置。殺戮網的目標是避免 "單體系統 "的結構僵化。
與傳統戰爭中需要的復雜棋局不同,馬賽克戰爭利用數字網絡,利用模塊的靈活性和增強的決策(時間壓縮)加快動態響應時間。像自然界中的復雜系統一樣,殺傷性網絡使用算法來消除單點故障,通過模塊化設計加速反應時間。
從主導地位(預測)轉向加速反應(適應),"馬賽克戰爭 "旨在支持混合軍事單位,利用 "決策棧 "上下的橫向網絡。人工智能、無人機、傳感器、數據和人員結合在一起,為地面上的作戰指揮官提供支持,使小型編隊能以更快的速度獲得情報、資源和后勤資產。
像 "馬賽克戰爭 "這樣的模塊化系統表明,未來的戰爭將越來越多地利用現在驅動戰爭游戲和模擬的計算、數據分析和算法。推動高度流動、游戲化和不可預測的環境,未來的人工智能系統可以將戰爭加速到一個隨著結果范圍的擴大而變得極其密集的計算速度和節奏。
DARPA最近的AlphaDogfight(2019-2020年)為這一新現實提供了一個窗口。使用復雜的F-16飛行模擬器讓計算機與有經驗的人類飛行員對決,試驗的目的是為DARPA的空戰進化計劃推進人工智能開發者。毫不奇怪,F-16人工智能代理通過積極和精確的機動性擊敗了人類飛行員,而人類飛行員根本無法與之相提并論,五局為零。
人工智能的武器化也在激起對抗人工智能系統的新戰略和方法。正如網絡行動(無論是間諜活動還是攻擊)可以指示計算機網絡或機器以它們不打算的方式運行,對手也可以對人工智能系統使用同樣的策略。這個過程被稱為對抗性機器學習,旨在找出機器學習模型的弱點并加以利用。攻擊可能發生在開發或部署階段,包括通過提供欺騙性輸入(例如,"毒化"數據)或針對模型本身來誤導模型。
這些方法在國家安全環境中特別危險,因為在許多情況下,它們是微妙的,人類無法察覺。此外,具有挑戰性的是,對手不一定需要對目標模型的具體知識或直接訪問其訓練數據來影響它。隨著人工智能系統變得更加普遍,更多的人可以接觸到,對手的吸引力和攻擊機會將增加。
攻擊者可能試圖修改訓練數據或測試數據。這是通過創造對抗性樣本來實現的,這些樣本被故意 "擾亂 "或改變并提供給模型,從而導致錯誤。例如,通過改變洗衣機圖像的分辨率,研究人員能夠欺騙一個模型,將機器分類為 "安全 "或 "擴音器"(Kurakin, Goodfellow and Bengio 2017)。對人的眼睛來說,對抗性圖像看起來幾乎是一樣的。
在國家安全方面,對手可能會試圖使用同樣的技術來暗示武器系統實際上是一個社區中心。如果這是在孤立的情況下發生的,那么這個問題很可能被識別和解決。如果對手的樣本被長期大規模使用,這可能成為一個重大的挑戰,并影響對情報收集系統的信任。
此外,一些對手可能并不精確--或有技能--并可能試圖迫使一個模型對整個類別而不是特定類別進行錯誤分類。由于我們在國家安全環境中越來越依賴計算機圖像,并不總是能夠實時或在有爭議的空間進行驗證,因此在這種攻擊中出現誤判的風險是很大的。
高后果的人工智能系統并不是對抗性攻擊的唯一目標。受對抗性樣本影響的人工智能系統可以包括生物識別,其中假的生物特征可以被利用來冒充合法用戶,語音識別中攻擊者添加低量級的噪音來混淆系統(Zelasko等人,2021)和計算機安全(包括在網絡數據包中混淆惡意軟件代碼)。
由于DND/CAF尋求通過部署人工智能系統來提高效率--如軍艦上的語音助手(McLeod 2019)--必須在部署前評估對抗性使用的風險并制定對策。
除了改變輸入,另一種攻擊方法可用于逆向工程模型以獲取訓練數據(Heaven 2021)。由于機器學習模型對訓練數據的表現比新的輸入更好,對手可以識別目標模型預測的差異,并與包括個人身份信息在內的已知數據相匹配(Shokri等人,2017)。隨著機器學習即服務變得越來越多--而且在許多情況下,被用作開發更復雜的能力的基礎--DND將需要仔細審查國家安全系統的數據泄漏風險。這甚至適用于看似無害的系統,如語音助手。
人工智能系統的弱點的例子很多(Hadfield-Menell等人,2017)。這些例子包括吸塵器將收集到的灰塵彈回它剛打掃過的地方,以便它能收集更多的灰塵,或者數字游戲中的賽艇在原地循環以收集分數,而不是追求贏得比賽的主要目的。雖然這些例子沒有生命危險,但同樣的技術--被稱為獎勵黑客(當一個模型被指示使其目標函數最大化,但卻以非故意的方式進行)--可以被用于更嚴重的效果。
從旨在用固定的訓練數據解決 "單步決策問題 "的機器學習過渡到解決 "順序決策問題 "和更廣泛的數據集的深度機器學習,將使對抗性攻擊更難發現。這種威脅是如此之大,以至于美國情報高級研究項目活動正在資助一個項目,以檢測木馬人工智能對已完成系統的攻擊。令人擔憂的是,政府可能會在不知情的情況下操作一個產生 "正確 "行為的人工智能系統,直到出現 "觸發 "的情況。例如,在部署過程中,對手可能會攻擊一個系統,并在更晚的時候才導致災難性的故障發生。這些類型的攻擊可能會影響到圖像、文本、音頻和游戲的人工智能系統。
正如對抗性樣本可以用來愚弄人工智能系統一樣,它們可以被納入訓練過程中,以使它們對攻擊更加強大。通過對最重要的國家安全人工智能系統進行清潔和對抗性數據的訓練--要么給它們貼上這樣的標簽,要么指示一個模型將它們分離出來--更大的防御是可能的。但是,復雜的對手很可能會自行躲避這種防御方法,而使用額外的戰術進行深度防御將是必要的。
GANs有各種各樣的用例,從創建深度假說到癌癥預后(Kim, Oh and Ahn 2018)。它們也可用于防御對抗性攻擊(Short, Le Pay and Ghandi 2019),使用一個生成器來創建對抗性樣本,并使用一個判別器來確定它是真的還是假的。一個額外的好處是,使用GANs作為防御,實際上也可能通過規范數據和防止 "過度擬合 "來提高原始模型的性能(IBM云教育2021)。
對抗性攻擊和防御模型進行基準測試--如使用GANs--是一種全面的對策,可以對AI系統進行比較。這種方法為制定和滿足安全標準提供了一個量化的衡量標準,并允許評估人工智能系統的能力和限制。
作為這個測試和評估過程的一部分,博弈論可能有助于建立對手的行為模型,以確定可能的防御策略。由于人工智能系統無法在傳統的信息安全意義上進行 "修補",因此在部署前應仔細分析針對國家安全人工智能系統的對抗性攻擊的風險,并定期進行審查。此外,訓練有素的模型--特別是那些關于機密數據和最敏感應用的模型--應該得到仔細保護。
數據驅動的戰爭的速度和范圍表明,我們正在進入一個新的時代,其中致命性武器系統的潛力--無論是否有人類參與--都可能極大地改變全球力量平衡。從殺手級無人機和人機合作到增強的軍事決策(殺手2020),人工智能技術將使世界各國軍隊投射力量的能力大大增加。正在進行的人工智能武器化也與空間武器化相重疊(《經濟學人》2019年),因為低地球軌道(LEO)日益成為軍事監視、遙感、通信、數據處理(Turner 2021)和彈道武器(Sevastopulo和Hille 2021)的操作環境。
人工智能與低地軌道和致命性自主武器系統的興起,代表了全球安全性質的一個關鍵轉折點。為此,世界各地的學術研究人員、技術企業家和公民都對人工智能的軍事化所帶來的危險表示擔憂。正如他們正確地指出的那樣,在規范負責任地開發和使用人工智能的規范和法律方面缺乏國際共識,有可能造成未來的危機。
除了我們在科幻小說中經常看到的對人工智能的夸張描述,重要的是建立適當的制衡機制,以限制人工智能技術可能提供的權力集中。關于管理人工智能和其他數字技術的共同國際規則和條例將塑造未來幾十年的戰爭和沖突的輪廓。在軍事人工智能的發展中制定護欄,對于減少未來沖突的可能性至關重要。
加拿大和其他北約國家積極參與這一討論可能是未來全球和平與安全的關鍵。在發動戰爭的條件(jus ad bellum)和戰爭中的人工智能行為(jus in bello)方面,規范人工智能使用的戰爭法仍有待確定。鑒于美國和中國之間不斷擴大的競爭,需要制定關于致命性自主武器系統的使用及其擴散的條約是再及時不過了。
正如北約所觀察到的,加拿大及其盟國應尋求促進、參與和建立合作機會,以支持開發和應用人工智能和其他EDT的廣泛、全面的架構(北約新興和顛覆性技術咨詢小組2020)。盡管面臨著艱巨的挑戰,全球治理在規范軍事人工智能方面可以發揮重要作用。盡管對人工智能及其武器化有不同的看法,但過去的談判可以作為未來條約的基礎,特別是在定義戰爭規則方面。這包括關于常規武器、核軍備控制、生物和化學武器、地雷、外層空間和平民保護的條約(見圖6)。
到目前為止,《聯合國特定常規武器公約》(CCW)已經監督了一個討論應對自主武器帶來的人道主義和國際安全挑戰的進程。已經提出了一系列監管致命性自主武器系統的潛在方案,包括《特定常規武器公約》下的一項國際條約,一個不具約束力的行為準則,宣布各國承諾負責任地開發和使用致命性自主武器系統。在聯合國之外,2013年發起了 "停止殺手機器人 "運動,目標是完全禁止致命性自主武器系統。
聯合國秘書長安東尼奧-古特雷斯強調了人工智能和其他數字技術的風險和機遇(聯合國2020),并呼吁禁止致命性自主武器系統(古特雷斯2021)。不幸的是,聯合國成員國,特別是聯合國安理會的觀點存在分歧,一些國家認為監管是民族國家的專屬權限,而另一些國家則側重于更多部門的做法。除了人工智能的武器化,在圍繞人權、算法偏見、監控(公共和私人)以及國家支持的或國家支持的網絡攻擊等問題上也存在廣泛的分歧。
對于世界上的主要軍事大國來說,缺乏互信仍然是追求人工智能集體軍備控制協議的一個重大障礙。即使相當多的國家支持提供新的具有法律約束力的條約,禁止開發和使用致命性自主武器,但世界上大多數主要軍事大國都認為人工智能的武器化具有重大價值。鑒于這些分歧,致命性自主武器系統的多邊管理將需要建立信任措施,作為打開政治僵局的軍控進程的手段。
走向平凡的監管 也許制定管理人工智能的政策和監管制度的最具挑戰性的方面是難以準確地確定這些制度應該監管什么。與生物和化學武器不同,人工智能大多是軟件。事實上,人工智能是一個移動的目標:40年前被定義為人工智能的東西,今天只是傳統的軟件。
人工智能是一個模糊的技術領域,影響著廣泛的商業和軍事應用。例如,機器學習算法是搜索引擎(算法排名)、軍用無人機(機器人技術和決策)和網絡安全軟件(算法優化)的成分。但它們也支撐著平凡的行業,甚至兒童玩具(語義分析、視覺分析和機器人技術)、金融軟件和社交媒體網絡(趨勢分析和預測分析)。
與屬于這些平凡的監管領域的產品和流程一樣,人工智能技術不是被設計成最終實體,而是被設計成在廣泛的產品、服務和系統中使用的成分或組件。例如,一個 "殺手機器人 "不是一種特定技術的結果。相反,它是人工智能 "成分 "重新組合的結果,其中許多成分也被用來檢測癌癥或增加駕駛者的安全。
雖然人們傾向于使用一個專門的不擴散鏡頭來監管人工智能,但雙重用途的挑戰仍然存在。與核擴散或轉基因病原體不同,人工智能不是一種特定的技術。相反,它更類似于一個材料或軟件成分的集合。與大多數二元的核不擴散鏡頭相比,可以在食品監管中找到更相關(盡管不那么令人興奮)的監管模式的靈感,特別是食品安全和材料標準(Araya和Nieto-Gómez 2020)。
鑒于對人工智能進行全面監管存在重大的概念和政治障礙,治理仍然是一項艱巨的挑戰。一方面,如果我們把人工智能理解為一系列復制人類活動的技術實踐,那么就根本沒有一個單一的領域可以監管。相反,人工智能的治理幾乎重疊了每一種使用計算來執行任務的產品或服務。另一方面,如果我們將人工智能理解為大幅改變人民和國家之間權力平衡的基礎,那么我們就會面臨重大挑戰。
幸運的是,這并不是民族國家第一次面臨影響全球安全的新技術。在第二次世界大戰之后,世界上最強大的國家--美國、英國、蘇聯、中國、法國、德國和日本--對核武器、化學制劑和生物戰的全球治理進行監督。當時和現在一樣,世界必須采取集體行動來治理人工智能。
與冷戰時期一樣,包括定期對話、科學合作和分享學術成果在內的建立信任措施可以幫助減少地緣政治的緊張。為管理軍事人工智能帶來的風險制定一個共同的詞匯,可以為隨著時間的推移制定更有力的人工智能多邊條約提供基礎。
在這方面,經濟合作與發展組織(OECD)已經公布了其關于人工智能的建議,作為一套政府間標準,于2020年2月啟動了人工智能政策觀察站。加拿大和法國政府還與經合組織一起領導了一個全球人工智能伙伴關系(GPAI),旨在成為一個人工智能政策的國際論壇。GPAI的成員專注于以 "人權、包容、多樣性、創新和經濟增長原則 "為基礎的負責任的人工智能發展。
除了GPAI,一些歐洲國家已經呼吁歐盟成員開始一個關于負責任地使用新技術的戰略進程--特別是人工智能。美國已經邀請盟國討論人工智能的道德使用問題(JAIC公共事務2020)。北約已經啟動了一個進程,鼓勵成員國就一系列道德原則和具有軍事用途的電子技術關鍵領域的國際軍備控制議程達成一致(Christie 2020;NATO 2020)。認識到EDT對全球安全的深遠影響,北約于2019年12月推出了EDT路線圖(北約科技組織2020)。
從整體上看,二十一世紀需要進行正式監管。從長遠來看,這很可能包括尋求與禁止生物武器、化學武器和殺傷人員地雷一樣的人工智能條約。然而,鑒于人工智能的創新速度和世界超級大國之間日益擴大的分歧,就人工智能的全球治理進行談判的機會之窗可能正在關閉。
圖6:人工智能的全球治理
即使在工業時代即將結束的時候,技術創新也在加速進行(Araya 2020)。自從大約80年前誕生以來,人工智能已經從一個神秘的學術領域發展成為社會和經濟轉型的強大驅動力。人工智能在戰爭中的整合被一些軍事分析家描述為一個不斷發展的 "戰場奇點"(Kania 2017)。在 "技術奇點"(Schulze-Makuch 2020)的概念基礎上,人們越來越多地猜測,人工智能和機器人將超越人類的能力,有效地應對算法驅動的戰爭。
人工智能和其他EDT的演變正在將先進的數據、算法和計算能力匯集起來,以 "認知 "軍事技術。在這種新環境下,現代軍隊正變得嚴重依賴提供安全、及時和準確數據的網絡。數據已經成為數字系統的 "作戰用氣 "和驅動 "智能機器 "的原料。隨著數據重要性的增加,在廣闊的數字領域的對抗性競爭也在增加。事實上,數據的真正價值在于其推動創新的數量和質量。
正如北約關于EDT的年度報告(北約新興和顛覆性技術咨詢小組2020)明確指出,要想跟上技術變革的步伐,就必須在技術的開發、實驗和應用方面保持靈活性和快速迭代。整個CAF的創新能力必須是一個更廣泛的創新生態系統的一部分,該系統有效地整合了公共和私人生態系統的研究和實施。這包括與加拿大工業界合作利用雙重用途的GPT的明確目標,以便利用已經存在的技術。
這種多領域的合作在歷史上被定義為國家創新體系(NSI)(OECD 1997)。事實上,NSI政策和規劃可以采取多種形式,從松散的協調到高度整合的伙伴關系。在美國(Atkinson 2020)、中國(Song 2013)和歐洲(Wirkierman, Ciarli and Savona 2018)應用的各種NSI規劃模式表明,在最大化政府-產業-研究伙伴關系方面可以找到大量的經濟和社會回報。政府應通過稅收優惠、采購和研究資金以及戰略規劃,努力建設加拿大的技術能力。但它不能單獨行動。
國家創新必然取決于機構參與者在一個共享的生態系統中進行合作。出于這個原因,一個協調的加拿大國家統計局將需要在推動長期創新的過程中,人們和機構之間的技術和信息的相互流動。鑒于EDT的許多創新是由工業界主導的,推進公私伙伴關系對加拿大軍隊的發展至關重要。對于國防部/加拿大空軍來說,要推進適合數字時代的軍隊,政府、工業界和學術界將需要以更綜合的方式進行合作。
建立一個強大的加拿大創新生態系統將意味著更廣泛的公私合作和持續的知識和資源的再培訓、培訓和孵化。盡管開發尖端人工智能需要人力資本投資,但大多數人工智能應用現在可以通過開源許可獲得,即使核心學習算法可以在公共平臺和整個學術生態系統中獲得。這種 "開放一切 "環境的影響是對封閉的等級制度和深思熟慮的官方機構的實質性挑戰。
政府程序和規劃將需要適應加速的創新生命周期,以配合EDT積極的淘汰周期。除了與網絡技術相關的巨大的不對稱安全風險外,向數據驅動型軍隊的轉變將需要大量關注數據安全和數據治理。與進行傳統的國家間沖突所需的大量成本和規劃不同,網絡攻擊的破壞性影響可以由僅有一臺個人電腦的小團體對關鍵基礎設施發動。鑒于未來不斷增加的挑戰,大型官僚機構(公司、政府、學術和軍事)的設計變化是不可避免的。
除了對新的和不同的知識、資源和專長的需求,加拿大政府和加拿大軍方將需要平衡硬實力和不斷變化的地緣政治格局的需求。在美國占主導地位的時代之外,二十一世紀正被一個以技術民族主義和后布雷頓森林體系為特征的多極體系所塑造。面對一個快速發展的數字時代,國際合作將是確保和平與安全的關鍵。信息共享、專家會議和多邊對話可以幫助世界各民族國家及其軍隊更好地了解彼此的能力和意圖。作為一個全球中等國家,加拿大可以成為推動這一努力的主要伙伴。
國際治理創新中心(CIGI)是一個獨立的、無黨派的智囊團,其經同行評議的研究和可信的分析影響著政策制定者的創新。其全球多學科研究人員網絡和戰略伙伴關系為數字時代提供政策解決方案,目標只有一個:改善各地人民的生活。CIGI總部設在加拿大滑鐵盧,得到了加拿大政府、安大略省政府和創始人吉姆-巴爾西利的支持。
在 2016 年人工智能促進協會 (AI) 發表的講話中,當時的協會主席呼吁 AI 為了魯棒性而犧牲一些最優性 [1]。對于 AI,魯棒性描述了系統在各種情況下保持其性能水平的能力 [5]。通過機器學習開發和驗證高質量模型面臨著特殊的挑戰。一般公認的大多數人工智能需要魯棒的原因包括:
? 訓練和運行數據的不確定性;
? 輸入來自不同訓練集,但在統計上或語義上與訓練群體一致;
? 訓練群體之外的輸入;
? 用有限的數據學習;
? 面對新穎的情況,需要不同于學習策略和分類器的開發方式;
? 對抗性行動。
此外,對于人類 AI 協作團隊,人類必須適當地信任 AI 系統;因此,透明度也可以被視為魯棒性問題。混合戰爭為人工智能的魯棒性帶來了額外的挑戰。決策的不同性質和必要的決策支持擴大了所需模型的范圍。在不同條件下開發的模型組合使用會影響可以對復合系統質量做出的統計聲明。
如果我們需要魯棒性,我們必須考慮它的度量。對與上述條件相關的魯棒性研究的調查,提供了一系列可能的措施。北約聯盟實施的混合戰爭需要了解所使用能力的魯棒性。在本文中,我們從當前文獻中調查了魯棒性度量的前景。在這樣做的過程中,我們有助于了解聯盟內部各種模型和軟件的組合。
現代混合戰爭不僅包括傳統戰爭,還包括政治和網絡戰爭(以及其他),其越來越依賴人工智能 (AI) 在日益復雜的環境中執行任務。許多現代 AI 實現都是使用機器學習 (ML) 技術構建的,使用數據旨在來表示預期的情況。這意味著:
? 大多數當前的 AI 構建塊都是為特定目的而構建的,雖然旨在泛化以支持現實世界的輸入,但并不總是能夠處理不熟悉的情況(輸入)。它們是“黑盒”設計,可以實時或近乎實時地執行復雜的決策或環境解釋(分類),但通常只能為已知輸入產生可靠的答案。
? 如果提供以前從未見過的信息或通過人類可能察覺不到的攻擊,人工智能構建塊通常很容易被愚弄和混淆。
從本質上講,我們正在處理的是一個易受影響的問題:現代 ML 解決方案,實際上還有其他 AI 解決方案,本質上很容易被他們不熟悉的數據所欺騙 [2] [3]。例如,這使得依賴于它們的指揮和控制 (C2) 決策樹邏輯容易發生故障。當然,我們想知道如何通過確保利用人工智能的 C2 對故障具有魯棒性來保護自己免受此類漏洞的影響。
總結:
? 許多機器學習方法天生就容易受到環境變化和攻擊的影響;
? 因此,依賴機器學習(主要基于神經網絡(NN))的人工智能系統本質上是脆弱的;
? 因此,必須使依賴人工智能的混合戰爭變得強大。
ML 方法的訓練和運行都基于以下幾個方面:(1)輸入數據,(2)內部結構,以及(3)學習算法。機器學習的脆弱性可能是由許多因素造成的。出于本文的目的,我們假設網絡內部結構是靜態的、足夠強大且安全的,雖然還有許多其他因素,但我們考慮了兩個主要方面:(a) 訓練數據不佳,(b) 以前未使用的業務數據。因此,我們的重點是 ML 解決方案的輸入數據。
天真地,我們假設 ML 方法(尤其是 NN)是使用高質量(“好”)輸入數據訓練的:在運行期間可能期望 選擇性表示AI 處理的輸入范圍。這個想法是,在運行過程中,人工智能可以為運行數據產生“正確”的決策,這些決策與訓練它的數據相似。換句話說,人工智能必須能夠進行插值,并且在某種程度上還可以推斷其原理。
在最壞的情況下,糟糕的訓練數據會導致訓練出不符合目的的機器學習模型,或者在最好的情況下會導致生成“愚蠢”的模型;也就是說,只能做出具有高度不確定性的模糊決定。然而,在數據質量范圍的另一端也存在危險,因為雖然“好的”訓練數據可能會產生一個可以做出非常準確的決策的模型,但它可能只能使用窄范圍的輸入數據來做到這一點。當然,我們希望機器學習既能滿足其性能要求,又能適應它最初沒有訓練過的新環境;即能夠處理新穎事物場景。
因此,ML 的一個重要目標是構建一種泛化良好的能力。在狹窄的應用程序中,我們希望確保在環境樣本上訓練過的模型能夠像宣傳的那樣在整個環境中工作。最終,我們希望人工智能面向復雜環境的處理能力,可針對所有現實,或者至少是人類感知的所有現實。從某種意義上說,這完全涵蓋了所有情況,沒有新的情況。如果我們觀察牛頓宇宙并且擁有巨大內存量,那么所有情況都可以從當前數據中預測出來。但是,由于我們對宇宙建模的能力受到嚴重限制,因此可能會經常出現新穎情況。在不可能為復雜環境訓練模型的前提下,當這些模型被引入現實世界時,模型應該能應對各種突發情況。
因此,表征模型的魯棒性具有挑戰性,需要考慮模型的不同方面的魯棒性。雖然有許多可用的魯棒性定義,但應區分用于傳統軟件魯棒性的定義,例如 IEEE 24765[4] 的定義,以及與 AI 模型相關的定義。本文中使用 ISO CD22989 [5] 中提供的定義:
魯棒性是“系統在任何情況下保持其性能水平的能力。魯棒性屬性表明系統有能力(或無能力)在新數據上具有與訓練它的數據或典型運行數據相當的性能。”
在定義了術語“魯棒性”之后,由于本文的重點是魯棒性度量,我們現在將定義術語“度量”,應用于魯棒性。為了在編寫定義時為我們的思考過程提供信息,確定度量魯棒性可能具有的各種目的以及利益相關者可能是誰,是有用的。由于魯棒性度量的目的和要求將取決于 ML 模型的生命周期階段,因此我們分析了生命周期階段的目的。
盡管許多 ML 模型將基于 NN,但我們的分析擴展到涵蓋 ML 類型和架構的不同變體,并指出 ML 的主要變體是:NN、決策樹和強化學習。
在 ML 模型設計和開發階段,開發人員將試驗模型設計并調整模型的架構和參數,以優化模型的性能。在這個階段,魯棒性度量的目的既可以是提供一種在進行這些更改時度量魯棒性改進的方法,也可以描述模型如何表現魯棒性。此外,不同模型的開發人員之間商定的度量標準將允許在模型設計之間進行可靠的比較。
在系統設計階段,在選擇現成的ML模型納入整個系統時,度量魯棒性將通過提供一種方法來比較一個模型與另一個模型的魯棒性水平和性質,從而為系統設計者提供關于模型選擇的決策信息。
在部署之前,安全從業人員將使用魯棒性度量來為包含 ML 的系統的安全風險評估提供信息。具體來說,該度量將為 ML 模型的漏洞分析提供信息,若該模型具有低魯棒性,則表示攻擊者可以利用漏洞。
最后,在部署階段,從單個 ML 組件的魯棒性度量中得出的整體系統魯棒性度量,將支持最終用戶對系統輸出或行為的信任和信心。
鑒于上述使用范圍和相關利益者,出于本文的目的,我們將有意保留術語“度量”的寬泛定義。我們的定義超出了純粹的測量或量化行為,包括我們如何描述或表征 ML 在任何特定環境中的魯棒性。因此,我們將本文的其余部分基于以下定義:
魯棒性度量是 ML 模型在其生命周期中可能面臨的各種挑戰的魯棒性的度量或表征。特定度量的精確性質將取決于 ML 模型的類型、模型旨在完成的任務、以及模型所處生命周期的階段。
在考慮魯棒性度量時,我們通過提出“面對……什么的魯棒性?”這個問題開始分析。這生成了一個 ML 模型可能面臨的情況列表,在這些情況下,它們的魯棒性可能會受到挑戰。我們稱這些為“面對”條件。
? 訓練和運行數據的不確定性;
? 不同于訓練集的輸入,但在統計上或語義上與訓練群體一致;
? 訓練群體之外的輸入;
? 用有限的數據學習;
? 新穎的情況,不同于學習策略和分類器的開發方式;
? 對抗性行動;
我們的文獻檢索提供了許多關于魯棒性的先前研究,對于每一項,我們都試圖確定它們適合哪些類別。雖然這并不總是顯而易見的,但它似乎代表了一種構建分析合乎邏輯的方式。因此,在以下段落中,我們嘗試以這種方式對文獻檢索中的單個研究進行分類。
對于每個類別,我們描述了每個魯棒性挑戰的性質和細節,然后是用于度量魯棒性的度量指標類型。盡管本文中對魯棒性的審查不包括混合戰爭示例,但所討論的內容適用于混合戰爭方法。
能夠處理訓練和運行數據中的不確定性對于 AI 來說至關重要,它代表了當前 ML 系統的關鍵組成部分,尤其是那些在軍事領域等危急情況下使用的系統。
在 ML 中,目標是在給定的成本函數情況下,學習最適合訓練數據的模型參數。然后,部署該模型以獲取對新數據和未見過數據的預測。作為訓練過程的結果,任何學習模型都帶有不確定性,因為它的泛化能力必然基于歸納過程,即用數據生成過程的一般模型替換特定觀察[6]。盡管研究界做出了許多努力,但沒有任何現有的 ML 模型被證明是正確的,因為任何可能的實驗都嚴重依賴于假設,因此當受到以前未見的輸入數據影響時,每個當前的 ML 模型輸出仍然是不確定的。
不確定性在統計領域有著悠久的歷史,從一開始,它就經常被聯系起來并被視為一個類似于標準概率和概率預測的概念。然而,在最近,由于當前對 ML 的炒作以及如今基于此類解決方案的系統正在控制我們的日常生活,研究界對此類概念的興趣越來越大。這首先是出于安全要求,為此需要新的方法來應對。
在現有文獻中討論 ML 不確定性的不同方法中,可以根據所考慮的不確定性類型對它們進行聚類。當前的大多數作品都解決了偶然或認知不確定性。
對 ML 中的不確定性進行建模的傳統方法是應用概率論。這種概率建模通常處理單個概率分布,因此忽略了區分偶然不確定性和認知不確定性的重要性 [7] [8]。
偶然不確定性:我們可以將其稱為統計不確定性,它源于實驗結果可變性的隨機性概念。簡而言之,當提到偶然不確定性時,我們隱含地指的是即使存在任何其他信息源也無法減少的不確定性。讓我們通過一個非常基本的例子來描述這一點:假設我們想要模擬拋硬幣的概率結果。我們可以定義一個概率模型,該模型能夠提供頭部或尾部的概率,但不能提供保證的結果。這種不確定性定義了總不確定性的不能復歸的部分。
認知不確定性:也稱為系統不確定性,這是由無知/缺乏知識決定的總不確定性的一部分。這種不確定性是由于機器學習系統的認知狀態造成的,并且可以通過附加信息來減少。例如,假設我們有一個 ML 模型學習一門新語言,并且給它一個新詞,它應該猜測它是指頭還是尾。智能體對正確答案的不確定性與預測拋硬幣時一樣不確定,但是通過在情況中包含額外信息(即提供同義詞或解釋單詞的正確含義),我們可以消除任何不確定性在答案中。因此應該很清楚,與偶然性相反,認知不確定性定義了總不確定性的可還原部分。
既然我們已經定義了偶然不確定性和認知不確定性,我們將考慮有監督的 ML 算法以及這兩種不同類型的不確定性如何在 ML 中表示。
在監督學習環境中,我們可以訪問由 n 個元組 (xi,yi) 組成的訓練集 D = {(x1,y1),…,(xn,yn)},其中 xi (屬于實例空間 X)是包含特征的第 i 個樣本 (即,測量值),而 yi 是來自可能結果集 Y 的相關目標變量。
在這種情況下,ML 算法具有三個不確定性來源:
? 偶然不確定性:通常,X 和 Y 之間的相關性不是確定性的。因此,對于給定的輸入 xi,我們可以有多個可能的結果。即使存在完整的信息,實際結果 yi 也存在不確定性。
? 模型不確定性:為解決給定問題而選擇的模型可能遠非最適合該任務的模型。這是由于模型的正確性和假設的正確性存在不確定性。
? 近似不確定性:通過優化過程學習的模型參數只是對真實假設的估計。這種估計是由于在學習過程中使用的數據缺乏保真度。
模型和近似不確定性都代表認知不確定性。
應該注意的是,對于 ML 算法,偶然不確定性和認知不確定性在很大程度上取決于環境。例如,通過允許學習過程改變最初定義的場景的可能性,可以減少偶然不確定性以支持認知不確定性;也就是說,原始環境中的偶然不確定性并沒有改變,而是通過改變環境而改變(類似于在擲硬幣的例子中加權硬幣的一側)。相反,如果我們考慮一個固定的初始場景,我們知道認知不確定性(即缺乏 ML 算法知識)取決于學習過程中使用的數據量(多少觀察)。由于訓練樣本的數量趨于無窮大,機器學習系統能夠完全降低逼近不確定性。
表示不確定性的不同 ML 方法具有不同的能力,可以根據以下內容進行聚類: (i) 表示不確定性的方式; (ii) 如果處理兩種類型的不確定性(偶然性和認知性)中的兩種或僅一種; (iii) 如果他們提供了任何可用于提供不確定性數量粗略估計的解決方案。
高斯過程 (GP) [9] 是一種用于監督學習的通用建模工具。它們可用于泛化多元隨機變量的貝葉斯推理和函數推理。在分類的情況下,GP 具有離散的結果,不確定性定義的困難在于知識的表示,然后將其識別為模型的認知不確定性,就像在貝葉斯方法中一樣。在回歸的情況下,可以將偶然不確定性(即誤差項的方差)與認知不確定性區分開來。
在機器學習中,最大似然估計原理起著關鍵作用。事實上,如果一個模型可以“非常接近”似然函數的最大值,這意味著數據的微小變化可能對估計的影響有限。如果似然函數是平滑的,它可能是一個很好的指標,表明估計存在高度的不確定性,這可能是由于許多參數的配置具有相似的似然性。
在 ML 中,我們經常利用 Fisher 矩陣 [10] 來表示認知不確定性的數值 [11]。
生成模型可用于量化認知不確定性。考慮到這些方法的概率性質,這些方法旨在模擬數據分布的密度,通過確定給定數據是否位于高密度或低密度區域,這些模型隱含地提供有關認知不確定性的信息。這一類別中最相關的工作是基于核密度估計或高斯混合,最近在深度自動編碼器方面取得了一些進展[12]。
密度估計是處理異常和異常值檢測方法的關鍵要素,后者只是一個分類問題,當樣本位于低密度區域時,它被認為是分布之外的問題。這樣的成果反而捕捉了偶然的不確定性。
一般來說,生成模型解決了一個非常具有挑戰性的問題,需要大量數據才能正常工作,并且通常具有很高的不確定性。
人工深度神經網絡 (DNN) 本質上是一個概率分類器,我們可以將訓練 DNN 的過程定義為執行最大似然推理。這導致模型能夠生成給定輸入數據的概率估計,但不能提供有關其概率置信度的詳細信息:捕獲了偶然的不確定性,而沒有捕獲認知。盡管如此,后者通常被稱為模型參數的不確定性。在文獻中,最近有一些作品 [13] [14] 試圖通過將貝葉斯擴展引入 DNN 來模擬這種認知不確定性。
模型集成(Model Ensembles )模型類的常見示例是 bagging 或 boosting。這種方法非常受歡迎,因為它們可以通過產生一組預測而不是單個假設來顯著提高點預測的準確性[15]。可以包含在此類中的最相關的工作是隨機森林模型 [16]。此類別中的方法主要關注整體不確定性的任意部分。
Credal 集(Credal Sets)是一組概率分布,它是貝葉斯推理推廣的基礎,其中每個單一的先驗分布都被一個候選先驗的Credal 集所取代。作品 [17] [18] 研究如何定義Credal 集的不確定性以及相關表示,定義了存在于Credal 集中的兩種類型的不確定性:由于隨機性導致的“沖突”和“非特異性”。這些直接對應于任意和認知的不確定性;通常使用 Hartley 函數 [19] 作為標準不確定性度量; [20] 還定義了一種工具,可用于評估 ML 系統在面對訓練和操作數據的不確定性時的魯棒性。如果我們知道給定隨機變量的未知值在給定的有限集中,Hartley 函數可用于評估不確定性。此外,已經通過類似 Hartley [80] 和廣義 Hartley [81] 措施提出了對無限集的擴展。
在運行期間,分類器為輸入數據的每個樣本分配一個類標簽。考慮到上述魯棒性的定義,類內可變性,即分配到同一類的所有樣本之間的可能變化,隱含地包含在用于學習分類器的訓練數據集中。
使用更具建設性的方法來定義魯棒性有助于更好地模擬用戶對分類器性能的期望。為此,如果分類器對于輸入數據的所有有意義的變體是不變的,我們將暫時稱其為魯棒分類器。顯然,所有有意義的變體的集合取決于應用場景,這通常很難描述。然而,對于許多分類問題,這種有意義的變體可以分為兩類:(i)物理修改(例如,噪聲添加、混合失真、裁剪、旋轉、縮放)和(ii) 輸入樣本的語義修改(例如發音的不同方式)。圖 1(1) 說明了手寫數字分類示例的這兩類可能變體。我們考慮書寫數字“9”的不同變體。而(如圖 1 所示)噪聲添加 (a) 和混雜失真 (b) 可被視為屬于第一類,第三類 (c) 在數字“9”上添加一個小弧線是有意義的(句法)變體,特別是不同國家的當地文化,它使符號(“九”)的語義保持不變。
圖 1 (1) 手寫數字 9 的可能數據變體,(2) 使用變分自動編碼器 (VAE) 重建的數字 3、8、9 的空間,該編碼器對來自 MNIST 語料庫的各個數字進行訓練,(3) 對應的潛在空間表示顏色編碼數字類型。
AI/ML 相對于第一類變體的魯棒性,尚未得到令人滿意的解決,但近年來已在相當程度上得到解決。在許多涉及對第一類變體的魯棒性的出版物中,基礎數據樣本被建模為歐幾里得向量空間中的向量。然后通過將范數有界向量添加到數據樣本來對失真進行建模。這里,通常使用 Lebesguetype 范數(lp norms)(特別是 l1、l2 和 l∞)。在一篇被廣泛引用的論文 [20] 中表明,這種 l2 范數有界的“對抗性攻擊”可用于在基于神經網絡的分類器中導致錯誤分類。隨后,在對抗性攻擊和相應的保護方法領域做了很多工作(本文稍后將進一步詳細討論)。結果表明,在許多情況下,攻擊很難檢測到,并且對于當時最先進的方法,可以繞過檢測 [21]。顯然,在這種情況下的魯棒性需要保護免受對抗性攻擊。在這種對抗性攻擊環境中定義魯棒性的許多方法可以在一個通用框架下捕獲,如 [22] 所示。
第二類,數據樣本的語義上有意義的變體,導致了迄今為止很大程度上尚未解決的重大挑戰。相應地,在[68]中,對所謂的感知擾動的魯棒性被稱為一個開放的研究問題。盡管現代基于 AI 的分類器,特別是深度神經網絡,在眾所周知的公共分類挑戰上取得了破紀錄的改進,但相比之下,它們的判別性自然不會導致分類結果的易解釋性。近年來,整個研究分支都集中在可解釋的 AI 上,即,研究通過給定分類器對映射到相同類別的樣本集進行形式化甚至語義化的方法。
理解分類器語義的一個重要方法是將成功的判別分類器與生成模型結合起來。生成方法的優點是可以使用這些模型生成來自原始(樣本)空間的示例。一種結合分類器和生成模型的成功方法是生成對抗網絡(GAN)[24]。
也可以適用于分類的生成模型是(變分)自動編碼器(VAE)[25]。自動編碼器的基本思想是通過訓練一個深度神經網絡來學習原始數據的緊湊表示,該網絡在兩端具有全維(相對于原始數據)層,中間有一個稀疏的“瓶頸”層。圖 1 (2) 和 (3) 說明了如何使用 VAE 來“理解”網絡學習的類別:(2) 顯示了一組具有代表性的重構,這些重構是由經過訓練的 VAE 的生成部分獲得的,用于對 MNIST 數據集的數字“3”、“8”和“9”進行分類。因此,在某種意義上,(2)總結了分類器準備識別的內容。在圖 1 的右側,(3)顯示了從 VAE 的分類器分支獲得的輸入樣本(即 MNIST 數字)的潛在空間表示。顏色對三個數字進行編碼。潛在空間點和重構樣本之間的對應關系如箭頭所示。在藍色中,繪制了將 9 的流形與其他數字分開的曲線,以指示學習的分類邊界。考慮到這個例子,我們注意到上述變體 (c) 在重建部分 (2) 中沒有很好地表示 - 考慮到語義庫受到北美書寫數字風格的偏見,這并不奇怪。因此,為了使分類器對變化 (c) 具有魯棒性,必須應用額外的措施,例如增加或添加到訓練數據中。
基于生成模型,Buzhinsky 等人[26] 提出了幾個指標來衡量分類器對“自然”對抗樣本的魯棒性。為此,他們提出了一組在潛在空間中工作的六個性能指標,并隨后顯示了上述經典對抗魯棒性和“潛在對抗魯棒性”之間的聯系,即對潛在空間擾動的魯棒性。后者的有趣之處在于,幾個示例的潛在空間擾動已被證明與原始樣本空間中語義上有意義的變體相對應。
我們注意到經典的對抗魯棒性已經可以用于獲得關于小范數有界擾動的人工智能分類器的“認證”魯棒性。然而,語義魯棒性更難以形式化,并且與正確理解和建模目標類密切相關。為此,生成模型是一個重要的工具。諸如投影信念網絡 (PBN) 等新概念,即基于前饋神經網絡結構的分層生成模型,具有易于處理的似然函數的優勢,在該領域非常有前景 [27]。
最近的一項工作 [75] 涉及一種稱為復雜事件處理的 ML 形式,其中融合了來自多個傳感器的具有空間和時間關系的多模態輸入,以允許深度學習模型推斷特定類型的事件,例如槍聲或爆炸。此類事件被稱為“復雜事件”。因此,魯棒性的概念并不適用于模型本身,而是適用于機器學習功能所包含的整個組件系統。該研究聲稱,(a)人類邏輯在基于模式和序列預定義復雜事件中與(b)來自單個傳感器的深度學習推斷相結合,提高了系統對錯誤分類的魯棒性。
在 [78]中,Ashmore 等人識別一組關于輸入域及其子集的定義:I 輸入域空間——模型可以接受的輸入集; O,運行域空間——模型在預期運行域中使用時可能預期接收的一組輸入; F,故障域空間——如果系統其他地方出現故障,模型可能接收到的一組輸入; A,對抗域空間——模型在被對手攻擊時可能收到的一組輸入;其中 O、F 和 A 都是 I 的子集。這些定義不僅在考慮訓練群體之外的輸入(可以從 O、F 或 A 中得出)時很有用,而且在推理模型的輸入時更普遍。
小的、像素空間的擾動,人類可能察覺不到,通常使用 lp 范數測量擾動幅度,是評估模型魯棒性的合理方法(將在 2.6 節后面討論);特別是在對抗性攻擊的可能性更高的混合戰爭領域。然而,在考慮評估模型的魯棒性時,這些小擾動不一定適用于 Ashmore 的攻擊域空間 (A) 之外。最近,獨立的工作 [79] [80] 已經開始研究擾動模型的輸入,使其遠離經常討論和研究的小擾動方法,而不是生成被認為與環境相關且人類可區分的擾動:這些擾動看起來會在輸入上引入純粹、模糊或朦朧等(這可以合理地代表來自 F 或 O 的輸入)。
此外,在 [80] 中,作者建議對語義相關的圖像引入有意義的擾動,但這些擾動可能尚未包含在模型訓練集中;例如,例如,將一群鵝引入一個場景,在這個場景中,模型正在識別停車場中的車輛數量。雖然最后一類有意義的擾動顯然是 Ashmore 的輸入域空間 (I) 的一部分,但可以說,如果訓練數據集不足,這些語義相關的擾動也可以被視為運行域空間 (O) 的一部分。有趣的是,[80] 還發現,當增加系統對小擾動的魯棒性時,模型在處理語義上有意義的擾動時可能變得不那么魯棒,因此考慮評估模型對這兩種擾動類型的魯棒性顯然很重要。
為了評估模型對這種語義上有意義或環境相關的擾動的魯棒程度,[80] 的作者提出了一種用于引入擾動的滴定方法,這樣可以逐步測量在模型的準確性變得可疑之前引入擾動(例如,通過其置信度或已知基礎事實的分類變化)。當考慮模型在預期的運行域空間中的應用時,這提供了一個進一步的度量標準來評估模型的魯棒性。
眾所周知,使用深度學習需要大量數據來學習復雜的任務。如果訓練數據太小,模型會過擬合,泛化能力很差。不幸的是,獲取高質量的訓練數據既困難又昂貴,因為它通常需要人工標記。例如,細粒度的 Cityscapes 數據集平均需要 1.5 小時來標記每個樣本 [28]。此外,與為學術目的(概念驗證、評估、基準測試等)開發的數據集不同,軍事數據集還必須包含代表在現實世界可能發生但難以觀察甚至預測的大量邊緣情況的數據。如果沒有這樣的訓練數據,在可能最重要的時候,或者在條件因敵對行動而意外改變的時候,軍事模型的實際價值將是有限的。
軍事應用的數據采集挑戰是重大的,但也是必須解決的,以確保模型在現實世界中部署時是強大的。幸運的是,許多轉移學習技術[29][30][31]已經被提出,這些技術利用了深度神經網絡可以學習到可轉移的一般特征,因此,可以被其他類似的任務重新使用[32]。預訓練與微調相結合,通常用于利用少量/有限的數據進行學習,同時避免昂貴的大規模模型(如GPT-3)的再訓練,這些模型可能需要專門的硬件來學習。其主要思想是:
1.將預訓練的源模型的一部分復制到目標模型中;
2.向目標模型添加一個或多個隨機初始化的(未訓練的)層,使最后一層與目標的標簽空間相匹配;
3.使用標記的目標域數據訓練模型。
然而,這些技術不能用于軍事數據來自特殊傳感器(如激光雷達、紅外、合成孔徑雷達和高光譜)的情況,這些傳感器很少有預先訓練好的模型,或者過于敏感,甚至在盟友之間也不能共享。
無監督領域適應是另一種轉移學習技術,雖然它在淺層學習中已經被研究了幾十年,但最近在深度學習中也受到了很多關注[33]。使用這種技術,來自源域的標記訓練數據可以用來訓練一個使用目標域的無監督數據模型。該方法假設源域的標記數據成本低且容易獲得。
從軍事角度來看,這個想法很有吸引力,因為源數據有可能是合成的。也就是說,已經存在的模擬器或其他生成模型有可能被改編為不僅能生成完美標記的源數據,還能生成代表邊緣情況的數據,否則很難甚至不可能獲得這些數據。基于模擬的方法將完全消除人類的標記工作,否則可能會導致不正確、有偏見和不完整的數據集,這些數據集在訓練時也會轉移到模型中。使用無監督領域適應性來彌補 "模擬到真實"的差距(sim2real)正在積極進行[34][35],使用各種技術,其中許多依賴于使用對抗性方法,如領域損失函數[36][37]和生成性對抗網絡(GANs)[38][39]。
為了在復雜環境中發揮作用,人工智能必須表現出對新事物的魯棒性。DeepMind[41]的演示表明,ML可以被用來開發策略,從而在僵硬的游戲中實現超人的發揮。圍棋“Go”這個游戲提供了一個復雜的環境,超過了我們對游戲可能狀態的存儲極限,因此提供了前面討論的關于我們對牛頓宇宙建模的極限的情況。然而,如果改變了游戲規則,生成的代理就會變得很脆弱或者完全失敗。在[42]中,這種類型的結果在一個更簡單的環境中被證明,實驗闡明不同的變化如何影響代理的魯棒性。
但新穎性不僅僅是數據點不包含在 ML 訓練集中的情況。為了將新穎性的研究結合起來,[43] 提出了一個描述新穎性的框架。圖 2 說明了人們如何以一種可以同時衡量新穎性和代理反應的方式看待新穎性。這種新穎性觀點的關鍵在于,可以將新穎性考慮到與世界有關的方面以及與代理人的經驗有關的方面。同樣,對代理任務有影響的新穎性,對魯棒性的影響不同于對任務沒有影響的新穎性。這也是 Chao [42] 中證明的一個發現。
圖 2. 考慮新穎性的框架。
DARPA SAIL-ON 計劃 [40] 中采用的一種基于游戲的新穎性實驗方法。 DARPA SAIL-ON 計劃假設智能體具有以下四個要素:
? 一種性能要素,它使用已知的專業知識通過感知、推理、規劃、控制機制來完成任務并實現目標(例如,尋找和收集具有所需特征的水下物體);
? 一個監控元素,將觀察結果與期望值進行比較,以檢測環境(例如,聲納不可靠、不熟悉的捕食者)和代理自身行為(例如,車輛向右轉向)中的異常情況;
? 一種診斷要素,可定位專業問題,生成有關原因(例如,非反射表面、橫流、未對準的螺旋槳)、評估備選方案并從中進行選擇;
? 修復被認為是造成性能問題的專業知識并糾正它們的維修要素(例如,更新的聲納方程、電流敏感控制器或新的螺旋槳模型)。
正如上文關于新穎性的介紹部分所述,這項研究的大部分開始于認識到 DeepMind 用于解決圍棋、國際象棋、將棋和星際爭霸游戲的方法對游戲規則的變化并不魯棒。一個例子是南加州大學 (USC) 開發并通過 GitHub 發布的 GNOME 框架。
NIWC Pacific 與 USC 合作開發了一個版本,英國 Dstl 使用 GNOME 框架開發了“Hunting of the Plark”游戲。這將允許對受過訓練以玩該游戲的代理的新穎性影響進行實驗,這是圖靈研究所研究小組的重點。計劃對使用 ML 開發的決策支持工具進行進一步實驗,我們不僅可以處理模擬情況,還可以與美國海軍進行現場實驗。
個體在不知道世界形勢發生變化的情況下對新穎事物有很強的抵抗能力。這很可能是由于新穎事物對正在執行的任務并不重要,或者至少是在敏感度較低的領域變化。然而,處理新穎事物的一個策略是至少檢測到一個代理處于一個新穎的情況,即使該代理不知道如何在新穎的環境中工作,除了退出或提醒其他人注意這種情況。
代理的基本問題是:環境是否發生了變化,或者正在分析的數據是否只是在以前分布的一個尾部?目前,對于大部分的ML來說,僅僅認識到數據不在樣本范圍內可能就足夠了。至少能認識到其自身局限性的ML在許多情況下是一個進步。在這方面,經典的對抗性例子演示經常被提起:在這些實驗中,代理往往對他們的錯誤答案非常自信[44]。
在規劃系統中,識別可能基于對任務進度的動態評估。如果規劃無效,一種可能是世界以一種模型未反映的方式發生了變化。早期檢測可能會防止災難性結果,但這并不能保證。事實上,人們可以設想無法恢復的情景(在黑洞的事件視界上轉彎是一個極端的例子)。
[45] 將提供魯棒響應的任務定義如下:
? 假定:使用專業知識在一類環境情況下運行的代理架構;
? 假定:支持此類環境中可接受的代理性能專業知識;
? 假定:在突然的、未通知的更改環境中,經驗有限會導致性能降低;
? 發現:當環境發生變化時,哪些修改后的專業知識將支持可接受的性能。
對新穎事物的響應類型與正在執行的任務類型有關。在分類器中,系統可能需要調整其模型,不僅允許改變其提供的答案,還允許解釋這種變化意味著什么。例如,想象一個感知代理,其可確定機器人是否存在障礙物。相機系統的改變,例如鏡頭上的蒼蠅附著可能會為系統創造一個新局面。如果系統能夠適應并確定不存在障礙,則需要對情況進行解釋以證明答案的合理性。
圖 3. SAIL-ON 新穎性指標假設。注意程序中的 TA2 代理是那些對環境中的新穎事物做出反應的代理。
對于規劃系統,新穎性可能表現為采用新的行動或發現行動的成本與以前不同;目標可能會發生巨大變化。規劃系統可能不得不調整他們的知識,重新計算以前的任務,利用經驗來改變他們的計算。上面圖 3 中的假設說明了測量環境。在環境中出現變化之前,學習和運行可能會進行一段時間。對特定變化還不夠魯棒的代理性能會下降,必須找到一種方法來檢測新事物的發生,確定發生了什么變化并在運行中對其進行解釋。
在過去的幾十年里,已經證明基于深度學習技術的機器學習模型可以在各種任務中達到甚至超越人類水平的表現。另一方面,機器學習模型通常容易受到輸入擾動的影響,并且很容易被愚弄以產生不正確的輸出 [53] [54]。這些類型的操作被稱為對抗性攻擊,機器學習模型對抗這些攻擊的性能被測量為對抗魯棒性 [55]。在兩個不同方面研究了對抗魯棒性。第一個方面,研究人員試圖找到一種產生對抗性攻擊的方法,以最大程度地降低模型的魯棒性 [56] [57] [58] [59] [48]。第二方面,研究人員試圖找到更好的訓練或防御方法,使網絡架構對這種對抗性攻擊更加魯棒[60] [61] [62] [63] [64]。在本節中,我們調查了對抗性攻擊和防御方法,并從當前文獻中定義了對抗魯棒性的指標和測量方法。
[54] 中針對機器學習系統 M 和輸入樣本 C(稱為干凈樣本)定義了對抗性攻擊,如下所示:
“假設樣本 C 被機器學習系統正確分類,即 M(C) = y。可以構建一個對抗性樣本 A,它在感知上與 C 無法區分,但分類錯誤,即 M(A) ≠ y。”
基于此定義,對抗性攻擊的目的是修改模型輸入以導致不正確的模型輸出,使其無法被人類觀察者區分。不可區分性標準對可應用于輸入的擾動有一些限制,這在文獻中稱為 lp 范數,即
其中 ? 是最大允許擾動。最常用的范數是 l2 和 l∞。
考慮到這一限制,提出了幾種方法來生成對抗性樣本 [65] [55] [48]。生成對抗樣本主要遵循兩種不同的方法,即黑盒和白盒。在黑盒方法中,用戶不了解模型,只能訪問給定輸入的預測概率或預測類別。另一方面,假設模型及其參數在白盒方法中是完全已知的[47]。
白盒攻擊在欺騙模型方面比黑盒攻擊更有效,并且在文獻 [56] [57] [58] [48] 中使用不同的方法進行了廣泛的研究。白盒攻擊主要是基于梯度的攻擊方法:它們通常構造一個損失函數,可以導致擾動攻擊能力的提高和擾動幅度的降低,然后通過梯度優化損失函數以生成對抗樣本[66]。使用損失函數的梯度來確定對抗性擾動,可以像快速梯度符號法(FGSM)[65]那樣在一個步驟中進行,用于快速生成對抗性樣本。為了提高效果并減少擾動,在基于迭代梯度的攻擊中,不是在梯度方向上采取單一步驟,而是采取多個較小的步驟[54][48]。
對抗性攻擊也可以作為訓練的一部分。最近的一些工作[46]背景是一個對等網絡,其中每個對等體都有一份神經網絡模型的副本,以創建一個分布式的學習環境,這并不依賴于中央協調節點的存在。這樣的機器學習架構非常適用于有多個伙伴的軍事聯盟場景。最初,每個對等體擁有總訓練數據集的一個子集,隨著模型訓練的進行,模型參數在每次訓練迭代時都在對等體之間共享。
本實驗基于 Fashion-MNIST 數據集,并非試圖提高點對點 ML 的魯棒性,而是測量和優化中毒技術在導致對等體錯誤分類方面的有效性。中毒效果的衡量標準是,就訓練迭代次數而言,惡意對等體能夠可靠地毒化良性對等體的速度有多快。然而,我們相信相同的指標可以用來推斷 ML 對這種中毒的魯棒性:實現錯誤分類所需的迭代次數越多,魯棒性就越高。
已經提出了一些方法來保證在特定條件下對范數有界的對抗性攻擊的魯棒性。例如,Wong 和 Kolter [67] 使用對抗性多面體的概念為基于 ReLU 的分類器提出了可證明的防御措施。此外,[68] 中提出了一種有效且完整的分段線性神經網絡魯棒性驗證器。在該論文中,提出了一種算法,該算法基于最大 (l∞-) 范數在對抗性誤差上產生經過驗證的界限。
獲得強大的深度神經網絡的最成功的方法之一是通過對抗訓練。對抗性訓練的主要動機是將攻擊和防御都納入一個共同的理論框架,自然地封裝了大多數先前關于對抗性樣本的工作 [55]。在這種方法中,不是直接將原始數據集中的樣本輸入到訓練中,而是允許對抗性攻擊首先擾動輸入,然后將擾動的樣本輸入到訓練中。對抗性訓練以不同的方式得到增強,例如改變攻擊過程、損失函數或模型架構 [69] [50]。
對抗性訓練的性能很大程度上取決于生成增強訓練數據集時使用的損失函數和對抗性攻擊方法,并且由于需要生成對抗性樣本,與干凈訓練相比需要更長的時間。在 [73] 中,已經證明,使用具有早期停止的經典對抗訓練可以更容易地提高最先進的對抗訓練方法的性能。這表明我們對對抗性訓練的理解是有限的。在 [74] 中分析了對抗性訓練對魯棒性的影響,他們得出結論,在使用(隨機)梯度下降的干凈訓練過程中,神經網絡將在所有特征中積累一些與任何自然輸入,但極易受到(密集)對抗性擾動的影響。在對抗訓練期間,這種密集的混合物被“純化”以使模型更加魯棒。
最近開展的工作 [70] 專門研究了上述方法。事實上,這項工作旨在通過將隨機噪聲引入訓練輸入并使用隨機梯度下降 (SGD) 對其進行優化,同時最小化訓練數據的總體成本函數,從而使深度神經網絡對對抗性輸入更加魯棒。效果是在開始時隨機初始化的輸入噪聲在訓練過程中逐漸被學習。結果,噪聲近似地模擬了輸入分布,以有效地最大化給定輸入的類標簽的可能性。
作者 [70] 評估了他們在 MNIST、CIFAR10 和 CIFAR100 等分類任務上的方法,并表明以這種方式訓練的模型更具對抗性。發現噪聲和干凈圖像的組合方式對精度有重大影響,乘法比加法獲得更高的精度。魯棒性的直接度量沒有發展,而是隨著擾動水平的增加,魯棒性被量化為精度函數。
繼對抗性訓練的主題之后,[72] 表明,圖像分類深度神經網絡對對抗性輸入的魯棒性可以通過輸入空間和模型參數空間的離散化來提高,同時精度損失最小。在使用 MNIST、CIFAR10、CIFAR100 和 ImageNet 數據集的實驗中,輸入空間的離散化涉及將像素強度的數量從 256 (28) 減少到 4 (22),參數空間的離散化涉及使用低精度權重訓練模型以及諸如二元神經網絡 (BNN) 之類的激活。此外,結合這兩種離散化技術極大地提高了模型的魯棒性。與更昂貴的對抗性訓練過程(即使用對抗性示例訓練模型)相比,這種組合方案可以被視為提高魯棒性的另一種方法。在每個實驗中,通過比較分類的準確性來衡量魯棒性,同時對抗性擾動 (ε) 逐漸增加。實際上,這項工作中魯棒性的度量似乎是在保持給定精度的同時可以容忍的擾動程度。
在最后一個示例中,進行了一項相對簡單的工作 [71]。對圖像分類器的輸入進行預處理是通過將輸入饋入高斯核來實現的,其效果相當于平滑低通濾波器,其中平滑程度取決于內核的標準偏差參數。該實驗是使用 MNIST 數據集進行的,并測量了平滑和各種對抗性噪聲水平的不同組合的準確度。結果表明,為了優化給定水平的對抗性噪聲的準確性,存在一個最佳的平滑水平。在這種情況下,用于魯棒性的度量是針對給定數量的對抗性噪聲的成功攻擊的百分比。該度量允許直接比較使用和不使用平滑的性能。
對抗性魯棒性可以衡量為對抗性攻擊[47]擾動輸入的模型準確性。由于評估取決于應用的對抗性攻擊,因此很難衡量模型的實際對抗魯棒性。
文獻中的大多數作品通過使用在其訓練階段使用的相同或相似的對抗性攻擊方法和損失函數,來展示其方法的對抗性魯棒性。在[48]中已經表明,通過改變損失函數和生成對抗樣本的方法,可以實現比原始論文中報道的更低的對抗魯棒性。實際上,[48] 中指出,在 49 個案例中,有 13 個案例的魯棒性變化大于 10%,在 8 個案例中大于 30%。
在 [49] 中,通過將幾個深度神經網絡的性能與人類觀察者進行不同類型的操作進行比較,進行了類似的評估。在這項工作中,已經表明,只有在訓練階段知道所應用的操作時,深度神經網絡才能達到人類水平的性能。對于未知的操作,深度神經網絡的性能會急劇下降。此外,文獻中提出的許多防御策略都被更強大的對手打破了[48] [50]。因此,應仔細比較在不同方法下獲得的魯棒性,以確保評估盡可能有效[47]。
對抗魯棒性被報告為從擾動集中獲取的最壞情況輸入的模型精度。除了準確性之外,還可以測量兩種類型的性能指標來評估模型的魯棒性。第一個指標是對抗頻率,它衡量模型多久無法保持穩健[51]。第二個是對抗性嚴重性,用于衡量從原始輸入到對抗性樣本的預期最小距離 [51] [52],即模型被愚弄的難易程度。事實上,引用[51]:
“頻率和嚴重性捕獲了不同的魯棒性行為。神經網絡可能具有高對抗頻率但對抗嚴重程度低,這表明大多數對抗樣本距離原始點有非常小的距離。相反,神經網絡可能具有較低的對抗頻率但較高的對抗嚴重性,這表明它通常是魯棒的,但偶爾會嚴重不魯棒。頻率通常是更重要的指標,因為具有低對抗頻率的神經網絡在大多數情況下都是魯棒的。實際上,對抗性頻率對應于用于衡量魯棒性的對抗性樣本的準確性。嚴重性可用于區分具有相似對抗頻率的神經網絡。”
混合戰爭表明可能有許多系統和許多模型,因此如果假設人工智能將在混合戰爭系統的集合中使用,那么多種錯誤來源具有破壞人工智能在軍事領域應用的巨大潛力。
因此,上述當前技術的標準和調查都與了解將 AI 和 ML 應用于混合軍事領域的潛在弱點相關,因此在涉及與 AI 和 ML 的魯棒性有關的考慮時,顯然需要確保未來進行廣泛的評估。很明顯,有一個重要的考慮領域和可用的度量方法。然而,正如之前在第 2 節中提出的,這些度量方法適用于不同的利益相關者、不同的模型和潛在的不同任務。
因此,當前的問題是如何為特定模型確定和找到正確的度量方法,以獲得混合戰爭系統所需的置信度。 IST-169 打算推進這項初步調查來做到這一點。我們相信,開發各種類型的魯棒性及其適用于不同類型 AI 階段的圖形表示,將有助于全面了解 AI 魯棒性格局。這將加強并采取更嚴格的方法對人工智能應用進行開發。
拒絕和欺騙(D&D)技術利用錯誤信息和對手的認知偏差,長期以來一直是混合作戰的一部分。這種戰術給傳統上由人類分析員制作的情報、監視和偵察(ISR)產品帶來了不確定性和懷疑。在一個由人工智能(AI)擴散主導的未來戰斗空間中,算法生成的ISR產品數量可能會增加。因此,D&D戰術將越來越多地被顛覆人類而非機器推理的需要所驅動。對抗性機器學習(AML)的發展,即對欺騙性人工智能的研究,對未來混合作戰空間中的實踐狀態有重大影響。**本文回顧了對抗性機器學習技術之間的關鍵區別,以及它們對敵方對作戰人工智能的了解和訪問做出的假設。然后,我們總結了我們團隊最近與混合作戰有關的幾個對抗機器學習研究方向:對成像系統的物理對抗性攻擊,數據中毒攻擊,以及AML與設計強大的人工智能系統的相關性。
混合戰爭指的是使用顛覆性的、非軍事的手段來推進民族國家的利益,特別是俄羅斯近年來采用的技術,在不訴諸公開的、常規的軍事行動的情況下占領領土并影響各國的政治和政策[1]。所采用的混合戰術包括網絡攻擊、動員智能體團體采取行動、施加經濟影響以及其他秘密措施。由于混合作戰存在于常規軍事沖突和平民生活之間的 "灰色地帶",因此戰術上采用了拒絕和欺騙(D&D),通過利用民眾或敵對勢力的認知偏差來迷惑、威懾或影響理想的行為。D&D戰術在常規戰場上的歷史使用是有據可查的[3]。有效的D&D技術通過對依賴人類專家分析的軍事情報、監視和偵察(ISR)產品產生懷疑而獲得成功。在混合軍事行動中,情況不一定如此,在混合軍事行動中,D&D也可能試圖影響平民的看法。此外,隨著人工智能(AI)成為國家軍事投資戰略的重點(如[4]和[5]),以及商業信息技術部門越來越多地采用人工智能[6],人工智能在未來的 "灰色地帶 "可能會無處不在。因此,我們必須考慮在未來由人工智能的使用主導的混合戰斗空間中可能存在的D&D威脅。
當前的人工智能能力是由機器學習的進步所帶來的,特別是在深度學習這個子領域,在過去的10年里。機器學習(ML)涉及將系統的輸入映射到預測結果的問題,例如,將車輛的圖像映射到一個類別的標簽。通常情況下,這是在大型數據集中通過統計模式識別實現的。深度學習具體涉及到多層神經網絡的使用,它是具有數百萬自由參數的高度非線性回歸模型,作為模式識別的統計模型。雖然深度網絡在各種任務上的表現優于人類(最著名的是圖像分類[7]),但在諸如[8]和[9]等作品中觀察到它們容易被愚弄之后,對抗性機器學習(AML)領域作為一個活躍的研究領域出現了。許多作者指出,ML算法所犯的錯誤可能會在民用領域產生嚴重后果[10]-[15]。我們也認為必須提出類似的擔憂,即軍事人工智能系統在常規戰場和混合戰斗空間中的脆弱性。
本文的其余部分組織如下:第2.0節將提供關于對抗性機器學習的進一步背景介紹,以及我們認為目前在解決其與混合軍事行動的相關性方面存在的差距。在第3.0節中,我們描述了約翰霍普金斯大學應用物理實驗室(JHU/APL)目前正在進行的三項研究工作,以解決這些知識差距。最后,我們在第4.0節中做了總結性發言,并總結了我們到目前為止的發現。
圖 6. AI 開發周期(圓形流程圖)和采用機器學習的典型算法步驟(橙色大框)。
同步使用針對所有社會職能中的特定漏洞而定制的多種權力工具,以實現協同效應。混合作戰入侵者將尋求利用目標國家的弱點。每一個混合戰爭入侵者可能有獨特的能力,可用于打擊目標國家。戰爭的“奇襲”原則可能是混合攻擊成功的最大因素。
當前的海軍作戰要求水手們根據動態作戰環境中的不確定態勢信息做出時間緊迫和高風險的決策。最近的悲慘事件導致了不必要的傷亡,海軍行動中涉及決策復雜性,并特別突出了 OODA 循環(觀察、定向、決策和評估)中的挑戰。涉及使用武器系統的殺傷鏈決策是 OODA 循環中一個特別緊張的類別——具有難以確定的意外威脅、縮短的決策反應時間和致命的后果。有效的殺傷鏈需要正確設置和使用船上傳感器;未知接觸者的識別和分類;基于運動學和智能的接觸意圖分析;環境意識;以及決策分析和資源選擇。
該項目探索了使用自動化和人工智能 (AI) 來改進海軍殺傷鏈決策。該團隊研究了海軍殺傷鏈功能,并為每個功能制定了特定的評估標準,以確定特定 AI 方法的功效。該團隊確定并研究了 AI 方法,并應用評估標準將特定的 AI 方法映射到特定的殺傷鏈功能。
圖:利用人工智能改進海軍殺傷鏈的作戰概念
當前的海軍行動通常是快節奏的、關鍵的,并且需要做出高風險的決策,這些決策有時基于非常動態的戰區中的不確定信息。許多例子強調了提高決策效率的必要性以及減輕觀察團隊負擔的必要性。缺乏上述情況的例子包括 2017 年的菲茨杰拉德號航空母艦 (DDG 62) 和 MV ACX Crystal相撞,以及 2009 年皇家港口號航空母艦 (CG 73) 的擱淺。一些根本原因是相關人員缺乏經驗、疲勞和壓力.
上述事故展示了軍事行動的難度,并展示了 OODA(觀察、定向、決策和評估)循環中的挑戰(Jones 等人,2020 年)。人為錯誤、人的認知限制和海軍作戰固有的決策復雜性導致了 OODA 循環中的挑戰,更具體地說,是殺傷鏈過程中的挑戰。
現代戰斗空間由來自常規陸地、空中和海洋等多個領域以及來自太空和網絡空間的大量數據組成。決策者需要考慮許多因素,包括交戰規則 (ROE)、要使用的武器、傳感器和意圖評估。發現、修復、跟蹤、瞄準、參與、評估 (F2T2EA) 殺傷鏈模型緩解了該過程的一些困難(參謀長聯席會議,2013 年)。人工智能 (AI) 和機器學習 (ML) 可以通過分析備選方案和使用評估標準將 AI 方法映射到殺傷鏈功能,從而幫助海軍在戰術領域做出殺傷鏈決策。這是在本報告的五個章節中分三個階段完成的。
本報告利用了數百個資源,主要利用了美海軍研究生院 AI-OODA 團隊在其 Capstone 報告(2020 年)中進行的先前研究,“利用人工智能 (AI) 進行空中和導彈防御 (AMD):以結果為導向的決策援助。”他們將他們的工作與 John Boyd 的觀察、定向、決定和行動決策框架相結合。作為他們分析的初步步驟,AI-OODA 團隊將特定的 OODA 功能明確且緊密地耦合到特定的 F2T2EA 功能。然而,本報告斷言 OODA 循環是一個決策循環,它嵌套在殺傷鏈的每個功能中,而不是在高壓力或低壓力情況下專門映射到一個或多個殺傷鏈功能。團隊基于 F2T2EA 模型開發了一組 28 個殺傷鏈功能。
在制定將 AI 方法映射到殺傷鏈的評估標準時,很難確定一個好的決策,這對于決策評估至關重要。在評估決策時,必須考慮選擇行動時的知識意識狀態以及解釋能力。使用了幾種對決策進行評分的方法,從定義和優先考慮感興趣的“武器-目標”到制定評分標準和報告評估結果,以供其他人審查。
目前,人工智能的狀態非常廣泛,必須對其進行解釋,以了解人工智能對殺傷鏈中功能的適用性。本報告討論了所選 AI 方法的高級概述,并突出顯示了部分最流行的方法。首先,沒有普遍接受的定義,這很難定義人工智能。其次,人工智能與機器學習 (ML) 存在差異。 ML 允許在準確性和可預測性方面取得增量收益; AI 接收數據并通過算法提供輸出。人工智能的歷史從 1940 年代艾倫·圖靈 (Alan Turing) 的加密機器到 1980 年代美國政府在戰略計算計劃中的使用,再到今天在聯合人工智能中心 (JAIC) 中的人工智能戰略五個支柱,從領先的人工智能人力到安全和倫理。美國國防高級研究計劃局 (DARPA) 在 3-wave 框架中描述了 AI 的發展方向,分為手工知識 (Wave 1)、統計學習 (Wave 2) 和上下文推理 (Wave 3) 在 1-4 個維度內情報參數的屬性(Launchbury 2017)。這些屬性包括感知、推理、抽象和學習。
人工智能涉及可以根據輸入值預測結果的監督學習。有幾種使用監督學習進行學習的技術。包括線性回歸和分類。此外,許多數值方法可以分析發生的學習有效性,例如 F-score 和 Accuracy score。人工智能還可以使用無監督學習,它使用算法來發現未標記數據集中的數據模式或分組。在分析未知(y)響應以揭示標記(x)數據中的模式時,無監督學習是有益的。數據分析界的一個著名例子是鳶尾花(Iris flower)數據集。僅使用標記的數據,可以看到響應聚集在一起,并且可以確定響應中存在模式(花的種類)。無監督學習的方法包括聚類和 K-means,但還有其他方法。強化學習有一個代理能夠接收來自環境的反饋并理解基本目標。此外,正如 Sutton 和 Barto 在(2018 年)中解釋的那樣,探索和開發之間存在權衡。最后,生成對抗網絡 (GAN) 利用無監督學習和強化學習,通常用于神經網絡 (NN)。神經網絡是機器學習算法的極好來源,它有大量的輸入,而這些輸入又會產生大量的計算。 NN 非常適合用于模擬、自然語言處理、博弈論和計算機視覺。 NN 只是一種將輸入映射到輸出的簡單方法,可以在此過程中進行學習。然而,NN 可以被描述為一種“黑盒”學習技術,因為很難解釋正在發生的事情,并且通常需要一種可解釋的 AI (XAI) 技術。 XAI 的三個主要組成部分是可解釋模型、解釋界面和解釋心理學(Gunning 2019)。數據安全必須與“大數據”一起考慮,“大數據”是指非結構化、復雜和大型數據集,具有五個 v 特征:數量、速度(數據量隨時間變化的增加)、多樣性、真實性和價值。其他理論包括決策理論、模糊邏輯和效用函數
使用上述文獻綜述,該團隊開發了一個框架,用于將 AI/ML 映射到 AMD(空中導彈防御)殺傷鏈。采取了四個步驟:1) 建立模型框架,2) 確定決策點,3) 應用 AI/ML 方法,以及 4) 分析結果。該團隊確定了以下用于殺傷鏈映射分析的 AI/ML 方法:線性回歸、邏輯回歸、聚類、關聯、隨機森林、神經網絡、GAN 和樸素貝葉斯。評估標準被稱為“決策點”并提出四個問題:(1)所需輸出的類型是什么,(2)所需的學習類型是什么,(3)可解釋性(XAI)是什么水平需要,以及 (4) 需要多少個預測變量?該團隊通過基于一組決策點和評分過程評估每個殺傷鏈功能的每種方法來執行映射。對于被認為非常適合某項任務的方法,得分為+1,如果該方法適合但次優,則為0,如果該方法不適合該任務,則為–1。
該團隊進行了映射分析,根據與殺傷鏈的 28 個功能中的每一個功能相關的評估標準(決策點)分析 AI 方法。該團隊使用評分方法來確定每個殺傷鏈功能的最佳整體 AI/ML 分數。團隊的映射顯示為 0。
該團隊的 AI/ML 映射到殺傷鏈功能為國防部和海軍提供了兩個關鍵好處。首先,映射本身是設計和開發支持殺傷鏈決策的人工智能戰術決策輔助工具的重要起點和基礎。其次,該團隊將 AI 方法映射到殺傷鏈的分析過程可用于了解 AI 在許多其他軍事和非軍事領域的應用。識別適當的人工智能方法、制定評估標準和評分過程以及制定過程功能以進行分析映射的過程對于支持許多不同人工智能系統的工程具有深遠的潛力。
表1:AI/ML方法到殺傷鏈的映射
空軍專業 (AFS) 初始技能培訓 (IST) 的最新趨勢表明,美國空軍 (USAF) 入伍人員重新分類為其他職業專業的人數近年來有所增加,并且在財政年度之間出現了穩步增長2013 年和 2017 年。職業領域重新分類可能會導致廣泛的負面結果,包括成本增加、人員配備延遲、培訓計劃挑戰和士氣下降。為了理解和解決 IST 重新分類的挑戰,作者考慮了改進流程的選項,以對 IST 的現役非在職飛行員進行分類和重新分類。在本報告中,他們概述了 2019 年一項研究的主要發現,該研究采用了定性和定量分析,包括機器學習 (ML) 模型、評估 IST 成功(和失敗)的預測因素。他們還描述了他們對優化模型的測試,該模型旨在確定修改重新分類決策的機會,以便不僅減少重新分類飛行員的數量,而且提高飛行員的工作滿意度和生產力,并提高美國空軍的保留率。
01 研究問題
02 主要發現
2.1 IST 分類旨在優化訓練成功,但不優化其他重要結果
2.2 增加相關變量的數量可以提高 ML 預測的準確性
2.3 重新分類是一個手動過程,可以進行優化以實現不同的結果
2.4 與 IST 飛行員就選定的 AFS 進行的焦點小組討論確定了促成 IST 成功和挑戰的因素,并確定了改進建議
飛行員的特征(例如,動機)和先前的經驗(例如,教育)、支持性教官和學習小組有助于 IST 的成功。
IST 挑戰涉及飛行員特征和訓練基地環境。
改進涵蓋了諸如 AFS 的先驗知識以及對 IST 的期望、課程設計、非 IST 要求和宿舍安排等領域。
03 建議
通過保留有關 IST 資格和結果的數據庫,要求新兵完成職業評估和招聘人員提供有關 IST 和 AFS 的信息,系統地收集有關工作要求的信息,開發生物數據工具,從而擴展 USAF 入伍分類中使用的預測變量集。由所有入伍新兵完成,并使用同行和教官對飛行員的個性進行評分。
通過定義和系統地測量與 IST 成功相關的結果以及通過監控專業畢業的移動平均值來擴展 USAF 入伍分類中使用的結果集。
提高數據質量、全面性和可訪問性,以便 ML 模型能夠提供準確且有用的預測。
更新分類和重新分類流程以優化 IST 的成功和工作匹配,從而提高績效和職業滿意度。
在實施任何 ML 模型之前,應對道德和隱私、ML 模型的可解釋性和模型性能等領域的挑戰。
04 報告目錄
第一章
簡介和背景
第二章
空軍分類和重新分類過程
第三章
可用于預測空軍訓練和職業成果的數據
第四章
預測成功的模型
第五章
重新分類訓練消除的優化模型
第六章
飛行員在選擇專業的初始技能培訓中的經驗
第七章
結論和建議
附錄 A
定義和衡量人員選拔的成功
附錄 B
描述性統計和分析建模結果
附錄 C
優化模型方法論
附錄 D
焦點小組方法論
在我們第7版的年度人工智能狀況報告中,我們繼續探討了大大小小的公司在成功部署人工智能方面所采用的戰略。我們調查了商業領袖和技術從業者(我們稱之為技術專家),以了解他們在實施人工智能時的優先事項、他們的成功以及他們的瓶頸。總的來說,他們的回答讓我們勾勒出了一幅圖景,即人工智能行業是如何在一個比以往任何時候都更虛擬、更科技、更全球化的世界中繼續發展的。
《2021年人工智能狀況報告》是一項跨行業的努力,旨在通過高級決策者的調研提供人工智能空間的視角。該報告向當前的人工智能實踐者提供了其他組織如何看待人工智能的想法——包括哪些因素推動了成功,哪些因素仍然是重大障礙。了解什么是優先級和如何解決共同的挑戰可以幫助加速人工智能交付給任何正在努力啟動他們自己的人工智能計劃的讀者。
AI預算增加:預算從50萬美元增加到500萬美元,同比增長了55%,只有26%的預算低于50萬美元,這表明更廣泛的市場成熟度。
絕大多數組織都與外部訓練數據提供商合作,大規模部署和更新人工智能項目。
人工智能優先事項因組織規模而異,規模對于大型企業尤為重要,而數據多樣性對于中小型組織更為重要。
各公司都表示對數據安全和隱私有高度承諾,并愿意與他人分享數據。
雖然2021年商界領袖和技術專家傾向于達成更多共識,但在道德和可解釋性等領域仍存在一些核心分歧。
各種規模的企業證實,由于2019冠狀病毒病,它們在2020年加快了人工智能戰略,并將在2021年繼續這樣做。
//resources.appen.com/wp-content/uploads/2021/06/Whitepaper-State-of-AI-2021.pdf
隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。
//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a
引言
隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。
在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。
根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。
具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。
FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。
在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。
在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。
這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。
目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。