在學習型網絡物理系統（LE-CPS）中使用的機器學習模型，如自動駕駛汽車，需要能夠在可能的新環境中獨立決策，這可能與他們的訓練環境不同。衡量這種泛化能力和預測機器學習模型在新場景中的行為是非常困難的。在許多領域，如計算機視覺[1]、語音識別[2]和文本分析[3]的標準數據集上，學習型組件（LEC），特別是深度神經網絡（DNN）的成功并不代表它們在開放世界中的表現，在那里輸入可能不屬于DNN被訓練的訓練分布。因此，這抑制了它們在安全關鍵系統中的部署，如自動駕駛汽車[4]、飛機防撞[5]、戰場上的自主網絡物理系統（CPS）網絡系統[6]和醫療診斷[7]。這種脆性和由此產生的對基于DNN的人工智能（AI）系統的不信任，由于對DNN預測的高度信任而變得更加嚴重，甚至在預測通常不正確的情況下，對超出分布范圍（OOD）的輸入也是如此。文獻[8, 9]中廣泛報道了這種對分布外（OOD）輸入的不正確預測的高信心，并歸因于模型在負對數似然空間中的過度擬合。要在高安全性的應用中負責任地部署 DNN 模型，就必須檢測那些 DNN 不能被信任的輸入和場景，因此，必須放棄做出決定。那么問題來了：我們能不能把這些機器學習模型放在一個監測架構中，在那里它們的故障可以被檢測出來，并被掩蓋或容忍？

我們認為，我們已經確定了這樣一個用于高安全性學習的CPS的候選架構：在這個架構中，我們建立一個預測性的上下文模型，而不是直接使用深度學習模型的輸出，我們首先驗證并將其與上下文模型融合，以檢測輸入是否會給模型帶來驚喜。這似乎是一個語義學的練習--即使是通常的機器學習模型通常也會 "融合 "來自不同傳感器的解釋，這些解釋構成了模型的輸入，并隨著時間的推移進行整理--但我們認為，我們提出的監測架構相當于重點的轉移，并帶來了新的技術，正如我們將在本報告中說明的。我們建議，一個更好的方法是根據背景模型來評估輸入：模型是我們所學到的和所信任的一切的積累，根據它來評估新的輸入比只預測孤立的輸入更有意義。這是我們推薦的方法的基礎，但我們把它定位在一個被稱為預測處理（PP）的感知模型中[10]，并輔以推理的雙重過程理論[11]。在這份報告中，我們還提供了這個運行時監控架構的候選實現，使用基于歸一化流的特征密度建模來實現第一層監控，以及基于圖馬爾科夫神經網絡的神經符號上下文建模來實現第二層。

我們用一個自主汽車的簡單例子來解釋我們方法背后的基本原理，并展示了上下文模型如何在監測LEC中發揮作用。考慮一下汽車視覺系統中有關檢測交通線的部分。一個基本的方法是尋找道路上畫的或多或少的直線，自下而上的方法是在處理每一幀圖像時執行這一過程。但這是低效的--當前圖像幀中的車道很可能與前幾幀中的車道相似，我們肯定應該利用這一點作為搜索的種子，而且它是脆弱的--車道標記的缺失或擦傷可能導致車道未被檢測到，而它們本來可以從以前的圖像中推斷出來。一個更好的方法是建立一個道路及其車道的模型，通過預測車道的位置，用它來作為搜索當前圖像中車道的種子。該模型及其對車道的預測將存在一些不確定性，因此發送給視覺系統的將是最好的猜測，或者可能是幾個此類估計的概率分布。視覺系統將使用它作為搜索當前圖像中車道的種子，并將預測和當前觀察之間的差異或 "誤差 "發送回來。誤差信號被用來完善模型，旨在最小化未來的預測誤差，從而使其更接近現實。

這是一個 "綜合分析 "的例子，意味著我們提出假設（即候選世界模型），并偏向于那些預測與輸入數據相匹配的模型。在實際應用中，我們需要考慮有關 "預測 "的層次：我們是用世界模型來合成我們預測傳感器將檢測到的原始數據（如像素），還是針對其局部處理的某個更高層次（如物體）？

這種自上而下的方法的重要屬性是，它專注于世界模型（或模型：一個常見的安排有一個模型的層次）的構建和前利用，與更常見的自下而上的機器學習模型形成對比。我們將展開論證，自上而下的方法對于自主系統中感知的解釋和保證是有效的，但有趣的是，也許可以放心的是，人們普遍認為這是人類（和其他）大腦中感知的工作方式，這是由Helmholtz在19世紀60年代首次提出的[12]。PP[13]，也被稱為預測編碼[14]和預測誤差最小化[15]，認為大腦建立了其環境的模型，并使用這些模型來預測其感覺輸入，因此，它的大部分活動可以被視為（近似于）迭代貝葉斯更新以最小化預測誤差。PP有先驗的 "預測 "從模型流向感覺器官，貝葉斯的 "修正 "又流回來，使后驗模型跟蹤現實。("自由能量"[16]是一個更全面的理論，包括行動：大腦 "預測 "手，比如說，在某個地方，為了盡量減少預測誤差，手實際上移動到那里。) 這與大腦從上層到下層的神經通路多于反之的事實是一致的：模型和預測是向下流動的，只有修正是向上流動的。

有趣的是，大腦似乎以這種方式工作，但有獨立的理由認為，PP是組織自主系統感知系統的好方法，而不是一個主要是自下而上的系統，其中傳感器的測量和輸入被解釋和融合以產生一個世界模型，很少有從模型反饋到傳感器和正在收集的輸入。2018年3月18日在亞利桑那州發生的Uber自動駕駛汽車與行人之間的致命事故說明了這種自下而上的方法的一些不足之處[17]。

純粹的自下而上的系統甚至不能回憶起之前的傳感器讀數，這就排除了從位置計算速度的可能性。因此，感知系統通常保持一個簡單的模型，允許這樣做：林的視覺處理管道的物體跟蹤器[18]就是一個例子，Uber汽車也采用了這樣的系統。Uber汽車使用了三個傳感器系統來建立其物體追蹤器模型：攝像頭、雷達和激光雷達。對于這些傳感器系統中的每一個，其自身的物體檢測器都會指出每個檢測到的物體的位置，并試圖將其分類為，例如，車輛、行人、自行車或其他。物體追蹤器使用一個 "優先級方案來融合這些輸入，該方案促進某些追蹤方法而不是其他方法，并且還取決于觀察的最近時間"[17，第8頁]。在亞利桑那車禍的案例中，這導致了對受害者的識別 "閃爍不定"，因為傳感器系統自己的分類器改變了它們的識別，而且物體追蹤器先是喜歡一個傳感器系統，然后是另一個，如下所示[17，表1]。

撞擊前5.6秒，受害者被列為車輛，由雷達識別
撞擊前5.2秒，受害者被歸類為其他，通過激光雷達
撞擊前4.2秒，根據激光雷達，受害者被歸類為車輛
在撞擊前3.8秒和2.7秒之間，通過激光雷達，在車輛和其他之間交替進行分類
撞擊前2.6秒，根據激光雷達，受害者被歸類為自行車
撞擊前1.5秒，根據激光雷達，受害者被歸類為不知名。
撞擊前1.2秒，根據激光雷達，受害者被歸類為自行車。

這種 "閃爍 "識別的深層危害是："如果感知模型改變了檢測到的物體的分類，在生成新的軌跡時就不再考慮該物體的跟蹤歷史"[17，第8頁]。因此，物體追蹤器從未為受害者建立軌跡，車輛與她相撞，盡管她已經以某種形式被探測了幾秒鐘。

這里有兩個相關的問題：一個是物體追蹤器保持著一個相當不完善的世界和決策背景的模型，另一個是它對輸入的決策方法沒有注意到背景。預測性處理中的感知所依據的目標是建立一個準確反映世界的背景模型；因此，它所編碼的信息要比單個輸入多得多。我們想要的是一種測量情境模型和新輸入之間的分歧的方法；小的分歧應該表明世界的常規演變，并可以作為模型的更新納入；大的分歧需要更多的關注：它是否表明一個新的發展，或者它可能是對原始傳感器數據解釋的缺陷？在后面兩種情況中的任何一種，我們都不能相信機器學習模型的預測結果。

預測處理方法的實施可以采用貝葉斯方法[19]。場景模型表示環境中的各種物體，以及它們的屬性，如類型、軌跡、推斷的意圖等，并對其中的一些或全部進行概率分布函數（pdf s）。觀察更新這些先驗，以提供精確的后驗估計。這種貝葉斯推理通常會產生難以處理的積分，因此預測處理采用了被稱為變異貝葉斯的方法，將問題轉化為后驗模型的迭代優化，以最小化預測誤差。卡爾曼濾波器也可以被看作是執行遞歸貝葉斯估計的一種方式。因此，像神經科學、控制理論、信號處理和傳感器融合這樣不同的領域都可能采用類似的方法，但名稱不同，由不同的歷史派生。思考PP的一種方式是，它將卡爾曼濾波的思想從經典的狀態表征（即一組連續變量，如控制理論）擴展到更復雜的世界模型，其中我們也有物體 "類型 "和 "意圖 "等表征。預測處理的一個有吸引力的屬性是，它為我們提供了一種系統的方法來利用多個輸入和傳感器，并融合和交叉檢查它們的信息。假設我們有一個由相機數據建立的情境模型，并且我們增加了一個接近傳感器。預測處理可以使用從相機中獲得的模型來計算接近傳感器預計會 "看到 "什么，這可以被看作是對模型準確性的可驗證的測試。如果預測被驗證了，那么我們就有了對我們上下文模型某些方面的獨立確認。我們說 "獨立 "是因為基于不同現象的傳感器（如照相機、雷達、超聲波）具有完全不同的解釋功能，并在不同的數據集上進行訓練，這似乎是可信的，它們會有獨立的故障。在一個完全集成的預測處理監視器中，情境模型將結合來自所有來源的信息。情境模型將保守地更新以反映這種不確定性，監測器將因此降低其對機器學習模型的信心，直到差異得到解決。

請注意，上下文模型可以是相當簡單粗暴的：我們不需要場景的照片，只需要知道我們附近的重要物體的足夠細節，以指導安全行動，所以相機和接近傳感器 "看到 "的相鄰車輛的輪廓之間的差異，例如，可能沒有什么意義，因為我們需要知道的是他們的存在，位置，類型和推斷的意圖。事實上，正如我們將在后面討論的那樣，我們可以在不同的細節層次上對上下文進行建模，自上而下的生成模型的目標是生成不同層次的感知輸入的抽象，而不是準確的傳感器值。在報告中討論的我們的實現中，我們在兩個層次上對上下文進行建模--第一個層次使用深度神經網絡的特征，第二個層次對場景中物體之間更高層次的空間和時間關系進行建模。除了傳感器，感知的上層也將獲得關于世界的知識，可能還有人工智能對世界及其模型的推理能力。例如，它可能知道視線和被遮擋的視野，從而確定在我們附近的車輛可能無法看到我們，因為一輛卡車擋住了它的去路，這可以作為有關車輛的可能運動（"意圖"）的增加的不確定性納入世界模型中。同樣，推理系統可能能夠推斷出反事實，比如 "我們將無法看到可能在那輛卡車后面的任何車輛"，這些可以作為 "幽靈 "車輛納入世界模型，直到它們的真實性被證實或被否定。我們對監控架構第2層的神經符號建模的選擇對于整合這種背景和學習的知識以及對這些知識進行推理至關重要。

在這方面，另一個關于人腦組織的理論很有意思；這就是 "雙過程 "模型[20, 21]，由卡尼曼推廣的獨立 "快慢 "思維系統[22]。它的效用最近已經通過一個非常有限的實現被證明用于計算機器學習模型的信心[23, 24]。系統1是無意識的、快速的、專門用于常規任務的；系統2是有意識的、緩慢的、容易疲勞的、能夠斟酌和推理的，這就是我們所說的 "思考"。就像預測處理一樣，我們提倡雙過程模型并不僅僅是因為它似乎符合大腦的工作方式，而是因為它似乎是獨立的，是一個好架構。在這里，我們可以想象一個特征密度正常化的流生成模型形成一個高度自動化的 "系統1"，而更多的深思熟慮的神經符號模型構成一個 "系統2"，當系統1遇到大的預測錯誤時，該系統會主動參與。系統1維持一個單一的生成性世界模型，而系統2或者對其進行潤色，或者維持自己的更豐富的世界模型，具有對符號概念進行反事實的 "what-if "推理能力。人們認為，人類保持著一個模型的層次結構[20, 21, 22]，這似乎也是自主系統的一個好方法。我們的想法是，在每一對相鄰的模型（在層次結構中）之間都有一個預測處理的循環，因此，較低的層次就像上層的傳感器，其優先級和更新頻率由預測誤差的大小決定。

人類的預測處理通常被認為是將 "驚訝 "降到最低的一種方式，或者說是保持 "情況意識"。加強這一點的一個方法是在構建世界模型時增加系統2對假設推理的使用，以便將沒有看到但 "可能存在 "的東西明確地表示為 "幽靈 "或表示為檢測到的物體屬性的不確定性增加。一個相關的想法是利用人工智能進行推斷，例如，檢測到前面有許多剎車燈，就可以推斷出某種問題，這將被表示為世界模型中增加的不確定性。這樣一來，本來可能是意外情況的驚奇出現，反而會發展為不確定性的逐漸變化，或將幽靈解決為真實的物體。圖馬爾科夫神經網絡提供了一個有效的機制，既可以對這些關系和更豐富的背景進行建模，又可以通過反事實查詢和背景知情的預測進行審議。因此，雙重過程理論激發了我們的運行時監控器的兩層預測編碼結構。雖然這些理論旨在解釋人類的認知，但我們將這些作為運行時監控器來計算底層模型的驚喜，因此，當模型由于新奇的或超出分布的或脫離上下文的輸入而不能被信任時，就會被發現。

圖 1：基于預測處理和雙過程理論的自主量化保障架構

圖1展示了所提出的深度學習模型運行時監控的整體架構。如圖所示，該架構有兩個層次（由雙重過程理論激發）。在第一層，我們使用生成模型，學習輸入的聯合分布、預測的類輸出和模型提供的解釋。在第二層，我們使用圖馬爾可夫神經網絡來學習物體檢測任務的物體之間的空間和時間關系（更一般地說，輸入的組成部分）。在這兩層中，我們在本報告中的重點是運行時監測，而不是開發一個認知系統本身（而使用所提出的方法建立一個強大的、有彈性的、可解釋的系統將是自然的下一步）。因此，由這兩層檢測到的驚喜被監控者用來識別底層LEC何時不能被信任。這也可以作為LE-CPS的一個定量保證指標。

提綱

第3節介紹了預測性處理和雙進程架構（低級別的自動化和高級別的審議），并認為這可以支持一種可信的方法來保證自主系統的穩健行為。它也被廣泛認為反映了人類大腦的組織。我們提出了使用不同的神經架構和神經符號模型的組成來可擴展地完成這些的機制。結果在第4節報告。第5節提供了一些與工業建議的比較，并提出了結論和額外研究的建議。

付費5元查看完整內容

執行摘要

本備忘錄報告是對美國海軍研究實驗室（NRL）資助項目 "對抗性在線學習"研究成果的總結，該項目資助周期為2017財年到2020財年。其主要目標是研究和展示在線機器學習算法的安全漏洞，并以博弈論分析和計算方法為支撐進行利用和反制。

1. 目標

對抗性在線學習項目中的目標是研究和展示在線機器學習算法的安全漏洞，并以博弈論分析和計算方法來支持開發和反措施。人工智能和機器學習算法經常被建模為具有單一目標函數的解決方案，這暗示著存在非智能對手。對抗性環境意味著有多個具有競爭性目標的智能Agent，需要一種更復雜的解決方法，這正是我們所尋求的。

2. 背景/動機

美國海軍研發框架（Naval R&D 框架）包括機器學習和推理算法，其是自主和無人系統的智能推動器。這項研究將學習與推理相結合，以減輕對手對數據的欺騙性操縱，從而影響旨在保護我們資產的在線學習算法的預測。此外，為了實現信息主導地位，未來的系統必須包括利用和操縱對手數據的能力，并保護我們數據的完整性。這項研究在信息主導權方面具有防御性以及進攻性的用途。

美國海軍信息優勢路線圖預測，未來的作戰環境將是高度競爭和信息密集的。它要求對對手進行快速分析和生成情報。探測對手的算法正在改進并變得越來越動態。然而，這些算法并不 "知道 "何時以及如何通過欺騙來隱藏自己的弱點，或對沖他們對數據的欺騙性操縱的預測，而這正是本研究的目標。

四年一度的國防審查和國防戰略越來越強調網絡空間對國家安全的重要性以及潛在對手探測我們關鍵基礎設施的風險。減輕網絡風險需要發展創新的行動概念，以挫敗對手戰略。

3. 技術方法

技術方法是基于一個博弈論的計算框架，我們將對抗性機器學習的問題視為一個被稱為學習器或防御器的機器學習算法與對手或攻擊者之間的博弈。

對抗性機器學習的背景。我們的研究主要考慮有監督的機器學習算法。在有監督的機器學習中，學習器被提供了一組稱為訓練集的樣本。訓練集中的每個樣本都可以被看作是從一組輸入變量或特征到稱為標簽或類別的輸出變量的映射。學習器的目標是通過觀察訓練集中的樣本（輸入和輸出對）來學習這種映射。訓練結束后，學習器使用其學到的映射來預測輸入的標簽，稱為查詢，其輸出或標簽并沒有提供給學習器。換句話說，機器學習算法使學習器能夠自動確定一個查詢的輸出。舉個例子，如果學習器是一個自動的垃圾郵件過濾器，對學習器的查詢可能是一個電子郵件的文本，而學習器則輸出該郵件是否是垃圾郵件。對抗性機器學習為上述機器學習問題增加了另一個層次的復雜性：對抗者通過不知不覺地修改有效的查詢來向學習器提供可疑的查詢，從而誤導學習器的輸出。例如，一個垃圾郵件發送者可以改變合法電子郵件中的有效超鏈接的幾個字符，并將超鏈接重定向到一個惡意網站，使該電子郵件成為有害或垃圾郵件。但是，學習器可以把不正確的超鏈接解釋為一個打字錯誤，并把修改后的電子郵件歸類為非垃圾郵件。對手略微修改合法軟件可執行文件的類似活動可以將良性軟件轉化為惡意軟件，從而繞過自動惡意軟件檢測器，嚴重損害受保護的計算機系統。顯然，在對抗性機器學習中，學習器有兩個目標：其主要目標是學習有效訓練實例的基礎功能，此外，還要學習識別和正確分類對抗者發送的查詢。在本報告的其余部分，我們根據討論的背景，交替使用了學習器和防御器，以及攻擊者和對手這些術語。

我們的技術方法將學習器和對手之間的互動建模為一個2人博弈。為此，學習器從過去與對手的互動中建立了一個對手的行為模型。然后，學習器與對手的模型進行多次互動，稱為博弈，以便從對手那里獲得不同的攻擊策略并確定相應的反應。例如，在我們的自動垃圾郵件檢測器學習者的例子中，學習器收到的詢問是對對手的模型所發送的電子郵件文本的不同修改。然后，學習器計算出適當的反應，以正確歸類敵方的電子郵件以及來自非敵方的合法電子郵件。我們在學習器與對手的博弈框架中考慮了三個主要方向，如下所述：

1.機器探測：我們專注于兩個問題：（1）如何找到學習器的盲點以操縱預測，以及（2）如何探測學習器以泄露有關其可預測性的信息以達到規避目的。這種類型的互動對應于探索性攻擊，試圖獲得關于學習器的信息（例如，它的偏見、它的特征或它的訓練數據）。

2.機器教學：這里的主要問題是如何毒害學習者，使其在盡可能少的嘗試中做出不準確的預測。這種類型的互動對應于通過訓練數據直接影響學習器的致病攻擊。機器教學被認為是機器學習的一個逆向問題，它將目標模型映射到一組樣本上。

3.反制措施:這方面的研究解決了從機器探測和機器教學中引出的漏洞。我們努力開發一個元學習器，作為學習器的封裝，它將權衡學習器的行動與自適應對手的關系，后者根據學習器的預測動態地演變其戰術。對于博弈的每個方面，探測或教學，我們在對手和學習器之間設置了一個博弈，對手的行動是對數據的操作，而學習器的行動是使用哪種策略來進行預測或攝取數據。收益是錯誤分類風險和學習器特征評估成本與修改對手數據成本的比值。我們的評估基于與非對抗性學習器的性能差異。

總之，我們的技術方法是在機器學習和計算博弈論的交叉點。該研究涉及分析和開發攻擊者與防御者之間的博弈，其中對手試圖回避或學習學習器使用的機器學習算法的信息，對手試圖主動修改學習器使用的機器學習算法的機器教學，以及反制措施，即學習器學會對對手的機器探測和機器教學相關行動做出戰略反應。

4. 結果

我們按財政年度總結了項目的主要結果和成果，如下所述。

4.1 2017財年

在項目的第一年，我們研究對比了應用于網絡安全的生成性和判別性機器學習（ML）模型。我們開發了一個基于深度學習的ML模型，利用字符級卷積神經網絡（CharCNN）[1]將電子郵件文本數據分類為垃圾郵件或非垃圾郵件，并使用Kaggle電子郵件和安然電子郵件數據集驗證了該ML模型（//www.kaggle.com/venky73/spam-mails-dataset，//www.kaggle.com/wanderfj/enron-spam）。我們還在[2]中發表了一個初步的基于博弈論的框架，使基于ML的分類器能夠預測它所收到的查詢是合法的還是來自對手的探測攻擊。

該項目涉及使用快速梯度符號法（FGSM）[3]從圖像數據的干凈樣本中生成擾動樣本的算法。該技術在生成來自MIST數據集的手寫數字的擾動圖像方面得到了驗證[4]。

4.2 2018財年

在項目的第二年，主要致力于開發ML技術，用于模擬對手生成對抗性數據的策略。最近關于最先進的網絡安全技術的調查顯示，電子郵件文本和網絡數據包經常被攻擊者用來繞過網絡防御，如電子郵件垃圾郵件過濾器或惡意軟件檢測器[5, 6]。基于這一觀察，主要使用字符串數據，如電子郵件和社交媒體上的帖子的文本數據，以及網絡流量數據作為我們研究的主要數據模式。

作為第一個任務，開發了一個生成對抗性文本數據的算法。實現了Liang等人[7]的算法的一個略微修改版本，用于對文本數據樣本進行最小化的擾動，以生成一個對抗性樣本。Liang等人的原始算法被設計為戰略性地確定在一個給定的干凈文本樣本中改變哪些字符和多少字符，從而使改變后的文本被分類為與干凈文本不同的標簽，而該模型已被預先訓練為文本數據的分類。我們略微修改了算法，使干凈文本中要被擾亂的字符數可以作為算法的輸入參數來指定。這使我們能夠對使用不同擾動量或擾動強度的對手進行建模，這與他們的能力（如可用的預算、計算資源等）相稱，以從干凈的數據中產生對抗性數據。

接下來，我們研究了當對手的預算有限時產生對抗性數據的問題。對用于分類查詢的ML模型的參數和超參數的了解是對手產生成功規避攻擊的一個關鍵因素。這種知識通常由對手通過發送查詢和觀察分類器的輸出或預測來探測分類器而獲得。現有的文獻主要考慮了對手可用的ML模型參數知識的兩個極端：白盒，即對手有完全的知識，和黑盒，即對手沒有知識。白盒攻擊通常需要對手有大量的預算來發送幾個探針，而黑盒攻擊則假設對手沒有預算來發送探針并獲得ML模型參數的知識。然而，在許多現實生活中，對手可能有有限的預算，可以負擔得起發送幾個探針以獲得ML模型參數的部分知識。我們研究了一個預算有限對手的場景，稱為灰盒技術[8]。我們用一個基于深度學習的文本分類器評估了我們提出的灰盒技術，同時對一個名為DBPedia（

我們研究的最后一個問題是確定文本數據的有效向量表示或嵌入，因為有效的數據表示將使防御者的分類器能夠快速計算出查詢的類別或標簽，同時減少錯誤。大多數現有的生成文本數據嵌入的技術都是在字符級或詞級對文本進行編碼。這兩種表示法都有一定的缺陷：字符級表示法會導致非常大的矢量表示法，消耗空間并需要更多的計算時間，而詞級表示法會導致對不太常用的詞的矢量表示法效率低下，或者對以前未見過的詞沒有表示，導致在從干凈的文本樣本中生成對抗性樣本時，矢量數學計算不精確。我們開發了一種混合的字詞嵌入，其中一個叫做注意力的自適應參數被用來動態地確定是使用字符級還是字詞級編碼來確定一段文本中每個字的向量表示[9]。該技術在一個由學生用英語書寫的考試答案的開源數據集上進行了評估，該數據集被稱為 "劍橋學習者語料庫-英語第一證書"（CLC-FCE）數據集（

我們還組織并主持了一個題為 "網絡安全中的對抗意識學習技術和趨勢 "的研討會，作為AAAI 2018秋季系列研討會的一部分，在弗吉尼亞州阿靈頓舉行。研討會上，人工智能和網絡安全領域的知名研究人員發表了兩個主題演講，并發表了十篇關于對抗性學習的同行評審研究論文。我們在2018年10月的 "AAAI對抗性學習技術和網絡安全趨勢研討會（ALEC 2018）論文集 "上發表了在線研討會的會議記錄[10]。

4.3 2019財年

在這一年里，我們的研究重點是將博弈論與ML結合起來，以開發針對ML模型的對抗性攻擊的反制措施或防御措施。我們今年的主要貢獻是開發了一個新的基于博弈論的框架和算法，稱為重復貝葉斯連續博弈（RBSG）。該技術使使用基于分類器的自動預測機制的學習者能夠降低其分類成本，而不影響在存在對抗性輸入時的分類質量。RBSG結合了一種稱為聯合蒙特卡洛樹搜索（MCTS）的隨機樹搜索算法，該算法有效地探索了學習者和對抗者之間的博弈樹，以及具有對手模型的強盜算法。然后，RBSG算法確定了學習者和對手的每個可能的 "動作 "或行動的效用，并向學習者推薦可能的最佳行動（換言之，具有最大預期效用的行動）。我們為這個問題建立了一個正式的數學模型，包括對防御者和對手可以使用的策略的描述，一個基于博弈論的技術，稱為自我發揮，使防御者能夠建立一個準確的對手行為模型，一個基于蒙特卡洛樹搜索（MCTS）的算法，使用自我發揮的對手模型使防御者能夠快速探索可能的策略，以及RBSG算法，使防御者能夠計算像納什均衡策略一樣的戰略反應，以有效地應對對手的攻擊。我們驗證了我們提出的在存在戰略性修改文本數據的對手的情況下預測文本數據標簽的技術，同時使用收集的亞馬遜產品評論、Yelp商業評論和電子郵件信息的開源文本數據集。我們的結果表明，我們能夠將分類成本降低30-40%，而不會降低分類器的性能指標，如準確率和精確度。

RBSG技術似乎對海軍和國防部有很高的價值潛力，因為它可以降低關鍵應用的操作成本，如網絡安全、導彈探測、雷達和其他信號分析技術，這些應用依賴于對傳入數據的分類，并可能受到對手的攻擊。我們通過NRL專利處理辦公室為RBSG技術的潛在美國專利申請提交了一份發明披露。我們還開始與一家名為Varonis的公司探討CRADA，以實現RBSG技術在網絡安全產品上的潛在商業化。

在這一年里，我們還發表了一份關于網絡安全任務中基于博弈論的對抗性學習技術的全面調查[11]。在調查中，我們將相關技術歸類為攻擊者和防御者之間的零和游戲和一般和游戲。我們為所調查的技術提出了一個新的分類，使用不同的類別，如防御者可獲得的關于對手的初始信息，防御者建立的代表對手攻擊的模型以及技術被驗證的應用領域。調查的最后，我們討論了網絡安全問題中與使用對抗性機器學習技術進一步調查有關的幾個開放性問題。

最后，我們為21財年6.1基礎項目提出了一個題為 "用于防御應用的博弈論機器學習 "的項目，該項目擴展了本報告中的結果，使用強化學習和基于博弈論的技術，在攻擊者與防御者的場景中建立有效的防御措施。

4.4 2020財年

在20財政年度，我們的研究主要集中在兩個方向：研究改進RBSG技術的計算技術，以及評估RBSG在網絡安全相關場景中的應用。在第一個方向下，我們開發了一種基于最近提出的基于博弈論的概念的技術，稱為安全值[12]，用于計算防御者的策略。與原始的RBSG技術中基于納什均衡的計算不同，安全值方法假設攻擊者總是做出理性的決定，同時以最佳方式選擇其策略（即攻擊者選擇一個使其效用最大化的策略），安全值方法假設攻擊者可能偶爾會偏離最佳發揮，并且，使防御者能夠預測并利用攻擊者的偏離來改善防御者的表現（減少防御者分類器的操作成本）。我們實施了一種安全值方法，稱為安全的限制性斯塔克伯格反應（RSRS），并將其與RBSG算法相結合。RSRS算法的初步結果顯示，與在RBSG內部使用基于納什均衡的計算方法的成本相比，防御者的成本有5-10%的改善。

對于第二個方向，我們研究了生成惡意軟件數據的對抗性實例的技術，并建立了用于對抗性惡意軟件數據分類的ML模型。生成惡意軟件數據需要從干凈或正常運行的軟件可執行文件中創建惡意軟件可執行文件。這個問題的主要挑戰之一是，從圖像和文本模式的干凈數據中生成對抗性數據的相稱技術不能直接適用于軟件可執行文件，因為使用圖像或文本數據擾動技術擾動可執行文件內的二進制數據可能會破壞可執行文件的功能，使其無法正常工作。我們的研究基于MalGAN[13]技術，并在EMBER[14]和Kaggle惡意軟件數據集（

我們還開始研究一種合適的技術，以正式代表網絡安全場景中防御者與攻擊者的互動，如網絡入侵檢測。具體來說，我們研究了一個正式的數學模型，稱為攻擊圖博弈[15, 16]。在攻擊圖博弈中，攻擊者以順序的方式攻擊網絡資產，而防御者的目標是預測攻擊者未來的攻擊位置并保護它們。我們開始開發一種基于強化學習的算法，與納什均衡等博弈論概念相結合，在攻擊圖博弈框架內為防御者確定合適的策略，同時對攻擊者以前未見過的攻擊、隱蔽性和欺騙性做出智能反應。該算法在網絡入侵檢測場景中的實施和評估目前正在進行。

我們發表了幾篇關于RBSG技術研究成果的文章，包括在國防部AI/ML技術交流會議上的海報[17]，在關于AI for Cyber-Security的非存檔研討會[18]上的論文（與AAAI 2020同地舉行），以及在名為FLAIRS（佛羅里達州AI研究協會）會議的同行評審存檔會議上對該研討會論文的略微擴展版本[19]。我們還在INFORMS（運籌學和管理科學研究所）2020年年會上發表了擴展摘要，并應邀介紹了我們在這個主題上的研究[20]。我們在19財年提交的RBSG技術的發明公開，在2020年7月被NRL審查小組批準獲得專利申請。

我們在人工智能、機器學習和網絡安全的交叉領域編輯了一本名為 "Adversary Aware Learning Techniques and Trends in Cyber-Security "的書[21]。該書由人工智能/ML和網絡安全領域的知名研究人員撰寫的10個章節組成，涵蓋了各種不同但又相互關聯的主題，包括以博弈的人工智能和博弈論作為對人工智能/ML系統攻擊的防御手段，有效解決在大型分布式環境（如物聯網）中運行的人工智能/ML的漏洞的方法，以及使人工智能/ML系統能夠與可能是惡意對手和/或善意隊友的人類進行智能互動的技術。

我們為上述書籍貢獻了一章，題為 "重新思考智能行為作為處理機器學習的對抗性挑戰的競爭性博弈"[22]，其中我們描述了對抗性機器學習如何需要重新審視傳統的機器學習范式以及對抗性學習如何表現出智能行為。我們認為，發展對對手攻擊的抵抗力可以被建模為競爭性的多人博弈，包括具有矛盾和競爭性目標的不同玩家之間的戰略互動。在進一步的探索中，我們討論了不同的多人博弈環境的相關特征，這些環境被作為研究平臺來調查，以解決公開的問題和挑戰，從而開發出能夠超越人類智慧的人工智能算法。

繼續這個方向，我們在項目中研究的最后一個研究課題是如何通過機器學習技術發展智能能力，在復雜的互動場景中，如《星際爭霸-II》等實時戰略多人博弈中呈現的場景，發展對對手攻擊的抵抗能力[23]。我們開發了一種基于強化學習的算法，使防御者能夠智能地學習博弈戰術，包括何時以及部署多少游戲單位，以何種配置部署游戲單位等，以戰略性地擊敗更強大的對手。我們在虛擬舉行的2020年國防部AI/ML技術交流會上以海報形式展示了我們的研究成果[24]，我們在會上表明，由防御者利用強化學習自動學習的策略可以勝過由人類專家手工編碼的基于啟發式的策略。我們目前正在繼續這一研究方向，同時將其擴展到更復雜的攻擊者-防御者類型的交互場景中。

付費5元查看完整內容

AI與軍事 · 深度終身強化學習 · 美國空軍研究實驗室（AFRL） · 反卷積因子卷積神經網絡（DFCNN） · 情報、監視、偵察 (ISR) ·

2022 年 7 月 15 日

[付費5元查看完整內容]《彈性控制和協調的深度終身強化學習》美國空軍研究實驗室30頁技術總結報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這項工作的目的是開發能夠成功處理復雜動態環境中順序決策的深度終身學習方法，重點是多Agent情報、監視和偵察（ISR）場景。我們為深度卷積神經網絡開發了一個新的架構，支持通過去卷積因子化的終身學習（DF-CNN），探索了通過Distral和Sobolev訓練的策略提煉的組合，并開發了一個混合控制器，將深度學習應用于ISR智能體。我們的方法在標準基準深度學習數據集、DOOM環境和ATE3模擬環境中的ISR場景中進行了評估。

我們的主要貢獻是反卷積因子卷積神經網絡（DFCNN）。DF-CNN框架調整了標準卷積神經網絡（CNN）框架，以實現任務之間的轉移。它在每個CNN層維護一個共享知識庫，并通過這個共享知識促進不同任務的CNN之間的轉移。每個具體任務的CNN模型的各個過濾層都是由這個共享知識庫重建的，隨著網絡在多個任務中的訓練，這個知識庫會隨著時間的推移而調整。DF-CNN代表了ELLA終身學習框架對深度網絡的概括。

實驗表明，DF-CNN在終身中的基準識別任務上的表現優于其他方法（包括單任務學習、低層的硬參數共享和漸進式神經網絡）。此外，該框架能夠抵抗災難性遺忘，同時仍然允許從未來的學習中反向轉移到以前學習的模型。

對于深度強化學習，我們研究了將Sobolev訓練整合到Distral多任務框架中，以努力改善轉移和訓練，探索了DF-CNN在深度RL中的應用，并開發了一個混合控制器，將本地學習的深度RL策略結合在一起，在ATE3仿真環境中完成ISR場景。

付費5元查看完整內容

AI與軍事 · 圖像-音頻編碼 · C2 · 美國陸軍研究實驗室（ARL） · 物聯網 ·

2022 年 7 月 15 日

[付費5元查看完整內容]美國陸軍研究實驗室《圖像-音頻編碼以改善多域環境下的C2決策》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

軍隊正在研究改善其多域作戰（MDO）中的通信和敏捷性的方法。物聯網（IoT）的流行在公共和政府領域獲得了吸引力。它在MDO中的應用可能會徹底改變未來的戰局，并可能帶來戰略優勢。雖然這項技術給軍事能力帶來了好處，但它也帶來了挑戰，其中之一就是不確定性和相關風險。一個關鍵問題是如何解決這些不確定性。最近發表的研究成果提出了信息偽裝，將信息從一個數據域轉化為另一個數據域。由于這是一個相對較新的方法，我們研究了這種轉換的挑戰，以及如何檢測和解決這些相關的不確定性，特別是未知-未知因素，以改善決策。

背景

現代世界受到了技術和全球連接的基礎設施動態的重大影響。隨著這種新環境的出現，許多領域的決策過程面臨更大的挑戰。領導者和決策者必須考慮各種因素的影響，包括那些屬于已知和未知的數據來源[9]。

雖然這不是一個新的概念，但在一些論文中已經提出了對已知和未知因素進行分類的定義。當條件是"已知-已知"（Known-Knowns）：那么條件是有我們知道和理解的知識，已知-未知（known-Unknowns）：條件是有我們不知道但不理解的知識，未知-已知（Unknown-knowns）：條件是有我們理解但不知道的知識，以及"未知-未知"（Unknown-Unknowns）：條件是有我們不理解也不知道的知識[6]。在圖1中，對知識的已知和未知分區的討論是圍繞一個問題展開的。圖中所選的是與對風險的認識和理解有關的。

在這四種情況中，"已知-已知"是最明顯的一種，人們可以對一個特定的問題有完整的了解，而 "未知-未知"則完全相反，也是最具挑戰性的一種。因此，重點應該是制定策略，以發現可能的未知數，從而將其轉換為已知數的數據。然而，在許多情況下，這可能不是小事，這可能需要應急計劃和適應性技能來應對不可預見的情況。

已知-未知的任務計劃需要被徹底觀察。然而，由于已知的部分，只要有足夠的時間和資源投入，就可以找到一個合理的方案。最后，為了處理未知數[11,22,23]，人類是最著名的直覺模型，具有很強的預知能力[5]。因此，包括來自個人或團體的建議可以幫助對那些被遺漏的數據進行分類，從而被機器學習模型認為是未知的。

我們在圖2中提供了上述與我們的 "已知 "和 "未知"知識相關的不確定性區域的可視化表示。在這項研究中，我們將未知數視為圖像數據中未見或未檢測到的對象類別，通過應用第3.1節所述的圖像-音頻編碼方案，這些對象可以被發現或重新歸類為已知數。

圖2：我們提出的方法的可視化表示，說明了已知和未知對的前提。當我們離開綠色區域外的中心，踏入其他顏色的區域時，人類知識的邊界變得模糊和混亂。"？"代表需要探索的區域。紅色區域的點狀周長表示該區域的無界性，因為對該區域及其存在缺乏任何知識。向內的點狀箭頭表示目標應該是將這個紅色區域匯聚到任何可能的黃色、藍色或綠色區域。按照這個順序，理想情況下，每一個包絡區域都應該被收斂到它所包絡的區域。

動機與挑戰

任何決策都會受到風險存在的嚴重影響，任何能夠幫助識別和了解已知和未知的過程都是理想的。此外，對未知數據的識別和檢測可以使風險最小化。然而，面對先驗知識并不奢侈，只有少數數據樣本可供分析的情況很常見。軍事決策者，如指揮官，在做出關鍵決定時可能沒有什么選擇，最終可能完全依賴于他們的專業知識和新數據的輸入。他們可能會利用以前的經驗來分析傳來的信息，并捕捉可能的未知數據，以盡量減少風險。這種方法可能仍然不能涵蓋所有的未知因素。

本文工作的動機是決策中的主要挑戰，即我們完全依靠有意義的和足夠的數據來支持決策。另外，決策者必須對用于提供數據支持決策的技術的性能和結果有信心。因此，我們研究了當深度學習模型的性能由于缺乏豐富的數據樣本而受到限制時，如何提高決策過程中的信任水平。我們關注一個訓練有素的模型如何能夠高精度地檢測和識別未知（未檢測到的）物體；該模型區分新的觀察是屬于已知還是未知類別的能力。

這項工作背后的動力來自于美國陸軍的IoBT CRA項目中的一個問題，該項目將設備分為：紅色（敵人）、灰色（中立）、藍色（朋友）資產。類的屬性和行為是非常不確定的，與前面提到的第1.1節中的已知或未知的挑戰有關，因為要么來自友好來源的數據可能被破壞，要么敵人有可能被欺騙成友好數據來源[1,2,3,4]。因此，以較高的置信度對這些資產進行分類是一項具有挑戰性的任務。應對這一挑戰的最初步驟是，從這些設備中獲取數據，例如圖像、文本或音頻，并調查未知數據是否可以被分類為已知數據。

提出的方法

我們的方法包括選擇圖像數據和建立一個深度學習框架來解決分類的挑戰。圖像類被特別選擇來代表類似于軍事行動中常用的地形景觀。

因此，我們的框架由兩個獨立的部分組成；對從原始數據集獲得的圖像進行分類，以及對使用圖像-音頻編碼方案從圖像獲得的音頻信號進行分類（第3.1節）。

由于編碼將數據從一個數據域（圖像）轉換到另一個數據域（音頻），預計會有信息損失。為了解決上述轉換后的數據樣本的挑戰，我們提出了以下問題：當數據被編碼方案轉換后，我們能否提高模型的性能，從而將未知數轉換成已知數？我們怎樣才能彌補模型的低性能，從而使以前的未知數據能夠用于提高決策過程中的可信度？在模型的性能和正確分類數據以支持決策之間的權衡是什么？

付費5元查看完整內容

AI與軍事 · 人工智能 · 混合戰爭 · 北約“用于混合軍事行動的人工智能、機器學習和大數據（AI4HMO） ”研討會 · 魯棒性 ·

2022 年 5 月 3 日

[付費5元查看完整內容]《人工智能在混合戰爭中的魯棒性》美英德等8個國家的9個國防單位聯合發表

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

在 2016 年人工智能促進協會 (AI) 發表的講話中，當時的協會主席呼吁 AI 為了魯棒性而犧牲一些最優性 [1]。對于 AI，魯棒性描述了系統在各種情況下保持其性能水平的能力 [5]。通過機器學習開發和驗證高質量模型面臨著特殊的挑戰。一般公認的大多數人工智能需要魯棒的原因包括：

? 訓練和運行數據的不確定性；

? 輸入來自不同訓練集，但在統計上或語義上與訓練群體一致；

? 訓練群體之外的輸入；

? 用有限的數據學習；

? 面對新穎的情況，需要不同于學習策略和分類器的開發方式；

? 對抗性行動。

此外，對于人類 AI 協作團隊，人類必須適當地信任 AI 系統；因此，透明度也可以被視為魯棒性問題。混合戰爭為人工智能的魯棒性帶來了額外的挑戰。決策的不同性質和必要的決策支持擴大了所需模型的范圍。在不同條件下開發的模型組合使用會影響可以對復合系統質量做出的統計聲明。

如果我們需要魯棒性，我們必須考慮它的度量。對與上述條件相關的魯棒性研究的調查，提供了一系列可能的措施。北約聯盟實施的混合戰爭需要了解所使用能力的魯棒性。在本文中，我們從當前文獻中調查了魯棒性度量的前景。在這樣做的過程中，我們有助于了解聯盟內部各種模型和軟件的組合。

1 引言

現代混合戰爭不僅包括傳統戰爭，還包括政治和網絡戰爭（以及其他），其越來越依賴人工智能 (AI) 在日益復雜的環境中執行任務。許多現代 AI 實現都是使用機器學習 (ML) 技術構建的，使用數據旨在來表示預期的情況。這意味著：

? 大多數當前的 AI 構建塊都是為特定目的而構建的，雖然旨在泛化以支持現實世界的輸入，但并不總是能夠處理不熟悉的情況（輸入）。它們是“黑盒”設計，可以實時或近乎實時地執行復雜的決策或環境解釋（分類），但通常只能為已知輸入產生可靠的答案。

? 如果提供以前從未見過的信息或通過人類可能察覺不到的攻擊，人工智能構建塊通常很容易被愚弄和混淆。

從本質上講，我們正在處理的是一個易受影響的問題：現代 ML 解決方案，實際上還有其他 AI 解決方案，本質上很容易被他們不熟悉的數據所欺騙 [2] [3]。例如，這使得依賴于它們的指揮和控制 (C2) 決策樹邏輯容易發生故障。當然，我們想知道如何通過確保利用人工智能的 C2 對故障具有魯棒性來保護自己免受此類漏洞的影響。

總結：

? 許多機器學習方法天生就容易受到環境變化和攻擊的影響；

? 因此，依賴機器學習（主要基于神經網絡（NN））的人工智能系統本質上是脆弱的；

? 因此，必須使依賴人工智能的混合戰爭變得強大。

1.1 魯棒性

ML 方法的訓練和運行都基于以下幾個方面：（1）輸入數據，（2）內部結構，以及（3）學習算法。機器學習的脆弱性可能是由許多因素造成的。出于本文的目的，我們假設網絡內部結構是靜態的、足夠強大且安全的，雖然還有許多其他因素，但我們考慮了兩個主要方面：(a) 訓練數據不佳，(b) 以前未使用的業務數據。因此，我們的重點是 ML 解決方案的輸入數據。

天真地，我們假設 ML 方法（尤其是 NN）是使用高質量（“好”）輸入數據訓練的：在運行期間可能期望選擇性表示AI 處理的輸入范圍。這個想法是，在運行過程中，人工智能可以為運行數據產生“正確”的決策，這些決策與訓練它的數據相似。換句話說，人工智能必須能夠進行插值，并且在某種程度上還可以推斷其原理。

在最壞的情況下，糟糕的訓練數據會導致訓練出不符合目的的機器學習模型，或者在最好的情況下會導致生成“愚蠢”的模型；也就是說，只能做出具有高度不確定性的模糊決定。然而，在數據質量范圍的另一端也存在危險，因為雖然“好的”訓練數據可能會產生一個可以做出非常準確的決策的模型，但它可能只能使用窄范圍的輸入數據來做到這一點。當然，我們希望機器學習既能滿足其性能要求，又能適應它最初沒有訓練過的新環境；即能夠處理新穎事物場景。

因此，ML 的一個重要目標是構建一種泛化良好的能力。在狹窄的應用程序中，我們希望確保在環境樣本上訓練過的模型能夠像宣傳的那樣在整個環境中工作。最終，我們希望人工智能面向復雜環境的處理能力，可針對所有現實，或者至少是人類感知的所有現實。從某種意義上說，這完全涵蓋了所有情況，沒有新的情況。如果我們觀察牛頓宇宙并且擁有巨大內存量，那么所有情況都可以從當前數據中預測出來。但是，由于我們對宇宙建模的能力受到嚴重限制，因此可能會經常出現新穎情況。在不可能為復雜環境訓練模型的前提下，當這些模型被引入現實世界時，模型應該能應對各種突發情況。

因此，表征模型的魯棒性具有挑戰性，需要考慮模型的不同方面的魯棒性。雖然有許多可用的魯棒性定義，但應區分用于傳統軟件魯棒性的定義，例如 IEEE 24765[4] 的定義，以及與 AI 模型相關的定義。本文中使用 ISO CD22989 [5] 中提供的定義：

魯棒性是“系統在任何情況下保持其性能水平的能力。魯棒性屬性表明系統有能力（或無能力）在新數據上具有與訓練它的數據或典型運行數據相當的性能。”

1.1.1 魯棒性度量

在定義了術語“魯棒性”之后，由于本文的重點是魯棒性度量，我們現在將定義術語“度量”，應用于魯棒性。為了在編寫定義時為我們的思考過程提供信息，確定度量魯棒性可能具有的各種目的以及利益相關者可能是誰，是有用的。由于魯棒性度量的目的和要求將取決于 ML 模型的生命周期階段，因此我們分析了生命周期階段的目的。

盡管許多 ML 模型將基于 NN，但我們的分析擴展到涵蓋 ML 類型和架構的不同變體，并指出 ML 的主要變體是：NN、決策樹和強化學習。

在 ML 模型設計和開發階段，開發人員將試驗模型設計并調整模型的架構和參數，以優化模型的性能。在這個階段，魯棒性度量的目的既可以是提供一種在進行這些更改時度量魯棒性改進的方法，也可以描述模型如何表現魯棒性。此外，不同模型的開發人員之間商定的度量標準將允許在模型設計之間進行可靠的比較。

在系統設計階段，在選擇現成的ML模型納入整個系統時，度量魯棒性將通過提供一種方法來比較一個模型與另一個模型的魯棒性水平和性質，從而為系統設計者提供關于模型選擇的決策信息。

在部署之前，安全從業人員將使用魯棒性度量來為包含 ML 的系統的安全風險評估提供信息。具體來說，該度量將為 ML 模型的漏洞分析提供信息，若該模型具有低魯棒性，則表示攻擊者可以利用漏洞。

最后，在部署階段，從單個 ML 組件的魯棒性度量中得出的整體系統魯棒性度量，將支持最終用戶對系統輸出或行為的信任和信心。

鑒于上述使用范圍和相關利益者，出于本文的目的，我們將有意保留術語“度量”的寬泛定義。我們的定義超出了純粹的測量或量化行為，包括我們如何描述或表征 ML 在任何特定環境中的魯棒性。因此，我們將本文的其余部分基于以下定義：

魯棒性度量是 ML 模型在其生命周期中可能面臨的各種挑戰的魯棒性的度量或表征。特定度量的精確性質將取決于 ML 模型的類型、模型旨在完成的任務、以及模型所處生命周期的階段。

1.2 方法論和論文結構

在考慮魯棒性度量時，我們通過提出“面對……什么的魯棒性？”這個問題開始分析。這生成了一個 ML 模型可能面臨的情況列表，在這些情況下，它們的魯棒性可能會受到挑戰。我們稱這些為“面對”條件。

? 訓練和運行數據的不確定性；

? 不同于訓練集的輸入，但在統計上或語義上與訓練群體一致；

? 訓練群體之外的輸入；

? 用有限的數據學習；

? 新穎的情況，不同于學習策略和分類器的開發方式；

? 對抗性行動；

我們的文獻檢索提供了許多關于魯棒性的先前研究，對于每一項，我們都試圖確定它們適合哪些類別。雖然這并不總是顯而易見的，但它似乎代表了一種構建分析合乎邏輯的方式。因此，在以下段落中，我們嘗試以這種方式對文獻檢索中的單個研究進行分類。

對于每個類別，我們描述了每個魯棒性挑戰的性質和細節，然后是用于度量魯棒性的度量指標類型。盡管本文中對魯棒性的審查不包括混合戰爭示例，但所討論的內容適用于混合戰爭方法。

2 挑戰和度量方法

2.1 訓練和運行數據的不確定性

能夠處理訓練和運行數據中的不確定性對于 AI 來說至關重要，它代表了當前 ML 系統的關鍵組成部分，尤其是那些在軍事領域等危急情況下使用的系統。

2.1.1 挑戰

在 ML 中，目標是在給定的成本函數情況下，學習最適合訓練數據的模型參數。然后，部署該模型以獲取對新數據和未見過數據的預測。作為訓練過程的結果，任何學習模型都帶有不確定性，因為它的泛化能力必然基于歸納過程，即用數據生成過程的一般模型替換特定觀察[6]。盡管研究界做出了許多努力，但沒有任何現有的 ML 模型被證明是正確的，因為任何可能的實驗都嚴重依賴于假設，因此當受到以前未見的輸入數據影響時，每個當前的 ML 模型輸出仍然是不確定的。

不確定性在統計領域有著悠久的歷史，從一開始，它就經常被聯系起來并被視為一個類似于標準概率和概率預測的概念。然而，在最近，由于當前對 ML 的炒作以及如今基于此類解決方案的系統正在控制我們的日常生活，研究界對此類概念的興趣越來越大。這首先是出于安全要求，為此需要新的方法來應對。

在現有文獻中討論 ML 不確定性的不同方法中，可以根據所考慮的不確定性類型對它們進行聚類。當前的大多數作品都解決了偶然或認知不確定性。

2.1.1.1 偶然和認知不確定性

對 ML 中的不確定性進行建模的傳統方法是應用概率論。這種概率建模通常處理單個概率分布，因此忽略了區分偶然不確定性和認知不確定性的重要性 [7] [8]。

偶然不確定性：我們可以將其稱為統計不確定性，它源于實驗結果可變性的隨機性概念。簡而言之，當提到偶然不確定性時，我們隱含地指的是即使存在任何其他信息源也無法減少的不確定性。讓我們通過一個非常基本的例子來描述這一點：假設我們想要模擬拋硬幣的概率結果。我們可以定義一個概率模型，該模型能夠提供頭部或尾部的概率，但不能提供保證的結果。這種不確定性定義了總不確定性的不能復歸的部分。

認知不確定性：也稱為系統不確定性，這是由無知/缺乏知識決定的總不確定性的一部分。這種不確定性是由于機器學習系統的認知狀態造成的，并且可以通過附加信息來減少。例如，假設我們有一個 ML 模型學習一門新語言，并且給它一個新詞，它應該猜測它是指頭還是尾。智能體對正確答案的不確定性與預測拋硬幣時一樣不確定，但是通過在情況中包含額外信息（即提供同義詞或解釋單詞的正確含義），我們可以消除任何不確定性在答案中。因此應該很清楚，與偶然性相反，認知不確定性定義了總不確定性的可還原部分。

既然我們已經定義了偶然不確定性和認知不確定性，我們將考慮有監督的 ML 算法以及這兩種不同類型的不確定性如何在 ML 中表示。

在監督學習環境中，我們可以訪問由 n 個元組 (xi,yi) 組成的訓練集 D = {(x1,y1),…,(xn,yn)}，其中 xi （屬于實例空間 X）是包含特征的第 i 個樣本 (即，測量值），而 yi 是來自可能結果集 Y 的相關目標變量。

在這種情況下，ML 算法具有三個不確定性來源：

? 偶然不確定性：通常，X 和 Y 之間的相關性不是確定性的。因此，對于給定的輸入 xi，我們可以有多個可能的結果。即使存在完整的信息，實際結果 yi 也存在不確定性。

? 模型不確定性：為解決給定問題而選擇的模型可能遠非最適合該任務的模型。這是由于模型的正確性和假設的正確性存在不確定性。

? 近似不確定性：通過優化過程學習的模型參數只是對真實假設的估計。這種估計是由于在學習過程中使用的數據缺乏保真度。

模型和近似不確定性都代表認知不確定性。

應該注意的是，對于 ML 算法，偶然不確定性和認知不確定性在很大程度上取決于環境。例如，通過允許學習過程改變最初定義的場景的可能性，可以減少偶然不確定性以支持認知不確定性；也就是說，原始環境中的偶然不確定性并沒有改變，而是通過改變環境而改變（類似于在擲硬幣的例子中加權硬幣的一側）。相反，如果我們考慮一個固定的初始場景，我們知道認知不確定性（即缺乏 ML 算法知識）取決于學習過程中使用的數據量（多少觀察）。由于訓練樣本的數量趨于無窮大，機器學習系統能夠完全降低逼近不確定性。

2.1.2 表示不確定性的機器學習方法

表示不確定性的不同 ML 方法具有不同的能力，可以根據以下內容進行聚類： (i) 表示不確定性的方式； (ii) 如果處理兩種類型的不確定性（偶然性和認知性）中的兩種或僅一種； (iii) 如果他們提供了任何可用于提供不確定性數量粗略估計的解決方案。

2.1.2.1 高斯過程

高斯過程 (GP) [9] 是一種用于監督學習的通用建模工具。它們可用于泛化多元隨機變量的貝葉斯推理和函數推理。在分類的情況下，GP 具有離散的結果，不確定性定義的困難在于知識的表示，然后將其識別為模型的認知不確定性，就像在貝葉斯方法中一樣。在回歸的情況下，可以將偶然不確定性（即誤差項的方差）與認知不確定性區分開來。

2.1.2.2 最大似然估計和Fisher信息數

在機器學習中，最大似然估計原理起著關鍵作用。事實上，如果一個模型可以“非常接近”似然函數的最大值，這意味著數據的微小變化可能對估計的影響有限。如果似然函數是平滑的，它可能是一個很好的指標，表明估計存在高度的不確定性，這可能是由于許多參數的配置具有相似的似然性。

在 ML 中，我們經常利用 Fisher 矩陣 [10] 來表示認知不確定性的數值 [11]。

2.1.2.3 生成模型

生成模型可用于量化認知不確定性。考慮到這些方法的概率性質，這些方法旨在模擬數據分布的密度，通過確定給定數據是否位于高密度或低密度區域，這些模型隱含地提供有關認知不確定性的信息。這一類別中最相關的工作是基于核密度估計或高斯混合，最近在深度自動編碼器方面取得了一些進展[12]。

密度估計是處理異常和異常值檢測方法的關鍵要素，后者只是一個分類問題，當樣本位于低密度區域時，它被認為是分布之外的問題。這樣的成果反而捕捉了偶然的不確定性。

一般來說，生成模型解決了一個非常具有挑戰性的問題，需要大量數據才能正常工作，并且通常具有很高的不確定性。

2.1.2.4 深度神經網絡

人工深度神經網絡 (DNN) 本質上是一個概率分類器，我們可以將訓練 DNN 的過程定義為執行最大似然推理。這導致模型能夠生成給定輸入數據的概率估計，但不能提供有關其概率置信度的詳細信息：捕獲了偶然的不確定性，而沒有捕獲認知。盡管如此，后者通常被稱為模型參數的不確定性。在文獻中，最近有一些作品 [13] [14] 試圖通過將貝葉斯擴展引入 DNN 來模擬這種認知不確定性。

2.1.2.5 模型集成

模型集成（Model Ensembles ）模型類的常見示例是 bagging 或 boosting。這種方法非常受歡迎，因為它們可以通過產生一組預測而不是單個假設來顯著提高點預測的準確性[15]。可以包含在此類中的最相關的工作是隨機森林模型 [16]。此類別中的方法主要關注整體不確定性的任意部分。

2.1.2.6 Credal 集和分類器

Credal 集（Credal Sets）是一組概率分布，它是貝葉斯推理推廣的基礎，其中每個單一的先驗分布都被一個候選先驗的Credal 集所取代。作品 [17] [18] 研究如何定義Credal 集的不確定性以及相關表示，定義了存在于Credal 集中的兩種類型的不確定性：由于隨機性導致的“沖突”和“非特異性”。這些直接對應于任意和認知的不確定性；通常使用 Hartley 函數 [19] 作為標準不確定性度量； [20] 還定義了一種工具，可用于評估 ML 系統在面對訓練和操作數據的不確定性時的魯棒性。如果我們知道給定隨機變量的未知值在給定的有限集中，Hartley 函數可用于評估不確定性。此外，已經通過類似 Hartley [80] 和廣義 Hartley [81] 措施提出了對無限集的擴展。

2.2 與訓練集不同但在統計上或語義上與訓練群體一致的輸入

在運行期間，分類器為輸入數據的每個樣本分配一個類標簽。考慮到上述魯棒性的定義，類內可變性，即分配到同一類的所有樣本之間的可能變化，隱含地包含在用于學習分類器的訓練數據集中。

2.2.1 對語義數據變體的魯棒性

使用更具建設性的方法來定義魯棒性有助于更好地模擬用戶對分類器性能的期望。為此，如果分類器對于輸入數據的所有有意義的變體是不變的，我們將暫時稱其為魯棒分類器。顯然，所有有意義的變體的集合取決于應用場景，這通常很難描述。然而，對于許多分類問題，這種有意義的變體可以分為兩類：（i）物理修改（例如，噪聲添加、混合失真、裁剪、旋轉、縮放）和(ii) 輸入樣本的語義修改（例如發音的不同方式）。圖 1(1) 說明了手寫數字分類示例的這兩類可能變體。我們考慮書寫數字“9”的不同變體。而（如圖 1 所示）噪聲添加 (a) 和混雜失真 (b) 可被視為屬于第一類，第三類 (c) 在數字“9”上添加一個小弧線是有意義的（句法）變體，特別是不同國家的當地文化，它使符號（“九”）的語義保持不變。

圖 1 (1) 手寫數字 9 的可能數據變體，(2) 使用變分自動編碼器 (VAE) 重建的數字 3、8、9 的空間，該編碼器對來自 MNIST 語料庫的各個數字進行訓練，(3) 對應的潛在空間表示顏色編碼數字類型。

2.2.1.1 物理魯棒性

AI/ML 相對于第一類變體的魯棒性，尚未得到令人滿意的解決，但近年來已在相當程度上得到解決。在許多涉及對第一類變體的魯棒性的出版物中，基礎數據樣本被建模為歐幾里得向量空間中的向量。然后通過將范數有界向量添加到數據樣本來對失真進行建模。這里，通常使用 Lebesguetype 范數（lp norms）（特別是 l1、l2 和 l∞）。在一篇被廣泛引用的論文 [20] 中表明，這種 l2 范數有界的“對抗性攻擊”可用于在基于神經網絡的分類器中導致錯誤分類。隨后，在對抗性攻擊和相應的保護方法領域做了很多工作（本文稍后將進一步詳細討論）。結果表明，在許多情況下，攻擊很難檢測到，并且對于當時最先進的方法，可以繞過檢測 [21]。顯然，在這種情況下的魯棒性需要保護免受對抗性攻擊。在這種對抗性攻擊環境中定義魯棒性的許多方法可以在一個通用框架下捕獲，如 [22] 所示。

2.2.1.2 語義魯棒性

第二類，數據樣本的語義上有意義的變體，導致了迄今為止很大程度上尚未解決的重大挑戰。相應地，在[68]中，對所謂的感知擾動的魯棒性被稱為一個開放的研究問題。盡管現代基于 AI 的分類器，特別是深度神經網絡，在眾所周知的公共分類挑戰上取得了破紀錄的改進，但相比之下，它們的判別性自然不會導致分類結果的易解釋性。近年來，整個研究分支都集中在可解釋的 AI 上，即，研究通過給定分類器對映射到相同類別的樣本集進行形式化甚至語義化的方法。

理解分類器語義的一個重要方法是將成功的判別分類器與生成模型結合起來。生成方法的優點是可以使用這些模型生成來自原始（樣本）空間的示例。一種結合分類器和生成模型的成功方法是生成對抗網絡（GAN）[24]。

也可以適用于分類的生成模型是（變分）自動編碼器（VAE）[25]。自動編碼器的基本思想是通過訓練一個深度神經網絡來學習原始數據的緊湊表示，該網絡在兩端具有全維（相對于原始數據）層，中間有一個稀疏的“瓶頸”層。圖 1 (2) 和 (3) 說明了如何使用 VAE 來“理解”網絡學習的類別：(2) 顯示了一組具有代表性的重構，這些重構是由經過訓練的 VAE 的生成部分獲得的，用于對 MNIST 數據集的數字“3”、“8”和“9”進行分類。因此，在某種意義上，（2）總結了分類器準備識別的內容。在圖 1 的右側，（3）顯示了從 VAE 的分類器分支獲得的輸入樣本（即 MNIST 數字）的潛在空間表示。顏色對三個數字進行編碼。潛在空間點和重構樣本之間的對應關系如箭頭所示。在藍色中，繪制了將 9 的流形與其他數字分開的曲線，以指示學習的分類邊界。考慮到這個例子，我們注意到上述變體 (c) 在重建部分 (2) 中沒有很好地表示 - 考慮到語義庫受到北美書寫數字風格的偏見，這并不奇怪。因此，為了使分類器對變化 (c) 具有魯棒性，必須應用額外的措施，例如增加或添加到訓練數據中。

基于生成模型，Buzhinsky 等人[26] 提出了幾個指標來衡量分類器對“自然”對抗樣本的魯棒性。為此，他們提出了一組在潛在空間中工作的六個性能指標，并隨后顯示了上述經典對抗魯棒性和“潛在對抗魯棒性”之間的聯系，即對潛在空間擾動的魯棒性。后者的有趣之處在于，幾個示例的潛在空間擾動已被證明與原始樣本空間中語義上有意義的變體相對應。

我們注意到經典的對抗魯棒性已經可以用于獲得關于小范數有界擾動的人工智能分類器的“認證”魯棒性。然而，語義魯棒性更難以形式化，并且與正確理解和建模目標類密切相關。為此，生成模型是一個重要的工具。諸如投影信念網絡 (PBN) 等新概念，即基于前饋神經網絡結構的分層生成模型，具有易于處理的似然函數的優勢，在該領域非常有前景 [27]。

最近的一項工作 [75] 涉及一種稱為復雜事件處理的 ML 形式，其中融合了來自多個傳感器的具有空間和時間關系的多模態輸入，以允許深度學習模型推斷特定類型的事件，例如槍聲或爆炸。此類事件被稱為“復雜事件”。因此，魯棒性的概念并不適用于模型本身，而是適用于機器學習功能所包含的整個組件系統。該研究聲稱，（a）人類邏輯在基于模式和序列預定義復雜事件中與（b）來自單個傳感器的深度學習推斷相結合，提高了系統對錯誤分類的魯棒性。

2.3 訓練群體之外的輸入

在 [78]中，Ashmore 等人識別一組關于輸入域及其子集的定義：I 輸入域空間——模型可以接受的輸入集； O，運行域空間——模型在預期運行域中使用時可能預期接收的一組輸入； F，故障域空間——如果系統其他地方出現故障，模型可能接收到的一組輸入； A，對抗域空間——模型在被對手攻擊時可能收到的一組輸入；其中 O、F 和 A 都是 I 的子集。這些定義不僅在考慮訓練群體之外的輸入（可以從 O、F 或 A 中得出）時很有用，而且在推理模型的輸入時更普遍。

小的、像素空間的擾動，人類可能察覺不到，通常使用 lp 范數測量擾動幅度，是評估模型魯棒性的合理方法（將在 2.6 節后面討論）；特別是在對抗性攻擊的可能性更高的混合戰爭領域。然而，在考慮評估模型的魯棒性時，這些小擾動不一定適用于 Ashmore 的攻擊域空間 (A) 之外。最近，獨立的工作 [79] [80] 已經開始研究擾動模型的輸入，使其遠離經常討論和研究的小擾動方法，而不是生成被認為與環境相關且人類可區分的擾動：這些擾動看起來會在輸入上引入純粹、模糊或朦朧等（這可以合理地代表來自 F 或 O 的輸入）。

此外，在 [80] 中，作者建議對語義相關的圖像引入有意義的擾動，但這些擾動可能尚未包含在模型訓練集中；例如，例如，將一群鵝引入一個場景，在這個場景中，模型正在識別停車場中的車輛數量。雖然最后一類有意義的擾動顯然是 Ashmore 的輸入域空間 (I) 的一部分，但可以說，如果訓練數據集不足，這些語義相關的擾動也可以被視為運行域空間 (O) 的一部分。有趣的是，[80] 還發現，當增加系統對小擾動的魯棒性時，模型在處理語義上有意義的擾動時可能變得不那么魯棒，因此考慮評估模型對這兩種擾動類型的魯棒性顯然很重要。

為了評估模型對這種語義上有意義或環境相關的擾動的魯棒程度，[80] 的作者提出了一種用于引入擾動的滴定方法，這樣可以逐步測量在模型的準確性變得可疑之前引入擾動（例如，通過其置信度或已知基礎事實的分類變化）。當考慮模型在預期的運行域空間中的應用時，這提供了一個進一步的度量標準來評估模型的魯棒性。

2.4 用有限的數據學習

眾所周知，使用深度學習需要大量數據來學習復雜的任務。如果訓練數據太小，模型會過擬合，泛化能力很差。不幸的是，獲取高質量的訓練數據既困難又昂貴，因為它通常需要人工標記。例如，細粒度的 Cityscapes 數據集平均需要 1.5 小時來標記每個樣本 [28]。此外，與為學術目的（概念驗證、評估、基準測試等）開發的數據集不同，軍事數據集還必須包含代表在現實世界可能發生但難以觀察甚至預測的大量邊緣情況的數據。如果沒有這樣的訓練數據，在可能最重要的時候，或者在條件因敵對行動而意外改變的時候，軍事模型的實際價值將是有限的。

軍事應用的數據采集挑戰是重大的，但也是必須解決的，以確保模型在現實世界中部署時是強大的。幸運的是，許多轉移學習技術[29][30][31]已經被提出，這些技術利用了深度神經網絡可以學習到可轉移的一般特征，因此，可以被其他類似的任務重新使用[32]。預訓練與微調相結合，通常用于利用少量/有限的數據進行學習，同時避免昂貴的大規模模型（如GPT-3）的再訓練，這些模型可能需要專門的硬件來學習。其主要思想是：

1.將預訓練的源模型的一部分復制到目標模型中；

2.向目標模型添加一個或多個隨機初始化的（未訓練的）層，使最后一層與目標的標簽空間相匹配；

3.使用標記的目標域數據訓練模型。

然而，這些技術不能用于軍事數據來自特殊傳感器（如激光雷達、紅外、合成孔徑雷達和高光譜）的情況，這些傳感器很少有預先訓練好的模型，或者過于敏感，甚至在盟友之間也不能共享。

無監督領域適應是另一種轉移學習技術，雖然它在淺層學習中已經被研究了幾十年，但最近在深度學習中也受到了很多關注[33]。使用這種技術，來自源域的標記訓練數據可以用來訓練一個使用目標域的無監督數據模型。該方法假設源域的標記數據成本低且容易獲得。

從軍事角度來看，這個想法很有吸引力，因為源數據有可能是合成的。也就是說，已經存在的模擬器或其他生成模型有可能被改編為不僅能生成完美標記的源數據，還能生成代表邊緣情況的數據，否則很難甚至不可能獲得這些數據。基于模擬的方法將完全消除人類的標記工作，否則可能會導致不正確、有偏見和不完整的數據集，這些數據集在訓練時也會轉移到模型中。使用無監督領域適應性來彌補 "模擬到真實"的差距（sim2real）正在積極進行[34][35]，使用各種技術，其中許多依賴于使用對抗性方法，如領域損失函數[36][37]和生成性對抗網絡（GANs）[38][39]。

2.5 新情況，不同于學習策略和分類器的開發方式

為了在復雜環境中發揮作用，人工智能必須表現出對新事物的魯棒性。DeepMind[41]的演示表明，ML可以被用來開發策略，從而在僵硬的游戲中實現超人的發揮。圍棋“Go”這個游戲提供了一個復雜的環境，超過了我們對游戲可能狀態的存儲極限，因此提供了前面討論的關于我們對牛頓宇宙建模的極限的情況。然而，如果改變了游戲規則，生成的代理就會變得很脆弱或者完全失敗。在[42]中，這種類型的結果在一個更簡單的環境中被證明，實驗闡明不同的變化如何影響代理的魯棒性。

但新穎性不僅僅是數據點不包含在 ML 訓練集中的情況。為了將新穎性的研究結合起來，[43] 提出了一個描述新穎性的框架。圖 2 說明了人們如何以一種可以同時衡量新穎性和代理反應的方式看待新穎性。這種新穎性觀點的關鍵在于，可以將新穎性考慮到與世界有關的方面以及與代理人的經驗有關的方面。同樣，對代理任務有影響的新穎性，對魯棒性的影響不同于對任務沒有影響的新穎性。這也是 Chao [42] 中證明的一個發現。

圖 2. 考慮新穎性的框架。

2.5.1 DARPA SAIL-ON 計劃

DARPA SAIL-ON 計劃 [40] 中采用的一種基于游戲的新穎性實驗方法。 DARPA SAIL-ON 計劃假設智能體具有以下四個要素：

? 一種性能要素，它使用已知的專業知識通過感知、推理、規劃、控制機制來完成任務并實現目標（例如，尋找和收集具有所需特征的水下物體）;

? 一個監控元素，將觀察結果與期望值進行比較，以檢測環境（例如，聲納不可靠、不熟悉的捕食者）和代理自身行為（例如，車輛向右轉向）中的異常情況；

? 一種診斷要素，可定位專業問題，生成有關原因（例如，非反射表面、橫流、未對準的螺旋槳）、評估備選方案并從中進行選擇；

? 修復被認為是造成性能問題的專業知識并糾正它們的維修要素（例如，更新的聲納方程、電流敏感控制器或新的螺旋槳模型）。

正如上文關于新穎性的介紹部分所述，這項研究的大部分開始于認識到 DeepMind 用于解決圍棋、國際象棋、將棋和星際爭霸游戲的方法對游戲規則的變化并不魯棒。一個例子是南加州大學 (USC) 開發并通過 GitHub 發布的 GNOME 框架。

NIWC Pacific 與 USC 合作開發了一個版本，英國 Dstl 使用 GNOME 框架開發了“Hunting of the Plark”游戲。這將允許對受過訓練以玩該游戲的代理的新穎性影響進行實驗，這是圖靈研究所研究小組的重點。計劃對使用 ML 開發的決策支持工具進行進一步實驗，我們不僅可以處理模擬情況，還可以與美國海軍進行現場實驗。

2.5.2 新穎性檢測

個體在不知道世界形勢發生變化的情況下對新穎事物有很強的抵抗能力。這很可能是由于新穎事物對正在執行的任務并不重要，或者至少是在敏感度較低的領域變化。然而，處理新穎事物的一個策略是至少檢測到一個代理處于一個新穎的情況，即使該代理不知道如何在新穎的環境中工作，除了退出或提醒其他人注意這種情況。

代理的基本問題是：環境是否發生了變化，或者正在分析的數據是否只是在以前分布的一個尾部？目前，對于大部分的ML來說，僅僅認識到數據不在樣本范圍內可能就足夠了。至少能認識到其自身局限性的ML在許多情況下是一個進步。在這方面，經典的對抗性例子演示經常被提起：在這些實驗中，代理往往對他們的錯誤答案非常自信[44]。

在規劃系統中，識別可能基于對任務進度的動態評估。如果規劃無效，一種可能是世界以一種模型未反映的方式發生了變化。早期檢測可能會防止災難性結果，但這并不能保證。事實上，人們可以設想無法恢復的情景（在黑洞的事件視界上轉彎是一個極端的例子）。

2.5.4對新穎性的魯棒響應

[45] 將提供魯棒響應的任務定義如下：

? 假定：使用專業知識在一類環境情況下運行的代理架構；

? 假定：支持此類環境中可接受的代理性能專業知識；

? 假定：在突然的、未通知的更改環境中，經驗有限會導致性能降低；

? 發現：當環境發生變化時，哪些修改后的專業知識將支持可接受的性能。

對新穎事物的響應類型與正在執行的任務類型有關。在分類器中，系統可能需要調整其模型，不僅允許改變其提供的答案，還允許解釋這種變化意味著什么。例如，想象一個感知代理，其可確定機器人是否存在障礙物。相機系統的改變，例如鏡頭上的蒼蠅附著可能會為系統創造一個新局面。如果系統能夠適應并確定不存在障礙，則需要對情況進行解釋以證明答案的合理性。

圖 3. SAIL-ON 新穎性指標假設。注意程序中的 TA2 代理是那些對環境中的新穎事物做出反應的代理。

對于規劃系統，新穎性可能表現為采用新的行動或發現行動的成本與以前不同；目標可能會發生巨大變化。規劃系統可能不得不調整他們的知識，重新計算以前的任務，利用經驗來改變他們的計算。上面圖 3 中的假設說明了測量環境。在環境中出現變化之前，學習和運行可能會進行一段時間。對特定變化還不夠魯棒的代理性能會下降，必須找到一種方法來檢測新事物的發生，確定發生了什么變化并在運行中對其進行解釋。

2.6 對抗性行動

在過去的幾十年里，已經證明基于深度學習技術的機器學習模型可以在各種任務中達到甚至超越人類水平的表現。另一方面，機器學習模型通常容易受到輸入擾動的影響，并且很容易被愚弄以產生不正確的輸出 [53] [54]。這些類型的操作被稱為對抗性攻擊，機器學習模型對抗這些攻擊的性能被測量為對抗魯棒性 [55]。在兩個不同方面研究了對抗魯棒性。第一個方面，研究人員試圖找到一種產生對抗性攻擊的方法，以最大程度地降低模型的魯棒性 [56] [57] [58] [59] [48]。第二方面，研究人員試圖找到更好的訓練或防御方法，使網絡架構對這種對抗性攻擊更加魯棒[60] [61] [62] [63] [64]。在本節中，我們調查了對抗性攻擊和防御方法，并從當前文獻中定義了對抗魯棒性的指標和測量方法。

2.6.1 對抗性攻擊

[54] 中針對機器學習系統 M 和輸入樣本 C（稱為干凈樣本）定義了對抗性攻擊，如下所示：

“假設樣本 C 被機器學習系統正確分類，即 M(C) = y。可以構建一個對抗性樣本 A，它在感知上與 C 無法區分，但分類錯誤，即 M(A) ≠ y。”

基于此定義，對抗性攻擊的目的是修改模型輸入以導致不正確的模型輸出，使其無法被人類觀察者區分。不可區分性標準對可應用于輸入的擾動有一些限制，這在文獻中稱為 lp 范數，即

其中 ? 是最大允許擾動。最常用的范數是 l2 和 l∞。

考慮到這一限制，提出了幾種方法來生成對抗性樣本 [65] [55] [48]。生成對抗樣本主要遵循兩種不同的方法，即黑盒和白盒。在黑盒方法中，用戶不了解模型，只能訪問給定輸入的預測概率或預測類別。另一方面，假設模型及其參數在白盒方法中是完全已知的[47]。

白盒攻擊在欺騙模型方面比黑盒攻擊更有效，并且在文獻 [56] [57] [58] [48] 中使用不同的方法進行了廣泛的研究。白盒攻擊主要是基于梯度的攻擊方法：它們通常構造一個損失函數，可以導致擾動攻擊能力的提高和擾動幅度的降低，然后通過梯度優化損失函數以生成對抗樣本[66]。使用損失函數的梯度來確定對抗性擾動，可以像快速梯度符號法（FGSM）[65]那樣在一個步驟中進行，用于快速生成對抗性樣本。為了提高效果并減少擾動，在基于迭代梯度的攻擊中，不是在梯度方向上采取單一步驟，而是采取多個較小的步驟[54][48]。

對抗性攻擊也可以作為訓練的一部分。最近的一些工作[46]背景是一個對等網絡，其中每個對等體都有一份神經網絡模型的副本，以創建一個分布式的學習環境，這并不依賴于中央協調節點的存在。這樣的機器學習架構非常適用于有多個伙伴的軍事聯盟場景。最初，每個對等體擁有總訓練數據集的一個子集，隨著模型訓練的進行，模型參數在每次訓練迭代時都在對等體之間共享。

本實驗基于 Fashion-MNIST 數據集，并非試圖提高點對點 ML 的魯棒性，而是測量和優化中毒技術在導致對等體錯誤分類方面的有效性。中毒效果的衡量標準是，就訓練迭代次數而言，惡意對等體能夠可靠地毒化良性對等體的速度有多快。然而，我們相信相同的指標可以用來推斷 ML 對這種中毒的魯棒性：實現錯誤分類所需的迭代次數越多，魯棒性就越高。

2.6.2 對抗性防御

已經提出了一些方法來保證在特定條件下對范數有界的對抗性攻擊的魯棒性。例如，Wong 和 Kolter [67] 使用對抗性多面體的概念為基于 ReLU 的分類器提出了可證明的防御措施。此外，[68] 中提出了一種有效且完整的分段線性神經網絡魯棒性驗證器。在該論文中，提出了一種算法，該算法基于最大 (l∞-) 范數在對抗性誤差上產生經過驗證的界限。

獲得強大的深度神經網絡的最成功的方法之一是通過對抗訓練。對抗性訓練的主要動機是將攻擊和防御都納入一個共同的理論框架，自然地封裝了大多數先前關于對抗性樣本的工作 [55]。在這種方法中，不是直接將原始數據集中的樣本輸入到訓練中，而是允許對抗性攻擊首先擾動輸入，然后將擾動的樣本輸入到訓練中。對抗性訓練以不同的方式得到增強，例如改變攻擊過程、損失函數或模型架構 [69] [50]。

對抗性訓練的性能很大程度上取決于生成增強訓練數據集時使用的損失函數和對抗性攻擊方法，并且由于需要生成對抗性樣本，與干凈訓練相比需要更長的時間。在 [73] 中，已經證明，使用具有早期停止的經典對抗訓練可以更容易地提高最先進的對抗訓練方法的性能。這表明我們對對抗性訓練的理解是有限的。在 [74] 中分析了對抗性訓練對魯棒性的影響，他們得出結論，在使用（隨機）梯度下降的干凈訓練過程中，神經網絡將在所有特征中積累一些與任何自然輸入，但極易受到（密集）對抗性擾動的影響。在對抗訓練期間，這種密集的混合物被“純化”以使模型更加魯棒。

2.6.2.1 訓練期間隨機噪聲的隱式生成建模提高了對抗魯棒性

最近開展的工作 [70] 專門研究了上述方法。事實上，這項工作旨在通過將隨機噪聲引入訓練輸入并使用隨機梯度下降 (SGD) 對其進行優化，同時最小化訓練數據的總體成本函數，從而使深度神經網絡對對抗性輸入更加魯棒。效果是在開始時隨機初始化的輸入噪聲在訓練過程中逐漸被學習。結果，噪聲近似地模擬了輸入分布，以有效地最大化給定輸入的類標簽的可能性。

作者 [70] 評估了他們在 MNIST、CIFAR10 和 CIFAR100 等分類任務上的方法，并表明以這種方式訓練的模型更具對抗性。發現噪聲和干凈圖像的組合方式對精度有重大影響，乘法比加法獲得更高的精度。魯棒性的直接度量沒有發展，而是隨著擾動水平的增加，魯棒性被量化為精度函數。

2.6.2.2 基于離散化的對抗性攻擊解決方案

繼對抗性訓練的主題之后，[72] 表明，圖像分類深度神經網絡對對抗性輸入的魯棒性可以通過輸入空間和模型參數空間的離散化來提高，同時精度損失最小。在使用 MNIST、CIFAR10、CIFAR100 和 ImageNet 數據集的實驗中，輸入空間的離散化涉及將像素強度的數量從 256 (28) 減少到 4 (22)，參數空間的離散化涉及使用低精度權重訓練模型以及諸如二元神經網絡 (BNN) 之類的激活。此外，結合這兩種離散化技術極大地提高了模型的魯棒性。與更昂貴的對抗性訓練過程（即使用對抗性示例訓練模型）相比，這種組合方案可以被視為提高魯棒性的另一種方法。在每個實驗中，通過比較分類的準確性來衡量魯棒性，同時對抗性擾動 (ε) 逐漸增加。實際上，這項工作中魯棒性的度量似乎是在保持給定精度的同時可以容忍的擾動程度。

2.6.2.3 減輕神經網絡中的對抗性樣本

在最后一個示例中，進行了一項相對簡單的工作 [71]。對圖像分類器的輸入進行預處理是通過將輸入饋入高斯核來實現的，其效果相當于平滑低通濾波器，其中平滑程度取決于內核的標準偏差參數。該實驗是使用 MNIST 數據集進行的，并測量了平滑和各種對抗性噪聲水平的不同組合的準確度。結果表明，為了優化給定水平的對抗性噪聲的準確性，存在一個最佳的平滑水平。在這種情況下，用于魯棒性的度量是針對給定數量的對抗性噪聲的成功攻擊的百分比。該度量允許直接比較使用和不使用平滑的性能。

2.6.3 測量對抗魯棒性

對抗性魯棒性可以衡量為對抗性攻擊[47]擾動輸入的模型準確性。由于評估取決于應用的對抗性攻擊，因此很難衡量模型的實際對抗魯棒性。

文獻中的大多數作品通過使用在其訓練階段使用的相同或相似的對抗性攻擊方法和損失函數，來展示其方法的對抗性魯棒性。在[48]中已經表明，通過改變損失函數和生成對抗樣本的方法，可以實現比原始論文中報道的更低的對抗魯棒性。實際上，[48] 中指出，在 49 個案例中，有 13 個案例的魯棒性變化大于 10%，在 8 個案例中大于 30%。

在 [49] 中，通過將幾個深度神經網絡的性能與人類觀察者進行不同類型的操作進行比較，進行了類似的評估。在這項工作中，已經表明，只有在訓練階段知道所應用的操作時，深度神經網絡才能達到人類水平的性能。對于未知的操作，深度神經網絡的性能會急劇下降。此外，文獻中提出的許多防御策略都被更強大的對手打破了[48] [50]。因此，應仔細比較在不同方法下獲得的魯棒性，以確保評估盡可能有效[47]。

對抗魯棒性被報告為從擾動集中獲取的最壞情況輸入的模型精度。除了準確性之外，還可以測量兩種類型的性能指標來評估模型的魯棒性。第一個指標是對抗頻率，它衡量模型多久無法保持穩健[51]。第二個是對抗性嚴重性，用于衡量從原始輸入到對抗性樣本的預期最小距離 [51] [52]，即模型被愚弄的難易程度。事實上，引用[51]：

“頻率和嚴重性捕獲了不同的魯棒性行為。神經網絡可能具有高對抗頻率但對抗嚴重程度低，這表明大多數對抗樣本距離原始點有非常小的距離。相反，神經網絡可能具有較低的對抗頻率但較高的對抗嚴重性，這表明它通常是魯棒的，但偶爾會嚴重不魯棒。頻率通常是更重要的指標，因為具有低對抗頻率的神經網絡在大多數情況下都是魯棒的。實際上，對抗性頻率對應于用于衡量魯棒性的對抗性樣本的準確性。嚴重性可用于區分具有相似對抗頻率的神經網絡。”

3 結束語

混合戰爭表明可能有許多系統和許多模型，因此如果假設人工智能將在混合戰爭系統的集合中使用，那么多種錯誤來源具有破壞人工智能在軍事領域應用的巨大潛力。

因此，上述當前技術的標準和調查都與了解將 AI 和 ML 應用于混合軍事領域的潛在弱點相關，因此在涉及與 AI 和 ML 的魯棒性有關的考慮時，顯然需要確保未來進行廣泛的評估。很明顯，有一個重要的考慮領域和可用的度量方法。然而，正如之前在第 2 節中提出的，這些度量方法適用于不同的利益相關者、不同的模型和潛在的不同任務。

因此，當前的問題是如何為特定模型確定和找到正確的度量方法，以獲得混合戰爭系統所需的置信度。 IST-169 打算推進這項初步調查來做到這一點。我們相信，開發各種類型的魯棒性及其適用于不同類型 AI 階段的圖形表示，將有助于全面了解 AI 魯棒性格局。這將加強并采取更嚴格的方法對人工智能應用進行開發。

付費5元查看完整內容

AI與軍事 · 論文 · 機器學習 · 北約“用于混合軍事行動的人工智能、機器學習和大數據（AI4HMO） ”研討會 ·

2022 年 4 月 26 日

[付費5元查看完整內容] 《對抗性機器學習和未來混合作戰空間》美國約翰霍普金斯大學應用物理實驗室

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

拒絕和欺騙（D&D）技術利用錯誤信息和對手的認知偏差，長期以來一直是混合作戰的一部分。這種戰術給傳統上由人類分析員制作的情報、監視和偵察（ISR）產品帶來了不確定性和懷疑。在一個由人工智能（AI）擴散主導的未來戰斗空間中，算法生成的ISR產品數量可能會增加。因此，D&D戰術將越來越多地被顛覆人類而非機器推理的需要所驅動。對抗性機器學習（AML）的發展，即對欺騙性人工智能的研究，對未來混合作戰空間中的實踐狀態有重大影響。**本文回顧了對抗性機器學習技術之間的關鍵區別，以及它們對敵方對作戰人工智能的了解和訪問做出的假設。然后，我們總結了我們團隊最近與混合作戰有關的幾個對抗機器學習研究方向：對成像系統的物理對抗性攻擊，數據中毒攻擊，以及AML與設計強大的人工智能系統的相關性。

引言

混合戰爭指的是使用顛覆性的、非軍事的手段來推進民族國家的利益，特別是俄羅斯近年來采用的技術，在不訴諸公開的、常規的軍事行動的情況下占領領土并影響各國的政治和政策[1]。所采用的混合戰術包括網絡攻擊、動員智能體團體采取行動、施加經濟影響以及其他秘密措施。由于混合作戰存在于常規軍事沖突和平民生活之間的 "灰色地帶"，因此戰術上采用了拒絕和欺騙（D&D），通過利用民眾或敵對勢力的認知偏差來迷惑、威懾或影響理想的行為。D&D戰術在常規戰場上的歷史使用是有據可查的[3]。有效的D&D技術通過對依賴人類專家分析的軍事情報、監視和偵察（ISR）產品產生懷疑而獲得成功。在混合軍事行動中，情況不一定如此，在混合軍事行動中，D&D也可能試圖影響平民的看法。此外，隨著人工智能（AI）成為國家軍事投資戰略的重點（如[4]和[5]），以及商業信息技術部門越來越多地采用人工智能[6]，人工智能在未來的 "灰色地帶 "可能會無處不在。因此，我們必須考慮在未來由人工智能的使用主導的混合戰斗空間中可能存在的D&D威脅。

當前的人工智能能力是由機器學習的進步所帶來的，特別是在深度學習這個子領域，在過去的10年里。機器學習（ML）涉及將系統的輸入映射到預測結果的問題，例如，將車輛的圖像映射到一個類別的標簽。通常情況下，這是在大型數據集中通過統計模式識別實現的。深度學習具體涉及到多層神經網絡的使用，它是具有數百萬自由參數的高度非線性回歸模型，作為模式識別的統計模型。雖然深度網絡在各種任務上的表現優于人類（最著名的是圖像分類[7]），但在諸如[8]和[9]等作品中觀察到它們容易被愚弄之后，對抗性機器學習（AML）領域作為一個活躍的研究領域出現了。許多作者指出，ML算法所犯的錯誤可能會在民用領域產生嚴重后果[10]-[15]。我們也認為必須提出類似的擔憂，即軍事人工智能系統在常規戰場和混合戰斗空間中的脆弱性。

本文的其余部分組織如下：第2.0節將提供關于對抗性機器學習的進一步背景介紹，以及我們認為目前在解決其與混合軍事行動的相關性方面存在的差距。在第3.0節中，我們描述了約翰霍普金斯大學應用物理實驗室（JHU/APL）目前正在進行的三項研究工作，以解決這些知識差距。最后，我們在第4.0節中做了總結性發言，并總結了我們到目前為止的發現。