最近,我們見證了對抗性機器學習技術的快速發展,它破壞了底層機器學習模型的安全性,并導致了有利于對抗者的故障。最常見的對抗性機器學習攻擊包括故意修改機器學習模型的輸入,其方式是人類無法察覺的,但足以導致模型失敗。對抗性例子最初是為圖像設計的,也可以應用于自然語言處理(NLP)和文本分類。這項工作提出了一個研究和實施對抗性例子--以及防御機制--來對抗基于BERT的NLP分類器。用于測試擬議方法的數據集包括北約文件,現在已經解密,這些文件最初擁有不同的保密級別,由文件中嵌入的標簽指定。BERT模型被用來根據這些文件的初始敏感性對其進行自動分類。雖然攻擊者的目的是改變分類級別,但防御方致力于阻止這些企圖。實驗表明,對抗性文本實例可以誤導模型,導致拒絕服務,當文件被識別為具有比實際更高的敏感性時,或者導致數據泄漏,當文件被解釋為具有比實際更低的敏感性時。通過采取適當的防御措施,有可能抵制特定類型的對抗性攻擊,但代價是降低模型的整體準確性。
機器學習系統的廣泛使用和成功使其成為攻擊者越來越頻繁的目標,他們的目標是濫用這些系統為自己謀利。這種現象導致了對抗性機器學習的發展[1],這是一個結合了機器學習和網絡安全的領域,涉及到對智能系統可能的攻擊以及對策的研究。因此,盡管機器學習在一般情況下能快速提供結果,而且準確性很高,但它并非沒有風險,如果在沒有充分的安全分析的情況下實施,后果可能是災難性的。例如,特斯拉Model S 75自動駕駛系統可以通過隱藏高速公路標志或添加人類駕駛忽略的標記來進行操縱,從而導致,例如,轉向錯誤的車道[2]。
圖1描述了機器學習系統的各個組成部分可能受到的攻擊類型,按有意和無意的故障分組。機器學習的最大威脅之一是數據的完整性,表現為數據中毒。作為訓練集一部分的數據,如果被破壞,會改變模型的學習能力,從而影響其性能。訓練樣本通常不涵蓋所有可能的角落案例。一些沒有被考慮的樣本可能被模型錯誤分類,導致不正確的預測。提供其預訓練模型的第三方服務通常只想提供查詢訪問,而不提供額外的信息。任何針對模型保密性的安全漏洞都會泄露敏感信息,可能會揭示和暴露出模型結構。一般來說,機器學習服務提供者希望對用作訓練集的數據相關信息進行保密。成員推理攻擊的目的是通過泄露訓練集的一部分來損害數據隱私。
在軍事航空人為因素部門,軍事飛行員的情緒壓力是我們感興趣的領域之一。在過去的十年中,我們的興趣集中在以下領域:
a) 測試了高信息負荷對空軍超音速戰斗機飛行員在模擬戰斗任務中的戰術決策所造成的情緒壓力。實驗測試是在飛行員戰術模擬器上進行的,模擬兩個飛行員小組(每方四名飛行員)之間的空戰。在整個任務過程中,飛行員的生理活動被監測。據分析,當飛行員做出錯誤的戰術決定時,是檢測到情緒壓力的時刻。
b) 驗證了提高空軍超音速戰斗機飛行員對 "戰斗準備 "級別的高信息負荷造成的心理壓力的容忍度的可能性。在兩個飛行員小組(每一方的飛行員)之間的模擬空戰中,再次在飛行員戰術模擬器上進行了實驗測試。每個飛行員在幾次實驗測量中都被測試,并分析了他在個別測量中的生理反應趨勢。我們工作的目的是監測飛行員在高要求任務中的情況,評估他們的生理抵抗水平。
c) 測試了提高空軍亞音速戰斗機在 "戰斗準備 "級別上對因訓練不足而產生的高信息負荷的耐受性的可能性。在模擬兩架亞音速戰斗機攻擊地面目標的過程中,在飛行員模擬器上進行了實驗性測試。為我們的實驗測量準備了特殊的任務場景,在這些場景中,飛行員還沒有得到充分的訓練。每個飛行員都在幾次實驗測量中接受了測試,并分析了他在個別測量中的生理反應趨勢。這些場景不盡相同,但難度相似。飛行員在解決這些情況時的監測和評估他們的容忍度是我們工作的目的。
在上述測試中,身體有機體的生理激活水平是通過生理值來確定的,具體是通過心率分析、語音記錄分析和眼球追蹤分析。
在上述領域解決的項目的結果集中在優化個人訓練上。
關鍵詞:飛行員的情緒壓力,戰術決策,對情緒壓力的容忍度
混合行動由多個行動領域的協調攻擊完成,包括網絡戰和信息戰。檢測混合型威脅的一個關鍵挑戰是如何識別個別事件是對手(精心策劃的)措施的結果,并將所謂不相關的事件聯系起來。由于物理和網絡及信息領域的行動可能發生在不同的時間、不同的地點、不同的速度,作為短期或長期的活動,并且可能是低強度的,因此連接這些點的任務變得更加困難。為了確定與具體任務規劃和執行相關的信息,混合威脅的風險評估必須始終在具體任務的背景下進行,包括其任務目標、行動區域和任務時間范圍。
在本文中,我們描述了兩種情況,在這兩種情況下,對手可能在物理以及網絡和信息空間中進行攻擊,以干擾行動。接下來,我們描述了一個演示器的高級架構,顯示了不同類型的傳感器和信息源是如何連接在一起的。為了應對混合威脅并充分發揮對分析員和決策者的支持潛力,有必要在不同的細節水平上實現態勢感知--從原始數據到高度聚合的風險評估--在不同的領域中共享信息,并在聚合水平上融合它們。
多域作戰(MDO)并不是一個新現象。在戰爭中,長期以來一直在多個領域開展行動。從陸、海、空行動開始,空間和網絡領域補充了對手的組合。為了對付這些,需要不同部門的深入合作。同樣,混合威脅這個詞也不是2020年的發明。一開始是混合戰爭,它與非對稱戰爭、非正規部隊和信息行動等概念混雜在一起。
在早期,重點是傳統的軍事沖突。戰場是傳統的地面,坦克、飛機和艦艇與人員一起是主要的行為者。通信是決定勝負的一個關鍵因素。數字化的開始提供了新的好處和選擇,但也給戰爭帶來了新的脆弱性。今天被稱為網絡和信息領域(CID)的使用在軍事能力方面是一個很大的推動。隨著社交媒體的出現,信息領域發生了巨大的變化,因為它使對手更容易影響公眾輿論和關鍵人物的意見。此外,隨著物聯網中相互連接的設備越來越多,網絡威脅的重要性也在增加。今天的關鍵基礎設施(用于能源、交通、衛生等)比過去更容易受到信息技術的威脅,它們是現代戰爭中的熱門目標。這為敵對勢力的攻擊打開了大門。他們的工具箱不再局限于經典的軍事資產。當然,新興的技術導致了反擊和反擊的措施,以及一場永恒的競爭。
在軍事和民用領域,對信息交流的使用和依賴日益增加,產生了新的攻擊載體,同時也產生了防御這些攻擊的新需求。在今天的沖突中,威脅影響到政治、軍事、經濟、社會、信息和基礎設施等領域。不同的威脅可能是由正規和非正規部隊造成的。這些可能是不利的國家,也可能是出于非政府考慮的團體。
一個關鍵的挑戰是如何在戰術層面上認識到個別事件是對手(精心策劃的)措施的結果,并將所謂不相關的事件聯系起來。在任務規劃或任務執行的風險評估中,這個問題的答案可能會導致對自己的措施無動于衷的決定,如使用通信渠道、部隊保護、路線規劃或反網絡行動。由于物理和網絡及信息領域的行動可能發生在不同的時間,以不同的速度,作為短期或長期的活動,并且可能是低強度的,因此連接這些點的任務變得更加困難。
實時戰略游戲已經成為開發和分析人工智能(AI)和基于深度機器學習的競爭、攻擊者與防御者場景的算法的一個有吸引力的環境。基于計算機的實時戰略游戲和用于軍事訓練的戰爭游戲的特征之間的相似性也提供了一種手段,可以將基于人工智能的實時戰略游戲的結果和教訓過渡到幫助和告知作戰人員的決策能力。我們的論文研究了基于人工智能的實時戰略游戲和軍事決策中的戰略規劃之間的這種交集,這個領域被稱為對抗性人工智能。我們描述了在實時戰略游戲中開發有效的對抗性人工智能的問題和挑戰,我們最近組織了一次對抗性人工智能競賽,使用的是海洋環境中的模擬版奪旗游戲。我們討論了比賽的條目、結果和從競爭者的反饋中獲得的教訓,并為基于人工智能的、復雜的、對立的實時戰略游戲規定了未來的方向和公開的挑戰。
近年來,人工智能(AI)已經成為用于軍事和民用領域的自動化系統背后的主要使能技術。自動化系統必須不斷與環境中的其他實體互動,包括人類、智能設備、計算機和其他人工智能。傳統上,基于人工智能的系統在設計時假定與它們互動的其他實體是良性的。換句話說,互動的實體不會故意做出對抗性的行為來打敗或顛覆人工智能。然而,在現實世界中,隨著基于人工智能的系統變得更加普遍,敵對行為者不斷想出新的方法來迷惑基于人工智能的系統,使其失敗并以不正確、不安全甚至危險的方式運行。我們的論文描述了正在進行的應對這些挑戰的努力,作為 "五眼"(FVEY)技術合作計劃(TTCP)人工智能戰略挑戰(AISC)的一部分,在一個被稱為對立人工智能(OAI)的技術領域。
OAI的目標是更好地理解來自不同利益相關者的基于人工智能的系統在以噪聲和低質量數據為特征的環境中相互作用時出現的問題,這些利益相關者的心態和目標是不一致的,可能是相反的。OAI支柱的一個主要方向是將OAI問題建模為一個防御者與攻擊者的游戲,并使用強化學習技術開發和分析不同的游戲策略。為了實現這一目標,我們正在使用一個名為Aquaticus奪旗(CTF)的多人游戲。游戲編程界面是用Python和OpenAI Gym編寫的,以便與強化學習算法輕松靈活地整合,通過分析可能的攻擊和防御策略空間,智能地學習游戲和贏得比賽。在本文中,我們描述了與開發有效的基于人工智能的技術有關的問題和挑戰,這些技術可以使玩家在OAI場景中獲得決定性的優勢,以及我們在組織首屆OAI Aquaticus CTF比賽中的經驗。最后,我們討論了從比賽中獲得的一些經驗,并確定了未來的方向,這些方向將使人工智能研究普遍化,并使其更適于過渡到戰場上的對立場景中的有效決策。
為了能夠在一個日益脆弱的世界中捍衛自己的生活方式和價值觀,團結在北約框架內的西方民主國家必須有能力在必要時 "以機器速度作戰"。為此,國防領域的數字化不能只局限于后勤、維護、情報、監視和偵察,而必須同樣能夠實現負責任的武器交戰。以歐洲未來戰斗航空系統(FCAS)為重點,我們討論了基于人工智能的武器系統的道德統一系統工程的各個方面,這可能會在國際社會中找到更廣泛的同意[1]。在FCAS計劃中,這是自二戰以來歐洲最大的軍備努力,有人駕駛的噴氣式飛機是一個網絡系統的元素,無人駕駛的 "遠程載體 "保護飛行員并協助他們完成戰斗任務。鑒于正在進行的辯論,德國國防部長已經強調。"歐洲戰略自主的想法走得太遠了,如果它被認為意味著我們可以在沒有北約和美國的情況下保證歐洲的安全、穩定和繁榮。那是一種幻覺[2]"。在這個意義上,FCAS與北約的目標是一致的。
"武器的殺傷力越大,影響越深遠,就越需要武器背后的人知道他們在做什么,"沃爾夫-馮-鮑迪辛將軍(1907-1993)說,他是1955年成立的二戰后德國聯邦國防軍的富有遠見的設計師(見圖1)。"如果沒有對道德領域的承諾,士兵就有可能成為一個單純的暴力功能者和管理者"。他深思熟慮地補充道。"如果僅僅從功能的角度來看,也就是說,如果要實現的目標在任何情況下都高于人,那么武裝部隊將成為一種危險[3]"。
弗朗西斯-培根(1561-1626)關于實現權力是所有知識的意義的聲明標志著現代項目的開始[4]。然而,自從人工智能(AI)在國防領域出現后,旨在造福人類的技術可能會反過來影響它。這種類型的工具性知識使現代危機像在聚光燈下一樣明顯。關于人的倫理知識,關于人的本質和目的,必須補充培根式的知識。有一種 "人的生態學",一位德國教皇提醒德國議員說。"他不制造自己;他要對自己和他人負責[5]"。因此,任何符合倫理的工程必須是以人類為中心的。這對于國防領域的人工智能來說是最迫切的。因此,數字倫理和相應的精神和道德是必不可少的技能,要與卓越的技術同時系統地建立起來。因此,領導哲學和個性發展計劃應鼓勵設計和使用基于人工智能的防御系統的道德能力。
北約STO的科技界如何在技術上支持負責任地使用我們從人工智能中收獲的巨大力量?為了更具體地論證,讓我們以德國聯邦國防軍的文件為指導,從它在20世紀50年代成立的時候,也就是人工智能這個詞真正被創造出來的時候,到最近的聲明。由于這些武裝部隊已經從暴政和以當時高科技為特征的 "全面戰爭 "中吸取了教訓,他們似乎在概念上已經為掌握數字挑戰做了準備。這一點更是如此,因為聯邦國防軍是一支載于《德國基本法》的議會軍隊,它完全按照聯邦議院的具體授權行事,即以德國人民的名義行事。
國防領域的人工智能旨在將軍事決策者從常規或大規模任務中解脫出來,并 "馴服 "復雜性,讓他們做只有個人才能做的事情,即智能地感知情況并負責任地采取行動。自動化對聯邦國防軍的重要性很早就被認識到了。馮-鮑迪辛在1957年提出:"然后,人類的智慧和人力將再次能夠被部署到適合人類的領域"[6]。從這個角度來看,武裝部隊作為基于人工智能的系統的使用者,并沒有面臨根本性的新挑戰,因為技術的發展一直在擴大感知和行動的范圍。
混合戰爭為沖突推波助瀾,以削弱對手的實力。相關的行動既發生在物理世界,也發生在媒體空間(通常被稱為 "信息空間")。防御混合戰爭需要全面的態勢感知,這需要在兩個領域,即物理和媒體領域的情報。為此,開源情報(OSInt)的任務是分析來自媒體空間的公開信息。由于媒體空間非常大且不斷增長,OSInt需要技術支持。在本文中,我們將描述對物理世界的事件以及媒體事件的自動檢測和提取。我們將討論不同類型的事件表征如何相互關聯,以及事件表征的網絡如何促進情景意識。
開源情報(OSInt)的任務是探索和分析可公開獲取的媒體空間,以收集有關(潛在)沖突的信息,以及其他主題。所謂 "媒體空間",我們指的是通過傳統媒體(如電視、廣播和報紙)以及社交媒體(包括各種網絡博客)傳播的非常龐大、快速且持續增長的多語種文本、圖像、視頻和音頻數據語料庫。社會媒體大多是平臺綁定的。平臺包括YouTube、Twitter、Facebook、Instagram和其他[1,2]。在很大程度上,媒體空間可以通過互聯網訪問。很多部分是對公眾開放的。然而,也存在一些半開放的區域,其中有潛在的有價值的信息,但并不打算讓所有人都能接觸到,例如Telegram和Facebook頁面。
媒體空間提供關于物理世界的信息:發生了什么?哪些事件目前正在進行?未來計劃或預測會發生什么?它對物理世界的事件反應非常快,也就是說,幾乎是立即提供信息[3]。因此,媒體空間似乎是物理世界中事件的一個有希望的 "傳感器"。然而,從鋪天蓋地的大量信息中檢索出特別相關的信息仍然是一個挑戰,因為到目前為止,所提供的大多數信息是完全不相關的,至少對軍隊來說是如此。此外,媒體空間并不一致--它包括真實和虛假信息,因此,事實核查是一個進一步的挑戰。
除了作為物理世界的傳感器,媒體空間還是意識形態、意見和價值觀的論壇。它是一個重要的空間,用于協商一個社會認為是允許的、規定的或禁止的東西,并用于表現情緒和偏見。因此,它已成為混合戰爭的戰場,即以 "通過暴力、控制、顛覆、操縱和傳播(錯誤的)信息"([4],第2頁)為目的進行的行動。(錯誤的)信息行動導致我們稱之為 "媒體事件"。媒體事件可以被觸發,以影響情緒、意識形態和公眾對物質世界的看法。
在決定是否減輕或接受網絡攻擊對武器系統的風險時,最重要的考慮因素是它如何影響作戰任務——也稱為任務影響。然而,對整個空軍的每個系統和所有任務進行全面評估是不切實際的,因為每個系統都很復雜,有大量潛在的漏洞需要檢查,每個漏洞都有自己復雜的威脅環境。
進入網絡任務線程分析框架。為了分析任務影響,作者提出了這種旨在同時實現幾個目標的新方法:足夠全面,可以在美國空軍的每個任務的規模上執行,但信息量足以指導決定接受或接受減輕特定風險。此外,該方法非常簡單,可以在不超過幾個月的時間內執行,并且可以根據需要進行更新。
該框架遵循自上而下的方法,從捕獲所有關鍵任務元素的整個任務的“線程”(映射)開始,然后是支持其執行的系統。雖然作者并未將網絡安全風險評估問題簡化為交鑰匙解決方案,但他們提出了有用的方法來分類與任務成功最相關的領域,同時將對漏洞和威脅的詳細調查限制在最關鍵的領域。他們的框架旨在大規模完成,適用于各種場景,并明確其工作方式。
00 報告研究的問題
01 主要發現
1.1 在合理的資源支出下分析大規模的任務影響是一個主要的挑戰
1.2 隨著新系統的引入、舊系統的修改以及戰術、技術和程序的發展,執行任務的方式發生了變化
1.3 網絡空間的特點之一是冗余無效
1.4 失去指揮和控制可能會在沒有任何系統或組件故障的情況下損害任務
1.5 當決策者不了解分析的工作原理時,他們通常會恢復直覺和判斷
02 建議
要大規模執行任務影響評估并節省工作量,請使用系統工程熟悉的方法和可用于分類的任務關鍵性標準組合。
定義任務時,不要包含任何系統。在分析的后期介紹特定系統的作用。
將隨著時間推移相對穩定的工作與需要在系統生命周期中更新的分析分開。
盡可能使用現有的和經過驗證的技術以保持透明,以便決策者了解分析的工作原理及其局限性,并信任它來指導決策。
應用網絡分離的概念來解決冗余問題。
在任務和系統級別合并功能流程圖,以解決對手指揮和控制分析問題。
為了全面驗證和驗證網絡任務線程分析框架,空軍應該在各種不同的任務中應用和測試它。
03 報告目錄
第一章
評估武器系統網絡安全風險的一些注意事項
第二章
評估任務影響的原型框架
第三章
框架的討論
摘要
在大數據時代下,深度學習理論和技術取得的突破性進展,為人工智能提供了數據和算法層面的強有力 支撐,同時促進了深度學習的規模化和產業化發展.然而,盡管深度學習模型在現實應用中有著出色的表現,但 其本身仍然面臨著諸多的安全威脅.為了構建安全可靠的深度學習系統,消除深度學習模型在實際部署應用中的潛在安全風險,深度學習模型魯棒性分析問題吸引了學術界和工業界的廣泛關注,一大批學者分別從精確和 近似的角度對深度學習模型魯棒性問題進行了深入的研究,并且提出了一系列的模型魯棒性量化分析方法. 在本綜述中,我們回顧了深度學習模型魯棒性分析問題當前所面臨的挑戰,并對現有的研究工作進行了系統的總結和科學的歸納,同時明確了當前研究的優勢和不足,最后探討了深度學習模型魯棒性研究以及未來潛在的研究方向.
引言
受益于計算力和智能設備的飛速發展,全世界正在經歷第三次人工智能浪潮。人工智能以計算機 視覺、序列處理、智能決策等技術為核心在各個應 用領域展開,并延伸到人類生活的方方面面,包括 自適應控制[1]、模式識別[2]、游戲[3]以及自動駕駛[4] 等安全攸關型應用。例如,無人駕駛飛機防撞系統 (Aircraft Collision Avoidance System, ACAS)使用 深度神經網絡根據附近入侵者飛機的位置和速度 來預測最佳行動。然而,盡管深度神經網絡已經顯 示出解決復雜問題的有效性和強大能力,但它們僅 限于僅滿足最低安全完整性級別的系統,因此它們 在安全關鍵型環境中的采用仍受到限制,主要原因 在于在大多數情況下神經網絡模型被視為無法對 其預測行為進行合理解釋的黑匣子,并且在理論上難以證明其性質。
隨著深度學習的對抗攻擊領域日益廣泛,對抗 樣本的危險性日益凸顯[7,12,13],即通過向正常樣例中添加精細設計的、人類無法感知的擾動達到不干 擾人類認知卻能使機器學習模型做出錯誤判斷。以圖像分類任務為例,如圖 1 所示,原始樣本以 57.7% 的置信度被模型分類為“熊貓”,而添加對抗擾動之 后得到的樣本則以 99.3%的置信度被錯誤地分類為 “長臂猿”,然而對于人而言,對抗樣本依然會被 視為熊貓。由于這種細微的擾動通常是人眼難以分辨的,因而使得攻擊隱蔽性極強、危害性極大,給 ACAS 等安全攸關型應用中部署的深度學習模型帶 來了巨大的安全威脅。
為了防御對抗樣本攻擊,研究者進行了一系列的防御方法探索[5-11]。然而,即使是被廣泛認可并且迄今為止最成功的?∞防御[5],它的?0魯棒性比未防御的網絡還低,并且仍然極易受到?2的擾動影響[14]。這些結果表明,僅對對抗攻擊進行經驗性的防御無法保證模型的魯棒性得到實質性的提升,模型的魯棒性需要一個定量的、有理論保證的指標進行評估。因此,如果要將深度學習模型部署到諸如自 動駕駛汽車等安全攸關型應用中,我們需要為模型 的魯棒性提供理論上的安全保證,即計算模型的魯 棒性邊界。模型魯棒性邊界是針對某個具體樣本而 言的,是保證模型預測正確的條件下樣本的最大可 擾動范圍,即模型對這個樣本的分類決策不會在這 個邊界內變化。具體地,令輸入樣本??的維度為??, 輸出類別的個數為??,神經網絡模型為??: ??? → ???, 輸入樣本的類別為 ?? = ???????????? ???? ?? ,?? = 1,2, … ,??,在???空間假設下,模型對??提供?-魯棒性 保證表明模型對??的分類決策不會在這個樣本???空 間周圍?大小內變化。
在本文中,我們首先闡述了深度學習模型魯棒性分析現存的問題與挑戰,然后從精確與近似兩個角度對現有的魯棒性分析方法進行系統的總結和科學的歸納,并討論了相關研究的局限性。最后,我們討論了深度學習模型魯棒性分析問題未來的研究方向。
問題與挑戰
目前,深度神經網絡的魯棒性分析問題的挑戰主要集中在以下幾個方面:
(1)神經網絡的非線性特點。由于非線性激 活函數和復雜結構的存在,深度神經網絡具有非線 性、非凸性的特點,因此很難估計其輸出范圍,并 且驗證分段線性神經網絡的簡單特性也已被證明 是 NP 完全問題[15]。這一問題的難點在于深度神經 網絡中非線性激活函數的存在。具體地,深度神經 網絡的每一層由一組神經元構成,每個神經元的值 是通過計算來自上一層神經元的值的線性組合,然 后將激活函數應用于這一線性組合。由于這些激活 函數是非線性的,因此這一過程是非凸的。以應用 最為廣泛的激活函數 ReLU 為例,當 ReLU 函數應 用于具有正值的節點時,它將返回不變的值,但是 當該值為負時,ReLU 函數將返回 0。然而,使用 ReLU 驗證 DNN 屬性的方法不得不做出顯著簡化 的假設,例如僅考慮所有 ReLU 都固定為正值或 0 的區域[16]。直到最近,研究人員才能夠基于可滿足 性模理論等形式方法,對最簡單的 ReLU 分段線性 神經網絡進行了初步驗證[15,21]。由于可滿足性模理 論求解器難以處理非線性運算,因此基于可滿足性 模理論的方法通常只適用于激活函數為分段線性的神經網絡,無法擴展到具有其它類型激活函數的神經網絡。
(2)神經網絡的大規模特點。在實際應用中, 性能表現優秀的神經網絡通常具有大規模的特點。因此,盡管每個 ReLU 節點的線性區域可以劃分為 兩個線性約束并有效地進行驗證,但是由于線性片 段的總數與網絡中節點的數量成指數增長[17,18],對 整個網絡進行精確驗證是非常困難的。這是因為對 于任何大型網絡,其所有組合的詳盡枚舉極其昂 貴,很難準確估計輸出范圍。此外,基于可滿足性 模理論的方法嚴重受到求解器效率的限制,僅能處 理非常小的網絡(例如,只有 10 到 20 個隱藏節點 的單個隱藏層[20]),無法擴展到大多數現實世界中 的大型網絡,而基于采樣的推理技術(例如黑盒蒙 特卡洛采樣)也需要大量數據才能在決策邊界上生 成嚴格的準確邊界[19]。
總之,由于不同學者所處的研究領域不同,解 決問題的角度不同,所提出的魯棒性分析方法也各 有側重,因此亟需對現有的研究工作進行系統的整 理和科學的歸納、總結、分析。典型的模型魯棒性 分析方法總結如表 1 所示。目前的模型魯棒性分析 方法主要分為兩大類:(1)精確方法:可以證明精 確的魯棒性邊界,但計算復雜度高,在最壞情況下 計算復雜度相對于網絡規模是成指數增長的,因此 通常只適用于極小規模的神經網絡;(2)近似方法:效率高、能夠擴展到復雜神經網絡,但只能證明近似的魯棒性邊界。
精確方法
精確方法主要是基于離散優化 (DiscreteOptimization)理論來形式化驗證神經網 絡中某些屬性對于任何可能的輸入的可行性,即利 用可滿足性模理論(Satisfiability Modulo Theories, SMT)或混合整數線性規劃(Mixed Integer Linear Programming, MILP)來解決此類形式驗證問題。這 類方法通常是通過利用 ReLU 的分段線性特性并在 搜索可行解時嘗試逐漸滿足它們施加的約束來實 現的。圖 2 梳理了典型模型魯棒性精確分析方法的 相關研究工作。
近似方法
由于在??? ? ????????假設空間內,對于激活函數為 ReLU 的神經網絡,計算其精確的魯棒性邊界是一 個 NP 完備(NP-Complete,NPC)問題[15],因此大 多數研究者通常利用近似方法計算模型魯棒性邊 界的下界,下文提到模型魯棒性邊界時通常也指的 是這個下界。此外,對抗攻擊[12]可以得到模型魯棒 性邊界的上界[24]。因此,精確的模型魯棒性邊界可 以由上界和下界共同逼近。這類方法通常基于魯棒 優化思想,通過解決公式(1)的內層最大化問題 來估計模型魯棒性邊界:
其中,??代表正常樣本,?? 代表對抗樣本,???? (??)代 表對抗樣本可能存在的范圍,??代表樣本真實標簽, ????代表以θ為參數的模型,??代表損失函數。圖 3 梳 理了典型模型魯棒性近似分析方法的相關研究工 作。
未來研究方向
本文介紹了模型魯棒性分析問題的背景與挑戰,探討了相關定義,進而對目前主流的模型魯棒性方法與性能做了介紹。從目前已有的相關方法來 看,我們認為今后對模型魯棒性分析方法的研究, 將主要圍繞以下幾個方向展開:
(1)進一步拓展對抗擾動的類型。從攻擊者 添加擾動的類型來看,現存的大多數模型魯棒性方 法都是針對在像素點上添加擾動的對抗攻擊進行 的魯棒性分析,然而在實際中,對抗性圖像有可能 經過旋轉、縮放等幾何變換,而現存大多數方法無 法擴展到此類變換。雖然 Balunovic 等人提出的 DeepG[102]初步嘗試了將抽象解釋的思想用于分析 幾何變換對抗攻擊的模型魯棒性空間,但是這個方 向仍然值得更多深入研究,進一步提升精度和可擴展性。
(2)不同魯棒性類型之間的平衡。輸入樣本?? 的局部魯棒性(即神經網絡應為以??為中心的半徑 為?的球中的所有輸入產生相同的預測結果)依賴 于在輸入空間上定義的合適的距離度量標準,在實 際中,對于在非惡意環境中運行的神經網絡而言, 這可能是太過苛刻的要求。同時,由于僅針對特定 輸入定義了局部魯棒性,而對于未考慮的輸入不提 供保證,因此局部魯棒性也具有固有的限制性。全 局魯棒性則通過進一步要求輸入空間中的所有輸 入都滿足局部魯棒性來解決這個問題。除了在計算 上難以控制之外,全局魯棒性仍然太強而無法實際 使用。因此,在實際中如何更好地平衡局部魯棒性 與全局魯棒性,仍然是一個亟待解決的挑戰。
(3)進一步提升模型魯棒性驗證方法。從實 證結果來看,大多數基于經驗的防御方法非常容易 被更強的攻擊所攻破,而其他魯棒性分析方法在很 大程度上取決于神經網絡模型的體系結構,例如激 活函數的種類或殘差連接的存在。相比之下,隨機 平滑不對神經網絡的體系結構做任何假設,而僅依 靠在噪聲假設下傳統模型進行良好決策的能力,從 而將魯棒分類問題擴展為經典監督學習問題,可用 于社區檢測[103]等任務。因此,基于隨機平滑的魯 棒性分析方法可能是研究模型魯棒空間的最有前 途的方向之一。此外,由于基于概率的方法具有更 寬松的魯棒性定義,更有可能被實用的神經網絡所 滿足和驗證,因此在合適的擾動分布假設下也是較 有前景的方向之一。
(4)研究可證明魯棒模型訓練方法。此外, 如何訓練對對抗性擾動具有可證明魯棒的神經網 絡以及如何訓練更容易驗證魯棒性的神經網絡,也 是未來的研究方向之一。目前研究者在這個方向進 行的初步探索包括利用正則化技術將模型的形式 化魯棒邊界與模型的目標函數結合起來[104]、經驗 性對抗風險最小化(Empirical Adversarial Risk Minimization,EARM)[36,105]、隨機自集成[106]、剪 枝[82,107]以及改善神經網絡的稀疏性[108]。但是現存 技術主要集中于圖像領域,難以擴展到惡意軟件等 安全攸關型應用,并且仍然存在精度以及可擴展性 上的不足,需要進一步的深入研究。