亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器學習幾乎存在于日常生活的每個方面。大量的數據是需要的,但對于特定的問題卻并不總是可用的,這就排除了諸如深度學習和卷積神經網絡等先進方法的使用。歐幾里得網絡(EN)可以用來緩解這些問題。EN被徹底測試,以證明其作為分類算法的可行性,以及其方法可用于增強數據和轉換輸入數據以增加其特征空間維度。最初,人們假設EN可以用來合成數據以增加數據集,盡管這種方法被證明是無效的。下一個研究領域試圖擴大輸入特征空間的維度,以提高額外分類器的性能。這一領域顯示了積極的結果,這支持了更復雜、更密集的輸入將使算法對數據有更多的洞察力并提高性能的假設。人們發現EN作為一個獨立的分類器表現特別好,因為它在21個數據集中的12個取得了最高的準確性。對于剩下的9個,雖然它沒有最高的準確率,但EN的表現與更復雜的算法相當。事實證明,EN還能夠擴大數據集的特征空間,以進一步提高性能。這種策略提供了一種更穩健的分類技術,并在所有數據集之間看到了平均3%的準確性。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

隨著機器學習系統被部署到現實世界中的安全關鍵應用中,確保這些系統的魯棒性和可信度變得越來越重要。當深度神經網絡脆弱的本質被發現時,機器學習魯棒性的研究引起了大量的關注。對這種行為的迷戀和擔憂導致了對對抗魯棒性的大量研究,這種研究考察的是模型在最壞情況下的擾動輸入(即對抗性樣本)上的性能。在這篇論文的第一章中,我們展示了對抗性訓練方法在開發經驗魯棒深度網絡方面的改進。首先,我們顯示,通過某些修改,使用快速梯度符號方法的對抗性訓練可以產生比以前認為可能的更魯棒的模型,同時保持相比于其他對抗性訓練方法的更低的訓練成本。然后,我們討論我們在對抗性訓練過程中發現的過擬合的有害影響,并顯示,通過使用基于驗證的早期停止,可以極大地提高對抗性訓練模型的魯棒測試性能。對更自然、非對抗性魯棒性設置的日益關注已經導致研究者們以模型在隨機采樣輸入腐敗的平均性能來衡量魯棒性,這也是標準數據增強策略的基礎。在這篇論文的第二章中,我們將平均和最壞情況下的魯棒性的看似獨立的概念,在一個統一的框架下進行概括,這使我們能夠在廣泛的魯棒性水平上評估模型。對于實際使用,我們介紹了一種基于路徑采樣的方法,用于精確地近似這種中間魯棒性目標。我們使用這個度量來分析并比較深度網絡在零射擊和微調設置中,以更好地理解大規模預訓練和微調對魯棒性的影響。我們表明,我們也可以使用這個目標來訓練模型到中間級別的魯棒性,并進一步探索更有效的訓練方法,以彌補平均和最壞情況下的魯棒性之間的差距。

付費5元查看完整內容

新的學習算法提高了我們僅通過觀察單個事件的過去觀察來獲取知識的能力,使我們能從觀察幾個相關事件中學習。這種在時間序列中利用共享有用信息的能力正在引起時間序列預測實踐的范式轉變。然而,基于機器學習的預測仍面臨著一些迫切的挑戰,這些挑戰限制了其可用性、有用性以及可實現的現實世界的影響,包括人類的可解釋性、利用結構化信息的能力、泛化能力和計算成本。本論文通過彌合機器學習和經典統計預測方法之間的差距來解決這些挑戰。我們按照以下方式組織了論文。我們介紹了時間序列預測任務,并附帶了現代預測模型、它們的優化以及預測評價方法的簡要回顧。在接下來的章節中,我們通過三個案例研究來介紹我們的方法。首先,我們將時序分解分析啟發的可解釋性能力增強到最先進的神經預測算法中,并在短期電價預測任務中展示了其應用。其次,我們通過一種新穎的受小波啟發的算法,在長期預測設置中提高神經預測的泛化和計算效率,該算法按順序組裝其預測,強調具有不同頻率和尺度的組件。第三,我們通過增強神經預測架構,使用一種專門的概率混合物,能夠在其構造中融入聚合約束,來解決分層預測任務,這是一個具有線性聚合約束的回歸問題。我們的方法在每個考慮的領域中都提高了現有技術的最高水平。

時間序列預測問題涉及到許多領域,從金融和經濟到健康保健分析。隨著數據生成的增加,預測需求已從需要預測少量時間序列演變為預測數千甚至數百萬個時間序列。從數據中提取可推廣的統計模式一直是生成預測的最可靠方法。這就是為什么機器學習已經成為了這項任務最成功的方法之一。在大數據環境下,深度學習(LeCun等人,2015)因為其在最近的預測競賽中的成功(Makridakis等人,2020a;Makridakis等人,2021)而變得越來越受歡迎,其已經改變了現有的最高水平。深度學習的優點包括:1.預測準確性:全局模型同時適應相關時間序列的歷史數據,允許其在它們之間分享信息;這有助于訓練高參數化和靈活的模型,這通常會轉化為更準確的預測,這種技術被稱為交叉學習(Makridakis等人,2020a)。相比于經典方法,該模型能夠為幾乎沒有歷史數據的項目提供預測。2.預測流程的簡化:深度學習框架能夠自動化數據集的特征化,同時其表示具有更長的記憶。使用全局模型大大簡化了數據管道,并使過程更高效。雖然訓練時間比其他方法更長,但深度學習技術在數據特征化過程中能夠補償這一點,這通常非常快。已經嘗試了許多方法和想法進行預測,成功程度各不相同。不同的算法有其優點和缺點,復雜性不同,發展機會和挑戰也不同。機器學習有巨大的潛力來提升預測系統,然而一些限制阻礙了其采用,其中我們認為最主要的是缺乏可解釋性,處理大量數據或長期預測時的計算可擴展性。受到機器學習預測系統的可解釋性和計算成本限制的驅動,在這篇論文中,我們以以下問題為指導進行工作:能否將經濟計量學和統計創新結合起來,以提高基于機器學習的預測的可用性、有用性和現實世界的影響?

付費5元查看完整內容

神經網絡(NNs)很容易受到對抗性樣本的影響,大量的研究旨在對其檢測。然而,檢測對抗性樣本并不容易,即使在網絡中構建了新的損失函數。在這項研究中,我們引入了對抗性混合(AdvMix)網絡,這是一個在現有類別基礎上增加一個非上述(NOTA)類別的神經網絡,以隔離存在對抗性樣本的空間。我們研究了AdvMix在提高在深度神經網絡上訓練的模型的魯棒性方面的有效性,通過檢測它們來對抗對抗性攻擊。我們實驗了各種數據增強技術,并訓練了九個不同的模型。我們的研究結果表明,使用AdvMix網絡可以顯著提高模型對抗各種攻擊的性能,同時在良性樣本上取得更好的準確性。我們能夠將香草模型的準確性從91%提高到95%,并提高模型的魯棒性。在許多情況下,我們能夠消除模型對一些流行和有效的攻擊的脆弱性。

付費5元查看完整內容

深度神經網絡(DNN)在幾乎所有的學術和商業領域都產生了突破性的成果,并將作為未來人機團隊的主力,使美國防部(DOD)現代化。因此,領導人將需要信任和依賴這些網絡,這使得它們的安全成為最重要的問題。大量的研究表明,DNN仍然容易受到對抗性樣本的影響。雖然已經提出了許多防御方案來對付同樣多的攻擊載體,但沒有一個成功地使DNN免受這種脆弱性的影響。新穎的攻擊暴露了網絡防御的獨特盲點,表明需要一個強大的、可適應的攻擊,用來在開發階段早期暴露這些漏洞。我們提出了一種基于強化學習的新型攻擊,即對抗性強化學習智能體(ARLA),旨在學習DNN的漏洞,并產生對抗性樣本來利用這些漏洞。ARLA能夠顯著降低五個CIFAR-10 DNN的準確性,其中四個使用最先進的防御。我們將我們的方法與其他最先進的攻擊進行了比較,發現有證據表明ARLA是一種適應性攻擊,使其成為在國防部內部署DNN之前測試其可靠性的有用工具。

1.1 深度學習與美國防部

美國海軍(USN)和國防部(DOD)建立對對手的持久技術優勢[1],他們必將尖端的機器學習(ML)技術整合到當前的系統和流程中。ML,即系統從原始數據中提取意義和知識[2],已經將更廣泛的人工智能(AI)領域推向了似乎無止境的應用。人們很難找到一個領域,無論是學術、商業還是醫療領域,ML都沒有進行過革新。ML已經被用來幫助識別汽車保險欺詐[3],提供宮頸癌的早期檢測[4],以及檢測和描述飛機上冰的形成[5]。在這些情況下,ML模型的作用不是做決定,只是為人類操作員提供更好的信息。通過以類似的方式應用ML,國防部有一個路線圖,可以將系統和流程演變成遵守道德人工智能原則的人機團隊[6]。

雖然ML可以包含廣泛的用于預測的模型,但一個被稱為深度學習的子集是這個人工智能夏天的驅動力。與線性回歸建模和支持向量機等更簡單的ML技術不同,深度學習包含了利用深度神經網絡(DNNs)的ML模型,它使用許多隱藏的人工神經元層,通過數據學習復雜的概念[2]。盡管DNNs被用于許多目的,但本論文重點關注那些專門用于圖像識別的DNNs。

1.2 信任機器

美國防部要想成功過渡到人機團隊,軍事和文職領導人必須能夠信任和依賴基礎技術。這對高級領導人來說是一個不小的要求。與人類分析師不同,他們的思維過程可以通過對話來理解,但沒有明確的路徑來理解DNN如何完全基于數據做出決定。因此,信任必須建立在一個合理的信念上,即該系統能夠抵御攻擊,其結果是一致和可靠的。任何關于可信度和可靠性的擔憂都是合理的,因為一連串的研究已經證明,DNN在對抗性樣本面前始終是脆弱的。

對抗性樣本(AE)是一個良性的輸入樣本,通過添加擾動導致目標DNN返回不正確的輸出而被畸形化。AE的目的是在降低目標網絡的整體準確性的同時顯得非惡意的,這可能會產生嚴重的、威脅生命的后果。例如,考慮到自動駕駛以及汽車不混淆停車和讓行標志是多么關鍵。對于軍事指揮官來說,如果一個網絡對對抗性樣本不健全,那么對該系統的信任很容易就會下降,并且該系統會被忽略,而被用于更傳統和耗時的分析。想象一下一個系統,DNN正確地過濾掉90%的圖像,只留下10%的標簽供人類審查。如果該系統被成功攻擊,那么人機團隊就會失敗,分析員很快就會被新的工作量壓垮。

1.3 研究問題

對抗性攻擊算法的核心是函數,即給定一個良性的輸入??,就會產生一個對抗性的???。許多攻擊可能需要樣本的真實標簽(??),或目標網絡或它的一些近似值,但它們仍然只是函數。因此,在給定的一組輸入變量的情況下,某種攻擊總是會輸出相同的AE。深度學習不是攻擊本身的一部分,這意味著在創建對抗性樣本時沒有涉及ML。這種生成AE的算法方法使我們考慮到強化學習(RL)領域,其中一個DNN "智能體"學習在特定環境中的最佳行為,同時追求一個特定的目標[7]。來自RL研究小組DeepMind的大量成功案例表明,RL能夠在各種游戲中實現超人類的表現[8]-[11]。最簡單的說法是,RL智能體通過觀察環境的模式進行學習,采取獲得某種獎勵的行動,然后觀察隨后的狀態。智能體試圖使其獲得的總獎勵最大化,最終學會了最佳的行為策略。

考慮到RL和對抗性樣本對DNN構成的威脅,我們提出了第一個研究問題:

1)如果圖像是環境,像素變化是可玩的行動,強化學習智能體能否學會生成最小擾動的對抗性樣本?

在所有研究對抗性攻擊的學術文獻中,有同樣多的文獻涉及對抗性防御: 一個新的攻擊被提出來,之后的某個時候會有一個反擊它的防御,而這個循環會重復下去。雖然最先進的防御手段可以抵御所有當前的攻擊,但不能保證防御手段能夠抵御未知的攻擊。如果一種攻擊可以適應任何防御,它將幫助研究人員和開發人員領先于未知的攻擊。考慮到攻擊的適應性,我們提出了第二個研究問題:

2)基于強化學習的對抗性攻擊能否成為一種適應性攻擊?

通過解決這兩個問題,我們首次將對抗性研究和強化學習這兩個領域融合在一起。

1.4 對抗強化學習智能體(ARLA)

這項研究引入了第一個基于RL的對抗性攻擊。命名為對抗性強化學習智能體(ARLA),我們的攻擊使用良性樣本圖像作為學習環境來生成對抗性樣本,目標是找到與原始樣本的?2距離最短的對抗者。ARLA使用雙重深度Q-learning(DQL),在第2章中進行了解釋,并采用了改進的深度Q-網絡(DQN)智能體架構,在第2章和第3章中進行了詳細解釋。我們的結果提供了證據,證明ARLA是一種自適應的對抗性攻擊,對本論文中用于攻擊評估的所有五種模型都顯示出明顯的攻擊成功。雖然我們的結果很有希望,但還需要做更多的工作來穩定ARLA如何學習最佳行為政策。

我們研究的目的是為國防部提供一個有效的工具來評估武裝部門正在開發的DNN。與其他需要由技術專家對特定防御進行調整的適應性攻擊不同,基于RL的對抗性攻擊可能會以更大的難度和最少的培訓來利用。我們希望ARLA就是這樣一種攻擊,并成為在作為未來軍事系統一部分部署的人機團隊中建立機構信任的一個小而有價值的步驟。

付費5元查看完整內容

計算機視覺中的一項挑戰性任務是尋找技術來提高用于處理移動空中平臺所獲圖像的機器學習(ML)模型的目標檢測和分類能力。目標的檢測和分類通常是通過應用有監督的ML技術完成的,這需要標記的訓練數據集。為這些訓練數據集收集圖像是昂貴而低效的。由于一般不可能從所有可能的仰角、太陽角、距離等方面收集圖像,這就導致了具有最小圖像多樣性的小型訓練數據集。為了提高在這些數據集上訓練的監督性ML模型的準確性,可以采用各種數據增強技術來增加其規模和多樣性。傳統的數據增強技術,如圖像的旋轉和變暗,在修改后的數據集中沒有提供新的實例或多樣性。生成對抗網絡(GAN)是一種ML數據增強技術,它可以從數據集中學習樣本的分布,并產生合成的復制,被稱為 "深度偽造"。這項研究探討了GAN增強的無人駕駛飛行器(UAV)訓練集是否能提高在所述數據上訓練的檢測模型的可推廣性。為了回答這個問題,我們用描述農村環境的航空圖像訓練集來訓練"你只看一次"(YOLOv4-Tiny)目標檢測模型。使用各種GAN架構重新創建幀中的突出目標,并將其放回原始幀中,然后將增強的幀附加到原始訓練集上。對航空圖像訓練集的GAN增強導致YOLOv4-微小目標檢測模型的平均平均精度(mAP)平均增加6.75%,最佳情況下增加15.76%。同樣,在交叉聯合(IoU)率方面,平均增加了4.13%,最佳情況下增加了9.60%。最后,產生了100.00%的真陽性(TP)、4.70%的假陽性(FP)和零的假陰性(FN)檢測率,為支持目標檢測模型訓練集的GAN增強提供了進一步證據。

引言

對從移動平臺上獲得的數據進行圖像和視頻分類技術的調查,目前是計算機視覺領域中一個越來越受關注的領域。由空中飛行器收集的圖像對于收集信息和獲得對環境的洞察力非常重要,否則在地面上的評估是無法實現的。對于訓練目標檢測模型來說,用于創建這些模型的訓練集的一個重要特征是這些訓練集必須在其圖像中包含廣泛的細節多樣性。過去的數據增強技術,例如旋轉、添加噪音和翻轉圖像,被用來增加訓練集的多樣性,但由于它們無法向數據集添加任何新的圖像,所以是弱的方法。研究新的圖像增強和分類方法,其中包括機器學習(ML)技術,有助于提高用于航空圖像分類的模型的性能。

1.1 背景與問題陳述

1.1.1 背景

最近,使用ML算法對圖像進行分類或預測的情況越來越多。雖然ML已經被使用了幾十年,但在圖像上,我們看到合理的進展是在過去的20年里。隨著信息收集和存儲的技術進步及其可及性的擴大,可用于分析的數據量正以指數級的速度增長。計算機的隨機存取存儲器(RAM)和硬件存儲的增加迎合了擁有巨大的數據集來訓練、測試和驗證ML模型以實現較低的偏差和變異的需要。技術上的其他進步來自于計算機圖形處理單元(GPU)的改進,它允許以更快的速度處理大量的數據,這是實時圖像處理的兩個重要能力[2]。

人工神經網絡(ANNs)是ML的一個子集,其靈感來自于大腦中神經元的生物結構,旨在解決復雜的分類和回歸問題[3]。深度學習是ANNs的一個子集,它創建了多個相互連接的層,以努力提供更多的計算優勢[3]。卷積神經網絡(CNN)是ANN的一個子集,它允許自動提取特征并進行統一分類。一般來說,CNN和ANN需要有代表性的數據,以滿足操作上的需要,因此,由于現實世界中的變化,它們往往需要大量的數據。雖然在過去的十年中收集了大量的數據,但微不足道和不平衡的訓練數據集的問題仍然阻礙著ML模型的訓練,導致糟糕的、有偏見的分類和分析。相對較小的數據集導致了ML模型訓練中的過擬合或欠擬合。過度擬合的模型在訓練數據上顯示出良好的性能,但在模型訓練完成后,卻無法推廣到相關的真實世界數據。通過提供更大、更多樣化的訓練數據集,以及降低模型的復雜性和引入正則化,可以避免模型過擬合[4]。

過度擬合的模型不能學習訓練集的特征和模式,并對類似的真實世界數據做出不準確的預測。增加模型的復雜性可以減少欠擬合的影響。另一個克服模型欠擬合的方法是減少施加在模型上的約束數量[4]。有很多原因可以說明為什么大型、多樣的圖像集對訓練模型以檢測視頻幀中捕獲的目標很有用。當視頻取自移動平臺,如無人機或汽車時,存在Bang等人[5]所描述的進一步問題。首先,一天中拍攝圖像的時間以及天氣狀況都會影響亮度和陰影。其次,移動平臺收集的圖像有時會模糊和失真,這是因為所使用的相機類型以及它如何被移動平臺的推進系統投射的物理振動所影響。移動平臺的高度、太陽角度、觀察角度、云層和距離,以及目標的顏色/形狀等,都會進一步導致相機采集的樣本出現扭曲的影響。研究人員忽視這些參數的傾向性會導致模型在面對不同的操作數據時容易崩潰。這些因素使得我們有必要收集大量包含各種特征、圖像不規則性和扭曲的視頻幀,以復制在真實世界的圖像收集中發現的那些特征,從而訓練一個強大的目標檢測和分類模型。

為了增加圖像的多樣性,希望提高在數據上訓練的分類模型的結果準確性,可以使用數據增強技術來扭曲由無人駕駛飛行器(UAV)收集的圖像。目前的一些數據增強技術包括翻轉、旋轉或扭曲圖像的顏色。雖然這些增強技術可以在數據集中引入更多的多樣性,但它們無法為模型的訓練提供全新的框架實例。

生成性對抗網絡(GAN)是一種ML技術,它從數據集的概率分布和特征中學習,以生成數據集的新的合成實例,稱為 "深度假象"。GAN的實現是一種更強大的數據增強技術,因為它為訓練集增加了新的、從未見過的實例,這些實例仍然是可信的,并能代表原生群體。為ML模型提供這種新的訓練實例,可以使模型在實際操作環境中用于檢測時更加強大。

1.1.2 問題說明

圖像采集面臨的一個普遍問題是沒有收集足夠大和多樣化的訓練和測試數據集來產生高效的ML模型。這些微不足道的訓練集所顯示的多樣性的缺乏,使模型在用于實時檢測時表現很差。找到增加這些數據集的方法,無論是通過額外的數據收集還是其他方法,對于創建一個強大的、可歸納的模型都很重要。

計算機視覺中的第二個問題是傳統的數據增強技術所產生的圖像多樣性增加不足。通過旋轉、翻轉或調暗每一個收集到的視頻幀來增強數據集,不能為訓練集增加任何額外的實例,這與上面提到的第一個問題相矛盾。需要找到一種新的數據增強技術,在不需要收集更多數據的情況下提供新的實例,這對于快速訓練檢測模型以便在快速變化的操作環境中部署非常重要。

1.2 研究問題

本研究試圖回答以下問題:

1.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高卷積神經網絡(CNN)目標檢測模型的分類精度和可推廣性?

2.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高CNN目標檢測模型的定位和通用性?

3.從未增強的數據集和增強的數據集中可以得出什么推論,顯示它們的相似性和不相似性?

提供支持第一和第二個問題的證據可以改變數據科學家進行數據收集的方式,并將他們的努力轉向使用GAN的增強技術來創建用于ML研究的數據集。該模型不僅要能夠對目標進行分類,而且要訓練一個強大的目標檢測模型,使其能夠在圖像中找到感興趣的目標,并具有較高的交叉聯合(IoU)值,這就驗證了該模型能夠找到移動的目標,這些目標在捕獲的幀中的位置各不相同。一個模型的泛化是指該模型對網絡從未見過的輸入進行準確預測和分類的能力[6]。增強的數據集必須在質量和數量上與原始數據集相似,以證明模型泛化能力增強的斷言。

對最后一個問題的回答提供了理由,即來自GAN的增強對象在性質上是否與原始樣本相似,并且是對現實世界環境中發現的東西的合理復制。同類目標之間的高相似率可能會使GAN增強變得脆弱,需要進一步研究以用于實際應用。

1.3 研究的局限性

本研究的最大限制之一是能否獲得適當的硬件和軟件來實現不同的ML算法。雖然ML模型可以在中央處理器(CPU)上執行,但本論文中的模型在單個CPU上運行需要幾天,甚至幾周的時間。在運行深度學習模型時,GPU的效率要高得多,尤其是那些為圖像探索設計的模型。在整個研究過程中,GPU的使用非常有限,這給CNN和GAN模型的復雜性增加了限制,也增加了每個模型完成訓練迭代的時間。模型不可能同時運行,大大增加了本論文的完成時間。

另一個限制是本研究過程中可用的內存和硬盤內存的數量。內存不足進一步導致了模型復雜性的下降,以及模型在研究的訓練和測試過程中某一時刻可以利用的數據量的下降。這兩個模型組成部分的減少會導致次優模型。在這項研究中,我們采取了一些措施來減輕這些影響,包括選擇參數較少但性能與較復雜的模型相同的高水平的模型。此外,在訓練和測試過程中,將數據集劃分為多個批次,有助于緩解RAM和硬盤內存問題。

1.4 論文組織

本章討論了本論文將集中研究的ML的一般領域,以及概述了ML研究中出現的好處和限制。第2章提供了一個文獻回顧,研究了CNNs和GANs的理論。此外,它還提供了使用CNNs、GANs和從無人機收集的圖像幀進行的相關研究。第3章詳細介紹了數據集增強前后的CNN檢測模型的訓練過程。第4章提供了用于增強訓練集的合成目標的細節。第5章介紹了在原始和增強的訓練集上訓練的最佳模型的評估結果。第6章概述了在原始測試集訓練結束后進行的三個不同實驗的方法。第7章回顧了這三個不同實驗的結果。最后,第8章討論了從結果中得出的結論,以及對使用生成性對抗網絡(GANs)對移動平臺獲取的圖像進行數據增強領域的未來研究建議。

付費5元查看完整內容

美國海軍和國防部(DOD)正在優先考慮在各戰爭領域迅速采用人工智能(AI),以保持對美國有利的技術優勢。機器學習(ML)是最近人工智能發展的基礎,它存在著一個持續的、沒有得到充分解決的關鍵缺陷:對抗性樣本。自2013年發現以來,在深度神經網絡(DNN)分類器中出現了許多新形式的對抗性樣本攻擊,并提出了許多狹義和特殊的防御措施。這些防御措施都沒有經受住反測試。一些研究人員提出,這種易受攻擊性可能是不可避免的。到目前為止,還沒有發現有效的、可計算的、通用的方法,可以加固DNN,使其免受這種和相關的泛化問題的影響。我們的前提是,ML模型對所有對抗性樣本的魯棒性與抵抗力,可以通過將模型分類空間數據密集區之間的數據點稀疏的潛在空間,作為障礙隔離來改進。我們研究了兩種不同的方法來實現這種對基于對抗性樣本的攻擊防御,測試這些防御對最有效的攻擊,并將結果與現有的技術狀態的防御進行比較。

第一章 引言

人工智能(AI)已被提出來作為推進國防部能力的一個關鍵推動因素。人工智能國家安全委員會在其最終報告中寫道:"如果我們的武裝部隊不加速采用人工智能,他們的軍事技術競爭優勢可能會在未來十年內喪失",建議 "美國現在必須采取行動,將人工智能系統投入使用,并在人工智能創新方面投入大量資源,以保護其安全,促進其繁榮,并保障民主的未來" [1]。鑒于人工智能或更具體地說,深度神經網絡(DNN)中的機器學習(ML)最近在科學和工業領域取得了廣泛的突破,這種關注無疑是恰當的。然而,在國防應用中利用ML和其他現代 "深度學習 "方法并非沒有其固有的附加風險。

最近的人工智能主張已經近乎夸大其詞;當然,在與軍事和文職領導層的高層溝通中,也發生了一些夸大其詞的情況。作為這種夸張的例子,參考一下《2019年美國總統經濟報告》是如何向美國領導人介紹機器視覺方面的人工智能狀況的。在第343頁題為 "2010-17年人工智能和人類的圖像分類錯誤率 "的圖表中,它顯示了 "人類分類 "錯誤率與機器分類錯誤率將在2015年超過人類圖像分類能力。對這一說法仔細考慮并對參考研究甚至是當前最先進研究進行檢查,顯示這一特殊的發展仍然是一個遙遠的、尚未達到的里程碑。

1.1 深度學習的突破

即使ML仍然存在挑戰,近年來,機器學習在科學、工業和商業領域的成功應用也在急劇增加。深度神經網絡已經在自然語言處理、天文學、癌癥診斷、蛋白質折疊、語音識別和機器視覺等不同領域取得了巨大的進步[2]-[8]。因此,這類系統的潛在軍事應用同樣比比皆是:分析頻譜上下的聲學和電磁傳感器數據、機器視覺、尋找-修復-跟蹤和瞄準對手的飛機、地下、水面和陸地戰斗人員、人類語言處理、語音識別、自主空中/地面/地下/陸地車輛、信息戰、情報、監視和偵察(ISR)整合、機器人技術、網絡防御、網絡攻擊、戰術決策輔助,等等。

1.2 深度學習的脆弱性

盡管這項技術帶來了巨大進步,但目前的ML分類方法創建的模型在其核心上是有缺陷的,因為它們非常容易受到對抗性樣本攻擊和相關欺騙技術的影響[9]。廣義上講,文獻中定義的這類攻擊有三類:探索性攻擊、逃避性攻擊和中毒性攻擊。在本報告中,我們主要關注防御我們認為最關鍵的需求,即逃避攻擊。為了提供背景,我們簡要地概述了這三種攻擊。探索性攻擊,對手并不試圖實現錯誤分類,而是試圖通過精心設計輸入來獲得模型的知識,這些輸入的結果將提供關于模型內部狀態的信息,其目的是減少模型的不確定性,以支持未來的攻擊。中毒攻擊試圖在訓練期間修改模型,以偷偷地完成模型的一些未被發現的行為變化。最后,在逃避攻擊中,攻擊者不知不覺地修改了人工制定或模型的輸入,以產生分類的變化,從良性的或最初設定的類別到一些其他的、欺騙性的不真實的類別[10]。這最后一類是我們防御的重點,從這一點出發,我們把這些簡單地稱為對抗性樣本攻擊[11]。

自從2013年最初發現DNN分類器中的對抗性攻擊(逃避)以來,已經出現了許多種這樣的攻擊,并且至少提出了同樣多的狹義的特定防御措施作為回應。不幸的是,到目前為止,所提出的防御措施沒有一個能經受住反測試和適應性攻擊[12]。一些研究人員提出,這種易感性可能是空間中問題表述的一個不可避免的特征[13]。目前,還沒有發現一種有效的、計算上可接受的、通用的方法,可以支撐DNN對抗類似的相關的泛化問題[12], [14]。

1.3 國防部(DoD)的影響

在國防部的范圍內,大家都承認欺騙在戰爭中起著核心作用。因此,戰爭系統必須被設計成對欺騙有高度的適應性[15]。馬基雅弗利在“Prince”中寫道:"......雖然在任何行動中使用欺騙都是可憎的,但在發動戰爭時,它是值得稱贊的,并能帶來名聲:用欺騙征服敵人與用武力征服敵人一樣受到稱贊。" 對孫子來說,這甚至是更重要的因素,"所有的戰爭都是基于欺騙"。在國防應用中,至關重要的是,不僅系統在戰斗開始時就如設計之處那樣工作,而且它們應該具備有彈性對狡猾的、有同樣資源和動機的對手的潛在計劃。

誠然,ML在民用和科學方面已經取得了巨大的成功。盡管民用工業技術領域與軍事技術需求有很大的內在交集,但應該注意到,后者并不是前者的完美子集。也就是說,戰爭的現實要求其技術必須為虛假信息和故意欺騙的行動、展示和通信做好準備。這兩個領域之間的這些不同假設意味著,在一個領域已經準備好的東西,在另一個領域可能還沒有準備好。在整個國防部,納入這些技術的系統正在被考慮、開發,在某些情況下已經被采用,目的是增強或取代我們一些最關鍵的國家安全能力。在軍事應用中,特別是武器系統和殺傷鏈內的系統,必須消除或至少減少對抗樣本,并對其進行補償,使故障呈現最小的風險。其余的風險必須被明確指出、發現并被作戰人員充分理解。不仔細和充分地解決這個問題是不可想象的,否則我們就有可能采用脆弱性技術,將災難性的漏洞引入我們關鍵戰爭系統。

1.4 增強防御措施

在防御基于機器學習技術的系統不受欺騙的潛在戰略背景下,我們介紹了一種防御措施。我們的前提是,ML模型對所有對抗性樣本的魯棒性與抵抗力,可以在模型分類器的分類空間數據密集區之間的數據點稀疏潛在空間中插入一個 "填充 "或 "屏障 "的方法來提高[13], [16]。我們相信,通過統計學插值或采用變分自動編碼器(VAE)[17]或生成對抗網絡(GAN)[18]來插值和投射到這個空間的模型可以創建人工填充類樣本來增加數據集,所產生的模型將能夠成功地區分合法數據點和對抗性樣本,同時保持與最先進分類方法相稱的準確性。

付費5元查看完整內容

摘要

在 2016 年人工智能促進協會 (AI) 發表的講話中,當時的協會主席呼吁 AI 為了魯棒性而犧牲一些最優性 [1]。對于 AI,魯棒性描述了系統在各種情況下保持其性能水平的能力 [5]。通過機器學習開發和驗證高質量模型面臨著特殊的挑戰。一般公認的大多數人工智能需要魯棒的原因包括:

? 訓練和運行數據的不確定性;

? 輸入來自不同訓練集,但在統計上或語義上與訓練群體一致;

? 訓練群體之外的輸入;

? 用有限的數據學習;

? 面對新穎的情況,需要不同于學習策略和分類器的開發方式;

? 對抗性行動。

此外,對于人類 AI 協作團隊,人類必須適當地信任 AI 系統;因此,透明度也可以被視為魯棒性問題。混合戰爭為人工智能的魯棒性帶來了額外的挑戰。決策的不同性質和必要的決策支持擴大了所需模型的范圍。在不同條件下開發的模型組合使用會影響可以對復合系統質量做出的統計聲明。

如果我們需要魯棒性,我們必須考慮它的度量。對與上述條件相關的魯棒性研究的調查,提供了一系列可能的措施。北約聯盟實施的混合戰爭需要了解所使用能力的魯棒性。在本文中,我們從當前文獻中調查了魯棒性度量的前景。在這樣做的過程中,我們有助于了解聯盟內部各種模型和軟件的組合。

1 引言

現代混合戰爭不僅包括傳統戰爭,還包括政治和網絡戰爭(以及其他),其越來越依賴人工智能 (AI) 在日益復雜的環境中執行任務。許多現代 AI 實現都是使用機器學習 (ML) 技術構建的,使用數據旨在來表示預期的情況。這意味著:

? 大多數當前的 AI 構建塊都是為特定目的而構建的,雖然旨在泛化以支持現實世界的輸入,但并不總是能夠處理不熟悉的情況(輸入)。它們是“黑盒”設計,可以實時或近乎實時地執行復雜的決策或環境解釋(分類),但通常只能為已知輸入產生可靠的答案。

? 如果提供以前從未見過的信息或通過人類可能察覺不到的攻擊,人工智能構建塊通常很容易被愚弄和混淆。

從本質上講,我們正在處理的是一個易受影響的問題:現代 ML 解決方案,實際上還有其他 AI 解決方案,本質上很容易被他們不熟悉的數據所欺騙 [2] [3]。例如,這使得依賴于它們的指揮和控制 (C2) 決策樹邏輯容易發生故障。當然,我們想知道如何通過確保利用人工智能的 C2 對故障具有魯棒性來保護自己免受此類漏洞的影響。

總結:

? 許多機器學習方法天生就容易受到環境變化和攻擊的影響;

? 因此,依賴機器學習(主要基于神經網絡(NN))的人工智能系統本質上是脆弱的;

? 因此,必須使依賴人工智能的混合戰爭變得強大。

1.1 魯棒性

ML 方法的訓練和運行都基于以下幾個方面:(1)輸入數據,(2)內部結構,以及(3)學習算法。機器學習的脆弱性可能是由許多因素造成的。出于本文的目的,我們假設網絡內部結構是靜態的、足夠強大且安全的,雖然還有許多其他因素,但我們考慮了兩個主要方面:(a) 訓練數據不佳,(b) 以前未使用的業務數據。因此,我們的重點是 ML 解決方案的輸入數據。

天真地,我們假設 ML 方法(尤其是 NN)是使用高質量(“好”)輸入數據訓練的:在運行期間可能期望 選擇性表示AI 處理的輸入范圍。這個想法是,在運行過程中,人工智能可以為運行數據產生“正確”的決策,這些決策與訓練它的數據相似。換句話說,人工智能必須能夠進行插值,并且在某種程度上還可以推斷其原理。

在最壞的情況下,糟糕的訓練數據會導致訓練出不符合目的的機器學習模型,或者在最好的情況下會導致生成“愚蠢”的模型;也就是說,只能做出具有高度不確定性的模糊決定。然而,在數據質量范圍的另一端也存在危險,因為雖然“好的”訓練數據可能會產生一個可以做出非常準確的決策的模型,但它可能只能使用窄范圍的輸入數據來做到這一點。當然,我們希望機器學習既能滿足其性能要求,又能適應它最初沒有訓練過的新環境;即能夠處理新穎事物場景。

因此,ML 的一個重要目標是構建一種泛化良好的能力。在狹窄的應用程序中,我們希望確保在環境樣本上訓練過的模型能夠像宣傳的那樣在整個環境中工作。最終,我們希望人工智能面向復雜環境的處理能力,可針對所有現實,或者至少是人類感知的所有現實。從某種意義上說,這完全涵蓋了所有情況,沒有新的情況。如果我們觀察牛頓宇宙并且擁有巨大內存量,那么所有情況都可以從當前數據中預測出來。但是,由于我們對宇宙建模的能力受到嚴重限制,因此可能會經常出現新穎情況。在不可能為復雜環境訓練模型的前提下,當這些模型被引入現實世界時,模型應該能應對各種突發情況。

因此,表征模型的魯棒性具有挑戰性,需要考慮模型的不同方面的魯棒性。雖然有許多可用的魯棒性定義,但應區分用于傳統軟件魯棒性的定義,例如 IEEE 24765[4] 的定義,以及與 AI 模型相關的定義。本文中使用 ISO CD22989 [5] 中提供的定義:

魯棒性是“系統在任何情況下保持其性能水平的能力。魯棒性屬性表明系統有能力(或無能力)在新數據上具有與訓練它的數據或典型運行數據相當的性能。”

1.1.1 魯棒性度量

在定義了術語“魯棒性”之后,由于本文的重點是魯棒性度量,我們現在將定義術語“度量”,應用于魯棒性。為了在編寫定義時為我們的思考過程提供信息,確定度量魯棒性可能具有的各種目的以及利益相關者可能是誰,是有用的。由于魯棒性度量的目的和要求將取決于 ML 模型的生命周期階段,因此我們分析了生命周期階段的目的。

盡管許多 ML 模型將基于 NN,但我們的分析擴展到涵蓋 ML 類型和架構的不同變體,并指出 ML 的主要變體是:NN、決策樹和強化學習。

在 ML 模型設計和開發階段,開發人員將試驗模型設計并調整模型的架構和參數,以優化模型的性能。在這個階段,魯棒性度量的目的既可以是提供一種在進行這些更改時度量魯棒性改進的方法,也可以描述模型如何表現魯棒性。此外,不同模型的開發人員之間商定的度量標準將允許在模型設計之間進行可靠的比較。

在系統設計階段,在選擇現成的ML模型納入整個系統時,度量魯棒性將通過提供一種方法來比較一個模型與另一個模型的魯棒性水平和性質,從而為系統設計者提供關于模型選擇的決策信息。

在部署之前,安全從業人員將使用魯棒性度量來為包含 ML 的系統的安全風險評估提供信息。具體來說,該度量將為 ML 模型的漏洞分析提供信息,若該模型具有低魯棒性,則表示攻擊者可以利用漏洞。

最后,在部署階段,從單個 ML 組件的魯棒性度量中得出的整體系統魯棒性度量,將支持最終用戶對系統輸出或行為的信任和信心。

鑒于上述使用范圍和相關利益者,出于本文的目的,我們將有意保留術語“度量”的寬泛定義。我們的定義超出了純粹的測量或量化行為,包括我們如何描述或表征 ML 在任何特定環境中的魯棒性。因此,我們將本文的其余部分基于以下定義:

魯棒性度量是 ML 模型在其生命周期中可能面臨的各種挑戰的魯棒性的度量或表征。特定度量的精確性質將取決于 ML 模型的類型、模型旨在完成的任務、以及模型所處生命周期的階段。

1.2 方法論和論文結構

在考慮魯棒性度量時,我們通過提出“面對……什么的魯棒性?”這個問題開始分析。這生成了一個 ML 模型可能面臨的情況列表,在這些情況下,它們的魯棒性可能會受到挑戰。我們稱這些為“面對”條件。

? 訓練和運行數據的不確定性;

? 不同于訓練集的輸入,但在統計上或語義上與訓練群體一致;

? 訓練群體之外的輸入;

? 用有限的數據學習;

? 新穎的情況,不同于學習策略和分類器的開發方式;

? 對抗性行動;

我們的文獻檢索提供了許多關于魯棒性的先前研究,對于每一項,我們都試圖確定它們適合哪些類別。雖然這并不總是顯而易見的,但它似乎代表了一種構建分析合乎邏輯的方式。因此,在以下段落中,我們嘗試以這種方式對文獻檢索中的單個研究進行分類。

對于每個類別,我們描述了每個魯棒性挑戰的性質和細節,然后是用于度量魯棒性的度量指標類型。盡管本文中對魯棒性的審查不包括混合戰爭示例,但所討論的內容適用于混合戰爭方法。

2 挑戰和度量方法

2.1 訓練和運行數據的不確定性

能夠處理訓練和運行數據中的不確定性對于 AI 來說至關重要,它代表了當前 ML 系統的關鍵組成部分,尤其是那些在軍事領域等危急情況下使用的系統。

2.1.1 挑戰

在 ML 中,目標是在給定的成本函數情況下,學習最適合訓練數據的模型參數。然后,部署該模型以獲取對新數據和未見過數據的預測。作為訓練過程的結果,任何學習模型都帶有不確定性,因為它的泛化能力必然基于歸納過程,即用數據生成過程的一般模型替換特定觀察[6]。盡管研究界做出了許多努力,但沒有任何現有的 ML 模型被證明是正確的,因為任何可能的實驗都嚴重依賴于假設,因此當受到以前未見的輸入數據影響時,每個當前的 ML 模型輸出仍然是不確定的。

不確定性在統計領域有著悠久的歷史,從一開始,它就經常被聯系起來并被視為一個類似于標準概率和概率預測的概念。然而,在最近,由于當前對 ML 的炒作以及如今基于此類解決方案的系統正在控制我們的日常生活,研究界對此類概念的興趣越來越大。這首先是出于安全要求,為此需要新的方法來應對。

在現有文獻中討論 ML 不確定性的不同方法中,可以根據所考慮的不確定性類型對它們進行聚類。當前的大多數作品都解決了偶然或認知不確定性。

2.1.1.1 偶然和認知不確定性

對 ML 中的不確定性進行建模的傳統方法是應用概率論。這種概率建模通常處理單個概率分布,因此忽略了區分偶然不確定性和認知不確定性的重要性 [7] [8]。

偶然不確定性:我們可以將其稱為統計不確定性,它源于實驗結果可變性的隨機性概念。簡而言之,當提到偶然不確定性時,我們隱含地指的是即使存在任何其他信息源也無法減少的不確定性。讓我們通過一個非常基本的例子來描述這一點:假設我們想要模擬拋硬幣的概率結果。我們可以定義一個概率模型,該模型能夠提供頭部或尾部的概率,但不能提供保證的結果。這種不確定性定義了總不確定性的不能復歸的部分。

認知不確定性:也稱為系統不確定性,這是由無知/缺乏知識決定的總不確定性的一部分。這種不確定性是由于機器學習系統的認知狀態造成的,并且可以通過附加信息來減少。例如,假設我們有一個 ML 模型學習一門新語言,并且給它一個新詞,它應該猜測它是指頭還是尾。智能體對正確答案的不確定性與預測拋硬幣時一樣不確定,但是通過在情況中包含額外信息(即提供同義詞或解釋單詞的正確含義),我們可以消除任何不確定性在答案中。因此應該很清楚,與偶然性相反,認知不確定性定義了總不確定性的可還原部分。

既然我們已經定義了偶然不確定性和認知不確定性,我們將考慮有監督的 ML 算法以及這兩種不同類型的不確定性如何在 ML 中表示。

在監督學習環境中,我們可以訪問由 n 個元組 (xi,yi) 組成的訓練集 D = {(x1,y1),…,(xn,yn)},其中 xi (屬于實例空間 X)是包含特征的第 i 個樣本 (即,測量值),而 yi 是來自可能結果集 Y 的相關目標變量。

在這種情況下,ML 算法具有三個不確定性來源:

? 偶然不確定性:通常,X 和 Y 之間的相關性不是確定性的。因此,對于給定的輸入 xi,我們可以有多個可能的結果。即使存在完整的信息,實際結果 yi 也存在不確定性。

? 模型不確定性:為解決給定問題而選擇的模型可能遠非最適合該任務的模型。這是由于模型的正確性和假設的正確性存在不確定性。

? 近似不確定性:通過優化過程學習的模型參數只是對真實假設的估計。這種估計是由于在學習過程中使用的數據缺乏保真度。

模型和近似不確定性都代表認知不確定性。

應該注意的是,對于 ML 算法,偶然不確定性和認知不確定性在很大程度上取決于環境。例如,通過允許學習過程改變最初定義的場景的可能性,可以減少偶然不確定性以支持認知不確定性;也就是說,原始環境中的偶然不確定性并沒有改變,而是通過改變環境而改變(類似于在擲硬幣的例子中加權硬幣的一側)。相反,如果我們考慮一個固定的初始場景,我們知道認知不確定性(即缺乏 ML 算法知識)取決于學習過程中使用的數據量(多少觀察)。由于訓練樣本的數量趨于無窮大,機器學習系統能夠完全降低逼近不確定性。

2.1.2 表示不確定性的機器學習方法

表示不確定性的不同 ML 方法具有不同的能力,可以根據以下內容進行聚類: (i) 表示不確定性的方式; (ii) 如果處理兩種類型的不確定性(偶然性和認知性)中的兩種或僅一種; (iii) 如果他們提供了任何可用于提供不確定性數量粗略估計的解決方案。

2.1.2.1 高斯過程

高斯過程 (GP) [9] 是一種用于監督學習的通用建模工具。它們可用于泛化多元隨機變量的貝葉斯推理和函數推理。在分類的情況下,GP 具有離散的結果,不確定性定義的困難在于知識的表示,然后將其識別為模型的認知不確定性,就像在貝葉斯方法中一樣。在回歸的情況下,可以將偶然不確定性(即誤差項的方差)與認知不確定性區分開來。

2.1.2.2 最大似然估計和Fisher信息數

在機器學習中,最大似然估計原理起著關鍵作用。事實上,如果一個模型可以“非常接近”似然函數的最大值,這意味著數據的微小變化可能對估計的影響有限。如果似然函數是平滑的,它可能是一個很好的指標,表明估計存在高度的不確定性,這可能是由于許多參數的配置具有相似的似然性。

在 ML 中,我們經常利用 Fisher 矩陣 [10] 來表示認知不確定性的數值 [11]。

2.1.2.3 生成模型

生成模型可用于量化認知不確定性。考慮到這些方法的概率性質,這些方法旨在模擬數據分布的密度,通過確定給定數據是否位于高密度或低密度區域,這些模型隱含地提供有關認知不確定性的信息。這一類別中最相關的工作是基于核密度估計或高斯混合,最近在深度自動編碼器方面取得了一些進展[12]。

密度估計是處理異常和異常值檢測方法的關鍵要素,后者只是一個分類問題,當樣本位于低密度區域時,它被認為是分布之外的問題。這樣的成果反而捕捉了偶然的不確定性。

一般來說,生成模型解決了一個非常具有挑戰性的問題,需要大量數據才能正常工作,并且通常具有很高的不確定性。

2.1.2.4 深度神經網絡

人工深度神經網絡 (DNN) 本質上是一個概率分類器,我們可以將訓練 DNN 的過程定義為執行最大似然推理。這導致模型能夠生成給定輸入數據的概率估計,但不能提供有關其概率置信度的詳細信息:捕獲了偶然的不確定性,而沒有捕獲認知。盡管如此,后者通常被稱為模型參數的不確定性。在文獻中,最近有一些作品 [13] [14] 試圖通過將貝葉斯擴展引入 DNN 來模擬這種認知不確定性。

2.1.2.5 模型集成

模型集成(Model Ensembles )模型類的常見示例是 bagging 或 boosting。這種方法非常受歡迎,因為它們可以通過產生一組預測而不是單個假設來顯著提高點預測的準確性[15]。可以包含在此類中的最相關的工作是隨機森林模型 [16]。此類別中的方法主要關注整體不確定性的任意部分。

2.1.2.6 Credal 集和分類器

Credal 集(Credal Sets)是一組概率分布,它是貝葉斯推理推廣的基礎,其中每個單一的先驗分布都被一個候選先驗的Credal 集所取代。作品 [17] [18] 研究如何定義Credal 集的不確定性以及相關表示,定義了存在于Credal 集中的兩種類型的不確定性:由于隨機性導致的“沖突”和“非特異性”。這些直接對應于任意和認知的不確定性;通常使用 Hartley 函數 [19] 作為標準不確定性度量; [20] 還定義了一種工具,可用于評估 ML 系統在面對訓練和操作數據的不確定性時的魯棒性。如果我們知道給定隨機變量的未知值在給定的有限集中,Hartley 函數可用于評估不確定性。此外,已經通過類似 Hartley [80] 和廣義 Hartley [81] 措施提出了對無限集的擴展。

2.2 與訓練集不同但在統計上或語義上與訓練群體一致的輸入

在運行期間,分類器為輸入數據的每個樣本分配一個類標簽。考慮到上述魯棒性的定義,類內可變性,即分配到同一類的所有樣本之間的可能變化,隱含地包含在用于學習分類器的訓練數據集中。

2.2.1 對語義數據變體的魯棒性

使用更具建設性的方法來定義魯棒性有助于更好地模擬用戶對分類器性能的期望。為此,如果分類器對于輸入數據的所有有意義的變體是不變的,我們將暫時稱其為魯棒分類器。顯然,所有有意義的變體的集合取決于應用場景,這通常很難描述。然而,對于許多分類問題,這種有意義的變體可以分為兩類:(i)物理修改(例如,噪聲添加、混合失真、裁剪、旋轉、縮放)和(ii) 輸入樣本的語義修改(例如發音的不同方式)。圖 1(1) 說明了手寫數字分類示例的這兩類可能變體。我們考慮書寫數字“9”的不同變體。而(如圖 1 所示)噪聲添加 (a) 和混雜失真 (b) 可被視為屬于第一類,第三類 (c) 在數字“9”上添加一個小弧線是有意義的(句法)變體,特別是不同國家的當地文化,它使符號(“九”)的語義保持不變。

圖 1 (1) 手寫數字 9 的可能數據變體,(2) 使用變分自動編碼器 (VAE) 重建的數字 3、8、9 的空間,該編碼器對來自 MNIST 語料庫的各個數字進行訓練,(3) 對應的潛在空間表示顏色編碼數字類型。

2.2.1.1 物理魯棒性

AI/ML 相對于第一類變體的魯棒性,尚未得到令人滿意的解決,但近年來已在相當程度上得到解決。在許多涉及對第一類變體的魯棒性的出版物中,基礎數據樣本被建模為歐幾里得向量空間中的向量。然后通過將范數有界向量添加到數據樣本來對失真進行建模。這里,通常使用 Lebesguetype 范數(lp norms)(特別是 l1、l2 和 l∞)。在一篇被廣泛引用的論文 [20] 中表明,這種 l2 范數有界的“對抗性攻擊”可用于在基于神經網絡的分類器中導致錯誤分類。隨后,在對抗性攻擊和相應的保護方法領域做了很多工作(本文稍后將進一步詳細討論)。結果表明,在許多情況下,攻擊很難檢測到,并且對于當時最先進的方法,可以繞過檢測 [21]。顯然,在這種情況下的魯棒性需要保護免受對抗性攻擊。在這種對抗性攻擊環境中定義魯棒性的許多方法可以在一個通用框架下捕獲,如 [22] 所示。

2.2.1.2 語義魯棒性

第二類,數據樣本的語義上有意義的變體,導致了迄今為止很大程度上尚未解決的重大挑戰。相應地,在[68]中,對所謂的感知擾動的魯棒性被稱為一個開放的研究問題。盡管現代基于 AI 的分類器,特別是深度神經網絡,在眾所周知的公共分類挑戰上取得了破紀錄的改進,但相比之下,它們的判別性自然不會導致分類結果的易解釋性。近年來,整個研究分支都集中在可解釋的 AI 上,即,研究通過給定分類器對映射到相同類別的樣本集進行形式化甚至語義化的方法。

理解分類器語義的一個重要方法是將成功的判別分類器與生成模型結合起來。生成方法的優點是可以使用這些模型生成來自原始(樣本)空間的示例。一種結合分類器和生成模型的成功方法是生成對抗網絡(GAN)[24]。

也可以適用于分類的生成模型是(變分)自動編碼器(VAE)[25]。自動編碼器的基本思想是通過訓練一個深度神經網絡來學習原始數據的緊湊表示,該網絡在兩端具有全維(相對于原始數據)層,中間有一個稀疏的“瓶頸”層。圖 1 (2) 和 (3) 說明了如何使用 VAE 來“理解”網絡學習的類別:(2) 顯示了一組具有代表性的重構,這些重構是由經過訓練的 VAE 的生成部分獲得的,用于對 MNIST 數據集的數字“3”、“8”和“9”進行分類。因此,在某種意義上,(2)總結了分類器準備識別的內容。在圖 1 的右側,(3)顯示了從 VAE 的分類器分支獲得的輸入樣本(即 MNIST 數字)的潛在空間表示。顏色對三個數字進行編碼。潛在空間點和重構樣本之間的對應關系如箭頭所示。在藍色中,繪制了將 9 的流形與其他數字分開的曲線,以指示學習的分類邊界。考慮到這個例子,我們注意到上述變體 (c) 在重建部分 (2) 中沒有很好地表示 - 考慮到語義庫受到北美書寫數字風格的偏見,這并不奇怪。因此,為了使分類器對變化 (c) 具有魯棒性,必須應用額外的措施,例如增加或添加到訓練數據中。

基于生成模型,Buzhinsky 等人[26] 提出了幾個指標來衡量分類器對“自然”對抗樣本的魯棒性。為此,他們提出了一組在潛在空間中工作的六個性能指標,并隨后顯示了上述經典對抗魯棒性和“潛在對抗魯棒性”之間的聯系,即對潛在空間擾動的魯棒性。后者的有趣之處在于,幾個示例的潛在空間擾動已被證明與原始樣本空間中語義上有意義的變體相對應。

我們注意到經典的對抗魯棒性已經可以用于獲得關于小范數有界擾動的人工智能分類器的“認證”魯棒性。然而,語義魯棒性更難以形式化,并且與正確理解和建模目標類密切相關。為此,生成模型是一個重要的工具。諸如投影信念網絡 (PBN) 等新概念,即基于前饋神經網絡結構的分層生成模型,具有易于處理的似然函數的優勢,在該領域非常有前景 [27]。

最近的一項工作 [75] 涉及一種稱為復雜事件處理的 ML 形式,其中融合了來自多個傳感器的具有空間和時間關系的多模態輸入,以允許深度學習模型推斷特定類型的事件,例如槍聲或爆炸。此類事件被稱為“復雜事件”。因此,魯棒性的概念并不適用于模型本身,而是適用于機器學習功能所包含的整個組件系統。該研究聲稱,(a)人類邏輯在基于模式和序列預定義復雜事件中與(b)來自單個傳感器的深度學習推斷相結合,提高了系統對錯誤分類的魯棒性。

2.3 訓練群體之外的輸入

在 [78]中,Ashmore 等人識別一組關于輸入域及其子集的定義:I 輸入域空間——模型可以接受的輸入集; O,運行域空間——模型在預期運行域中使用時可能預期接收的一組輸入; F,故障域空間——如果系統其他地方出現故障,模型可能接收到的一組輸入; A,對抗域空間——模型在被對手攻擊時可能收到的一組輸入;其中 O、F 和 A 都是 I 的子集。這些定義不僅在考慮訓練群體之外的輸入(可以從 O、F 或 A 中得出)時很有用,而且在推理模型的輸入時更普遍。

小的、像素空間的擾動,人類可能察覺不到,通常使用 lp 范數測量擾動幅度,是評估模型魯棒性的合理方法(將在 2.6 節后面討論);特別是在對抗性攻擊的可能性更高的混合戰爭領域。然而,在考慮評估模型的魯棒性時,這些小擾動不一定適用于 Ashmore 的攻擊域空間 (A) 之外。最近,獨立的工作 [79] [80] 已經開始研究擾動模型的輸入,使其遠離經常討論和研究的小擾動方法,而不是生成被認為與環境相關且人類可區分的擾動:這些擾動看起來會在輸入上引入純粹、模糊或朦朧等(這可以合理地代表來自 F 或 O 的輸入)。

此外,在 [80] 中,作者建議對語義相關的圖像引入有意義的擾動,但這些擾動可能尚未包含在模型訓練集中;例如,例如,將一群鵝引入一個場景,在這個場景中,模型正在識別停車場中的車輛數量。雖然最后一類有意義的擾動顯然是 Ashmore 的輸入域空間 (I) 的一部分,但可以說,如果訓練數據集不足,這些語義相關的擾動也可以被視為運行域空間 (O) 的一部分。有趣的是,[80] 還發現,當增加系統對小擾動的魯棒性時,模型在處理語義上有意義的擾動時可能變得不那么魯棒,因此考慮評估模型對這兩種擾動類型的魯棒性顯然很重要。

為了評估模型對這種語義上有意義或環境相關的擾動的魯棒程度,[80] 的作者提出了一種用于引入擾動的滴定方法,這樣可以逐步測量在模型的準確性變得可疑之前引入擾動(例如,通過其置信度或已知基礎事實的分類變化)。當考慮模型在預期的運行域空間中的應用時,這提供了一個進一步的度量標準來評估模型的魯棒性。

2.4 用有限的數據學習

眾所周知,使用深度學習需要大量數據來學習復雜的任務。如果訓練數據太小,模型會過擬合,泛化能力很差。不幸的是,獲取高質量的訓練數據既困難又昂貴,因為它通常需要人工標記。例如,細粒度的 Cityscapes 數據集平均需要 1.5 小時來標記每個樣本 [28]。此外,與為學術目的(概念驗證、評估、基準測試等)開發的數據集不同,軍事數據集還必須包含代表在現實世界可能發生但難以觀察甚至預測的大量邊緣情況的數據。如果沒有這樣的訓練數據,在可能最重要的時候,或者在條件因敵對行動而意外改變的時候,軍事模型的實際價值將是有限的。

軍事應用的數據采集挑戰是重大的,但也是必須解決的,以確保模型在現實世界中部署時是強大的。幸運的是,許多轉移學習技術[29][30][31]已經被提出,這些技術利用了深度神經網絡可以學習到可轉移的一般特征,因此,可以被其他類似的任務重新使用[32]。預訓練與微調相結合,通常用于利用少量/有限的數據進行學習,同時避免昂貴的大規模模型(如GPT-3)的再訓練,這些模型可能需要專門的硬件來學習。其主要思想是:

1.將預訓練的源模型的一部分復制到目標模型中;

2.向目標模型添加一個或多個隨機初始化的(未訓練的)層,使最后一層與目標的標簽空間相匹配;

3.使用標記的目標域數據訓練模型。

然而,這些技術不能用于軍事數據來自特殊傳感器(如激光雷達、紅外、合成孔徑雷達和高光譜)的情況,這些傳感器很少有預先訓練好的模型,或者過于敏感,甚至在盟友之間也不能共享。

無監督領域適應是另一種轉移學習技術,雖然它在淺層學習中已經被研究了幾十年,但最近在深度學習中也受到了很多關注[33]。使用這種技術,來自源域的標記訓練數據可以用來訓練一個使用目標域的無監督數據模型。該方法假設源域的標記數據成本低且容易獲得。

從軍事角度來看,這個想法很有吸引力,因為源數據有可能是合成的。也就是說,已經存在的模擬器或其他生成模型有可能被改編為不僅能生成完美標記的源數據,還能生成代表邊緣情況的數據,否則很難甚至不可能獲得這些數據。基于模擬的方法將完全消除人類的標記工作,否則可能會導致不正確、有偏見和不完整的數據集,這些數據集在訓練時也會轉移到模型中。使用無監督領域適應性來彌補 "模擬到真實"的差距(sim2real)正在積極進行[34][35],使用各種技術,其中許多依賴于使用對抗性方法,如領域損失函數[36][37]和生成性對抗網絡(GANs)[38][39]。

2.5 新情況,不同于學習策略和分類器的開發方式

為了在復雜環境中發揮作用,人工智能必須表現出對新事物的魯棒性。DeepMind[41]的演示表明,ML可以被用來開發策略,從而在僵硬的游戲中實現超人的發揮。圍棋“Go”這個游戲提供了一個復雜的環境,超過了我們對游戲可能狀態的存儲極限,因此提供了前面討論的關于我們對牛頓宇宙建模的極限的情況。然而,如果改變了游戲規則,生成的代理就會變得很脆弱或者完全失敗。在[42]中,這種類型的結果在一個更簡單的環境中被證明,實驗闡明不同的變化如何影響代理的魯棒性。

但新穎性不僅僅是數據點不包含在 ML 訓練集中的情況。為了將新穎性的研究結合起來,[43] 提出了一個描述新穎性的框架。圖 2 說明了人們如何以一種可以同時衡量新穎性和代理反應的方式看待新穎性。這種新穎性觀點的關鍵在于,可以將新穎性考慮到與世界有關的方面以及與代理人的經驗有關的方面。同樣,對代理任務有影響的新穎性,對魯棒性的影響不同于對任務沒有影響的新穎性。這也是 Chao [42] 中證明的一個發現。

圖 2. 考慮新穎性的框架。

2.5.1 DARPA SAIL-ON 計劃

DARPA SAIL-ON 計劃 [40] 中采用的一種基于游戲的新穎性實驗方法。 DARPA SAIL-ON 計劃假設智能體具有以下四個要素:

? 一種性能要素,它使用已知的專業知識通過感知、推理、規劃、控制機制來完成任務并實現目標(例如,尋找和收集具有所需特征的水下物體);

? 一個監控元素,將觀察結果與期望值進行比較,以檢測環境(例如,聲納不可靠、不熟悉的捕食者)和代理自身行為(例如,車輛向右轉向)中的異常情況;

? 一種診斷要素,可定位專業問題,生成有關原因(例如,非反射表面、橫流、未對準的螺旋槳)、評估備選方案并從中進行選擇;

? 修復被認為是造成性能問題的專業知識并糾正它們的維修要素(例如,更新的聲納方程、電流敏感控制器或新的螺旋槳模型)。

正如上文關于新穎性的介紹部分所述,這項研究的大部分開始于認識到 DeepMind 用于解決圍棋、國際象棋、將棋和星際爭霸游戲的方法對游戲規則的變化并不魯棒。一個例子是南加州大學 (USC) 開發并通過 GitHub 發布的 GNOME 框架。

NIWC Pacific 與 USC 合作開發了一個版本,英國 Dstl 使用 GNOME 框架開發了“Hunting of the Plark”游戲。這將允許對受過訓練以玩該游戲的代理的新穎性影響進行實驗,這是圖靈研究所研究小組的重點。計劃對使用 ML 開發的決策支持工具進行進一步實驗,我們不僅可以處理模擬情況,還可以與美國海軍進行現場實驗。

2.5.2 新穎性檢測

個體在不知道世界形勢發生變化的情況下對新穎事物有很強的抵抗能力。這很可能是由于新穎事物對正在執行的任務并不重要,或者至少是在敏感度較低的領域變化。然而,處理新穎事物的一個策略是至少檢測到一個代理處于一個新穎的情況,即使該代理不知道如何在新穎的環境中工作,除了退出或提醒其他人注意這種情況。

代理的基本問題是:環境是否發生了變化,或者正在分析的數據是否只是在以前分布的一個尾部?目前,對于大部分的ML來說,僅僅認識到數據不在樣本范圍內可能就足夠了。至少能認識到其自身局限性的ML在許多情況下是一個進步。在這方面,經典的對抗性例子演示經常被提起:在這些實驗中,代理往往對他們的錯誤答案非常自信[44]。

在規劃系統中,識別可能基于對任務進度的動態評估。如果規劃無效,一種可能是世界以一種模型未反映的方式發生了變化。早期檢測可能會防止災難性結果,但這并不能保證。事實上,人們可以設想無法恢復的情景(在黑洞的事件視界上轉彎是一個極端的例子)。

2.5.4對新穎性的魯棒響應

[45] 將提供魯棒響應的任務定義如下:

? 假定:使用專業知識在一類環境情況下運行的代理架構;

? 假定:支持此類環境中可接受的代理性能專業知識;

? 假定:在突然的、未通知的更改環境中,經驗有限會導致性能降低;

? 發現:當環境發生變化時,哪些修改后的專業知識將支持可接受的性能。

對新穎事物的響應類型與正在執行的任務類型有關。在分類器中,系統可能需要調整其模型,不僅允許改變其提供的答案,還允許解釋這種變化意味著什么。例如,想象一個感知代理,其可確定機器人是否存在障礙物。相機系統的改變,例如鏡頭上的蒼蠅附著可能會為系統創造一個新局面。如果系統能夠適應并確定不存在障礙,則需要對情況進行解釋以證明答案的合理性。

圖 3. SAIL-ON 新穎性指標假設。注意程序中的 TA2 代理是那些對環境中的新穎事物做出反應的代理。

對于規劃系統,新穎性可能表現為采用新的行動或發現行動的成本與以前不同;目標可能會發生巨大變化。規劃系統可能不得不調整他們的知識,重新計算以前的任務,利用經驗來改變他們的計算。上面圖 3 中的假設說明了測量環境。在環境中出現變化之前,學習和運行可能會進行一段時間。對特定變化還不夠魯棒的代理性能會下降,必須找到一種方法來檢測新事物的發生,確定發生了什么變化并在運行中對其進行解釋。

2.6 對抗性行動

在過去的幾十年里,已經證明基于深度學習技術的機器學習模型可以在各種任務中達到甚至超越人類水平的表現。另一方面,機器學習模型通常容易受到輸入擾動的影響,并且很容易被愚弄以產生不正確的輸出 [53] [54]。這些類型的操作被稱為對抗性攻擊,機器學習模型對抗這些攻擊的性能被測量為對抗魯棒性 [55]。在兩個不同方面研究了對抗魯棒性。第一個方面,研究人員試圖找到一種產生對抗性攻擊的方法,以最大程度地降低模型的魯棒性 [56] [57] [58] [59] [48]。第二方面,研究人員試圖找到更好的訓練或防御方法,使網絡架構對這種對抗性攻擊更加魯棒[60] [61] [62] [63] [64]。在本節中,我們調查了對抗性攻擊和防御方法,并從當前文獻中定義了對抗魯棒性的指標和測量方法。

2.6.1 對抗性攻擊

[54] 中針對機器學習系統 M 和輸入樣本 C(稱為干凈樣本)定義了對抗性攻擊,如下所示:

“假設樣本 C 被機器學習系統正確分類,即 M(C) = y。可以構建一個對抗性樣本 A,它在感知上與 C 無法區分,但分類錯誤,即 M(A) ≠ y。”

基于此定義,對抗性攻擊的目的是修改模型輸入以導致不正確的模型輸出,使其無法被人類觀察者區分。不可區分性標準對可應用于輸入的擾動有一些限制,這在文獻中稱為 lp 范數,即

其中 ? 是最大允許擾動。最常用的范數是 l2 和 l∞。

考慮到這一限制,提出了幾種方法來生成對抗性樣本 [65] [55] [48]。生成對抗樣本主要遵循兩種不同的方法,即黑盒和白盒。在黑盒方法中,用戶不了解模型,只能訪問給定輸入的預測概率或預測類別。另一方面,假設模型及其參數在白盒方法中是完全已知的[47]。

白盒攻擊在欺騙模型方面比黑盒攻擊更有效,并且在文獻 [56] [57] [58] [48] 中使用不同的方法進行了廣泛的研究。白盒攻擊主要是基于梯度的攻擊方法:它們通常構造一個損失函數,可以導致擾動攻擊能力的提高和擾動幅度的降低,然后通過梯度優化損失函數以生成對抗樣本[66]。使用損失函數的梯度來確定對抗性擾動,可以像快速梯度符號法(FGSM)[65]那樣在一個步驟中進行,用于快速生成對抗性樣本。為了提高效果并減少擾動,在基于迭代梯度的攻擊中,不是在梯度方向上采取單一步驟,而是采取多個較小的步驟[54][48]。

對抗性攻擊也可以作為訓練的一部分。最近的一些工作[46]背景是一個對等網絡,其中每個對等體都有一份神經網絡模型的副本,以創建一個分布式的學習環境,這并不依賴于中央協調節點的存在。這樣的機器學習架構非常適用于有多個伙伴的軍事聯盟場景。最初,每個對等體擁有總訓練數據集的一個子集,隨著模型訓練的進行,模型參數在每次訓練迭代時都在對等體之間共享。

本實驗基于 Fashion-MNIST 數據集,并非試圖提高點對點 ML 的魯棒性,而是測量和優化中毒技術在導致對等體錯誤分類方面的有效性。中毒效果的衡量標準是,就訓練迭代次數而言,惡意對等體能夠可靠地毒化良性對等體的速度有多快。然而,我們相信相同的指標可以用來推斷 ML 對這種中毒的魯棒性:實現錯誤分類所需的迭代次數越多,魯棒性就越高。

2.6.2 對抗性防御

已經提出了一些方法來保證在特定條件下對范數有界的對抗性攻擊的魯棒性。例如,Wong 和 Kolter [67] 使用對抗性多面體的概念為基于 ReLU 的分類器提出了可證明的防御措施。此外,[68] 中提出了一種有效且完整的分段線性神經網絡魯棒性驗證器。在該論文中,提出了一種算法,該算法基于最大 (l∞-) 范數在對抗性誤差上產生經過驗證的界限。

獲得強大的深度神經網絡的最成功的方法之一是通過對抗訓練。對抗性訓練的主要動機是將攻擊和防御都納入一個共同的理論框架,自然地封裝了大多數先前關于對抗性樣本的工作 [55]。在這種方法中,不是直接將原始數據集中的樣本輸入到訓練中,而是允許對抗性攻擊首先擾動輸入,然后將擾動的樣本輸入到訓練中。對抗性訓練以不同的方式得到增強,例如改變攻擊過程、損失函數或模型架構 [69] [50]。

對抗性訓練的性能很大程度上取決于生成增強訓練數據集時使用的損失函數和對抗性攻擊方法,并且由于需要生成對抗性樣本,與干凈訓練相比需要更長的時間。在 [73] 中,已經證明,使用具有早期停止的經典對抗訓練可以更容易地提高最先進的對抗訓練方法的性能。這表明我們對對抗性訓練的理解是有限的。在 [74] 中分析了對抗性訓練對魯棒性的影響,他們得出結論,在使用(隨機)梯度下降的干凈訓練過程中,神經網絡將在所有特征中積累一些與任何自然輸入,但極易受到(密集)對抗性擾動的影響。在對抗訓練期間,這種密集的混合物被“純化”以使模型更加魯棒。

2.6.2.1 訓練期間隨機噪聲的隱式生成建模提高了對抗魯棒性

最近開展的工作 [70] 專門研究了上述方法。事實上,這項工作旨在通過將隨機噪聲引入訓練輸入并使用隨機梯度下降 (SGD) 對其進行優化,同時最小化訓練數據的總體成本函數,從而使深度神經網絡對對抗性輸入更加魯棒。效果是在開始時隨機初始化的輸入噪聲在訓練過程中逐漸被學習。結果,噪聲近似地模擬了輸入分布,以有效地最大化給定輸入的類標簽的可能性。

作者 [70] 評估了他們在 MNIST、CIFAR10 和 CIFAR100 等分類任務上的方法,并表明以這種方式訓練的模型更具對抗性。發現噪聲和干凈圖像的組合方式對精度有重大影響,乘法比加法獲得更高的精度。魯棒性的直接度量沒有發展,而是隨著擾動水平的增加,魯棒性被量化為精度函數。

2.6.2.2 基于離散化的對抗性攻擊解決方案

繼對抗性訓練的主題之后,[72] 表明,圖像分類深度神經網絡對對抗性輸入的魯棒性可以通過輸入空間和模型參數空間的離散化來提高,同時精度損失最小。在使用 MNIST、CIFAR10、CIFAR100 和 ImageNet 數據集的實驗中,輸入空間的離散化涉及將像素強度的數量從 256 (28) 減少到 4 (22),參數空間的離散化涉及使用低精度權重訓練模型以及諸如二元神經網絡 (BNN) 之類的激活。此外,結合這兩種離散化技術極大地提高了模型的魯棒性。與更昂貴的對抗性訓練過程(即使用對抗性示例訓練模型)相比,這種組合方案可以被視為提高魯棒性的另一種方法。在每個實驗中,通過比較分類的準確性來衡量魯棒性,同時對抗性擾動 (ε) 逐漸增加。實際上,這項工作中魯棒性的度量似乎是在保持給定精度的同時可以容忍的擾動程度。

2.6.2.3 減輕神經網絡中的對抗性樣本

在最后一個示例中,進行了一項相對簡單的工作 [71]。對圖像分類器的輸入進行預處理是通過將輸入饋入高斯核來實現的,其效果相當于平滑低通濾波器,其中平滑程度取決于內核的標準偏差參數。該實驗是使用 MNIST 數據集進行的,并測量了平滑和各種對抗性噪聲水平的不同組合的準確度。結果表明,為了優化給定水平的對抗性噪聲的準確性,存在一個最佳的平滑水平。在這種情況下,用于魯棒性的度量是針對給定數量的對抗性噪聲的成功攻擊的百分比。該度量允許直接比較使用和不使用平滑的性能。

2.6.3 測量對抗魯棒性

對抗性魯棒性可以衡量為對抗性攻擊[47]擾動輸入的模型準確性。由于評估取決于應用的對抗性攻擊,因此很難衡量模型的實際對抗魯棒性。

文獻中的大多數作品通過使用在其訓練階段使用的相同或相似的對抗性攻擊方法和損失函數,來展示其方法的對抗性魯棒性。在[48]中已經表明,通過改變損失函數和生成對抗樣本的方法,可以實現比原始論文中報道的更低的對抗魯棒性。實際上,[48] 中指出,在 49 個案例中,有 13 個案例的魯棒性變化大于 10%,在 8 個案例中大于 30%。

在 [49] 中,通過將幾個深度神經網絡的性能與人類觀察者進行不同類型的操作進行比較,進行了類似的評估。在這項工作中,已經表明,只有在訓練階段知道所應用的操作時,深度神經網絡才能達到人類水平的性能。對于未知的操作,深度神經網絡的性能會急劇下降。此外,文獻中提出的許多防御策略都被更強大的對手打破了[48] [50]。因此,應仔細比較在不同方法下獲得的魯棒性,以確保評估盡可能有效[47]。

對抗魯棒性被報告為從擾動集中獲取的最壞情況輸入的模型精度。除了準確性之外,還可以測量兩種類型的性能指標來評估模型的魯棒性。第一個指標是對抗頻率,它衡量模型多久無法保持穩健[51]。第二個是對抗性嚴重性,用于衡量從原始輸入到對抗性樣本的預期最小距離 [51] [52],即模型被愚弄的難易程度。事實上,引用[51]:

“頻率和嚴重性捕獲了不同的魯棒性行為。神經網絡可能具有高對抗頻率但對抗嚴重程度低,這表明大多數對抗樣本距離原始點有非常小的距離。相反,神經網絡可能具有較低的對抗頻率但較高的對抗嚴重性,這表明它通常是魯棒的,但偶爾會嚴重不魯棒。頻率通常是更重要的指標,因為具有低對抗頻率的神經網絡在大多數情況下都是魯棒的。實際上,對抗性頻率對應于用于衡量魯棒性的對抗性樣本的準確性。嚴重性可用于區分具有相似對抗頻率的神經網絡。”

3 結束語

混合戰爭表明可能有許多系統和許多模型,因此如果假設人工智能將在混合戰爭系統的集合中使用,那么多種錯誤來源具有破壞人工智能在軍事領域應用的巨大潛力。

因此,上述當前技術的標準和調查都與了解將 AI 和 ML 應用于混合軍事領域的潛在弱點相關,因此在涉及與 AI 和 ML 的魯棒性有關的考慮時,顯然需要確保未來進行廣泛的評估。很明顯,有一個重要的考慮領域和可用的度量方法。然而,正如之前在第 2 節中提出的,這些度量方法適用于不同的利益相關者、不同的模型和潛在的不同任務。

因此,當前的問題是如何為特定模型確定和找到正確的度量方法,以獲得混合戰爭系統所需的置信度。 IST-169 打算推進這項初步調查來做到這一點。我們相信,開發各種類型的魯棒性及其適用于不同類型 AI 階段的圖形表示,將有助于全面了解 AI 魯棒性格局。這將加強并采取更嚴格的方法對人工智能應用進行開發。

付費5元查看完整內容

【導讀】由于深度神經網絡具有強大的學習不同層次視覺特征的能力,因此被廣泛應用于目標檢測,語義分割,圖像描述等計算機視覺應用當中。從ImageNet這樣的大型圖像數據集中訓練得到的模型被廣泛地用作其他任務的預訓練模型,主要有兩個原因:(1)從大規模數據集中學習得到的參數能夠為其他模型提供一個良好的訓練起點,在其他任務上模型網絡可以更快地收斂。(2)在大規模數據集上訓練的網絡已經學習到了層次特征,這有助于減少其他任務訓練過程中的過擬合問題,特別是當其他任務的數據集較小或標注數據不足的情況。

介紹

為了在計算機視覺應用中學習得到更好的圖像和視頻特征,通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷,作為無監督學習方法的一個子方法——自監督學習方法,可以在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先,描述了該領域的動機和一些專業性術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。

用于圖像特征學習的架構

1.AlexNet:與以往的方法相比,AlexNet極大的提高了在ImageNet數據集上的圖像分類性能。AlexNet架構總共有8層,其中的5層是卷積層,3層是全連接層。ReLU激活函數被運用在每一個卷積層后面。

2.VGG:該模型贏得了ILSVRC2013挑戰賽的第一名。其中的VGG-16由于模型尺寸適中,性能優越,被廣泛使用。

3.ResNet:該網絡闡述了網絡越深越能夠獲得良好的性能。但是由于梯度消失和梯度爆炸,深度神經網絡很難訓練。ResNet使用跳躍連接把前一層的特征直接傳遞到下一個卷積塊來克服梯度消失和梯度爆炸的問題。

4.GoogleNet:22層的深度網絡,以93.3%的準確率贏得了ILSVRC-2014挑戰賽。和之前的網絡相比,它擁有更深的網絡。GoogleNet的基礎模塊inception塊由4個平行的卷積層組成,這4個卷積層的卷積核尺寸不同,每層后面都有一個1x1的卷積操作來降低維度。

5.DenseNet:大多數網絡包括AlexNet, VGG和ResNet都遵循層次結構。圖像被輸入到網絡中,由不同的層提取特征。淺層提取低級的一般性特征,而深層提取特定于任務的高級特征。然而,當一個網絡變得越來越深的時候,更深的網絡層可能會記住完成任務所需的底層特征。為了避免這一問題,DenseNet通過稠密連接將一個卷積塊之前的所有特征作為輸入輸送到神經網絡中的下一個卷積塊。

視頻特征學習架構

Spatiotemporal Convolutional Neural Network

三維卷積運算最早是在3DNet中提出的,用于人類行為識別。與2DConvNets分別提取每一幀的空間信息,然后將它們融合為視頻特征相比,3DConvNets能夠同時從多個幀中同時提取空間和時間特征。

隨著三維卷積在視頻分析任務中的成功應用,出現了3DConvNet的各種變體。比如Hara等人提出了3DResNet,將ResNet中所有的2D卷積層替換為3D卷積層。實驗表明,在多個數據集上,3D卷積層的性能更為優異。

Recurrent Neural Network(RNN)

由于RNN能夠對一個時間序列數據進行動態建模,所以RNN通常被應用于視頻的有序幀序列當中。和標準的RNN相比,LSTM使用內存單元來存儲,修改和訪問內部狀態,從而更好的對視頻幀之間的長時間序列進行建模。基于LSTM的優勢,Donahue提出了long-term recurrent convolutional networks (LRCN)用于人類行為識別。

數據集介紹

1.圖像數據集

2.視頻數據集

YFCC100M:該數據集是從Flicker上收集的多媒體數據集,由1億條多媒體數據組成,其中的99200000條數據是圖片,剩余的800000條數據是視頻。

SceneNet RGB-D:該數據集是一個大型的室內視頻合成數據集。

Moment in Time:該數據集是一個用于視頻內容理解的數據集,內容多樣且分布均衡。

Kinetics:該數據集規模大,質量高,用于人類行為識別。

AudioSet:該數據集由來自YouTube的2084320條人工標記10秒的聲音剪輯組成,這些視頻涵蓋了632個音頻事件。

KITTI:該數據集是在駕駛汽車時收集的,收集數據時的裝備有各種傳感器,包括高分辨率RGB相機、灰度立體聲相機、3D激光掃描儀和高精度GPS測量。

UCF101:該數據集被廣泛使用于人類動作識別。

HMDB51:相比于前面的數據集,該數據集是一個小規模的視頻數據集,用于人流動作識別。

付費5元查看完整內容
北京阿比特科技有限公司