亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

我們開發了一個深度學習框架來發現Koopman網絡模型,該模型映射了所有測量的生物電路輸出、實驗輸入參數和背景設計參數之間的因果關系。我們發現了測量(如多個熒光報告器)和監測的實驗參數(如光密度(OD)、溫度、誘導劑濃度、培養基的年齡)的因果關系的動態網絡模型,從而概括了任意非線性系統的動態結構函數(和傳遞函數)的概念。這些模型被用來確定具有類似行為的生物部分或生物電路的類別和關系,推斷潛在變量的狀態以產生實驗驚喜的假設,預測和評估穩定系統行為的操作包絡,并定量預測生物電路動態響應作為實驗參數的函數。我們項目中的方法結合了深度學習算法的表達能力、可擴展性和Koopman算子理論的嚴謹性,以發現數據驅動的動態系統模型,用于假設生成和生物電路表征。

最先進的模型發現方法通常利用關于模型結構的先驗信息。例如,貝葉斯分層模型識別方法基于模型先驗知識推斷出模型類別和參數。壓縮感應算法基于預先定義的基礎函數字典來識別輸入-輸出和動態模型。最先進的學習Koopman算子的方法依賴于動態模式分解(DMD),它利用線性模型來近似無窮大的Koopman算子。因此,這些方法依賴于科學家的創造力來提供先驗的典型模型。這限制了它們在缺乏規范模型的領域的適用性,如合成生物學、神經科學、人機系統或社會系統。

在合成生物電路設計方面,數據驅動的科學模型發現受到三個主要技術挑戰的阻礙。1)在未建模的動態情況下學習生物電路變量之間的定量關系,2)了解這些關系如何作為生物電路背景的函數而變化,以及3)在生物電路模型中轉換設計變量和背景之間的關系,以預測生物電路的穩定運行包絡。由于這些挑戰,科學發現通常依賴于手工或半自動的數據收集,然后由人類對數據進行解釋。模型被視為確認人類產生的假設的一種手段,而不是發現新的科學假設的一種手段。同樣,這是因為模型是圍繞科學家提供的第一原理而構建的,而不是來自數據驅動的算法。

我們開發了一種數據驅動的方法來學習網絡模型,其分辨率與數據中可用的空間和時間尺度相稱。我們沒有試圖為一個詳細的第一原理模型完全填充所有的動力學參數,而是開發了只描述測量的或已知的實驗變量之間因果關系的網絡模型。利用這個計算框架,我們項目的主要成果將在下面的章節中概述。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

根據合同FA8750-19-C-0092制定本報告:利用符號表示進行安全和可靠的學習。這項研究工作的目標是開發新的工具、算法和方法,以提高自主的、可學習的網絡物理系統(LE-CPSs)的安全性。這些系統由于更高的自主性以及網絡組件和物理環境之間的相互作用而表現出一系列豐富的行為。這項工作總結了在符號系統測試、模型提取、異常檢測、學習未知動力學和形式化方法方面的進展,以驗證這些系統。這些工作被整合到控制系統分析框架中,并應用于高保真F16模型。

報告總結

可靠自主性(AA)計劃是由美國國防部高級研究計劃局(DARPA)委托進行的,目的是推動持續可靠技術的發展,以跟上安全關鍵系統日益復雜和自主的步伐。該計劃的目標是學習型(LE)網絡物理系統(CPS)(LECPSs);由于更高水平的自主性,以及網絡組件和物理環境之間的互動,這些系統表現出豐富的行為集合。由于這些系統經常被部署在安全關鍵環境中,其故障可能導致金錢和人命的損失,因此其持續的保證是最重要的。

為了加速LE-CPS的采用,保證學習團隊采用了一種多方面的方法,為保證幾個層次的自主性提供解決方案,包括規范、設計、培訓、設計時間測試和運行時間保證。圖1所示的海報中總結了保證學習團隊的方法。

圖1 可靠學習小組

1.1 可靠學習挑戰問題

該團隊將F-16飛行控制系統[75]確定為美國防部(DoD)可靠自主性計劃的相關基準。這支持了該計劃第二階段挑戰問題2.5 "避免地面碰撞 "和第三階段挑戰問題3.2 "避免空中碰撞"。我們開發了控制系統分析框架(CSAF),這是一個集成的工具鏈,以證明團隊開發的技術和工具的有效性。我們使用DevOps風格的自動化來推動LE-CPS的持續集成和目標定向測試。最后,我們展示了運行時可靠(RTA)的可行性,以保護系統免受LECPS故障的影響。

1.2 控制系統分析框架

Galois開發了控制系統分析框架,這是一個用于建模、測試和正式驗證LE-CPS的綜合工具鏈。CSAF將最先進的分析工具引入數字工程框架,由DevOps風格的持續集成支持,以加速安全關鍵系統的數字設計。CSAF通過對學習型組件進行嚴格的自動測試來實現持續驗證。圖2說明了CSAF如何與現有的和新興的工具相結合,在持續集成/持續部署(CI/CD)環境中提供自動化、目標定向測試、運行時間可靠驗證。

圖2 控制系統分析框架概述

2 引言

在過去的十年中,將機器學習技術應用于網絡物理系統方面取得了巨大的進步,導致了支持學習的自主網絡物理系統的發展;這些系統已經在空中、地面和深海環境中得到了初步的部署。機器學習使圖像處理、決策和控制的強大和適應性方法成為可能。然而,由于這些系統的操作行為缺乏強有力的保證,以及許多訓練方法需要大量的數據,這些系統的廣泛采用和更廣泛的接受受到了阻礙。

2.1 符號系統測試

這一工作的第一階段探討了如何將為傳統軟件系統開發的形式化驗證和原則性測試技術重新用于驗證、安全和改善學習型系統的訓練時間。具體來說,我們將這些技術用于現實世界中復雜的異質系統(F-16模型),該系統由傳統算法、自適應控制和學習型組件混合組成。我們的技術將相關領域的知識作為模型生成的一部分,在第二階段我們進行了高覆蓋率的系統級測試。這種方法為部署的機器學習模型的安全性提供了高度的保證,即使是在面對意外的環境干擾時。第一階段的初步結果成功地證明了使用正式模型來有效地指導學習,改善訓練時間,提高性能,并使數據得到更有效的利用。因此,我們預計這將大大擴展深度學習方法可以應用的系統組件的范圍。

我們將上述對學習型系統的正式驗證和測試與運行時保護方法的工作相結合,以確保學習型控制器(LEC)算法的正確性。我們利用先進的機器學習(ML)異常檢測方法來評估LEC輸出的質量。我們提供了替代的、確定性的程序,這些程序既可以用來引導LEC的不良行為,也可以提供適合形式化驗證的LEC行為的替代抽象。最后,我們提供了利用我們的測試結果來提高我們重新訓練的LEC的效率和穩健性的方法。

雖然通過學習來適應控制法則對實現更靈活的車輛系統很重要,但對動態變化的適應也同樣重要,例如,由于部件的退化或平臺的損壞。第一階段推進了先前的工作,開發了新的系統動力學學習方法,利用基礎系統物理學知識,提供更可靠和有效的結果。

2.2 可靠學習挑戰問題

Galois在Aditya Zutshi博士的領導下,開始收集基準挑戰問題,包括波音公司的TAXINET/X-Plane模擬器、汽車學習行動(CARLA),以及控制理論研究中使用的學術基準。F-16 AeroBench基準[76]的選擇是為了使我們的工作與空域挑戰問題集和正在進行的波音公司TAXINET/X-plane的感知工作相一致,使用基于感知的學習技術。第一階段的高潮是將我們的工具和技術早期整合到一個模塊化的學習型控制器測試線束中,使用F-16模型來演示F-16地面防撞系統(GCAS)機動的保證學習。作為第一階段挑戰問題2.5的一部分,我們成功演示了GCAS機動。

在第二階段,團隊繼續開發控制系統分析框架和其他工具,重點是F-16空中防撞(ACA)挑戰問題。在第二階段,我們演示了單人和多人的F-16空中防撞,作為該計劃挑戰問題3.2的一部分。

2.3 CPS系統的訓練、魯棒性和形式驗證的方法

普渡大學團隊在Suresh Jagannathan博士和Ananth Grama博士的領導下,致力于保證學習型控制器的六個核心部分:

(i) 下一代高效的學習模型的訓練程序。

(ii) 在強化學習(RL)控制器中使用新的訓練程序。

(iii) 保證控制器性能和物理設備安全的正式方法。

(iv) 應用于CPS系統的穩健性技術。

(v) 控制器的可擴展驗證;以及。

(vi) 新的規范形式和編譯技術,用于高保證的多智能體自主系統。

2.4 OSU的異常檢測調查

俄勒岡州立大學(OSU)團隊在Tom Dietterich和Alan Fern博士的領導下,對跨越許多應用領域的兩類數據的異常檢測(AD)進行了調查。研究異常檢測的動機是,保證機器學習系統的自主性必須能夠檢測到與訓練系統相比,系統何時處于新的 "運行狀態"。

第一個AD調查研究了深度圖像分類的開放類別檢測問題。這個問題涉及到開發一些方法,以確定一個經過訓練的深度圖像分類器在部署后遇到的輸入圖像,相對于訓練數據中的類別而言,是否屬于一個新類別。我們的工作重點是使用 "神諭技術 "來分析這個問題的深度表征和異常檢測方法的互動。結果表明,改進的表征與基于這些表征的改進的異常檢測信號相比,有相對的改進空間。

第二個AD調查研究了分布外動態(OODD)檢測的問題。這個問題涉及到確定何時一個時間過程,例如一個部署的學習控制系統,正在經歷與它被訓練的動態不同的動態。這是一個在深度強化學習(DRL)文獻中很少受到關注的問題,盡管它具有實際的重要性。我們的第一個貢獻是設計和開發了第一套基于常用DRL領域的ODD基準和度量。我們的第二個貢獻是設計、開發和評估了一個強大的基線OODD方法,它提供了非微不足道的性能,但也為基準留下了改進空間。這為OODD檢測的未來進展奠定了基礎。

2.5 實時學習系統動力學(物理感知學習)

由Ufuk Topcu博士領導的德克薩斯大學(UT)奧斯汀團隊的工作重點是開發數據驅動的算法,用于在非常嚴重的數據限制下對未知動態系統進行可達性分析和控制。這項工作是由系統動態發生重大和意想不到的變化的情景所激發的。在保證學習計劃中,這些工作被應用于F16模型被置于需要快速傾斜系統動力學的場景中,因為在操作條件、故障和極端的地面防撞場景中,傳統方法無法提供保證。

2.6 學習程序性政策的強化學習方法

由Swarat Chaudhuri博士領導的UT Austin團隊(最初在萊斯大學)開發了模仿-預測程序化強化學習(PROPEL),這是一種強化學習方法,用于學習可以用預定義符號語言表達的程序化策略(關于這項工作的論文《模仿-預測程序化強化學習》發表在2019年NeurIPS大會上)[48]。符號化策略是一個決策程序,例如 "如果(道路暢通)加速,否則減速",可以想象它是由人類工程師編寫。相對于傳統的深度強化學習,其中學習的策略是不透明的神經網絡,程序化的策略是可審計的,并簡化了正式的正確性驗證。這個政策學習問題是用鏡像下降法解決的,該方法保持了一個神經和程序化政策的加法組合,使用歸納程序合成和基于梯度的優化的混合方法迭代更新這兩個部分(更多內容見第3.5節)。該方法在一個模擬駕駛任務以及一系列經典控制任務上進行了評估。實證結果表明,該方法發現了人類可理解的策略,而沒有明顯影響性能。

該團隊還開發了一種強化學習的方法,在探索過程中構建的每一個中間策略都得到了正式的驗證,并在2020年的NeurIPS上展示了 "具有正式驗證的探索的神經符號強化學習"(REVEL)。在算法上,REVEL學習神經策略,這些策略由確保每一個行動都是安全的盾牌來保護。該學習算法使用一種鏡像下降的形式來迭代更新策略的防護罩和神經組件,同時保持安全,而不需要直接的神經網絡驗證。該方法在控制和機器人學的幾個基準上進行了評估,這些基準類似于簡化的自動駕駛應用。結果表明,REVEL可以在學習過程中保證最壞情況下的安全,而其他最先進的強化學習方法在學習過程中經常違反安全約束。

在項目的最后階段,該團隊探索了學習符號策略的機制,這些策略在被視為像素的場景中運作。在這里,一個神經網絡被用來識別一個場景中有趣的實體。然后,這些實體被視為命名的變量,一個以這些變量為程序的程序被自動發現。

付費5元查看完整內容

從數據中發現隱藏的偏微分方程(PDEs)和算子是機器學習和數值分析之間的一個重要前沿課題。介紹了線性偏微分方程格林函數學習的理論結果和深度學習算法,并對偏微分方程格林函數學習技術進行了嚴格論證。導出了一個理論上嚴格的算法來獲得學習率,它表征了近似學習與橢圓偏微分方程相關的格林函數所需的訓練數據量。該結構通過將隨機奇異值分解擴展到非標準高斯向量和Hilbert-Schmidt算子,利用層次矩陣利用格林函數的低秩層次結構,連接了PDE學習和數值線性代數領域。引入有理神經網絡,由具有可訓練有理激活函數的神經網絡組成。這些網絡的高組成結構,結合有理逼近理論,意味著有理函數比標準激活函數具有更高的逼近冪。此外,有理神經網絡可能具有極點并具有任意大的值,這非常適合逼近具有奇點的函數,如格林函數。最后,結合格林函數和有理神經網絡的理論成果,設計了一種從數據中發現格林函數的人類可理解的深度學習方法。這種方法補充了最先進的PDE學習技術,因為可以從學習到的格林函數中獲得廣泛的物理知識,如主導模、對稱和奇點位置。本文旨在通過將標準數學領域(如數值線性代數、概率和偏微分方程分析)與現代深度學習技術相結合,了解是否可以從數據中發現偏微分方程(PDEs)。我們著重學習與線性偏微分方程相關的格林函數從一對強迫函數和解。推導了挖掘問題規律性的理論邊界,提出了一種實用的深度學習算法。

付費5元查看完整內容

目前在合成生物學、材料和神經科學方面的科學模型未能代表一個復雜系統的所有突出特征及其隨時間的演變。科學家們傳統上使用歸納推理和有限的觀察變量來構建復雜系統的模型。通過圍繞觀察到的現象的合理解釋來設計實驗,他們可能會錯過屬性的相互聯系。此外,科學家們經常在一個數據孤島中進行實驗,關注系統的單一方面,而不考慮二階和三階的影響。這些方法導致了實驗的意外和缺乏可重復性,很少或沒有洞察到失敗的根源。

為了從根本上改變在缺乏完整模型的領域中設計和發現穩健的模型,二六科技、Netrias、雷神 BBN Technologies(BBN)、賓夕法尼亞大學(Penn)和James Yorke教授在四年時間里開展了 "來自模糊系統分析的因果假設(CHAOS)"工作。

CHAOS將通過有效利用高通量實驗產生的數據來加速科學發現,產生假設,并減少實驗意外,從而徹底改變當前復雜系統的模型并使其自動化。CHAOS是圍繞四個主要的互動模塊建立的:

圖2 概念圖

  • 特征提取:自動編碼器能夠自動學習觀察到的變量之間的映射,并創建一個壓縮的特征表示,持續編碼系統的狀態。

  • 狀態空間預測:一個深度神經網絡(DNN)通過捕捉系統的非線性動態來預測未來的狀態。

  • 穩定性分析:通過動態系統分析提取穩定的運行區域,以減少實驗中的意外,并能發現故障的根本原因。

  • 模型完善:一個終身學習引擎,可以有效地重新配置和更新深度網絡,實現跨領域的知識轉移和每天一兆字節的數據速率。

CHAOS是一種新穎的、革命性的科學發現方法,通過分析層自動生成因果和關聯假設,并利用實時實驗結果完善模型。CHAOS的分析技術可以自動識別跨時間和物理尺度的系統運行的穩定區域,其結果是為TA2表演者提供了一套強大的設計規則。完成這一挑戰是由一個多學科的合作團隊完成的,包括Two Six Technologies(prime)、Netrias、James York教授、Raytheon BBN和Eric Eaton博士。

圖 CHAOS三層結構

付費5元查看完整內容

數據高效的機器學習(DEML)對AF/DoD(美空軍/美國防部)的運作至關重要,原因如下:首先,訓練機器學習算法通常需要一個大型的、完全標記的訓練數據集。人類對原始數據的標注是一個昂貴而耗時的過程,尤其是在專家分析師隊伍有限的情況下。因此,機器學習算法必須從有限的標記的訓練數據中產生準確的預測模型。此外,任務環境和目標可能是多樣的、快速變化的,因此,機器學習模型必須能夠快速適應手頭的情況。機器學習系統(和人類分析員)可用的原始數據的質量也往往是不可預測的。可能經常發生的情況是,并非所有用于預測和決策的理想特征都可用。因此,機器學習算法必須對缺失或部分未觀察到的數據具有魯棒性。

這項工作的范圍是在以下關鍵領域為DEML創造新工具:1)為涉及豐富的高維特征空間的分類和搜索問題開發數據效率高的主動學習算法;2)開發新的交互式工具,使人類分析者能夠快速和準確地標記大型數據集;3)開發一個新的框架,用于豐富的人類注釋,除標簽外還提供解釋和特征相關性反饋;4)在軟件中建立算法原型。這些目標將需要對DEML問題進行基本的數學研究和分析、算法開發和原型設計,以及用真實和合成數據集進行測試和實驗。

付費5元查看完整內容

美國陸軍未來司令部的士兵致命性(SL)跨職能小組(CFT)正在研究通過頭戴式和武器式能力的組合來增強下馬步兵的新方法。根據SLCFT的指示,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室的研究人員探索了加強輔助目標識別能力的技術,作為陸軍下一代智能班組武器計劃的一部分。

敵對環境中涉及潛在目標的復雜決策必須由下馬的士兵做出,以保持戰術優勢。這些決定可能是人工智能(AI)技術的強大信息,如AI支持的火力或指揮和控制決策輔助工具。例如,一個士兵發射武器是一個明確的跡象,表明該地區有一個敵對的目標。然而,一個士兵在環境中追蹤一個潛在的目標,然后放下他們的武器,這是一個模糊的、隱含的跡象,表明該目標受到關注,但最終被該士兵認為不是一個直接的威脅。在近距離作戰的環境中,與士兵狀態相關的隱性標記數據(如光電視頻、位置信息或火力行動)可用于輸入決策輔助工具,以得出真實的戰場背景。然而,需要對這些行動進行更徹底的檢查。此外,來自單個士兵的突發非交流行為在整個班級中的匯總可以增強戰術態勢感知。盡管它們有可能產生戰術影響,但這些狀態估計或行為指標往往不能以立即可用的形式獲得。

DEVCOM陸軍研究實驗室(ARL)的研究人員調查了一種通過機會主義感應來進行下馬士兵狀態估計的方法--一種不需要人類明確行動就能收集和推斷關鍵的真實世界數據的方法。在通過正常使用武器追蹤和攻擊移動和靜止目標時,連續獲得數據以解釋士兵的行為。這項工作中使用的士兵-武器行為分類方法主要來自人類活動識別(HAR)研究。然而,在這項工作中,為了提高行為結果的生態有效性,在眼球追蹤文獻中經常使用的實驗范式被反映出來,將眼球運動和認知推理聯系起來。具體來說,眼動跟蹤研究的一個子集的目標是收集和解釋與公開的視覺注意力有關的眼動事件(即固定、囊狀運動和追逐),這可以揭示認知過程和關于環境的客觀內容。在戰斗中,士兵們可能會將他們的目標停留在一個靜態的目標上(固定),當出現新的目標時迅速轉換目標點,有潛在的目標出現(囊狀運動),或者在潛在目標移動時跟蹤他們的目標點(平滑追擊)。

目前,頭戴式眼動跟蹤技術正在開發用于戰斗。然而,與校準誤差有關的凝視數據中的噪聲使其難以有效地使用這些數據。一個更突出的解決方案可能存在于士兵和他們的武器之間的互動中,這項工作使用傳統的HAR技術進行。執行HAR的主要方法是在一個人進行一些身體活動時,使用慣性測量單元收集時間序列數據。然后使用機器學習技術來訓練分類模型,根據數據信號預測行動。這種方法可以擴展到包括在人類與物體互動時對其運動的分類。在這種情況下,當近距離作戰的士兵與潛在的威脅進行互動時,武器的運動特征被伺機獲得,這為這些士兵在這種環境中做出的復雜決定提供了一個窗口。

論文中記錄并發表了對這一評估的全面分析。對來自動態士兵狀態估計的運動數據進行建模和分析以實現對形勢的理解。

付費5元查看完整內容

近年來,在獨立和相同分布(i.i.d.)數據的假設下,主要針對單一任務進行訓練的深度學習已經取得了巨大的進展。然而,當天真地在多個任務上連續訓練,而不重溫以前的任務時,已知神經網絡會遭受災難性的遺忘(McCloskey和Cohen,1989;Ratcliff,1990),即在學習新任務時,執行舊任務的能力往往會喪失。與此相反,生物生命能夠在一生中從明顯的非即得經驗中學習許多任務,獲得新的技能并重復使用舊的技能來學習新的能力,同時保留以前的重要知識。當我們努力使人工系統越來越智能時,自然生命不斷學習的能力是一種重要的模仿能力。持續學習(Parisi等人,2019)最近在機器學習研究中引起了相當大的關注,并出現了一些期望值。模型應該能夠依次學習多個任務,最終任務的數量和復雜程度未知。重要的是,在學習新的任務時,應該不會對以前的任務產生災難性的遺忘,最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移:以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率,這在數據稀缺的情況下尤為重要。一些方法通過擴展來解決持續學習的問題,也就是說,模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上,這些方法通過設計減輕了災難性的遺忘,因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整,但這樣做需要人為估計需要多少擴展,這不是一個簡單的過程。相反,通常對每個新任務采用預設的、恒定的擴展。另外,我們可以考慮動態的、數據驅動的模型擴展,或者采用模塊化的模型增長方法,從而開發出一個框架,為持續學習建立緊湊的模型,其中模型的大小隨著任務數量的增加(最好是不斷增加)而有效擴展,同時減輕災難性的遺忘現象。此外,我們試圖開發一個框架,使其可以通用于不同的持續學習任務,例如分類、圖像的生成過程和自然語言處理序列標簽,即命名實體識別。在一個持續學習的環境中,我們會遇到一連串具有預定目的的任務,但每個任務都由一個不同的數據集組成。主要目標是建立模型,使其在不同的任務中表現盡可能一致,同時i)重復使用以前任務的信息,以及ii)防止模型不受控制地增長(大小)。然而,我們的方法包括為每個任務建立一個模型,這樣,模型的大部分組件是跨任務共享的(全局的),剩下的幾個是特定任務的(局部的),從而允許信息共享和控制增長。因此,我們試圖開發具有全局和特定任務參數的特定任務(深度學習)模型,以實現有效和高效的持續學習。

引言

1.1 背景

近年來,在獨立和相同分布(i.i.d.)數據的假設下,主要針對單一任務進行訓練的深度學習取得了巨大的進展。然而,當天真地在多個任務上連續訓練,而不重溫以前的任務時,已知神經網絡會遭受災難性的遺忘(McCloskey和Cohen,1989;Ratcliff,1990),即在學習新任務時,執行舊任務的能力往往會喪失。與此相反,生物生命能夠在一生中從明顯的非即得經驗中學習許多任務,獲得新的技能并重復使用舊的技能來學習新的能力,同時保留以前的重要知識。當我們努力使人工系統越來越智能時,自然生命不斷學習的能力是一種重要的模仿能力。

持續學習(Parisi等人,2019)最近在機器學習研究中引起了相當大的關注,并出現了一些期望值。模型應該能夠依次學習多個任務,最終任務的數量和復雜程度未知。重要的是,在學習新的任務時,應該不會對以前的任務產生災難性的遺忘,最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移:以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率,這在數據稀缺的情況下尤為重要。

一些方法通過擴展來解決持續學習的問題,也就是說,模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上,這些方法通過設計減輕了災難性的遺忘,因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整,但這樣做需要人為估計需要多少擴展,這不是一個簡單的過程。相反,通常對每個新任務采用預設的、恒定的擴展。另外,我們可以考慮動態的、數據驅動的模型擴展,或者采用模塊化的模型增長方法,從而開發出一個框架,為持續學習建立緊湊的模型,其中模型的大小隨著任務數量的增加(最好是不斷增加)而有效擴展,同時減輕災難性的遺忘現象。此外,我們試圖開發一個框架,使其能夠通用于不同的持續學習任務,例如分類、圖像的生成過程和自然語言處理序列標簽,即命名實體識別。

在一個持續學習的環境中,我們會遇到一連串具有預定目的的任務,但每個任務都由一個不同的數據集組成。主要目標是建立模型,使其在不同的任務中表現盡可能一致,同時i)重復使用以前任務的信息,以及ii)防止模型不受控制地增長(大小)。然而,我們的方法包括為每個任務建立一個模型,這樣,模型的大部分組件是跨任務共享的(全局的),剩下的幾個是特定任務的(局部的),從而允許信息共享和控制增長。因此,我們試圖開發具有全局和特定任務參數的特定任務(深度學習)模型,以實現有效和高效的持續學習。

1.2 貢獻

我們的工作對DARPA終身學習機器(L2M)計劃和持續學習社區的貢獻列舉如下:

  • 開發了生成式對抗網絡的持續適應模型(Cong等人,2020)。

    • 影響。所提出的框架優于最先進的方法,其參數和計算成本大大降低。
  • 開發了使用貝葉斯非參數字典權重因子的持續學習(Mehta等人,2021)。

    • 影響。第一個用于持續學習中自適應(數據驅動)模型擴展的無啟發式方法。
  • 為人類和機器的結構化任務分布開發了一個元學習框架(Kumar等人,2020)。

    • 影響。我們發現了一種雙重分離,即人類在結構化(成分)任務中表現更好,而代理(機器)在統計(非成分)任務中表現更好,盡管其復雜性相當。
  • 為鑒別性和生成性持續學習開發了高效的特征轉換(EFTs)(Verma等人,2021年)。

    • 影響。EFTS最大限度地減少了新任務的參數數(比基礎模型少5%),同時允許在類增量設置中進行任務預測。
  • 通過設計和利用參數有效的特征圖轉換,為生成式對抗網絡(GANs)開發了一種持續學習方法。

    • 影響。所提出的方法提供了一種內存效率高的方法來執行有效的持續數據生成,我們表明,特征圖轉換方法優于最先進的持續學習GANs的方法,參數大大減少(Varshney等人,2021)。
  • 開發了第一個用于NER的少許類增量學習的工作(Wang等人,2022a)。

    • 影響。所提出的框架可以用最少的標記數據學習識別新的實體類。
  • 開發了結構化稀疏卷積(SSC),利用圖像的固有結構來減少卷積濾波器的參數(Verma等人,2022)。

    • 影響。與現有的方法不同,SSC過濾器不需要在訓練期間或之后進行額外的修剪。
  • 開發了一個新的任務持續學習框架,該框架不假設任務序列是不同或唯一的,因此需要一個任務相似性識別模塊(Wang等人,2022b)。

    • 影響。我們在不需要訓練新模型的情況下,通過利用任務相似性指標來識別相似的任務,在實踐中取得了很高的任務相似性識別精度。
  • 在機器學習領域產生了9項學術科學貢獻,其中7項已經發表,2項目前正在審查。

    • 影響。我們的論文出現在頂級的機器學習領域,如NeurIPS、ICLR、ICML、AISTATS和ACL。此外,我們所有發表的方法論都有公開的源代碼。詳見表1。
  • 用我們的EFT框架為M21評估分類基準做出了貢獻(Verma等人,2021)。

    • 影響。在不同的指標中表現出有競爭力的性能,即96.6±0.23的Top-1準確率,0.86±0.23的樣本效率,相對于單一任務專家的0.93±0.01的性能,1.21±前向轉移率,以及0.99±0.00的后向轉移率。

下面,我們為每個貢獻提供一個簡短的總結,然后是我們項目產生的公開可用的軟件包的清單,以及一個完整的參考文獻清單,我們向讀者介紹完整的方法學細節、實驗設置和經驗結果。

付費5元查看完整內容

執行摘要

本備忘錄報告是對美國海軍研究實驗室(NRL)資助項目 "對抗性在線學習"研究成果的總結,該項目資助周期為2017財年到2020財年。其主要目標是研究和展示在線機器學習算法的安全漏洞,并以博弈論分析和計算方法為支撐進行利用和反制。

1. 目標

對抗性在線學習項目中的目標是研究和展示在線機器學習算法的安全漏洞,并以博弈論分析和計算方法來支持開發和反措施。人工智能和機器學習算法經常被建模為具有單一目標函數的解決方案,這暗示著存在非智能對手。對抗性環境意味著有多個具有競爭性目標的智能Agent,需要一種更復雜的解決方法,這正是我們所尋求的。

2. 背景/動機

美國海軍研發框架(Naval R&D 框架)包括機器學習和推理算法,其是自主和無人系統的智能推動器。這項研究將學習與推理相結合,以減輕對手對數據的欺騙性操縱,從而影響旨在保護我們資產的在線學習算法的預測。此外,為了實現信息主導地位,未來的系統必須包括利用和操縱對手數據的能力,并保護我們數據的完整性。這項研究在信息主導權方面具有防御性以及進攻性的用途。

美國海軍信息優勢路線圖預測,未來的作戰環境將是高度競爭和信息密集的。它要求對對手進行快速分析和生成情報。探測對手的算法正在改進并變得越來越動態。然而,這些算法并不 "知道 "何時以及如何通過欺騙來隱藏自己的弱點,或對沖他們對數據的欺騙性操縱的預測,而這正是本研究的目標。

四年一度的國防審查和國防戰略越來越強調網絡空間對國家安全的重要性以及潛在對手探測我們關鍵基礎設施的風險。減輕網絡風險需要發展創新的行動概念,以挫敗對手戰略。

3. 技術方法

技術方法是基于一個博弈論的計算框架,我們將對抗性機器學習的問題視為一個被稱為學習器或防御器的機器學習算法與對手或攻擊者之間的博弈。

對抗性機器學習的背景。我們的研究主要考慮有監督的機器學習算法。在有監督的機器學習中,學習器被提供了一組稱為訓練集的樣本。訓練集中的每個樣本都可以被看作是從一組輸入變量或特征到稱為標簽或類別的輸出變量的映射。學習器的目標是通過觀察訓練集中的樣本(輸入和輸出對)來學習這種映射。訓練結束后,學習器使用其學到的映射來預測輸入的標簽,稱為查詢,其輸出或標簽并沒有提供給學習器。換句話說,機器學習算法使學習器能夠自動確定一個查詢的輸出。舉個例子,如果學習器是一個自動的垃圾郵件過濾器,對學習器的查詢可能是一個電子郵件的文本,而學習器則輸出該郵件是否是垃圾郵件。對抗性機器學習為上述機器學習問題增加了另一個層次的復雜性:對抗者通過不知不覺地修改有效的查詢來向學習器提供可疑的查詢,從而誤導學習器的輸出。例如,一個垃圾郵件發送者可以改變合法電子郵件中的有效超鏈接的幾個字符,并將超鏈接重定向到一個惡意網站,使該電子郵件成為有害或垃圾郵件。但是,學習器可以把不正確的超鏈接解釋為一個打字錯誤,并把修改后的電子郵件歸類為非垃圾郵件。對手略微修改合法軟件可執行文件的類似活動可以將良性軟件轉化為惡意軟件,從而繞過自動惡意軟件檢測器,嚴重損害受保護的計算機系統。顯然,在對抗性機器學習中,學習器有兩個目標:其主要目標是學習有效訓練實例的基礎功能,此外,還要學習識別和正確分類對抗者發送的查詢。在本報告的其余部分,我們根據討論的背景,交替使用了學習器和防御器,以及攻擊者和對手這些術語。

我們的技術方法將學習器和對手之間的互動建模為一個2人博弈。為此,學習器從過去與對手的互動中建立了一個對手的行為模型。然后,學習器與對手的模型進行多次互動,稱為博弈,以便從對手那里獲得不同的攻擊策略并確定相應的反應。例如,在我們的自動垃圾郵件檢測器學習者的例子中,學習器收到的詢問是對對手的模型所發送的電子郵件文本的不同修改。然后,學習器計算出適當的反應,以正確歸類敵方的電子郵件以及來自非敵方的合法電子郵件。我們在學習器與對手的博弈框架中考慮了三個主要方向,如下所述:

1.機器探測:我們專注于兩個問題:(1)如何找到學習器的盲點以操縱預測,以及(2)如何探測學習器以泄露有關其可預測性的信息以達到規避目的。這種類型的互動對應于探索性攻擊,試圖獲得關于學習器的信息(例如,它的偏見、它的特征或它的訓練數據)。

2.機器教學:這里的主要問題是如何毒害學習者,使其在盡可能少的嘗試中做出不準確的預測。這種類型的互動對應于通過訓練數據直接影響學習器的致病攻擊。機器教學被認為是機器學習的一個逆向問題,它將目標模型映射到一組樣本上。

3.反制措施:這方面的研究解決了從機器探測和機器教學中引出的漏洞。我們努力開發一個元學習器,作為學習器的封裝,它將權衡學習器的行動與自適應對手的關系,后者根據學習器的預測動態地演變其戰術。對于博弈的每個方面,探測或教學,我們在對手和學習器之間設置了一個博弈,對手的行動是對數據的操作,而學習器的行動是使用哪種策略來進行預測或攝取數據。收益是錯誤分類風險和學習器特征評估成本與修改對手數據成本的比值。我們的評估基于與非對抗性學習器的性能差異。

總之,我們的技術方法是在機器學習和計算博弈論的交叉點。該研究涉及分析和開發攻擊者與防御者之間的博弈,其中對手試圖回避或學習學習器使用的機器學習算法的信息,對手試圖主動修改學習器使用的機器學習算法的機器教學,以及反制措施,即學習器學會對對手的機器探測和機器教學相關行動做出戰略反應。

4. 結果

我們按財政年度總結了項目的主要結果和成果,如下所述。

4.1 2017財年

在項目的第一年,我們研究對比了應用于網絡安全的生成性和判別性機器學習(ML)模型。我們開發了一個基于深度學習的ML模型,利用字符級卷積神經網絡(CharCNN)[1]將電子郵件文本數據分類為垃圾郵件或非垃圾郵件,并使用Kaggle電子郵件和安然電子郵件數據集驗證了該ML模型(//www.kaggle.com/venky73/spam-mails-dataset,//www.kaggle.com/wanderfj/enron-spam)。我們還在[2]中發表了一個初步的基于博弈論的框架,使基于ML的分類器能夠預測它所收到的查詢是合法的還是來自對手的探測攻擊。

該項目涉及使用快速梯度符號法(FGSM)[3]從圖像數據的干凈樣本中生成擾動樣本的算法。該技術在生成來自MIST數據集的手寫數字的擾動圖像方面得到了驗證[4]。

4.2 2018財年

在項目的第二年,主要致力于開發ML技術,用于模擬對手生成對抗性數據的策略。最近關于最先進的網絡安全技術的調查顯示,電子郵件文本和網絡數據包經常被攻擊者用來繞過網絡防御,如電子郵件垃圾郵件過濾器或惡意軟件檢測器[5, 6]。基于這一觀察,主要使用字符串數據,如電子郵件和社交媒體上的帖子的文本數據,以及網絡流量數據作為我們研究的主要數據模式。

作為第一個任務,開發了一個生成對抗性文本數據的算法。實現了Liang等人[7]的算法的一個略微修改版本,用于對文本數據樣本進行最小化的擾動,以生成一個對抗性樣本。Liang等人的原始算法被設計為戰略性地確定在一個給定的干凈文本樣本中改變哪些字符和多少字符,從而使改變后的文本被分類為與干凈文本不同的標簽,而該模型已被預先訓練為文本數據的分類。我們略微修改了算法,使干凈文本中要被擾亂的字符數可以作為算法的輸入參數來指定。這使我們能夠對使用不同擾動量或擾動強度的對手進行建模,這與他們的能力(如可用的預算、計算資源等)相稱,以從干凈的數據中產生對抗性數據。

接下來,我們研究了當對手的預算有限時產生對抗性數據的問題。對用于分類查詢的ML模型的參數和超參數的了解是對手產生成功規避攻擊的一個關鍵因素。這種知識通常由對手通過發送查詢和觀察分類器的輸出或預測來探測分類器而獲得。現有的文獻主要考慮了對手可用的ML模型參數知識的兩個極端:白盒,即對手有完全的知識,和黑盒,即對手沒有知識。白盒攻擊通常需要對手有大量的預算來發送幾個探針,而黑盒攻擊則假設對手沒有預算來發送探針并獲得ML模型參數的知識。然而,在許多現實生活中,對手可能有有限的預算,可以負擔得起發送幾個探針以獲得ML模型參數的部分知識。我們研究了一個預算有限對手的場景,稱為灰盒技術[8]。我們用一個基于深度學習的文本分類器評估了我們提出的灰盒技術,同時對一個名為DBPedia(

我們研究的最后一個問題是確定文本數據的有效向量表示或嵌入,因為有效的數據表示將使防御者的分類器能夠快速計算出查詢的類別或標簽,同時減少錯誤。大多數現有的生成文本數據嵌入的技術都是在字符級或詞級對文本進行編碼。這兩種表示法都有一定的缺陷:字符級表示法會導致非常大的矢量表示法,消耗空間并需要更多的計算時間,而詞級表示法會導致對不太常用的詞的矢量表示法效率低下,或者對以前未見過的詞沒有表示,導致在從干凈的文本樣本中生成對抗性樣本時,矢量數學計算不精確。我們開發了一種混合的字詞嵌入,其中一個叫做注意力的自適應參數被用來動態地確定是使用字符級還是字詞級編碼來確定一段文本中每個字的向量表示[9]。該技術在一個由學生用英語書寫的考試答案的開源數據集上進行了評估,該數據集被稱為 "劍橋學習者語料庫-英語第一證書"(CLC-FCE)數據集(

我們還組織并主持了一個題為 "網絡安全中的對抗意識學習技術和趨勢 "的研討會,作為AAAI 2018秋季系列研討會的一部分,在弗吉尼亞州阿靈頓舉行。研討會上,人工智能和網絡安全領域的知名研究人員發表了兩個主題演講,并發表了十篇關于對抗性學習的同行評審研究論文。我們在2018年10月的 "AAAI對抗性學習技術和網絡安全趨勢研討會(ALEC 2018)論文集 "上發表了在線研討會的會議記錄[10]。

4.3 2019財年

在這一年里,我們的研究重點是將博弈論與ML結合起來,以開發針對ML模型的對抗性攻擊的反制措施或防御措施。我們今年的主要貢獻是開發了一個新的基于博弈論的框架和算法,稱為重復貝葉斯連續博弈(RBSG)。該技術使使用基于分類器的自動預測機制的學習者能夠降低其分類成本,而不影響在存在對抗性輸入時的分類質量。RBSG結合了一種稱為聯合蒙特卡洛樹搜索(MCTS)的隨機樹搜索算法,該算法有效地探索了學習者和對抗者之間的博弈樹,以及具有對手模型的強盜算法。然后,RBSG算法確定了學習者和對手的每個可能的 "動作 "或行動的效用,并向學習者推薦可能的最佳行動(換言之,具有最大預期效用的行動)。我們為這個問題建立了一個正式的數學模型,包括對防御者和對手可以使用的策略的描述,一個基于博弈論的技術,稱為自我發揮,使防御者能夠建立一個準確的對手行為模型,一個基于蒙特卡洛樹搜索(MCTS)的算法,使用自我發揮的對手模型使防御者能夠快速探索可能的策略,以及RBSG算法,使防御者能夠計算像納什均衡策略一樣的戰略反應,以有效地應對對手的攻擊。我們驗證了我們提出的在存在戰略性修改文本數據的對手的情況下預測文本數據標簽的技術,同時使用收集的亞馬遜產品評論、Yelp商業評論和電子郵件信息的開源文本數據集。我們的結果表明,我們能夠將分類成本降低30-40%,而不會降低分類器的性能指標,如準確率和精確度。

RBSG技術似乎對海軍和國防部有很高的價值潛力,因為它可以降低關鍵應用的操作成本,如網絡安全、導彈探測、雷達和其他信號分析技術,這些應用依賴于對傳入數據的分類,并可能受到對手的攻擊。我們通過NRL專利處理辦公室為RBSG技術的潛在美國專利申請提交了一份發明披露。我們還開始與一家名為Varonis的公司探討CRADA,以實現RBSG技術在網絡安全產品上的潛在商業化。

在這一年里,我們還發表了一份關于網絡安全任務中基于博弈論的對抗性學習技術的全面調查[11]。在調查中,我們將相關技術歸類為攻擊者和防御者之間的零和游戲和一般和游戲。我們為所調查的技術提出了一個新的分類,使用不同的類別,如防御者可獲得的關于對手的初始信息,防御者建立的代表對手攻擊的模型以及技術被驗證的應用領域。調查的最后,我們討論了網絡安全問題中與使用對抗性機器學習技術進一步調查有關的幾個開放性問題。

最后,我們為21財年6.1基礎項目提出了一個題為 "用于防御應用的博弈論機器學習 "的項目,該項目擴展了本報告中的結果,使用強化學習和基于博弈論的技術,在攻擊者與防御者的場景中建立有效的防御措施。

4.4 2020財年

在20財政年度,我們的研究主要集中在兩個方向:研究改進RBSG技術的計算技術,以及評估RBSG在網絡安全相關場景中的應用。在第一個方向下,我們開發了一種基于最近提出的基于博弈論的概念的技術,稱為安全值[12],用于計算防御者的策略。與原始的RBSG技術中基于納什均衡的計算不同,安全值方法假設攻擊者總是做出理性的決定,同時以最佳方式選擇其策略(即攻擊者選擇一個使其效用最大化的策略),安全值方法假設攻擊者可能偶爾會偏離最佳發揮,并且,使防御者能夠預測并利用攻擊者的偏離來改善防御者的表現(減少防御者分類器的操作成本)。我們實施了一種安全值方法,稱為安全的限制性斯塔克伯格反應(RSRS),并將其與RBSG算法相結合。RSRS算法的初步結果顯示,與在RBSG內部使用基于納什均衡的計算方法的成本相比,防御者的成本有5-10%的改善。

對于第二個方向,我們研究了生成惡意軟件數據的對抗性實例的技術,并建立了用于對抗性惡意軟件數據分類的ML模型。生成惡意軟件數據需要從干凈或正常運行的軟件可執行文件中創建惡意軟件可執行文件。這個問題的主要挑戰之一是,從圖像和文本模式的干凈數據中生成對抗性數據的相稱技術不能直接適用于軟件可執行文件,因為使用圖像或文本數據擾動技術擾動可執行文件內的二進制數據可能會破壞可執行文件的功能,使其無法正常工作。我們的研究基于MalGAN[13]技術,并在EMBER[14]和Kaggle惡意軟件數據集(

我們還開始研究一種合適的技術,以正式代表網絡安全場景中防御者與攻擊者的互動,如網絡入侵檢測。具體來說,我們研究了一個正式的數學模型,稱為攻擊圖博弈[15, 16]。在攻擊圖博弈中,攻擊者以順序的方式攻擊網絡資產,而防御者的目標是預測攻擊者未來的攻擊位置并保護它們。我們開始開發一種基于強化學習的算法,與納什均衡等博弈論概念相結合,在攻擊圖博弈框架內為防御者確定合適的策略,同時對攻擊者以前未見過的攻擊、隱蔽性和欺騙性做出智能反應。該算法在網絡入侵檢測場景中的實施和評估目前正在進行。

我們發表了幾篇關于RBSG技術研究成果的文章,包括在國防部AI/ML技術交流會議上的海報[17],在關于AI for Cyber-Security的非存檔研討會[18]上的論文(與AAAI 2020同地舉行),以及在名為FLAIRS(佛羅里達州AI研究協會)會議的同行評審存檔會議上對該研討會論文的略微擴展版本[19]。我們還在INFORMS(運籌學和管理科學研究所)2020年年會上發表了擴展摘要,并應邀介紹了我們在這個主題上的研究[20]。我們在19財年提交的RBSG技術的發明公開,在2020年7月被NRL審查小組批準獲得專利申請。

我們在人工智能、機器學習和網絡安全的交叉領域編輯了一本名為 "Adversary Aware Learning Techniques and Trends in Cyber-Security "的書[21]。該書由人工智能/ML和網絡安全領域的知名研究人員撰寫的10個章節組成,涵蓋了各種不同但又相互關聯的主題,包括以博弈的人工智能和博弈論作為對人工智能/ML系統攻擊的防御手段,有效解決在大型分布式環境(如物聯網)中運行的人工智能/ML的漏洞的方法,以及使人工智能/ML系統能夠與可能是惡意對手和/或善意隊友的人類進行智能互動的技術。

我們為上述書籍貢獻了一章,題為 "重新思考智能行為作為處理機器學習的對抗性挑戰的競爭性博弈"[22],其中我們描述了對抗性機器學習如何需要重新審視傳統的機器學習范式以及對抗性學習如何表現出智能行為。我們認為,發展對對手攻擊的抵抗力可以被建模為競爭性的多人博弈,包括具有矛盾和競爭性目標的不同玩家之間的戰略互動。在進一步的探索中,我們討論了不同的多人博弈環境的相關特征,這些環境被作為研究平臺來調查,以解決公開的問題和挑戰,從而開發出能夠超越人類智慧的人工智能算法。

繼續這個方向,我們在項目中研究的最后一個研究課題是如何通過機器學習技術發展智能能力,在復雜的互動場景中,如《星際爭霸-II》等實時戰略多人博弈中呈現的場景,發展對對手攻擊的抵抗能力[23]。我們開發了一種基于強化學習的算法,使防御者能夠智能地學習博弈戰術,包括何時以及部署多少游戲單位,以何種配置部署游戲單位等,以戰略性地擊敗更強大的對手。我們在虛擬舉行的2020年國防部AI/ML技術交流會上以海報形式展示了我們的研究成果[24],我們在會上表明,由防御者利用強化學習自動學習的策略可以勝過由人類專家手工編碼的基于啟發式的策略。我們目前正在繼續這一研究方向,同時將其擴展到更復雜的攻擊者-防御者類型的交互場景中。

付費5元查看完整內容

深度神經網絡使現代計算機視覺系統在各種挑戰性任務上的性能達到了新的高度。盡管在準確性和效率方面有較大益處,但深度網絡高度參數化的非線性屬性使得它們非常難以解釋,在有對手或異常數據的情況下容易失敗。這種脆弱性使得將這些模型整合到我們的現實世界系統中令人不安。這個項目有兩條主線:(1)我們通過開發最先進的對抗性攻擊來探索深度神經網絡的脆弱性;(2)我們在具有挑戰性的操作環境中(如在開放世界的目標識別和聯合學習場景中)提高模型的穩健性。這項研究總共發表了九篇文章,每篇文章都推動了各自領域的最新進展。

深度神經網絡在機器學習領域,特別是計算機視覺領域取得了巨大的進步。雖然最近關于這些模型的大部分研究都是為了提高任務的準確性和效率,但人們對深度網絡的穩健性還不是很了解。深度網絡的高度參數化性質既是一種福音也是一種詛咒。一方面,它使性能水平遠遠超過傳統的機器學習模型。另一方面,DNN非常難以解釋,不能提供準確的不確定性概念。因此,在將這些強大的模型整合到我們最信任的系統之前,繼續研究和探索這些模型的漏洞是很重要的。

我們研究的第一條主線是通過制作針對各種模型的強大對抗性攻擊來探索DNN的脆弱性。從攻擊的角度來看,對抗性攻擊不僅引人注目,而且它們也是一種工具,使我們能夠更好地理解和解釋復雜的模型行為。對抗性攻擊還提供了具有挑戰性的穩健性基準,我們可以在未來進行測試。我們的理念是,為了創建高度穩健的模型,我們必須從嘗試充分了解它們目前可能失敗的所有方式開始。在第3.1節中,每項工作都有單獨的動機和解釋。在第3.1.1節中,我們首先討論了一個關于高效模型中毒攻擊的早期項目,該項目強調了具有暴露訓練管道模型的一個關鍵弱點。接下來,我們介紹了一系列的研究項目,這些項目引入并建立在特征空間攻擊的新想法上。這類攻擊被證明在更現實的黑盒攻擊環境中比現有的輸出空間攻擊要強大得多。這些論文在第3.1.2-3.2.4節中涉及。在第3.1.5節中,我們考慮了一個以前沒有考慮過的攻擊背景,其中黑盒目標模型與目標模型不存在類分布重疊。我們表明,即使在這種具有挑戰性的情況下,我們也可以利用對我們的特征分布攻擊的調整來對黑盒模型構成重大威脅。最后,第3.1.6節涵蓋了針對強化學習智能體的一類新的黑盒對抗性攻擊,這是一個未被探索的領域,在基于控制的應用中越來越受歡迎。請注意,這些項目的實驗、結果和分析將在第4.0節的相應章節中討論。

我們第二個研究方向的目標是直接增強DNN的穩健性。正如我們在第一條線中所詳述的,目前對抗性攻擊對基于DNN的系統構成了重大風險。在我們足夠信任這些模型并將其整合到我們最信任的系統(如防御技術)之前,我們必須確保我們考慮到所有可行的數據損壞和變異形式。在第3.2.1節中,我們考慮的第一種情況是在分布式學習環境中制定一個針對數據反轉攻擊的原則性防御。之后,在第3.2.2節中,我們極大地提高了自動目標識別(ATR)模型在開放環境中運行的準確性和穩健性,因為我們不能保證傳入的數據將包含訓練分布中的類別。在第3.2.3節中,我們更進一步,開發了一種內存受限的在線學習算法,通過利用部署環境中的樣本,增強了開放世界環境中ATR模型的穩健性。同樣,這些工作的實驗、結果和討論都包含在第4.0節的相應部分。

付費5元查看完整內容
北京阿比特科技有限公司