普渡團隊的提案只針對TA1,其重點是使用機器學習模型來檢測社交工程信息。普渡團隊加入了由伯克利和CMU領導的團隊,組成了LASER團隊。普渡大學團隊開發了訓練社交工程郵件分類模型的技術,并參與了模擬運行和評估工作。我們開發了三個模型。兩個模型分析了主題和正文中的文本。一個TF-IDF(術語頻率-反向文檔頻率)模型使用標準術語頻率信息。第二個模型從文本中提取動機特征來識別信息作者的意圖(例如,獲取信息,訪問社交網絡)。第三個模型是一個知識和圖形模型,從發送者和接收者的信息中提取關系特征。一個集合模型將三個模型的輸出匯總起來進行預測,它由邏輯回歸模型和神經網絡模型組成。該團隊廣泛地探索了不同的模型、訓練技術以及它們對準確性的影響。
這項研究是根據W/001/TOR合同的任務13為加拿大國防研究與發展(DRDC)多倫多研究中心(TRC)進行的,以支持DRDC在先進平臺和武器(APW)戰略重點領域(SFA)的建模和仿真(M&S)能力。目前的研究考察了與便攜式防空系統(MANPADS)有關的人為因素問題。
在DRDC提供的文件基礎上,進行了開源文獻搜索,以確定文獻審查的相關出版物。為匯編和評估制定了一個數據收集框架。根據文獻對便攜式防空系統和人類問題的關注程度,選擇了一套精煉的文獻(N=21)。研究小組審查并總結了這些文獻。審查涉及到與肩扛式導彈的使用概念、系統、訓練方法、測試和評估(T&E)、自動化、生物力學、目標跟蹤和人體性能模型有關的人為因素的作用。在該領域確定了一些人因工程(HFE)的知識差距。
基于這些發現,建議在DRDC的模擬環境中執行一組小型的未來研究課題。此外,還概述了在DRDC模擬環境中推進研究和/或采用原型工具的下一步建議。這些研究課題領域列在下面,需要進行驗證,以確保與DRDC的優先事項相一致。
人體測量分析--根據MIL-STD-1472H標準,開發一個準確的人體性能數據庫,代表全部的人體尺寸范圍(即第5-95百分位)。
環境服裝和防護設備--調查與寒冷天氣服裝相關的人體性能以及穿戴防護設備對準確性的影響,并確定肩扛式導彈是否可以在寒冷天氣環境下合理使用。
與目標交戰序列(TES)相關的操作訓練程序--對操作程序進行訓練和練習,以確保在電池冷卻裝置(BCU)的電池壽命內完成目標獲取和交戰。
地形--小組長選擇最佳位置攻擊空中威脅,確保為小組提供足夠的保護。
任務長度--長期任務對人的表現的影響,這些任務是在緊張的條件下進行的,需要在攜帶貨物時快速移動;以及
視覺搜索模式--調查小范圍和大范圍內的最佳搜索模式(水平、垂直)。
在DARPA終身學習機器(L2M)計劃下,Teledyne著手研究、實施和展示算法方法,以解決兩個關鍵問題。首先,使智能體能夠自我監督,以便在沒有外部干預的情況下適應和學習復雜環境。為了解決這個問題,Teledyne開發并驗證了不確定性跟蹤和調制的作用,使智能體能夠監測自己的性能,并在適當的條件下自信地進行調整。這是一個重大的突破,因為它展示了具身智能體的自我監督學習和任務表現。第二個問題是實現強大的知識表示,盡管不斷地學習和適應,但仍能保持準確,并能適應學習多種任務的復雜性,對知識的粒度和組成可能有不同的要求。Teledyne開發并實施了一個分層學習系統,能夠將任務信息分解到多個層次,以最大限度地提高魯棒性和重復使用。這是一個重大突破,因為它使一類新的學習系統能夠保持一致的知識庫,并對其進行更新以適應多個任務,而不要求它們共享一個統一的表述。由此產生的算法被證明在最先進的機器學習系統中具有提升性能的作用,因此可以被納入許多現今的人工智能解決方案中,使其具備終身的能力。一個關鍵的建議是尋找機會將這些能力過渡到現有的人工智能系統中,從而促進它們向下一波人工智能過渡。另一個建議是將這些成就視為闡明終身學習機制的第一步,并參與持續研究,以更充分地了解如何在高度復雜的環境和條件下實現學習。 這些可能會迫使我們更仔細地研究建立、維護和利用分層知識表示的更完整的解決方案。
圖 1. 分層機器學習系統中選擇可塑性架構
在DARPA終身學習機(L2M)計劃下,Teledyne進行了兩個階段的努力,開發能夠選擇性可塑性的機器學習系統。我們的努力解決了終身學習系統所面臨的兩個關鍵挑戰:(1)對其參數進行持續而穩定的學習,以及(2)如何實現最佳能力分配,以便在任務和條件發生變化時獲得有效的學習和性能。我們的核心前提是,大腦通過神經調節來解決這兩個問題:持續調節神經活動和可塑性的化學信號。具體來說,我們研究了神經調節劑乙酰膽堿(ACh)調節長期突觸可塑性和短期突觸活動的機制,特別是在進行物體識別和鑒定的視覺通路(腹側)。我們的目標是ACh作為編碼信號處理和推理中不確定性水平的反饋信號的作用;我們探討了這一信號如何調節低層次感覺特征的計算和選擇,同時也推動了高層次推理的學習。
這些調節原則構成了我們新穎的、可塑結點網絡(PNN)架構的核心。我們的PNN有一個層次結構,反映了大腦腹側通路的兩階段組織,這也是其他感覺通路所共有的,如聽覺和視覺定位(背側)通路。圖1提供了分層機器學習系統中選擇性可塑性的架構的高層次概述,其中異質層被引入以實現連續的動態,以支持早期層的最佳特征提取和容量分配,同時在后期層實現穩定和連續的學習。以下括號中的數字是指圖1中的橙色數字。調控是由不確定性的措施驅動的(1)。通過分析信號(自下而上)和任務要求/獎勵(自上而下)得出的不確定性被用來(2)影響早期層的特征提取/選擇和后期層的推理。早期各層調制的結果是快速招募網絡能力的特定部分(3),而在后期各層,學習被更強烈地調制,以確保穩定性,同時為新的或更新的任務保持適當的可塑性(4):網絡的早期各層進行特征提取(反映枕葉皮層),而后期各層計算推斷(匹配前額葉和顳葉皮層過程)。一個類似ACH的信號(測量不確定性)動態地調節著網絡的計算和學習。我們的網絡是異質的:不同層次和類型的節點對調制信號的反應不同。
終身學習需要不斷地適應;無論多少訓練都不能使一個網絡,無論是生物還是人工的,為它在其一生中可能收到的所有輸入做好準備。特別是,持續的學習需要有能力改變網絡的參數而不忘記先前的信息(即穩定的學習,也被稱為穩定性-可塑性困境[1])。此外,終身學習系統還面臨著第二個困境:持續編碼新信息的能力需要大量的計算資源,但由于自由參數的數量巨大,非常大的網絡是難以優化的。圖2說明了深度學習架構情況下的擴展限制。正在進行的研究[2]表明,無論用多少數據來訓練深度學習網絡,都無法擴展到任意大小。特別是,我們在DARPA的TRACE項目下進行的內部實驗表明,一旦一個深度網絡超過了最佳規模(圖2中的[a]),其學習能力就會隨著規模的擴大而急劇下降(圖2中的[b])。這意味著,僅僅建立更大的深度網絡并向其提供更多的數據,并不足以實現人類水平的學習。相比之下,我們的調制網絡只招募其節點的一小部分來優化容量(a),同時攜帶大的整體容量(b),使其能夠克服這個擴展限制。相比之下,終身學習系統必須以更智能的方式管理其計算資源,以實現最佳的容量分配和緩解性能下降。
圖 2. 深度學習擴展限制
我們的基本前提是,大腦通過神經調節來實現這兩種能力:利用化學信號不斷調節突觸活動和可塑性。在神經系統中的許多神經調節劑中,乙酰膽堿是哺乳動物大腦中研究最廣泛的一種;它被認為與調節幾種高水平的認知功能有關,包括注意力、學習和記憶。更重要的是,ACh調節長期突觸可塑性和短期神經活動水平,特別是在腹側視覺通路(進行物體識別和鑒定)[2]。乙酰膽堿已被證明可以編碼不確定性,特別是預期的不確定性[3](以及相關的意外獎勵信號[4]),這是觸發和調節學習的一個關鍵反饋信號。特別是在腹腔通路中,乙酰膽堿調節著低層次感覺特征的計算,并驅動著更高層次推理的學習。
作為我們努力的一部分,我們開發了一個分層的、異質的、可塑性結點網絡(PNN)算法,稱為不確定性調節學習(UML),其中基于神經調節的計算特性使網絡的能力得到優化,以允許適應性和穩定性學習(圖3)。UML是根據大腦皮層的分層感覺信號分解和推理機制、反饋注意以及對不匹配的期望進行的神經調控來建模的。在UML中,一個類似ACh的信號(由測量的不確定性觸發)動態地調節著計算和學習。UML在機器學習方面實現了幾個突破性的能力,具體而言:
穩定的學習,允許最大限度的更新,而不干擾現有的學習行為(即解決穩定-可塑性的困境)。
最佳的能力分配,只選擇和加強那些最大限度地提高信息含量和與當前任務相關的特征。
當網絡被配置為分層學習時,導致多種計算動機的共存(即UML可以在不同的任務或行為之間復用)。
以及每次有選擇地招募網絡的不同子集,允許它擴展到任意數量的節點(即幾乎沒有學習新信息的能力)。
UML代表了本地異質結構、反饋信號和神經調節作用的一個引人注目的新計算模型。
圖 3. Teledyne 在 L2M 階段 1 期間開發的 UML 算法
我們的工作展示了算法和一個具有學習機制的集成系統,能夠在復雜的學習任務中進行終身學習。此外,我們證明了我們的UML算法能夠賦予其他機器學習算法以適應能力,在沒有災難性遺忘的情況下進行學習,并在非正常情況下恢復性能。這些結果的總結將在第1.3節介紹。
在該計劃的第二階段,Teledyne領導了一個系統組(SG),目標是整合一整套終身學習能力。為實現這一目標,Teledyne定義了一套最低限度的相關能力,并與我們的不確定性調制的持續學習范式保持一致(圖4,也見第2.2.1節)。該計劃第一階段的兩名L2M執行者被邀請加入我們的SG,他們是加州大學歐文分校,與加州大學圣地亞哥分校(UCI/UCSD)和密蘇里科技大學(S&T)的研究人員合作。在整個第一階段,Teledyne開發并演示了感官信號處理算法,該算法采用自下而上的信號分解架構來推斷與目標和決策有關的假設(圖4中的橙色和藍色塊)。此外,Teledyne開始展示使用注意力機制來調節學習和適應。S&T被招募來利用他們在這個算法系列中的經驗,共同實現一個受大腦自上而下注意力機制啟發的系統組件(圖4中綠色/黃色塊)。在與UCI/UCSD的合作中,我們著手研究睡眠啟發算法在任務執行后優化記憶和跨任務鞏固記憶(即知識)的作用(圖4中分別為洋紅色和青色塊)。
圖 4. 基于 SG 成員開發的類腦機制集成的關鍵 L2M 功能
我們提出的方法的關鍵前提是,智能生物體測量和識別其環境、輸入、約束或目標的關鍵變化,以使它們能夠適應和學習而不需要外部指導(如教師、監督等)。正是通過這種自我監督的監測和評估,一個終身學習的智能體可以在復雜和變化的條件下具備可靠的功能。
通過我們的研究和實驗工作,我們確定了在生物智能系統中,測量和跟蹤不確定性是觸發適應和學習的關鍵機制。我們的L2M智能體被證明可以適應他們所學的技能或將新的技能納入他們的劇目,而不會出現災難性的遺忘。我們還證明了智能體有能力利用以前的技能來提高學習效率(前向和后向轉移),在存在干擾任務或條件變化的情況下快速恢復性能,利用樣本來適應或獲得技能,其效率與單一任務專家相同或更好(見4.1-4.4節)。
最后,Teledyne通過在整個項目第二階段進行的一系列里程碑式的實驗,證明了其綜合系統的有效性。這些結果將在第4.5節中介紹,并強調了在計劃定義的場景中L2M指標的性能。這些實驗有助于在所有L2M SG團隊之間建立穩定的節奏和協調的結果,并記錄性能方面的進展。此外,我們還利用這些實驗來確定我們的系統和/或算法的成功和缺點。對后者的分析被用來優化我們的工作,并適當地關注系統和算法的發展。結果是我們的系統在四個里程碑事件的過程中不斷改進,從第一次事件中只達到一個指標,到第四次事件中達到所有五個指標。這些結果也在第5.0節中進行了總結。
我們在整個項目中的工作完成了其主要目標:
從神經調節的生物機制中得到啟發,得出一個有效的算法
實現一種對現有機器學習系統具有廣泛適用性的算法
使得智能體能夠自我監督,不斷適應和學習
整合一個表現出注意力、基于不確定性的調節、分層學習和睡眠啟發的記憶優化機制的系統,以展示終身學習能力
我們工作的一個重要成就是開發了UML,一個新穎的終身學習算法,能夠自我監督以適應新的條件,從少數樣本中學習,并得出穩健的分層知識表示。最近一個令人振奮的認識是,我們著手研究并在最初提案中提出的關鍵能力(見表1)不僅完全實現,而且在整個計劃的所有實驗和演示中得到了徹底的證明。
表 1. Teledyne 方法的特點和優勢
特點 | 優勢 |
---|---|
不確定性調控學習:我們認為,神經調控可以上調對解決兩個或多個類別之間的區別至關重要的神經元的學習。 | 證明新任務的學習表示不會覆蓋以前學習的任務。 |
不確定性調控容量分配:我們建議研究神經調控在上調網絡部分的激活和學習中的作用,這些部分可以最佳地解決特定任務并抑制那些無助于減少不確定性的部分。 | 構建具有非常大容量的網絡來支持終身學習,同時不會因為只激活網絡中最能支持任務性能的部分而導致準確性下降。 |
不確定性觸發新學習:通過跟蹤預期,新算法可以隨著時間的推移調整和改進其性能,尤其是在引入新任務或條件時。 | 展示了當響應確定性低于所需閾值時如何觸發學習,從而導致系統能夠自主檢測需要學習的新任務或條件。 |
不確定性調控特征提取:跨特征層的信號不確定性測量驅動早期層(特征提取器)中傳遞函數的調控。 | 實施的算法能夠適應特征提取處理以補償任務、條件或信號屬性的變化。 |
在第18個月(M18)的評估中,Teledyne SG顯示的結果表明,我們的終身學習者在五個項目指標中達到或超過了終身學習的門檻,在五個指標中的兩個指標超過了目標。這在第4.5.1節表11中顯示,淺綠色表示某項指標超過了終身學習門檻,深綠色表示某項指標超過了DARPA計劃目標。
我們從努力中得到的一個重要啟示是,不確定性已經被證明是一個有效的措施,它支持在線學習和創建強大的知識表征,而不需要監督或強化信號。我們還確定,我們開發的L2組件可以有效地集成到現有的ML系統中,以支持提高性能(例如,魯棒性、適應性等)。因此,存在大量的過渡機會(例子在第2.4節中討論)。Teledyne將繼續通過政府資助的工作、商業努力和內部資助的研究活動來尋求此類機會。Teledyne 也歡迎任何政府機構或個人要求進行討論,以促進對過渡機會的深入了解或識別。
我們的UML算法被證明是一個有效的組件(第2.3節),不僅適用于一個綜合的L2系統,而且可以作為現有機器學習系統的插件。其中包括為決策支持而設計的端到端系統,UML可以監測超出常規的條件或標記需要額外樣本或學習的條件。UML還被證明可以支持像基于強化學習的智能體那樣復雜的系統在新條件下的性能恢復。由于其輕量級的處理要求,UML可以在一個商品處理器(CPU)上以2000Hz的速度執行,因此適合在許多平臺上部署。
數據高效的機器學習(DEML)對AF/DoD(美空軍/美國防部)的運作至關重要,原因如下:首先,訓練機器學習算法通常需要一個大型的、完全標記的訓練數據集。人類對原始數據的標注是一個昂貴而耗時的過程,尤其是在專家分析師隊伍有限的情況下。因此,機器學習算法必須從有限的標記的訓練數據中產生準確的預測模型。此外,任務環境和目標可能是多樣的、快速變化的,因此,機器學習模型必須能夠快速適應手頭的情況。機器學習系統(和人類分析員)可用的原始數據的質量也往往是不可預測的。可能經常發生的情況是,并非所有用于預測和決策的理想特征都可用。因此,機器學習算法必須對缺失或部分未觀察到的數據具有魯棒性。
這項工作的范圍是在以下關鍵領域為DEML創造新工具:1)為涉及豐富的高維特征空間的分類和搜索問題開發數據效率高的主動學習算法;2)開發新的交互式工具,使人類分析者能夠快速和準確地標記大型數據集;3)開發一個新的框架,用于豐富的人類注釋,除標簽外還提供解釋和特征相關性反饋;4)在軟件中建立算法原型。這些目標將需要對DEML問題進行基本的數學研究和分析、算法開發和原型設計,以及用真實和合成數據集進行測試和實驗。
美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎研究的需求。本報告的目標是定義一個經典的、與陸軍相關的配置,適合于基礎研究,以允許與適當的主題專家的關鍵數量的集中合作。從這種開放的幾何構型研究中獲得的數據和知識可能會受到更多的限制性分配。
美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。
要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎性研究的需求。缺乏對高超音速飛行器周圍發生的復雜物理和化學的預測性知識,抑制了及時的、優化的多部件設計。對邊界層過渡和沖擊-邊界層相互作用等具體現象了解不多。不能正確地對現象進行建模,會產生一些不確定的特征,如表面壓力分布和熱通量,這對飛行器技術,包括穩定性、控制和熱負荷管理,都有負面影響。
幸運的是,有一個先例,即通過定義政府基準飛行器來促進全社會的科學討論,這些飛行器包含功能相關的工件,但對具體的發展計劃不敏感(見陸軍-海軍基本芬納導彈、空軍改良基本芬納導彈、陸軍-海軍旋轉火箭、國家航空航天飛機和NASA研究)。本報告的目標是定義一個典型的、與軍隊相關的配置,適合于基礎研究,以便與足夠數量的適當的主題專家進行重點合作。從這個開放的幾何構型的研究中獲得的數據和知識可能會受到更多的限制性分配。
本報告詳細介紹了“飛行決策和態勢感知項目”研究的結果。這項研究的目的是推薦措施和方法,以評估在未來垂直升降機(FVL)背景下影響飛行員決策和態勢感知(SA)的未來技術。
為了理解FVL航空環境下的決策,我們采用了以下決策的定義:決策包括形成和完善一個信念或行動方案所涉及的認知活動。
在一份臨時報告中,我們(1)回顧了當前描述決策和安全保障的理論方法,(2)確定在美陸軍航空兵環境中,新技術對決策和SA的影響,及替代理論對作戰評估方法的影響。我們通過整合與FVL飛行員最相關的決策模型的核心概念,創建了一個決策和SA的綜合模型。該臨時報告可在USAARL技術報告網站上獲得。
本報告的目的是支持和指導研究、開發、測試和評估學科的人員制定評估計劃并選擇方法和措施,以更好地評估潛在技術對FVL飛行員的效用和功效。本報告包括:(1)評估技術對決策和SA影響的方法和措施的回顧;(2)評估技術如何影響決策綜合模型中描述的五個宏觀認知功能的建議。
本研究有七個關鍵貢獻:
關鍵貢獻1:對當前決策和SA模型的回顧。在第一份報告中,我們回顧并總結了來自行為經濟學、認知心理學、人因工程、自然決策和從業人員社區的模型和理論。我們研究了這些模型和理論與FVL飛行員的相關性。
關鍵貢獻2:一個綜合的決策和SA模型。在第一份報告中,我們綜合了我們所審查的模型的核心概念,創建了一個飛行員決策和SA的綜合模型。決策的綜合模型建立在與FVL飛行員最相關的關鍵宏觀認知功能上(感覺、引導注意力、管理工作量、計劃和溝通/協調)。宏觀認知功能是快速、直觀決策和慢速慎重決策的基礎。該模型由兩個循環組成,即評估和行動,并由感性思維連接。感知是指整合新數據和現有知識的過程,以建立對正在發生的事情的理解,并產生對情況將如何演變的預測。這兩個循環代表了動態的過程,既為感性認識提供信息,也是感性認識的結果。輸出包括不斷發展的計劃、溝通和行動。
關鍵貢獻3:鞏固對FVL飛行者的預期認知要求。我們分析了以前對FVL領域的研究結果,以確定FVL飛行員的預期關鍵決策,并制定了這些飛行員的關鍵認知要求清單。我們將這些認知要求與決策和SA的綜合模型中強調的宏觀認知功能聯系起來。
關鍵貢獻4:描述了與FVL飛行員相關的新興決策輔助工具的清單。我們首先確定了旨在支持陸軍航空兵的航空和導航、通信和高級團隊合作的新興技術。然后我們描述了這些輔助工具是如何支持飛行員決策和SA的五個關鍵宏觀認知功能的。
關鍵貢獻5:關于新技術如何影響決策的經驗教訓。我們總結了過去30年實施新技術的經驗教訓。特別是,我們強調了過去的技術對操作員決策和SA的積極和消極影響。了解個人技術系統在過去的不足之處,為評估新技術對決策和SA的影響提供了重要基礎。
關鍵貢獻6:評估決策和SA的實驗方法和措施。我們回顧了在與陸軍航空相似的領域中研究決策和SA的方法,并確定了評估感知、引導注意力、管理工作量、計劃、溝通和協調的措施。我們為測試新的FVL輔助技術提供了推薦的基于結果的性能措施、過程措施、測試參與者評估和生理措施。
關鍵貢獻7:關于評估新技術效果的建議。我們為設計評估研究提供了一個建議的過程,以確定新的輔助技術對飛行人員決策和SA的影響。評價設計應包括闡明評價的內容。
建議。關于評估設計,我們提出了兩個高級建議:
首先,我們建議使用基于場景的方法來測試和評估技術,重點是探索一系列真實的場景,包括具有認知挑戰性的情況和 "邊緣案例";其次,我們建議使用多種互補的措施來評估新技術對工作量、SA和其他宏觀認知功能的影響。關于下一步,我們鼓勵USAARL繼續編纂、操作和驗證適合在FVL背景下使用的措施。我們建議行使本報告中概述的評估程序,以制定評估新技術在決策和SA方面的最佳做法。我們建議創造機會,通過研討會和從業人員手冊等方式,傳播已確定的最佳做法。
最后,我們鼓勵制定方法和最佳實踐,以評估包含多種技術的綜合系統和預計用于FVL駕駛艙的個人技術界面,以盡量減少潛在的沖突或不一致的信息。
本備忘錄報告是對美國海軍研究實驗室(NRL)資助項目 "對抗性在線學習"研究成果的總結,該項目資助周期為2017財年到2020財年。其主要目標是研究和展示在線機器學習算法的安全漏洞,并以博弈論分析和計算方法為支撐進行利用和反制。
對抗性在線學習項目中的目標是研究和展示在線機器學習算法的安全漏洞,并以博弈論分析和計算方法來支持開發和反措施。人工智能和機器學習算法經常被建模為具有單一目標函數的解決方案,這暗示著存在非智能對手。對抗性環境意味著有多個具有競爭性目標的智能Agent,需要一種更復雜的解決方法,這正是我們所尋求的。
美國海軍研發框架(Naval R&D 框架)包括機器學習和推理算法,其是自主和無人系統的智能推動器。這項研究將學習與推理相結合,以減輕對手對數據的欺騙性操縱,從而影響旨在保護我們資產的在線學習算法的預測。此外,為了實現信息主導地位,未來的系統必須包括利用和操縱對手數據的能力,并保護我們數據的完整性。這項研究在信息主導權方面具有防御性以及進攻性的用途。
美國海軍信息優勢路線圖預測,未來的作戰環境將是高度競爭和信息密集的。它要求對對手進行快速分析和生成情報。探測對手的算法正在改進并變得越來越動態。然而,這些算法并不 "知道 "何時以及如何通過欺騙來隱藏自己的弱點,或對沖他們對數據的欺騙性操縱的預測,而這正是本研究的目標。
四年一度的國防審查和國防戰略越來越強調網絡空間對國家安全的重要性以及潛在對手探測我們關鍵基礎設施的風險。減輕網絡風險需要發展創新的行動概念,以挫敗對手戰略。
技術方法是基于一個博弈論的計算框架,我們將對抗性機器學習的問題視為一個被稱為學習器或防御器的機器學習算法與對手或攻擊者之間的博弈。
對抗性機器學習的背景。我們的研究主要考慮有監督的機器學習算法。在有監督的機器學習中,學習器被提供了一組稱為訓練集的樣本。訓練集中的每個樣本都可以被看作是從一組輸入變量或特征到稱為標簽或類別的輸出變量的映射。學習器的目標是通過觀察訓練集中的樣本(輸入和輸出對)來學習這種映射。訓練結束后,學習器使用其學到的映射來預測輸入的標簽,稱為查詢,其輸出或標簽并沒有提供給學習器。換句話說,機器學習算法使學習器能夠自動確定一個查詢的輸出。舉個例子,如果學習器是一個自動的垃圾郵件過濾器,對學習器的查詢可能是一個電子郵件的文本,而學習器則輸出該郵件是否是垃圾郵件。對抗性機器學習為上述機器學習問題增加了另一個層次的復雜性:對抗者通過不知不覺地修改有效的查詢來向學習器提供可疑的查詢,從而誤導學習器的輸出。例如,一個垃圾郵件發送者可以改變合法電子郵件中的有效超鏈接的幾個字符,并將超鏈接重定向到一個惡意網站,使該電子郵件成為有害或垃圾郵件。但是,學習器可以把不正確的超鏈接解釋為一個打字錯誤,并把修改后的電子郵件歸類為非垃圾郵件。對手略微修改合法軟件可執行文件的類似活動可以將良性軟件轉化為惡意軟件,從而繞過自動惡意軟件檢測器,嚴重損害受保護的計算機系統。顯然,在對抗性機器學習中,學習器有兩個目標:其主要目標是學習有效訓練實例的基礎功能,此外,還要學習識別和正確分類對抗者發送的查詢。在本報告的其余部分,我們根據討論的背景,交替使用了學習器和防御器,以及攻擊者和對手這些術語。
我們的技術方法將學習器和對手之間的互動建模為一個2人博弈。為此,學習器從過去與對手的互動中建立了一個對手的行為模型。然后,學習器與對手的模型進行多次互動,稱為博弈,以便從對手那里獲得不同的攻擊策略并確定相應的反應。例如,在我們的自動垃圾郵件檢測器學習者的例子中,學習器收到的詢問是對對手的模型所發送的電子郵件文本的不同修改。然后,學習器計算出適當的反應,以正確歸類敵方的電子郵件以及來自非敵方的合法電子郵件。我們在學習器與對手的博弈框架中考慮了三個主要方向,如下所述:
1.機器探測:我們專注于兩個問題:(1)如何找到學習器的盲點以操縱預測,以及(2)如何探測學習器以泄露有關其可預測性的信息以達到規避目的。這種類型的互動對應于探索性攻擊,試圖獲得關于學習器的信息(例如,它的偏見、它的特征或它的訓練數據)。
2.機器教學:這里的主要問題是如何毒害學習者,使其在盡可能少的嘗試中做出不準確的預測。這種類型的互動對應于通過訓練數據直接影響學習器的致病攻擊。機器教學被認為是機器學習的一個逆向問題,它將目標模型映射到一組樣本上。
3.反制措施:這方面的研究解決了從機器探測和機器教學中引出的漏洞。我們努力開發一個元學習器,作為學習器的封裝,它將權衡學習器的行動與自適應對手的關系,后者根據學習器的預測動態地演變其戰術。對于博弈的每個方面,探測或教學,我們在對手和學習器之間設置了一個博弈,對手的行動是對數據的操作,而學習器的行動是使用哪種策略來進行預測或攝取數據。收益是錯誤分類風險和學習器特征評估成本與修改對手數據成本的比值。我們的評估基于與非對抗性學習器的性能差異。
總之,我們的技術方法是在機器學習和計算博弈論的交叉點。該研究涉及分析和開發攻擊者與防御者之間的博弈,其中對手試圖回避或學習學習器使用的機器學習算法的信息,對手試圖主動修改學習器使用的機器學習算法的機器教學,以及反制措施,即學習器學會對對手的機器探測和機器教學相關行動做出戰略反應。
我們按財政年度總結了項目的主要結果和成果,如下所述。
在項目的第一年,我們研究對比了應用于網絡安全的生成性和判別性機器學習(ML)模型。我們開發了一個基于深度學習的ML模型,利用字符級卷積神經網絡(CharCNN)[1]將電子郵件文本數據分類為垃圾郵件或非垃圾郵件,并使用Kaggle電子郵件和安然電子郵件數據集驗證了該ML模型(//www.kaggle.com/venky73/spam-mails-dataset,//www.kaggle.com/wanderfj/enron-spam)。我們還在[2]中發表了一個初步的基于博弈論的框架,使基于ML的分類器能夠預測它所收到的查詢是合法的還是來自對手的探測攻擊。
該項目涉及使用快速梯度符號法(FGSM)[3]從圖像數據的干凈樣本中生成擾動樣本的算法。該技術在生成來自MIST數據集的手寫數字的擾動圖像方面得到了驗證[4]。
在項目的第二年,主要致力于開發ML技術,用于模擬對手生成對抗性數據的策略。最近關于最先進的網絡安全技術的調查顯示,電子郵件文本和網絡數據包經常被攻擊者用來繞過網絡防御,如電子郵件垃圾郵件過濾器或惡意軟件檢測器[5, 6]。基于這一觀察,主要使用字符串數據,如電子郵件和社交媒體上的帖子的文本數據,以及網絡流量數據作為我們研究的主要數據模式。
作為第一個任務,開發了一個生成對抗性文本數據的算法。實現了Liang等人[7]的算法的一個略微修改版本,用于對文本數據樣本進行最小化的擾動,以生成一個對抗性樣本。Liang等人的原始算法被設計為戰略性地確定在一個給定的干凈文本樣本中改變哪些字符和多少字符,從而使改變后的文本被分類為與干凈文本不同的標簽,而該模型已被預先訓練為文本數據的分類。我們略微修改了算法,使干凈文本中要被擾亂的字符數可以作為算法的輸入參數來指定。這使我們能夠對使用不同擾動量或擾動強度的對手進行建模,這與他們的能力(如可用的預算、計算資源等)相稱,以從干凈的數據中產生對抗性數據。
接下來,我們研究了當對手的預算有限時產生對抗性數據的問題。對用于分類查詢的ML模型的參數和超參數的了解是對手產生成功規避攻擊的一個關鍵因素。這種知識通常由對手通過發送查詢和觀察分類器的輸出或預測來探測分類器而獲得。現有的文獻主要考慮了對手可用的ML模型參數知識的兩個極端:白盒,即對手有完全的知識,和黑盒,即對手沒有知識。白盒攻擊通常需要對手有大量的預算來發送幾個探針,而黑盒攻擊則假設對手沒有預算來發送探針并獲得ML模型參數的知識。然而,在許多現實生活中,對手可能有有限的預算,可以負擔得起發送幾個探針以獲得ML模型參數的部分知識。我們研究了一個預算有限對手的場景,稱為灰盒技術[8]。我們用一個基于深度學習的文本分類器評估了我們提出的灰盒技術,同時對一個名為DBPedia(
我們研究的最后一個問題是確定文本數據的有效向量表示或嵌入,因為有效的數據表示將使防御者的分類器能夠快速計算出查詢的類別或標簽,同時減少錯誤。大多數現有的生成文本數據嵌入的技術都是在字符級或詞級對文本進行編碼。這兩種表示法都有一定的缺陷:字符級表示法會導致非常大的矢量表示法,消耗空間并需要更多的計算時間,而詞級表示法會導致對不太常用的詞的矢量表示法效率低下,或者對以前未見過的詞沒有表示,導致在從干凈的文本樣本中生成對抗性樣本時,矢量數學計算不精確。我們開發了一種混合的字詞嵌入,其中一個叫做注意力的自適應參數被用來動態地確定是使用字符級還是字詞級編碼來確定一段文本中每個字的向量表示[9]。該技術在一個由學生用英語書寫的考試答案的開源數據集上進行了評估,該數據集被稱為 "劍橋學習者語料庫-英語第一證書"(CLC-FCE)數據集(
我們還組織并主持了一個題為 "網絡安全中的對抗意識學習技術和趨勢 "的研討會,作為AAAI 2018秋季系列研討會的一部分,在弗吉尼亞州阿靈頓舉行。研討會上,人工智能和網絡安全領域的知名研究人員發表了兩個主題演講,并發表了十篇關于對抗性學習的同行評審研究論文。我們在2018年10月的 "AAAI對抗性學習技術和網絡安全趨勢研討會(ALEC 2018)論文集 "上發表了在線研討會的會議記錄[10]。
在這一年里,我們的研究重點是將博弈論與ML結合起來,以開發針對ML模型的對抗性攻擊的反制措施或防御措施。我們今年的主要貢獻是開發了一個新的基于博弈論的框架和算法,稱為重復貝葉斯連續博弈(RBSG)。該技術使使用基于分類器的自動預測機制的學習者能夠降低其分類成本,而不影響在存在對抗性輸入時的分類質量。RBSG結合了一種稱為聯合蒙特卡洛樹搜索(MCTS)的隨機樹搜索算法,該算法有效地探索了學習者和對抗者之間的博弈樹,以及具有對手模型的強盜算法。然后,RBSG算法確定了學習者和對手的每個可能的 "動作 "或行動的效用,并向學習者推薦可能的最佳行動(換言之,具有最大預期效用的行動)。我們為這個問題建立了一個正式的數學模型,包括對防御者和對手可以使用的策略的描述,一個基于博弈論的技術,稱為自我發揮,使防御者能夠建立一個準確的對手行為模型,一個基于蒙特卡洛樹搜索(MCTS)的算法,使用自我發揮的對手模型使防御者能夠快速探索可能的策略,以及RBSG算法,使防御者能夠計算像納什均衡策略一樣的戰略反應,以有效地應對對手的攻擊。我們驗證了我們提出的在存在戰略性修改文本數據的對手的情況下預測文本數據標簽的技術,同時使用收集的亞馬遜產品評論、Yelp商業評論和電子郵件信息的開源文本數據集。我們的結果表明,我們能夠將分類成本降低30-40%,而不會降低分類器的性能指標,如準確率和精確度。
RBSG技術似乎對海軍和國防部有很高的價值潛力,因為它可以降低關鍵應用的操作成本,如網絡安全、導彈探測、雷達和其他信號分析技術,這些應用依賴于對傳入數據的分類,并可能受到對手的攻擊。我們通過NRL專利處理辦公室為RBSG技術的潛在美國專利申請提交了一份發明披露。我們還開始與一家名為Varonis的公司探討CRADA,以實現RBSG技術在網絡安全產品上的潛在商業化。
在這一年里,我們還發表了一份關于網絡安全任務中基于博弈論的對抗性學習技術的全面調查[11]。在調查中,我們將相關技術歸類為攻擊者和防御者之間的零和游戲和一般和游戲。我們為所調查的技術提出了一個新的分類,使用不同的類別,如防御者可獲得的關于對手的初始信息,防御者建立的代表對手攻擊的模型以及技術被驗證的應用領域。調查的最后,我們討論了網絡安全問題中與使用對抗性機器學習技術進一步調查有關的幾個開放性問題。
最后,我們為21財年6.1基礎項目提出了一個題為 "用于防御應用的博弈論機器學習 "的項目,該項目擴展了本報告中的結果,使用強化學習和基于博弈論的技術,在攻擊者與防御者的場景中建立有效的防御措施。
在20財政年度,我們的研究主要集中在兩個方向:研究改進RBSG技術的計算技術,以及評估RBSG在網絡安全相關場景中的應用。在第一個方向下,我們開發了一種基于最近提出的基于博弈論的概念的技術,稱為安全值[12],用于計算防御者的策略。與原始的RBSG技術中基于納什均衡的計算不同,安全值方法假設攻擊者總是做出理性的決定,同時以最佳方式選擇其策略(即攻擊者選擇一個使其效用最大化的策略),安全值方法假設攻擊者可能偶爾會偏離最佳發揮,并且,使防御者能夠預測并利用攻擊者的偏離來改善防御者的表現(減少防御者分類器的操作成本)。我們實施了一種安全值方法,稱為安全的限制性斯塔克伯格反應(RSRS),并將其與RBSG算法相結合。RSRS算法的初步結果顯示,與在RBSG內部使用基于納什均衡的計算方法的成本相比,防御者的成本有5-10%的改善。
對于第二個方向,我們研究了生成惡意軟件數據的對抗性實例的技術,并建立了用于對抗性惡意軟件數據分類的ML模型。生成惡意軟件數據需要從干凈或正常運行的軟件可執行文件中創建惡意軟件可執行文件。這個問題的主要挑戰之一是,從圖像和文本模式的干凈數據中生成對抗性數據的相稱技術不能直接適用于軟件可執行文件,因為使用圖像或文本數據擾動技術擾動可執行文件內的二進制數據可能會破壞可執行文件的功能,使其無法正常工作。我們的研究基于MalGAN[13]技術,并在EMBER[14]和Kaggle惡意軟件數據集(
我們還開始研究一種合適的技術,以正式代表網絡安全場景中防御者與攻擊者的互動,如網絡入侵檢測。具體來說,我們研究了一個正式的數學模型,稱為攻擊圖博弈[15, 16]。在攻擊圖博弈中,攻擊者以順序的方式攻擊網絡資產,而防御者的目標是預測攻擊者未來的攻擊位置并保護它們。我們開始開發一種基于強化學習的算法,與納什均衡等博弈論概念相結合,在攻擊圖博弈框架內為防御者確定合適的策略,同時對攻擊者以前未見過的攻擊、隱蔽性和欺騙性做出智能反應。該算法在網絡入侵檢測場景中的實施和評估目前正在進行。
我們發表了幾篇關于RBSG技術研究成果的文章,包括在國防部AI/ML技術交流會議上的海報[17],在關于AI for Cyber-Security的非存檔研討會[18]上的論文(與AAAI 2020同地舉行),以及在名為FLAIRS(佛羅里達州AI研究協會)會議的同行評審存檔會議上對該研討會論文的略微擴展版本[19]。我們還在INFORMS(運籌學和管理科學研究所)2020年年會上發表了擴展摘要,并應邀介紹了我們在這個主題上的研究[20]。我們在19財年提交的RBSG技術的發明公開,在2020年7月被NRL審查小組批準獲得專利申請。
我們在人工智能、機器學習和網絡安全的交叉領域編輯了一本名為 "Adversary Aware Learning Techniques and Trends in Cyber-Security "的書[21]。該書由人工智能/ML和網絡安全領域的知名研究人員撰寫的10個章節組成,涵蓋了各種不同但又相互關聯的主題,包括以博弈的人工智能和博弈論作為對人工智能/ML系統攻擊的防御手段,有效解決在大型分布式環境(如物聯網)中運行的人工智能/ML的漏洞的方法,以及使人工智能/ML系統能夠與可能是惡意對手和/或善意隊友的人類進行智能互動的技術。
我們為上述書籍貢獻了一章,題為 "重新思考智能行為作為處理機器學習的對抗性挑戰的競爭性博弈"[22],其中我們描述了對抗性機器學習如何需要重新審視傳統的機器學習范式以及對抗性學習如何表現出智能行為。我們認為,發展對對手攻擊的抵抗力可以被建模為競爭性的多人博弈,包括具有矛盾和競爭性目標的不同玩家之間的戰略互動。在進一步的探索中,我們討論了不同的多人博弈環境的相關特征,這些環境被作為研究平臺來調查,以解決公開的問題和挑戰,從而開發出能夠超越人類智慧的人工智能算法。
繼續這個方向,我們在項目中研究的最后一個研究課題是如何通過機器學習技術發展智能能力,在復雜的互動場景中,如《星際爭霸-II》等實時戰略多人博弈中呈現的場景,發展對對手攻擊的抵抗能力[23]。我們開發了一種基于強化學習的算法,使防御者能夠智能地學習博弈戰術,包括何時以及部署多少游戲單位,以何種配置部署游戲單位等,以戰略性地擊敗更強大的對手。我們在虛擬舉行的2020年國防部AI/ML技術交流會上以海報形式展示了我們的研究成果[24],我們在會上表明,由防御者利用強化學習自動學習的策略可以勝過由人類專家手工編碼的基于啟發式的策略。我們目前正在繼續這一研究方向,同時將其擴展到更復雜的攻擊者-防御者類型的交互場景中。
這項工作是DARPA資助的Active Interpretation of Disparate Alternatives(AIDA,對不同選擇的積極解釋)項目的一部分,該項目旨在自動建立一個知識庫,可以通過查詢來戰略性地生成關于事件的不同方面的假設。我們作為TA1團隊參與了這個項目,并開發了一個管道,可以整合文本和視覺輸入,并處理這些多模態數據以捕捉由實體、事件和關系代表的事件。我們開發了基于圖表示的方法,通過借鑒文本中確定的依賴關系,或借鑒我們開發的一種新方法,使用關聯嵌入來創建視頻上的圖表示。由此產生的結構是一個知識圖譜,通過查詢可以戰略性地產生關于事件不同方面的假設。
在我們的現代世界中,事件和情況迅速鋪展,產生了大量的互聯網文章、照片和視頻。對這些豐富的信息進行自動分類的能力將使我們能夠確定哪些信息是最重要和最可信的,以及趨勢是如何隨著時間的推移展開的。在本文中,我們提出了對網絡上大量政治數據進行分類的系統第一部分。我們的系統接受原始的多模態輸入(如文本、圖像和視頻),并生成一個以有意義的方式連接實體、事件和關系的知識圖譜。
我們的項目是DARPA資助的Active Interpretation of Disparate Alternatives (AIDA)項目的一部分,該項目旨在自動建立一個知識庫,可以通過查詢來戰略性地生成關于一個事件的不同方面的假說。我們作為TA1團隊參與了這個項目,建立了整個系統的第一步。
我們的方法在圖1中概述,并將在以下章節中詳細討論。該管道的第一步是預處理,如圖1最上面一行所示。原本以多種語言書寫的原始文本文件被翻譯成英文,音頻和視頻片段被轉錄并翻譯成英文。這些經過翻譯的數據被傳遞到管道的第二階段(圖1的中間一行)。在這里,相關的實體(例如,人、地方、國家)被提取出來,這些實體被用來提取連接實體的關系和事件。最后,這些實體、事件和關系被傳遞到管道的最后階段(圖1的底行)。我們輸出一個完全成型的知識圖,代表我們從原始輸入文檔中收集到的信息。這個知識圖譜包括實體以及它們之間的聯系。
圖1:AIDA的整體管道。我們的系統部分接收原始文本文件(左上)和音頻和視頻(右上),并輸出一個知識圖譜(右下)。
達爾豪西大學大數據分析研究所、加拿大國防研究與發展研究所 (DRDC) – 大西洋研究中心和加拿大通用動力任務系統 (GDMS-C) 成功向加拿大自然科學與工程研究委員會 (NSERC) 提出申請, 促成了一個為期三年的資助項目,名為自動監控海軍信息空間 (AMNIS)。 AMNIS 啟動會議于 2020 年 10 月 14 日舉行,眾多教授、國防科學家和 GDMS-C 技術人員參加了會議。會議確定了三個組織的多項行動。與 DRDC 和 GDMS-C 相關的一項行動是需要與任務相關的情景來幫助指導預期的研究。因此,DRDC 率先描述了一個具有代表性的海陸情景,這將使研究人員能夠更好地了解與 AMNIS 相關的潛在研究途徑。開發的場景涉及由加拿大皇家海軍 (RCN) 和加拿大陸軍 (CA) 執行的加拿大人道主義任務。任務是向最近遭受自然災害襲擊的國家分發食品和醫療用品。敵對勢力也試圖竊取物資。該場景描述了通過更好的處理技術和決策來改進信息流、共享和使用的需求。該方案旨在引發進一步的討論并幫助鞏固 AMNIS 參與者的研究主題。
AMNIS 項目將推動國防界在機器學習、深度學習、人工智能、可視化的許多方面、弱勢網絡上的信息共享、基于場景的決策以及人類績效建模和團隊合作方面的知識。這里描述的海洋/陸地情景旨在激發支持這些主題的研究途徑。