這份最終報告描述了在AFOSR獎勵FA2386-20-1-4043下進行的三個分支研究成果。我們在針對神經網絡分類器的中間人(MitM)對抗性攻擊的最先進對抗性防御框架、針對離散序列數據(如自然語言文本、蛋白質序列等)的快速而準確的黑盒對抗性攻擊算法以及離線強化學習的穩健策略優化算法方面取得了重大進展。研究成果通過以下方式傳播:(i) 在人工智能領域的頂級出版場所(NeurIPS、AAAI、ICML)發表文章;(ii) 在Github上公開源代碼,以實現可重復性和傳播;(iii) 在首爾國立大學為本科和研究生水平的人工智能課程授課。
本最終技術報告總結了 2018 年 9 月至 2022 年 9 月期間 AFRL 項目 "嵌入式深度學習和高級計算 "的研發工作。該項目涉及兩個重要的技術趨勢:使用深度神經網絡(DNN)的深度學習正迅速成為許多機器學習應用的首選方法,而網絡邊緣的嵌入式設備正變得越來越廣泛。通過這兩種技術的融合,我們可以看到新一代嵌入式設備的出現,它們可以執行智能任務,如學習未知環境和感興趣的目標、周圍環境的三維映射、執行數據分析以及根據本地數據進行預測。這些設備構成了所謂的人工智能物聯網(AIoT)[1]。
本研究項目研究的基礎技術可促進未來嵌入式深度學習的高效訓練和推理計算系統。研究的主要方法包括 (1) 使用隨機舍入的可變精度分塊浮點;(2) 采用術語量化,將浮點數量化為 2 次冪術語,而不是傳統的均勻量化;(3) 使用特定領域詞匯對預訓練語言模型進行調整;(4) 通過使用恒定帶寬塊的調度最大限度地減少內存訪問;(5) 在算法的協同設計中應用全棧優化、 (6) 為可穿戴計算拆分神經網絡,(7) 設計用于檢測輸入到 DNN 的非分布式輸入的算法,(8) 為高效的 DNN 系統陣列實現打包稀疏 DNN,(9) 為 DNN 的 3DIC 實現設計內存邏輯架構和系統構建模塊,以及 (10) 在內存計算中利用位級稀疏性。
卷積神經網絡(CNN)等深度神經網絡(DNN)實現了深度學習。它們具有多層非線性特征轉換,每增加一層就能提取出越來越好的特征。然而,訓練一個大型 DNN 并在這樣的網絡上執行推理需要耗費大量的時間和精力。對于大型語言模型(LLM)和生成式對抗網絡(GAN)等大型深度網絡來說,訓練成本很高。由于小型人工智能物聯網(AIoT)設備在處理能力、內存占用和功耗預算方面存在嚴格的資源限制,因此在這些設備上進行訓練和推理更具挑戰性。有必要共同設計算法、模型和硬件參數,以便在這些嵌入式設備上執行高效的訓練和推理。在為嵌入式設備訓練復雜的深度模型時,并行處理、管理內存訪問時間表和利用數據稀疏性等高級計算技術至關重要。
本項目旨在針對嵌入式深度學習和推理中的關鍵挑戰開展廣泛研究。例如,我們探索了嵌入式深度學習與基于并行和分布式計算的高級計算之間的相互作用。該項目利用了 PI 在相關領域的經驗,包括他早期在系統陣列以及分布式和嵌入式神經網絡架構方面的工作。我們將在本報告的其余部分重點介紹我們已發表的部分成果。
喬治敦大學安全與新興技術中心(CSET)和艾倫-圖靈研究所新興技術與安全中心(CETaS)的這份聯合報告評估了目前自主網絡防御的最先進水平及其未來潛力,確定了進展的障礙,并建議采取具體行動來克服這些障礙。這些發現和討論將與參與開發自主網絡防御能力的網絡安全從業人員、政策制定者和研究人員有關。
鑒于網絡攻擊造成的巨大經濟和社會損失以及人工智能(AI)的最新進展,近年來,人們對應用人工智能加強網絡防御的興趣越來越大。對自主網絡防御的研究正在擴大,它不僅可以檢測威脅,而且可以參與防御措施,如加固或恢復。本報告重點關注創建這些自主網絡防御代理的一種有前途的方法:強化學習(RL)。
自主網絡防御沒有一個統一的定義,但在最基本的層面上,這些代理將完成人類網絡防御者的一些任務,保護網絡和系統,檢測惡意活動,并對異常或惡意行為作出反應,但要以數字攻擊的速度。
本報告提出了自主網絡防御的擬議定義,調查了自主網絡防御的現狀以及該技術成為可行的網絡安全工具所必須克服的相關挑戰。不能保證自主網絡防御會成功,但該技術正處于一個需要政策支持的階段,以實現潛在的好處,并幫助網絡防御者處理現代網絡安全行動的速度和不確定性。
RL是創建網絡防御代理的領先AI方法,這是有效的自主網絡防御的核心要求。2012年,當RL代理首次在簡單的雅達利游戲中擊敗人類專家時,這項技術的地位日益突出。在這一成功的基礎上,從2015年到2018年,DeepMind為更具挑戰性的游戲建立了系統,包括圍棋和國際象棋,取得了意想不到的成功水平。研究人員對RL趨之若鶩,部分原因是這些成功,但也是因為OpenAI的一個開放框架,它允許創建簡單的模擬訓練環境或 "健身房"。OpenAI健身房的形式簡化了研究和開發,在過去的幾年里,網絡健身房已經開始出現,允許訓練和創建網絡防御代理。甚至在最近,這些健身房成為名為 "網絡自主實驗健身房"(CAGE)的公開網絡安全競賽的一部分。
我們的研究立足于基于強化學習(RL)的人工智能代理的潛力,以提供實現部分或全部自主網絡防御概念所需的自主能力。雖然與自主網絡防御有關的有前途的相關建模方法、技術和工藝的范圍很廣,但我們對RL的關注是由于在網絡防御中應用RL的努力增加,以及RL在其他問題領域取得的可喜成果。
雖然自主網絡防御的核心技術在過去十年中進展迅速,但在系統能夠投入使用之前仍有許多挑戰。在這個研究項目的過程中,我們采訪了政府和非政府專家,以確定建立和部署可信系統的要求,其中包括:
為了滿足這些要求并繼續取得進展,自主網絡防御這一新生領域需要得到培育。RL最近才開始在網絡安全方面起飛。近年來,學術出版物激增,培訓網絡RL代理也開始大量涌現。然而,與這些代理將面臨的更復雜的現實世界的網絡環境相比,能力仍然是初級和不完整的。持續的資金、協調的努力以加強模擬、仿真和評估工具、確保熟練的人員,以及提供對現實數據和基礎設施的訪問,將有助于確保進展。
如果能夠克服技術挑戰,自主網絡防御有很大的發展潛力。目前為網絡防御建立的代理和環境考慮的變量和可能性比更著名的RL代理(如圍棋或視頻游戲如Atari或DOTA2)少。這意味著有足夠的潛力讓代理越來越智能;它們可以管理更多可能的防御行動,并在更復雜的環境中運作,需要它們探索更多的情況。我們對技術挑戰的探索表明,自主網絡防御將是一個長期的雄心壯志,只能在未來幾年內實現。
盡管在自主網絡防御領域取得了重大進展,但我們的研究表明,還沒有自主網絡防御系統被實際部署。鑒于目前技術的成熟度,我們提出了發展這些能力以使技術成熟的建議(建議的完整清單見第4節)。
對擴大規模進行投資。該領域可以通過做更大、更真實的網絡模擬,納入更復雜的場景和攻擊者的行為來改進。更高的保真度將導致更有能力的網絡防御代理。此外,發布和維護工具,如健身房或訓練有素的代理,可以幫助吸引學術界或其他研究人員來做這項工作。最后,持續的資金也將使研究人員更容易向這些項目看齊。
建立并提供測試和訓練場。更大和更復雜的代理將需要更多的計算密集型訓練和測試,這可能使一些研究人員的資源緊張。建立和維護大型計算系統也是一個挑戰,這需要難以得到的人才。提供必要的基礎設施、人才和資金資源--也許是以補貼成本的方式,也可以幫助加速進展并提供連續性。
協調數據共享。政府和行業的政策制定者有權力發布有關需要防御的網絡和他們所觀察到的威脅的網絡數據。這些都是需要仔細考慮的微妙問題,但只要共享數據能改善網絡安全,所有組織都會受益。
舉辦比賽。繼續舉辦自主的網絡防御競賽,并輔以財政獎勵,作為改善健身房和代理商的一種手段,同時培養未來的人才。
優先考慮能使自主網絡防御的利益最大化的領域。并非所有的網絡防御情況都需要自主代理,如速度不是限制因素或防御已經有效的情況。優先考慮自主性影響最大的領域可以幫助指導研究。同樣地,一些技術,如漏洞發現,對防御者或攻擊者都有幫助。政策制定者應投資于研究,以確定哪些情況和技術會導致更好的防御,而不是改進攻擊。
確定防御者代理是否需要攻擊者代理。在創建現實的模擬時,不清楚在多大程度上可以在沒有進攻者代理的情況下建立防御者代理來驅動它們。研究人員和政策制定者應該探索在不犧牲防御者有效性的情況下限制進攻代理的能力的方法,并對代理技術和知識的擴散建立嚴格的控制。他們還應該投資于研究,以了解哪些具體情景和技術需要進攻性制劑。
確定自主網絡防御代理的授權門檻。自主網絡防御代理將需要達到對一個組織的高度信任,以獲得高度的自主權。需要制定政策指導,為能力和可信度設定初始目標,與代理被授權做出的決定的風險相匹配。這種指導可以類似于為自主車輛制定的自主水平。它們也可以根據情況或威脅環境的各個方面而變化。
圖1:GAN Turk假標簽和GAN Turk合成系統圖
這份最終報告記錄了在DARPA的“少標簽學習” (LwLL)項目過程中進行的一系列調查。專注于圖像分類的領域適應和目標檢測的地理空間應用。探索了生成建模技術,包括新穎的GAN Turk方法,以及主動學習,以減少圖像分類的標簽要求。還研究了使用GAN Turk、一致性正則化和自我訓練來進行地理空間數據集的目標檢測。發現:
評估了幾種用于圖像分類和物體檢測的生成式建模技術。評估了CycleGAN、CUT和我們自己的GAN Turk方法的兩次迭代,該方法受到CycleGAN的啟發。
作為第一年評估的一部分,還考慮了主動學習,并提交了一個coreset主動學習組件作為評估的一部分。coreset方法是在與基于熵的選擇方法和其他抽樣方法進行比較后選擇的,除了其以特征距離為動機的設計外,還基于公開和內部結果。然而,內部結果和評估結果顯示它不是一個可靠的方法。
自我訓練和一致性正則化的結合是在這個項目中研究的最有希望的方法。研究了STAC方法作為第三年評估的目標檢測系統。內部結果顯示,這兩種技術的結合可以用于合成到真實領域的適應性,也可以更普遍地用于地理空間應用。此外,還表明,在地理空間數據集中,為一致性正則化而對空圖像進行偽標簽的做法對STAC產生了好處。在第三年的評估中,假標簽空圖像的顯著優勢未能得到測試,因為這些數據集不包含任何圖像,即所有的圖像至少包含一個感興趣的目標。
作為項目要求的一部分,參加了年度獨立的第三方評估,并在第3.6至3.8節中記錄了這些結果。在評估過程中,主要挑戰之一是計算預算。提交的GAN Turk和STAC系統需要比基線方法多得多的計算。因此,這些方法學在每個評估任務中只提交了幾個檢查點。
在第4節中,記錄了我們的軟件可交付成果,并對軟件架構進行了簡要概述。還提供了Docker鏡像的配置,以打包系統進行評估。
總的來說,團隊為政府的知識庫做出了貢獻,即哪些方法對少許標簽的學習有希望,哪些沒有。這種探索是使用合理的科學方法和精心控制的實驗進行的,旨在對各種方法進行無偏見的評估。本報告總結了在整個LwLL計劃中的主要發現,并強調了認為有希望的幾個領域,以及根據我們在這個基礎研究計劃中收集到的證據,不建議追求的其他領域。
圖2. 用于SIENNA的技術途徑和方法的高級表示。
本報告詳細介紹了一種使用聊天機器人技術與對話者接觸的新方法,同時通過使用軟件代理中實現的獨特虛擬角色積極征求信息。這項研究名為 "調查和獲取攻擊者信息的策略"(SIENNA),是在國防高級研究計劃管理局(DARPA)主動社會工程防御(ASED)項目的技術領域(TA)2下進行的。
我們研究的產品包括兩個主要技術:
TA2成功的關鍵是產生符合邏輯和連貫的對話。這種對話應能有效地吸引對話者并與之互動,就像他們與另一個人交流一樣。為了生成內容,我們采用了一種新穎的自然語言生成作者方案,該方案由屬性語法驅動。SIENNA-Bot遵循的是一種管道設計方法:
在投入時間設計和開發語言理解和生成組件之前,為了證明這種設計的有效性,我們開發了一個帶有簡單對話生成器的初步概念驗證聊天機器人。這個機器人的目標是確認通過簡單的話語技術使對話者參與對話的功效,而不需要開發必要的組件來解析和理解信息內容。由此產生的機器人能夠通過扮演兩個不同的角色之一來反擊冒名頂替的攻擊:
在這個基礎機器人的基礎上,我們接下來研究了通過納入NLU和NLG將現實主義引入對話的技術。SIENNA中的NLU模塊的目標是:
這一目標是通過使用預先訓練好的Transformer模型來實現的,該模型增加了理解對話者信息的語用學的層次,同時提取關鍵的信息,稱為標志。由此產生的NLU能夠對各種類型的話語行為進行分類,其主要優勢在于提供:
例如,通過檢測對話者在回答任務時的爭論,SIENNA可以利用這一信息來改變任務的方向,或者分配一個新的、可能更容易的任務。信任跟蹤的概念也被納入SIENNA的NLU中,其指導原則是::
從這些公理出發,我們設計了NLU功能,將任務的成功完成與每個信息內容的確定合規性相結合。如果一個任務沒有完成,或者NLU模塊在信息中檢測到憤怒、沮喪或不耐煩等情緒,那么整體的信任度就會下降。相反,如果對話者順從并愿意回答問題,信任程度就會上升。
我們通過納入兩種技術進一步發展了對話生成功能:
這項工作產生了一個NLG模塊,它能夠通過與對話者爭吵、爭論和對一件小事提出異議的過程,根據輸入信息的語義產生對話。
隨著這些新技術的加入,SIENNA機器人納入的對話理解和一致性水平遠遠超出了項目開始時計劃的最初 "啞巴 "機器人戰略。
SIENNA采取的程序性內容生成方法需要有創造對話領域的能力。具體來說,要有讓非開發人員和非SIENNA專家構建新任務的功能。SIENNA使用一種策略,向對話者提出越來越復雜的問題,以消耗對話者的時間,同時從他們那里獲得信息。這些問題被稱為任務。為了使內容創作者能夠為一個領域編寫一系列的任務,我們開發了一個用戶友好的編輯器,叫做Cervantes。
創建Cervantes編輯器的第一步是設計和開發一種特定領域的語言(DSL)。通過使用DSL,我們建立了一個正式的結構,促進了對Cervantes設計的快速迭代。DSL的語義包括:
由此產生的Cervantes的功能集包括:
在該項目過程中,我們開發了一個由50個任務組成的任務庫。此外,我們將塞萬提斯部署在一個共享服務器上,所有表演者都可以訪問,有多個非雷神BBN技術公司(BBN)的合作者團隊創建了任務庫,如科羅納病毒病(COVID)任務庫和法院傳票庫。
總之,SIENNA使用富有表現力的聊天機器人與對話者接觸的方法表現出了有效和驗證的結果。在該項目過程中,SIENNA捕捉到的真正的正面標志的數量從71%增加到89%。多個非SIENNA團隊組織成功地使用塞萬提斯創建了他們自己的特定領域追求庫。
我們對SIENNA的進一步發展的主要建議是:
普渡團隊的提案只針對TA1,其重點是使用機器學習模型來檢測社交工程信息。普渡團隊加入了由伯克利和CMU領導的團隊,組成了LASER團隊。普渡大學團隊開發了訓練社交工程郵件分類模型的技術,并參與了模擬運行和評估工作。我們開發了三個模型。兩個模型分析了主題和正文中的文本。一個TF-IDF(術語頻率-反向文檔頻率)模型使用標準術語頻率信息。第二個模型從文本中提取動機特征來識別信息作者的意圖(例如,獲取信息,訪問社交網絡)。第三個模型是一個知識和圖形模型,從發送者和接收者的信息中提取關系特征。一個集合模型將三個模型的輸出匯總起來進行預測,它由邏輯回歸模型和神經網絡模型組成。該團隊廣泛地探索了不同的模型、訓練技術以及它們對準確性的影響。
本報告是在 FA9453-19-1-0078 資助下編寫的。首先,提出了兩種數值方法來解決通信和導航中產生的非線性優化問題。其次,開發了兩個關于機器學習模型的解決方案質量和安全性的結果。
該研究項目的目標是開發高效的大規模非線性優化算法,以解決通信和導航方面的數據分析問題。這些問題被公認為在數學上具有挑戰性,并與空軍的利益直接相關。
在資助期間,我們成功研究了兩個研究方向。首先,我們設計了大規模非線性優化問題的最佳一階方法。在這個方向上,我們提出了兩個一階方法,可以對決策變量進行近似梯度更新。這兩種方法都可以解決分散通信的多Agent優化所產生的非線性優化問題。通過將多代理優化重新表述為約束性問題,我們開發的方法可以以最佳梯度/操作者評估復雜度來解決問題。我們開發的方法也可用于解決圖像重建問題。
第二,我們分析了機器學習模型中的解決方案質量和安全問題。在這個方向上,我們完成了兩個研究結果。我們的第一個成果是關于在多集群環境下,從二元結果的條件邏輯回歸模型中計算出來的估計值的屬性。我們表明,當每個單獨的數據點被無限次復制時,來自該模型的條件最大似然估計值漸進地接近最大似然估計值。我們的第二個結果是關于安全的矩陣乘法問題,我們設計了一種準確和安全地進行分布式矩陣乘法的方法。我們的安全協議可以確保在進行這種矩陣乘法的通信過程中沒有任何信息被泄露。
這個項目的目標是開發在具有挑戰性的多目標環境中自主分布式傳感器管理和融合所需的基礎方法。這涉及到開發能夠自動跟蹤多個目標的算法,根據從具有數據關聯不確定性和高誤報率的多個平臺收到的信息進行分類并分配資源。在研究者最近在多目標跟蹤和分布式傳感器融合方面的發展基礎上,該工作方案開發了能夠在大規模多傳感器多目標跟蹤應用中基于信息理論標準實現自主傳感器分配的方法。這是通過重新評估信息理論中的關鍵工具來實現的,這些工具適用于基于點過程理論的多目標監視的挑戰,該理論旨在適應單個目標的狀態和目標數量的不確定性。所開發的信息理論方法被應用于多傳感器問題,使人們能夠決定如何分配傳感器資源,以及完善對場景的認識。所開發的工具將有助于減少監測單一傳感器饋電的勞動密集型負擔,并能做出適應性決定,以優化多模式網絡的運行,并增強對監測區域的整體認識。對多目標跟蹤情景的信息理論表述的關注,將使人們能夠驗證傳感器饋電是否能夠可靠地融合,以避免數據損壞的可能性。該項目在智能傳感方面提供了關鍵的先進技術,以實現動態環境中的連續和適應性監視。這些將是可擴展的,可用于從多個分布式傳感器對許多目標進行大規模跟蹤。
該項目的總體目標是研究和開發基于信息理論原則的分布式多傳感器多目標系統的自主傳感器控制的新策略:
為大規模系統的多目標跟蹤開發可擴展的解決方案。
開發基于信息論原理的多傳感器融合的分布式解決方案。
確定多傳感器多目標跟蹤系統可以交換多少信息。
該項目為多傳感器多目標跟蹤開發了基本的解決方案:
對許多目標進行大規模跟蹤。問題的規模越來越大,因此解決方案需要可擴展,跟蹤許多目標需要減輕組合復雜性的算法。多目標跟蹤的低復雜度解決方案將被開發出來,并在復雜環境中進行測試。開發了一種用于穩健地跟蹤大量目標的方法,該方法在目標數量和測量數量上是可擴展的,這使得數百萬目標可以被跟蹤。
確定多傳感器多目標跟蹤系統的信息含量。在具有高密度信息的傳感器網絡中,帶寬可能是多傳感器多目標跟蹤的一個制約因素。這個項目得出了確定用于多目標跟蹤的傳感器網絡的信息含量的結果。預計這將有助于評估傳感網絡的效率和有效性,并與發送數據的數量和頻率相平衡。
來自多個傳感器的數據的分布式整合。操作員需要根據來自多個跟蹤系統的信息做出決定,以提高整體的態勢感知。為多傳感器集成開發了一種分布式多傳感器多目標跟蹤的新方法,該方法可減輕來自不準確或誤導性數據源的損壞。
對多目標監視應用中的威脅進行評估。對許多物體的大規模跟蹤能夠識別直接威脅。然而,有些威脅可能比其他威脅更有針對性。開發了一種新的對抗性風險的表述,為操作人員提供態勢感知,以幫助確定傳感資產的優先次序。
目標跟蹤估計器的性能界限。費舍爾信息的倒數,即克拉默-拉奧約束,為參數的估計器提供了一個約束,是統計分析的基礎。它為一個參數提供了一個可實現的最小方差或協方差。根據量子場理論的數學概念,為點過程推導出克拉默-拉奧約束,將這一概念推廣到具有空間變量的變量。
這項工作的目的是開發能夠成功處理復雜動態環境中順序決策的深度終身學習方法,重點是多Agent情報、監視和偵察(ISR)場景。我們為深度卷積神經網絡開發了一個新的架構,支持通過去卷積因子化的終身學習(DF-CNN),探索了通過Distral和Sobolev訓練的策略提煉的組合,并開發了一個混合控制器,將深度學習應用于ISR智能體。我們的方法在標準基準深度學習數據集、DOOM環境和ATE3模擬環境中的ISR場景中進行了評估。
我們的主要貢獻是反卷積因子卷積神經網絡(DFCNN)。DF-CNN框架調整了標準卷積神經網絡(CNN)框架,以實現任務之間的轉移。它在每個CNN層維護一個共享知識庫,并通過這個共享知識促進不同任務的CNN之間的轉移。每個具體任務的CNN模型的各個過濾層都是由這個共享知識庫重建的,隨著網絡在多個任務中的訓練,這個知識庫會隨著時間的推移而調整。DF-CNN代表了ELLA終身學習框架對深度網絡的概括。
實驗表明,DF-CNN在終身中的基準識別任務上的表現優于其他方法(包括單任務學習、低層的硬參數共享和漸進式神經網絡)。此外,該框架能夠抵抗災難性遺忘,同時仍然允許從未來的學習中反向轉移到以前學習的模型。
對于深度強化學習,我們研究了將Sobolev訓練整合到Distral多任務框架中,以努力改善轉移和訓練,探索了DF-CNN在深度RL中的應用,并開發了一個混合控制器,將本地學習的深度RL策略結合在一起,在ATE3仿真環境中完成ISR場景。