現代深度神經網絡,特別是近期的大型語言模型,都具有巨大的模型規模,需要大量的計算和存儲資源。為了使現代模型能夠在資源受限的環境中部署并加速推斷時間,研究人員越來越多地探索剪枝技術作為神經網絡壓縮的熱門研究方向。從2020年到2022年,每年都有超過一千篇關于剪枝的論文被發表。然而,缺乏對剪枝的最新綜述。
為了解決這個問題,在這篇綜述中,我們對深度神經網絡剪枝的現有研究進行了全面審查,按以下幾類進行分類:1) 通用/特定加速,2) 何時剪枝,3) 如何剪枝,以及4) 剪枝與其他壓縮技術的融合。我們接著對剪枝的七對對比設置(例如,無結構/有結構,一次性/迭代,無數據/數據驅動,初始化/預訓練權重等)進行了深入的比較分析,并探索了一些新興話題,如后訓練剪枝、剪枝的不同級別監督等,以揭示現有方法的共同點和差異,并為進一步的方法開發奠定基礎。
最后,我們為選擇剪枝方法提供了有價值的建議,并展望了神經網絡剪枝的一些有前景的研究方向。為了方便未來關于深度神經網絡剪枝的研究,我們總結了廣泛的剪枝應用(如對抗性魯棒性、自然語言理解等),并構建了一個包含數據集、網絡和不同應用評估的精選集合。我們在//github.com/hrcheng1066/awesome-pruning上維護了一個資源庫,作為神經網絡剪枝論文和相應開源代碼的綜合資源。我們會持續更新這個資源庫,以包括該領域的最新進展。
深度神經網絡剪枝
過去的幾年中,深度神經網絡(DNNs)在各種領域和應用中都取得了顯著的進展,例如計算機視覺(CV)[1, 2, 3]、自然語言處理(NLP)[4]和音頻信號處理(ASP)[5]等。盡管DNNs在各個領域都取得了卓越的成功,但它們的性能在很大程度上依賴于模型參數和計算成本。例如,廣泛使用的ResNet-50 [6] 需要超過95MB的存儲空間,包含超過2300萬的可訓練參數,并需要4 GFLOPs(吉浮點運算)的計算[7]。在ImageNet [1]上訓練的VGG-16 [2]的大小超過了500 MB [8]。Transformer網絡GPT-3模型包含了高達1750億的參數[9],而GPT-4模型則更多。預計放大神經網絡大小的當前趨勢將持續。
然而,DNNs的參數越多,通常在處理輸入時所需的時間和內存空間也就越多[10]。這些模型的高訓練和推斷成本給其在受到計算資源(如CPU、GPU和內存)、能量和帶寬限制的設備上的部署帶來了重大挑戰[11, 12, 13]。例如,現實生活中的應用,如自動駕駛、野外救援和防止灌木叢火災,都需要高準確度和高效的資源使用,包括快速的實時響應和緊湊的內存占用。深度神經網絡的計算復雜性和內存占用可能使它們不適合在邊緣設備上部署[14]。隨著近年來大型語言模型的流行,人們對于為具有靈活硬件需求的計算機壓縮神經網絡的興趣也在增長[15]。此外,包含冗余特征的深度神經網絡可能會削弱其魯棒性,增加遭受對抗攻擊的風險[16]。例如,這些網絡創建的高維特征空間可以為對抗攻擊提供更多的入口點,從而削弱網絡超出其原始訓練數據的泛化能力。
為了緩解這一問題,研究人員提出了各種神經網絡壓縮技術來設計輕量級模型,包括神經網絡剪枝([17])、權重矩陣的低秩分解([18, 19])、量化([11, 20])、知識蒸餾([21])、神經架構搜索([22, 23])以及其他壓縮技術([24, 25])。其中,人們對神經網絡剪枝持續關注,已經被證明是一種理想且有效的方法,在推斷時節省內存空間和計算時間,同時保持與原始DNNs相當甚至更好的性能。如圖1所示,從2015年到2022年,關于剪枝的論文數量已經顯著增加。它占了神經網絡壓縮論文的一半以上。
關于剪枝的研究可以追溯到1988年的文獻[26]。然而,直到[11]的出現,研究界才意識到剪枝在去除深度神經網絡中的大量冗余方面的潛力,剪枝開始受到廣泛關注。如表1所示,有一些文獻對深度神經網絡剪枝的先前工作進行了回顧。盡管這些工作對剪枝的幾個方面進行了概述,并為研究人員提供了有益的指導,但其中許多文獻([8, 27, 28, 29])關注于多種壓縮技術,如剪枝、量化和知識蒸餾,并只簡要檢查每種技術。例如,Mishra等人[27]總結了包括剪枝、量化、低秩分解和知識蒸餾在內的壓縮技術,其中剪枝主要是從通道/濾波器剪枝中引入的,而許多基本的剪枝技術(如彩票假設)并未包括。一些回顧性工作(如[30])重點回顧卷積神經網絡的剪枝,并缺乏對其他深度神經網絡的剪枝描述,如循環神經網絡(RNNs)。[31]中的工作提供了對深度學習中的稀疏性的全面回顧,但對于新興的剪枝方法的研究很少,例如對比學習中的剪枝[32]和自監督剪枝[33]等。王等人[34]僅為初始化時的剪枝提供了概述,并未包括在訓練期間、訓練后等的剪枝研究。[35]是關于剪枝的最新綜述,但只關注于結構化剪枝。
本綜述旨在為各種讀者提供關于深度神經網絡剪枝的全面概述。我們回顧了代表性的剪枝方法,提出了一個新的分類方法,對不同的剪枝方式在實踐中的表現進行了全面分析,并為希望利用剪枝的實踐者提供了關于如何選擇適合不同要求的剪枝方法的建議。我們的貢獻如下:
(1)** 全面回顧。據我們所知,這篇綜述是關于現代深度神經網絡剪枝技術的最全面的概述**。它從超過300篇相關的學術論文中提煉出思想,并建立了一個新的分類法,如圖2所示。此外,我們為每一類剪枝方法的代表性方法提供了詳細的描述。
(2) 比較實驗和分析。我們對剪枝的七對對照設置以及新興進展進行了比較分析,包括剪枝的不同監督層次。與現有的剪枝綜述不同,本文進行了實驗和相關討論。
(3)** 收集豐富的資源**。我們總結了各種剪枝應用,并為不同應用提供了基準數據集、網絡和評估。我們在附錄B中收集的資源可以指導研究人員和實踐者了解、利用和為不同的需求開發不同的網絡剪枝方法。代表性剪枝工作的持續更新可在 上查看。
(4) 建議和未來方向。這篇綜述為選擇適合不同應用需求的適當剪枝方法提供了有價值的建議,并突出了有前途的未來研究方向。
本綜述的其余部分組織如下。首先,在第2節,我們解釋常用的術語并建立一個清晰的剪枝分類法。第3-6節提供了關于加速、何時剪枝、如何剪枝的概述,接著在第7節對不同類型的剪枝方法進行了全面的比較分析。第8節討論了與其他壓縮方法的剪枝整合。第9節提供了選擇剪枝方法的一些建議和未來的方向。我們在第10節結束這篇文章。
跨模態檢索是一個經典的問題。來山東師范大學、悉尼科技大學、電子科技大學、哈爾濱工業大學(深圳)的等學者最新《跨模態檢索》綜述,對跨模態檢索的演變進行了全面回顧,詳細闡述了無監督的跨模態實值檢索**、有監督的跨模態實值檢索、無監督的跨模態哈希檢索、有監督的跨模態哈希檢索,以及特殊場景下的跨模態檢索。值得關注!**
隨著多模態數據呈指數型的激增,傳統的單一模態檢索方法難以滿足用戶對來自各種模態數據的需求。為了解決這個問題,跨模態檢索應運而生,它允許不同模態之間的交互,促進語義匹配,并利用不同模態數據之間的互補性和一致性。盡管先前的文獻對跨模態檢索領域進行了回顧,但在時效性、分類和全面性方面都存在許多不足。
本文對跨模態檢索的演變進行了全面回顧,從淺層統計分析技術到視覺-語言預訓練模型。從基于機器學習范例、機制和模型的全面分類開始,本文深入探討了現有跨模態檢索方法的基本原理和架構。此外,還提供了關于廣泛使用的基準、度量和性能的概覽。最后,本文探討了當代跨模態檢索所面臨的前景和挑戰,同時就該領域進一步進展的可能方向進行了討論。為了促進跨模態檢索的研究,我們在//github.com/BMC-SDNU/Cross-Modal-Retrieval開發了一個開源代碼庫。
在近幾十年里,互聯網、智能設備和傳感器經歷了顯著的擴展,導致了多模態數據的指數級增長。這包括圖像、文本、音頻和視頻等各種形式,通常用于描述相同的事件或主題。這種多樣性的增長導致用戶對跨不同模態的數據訪問的需求增加,以獲得全面的見解[1]。然而,傳統的檢索方法[2]、[3]主要關注單一模態,在滿足這些需求上因異構模態之間的差距而顯得不足。因此,有必要提出一種檢索策略,這種策略能夠促進信息源之間的互動,并支持跨模態的異構搜索。如圖1所示,跨模態檢索作為一個補救措施浮現出來,通過促進語義對齊和利用多模態數據之間的協同作用,增強了用戶體驗和信息吸收。它使用戶能夠迅速發現引人入勝的信息,從不同的角度獲得見解,并精確地找出潛在的相關性和模式。
跨模態檢索在學術界和工業界都受到了極大的關注和探索,導致在這個動態研究領域出現了大量基于學習的方法。我們可以追溯到2010年左右,當時統計分析技術占據主導地位,從多模態數據中提取特征并將其映射到一個共享空間進行相關性評估[4]。自2014年以來,深度學習技術在跨模態檢索中的崛起已經產生了深遠的影響,利用深度神經網絡的強大能力自主地從多模態數據中提取高級特征表示[5]。近年來,一系列的跨模態檢索方法已經被定制應用于多種開放場景,充分利用了視覺-語言預訓練模型的潛力[6]。這些進展顯著地加強了跨模態檢索系統的精度、穩健性和可擴展性,通過引入復雜的學習模型和培訓策略。展望未來,跨模態檢索仍然是一個充滿挑戰但很有前景的研究領域,預計將涵蓋更廣泛的數據模態,克服復雜的開放檢索場景,并需要高效的檢索模型。
為了使研究者深刻了解跨模態檢索的研究格局、實際意義和未來前景,本文提供了對現有代表性方法、技術和框架的有條理的概述和分析。它還深入探討了實驗基準、度量和性能,為未來的研究方向提供了新穎的觀點和建議。盡管先前的文獻[7]–[10]涉及了跨模態檢索,但在時效性、分類、全面性等方面都存在很多不足。具體來說,文獻[7]、[8]為跨模態檢索的早期階段提供了見解,但由于時間上的差距,它們對代表性方法和當代進展的描述受到了阻礙。在過去五年中開發的有影響力的跨模態檢索技術,這些技術對該領域產生了巨大的影響,尚未被包括在內。值得注意的是,Transformer架構和視覺-語言預訓練模型的最近出現對深度學習領域產生了深遠的影響,從根本上重塑了跨模態檢索研究格局。盡管近年來已經發表了文獻[9]、[10],但它們的范圍和分類都明顯不足。在文獻[9]中,關于基于自注意機制或大規模預訓練模型的跨模態檢索方法的論述非常稀少。另一方面,文獻[10]主要集中在圖像-文本匹配領域,未能全面綜合有監督的跨模態實值檢索和整個跨模態哈希檢索的方法。與此同時,文獻[9]、[10]將基于深度學習的跨模態檢索方法歸入一個過于簡化的類別,這種方法不適合深度學習的當前先進狀態。在這個領域內,不同的深度技術具有其核心概念,將它們合并為一個單一的類別阻礙了對不同網絡架構中固有的獨特屬性的全面了解。此外,這些作品都沒有深入探討如何解決各種實際場景中遇到的實際挑戰的策略。考慮到解決這些實際問題現在已經成為跨模態檢索研究的一個焦點,這種遺漏尤為值得注意。鑒于此,我們對從創始到現在的兩百多篇跨模態檢索論文進行了全面的回顧,總體目標是為這個領域提供一個全面的概覽。總之,本文的主要貢獻可以總結如下:
我們介紹了一個詳盡且細致的跨模態檢索分類法,將現有方法分為五大類和四十三個子類。通過提供這些技術所采用的原理和架構的詳細闡述,本文為整個跨模態檢索領域提供了一個全面的回顧,涵蓋了基本概念和進步的創新。
此外,本研究提供了一個簡潔的多模態數據集、評估指標和性能基準的匯編。這個匯編為跨模態檢索研究者提供了一個寶貴的參考,幫助他們選擇適當的數據集和指標來進行實驗驗證和性能評估。
此外,鑒于當前的發展狀況和應用要求,本文探討了跨模態檢索領域面臨的機會和挑戰。從這一分析中,提出了潛在的解決方案和研究方向,重點關注該學科中的前沿挑戰和新興趨勢。
本文的后續部分組織如下:第二部分提供了跨模態檢索中使用的基本概念和分類標準的全面概述。第三部分深入探討了各種跨模態檢索方法,詳細闡述了它們的復雜細節和架構。第四部分展示了跨模態檢索研究中廣泛使用的數據集、評估指標和性能比較的大量匯編。第五部分突出了跨模態檢索技術找到相關性的實際應用場景。第六部分對該領域的未來發展趨勢進行了深入的分析。最后,第七部分總結了本文,概述了主要的發現和貢獻。
跨模態檢索在多媒體檢索中占據了關鍵的地位,在人工智能領域擁有巨大的潛力。其目的是從不同的模態中提取語義上相關的信息,利用如文本、圖像或視頻等模態線索。然而,跨模態檢索的景觀是崎嶇的,其中最主要的挑戰是在異構模態數據中評估內容的相似性,這一難題通常被稱為異構模態間的差距,如圖2所示。這一困境源于模態之間在數據結構、特征空間和語義描繪上的差異,導致直接比較和對齊的巨大障礙。因此,跨模態檢索研究的核心是為多模態數據創建一個共享的框架,從而便于計算跨模態的相似性。為了應對這一挑戰,研究者提出了一系列的共同表示學習方法。這些方法努力將多模態數據映射到一個共享的、低維度的空間。在這個空間里,具有相似語義的數據聚集在一起,而不相似的數據則相互疏遠。廣義上,跨模態檢索方法可以基于其數據編碼形式分為兩種原型:實值檢索和哈希檢索,如圖3所示。跨模態實值檢索努力提取多模態數據在實數領域的低維向量表示。雖然這種方法保留了更豐富的語義數據,但它會帶來更高的存儲成本和計算需求。與之相反,跨模態哈希檢索尋求提取多模態數據的壓縮二進制表示,并將其擬合到漢明空間。這種發展使得檢索更加高效。然而,這種效率可能需要犧牲部分語義信息。每種方法都有其獨特的優勢和劣勢,選擇哪種方法取決于實際應用的特定要求和限制。
在數據編碼形式旁,監督信息也是劃分跨模態檢索方法的關鍵決定因素。通過結合這些考慮,我們將所有的跨模態檢索方法分類為五大主要類別:無監督的跨模態實值檢索、有監督的跨模態實值檢索、無監督的跨模態哈希檢索、有監督的跨模態哈希檢索,以及特殊場景下的跨模態檢索。此外,每個主要類別進一步細分為幾個子類別,如表I所示。前四個主要類別基于統計分析技術、深度神經網絡和其他輔助結構進行了細致的修飾。這些包括典型相關分析(CCA)、主題模型、譜圖、矩陣分解、字典學習、特征映射、度量學習、量化、自編碼器、卷積神經網絡-循環神經網絡(CNN-RNN)、生成對抗網絡(GAN)、圖神經網絡(GNN)、Transformer、視覺-語言預訓練模型(VLP模型)、跨模態生成、知識蒸餾和記憶網絡。最后一個主要類別涵蓋了為特殊場景設計的跨模態檢索,如不完整數據、增量數據、噪聲數據、跨域檢**索、零/少示例檢索、在線檢索、層次/細粒度檢索、文本-視頻/音頻檢索和對跨模態檢索的對抗。在這些特定場景中,基于實值和哈希的跨模態檢索方法提供的解決方案顯示出相似性。**因此,我們將它們統一為一個子類別,無需明確的區分。
A. 無監督的跨模態實值檢索
無監督的跨模態實值檢索旨在利用多模態數據的共同出現,如文本和圖像一起出現,以捕獲它們的語義關聯。根據設計原則和評估措施,它可以分為兩種類型:早期的無監督跨模態實值檢索和圖像-文本匹配檢索。
B. 有監督的跨模態實值檢索
有監督的跨模態實值檢索受益于手工注釋,廣泛探索多模態數據中的語義類別區分和關聯,以增強跨模態檢索任務。根據不同的學習原則,區分出兩種主要方法:淺層和深層跨模態實值檢索。淺層方法使用矩陣分解和特征映射來模擬多模態數據中的關聯。相反,深層方法使用深度神經網絡來捕捉復雜的關系。有監督的淺層跨模態實值檢索,在這類方法中,根據使用的技術區分出典型相關分析(CCA)方法、字典學習方法、特征映射方法和主題模型方法。有監督的深層跨模態實值檢索,有監督的深層跨模態實值檢索包括CNN-RNN方法、GAN方法、GNN方法和Transformer方法。這些方法通過使用復雜的深度學習結構,例如卷積神經網絡和循環神經網絡,以及最新的Transformer架構,使得在多模態數據中能夠捕捉到更加深入和細致的語義關系,從而實現更高精度的跨模態檢索。
C. 無監督跨模態哈希檢索
與無監督的跨模態實值檢索相似,無監督跨模態哈希檢索利用共同出現的多模態數據(例如,文本-圖像對)來捕獲它們之間的語義相關性。這種方法可以根據不同的原則分為兩類:無監督的淺層和深層跨模態哈希檢索。淺層方法主要依賴于矩陣分解和譜圖來發現多模態數據中的關聯,而深層方法則使用各種深度網絡來建模多模態數據。無監督的淺層跨模態哈希檢索:在這個類別中,可以根據使用的技術進一步將技術分類為矩陣分解方法、譜圖方法、量化方法和度量學習方法。這些方法主要集中在為跨模態數據生成緊湊的二進制哈希碼,從而實現高效的相似性檢索。無監督的深層跨模態哈希檢索: 無監督的深層跨模態哈希檢索可以細分為CNN-RNN方法、GAN方法、GNN方法、Transformer方法和知識蒸餾方法。這些深度學習方法通過在多模態數據中捕獲更深入和細致的語義關系,為數據生成有意義的二進制哈希碼,從而實現高質量的跨模態檢索。
D. 監督跨模態哈希檢索
受益于手動標注,監督的跨模態哈希檢索能夠充分利用多模態數據中的類別區分和語義關聯,有效地將其映射到低維的哈明空間以進行高效搜索。根據不同的原則,此方法可分為監督淺層跨模態哈希檢索和監督深層跨模態哈希檢索。監督淺層跨模態哈希檢索: 這一方法采用矩陣分解和特征映射技術為多模態數據生成一個公共表示。基于使用的技術,它可以進一步細分為矩陣分解方法和特征映射方法。這些淺層方法的核心在于尋找最優的線性或非線性變換,使得跨模態數據在映射到共享的哈明空間后,相似的數據具有接近的哈希碼。監督深層跨模態哈希檢索: 深度學習技術在此類別中被引入,以捕獲數據中的復雜關系。這包括了CNN-RNN方法、GAN方法、GNN方法、Transformer方法和量化方法。這些深層方法旨在通過訓練深度神經網絡模型,自動學習從原始多模態數據到哈希碼的映射函數,從而實現高質量的哈希編碼。監督的跨模態哈希檢索在大數據應用中具有巨大的潛力,因為它旨在將多模態數據映射到一個緊湊的哈明空間,這可以大大提高搜索的速度和效率,同時保持良好的檢索質量。
E. 在特殊檢索場景下的跨模態檢索
前述的跨模態檢索方法基于理想的假設,并適用于通用檢索場景。然而,由于實際限制,如數據收集不完整、注釋噪聲以及特定的檢索需求,一些跨模態檢索方法已經被提出來解決在特殊檢索場景中可能遇到的各種問題。 跨模態檢索數據集和實驗結果
為了使研究者全面了解跨模態檢索中的數據來源和特性,以及性能評估方法,本節將介紹在跨模態檢索中廣泛使用的評估數據集、指標以及代表性的跨模態檢索結果。
結論
跨模態檢索滿足了獲取和利用多種多模態數據的日益增長的需求。這一領域研究的演進提高了檢索系統的準確性、穩定性和可擴展性。本文提供了一個全面的分類體系,回顧了大量的文獻,并為跨模態檢索方法和架構提供了深入的見解。它還提供了關于數據集選擇和性能評估指標的指導。本文探討了機會、挑戰以及未來的研究方向,為跨模態檢索的理解和發展做出了貢獻。鼓勵在這一領域進一步的探索和創新。
量子啟示的機器學習(QiML)是一個迅速發展的領域,由于其有潛力在經典計算框架內利用量子力學的原理,因此受到了全球研究者的關注。然而,當前的綜述文獻經常只是對QiML進行淺層次的探討,而更多地關注更為廣泛的量子機器學習(QML)領域。為了填補這一空白,這項綜述為QiML提供了一個整合的、全面的調研,探討了QiML的多種研究領域,包括張量網絡模擬、去量子化算法等,并展示了近期的進展、實際應用以及可能的未來研究方向。進一步地,通過分析該術語的各種先前解釋及其固有的模糊性,為QiML建立了一個具體的定義。隨著QiML的不斷發展,我們預期未來將從量子力學、量子計算和經典機器學習中汲取大量新的發展,進一步豐富該領域。這項調查旨在為研究者和實踐者提供指導,為他們提供對QiML當前狀況和未來方向的全面了解。
量子啟示的機器學習(QiML)領域已經取得了大量的增長,吸引了全球研究者的關注。作為量子機器學習(QML)的一個特定子集,QiML專注于在經典計算框架內開發受量子力學原理啟發的經典機器學習算法,這通常被稱為QML分類中的“經典-經典”象限,如圖1所示。QiML代表了一個多面的研究領域,其綜述旨在超越傳統的經典最先進的結果,或探索量子形式所提供的表現力。
為了在QML的背景下定位QiML,我們簡要地說明了后者。更廣泛地說,QML位于量子計算和機器學習的吸引人的交匯點。主導的研究領域關注“經典-量子”域,并探討使用量子硬件加速和增強機器學習策略。在此,經典機器學習中存在的兩大挑戰得到了回應。首先,很多領域中數據集的不斷增大和復雜化產生了計算挑戰,這些挑戰經典機器學習難以高效管理。其次,量子計算提供了解決目前用經典計算方法難以實現的復雜問題的潛力[1]。但是,目前在實際的量子硬件上評估QML算法受到一些因素的限制,例如量子位數有限、量子門中的高誤差率、維持量子狀態(失去相干性)的困難,以及與量子錯誤糾正相關的挑戰[2]。因此,QML的景觀主要受到理論考慮的影響,而噪聲中間規模量子(NISQ)設備的最近進展為全規模量子計算的潛力提供了一個初步的、經驗性的預覽[3]。因此,QML對機器學習領域的真正影響和范圍仍然是一個持續的研究話題。
QiML與QML研究并肩發展。經常被引用的研究領域包括張量網絡量子模擬和去量子化算法[4],[5]。然而,與QML相比,QiML中的發現通常都有數字證據支持,這得益于沒有量子硬件的要求,因此相對于其他QML子集,更容易進行定量評估。雖然QiML研究正在蓬勃發展,但當前的綜述文獻往往忽略了這一領域,更多的關注是放在整個QML上。通常,QiML只是被簡要提及或被淺層次地處理[5],[6],[7],[8],[9],[10]。QiML的實際應用案例、其應用以及與標準經典基準的比較分析通常都沒有被探索。這指出了對QiML作為一個獨立領域進行深入審查的迫切需求。為了回應這一文獻空白,我們的調查旨在為QiML的各個方面提供一個全面、綜合的討論。
我們的目標是提供一個關于QiML在實踐中如何被使用的可訪問和全面的概述,詳細描述其最近的進展,并使讀者了解該領域的進展。讀者應該注意,從量子力學的視角探索QiML方法,并基于啟示來源對方法進行分類將是有趣的,但這次調查是從應用的角度來看待這個領域的。這次調查的貢獻是提供了近年來QiML及其研究方向的進展概述,并確定了QiML研究的未來方向。具體來說,它們是:突出并分類現有的QiML方法; ? 為QiML建立一個具體的定義,考慮到其多方向的研究趨勢; ? 討論這些方法的實際應用,特別是確定當前已經應用QiML技術的任務; ? 討論QiML在實踐中的限制因素,以及; ? 探索和討論QiML研究的潛在未來方向。
對比學習作為一種自監督式的深度學習范式,在計算機視覺、自然語言處理等領域取得了矚目的成績。受 這些成功的對比學習模型的啟發,近年來大量研究者嘗試將其拓展到圖數據上,這為推動圖對比學習的發展提供 了堅實的基礎。該領域現有的綜述主要關注于傳統的圖自監督學習任務,而缺少對圖對比學習方法的梳理和歸 納。為了更好地幫助相關領域的研究者,該文梳理了近些年來的圖對比學習模型,通過將現有工作歸納到一個統 一的框架下,突出其發展脈絡。最后該文總結了圖對比學習常用的數據集和評價指標,并展望了該領域未來的發 展方向。
1 引言
圖數據是一種描述物體和物體之間關聯關系的 抽象數據類型,它廣泛存在于各個領域。例如,在社 交網絡中,用戶和用戶之間的關注關系構成了社交 關系圖;在化學領域,原子和它們之間的化學鍵構成 了化合物分子圖;在物流領域,城市和它們之間的道 路構成了交通路網圖[1-2]。作為實際場景中最常見 的信息載體,圖數據蘊含著豐富信息,因此對圖數據 的分析研究具有重要的價值。能否很好地感知與理 解圖數據,從中挖掘有用的信息,是解決很多實際問 題的關鍵。例如,鏈接預測、節點分類、社區發現、推 薦 系 統、新 藥 發 現 等 都 是 與 圖 數 據 相 關 的 實 際問題[1-2]。 傳統的圖數據分析通常采用監督學習的框架,即 通過人為特征提取或端到端圖深度學習模型將圖數 據作為輸入,經過訓練后,挖掘圖數據中的有效信息, 輸出預測結果[3-4]。雖然這類圖監督學習方法在很多 任務上取得了顯著成功,但仍面臨著以下問題:①依 賴大量的人工標注數據;②由于過擬合導致泛化能 力差以及面向標簽相關的攻擊時模型魯棒性差[5]。 為了解決上述問題,不依賴于人工標注的自監 督學習正在成為圖深度學習的趨勢[1-2,6-7]。其中,對 比學習是一類重要的自監督學習方法,隨著其在計 算機視覺、自然語言處理等領域取得成功[8],如何將 對比學習應用在圖數據上,開始受到研究者的關注。 圖數據比語音、文本、圖像更加復雜,如何設計有效 的圖對比學習模型仍面臨著諸多挑戰。
為了更好地幫助該領域的發展,已有研究者梳 理了近些年來關于圖自監督學習的相關工作,并且 形成綜述[5,7,9-10]。但這些綜述主要關注傳統的圖上 自監督任務,并沒有針對圖對比學習的方法進行詳 細的梳理和分類。本文主要關注圖對比學習模型, 收集整理了近些年圖對比學習的工作。同時本文在 統一的框架下對比現有的方法,突出現有工作的異 同點及其發展脈絡,從而幫助研究者更好地梳理現 有工作,期望能激發對圖對比學習方法新的思考。 本文組織結構如下:第1節介紹圖對比學習問 題及其涉及的相關背景知識,并給出形式化定義; 第2節梳理了節點級的圖對比學習方法;第3節整 理了邊級別的圖對比學習;第4節整理了圖級別的 圖對比學習方法;第5節整理介紹了將圖對比學習 應用在更復雜場景下的拓展;第6節總結了常用的 評價數據集和評價指標;第7節分析整理了圖對比 學習現存的問題和未來可能的發展方向;最后一節 對全文進行了總結。
1 問題定義和相關背景
對比學習是一種判別式的學習方法,其目的是 讓相似的樣本學到相近的表示,同時讓不相似樣本 的表示互相遠離。對比學習在文本[19]、語音[20]、圖 像[21-25]等領域取得了顯著的效果提升,受到了廣泛 關注。對比學習在這些領域取得成功,為研究者設 計圖對比學習的框架打下了堅實的基礎。 圖對比學習期望學到一個編碼模型,使得相似 的節點(圖)經過編碼模型后得到相似的表示,不相 似的節點(圖)得到差異較大的表示。現有的方法可 以總結成一個統一的框架,如圖1所示,首先定義正 負例并利用正例生成器和負例生成器分別得到正負 樣本。接著將這些樣本輸入到編碼模型后得到對應 的表示。最后設計一個將正負樣本表示區分開的損 失函數,進行參數優化。 目前的圖對比學習方法在設計時主要關注:① 正負例的定義與產生方式;②編碼模型的架構;③損 失函數的形式。我們在圖1中用虛線框出了這三 部分。應用圖對比學習的典型范式如圖2所示,包括 無監督表示學習、無監督預訓練、輔助學習三種方 式[6]。其中,無監督表示學習和無監督預訓練是兩 階段的訓練范式,輔助學習是一階段聯合優化的訓 練范式。無監督表示學習利用對比學習為每個節點 (或圖)學習向量表示。接著固定這些表示作為輸入 去訓練模型解決下游任務。無監督預訓練范式,同 樣先用對比學習無監督地學習一個編碼器。但在解 決下游任務時,不僅利用標簽信息更新預測層的參 數,同時也微調編碼器的參數。輔助學習范式是指 在主任務損失函數的基礎上添加對比學習損失作為 正則項,聯合優化這兩項損失函數進行參數更新。
2 節點級圖對比學習方法
正負例 的 定 義 是 現 有 的 圖 對 比 學 習 方 法 關 鍵,不同的定 義 方 式 需 要 不 同 的 編 碼 模 型 和 損 失 函數。根據對比類型可以將現有方法分成實例對 比和跨級別對比兩類。實例對比是指同一個樣本 的不同增強 樣 本 之 間 的 對 比,跨 級 別 對 比 是 指 不 同 級 別 對 象 之 間 的 對 比,例 如,節 點 級 對 象 和 子 圖級對 象 的 對 比。 同 時,對 于 每 一 個 模 型,將 從 正負例的 定 義 與 產 生 方 式 以 及 損 失 函 數 的 形 式 兩個方 面 進 行 介 紹。 表 1 總 結 了 本 節 介 紹 的 圖 對比學習框架,并且 對 比 了 不 同 模 型 使 用 的 增 強 方式。
3 邊級別圖對比學習
在現實的圖中,節點往往表現出同質性,即在圖中 相近的節點往往具有相似的性質[1]。例如,存在引用 關系的論文往往屬于同一個領域;在社交網絡中兩個 用戶共同好友越多,他們是好友關系的可能性就越高。
4 圖級別圖對比學習
圖級別的對比學習框架在近些年來也受到了廣 泛的關注,其在生物、化學、醫藥領域發揮了關鍵的 作用。但該領域處于剛起步的節點,因此相比于節 點級的對比學習,圖級別對比學習的研究工作相對 較少。 You等人[53]提出的 GraphCL是將基于實例的 節點級圖對比學習框架應用到圖級別對比學習上的 典型模型,其框架如圖13所示。
5 圖對比學習的拓展
前文介紹 了 同 質 網 絡 上 的 圖 對 比 學 習 框 架, 而現實中的 圖 數 據 往 往 具 有 復 雜 的 結 構,無 法 直 接應用上述的圖對比學習模型。因此一些研究者 開始將 圖 對 比 學 習 拓 展 到 不 同 類 型 的 圖 上。 此 外,在實際場景中往往會伴隨著監督信息,如何將 圖對比學習框架和監督信息結合也是一個重要的 拓展方向。
6 圖對比學習方法的評價
不同的圖對比學習方法的優劣,往往通過其在 下游任務上的表現來評判。常見的下游任務在1.4 節中已經進行了說明,本節主要介紹常用的節點級 任務的數據集和圖級任務的數據集以及評價指標。
7 挑戰與未來展望
圖對比學習框架在節點級任務、邊級任務和圖 級任務上都取得了成功,但目前仍有如下一些問題 待解決。
7.1 圖增強操作
圖數據的增強是圖對比學習框架中非常重要的 組成部分,其為節點/圖提供了更加豐富的上下文信 息,從而幫助節點/圖學到更優質的表示。在圖像領 域,可以比較容易地確定增強后的圖片仍然與原圖 片反映同一類別的物體。由于圖數據本身就是一種 抽象的數據結構,應用現有的增強操作(如增邊刪 邊,隱藏部分特征維度)后,難以直觀判斷原來的節 點/圖是否保持類別不變。因此設計增強后類別保 持不變的圖增強操作是未來重要的發展方向。此外 如何判斷哪種數據增強的方式是對于對比學習有效 的,也是一個重要方向。已有工作試圖尋找在圖像 領域哪種增強是有效的[68],但在圖領域仍然等待被 探索。
7.2 基于圖對比學習的預訓練模型
預訓練旨在通過自監督學習從大量數據中學到 通用的語義信息,并將學到的知識遷移到下游的任 務中。目前預訓練模型在很多領域都取得了最佳的 效果,具有巨大的發展潛力。圖對比學習方法為圖 上的大規模預訓練奠定了很好的框架基礎。 然而,現有的圖對比學習主要關注于在同一圖 上模型遷移到下游任務上的效果[34,35,39-42,52]。這些 模型未考慮模型跨數據集遷移的能力。雖然近年來 有研究提出了具有一定跨數據遷移能力的圖對比學 習模型[45],但該方法只適用于沒有屬性的同質信息 網絡,局限性較大。因此如何設計具有跨數據集遷 移能力的圖對比學習模型是未來大規模圖預訓練應 用中亟待解決的重要問題。
7.3 對比學習的理論分析
雖然對比學習的框架在很多領域都取得了顯著的提升,但是該框架為何能提升表示的質量,以及其 和下游任務之間有什么關聯、什么樣的對比任務更 有效等仍然值得探索。雖然在圖像領域有工作開始 分析對比學習有效的原因[69-70],但在圖數據領域的 理論分析仍然是空白的。
7.4 實際場景的應用
如何將圖對比學習應用在實際場景中提升實際 任務的效果,也是一個潛力巨大的方向。目前有研 究者嘗試在推薦系統[71-73]、藥物分類[74-75]領域利用 圖對比學習解決某些關鍵問題。因此,如何利用圖 對比學習解決更多實際的圖分析問題是具有重大研 究意義的方向。
7.5 大規模圖上對比學習
現有的圖對比學習往往需要大量的負樣本,才 能學好節點/圖表示。但在實際的場景中,圖的規模 往往非常的巨大。因此大量的負樣本需要巨大的內 存和計算代價。在圖像領域已經有一些工作去探索 如何利用更少的負樣本[76],或者不使用負樣本的方 式來減少計算代價[46,77]。因此如何設計適用于大 規模網絡的圖對比學習也是未來發展方向之一。
7.6 更公平的方法對比
本文從方法上對比了不同圖對比學習框架的異 同。但由于不同模型適用的數據集不同,實驗設定 上也有差異,從而導致難以從實驗結果上判定哪個 框架更有效。但是從實驗上對比不同模型的優劣對 于圖對比學習的發展有著至關重要的作用。因此設 計一個基準實驗框架,更公平地對比不同方法也是 一個重要的方向。
8 結束語
基于深度學習的圖分析方法在很多任務上取得 顯著的效果,而做好節點/圖表示是其中的關鍵。近 年來基于對比學習的表示學習框架在圖像等領域取 得了成功,這為圖對比學習框架提供了堅實的基礎。 本文對近年來出現的圖對比學習框架進行了分析總 結,將圖對比學習框架總結成三個重要的部分,分別 是正負例的定義方式、編碼器模型的設計以及損失 函數的設計三個部分。 本文圍繞圖對比學習展開,梳理總結了近些年 來重要的圖對比學習工作,同時提出了一些仍未被 很好解決的問題,以及未來可能的研究方向,嘗試為研究人員建立一個較完整的研究視圖,希望能為進 一步推進該領域的研究提供一定的幫助。
歐洲的國防資金首次超過了每年2000億歐元,人們對創造有助于軍事合作的技術創新重新產生了戰略興趣,如綜合決策支持系統。克服與此類軍事技術的研究和開發相關的許多挑戰,為可視化社區在該領域的貢獻提供了一個極好的機會,因為有大量的應用研究空間。最近有較少調查研究信息可視化(IV)和視覺分析(VA)工具在軍事領域的使用和設計。因此,本調查的主要目的是調查和評估IV和VA工具的功能以及與軍事決策支持系統的整合,特別是關注地理空間-時間可視化方面。考慮到這一目標,本調查從軍事行動過程的視角,系統地識別和討論了合適的可視化解決方案以及它們可能為軍事決策支持系統帶來的好處。這促進了一個特定領域的設計空間,用于分析各種現有和相關的軍事產品。因此,這項調查的結果和主要貢獻是制定了一個設計空間和對現有軍事產品的分析。這促進了在軍事決策支持系統中的地理空間-時間可視化可以提高軍事指揮官的決策能力和行動能力方面,找出差距、機會和指導方針。
圖1:描述了在循環的軍事行動過程中如何利用可視化,通過改善指揮官的認知,提高對形勢的認識、決策和行動能力。
喬治敦大學安全與新興技術中心(CSET)和艾倫-圖靈研究所新興技術與安全中心(CETaS)的這份聯合報告評估了目前自主網絡防御的最先進水平及其未來潛力,確定了進展的障礙,并建議采取具體行動來克服這些障礙。這些發現和討論將與參與開發自主網絡防御能力的網絡安全從業人員、政策制定者和研究人員有關。
鑒于網絡攻擊造成的巨大經濟和社會損失以及人工智能(AI)的最新進展,近年來,人們對應用人工智能加強網絡防御的興趣越來越大。對自主網絡防御的研究正在擴大,它不僅可以檢測威脅,而且可以參與防御措施,如加固或恢復。本報告重點關注創建這些自主網絡防御代理的一種有前途的方法:強化學習(RL)。
自主網絡防御沒有一個統一的定義,但在最基本的層面上,這些代理將完成人類網絡防御者的一些任務,保護網絡和系統,檢測惡意活動,并對異常或惡意行為作出反應,但要以數字攻擊的速度。
本報告提出了自主網絡防御的擬議定義,調查了自主網絡防御的現狀以及該技術成為可行的網絡安全工具所必須克服的相關挑戰。不能保證自主網絡防御會成功,但該技術正處于一個需要政策支持的階段,以實現潛在的好處,并幫助網絡防御者處理現代網絡安全行動的速度和不確定性。
RL是創建網絡防御代理的領先AI方法,這是有效的自主網絡防御的核心要求。2012年,當RL代理首次在簡單的雅達利游戲中擊敗人類專家時,這項技術的地位日益突出。在這一成功的基礎上,從2015年到2018年,DeepMind為更具挑戰性的游戲建立了系統,包括圍棋和國際象棋,取得了意想不到的成功水平。研究人員對RL趨之若鶩,部分原因是這些成功,但也是因為OpenAI的一個開放框架,它允許創建簡單的模擬訓練環境或 "健身房"。OpenAI健身房的形式簡化了研究和開發,在過去的幾年里,網絡健身房已經開始出現,允許訓練和創建網絡防御代理。甚至在最近,這些健身房成為名為 "網絡自主實驗健身房"(CAGE)的公開網絡安全競賽的一部分。
我們的研究立足于基于強化學習(RL)的人工智能代理的潛力,以提供實現部分或全部自主網絡防御概念所需的自主能力。雖然與自主網絡防御有關的有前途的相關建模方法、技術和工藝的范圍很廣,但我們對RL的關注是由于在網絡防御中應用RL的努力增加,以及RL在其他問題領域取得的可喜成果。
雖然自主網絡防御的核心技術在過去十年中進展迅速,但在系統能夠投入使用之前仍有許多挑戰。在這個研究項目的過程中,我們采訪了政府和非政府專家,以確定建立和部署可信系統的要求,其中包括:
為了滿足這些要求并繼續取得進展,自主網絡防御這一新生領域需要得到培育。RL最近才開始在網絡安全方面起飛。近年來,學術出版物激增,培訓網絡RL代理也開始大量涌現。然而,與這些代理將面臨的更復雜的現實世界的網絡環境相比,能力仍然是初級和不完整的。持續的資金、協調的努力以加強模擬、仿真和評估工具、確保熟練的人員,以及提供對現實數據和基礎設施的訪問,將有助于確保進展。
如果能夠克服技術挑戰,自主網絡防御有很大的發展潛力。目前為網絡防御建立的代理和環境考慮的變量和可能性比更著名的RL代理(如圍棋或視頻游戲如Atari或DOTA2)少。這意味著有足夠的潛力讓代理越來越智能;它們可以管理更多可能的防御行動,并在更復雜的環境中運作,需要它們探索更多的情況。我們對技術挑戰的探索表明,自主網絡防御將是一個長期的雄心壯志,只能在未來幾年內實現。
盡管在自主網絡防御領域取得了重大進展,但我們的研究表明,還沒有自主網絡防御系統被實際部署。鑒于目前技術的成熟度,我們提出了發展這些能力以使技術成熟的建議(建議的完整清單見第4節)。
對擴大規模進行投資。該領域可以通過做更大、更真實的網絡模擬,納入更復雜的場景和攻擊者的行為來改進。更高的保真度將導致更有能力的網絡防御代理。此外,發布和維護工具,如健身房或訓練有素的代理,可以幫助吸引學術界或其他研究人員來做這項工作。最后,持續的資金也將使研究人員更容易向這些項目看齊。
建立并提供測試和訓練場。更大和更復雜的代理將需要更多的計算密集型訓練和測試,這可能使一些研究人員的資源緊張。建立和維護大型計算系統也是一個挑戰,這需要難以得到的人才。提供必要的基礎設施、人才和資金資源--也許是以補貼成本的方式,也可以幫助加速進展并提供連續性。
協調數據共享。政府和行業的政策制定者有權力發布有關需要防御的網絡和他們所觀察到的威脅的網絡數據。這些都是需要仔細考慮的微妙問題,但只要共享數據能改善網絡安全,所有組織都會受益。
舉辦比賽。繼續舉辦自主的網絡防御競賽,并輔以財政獎勵,作為改善健身房和代理商的一種手段,同時培養未來的人才。
優先考慮能使自主網絡防御的利益最大化的領域。并非所有的網絡防御情況都需要自主代理,如速度不是限制因素或防御已經有效的情況。優先考慮自主性影響最大的領域可以幫助指導研究。同樣地,一些技術,如漏洞發現,對防御者或攻擊者都有幫助。政策制定者應投資于研究,以確定哪些情況和技術會導致更好的防御,而不是改進攻擊。
確定防御者代理是否需要攻擊者代理。在創建現實的模擬時,不清楚在多大程度上可以在沒有進攻者代理的情況下建立防御者代理來驅動它們。研究人員和政策制定者應該探索在不犧牲防御者有效性的情況下限制進攻代理的能力的方法,并對代理技術和知識的擴散建立嚴格的控制。他們還應該投資于研究,以了解哪些具體情景和技術需要進攻性制劑。
確定自主網絡防御代理的授權門檻。自主網絡防御代理將需要達到對一個組織的高度信任,以獲得高度的自主權。需要制定政策指導,為能力和可信度設定初始目標,與代理被授權做出的決定的風險相匹配。這種指導可以類似于為自主車輛制定的自主水平。它們也可以根據情況或威脅環境的各個方面而變化。
最近,網絡犯罪分子在一系列網絡系統中策劃了各種有組織和堅決的網絡攻擊,給私人和政府機構帶來了嚴重后果。當前基于安全的自動化和編排側重于自動化固定目的和硬編碼的解決方案,這些解決方案很容易被現代網絡攻擊超越。自動化網絡防御的研究將允許通過順序決策代理自主防御網絡系統來開發和實現情報響應。本文通過需求分析全面闡述了自動化網絡防御的發展,該需求分析分為兩個子領域,即自動化防御和攻擊代理和自主網絡操作(ACO) Gyms。需求分析允許對自動化代理進行比較,并強調了ACO Gyms對其持續發展的重要性。需求分析還用于評價ACO Gyms,其總體目標是發展ACO Gyms以在現實世界的網絡系統中部署自動化代理。從整體分析中解決了相關的未來挑戰,以加速自動化網絡防御領域的發展。
本報告調查了對抗性機器學習 (AML),即研究基于機器學習 (ML) 的人工智能系統弱點的研究方法。近年來,機器學習,尤其是深度學習 (DL),在圖像分類、自然語言處理和自主代理等多個領域取得了快速進展。因此,深度學習在軍事環境中也很受關注。然而,隨著進步,人們對 AML 方法的興趣不斷增加,新的攻擊變體不斷發布。實際上,所有 DL 系統在某種程度上都容易受到影響,無論是混淆它們、避免被它們檢測到,還是提取它們可能持有的秘密信息。從軍事角度來看,重要的是要意識到這種利用的可能性,無論是針對自己的人工智能系統還是針對對手使用的系統。
該報告概述了AML研究,然后展示了針對不同類型人工智能系統的一系列攻擊方法:
每個案例都描述和討論了攻擊并評估了實施。本報告的重點是攻擊。雖然在適用的情況下簡要討論了針對 AML方法的防御,但后續報告的主題是對AML防御的更深入研究。
關鍵詞:人工智能、機器學習、深度學習、深度神經網絡、欺騙、網絡攻擊、攻擊向量、漏洞、對抗樣本、數據中毒、數據提取、對抗策略
深度學習 (DL) 的出現將智能計算機軟件的性能和能力帶入了新的性能水平。將基于 DL 的軟件嵌入軍事指揮、控制、通信、計算機、情報、監視和偵察 (C4ISR) 系統中,有可能徹底改變創建準確及時的共同作戰圖 (COP) 的能力,從而使軍事決策過程可以比以往任何時候都更快、更精確地執行。從長遠來看,深度學習還可以用于在遠遠超出人類能力范圍的復雜戰爭環境中制定軍事計劃。
然而,由深度神經網絡 (DNN) 實施的基于 DL 的軟件容易受到各種威脅或網絡攻擊。這些是在對抗性機器學習 (AML) 研究領域研究和開發的。這些攻擊可能被用來欺騙決策者、降低系統性能、降低最終用戶信任度,甚至從系統中提取(即逆向工程)敏感的軍事數據。圖 1.1 展示了一個典型的 AML 攻擊示例,其中目標是用于對圖像內容進行分類的 DNN。在這種情況下,DNN 能夠正確地識別出圖 1.1a 中的原始圖像包含一架戰斗機,幾乎是絕對確定的。圖 1.1b 中的惡意圖像是通過在原始圖像上應用 AML 技術創建的,能夠欺騙相同的 DNN 將輸入分類為西伯利亞雪橇犬而不是戰斗機。在這種情況下,攻擊是有效的,盡管人眼無法察覺。
圖 1.1 – 使用 AML 的樣本攻擊。在這種情況下,目標是由 DNN 表示的圖像分類系統。圖 1.1a 顯示 DNN 能夠以近乎完美的確定性將良性(非操縱)輸入正確分類為戰斗機。圖 1.1b 顯示了使用 AML 技術創建的經過處理的圖像。被操縱的圖像成功地欺騙了 DNN,將輸入分類為西伯利亞雪橇犬而不是戰斗機。
據我們所知,AML 尚未被對手或高級持續威脅 (APT) 參與者用來瞄準和攻擊嵌入在現實世界軍事系統中的基于 DL 的軟件。然而,研究團隊和安全專家不斷證明,針對依賴 DL 來實現尖端性能廣泛應用程序的攻擊是可能的 [1]。例如,小心地替換句子中的單詞可能會導致語言模型對情緒進行錯誤分類 [2]。自動駕駛汽車使用的交通標志和車道檢測系統可以通過分別在標志和道路上貼上標簽來攻擊 [3, 4]。轉錄服務可能會被注入精心設計的噪聲所誤導,迫使系統將語音轉換為任意文本 [5、6]。因此,假設基于 DL 的軟件將在未來的 C4ISR 支持系統中普遍使用,預計對手和 APT 最終將利用這些漏洞來欺騙、拒絕訪問或收集情報。
本報告的目標是:(1) 概述迄今為止 AML 研究領域中已確定的攻擊向量,(2) 根據經驗估計這些攻擊的子集在軍事環境中的有效性,以及最后 (3) 提供見解并討論 AML 在何種程度上是深度學習在現實世界軍事應用中的現實和嚴重威脅。
盡管 AML 適用于任何基于 ML 的系統和算法,但本報告重點關注基于 DL 的 ML 系統。此外,本報告將重點關注攻擊。在 AML 研究領域提出和開發的防御機制將在未來的工作中涵蓋。最后,我們將范圍限制在與指揮和控制 (C2)、情報、監視和偵察相關的 DL 應用。
本報告的目標讀者是操作、獲取或開發軍事系統的人員,這些系統使用或嵌入了 AI、ML 和 DL 技術。
本報告假定讀者具有有關 ML 和 DL 概念的基本知識,例如監督學習、強化學習、損失函數、梯度下降和反向傳播。
第 2 章介紹了 AML,并介紹了用于對本報告中的攻擊進行分類和比較的分類法。第 3 章介紹了從軍事角度來看可能具有相關性的已知攻擊方法的三個案例研究。實施和評估這些方法。第 4 章總結了報告,討論了 AML 在現實世界中的適用性,包括在軍事領域。
本章提供了三個案例研究,探討了針對基于ML的系統的不同類型攻擊。在每種情況下,從AML文獻中選擇一種攻擊方法,并從軍事角度實現或測試。評估了攻擊的有效性,然后討論了實際考慮因素。選擇這三個案例研究是因為它們與軍事領域的潛在相關性,涵蓋了廣泛的攻擊,并說明了各種ML應用和方法。
第一章以欺騙深度神經網絡將戰斗機圖像誤認為是狗的例子開始。雖然將軍事裝備隱藏在顯眼的地方有明顯的吸引力,但介紹性的例子是高度理想化的。實際應用面臨的一個障礙是,攻擊僅限于數字領域:操作是在數字圖像本身上進行的,也就是說,在戰斗機被拍攝后的一個階段。如果圖像是由對手創建的(例如,飛機是由監視攝像機拍攝的),那么操縱圖像將需要深入訪問敵人的系統。這是不太可能的(如果是,更簡單和更健壯的攻擊變得可行,例如消除圖像或阻止其記錄)。此外,雖然關于目標深度神經網絡的黑盒知識足以計算所需的圖像修改(例如,觀察分類標簽結果[18]),但在實踐中,即使是這種知識也無法預期。
因此,第3.1節中的第一個案例研究調查了數據中毒。這種攻擊的目的與前面的示例相同:通過欺騙敵人的DNN,使其對車輛進行錯誤分類,從而使軍用車輛(在本例中為坦克)逃避檢測。盡管方法也很相似,但是中毒攻擊解決了介紹性示例的實際缺點。
圖3.2 -僅使用正確標記的訓練圖像和直到測試時間才顯示的隱藏觸發器的數據中毒攻擊。在這個圖中,所有打補丁的坦克圖像都用紅色標出,而所有中毒的汽車圖像都用黃色標出。
第3.2節將范圍擴展到通過數據提取對語言模型的攻擊。語言模型是在廣泛的文本語料庫(通常是數十億個單詞)上訓練的非常大的dnn,在某種意義上能夠“理解”(書面)語言。它們引起了自然語言處理的范式變化,在許多任務中設定了新的基準[26],并因其生成文本的能力而獲得了媒體的廣泛關注[27]。事實上,即使在編寫本報告期間,也取得了顯著的進展,例如,ChatGPT系統的提出。語言模型正在不斷接近人類的自然語言處理水平,它們對社會幾乎所有方面的潛在影響和后果,包括軍事應用,目前很難預測。除了機會之外,它們也帶來了風險,例如,它們可能會將敏感信息暴露給對手。第3.2節中的案例研究調查了這種形式的對抗性提取攻擊的可行性。
圖3.5 -兩種語言模型的微調過程,展示了數據和最終的微調模型之間的細微差異(左為FTorig,右為FTpatch)。請注意,Dpatch的補丁文章約占CC新聞數據集總數的24%,即剩余的76%與未修改的數據集相同。
第3.3節研究了對通過強化學習訓練的模型的攻擊。這種模型通常用于無人駕駛車輛、機器人、游戲等領域的自主智能體。它們不是在一組固定的例子上以監督的方式訓練的。相反,智能體用一個獎勵函數來評估它的情況,并選擇一個獎勵最大化的行動過程。雖然這種操作模式為智能體提供了處理現實世界的靈活性和彈性,但它們仍然容易受到攻擊和欺騙,正如本案例研究將在基于強化學習的各種系統上展示的那樣。
圖3.10 -來自[51]的四個零和模擬機器人博弈的示例,用于評估對抗性策略[49]。
圖3.11 -“你不能通過”的博弈序列,敵對的對手(紅色)應該阻礙受害者(藍色)到達終點線。上面的四個數字顯示了一個普通的智能體是如何鏟斷對手的。下面的四個圖形顯示了敵對的對手如何使受害者在沒有任何接觸的情況下摔倒在地[49]。
對抗性機器學習在科學界引起了越來越大的興趣,每天都有關于新的攻擊變體的論文發表。幾乎任何形式的機器學習都容易受到某種類型的AML的影響,正如本報告通過攻擊方法的示例所證明的那樣。隨著越來越多的應用程序采用深度學習,攻擊的機會和潛在的回報也在增加。例如,圖像識別模型正以某種形式用于與敵方相關的情況,無論是民用還是軍用:機場和體育場開始采用人臉識別以各種原因拒絕個人進入[58],為上述個人應用AML來逃避系統提供了動機。軍用車輛在衛星圖像上的自動探測已經研究了幾十年,避免敵方衛星的這種探測顯然是任何軍隊都感興趣的。
然而,這些攻擊在很大程度上仍停留在學術界的實驗階段。已知很少有針對實際部署的深度學習系統的真正攻擊發生,也就是說,沒有得到深度學習系統操作員的同意,并且目標不僅僅是測試攻擊方法的可行性。可能的原因有很多:這種攻擊可能很少見,因為它們很難執行,或者潛在的目標還不多。攻擊可能很難被注意到(可以說逃避攻擊的主要目的是不被注意到)。攻擊者不太可能公布成功的攻擊,甚至受害者也可能認為保持沉默而不是進一步暴露自己的弱點是明智的。
盡管如此,一些攻擊已經傳播到公眾。Stable Diffusion[59]、DALL·e2[60]和Midjourney等生成圖像模型可以基于文本提示創建圖形。這使得他們在社交媒體上很受歡迎,但也引發了藝術家們的批評,他們懷疑他們的作品被用作訓練數據。2023年2月,媒體公司Getty Images對Stability AI提起訴訟,指控其未經許可使用Getty目錄中的受版權保護的庫存圖像訓練其Stable Diffusion模型。通過對Stable Diffusion的提取方法獲取證據,發現AI系統生成的圖像與Getty擁有的圖像具有很高的相似性,包括該公司的水印[61]。
針對語言模型的快速攻擊是一種更有趣的攻擊,仍然受到媒體的廣泛關注。這種類型的攻擊是一種簡單的提取變體,其目標不是訓練數據,而是隱藏的輸入指令。對于像ChatGPT這樣的大型語言模型,操作人員可能希望在沒有任何微調階段的情況下快速調整模型以適應某些應用程序。相反,對話只是在語言模型的文本指令之前,這些指令會影響它在與用戶對話過程中的行為,例如模型應該使用什么名稱,以及要展示什么樣的個性。這些指令通常不會顯示給語言模型的用戶,但好奇的用戶已經能夠讓模型暴露它們,例如通過告訴模型“忽略之前的指令”,從而覆蓋任何隱藏的指令,而不顯示隱藏的指令,然后問“上面文檔開頭寫了什么?”“[62]
這種由人群發起的攻擊雖然相對溫和,但表明評估人工智能系統對“AML”方法的穩健性很困難,更不用說實際防御它們了。這兩個挑戰都將成為該項目的未來報告的主題。
然而,從攻擊者的角度來看,情況可能至少同樣困難。很少有人工智能系統像上面的模型一樣具有公共接口,可以進行實驗。在防御環境中,攻擊者通常只有有限的機會研究目標系統,而傳統障礙(網絡安全和物理安全)可能構成與各種AML方法固有困難一樣多的挑戰。3.1節中描述的投毒攻擊是一種旨在繞過安全措施的方法,利用訓練數據的稀缺性誘使對手自己投毒他們的系統。未來的攻擊也有可能將AML與更傳統的方法(例如社會工程)結合起來。
隨著人工智能的日益普及,對攻擊方法的研究必然會增加。隨著人工智能使用的增加,對這一新領域的持續警惕和研究對于識別新出現的機會至關重要,但也要意識到自身的脆弱性。
點云數據由于其緊湊的形式和在表示復雜3D結構方面的靈活性而得到了廣泛的研究。點云數據準確捕捉和表示復雜3D幾何形狀的能力使其成為計算機視覺、機器人技術和自動駕駛等廣泛應用的理想選擇,這些應用都需要了解底層空間結構。鑒于標注大規模點云數據的挑戰,近年來自監督點云表示學習越來越受到關注。這種方法旨在從未標記的數據中學習通用且有用的點云表示,從而避免了大量的手動標注。在本文中,我們對使用DNNs的自監督點云表示學習進行了全面調查。我們首先介紹研究動機和近期研究的一般趨勢。然后簡要介紹常用的數據集和評估指標。在此基礎上,我們深入探討了基于這些技術的自監督點云表示學習方法。最后,我們分享了一些關于自監督學習在預訓練3D點云方面可能面臨的挑戰和潛在問題的想法。
1. 引言
三維點云是一種緊湊而靈活的表示形式,提供了豐富的幾何、形狀和尺度信息。隨著3D采集技術的快速進步,用于捕獲點云的3D傳感器已經變得越來越容易獲得,包括各種類型的3D掃描儀,激光雷達和RGB-D相機[1],[2]。當與圖像結合時,這些3D點云數據可以幫助機器感知周圍環境,從而被廣泛應用于計算機視覺、機器人、自動駕駛、遙感和醫療[3]等與場景理解相關的應用中。
隨著深度神經網絡(DNN)的不斷發展,點云理解得到了越來越多的關注,導致了近年來許多深度架構和模型的發展。然而,深度網絡的有效訓練通常需要大規模的、人工標注的訓練數據,例如用于目標檢測的3D邊界框和用于語義分割的逐點標注。由于遮擋、形狀變化以及人類感知和點云顯示之間的視覺不一致等因素,收集這些注釋可能是費時費力的。因此,大規模標注點云的高效收集已成為深度神經網絡有效設計、評估和部署的瓶頸。
為了規避耗時且昂貴的數據標記過程,許多自監督方法被提出,以從大規模無標記點云中學習視覺特征,而不依賴任何人工生成的標簽。一種流行的方法涉及設計各種前置任務讓網絡來解決。通過優化前置任務的目標函數來訓練網絡,并在此過程中學習特征。各種前置任務已被提出用于自監督學習,包括點云重建、對比學習和多模態學習等。前置任務具有兩個共性:(1)深度神經網絡在求解前置任務時必須捕獲點云的視覺特征;(2)通過利用數據本身的結構,從數據本身(自監督)中產生監督信號。 為促進方法學的進步并進行全面的比較,本文回顧了3D預訓練的自監督學習(SSL)方法,并為比較和預測技術提供了一個統一的視角。對該問題的綜合方法突出了現有方法的差異和相似性,可能鼓舞人心的新解決方案。我們將本次調查的貢獻總結如下:
統一的框架和系統的分類。本文提出了一個統一的框架,基于該框架,將現有的工作分為兩大類:對象和室內層,以及室外層。構建了下游任務和SSL學習方案的分類,以提供對這一領域的全面理解。 全面和最新的綜述。本文對經典和前沿的3D預訓練SSL方法進行了全面和及時的調查。對于每種類型的方法,都提供了細粒度的分類、深入的比較和總結。據我們所知,本文對SSL進行了首次回顧,特別關注預訓練的3D點云數據。 展望未來方向。本文強調了當前研究的技術局限性,并為未來的工作提出了幾個有希望的途徑,從各種角度提供了見解,以激勵該領域的進一步發展。
本綜述的結構如下:第2節介紹了預訓練點云的自監督學習的背景知識、常用的數據集及其特點。第3節系統地回顧了在物體和室內場景級別預訓練點云的SSL方法,而第4節比較和總結了室外場景級別數據的方法。最后,第5節確定了自監督點云預訓練的幾個有希望的未來方向。
2 物體和室內場景級別的自監督學習(SSL)
物體級別的自監督學習(SSL)方法主要關注使用單個3D物體(如椅子、桌子、汽車等)預訓練模型,這些物體通常與語義標簽關聯,以提供有關其身份的上下文信息。這種類型的數據通常用于物體識別、檢測和分割等任務,旨在識別和定位更大場景中的單個物體。另一方面,室內場景級別的SSL方法專注于使用整個3D室內環境預訓練模型,這些環境通常包含多個物體及其空間布局。室內場景級別的數據通常與物體和建筑元素的語義標簽關聯,例如“墻”、“門”、“窗戶”和“地板”,或者根據功能標簽進行分類,例如“廚房”、“臥室”、“客廳”或“辦公室”。與物體級別的SSL方法相比,室內場景級別的SSL方法通常需要將輸入數據預先分割成語義區域或物體,以提供關于場景的上下文信息。
**2.1 基于重建的自監督學習 **基于重建的自監督學習方法采用重建任務,使網絡能夠學習更好的3D點云表示(見圖3)。根據預設任務的性質,它們可以大致分為兩個主要子類別:基于掩碼的和基于損壞的。還有一些方法不屬于這兩組,它們被歸類為“其他”方法。
2.2 基于對比學習的自監督學習
對比學習是一種流行的自監督學習方法。它通過輔助任務構建正樣本和負樣本,并訓練模型使正樣本對在嵌入空間中靠近,同時將正樣本與負樣本分開。與生成方法相比,對比學習不依賴于特定樣本的細節,而是依賴于在嵌入空間中區分正樣本和負樣本。這一特性使得模型更容易優化和更具泛化性。
3.3 基于空間的自監督學習
基于空間的自監督學習方法利用點云中固有的豐富幾何信息來開發預設任務。圖5展示了一些典型的幾何變換,如裁剪、剪裁、抖動、隨機丟棄、下采樣和歸一化。通過采用這些空間退化點云的恢復過程,可以有效地預訓練模型,利用數據中豐富的空間上下文。
2.4 基于時間的自監督學習
基于時間的自監督學習方法強調利用序列中或人工生成的變換中固有的時間信息。點云序列由連續的點云幀組成,類似于視頻數據。例如,從RGB-D視頻幀轉換的室內點云序列和由連續點云掃描組成的激光雷達序列數據。這些點云序列包含豐富的時間信息,可以通過為自監督學習設計預設任務并利用提取的數據作為監督信號來訓練網絡。所學習的表示可以有效地轉移到各種下游任務。
2.5 多模態自監督學習
多模態學習旨在利用不同模態之間的相關性,如圖像、文本和點云(圖7)。這些方法的優點包括能夠利用來自多個來源的互補信息,對任何一種模態中缺失或嘈雜數據的魯棒性,以及對新環境的改善泛化能力。
3 室外場景級別的自監督學習
室內級別和室外級別自監督學習之間的主要區別源于點云數據的復雜性和稀疏性。室內級別的自監督學習關注具有相對較少變化和較高點云密度的環境,如房間、建筑物或其他封閉空間。另一方面,室外級別的自監督學習處理更復雜和動態的環境,如街道、森林和城市景觀,其中點云通常更稀疏。與物體和室內場景級別數據相比,室外點云的稀疏性導致語義信息的稀缺,因為可能只有少數幾個點表示一個物體或類別。此外,由于各種未見過的類別,室外場景級別點云的感知通常被認為是一個開放集問題,使得任務更具挑戰性。 自動駕駛系統通常依賴于室外場景的LiDAR數據,這些數據稀疏且缺乏顏色信息[95]。雖然無標簽的LiDAR數據很容易獲得1,但有標簽的數據的生產成本很高。這為在自動駕駛中建立依賴大規模標記3D數據的感知模型提出了一個重大挑戰[97]。因此,最近的工作專注于利用對大量未標記3D數據的自監督學習,以提高自動駕駛中下游任務的性能。上述挑戰使得室外場景級點云的預訓練成為一項艱巨的任務。然而,一些基于預測和流的方法已經被開發出來以匹配室外場景級點云的內在特性。
3.1 基于重構的自監督學習
與物體和室內場景級別的數據類似,基于重構的自監督預訓練已成為室外場景級別數據的一個重要研究領域(如圖8所示)。然而,室外場景級別點云的稀疏性給3D重構帶來了挑戰。為了解決直接處理大規模點云所遇到的困難,基于體素的和鳥瞰視圖(BEV)的重構方法已成為解決這些挑戰的有效途徑。 **3.2 基于對比學習的自監督學習 **
與物體或室內場景級別點云相比,室外場景級別點云具有更大的尺寸、噪聲、稀疏性、復雜的天氣和光照條件。這些因素可能會影響基于對比學習的自監督預訓練方法的有效性。因此,在室外場景級別點云中應用基于對比學習的自監督學習需要根據室外場景的特點進行改進,以提高預訓練模型的性能和泛化能力。在本節中,我們主要關注室外場景級別點云的對比學習。 **3.3 多模態自監督學習 **
隨著距離的增加,由于激光束發散,點云的稀疏度會增加,這使得預測小型和遠離的物體的邊界和語義類別變得非常困難。結合多種傳感器,如激光雷達和攝像頭,可以提供互補信息,從而提高自動駕駛系統的整體魯棒性。使用攝像頭提供的高分辨率二維圖像,使系統能夠更好地處理那些僅通過激光雷達數據難以檢測和分類的小型和遠離的物體(如圖10所示)。然而,獲取和處理多模態數據以實現高質量數據融合是非常繁瑣的。盡管可以通常獲得更高的精度,但多模態探測器不可避免地要犧牲推理效率來處理額外的模態[113]。
**3.4 基于預測的自監督學習 **
點云預測有助于車輛提高其在路徑規劃和碰撞避免等任務中的決策能力。由于激光雷達掃描的后續幀中天然提供了地面真實情況,因此可以通過自監督學習進行訓練,無需昂貴的標注,使其成為自動駕駛應用的有前途的方法。基于距離圖像和視覺的預測方法已經被廣泛研究,用于從過去的一系列激光雷達掃描中預測未來的點云。[115]和[116]等方法利用RNN來建模時間相關性,而[117]、[118]、[119]和[120]等方法關注于估計體素化的點云。
**3.5 基于流的自監督學習 **
場景流指的是點云時間序列中每個3D點的相對運動。場景流估計是自動駕駛領域的一個重要主題,因為它通過幫助自動駕駛車輛感知周圍實體的動作來支持安全規劃和導航。
雖然大多數流行和成功的模型架構都是由人工專家設計的,但這并不意味著我們已經探索了整個網絡架構空間并確定了最佳選擇。如果我們采用一種系統的、自動的方式來學習高性能模型體系結構,那么我們將更有可能找到最佳的解決方案。
自動學習和演化網絡拓撲并不是一個新想法(Stanley & Miikkulainen, 2002)。近年來,Zoph & Le 2017和Baker等人在2017年的開創性工作吸引了神經架構搜索(NAS)領域的大量關注,為更好、更快、更經濟的NAS方法帶來了許多有趣的想法。
當我開始研究NAS時,我發現Elsken等人2019年的這項調查非常有幫助。它們將NAS描述為一個由三個主要成分組成的系統,簡潔明了,也被其他NAS論文廣泛采用。
搜索空間: NAS搜索空間定義了一組操作(例如卷積、全連接、池化)以及如何將操作連接起來形成有效的網絡架構。搜索空間的設計通常涉及人類的專業知識,以及不可避免的人類偏見。
搜索算法: NAS搜索算法對網絡體系結構候選對象進行采樣。它接受子模型性能指標作為獎勵(例如,高精度,低延遲),并優化生成高性能架構候選。
評估策略: 我們需要測量、估計或預測提出的大量子模型的性能,以獲得反饋,供搜索算法學習。候選評估的過程可能非常昂貴,許多新的方法被提出來節省時間或計算資源。