本篇論文的研究對象是AI安全領域的后門攻擊。作為一種發生在訓練階段的定向攻擊,后門攻擊近年來在AI安全中引起了極大的重視。后門攻擊能夠控制模型的預測結果,但是卻不會影響正常樣本的預測準確率,是一種相當隱蔽且危險的攻擊。更重要的是,一旦將后門觸發器嵌入到目標模型中,就很難通過傳統的微調或神經修剪來徹底消除其惡意的影響。針對這一問題,本文提出了一種新穎的防御框架--神經元注意力蒸餾(Neural Attention Distillation,NAD),以消除DNN中的后門觸發器。NAD利用教師網絡在少量干凈的數據子集上指導后門學生網絡的微調,以使學生網絡的中間層注意力激活與教師網絡的注意力激活保持一致。其中,教師網絡可以通過對同一干凈子集進行獨立的微調獲得。針對6種最新的后門攻擊——BadNets,Trojan attack,Blend attack,Clean-label attack,Sinusoidal signal attack,Reflection attack,驗證了提出的NAD的有效性,僅使用5%的干凈訓練數據就可以有效擦除后門觸發器,同時幾乎不影響干凈樣本的性能。本文提出的基于神經元注意力蒸餾的后門凈化方法是目前業界最簡單有效的方法,能夠抵御目前已知的所有后門攻擊,理論分析表明該方法具有對后門攻擊的普適性防御能力。論文代碼已經開源://github.com/bboylyg/NAD。
什么是自動化攻擊?
惡意用戶不再需要分析代碼、編寫腳本或進行復雜的逆向編譯,只要找到合適的自動化工具就能輕松達到目的。
自動化攻擊包括自動化掃描漏洞和入侵、撞庫盜用賬號、業務自動化攻擊和自動化高級DDOS攻擊等。
本文提出了一種自動化對抗攻擊搜索方案,名為Composite Adversarial Attacks (CAA)。我們實現了32個基礎對抗攻擊算法作為候選池,并設計了一個搜索空間,將攻擊策略表示為一個攻擊序列,即前一個攻擊算法的輸出作為后繼攻擊的初始化輸入。通過使用NSGA-II遺傳算法對攻擊序列和攻擊超參的搜索,我們可以發現更優的攻擊策略并實現自動化對抗攻擊。和當下10個主流攻擊算法的對比實驗結果表明CAA可以在更小計算復雜度的情況下獲得目前最好的攻擊效果。)
//www.zhuanzhi.ai/paper/4594af42d79efb3a1090149653d332e6
本文旨在從表單文檔中提取零樣本的結構化信息。與傳統的文檔結構話信息提取的不同在于,對于指定的鍵,零樣本學習在訓練集中不需要存在其對應的訓練數據,而在預測過程中,根據鍵的文本描述直接在文檔中尋找該鍵對應的目標值。零樣本結構化信息提取使得模型可以預測數量龐大的鍵對應的值而不需要額外的標注數據。為了達到這個目的,本文提出鍵和觸發詞可感應的基于Transformer框架的兩階段模型(KATA)。第一階段根據鍵的描述在文檔中尋找對應的觸發詞;第二階段根據觸發詞在文檔中預測對應的目標值。為了提升模型的泛化能力,在大量的維基百科數據上進行預訓練。最終在兩個微調數據集上進行測試,英文數據集和中文數據集分別獲得0.73和0.71左右的F1值。實驗結果表明,本文提出的KATA模型能一定程度上能提取零樣本結構化信息。
后門學習(backdoor learning)是一個重要且正在蓬勃發展的領域。與對抗學習(adversarial learning)類似,后門學習也研究深度學習模型的安全性問題,其研究主要包括兩大領域:后門攻擊(backdoor attacks)及后門防御(backdoor defenses)。
顧名思義,后門攻擊試圖在模型的訓練過程中通過某種方式在模型中埋藏后門(backdoor)。這些埋藏好的后門將會被攻擊者預先設定的觸發器(trigger)激發。在后門未被激發時,被攻擊的模型具有和正常模型類似的表現;而當模型中埋藏的后門被攻擊者激活時,模型的輸出變為攻擊者預先指定的標簽(target label)以達到惡意的目的。后門攻擊可以發生在訓練過程非完全受控的很多場景中,例如使用第三方數據集、使用第三方平臺進行訓練、直接調用第三方模型,因此對模型的安全性造成了巨大威脅。
目前,對訓練數據進行投毒是后門攻擊中最直接也最常見的方法。如下圖所示,在基于投毒的后門攻擊(poisoning-based attacks)中,攻擊者通過預先設置的觸發器(例如一個小的local patch)來修改一些訓練樣本。這些經過修改的樣本的標簽講被攻擊者指定的目標標簽替換,生成被投毒樣本(poisoned samples)。這些被投毒樣本與正常樣本將會被同時用于訓練,以得到帶后門的模型。值得一提的是,觸發器不一定是可見的,被投毒樣品的真實標簽也不一定與目標標簽不同,這增加了后門攻擊的隱蔽性。 當然,目前也有一些不基于投毒的后門攻擊方法被提出,也取得了不錯的效果。
相對于攻擊來說,后門防御的類型要更為豐富與復雜。直觀上來說,后門攻擊就像是使用對應的鑰匙開門,因此后門防御也可以從 觸發器-后門不匹配、后門移除、觸發器移除 這三種設計范式下進行思考與討論。具體想法如下圖所示:
盡管存在很多相似之處,后門學習事實上與對抗學習之間仍然存在很大的區別。一般來說,對抗攻擊關注的是模型預測過程的安全性問題,而后門攻擊關注的是模型訓練過程的安全性。此外,后門攻擊與傳統的數據投毒(data poisoning)[另一個關注模型訓練過程安全性的研究領域]也有很大的區別:數據投毒的目的是為了降低模型的泛化性能(即希望訓練好的模型在測試集上不能有良好的表現),而后門攻擊在正常設定下具有和正常模型類似的表現。
對于初次接觸后門學習的人而言,從哪里開始以及如何快速了解領域的現狀具有重要意義。因此,我們撰寫了本領域第一篇較為全面的Survey-《Backdoor Learning: A Survey》。相比于傳統安全領域直接根據攻擊/防御方法發生的具體階段進行分類,我們從深度學習的視角出發,深入思考了各類現有文章在方法角度的聯系與區別,并依此對現有論文進行分類和總結。此外,我們也在Github上維護了一個后門學習相關資源匯總的倉庫:Backdoor Learning Resources,以方便研究者可以方便獲得當前領域最新的進展。
論文鏈接: //www.zhuanzhi.ai/paper/1d425c2f1ebf2cb79645863748b05ff9
資源鏈接:
主要作者簡介 吳保元,香港中文大學(深圳)數據科學學院副教授,并擔任深圳市大數據研究院大數據安全計算實驗室主任。吳博士于2014年獲得中國科學院自動化研究所模式識別國家重點實驗室模式識別與智能系統博士學位。2016年11月至2018年12月擔任騰訊AI Lab高級研究員,并于2019年1月升任T4專家研究員。他在機器學習、計算機視覺、優化等方向上做出了多項出色工作,在人工智能的頂級期刊和會議上發表論文40多篇,包括TPAMI,IJCV,CVPR,ICCV,ECCV等,并曾入選人工智能頂級會議CVPR 2019最佳論文候選名單,同時擔任人工智能頂級會議AAAI 2021、IJCAI 2020、2021高級程序委員和中國計算機學會、中國自動化學會多個專業委員會委員。他在人工智能安全的研究上有深厚的造詣,提出過多項原創算法,是國內較早從事該研究的資深專家之一,并與騰訊安全團隊開展了深入的合作。在騰訊工作期間,他領銜發布了業內第一個AI安全風險矩陣,得到業內和媒體的廣泛關注。
吳保元教授團隊現招聘研究科學家、博士后、博士研究生(2021秋入學)、訪問學生等,研究方向為人工智能安全與隱私保護、計算機視覺。
詳情請見
李一鳴,清華大學數據科學與信息技術專業在讀博士生。其研究主要集中在深度學習的安全性領域,具體包括模型訓練過程的安全性(后門學習)、模型預測過程的安全性(對抗學習、魯棒機器學習)與數據的安全性(數據隱私保護)。
Knowledge Distillation in Wide Neural Networks: Risk Bound, Data Efficiency and Imperfect Teacher
知識提煉是一種在教師網絡的軟輸出指導下訓練學生網絡的策略。它已成為模型壓縮和知識轉移的成功方法。然而,目前的知識提煉缺乏令人信服的理論知識。另一方面,最近在神經正切核上的發現使我們能夠使用網絡隨機特征的線性模型來近似寬泛的神經網絡。在本文中,我們從理論上分析了廣義神經網絡的知識提煉問題。首先給出了線性化網絡模型的轉移風險界限。然后我們提出了一個任務訓練難度的度量,稱為數據效率。基于這一衡量標準,我們表明,對于一個完美的教師,高比例的教師軟標簽可能是有益的。最后,對于教師不完善的情況,我們發現硬標簽可以糾正教師的錯誤預測,這就解釋了硬標簽和軟標簽混合使用的實踐。
//www.zhuanzhi.ai/paper/8fb343feb238db246bcdb59a367b6cbd
論文題目:Scalable Graph Neural Networks via Bidirectional Propagation
論文概述:圖神經網絡(GNN)是一個新興的非歐氏數據學習領域。近年來,人們對設計可擴展到大型圖形的GNN越來越感興趣。大多數現有的方法使用“圖采樣”或“分層采樣”技術來減少訓練時間;但是,這些方法在應用于具有數十億條邊的圖時仍然無法提供可靠的性能。在本文中,我們提出了一種可伸縮的圖神經網絡GBP,同時從特征向量和訓練/測試節點進行雙向消息傳播,為每個表示生成一個無偏估計量。每個傳播都是以局部方式執行的,從而實現了亞線性時間復雜性。廣泛的實驗證明,GBP達到了state-of-the-art性能同時顯著減少訓練和推理時間。在單臺機器上,GBP能夠在不到2000秒的時間內,在一個擁有超過6000萬個節點和18億條邊的圖形上提供優異的性能
//www.zhuanzhi.ai/paper/bf70cf78aa20bcfce7a1f6d36c8e080a
只包含加法操作的加法神經網絡 (ANN)為開發低能耗的深層神經網絡提供了一種新的途徑。但是,當用加法濾波器替換原始的卷積濾波器時會帶來精度下降。其主要原因是采用L1-范數進行神經網絡優化比較困難。在這種情況下,反向傳播的梯度通常會估計不準確。本文提出一種在不增加可訓練參數的前提下,通過基于核的漸進式知識蒸餾(PKKD)方法進一步提高ANN的性能。我們將與ANN具有相同結構的卷積神經網絡(CNN)進行隨機初始化并作為教師網絡,將ANN和CNN的特征和權重通過核變換映射到一個新的空間,減少了分布之間的差異,從而消除了精度下降問題。最后,ANN通過漸進的方法同時學習標簽和教師網絡的知識。該方法在幾個標準數據集上得到了很好的驗證,從而有效地學習了具有較高性能的ANN。例如,使用所提出的PKKD方法訓練的ANN-50在ImageNet數據集上獲得76.8%的精度,比相同結構的ResNet-50高0.6%。
圖神經網絡(GNN)已經在許多具有挑戰性的應用中展示了優越的性能,包括小樣本學習任務。盡管GNN具有強大的從少量樣本中學習和歸納的能力,但隨著模型的深入,GNN通常會出現嚴重的過擬合和過平滑問題,這限制了模型的可擴展性。在這項工作中,我們提出了一個新的注意力GNN來解決這些挑戰,通過合并三重注意機制,即節點自我注意,鄰居注意和層記憶注意力。我們通過理論分析和實例說明了所提出的注意模塊可以改善小樣本學習的GNN的原因。廣泛的實驗表明,在mini-ImageNet 和Tiered-ImageNet數據集上,通過誘導和直推設置,提出的注意力GNN在小樣本學習方面優于基于最先進的GNN方法。
最近,NLP見證了大型預訓練模型使用的激增。用戶下載在大型數據集上預先訓練的模型的權重,然后在他們選擇的任務上微調權重。這就提出了一個問題:下載未經訓練的不可信的權重是否會造成安全威脅。在這篇論文中,我們證明了構造“權重中毒”攻擊是可能的,即預先訓練的權重被注入漏洞,在微調后暴露“后門”,使攻擊者能夠通過注入任意關鍵字來操縱模型預測。我們證明,通過應用正則化方法(我們稱之為RIPPLe)和初始化過程(我們稱之為嵌入手術),即使對數據集和微調過程的了解有限,這種攻擊也是可能的。我們在情感分類、毒性檢測、垃圾郵件檢測等方面的實驗表明,該攻擊具有廣泛的適用性和嚴重的威脅。最后,我們概述了針對此類攻擊的實際防御。復制我們實驗的代碼可以在//github.com/neulab/RIPPLe找到。
論文題目
Few Shot Network Compression via Cross Distillation
論文摘要
模型壓縮已被廣泛應用于獲得輕量化的深層神經網絡。然而,大多數流行的方法需要使用足夠的訓練數據進行微調以確保準確性,這可能會受到隱私和安全問題的挑戰。作為隱私性和性能之間的折衷,本文研究了少鏡頭網絡壓縮:在每類樣本數較少的情況下,如何有效地壓縮性能可以忽略不計的網絡?少鏡頭網絡壓縮的核心挑戰在于在推理過程中原始網絡的高估計誤差,因為壓縮后的網絡很容易過度適應少數訓練實例。估計誤差能夠很好地預測和積累層,最終決定網絡輸出。為了解決這個問題,我們提出了一種新的分層知識提取方法cross蒸餾。通過將教師網絡和學生網絡的隱含層交織在一起,可以有效地減少層內累積的估計誤差。該方法提供了一個通用的框架,與流行的網絡壓縮技術(如剪枝)兼容。在基準數據集上進行的大量實驗表明,當只有少量訓練實例可用時,交叉蒸餾可以顯著提高學生網絡的準確性。
論文作者
郝麗百,賈翔悟,Irwin King,Michael Lyu,香港中文大學。