KD (Knowledge蒸餾)是一種廣泛應用的技術,它將信息從繁瑣的教師模型遷移到緊湊的學生模型,從而實現模型的壓縮和加速。與圖像分類相比,目標檢測是一項更為復雜的任務,設計具體的目標檢測KD方法是非簡單的。在這項工作中,我們精心研究了教師和學生檢測模型之間的行為差異,并得到了兩個有趣的觀察結果: 第一,教師和學生對他們檢測到的候選框的排名差異很大,這導致了他們的精度差異。其次,教師和學生的特征響應差異和預測差異之間存在較大的差距,說明對教師的所有特征地圖進行同等的模仿是提高學生準確性的次優選擇。在此基礎上,我們分別提出了Rank mimics (RM)和predictive -guided Feature Imitation (PFI)兩種方法來提取一級檢測器。RM將教師的候選箱排序作為一種新的知識提煉形式,其表現始終優于傳統的軟標簽蒸餾。PFI試圖將特征差異與預測差異聯系起來,使特征模仿直接有助于提高學生的準確性。在MS COCO和PASCAL VOC基準上,在不同的探測器上進行了大量的實驗,以驗證我們的方法的有效性。具體來說,ResNet50的RetinaNet在MS COCO中實現了40.4%的mAP,比其基線高3.5%,也優于以往的KD方法。
知識蒸餾是一種模型壓縮的有效手段,但是適用于目標檢測的知識蒸餾方法卻很少被研究。而且,我們通過實驗發現,在分類任務上主導的soft label蒸餾,并不適用于目標檢測,只能帶來很小的提升。因此,設計一種適用于目標檢測的知識蒸餾方法很有必要。
//www.zhuanzhi.ai/paper/b867f1778005b17a1547c8f74353158b
我們從特征、網絡預測和NMS之后的檢測結果這三方面,詳細比較了教師檢測器和學生檢測器的差異到底在哪里。我們發現,在一些困難樣本上,教師模型和學生模型的表現非常不一致,它們最終的檢測結果(after NMS),往往是從不同的anchor進行預測。這個現象表明,教師網絡和學生網絡在anchor的排序上存在差異。教師網絡有更強的表征能力,能更加準確地建模出anchor之間的語義關系,讓檢測結果從語義信息最強的anchor輸出,并能抑制其他弱一些的anchors;而學生網絡在這方面,會表現得差一些。基于這個發現,我們設計了一種新的知識蒸餾方法:Rank Mimicking (排序蒸餾)。
特征蒸餾的目的,是想讓學生模型能夠產生和教師一樣準確的預測。但是,通過可視化,我們發現,在一些區域上,盡管學生模型的特征和教師模型的特征,有很大不同(如下圖第二行黃框所示),但在這些區域,學生模型自己也可以產生準確的預測,并不需要依賴教師模型的指導(如下圖第一行黃框所示)。這個現象就導致了特征蒸餾過程中,有很多無效的梯度,并不能幫助學生模型產生準確的預測。因此,我們提出了Prediction-guided feature imitation,利用預測的差異來反向引導特征蒸餾,讓特征蒸餾直接拉近學生預測和教師預測之間的距離。
論文題目:LGD: Label-guided Self-distillation for Object Detection 中文題目:LGD:用于物體檢測的標簽引導自蒸餾 論文鏈接:
//www.zhuanzhi.ai/paper/4649789799b6a71809c04f330333e194
以往的檢測蒸餾均依賴強預訓練教師網絡的知識。然而現實應用中未必能屢屢獲得這樣的教師。
由此我們提出了首個用于通用目標檢測的自蒸餾框架,它通過跨物體(1)標簽嵌入和(2) 學生網絡特征的異構模態交互,來獲取指導性知識,只需常規監督訓練標簽。
因此被稱為標簽引導自蒸餾 (Label-Guided Self-distillation, LGD)。LGD 在多種檢測器/數據集下均取得明顯提升,相比經典預訓練教師蒸餾模型 FGFI 節省 51%的相對時間(除學生網絡固有訓練時間), 和 34%的絕對時間,且效果更佳。
無監督域自適應是一種將深度神經網絡泛化到新目標域的有效范式。然而,要達到完全監督的性能,仍有巨大的潛力有待挖掘。在本文中,我們提出了一種新的主動學習策略來輔助目標領域中的知識遷移,稱為主動領域自適應。我們從一個觀察開始,當訓練(源)和測試(目標)數據來自不同的分布時,基于能量的模型表現出自由能量偏差。受這一內在機制的啟發,我們從經驗上揭示了一個簡單而有效的基于能量的采樣策略,它比現有的需要特定架構或計算距離的方法更能幫助我們選擇最有價值的目標樣本。我們的算法,基于能量的主動域自適應(EADA),在每一輪的選擇中查詢集域特征和實例不確定性的目標數據組。同時,通過正則化項將目標數據壓縮的自由能對準源域,可以隱式地減小域間隙。通過大量的實驗,我們證明了EADA在眾所周知的具有挑戰性的基準測試中取得了重大改進,超越了最先進的方法,使其成為開放世界中一個有用的選項。代碼可以在//github.com/BIT-DA/EADA上找到。
論文題目:Instance-Conditional Knowledge Distillation for Object Detection
中文題目:用于物體檢測的實例條件知識蒸餾
論文鏈接://www.zhuanzhi.ai/paper/8175ccabb0b146d78a42919311b7b072
與分類不同, 檢測圖片散布著各式目標, 而有效的蒸餾區域與實例位置相關又不完全等同. 本文提出實例條件知識蒸餾:
a. 將實例標注編碼的查詢 (query) 表征與教師網絡提取的關鍵 (key) 表征計算關聯系數, 期望高系數處為空間中有效蒸餾區域;
b. 為學習靠譜關聯系數, 引入含定位和識別的輔助任務進行監督;
c. 關聯系數將以掩膜的型態, 在學生和教師網絡的特征蒸餾時使用
實驗表明, 我們的方法能顯著提升學生檢測器的效果, 有時甚至青出于藍 (超越教師)。
知識蒸餾(KD)的目標是將知識從一個更大的、優化的教師網絡轉移到一個更小的、可學習的學生網絡。現有的KD方法主要考慮兩種類型的知識,即個體知識和關系知識。然而,這兩類知識通常是獨立建模的,而它們之間的內在相關性在很大程度上被忽略了。充分的學生網絡學習需要將個體知識和關系知識結合起來,同時保留它們內在的相關性。在本文中,我們提出基于實例間的屬性圖來提取新的整體知識。通過圖神經網絡從相關鄰域樣本中聚合個體知識,將整體知識表示為統一的基于圖的嵌入,通過對比的方式提取整體知識來學習學生網絡。在基準數據集上進行了大量的實驗和燒蝕研究,結果證明了該方法的有效性。該代碼已在//github.com/wyc-ruiker/HKD上發布
圖神經網絡在許多基于圖的任務中得到了廣泛的應用,如節點分類、鏈路預測和節點聚類。GNNs的性能優勢主要來自于對圖的邊緣執行特征傳播和平滑,因此需要足夠的連接性和標簽信息來進行有效傳播。不幸的是,許多現實世界的網絡在邊緣和標簽方面都是稀疏的,這導致了GNN的次優性能。最近對這個稀疏問題的興趣集中在自訓練方法上,它用偽標簽擴展監督信號。然而,由于偽標簽的質量和數量都不理想,自訓練方法本身并不能充分發揮提煉稀疏圖學習性能的潛力。在本文中,我們提出了ROD,一種新的接收感知的在線知識提取方法用于稀疏圖學習。我們為ROD設計了三種監督信號:多尺度接收感知的圖知識、基于任務的監督和豐富的提煉知識,允許知識以同行教學的方式在線遷移。為了提取隱藏在多尺度接收領域中的知識,ROD明確要求個體學生模型保持不同層次的位置信息。對于給定的任務,每個學生根據自己的接受量表知識進行預測,同時結合多尺度知識動態地建立一個強大的教師。我們的方法已經在9個數據集和各種基于圖的任務上進行了廣泛的評估,包括節點分類、鏈接預測和節點聚類。結果表明,ROD算法達到了最先進的性能,對圖稀疏性具有更強的魯棒性。
隨著深度學習的成功,基于圖神經網絡(GNN)的方法[8,12,30]已經證明了它們在分類節點標簽方面的有效性。大多數GNN模型采用消息傳遞策略[7]:每個節點從其鄰域聚合特征,然后將具有非線性激活的分層映射函數應用于聚合信息。這樣,GNN可以在其模型中利用圖結構和節點特征信息。
然而,這些神經模型的預測缺乏透明性,人們難以理解[36],而這對于與安全和道德相關的關鍵決策應用至關重要[5]。此外,圖拓撲、節點特征和映射矩陣的耦合導致復雜的預測機制,無法充分利用數據中的先驗知識。例如,已有研究表明,標簽傳播法采用上述同質性假設來表示的基于結構的先驗,在圖卷積網絡(GCN)[12]中沒有充分使用[15,31]。
作為證據,最近的研究提出通過添加正則化[31]或操縱圖過濾器[15,25]將標簽傳播機制納入GCN。他們的實驗結果表明,通過強調這種基于結構的先驗知識可以改善GCN。然而,這些方法具有三個主要缺點:(1)其模型的主體仍然是GNN,并阻止它們進行更可解釋的預測;(2)它們是單一模型而不是框架,因此與其他高級GNN架構不兼容;(3)他們忽略了另一個重要的先驗知識,即基于特征的先驗知識,這意味著節點的標簽完全由其自身的特征確定。
為了解決這些問題,我們提出了一個有效的知識蒸餾框架,以將任意預訓練的GNN教師模型的知識注入精心設計的學生模型中。學生模型是通過兩個簡單的預測機制構建的,即標簽傳播和特征轉換,它們自然分別保留了基于結構和基于特征的先驗知識。具體來說,我們將學生模型設計為參數化標簽傳播和基于特征的2層感知機(MLP)的可訓練組合。另一方面,已有研究表明,教師模型的知識在于其軟預測[9]。通過模擬教師模型預測的軟標簽,我們的學生模型能夠進一步利用預訓練的GNN中的知識。因此,學習的學生模型具有更可解釋的預測過程,并且可以利用GNN和基于結構/特征的先驗知識。我們的框架概述如圖1所示。 圖片
圖1:我們的知識蒸餾框架的示意圖。學生模型的兩種簡單預測機制可確保充分利用基于結構/功能的先驗知識。在知識蒸餾過程中,將提取GNN教師中的知識并將其注入學生。因此,學生可以超越其相應的老師,得到更有效和可解釋的預測。
我們在五個公共基準數據集上進行了實驗,并采用了幾種流行的GNN模型,包括GCN[12]、GAT[30]、SAGE[8]、APPNP[13]、SGC[33]和最新的深層GCN模型GCNII[4]作為教師模型。實驗結果表明,就分類精度而言,學生模型的表現優于其相應的教師模型1.4%-4.7%。值得注意的是,我們也將框架應用于GLP[15],它通過操縱圖過濾器來統一GCN和標簽傳播。結果,我們仍然可以獲得1.5%-2.3%的相對改進,這表明了我們框架的潛在兼容性。此外,我們通過探究參數化標簽傳播與特征轉換之間的可學習平衡參數以及標簽傳播中每個節點的可學習置信度得分,來研究學生模型的可解釋性。總而言之,改進是一致,并且更重要的是,它具有更好的可解釋性。
本文的貢獻總結如下:
基于深度學習的半監督學習(SSL)算法在醫學圖像分割方面取得了很有前途的結果,并可以通過利用未標記的數據減輕醫生昂貴的標注。然而,現有文獻中的大多數SSL算法都傾向于通過干擾網絡和/或數據來規約模型訓練。考慮到多/雙任務學習涉及到具有固有的預測擾動的各個級別的信息,我們在這項工作中提出了一個問題:我們能夠顯式地構建任務級別的正則化,而不是隱式地構建用于SSL的網絡和/或數據級別的擾動和轉換嗎?為了回答這個問題,我們首次提出了一個新的雙任務一致性半監督框架。具體地說,我們使用一個雙任務深度網絡來聯合預測一個像素級分割圖和一個幾何感知的目標集表示。通過可微任務轉換層將水平集表示轉換為近似分割映射。同時,我們在水平集導出的分割圖和直接預測的分割圖之間引入了一種雙任務一致性正則化,用于標記和未標記數據。在兩個公共數據集上的大量實驗表明,我們的方法可以通過合并未標記數據極大地提高性能。同時,我們的框架優于最先進的半監督醫學圖像分割方法。代碼可以在//github.com/Luoxd1996/DTC找到。
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa
目標檢測器通常在完全標注實例的監督學習情況下獲得很好的結果。但是,對于稀疏實例注釋,它們的性能遠遠不能令人滿意。現有的稀疏標注目標檢測方法主要是對難的負樣本的損失進行重加權,或者將未標注的實例轉換為忽略區域,以減少假陰性的干擾。我們認為這些策略是不夠的,因為它們最多可以減輕由于缺少注釋而造成的負面影響。在本文中,我們提出了一個簡單而有效的機制,稱為協同挖掘,稀疏標注的目標檢測。在協同挖掘中,一個連體網絡的兩個分支相互預測偽標簽集。為了增強多視圖學習和更好地挖掘未標記實例,將原始圖像和相應的增強圖像分別作為Siamese網絡的兩個分支的輸入。協同挖掘可以作為一種通用的訓練機制,應用于大多數現代目標檢測器。在三種不同稀疏注釋設置的MS COCO數據集上進行了實驗,使用兩種典型的框架:基于錨的檢測器RetinaNet和無錨檢測器FCOS。實驗結果表明,與RetinaNet的協同挖掘方法相比,在相同的稀疏標注設置下,相比于不同的基線,改進了1.4%~2.1%,超過了現有的方法。