知識蒸餾是一種模型壓縮的有效手段,但是適用于目標檢測的知識蒸餾方法卻很少被研究。而且,我們通過實驗發現,在分類任務上主導的soft label蒸餾,并不適用于目標檢測,只能帶來很小的提升。因此,設計一種適用于目標檢測的知識蒸餾方法很有必要。
//www.zhuanzhi.ai/paper/b867f1778005b17a1547c8f74353158b
我們從特征、網絡預測和NMS之后的檢測結果這三方面,詳細比較了教師檢測器和學生檢測器的差異到底在哪里。我們發現,在一些困難樣本上,教師模型和學生模型的表現非常不一致,它們最終的檢測結果(after NMS),往往是從不同的anchor進行預測。這個現象表明,教師網絡和學生網絡在anchor的排序上存在差異。教師網絡有更強的表征能力,能更加準確地建模出anchor之間的語義關系,讓檢測結果從語義信息最強的anchor輸出,并能抑制其他弱一些的anchors;而學生網絡在這方面,會表現得差一些。基于這個發現,我們設計了一種新的知識蒸餾方法:Rank Mimicking (排序蒸餾)。
特征蒸餾的目的,是想讓學生模型能夠產生和教師一樣準確的預測。但是,通過可視化,我們發現,在一些區域上,盡管學生模型的特征和教師模型的特征,有很大不同(如下圖第二行黃框所示),但在這些區域,學生模型自己也可以產生準確的預測,并不需要依賴教師模型的指導(如下圖第一行黃框所示)。這個現象就導致了特征蒸餾過程中,有很多無效的梯度,并不能幫助學生模型產生準確的預測。因此,我們提出了Prediction-guided feature imitation,利用預測的差異來反向引導特征蒸餾,讓特征蒸餾直接拉近學生預測和教師預測之間的距離。
本文介紹我們被AAAI'22接收的工作《On the Efficacy of Small Self-Supervised Contrastive Models without Distillation Signals》。
//www.zhuanzhi.ai/paper/3e62e1f673466df464ee1dafe962c576
在確定研究小模型對比學習這個方向的時候,正好是CompRess[1]、SEED[2]等工作剛剛發表的時候。原本我們的計劃是沿著知識蒸餾(Knowledge Distillation)希望進一步提升小模型自監督的SOTA表現,但是很快我們意識到了幾個問題:
首先,現有工作匯報的小模型基線使用的一律都是ResNet50架構下的默認設置,還沒有對自監督小模型訓練效能的研究;
其次,研究蒸餾方法在小模型上的應用本質上不是一個自監督學習問題。因為這個時候大模型成為小模型的監督信號,原本利用數據進行增強讓網絡學習到某種不變形的自監督學習在這個時候退化成為了一個簡單的regression問題;
最后,蒸餾方法往往需要部署一個大的網絡,這在一些計算資源受到限制的場景里并不是非常適用,這也再一次增強了我們想要單純研究小模型自身對比學習效能的動機。
值得一提的是,前人的工作對小模型為什么在對比學習框架下表現糟糕給出了統一的猜想:對比學習這種instance discrimination的前置任務需要區分的類太多,對小模型來說太過困難,因此小模型在這樣的前置任務上沒有辦法學到比較好的特征[2,3,4]。但事實上我們后面會看到,這個假設并沒有說服力。解釋小模型為什么學不到好的表征空間依舊是一個需要探索的方向。
本文主要研究并驗證了小模型在沒有蒸餾信號引導下自監督訓練的可行性,希望能夠給小領域的同行帶來一些有用的信息。綜合上述的結果,我們驗證了即使在訓練時不需要大模型提供的蒸餾信號引導,小模型的自監督表現依然能夠達到一個不錯的水平。我們希望這項工作能夠為未來小模型自監督領域的工作帶來一些啟發,歡迎志同道合的朋友們在評論區分享自己的觀點~
文章鏈接:[2107.14762] On the Efficacy of Small Self-Supervised Contrastive Models without Distillation Signals (arxiv.org)
KD (Knowledge蒸餾)是一種廣泛應用的技術,它將信息從繁瑣的教師模型遷移到緊湊的學生模型,從而實現模型的壓縮和加速。與圖像分類相比,目標檢測是一項更為復雜的任務,設計具體的目標檢測KD方法是非簡單的。在這項工作中,我們精心研究了教師和學生檢測模型之間的行為差異,并得到了兩個有趣的觀察結果: 第一,教師和學生對他們檢測到的候選框的排名差異很大,這導致了他們的精度差異。其次,教師和學生的特征響應差異和預測差異之間存在較大的差距,說明對教師的所有特征地圖進行同等的模仿是提高學生準確性的次優選擇。在此基礎上,我們分別提出了Rank mimics (RM)和predictive -guided Feature Imitation (PFI)兩種方法來提取一級檢測器。RM將教師的候選箱排序作為一種新的知識提煉形式,其表現始終優于傳統的軟標簽蒸餾。PFI試圖將特征差異與預測差異聯系起來,使特征模仿直接有助于提高學生的準確性。在MS COCO和PASCAL VOC基準上,在不同的探測器上進行了大量的實驗,以驗證我們的方法的有效性。具體來說,ResNet50的RetinaNet在MS COCO中實現了40.4%的mAP,比其基線高3.5%,也優于以往的KD方法。
//www.zhuanzhi.ai/paper/cb3378314b648e21f7e04d86c3bc5727
GID提出了一種基于檢測任務的新型蒸餾方法。通過從teacher和studnet中分別提取general instance (GI),并提出GISM模塊自適應選擇差異大的instance進行feature-based、relation-based以及response-based蒸餾。本方法首次將關系型知識蒸餾應用于檢測框架,且將蒸餾目標從獨立考慮的正負樣本蒸餾統一為更本質GI蒸餾,過程中不依賴于GT,且達到SOTA。