本文介紹我們被AAAI'22接收的工作《On the Efficacy of Small Self-Supervised Contrastive Models without Distillation Signals》。
//www.zhuanzhi.ai/paper/3e62e1f673466df464ee1dafe962c576
在確定研究小模型對比學習這個方向的時候,正好是CompRess[1]、SEED[2]等工作剛剛發表的時候。原本我們的計劃是沿著知識蒸餾(Knowledge Distillation)希望進一步提升小模型自監督的SOTA表現,但是很快我們意識到了幾個問題:
首先,現有工作匯報的小模型基線使用的一律都是ResNet50架構下的默認設置,還沒有對自監督小模型訓練效能的研究;
其次,研究蒸餾方法在小模型上的應用本質上不是一個自監督學習問題。因為這個時候大模型成為小模型的監督信號,原本利用數據進行增強讓網絡學習到某種不變形的自監督學習在這個時候退化成為了一個簡單的regression問題;
最后,蒸餾方法往往需要部署一個大的網絡,這在一些計算資源受到限制的場景里并不是非常適用,這也再一次增強了我們想要單純研究小模型自身對比學習效能的動機。
值得一提的是,前人的工作對小模型為什么在對比學習框架下表現糟糕給出了統一的猜想:對比學習這種instance discrimination的前置任務需要區分的類太多,對小模型來說太過困難,因此小模型在這樣的前置任務上沒有辦法學到比較好的特征[2,3,4]。但事實上我們后面會看到,這個假設并沒有說服力。解釋小模型為什么學不到好的表征空間依舊是一個需要探索的方向。
本文主要研究并驗證了小模型在沒有蒸餾信號引導下自監督訓練的可行性,希望能夠給小領域的同行帶來一些有用的信息。綜合上述的結果,我們驗證了即使在訓練時不需要大模型提供的蒸餾信號引導,小模型的自監督表現依然能夠達到一個不錯的水平。我們希望這項工作能夠為未來小模型自監督領域的工作帶來一些啟發,歡迎志同道合的朋友們在評論區分享自己的觀點~
文章鏈接:[2107.14762] On the Efficacy of Small Self-Supervised Contrastive Models without Distillation Signals (arxiv.org)
知識蒸餾是一種模型壓縮的有效手段,但是適用于目標檢測的知識蒸餾方法卻很少被研究。而且,我們通過實驗發現,在分類任務上主導的soft label蒸餾,并不適用于目標檢測,只能帶來很小的提升。因此,設計一種適用于目標檢測的知識蒸餾方法很有必要。
//www.zhuanzhi.ai/paper/b867f1778005b17a1547c8f74353158b
我們從特征、網絡預測和NMS之后的檢測結果這三方面,詳細比較了教師檢測器和學生檢測器的差異到底在哪里。我們發現,在一些困難樣本上,教師模型和學生模型的表現非常不一致,它們最終的檢測結果(after NMS),往往是從不同的anchor進行預測。這個現象表明,教師網絡和學生網絡在anchor的排序上存在差異。教師網絡有更強的表征能力,能更加準確地建模出anchor之間的語義關系,讓檢測結果從語義信息最強的anchor輸出,并能抑制其他弱一些的anchors;而學生網絡在這方面,會表現得差一些。基于這個發現,我們設計了一種新的知識蒸餾方法:Rank Mimicking (排序蒸餾)。
特征蒸餾的目的,是想讓學生模型能夠產生和教師一樣準確的預測。但是,通過可視化,我們發現,在一些區域上,盡管學生模型的特征和教師模型的特征,有很大不同(如下圖第二行黃框所示),但在這些區域,學生模型自己也可以產生準確的預測,并不需要依賴教師模型的指導(如下圖第一行黃框所示)。這個現象就導致了特征蒸餾過程中,有很多無效的梯度,并不能幫助學生模型產生準確的預測。因此,我們提出了Prediction-guided feature imitation,利用預測的差異來反向引導特征蒸餾,讓特征蒸餾直接拉近學生預測和教師預測之間的距離。
雖然自監督表示學習(SSL)在大型模型中已被證明是有效的,但在遵循相同的解決方案時,SSL和輕量級模型中的監督方法之間仍然存在巨大的差距。我們深入研究了這個問題,發現輕量級模型在簡單地執行實例對比時,容易在語義空間中崩潰。為了解決這個問題,我們提出了一個基于關系的對比范式——關系知識蒸餾(ReKD)。我們引入一個異構教師來明確地挖掘語義信息,并將一種新的關系知識傳遞給學生(輕量級模型)。理論分析支持了我們對實例對比的主要關注,并驗證了我們的關系對比學習的有效性。大量的實驗結果也表明,我們的方法在多個輕量級模型上取得了顯著的改進。特別是在AlexNet上的線性評價,將當前的技術水平從44.7%提高到50.1%,是第一個接近監督的50.5%的作品。
該工作針對基于半監督的醫學圖像算法,提出了一種利用雙任務一致性約束的新方法,將同一個分割問題表示成兩個不同的任務,并鼓勵兩個任務在預定義的表示空間內保持一致,進而充分利用未標注的數據提升深度神經網絡的性能,同時大大降低訓練網絡模型所需要的標注成本。圖片
基于深度學習的方法因為在圖像處理上優越表現而受到廣泛的關注,近年來在圖像識別、人工智能領域不斷取得了性能突破。但是由于深度神經網絡需要依賴大量良好標注的數據,在小數據上很難達到比較好的效果。在醫學圖像領域,數據標注通常需要大量的時間,也需要醫學領域的專業知識,但醫生通常很忙,沒有充足的時間來標注大量的數據,因此從少量標注數據和大量未標注數據來學習以獲得高性能模型變得尤為重要。
基于這樣的問題,本文提出了一種基于雙任務一致性的半監督學習算法,在現有全監督醫學圖像分割算法基礎上,該算法可以充分利用沒有標注的數據進行進一步學習,進而大大提高未標注數據的利用率和促進網絡分割性能。實驗表明,通過引入雙任務一致性,網絡能更穩定的從少量標注數據和大量未標注數據中學習,并顯著提高分割結果。同時與最新的半監督分割算法相比,此方法需要的訓練成本更低,所取得的效果也更好,從而降低了深度神經網絡對標注數據的依賴。
論文名稱:Combining Self-Training and Self-Supervised Learningfor Unsupervised Disfluency Detection 論文作者:王少磊,王重元,車萬翔,劉挺 原創作者:王少磊 論文鏈接://ir.hit.edu.cn/~slwang/emnlp2020.pdf
摘要:文本順滑(Disfluency Detection)的目的是刪除自動語音識別(ASR)結果中的不順滑的詞,從而得到更自然和通順的句子。目前大部分在文本順滑(Disfluency Detection)任務上的工作都嚴重依賴人工標注數據。在本工作中,我們首次嘗試用無監督的方法來解決文本順滑問題。我們通過結合自訓練(self-training)和自監督(self-supervised)兩種方法,在不采用任何有標注訓練數據的情況下,取得了跟目前最好的有監督方法接近的效果。