基于meta-learning的方法在有噪聲標注的圖像分類中取得了顯著的效果。這類方法往往需要大量的計算資源,而計算瓶頸在于meta-gradient的計算上。本文提出了一種高效的meta-learning更新方式:Faster Meta Update Strategy (FaMUS),加快了meta-learning的訓練速度 (減少2/3的訓練時間),并提升了模型的性能。首先,我們發現meta-gradient的計算可以轉換成一個逐層計算并累計的形式; 并且,meta-learning的更新只需少量層數在meta-gradient就可以完成。基于此,我們設計了一個layer-wise gradient sampler 加在網絡的每一層上。根據sampler的輸出,模型可以在訓練過程中自適應地判斷是否計算并收集該層網絡的梯度。越少層的meta-gradient需要計算,網絡更新時所需的計算資源越少,從而提升模型的計算效率。
并且,我們發現FaMUS使得meta-learning更加穩定,從而提升了模型的性能。最后,我們在有噪聲的分類問題以及長尾分類問題都驗證了我們方法的有效性。
歸一化方法可以提高深度神經網絡(DNN)的訓練穩定性、優化效率和泛化能力,已成為目前最先進的DNN體系結構的基本組成部分。它們還成功地擴散到深度學習的各個領域,包括但不限于計算機視覺、自然語言處理和語音識別。然而,盡管歸一化技術發揮了豐富和越來越重要的作用,我們注意到沒有一個統一的視角來描述、比較和分析它們。此外,我們對這些方法成功的理論基礎仍然難以理解。
本教程涵蓋了標準化方法、分析和應用程序,并將解決以下問題: (1) DNN中不同規范化方法背后的主要動機是什么?我們如何提出一種分類法來理解各種方法之間的異同? (2) 如何縮小標準化技術的經驗成功與我們對它們的理論理解之間的差距? (3) 針對不同任務設計/裁剪標準化技術的最新進展是什么?它們背后的主要見解是什么?
基于CAM的弱監督定位方法主要通過多樣的空間正則提高目標響應區域,忽略了模型中隱含的目標結構信息。我們提出了基于高階相似性的目標定位方法 (SPA),充分挖掘了模型隱含的目標結構信息,顯著提高了弱監督目標定位準確度。
在半監督領域自適應問題的目標域數據中對每個類別賦予少量有標簽樣本可引導其余的無標簽目標域樣本的特征聚集在它們周圍。但是,如此經過訓練后的模型無法為目標域生成具有高度區分性的特征表示,因為訓練過程主要由來自源域的有標簽樣本主導。這就可能導致有標簽和無標簽的目標域樣本之間的特征缺乏連結以及目標域和源域樣本之間的特征進行錯位對齊。在本文中,作者們提出了一種新的被稱為跨域自適應聚類的算法來解決這個問題。為了同時實現不同領域間和同一領域內的自適應,我們首先引入了一個對抗性自適應聚類損失函數來對無標簽目標域樣本的特征進行分組聚類,并在源域和目標域之間以聚類簇的形式進行跨域特征對齊。另外,我們進一步將“Pseudo labeling”技術應用于目標域中無標簽樣本,并對具有較高的置信度的樣本賦予“偽標簽”。該技術擴充了目標域中每個類別的“有標簽樣本”的數量使得每個類別可以產生了更加魯棒、強大的聚類簇中心,從而促進對抗學習過程。我們在包括DomainNet、Office-Home和Office在內的基準數據集上進行的大量實驗,結果表明我們所提出的方法能夠在半監督域自適應中實現最優性能。
論文鏈接://www.zhuanzhi.ai/paper/bca546caa350082ff63382cc18636077
代碼鏈接:
學生作者:王希梅,高敬涵
//www.zhuanzhi.ai/paper/2d828976f615c8c8bf691f9235b05fc1
摘要:大規模標記數據集推動深度學習獲得廣泛應用,但在現實場景中收集足量的標記數據往往耗時耗力。為了降低對標記數據的需求,半監督學習側重于同時探索標記和未標記數據,而遷移學習旨在將預訓練模型微調到目標數據中。然而,從頭訓練的半監督自訓練模型容易被錯誤的偽標簽所誤導,而僅僅挖掘有限標記數據的遷移學習方法則面臨模型漂移的挑戰。為了實現數據高效的深度學習,本文提出的Self-Tuning方法設計了一種新的“偽標簽組對比”機制,將標記和未標記數據的探索與預訓練模型的遷移統一起來。在多個基準數據集中,Self-Tuning的性能取得大幅提升,例如,在標簽比例為15%的Stanford Cars中,Self-Tuning相較標準fine-tuning獲得了翻倍的準確率。
arxiv鏈接:
基于CAM的弱監督定位方法主要通過多樣的空間正則提高目標響應區域,忽略了模型中隱含的目標結構信息。我們提出了基于高階相似性的目標定位方法 (SPA),充分挖掘了模型隱含的目標結構信息,顯著提高了弱監督目標定位準確度。
目前代碼已開源:
//github.com/Panxjia/SPA_CVPR2021
弱監督目標檢測近年來逐漸受到國內外研究機構以及工業界關注。基于全監督的目標檢測方法需要耗費大量的人力、物力獲取大量準確的標注信息,對于任務更新以及遷移極其不友好。近年來,全世界范圍內的研究者試圖從弱監督學習方面突破標注數據的限制,為目標檢測尋找一種更加高效、低廉的解決框架
弱監督定位研究如何僅利用圖像的類別標簽對圖像中目標進行定位。
2014年MIT提出的類別響應圖CAM,得到目標的響應掩模,之后通過最小包圍框得到目標的定位結果。CAM得到的類別響應掩模只能覆蓋目標最具判別性的局部區域,如圖1第二行所示。后續的研究工作多通過空間正則技術,如通過擦除、多分支補充等方法試圖擴大類別響應區域。雖然在響應區域上有一定的改善,但是現有的工作均忽略了保持目標結構特性的重要性,無法刻畫目標的邊緣、形狀等特性。另外,現有方法的分類網絡均采用Global Average Pooling(GAP)結構對特征進行聚合,這在一定程度上損失了目標的結構信息。
本文提出了一種兩階段的弱監督目標定位方法(SPA),從模型結構與類別響應圖兩個方面優化定位結果,提高響應掩模的準確度。整體方法框架如圖2所示。
具體地,從模型結構方面,我們提出了受限激活模塊。
現有方法中往往采用Global Average Pooling (GAP)+Softmax的分類結構,這種結構導致模型丟失目標結構信息,主要原因包括:
一,GAP結構將前景目標與背景區域混為一談,限制了模型定位前景目標的能力;
二,無限制的類別響應特征圖往往出現局部極高響應誤導模型分類的現象,不利于模型準確定位到目標的位置。
因此,我們設計了一個簡單有效的受限激活模塊,主要包括兩個部分:
一,我們首先通過計算每個特征位置在類別響應圖上的方差分布得到粗略的偽mask, 用以區分前背景;
二,我們利用Sigmoid操作對類別響應特征圖進行歸一化,之后利用提出的受限激活損失函數引導模型關注目標前景區域。
使用分類進行大規模人臉識別(數百萬類)特別消耗計算資源,而使用度量學習往往訓練困難且最終性能較差。過往的一些訓練方法僅僅是將分類需要消耗的計算資源分配到不同的GPU上,但是并沒有進行實際上地減少。從而使得使用有限資源進行大規模人臉識別成為一個特別具備挑戰的問題。為了解決這個問題,我們提出一種叫做虛擬全連接層的方法。本方法可以將標準全連接層的計算資源減小100倍,并取得和標準全連接層相近可比的識別性能。
Adaptive Methods for Real-World Domain Generalization
不變方法在解決領域泛化問題方面已經取得了顯著的成功,該問題的目標是對不同于訓練中使用的數據分布進行推斷。在我們的工作中,我們研究是否有可能利用未知測試樣本本身的領域信息。我們提出一個域自適應方法包括兩個步驟: a)我們首先學習區別的域嵌入從無監督訓練的例子,和 b)使用該域嵌入作為補充信息來構建一個domainadaptive模型,這需要輸入以及其域考慮而做出的預測。對于看不見的域,我們的方法簡單地使用少數未標記的測試示例來構建域嵌入。這使得對任何看不見的域進行自適應分類成為可能。我們的方法在各種領域泛化基準上實現了最先進的性能。此外,我們還引入了第一個真實世界的大規模域泛化基準Geo-YFCC,該基準包含超過40個訓練域、7個驗證域和15個測試域的1.1萬個樣本,比之前的工作大了幾個數量級。我們表明,現有的方法要么不能擴展到這個數據集,要么不如基于所有訓練領域的數據聯合的訓練模型的簡單基線。相比之下,我們的方法獲得了顯著的1%的改進。
//www.zhuanzhi.ai/paper/6e7661967d0879ebfd0236873a75386b
Neural Architecture Search with Random Labels 現有的主流NAS算法通過子網絡在驗證集上的預測性能來進行模型搜索,但是在參數共享機制下,驗證集上的預測性能和模型真實性能存在較大的差異。我們首次打破了這種基于預測性能進行模型評估的范式,從模型收斂速度的角度來進行子網絡評估并假設:模型收斂速度越快,其對應的預測性能越高。
基于模型收斂性框架,我們發現模型收斂性與圖像真實標簽無關,便進一步提出使用隨機標簽進行超網絡訓練的新NAS范式-RLNAS。RLNAS在多個數據集(NAS-Bench-201,ImageNet)以及多個搜索空間(DARTS,MobileNet-like)進行了驗證,實驗結果表明RLNAS僅使用隨機標簽搜索出來的結構便能達到現有的NAS SOTA的水平。RLNAS初聽比較反直覺,但其出乎意料的好結果為NAS社區提出了一組更強的基線,同時也進一步啟發了對NAS本質的思考。 //www.zhuanzhi.ai/paper/73ff2aa2c413ba1035d0c205173ca72a
Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks
抽樣方法(如節點抽樣、分層抽樣或子圖抽樣)已成為加速大規模圖神經網絡(GNNs)訓練不可缺少的策略。然而,現有的抽樣方法大多基于圖的結構信息,忽略了最優化的動態性,導致隨機梯度估計的方差較大。高方差問題在非常大的圖中可能非常明顯,它會導致收斂速度慢和泛化能力差。本文從理論上分析了抽樣方法的方差,指出由于經驗風險的復合結構,任何抽樣方法的方差都可以分解為前向階段的嵌入近似方差和后向階段的隨機梯度方差,這兩種方差都必須減小,才能獲得較快的收斂速度。本文提出了一種解耦的方差減小策略,利用(近似)梯度信息自適應地對方差最小的節點進行采樣,并顯式地減小了嵌入近似引入的方差。理論和實驗表明,與現有方法相比,該方法即使在小批量情況下也具有更快的收斂速度和更好的泛化能力。
一次性神經架構搜索(NAS)通過權重共享顯著提高了計算效率。然而,這種方法也在超網絡訓練(架構搜索階段)中引入了多模型遺忘,在超網絡訓練中,當使用部分共享的權重順序訓練新架構時,之前架構的性能會下降。為了克服這種災難性遺忘,最先進的方法假設共享權值在聯合優化后驗概率時是最優的。然而,這種嚴格的假設在實踐中并不一定適用于一次性NAS。在本文中,我們將一次性NAS中的超網絡訓練描述為一個持續學習的約束優化問題,即當前架構的學習不應該降低以前架構的性能。提出了一種基于新搜索的結構選擇損失函數,并證明了在最大化所選約束的多樣性時,不需要嚴格的假設就可以計算后驗概率。設計了一種貪心查新方法,尋找最具代表性的子集,對超網絡訓練進行正則化。我們將我們提出的方法應用于兩個一次性的NAS基線,隨機抽樣NAS (RandomNAS)和基于梯度的抽樣NAS (GDAS)。大量的實驗證明,我們的方法提高了超級網絡在一次NAS中的預測能力,并在CIFAR-10、CIFAR-100和PTB上取得了顯著的效率。