一次性神經架構搜索(NAS)通過權重共享顯著提高了計算效率。然而,這種方法也在超網絡訓練(架構搜索階段)中引入了多模型遺忘,在超網絡訓練中,當使用部分共享的權重順序訓練新架構時,之前架構的性能會下降。為了克服這種災難性遺忘,最先進的方法假設共享權值在聯合優化后驗概率時是最優的。然而,這種嚴格的假設在實踐中并不一定適用于一次性NAS。在本文中,我們將一次性NAS中的超網絡訓練描述為一個持續學習的約束優化問題,即當前架構的學習不應該降低以前架構的性能。提出了一種基于新搜索的結構選擇損失函數,并證明了在最大化所選約束的多樣性時,不需要嚴格的假設就可以計算后驗概率。設計了一種貪心查新方法,尋找最具代表性的子集,對超網絡訓練進行正則化。我們將我們提出的方法應用于兩個一次性的NAS基線,隨機抽樣NAS (RandomNAS)和基于梯度的抽樣NAS (GDAS)。大量的實驗證明,我們的方法提高了超級網絡在一次NAS中的預測能力,并在CIFAR-10、CIFAR-100和PTB上取得了顯著的效率。
由于硬件資源有限,深度學習模型的訓練目標通常是在訓練和推理的時間和內存限制下最大化準確性。在這種情況下,我們研究了模型大小的影響,關注于計算受限的NLP任務的Transformer模型:自監督的預訓練和高資源機器翻譯。我們首先展示了,盡管較小的Transformer模型在每次迭代中執行得更快,但更廣、更深入的模型在顯著更少的步驟中收斂。此外,這種收斂速度通常超過了使用更大模型的額外計算開銷。因此,計算效率最高的訓練策略是反直覺地訓練非常大的模型,但在少量迭代后停止。
這導致了大型Transformer 模型的訓練效率和小型Transformer 模型的推理效率之間的明顯權衡。然而,我們表明大模型比小模型在壓縮技術(如量化和剪枝)方面更健壯。因此,一個人可以得到最好的兩個好處: 重壓縮,大模型比輕壓縮,小模型獲得更高的準確度。
//www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a
概述:
在當前的深度學習范式中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的模型準確度(brock2018large;raffel2019exploring)。最近自監督預訓練的成功進一步論證了這種趨勢經模型。因此,計算資源日益成為提高模型準確度的關鍵制約因素。這個約束導致模型訓練的(通常是隱含的)目標是最大化計算效率:如何在固定的硬件和訓練時間下達到最高的模型準確度。
最大化計算效率需要重新考慮關于模型訓練的常見假設。特別是,有一個典型的隱式假設,即模型必須經過訓練直到收斂,這使得較大的模型在有限的計算預算下顯得不太可行。我們通過展示以收斂為代價來增加模型大小的機會來挑戰這一假設。具體地說,我們表明,訓練Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止訓練。
在我們的實驗中,我們改變了Transformer模型的寬度和深度,并在自監督的預訓練(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上訓練)和機器翻譯(WMT14英語→法語)上評估了它們的訓練時間和準確性。對于這些任務,我們首先展示了更大的模型比更小的模型在更少的梯度更新中收斂到更低的驗證錯誤(第3節)。此外,這種收斂速度的增加超過了使用更大模型所帶來的額外計算開銷——計算效率最高的模型是非常大的,并且遠遠不能收斂(例如,圖2,左)。我們還表明,收斂的加速主要是參數計數的函數,只有模型寬度、深度和批大小的微弱影響。
雖然較大的模型訓練速度更快,但它們也增加了推理的計算和內存需求。這種增加的成本在現實應用中尤其成問題,推理成本占訓練成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,對于RoBERTa來說,這種明顯的權衡可以與壓縮相協調:與小型模型相比,大型模型在壓縮方面更加健壯(第4節)。因此,使用可比較的推理成本,大型重壓縮的模型優于小型輕壓縮的模型(例如,圖2,右)。
小樣本學習(FSL)近年來引起了越來越多的關注,但仍然具有挑戰性,因為學習從少數例子中歸納的固有困難。本文提出了一種自適應間隔原則,以提高基于度量的元學習方法在小樣本學習問題中的泛化能力。具體地說,我們首先開發了一個與類相關的加性邊緣損失算法,該算法考慮了每對類之間的語義相似性,從而將特征嵌入空間中的樣本從相似的類中分離出來。此外,我們在抽樣訓練任務中加入所有類別之間的語義上下文,并開發了與任務相關的附加間隔損失,以更好地區分不同類別的樣本。我們的自適應間隔方法可以很容易地推廣到更現實的廣義FSL設置。大量的實驗表明,在標準FSL和通用FSL設置下,所提出的方法可以提高現有基于度量的元學習方法的性能。
從少數樣本中發現稀有物體是一個新出現的問題。先前的研究表明元學習工是一個很有前途的方法。但是,微調技術還沒有引起足夠的重視。我們發現,在小樣本目標檢測任務中,僅對稀有類上現有檢測器的最后一層進行微調是至關重要的。這種簡單的方法比元學習方法在當前基準上的表現高出約2 ~ 20點,有時甚至比以前的方法的準確度還要高出一倍。然而,少數樣本的高方差常常導致現有基準的不可靠性。我們通過對多組訓練樣本進行抽樣,以獲得穩定的比較,并在PASCAL VOC、COCO和LVIS三個數據集的基礎上建立新的基準。同樣,我們的微調方法在修訂基準上建立了一種新的技術狀態。代碼和預訓練的模型可以在//github.com/ucbdrive/few-shot-object-detection找到。
組合優化是計算機視覺的常用方法。例如,在諸如語義分割、人體姿態估計和動作識別等應用中,為解決條件隨機域(CRFs)中的推理問題而編寫的程序可以生成與圖像視覺特征一致的結構化輸出。然而,在CRFs中求解推理通常是棘手的,而近似方法在計算上要求很高,并且僅限于一元的、成對的和手工制作的高階勢形式。在這篇論文中,我們證明了我們可以學習程序啟發式。策略,用于解決高階CRFs中推理任務的語義分割,采用強化學習。我們的方法有效地解決了推理任務,而沒有對勢的形式施加任何約束。我們在Pascal VOC和MOTS數據集上展示了引人注目的結果。
當對一系列學習問題進行優化時,卷積神經網絡會經歷災難性的遺忘:當滿足當前訓練示例的目標時,它們在以前任務中的性能會急劇下降。在這項工作中,我們介紹了一個基于條件計算的新的框架來解決這個問題。
無監督域自適應(UDA)是在給定源域上有標記數據的情況下,對目標域上的無標記數據進行預測。主流的UDA方法學習這兩個域之間的對齊特征,這樣一個訓練在源特征上的分類器可以很容易地應用到目標特征上。但是,這種轉移策略有可能破壞目標數據的內在辨別能力。為了緩解這種風險,我們基于結構域相似度的假設,提出通過對目標數據進行判別聚類,直接發現目標的內在歧視。我們利用基于結構域相似性的結構源正則化約束聚類解。在技術上,我們使用了一個靈活的基于判別聚類的深度網絡框架,使網絡的預測標簽分布與引入的輔助標簽分布之間的KL分歧最小化;用源數據的基真標簽形成的輔助分布代替輔助分布,通過簡單的聯合網絡訓練策略實現了結構源的正則化。我們將提出的方法稱為結構正則化深度聚類(SRDC),其中我們還使用中間網絡特征的聚類來增強目標識別,并使用較少發散的源實例的軟選擇來增強結構正則化。仔細的消融研究顯示了我們提出的SRDC的療效。值得注意的是,在沒有顯式域對齊的情況下,SRDC在三個UDA基準上的性能優于所有現有方法。
由于硬件資源有限,訓練深度學習模型的目標通常是在訓練和推理的時間和記憶約束下使準確性最大化。在這種情況下,我們研究了模型大小的影響,重點研究了受計算限制的NLP任務的Transformer模型:自我監督的預訓練和高資源機器翻譯。我們首先表明,盡管較小的Transformer模型在每次迭代中執行得更快,但是更廣泛和更深入的模型在更少的步驟中收斂。此外,這種收斂速度通常超過使用大型模型的額外計算開銷。因此,最具計算效率的訓練策略是反直覺地訓練非常大的模型,但是在少量的迭代之后停止。
這導致大型Transformer 模型的訓練效率與小型Transformer 模型的推理效率之間存在明顯的權衡。然而,我們證明大型模型比小型模型對量化和剪枝等壓縮技術有更強的魯棒性。因此,我們可以同時利用兩個方面的優勢:高度壓縮的大型模型比輕度壓縮的小型模型獲得更高的精度。
Dropout是一種廣泛使用的正則化技術,通常需要為許多體系結構獲得最先進的技術。這項工作表明,dropout引入了兩種截然不同但相互糾纏的正則化效應:由于dropout修改了預期的訓練目標而產生的顯式效應(在之前的工作中也研究過),以及可能令人驚訝的是,dropout訓練更新中的隨機性帶來的另一種隱式效應。這種隱式正則化效應類似于小批量隨機梯度下降中的隨機度效應。我們通過控制實驗把這兩種效應分開。然后,我們推導出分析的簡化,用模型的導數和損失來描述每個影響,對于深度神經網絡。我們證明了這些簡化的、解析的正則化器準確地捕獲了輟學的重要方面,表明它們在實踐中忠實地替代了dropout。