神經網絡搜索的關鍵步驟之一是評估候選網絡結構的性能。現有方法要么直接在驗證集上測量網絡結構性能,要么學習一個預測器來估計性能。然而,這些方法要么計算成本高,要么非常不準確,這可能會嚴重影響搜索效率和性能。此外,由于很難在特定任務上對網絡結構進行準確的性能標注,因此很難訓練得到一個準確的性能預測器。在本文中,我們認為神經網絡搜索可能不需要評估候選網絡結構的絕對性能。相反,我們可能只需要得到一個網絡結構與基線結構的相對優劣就足以進行搜索。然而,如何利用相對優劣信息作為獎勵,以及如何很好地利用有限的標注網絡結構數據,仍然是兩個巨大的挑戰。對此,我們提出了一種新型的對比神經架構搜索方法,該方法利用網絡結構之間的對比結果作為獎勵來進行搜索。具體而言,我們設計了一個網絡結構比較器來估計候選網絡結構優于基線結構的概率。此外,受課程學習啟發,我們提出了一種基線結構更新方案,其可以在搜索過程中逐漸提升基線結構。我們還從理論上表明,學習網絡結構比較器和直接優化網絡結構間的排序是等價的。我們在三個搜索空間的進行了廣泛實驗,實驗結果證明了我們方法較現有方法的優越性。
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
本文首次在全卷積目標檢測器上去除了NMS(非極大值抑制)后處理,做到了端到端訓練。我們分析了主流一階段目標檢測方法,并發現傳統的一對多標簽分配策略是這些方法依賴NMS的關鍵,并由此提出了預測感知的一對一標簽分配策略。此外,為了提升一對一標簽分配的性能,我們提出了增強特征表征能力的模塊,和加速模型收斂的輔助損失函數。我們的方法在無NMS的情況下達到了與主流一階段目標檢測方法相當的性能。在密集場景上,我們的方法的召回率超過了依賴NMS的目標檢測方法的理論上限。
本文提出一種新的卷積操作----動態區域注意卷積(DRConv: Dynamic Region-Aware Convolution),該卷積可以根據特征相似度為不同平面區域分配定制的卷積核。這種卷積方式相較于傳統卷積極大地增強了對圖像語義信息多樣性的建模能力。標準卷積層可以增加卷積核的數量以提取更多的視覺元素,但會導致較高的計算成本。DRConv使用可學習的分配器將逐漸增加的卷積核轉移到平面維度,這不僅提高了卷積的表示能力,而且還保持了計算成本和平移不變性。 圖片 DRConv是一種用于處理語義信息分布復雜多變的有效而優雅的方法,它可以以其即插即用特性替代任何現有網絡中的標準卷積,且對于輕量級網絡的性能有顯著提升。本文在各種模型(MobileNet系列,ShuffleNetV2等)和任務(分類,面部識別,檢測和分割)上對DRConv進行了評估,在ImageNet分類中,基于DRConv的ShuffleNetV2-0.5×在46M計算量的水平下可實現67.1%的性能,相對基準提升6.3%。
//www.zhuanzhi.ai/paper/d5394f35aef16fb3a4dca59d68fb1882
一個有效的神經網絡結構性能評估方案是神經網絡結構搜索(NAS)成功的關鍵。現有NAS算法通常在訓練時間有限的小型數據集上訓練和評估神經結構。但這樣一種粗糙的評估方式很難對神經網絡結構進行準確評估。本文提出一種新的神經網絡結構評價方案,旨在確定哪個神經網絡結構的性能更好,而不是精確地預測性能絕對值。因此,我們提出了一個結構相對性能預測NAS (ReNAS)。我們將神經結構編碼為特征張量,并利用預測器進一步細化表示。本方法可用于離散搜索,無需額外評估。在NASBench101數據集上抽樣424個(搜索空間的0.1%)神經架構及其標簽已經足夠學習一個準確的架構性能預測器。在NAS-Bench-101和NAS-Bench-201數據集上,我們搜索的神經結構的準確性高于最新的方法,顯示了本方法的優先性。
Neural Architecture Search with Random Labels 現有的主流NAS算法通過子網絡在驗證集上的預測性能來進行模型搜索,但是在參數共享機制下,驗證集上的預測性能和模型真實性能存在較大的差異。我們首次打破了這種基于預測性能進行模型評估的范式,從模型收斂速度的角度來進行子網絡評估并假設:模型收斂速度越快,其對應的預測性能越高。
基于模型收斂性框架,我們發現模型收斂性與圖像真實標簽無關,便進一步提出使用隨機標簽進行超網絡訓練的新NAS范式-RLNAS。RLNAS在多個數據集(NAS-Bench-201,ImageNet)以及多個搜索空間(DARTS,MobileNet-like)進行了驗證,實驗結果表明RLNAS僅使用隨機標簽搜索出來的結構便能達到現有的NAS SOTA的水平。RLNAS初聽比較反直覺,但其出乎意料的好結果為NAS社區提出了一組更強的基線,同時也進一步啟發了對NAS本質的思考。 //www.zhuanzhi.ai/paper/73ff2aa2c413ba1035d0c205173ca72a
深度學習依賴于大量數據的可用性(有標記的或無標記的)。因此,一個挑戰性的尚未解決的問題是:如何在相對較小的數據集上訓練深度網絡?為了解決這個問題,我們提出了一種演化啟發的訓練方法來提高相對較小的數據集的性能。知識演化方法將深度網絡分為兩個假說: 擬合假說和重置假說。我們通過對重置假說的干擾,對擬合假說內的知識進行多次迭代演化。該方法不僅提高了網絡的性能,而且學習出了一個具有較小推理成本的超薄網絡。KE與普通卷積網絡和剩余卷積網絡無縫集成。KE減少了過擬合和數據收集的負擔。
我們在不同的網絡結構和損耗函數上評估KE。我們使用相對較小的數據集(如CUB-200)和隨機初始化的深度網絡來評估KE。KE在最先進的基礎上實現了絕對21%的改進幅度。與此同時,推理成本也相對降低了73%。KE在分類和度量學習基準方面取得了最先進的成果。代碼可在//bit.ly/3uLgwYb
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。
權值共享的神經結構搜索通過訓練一個包含所有分支的超網絡來復用不同操作上的計算量,以子網絡采樣的方式評估網絡結構,大幅度提高了搜索速度。然而,這種子網絡采樣的方式并不能保證子網絡的評估性能準確反映其真實屬性。本文認為產生這一現象的原因是使用共享權值構建子網絡的過程中產生了權值失配,使得評估性能中混入了一個隨機噪聲項。本論文提出使用一個圖卷積網絡來擬合采樣子網絡的評估性能,從而將這個隨機噪聲的影響降至最低。實驗結果表明,使用本方案后,子網絡的擬合性能與真實性能間的排序相關性得到有效提高,最終搜索得到的網絡結構性能也更加優異。此外,本方案通過圖卷積網絡擬合了整個搜索空間中子網絡的評估性能,因此可以很方便地選取符合不同硬件約束的網絡結構。
//www.zhuanzhi.ai/paper/552ac305907809721f9f1fd86b8943c9
神經結構搜索(NAS)旨在以全自動的方式找到表現出色且新穎的神經網絡結構。然而現有的搜索空間設計過度依賴于研究者的專業知識,所涵蓋的神經網絡相對比較單一,導致搜索策略雖然能找到表現不錯的結構,卻無法發現突破性的新型神經網絡。在這篇工作中,我們 1)首次提出了搜索最優的神經網絡結構生成分布(architecturegenerator)而不僅僅是單個神經網絡(single architecture) 的概念,2)并針對這個概念提出了一個全新的,多階層的,基于圖的搜索空間。該搜索空間不但能生成非常多樣化的網絡結構,而且只由幾個超參來定義。這極大減少了結構搜索的維度,使得我們能高效地使用貝葉斯優化作為搜索策略。與此同時,因為我們拓廣了搜索空間(包含眾多性能和存儲需求差異巨大的有效網絡結構),這使得多目標學習在我們的場景下更有意義。我們在六個圖像數據集上驗證了我們方法(NAGO)的高效性, 并展示了我們的方法能找到非常輕便且性能卓越的網絡結構。
本文通過最小化驗證損失代理來搜索最佳神經網絡結構。現有的神經結構搜索(NAS)方法在給定最新的網絡權重的情況下發現基于驗證樣本的最佳神經網絡結構。但是,由于在NAS中需要多次重復進行反向傳播,使用大量驗證樣本進行反向傳播可能會非常耗時。在本文中,我們建議通過學習從神經網絡結構到對應的損失的映射來近似驗證損失情況。因此,可以很容易地將最佳神經網絡結構識別為該代理驗證損失范圍的最小值。同時,本文進一步提出了一種新的采樣策略,可以有效地近似損失情況。理論分析表明,與均勻采樣相比,我們的采樣策略可以達到更低的錯誤率和更低的標簽復雜度。在標準數據集上的實驗結果表明,通過本方法進行神經結構搜索可以在較低的搜索時間內搜索到精度很高的網絡結構。