//www.zhuanzhi.ai/paper/d5394f35aef16fb3a4dca59d68fb1882
一個有效的神經網絡結構性能評估方案是神經網絡結構搜索(NAS)成功的關鍵。現有NAS算法通常在訓練時間有限的小型數據集上訓練和評估神經結構。但這樣一種粗糙的評估方式很難對神經網絡結構進行準確評估。本文提出一種新的神經網絡結構評價方案,旨在確定哪個神經網絡結構的性能更好,而不是精確地預測性能絕對值。因此,我們提出了一個結構相對性能預測NAS (ReNAS)。我們將神經結構編碼為特征張量,并利用預測器進一步細化表示。本方法可用于離散搜索,無需額外評估。在NASBench101數據集上抽樣424個(搜索空間的0.1%)神經架構及其標簽已經足夠學習一個準確的架構性能預測器。在NAS-Bench-101和NAS-Bench-201數據集上,我們搜索的神經結構的準確性高于最新的方法,顯示了本方法的優先性。
神經網絡搜索的關鍵步驟之一是評估候選網絡結構的性能。現有方法要么直接在驗證集上測量網絡結構性能,要么學習一個預測器來估計性能。然而,這些方法要么計算成本高,要么非常不準確,這可能會嚴重影響搜索效率和性能。此外,由于很難在特定任務上對網絡結構進行準確的性能標注,因此很難訓練得到一個準確的性能預測器。在本文中,我們認為神經網絡搜索可能不需要評估候選網絡結構的絕對性能。相反,我們可能只需要得到一個網絡結構與基線結構的相對優劣就足以進行搜索。然而,如何利用相對優劣信息作為獎勵,以及如何很好地利用有限的標注網絡結構數據,仍然是兩個巨大的挑戰。對此,我們提出了一種新型的對比神經架構搜索方法,該方法利用網絡結構之間的對比結果作為獎勵來進行搜索。具體而言,我們設計了一個網絡結構比較器來估計候選網絡結構優于基線結構的概率。此外,受課程學習啟發,我們提出了一種基線結構更新方案,其可以在搜索過程中逐漸提升基線結構。我們還從理論上表明,學習網絡結構比較器和直接優化網絡結構間的排序是等價的。我們在三個搜索空間的進行了廣泛實驗,實驗結果證明了我們方法較現有方法的優越性。
本文由騰訊 AI Lab 主導,與清華大學、電子科技大學、香港中文大學(深圳)合作完成。為了生成“精確”表述的場景圖,幾乎所有現有的方法都以確定性的方式預測成對關系,我們認為視覺關系在語義上往往具有模糊歧義性。
具體來說,受語言學知識的啟發,我們將歧義分為三類:同義歧義、上下義歧義和多視點歧義。這種模糊性自然會導致隱性多標簽問題,也激發了對預測多樣性的需求。在這項工作中,我們提出了一個新的即插即用概率不確定性建模(PUM)模塊。它將每個聯合區域建模為高斯分布,其方差度量相應視覺內容的不確定性。與傳統的確定性方法相比,這種不確定性建模帶來了特征表示的隨機性,使得預測具有多樣性。作為一個副產品,PUM還能夠覆蓋更細粒度的關系,從而減輕對頻繁關系的偏見。
在大規模視覺數據集上的大量實驗表明,將PUM與新提出的ResCAGCN相結合可以在平均召回度量下獲得最佳性能。此外,我們通過將PUM插入到一些現有模型中,證明了PUM的普適性,文中也對其生成多樣化但合理的視覺關系的能力進行了深入分析。
時空圖是描述城市感知數據(如交通速度和空氣質量)的重要結構。基于時空圖的預測為智慧城市提供了許多重要的應用,如交通管理和環境分析。近年來,已有許多用于時空圖預測的深度學習模型被提出,并取得了顯著的效果。然而,設計神經網絡需要豐富的領域知識和專家的努力。為此,我們研究了時空圖的自動神經結構搜索在城市交通預測中的應用,面臨兩個挑戰:1)如何定義搜索空間來捕獲復雜的時空關聯;2)如何學習一個時空圖對應的屬性圖的網絡權值參數。為了解決這些挑戰,我們提出了一個新的框架,名為AutoSTG,用于自動時空圖預測。在我們的AutoSTG中,我們的搜索空間采用了空間圖卷積和時間卷積操作來捕獲復雜的時空相關性。此外,我們利用元學習技術從屬性圖的元知識中學習空間圖卷積層的鄰接矩陣和時間卷積層的核。具體地說,這種元知識是由一個圖元知識學習器來學習的,這個圖元知識學習器在屬性圖上迭代地聚集知識。最后,在兩個真實的基準數據集上進行了廣泛的實驗,證明AutoSTG可以找到有效的網絡架構并取得最先進的結果。據我們所知,我們是第一個研究神經結構搜索的時空圖。
本文提出一種新的卷積操作----動態區域注意卷積(DRConv: Dynamic Region-Aware Convolution),該卷積可以根據特征相似度為不同平面區域分配定制的卷積核。這種卷積方式相較于傳統卷積極大地增強了對圖像語義信息多樣性的建模能力。標準卷積層可以增加卷積核的數量以提取更多的視覺元素,但會導致較高的計算成本。DRConv使用可學習的分配器將逐漸增加的卷積核轉移到平面維度,這不僅提高了卷積的表示能力,而且還保持了計算成本和平移不變性。 圖片 DRConv是一種用于處理語義信息分布復雜多變的有效而優雅的方法,它可以以其即插即用特性替代任何現有網絡中的標準卷積,且對于輕量級網絡的性能有顯著提升。本文在各種模型(MobileNet系列,ShuffleNetV2等)和任務(分類,面部識別,檢測和分割)上對DRConv進行了評估,在ImageNet分類中,基于DRConv的ShuffleNetV2-0.5×在46M計算量的水平下可實現67.1%的性能,相對基準提升6.3%。
該工作將度量學中一個重要的屬性“動態范圍”引入到深度度量學習,從而得到一個新的任務叫做“動態度量學習”。我們發現,以往的深度度量其實只蘊含一個刻度,例如僅僅區分人臉、行人是相似還是不相似。這樣的量具無論多精確,在實際使用中都是靈活不足、用途有限的。實際上,我們日常的量具通常具有動態范圍,例如尺子總是有多個刻度(例如1mm、1cm乃至10cm)來測量不同尺度的物體。我們認為,深度度量學習領域已經到了需要引入動態范圍的時候了。因為,視覺概念本身就有著不同的大小,“動物”、“植物”都對應大尺度,而“麋鹿”卻對應相對較小的尺度。在小尺度下,兩只麋鹿可能看上去很不一樣,但是在另一個大尺度下,同樣兩只麋鹿卻應該被認為非常相似。
Neural Architecture Search with Random Labels 現有的主流NAS算法通過子網絡在驗證集上的預測性能來進行模型搜索,但是在參數共享機制下,驗證集上的預測性能和模型真實性能存在較大的差異。我們首次打破了這種基于預測性能進行模型評估的范式,從模型收斂速度的角度來進行子網絡評估并假設:模型收斂速度越快,其對應的預測性能越高。
基于模型收斂性框架,我們發現模型收斂性與圖像真實標簽無關,便進一步提出使用隨機標簽進行超網絡訓練的新NAS范式-RLNAS。RLNAS在多個數據集(NAS-Bench-201,ImageNet)以及多個搜索空間(DARTS,MobileNet-like)進行了驗證,實驗結果表明RLNAS僅使用隨機標簽搜索出來的結構便能達到現有的NAS SOTA的水平。RLNAS初聽比較反直覺,但其出乎意料的好結果為NAS社區提出了一組更強的基線,同時也進一步啟發了對NAS本質的思考。 //www.zhuanzhi.ai/paper/73ff2aa2c413ba1035d0c205173ca72a
本文提出了第一種實時全身捕捉的方法,該方法通過單一顏色圖像的動態3D人臉模型來估計身體和手的形狀和運動。我們的方法使用了一種新的神經網絡結構,利用身體和手之間的相關性在高計算效率。與以往的工作不同,我們的方法是在多個數據集上聯合訓練,分別關注手、身體或面部,不需要同時標注所有部分的數據,這是很難創建足夠多的多樣性。這種多數據集訓練的可能性使其具有優越的泛化能力。與早期的單眼全身方法相比,我們的方法通過估算統計人臉模型的形狀、表情、反照率和光照參數來捕捉更具表現力的3D人臉幾何形狀和顏色。我們的方法在公共基準上實現了具有競爭力的精度,同時顯著更快,提供更完整的面部重建。
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。
我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。
深度學習在許多領域都取得了重大突破和進展。這是因為深度學習具有強大的自動表示能力。實踐證明,網絡結構的設計對數據的特征表示和最終的性能至關重要。為了獲得良好的數據特征表示,研究人員設計了各種復雜的網絡結構。然而,網絡架構的設計在很大程度上依賴于研究人員的先驗知識和經驗。因此,一個自然的想法是盡量減少人為的干預,讓算法自動設計網絡的架構。因此,這需要更深入到強大的智慧。
近年來,大量相關的神經結構搜索算法(NAS)已經出現。他們對NAS算法進行了各種改進,相關研究工作復雜而豐富。為了減少初學者進行NAS相關研究的難度,對NAS進行全面系統的調查是必不可少的。之前的相關調查開始主要從NAS的基本組成部分: 搜索空間、搜索策略和評估策略對現有工作進行分類。這種分類方法比較直觀,但是讀者很難把握中間的挑戰和標志性作品。因此,在本次調查中,我們提供了一個新的視角:首先概述最早的NAS算法的特點,總結這些早期NAS算法存在的問題,然后為后續的相關研究工作提供解決方案。并對這些作品進行了詳細而全面的分析、比較和總結。最后,提出了今后可能的研究方向。
概述
深度學習已經在機器翻譯[1-3]、圖像識別[4,6,7]和目標檢測[8-10]等許多領域展示了強大的學習能力。這主要是因為深度學習對非結構化數據具有強大的自動特征提取功能。深度學習已經將傳統的手工設計特征[13,14]轉變為自動提取[4,29,30]。這使得研究人員可以專注于神經結構的設計[11,12,19]。但是神經結構的設計很大程度上依賴于研究者的先驗知識和經驗,這使得初學者很難根據自己的實際需要對網絡結構進行合理的修改。此外,人類現有的先驗知識和固定的思維范式可能會在一定程度上限制新的網絡架構的發現。
因此,神經架構搜索(NAS)應運而生。NAS旨在通過使用有限的計算資源,以盡可能少的人工干預的自動化方式設計具有最佳性能的網絡架構。NAS- RL[11]和MetaQNN[12]的工作被認為是NAS的開創性工作。他們使用強化學習(RL)方法得到的網絡架構在圖像分類任務上達到了SOTA分類精度。說明自動化網絡架構設計思想是可行的。隨后,大規模演化[15]的工作再次驗證了這一想法的可行性,即利用演化學習來獲得類似的結果。然而,它們在各自的方法中消耗了數百天的GPU時間,甚至更多的計算資源。如此龐大的計算量對于普通研究者來說幾乎是災難性的。因此,如何減少計算量,加速網絡架構的搜索[18-20,48,49,52,84,105]就出現了大量的工作。與NAS的提高搜索效率,NAS也迅速應用領域的目標檢測(65、75、111、118),語義分割(63、64、120),對抗學習[53],建筑規模(114、122、124),多目標優化(39、115、125),platform-aware(28日34、103、117),數據增加(121、123)等等。另外,如何在性能和效率之間取得平衡也是需要考慮的問題[116,119]。盡管NAS相關的研究已經非常豐富,但是比較和復制NAS方法仍然很困難[127]。由于不同的NAS方法在搜索空間、超參數技巧等方面存在很多差異,一些工作也致力于為流行的NAS方法提供一個統一的評估平臺[78,126]。
隨著NAS相關研究的不斷深入和快速發展,一些之前被研究者所接受的方法被新的研究證明是不完善的。很快就有了改進的解決方案。例如,早期的NAS在架構搜索階段從無到有地訓練每個候選網絡架構,導致計算量激增[11,12]。ENAS[19]提出采用參數共享策略來加快架構搜索的進程。該策略避免了從頭訓練每個子網,但強制所有子網共享權值,從而大大減少了從大量候選網絡中獲得性能最佳子網的時間。由于ENAS在搜索效率上的優勢,權值共享策略很快得到了大量研究者的認可[23,53,54]。不久,新的研究發現,廣泛接受的權重分配策略很可能導致候選架構[24]的排名不準確。這將使NAS難以從大量候選架構中選擇最優的網絡架構,從而進一步降低最終搜索的網絡架構的性能。隨后DNA[21]將NAS的大搜索空間模塊化成塊,充分訓練候選架構以減少權值共享帶來的表示移位問題。此外,GDAS-NSAS[25]提出了一種基于新的搜索架構選擇(NSAS)損失函數來解決超網絡訓練過程中由于權值共享而導致的多模型遺忘問題。
在快速發展的NAS研究領域中,類似的研究線索十分普遍,基于挑戰和解決方案對NAS研究進行全面、系統的調研是非常有用的。以往的相關綜述主要根據NAS的基本組成部分: 搜索空間、搜索策略和評估策略對現有工作進行分類[26,27]。這種分類方法比較直觀,但不利于讀者捕捉研究線索。因此,在本次綜述查中,我們將首先總結早期NAS方法的特點和面臨的挑戰。基于這些挑戰,我們對現有研究進行了總結和分類,以便讀者能夠從挑戰和解決方案的角度進行一個全面和系統的概述。最后,我們將比較現有的研究成果,并提出未來可能的研究方向和一些想法。