手工設計深度神經網絡需要花費大量的時間和精力。這促使了神經結構搜索(NAS)技術的發展,以實現這種設計的自動化。然而,NAS算法往往是緩慢和昂貴的;他們需要訓練大量的候選網絡,為搜索過程提供信息。如果我們能從網絡的初始狀態部分預測其訓練的準確性,這就可以緩解。在這項工作中,我們檢查了未經過訓練的網絡中數據點之間的激活重疊,并激勵它如何能給出一個有用的衡量指標,以表明網絡的訓練性能。我們將這種方法整合到一個簡單的算法中,該算法允許我們無需任何訓練就能在單個GPU上搜索強大的網絡,并在NAS-Bench-101、NAS-Bench-201、NATS-Bench和Network Design Spaces上驗證其有效性。我們的方法可以很容易地與更昂貴的搜索方法相結合;我們研究了一種規則化進化搜索的簡單適應。復制我們實驗的代碼可以在//github.com/BayesWatch/nas-without-training上找到。
對抗性例子的威脅激發了訓練可靠的魯棒神經網絡的工作,以便在推理時有效地驗證局部魯棒性。我們形式化了全局魯棒的概念,它捕獲了在線局部魯棒認證的操作特性,同時為魯棒訓練提供了一個自然學習目標。我們證明,通過將有效的全局Lipschitz邊界合并到網絡中,通過構建達到最先進的可驗證精度的可靠模型,廣泛使用的體系結構可以很容易地適應這一目標。值得注意的是,與最近的認證訓練方法相比,這種方法需要更少的時間和記憶,并且在在線認證點時成本可以忽略不計;例如,我們的評估表明,在大約幾小時內訓練一個大型魯棒的Tiny-Imagenet模型是可能的。我們的模型有效地利用了便宜的全局Lipschitz邊界來進行實時認證,盡管之前的建議是為了良好的性能需要更緊密的局部邊界;我們假設這是可能的,因為我們的模型經過專門訓練,以實現更緊密的全局邊界。也就是說,我們證明了對于給定的數據集,最大可實現的可驗證精度不能通過使用局部邊界來提高。
人類通過視覺概念學習獲得圖像分類的能力,概念形成的過程涉及到共同屬性的搜索和概念描述的交織。然而,在大多數使用深度卷積神經網絡(ConvNet)的圖像分類算法中,表示空間是在概念描述固定為單熱點代碼的前提下構造的,這限制了屬性的挖掘和對未見樣本的識別能力。受此啟發,我們提出了一種基于ConvNet的視覺概念形成(visual concept formation, LSOVCF)學習策略,該策略將概念形成的兩個相互交織的部分,即特征提取和概念描述一起學習。首先,LSOVCF在ConvNet的最后一層取樣本響應,引入假設為高斯分布的概念描述,這是訓練過程的一部分。其次,對探索和經驗損失進行優化設計,采用經驗緩存池加速收斂。實驗表明,LSOVCF提高了cifar10、STL10、flower17和ImageNet上從經典VGG到SOTA Ghostnet的幾種骨架樣本識別未見樣本的能力。
代碼可在\url{//github.com/elvintanhust/LSOVCF}。
許多現有的神經結構搜索(NAS)解決方案依賴于下游訓練進行結構評估,這需要大量的計算。考慮到這些計算帶來了巨大的碳足跡,本文旨在探索一種綠色的(即環境友好的)NAS解決方案,無需訓練即可評估架構。直觀地說,由體系架構本身誘導的梯度直接決定了收斂和泛化的結果。這促使我們提出梯度核假設:梯度可以作為下游訓練的粗粒度代理來評估隨機初始化的網絡。為了支持這一假設,我們進行了理論分析,并找到了一個與訓練損失和驗證性能有良好相關性的實用梯度核。根據這一假設,我們提出了一種新的基于內核的架構搜索方法KNAS。實驗表明,KNAS在圖像分類任務上比“先訓練后測試”的方法更快地獲得了具有競爭力的結果。此外,極低的搜索成本使其得到了廣泛的應用。在兩個文本分類任務中,搜索網絡的性能也優于強基準RoBERTA-large。
神經網絡搜索(Neuarl Architecture Search)是近年來興起的熱門方向。在這次 ICML 的文章中,我們提出了 Few-shot NAS, 通過分割搜索空間,對分割后的子空間獨立建立了一個子超網絡(sub-supernet)來預測網絡性能。通過建立 one-shot NAS 和傳統挨個訓練 NAS 的聯系,few-shot NAS 巧妙繼承了兩種方法的優點,兼有 one-shot NAS 的快速和傳統 NAS 的準確網絡性能評估。大量實驗表明 few-shot NAS 是一個簡單易行的方法,在不同任務上和數據集上能提升當下幾乎所有的 NAS 方法,包括 ImageNet 及 CIFAR-10 的分類任務和 GAN 這樣的生成任務等。該文章被 ICML-2021 接收為 long talk。
論文鏈接://www.zhuanzhi.ai/paper/1dcafa33a4d3b9d9aa3004f85f92dcf0 源代碼鏈接:
Neural Architecture Search with Random Labels 現有的主流NAS算法通過子網絡在驗證集上的預測性能來進行模型搜索,但是在參數共享機制下,驗證集上的預測性能和模型真實性能存在較大的差異。我們首次打破了這種基于預測性能進行模型評估的范式,從模型收斂速度的角度來進行子網絡評估并假設:模型收斂速度越快,其對應的預測性能越高。
基于模型收斂性框架,我們發現模型收斂性與圖像真實標簽無關,便進一步提出使用隨機標簽進行超網絡訓練的新NAS范式-RLNAS。RLNAS在多個數據集(NAS-Bench-201,ImageNet)以及多個搜索空間(DARTS,MobileNet-like)進行了驗證,實驗結果表明RLNAS僅使用隨機標簽搜索出來的結構便能達到現有的NAS SOTA的水平。RLNAS初聽比較反直覺,但其出乎意料的好結果為NAS社區提出了一組更強的基線,同時也進一步啟發了對NAS本質的思考。 //www.zhuanzhi.ai/paper/73ff2aa2c413ba1035d0c205173ca72a
雖然大多數流行和成功的模型架構都是由人工專家設計的,但這并不意味著我們已經探索了整個網絡架構空間并確定了最佳選擇。如果我們采用一種系統的、自動的方式來學習高性能模型體系結構,那么我們將更有可能找到最佳的解決方案。
自動學習和演化網絡拓撲并不是一個新想法(Stanley & Miikkulainen, 2002)。近年來,Zoph & Le 2017和Baker等人在2017年的開創性工作吸引了神經架構搜索(NAS)領域的大量關注,為更好、更快、更經濟的NAS方法帶來了許多有趣的想法。
當我開始研究NAS時,我發現Elsken等人2019年的這項調查非常有幫助。它們將NAS描述為一個由三個主要成分組成的系統,簡潔明了,也被其他NAS論文廣泛采用。
搜索空間: NAS搜索空間定義了一組操作(例如卷積、全連接、池化)以及如何將操作連接起來形成有效的網絡架構。搜索空間的設計通常涉及人類的專業知識,以及不可避免的人類偏見。
搜索算法: NAS搜索算法對網絡體系結構候選對象進行采樣。它接受子模型性能指標作為獎勵(例如,高精度,低延遲),并優化生成高性能架構候選。
評估策略: 我們需要測量、估計或預測提出的大量子模型的性能,以獲得反饋,供搜索算法學習。候選評估的過程可能非常昂貴,許多新的方法被提出來節省時間或計算資源。
本文通過最小化驗證損失代理來搜索最佳神經網絡結構。現有的神經結構搜索(NAS)方法在給定最新的網絡權重的情況下發現基于驗證樣本的最佳神經網絡結構。但是,由于在NAS中需要多次重復進行反向傳播,使用大量驗證樣本進行反向傳播可能會非常耗時。在本文中,我們建議通過學習從神經網絡結構到對應的損失的映射來近似驗證損失情況。因此,可以很容易地將最佳神經網絡結構識別為該代理驗證損失范圍的最小值。同時,本文進一步提出了一種新的采樣策略,可以有效地近似損失情況。理論分析表明,與均勻采樣相比,我們的采樣策略可以達到更低的錯誤率和更低的標簽復雜度。在標準數據集上的實驗結果表明,通過本方法進行神經結構搜索可以在較低的搜索時間內搜索到精度很高的網絡結構。
Go Wide, Then Narrow: Efficient Training of Deep Thin Networks
為了將深度學習模型部署到生產中,它需要準確和緊湊,以滿足延遲和內存的限制。這通常會導致網絡的深度(以確保性能)和瘦(以提高計算效率)。本文提出了一種在理論保證下訓練深薄網絡的有效方法。我們的方法是由模型壓縮驅動的。它由三個階段組成。在第一階段,我們充分拓寬深薄網絡,并訓練它直到收斂。在第二階段,我們使用這個訓練良好的深寬網絡來預熱(或初始化)原始的深薄網絡。這是通過讓瘦網絡從層到層模擬寬網絡的直接輸出來實現的。在最后一個階段,我們進一步優化這個初始化良好的深薄網絡。通過平均場分析,建立了理論保證,表明了分層模擬比傳統的反向傳播從頭開始訓練深薄網絡的優越性。我們還進行了大規模的實證實驗來驗證我們的方法。通過使用我們的方法進行訓練,ResNet50可以超過ResNet101, BERTBASE可以與BERTLARGE相媲美,后者的模型都是通過文獻中的標準訓練程序進行訓練的。
深度學習在許多領域都取得了重大突破和進展。這是因為深度學習具有強大的自動表示能力。實踐證明,網絡結構的設計對數據的特征表示和最終的性能至關重要。為了獲得良好的數據特征表示,研究人員設計了各種復雜的網絡結構。然而,網絡架構的設計在很大程度上依賴于研究人員的先驗知識和經驗。因此,一個自然的想法是盡量減少人為的干預,讓算法自動設計網絡的架構。因此,這需要更深入到強大的智慧。
近年來,大量相關的神經結構搜索算法(NAS)已經出現。他們對NAS算法進行了各種改進,相關研究工作復雜而豐富。為了減少初學者進行NAS相關研究的難度,對NAS進行全面系統的調查是必不可少的。之前的相關調查開始主要從NAS的基本組成部分: 搜索空間、搜索策略和評估策略對現有工作進行分類。這種分類方法比較直觀,但是讀者很難把握中間的挑戰和標志性作品。因此,在本次調查中,我們提供了一個新的視角:首先概述最早的NAS算法的特點,總結這些早期NAS算法存在的問題,然后為后續的相關研究工作提供解決方案。并對這些作品進行了詳細而全面的分析、比較和總結。最后,提出了今后可能的研究方向。
概述
深度學習已經在機器翻譯[1-3]、圖像識別[4,6,7]和目標檢測[8-10]等許多領域展示了強大的學習能力。這主要是因為深度學習對非結構化數據具有強大的自動特征提取功能。深度學習已經將傳統的手工設計特征[13,14]轉變為自動提取[4,29,30]。這使得研究人員可以專注于神經結構的設計[11,12,19]。但是神經結構的設計很大程度上依賴于研究者的先驗知識和經驗,這使得初學者很難根據自己的實際需要對網絡結構進行合理的修改。此外,人類現有的先驗知識和固定的思維范式可能會在一定程度上限制新的網絡架構的發現。
因此,神經架構搜索(NAS)應運而生。NAS旨在通過使用有限的計算資源,以盡可能少的人工干預的自動化方式設計具有最佳性能的網絡架構。NAS- RL[11]和MetaQNN[12]的工作被認為是NAS的開創性工作。他們使用強化學習(RL)方法得到的網絡架構在圖像分類任務上達到了SOTA分類精度。說明自動化網絡架構設計思想是可行的。隨后,大規模演化[15]的工作再次驗證了這一想法的可行性,即利用演化學習來獲得類似的結果。然而,它們在各自的方法中消耗了數百天的GPU時間,甚至更多的計算資源。如此龐大的計算量對于普通研究者來說幾乎是災難性的。因此,如何減少計算量,加速網絡架構的搜索[18-20,48,49,52,84,105]就出現了大量的工作。與NAS的提高搜索效率,NAS也迅速應用領域的目標檢測(65、75、111、118),語義分割(63、64、120),對抗學習[53],建筑規模(114、122、124),多目標優化(39、115、125),platform-aware(28日34、103、117),數據增加(121、123)等等。另外,如何在性能和效率之間取得平衡也是需要考慮的問題[116,119]。盡管NAS相關的研究已經非常豐富,但是比較和復制NAS方法仍然很困難[127]。由于不同的NAS方法在搜索空間、超參數技巧等方面存在很多差異,一些工作也致力于為流行的NAS方法提供一個統一的評估平臺[78,126]。
隨著NAS相關研究的不斷深入和快速發展,一些之前被研究者所接受的方法被新的研究證明是不完善的。很快就有了改進的解決方案。例如,早期的NAS在架構搜索階段從無到有地訓練每個候選網絡架構,導致計算量激增[11,12]。ENAS[19]提出采用參數共享策略來加快架構搜索的進程。該策略避免了從頭訓練每個子網,但強制所有子網共享權值,從而大大減少了從大量候選網絡中獲得性能最佳子網的時間。由于ENAS在搜索效率上的優勢,權值共享策略很快得到了大量研究者的認可[23,53,54]。不久,新的研究發現,廣泛接受的權重分配策略很可能導致候選架構[24]的排名不準確。這將使NAS難以從大量候選架構中選擇最優的網絡架構,從而進一步降低最終搜索的網絡架構的性能。隨后DNA[21]將NAS的大搜索空間模塊化成塊,充分訓練候選架構以減少權值共享帶來的表示移位問題。此外,GDAS-NSAS[25]提出了一種基于新的搜索架構選擇(NSAS)損失函數來解決超網絡訓練過程中由于權值共享而導致的多模型遺忘問題。
在快速發展的NAS研究領域中,類似的研究線索十分普遍,基于挑戰和解決方案對NAS研究進行全面、系統的調研是非常有用的。以往的相關綜述主要根據NAS的基本組成部分: 搜索空間、搜索策略和評估策略對現有工作進行分類[26,27]。這種分類方法比較直觀,但不利于讀者捕捉研究線索。因此,在本次綜述查中,我們將首先總結早期NAS方法的特點和面臨的挑戰。基于這些挑戰,我們對現有研究進行了總結和分類,以便讀者能夠從挑戰和解決方案的角度進行一個全面和系統的概述。最后,我們將比較現有的研究成果,并提出未來可能的研究方向和一些想法。
對抗攻擊的最新進展揭示了現代深層神經網絡的內在弱點。從那時起,人們就致力于通過專門的學習算法和損失函數來增強深度網絡的魯棒性。在這項工作中,我們從體系結構的角度研究了網絡體系結構的模式,這些模式對對抗攻擊具有彈性。為了獲得本研究所需的大量網絡,我們采用單次神經結構搜索,對一個大網絡進行一次訓練,然后對采樣的子網絡進行細化。采樣的結構及其實現的精度為我們的研究提供了豐富的基礎。我們的“健壯架構Odyssey”揭示了幾個有價值的觀察結果:1)緊密連接的模式提高了健壯性;2)在計算預算下,直接連接邊加入卷積運算是有效的;3)求解過程流(FSP)矩陣是網絡魯棒性的良好指標。基于這些觀察,我們發現了一系列健壯的體系結構(RobNets)。在各種數據集上,包括CIFAR、SVHN、Tiny-ImageNet和ImageNet,與其他廣泛使用的體系結構相比,RobNets具有更好的健壯性性能。值得注意的是,在白盒和黑箱攻擊下,即使參數數更少,RobNets也能顯著提高魯棒精度(~5%的絕對增益)。