視覺Transformer (ViT)的快速發展刷新了各種視覺任務中的最先進性能,超過了傳統的基于CNN的模型。這引發了最近在CNN世界中的一些反復性研究,表明在仔細調優時,純CNN模型可以實現與ViT模型一樣好的性能。雖然令人鼓舞,但設計這樣高性能的CNN模型是具有挑戰性的,需要網絡設計的重要先驗知識。為此,提出了一種新的框架DeepMAD,以原則性的方式設計高性能的CNN模型。在DeepMAD中,CNN網絡被建模為一個信息處理系統,其表達能力和有效性可以通過其結構參數解析地表示。然后提出一個約束數學規劃(MP)問題來優化這些結構參數。MP問題可以通過在內存占用較小的CPU上使用現成的MP求解器來輕松解決。此外,DeepMAD是一個純數學框架:在網絡設計期間不需要GPU或訓練數據。在多個大規模計算機視覺基準數據集上驗證了DeepMAD的優越性。值得注意的是,在ImageNet-1k上,僅使用傳統的卷積層,DeepMAD在微小水平上比ConvNeXt和Swin的top-1精度高出0.7%和1.5%,在小水平上高出0.8%和0.9%。
動態神經網絡是深度學習領域的新興研究課題。通過自適應推理,動態模型可以達到顯著的精度和計算效率。然而,由于沒有合適的動態結構和現有的目標檢測標準,設計一個強大的動態檢測器是具有挑戰性的。為解決這些困難,本文提出一種用于目標檢測的動態框架DynamicDet。首先,根據目標檢測任務的性質精心設計了一個動態架構;然后,我們設計了一個自適應路由器來分析多尺度信息并自動確定推理路由。本文還提出了一種新的優化策略,給出了一種基于檢測損失的動態檢測器優化準則。最后,提出了一種可變速度的推理策略,有助于只用一個動態檢測器實現大范圍的精度-速度權衡。在COCO基準上進行的廣泛實驗表明,所提出的DynamicDet實現了新的最先進的精度-速度權衡。例如,在相當的精度下,動態檢測器Dy-YOLOv7-W6的推理速度比YOLOv7-E6提高12%,比YOLOv7-D6提高17%,比YOLOv7-E6E提高39%。代碼可以在https: //github.com/VDIGPKU/DynamicDet上獲得。
高分辨率圖像使神經網絡能夠學習更豐富的視覺表示。然而,這種性能的提升是以計算復雜度的增加為代價的,阻礙了它們在對延遲敏感的應用程序中的使用。由于并非所有像素都相等,跳過不重要區域的計算提供了一種簡單而有效的方法來減少計算量。然而,這很難轉化為CNN的實際加速,因為它打破了密集卷積工作的規律。**本文提出SparseViT,重新審視最近基于窗口的視覺Transformer (vit)的激活稀疏性。**由于窗口注意力自然地在塊上批量處理,因此窗口激活剪枝的實際加速成為可能:即在60%的稀疏性下減少50%的延遲。由于不同層的敏感度和計算代價不同,應該為其分配不同的剪枝率。引入稀疏感知自適應,并應用進化搜索,在巨大的搜索空間中有效地找到最優的分層稀疏配置。在單目3D目標檢測、2D實例分割和2D語義分割方面,SparseViT與密集版本相比,分別實現了1.5倍、1.4倍和1.3倍的速度,而精度幾乎沒有損失。
深度卷積神經網絡(CNN)的卓越性能通常歸因于其更深和更廣泛的架構,這可能伴隨著巨大的計算成本。因此,修剪神經網絡引起了人們的興趣,因為它有效地降低了存儲和計算成本。與導致非結構化模型的權重剪枝相比,結構化剪枝通過產生對硬件實現友好的模型來提供現實加速的好處。結構化剪枝的特殊要求導致了許多新挑戰的發現和創新解決方案的發展。**本文綜述了深度CNN結構化剪枝的最新進展。總結并比較了最先進的結構化剪枝技術,包括過濾器排序方法、正則化方法、動態執行、神經架構搜索、ticket 假設以及剪枝的應用。**在討論結構化剪枝算法時,簡要介紹非結構化剪枝算法,以強調它們的區別。對結構化剪枝領域的潛在研究機會提供了見解。有關神經網絡剪枝的論文列表可以在//github.com/he-y/Awesome-Pruning上找到。
1. 引言
深度卷積神經網絡(CNN)在廣泛的應用中表現出了卓越的性能,包括圖像分類[1]、目標檢測[2]和圖像分割[3]等。許多CNN結構被提出,包括AlexNet [4], VGGNet [5], inception [6], ResNet[7]和DenseNet[8]。這些架構包含數百萬個參數,需要巨大的計算能力,使得在資源有限的硬件上部署具有挑戰性。模型壓縮是該問題的一種解決方案,旨在減少參數數量、計算成本和內存消耗。因此,它的研究變得越來越重要。 **為了生成更高效的模型,模型壓縮技術被提出,包括剪枝[9]、量化[10]、分解[11]和知識蒸餾[12]。**術語“剪枝”指的是刪除網絡的組件,以產生用于加速和壓縮的稀疏模型。剪枝的目的是在不顯著影響模型性能的情況下最小化參數的數量。大多數關于剪枝的研究都是在用于圖像分類任務的CNN上進行的,這是其他計算機視覺任務的基礎。 剪枝可分為非結構化[9]和結構化剪枝[13]。非結構化剪枝刪除神經網絡的連接(權重),導致非結構化稀疏性。非結構化剪枝通常會導致高壓縮率,但需要特定的硬件或庫支持以實現實際的加速。結構化剪枝刪除了神經網絡的整個濾波器,并可以利用基本線性代數子程序(BLAS)庫等高效庫的優勢,用標準硬件實現實際的加速和壓縮。在transformer[14]時代,從結構化剪枝的角度重新審視cnn的屬性是有意義的。最近,將CNN的架構設計納入Transformer模型[15],[16],[17],[18],[19]的趨勢越來越大。盡管transformer中的自注意力[20]在計算序列表示方面是有效的,但由于transformer缺乏歸納偏差[17],[21],[22],仍然需要大量的訓練數據。相比之下,cnn的結構在權重上實施兩個關鍵的歸納偏差:局部性和權重共享,以提高學習算法的泛化性,并且獨立于數據[17]。本綜述提供了對CNN的更好理解,并為未來有效設計架構提供了提示。
**本文關注結構化剪枝。現有壓縮研究綜述如表1所示。**一些綜述涵蓋了正交領域,包括量化[23]、知識蒸餾[24]和神經架構搜索[25]。一些調研[26]提供了更廣泛的概述。雖然一些研究側重于剪枝,但它們更多地關注非結構化剪枝,并且覆蓋了少量結構化剪枝的研究。[27]、[28]、[29]、[30]、[31]、[32]、[33]的結構化剪枝論文引用數分別為1、11、15、55、38、10、20篇。本文提供了一個更全面的調研,其中有200多篇結構化剪枝論文。
**調研安排如下:在分類法中(圖1),將結構化剪枝方法分為不同的類別。**第2節的每一小節對應于一類結構化剪枝方法。大多數方法首先以非結構化的方式開發,然后擴展以滿足結構約束。盡管一些研究涵蓋了多個類別,但我們將它們放在為本調查服務的最合適的類別中。第三部分介紹了一些潛在的和有希望的未來發展方向。由于篇幅限制,僅對最具代表性的研究進行詳細討論。
2. 方法
Weight-Dependent
權重依賴準則根據濾波器的權重來評估濾波器的重要性。與基于激活的方法相比,權重依賴的方法不涉及輸入數據。因此,權重依賴方法被認為是直接的,需要較低的計算成本權重依賴準則有兩個子類:濾波器范數和濾波器相關性。計算一個濾波器的范數獨立于其他濾波器的范數,而計算濾波器相關性涉及多個濾波器。 Activation-Based
激活圖是輸入數據和濾波器的卷積結果(等式1)。除了使用濾波器的權重外,激活圖可以用于濾波器修剪。激活通道剪枝是過濾器剪枝的另一個名稱,因為刪除激活圖的通道等同于刪除過濾器。除了當前層的效果外,過濾器修剪還通過特征圖影響下一層的過濾器。為了評估第l層中的濾波器,我們可以利用以下激活圖上的信息:1)當前層-通道重要性可以通過使用重建誤差[58]、激活圖[59]的分解、通道獨立性的利用[61]和后激活[62],[63]來評估;2)相鄰層-冗余通道可以通過利用當前層和下一層之間的依賴關系來有效識別[66],[67]。此外,還可以利用前一層的激活圖來指導剪枝決策[123],[124];3)所有層-通過最小化最終響應層的構造誤差[69]并考慮所有層的區分能力[70],可以評估去除濾波器的整體效果。 正則化
正則化可以通過添加不同的稀疏度正則化器Rs(·)來學習結構化稀疏網絡。如果網絡包含批量歸一化層,則稀疏正則化器可應用于BN參數。為了實現結構化稀疏,使用BN參數來指示通道或濾波器等結構的剪枝決策。引入了作為可學習門工作的額外參數來指導修剪。有了這些額外的參數,網絡不再需要批量規范化層。稀疏正則化器也可以直接應用于濾波器。Group Lasso正則化通常用于以結構化的方式稀疏化濾波器。
Optimization Tools
動態修剪
動態剪枝可以在訓練和推理過程中進行。訓練過程中的動態旨在通過在訓練過程中保持動態修剪掩碼來保持模型的代表能力。它也被稱為軟剪枝,以確保不當的剪枝決策在以后可以恢復。另一方面,硬修剪永久地消除了固定掩碼的權重。推理過程中的動態表示網絡根據不同的輸入樣本動態修剪。例如,與復雜圖像相比,包含明確目標的簡單圖像需要更少的模型容量[108]。因此,動態推理提供了更好的資源準確性權衡。
神經架構搜索
由于人工確定逐層剪枝率等剪枝相關超參數非常繁瑣,因此提出了神經架構搜索(NAS)[25]來自動尋找剪枝結構。在綜述NAS[25]方法的基礎上,將NAS剪枝分為3種方法。NAS可以建模為:1)強化學習(RL)問題,RL代理通過搜索動作空間(如剪枝率)來找到稀疏的子網絡。2)基于梯度的方法,通過修改梯度更新規則,使稀疏約束的優化問題對權重可微。3)演化方法,采用演化算法對稀疏子網絡進行探索和搜索。
Extensions
來自南京理工大學的李翔博士論文,入選2022年度“CCF優秀博士學位論文獎”初評名單!
//www.ccf.org.cn/Focus/2022-12-08/781244.shtml
近年來,深度卷積神經網絡在計算機視覺領域取得了革命性的進展,并被廣泛地 應用到圖像分類、物體檢測、實例分割等經典的計算機視覺問題當中。深度卷積神經 網絡通過層次化地響應圖像局部單元使其能夠充分利用輸入數據的二維結構,從而針 對圖像提取魯棒與鑒別性的特征表示。卷積網絡本質上是一種卷積核在空間維度參數 共享的前饋神經網絡,它的成功主要歸功于良好的模塊架構設計以及合理地解決優化 過程中的問題。本文從上述兩個角度,即架構設計和優化相關問題,進行了較為深入 的探索和研究,其主要工作內容如下:
(1) 早期的卷積神經網絡基礎架構 (如卷積、池化) 的誕生受到了初級視覺皮層神經元 響應特性的啟發,而最新的架構研究進展則更側重于工程、優化和效率層面,較 少關注生物特性方面的指導。本文首先嘗試從現代深度網絡架構所忽視的一種生 物視覺特性:即神經元隨環境刺激動態調整視覺感受野出發進行建模,提出了選 擇性核 (Selective Kernel, SK) 架構,使得網絡能夠根據輸入圖像信號自適應地選 擇不同感受野的信息特征。本文通過對環境刺激的模擬實驗驗證了該動態選擇機 制的有效性,且基準網絡的識別能力也得到了顯著的增強。其次,基于最新流行的兩種代表性的拓撲架構設計——跨層連接 (ResNet) 和密 集連接 (DenseNet),本文首次揭示了兩者本質上都隸屬同一種密集拓撲 (Dense Topology) 的連接結構,而它們的區別僅在于最終連接部分所采用的具體形式。在此基礎上,本文提出了一種混合連接架構,該架構統一了 ResNet 和 DenseNet 的拓撲設計,使網絡獲得了更高的參數效率。同時,本文從現有注意力架構設計中存在的空間注意力掩碼過于單一、用于注 意力掩碼生成的信息源不夠豐富等局限性出發,提出了輕量級的空間分組增強 (Spatial Group-wise Enhance, SGE) 架構,從而增加了空間注意力掩碼及其信息 源的維度,以幾乎可以忽略不計的額外代價進一步提升了基準網絡在圖像分類和 檢測任務中的性能。最后,為了解決非常特殊的線狀物體的檢測問題,以及現有的兩階段的方法無法 很好地捕捉車道線的全局特征表示,本文對卷積網絡的底層設計進行了調整與改 進,提出了一種線提議卷積網絡架構 (Line Proposal Unit, LPU),借助射線參考 系的數據結構表征讓網絡能夠端到端地捕捉學習整條線在圖像中的全局特征,進 而得到精準的車道線檢測結果。本文的方法在多個數據集上超越了此前的最優方 法,其算法原型已應用部署到實際的產品中。
(2) 深度卷積神經網絡在優化的過程中會存在一系列問題,例如多個模塊之間的優化 沖突。本文從該角度出發,研究了具體的 “兩個沖突” 問題:在 “第一個沖突” 中,本文從理論和實驗兩個方面探索了特征批歸一化 (Batch Normalization, BN) 與隨機丟棄方法 (Dropout) 的沖突。其根源是來自網絡從訓 練狀態切換為測試狀態時產生的 “方差偏移”,從而造成了網絡識別性能的下降。進一步,本文通過調整模塊的位置以及引入對方差變化不敏感的隨機丟棄方法來 消除或減弱方差偏移帶來的影響;在 “第二個沖突” 中,本文從理論和實驗兩個方面研究了權重歸一化 (Weight Normalization, WN) 家族與權重衰減 (Weight Decay, WD) 的沖突,它主要體現 在權重歸一化在優化過程中梯度與權重模長成反比而帶來的訓練不充分或不穩定 等現象。對此本文引入 ? 偏移的二范數正則項,從而限制模長的過度衰減,防止 梯度浮點溢出,在大幅提升訓練穩定性的同時,網絡的識別性能也獲得了一定的 增益。
人們普遍認為,一個詞的標題的不確定性越高,就需要更多相互關聯的上下文信息來確定它。然而,目前的圖像描述生成方法通常考慮順序、平等地生成句子中的所有單詞。在本文中,我們提出了一個不確定性感知的圖像描述成框架,該框架并行迭代地在已有詞之間從易到難插入不連續候選詞,直到收斂。我們假設句子中的高不確定性詞需要更多的先驗信息才能做出正確的決定,應該在后面的階段產生。由此產生的非自回歸層次結構使得標題生成可解釋且直觀。具體來說,我們利用圖像條件下的單詞袋模型來測量單詞的不確定度,并應用動態規劃算法來構造訓練對。在推理過程中,我們設計了一種不確定性自適應并行波束搜索技術,它產生了一個經驗對數時間復雜度。在MS COCO基準上的大量實驗表明,我們的方法在描述質量和解碼速度上都優于強基準和相關方法。
部分監督實例分割是一種通過學習有限的可見類別并使用帶注釋的遮罩將對象從新的不可見類別中分割出來的任務,從而消除了繁重的注釋負擔。解決這一問題的關鍵是建立一個有效的類不可知掩碼分割模型。與以往只在可見類別上學習此類模型的方法不同,在本文中,我們提出了一種新的方法,名為ContrastMask,它在統一的像素級對比學習框架下,對可見和不可見類別學習掩碼分割模型。這個框架,帶注釋的可見類別的遮罩和不可見類別的偽遮罩作為對比學習的前提,來自掩膜區域(前景)的特征被拉到一起,并與來自背景的特征進行對比,反之亦然。通過該框架,大大提高了前景和背景的特征識別能力,便于學習與類別無關的遮罩分割模型。在COCO數據集上的詳盡實驗證明了我們的方法的優越性,它優于以前的技術水平。
//www.zhuanzhi.ai/paper/53d464cd084b1713b9d2377fb1ea5703
Adaptive Methods for Real-World Domain Generalization
不變方法在解決領域泛化問題方面已經取得了顯著的成功,該問題的目標是對不同于訓練中使用的數據分布進行推斷。在我們的工作中,我們研究是否有可能利用未知測試樣本本身的領域信息。我們提出一個域自適應方法包括兩個步驟: a)我們首先學習區別的域嵌入從無監督訓練的例子,和 b)使用該域嵌入作為補充信息來構建一個domainadaptive模型,這需要輸入以及其域考慮而做出的預測。對于看不見的域,我們的方法簡單地使用少數未標記的測試示例來構建域嵌入。這使得對任何看不見的域進行自適應分類成為可能。我們的方法在各種領域泛化基準上實現了最先進的性能。此外,我們還引入了第一個真實世界的大規模域泛化基準Geo-YFCC,該基準包含超過40個訓練域、7個驗證域和15個測試域的1.1萬個樣本,比之前的工作大了幾個數量級。我們表明,現有的方法要么不能擴展到這個數據集,要么不如基于所有訓練領域的數據聯合的訓練模型的簡單基線。相比之下,我們的方法獲得了顯著的1%的改進。
//www.zhuanzhi.ai/paper/6e7661967d0879ebfd0236873a75386b
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。
題目: EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
摘要:
卷積神經網絡(ConvNets)通常是在固定的資源預算下開發的,如果有更多的資源可用,則會進行擴展以獲得更高的精度。在這篇論文中,我們系統地研究了模型縮放,并發現仔細平衡網絡的深度、寬度和分辨率可以獲得更好的性能。基于這一觀察結果,我們提出了一種新的標度方法,使用簡單而高效的復合系數來均勻地標度深度/寬度/分辨率的所有維度。我們證明了該方法在擴展MobileNets和ResNet方面的有效性。為了更進一步,我們使用神經結構搜索來設計一個新的基線網絡,并將其擴展以獲得一系列被稱為EfficientNets的模型,這些模型比以前的ConvNets獲得了更好的準確性和效率。特別是,我們的EfficientNet-B7在ImageNet上達到了最先進的84.4% top-1 / 97.1% top-5的精度,同時比現有最好的ConvNet小8.4倍,推理速度快6.1倍。我們的效率網在CIFAR-100(91.7%)、Flowers(98.8%)和其他3個傳輸學習數據集上傳輸良好,并且達到了最先進的精度,參數少了一個數量級。
作者:
Quoc V. Le目前是谷歌研究科學家,斯坦福大學計算機科學系人工智能實驗室博士生。研究領域是機器學習和人工智能。個人官網: