從全局到局部:面向視頻動作分割的高效網絡結構搜索
Global2Local: Efficient Structure Search for Video Action Segmentation
為了回答“是否可以通過高效地搜索不同感受野的之間的組合來替代手工設計的模式呢?”的問題,在本文中,我們提出一種基于從全局到局部的搜索策略來尋找更合適的感受野組合。具體而言,我們的搜索策略將利用全局搜索的優勢來找到粗粒度的參數組合,而后在利用局部搜索來精細化感受野的組合模式。值得指出的是,全局搜索并非是通過手工設計模式來尋找潛在的粗粒度參數組合。在全局搜索的基礎上,我們將會使用一種基于期望引導迭代的方式來有效地精修參數組合。最后,我們的這一結果可以即插即用地使用在當前動作分割的模型中,并取得了SOTA的效果。很快我們也將開源我們的代碼實現。
本文由騰訊 AI Lab 主導,與清華大學、電子科技大學、香港中文大學(深圳)合作完成。為了生成“精確”表述的場景圖,幾乎所有現有的方法都以確定性的方式預測成對關系,我們認為視覺關系在語義上往往具有模糊歧義性。
具體來說,受語言學知識的啟發,我們將歧義分為三類:同義歧義、上下義歧義和多視點歧義。這種模糊性自然會導致隱性多標簽問題,也激發了對預測多樣性的需求。在這項工作中,我們提出了一個新的即插即用概率不確定性建模(PUM)模塊。它將每個聯合區域建模為高斯分布,其方差度量相應視覺內容的不確定性。與傳統的確定性方法相比,這種不確定性建模帶來了特征表示的隨機性,使得預測具有多樣性。作為一個副產品,PUM還能夠覆蓋更細粒度的關系,從而減輕對頻繁關系的偏見。
在大規模視覺數據集上的大量實驗表明,將PUM與新提出的ResCAGCN相結合可以在平均召回度量下獲得最佳性能。此外,我們通過將PUM插入到一些現有模型中,證明了PUM的普適性,文中也對其生成多樣化但合理的視覺關系的能力進行了深入分析。
當前基于CNN的圖像超分對所有位置同等對待,即每個位置都需要經過網絡進行處理。實際上,低分辨率圖像的細節缺失主要位于邊緣、紋理區域,而平坦區域則較少缺失,故而賦予更少的計算量處理亦可。這就意味著現有基于CNN的圖像超分方法在平坦區域存在計算量冗余問題,限制了對應方法在移動端的應用。
為解決上述問題,我們對圖像超分中的稀疏性問題進行了探索,并用于改善超分網絡的推理高效性。具體來說,我們設計了一種Sparse Mask SR(SMSR)學習稀疏掩碼以剪枝冗余計算量。結合所提SMSR,空域掩碼學習判別“重要性”區域而通道掩碼學習冗余通道(即不重要區域)。因此,冗余計算空域被精確的定位并跳過,同時保持同等性能。
最后,我們通過實驗證實:SMSR取得了SOTA性能,同時x2/3/4被超分的計算量降低41%、33%以及27%。
本文的主要貢獻包含以下幾點:
我們提出了一種SMSR動態跳過冗余計算以達成高效圖像超分; 我們提出通過學習空域與通道掩碼定位冗余計算,兩者協同達成細粒度的冗余計算定位; 所提方法取得了SOTA性能,同時具有更好的推理效率。
paper://arxiv.org/abs/2006.09603
Code:
時序動作提名生成旨在從一段未修剪的長視頻當中生成包含可能存在人類動作的視頻片段,其結合具體的動作類別標簽即構成時序動作檢測任務。目前的方法大多致力于生成靈活準確的時序邊界與可靠的提名置信度,但是仍然受限于匱乏的視頻時序依賴和動作邊界建模,導致了充滿噪聲的候選提名邊界和質量欠佳的置信度分數。
目前主流的時序動作提名生成方法主要分為兩步,首先對輸入的視頻特征序列進行簡單的時序信息融合,然后使用基于邊界預測的方法或者是基于預定義錨點框回歸的方法生成可能包含人體動作的大量候選時序提名。
//www.zhuanzhi.ai/paper/e551d60b61b78e5324762d4cff4bff29
本文提出了一個用于時序動作提名修正的端到端框架。該方法主要針對現有主流時序動作提名生成方法中的兩步驟分別進行改進:
在第一步中,現有方法大多使用堆疊的1D時序卷積進行簡單的時序信息融合,然而,1D卷積在計算不同時序點之間的位置關系時,受限于卷積核的形狀和尺寸,雖然可以較好地建模短期的時序依賴,但是對于靈活多變的上下文關系則望塵莫及。部分辦法選擇了全局融合的方式實現了對全局特征的捕獲,但是直接使用全局池化之后的特征拼接到整個視頻特征序列上的每一個時刻位置,導致每一個時刻獲得的全局信息都是相同的,由此捕獲的時序依賴關系相對固定,缺乏多樣性和區分度,無法充分建模多樣的長時序依賴關系。
在第二步中,基于預定義錨點框回歸的方法可以提供基于提名全局特征的可靠置信度分數,然而直接使用提名的全局特征對于其局部邊界的準確位置不夠敏感,況且預定義尺度和比例的提名時序長度往往非常受限,不夠靈活,無法生成任意長度的候選提名。基于邊界預測的方法利用邊界的局部特征判斷一個時間點是否屬于動作邊界,對動作的起止邊緣比較敏感,并且使用邊界匹配機制來生成大量靈活的動作提名,獲得較高的召回率。由于缺乏客觀的提名特征,其置信度不夠可靠,導致其準確率較低。
參考鏈接:
本文提出一種新的卷積操作----動態區域注意卷積(DRConv: Dynamic Region-Aware Convolution),該卷積可以根據特征相似度為不同平面區域分配定制的卷積核。這種卷積方式相較于傳統卷積極大地增強了對圖像語義信息多樣性的建模能力。標準卷積層可以增加卷積核的數量以提取更多的視覺元素,但會導致較高的計算成本。DRConv使用可學習的分配器將逐漸增加的卷積核轉移到平面維度,這不僅提高了卷積的表示能力,而且還保持了計算成本和平移不變性。 圖片 DRConv是一種用于處理語義信息分布復雜多變的有效而優雅的方法,它可以以其即插即用特性替代任何現有網絡中的標準卷積,且對于輕量級網絡的性能有顯著提升。本文在各種模型(MobileNet系列,ShuffleNetV2等)和任務(分類,面部識別,檢測和分割)上對DRConv進行了評估,在ImageNet分類中,基于DRConv的ShuffleNetV2-0.5×在46M計算量的水平下可實現67.1%的性能,相對基準提升6.3%。
該工作將度量學中一個重要的屬性“動態范圍”引入到深度度量學習,從而得到一個新的任務叫做“動態度量學習”。我們發現,以往的深度度量其實只蘊含一個刻度,例如僅僅區分人臉、行人是相似還是不相似。這樣的量具無論多精確,在實際使用中都是靈活不足、用途有限的。實際上,我們日常的量具通常具有動態范圍,例如尺子總是有多個刻度(例如1mm、1cm乃至10cm)來測量不同尺度的物體。我們認為,深度度量學習領域已經到了需要引入動態范圍的時候了。因為,視覺概念本身就有著不同的大小,“動物”、“植物”都對應大尺度,而“麋鹿”卻對應相對較小的尺度。在小尺度下,兩只麋鹿可能看上去很不一樣,但是在另一個大尺度下,同樣兩只麋鹿卻應該被認為非常相似。
//www.zhuanzhi.ai/paper/d5394f35aef16fb3a4dca59d68fb1882
一個有效的神經網絡結構性能評估方案是神經網絡結構搜索(NAS)成功的關鍵。現有NAS算法通常在訓練時間有限的小型數據集上訓練和評估神經結構。但這樣一種粗糙的評估方式很難對神經網絡結構進行準確評估。本文提出一種新的神經網絡結構評價方案,旨在確定哪個神經網絡結構的性能更好,而不是精確地預測性能絕對值。因此,我們提出了一個結構相對性能預測NAS (ReNAS)。我們將神經結構編碼為特征張量,并利用預測器進一步細化表示。本方法可用于離散搜索,無需額外評估。在NASBench101數據集上抽樣424個(搜索空間的0.1%)神經架構及其標簽已經足夠學習一個準確的架構性能預測器。在NAS-Bench-101和NAS-Bench-201數據集上,我們搜索的神經結構的準確性高于最新的方法,顯示了本方法的優先性。
//www.zhuanzhi.ai/paper/cb3378314b648e21f7e04d86c3bc5727
GID提出了一種基于檢測任務的新型蒸餾方法。通過從teacher和studnet中分別提取general instance (GI),并提出GISM模塊自適應選擇差異大的instance進行feature-based、relation-based以及response-based蒸餾。本方法首次將關系型知識蒸餾應用于檢測框架,且將蒸餾目標從獨立考慮的正負樣本蒸餾統一為更本質GI蒸餾,過程中不依賴于GT,且達到SOTA。
Neural Architecture Search with Random Labels 現有的主流NAS算法通過子網絡在驗證集上的預測性能來進行模型搜索,但是在參數共享機制下,驗證集上的預測性能和模型真實性能存在較大的差異。我們首次打破了這種基于預測性能進行模型評估的范式,從模型收斂速度的角度來進行子網絡評估并假設:模型收斂速度越快,其對應的預測性能越高。
基于模型收斂性框架,我們發現模型收斂性與圖像真實標簽無關,便進一步提出使用隨機標簽進行超網絡訓練的新NAS范式-RLNAS。RLNAS在多個數據集(NAS-Bench-201,ImageNet)以及多個搜索空間(DARTS,MobileNet-like)進行了驗證,實驗結果表明RLNAS僅使用隨機標簽搜索出來的結構便能達到現有的NAS SOTA的水平。RLNAS初聽比較反直覺,但其出乎意料的好結果為NAS社區提出了一組更強的基線,同時也進一步啟發了對NAS本質的思考。 //www.zhuanzhi.ai/paper/73ff2aa2c413ba1035d0c205173ca72a
神經架構搜索(NAS)是一個很有前途的領域。首先,我將討論圍繞NAS建立科學社區的各種工作,包括基準測試、最佳實踐和開放源碼框架。然后,我將討論該領域幾個令人興奮的方向:(1)廣泛的NAS加速技術;(2)在Auto-PyTorch中結合NAS +超參數優化,實現現成的AutoML;(3)神經集成搜索(NES)的擴展問題定義,它搜索一組互補的架構,而不是像NAS中搜索的單一架構。
神經結構搜索(NAS)旨在以全自動的方式找到表現出色且新穎的神經網絡結構。然而現有的搜索空間設計過度依賴于研究者的專業知識,所涵蓋的神經網絡相對比較單一,導致搜索策略雖然能找到表現不錯的結構,卻無法發現突破性的新型神經網絡。在這篇工作中,我們 1)首次提出了搜索最優的神經網絡結構生成分布(architecturegenerator)而不僅僅是單個神經網絡(single architecture) 的概念,2)并針對這個概念提出了一個全新的,多階層的,基于圖的搜索空間。該搜索空間不但能生成非常多樣化的網絡結構,而且只由幾個超參來定義。這極大減少了結構搜索的維度,使得我們能高效地使用貝葉斯優化作為搜索策略。與此同時,因為我們拓廣了搜索空間(包含眾多性能和存儲需求差異巨大的有效網絡結構),這使得多目標學習在我們的場景下更有意義。我們在六個圖像數據集上驗證了我們方法(NAGO)的高效性, 并展示了我們的方法能找到非常輕便且性能卓越的網絡結構。