凝視行為是人類社會行為的一個重要方面,具有很強的研究意義,但針對該任務缺乏一個統一的解決框架。一個直觀的解決方案是在現有的視線估計方法中加入一個目標檢測分支。然而,現有的視線估計方法通常使用兩個不同的網絡來提取場景和頭部圖像中的特征,這將導致網絡結構過于復雜并阻止每個分支的聯合優化。
//www.zhuanzhi.ai/paper/bc53529bc71e91a3504fa5162f10a186
為此,論文提出了一個名為GaTector的新框架,以統一的方式解決凝視對象的預測問題。首先本文提出了一個特定-一般-特定(SGS)的特征提取器,利用一個共享的主干來提取場景和頭部圖像的一般特征。針對不同子網絡的特殊性,SGS在共享主干之前引入了兩個特定的輸入處理層,在共享主干之后引入了三個不同的輸出處理層。然后,本文設計了一個新穎的散焦結構,在不丟失信息且無需額外計算量的前提下為目標檢測任務生成特定的物體特征。此外,框架引入了能量聚集損失,對不同的子網絡完成聯合優化。最后,本文提出了一個新的mDAP指標,即使不同邊界框之間沒有重疊的區域,它也可以揭示不同邊界框之間的差異。此框架在GOO數據集上進行的大量實驗驗證了本文的方法在目標檢測、視線估計和凝視物體預測三個任務中的優越性。
CVPR全稱IEEE國際計算機視覺與模式識別會議(IEEE Conference on Computer Vision and Pattern Recognition),該會議始于1983年,是人工智能、計算機視覺和模式識別領域的頂級會議。根據谷歌學術公布的 2021 年最新學術期刊和會議影響力排名, CVPR在所有學術刊物中位居第4(超越柳葉刀),僅次于Nature,NEJM和Science。
在自動駕駛中,激光雷達點云和RGB圖像是兩種主要的具有互補線索的三維目標檢測數據模式。然而,由于模態內之間存在很大的差異,很難充分利用它們。為了解決這個問題,我們提出了一個新的框架,即用于多模態三維物體檢測(CAT-Det)的對比增強Transformer(contrast Augmented Transformer)。具體來說,CAT-Det采用雙流結構,由點前(PT)分支、圖像前(IT)分支和交叉模態轉換器(CMT)模塊組成。PT、IT和CMT共同編碼內模態和跨模態的長程上下文來表示一個對象,從而充分挖掘多模態信息進行檢測。此外,我們提出了一種有效的單向多模態數據增強(OMDA)方法,通過在點和對象層面上進行層次對比學習,僅通過增強點云就可以顯著提高精度,而無需復雜地生成兩種模式的成對樣本。在KITTI基準上的大量實驗表明,CAT-Det達到了最新的技術水平,凸顯了其有效性。
//www.zhuanzhi.ai/paper/cdc9f14be76be206c2dfa2c11871e4d7
論文標題:UniVIP: A Unified Framework for Self-Supervised Visual Pre-training
論文鏈接://arxiv.org/abs/2203.06965 作者單位:中國科學院自動化研究所 & 商湯科技 & 南洋理工大學
自監督學習 (SSL) 有望利用大量未標記的數據。然而,流行的 SSL 方法的成功僅限于像 ImageNet 中的單中心對象圖像,并且忽略了場景和實例之間的相關性,以及場景中實例的語義差異。為了解決上述問題,我們提出了統一自監督視覺預訓練(UniVIP),這是一種新穎的自監督框架,用于在單中心對象或非標志性數據集上學習通用視覺表示。該框架考慮了三個層次的表示學習:1)場景-場景的相似性,2)場景-實例的相關性,3)實例的判別。在學習過程中,我們采用最優傳輸算法來自動測量實例的區分度。大量實驗表明,在非標志性 COCO 上預訓練的 UniVIP 在圖像分類、半監督學習、對象檢測和分割等各種下游任務上實現了最先進的傳輸性能。此外,我們的方法還可以利用 ImageNet 等單中心對象數據集,并且在線性探測中使用相同的預訓練 epoch 時比 BYOL 高 2.5%,并且在 COCO 數據集上超越了當前的自監督對象檢測方法,證明了它的普遍性和潛在性能。
弱監督目標定位(WSOL)只關注在圖像級分類掩碼的監督下進行對象定位。以前的大多數WSOL方法都遵循分類激活映射(classification activation map, CAM),它使用多實例學習(MIL)機制基于分類結構對目標進行本地化。然而,MIL機制使得CAM只能激活識別目標的部分而不能激活整個目標,削弱了其本地化目標的性能。**為了避免這一問題,本文提出了一種新的視角,將WSOL建模為域適應(DA)任務,即在源/圖像域上訓練的分數估計器在目標/像素域上進行測試以定位目標。**在此視角下,DA-WSOL流程設計可以更好地將DA方法引入到WSOL中,以提高本地化性能。利用所提出的目標采樣策略來選擇不同類型的目標樣本。基于這些類型的目標樣本,對域自適應定位(DAL)損耗進行了闡述。該方法通過DA對兩個域之間的特征分布進行對齊,并通過Universum正則化使估計器感知目標域線索。實驗表明,該方法在多基準測試上的性能優于SOTA方法。代碼發布在 //github.com/zh460045050/DA-WSOL_CVPR2022。
本文使用加法器神經網絡(AdderNet)研究單圖像超分辨率問題。與卷積神經網絡相比,AdderNet利用加法來計算輸出特征,從而避免了傳統乘法運算的大量能耗。但是,由于計算范式的不同,很難將AdderNet在大規模圖像分類上的成功直接繼承到圖像超分辨率任務上。具體而言,加法器操作無法輕松學習身份映射,這對于圖像處理任務至關重要。此外,AdderNet無法確保高通濾波的功能。為此,我們徹底分析了加法器操作與身份映射之間的關系,并插入shortcuts方式以使用加法器網絡增強SR模型的性能。然后,我們開發了可學習的能量激活函數,用于調整特征分布和細化細節。在幾個基準模型和數據集上進行的實驗表明,我們使用AdderNets的圖像超分辨率模型可以實現與CNN基線相當的性能和視覺質量,并且能耗降低了約2倍。
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。
題目:Interpreting and Unifying Graph Neural Networks with An Optimization Framework
作者:Meiqi Zhu, Xiao Wang, Chuan Shi, Houye Ji, Peng Cui
簡介:圖神經網絡(GNNs)在各種圖分析任務中得到了相當廣泛的關注。設計良好的消息傳遞機制是經典圖神經網絡中最基本的組成成分,并且經驗與實驗證明該部分是非常有效的。雖然傳播機制多種多樣,但基本都是通過沿著網絡拓撲結構聚合節點特征來利用網絡結構與特征信息的。鑒于此,一個問題自然產生:”盡管圖神經網絡有著不同的傳播策略,是否存在一個統一的數學準則,從本質上指導這不同圖神經網絡的傳播過程?如果有的話,是什么?“ 對這個問題較為完善的答案,可以幫助我們從宏觀上有原則地考察不同圖神經網絡之間的關系和差異,并且這樣的數學準則一旦被提出,就能夠幫助我們發現現有圖神經網絡的不足之處,進而激發設計更多新的圖神經網絡。
在本文中,我們致力于建立不同圖神經網絡傳播機制之間的聯系,將他們的傳播過程建模成一個統一的優化問題。分析表明,多種經典圖神經網絡的傳播機制實際上是在優化一個結合了特征擬合約束項和圖拉普拉斯正則化約束項的優化目標,而他們傳播后的節點表示可以隱式地看作是這個統一優化目標的最優解。特征擬合項旨在建立節點表示與原始節點特征之間的關系,通常用于滿足特定圖神經網絡的不同需求。圖拉普拉斯正則化項則是這些圖神經網絡所共享的,它起到拓撲平滑特征的作用。
我們提出的統一優化目標框架,總結了幾種最具代表性的GNN之間的共性,不僅為探索不同GNN之間的關系提供了一個宏觀的視角,也進一步為靈活設計GNN提供了新的機會。傳統上,在提出一種新的圖神經網絡模型時,我們通常側重于設計特定的譜域濾波器或空域聚合策略。現在,統一的優化目標框架為實現這一目標提供了另一種新的途徑,即通過設計傳播目標函數而得到新的圖神經網絡。這樣,我們就清楚地知道傳播過程背后的優化目標,使新設計的圖神經網絡更具有可解釋性和可靠性。舉例來說,本文我們發現現有的工作通常使用非常簡單的圖卷積核來設計特征擬合約束項,因此基于現有的不足開發出兩個具有可調低通和高通濾波器性質的靈活優化目標函數。此外,我們提供了收斂證明和表達能力的比較。在基準數據集上進行的大量實驗表明,基于本文優化框架提出的GNN模型不僅性能優于現有的優化方法,而且能夠很好地緩解過度平滑問題,進一步驗證了采用統一優化框架設計GNN的可行性。