一、為時間動作本地化建模多標簽動作相關性
標題: Modeling Multi-Label Action Dependencies for Temporal Action Localization 鏈接: //arxiv.org/pdf/2103.03027.pdf
現實世界中的視頻包含許多復雜的動作,并且動作類之間具有固有的關系。本文提出了一種基于注意力的架構,該架構為未修剪視頻中的時間動作本地化任務建模了這些動作關系。與先前利用動作的視頻級同時發生的作品相反,本文區分了在相同時間步長發生的動作與在不同時間步長發生的動作(即彼此先后的動作)之間的關系,將這些不同的關系定義為動作依賴項。本文建議通過在新穎的基于注意力的多標簽動作相關性(MLAD)層中對這些動作相關性進行建模來提高動作本地化性能。
二、實時高分辨率背景摳像 標題: Real-Time High Resolution Background Matting 鏈接: code: project: video:
本文介紹了一種實時,高分辨率的背景替換技術,該技術可在4K分辨率下以30fps的速度運行,而在現代GPU上以60fps的高清速度運行。本文技術基于背景遮罩,其中捕獲了背景的附加幀,并用于恢復alpha遮罩和前景層。主要挑戰是要計算出高質量的Alpha遮罩,并保留股級頭發細節,同時實時處理高分辨率圖像。與以前的背景摳像技術相比,該方法產生了更高的質量結果,同時在速度和分辨率上都取得了巨大的進步。
三、探索具有對比場景上下文的數據高效3D場景理解 標題: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts 鏈接: project: video:
3D場景理解的快速進步與對數據的需求不斷增長有關。但是,眾所周知,收集和注釋3D場景(例如點云)非常困難。例如,可以訪問和掃描的場景數量(例如室內房間)可能會受到限制;即使有足夠的數據,獲取3D標簽(例如,實例蒙版)也需要大量的人工。本文探索了3D點云的高效數據學習,提出了“對比場景上下文”,這是一種3D預訓練方法,它同時利用了場景中的點級對應關系和空間上下文。值得注意的是,在ScanNet上,即使使用0.1%的點標簽,使用完整注解的基準性能仍然達到89%(實例分割)和96%(語義分割)。
四、在動態室內環境中,通過空間劃分的魯棒神經路由可實現攝像機的重新定位 標題: Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments 鏈接: project:
本文提出了一種新穎的異常感知神經樹,它將兩個世界,深度學習和決策樹方法聯系起來。它建立在三個重要的塊上:(a)在室內場景上進行分層的空間劃分,以構建決策樹;(b)被實現為深度分類網絡的神經路由功能,用于更好地理解3D場景;(c)離群剔除模塊,用于在分級路由過程中濾除動態點。它可以通過空間分區實現魯棒的神經路由,并且在攝像機姿勢精度方面要比最新技術高出30%左右,同時運行速度也相當快。
五、通過3D掃描同步進行多主體分割和運動估計 標題: MultiBodySync: Multi-Body Segmentation and Motion Estimation via 3D Scan Synchronization 鏈接: code:
本文介紹了MultiBodySync,這是一種新穎的,端到端的可訓練多體運動分割和針對多輸入3D點云的剛性配準框架。本文所研究的這種多掃描多體設置所帶來的兩個非同尋常的挑戰是:(i)保證捕獲多個不同身體或身體部位空間布局的多個輸入點云之間的對應關系和分割一致性;文章提出了一種解決這些問題的方法,該方法將頻譜同步合并到迭代的深度聲明式網絡中,以便同時恢復一致的對應關系以及運動分割。該方法可有效用于各種數據集,從關節物體的剛性零件到3D場景中的單個移動物體,無論是單視圖還是全點云
六、用于單目三維目標檢測的分類深度分布網絡 標題: Categorical Depth Distribution Network for Monocular 3D Object Detection 鏈接:
單眼3D對象檢測是自動駕駛汽車的關鍵問題,因為與典型的多傳感器系統相比,它提供了一種具有簡單配置的解決方案。單眼3D檢測的主要挑戰在于準確預測物體深度,由于缺乏直接的距離測量,必須從物體和場景線索中推斷出物體深度。許多方法嘗試直接估計深度以輔助3D檢測,但是由于深度不準確,結果顯示出有限的性能。本文提出的解決方案分類深度分布網絡(CaDDN)對每個像素使用預測的分類深度分布,以將豐富的上下文特征信息投影到3D空間中的適當深度間隔。然后,使用計算效率高的鳥瞰圖投影和單級檢測器來生成最終的輸出邊界框。本文將CaDDN設計為用于聯合深度估計和對象檢測的完全可區分的端到端方法。
七、學習多視圖立體聲 標題: PatchmatchNet: Learned Multi-View Patchmatch Stereo 鏈接: code:
PatchmatchNet,這是一種適用于高分辨率多視圖立體聲的Patchmatch的新穎且可學習的級聯公式。與采用3D成本正則化的競爭對手相比,PatchmatchNet具有較高的計算速度和較低的內存需求,可以處理更高分辨率的圖像,并且更適合在資源受限的設備上運行。本文首次在端到端可訓練體系結構中引入了迭代的多尺度Patchmatch,并針對每次迭代使用了一種新穎且學到的自適應傳播和評估方案來改進Patchmatch核心算法。
八、通過域隨機化和元學習對視覺表示進行連續調整 標題: Continual Adaptation of Visual Representations via Domain Randomization and Meta-learning 鏈接:
大多數標準的學習方法都導致脆弱的模型,當對不同性質的樣本進行順序訓練時,它們容易漂移(眾所周知的“災難性遺忘”問題)。特別是,當一個模型連續從不同的視覺域中學習時,它傾向于忘記過去的模型,而傾向于最新的模型。在這種情況下,本文表明,學習本質上更健壯的模型的一種方法是域隨機化-對于視覺任務,使用繁重的圖像操作將當前域的分布隨機化。在此結果的基礎上,本文設計了一種元學習策略,其中調節器明確懲罰與將模型從當前域轉移到不同的“輔助”元域相關的任何損失,同時還簡化了對它們的適應。此類元域也通過隨機圖像處理生成。
九、神經幾何細節水平:隱式3D曲面的實時渲染 標題: Neural Geometric Level of Detail:Real-time Rendering with Implicit 3D Surfaces 鏈接: code: project:
SDF逐漸成為3D形狀的有效表示形式。最先進的方法通常使用固定大小的大型神經網絡對SDF進行編碼,以近似顯示具有隱式表面的復雜形狀。但是,由于這些大型網絡的渲染在計算上是昂貴的,因為它要求每個像素都需要通過網絡進行多次前向傳遞,因此對于實時圖形來說,這些表示不切實際。本文引入了一種有效的神經表示,首次實現了高保真神經SDF的實時渲染,同時實現了最先進的幾何重構質量。
十、預測器:低重疊的3D點云的注冊 標題: PREDATOR: Registration of 3D Point Clouds with Low Overlap 鏈接: code: project:
本文引入了PREDATOR模型,該模型用于成對點云注冊,它非常關注重疊區域。用于兩點云的潛在編碼之間的早期信息交換。以這種方式,將潛在表示轉換為每個點特征的后續解碼以相應的另一個點云為條件,從而可以預測哪些點不僅是顯著的,而且還位于兩個點云之間的重疊區域中。專注于與匹配相關的點的能力極大地提高了性能:PREDATOR在低重疊情況下將成功注冊的比率提高了20%以上,還為3DMatch基準設定了89%的最新技術水平注冊召回。
十一、通過保留推理時間的目標投影進行域泛化 標題: Domain Generalization via Inference-time Label-Preserving Target Projections 鏈接:
在具有不同統計量的看不見的目標域上對在一組源域上訓練的機器學習模型進行泛化是一個具有挑戰性的問題。盡管已經提出了許多解決方法,但是它們僅在訓練期間利用源數據,而沒有利用推論時只有一個目標示例的事實。因此,本文提出了一種方法,該方法可以在推理過程中有效地使用目標樣本,而不僅僅是分類。該方法包括三個部分(i)對源數據進行標簽保留的特征或度量轉換,以使源樣本根據其類別進行聚類,而與域無關。(ii)針對這些特征訓練的生成模型。(iii)通過使用學習的度量來解決生成模型輸入空間上的優化問題,在推理過程中目標點在源特征流形上的保留標簽的投影。
十二、全局一致的非剛性重建的神經變形圖 標題: Neural Deformation Graphs for Globally-consistent Non-rigid Reconstruction 鏈接: project: video:
本文引入了神經變形圖,用于全局一致的變形跟蹤和非剛性對象的3D重建。具體來說,本文通過深層神經網絡對變形圖進行隱式建模。該神經變形圖不依賴于任何特定于對象的結構,因此可以應用于一般的非剛性變形跟蹤。實驗表明,該神經變形圖在質量和數量上都優于最新的非剛性重建方法,重建性能提高了64%,變形跟蹤性能提高了62%。
十三、粗標簽的細粒度角度對比學習 標題: Fine-grained Angular Contrastive Learning with Coarse Labels 鏈接:
在這些實際應用中,預先訓練的標簽空間無法保持固定以有效使用,并且需要對模型進行“專業化”以即時支持新類別。稀疏到極少的射擊(C2FS)是一種特別有趣的場景,基本上被鮮為人知的文獻所忽略,其中訓練班(例如,動物)的粒度比目標(測試)類的“粒度更粗”(例如品種)。本文介紹了一種新穎的“角度歸一化”模塊,該模塊可以有效地結合監督和自我監督的對比預訓練來解決建議的C2FS任務,從而證明了在多個基準和數據集上的廣泛研究中所取得的顯著成果。
十四、通過稀疏采樣進行視頻和語言學習 標題: Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling 鏈接: code:
規范的視頻和語言學習方法(例如,視頻問答)規定了一個神經模型,可以從視覺模型的離線提取的密集視頻功能和語言模型的文本功能中學習。這些特征提取器是經過獨立訓練的,通常在與目標域不同的任務上進行訓練,使這些固定特征對于下游任務而言不是最理想的。此外,由于密集視頻特征的高計算量,通常難以(或不可行)將特征提取器直接插入現有方法中以進行微調。為了解決這一難題,本文提出了一個通用框架CLIPBERT,該框架通過使用稀疏采樣(僅使用一個視頻中的一個或幾個稀疏采樣的短片)來實現可負擔的視頻和語言任務的端到端學習。
十五、用于域自適應全景分割的跨視圖正則化 標題: Cross-View Regularization for Domain Adaptive Panoptic Segmentation 鏈接:
全景分割統一了語義分割和實例分割,這在近年來引起了越來越多的關注。但是,大多數現有研究是在有監督的學習設置下進行的,而在不同任務和應用中至關重要的無監督域自適應全景分割則被忽略了。本文設計了一種域自適應全景分割網絡,該網絡利用樣式間的一致性和任務間正則化來優化域自適應全景分割。
十六、通過分層樣式分解實現圖像到圖像的翻譯 標題: Image-to-image Translation via Hierarchical Style Disentanglement 鏈接: code:
近來,圖像到圖像的翻譯在完成多標簽(即,以不同標簽為條件的翻譯)和多樣式(即,具有多種樣式的生成)任務方面都取得了重大進展。但是,由于標簽中未開發的獨立性和排他性,通過對翻譯結果進行不受控制的操作而挫敗了現有的工作。本文提出了層次樣式分離(HiSD)來解決此問題。具體來說,本文將標簽組織成分層的樹狀結構,其中獨立的標簽,排他屬性和解開的樣式從上到下分配。相應地,設計了一種新的翻譯過程以適應上述結構,其中確定了可控翻譯的樣式。
十七、開放世界中的目標檢測 標題: Towards Open World Object Detection 鏈接: code:
人類具有識別其環境中未知對象實例的天生的本能。當相應的知識最終可用時,對這些未知實例的內在好奇心有助于學習它們。這激勵我們提出一個新穎的計算機視覺問題,稱為“開放世界對象檢測”,該模型的任務是:1)在沒有明確監督的情況下,將尚未引入該對象的對象識別為“未知”,以及2)當逐漸接收到相應的標簽時,逐步學習這些已識別的未知類別,而不會忘記先前學習的類別。本文提出了一個強有力的評估協議,并提供了一種新穎的解決方案,叫做ORE:基于對比聚類和基于能量的未知識別的開放世界物體檢測器。
十八、使用Transformer的端到端視頻實例分割 標題: End-to-End Video Instance Segmentation with Transformers 鏈接:
視頻實例分割(VIS)是一項需要同時對視頻中感興趣的對象實例進行分類,分割和跟蹤的任務。最近的方法通常會開發復雜的管道來解決此任務。本文提出了一個基于Transformers的新視頻實例分割框架,稱為VisTR,該框架將VIS任務視為直接的端到端并行序列解碼/預測問題。給定包含多個圖像幀的視頻剪輯作為輸入,VisTR直接按順序輸出視頻中每個實例的遮罩序列。核心是一種新的,有效的實例序列匹配和分段策略,該策略在整個序列級別上對實例進行監督和分段。VisTR從相似性學習的同一角度構建實例分割和跟蹤,從而大大簡化了總體流程。
視頻行為理解中的一個核心難點是「場景偏差」問題。比如,一段在籃球場跳舞的視頻,會被識別為打籃球,而非跳舞。我們提出一種自監督視頻表征學習方案,通過直接在代理任務中顯式解耦場景與運動信息,處理「場景偏差」難題。值得注意的是,本方案中,解耦的場景與運動信息均從「視頻壓縮編碼」中提取得到。其中場景由關鍵幀 (keyframes) 表示,運動由運動向量 (motion vectors) 表示,二者提取速度是光流的100倍。基于該解耦方案預訓練的視頻網絡模型,遷移至行為理解和視頻檢索兩項下游任務,性能均顯著超過SOTA。
自監督學習通過從數據本身來獲取監督信號,在視頻表征學習領域展現出了巨大潛力。由于一些主流的方法容易受到背景信息的欺騙和影響,為了減輕模型對背景信息的依賴,我們提出通過添加背景來去除背景影響。具體而言,給定一個視頻,我們從中隨機選擇一個靜態幀,并將其添加到其它的每一幀中,以構建一個分散注意力的視頻樣本,然后要求模型拉近 分散注意力的視頻樣本與原始視頻樣本之間的特征距離,如此使得模型能夠更好地抵抗背景的影響,而更多地關注運動變化。我們的方法命名為背景消除(Background Erasing,BE)。值得注意的是,我們的方法可以便捷地添加到大多數SOTA方法中。BE在MoCo的基礎上,對具有嚴重背景偏見的數據集UCF101和HMDB51,分別帶來了16.4%和19.1%的提升,而對具有較小背景偏見的數據集Diving48數據集帶來了14.5%的提升。
我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。近期,一些Paper放出來,Domain Adaptation(域自適應)相關研究非常火熱,特別是基于Domain Adaptation的視覺應用在今年的CVPR中有不少,專知小編整理了CVPR 2020 域自適應(DA)相關的比較有意思的值得閱讀的六篇論文,供大家參考—行為分割、語義分割、目標檢測、行為識別、域自適應檢索。
作者:Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib, Zsolt Kira
摘要:盡管最近在全監督行為分割(action segmentation)技術方面取得了一些進展,但性能仍然不盡如人意。一個主要挑戰是時空變化問題(例如,不同的人可能以不同的方式進行相同的活動)。因此,我們利用無標簽視頻將行為分割任務重新表述為一個具有時空變化引起的域差異的跨域問題來解決上述時空變化問題。為了減少這種域差異,我們提出了自監督時域自適應(SSTDA),它包含兩個自監督輔助任務(二進制和序列域預測)來聯合對齊嵌入局部和全局時間動態的跨域特征空間,取得了比其他域自適應(DA)方法更好的性能。在三個具有挑戰性的基準數據集(GTEA、50Salads和Breakfast)上,SSTDA的表現遠遠超過當前最先進的方法(在Breakfas上F1@25得分從59.6%到69.1%,在50Salads上F1@25得分從73.4%到81.5%,在GTEA上F1@25得分從83.6%到89.1%),并且只需要65%的標記訓練數據來就實現了該性能,這表明了SSTDA在各種變化中適應未標記目標視頻的有效性。
網址:
代碼鏈接:
作者:Zhonghao Wang, Mo Yu, Yunchao Wei, Rogerior Feris, Jinjun Xiong, Wen-mei Hwu, Thomas S. Huang, Honghui Shi
摘要:本文通過緩解源域(合成數據)和目標域(真實數據)之間的域轉換(domain shift),研究語義分割中的無監督域自適應問題。之前的方法證明,執行語義級對齊有助于解決域轉換問題。我們觀察到事物類別通常在不同域的圖像之間具有相似的外觀,而事物(即目標實例)具有更大的差異,我們提出使用針對填充(stuff)區域和事物的不同策略來改進語義級別的對齊方式:1)對于填充類別,我們為每一類生成特征表示,并進行從目標域到源域的對齊操作;2)對于事物(thing)類別,我們為每個單獨的實例生成特征表示,并鼓勵目標域中的實例與源域中最相似的實例對齊。以這種方式,事物類別內的個體差異也將被考慮,以減輕過度校準。除了我們提出的方法之外,我們還進一步揭示了當前對抗損失在最小化分布差異方面經常不穩定的原因,并表明我們的方法可以通過最小化源域和目標域之間最相似的內容和實例特征來幫助緩解這個問題。
網址:
作者:Chang-Dong Xu, Xing-Ran Zhao, Xin Jin, Xiu-Shen Wei
摘要:在本文中,我們解決了域自適應目標檢測問題,其中的主要挑戰在于源域和目標域之間存在明顯的域差距。以前的工作試圖明確地對齊圖像級和實例級的移位,以最小化域差異。然而,它們仍然忽略了去匹配關鍵圖像區域和重要的跨域實例,這將嚴重影響域偏移緩解。在這項工作中,我們提出了一個簡單有效的分類正則化框架來緩解這個問題。它可以作為一個即插即用(plug-and-play)組件應用于一系列域自適應Faster R-CNN方法,這些方法在處理域自適應檢測方面表現突出。具體地說,由于分類方式的定位能力較弱,通過在檢測主干上集成圖像級多標簽分類器,可以獲得與分類信息相對應的稀疏但關鍵的圖像區域。同時,在實例級,我們利用圖像級預測(分類器)和實例級預測(檢測頭)之間的分類一致性作為正則化因子,自動尋找目標域的硬對齊實例。各種域轉移場景的大量實驗表明,與原有的域自適應Faster R-CNN檢測器相比,我們的方法獲得了顯著的性能提升。此外,定性的可視化和分析可以證明我們的方法能夠關注針對領域適配的關鍵區域/實例。
網址:
代碼鏈接:
作者:Jonathan Munro, Dima Damen
摘要:細粒度行為識別數據集存在出環境偏差,多個視頻序列是從有限數量的環境中捕獲的。在一個環境中訓練模型并在另一個環境中部署會由于不可避免的域轉換而導致性能下降。無監督域適應(UDA)方法經常利用源域和目標域之間進行對抗性訓練。然而,這些方法并沒有探索視頻在每個域中的多模式特性。在這項工作中,除了對抗性校準之外,我們還利用模態之間的對應關系作為UDA的一種自監督校準方法。
我們在大規模數據集EPIC-Kitchens中的三個kitchens上使用行為識別的兩種模式:RGB和光學流(Optical Flow)測試了我們的方法。結果顯示,僅多模態自監督比僅進行源訓練的性能平均提高了2.4%。然后,我們將對抗訓練與多模態自監督相結合,表明我們的方法比其他UDA方法要好3%。
網址:
作者:Myeongjin Kim, Hyeran Byun
摘要:由于用于語義分割的像素級標簽標注很費力,因此利用合成數據是一種更好的解決方案。然而,由于合成域和實域之間存在領域鴻溝,用合成數據訓練的模型很難推廣到真實數據。本文將這兩個領域之間的根本差異作為紋理,提出了一種自適應目標域紋理的方法。首先,我們使用樣式轉移算法使合成圖像的紋理多樣化。合成圖像的各種紋理防止分割模型過擬合到一個特定(合成)紋理。然后,通過自訓練對模型進行微調,得到對目標紋理的直接監督。我們的結果達到了最先進的性能,并通過大量的實驗分析了在多樣化數據集上訓練的模型的性質。
網址:
作者:Fuxiang Huang, Lei Zhang, Yang Yang, Xichuan Zhou
摘要:域自適應圖像檢索包括單域檢索和跨域檢索。現有的圖像檢索方法大多只關注單個域的檢索,假設檢索數據庫和查詢的分布是相似的。然而,在實際應用中,通常在理想光照/姿態/背景/攝像機條件下獲取的檢索數據庫與在非受控條件下獲得的查詢之間的差異很大。本文從實際應用的角度出發,重點研究跨域檢索的挑戰性問題。針對這一問題,我們提出了一種有效的概率加權緊湊特征學習(PWCF)方法,它提供域間相關性指導以提高跨域檢索的精度,并學習一系列緊湊二進制碼(compact binary codes)來提高檢索速度。首先,我們通過最大后驗估計(MAP)推導出我們的損失函數:貝葉斯(BP)誘發的focal-triplet損失、BP誘發的quantization損失和BP誘發的分類損失。其次,我們提出了一個通用的域間復合結構來探索域間的潛在相關性。考慮到原始特征表示因域間差異而存在偏差,復合結構難以構造。因此,我們從樣本統計的角度提出了一種新的特征—鄰域直方圖特征(HFON)。在不同的基準數據庫上進行了大量的實驗,驗證了我們的方法在領域自適應圖像檢索中的性能優于許多最先進的圖像檢索方法。
網址:
代碼鏈接:
1、3D Point Cloud Generative Adversarial Network Based on Tree Structured Graph Convolutions
作者:Dong Wook Shu, Sung Woo Park, Junseok Kwon;
摘要:本文提出了一種新的三維點云生成對抗網絡(GAN),稱為tree-GAN。為了實現多類三維點云生成的最優性能,引入了一種樹狀圖卷積網絡(TreeGCN)作為tree-GAN的生成工具。因為TreeGCN在樹中執行圖卷積,所以它可以使用ancestor信息來增強特性的表示能力。為了準確評估三維點云的GAN,我們提出了一種新的評價指標,稱為Fr'echet點云距離(FPD)。實驗結果表明,所提出的tree-GAN在傳統度量和FPD方面都優于最先進的GAN,并且可以在不需要先驗知識的情況下為不同的語義部分生成點云。
網址://www.zhuanzhi.ai/paper/ade9cbf39f5984d62fb0569c60038853
2、Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks
作者:Yujun Cai, Liuhao Ge, Jun Liu, Jianfei Cai, Tat-Jen Cham, Junsong Yuan, Nadia Magnenat Thalmann;
摘要:盡管單視圖圖像或視頻的三維姿態估計取得了很大的進展,但由于深度模糊和嚴重的自聚焦,這仍然是一個具有挑戰性的任務。為了有效地結合空間相關性和時間一致性來緩解這些問題,我們提出了一種新的基于圖的方法來解決短序列二維關節檢測的三維人體和三維手部姿態估計問題。特別是將人手(身體)構型的領域知識顯式地融入到圖卷積運算中,以滿足三維姿態估計的特定需求。此外,我們還介紹了一個從局部到全局的網絡架構,該架構能夠學習基于圖表示的多尺度特性。我們評估了所提出的方法在具有挑戰性的基準數據集的三維手部姿態估計和三維身體位姿估計。實驗結果表明,我們的方法在兩種任務上都達到了最先進的性能。
網址:< >
3、Graph Convolutional Networks for Temporal Action Localization
作者:Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan;
摘要:大多數最先進的行為定位系統都是單獨處理每個動作proposal,而不是在學習過程中顯式地利用它們之間的關系。然而,proposal之間的關系實際上在行動定位中扮演著重要的角色,因為一個有意義的行動總是由一個視頻中的多個proposal組成。在本文中,我們提出利用圖卷積網絡(GCNs)來挖掘proposal - proposal關系。首先,我們構造一個action proposal圖,其中每個proposal表示為一個節點,兩個proposal之間的關系表示為一條邊。這里,我們使用兩種類型的關系,一種用于捕獲每個proposal的上下文信息,另一種用于描述不同action之間的關聯。我們在圖上應用GCN,以對不同proposal之間的關系進行建模,學習了動作分類和定位的強大表示。實驗結果表明,我們的方法在THUMOS14上顯著優于最先進的方法(49.1% versus42.8%)。此外,ActivityNet上的增強實驗也驗證了action proposal關系建模的有效性。代碼可以在
網址:< >
4、Graph-Based Object Classification for Neuromorphic Vision Sensing
作者:Yin Bi, Aaron Chadha, Alhabib Abbas, Eirina Bourtsoulatze, Yiannis Andreopoulos;
摘要:神經形態視覺傳感(NVS)設備將視覺信息表示為異步離散事件的序列(也稱為“spikes”),以響應場景反射率的變化。與傳統的有源像素傳感器(APS)不同,NVS允許更高的事件采樣率,大大提高了能源效率和對光照變化的魯棒性。然而,使用NVS流的對象分類不能利用最先進的卷積神經網絡(CNNs),因為NVS不產生幀表示。為了避免感知和處理與CNNs之間的不匹配,我們提出了一種用于NVS的緊湊圖表示方法。我們將其與新穎的殘差圖CNN體系結構相結合,結果表明,當對時空NVS數據進行訓練用于對象分類時,這種殘差圖CNN保持了spike事件的時空一致性,同時所需的計算和內存更少。最后,為了解決缺乏用于復雜識別任務的大型真實世界NVS數據集的問題,我們提出并提供了一個100k的美國手語字母NVS記錄數據集,該數據集是在真實世界條件下使用iniLabs DAVIS240c設備獲得的。
網址:< >
5、Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition
作者:Tianshui Chen, Muxin Xu, Xiaolu Hui, Hefeng Wu, Liang Lin;
摘要:識別圖像中的多個標簽是一項現實而富有挑戰性的任務,通過搜索語義感知區域和對標簽依賴關系建模,已經取得了顯著的進展。然而,由于缺乏局部層次的監督和語義指導,現有的方法無法準確定位語義區域。此外,它們不能充分挖掘語義區域之間的相互作用,也不能顯式地對標簽的共現進行建模。為了解決這些問題,我們提出了一個語義特定的圖表示學習(SSGRL)框架,該框架由兩個關鍵模塊組成:1)一個語義解耦模塊,該模塊集成了范疇語義以指導學習語義特定的表示;2)一個語義交互模塊。它將這些表示與建立在統計標簽共現上的圖相關聯,并通過圖傳播機制探索它們的交互作用。在公共基準上的大量實驗表明,我們的SSGRL框架在很大程度上優于當前最先進的方法,例如,在PASCAL VOC 2007 & 2012, Microsoft-COCO and Visual Genome benchmarks數據集上,mAP的性能分別提高了2.5%、2.6%、6.7%和3.1%。我們的代碼和模型可以在. com/HCPLab-SYSU/SSGRL上獲得。
網址:< >
6、Relation-Aware Graph Attention Network for Visual Question Answering
作者:Linjie Li, Zhe Gan, Yu Cheng, Jingjing Liu;
摘要:為了解決圖像的語義復雜問題,視覺問答模型需要充分理解圖像中的視覺場景,特別是不同對象之間的交互動態。我們提出了一個關系感知圖注意網絡(ReGAT),它通過圖注意機制將每個圖像編碼成一個圖,并建立多類型的對象間關系模型,以學習問題的自適應關系表示。研究了兩種類型的視覺對象關系:(1)表示幾何位置的顯式關系和對象之間的語義交互;(2)捕捉圖像區域間隱藏動態的隱式關系。實驗表明,ReGAT在VQA2.0和VQA2-CP v2數據集上的性能都優于現有的最新方法。我們進一步證明了ReGAT與現有的VQA體系結構兼容,可以作為一個通用的關系編碼器來提高VQA的模型性能。
網址:< >
7、Symmetric Graph Convolutional Autoencoder for Unsupervised Graph Representation Learning
作者:Jiwoong Park, Minsik Lee, Hyung Jin Chang, Kyuewang Lee, Jin Young Choi;
摘要:我們提出了一種對稱圖卷積自編碼器,它能從圖中產生低維的潛在表示。與現有的具有非對稱解碼部分的圖自編碼器相比,本文提出的圖自動編碼器有一個新的解碼器,它構建了一個完全對稱的圖自編碼器形式。針對節點特征的重構,設計了一種基于拉普拉斯銳化的解碼器,作為編碼器拉普拉斯平滑的對應,使圖結構在所提出的自編碼體系結構的整個過程中得到充分利用。為了避免拉普拉斯銳化引入網絡的數值不穩定性,我們進一步提出了一種新的結合符號圖的拉普拉斯銳化的數值穩定形式。此外,為了提高圖像聚類任務的性能,設計了一種新的成本函數,該函數能同時發現一個潛在的表示形式和一個潛在的affinity矩陣。在聚類、鏈路預測和可視化任務上的實驗結果表明,我們所提出的模型是穩定的,并且性能優于各種最先進的算法。
網址:< >
8、Learning Combinatorial Embedding Networks for Deep Graph Matching
作者:Runzhong Wang, Junchi Yan, Xiaokang Yang;
摘要:圖匹配是指尋找圖之間的節點對應關系,使對應的節點與邊的親和性(affinity)最大化。此外,由于NP完備性的性質之外,另一個重要的挑戰是對圖之間的節點和結構親和性及其結果目標進行有效建模,以指導匹配過程有效地找到針對噪聲的真實匹配。為此,本文設計了一個端到端可微的深度網絡pipeline來學習圖匹配的親和性。它涉及與節點對應有關的有監督置換損失,以捕捉圖匹配的組合性質。同時采用深度圖嵌入模型來參數化圖內和圖間親和性函數,而不是傳統的如高斯核等淺層、簡單的參數化形式。嵌入也能有效地捕獲二階邊緣以外的高階結構。置換損失模型與節點數量無關,嵌入模型在節點之間共享,這樣網絡就允許在圖中使用不同數量的節點進行訓練和推理。此外,我們的網絡是類不可知的,具有跨不同類別的泛化能力。所有這些特性在實際應用中都受到歡迎。實驗表明,該方法優于目前最先進的圖匹配學習方法。
網址:< >
1、DeepGCNs:Can GCNs Go as Deep as CNNs
作者:Guohao Li , Matthias Müller , Ali Thabet Bernard Ghanem;
摘要:卷積神經網絡(CNNs)在廣泛的領域中取得了令人印象深刻的性能。他們的成功得益于一個巨大的推動,當非常深入的CNN模型能夠可靠的訓練。盡管CNNs有其優點,但它不能很好地解決非歐幾里德數據的問題。為了克服這一挑戰,圖形卷積網絡(GCNS)構建圖形來表示非歐幾里德數據,借用CNNs的概念,并將它們應用于訓練。GCNs顯示出有希望的結果,但由于消失梯度問題,它們通常僅限于非常淺的模型(見圖1)。因此,最先進的GCN模型不超過3層或4層。在這項工作中,我們提出了新的方法來成功地訓練非常深的GCNs。我們通過借鑒CNNs的概念來做到這一點,特別是剩余/密集連接和擴展卷積,并將它們應用到GCN架構中。大量的實驗證明了這些深度GCN框架的積極作用。最后,我們使用這些新的概念來構建一個非常深的56層GCN,并展示了它如何在點云語義分割任務中顯著提升性能(+ 3.7% Miou-Unice狀態)。我們相信公眾可以從這項工作中受益,因為它為推進基于GCN的研究提供了許多機會。
網站: //www.zhuanzhi.ai/paper/c1e02bdee9efe20fd0a53d23883901c3
2、Dynamic Graph Attention for Referring Expression Comprehension
作者:Sibei Yang, Guanbin Li, Yizhou Yu;
摘要:引用表達式理解的目的是在圖像中定位由自然語言描述的對象實例。這項任務是合成的,本質上需要在圖像中對象之間關系的基礎上進行視覺推理。同時,視覺推理過程是由指稱表達式的語言結構來指導的。然而,現有的方法孤立地對待對象,或者只探索對象之間的一階關系,而不與表達式的潛在復雜性對齊。因此,他們很難適應復雜的參考表達的基礎。本文從語言驅動的視覺推理的角度,探討了表達理解的問題,并提出了一種動態圖形注意力網絡,通過對圖像中的對象之間的關系和表達的語言結構進行建模來進行多步推理。特別地,我們構造了具有對應于對象和它們的關系的節點和邊緣的圖像,提出了一種差分分析器來預測語言制導的視覺推理過程,并在圖的頂部執行逐步推理,以更新每個節點上的復合對象表示。實驗結果表明,所提出的方法在三個共同的基準數據集不僅可以顯著超越所有現有的最先進的算法,而且還能產生可解釋的視覺證據,以逐步定位復雜的語言描述的對象。
網址:
3、Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning
作者:Lifeng Fan, Wenguan Wang, Siyuan Huang, Xinyu Tang, Song-Chun Zhu;
摘要:本文從原子層次和事件層次兩個方面探討了社會視頻中人的注釋交流這一新問題,對研究人類的社會互動具有重要意義。為了解決這一新穎而具有挑戰性的問題,我們貢獻了一個大規模的視頻數據集,VACATION,涵蓋不同的日常社會場景和注釋交流行為,并在原子級和事件級對物體和人臉、人類注意力、交流結構和標簽進行了完整的注釋。結合VACATION,我們提出了一個時空圖神經網絡,明確地表示社會場景中不同的注釋交互,并通過消息傳遞來推斷原子級的注視交流。在此基礎上,進一步提出了一種基于編碼-解碼器結構的事件網絡來預測事件級注視通信。我們的實驗表明,該模型在預測原子級和事件級注釋通信時顯著地改進了各種基線。
網址:
4、SceneGraphNet Neural Message Passing for 3D Indoor Scene Augmentation
作者:Yang Zhou, Zachary While, Evangelos Kalogerakis;
摘要:在本文中,我們提出了一種神經消息傳遞方法,以增加輸入三維室內場景中與周圍環境匹配的新對象。給定一個輸入,可能是不完整的,三維場景和一個查詢位置(圖1),我們的方法預測在該位置上適合的對象類型上的概率分布。我們的分布是通過在稠密圖中傳遞學習信息來預測的,其節點表示輸入場景中的對象,并且邊緣表示空間和結構關系。通過一個注意力機制對消息進行加權,我們的方法學會將注意力集中在最相關的周圍場景上下文,從而預測新的場景對象。基于我們在SUNCG數據集中的實驗,我們發現我們的方法在正確預測場景中丟失的對象方面明顯優于最先進的方法。我們還演示了我們的方法的其他應用,包括基于上下文的3D對象識別和迭代場景生成。
網址:
5、Language-Conditioned Graph Networks for Relational Reasoning
作者:Ronghang Hu, Anna Rohrbach, Trevor Darrell, Kate Saenko ;
摘要:解決基于語言任務通常需要對給定任務上下文中對象之間的關系進行推理。例如,要回答盤子上的杯子是什么顏色??我們必須檢查特定杯子的顏色,以滿足盤子上的關系。最近的工作提出了各種復雜關系推理的方法。然而,它們的能力大多在推理結構上,而場景則用簡單的局部外觀特征來表示。在本文中,我們采取另一種方法,建立一個視覺場景中的對象的上下文化表示,以支持關系推理。我們提出了一個通用的語言條件圖網絡(LCGN)框架,其中每個節點代表一個對象,并通過文本輸入的迭代消息傳遞來描述相關對象的感知表示。例如,調節與plate的on關系,對象mug收集來自對象plate的消息,以將其表示更新為mug on the plate,這可以很容易地被簡單分類器用于答案預測。我們的實驗表明,我們的LCGN方法有效地支持關系推理,并在多個任務和數據集上提高了性能。我們的代碼可以在
網址: