亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視頻實例分割是一項復雜的任務,我們需要檢測、分割和跟蹤任何給定視頻的每個對象。以往的方法只利用單幀特征來檢測、分割和跟蹤目標,而目標在視頻場景中會因為運動模糊和劇烈的外觀變化等問題而受到影響。為了消除僅使用單幀特征所帶來的模糊性,我們提出了一種新的綜合特征聚合方法(CompFeat),利用時間和空間上下文信息在幀級和對象級對特征進行細化。聚合過程是精心設計的一個新的注意機制,這大大增加了識別能力的學習特征。通過結合特征相似性和空間相似性的暹羅設計,進一步提高了模型的跟蹤能力。在YouTube-VIS數據集上進行的實驗驗證了提出的CompFeat的有效性。我們的代碼將在//github.com/shi-labs/compfeat-forvideo - instance - segmentation提供。

付費5元查看完整內容

相關內容

論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。

//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355

付費5元查看完整內容

【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基于視頻理解(Video Understanding)相關的接受paper很多,視頻理解,比如視頻分割、視頻分類以及視頻描述生成等等一些列前沿的方法和應用受到了很多人的關注。

為此,這期小編為大家奉上AAAI 2021必讀的六篇視頻理解相關論文——視頻實例分割、無監督視頻目標分割、粗到細視頻描述生成、時空圖神經網絡視頻目標分割、視頻情感分析

AAAI 2021 Accepted Papers : //aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI

1. CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentatio

作者:Yang Fu, Linjie Yang, Ding Liu, Thomas S. Huang, Humphrey Shi

摘要:視頻實例分割是一項復雜的任務,我們需要針對任何給定視頻對每個目標進行檢測,分割和跟蹤。先前的方法僅將單幀特征用于目標的檢測,分割和跟蹤,并且當遇到諸如運動模糊和劇烈的外觀變化之類情形,它們在視頻場景中會遭受損失。為了消除僅通過使用單幀特征引入的歧義,我們提出了一種新穎的綜合特征聚合方法(comprehensive feature aggregation, CompFeat),以利用時間和空間上下文信息在幀級和目標級完善特征。我們使用新的注意力機制精心設計了聚合過程,該機制會顯著提高學習特征的判別力。通過合并特征相似性和空間相似性,我們通過siamese設計進一步提高了模型的跟蹤能力。在YouTubeVIS數據集上進行的實驗驗證了我們提出的CompFeat的有效性。

圖片 代碼:

.

網址:

2. F2Net: Learning to Focus on the Foreground for Unsupervised Video Object Segmentation

作者:Daizong Liu, Dongdong Yu, Changhu Wang, Pan Zhou

摘要:盡管基于深度學習的方法在無監督的視頻目標分割中取得了很大的進步,但是仍然不能很好地處理困難的場景(例如,視覺相似性,遮擋和外觀變化)。為了緩解這些問題,我們提出了一種新穎的Focus on Foreground Network(F2Net),該框架深入研究了前景目標的幀間細節,從而有效地提高了分割性能。具體來說,我們提出的網絡由三個主要部分組成:siamese編碼器模塊,中心指導外觀擴散( Center Guiding Appearance Diffusion)模塊和動態信息融合模塊。首先,我們使用siamese編碼器提取成對幀(參考幀和當前幀)的特征表示。然后,設計了中心指導外觀擴散方式,以捕獲幀間特征(參考幀與當前幀之間的密集對應關系),幀內特征(當前幀中的密集對應關系)以及當前幀的原始語義特征。具體來說,我們建立了一個中心預測分支來預測當前目標在當前幀中的中心位置,并在增強幀間和幀內特征提取之前利用中心點信息作為空間指導,因此特征表示相當集中在前景目標上。最后,我們提出了一種動態信息融合模塊,可以通過上述三個不同級別的特征自動選擇相對重要的特征。在DAVIS2016,Youtube-object和FBMS數據集上進行的大量實驗表明,我們提出的F2Net可以實現最先進的性能,并且具有顯著的改進。

圖片 網址:

3. Non-Autoregressive Coarse-to-Fine Video Captioning

作者:Bang Yang, Yuexian Zou, Fenglin Liu, Can Zhang

摘要:目前在橋接視頻(bridge videos)和自然語言方面取得了很不錯的進展。然而,由于自動回歸解碼的順序方式,主流視頻字幕生成方法的推理速度較慢,并且由于對視覺單詞(例如,名詞和動詞)的訓練不足和解碼范式不足,更傾向于生成一般描述。在本文中,我們提出了一種基于非自回歸解碼的模型,該模型具有從粗到精的字幕處理程序,可以緩解這些缺陷。在實現中,我們采用基于雙向自注意力的網絡作為我們的語言模型,以實現推理速度的提高,在此基礎上,我們將視頻描述生成過程分解為兩個階段,其中模型具有不同的聚焦點。具體而言,鑒于視覺單詞決定字幕的語義正確性,我們設計了一種生成視覺單詞的機制,不僅可以促進與場景相關的單詞的訓練,而且可以從視頻中捕獲相關細節以構建粗粒度的句子“模板”。此后,我們設計了專用的解碼算法,該算法用合適的詞填充“模板”,并通過迭代細化修改不適當的措詞以獲得細粒度的描述。在兩個主流視頻字幕基準(即MSVD和MSR-VTT)上進行的大量實驗表明,我們的方法可實現最先進的性能,生成多種描述并獲得較高的推理效率。

圖片 網址:

4. Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation

作者:Daizong Liu, Shuangjie Xu, Xiao-Yang Liu, Zichuan Xu, Wei Wei, Pan Zhou

摘要:本文解決了在半監督環境中分割與類無關的目標的任務。盡管以前的基于檢測的方法實現了相對較好的性能,但是這些方法通過貪婪策略提取了最佳proposal,這可能會丟失所選候選目標之外的局部patch的詳細信息。在本文中,我們提出了一種新穎的時空圖神經網絡(STG-Net),以重建用于視頻目標分割的更準確的掩碼(masks),該掩碼通過利用所有proposal來捕獲局部上下文。在空間圖中,我們將一幀的目標proposal作為節點對待,并使用用于掩碼上下文聚合的邊緣權重策略表示它們的相關性。為了從先前的幀中捕獲時間信息,我們使用記憶網絡通過檢索時間圖中的歷史掩碼來細化當前幀的掩碼。局部補丁細節和時間關系的共同使用使我們能夠更好地解決諸如目標遮擋和丟失之類的挑戰。在沒有在線學習和微調的情況下,我們的STG網絡在四個大型基準(DAVIS,YouTube-VOS,SegTrackv2和YouTube-Objects)上實現了最先進的性能,證明了該方法的有效性。

網址:

5. Quantum Cognitively Motivated Decision Fusion for Video Sentiment Analysis

作者:Dimitris Gkoumas, Qiuchi Li, Shahram Dehdashti, Massimo Melucci, Yijun Yu, Dawei Song

摘要:視頻情感分析作為一個決策過程,其本質是復雜的,涉及多種模態的決策和由此引起的認知偏差的融合。受量子認知(quantum cognition)最新進展的啟發,我們表明一種模態的情感判斷可能與另一種模態的判斷不兼容,即順序很重要,無法共同衡量它們以做出最終決定。因此,認知過程表現出經典概率理論無法捕捉到的“量子式”偏見。因此,我們提出了一種根本上新穎的,量子認知動機的融合策略,用于預測情感判斷。特別地,我們在具有正算子值測度的復值希爾伯特空間上,將話語表述為正負情緒判斷的量子疊加狀態,將單模態分類器表述為互不相容的可觀測量。在兩個基準數據集上進行的實驗表明,我們的模型明顯優于各種現有決策級別和一系列最新的內容級別融合方法。結果還表明,不兼容的概念允許有效處理所有組合模態,包括所有單峰分類器錯誤預測的極端情況。

圖片 網址:

付費5元查看完整內容

Video instance segmentation is a complex task in which we need to detect, segment, and track each object for any given video. Previous approaches only utilize single-frame features for the detection, segmentation, and tracking of objects and they suffer in the video scenario due to several distinct challenges such as motion blur and drastic appearance change. To eliminate ambiguities introduced by only using single-frame features, we propose a novel comprehensive feature aggregation approach (CompFeat) to refine features at both frame-level and object-level with temporal and spatial context information. The aggregation process is carefully designed with a new attention mechanism which significantly increases the discriminative power of the learned features. We further improve the tracking capability of our model through a siamese design by incorporating both feature similarities and spatial similarities. Experiments conducted on the YouTube-VIS dataset validate the effectiveness of proposed CompFeat. Our code will be available at //github.com/SHI-Labs/CompFeat-for-Video-Instance-Segmentation.

在本文中,我們提出了一種端到端的圖學習框架,即迭代深度圖學習(IDGL),用于共同迭代地學習圖結構和圖嵌入。IDGL的關鍵原理是學習基于更好的節點嵌入的更好的圖結構,反之亦然(即基于更好的圖結構的更好的節點嵌入)。我們的迭代方法動態停止時,學習圖接近足夠優化的圖預測任務。此外,我們將圖學習問題轉換為一個相似度量學習問題,并利用自適應圖正則化來控制學習圖的質量。最后,結合基于錨點的近似技術,我們進一步提出了一個可擴展的IDGL版本,即IDGL- anch,在不影響性能的前提下,顯著降低了IDGL的時間和空間復雜度。我們在9個基準上進行的廣泛實驗表明,我們提出的IDGL模型始終能夠優于或匹配最先進的基線。此外,IDGL還能更魯棒地處理對抗圖,并能同時處理傳導學習和歸納學習。

//arxiv.org/abs/2006.13009

付費5元查看完整內容

近年來,自適應推理因其計算效率高而受到越來越多的關注。不同于現有的工作,主要利用架構適應網絡冗余設計,在本文中,我們關注的空間冗余輸入樣本,并提出一種新穎的分辨率自適應網絡(RANet)。我們的動機是,低分辨率表示對于包含規范對象的“簡單”樣本的分類是足夠的,而高分辨率特征對于識別一些“困難”對象是有用的。在RANet中,輸入圖像首先被路由到一個輕量級的子網絡,這個子網絡能夠有效地提取粗糙的特征圖,并且具有高可信度預測的樣本將會很早就從這個子網絡中退出。只有那些先前預測不可靠的“硬”樣本才會激活高分辨率路徑。通過自適應地處理不同分辨率的特征,可以顯著提高RANet的計算效率。在三個分類基準測試任務(CIFAR-10、CIFAR-100和ImageNet)上的實驗證明了該模型在任意時間預測設置和預算批量分類設置中的有效性。

付費5元查看完整內容

近年來,自適應目標檢測的研究取得了令人矚目的成果。盡管對抗性自適應極大地增強了特征表示的可遷移性,但對目標檢測器的特征鑒別能力的研究卻很少。此外,由于目標的復雜組合和域之間的場景布局的差異,在對抗性適應中,可遷移性和可辨別性可能會產生矛盾。本文提出了一種層級可遷移性校準網絡(HTCN),該網絡通過對特征表示的可遷移性進行分級(局部區域/圖像/實例)校準來協調可遷移性和可識別性。該模型由三部分組成:(1)輸入插值加權對抗性訓練(iwati),通過重新加權插值后的圖像級特征,增強了全局識別力;(2)上下文感知實例級對齊(context -aware Instance-Level Alignment, CILA)模塊,該模塊通過捕獲實例級特征與實例級特征對齊的全局上下文信息之間的潛在互補效應,增強了局部識別能力;(3)校準局部可遷移性的局部特征掩碼,為后續判別模式對齊提供語義指導。實驗結果表明,在基準數據集上,HTCN的性能明顯優于最先進的方法。

付費5元查看完整內容

題目: Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification

簡介:

多標簽圖像和視頻分類是計算機視覺中最基本也是最具挑戰性的任務。主要的挑戰在于捕獲標簽之間的空間或時間依賴關系,以及發現每個類的區別特征的位置。為了克服這些挑戰,我們提出將語義圖嵌入的跨模態注意用于多標簽分類。基于所構造的標簽圖,我們提出了一種基于鄰接的相似圖嵌入方法來學習語義標簽嵌入,該方法顯式地利用了標簽之間的關系。在學習標簽嵌入的指導下,生成了新的跨模態注意圖。在兩個多標簽圖像分類數據集(MS-COCO和NUS-WIDE)上的實驗表明,我們的方法優于其他現有的方法。此外,我們在一個大的多標簽視頻分類數據集上驗證了我們的方法,評估結果證明了我們的方法的泛化能力。

付費5元查看完整內容
北京阿比特科技有限公司