在本文中,我們研究了在自然環境下使用無標記視頻進行視覺對應的自監督學習。我們的方法同時考慮視頻內和視頻間的表示關聯,以獲得可靠的對應估計。視頻內學習通過幀對相似性在單個視頻中跨幀轉換圖像內容。為了獲得實例級分離的判別表示,我們在視頻內部分析的基礎上,構造了視頻間的相似關系,以方便不同視頻之間的對比變換。通過強制視頻內級和視頻間級之間的轉換一致性,可以很好地保留細粒度的對應關聯,有效地加強實例級特征識別。在視頻目標跟蹤(VOT)、視頻目標分割(VOS)、姿態關鍵點跟蹤等一系列視覺任務上,我們的簡單框架的性能優于最近的自監督對應方法。值得一提的是,我們的方法也超過了完全監督的相似表示(如ResNet),并與最近為特定任務(如VOT和VOS)設計的完全監督算法相媲美。
我們研究了無監督的視頻表示學習,該學習旨在僅從未標記的視頻中學習運動和外觀特征,可以將其重用于下游任務,例如動作識別。然而,由于以下原因,這項任務極具挑戰性:1)視頻中的高度時空信息;2)缺少用于訓練的標記數據。與靜態圖像的表示學習不同,難以構造合適的自我監督任務來很好地對運動和外觀特征進行建模。最近,已經進行了幾種嘗試以通過視頻回放速度預測來學習視頻表示。但是,為視頻獲取精確的速度標簽并非易事。更關鍵的是,學習的模型可能傾向于集中于運動模式,因此可能無法很好地學習外觀特征。在本文中,我們觀察到相對回放速度與運動模式更加一致,從而為表示學習提供了更加有效和穩定的監督。因此,我們提出了一種感知播放速度并利用兩個視頻片段之間的相對速度作為標簽的新方法。這樣,我們就能很好地感知速度并學習更好的運動功能。此外,為了確保學習外觀特征,我們進一步提出了以外觀為中心的任務,其中我們強制執行模型以感知兩個視頻剪輯之間的外觀差異。我們表明,優化兩個任務可以共同持續改善兩個下游任務(即動作識別和視頻檢索)的性能。值得注意的是,對于UCF101數據集上的動作識別,在不使用標記數據進行預訓練的情況下,我們達到了93.7%的準確性,這優于ImageNet監督的預訓練模型。
基于深度學習的半監督學習(SSL)算法在醫學圖像分割方面取得了很有前途的結果,并可以通過利用未標記的數據減輕醫生昂貴的標注。然而,現有文獻中的大多數SSL算法都傾向于通過干擾網絡和/或數據來規約模型訓練。考慮到多/雙任務學習涉及到具有固有的預測擾動的各個級別的信息,我們在這項工作中提出了一個問題:我們能夠顯式地構建任務級別的正則化,而不是隱式地構建用于SSL的網絡和/或數據級別的擾動和轉換嗎?為了回答這個問題,我們首次提出了一個新的雙任務一致性半監督框架。具體地說,我們使用一個雙任務深度網絡來聯合預測一個像素級分割圖和一個幾何感知的目標集表示。通過可微任務轉換層將水平集表示轉換為近似分割映射。同時,我們在水平集導出的分割圖和直接預測的分割圖之間引入了一種雙任務一致性正則化,用于標記和未標記數據。在兩個公共數據集上的大量實驗表明,我們的方法可以通過合并未標記數據極大地提高性能。同時,我們的框架優于最先進的半監督醫學圖像分割方法。代碼可以在//github.com/Luoxd1996/DTC找到。
圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:
在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。
在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。
總體來說,本文的貢獻如下:
有的有監督解耦方法,比如把中間表征解耦成種類相關的表征和種類無關的表征,大多基于交換生成的經驗性框架,缺乏理論指導,無法保證種類相關表征中不包含種類無關的信息。本工作嘗試建立信息瓶頸(Information Bottleneck, IB)和有監督解耦之間的聯系,為有監督解耦提供理論指導。信息瓶頸是一種從源數據中提取出與任務目標有關信息的方法,一般通過優化權衡壓縮項和預測項的IB Lagrangian來實現。現有文獻已經指出IB Lagrangian存在的一些問題,比如期望的壓縮水平與控制權衡的Lagrangian乘子之間沒有因果關聯,因此對于IB Lagrangian來說需要多次嘗試優化來實現期望目標;其次,我們具體分析了IB Lagrangian中存在的權衡問題,表明了隨著壓縮程度增大,預測性能是嚴格減小的。為了克服這些問題,我們一方面期望在不損傷預測性能前提下能夠實現最大化壓縮,簡稱為“最大化壓縮”;另一方面期望無需多次嘗試優化,即模型能夠一致地實現最大化壓縮。為此,我們首先考察了最大化壓縮實現時對應的量化條件,之后對優化目標給出了最大化壓縮一致性的性質定義,即只要優化目標滿足該性質就能夠一致地實現最大化壓縮。在此基礎上,我們給出我們的方案設計。與現有的IB Lagrangian不同,我們從有監督解耦的角度來實現信息壓縮,這是因為我們認為信息壓縮與有監督解耦本質上是同一回事:在有監督解耦任務中,需要將源數據中與給定標簽有關的信息和其它信息分開,如給定圖像的類別標簽,將圖像信息解耦為類別有關的和類別無關的信息;而類似地,在信息壓縮任務中,要將源數據中與給定標簽無關的信息丟棄從而實現壓縮,同樣需要區分出與給定標簽有關的信息和與給定標簽無關的信息。基于此,我們將有監督解耦與信息壓縮相聯系,提出了基于解耦的信息瓶頸算法。我們給出了一些結論,同時在多個數據集上驗證了這些結論,并驗證了所提方法在包括信息壓縮等多個評估指標上的性能。
論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。
//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355
旨在對不同時間跨度的視頻幀之間的時間關系和相關性進行建模,表現SOTA!性能優于50Salads、MSTCN++等網絡,代碼即將開源!
視頻中的時間關系建模對于人類動作理解(例如行為識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出了令人鼓舞的優勢,但在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。主要原因是大量節點(即視頻幀)使GCN難以捕獲和建模視頻中的時間關系。為了解決這個問題,在本文中,我們引入了一個有效的GCN模塊,即膨脹時間圖推理模塊(DTGRM),該模塊旨在對不同時間跨度的視頻幀之間的時間關系和相關性進行建模。特別是,我們通過構造多級擴張的時間圖來捕獲和建模時間關系,其中節點表示視頻中不同時刻的幀。此外,為了增強所提出模型的時間推理能力,提出了一種輔助的我監督任務,以鼓勵膨脹的時間圖推理模塊找到并糾正視頻中錯誤的時間關系。在三個具有挑戰性的數據集上,我們的DTGRM模型優于最新的動作分割模型:50Salads,在GTEA和Breakfast數據集上。
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa
在場景圖分類的一個主要挑戰是,物體的外觀和關系可以明顯不同于另一幅圖像。以前的工作通過對圖像中所有物體的關系推理,或將先驗知識納入分類來解決這個問題。與之前的工作不同,我們不考慮感知和先驗知識的分離模型。相反,我們采用多任務學習方法,其中分類被實現為一個注意力層。這允許先驗知識在感知模型中出現和傳播。通過使模型也代表先驗,我們實現了歸納偏差。我們表明,我們的模型可以準確地生成常識性知識,并且將這些知識迭代注入到場景表示中可以顯著提高分類性能。此外,我們的模型可以根據作為三元組的外部知識進行微調。當與自監督學習相結合時,這將獲得僅對1%的帶注釋的圖像進行準確的預測。
情感自動識別是一個活躍的研究課題,具有廣泛的應用前景。由于人工標注成本高和標簽不可避免的模糊性,情感識別數據集的發展在規模和質量上都受到了限制。因此,如何在有限的數據資源下建立有效的模型是關鍵挑戰之一。之前的研究已經探索了不同的方法來應對這一挑戰,包括數據增強、遷移學習和半監督學習等。然而,這些現有方法的缺點包括:訓練不穩定、遷移過程中的性能損失大、或改進幅度小。
在本研究中,我們提出了一種基于跨模態分布匹配的半監督多模態情感識別模型,該模型在假設跨模態內部情緒狀態在話語層面一致的前提下,利用大量的未標記數據來增強模型訓練。
我們在兩個基準數據集IEMOCAP和MELD上進行了廣泛的實驗來評估所提出的模型。實驗結果表明,該半監督學習模型能夠有效地利用未標記數據,并結合多種模態來提高情緒識別性能,在相同條件下優于其他先進的方法。與現有方法相比,該模型還利用了說話者和交互上下文等附加的輔助信息,從而達到了競爭能力。