自監督視頻哈希(SSVH)模型學習為視頻生成短二進制表示,無需地真監督,提高了大規模視頻檢索的效率,引起了越來越多的研究關注。SSVH的成功之處在于對視頻內容的理解以及捕獲未標記視頻之間語義關系的能力。通常,最先進的SSVH方法在兩階段訓練管道中考慮這兩點,首先通過實例掩碼訓練輔助網絡并預測任務,其次訓練哈希模型以保留從輔助網絡轉移的偽鄰域結構。這種連續的訓練策略是不靈活的,也是不必要的。本文提出了一種簡單有效的單階段SSVH方法——ConMH,該方法將視頻語義信息和視頻相似關系的理解融合在一個單階段中。為了獲取視頻語義信息,我們采用編碼器-解碼器結構從時間掩碼幀重構視頻。特別是,我們發現較高的掩蔽比有助于視頻理解。此外,我們充分利用了視頻之間的相似關系,最大化了視頻的兩個增強視圖之間的一致性,從而獲得了更具鑒別性和魯棒性的哈希碼。在三個大型視頻數據集(FCVID, ActivityNet和YFCC)上的大量實驗表明,ConMH達到了最先進的結果。 網址://github.com/ huangmozhi9527/ConMH。
零樣本學習(zero-shot learning, ZSL)的關鍵挑戰是如何推斷已見類的視覺特征和屬性特征之間的潛在語義知識,從而實現對未見類的知識遷移。以往的研究要么簡單地將圖像的整體特征與其關聯的類語義向量對齊,要么利用單向注意學習有限的潛在語義表示,無法有效地發現視覺特征與屬性特征之間的內在語義知識(如屬性語義)。**為了解決上述困境,我們提出了一種相互語義蒸餾網絡(MSDN),該網絡逐步提取ZSL的視覺特征和屬性特征之間的內在語義表示。**MSDN包含學習基于屬性的視覺特征的屬性→視覺注意子網和學習基于可視化的屬性特征的屬性→屬性注意子網。通過進一步引入語義蒸餾損失,兩個相互關注的子網絡能夠在整個訓練過程中進行協作學習和相互教學。提議的MSDN在強大的基線上產生了顯著的改進,導致在三個流行的具有挑戰性的基準(即CUB、SUN和AWA2)上產生了新的最先進的性能。我們的代碼已在:\url{//github.com/shiming-chen/MSDN}。
時空表示學習是視頻自監督表示的關鍵。目前的學習方法主要是對比學習和前置任務。然而,這些方法都是通過潛在空間中的特征相似度來判別采樣實例來學習表征,而忽略了學習表征的中間狀態,從而限制了整體性能。在這項工作中,考慮采樣實例的相似程度作為中間狀態,我們提出了一個新的前置任務-時空重疊率(spatial - temporal overlap rate, STOR)預測。它源于人類能夠分辨視頻在空間和時間上的重疊率。這個任務鼓勵模型區分兩個生成樣本的STOR來學習表示。此外,我們采用結合前置任務和對比學習的聯合優化方法來進一步增強時空表示學習。我們還研究了所提出方案中各組成部分的相互影響。大量實驗表明,本文提出的語料存儲任務對對比學習和托詞學習都有較好的效果。聯合優化方案可以顯著提高視頻理解的時空表征。代碼可以在//github.com/Katou2/CSTP上找到。
異構圖神經網絡(HGNN)作為一種新興的技術,在處理異構信息網絡(HIN)方面表現出優越的能力。然而,大多數HGNN遵循半監督學習方式,這明顯限制了它們在現實中的廣泛使用,因為標簽在實際應用中通常很少。近年來,對比學習,一種自監督的學習方法,成為最令人興奮的學習模式之一,在沒有標簽的情況下顯示出巨大的潛力。在本文中,我們研究了自監督HGNN的問題,并提出了一種新的HGNN的共同對比學習機制,名為HeCo。不同于傳統的對比學習只關注于對正樣本和負樣本的對比,HeCo采用了跨視角對比機制。具體來說,我們提出了HIN的兩種視圖(網絡模式視圖和元路徑視圖)來學習節點嵌入,從而同時捕獲局部和高階結構。在此基礎上,提出了一種跨視圖對比學習方法,并提出了一種視圖掩碼機制,能夠從兩個視圖中提取正面和負面的嵌入信息。這使得兩個視圖能夠相互協作監督,并最終學習高級節點嵌入。此外,設計了兩個擴展的HeCo,以產生高質量的硬負樣本,進一步提高了HeCo的性能。在各種真實網絡上進行的大量實驗表明,所提出的方法的性能優于最新的技術。
在自然語言處理和知識圖構造的信息提取中,三次提取是必不可少的任務。在本文中,我們將重新審視用于序列生成的端到端三重提取任務。由于生成三元組提取可能難以捕獲長期依賴關系并生成不忠實的三元組,因此我們引入了一種新穎的模型,即使用生成Transformer的對比三元組提取。具體來說,我們介紹了一個共享的Transformer模塊,用于基于編碼器-解碼器的生成。為了產生忠實的結果,我們提出了一種新穎的三重態對比訓練對象。此外,我們引入了兩種機制來進一步提高模型性能(即,批量動態注意遮罩和三級校準)。在三個數據集(即NYT,WebNLG和MIE)上的實驗結果表明,我們的方法比基線具有更好的性能。
//www.zhuanzhi.ai/paper/b8ed53721b7162af43614d558adb9c58
論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。
//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355