從原始無標簽時間序列數據中學習語義豐富的表示,對于分類和預測等下游任務至關重要。最近,對比學習在沒有專家注釋的情況下顯示出了很好的表示學習能力。然而,現有的對比方法通常獨立地對待每個實例,從而導致具有相同語義的假負樣本對。為了解決這一問題,本文提出了一種掩碼層次聚類對比學習模型MHCCL,利用多元時間序列的多個潛在分區組成的層次結構所獲得的語義信息。細粒度聚類保持了較高的純度,而粗粒度聚類反映了更高層次的語義,受此啟發,本文提出了一種新的向下屏蔽策略,通過融合來自聚類層次的多粒度信息來過濾假負樣本并補充正樣本。此外,MHCCL設計了一種向上掩蔽策略,在每個劃分處去除聚類的離群點,以完善原型,有助于加快層次聚類過程,提高聚類質量。在7個廣泛使用的多元時間序列數據集上進行了實驗評估。實驗結果表明,MHCCL比目前最先進的無監督時間序列表示學習方法具有優越性。
//www.zhuanzhi.ai/paper/e0c875b4a35564ddf37b97d9d3fab9f7
自監督視頻哈希(SSVH)模型學習為視頻生成短二進制表示,無需地真監督,提高了大規模視頻檢索的效率,引起了越來越多的研究關注。SSVH的成功之處在于對視頻內容的理解以及捕獲未標記視頻之間語義關系的能力。通常,最先進的SSVH方法在兩階段訓練管道中考慮這兩點,首先通過實例掩碼訓練輔助網絡并預測任務,其次訓練哈希模型以保留從輔助網絡轉移的偽鄰域結構。這種連續的訓練策略是不靈活的,也是不必要的。本文提出了一種簡單有效的單階段SSVH方法——ConMH,該方法將視頻語義信息和視頻相似關系的理解融合在一個單階段中。為了獲取視頻語義信息,我們采用編碼器-解碼器結構從時間掩碼幀重構視頻。特別是,我們發現較高的掩蔽比有助于視頻理解。此外,我們充分利用了視頻之間的相似關系,最大化了視頻的兩個增強視圖之間的一致性,從而獲得了更具鑒別性和魯棒性的哈希碼。在三個大型視頻數據集(FCVID, ActivityNet和YFCC)上的大量實驗表明,ConMH達到了最先進的結果。 網址://github.com/ huangmozhi9527/ConMH。
圖神經網絡(GNNs)已經成功地用于許多涉及圖結構數據的問題,實現了最先進的性能。GNN通常采用消息傳遞方案,其中每個節點使用置換不變聚合函數從其鄰居聚合信息。經過嚴格檢查的標準選擇(如平均值或和聚合函數)功能有限,因為它們無法捕獲相鄰函數之間的交互。在這項工作中,我們使用一個信息理論框架來形式化這些交互作用,特別是包括協同信息。在此定義的驅動下,我們引入了圖排序注意力層(GOAT),這是一種新穎的GNN組件,用于捕獲鄰域節點之間的交互。這是通過一種注意力機制來學習局部節點順序,并使用循環神經網絡聚合器處理有序表示來實現的。這種設計允許我們使用一個排列敏感的聚合器,同時保持擬議的GOAT層的排列等效。GOAT模型展示了它在捕獲復雜信息的圖指標(如中間性中心性和節點的有效大小)建模方面提高的性能。在實際用例中,通過在幾個真實的節點分類基準測試中取得的成功,它的卓越建模能力得到了證實。
視覺語言表征學習在很大程度上受益于圖像-文本的對比損失(例如InfoNCE損失)。這種對齊策略的成功是由于它能夠最大化圖像與匹配文本之間的互信息(MI)。然而,簡單地執行跨模態對齊(CMA)忽略了每個模態中的數據潛力,這可能導致表示的退化。例如,盡管基于CMA的模型能夠將圖像-文本對在嵌入空間中緊密地映射在一起,但它們不能確保來自相同模態的相似輸入保持在一起。當訓練前的數據有噪聲時,這個問題會變得更糟。在本文中,我們提出了利用跨模態和內模態自監督的三重對比學習(TCL)來進行視覺語言預訓練。除了CMA之外,TCL還引入了一個模態內對比目標,以在表示學習中提供互補的好處。為了利用來自圖像和文本輸入的局部和結構信息,TCL進一步最大化了圖像/文本局部區域和它們的全局摘要之間的平均MI。據我們所知,我們的工作是第一個考慮到局部結構信息的多模態表示學習。實驗評估表明,我們的方法在各種常見的下游視覺語言任務,如圖像-文本檢索和視覺問題回答上具有競爭力,達到了最新的技術水平。
//www.zhuanzhi.ai/paper/12af4807da28b56ef7ef66423f27cce9
時空表示學習是視頻自監督表示的關鍵。目前的學習方法主要是對比學習和前置任務。然而,這些方法都是通過潛在空間中的特征相似度來判別采樣實例來學習表征,而忽略了學習表征的中間狀態,從而限制了整體性能。在這項工作中,考慮采樣實例的相似程度作為中間狀態,我們提出了一個新的前置任務-時空重疊率(spatial - temporal overlap rate, STOR)預測。它源于人類能夠分辨視頻在空間和時間上的重疊率。這個任務鼓勵模型區分兩個生成樣本的STOR來學習表示。此外,我們采用結合前置任務和對比學習的聯合優化方法來進一步增強時空表示學習。我們還研究了所提出方案中各組成部分的相互影響。大量實驗表明,本文提出的語料存儲任務對對比學習和托詞學習都有較好的效果。聯合優化方案可以顯著提高視頻理解的時空表征。代碼可以在//github.com/Katou2/CSTP上找到。
//www.zhuanzhi.ai/paper/5d9a7923aecd639fe8d54d090cca1513
無監督人再識別(Re-ID)因其解決有監督Re-ID模型可擴展性問題的潛力而受到越來越多的關注。現有的無監督聚類方法大多采用迭代聚類機制,基于無監督聚類生成的偽標簽訓練網絡。然而,聚類錯誤是不可避免的。為了生成高質量的偽標簽并減少聚類錯誤的影響,我們提出了一種新的無監督人Re-ID聚類關系建模框架。具體來說,在聚類之前,利用圖關聯學習(GCL)模塊探索未標記圖像之間的關系,然后利用細化的特征進行聚類,生成高質量的偽標簽。因此,協方差分析自適應地在一個小批量中挖掘樣本之間的關系,以減少訓練時異常聚類的影響。為了更有效地訓練網絡,我們進一步提出了一種帶有選擇性記憶庫更新策略的選擇性對比學習(SCL)方法。大量的實驗表明,我們的方法比市場1501、DukeMTMC-reID和MSMT17數據集上大多數最先進的無監督方法的結果要好得多。我們將發布模型復制的代碼。
//www.zhuanzhi.ai/paper/ed630ac577c1df4b28acd624e58a0432
當前主流的視頻文本檢索模型基本上都采用了基于 Transformer[1] 的多模態學習框架,主要可以分成 3 類:
Two-stream,文本和視覺信息分別通過獨立的 Vision Transformer 和 Text Transformer,然后在多模態 Transformer 中融合,代表方法例如 ViLBERT[2]、LXMERT[3] 等。
Single-stream,文本和視覺信息只通過一個多模態 Transformer 進行融合,代表方法例如 VisualBERT[4]、Unicoder-VL[5] 等。
Dual-stream,文本和視覺信息僅僅分別通過獨立的 Vision Transformer 和 Text Transformer,代表方法例如 COOT[6]、T2VLAD[7] 等。
由于類別 1 和類別 2 方法在時間開銷上的限制,本文提出的 HiT( Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval)[8] 模型采用了類別 3 Dual-stream 的 Transformer 框架,以滿足大規模視頻文本檢索的需求。然而現有基于 Transformer 的多模態學習方法會有兩個局限性:
Transformer 不同網絡層的輸出具有不同層次的特性,而現有方法并沒有充分利用這一特性;
端到端模型受到顯存容量的限制,無法在一個 batch 內利用較多的負樣本。
針對上述 2 個局限,本文提出(1)層次跨模態對比匹配(Hierarchical Cross-modal Contrast Matching,HCM),對 Transformer 的底層網絡和高層網絡分別進行對比匹配,解決局限 1 的問題;(2)引入 MoCo[9] 的動量更新機制到跨模態對比匹配中,使跨模態對比匹配的過程中能充分利用更多的負樣本,解決局限 2 的問題。實驗表明 HiT 在多個視頻-文本檢索數據集上取得 SOTA 的效果。
HiT 模型主要有兩個創新點:
提出層次跨模態對比匹配 HCM。Transformer 的底層和高層側重編碼不同層次的信息,以文本輸入和 BERT[10] 模型為例,底層 Transformer 側重于編碼相對簡單的基本語法信息,而高層 Transformer 則側重于編碼相對復雜的高級語義信息。因此使用 HCM 進行多次對比匹配,可以利用 Transformer 這一層次特性,從而得到更好的視頻文本檢索性能;
引入 MoCo 的動量更新機制到跨模態對比匹配中,提出動量跨模態對比 MCC。MCC 為文本信息和視覺信息分別維護了一個容量很大并且表征一致的負樣本隊列,從而克服端到端訓練方法受到顯存容量的限制,只能在一個相對較小的 batch 內尋找負樣本這一缺點,利用更多的負例,從而得到更好的視頻和文本表征。
對比學習允許我們通過對比消極樣本中的正對來靈活地定義強大的損失函數。最近,該原理也被用于學習視頻和文本的跨模態嵌入,但沒有充分發揮其潛力。特別是之前的損失沒有考慮模態內的相似性,導致嵌入效率低下,因為相同的內容被映射到嵌入空間的多個點上。在CrossCLR中,我們提出了一個對比損失來解決這個問題。此外,我們根據輸入嵌入定義了高度相關的樣本集,并將其從負樣本中排除,以避免假負樣本性問題。我們表明,這些原則持續地提高了學習嵌入的質量。通過CrossCLR學習的聯合嵌入擴展了Youcook2和LSMDC數據集上的視頻文本檢索和Youcook2數據集上的視頻字幕的技術水平。我們還通過學習其他對模式的改進的關節嵌入來證明這個概念的通用性。
MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge
Authors: Mengying Sun, Jing Xing, Huijun Wang, Bin Chen, Jiayu Zhou
近年來,利用圖神經網絡解決藥物相關問題在生物醫學領域得到了迅速發展。然而,就像任何其他深度架構一樣,GNN是數據需求型的。雖然在現實世界中要求標簽通常是昂貴的,但以一種無監督的方式對GNN進行預處理已經被積極地探索。其中,圖對比學習通過最大化成對圖增強之間的互信息,已被證明對各種下游任務是有效的。然而,目前的圖對比學習框架有兩個局限性。首先,增強是為一般圖設計的,因此對于某些領域可能不夠合適或不夠強大。第二,對比方案只學習對局部擾動不變的表示,因此不考慮數據集的全局結構,這也可能對下游任務有用。因此,本文研究生物醫學領域中存在分子圖的圖對比學習。我們提出了一個新的框架MoCL,利用領域知識在局部和全局水平上幫助表示學習。局部層次的領域知識指導擴展過程,這樣在不改變圖語義的情況下引入變體。全局層次的知識對整個數據集圖之間的相似性信息進行編碼,并幫助學習具有更豐富語義的表示。整個模型通過雙對比目標學習。我們評估了在線性和半監督設置下的多種分子數據集上的MoCL,結果表明MoCL達到了最先進的性能。
本文提出一種語義分組網絡通過建立詞組與相關語義視頻幀的映射來減少信息冗余。 本文提出了一個語義分組網絡(SGN)的視頻描述生成網絡,該網絡嘗試(1)使用具有部分已解碼描述的可區分詞組對視頻幀進行分組,然后(2)在預測下一個單詞時使用這些語義對齊的視頻幀組進行解碼。 本文發現連續的幀可能提供了相同的信息,然而現有方法集中于僅基于輸入視頻來丟棄或合并重復信息。語義分組網絡學習了一種算法來捕獲部分已解碼描述中最具區分性的詞組以及將每個詞組與相關視頻幀的映射,通過建立此映射可以將語義上相關的幀聚類,從而減少冗余。與現有方法相反,來自已解碼描述詞的連續反饋使語義分組網絡能夠動態更新適應部分解碼描述的視頻表示。此外,本文提出了一種對比注意損失,以促進單詞短語和視頻幀之間的準確對齊而無需人工注釋。
//www.zhuanzhi.ai/paper/ca2f9fa733ff339f5ca3e10526823d47
基于深度學習的算法模型往往需要大量的標注數據,相對于自然場景圖像來說,醫學圖像更難獲取,且標注數據的成本和難度都更高。自監督學習能夠利用未標注的數據進行模型的預訓練,然后再利用有限的標注數據進行模型的微調(fine-tune)。一種自監督學習的變種模型“對比學習”,是一種高效的技術,能夠學習到圖像級別(image-level)的表征。本文提出的策略通過擴展對比學習框架在數據量較為局限(標注數據少)的醫學標注數據中,利用半監督學習進行三維醫學圖像分割。具體來說:①提出了一種全新的對比學習策略,通過利用三維醫學圖像(特定領域)的結構相似性;②設計了一種局部對比損失以學習獨特的局部特征表達,其在像素級圖像分割(特定問題)中性能提升顯著。作者應用該方法在三個醫學數據集上進行了實驗驗證,實驗設定使用較為有限的標注數據上進行訓練(限定訓練集的大小),與已提出的自監督和半監督學習方法相比,該方法對分割性能有大幅的提升。