亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

對比學習允許我們通過對比消極樣本中的正對來靈活地定義強大的損失函數。最近,該原理也被用于學習視頻和文本的跨模態嵌入,但沒有充分發揮其潛力。特別是之前的損失沒有考慮模態內的相似性,導致嵌入效率低下,因為相同的內容被映射到嵌入空間的多個點上。在CrossCLR中,我們提出了一個對比損失來解決這個問題。此外,我們根據輸入嵌入定義了高度相關的樣本集,并將其從負樣本中排除,以避免假負樣本性問題。我們表明,這些原則持續地提高了學習嵌入的質量。通過CrossCLR學習的聯合嵌入擴展了Youcook2和LSMDC數據集上的視頻文本檢索和Youcook2數據集上的視頻字幕的技術水平。我們還通過學習其他對模式的改進的關節嵌入來證明這個概念的通用性。

//www.zhuanzhi.ai/paper/91484725dec5fe4f3db2e6bb2ca9a448

付費5元查看完整內容

相關內容

通過潛在空間的對比損失最大限度地提高相同數據樣本的不同擴充視圖之間的一致性來學習表示。對比式自監督學習技術是一類很有前途的方法,它通過學習編碼來構建表征,編碼使兩個事物相似或不同

我們提出了一種新的視頻神經表示(NeRV),它在神經網絡中對視頻進行編碼。與傳統的將視頻表示為幀序列不同,我們將視頻表示為以幀索引為輸入的神經網絡。給定幀索引,NeRV輸出相應的RGB圖像。NeRV中的視頻編碼只是簡單地將神經網絡擬合到視頻幀上,解碼過程是一個簡單的前饋操作。作為一種圖像隱式表示,NeRV輸出整幅圖像,比像素隱式表示效率高,編碼速度提高了25倍至70倍,解碼速度提高了38倍至132倍,同時獲得了更好的視頻質量。有了這樣的表示,我們可以將視頻視為神經網絡,從而簡化了幾個與視頻相關的任務。例如,傳統的視頻壓縮方法受到為任務專門設計的長而復雜的流水線的限制。相比之下,使用NeRV,我們可以使用任何神經網絡壓縮方法作為視頻壓縮的代理,并達到與傳統的基于幀的視頻壓縮方法(H.264, HEVC等)相當的性能。除了壓縮外,我們還展示了NeRV在視頻去噪中的推廣作用。源代碼和預先訓練的模型可以在//github.com/haochen-rye/NeRV.git上找到。

付費5元查看完整內容

//www.zhuanzhi.ai/paper/ed630ac577c1df4b28acd624e58a0432

當前主流的視頻文本檢索模型基本上都采用了基于 Transformer[1] 的多模態學習框架,主要可以分成 3 類:

Two-stream,文本和視覺信息分別通過獨立的 Vision Transformer 和 Text Transformer,然后在多模態 Transformer 中融合,代表方法例如 ViLBERT[2]、LXMERT[3] 等。

Single-stream,文本和視覺信息只通過一個多模態 Transformer 進行融合,代表方法例如 VisualBERT[4]、Unicoder-VL[5] 等。

Dual-stream,文本和視覺信息僅僅分別通過獨立的 Vision Transformer 和 Text Transformer,代表方法例如 COOT[6]、T2VLAD[7] 等。

由于類別 1 和類別 2 方法在時間開銷上的限制,本文提出的 HiT( Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval)[8] 模型采用了類別 3 Dual-stream 的 Transformer 框架,以滿足大規模視頻文本檢索的需求。然而現有基于 Transformer 的多模態學習方法會有兩個局限性:

Transformer 不同網絡層的輸出具有不同層次的特性,而現有方法并沒有充分利用這一特性;

端到端模型受到顯存容量的限制,無法在一個 batch 內利用較多的負樣本。

針對上述 2 個局限,本文提出(1)層次跨模態對比匹配(Hierarchical Cross-modal Contrast Matching,HCM),對 Transformer 的底層網絡和高層網絡分別進行對比匹配,解決局限 1 的問題;(2)引入 MoCo[9] 的動量更新機制到跨模態對比匹配中,使跨模態對比匹配的過程中能充分利用更多的負樣本,解決局限 2 的問題。實驗表明 HiT 在多個視頻-文本檢索數據集上取得 SOTA 的效果。

HiT 模型主要有兩個創新點:

提出層次跨模態對比匹配 HCM。Transformer 的底層和高層側重編碼不同層次的信息,以文本輸入和 BERT[10] 模型為例,底層 Transformer 側重于編碼相對簡單的基本語法信息,而高層 Transformer 則側重于編碼相對復雜的高級語義信息。因此使用 HCM 進行多次對比匹配,可以利用 Transformer 這一層次特性,從而得到更好的視頻文本檢索性能;

引入 MoCo 的動量更新機制到跨模態對比匹配中,提出動量跨模態對比 MCC。MCC 為文本信息和視覺信息分別維護了一個容量很大并且表征一致的負樣本隊列,從而克服端到端訓練方法受到顯存容量的限制,只能在一個相對較小的 batch 內尋找負樣本這一缺點,利用更多的負例,從而得到更好的視頻和文本表征。

付費5元查看完整內容

受BERT的成功啟發,人們提出了幾種聯合表示圖像和文本的多模態表示學習方法。這些方法通過從大規模的多模態預訓練中獲取高級語義信息來獲得更好的性能。其中LXMERT和UNITER采用視覺區域特征回歸和標簽分類作為前置任務。然而,在語義標注有限且不一致的眾包數據集上預先訓練的視覺特征往往存在標簽噪聲過大和語義標注稀疏的問題。為了克服這些問題,我們提出了無偏密集對比視覺語言預訓練(unbiased Dense contrast visual - language Pretraining, DCVLP),它用不需要注釋的跨通道區域對比學習代替區域回歸和分類。為了提高對比學習中負樣本的質量,我們提出了兩種數據增強策略(掩模擾動和對抗內/對抗間擾動)。總之,DCVLP允許在獨立于任何對象注釋的自監督設置中跨模態密集區域對比學習。我們將該方法與以往的視覺-語言前訓練框架進行了比較,驗證了密集對比學習在多模態表征學習中的優越性。

//www.zhuanzhi.ai/paper/2bc0417fb02e06ba8f8cb7e1b7da39fc

付費5元查看完整內容

現有的神經視頻壓縮方法大多采用預測編碼框架,該框架首先生成預測幀,然后將其殘差與當前幀進行編碼。然而,在壓縮比方面,預測編碼只是一種次優方案,因為它使用簡單的減法操作來去除幀間的冗余。在本文中,我們提出了一個深度上下文視頻壓縮框架,以實現從預測編碼到條件編碼的范式轉換。特別是,我們試圖回答以下問題:如何定義、使用和學習條件下的深度視頻壓縮框架。為了挖掘條件編碼的潛力,我們提出使用特征域上下文作為條件。這使我們能夠利用高維上下文為編碼器和解碼器攜帶豐富的信息,這有助于重建高頻內容以獲得更高的視頻質量。我們的框架也是可擴展的,條件可以靈活設計。實驗表明,我們的方法可以顯著優于以往的先進的(SOTA)深度視頻壓縮方法。與x265使用非常慢的預設相比,1080P標準測試視頻可以節省26.0%的比特率。

//www.zhuanzhi.ai/paper/dc8a3c4de86f67bd7da9cc282e6c53bb

付費5元查看完整內容

我們提出了第一種用于視頻少樣本動作識別的無監督元學習算法MetaUVFS。MetaUVFS利用超過550K的未標記視頻,通過對比學習,分別捕捉特定于外觀的空間和特定于動作的時空視頻特征,訓練雙流2D和3D CNN架構。MetaUVFS包括一個新穎的動作-外觀對齊的元適應(A3M)模塊,該模塊通過明確的少樣本情景元學習而非無監督的硬挖掘情節,學習關注與外觀特征相關的動作導向視頻功能。我們的動作外觀對齊和明確的少樣本學習者條件下的無監督訓練模擬下游的少樣本任務,使MetaUVFS在少樣本基準測試中顯著優于所有無監督方法。此外,不像以前的監督的少樣本動作識別方法,MetaUVFS既不需要基類標簽,也不需要監督的預訓練骨干。因此,我們只需要對MetaUVFS進行一次訓練,以便在流行的HMDB51、UCF101和Kinetics100少樣本數據集上具有競爭力,有時甚至超過最先進的監督方法。

//www.zhuanzhi.ai/paper/9c5c176e0af7fe0b4b3c87ef99cd157c

付費5元查看完整內容

在本文中,我們提出參數對比學習(PaCo)來處理長尾識別。通過理論分析,我們發現監督對比損失在高頻類別上有偏置的傾向,從而增加了不平衡學習的難度。我們引入一組參數類學習中心,從優化的角度進行再平衡。進一步,我們分析了平衡設置下的PaCo損失。我們的分析表明,當更多的樣本被拉到相應的中心時,PaCo可以自適應地增強同類樣本的推近強度,并有利于較難的示例學習。長尾CIFAR、ImageNet、Places和iNaturalist 2018上的實驗顯示了長尾識別的新技術。在全ImageNet上,使用PaCo損失訓練的模型在各種ResNet骨干上超過了有監督的對比學習。我們的代碼可在//github.com/jiequancui/ Parametric-Contrastive-Learning.

付費5元查看完整內容

MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge

Authors: Mengying Sun, Jing Xing, Huijun Wang, Bin Chen, Jiayu Zhou

近年來,利用圖神經網絡解決藥物相關問題在生物醫學領域得到了迅速發展。然而,就像任何其他深度架構一樣,GNN是數據需求型的。雖然在現實世界中要求標簽通常是昂貴的,但以一種無監督的方式對GNN進行預處理已經被積極地探索。其中,圖對比學習通過最大化成對圖增強之間的互信息,已被證明對各種下游任務是有效的。然而,目前的圖對比學習框架有兩個局限性。首先,增強是為一般圖設計的,因此對于某些領域可能不夠合適或不夠強大。第二,對比方案只學習對局部擾動不變的表示,因此不考慮數據集的全局結構,這也可能對下游任務有用。因此,本文研究生物醫學領域中存在分子圖的圖對比學習。我們提出了一個新的框架MoCL,利用領域知識在局部和全局水平上幫助表示學習。局部層次的領域知識指導擴展過程,這樣在不改變圖語義的情況下引入變體。全局層次的知識對整個數據集圖之間的相似性信息進行編碼,并幫助學習具有更豐富語義的表示。整個模型通過雙對比目標學習。我們評估了在線性和半監督設置下的多種分子數據集上的MoCL,結果表明MoCL達到了最先進的性能。

付費5元查看完整內容

預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。

基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。

//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4

該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。

兩種用于表征學習的對比學習范式的概念描述圖。

現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。

具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。

付費5元查看完整內容

主題: Visual Grounding in Video for Unsupervised Word Translation

摘要:

地球上有成千上萬種活躍的語言,但只有一個單一的視覺世界。根植于這個視覺世界,有可能彌合所有這些語言之間的鴻溝。我們的目標是使用視覺基礎來改進語言之間的非監督詞映射。其核心思想是通過學習母語教學視頻中未配對的嵌入語,在兩種語言之間建立一種共同的視覺表達。考慮到這種共享嵌入,我們證明(i)我們可以在語言之間映射單詞,特別是“可視化”單詞;(ii)共享嵌入為現有的基于文本的無監督單詞翻譯技術提供了良好的初始化,為我們提出的混合可視文本映射算法MUVE奠定了基礎;(iii)我們的方法通過解決基于文本的方法的缺點來獲得更好的性能——它魯棒性更強,處理通用性更低的數據集,并且適用于低資源的語言。我們將這些方法應用于將英語單詞翻譯成法語、韓語和日語——所有這些都不需要任何平行語料庫,而只是通過觀看許多人邊做邊說的視頻。

付費5元查看完整內容
北京阿比特科技有限公司