亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文提出了從視頻無監督的時空表示學習的大規模研究。借助對四個基于圖像的最新框架的統一觀點,我們研究了一個簡單的目標,可以輕松地將所有這些方法推廣到時空。我們的目標是鼓勵在同一視頻中使用時間上持久的特征,盡管它簡單易用,但在以下情況下卻表現出色:(i)不同的無監督框架,(ii)預訓練數據集,(iii)下游數據集,以及(iv) 骨干架構。我們從這項研究中得出了一系列有趣的觀察結果,例如,我們發現,即使跨度為60秒,鼓勵長時間跨度的持久性也是有效的。除了在多個基準測試中得到的最新結果之外,我們還報告了一些有希望的案例,其中無監督的預訓練可以勝過其有監督的預訓練。

//www.zhuanzhi.ai/paper/c814846601d2bda3489e56a681716b05

付費5元查看完整內容

相關內容

預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。

基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。

//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4

該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。

兩種用于表征學習的對比學習范式的概念描述圖。

現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。

具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。

付費5元查看完整內容

本文將多源概念引入UDA行人Re-ID任務中,并提出RDSBN歸一化新模塊,并提出基于GCN的多源信息融合模塊,表現SOTA!性能優于MMT、DG-Net++網絡。

用于行為重識別(re-ID)的無監督域自適應(UDA)方法旨在將re-ID知識從已標記的源數據傳輸到未標記的目標數據。盡管取得了巨大的成功,但大多數人僅使用來自單一來源域的有限數據進行模型預訓練,從而使得無法充分利用豐富的標記數據。為了充分利用有價值的標記數據,我們將多源概念引入到UDA行人re-ID中,其中在訓練過程中使用了多個源數據集。但是,由于域的空白,僅組合不同的數據集只會帶來有限的改進。在本文中,我們嘗試從兩個角度(即特定于域的視圖和域融合視圖)解決此問題。提出了兩個建設性的模塊,它們彼此兼容。首先,探索一種整流領域特定的批處理歸一化(RDSBN)模塊,以同時減少領域特定的特征并增加人員特征的獨特性。其次,開發了基于圖卷積網絡(GCN)的多域信息融合(MDIF)模塊,該模塊通過融合不同域的特征來最小化域距離。所提出的方法在很大程度上優于最新的UDA人員re-ID方法,甚至在沒有任何后處理技術的情況下,甚至可以達到與監督方法相當的性能。

//www.zhuanzhi.ai/paper/d36ea50a4c9b40a4919e7d52b9550dbe

付費5元查看完整內容

內容簡介:考慮到不同類別的表情之間存在著相似性,本文認為人臉表情信息由不同表情之間的共享信息與每個表情的特定信息組成,提出了一種基于特征解構與重構學習的人臉表情識別方法。具體地,首先使用特征分解網絡將基本特征分解為一系列能夠感知面部動作的潛在特征,這些潛在特征有效地建模了表情中的共享信息。然后,特征重構網絡分別對這一系列潛在特征向量進行特征內部和特征之間的相關性建模,從而學習表情的特有信息。實驗結果表明該方法在三個室內數據集(包括 CK+、 MMI 和 OuluCASIA)和兩個室外數據集(包括 RAFDB 和 SFEW)上都有優越的性能表現。

//www.zhuanzhi.ai/paper/c832f458c42e7a60a06a20693dafb9d9

付費5元查看完整內容

本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。

//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39

付費5元查看完整內容

自監督學習通過從數據本身來獲取監督信號,在視頻表征學習領域展現出了巨大潛力。由于一些主流的方法容易受到背景信息的欺騙和影響,為了減輕模型對背景信息的依賴,我們提出通過添加背景來去除背景影響。具體而言,給定一個視頻,我們從中隨機選擇一個靜態幀,并將其添加到其它的每一幀中,以構建一個分散注意力的視頻樣本,然后要求模型拉近 分散注意力的視頻樣本與原始視頻樣本之間的特征距離,如此使得模型能夠更好地抵抗背景的影響,而更多地關注運動變化。我們的方法命名為背景消除(Background Erasing,BE)。值得注意的是,我們的方法可以便捷地添加到大多數SOTA方法中。BE在MoCo的基礎上,對具有嚴重背景偏見的數據集UCF101和HMDB51,分別帶來了16.4%和19.1%的提升,而對具有較小背景偏見的數據集Diving48數據集帶來了14.5%的提升。

//www.zhuanzhi.ai/paper/14820cc4d73f0a98bb76c67c3cea6c3c

付費5元查看完整內容

論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。

//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355

付費5元查看完整內容

我們提出了VILLA,這是已知的第一個針對視覺和語言(V+L)表征學習的大規模對抗訓練。VILLA由兩個訓練階段組成: (一)任務不可知的對抗性預訓練; 其次(二)針對具體任務進行對抗性微調。為了避免在圖像像素和文本標記上增加對抗性擾動,我們建議在每個模態的嵌入空間中進行對抗性訓練。為了實現大規模訓練,我們采用了“free”對抗式訓練策略,并與基于KL發散的正則化相結合,提高了嵌入空間的高不變性。我們將VILLA應用到目前表現最好的V+L模型中,并在廣泛的任務中達到了新的水平,包括視覺問題回答、視覺常識推理、圖像-文本檢索、參考表達理解、視覺隱含和NLVR2。

//www.zhuanzhi.ai/paper/9ac766aec437a266e108f8dd71d3ab25

付費5元查看完整內容

在觀看視頻時,視覺事件的發生往往伴隨著聲音事件,如唇動的聲音,樂器演奏的音樂。視聽事件之間存在著一種潛在的相關性,通過解決視聽同步的代理任務,可以將其作為自監督信息來訓練神經網絡。在本文中,我們提出了一種新的帶有共同注意力機制的自監督框架來學習無標記視頻中的通用跨模態表示,并進一步使下游任務受益。具體而言,我們探討了三個不同的共注意模塊,以關注與聲音相關的區分視覺區域,并介紹它們之間的相互作用。實驗表明,與現有方法相比,我們的模型在參數較少的情況下,取得了較好的效果。為了進一步評估我們方法的可推廣性和可遷移性,我們將預訓練的模型應用于兩個下游任務,即聲源定位和動作識別。大量的實驗表明,我們的模型可以提供與其他自監督方法競爭的結果,也表明我們的方法可以處理具有挑戰性的場景包含多個聲源。

//arxiv.org/abs/2008.05789

付費5元查看完整內容

本文表明,在大規模的多語言預訓練模型,可以顯著地提高跨語言遷移任務的性能。我們使用超過2TB的過濾CommonCrawl數據,在100種語言上訓練一個基于Transformer的掩碼語言模型。我們的模型被稱為XLM-R,在多種跨語言基準測試中顯著優于多語言BERT (mBERT),包括XNLI的平均正確率+13.8%,MLQA的平均F1分數+12.3%,NER的平均F1分數+2.1%。XLM- r在低資源語言上表現特別好,與以前的XLM模型相比,XNLI在斯瓦希里語上的準確率提高了11.8%,在烏爾都語上的準確率提高了9.2%。我們還對實現這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極遷移和能力稀釋之間的權衡,以及(2)大規模高資源語言和低資源語言的性能。最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性;XLM-Ris在GLUE和XNLI基準上有很強的單語言模型,非常有競爭力。我們將使XLM-R代碼、數據和模型公開可用。

付費5元查看完整內容
北京阿比特科技有限公司