亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

如何正確建模視頻序列中的幀間關系是視頻恢復(VR)中一個重要但尚未解決的問題。**在本研究中,我們提出一種無監督流對齊序列對序列模型(S2SVR)來解決這個問題。**一方面,在虛擬現實中首次探索了在自然語言處理領域已被證明具有序列建模能力的序列對序列模型。優化的序列化建模顯示了捕獲幀之間的遠程依賴關系的潛力。另一方面,我們提出序列到序列模型與無監督光流估計器,以最大限度地發揮其潛力。流量估計器使用我們提出的無監督蒸餾損失進行訓練,這可以緩解以前基于流量的方法的數據差異和不準確的退化光流量問題。通過可靠的光流,我們可以在多個幀之間建立精確的對應關系,縮小一維語言幀和二維失調幀之間的域差異,提高序列對序列模型的潛力。S2SVR在多個VR任務中表現優異,包括視頻去模糊、視頻超分辨率、視頻壓縮質量增強等。//github。com/linjing7/VR-Baseline

付費5元查看完整內容

相關內容

國際機器學習大會(International Conference on Machine Learning,簡稱ICML ) 是由國際機器學習學會(IMLS)主辦的機器學習國際頂級會議,也是CCF-A類學術會議。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,錄用率為21.94%。

什么對對比學習很重要?我們認為對比學習在很大程度上依賴于有信息量的特征,或“困難的”(正例或負例)特征。早期的方法通過應用復雜的數據增強和大批量或內存庫來包含更多有信息量的特征,最近的工作設計了精細的采樣方法來探索有信息量的特征。探索這些特征的關鍵挑戰是源多視圖數據是通過應用隨機數據增強生成的,這使得始終在增強數據中添加有用信息是不可行的。因此,從這種增強數據中學習到的特征的信息量是有限的。**在本文中,我們提出直接增強潛在空間中的特征,從而在沒有大量輸入數據的情況下學習判別表示。**我們執行元學習技術來構建增強生成器,通過考慮編碼器的性能來更新其網絡參數。然而,輸入數據不足可能會導致編碼器學習坍塌的特征,從而導致增強生成器出現退化的情況。我們在目標函數中進一步添加了一個新的邊緣注入正則化,以避免編碼器學習退化映射。為了在一個梯度反向傳播步驟中對比所有特征,我們采用了優化驅動的統一對比損失,而不是傳統的對比損失。根據實驗驗證,我們的方法在幾個基準數據集上獲得了最先進的結果。

//www.zhuanzhi.ai/paper/31925f8729fad66bf497d7f85ba17dd6

付費5元查看完整內容

時空表示學習是視頻自監督表示的關鍵。目前的學習方法主要是對比學習和前置任務。然而,這些方法都是通過潛在空間中的特征相似度來判別采樣實例來學習表征,而忽略了學習表征的中間狀態,從而限制了整體性能。在這項工作中,考慮采樣實例的相似程度作為中間狀態,我們提出了一個新的前置任務-時空重疊率(spatial - temporal overlap rate, STOR)預測。它源于人類能夠分辨視頻在空間和時間上的重疊率。這個任務鼓勵模型區分兩個生成樣本的STOR來學習表示。此外,我們采用結合前置任務和對比學習的聯合優化方法來進一步增強時空表示學習。我們還研究了所提出方案中各組成部分的相互影響。大量實驗表明,本文提出的語料存儲任務對對比學習和托詞學習都有較好的效果。聯合優化方案可以顯著提高視頻理解的時空表征。代碼可以在//github.com/Katou2/CSTP上找到。

付費5元查看完整內容

//www.zhuanzhi.ai/paper/5d9a7923aecd639fe8d54d090cca1513

無監督人再識別(Re-ID)因其解決有監督Re-ID模型可擴展性問題的潛力而受到越來越多的關注。現有的無監督聚類方法大多采用迭代聚類機制,基于無監督聚類生成的偽標簽訓練網絡。然而,聚類錯誤是不可避免的。為了生成高質量的偽標簽并減少聚類錯誤的影響,我們提出了一種新的無監督人Re-ID聚類關系建模框架。具體來說,在聚類之前,利用圖關聯學習(GCL)模塊探索未標記圖像之間的關系,然后利用細化的特征進行聚類,生成高質量的偽標簽。因此,協方差分析自適應地在一個小批量中挖掘樣本之間的關系,以減少訓練時異常聚類的影響。為了更有效地訓練網絡,我們進一步提出了一種帶有選擇性記憶庫更新策略的選擇性對比學習(SCL)方法。大量的實驗表明,我們的方法比市場1501、DukeMTMC-reID和MSMT17數據集上大多數最先進的無監督方法的結果要好得多。我們將發布模型復制的代碼。

付費5元查看完整內容

對比學習允許我們通過對比消極樣本中的正對來靈活地定義強大的損失函數。最近,該原理也被用于學習視頻和文本的跨模態嵌入,但沒有充分發揮其潛力。特別是之前的損失沒有考慮模態內的相似性,導致嵌入效率低下,因為相同的內容被映射到嵌入空間的多個點上。在CrossCLR中,我們提出了一個對比損失來解決這個問題。此外,我們根據輸入嵌入定義了高度相關的樣本集,并將其從負樣本中排除,以避免假負樣本性問題。我們表明,這些原則持續地提高了學習嵌入的質量。通過CrossCLR學習的聯合嵌入擴展了Youcook2和LSMDC數據集上的視頻文本檢索和Youcook2數據集上的視頻字幕的技術水平。我們還通過學習其他對模式的改進的關節嵌入來證明這個概念的通用性。

//www.zhuanzhi.ai/paper/91484725dec5fe4f3db2e6bb2ca9a448

付費5元查看完整內容

現有的神經視頻壓縮方法大多采用預測編碼框架,該框架首先生成預測幀,然后將其殘差與當前幀進行編碼。然而,在壓縮比方面,預測編碼只是一種次優方案,因為它使用簡單的減法操作來去除幀間的冗余。在本文中,我們提出了一個深度上下文視頻壓縮框架,以實現從預測編碼到條件編碼的范式轉換。特別是,我們試圖回答以下問題:如何定義、使用和學習條件下的深度視頻壓縮框架。為了挖掘條件編碼的潛力,我們提出使用特征域上下文作為條件。這使我們能夠利用高維上下文為編碼器和解碼器攜帶豐富的信息,這有助于重建高頻內容以獲得更高的視頻質量。我們的框架也是可擴展的,條件可以靈活設計。實驗表明,我們的方法可以顯著優于以往的先進的(SOTA)深度視頻壓縮方法。與x265使用非常慢的預設相比,1080P標準測試視頻可以節省26.0%的比特率。

//www.zhuanzhi.ai/paper/dc8a3c4de86f67bd7da9cc282e6c53bb

付費5元查看完整內容

我們提出了第一種用于視頻少樣本動作識別的無監督元學習算法MetaUVFS。MetaUVFS利用超過550K的未標記視頻,通過對比學習,分別捕捉特定于外觀的空間和特定于動作的時空視頻特征,訓練雙流2D和3D CNN架構。MetaUVFS包括一個新穎的動作-外觀對齊的元適應(A3M)模塊,該模塊通過明確的少樣本情景元學習而非無監督的硬挖掘情節,學習關注與外觀特征相關的動作導向視頻功能。我們的動作外觀對齊和明確的少樣本學習者條件下的無監督訓練模擬下游的少樣本任務,使MetaUVFS在少樣本基準測試中顯著優于所有無監督方法。此外,不像以前的監督的少樣本動作識別方法,MetaUVFS既不需要基類標簽,也不需要監督的預訓練骨干。因此,我們只需要對MetaUVFS進行一次訓練,以便在流行的HMDB51、UCF101和Kinetics100少樣本數據集上具有競爭力,有時甚至超過最先進的監督方法。

//www.zhuanzhi.ai/paper/9c5c176e0af7fe0b4b3c87ef99cd157c

付費5元查看完整內容

Transformers已經成功地完成了許多自然語言處理任務。然而,由于計算復雜度高和缺乏自然標記化,將Transformers應用于視頻領域的任務,如長期視頻生成和場景理解仍然是難以實現的。在本文中,我們提出了以對象為中心的視頻轉換器(OCVT),它利用以對象為中心的方法將場景分解成適合于生成視頻轉換器使用的令牌。通過將視頻分解為對象,我們的完全無監督模型能夠學習場景中多個交互對象的復雜時空動態,并生成視頻的未來幀。與基于像素的模型相比,我們的模型的內存效率更高,因此能夠使用單個48GB GPU訓練70幀長度的視頻。我們將我們的模型與以前基于RNN的方法以及其他可能的視頻Transformer基線進行了比較。我們證明OCVT在生成未來幀時比基線表現得更好。OCVT還為視頻推理開發了有用的表示,在CATER任務上實現了最先進的性能。

//www.zhuanzhi.ai/paper/d0e61883d921b542a2359f2276300783

付費5元查看完整內容

在不依賴下游任務的情況下評估學習表征的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出幾何成分分析(GeomCA)算法,評估表示空間的幾何和拓撲性質。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表征來證明其適用性,如對比學習模型、生成模型和監督學習模型。

//www.zhuanzhi.ai/paper/efa6de0f034d485bbb30b2a45947ea18

付費5元查看完整內容

論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。

//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355

付費5元查看完整內容

本文表明,在大規模的多語言預訓練模型,可以顯著地提高跨語言遷移任務的性能。我們使用超過2TB的過濾CommonCrawl數據,在100種語言上訓練一個基于Transformer的掩碼語言模型。我們的模型被稱為XLM-R,在多種跨語言基準測試中顯著優于多語言BERT (mBERT),包括XNLI的平均正確率+13.8%,MLQA的平均F1分數+12.3%,NER的平均F1分數+2.1%。XLM- r在低資源語言上表現特別好,與以前的XLM模型相比,XNLI在斯瓦希里語上的準確率提高了11.8%,在烏爾都語上的準確率提高了9.2%。我們還對實現這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極遷移和能力稀釋之間的權衡,以及(2)大規模高資源語言和低資源語言的性能。最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性;XLM-Ris在GLUE和XNLI基準上有很強的單語言模型,非常有競爭力。我們將使XLM-R代碼、數據和模型公開可用。

付費5元查看完整內容
北京阿比特科技有限公司