日韩在线精品小视频,久久精品高清一区二区三区,我把寡妇日出水好爽视频,国产深夜激情一区二区

跨模態檢索方法為來自多種模態的樣本建立了一個共同的表示空間，尤其是來自視覺和語言領域的樣本。對于圖像和它們的說明文字，對應的多樣性使得這項任務特別具有挑戰性。給定一個圖像(分別是一個標題)，有多個同樣有意義的標題(分別是圖像)。在本文中，我們認為確定性函數不足以捕獲這種一對多對應。相反，我們提出使用概率交叉模態嵌入(PCME)，來自不同模態的樣本在公共嵌入空間中表示為概率分布。由于諸如COCO這樣的通用基準測試在跨模態匹配時存在非詳盡注釋的問題，我們建議額外評估CUB數據集上的檢索，這是一個更小但更干凈的數據庫，其中所有可能的圖像標題對都被注釋。我們廣泛地ablate PCME，并證明它不僅提高了檢索性能，其確定性對等物，但也提供不確定性估計，使嵌入更可解釋。

//arxiv.org/abs/2011.11108

付費5元查看完整內容

相關內容

跨模態檢索

關注 16

視覺-語言表征學習 · 卷積神經網絡 · Transformer ·

2021 年 4 月 9 日

[付費5元查看完整內容]【CVPR2021】基于端到端預訓練的視覺-語言表征學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文研究了卷積神經網絡（CNN）和視覺語言預訓練Transformer（VLPT）的聯合學習，旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域，再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分，因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分，現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念，將完整的圖像為輸入，以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注，這使得推理速度比基于區域的方法快10倍。特別地，SOHO學會了通過視覺詞典（VD）來提取全面而緊湊的圖像特征，這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。

//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39

付費5元查看完整內容

動態度量學習 · CVPR 2021 ·

2021 年 3 月 30 日

[付費5元查看完整內容]【CVPR2021】動態度量學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

該工作將度量學中一個重要的屬性“動態范圍”引入到深度度量學習，從而得到一個新的任務叫做“動態度量學習”。我們發現，以往的深度度量其實只蘊含一個刻度，例如僅僅區分人臉、行人是相似還是不相似。這樣的量具無論多精確，在實際使用中都是靈活不足、用途有限的。實際上，我們日常的量具通常具有動態范圍，例如尺子總是有多個刻度（例如1mm、1cm乃至10cm）來測量不同尺度的物體。我們認為，深度度量學習領域已經到了需要引入動態范圍的時候了。因為，視覺概念本身就有著不同的大小，“動物”、“植物”都對應大尺度，而“麋鹿”卻對應相對較小的尺度。在小尺度下，兩只麋鹿可能看上去很不一樣，但是在另一個大尺度下，同樣兩只麋鹿卻應該被認為非常相似。

付費5元查看完整內容

人臉圖像質量評價 · CVPR 2021 ·

2021 年 3 月 19 日

[付費5元查看完整內容]【CVPR2021】基于相似性分布距離的無監督人臉圖像質量評價

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

以往的人臉圖像質量評估研究大多以樣本層面不確定性或配對相似度作為質量評分標準，而且只考慮部分類內信息。這些方法忽略了來自類間有價值的信息。在本研究中，對于人臉識別系統，我們認為一個高質量的人臉圖像應該與其類內樣本相似，而與其類間樣本不相似，如圖1所示。為此，我們提出了一種基于類內-類間相似度分布距離的無監督人臉質量評估方法(SDD-FIQA)。

//www.zhuanzhi.ai/paper/b51b03b10fb5b413e14282835e0e8a6a

該方法從人臉識別的性能影響因子出發，從理論上推導出人臉樣本類間相似度分布與人臉圖像質量高度相關，利用類內相似度分布和類間相似度分布之間的Wasserstein距離生成人臉圖像質量偽標簽。然后，利用這些質量偽標簽進行無監督訓練一個人臉質量回歸網絡，從而獲得一個質量評估模型。大量實驗表明，在各大人臉識別的基準數據集上，提出的SDD-FIQA方法在不同的人臉識別系統下，精度和泛化能力都達到國際最先進水平。

主要創新點：1）發現了人臉樣本類間相似度分布與人臉圖像質量高度相關；2）提出了類內-類間相似度分布距離的概念；3）從理論上導出了人臉圖像質量與類內-類間相似度分布距離直接相關；4）提出了利用Wasserstein準則度量類內-類間相似度分布距離，并用于人臉圖像質量評分；5）實現了一種完全無監督的人臉圖像質量評估算法，性能最優。

付費5元查看完整內容

表示學習 · 自監督學習 ·

2021 年 3 月 12 日

[付費5元查看完整內容]【CVPR2021】空間一致性表示學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自監督學習已被廣泛應用于從未標記圖像中獲取可轉移的表示。特別是，最近的對比學習方法在下游圖像分類任務中表現出了令人印象深刻的性能。這些對比方法主要集中在語義保留變換下的圖像級上生成不變的全局表示，容易忽略局部表示的空間一致性，因此在目標檢測和實例分割等本地化任務的預處理中存在一定的局限性。此外，在現有的對比方法中使用的積極裁剪視圖可以最小化單個圖像中語義不同區域之間的表示距離。

在本文中，我們提出了一種用于多目標和特定位置任務的空間一致表示學習算法(SCRL)。特別地，我們設計了一個新的自監督目標，試圖根據幾何平移和縮放操作產生隨機裁剪局部區域的連貫空間表示。在使用基準數據集的各種下游定位任務上，提出的SCRL顯示了相對于圖像級監督前訓練和最先進的自監督學習方法的顯著性能改進。代碼將會被發布。

//www.zhuanzhi.ai/paper/86fc25415eef2e6e1ed9019494ce1fcf

付費5元查看完整內容

CVPR 2021 · 自監督學習 · 自監督幾何感知 ·

2021 年 3 月 6 日

[付費5元查看完整內容]【CVPR2021】自監督幾何感知

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

我們提出了自監督幾何感知(SGP)，這是第一個學習特征描述符進行對應匹配的通用框架，不需要任何真實的幾何模型標簽(例如，相機姿態，剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題，在給定大量視覺測量數據(如圖像、點云)的基礎上，聯合優化特征描述符和幾何模型。在這個優化公式下，我們展示了視覺領域的兩個重要的研究流，即魯棒模型擬合和深度特征學習，對應著優化未知變量的一個塊，同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法，它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽，一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻，我們將SGP應用于大規模真實數據集上的兩個感知問題，即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明，SGP達到了最先進的性能，與使用真實標簽訓練的受監督的模型相當。

付費5元查看完整內容

WWW 2021 · 文本分類 · 多標簽文本分類 ·

2021 年 2 月 17 日

[付費5元查看完整內容]【WWW2021】大規模層次結構中的元數據感知文本分類

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多標簽文本分類涉及到從標簽集中為每個給定文檔分配其最相關標簽的問題。通常，給定文檔的元數據和標簽的層次結構在實際應用是可用的。然而，現有的研究大多只關注于文本信息的建模，也有少數嘗試使用元數據或層次信號，但沒有同時使用它們。在本文中，我們通過在一個大的標簽層次結構(例如，有成千上萬個標簽)中形式化元數據感知文本分類的問題來彌補這一差距。為了解決這個問題，我們提出了MATCH解決方案——一個利用元數據和層次結構信息的端到端框架。為了整合元數據，我們預先訓練文本和元數據在同一空間的嵌入，并利用完全連接的注意力來捕捉它們之間的相互關系。為了充分利用標簽層次結構，我們提出了不同的方法來規整每個子標簽的參數和輸出概率。在兩個具有大規模標簽層次的大規模文本數據集上進行的大量實驗證明了在最先進的深度學習基線上匹配的有效性。

//www.zhuanzhi.ai/paper/f6f0aa93aec55dee2e115f8c40147b79

付費5元查看完整內容

視頻描述 · 語義分組網絡 ·

2021 年 2 月 3 日

[付費5元查看完整內容]【AAAI2021】用于視頻描述的語義分組網絡

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文提出一種語義分組網絡通過建立詞組與相關語義視頻幀的映射來減少信息冗余。本文提出了一個語義分組網絡（SGN）的視頻描述生成網絡，該網絡嘗試（1）使用具有部分已解碼描述的可區分詞組對視頻幀進行分組，然后（2）在預測下一個單詞時使用這些語義對齊的視頻幀組進行解碼。本文發現連續的幀可能提供了相同的信息，然而現有方法集中于僅基于輸入視頻來丟棄或合并重復信息。語義分組網絡學習了一種算法來捕獲部分已解碼描述中最具區分性的詞組以及將每個詞組與相關視頻幀的映射，通過建立此映射可以將語義上相關的幀聚類，從而減少冗余。與現有方法相反，來自已解碼描述詞的連續反饋使語義分組網絡能夠動態更新適應部分解碼描述的視頻表示。此外，本文提出了一種對比注意損失，以促進單詞短語和視頻幀之間的準確對齊而無需人工注釋。

//www.zhuanzhi.ai/paper/ca2f9fa733ff339f5ca3e10526823d47

付費5元查看完整內容

對比學習 · 監督學習 · 深度學習 ·

2020 年 11 月 5 日

[付費5元查看完整內容]最新《對比監督學習》綜述論文，20頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督，并將學習到的表示用于幾個下游任務。具體來說，對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起，同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述，遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務，以及到目前為止提出的不同架構。接下來，我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后，我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。

//arxiv.org/abs/2011.00362

概述：

隨著深度學習技術的發展，它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式，這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而，由于手工標注數百萬個數據樣本的工作量很大，從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術，可以為模型所做的決策提供可視化的解釋，從而使決策更加透明和可解釋。

傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據，但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方，它不需要昂貴的標注，也不需要學習數據本身提供監督的特征表示。

監督學習不僅依賴昂貴的注釋，而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近，自監督學習方法集成了生成和對比方法，這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務，利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。

生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎，如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功，研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練，主要有兩個原因: (a)不收斂——模型參數發散很多，很少收斂; (b)鑒別器太過成功，導致生成網絡無法產生類似真實的假信號，導致學習無法繼續。此外，生成器和判別器之間需要適當的同步，以防止判別器收斂和生成器發散。

付費5元查看完整內容

預訓練語言模型 · 多模態 · 視頻理解 ·

2020 年 2 月 19 日

[付費5元查看完整內容]微軟亞洲研究院新論文-《多模態預訓練語言模型UniViLM》面向多模態理解和生成的統一視頻和語言預訓練模型

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近，基于BERT的NLP和圖像語言任務預訓練技術取得了成功，受此啟發，VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練，并使用敘事性教學視頻。不同于他們的工作只訓練理解任務，我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成，包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練，以學習視頻和語言在大型教學視頻數據集上的通用表示。然后，我們在兩個多模態任務上對模型進行微調，包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明，我們的方法可以提高理解和生成任務的性能，并取得了最先進的結果。