亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視覺對話旨在回答基于對話歷史和圖像內容的多輪互動問題。現有方法要么單獨考慮答案排序和生成,要么僅通過兩個單獨的模型微弱地捕捉兩個任務之間的關系。在單一模型中共同學習排序和生成答案的通用框架的研究很少。在本文中,我們提出了一個基于對比學習的框架UTC,以統一和促進識別任務和生成任務在視覺對話中使用單一的模型。具體來說,考慮到之前學習范式的內在局限性,我們設計了兩種任務間對比損失,即情境對比損失和答案對比損失,使區分性任務和生成性任務相輔相成。這兩種互補的對比損失利用對話語境和目標答案作為錨點,從不同的角度提供表征學習信號。我們在VisDial v1.0數據集上評估我們提出的UTC,在那里,我們的方法在鑒別和生成任務上優于最先進的技術,并在Recall@1上超過2個絕對點。

//www.zhuanzhi.ai/paper/527537bf22a0260715026e0ea474fb5f

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

在自動駕駛中,激光雷達點云和RGB圖像是兩種主要的具有互補線索的三維目標檢測數據模式。然而,由于模態內之間存在很大的差異,很難充分利用它們。為了解決這個問題,我們提出了一個新的框架,即用于多模態三維物體檢測(CAT-Det)的對比增強Transformer(contrast Augmented Transformer)。具體來說,CAT-Det采用雙流結構,由點前(PT)分支、圖像前(IT)分支和交叉模態轉換器(CMT)模塊組成。PT、IT和CMT共同編碼內模態和跨模態的長程上下文來表示一個對象,從而充分挖掘多模態信息進行檢測。此外,我們提出了一種有效的單向多模態數據增強(OMDA)方法,通過在點和對象層面上進行層次對比學習,僅通過增強點云就可以顯著提高精度,而無需復雜地生成兩種模式的成對樣本。在KITTI基準上的大量實驗表明,CAT-Det達到了最新的技術水平,凸顯了其有效性。

//www.zhuanzhi.ai/paper/cdc9f14be76be206c2dfa2c11871e4d7

付費5元查看完整內容

視覺語言表征學習在很大程度上受益于圖像-文本的對比損失(例如InfoNCE損失)。這種對齊策略的成功是由于它能夠最大化圖像與匹配文本之間的互信息(MI)。然而,簡單地執行跨模態對齊(CMA)忽略了每個模態中的數據潛力,這可能導致表示的退化。例如,盡管基于CMA的模型能夠將圖像-文本對在嵌入空間中緊密地映射在一起,但它們不能確保來自相同模態的相似輸入保持在一起。當訓練前的數據有噪聲時,這個問題會變得更糟。在本文中,我們提出了利用跨模態和內模態自監督的三重對比學習(TCL)來進行視覺語言預訓練。除了CMA之外,TCL還引入了一個模態內對比目標,以在表示學習中提供互補的好處。為了利用來自圖像和文本輸入的局部和結構信息,TCL進一步最大化了圖像/文本局部區域和它們的全局摘要之間的平均MI。據我們所知,我們的工作是第一個考慮到局部結構信息的多模態表示學習。實驗評估表明,我們的方法在各種常見的下游視覺語言任務,如圖像-文本檢索和視覺問題回答上具有競爭力,達到了最新的技術水平。

//www.zhuanzhi.ai/paper/12af4807da28b56ef7ef66423f27cce9

付費5元查看完整內容

回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。

//www.zhuanzhi.ai/paper/b1df219aafbecbaaf09c3a0b10f58df6

付費5元查看完整內容

Yann LeCun曾說“如果人工智能是一個蛋糕,則蛋糕的主要成分就是無監督學習”。這句話反應了無監督學習在深度學習領域扮演著重要的作用。當前普遍的方法集中在如何設計有效的代理任務來對無標注的輸入數據學習到好的視覺表征。在計算機視覺上,目前比較流行的直接有效的方法是對比學習,將訓練數據的每個實例當做單一的分類。基于這個實力判別,很多自監督方法在分類任務上得到了有效的提升。他們成功彌補了自監督方法和監督方法的代溝。然而,這項任務仍然具有挑戰:

a. 掩碼語言模型在自然語言領域得到了廣泛的應用。圖像是高維特征,多噪聲且相比于文本形式復雜。在視覺領域中,圖像的主要信息會被隨機分到不同的token中,如果這些token被隨機masked掉,將會導致很差的表現。這個隨機掩碼語言模型容易掩蓋圖像的關鍵區域的token,這樣會導致誤判且不適合直接應用于自監督視覺Transformers。

b. 很多自監督方法是利用全局特征學習圖像級別預測,對于像素級別預測優化不足。當前自監督學習方法也許對圖像分類任務過度擬合,對下游密集任務預測表現效果不好。

//www.zhuanzhi.ai/paper/51fc329856a3bcd21dfb8545d693e224

針對以上提出的問題,我們提出掩碼Transformer自監督學習方法,如下圖所示。MST創造性的引入了注意力特征圖引導掩碼策略并利用掩碼特征來恢復全局圖像特征任務。我們將介紹如何利用注意力特征引導掩碼策略幫助掩碼語言模型應用到視覺領域。最后我們將介紹網絡的結構和實驗細節。

付費5元查看完整內容

預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。

基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。

//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4

該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。

兩種用于表征學習的對比學習范式的概念描述圖。

現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。

具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。

付費5元查看完整內容

在自然語言處理和知識圖構造的信息提取中,三次提取是必不可少的任務。在本文中,我們將重新審視用于序列生成的端到端三重提取任務。由于生成三元組提取可能難以捕獲長期依賴關系并生成不忠實的三元組,因此我們引入了一種新穎的模型,即使用生成Transformer的對比三元組提取。具體來說,我們介紹了一個共享的Transformer模塊,用于基于編碼器-解碼器的生成。為了產生忠實的結果,我們提出了一種新穎的三重態對比訓練對象。此外,我們引入了兩種機制來進一步提高模型性能(即,批量動態注意遮罩和三級校準)。在三個數據集(即NYT,WebNLG和MIE)上的實驗結果表明,我們的方法比基線具有更好的性能。

//www.zhuanzhi.ai/paper/b8ed53721b7162af43614d558adb9c58

付費5元查看完整內容

視覺對話是一項具有挑戰性的任務,它需要從視覺(圖像)和文本(對話歷史)上下文中提取隱含信息。經典的方法更多地關注當前問題、視覺知識和文本知識的整合,忽略了跨模態信息之間的異構語義鴻溝。同時,連接操作已成為跨模式信息融合的事實標準,其信息檢索能力有限。本文提出了一種新的知識橋接圖網絡模型,利用圖在細粒度上橋接視覺知識和文本知識之間的跨模式語義關系,并通過自適應的信息選擇模式檢索所需的知識。此外,視覺對話的推理線索可以清晰地從模態內實體和模態間橋梁中提取出來。VisDial v1.0和VisDial- q數據集上的實驗結果表明,我們的模型優于現有的模型,取得了最新的結果。

//www.zhuanzhi.ai/paper/6a3e359d8827752a98f2e5daa7079d2a

付費5元查看完整內容

UniLMv2:統一預訓練偽掩碼語言模型

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

論文鏈接://www.zhuanzhi.ai/paper/a6628400809ab320e597b1d4d1fca177

基于大規模語料的預訓練語言模型在各種自然語言處理任務帶來了巨大的提升。受UniLMv1 ([NeurIPS-19]Unified Language Model Pre-training for Natural Language Understanding and Generation)的啟發,本篇論文提出“偽掩碼語言模型”(PMLM),可以同時對兩種不同的語言建模目標進行高效訓練,從而使其更好地適用于語言理解(如文本分類、自動問答)和語言生成(如文本摘要、問題生成)任務。

我們將語言模型預訓練目標分為三類。第一類依賴于自編碼語言建模(Autoencoding, AE)。例如在 BERT 中使用的掩碼語言建模(MLM)隨機的在文本序列中遮蓋一部分單詞,在 Transformer 的雙向編碼結果之上,對每個被遮蓋的單詞進行分別還原。第二類方法基于自回歸建模(Autoregressive, AR)。不同于 AE,目標單詞被依次預測,且依賴于先前的結果。第三類是我們提出的半自回歸語言建模(Partially Autoregressive, PAR),對短語級別進行依賴建模,從而避免了 AR可能帶來的過度局部依賴問題。

偽掩碼語言模型(PMLM)

在新提出的偽掩碼語言模型(PMLM)中,我們對 AE 以及 PAR 這兩個語言建模目標進行了融合。在共享模型參數的基礎上,盡可能對上下文的編碼結果進行了復用,以達到高效訓練的目的。通過構造合理的自注意力模型掩碼與位置編碼,PMLM 可以在一次計算中同時對兩種語言建模任務進行訓練,且無需進行上下文編碼的冗余計算。

在自動問答、復述判別、情感分類、文本摘要、問題生成等一系列任務上的測評,說明了這一方法的有效性。

付費5元查看完整內容
北京阿比特科技有限公司