亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。

付費5元查看完整內容

相關內容

近年來,預訓練模型(例如ELMo、GPT、BERT和XLNet等)的快速發展大幅提升了諸多NLP任務的整體水平,同時也使得很多應用場景進入到實際落地階段。預訓練語言模型本身就是神經網絡語言模型,它的特點包括:第一,可以使用大規模無標注純文本語料進行訓練;第二,可以用于各類下游NLP任務,不是針對某項定制的,但以后可用在下游NIP任務上,你不需要為下游任務專門設計一種神經網絡,或者提供一種結構,直接在幾種給定的固定框架中選擇一種進行 fine-tune,就可以從而得到很好的結果。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

題目: Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

摘要: 最近基于Transformer的大規模預訓練模型已經徹底改變了視覺和語言(V+L)研究。ViLBERT、LXMERT和UNITER等模型通過聯合圖像-文本預訓練在大量的V+L基準上顯著提高了技術水平。然而,人們對這些令人印象深刻的成功背后的內在機制知之甚少。為了揭示這些強大的模型的場景背后的秘密,我們提出的Value(視覺和語言理解評估),是一個精心設計的探索任務(如視覺算法,視覺檢測的關系,語言探索任務)可概括的標準預訓練V+L模型,旨在解讀多通道的內部運作訓練的(例如,個人的隱性知識獲得關注,通過上下文化的多模態嵌入學習的固有的跨模態對齊)。通過這些探測任務對每個原型模型體系結構進行大量的分析,我們的主要觀察結果如下:(i)預訓練的模型顯示出在推理過程中專注于文本而非圖像的傾向。(ii)存在一種注意力頭子集,專門用于捕捉跨模態交互。(iii)在預訓練的模型中學習注意力矩陣,顯示與圖像區域和文本單詞之間的隱對齊一致的模式。(iv)繪制的注意力模式揭示了圖像區域之間的視覺解釋關系。純粹的語言知識也有效地編碼在注意力頭中。這些都是有價值的見解,有助于指導未來的工作,以設計更好的模型架構和目標的多模態預訓練。

付費5元查看完整內容

地球上有成千上萬種活躍的語言,但只有一個單一的視覺世界。根植于這個視覺世界,有可能彌合所有這些語言之間的鴻溝。我們的目標是使用視覺基準來改進語言之間的非監督詞映射。其核心思想是通過學習母語教學視頻中未配對的嵌入語,在兩種語言之間建立一種共同的視覺表達。考慮到這種共享嵌入,我們證明(i)我們可以在語言之間映射單詞,特別是“可視化”單詞;(ii)共享嵌入為現有的基于文本的無監督單詞翻譯技術提供了良好的初始化,為我們提出的混合可視文本映射算法MUVE奠定了基礎;(iii)我們的方法通過解決基于文本的方法的缺點來獲得更好的性能——它更健壯,處理通用性更低的數據集,并且適用于低資源的語言。我們將這些方法應用于將英語單詞翻譯成法語、韓語和日語——所有這些都不需要任何平行語料庫,而只是通過觀看許多人邊做邊說的視頻。

付費5元查看完整內容

【導讀】BERT自問世以來,幾乎刷新了各種NLP的任務榜,基于BERT的變種也層出不窮。19年來,很多研究人員都嘗試融合視覺音頻等模態信息進行構建預訓練語言模型。本文介紹了EMNLP2019來自UNC-北卡羅來納大學教堂山分校的Hao Tan的工作。構建LXMERT(從Transformers中學習跨模態編碼器表示)框架來學習這些視覺和語言的語義聯系。作者這份76頁PPT詳細介紹了語言和視覺任務的概況以及如何構建多模態BERT。

視覺和語言推理需要理解視覺概念、語言語義,最重要的是理解這兩種模式之間的對齊和關系。因此,我們提出了LXMERT(從Transformers中學習跨模態編碼器表示)框架來學習這些視覺和語言聯系。在LXMERT中,我們構建了一個大型Transformers模型,它由三個編碼器組成:一個對象關系編碼器、一個語言編碼器和一個跨模態編碼器。接下來, 賦予我們的模型的功能連接視覺和語言的語義,我們在大量image-and-sentence 預訓練模型, 通過五個不同代表訓練的任務: mask語言建模,mask對象預測(功能回歸和標簽分類), 跨模式匹配和圖像問答。這些任務有助于學習模態內和模態間的關系。從我們預先訓練的參數進行微調后,我們的模型在兩個可視化的問題回答數據集(即, VQA和GQA)。我們還通過將預訓練的跨模態模型應用于具有挑戰性的視覺推理任務NLVR2,并將之前的最佳結果提高了22%(54%至76%),從而展示了該模型的通用性。最后,我們展示了詳細的ablation study,以證明我們的新模型組件和預訓練策略對我們的結果有顯著的貢獻;并針對不同的編碼器提出了幾種注意可視化方法。代碼和預訓練的模型可在: //github.com/airsplay/lxmert

付費5元查看完整內容

題目: oLMpics - On what Language Model Pre-training Captures

摘要:

最近,預訓練語言模型(LMs)的成功引起了人們對其語言能力的廣泛興趣。然而,了解LM表示對于符號推理任務是否有用的努力是有限和分散的。在這項工作中,我們提出了八個推理任務,這些任務在概念上需要進行比較、連接和組合等操作。一個基本的挑戰是理解LM在任務上的性能應該歸因于預先訓練的表示還是任務數據的微調過程。為了解決這個問題,我們提出了一個評估協議,其中包括了零次評估(沒有微調),以及將微調LM的學習曲線與多個控件的學習曲線進行比較,從而描繪出LM功能的豐富畫面。我們的主要發現是:(a)不同的LMs表現出不同的定性推理能力,例如,RoBERTa成功地完成了BERT完全失敗的推理任務;(b) LMs不以抽象的方式推理,而是依賴于上下文,例如,羅伯塔可以比較年齡,但它只能在年齡處于人類年齡的典型范圍內時才能這樣做;(c)在一半的推理任務中,所有的模型都完全失敗了。我們的發現和基礎設施可以幫助未來的工作設計新的數據集,模型和目標函數的培訓。

作者:

Alon Talmor是特拉維夫大學自然語言處理的博士生,由Jonathan Berant博士指導,主要研究方向是自然語言處理和問答系統。個人官網:

Jonathan Berant是特拉維夫大學布拉瓦特尼克計算機科學學院助理教授,研究領域是自然語言處理,研究自然語言理解問題,如語義分析、問題回答、釋義、閱讀理解和文本蘊涵。最感興趣的是能從需要多步驟推理或處理語言構成的弱監督中學習。個人官網:

付費5元查看完整內容
北京阿比特科技有限公司