許多視覺和語言的研究集中在一組小而多樣的獨立任務和支持的數據集上,這些數據集通常是單獨研究的;然而,成功完成這些任務所需的視覺語言理解技能有很大的重疊。在這項工作中,我們通過開發一個大規模的、多任務的訓練機制來研究視覺和語言任務之間的關系。我們的方法最終在12個數據集上建立了一個模型,這些數據集來自4大類任務,包括可視化問題回答、基于標題的圖像檢索、基礎引用表達式和多模態驗證。與獨立訓練的單任務模型相比,這意味著從大約30億個參數減少到2.7億個參數,同時在各個任務中平均提高性能2.05個百分點。我們使用我們的多任務框架來深入分析聯合訓練不同任務的效果。此外,我們還展示了從單一的多任務模型中細化特定任務模型可以帶來進一步的改進,達到或超過最先進的性能。
本文處理學習和推理語言和視覺數據的相關下游任務的挑戰,如視覺問題回答(VQA)和自然語言的視覺推理(NLVR)。我們設計了一個新穎的跨模態關聯模塊,用端到端框架在目標任務的監督下學習各種輸入模態組件之間的關聯表示,這比僅僅重塑原始表示空間更易于推廣到未觀測的數據。除了對文本實體和視覺實體之間的相關性進行建模外,我們還對文本中的實體關系和圖像中的對象關系之間的高階相關性進行建模。我們提出的方法使用公共基準,在兩個不同的語言和視覺任務上顯示出具有競爭力的性能,并改進了最新發布的結果。NLVR任務學習的輸入空間對齊及其相關表示提高了VQA任務的訓練效率。
當對一系列學習問題進行優化時,卷積神經網絡會經歷災難性的遺忘:當滿足當前訓練示例的目標時,它們在以前任務中的性能會急劇下降。在這項工作中,我們介紹了一個基于條件計算的新的框架來解決這個問題。
當我們人類觀看人機交互的視頻時,我們不僅可以推斷出發生了什么,我們甚至可以提取可操作的信息并模仿這些交互。另一方面,當前的識別或幾何方法缺乏動作表征的物質性。在這篇論文中,我們朝著對行為的物理理解邁出了一步。我們解決了從人類與物體互動的視頻中推斷接觸點和物理力的問題。解決這一問題的主要挑戰之一是為物理力取得真實標簽。我們通過使用物理模擬器來進行監督,從而避免了這個問題。具體來說,我們使用一個模擬器來預測效果,并執行估計的力必須導致與視頻中描述的相同的效果。我們定量和定性結果表明,(a)我們可以從視頻中預測有意義的力,這能夠導致對觀察動作的準確模仿,(b)通過為接觸點和力預測聯合優化,我們可以在所有任務提高性能相比,和(c)我們可以從這個模型學習一個表示,泛化到使用小樣本的物體上。
元學習利用相關的源任務來學習初始化,可以通過有限的標記示例將初始化快速調整到目標任務。然而,許多流行的元學習算法,如模型無關元學習(MAML),都只假設可以訪問目標樣本進行微調。在這項工作中,我們提供了一個通用的元學習框架,該框架基于對不同源任務的損失進行加權,其中的權重允許依賴于目標樣本。在這個一般的設置中,我們提供了基于積分概率度量(IPM)和Rademacher復雜性的源任務加權經驗風險和預期目標風險之間距離的上限,該上限適用于包括MAML和加權MAML變體在內的許多元學習設置。然后開發一個基于最小化誤差學習算法對實證IPM,包括α-MAML加權MAML算法。最后,我們實證地證明了我們的加權元學習算法能夠比單加權元學習算法(如MAML)找到更好的初始化。
地球上有成千上萬種活躍的語言,但只有一個單一的視覺世界。根植于這個視覺世界,有可能彌合所有這些語言之間的鴻溝。我們的目標是使用視覺基準來改進語言之間的非監督詞映射。其核心思想是通過學習母語教學視頻中未配對的嵌入語,在兩種語言之間建立一種共同的視覺表達。考慮到這種共享嵌入,我們證明(i)我們可以在語言之間映射單詞,特別是“可視化”單詞;(ii)共享嵌入為現有的基于文本的無監督單詞翻譯技術提供了良好的初始化,為我們提出的混合可視文本映射算法MUVE奠定了基礎;(iii)我們的方法通過解決基于文本的方法的缺點來獲得更好的性能——它更健壯,處理通用性更低的數據集,并且適用于低資源的語言。我們將這些方法應用于將英語單詞翻譯成法語、韓語和日語——所有這些都不需要任何平行語料庫,而只是通過觀看許多人邊做邊說的視頻。
小樣本學習是計算機視覺中的一項基本任務,它帶來了減輕對詳盡標記數據需求的希望。到目前為止,大多數小樣本學習方法都集中在日益復雜的神經特征提取器和分類器適應策略,以及任務定義本身的細化。在這篇論文中,我們探討了一個假設,即一個簡單的基于類協方差的距離度量,即馬氏距離,被采用到一個最先進的小樣本學習方法(CNAPS)中,它本身可以導致顯著的性能改進。我們還發現,學習自適應特征提取器是可能的,它允許從非常少的樣本中對該度量所需的高維特征協方差進行有用的估計。我們的工作結果是一個新的“簡單的CNAPS”架構,它比CNAPS少了9.2%的可訓練參數,并且在標準的小樣本圖像分類基準數據集上比現有的技術水平高了6.1%。
我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。
論文題目:
Latent Relation Language Models
論文摘要: 在本文中,我們提出了潛在關系語言模型(LRLM),它是一類語言模型,它通過知識圖的關系參數化文檔中單詞和其中出現的實體的聯合分布。 該模型具有許多吸引人的屬性:它不僅提高了語言建模性能,而且還能夠注釋實體跨度對于關聯文本的后驗概率。 實驗表明,在基于單詞的基準語言模型和結合了知識圖譜信息的先前方法上,經驗性改進。 定性分析進一步證明了該模型在上下文中學習最佳預測適當關系的能力。