近年來,由于基于Transformer的視覺-語言模型的發展,聯合文本-圖像嵌入得到了顯著的改善。盡管有這些進步,我們仍然需要更好地理解這些模型產生的表示。在本文中,我們在視覺、語言和多模態水平上比較了預訓練和微調的表征。為此,我們使用了一組探測任務來評估最先進的視覺語言模型的性能,并引入了專門用于多模態探測的新數據集。這些數據集經過精心設計,以處理一系列多模態功能,同時最大限度地減少模型依賴偏差的可能性。雖然結果證實了視覺語言模型在多模態水平上理解顏色的能力,但模型似乎更傾向于依賴文本數據中物體的位置和大小的偏差。在語義對抗的例子中,我們發現這些模型能夠精確地指出細粒度的多模態差異。最后,我們還注意到,在多模態任務上對視覺-語言模型進行微調并不一定能提高其多模態能力。我們提供所有的數據集和代碼來復制實驗。
現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。
隨著大規模無監督預訓練技術在文本領域的各個任務上取得了顯著的效果提升,視覺-語言預訓練(Vision-language Pre-training)也受到了越來越多的關注。視覺-語言預訓練的目標是通過對齊語料學習多模態的通用聯合表示,將各個模態之間的語義對齊信號融合到聯合表示中,從而提升下游任務效果。已有的視覺語言預訓練方法在預訓練過程中沒有區分普通詞和語義詞,學到的聯合表示無法刻畫模態間細粒度語義的對齊,如場景中物體(objects)、物體屬性(attributes)、物體間關系(relationships)這些深度理解場景所必備的細粒度語義。
我們提出了知識增強的視覺-語言預訓練技術ERNIE-ViL,將包含細粒度語義信息的場景圖先驗知識融入預訓練過程,創建了物體預測、屬性預測、關系預測三個預訓練任務,在預訓練過程中更加關注細粒度語義的跨模態對齊,從而學習到能夠刻畫更好跨模態語義對齊信息的聯合表示。作為業界首個融入場景圖知識的視覺語言預訓練模型,ERNIE-ViL在視覺問答、視覺常識推理、引用表達式理解、跨模態文本檢索、跨模態圖像檢索5個多模態典型任務上取得了SOTA效果,同時,在視覺常識推理VCR榜單上取得第一。
許多視覺和語言的研究集中在一組小而多樣的獨立任務和支持的數據集上,這些數據集通常是單獨研究的;然而,成功完成這些任務所需的視覺語言理解技能有很大的重疊。在這項工作中,我們通過開發一個大規模的、多任務的訓練機制來研究視覺和語言任務之間的關系。我們的方法最終在12個數據集上建立了一個模型,這些數據集來自4大類任務,包括可視化問題回答、基于標題的圖像檢索、基礎引用表達式和多模態驗證。與獨立訓練的單任務模型相比,這意味著從大約30億個參數減少到2.7億個參數,同時在各個任務中平均提高性能2.05個百分點。我們使用我們的多任務框架來深入分析聯合訓練不同任務的效果。此外,我們還展示了從單一的多任務模型中細化特定任務模型可以帶來進一步的改進,達到或超過最先進的性能。