對比學習是遠程學習的一種形式,旨在從兩種相關表示中學習不變特征。在本文中,我們探索了一個大膽的假設,即圖像及其標題可以被簡單地視為潛在相互信息的兩種不同視圖,并訓練一個模型學習統一的視覺-語言表示空間,該空間以模態不可知的方式對兩種模態進行編碼。我們首先確定了學習視覺語言預訓練(VLP)的通用單塔模型的困難,并提出OneR作為實現我們目標的一個簡單而有效的框架。發現了一些有趣的特性,將OneR與之前學習特定模態表示空間的工作區分開,如零樣本物體定位、文本引導的視覺推理和多模態檢索,并提出了分析,以提供對這種新的多模態表示學習形式的見解。本文全面的評估證明了一個統一的模式不可知VLP框架的潛力。
圖神經網絡(GNNs)已被證明是有前途的解決方案的協同過濾(CF)與用戶項交互圖建模。現有的基于GNN的推薦系統的關鍵思路是遞歸地執行沿用戶-項目交互邊緣傳遞的消息,以細化編碼的嵌入。盡管他們的有效性,但是,目前大多數的推薦模型依賴于足夠的和高質量的訓練數據,這樣學習的表示可以很好地捕捉準確的用戶偏好。在許多實際的推薦場景中,用戶行為數據往往是有噪聲的,并且呈現出偏態分布,這可能導致基于GNN的模型的表現性能欠佳。在本文中,我們提出了一種新的自監督超圖transformer 框架(SHT),它通過明確地探索全局協作關系來增強用戶表示。具體來說,我們首先賦予圖神經CF范式以超圖transformer 網絡來維持用戶和物品之間的全局協同效果。在提取全局上下文的基礎上,提出了一種跨視圖生成式自監督學習組件,用于用戶-物品交互圖上的數據增強,以增強推薦系統的魯棒性。大量實驗表明,SHT可以顯著提高各種最先進的基線性能。進一步的消融研究表明,我們的SHT推薦框架在緩解數據稀疏性和噪聲問題方面具有卓越的表達能力。源代碼和評估數據集可以在//github.com/akaxlh/SHT上找到。
視覺語言表征學習在很大程度上受益于圖像-文本的對比損失(例如InfoNCE損失)。這種對齊策略的成功是由于它能夠最大化圖像與匹配文本之間的互信息(MI)。然而,簡單地執行跨模態對齊(CMA)忽略了每個模態中的數據潛力,這可能導致表示的退化。例如,盡管基于CMA的模型能夠將圖像-文本對在嵌入空間中緊密地映射在一起,但它們不能確保來自相同模態的相似輸入保持在一起。當訓練前的數據有噪聲時,這個問題會變得更糟。在本文中,我們提出了利用跨模態和內模態自監督的三重對比學習(TCL)來進行視覺語言預訓練。除了CMA之外,TCL還引入了一個模態內對比目標,以在表示學習中提供互補的好處。為了利用來自圖像和文本輸入的局部和結構信息,TCL進一步最大化了圖像/文本局部區域和它們的全局摘要之間的平均MI。據我們所知,我們的工作是第一個考慮到局部結構信息的多模態表示學習。實驗評估表明,我們的方法在各種常見的下游視覺語言任務,如圖像-文本檢索和視覺問題回答上具有競爭力,達到了最新的技術水平。
//www.zhuanzhi.ai/paper/12af4807da28b56ef7ef66423f27cce9
回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。
Yann LeCun曾說“如果人工智能是一個蛋糕,則蛋糕的主要成分就是無監督學習”。這句話反應了無監督學習在深度學習領域扮演著重要的作用。當前普遍的方法集中在如何設計有效的代理任務來對無標注的輸入數據學習到好的視覺表征。在計算機視覺上,目前比較流行的直接有效的方法是對比學習,將訓練數據的每個實例當做單一的分類。基于這個實力判別,很多自監督方法在分類任務上得到了有效的提升。他們成功彌補了自監督方法和監督方法的代溝。然而,這項任務仍然具有挑戰:
a. 掩碼語言模型在自然語言領域得到了廣泛的應用。圖像是高維特征,多噪聲且相比于文本形式復雜。在視覺領域中,圖像的主要信息會被隨機分到不同的token中,如果這些token被隨機masked掉,將會導致很差的表現。這個隨機掩碼語言模型容易掩蓋圖像的關鍵區域的token,這樣會導致誤判且不適合直接應用于自監督視覺Transformers。
b. 很多自監督方法是利用全局特征學習圖像級別預測,對于像素級別預測優化不足。當前自監督學習方法也許對圖像分類任務過度擬合,對下游密集任務預測表現效果不好。
//www.zhuanzhi.ai/paper/51fc329856a3bcd21dfb8545d693e224
針對以上提出的問題,我們提出掩碼Transformer自監督學習方法,如下圖所示。MST創造性的引入了注意力特征圖引導掩碼策略并利用掩碼特征來恢復全局圖像特征任務。我們將介紹如何利用注意力特征引導掩碼策略幫助掩碼語言模型應用到視覺領域。最后我們將介紹網絡的結構和實驗細節。
現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。
在統一魯棒半監督變分自編碼器(URSVAE)中,通過同時處理噪聲標簽和異常值,提出了一種新的噪聲魯棒半監督深度生成模型。輸入數據的不確定性通常是將不確定性優先于概率密度分布的參數,以確保變分編碼器對異常值的魯棒性。隨后,我們將噪聲轉換模型自然地集成到我們的模型中,以減輕噪聲標簽的有害影響。此外,為了進一步增強魯棒性,采用魯棒散度測度,推導并優化了新的變分下界來推斷網絡參數。通過證明對所提證據下界的影響函數是有界的,證明了所提模型在存在復合噪聲的情況下在分類方面的巨大潛力。通過對圖像分類任務的評價和與現有方法的比較,實驗結果表明了該框架的優越性。
隨著大規模無監督預訓練技術在文本領域的各個任務上取得了顯著的效果提升,視覺-語言預訓練(Vision-language Pre-training)也受到了越來越多的關注。視覺-語言預訓練的目標是通過對齊語料學習多模態的通用聯合表示,將各個模態之間的語義對齊信號融合到聯合表示中,從而提升下游任務效果。已有的視覺語言預訓練方法在預訓練過程中沒有區分普通詞和語義詞,學到的聯合表示無法刻畫模態間細粒度語義的對齊,如場景中物體(objects)、物體屬性(attributes)、物體間關系(relationships)這些深度理解場景所必備的細粒度語義。
我們提出了知識增強的視覺-語言預訓練技術ERNIE-ViL,將包含細粒度語義信息的場景圖先驗知識融入預訓練過程,創建了物體預測、屬性預測、關系預測三個預訓練任務,在預訓練過程中更加關注細粒度語義的跨模態對齊,從而學習到能夠刻畫更好跨模態語義對齊信息的聯合表示。作為業界首個融入場景圖知識的視覺語言預訓練模型,ERNIE-ViL在視覺問答、視覺常識推理、引用表達式理解、跨模態文本檢索、跨模態圖像檢索5個多模態典型任務上取得了SOTA效果,同時,在視覺常識推理VCR榜單上取得第一。