在過去的幾年中,在自然語言處理(NLP)和計算機視覺(CV)中使用的方法取得了一些突破。除了這些對單模態模型的改進之外,大規模的多模態方法已經成為一個非常活躍的研究領域。
這本書是一個研討會的結果,在會上,我們回顧了多模態方法,并試圖創建一個該領域的堅實概述,從深度學習的兩個子領域的當前最先進的方法開始。此外,還討論了一種模態轉換為另一種模態的建模框架,以及利用一種模態來增強另一種模態的表示學習的模型。為總結第二部分,介紹了專注于同時處理兩種模態的架構。最后,還介紹了其他模態以及通用多模態模型,這些模型能夠在一個統一的架構內處理不同模態上的不同任務。
1. 引言
人類有五種基本的感官:聽覺、觸覺、嗅覺、味覺和視覺。擁有這五種模態,我們就能夠感知和理解周圍的世界。因此,“多模態”意味著同時結合不同的信息通道來理解我們的環境。例如,當幼兒學習單詞“cat”時,他們使用不同的模態,大聲說出這個單詞,指著貓,發出“喵”的聲音。利用人類的學習過程作為角色模型,人工智能(AI)研究人員還嘗試結合不同的模態來訓練深度學習模型。從表面上看,深度學習算法是基于一個神經網絡,該神經網絡被訓練來優化一些通過所謂的損失函數在數學上定義的目標。優化,即最小化損失,是通過稱為梯度下降的數值過程來完成的。因此,深度學習模型只能處理數值輸入,并且只能產生數值輸出。然而,在多模態任務中,我們經常面臨圖片或文本等非結構化數據。因此,第一個主要問題是如何用數字表示輸入。關于多模態任務的第二個問題是如何準確地結合不同的模態。例如,一個典型的任務可能是訓練一個深度學習模型來生成一張貓的圖片。首先,計算機需要理解輸入的文本“貓”,然后以某種方式將這些信息轉換為特定的圖像。因此,需要識別文本輸入中單詞之間的上下文關系和圖像輸出中像素之間的空間關系。對學齡前兒童來說可能很容易的事情,對電腦來說卻是一個巨大的挑戰。雙方都必須了解“貓”這個詞,它包含了動物的含義和外觀。現代深度學習中的一種常見方法是生成嵌入,將貓以數字形式表示為某些潛空間中的向量。然而,為了實現這一點,近年來開發了不同的方法和算法架構。本書概述了最先進的(SOTA)多模態深度學習中使用的不同方法,以克服來自非結構化數據和組合不同模態輸入的挑戰。
**由于多模態模型通常使用文本和圖像作為輸入或輸出,因此第2章將介紹自然語言處理(NLP)和計算機視覺(CV)方法作為基礎。**NLP領域的方法試圖處理文本數據,而CV處理的是圖像處理。關于NLP(第2.1節),一個重要的概念是所謂的詞嵌入,這是當今(幾乎)所有多模態深度學習架構的一個重要部分。這一概念也為基于transformer的模型奠定了基礎,如BERT (Devlin等人,2018a),它在幾個NLP任務中取得了巨大的改進。特別是transformer的(自)注意力機制(Vaswani et al., 2017a)徹底改變了NLP模型,這就是為什么大多數模型都依賴transformer作為骨干。在計算機視覺(第2.2小節)中,將介紹不同的網絡架構,即ResNet (He等人,2015)、EfficientNet (Tan和Le, 2019a)、SimCLR (Chen等人,2020a)和BYOL (Grill等人,2020b)。在這兩個領域,比較不同的方法及其在具有挑戰性的基準上的性能是非常有趣的。因此,第2章的最后2.3小節對CV和NLP的不同數據集、預訓練任務和基準進行了總體概述。 第二章(見3)側重于不同的多模態架構,涵蓋了文本和圖像如何結合的各種各樣。所提出的模型結合并改進了NLP和CV的不同方法。首先,查看Img2Text任務(第3.1小節),介紹用于物體識別的數據集Microsoft COCO (Lin等人,2014a)和用于圖像描述的網格記憶transformer (M2 transformer) (Cornia等人,2019)。相反,研究人員開發了基于短文本提示(第3.2節)的圖像生成方法。完成這項任務的第一個模型是生成對抗網絡(GANs) (Goodfellow等人,2014b)和變分自編碼器(vae) (Kingma和Welling, 2019)。這些方法是近年來改進的,今天的SOTA transformer架構和文本引導擴散模型,如DALL-E (Ramesh et al., 2021a)和GLIDE (Nichol et al., 2021a)取得了顯著的結果。另一個有趣的問題是如何利用圖像來支持語言模型(第3.3節)。這可以通過順序嵌入、更高級的接地嵌入或transformer內部來實現。另一方面,也可以查看支持CV模型的文本,如CLIP (Radford et al., 2021b)、ALIGN (Jia et al., 2021a)和Florence (Yuan et al., 2021)(第3.4小節)。他們使用基礎模型,這意味著重用模型(例如DALL-E 2中的CLIP)以及用于連接文本和圖像的對比損失。此外,零樣本使對新的和未見過的數據進行分類成為可能,而無需昂貴的微調。特別是用于圖像分類和生成的開源架構CLIP (Radford et al., 2021b)去年吸引了很多關注。在第二章的最后,我們會介紹一些可以同時處理文本和圖像的架構(第3.5節)。例如,Data2Vec對語音、視覺和語言使用相同的學習方法,以這種方式旨在找到一種通用方法來處理一個架構中的不同模態。此外,VilBert (Lu等人,2019a)擴展了流行的BERT架構,通過實現共同注意力(co-attention)來處理圖像和文本作為輸入。該方法也用于谷歌的Deepmind Flamingo (Alayrac等人,2022)。此外,Flamingo旨在通過少樣本學習和凍結預訓練的視覺和語言模型,用單個視覺語言模型解決多個任務。
在最后一章(見4)中,介紹了能夠處理文本和圖像以外的模態的方法,如視頻、語音或表格數據。這里的總體目標是基于挑戰而不是模態找到一個通用的多模態架構。因此,人們需要處理多模態融合和對齊的問題,并決定是使用連接表示還是協調表示(第4.1節)。此外,我們將更詳細地討論如何準確地組合結構化和非結構化數據(第4.2節)。因此,將提出近年來發展起來的不同融合策略。本書通過生存分析和經濟學中的兩個用例說明了這一點。除此之外,另一個有趣的研究問題是如何在一個所謂的多用途模型(第4.3小節)中解決不同的任務,就像谷歌研究人員(Barham et al., 2022)在他們的“路徑”模型中所打算創建的那樣。展示了多模態深度學習在藝術場景中的一個示例應用,其中DALL-E (Ramesh et al., 2021a)等圖像生成模型被用于生成藝術領域的藝術作品(第4.4節)。
**近年來,隨著用戶生成的多模態數據的爆炸式增長,學習多模態表示已經使許多新穎的視覺語言應用成為可能。**雖然全球大約有6500種語言,但大多數視覺語言模型及其數據集都是基于英語的。不幸的是,這種限制阻礙了當前的模型造福于更廣泛的非英語社區。因此,開發基于英語的視覺語言模型泛化到非英語語言的方法是迫切而有益的。我的論文工作在這一挑戰的多個方面取得了進展,通過探索學習多語言多模態表示的新興趨勢,促進了對各種語言的圖像、視頻和文本等異構內容的建模和推理。在本文的第一部分中,我指出了現有英語圖像表示學習的局限性,為廣義多語言多模態表示學習鋪平了道路。雖然之前的工作主要是將整個圖像與相應的英文標題相關聯,但我認為這種對應應該更加精細,甚至是多語言的。結果表明,基于注意力和面向對象的多語言多模態表示學習方法可以有效地改進跨模態搜索和多模態機器翻譯等終端任務。**本文的第二部分研究了視覺-語言模型的跨語言泛化。本文解決了大規模任務無關的多語言多模態預訓練中的可擴展性挑戰,以及在對最終任務進行微調時缺乏注釋的挑戰。**為了用有噪聲的百萬規模的未經整理的教學視頻及其各種語言的轉錄進行學習,我分析了多模態自監督學習中理想的支持集大小,并提出了一個重建目標來緩解這種瓶頸。此外,我探索了多語言多模態預訓練并構建了Multi-HowTo100M數據集,該數據集由1.2億個視頻片段及其在9種語言中的轉錄組成,以改善視覺-語言模型的零樣本跨語言遷移。最后,在特定任務的微調中,利用自動視覺語義來學習稀疏的英語視覺注釋。當非英語標注稀缺或不可用時,本文研究了視覺旋轉監督和無監督多模態機器翻譯,將英語視覺數據翻譯為非英語視覺數據,以進行多語言多模態微調。本文的工作為增強視覺-語言模型的跨語言泛化能力帶來了顯著的突破。我相信所提出的方法和釋放的資源將是邁向多語言視覺-語言模型的關鍵一步。
【導讀】Transformer是當下流行的模型。牛津大學等學者發布首篇《Transformer多模態學習》綜述論文,23頁pdf涵蓋310篇文獻全面闡述MMT的理論與應用。
Transformer是一種很有前途的神經網絡學習器,在各種機器學習任務中都取得了很大的成功。隨著近年來多模態應用和大數據的普及,基于Transformer 的多模態學習已成為人工智能研究的熱點。本文介紹了面向多模態數據的Transformer 技術的全面綜述。本次綜述的主要內容包括:(1)多模態學習、Transformer 生態系統和多模態大數據時代的背景,(2)從幾何拓撲的角度對Vanilla Transformer、Vision Transformer和多模態Transformer 進行理論回顧,(3)通過兩個重要的范式,即多模態預訓練和具體的多模態任務,對多模態Transformer 的應用進行回顧。(4)多模態Transformer 模型和應用共享的共同挑戰和設計的總結,以及(5)對社區的開放問題和潛在研究方向的討論。
//www.zhuanzhi.ai/paper/0da69832c8fd261e9badec8449f6fe80
人工智能(AI)的最初靈感是模仿人類的感知,如視覺、聽覺、觸覺、嗅覺。通常情況下,一個模態通常與創建獨特通信通道的特定傳感器相關聯,例如視覺和語言[1]。對于人類來說,我們感官感知的一個基本機制是,為了在動態的、不受約束的環境下恰當地參與世界,我們能夠共同利用多種感知數據模式,每一種模式都是具有不同統計特性的獨特信息源。例如,一幅圖像通過數千個像素給出了“大象在水中玩耍”場景的視覺外觀,而相應的文本則用一個使用離散單詞的句子描述了這一時刻。從根本上說,多模態人工智能系統需要攝取、解釋和推理多模態信息源,以實現類似人類水平的感知能力。多模態學習(MML)是一種構建人工智能模型的通用方法,可以從多模態數據[1]中提取和關聯信息。
本綜述聚焦于使用Transformers[2]進行多模態學習(如圖1所示),其靈感來自于它們在建模不同模態(例如,語言、視覺、聽覺)和任務(例如,語言翻譯、圖像識別、語音識別)方面的內在優勢和可擴展性,并且使用較少的模態特定架構假設(例如,翻譯不變性和視覺中的局部網格注意偏差)[3]。具體地說,Transformer的輸入可以包含一個或多個令牌序列,以及每個序列的屬性(例如,形態標簽、順序),自然地允許在不修改架構的情況下使用MML[4]。此外,學習每模態特異性和多模態相關性可以簡單地通過控制自注意力的輸入模式來實現。關鍵的是,最近在不同學科探索Transformer架構的研究嘗試和活動激增,導致近年來開發了大量新穎的MML方法,以及在[4]、[5]、[6]、[7]、[8]等不同領域取得了顯著和多樣的進展。這就需要對具有代表性的研究方法進行及時的回顧和總結,以使研究人員能夠理解MML領域各相關學科的全局圖景,更重要的是能夠獲得當前研究成果和主要挑戰的整體結構圖。
為了提高不同學科之間的可讀性和可達性,本文采用了一種兩層的結構化分類法,分別基于應用維度和挑戰維度。這有幾個好處:(1)在特定應用領域具有專長的研究人員可以在連接到其他相關領域之前找到適合自己研究領域的應用。(2)將不同領域發展的相似模型設計和體系結構歸納在一個抽象的、公式驅動的視角下,使不同應用中形成的各種模型的數學思想在共同點上相互關聯和對比,跨越特定領域的限制。至關重要的是,我們的分類法提供了一個有趣的立體視角,個人作品在應用特異性和配方普遍性的見解。希望這有助于打破領域界限,促進更有效的理念溝通和跨模式交流。通過使用提示建模策略[9]作為研究的基礎,我們還包括了經典的分類問題(例如圖像分類)——通常被認為是傳統MML綜述中的單一模態學習應用——[1],[10],[11]——作為特殊的MML應用。
本綜述將討論Transformer架構的多模態具體設計,包括但不限于以下幾種模態:RGB圖像[5],深度圖像[13],視頻[7],音頻/語音/音樂[13],[14],[15],表[16],場景圖/布局[17],[18],[19],姿勢骨架[20],SQL[21],[22],菜譜[23],編程語言[24],手語[25],[26],[27],點云[28],符號知識(圖)[29],[30],多模式知識圖譜[31],草圖繪制[32],[33],[34],[35],3D對象/場景[36],[37],[38],文檔[39],[40],[41],[42],編程代碼[43]和抽象語法樹(AST)——一類圖[44]、光流[45]、醫學知識(如診斷代碼本體[46])。注意,本綜述將不討論多模態論文,其中Transformer只是作為特征提取器使用,而沒有多模態設計。據我們所知,這是第一個全面回顧基于Transformer的多模態機器學習的狀態。
這項綜述的主要特點包括:(1)我們強調Transformer的優勢是它們可以以一種模式無關的方式工作。因此,它們與各種模態(以及模態的組合)兼容。為了支持這一觀點,我們首次從幾何拓撲的角度對多模態環境下Transformer的內在特征進行了理解。我們建議將自注意視為一種圖風格的建模,它將輸入序列(包括單模態和多模態)建模為一個全連接圖。具體地說,自注意模型將任意模態中的任意標記嵌入為一個圖節點。(2) 我們在多模態環境中盡可能以數學的方式討論Transformer的關鍵部件。(3)基于Transformer,跨模態交互(如融合、對齊)本質上是由自注意及其變體處理的。在本文中,我們從自注意力設計的角度,提取了基于MML實踐的Transformer的數學本質和公式。在介紹了我們對多模態學習、Transformer生態系統和多模態大數據時代的綜述之后,我們總結了我們的主要貢獻如下。(1)我們從幾何拓撲的角度對Vanilla Transformer、視覺Transformer和多模態Transformer進行了理論回顧。(2)我們從兩個互補的角度對基于Transformer的MML進行了分類,即基于應用和基于挑戰。在第4節中,我們通過兩個重要的范例,即多模態預訓練和具體的多模態任務,對多模態Transformer的應用進行了回顧。在第5節中,我們進行總結各種多模態Transformer 模型和應用所共享的共同挑戰和設計。(3)討論了基于Transformer 的MML技術目前的瓶頸、存在的問題和潛在的研究方向。
多模態機器學習是一個充滿活力的多學科研究領域,通過設計計算機代理來解決人工智能的一些原始目標,這些代理能夠通過整合和建模多種交互模態,包括語言、聽覺和視覺信息。隨著對視聽語音識別的初步研究,以及近年來對圖像和視頻字幕、視覺問答和語言引導強化學習等語言和視覺項目的研究,這一研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和模態之間的偶然性經常被發現。
多模態機器學習(MMML)是一個充滿活力的多學科研究領域,研究從多個模態建模異構數據的計算方法。本課程介紹機器學習和深度學習的基本概念,涉及多模態機器學習的五個主要挑戰:(1)多模態表示,(2)模態對齊,(3)多模態推理,(4)翻譯和映射,(5)協同學習。本講座還討論了最新的多模態深度學習模型和方向。
我們對世界的體驗是多模態的,然而深度學習網絡傳統上是為圖像、音頻片段或文本等單模態輸入而設計和訓練的。在這篇論文中,我們提出了策略來利用多模態信息(以視覺、文本、語音和非語音音頻的形式)來自動理解以人為中心的視頻。本文提出的關鍵思想是 (i)跨模態監督,(ii)自監督表示學習和(iii)模態融合。在跨模態監督中,來自監督豐富的模態的數據標簽被用于學習另一個缺乏監督的目標模態的表示,從而避免了在目標模態域中昂貴的手動注釋的需要。這有效地利用了模態之間的冗余或重疊信息。我們將展現該技術在三個不同任務中的效用; 首先,我們使用人臉識別和視覺主動說話人檢測來管理一個被稱為VoxCeleb的大規模人類語音視聽數據集,對其進行訓練,產生了最先進的說話人識別模型; 其次,我們訓練了一個基于文本的模型來預測僅從轉錄的語音中的動作標簽,并將這些標簽轉移到相應的視頻中。使用這些標簽進行的訓練使我們能夠在完全監督的動作識別模型上表現得更好,而這些模型是通過昂貴的人工監督進行訓練的; 第三,我們從為情感識別而訓練的人臉模型中提取信息到語音領域,而在語音領域,手動情感標注是昂貴的。本文探討的第二個關鍵思想是利用模態冗余進行自監督表示學習。在這里,我們學習了在沒有任何人工監督的情況下,在任何一種模式下的視聽表示,特別是對于人類的面孔和聲音。與現有的表示不同,我們的聯合表示支持從音頻到視覺的跨模態檢索,反之亦然。然后,我們將這項工作擴展到明確地消除習得偏見,從而實現更大的泛化。最后,我們通過開發新的模態融合架構,有效地結合不同模式下的互補信息。通過將視頻中的多個模態的信息提取到一個單一的、緊湊的視頻表示,我們實現了對可能丟失、損壞、閉塞或具有不同級別背景噪聲的單峰輸入的魯棒性。利用這些模型,我們在動作識別和視頻文本檢索方面都取得了最先進的結果。
//www.robots.ox.ac.uk/~vgg/publications/2020/Nagrani20e/nagrani20e.pdf
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。
引言
深度學習已經實現了廣泛的應用,并在近年來變得越來越流行。多模態深度學習的目標是創建可以使用各種模態處理和鏈接信息的模型。單模態學習雖然得到了廣泛的發展,但還不能涵蓋人類學習的所有方面。多模態學習有助于更好地理解和分析不同感官參與信息處理的過程。本文著重于多種模態,即圖像、視頻、文本、音頻、身體手勢、面部表情和生理信號。本文詳細分析了過去和當前的基準方法,并對多模態深度學習應用的最新進展進行了深入研究。提出了多種多模態深度學習應用的細粒度分類,并對不同的應用進行了更深入的闡述。還討論了這些應用中使用的架構和數據集,以及它們的評估指標。最后,分別對各個領域的主要問題和未來可能的研究方向進行了重點分析。
//www.zhuanzhi.ai/paper/eaf89268e664a48119b223b0c86a7ed1
概述
機器學習(ML)是近年來研究的熱點。它已經在圖像識別、多媒體概念檢索、社會網絡分析、視頻推薦、文本挖掘等領域得到了廣泛的應用。深度學習(Deep Learning, DL)在這些應用中得到了廣泛的應用[117]。計算技術的指數級增長、不可思議的發展和數據可用性促成了DL研究的興起。DL的成功已經成為解決更復雜的ML問題的一個激勵因素。此外,DL的主要優點是它以分層的形式表示,即它可以通過一個通用的學習過程有效地學習。各種新的DL方法已經被開發出來,并在多個應用中顯示出令人印象深刻的結果,如視覺數據處理、自然語言處理(NLP)、語音和音頻處理,以及許多其他廣為人知的應用。多模態深度學習(Multimodal Deep learning, MMDL)是近年來隨著深度學習的發展而引起的重要研究方向。
我們對周圍事物的體驗是多模態的;我們能看到、聽到、觸摸、聞到和嘗到東西。捕獲對象的多個方面,以圖像、文本、視頻、圖形、聲音等不同媒體形式傳遞信息。模態指定存儲特定類型信息的表示格式。因此,上面提到的各種媒體形式都與模態有關,而這些多模態的共同表示可以定義為multimodal[47]。然而,對人類的全部方面進行建模是不夠的。單模態工作更好的地方,方法的進展需要在一個模式。多模態學習表明,當多種感官參與信息處理時,我們能更好地理解和分析。本文著重討論了各種各樣的模態,本文從MMDL的角度探討了多種模態,包括圖像、視頻、文本、音頻、肢體動作、面部表情和生理信號。MMDL的主要目標是構建一個能夠處理來自不同模式的信息并將其關聯起來的模型。
人工智能(AI)的未來已經被DL徹底改變。它解決了AI社區中存在多年的幾個復雜問題。對于MMDL,快速設計了各種具有不同學習框架的深度架構。機器開發出來了在其他應用領域,如自動駕駛汽車、圖像處理、醫療診斷和預測預測等,表現得與人類相似,甚至更好[129]。MMDL的最新進展和發展趨勢包括視聽語音識別(AVSR)[173]、多模態情感識別[26]、圖像和視頻字幕[58,89]、視覺問答(VQA)[161]、多媒體檢索[134]等.
在本研究中,我們討論了多模態深度學習的最新進展和趨勢。各種DL模型被劃分為不同的應用程序組,并使用多種媒體進行了詳盡的解釋。本文重點介紹了使用圖像、音頻、視頻、文本、身體姿勢、面部表情和生理信號等多種形式的應用,并與之前的相關調查進行了比較。提出了一種新的多模式DL應用的細粒度分類方法。此外,還提供了在這些MMDL應用中使用的體系結構、數據集和評估指標的簡要討論。最后,針對每一組應用分別提出了有待解決的研究問題,并詳細列出了未來可能的研究方向。我們希望我們提出的分類和研究方向將促進未來多模態深度學習的研究,并有助于更好地理解這一特定領域尚未解決的問題。
模態是指事物發生或存在的方式,如文字、語言、聲音、圖形等。多模態學習是指學習多個模態中各個模態的信息,并且實現各個模態的信息的交流和轉換。多模態深度學習是指建立可以完成多模態學習任務的神經網絡模型。多模態學習的普遍性和深度學習的熱度賦予了多模態深度學習鮮活的生命力和發展潛力。旨在多模態深度學習的發展前期,總結當前的多模態深度學習,發現在不同的多模態組合和學習目標下,多模態深度學習實現過程中的共有問題,并對共有問題進行分類,敘述解決各類問題的方法。具體來說,從涉及自然語言、視覺、聽覺的多模態學習中考慮了語言翻譯、事件探測、信息描述、情緒識別、聲音識別和合成,以及多媒體檢索等方面研究,將多模態深度學習實現過程中的共有問題分為模態表示、模態傳譯、模態融合和模態對齊四類,并對各問題進行子分類和論述,同時列舉了為解決各問題產生的神經網絡模型。最后論述了實際多模態系統,多模態深度學習研究中常用的數據集和評判標準,并展望了多模態深度學習的發展趨勢。