亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多模態表示學習是一種學習從不同模態及其相關性中嵌入信息的技術,已經在視覺問答(Visual Question Answering, VQA)、視覺推理自然語言(Natural Language for Visual Reasoning, NLVR)和視覺語言檢索(Vision Language Retrieval, VLR)等領域取得了顯著的成功。在這些應用中,來自不同模態的跨模態交互和互補信息對于高級模型執行任何多模態任務至關重要,如理解、識別、檢索或優化生成。研究人員提出了不同的方法來解決這些任務。

//www.zhuanzhi.ai/paper/e354713123ff3c4d72713e37300d0784

**基于transformer的架構的不同變體在多種模態上表現出色。本綜述介紹了關于深度學習多模態架構的進化和增強,以處理各種跨模態和現代多模態任務的文本、視覺和音頻特征的全面文獻。**本文總結了(i)最近任務特定的深度學習方法,(ii)預訓練類型和多模態預訓練目標,(iii)從最先進的預訓練多模態方法到統一架構,以及(iv)多模態任務類別和未來可能的改進,可以設計出更好的多模態學習。為新研究人員準備了一個數據集部分,涵蓋了預訓練和微調的大多數基準。最后,探討了面臨的主要挑戰、差距和潛在的研究方向。與我們的綜述相關的不斷更新的論文列表保存在

1. 引言

**多模態系統利用兩個或多個輸入模態,如音頻、文本、圖像或視頻,來產生與輸入不同的輸出模態。**跨模態系統是多模態系統的一個分支,它利用一種模態的信息來增強另一種模態的性能。例如,多模態系統將使用圖像和文本模態來評估情況并執行任務,而跨模態系統將使用圖像模態來輸出文本模態[1,2]。視聽語音識別(AVSR)[3]、檢測模因[4]中的宣傳和視覺問答(VQA)[5]都是多模態系統的例子。多模態表示學習技術通過分層處理原始異構數據來縮小不同模態之間的異構鴻溝。來自不同模態的異構特征以上下文信息[6]的形式提供額外的語義。因此,互補信息可以通過多種模態學習到。例如,視覺模態可以通過在AVSR中提供[7]唇動來幫助語音識別。最近的深度學習方法的高級變體通過在表示空間中映射不同的模態,解決了經典的多模態挑戰(相關性、翻譯、對齊、融合)。

近年來,大量針對特定任務的深度學習方法提升了不同多模態任務的性能[8]。最近,由于語義豐富的表示和大規模公開可用模型[9],自然語言處理(NLP)和計算機視覺(CV)的預訓練和微調的實現得到了最大的關注。**本文回顧了深度多模態學習方法的演變,并討論了使主干對各種下游任務具有魯棒性所需的預訓練的類型和目標。**大多數預訓練方法都基于Transformer,這提出了統一架構的想法,以處理所有下游任務的所有模態[10]。本綜述全面介紹了最近幾種預訓練和統一架構的方法,以及它們在基準、應用和下游任務評估上的性能。

**去年,已經發表了一些關于視覺語言預訓練的研究[11,12]。相比之下,我們涵蓋了在最近的工作[13]中展示的視覺、語言和音頻預訓練模型的架構細節。**除了討論預訓練類型外,我們還回顧了預訓練目標的通用和多模態版本。此外,我們總結了最近的統一架構(通用模型),這些架構消除了對不同下游任務的微調,最終減少了時間和計算復雜性。與最近的調研相反,我們更關注由視覺和音頻模式增強的NLP應用,例如情感分析、文檔理解、假新聞檢測、檢索、翻譯和其他推理應用。圖1展示了本次調研中包含的深度學習多模態論文的分類百分比。該柱狀圖顯示了每年互聯網上深度學習多模態方法的發展和可用性。本次調研的貢獻如下: 我們對多模態表示學習技術進行了全面的調研,以有效的方式彌合語言、視覺和音頻輸入之間的差距。

解決多模態的特定任務和基于transformer的預訓練架構的發展。 * 詳細闡述了預訓練類型、多模態學習的高級預訓練目標、詳細的架構討論和比較。 * 統一架構的開發,以解決所有下游任務的多種模式進行調研。 * 我們開發了深度多模態架構和復雜多模態應用的分類。 * 數據集部分描述了用于預訓練、微調和評估多模態方法的所有基準的綜合信息,為初學者提供了現成的詳細信息。 * 最后,闡述了該領域的主要挑戰、開放缺口和可能的未來預測。

2. 多模態深度學習方法

本節介紹了多模態架構的眾多變體,主要分為特定任務架構和預訓練-微調架構(管道如圖2所示)。圖3展示了第3節的分類。第3.1節是本研究中提到的任務的首字母縮略詞。第3.2節全面總結了特定任務的方法,這些方法是近年來轉變為大規模預訓練方法的先進多模態方法的基礎。第3.3節演示了在多模態數據集上訓練的預訓練過程、類型、目標和SOTA框架,以執行增強的NLP和跨模態任務。此外,本文最后還詳細介紹了最近獲得關注的統一體系結構。第3.4小節對SOTA方法在各種多模態任務上產生的結果進行了比較討論。

3. 多模態應用

本節展示了由深度學習架構增強的多模態應用程序的分類細節,如圖4所示。多模態任務分為主要類別:理解、分類、檢索和生成。針對每個多模態應用,討論了最佳性能架構的基準、評估指標、描述和比較。

付費5元查看完整內容

相關內容

隨著對廣義深度模型的迫切需求,許多預訓練大模型被提出,如BERT、ViT、GPT等。受這些模型在單一領域(如計算機視覺和自然語言處理)成功的啟發,多模態預訓練大模型近年來也引起了越來越多的關注。在這項工作中,我們對這些模型進行了全面的綜述,希望本文能夠提供新的見解,幫助新的研究人員跟蹤最前沿的工作。**具體而言,我們首先通過回顧傳統深度學習、自然語言過程、計算機視覺和語音中的預訓練工作,介紹了多模態預訓練的背景;然后,我們介紹了多模態預訓練模型(MM-PTMs)的任務定義、主要挑戰和優勢,并討論了MM-PTMs,重點是數據、目標、網絡架構和知識增強的預訓練。**在此之后,我們介紹了用于大規模MM-PTMs驗證的下游任務,包括生成、分類和回歸任務。我們還對典型下游任務的模型參數和結果進行了可視化和分析。最后,我們指出了本課題可能的研究方向,對今后的工作有所裨益。此外,我們維護了一個持續更新的大規模預訓練多模態大模型的論文列表://github.com/wangxiao5791509/MultiModal BigModels survey

1. 引言

隨著AlexNet[1]在ImageNet比賽[2]上的識別性能的突破,人工智能有了很大的發展。提出了許多具有代表性的深度神經網絡,如VGG[3]、ResNet[4]、Inception[5]、LSTM[6]等。研究人員通常為他們的任務收集和注釋一些樣本,并基于大規模數據集上預訓練的基座訓練他們的模型(例如用于計算機視覺的ImageNet[2],用于自然語言處理的Glove[7]和Skip-thought vectors[8])。與傳統的手工功能相比,許多任務都可以通過這種端到端方式很好地解決,例如目標檢測、分割和識別。然而,所得到的深度模型泛化能力仍然有限。收集和注釋一個更大的數據集可以在一定程度上解決這些問題,但這個過程是昂貴和乏味的。 為了解決這個問題,Ashish等人提出了Transformer網絡[9],該網絡在機器翻譯任務上取得了新的SOTA(最先進的)性能。之后,在大規模語料上進行自監督預訓練,然后在下游任務上進行微調,吸引了越來越多研究者的關注。許多預訓練的大模型都是遵循這樣的范式提出的,如BERT [10], GPT [11,12], T5 [13], XLNet[14],也引發了CV領域預訓練的新研究熱點。越來越多的大規模NLP和CV模型通過預訓練和微調范式展示了強大的效果,包括ViT[15]和Swin-Transformer[16]。

盡管這一進展為人工智能的發展帶來了新的動力,然而,單模態缺陷所帶來的問題仍然難以解決。研究人員試圖納入更多模態來彌合深度模型的數據差距。許多基于多模態融合的任務也采用傳統的深度學習方式進行探索,如RGB、深度、自然語言、點云、音頻、事件流等。許多大規模預訓練多模態模型[17-23]被提出,這些模型在下游任務上相繼設置新的SOTA,如圖1所示。文中對這些工作進行了全面的綜述,旨在幫助感興趣的研究者快速了解該領域的歷史和最新發展。

綜述組織。文中首先回顧了多模態預訓練技術的研究背景,從傳統的深度學習范式到單模態任務的預訓練,包括自然語言處理、計算機視覺和自動語音處理。然后,在3.1節和3.2節中,重點介紹MM-PTMs,并描述任務定義、關鍵挑戰和好處。在以下子節中還將審查關鍵組件,包括大規模數據、網絡架構、優化目標和知識增強的預訓練。為了驗證預訓練模型的有效性,使用許多下游任務進行定量評估。在第4節中,詳細回顧了這些任務的任務定義和評估指標。在第5節中,我們回顧了用于訓練的模型參數和硬件,并報告了幾個代表性下游任務的實驗結果。最后,在第6節中,總結了本綜述并提出了多個需要研究的研究方向。這個綜述的架構如圖2所示。

與現有評論的區別。雖然已經有兩項針對MM-PTMs的綜述[24,25],但我們的綜述與現有綜述之間的差異可以總結如下: * 范圍:現有的多模態綜述[24,25]只關注視覺-語言,然而,多模態信息問題是一個更廣泛的研究主題。本文比上述綜述更全面,引入了更多的模態,如音頻、視頻、表格等。 * 時效性:本文介紹了針對多模態預訓練提出的最新數據集和算法(從2019年到2022年6月),這是一個很長的綜述,同時,他們的工作屬于短論文。 * 對MM-PTMs的新見解:通過從不同的角度對現有MM-PTMs進行分類和分析,本文可以幫助讀者從詳細和高層次的角度掌握最前沿的方法和技術。此外,提出的MM-PTMs研究方向是經過深思熟慮的,將為后續研究提供新的線索。

2. 多模態預訓練

**任務的定義。**通常,深度神經網絡是在大規模數據集上進行訓練的,例如,廣泛使用的殘差網絡[4]是在ImageNet數據集[2]上使用分類任務進行預訓練的。相比之下,多模態預訓練大型模型通常在大規模訓練數據集上進行訓練。通常,這些數據由于規模太大而無法標注,因此沒有標注標簽。另一方面,參數需要達到一定的規模。如圖4所示,多模態數據、大模型和計算能力是緊密聯系的。總之,多模態預訓練通常是指在計算能力的支持下,對海量多模態數據進行無監督的預訓練,即具有大量參數的多模態模型。

與單模態預訓練大模型相比,MM-PTMs更適合實際應用場景。具體而言,MM-PTMs可以很好地解決多模態協同生成、模態補全、跨域檢索等問題。同時,多模態數據包含更多的信息,可以彌補單一模態的缺陷。因此,MM-PTMs有助于提取多模態的共同特征。最近的許多工作表明,MM-PTMs的使用確實帶來了額外的先驗知識[76-78]。與小規模的多模態模型相比,通過自監督/無監督學習得到的MM-PTMs的泛化能力顯著提高。由于一些先驗知識僅包含在海量的大數據中,而人工選擇的少量標注數據存在偏差,因此小規模模型很難掌握這些知識。

預訓練數據集

如表2所示,針對預訓練任務提出了許多大規模多模態數據集。在本小節中,我們將簡要介紹這些數據集,以幫助讀者快速掌握預訓練所需的數據信息。

預訓練目標

如何設計學習目標是多模態預訓練中非常重要的一步。目前,提出了以下學習目標,包括對比損失、生成損失等。

預訓練架構

在大規模預訓練時代,目前大多數預訓練模型的靈感來自Transformer(主要由自注意力層組成)。它最初是在2017年為自然語言處理任務[9]開發的,它在許多下游任務上大幅提高了新的SOTA性能。此類框架也被引入計算機視覺領域,因此,針對各種任務和輸入設計統一的網絡架構是當前的研究熱點。

多層transformer廣泛應用于目前許多MM-PTMs中。每個模態的輸入首先由獨立的編碼器提取作為特征嵌入,然后與其他模態進行交互。根據多模態信息融合方式的不同,MM-PTMs可分為單模態和跨模態兩類。在本小節中,我們將分別介紹這兩種架構。

目前的大規模預訓練多模態模型大多采用concate、add、Mergeattention、Co-attention和Cross-attention[132]來實現模態之間的交互學習。以下各段將介紹這些模塊。

預訓練知識利用

傳統的預訓練模型邏輯推理能力差,缺乏可解釋性。為了緩解這些問題,在預訓練模型中直接涉及知識,對數據的深入理解,即使用知識進行預訓練,也稱為知識增強預訓練模型(KEPTMs),如圖9所示。

3. 下游任務

在預訓練階段之后,研究人員通常會在許多下游任務中測試他們的模型,以驗證這種強大的能力。具體來說,驗證采用了生成任務、分類任務、回歸任務,下面將討論這些任務。快速學習作為一種新的學習范式,以修改下游任務來適應預先訓練好的大模型為目標,受到越來越多的關注。本部分還對幾種有代表性的提示學習算法進行了綜述。這些下游任務的概述如圖10所示。

付費5元查看完整內容

近年來,人工智能(AI)及其應用引發了極大的興趣。這一成就可以部分歸因于人工智能子領域的進步,包括機器學習(ML)、計算機視覺(CV)和自然語言處理(NLP)。深度學習是機器學習的一個子領域,它采用人工神經網絡的概念,使這些領域增長最快。因此,視覺和語言的融合引發了很多關注。這些任務的創建方式恰當地示范了深度學習的概念。本文對最先進的方法、關鍵模型設計原則進行了全面和廣泛的回顧,并討論了現有的數據集、方法及其問題表述和評估措施,用于VQA和視覺推理任務,以理解視覺和語言表示學習。本文還提出了該研究領域的一些潛在未來路徑,希望我們的研究可以產生新的想法和新方法,以處理現有的困難和開發新的應用。

//www.zhuanzhi.ai/paper/c05fe89db0bbc0ddc6f7535150f36371

1. 引言

深度神經網絡(DNNs)的最新進展促進了人工智能(AI)許多領域的研究,如自然語言處理(NLP)和計算機視覺(CV)。隨著計算資源的指數級增長和數據集規模的不斷增大,卷積神經網絡(CNN)[1]、循環神經網絡(RNNs)[2]和自編碼器[3]等DNNs模型在目標檢測[4]、機器翻譯[5]、圖像標題生成[6]、語音識別[7]等機器學習(ML)任務中取得了巨大的勝利。盡管如此,在處理混合了兩個通常獨立領域的語義和視覺數據的問題時,仍然存在一些好奇心。解決集成問題的方法應該支持視覺或文本信息的全面知識。

盡管最近取得了一些進展,但在一些需要對關系和圖結構數據進行推理的研究領域,如場景圖[8]和自然語言理解,智能體和人腦之間仍然存在巨大的差距。人類可以快速識別物體、它們在網格上的位置和圖像等歐幾里得數據,推斷它們的關系,識別活動,并響應關于圖像的隨機問題。建立一個具有計算機視覺和自然語言能力的系統模型,該系統可以回答關于圖像的隨機問題,這似乎很鼓舞人心。

有效地解決上述及相關問題可以帶來許多可能的應用。例如,視覺障礙者可以受益于視覺場景理解,這允許他們通過生成的描述獲取有關場景的信息并提出有關問題。理解監控視頻是另一個用途。[9]、自動駕駛[10]、視覺解說機器人、人機交互[11]、城市導航[12]等解決這些問題通常需要對圖像內容進行更高層次的推理。鑒于基礎和應用研究的廣泛跨度,近年來進行了各種調查,以提供視覺和語言任務集成的徹底概述。另一方面,這些研究側重于涉及語言和視覺融合的特定任務,如圖像描述[13-15]視覺問答[16,17]、動作識別[18]和視覺語義[19]。

本文對最先進的方法、關鍵模型設計原則進行了全面和廣泛的回顧,并討論了用于VQA和視覺推理任務的現有數據集和方法,以理解視覺和語言表示學習。首先,以視覺和語言表示學習任務為例介紹了視覺問答(VQA)和視覺推理。詳細探索了現有的標注數據集驅動的這些領域的巨大進步。然后,進一步介紹了視覺問答和視覺推理的現有方法和最新進展;最后,討論了存在的問題和未來可能的研究方向。

2. 視覺與語言

視覺和語言(V+L)研究是CV和NLP交叉的一個迷人的領域,它受到了兩個群體的大量關注。許多V+L挑戰促使組合式多模態表示學習取得了重大進展,已經在大規模人工標注數據集上進行了基準測試。V+L的基礎是視覺理解主題,例如流行的ResNet,它提取CNN特征。其次是語言理解,其最終目標是多模態學習。

3. 數據集

我們有許多大規模的標注數據集,這些數據集正在推動這一領域的巨大進步。VQA領域是如此復雜,一個合適的數據集應該足夠大,以表示現實世界中問題和視覺材料中的各種各樣的選項。事實上,在過去的幾年里,有許多流行的數據集來解決VQA和視覺推理的挑戰。我們將在接下來的幾節中討論在這項艱巨任務中經常使用的數據集。

4. 方法

在過去的五年中,發展了大量的視覺問答和視覺推理方法。另一方面,所有已知的方法都是從問題和圖像中提取特征,然后將特征組合起來給出答案。詞袋模型(BOW)[61],長短期記憶網絡(LSTM)[62],門控循環單元(GRU),編碼器和跳過思維向量都可以用于文本。在ImageNet上預訓練的CNN是最受歡迎的圖像特征選擇。在生成答案時,大多數技術都將問題表示為分類練習。因此,這些技術之間的主要區別在于它們如何合并文本和視覺數據。例如,將它們連接起來并通過線性分類器運行。此外,貝葉斯模型也可以用來表示問題、圖像和答案特征分布之間的核心關系。在本節中,我們將介紹幾種最近為VQA和視覺推理任務提出的架構。將這些模型分為三個主要部分:外部知識、神經網絡和顯式推理。下面我們將更詳細地討論每一節。

付費5元查看完整內容

多模態機器學習領域,為特定任務而制作的人工標注數據昂貴,且不同任務難以進行遷移而需要大量重新訓練,導致訓練多個任務的效率低下和資源浪費。預訓練模型通過以自監督為代表的方式進行大規模數據訓練,對數據集中不同模態的信息進行提取和融合,以學習其中蘊涵的通用知識表征,從而服務于廣泛的相關下游視覺語言多模態任務,這一方法逐漸成為人工智能各領域的主流方法。依靠互聯網所獲取的大規模圖文對與視頻數據,以及以自監督學習為代表的預訓練技術方法的進步,視覺語言多模態預訓練模型在很大程度上打破了不同視覺語言任務之間的壁壘,提升了多個任務訓練的效率并促進了具體任務的性能表現。為總結視覺語言多模態預訓練領域的進展,本文首先對常見的預訓練數據集和預訓練方法進行了匯總,然后對目前最新的以及近年來經典的方法進行系統概述,按輸入來源分為了圖像-文本預訓練模型和視頻-文本多模態模型兩大類,闡述了各方法之間的共性和差異,并將各模型在具體下游任務上的實驗情況進行了匯總。最后,本文總結了視覺語言預訓練面臨的挑戰和未來發展趨勢。

深度學習(deep learning, DL)方法在計算機視 覺(computer vision, CV)、自然語言處理(nature language processing, NLP)以及多模態機器學習(multimodal machine learning, MMML)的各個具體任務 上取得了令人矚目的進展,但不同任務之間需要使 用專有的數據進行訓練,大量的重新訓練使得時間 和經濟成本顯著增加。預訓練模型(pre-trained model, PTM)與微調(fine-tuning)相結合的范式旨在緩解 這一困難,預訓練模型首先在大規模通用數據集上 利用自監督為代表的方式進行預訓練,使得模型在 遷移至下游任務之前學習到通用的表征,然后在小 型專有數據集中進行微調得以獲取特定任務知識 (Yosinski 等,2014)。這一方法在很大程度上打破 了各具體任務之間的壁壘,在避免重新訓練所造成 的資源浪費的同時,對下游任務的性能起到促進作 用。Transformer(Vaswani 等,2017)是當前預訓練 模型最為廣泛使用的基礎結構,其因為在處理長距 離依賴關系方面的優勢,最初在機器翻譯方面取得 了成功,隨后廣泛用于 NLP 領域。GPT(Radford 等, 2018)采用 Transformer 作為模型預訓練的基礎結構 在大規模語料庫中進行預訓練,將學習到語言知識 的參數模型用于具體任務,實驗中 12 個下游的 NLP 任務性能取得了顯著的提升。BERT(Devlin 等,2019) 采用了雙向語言模型進行預訓練,在語料中隨機對 15%的單詞令牌(token)進行掩碼,要求模型可以 預測出原有單詞令牌,此外還進行了句子預測任務, 實驗中 11 個下游的 NLP 任務性能取得了提升。隨 后的若干工作(Dong 等,2019;Liu 等,2019a;Radford 等,2019;Shoeybi 等,2019;Zellers 等, 2019;Yang 等,2019;Brown 等,2020;Lewis 等, 2020;Raffel 等,2020;Zhang 等,2020b,2021b;Fedus 等,2021;Sun 等,2021;琚生根 等,2022;強繼朋 等,2022)證明預訓練的語言模型能夠普適 地對下游任務性能起到促進作用。受到 NLP 領域的 啟發,CV 方面的研究者也相繼開展基于Transformer 的視覺預訓練工作。ViT(Dosovitskiy 等,2021)將圖像的補丁塊(patch)作為序列輸入 Transformer 進 行預訓練,克服 Transformer 結構難以處理圖像輸入 這一困難。CLIP(Radford 等,2021)將自然語言作 為監督以提升圖像分類效果,使用對比學習 (contrastive learning, CL)方法促進圖像和文本的匹 配能力。MAE(He 等,2021a)將 NLP 中常用的自 監督方法用于 CV 預訓練,其通過訓練自編碼器, 預測經過隨即掩碼而缺失的圖像 patch,從而高效、 準確地進行圖像分類任務。

人類最具有抽象知識表達能力的信息為語言信息,而人類獲取的最豐富的信息為視覺信息,上述工作分別在這兩種模態上開展預訓練并取得的成功。視覺語言任務(vision-and-language task)(Pan 等, 2016a,b;Tapaswi 等,2016;Yu 等,2016a;Jang 等,2017;Maharaj 等,2017)是典型的多模態機器 學習任務,其中視覺和語言兩種模態的信息互相作 為指引,需讓不同模態的信息對齊和交互,進行視 覺語言預訓練(visual-language pre-training, VLP)工 作并提升模型在下游的視覺問題回答(visual question answering, VQA)(Johnson 等,2017)、視頻描 述(video captioning)(Zhou 等,2018a,b,2019;)、 文本-視頻檢索(image-text retrieval)(Wang 等,2016, 2019;Song 和 Soleymani,2019b)等任務上的效果。視覺語言任務存在著很大的挑戰。其中一個難點是, 使用何種易于大規模獲得并且含有大量通用知識的 多模態數據來源,以構建訓練數據集;另一個難點 是,怎樣通過有效的機制,將屬性相差巨大的不同 模態的信息進行統一訓練。對于以上問題,一方面,當前的主要方法通過 獲取來自互聯網的圖文對、包含語言描述的教學視 頻、附帶字幕的影視劇以及其他各類視頻等視覺語 言多模態數據,制作涵蓋廣泛常識信息的大規模預 訓練數據集;另一方面,設計能夠處理多種模態信 息的神經網絡模型,通過以自監督為代表的方式進 行大規模數據訓練,對數據集中不同模態的信息進 行提取和融合,以學習其中蘊涵的通用知識表征, 從而服務于廣泛的相關下游視覺語言多模態任務。

當前對預訓練模型的綜述工作主要集中在單模態(Qiu 等,2020;Kalyan 等,2021;Min 等,2021;陳德光 等,2021;韓毅 等,2022),部分工作梳理 視頻-文本多模態類型(Ruan 和 Jin,2021),但較為 全面的 VLP 綜述工作(Chen 等,2022)相對較少。本文梳理最新視覺語言多模態預訓練模型的相關研 究成果,首先對 VLP 模型常用的預訓練數據集和預 訓練方法進行了簡單介紹,然后在介紹基礎結構之 后對 VLP 模型按視覺輸入來源進一步分類, 介紹目 前具有代表性的圖像-文本預訓練模型和視頻-文本 預訓練模型,并根據模型結構不同分為了單流和雙 流類型,重點闡述各研究特點,對不同 VLP 預訓練 模型在主要下游任務上的性能表現也進行了匯總。最后對目前研究面臨的問題進行探討。

1 預訓練數據集與預訓練任務

在各類預訓練任務中,模型性能受預訓練數據 集質量的影響顯著。為了獲取通用的多模態知識, 視覺-語言預訓練任務主要使用帶有弱標簽的視覺語言對進行模型訓練。圖像-文本任務主要為圖像及 標題、內容描述、人物的動作描述等。類似地,視頻 -語言預訓練數據集包含大量的視頻-文本對,其標簽 來源包括視頻中的文字描述以及由自動語音識別 (automatic speech recognition, ASR)技術獲得的文 本信息等。部分模型為針對性提升某一模態的表征 提取能力,在多模態預訓練之外還進行單模態數據 集進行預訓練,使用如圖片數據集與純文本數據集。 預訓練中常用的公開數據集有,圖文數據集 SBU(Ordonez 等,2011),Flickr30k(Young 等, 2014),COCO Captions(Chen 等,2015),Visual Genome(VG)(Krishna 等,2017b),Conceptual Captions (CC, CC3M)(Sharma 等,2018)和 Conceptual 12M (CC12M)(Changpinyo 等,2021),VQA(Antol 等, 2015),VQA v2.0(Goyal 等,2019),Visual7W(Zhu 等,2016),GQA(Hudson 和 Manning,2019)。視 頻數據集 TVQA(Lei 等,2018),HowTo100M(Miech 等,2019),Kinetics(Kay 等,2017),Kinetics-600 (Carreira 等,2018),Kinetics-700(Carreira 等, 2019),YT-Temporal-180M(Zellers 等,2021),WebVid-2M(Bain 等,2021)。單模態圖片數據集 COCO (Lin 等,2014),OpenImages(Krasin 等,2017), 文本數據集 BooksCorpus(Zhu 等,2015)以及 English Wikipedia。數據集信息匯總如表 1 所示,以下對代 表性的數據集做進一步介紹。

預訓練任務

2 預訓練模型

2.1 模型基礎 本文根據特征在進行視覺和語言模態融合處理 之前,是否進行處理,將 VLP 模型按結構分為單流 式(single-stream)和雙流式(cross-stream),其對比 如下圖 1 所示。

單流模型將視覺特征和語言特征直接輸入融合 模塊,進行模型訓練,其典型方式如圖 1(a)所示。雙流模型將視覺特征和語言特征分別進行處理,然 后進行模態間的融合,典型類型包括但不限于圖中三類,圖 1(b1)中,模型首先對兩路特征分別進行 處理,然后進行跨模態融合;如圖 1(b2)中,視覺 特征經過視覺處理模塊后,與文本特征一同送入多 模態融合模塊進行交互;圖 1(b3)中,兩路特征送 入各自處理模塊后進行交互式的參數訓練。

2.2 圖像-文本多模態預訓練模型

單流模型相對雙流模型結構較簡單,一般將圖 像與文本兩種模態信息置于等同重要位置,對圖像 和文本編碼后共同輸入跨模態融合模塊進行預訓練。 對于輸入圖像是否采用采用目標檢測算法,可對研 究進行更細致的分類。

由于圖像和文本信息在屬性上區別較大,將不 同模態輸入置于相同輸入地位可能對模態間匹配造 成不良影響。在這一假設下,部分模型根據多模態 輸入特點設計雙流預訓練模型,使用不同編碼器靈 活處理各自模態特征,并通過后期融合對不同模態 進行關聯。

2.3 視頻-文本多模態預訓練模型

Sun 等人(2019b)提出的 VideoBERT 模型是第 一個將 Transformer 結構拓展到視頻語言預訓練的 工作,模型結構如圖 9 所示。對 ASR 得到的文本輸 入采取常用的類 BERT 處理,對于視頻輸入,按每 秒 20 幀采樣速度從視頻剪切多個 1.5s 視頻片段, 應用預訓練過的 S3D 提取視頻特征,然后采用層級 k 聚類(hierachical k-means)標記視覺特征,以聚類 中心對視頻特征進行矢量量化(vector quantization, VQ)操作。文本與視頻的聯合特征被送入多模態 Transformer進行MLM,VTM和掩蔽視頻預測(video only mask completion, VOM)預訓練任務。VOM 以 聚類的視頻片段作為被掩蔽和預測的視覺單元。模 型目標是學習長時間高級視聽語義特征,如隨時間 推移而展開的事件與動作,采用網絡收集的廚藝教 學視頻作為預訓練數據,在預設下游任務上表現良 好,但由于視覺中心代表的視覺信息難以全面描述 視頻內容,使得模型的泛化性受到一定限制。

Miech 等人(2019)提出了視頻文本預訓練中被 廣泛使用的大規模敘述性視頻數據集 HowTo100M, baseline 方法將提取到的視頻和文本特征映射到相 同維度從而優化模態間的關聯性。Miech等人(2020) 進一步研究發現 HowTo100M 中由于人的講述與畫 面展示不同步,導致大約 50%的視頻剪輯片段與 ASR 描述文本沒有對齊(如圖 10 所示)。為解決這 一偏差問題引入了多實例學習(multiple instance learning, MIL),基于同一視頻中連續時間內畫面語 義相似的前提,在目標視頻片段的相鄰時間內截取 多個視頻-描述對作為對比學習的候選正例。然后采 用噪聲估計 NCE 來優化視頻文本聯合特征的學習, 提出了 MIL-NCE,在 8 個數據集 4 類下游任務中表 現良好。MIL-NCE 方法在后續使用 HowTo100M 數 據集的預訓練模型中廣泛使用。

Zhu 等(2020)提出了全局局部動作 VLP 模型 ActBERT,結構如圖 11 所示,對于視頻輸入采取兩 種編碼處理。首先是動作編碼,加入全局堆疊幀獲 取全局動作信息,動作信息來自每個視頻相應描述 中提取動詞所構建的字典,為簡化問題刪除了沒有 任何動詞的視頻片段。然后是視覺編碼,加入經 Faster-RCNN 對圖像提取的 RoI 特征獲取局部區域 信息。ActBERT 利用全局動作信息來促進文本與局 部目標區域間的交互,使一個視覺中心能同時描述 局部和全局視覺內容,提升視頻和文本的關聯性。 引入了掩蔽動作分類(mask action classification, MAC),即隨機掩蔽輸入的動作表示向量,使模型通 過其他信息如文本信息和物體信息來預測出動作標 簽。模型在 5 類下游任務上表現良好。

3. 下游任務性能對比

3.1 圖像-文本多模態預訓練模型

圖像-文本多模態下游任務繁多,代表性的任務 有分類任務如視覺問答(Johnson 等,2017;Hudson 和 Manning,2019)),自然語言視覺推理(natural language visual reasoning, NLVR)(Suhr 等,2017, 2018),視覺常識推理(Gao 等,2019);指稱表達理解(referring expression comprehension, REC)(Yu 等, 2016b;Mao 等,2016),視覺蘊含(visual entailment, VE)(Xie 等,2018a,2019)等,檢索任務如圖文檢 索(image-text retrieval)(Karpathy 和 Li,2015; Plummer 等,2015;Lee 等,2018);生成任務如圖 像描述(Vinyals 等,2015;Xu 等,2015;Anderson 等,2018),新對象圖像描述(novel object captioning, NoCaps )( Agrawal 等 , 2019 ) 及 多 模 態 翻 譯 (multimodal translation)(Elliott 等,2016)。如下對 表 5 中 VLP 模型所進行對比的下游任務與相關數據 集進行進一步介紹。

3.2 視頻-文本多模態預訓練模型

關于視頻的視覺-語言交叉任務同樣覆蓋廣泛, 代表性的任務有視頻描述(Gan 等,2017;Krishna 等,2017a);文本-視頻檢索(Gao 等,2017;Hendricks 等,2017;Mithun 等,2018;Lei 等,2020b);視頻 問答(video question answering)(Yu 等,2018;Lei 等,2020a);動作分割(action segmentation)(Tang 等,2019);步驟定位(action step localization) (Zhukov 等,2019);動作識別(Kuehne 等,2011; Soomro 等,2012);視頻摘要(video summarization) (Plummer 等,2017);視覺故事講述(visual storytelling)(Agrawal 等,2016 ;Huang 等,2016)。 如下對表 6 中 VLP 模型所進行對比的下游任務與相 關數據集進行進一步介紹

4 問題與挑戰

視覺語言多模態預訓練作為前沿研究,盡管在 下游視覺語言交叉任務上已經有了不錯表現,但在 未來工作中還需考慮以下幾個方向:

1)訓練數據域的差異 預訓練數據集與下游任務數據集之間存在數據 域的差異,部分工作表明(Zhou 等 2021),與預訓 練數據集的域相一致的下游任務數據集可以顯著提 升任務表現,而數據域的差異是造成模型在不同任 務之間遷移時性能下降的重要原因。HERO(Li 等 2020b)指出,不能通過增加微調過程的數據規模, 來縮小下游任務數據與預訓練數據的域差異所造成 的影響。MERLOT(Zellers 等,2021)使用較為多 樣的預訓練數據,增大了數據域的分布,在一定程 度上提升了模型的性能,但也增加了訓練消耗。因 此,如何提升預訓練數據集的質量和多樣性是今后 預訓練任務的重要課題。

2)知識驅動的預訓練模型

預訓練模型的本質是通過參數量極大的神經網 絡對大規模訓練數據進行擬合,以學習潛在的通用 知識,在此過程中擴大數據規模可以帶來預訓練性 能的提升,但會增加計算資源和能耗的消耗,因此 一味通過增加數據和訓練量換取性能的思路是難以 持續的。對于輸入的圖文、視頻等多模態信息,存在 著大量隱含的外部常識信息可以用于更快速的引導 模型對于事件內容的挖掘(Chen 等,2021),因此探 索如何通過知識驅動的方式建立具有廣泛知識來源 的模型架構,將知識圖譜等結構化知識注入模型, 探索輕量化的網絡結構,從而增加模型的訓練效率 和可解釋性,是預訓練模型的具有前景的方向。

3)預訓練模型的評價指標

現有的視覺語言預訓練模型大多在少數幾個下 游數據集上進行效果的實驗驗證,難以確切判斷在 其它數據集上的有效性,而真正通用的預訓練系統 應該在廣泛的下游任務、數據域和數據集上進行推 廣,這就需要建立較為通用的預訓練評價指標,來 有效評價預訓練效果,并指出模型是否易于在不同 任務和數據之間進行遷移。VALUE(Li 等,2021a) 作為一個視頻語言預訓練評價基準,覆蓋了視頻、 文本、音頻輸入,包含了視頻檢索、視覺問答、字幕 匹配任務的 11 個數據集,根據不同難度的任務的元 平均得分(meta-average score)度量預訓練模型的性 能。但這類工作目前正處于起步階段,相關的研究 也被研究者重點關注。

4)探索多樣的數據來源

視頻中的音頻包含了豐富的信息,當前視頻預 訓練中常使用 ASR 方法將音頻轉換為文本,在此 過程中部分原有信息損失掉了,因此探索包含音頻 的預訓練模型是一個可取的方向。目前的多模態預 訓練數據來源以英文圖文和視頻為主,進行多語言 學習的預訓練工作較少,將模型在不同語言間進行 遷移還需要繼續研究。此外,探索從結構化的多模 態數據中進行更細粒度的預訓練工作(Zellers 等, 2021),如從圖表中進行目標推理的訓練等。

5)預訓練模型的社會偏見和安全性

由于大規模數據集在來源上涉及范圍廣泛,難 以逐一排查具體信息,數據中難以避免地存在部分 社會偏見以及錯誤知識,而通過預訓練模型由于學 習到了這些不良內容,其生成的結果會進一步增加 這類內容所造成了影響,造成更大的社會問題 (Dixon 2008)。因此在獲取數據時如何對存在的 數據隱私,以及涉及國家、種族、性別公平性等問 題進行考量,通過算法對選取的預訓練數據內容進 行過濾,在社會安全、倫理等方面尤其重要。

5 結 語

視覺和語言在人類學習視覺實體與抽象概念的 過程中扮演著重要的角色,本文對視覺語言多模態 預訓練領域自 2019 年以來的模型與方法,基于視覺 來源從圖像-文本與視頻-文本兩大方向進行綜述, 并進一步基于模型結構分別介紹各具體模型的特點 與研究貢獻。此外,還介紹了常用視覺語言多模態 預訓練模型數據集、預訓練任務設定以及各模型在 主要下游任務上的表現。 最后對該領域的問題與挑 戰進行了總結并提出未來研究方向。希望通過本文 讓讀者了解當前工作的前沿,以啟發進而做出更有 價值的多模態預訓練工作。

付費5元查看完整內容

視頻Transformer最新綜述論文

Transformer模型在建模長范圍交互方面取得了巨大的成功。然而,他們的規模與輸入長度的平方和缺乏歸納偏差。在處理高維視頻時,這些限制可能會進一步加劇。正確的視頻建模,可以跨度從幾秒到幾小時,需要處理長范圍交互。這使得Transformer成為解決視頻相關任務的一個很有前途的工具,但還需要一些調整。雖然之前也有研究《Transformer》在視覺任務方面的進展的工作,但沒有一篇是針對特定視頻設計的深入分析。在本綜述中,我們分析和總結了用于視頻數據建模的Transformer的主要貢獻和趨勢。具體地說,我們深入研究了視頻是如何嵌入和標記化的,發現了一個非常廣泛的使用大型CNN主干來降低維數的方法,以及主要使用補丁和幀作為標記。此外,我們研究了如何調整Transformer層以處理更長的序列,通常是通過減少單個注意力操作中的令牌數量。此外,我們還分析了用于訓練視頻Transformer的自監督損耗,迄今為止,這些損耗大多局限于對比方法。最后,我們探討了其他模態是如何與視頻整合在一起的,并對視頻Transformer最常用的基準(即動作分類)進行了性能比較,發現它們在等效FLOPs的情況下優于3D CNN,且沒有顯著的參數增加。

引言

Transformers是[1]中首次提出的最新系列模型。這些架構最初是為了替換機器翻譯設置中的循環層而設計的,現在已經很快被用于建模許多其他數據類型[2]、[3]、[4],包括圖像[5]、[6]、[7]、[8]和視頻[9]、[10]、[11]、[12]、[13]、[14]。Transformer背后的關鍵成功在于其通過自注意力(SA)操作實現的非局部令牌混合策略。非局部操作在[15]中提出,是對非局部均值操作[16]的泛化。它基于所有元素之間的交互來演化輸入表示。這些相互作用是通過一對相似函數來調節的,該函數衡量每個元素對其他元素的貢獻。與全連接(FC)層不同,非局部操作不需要權重:輸入之間的關系不需要學習,而是完全依賴于輸入表示。盡管它們取得了成功,但SA的本質導致transformer對序列長度T的縮放效果很差。特別是,由于對親和計算,SA的復雜度為O(t2)。此外,transformer沒有任何歸納偏差,這可能是一個理想的特性,但它也會阻礙學習,除非[7]使用大量數據。

最近Transformer工作的激增,讓跟蹤最新的進展和趨勢變得復雜起來。最近的調研試圖通過分析和總結《Transformer》的總體架構設計選擇來填補這一空白,主要集中在NLP[18],或高效的設計,如[19]或[20]。雖然一些人已經廣泛地調研了視覺的進展,例如[21],[22],[23],[24]和Vision-Language transformer[25],但他們沒有對視頻模型進行深入的分析。[26]的調研集中于視頻和語言Transformer的預訓練,但是他們討論了一些架構選擇,并沒有涵蓋一般的視頻趨勢。視頻Transformer (vt)可以找到與其他Transformer設計的共同點(特別是在圖像領域),但視頻固有的大維度將加劇Transformer的局限性,需要特殊處理。額外的時間維度還需要不同的嵌入、標記化策略和架構。最后,視頻媒體通常與其他模態配對(例如,它很自然地伴隨著音頻),這使得它特別容易用于多模態設置。

視頻。本工作的重點是全面分析用于視頻數據建模的Transformer架構的最新進展。請注意,在Transformer層建模之前,使用傳統(非Transformer)架構將視頻映射到其他結構化形式(例如,接頭[27]或語音[28])的工作不在我們的范圍之內。我們對使用(時間)視覺特征作為SA層輸入的模型特別感興趣。我們分析了文獻采用這些模型的方式,使之能夠處理視頻的內在復雜性以及其他可選模態。然而,我們確實考慮在使用Transformer層之前利用某些CNN架構將視頻數據嵌入到低維空間的工作(參見第3.1.1節)。

Transformers。與基于位置的體系架構(如CNN)不同,Transformer在每一層對數據的全局交互進行建模。然而,有一個廣泛的基于全局的架構。我們關注的是將SA以非局部運算[15]的內嵌高斯變量形式,加上額外的歸一化因子的工作(見式(1))。已有文獻將其他形式的注意力視為SA[29],[30],[31],[32],但這些文獻通常使用FC層而不是點積來計算注意力權重。我們認為這些超出了本次調研的范圍。此外,與Transformers并行的研究方向還采用SA或等效的內嵌高斯版本的非局部算子來處理計算機視覺任務。例如,圖注意力網絡,如[33]和[34],或關系網絡,如[35]和[36]。類似地,我們也發現它們被用于增強CNN主干,通過添加中間層[15]、[37]、[38]、[39],或者通過增強輸出表示[40]、[41]、[42]。我們很高興地看到,在這么多不同的研究方向都采用了非局部操作。不過,在本工作中,我們只關注Transformer體系結構,并將非本地操作集成到不同體系結構中的各種方式留給未來的工作進行比較。

視頻Transformers(vt)的通用框架。在(a)中,我們展示了一個普通的Transformer Encoder1;在(b)中,我們展示了不同的標記化和嵌入策略,具體見3.1節;在(c)中,我們展示了一種常見的分層Transformer設計,它分解了視頻片段的空間和時間交互。這些和其他視頻設計在第3.2節中有描述。

視頻Transformer

視頻數據的高維性以及上述《Transformers》的局限性需要進行多種調整,以構建成功的視頻《Transformers》。在這里,我們對VTs進行一個全面的概述:在3.1節中,我們探討了在將視頻輸入Transformer之前如何處理它們,并探討了降維和標記化替代方案的主干。然后,在第3.2節中,我們詳細介紹了高效Transformer設計的建議,比如在視頻中顯式地利用時間結構。接下來,我們在第3.3節分析了視頻如何與其他模態整合。最后,我們概述VT訓練策略和損失,特別是在第3.4節中的自監督方法。

付費5元查看完整內容

表格是一種非常重要和常見的半結構化數據,廣泛使用在文檔和網頁中。在收集的六千萬個文檔和網頁表格(包括超過二十億單元格)中,微軟亞洲研究院的研究員們首次對通用結構的表格進行了大規模的預訓練。并且在表格結構理解的六個下游數據集上,也都取得 SOTA 的效果。

理解表格面臨著各種挑戰,需要綜合理解語義、空間和結構,如:需要在簡短的單元格文本里來捕捉表格里的語義;需要在二維的表格空間中進行理解;需要對表格的層級信息理解。

Transformer 在自然語言的預訓練上已經取得了較好的效果。但是,針對通用表格位置、結構建模困難等一系列問題,本文相應地提出了 Tree-based Transformer。同時,研究員們還設計了二維樹來建模單元格的空間和層級,并對單元格的二維樹坐標和單元格間的二維樹距離進行了量化,進一步設計了基于二維樹結構的注意力機制。

在表格預訓練任務上,為了可以學習到不同層級的表征,且更好的應用到不同級別的下游任務上,本文除了使用經典的 token MLM 任務,還進一步設計了 cell-level cloze 的任務和 table-level 的 context retrieval 任務。

實驗表明,模型在表格結構理解(表格類型識別和單元格類型識別)的六個下游數據集上均取得了最好的效果。消融實驗也證明了利用樹結構對理解通用結構表格的有效性。同時,結合三個預訓練任務,也有助于提高下游任務的表現。

付費5元查看完整內容

引言

深度學習已經實現了廣泛的應用,并在近年來變得越來越流行。多模態深度學習的目標是創建可以使用各種模態處理和鏈接信息的模型。單模態學習雖然得到了廣泛的發展,但還不能涵蓋人類學習的所有方面。多模態學習有助于更好地理解和分析不同感官參與信息處理的過程。本文著重于多種模態,即圖像、視頻、文本、音頻、身體手勢、面部表情和生理信號。本文詳細分析了過去和當前的基準方法,并對多模態深度學習應用的最新進展進行了深入研究。提出了多種多模態深度學習應用的細粒度分類,并對不同的應用進行了更深入的闡述。還討論了這些應用中使用的架構和數據集,以及它們的評估指標。最后,分別對各個領域的主要問題和未來可能的研究方向進行了重點分析。

//www.zhuanzhi.ai/paper/eaf89268e664a48119b223b0c86a7ed1

概述

機器學習(ML)是近年來研究的熱點。它已經在圖像識別、多媒體概念檢索、社會網絡分析、視頻推薦、文本挖掘等領域得到了廣泛的應用。深度學習(Deep Learning, DL)在這些應用中得到了廣泛的應用[117]。計算技術的指數級增長、不可思議的發展和數據可用性促成了DL研究的興起。DL的成功已經成為解決更復雜的ML問題的一個激勵因素。此外,DL的主要優點是它以分層的形式表示,即它可以通過一個通用的學習過程有效地學習。各種新的DL方法已經被開發出來,并在多個應用中顯示出令人印象深刻的結果,如視覺數據處理、自然語言處理(NLP)、語音和音頻處理,以及許多其他廣為人知的應用。多模態深度學習(Multimodal Deep learning, MMDL)是近年來隨著深度學習的發展而引起的重要研究方向。

我們對周圍事物的體驗是多模態的;我們能看到、聽到、觸摸、聞到和嘗到東西。捕獲對象的多個方面,以圖像、文本、視頻、圖形、聲音等不同媒體形式傳遞信息。模態指定存儲特定類型信息的表示格式。因此,上面提到的各種媒體形式都與模態有關,而這些多模態的共同表示可以定義為multimodal[47]。然而,對人類的全部方面進行建模是不夠的。單模態工作更好的地方,方法的進展需要在一個模式。多模態學習表明,當多種感官參與信息處理時,我們能更好地理解和分析。本文著重討論了各種各樣的模態,本文從MMDL的角度探討了多種模態,包括圖像、視頻、文本、音頻、肢體動作、面部表情和生理信號。MMDL的主要目標是構建一個能夠處理來自不同模式的信息并將其關聯起來的模型。

人工智能(AI)的未來已經被DL徹底改變。它解決了AI社區中存在多年的幾個復雜問題。對于MMDL,快速設計了各種具有不同學習框架的深度架構。機器開發出來了在其他應用領域,如自動駕駛汽車、圖像處理、醫療診斷和預測預測等,表現得與人類相似,甚至更好[129]。MMDL的最新進展和發展趨勢包括視聽語音識別(AVSR)[173]、多模態情感識別[26]、圖像和視頻字幕[58,89]、視覺問答(VQA)[161]、多媒體檢索[134]等.

在本研究中,我們討論了多模態深度學習的最新進展和趨勢。各種DL模型被劃分為不同的應用程序組,并使用多種媒體進行了詳盡的解釋。本文重點介紹了使用圖像、音頻、視頻、文本、身體姿勢、面部表情和生理信號等多種形式的應用,并與之前的相關調查進行了比較。提出了一種新的多模式DL應用的細粒度分類方法。此外,還提供了在這些MMDL應用中使用的體系結構、數據集和評估指標的簡要討論。最后,針對每一組應用分別提出了有待解決的研究問題,并詳細列出了未來可能的研究方向。我們希望我們提出的分類和研究方向將促進未來多模態深度學習的研究,并有助于更好地理解這一特定領域尚未解決的問題。

付費5元查看完整內容

近年來,深度學習技術得到了快速發展。在自然語言處理(NLP)任務中,隨著文本表征技術從詞級上升到了文檔級,利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先,根據文本特征提取技術的發展,從詞級和文檔級對典型的模型進行了分析;其次,從預訓練目標任務和下游應用兩個階段,分析了當前預訓練模型的研究現狀,并對代表性的模型特點進行了梳理和歸納;最后,總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。

//www.joca.cn/CN/abstract/abstract24426.shtml

付費5元查看完整內容

模態是指事物發生或存在的方式,如文字、語言、聲音、圖形等。多模態學習是指學習多個模態中各個模態的信息,并且實現各個模態的信息的交流和轉換。多模態深度學習是指建立可以完成多模態學習任務的神經網絡模型。多模態學習的普遍性和深度學習的熱度賦予了多模態深度學習鮮活的生命力和發展潛力。旨在多模態深度學習的發展前期,總結當前的多模態深度學習,發現在不同的多模態組合和學習目標下,多模態深度學習實現過程中的共有問題,并對共有問題進行分類,敘述解決各類問題的方法。具體來說,從涉及自然語言、視覺、聽覺的多模態學習中考慮了語言翻譯、事件探測、信息描述、情緒識別、聲音識別和合成,以及多媒體檢索等方面研究,將多模態深度學習實現過程中的共有問題分為模態表示、模態傳譯、模態融合和模態對齊四類,并對各問題進行子分類和論述,同時列舉了為解決各問題產生的神經網絡模型。最后論述了實際多模態系統,多模態深度學習研究中常用的數據集和評判標準,并展望了多模態深度學習的發展趨勢。

付費5元查看完整內容
北京阿比特科技有限公司