近年來深度學習在計算機視覺 (CV) 和自然語言處理 (NLP) 等單模態領域都取得了十分優異的性能. 隨著 技術的發展, 多模態學習的重要性和必要性已經慢慢展現. 視覺語言學習作為多模態學習的重要部分, 得到國內外 研究人員的廣泛關注. 得益于 Transformer 框架的發展, 越來越多的預訓練模型被運用到視覺語言多模態學習上, 相關任務在性能上得到了質的飛躍. 系統地梳理了當前視覺語言預訓練模型相關的工作, 首先介紹了預訓練模型 的相關知識, 其次從兩種不同的角度分析比較預訓練模型結構, 討論了常用的視覺語言預訓練技術, 詳細介紹了 5 類下游預訓練任務, 最后介紹了常用的圖像和視頻預訓練任務的數據集, 并比較和分析了常用預訓練模型在不同 任務下不同數據集上的性能.
//www.jos.org.cn/jos/article/abstract/6774
機器學習的目標是讓機器像人一樣感受世界和理解世界. 正如人的感官能去感知一樣, 多模態機器學習旨在 處理和理解不同模態 (諸如視覺、語言、聽覺等) 交織融合的信息. 從過去到現在, 研究者們已經做出了很多單模 態學習的工作, 諸如人臉識別、目標檢測等, 并從科學研究擴展到產業落地, 最后服務于生活. 但是隨著深度學習 技術的發展, 多模態學習慢慢展現出其重要性和必要性[1] . 作為人類生活中最重要的文化載體, 視覺和語言在多模 態學習領域承載著十分重要的一部分, 在近幾年里, 視覺語言多模態學習也得到了廣泛地關注和飛速地發展. 通 常, 參數較大的模型往往需要大量的標注數據來進行訓練, 但由于多模態標注技術、標注成本等一系列因素的制 約, 高質量的標簽數據始終比較缺乏, 這也給模型的性能提升帶來了瓶頸. 2017 年美國谷歌公司研究人員提出 Transformer[2]的基礎框架, 用于解決這個問題. Transformer 模型首先通過 自監督學習進行預訓練, 通過一系列的任務來從大規模的無標注數據中挖掘監督信息以訓練模型, 從而來學習數 據的一般化表征. 然后對于不同的下游任務只需要采用少量的人工標注的數據進行微調就能達到優異的效果, 預 訓練流程見圖 1 所示. 在自然語言處理 (NLP) 領域中, BERT[3]的出現后, 各種預訓練任務便如雨后春筍般涌現出 來, 諸如 GPT[4]系列, MASS[5]等. 不僅僅局限在 NLP 領域, 計算機視覺 (CV) 領域中也出現了許多杰出的預訓練方 法, 比如 ViT[6]等. 與此同時, 模型預訓練技術也在多模態領域得到了研究人員越來越多的關注, 特別是在視覺-語 言聯合表征學習方面, 預訓練模型在各種下游任務上都取得了優異的性能.
如后文圖 2 所示, 本文將圍繞視覺語言預訓練模型展開介紹, 并通過以下 6 個重要方面詳細介紹和討論視覺 語言預訓練模型的最新進展: 首先介紹視覺語言預訓練模型的相關知識, 包括 Transformer 框架、模型預訓練范式 和視覺語言預訓練模型常見網絡結構; 其次介紹 3 類模型預訓練任務, 通過這些任務, 網絡模型可以在無標注的情 況下進行跨模態的語義對齊; 然后我們將從圖像-文本預訓練和視頻-文本預訓練兩個方面分別來介紹最新的工作 進展; 同時我們也將對預訓練模型的下游任務進行分類和介紹; 接著將介紹廣泛使用的圖像文本和視頻文本的多 模態數據集, 并比較和分析了常用預訓練模型在不同任務下不同數據集上的性能; 最后對視覺語言預訓練進行總 結和展望.
** 1 介 紹 **
在本節中, 我們將介紹與視覺、語言預訓練相關的背景基礎知識. 第 1.1 節將介紹 Transformer 的關鍵機制和 結構; 第 1.2 節將介紹當前比較流行的預訓練范式, 包括預訓練-微調學習和預訓練-提示語學習; 第 1.3 節從兩個 不同的角度介紹了當前視覺語言預訓練的模型結構.
**1.1 Transformer **
Transformer[2]最早在自然語言處理 (NLP) 領域提出, 并在各種任務上表現出很好的性能. 在此之后, 它也被成 功應用于其他領域, 從語言再到視覺領域. 如圖 3 所示, 一個標準的 Transformer 由幾個編碼器塊和解碼器塊組成. 每個編碼器塊包含一個自注意 (self-attention[2] ) 層和一個前饋 (feed forward) 層. 不同于編碼器塊, 每個解碼器塊除 了自注意力層和前饋層外, 還包含一個編解碼注意力層。
**1.2 預訓練范式 **
**1.2.1 預訓練-微調 (pretrain fine-tuning) **
預訓練-微調已經成了經典的預訓練范式. 其做法是: 首先以監督或無監督的方式在大型數據集上預訓練模型, 然后通過微調將預訓練的模型在較小的數據集上適應特定的下游任務. 這種模式可以避免為不同的任務或數據集從頭開始訓練新模型. 越來越多的實驗證明, 在較大的數據集上進行預訓練有助于學習通用表征, 從而提高下游任 務的性能. GPT[4]在對有 7 000 本未出版書籍的 BooksCorpus 數據集[10]進行預訓練后, 在 9 個下游基準數據集 (如 CoLA[11]、MRPC[12]上獲得平均 10% 的性能大提升. 視覺模型 ViT-L/32[6]在對擁有 3 億張圖像的 JFT-300M[13]進行 預訓練后, 在 ImageNet[14]的測試集上獲得了 13% 的準確率提升. 目前, 預訓練微調范式在 NLP 和 CV 領域都在如火如荼展開工作, 多模態領域也不例外, 大量優秀的工作在 此誕生, 包括圖像-文本和視頻-文本領域.
1.2.2 預訓練-提示 (pretrain prompt)
提示學習起源于 NLP 領域, 隨著預訓練語言模型體量的不斷增大, 對其進行微調的硬件要求、數據需求和實 際代價也在不斷上漲. 除此之外, 豐富多樣的下游任務也使得預訓練-微調階段的設計變得繁瑣復雜, 提示學習就 此誕生. 在預訓練-提示范式中通常使用一個模板來給預訓練模型提供一些線索和提示, 從而能夠更好地利用預訓 練語言模型中已有的知識, 以此完成下游任務. 在 GPT-3[15]中, 所有任務都可以被統一建模, 任務描述與任務輸入視為語言模型的歷史上下文, 而輸出則為語 言模型需要預測的未來信息, 通過給予模型一些提示語, 讓模型根據提示語來生成所需要的輸出, 這種方式也被稱 為是情景學習 (in-context learning). Prefix-Tuning[16]摒棄了人工設計模板或自動化搜索模板的方式, 提出了任務特 定的可訓練前綴. P-tuning V1[17]首次提出了用連續空間搜索的嵌入來做提示語. P-tuning V2[18]引入深度提示編碼 (deep prompt encoding) 和多任務學習 (multi-task learning) 等策略進行優化, 解決 V1 版本在一些復雜的自然語言 理解任務上任務不通用和規模不通用的問題. 提示學習相對于微調的優勢在于: 1) 計算代價非常低. 由于整個模型的參數都是固定的, 并不需要對模型中所 有的參數進行微調. 2) 非常節省空間. 在使用預訓練模型進行微調時, 每個不同的下游任務的參數都會相應改變, 因此每個任務都需要進行存儲, 而提示學習則不需要. 基于這些優勢, 提示學習已經稱為了 NLP 領域的又一大研 究熱點, 預訓練-提示也作為繼預訓練-微調的又一大范式, 處處嶄露頭角. 在多模態領域也慢慢燃起了提示學習之 火, 諸如 CLIP[19] , CPT[20]等出色的工作應運而生.
**1.3 模型結構 **
在本節中, 我們從兩個不同的角度介紹視覺語言預訓練模型的體系結構: (1) 從多模態融合的角度對比單流結 構與雙流結構. (2) 從整體架構設計的角度對比僅編碼結構和編碼-解碼結構.
**2 預訓練任務 **
本節將介紹如何使用不同的預訓練任務對視覺語言預訓練模型進行預訓練, 這對于模型學習視覺語言的一般 化表征至關重要. 我們將預訓練任務歸納為 3 類: 補全型、匹配型、其他型. 補全型任務通過利用未被掩碼的剩余信息來理解模態, 從而重建補全被掩碼的元素. 匹配型任務是將視覺和語言統一到一個共同的潛在空間中來生成一個一般化的視覺-語言表達. 其他型任務的內容中包含了其他預訓練任務.
**3 視覺語言多模態模型介紹 **
視覺和語言是人類感知世界的兩個重要方面, 因此訓練神經網絡模型處理多模態信息對于人工智能的發展有 著重要的意義. 近年來, 許多研究工作通過對其視覺和語言的語義信息實現了各種跨模態任務. 其中圖像文本預訓 練和視頻文本預訓練得到了最廣泛的研究. 本節我們將介紹圖像-文本預訓練和視頻-文本預訓練兩個方面近年來 的最新進展.
**4 下游任務 **
多樣化的任務需要視覺和語言的融合知識. 在本節中, 我們將介紹此類任務的基本細節和目標, 并將其分為 4 類: 分類、檢索、生成和其他任務. 常見視覺語言預訓練模型 對應分類型下游任務如表 3 所示, 包括視覺問答 (VQA), 自然語言視覺推理 (NLVR), 視覺常識推理 (VCR) 和視覺 推理和組合式問答 (GQA), 由于視覺語言預訓練任務所包含的下游任務繁多, 表 3 中僅節選出最為常見的下游任 務進行性能的統計與比較.
視覺-語言檢索 (vision-language retrieval, VLR). VLR 涉及對視覺 (圖像或視頻) 和語言的理解, 以及適當的匹 配策略. 它包括兩個子任務: 從視覺到文本和從文本到視覺的檢索, 其中視覺到文本檢索是根據視覺從更大的描述庫中獲取最重要的相關文本描述, 反之亦然. 常見視覺語言預訓練模型對應檢索型下游任務如表 4 所示, 包括視覺語言檢索和零樣本 (zero-shot) 的視覺-語言檢索。
視覺描述 (visual captioning, VC). VC 旨在為給定的視覺 (圖像或視頻) 輸入生成語義和句法上合適的文本描 述. 大規模新物體描述 (novel object captioning at scale, NoCaps): NoCaps[74]擴展了 VC 任務, 以測試模型描述來自 Open Images 數據集的新物體的能力, 這些物體都未曾在訓練語料庫中出現過. 視覺對話 (visual dialogue, VD): 常見視覺語言預訓練模型對應生成型下游任務如表 5 所示, 包括視覺描述和大規模新物體描述. 其中, CIDEr、BLEU-4、METEOR、SPICE 為 4 個評價生成語句的指標.
**5. 總結和展望 **
在本文中, 首先我們介紹了視覺語言預訓練模型的相關知識, 包括 Transformer 框架、預訓練范式和視覺語言 預訓練模型常見網絡結構; 其次我們介紹了 3 類模型預訓練任務, 通過這些任務, 網絡模型可以在無標注的情況下 進行跨模態的語義對齊; 然后我們從圖像-文本預訓練和視頻-文本預訓練兩個方面分別介紹了最新的工作進展, 并介紹了預訓練模型的下游任務; 最后我們介紹了廣泛使用的圖像文本和視頻文本的多模態數據集, 并比較和分 析了常用預訓練模型在不同任務下不同數據集上的性能. 視覺語言預訓練在飛速發展的同時也取得了許多非常不 錯的成果, 未來視覺語言預訓練模型的發展方向可以借鑒如下. (1) 計算資源. 目前視覺語言預訓練工作仍然需要極大的算力資源做支撐. 2019 年以來, 視覺語言預訓練工作 大部分都是產自于工業界, 需要使用數十上百張顯卡進行訓練, 導致部分研究人員沒有足夠的計算資源對其展開 研究, 而且難以對這些大規模工作進行驗證. 如何在資源受限的情況下進行視覺語言預訓練研究, 是一個很有研究 價值的問題. (2) Prompt. 預訓練-提示范式在 NLP 領域引起了一波研究熱潮, 我們在第 1.2.2 節已經對其進行了介紹. 提示 相對于微調的優勢在于: 1) 計算代價低. 2) 節省空間. 目前已有少數工作對其進行展開了研究, 諸如 CLIP, CPT 等, 并且取得了不錯的效果. 預訓練-提示范式目前還在探索階段, 未來將會有更多更有意義的工作出現. (3) 多模態融合. 之前大多數的多模態預訓練工作都是強調視覺和語言這兩個模態進行建模, 但是忽略了其他 模態 (比如音頻等) 信息. 其他模態信息往往也對跨模態學習有著重要的意義, 因此研究更多模態信息建模的工作 是具有研究價值和挑戰性的.
隨著多媒體技術的發展,可獲取的媒體數據在種類和量級上大幅提升。 受人類感知方式的啟發,多種媒 體數據互相融合處理,促進了人工智能在計算機視覺領域的研究發展,在遙感圖像解譯、生物醫學和深度估計等方 面有廣泛的應用。 盡管多模態數據在描述事物特征時具有明顯優勢,但仍面臨著較大的挑戰。 1)受到不同成像設 備和傳感器的限制,難以收集到大規模、高質量的多模態數據集;2)多模態數據需要匹配成對用于研究,任一模態 的缺失都會造成可用數據的減少;3)圖像、視頻數據在處理和標注上需要耗費較多的時間和人力成本,這些問題使 得目前本領域的技術尚待攻關。 本文立足于數據受限條件下的多模態學習方法,根據樣本數量、標注信息和樣本 質量等不同的維度,將計算機視覺領域中的多模態數據受限方法分為小樣本學習、缺乏強監督標注信息、主動學 習、數據去噪和數據增強 5 個方向,詳細闡述了各類方法的樣本特點和模型方法的最新進展。 并介紹了數據受限 前提下的多模態學習方法使用的數據集及其應用方向(包括人體姿態估計、行人重識別等),對比分析了現有算法 的優缺點以及未來的發展方向,對該領域的發展具有積極的意義。
**1. 引 言
**模態是事物的一種表現形式,是對事物某特定 角度的描述。 多模態通常包含兩個或者兩個以上的 模態形式,是指從多個視角出發對事物進行描述。 人們在感知世界時,多種感官總是同時接收外在信 息,如看見圖像、聽見聲音、聞到氣味和觸摸感知等。 隨著多媒體技術的發展,可獲取的媒體數據在種類 和量級上都大幅提升。 例如,傳感器不僅可以生成 圖像或者視頻,還包含與之匹配的深度、溫度信息 等。 為使人工智能技術更好地解譯數據,必須使人 工智能具有多模態學習的能力。在人工智能技術的早期研究中,學者通常使用 單一模態的數據。 受到人類感知方式的啟發,研究 認為每個模態對事物的描述具有相對獨立性,使用多模態數據的互補表述能夠使事物呈現更立體、表 現更全面(Baltru?aitis 等,2019)。 近年來,多模態數 據的處理和應用成為重點研究方向,在情感分析、機 器翻譯、自然語言處理和生物醫學等前沿方向取得 了重要突破。 計算機視覺是深度學習的重要應用領 域和熱點研究問題,本文重點圍繞多模態在計算機 視覺領域的發展進行介紹。 如圖 1 所示,計算機視覺領域內的多模態學習 主要是通過對圖像、視頻等多模態數據進行分析, 學習并互補不同模態間的信息,實現圖像檢測識 別、語 義 分 割 和 視 頻 動 作 預 測 等 任 務 ( Liu 和 Wang,2015;Eigen 和 Fergus,2015) ,并廣泛應用于 自動駕駛、農業監測、生物醫療、交通管理和災難 預測等領域。 如在醫學領域,醫學影像作為醫療 診斷的重要依據,相較于單角度描述病灶特征的 圖像,多模態醫療影像能有效輔助醫生從多個層 面聯合判斷病灶及其周邊部分,加快診斷時間;在 遙感領域,單傳感器依據設備特點從某種固定的 角度描述地理目標,獨立分析時會受到成像原理 限制,而對不同成像方式、不同傳感器獲取到的多 模態遙感影像進行分析,可以有效提取地物目標 的綜合信息。
圖 1 多模態數據受限解決方法及應用
盡管多模態數據在描述事物特征時有著明顯的 優勢,但目前仍面臨著較大的挑戰。 1)雖然成像技 術層出不窮,但其同步帶來的圖像、視頻數據的處 理和標注任務有著不容忽視的工作量,需要耗費 較多的時間成本和人力資源。 2)傳統深度學習模 型需要將多模態數據匹配成對用于研究,任一模 態的缺失都會造成可用數據的減少。 3)由于使用 目的是利用多模態互補的特性,因此對數據內部的 完整度要求較高,但受到不同成像設備和傳感器的 限制,數據量少、質量模糊和缺失現象嚴重,這些現 象都會對后續的研究造成不利影響。 因此,在數據 受限的前提下進行的多模態處理研究具有重要的現 實意義。 面對以上的難點問題,根據多模態樣本數量、標 注信息和樣本質量等不同的維度,目前處理多模態 數據受限的方法主要分為以下幾類:
1)小樣本學習方法。 在多模態數據不足的情 況下,小樣本學習方法僅通過學習少量樣本就能做 出正確判斷的認知能力,在數據量匱乏的情況下仍 能夠有效地學習目標特征。 2)缺乏強監督標注信息的方法。 由于數據標 注過程會產生高額的成本,較難獲取所有模態的全 部真值標簽對模型進行強監督學習。 常見的非完全 監督的方法有基于弱監督、無監督、半監督和自監督 的學習方法,這些方法可以有效改善模態缺乏標注 信息的問題,大大減少人工標注成本。 3)主動學習方法。 該類方法通過設計具有自 主學習能力的模型,將人類經驗與學習規則充分結 合,致力于研究如何使用標注盡可能少的樣本來獲 得盡可能較好的效果。 通過選擇最有用的樣本,可 以在保持性能的同時有效降低標注成本。 4)數據去噪方法。 在多模態數據的獲取和處 理的過程中,外界環境和設備內部因素都可能會引 入噪聲。 任何模態的數據受到噪聲污染都可能會影 響多模態數據處理的結果。 多模態數據去噪是指減 少數據中的噪聲,恢復原始數據,進而再提取感興趣 的信息。 5)數據增強。 在樣本較少的前提下,為進行有限 多模態數據的充分利用,數據增強方法通過對原始數 據集進行一系列變換操作,擴張數據的可使用性。
本文主要對數據受限下的多模態數據處理方法進行綜述。
已有研究者對相關領域進行了研究,在 多模態學習、小樣本學習、弱監督學習、主動學習、數 據去噪和增強等方面進行了深入研究。 Baltru?aitis 等人(2019)從整體的角度探討了多模態機器學習 的進展,并對多模態機器學習方法進行分類,但沒有 介紹具體的應用場景。 Wang 等人 (2020b)從網絡 架構的角度介紹了多模態模型,但沒有討論多模態 數據本身的特點。 Ramachandram 和 Taylor (2017) 對多模態深度學習現狀進行了總結,并提出網絡體 系結構的設計應該考慮融合模式、模態信息和對缺 失的數據或模態的處理,但沒有詳細綜述目前處理 缺失數據以提高模型的魯棒性的方法。 Gao 等人 (2020)總結了具有代表性的處理異構數據的深度 學習網絡架構,并認為一些深度學習模型只關注單 模態噪聲數據,未來迫切需要解決針對低質量多模 態數據的深度學習模型。 上述綜述缺乏對數據受限 條件下多模態數據發展的詳細介紹。 Wang 等人 (2021c)綜述了近年來小樣本學習方法的進展,并 進行統一分類。 Zhou 等人 (2019)綜述了弱監督學 習的一些研究進展。 Settles (2011)回顧了將主動學 習應用于實踐遇到的挑戰,并介紹為解決挑戰所做 的工作。 但上述文獻都僅基于單模態數據進行總 結,并沒有關注多模態數據背景問題。
針對在數據受限條件下多模態數據處理面臨的 各種挑戰和難題,已有研究者提供了一些解決思路, 但是尚未形成相關的綜述文獻。 因此,本文總結了 數據受限條件下多模態分析處理的研究方法和進 展,以及多模態數據在不同領域的應用情況。 首先 闡述了多模態數據在計算機視覺方向的研究現狀與 數據受限的難題挑戰,介紹了對不同數據受限情況 的處理方法,展示該研究的背景和目的。 然后分類 闡明不同數據受限處理方法的現狀與研究方法,區 分不同的受限情況所面臨的困難和挑戰。 最后對多 模態數據的各個應用領域的典型數據集進行介紹, 總結目前的研究成果,能夠啟發未來多模態的應用 前景,展望下一步研究方向。
**1 多模態數據的應用 **
首先介紹了多模態數據融合的方法,然后介紹 了多模態數據在計算機視覺領域常見的應用場景。
多模態數據檢測識別
圖像分類指的是計算機可以識別圖像所屬的 “類別”。 本質上是為圖像分配一個標簽,例如,“汽 車”、“動物”和“建筑”等。 在分類技術的基礎上延 伸出了目標檢測技術,它允許計算機在圖像或視頻 中識別和定位目標。 通過這種識別和定位,目標檢 測可以用來計算場景中的目標數量,確定并跟蹤它 們的精確位置,同時準確地標記。 檢測識別技術作 為計算機視覺中的重要技術,已經應用到如行人重 識別、場景識別和人體動作識別等多模態數據場景 下的任務中。
多模態圖像語義分割
圖像語義分割是指根據圖像的語義為其每個像 素分配類別標簽。 具體來說,在進行圖像分割的過 程中,每個像素歸類到某一個標簽下,歸屬于同一 標簽的像素在視覺特性上具有某些共同點。 同 樣,該技術也在如道路場景分割、醫學圖像分割和遙感圖像分割等多模態數據場景中得到了廣泛 應用。 多模態數據預測估計
在深度學習領域,預測估計是一個重要的應用 方向,經過訓練的深度學習模型可以根據輸入的數 據對當前或未來的某些狀態或參數進行估計或預 測。 在多模態數據預測估計領域,諸如單目深度估 計、3 維人體姿態估計和路徑規劃等技術都已經得 到了廣泛的應用。
2 多模態數據受限的處理方法
本文根據多模態樣本數量、標注信息和樣本質 量等不同的維度,將目前處理多模態數據受限的方 法主要分為小樣本學習方法、缺乏強監督信息的方 法、主動學習方法、數據去噪和數據增強方法。
**多模態數據集 **目前,在第 1 節提到的各個領域下的應用場景 對應的多模態數據集種類、數量繁多,本文按照數據 集的應用領域、數據集名稱、包含的模態、提出的年 份和其對應的應用場景等將這些領域常用的數據集 總結整理為如表 5 所示。
**4 結 語 **
多模態數據的處理和應用成為重點研究方向, 在情感分析、機器翻譯、自然語言處理和生物醫學等 前沿方向取得了重要突破。 國內外研究學者針對數 據受限條件下的多模態學習展開了大量研究。 本文 深入不同的數據受限形式,總結了計算機視覺領域 中數據受限下的多模態數據處理發展現狀。 此外, 基于以上分析,本文簡要介紹了多模態數據處理領 域未來仍需進一步研究的方向。
1)輕量級的多模態數據處理方法。 數據受限 條件下的多模態學習仍然存在模型應用于移動式設 備的挑戰性。 現有方法在融合多個模態的信息時, 普遍需要使用兩個及以上的網絡進行特征提取,進 而將特征進行融合,因此模型的參數量大、模型結構 復雜限制了其應用于移動式設備。 在未來工作中, 輕量化模型有待進一步研究。
2)通用的多模態智能處理模型。 現有多模態 數據處理方法多是為不同任務開發的不同算法,需 要在特定的任務上進行訓練。 這種針對特定任務的 訓練方法很大程度上增加了開發模型的成本,難以 滿足快速增長的應用場景的需求。 因此,針對不同 模態的數據,需要提出適合的通用感知模型,學習多 模態數據的通用表征,使得在不同的應用場景可以 共享通用模型的參數和特征。
3)知識與數據混合驅動的模型。 不同模態的 數據往往包含不同的特性,本文認為在進行多模態 數據處理時,除了使用多模態數據外,可以考慮引入 數據特性和知識,建立知識與數據混合驅動的模型, 增強模型的性能和可解釋性。
本文綜述了近年來發展起來的多模態智能視覺語言預訓練(VLP)方法。我們將這些方法分為三類: (i) 用于圖像-文本任務的VLP,如圖像標題、圖像-文本檢索、視覺問題回答和視覺基礎; (ii) 用于核心計算機視覺任務的VLP,如(開集)圖像分類、目標檢測和分割;以及 (iii) 視頻文本任務的VLP,如視頻字幕、視頻文本檢索和視頻問答。對于每個類別,都對最先進的方法進行了全面的回顧,并使用特定的系統和模型作為案例研究,討論已經取得的進展和仍然面臨的挑戰。對于每個類別,討論了研究界正在積極探索的高級主題,如大基礎模型、統一建模、上下文內少樣本學習、知識、魯棒性和現實中的計算機視覺等。
人類通過許多渠道感知世界,比如通過眼睛看到的圖像,或通過耳朵聽到的聲音。盡管任何單獨的通道都可能是不完整的或有噪聲的,但為了更好地理解世界,人類可以自然地對齊和融合從多個通道收集到的信息。人工智能的核心目標之一是開發一種算法,使計算機能夠有效地從多模態(或多通道)數據中學習。這些數據類似于通過視覺和語言獲得的視覺和聲音,幫助人類理解周圍的世界。例如,計算機可以通過搜索與文本查詢最相關的圖像(或反之),以及使用自然語言描述圖像的內容來模仿這種能力。視覺與語言(VL),一個位于計算機視覺和自然語言處理(NLP)之間的熱門研究領域,旨在實現這一目標。受語言模型預訓練在自然語言處理中的巨大成功(例如BERT (Devlin et al.,2019)、RoBERTa (Liu et al.,2019d)、T5 (Rafael et al.,2020)和GPT-3 (Brown et al.,2020)的啟發,視覺語言預訓練(VLP)最近在兩個群體中引起了迅速增長的關注。隨著學習通用可轉移的視覺和視覺語言表示的希望,VLP已成為現代視覺語言研究的一個日益重要的訓練范式。最近,有一些關于VLP的相關調研論文。Zhang等人(2020a)關注的是預訓練時代之前的任務特定VL方法,并對VLP模型進行了簡明的討論。Du等人(2022);Li等人(2022e)關注的是VLP,但主要是圖像-文本任務,沒有涉及視頻-文本任務。Ruan和Jin(2022)專注于視頻-文本任務的VLP。Chen等人(2022a)回顧了用于圖像-文本和視頻-文本任務的VLP方法。然而,討論并不深入。本文的貢獻總結如下。
我們對現代VLP進行了全面的綜述,不僅涵蓋了它在傳統圖像-文本和視頻-文本任務中的成功應用(例如,圖像/視頻字幕、檢索和問題回答),還展示了它在核心計算機視覺任務(例如,圖像分類、目標檢測和分割)中的巨大潛力。
我們對VLP前沿的高級主題進行深入討論,從大基礎模型、統一建模、上下文少樣本學習、知識增強VLP、多語言VLP、模型魯棒性、模型壓縮,到開放計算機視覺。
我們描繪了研究社區開發并向公眾發布的VL系統的景觀,通過案例研究展示了我們所取得的進展和我們所面臨的挑戰。
本文基于我們的CVPR 2022教程,以計算機視覺和NLP社區的研究人員作為我們的主要目標受眾。它詳細介紹了理解現代VLP方法所需的重要思想和見解,并為對VL表示學習的大規模預訓練及其在計算機視覺和多模態任務中的應用感興趣的學生、研究人員、工程師和從業人員提供了寶貴的資源。
本文的結構如下。
第2-5章是本文的核心章節。這些章節的結構概覽見圖1.1。由于VLP的浪潮始于圖像文本任務,我們首先對從早期的任務特定方法(第2章)到最新的具有圖像文本輸入的VLP方法(第3章)的過渡進行了全面回顧。在第4章中,我們討論了如何將核心計算機視覺任務視為具有開放詞匯表預測的圖像-文本任務,在經過對比預先訓練的圖像-文本模型(如CLIP (Radford et al,2021年))的支持下,并進一步使計算機視覺在荒野中實現(Li et al,2022b)。將圖像-文本任務擴展到更多的模式,我們在第5章中介紹了VLP方法如何通過視頻-文本輸入服務于更多的應用。 我們生活在一個多模態的世界里,我們的大腦自然地學會處理從環境中接收到的多感官信號,以幫助我們理解周圍的世界。更具體地說,視覺是人類感知的很大一部分,而語言是人類交流的很大一部分。根據其定義,一個多模態AI系統應該具有有效和高效處理這種多模態信號的能力。在不斷增長的VL研究文獻中,本文將VL問題分為三類,具體如下:
本文涉及的三類VL問題中的代表性任務:圖像-文本任務、視覺任務作為VL問題和視頻-文本任務。
VQA和視覺推理。作為視覺問題回答的延伸,研究人員為視覺推理開發了數據集(Hudson和Manning, 2019b;Suhr et al., 2019)、視覺常識推理(Zellers et al., 2019)、視覺對話(Das et al., 2017)、基于知識的VQA (Marino et al., 2019)、基于場景文本的VQA (Singh et al., 2019)等。這些任務要求的答案可以是開放式的自由形式的文本,也可以從多項選擇中選擇。 圖像描述。除了需要生成短單句的場景(Lin et al., 2014),研究人員還開發了用于圖像段落描述(Krause et al., 2017)、基于場景文本的圖像描述(Sidorov et al., 2020)、視覺敘事(Huang et al., 2016)等的數據集。——圖像文字檢索。流行的圖像文本檢索數據集是基于圖像標題數據集的(Chen等人,2015;普盧默等人,2015)。在給定圖像(或文本)查詢的情況下,AI模型需要從大型語料庫中檢索最相關的文本(或圖像)。 視覺接地。而不是文本輸出,參考表達理解和短語基礎(Yu et al., 2016;Plummer et al., 2015)需要邊界框輸出,其中模型需要預測與輸入文本查詢對應的邊界框。- 文本到圖像的生成。它可以被認為是圖像字幕的雙重任務,其中系統需要基于文本輸入創建高保真圖像。第3.6節對此任務進行了簡要討論。 *
視頻文字任務。除了靜態圖像,視頻是另一種重要的視覺形式。當然,所有上述的圖像-文本任務都有相應的視頻-文本任務,例如視頻字幕、檢索和問題回答(圖1.2中用綠色突出顯示)。與圖像相比,視頻輸入的唯一性要求AI系統不僅要捕獲單個視頻幀中的空間信息,還要捕獲視頻幀之間固有的時間依賴性。
從歷史的角度看,VL研究的進展可分為三個階段。在圖1.3中,我們使用流行的VQA任務的表現來說明研究從任務特定方法向中等規模和大規模的預訓練過渡。
小規模任務具體方法設計(2014/11-2019/8)。在這個階段,許多特定于任務的方法已經被開發出來用于圖像字幕和VQA。例如,一個重要的工作方向是基于預提取的視覺特征(例如,ResNet (He et al., 2016)、Faster RCNN (Ren et al., 2015b)、C3D (Tran et al., 2015))、預訓練的詞嵌入(例如,GLoVe (Pennington et al., 2014)、word2vec (Mikolov et al., 2013b)和LSTM (Hochreiter和Schmidhuber, 1997)設計各種注意機制,我們將在第二章中回顧。這些注意方法設計已被用于捕獲多模態對齊、執行對象關系推理和建模多步推理。
中等規模的預訓練(2019/8-2021/8)。受BERT (Devlin et al., 2019)在NLP中的巨大成功的啟發,VL領域已逐漸轉向使用基于transformer的多模態融合模型,這些模型在中等規模的設置下預先訓練過,例如,使用最多4M圖像的圖像-文本數據集(總共約10M圖像-文本對),模型大小從110M (BERT-base)到340M (BERT-large)不等。中型VLP模型的典型例子包括unite (Chen等人,2020d)和OSCAR (Li等人,2020e),這將在第3章中描述。
大規模的訓練(2021/8-now)。隨著CLIP (Radford et al., 2021)和ALIGN (Jia et al., 2021)的出現,它們旨在從從網絡抓取的噪聲圖像-文本對中訓練圖像-文本雙編碼器,大規模VLP顯示出了巨大的前景,并正在成為VL研究的基礎。我們見證了大型多模態基礎模型的蓬勃發展,例如SimVLM (Wang等人,2022k)、Florence (Yuan等人,2021)、Flamingo (Alayrac等人,2022)、CoCa (Yu等人,2022a)和GIT (Wang等人,2022d)。VLP的高計算成本可以通過將預訓練的模型適應廣泛的下游任務來分攤。用于預訓練的圖像文本對的數量已經增加到12B以上,模型大小增長到5B,如GIT (Wang et al., 2022d)。我們將在第3.5.1節中詳細討論大模型。
什么是好的視覺語言預訓練模型?
**雖然VLP是一個新興的領域,出現了許多令人興奮的新論文,但作為一個社區,我們所追求的北極星是什么仍不清楚。**我們提供我們對方向的看法。我們認為一個好的VLP模型應該:
**在廣泛的下游任務中取得良好的表現。**可以在兩級粒度中考慮任務覆蓋率。首先,問題類型比較廣泛,例如,一個模型可以執行第3章的VQA、圖像字幕和文本到圖像生成等圖像-文本任務,第4章的圖像分類、目標檢測和分割等核心計算機視覺任務,第5章的視頻-文本任務,如視頻QA和字幕。其次,對于每一種問題類型,都有廣泛的數據集覆蓋,這些數據集表示不同的使用場景。例如,Li等人(2022b)提出了20個圖像分類數據集和35個對象檢測數據集,以說明野外的各種場景。
**以最小的成本適應新任務。**將VLP模型部署到新任務時,適應成本需要較低。可以考慮各種效率指標來衡量適應成本,包括推理速度、用于進一步模型權值更新的GPU使用情況、訓練樣本的數量和可訓練參數的數量。這是一個尚未明確定義的領域,但已經有了一些早期的努力。例如,Li等人(2022b)通過將適應成本分解為樣本效率和參數效率提供了一個定義。
總而言之,一個好的VLP模型的北極星是一個具有固定模型權重(或進行廉價的微調)的統一模型,它可以很好地執行上述所有任務。這是社區正在共同努力的一個雄心勃勃的目標。制定一個中心基準本身就是一個開放的研究問題。我們主張在對標VLP模型時考慮以下因素:任務的覆蓋率、這些任務的性能以及適應的成本。
【CVPR2022教程】微軟《視覺語言預訓練進展》教程,400+頁ppt
**視頻:**
多模態機器學習領域,為特定任務而制作的人工標注數據昂貴,且不同任務難以進行遷移而需要大量重新訓練,導致訓練多個任務的效率低下和資源浪費。預訓練模型通過以自監督為代表的方式進行大規模數據訓練,對數據集中不同模態的信息進行提取和融合,以學習其中蘊涵的通用知識表征,從而服務于廣泛的相關下游視覺語言多模態任務,這一方法逐漸成為人工智能各領域的主流方法。依靠互聯網所獲取的大規模圖文對與視頻數據,以及以自監督學習為代表的預訓練技術方法的進步,視覺語言多模態預訓練模型在很大程度上打破了不同視覺語言任務之間的壁壘,提升了多個任務訓練的效率并促進了具體任務的性能表現。為總結視覺語言多模態預訓練領域的進展,本文首先對常見的預訓練數據集和預訓練方法進行了匯總,然后對目前最新的以及近年來經典的方法進行系統概述,按輸入來源分為了圖像-文本預訓練模型和視頻-文本多模態模型兩大類,闡述了各方法之間的共性和差異,并將各模型在具體下游任務上的實驗情況進行了匯總。最后,本文總結了視覺語言預訓練面臨的挑戰和未來發展趨勢。
深度學習(deep learning, DL)方法在計算機視 覺(computer vision, CV)、自然語言處理(nature language processing, NLP)以及多模態機器學習(multimodal machine learning, MMML)的各個具體任務 上取得了令人矚目的進展,但不同任務之間需要使 用專有的數據進行訓練,大量的重新訓練使得時間 和經濟成本顯著增加。預訓練模型(pre-trained model, PTM)與微調(fine-tuning)相結合的范式旨在緩解 這一困難,預訓練模型首先在大規模通用數據集上 利用自監督為代表的方式進行預訓練,使得模型在 遷移至下游任務之前學習到通用的表征,然后在小 型專有數據集中進行微調得以獲取特定任務知識 (Yosinski 等,2014)。這一方法在很大程度上打破 了各具體任務之間的壁壘,在避免重新訓練所造成 的資源浪費的同時,對下游任務的性能起到促進作 用。Transformer(Vaswani 等,2017)是當前預訓練 模型最為廣泛使用的基礎結構,其因為在處理長距 離依賴關系方面的優勢,最初在機器翻譯方面取得 了成功,隨后廣泛用于 NLP 領域。GPT(Radford 等, 2018)采用 Transformer 作為模型預訓練的基礎結構 在大規模語料庫中進行預訓練,將學習到語言知識 的參數模型用于具體任務,實驗中 12 個下游的 NLP 任務性能取得了顯著的提升。BERT(Devlin 等,2019) 采用了雙向語言模型進行預訓練,在語料中隨機對 15%的單詞令牌(token)進行掩碼,要求模型可以 預測出原有單詞令牌,此外還進行了句子預測任務, 實驗中 11 個下游的 NLP 任務性能取得了提升。隨 后的若干工作(Dong 等,2019;Liu 等,2019a;Radford 等,2019;Shoeybi 等,2019;Zellers 等, 2019;Yang 等,2019;Brown 等,2020;Lewis 等, 2020;Raffel 等,2020;Zhang 等,2020b,2021b;Fedus 等,2021;Sun 等,2021;琚生根 等,2022;強繼朋 等,2022)證明預訓練的語言模型能夠普適 地對下游任務性能起到促進作用。受到 NLP 領域的 啟發,CV 方面的研究者也相繼開展基于Transformer 的視覺預訓練工作。ViT(Dosovitskiy 等,2021)將圖像的補丁塊(patch)作為序列輸入 Transformer 進 行預訓練,克服 Transformer 結構難以處理圖像輸入 這一困難。CLIP(Radford 等,2021)將自然語言作 為監督以提升圖像分類效果,使用對比學習 (contrastive learning, CL)方法促進圖像和文本的匹 配能力。MAE(He 等,2021a)將 NLP 中常用的自 監督方法用于 CV 預訓練,其通過訓練自編碼器, 預測經過隨即掩碼而缺失的圖像 patch,從而高效、 準確地進行圖像分類任務。
人類最具有抽象知識表達能力的信息為語言信息,而人類獲取的最豐富的信息為視覺信息,上述工作分別在這兩種模態上開展預訓練并取得的成功。視覺語言任務(vision-and-language task)(Pan 等, 2016a,b;Tapaswi 等,2016;Yu 等,2016a;Jang 等,2017;Maharaj 等,2017)是典型的多模態機器 學習任務,其中視覺和語言兩種模態的信息互相作 為指引,需讓不同模態的信息對齊和交互,進行視 覺語言預訓練(visual-language pre-training, VLP)工 作并提升模型在下游的視覺問題回答(visual question answering, VQA)(Johnson 等,2017)、視頻描 述(video captioning)(Zhou 等,2018a,b,2019;)、 文本-視頻檢索(image-text retrieval)(Wang 等,2016, 2019;Song 和 Soleymani,2019b)等任務上的效果。視覺語言任務存在著很大的挑戰。其中一個難點是, 使用何種易于大規模獲得并且含有大量通用知識的 多模態數據來源,以構建訓練數據集;另一個難點 是,怎樣通過有效的機制,將屬性相差巨大的不同 模態的信息進行統一訓練。對于以上問題,一方面,當前的主要方法通過 獲取來自互聯網的圖文對、包含語言描述的教學視 頻、附帶字幕的影視劇以及其他各類視頻等視覺語 言多模態數據,制作涵蓋廣泛常識信息的大規模預 訓練數據集;另一方面,設計能夠處理多種模態信 息的神經網絡模型,通過以自監督為代表的方式進 行大規模數據訓練,對數據集中不同模態的信息進 行提取和融合,以學習其中蘊涵的通用知識表征, 從而服務于廣泛的相關下游視覺語言多模態任務。
當前對預訓練模型的綜述工作主要集中在單模態(Qiu 等,2020;Kalyan 等,2021;Min 等,2021;陳德光 等,2021;韓毅 等,2022),部分工作梳理 視頻-文本多模態類型(Ruan 和 Jin,2021),但較為 全面的 VLP 綜述工作(Chen 等,2022)相對較少。本文梳理最新視覺語言多模態預訓練模型的相關研 究成果,首先對 VLP 模型常用的預訓練數據集和預 訓練方法進行了簡單介紹,然后在介紹基礎結構之 后對 VLP 模型按視覺輸入來源進一步分類, 介紹目 前具有代表性的圖像-文本預訓練模型和視頻-文本 預訓練模型,并根據模型結構不同分為了單流和雙 流類型,重點闡述各研究特點,對不同 VLP 預訓練 模型在主要下游任務上的性能表現也進行了匯總。最后對目前研究面臨的問題進行探討。
1 預訓練數據集與預訓練任務
在各類預訓練任務中,模型性能受預訓練數據 集質量的影響顯著。為了獲取通用的多模態知識, 視覺-語言預訓練任務主要使用帶有弱標簽的視覺語言對進行模型訓練。圖像-文本任務主要為圖像及 標題、內容描述、人物的動作描述等。類似地,視頻 -語言預訓練數據集包含大量的視頻-文本對,其標簽 來源包括視頻中的文字描述以及由自動語音識別 (automatic speech recognition, ASR)技術獲得的文 本信息等。部分模型為針對性提升某一模態的表征 提取能力,在多模態預訓練之外還進行單模態數據 集進行預訓練,使用如圖片數據集與純文本數據集。 預訓練中常用的公開數據集有,圖文數據集 SBU(Ordonez 等,2011),Flickr30k(Young 等, 2014),COCO Captions(Chen 等,2015),Visual Genome(VG)(Krishna 等,2017b),Conceptual Captions (CC, CC3M)(Sharma 等,2018)和 Conceptual 12M (CC12M)(Changpinyo 等,2021),VQA(Antol 等, 2015),VQA v2.0(Goyal 等,2019),Visual7W(Zhu 等,2016),GQA(Hudson 和 Manning,2019)。視 頻數據集 TVQA(Lei 等,2018),HowTo100M(Miech 等,2019),Kinetics(Kay 等,2017),Kinetics-600 (Carreira 等,2018),Kinetics-700(Carreira 等, 2019),YT-Temporal-180M(Zellers 等,2021),WebVid-2M(Bain 等,2021)。單模態圖片數據集 COCO (Lin 等,2014),OpenImages(Krasin 等,2017), 文本數據集 BooksCorpus(Zhu 等,2015)以及 English Wikipedia。數據集信息匯總如表 1 所示,以下對代 表性的數據集做進一步介紹。
預訓練任務
2 預訓練模型
2.1 模型基礎 本文根據特征在進行視覺和語言模態融合處理 之前,是否進行處理,將 VLP 模型按結構分為單流 式(single-stream)和雙流式(cross-stream),其對比 如下圖 1 所示。
單流模型將視覺特征和語言特征直接輸入融合 模塊,進行模型訓練,其典型方式如圖 1(a)所示。雙流模型將視覺特征和語言特征分別進行處理,然 后進行模態間的融合,典型類型包括但不限于圖中三類,圖 1(b1)中,模型首先對兩路特征分別進行 處理,然后進行跨模態融合;如圖 1(b2)中,視覺 特征經過視覺處理模塊后,與文本特征一同送入多 模態融合模塊進行交互;圖 1(b3)中,兩路特征送 入各自處理模塊后進行交互式的參數訓練。
2.2 圖像-文本多模態預訓練模型
單流模型相對雙流模型結構較簡單,一般將圖 像與文本兩種模態信息置于等同重要位置,對圖像 和文本編碼后共同輸入跨模態融合模塊進行預訓練。 對于輸入圖像是否采用采用目標檢測算法,可對研 究進行更細致的分類。
由于圖像和文本信息在屬性上區別較大,將不 同模態輸入置于相同輸入地位可能對模態間匹配造 成不良影響。在這一假設下,部分模型根據多模態 輸入特點設計雙流預訓練模型,使用不同編碼器靈 活處理各自模態特征,并通過后期融合對不同模態 進行關聯。
2.3 視頻-文本多模態預訓練模型
Sun 等人(2019b)提出的 VideoBERT 模型是第 一個將 Transformer 結構拓展到視頻語言預訓練的 工作,模型結構如圖 9 所示。對 ASR 得到的文本輸 入采取常用的類 BERT 處理,對于視頻輸入,按每 秒 20 幀采樣速度從視頻剪切多個 1.5s 視頻片段, 應用預訓練過的 S3D 提取視頻特征,然后采用層級 k 聚類(hierachical k-means)標記視覺特征,以聚類 中心對視頻特征進行矢量量化(vector quantization, VQ)操作。文本與視頻的聯合特征被送入多模態 Transformer進行MLM,VTM和掩蔽視頻預測(video only mask completion, VOM)預訓練任務。VOM 以 聚類的視頻片段作為被掩蔽和預測的視覺單元。模 型目標是學習長時間高級視聽語義特征,如隨時間 推移而展開的事件與動作,采用網絡收集的廚藝教 學視頻作為預訓練數據,在預設下游任務上表現良 好,但由于視覺中心代表的視覺信息難以全面描述 視頻內容,使得模型的泛化性受到一定限制。
Miech 等人(2019)提出了視頻文本預訓練中被 廣泛使用的大規模敘述性視頻數據集 HowTo100M, baseline 方法將提取到的視頻和文本特征映射到相 同維度從而優化模態間的關聯性。Miech等人(2020) 進一步研究發現 HowTo100M 中由于人的講述與畫 面展示不同步,導致大約 50%的視頻剪輯片段與 ASR 描述文本沒有對齊(如圖 10 所示)。為解決這 一偏差問題引入了多實例學習(multiple instance learning, MIL),基于同一視頻中連續時間內畫面語 義相似的前提,在目標視頻片段的相鄰時間內截取 多個視頻-描述對作為對比學習的候選正例。然后采 用噪聲估計 NCE 來優化視頻文本聯合特征的學習, 提出了 MIL-NCE,在 8 個數據集 4 類下游任務中表 現良好。MIL-NCE 方法在后續使用 HowTo100M 數 據集的預訓練模型中廣泛使用。
Zhu 等(2020)提出了全局局部動作 VLP 模型 ActBERT,結構如圖 11 所示,對于視頻輸入采取兩 種編碼處理。首先是動作編碼,加入全局堆疊幀獲 取全局動作信息,動作信息來自每個視頻相應描述 中提取動詞所構建的字典,為簡化問題刪除了沒有 任何動詞的視頻片段。然后是視覺編碼,加入經 Faster-RCNN 對圖像提取的 RoI 特征獲取局部區域 信息。ActBERT 利用全局動作信息來促進文本與局 部目標區域間的交互,使一個視覺中心能同時描述 局部和全局視覺內容,提升視頻和文本的關聯性。 引入了掩蔽動作分類(mask action classification, MAC),即隨機掩蔽輸入的動作表示向量,使模型通 過其他信息如文本信息和物體信息來預測出動作標 簽。模型在 5 類下游任務上表現良好。
3. 下游任務性能對比
3.1 圖像-文本多模態預訓練模型
圖像-文本多模態下游任務繁多,代表性的任務 有分類任務如視覺問答(Johnson 等,2017;Hudson 和 Manning,2019)),自然語言視覺推理(natural language visual reasoning, NLVR)(Suhr 等,2017, 2018),視覺常識推理(Gao 等,2019);指稱表達理解(referring expression comprehension, REC)(Yu 等, 2016b;Mao 等,2016),視覺蘊含(visual entailment, VE)(Xie 等,2018a,2019)等,檢索任務如圖文檢 索(image-text retrieval)(Karpathy 和 Li,2015; Plummer 等,2015;Lee 等,2018);生成任務如圖 像描述(Vinyals 等,2015;Xu 等,2015;Anderson 等,2018),新對象圖像描述(novel object captioning, NoCaps )( Agrawal 等 , 2019 ) 及 多 模 態 翻 譯 (multimodal translation)(Elliott 等,2016)。如下對 表 5 中 VLP 模型所進行對比的下游任務與相關數據 集進行進一步介紹。
3.2 視頻-文本多模態預訓練模型
關于視頻的視覺-語言交叉任務同樣覆蓋廣泛, 代表性的任務有視頻描述(Gan 等,2017;Krishna 等,2017a);文本-視頻檢索(Gao 等,2017;Hendricks 等,2017;Mithun 等,2018;Lei 等,2020b);視頻 問答(video question answering)(Yu 等,2018;Lei 等,2020a);動作分割(action segmentation)(Tang 等,2019);步驟定位(action step localization) (Zhukov 等,2019);動作識別(Kuehne 等,2011; Soomro 等,2012);視頻摘要(video summarization) (Plummer 等,2017);視覺故事講述(visual storytelling)(Agrawal 等,2016 ;Huang 等,2016)。 如下對表 6 中 VLP 模型所進行對比的下游任務與相 關數據集進行進一步介紹
4 問題與挑戰
視覺語言多模態預訓練作為前沿研究,盡管在 下游視覺語言交叉任務上已經有了不錯表現,但在 未來工作中還需考慮以下幾個方向:
1)訓練數據域的差異 預訓練數據集與下游任務數據集之間存在數據 域的差異,部分工作表明(Zhou 等 2021),與預訓 練數據集的域相一致的下游任務數據集可以顯著提 升任務表現,而數據域的差異是造成模型在不同任 務之間遷移時性能下降的重要原因。HERO(Li 等 2020b)指出,不能通過增加微調過程的數據規模, 來縮小下游任務數據與預訓練數據的域差異所造成 的影響。MERLOT(Zellers 等,2021)使用較為多 樣的預訓練數據,增大了數據域的分布,在一定程 度上提升了模型的性能,但也增加了訓練消耗。因 此,如何提升預訓練數據集的質量和多樣性是今后 預訓練任務的重要課題。
2)知識驅動的預訓練模型
預訓練模型的本質是通過參數量極大的神經網 絡對大規模訓練數據進行擬合,以學習潛在的通用 知識,在此過程中擴大數據規模可以帶來預訓練性 能的提升,但會增加計算資源和能耗的消耗,因此 一味通過增加數據和訓練量換取性能的思路是難以 持續的。對于輸入的圖文、視頻等多模態信息,存在 著大量隱含的外部常識信息可以用于更快速的引導 模型對于事件內容的挖掘(Chen 等,2021),因此探 索如何通過知識驅動的方式建立具有廣泛知識來源 的模型架構,將知識圖譜等結構化知識注入模型, 探索輕量化的網絡結構,從而增加模型的訓練效率 和可解釋性,是預訓練模型的具有前景的方向。
3)預訓練模型的評價指標
現有的視覺語言預訓練模型大多在少數幾個下 游數據集上進行效果的實驗驗證,難以確切判斷在 其它數據集上的有效性,而真正通用的預訓練系統 應該在廣泛的下游任務、數據域和數據集上進行推 廣,這就需要建立較為通用的預訓練評價指標,來 有效評價預訓練效果,并指出模型是否易于在不同 任務和數據之間進行遷移。VALUE(Li 等,2021a) 作為一個視頻語言預訓練評價基準,覆蓋了視頻、 文本、音頻輸入,包含了視頻檢索、視覺問答、字幕 匹配任務的 11 個數據集,根據不同難度的任務的元 平均得分(meta-average score)度量預訓練模型的性 能。但這類工作目前正處于起步階段,相關的研究 也被研究者重點關注。
4)探索多樣的數據來源
視頻中的音頻包含了豐富的信息,當前視頻預 訓練中常使用 ASR 方法將音頻轉換為文本,在此 過程中部分原有信息損失掉了,因此探索包含音頻 的預訓練模型是一個可取的方向。目前的多模態預 訓練數據來源以英文圖文和視頻為主,進行多語言 學習的預訓練工作較少,將模型在不同語言間進行 遷移還需要繼續研究。此外,探索從結構化的多模 態數據中進行更細粒度的預訓練工作(Zellers 等, 2021),如從圖表中進行目標推理的訓練等。
5)預訓練模型的社會偏見和安全性
由于大規模數據集在來源上涉及范圍廣泛,難 以逐一排查具體信息,數據中難以避免地存在部分 社會偏見以及錯誤知識,而通過預訓練模型由于學 習到了這些不良內容,其生成的結果會進一步增加 這類內容所造成了影響,造成更大的社會問題 (Dixon 2008)。因此在獲取數據時如何對存在的 數據隱私,以及涉及國家、種族、性別公平性等問 題進行考量,通過算法對選取的預訓練數據內容進 行過濾,在社會安全、倫理等方面尤其重要。
5 結 語
視覺和語言在人類學習視覺實體與抽象概念的 過程中扮演著重要的角色,本文對視覺語言多模態 預訓練領域自 2019 年以來的模型與方法,基于視覺 來源從圖像-文本與視頻-文本兩大方向進行綜述, 并進一步基于模型結構分別介紹各具體模型的特點 與研究貢獻。此外,還介紹了常用視覺語言多模態 預訓練模型數據集、預訓練任務設定以及各模型在 主要下游任務上的表現。 最后對該領域的問題與挑 戰進行了總結并提出未來研究方向。希望通過本文 讓讀者了解當前工作的前沿,以啟發進而做出更有 價值的多模態預訓練工作。
轉載來自公眾號:機器學習算法與自然語言處理
論文標題: VLP: A Survey on Vision-Language Pre-training 論文鏈接: //arxiv.org/abs/2202.0906101
摘要 在過去幾年中,預訓練模型的出現將計算機視覺(CV)和自然語言處理(NLP)等單模態領域帶入了一個新時代。大量工作表明它們有利于下游單模態任務,并可以避免從頭開始訓練新模型。那么這樣的預訓練模型能否應用于多模態任務呢?研究人員已經探索了這個問題并取得了重大進展。本文調查了視覺-語言預訓練 (VLP) 的最新進展和新的前沿,包括圖像-文本和視頻-文本預訓練。為了讓讀者更好地全面掌握 VLP,我們首先從特征提取、模型架構、預訓練目標、預訓練數據集和下游任務五個方面回顧其最近的進展。然后,我們詳細總結了具體的 VLP 模型。最后,我們討論了 VLP 的新領域。據我們所知,這是VLP 領域的第一個綜述。我們希望這個綜述能夠為 VLP 領域的未來研究提供啟示。
介紹
讓機器以類似于人類的方式做出反應一直是人工智能研究人員的不懈目標。為了讓機器能夠感知和思考,研究人員提出了一系列相關任務,例如人臉識別、閱讀理解和人機對話,以訓練和評估機器在特定方面的智能。具體來說,領域專家手動構建標準數據集,然后在其上訓練和評估相關模型。然而,由于相關技術的限制,往往需要在大量的標注數據上進行訓練,以獲得更好、更有能力的模型。最近出現的基于 Transformer 結構的預訓練模型緩解了這個問題。它們首先通過自監督學習進行預訓練,其通常利用輔助任務(預訓練目標)從大規模未標記數據中自動挖掘監督信號來訓練模型,從而學習通用表示。然后,他們可以通過僅在下游任務上使用少量人工標記數據進行微調就能實現令人驚訝的效果。自從 BERT在自然語言處理 (NLP) 中出現以來,各種預訓練模型在單模態領域如雨后春筍般涌現,例如計算機視覺 (CV)領域的Vision Transformer (ViT) 和 語音領域的Wave2Vec。大量工作表明它們有利于下游單模態任務,并避免從頭開始訓練新模型。
與單模態領域類似,多模態領域也存在高質量標注數據較少的問題。一個很自然的問題是上述預訓練方法能否應用于多模態任務?研究人員已經探索了這個問題并取得了重大進展。在本文中,我們關注主流的視覺-語言預訓練(VLP),包括圖像-文本和視頻-文本預訓練。VLP 主要通過基于大規模數據進行預訓練來學習不同模態之間的語義對應關系。例如,在圖像-文本預訓練中,我們期望模型將文本中的“狗”與圖像中的“狗”相關聯。在視頻-文本預訓練中,我們期望模型將文本中的物體/動作映射到視頻中的物體/動作。為了實現這一目標,需要巧妙地設計 VLP 目標和模型架構,以允許模型挖掘不同模態之間的關聯。 為了讓讀者更好地了解 VLP,我們首先從5個重要方面全面回顧其最新進展:
然后我們詳細總結了具體的最先進(SOTA)VLP 模型(參見第8節)。最后,我們總結論文并對 VLP 的新前沿進行了廣泛的討論(參見第9節)。 據我們所知,這是VLP領域的第一篇綜述。我們希望我們的綜述能夠幫助研究人員更好地了解這一領域,并激發他們設計出更好的模型。
特征抽取
本節介紹 VLP 模型如何預處理和表示圖像、視頻和文本以獲得對應特征。 特征預處理
圖像特征預處理主要包括三種:基于目標檢測的區域特征,基于CNN的網格特征以及基于ViT的patch特征。 視頻特征預處理:主要先對視頻分幀,得到圖像序列,然后按照上述圖像特征預處理方式進行處理。 文本特征預處理:主要遵循BERT的預處理方式,將輸入句子切分為子詞序列,然后收尾追加[CLS]和[SEP], 最后輸入表示為詞embedding+位置embedding+segment embedding。 特征表示
為了充分利用單模態預訓練模型,VLP 模型可以將視覺或文本特征輸入到Transformer編碼器。具體來說,VLP 模型利用具有隨機初始化的標準Transformer編碼器來生成視覺或文本表示。此外,VLP 模型可以利用預訓練的視覺Transformer對基于ViT的patch特征進行編碼,例如 ViT 和 DeiT。VLP 模型也可以使用預訓練的文本Transformer對文本特征進行編碼,例如 BERT。為簡單起見,我們將這些Transformer命名為 Xformer。 更多細節描述詳見論文 Section 204 模型結構 在本節中,我們從兩個不同的角度介紹 VLP 模型的架構:(1)從多模態融合的角度分為單流與雙流,以及(2)從整體架構設計來看分為only-encoder與encoder-decoder。
Single-stream versus Dual-strea
單流架構是指將文本和視覺特征連接在一起,然后輸入單個Transformer模塊,如 Firgue 1 (a) 所示。 雙流架構是指文本和視覺特征沒有連接在一起,而是獨立發送到兩個不同的Transformer塊,如 Firgue 1 (b) 所示。 Encoder-only versus Encoder-decoder
許多 VLP 模型采用僅編碼器架構,其中跨模態表示直接饋入輸出層以生成最終輸出。相比之下,其他 VLP 模型提倡使用轉換器編碼器-解碼器架構,其中跨模態表示首先饋入解碼器,然后饋入輸出層。 更多細節描述詳見論文 Section 305 預訓練目標 本節介紹我們如何通過使用不同的預訓練目標來預訓練 VLP 模型,這對于學習視覺-語言的通用表示至關重要。我們將預訓練目標總結為四類:補全、匹配、時序和特定類型。 補全類型是通過利用未掩碼的剩余部分來重建掩碼元素從而理解模態,包括Masked LanguageModeling,Prefix Language Modeling,Masked Vision Modeling等; 匹配類型是將視覺和語言統一到一個共享的隱藏空間中,以生成通用的視覺-語言表示,包括Vision-Language Matching,Vision-LanguageContrastive Learning, Word-Region Alignment等; 時序類型是通過對中斷的輸入序列重新排序來學習良好的表示,主要針對視頻相關的預訓練,如FrameOrder Modeling等; 特殊類型由其他預訓練目標組成,例如視覺問答和視覺描述等。 更多細節描述詳見論文 Section 4.
預訓練數據集
大多數 VLP 數據集是通過組合跨不同多模態任務的公共數據集構建的。然而,之前的一些工作,例如 VideoBERT、ImageBERT、ALIGN和 CLIP,處理從互聯網收集的大量數據并使用他們自己構建的數據集進行訓練。在這里,一些主流語料庫及其規模信息如表 1所示。07 下游任務 各種各樣的任務需要視覺和語言方面的合作知識。在本節中,我們將介紹此類任務的基本細節和目標,并將其分為五類:分類、回歸、檢索、生成和其他任務,其中分類、回歸和檢索任務也稱為理解任務。 分類任務主要包括:Visual Question Answering (VQA)、Visual Question Answering (VQA)、NaturalLanguage for Visual Reasoning (NLVR).、VisualCommonsense Reasoning (VCR)等; 回歸任務包括Multi-modal Sentiment Analysis (MSA); 檢索任務主要指的是一些視覺-語言檢索任務; 生成任務包括:Visual Dialogue (VD)、Visual Captioning (VC)等; 其他任務包括:Multi-modal Machine Translation (MMT)、Vision-Language Navigation (VLN).等。 更多細節描述詳見論文 Section 6.08 SOTA VLP models 基于上述VLP模型的5大方面,我們對近幾年的VLP模型進行了匯總整理:
更多細節描述詳見論文 Section 7.09 總結和新前沿 在本文中,我們提供了第一個 VLP 綜述。我們從特征提取、模型架構、預訓練目標、預訓練數據集和下游任務五個方面回顧了它的最新進展,并詳細總結了具體的 SOTA VLP 模型。我們希望我們的綜述能夠幫助研究人員更好地了解 VLP,并激發新的工作來推動這一領域的發展。未來,在現有工作的基礎上,VLP可以從以下幾個方面進一步發展:
**Incorporating Acoustic Information.**以前關于多模態預訓練的大多數工作都強調語言和視覺的聯合建模,但忽略了隱藏在音頻中的信息。盡管音頻中的語義信息可能與語言重疊,但音頻可以提供額外的情感信息、聲學邊界信息等。此外,使用音頻進行預訓練使模型能夠處理具有聲學輸入的下游任務。到目前為止,跨文本、視覺和音頻的聯合建模和表示仍然是一個有待進一步研究的懸而未決的問題。一些前沿的工作已經闡明了這個研究領域的未來。與之前的 VLP 模型不同,VATT將原始音頻作為輸入,并通過噪聲對比估計 (NCE) 學習多模態表示。與 VATT 不同,OPT 結合各種多級掩蔽策略學習跨文本、圖像和音頻的跨模態表示,并且它還能夠生成文本和圖像。其他一些工作,例如 AudioCLIP 和 MERLOT Reserve,也展示了他們在三種模態上學習跨模態表示的獨特方法;
**Knowledgeable Learning and Cognitive.**雖然現有的 VLP 模型已經取得了顯著的性能,但它們的本質是擬合大規模的多模態數據集。使 VLP 模型更具有知識性對于未來的 VLP 很重要。對于輸入的視覺和文本,有豐富的相關外部常識世界知識和說明性情景知識,可以用來增強輸入,加速模型訓練和推理。解決這個問題需要統一的認知模型架構、知識引導的預訓練目標以及與新知識交互的支持;
**Prompt Tuning.**目前,微調是將 VLP 的知識轉移到下游任務的主要方法。然而,隨著模型規模的增加,每個下游任務都有其微調參數,導致參數效率低下。此外,多樣化的下游任務也使得預訓練和微調階段的設計變得繁瑣,導致它們之間存在gap。最近,Prompt Tuning在 NLP 中越來越受到關注。通過設計離散或連續Prompt并將 MLM 用于特定的下游任務,這些模型可以a. 減少微調大量參數的計算成本;b. 彌合預訓練和微調之間的差距。Prompt Tuning是激發 PLM 中分布的語言和世界知識的一種很有前途的方法。下一步可以改進并遷移到多模態場景,打破傳統范式,解決VLP的痛點問題。
【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作,涵蓋了基本概念、分類體系。
引言
基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示,并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識,避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中,我們首先對自監督學習做一個簡要的概述。接下來,我們解釋了各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來,我們介紹了 T-PTLMs的一個新分類,然后簡要概述了各種基準測試,包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后,提出了進一步完善這些模型的研究方向。我們堅信,這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。
摘要
如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因為它們能夠從大量未標記的文本數據中學習通用語言表征,然后將這些知識轉移到下游任務中。在早期,NLP系統大多是基于規則的,后來被機器學習模型所取代。機器學習模型需要特征工程,這需要領域專業知識,也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展,增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型,除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例,生成這些實例的代價是昂貴的。然而,我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用,從而在目標任務中很好地執行。在這里,目標任務應該與源任務類似。基于遷移學習的思想,計算機視覺研究人員使用ImageNet[20],[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務,然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識,他們在許多CV任務[18],[23]中獲得了巨大的成功。
像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外,由于RNN按順序處理輸入,即逐字處理,并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷,Vaswani等人[25]提出了一種完全基于自注意的深度學習模型,稱為Transformer。與RNN相比,自注意允許更多的并行化,并且可以很容易地建模長期上下文,因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下,Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是,很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻,已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。
GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進,而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明,T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后,T-PTLMs也被開發用于其他領域,如金融[31],法律[32],[33],新聞[34],編程[35]-[39],對話[40],網絡[41],學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習,因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為
我們將簡要介紹SSL,它是開發T-PTLMs的支柱(第2節)。
我們解釋了與T-PTLMs相關的各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法(第3節)。
我們提出了一個新的分類方法來分類各種T-PTLMs。這種分類法基于四個視角,即預訓練語料庫、體系結構、SSL類型和擴展(第4節)。
我們提出了一種新的分類法來對各種下游適應方法進行分類,并對每一種方法進行詳細解釋(第5節)。
我們簡要概述了評估T-PTLMs進展的各種基準,包括內在的和外在的(第6節)。
我們簡要概述了各種庫,從Huggingface transformer到Transformer-interpret,這些庫對tptlm的工作很有用(第7節)。
我們簡要討論了一些未來的研究方向,這些方向將推動研究團體進一步改進模型(第8節)。
近年來,深度學習技術得到了快速發展。在自然語言處理(NLP)任務中,隨著文本表征技術從詞級上升到了文檔級,利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先,根據文本特征提取技術的發展,從詞級和文檔級對典型的模型進行了分析;其次,從預訓練目標任務和下游應用兩個階段,分析了當前預訓練模型的研究現狀,并對代表性的模型特點進行了梳理和歸納;最后,總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。