本文總結了視覺 Transformer 處理多種識別任務的百余種代表性方法,并對比分析了不同任務內的模型表 現,在此基礎上總結了每類任務模型的優點、不足以及面臨的挑戰。本文根據識別粒度的不同,分別著眼于諸如圖 像分類、視頻分類的基于全局識別的方法,以及目標檢測、視覺分割的基于局部識別的方法。考慮到現有方法在三 種具體識別任務的廣泛流行,本文總結了在人臉識別、動作識別和姿態估計中的方法。同時,也總結了可用于多種 視覺任務或領域無關的通用方法的研究現狀。基于 Transformer 的模型實現了許多端到端的方法,并不斷追求準確率 與計算成本的平衡。全局識別任務下的 Transformer 模型對補丁序列切分和標記特征表示進行了探索,局部識別任務 下的 Transformer 模型因能夠更好地捕獲全局信息而取得了較好的表現。在人臉識別和動作識別方面,注意力機制減 少了特征表示的誤差,可以處理豐富多樣的特征。Transformer 可以解決姿態估計中特征錯位的問題,有利于改善基 于回歸的方法性能,還減少了三維估計時深度映射所產生的歧義。大量探索表明了視覺 Transformer 在識別任務中的 有效性,并且在特征表示或網絡結構等方面的改進有利于提升性能。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?edit_id=202302&flag=2&file_no=202208300000009&journal_id=jig 計算機視覺(Computer Vision, CV)涉及對圖像 或視頻中有用信息的提取和分析。在所有CV任務中, 識別任務占有很大的比重。隨著深度學習技術的引 入,經典的方法是利用卷積神經網絡(Convolutional Neural Network, CNN)來解決此類問題。CNN通過局 部感知和參數共享,降低了網絡模型的復雜度,并 且可以直接將圖像數據作為輸入,避免了人工提取 特征的過程。但由于CNN擅長關注局部特征,難以 很好地利用對結果同樣十分重要的全局信息,使得 該領域的發展受到了一定的阻礙。 Transformer(Vaswani 等,2017)是一個從序列 到序列(Sequence to Sequence)的模型,最大特點是 拋棄了傳統的卷積神經網絡和循環神經網絡 (Recurrent Neural Network, RNN),采用注意力機制 組成網絡,使得模型可以并行化訓練,而且能夠關 注全局信息。Transformer被提出后在自然語言處理 (Natural Language Processing, NLP)領域大放異彩,例如備受關注的基于Transformer的雙向編碼器表 示 (Bidirectional Encoder Representations from Transformers, BERT)模型(Devlin 等,2019),以及 生成式預訓練Transformer(Generative Pre-Training, GPT) 系列模型 GPT1(Radford 和 Narasimhan , 2018),GPT2(Radford 等,2019),GPT3(Brown 等, 2020)。 這些基于Transformer的模型表現出的強大性 能使NLP研究取得了重大突破,同時吸引住了計算 機視覺研究人員的目光,他們將Transformer移植到 視覺任務中,并發現了其中的巨大潛力。 如首次使 用 純 Transformer 進行圖像識別的方法 Vision Transformer(ViT)(Dosovitskiy 等,2021),以及解決 目標檢測問題的Detection Transformer(DETR)模型 (Carion 等,2020)。 隨著越來越多的視覺Transformer模型被探索 出來,關于此研究的綜述文章也逐漸出現。按照分 類標準的不同,目前的綜述文章從不同的角度總結 現有的方法,包括輸入數據(Han 等,2020)、網絡 結構(Khan 等,2022)、應用場景(Liu 等,2021f, Liu 和 Lu,2021d,Khan 等,2022)。其中,從應 用場景角度進行總結的文章占大多數。Liu 等人 (2021f)分別從計算機視覺領域的三個基礎任務(分 類、檢測、分割)總結現有的方法。除了這三個基礎 任務外,Liu 和 Lu(2021d),Khan 等人(2022)又增 加了在識別、視頻處理、圖像增強和生成應用場景 下的方法總結。然而,這些不同的應用都是孤立存 在的,不能形成一個系統的各種方法的總結。此外, 現有的綜述文章多關注于視覺Transformer模型與 傳統的CNN模型結果的比較,對不同Transformer模 型間結果的比較分析較少。 為了解決以上問題,本文從視覺識別的角度出 發,總結比較了視覺Transformer處理多種識別任務 的代表性方法。按照識別粒度的不同,可以分為基 于全局識別的方法和基于局部識別的方法。基于全 局識別的方法,即對視覺數據(圖片、視頻)整體進行 識別,例如圖像分類、視頻分類。基于局部識別的 方法,即對視覺數據中的部分進行識別,例如目標 檢測等。考慮到現有方法在三種具體識別任務的廣 泛流行,本文也總結對比了在人臉識別、動作識別 和姿態估計三種識別任務的方法。在每類任務下, 對不同方法的特點和在公共數據集上的表現進行 了對比分析,并進一步總結了該類方法的優點與不 足,以及不同識別任務面臨的問題與挑戰。 本文與現有的綜述文章對比,具有以下優點: 1)本文從識別的角度分類,可以更系統地將現有方 法聯系起來;2)雖然一些綜述文章(Liu 和 Lu, 2021d,Khan 等,2022)也對識別任務的方法進行了 總結,但是涉及的內容不全面,而本文不但對基礎 識別任務的方法進行了總結,還總結了三種具體識 別任務的方法,并且對于每類任務方法,在對比分 析公共數據集結果的基礎上,總結了其發展現狀和 不足。 綜上所述,近年來 CNN 的局限性以及 Transformer研究的突破性使得視覺Transformer已廣 泛應用于CV領域,而關于視覺Transformer的綜述文 章還不夠豐富,特別是對其應用場景的總結存在著 較為孤立的現象。又因流行的CV應用場景大多能夠 以視覺識別的角度分析,所以本文系統地對用于識 別任務的視覺Transformer進行綜述具有必要性,同 時,本文通過每類任務對應的基準數據集上的實驗 對比分析,反映各類Transformer模型間的區別與聯 系也是十分必要的。最后,本綜述的出現帶來了更 系統的總結和更全面的內容,將為相關領域讀者快 速了解和認識Transformer在視覺識別任務中的應 用提供重要幫助。
圖像分類是圖像理解的基礎,對計算機視覺在實際中的應用具有重要作用。然而由于圖像目標形態、類型的多樣 性以及成像環境的復雜性,導致很多圖像分類方法在實際應用中的分類結果總是差強人意,例如依然存在分類準確性低、假 陽性高等問題,嚴重影響其在后續圖像及計算機視覺相關任務中的應用。因此,如何通過后期算法提高圖像分類的精度和準 確性具有重要研究意義,受到越來越多學者的關注。近些年,隨著深度學習技術的快速發展及其在圖像處理中的廣泛應用和 優異表現,基于深度學習技術的圖像分類方法研究也取得了巨大進展。 為了更加全面地對現有方法進行研究,緊跟最新研 究進展,本文對 Transformer 驅動的深度學習圖像分類方法和模型進行了系統梳理和總結。與已有主題相似綜述論文不同, 本文重點對 Transformer 變體驅動的深度學習圖像分類方法和模型進行歸納和總結,包括基于可擴展位置編碼的 Transformer 圖像分類方法、具有低復雜度和低計算代價的 Transformer 圖像分類方法、局部信息與全局信息融合的 Transformer 圖像分類 方法以及基于深層 ViT 模型的圖像分類方法等,從設計思路、結構特點和存在問題等多個維度多個層面深度分析總結現有 方法模型。為了更好對不同方法模型進行比較分析,在 ImageNet、CIFAR-10 和 CIFAR-100 等公開圖像分類數據集上,采用 準確率、參數量、浮點運算數(FLOPs)、總體分類精度(overall accuracy, OA)、平均分類精度(average accuracy, AA)和 Kappa(κ) 系數等評價指標,對不同方法模型的分類性能進行了實驗評估。最后,對未來研究發展方向進行了展望。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202208060000002&journal_id=jig 圖像分類旨在識別圖像中存在目標對象所屬具 體類別,是圖像處理和計算機視覺領域的重要研究 方向,具有重要實際應用價值。然而由于實際應用 中,圖像目標的形態、類型多樣,且成像環境復雜, 現有方法的分類效果卻總是差強人意,存在分類準 確性低、假陽性高等問題,嚴重影響其在后續圖像 及計算機視覺相關任務中的應用。因此,如何通過 后期算法提高圖像分類的精度和準確性,具有重要 研究意義,受到越來越多學者的關注。 在過去的最近十幾年間,由于其優異的特征提 取能力,以卷積神經網絡 (convolutional neural network,CNN)及其變體,如 VGGNet(Visual Geometry Group) (Simonyan 和 Zisserman,2015)、Inceptions (Szegedy 等,2014)、ResNe(X)t(residual networks)(He 等, 2015; Xie 等, 2017)、DenseNet(densely connected convolutional network)(Huang 等, 2018)、MobileNet (Howard 等, 2017)、EfficientNet (Tan 和 Le,2019)、 RegNet (Parmar 等, 2019)和 ConvNeXts (Liu 等, 2022) 等為代表的深度學習技術被廣泛應用于各種圖像處 理任務,并取得了較好的處理效果。作為后起之秀, 這些年在自然語言處理領域大放異彩的 Transformer(Vaswani 等, 2017)模型,由于較強的遠 距離建模和并行化序列處理能力,近年來逐漸引起 圖像處理和計算機視覺領域研究者的興趣,并在目 標檢測(Carion 等, 2020)、語義分割(Wang 等, 2021)、 目標跟蹤(Chen 等,2021)、圖像生成(Jiang 等,2021)和 圖像增強(Chen等,2021)等應用中表現出良好的應用 性能。ViT(vision transformer) (Dosovitskiy 等,2021) 是 google 團隊提出的第一個利用堆疊的 Transformer 編碼器代替傳統 CNN 的網絡模型。相 較于傳統 CNN,ViT 通過將輸入圖像劃分為一個個 的圖像塊(patch),實現對待處理圖像的全局建模和 并行化處理,極大提升了模型的圖像分類能力。目 前盡管 ViT 模型在圖像處理和計算機視覺應用中已 取得了很好成效,但研究(Guo 等,2022)發現,與目 前最先進的 CNN 模型相比,現有 ViT 模型在視覺 任務中的表現仍存在差距。分析其原因,主要有: (1) 絕對位置編碼導致現有模型可擴展性能差;(2) 自注意力機制與分辨率計算上呈二次方關系帶來高 昂的計算開銷;(3) 缺乏歸納偏置導致數據饑餓和收 斂速度慢問題;(4) 深層 Transformer 存在注意力崩 潰問題。 針對上述問題,在過去的兩年間,研究者們開 展了更為深入地研究,并先后推出數篇關于 Transformer 的技術綜述,如(Tay 等,2022)回顧了 Transformer 的效率,(Khan 等,2021)和(Han 等, 2022) 總結了一些早期的視覺 Transformer 和一些注意力 模型,(Lin 等, 2022)提供了對 Transformer 的各種變 體的系統評論,并粗略地給出了 Transformer 在不同 視覺任務中的應用。(Liu 等,2022)提出根據動機、結 構和使用場景組織這些方法。(Xu 等, 2022)根據任務 場景對它們進行分類。 與以上已有綜述論文不同,為了使讀者對最新 研究進展有一個更為全面、更為系統、更為深入的 了解,緊跟最新研究進展,本文對 2021 年 1 月至 2022 年 12 月 31 間發表的各種 Transformer 驅動的 深度學習圖像分類方法和模型進行了系統梳理,重 點對 ViT 變體驅動的圖像分類方法進行了歸納和總 結,包括可擴展的位置編碼、低復雜度和低計算代 價、局部信息與全局信息融合以及深層 ViT 模型等。
本文主要貢獻如下: (1) 分類總結了近年來 Transformer 驅動的深度 學習圖像分類方法和模型,介紹了各類方法的核心 思想,分析了現有方法存在問題,以及可能的解決 方案; (2) 系統梳理了 Transformer 驅動的深度學習圖 像分類任務需要解決的關鍵性科學問題,并對未來 的研究方向及發展趨勢進行了展望。 本文其余部分的安排如下:第 1 節簡要介紹 Transformer 基本概念、原理和結構;第 2 節先簡單 介紹 ViT 的概念、原理和結構,隨后由 ViT 設計之 初所存在的問題出發對可擴展的位置編碼、低復雜 度和低計算代價、局部信息與全局信息融合以及深 層 ViT 模型進行介紹;第 3 節對不同方法模型的實 驗結果進行分析;第 4 節對未來研究發展趨勢和研 究方向進行了展望。
多模態機器學習領域,為特定任務而制作的人工標注數據昂貴,且不同任務難以進行遷移而需要大量重新訓練,導致訓練多個任務的效率低下和資源浪費。預訓練模型通過以自監督為代表的方式進行大規模數據訓練,對數據集中不同模態的信息進行提取和融合,以學習其中蘊涵的通用知識表征,從而服務于廣泛的相關下游視覺語言多模態任務,這一方法逐漸成為人工智能各領域的主流方法。依靠互聯網所獲取的大規模圖文對與視頻數據,以及以自監督學習為代表的預訓練技術方法的進步,視覺語言多模態預訓練模型在很大程度上打破了不同視覺語言任務之間的壁壘,提升了多個任務訓練的效率并促進了具體任務的性能表現。為總結視覺語言多模態預訓練領域的進展,本文首先對常見的預訓練數據集和預訓練方法進行了匯總,然后對目前最新的以及近年來經典的方法進行系統概述,按輸入來源分為了圖像-文本預訓練模型和視頻-文本多模態模型兩大類,闡述了各方法之間的共性和差異,并將各模型在具體下游任務上的實驗情況進行了匯總。最后,本文總結了視覺語言預訓練面臨的挑戰和未來發展趨勢。
深度學習(deep learning, DL)方法在計算機視 覺(computer vision, CV)、自然語言處理(nature language processing, NLP)以及多模態機器學習(multimodal machine learning, MMML)的各個具體任務 上取得了令人矚目的進展,但不同任務之間需要使 用專有的數據進行訓練,大量的重新訓練使得時間 和經濟成本顯著增加。預訓練模型(pre-trained model, PTM)與微調(fine-tuning)相結合的范式旨在緩解 這一困難,預訓練模型首先在大規模通用數據集上 利用自監督為代表的方式進行預訓練,使得模型在 遷移至下游任務之前學習到通用的表征,然后在小 型專有數據集中進行微調得以獲取特定任務知識 (Yosinski 等,2014)。這一方法在很大程度上打破 了各具體任務之間的壁壘,在避免重新訓練所造成 的資源浪費的同時,對下游任務的性能起到促進作 用。Transformer(Vaswani 等,2017)是當前預訓練 模型最為廣泛使用的基礎結構,其因為在處理長距 離依賴關系方面的優勢,最初在機器翻譯方面取得 了成功,隨后廣泛用于 NLP 領域。GPT(Radford 等, 2018)采用 Transformer 作為模型預訓練的基礎結構 在大規模語料庫中進行預訓練,將學習到語言知識 的參數模型用于具體任務,實驗中 12 個下游的 NLP 任務性能取得了顯著的提升。BERT(Devlin 等,2019) 采用了雙向語言模型進行預訓練,在語料中隨機對 15%的單詞令牌(token)進行掩碼,要求模型可以 預測出原有單詞令牌,此外還進行了句子預測任務, 實驗中 11 個下游的 NLP 任務性能取得了提升。隨 后的若干工作(Dong 等,2019;Liu 等,2019a;Radford 等,2019;Shoeybi 等,2019;Zellers 等, 2019;Yang 等,2019;Brown 等,2020;Lewis 等, 2020;Raffel 等,2020;Zhang 等,2020b,2021b;Fedus 等,2021;Sun 等,2021;琚生根 等,2022;強繼朋 等,2022)證明預訓練的語言模型能夠普適 地對下游任務性能起到促進作用。受到 NLP 領域的 啟發,CV 方面的研究者也相繼開展基于Transformer 的視覺預訓練工作。ViT(Dosovitskiy 等,2021)將圖像的補丁塊(patch)作為序列輸入 Transformer 進 行預訓練,克服 Transformer 結構難以處理圖像輸入 這一困難。CLIP(Radford 等,2021)將自然語言作 為監督以提升圖像分類效果,使用對比學習 (contrastive learning, CL)方法促進圖像和文本的匹 配能力。MAE(He 等,2021a)將 NLP 中常用的自 監督方法用于 CV 預訓練,其通過訓練自編碼器, 預測經過隨即掩碼而缺失的圖像 patch,從而高效、 準確地進行圖像分類任務。
人類最具有抽象知識表達能力的信息為語言信息,而人類獲取的最豐富的信息為視覺信息,上述工作分別在這兩種模態上開展預訓練并取得的成功。視覺語言任務(vision-and-language task)(Pan 等, 2016a,b;Tapaswi 等,2016;Yu 等,2016a;Jang 等,2017;Maharaj 等,2017)是典型的多模態機器 學習任務,其中視覺和語言兩種模態的信息互相作 為指引,需讓不同模態的信息對齊和交互,進行視 覺語言預訓練(visual-language pre-training, VLP)工 作并提升模型在下游的視覺問題回答(visual question answering, VQA)(Johnson 等,2017)、視頻描 述(video captioning)(Zhou 等,2018a,b,2019;)、 文本-視頻檢索(image-text retrieval)(Wang 等,2016, 2019;Song 和 Soleymani,2019b)等任務上的效果。視覺語言任務存在著很大的挑戰。其中一個難點是, 使用何種易于大規模獲得并且含有大量通用知識的 多模態數據來源,以構建訓練數據集;另一個難點 是,怎樣通過有效的機制,將屬性相差巨大的不同 模態的信息進行統一訓練。對于以上問題,一方面,當前的主要方法通過 獲取來自互聯網的圖文對、包含語言描述的教學視 頻、附帶字幕的影視劇以及其他各類視頻等視覺語 言多模態數據,制作涵蓋廣泛常識信息的大規模預 訓練數據集;另一方面,設計能夠處理多種模態信 息的神經網絡模型,通過以自監督為代表的方式進 行大規模數據訓練,對數據集中不同模態的信息進 行提取和融合,以學習其中蘊涵的通用知識表征, 從而服務于廣泛的相關下游視覺語言多模態任務。
當前對預訓練模型的綜述工作主要集中在單模態(Qiu 等,2020;Kalyan 等,2021;Min 等,2021;陳德光 等,2021;韓毅 等,2022),部分工作梳理 視頻-文本多模態類型(Ruan 和 Jin,2021),但較為 全面的 VLP 綜述工作(Chen 等,2022)相對較少。本文梳理最新視覺語言多模態預訓練模型的相關研 究成果,首先對 VLP 模型常用的預訓練數據集和預 訓練方法進行了簡單介紹,然后在介紹基礎結構之 后對 VLP 模型按視覺輸入來源進一步分類, 介紹目 前具有代表性的圖像-文本預訓練模型和視頻-文本 預訓練模型,并根據模型結構不同分為了單流和雙 流類型,重點闡述各研究特點,對不同 VLP 預訓練 模型在主要下游任務上的性能表現也進行了匯總。最后對目前研究面臨的問題進行探討。
1 預訓練數據集與預訓練任務
在各類預訓練任務中,模型性能受預訓練數據 集質量的影響顯著。為了獲取通用的多模態知識, 視覺-語言預訓練任務主要使用帶有弱標簽的視覺語言對進行模型訓練。圖像-文本任務主要為圖像及 標題、內容描述、人物的動作描述等。類似地,視頻 -語言預訓練數據集包含大量的視頻-文本對,其標簽 來源包括視頻中的文字描述以及由自動語音識別 (automatic speech recognition, ASR)技術獲得的文 本信息等。部分模型為針對性提升某一模態的表征 提取能力,在多模態預訓練之外還進行單模態數據 集進行預訓練,使用如圖片數據集與純文本數據集。 預訓練中常用的公開數據集有,圖文數據集 SBU(Ordonez 等,2011),Flickr30k(Young 等, 2014),COCO Captions(Chen 等,2015),Visual Genome(VG)(Krishna 等,2017b),Conceptual Captions (CC, CC3M)(Sharma 等,2018)和 Conceptual 12M (CC12M)(Changpinyo 等,2021),VQA(Antol 等, 2015),VQA v2.0(Goyal 等,2019),Visual7W(Zhu 等,2016),GQA(Hudson 和 Manning,2019)。視 頻數據集 TVQA(Lei 等,2018),HowTo100M(Miech 等,2019),Kinetics(Kay 等,2017),Kinetics-600 (Carreira 等,2018),Kinetics-700(Carreira 等, 2019),YT-Temporal-180M(Zellers 等,2021),WebVid-2M(Bain 等,2021)。單模態圖片數據集 COCO (Lin 等,2014),OpenImages(Krasin 等,2017), 文本數據集 BooksCorpus(Zhu 等,2015)以及 English Wikipedia。數據集信息匯總如表 1 所示,以下對代 表性的數據集做進一步介紹。
預訓練任務
2 預訓練模型
2.1 模型基礎 本文根據特征在進行視覺和語言模態融合處理 之前,是否進行處理,將 VLP 模型按結構分為單流 式(single-stream)和雙流式(cross-stream),其對比 如下圖 1 所示。
單流模型將視覺特征和語言特征直接輸入融合 模塊,進行模型訓練,其典型方式如圖 1(a)所示。雙流模型將視覺特征和語言特征分別進行處理,然 后進行模態間的融合,典型類型包括但不限于圖中三類,圖 1(b1)中,模型首先對兩路特征分別進行 處理,然后進行跨模態融合;如圖 1(b2)中,視覺 特征經過視覺處理模塊后,與文本特征一同送入多 模態融合模塊進行交互;圖 1(b3)中,兩路特征送 入各自處理模塊后進行交互式的參數訓練。
2.2 圖像-文本多模態預訓練模型
單流模型相對雙流模型結構較簡單,一般將圖 像與文本兩種模態信息置于等同重要位置,對圖像 和文本編碼后共同輸入跨模態融合模塊進行預訓練。 對于輸入圖像是否采用采用目標檢測算法,可對研 究進行更細致的分類。
由于圖像和文本信息在屬性上區別較大,將不 同模態輸入置于相同輸入地位可能對模態間匹配造 成不良影響。在這一假設下,部分模型根據多模態 輸入特點設計雙流預訓練模型,使用不同編碼器靈 活處理各自模態特征,并通過后期融合對不同模態 進行關聯。
2.3 視頻-文本多模態預訓練模型
Sun 等人(2019b)提出的 VideoBERT 模型是第 一個將 Transformer 結構拓展到視頻語言預訓練的 工作,模型結構如圖 9 所示。對 ASR 得到的文本輸 入采取常用的類 BERT 處理,對于視頻輸入,按每 秒 20 幀采樣速度從視頻剪切多個 1.5s 視頻片段, 應用預訓練過的 S3D 提取視頻特征,然后采用層級 k 聚類(hierachical k-means)標記視覺特征,以聚類 中心對視頻特征進行矢量量化(vector quantization, VQ)操作。文本與視頻的聯合特征被送入多模態 Transformer進行MLM,VTM和掩蔽視頻預測(video only mask completion, VOM)預訓練任務。VOM 以 聚類的視頻片段作為被掩蔽和預測的視覺單元。模 型目標是學習長時間高級視聽語義特征,如隨時間 推移而展開的事件與動作,采用網絡收集的廚藝教 學視頻作為預訓練數據,在預設下游任務上表現良 好,但由于視覺中心代表的視覺信息難以全面描述 視頻內容,使得模型的泛化性受到一定限制。
Miech 等人(2019)提出了視頻文本預訓練中被 廣泛使用的大規模敘述性視頻數據集 HowTo100M, baseline 方法將提取到的視頻和文本特征映射到相 同維度從而優化模態間的關聯性。Miech等人(2020) 進一步研究發現 HowTo100M 中由于人的講述與畫 面展示不同步,導致大約 50%的視頻剪輯片段與 ASR 描述文本沒有對齊(如圖 10 所示)。為解決這 一偏差問題引入了多實例學習(multiple instance learning, MIL),基于同一視頻中連續時間內畫面語 義相似的前提,在目標視頻片段的相鄰時間內截取 多個視頻-描述對作為對比學習的候選正例。然后采 用噪聲估計 NCE 來優化視頻文本聯合特征的學習, 提出了 MIL-NCE,在 8 個數據集 4 類下游任務中表 現良好。MIL-NCE 方法在后續使用 HowTo100M 數 據集的預訓練模型中廣泛使用。
Zhu 等(2020)提出了全局局部動作 VLP 模型 ActBERT,結構如圖 11 所示,對于視頻輸入采取兩 種編碼處理。首先是動作編碼,加入全局堆疊幀獲 取全局動作信息,動作信息來自每個視頻相應描述 中提取動詞所構建的字典,為簡化問題刪除了沒有 任何動詞的視頻片段。然后是視覺編碼,加入經 Faster-RCNN 對圖像提取的 RoI 特征獲取局部區域 信息。ActBERT 利用全局動作信息來促進文本與局 部目標區域間的交互,使一個視覺中心能同時描述 局部和全局視覺內容,提升視頻和文本的關聯性。 引入了掩蔽動作分類(mask action classification, MAC),即隨機掩蔽輸入的動作表示向量,使模型通 過其他信息如文本信息和物體信息來預測出動作標 簽。模型在 5 類下游任務上表現良好。
3. 下游任務性能對比
3.1 圖像-文本多模態預訓練模型
圖像-文本多模態下游任務繁多,代表性的任務 有分類任務如視覺問答(Johnson 等,2017;Hudson 和 Manning,2019)),自然語言視覺推理(natural language visual reasoning, NLVR)(Suhr 等,2017, 2018),視覺常識推理(Gao 等,2019);指稱表達理解(referring expression comprehension, REC)(Yu 等, 2016b;Mao 等,2016),視覺蘊含(visual entailment, VE)(Xie 等,2018a,2019)等,檢索任務如圖文檢 索(image-text retrieval)(Karpathy 和 Li,2015; Plummer 等,2015;Lee 等,2018);生成任務如圖 像描述(Vinyals 等,2015;Xu 等,2015;Anderson 等,2018),新對象圖像描述(novel object captioning, NoCaps )( Agrawal 等 , 2019 ) 及 多 模 態 翻 譯 (multimodal translation)(Elliott 等,2016)。如下對 表 5 中 VLP 模型所進行對比的下游任務與相關數據 集進行進一步介紹。
3.2 視頻-文本多模態預訓練模型
關于視頻的視覺-語言交叉任務同樣覆蓋廣泛, 代表性的任務有視頻描述(Gan 等,2017;Krishna 等,2017a);文本-視頻檢索(Gao 等,2017;Hendricks 等,2017;Mithun 等,2018;Lei 等,2020b);視頻 問答(video question answering)(Yu 等,2018;Lei 等,2020a);動作分割(action segmentation)(Tang 等,2019);步驟定位(action step localization) (Zhukov 等,2019);動作識別(Kuehne 等,2011; Soomro 等,2012);視頻摘要(video summarization) (Plummer 等,2017);視覺故事講述(visual storytelling)(Agrawal 等,2016 ;Huang 等,2016)。 如下對表 6 中 VLP 模型所進行對比的下游任務與相 關數據集進行進一步介紹
4 問題與挑戰
視覺語言多模態預訓練作為前沿研究,盡管在 下游視覺語言交叉任務上已經有了不錯表現,但在 未來工作中還需考慮以下幾個方向:
1)訓練數據域的差異 預訓練數據集與下游任務數據集之間存在數據 域的差異,部分工作表明(Zhou 等 2021),與預訓 練數據集的域相一致的下游任務數據集可以顯著提 升任務表現,而數據域的差異是造成模型在不同任 務之間遷移時性能下降的重要原因。HERO(Li 等 2020b)指出,不能通過增加微調過程的數據規模, 來縮小下游任務數據與預訓練數據的域差異所造成 的影響。MERLOT(Zellers 等,2021)使用較為多 樣的預訓練數據,增大了數據域的分布,在一定程 度上提升了模型的性能,但也增加了訓練消耗。因 此,如何提升預訓練數據集的質量和多樣性是今后 預訓練任務的重要課題。
2)知識驅動的預訓練模型
預訓練模型的本質是通過參數量極大的神經網 絡對大規模訓練數據進行擬合,以學習潛在的通用 知識,在此過程中擴大數據規模可以帶來預訓練性 能的提升,但會增加計算資源和能耗的消耗,因此 一味通過增加數據和訓練量換取性能的思路是難以 持續的。對于輸入的圖文、視頻等多模態信息,存在 著大量隱含的外部常識信息可以用于更快速的引導 模型對于事件內容的挖掘(Chen 等,2021),因此探 索如何通過知識驅動的方式建立具有廣泛知識來源 的模型架構,將知識圖譜等結構化知識注入模型, 探索輕量化的網絡結構,從而增加模型的訓練效率 和可解釋性,是預訓練模型的具有前景的方向。
3)預訓練模型的評價指標
現有的視覺語言預訓練模型大多在少數幾個下 游數據集上進行效果的實驗驗證,難以確切判斷在 其它數據集上的有效性,而真正通用的預訓練系統 應該在廣泛的下游任務、數據域和數據集上進行推 廣,這就需要建立較為通用的預訓練評價指標,來 有效評價預訓練效果,并指出模型是否易于在不同 任務和數據之間進行遷移。VALUE(Li 等,2021a) 作為一個視頻語言預訓練評價基準,覆蓋了視頻、 文本、音頻輸入,包含了視頻檢索、視覺問答、字幕 匹配任務的 11 個數據集,根據不同難度的任務的元 平均得分(meta-average score)度量預訓練模型的性 能。但這類工作目前正處于起步階段,相關的研究 也被研究者重點關注。
4)探索多樣的數據來源
視頻中的音頻包含了豐富的信息,當前視頻預 訓練中常使用 ASR 方法將音頻轉換為文本,在此 過程中部分原有信息損失掉了,因此探索包含音頻 的預訓練模型是一個可取的方向。目前的多模態預 訓練數據來源以英文圖文和視頻為主,進行多語言 學習的預訓練工作較少,將模型在不同語言間進行 遷移還需要繼續研究。此外,探索從結構化的多模 態數據中進行更細粒度的預訓練工作(Zellers 等, 2021),如從圖表中進行目標推理的訓練等。
5)預訓練模型的社會偏見和安全性
由于大規模數據集在來源上涉及范圍廣泛,難 以逐一排查具體信息,數據中難以避免地存在部分 社會偏見以及錯誤知識,而通過預訓練模型由于學 習到了這些不良內容,其生成的結果會進一步增加 這類內容所造成了影響,造成更大的社會問題 (Dixon 2008)。因此在獲取數據時如何對存在的 數據隱私,以及涉及國家、種族、性別公平性等問 題進行考量,通過算法對選取的預訓練數據內容進 行過濾,在社會安全、倫理等方面尤其重要。
5 結 語
視覺和語言在人類學習視覺實體與抽象概念的 過程中扮演著重要的角色,本文對視覺語言多模態 預訓練領域自 2019 年以來的模型與方法,基于視覺 來源從圖像-文本與視頻-文本兩大方向進行綜述, 并進一步基于模型結構分別介紹各具體模型的特點 與研究貢獻。此外,還介紹了常用視覺語言多模態 預訓練模型數據集、預訓練任務設定以及各模型在 主要下游任務上的表現。 最后對該領域的問題與挑 戰進行了總結并提出未來研究方向。希望通過本文 讓讀者了解當前工作的前沿,以啟發進而做出更有 價值的多模態預訓練工作。
視覺理解,如物體檢測、語義和實例分割以及動作識別等,在人機交互和自動駕駛等領域中有著廣泛的應用并發揮著至關重要的作用。近年來,基于全監督學習的深度視覺理解網絡取得了顯著的性能提升。然而,物體檢測、語義和實例分割以及視頻動作識別等任務的數據標注往往需要耗費大量的人力和時間成本,已成為限制其廣泛應用的一個關鍵因素。弱監督學習作為一種降低數據標注成本的有效方式,有望對緩解這一問題提供可行的解決方案,因而獲得了較多的關注。圍繞視覺弱監督學習,本文將以物體檢測、語義和實例分割以及動作識別為例綜述國內外研究進展,并對其發展方向和應用前景加以討論分析。在簡單回顧通用弱監督學習模型,如多示例學習(multiple instance learning,MIL)和期望—最大化(expectation-maximization,EM)算法的基礎上,針對物體檢測和定位,從多示例學習、類注意力圖機制等方面分別進行總結,并重點回顧了自訓練和監督形式轉換等方法;針對語義分割任務,根據不同粒度的弱監督形式,如邊界框標注、圖像級類別標注、線標注或點標注等,對語義分割研究進展進行總結分析,并主要回顧了基于圖像級別類別標注和邊界框標注的弱監督實例分割方法;針對視頻動作識別,從電影腳本、動作序列、視頻級類別標簽和單幀標簽等弱監督形式,對弱監督視頻動作識別的模型與算法進行回顧,并討論了各種弱監督形式在實際應用中的可行性。在此基礎上,進一步討論視覺弱監督學習面臨的挑戰和發展趨勢,旨在為相關研究提供參考。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20220604&flag=1
近年來,視覺理解技術的快速發展仍主要建立 在監督學習的基礎上。 然而,物體檢測、語義和實例 分割以及視頻動作識別等視覺理解任務往往需要大 量的全標注數據集 D s = {(x, y s )},其中 x 為輸入 樣本,y s是全標注。 例如,對于分割任務,圖像 x 中 包含各種物體,全標注 y s為像素級別的類別標簽。 得益于深度學習技術的快速發展,全監督學習在各 種視覺理解任務中已經取得了巨大成功,如目標檢 測任務中的 YOLO ( you only look once) (Redmon 等,2016 )、 Fast R-CNN ( fast region-based convolutional neural network) (Girshick,2015;He 等,2017; Ren 等,2017 )、 FCOS ( fully convolutional one-stage object detector) (Tian 等,2019)和 DETR ( detection transformer) ( Carion 等,2020 ) 等, 語義分割中的 DeepLab ( Chen 等,2018 )、 PSPNet ( pyramid scene parsing network) (Zhao 等,2017)等。 然而,大規模 數據集的全標注往往要耗費大量的人力成本和時間 成本。 仍以圖像分割為例,為獲取全監督訓練數據 集如 CityScapes (Cordts 等,2016),需人工對圖像進 行像素級別標注。 該數據集中包含 5 000 幅圖像, 使用 LabelMe 軟件(Russell 等,2008)進行精細的像 素級標注,每幅圖像平均需要花費超過 1. 5 h 來保 證標注的質量,人工標注的成本大約是每小時 6 10 美元。 顯然,過高的標注成本制約了語義分割在 其他類別上的更快發展。 無監督生成學習和自監督 學習雖然在很大程度上能夠緩解標注代價,但仍需 要一定數量的全標注數據用于模型微調。 數據標注 作為一種典型勞動密集型工作,已成為關乎當前整 個 AI(artificial intelligence)產業的基礎。 如何有效地降低標注成本或者避免數據標注,同時保證視覺 理解模型的性能,不僅是深度學習未來發展應用的 關鍵問題,同時也是機器學習乃至于人工智能領域 的重要開放問題,在經濟和社會層面上均具有重要 的研究意義。
弱監督學習作為一種降低數據標注成本的有效 方式,有望對緩解這一問題提供可行的解決方案,因 而獲得了較多的關注。 在視覺弱監督學習方法中, 對于樣本 x 僅需提供弱標注 y w構成弱監督數據集 D w = {(x, y w )}。 如對于圖像分割任務,圖像級別 和標注框的弱監督標注,相較于像素級別的標注的 代價顯著降低。 仍以 CityScapes 數據庫為例,一個 邊界框的標注需要 7 s,一個圖像的類別標注只需要 1 s,弱標注相較于像素級的全標注顯著降低了成 本。 視覺弱監督學習旨在利用弱標注數據集 D w , 通過發展有效的學習模型以縮小與全監督模型的性 能差距。 視覺弱監督方法能夠顯著降低標注成本,且 期望接近全監督視覺模型的性能。 因而如何結合深 度學習和視覺數據任務特點發展視覺弱監督學習模型 方法,成為近年來計算機視覺領域的一個研究熱點。
動態注意力機制和全局建模能力使Transformer表現出較強的特征學習能力。近年來,Transformer在計算機視覺方面已經可以媲美CNN方法。本文主要研究了Transformer在圖像和視頻應用中的研究進展,對Transformer在視覺學習理解中的應用進行了全面的綜述。首先,回顧了在Transformer中起著重要作用的注意力機制。然后介紹了視覺Transformer模型和各個模塊的工作原理。第三,研究了現有的基于Transformer的模型,并比較了它們在視覺學習理解應用中的性能。研究了計算機視覺的三個圖像任務和兩個視頻任務。前者主要包括圖像分類、目標檢測和圖像分割。后者包括目標跟蹤和視頻分類。它對于比較不同模型在多個公共基準數據集上的不同任務性能具有重要意義。最后,總結了視覺Transformer存在的10個普遍問題,并對其發展前景進行了展望。
引言
深度學習[1]發展迅速,卷積神經網絡(CNN)在深度學習[2]、[3]的各個領域都占據了主導地位。然而,近年來Transformer[4]逐漸打破了這種局面。它摒棄了以往深度學習任務中使用的CNN和RNN,在自然語言處理(NLP)、計算機視覺(CV)等領域取得了突破。逐漸地,基于Transformer的模型在最近三年中得到了很好的發展。最初的Transformer模型是在2017年[4]題為“Attention is all you need”的論文中正式提出的。它來自于NLP中的機器翻譯模型seq2seq[5]。此外,在Transformer模型中也采用了編碼器-解碼器架構。它主要是從一個注意力模塊演變而來的,自注意力,這是現有的注意力模式之一。在注意力機制方面,出現了多種注意力模型來提高識別效果。現有的注意力模型主要包括通道注意力、空間注意力和自注意力[6]。《Transformer》的核心是自注意力。
首先,Transformer是一種新穎的方法,在自然語言處理中取得了巨大的成功。后來又擴展到CV中的不同任務,如高分辨率圖像合成[7]、目標跟蹤[8]、目標檢測[9]-[11]、分類[12]、分割[13]、圖像處理[14]、再識別[15]-[17]等。在過去的三年里,Transformer已經進化出了一系列變體,也被稱為X-Transformer[18]。各種Transformer 應運而生,并在各項任務中取得了良好的應用進展。研究表明,預訓練的Transformer模型在各種任務中都達到了最先進的水平。Transformer模型的效果是顯著的,特別是在ImageNet分類任務中。ViT[19]、BoTNet[20]、Swin Transformer[21]相繼提出,并一次又一次實現性能突破。本文綜述了Transformer在視覺學習理解的圖像和視頻應用方面的發展進展。
對比[18]、[22]-[24]、[26]等相關綜述,從Transformer的模型機制、視覺學習理解應用的應用進展、各種模型在公共基準上的性能比較等方面進行了全面的研究。相關綜述及其主要內容見表一。這篇綜述旨在讓讀者全面了解Transformer、其原理以及現有的應用進展。此外,還為所研究的圖像和視頻研究提供了實驗比較。同時,也為深度學習研究者提供了進一步的思路。這項綜述的主要貢獻如下:
注意力機制
注意力機制是20世紀90年代提出的。它指的是將人類的感知和注意行為應用到機器上,機器可以學習感知數據中重要和不重要的部分。在CV中,注意力機制讓機器感知圖像中的目標信息,抑制圖像的背景信息。引入注意力機制可以緩解深度學習中計算能力和優化算法的限制。
根據不同的角度[28]對現有的深度學習注意機制進行了分類。解碼時是否考慮編碼器的所有隱藏狀態,分為全局注意力機制和局部注意力機制。從注意力域的角度看,可分為注意力域、空間力域、通道域和混合域。根據編碼方式的不同,可分為軟注意力機制、硬注意力機制和自注意力機制。其中,自注意力是Transformer模型的研究核心。
Transformers
Transformers的視覺學習和理解框架。針對圖像任務,主要研究了基于Transformer的主干、圖像分類、目標檢測和圖像分割。針對視頻任務,綜述了基于Transformer的目標跟蹤、視頻分類方法。
圖像分類、目標檢測和圖像分割是圖像分類的三個基本任務。針對這三項任務的基于Transformer的方法已經得到了很好的發展。有基于Transformer的骨干和基于Transformer的頸部。前者在所有的三個任務中進行評估,而后者通常在其中任何一個任務中進行評估。研究了相關的Transformer模型及其相應的實驗結果。
基于Transformer的圖像分類的總體框架
Transformer在視頻學習和理解方面得到了發展,包括目標跟蹤、視頻分類和視頻分割。本節主要研究基于Transformer的目標跟蹤和視頻分類方法。
基于Transformer的視頻分類的總體框架
總結
本文對Transformer在視覺學習理解方面的發展進行了全面的研究,并提出了一些看法。值得注意的是,基于transformer方法的一些關鍵實驗性能統計數據在多個圖像和視頻任務中得到了展示,為研究人員提供了實驗性能參考。同時,提出了基于Transformer的模型計算復雜、局部表示能力弱、依賴于大量預訓練數據等10個開放性問題。當然,也提出了一些發展方向。本綜述旨在使研究者對基于Transformer的研究有一個全面的認識,這對促進Transformer的發展具有重要意義。
Yann LeCun曾說“如果人工智能是一個蛋糕,則蛋糕的主要成分就是無監督學習”。這句話反應了無監督學習在深度學習領域扮演著重要的作用。當前普遍的方法集中在如何設計有效的代理任務來對無標注的輸入數據學習到好的視覺表征。在計算機視覺上,目前比較流行的直接有效的方法是對比學習,將訓練數據的每個實例當做單一的分類。基于這個實力判別,很多自監督方法在分類任務上得到了有效的提升。他們成功彌補了自監督方法和監督方法的代溝。然而,這項任務仍然具有挑戰:
a. 掩碼語言模型在自然語言領域得到了廣泛的應用。圖像是高維特征,多噪聲且相比于文本形式復雜。在視覺領域中,圖像的主要信息會被隨機分到不同的token中,如果這些token被隨機masked掉,將會導致很差的表現。這個隨機掩碼語言模型容易掩蓋圖像的關鍵區域的token,這樣會導致誤判且不適合直接應用于自監督視覺Transformers。
b. 很多自監督方法是利用全局特征學習圖像級別預測,對于像素級別預測優化不足。當前自監督學習方法也許對圖像分類任務過度擬合,對下游密集任務預測表現效果不好。
//www.zhuanzhi.ai/paper/51fc329856a3bcd21dfb8545d693e224
針對以上提出的問題,我們提出掩碼Transformer自監督學習方法,如下圖所示。MST創造性的引入了注意力特征圖引導掩碼策略并利用掩碼特征來恢復全局圖像特征任務。我們將介紹如何利用注意力特征引導掩碼策略幫助掩碼語言模型應用到視覺領域。最后我們將介紹網絡的結構和實驗細節。
圖像分類是計算機視覺中的一項重要任務,傳統的圖像分類方法具有一定的局限性。隨著人工智能技術的發展,深度學習技術越來越成熟,利用深度卷積神經網絡對圖像進行分類成為研究熱點,圖像分類的深度卷積神經網絡結構越來越多樣,其性能遠遠好于傳統的圖像分類方法。本文立足于圖像分類的深度卷積神經網絡模型結構,根據模型發展和模型優化的歷程,將深度卷積神經網絡分為經典深度卷積神經網絡模型、注意力機制深度卷積神經網絡模型、輕量級深度卷積神經網絡模型和神經網絡架構搜索模型等4類,并對各類深度卷積神經網絡模型結構的構造方法和特點進行了全面綜述,對各類分類模型的性能進行了對比與分析。雖然深度卷積神經網絡模型的結構設計越來越精妙,模型優化的方法越來越強大,圖像分類準確率在不斷刷新的同時,模型的參數量也在逐漸降低,訓練和推理速度不斷加快。然而深度卷積神經網絡模型仍有一定的局限性,本文給出了存在的問題和未來可能的研究方向,即深度卷積神經網絡模型主要以有監督學習方式進行圖像分類,受到數據集質量和規模的限制,無監督式學習和半監督學習方式的深度卷積神經網絡模型將是未來的重點研究方向之一;深度卷積神經網絡模型的速度和資源消耗仍不盡人意,應用于移動式設備具有一定的挑戰性;模型的優化方法以及衡量模型優劣的度量方法有待深入研究;人工設計深度卷積神經網絡結構耗時耗力,神經架構搜索方法將是未來深度卷積神經網絡模型設計的發展方向。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20211001&flag=1