亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多模態機器學習領域,為特定任務而制作的人工標注數據昂貴,且不同任務難以進行遷移而需要大量重新訓練,導致訓練多個任務的效率低下和資源浪費。預訓練模型通過以自監督為代表的方式進行大規模數據訓練,對數據集中不同模態的信息進行提取和融合,以學習其中蘊涵的通用知識表征,從而服務于廣泛的相關下游視覺語言多模態任務,這一方法逐漸成為人工智能各領域的主流方法。依靠互聯網所獲取的大規模圖文對與視頻數據,以及以自監督學習為代表的預訓練技術方法的進步,視覺語言多模態預訓練模型在很大程度上打破了不同視覺語言任務之間的壁壘,提升了多個任務訓練的效率并促進了具體任務的性能表現。為總結視覺語言多模態預訓練領域的進展,本文首先對常見的預訓練數據集和預訓練方法進行了匯總,然后對目前最新的以及近年來經典的方法進行系統概述,按輸入來源分為了圖像-文本預訓練模型和視頻-文本多模態模型兩大類,闡述了各方法之間的共性和差異,并將各模型在具體下游任務上的實驗情況進行了匯總。最后,本文總結了視覺語言預訓練面臨的挑戰和未來發展趨勢。

深度學習(deep learning, DL)方法在計算機視 覺(computer vision, CV)、自然語言處理(nature language processing, NLP)以及多模態機器學習(multimodal machine learning, MMML)的各個具體任務 上取得了令人矚目的進展,但不同任務之間需要使 用專有的數據進行訓練,大量的重新訓練使得時間 和經濟成本顯著增加。預訓練模型(pre-trained model, PTM)與微調(fine-tuning)相結合的范式旨在緩解 這一困難,預訓練模型首先在大規模通用數據集上 利用自監督為代表的方式進行預訓練,使得模型在 遷移至下游任務之前學習到通用的表征,然后在小 型專有數據集中進行微調得以獲取特定任務知識 (Yosinski 等,2014)。這一方法在很大程度上打破 了各具體任務之間的壁壘,在避免重新訓練所造成 的資源浪費的同時,對下游任務的性能起到促進作 用。Transformer(Vaswani 等,2017)是當前預訓練 模型最為廣泛使用的基礎結構,其因為在處理長距 離依賴關系方面的優勢,最初在機器翻譯方面取得 了成功,隨后廣泛用于 NLP 領域。GPT(Radford 等, 2018)采用 Transformer 作為模型預訓練的基礎結構 在大規模語料庫中進行預訓練,將學習到語言知識 的參數模型用于具體任務,實驗中 12 個下游的 NLP 任務性能取得了顯著的提升。BERT(Devlin 等,2019) 采用了雙向語言模型進行預訓練,在語料中隨機對 15%的單詞令牌(token)進行掩碼,要求模型可以 預測出原有單詞令牌,此外還進行了句子預測任務, 實驗中 11 個下游的 NLP 任務性能取得了提升。隨 后的若干工作(Dong 等,2019;Liu 等,2019a;Radford 等,2019;Shoeybi 等,2019;Zellers 等, 2019;Yang 等,2019;Brown 等,2020;Lewis 等, 2020;Raffel 等,2020;Zhang 等,2020b,2021b;Fedus 等,2021;Sun 等,2021;琚生根 等,2022;強繼朋 等,2022)證明預訓練的語言模型能夠普適 地對下游任務性能起到促進作用。受到 NLP 領域的 啟發,CV 方面的研究者也相繼開展基于Transformer 的視覺預訓練工作。ViT(Dosovitskiy 等,2021)將圖像的補丁塊(patch)作為序列輸入 Transformer 進 行預訓練,克服 Transformer 結構難以處理圖像輸入 這一困難。CLIP(Radford 等,2021)將自然語言作 為監督以提升圖像分類效果,使用對比學習 (contrastive learning, CL)方法促進圖像和文本的匹 配能力。MAE(He 等,2021a)將 NLP 中常用的自 監督方法用于 CV 預訓練,其通過訓練自編碼器, 預測經過隨即掩碼而缺失的圖像 patch,從而高效、 準確地進行圖像分類任務。

人類最具有抽象知識表達能力的信息為語言信息,而人類獲取的最豐富的信息為視覺信息,上述工作分別在這兩種模態上開展預訓練并取得的成功。視覺語言任務(vision-and-language task)(Pan 等, 2016a,b;Tapaswi 等,2016;Yu 等,2016a;Jang 等,2017;Maharaj 等,2017)是典型的多模態機器 學習任務,其中視覺和語言兩種模態的信息互相作 為指引,需讓不同模態的信息對齊和交互,進行視 覺語言預訓練(visual-language pre-training, VLP)工 作并提升模型在下游的視覺問題回答(visual question answering, VQA)(Johnson 等,2017)、視頻描 述(video captioning)(Zhou 等,2018a,b,2019;)、 文本-視頻檢索(image-text retrieval)(Wang 等,2016, 2019;Song 和 Soleymani,2019b)等任務上的效果。視覺語言任務存在著很大的挑戰。其中一個難點是, 使用何種易于大規模獲得并且含有大量通用知識的 多模態數據來源,以構建訓練數據集;另一個難點 是,怎樣通過有效的機制,將屬性相差巨大的不同 模態的信息進行統一訓練。對于以上問題,一方面,當前的主要方法通過 獲取來自互聯網的圖文對、包含語言描述的教學視 頻、附帶字幕的影視劇以及其他各類視頻等視覺語 言多模態數據,制作涵蓋廣泛常識信息的大規模預 訓練數據集;另一方面,設計能夠處理多種模態信 息的神經網絡模型,通過以自監督為代表的方式進 行大規模數據訓練,對數據集中不同模態的信息進 行提取和融合,以學習其中蘊涵的通用知識表征, 從而服務于廣泛的相關下游視覺語言多模態任務。

當前對預訓練模型的綜述工作主要集中在單模態(Qiu 等,2020;Kalyan 等,2021;Min 等,2021;陳德光 等,2021;韓毅 等,2022),部分工作梳理 視頻-文本多模態類型(Ruan 和 Jin,2021),但較為 全面的 VLP 綜述工作(Chen 等,2022)相對較少。本文梳理最新視覺語言多模態預訓練模型的相關研 究成果,首先對 VLP 模型常用的預訓練數據集和預 訓練方法進行了簡單介紹,然后在介紹基礎結構之 后對 VLP 模型按視覺輸入來源進一步分類, 介紹目 前具有代表性的圖像-文本預訓練模型和視頻-文本 預訓練模型,并根據模型結構不同分為了單流和雙 流類型,重點闡述各研究特點,對不同 VLP 預訓練 模型在主要下游任務上的性能表現也進行了匯總。最后對目前研究面臨的問題進行探討。

1 預訓練數據集與預訓練任務

在各類預訓練任務中,模型性能受預訓練數據 集質量的影響顯著。為了獲取通用的多模態知識, 視覺-語言預訓練任務主要使用帶有弱標簽的視覺語言對進行模型訓練。圖像-文本任務主要為圖像及 標題、內容描述、人物的動作描述等。類似地,視頻 -語言預訓練數據集包含大量的視頻-文本對,其標簽 來源包括視頻中的文字描述以及由自動語音識別 (automatic speech recognition, ASR)技術獲得的文 本信息等。部分模型為針對性提升某一模態的表征 提取能力,在多模態預訓練之外還進行單模態數據 集進行預訓練,使用如圖片數據集與純文本數據集。 預訓練中常用的公開數據集有,圖文數據集 SBU(Ordonez 等,2011),Flickr30k(Young 等, 2014),COCO Captions(Chen 等,2015),Visual Genome(VG)(Krishna 等,2017b),Conceptual Captions (CC, CC3M)(Sharma 等,2018)和 Conceptual 12M (CC12M)(Changpinyo 等,2021),VQA(Antol 等, 2015),VQA v2.0(Goyal 等,2019),Visual7W(Zhu 等,2016),GQA(Hudson 和 Manning,2019)。視 頻數據集 TVQA(Lei 等,2018),HowTo100M(Miech 等,2019),Kinetics(Kay 等,2017),Kinetics-600 (Carreira 等,2018),Kinetics-700(Carreira 等, 2019),YT-Temporal-180M(Zellers 等,2021),WebVid-2M(Bain 等,2021)。單模態圖片數據集 COCO (Lin 等,2014),OpenImages(Krasin 等,2017), 文本數據集 BooksCorpus(Zhu 等,2015)以及 English Wikipedia。數據集信息匯總如表 1 所示,以下對代 表性的數據集做進一步介紹。

預訓練任務

2 預訓練模型

2.1 模型基礎 本文根據特征在進行視覺和語言模態融合處理 之前,是否進行處理,將 VLP 模型按結構分為單流 式(single-stream)和雙流式(cross-stream),其對比 如下圖 1 所示。

單流模型將視覺特征和語言特征直接輸入融合 模塊,進行模型訓練,其典型方式如圖 1(a)所示。雙流模型將視覺特征和語言特征分別進行處理,然 后進行模態間的融合,典型類型包括但不限于圖中三類,圖 1(b1)中,模型首先對兩路特征分別進行 處理,然后進行跨模態融合;如圖 1(b2)中,視覺 特征經過視覺處理模塊后,與文本特征一同送入多 模態融合模塊進行交互;圖 1(b3)中,兩路特征送 入各自處理模塊后進行交互式的參數訓練。

2.2 圖像-文本多模態預訓練模型

單流模型相對雙流模型結構較簡單,一般將圖 像與文本兩種模態信息置于等同重要位置,對圖像 和文本編碼后共同輸入跨模態融合模塊進行預訓練。 對于輸入圖像是否采用采用目標檢測算法,可對研 究進行更細致的分類。

由于圖像和文本信息在屬性上區別較大,將不 同模態輸入置于相同輸入地位可能對模態間匹配造 成不良影響。在這一假設下,部分模型根據多模態 輸入特點設計雙流預訓練模型,使用不同編碼器靈 活處理各自模態特征,并通過后期融合對不同模態 進行關聯。

2.3 視頻-文本多模態預訓練模型

Sun 等人(2019b)提出的 VideoBERT 模型是第 一個將 Transformer 結構拓展到視頻語言預訓練的 工作,模型結構如圖 9 所示。對 ASR 得到的文本輸 入采取常用的類 BERT 處理,對于視頻輸入,按每 秒 20 幀采樣速度從視頻剪切多個 1.5s 視頻片段, 應用預訓練過的 S3D 提取視頻特征,然后采用層級 k 聚類(hierachical k-means)標記視覺特征,以聚類 中心對視頻特征進行矢量量化(vector quantization, VQ)操作。文本與視頻的聯合特征被送入多模態 Transformer進行MLM,VTM和掩蔽視頻預測(video only mask completion, VOM)預訓練任務。VOM 以 聚類的視頻片段作為被掩蔽和預測的視覺單元。模 型目標是學習長時間高級視聽語義特征,如隨時間 推移而展開的事件與動作,采用網絡收集的廚藝教 學視頻作為預訓練數據,在預設下游任務上表現良 好,但由于視覺中心代表的視覺信息難以全面描述 視頻內容,使得模型的泛化性受到一定限制。

Miech 等人(2019)提出了視頻文本預訓練中被 廣泛使用的大規模敘述性視頻數據集 HowTo100M, baseline 方法將提取到的視頻和文本特征映射到相 同維度從而優化模態間的關聯性。Miech等人(2020) 進一步研究發現 HowTo100M 中由于人的講述與畫 面展示不同步,導致大約 50%的視頻剪輯片段與 ASR 描述文本沒有對齊(如圖 10 所示)。為解決這 一偏差問題引入了多實例學習(multiple instance learning, MIL),基于同一視頻中連續時間內畫面語 義相似的前提,在目標視頻片段的相鄰時間內截取 多個視頻-描述對作為對比學習的候選正例。然后采 用噪聲估計 NCE 來優化視頻文本聯合特征的學習, 提出了 MIL-NCE,在 8 個數據集 4 類下游任務中表 現良好。MIL-NCE 方法在后續使用 HowTo100M 數 據集的預訓練模型中廣泛使用。

Zhu 等(2020)提出了全局局部動作 VLP 模型 ActBERT,結構如圖 11 所示,對于視頻輸入采取兩 種編碼處理。首先是動作編碼,加入全局堆疊幀獲 取全局動作信息,動作信息來自每個視頻相應描述 中提取動詞所構建的字典,為簡化問題刪除了沒有 任何動詞的視頻片段。然后是視覺編碼,加入經 Faster-RCNN 對圖像提取的 RoI 特征獲取局部區域 信息。ActBERT 利用全局動作信息來促進文本與局 部目標區域間的交互,使一個視覺中心能同時描述 局部和全局視覺內容,提升視頻和文本的關聯性。 引入了掩蔽動作分類(mask action classification, MAC),即隨機掩蔽輸入的動作表示向量,使模型通 過其他信息如文本信息和物體信息來預測出動作標 簽。模型在 5 類下游任務上表現良好。

3. 下游任務性能對比

3.1 圖像-文本多模態預訓練模型

圖像-文本多模態下游任務繁多,代表性的任務 有分類任務如視覺問答(Johnson 等,2017;Hudson 和 Manning,2019)),自然語言視覺推理(natural language visual reasoning, NLVR)(Suhr 等,2017, 2018),視覺常識推理(Gao 等,2019);指稱表達理解(referring expression comprehension, REC)(Yu 等, 2016b;Mao 等,2016),視覺蘊含(visual entailment, VE)(Xie 等,2018a,2019)等,檢索任務如圖文檢 索(image-text retrieval)(Karpathy 和 Li,2015; Plummer 等,2015;Lee 等,2018);生成任務如圖 像描述(Vinyals 等,2015;Xu 等,2015;Anderson 等,2018),新對象圖像描述(novel object captioning, NoCaps )( Agrawal 等 , 2019 ) 及 多 模 態 翻 譯 (multimodal translation)(Elliott 等,2016)。如下對 表 5 中 VLP 模型所進行對比的下游任務與相關數據 集進行進一步介紹。

3.2 視頻-文本多模態預訓練模型

關于視頻的視覺-語言交叉任務同樣覆蓋廣泛, 代表性的任務有視頻描述(Gan 等,2017;Krishna 等,2017a);文本-視頻檢索(Gao 等,2017;Hendricks 等,2017;Mithun 等,2018;Lei 等,2020b);視頻 問答(video question answering)(Yu 等,2018;Lei 等,2020a);動作分割(action segmentation)(Tang 等,2019);步驟定位(action step localization) (Zhukov 等,2019);動作識別(Kuehne 等,2011; Soomro 等,2012);視頻摘要(video summarization) (Plummer 等,2017);視覺故事講述(visual storytelling)(Agrawal 等,2016 ;Huang 等,2016)。 如下對表 6 中 VLP 模型所進行對比的下游任務與相 關數據集進行進一步介紹

4 問題與挑戰

視覺語言多模態預訓練作為前沿研究,盡管在 下游視覺語言交叉任務上已經有了不錯表現,但在 未來工作中還需考慮以下幾個方向:

1)訓練數據域的差異 預訓練數據集與下游任務數據集之間存在數據 域的差異,部分工作表明(Zhou 等 2021),與預訓 練數據集的域相一致的下游任務數據集可以顯著提 升任務表現,而數據域的差異是造成模型在不同任 務之間遷移時性能下降的重要原因。HERO(Li 等 2020b)指出,不能通過增加微調過程的數據規模, 來縮小下游任務數據與預訓練數據的域差異所造成 的影響。MERLOT(Zellers 等,2021)使用較為多 樣的預訓練數據,增大了數據域的分布,在一定程 度上提升了模型的性能,但也增加了訓練消耗。因 此,如何提升預訓練數據集的質量和多樣性是今后 預訓練任務的重要課題。

2)知識驅動的預訓練模型

預訓練模型的本質是通過參數量極大的神經網 絡對大規模訓練數據進行擬合,以學習潛在的通用 知識,在此過程中擴大數據規模可以帶來預訓練性 能的提升,但會增加計算資源和能耗的消耗,因此 一味通過增加數據和訓練量換取性能的思路是難以 持續的。對于輸入的圖文、視頻等多模態信息,存在 著大量隱含的外部常識信息可以用于更快速的引導 模型對于事件內容的挖掘(Chen 等,2021),因此探 索如何通過知識驅動的方式建立具有廣泛知識來源 的模型架構,將知識圖譜等結構化知識注入模型, 探索輕量化的網絡結構,從而增加模型的訓練效率 和可解釋性,是預訓練模型的具有前景的方向。

3)預訓練模型的評價指標

現有的視覺語言預訓練模型大多在少數幾個下 游數據集上進行效果的實驗驗證,難以確切判斷在 其它數據集上的有效性,而真正通用的預訓練系統 應該在廣泛的下游任務、數據域和數據集上進行推 廣,這就需要建立較為通用的預訓練評價指標,來 有效評價預訓練效果,并指出模型是否易于在不同 任務和數據之間進行遷移。VALUE(Li 等,2021a) 作為一個視頻語言預訓練評價基準,覆蓋了視頻、 文本、音頻輸入,包含了視頻檢索、視覺問答、字幕 匹配任務的 11 個數據集,根據不同難度的任務的元 平均得分(meta-average score)度量預訓練模型的性 能。但這類工作目前正處于起步階段,相關的研究 也被研究者重點關注。

4)探索多樣的數據來源

視頻中的音頻包含了豐富的信息,當前視頻預 訓練中常使用 ASR 方法將音頻轉換為文本,在此 過程中部分原有信息損失掉了,因此探索包含音頻 的預訓練模型是一個可取的方向。目前的多模態預 訓練數據來源以英文圖文和視頻為主,進行多語言 學習的預訓練工作較少,將模型在不同語言間進行 遷移還需要繼續研究。此外,探索從結構化的多模 態數據中進行更細粒度的預訓練工作(Zellers 等, 2021),如從圖表中進行目標推理的訓練等。

5)預訓練模型的社會偏見和安全性

由于大規模數據集在來源上涉及范圍廣泛,難 以逐一排查具體信息,數據中難以避免地存在部分 社會偏見以及錯誤知識,而通過預訓練模型由于學 習到了這些不良內容,其生成的結果會進一步增加 這類內容所造成了影響,造成更大的社會問題 (Dixon 2008)。因此在獲取數據時如何對存在的 數據隱私,以及涉及國家、種族、性別公平性等問 題進行考量,通過算法對選取的預訓練數據內容進 行過濾,在社會安全、倫理等方面尤其重要。

5 結 語

視覺和語言在人類學習視覺實體與抽象概念的 過程中扮演著重要的角色,本文對視覺語言多模態 預訓練領域自 2019 年以來的模型與方法,基于視覺 來源從圖像-文本與視頻-文本兩大方向進行綜述, 并進一步基于模型結構分別介紹各具體模型的特點 與研究貢獻。此外,還介紹了常用視覺語言多模態 預訓練模型數據集、預訓練任務設定以及各模型在 主要下游任務上的表現。 最后對該領域的問題與挑 戰進行了總結并提出未來研究方向。希望通過本文 讓讀者了解當前工作的前沿,以啟發進而做出更有 價值的多模態預訓練工作。

付費5元查看完整內容

相關內容

我們對世界的體驗是多模態的——我們看到物體,聽到聲音,感覺到紋理,聞到氣味,嘗到味道。模態是指某件事情發生或經歷的方式,一個研究問題如果包含多個模態,就被稱為多模態。為了讓人工智能在理解我們周圍的世界方面取得進展,它需要能夠一起解釋這種多模態信號。多模態機器學習旨在建立能夠處理和關聯來自多種模式的信息的模型。這是一個日益重要和具有非凡潛力的充滿活力的多學科領域。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

轉載來自公眾號:機器學習算法與自然語言處理

論文標題: VLP: A Survey on Vision-Language Pre-training 論文鏈接: //arxiv.org/abs/2202.0906101

摘要 在過去幾年中,預訓練模型的出現將計算機視覺(CV)和自然語言處理(NLP)等單模態領域帶入了一個新時代。大量工作表明它們有利于下游單模態任務,并可以避免從頭開始訓練新模型。那么這樣的預訓練模型能否應用于多模態任務呢?研究人員已經探索了這個問題并取得了重大進展。本文調查了視覺-語言預訓練 (VLP) 的最新進展和新的前沿,包括圖像-文本和視頻-文本預訓練。為了讓讀者更好地全面掌握 VLP,我們首先從特征提取、模型架構、預訓練目標、預訓練數據集和下游任務五個方面回顧其最近的進展。然后,我們詳細總結了具體的 VLP 模型。最后,我們討論了 VLP 的新領域。據我們所知,這是VLP 領域的第一個綜述。我們希望這個綜述能夠為 VLP 領域的未來研究提供啟示。

介紹

讓機器以類似于人類的方式做出反應一直是人工智能研究人員的不懈目標。為了讓機器能夠感知和思考,研究人員提出了一系列相關任務,例如人臉識別、閱讀理解和人機對話,以訓練和評估機器在特定方面的智能。具體來說,領域專家手動構建標準數據集,然后在其上訓練和評估相關模型。然而,由于相關技術的限制,往往需要在大量的標注數據上進行訓練,以獲得更好、更有能力的模型。最近出現的基于 Transformer 結構的預訓練模型緩解了這個問題。它們首先通過自監督學習進行預訓練,其通常利用輔助任務(預訓練目標)從大規模未標記數據中自動挖掘監督信號來訓練模型,從而學習通用表示。然后,他們可以通過僅在下游任務上使用少量人工標記數據進行微調就能實現令人驚訝的效果。自從 BERT在自然語言處理 (NLP) 中出現以來,各種預訓練模型在單模態領域如雨后春筍般涌現,例如計算機視覺 (CV)領域的Vision Transformer (ViT) 和 語音領域的Wave2Vec。大量工作表明它們有利于下游單模態任務,并避免從頭開始訓練新模型。

與單模態領域類似,多模態領域也存在高質量標注數據較少的問題。一個很自然的問題是上述預訓練方法能否應用于多模態任務?研究人員已經探索了這個問題并取得了重大進展。在本文中,我們關注主流的視覺-語言預訓練(VLP),包括圖像-文本和視頻-文本預訓練。VLP 主要通過基于大規模數據進行預訓練來學習不同模態之間的語義對應關系。例如,在圖像-文本預訓練中,我們期望模型將文本中的“狗”與圖像中的“狗”相關聯。在視頻-文本預訓練中,我們期望模型將文本中的物體/動作映射到視頻中的物體/動作。為了實現這一目標,需要巧妙地設計 VLP 目標和模型架構,以允許模型挖掘不同模態之間的關聯。 為了讓讀者更好地了解 VLP,我們首先從5個重要方面全面回顧其最新進展:

  1. 特征提取:本節包括 VLP 模型中圖像、視頻和文本的預處理和表示方法(參見第3節);
  2. 模型架構:我們從兩個不同的角度介紹VLP模型的架構:從多模態融合的角度分為單流與雙流,從整體架構設計的角度分為Encoder-only與Encoder-decoder (參見第4節);
  3. 預訓練目標:預訓練目標是VLP的核心,主要用于指導模型學習視覺語言相關聯的信息。我們總結了典型和特殊的預訓練目標,分為補全、匹配、時序和特殊類型(參見第5節);
  4. 預訓練數據集:數據對于 VLP 至關重要。我們簡要介紹了 VLP 的主流語料庫及其具體大小(參見第6節);
  5. 下游任務:多種任務需要視覺和語言的合作知識。我們將它們分為五類:分類、回歸、檢索、生成和其他任務。我們還討論了這些任務的基本細節和目標(參見第7節)。

然后我們詳細總結了具體的最先進(SOTA)VLP 模型(參見第8節)。最后,我們總結論文并對 VLP 的新前沿進行了廣泛的討論(參見第9節)。 據我們所知,這是VLP領域的第一篇綜述。我們希望我們的綜述能夠幫助研究人員更好地了解這一領域,并激發他們設計出更好的模型。

特征抽取

本節介紹 VLP 模型如何預處理和表示圖像、視頻和文本以獲得對應特征。 特征預處理

圖像特征預處理主要包括三種:基于目標檢測的區域特征,基于CNN的網格特征以及基于ViT的patch特征。 視頻特征預處理:主要先對視頻分幀,得到圖像序列,然后按照上述圖像特征預處理方式進行處理。 文本特征預處理:主要遵循BERT的預處理方式,將輸入句子切分為子詞序列,然后收尾追加[CLS]和[SEP], 最后輸入表示為詞embedding+位置embedding+segment embedding。 特征表示

為了充分利用單模態預訓練模型,VLP 模型可以將視覺或文本特征輸入到Transformer編碼器。具體來說,VLP 模型利用具有隨機初始化的標準Transformer編碼器來生成視覺或文本表示。此外,VLP 模型可以利用預訓練的視覺Transformer對基于ViT的patch特征進行編碼,例如 ViT 和 DeiT。VLP 模型也可以使用預訓練的文本Transformer對文本特征進行編碼,例如 BERT。為簡單起見,我們將這些Transformer命名為 Xformer。 更多細節描述詳見論文 Section 204 模型結構 在本節中,我們從兩個不同的角度介紹 VLP 模型的架構:(1)從多模態融合的角度分為單流與雙流,以及(2)從整體架構設計來看分為only-encoder與encoder-decoder。

Single-stream versus Dual-strea

單流架構是指將文本和視覺特征連接在一起,然后輸入單個Transformer模塊,如 Firgue 1 (a) 所示。 雙流架構是指文本和視覺特征沒有連接在一起,而是獨立發送到兩個不同的Transformer塊,如 Firgue 1 (b) 所示。 Encoder-only versus Encoder-decoder

許多 VLP 模型采用僅編碼器架構,其中跨模態表示直接饋入輸出層以生成最終輸出。相比之下,其他 VLP 模型提倡使用轉換器編碼器-解碼器架構,其中跨模態表示首先饋入解碼器,然后饋入輸出層。 更多細節描述詳見論文 Section 305 預訓練目標 本節介紹我們如何通過使用不同的預訓練目標來預訓練 VLP 模型,這對于學習視覺-語言的通用表示至關重要。我們將預訓練目標總結為四類:補全、匹配、時序和特定類型。 補全類型是通過利用未掩碼的剩余部分來重建掩碼元素從而理解模態,包括Masked LanguageModeling,Prefix Language Modeling,Masked Vision Modeling等; 匹配類型是將視覺和語言統一到一個共享的隱藏空間中,以生成通用的視覺-語言表示,包括Vision-Language Matching,Vision-LanguageContrastive Learning, Word-Region Alignment等; 時序類型是通過對中斷的輸入序列重新排序來學習良好的表示,主要針對視頻相關的預訓練,如FrameOrder Modeling等; 特殊類型由其他預訓練目標組成,例如視覺問答和視覺描述等。 更多細節描述詳見論文 Section 4.

預訓練數據集

大多數 VLP 數據集是通過組合跨不同多模態任務的公共數據集構建的。然而,之前的一些工作,例如 VideoBERT、ImageBERT、ALIGN和 CLIP,處理從互聯網收集的大量數據并使用他們自己構建的數據集進行訓練。在這里,一些主流語料庫及其規模信息如表 1所示。07 下游任務 各種各樣的任務需要視覺和語言方面的合作知識。在本節中,我們將介紹此類任務的基本細節和目標,并將其分為五類:分類、回歸、檢索、生成和其他任務,其中分類、回歸和檢索任務也稱為理解任務。 分類任務主要包括:Visual Question Answering (VQA)、Visual Question Answering (VQA)、NaturalLanguage for Visual Reasoning (NLVR).、VisualCommonsense Reasoning (VCR)等; 回歸任務包括Multi-modal Sentiment Analysis (MSA); 檢索任務主要指的是一些視覺-語言檢索任務; 生成任務包括:Visual Dialogue (VD)、Visual Captioning (VC)等; 其他任務包括:Multi-modal Machine Translation (MMT)、Vision-Language Navigation (VLN).等。 更多細節描述詳見論文 Section 6.08 SOTA VLP models 基于上述VLP模型的5大方面,我們對近幾年的VLP模型進行了匯總整理:

更多細節描述詳見論文 Section 7.09 總結和新前沿 在本文中,我們提供了第一個 VLP 綜述。我們從特征提取、模型架構、預訓練目標、預訓練數據集和下游任務五個方面回顧了它的最新進展,并詳細總結了具體的 SOTA VLP 模型。我們希望我們的綜述能夠幫助研究人員更好地了解 VLP,并激發新的工作來推動這一領域的發展。未來,在現有工作的基礎上,VLP可以從以下幾個方面進一步發展:

  1. **Incorporating Acoustic Information.**以前關于多模態預訓練的大多數工作都強調語言和視覺的聯合建模,但忽略了隱藏在音頻中的信息。盡管音頻中的語義信息可能與語言重疊,但音頻可以提供額外的情感信息、聲學邊界信息等。此外,使用音頻進行預訓練使模型能夠處理具有聲學輸入的下游任務。到目前為止,跨文本、視覺和音頻的聯合建模和表示仍然是一個有待進一步研究的懸而未決的問題。一些前沿的工作已經闡明了這個研究領域的未來。與之前的 VLP 模型不同,VATT將原始音頻作為輸入,并通過噪聲對比估計 (NCE) 學習多模態表示。與 VATT 不同,OPT 結合各種多級掩蔽策略學習跨文本、圖像和音頻的跨模態表示,并且它還能夠生成文本和圖像。其他一些工作,例如 AudioCLIP 和 MERLOT Reserve,也展示了他們在三種模態上學習跨模態表示的獨特方法;

  2. **Knowledgeable Learning and Cognitive.**雖然現有的 VLP 模型已經取得了顯著的性能,但它們的本質是擬合大規模的多模態數據集。使 VLP 模型更具有知識性對于未來的 VLP 很重要。對于輸入的視覺和文本,有豐富的相關外部常識世界知識和說明性情景知識,可以用來增強輸入,加速模型訓練和推理。解決這個問題需要統一的認知模型架構、知識引導的預訓練目標以及與新知識交互的支持;

  3. **Prompt Tuning.**目前,微調是將 VLP 的知識轉移到下游任務的主要方法。然而,隨著模型規模的增加,每個下游任務都有其微調參數,導致參數效率低下。此外,多樣化的下游任務也使得預訓練和微調階段的設計變得繁瑣,導致它們之間存在gap。最近,Prompt Tuning在 NLP 中越來越受到關注。通過設計離散或連續Prompt并將 MLM 用于特定的下游任務,這些模型可以a. 減少微調大量參數的計算成本;b. 彌合預訓練和微調之間的差距。Prompt Tuning是激發 PLM 中分布的語言和世界知識的一種很有前途的方法。下一步可以改進并遷移到多模態場景,打破傳統范式,解決VLP的痛點問題。

付費5元查看完整內容

受基于Transformer的預訓練方法在自然語言任務和計算機視覺任務中的成功啟發,研究人員開始將Transformer應用于視頻處理。本研究旨在對基于transformer的視頻語言學習預訓練方法進行全面綜述。首先簡單介紹了transformer的結構作為背景知識,包括注意力機制、位置編碼等。然后從代理任務、下游任務和常用視頻數據集三個方面描述了典型的視頻語言處理預訓練和微調范式。接下來,我們將transformer模型分為單流和多流結構,突出它們的創新并比較它們的性能。最后,分析和討論了當前視頻語言前訓練面臨的挑戰和未來可能的研究方向。

//www.zhuanzhi.ai/paper/f7141b8c767225eb6839b5e7236d3b03

Transformer網絡(Vaswani et al. 2017)在性能上表現出了巨大的優勢,并在深度學習(Deep Learning, DL)中得到了廣泛的應用。與傳統的深度學習網絡如多層感知機(Multi-Layer Perceptrons, MLP)、卷積神經網絡(Convolutional Neural networks, CNNs)和遞歸神經網絡(Recurrent Neural networks, RNNs)相比,Transformer網絡結構容易加深,模型偏差小,更適合進行預訓練和微調。典型的預訓練和微調范式是,首先在大量(通常是自我監督的)訓練數據上對模型進行訓練,然后在較小的(通常是特定任務的)數據集上對下游任務進行微調。訓練前階段幫助模型學習通用表示,這有利于下游任務。

在自然語言處理(NLP)任務中首次提出了基于Transformer 的預訓練方法,并取得了顯著的性能提高。例如,Vaswani等(Vaswani et al. 2017)首先提出了具有自注意力機制的機器翻譯和英語選區解析任務的Transformer 結構。BERT - Bidirectional Encoder representation (Devlin et al. 2018)可以認為是NLP的一個里程碑,它采用Transformer 網絡對未標記文本語料庫進行預訓練,并在11個下游任務上取得了最先進的性能。GPT -生成預訓練Transformer v1-3 (Radford and Narasimhan 2018; Radford et al. 2019; Brown et al. 2020)設計為具有擴展參數的通用語言模型,在擴展訓練數據上進行訓練,其中GPT-3在45TB、1750億參數的壓縮純文本數據上進行訓練。受基于Transformer 的預訓練方法在自然語言處理領域的突破啟發,計算機視覺研究人員近年來也將Transformer 應用于各種任務中。例如,DETR (Carion et al. 2020)消除了基于Transformer 網絡的目標檢測的邊界盒生成階段。Dosovitskiy等人(Dosovitskiy et al. 2021)應用了一種純Transformer ViT,直接處理圖像斑塊序列,證明了其在基于大訓練集的圖像分類中的有效性。

視頻分析和理解更具挑戰性,因為視頻本身就含有多模態信息。對于具有代表性的視頻語言任務,如視頻字幕(Das et al. 2013)和視頻檢索(Xu et al. 2016),現有的方法主要是基于視頻幀序列和相應字幕學習視頻的語義表示。在本文中,我們重點提供了基于transformer的視頻語言處理前訓練方法的最新進展,包括相應基準的常用指標,現有模型設計的分類,以及一些進一步的討論。我們希望跟蹤這一領域的進展,并為同行研究人員,特別是初學者提供相關工作的介紹性總結。

本文的其余部分組織如下: 第2節介紹了相關的基本概念,包括帶自注意力機制的標準transformer 、預訓練和微調方法的范式以及常用數據集。第三節根據現有的主要方法的模型結構進行了介紹,并指出了它們的優缺點。第四節進一步討論了幾個研究方向和挑戰,第五節總結了綜述結果

付費5元查看完整內容

近年來,深度學習技術得到了快速發展。在自然語言處理(NLP)任務中,隨著文本表征技術從詞級上升到了文檔級,利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先,根據文本特征提取技術的發展,從詞級和文檔級對典型的模型進行了分析;其次,從預訓練目標任務和下游應用兩個階段,分析了當前預訓練模型的研究現狀,并對代表性的模型特點進行了梳理和歸納;最后,總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。

//www.joca.cn/CN/abstract/abstract24426.shtml

付費5元查看完整內容
北京阿比特科技有限公司