近年來,預訓練模型在自然語言處理領域蓬勃發展,旨在對自然語言隱含的知識進行建模和表示,但主流預訓練模型大多針對英文領域。中文領域起步相對較晚,鑒于其在自然語言處理過程中的重要性,學術界和工業界都開展了廣泛的研究,提出了眾多的中文預訓練模型。文中對中文預訓練模型的相關研究成果進行了較為全面的回顧,首先介紹預訓練模型的基本概況及其發展歷史,對中文預訓練模型主要使用的兩種經典模型Transformer和BERT進行了梳理,然后根據不同模型所屬類別提出了中文預訓練模型的分類方法,并總結了中文領域的不同評測基準,最后對中文預訓練模型未來的發展趨勢進行了展望。旨在幫助科研工作者更全面地了解中文預訓練模型的發展歷程,繼而為新模型的提出提供思路。
1 引言
自然語言處理(NaturalLanguageProcessing,NLP)是計 算機利用人類定義的算法對自然語言形式的輸入進行加工處 理的過程,旨在讓計算機可以像人類一樣理解和生成語言,具 備如人類一樣的聽、說、讀、寫、問、答、對話、聊天等的能力,并 利用已有知識和常識進行推理分析.自然語言處理技術的發 展經歷了從基于規則到基于統計的過程.隨著深度學習的發 展,圖像、文本、聲音、視頻等不同形式的信息載體被自然語言 處理技術突破,大量的神經網絡被引入自然語言理解任務中, 如循環神經網絡1、卷積神經網絡2、注意力 機制3等.在特定的自然語言處理任 務中,神經網絡可以隱性地學習到序列的語義表示與內在特 征,因此,神經網絡成為了解決復雜自然語言處理任務最有效 的方法.隨著計算力的不斷增強,深度學習在自然語言處理 領域中不斷發展,分布式表示占據了主導地位,不僅在指定任 務中可以端到端地學習語義表示,而且可以在大規模無標注 的文本上進行自主學習,能更靈活地運用在各種下游任務中. 然而,早期在有監督數據上訓練淺層模型往往存在過擬合和 標注數據不足等問題,在訓練深層模型參數時,為了防止過擬 合,通常需 要 大 量 的 標 注 數 據,但 有 監 督 的 標 注 數 據 成 本較高,因此模型主要利用網絡中現存的大量無監督數據進行 訓練.在此背景下,預訓練技術被廣泛地應用在自然語言處 理領域.其中,最經典的預訓練模型是 BERT [4]模型,在多個 自然語言處理任務中取得了最好結果(StateoftheArt,SOG TA).此后出現了一系列基于 BERT 的預訓練模型,掀起了 深度學習與預訓練技術的發展浪潮。
隨著國內外研究者在預訓練模型方面的深入研究,目前 已有很多關于預訓練模型的綜述,但缺少專門針對中文領域 的相關綜述.當前,中文預訓練模型蓬勃發展并取得一定的 成績,因此,對現有研究成果進行全面的分析和總結非常必 要.本文期望能為中文預訓練相關領域的學者提供參考,幫 助科研工作者了解目前的研究現狀和未來的發展趨勢.本文 第2節概述預訓練模型的基本情況;第3節主要介紹兩種基 本模型,即 Transformer和 BERT;第4節根據不同模型的所 屬類別提出典型的中文預訓練模型的分類方法,并匯總了中 文預訓練模型的相關資源;第5節梳理了中文領域的不同評 測基準;最后總結全文并展望未來.
2 預訓練模型
2.1 預訓練模型發展史
從預訓練語言模型的發展時間來看,可以將其分為靜態 預訓練模型和動態預訓練模型.2013年,Mikolov等[5]在神 經網絡語言模型(NeuralNetworkLanguageModel,NNLM) 思想的基礎上提出 Word2Vec,并引入大規模預訓練的思路, 旨在訓練具有特征表示的詞向量,其中包括 CBOW 和 SkipG Gram 兩種訓練方式.相比 NNLM 模型,Word2Vec可以更 全面地捕捉上下文信息,彌補 NNLM 模型只能看到上文信息 的不足,提高模型的預測準確性,Word2Vec極大地促進了深 度學習在 NLP中的發展.自 Word2Vec模型被提出以來,一 批訓練詞向量的模型相繼涌現,例如,Glove [6]和 FastText [7] 等模型均考慮如何得到文本單詞較好的詞向量表示,雖然對 下游任務性能有所提升,但其本質上仍是一種靜態的預訓練 模型.
2018年,Peters等[8]提出的 ELMo模型將語言模型帶入 動態的預訓練時代.ELMo模型采用雙層雙向的 LSTM [9]編 碼器進行預訓練,提取上下文信息,并將各層詞嵌入輸入特定 下游任務中進行微調.該模型不僅可以學習到底層單詞的基 礎特征,而且可以學到高層的句法和語義信息.然而,ELMo 模型只能進行串行計算,無法并行計算,模型訓練的效率較 低;此外,該模型無法對長序列文本進行建模,常出現梯度消 失等問題.而 后,OpenAI提 出 了 GPT(GenerativePreGtraiG ning)[10]模 型.與 ELMo模 型 不 同,GPT 采 用 Transformer 深度神經網絡,其處理長文本建模的能力強于 LSTM,僅使用 Transformer解碼器進行特征提取,在機器翻譯等生成式任務 上表現驚人,但這一特點也導致 GPT 只利用到了當前詞前面 的文本信息,并沒有考慮到后文信息,其本質上依舊是一種單 向語言模型.為了解決 GPT等模型單向建模的問題,2018年, Devlin等[4]提出了 BERT 模型,該模型是第一個基于 Transformer的 雙 向 自 監 督 學 習 的 預 訓 練 模 型,在 英 文 語 言 理解評測基準[11]榜單中的多個任務上達到了SOTA 結果,此 后出現了一大批基于 BERT的預訓練模型,大幅提升了下游 自然語言處理任務的性能.中文預訓練模型雖然起步較晚, 但發展迅速,已經取得了一定成果,本文第4節將對其進行重 點介紹.
**2.2 研究中文預訓練模型的原因 **
首先,中文和英文分別是世界上使用人數最多和范圍最 廣的兩種語言,然而在自然語言處理領域,英文預訓練模型較 為普遍,例如,以 BERT 為首及其后出現的大量預訓練模型 均是在單一語料英文數據集上進行訓練,此外模型的設計理 念也更適用于英文,比如分詞方式及掩碼方式等.其次,中文 和英文語言本質上存在差異,它們的主要區別是,中文文本通 常由多個連續的字符組成,詞與詞之間沒有明顯的分隔符. 如果使用英文預訓練模型去處理常見的中文任務,效果往往 不佳.因此,為了推動中文領域自然語言處理技術和預訓練 模型在多語言任務方面的發展,構建以中文為核心的預訓練 模型勢在必行.
3 Transformer和 BERT
自2021年以來,中文預訓練模型進入井噴式的發展階 段,其架構主要基于 Transformer和 BERT 兩種基礎模型,本 節主要介紹這兩種模型. 圖1為典型的 Transformer架構,該架構由6個結構相 同的編碼器和解碼器堆疊而成.單個編碼器由堆疊的自注意 力層和前饋神經網絡組成,解碼器由堆疊的自注意力層、掩碼 注意力層 和 前 饋 神 經 網 絡 組 成.有 關 Transformer的 詳 細 細節介紹請參考文獻[14].
BERT
BERT [4] (Bidirectional Encoder Representations from Transformers)是由谷歌提出的一種面向自然語言處理任務 的無監督預訓練語言模型,由 Transformer的雙向編碼器表 示.BERT的架構如圖2所示.
圖2 BERT示意圖[4]
4 中文預訓練模型分類
**在自然語言處理領域,繼 Transformer和 BERT 出現之 后,涌現出大量的預訓練模型,這些模型主要針對英文領域, 中文領域的研究起步較晚.但在近兩年,中文預訓練模型受 到廣大學者的關注并取得了一定的研究成果.為了闡明現有 的中文預訓練模型,本節主要從以下6個方面對現有的預訓練 模型進行分類,圖3展示了典型的中文預訓練模型的分類圖. (1) 預訓練模型的方法改進,主要包括掩碼方式的轉變、 位置編碼的轉變、LN 層的位置變化、MoE 層的使用、多粒度訓練和其他改進. (2) 融入外部信息的預訓練,主要包括命名實體、知識圖 譜、語言學知識和特定知識.(3) 關于多模態融合的預訓練模型. (4) 側重于高效計算的預訓練,主要包括數據處理階段、 預訓練階段以及技術優化. (5) 指特定領域的預訓練,主要包括對話系統和其他領域 的預訓練模型. (6) 介紹一些其他變體,主要側重于典型的英文預訓練模 型開源的中文版本.
圖3 中文預訓練模型分類圖
5. 中文領域的評測基準
5.1 為什么建立中文領域的評測基準
首先,從使用人數上看,中國人口占世界人口的五分之 一,人數龐大,因此中文是世界上使用人數最多的語言;其次, 從語言體系上看,中文與英文差異較大;最后,從數據集角度 出發,中文領域公開可用的數據集較少,此前提出的中文預訓 練模型在英文評測基準上評估,無法完全體現出模型性能. 當下預訓練模型的發展極其迅速,英文領域的評測基準已步 入成熟階段,而中文領域的缺失必然會導致技術落后,因此中 文領域的評測基準必不可少.本節主要介紹4種不同的評測 基準.
6 研究趨勢與展望
中文預訓練模型已在多個領域實現商業化落地,并展現出一定的市場潛力,取得了長足發展,但也存在較多挑戰,例 如預訓練模型規模和性能之間的平衡問題;如何構建更加通 用型的預訓練模型;如何突破現有多模態和輕量化模型的瓶 頸;如何構建融入更多中文特色的預訓練模型等.本文主要 從以下幾個方面對未來進行展望.
6.1 規模隨著以 BERT和 GPT等為代表的大規模預訓練模型的 出現,逐漸掀起了預訓練模型朝大規模方向發展的浪潮.大 量的研究表明,模型參數量越大,訓練數據量越多的預訓練模 型表現更出色.中文領域存在眾多大規模預訓練模型,如源 1.0參數 2457億,訓練數據集達5000GB;ERNIE3.0Titan 參數2600億;中文多模態模型 M6參數量已經擴展至十萬億 級別.目前預訓練模型還未達到模型的性能極限,增大模型 參數量和訓練數據仍是提高模型性能最有效的手段,探索超 大規模預訓練模型的道路還將繼續,也需要更加注重模型的 創新性、訓練的低碳化和應用的高效性. 然而,訓練超大規模的模型仍存在很大挑戰.首先,使用 最大 GPU 也不可能在內存中擬合所有參數;其次,算法優化 不足會耗費極長的訓練時間;最后,搭建超大規模模型會帶來 巨大的成本,讓學術界和小型科技公司望而卻步.如何在模 型性能和成本之間取得平衡也是當前學者探索的另外一條道 路,如探索輕量化的預訓練模型.近期騰訊提出的“神農”、瀾 舟科技提出的“孟子”及IDEA 研究院提出的“二郎神”等輕量 化模型,僅以十億左右的參數量就在部分任務上達到了 SOG TA 結果,因此探索輕量化模型勢在必行.
6.2 融入外部信息預訓練模型在部分任務上已無限接近人類,甚至超越人 類,然而,其對知識的掌握依舊不足,如何讓預訓練模型真正 理解并運用知識是一個值得長期研究的課題,尤其是中華民 族上下五千年形成的文化知識頗多,比如“常識性知識”和“特 定領域的知識”等.特定領域的知識可以幫助模型挖掘不同 領域特有的知識,如果能夠將特定領域的行業知識與模型結 合起來訓練,不僅可以將預訓練模型更廣泛地應用到不同的 下游任務,在各行各業中實現良好的產業落地,而且可以與腦 科學、心理學、神經學等其他學科融合,更好地發展人工智能, 服務人類生活. 除了融入知識信息之外,還可以從中文字形和字音等方 面考慮.因為中文語言的特殊性,其字符的符號也包含一些額外信息,這些額外信息能增強中文自然語言的表現力,如 ChineseBERT [46]模型中提出將中文字形和拼音信息融入預 訓練模型中,以此增強模型對中文語料的建模能力,但這一方 向的研究還相對較少,仍有待完善.
6.3 多模態領域現實世界離不開語言,語言離不開語音和視覺信息,類似 于人的感覺器官:眼、耳、嘴,任何一樣的缺失都會影響生活. 當前,互聯網音視頻資源占比較大,純文本信息只能覆蓋互聯 網資源的一小部分,更加豐富的音視頻信息并沒有被充分利 用,因此預訓練模型必然朝著多模態的趨勢發展.目前,多模 態預訓練模型的研究大多只考慮了兩種模態,圖像文本或者 視頻文本,而音頻信息大多被忽視.中文預訓練模型起步雖 晚,但成績斐然.中科院自動化所提出了全球首個圖文音(視 覺G文本G語音)三模態的預訓練模型 OPT [51],該模型同時具 備跨模態理解與生成的能力.通過上述分析可知,多模態的 研究擁有很大的發展空間.
本文主要圍繞中文預訓練模型的研究現狀進行概述.從模型規模上看,中文預訓練模型的發展正處于兩條 道路上.一是朝著超大規模預訓練模型的方向發展;二是尋 求輕量化模型的發展.從外部信息來看,大多數的預訓練模 型都融入了各種知識,預訓練與先驗知識的深度融合刻不容 緩.從高效訓練上看,現有模型都在不斷地探索更加高效的 訓練方式.從多模態的角度上看,中文多模態預訓練模型的 發展正處于上升階段,正朝著更多模態、更加通用的方向發 展.從特定領域的模型來看,預訓練模型可應用于多種領域, 具有較大的發展潛力.綜上所述,中文預訓練模型雖然取得 了不可忽視的成績,但還有更大的發展空間,未來將朝著更大 規模、更加高效、適用更多領域的方向發展.
多模態機器學習領域,為特定任務而制作的人工標注數據昂貴,且不同任務難以進行遷移而需要大量重新訓練,導致訓練多個任務的效率低下和資源浪費。預訓練模型通過以自監督為代表的方式進行大規模數據訓練,對數據集中不同模態的信息進行提取和融合,以學習其中蘊涵的通用知識表征,從而服務于廣泛的相關下游視覺語言多模態任務,這一方法逐漸成為人工智能各領域的主流方法。依靠互聯網所獲取的大規模圖文對與視頻數據,以及以自監督學習為代表的預訓練技術方法的進步,視覺語言多模態預訓練模型在很大程度上打破了不同視覺語言任務之間的壁壘,提升了多個任務訓練的效率并促進了具體任務的性能表現。為總結視覺語言多模態預訓練領域的進展,本文首先對常見的預訓練數據集和預訓練方法進行了匯總,然后對目前最新的以及近年來經典的方法進行系統概述,按輸入來源分為了圖像-文本預訓練模型和視頻-文本多模態模型兩大類,闡述了各方法之間的共性和差異,并將各模型在具體下游任務上的實驗情況進行了匯總。最后,本文總結了視覺語言預訓練面臨的挑戰和未來發展趨勢。
深度學習(deep learning, DL)方法在計算機視 覺(computer vision, CV)、自然語言處理(nature language processing, NLP)以及多模態機器學習(multimodal machine learning, MMML)的各個具體任務 上取得了令人矚目的進展,但不同任務之間需要使 用專有的數據進行訓練,大量的重新訓練使得時間 和經濟成本顯著增加。預訓練模型(pre-trained model, PTM)與微調(fine-tuning)相結合的范式旨在緩解 這一困難,預訓練模型首先在大規模通用數據集上 利用自監督為代表的方式進行預訓練,使得模型在 遷移至下游任務之前學習到通用的表征,然后在小 型專有數據集中進行微調得以獲取特定任務知識 (Yosinski 等,2014)。這一方法在很大程度上打破 了各具體任務之間的壁壘,在避免重新訓練所造成 的資源浪費的同時,對下游任務的性能起到促進作 用。Transformer(Vaswani 等,2017)是當前預訓練 模型最為廣泛使用的基礎結構,其因為在處理長距 離依賴關系方面的優勢,最初在機器翻譯方面取得 了成功,隨后廣泛用于 NLP 領域。GPT(Radford 等, 2018)采用 Transformer 作為模型預訓練的基礎結構 在大規模語料庫中進行預訓練,將學習到語言知識 的參數模型用于具體任務,實驗中 12 個下游的 NLP 任務性能取得了顯著的提升。BERT(Devlin 等,2019) 采用了雙向語言模型進行預訓練,在語料中隨機對 15%的單詞令牌(token)進行掩碼,要求模型可以 預測出原有單詞令牌,此外還進行了句子預測任務, 實驗中 11 個下游的 NLP 任務性能取得了提升。隨 后的若干工作(Dong 等,2019;Liu 等,2019a;Radford 等,2019;Shoeybi 等,2019;Zellers 等, 2019;Yang 等,2019;Brown 等,2020;Lewis 等, 2020;Raffel 等,2020;Zhang 等,2020b,2021b;Fedus 等,2021;Sun 等,2021;琚生根 等,2022;強繼朋 等,2022)證明預訓練的語言模型能夠普適 地對下游任務性能起到促進作用。受到 NLP 領域的 啟發,CV 方面的研究者也相繼開展基于Transformer 的視覺預訓練工作。ViT(Dosovitskiy 等,2021)將圖像的補丁塊(patch)作為序列輸入 Transformer 進 行預訓練,克服 Transformer 結構難以處理圖像輸入 這一困難。CLIP(Radford 等,2021)將自然語言作 為監督以提升圖像分類效果,使用對比學習 (contrastive learning, CL)方法促進圖像和文本的匹 配能力。MAE(He 等,2021a)將 NLP 中常用的自 監督方法用于 CV 預訓練,其通過訓練自編碼器, 預測經過隨即掩碼而缺失的圖像 patch,從而高效、 準確地進行圖像分類任務。
人類最具有抽象知識表達能力的信息為語言信息,而人類獲取的最豐富的信息為視覺信息,上述工作分別在這兩種模態上開展預訓練并取得的成功。視覺語言任務(vision-and-language task)(Pan 等, 2016a,b;Tapaswi 等,2016;Yu 等,2016a;Jang 等,2017;Maharaj 等,2017)是典型的多模態機器 學習任務,其中視覺和語言兩種模態的信息互相作 為指引,需讓不同模態的信息對齊和交互,進行視 覺語言預訓練(visual-language pre-training, VLP)工 作并提升模型在下游的視覺問題回答(visual question answering, VQA)(Johnson 等,2017)、視頻描 述(video captioning)(Zhou 等,2018a,b,2019;)、 文本-視頻檢索(image-text retrieval)(Wang 等,2016, 2019;Song 和 Soleymani,2019b)等任務上的效果。視覺語言任務存在著很大的挑戰。其中一個難點是, 使用何種易于大規模獲得并且含有大量通用知識的 多模態數據來源,以構建訓練數據集;另一個難點 是,怎樣通過有效的機制,將屬性相差巨大的不同 模態的信息進行統一訓練。對于以上問題,一方面,當前的主要方法通過 獲取來自互聯網的圖文對、包含語言描述的教學視 頻、附帶字幕的影視劇以及其他各類視頻等視覺語 言多模態數據,制作涵蓋廣泛常識信息的大規模預 訓練數據集;另一方面,設計能夠處理多種模態信 息的神經網絡模型,通過以自監督為代表的方式進 行大規模數據訓練,對數據集中不同模態的信息進 行提取和融合,以學習其中蘊涵的通用知識表征, 從而服務于廣泛的相關下游視覺語言多模態任務。
當前對預訓練模型的綜述工作主要集中在單模態(Qiu 等,2020;Kalyan 等,2021;Min 等,2021;陳德光 等,2021;韓毅 等,2022),部分工作梳理 視頻-文本多模態類型(Ruan 和 Jin,2021),但較為 全面的 VLP 綜述工作(Chen 等,2022)相對較少。本文梳理最新視覺語言多模態預訓練模型的相關研 究成果,首先對 VLP 模型常用的預訓練數據集和預 訓練方法進行了簡單介紹,然后在介紹基礎結構之 后對 VLP 模型按視覺輸入來源進一步分類, 介紹目 前具有代表性的圖像-文本預訓練模型和視頻-文本 預訓練模型,并根據模型結構不同分為了單流和雙 流類型,重點闡述各研究特點,對不同 VLP 預訓練 模型在主要下游任務上的性能表現也進行了匯總。最后對目前研究面臨的問題進行探討。
1 預訓練數據集與預訓練任務
在各類預訓練任務中,模型性能受預訓練數據 集質量的影響顯著。為了獲取通用的多模態知識, 視覺-語言預訓練任務主要使用帶有弱標簽的視覺語言對進行模型訓練。圖像-文本任務主要為圖像及 標題、內容描述、人物的動作描述等。類似地,視頻 -語言預訓練數據集包含大量的視頻-文本對,其標簽 來源包括視頻中的文字描述以及由自動語音識別 (automatic speech recognition, ASR)技術獲得的文 本信息等。部分模型為針對性提升某一模態的表征 提取能力,在多模態預訓練之外還進行單模態數據 集進行預訓練,使用如圖片數據集與純文本數據集。 預訓練中常用的公開數據集有,圖文數據集 SBU(Ordonez 等,2011),Flickr30k(Young 等, 2014),COCO Captions(Chen 等,2015),Visual Genome(VG)(Krishna 等,2017b),Conceptual Captions (CC, CC3M)(Sharma 等,2018)和 Conceptual 12M (CC12M)(Changpinyo 等,2021),VQA(Antol 等, 2015),VQA v2.0(Goyal 等,2019),Visual7W(Zhu 等,2016),GQA(Hudson 和 Manning,2019)。視 頻數據集 TVQA(Lei 等,2018),HowTo100M(Miech 等,2019),Kinetics(Kay 等,2017),Kinetics-600 (Carreira 等,2018),Kinetics-700(Carreira 等, 2019),YT-Temporal-180M(Zellers 等,2021),WebVid-2M(Bain 等,2021)。單模態圖片數據集 COCO (Lin 等,2014),OpenImages(Krasin 等,2017), 文本數據集 BooksCorpus(Zhu 等,2015)以及 English Wikipedia。數據集信息匯總如表 1 所示,以下對代 表性的數據集做進一步介紹。
預訓練任務
2 預訓練模型
2.1 模型基礎 本文根據特征在進行視覺和語言模態融合處理 之前,是否進行處理,將 VLP 模型按結構分為單流 式(single-stream)和雙流式(cross-stream),其對比 如下圖 1 所示。
單流模型將視覺特征和語言特征直接輸入融合 模塊,進行模型訓練,其典型方式如圖 1(a)所示。雙流模型將視覺特征和語言特征分別進行處理,然 后進行模態間的融合,典型類型包括但不限于圖中三類,圖 1(b1)中,模型首先對兩路特征分別進行 處理,然后進行跨模態融合;如圖 1(b2)中,視覺 特征經過視覺處理模塊后,與文本特征一同送入多 模態融合模塊進行交互;圖 1(b3)中,兩路特征送 入各自處理模塊后進行交互式的參數訓練。
2.2 圖像-文本多模態預訓練模型
單流模型相對雙流模型結構較簡單,一般將圖 像與文本兩種模態信息置于等同重要位置,對圖像 和文本編碼后共同輸入跨模態融合模塊進行預訓練。 對于輸入圖像是否采用采用目標檢測算法,可對研 究進行更細致的分類。
由于圖像和文本信息在屬性上區別較大,將不 同模態輸入置于相同輸入地位可能對模態間匹配造 成不良影響。在這一假設下,部分模型根據多模態 輸入特點設計雙流預訓練模型,使用不同編碼器靈 活處理各自模態特征,并通過后期融合對不同模態 進行關聯。
2.3 視頻-文本多模態預訓練模型
Sun 等人(2019b)提出的 VideoBERT 模型是第 一個將 Transformer 結構拓展到視頻語言預訓練的 工作,模型結構如圖 9 所示。對 ASR 得到的文本輸 入采取常用的類 BERT 處理,對于視頻輸入,按每 秒 20 幀采樣速度從視頻剪切多個 1.5s 視頻片段, 應用預訓練過的 S3D 提取視頻特征,然后采用層級 k 聚類(hierachical k-means)標記視覺特征,以聚類 中心對視頻特征進行矢量量化(vector quantization, VQ)操作。文本與視頻的聯合特征被送入多模態 Transformer進行MLM,VTM和掩蔽視頻預測(video only mask completion, VOM)預訓練任務。VOM 以 聚類的視頻片段作為被掩蔽和預測的視覺單元。模 型目標是學習長時間高級視聽語義特征,如隨時間 推移而展開的事件與動作,采用網絡收集的廚藝教 學視頻作為預訓練數據,在預設下游任務上表現良 好,但由于視覺中心代表的視覺信息難以全面描述 視頻內容,使得模型的泛化性受到一定限制。
Miech 等人(2019)提出了視頻文本預訓練中被 廣泛使用的大規模敘述性視頻數據集 HowTo100M, baseline 方法將提取到的視頻和文本特征映射到相 同維度從而優化模態間的關聯性。Miech等人(2020) 進一步研究發現 HowTo100M 中由于人的講述與畫 面展示不同步,導致大約 50%的視頻剪輯片段與 ASR 描述文本沒有對齊(如圖 10 所示)。為解決這 一偏差問題引入了多實例學習(multiple instance learning, MIL),基于同一視頻中連續時間內畫面語 義相似的前提,在目標視頻片段的相鄰時間內截取 多個視頻-描述對作為對比學習的候選正例。然后采 用噪聲估計 NCE 來優化視頻文本聯合特征的學習, 提出了 MIL-NCE,在 8 個數據集 4 類下游任務中表 現良好。MIL-NCE 方法在后續使用 HowTo100M 數 據集的預訓練模型中廣泛使用。
Zhu 等(2020)提出了全局局部動作 VLP 模型 ActBERT,結構如圖 11 所示,對于視頻輸入采取兩 種編碼處理。首先是動作編碼,加入全局堆疊幀獲 取全局動作信息,動作信息來自每個視頻相應描述 中提取動詞所構建的字典,為簡化問題刪除了沒有 任何動詞的視頻片段。然后是視覺編碼,加入經 Faster-RCNN 對圖像提取的 RoI 特征獲取局部區域 信息。ActBERT 利用全局動作信息來促進文本與局 部目標區域間的交互,使一個視覺中心能同時描述 局部和全局視覺內容,提升視頻和文本的關聯性。 引入了掩蔽動作分類(mask action classification, MAC),即隨機掩蔽輸入的動作表示向量,使模型通 過其他信息如文本信息和物體信息來預測出動作標 簽。模型在 5 類下游任務上表現良好。
3. 下游任務性能對比
3.1 圖像-文本多模態預訓練模型
圖像-文本多模態下游任務繁多,代表性的任務 有分類任務如視覺問答(Johnson 等,2017;Hudson 和 Manning,2019)),自然語言視覺推理(natural language visual reasoning, NLVR)(Suhr 等,2017, 2018),視覺常識推理(Gao 等,2019);指稱表達理解(referring expression comprehension, REC)(Yu 等, 2016b;Mao 等,2016),視覺蘊含(visual entailment, VE)(Xie 等,2018a,2019)等,檢索任務如圖文檢 索(image-text retrieval)(Karpathy 和 Li,2015; Plummer 等,2015;Lee 等,2018);生成任務如圖 像描述(Vinyals 等,2015;Xu 等,2015;Anderson 等,2018),新對象圖像描述(novel object captioning, NoCaps )( Agrawal 等 , 2019 ) 及 多 模 態 翻 譯 (multimodal translation)(Elliott 等,2016)。如下對 表 5 中 VLP 模型所進行對比的下游任務與相關數據 集進行進一步介紹。
3.2 視頻-文本多模態預訓練模型
關于視頻的視覺-語言交叉任務同樣覆蓋廣泛, 代表性的任務有視頻描述(Gan 等,2017;Krishna 等,2017a);文本-視頻檢索(Gao 等,2017;Hendricks 等,2017;Mithun 等,2018;Lei 等,2020b);視頻 問答(video question answering)(Yu 等,2018;Lei 等,2020a);動作分割(action segmentation)(Tang 等,2019);步驟定位(action step localization) (Zhukov 等,2019);動作識別(Kuehne 等,2011; Soomro 等,2012);視頻摘要(video summarization) (Plummer 等,2017);視覺故事講述(visual storytelling)(Agrawal 等,2016 ;Huang 等,2016)。 如下對表 6 中 VLP 模型所進行對比的下游任務與相 關數據集進行進一步介紹
4 問題與挑戰
視覺語言多模態預訓練作為前沿研究,盡管在 下游視覺語言交叉任務上已經有了不錯表現,但在 未來工作中還需考慮以下幾個方向:
1)訓練數據域的差異 預訓練數據集與下游任務數據集之間存在數據 域的差異,部分工作表明(Zhou 等 2021),與預訓 練數據集的域相一致的下游任務數據集可以顯著提 升任務表現,而數據域的差異是造成模型在不同任 務之間遷移時性能下降的重要原因。HERO(Li 等 2020b)指出,不能通過增加微調過程的數據規模, 來縮小下游任務數據與預訓練數據的域差異所造成 的影響。MERLOT(Zellers 等,2021)使用較為多 樣的預訓練數據,增大了數據域的分布,在一定程 度上提升了模型的性能,但也增加了訓練消耗。因 此,如何提升預訓練數據集的質量和多樣性是今后 預訓練任務的重要課題。
2)知識驅動的預訓練模型
預訓練模型的本質是通過參數量極大的神經網 絡對大規模訓練數據進行擬合,以學習潛在的通用 知識,在此過程中擴大數據規模可以帶來預訓練性 能的提升,但會增加計算資源和能耗的消耗,因此 一味通過增加數據和訓練量換取性能的思路是難以 持續的。對于輸入的圖文、視頻等多模態信息,存在 著大量隱含的外部常識信息可以用于更快速的引導 模型對于事件內容的挖掘(Chen 等,2021),因此探 索如何通過知識驅動的方式建立具有廣泛知識來源 的模型架構,將知識圖譜等結構化知識注入模型, 探索輕量化的網絡結構,從而增加模型的訓練效率 和可解釋性,是預訓練模型的具有前景的方向。
3)預訓練模型的評價指標
現有的視覺語言預訓練模型大多在少數幾個下 游數據集上進行效果的實驗驗證,難以確切判斷在 其它數據集上的有效性,而真正通用的預訓練系統 應該在廣泛的下游任務、數據域和數據集上進行推 廣,這就需要建立較為通用的預訓練評價指標,來 有效評價預訓練效果,并指出模型是否易于在不同 任務和數據之間進行遷移。VALUE(Li 等,2021a) 作為一個視頻語言預訓練評價基準,覆蓋了視頻、 文本、音頻輸入,包含了視頻檢索、視覺問答、字幕 匹配任務的 11 個數據集,根據不同難度的任務的元 平均得分(meta-average score)度量預訓練模型的性 能。但這類工作目前正處于起步階段,相關的研究 也被研究者重點關注。
4)探索多樣的數據來源
視頻中的音頻包含了豐富的信息,當前視頻預 訓練中常使用 ASR 方法將音頻轉換為文本,在此 過程中部分原有信息損失掉了,因此探索包含音頻 的預訓練模型是一個可取的方向。目前的多模態預 訓練數據來源以英文圖文和視頻為主,進行多語言 學習的預訓練工作較少,將模型在不同語言間進行 遷移還需要繼續研究。此外,探索從結構化的多模 態數據中進行更細粒度的預訓練工作(Zellers 等, 2021),如從圖表中進行目標推理的訓練等。
5)預訓練模型的社會偏見和安全性
由于大規模數據集在來源上涉及范圍廣泛,難 以逐一排查具體信息,數據中難以避免地存在部分 社會偏見以及錯誤知識,而通過預訓練模型由于學 習到了這些不良內容,其生成的結果會進一步增加 這類內容所造成了影響,造成更大的社會問題 (Dixon 2008)。因此在獲取數據時如何對存在的 數據隱私,以及涉及國家、種族、性別公平性等問 題進行考量,通過算法對選取的預訓練數據內容進 行過濾,在社會安全、倫理等方面尤其重要。
5 結 語
視覺和語言在人類學習視覺實體與抽象概念的 過程中扮演著重要的角色,本文對視覺語言多模態 預訓練領域自 2019 年以來的模型與方法,基于視覺 來源從圖像-文本與視頻-文本兩大方向進行綜述, 并進一步基于模型結構分別介紹各具體模型的特點 與研究貢獻。此外,還介紹了常用視覺語言多模態 預訓練模型數據集、預訓練任務設定以及各模型在 主要下游任務上的表現。 最后對該領域的問題與挑 戰進行了總結并提出未來研究方向。希望通過本文 讓讀者了解當前工作的前沿,以啟發進而做出更有 價值的多模態預訓練工作。
語言是人區別于動物的根本標志,具有無窮語義組合性、高度歧義性和持續進化性,準確處理自然語言是機器難以逾越的鴻溝,成為制約人工智能取得更大突破的主要瓶頸之一,也被譽為“人工智能皇冠上的明珠”。近年來以BERT、GPT為代表的、基于超大規模生語料庫的預訓練語言模型異軍突起,充分利用大模型、大數據和大計算,使幾乎所有自然語言處理任務性能都得到了顯著提升,在若干公開數據集上宣稱達到或超過了人類水平,成為了自然語言處理的新范式。本報告將首先介紹預訓練模型的演化過程,接著介紹預訓練模型的最新研究進展,最后對自然語言處理領域今后的發展趨勢進行了展望。
導讀:本文將參考上述綜述論文,從預訓練語言模型應用于文本生成任務的三個挑戰出發:
如何對輸入數據進行編碼并保持語義,使其與預訓練語言模型進行融合; 如何設計通用且合適的預訓練語言模型架構,使其作為生成函數; 如何優化生成函數,并保證生成文本滿足特殊屬性。 并詳細列舉目前每個挑戰下的研究進展。
文本生成是目前自然語言處理領域一項非常重要但具有挑戰性的任務,它的目的是希望生成可讀的自然語言文本,比較有代表性的應用,例如對話系統、文本摘要和機器翻譯等。
目前,深度神經模型在文本生成研究中已取得重大進展,其優勢在于深度神經網絡可以端到端地學習輸入數據到輸出文本的語義映射,而不需要人工參與進行特征工程。但是,深度神經模型往往具有大量的參數,而大部分文本生成任務數據集都非常小,因此深度神經網絡非常容易在這些數據集上過擬合,導致其無法在實際應用中進行泛化。
隨著預訓練語言模型(Pretrained Language Models, PLMs)范式的蓬勃發展,越來越多的研究將其運用到各種自然語言處理任務中以取得SOTA效果,例如BERT解決語言理解和GPT解決語言生成。通過在大規模語料集上進行預訓練,預訓練語言模型可以準確地理解自然語言并以自然語言的形式流暢表達,這兩項都是完成文本生成任務的重要能力。
在目前已發表的自然語言處理預訓練技術綜述中,大多數文章僅介紹神經網絡預訓練技術或者極簡單介紹傳統預訓練技術,存在人為割裂自然語言預訓練發展歷程。為此,以自然語言預訓練發展歷程為主線,從以下四方面展開工作:首先,依據預訓練技術更新路線,介紹了傳統自然語言預訓練技術與神經網絡預訓練技術,并對相關技術特點進行分析、比較,從中歸納出自然語言處理技術的發展脈絡與趨勢;其次,主要從兩方面介紹了基于BERT改進的自然語言處理模型,并對這些模型從預訓練機制、優缺點、性能等方面進行總結;再者,對自然語言處理的主要應用領域發展進行了介紹,并闡述了自然語言處理目前面臨的挑戰與相應解決辦法;最后,總結工作,預測了自然語言處理的未來發展方向。旨在幫助科研工作者更全面地了解自然語言預訓練技術發展歷程,繼而為新模型、新預訓練方法的提出提供一定思路。
【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作,涵蓋了基本概念、分類體系。
引言
基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示,并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識,避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中,我們首先對自監督學習做一個簡要的概述。接下來,我們解釋了各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來,我們介紹了 T-PTLMs的一個新分類,然后簡要概述了各種基準測試,包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后,提出了進一步完善這些模型的研究方向。我們堅信,這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。
摘要
如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因為它們能夠從大量未標記的文本數據中學習通用語言表征,然后將這些知識轉移到下游任務中。在早期,NLP系統大多是基于規則的,后來被機器學習模型所取代。機器學習模型需要特征工程,這需要領域專業知識,也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展,增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型,除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例,生成這些實例的代價是昂貴的。然而,我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用,從而在目標任務中很好地執行。在這里,目標任務應該與源任務類似。基于遷移學習的思想,計算機視覺研究人員使用ImageNet[20],[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務,然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識,他們在許多CV任務[18],[23]中獲得了巨大的成功。
像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外,由于RNN按順序處理輸入,即逐字處理,并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷,Vaswani等人[25]提出了一種完全基于自注意的深度學習模型,稱為Transformer。與RNN相比,自注意允許更多的并行化,并且可以很容易地建模長期上下文,因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下,Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是,很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻,已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。
GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進,而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明,T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后,T-PTLMs也被開發用于其他領域,如金融[31],法律[32],[33],新聞[34],編程[35]-[39],對話[40],網絡[41],學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習,因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為
我們將簡要介紹SSL,它是開發T-PTLMs的支柱(第2節)。
我們解釋了與T-PTLMs相關的各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法(第3節)。
我們提出了一個新的分類方法來分類各種T-PTLMs。這種分類法基于四個視角,即預訓練語料庫、體系結構、SSL類型和擴展(第4節)。
我們提出了一種新的分類法來對各種下游適應方法進行分類,并對每一種方法進行詳細解釋(第5節)。
我們簡要概述了評估T-PTLMs進展的各種基準,包括內在的和外在的(第6節)。
我們簡要概述了各種庫,從Huggingface transformer到Transformer-interpret,這些庫對tptlm的工作很有用(第7節)。
我們簡要討論了一些未來的研究方向,這些方向將推動研究團體進一步改進模型(第8節)。
近年來,深度學習技術得到了快速發展。在自然語言處理(NLP)任務中,隨著文本表征技術從詞級上升到了文檔級,利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先,根據文本特征提取技術的發展,從詞級和文檔級對典型的模型進行了分析;其次,從預訓練目標任務和下游應用兩個階段,分析了當前預訓練模型的研究現狀,并對代表性的模型特點進行了梳理和歸納;最后,總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。
//cea.ceaj.org/CN/abstract/abstract39198.shtml
近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。