亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要: 近年來,預訓練語言模型發展迅速,將自然語言處理推到了一個全新的發展階段。文中的綜述旨在幫助研究人員了解強大的預訓練語言模型在何處以及如何應用于自然語言處理。具體來講,首先簡要回顧了典型的預訓練模型,包括單語言預訓練模型、多語言預訓練模型以及中文預訓練模型;然后討論了這些預訓練模型對5個不同的自然語言處理任務的貢獻,即信息提取、情感分析、問答系統、文本摘要和機器翻譯;最后討論了預訓練模型的應用所面臨的一些挑戰。

//www.jsjkx.com/CN/10.11896/jsjkx.220800223

在早期的自然語言 處 理(NaturalLanguageProcessing, NLP)任務中,人們通常利用各種深度神經網絡[1],使用低維 密集向量來表示語言的句法或語義特征.然而,由于深度神 經網絡參數量大,并且是在有限的數據集上進行訓練的,往往 會導致過度擬合.因此,Vaswanid等[2]提出了深度學習模型 Transformer,用于解決循環神經網絡(RecurrentNeuralNetG work,RNN)訓 練 緩 慢、效 率 低 下 和 過 度 擬 合 的 問 題[3].同 時,將 Transformer與自我注意力機制相結合,實現了快速并 行的 效 果. 從 此,預 訓 練 語 言 模 型 (Pretrained Language Model,PLM)進入了蓬勃發展的階段.各種大規模的單語言 PLM(如 BERT [4]和 GPT [5])在各種 NLP任務中獲得了巨大 成功,并催生了許多不同的改進模型和多語言 PLM. 近兩年來,PLM 在 NLP 領 域 應 用 得 非 常 廣 泛,原 因 是 PLM 可以將各種困難復雜的 NLP任務簡化為簡單的微調問 題.PLM 通過自我監督學習在大規模文本語料庫上進行預 訓練,預訓練過程包括從大型語料庫中學習常識(與特定的下 游 NLP任務無關),以防止模型在小數據上過度擬合[6].在 預訓練之后,PLM 需要針對具體的下游任務進行微調. 由于 PLM 對 NLP至關重要,為了幫助研究人員快速掌 握 PLM 的應用現狀,本文綜述了 PLM 在 NLP 領域5個最 熱門的任務中的應用:信息提取(InformationExtraction,IE)、 情感分析(SentimentAnalysis,SA)、文本摘要(TextSummaGrization,TS)、問題回答(QuestionAnswering,QA)和機器翻 譯(MachineTranslation,MT).此 外,我 們 還 討 論 了 當 前 PLM 應用中的重要挑戰. 其他研究人員也綜述了 PLM,但本文的綜述與他們的不 同.2020年,Qiu等[7]對 PLM 在 NLP領域的應用進行了調 查,但只進行了簡單的概述.2020年,Zaib等[8]對 PLM 的對 話式人工智能做了一個簡短的綜述,但未涉及 PLM 在其他 領域的應用.2021年,Luo等[9]調查了 PLM 在跨語言SA 中 的應用.2021年,Kalyan等[10]回顧了基于轉換的生物醫學 PLM.然而,他們的 PLM 只涉及生物醫學領域,這些綜述都 沒有包含最新的進展,且所做的綜述單一或者不夠詳盡.本 文不僅討論了 PLM 在 NLP領域的最新應用,而且詳細地介 紹了這個主題,涵蓋了信息提取、情感分析、自動問答、文本摘 要和機器翻譯5個 NLP熱門領域. 本文第2節簡要介紹了一些典型的 PLM,包括國內外的 單語和多語 PLM;第3節總結了一些基于 PLM 的信息提取 方法;第4節回顧了一些基于 PLM 的情感分析技術;第5節 考察了用于問答系統的 PLM 模型;第6節討論了基于 PLM 的文本摘要方法;第7節評論了一些關于PLM 的機器翻譯的 研究;第8節討論了未來工作的挑戰;最后總結全文.

付費5元查看完整內容

相關內容

近年來,預訓練模型在自然語言處理領域蓬勃發展,旨在對自然語言隱含的知識進行建模和表示,但主流預訓練模型大多針對英文領域。中文領域起步相對較晚,鑒于其在自然語言處理過程中的重要性,學術界和工業界都開展了廣泛的研究,提出了眾多的中文預訓練模型。文中對中文預訓練模型的相關研究成果進行了較為全面的回顧,首先介紹預訓練模型的基本概況及其發展歷史,對中文預訓練模型主要使用的兩種經典模型Transformer和BERT進行了梳理,然后根據不同模型所屬類別提出了中文預訓練模型的分類方法,并總結了中文領域的不同評測基準,最后對中文預訓練模型未來的發展趨勢進行了展望。旨在幫助科研工作者更全面地了解中文預訓練模型的發展歷程,繼而為新模型的提出提供思路。

1 引言

自然語言處理(NaturalLanguageProcessing,NLP)是計 算機利用人類定義的算法對自然語言形式的輸入進行加工處 理的過程,旨在讓計算機可以像人類一樣理解和生成語言,具 備如人類一樣的聽、說、讀、寫、問、答、對話、聊天等的能力,并 利用已有知識和常識進行推理分析.自然語言處理技術的發 展經歷了從基于規則到基于統計的過程.隨著深度學習的發 展,圖像、文本、聲音、視頻等不同形式的信息載體被自然語言 處理技術突破,大量的神經網絡被引入自然語言理解任務中, 如循環神經網絡、卷積神經網絡、注意力 機制等.在特定的自然語言處理任 務中,神經網絡可以隱性地學習到序列的語義表示與內在特 征,因此,神經網絡成為了解決復雜自然語言處理任務最有效 的方法.隨著計算力的不斷增強,深度學習在自然語言處理 領域中不斷發展,分布式表示占據了主導地位,不僅在指定任 務中可以端到端地學習語義表示,而且可以在大規模無標注 的文本上進行自主學習,能更靈活地運用在各種下游任務中. 然而,早期在有監督數據上訓練淺層模型往往存在過擬合和 標注數據不足等問題,在訓練深層模型參數時,為了防止過擬 合,通常需 要 大 量 的 標 注 數 據,但 有 監 督 的 標 注 數 據 成 本較高,因此模型主要利用網絡中現存的大量無監督數據進行 訓練.在此背景下,預訓練技術被廣泛地應用在自然語言處 理領域.其中,最經典的預訓練模型是 BERT [4]模型,在多個 自然語言處理任務中取得了最好結果(StateoftheArt,SOG TA).此后出現了一系列基于 BERT 的預訓練模型,掀起了 深度學習與預訓練技術的發展浪潮。

隨著國內外研究者在預訓練模型方面的深入研究,目前 已有很多關于預訓練模型的綜述,但缺少專門針對中文領域 的相關綜述.當前,中文預訓練模型蓬勃發展并取得一定的 成績,因此,對現有研究成果進行全面的分析和總結非常必 要.本文期望能為中文預訓練相關領域的學者提供參考,幫 助科研工作者了解目前的研究現狀和未來的發展趨勢.本文 第2節概述預訓練模型的基本情況;第3節主要介紹兩種基 本模型,即 Transformer和 BERT;第4節根據不同模型的所 屬類別提出典型的中文預訓練模型的分類方法,并匯總了中 文預訓練模型的相關資源;第5節梳理了中文領域的不同評 測基準;最后總結全文并展望未來.

2 預訓練模型

2.1 預訓練模型發展史

從預訓練語言模型的發展時間來看,可以將其分為靜態 預訓練模型和動態預訓練模型.2013年,Mikolov等[5]在神 經網絡語言模型(NeuralNetworkLanguageModel,NNLM) 思想的基礎上提出 Word2Vec,并引入大規模預訓練的思路, 旨在訓練具有特征表示的詞向量,其中包括 CBOW 和 SkipG Gram 兩種訓練方式.相比 NNLM 模型,Word2Vec可以更 全面地捕捉上下文信息,彌補 NNLM 模型只能看到上文信息 的不足,提高模型的預測準確性,Word2Vec極大地促進了深 度學習在 NLP中的發展.自 Word2Vec模型被提出以來,一 批訓練詞向量的模型相繼涌現,例如,Glove [6]和 FastText [7] 等模型均考慮如何得到文本單詞較好的詞向量表示,雖然對 下游任務性能有所提升,但其本質上仍是一種靜態的預訓練 模型.

2018年,Peters等[8]提出的 ELMo模型將語言模型帶入 動態的預訓練時代.ELMo模型采用雙層雙向的 LSTM [9]編 碼器進行預訓練,提取上下文信息,并將各層詞嵌入輸入特定 下游任務中進行微調.該模型不僅可以學習到底層單詞的基 礎特征,而且可以學到高層的句法和語義信息.然而,ELMo 模型只能進行串行計算,無法并行計算,模型訓練的效率較 低;此外,該模型無法對長序列文本進行建模,常出現梯度消 失等問題.而 后,OpenAI提 出 了 GPT(GenerativePreGtraiG ning)[10]模 型.與 ELMo模 型 不 同,GPT 采 用 Transformer 深度神經網絡,其處理長文本建模的能力強于 LSTM,僅使用 Transformer解碼器進行特征提取,在機器翻譯等生成式任務 上表現驚人,但這一特點也導致 GPT 只利用到了當前詞前面 的文本信息,并沒有考慮到后文信息,其本質上依舊是一種單 向語言模型.為了解決 GPT等模型單向建模的問題,2018年, Devlin等[4]提出了 BERT 模型,該模型是第一個基于 Transformer的 雙 向 自 監 督 學 習 的 預 訓 練 模 型,在 英 文 語 言 理解評測基準[11]榜單中的多個任務上達到了SOTA 結果,此 后出現了一大批基于 BERT的預訓練模型,大幅提升了下游 自然語言處理任務的性能.中文預訓練模型雖然起步較晚, 但發展迅速,已經取得了一定成果,本文第4節將對其進行重 點介紹.

**2.2 研究中文預訓練模型的原因 **

首先,中文和英文分別是世界上使用人數最多和范圍最 廣的兩種語言,然而在自然語言處理領域,英文預訓練模型較 為普遍,例如,以 BERT 為首及其后出現的大量預訓練模型 均是在單一語料英文數據集上進行訓練,此外模型的設計理 念也更適用于英文,比如分詞方式及掩碼方式等.其次,中文 和英文語言本質上存在差異,它們的主要區別是,中文文本通 常由多個連續的字符組成,詞與詞之間沒有明顯的分隔符. 如果使用英文預訓練模型去處理常見的中文任務,效果往往 不佳.因此,為了推動中文領域自然語言處理技術和預訓練 模型在多語言任務方面的發展,構建以中文為核心的預訓練 模型勢在必行.

3 Transformer和 BERT

自2021年以來,中文預訓練模型進入井噴式的發展階 段,其架構主要基于 Transformer和 BERT 兩種基礎模型,本 節主要介紹這兩種模型. 圖1為典型的 Transformer架構,該架構由6個結構相 同的編碼器和解碼器堆疊而成.單個編碼器由堆疊的自注意 力層和前饋神經網絡組成,解碼器由堆疊的自注意力層、掩碼 注意力層 和 前 饋 神 經 網 絡 組 成.有 關 Transformer的 詳 細 細節介紹請參考文獻[14].

BERT

BERT [4] (Bidirectional Encoder Representations from Transformers)是由谷歌提出的一種面向自然語言處理任務 的無監督預訓練語言模型,由 Transformer的雙向編碼器表 示.BERT的架構如圖2所示.

圖2 BERT示意圖[4]

4 中文預訓練模型分類

**在自然語言處理領域,繼 Transformer和 BERT 出現之 后,涌現出大量的預訓練模型,這些模型主要針對英文領域, 中文領域的研究起步較晚.但在近兩年,中文預訓練模型受 到廣大學者的關注并取得了一定的研究成果.為了闡明現有 的中文預訓練模型,本節主要從以下6個方面對現有的預訓練 模型進行分類,圖3展示了典型的中文預訓練模型的分類圖. (1) 預訓練模型的方法改進,主要包括掩碼方式的轉變、 位置編碼的轉變、LN 層的位置變化、MoE 層的使用、多粒度訓練和其他改進. (2) 融入外部信息的預訓練,主要包括命名實體、知識圖 譜、語言學知識和特定知識.(3) 關于多模態融合的預訓練模型. (4) 側重于高效計算的預訓練,主要包括數據處理階段、 預訓練階段以及技術優化. (5) 指特定領域的預訓練,主要包括對話系統和其他領域 的預訓練模型. (6) 介紹一些其他變體,主要側重于典型的英文預訓練模 型開源的中文版本.

圖3 中文預訓練模型分類圖

5. 中文領域的評測基準

5.1 為什么建立中文領域的評測基準

首先,從使用人數上看,中國人口占世界人口的五分之 一,人數龐大,因此中文是世界上使用人數最多的語言;其次, 從語言體系上看,中文與英文差異較大;最后,從數據集角度 出發,中文領域公開可用的數據集較少,此前提出的中文預訓 練模型在英文評測基準上評估,無法完全體現出模型性能. 當下預訓練模型的發展極其迅速,英文領域的評測基準已步 入成熟階段,而中文領域的缺失必然會導致技術落后,因此中 文領域的評測基準必不可少.本節主要介紹4種不同的評測 基準.

6 研究趨勢與展望

中文預訓練模型已在多個領域實現商業化落地,并展現出一定的市場潛力,取得了長足發展,但也存在較多挑戰,例 如預訓練模型規模和性能之間的平衡問題;如何構建更加通 用型的預訓練模型;如何突破現有多模態和輕量化模型的瓶 頸;如何構建融入更多中文特色的預訓練模型等.本文主要 從以下幾個方面對未來進行展望.

6.1 規模隨著以 BERT和 GPT等為代表的大規模預訓練模型的 出現,逐漸掀起了預訓練模型朝大規模方向發展的浪潮.大 量的研究表明,模型參數量越大,訓練數據量越多的預訓練模 型表現更出色.中文領域存在眾多大規模預訓練模型,如源 1.0參數 2457億,訓練數據集達5000GB;ERNIE3.0Titan 參數2600億;中文多模態模型 M6參數量已經擴展至十萬億 級別.目前預訓練模型還未達到模型的性能極限,增大模型 參數量和訓練數據仍是提高模型性能最有效的手段,探索超 大規模預訓練模型的道路還將繼續,也需要更加注重模型的 創新性、訓練的低碳化和應用的高效性. 然而,訓練超大規模的模型仍存在很大挑戰.首先,使用 最大 GPU 也不可能在內存中擬合所有參數;其次,算法優化 不足會耗費極長的訓練時間;最后,搭建超大規模模型會帶來 巨大的成本,讓學術界和小型科技公司望而卻步.如何在模 型性能和成本之間取得平衡也是當前學者探索的另外一條道 路,如探索輕量化的預訓練模型.近期騰訊提出的“神農”、瀾 舟科技提出的“孟子”及IDEA 研究院提出的“二郎神”等輕量 化模型,僅以十億左右的參數量就在部分任務上達到了 SOG TA 結果,因此探索輕量化模型勢在必行.

6.2 融入外部信息預訓練模型在部分任務上已無限接近人類,甚至超越人 類,然而,其對知識的掌握依舊不足,如何讓預訓練模型真正 理解并運用知識是一個值得長期研究的課題,尤其是中華民 族上下五千年形成的文化知識頗多,比如“常識性知識”和“特 定領域的知識”等.特定領域的知識可以幫助模型挖掘不同 領域特有的知識,如果能夠將特定領域的行業知識與模型結 合起來訓練,不僅可以將預訓練模型更廣泛地應用到不同的 下游任務,在各行各業中實現良好的產業落地,而且可以與腦 科學、心理學、神經學等其他學科融合,更好地發展人工智能, 服務人類生活. 除了融入知識信息之外,還可以從中文字形和字音等方 面考慮.因為中文語言的特殊性,其字符的符號也包含一些額外信息,這些額外信息能增強中文自然語言的表現力,如 ChineseBERT [46]模型中提出將中文字形和拼音信息融入預 訓練模型中,以此增強模型對中文語料的建模能力,但這一方 向的研究還相對較少,仍有待完善.

6.3 多模態領域現實世界離不開語言,語言離不開語音和視覺信息,類似 于人的感覺器官:眼、耳、嘴,任何一樣的缺失都會影響生活. 當前,互聯網音視頻資源占比較大,純文本信息只能覆蓋互聯 網資源的一小部分,更加豐富的音視頻信息并沒有被充分利 用,因此預訓練模型必然朝著多模態的趨勢發展.目前,多模 態預訓練模型的研究大多只考慮了兩種模態,圖像文本或者 視頻文本,而音頻信息大多被忽視.中文預訓練模型起步雖 晚,但成績斐然.中科院自動化所提出了全球首個圖文音(視 覺G文本G語音)三模態的預訓練模型 OPT [51],該模型同時具 備跨模態理解與生成的能力.通過上述分析可知,多模態的 研究擁有很大的發展空間.

本文主要圍繞中文預訓練模型的研究現狀進行概述.從模型規模上看,中文預訓練模型的發展正處于兩條 道路上.一是朝著超大規模預訓練模型的方向發展;二是尋 求輕量化模型的發展.從外部信息來看,大多數的預訓練模 型都融入了各種知識,預訓練與先驗知識的深度融合刻不容 緩.從高效訓練上看,現有模型都在不斷地探索更加高效的 訓練方式.從多模態的角度上看,中文多模態預訓練模型的 發展正處于上升階段,正朝著更多模態、更加通用的方向發 展.從特定領域的模型來看,預訓練模型可應用于多種領域, 具有較大的發展潛力.綜上所述,中文預訓練模型雖然取得 了不可忽視的成績,但還有更大的發展空間,未來將朝著更大 規模、更加高效、適用更多領域的方向發展.

付費5元查看完整內容

多模態機器學習領域,為特定任務而制作的人工標注數據昂貴,且不同任務難以進行遷移而需要大量重新訓練,導致訓練多個任務的效率低下和資源浪費。預訓練模型通過以自監督為代表的方式進行大規模數據訓練,對數據集中不同模態的信息進行提取和融合,以學習其中蘊涵的通用知識表征,從而服務于廣泛的相關下游視覺語言多模態任務,這一方法逐漸成為人工智能各領域的主流方法。依靠互聯網所獲取的大規模圖文對與視頻數據,以及以自監督學習為代表的預訓練技術方法的進步,視覺語言多模態預訓練模型在很大程度上打破了不同視覺語言任務之間的壁壘,提升了多個任務訓練的效率并促進了具體任務的性能表現。為總結視覺語言多模態預訓練領域的進展,本文首先對常見的預訓練數據集和預訓練方法進行了匯總,然后對目前最新的以及近年來經典的方法進行系統概述,按輸入來源分為了圖像-文本預訓練模型和視頻-文本多模態模型兩大類,闡述了各方法之間的共性和差異,并將各模型在具體下游任務上的實驗情況進行了匯總。最后,本文總結了視覺語言預訓練面臨的挑戰和未來發展趨勢。

深度學習(deep learning, DL)方法在計算機視 覺(computer vision, CV)、自然語言處理(nature language processing, NLP)以及多模態機器學習(multimodal machine learning, MMML)的各個具體任務 上取得了令人矚目的進展,但不同任務之間需要使 用專有的數據進行訓練,大量的重新訓練使得時間 和經濟成本顯著增加。預訓練模型(pre-trained model, PTM)與微調(fine-tuning)相結合的范式旨在緩解 這一困難,預訓練模型首先在大規模通用數據集上 利用自監督為代表的方式進行預訓練,使得模型在 遷移至下游任務之前學習到通用的表征,然后在小 型專有數據集中進行微調得以獲取特定任務知識 (Yosinski 等,2014)。這一方法在很大程度上打破 了各具體任務之間的壁壘,在避免重新訓練所造成 的資源浪費的同時,對下游任務的性能起到促進作 用。Transformer(Vaswani 等,2017)是當前預訓練 模型最為廣泛使用的基礎結構,其因為在處理長距 離依賴關系方面的優勢,最初在機器翻譯方面取得 了成功,隨后廣泛用于 NLP 領域。GPT(Radford 等, 2018)采用 Transformer 作為模型預訓練的基礎結構 在大規模語料庫中進行預訓練,將學習到語言知識 的參數模型用于具體任務,實驗中 12 個下游的 NLP 任務性能取得了顯著的提升。BERT(Devlin 等,2019) 采用了雙向語言模型進行預訓練,在語料中隨機對 15%的單詞令牌(token)進行掩碼,要求模型可以 預測出原有單詞令牌,此外還進行了句子預測任務, 實驗中 11 個下游的 NLP 任務性能取得了提升。隨 后的若干工作(Dong 等,2019;Liu 等,2019a;Radford 等,2019;Shoeybi 等,2019;Zellers 等, 2019;Yang 等,2019;Brown 等,2020;Lewis 等, 2020;Raffel 等,2020;Zhang 等,2020b,2021b;Fedus 等,2021;Sun 等,2021;琚生根 等,2022;強繼朋 等,2022)證明預訓練的語言模型能夠普適 地對下游任務性能起到促進作用。受到 NLP 領域的 啟發,CV 方面的研究者也相繼開展基于Transformer 的視覺預訓練工作。ViT(Dosovitskiy 等,2021)將圖像的補丁塊(patch)作為序列輸入 Transformer 進 行預訓練,克服 Transformer 結構難以處理圖像輸入 這一困難。CLIP(Radford 等,2021)將自然語言作 為監督以提升圖像分類效果,使用對比學習 (contrastive learning, CL)方法促進圖像和文本的匹 配能力。MAE(He 等,2021a)將 NLP 中常用的自 監督方法用于 CV 預訓練,其通過訓練自編碼器, 預測經過隨即掩碼而缺失的圖像 patch,從而高效、 準確地進行圖像分類任務。

人類最具有抽象知識表達能力的信息為語言信息,而人類獲取的最豐富的信息為視覺信息,上述工作分別在這兩種模態上開展預訓練并取得的成功。視覺語言任務(vision-and-language task)(Pan 等, 2016a,b;Tapaswi 等,2016;Yu 等,2016a;Jang 等,2017;Maharaj 等,2017)是典型的多模態機器 學習任務,其中視覺和語言兩種模態的信息互相作 為指引,需讓不同模態的信息對齊和交互,進行視 覺語言預訓練(visual-language pre-training, VLP)工 作并提升模型在下游的視覺問題回答(visual question answering, VQA)(Johnson 等,2017)、視頻描 述(video captioning)(Zhou 等,2018a,b,2019;)、 文本-視頻檢索(image-text retrieval)(Wang 等,2016, 2019;Song 和 Soleymani,2019b)等任務上的效果。視覺語言任務存在著很大的挑戰。其中一個難點是, 使用何種易于大規模獲得并且含有大量通用知識的 多模態數據來源,以構建訓練數據集;另一個難點 是,怎樣通過有效的機制,將屬性相差巨大的不同 模態的信息進行統一訓練。對于以上問題,一方面,當前的主要方法通過 獲取來自互聯網的圖文對、包含語言描述的教學視 頻、附帶字幕的影視劇以及其他各類視頻等視覺語 言多模態數據,制作涵蓋廣泛常識信息的大規模預 訓練數據集;另一方面,設計能夠處理多種模態信 息的神經網絡模型,通過以自監督為代表的方式進 行大規模數據訓練,對數據集中不同模態的信息進 行提取和融合,以學習其中蘊涵的通用知識表征, 從而服務于廣泛的相關下游視覺語言多模態任務。

當前對預訓練模型的綜述工作主要集中在單模態(Qiu 等,2020;Kalyan 等,2021;Min 等,2021;陳德光 等,2021;韓毅 等,2022),部分工作梳理 視頻-文本多模態類型(Ruan 和 Jin,2021),但較為 全面的 VLP 綜述工作(Chen 等,2022)相對較少。本文梳理最新視覺語言多模態預訓練模型的相關研 究成果,首先對 VLP 模型常用的預訓練數據集和預 訓練方法進行了簡單介紹,然后在介紹基礎結構之 后對 VLP 模型按視覺輸入來源進一步分類, 介紹目 前具有代表性的圖像-文本預訓練模型和視頻-文本 預訓練模型,并根據模型結構不同分為了單流和雙 流類型,重點闡述各研究特點,對不同 VLP 預訓練 模型在主要下游任務上的性能表現也進行了匯總。最后對目前研究面臨的問題進行探討。

1 預訓練數據集與預訓練任務

在各類預訓練任務中,模型性能受預訓練數據 集質量的影響顯著。為了獲取通用的多模態知識, 視覺-語言預訓練任務主要使用帶有弱標簽的視覺語言對進行模型訓練。圖像-文本任務主要為圖像及 標題、內容描述、人物的動作描述等。類似地,視頻 -語言預訓練數據集包含大量的視頻-文本對,其標簽 來源包括視頻中的文字描述以及由自動語音識別 (automatic speech recognition, ASR)技術獲得的文 本信息等。部分模型為針對性提升某一模態的表征 提取能力,在多模態預訓練之外還進行單模態數據 集進行預訓練,使用如圖片數據集與純文本數據集。 預訓練中常用的公開數據集有,圖文數據集 SBU(Ordonez 等,2011),Flickr30k(Young 等, 2014),COCO Captions(Chen 等,2015),Visual Genome(VG)(Krishna 等,2017b),Conceptual Captions (CC, CC3M)(Sharma 等,2018)和 Conceptual 12M (CC12M)(Changpinyo 等,2021),VQA(Antol 等, 2015),VQA v2.0(Goyal 等,2019),Visual7W(Zhu 等,2016),GQA(Hudson 和 Manning,2019)。視 頻數據集 TVQA(Lei 等,2018),HowTo100M(Miech 等,2019),Kinetics(Kay 等,2017),Kinetics-600 (Carreira 等,2018),Kinetics-700(Carreira 等, 2019),YT-Temporal-180M(Zellers 等,2021),WebVid-2M(Bain 等,2021)。單模態圖片數據集 COCO (Lin 等,2014),OpenImages(Krasin 等,2017), 文本數據集 BooksCorpus(Zhu 等,2015)以及 English Wikipedia。數據集信息匯總如表 1 所示,以下對代 表性的數據集做進一步介紹。

預訓練任務

2 預訓練模型

2.1 模型基礎 本文根據特征在進行視覺和語言模態融合處理 之前,是否進行處理,將 VLP 模型按結構分為單流 式(single-stream)和雙流式(cross-stream),其對比 如下圖 1 所示。

單流模型將視覺特征和語言特征直接輸入融合 模塊,進行模型訓練,其典型方式如圖 1(a)所示。雙流模型將視覺特征和語言特征分別進行處理,然 后進行模態間的融合,典型類型包括但不限于圖中三類,圖 1(b1)中,模型首先對兩路特征分別進行 處理,然后進行跨模態融合;如圖 1(b2)中,視覺 特征經過視覺處理模塊后,與文本特征一同送入多 模態融合模塊進行交互;圖 1(b3)中,兩路特征送 入各自處理模塊后進行交互式的參數訓練。

2.2 圖像-文本多模態預訓練模型

單流模型相對雙流模型結構較簡單,一般將圖 像與文本兩種模態信息置于等同重要位置,對圖像 和文本編碼后共同輸入跨模態融合模塊進行預訓練。 對于輸入圖像是否采用采用目標檢測算法,可對研 究進行更細致的分類。

由于圖像和文本信息在屬性上區別較大,將不 同模態輸入置于相同輸入地位可能對模態間匹配造 成不良影響。在這一假設下,部分模型根據多模態 輸入特點設計雙流預訓練模型,使用不同編碼器靈 活處理各自模態特征,并通過后期融合對不同模態 進行關聯。

2.3 視頻-文本多模態預訓練模型

Sun 等人(2019b)提出的 VideoBERT 模型是第 一個將 Transformer 結構拓展到視頻語言預訓練的 工作,模型結構如圖 9 所示。對 ASR 得到的文本輸 入采取常用的類 BERT 處理,對于視頻輸入,按每 秒 20 幀采樣速度從視頻剪切多個 1.5s 視頻片段, 應用預訓練過的 S3D 提取視頻特征,然后采用層級 k 聚類(hierachical k-means)標記視覺特征,以聚類 中心對視頻特征進行矢量量化(vector quantization, VQ)操作。文本與視頻的聯合特征被送入多模態 Transformer進行MLM,VTM和掩蔽視頻預測(video only mask completion, VOM)預訓練任務。VOM 以 聚類的視頻片段作為被掩蔽和預測的視覺單元。模 型目標是學習長時間高級視聽語義特征,如隨時間 推移而展開的事件與動作,采用網絡收集的廚藝教 學視頻作為預訓練數據,在預設下游任務上表現良 好,但由于視覺中心代表的視覺信息難以全面描述 視頻內容,使得模型的泛化性受到一定限制。

Miech 等人(2019)提出了視頻文本預訓練中被 廣泛使用的大規模敘述性視頻數據集 HowTo100M, baseline 方法將提取到的視頻和文本特征映射到相 同維度從而優化模態間的關聯性。Miech等人(2020) 進一步研究發現 HowTo100M 中由于人的講述與畫 面展示不同步,導致大約 50%的視頻剪輯片段與 ASR 描述文本沒有對齊(如圖 10 所示)。為解決這 一偏差問題引入了多實例學習(multiple instance learning, MIL),基于同一視頻中連續時間內畫面語 義相似的前提,在目標視頻片段的相鄰時間內截取 多個視頻-描述對作為對比學習的候選正例。然后采 用噪聲估計 NCE 來優化視頻文本聯合特征的學習, 提出了 MIL-NCE,在 8 個數據集 4 類下游任務中表 現良好。MIL-NCE 方法在后續使用 HowTo100M 數 據集的預訓練模型中廣泛使用。

Zhu 等(2020)提出了全局局部動作 VLP 模型 ActBERT,結構如圖 11 所示,對于視頻輸入采取兩 種編碼處理。首先是動作編碼,加入全局堆疊幀獲 取全局動作信息,動作信息來自每個視頻相應描述 中提取動詞所構建的字典,為簡化問題刪除了沒有 任何動詞的視頻片段。然后是視覺編碼,加入經 Faster-RCNN 對圖像提取的 RoI 特征獲取局部區域 信息。ActBERT 利用全局動作信息來促進文本與局 部目標區域間的交互,使一個視覺中心能同時描述 局部和全局視覺內容,提升視頻和文本的關聯性。 引入了掩蔽動作分類(mask action classification, MAC),即隨機掩蔽輸入的動作表示向量,使模型通 過其他信息如文本信息和物體信息來預測出動作標 簽。模型在 5 類下游任務上表現良好。

3. 下游任務性能對比

3.1 圖像-文本多模態預訓練模型

圖像-文本多模態下游任務繁多,代表性的任務 有分類任務如視覺問答(Johnson 等,2017;Hudson 和 Manning,2019)),自然語言視覺推理(natural language visual reasoning, NLVR)(Suhr 等,2017, 2018),視覺常識推理(Gao 等,2019);指稱表達理解(referring expression comprehension, REC)(Yu 等, 2016b;Mao 等,2016),視覺蘊含(visual entailment, VE)(Xie 等,2018a,2019)等,檢索任務如圖文檢 索(image-text retrieval)(Karpathy 和 Li,2015; Plummer 等,2015;Lee 等,2018);生成任務如圖 像描述(Vinyals 等,2015;Xu 等,2015;Anderson 等,2018),新對象圖像描述(novel object captioning, NoCaps )( Agrawal 等 , 2019 ) 及 多 模 態 翻 譯 (multimodal translation)(Elliott 等,2016)。如下對 表 5 中 VLP 模型所進行對比的下游任務與相關數據 集進行進一步介紹。

3.2 視頻-文本多模態預訓練模型

關于視頻的視覺-語言交叉任務同樣覆蓋廣泛, 代表性的任務有視頻描述(Gan 等,2017;Krishna 等,2017a);文本-視頻檢索(Gao 等,2017;Hendricks 等,2017;Mithun 等,2018;Lei 等,2020b);視頻 問答(video question answering)(Yu 等,2018;Lei 等,2020a);動作分割(action segmentation)(Tang 等,2019);步驟定位(action step localization) (Zhukov 等,2019);動作識別(Kuehne 等,2011; Soomro 等,2012);視頻摘要(video summarization) (Plummer 等,2017);視覺故事講述(visual storytelling)(Agrawal 等,2016 ;Huang 等,2016)。 如下對表 6 中 VLP 模型所進行對比的下游任務與相 關數據集進行進一步介紹

4 問題與挑戰

視覺語言多模態預訓練作為前沿研究,盡管在 下游視覺語言交叉任務上已經有了不錯表現,但在 未來工作中還需考慮以下幾個方向:

1)訓練數據域的差異 預訓練數據集與下游任務數據集之間存在數據 域的差異,部分工作表明(Zhou 等 2021),與預訓 練數據集的域相一致的下游任務數據集可以顯著提 升任務表現,而數據域的差異是造成模型在不同任 務之間遷移時性能下降的重要原因。HERO(Li 等 2020b)指出,不能通過增加微調過程的數據規模, 來縮小下游任務數據與預訓練數據的域差異所造成 的影響。MERLOT(Zellers 等,2021)使用較為多 樣的預訓練數據,增大了數據域的分布,在一定程 度上提升了模型的性能,但也增加了訓練消耗。因 此,如何提升預訓練數據集的質量和多樣性是今后 預訓練任務的重要課題。

2)知識驅動的預訓練模型

預訓練模型的本質是通過參數量極大的神經網 絡對大規模訓練數據進行擬合,以學習潛在的通用 知識,在此過程中擴大數據規模可以帶來預訓練性 能的提升,但會增加計算資源和能耗的消耗,因此 一味通過增加數據和訓練量換取性能的思路是難以 持續的。對于輸入的圖文、視頻等多模態信息,存在 著大量隱含的外部常識信息可以用于更快速的引導 模型對于事件內容的挖掘(Chen 等,2021),因此探 索如何通過知識驅動的方式建立具有廣泛知識來源 的模型架構,將知識圖譜等結構化知識注入模型, 探索輕量化的網絡結構,從而增加模型的訓練效率 和可解釋性,是預訓練模型的具有前景的方向。

3)預訓練模型的評價指標

現有的視覺語言預訓練模型大多在少數幾個下 游數據集上進行效果的實驗驗證,難以確切判斷在 其它數據集上的有效性,而真正通用的預訓練系統 應該在廣泛的下游任務、數據域和數據集上進行推 廣,這就需要建立較為通用的預訓練評價指標,來 有效評價預訓練效果,并指出模型是否易于在不同 任務和數據之間進行遷移。VALUE(Li 等,2021a) 作為一個視頻語言預訓練評價基準,覆蓋了視頻、 文本、音頻輸入,包含了視頻檢索、視覺問答、字幕 匹配任務的 11 個數據集,根據不同難度的任務的元 平均得分(meta-average score)度量預訓練模型的性 能。但這類工作目前正處于起步階段,相關的研究 也被研究者重點關注。

4)探索多樣的數據來源

視頻中的音頻包含了豐富的信息,當前視頻預 訓練中常使用 ASR 方法將音頻轉換為文本,在此 過程中部分原有信息損失掉了,因此探索包含音頻 的預訓練模型是一個可取的方向。目前的多模態預 訓練數據來源以英文圖文和視頻為主,進行多語言 學習的預訓練工作較少,將模型在不同語言間進行 遷移還需要繼續研究。此外,探索從結構化的多模 態數據中進行更細粒度的預訓練工作(Zellers 等, 2021),如從圖表中進行目標推理的訓練等。

5)預訓練模型的社會偏見和安全性

由于大規模數據集在來源上涉及范圍廣泛,難 以逐一排查具體信息,數據中難以避免地存在部分 社會偏見以及錯誤知識,而通過預訓練模型由于學 習到了這些不良內容,其生成的結果會進一步增加 這類內容所造成了影響,造成更大的社會問題 (Dixon 2008)。因此在獲取數據時如何對存在的 數據隱私,以及涉及國家、種族、性別公平性等問 題進行考量,通過算法對選取的預訓練數據內容進 行過濾,在社會安全、倫理等方面尤其重要。

5 結 語

視覺和語言在人類學習視覺實體與抽象概念的 過程中扮演著重要的角色,本文對視覺語言多模態 預訓練領域自 2019 年以來的模型與方法,基于視覺 來源從圖像-文本與視頻-文本兩大方向進行綜述, 并進一步基于模型結構分別介紹各具體模型的特點 與研究貢獻。此外,還介紹了常用視覺語言多模態 預訓練模型數據集、預訓練任務設定以及各模型在 主要下游任務上的表現。 最后對該領域的問題與挑 戰進行了總結并提出未來研究方向。希望通過本文 讓讀者了解當前工作的前沿,以啟發進而做出更有 價值的多模態預訓練工作。

付費5元查看完整內容

大型的、預訓練的基于Transformer的語言模型,如BERT,已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研,這些研究使用了大型語言模型來解決NLP任務,通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法,用于訓練增強或其他目的。最后,我們討論了局限性,并提出了未來研究的方向。

引言

近年來,大型預訓練的基于Transformer的語言模型(PLMs),如BERT (Devlin et al., 2019)和GPT (Radford et al., 2018)系列模型席卷了自然語言處理(NLP),在許多任務中實現了最先進的性能。

這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x,然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al., 2015)。注意,每個新的NLP任務都需要重新學習潛在特征表示,而且在許多情況下,訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的,我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示,然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞,這是一項具有大量自然出現的文本的通用任務,可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上,最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務,研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調,提示PLMs執行期望的任務,或者將任務重新構造為文本生成問題,并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。

本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:

  • 先進行預訓練,然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練,然后對感興趣的任務進行少量的任務特定微調。

  • 基于提示的學習(§3):提示一個PLM,這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞),或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識,從而產生“少樣本”的方法。

  • NLP作為文本生成(§4): 將NLP任務重新定義為文本生成,以充分利用生成語言模型(如GPT-2 (Radford et al., 2019)和T5 (Raffel et al., 2020)中編碼的知識。

  • 生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研,如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明,本文主要關注非生成性任務(如分類、序列標注和結構預測),這些任務仍然涵蓋廣泛的NLP任務,包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外,還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:

  • 數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據,通常生成的PLM是針對任務進行微調的,或者是一些輔助數據,如反例、澄清、上下文或其他。在第一種情況下,銀色標記數據可以添加到現有的標記數據中。在第二種情況下,輔助數據以某種方式支持目標任務。

論文組織如下: 第2節提供了PLM的背景,并描述了第一種范式,即預訓練然后微調。第三節討論第二種范式,即基于提示的學習。第4節總結了第三種范式,即作為文本生成的NLP。在第5節中,我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向,并在第7節進行總結。

范式1: 先訓練,然后微調

傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型,而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型,然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務,它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中,我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識,然后描述使用凍結或微調PLM進行NLP任務的方法。

范式2: 基于提示的學習

我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法,以鼓勵預訓練的模型執行特定任務(Yuan et al., 2021)。使用提示符有幾個優點。提示,特別是上下文學習(例如Brown et al., 2020),可能不需要更新PLM的參數,與微調方法相比,或在2.4.4中描述的基礎上,減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合,從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al., 2021b),特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后,提示允許以一種不受監督的方式探索PLM,以評估PLM對特定任務所獲得的知識(如Petroni et al., 2019)。

下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。

范式3 NLP即文本生成

基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功,最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務,如分類和結構預測。例如,圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同,這些任務被重新表述為文本生成問題,從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息,從而能夠準確地重構預期的類標簽(即避免映射中的歧義),并促進生成/解碼過程(即為預測提供足夠的上下文)。

總結

在這篇文章中,我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述,并對其應用前景進行了總結。此外,我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。

付費5元查看完整內容

摘要

預訓練語言模型(Pretrained Language Models, PLM)通過在大規模文本語料庫上學習信息語境化表示,建立了一種新的范式。這種新的范式已經徹底改變了整個自然語言處理領域,并為各種NLP任務設置了新的最先進的性能。然而,盡管PLM可以從訓練語料庫中存儲一定的知識/事實,但它們的知識意識還遠遠不能令人滿意。為了解決這個問題,將知識集成到PLM中已經成為一個非常活躍的研究領域,并且已經開發了各種各樣的方法。在本文中,我們對這一新興和快速發展的領域-知識增強的預訓練語言模型(KE-PLMs)提供了一個全面的文獻綜述。我們引入三種分類法來對現有工作進行分類。此外,我們還調研了各種NLU和NLG應用,在這些應用上,KE-PLM表現出了優于普通PLM的性能。最后,討論了KE-PLMs面臨的挑戰和未來的研究方向。

引言

近年來,大規模預訓練語言模型(大規模預訓練語言模型,簡稱PLM)給自然語言處理領域帶來了革命性的變化。預先訓練的模型如BERT [16], RoBERTa [50], GPT2/3[68][7]和T5[69]獲得了巨大的成功,極大地提升了各種NLP應用的最先進性能[67]。前訓練在NLP中的廣泛成功也啟發了自我監督前訓練在其他領域的應用,如圖表示學習[30][31]和推薦系統[81][98]。對大量文本數據的訓練也使這些plm能夠記住訓練語料庫中包含的某些事實和知識。最近的研究表明,這些經過訓練的語言模型可以擁有相當數量的詞匯知識[48][92]和事實知識[63][71][95]。然而,進一步的研究發現,PLM在知識意識方面也存在以下局限性:

對于NLU來說,最近的研究發現PLM傾向于依賴于表面信號/統計線索[62][55][58],并且很容易被否定的信息(例如,“Birds can [MASK]”vs .“Birds cannot [MASK]”)和錯誤啟動的探針[35]所愚弄。此外,已有研究發現,PLM在推理任務中往往會失敗[84]。

對于NLG,盡管PLM能夠生成語法正確的句子,但生成的文本可能不符合邏輯或不合理。例如,在[46]中提到,給定一組概念{dog, frisbee, catch, throw}, GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”,這兩者都不符合人類的常識。

這些觀察結果促使人們設計更有知識意識的預訓練模型。最近,越來越多的研究致力于明確地將知識納入PLMs[100][108][61][90][96][49][33]。他們利用百科知識、常識知識和語言知識等多種來源,采用不同的注入策略。這種知識集成機制成功地增強了現有PLM的知識意識,提高了包括但不限于實體輸入[100]、問題回答[101][45]、故事生成[22]和知識圖完成[102]在內的各種任務的性能。

本文旨在對這一新興領域的知識增強預訓練語言模型(KE-PLMs)進行全面綜述。現有的KE-PLMs工作已經開發了一套不同的技術,用于在不同的知識來源上進行知識集成。為了深入了解這些模型并促進未來的研究,我們構建了三種分類法來對現有的KE-PLMs進行分類。圖1說明了我們提出的關于知識增強預訓練語言模型(KE-PLMs)的分類法。在現有的KE-PLMs中,已經探索了不同類型的知識來源(如語言學、常識、百科全書、特定應用),以增強PLMs在不同方面的能力。第一種分類法幫助我們理解在構建KE-PLMs時考慮了哪些知識來源。在第二種分類法中,我們認識到一個知識源可以被不同程度地利用,并基于知識粒度對已有的工作進行分類: 基于文本塊、基于實體、基于關系三元和基于子圖。最后,我們介紹了第三種分類法,它根據方法的應用領域對它們進行分組。這種分類法展示了現有的KE-PLMs在知識集成的幫助下旨在改進的一系列應用。通過認識到哪些應用領域已經被KE-PLMs很好地解決了,我們相信這將為未來將KE-PLMs應用于未解決領域的研究機會提供支持。

付費5元查看完整內容

導讀:本文將參考上述綜述論文,從預訓練語言模型應用于文本生成任務的三個挑戰出發:

如何對輸入數據進行編碼并保持語義,使其與預訓練語言模型進行融合; 如何設計通用且合適的預訓練語言模型架構,使其作為生成函數; 如何優化生成函數,并保證生成文本滿足特殊屬性。 并詳細列舉目前每個挑戰下的研究進展。

文本生成是目前自然語言處理領域一項非常重要但具有挑戰性的任務,它的目的是希望生成可讀的自然語言文本,比較有代表性的應用,例如對話系統、文本摘要和機器翻譯等。

目前,深度神經模型在文本生成研究中已取得重大進展,其優勢在于深度神經網絡可以端到端地學習輸入數據到輸出文本的語義映射,而不需要人工參與進行特征工程。但是,深度神經模型往往具有大量的參數,而大部分文本生成任務數據集都非常小,因此深度神經網絡非常容易在這些數據集上過擬合,導致其無法在實際應用中進行泛化。

隨著預訓練語言模型(Pretrained Language Models, PLMs)范式的蓬勃發展,越來越多的研究將其運用到各種自然語言處理任務中以取得SOTA效果,例如BERT解決語言理解和GPT解決語言生成。通過在大規模語料集上進行預訓練,預訓練語言模型可以準確地理解自然語言并以自然語言的形式流暢表達,這兩項都是完成文本生成任務的重要能力。

付費5元查看完整內容

摘要:隨著自然語言處理(NLP)領域中預訓練技術的快速發展,將外部知識引入到預訓練語言模型的知識驅動方法在NLP任務中表現優異,知識表示學習和預訓練技術為知識融合的預訓練方法提供了理論依據。概述目前經典預訓練方法的相關研究成果,分析在新興預訓練技術支持下具有代表性的知識感知的預訓練語言模型,分別介紹引入不同外部知識的預訓練語言模型,并結合相關實驗數據評估知識感知的預訓練語言模型在NLP各個下游任務中的性能表現。在此基礎上,分析當前預訓練語言模型發展過程中所面臨的問題和挑戰,并對領域發展前景進行展望。

//www.ecice06.com/CN/10.19678/j.issn.1000-3428.0060823

付費5元查看完整內容

//ruder.io/recent-advances-lm-fine-tuning/index.html

在過去的三年里, fine-tuning的方法已經取代了從預訓練embedding做特征提取的方法,而預訓練語言模型由于其訓練效率和出色的性能受到各種任務的青睞,如機器翻譯,自然語言推理等,在這些方法上的成功經驗也導致了后來像BERT,T5這樣更大模型的出現。最近,如GPT-3這樣的模型,數據規模實際上已經大到在不需要任何參數更新的情況下也可以取得非常優異的性能。然而,這種zero-shot場景畢竟存在著一定的限制。為了達到最佳性能或保持效率,在使用大型的預訓練語言模型時,fine-tuning依然會作為主流方法而繼續存在。

如下圖,在標準的遷移學習場景中,首先在大規模無監督數據上使用建模語言特征的loss(如MLM)對一個模型做預訓練,然后在下游任務的有標簽數據上使用標準的cross-entropy loss對預訓練模型做fine-tuning。

標準的pre-train —— fine-tuning 場景

雖然預訓練依賴于大量的計算資源,但是fine-tuning只需要使用少量計算資源。因此,在對語言模型的實際使用中,fine-tuning就顯得更為重要,例如,Hugging Face的模型庫截至目前就已經被下載使用了數百萬次之多。基于此,fine-tuning將是本文的講述重點,尤其將重點介紹可能會影響我們fine-tune模型方式的一些近期進展。本文將分類介紹幾種fine-tuning方法,如下圖所示:

付費5元查看完整內容

摘要: 近年來,隨著深度學習的快速發展,面向自然語言處理領域的預訓練技術獲得了長足的進步。早期的自然語言處理領域長期使用Word2Vec等詞向量方法對文本進行編碼,這些詞向量方法也可看作靜態的預訓練技術。然而,這種上下文無關的文本表示給其后的自然語言處理任務帶來的提升非常有限,并且無法解決一詞多義問題。ELMo提出了一種上下文相關的文本表示方法,可有效處理多義詞問題。其后,GPT和BERT等預訓練語言模型相繼被提出,其中BERT模型在多個典型下游任務上有了顯著的效果提升,極大地推動了自然語言處理領域的技術發展,自此便進入了動態預訓練技術的時代。此后,基于BERT的改進模型、XLNet等大量預訓練語言模型不斷涌現,預訓練技術已成為自然語言處理領域不可或缺的主流技術。文中首先概述預訓練技術及其發展歷史,并詳細介紹自然語言處理領域的經典預訓練技術,包括早期的靜態預訓練技術和經典的動態預訓練技術;然后簡要梳理一系列新式的有啟發意義的預訓練技術,包括基于BERT的改進模型和XLNet;在此基礎上,分析目前預訓練技術研究所面臨的問題;最后對預訓練技術的未來發展趨勢進行展望。

付費5元查看完整內容
北京阿比特科技有限公司