通過使用像BERT這樣的預訓練語言模型(PLMs),自然語言處理(NLP)已經發生了革命性的變化。盡管幾乎在每個NLP任務中都創造了新記錄,但PLM仍然面臨許多挑戰,包括可解釋性差、推理能力弱,以及在應用于下游任務時需要大量昂貴的注釋數據。通過將外部知識集成到PLM中,知識增強的預訓練語言模型(KEPLMs)有可能克服上述限制。本文通過一系列研究對KEPLMs進行了系統的考察。具體地,概述了可集成到KEPLMs中的知識的常見類型和不同格式,詳細介紹了現有的構建和評估KEPLMs的方法,介紹了KEPLMs在下游任務中的應用,并討論了未來的研究方向。研究人員將從這項調研中受益,通過獲得該領域最新發展的快速和全面的概述。
//www.zhuanzhi.ai/paper/08b18a51703942d4625d10b8f6cb8e4b
1. 引言
預訓練語言模型(PLMs)首先在大型數據集上進行訓練,然后直接遷移到下游任務,或在另一個小型數據集上進一步微調,以適應特定的NLP任務。早期的PLMs,如Skip-Gram[1]和GloVe[2],是淺層神經網絡,其詞嵌入(從窗口大小的上下文中學習)是靜態語義向量,這使得它們無法處理動態環境下的一詞多義問題。隨著深度學習的發展,研究人員試圖利用深度神經網絡來通過動態語義嵌入來提高任務的性能。起初,人們仍然局限于監督學習的范式,認為沒有足夠的標記數據,很難釋放深度學習的潛力。然而,隨著自監督學習的出現,BERT[3]等大型語言模型可以通過預測事先被掩蓋的標記,從大規模無標記文本數據中學習大量知識。因此,他們在許多下游NLP任務中取得了突破性進展。此后,許多大型模型開始采用Transformer[4]結構和自監督學習來解決NLP問題,plm逐漸進入快速發展階段。PLMs最近的驚人成功是OpenAI的ChatGPT。隨著研究的進展,人們發現PLMs仍然面臨可解釋性差、魯棒性弱和缺乏推理能力的問題。具體來說,PLMs被廣泛認為是黑盒,其決策過程是不透明的,因此很難解釋。此外,PLMs可能不夠魯棒,因為深度神經模型容易受到對抗性樣本的影響。此外,由于純數據驅動,PLMs的推理能力也受到限制。PLMs的所有這些缺點都可以通過納入外部知識來改善,這就產生了所謂的知識增強的預訓練語言模型(KEPLMs)。圖1用ChatGPT的話說就是KEPLMs的優勢。
盡管目前對KEPLMs 中[5]、[6]、[7]、[8]的研究尚不多見,但隨著許多新技術的出現,該研究領域正在迅速發展和擴展。本綜述旨在從不同的角度為人工智能研究人員提供關于KEPLMs 最新進展的最全面和最新的圖景。 本綜述的其余部分組織如下。第2節解釋了KEPLMs 的背景。第3節對keplm常用的知識類型和格式進行了分類。第4節介紹了構建keplm的不同方法。第5節描述了評估KEPLMs 可能的性能指標。第6節討論了KEPLMs 在下游知識密集型NLP任務中的典型應用。第7節概述了KEPLMs 的未來研究方向。第8節總結了貢獻。
構建 KEPLMS
隱性知識整合
以BERT為代表的PLMs 通常使用維基百科等的非結構化文本文檔作為預訓練的語料庫。非結構化文本數據包含豐富的上下文語義信息,BERT可以通過掩碼語言模型(MLM)從中學習單詞的上下文知識。然而,文本中同樣包含有價值信息的實體和短語被忽略了。通過采用知識引導的超越單個單詞層面的掩碼策略,PLMs 能夠融合實體、短語等知識,如圖3所示。
一些構建KEPLMs的方法通過添加知識相關的預訓練任務隱式地納入知識,如圖6所示。
顯性知識整合
PLMs 顯式地合并外部知識主要有三種方式:修改模型輸入、添加知識融合模塊和利用外部內存。前兩種方法將相關知識插入PLMs中,其形式為模型的額外輸入或模型中的額外組件,如圖7①和②所示。第三種方法使文本空間和知識空間保持獨立,從而便于知識更新
參考文獻
[1] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” in Proc. Int. Conf. Neural Inf. Process. Syst, vol. 26, 2013. [2] J. Pennington, R. Socher, and C. D. Manning, “Glove: Global vectors for word representation,” in Proc. Conf. Empir. Methods Natural Lang. Process., 2014, pp. 1532–1543.
預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。
**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。
//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9
1. 引言
預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。
**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。
**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。
有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:
本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。
我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。
通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。
知識增強的神經機器推理是一個前沿但具有挑戰性的研究領域,具有廣泛的實際應用。近年來,大量研究利用各種形式的外部知識來增強深度模型的推理能力,以應對有效的知識整合、隱式知識挖掘、可處理性和優化問題等挑戰。然而,缺乏對現有的跨不同應用領域的知識增強推理技術的全面技術綜述。**本文對該領域的最新進展進行了深入研究,提出了一種新的分類法,將現有的知識增強方法分為兩個主要類別和四個子類。**系統地討論了這些方法,并強調了它們的相關性、優勢和局限性。最后,闡述了當前的應用領域,并對未來的研究前景進行了展望。
//www.zhuanzhi.ai/paper/ae0d72adc5ba3100bd3bfbb71e244e2c
引言
**人工智能(AI)一詞誕生于上個世紀,其最終研究目標是制造一個能像人類一樣推理的智能系統,即感知現有證據,綜合與問題相關的信息,并推斷出新的知識來解決看不清的任務。**早期的人工智能研究以手工制作和邏輯規則為主,推理能力較強,但系統的可擴展性和泛化性較差。隨著深度神經網絡的發展,最先進的深度學習模型擅長從大量數據中提取特定任務的預測模式。為了進一步向人工通用智能(AGI)邁進,我們意識到當前的學習系統需要能夠在不同的任務中進行更深入和適應性的思考。具體而言,近年來人工智能研究出現了兩個主要趨勢: 1)超越模式識別,轉向邏輯推理,這與人類的互補學習策略(即思維系統I和II[25])相呼應; 2)從特定任務模型轉向通用智能,這需要利用外部知識13的能力。 **事實上,類人智能確實需要上述兩種趨勢之間的協同作用。為了獲得更強的決策和邏輯推理能力,人類需要理解和嵌入現有證據的邏輯過程。**另一方面,人類在現有知識的幫助下對任意(看不見的)任務做出預測或構建方法也是必不可少的。盡管有上述強烈的動機,但直到最近,由于近年來幾個關鍵領域的進步,在協同深度推理和知識增強方面的努力才出現爆炸式的快速增長。具體來說,快速發展的高性能計算基礎設施能夠構建超大型神經網絡(例如具有1750億個參數的GPT-3[6]),通過存儲在參數中的隱含知識固有地表現出推理能力。此外,最近發展的各種有組織和結構化的知識庫也可以提供豐富的外部信息,包括推理所需的一般知識和特定領域的知識。
**賦予深度模型推理能力具有挑戰性,但外部知識可能會提供一個良好的開端。然而,使用外部知識進行艱難的邏輯推理會使系統變得脆弱,因為它只依賴于演繹。另一方面,歸納推理是傳統深度學習的核心焦點。**因此,為這兩種方法開發一種“協同工作”技術是一個開放的研究問題,它帶來了幾個挑戰,包括但不限于:1)知識集成的困難。顯式知識,尤其是基于規則的知識,很難泛化,因為它可以是手工制作的或非常特定于某個領域。另一方面,規則結構的形成需要不同類型的集成(例如幾何嵌入)。從結構化的外部知識(如知識圖譜)中收集的事實可能是稀疏的,這可能會降低推理性能。此外,每個領域數據都有自己的隱藏特征。因此,外部知識需要具有領域自適應,才能進行適當的整合。在集成過程中,確定外部知識的權重會引發非常特定于任務的問題。由于有效邏輯不足、語義不佳、標記實例不足等原因,外部知識面臨稀缺問題。它也可以用隱藏的錯誤信息加以修飾,阻礙提取知識的過程。此外,廣義的外部知識給系統檢測和全面理解主觀知識和領域知識帶來了挑戰。2)外部知識與深度模型的銜接問題。為了將外部知識和深度模型結合起來,我們必須填補知識規則的離散性和深度模型的連續性之間的空白。這激發了兩個潛在的策略方向:一是使深度模型能夠查詢外部知識。但它會遇到檢索的挑戰。為了減少工作量和計算資源,會出現處理并行性、小批訓練性能差、內存重用等問題。另一種方法是將知識表示為嵌入參數或模型參數。然而,挑戰在于預訓練的參數模型可能會由于用于訓練這些模型的數據而引入偏差。此外,使用更大的模型需要大量的計算機能力。3)可處理性和優化方面的挑戰。深度學習中的邏輯推理涉及常見的方法,如使用規則作為額外的約束。但是使用規則作為約束會導致面向參數模型的非線性和非凸約束問題。另一種常用的方法是使用概率模型。但是采樣規則(例如學習廣義多跳規則集)是所有方法的共同特征。由于現實世界中的所有基本規則都是難以處理的,可處理性問題是每個問題表述的共同困難。此外,開發端到端可微框架是一項非常具有挑戰性的任務,這進一步導致了優化的挑戰。 **最近,大量的研究[34,15,64,73,63]致力于在各種知識來源的幫助下開發推理技術,以解決上述挑戰。**有大量的研究領域可以受益于知識增強的推理技術,從會話式AI開發中的常識推理到構建邏輯編程系統中的神經符號推理。然而,大多數現有的方法都是為特定的應用程序領域量身定制的,但它們的方法可能足夠通用,可以處理其他應用程序中的類似推理問題。此外,為一個實際應用開發的技術可能會使另一個應用的技術發展受益。然而,在服務于完全不同社區的不同應用程序領域之間交叉引用這些技術是具有挑戰性的。到目前為止,我們已經看到了一些研究[22,18,8]討論了特定應用領域的深度推理技術。不幸的是,我們仍然錯過了最新的知識增強深度推理技術的技術概述,這些技術跨越不同的知識來源和廣闊的應用領域。在知識增強的深度推理技術中,缺乏系統的總結和分類,這使得相關研究人員很難對現有的研究挑戰、尚未解決的問題和廣闊的未來研究方向有明確的信息。
為克服這些障礙并促進AGI的發展,本文對這個快速發展的主題——知識增強神經機器推理——的當前工作(2020年以后發表)進行了首次全面概述。本調查的主要貢獻總結如下:
對現有知識的第一個系統分類增強深度推理技術。根據外部知識的類型對現有技術進行了分類,并闡述了它們的形式化問題定義。總結了不同方法之間的關系和優缺點,以及每個子類別下的技術細節。
**對主要應用領域進行全面的分類和總結。**總結了現有知識增強神經機器推理技術的廣泛應用領域。應用領域的分類可以很容易地映射到所提出的技術分類,以便研究人員交叉引用不同的應用領域。
**對知識增強深度推理的現狀及其未來趨勢進行了深刻的討論。**在總結現有利用外部知識輔助深度推理技術的基礎上,概述了當前知識增強深度推理的研究前沿。最后討論了未來可能取得豐碩成果的研究方向。
我們提出了一種分類法來顯示不同推理技術中的知識利用,如圖1所示。對于基于知識的推理技術,重點研究了**1)數據中存儲的知識類型,2)知識的形成,3)知識的利用。**基于這三個標準,我們構建了分類法的三個層次
知識的顯性取決于組織、結構、解釋、可訪問性和現實世界的表示。這些屬性可以極大地有益于用于推理任務的技術。外部知識的種類繁多,促使我們將其主要分為兩類:顯性知識和隱性知識。我們分別在第3節和第4節詳細討論了這兩組技術。
基于隱性知識的推理
本節回顧了利用隱式知識解決推理任務的最新進展,其中相關知識以基本兩種形式隱式表示:大規模預訓練模型和記憶增強神經網絡。這兩種形式都依賴于潛在知識的參數。由于預訓練模型具有唯一的參數依賴性,因此必須全部導入,而記憶增強神經網絡中的半參數記憶可以從編碼的知識索引中進行操作。
基于顯性知識的推理
顯性或表達性知識是可以毫不費力地記錄、訪問和解釋的信息。顯性知識的本質是邏輯的、客觀的和結構化的。在過去的幾十年里,人們廣泛地從顯性知識庫中挖掘結構化知識以支持各種與推理相關的任務,包括知識圖譜和知識規則。這兩類知識清晰定義不同實體之間關系的能力引起了越來越多的共同興趣。圖被大量用于模型的輸入層,或者用于從原始數據中收集概念。但該規則具有靈活性,可以在表示層或推理層使用。在本節中,我們回顧了利用不同顯性知識形式的最新技術。
深度學習模型通常限定在固定數據集中進行訓練,訓練完成之后模型無法隨著時間而擴展其行為. 將已訓練好的模型在新數據上訓練會出現災難性遺忘現象. 持續學習是一種能夠緩解深度學習模型災難性遺 忘的機器學習方法,它旨在不斷擴展模型的適應能力,讓模型能夠在不同時刻學習不同任務的知識. 目前,持 續學習算法主要分為 4 大方面,分別是正則化方法、記憶回放方法、參數孤立方法和綜合方法. 對這 4 大方面 方法的研究進展進行了系統總結與分析,梳理了衡量持續學習算法性能的評估方法,討論了持續學習的新興 研究趨勢. //www.yndxxb.ynu.edu.cn/yndxxbzrkxb/article/doi/10.7540/j.ynu.20220312?viewType=HTML 得益于更大的數據集、更強的計算能力以及 網絡結構創新,深度學習在圖像分類[1]、人臉識別[2] 等任務上已經實現了接近人類甚至超越人類的性 能. 然而大多數神經網絡只能在預先知道所有類的 批量學習設定下進行訓練直至擬合,當有新數據出 現時,必須使用全部數據重新訓練模型,以適應數 據分布變化[3] . 隨著移動設備和互聯網的飛速發展, 人們每天都會拍攝和分享大量圖片和視頻. 而從零 開始重新訓練模型是耗時且低效的,這就要求模型 擁有以序列方式進行持續學習和更新的能力,以適 應每天新產生的數據. 神經網絡從原來的批量學習模式轉變為序列 學習模式時,很容易出現對舊知識的遺忘,這意味 著,在使用新數據更新模型后,模型在先前學習的 任務中所達到的性能會急劇下降[4],出現災難性遺 忘. 早在 30 多年前,人們就在多層感知器中發現了 災難性遺忘現象[5],產生災難性遺忘的根本原因是 新任務訓練過程需要改變神經網絡權值,這不可避 免地修改了某些對于舊任務來說至關重要的權重, 使得模型不再適用于舊任務. 與此相反,人類可以 不斷學習和適應新知識,并且在自身積累新知識的 同時,也會對原有知識進行了補充和修正,學習新 知識很少會導致人類災難性地忘記之前的知識[6] . 如自然視覺系統,先前的知識得到了保留的同時, 新的視覺信息被不斷地整合到已有知識中. 為了克服災難性遺忘,學習系統一方面要在新 任務上表現出獲取新知識和提煉現有知識的能力, 另一方面要防止新任務對現有知識的顯著干擾. 持 續學習,也稱為終身學習,它建立在不斷學習外部 世界的想法之上,神經網絡通過持續學習算法能夠 漸進地學習新知識,并且保留過去學習的內容. 近 年來,如圖 1 所示,持續學習在計算機視覺領域獲 得了蓬勃發展,同時各單位也如火如荼開展著持續 學習的相關比賽[7] . 鑒于持續學習深刻的應用場景 和該領域飛速的發展,本文對持續學習的研究工作 進行綜述,從而幫助讀者掌握持續學習研究的最新 趨勢.
摘要: 近年來,預訓練語言模型發展迅速,將自然語言處理推到了一個全新的發展階段。文中的綜述旨在幫助研究人員了解強大的預訓練語言模型在何處以及如何應用于自然語言處理。具體來講,首先簡要回顧了典型的預訓練模型,包括單語言預訓練模型、多語言預訓練模型以及中文預訓練模型;然后討論了這些預訓練模型對5個不同的自然語言處理任務的貢獻,即信息提取、情感分析、問答系統、文本摘要和機器翻譯;最后討論了預訓練模型的應用所面臨的一些挑戰。
//www.jsjkx.com/CN/10.11896/jsjkx.220800223
在早期的自然語言 處 理(NaturalLanguageProcessing, NLP)任務中,人們通常利用各種深度神經網絡[1],使用低維 密集向量來表示語言的句法或語義特征.然而,由于深度神 經網絡參數量大,并且是在有限的數據集上進行訓練的,往往 會導致過度擬合.因此,Vaswanid等[2]提出了深度學習模型 Transformer,用于解決循環神經網絡(RecurrentNeuralNetG work,RNN)訓 練 緩 慢、效 率 低 下 和 過 度 擬 合 的 問 題[3].同 時,將 Transformer與自我注意力機制相結合,實現了快速并 行的 效 果. 從 此,預 訓 練 語 言 模 型 (Pretrained Language Model,PLM)進入了蓬勃發展的階段.各種大規模的單語言 PLM(如 BERT [4]和 GPT [5])在各種 NLP任務中獲得了巨大 成功,并催生了許多不同的改進模型和多語言 PLM. 近兩年來,PLM 在 NLP 領 域 應 用 得 非 常 廣 泛,原 因 是 PLM 可以將各種困難復雜的 NLP任務簡化為簡單的微調問 題.PLM 通過自我監督學習在大規模文本語料庫上進行預 訓練,預訓練過程包括從大型語料庫中學習常識(與特定的下 游 NLP任務無關),以防止模型在小數據上過度擬合[6].在 預訓練之后,PLM 需要針對具體的下游任務進行微調. 由于 PLM 對 NLP至關重要,為了幫助研究人員快速掌 握 PLM 的應用現狀,本文綜述了 PLM 在 NLP 領域5個最 熱門的任務中的應用:信息提取(InformationExtraction,IE)、 情感分析(SentimentAnalysis,SA)、文本摘要(TextSummaGrization,TS)、問題回答(QuestionAnswering,QA)和機器翻 譯(MachineTranslation,MT).此 外,我 們 還 討 論 了 當 前 PLM 應用中的重要挑戰. 其他研究人員也綜述了 PLM,但本文的綜述與他們的不 同.2020年,Qiu等[7]對 PLM 在 NLP領域的應用進行了調 查,但只進行了簡單的概述.2020年,Zaib等[8]對 PLM 的對 話式人工智能做了一個簡短的綜述,但未涉及 PLM 在其他 領域的應用.2021年,Luo等[9]調查了 PLM 在跨語言SA 中 的應用.2021年,Kalyan等[10]回顧了基于轉換的生物醫學 PLM.然而,他們的 PLM 只涉及生物醫學領域,這些綜述都 沒有包含最新的進展,且所做的綜述單一或者不夠詳盡.本 文不僅討論了 PLM 在 NLP領域的最新應用,而且詳細地介 紹了這個主題,涵蓋了信息提取、情感分析、自動問答、文本摘 要和機器翻譯5個 NLP熱門領域. 本文第2節簡要介紹了一些典型的 PLM,包括國內外的 單語和多語 PLM;第3節總結了一些基于 PLM 的信息提取 方法;第4節回顧了一些基于 PLM 的情感分析技術;第5節 考察了用于問答系統的 PLM 模型;第6節討論了基于 PLM 的文本摘要方法;第7節評論了一些關于PLM 的機器翻譯的 研究;第8節討論了未來工作的挑戰;最后總結全文.
盡管在過去的幾年里,深度學習模型在許多不同的領域取得了巨大的成功,但通常數據匱乏,在不可見的樣本上表現不佳,而且缺乏可解釋性。目標領域往往存在各種先驗知識,利用這些先驗知識可以彌補深度學習的不足。為了更好地模仿人類大腦的行為,人們提出了不同的先進方法來識別領域知識并將其集成到深度模型中,以實現數據高效、可泛化和可解釋的深度學習,稱為知識增強深度學習(KADL)。
在本綜述中,我們定義了KADL的概念,并介紹了它的三個主要任務,即: 知識識別、知識表示和知識整合。與現有的專注于特定類型知識的綜述不同,我們提供了領域知識及其表示的廣泛而完整的分類法。基于我們的分類法,我們對現有的技術進行了系統的回顧,不同于現有的綜述集成方法對知識分類法的不可知的工作。該綜述包含了現有的工作,并提供了知識增強深度學習一般領域的研究概覽。對大量論文的全面和批判性的回顧不僅有助于了解當前的進展,而且有助于確定知識增強深度學習的未來研究方向。
1. 概述
盡管現有的深度模型在各個領域都取得了令人印象深刻的性能,但它們存在一些嚴重的缺陷,包括數據依賴性高和泛化[1]差。這些缺陷主要源于模型的數據驅動特性以及它們無法有效利用領域知識。為了解決這些限制,知識增強深度學習范式開始引起研究人員的注意,通過該范式,領域知識和可觀察數據協同工作,產生數據高效、可泛化和可解釋的深度學習算法。 現實世界的領域知識是豐富的。在深度學習背景下,領域知識主要來源于兩個來源:目標知識和度量知識。目標知識控制著我們想要預測的目標變量的行為和屬性,而度量知識控制著產生目標變量的觀察數據的底層機制。基于其表示,本文提出將深度學習中探索的領域知識分為兩類:科學知識和經驗知識。科學知識代表了在某一領域中已經確立的支配目標變量的屬性或行為的規律或理論。相比之下,經驗知識是指從長期觀察中提取的眾所周知的事實或規則,也可以通過人類的推理推斷出來。知識可以用各種格式表示和組織。科學知識通常可以用數學方程來精確地表示。另一方面,經驗知識通常不太正式,如通過邏輯規則、知識圖譜或概率依賴。在深度學習框架中,不同表示形式的知識通過不同的集成方法與數據集成。 由于認識到當前深度學習的不足,人們對捕獲先驗知識并將其編碼到深度學習中越來越感興趣。兩種主流技術是神經符號集成和物理成形深度學習。神經符號集成模型主要是將經驗知識編碼到傳統的符號AI模型中,并將符號模型與深度學習模型進行集成。基于物理的深度學習側重于將各種理論物理知識編碼到不同的深度學習階段。目前在這一領域的研究論文的范圍有限,因為他們關注的要么是神經符號模型,要么是基于物理的機器學習方法,而忽略了許多其他相關的工作。具體而言,現有的神經符號模型綜述主要包括對邏輯規則或知識圖譜的討論,以及它們與深度模型[2]、[3]的融合。然而,現有的關于基于物理的機器學習的調研僅限于一個特定的科學學科,并且集成方法通常是特定于任務的,例如,物理[4],[5],信息物理系統[6],幾何[7]和化學[8]。因此,這些綜述集中在實驗室環境下解決科學問題的方法上,缺乏對現實世界應用的討論。為了解決這一局限性,我們對現有的知識增強深度學習研究進行了全面而系統的綜述。我們的綜述有三個方面的貢獻:
本綜述建立了一種新的領域知識分類方法,包括科學知識和經驗知識。我們的工作包含了現有的工作,這些工作關注特定學科領域知識的子集[4]-[8]。
本綜述涵蓋了廣泛的知識表示和集成方法與系統分類。它不同于現有的關于一般集成技術的綜述,后者不確定領域知識的分類[9]-[13]。
本綜述涵蓋的方法不僅適用于在實驗室環境下解決科學問題,更重要的是,適用于現實世界的應用任務。這項綜述不局限于特定的應用任務,它涉及從計算機視覺到自然語言處理的任務。因此,我們的綜述不僅引起了深度學習研究者的興趣,也引起了不同領域的深度學習實踐者的興趣。
我們組織這次綜述如下。在第二節中,我們首先介紹了KADL的概念,并定義了三個基本任務(即知識識別、知識表示和知識集成)。然后我們回顧了KADL方法,其中我們根據它們的重點領域知識對不同的技術進行了分類:1)第三節中的帶有科學知識的深度學習,2)第四節中的帶有經驗知識的深度學習。在每個類別中,我們確定了領域知識、它的表示格式,以及為知識與數據的集成提出的現有方法。表一概述了現有的知識增強深度學習方法。
2. 知識增強深度學習
知識增強深度學習的主要任務包括知識識別、知識表示和知識集成到深度模型中。
3. 用科學知識進行深度學習
深度學習模型在先進的科學和工程領域越來越重要,而這些領域傳統上是由機械(如第一原理)模型主導的。這類模型對于那些發生機制尚未被專家很好理解的科學問題,或者那些精確解在計算上不可行的問題,產生了特別有希望的性能。然而,現有的深度學習需要大量帶注釋的數據,對新數據或設置的泛化能力很差。在將科學和工程中的傳統方法與現有的數據驅動的深度模型相結合方面,研究界有越來越多的共識。帶有科學知識的深度學習探索了經典機制模型和現代深度模型之間的連續統一體。在機器學習領域,將科學知識整合到深度學習(也稱為基于物理的機器學習)中,以產生物理上一致的、可解釋的預測,并降低數據依賴性的努力越來越多。在下面,我們首先確定科學知識的類型及其表征。然后介紹了將科學知識與深度模型集成的不同方法。
4. 基于經驗知識的深度學習
除了科學知識外,經驗知識被廣泛認為是神經符號模型的主要知識來源。經驗知識是指日常生活中眾所周知的事實,描述一個對象的語義屬性或多個對象之間的語義關系。它通常是直觀的,是通過長時間的觀察或完善的研究得出的。與科學知識不同,經驗知識雖然廣泛存在,但具有描述性和不精確性。包含語義信息的經驗知識可以作為深度學習中預測任務(如回歸或分類任務)的強大先驗知識,特別是在小數據環境下,僅訓練數據不足以捕獲變量之間的關系[65]。
預訓練模型主要從海量未標注、無結構化的數據中學習,但缺少外部知識指導,存在模型學習效率不高、模型效果不佳和知識推理能力 受限等不足。如何在預訓練模型中引入語言知識、世界知識等外部知識,提升模型效果以及知識記憶和推理能力是一個難題。本文對知識增強預訓練語言模型(KE-PLMs)進行了全面的綜述。
預訓練語言模型通過自監督學習方法在大型文本語料庫上進行訓練,在自然語言處理(NLP)的各種任務中取得了良好的性能。然而,盡管具有大參數的PLM可以有效地擁有從大量訓練文本中獲得的豐富知識,并在調優階段對下游任務有利,但由于缺乏外部知識,它們仍然存在推理能力差等局限性。研究人員致力于將知識整合到PLM中,以解決這些問題。在這篇論文中,我們對知識增強預訓練語言模型(KE-PLMs)進行了全面的綜述,以提供對這一蓬勃發展的領域的清晰洞察。我們分別介紹了自然語言理解(NLU)和自然語言生成(NLG)的適當分類法,以突出自然語言處理的這兩個主要任務。對于NLU,我們將知識類型分為四類:語言知識、文本知識、知識圖譜(KG)和規則知識。用于NLG的KE-PLMs分為基于KG的方法和基于檢索的方法。最后,我們指出了KE-PLMs未來的發展方向。
//www.zhuanzhi.ai/paper/d29c4e105f7150131e1347d799681e73
1.概述
近年來,隨著深度學習技術的不斷發展,在海量文本語料庫上以無監督目標訓練的預訓練語言模型(Pre-trained Language Model, PLM)被廣泛應用于自然語言處理(Natural Language Processing, NLP)領域,并在各種下游任務上取得了最先進的性能。與傳統的監督學習不同的是,基于自監督學習的plm通常先對通用的大規模無標記數據進行預訓練,然后針對特定任務對小規模標記數據進行微調。BERT[1]、GPT[2]、T5[3]等代表工作在眾多自然語言理解(NLU)和自然語言生成(NLG)任務中不斷刷新基準記錄,成功推動了自然語言處理(NLP)的發展。
隨著PLMs的規模越來越大,擁有數億個參數的PLMs已被廣泛認為能夠在某些探測中捕獲豐富的語言[4]、[5]、[6]和事實知識[7]、[8]。然而,由于缺乏原始數據中知識的顯式表示,PLM在下游任務上的性能受到限制。特別是,先前的研究發現,傳統的預訓練目標往往具有較弱的符號推理能力[9],因為PLM傾向于集中于詞共現信息。將知識整合到plm中可以增強他們的記憶力和推理能力。例如,在“the monument to the people 's Heroes莊嚴地坐在[MASK] square”的語言理解問題中,傳統PLM預測蒙面位置的輸出為“the”,而知識增強PLM預測的輸出為“天安門”,準確率更高。
對于語言生成,雖然現有PLMs能夠從文本語料庫中獲取豐富的語言信息并生成正確的句子,但由于忽略了外部世界知識[11],幾乎所有PLMs都無法生成面向捕捉人類常識的輸出。換句話說,PLMs生成的句子往往符合語法規范,但不符合邏輯。例如,給定一個概念集{hand, sink, wash, soap}來生成一個句子,傳統的PLM可能會生成“hands washing soap on the sink”,而具有額外知識的PLM生成“man is wash his hands with soap in a sink”,這更自然、更符合邏輯。
為了解決上述問題,將知識明確地融入PLMs已經成為最近NLP研究的一個新興趨勢。Wei等人[12]從三個方面回顧了知識增強的PLM:知識來源類型、知識粒度和應用。Yin等人總結了基于預訓練語言模型的知識增強模型(PLMKEs)的最新進展,根據PLMKEs的三個關鍵元素: 知識來源、知識密集型NLP任務和知識融合方法。在本研究中,考慮到在語言模型中注入知識可以促進NLU和NLG任務的完成,而這兩個領域的重點不同,我們旨在對這兩個領域的知識增強預訓練語言模型(知識增強預訓練語言模型,KEPLMs)進行綜合綜述,以提供知識增強預訓練語言模型在NLU和NLG中的各自見解。
本綜述的主要貢獻可歸納如下: (1) 在本次綜述中,我們將KE-PLMs 按照下游任務分為兩大類:NLU和NLG。本文分別提出了適當的分類法,以突出說明自然語言處理中這兩種不同任務的重點。
(2) 對于NLU,根據知識類型將KE-PLMs進一步劃分為語言知識、文本知識、知識圖(KG)和規則知識四個子類別。對于NLG,基于知識來源,將KE-PLMs 進一步分為基于檢索的方法和基于KG的方法。圖1顯示了我們為NLU和NLG提出的分類法。
(3) 討論了未來可能解決KE-PLMs存在的問題和挑戰的一些可能的方向。
本文的其余部分安排如下。在第二節中,我們介紹了自然語言處理中訓練范式發展下PLM的背景。在第三節中,我們介紹了NLU領域中KE-PLM的分類。在第4節中,我們介紹了在NLG領域的KE-PLM的分類。對于NLU和NLG領域,我們討論了分類法中每個葉類的代表性工作。在第五部分中,基于現有的局限性和挑戰,我們提出了未來KE-PLM可能的研究方向。最后,我們在第6節中進行總結。
2. 知識增強預訓練語言模型自然語言理解
NLU是NLP的一個組成部分,涉及使機器能夠理解和解釋文本數據內容的所有方法。它從非結構化文本中提取核心語義信息,并將這些信息應用于下游任務,因此在文本分類、關系提取、命名實體識別(NER)和對話系統等應用程序中發揮著重要作用。根據圖1所示的分類法,我們將為NLU任務設計的KE-PLM所包含的知識按照不同的類型分為以下四類: 語言知識、文本知識、知識圖譜和規則知識。對于每一類,我們討論了其代表性的方法。
語言知識
知識圖譜:
3. 知識增強預訓練語言模型自然語言生成****NLG的目標是使機器能夠生成人類能理解的語言文本,并遵循人類表達自己的方式。
在生成模型中加入各種形式的知識,而不是輸入序列,有助于提高文本生成任務的性能。參考知識增強文本生成[32]的綜述,我們進一步將NLG領域的KE-PLM根據其不同的知識來源分為兩類:一類是基于檢索的方法,另一類是基于kg的方法。
4. 未來發展方向
在本節中,我們提出了未來KE-PLMs可能的研究方向,以應對目前存在的問題和挑戰。 * 整合同質源和異構源的知識 * 探索多模態知識 * 提供可解釋性證據 * 持續學習知識 * 優化知識整合到大模型中的效率 * 增加生成結果的多樣性
大型的、預訓練的基于Transformer的語言模型,如BERT,已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研,這些研究使用了大型語言模型來解決NLP任務,通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法,用于訓練增強或其他目的。最后,我們討論了局限性,并提出了未來研究的方向。
引言
近年來,大型預訓練的基于Transformer的語言模型(PLMs),如BERT (Devlin et al., 2019)和GPT (Radford et al., 2018)系列模型席卷了自然語言處理(NLP),在許多任務中實現了最先進的性能。
這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x,然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al., 2015)。注意,每個新的NLP任務都需要重新學習潛在特征表示,而且在許多情況下,訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的,我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示,然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞,這是一項具有大量自然出現的文本的通用任務,可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上,最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務,研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調,提示PLMs執行期望的任務,或者將任務重新構造為文本生成問題,并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。
本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:
先進行預訓練,然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練,然后對感興趣的任務進行少量的任務特定微調。
基于提示的學習(§3):提示一個PLM,這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞),或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識,從而產生“少樣本”的方法。
NLP作為文本生成(§4): 將NLP任務重新定義為文本生成,以充分利用生成語言模型(如GPT-2 (Radford et al., 2019)和T5 (Raffel et al., 2020)中編碼的知識。
生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研,如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明,本文主要關注非生成性任務(如分類、序列標注和結構預測),這些任務仍然涵蓋廣泛的NLP任務,包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外,還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:
數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據,通常生成的PLM是針對任務進行微調的,或者是一些輔助數據,如反例、澄清、上下文或其他。在第一種情況下,銀色標記數據可以添加到現有的標記數據中。在第二種情況下,輔助數據以某種方式支持目標任務。
論文組織如下: 第2節提供了PLM的背景,并描述了第一種范式,即預訓練然后微調。第三節討論第二種范式,即基于提示的學習。第4節總結了第三種范式,即作為文本生成的NLP。在第5節中,我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向,并在第7節進行總結。
范式1: 先訓練,然后微調
傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型,而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型,然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務,它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中,我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識,然后描述使用凍結或微調PLM進行NLP任務的方法。
范式2: 基于提示的學習
我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法,以鼓勵預訓練的模型執行特定任務(Yuan et al., 2021)。使用提示符有幾個優點。提示,特別是上下文學習(例如Brown et al., 2020),可能不需要更新PLM的參數,與微調方法相比,或在2.4.4中描述的基礎上,減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合,從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al., 2021b),特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后,提示允許以一種不受監督的方式探索PLM,以評估PLM對特定任務所獲得的知識(如Petroni et al., 2019)。
下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。
范式3 NLP即文本生成
基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功,最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務,如分類和結構預測。例如,圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同,這些任務被重新表述為文本生成問題,從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息,從而能夠準確地重構預期的類標簽(即避免映射中的歧義),并促進生成/解碼過程(即為預測提供足夠的上下文)。
總結
在這篇文章中,我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述,并對其應用前景進行了總結。此外,我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。
摘要
預訓練語言模型(Pretrained Language Models, PLM)通過在大規模文本語料庫上學習信息語境化表示,建立了一種新的范式。這種新的范式已經徹底改變了整個自然語言處理領域,并為各種NLP任務設置了新的最先進的性能。然而,盡管PLM可以從訓練語料庫中存儲一定的知識/事實,但它們的知識意識還遠遠不能令人滿意。為了解決這個問題,將知識集成到PLM中已經成為一個非常活躍的研究領域,并且已經開發了各種各樣的方法。在本文中,我們對這一新興和快速發展的領域-知識增強的預訓練語言模型(KE-PLMs)提供了一個全面的文獻綜述。我們引入三種分類法來對現有工作進行分類。此外,我們還調研了各種NLU和NLG應用,在這些應用上,KE-PLM表現出了優于普通PLM的性能。最后,討論了KE-PLMs面臨的挑戰和未來的研究方向。
引言
近年來,大規模預訓練語言模型(大規模預訓練語言模型,簡稱PLM)給自然語言處理領域帶來了革命性的變化。預先訓練的模型如BERT [16], RoBERTa [50], GPT2/3[68][7]和T5[69]獲得了巨大的成功,極大地提升了各種NLP應用的最先進性能[67]。前訓練在NLP中的廣泛成功也啟發了自我監督前訓練在其他領域的應用,如圖表示學習[30][31]和推薦系統[81][98]。對大量文本數據的訓練也使這些plm能夠記住訓練語料庫中包含的某些事實和知識。最近的研究表明,這些經過訓練的語言模型可以擁有相當數量的詞匯知識[48][92]和事實知識[63][71][95]。然而,進一步的研究發現,PLM在知識意識方面也存在以下局限性:
對于NLU來說,最近的研究發現PLM傾向于依賴于表面信號/統計線索[62][55][58],并且很容易被否定的信息(例如,“Birds can [MASK]”vs .“Birds cannot [MASK]”)和錯誤啟動的探針[35]所愚弄。此外,已有研究發現,PLM在推理任務中往往會失敗[84]。
對于NLG,盡管PLM能夠生成語法正確的句子,但生成的文本可能不符合邏輯或不合理。例如,在[46]中提到,給定一組概念{dog, frisbee, catch, throw}, GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”,這兩者都不符合人類的常識。
這些觀察結果促使人們設計更有知識意識的預訓練模型。最近,越來越多的研究致力于明確地將知識納入PLMs[100][108][61][90][96][49][33]。他們利用百科知識、常識知識和語言知識等多種來源,采用不同的注入策略。這種知識集成機制成功地增強了現有PLM的知識意識,提高了包括但不限于實體輸入[100]、問題回答[101][45]、故事生成[22]和知識圖完成[102]在內的各種任務的性能。
本文旨在對這一新興領域的知識增強預訓練語言模型(KE-PLMs)進行全面綜述。現有的KE-PLMs工作已經開發了一套不同的技術,用于在不同的知識來源上進行知識集成。為了深入了解這些模型并促進未來的研究,我們構建了三種分類法來對現有的KE-PLMs進行分類。圖1說明了我們提出的關于知識增強預訓練語言模型(KE-PLMs)的分類法。在現有的KE-PLMs中,已經探索了不同類型的知識來源(如語言學、常識、百科全書、特定應用),以增強PLMs在不同方面的能力。第一種分類法幫助我們理解在構建KE-PLMs時考慮了哪些知識來源。在第二種分類法中,我們認識到一個知識源可以被不同程度地利用,并基于知識粒度對已有的工作進行分類: 基于文本塊、基于實體、基于關系三元和基于子圖。最后,我們介紹了第三種分類法,它根據方法的應用領域對它們進行分組。這種分類法展示了現有的KE-PLMs在知識集成的幫助下旨在改進的一系列應用。通過認識到哪些應用領域已經被KE-PLMs很好地解決了,我們相信這將為未來將KE-PLMs應用于未解決領域的研究機會提供支持。
BERT、GPT 等大規模預訓練模型(PTM)最近取得了巨大成功,成為人工智能領域的里程碑。由于復雜的預訓練目標和龐大的模型參數,大規模 PTM 可以有效地從大量標記和未標記的數據中捕獲知識。通過將知識存儲到大量的參數中并對特定任務進行微調,大量參數中隱式編碼的豐富知識可以使各種下游任務受益,這已通過實驗驗證和實證分析得到廣泛證明。現在人工智能社區的共識是采用 PTM 作為下游任務的支柱,而不是從頭開始學習模型。
在本文中,我們深入研究了預訓練的歷史,尤其是它與遷移學習和自監督學習的特殊關系,以揭示 PTM 在 AI 開發領域中的關鍵地位。此外,我們全面回顧了 PTM 的最新突破。這些突破是由計算能力的激增和數據可用性的增加推動的,朝著四個重要方向發展:設計有效的架構、利用豐富的上下文、提高計算效率以及進行解釋和理論分析。最后,我們討論了 PTMs 的一系列開放問題和研究方向,希望我們的觀點能夠啟發和推動 PTMs 的未來研究。
近年來,預訓練模型(PTMs)的出現將自然語言處理(NLP)帶入了一個新的時代。在這項綜述中,我們提供了一個全面的PTMs調研。首先簡要介紹了語言表示學習及其研究進展。然后,我們根據四種觀點對現有的PTMs進行了系統的分類。接下來,我們將描述如何將PTMs的知識應用于下游任務。最后,我們概述了未來PTMs研究的一些潛在方向。本調查旨在為理解、使用和開發各種NLP任務的PTMs提供實際指導。
1. 概述
隨著深度學習的發展,各種神經網絡被廣泛用于解決自然語言處理(NLP)任務,如卷積神經網絡(convolutional neural networks, CNNs)[75,80,45]、遞歸神經網絡(neural networks, RNNs)[160, 100]、基于圖的神經網絡(graphbased neural network, GNNs)[146, 161, 111]和注意力機制[6,171]等。這些神經模型的優點之一是能夠緩解特征工程問題。非神經NLP方法通常嚴重依賴于離散的手工特征,而神經方法通常使用低維和稠密的向量(又稱分布式表示)隱式地表示語言的語法或語義特征。這些表示是在特定的NLP任務中學習的。因此,神經方法使人們可以很容易地開發各種NLP系統。
盡管神經模型在NLP任務中取得了成功,但與計算機視覺(CV)領域相比,性能改進可能不那么顯著。主要原因是,當前用于大多數監督的NLP任務的數據集相當小(機器翻譯除外)。深度神經網絡通常具有大量的參數,使其對這些小的訓練數據過度擬合,在實際應用中泛化效果不佳。因此,許多NLP任務的早期神經模型相對較淺,通常只包含1 ~ 3個神經層。
最近大量的工作表明,在大型語料庫上的預訓練模型(PTMs)可以學習通用語言表示,這對后續的NLP任務是有益的,可以避免從零開始訓練新模型。隨著計算能力的發展,深層模型(即隨著訓練技能的不斷提高,PTMs的體系結構由淺向深推進。第一代PTM的目標是學習好的詞嵌入。由于下游任務不再需要這些模型本身,它們在計算效率方面通常非常膚淺,如Skip-Gram[116]和GloVe[120]。雖然這些預訓練的嵌入可以捕獲單詞的語義含義,但它們是上下文無關的,不能捕獲文本的高級概念,如語法結構、語義角色、回指等。第二代PTMs主要學習上下文詞嵌入,如CoVe[113]、ELMo[122]、OpenAI GPT[130]、BERT[32]等。這些學習過的編碼器仍然需要在上下文中通過下游任務來表示單詞。此外,還提出了各種預訓練的任務,以學習PTMs的不同目的。
這篇綜述的貢獻可以總結如下:
3.資源豐富。我們在PTMs上收集了豐富的資源,包括開源系統、論文列表等。
綜述的其余部分組織如下。第2節概述了PTMs的背景概念和常用符號。第3節簡要概述了PTMs,并澄清了PTMs的分類。第4節提供了PTMs的擴展。第5節討論如何將PTMs的知識遷移到下游任務。第6節給出了PTMs的相關資源,包括開源系統、論文列表等。第7節介紹了跨各種NLP任務的應用程序集合。第8節討論了當前的挑戰并提出了未來的方向。第9節對本文進行了總結。
2. 背景
2.1 語言表示學習
分布式表示的核心思想是用低維實值向量來描述文本的意義。而向量的每一個維度都沒有對應的意義,而整體則代表一個具體的概念。圖1說明了NLP的通用神經體系結構。詞嵌入有兩種:非上下文嵌入和上下文嵌入。它們之間的區別是,一個詞的嵌入是否根據它出現的上下文動態變化。
2.2 神經上下文編碼器
大部分的神經上下文編碼器可以分為三類:卷積模型、序列模型和基于圖的模型。圖2說明了這些模型的體系結構。
(1) 卷積模型。卷積模型采用單詞在輸入句中的嵌入,通過卷積運算將相鄰詞的局部信息聚合起來,從而獲取單詞的意義[80]。卷積模型通常易于訓練,能夠捕獲局部上下文信息。
(2 )序列模型。序列模型通常采用rns(如LSTM[60]和GRU[21])來捕獲單詞的上下文表示。在實踐中,雙向RNNs被用來收集單詞兩邊的信息,但其性能往往受到長期依賴問題的影響。
(3) 基于圖模型。與上述模型不同的是,基于圖的模型以單詞為節點,學習單詞之間具有預定義語言結構的上下文表示,如句法結構[146,161]或語義關系[111]。
2.3 為什么要預訓練?
隨著深度學習的發展,模型參數的數量迅速增加。需要更大的數據集來充分訓練模型參數并防止過度擬合。然而,對于大多數NLP任務來說,構建大規模的標記數據集是一個巨大的挑戰,因為注釋成本非常昂貴,特別是對于語法和語義相關的任務。
相比之下,大規模的未標記語料庫相對容易構建。為了利用巨大的未標記文本數據,我們可以首先從它們那里學習良好的表示,然后將這些表示用于其他任務。最近的研究表明,借助從大型無注釋語料庫的PTMs中提取的表示,許多NLP任務的性能都有顯著提高。
預訓練的好處可以總結如下:
3. 預訓練語言模型分類
為了明確現有PTMs與NLP之間的關系,我們構建了PTMs的分類法,該分類法從不同的角度對現有PTMs進行了分類: (1) PTMs使用的單詞表示類型,(2) PTMs使用的主干網絡,(3) PTMs使用的預訓練任務類型,(4) 為特定類型的場景或輸入設計的PTMs。圖6顯示了分類以及一些相應的代表性PTMs。
此外,表1詳細區分了一些有代表性的PTMs。
4. 預訓練語言模型擴展
4.1 知識增強的PTMs
PTMs通常從通用的大型文本語料庫中學習通用語言表示,但缺乏領域特定的知識。將來自外部知識庫的領域知識整合到PTM中已被證明是有效的。外部知識范圍從語言學[87,78,123,178],語義[92],常識[48],事實[199,123,101,188,182],到具體領域的知識[54]。
4.2 多模態PTMS 由于PTMs在許多NLP任務上的成功,一些研究集中在獲得PTMs的跨模態版本上。這些模型中的絕大多數是為一般的視覺和語言特征編碼而設計的。這些模型是在一些巨大的跨模態數據語料庫上進行預訓練的,例如帶有口語單詞的視頻或帶有字幕的圖像,結合擴展的預訓練任務來充分利用多模態特征。VideoBERT[152]和CBT[151]是視頻和文本的聯合模型。為了獲得用于預訓練的視覺和語言標記序列,視頻分別由基于cnn的編碼器和現成的語音識別技術進行預處理。在處理后的數據上訓練一個變壓器編碼器,以學習下游任務(如視頻字幕)的視覺語言表示。此外,UniViLM[109]提出引入生成任務來進一步預訓練下游任務中使用的解碼器。
4.3 模型壓縮
應用基準、機器翻譯、問答、情感分析、摘要、命名實體識別
(1) PTMs的上界
目前,PTMs還沒有達到其上限。現有的PTMs大多可以通過更多的訓練步驟和更大的語料庫來進一步完善。
通過增加模型的深度可以進一步提高NLP的技術水平,如Megatron-LM144和Turing-NLG(170億個參數,78個隱藏尺寸為4256和28個注意頭的Transformer層)。
通用型PTM一直是我們學習語言固有的通用知識(甚至是世界知識)的追求,但此類PTM通常需要更深入的體系結構、更大的語料庫和更具挑戰性的訓練前任務,這又進一步導致了更高的訓練成本。然而,訓練大模型也是一個具有挑戰性的問題,需要更復雜、更高效的訓練技術,如分布式訓練、混合精度、梯度積累等。因此,更實際的方向是使用現有的硬件和軟件設計更有效的模型架構、自我監督的訓練前任務、優化器和訓練技能。ELECTRA[22]是這個方向的一個很好的解決方案。
(2) 面向任務的預訓練和模型壓縮
在實踐中,不同的下游任務需要不同的PTMs能力。PTMs與下游任務之間的差異通常表現在兩個方面:模型體系結構和數據分布。較大的差異可能導致PTMs的益處可能不明顯。盡管較大的PTM通常可以帶來更好的性能,但一個實際問題是如何在特殊場景(如低容量設備和低延遲應用程序)中利用這些巨大的PTM。因此,我們可以為下游任務精心設計特定的模型架構和預訓練任務,或者從現有的PTMs中提取部分特定于任務的知識。
此外,我們可以通過使用模型壓縮等技術,用通用的現有PTM來教他們,而不是從頭開始訓練面向任務的ptm(參見4.3節)。雖然在CV[17]中,針對CNNs的模型壓縮已經得到了廣泛的研究,但針對NLP的PTMs的模型壓縮才剛剛開始。Transformer 的全連接結構也使模型壓縮更具挑戰性。
(3) PTMs架構
Transformer已被證明是一種有效的預訓練體系結構。然而,Transformer 的主要限制是它的計算復雜度,它是輸入長度的平方。由于GPU內存的限制,目前大多數PTM不能處理512個標記以上的序列。打破這一限制需要改進Transformer的架構,比如Transformer- xl[27]。因此,為PTMs搜索更有效的模型體系結構對于捕獲更長期的上下文信息非常重要。
深度架構的設計具有挑戰性,我們可以從一些自動化方法中尋求幫助,如神經架構搜索(neural architecture search, NAS)[205]。
(4)超越微調的知識遷移
目前,將PTMs的知識傳遞給下游任務的主要方法是微調,但其缺點是參數效率低下:每個下游任務都有自己的微調參數。一種改進的解決方案是對原有PTMs的參數進行修正,并為特定的任務添加小的可調自適應模塊[149,61]。因此,我們可以使用一個共享的PTM來服務多個下游任務。事實上,從PTMs中挖掘知識可以更加靈活,如特征提取、知識提取[195]、數據擴充[185,84],利用PTMs作為外部知識[125]等。期望有更有效的方法。
(5) PTMs的可解釋性和可靠性
雖然PTM的性能令人印象深刻,但其深層的非線性架構使得決策過程高度不透明。
近年來,可解釋人工智能[4]已經成為人工智能領域的一個研究熱點。與用于圖像的CNN不同,由于Transformer的架構和語言的復雜性,解釋PTMs更加困難。人們做了大量的工作(見3.3節)來分析PTMs中包含的語言和世界知識,這有助于我們以某種程度的透明性理解這些PMTs。然而,許多模型分析工作依賴于注意力機制,注意力對可解釋性的有效性仍存在爭議[66,142]。
此外,隨著PTMs在生產系統中的廣泛應用,PTMs的可靠性也成為一個備受關注的問題。深層神經模型容易受到對抗性樣本的影響,這些例子可能會誤導模型,使其產生一個特定的錯誤預測,而這種預測會受到來自原始輸入的難以察覺的干擾。在CV中,對抗性攻擊和防御被廣泛研究。然而,由于語言的離散性,文本仍然面臨著挑戰。為文本生成對抗性樣本需要具備以下品質:(1)不易被人類法官察覺,但容易被神經模型誤導;(2)語法流利,語義與原輸入一致。Jin等人[71]用對抗性的例子成功地在文本分類和文本蘊涵方面攻擊了經過微調的BERT。Wallace等人[175]定義了通用的對抗觸發器,當將模型連接到任何輸入時,該觸發器可以誘導模型產生特定目的的預測。有些觸發器甚至會導致GPT-2模型生成帶有種族主義色彩的文本。對PTM進行對抗性攻擊的研究有助于我們了解它們的能力,從而充分暴露它們的弱點。Sun等人[155]的研究表明,BERT對拼寫錯誤并不敏感。此外,針對PTMs的對抗防御也很有前途,它提高了PTMs的魯棒性,使其對對抗攻擊免疫。
總的來說,作為許多NLP應用中的關鍵組件,PTMs的可解釋性和可靠性在很多方面還有待進一步的探索,這有助于我們理解PTMs是如何工作的,并為更好的使用和進一步的改進提供指導。
參考文獻:
Akbik et al. [2018] Alan Akbik, Duncan Blythe, and Roland Vollgraf. Contextual string embeddings for sequence labeling. In COLING, pages 1638–1649, 2018.
Alberti et al. [2019] Chris Alberti, Jeffrey Ling, Michael Collins, and David Reitter. Fusion of detected objects in text for visual question answering. In EMNLP-IJCNLP, pages 2131–2140, 2019.
Alsentzer et al. [2019] Emily Alsentzer, John R. Murphy, Willie Boag, Wei-Hung Weng, Di Jin, Tristan Naumann, and Matthew B. A. McDermott. Publicly available clinical BERT embeddings. arXiv preprint arXiv:1904.03323, 2019.
Arrieta et al. [2020] Alejandro Barredo Arrieta, Natalia Díaz-Rodríguez, Javier Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado, Salvador García, Sergio Gil-López, Daniel Molina, Richard Benjamins, et al. Explainable artificial intelligence (xai): Concepts, taxonomies, opportunities and challenges toward responsible ai. Information Fusion, 58:82–115, 2020.
Baevski et al. [2019] Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, and Michael Auli.Cloze-driven pretraining of self-attention networks. In Kentaro Inui, Jing Jiang, Vincent Ng, and Xiaojun Wan, editors, EMNLP-IJCNLP, pages 5359–5368, 2019.