在自然語言處理(NLP)領域的最新進展中,大規模預訓練語言模型(PLMs)發揮了重要作用,這些模型基于深度 Transformer 神經網絡。這些PLMs通過在大量無標簽文本上使用自監督學習技術進行模型的整體訓練,同時學習上下文化的單詞表示和語言建模,引發了一種范式轉變,將我們的焦點從為不同任務定制不同模型轉向將一個PLM適應所有任務。研究如何將通用PLM適應到特定的感興趣領域對于PLMs的部署具有重大意義。主流做法是在目標領域的標注數據集上對PLM進行微調,并使用特定任務的頭部。然而,對于大多數目標應用,標注數據有限,甚至在許多資源稀缺的場景中十分稀缺。PLM中的大量參數常常使這些小數據集難以利用語言先驗的力量。因此,即使在同一任務下,當一個在一個數據集上微調的PLM應用到具有一些領域間隙的另一個數據集時,由于過度擬合之前的訓練集,它有時會遇到性能下降。這種現象阻礙了PLMs在實踐中的廣泛應用,尤其是在面對新領域時,需要增強PLMs在適應過程中的泛化性能的方法,而無需請求更多的標注數據。
早期的領域適應方法,利用類似的源領域來提高目標領域上的模型性能,是基于使用傳統神經網絡(如LSTMs)的定制模型開發的。這些模型較淺,需要更長的訓練時間才能收斂,并且與PLMs相比沒有先驗知識。研究表明,一些流行的領域適應方法甚至可能損害PLMs在目標領域上的泛化性能。PLMs的獨特特性,如前所未有的規模、豐富的語言先驗和許多迄今為止未被深入探索的技能,可能成為無法控制的因素,使它們表現出與傳統模型不同的學習行為。為此,需要開發PLMs的算法,以提高它們的領域適應性能,從而加速它們在實際場景中的廣泛應用。
本論文的目標是探索可以高效利用目標領域標簽數據的技術,通過有效地從類似的源領域向目標領域轉移知識,更好地將給定的PLM適應到感興趣的目標領域。為了實現這個目標,我從機器學習流程中的三個角度進行研究,每個角度都假定只有特定的位置可以用可用的計算資源進行更新。也就是說,我們保持所有其他條件不變,只對輸入數據、模型表示和輸出預測分別進行更新。我們展示了如何在每個場景下用目標領域的有限標注數據獲得更好的泛化性能。總的來說,我們提出了一個新的算法,使用領域適應目標生成對抗性擾動,以增強在低資源場景下軟提示調優的可轉移性,一個新的模型優化算法,當優化任務分類器以適應競爭損失時,考慮對抗性領域判別器的下一步梯度,以及一個新的聯邦學習框架,校準條件概率分布,以在不同標簽分布下將同一PLM適應到多個領域。我們在以下章節中詳細介紹了具體問題、相關工作、詳細方法、廣泛實驗和深入討論,并闡明了如何在迎合新興學習范式的同時,依據傳統的機器學習方法。
我們在實踐中部署高性能神經網絡時面臨許多挑戰。這些挑戰主要是由于神經網絡的規模,既適用于訓練也適用于推理。因此,壓縮神經網絡以使其訓練和運行更高效至關重要,并自神經網絡發展初期以來一直是研究的平行方向。深度學習中的兩種主要壓縮技術是剪枝和量化,它們是本論文的重點。本論文探討了如何利用高階梯度(元梯度)的信息來改進深度學習壓縮。我們首先發現剪枝公式中的一個根本性限制:盡管許多方法(如基于顯著性的剪枝)在剪枝后進行訓練或微調階段,但參數顯著性只關注參數的一個快照,而沒有考慮到參數的可訓練性。我們展示了如何使用元梯度作為更具信息量的信號,在初始化時找到更好的可訓練子網絡。接下來,我們研究量化神經網絡,并展示了如何在正則化方案中使用元梯度來學習具有對訓練后量化固有魯棒性的模型。最后,我們研究雙重壓縮問題,即使用神經網絡壓縮數據源。我們從圖像開始,提出了一種簡單的無自編碼器架構,其中我們存儲神經網絡的權重而非圖像像素的RGB值。然后,我們使用元梯度來元學習一個基礎網絡,以攤銷每個輸入訓練一個網絡的成本。我們學習壓縮的一個顯著優勢是它變得對數據類型不可知,并且我們展示了在2D圖像之外的各種數據類型上的結果。重要的是,我們評估了標準DNN壓縮技術(如量化)在這種新型神經網絡中的實用性。
1. 引言
近年來,深度學習的成功是由于幾個幾乎同時發生的突破和范式轉變而成為可能:訓練中采用反向傳播,卷積神經網絡的進步,大規模數據集的可用性,至關重要的是,由于GPU演變為通用、高度并行、多線程的計算平臺,計算能力的大幅提高。隨著算法和計算能力的不斷進步,訓練可以利用大量數據并在廣泛應用中做出非常有價值的預測的大型神經網絡現在已經是我們力所能及的事情。
然而,隨著我們進入一個希望在生活中越來越多的方面使用高性能神經網絡的時代,在實踐中部署它們面臨許多挑戰。這些挑戰主要是由于神經網絡的規模。現在,神經網絡很容易擁有數百萬或數十億個參數,并且沒有跡象表明我們的速度正在放緩,特別是在一些應用程序,如自然語言處理,我們還沒有看到縮放定律的結束。這可以在圖1.1中看到,它顯示了在兩個特定的視覺和自然語言處理任務中模型大小和性能的趨勢。 神經網絡的規模帶來的挑戰適用于訓練和推理。在推理方面,人們越來越希望在設備上私下運行模型。一些示例應用程序是語音到文本識別和自動字幕,其中模型必須在設備上實時運行。需要運行此類應用程序的設備通常是手機、嵌入式系統和物聯網設備,這些正是在內存、計算、延遲和能耗方面具有最嚴格要求的平臺類型。 除了推理之外,訓練也會受到神經網絡和數據集規模較大的阻礙。首先,與推理相比,訓練需要更多的內存。這是因為在訓練過程中,我們需要保留網絡生成的中間值,以便完成反向傳播。這也使得并行化變得困難,因為我們無法進行新的前向傳遞,直到梯度找到它們自己的路回到第一層。其次,訓練大型神經網絡比較小的模型更脆弱和不穩定。Zhang et al.(2022)最近發布了一個1750億參數的語言模型,除了模型參數,他們還包括訓練日志,這表明訓練如此大的模型涉及大量的工程。我們將在后續章節中看到,這對需要重新培訓或針對特定平臺的高效方法具有深遠影響。
因此,壓縮神經網絡以使其更有效地訓練和運行是至關重要的,自神經網絡發展早期以來一直是一個平行的研究方向(LeCun等人,1990a;Hassibi等人,1993b)。在介紹各種用于提高神經網絡效率的方法之前,有必要快速回顧一下在這個過程中我們關心的主要指標(Reagen等人,2017;Sze等人,2020):
準確性或模型性能。這個指標決定了我們在不影響模型性能的情況下提高模型效率的成功程度。準確率對于類平衡分類任務來說是一個合適的度量指標,本文中的大多數實驗都是這樣的,在其他任務中,準確率可以用其他指標來代替,以提高模型的性能。
能耗和動力。能耗指的是每單位能量可以處理的數據量,在使用電池供電的設備上運行時,能耗變得至關重要。它是決定裝置形狀因素的一個主要因素。另一方面,功率消耗是單位時間內消耗的能量,它決定了設備的冷卻要求。它與移動設備和服務器安裝都相關。
存儲和內存。需要更多的存儲和內存是神經網絡規模帶來的第一個挑戰。它是決定模型所需硅芯片面積的一個主要因素。
吞吐量和延遲;除了存儲權重和中間值之外,我們還需要足夠快地移動數據。延遲衡量的是這個要求,定義為從輸入數據到達模型到輸出結果的時間。它決定了模型是否可以實時運行,這在許多應用中至關重要,如機器人,自動駕駛和游戲。
要使神經網絡對這些指標有效,需要在每個堆棧級別進行優化。棧的一端是用于訓練和運行模型的硬件平臺。半導體制造工藝的不斷進步導致了更密集的晶體管,從而產生了更強大和更節能的芯片,但深度學習工作負載尤其影響了CPU和GPU的硬件設計,并產生了專門針對神經網絡的定制加速器。
本文的主要貢獻是研究了元梯度在各種壓縮任務中的應用。本文主要關注視覺應用中的神經網絡,并解決以下中心問題: 高階梯度的信息可以通過量化和修剪來改進深度神經網絡的壓縮嗎? 除了研究神經網絡的壓縮外,我們還研究了對偶壓縮問題,即用神經網絡壓縮數據,并解決以下問題:神經網絡的參數可以用于存儲和壓縮數據嗎?如果是,量化和剪枝技術是否仍然適用于此設置?
除了提供必要背景材料的第2章和總結工作的第6章外,本文的主要材料分為三章(如圖1.2所示),每一章都專注于一個壓縮任務。
最近在無監督表示學習方面的進展導致了許多廣泛使用的人工智能工具,如ChatGPT和穩定擴散。這些工具是將相對簡單的訓練算法應用于大規模GPU集群上的大規模模型,甚至是大量未標記的訓練數據,以及在大量標記的評估任務上調整算法的結果。在這篇論文中,我們提出了一些方法來解決在訓練模型進行表示學習時去除這些組件的問題,即有限的計算量、有限的訓練數據和有限的評估數據。本文主要分為四章,重點研究數據和標簽高效的表示學習。
數據高效表示學習的重點是用較少的數據(有標記或無標記)學習有用的表示,這在本文中討論過,對于數據可用性有限的應用特別重要。標記高效表示學習專注于在訓練數據很少或沒有人工標注的情況下學習有用的表示。正如將要討論的,這對于通常很難或不可能獲得準確標記數據的應用程序很重要,例如在隱私敏感領域或具有高度模糊的標簽定義的應用程序。
(1)自增強:用于自監督學習的自動增強策略,探索了如何在很少/沒有標記訓練數據和少量無標記數據的情況下為無監督學習管道開發增強策略。(2)數據高效的自監督表示學習,探索了如何利用一種形式的分層預訓練進行數據高效80倍的預訓練。(3)區域相似性表示學習,通過在區域(基于塊的)水平上進行對比學習,探索了學習區域級表示的首批方法之一,并在標記數據很少的情況下,對目標檢測/分割等下游任務進行了實質性的改進。(4) scale - mae:一種面向多尺度地理空間表示學習的尺度感知掩碼自編碼器,探索了利用已知尺度信息進行地理空間表示學習的方法。
**最近機器學習方法的大部分成功都是通過利用過去幾年產生的大量標記數據而實現的。**然而,對于一些重要的實際應用來說,如此大規模的數據收集仍然是不可行的。這包括機器人、醫療健康、地球科學和化學等領域,在這些領域獲取數據可能既昂貴又耗時。在本文中,我們考慮三個不同的學習問題,其中可以收集的數據量是有限的。這包括在在線學習期間限制對標簽、整個數據集和生成經驗的訪問的設置。本文通過采用序列決策策略來解決這些數據限制,這些策略在收集新數據和根據新獲得的證據做出明智的決策之間迭代。**首先,解決標簽獲取成本較高時如何高效地收集批量標簽的問題。**概率主動學習方法可用于貪婪地選擇信息量最大的待標記數據點。然而,對于許多大規模問題,標準的貪心算法在計算上變得不可行。為緩解這個問題,本文提出一種可擴展的貝葉斯批量主動學習方法,其動機是近似模型參數的完整數據后驗。
**其次,我們解決了自動化分子設計的挑戰,以加速對新藥物和材料的搜索。**由于迄今為止只探索了化學空間的一個小區域,可用于某些化學系統的數據量是有限的。本文通過將3D分子設計問題制定為強化學習任務,克服了生成模型對數據集的依賴,并提出了一種對稱感知策略,可以生成用以前方法無法實現的分子結構。
**最后,我們考慮了如何在不同任務中有效地學習機器人行為的問題。**實現這一目標的一個有希望的方向是在不同的任務上下文中泛化局部學習的策略。上下文策略搜索通過顯式地將策略約束在參數化上下文空間上,從而提供數據高效的學習和泛化。進一步構建上下文策略表示,在各種機器人領域實現更快的學習和更好的泛化。
**隨著大型模型的發展以及數據的爆炸性增長和可用性,深度學習在眾多現實應用中取得了巨大而廣泛的突破。**然而,深度學習模型通常具有過高的計算和內存成本,不適合在移動設備或邊緣設備上進行實際部署。此外,深度學習模型面臨著學習和快速適應的挑戰,從只有幾個例子來解決新的任務。因此,本文提出了學習計算效率高的模型架構的技術和提高少樣本學習能力的方法。**我們從子空間分析方法及其在特征選擇問題中的應用開始。然后將這些方法擴展到深度神經網絡結構學習(deep neural network structural learning, SL)中,目的是減少冗余參數,以獲得能夠保持甚至提高精度的最優降維模型。**還介紹了基于混合剪枝-再生長技術的更高效的SL方法和可以跨更多維度降低模型的更通用的SL方法。除了靜態模型設計之外,本文還提出了動態神經網絡方法,可以在推理過程中根據不同的輸入動態調整模型權重和結構,以控制計算效率并提高表示能力。除了模型效率外,還提出了訓練模型的技術,可以從幾個例子中快速泛化。本文提出一種少樣本架構自適應方法,通過元學習一個任務感知架構控制器,為不同的少樣本任務定制特定于任務的模型結構。與傳統的NAS方法需要對每個新任務進行單獨的搜索成本不同,所提出方法在一次性元訓練成本后,在幾分鐘內從GPU數據集中直接生成特定于任務的模型結構。最后,提出了一種基于語言輔助表示的掩碼圖像預訓練的跨模態自監督學習框架。由此產生的模型產生了高質量的可遷移表示,提高了許多計算機視覺任務的準確性,并對對抗性/分布外樣本表現出強大的魯棒性。所產生的模型適用于結構學習以獲得更大的計算效率,也適用于低資源任務適應以獲得更好的數據效率。
//dataspace.princeton.edu/handle/88435/dsp01p8418r442
自深度學習革命以來,機器學習文獻中的一個總體趨勢是大型深度模型將持續優于小型淺模型。然而,這種趨勢也帶來了計算需求不斷增加的缺點,最近許多最先進的成果所需的資源遠遠超出了頂級行業實驗室的范圍。這些問題引發了關于機器學習研究民主化的非常現實的擔憂,如果不加以解決,最終可能會導致更多的權力和財富集中在今天能夠向其人工智能研究項目投資巨額資金的機構中。
遷移學習技術是這些問題的潛在解決方案,它允許大型的、通用的模型經過一次訓練,然后在各種情況下重用,只需要最少的計算來適應它們。本文探索了遷移學習的新算法和應用,包括分層強化學習、生成式建模和計算社會科學等領域。在分層強化學習領域內,本文提出一種算法,允許在選項之間遷移(即在不同的選項之間遷移)。例如,時間上抽象的動作),用于獨立但相似的任務。在生成建模領域,我們提出了一種算法,可以在新的數據上重用現有的可逆生成模型,而不產生任何額外的訓練成本。最后,在計算社會科學領域,本文表明,可以從人類設計的模型中遷移知識,以檢測針對排名算法的惡意活動。
在這篇論文中提出的所有算法之間的共同線索是它們本質上是貝葉斯的。我們認為,貝葉斯范式自然適合于遷移學習應用,因為貝葉斯先驗可以作為適應性強的通用模型,通過推理過程可以轉換為特定任務的后驗。
大規模的神經語言模型在自然語言生成方面取得了令人印象深刻的進展。然而,典型的模型以一種從左到右的、不受約束的方式運行,對生成的內容的控制有限。本文探討了柔性序列模型和弱監督方法來執行各種控制生成任務。我們預計這些技術將廣泛應用于其他領域,如圖像、分子和生物序列的生成。
我們首先介紹了一類稱為空白語言模型(BLMs)的序列模型,它通過動態創建和填充空白來生成序列。給定帶有一個或多個空格的部分指定文本,BLM將使用與上下文一致的可變數量的標記來填充這些空格。我們的模型非常適合各種文本編輯和重寫任務,并在文本填充、古代文本恢復和情感遷移方面證明了有效性。
接下來,我們研究文本自動編碼器及其通過潛在空間操作控制生成的用途。我們建立了一個理論,如何塑造一個有意義的潛在空間幾何離散文本數據。在此基礎上,我們開發了一系列去噪文本自動編碼器,通過簡單的矢量算法展示了屬性修改(例如,時態,情感等)的潛力。
最后兩章討論了在沒有監督數據的情況下的語言風格遷移。我們首先將非并行風格遷移的任務形式化,并討論學習問題的可行性。我們提出了一種利用潛在表示的分布對齊來執行樣式傳輸的方法。然后,我們研究了混雜因素,并表明通過將數據分為兩組不同的風格,每組中的集合說明了我們不希望改變的變化,我們可以利用不變性來隔離混雜因素,并向所需的方向轉移文本。
//dspace.mit.edu/handle/1721.1/144561
在大量標記語音數據上使用監督學習算法訓練的深度神經網絡在各種語音處理應用中取得了顯著的性能,往往在相應的排行榜上處于領先地位。然而,訓練這些系統依賴于大量帶注釋的語音這一事實,為繼續發展最先進的性能造成了可擴展性瓶頸,而且對在語音領域部署深度神經網絡構成了更根本的障礙,因為標記數據本質上是罕見的,昂貴的,或耗時的收集。
與帶注釋的語音相比,未轉錄的音頻通常積累起來要便宜得多。在這篇論文中,我們探索使用自我監督學習——一種學習目標由輸入本身產生的學習范式——來利用這種易于擴展的資源來提高口語技術的性能。提出了兩種自監督算法,一種基于"未來預測"的思想,另一種基于"從未被掩碼中預測被掩碼"的思想,用于從未標記語音數據中學習上下文化語音表示。我們證明了我們的自監督算法能夠學習表征,將語音信號的高級屬性,如語音內容和說話人特征轉換為比傳統聲學特征更容易獲得的形式,并證明了它們在提高深度神經網絡在廣泛的語音處理任務中的性能方面的有效性。除了提出新的學習算法,我們還提供了廣泛的分析,旨在理解學習的自監督表示的屬性,以及揭示使一個自監督模型不同于另一個的設計因素。 //dspace.mit.edu/handle/1721.1/144761
如今,深度神經網絡或深度學習技術為最先進的人工智能系統提供了能力,用于各種數據類型的廣泛應用——圖像分類(He et al.,2016;Liu et al.,2022)、機器翻譯(Vaswani et al.,2017)和語音識別(Gulati et al.,2020)等等。然而,訓練這些系統的傳統范式一直是監督學習,其中系統的性能隨著用于訓練它們的標記數據的大小大致呈對數增長(Sun et al.,2017)。獲取這種帶注釋的數據的成本已經被證明是最先進系統持續開發的可擴展瓶頸,而且對于在數據和注釋收集本來就很少、昂貴或耗時的應用領域部署深度神經網絡來說,這是一個更根本的障礙。
上述情況激發了一波關于自監督表征學習的研究浪潮,其中,由精心設計的前置任務生成的免費標簽被用作監督信號,以預訓練深度神經網絡。然后,從預訓練的深度神經網絡的參數全部或部分用于初始化任務特定的深度神經網絡的參數,以解決下游的任務,使用比傳統監督學習相對較少的注釋數據。自監督指的是要求深度神經網絡預測給定的輸入數據的一部分(或通過編程派生的標簽)的學習任務。
自監督學習技術已被成功地用于提高各種模式下學習的樣本效率,包括圖像(Chen et al., 2020; Grill et al., 2020; Caron et al., 2020),視頻(Xu et al., 2019; Alwassel et al., 2020),語音和音頻(Baevski et al., 2020b; Gong et al., 2022),文本(Mikolov et al., 2013; Peters et al., 2018b; Devlin et al., 2019; Liu et al., 2019),到圖表(Velickovic et al.,2019年),舉幾個例子。一些結果表明,自監督表示的質量也是未標記訓練前數據量的對數函數(Goyal等人,2019)。如果這一趨勢保持不變,那么隨著時間的推移,可實現的性能可能會“免費”提高,因為數據收集和計算能力的改進允許使用越來越大的預訓練集,而不需要手動注釋新數據。在本論文中,我們著重于將自監督學習策略應用于語音領域,目的是推動口語技術的最先進性能,并提高訓練它們的數據效率。我們致力于開發新的自監督語音表征學習方法,并分析其學習表征的特性。
論文貢獻:
1. 介紹了最早成功的自監督語音表征學習框架之一。我們利用了“未來預測”的思想,并提出了一個簡單而有效的自監督目標,稱為自回歸預測編碼(APC),用于訓練深度神經網絡。設計的未來幀預測任務能夠利用未標記的語音數據學習表示,使語音的高級屬性,如語音內容和說話人的特征更容易被下游任務訪問(定義為線性可分性)。APC是最早展示自監督表征優于傳統手工制作的聲學特征(如Mel-frequency倒譜系數(MFCCs)和log Mel 聲譜圖)的工作之一,表明使用自監督學習來提高口語技術表現的潛力。
2. 介紹了目前最先進的自監督語音表示學習框架之一。我們利用了“從未掩碼中預測掩碼”的想法,并提出了w2v-BERT,這是目前最先進的框架之一,用于對語音應用的深度神經網絡進行預訓練。我們訓練一個語音離散器(通過優化對比損失)來將連續語音信號表示為鑒別標記,并使用它們來訓練一個類似BERT的模型。與vq-wav2vec和HuBERT等現有框架相比,w2v-BERT可以以端到端方式優化離散化器和上下文網絡,避免了多個訓練階段之間的協調,這些階段往往涉及脆弱的建模選擇。我們展示了w2v-BERT的有效性,在基準良好的語音識別數據集和谷歌收集的語音搜索數據集上,它優于包括HuBERT和wav2vec 2.0在內的最新技術。
3.引入一種分析方法,能夠在自監督的目標和他們學習表示的屬性之間建立連接。我們探索使用矢量量化來控制深度神經網絡內部的信息流量,以獲得具有相同的自監督目標但模型容量下降的模型譜。我們將這種分析方法應用于APC的研究,并診斷了APC在模型容量受限時保存信息的偏好。我們的分析結果解釋了為什么APC可以學習捕捉高級語音和說話人信息的表征。該分析方法具有普適性,也可用于其他自監督目標的分析。
4. 不同自監督模型的幾個共享性質的演示。在分析我們自己和其他已有的自監督模型時,我們發現,盡管這些模型在訓練目標和神經網絡結構上存在差異,但它們都存在一些共同的特性。這類屬性之一就是隱式發現有意義的聲音單元庫存的能力。我們發現,在自監督模型中通常存在一些層,其中表示與英語電話具有相當高的互信息(當模型在英語語料庫上訓練時),即使模型沒有明確地訓練以發現它們。大多數自監督模型共有的另一個特性是,不同層次的語音信息被捕獲在不同的層中,盡管信息分布可能因模型而異。例如,在APC中,較低的層次往往對說話者更具辨別能力,而較高層提供更多的語音內容。意識到這一點有助于選擇適當的層,從中提取表示,以便在感興趣的任務中獲得最佳性能。
5. 識別訓練影響其表征相似性的自監督模型的建模因素的重要性順序。我們在訓練過程中比較了一組具有不同建模選擇的自監督模型,并使用諸如典型相關分析(CCA)等措施來量化它們的兩兩相似性。我們考慮了三個建模因素: 訓練目標、模型的方向性(即模型是單向的還是雙向的)和神經網絡構建塊(CNN/RNN/Transformer),并表明這三個因素在使一個自監督表示不同于另一個方面具有不同的權重。具體而言,我們發現在所有因素中,訓練目標對表征相似性的影響最大;在相同的訓練目標下,模型的方向性對表征相似性的影響大于其神經網絡構件。
大型的、預訓練的基于Transformer的語言模型,如BERT,已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研,這些研究使用了大型語言模型來解決NLP任務,通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法,用于訓練增強或其他目的。最后,我們討論了局限性,并提出了未來研究的方向。
引言
近年來,大型預訓練的基于Transformer的語言模型(PLMs),如BERT (Devlin et al., 2019)和GPT (Radford et al., 2018)系列模型席卷了自然語言處理(NLP),在許多任務中實現了最先進的性能。
這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x,然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al., 2015)。注意,每個新的NLP任務都需要重新學習潛在特征表示,而且在許多情況下,訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的,我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示,然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞,這是一項具有大量自然出現的文本的通用任務,可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上,最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務,研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調,提示PLMs執行期望的任務,或者將任務重新構造為文本生成問題,并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。
本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:
先進行預訓練,然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練,然后對感興趣的任務進行少量的任務特定微調。
基于提示的學習(§3):提示一個PLM,這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞),或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識,從而產生“少樣本”的方法。
NLP作為文本生成(§4): 將NLP任務重新定義為文本生成,以充分利用生成語言模型(如GPT-2 (Radford et al., 2019)和T5 (Raffel et al., 2020)中編碼的知識。
生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研,如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明,本文主要關注非生成性任務(如分類、序列標注和結構預測),這些任務仍然涵蓋廣泛的NLP任務,包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外,還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:
數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據,通常生成的PLM是針對任務進行微調的,或者是一些輔助數據,如反例、澄清、上下文或其他。在第一種情況下,銀色標記數據可以添加到現有的標記數據中。在第二種情況下,輔助數據以某種方式支持目標任務。
論文組織如下: 第2節提供了PLM的背景,并描述了第一種范式,即預訓練然后微調。第三節討論第二種范式,即基于提示的學習。第4節總結了第三種范式,即作為文本生成的NLP。在第5節中,我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向,并在第7節進行總結。
范式1: 先訓練,然后微調
傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型,而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型,然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務,它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中,我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識,然后描述使用凍結或微調PLM進行NLP任務的方法。
范式2: 基于提示的學習
我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法,以鼓勵預訓練的模型執行特定任務(Yuan et al., 2021)。使用提示符有幾個優點。提示,特別是上下文學習(例如Brown et al., 2020),可能不需要更新PLM的參數,與微調方法相比,或在2.4.4中描述的基礎上,減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合,從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al., 2021b),特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后,提示允許以一種不受監督的方式探索PLM,以評估PLM對特定任務所獲得的知識(如Petroni et al., 2019)。
下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。
范式3 NLP即文本生成
基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功,最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務,如分類和結構預測。例如,圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同,這些任務被重新表述為文本生成問題,從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息,從而能夠準確地重構預期的類標簽(即避免映射中的歧義),并促進生成/解碼過程(即為預測提供足夠的上下文)。
總結
在這篇文章中,我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述,并對其應用前景進行了總結。此外,我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。