//edoc.ub.uni-muenchen.de/28766/
遷移學習旨在將在特定領域中解決特定任務時所學到的知識分別遷移到其他任務或領域中。雖然這種范式早在2010年代初就被應用于計算機視覺領域,但大約五年后,它徹底改變了自然語言處理領域。本文論述了在應用和研究這類模型體系結構時必須考慮和注意的三個關鍵方面。這項工作的第一部分解決了預訓練語言模型公平比較的定義的關鍵方面。與經典的機器學習相反,定義模型本質上是什么并不簡單,因為模型不僅是架構,而且還包括完整的預訓練過程(預訓練文本語料庫和大量的計算能力)。除此之外,模型大小也起著至關重要的作用,因為有時對于一些從業人員或設備來說,它可能會非常大,這就是為什么在比較最先進的(SOTA)模型時,也應該考慮它。第一篇有貢獻的文章提高了對上述問題的認識,并在執行或評估模型比較時提出了潛在的規避措施。
在第二部分中,評估了幾種最先進的架構在一組復雜任務上的有用性。對于貢獻的第二篇文章,在將開放式問題的答案自動分類到一組預定義類別的任務上評估了模型的性能。這展示了社會科學家普遍面臨的一個(極端)多標簽分類任務。與此同時,還提供了用于機器學習目的的美國全國選舉研究(ANES 2008)的完全可重復的數據準備。第三個貢獻是將預訓練模型應用于假新聞檢測任務,特別關注模型微調時對超參數的敏感性。給出了不同凍結技術、批量大小和序列長度以及學習率調度的實驗和網格搜索結果。第四和第五篇貢獻文章展示了工業用例:前者是關于試圖通過持續的語言模型預訓練來合并來自外部語料庫的特定領域知識,目的是使語言模型成為特定領域的一種知識庫。訓練過程中固定間隔的評估已經顯示出部分有希望的結果。后一個項目旨在建立一個管道,嚴重依賴預訓練(德語)語言模型,以衡量客戶中心的概念。關于汽車保險的非結構化客戶反饋根據所處理的方面和各自的調性進行分類,然后(視覺上)總結在一個雷達圖中。第六個貢獻,試圖為縮小一個很大的研究差距做出貢獻:預訓練模型的特定語言評估。本文在(基于方面的)情感分析任務上評估了目前現有的德語和多語言預訓練架構,使得最先進結果的大幅增加。
第三部分通過展示基準研究的實驗結果來完善本文的范圍。在第七篇也是最后一篇文章中,縮小版的語言模型在一組約束外部因素的任務上進行了基準測試,這些外部因素包括計算能力預算和預訓練文本語料庫的大小。
隨著機器學習模型在各種應用中的部署越來越頻繁,我們越來越需要更好地理解、交互和調節它們的行為。解釋性機器學習是一個致力于這一需求的研究領域,其主要焦點最初在滿足有利于揭示有關模型預測的可能有用信息的算法屬性的方法論發展。然而,批評也強調了需要更為嚴謹地評估這些方法在不同用戶的具體任務中的應用。在這篇論文中,我們對該領域的方法論和應用方面做出了我們個人的貢獻。在方法論上,我們提出了一種有效的算法,通過影響力大的訓練數據點提供關于模型行為的重要信息。然后,我們提出了一種理論框架,以理解模型在性能和公平性指標上的權衡。接下來,從應用驅動的角度,我們討論了一個評估框架,測試現有的圖像顯著性方法是否適用于實際的假相關檢測任務。最后,受到學術同行評審中實際問題的啟發,我們展示了我們對新的和現有的方法在幫助人類用戶進行文檔匹配任務方面的效用的發現。
在計算機視覺和自然語言處理等實踐領域表現出色的復雜機器學習模型,越來越多地被用來協助人類進行高風險的決策,如醫療、金融、法律和社會應用。這種加速的采用使得人類用戶越來越需要更好地理解、調節和與這些模型交互。解釋性機器學習是一個致力于這一需求的廣泛研究領域。許多文獻中的工作側重于方法論的發展:開發新的滿足各種技術目標的方法,可以有效地從一個黑盒機器學習模型中引出重要和有用的信息。然而,這些方法使用的各種技術目標與引出的信息的實際“重要性”或“有用性”沒有明確的聯系,這本質上依賴于用戶使用信息進行某些下游任務。因此,基于具體應用對開發的方法進行評估,對于完全閉環開發具有實用價值的新方法至關重要。在這篇論文中,我們提出了對這個領域的方法論和應用重點方面的個人貢獻。
在過去的十年中,神經網絡在自然語言處理(NLP)領域已經取得了顯著的進展,特別是因為它們能夠從大量的未標記語料庫中學習相關的單詞表征。這些詞嵌入可以在監督訓練中進行遷移移和微調應用到不同的終端應用。最近,在2018年,整個預訓練語言模型的遷移和上下文化能力的保留使得幾乎在每一個NLP基準上都達到了前所未有的性能,有時甚至超過了人類的基準。然而,當模型達到如此令人印象深刻的分數時,它們的理解能力仍然顯得很膚淺,這揭示了基準的局限性,不能為它們的表現因素提供有用的見解,并準確地衡量理解能力。
在本論文中,我們研究了最SOTA模型在兩個重要的信息提取任務(命名實體識別(NER)和關系提取(RE))中關于在未見事實的泛化性能。事實上,傳統基準在提到和關系之間存在重要的詞匯重疊,用于訓練和評估模型,而信息提取的主要興趣是提取以前未知的信息。我們提出了基于提及和與訓練集的關系重疊來分離性能的實證研究,發現預訓練的語言模型主要有利于檢測未見提及,特別是域外提及。雖然這使得它們適合于真正的用例,但可見和未見提及之間仍然存在性能差距,這不利于對新事實的歸納。特別是,即使是最先進的ERE模型也依賴于淺層記憶啟發式,其預測更多地基于論據表面形式而不是上下文。
在這項工作中,我們還鞏固了端到端關系提取評估的基礎,這一基礎被以前的不正確的比較所破壞,并提出了一個更細粒度的評估和理解端到端關系提取模型,以泛化到新的關系。最后,我們提出了在創建未來的模型和數據集時改進上下文合并的想法。
傳統的機器學習范式在單個任務上訓練特定任務模型,已經在許多領域(如計算機視覺和自然語言處理)取得了最先進的性能。為了使機器學習模型具有更廣泛的適用性,遷移學習旨在適應從源任務中學習到的知識,以提高在其他目標任務中的表現。然而,現有的遷移學習范式還有待進一步研究,因此我們對其潛在的局限性、潛在的機制以及實現更智能遷移的解決方案的認識有限。特別是,當知識從一個不太相關的來源轉移時,可能會對目標性能造成負面影響,這種現象稱為負轉移。然而,負遷移的原因尚不明確,負遷移如何影響模型的泛化和樣本效率也不清楚。在這篇論文中,我們的目標是徹底描述和解決機器學習模型中的負遷移,我們仔細研究了流行的視覺和自然語言處理設置中的負遷移,收集了其原因的見解,并提出了提高泛化和樣本效率的解決方案。本文由三個部分組成。第一部分對當前遷移學習模型中的負遷移現象進行了系統的分析。我們在領域適應和多語言自然語言處理模型中正式描述了其條件,并證明任務沖突是負遷移的一個關鍵因素。在第二部分,我們提出了各種對齊方法,通過更好的對齊表示和梯度解決上述任務沖突,增強可轉移模型的泛化。最后,在第三部分,我們探索了有效樣本遷移學習算法,使用較少的訓練和/或校準數據來緩解負遷移。本文的主要貢獻包括對遷移學習中的負遷移問題提出了新的見解,提出了一系列實用的方法和算法,提高了模型的泛化和效率。
//www.lti.cs.cmu.edu/sites/default/files/wang%2C%20zirui%20-%20final%20thesis.pdf
【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作,涵蓋了基本概念、分類體系。
引言
基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示,并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識,避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中,我們首先對自監督學習做一個簡要的概述。接下來,我們解釋了各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來,我們介紹了 T-PTLMs的一個新分類,然后簡要概述了各種基準測試,包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后,提出了進一步完善這些模型的研究方向。我們堅信,這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。
摘要
如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因為它們能夠從大量未標記的文本數據中學習通用語言表征,然后將這些知識轉移到下游任務中。在早期,NLP系統大多是基于規則的,后來被機器學習模型所取代。機器學習模型需要特征工程,這需要領域專業知識,也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展,增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型,除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例,生成這些實例的代價是昂貴的。然而,我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用,從而在目標任務中很好地執行。在這里,目標任務應該與源任務類似。基于遷移學習的思想,計算機視覺研究人員使用ImageNet[20],[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務,然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識,他們在許多CV任務[18],[23]中獲得了巨大的成功。
像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外,由于RNN按順序處理輸入,即逐字處理,并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷,Vaswani等人[25]提出了一種完全基于自注意的深度學習模型,稱為Transformer。與RNN相比,自注意允許更多的并行化,并且可以很容易地建模長期上下文,因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下,Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是,很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻,已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。
GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進,而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明,T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后,T-PTLMs也被開發用于其他領域,如金融[31],法律[32],[33],新聞[34],編程[35]-[39],對話[40],網絡[41],學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習,因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為
我們將簡要介紹SSL,它是開發T-PTLMs的支柱(第2節)。
我們解釋了與T-PTLMs相關的各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法(第3節)。
我們提出了一個新的分類方法來分類各種T-PTLMs。這種分類法基于四個視角,即預訓練語料庫、體系結構、SSL類型和擴展(第4節)。
我們提出了一種新的分類法來對各種下游適應方法進行分類,并對每一種方法進行詳細解釋(第5節)。
我們簡要概述了評估T-PTLMs進展的各種基準,包括內在的和外在的(第6節)。
我們簡要概述了各種庫,從Huggingface transformer到Transformer-interpret,這些庫對tptlm的工作很有用(第7節)。
我們簡要討論了一些未來的研究方向,這些方向將推動研究團體進一步改進模型(第8節)。
文本生成的目標是讓機器用人類語言表達。它是自然語言處理(NLP)中最重要也是最具挑戰性的任務之一。自2014年以來,各種由Seq2Seq首創的神經編解碼器模型被提出,通過學習將輸入文本映射到輸出文本來實現這一目標。然而,僅憑輸入文本往往無法提供有限的知識來生成所需的輸出,因此在許多真實場景中,文本生成的性能仍然遠遠不能令人滿意。為了解決這個問題,研究人員考慮將輸入文本之外的各種形式的知識納入生成模型中。這一研究方向被稱為知識增強文本生成。在這項綜述中,我們提出了一個全面的綜述,在過去的五年里,知識增強文本生成的研究。主要內容包括兩部分:(一)將知識集成到文本生成中的一般方法和體系結構;(二)根據不同形式的知識數據的具體技術和應用。這項綜述在學術界和工業可以有廣泛的受眾,研究人員和實踐者。
OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter!史無前例!論文介紹了GPT-3這是一種由1750億個參數組成的最先進的語言模型。論文由32位作者72頁pdf。
最近的工作表明,通過對大量文本進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了巨大的進展。盡管這種方法在架構中通常與任務無關,但它仍然需要成千上萬個特定于任務的實例微調數據集。相比之下,人類通常只需要幾個例子或簡單的指令就可以完成一項新的語言任務——這是目前的NLP系統仍然難以做到的。在這里,我們展示了擴展語言模型極大地提高了任務無關性、低命中率的性能,有時甚至達到了與先前最先進的微調方法的匹配性能。具體來說,我們訓練了一個帶有1750億個參數的自回歸語言模型GPT-3,比以前任何非稀疏語言模型都多10倍,并在小樣本設置下測試了它的性能。對于所有任務,GPT-3的應用沒有任何梯度更新或微調,任務和小樣本演示指定純粹通過與模型的文本交互。GPT-3在許多NLP數據集上實現了強大的性能,包括翻譯、問答和完形填空任務,以及一些需要即時推理或領域適應的任務,如整理單詞、在句子中使用新單詞或執行3位算術。同時,我們還確定了一些數據集,其中GPT-3的小樣本學習仍然效果不佳,以及一些數據集,其中GPT-3面臨著與大型web語料庫上的訓練有關的方法問題。最后,我們發現GPT-3可以生成新聞文章的樣本,這些文章是人類評價者難以區分的。我們討論了這個發現和一般的GPT-3的更廣泛的社會影響。
GPT-3的主要目標是用更少的領域數據、且不經過精調步驟去解決問題。
為了達到上述目的,作者們用預訓練好的GPT-3探索了不同輸入形式下的推理效果。
這里的Zero-shot、One-shot、Few-shot都是完全不需要精調的,因為GPT-3是單向transformer,在預測新的token時會對之前的examples進行編碼。
作者們訓練了以下幾種尺寸的模型進行對比:
實驗證明Few-shot下GPT-3有很好的表現:
最重要的是,GPT-3在Few-shot設定下,在部分NLU任務上超越了當前Fine-tuning的SOTA。
基于語言模型的預訓練模型,如BERT,在不同的NLP任務中提供了顯著的收益。在本文中,我們研究了不同類型的基于自回歸模型(GPT-2)、自編碼器模型(BERT)和seq2seq模型(BART)等用于條件數據增強的預訓練transformer 模型。我們表明,將類標簽前置到文本序列提供了一種簡單而有效的方法來設置預訓練模型的條件,以便進行數據擴充。在三個分類基準上,預先訓練的Seq2Seq模型優于其他模型。此外,我們還探討了不同的基于預訓練模型的數據擴充在數據多樣性方面是如何不同的,以及這些方法如何很好地保存類標簽信息。
本文是慕尼黑大學數學、信息學及統計學院的博士生Pankaj Gupta的博士學位論文,主要研究兩個NLP任務:關系提取和主題建模。本文將神經網絡和主題模型兩種互補的學習范式結合在一個神經復合模型中,使我們能夠通過主題模型在文檔集合中共同學習主題結構,并通過語言模型在句子中共同學習單詞關系。
慕尼黑大學自19世紀以來便是德國和歐洲最具聲望大學之一,也是德國精英大學、U15大學聯盟和歐洲研究型大學聯盟成員,其社會科學、人文科學、物理,化學,生命科學,醫學,數學等領域均在國際上享有盛名。本文是慕尼黑大學數學、信息學及統計學院的博士生Pankaj Gupta的博士學位論文。
自然語言處理(Natural language processing,NLP)涉及構建計算技術,允許計算機自動分析和有意義地表示人類語言。隨著數字時代數據的指數增長,基于NLP的系統的出現使我們能夠通過廣泛的應用程序,如網絡搜索引擎、語音助理等,輕松地訪問相關信息。為了實現這一目標,幾十年來的一項長期研究一直集中在NLP和機器學習交叉的技術上。
近年來,深度學習技術利用了人工神經網絡(ANNs)的表現力,在廣泛的NLP任務中取得了最先進的性能。深度神經網絡(DNNs)可以從輸入數據中自動提取復雜的特征,從而為手工特征工程提供了一種替代方法。除了ANN之外,概率圖形模型(PGMs)、圖論和概率方法的耦合還具有描述系統隨機變量之間因果結構的能力,并捕捉到不確定性的原則概念。考慮到DNNs和PGMs的特點,它們被有利地結合起來建立強大的神經模型,以了解數據的潛在復雜性。
傳統的基于機器學習的NLP系統采用了淺層計算方法(如SVM或Logistic回歸),并依賴于手工特征,這類方法耗時、復雜且往往是不夠完整的。基于深度學習和神經網絡的方法最近在機器翻譯、文本分類、命名識別、關系提取、文本相似性等NLP任務上取得了較好的效果。這些神經模型可以從訓練數據中自動提取有效的特征表示。
本文主要研究兩個NLP任務:關系提取和主題建模。前者的目的是識別句子或文檔中實體或名詞之間的語義關系。成功地提取語義關系有助于構建結構化知識庫,在網絡搜索、問答、推薦引擎等下游NLP應用領域很有用。另一方面,主題建模的任務旨在理解文檔集合中的主題結構。主題建模是一種流行的文本挖掘工具,它可以自動分析大量的文檔集合,并在不實際閱讀的情況下理解主題語義。主題建模分別生成用于文檔理解和信息檢索的Word集群(即主題)和文檔表示。
本質上,關系提取和主題建模主要基于從文本中學習到的表示的質量。在本文中,我們提出了特定于任務的學習表示神經模型,并分別在監督和非監督機器學習范式領域進行關系提取和主題建模任務。更具體地說,我們在開發NLP任務的神經模型方面做出了以下貢獻:
神經關系提取:首先,我們提出了一種新的基于遞歸神經網絡的table-filling體系結構,以便在句子中聯合執行實體和關系提取。然后,我們進一步擴展了跨句子邊界實體之間關系的提取范圍,并提出了一種新的基于依賴關系的神經網絡體系結構。這兩個貢獻在于機器學習的監督范式。此外,我們還在構建一個受缺乏標記數據約束的魯棒關系提取器方面做出了貢獻,其中我們提出了一種新的弱監督引導技術。考慮到這些貢獻,我們進一步探索了遞歸神經網絡的可解釋性,以解釋它們對關系提取的預測。
神經主題建模:除了有監督神經體系結構外,我們還開發了無監督神經模型,以學習主題建模框架中有意義的文檔表示。首先,我們提出了一種新的動態主題模型,它捕獲了隨著時間的推移的主題。接下來,我們在不考慮時間依賴性的情況下建立了靜態主題模型,其中我們提出了神經主題建模體系結構,這些體系結構也利用外部知識,即Word嵌入來解決數據稀疏性。此外,我們還開發了神經主題模型,其中包含了使用單詞嵌入和來自許多來源的潛在主題的知識遷移。最后,我們通過引入語言結構(如語序、局部句法和語義信息等)來改進神經主題建模。它處理傳統主題模型中的詞袋問題。本節中提出的神經NLP模型是基于PGMs、深度學習和ANN交叉技術。
在這里,神經關系提取的任務使用神經網絡來學習通常在句子級別上的表示,而不訪問更廣泛的文檔上下文。然而,主題模型可以訪問跨文檔的統計信息。因此,我們將兩種互補的學習范式結合在一個神經復合模型中是有利的,它由一個神經主題和一個神經語言模型組成,使我們能夠通過主題模型在文檔集合中共同學習主題結構,并通過語言模型在句子中共同學習單詞關系。
總的來說,我們在本論文中的研究貢獻擴展了基于NLP的系統,用于關系提取和主題建模任務,同時具有最先進的性能。