自然語言處理(NLP)在神經模型的基礎上,在過去的十年中取得了很大的進展,經常利用大量的標記數據來實現最先進的性能。對標記數據的依賴使NLP模型無法應用于資源不足的設置和語言,因為標記大量文本數據通常需要時間、金錢和專業知識。因此,在有限的標記數據下學習的能力對于將神經系統部署到真實的NLP應用是至關重要的。近年來,人們已經探索了許多方法來緩解自然語言處理中對標記數據的需求,如數據增強和半監督學習。本教程旨在提供這些方法的系統和最新的概述,以幫助研究人員和從業人員理解從有限的標記數據中學習的方法和挑戰,這是計算語言學社區的一個新興話題。我們將考慮應用于各種各樣的NLP任務(包括文本分類、生成和結構化預測),并將突出當前的挑戰和未來的方向。
文本生成有很多應用。例如,它可以從對話動作生成對話,將知識庫的內容用語言表達出來,或從豐富的語言表征(如依賴樹或抽象意義表征)生成英語句子。文本生成也在文本到文本的轉換中起作用,如句子壓縮、句子融合、釋義、句子(或文本)簡化和文本摘要。這本書提供了文本生產的神經模型的基礎的概述。特別地,我們詳細闡述了文本生成的神經方法的三個主要方面:順序解碼器如何學習生成足夠的文本,編碼器如何學習生成更好的輸入表示,以及神經生成器如何考慮特定任務的目標。事實上,每個文本生成任務都提出了略有不同的挑戰(例如,在生成對話回合時如何考慮對話上下文,在總結文本時如何檢測和合并相關信息,或者如何生成格式良好的文本,在數據到文本生成的情況下,正確地捕獲某些輸入數據中包含的信息)。我們概述了一些特定于這些任務的約束,并檢查現有的神經模型如何解釋它們。更一般地說,本書考慮了文本到文本、意義到文本和數據到文本的轉換。它的目的是為觀眾提供文本生產的神經方法的基本知識和路線圖,讓他們開始相關的工作。這本書主要針對研究人員,研究生和工業感興趣的文本生產從不同形式的輸入。
有效地從很少到沒有數據中學習的能力對于將NLP應用于數據收集成本高或其他困難的任務至關重要。這在學術和實踐上都是一個具有挑戰性的設置——特別是因為訓練中模型通常需要大量標記數據。最近,對未標記數據進行預訓練的進展,帶來了更好的零樣本或少樣本學習的潛力(Devlin et al., 2019; Brown et al., 2020)。特別是在過去的一年里,人們進行了大量的研究,利用大規模語言模型更好地從有限的數據中學習。在本教程中,我們的目標是讓感興趣的NLP研究人員了解最新的和正在進行的使用預訓練的語言模型進行零樣本和少樣本學習的技術。此外,我們的目標是向觀眾揭示新的研究機會,這將有望使我們更接近解決該領域現有的挑戰。
自然語言處理(NLP)在神經模型的基礎上,在過去的十年中取得了很大的進展,經常利用大量的標記數據來實現最先進的性能。對標記數據的依賴使NLP模型無法應用于低資源設置和語言,因為通常需要時間、金錢和專業知識來標記大量文本數據。因此,在有限的標記數據下學習的能力對于將神經系統部署到真實的NLP應用是至關重要的。近年來,人們已經探索了許多方法來緩解自然語言處理中對標記數據的需求,如數據增強和半監督學習。
本教程旨在提供這些方法的系統和最新的概述,以幫助研究人員和從業人員理解從有限的標記數據中學習的方法和挑戰,這是計算語言學社區的一個新興話題。我們將考慮應用于各種各樣的NLP任務(包括文本分類、生成和結構化預測),并將突出當前的挑戰和未來的方向。
//github.com/diyiy/ACL2022_Limited_Data_Learning_Tutorial
數據增強是一種常用的技術,用于人為地增加給定訓練數據集的大小(即數據點的數量)和多樣性(即偏離真實數據分布)。小標記訓練數據集往往會導致過擬合,數據增強可以通過自動或手動創建增強數據來幫助緩解這個問題。這些技術在計算機視覺(CV)領域中得到了廣泛的探索,包括幾何/顏色空間轉換、混合和隨機擦除等方法。雖然文本數據由于其復雜的句法和語義結構而具有一定的挑戰性,但文本數據的增強方法卻非常廣泛。
NLP中具有代表性的數據增強方法包括: token增強,如隨機刪除或屏蔽令牌(Bowman et al., 2015),用同義詞或相關詞替換單詞(Zhang et al., 2015;Kobayashi, 2018),以及用隨機token插入或替換不重要的token (Xie et al.,2017,2019); 通過釋義提高句子水平(Roy and Grangier, 2019; Edunov et al., 2018)的基礎上,先將句子翻譯成某些中間語言,然后再將它們翻譯回來,生成具有不同詞匯和語言結構(如詞性、句法等)的中間語言的意譯,可以引入一定的方差,即雙向翻譯(Xie et al., 2019; Coulombe, 2018),或根據給定的標簽生成句子;對抗性數據增強,使用受擾動的數據顯著影響模型的預測和信心,而不影響人類判斷(Morris et al., 2020),例如使用梯度在模型的隱藏表示中尋找鄰居(Cheng et al., 2019)或連接分散但無意義的句子作為段落的結尾(Jia和Liang, 2017);隱藏空間增強,通過添加噪聲或對其他數據點進行插值等擾動來操縱隱藏表示(Chen等人,2020a)。
我們將向觀眾介紹最近廣泛使用的數據增強方法,并以NLP應用實例(如無監督翻譯的反向翻譯)為例,演示如何在實踐中利用這些代表性的數據增強技術。
當只有一個小的標簽訓練數據集可用時,數據增強可以應用在監督設置中產生更好的結果,數據增強也常用在半監督學習中。半監督學習在訓練模型時提供了一種利用未標記數據的方法,當只有有限的標記數據可用時,這種方法可以顯著改進模型。這在普通設置中特別有用,因為與有標記的數據相比,未標記的數據更便宜、更容易獲得。在本教程中,我們將使用示例應用程序或任務,簡要討論最近在NLP研究中探索的各種半監督技術。我們根據現有的半監督學習方法如何利用未標記的數據,將它們分成不同的類別:自訓練利用了固有存在或可以從數據集自動生成的監督(McClosky et al.,2006);多任務訓練利用帶有標簽的額外輔助任務,進一步利用與感興趣任務相關的未標記數據;一致性正則化訓練模型,當輸入通過數據增強受到干擾時,輸出相同的預測(Sachan et al., 2019; Xie et al., 2019; Chen et al., 2020a,b)。
解決數據有限的學習問題還有其他相關方向,如其他半監督學習方法,如自訓練(He et al., 2020)、生成模型(Cheng et al., 2016)和協同訓練(Clark et al., 2018)。我們將簡要討論這些方法,更具體地說,我們將通過案例研究向觀眾介紹如何利用上述技術提高低資源語言的性能,包括跨語言遷移學習,它將模型從資源豐富的語言轉移到資源貧乏的語言(Schuster et al., 2019),很少/零樣本學習(Pham et al., 2019; Abad et al., 2020),只使用了來自低資源領域的幾個例子,以適應在另一個領域訓練的模型。盡管近年來在數據有限的情況下取得了成功,但為了更好地學習,仍有一些挑戰需要解決。為此,我們將通過強調一些挑戰來結束我們的教程,包括但不限于數據分布的轉移,量化增強的多樣性和效率,處理域外未標記的數據,學習特定于文本的數據增強策略,并討論未來可能有助于推進該領域的方向。
有各種各樣的NLP問題可以用圖結構最好地表達。基于圖的深度學習技術(即圖神經網絡(GNNs))在建模非歐氏數據(如圖)方面的巨大優勢,為解決具有挑戰性的圖類NLP問題打開了一扇新的大門,并取得了巨大的成功。盡管取得了成功,但在圖上的深度學習(DLG4NLP)仍然面臨許多挑戰(如自動圖的構造、復雜圖的圖表示學習、復雜數據結構之間的映射學習)。
本教程將介紹深度學習技術在自然語言處理中的應用,包括自然語言處理的自動圖構造、自然語言處理的圖表示學習、自然語言處理的基于GNN的高級模型(如graph2seq和graph2tree),以及GNN在各種自然語言處理任務中的應用(如機器翻譯、圖像處理和圖像處理)。自然語言生成、信息提取和語義解析)。此外,還將包括實踐演示會議,以幫助聽眾獲得應用GNNs解決具有挑戰性的NLP問題的實際經驗——使用我們最近開發的開源庫Graph4NLP,這是第一個為研究人員和實踐者提供的用于各種NLP任務的輕松使用GNNs的庫。
來自華為的研究人員在UIUC2021上將給出關于預訓練模型與文本挖掘的教程,非常值得關注!
近年來,文本表示學習在廣泛的文本挖掘任務中取得了巨大的成功。早期的單詞嵌入學習方法將單詞表示為固定的低維向量,以捕獲它們的語義。然后,將學習到的詞嵌入作為特定任務模型的輸入特征。近年來,預訓練語言模型(pre-training language model, PLMs)在自然語言處理(natural language processing, NLP)領域發生了革命性的變化,自然語言處理(natural language processing, NLP)通過大規模文本語料庫上預訓練的基于transformer的神經模型來學習通用語言表示。這種預訓練過的表示對通用語言特征進行編碼,這些特征幾乎可以遷移到任何與文本相關的應用中。在許多應用中,PLM優于先前的任務特定模型,因為它們只需要對目標語料庫進行微調,而無需從頭開始訓練。
//yumeng5.github.io/kdd21-tutorial/
在本教程中,我們將介紹預訓練文本嵌入和語言模型的最新進展,以及它們在廣泛的文本挖掘任務中的應用。具體來說,我們首先概述了一組最近開發的自監督和弱監督文本嵌入方法和預訓練的語言模型,它們是下游任務的基礎。然后,我們提出了幾種基于預先訓練的文本嵌入和語言模型的新方法,用于各種文本挖掘應用,如主題發現和文本分類。我們關注的方法是弱監督、領域獨立、語言不可知、有效和可擴展的,用于從大規模文本語料庫中挖掘和發現結構化知識。我們將在真實的數據集上演示預先訓練的文本表示如何幫助減輕人工標注的負擔,并促進自動、準確和高效的文本分析。
目錄: Introduction [Slides] Part I: Text Embedding and Language Models [Slides] Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models [Slides] Part III: Embedding-Driven Topic Discovery [Slides] Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort [Slides] Part V: Advanced Text Mining Applications Empowered by Embeddings [Slides]
本教程將是關于無監督學習和強化學習的交叉。隨著自然語言處理中基于語言模型的預訓練和計算機視覺中的對比學習的出現,無監督學習(UL)在過去幾年中真正得到了發展。在這些領域中,無監督預訓練的一些主要優勢是在下游有監督學習任務中出現的數據效率。在如何將這些技術應用于強化學習和機器人方面,社區中有很多人感興趣。考慮到問題的連續決策性質,RL和機器人技術比被動地從互聯網上的圖像和文本中學習面臨更大的挑戰,它可能不會那么簡單。本教程將涵蓋如何在強化學習中應用和使用無監督學習的基本模塊,希望人們可以帶回最新的最先進的技術和實踐的知識,以及在這個具有挑戰性和有趣的交叉領域的廣泛的未來可能性和研究方向。
ACM SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,國際數據挖掘與知識發現大會,簡稱 KDD)是數據挖掘領域國際頂級學術會議,今年的KDD大會將于8月23日至27日在線上召開。賓夕法尼亞州立大學ZhenhuiLi, Huaxiu Yao, Fenglong Ma等做了關于小數據學習《Learning with Small Data》教程,116頁ppt涵蓋遷移學習與元學習等最新課題,是非常好的學習材料!
摘要:
在大數據時代,數據驅動的方法在圖像識別、交通信號控制、假新聞檢測等各種應用中越來越受歡迎。這些數據驅動方法的優越性能依賴于大規模的標記訓練數據,而實際應用中可能無法獲得這些數據,即“小(標記)數據”挑戰。例如,預測一個城市的突發事件,發現新出現的假新聞,以及預測罕見疾病的病情發展。在大多數情況下,人們最關心的是這些小數據案例,因此提高帶有小標記數據的機器學習算法的學習效率一直是一個熱門的研究課題。在本教程中,我們將回顧使用小數據進行學習的最新的機器學習技術。這些技術被組織從兩個方面: (1) 提供一個全面的回顧最近的研究關于知識的泛化,遷移,和共享,其中遷移學習,多任務學習,元學習被討論。特別是元學習,提高了模型的泛化能力,近年來已被證明是一種有效的方法; (2) 引入前沿技術,著重于將領域知識融入機器學習模型中。與基于模型的知識遷移技術不同,在現實應用中,領域知識(如物理定律)為我們提供了一個處理小數據挑戰的新角度。具體地說,領域知識可以用來優化學習策略和/或指導模型設計。在數據挖掘領域,我們認為小數據學習是一個具有重要社會影響的熱門話題,將吸引學術界和產業界的研究者和從業者。
目錄:
地址:
摘要
自然語言處理(NLP)是人工智能的一個子領域,其重點是使計算機能夠理解和處理人類語言。在過去的五年里,我們見證了NLP在機器翻譯、問答和基于深度學習的機器閱讀理解等任務上的快速發展,以及海量的帶注釋和未帶注釋的數據。本文將從建模、學習和推理三個方面綜述基于神經網絡的神經語言處理框架(neural NLP)的最新進展。在建模部分,我們將描述幾種基本的基于神經網絡的建模范例,如單詞嵌入、句子嵌入和序列到序列的建模,這些在現代NLP引擎中被廣泛使用。在學習部分,我們將介紹廣泛使用的NLP模型的學習方法,包括監督學習、半監督學習和無監督學習;多任務學習;遷移學習;和主動學習。我們認為推理是神經NLP的一個新的和令人興奮的方向,但它還沒有被很好地解決。在推理部分,我們將回顧推理機制,包括知識,現有的非神經推理方法,和新的神經推理方法。我們在本文中強調推理的重要性,因為它對于建立可解釋的和知識驅動的神經網絡規劃模型來處理復雜的任務是很重要的。在本文的最后,我們將簡要概述我們對神經語言處理的未來發展方向的思考。
介紹
自然語言處理(Natural Language Processing, NLP)是人工智能(AI)的一個重要分支,通過自然語言研究人與計算機之間的交互。它研究單詞、短語、句子和文檔的意義表達的基礎技術,以及句法和語義處理(如斷句、句法分析器和語義解析)的基礎技術,并開發諸如機器翻譯(MT)、問答(QA)、信息檢索、對話、文本生成和推薦系統等應用程序。NLP對于搜索引擎、客戶支持系統、商業智能和語音助手至關重要。
NLP的歷史可以追溯到20世紀50年代。在NLP研究之初,我們使用基于規則的方法來構建NLP系統,包括單詞/句子分析、QA和MT。這些由專家編輯的規則被用于從MT開始的各種NLP任務的算法中。通常,設計規則需要大量的人力。此外,當規則數量很大時,很難組織和管理規則。20世紀90年代,隨著互聯網的快速發展,出現了大量的數據,這使得統計學習方法可以用于處理NLP任務。使用人工設計的特征,統計學習模型通過使用標記/挖掘數據學習。統計學習方法為許多自然語言處理任務,特別是MT和搜索引擎技術帶來了顯著的改進。2012年,隨著深度學習在ImageNet[1]對象識別和Switchboard[2]語音識別方面的成功,深度學習方法被引入到NLP中。深度學習方法比統計學習方法快得多,結果好得驚人。目前,基于神經網絡的神經語言處理(以下簡稱神經語言處理)框架已經達到了新的質量水平,并且已經成為處理神經語言處理任務的主要方法,例如MT、機器閱讀理解(MRC)、聊天機器人等等。例如,微軟的Bible系統在2017年MT研討會的中英新聞翻譯任務中就取得了能和人媲美的結果。微軟亞洲研究院(MSRA)的R-NET和NLNet在斯坦福問題回答數據集(小組)評估任務中,在精確匹配(EM)得分和模糊匹配(F1)得分上都取得了人機質量結果。最近,生成式預訓練(GPT)[3]、來自 Transformers的雙向編碼器表示(BERT)[4]和XLNet[5]等預訓練模型在多個NLP任務中顯示了強大的能力。神經NLP框架在有大量標記數據用于學習神經模型的監督任務中工作得很好,但在資源有限或沒有標記數據的低資源任務中仍然表現不佳。
建模
NLP系統使用自然語言句子并生成一個類類型(用于分類任務)、一個標簽序列(用于序列標記任務)或另一個句子(用于QA、對話、自然語言生成和MT)。要應用神經語言處理方法,需要解決以下兩個關鍵問題: (1)在神經網絡中對自然語言句子(詞的序列)進行編碼。 (2)生成一個標簽序列或另一個自然語言句子。 從這兩個方面,本節將介紹幾種常用的神經網絡語言處理模型,包括字嵌入、句子嵌入和序列到序列的建模。單詞嵌入將輸入句子中的單詞映射成連續的空間向量。 基于“嵌入”這個詞,復雜網絡如遞歸神經網絡(RNNs)卷積神經網絡(CNNs)和自注意力網絡可以用于特征提取,考慮到整個句子的上下文信息構建嵌入環境敏感詞,句子的或集成所有的信息來構造句子嵌入。上下文感知詞嵌入可用于序列標記任務,如詞性標記(POS)和命名實體識別(NER),句子嵌入可用于句子級任務,如情緒分析和意譯分類。句子嵌入也可以作為另一個RNN或自注意網絡的輸入,生成另一個序列,形成序列-序列建模的編解碼框架。給定一個輸入句子,序列到序列的建模可以用來生成一個問題的答案(即問答任務)或翻譯成另一種語言(即機器翻譯任務)。
學習
目前已經提出了新的和有效的訓練算法,以優化大量的參數在深度學習模型。在訓練神經網絡時,常用的方法是隨機梯度下降(SGD)[18],它通常是基于[19]的反向傳播方法。基于動量的SGD被提出是為了引入動量來加速訓練過程。AdaGrad [20], AdaDelta [21], Adam [22], RMSProp方法嘗試對不同的參數使用不同的學習比率,這進一步提高了效率,穩定了訓練過程。當模型非常復雜時,并行訓練方法被用來利用許多計算設備,甚至數百或數千臺(中央處理單元、圖形處理單元或現場可編程門陣列)。根據參數是否同步更新,分布式訓練方法可以分為同步SGD和異步SGD。 除了一般的優化方法已經取得的進展外,針對特定的NLP任務提出了更好的訓練方法。當大量的訓練數據可用于資源豐富的任務時,使用監督學習方法,深度學習模型可以取得很好的性能。對于一些特定的任務,如具有大量并行數據的語言對(如英語和漢語)的MT,神經模型可以很好地完成,有時在共享任務中實現人的平等。然而,在許多NLP任務中,很難獲得大量的標記數據。這類任務通常被稱為低資源任務,包括對稀有語言的情緒分析MT。利用未標記數據對少量標記數據訓練的模型進行增強,可以采用半監督學習方法。在沒有任何標記數據的情況下,可以利用無監督學習方法來學習NLP模型。利用未標記數據的另一種方法是對模型進行預訓練,通過遷移學習將這些模型轉移到特定的任務中。除了利用任務內標記的數據,其他任務的標記數據也可以在多任務學習的幫助下使用。如果沒有可用的數據,可以引入人力資源來使用主動學習創建學習數據,以便在給定的預算下最大化模型的性能。
推理
神經方法在許多NLP任務中取得了良好的進展,如MT和MRC。然而,他們仍然有一些未解決的問題。例如,大多數神經網絡模型的行為就像一個黑盒子,它從來沒有告訴我們一個系統是如何以及為什么會以這種方式解決了一個問題。此外,對于QA和對話系統這樣的任務,僅僅了解輸入話語的字面意義往往是不夠的。為了生成正確的響應,可能還需要外部和/或上下文知識。為了建立這種可解釋的和知識驅動的系統,推理是必要的。在本文中,我們將推理定義為一種機制,它可以通過使用推理技術操作現有知識來生成未見問題的答案。根據這一定義,推理系統(圖11)應該包括兩個部分:
知識,如知識圖、常識、規則、從原始文本中提取的斷言等;
一個推理引擎,通過操作現有的知識來生成問題的答案。
接下來,我們用兩個例子來說明為什么推理對于NLP任務是重要的。
第一個例子是基于知識的QA任務。“比爾·蓋茨的妻子是什么時候出生的?”, QA模型必須將其解析為生成答案的邏輯形式:
其中需要基于知識圖譜的推理從這個問題開始,可以附加新的問題,例如:“他/她的工作是什么?”,為了回答這種上下文感知的問題,共指解析決定了他/她指的是誰。這也是一個推理的過程,需要一個常識,他只能指男人,她只能指女人。
第二個例子是一個對話任務。例如,如果一個用戶說我現在很餓,更合適的回答應該是:讓我向您推薦一些不錯的餐館,而不是讓我推薦一些好電影給你。這也需要推理,因為對話系統應該知道饑餓會導致尋找餐館而不是看電影的行為。在本節的剩余部分中,我們將首先介紹兩種類型的知識:知識圖譜和常識。接下來,我們將描述典型的推理方法,這些方法在自然語言處理領域已經或正在研究。
題目: A Survey on Transfer Learning in Natural Language Processing
摘要:
深度學習模型通常需要大量數據。 但是,這些大型數據集并非總是可以實現的。這在許多具有挑戰性的NLP任務中很常見。例如,考慮使用神經機器翻譯,在這種情況下,特別對于低資源語言而言,可能無法整理如此大的數據集。深度學習模型的另一個局限性是對巨大計算資源的需求。這些障礙促使研究人員質疑使用大型訓練模型進行知識遷移的可能性。隨著許多大型模型的出現,對遷移學習的需求正在增加。在此調查中,我們介紹了NLP領域中最新的遷移學習進展。我們還提供了分類法,用于分類文獻中的不同遷移學習方法。