從與上下文無關的詞嵌入到與上下文相關的語言模型,預訓練的文本表示將文本挖掘帶入了一個新的時代: 通過在大規模文本語料庫上對神經模型進行預處理,然后將其適應于特定任務的數據,可以有效地將通用語言特征和知識轉移到目標應用中,并在許多文本挖掘任務中取得了顯著的性能。不幸的是,在這種突出的預訓練微調范式中存在著一個巨大的挑戰:大型的預訓練語言模型(PLM)通常需要大量的訓練數據來對下游任務進行穩定的微調,而大量的人工注釋的獲取成本很高。
在本教程中,我們將介紹預訓練文本表示的最新進展,以及它們在廣泛的文本挖掘任務中的應用。我們專注于不需要大量人工標注的最小監督方法,包括**(1)作為下游任務基礎的自監督文本嵌入和預訓練語言模型,(2)用于基本文本挖掘應用的無監督和遠程監督方法,(3)用于從大量文本語料庫中發現主題的無監督和種子引導方法,以及(4)用于文本分類和高級文本挖掘任務的弱監督方法**。
介紹 第一部分: 科學信息提取與分析 第二部分: 科學信息搜索和證據挖掘 第三部分: 主題發現、文本分類和多維文本分析 摘要及未來方向
本教程針對的是對人工智能和ML技術感興趣的研究人員和從業人員,這些技術用于從非結構化文本源中提取結構信息(IE)。特別是,本教程將通過解決幾個重要的研究問題,系統地介紹IE的最新進展。這些問題包括 (i) 如何利用少量的、有噪聲的訓練數據開發一個魯棒的IE系統,同時保證其預測的可靠性?(ii)如何通過增強系統的跨語言、跨領域、跨任務、跨模式的可移動性來培養IE的通用性? (iii)如何支持提取極細粒度和多樣化標簽的結構信息? (iv) 如何利用其他NLP任務(如NLI、QA或總結,以及預先訓練的語言模型)的間接監督來進一步提高IE ?(v)在IE系統中如何獲取知識來指導推理?我們將討論解決這些挑戰的前沿研究的幾個線,并將通過概述進一步調查的方向來結束教程。
信息抽取(Information extraction, IE)是指從非結構化或半結構化數據中自動提取結構化信息的過程。它通過識別和解析文本中描述的概念、實體、事件,并推斷它們之間的關系,為自然語言理解提供了必要的支持。在各種應用領域中,IE自動化了領域特定知識表示的昂貴獲取過程,而這些知識表示是任何知識驅動AI系統的支柱。例如,自動化知識庫的構建依賴于以實體為中心的IE技術。事件和事件鏈的提取可以幫助機器完成敘事預測和總結任務。醫學IE也有利于重要但昂貴的臨床任務,如藥物發現和再利用。盡管如此,IE的前沿研究仍然面臨著幾個關鍵的挑戰。第一個挑戰是使用語言建模表示的現有主流方法不能充分地獲取IE任務所需的基本知識和結構。第二個挑戰是開發監督較少的細粒度信息提取模型,考慮到在未標記數據上獲得結構性注釋的成本非常高。第三個挑戰是在現實場景中擴展IE系統的可靠性和通用性,在這些場景中,數據源經常包含不正確的、無效的或無法識別的輸入,以及包含看不見的標簽和混合模式的輸入。最近,通過解決這些關鍵的挑戰,最近的文獻正在導致IE系統開發的原則和方法的變革性的進步。我們認為有必要及時呈現一個教程,全面總結IE研究的新前沿,并指出值得進一步研究的新挑戰。
在本教程中,我們將系統地回顧開發魯棒、可靠和自適應學習系統以提取豐富的結構化信息的幾條前沿研究路線。除了介紹用于無監督去噪、約束捕獲和新異檢測的魯棒學習和推理方法外,我們還將討論利用來自自然語言推理和生成任務的間接監督來改進IE的最新方法。我們還將回顧最近用于訓練IE模型的最小監督方法,該方法與語言模式、語料庫統計數據或語言建模目標有一定距離的監督。此外,我們將說明如何在一個封閉域上訓練的模型能夠可靠地適應從不同域、語言和模式的數據源中產生提取,或獲取全局知識(例如,事件模式),以指導在高度多樣化的開放標簽空間上的提取。與會者將了解本主題的最新趨勢和新出現的挑戰,獲得現成模型的代表性工具和學習資源,以及相關技術如何使最終用戶的NLP應用受益。
介紹
我們將定義主要的研究問題,并通過介紹幾個真實世界的自然語言處理和IE技術的知識驅動AI應用,以及該領域前沿研究的幾個關鍵挑戰來激發這個主題。
IE的間接和最小監督
我們將介紹對IE使用間接監督的有效方法,即利用相關任務的監督信號來彌補特定訓練數據在數量和全面性方面的不足。常見的間接監督來源包括問題回答和閱讀理解、自然語言推理和生成。我們還將討論作為間接來源的結構性文本(如維基百科)。隨著大規模預訓練語言模型的突破,人們提出了探索語言模型目標作為IE的間接監督的方法。為此,我們將涉及的方法包括直接探測,以及最近使用遠程信號進行預訓練。
面向IE的魯棒學習與推理
我們將介紹提高工業工程學習系統在學習和推理階段的魯棒性的方法。這些方法包括基于共正則化知識蒸餾、標簽重加權和標簽平滑的自監督去噪技術,用于訓練噪聲魯棒的IE模型。此外,我們還將討論用于out- distribution (OOD)檢測的無監督技術、帶有回避的預測和新穎性類檢測,這些技術試圖幫助IE模型在推理階段識別無效輸入或帶有語義轉移的輸入。具體來說,為了演示模型如何確保提取的全局一致性,我們將介紹自動捕獲關系之間的邏輯約束的約束學習方法,以及在推斷中強制約束的技術。
Knowledge-guided即
從大規模語料庫中提取的全局知識表示可以指導對知識要素之間復雜聯系的推理,并有助于修正提取錯誤。我們將引入跨任務和跨實例的統計約束知識、常識知識和全局事件模式知識,這些知識有助于聯合提取實體、關系和事件。
IE系統的可遷移性
開發IE系統的一個重要挑戰在于預定義模式(例如,預定義類型的實體、關系或事件)的覆蓋范圍有限,以及對人工注釋的嚴重依賴。當轉向新的類型、領域或語言時,我們必須從頭開始,創建注釋并重新訓練提取模型。在這部分教程中,我們將介紹在提高IE可轉移性方面的最新進展,包括:(1)通過利用對抗訓練、語言不變表示和資源、預訓練的多語言模型以及數據投影進行跨語言遷移;(2)跨類型遷移,包括通過學習原型、閱讀定義、回答問題,包括零樣本和少樣本的IE;(3)跨不同基準數據集遷移。最后,我們還將討論IE終身學習的進展,以實現知識在增量更新模型之間的轉移。
跨模態IE
跨模態IE旨在從多種模態中提取結構化知識,包括非結構化和半結構化的文本、圖像、視頻、表格等。我們將從從圖像和視頻中提取視覺事件和論點開始。提取多媒體事件的關鍵是識別跨模態的相互參照和鏈接,并在共同的語義空間中表示文本和視覺知識。我們還將介紹從半結構化數據和表格數據中提取信息的方法。
未來的研究方向
工業工程是支持知識獲取的關鍵組成部分,它影響著廣泛的知識驅動AI應用。在本教程的最后,我們將介紹進一步的挑戰和潛在的研究主題,包括識別提取內容的可信度、定量推理IE、跨文檔IE、標簽語義建模,以及從語料庫中獲取潛在的但重要的信息(可能涉及報告偏見)的挑戰。
【導讀】國際人工智能會議AAAI 2022論文將在全程線上舉辦,時間在 2 月 22 日-3 月 1 日,本屆大會也將是第 36 屆 AAAI 大會。大會涵蓋了眾多最近研究Tutorial報告,來自Yu Meng,韓家煒等等學者共同做了關于預訓練語言表示的進展報告,非常值得關注!
本教程旨在介紹預訓練文本嵌入和語言模型(例如BERT和GPT)的最新進展,以及它們在廣泛的文本挖掘任務中的應用。本教程將系統地介紹(1) 預訓練的文本表示學習的發展,(2) 預訓練的模型如何有效地增強基本文本挖掘應用,以及(3)新的技術和方法來用于預訓練的文本表示,用于文本挖掘任務,而無需人工注釋。目標受眾包括任何對人工智能(AI)和機器學習(ML)技術感興趣的研究人員和從業人員,這些技術用于使用最先進的預訓練語言模型的自然語言和數據挖掘應用程序。觀眾將不僅了解文本表示學習和文本挖掘的背景和歷史,還將了解最新的模型和方法及其應用。我們的教程特別關注文本挖掘中的弱監督方法,這種方法需要最少的人力來學習模型。我們還將用真實的數據集演示預訓練的文本表示如何幫助減輕人類注釋的負擔,并促進自動、準確和高效的文本分析。 目標受眾包括典型的人工智能實踐者,他們可能對偏好學習有一個高層次的概念,但通常沒有意識到問題的各種挑戰性方面。該教程的新穎之處在于將不同社區的不同范式翻譯成AI語言,從而使ML/AI社區受益。本教程將是自包含的,不需要任何先決條件。具有基本AI/ML知識的觀眾將能夠理解大部分材料。
目錄內容: 引言 Introduction 第一部分:預訓練語言模型 Part I: Pre-Trained Language Models [Slides] 第二部分 重溫文本挖掘基礎 Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models 第三部分 嵌入驅動主題挖掘 Part III: Embedding-Driven Topic Discovery 第三部分 弱監督文本挖掘 Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort 第四部分 高級文本挖掘應用 Part V: Advanced Text Mining Applications Empowered by Pre-Trained Language Models [Slides]
信息檢索的核心是從大規模資源中識別出相關信息,并以排序列表的形式返回,以響應用戶的信息需求。近年來,隨著深度學習的興起,這一領域得到了極大的發展,神經信息檢索(NeuIR)成為一個熱門話題,尤其是預訓練方法范式(PTMs)。預訓練模型具有復雜的預訓練目標和龐大的模型規模,可以從海量文本數據中學習通用語言表示,這有利于IR的排序任務。由于已經有大量的工作致力于PTMs在IR中的應用,我們認為現在是總結現狀,學習現有方法,并獲得一些對未來發展的見解的時候了。本文綜述了信息檢索系統中檢索分量、重排序分量和其他分量的PTMs應用情況。此外,我們還介紹了專門為IR設計的PTMs,并總結了可用的數據集和基準排行榜。此外,我們討論了一些開放的挑戰和展望了一些有前途的方向,希望為未來的研究激發更多關于這些主題的工作。
導論
信息檢索(IR)是許多實際應用中的一項基本任務,例如數字圖書館、Web搜索、問題回答系統等等。信息檢索的核心是從大量的信息收集中識別出與用戶信息需求相關的信息資源(如查詢或問題)。由于可能有各種相關資源,返回的結果通常是根據文檔與信息需求的相關性程度排列的文檔列表。這種排序特性使其不同于其他任務,研究人員已經投入了大量的精力來開發各種IR排序模型。
在過去的幾十年中,人們提出并研究了許多不同的排序模型,包括向量空間模型(Salton et al., 1975),概率模型(Robertson and Jones, 1976b),以及學習排序(LTR)模型(Li, 2011)。這些方法已經成功地應用于許多不同的IR應用中,例如谷歌這樣的網絡搜索引擎,今日頭條這樣的新聞推薦系統,Quora這樣的社區問答平臺等等。近年來,各種各樣的神經排序模型被提出,促使了一個名為NeuIR(即神經信息檢索)的熱門話題。與以往依賴手工構造特征和統計方法的非神經模型不同,神經排序模型可以自動從數據中學習低維連續向量(即潛在表示)作為排序特征,從而避免了復雜的特征工程。盡管神經模型在IR中取得了成功,但一個主要的性能瓶頸在于大規模、高質量和標記的數據集的可用性,因為深度神經模型通常有大量的參數需要學習。
近年來,預訓練方法(PTMs)帶來了一場風暴,并推動了自然語言處理(NLP)的范式轉變(Qiu et al., 2020)。其思想是首先通過自監督訓練目標在大規模語料庫中對模型進行預訓練,然后對預訓練模型進行微調,以實現最先進的性能。正如最近的工作所證明的那樣(Peters等人,2018b;Howard和Ruder, 2018),這些預先訓練的模型能夠捕獲相當數量的詞匯知識和事實知識,這對下游任務是有益的,可以避免從頭學習這些知識。此外,隨著計算能力的增加和Transformer架構的出現(Vaswani et al., 2017),我們可以進一步將預訓練模型的參數規模從百萬級提升到十億級(例如BERT (Devlin et al., 2018)和GPT-3 (Brown et al., 2020b)),甚至萬億級(例如,SwitchTransformers (Fedus et al ., 2021))。這兩個特性都是在IR中對模型進行排序所需要的特性。目前,預訓練的模型在具有自監督建模目標的大型文本語料庫上進行預訓練,能夠更好地理解查詢和文檔語義背后的意圖。另一方面,具有深度堆疊變換器的大規模預訓練模型具有足夠的建模能力來學習查詢和文檔之間的復雜關聯模式。由于這些潛在的好處,加上預期在IR中使用PTMs也可以取得類似的成功,我們已經見證了在IR中利用PTMs 的研究興趣的爆炸性增長(Croft et al., 2009; Manning et al., 2005)。注意,在這個綜述中,我們關注的是文本檢索中的PTMs,這是IR的核心。對基于內容的圖像檢索(Dubey, 2020)或多模態檢索中PTMs感興趣的讀者可以參考(Fei et al., 2021)。
到目前為止,已有大量的研究致力于PTMs在IR中的應用。在學術上,研究者對PTMs在IR中的應用進行了各種創新和創新。例如,早期的嘗試試圖將從預訓練模型中學習到的知識直接遷移到排序模型中,并取得了一些顯著的成果(Nogueira and Cho, 2019; Dai and Callan, 2019b)。更近期的工作提出通過改變模型架構來推廣現有的預訓練模型(MacAvaney et al., 2020; Khattab and Zaharia, 2020; Gao and Callan, 2021a)或考慮新的預訓練目標(Chang et al., 2019; Ma et al., 2021b; Ma et al., 2021c),較好地滿足IR的要求。與此同時,在行業中,谷歌2019年10月的博客文章和Bing 2019年11月的博客文章都表明,預訓練的排序模型(例如,基于BERT的模型)可以更好地理解查詢意圖,并在實際的搜索系統中提供更有用的結果。此外,看看今天的排行榜,我們可以看到,大多數排名靠前的方法都是基于PTMs構建的,只要看看這些提交的名稱。考慮到在IR中關于PTMs的研究越來越多,我們認為現在是時候調查現狀,學習現有方法,并為未來的發展獲得一些見解。
本次綜述的結構安排如下。我們將首先在第2節提供IR的系統概述。在此之后,我們在第3至5節中分別回顧了應用于檢索組件、重新排序組件和其他組件的PTMs的工作。第六部分,我們介紹了為IR量身定做的新型PTMs的設計工作。我們還在第7部分總結了可用的大型數據集和流行的基準排行榜。最后,我們在第8節對本文進行了總結,并提出了一些未來研究的方向。
隨著異構醫療數據和先進的機器學習和數據挖掘技術(特別是深度學習方法)的爆炸式發展,我們現在有機會在醫療保健領域有所作為。在本教程中,我們將介紹最先進的深度學習方法及其實際應用,特別關注于探索不同類型醫療數據的獨特特征。上半部分將用于介紹挖掘結構化醫療數據方面的最新進展,包括計算表型、疾病早期檢測/風險預測和治療建議。在下半部分,我們將專注于針對非結構化醫療數據的挑戰,并介紹自動化ICD編碼的高級深度學習方法、可理解的醫學語言翻譯、臨床試驗挖掘和醫學報告生成。本教程適用于對將深度學習方法應用到醫療保健領域感興趣的學生、工程師和研究人員,前提知識很少。本教程將以開放式問題和問答環節結束。
來自華為的研究人員在UIUC2021上將給出關于預訓練模型與文本挖掘的教程,非常值得關注!
近年來,文本表示學習在廣泛的文本挖掘任務中取得了巨大的成功。早期的單詞嵌入學習方法將單詞表示為固定的低維向量,以捕獲它們的語義。然后,將學習到的詞嵌入作為特定任務模型的輸入特征。近年來,預訓練語言模型(pre-training language model, PLMs)在自然語言處理(natural language processing, NLP)領域發生了革命性的變化,自然語言處理(natural language processing, NLP)通過大規模文本語料庫上預訓練的基于transformer的神經模型來學習通用語言表示。這種預訓練過的表示對通用語言特征進行編碼,這些特征幾乎可以遷移到任何與文本相關的應用中。在許多應用中,PLM優于先前的任務特定模型,因為它們只需要對目標語料庫進行微調,而無需從頭開始訓練。
//yumeng5.github.io/kdd21-tutorial/
在本教程中,我們將介紹預訓練文本嵌入和語言模型的最新進展,以及它們在廣泛的文本挖掘任務中的應用。具體來說,我們首先概述了一組最近開發的自監督和弱監督文本嵌入方法和預訓練的語言模型,它們是下游任務的基礎。然后,我們提出了幾種基于預先訓練的文本嵌入和語言模型的新方法,用于各種文本挖掘應用,如主題發現和文本分類。我們關注的方法是弱監督、領域獨立、語言不可知、有效和可擴展的,用于從大規模文本語料庫中挖掘和發現結構化知識。我們將在真實的數據集上演示預先訓練的文本表示如何幫助減輕人工標注的負擔,并促進自動、準確和高效的文本分析。
目錄: Introduction [Slides] Part I: Text Embedding and Language Models [Slides] Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models [Slides] Part III: Embedding-Driven Topic Discovery [Slides] Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort [Slides] Part V: Advanced Text Mining Applications Empowered by Embeddings [Slides]
本教程針對的是對幫助機器理解自然語言文本的人工智能技術感興趣的研究人員和從業者,特別是文本中描述的真實世界事件。這些方法包括提取關于一個事件的主角、參與者和屬性的內部結構,以及關于多個事件的成員關系、時間和因果關系的外部結構。本教程將為讀者提供一個系統的介紹 (i) 事件的知識表示,(ii) 自動提取、概念化和預測事件及其關系的各種方法,(iii) 事件過程和屬性的歸納,和(iv) 廣泛的NLU和常識性理解任務。我們將通過概述這一領域中出現的研究問題來結束本教程。
//cogcomp.seas.upenn.edu/page/tutorial.202108/
人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘述預測得益于學習事件的因果關系,從而預測故事接下來會發生什么;機器理解文檔可能包括理解影響股市的事件、描述自然現象或識別疾病表型。事實上,事件理解在諸如開放領域問答、意圖預測、時間軸構建和文本摘要等任務中也有廣泛的重要應用。由于事件不只是簡單的、獨立的謂詞,對事件理解的前沿研究通常面臨兩個關鍵挑戰。一個挑戰是精確地歸納事件的關系,它描述了事件的隸屬關系、共參照、時間順序和因果關系。另一種是理解事件的內在結構和屬性,涉及到它的參與者、粒度、位置和時間。
在本教程中,我們將全面回顧文獻中關于以事件為中心的知識表示的現有范式,并關注它們對NLU任務的貢獻。除了引入用于事件抽取的部分標簽和無監督學習方法外,我們還將討論最近用于從文本中抽取多面事件-事件關系的約束學習和結構化推理方法。我們還將回顧最近用于事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利于敘事預測。此外,我們將說明遠距離監督方法如何幫助解決時間和因果常識對事件的理解,以及如何運用它們來構建大規模的事件知識庫。參與者將了解這個主題的最新趨勢和新出現的挑戰,代表性工具和學習資源,以獲得即用模型,以及相關模型和技術如何使最終使用NLU應用程序受益。
目錄內容: