本教程針對的是對人工智能和ML技術感興趣的研究人員和從業人員,這些技術用于從非結構化文本源中提取結構信息(IE)。特別是,本教程將通過解決幾個重要的研究問題,系統地介紹IE的最新進展。這些問題包括 (i) 如何利用少量的、有噪聲的訓練數據開發一個魯棒的IE系統,同時保證其預測的可靠性?(ii)如何通過增強系統的跨語言、跨領域、跨任務、跨模式的可移動性來培養IE的通用性? (iii)如何支持提取極細粒度和多樣化標簽的結構信息? (iv) 如何利用其他NLP任務(如NLI、QA或總結,以及預先訓練的語言模型)的間接監督來進一步提高IE ?(v)在IE系統中如何獲取知識來指導推理?我們將討論解決這些挑戰的前沿研究的幾個線,并將通過概述進一步調查的方向來結束教程。
信息抽取(Information extraction, IE)是指從非結構化或半結構化數據中自動提取結構化信息的過程。它通過識別和解析文本中描述的概念、實體、事件,并推斷它們之間的關系,為自然語言理解提供了必要的支持。在各種應用領域中,IE自動化了領域特定知識表示的昂貴獲取過程,而這些知識表示是任何知識驅動AI系統的支柱。例如,自動化知識庫的構建依賴于以實體為中心的IE技術。事件和事件鏈的提取可以幫助機器完成敘事預測和總結任務。醫學IE也有利于重要但昂貴的臨床任務,如藥物發現和再利用。盡管如此,IE的前沿研究仍然面臨著幾個關鍵的挑戰。第一個挑戰是使用語言建模表示的現有主流方法不能充分地獲取IE任務所需的基本知識和結構。第二個挑戰是開發監督較少的細粒度信息提取模型,考慮到在未標記數據上獲得結構性注釋的成本非常高。第三個挑戰是在現實場景中擴展IE系統的可靠性和通用性,在這些場景中,數據源經常包含不正確的、無效的或無法識別的輸入,以及包含看不見的標簽和混合模式的輸入。最近,通過解決這些關鍵的挑戰,最近的文獻正在導致IE系統開發的原則和方法的變革性的進步。我們認為有必要及時呈現一個教程,全面總結IE研究的新前沿,并指出值得進一步研究的新挑戰。
在本教程中,我們將系統地回顧開發魯棒、可靠和自適應學習系統以提取豐富的結構化信息的幾條前沿研究路線。除了介紹用于無監督去噪、約束捕獲和新異檢測的魯棒學習和推理方法外,我們還將討論利用來自自然語言推理和生成任務的間接監督來改進IE的最新方法。我們還將回顧最近用于訓練IE模型的最小監督方法,該方法與語言模式、語料庫統計數據或語言建模目標有一定距離的監督。此外,我們將說明如何在一個封閉域上訓練的模型能夠可靠地適應從不同域、語言和模式的數據源中產生提取,或獲取全局知識(例如,事件模式),以指導在高度多樣化的開放標簽空間上的提取。與會者將了解本主題的最新趨勢和新出現的挑戰,獲得現成模型的代表性工具和學習資源,以及相關技術如何使最終用戶的NLP應用受益。
介紹
我們將定義主要的研究問題,并通過介紹幾個真實世界的自然語言處理和IE技術的知識驅動AI應用,以及該領域前沿研究的幾個關鍵挑戰來激發這個主題。
IE的間接和最小監督
我們將介紹對IE使用間接監督的有效方法,即利用相關任務的監督信號來彌補特定訓練數據在數量和全面性方面的不足。常見的間接監督來源包括問題回答和閱讀理解、自然語言推理和生成。我們還將討論作為間接來源的結構性文本(如維基百科)。隨著大規模預訓練語言模型的突破,人們提出了探索語言模型目標作為IE的間接監督的方法。為此,我們將涉及的方法包括直接探測,以及最近使用遠程信號進行預訓練。
面向IE的魯棒學習與推理
我們將介紹提高工業工程學習系統在學習和推理階段的魯棒性的方法。這些方法包括基于共正則化知識蒸餾、標簽重加權和標簽平滑的自監督去噪技術,用于訓練噪聲魯棒的IE模型。此外,我們還將討論用于out- distribution (OOD)檢測的無監督技術、帶有回避的預測和新穎性類檢測,這些技術試圖幫助IE模型在推理階段識別無效輸入或帶有語義轉移的輸入。具體來說,為了演示模型如何確保提取的全局一致性,我們將介紹自動捕獲關系之間的邏輯約束的約束學習方法,以及在推斷中強制約束的技術。
Knowledge-guided即
從大規模語料庫中提取的全局知識表示可以指導對知識要素之間復雜聯系的推理,并有助于修正提取錯誤。我們將引入跨任務和跨實例的統計約束知識、常識知識和全局事件模式知識,這些知識有助于聯合提取實體、關系和事件。
IE系統的可遷移性
開發IE系統的一個重要挑戰在于預定義模式(例如,預定義類型的實體、關系或事件)的覆蓋范圍有限,以及對人工注釋的嚴重依賴。當轉向新的類型、領域或語言時,我們必須從頭開始,創建注釋并重新訓練提取模型。在這部分教程中,我們將介紹在提高IE可轉移性方面的最新進展,包括:(1)通過利用對抗訓練、語言不變表示和資源、預訓練的多語言模型以及數據投影進行跨語言遷移;(2)跨類型遷移,包括通過學習原型、閱讀定義、回答問題,包括零樣本和少樣本的IE;(3)跨不同基準數據集遷移。最后,我們還將討論IE終身學習的進展,以實現知識在增量更新模型之間的轉移。
跨模態IE
跨模態IE旨在從多種模態中提取結構化知識,包括非結構化和半結構化的文本、圖像、視頻、表格等。我們將從從圖像和視頻中提取視覺事件和論點開始。提取多媒體事件的關鍵是識別跨模態的相互參照和鏈接,并在共同的語義空間中表示文本和視覺知識。我們還將介紹從半結構化數據和表格數據中提取信息的方法。
未來的研究方向
工業工程是支持知識獲取的關鍵組成部分,它影響著廣泛的知識驅動AI應用。在本教程的最后,我們將介紹進一步的挑戰和潛在的研究主題,包括識別提取內容的可信度、定量推理IE、跨文檔IE、標簽語義建模,以及從語料庫中獲取潛在的但重要的信息(可能涉及報告偏見)的挑戰。
本教程針對的是對幫助機器理解自然語言文本的人工智能技術感興趣的研究人員和從業者,特別是文本中描述的真實世界事件。這些方法包括提取關于一個事件的主角、參與者和屬性的內部結構,以及關于多個事件的成員關系、時間和因果關系的外部結構。本教程將為讀者提供一個系統的介紹 (i) 事件的知識表示,(ii) 自動提取、概念化和預測事件及其關系的各種方法,(iii) 事件過程和屬性的歸納,和(iv) 廣泛的NLU和常識性理解任務。我們將通過概述這一領域中出現的研究問題來結束本教程。
//cogcomp.seas.upenn.edu/page/tutorial.202108/
人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘述預測得益于學習事件的因果關系,從而預測故事接下來會發生什么;機器理解文檔可能包括理解影響股市的事件、描述自然現象或識別疾病表型。事實上,事件理解在諸如開放領域問答、意圖預測、時間軸構建和文本摘要等任務中也有廣泛的重要應用。由于事件不只是簡單的、獨立的謂詞,對事件理解的前沿研究通常面臨兩個關鍵挑戰。一個挑戰是精確地歸納事件的關系,它描述了事件的隸屬關系、共參照、時間順序和因果關系。另一種是理解事件的內在結構和屬性,涉及到它的參與者、粒度、位置和時間。
在本教程中,我們將全面回顧文獻中關于以事件為中心的知識表示的現有范式,并關注它們對NLU任務的貢獻。除了引入用于事件抽取的部分標簽和無監督學習方法外,我們還將討論最近用于從文本中抽取多面事件-事件關系的約束學習和結構化推理方法。我們還將回顧最近用于事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利于敘事預測。此外,我們將說明遠距離監督方法如何幫助解決時間和因果常識對事件的理解,以及如何運用它們來構建大規模的事件知識庫。參與者將了解這個主題的最新趨勢和新出現的挑戰,代表性工具和學習資源,以獲得即用模型,以及相關模型和技術如何使最終使用NLU應用程序受益。
目錄內容:
深度學習已經成為自然語言處理(NLP)研究的主導方法,特別是在大規模語料庫中。在自然語言處理任務中,句子通常被認為是一系列標記。因此,流行的深度學習技術如循環神經網絡(RNN)和卷積神經網絡(CNN)在文本序列建模中得到了廣泛的應用。
然而,有大量的自然語言處理問題可以用圖結構來最好地表達。例如,序列數據中的結構和語義信息(例如,各種語法分析樹(如依賴分析樹)和語義分析圖(如抽象意義表示圖))可以通過合并特定任務的知識來擴充原始序列數據。因此,這些圖結構化數據可以對實體標記之間的復雜成對關系進行編碼,以學習更多的信息表示。然而,眾所周知,深度學習技術對歐幾里德數據(如圖像)或序列數據(如文本)具有破壞性,但不能立即適用于圖結構數據。因此,這一差距推動了對圖的深度學習的研究,特別是圖神經網絡(GNN)的發展。
這種在圖的深度學習和自然語言處理的交叉領域的研究浪潮影響了各種自然語言處理任務。應用/開發各種類型的GNN的興趣激增,并在許多自然語言處理任務中取得了相當大的成功,從分類任務如句子分類、語義角色標注和關系提取,到生成任務如機器翻譯、問題生成和摘要。
盡管取得了這些成功,NLP的圖深度學習仍然面臨許多挑戰,包括自動將原始文本序列數據轉換為高度圖結構的數據,以及有效地建模復雜數據,包括基于圖的輸入和其他高度結構化的輸出數據 (如序列、樹、并在節點和邊均具有多種類型的圖數據。本教程將涵蓋在NLP中運用深度學習圖技術的相關和有趣的主題,包括NLP的自動圖構造、NLP的圖表示學習、NLP的高級基于GNN的模型(例如graph2seq、graph2tree和graph2graph),以及GNN在各種NLP任務中的應用 (例如:機器翻譯、自然語言生成、信息提取和語義解析)。此外,還將包括動手演示課程,以幫助觀眾獲得應用GNN解決具有挑戰性的NLP問題的實際經驗,使用我們最近開發的開源庫——Graph4NLP,這是第一個為研究人員和從業者提供的庫,用于輕松地使用GNN解決各種NLP任務。
自然語言數據的一個重要子集包括跨越數千個token的文檔。處理這樣長的序列的能力對于許多NLP任務是至關重要的,包括文檔分類、摘要、多跳和開放域問答,以及文檔級或多文檔關系提取和引用解析。然而,將最先進的模型擴展到較長的序列是一個挑戰,因為許多模型都是為較短的序列設計的。一個值得注意的例子是Transformer模型,它在序列長度上有二次計算代價,這使得它們對于長序列任務的代價非常昂貴。這反映在許多廣泛使用的模型中,如RoBERTa和BERT,其中序列長度被限制為只有512個tokens。在本教程中,我們將向感興趣的NLP研究人員介紹最新和正在進行的文檔級表示學習技術。此外,我們將討論新的研究機會,以解決該領域現有的挑戰。我們將首先概述已建立的長序列自然語言處理技術,包括層次、基于圖和基于檢索的方法。然后,我們將重點介紹最近的長序列轉換器方法,它們如何相互比較,以及它們如何應用于NLP任務(參見Tay等人(2020)最近的綜述)。我們還將討論處理長序列的關鍵的各種存儲器節省方法。在本教程中,我們將使用分類、問答和信息提取作為激勵任務。我們還將有一個專注于總結的實際編碼練習。
本教程的目標讀者是對幫助機器理解自然語言文本(特別是文本中描述的真實事件)的人工智能技術感興趣的研究人員和實踐者。這些方法包括提取一個事件關于其主角、參與者和屬性的內部結構,以及關于多個事件的成員關系、時間和因果關系的外部結構。本教程將向讀者系統地介紹(i)事件的知識表示,(ii)自動提取、概念化和預測事件及其關系的各種方法,(iii)事件過程和屬性的歸納,以及(iv)大量受益于上述技術的NLU和常識理解任務。我們將概述這一領域中出現的研究問題,以此結束本教程。
//cogcomp.seas.upenn.edu/page/tutorial.202102/
人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘事預測可以通過學習事件的因果關系來預測故事接下來會發生什么;機器理解文件可能包括理解影響股票市場的事件,描述自然現象或識別疾病表型。事實上,事件理解在諸如開放域問題回答、意圖預測、時間軸構建和文本摘要等任務中也廣泛地發現了它的重要用例。由于事件不只是簡單的、獨立的謂詞,對事件理解的前沿研究通常面臨兩個關鍵挑戰。一個挑戰是精確地歸納事件之間的關系,這些關系描述了事件的成員關系、共同參照、時間順序和因果關系。另一種是理解事件的內在結構和屬性,涉及其參與者、粒度、位置和時間。
在本教程中,我們將全面回顧文獻中以事件為中心的知識表示的現有范式,并關注它們對NLU任務的貢獻。除了介紹事件提取的部分標簽和無監督學習方法外,我們還將討論最近的約束學習和結構化推理方法,用于從文本中提取多方面的事件-事件關系。我們還將回顧最近用于事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利于敘事預測。此外,我們將說明遠程監督的方法如何幫助解決對事件的時間和因果常識的理解,以及如何應用它們來構建大規模的可能性知識庫。與會者將了解該主題的最新趨勢和新出現的挑戰,獲得現成模型的代表性工具和學習資源,以及相關模型和技術如何有利于最終使用的NLU應用。
神經語言生成(NLG)——使用神經網絡模型生成連貫的文本——是自動化文本創建最有前途的方法之一。近年來,隨著深度語境語言建模(如LSTMs、GPT、GPT2)和遷移學習(如ELMo、BERT)的發展,神經文本生成出現了范式轉變。雖然這些工具極大地改善了NLG的狀態,但是對于低資源任務,最先進的NLG模型仍然面臨許多挑戰: 生成的文本缺乏多樣性,描述的情況違反常識性規則,使用事實信息的困難,以及設計可靠的評估指標的困難。在本教程中,我們將概述當前神經網絡架構的最新技術,以及它們如何形成文本生成的最新研究方向。我們將討論這些模型在生成連貫文本時如何以及為什么成功或失敗,并對幾個應用程序提供見解。
目錄內容:
簡介: 許多人工智能任務需要跨域決策。例如,許多NLP任務涉及跨多種語言的預測,其中不同語言可以被視為不同的領域;在人工智能輔助的生物醫學研究中,藥物副作用的預測通常與蛋白質和生物體相互作用的建模并行。為了支持機器學習模型來解決這類跨域任務,需要提取不同域中數據組件的特征和關系,并在統一的表示方案中捕獲它們之間的關聯。針對這一需求,表示學習的最新進展往往涉及到將不同域的未標記數據映射到共享嵌入空間。這樣,就可以通過向量配置或變換來實現跨領域的知識轉移。這種可轉移的表示在涉及跨域決策的一系列人工智能應用中取得了成功。然而,這一領域的前沿研究面臨著兩大挑戰。一是在學習資源很少的情況下,有效地從特定領域提取特征。另一種方法是在最少的監督下精確地對齊和傳輸知識,因為連接在不同域之間的對齊信息常常是不足的和有噪聲的。在本教程中,我們將全面回顧可轉移表示學習方法的最新發展,重點是針對文本、多關系和多媒體數據的方法。除了介紹域內嵌入學習方法外,我們還將討論各種半監督、弱監督、多視圖和自監督學習技術,以連接多個特定域的嵌入表示。我們還將比較域內嵌入學習和跨域對齊學習的改進和聯合學習過程。此外,我們將討論如何利用獲得的可轉移表示來解決低資源和無標簽的學習任務。參與者將了解本主題的最新趨勢和新挑戰,獲得現成模型的代表性工具和學習資源,以及相關模型和技術如何有利于現實世界的人工智能應用。
主講人簡介: Muhao Chen,博士后。他于2019年獲得加州大學洛杉磯分校計算機科學博士學位。他的研究重點是結構化和非結構化數據的數據驅動機器學習方法,并將其應用擴展到自然語言理解、知識庫構建、計算生物學和醫學信息學。特別是,他感興趣的是開發具有概括性且需要最少監督的知識感知學習系統。他的工作在主要會議和期刊上發表了30多篇文章。他的論文研究獲得了加州大學洛杉磯分校的論文獎學金。個人主頁://muhaochen.github.io/等
現實世界的大數據以自然語言文本的形式,在很大程度上是非結構化的、相互關聯的、動態的。將如此龐大的非結構化數據轉換為結構化知識是非常必要的。許多研究人員依賴于勞動密集型的標記和管理來從這些數據中提取知識,這可能是不可擴展的,特別是考慮到許多文本語料庫是高度動態的和特定于域的。我們認為,大量的文本數據本身可能揭示了大量隱藏的模式、結構和知識。基于領域無關和領域相關的知識庫,我們探索海量數據本身將非結構化數據轉化為結構化知識的能力。通過將大量的文本文檔組織成多維文本數據集,可以有效地提取和使用結構化的知識。在這次演講中,我們介紹了一組最近開發的用于這種探索的方法,包括挖掘質量短語、實體識別和鍵入、多面分類構造以及多維文本立方體的構造和探索。結果表明,數據驅動方法是將海量文本數據轉化為結構化知識的一個有前途的方向。