自然語言理解是機器對人類語言進行語義解碼的任務。NLU允許用戶使用自然句子與機器進行交互,是任何自然語言處理(NLP)系統的基礎組件。盡管機器學習方法(尤其是深度學習)在NLU任務上取得了顯著的成就,但它們仍然嚴重依賴于大量的訓練數據來確保良好的性能,不能很好地泛化到訓練數據很少的語言和領域。對于互聯網上具有大量文本數據的高資源語言(如英語、中文),獲取或收集海量數據樣本相對容易。然而,許多其他語言的在線足跡很小(例如,互聯網上不到0.1%的數據資源是泰米爾語或烏爾都語)。這使得收集這些低資源語言的數據集變得更加困難。同樣,低資源領域(如罕見疾病)的數據集也比高資源領域(如新聞)的數據集更具有挑戰性,因為這些領域的數據資源和領域專家很少。為了讓機器更好地理解低資源語言和領域中的自然句子,有必要克服數據稀缺的挑戰,因為只有很少甚至沒有訓練樣本可用。
跨語言和跨領域遷移學習方法已經被提出,從高資源語言和領域的大型訓練樣本中學習任務知識,并將其遷移到低資源語言和領域。然而,以往的方法未能有效地解決開發跨語言和跨領域系統的兩個主要挑戰,即:1)難以從低資源的目標語言(域)中學習良好的表示;2)由于語言(領域)之間的差異,任務知識很難從高資源源語言(領域)轉移到低資源目標語言(領域)。如何在深度學習框架下應對這些挑戰,需要進行新的研究。
在這篇論文中,我們專注于在深度學習框架中解決上述挑戰。首先,我們提出進一步細化跨語言的任務相關關鍵詞的表示。我們發現,通過只關注關鍵詞,低資源語言的表示可以很容易地得到很大的改進。其次,我們提出了一個用于跨語言自適應的Transformer ,發現建模部分語序而不是整個語序可以提高模型對語言語序差異和任務知識向低資源語言遷移的魯棒性。第三,我們提出在訓練前利用不同層次的領域相關語料庫和額外的數據掩蔽來進行跨領域適應,并發現更具挑戰性的訓練前可以更好地解決任務知識轉移中的領域差異問題。最后,我們引入了一個從粗到細的框架Coach,以及一個跨語言和跨領域的解析框架X2Parser。Coach將表示學習過程分解為粗粒度和細粒度特征學習,X2Parser將分層任務結構簡化為扁平化。我們觀察到,簡化任務結構使表示學習對于低資源語言和領域更有效。
總之,我們通過改進低資源表示學習和增強任務知識遷移中拓撲距離較遠的語言和領域的模型魯棒性,解決了自然語言學習中的數據稀缺問題。實驗表明,我們的模型能夠有效地適應低資源的目標語言和領域,并顯著優于之前的最先進的模型。
我們介紹了概率世界構建模型(PWM),這是一個新的完全符號化的語義解析和推理的貝葉斯模型,作為向更通用的領域和任務 NLU 和 AI 的研究計劃的第一步。人類為他們的觀察建立了內部心理模型,這大大有助于他們理解和推理各種問題的能力。在PWM中,句子的含義、獲得的關于世界的知識以及推理的中間證明步驟都用統一的人類可讀的形式語言來表達,其設計目標是可解釋性。PWM是貝葉斯式的,專門設計為能夠推廣到新的領域和任務。我們推導并實現了一種推理算法,該算法通過解析和產生對其潛伏世界模型的更新來讀取句子,從而捕獲這些句子的語義。我們表明,PWL能夠利用獲得的知識來解決解析過程中的歧義,如介詞短語的連接、主語的解決和詞匯的歧義,并且能夠理解具有更復雜語義的句子,如新概念的定義。此外,我們在兩個域外問題回答數據集上評估了PWL:(1)ProofWriter和(2)我們稱之為FictionalGeoQA的新數據集,該數據集被設計為更能代表真實語言,但仍然足夠簡單,以專注于評估推理能力,同時對啟發式方法具有魯棒性。我們的方法在這兩方面的表現都優于基線,從而證明了其作為概念驗證的價值。
由于醫療數據的多樣性和數據收集和注釋的費用高昂,數據不足和異質性是表示學習在醫學機器學習中的挑戰。為了從如此有限和異構的醫療數據中學習可泛化的表示,我們的目標是利用各種學習范式來克服這個問題。在本文中,我們系統地探索了有限數據、數據不平衡和異構數據的機器學習框架,使用跨領域學習、自我監督學習、對比學習、元學習、多任務學習和魯棒學習。我們提出了不同醫療應用的研究,如臨床語言翻譯、超聲圖像分類和分割、醫學圖像檢索、皮膚診斷分類、病理元數據預測和肺部病理預測。
//dspace.mit.edu/handle/1721.1/144745
我們首先關注有限的數據問題,這在醫學領域很常見。我們利用具有相同錨點的無監督嵌入空間對齊方法,在有限且不配對的醫學語料庫中學習臨床語言翻譯的跨領域表示,并使用統計語言建模進行句子翻譯。使用臨床正確性和可讀性的指標,開發的方法在單詞和句子級別的翻譯中優于基于詞典的算法。為了更好地學習有限數量的超聲圖像的數據表示,我們隨后采用了自我監督學習技術,并將相應的元數據作為多模態資源集成,以引入歸納偏差。我們發現,與標準遷移學習方法相比,通過開發的方法學習的表示可以獲得更好的下游任務性能,如超聲圖像質量分類和器官分割。
接下來,我們放大數據不平衡問題。本文探索了對比學習的用途,特別是孿生網絡,從不平衡的眼底成像數據集中學習表示,用于糖尿病視網膜病變圖像檢索。與標準的監督學習設置相比,我們使用從Siamese網絡學習的表示獲得了可比較但可解釋的結果。我們還利用極不平衡的長尾皮膚圖像數據集進行皮膚病分類的元學習。我們發現,使用元學習模型和使用常規類不平衡技術訓練的模型集成可以產生更好的預測性能,特別是對于罕見的皮膚病。
最后,針對異構醫療數據,我們開發了一個多模態多任務學習框架來學習病理元數據預測的共享表示。我們利用多模態融合技術集成幻燈片圖像、自由文本和結構化元數據,并采用多任務目標損失來引入學習時的歸納偏差。這比標準的單模態單任務訓練設置產生更好的預測能力。我們還應用魯棒訓練技術來學習可以解決兩個胸部x射線數據集分布轉移的表示。與標準訓練相比,我們發現當存在偏移時,魯棒訓練提供了更好的容忍度,并學習了肺病理預測的魯棒表示。本文的研究并不詳盡,但對在有限和異構的醫療數據設置下利用機器學習幫助臨床決策進行了廣泛的了解。我們還提供了見解和警告,以激發利用低資源和高維醫療數據的機器學習的未來研究方向,并希望對現實世界的臨床產生積極的影響。
推理在人類歷史的各個時期都被采用,至少從兩千年前就開始研究,可以追溯到著名的古希臘哲學家亞里士多德,他展示了形式邏輯推理的原理[1]。人工智能(AI)的長期目標之一是建立能夠對其周圍環境進行推理的系統。從傳統的專家系統到現代機器學習和深度學習驅動的系統,研究人員在為各種任務建立智能系統方面做出了不懈的努力和巨大的進展。
在這篇論文中,我們對知識推理感興趣,它要求智能系統根據輸入或現有的知識來推斷新的知識[2]。知識推理是從現有的事實和規則中得出結論的過程[3],這需要一系列的能力,包括但不限于理解概念,應用邏輯,以及基于現有知識的校準或驗證架構[4]。隨著通信技術和移動設備的爆炸性增長,今天人類的大部分集體知識都駐留在互聯網上,以非結構化和半結構化的形式存在,如文本、表格、圖像、視頻等。如果沒有搜索引擎和問題回答系統等智能系統的幫助,人類要想瀏覽巨大的互聯網知識是非常困難的。為了滿足各種信息需求,在本論文中,我們開發了對結構化和非結構化數據進行知識推理的方法。
對于結構化數據,由于現有的大規模知識庫將百科知識存儲在圖結構中,如Freebase[5]、NELL[6]和Wikidata[7],我們可以通過查詢知識庫有效地查詢感興趣的知識。
在這篇論文中,我們研究了如何用圖嵌入技術對知識圖進行多跳推理。我們還研究了如何在一個一致的概率框架內進行符號推理,這可以應用于知識完成任務,根據知圖譜中的現有事實推斷出新的知識。
盡管做出了最大的努力,現有的知識庫只能覆蓋人類知識的一小部分。人類的許多知識在本質上很難用任何允許的知識庫模式進行編碼,如常識和程序性知識[8]。事實上,絕大多數的人類知識只能存儲在非結構化文本中。為了對非結構化文本進行知識推理,在本論文中,我們利用大規模預訓練語言模型(如BERT[9],RoBERTa[10],ALBERT[11]等)的最新進展來產生高質量的上下文文本編碼,同時利用圖神經網絡在多個文檔中傳播信息。在圖神經網絡的幫助下,我們還開發了一種用于數字問題回答任務的方法,這是一個具有挑戰性的開放問題,需要對文本段落進行數字推理。
在這篇論文中,我們研究了一個假設,即圖神經網絡可以幫助提高各種知識推理任務的性能,包括知識圖譜的完成、知識感知問題的回答、開放域問題的回答等等。更具體地說,本論文試圖回答以下研究問題:
1.如何在知識圖譜上進行多跳推理?我們應該如何利用圖神經網絡來有效地學習圖感知的表示?以及,如何系統地處理人類問題中的噪音?
2.如何在一個一致的概率框架中結合深度學習和符號推理?如何使推理對大規模的知識圖譜高效且可擴展?我們能否在表示能力和模型的簡單性之間取得平衡?
3.圖形神經網絡對于知識感知的QA任務的推理模式是什么?那些精心設計的GNN模塊真的能完成復雜的推理過程嗎?它們是不夠復雜還是過于復雜?我們能不能設計一個更簡單但有效的模型來達到類似的性能?
4.如何建立一個能夠對多個檢索到的文檔進行推理的開放域問題回答系統?如何有效地對檢索到的文檔進行排序和過濾,以減少下游的答案預測模塊的噪音?如何在多個檢索到的文檔中傳播和匯集信息?
5.如何回答那些需要對文本段落進行數字推理的問題?如何使預先訓練好的語言模型能夠進行數字推理?
在接下來的章節中,我們對上述研究問題進行了探討,發現圖神經網絡可以作為一個強大的工具,用于結構化和非結構化知識源的各種知識推理任務。在基于結構化圖形的知識源上,我們在圖結構的基礎上建立圖神經網絡,為下游推理任務捕獲拓撲信息。在基于非結構化文本的知識源上,我們首先識別圖結構信息,如實體共現和實體編號綁定,然后采用圖神經網絡對構建的圖進行推理,與預訓練的語言模型一起處理知識源的非結構化部分。
如上所述,知識圖譜并不總是可以用于各種領域的知識推理任務。即使我們能夠獲得現有的知識圖譜作為知識源,它們也可能來自于自動知識提取(如Wikidata[7]和ConceptNet[12]),并有可能引入大量的噪音。因此,在本論文中,我們從建立能夠處理噪音的強大推理框架開始。我們建立了一個端到端的可訓練的QA框架,以避免級聯錯誤;我們還設計了一個概率邏輯推理框架,利用一階邏輯規則來調節知識圖譜中的噪音。由于知識圖譜的低覆蓋率問題,我們在本論文的后半部分繼續探索基于文本的知識推理。我們建立了開放領域的質量保證框架,只需要大規模的文本語料庫,如維基百科作為知識源。此外,我們還研究了如何從文本段落中提取數字知識圖譜,然后在構建的圖之上進行數字推理。
本論文的主要貢獻如下。
知識圖譜上的多跳問題回答(第三章)。對于復雜的信息需求,許多人的問題需要在知識圖譜上進行多跳知識推理。同時,當人們提出問題時,他們的表達通常是有噪聲的(例如,文本中的錯別字,或發音的變化),這對問題回答(QA)系統來說,在知識圖譜中匹配那些提到的實體是非難事。為了應對這些挑戰,我們提出了一個端到端的變異學習框架,它可以處理問題中的噪音,并同時學習進行多跳推理。我們還得出了一系列新的基準數據集,包括多跳推理的問題,由神經翻譯模型解析的問題,以及人聲中的問題。本章內容出現在AAAI 2018的論文集中[13]。
知識圖譜的概率邏輯推理(第四章)。作為一個優雅而強大的工具,馬爾科夫邏輯網絡(MLN)成功地結合了邏輯規則和概率圖模型,可以解決許多知識圖的推理問題。然而,MLN推理的計算量很大,使得MLN的工業規模應用非常困難。近年來,圖神經網絡(GNNs)已經成為解決大規模圖問題的高效工具。然而,GNN并沒有明確地將先驗邏輯規則納入模型,而且可能需要許多標記的例子來完成目標任務。我們探索了MLN和GNN的結合,并將圖神經網絡用于MLN的變異推理。本章的內容出現在ICLR 2020的論文集中[14]。
圖神經網絡的知識推理模式(第五章)。為了接近人類復雜的推理過程,最先進的質量保證系統通常使用精心設計的基于圖神經網絡(GNNs)的模塊來進行知識圖譜(KGs)的推理。然而,關于這些基于GNN的模塊的推理功能,許多問題仍然沒有解決。這些基于GNN的模塊真的能進行復雜的推理過程嗎?對于質量保證來說,它們是不夠復雜還是過于復雜?為了打開GNN的黑匣子并研究這些問題,我們剖析了最先進的用于質量保證的GNN模塊并分析了它們的推理能力。我們發現,即使是一個非常簡單的圖形神經計數器也能在流行的QA基準數據集上勝過所有現有的GNN模塊。我們的工作揭示了現有的知識感知型GNN模塊可能只進行一些簡單的推理,如計數。為知識驅動的質量保證建立全面的推理模塊仍然是一個具有挑戰性的開放問題。本章內容已提交給ICLR 2022,目前正在審核中。
多文檔的開放域問題回答(第6章)。作為一個實際的應用,開放域的質量保證需要檢索多個支持性文件。文檔檢索過程中往往會產生更多的相關但不支持的文檔,這就抑制了下游的噪聲敏感的答案預測模塊。為了應對這一挑戰,我們開發了一種方法來迭代檢索、重新排序和過濾文檔,并自適應地確定何時停止檢索過程。重排文檔是一個關鍵步驟,但由于問題和每個檢索到的文檔都是串聯的,所以非常耗時。因此,我們提出了一個解耦的上下文編碼框架,它有雙重的BERT模型:一個在線BERT,只對問題進行一次編碼;一個離線BERT,對所有的文檔進行預編碼并緩存其編碼。本章內容出現在SIGIR 2020[15]和SIGIR 2021[16]的論文集中。
文本段落上的數字問題回答(第7章)。對文本段落的數字推理,如加法、減法、分類和計數,是一項具有挑戰性的機器閱讀理解任務,因為它需要自然語言理解和算術計算。我們試圖使預先訓練好的語言模型,如BERT,在圖神經網絡的幫助下進行數字推理。更具體地說,我們為這種推理所需的段落和問題的上下文提出了一個異質圖表示,并設計了一個問題定向圖注意網絡來驅動所構建的異質圖上的多步驟數字推理。本章內容出現在EMNLP 2020的論文集中[17]。
我們首先在第二章中對相關工作進行了概述,作為本論文的背景。接下來的5章(三-七章)分為兩部分。第一部分探討了結構化數據的知識推理,包括多跳問題回答(第三章)和概率邏輯推理(第四章),這兩部分都是在現有的知識圖上工作。然后,我們研究圖神經網絡如何為知識意識的問題回答任務進行推理(第五章)。第二部分將重點轉向非結構化數據的知識推理,包括開放領域的問題回答(第六章)和數字問題回答(第七章),兩者都是在非結構化文本上工作。我們在第八章中總結了論文并討論了未來的研究方向。
在大量標記語音數據上使用監督學習算法訓練的深度神經網絡在各種語音處理應用中取得了顯著的性能,往往在相應的排行榜上處于領先地位。然而,訓練這些系統依賴于大量帶注釋的語音這一事實,為繼續發展最先進的性能造成了可擴展性瓶頸,而且對在語音領域部署深度神經網絡構成了更根本的障礙,因為標記數據本質上是罕見的,昂貴的,或耗時的收集。
與帶注釋的語音相比,未轉錄的音頻通常積累起來要便宜得多。在這篇論文中,我們探索使用自我監督學習——一種學習目標由輸入本身產生的學習范式——來利用這種易于擴展的資源來提高口語技術的性能。提出了兩種自監督算法,一種基于"未來預測"的思想,另一種基于"從未被掩碼中預測被掩碼"的思想,用于從未標記語音數據中學習上下文化語音表示。我們證明了我們的自監督算法能夠學習表征,將語音信號的高級屬性,如語音內容和說話人特征轉換為比傳統聲學特征更容易獲得的形式,并證明了它們在提高深度神經網絡在廣泛的語音處理任務中的性能方面的有效性。除了提出新的學習算法,我們還提供了廣泛的分析,旨在理解學習的自監督表示的屬性,以及揭示使一個自監督模型不同于另一個的設計因素。 //dspace.mit.edu/handle/1721.1/144761
如今,深度神經網絡或深度學習技術為最先進的人工智能系統提供了能力,用于各種數據類型的廣泛應用——圖像分類(He et al.,2016;Liu et al.,2022)、機器翻譯(Vaswani et al.,2017)和語音識別(Gulati et al.,2020)等等。然而,訓練這些系統的傳統范式一直是監督學習,其中系統的性能隨著用于訓練它們的標記數據的大小大致呈對數增長(Sun et al.,2017)。獲取這種帶注釋的數據的成本已經被證明是最先進系統持續開發的可擴展瓶頸,而且對于在數據和注釋收集本來就很少、昂貴或耗時的應用領域部署深度神經網絡來說,這是一個更根本的障礙。
上述情況激發了一波關于自監督表征學習的研究浪潮,其中,由精心設計的前置任務生成的免費標簽被用作監督信號,以預訓練深度神經網絡。然后,從預訓練的深度神經網絡的參數全部或部分用于初始化任務特定的深度神經網絡的參數,以解決下游的任務,使用比傳統監督學習相對較少的注釋數據。自監督指的是要求深度神經網絡預測給定的輸入數據的一部分(或通過編程派生的標簽)的學習任務。
自監督學習技術已被成功地用于提高各種模式下學習的樣本效率,包括圖像(Chen et al., 2020; Grill et al., 2020; Caron et al., 2020),視頻(Xu et al., 2019; Alwassel et al., 2020),語音和音頻(Baevski et al., 2020b; Gong et al., 2022),文本(Mikolov et al., 2013; Peters et al., 2018b; Devlin et al., 2019; Liu et al., 2019),到圖表(Velickovic et al.,2019年),舉幾個例子。一些結果表明,自監督表示的質量也是未標記訓練前數據量的對數函數(Goyal等人,2019)。如果這一趨勢保持不變,那么隨著時間的推移,可實現的性能可能會“免費”提高,因為數據收集和計算能力的改進允許使用越來越大的預訓練集,而不需要手動注釋新數據。在本論文中,我們著重于將自監督學習策略應用于語音領域,目的是推動口語技術的最先進性能,并提高訓練它們的數據效率。我們致力于開發新的自監督語音表征學習方法,并分析其學習表征的特性。
論文貢獻:
1. 介紹了最早成功的自監督語音表征學習框架之一。我們利用了“未來預測”的思想,并提出了一個簡單而有效的自監督目標,稱為自回歸預測編碼(APC),用于訓練深度神經網絡。設計的未來幀預測任務能夠利用未標記的語音數據學習表示,使語音的高級屬性,如語音內容和說話人的特征更容易被下游任務訪問(定義為線性可分性)。APC是最早展示自監督表征優于傳統手工制作的聲學特征(如Mel-frequency倒譜系數(MFCCs)和log Mel 聲譜圖)的工作之一,表明使用自監督學習來提高口語技術表現的潛力。
2. 介紹了目前最先進的自監督語音表示學習框架之一。我們利用了“從未掩碼中預測掩碼”的想法,并提出了w2v-BERT,這是目前最先進的框架之一,用于對語音應用的深度神經網絡進行預訓練。我們訓練一個語音離散器(通過優化對比損失)來將連續語音信號表示為鑒別標記,并使用它們來訓練一個類似BERT的模型。與vq-wav2vec和HuBERT等現有框架相比,w2v-BERT可以以端到端方式優化離散化器和上下文網絡,避免了多個訓練階段之間的協調,這些階段往往涉及脆弱的建模選擇。我們展示了w2v-BERT的有效性,在基準良好的語音識別數據集和谷歌收集的語音搜索數據集上,它優于包括HuBERT和wav2vec 2.0在內的最新技術。
3.引入一種分析方法,能夠在自監督的目標和他們學習表示的屬性之間建立連接。我們探索使用矢量量化來控制深度神經網絡內部的信息流量,以獲得具有相同的自監督目標但模型容量下降的模型譜。我們將這種分析方法應用于APC的研究,并診斷了APC在模型容量受限時保存信息的偏好。我們的分析結果解釋了為什么APC可以學習捕捉高級語音和說話人信息的表征。該分析方法具有普適性,也可用于其他自監督目標的分析。
4. 不同自監督模型的幾個共享性質的演示。在分析我們自己和其他已有的自監督模型時,我們發現,盡管這些模型在訓練目標和神經網絡結構上存在差異,但它們都存在一些共同的特性。這類屬性之一就是隱式發現有意義的聲音單元庫存的能力。我們發現,在自監督模型中通常存在一些層,其中表示與英語電話具有相當高的互信息(當模型在英語語料庫上訓練時),即使模型沒有明確地訓練以發現它們。大多數自監督模型共有的另一個特性是,不同層次的語音信息被捕獲在不同的層中,盡管信息分布可能因模型而異。例如,在APC中,較低的層次往往對說話者更具辨別能力,而較高層提供更多的語音內容。意識到這一點有助于選擇適當的層,從中提取表示,以便在感興趣的任務中獲得最佳性能。
5. 識別訓練影響其表征相似性的自監督模型的建模因素的重要性順序。我們在訓練過程中比較了一組具有不同建模選擇的自監督模型,并使用諸如典型相關分析(CCA)等措施來量化它們的兩兩相似性。我們考慮了三個建模因素: 訓練目標、模型的方向性(即模型是單向的還是雙向的)和神經網絡構建塊(CNN/RNN/Transformer),并表明這三個因素在使一個自監督表示不同于另一個方面具有不同的權重。具體而言,我們發現在所有因素中,訓練目標對表征相似性的影響最大;在相同的訓練目標下,模型的方向性對表征相似性的影響大于其神經網絡構件。
本教程針對的是對人工智能和ML技術感興趣的研究人員和從業人員,這些技術用于從非結構化文本源中提取結構信息(IE)。特別是,本教程將通過解決幾個重要的研究問題,系統地介紹IE的最新進展。這些問題包括 (i) 如何利用少量的、有噪聲的訓練數據開發一個魯棒的IE系統,同時保證其預測的可靠性?(ii)如何通過增強系統的跨語言、跨領域、跨任務、跨模式的可移動性來培養IE的通用性? (iii)如何支持提取極細粒度和多樣化標簽的結構信息? (iv) 如何利用其他NLP任務(如NLI、QA或總結,以及預先訓練的語言模型)的間接監督來進一步提高IE ?(v)在IE系統中如何獲取知識來指導推理?我們將討論解決這些挑戰的前沿研究的幾個線,并將通過概述進一步調查的方向來結束教程。
信息抽取(Information extraction, IE)是指從非結構化或半結構化數據中自動提取結構化信息的過程。它通過識別和解析文本中描述的概念、實體、事件,并推斷它們之間的關系,為自然語言理解提供了必要的支持。在各種應用領域中,IE自動化了領域特定知識表示的昂貴獲取過程,而這些知識表示是任何知識驅動AI系統的支柱。例如,自動化知識庫的構建依賴于以實體為中心的IE技術。事件和事件鏈的提取可以幫助機器完成敘事預測和總結任務。醫學IE也有利于重要但昂貴的臨床任務,如藥物發現和再利用。盡管如此,IE的前沿研究仍然面臨著幾個關鍵的挑戰。第一個挑戰是使用語言建模表示的現有主流方法不能充分地獲取IE任務所需的基本知識和結構。第二個挑戰是開發監督較少的細粒度信息提取模型,考慮到在未標記數據上獲得結構性注釋的成本非常高。第三個挑戰是在現實場景中擴展IE系統的可靠性和通用性,在這些場景中,數據源經常包含不正確的、無效的或無法識別的輸入,以及包含看不見的標簽和混合模式的輸入。最近,通過解決這些關鍵的挑戰,最近的文獻正在導致IE系統開發的原則和方法的變革性的進步。我們認為有必要及時呈現一個教程,全面總結IE研究的新前沿,并指出值得進一步研究的新挑戰。
在本教程中,我們將系統地回顧開發魯棒、可靠和自適應學習系統以提取豐富的結構化信息的幾條前沿研究路線。除了介紹用于無監督去噪、約束捕獲和新異檢測的魯棒學習和推理方法外,我們還將討論利用來自自然語言推理和生成任務的間接監督來改進IE的最新方法。我們還將回顧最近用于訓練IE模型的最小監督方法,該方法與語言模式、語料庫統計數據或語言建模目標有一定距離的監督。此外,我們將說明如何在一個封閉域上訓練的模型能夠可靠地適應從不同域、語言和模式的數據源中產生提取,或獲取全局知識(例如,事件模式),以指導在高度多樣化的開放標簽空間上的提取。與會者將了解本主題的最新趨勢和新出現的挑戰,獲得現成模型的代表性工具和學習資源,以及相關技術如何使最終用戶的NLP應用受益。
介紹
我們將定義主要的研究問題,并通過介紹幾個真實世界的自然語言處理和IE技術的知識驅動AI應用,以及該領域前沿研究的幾個關鍵挑戰來激發這個主題。
IE的間接和最小監督
我們將介紹對IE使用間接監督的有效方法,即利用相關任務的監督信號來彌補特定訓練數據在數量和全面性方面的不足。常見的間接監督來源包括問題回答和閱讀理解、自然語言推理和生成。我們還將討論作為間接來源的結構性文本(如維基百科)。隨著大規模預訓練語言模型的突破,人們提出了探索語言模型目標作為IE的間接監督的方法。為此,我們將涉及的方法包括直接探測,以及最近使用遠程信號進行預訓練。
面向IE的魯棒學習與推理
我們將介紹提高工業工程學習系統在學習和推理階段的魯棒性的方法。這些方法包括基于共正則化知識蒸餾、標簽重加權和標簽平滑的自監督去噪技術,用于訓練噪聲魯棒的IE模型。此外,我們還將討論用于out- distribution (OOD)檢測的無監督技術、帶有回避的預測和新穎性類檢測,這些技術試圖幫助IE模型在推理階段識別無效輸入或帶有語義轉移的輸入。具體來說,為了演示模型如何確保提取的全局一致性,我們將介紹自動捕獲關系之間的邏輯約束的約束學習方法,以及在推斷中強制約束的技術。
Knowledge-guided即
從大規模語料庫中提取的全局知識表示可以指導對知識要素之間復雜聯系的推理,并有助于修正提取錯誤。我們將引入跨任務和跨實例的統計約束知識、常識知識和全局事件模式知識,這些知識有助于聯合提取實體、關系和事件。
IE系統的可遷移性
開發IE系統的一個重要挑戰在于預定義模式(例如,預定義類型的實體、關系或事件)的覆蓋范圍有限,以及對人工注釋的嚴重依賴。當轉向新的類型、領域或語言時,我們必須從頭開始,創建注釋并重新訓練提取模型。在這部分教程中,我們將介紹在提高IE可轉移性方面的最新進展,包括:(1)通過利用對抗訓練、語言不變表示和資源、預訓練的多語言模型以及數據投影進行跨語言遷移;(2)跨類型遷移,包括通過學習原型、閱讀定義、回答問題,包括零樣本和少樣本的IE;(3)跨不同基準數據集遷移。最后,我們還將討論IE終身學習的進展,以實現知識在增量更新模型之間的轉移。
跨模態IE
跨模態IE旨在從多種模態中提取結構化知識,包括非結構化和半結構化的文本、圖像、視頻、表格等。我們將從從圖像和視頻中提取視覺事件和論點開始。提取多媒體事件的關鍵是識別跨模態的相互參照和鏈接,并在共同的語義空間中表示文本和視覺知識。我們還將介紹從半結構化數據和表格數據中提取信息的方法。
未來的研究方向
工業工程是支持知識獲取的關鍵組成部分,它影響著廣泛的知識驅動AI應用。在本教程的最后,我們將介紹進一步的挑戰和潛在的研究主題,包括識別提取內容的可信度、定量推理IE、跨文檔IE、標簽語義建模,以及從語料庫中獲取潛在的但重要的信息(可能涉及報告偏見)的挑戰。
傳統的機器學習范式在單個任務上訓練特定任務模型,已經在許多領域(如計算機視覺和自然語言處理)取得了最先進的性能。為了使機器學習模型具有更廣泛的適用性,遷移學習旨在適應從源任務中學習到的知識,以提高在其他目標任務中的表現。然而,現有的遷移學習范式還有待進一步研究,因此我們對其潛在的局限性、潛在的機制以及實現更智能遷移的解決方案的認識有限。特別是,當知識從一個不太相關的來源轉移時,可能會對目標性能造成負面影響,這種現象稱為負轉移。然而,負遷移的原因尚不明確,負遷移如何影響模型的泛化和樣本效率也不清楚。在這篇論文中,我們的目標是徹底描述和解決機器學習模型中的負遷移,我們仔細研究了流行的視覺和自然語言處理設置中的負遷移,收集了其原因的見解,并提出了提高泛化和樣本效率的解決方案。本文由三個部分組成。第一部分對當前遷移學習模型中的負遷移現象進行了系統的分析。我們在領域適應和多語言自然語言處理模型中正式描述了其條件,并證明任務沖突是負遷移的一個關鍵因素。在第二部分,我們提出了各種對齊方法,通過更好的對齊表示和梯度解決上述任務沖突,增強可轉移模型的泛化。最后,在第三部分,我們探索了有效樣本遷移學習算法,使用較少的訓練和/或校準數據來緩解負遷移。本文的主要貢獻包括對遷移學習中的負遷移問題提出了新的見解,提出了一系列實用的方法和算法,提高了模型的泛化和效率。
//www.lti.cs.cmu.edu/sites/default/files/wang%2C%20zirui%20-%20final%20thesis.pdf
持續學習變得越來越重要,因為它使NLP模型能夠隨著時間的推移不斷地學習和獲取知識。以往的持續學習方法主要是為了保存之前任務的知識,并沒有很好地將模型推廣到新的任務中。在這項工作中,我們提出了一種基于信息分解的正則化方法用于文本分類的持續學習。我們提出的方法首先將文本隱藏空間分解為對所有任務都適用的表示形式和對每個單獨任務都適用的表示形式,并進一步對這些表示形式進行不同的規格化,以更好地約束一般化所需的知識。我們還介紹了兩個簡單的輔助任務:下一個句子預測和任務id預測,以學習更好的通用和特定表示空間。在大規模基準上進行的實驗證明了我們的方法在不同序列和長度的連續文本分類任務中的有效性。
當前自然語言處理的發展為低資源語言和領域提供了挑戰和機遇。眾所周知,深度神經網絡需要大量的訓練數據,而這些數據在資源貧乏的情況下可能無法得到。然而,也有越來越多的工作來提高低資源環境下的性能。基于對神經模型的基本改變和目前流行的預訓練和微調范式,我們概述了低資源自然語言處理的有前途的方法。在討論了低資源場景的定義和數據可用性的不同維度之后,我們接著研究了在訓練數據稀少時支持學習的方法。這包括創建附加標簽數據的機制,如數據增強和遠程監督,以及轉移學習設置,以減少對目標監督的需要。調查結束時,簡要地看了一下在非NLP機器學習社區中建議的方法,這些方法在資源少的情況下可能對NLP有益。
教機器理解人類語言文檔是人工智能中最難以捉摸和長期存在的挑戰之一。本文探討了閱讀理解的問題:如何構建計算機系統來閱讀文章和回答理解問題。一方面,我們認為閱讀理解是評價計算機系統對人類語言理解程度的一項重要任務。另一方面,如果我們能夠構建高性能的閱讀理解系統,那么它將成為問答和對話系統等應用的關鍵技術。本文以神經閱讀理解為研究對象:一種基于深度神經網絡的閱讀理解模型。與傳統的稀疏的、手工設計的基于特征的模型相比,這些端到端神經模型在學習豐富的語言現象方面更加有效,并且在所有現代閱讀理解基準上的表現都有很大的提高。本文由兩部分組成。第一部分是對神經閱讀理解的本質進行概括,介紹我們在構建有效的神經閱讀理解模型方面所做的努力,更重要的是了解神經閱讀理解模型實際學到了什么,以及解決當前任務需要什么樣的語言理解深度。我們還總結了該領域的最新進展,討論了該領域的未來發展方向和有待解決的問題。在本文的第二部分,我們探討了如何在最近神經閱讀理解成功的基礎上建立實際應用。特別是,我們開創了兩個新的研究方向:1)如何將信息檢索技術與神經閱讀理解相結合,解決大規模開放領域的問題;(2)如何從當前的單圈、跨步閱讀理解模式中構建會話問答系統。我們在DrQA和CoQA項目中實現了這些想法,并證明了這些方法的有效性。我們相信他們對推動未來的語言技術有很大幫助。