機器學習和數據挖掘中的許多重要問題,如知識庫推理、個性化實體推薦、科學假設生成等,都可以歸結為圖數據結構上的學習和推理。這些問題代表了推進圖學習的令人興奮的機會,但也帶來了重大挑戰。由于圖通常是稀疏的,并且由模式定義,因此它們通常不能完全捕獲數據中潛在的復雜關系。將圖與豐富的輔助文本模態相結合的模型具有更高的表達潛力,但聯合處理這些不同的模態——即稀疏的結構化關系和密集的非結構化文本——并不是直接的。
本文考慮了通過結合結構和文本來改進圖學習的重要問題。論文的第一部分考慮了關系知識表示和推理任務,展示了預訓練上下文語言模型在為圖結構知識庫增加新的深度和豐富度方面的巨大潛力。論文的第二部分超越了知識庫,通過對文檔交互和內容進行聯合建模,改進信息檢索和推薦系統中出現的圖學習任務。所提出的方法在單模態和跨模態基線上不斷提高準確性,這表明,通過適當選擇的歸納偏差和仔細的模型設計,可以充分利用結構和文本的獨特互補方面。
//deepblue.lib.umich.edu/handle/2027.42/174515
深度學習的發展導致了在各種應用領域的各種任務上的顯著性能提升,這些應用領域包括計算機視覺、自然語言處理、強化學習、生成模型,以及最近從圖結構數據中進行的關系學習。這一成功的主要原因是計算能力的提高,這允許深度和高度參數化的神經網絡架構,這些架構可以從原始數據中學習復雜的特征轉換。然而,深度神經網絡的高表示能力往往是以高模型復雜度為代價的,這指的是高參數化,以及與深度學習相關的內存和計算負擔。**在本文中,我依靠參數有效的神經算子,對數據的適當建模假設和網絡結構的歸納偏差,在幾個應用領域提出更簡單的神經網絡模型。**對于我工作的每個應用領域,我使用這些效率原則的組合來設計新穎的方法。首先,在醫學圖像處理的背景下,我觀察到空間對齊的神經圖像比自然圖像表現出更少的自由度,這證明使用低容量卷積算子是合理的。我通過應用參數高效的卷積變體來實現這一點。我展示了早期阿爾茨海默病預測的最先進結果,同時使用的參數減少了多達125倍,乘累加操作減少了17倍以上。對于設計用于識別受試者亞型的神經圖像的無監督方法也得出了類似的結論。其次,我著手緩解從零開始訓練參數高效的深度模型的挑戰。這可以減少在資源受限的"邊緣"設備上訓練深度模型的不可行性。所提方法基于一個簡化的網絡結構假設,即參數無關性,允許在組合多臂匪徒的背景下建模問題。該方法可以動態地,即在訓練期間,在遵循預定義的內存使用預算的同時,在超參數化模型中識別高性能緊湊的子網絡。這是通過將顯著性指標與每個神經元相關聯來實現的,然后用于驅動參數激活,類似于門控機制,同時學習參數。因此,深度神經網絡訓練和推理過程中的計算和內存負擔都顯著減少。最后,提出一種深度概率模型,用于學習動態圖中的無監督節點和社區嵌入。基于網絡固有的社團結構,引入了關于邊形成機制的結構歸納偏差。此外,我還假設節點和社區都是平滑的時間演化,其靈感來自于數據中缺乏破壞性事件。本文提出一種該方法的參數高效實現,在各種動態預測任務上優于最先進的圖卷積網絡。
與2D圖像數據相比,3D信息與人類的視覺感知更密切相關,有助于智能機器更好地了解世界。三維信息預測和理解,如結構預測和語義分析,在三維視覺感知中起著重要的作用。具體到3D結構,比如深度數據,雖然我們可以從各種3D傳感器中獲取它,但在機器學習框架中,仍然有大量的嘗試從單個圖像、視頻序列、立體聲數據或多模態數據中預測它。主要原因是3D傳感器通常價格昂貴,捕獲的3D數據通常稀疏且有噪聲。此外,網站中還有大量的圖片,我們希望從中獲取深度圖。最近的研究表明,深度神經網絡,如深度卷積神經網絡(DCNNs),在相關任務中具有優勢。盡管深度學習取得了巨大的成功,但仍有許多具有挑戰性的問題需要解決。例如,盡管有監督深度學習促使深度估計模型的性能有了很大的提高,但在許多場景下,對大量真實深度數據的需求很難滿足。因此,訓練三維結構估計模型需要采用無監督學習策略。在本文中,我們以一個眾所周知的具體任務,即單目深度估計為例,來研究這一問題。為了降低對真實深度的要求,研究了在合成數據上學習深度模型的域自適應技術,并探索真實數據中的幾何信息,使域自適應過程感知真實域的幾何結構。除了單幅或多幅圖像的預測外,我們還可以從多模態數據中估計深度,例如RGB圖像數據與3D激光掃描數據的耦合。為了實現這一目標,需要解決一些具有挑戰性的問題。例如,由于3D數據通常是稀疏且不規則分布的,我們需要從稀疏數據中建模上下文信息并融合多模態特征。在本文中,我們通過研究深度完成任務來考察這些問題。具體而言,我們提出采用圖傳播來捕獲觀測到的空間上下文,并引入對稱門控融合策略來有效地結合提取的多模態特征。
目前,各種經典的DCNNs被提出用于處理二維圖像數據進行各種分析,如語義理解。而三維點集作為一種重要的三維信息表示形式,由于其稀疏性和無序性,為了理解語義內容,需要新的操作來建模局部形狀,而不是傳統的卷積。在本文中,我們選擇點集作為三維數據的表示形式,即三維點云,然后設計了一個點云分析的基本操作。以往的工作主要考慮相鄰點對之間的關系進行特征聚合,而忽略了編碼局部形狀結構的邊之間的關系。為了提供補救,本文提出了一個新的自適應邊到邊交互學習模塊。此外,由于三維激光掃描儀配置的多樣性,捕獲的三維數據往往因數據集的對象大小、密度和視角而異。因此,三維數據分析中的域泛化問題也是一個關鍵問題。然而,據我們所知,這個問題仍然沒有得到充分的探索。為了對這一問題進行初步探索,本文還通過提出一個熵正則化項來研究3D形狀分類中的域泛化,該項衡量學習到的特征和類標簽之間的依賴性。
本文通過對4個具體任務的研究,圍繞模型設計、多模態融合、稀疏數據分析、無監督學習、域適應和域泛化等關鍵問題展開研究。
//ses.library.usyd.edu.au/handle/2123/27482
自人工智能早期以來,構建可以與人類自然對話的對話智能體的目標一直是研究人員的一個長期夢想。著名的圖靈測試(Turing Test)提出根據人工智能智能體與人類對話的不可區分性來判斷其最終有效性。毫無疑問,構建人類級別的對話系統非常具有挑戰性。但是,雖然基于規則的系統的早期努力取得了有限的成功,但深度學習的出現使這一主題取得了巨大的進展。
本文專注于解決許多問題的方法,這些問題一直在人工對話智能體和人類級別的對話者之間造成差距。這些方法是在通用的最先進的人工智能方法的啟發下提出和實驗的。但他們也針對對話系統所具有的特征。首先,擴展了對話系統可以依賴的信息的多樣性。在其最簡單和最常見的形式中,對話由回應和它們的前面的文本上下文組成。然而,與現實世界的人類對話相比,這種表示并不理想,后者往往依賴于其他模態和特定的知識庫。為了將對話條件化為更多模態,本文探索了由輸入的音頻表示增強的對話生成。設計了一個輔助的響應分類任務,為對話生成目標學習合適的音頻表示。我們使用詞級模態融合將音頻特征集成到序列到序列學習框架中。該模型可以產生與音頻中表達的情感和重點相對應的適當響應。常識知識必須有效地集成到對話系統中,以便以一種有趣和參與的方式回應人類的話語。作為首次嘗試將大型常識知識庫整合到端到端的會話模型中,本文提出了一種聯合考慮上下文及其相關常識知識的模型來選擇合適的響應。本文證明了知識增強模型優于無知識模型。
雖然上述兩個方向都致力于將對話建立在各種新信息的基礎上,但它們并不是對話系統面臨的唯一挑戰。傳統上,構建智能對話系統的目標在很大程度上是在兩種范式下分別追求的:任務導向型對話系統(執行特定任務的功能)和開放域對話系統(專注于非目標導向型對話)。這兩種對話模式可以在同一對話中無縫地交織在一起,就像友好的人類助手很容易做到的那樣。本文還對多輪對話中兩種對話模式的融合問題進行了研究。構建了一個新的數據集FusedChat,其中包含包含來自兩種對話模式的對話會話,具有模式間上下文依賴。本文提出了兩個基線模型,并分析了它們的準確性。
最后但并非最不重要的是,我們展示了我們在解決大規模基于檢索的對話系統面臨的計算效率問題上的努力。基于大型自然候選集的強檢索對話系統可以產生多樣化和可控的響應。然而,一個大的候選集可能是計算成本很高的。我們提出了支持快速和準確的響應檢索系統的方法。為了提高準確性,我們采用了一種知識蒸餾方法,其中使用了一個非常強大但計算成本很高的聯合編碼模型來促進編碼器的訓練。然后,我們采用基于學習的候選篩選方法來提高檢索速度,進一步減少推理時間。我們證明了我們的模型在檢索精度和速度權衡方面表現強勁。綜上所述,本文系統地展示了我們在創新對話系統方面所做的努力。我們相信,我們所關注的研究問題是最終將自動對話代理提高到人類水平的重要方面。隨著我們在過去4年里不斷創新對話系統的努力,以及最先進的NLP模型逐年快速發展,我們注意到我們早期工作中使用的一些模型(例如LSTMs)無法與今天可用的最先進的模型(例如GPT3)競爭。在這種情況下,我們簡要而系統地解釋以下工作(當前最先進的技術),這些工作源于我們工作中展示的方法。
推理在人類歷史的各個時期都被采用,至少從兩千年前就開始研究,可以追溯到著名的古希臘哲學家亞里士多德,他展示了形式邏輯推理的原理[1]。人工智能(AI)的長期目標之一是建立能夠對其周圍環境進行推理的系統。從傳統的專家系統到現代機器學習和深度學習驅動的系統,研究人員在為各種任務建立智能系統方面做出了不懈的努力和巨大的進展。
在這篇論文中,我們對知識推理感興趣,它要求智能系統根據輸入或現有的知識來推斷新的知識[2]。知識推理是從現有的事實和規則中得出結論的過程[3],這需要一系列的能力,包括但不限于理解概念,應用邏輯,以及基于現有知識的校準或驗證架構[4]。隨著通信技術和移動設備的爆炸性增長,今天人類的大部分集體知識都駐留在互聯網上,以非結構化和半結構化的形式存在,如文本、表格、圖像、視頻等。如果沒有搜索引擎和問題回答系統等智能系統的幫助,人類要想瀏覽巨大的互聯網知識是非常困難的。為了滿足各種信息需求,在本論文中,我們開發了對結構化和非結構化數據進行知識推理的方法。
對于結構化數據,由于現有的大規模知識庫將百科知識存儲在圖結構中,如Freebase[5]、NELL[6]和Wikidata[7],我們可以通過查詢知識庫有效地查詢感興趣的知識。
在這篇論文中,我們研究了如何用圖嵌入技術對知識圖進行多跳推理。我們還研究了如何在一個一致的概率框架內進行符號推理,這可以應用于知識完成任務,根據知圖譜中的現有事實推斷出新的知識。
盡管做出了最大的努力,現有的知識庫只能覆蓋人類知識的一小部分。人類的許多知識在本質上很難用任何允許的知識庫模式進行編碼,如常識和程序性知識[8]。事實上,絕大多數的人類知識只能存儲在非結構化文本中。為了對非結構化文本進行知識推理,在本論文中,我們利用大規模預訓練語言模型(如BERT[9],RoBERTa[10],ALBERT[11]等)的最新進展來產生高質量的上下文文本編碼,同時利用圖神經網絡在多個文檔中傳播信息。在圖神經網絡的幫助下,我們還開發了一種用于數字問題回答任務的方法,這是一個具有挑戰性的開放問題,需要對文本段落進行數字推理。
在這篇論文中,我們研究了一個假設,即圖神經網絡可以幫助提高各種知識推理任務的性能,包括知識圖譜的完成、知識感知問題的回答、開放域問題的回答等等。更具體地說,本論文試圖回答以下研究問題:
1.如何在知識圖譜上進行多跳推理?我們應該如何利用圖神經網絡來有效地學習圖感知的表示?以及,如何系統地處理人類問題中的噪音?
2.如何在一個一致的概率框架中結合深度學習和符號推理?如何使推理對大規模的知識圖譜高效且可擴展?我們能否在表示能力和模型的簡單性之間取得平衡?
3.圖形神經網絡對于知識感知的QA任務的推理模式是什么?那些精心設計的GNN模塊真的能完成復雜的推理過程嗎?它們是不夠復雜還是過于復雜?我們能不能設計一個更簡單但有效的模型來達到類似的性能?
4.如何建立一個能夠對多個檢索到的文檔進行推理的開放域問題回答系統?如何有效地對檢索到的文檔進行排序和過濾,以減少下游的答案預測模塊的噪音?如何在多個檢索到的文檔中傳播和匯集信息?
5.如何回答那些需要對文本段落進行數字推理的問題?如何使預先訓練好的語言模型能夠進行數字推理?
在接下來的章節中,我們對上述研究問題進行了探討,發現圖神經網絡可以作為一個強大的工具,用于結構化和非結構化知識源的各種知識推理任務。在基于結構化圖形的知識源上,我們在圖結構的基礎上建立圖神經網絡,為下游推理任務捕獲拓撲信息。在基于非結構化文本的知識源上,我們首先識別圖結構信息,如實體共現和實體編號綁定,然后采用圖神經網絡對構建的圖進行推理,與預訓練的語言模型一起處理知識源的非結構化部分。
如上所述,知識圖譜并不總是可以用于各種領域的知識推理任務。即使我們能夠獲得現有的知識圖譜作為知識源,它們也可能來自于自動知識提取(如Wikidata[7]和ConceptNet[12]),并有可能引入大量的噪音。因此,在本論文中,我們從建立能夠處理噪音的強大推理框架開始。我們建立了一個端到端的可訓練的QA框架,以避免級聯錯誤;我們還設計了一個概率邏輯推理框架,利用一階邏輯規則來調節知識圖譜中的噪音。由于知識圖譜的低覆蓋率問題,我們在本論文的后半部分繼續探索基于文本的知識推理。我們建立了開放領域的質量保證框架,只需要大規模的文本語料庫,如維基百科作為知識源。此外,我們還研究了如何從文本段落中提取數字知識圖譜,然后在構建的圖之上進行數字推理。
本論文的主要貢獻如下。
知識圖譜上的多跳問題回答(第三章)。對于復雜的信息需求,許多人的問題需要在知識圖譜上進行多跳知識推理。同時,當人們提出問題時,他們的表達通常是有噪聲的(例如,文本中的錯別字,或發音的變化),這對問題回答(QA)系統來說,在知識圖譜中匹配那些提到的實體是非難事。為了應對這些挑戰,我們提出了一個端到端的變異學習框架,它可以處理問題中的噪音,并同時學習進行多跳推理。我們還得出了一系列新的基準數據集,包括多跳推理的問題,由神經翻譯模型解析的問題,以及人聲中的問題。本章內容出現在AAAI 2018的論文集中[13]。
知識圖譜的概率邏輯推理(第四章)。作為一個優雅而強大的工具,馬爾科夫邏輯網絡(MLN)成功地結合了邏輯規則和概率圖模型,可以解決許多知識圖的推理問題。然而,MLN推理的計算量很大,使得MLN的工業規模應用非常困難。近年來,圖神經網絡(GNNs)已經成為解決大規模圖問題的高效工具。然而,GNN并沒有明確地將先驗邏輯規則納入模型,而且可能需要許多標記的例子來完成目標任務。我們探索了MLN和GNN的結合,并將圖神經網絡用于MLN的變異推理。本章的內容出現在ICLR 2020的論文集中[14]。
圖神經網絡的知識推理模式(第五章)。為了接近人類復雜的推理過程,最先進的質量保證系統通常使用精心設計的基于圖神經網絡(GNNs)的模塊來進行知識圖譜(KGs)的推理。然而,關于這些基于GNN的模塊的推理功能,許多問題仍然沒有解決。這些基于GNN的模塊真的能進行復雜的推理過程嗎?對于質量保證來說,它們是不夠復雜還是過于復雜?為了打開GNN的黑匣子并研究這些問題,我們剖析了最先進的用于質量保證的GNN模塊并分析了它們的推理能力。我們發現,即使是一個非常簡單的圖形神經計數器也能在流行的QA基準數據集上勝過所有現有的GNN模塊。我們的工作揭示了現有的知識感知型GNN模塊可能只進行一些簡單的推理,如計數。為知識驅動的質量保證建立全面的推理模塊仍然是一個具有挑戰性的開放問題。本章內容已提交給ICLR 2022,目前正在審核中。
多文檔的開放域問題回答(第6章)。作為一個實際的應用,開放域的質量保證需要檢索多個支持性文件。文檔檢索過程中往往會產生更多的相關但不支持的文檔,這就抑制了下游的噪聲敏感的答案預測模塊。為了應對這一挑戰,我們開發了一種方法來迭代檢索、重新排序和過濾文檔,并自適應地確定何時停止檢索過程。重排文檔是一個關鍵步驟,但由于問題和每個檢索到的文檔都是串聯的,所以非常耗時。因此,我們提出了一個解耦的上下文編碼框架,它有雙重的BERT模型:一個在線BERT,只對問題進行一次編碼;一個離線BERT,對所有的文檔進行預編碼并緩存其編碼。本章內容出現在SIGIR 2020[15]和SIGIR 2021[16]的論文集中。
文本段落上的數字問題回答(第7章)。對文本段落的數字推理,如加法、減法、分類和計數,是一項具有挑戰性的機器閱讀理解任務,因為它需要自然語言理解和算術計算。我們試圖使預先訓練好的語言模型,如BERT,在圖神經網絡的幫助下進行數字推理。更具體地說,我們為這種推理所需的段落和問題的上下文提出了一個異質圖表示,并設計了一個問題定向圖注意網絡來驅動所構建的異質圖上的多步驟數字推理。本章內容出現在EMNLP 2020的論文集中[17]。
我們首先在第二章中對相關工作進行了概述,作為本論文的背景。接下來的5章(三-七章)分為兩部分。第一部分探討了結構化數據的知識推理,包括多跳問題回答(第三章)和概率邏輯推理(第四章),這兩部分都是在現有的知識圖上工作。然后,我們研究圖神經網絡如何為知識意識的問題回答任務進行推理(第五章)。第二部分將重點轉向非結構化數據的知識推理,包括開放領域的問題回答(第六章)和數字問題回答(第七章),兩者都是在非結構化文本上工作。我們在第八章中總結了論文并討論了未來的研究方向。
這篇論文在機器學習領域做出了一些貢獻,特別是在圖推理任務。每篇文章都研究并改進了幾種圖推理應用中的泛化: 經典圖分類任務、組合視覺推理和神經網絡圖參數預測的新任務。
在第一篇文章中,我們研究了圖神經網絡中的注意力機制。雖然注意力在GNN中得到了廣泛的研究,但它對泛化到更大的噪聲圖的影響還沒有被深入分析。我們證明,在合成圖任務中,可以通過仔細初始化GNN的注意力模塊來提高泛化能力。我們還開發了一種方法,降低了注意力模塊對初始化的敏感性,提高了實際圖任務的泛化能力。
在第二篇文章中,我們討論了將問題泛化到視覺場景中罕見或不可見的物體組合和關系。以往的工作多以頻繁的視覺構圖為主,構圖泛化能力較差。為了緩解這一問題,我們發現將損失函數與場景圖的結構進行歸一化是很重要的,這樣可以更有效地利用訓練標簽。用我們的損失訓練的模型顯著提高了合成泛化。
在第三篇文章中,我們將進一步討論視覺合成泛化。我們考慮一種數據增強方法,即在訓練數據中添加罕見的和不可見的成分。我們開發了一個基于生成對抗網絡的模型,該模型根據我們通過擾動真實場景圖獲得的罕見或不可見的場景圖生成合成視覺特征。我們的方法不斷改進合成的泛化。
在第四篇文章中,我們研究了在不可見的深度神經結構中預測參數的新任務中的圖推理。我們的任務的動機是由于用于訓練神經網絡的迭代優化算法的局限性。為了解決我們的任務,我們開發了一個基于Graph HyperNetworks的模型,并在我們的神經架構圖數據集上訓練它。我們的模型可以在一次向前傳遞中預測不可見的深度網絡(如ResNet-50)的性能參數。該模型可用于神經結構搜索和遷移學習。
//atrium.lib.uoguelph.ca/xmlui/handle/10214/26824
我們的世界是一個復雜的組合系統,簡單的組件用來創建更復雜的組件,所有組件以一種非平凡的方式交互。其中一個組成部分就是人類,人類天生就有能力積累多樣化的多領域知識,并學習周圍世界的豐富組成結構。這種知識使人類能夠輕松地解決大量復雜的任務。例如,給定一個復雜動態3D場景的靜態2D圖像,人類能夠識別物體,它們的部分,它們之間的關系,并預測場景中的未來事件。人類甚至可以預測場景的地理和人口背景,并推斷場景的情感等抽象屬性(圖1.1,a)。工程旨在開發能夠替代人類執行此類任務的系統和算法,特別是重復性、費力或危險的任務。在一些實際場景中,如理解2D圖像,這些系統需要從傳感器記錄的輸入中恢復原始成分結構(圖1.1,a-c)。例如,機器人或自動駕駛汽車需要從原始像素或點云中檢測物體及其關系。在其他場景中,組合結構已經提供(例如,由另一個系統或人類提供),算法需要對組合輸入進行推理,以做出復雜的高級決策(圖1.1,d-f)。例如:預測分子的性質,預測未來人與人之間的聯系,或預測生物或人工神經網絡的性質。
為了開發能夠從原始感官數據推斷組成結構的算法或預測結構屬性的算法,我們首先需要定義適合于這類任務的數據抽象。在數學和計算機科學中,有一種方便的抽象專門介紹了模型的組成和關系結構。這種抽象被稱為圖,其中節點對應結構的組件,而邊對應組件之間的交互。例如,分子通常表示為圖形,節點對應原子或更復雜的元素,邊對應化學鍵(圖1.1,d)。類似地,社會網絡是圖形,節點是人,邊是它們之間的不同類型的關系(圖1.1,e)。同樣地,生物或人工神經網絡是一個圖,其中節點可以是神經元,邊可以是它們之間的連接(圖1.1,f)。需要開發處理相關任務的算法。
本文探討了圖分類、場景圖合成視覺推理和神經網絡推理等圖推理任務中的泛化問題。使用從數據而不是工程特征中學習的模型來處理這些任務是事實上的標準。然而,這種模型的一個基本挑戰,尤其是神經網絡,是糟糕的泛化。出現這一問題的原因可能是模型依賴于偽相關(“捷徑”),而這些偽相關在訓練數據中常常大量存在(Shen et al., 2021; Zhou et al., 2021; Sch?lkopf et al., 2021)。當在測試數據上評估NN時,這個問題尤其值得注意,這些測試數據來自于與訓練數據略有不同的分布。雖然人類經常對各種分布轉移表現出很強的泛化能力,但機器學習模型在這方面要弱得多。這篇論文對理解和提高泛化做出了一些貢獻。
受生物過程的啟發,人工神經網絡的理論基礎于20世紀40年代奠定[McCulloch and Pitts, 1943]。神經元的放電代表一個命題,通過激活或抑制連接來模擬神經網絡中的邏輯演算。感知器(perceptron),一種解釋單個人工神經元功能的算法,發明于20世紀50年代末[Rosenblatt, 1958]。隨之而來的是我們現在熟悉的網絡的分層結構,以及反向傳播機制,這一范式的學習過程的核心。Rumelhart等人[1986]展示了反向傳播機制如何在對人和家庭關系進行編碼時,在中間隱藏層上產生有用的表示。術語深度學習是相當新的,NLP的“接管”是最近才出現的,主要是由于硬件的進步使得NLP的大型語料庫的理論模型在計算上可行且高效,包括單詞語義表示的歸納[Mikolov et al., 2013c]。當NLP采用神經網絡時,神經網絡已經完全形成。它們帶來了許多架構和數學模型,這些都是機器學習社區在這幾十年里發展起來的。這種相互作用是雙向的:自然語言處理任務的特殊要求刺激了進一步的發展和創新。在語義關系研究中采用深度學習,帶來了不同于前幾章探討的方法和建模假設。
我們在5.2節以深度學習的高級概述開始本章。然后我們再回顧與語義關系相關的研究問題。語義關系的深度學習通常在一個體系結構中結合了對包含候選關系的整個句子的處理。論證的含義的表達將與上下文的表達和關系線索交織在一起——關系論證和周圍的文本之間的表達。為了使事情更清楚,并允許未經嘗試的組合,單詞表示(屬性特征,第5.3節)是分開的關系線索和上下文(關系特征,第5.4節)。第5.5節討論了對數據集的關注,特別是對遠程監督的深度學習解決方案:如何自動獲取和處理大量有噪聲的訓練數據。第5.6節討論語義關系的學習和建模,無論是作為特定結構還是作為神經模型;它展示了在不同的學習模式中,論點的表征和上下文線索是如何相互交織的。
表示學習(representation learning), 又稱表征學習,是指將輸入數據轉化成 適用于機器學習形式的過程。通常地,機器學習的性能依賴于對數據表示的選 擇,一個好的表示可以使得模型對輸入數據進行更好的理解。近年來,神經網絡 的興起,使得我們可以自動地對輸入數據進行特征抽取。這極大推動了表示學習 的發展,并給我們帶來了進一步探究的可能性。
一般地,表示學習的研究可以按照不同角度進行劃分:從學習方式上,可以 分為有監督學習和無監督學習;從輸入數據模態上,可以分為文本表示、圖像表 示以及語音表示;從共享獨立性上,可以分為共享表示和私有表示。在自然語言 處理中,使用深度學習技術(即深度神經網絡)對文本進行表示學習已經成為一 個很有價值的研究方向。本文工作圍繞著以下問題展開:1)對于不同粒度的文 本(詞語、句子、句對),如何設計合理的結構,使得模型可以學習到適合最終任 務的表示?深度學習的到來使得自然語言處理中的研究工作由原來的特征工程 (feature engineering) 過渡到了現在的結構工程 (architecture engineering) ,而對于 文本的表示學習,首先要解決的最基本問題就是尋找合適的歸納偏置 (inductive bias),使得模型可以更好地對輸入文本進行編碼。而本文分別針對不同粒度的文 本信號,進行相應的網絡結構探索,希望找到更適合下游任務的結構偏置。2)如 何進行針對性的遷移學習?有針對性地進行遷移是指我們要對遷移的知識“按 需分配”,這就要求我們學習的知識應該具備可遷移性,此外,我們還要對已有 的知識進行可理解分析,從而可以分離我們真正需要的知識,最終實現知識的定 向遷移。對于以上兩個亟待解決的問題,本文通過兩個方面,九個章節進行遞進 式探討,其貢獻總結如下:
一方面,對于不同粒度文本的表示學習,本文分別探索了最適合下游任務的 歸納偏置,并且利用這些歸納偏置設計新的模型,這些模型在主流的數據集上都 取得了當時最好的效果。
關鍵詞:深度學習;語義表示學習;自然語言處理;歸納偏置;知識遷移
本文是慕尼黑大學數學、信息學及統計學院的博士生Pankaj Gupta的博士學位論文,主要研究兩個NLP任務:關系提取和主題建模。本文將神經網絡和主題模型兩種互補的學習范式結合在一個神經復合模型中,使我們能夠通過主題模型在文檔集合中共同學習主題結構,并通過語言模型在句子中共同學習單詞關系。
慕尼黑大學自19世紀以來便是德國和歐洲最具聲望大學之一,也是德國精英大學、U15大學聯盟和歐洲研究型大學聯盟成員,其社會科學、人文科學、物理,化學,生命科學,醫學,數學等領域均在國際上享有盛名。本文是慕尼黑大學數學、信息學及統計學院的博士生Pankaj Gupta的博士學位論文。
自然語言處理(Natural language processing,NLP)涉及構建計算技術,允許計算機自動分析和有意義地表示人類語言。隨著數字時代數據的指數增長,基于NLP的系統的出現使我們能夠通過廣泛的應用程序,如網絡搜索引擎、語音助理等,輕松地訪問相關信息。為了實現這一目標,幾十年來的一項長期研究一直集中在NLP和機器學習交叉的技術上。
近年來,深度學習技術利用了人工神經網絡(ANNs)的表現力,在廣泛的NLP任務中取得了最先進的性能。深度神經網絡(DNNs)可以從輸入數據中自動提取復雜的特征,從而為手工特征工程提供了一種替代方法。除了ANN之外,概率圖形模型(PGMs)、圖論和概率方法的耦合還具有描述系統隨機變量之間因果結構的能力,并捕捉到不確定性的原則概念。考慮到DNNs和PGMs的特點,它們被有利地結合起來建立強大的神經模型,以了解數據的潛在復雜性。
傳統的基于機器學習的NLP系統采用了淺層計算方法(如SVM或Logistic回歸),并依賴于手工特征,這類方法耗時、復雜且往往是不夠完整的。基于深度學習和神經網絡的方法最近在機器翻譯、文本分類、命名識別、關系提取、文本相似性等NLP任務上取得了較好的效果。這些神經模型可以從訓練數據中自動提取有效的特征表示。
本文主要研究兩個NLP任務:關系提取和主題建模。前者的目的是識別句子或文檔中實體或名詞之間的語義關系。成功地提取語義關系有助于構建結構化知識庫,在網絡搜索、問答、推薦引擎等下游NLP應用領域很有用。另一方面,主題建模的任務旨在理解文檔集合中的主題結構。主題建模是一種流行的文本挖掘工具,它可以自動分析大量的文檔集合,并在不實際閱讀的情況下理解主題語義。主題建模分別生成用于文檔理解和信息檢索的Word集群(即主題)和文檔表示。
本質上,關系提取和主題建模主要基于從文本中學習到的表示的質量。在本文中,我們提出了特定于任務的學習表示神經模型,并分別在監督和非監督機器學習范式領域進行關系提取和主題建模任務。更具體地說,我們在開發NLP任務的神經模型方面做出了以下貢獻:
神經關系提取:首先,我們提出了一種新的基于遞歸神經網絡的table-filling體系結構,以便在句子中聯合執行實體和關系提取。然后,我們進一步擴展了跨句子邊界實體之間關系的提取范圍,并提出了一種新的基于依賴關系的神經網絡體系結構。這兩個貢獻在于機器學習的監督范式。此外,我們還在構建一個受缺乏標記數據約束的魯棒關系提取器方面做出了貢獻,其中我們提出了一種新的弱監督引導技術。考慮到這些貢獻,我們進一步探索了遞歸神經網絡的可解釋性,以解釋它們對關系提取的預測。
神經主題建模:除了有監督神經體系結構外,我們還開發了無監督神經模型,以學習主題建模框架中有意義的文檔表示。首先,我們提出了一種新的動態主題模型,它捕獲了隨著時間的推移的主題。接下來,我們在不考慮時間依賴性的情況下建立了靜態主題模型,其中我們提出了神經主題建模體系結構,這些體系結構也利用外部知識,即Word嵌入來解決數據稀疏性。此外,我們還開發了神經主題模型,其中包含了使用單詞嵌入和來自許多來源的潛在主題的知識遷移。最后,我們通過引入語言結構(如語序、局部句法和語義信息等)來改進神經主題建模。它處理傳統主題模型中的詞袋問題。本節中提出的神經NLP模型是基于PGMs、深度學習和ANN交叉技術。
在這里,神經關系提取的任務使用神經網絡來學習通常在句子級別上的表示,而不訪問更廣泛的文檔上下文。然而,主題模型可以訪問跨文檔的統計信息。因此,我們將兩種互補的學習范式結合在一個神經復合模型中是有利的,它由一個神經主題和一個神經語言模型組成,使我們能夠通過主題模型在文檔集合中共同學習主題結構,并通過語言模型在句子中共同學習單詞關系。
總的來說,我們在本論文中的研究貢獻擴展了基于NLP的系統,用于關系提取和主題建模任務,同時具有最先進的性能。