越來越大的比例的自然語言處理(NLP)任務圍繞著從概率語言模型生成文本。盡管有這種趨勢,但改進或在這些生成的文本中指定偏好的技術主要依賴基于直覺的啟發式方法。此外,缺乏他們的動機、實踐實施、成功與陷阱的統一呈現。因此,實踐者必須在生成算法之間進行盲目選擇,例如頂層采樣或束搜索,這可能導致結果大相徑庭。與此同時,語言生成研究繼續批評和改進標準工具箱,進一步增加了該領域的混亂程度。在這個教程中,我們將提供一個集中而連貫的討論,以便在選擇如何從語言模型生成時進行關鍵的考慮。我們將涵蓋一系列實證觀察到的問題(如退化、幻覺、重復)及其在最近研究中提出的對應的算法解決方案(如頂層采樣及其后繼者)。然后,我們將在一個統一的視角下討論這些算法的一個子集;大多數隨機生成策略可以被構框為局部調整模型的概率以避免失敗案例。最后,我們將討論受控生成中的方法,這些方法不僅要確保連貫性,還要確保文本表現出特定的期望屬性。我們希望NLP實踐者和研究人員能夠借助我們的教程,獲得一個統一的框架,他們可以用來評估和貢獻最新的語言生成研究。
雖然大規模語言模型工作得非常好,但訓練它們的成本很高,很難解釋它們的預測,而且幾乎不可能隨著時間的推移保持最新。目前還不清楚我們什么時候可以相信他們的預測,而且目前的大型語言模型都不能回答關于當前主題的問題,例如COVID-19,因為用于訓練的語料庫是幾年前創建的。為了開發具有更小、更簡單和更有效的模型的下一代通用語言模型,我們相信信息檢索是一個關鍵組件。在人與人之間以及與世界進行交互時,人類會挖掘許多不同形式的知識,包括世界知識(例如常識、最新的世界事實、熱門新聞)和用戶知識(例如對話記憶、社交互動、額外的上下文(例如位置等)。為了在AI應用程序中結合這種能力,信息檢索提供了模型對可能包含此類知識的文檔集合的訪問(可能很大)。具體來說,完整的系統由一個小型的核心模型組成,可以通過檢索輕松訪問額外的、與任務相關的知識,并與當今最大的語言模型相媲美。在本次演講中,我將首先對檢索增強語言模型進行研究概述。然后,我將分享我們最近的一些工作,包括一個通過添加檢索組件來改進任何語言模型的通用框架,以及一個檢索增強的多模態模型,該模型可以生成質量更好的圖像和標題。最后,我將通過討論我們學到的一些經驗教訓和我們計劃在不久的將來解決的問題來結束這次演講。
本教程介紹常用的處理多語言語料庫的方法,并討論了它們各自的優缺點。然后,研討會通過一個應用的例子,包括免費機器翻譯,多語言句子和單詞嵌入,以及時間允許的多語言Transformer。
大部分的政治文本集是多語言的,主要是進行比較定量分析。然而,現有的跨語言文本分析方法需要依賴語言上合格的人工編碼人員、人工翻譯人員或可靠的機器翻譯,因此往往阻礙了比較研究。在本文中,我提出了一種依賴于多語言文本嵌入的替代方法:使用公開的多語言模型將不同語言編寫的文本嵌入到一個聯合語義空間中。然后將得到的文本嵌入作為輸入來訓練監督機器學習分類器。為了驗證所提出的方法,我在三個不同的政治語料庫上進行了一系列的文本分類實驗。這些實驗表明,訓練于多語言文本嵌入的分類器通過了三個重要的測試:它們對伸出文本的分類與訓練于單語言或翻譯文本的可比分類器一樣準確。它們在不同語言間的執行大體上是一致的。他們對用訓練數據中沒有的語言編寫的文本進行分類,預測性能幾乎沒有損失。綜合來看,這些結果為多語言文本嵌入提供了一種可靠的、可復制的、經濟有效的多語言文本分類方法。因此,這項研究有助于新興的方法論文獻在政治科學的多語種定量文本分析。
在不斷增長的分析服務領域上運行的生產系統通常需要為具有有限數據的新任務生成熱啟動解決方案模型。解決這一暖啟動挑戰的一個潛在方法是采用元學習來生成一個基礎模型,該模型可以通過最小的微調來解決看不見的任務。然而,這需要同步現有任務的以前解決方案模型的訓練過程。如果這些模型在不同實體擁有的私有數據上分別進行預訓練,并且不能同步地重新訓練,那么就不可能做到這一點。為了適應這種情況,我們開發了一種新的個性化學習框架,通過融合相關任務的獨立預訓練模型,為未見任務綜合定制模型。我們建立了該框架的性能保證,并在合成和真實數據集上證明了其有效性。
目前的圖表示(GR)算法在超參數調優方面需要大量的人工專家,這極大地限制了其實際應用,促使人們迫切需要無需人工干預的自動圖表示。雖然自動機器學習(AutoML)是自動超參數調優的一個很好的候選對象,但關于自動圖表示學習的文獻報道很少,現有的工作只有使用黑盒策略,缺乏解釋不同超參數的相對重要性的見解。為了解決這一問題,本文研究了具有超參數重要性的可解釋自動圖表示。我們提出了一種可解釋的AutoML圖表示方法(e-AutoGR),該方法在性能估計過程中利用可解釋的圖特征,并通過非線性去相關加權回歸學習不同超參數的去相關重要權重,以影響模型性能。這些學習到的重要權重在超參數搜索過程中可以反過來幫助提供更多的洞察力。我們從理論上證明了去相關加權算法的正確性。在真實數據集上的大量實驗表明,我們提出的e-AutoGR模型在模型性能和超參數重要性解釋方面優于最新方法。
在真實的應用中,數據通常以增長的方式出現,其中數據量和類的數量可能會動態增加。這將給學習帶來重大挑戰:隨著數據量或類的數量不斷增加,人們必須立即調整神經模型的容量,以獲得良好的性能。現有的方法要么忽視數據增長的本質,要么尋求對給定數據集獨立搜索最優體系結構,因此無法針對變化的數據及時調整體系結構。為了解決這一問題,我們提出了一種神經結構自適應方法,即adaptive eXpert (AdaXpert),可以在不斷增長的數據上有效地調整以前的結構。具體來說,我們引入了一個體系結構調整器,根據以前的體系結構以及當前和以前數據分布之間的不同程度,為每個數據快照生成合適的體系結構。此外,我們提出一個適應條件來確定調整的必要性,從而避免不必要的和耗時的調整。在兩種增長場景(增加數據量和類數)上的大量實驗證明了所提方法的有效性。
深度學習已經成為自然語言處理(NLP)研究的主導方法,特別是在大規模語料庫中。在自然語言處理任務中,句子通常被認為是一系列標記。因此,流行的深度學習技術如循環神經網絡(RNN)和卷積神經網絡(CNN)在文本序列建模中得到了廣泛的應用。
然而,有大量的自然語言處理問題可以用圖結構來最好地表達。例如,序列數據中的結構和語義信息(例如,各種語法分析樹(如依賴分析樹)和語義分析圖(如抽象意義表示圖))可以通過合并特定任務的知識來擴充原始序列數據。因此,這些圖結構化數據可以對實體標記之間的復雜成對關系進行編碼,以學習更多的信息表示。然而,眾所周知,深度學習技術對歐幾里德數據(如圖像)或序列數據(如文本)具有破壞性,但不能立即適用于圖結構數據。因此,這一差距推動了對圖的深度學習的研究,特別是圖神經網絡(GNN)的發展。
這種在圖的深度學習和自然語言處理的交叉領域的研究浪潮影響了各種自然語言處理任務。應用/開發各種類型的GNN的興趣激增,并在許多自然語言處理任務中取得了相當大的成功,從分類任務如句子分類、語義角色標注和關系提取,到生成任務如機器翻譯、問題生成和摘要。
盡管取得了這些成功,NLP的圖深度學習仍然面臨許多挑戰,包括自動將原始文本序列數據轉換為高度圖結構的數據,以及有效地建模復雜數據,包括基于圖的輸入和其他高度結構化的輸出數據 (如序列、樹、并在節點和邊均具有多種類型的圖數據。本教程將涵蓋在NLP中運用深度學習圖技術的相關和有趣的主題,包括NLP的自動圖構造、NLP的圖表示學習、NLP的高級基于GNN的模型(例如graph2seq、graph2tree和graph2graph),以及GNN在各種NLP任務中的應用 (例如:機器翻譯、自然語言生成、信息提取和語義解析)。此外,還將包括動手演示課程,以幫助觀眾獲得應用GNN解決具有挑戰性的NLP問題的實際經驗,使用我們最近開發的開源庫——Graph4NLP,這是第一個為研究人員和從業者提供的庫,用于輕松地使用GNN解決各種NLP任務。
自然語言數據的一個重要子集包括跨越數千個token的文檔。處理這樣長的序列的能力對于許多NLP任務是至關重要的,包括文檔分類、摘要、多跳和開放域問答,以及文檔級或多文檔關系提取和引用解析。然而,將最先進的模型擴展到較長的序列是一個挑戰,因為許多模型都是為較短的序列設計的。一個值得注意的例子是Transformer模型,它在序列長度上有二次計算代價,這使得它們對于長序列任務的代價非常昂貴。這反映在許多廣泛使用的模型中,如RoBERTa和BERT,其中序列長度被限制為只有512個tokens。在本教程中,我們將向感興趣的NLP研究人員介紹最新和正在進行的文檔級表示學習技術。此外,我們將討論新的研究機會,以解決該領域現有的挑戰。我們將首先概述已建立的長序列自然語言處理技術,包括層次、基于圖和基于檢索的方法。然后,我們將重點介紹最近的長序列轉換器方法,它們如何相互比較,以及它們如何應用于NLP任務(參見Tay等人(2020)最近的綜述)。我們還將討論處理長序列的關鍵的各種存儲器節省方法。在本教程中,我們將使用分類、問答和信息提取作為激勵任務。我們還將有一個專注于總結的實際編碼練習。
人工智能的一個基本任務是學習。深度神經網絡已經被證明可以完美地處理所有的學習范式,即有監督學習、無監督學習和強化學習。然而,傳統的深度學習方法利用云計算設施,不能很好地擴展到計算資源低的自治代理。即使在云計算中,它們也受到計算和內存的限制,不能用來為假設有數十億神經元的網絡的代理建立適當的大型物理世界模型。這些問題在過去幾年中通過可擴展深度學習的新興主題得到了解決,該主題在訓練之前和整個過程中利用了神經網絡中的靜態和自適應稀疏連接。本教程將分兩部分介紹這些研究方向,重點是理論進展、實際應用和實踐經驗。
//sites.google.com/view/ijcai2020-sparse-training/home
最近,終身學習在構建不斷積累和轉移知識以幫助未來學習的機器學習系統方面引起了關注。無監督主題建模廣泛用于從文檔集合中發現主題。然而,由于數據稀疏性,例如,在一個小的(短)文檔集合中,會產生不連貫的主題和次優的文檔表示,主題建模的應用具有挑戰性。為了解決這個問題,我們提出了一個神經主題建模的終身學習框架,它可以連續處理文檔集流,積累主題,并通過從多個來源的知識轉移來指導未來的主題建模任務,以更好地處理稀疏的數據。在終身學習過程中,我們特別共同研究:(1)終生共享生成同源性(潛在話題)以轉移先驗知識,(2)通過新穎的選擇性數據增強、聯合訓練和話題正則化方法最小化保留過去學習的災難性遺忘。在給定一個文檔集合流的情況下,我們應用所提出的終身神經主題建模(LNTM)框架,將三個稀疏文檔集合建模為未來任務,并通過perplexity、Topic coherence和information retrieval task量化,證明了性能的提高。