文本編輯模型最近已經成為seq2seq模型在單語言文本生成任務(如語法錯誤糾正、文本簡化和樣式轉移)中的重要替代方案。這些任務有一個共同的特點——它們在源文本和目標文本之間表現出大量的文本重疊。
文本編輯模型利用了這一觀察結果,并通過預測應用于源序列的編輯操作來生成輸出。相反,seq2seq模型從頭開始逐字生成輸出,因此在推斷時速度很慢。文本編輯模型比seq2seq模型有幾個優點,包括更快的推理速度、更高的樣本效率、更好的輸出控制和可解釋性。
本教程提供了基于文本編輯的模型的全面概述,以及分析其優缺點的當前最先進的方法。我們討論了與部署相關的挑戰,以及這些模型如何幫助減輕幻覺和偏見,這兩者都是文本生成領域的緊迫挑戰。
從與上下文無關的詞嵌入到與上下文相關的語言模型,預訓練的文本表示將文本挖掘帶入了一個新的時代: 通過在大規模文本語料庫上對神經模型進行預處理,然后將其適應于特定任務的數據,可以有效地將通用語言特征和知識轉移到目標應用中,并在許多文本挖掘任務中取得了顯著的性能。不幸的是,在這種突出的預訓練微調范式中存在著一個巨大的挑戰:大型的預訓練語言模型(PLM)通常需要大量的訓練數據來對下游任務進行穩定的微調,而大量的人工注釋的獲取成本很高。
在本教程中,我們將介紹預訓練文本表示的最新進展,以及它們在廣泛的文本挖掘任務中的應用。我們專注于不需要大量人工標注的最小監督方法,包括**(1)作為下游任務基礎的自監督文本嵌入和預訓練語言模型,(2)用于基本文本挖掘應用的無監督和遠程監督方法,(3)用于從大量文本語料庫中發現主題的無監督和種子引導方法,以及(4)用于文本分類和高級文本挖掘任務的弱監督方法**。
介紹 第一部分: 科學信息提取與分析 第二部分: 科學信息搜索和證據挖掘 第三部分: 主題發現、文本分類和多維文本分析 摘要及未來方向
本教程介紹常用的處理多語言語料庫的方法,并討論了它們各自的優缺點。然后,研討會通過一個應用的例子,包括免費機器翻譯,多語言句子和單詞嵌入,以及時間允許的多語言Transformer。
大部分的政治文本集是多語言的,主要是進行比較定量分析。然而,現有的跨語言文本分析方法需要依賴語言上合格的人工編碼人員、人工翻譯人員或可靠的機器翻譯,因此往往阻礙了比較研究。在本文中,我提出了一種依賴于多語言文本嵌入的替代方法:使用公開的多語言模型將不同語言編寫的文本嵌入到一個聯合語義空間中。然后將得到的文本嵌入作為輸入來訓練監督機器學習分類器。為了驗證所提出的方法,我在三個不同的政治語料庫上進行了一系列的文本分類實驗。這些實驗表明,訓練于多語言文本嵌入的分類器通過了三個重要的測試:它們對伸出文本的分類與訓練于單語言或翻譯文本的可比分類器一樣準確。它們在不同語言間的執行大體上是一致的。他們對用訓練數據中沒有的語言編寫的文本進行分類,預測性能幾乎沒有損失。綜合來看,這些結果為多語言文本嵌入提供了一種可靠的、可復制的、經濟有效的多語言文本分類方法。因此,這項研究有助于新興的方法論文獻在政治科學的多語種定量文本分析。
隨著大規模預訓練模型的出現,自然語言處理中的知識化趨勢日益明顯。注意知識的自然語言處理模型可以訪問無限數量的外部信息; Ii) 將參數空間的知識存儲任務委托給知識源; Iii)獲取最新信息; Iv) 通過選擇知識,使預測結果更具可解釋性。在本教程中,我們將介紹將知識集成到自然語言處理中的關鍵步驟,包括從文本中建立知識基礎、知識表示和融合。我們還將介紹最新的最先進的應用,融合知識到語言理解,語言生成和常識推理。
//github.com/zcgzcgzcg1/ACL2022_KnowledgeNLP_Tutorial/
論文題目:Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions
作者:薛宏偉*,杭天愷*,曾艷紅*,孫宇沖*,劉蓓,楊歡,傅建龍,郭百寧 論文概述:我們研究了視頻和語言(VL)的聯合預訓練,以實現跨模態學習并使大量的下游VL任務受益。現有的研究要么是提取低質量的視頻特征,要么是學習有限的文本嵌入,而忽略了高分辨率的視頻和多樣化的語義可以顯著增強跨模態學習。在本文中,我們提出了一個新穎的高分辨率和多樣化的視頻-文本預訓練模型(HD-VILA),用于許多視覺任務。我們收集了一個具有兩個特性的大型數據集:(1)高分辨率,包括371.5K小時的720p視頻,以及(2)多樣化,涵蓋15個流行的YouTube類別。為了實現VL預訓練,我們通過一個混合Transformer和一個多模態Transformer來共同優化HD-VILA模型,前者學習豐富的時空特征,后者進行視頻特征與多樣化文本的交互。我們的預訓練模型在10個VL理解任務和2個文本到視覺的生成任務中取得了最先進的結果。例如,我們在zero-shot MSR-VTT文本到視頻檢索任務中超越了SOTA模型,相對增加了38.5%R@1,在高分辨率數據集LSMDC中增加了53.6%。學習到的VL嵌入在文本到視覺編輯和超分辨率任務中也能有效地產生視覺效果好、語義上的相關結果。
【導讀】ACL-IJCNLP 2021是CCF A類會議,是人工智能領域自然語言處理( Natural Language Processing,NLP)方向最權威的國際會議。ACL2021計劃于今年8月1日-8月6日以線上會議形式召開. 最近字節跳動AI實驗室總監李磊重返學術界,進入加州大學圣巴巴拉分校擔任助理教授。他和王明軒給了關于預訓練時代機器翻譯的教程,非常值得關注!
預訓練是自然語言處理(NLP)[28,8,20]、計算機視覺(CV)[12,34]和自動語音識別(ASR)[3,6,24]的主導范式。通常,首先對模型進行大量未標記數據的預訓練,以捕獲豐富的輸入表示,然后通過提供上下文感知的輸入表示,或初始化下游模型的參數進行微調,將模型應用于下游任務。最近,自監督的預訓練和任務特定的微調范式終于完全達到了神經機器翻譯(NMT)[37,35,5]。
盡管取得了成功,但在NMT中引入一個通用的預訓練模型并非易事,而且不一定會產生有希望的結果,特別是對于資源豐富的環境。在幾個方面仍然存在獨特的挑戰。首先,大多數預訓練方法的目標不同于下游的NMT任務。例如,BERT[8]是一種流行的預訓練模型,其設計目的是僅使用一個轉換器編碼器進行語言理解,而NMT模型通常由一個編碼器和一個解碼器組成,以執行跨語言生成。這一差距使得運用NMT[30]的預訓練不夠可行。此外,機器翻譯本身就是一個多語言問題,但一般的NLP預訓練方法主要集中在英語語料庫上,如BERT和GPT。鑒于遷移學習在多語言機器翻譯中的成功,對NMT[7]進行多語言預訓練是非常有吸引力的。最后,語音翻譯近年來受到了廣泛的關注,而大多數的預訓練方法都側重于文本表示。如何利用預訓練的方法來提高口語翻譯水平成為一個新的挑戰。
本教程提供了一個充分利用神經機器翻譯的預訓練的全面指導。首先,我們將簡要介紹NMT的背景、預訓練的方法,并指出將預訓練應用于NMT的主要挑戰。在此基礎上,我們將著重分析預訓練在提高非語言教學績效中的作用,如何設計更好的預訓練模式來執行特定的非語言教學任務,以及如何更好地將預訓練模式整合到非語言教學系統中。在每一部分中,我們將提供例子,討論訓練技巧,并分析在應用預訓練時轉移了什么。
第一個主題是NMT的單語預訓練,這是研究最深入的領域之一。ELMo、GPT、MASS和BERT等單語文本表征具有優勢,顯著提高了各種自然語言處理任務的性能[25,8,28,30]。然而,NMT有幾個明顯的特點,如大的訓練數據(1000萬或更多)的可用性和基線NMT模型的高容量,這需要仔細設計預訓練。在這一部分,我們將介紹不同的預訓練方法,并分析它們在不同的機器翻譯場景(如無監督的NMT、低資源的NMT和富資源的NMT)中應用的最佳實踐[37,35]。我們將介紹使用各種策略對預訓練的模型進行微調的技術,如知識蒸餾和適配器[4,16]。
下一個話題是NMT的多語言預訓練。在此背景下,我們旨在緩解英語為中心的偏見,并建議可以建立不同語言的普遍表示,以改善大量多語言的NMT。在這部分中,我們將討論不同語言的一般表示,并分析知識如何跨語言遷移。這將有助于更好地設計多語言預訓練,特別是零樣本遷移到非英語語言對[15,27,7,26,13,17,19,23,18]。
本教程的最后一個技術部分是關于NMT的預訓練。特別地,我們關注于利用弱監督或無監督訓練數據來改進語音翻譯。在這一部分中,我們將討論在言語和文本中建立一個一般表示的可能性。并展示了文本或音頻預處理訓練如何引導NMT的文本生成[33,21,32,14,22,10,9,11,36]。
在本教程的最后,我們指出了在應用NMT預訓練時的最佳實踐。這些主題涵蓋了針對不同的NMT情景的各種預訓練方法。在本教程之后,觀眾將理解為什么NMT預訓練不同于其他任務,以及如何充分利用NMT預訓練。重要的是,我們將深入分析預訓練如何以及為什么在NMT中起作用,這將為未來設計特定的NMT預訓練范式提供啟發。
//sites.cs.ucsb.edu/~lilei/TALKS/2021-ACL/
報告嘉賓:
李磊,加州大學圣巴巴拉分校擔任助理教授,曾任字節跳動人工智能實驗室總監。本科博士分別畢業于上海交通大學和卡耐基梅隆大學計算機系。曾任加州大學伯克利分校作博士后研究員和百度美國深度學習實驗室少帥科學家。曾獲2012年美國計算機學會SIGKDD最佳博士論文第二名、2017年吳文俊人工智能技術發明二等獎、2017年CCF杰出演講者、2019年CCF青竹獎。在機器學習、數據挖掘和自然語言處理領域于國際頂級學術會議發表論文100余篇,擁有二十余項技術發明專利。擔任CCF自然語言處理專委委員和EMNLP, NeurIPS, AAAI, IJCAI, KDD等多個會議組委成員和領域主席。
王明軒,字節跳動人工智能實驗室資深研究員,博士畢業于中國科學院計算技術研究所,主要研究方向為機器翻譯。主導研發了火山翻譯系統,服務全球過億用戶,并多次帶領團隊在 WMT 機器翻譯評測中拿到過冠軍。在 ACL、EMNLP、NAACL 等相關領域發表論文 30 多篇。擔任CCF自然語言處理專委委員和國內外多個會議組委成員。
因果關系知識對于構建健壯的人工智能系統至關重要。在需要因果推理的任務中,深度學習模型通常表現不佳。因果推理通常是通過某種形式的常識性知識推導出來的,這些常識性知識不是直接輸入的,而是由人類隱式推斷出來的。先前的工作已經揭示了在因果關系缺失的情況下,模型會陷入虛假的觀測偏差。雖然語言表征模型在習得的嵌入中保留了語境知識,但它們在訓練中不考慮因果關系。通過將因果關系與輸入特征融合到現有模型中執行視覺認知任務(如場景理解、視頻字幕、視頻問答等),可以獲得更好的性能,因為因果關系帶來的洞察力。最近,已經提出了幾個模型來處理從視覺或文本模態中挖掘因果數據的任務。然而,目前還沒有廣泛流行的研究通過視覺和語言模式的并列來挖掘因果關系。圖像為我們提供了豐富且易于處理的資源來挖掘因果關系知識,而視頻則更加密集,由自然的時間順序事件組成。此外,文本信息提供了視頻中可能隱含的細節。因此,我們提出了iReason,這是一個利用視頻和自然語言字幕推斷視覺語義常識的框架。此外,iReason的架構集成了一個因果合理化模塊,以輔助解釋、錯誤分析和偏差檢測的過程。我們通過與語言表征學習模型(BERT, GPT-2)以及當前最先進的多模態因果模型的雙管比較分析,證明了iReason的有效性。最后,我們通過將“因果信號”整合到一系列下游認知任務(如密集視頻字幕、視頻問答和場景理解)中的案例研究,證明了iReason的普遍適用性。
本教程針對的是對幫助機器理解自然語言文本的人工智能技術感興趣的研究人員和從業者,特別是文本中描述的真實世界事件。這些方法包括提取關于一個事件的主角、參與者和屬性的內部結構,以及關于多個事件的成員關系、時間和因果關系的外部結構。本教程將為讀者提供一個系統的介紹 (i) 事件的知識表示,(ii) 自動提取、概念化和預測事件及其關系的各種方法,(iii) 事件過程和屬性的歸納,和(iv) 廣泛的NLU和常識性理解任務。我們將通過概述這一領域中出現的研究問題來結束本教程。
//cogcomp.seas.upenn.edu/page/tutorial.202108/
人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘述預測得益于學習事件的因果關系,從而預測故事接下來會發生什么;機器理解文檔可能包括理解影響股市的事件、描述自然現象或識別疾病表型。事實上,事件理解在諸如開放領域問答、意圖預測、時間軸構建和文本摘要等任務中也有廣泛的重要應用。由于事件不只是簡單的、獨立的謂詞,對事件理解的前沿研究通常面臨兩個關鍵挑戰。一個挑戰是精確地歸納事件的關系,它描述了事件的隸屬關系、共參照、時間順序和因果關系。另一種是理解事件的內在結構和屬性,涉及到它的參與者、粒度、位置和時間。
在本教程中,我們將全面回顧文獻中關于以事件為中心的知識表示的現有范式,并關注它們對NLU任務的貢獻。除了引入用于事件抽取的部分標簽和無監督學習方法外,我們還將討論最近用于從文本中抽取多面事件-事件關系的約束學習和結構化推理方法。我們還將回顧最近用于事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利于敘事預測。此外,我們將說明遠距離監督方法如何幫助解決時間和因果常識對事件的理解,以及如何運用它們來構建大規模的事件知識庫。參與者將了解這個主題的最新趨勢和新出現的挑戰,代表性工具和學習資源,以獲得即用模型,以及相關模型和技術如何使最終使用NLU應用程序受益。
目錄內容:
深度學習已經成為自然語言處理(NLP)研究的主導方法,特別是在大規模語料庫中。在自然語言處理任務中,句子通常被認為是一系列標記。因此,流行的深度學習技術如循環神經網絡(RNN)和卷積神經網絡(CNN)在文本序列建模中得到了廣泛的應用。
然而,有大量的自然語言處理問題可以用圖結構來最好地表達。例如,序列數據中的結構和語義信息(例如,各種語法分析樹(如依賴分析樹)和語義分析圖(如抽象意義表示圖))可以通過合并特定任務的知識來擴充原始序列數據。因此,這些圖結構化數據可以對實體標記之間的復雜成對關系進行編碼,以學習更多的信息表示。然而,眾所周知,深度學習技術對歐幾里德數據(如圖像)或序列數據(如文本)具有破壞性,但不能立即適用于圖結構數據。因此,這一差距推動了對圖的深度學習的研究,特別是圖神經網絡(GNN)的發展。
這種在圖的深度學習和自然語言處理的交叉領域的研究浪潮影響了各種自然語言處理任務。應用/開發各種類型的GNN的興趣激增,并在許多自然語言處理任務中取得了相當大的成功,從分類任務如句子分類、語義角色標注和關系提取,到生成任務如機器翻譯、問題生成和摘要。
盡管取得了這些成功,NLP的圖深度學習仍然面臨許多挑戰,包括自動將原始文本序列數據轉換為高度圖結構的數據,以及有效地建模復雜數據,包括基于圖的輸入和其他高度結構化的輸出數據 (如序列、樹、并在節點和邊均具有多種類型的圖數據。本教程將涵蓋在NLP中運用深度學習圖技術的相關和有趣的主題,包括NLP的自動圖構造、NLP的圖表示學習、NLP的高級基于GNN的模型(例如graph2seq、graph2tree和graph2graph),以及GNN在各種NLP任務中的應用 (例如:機器翻譯、自然語言生成、信息提取和語義解析)。此外,還將包括動手演示課程,以幫助觀眾獲得應用GNN解決具有挑戰性的NLP問題的實際經驗,使用我們最近開發的開源庫——Graph4NLP,這是第一個為研究人員和從業者提供的庫,用于輕松地使用GNN解決各種NLP任務。
自然語言數據的一個重要子集包括跨越數千個token的文檔。處理這樣長的序列的能力對于許多NLP任務是至關重要的,包括文檔分類、摘要、多跳和開放域問答,以及文檔級或多文檔關系提取和引用解析。然而,將最先進的模型擴展到較長的序列是一個挑戰,因為許多模型都是為較短的序列設計的。一個值得注意的例子是Transformer模型,它在序列長度上有二次計算代價,這使得它們對于長序列任務的代價非常昂貴。這反映在許多廣泛使用的模型中,如RoBERTa和BERT,其中序列長度被限制為只有512個tokens。在本教程中,我們將向感興趣的NLP研究人員介紹最新和正在進行的文檔級表示學習技術。此外,我們將討論新的研究機會,以解決該領域現有的挑戰。我們將首先概述已建立的長序列自然語言處理技術,包括層次、基于圖和基于檢索的方法。然后,我們將重點介紹最近的長序列轉換器方法,它們如何相互比較,以及它們如何應用于NLP任務(參見Tay等人(2020)最近的綜述)。我們還將討論處理長序列的關鍵的各種存儲器節省方法。在本教程中,我們將使用分類、問答和信息提取作為激勵任務。我們還將有一個專注于總結的實際編碼練習。
摘要
文本分類是自然語言處理中最基本、最基本的任務。過去十年,由于深度學習取得了前所未有的成功,這一領域的研究激增。大量的方法、數據集和評價指標已經在文獻中提出,提高了全面和更新綜述的需要。本文通過回顧1961年到2020年的先進方法的現狀來填補這一空白,側重于從淺到深的模型學習。我們根據所涉及的文本和用于特征提取和分類的模型創建文本分類的分類法。然后我們詳細討論每一個類別,處理支持預測測試的技術發展和基準數據集。本綜述還提供了不同技術之間的綜合比較,以及確定各種評估指標的優缺點。最后,總結了本研究的關鍵意義、未來研究方向和面臨的挑戰。
介紹
在許多自然語言處理(NLP)應用中,文本分類(為文本指定預定義標簽的過程)是一個基本和重要的任務, 如情緒分析[1][2][3],主題標簽[4][5][6],問答[7][8][9]和對話行為分類。在信息爆炸的時代,手工對大量文本數據進行處理和分類是一項耗時且具有挑戰性的工作。此外,手工文本分類的準確性容易受到人為因素的影響,如疲勞、專業知識等。人們希望使用機器學習方法來自動化文本分類過程,以產生更可靠和較少主觀的結果。此外,通過定位所需信息,可以提高信息檢索效率,緩解信息超載的問題。 圖1給出了在淺層和深層分析的基礎上,文本分類所涉及的步驟流程圖。文本數據不同于數字、圖像或信號數據。它需要NLP技術來仔細處理。第一個重要的步驟是對模型的文本數據進行預處理。淺層學習模型通常需要通過人工方法獲得良好的樣本特征,然后用經典的機器學習算法對其進行分類。因此,特征提取在很大程度上制約了該方法的有效性。然而,與淺層模型不同,深度學習通過學習一組直接將特征映射到輸出的非線性轉換,將特征工程集成到模型擬合過程中。
主要文本分類方法的示意圖如圖2所示。從20世紀60年代到21世紀10年代,基于淺層學習的文本分類模型占據了主導地位。淺層學習意味著在樂此不疲的模型,如 Na??ve Bayes(NB)[10], K-近鄰(KNN)[11],和支持向量機(SVM)[12]。與早期基于規則的方法相比,該方法在準確性和穩定性方面具有明顯的優勢。然而,這些方法仍然需要進行特征工程,這是非常耗時和昂貴的。此外,它們往往忽略文本數據中自然的順序結構或上下文信息,使學習詞匯的語義信息變得困難。自2010年代以來,文本分類逐漸從淺層學習模式向深度學習模式轉變。與基于淺層學習的方法相比,深度學習方法避免了人工設計規則和特征,并自動提供文本挖掘的語義意義表示。因此,大部分文本分類研究工作都是基于DNNs的,這是一種計算復雜度很高的數據驅動方法。很少有人關注于用淺層學習模型來解決計算和數據的局限性。
在文獻中,Kowsari等[13]考慮了不同的文本特征提取、降維方法、文本分類的基本模型結構和評價方法。Minaee等人[14]回顧了最近基于深度學習的文本分類方法、基準數據集和評估指標。與現有的文本分類研究不同,我們利用近年來的研究成果對現有的模型進行了從淺到深的總結。淺層學習模型強調特征提取和分類器設計。一旦文本具有精心設計的特征,就可以通過訓練分類器來快速收斂。在不需要領域知識的情況下,DNNs可以自動進行特征提取和學習。然后給出了單標簽和多標簽任務的數據集和評價指標,并從數據、模型和性能的角度總結了未來的研究挑戰。此外,我們在4個表中總結了各種信息,包括經典淺層和深度學習模型的必要信息、DNNs的技術細節、主要數據集的主要信息,以及在不同應用下的最新方法的一般基準。總而言之,本研究的主要貢獻如下:
我們在表1中介紹了文本分類的過程和發展,并總結了經典模式在出版年份方面的必要信息,包括地點、應用、引用和代碼鏈接。
根據模型結構,從淺層學習模型到深度學習模型,對主要模型進行了全面的分析和研究。我們在表2中對經典或更具體的模型進行了總結,并主要從基本模型、度量和實驗數據集方面概述了設計差異。
我們介紹了現有的數據集,并給出了主要的評價指標的制定,包括單標簽和多標簽文本分類任務。我們在表3中總結了基本數據集的必要信息,包括類別的數量,平均句子長度,每個數據集的大小,相關的論文和數據地址。
我們在表5中總結了經典模型在基準數據集上的分類精度得分,并通過討論文本分類面臨的主要挑戰和本研究的關鍵意義來總結綜述結果。