EMNLP 2020(2020 Conference on Empirical Methods in Natural Language Processing)將于2020年11月16日至20日以在線會議的形式舉辦。EMNLP是計算語言學和自然語言處理領域頂級國際會議之一,CCF B類會議,由ACL SIGDAT(語言學數據特殊興趣小組)主辦,每年舉辦一次。
EMNLP 2020共收到有效投稿3114篇,錄用754篇,錄用率為24.82%。此外,因為高質量的論文越來越多超出了EMNLP會議本身所能容納的范圍,今年EMNLP新增了Findings of EMNLP這一子刊,它將接納那些未被主會錄用但是被程序委員會評價為值得出版的文章,此次Findings of EMNLP共接收了520篇文章。EMNLP 2020接收的論文覆蓋了對話交互系統、信息抽取、信息檢索和文檔分析、詞法語義、語言學理論、認知建模和心理語言學、用于NLP的機器學習、機器翻譯與多語言、問答、句子級語義學、情感分析和論點挖掘、文本挖掘和NLP應用、文本推理等自然語言處理領域眾多研究方向。
哈爾濱工業大學社會計算與信息檢索研究中心有九篇長文被錄用,其中四篇被主會錄用,五篇被Findings of EMNLP子刊錄用。下面是論文列表及介紹:
01
題目:Combining Self-Training and Self-Supervised Learning for Unsupervised Disfluency Detection 作者:王少磊,王重元,車萬翔,劉挺 錄用類別:主會 簡介:目前大部分在文本順滑(Disfluency Detection)任務上的工作都嚴重依賴人工標注數據。有一些工作嘗試用自監督方法(self-supervised)來緩解這個問題,但是他們的方法仍然依賴于有標注數據。在本工作中,我們首次嘗試用無監督的方法來解決文本順滑問題。我們通過結合自學習(self-training)和自監督兩種方法,在不采用任何有標注訓練數據的情況下,取得了跟目前最好的有監督方法接近的效果。
02
題目:Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting 作者:陳三元,侯宇泰,崔一鳴,車萬翔,劉挺,余翔湛 錄用類別:主會 簡介:深層預訓練模型在“預訓練+精調”模式中取得了巨大成功。但這種遷移學習方法通常會碰到“災難性遺忘”問題并且會導致次優結果。為了在精調過程中減少“災難性遺忘”問題,我們提出了一種“recall and learn”的方法來同時學習預訓練任務和下游任務。具體地,我們提出了一種模擬預訓練機制,在不使用數據的情況下回憶預訓練任務所帶來的知識;同時提出了一種目標轉移機制來逐步學習下游任務。實驗結果表明我們的方法可以在GLUE任務上獲得state-of-the-art效果。同時,BERT-base在應用了我們的方法后能夠超過直接精調BERT-large的效果。我們已經將RecAdam優化器進行開源://github.com/Sanyuan-Chen/RecAdam。
03
題目:Pro?le Consistency Identi?cation for Open-domain Dialogue Agents 作者:宋皓宇,王琰,張偉男,趙正宇,劉挺,劉曉江 錄用類別:主會 簡介:保持一致的角色屬性是對話系統自然地與人類進行交流的關鍵因素之一。現有的關于提高屬性一致性的研究主要探索了如何將屬性信息融合到對話回復中,但是很少有人研究如何理解、識別對話系統的回復與其屬性之間的一致性關系。在這項工作中,為了研究如何識別開放域對話的屬性一致性,我們構建了一個大規模的人工標注數據集KvPI,該數據集包含了超過11萬組的單輪對話及其鍵值對屬性信息。對話回復和鍵值對屬性信息之間的一致性關系是通過人工進行標注的。在此基礎上,我們提出了一個鍵值對結構信息增強的BERT模型來識別回復的屬性一致性。該模型的準確率相較于強基線模型獲得了顯著的提高。更進一步,我們在兩個下游任務上驗證了屬性一致性識別模型的效果。實驗結果表明,屬性一致性識別模型有助于提高開放域對話回復的一致性。
04
題目:Counterfactual Off-Policy Training for Neural Dialogue Generation 作者:朱慶福,張偉男,劉挺,William Wang 錄用類別:主會 簡介:開放域對話系統由于潛在回復數量過大而存在著訓練數據不足的問題。我們在本文中提出了一種利用反事實推理來探索潛在回復的方法。給定現實中觀測到的回復,反事實推理模型會自動推理:如果執行一個現實中未發生的替代策略會得到什么結果?這種后驗推理得到的反事實回復相比隨機合成的回復質量更高。在對抗訓練框架下,使用反事實回復來訓練模型將有助于探索潛在回復空間中獎勵信號更高的區域。在DailyDialog數據集上的實驗結果表明,我們的方法顯著優于HRED模型和傳統的對抗訓練方法。
05
題目:A Compare Aggregate Transformer for Understanding Document-grounded Dialogue 作者:馬龍軒,張偉男,孫潤鑫,劉挺 錄用類別:Findings of EMNLP 子刊 簡介:基于文檔的對話是指針對給定文檔進行多輪對話。先前的工作主要關注如何利用對話歷史篩選合適的文檔信息,利用篩選出的信息生成對話回復。但對話歷史不一定與當前對話完全相關。如果不區分歷史對話和當前對話之間的相關性,將導致在生成回復時引入無關噪音。因此本文提出了一種"對比聚合"的Transformer結構,將對話歷史進行降噪處理,并聚合文檔信息以生成回復。在公開數據集CMU_DoG上的實驗表明,我們提出的模型優于最新的基線模型。代碼和數據將在Github中發布。
06
題目:Towards Fine-Grained Transfer: An Adaptive Graph-Interactive Framework for Joint Multiple Intent Detection and Slot Filling 作者:覃立波、徐嘯、車萬翔、劉挺 錄用類別:Findings of EMNLP 子刊 簡介:在現實世界中,用戶在同一個話語中通常有多個意圖。遺憾的是,大多數口語理解(SLU)模型要么主要集中于單一意圖場景,要么簡單地將所有意圖信息整合到一個統一的向量去指導槽位填充,忽略了細粒度的多意圖信息整合。在本文中,我們提出了一個自適應圖交互框架(AGIF),用于聯合多意圖檢測和槽位填充。AGIF通過引入意圖-槽位的圖交互層,來建模槽位和多意圖之間的相關性。這種交互層能夠自適應地應用于每個單詞,可以自動為每個槽位分別捕獲相關的意圖信息,從而為單詞級別的槽位填充進行細粒度的意圖信息指導。實驗結果表明,我們的方法不僅在兩套多意圖數據集上獲得了SOTA結果,而且還在兩個單意圖的數據集上實現了更好的性能。
07
題目:Enhancing Content Planning for Table-to-Text Generation with Data Understanding and Verification 作者:龔恒,閉瑋,馮驍騁,秦兵,劉曉江,劉挺 錄用類別:Findings of EMNLP 子刊 簡介:基于神經網絡的表格到文本生成模型可以選擇和排序重要數據,并通過surface realization階段來流暢地用文字表達它們。分析已有工作的結果,當前模型的性能瓶頸在于內容規劃階段(從表格數據中選擇和排序重要內容)。在surface realization階段,如果將輸入的標準的內容規劃結果替換為模型預測的內容規劃時,性能將急劇下降。在本文中,我們提出以下方法來增強基于神經網絡的內容規劃模塊:(1)通過上下文數值表示來理解數據,將對數據進行比較的概念引入內容規劃階段;(2)通過策略梯度驗證所選數據序列的重要性和順序。 我們在ROTOWIRE和MLB兩個數據集上評估了我們的模型。結果表明,在內容規劃指標方面,我們的模型優于現有系統。
08
題目:CodeBERT: A Pre-Trained Model for Programming and Natural Languages 作者:馮掌印,郭達雅,唐都鈺,段楠,馮驍騁,公明,壽林鈞,秦兵,劉挺,姜大昕,周明 錄用類別:Findings of EMNLP 子刊 簡介:本文我們提出了一個叫做CodeBERT的雙模態預訓練模型,也是目前已知第一個適用于NL-PL(自然語言-編程語言)的預訓練模型。CodeBERT通過學習一般性的表示來支持下游NL-PL相關的應用,比如自然語言代碼檢索,代碼文檔生成等。和目前大多數預訓練模型類似,CodeBERT使用Transformer作為基本的網絡結構。為了利用NL-PL對的雙模數據和大量單模代碼數據,我們采用了混合目標函數來訓練CodeBERT,包括標準的掩碼語言模型(MLM)和替換詞檢測(RTD)。實驗結果表明,CodeBERT在下游的自然語言代碼檢索和代碼文檔生成任務上都取得了SOTA效果。為了進一步研究CodeBERT學到了哪些類型的知識,我們構造了第一個NL-PL的probing數據集,然后固定預訓練好的參數來對模型進行檢測。實驗結果顯示,CodeBERT比其它預訓練模型在NL-PL的probing上表現更好。目前CodeBERT已開源:
09
題目:Revisiting Pre-Trained Models for Chinese Natural Language Processing 作者:崔一鳴,車萬翔,劉挺,秦兵,王士進,胡國平 錄用類別:Findings of EMNLP 子刊 簡介:BERT及其相關變種預訓練語言模型在眾多自然語言處理任務中獲得顯著性能提升。在本文中,我們探究了這些模型在中文場景下的效果變現,并將相關模型進行開源。同時,我們也提出了一個簡單有效的預訓練語言模型MacBERT,并提出了MLM as correction (Mac) 預訓練任務。我們在多個中文自然語言處理任務中評測了這些模型的效果,并且實驗結果表明MacBERT在多個任務中達到了state-of-the-art效果。
EMNLP 2020(2020 Conference on Empirical Methods in Natural Language Processing)將于2020年11月16日至20日以在線會議的形式舉辦。EMNLP是計算語言學和自然語言處理領域頂級國際會議之一,CCF B類會議,由ACL SIGDAT(語言學數據特殊興趣小組)主辦,每年舉辦一次。
EMNLP 2020共收到有效投稿3114篇,錄用754篇,錄用率為24.82%。
論文名稱:Combining Self-Training and Self-Supervised Learningfor Unsupervised Disfluency Detection 論文作者:王少磊,王重元,車萬翔,劉挺 原創作者:王少磊 論文鏈接://ir.hit.edu.cn/~slwang/emnlp2020.pdf
摘要:文本順滑(Disfluency Detection)的目的是刪除自動語音識別(ASR)結果中的不順滑的詞,從而得到更自然和通順的句子。目前大部分在文本順滑(Disfluency Detection)任務上的工作都嚴重依賴人工標注數據。在本工作中,我們首次嘗試用無監督的方法來解決文本順滑問題。我們通過結合自訓練(self-training)和自監督(self-supervised)兩種方法,在不采用任何有標注訓練數據的情況下,取得了跟目前最好的有監督方法接近的效果。