標題:Dialogue Distillation: Open-domain Dialogue Augmentation Using Unpaired Data
作者:張榮升,鄭銀河(共同第一作者),邵建智,毛曉曦,席亞東,黃民烈
關鍵詞:對話系統,數據增廣,模型蒸餾
類型:EMNLP 2020, Long Paper
論文地址://arxiv.org/abs/2009.09427
GitHub:
簡介:目前開放領域對話模型的訓練過程極大地依賴于大規模對話數據,但是,收集高質量的對話數據是非常消耗人力和物力的事情。本文中,我們提出了一個可適用于開放領域對話的數據增廣的方法:“對話蒸餾”。我們的方法中使用了非平行數據來增廣對話對。具體來說,我們首先設計了一個數據層面的蒸餾過程,在這一過程中,我們根據現有的對話對,在非配對數據中檢索相似的句子,從而組成增廣后的對話對。我們還提出了一個模型層面的蒸餾過程,這一過程中我們首先使用少量高質量的對話數據訓練得到了一個Teacher模型,然后再基于增廣后的數據,將這一teacher模型蒸餾到一個student模型中。自動和人工評測均表明,我們的方法可以生成高質量的增廣數據,并且我們所提出的對話蒸餾方法可以進一步幫我們提升開放領域對話模型的性能。(注:與網易伏羲實驗室合作)
論文名稱:Combining Self-Training and Self-Supervised Learningfor Unsupervised Disfluency Detection 論文作者:王少磊,王重元,車萬翔,劉挺 原創作者:王少磊 論文鏈接://ir.hit.edu.cn/~slwang/emnlp2020.pdf
摘要:文本順滑(Disfluency Detection)的目的是刪除自動語音識別(ASR)結果中的不順滑的詞,從而得到更自然和通順的句子。目前大部分在文本順滑(Disfluency Detection)任務上的工作都嚴重依賴人工標注數據。在本工作中,我們首次嘗試用無監督的方法來解決文本順滑問題。我們通過結合自訓練(self-training)和自監督(self-supervised)兩種方法,在不采用任何有標注訓練數據的情況下,取得了跟目前最好的有監督方法接近的效果。
盡管生成式預訓練語言模型在一系列文本生成任務上取得了成功,但在生成過程中需要對基本常識進行推理的情況下,它們仍然會受到影響。現有的將常識知識整合到生成的預訓練語言模型中的方法,只是簡單地通過對單個知識三元組的后訓練來遷移關系知識,而忽略了知識圖譜中豐富的連接。我們認為,利用知識圖譜的結構和語義信息有助于常識感知文本的生成。在本文中,我們提出用多跳推理流(GRF)進行生成,使預訓練的模型能夠在從外部常識知識圖譜中提取的多關系路徑上進行動態多跳推理。我們的經驗表明,我們的模型在三個文本生成任務上優于現有的基線,這些任務需要推理而非常識知識。通過模型推導出的推理路徑,證明了動態多跳推理模塊的有效性,為生成過程提供了理論依據。
人機對話系統能夠讓機器通過人類語言與人進行交互,是人工智能領域的一項重要工作。因其在虛擬助手和社交聊天機器人等領域的商業價值而廣受工業界和學術界的關注。近年來,互聯網社交數據快速增長促進了數據驅動的開放領域對話系統研究,尤其是將深度學習技術應用到其中取得了突破性進展。基于深度學習的開放領域對話系統使用海量社交對話數據,通過檢索或者生成的方法建立對話模型學習對話模式。將深度學習融入檢索式系統中研究提高對話匹配模型的效果,將深度學習融入生成式系統中構建更高質量的生成模型,成為了基于深度學習的開放領域對話系統的主要任務。本文對近幾年基于深度學習的開放領域對話系統研究進展進行綜述,梳理、比較和分析主要方法,整理其中的關鍵問題和已有解決方案,總結評測指標,展望未來研究趨勢。