在多輪對話中,人們不總是會使用完整精確的句子表達方式,因而使得對話的上下文理解變得尤為困難。可是,我們需要讓計算機充分理解上下文,才能產生一個合理的系統回答。在本文中,我們提出了一種訓練計算機系統通過完成閱讀理解的任務,提升其對會話上下文出現信息缺失情況下的理解推理能力:即使出現了信息缺失,系統也有能力進行理解及補全。受多任務學習范式的啟發,我們提出了一種聯合訓練的模型框架,將對話與閱讀理解兩個不同的任務進行捏合與適度的共享,從而使得這種在信息缺失情況下的推理能力可以很好的幫助對話系統完成會話過程。
//www.zhuanzhi.ai/paper/4796c9faac3b36e1c30a21eed28ebe9e
騰訊健康,騰訊醫典有多個個性化推薦場景,為了提高推薦效果,使用預訓練機制學習更完整的用戶表示。
用戶表示的學習是推薦系統模型中的重要一環。早期的方法根據用戶和項目之間的交互矩陣來學習用戶表達,但這些交互矩陣非常稀疏且矩陣中的值通常是粗粒度的,導致系統很難學習到準確的用戶表達。近期一些工作利用信息更加豐富的評論文本來增強用戶的表示學習,但對于冷門的領域或場景,評論文本的數量也不足以幫助其學習到完整準確的用戶表示。用戶的一些偏好(如評論習慣等)是在不同的領域或場景間共享的,我們可以利用數據豐富的場景下的評論幫助數據不豐富的場景的推薦。同時,受到近期自然語言處理領域中預訓練技術的啟發,本論文提出了一種基于預訓練和微調的兩階段推薦模型。如圖(a)所示,U-BERT包含兩個主要模塊能夠建模評論文本并將其語義信息和用戶的嵌入表達進行融合。在預訓練階段,我們設計了兩種新的預訓練任務能夠充分地利用不同場景下積累的評論文本來學習通用的用戶表達。如圖(b)所示,在微調階段,我們會根據特定場景下的評論數據對預訓練的用戶表示進行微調以適應當前場景下的特點。此外,在進行評分預測時,我們還設計了一個co-matching模塊以捕捉細粒度的語義匹配信息來更好地預測用戶對項目的打分。實驗結果表明,本文提出的推薦模型在多個開放數據集上取得了性能提升。
//34.94.61.102/paper_AAAI-2116.html
在自然語言處理和知識圖構造的信息提取中,三次提取是必不可少的任務。在本文中,我們將重新審視用于序列生成的端到端三重提取任務。由于生成三元組提取可能難以捕獲長期依賴關系并生成不忠實的三元組,因此我們引入了一種新穎的模型,即使用生成Transformer的對比三元組提取。具體來說,我們介紹了一個共享的Transformer模塊,用于基于編碼器-解碼器的生成。為了產生忠實的結果,我們提出了一種新穎的三重態對比訓練對象。此外,我們引入了兩種機制來進一步提高模型性能(即,批量動態注意遮罩和三級校準)。在三個數據集(即NYT,WebNLG和MIE)上的實驗結果表明,我們的方法比基線具有更好的性能。
//www.zhuanzhi.ai/paper/b8ed53721b7162af43614d558adb9c58
生成式常識推理是文本生成的一個關鍵瓶頸,它旨在使機器能夠根據一組概念生成具有推理能力的句子。即使是最先進的預訓練語言生成模型也難以完成這一任務,而且常常產生不合邏輯和異常的句子。其中一個原因是,他們很少考慮將知識圖譜整合進來,因為知識圖譜可以在常識概念之間提供豐富的關系信息。為了提高常識性推理生成文本的能力,我們提出了一種新的知識圖譜增強的預訓練語言生成模型KG-BART,該模型通過知識圖譜包含了復雜的概念關系,并生成了更符合邏輯和自然的句子作為輸出。此外,KG-BART可以利用圖上的注意力來聚集豐富的概念語義,從而增強對看不見的概念集的模型泛化。在基準commonen數據集上進行的實驗驗證了本文方法的有效性,并與幾個強的預訓練語言生成模型進行了比較,特別是在BLEU - 3,4方面,KG-BART的性能比BART高出5.80、4.60。此外,我們還表明,通過我們的模型生成的上下文可以作為背景場景,從而有利于下游的常識性QA任務。
//www.zhuanzhi.ai/paper/5478cc149a0d6a523665d68c6d3c170a
擁有良好醫學知識的人類醫生,只需與病人進行幾次有關癥狀的對話,就能診斷出疾病。相比之下,現有的以知識為基礎的對話系統往往需要大量對話實例來學習,因為它們無法捕捉不同疾病之間的相關性,忽視了它們之間共享的診斷經驗。為解決這一問題,我們提出了一種更自然、更實用的范式,即低資源的醫療對話生成,它可以將源疾病的診斷經驗轉移到有少量數據可供適應的目標疾病。它利用常識知識圖譜來表征先前的疾病癥狀關系。此外,我們還開發了一個圖演化元學習(GEML)框架,該框架通過學習進化常識圖譜來推理一種新疾病的疾病癥狀相關性,有效地緩解了大量對話的需求。更重要的是,通過動態演變的疾病癥狀圖,GEML還很好地解決了現實世界的挑戰,即每種疾病的疾病癥狀相關性可能隨著更多診斷病例而變化或演變。在CMDD數據集和我們新收集的Chunyu數據集上的大量實驗結果證明了我們的方法優于最先進的方法。此外,GEML還可以在線生成豐富的對話敏感的知識圖譜,對其他基于知識圖譜的任務有借鑒意義。
//www.zhuanzhi.ai/paper/e378691f4b084a18b1a0238815c63fb6