論文題目: A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data
論文摘要: 賦予對話系統以人物角色是實現更人性化對話的關鍵。然而,由于在自然語言中很難體現個性,以及在大多數對話語料庫中觀察到的人物稀疏性問題,這一問題還遠未得到很好的探討。本論文提出了一種基于預訓練的個性化對話模型,該模型可以利用人物角色稀疏對話數據生成一致響應。該方法利用預先訓練好的語言模型來初始化編解碼器,并通過將說話人的角色和對話歷史一起編碼,設計了個人屬性嵌入來建模更豐富的對話上下文。此外,為了在解碼過程中合并目標人物角色并平衡其貢獻,在解碼器中設計了注意路由結構,以使用動態預測權重合并從目標人物角色提取的特征和對話上下文。我們的模型可以在訓練過程中統一使用人物角色稀疏對話,也可以控制推理過程中要顯示的人物角色相關特征的數量。無論是自動評估還是手動評估都表明,該模型在使用人物角色稀疏數據生成更一致和人物角色一致的響應方面優于最新方法。
摘要
圖神經網絡(GNNs)已被證明在建模圖結構的數據方面是強大的。然而,訓練GNN通常需要大量指定任務的標記數據,獲取這些數據的成本往往非常高。減少標記工作的一種有效方法是在未標記數據上預訓練一個具有表達能力的GNN模型,并進行自我監督,然后將學習到的模型遷移到只有少量標記的下游任務中。在本文中,我們提出了GPT-GNN框架,通過生成式預訓練來初始化GNN。GPT-GNN引入了一個自監督屬性圖生成任務來預訓練一個GNN,使其能夠捕獲圖的結構和語義屬性信息。我們將圖生成的概率分解為兩部分:1)屬性生成和2)邊生成。通過對兩個組件進行建模,GPT-GNN捕捉到生成過程中節點屬性與圖結構之間的內在依賴關系。在10億規模的開放學術圖和亞馬遜推薦數據上進行的綜合實驗表明,GPT-GNN在不經過預訓練的情況下,在各種下游任務中的表現顯著優于最先進的GNN模型,最高可達9.1%。
**關鍵詞:**生成式預訓練,圖神經網絡,圖表示學習,神經嵌入,GNN預訓練
題目: A Transformer-based Embedding Model for Personalized Product Search
摘要: 產品搜索是人們在電子商務平臺上瀏覽和購買商品的重要方式。雖然客戶傾向于根據他們的個人品味和偏好做出選擇,但對商業產品搜索日志的分析表明,個性化并不總是能提高產品搜索質量。然而,大多數現有的產品搜索技術在搜索會話之間執行無差異的個性化設置。他們要么用一個固定的系數來控制個性化的影響,要么用一個注意力機制讓個性化一直發揮作用。唯一值得注意的例外是最近提出的零注意模型(zero-attention model, ZAM),該模型允許查詢關注一個零向量,從而自適應地調整個性化的效果。盡管如此,在ZAM中,個性化最多可以發揮與查詢同等重要的作用,并且不管用戶的歷史購買中同時出現的item是什么,item的表示在整個集合中都是靜態的。考慮到這些局限性,我們提出了一種基于Transformer的個性化產品搜索嵌入模型(TEM),該模型通過使用Transformer架構對查詢序列和用戶購買歷史進行編碼,從而動態地控制個性化的影響。個性化可以在必要時發揮主導作用,在計算注意力權重時可以考慮item之間的交互。實驗結果表明,TEM的性能明顯優于目前最先進的個性化產品檢索模型。
題目
知識增強的常識性故事生成預訓練模型,A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation
關鍵字
知識增強,故事生成,預訓練,機器學習,神經網絡,語言模型
簡介
故事生成,即從主導語境中生成真實的故事,是一項重要而富有挑戰性的任務。盡管成功建模流暢性和本地化,現有的神經語言生成模型(例如,GPT-2)仍然遭受重復,邏輯沖突,缺乏長期連貫性在生成的故事。我們推測,這是由于關聯相關常識知識、理解因果關系、規劃實體和事件具有適當的時間順序等方面的困難,本文設計了一個常識故事生成的知識增強預訓練模型,并提出了利用常識知識的方法來自外部知識庫的知識,以生成合理的故事。為了進一步捕捉可推理故事中句子之間的因果關系和時間依賴關系,我們采用了多任務學習法,在微調過程中結合辨別目標來區分真假故事。自動和手動評估表明,我們的模型可以生成比藝術基線狀態更合理的故事,特別是在邏輯和全局一致性方面。
作者
Jian Guan, Fei Huang, Xiaoyan Zhu, Minlie Huang,來自人工智能研究所,智能技術與系統國家重點實驗室;北京國家信息科學技術研究中心;清華大學計算機科學與技術系。 Zhihao Zhao,來自北京航空航天大學軟件學院。
題目:History-adaption Knowledge Incorporation Mechanism for Multi-turn Dialogue System
簡要介紹:近些年來,大家對于多輪對話中保持對話的一致性和減少重復性的問題。本文介紹中科院信工所孫雅靜等人的工作《History-adaption Knowledge Incorporation Mechanism for Multi-turn Dialogue System》,該論文提出了一種history-adaption knowledge incorporation 機制,動態的考慮對話歷史和知識之間的信息相互傳遞,增強檢索式對話中的對話一致性以及避免重復性。
動機:大部分的對話系統模型考慮將個性化知識或者背景知識融入到對話中提高對話的質量,但是卻忽略了重復融合相同的知識在對話中會產生重復性問題。因此在將外部知識融合到對話中時我們不僅應該考慮當前對話和外部知識的語義相關性,同時在整個對話的層次上盡量避免外部知識的重復性使用。在提高對話質量的同時避免對話重復。
核心思想:我們設計了基于歷史自適應的知識融合機制,該機制使用每一輪對話歷史和知識進行感知,得到knowledge-grounded歷史表示,同時設計了特殊的門機制來控制流向下一輪對話的知識的信息,隱式的控制知識的使用。Knowledge-grounded 歷史表示融合了知識的信息,同時我們使用層次的歷史編碼,增強對話的理解;history-aware 的知識表示參考了歷史信息,避免了知識的重復性使用。
論文題目:
Latent Relation Language Models
論文摘要: 在本文中,我們提出了潛在關系語言模型(LRLM),它是一類語言模型,它通過知識圖的關系參數化文檔中單詞和其中出現的實體的聯合分布。 該模型具有許多吸引人的屬性:它不僅提高了語言建模性能,而且還能夠注釋實體跨度對于關聯文本的后驗概率。 實驗表明,在基于單詞的基準語言模型和結合了知識圖譜信息的先前方法上,經驗性改進。 定性分析進一步證明了該模型在上下文中學習最佳預測適當關系的能力。
論文摘要: 我們提出了一個大型的可調神經會話響應生成模型DIALOGPT(對話生成預訓練Transformer)。經過2005年至2017年期間從Reddit評論中提取147M大小的類似的對話內容,DialoGPT擴展了Hugging Face PyTorch transformer,在單輪對話設置中實現了在自動和人類評估性方面都接近人類。我們表明,利用DialoGPT的會話系統比基線系統生成更相關、更有內容和上下文一致的響應。預訓練的模型和訓練方法已經公開發布,以促進對神經響應生成的研究和更智能的open-domain對話系統的開發。