近年來開放域的閑聊對話研究如雨后春筍般涌現,甚至還做起了跨界,如最近炙手可熱的會話推薦系統。而作為人工智能王冠上明珠中的一顆,自然語言處理中隨時打算挑戰圖靈測試的對話系統,當然是不可能止步于機械地一問一答的形式,因此本文基于一對多生成這個角度,探索相關領域的多樣性生成,希望能給一對多對話生成注入新的構思。下面主要介紹近來的 5 篇多樣性生成的研究成果。
01 Target Conditioning for One-to-Many Generation
這篇論文是 Facebook 收錄在 EMNLP2020 的工作,主要是為了解決機器翻譯模型中缺乏多樣性的問題。本文認為當前的 beam search 方法生成的目標語句仍缺乏多樣性,時常出現詞語重復和語義重疊的問題。并且之前的模型都是在 1-to-1 的數據集上進行訓練,缺少對鼓勵多樣性的目標函數的設計。
這篇工作借鑒了 discrete autoencoders 的思路,提出將一個 discrete target encoder 引入到翻譯模型中,方便將每一個目標語句關聯到對應的 variable 或者 domain。其中每一個 domain 對應一個 embedding,這樣在測試階段可以根據每個 domain embedding 來生成多樣性的翻譯。并且這種離散化的表示方式允許以無監督的方式來改變翻譯的 domain 信息。
02
Diversify Question Generation with Continuous Content Selectors and Question Type Modeling
這篇論文是華為諾亞方舟收錄在 EMNLP2020 的工作。主要關注的是 QA 工作的逆任務,基于回復和上下文來生成問題,同樣這也在一對多生成的范疇內。本文主要思想是通過關注 context 中的不同位置以及表達的不同含義來建模多樣性。
基于 CVAE,通過采用 multimodal 的先驗分布來構造更多樣的 content selectors,從而能夠在 context 定位更多樣的關注點。在預測 question type 時,提出 diversity-promoting 算法,主要通過引入 decay 變量來限制相同類型問題分布的出現概率,從而鼓勵預測出更豐富的 question type。
03
Focus-Constrained Attention Mechanism for CVAE-based Response Generation
這篇工作是小米 AILab 和香港理工大學的合作論文。文中指出了目前基于 CVAE 的方法僅僅是依賴 discourse-level latent variable 來進行多樣性的建模,認為這太過粗粒度。因此提出使用 fine-grained word-level information。
具體來說就是,首先通過引入更加細粒度的 focus 信號,來衡量對話上文和回復的語義集中度。然后提出一個 focus-constrained 的注意力機制,以充分利用 focus 信號并輔助回復的生成。實驗結果表明,通過利用細粒度的 focus 信號,文中的模型確實可以產生更多樣化以及更可控的回復。
04
Controllable Text Generation with Focused Variation
本文指出了當前可控文本生成的不足,在給定 attributes 的情況下,模型往往不足以生成足夠相關的文本,以及很容易生成無意義或者重復的文本。
作者從 CVAE 及其變種的角度分析,當前 CVAE 系列在處理這種可控屬性的問題上都表現得不是很好。當然這個不足也是當前對話生成中普遍存在的問題。真正實現可控文本的生成,那離可控地進行多樣化的文本生成也就不遠了。
這篇工作從可控性和多樣性兩個角度來進行文本生成的工作,設計 context 和 style 兩類屬性編碼器和解碼區解構整個語義空間,以此來實現屬性的可控性和多樣化。
05 COD3S: Diverse Generation with Discrete Semantic Signatures
本文主要針對在 decoding 階段的采樣方法進行改進。經典的 beam search 方法易造成句法、詞匯、語義上的重疊和重復。因此本篇工作提出顯式地捕捉語義差異的信號,從而實現多樣化的采樣策略。
該模型主要是用 sentence-BERT (SBERT) 獲得的上下文相關語義表示,通過使用 Locality-Sensitive Hashing (LSH) 來獲得句子的離散語義代碼。然后采用兩階段的解碼策略,獲得最相關的代碼,作為前綴,使用 prefix-conditioned beam search 方法進行解碼。
結束語:一對多對話生成以及多樣性文本生成的研究任重而道遠。給模型一個輸入,然后返回多個引入知識、涵蓋類型廣但又不存在語義重疊的回復,目前來看還沒有真正地實現。希望本文能給讀者帶來一些啟發。如有不同見解,歡迎指正批評、不吝賜教。
論文題目:Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models
論文概述:本文研究如何自動生成描述知識圖譜(KG)中事實的自然語言文本。借助預訓練語言模型(PLMs)在語言理解和生成方面的能力,我們主要考慮少樣本場景。我們提出了三個主要的技術貢獻,即用于彌合KG編碼和PLM之間語義差距的表示對齊,用于生成更好的輸入表示的基于關系的KG線性化策略,以及用于學習KG和文本之間對應關系的多任務學習。在三個基準數據集上進行的大量實驗證明了我們的模型在KG到文本生成任務上的有效性。特別是,我們的模型可以實現在只有幾百個標記樣本的情況下取得非常好的效果。
對話系統作為人機交互的重要方式,有著廣泛的應用前景。現有的對話系統專注于解決語義一致性和內容豐富性等問題,對于提高人機交互以及產生人機共鳴方向的研究關注度不高。如何讓生成的語句在具有語義相關性的基礎上更自然地與用戶交流是當前對話系統面臨的主要問題之一。首先對對話系統進行了整體情況的概括。接著介紹了情感對話系統中的對話情緒感知和情感對話生成兩大任務,并分別調研歸納了相關方法。對話情緒感知任務大致分為基于上下文和基于用戶信息兩類方法。情感對話生成的方法包括規則匹配算法、指定情感回復的生成模型和不指定情感回復的生成模型,并從情緒數據類別和模型方法等方面進行了對比分析。然后總結整理了兩大任務下數據集的特點和鏈接便于后續的研究,并歸納了當前情感對話系統中不同的評估方法。最后對情感對話系統的工作進行了總結和展望。
文本生成是目前自然語言處理(NLP)領域一個非常重要且有挑戰的任務。文本生成任務通常是以文本作為輸入(例如序列,關鍵詞),通過將輸入文本數據處理成語義表示,生成可以理解的自然語言文本。幾個具有代表性的文本生成任務,例如機器翻譯,文件摘要,對話系統。自從2014年Seq2Seq框架提出以來,文本生成迅速成為研究熱點,包括一系列經典而有效的模型,例如循環神經網絡(RNN),卷積神經網絡(CNN),Transformer。基于這些模型,注意力機制(attention)和拷貝機制(copy/pointer-generator)的提出也極大促進了文本生成的研究。但是,研究人員發現,傳統的文本生成任務只依靠輸入文本進行生成,缺乏更加豐富的“知識”信息,因此生成的文本往往非常乏味,缺少有意思的內容。例如在對話系統中,如果只提供一段輸入文本而沒有其他上下文,對話機器人往往會回答“我也是一樣”,“我聽不懂你在說什么”等。相比之下,人類通過從外界獲取、學習和儲存知識,可以迅速理解對話里的內容從而做出合適的回復。所以,“知識”對于文本生成任務而言,可以超越輸入文本中的語義限制,幫助文本生成系統生成更加豐富、有意思的文本。在文本生成任務中,“知識”是對輸入文本和上下文的一種“補充”,可以由不同方法和信息源獲得,包括但不限于關鍵詞,主題,語言學特征,知識庫,知識圖譜等,可以參考下圖1中的 Information Sources。這些“知識”可以通過不同的表示方法學習到有效的知識表示,用于增強文本生成任務的生成效果,這就被稱為知識增強的文本生成(Knowledge-Enhanced Text Generation)。因此,知識增強的文本生成主要有兩個難點:如何獲取有用的知識(圖1 Information Sources),以及如何理解并借助知識促進文本生成(圖1 Methods)。接下來的內容將主要圍繞著這兩個問題進行展開。
面向文本生成的深度序列模型研究
人工智能走向成熟的一個重要標志是賦予計算機“說話” 的能力,實現文本 的自動生成。文本生成范圍很廣,按照不同的輸入劃分,可包括圖像到文本的生 成、音頻到文本的生成、數據到文本的生成以及文本到文本的生成。其中,文本 到文本的生成旨在分析理解輸入文本,撰寫得到新的自然語言文本。文本到文本 生成技術廣泛應用在智能編輯、智能助理、人機對話等領域,悄然融入到人們的 日常生活中,也成為學術界研究的熱點。
文本到文本的生成可以看做是將承載原始信息的文本轉變成符合用戶真實 信息需求的文本。本文根據信息變換方式的不同,將文本到文本的生成劃分成三 類任務:壓縮式生成、對等式生成和多樣化生成。其中壓縮式生成將文本或文本 集合壓縮成簡明扼要的內容;對等式生成中輸入文本和輸出文本在語義上具有 一一對應性;多樣化生成中輸入文本和輸出文本在語義上存在著多種對應關系。近年來,隨著深度學習的崛起,利用深度序列模型,實現序列到序列的學習已然 成為文本到文本生成研究領域的主流。基于深度序列建模的文本到文本生成主 要包含三個環節:輸入文本的語義理解,輸入信息到輸出信息的映射,以及輸出 文本的建模。基于此,本文研究了面向文本生成的深度序列建模過程中三個關鍵 性的挑戰問題:1)輸入文本的語義繁雜性;2)輸入文本和輸出文本間的映射多 樣性;3)輸出文本的結構復雜性。
首先,針對語義繁雜性問題,本文提出了兩種利用深度學習技術進行語義精 簡表征的算法。首先,從無監督方式利用詞向量表達文檔語義的角度,本文提出 了基于聚合和基于生成的文檔表征模型。傳統的詞向量袋模型無法刻畫單詞間 的語義關聯性,并且缺乏合理的概率統計基礎。針對這兩個問題,本文設計了一 個詞向量聚合框架,利用球上連續概率分布建模詞向量間的余弦相似度,以及一 個基于詞向量的概率生成模型,同時建模文本和單詞的生成。其次,從有監督方 式直接利用神經網絡端到端建模文本生成的角度,針對壓縮式生成中輸入文本 較長帶來的復雜語義理解問題,本文設計了層次化的表征模型,捕捉文檔中的層 次組成結構。句子是關于長文檔核心主題的更主要的載體。但是,現有的工作平 等地對待每個句子,并未考慮不同句子所起作用的不同。針對此問題,本文提出了自我注意力機制,自動學習不同句子的權重,以組合得到最終的文檔表達。實 驗結果驗證了本文提出的模型在繁雜語義的精簡表征能力上的有效性。
然后,針對映射多樣性問題,本文提出了基于顯式的控制變量來幫助學習映 射關系的模型。現有工作僅用單模型來學習映射關系,因此只適用于對等式生 成,在多樣化生成中失敗。針對此問題,本文直接面向對話任務,解決 “話語-回 復” 間一對多的具體化映射關系導致單模型傾向生成高頻回復的問題。本文提出 了一種新的可控回復生成機制,將具體化控制變量引入到深度序列模型中,并通 過高斯核層與單詞的使用表達相互作用,以指導模型生成不同具體化程度下的 回復。當變量設為固定值時,模型刻畫的就是一對一關系,適用于對等式生成。實驗結果證明,本文所提模型可以有效地控制目標文本的生成。
最后,針對結構復雜性問題,本文分別從非結構化文本和結構化文本兩個角 度對輸出文本進行了研究。首先,針對非結構化文本中疑問句存在的疑問模式, 本文在基于自我注意力機制的深度序列模型中,引入疑問詞詞表,并在非疑問詞 和疑問詞詞表上使用詞表選擇機制,以更好地學習疑問句模式。其次,相比于非 結構化文本,結構化文本能夠更有條理地組織信息,然而鮮有人關注結構化文本 的生成,比如提綱、信息表和報表等。因此,本文提出了提綱生成任務,識別多 段落文檔中潛在的章節并生成相應的章節標題,并將其形式化為層次化的結構 預測問題,提出了層次化的結構生成模型,捕捉三個級別的一致性。實驗證實, 本文所提模型不僅可以捕捉文本的內在復雜結構,并且可以顯著提升生成效果。
綜上所述,本文研究了壓縮式生成、對等式生成以及多樣化生成三類文本到 文本的生成任務,在深度序列建模的三個環節,理解、映射以及建模上的問題, 并相應的提出了多個新穎的深度模型,在公開的評測數據集上對各個模型的性 能進行了驗證。
摘要:近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。
人機對話系統能夠讓機器通過人類語言與人進行交互,是人工智能領域的一項重要工作。因其在虛擬助手和社交聊天機器人等領域的商業價值而廣受工業界和學術界的關注。近年來,互聯網社交數據快速增長促進了數據驅動的開放領域對話系統研究,尤其是將深度學習技術應用到其中取得了突破性進展。基于深度學習的開放領域對話系統使用海量社交對話數據,通過檢索或者生成的方法建立對話模型學習對話模式。將深度學習融入檢索式系統中研究提高對話匹配模型的效果,將深度學習融入生成式系統中構建更高質量的生成模型,成為了基于深度學習的開放領域對話系統的主要任務。本文對近幾年基于深度學習的開放領域對話系統研究進展進行綜述,梳理、比較和分析主要方法,整理其中的關鍵問題和已有解決方案,總結評測指標,展望未來研究趨勢。