由于預訓練語言模型等深度學習技術的發展,自然語言生成(NLG)近年來取得了很大的進展。這一進步導致了更流暢、連貫甚至屬性可控(例如,文體、情感、長度等)的生成,自然地導致了下游任務的發展,如抽象摘要、對話生成、機器翻譯和數據到文本的生成。然而,生成的文本通常包含不保真或不真實的信息,這一問題已經成為文本生成的最大挑戰,使得文本生成的性能在許多現實場景的實際應用中不能令人滿意。針對不同的任務提出了許多關于忠誠度問題的分析、評價和優化方法的研究,但并沒有結合起來進行組織、比較和討論。本文從問題分析、評價指標和優化方法三個方面,系統地綜述了近年來NLG保真性問題的研究進展。我們將不同任務的評估和優化方法組織成一個統一的分類,以便于任務之間的比較和學習。并進一步討論了今后的研究方向。
百度聯合北京大學發布首篇《自然語言生成保真性》的綜述論文,非常值得關注!
由于預訓練語言模型等深度學習技術的發展,自然語言生成(NLG)近年來取得了很大的進展。這一進步導致了更流暢、連貫甚至屬性可控(例如,文體、情感、長度等)的生成,自然地導致了下游任務的發展,如抽象摘要、對話生成、機器翻譯和數據到文本的生成。然而,生成的文本通常包含不真實的信息,這一問題已經成為文本生成的最大挑戰,使得文本生成的性能在許多現實場景的實際應用中不能令人滿意。針對不同的任務提出了許多關于保真性問題的分析、評價和優化方法的研究,但并沒有結合起來進行組織、比較和討論。本文從問題分析、評價指標和優化方法三個方面,系統地綜述了近年來NLG保真性問題的研究進展。我們將不同任務的評估和優化方法組織成一個統一的分類,以便于任務之間的比較和學習。并進一步討論了今后的研究方向。
引言
自然語言生成(NLG)是從文本或非文本輸入中生成自然語言文本的過程,以滿足特定的交流目標(Gatt和Krahmer, 2018)。NLG的輸入隨著任務設置的不同而不同,但是輸出總是可讀的自然語言文本。根據輸入類型,NLG的任務主要可以分為: 文本到文本的生成、數據到文本的生成和多模態到文本的生成。文本到文本的生成任務將現有文本作為輸入,并自動生成新的、連貫的文本作為輸出。最常見的應用包括:文本摘要(Allahyari et al., 2017)、對話生成(Li et al., 2016b)、機器翻譯(Koehn, 2009)、問題生成(Du et al., 2017)、釋義生成(Li et al., 2017)等。數據到文本的生成任務從數字數據或結構化數據(如表、鍵值列表和元組)自動生成文本。示例應用包括:表格到文本的生成(Liuet al.,,2018b)、kg到文本的生成(Ke et al.,,2021)、意義到文本的生成(Song et al.,2018)等。多模態到文本的生成任務將多模態輸入(如圖像或視頻)中的語義轉換為自然語言文本。典型任務包括圖像字幕(Vinyals等人,2015年)、視覺敘事(Huang et al.,2016年)和視頻摘要(Ma et al.,2002年)。
圖1 NLG面臨的挑戰有四個方面。保真性已成為現代自然語言時代最大的挑戰。
從輸入-輸出信息轉換的角度來看,自然語言學習的任務可分為開放式語言生成和非開放式語言生成。開放式語言生成任務是指輸入不完整且輸入不包含輸出語義的任務。例如,故事生成是一種經典的開放式語言生成任務,它傾向于基于一些引導句或關鍵詞生成一個完整的故事。顯然,模型需要創建新的信息來完成故事情節規劃和生成有意義的故事。開放式語言生成任務的最大特征之一是輸入和輸出之間的信息映射通常是一對多的。相同的輸入可以產生許多具有不同含義的輸出。相比之下,對于非開放式語言生成任務,輸入通常為輸出提供完整甚至更多的信息。機器翻譯是一種典型的非開放式語言生成任務,輸入為輸出提供完整的語義。釋義生成可以看作是一種等價的信息轉換,其中輸入和輸出語義完全相同,但語言表達不同。在文本摘要中,輸入通常比輸出提供更多的信息,因此摘要模型需要選擇顯著性信息來產生摘要輸出。
自然語言生成發展
NLG的研究歷史悠久,始于20世紀50年代。NLG方法的發展主要可分為基于模板、基于統計、基于神經網絡和基于訓練前的四個階段,如表2所示。
基于模板的。最早的自然語言生成系統采用規則和模板的方法來設計不同的文本生成模塊,反映了許多專家設計的詞匯、語法、句法甚至語用方面的語言知識。它們通常由幾個不同的組件組成,包括內容規劃、句子規劃和文本實現,每個組件都執行特定的功能。
Statistical-based。統計語言模型進一步從概率和統計的角度提出了一種新的語言建模思想,將詞匯和上下文之間的依賴關系編碼在條件概率中。N-gram語言模型是目前最流行的統計語言模型,通常會結合基于模板的方法對生成的流暢文本進行重新排序和選擇。
Neural-based。 隨著深度學習的發展,基于神經網絡的端到端方法逐漸占據主導地位,通過端到端訓練可以更好地建模詞匯與上下文之間的統計共現關系,從而顯著提高文本生成性能。NLG已經探索了各種神經結構,如循環神經網絡(RNN) (Graves, 2013; Zaremba et al., 2014),卷積神經網絡(CNN) (Kalchbrenner et al., 2014)和自注意力Transformer網絡(Vaswani et al., 2017)。
Pretraining-based。 最近,基于Transformer架構的預訓練語言生成模型能夠更好地捕捉詞匯、語法和語義等語言知識,極大地促進了自然語言生成的發展。預訓練語言模型的興起(Brown et al., 2020; Devlin et al., 2018; Liu et al., 2019c)已經導致了包括文本摘要在內的應用程序的強文本生成模型(Dong et al., 2019; Liu and Lapata, 2019; Zhang et al., 2020b),對話生成(Bao et al., 2020; Zhang et al., 2019)、數據到文本的生成(Chen et al 2020b)和機器翻譯(Liu et al,2020)。然而,盡管這些模型生成了流暢的語法文本,但它們容易產生與輸入文本相矛盾的事實錯誤(Cao et al., 2017)。
傳統的基于模板的文本生成方法通常能夠生成可靠、保真性的文本,但由于規則的多樣性和通用性的限制,生成的文本往往存在流暢性和信息量大的問題。該方法通過對大型語料庫的端到端訓練,可以生成流暢、信息豐富的文本。但由于概率抽樣機制的引入,他們每次都需要從模型估計的概率分布中進行抽樣。考慮到詞匯量非常大,一般在1000 ~ 50000個數量級,概率分布不可避免地包含大量出現概率低的長尾詞,再加上概率抽樣本身的隨機性,基于神經網絡的NLG模型的可控性和保真性尤為嚴重。在預訓練時代,通過對大規模無標記語料庫進行自監督訓練,模型生成的文本在流暢性、信息量甚至可控性方面都表現突出,但仍不能解決保真性問題。
本文結構
該綜述的內容類型如圖3所示。在第二節中,我們系統地分析了NLG中的保真性問題,包括不保真誤的分類、人工標注、保真度評估和優化面臨的挑戰、原因分析以及與其他方面的關系。在第三節中,我們將提出的各種保真度評價指標進行組織,并將這些指標的元評價相結合,以促進未來保真度評價的研究。在第4節中,我們從任務和方法論的角度總結了不同的優化方法,并詳細說明了它們的相對優勢。
近年來,人們致力于將神經模型應用于自然語言的生成。挑戰在于生成自然的類人文本,并控制生成過程。本文提出了一個任務無關定的神經文本生成綜述。這些進步已經通過大量的發展取得,我們將其歸為以下四個標題:數據構建、神經框架、訓練和推理策略,以及評估指標。最后討論了神經文本生成的未來發展方向,包括神經通道和背景知識開發。
基于方面的情感分析(aspect-based sentiment analysis, ABSA)是一個重要的細粒度情感分析問題,旨在分析和理解人們在方面層面的觀點,在過去的十年中受到了廣泛的關注。在不同的場景中處理ABSA,引入了不同的任務來分析不同的情感元素及其關系,包括方面術語、方面類別、觀點術語和情感極性。與早期的ABSA工作側重于單個情感元素不同,近年來研究了許多包含多個元素的復合ABSA任務,以獲取更完整的方面級情感信息。然而,我們仍然缺乏對各種ABSA任務及其相應解決方案的系統回顧,這正是我們本次綜述的目的。更具體地說,我們為ABSA提供了一個新的分類方法,該方法將現有的研究從有關情感要素的軸心組織起來,并重點介紹了復合ABSA任務的最新進展。從解決方案的角度,我們總結了對預訓練語言模型的應用,將ABSA的性能提高到一個新的階段。此外,還討論了在跨域/語言場景中構建更實用的ABSA系統的技術。最后,我們回顧了一些新興的話題,并討論了一些開放的挑戰,展望了ABSA的潛在未來方向。
本文綜述了近20年來自然語言生成(NLG)的研究進展,特別是數據到文本的生成和文本到文本的深度學習方法,以及NLG技術的新應用。本綜述的目的是(a)給出了NLG核心任務的深度學習研究的最新綜合,以及該領域采用的架構; b)對NLG的各項任務和數據集進行細致全面的細化,關注NLG評價的挑戰,重點關注不同的評價方法及其關系; c) 強調由于NLG與其他人工智能領域(如計算機視覺、文本和計算創造力)日益增強的協同作用而產生的一些未來重點和相對近期的研究問題。
本文綜述了自然語言生成(NLG)的研究現狀,它被定義為從潛在的非語言信息表示中生成文本的任務[85]。由于其極具挑戰性和廣闊的應用前景,近年來受到越來越多研究者的關注。
什么是自然語言生成?
自然語言生成(NLG)是為了達到特定交流目標而生成自然語言文本的過程。生成的文本可以是回答一個問題的一個短語,通過對話中的多句注釋和問題,到整頁的解釋。自然語言理解(NLU)的組織過程可以遵循語言學分析的傳統階段: 詞法、句法、語義、語用/話語,與之相比,生成過程具有根本不同的特征。生成過程包括從內容到形式的內容規劃、確定和實現,從意圖和視角到線性排列的詞語和句法標記。再加上它的應用、情境和話語,它們提供了在語言提供的備選詞匯和結構中做出選擇的基礎,這是有意構建文本的主要努力[62]。由于其相反的信息流,人們可能會假設一個生成過程可以像理解過程一樣組織起來,但其階段順序是相反的。
數據到文本的生成和文本到文本的生成都是NLG的實例。從圖像生成文本是數據到文本生成的一種應用。文本到文本生成的進一步復雜化是將NLG任務分為三類,即文本縮寫、文本擴展、文本重寫和推理。文本縮寫任務是將長文本信息壓縮為短文本的任務,通常包括文本摘要[6,7,15,17,43,80,99]、問題生成[4,18,34,36,53,95,104,112,113,130,134]和干擾物生成[22,50,60,72,82,86,100,101]。文本擴展任務,如短文本擴展[5,89,96,106]和主題到短文的生成[19,81,114,123,129],通過考慮并添加連詞和介詞等元素,將輸入的單詞轉換為語言正確的輸出,從而生成完整的句子甚至文本。文本改寫和推理任務的目標是將文本改寫成另一種風格或運用推理方法生成反應。其中有兩個子任務:文本風格遷移[9,20,33,58,64,69,79,120,133]和對話生成[3,35,46,49,59,115,122,135]。基于視覺的文本生成任務以生成給定圖像或視頻的解釋或摘要為目標,涉及圖像字幕[1,57,87,110,125,126],視頻描述[16,39,42,72,97,103,109,111,118],視覺講故事[30,45,124]。
在本文中,我們對不同的自然語言生成任務及其相應的數據集和方法進行了全面的回顧。綜上所述,本文對自然語言生成行了廣泛的研究,并做出了以下貢獻:
(1) 對自然語言生成的核心任務以及該領域采用的體系結構進行了最新的綜合研究;
(2) 細致、全面地詳細描述自然生態生成的各種任務和數據集,關注自然生態生成評價面臨的挑戰,關注不同的評價方法及其相互關系。
(3) 強調由于NLG與其他人工智能領域(如計算機視覺、文本和計算創造力)日益增強的協同作用而產生的一些未來的重點和相對近期的研究問題。
本綜述的其余部分組織如下。在第二節中,我們介紹了NLG的一般方法,使我們有一個全面的認識。從第3節到第6節,我們將從任務、數據和方法的角度全面介紹NLG的四個主要領域。在第7節中,我們介紹了前面提到的各種NLG任務中使用的重要評價指標。此外,在第8章中,我們提出了NLG的一些問題和挑戰,以及未來的幾個研究方向。最后我們在第9節結束我們的綜述。
自然語言生成未來挑戰
在本部分中,我們主要指出了四個值得進一步解決和研究的問題和挑戰,包括評價方法、外部知識融入、可控生成和多模態情景。
評價方法仍然是自然語言生成領域一個重要而開放的研究領域。正如[12]所指出的,傳統的未經訓練的評價指標并不總是能夠很好地與人類判斷相關聯,而最近的機器學習指標需要大量的人類注釋,且并不總是具有良好的可遷移性。因此,在這一領域仍存在大量的挑戰和改進空間。
外部知識融入-考慮到原始文本中所包含的信息有限以及生成令人滿意的句子的難度[128],吸收外部知識對提高性能至關重要。因此,如何獲取有用的、相關的知識,以及如何有效地吸收這些知識仍是值得研究的問題。
可控生成-另一個具有挑戰性的問題是如何生成我們想要的可控自然語言。盡管在這一領域已經做了大量的工作來研究如何執行各種各樣的受控文本生成,但仍然缺乏統一的范例和標準。更重要的是,對于不同的受控內容,如何衡量生成文本的可控性仍然是一個開放的問題。
多模態情景近年來,多模態情景下的各種應用研究逐漸引起了自然語言處理研究者們的關注。如何將自然語言生成方法應用于多模態場景是一個值得研究的問題,也是一個很有前途的方向。有理由相信,將豐富的多模態信息應用到自然語言生成任務中,必將進一步推動這一方向的進步和發展。
導讀:本文將參考上述綜述論文,從預訓練語言模型應用于文本生成任務的三個挑戰出發:
如何對輸入數據進行編碼并保持語義,使其與預訓練語言模型進行融合; 如何設計通用且合適的預訓練語言模型架構,使其作為生成函數; 如何優化生成函數,并保證生成文本滿足特殊屬性。 并詳細列舉目前每個挑戰下的研究進展。
文本生成是目前自然語言處理領域一項非常重要但具有挑戰性的任務,它的目的是希望生成可讀的自然語言文本,比較有代表性的應用,例如對話系統、文本摘要和機器翻譯等。
目前,深度神經模型在文本生成研究中已取得重大進展,其優勢在于深度神經網絡可以端到端地學習輸入數據到輸出文本的語義映射,而不需要人工參與進行特征工程。但是,深度神經模型往往具有大量的參數,而大部分文本生成任務數據集都非常小,因此深度神經網絡非常容易在這些數據集上過擬合,導致其無法在實際應用中進行泛化。
隨著預訓練語言模型(Pretrained Language Models, PLMs)范式的蓬勃發展,越來越多的研究將其運用到各種自然語言處理任務中以取得SOTA效果,例如BERT解決語言理解和GPT解決語言生成。通過在大規模語料集上進行預訓練,預訓練語言模型可以準確地理解自然語言并以自然語言的形式流暢表達,這兩項都是完成文本生成任務的重要能力。
神經語言生成(NLG)——使用神經網絡模型生成連貫的文本——是自動化文本創建最有前途的方法之一。近年來,隨著深度語境語言建模(如LSTMs、GPT、GPT2)和遷移學習(如ELMo、BERT)的發展,神經文本生成出現了范式轉變。雖然這些工具極大地改善了NLG的狀態,但是對于低資源任務,最先進的NLG模型仍然面臨許多挑戰: 生成的文本缺乏多樣性,描述的情況違反常識性規則,使用事實信息的困難,以及設計可靠的評估指標的困難。在本教程中,我們將概述當前神經網絡架構的最新技術,以及它們如何形成文本生成的最新研究方向。我們將討論這些模型在生成連貫文本時如何以及為什么成功或失敗,并對幾個應用程序提供見解。
目錄內容:
題目: Video Description: A Survey of Methods, Datasets, and Evaluation Metrics
簡介: 視頻描述是對給定視頻內容自動生成描述語言。它在人機交互中具有應用程序,可幫助視障人士和視頻字幕。過去幾年中,由于深度學習在計算機視覺和自然語言處理方面取得了空前的成功,因此該領域的研究激增。文獻中已經提出了許多方法,數據集和評估指標,這要求進行全面調查以將研究工作集中在這個蓬勃發展的新方向上。本文通過重點研究深度學習模型的最新方法來填補這一空白。比較基準數據集的域,類數和存儲庫大小;并確定各種評估指標(例如SPICE,CIDEr,ROUGE,BLEU,METEOR和WMD)的優缺點。經典的視頻描述方法將主語,賓語和動詞檢測與基于模板的語言模型相結合,以生成句子。但是,大型數據集的發布表明,這些方法無法應對不受約束的開放域視頻的多樣性。古典方法之后是很短的統計方法時代,很快就被深度學習所取代,后者是視頻描述中的最新技術。我們的調查顯示,盡管發展迅速,但由于以下原因,視頻描述研究仍處于起步階段:視頻描述模型的分析具有挑戰性,因為難以確定對視覺特征的準確性或誤差的貢獻。最終描述中采用的語言模型。現有的數據集既不包含足夠的視覺多樣性,也不包含語言結構的復雜性。最后,當前的評價指標未能衡量機器生成的描述與人類描述之間的一致性。