論文題目:Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models
論文概述:本文研究如何自動生成描述知識圖譜(KG)中事實的自然語言文本。借助預訓練語言模型(PLMs)在語言理解和生成方面的能力,我們主要考慮少樣本場景。我們提出了三個主要的技術貢獻,即用于彌合KG編碼和PLM之間語義差距的表示對齊,用于生成更好的輸入表示的基于關系的KG線性化策略,以及用于學習KG和文本之間對應關系的多任務學習。在三個基準數據集上進行的大量實驗證明了我們的模型在KG到文本生成任務上的有效性。特別是,我們的模型可以實現在只有幾百個標記樣本的情況下取得非常好的效果。
神經序列標記被廣泛應用于許多自然語言處理(NLP)任務,如命名實體識別(NER)和用于對話系統和語義分析的槽標記。最近,大規模的預訓練語言模型在這些任務中顯示出了顯著的成功,只要對大量特定任務的標記數據進行微調。然而,獲取這樣大規模的標記訓練數據不僅代價昂貴,而且由于數據訪問和隱私限制,在許多敏感用戶應用中可能不可行。如果序列標記任務需要在標記級進行這樣的注釋,這種情況就會加劇。在這項工作中,我們提出以解決標簽短缺的神經序列標記模型。具體來說,我們提出了一個元自訓練框架,它利用很少的手工標注標簽來訓練神經序列模型。自訓練是一種通過迭代知識交換從大量無標記數據中學習的有效機制,而元學習有助于自適應樣本重加權,以減少噪聲偽標記帶來的誤差傳播。在6個基準數據集上的大量實驗表明了該方法的有效性,其中包括2個用于大規模多語言NER的基準數據集和4個用于面向任務的對話系統的槽標記數據集。在每個任務中,每個類別只有10個標注的例子,該方法比目前最先進的方法提高了10%,證明了其在有限的訓練標簽體系中的有效性。
//www.microsoft.com/en-us/research/uploads/prod/2020/10/MetaST_Few_shot_KDD_2021.pdf
文本生成是目前自然語言處理(NLP)領域一個非常重要且有挑戰的任務。文本生成任務通常是以文本作為輸入(例如序列,關鍵詞),通過將輸入文本數據處理成語義表示,生成可以理解的自然語言文本。幾個具有代表性的文本生成任務,例如機器翻譯,文件摘要,對話系統。自從2014年Seq2Seq框架提出以來,文本生成迅速成為研究熱點,包括一系列經典而有效的模型,例如循環神經網絡(RNN),卷積神經網絡(CNN),Transformer。基于這些模型,注意力機制(attention)和拷貝機制(copy/pointer-generator)的提出也極大促進了文本生成的研究。但是,研究人員發現,傳統的文本生成任務只依靠輸入文本進行生成,缺乏更加豐富的“知識”信息,因此生成的文本往往非常乏味,缺少有意思的內容。例如在對話系統中,如果只提供一段輸入文本而沒有其他上下文,對話機器人往往會回答“我也是一樣”,“我聽不懂你在說什么”等。相比之下,人類通過從外界獲取、學習和儲存知識,可以迅速理解對話里的內容從而做出合適的回復。所以,“知識”對于文本生成任務而言,可以超越輸入文本中的語義限制,幫助文本生成系統生成更加豐富、有意思的文本。在文本生成任務中,“知識”是對輸入文本和上下文的一種“補充”,可以由不同方法和信息源獲得,包括但不限于關鍵詞,主題,語言學特征,知識庫,知識圖譜等,可以參考下圖1中的 Information Sources。這些“知識”可以通過不同的表示方法學習到有效的知識表示,用于增強文本生成任務的生成效果,這就被稱為知識增強的文本生成(Knowledge-Enhanced Text Generation)。因此,知識增強的文本生成主要有兩個難點:如何獲取有用的知識(圖1 Information Sources),以及如何理解并借助知識促進文本生成(圖1 Methods)。接下來的內容將主要圍繞著這兩個問題進行展開。
生成式常識推理是文本生成的一個關鍵瓶頸,它旨在使機器能夠根據一組概念生成具有推理能力的句子。即使是最先進的預訓練語言生成模型也難以完成這一任務,而且常常產生不合邏輯和異常的句子。其中一個原因是,他們很少考慮將知識圖譜整合進來,因為知識圖譜可以在常識概念之間提供豐富的關系信息。為了提高常識性推理生成文本的能力,我們提出了一種新的知識圖譜增強的預訓練語言生成模型KG-BART,該模型通過知識圖譜包含了復雜的概念關系,并生成了更符合邏輯和自然的句子作為輸出。此外,KG-BART可以利用圖上的注意力來聚集豐富的概念語義,從而增強對看不見的概念集的模型泛化。在基準commonen數據集上進行的實驗驗證了本文方法的有效性,并與幾個強的預訓練語言生成模型進行了比較,特別是在BLEU - 3,4方面,KG-BART的性能比BART高出5.80、4.60。此外,我們還表明,通過我們的模型生成的上下文可以作為背景場景,從而有利于下游的常識性QA任務。
//www.zhuanzhi.ai/paper/5478cc149a0d6a523665d68c6d3c170a
小樣本識別的目標是在每類只有少量有標簽樣本可供使用的限制下識別新的類別。受到人類學習過程的啟發,現有的一些方法引入了額外語義模態來增強從訓練樣本(稱為支持樣本)學習更好的表征。然而,這些方法忽視了為測試樣本(稱為查詢樣本)設計特殊的處理機制。在失去了潛在的效果提升的同時,這些方法可能導致模態混合表征和同類別的純視覺表征之間存在偏移,最終導致識別的錯誤率上升。
在本文中,我們提出一種屬性指導的注意力模塊(AGAM),來使用人工屬性標注學習更有區分性的特征。這種即插即用的模塊能夠利用視覺內容和對應的屬性標注一起關注支持樣本中重要的通道和區域。同時,對于屬性標注不可得的查詢樣本,這種特征選擇過程同樣能夠只利用視覺內容便可執行。因此,兩種樣本的表征經過了相似的細粒度優化。另外,我們提出一種注意力對齊機制,來從屬性的指導蒸餾知識到純視覺的特征選擇過程,使其能夠在不利用屬性標注的限制下學會關注更具語義的特征。大量的實驗和分析表明,我們提出的模塊可以顯著改進現有的基于度量的方法來達到最先進的性能。
文本生成的目標是讓機器用人類語言表達。它是自然語言處理(NLP)中最重要也是最具挑戰性的任務之一。自2014年以來,各種由Seq2Seq首創的神經編解碼器模型被提出,通過學習將輸入文本映射到輸出文本來實現這一目標。然而,僅憑輸入文本往往無法提供有限的知識來生成所需的輸出,因此在許多真實場景中,文本生成的性能仍然遠遠不能令人滿意。為了解決這個問題,研究人員考慮將輸入文本之外的各種形式的知識納入生成模型中。這一研究方向被稱為知識增強文本生成。在這項綜述中,我們提出了一個全面的綜述,在過去的五年里,知識增強文本生成的研究。主要內容包括兩部分:(一)將知識集成到文本生成中的一般方法和體系結構;(二)根據不同形式的知識數據的具體技術和應用。這項綜述在學術界和工業可以有廣泛的受眾,研究人員和實踐者。