在保持訓練前序列模型的靈活性的同時,整合外部知識是否有利于常識推理仍然是一個開放的問題。為了研究這個問題,我們開發了生成的知識提示,它包括從語言模型中生成知識,然后在回答問題時提供知識作為額外的輸入。我們的方法不需要任務特定的監督來進行知識整合,也不需要訪問結構化知識庫,但它提高了大規模、最先進的模型在四個常識推理任務上的性能,在數值常識(NumerSense)、一般常識(CommonsenseQA 2.0)、以及科學常識(QASC)基準。生成的知識提示突出了大規模語言模型作為外部知識的靈活來源,以提高常識推理。我們的代碼可以在github.com/anonymous_repo上找到。
XLM-K:通過多語言知識庫提高跨語言預訓練模型
XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual Knowledge
//www.zhuanzhi.ai/paper/f50b1d5ba3d41d06328348865c1549ea
論文摘要:
跨語言預訓練的目標是提高模型在語言之間的遷移能力,使模型可以在一種語言上訓練,然后在其他語言上直接測試。之前跨語言模型的能力主要來源于單語和雙語的普通文本。我們的工作首次提出從多語言的知識庫中來學習跨語言能力。我們提出了兩個新的預訓練任務:掩碼實體預測和客體推理。這兩個任務可以幫助模型實現更好的跨語言對齊,以及讓模型更好的記憶知識。在具體任務上的測試表明了我們的模型可以顯著提高知識相關的任務的性能,知識探針任務證明了我們模型更好的記憶了知識庫。
論文開創性突破與核心貢獻:利用結構化的多語言知識庫來提升預訓練模型,讓模型通過掌握知識來提升跨語言遷移能力。
目前的NLP系統可以回答常識性問題,或者寫出流利的故事,在基準數據集上獲得令人印象深刻的分數。然而,大多數進展是使用為單個任務創建的靜態、封閉域數據集進行評估的。為了在野外部署常識推理服務,我們需要能夠以開放的方式生成答案,能夠執行魯棒的邏輯推理,并且能夠跨不同的任務格式、領域和數據集進行泛化的系統。在這次演講中,我將分享三個工作,介紹常識推理挑戰的新公式以及新的評估協議,以解決上述問題。我們希望鼓勵更多的努力,提出“動態的”、通用的常識推理挑戰,以評估進展。
會話代理面臨的一個挑戰是,它們無法識別用戶命令的未聲明的假設,這對于人類來說是一項微不足道的任務,因為它們具有常識。為了實現這一目標,本文提出了一個面向會話代理的零樣本常識推理系統。我們的推理器從滿足if-(狀態),then-(動作),because-(目標)的一般模板的用戶命令中發現未聲明的假設。我們的推理器使用最先進的基于transformer的生成常識知識庫(KB)作為其推理背景知識的來源。我們提出了一種新穎的迭代知識查詢機制,利用符號邏輯規則從神經知識庫中提取多跳推理鏈,大大減少了搜索空間。與迄今為止收集到的任何KBs類似,我們的常識知識庫很容易丟失知識。因此,我們提出了一種新的動態問題生成策略,以對話方式從人類用戶中引出缺失的知識,該策略為人類用戶生成并呈現上下文化的查詢。我們通過用戶研究來評估該模型,與SOTA相比,該模型的成功率提高了35%。
生成式常識推理是文本生成的一個關鍵瓶頸,它旨在使機器能夠根據一組概念生成具有推理能力的句子。即使是最先進的預訓練語言生成模型也難以完成這一任務,而且常常產生不合邏輯和異常的句子。其中一個原因是,他們很少考慮將知識圖譜整合進來,因為知識圖譜可以在常識概念之間提供豐富的關系信息。為了提高常識性推理生成文本的能力,我們提出了一種新的知識圖譜增強的預訓練語言生成模型KG-BART,該模型通過知識圖譜包含了復雜的概念關系,并生成了更符合邏輯和自然的句子作為輸出。此外,KG-BART可以利用圖上的注意力來聚集豐富的概念語義,從而增強對看不見的概念集的模型泛化。在基準commonen數據集上進行的實驗驗證了本文方法的有效性,并與幾個強的預訓練語言生成模型進行了比較,特別是在BLEU - 3,4方面,KG-BART的性能比BART高出5.80、4.60。此外,我們還表明,通過我們的模型生成的上下文可以作為背景場景,從而有利于下游的常識性QA任務。
//www.zhuanzhi.ai/paper/5478cc149a0d6a523665d68c6d3c170a
Generative commonsense reasoning which aims to empower machines to generate sentences with the capacity of reasoning over a set of concepts is a critical bottleneck for text generation. Even the state-of-the-art pre-trained language generation models struggle at this task and often produce implausible and anomalous sentences. One reason is that they rarely consider incorporating the knowledge graph which can provide rich relational information among the commonsense concepts. To promote the ability of commonsense reasoning for text generation, we propose a novel knowledge graph augmented pre-trained language generation model KG-BART, which encompasses the complex relations of concepts through the knowledge graph and produces more logical and natural sentences as output. Moreover, KG-BART can leverage the graph attention to aggregate the rich concept semantics that enhances the model generalization on unseen concept sets. Experiments on benchmark CommonGen dataset verify the effectiveness of our proposed approach by comparing with several strong pre-trained language generation models, particularly KG-BART outperforms BART by 5.80, 4.60, in terms of BLEU-3, 4. Moreover, we also show that the generated context by our model can work as background scenarios to benefit downstream commonsense QA tasks.
原鏈接://mgalkin.medium.com/knowledge-graphs-in-nlp-emnlp-2020-2f98ec527738
在這篇綜述中,我沒有區分主要的論文和發現論文,而是試圖選擇30篇左右值得注意的作品,這些作品可能會在未來的2-3年確立新的趨勢。
目錄
KG增強的語言模型:增強Transformer
自編碼器
自回歸
自然語言生成:Datasetlandia的新成員
實體鏈接:海量和多語言
關系提取:OpenIE6和神經提取器
KG表示學習:時間KGC和FB15K-237的繼承者
ConvAI+KGs:在OpenDialKG的肩上
** KG增強的LMs:增強Transformer **
我們在去年的EMNLP 2019年首次注意到結構化知識增強的LMs出現了繁榮。2019年和2020年出現了數十個使用維基百科或Wikidata實體進行豐富的模型(甚至在EMNLP2020上也有),但概念上的問題仍然存在。
如何度量知識編碼在LM中的參數?
第一次嘗試,比如LAMA基準測試,將問題定義為匹配從Wikidata中提取的事實的單標記塊樣式的空白,例如,iPhone是由_設計的(當然是蘋果)。LMs顯示了一些事實知識的概念,但坦率地說,不是很多,也不是很深。不過,LAMA是單令牌;2)只準講英語的。我們能否涵蓋更復雜的任務和多樣化的環境? 是的!為了與XTREME等多語言基準測試的近期成功相一致,Jiang等人研究了多語言模型是否展示了一些事實知識,并提出了X-FACTR,一種使用23種語言、帶有多標記空白(實際上多達5到10個標記)的closize風格問題的多語言基準測試,來測量它。作者探討了M-BERT、XLM和XLM- r與X-FACTR的關系。關鍵的發現為設計和訓練知識淵博的語言模型留下了很大的空間:多語言模型在高資源語言中只能達到15%的準確率,在低資源語言中只能達到5%左右 M-BERT似乎比更大的XLM和XLM- r包含更多的事實知識。多令牌預測比單令牌預測困難得多,因此您需要針對這類實體的重要解碼策略。幾乎沒有協議有效性在多種語言,也就是說,瑞士命名_ (EN)和НаименованиеШвейцариивосходитк_(俄文)產生完全不同的答案。在X-FACTR上看到最近的mT5(多語言T5)和mm-100的探測結果將是相當令人興奮的。
LMs中的實體表示
這次我們有四種新方法! 我把他們具體的訓練前目標用粗體字寫了出來。Yamada等人提出了LUKE(基于知識的嵌入語言理解),這是一個具有預訓練任務的transformer模型:傳銷商+預測文檔中的隱藏實體(見插圖)。在保持實體嵌入矩陣(500K不同實體)的基礎上,作者增加了實體感知自我關注,即根據計算的標記類型(word-entity, entity-entity, entity-word)增加了三個查詢矩陣。一個簡單的增強功能可以實現新的下游任務,并略微改進RoBERTa和最近的KG增強基線。
接下來,Fevry等人介紹了實體專家(EaE),這是一個12層的transformer,其中前四層正常工作,然后標記嵌入注釋提到查詢實體內存中的前100個實體,然后將匯總后的嵌入經過8個Transformer層。
另一方面,Shen等人使用的背景KG略有不同:在他們的GLM(圖引導的掩碼語言模型)中,圖提供了命名實體及其連通性模式(k-hops中的可達實體)的詞匯表。這一信息在兩個訓練前的任務中得到了利用:蒙面實體預測+在干擾因素存在的情況下實體排序,即負樣本。KG幫助掩蔽信息實體和選擇硬陰性樣本進行魯棒訓練。
最后,Poerner等人在他們的E-BERT中使用了Wikipedia2Vec。他們的想法是這樣的:vanilla BERT只訓練單詞的嵌入,而Wikipedia2Vec同時訓練單詞和實體的嵌入(270萬個實體)。因此,我們首先學習W,即BERT wordpieces和Wikipedia2Vec單詞之間的線性轉換,然后使用擬合的參數W投射Wikipedia2Vec實體。
自回歸KG增強的LMs
在本節中,LMs的生成過程受到小子圖等結構化知識的制約或豐富。Chen等人對KGPT(基于知識的預訓練)、數據到文本任務的生成模型和巨大的新數據集KGText做出了重大貢獻! 1作者提出了一種對各種數據到文本任務(如WebNLG、E2E NLG和WikiBio)進行編碼的通用格式,作為語言模型的統一輸入。2 KGPT有兩個編碼器:基于網絡的Graph Attention(對我來說有點復雜,只需要一個多關系的CompGCN就可以了)和帶有位置嵌入式輸入的伯特風格(請查看插圖)。本質上,您可以用指針將一個圖線性化為一個序列,其中的指針是實體、關系和完整三元組。解碼器是一個標準的類似gpt -2的復制機制。3 KGText是一個新的預訓練語料庫,其中從維基百科的EN句子與從Wikidata的子圖對齊,總共約1.8M(子圖,文本)對。作者確保每個子圖及其成對的句子描述了幾乎相同的事實。這確實是一個實質性的貢獻,因為以前的從圖形到文本的數據集相當小,并且包含了一個監督設置。
在這里,KGPT顯示了相當令人印象深刻的結果,在少數射擊和零射擊的情況下,在KGText的預訓練,使GPT-2遠遠落后。也就是說,在WebNLG (RDF to text task)上,僅5%的訓練數據就可以在少量射擊設置中獲得40+藍標得分,在完全零射擊設置中獲得20+藍標得分。我的看法:KGPT仍然缺乏顯式的實體(每個嵌入的實體都是其子詞單位的平均值),而且在編碼給定的子圖時,實體和文字之間沒有區別。對8個Titan RTX gpu進行8天的預訓練。
Ji等人采取了相反的方式,他們擴展了一個解碼器,使用圖推理模塊來保持GPT-2編碼器在他們的GRF(生成多跳推理流)中完好無損(見下)。在處理與常識相關的任務和像ATOMIC和ConceptNet這樣的KGs時,作者首先從輸入文本中提取一個k-hop子圖。文本通過GPT編碼器編碼,而KG子圖通過CompGCN(明智的選擇)編碼。推理模塊(本質上看起來像消息傳遞)通過子圖傳播信息,并在實體上創建softmax分布以選擇相關的實體。最后,復制門決定是放置該實體還是從詞匯表中選擇一個單詞。
在故事結尾生成、拐展NLG和解釋生成方面的實驗表明,在自動度量以及對生成文本的人類評估方面,優于各種GPT-2基線。
我們今天的舉重冠軍是由NVIDIA的Xu等人創建的MEGATRON-CTRL (8.3B參數)。通過控制生成,我們了解到調節LM生成器不僅要通過輸入上下文,還要使用一些關鍵字,這些關鍵字可以推動故事向某個方向發展。
這里,作者使用ConceptNet及其600K triples作為常識性KG和外部知識來源。
首先,關鍵字與三元組匹配,匹配的關鍵詞通過通用句子編碼器(USE)傳遞。另一方面,輸入上下文也通過使用傳遞。最后,選擇top-K個最大內積向量。對獵犬進行負采樣訓練。
解碼器是一個巨大的transformer (8.3億個參數),關鍵字生成器只有2.5億個參數。訓練只需160臺特斯拉v100。實驗表明,這樣的大模型確實能從背景知識中獲益,并且在AMT實驗中更容易被人們所青睞。
NLG(數據到文本):Datasetlandia的新成員
今年,我們看到了許多新的、大型的、設計良好的、復雜的任務/數據集,這些任務/數據集至少會在明年為NLG提供動力。
Cheng等人介紹了ENT-DESC,一個基于Wikidata的三到文本數據集,在其中,給定圍繞主實體的2跳子圖,任務是生成其文本描述。數據集在幾個方面優于WebNLG: 1 - desc要大得多:110K圖形-文本對,超過11M三組,大約700K不同的實體,1K不同的關系;2每個實體的三組比例更高,但不是所有的三組都對生成的文本有貢獻,也就是說,其中一些是干擾,模型應該足夠強大,以消除它們; 預期的描述比WebNLG的要長。
接下來,Chen等人提出了一個新的數據集Logic2Text,它挑戰了NLG系統從邏輯形式生成文本的能力。需要注意的是,它不僅是一個表到文本的任務,而且是一個更復雜的任務,包含7種邏輯類型,包括計數、比較、最高級、聚合、多數、唯一和序數。
在表格到文本的世界中,Parikh等人介紹了ToTTo,一個包含120K示例的大型數據集。任務是在給定表和幾個突出顯示的節點的情況下生成可信的文本。
實體鏈接:海量和多語言
在實體鏈接的世界里,谷歌和Facebook也加入了進來,他們通過提升TPUs和HPC集群來解決大量的多語言實體鏈接問題。
Botha, Shan和Gillick對100種語言的實體連接進行了研究。首先,為遠離只使用en的場景向您致敬:這是NLP社區的一項了不起的努力!像Wikidata這樣的大型KGs在設計語言上是不可知的,所以我們為什么不利用所有非en數據呢?(事實上,一些實體的標簽和描述甚至可能不存在)作者首先我684M提到約20M的巨大的數據集Wikidata實體在104種語言,和設計Mewsli-9,只一個輕量級的測試用例集的300 k提到82 k實體的9種語言評估實體連接性能。在模型方面,作者求助于雙編碼器,其中一個Transformer(通常是BERT)編碼提到,而第二個transformer編碼實體描述,計算余弦相似度作為最后的操作。使用mBERT檢查點初始化模型,在TPU v3上訓練幾天(TPUs運行brrr)。結果證明這個策略相當有效:在mewsli9上,最好的模型(以智能訓練增強為動力)達到micro-avg 90% Recall@1和98% Recall@10。另外,請查看下面的插圖,以獲得heldout集上特定于語言的數字。
與此略有不同的是,Wu等人將EN Wikipedia視為為零命中率設置而定制的新BLINK實體鏈接器中的背景知識庫和實體詞匯表。BLINK也采用了雙編碼器范例,但是這次所有的實體描述都是預先計算并存儲在FAISS索引中(那些是[CLS]嵌入)。上下文中提到的實體(需要事先注釋)通過另一個transformer傳遞,結果嵌入的提到通過FAISS在索引中檢索top-K最近鄰。最后,通過交叉編碼器transformer對top-K選項進行排序(非常有用)。實驗證明:1)基于fais的檢索速度快(~2ms/查詢)、準確(Recall@10 ">">">">">">">">">">">">">">">">">">">">">">>90%),明顯優于TF-IDF和BM-25;2)在零樣本的情況下,BLINK會把所有的基線都遠遠甩在后面!3)即使在一個CPU上推理也很快,所以你也可以將模型插入到你的應用程序中!
然而,BLINK確實需要注釋實體提及。這個問題由Li等人在他們的ELQ(問題實體鏈接)中的一篇同類論文解決了。事實上,ELQ駐留在相同的回購完全互補BLINK。 雖然架構類似于BLINK (bi-encoder + FAISS),但ELQ共同學習了提及檢測和消歧。也就是說,不需要輸入注釋! 此外,ELQ在實際應用中也表現出色:ELQ在QA數據集(如WebQSP和GraphQuestions)上優于TAGME和BLINK,同時也提高了在Natural Questions和TriviaQA等大型QA數據集上的準確性。
關系提取:OpenIE6和神經提取器
OpenIE是現代NLP應用程序的一個基石框架,它使用開放模式(沒有背景本體)從文本中提取三元組。各種各樣的CL論文都以這樣或那樣的方式使用OpenIE。Kolluru AtEMNLP 2020年,Adlakha等介紹OpenIE 6,下一個主要版本的IE方法。
什么新的? 首先,OpenIE 6幀的三重提取作為一個2-D (num_words x num_extraction)網格標注任務,使每次提取的每個單詞都可以屬于主語/謂詞/對象/無標簽。不過,細節才是真實的。提出了一種基于BERT的迭代網格標記系統,用于二維網格標記的實現。即幫助解決協調連詞(如圖IGL-CA),以及在三重提取過程中應用軟約束(CIGL-OIE)。軟約束使最終的損失函數增加了POS標簽的信號、頭部動詞的覆蓋和放大。排他性和提取計數附加在頭動詞上。實驗表明,在幾個基準測試中,OpenIE 6比OpenIE 5快10倍,性能有顯著且一致的提升(大約4個F1點)。你還可以用這4點來換取更快的速度,并獲得OpenIE 5級的性能,但是速度要快50倍。
此外,Hohenecker、Mtumbuka等人對OpenIE的神經結構進行了系統研究。
KG表示學習:時間KGC和FB15K-237的繼承者
在今年的EMNLP 2020上,我們有大約20篇(!)論文專門針對KG表示學習。其中有我們的論文《超相關知識圖譜的信息傳遞》,我不會在這里討論,因為我們在Medium上發表了一篇獨立的文章,涵蓋了所有的細節,所以我邀請你也來看看。
一定數量的工作被放入暫時的KGs中,也就是那些具有特定事實在特定時間范圍內有效的時間戳的KGs。例如,(奧巴馬,美國總統,2009,2017)。我們需要預測一個主體或一個客體,給出剩下的四組/五組。幾個著名的作品:
在這種設置中,Wu等人提出了TeMP(時態消息傳遞框架),其中結構GNN編碼器(R-GCN使用,但任何多關系的都可以使用,如CompGCN)與時態編碼器配對。 作者用時間編碼器進行了實驗:GRU和自我關注。也就是說,每一個時間步都用一個GNN編碼,它們的輸入被輸入到時間編碼器中。一個額外的控制機制考慮到在特定的時間范圍內發生實體的頻率(例如,在1900年1950年很少提到奧巴馬,但在2000年2020年更多)。最后的實體嵌入是計算澆注后,并被送入一個解碼器在這里它是復雜的,盡管我認為任何評分功能從KG嵌入家庭將工作。Jin等人在RE-NET中使用了類似的R-GCN + RNN方法(但處理時間分量時采用了不同的解碼器)。我們的結論是:多關系GNN可以有時間感知能力。
我們知道雙曲嵌入具有較小的嵌入尺寸(例如,32d或64d),并產生競爭性的結果。到目前為止,這些模型已經在經典的靜態KG完井設置中進行了探索。雙曲線+時間= ?
Han等人在DyERNIE中使用一些高級數學來建模KGs的時間方面。實體的時間相互作用被建模為在具有一定速度的流形上的運動。DyERNIE利用了不同曲率的黎曼流形的乘積,并定義了一個應用于四維(s, p, o, t)的新評分函數。實驗表明,20d/40d/100d維模型確實優于基線,學習速度確實捕獲了時間方面。但是,您可能會在附錄中發現,在標準數據集上訓練100d模型可能需要350小時。
最后,Jain, Rathi等人提出了一個有價值的方法論貢獻:大多數時間KG完成任務度量查詢(s, r, ?, t)或(?, r, o, t),而預測實際時間間隔(s, r, o, ?)仍未充分探索。此外,此任務的現有指標或低估或高估了系統性能。摘要提出了一種新的時間區間預測指標:親和力增強的并集交叉(aeIOU),其靈感來自于計算機視覺中常用的親和力增強交叉。
這個花哨的聯合符號是最小的船體(連續間隔),包含黃金和預測間隔。作者證明,aeIOU更好地抓住了任務的復雜性,并通過一個新的模型(TimePlex)展示了它的好處,這個新模型增加了具體時間的歸納偏差(例如,人出生的年份應該比人死亡的年份早)。總的來說,這篇論文結構良好,易于理解。
回到經典的鏈路預測,Safavi和Koutra深入研究了FB15K-237和其他KGE基準的缺陷,認為他們7年前的偏差和設計選擇在2021年并不適合該領域。
假設每年有大約50篇KG嵌入新論文,模型確實傾向于過度擬合數據集,因此,模型很難展示它們的表達能力,因為基準數據集不能從這種表達中獲益。沒有猛烈炮擊。相反,作者提出了法典、從Wikidata()和維基百科中提取的KG完成數據集。里面有:1個小/中/大的子圖; 2兩個任務:鏈路預測和三元組分類;用6種語言描述實體和類型,沒有一種語言能完全覆蓋所有實體;4 .眾包硬否定;5消除了測試泄漏源和大部分FB15K-237的偏差。我很高興看到法典在社區中獲得更多的吸引力!繼續偏差,Fisher等人研究了如何減輕KG嵌入模型學習的KGs中的偏差。例如,在Wikidata中,大多數鍵入為銀行家的人都是男性,但我們不希望性別影響所有Wikidata人的職業預測。強力解決方案的一個快速黑暗面可能是取消所有糟糕的三倍,但我們會發現沒有女性美國總統,因此模式的質量將受到損害。相反,作者提出了另一種方法(非常有用):本質上,創建一個可能存在偏差的關系的面具,并將KL損失分配給模型預測,以推動概率達到均衡。實驗表明,減少某些謂詞的偏差而不犧牲大量模型的預測能力確實是可能的。
更有趣的一項研究通過Albooyeh、高爾和齊米集中樣本外設置,也就是說,當在測試時間一個新的看不見的路節點到達作為一個主題或一個對象。有些人可能會稱之為設置感應,但不清楚為什么作者決定去樣本外。到目前為止,文獻中有兩種類型的任務,人們稱之為歸納:(1)一個帶有看不見的實體的三元組連接到看得見的經過訓練的圖(本文);(2)測試集包含一個全新的圖,我們需要預測這個未見圖中的鏈接(這是Teru等人最近發表的ICML 20論文)。盡管如此,在gnn的標準歸納任務中,節點通常具有一些特性,但在本文中,作者特別指出,這些特性是不可用的(簡單的節點度啟發式方法并不是很有用)。那么,我們如何推斷到達的未見實體的嵌入呢?提出了對所見實體的嵌入進行聚合的方法。關系,提出兩種策略:1簡單平均1-hop附近,和2解決最小二乘問題(與我們的逆矩陣珞O (n)時間)。作者還為該任務設計了WN18RR和FB15K-237子集,發現這兩種聚合策略都能夠處理該任務。我唯一沒有看到的是最小二乘選項的訓練時間。
ConvAI+KGs:在OpenDialKG的肩上 OpenDialKG是ACL 2019的亮點之一:一個大型會話數據集,具有豐富的底層KG和相當復雜的任務。基線模型留下了很多改進的空間,最后,在EMNLP 20,我們發現了在使用或受到OpenDialKG影響的基于kg的ConvAI系統中有相當大的進步。
我最喜歡的會議之一是Jung等人的作品,它將注意力流的概念應用于多跳穿越。他們的方法AttnIO模擬了流入和流出的流量。傳入流本質上是一個基于gnn的鄰域聚合(帶有關系類型的GAT),它在一個采樣的子圖上運行。對話上下文(和實體名稱)是通過ALBERT編碼的。流出流是由流出邊的注意力分數決定的。解碼器迭代T個步驟(分別得到T長的路徑)。從數量上看,實驗顯示了比原來的OpenDialKG基線有很大的性能提升,特別是在前1和前3的預測方面。定性地,案例研究表明,AttnIO產生可解釋的推理路徑,可被人類評估者理解。將工作規模擴大到像Wikidata這樣擁有100億個節點和1.1億個邊的大型KGs可能是一項令人興奮的努力,如果你有這個計劃,請給我寫信。
Madotto等人采用了一種不同的方式來合并KBs和KGs:正如我們在本文第一部分中所討論的,巨大的transformer LMs往往展示一些事實知識。為什么我們不把所有的知識放入LM params中呢?所提出的模型,KE (Knowledge Embedder),正是基于這一理念。我們的目標是生成所有可能的組合諾公斤事實的對話和條件任何LM全集。提出的策略如下:(1)使用SQL或Cypher查詢關系型DBs或KGs的內容。查詢然后轉換為對話模板(檢查)。(2)在模板中填充查詢的結果集。(3)我們將這些模板對話輸入LM,假設它會記住參數中的知識庫事實。將KE附加到GPT2中,并在多種ConvAI數據集(包括OpenDialKG)上對模型進行了探討。事實上,GPT2從KE模塊中獲益良多(在某些數據集上產生+ 20 F1點),并且與顯式的基于檢索的模型相當。一些缺點:原來的OpenDialKG圖太大,不能用當前的策略生成所有的對話模板,所以數字與AttnIO(例如)相差很遠,但留下了很大的空間,供以后改進。我還想提到幾篇論證在對話系統中使用KGs好處的論文:Yang等人在他們的GraphDialog中關注SMD和MultiWOZ數據集。他們將原來的表格數據轉換為KG并對圖進行了正確編碼,從而極大地提高了實體檢索F1得分!在醫學領域,Khosla等人開發了MedFilter,一個用于醫生和病人對話的系統。他們插入UMLS,一個巨大的醫學本體,作為話語編碼的一部分(連同話語信息)。MedFilter更好地提取和分類癥狀、抱怨和藥物。很高興看到有知識圖譜的對話系統的更多實際應用。
語言模型的預訓練已經被證明能夠獲取大量的世界知識,這對于NLP任務(如回答問題)是至關重要的。然而,這些知識隱式地存儲在神經網絡的參數中,需要更大的網絡來覆蓋更多的事實。
為了以更模塊化和可解釋性的方式捕獲知識,我們在語言模型前訓練中增加了一個潛在的知識檢索器,它允許模型從一個大型語料庫(如Wikipedia)中檢索和處理文檔,這些語料庫在前訓練、微調和推理期間使用。我們第一次展示了如何以一種無監督的方式預先訓練這種知識檢索器,
使用掩碼語言建模作為學習信號,并通過一個考慮數百萬文檔的檢索步驟進行反向傳播。
通過對具有挑戰性的開放領域問題回答(Open-QA)任務進行微調,我們證明了增強語言模型預訓練(REALM)的有效性。我們比較了三種流行的開放qa基準上的最先進的顯式和隱式知識存儲模型,發現我們的性能顯著優于所有以前的方法(4-16%的絕對準確性),同時還提供了定性的好處,如可解釋性和模塊化。
地址:
題目
知識增強的常識性故事生成預訓練模型,A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation
關鍵字
知識增強,故事生成,預訓練,機器學習,神經網絡,語言模型
簡介
故事生成,即從主導語境中生成真實的故事,是一項重要而富有挑戰性的任務。盡管成功建模流暢性和本地化,現有的神經語言生成模型(例如,GPT-2)仍然遭受重復,邏輯沖突,缺乏長期連貫性在生成的故事。我們推測,這是由于關聯相關常識知識、理解因果關系、規劃實體和事件具有適當的時間順序等方面的困難,本文設計了一個常識故事生成的知識增強預訓練模型,并提出了利用常識知識的方法來自外部知識庫的知識,以生成合理的故事。為了進一步捕捉可推理故事中句子之間的因果關系和時間依賴關系,我們采用了多任務學習法,在微調過程中結合辨別目標來區分真假故事。自動和手動評估表明,我們的模型可以生成比藝術基線狀態更合理的故事,特別是在邏輯和全局一致性方面。
作者
Jian Guan, Fei Huang, Xiaoyan Zhu, Minlie Huang,來自人工智能研究所,智能技術與系統國家重點實驗室;北京國家信息科學技術研究中心;清華大學計算機科學與技術系。 Zhihao Zhao,來自北京航空航天大學軟件學院。
簡介: 知識圖譜作為Ai要實現通用智能不可或缺的一環,其重要性不言而喻。要構建知識圖譜,離不開知識表示與知識建模。知識建模依賴于知識表示的語言和框架,這里說的知識,與數據的不同之處在于即要表達數據本身的意義,還要有理解的強大推理能力。本次報告利用知識建模與生成式推理相結合一起解決常識問題。如何來定義這個常識問題?首先是關于日常情況和事件,其次是存在于大多數人之間普遍共享的。比如,可以打開壁櫥門,但不能打開冰箱門,因為里面的食物可能變質。
本次報告的主要內容包括:
存在的數條常識推理挑戰歸結來說就是:
1)無法對有限的變量集使用有限的推理規則來進行推理
2)推理取決于豐富的知識