原鏈接://mgalkin.medium.com/knowledge-graphs-in-nlp-emnlp-2020-2f98ec527738
在這篇綜述中,我沒有區分主要的論文和發現論文,而是試圖選擇30篇左右值得注意的作品,這些作品可能會在未來的2-3年確立新的趨勢。
目錄
KG增強的語言模型:增強Transformer
自編碼器
自回歸
自然語言生成:Datasetlandia的新成員
實體鏈接:海量和多語言
關系提取:OpenIE6和神經提取器
KG表示學習:時間KGC和FB15K-237的繼承者
ConvAI+KGs:在OpenDialKG的肩上
** KG增強的LMs:增強Transformer **
我們在去年的EMNLP 2019年首次注意到結構化知識增強的LMs出現了繁榮。2019年和2020年出現了數十個使用維基百科或Wikidata實體進行豐富的模型(甚至在EMNLP2020上也有),但概念上的問題仍然存在。
如何度量知識編碼在LM中的參數?
第一次嘗試,比如LAMA基準測試,將問題定義為匹配從Wikidata中提取的事實的單標記塊樣式的空白,例如,iPhone是由_設計的(當然是蘋果)。LMs顯示了一些事實知識的概念,但坦率地說,不是很多,也不是很深。不過,LAMA是單令牌;2)只準講英語的。我們能否涵蓋更復雜的任務和多樣化的環境? 是的!為了與XTREME等多語言基準測試的近期成功相一致,Jiang等人研究了多語言模型是否展示了一些事實知識,并提出了X-FACTR,一種使用23種語言、帶有多標記空白(實際上多達5到10個標記)的closize風格問題的多語言基準測試,來測量它。作者探討了M-BERT、XLM和XLM- r與X-FACTR的關系。關鍵的發現為設計和訓練知識淵博的語言模型留下了很大的空間:多語言模型在高資源語言中只能達到15%的準確率,在低資源語言中只能達到5%左右 M-BERT似乎比更大的XLM和XLM- r包含更多的事實知識。多令牌預測比單令牌預測困難得多,因此您需要針對這類實體的重要解碼策略。幾乎沒有協議有效性在多種語言,也就是說,瑞士命名_ (EN)和НаименованиеШвейцариивосходитк_(俄文)產生完全不同的答案。在X-FACTR上看到最近的mT5(多語言T5)和mm-100的探測結果將是相當令人興奮的。
LMs中的實體表示
這次我們有四種新方法! 我把他們具體的訓練前目標用粗體字寫了出來。Yamada等人提出了LUKE(基于知識的嵌入語言理解),這是一個具有預訓練任務的transformer模型:傳銷商+預測文檔中的隱藏實體(見插圖)。在保持實體嵌入矩陣(500K不同實體)的基礎上,作者增加了實體感知自我關注,即根據計算的標記類型(word-entity, entity-entity, entity-word)增加了三個查詢矩陣。一個簡單的增強功能可以實現新的下游任務,并略微改進RoBERTa和最近的KG增強基線。
接下來,Fevry等人介紹了實體專家(EaE),這是一個12層的transformer,其中前四層正常工作,然后標記嵌入注釋提到查詢實體內存中的前100個實體,然后將匯總后的嵌入經過8個Transformer層。
另一方面,Shen等人使用的背景KG略有不同:在他們的GLM(圖引導的掩碼語言模型)中,圖提供了命名實體及其連通性模式(k-hops中的可達實體)的詞匯表。這一信息在兩個訓練前的任務中得到了利用:蒙面實體預測+在干擾因素存在的情況下實體排序,即負樣本。KG幫助掩蔽信息實體和選擇硬陰性樣本進行魯棒訓練。
最后,Poerner等人在他們的E-BERT中使用了Wikipedia2Vec。他們的想法是這樣的:vanilla BERT只訓練單詞的嵌入,而Wikipedia2Vec同時訓練單詞和實體的嵌入(270萬個實體)。因此,我們首先學習W,即BERT wordpieces和Wikipedia2Vec單詞之間的線性轉換,然后使用擬合的參數W投射Wikipedia2Vec實體。
自回歸KG增強的LMs
在本節中,LMs的生成過程受到小子圖等結構化知識的制約或豐富。Chen等人對KGPT(基于知識的預訓練)、數據到文本任務的生成模型和巨大的新數據集KGText做出了重大貢獻! 1作者提出了一種對各種數據到文本任務(如WebNLG、E2E NLG和WikiBio)進行編碼的通用格式,作為語言模型的統一輸入。2 KGPT有兩個編碼器:基于網絡的Graph Attention(對我來說有點復雜,只需要一個多關系的CompGCN就可以了)和帶有位置嵌入式輸入的伯特風格(請查看插圖)。本質上,您可以用指針將一個圖線性化為一個序列,其中的指針是實體、關系和完整三元組。解碼器是一個標準的類似gpt -2的復制機制。3 KGText是一個新的預訓練語料庫,其中從維基百科的EN句子與從Wikidata的子圖對齊,總共約1.8M(子圖,文本)對。作者確保每個子圖及其成對的句子描述了幾乎相同的事實。這確實是一個實質性的貢獻,因為以前的從圖形到文本的數據集相當小,并且包含了一個監督設置。
在這里,KGPT顯示了相當令人印象深刻的結果,在少數射擊和零射擊的情況下,在KGText的預訓練,使GPT-2遠遠落后。也就是說,在WebNLG (RDF to text task)上,僅5%的訓練數據就可以在少量射擊設置中獲得40+藍標得分,在完全零射擊設置中獲得20+藍標得分。我的看法:KGPT仍然缺乏顯式的實體(每個嵌入的實體都是其子詞單位的平均值),而且在編碼給定的子圖時,實體和文字之間沒有區別。對8個Titan RTX gpu進行8天的預訓練。
Ji等人采取了相反的方式,他們擴展了一個解碼器,使用圖推理模塊來保持GPT-2編碼器在他們的GRF(生成多跳推理流)中完好無損(見下)。在處理與常識相關的任務和像ATOMIC和ConceptNet這樣的KGs時,作者首先從輸入文本中提取一個k-hop子圖。文本通過GPT編碼器編碼,而KG子圖通過CompGCN(明智的選擇)編碼。推理模塊(本質上看起來像消息傳遞)通過子圖傳播信息,并在實體上創建softmax分布以選擇相關的實體。最后,復制門決定是放置該實體還是從詞匯表中選擇一個單詞。
在故事結尾生成、拐展NLG和解釋生成方面的實驗表明,在自動度量以及對生成文本的人類評估方面,優于各種GPT-2基線。
我們今天的舉重冠軍是由NVIDIA的Xu等人創建的MEGATRON-CTRL (8.3B參數)。通過控制生成,我們了解到調節LM生成器不僅要通過輸入上下文,還要使用一些關鍵字,這些關鍵字可以推動故事向某個方向發展。
這里,作者使用ConceptNet及其600K triples作為常識性KG和外部知識來源。
首先,關鍵字與三元組匹配,匹配的關鍵詞通過通用句子編碼器(USE)傳遞。另一方面,輸入上下文也通過使用傳遞。最后,選擇top-K個最大內積向量。對獵犬進行負采樣訓練。
解碼器是一個巨大的transformer (8.3億個參數),關鍵字生成器只有2.5億個參數。訓練只需160臺特斯拉v100。實驗表明,這樣的大模型確實能從背景知識中獲益,并且在AMT實驗中更容易被人們所青睞。
NLG(數據到文本):Datasetlandia的新成員
今年,我們看到了許多新的、大型的、設計良好的、復雜的任務/數據集,這些任務/數據集至少會在明年為NLG提供動力。
Cheng等人介紹了ENT-DESC,一個基于Wikidata的三到文本數據集,在其中,給定圍繞主實體的2跳子圖,任務是生成其文本描述。數據集在幾個方面優于WebNLG: 1 - desc要大得多:110K圖形-文本對,超過11M三組,大約700K不同的實體,1K不同的關系;2每個實體的三組比例更高,但不是所有的三組都對生成的文本有貢獻,也就是說,其中一些是干擾,模型應該足夠強大,以消除它們; 預期的描述比WebNLG的要長。
接下來,Chen等人提出了一個新的數據集Logic2Text,它挑戰了NLG系統從邏輯形式生成文本的能力。需要注意的是,它不僅是一個表到文本的任務,而且是一個更復雜的任務,包含7種邏輯類型,包括計數、比較、最高級、聚合、多數、唯一和序數。
在表格到文本的世界中,Parikh等人介紹了ToTTo,一個包含120K示例的大型數據集。任務是在給定表和幾個突出顯示的節點的情況下生成可信的文本。
實體鏈接:海量和多語言
在實體鏈接的世界里,谷歌和Facebook也加入了進來,他們通過提升TPUs和HPC集群來解決大量的多語言實體鏈接問題。
Botha, Shan和Gillick對100種語言的實體連接進行了研究。首先,為遠離只使用en的場景向您致敬:這是NLP社區的一項了不起的努力!像Wikidata這樣的大型KGs在設計語言上是不可知的,所以我們為什么不利用所有非en數據呢?(事實上,一些實體的標簽和描述甚至可能不存在)作者首先我684M提到約20M的巨大的數據集Wikidata實體在104種語言,和設計Mewsli-9,只一個輕量級的測試用例集的300 k提到82 k實體的9種語言評估實體連接性能。在模型方面,作者求助于雙編碼器,其中一個Transformer(通常是BERT)編碼提到,而第二個transformer編碼實體描述,計算余弦相似度作為最后的操作。使用mBERT檢查點初始化模型,在TPU v3上訓練幾天(TPUs運行brrr)。結果證明這個策略相當有效:在mewsli9上,最好的模型(以智能訓練增強為動力)達到micro-avg 90% Recall@1和98% Recall@10。另外,請查看下面的插圖,以獲得heldout集上特定于語言的數字。
與此略有不同的是,Wu等人將EN Wikipedia視為為零命中率設置而定制的新BLINK實體鏈接器中的背景知識庫和實體詞匯表。BLINK也采用了雙編碼器范例,但是這次所有的實體描述都是預先計算并存儲在FAISS索引中(那些是[CLS]嵌入)。上下文中提到的實體(需要事先注釋)通過另一個transformer傳遞,結果嵌入的提到通過FAISS在索引中檢索top-K最近鄰。最后,通過交叉編碼器transformer對top-K選項進行排序(非常有用)。實驗證明:1)基于fais的檢索速度快(~2ms/查詢)、準確(Recall@10 ">">">">">">">">">">">">">">">">">">">">">">>90%),明顯優于TF-IDF和BM-25;2)在零樣本的情況下,BLINK會把所有的基線都遠遠甩在后面!3)即使在一個CPU上推理也很快,所以你也可以將模型插入到你的應用程序中!
然而,BLINK確實需要注釋實體提及。這個問題由Li等人在他們的ELQ(問題實體鏈接)中的一篇同類論文解決了。事實上,ELQ駐留在相同的回購完全互補BLINK。 雖然架構類似于BLINK (bi-encoder + FAISS),但ELQ共同學習了提及檢測和消歧。也就是說,不需要輸入注釋! 此外,ELQ在實際應用中也表現出色:ELQ在QA數據集(如WebQSP和GraphQuestions)上優于TAGME和BLINK,同時也提高了在Natural Questions和TriviaQA等大型QA數據集上的準確性。
關系提取:OpenIE6和神經提取器
OpenIE是現代NLP應用程序的一個基石框架,它使用開放模式(沒有背景本體)從文本中提取三元組。各種各樣的CL論文都以這樣或那樣的方式使用OpenIE。Kolluru AtEMNLP 2020年,Adlakha等介紹OpenIE 6,下一個主要版本的IE方法。
什么新的? 首先,OpenIE 6幀的三重提取作為一個2-D (num_words x num_extraction)網格標注任務,使每次提取的每個單詞都可以屬于主語/謂詞/對象/無標簽。不過,細節才是真實的。提出了一種基于BERT的迭代網格標記系統,用于二維網格標記的實現。即幫助解決協調連詞(如圖IGL-CA),以及在三重提取過程中應用軟約束(CIGL-OIE)。軟約束使最終的損失函數增加了POS標簽的信號、頭部動詞的覆蓋和放大。排他性和提取計數附加在頭動詞上。實驗表明,在幾個基準測試中,OpenIE 6比OpenIE 5快10倍,性能有顯著且一致的提升(大約4個F1點)。你還可以用這4點來換取更快的速度,并獲得OpenIE 5級的性能,但是速度要快50倍。
此外,Hohenecker、Mtumbuka等人對OpenIE的神經結構進行了系統研究。
KG表示學習:時間KGC和FB15K-237的繼承者
在今年的EMNLP 2020上,我們有大約20篇(!)論文專門針對KG表示學習。其中有我們的論文《超相關知識圖譜的信息傳遞》,我不會在這里討論,因為我們在Medium上發表了一篇獨立的文章,涵蓋了所有的細節,所以我邀請你也來看看。
一定數量的工作被放入暫時的KGs中,也就是那些具有特定事實在特定時間范圍內有效的時間戳的KGs。例如,(奧巴馬,美國總統,2009,2017)。我們需要預測一個主體或一個客體,給出剩下的四組/五組。幾個著名的作品:
在這種設置中,Wu等人提出了TeMP(時態消息傳遞框架),其中結構GNN編碼器(R-GCN使用,但任何多關系的都可以使用,如CompGCN)與時態編碼器配對。 作者用時間編碼器進行了實驗:GRU和自我關注。也就是說,每一個時間步都用一個GNN編碼,它們的輸入被輸入到時間編碼器中。一個額外的控制機制考慮到在特定的時間范圍內發生實體的頻率(例如,在1900年1950年很少提到奧巴馬,但在2000年2020年更多)。最后的實體嵌入是計算澆注后,并被送入一個解碼器在這里它是復雜的,盡管我認為任何評分功能從KG嵌入家庭將工作。Jin等人在RE-NET中使用了類似的R-GCN + RNN方法(但處理時間分量時采用了不同的解碼器)。我們的結論是:多關系GNN可以有時間感知能力。
我們知道雙曲嵌入具有較小的嵌入尺寸(例如,32d或64d),并產生競爭性的結果。到目前為止,這些模型已經在經典的靜態KG完井設置中進行了探索。雙曲線+時間= ?
Han等人在DyERNIE中使用一些高級數學來建模KGs的時間方面。實體的時間相互作用被建模為在具有一定速度的流形上的運動。DyERNIE利用了不同曲率的黎曼流形的乘積,并定義了一個應用于四維(s, p, o, t)的新評分函數。實驗表明,20d/40d/100d維模型確實優于基線,學習速度確實捕獲了時間方面。但是,您可能會在附錄中發現,在標準數據集上訓練100d模型可能需要350小時。
最后,Jain, Rathi等人提出了一個有價值的方法論貢獻:大多數時間KG完成任務度量查詢(s, r, ?, t)或(?, r, o, t),而預測實際時間間隔(s, r, o, ?)仍未充分探索。此外,此任務的現有指標或低估或高估了系統性能。摘要提出了一種新的時間區間預測指標:親和力增強的并集交叉(aeIOU),其靈感來自于計算機視覺中常用的親和力增強交叉。
這個花哨的聯合符號是最小的船體(連續間隔),包含黃金和預測間隔。作者證明,aeIOU更好地抓住了任務的復雜性,并通過一個新的模型(TimePlex)展示了它的好處,這個新模型增加了具體時間的歸納偏差(例如,人出生的年份應該比人死亡的年份早)。總的來說,這篇論文結構良好,易于理解。
回到經典的鏈路預測,Safavi和Koutra深入研究了FB15K-237和其他KGE基準的缺陷,認為他們7年前的偏差和設計選擇在2021年并不適合該領域。
假設每年有大約50篇KG嵌入新論文,模型確實傾向于過度擬合數據集,因此,模型很難展示它們的表達能力,因為基準數據集不能從這種表達中獲益。沒有猛烈炮擊。相反,作者提出了法典、從Wikidata()和維基百科中提取的KG完成數據集。里面有:1個小/中/大的子圖; 2兩個任務:鏈路預測和三元組分類;用6種語言描述實體和類型,沒有一種語言能完全覆蓋所有實體;4 .眾包硬否定;5消除了測試泄漏源和大部分FB15K-237的偏差。我很高興看到法典在社區中獲得更多的吸引力!繼續偏差,Fisher等人研究了如何減輕KG嵌入模型學習的KGs中的偏差。例如,在Wikidata中,大多數鍵入為銀行家的人都是男性,但我們不希望性別影響所有Wikidata人的職業預測。強力解決方案的一個快速黑暗面可能是取消所有糟糕的三倍,但我們會發現沒有女性美國總統,因此模式的質量將受到損害。相反,作者提出了另一種方法(非常有用):本質上,創建一個可能存在偏差的關系的面具,并將KL損失分配給模型預測,以推動概率達到均衡。實驗表明,減少某些謂詞的偏差而不犧牲大量模型的預測能力確實是可能的。
更有趣的一項研究通過Albooyeh、高爾和齊米集中樣本外設置,也就是說,當在測試時間一個新的看不見的路節點到達作為一個主題或一個對象。有些人可能會稱之為設置感應,但不清楚為什么作者決定去樣本外。到目前為止,文獻中有兩種類型的任務,人們稱之為歸納:(1)一個帶有看不見的實體的三元組連接到看得見的經過訓練的圖(本文);(2)測試集包含一個全新的圖,我們需要預測這個未見圖中的鏈接(這是Teru等人最近發表的ICML 20論文)。盡管如此,在gnn的標準歸納任務中,節點通常具有一些特性,但在本文中,作者特別指出,這些特性是不可用的(簡單的節點度啟發式方法并不是很有用)。那么,我們如何推斷到達的未見實體的嵌入呢?提出了對所見實體的嵌入進行聚合的方法。關系,提出兩種策略:1簡單平均1-hop附近,和2解決最小二乘問題(與我們的逆矩陣珞O (n)時間)。作者還為該任務設計了WN18RR和FB15K-237子集,發現這兩種聚合策略都能夠處理該任務。我唯一沒有看到的是最小二乘選項的訓練時間。
ConvAI+KGs:在OpenDialKG的肩上 OpenDialKG是ACL 2019的亮點之一:一個大型會話數據集,具有豐富的底層KG和相當復雜的任務。基線模型留下了很多改進的空間,最后,在EMNLP 20,我們發現了在使用或受到OpenDialKG影響的基于kg的ConvAI系統中有相當大的進步。
我最喜歡的會議之一是Jung等人的作品,它將注意力流的概念應用于多跳穿越。他們的方法AttnIO模擬了流入和流出的流量。傳入流本質上是一個基于gnn的鄰域聚合(帶有關系類型的GAT),它在一個采樣的子圖上運行。對話上下文(和實體名稱)是通過ALBERT編碼的。流出流是由流出邊的注意力分數決定的。解碼器迭代T個步驟(分別得到T長的路徑)。從數量上看,實驗顯示了比原來的OpenDialKG基線有很大的性能提升,特別是在前1和前3的預測方面。定性地,案例研究表明,AttnIO產生可解釋的推理路徑,可被人類評估者理解。將工作規模擴大到像Wikidata這樣擁有100億個節點和1.1億個邊的大型KGs可能是一項令人興奮的努力,如果你有這個計劃,請給我寫信。
Madotto等人采用了一種不同的方式來合并KBs和KGs:正如我們在本文第一部分中所討論的,巨大的transformer LMs往往展示一些事實知識。為什么我們不把所有的知識放入LM params中呢?所提出的模型,KE (Knowledge Embedder),正是基于這一理念。我們的目標是生成所有可能的組合諾公斤事實的對話和條件任何LM全集。提出的策略如下:(1)使用SQL或Cypher查詢關系型DBs或KGs的內容。查詢然后轉換為對話模板(檢查)。(2)在模板中填充查詢的結果集。(3)我們將這些模板對話輸入LM,假設它會記住參數中的知識庫事實。將KE附加到GPT2中,并在多種ConvAI數據集(包括OpenDialKG)上對模型進行了探討。事實上,GPT2從KE模塊中獲益良多(在某些數據集上產生+ 20 F1點),并且與顯式的基于檢索的模型相當。一些缺點:原來的OpenDialKG圖太大,不能用當前的策略生成所有的對話模板,所以數字與AttnIO(例如)相差很遠,但留下了很大的空間,供以后改進。我還想提到幾篇論證在對話系統中使用KGs好處的論文:Yang等人在他們的GraphDialog中關注SMD和MultiWOZ數據集。他們將原來的表格數據轉換為KG并對圖進行了正確編碼,從而極大地提高了實體檢索F1得分!在醫學領域,Khosla等人開發了MedFilter,一個用于醫生和病人對話的系統。他們插入UMLS,一個巨大的醫學本體,作為話語編碼的一部分(連同話語信息)。MedFilter更好地提取和分類癥狀、抱怨和藥物。很高興看到有知識圖譜的對話系統的更多實際應用。
【導讀】一年一度的全球學術大會EMNLP是計算機語言學和自然語言處理領域最受關注的國際學術會議之一,由國際語言學會(ACL)旗下SIGDAT組織。據悉,EMNLP 2020共收到有效投稿3114篇,錄用602篇長文和150篇短文。近期,所有Paper list 放出,也包括(Findings of EMNLP),知識圖譜補全特別是時序知識圖譜補全(KGC)相關的接受paper很多,希望大家多多關注。
為此,這期小編為大家奉上EMNLP 2020必讀的五篇知識圖譜補全(Knowledge Graph Completion (KGC))相關論文——知識圖譜補全數據集、少樣本知識圖譜補全、時序知識圖譜補全
EMNLP 2020 Accepted Papers : //2020.emnlp.org/papers/main
EMNLP2020CI、EMNLP2020KG、ICLR2020CI、ICML2020CI
1. CODEX: A Comprehensive Knowledge Graph Completion Benchmark
作者:Tara Safavi, Danai Koutra
摘要:我們提出了CODEX,這是一組從Wikidata和Wikipedia提取的知識圖譜補全(knowledge graph completion)數據集,它們在難度和范圍上改進了現有知識圖譜補全基準。就范圍而言,CODEX包括三個大小和結構各異的知識圖譜,實體和關系的多語言描述,以及成千上萬個合理但被證實為假的難負樣本(hard negative)三元組。為了表征CODEX,我們提供了詳盡的經驗分析和基準測試。首先,我們根據邏輯關系模式分析每個CODEX數據集。接下來,我們針對五個經過廣泛調整的KG嵌入模型在CODEX上報告基準鏈接預測和三元組分類結果。最后,我們通過顯示CODEX涵蓋了更多樣化和可解釋的內容,并且它是一個更困難的鏈接預測基準,將CODEX與流行的FB15K-237知識圖譜補全數據集區分開。
代碼:
網址:
2. Adaptive Attentional Network for Few-Shot Knowledge Graph Completion
作者:Jiawei Sheng, Shu Guo, Zhenyu Chen, Juwei Yue, Lihong Wang, Tingwen Liu, Hongbo Xu
摘要:少樣本知識圖譜(KG)的補全是當前研究的重點,其中每個任務旨在根據給定的少樣本參考實體對(reference entity pairs),來查詢關系中未知的事實。最近的嘗試通過學習實體和參考的靜態表示來解決這個問題,而忽略了它們的動態屬性,即,實體可能在任務關系中發揮不同的作用,并且參考可能對查詢做出不同的貢獻。這項工作提出了自適應注意力網絡,通過學習自適應實體和參考表示來實現少樣本KG補全。具體而言,實體由自適應鄰居編碼器建模以識別其面向任務的角色,而參考則由自適應查詢感知聚合器建模以區分其貢獻。通過注意力機制,實體和參考都可以捕獲其細粒度的語義,從而呈現更具表達力的表示形式。在少數情況下,這對于知識獲取將更具預測性。對兩個公共數據集的鏈接預測的評估表明,我們的方法以不同的少樣本數量獲得了最新的最新結果。
代碼:
網址:
3. DyERNIE: Dynamic Evolution of Riemannian Manifold Embeddings for Temporal Knowledge Graph Completion
作者:Zhen Han, Peng Chen, Yunpu Ma, Volker Tresp
摘要:最近,人們對學習時序知識圖譜(KG)表示的興趣日益濃厚,這些知識記錄了實體之間隨時間的動態關系。時序KG經常表現出多個同時的非歐幾里德結構,例如層次結構和循環結構。但是,現有的時序KG嵌入方法通常會在歐幾里得空間中學習實體表示及其動態演化,這可能無法很好地捕獲此類內在結構。為此,我們提出了DyERNIE,這是一種非歐幾里得的嵌入方法,它可以學習黎曼流形(Riemannian manifolds)乘積中的演化實體表示,其中的組合空間是根據基礎數據的截面曲率估算的。這使我們的方法能夠更好地反映時間KG上的各種幾何結構。此外,為了捕獲時間KG的演化動力學,我們讓實體表示根據每個時間戳處切線空間中定義的速度矢量進行演化。我們詳細分析了幾何空間對時序KG表示學習的貢獻,并評估了我們在時序知識圖補全任務上的模型。在三個真實世界的數據集上進行的大量實驗表明,性能得到了顯著改善,這表明可以通過黎曼流形上的嵌入演化來更正確地建模多關系圖數據的動力學。
網址:
4. Temporal Knowledge Base Completion: New Algorithms and Evaluation Protocols
作者:Prachi Jain, Sushant Rathi, Mausam, Soumen Chakrabarti
摘要:將關系事實(s,r,o)與有效時間段(或時間瞬間)相關聯的時序知識庫的研究仍處于早期階段。我們的工作將預測缺失的實體(鏈接預測)和缺失的時間間隔(時間預測)視為聯合的時序知識庫補全(TKBC)任務,并提出了TIMEPLEX,這是一種新穎的TKBC方法,其中實體,關系和時間都嵌入統一的兼容空間。TIMEPLEX利用某些事實/事件的經常性和關系對之間的時間交互作用,在兩個預測任務上都產生了最新的結果。
我們還發現,由于評估機制不完善,現有的TKBC模型嚴重高估了鏈接預測性能。作為回應,我們針對鏈接和時序預測任務提出了改進的TKBC評估協議,處理了黃金實例和系統預測中時間間隔的部分重疊引起的細微問題。
網址:
5. TeMP: Temporal Message Passing for Temporal Knowledge Graph Completion
作者:Jiapeng Wu, Meng Cao, Jackie Chi Kit Cheung, William L. Hamilton
摘要:在時序知識圖譜中(TKG)推斷缺失的事實是一項基本且具有挑戰性的任務。以前的工作通過擴展靜態知識圖的方法來利用時間相關表示來解決此問題。但是,這些方法沒有顯式地利用時間步驟中的多跳結構信息和時間事實來增強其預測。此外,現有工作未明確解決TKG中實體分布的時間稀疏性和可變性。我們提出了時間信息傳遞(TeMP)框架,通過結合圖神經網絡,時間動力學模型,數據缺失處理和基于頻率的門控技術來應對這些挑戰。在標準TKG任務上進行的實驗1表明,與以前的最新技術水平相比,我們的方法可帶來可觀的收益,在三個標準基準中,Hits @ 10的平均相對改進為10.7%。我們的分析還揭示了TKG數據集內和TKG數據集之間可變性的重要來源,并且我們引入了一些簡單而強大的基線,這些基線在某些情況下優于現有技術。
網址:
【導讀】一年一度的全球學術大會EMNLP是計算機語言學和自然語言處理領域最受關注的國際學術會議之一,由國際語言學會(ACL)旗下SIGDAT組織。據悉,EMNLP 2020共收到有效投稿3114篇,錄用602篇長文和150篇短文。近期,所有Paper list 放出,也包括(Findings of EMNLP),知識圖譜表示及其應用相關的接受paper很多,在其他領域比如CV、數據挖掘、推薦等也廣受關注。
為此,這期小編為大家奉上EMNLP 2020必讀的六篇知識圖譜(Knowledge Graph)相關論文——知識圖譜表示、常識、任務型對話、多語種知識庫補全、開放式KG表示、社會常識推理
EMNLP 2020 Accepted Papers : //2020.emnlp.org/papers/main
ICLR2020CI、ICML2020CI
1. AutoETER: Automated Entity Type Representation for Knowledge Graph Embedding
作者:Guanglin Niu, Bo Li, Yongfei Zhang, Shiliang Pu, Jingyang Li
摘要:知識圖譜嵌入(KGE)可以表示連續向量空間中的實體和關系。一些利用附加類型信息的傳統KGE模型可以改善實體的表示,但這些模型完全依賴于顯式類型(explicit types),或者忽略了特定于各種關系的不同類型表示。此外,現有的方法中沒有一種方法能夠同時推斷對稱、反轉、合成的所有關系模式以及1-N、N-1和n-N關系的復雜屬性。為了探索任何KG的類型信息,我們提出了一種新的KGE框架自動實體類型表示(AutoETER),通過將每個關系看作是兩個實體類型之間的轉換(translation)操作來學習每個實體的潛在類型嵌入,并利用關系感知映射機制來學習每個實體的潛在類型嵌入。特別是,我們設計的自動類型表示學習機制是一個可插拔的模塊,可以很容易地與任何KGE模型集成。此外,我們的方法可以對所有的關系模式和復雜關系進行建模和推理。在四個數據集上的實驗表明,該模型在鏈接預測任務上的性能優于最新的基線,類型聚類的可視化清楚地解釋了類型嵌入的原因,驗證了該模型的有效性。
網址:
2. COSMIC: COmmonSense knowledge for eMotion Identification in Conversations
作者:Deepanway Ghosal, Navonil Majumder,
Alexander Gelbukh, Rada Mihalcea, Soujanya Poria
摘要:在本文中,我們利用常識知識解決了會話中語言級別的情感識別問題。我們提出了COSMIC,這是一個新的框架,它融合了不同的常識元素,如心理狀態、事件和因果關系,并在它們的基礎上學習參與對話的對話者之間的互動。目前最先進的方法在上下文傳播、情感轉移檢測和區分相關情感類別方面經常遇到困難。通過學習不同的常識表示,COSMIC解決了這些挑戰,并在四個不同的基準對話數據集上取得了新的情感識別最先進的結果。
代碼: .
網址:
3. Learning Knowledge Bases with Parameters for Task-Oriented Dialogue Systems
作者:Andrea Madotto, Samuel Cahyawijaya,
Genta Indra Winata, Yan Xu, Zihan Liu, Zhaojiang Lin, Pascale Fung
摘要:面向任務的對話系統要么通過單獨的對話狀態跟蹤(DST)和管理步驟實現模塊化,要么是端到端可訓練。在這兩種情況下,知識庫(KB)在滿足用戶請求方面起著至關重要的作用。模塊化系統依賴DST與知識庫交互,這在注釋和推理時間方面是昂貴的。端到端系統直接使用知識庫作為輸入,但當知識庫大于幾百個條目時,它們無法進行擴展。在本文中,我們提出了一種將任意大小的知識庫直接嵌入到模型參數中的方法。所得到的模型不需要任何DST或模板響應,也不需要知識庫作為輸入,并且它可以通過微調來動態更新其知識庫。我們在五個小、中、大的KB的面向任務的對話數據集中對我們的解決方案進行了評估。我們的實驗表明,端到端模型可以有效地將知識庫嵌入到它們的參數中,并在所有被評估的數據集上獲得具有競爭力的性能。
代碼:
網址:
4. Multilingual Knowledge Graph Completion via Ensemble Knowledge Transfer
作者:Xuelu Chen, Muhao Chen, Changjun Fan, Ankith Uppunda, Yizhou Sun, Carlo Zaniolo
摘要:預測知識圖(KG)中的缺失事實是知識庫構建和推理中的一項重要任務,也是近年來利用知識圖嵌入(KG embeddings)進行研究的一個重要課題。雖然現有的KG嵌入方法主要是在單個KG中學習和預測事實,但考慮到不同KG在數據質量和覆蓋范圍方面有各自的優勢和局限性,一個更合理的解決方案是從多個特定語言KG中的知識去嘗試融合。但這是相當具有挑戰性的,因為多個獨立維護的KG之間的知識遷移經常受到比對信息不足和描述事實不一致的障礙。在本文中,我們提出了一種新的框架KENS,用于嵌入學習和跨多個特定語言的KG進行集成知識遷移。KENS將所有KG嵌入到一個共享的嵌入空間中,在那里基于自學習捕獲實體之間的關聯。然后,KENS進行集成推理,合并來自多個特定語言KG嵌入的預測結果,并為此研究了多個集成技術。在五個實際語言特定的KG上的實驗表明,KENS通過有效地識別和利用互補知識,不斷改進KG補全的最新方法。
網址:
5. Out-of-Sample Representation Learning for Knowledge Graphs
作者:Marjan Albooyeh, Rishab Goel, Seyed Mehran Kazemi
摘要:許多重要問題都可以表示為知識圖中的推理。表示學習已經被證明對直推式推理(transductive reasoning)非常有效,在transductive 推理中,一個人需要對已經觀察到的實體做出新的預測,屬性圖(其中每個實體都有初始特征向量)和非屬性圖(其中唯一的初始信息來自與其他實體的已知關系)都是如此。對于樣本外推理( out-of-sample reasoning),人們需要對訓練時看不到的實體進行預測,許多以前的工作都考慮屬性圖。然而,對于非屬性圖的樣本外推理,并沒有得到充分的研究。在本文中,我們研究了非屬性知識圖的樣本外表示學習問題,為這一任務創建了基準數據集,開發了幾個模型和基線,并對所提出的模型和基線進行了實證分析和比較。
網址:
6. Social Commonsense Reasoning with Multi-Head Knowledge Attention
作者:Debjit Paul, Anette Frank
摘要:社會常識推理需要對文本的理解,對社會事件及其實際含義的了解以及常識推理能力。在這項工作中,我們提出了一種新的多頭知識注意模型,該模型對半結構化常識推理規則進行編碼,并學習將其合并到基于transformer的推理單元中。我們評估了該模型在兩個需要不同推理技能的任務上的性能:作為一項新任務的歸納自然語言推理(Abductive Natural Language Inference)和反事實不變性預測(Counterfactual Invariance Prediction)。我們表明,我們提出的模型在兩個推理任務上都比最先進模型(即Roberta)提高了性能。值得注意的是,據我們所知,我們是第一個證明學習執行反事實推理的模型有助于在溯因推理任務中預測最佳解釋的人。通過對知識的擾動,我們驗證了模型推理能力的健壯性,并對模型的知識融合能力進行了定性分析。
網址:
題目: A Survey on Graph Neural Networks for Knowledge Graph Completion
摘要:
知識圖譜在諸如回答問題和信息檢索之類的各種下游任務中越來越受歡迎。但是,知識圖譜通常不完整,從而導致性能不佳。結果,人們對知識庫補全任務產生了濃厚的興趣。 最近,圖神經網絡已用于捕獲固有存儲在這些知識圖譜中的結構信息,并已顯示出可在各種數據集中實現SOTA性能。 在這項調查中,了解了所提出方法的各種優點和缺點,并嘗試在該領域中發現需要進一步研究的新的令人興奮的研究問題。
博文鏈接://medium.com/@mgalkin/knowledge-graphs-in-natural-language-processing-acl-2020-ebb1f0a6e0b1#ce67
這篇文章是為了紀念這個系列的一周年,在這個系列中,我們研究了由知識圖譜驅動的NLP和圖形ML的進步! 觀眾的反饋促使我繼續說下去,所以請系緊安全帶(或許也可以系上一些),在這一集中,我們來看看與知識圖譜(KG)相關的ACL 2020進程。 今天的議程如下:
結構化數據的問答
KG嵌入:雙曲空間和超關系
數據到文本NLG:準備你的Transformer
對話式AI:改進面向目標的機器人
信息提取:OpenIE和鏈接預測
結論
KG嵌入:雙曲空間和超關系
雙曲空間是ML中最近的熱門話題之一。用更簡單的術語來說,在雙曲空間中(得益于其屬性),你可以使用更少的維數有效地表示層次結構和樹狀結構。
基于這個動機,Chami等人提出了AttH,一種雙曲線的KG嵌入算法,在KG中利用使用旋轉、反射和轉換對邏輯和層次模式進行建模。Att來自于應用于旋轉和反射矢量的雙曲注意。繞過不穩定的黎曼優化的訣竅是使用正切空間,d維的龐加萊球的每個點都可以映射到正切空間。在這個明顯不平凡的設置中,每個關系不僅與一個向量相關,而且與描述特定關系的反射和旋轉的參數相關。然而,在現實生活中,KGs中R << V,所以開銷不是很大。 在實驗中,AttH在具有一定層次結構的WN18RR和Yago3和Yago10上表現優越,在FB15k-237上的差距較小。更重要的是,僅32維的AttH就顯示了巨大的優勢,相比于真實和復雜平面的32維模型。此外,WN18RR和FB15k-237的32維在評價標準MRR評分上僅比SOTA 500維的嵌入模型分別小0.02和0.03。消融研究證明了可學習的曲率的重要性,而其優于最接近的匹配模型MurP。
圖表示學習的另一個趨勢是超越簡單的KG組成的三元組和學習表示對于更復雜,超關系KG,當每一個三元組可能有一組鍵-值對屬性,提供細粒度細節三在各種情況下的有效性。事實上,Wikidata在其Wikidata語句模型中采用了超關系模型,其中屬性被稱為限定符。重要的是不要將模型與n元事實(生成冗余謂詞)和超圖混合在一起。也就是說,如果你只在三元組層面上與Wikidata一起工作,你就會失去一大半的內容。 Guan等人不想失去Wikidata的一半,他們提出了NeuInfer,一種學習超關系KGs嵌入的方法(他們之前的工作,NaLP,更適合n元事實)。
NeuInfer的思想是計算一個超關系事實(見圖)的有效性和兼容性評分。首先,(h,r,t)嵌入輸入到一個全連接的網絡(FCN)來估計這個三元組(有效性)的合理的概率。其次,為每個鍵值對構造一個五組(h,r,t,k,v),并通過另一組FCNs傳遞。有m對,m個向量經過最小池化,得到表示相容度評分的結果,即這些限定符在主要三元組中的表現如何。最后,用兩個分數的加權和得到最終評分。 作者在標準基準JF17K(提取自Freebase)和WikiPeople(來自Wikidata)上評估了NeuInfer,并報告說JF17K在預測頭實體、尾實體和屬性值方面比NaLP有顯著的改進。我鼓勵作者將他們的數字與HINGE(來自Rosso等人)進行比較,因為這兩種方法在概念上是相似的。 現在我們需要談談頂級會議上發布的KG嵌入算法的復現性,比如ACL 2019,Sun, Vashishth, Sanyal等人發現,報告SOTA結果(明顯優于現有基線)的幾個最近的KGE模型受到測試集泄漏的影響,或在ReLU激活有效三元組得分后出現許多異常零化的神經元。此外,他們還表明,他們的性能度量標準(如Hits@K和MRR)取決于在有效三元組負采樣(實際上,這是不應該發生的)中的位置。另一方面,現有的強基線在任何位置的表現都是一樣的。我們要做的就是使用評估原則,將一個有效的三元組隨機放置在負樣本的位置上。
我們的團隊對這個問題也有話要說:在我們的新論文《讓黑暗變得光明》(bring Light Into the Dark)中:大規模評估知識圖譜嵌入模型的一個統一的框架下我們執行65 k +實驗和k + GPU 21小時評估19模型從RESCAL首先發表在2011年RESCAL到2019年末 RotatE 和TuckER,,5種損失函數,各種訓練策略有/沒有負采用,和更多重要考慮的超參數。我們還將為您和我們熱愛的社區發布為所有模型找到的最佳超參數。此外,我們正在發布PyKEEN 1.0,這是一個PyTorch庫,用于訓練和基準測試KG嵌入式模型! 我鼓勵你仔細閱讀其他一些作品:Sachan研究了通過離散化壓縮KG實體嵌入的問題,例如,Barack Obama將被編碼為“2 1 3 3”,而不是200維的32位的浮點向量,Michelle Obama將被編碼為“2 1 3 2”。
也就是說,你只需要一個有K個值的D維長向量(這里D=4, K=3)。對于離散化,Softmax被發現性能更好。并且作為一個從KD代碼返回到n維浮點數向量的反向函數,作者建議使用一個簡單的Bi-LSTM。實驗結果顯示,FB15k-237和WN18RR的壓縮率達到了100-1000倍,但在推理時(當需要解碼KD代碼時)的性能下降和計算開銷可以忽略不計(最大MRR為2%)。 我建議大家坐下來,重新考慮一下KGE的pipelines(特別是在生產場景中)。例如,通過PyTorch-BigGraph獲得的78M Wikidata實體的200維嵌入需要110 GB的空間。想象一下壓縮100倍會有什么可能? 還有一系列的工作改進了流行的KGE模型:
結論
在今年的ACL2020中,我們看到了更少的KG增強的語言模型(但是可以看看TaPas和TABERT,它們被設計用于在 tables上工作),NER可能也少了一些。另一方面,圖形到文本的NLG正在上升!
簡介: 今年AAAI 2020接收了1591篇論文,其中有140篇是與圖相關的。接下來將會介紹幾篇與圖和知識圖譜相關的幾篇論文。以下為內容大綱:
Hayashi等人在知識圖上建立了自然語言生成(NLG)任務的潛在關系語言模型(LRLM)。就是說,模型在每個時間步上要么從詞匯表中提取一個單詞,要么求助于已知關系。 最終的任務是在給定主題實體的情況下生成連貫且正確的文本。 LRLM利用基礎圖上的KG嵌入來獲取實體和關系表示,以及用于嵌入表面形式的Fasttext。 最后,要參數化流程,需要一個序列模型。作者嘗試使用LSTM和Transformer-XL來評估與使用Wikidata批注的Freebase和WikiText鏈接的WikiFacts上的LRLM。
Liu等人提出了K-BERT,它希望每個句子(如果可能)都用來自某些KG的命名實體和相關(謂詞,賓語)對進行注釋。 然后,將豐富的句子樹線性化為一個新的位置相似嵌入,并用可見性矩陣進行遮罩,該矩陣控制輸入的哪些部分在訓練過程中可以看到并得到關注。
Bouraoui等人進一步評估了BERT的關系知識,即在給定一對實體(例如,巴黎,法國)的情況下,它是否可以預測正確的關系。 作者指出,BERT在事實和常識性任務中通常是好的,而不是糟糕的非詞性任務,并且在形態任務中相當出色。
不同的KG具有自己的模型來建模其實體,以前,基于本體的對齊工具僅依靠此類映射來標識相似實體。 今天,我們有GNN只需少量培訓即可自動學習此類映射!
Sun等人提出了AliNet,這是一種基于端到端GNN的體系結構,能夠對多跳鄰域進行聚合以實現實體對齊。 由于架構異質性,由于相似的實體KG的鄰域不是同構的,因此任務變得更加復雜。 為了彌補這一點,作者建議關注節點的n跳環境以及具有特定損失函數的TransE樣式關系模式。
Xu等人研究了多語言KG(在這種情況下為DBpedia)中的對齊問題,其中基于GNN的方法可能陷入“多對一”的情況,并為給定的目標實體生成多個候選源實體。 作者研究了如何使他們的預測中的GNN編碼輸出更加確定。
AAAI’20標記并概述了兩個增長趨勢:神經符號計算與臨時性的KG越來越受到關注。
AAAI’20主持了“對話狀態跟蹤研討會”(DSTC8)。 該活動聚集了對話AI方面的專家,包括來自Google Assistant,Amazon Alexa和DeepPavlov的人員。在研討會上,多個專家都提出了對話AI的相關研究方法。
【導讀】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 在美國紐約舉辦。Michael Galkin撰寫了AAAI2020知識圖譜論文相關研究趨勢包括:KG-Augmented語言模型,異構KGs中的實體匹配,KG完成和鏈路預測,基于kg的會話人工智能和問題回答,包括論文,值得查看!
Hiroaki Hayashi, Zecong Hu, Chenyan Xiong, Graham Neubig: Latent Relation Language Models. AAAI 2020
論文摘要:知識圖譜嵌入是一種將符號實體和關系投影到連續向量空間的方法,越來越受到人們的重視。以前的方法允許對每個實體或關系進行單一的靜態嵌入,忽略它們的內在上下文性質,即。,實體和關系可能出現在不同的圖上下文中,因此,它們具有不同的屬性。該工作提出了一種新的基于上下文的知識圖譜嵌入(CoKE)范式,該范式考慮了這種上下文性質,并學習了動態的、靈活的、完全上下文化的實體和關系嵌入。研究了兩類圖的上下文:邊和路徑,它們都被表示為實體和關系的序列。CoKE采用一個序列作為輸入,并使用Transformer編碼器獲得上下文化的表示。因此,這些表現形式自然地適應輸入,捕捉實體的上下文含義和其中的關系。通過對各種公共基準的評估,驗證了CoKE在鏈路預測和路徑查詢應答方面的優越性。在幾乎所有情況下,它的性能始終比當前的技術水平更好,或者至少與之相當,特別是在H@10的路徑查詢應答方面提高了19.7%。
代碼鏈接:[ /tree/develop/PaddleKG/CoKE]( /tree/develop/PaddleKG/CoKE)