預訓練跨語言模型(Pre-Trained Cross-Lingual Language Model)是通過在大規模多語言語料上進行預訓練得到,其展現了在不同語言間優秀的遷移能力。這類模型通常由多語言詞表以及 Transformer 編碼器組成,可以將不同語言的文本編碼進統一的表示空間。盡管大多數預訓練單語模型和跨語言模型中使用的 Transformer 編碼器結構幾乎相同,但它們的詞表有較大的區別。現有預訓練單語模型的詞表一般包含 30K 到 60K 子詞單元,與此同時,XLM-R[1] 及 mT5[2] 等模型使用包含 250K 子詞單元的多語言詞表來表示上百種語言,雖然有些子詞單元是跨語言共享的,但是每個語言分配的語言特定子詞單元平均不超過 2.5K 個,用來表示一種語言依然是相對不足的。并且常用的多語言詞表是通過 BPE 或 unigram 語言模型等算法在多語言語料上學習得到,這些算法在詞表構建過程中更傾向于選擇在不同語言之間共享的子詞單元,如使用拉丁字母和西里爾字母的語言[3],而選中語言特定子詞單元的概率較低。對于這些算法而言,很難確定是否已經為每種語言分配了足夠的詞表大小,使得每種語言都能被充分表示。此外,相比于單語模型,跨語言模型中的大詞表不僅會降低預訓練速度,同時也會導致模型參數量增加。
為了解決上述問題,本文首先提出 VoCap 詞表構建算法得到一個更大的多語言詞表,在構建過程中綜合考慮每種語言的語言特定詞匯能力及預訓練語料大小為每種語言分配合適的詞表大小。對于進一步加大跨語言模型中的多語言詞表所帶來的預訓練速度降低的問題,本文提出基于 k 近鄰的目標采樣方法,通過近似估計訓練目標中的 softmax 函數來提升跨語言模型預訓練效率。XTREME benchmark[4] 上實驗結果表明,基于 VoCap 方法構建的多語言詞表要優于之前的詞表,基于 k 近鄰的目標采樣方法在達成可比性能的同時,大幅度提升了跨語言模型的預訓練效率。
原鏈接://mgalkin.medium.com/knowledge-graphs-in-nlp-emnlp-2020-2f98ec527738
在這篇綜述中,我沒有區分主要的論文和發現論文,而是試圖選擇30篇左右值得注意的作品,這些作品可能會在未來的2-3年確立新的趨勢。
目錄
KG增強的語言模型:增強Transformer
自編碼器
自回歸
自然語言生成:Datasetlandia的新成員
實體鏈接:海量和多語言
關系提取:OpenIE6和神經提取器
KG表示學習:時間KGC和FB15K-237的繼承者
ConvAI+KGs:在OpenDialKG的肩上
** KG增強的LMs:增強Transformer **
我們在去年的EMNLP 2019年首次注意到結構化知識增強的LMs出現了繁榮。2019年和2020年出現了數十個使用維基百科或Wikidata實體進行豐富的模型(甚至在EMNLP2020上也有),但概念上的問題仍然存在。
如何度量知識編碼在LM中的參數?
第一次嘗試,比如LAMA基準測試,將問題定義為匹配從Wikidata中提取的事實的單標記塊樣式的空白,例如,iPhone是由_設計的(當然是蘋果)。LMs顯示了一些事實知識的概念,但坦率地說,不是很多,也不是很深。不過,LAMA是單令牌;2)只準講英語的。我們能否涵蓋更復雜的任務和多樣化的環境? 是的!為了與XTREME等多語言基準測試的近期成功相一致,Jiang等人研究了多語言模型是否展示了一些事實知識,并提出了X-FACTR,一種使用23種語言、帶有多標記空白(實際上多達5到10個標記)的closize風格問題的多語言基準測試,來測量它。作者探討了M-BERT、XLM和XLM- r與X-FACTR的關系。關鍵的發現為設計和訓練知識淵博的語言模型留下了很大的空間:多語言模型在高資源語言中只能達到15%的準確率,在低資源語言中只能達到5%左右 M-BERT似乎比更大的XLM和XLM- r包含更多的事實知識。多令牌預測比單令牌預測困難得多,因此您需要針對這類實體的重要解碼策略。幾乎沒有協議有效性在多種語言,也就是說,瑞士命名_ (EN)和НаименованиеШвейцариивосходитк_(俄文)產生完全不同的答案。在X-FACTR上看到最近的mT5(多語言T5)和mm-100的探測結果將是相當令人興奮的。
LMs中的實體表示
這次我們有四種新方法! 我把他們具體的訓練前目標用粗體字寫了出來。Yamada等人提出了LUKE(基于知識的嵌入語言理解),這是一個具有預訓練任務的transformer模型:傳銷商+預測文檔中的隱藏實體(見插圖)。在保持實體嵌入矩陣(500K不同實體)的基礎上,作者增加了實體感知自我關注,即根據計算的標記類型(word-entity, entity-entity, entity-word)增加了三個查詢矩陣。一個簡單的增強功能可以實現新的下游任務,并略微改進RoBERTa和最近的KG增強基線。
接下來,Fevry等人介紹了實體專家(EaE),這是一個12層的transformer,其中前四層正常工作,然后標記嵌入注釋提到查詢實體內存中的前100個實體,然后將匯總后的嵌入經過8個Transformer層。
另一方面,Shen等人使用的背景KG略有不同:在他們的GLM(圖引導的掩碼語言模型)中,圖提供了命名實體及其連通性模式(k-hops中的可達實體)的詞匯表。這一信息在兩個訓練前的任務中得到了利用:蒙面實體預測+在干擾因素存在的情況下實體排序,即負樣本。KG幫助掩蔽信息實體和選擇硬陰性樣本進行魯棒訓練。
最后,Poerner等人在他們的E-BERT中使用了Wikipedia2Vec。他們的想法是這樣的:vanilla BERT只訓練單詞的嵌入,而Wikipedia2Vec同時訓練單詞和實體的嵌入(270萬個實體)。因此,我們首先學習W,即BERT wordpieces和Wikipedia2Vec單詞之間的線性轉換,然后使用擬合的參數W投射Wikipedia2Vec實體。
自回歸KG增強的LMs
在本節中,LMs的生成過程受到小子圖等結構化知識的制約或豐富。Chen等人對KGPT(基于知識的預訓練)、數據到文本任務的生成模型和巨大的新數據集KGText做出了重大貢獻! 1作者提出了一種對各種數據到文本任務(如WebNLG、E2E NLG和WikiBio)進行編碼的通用格式,作為語言模型的統一輸入。2 KGPT有兩個編碼器:基于網絡的Graph Attention(對我來說有點復雜,只需要一個多關系的CompGCN就可以了)和帶有位置嵌入式輸入的伯特風格(請查看插圖)。本質上,您可以用指針將一個圖線性化為一個序列,其中的指針是實體、關系和完整三元組。解碼器是一個標準的類似gpt -2的復制機制。3 KGText是一個新的預訓練語料庫,其中從維基百科的EN句子與從Wikidata的子圖對齊,總共約1.8M(子圖,文本)對。作者確保每個子圖及其成對的句子描述了幾乎相同的事實。這確實是一個實質性的貢獻,因為以前的從圖形到文本的數據集相當小,并且包含了一個監督設置。
在這里,KGPT顯示了相當令人印象深刻的結果,在少數射擊和零射擊的情況下,在KGText的預訓練,使GPT-2遠遠落后。也就是說,在WebNLG (RDF to text task)上,僅5%的訓練數據就可以在少量射擊設置中獲得40+藍標得分,在完全零射擊設置中獲得20+藍標得分。我的看法:KGPT仍然缺乏顯式的實體(每個嵌入的實體都是其子詞單位的平均值),而且在編碼給定的子圖時,實體和文字之間沒有區別。對8個Titan RTX gpu進行8天的預訓練。
Ji等人采取了相反的方式,他們擴展了一個解碼器,使用圖推理模塊來保持GPT-2編碼器在他們的GRF(生成多跳推理流)中完好無損(見下)。在處理與常識相關的任務和像ATOMIC和ConceptNet這樣的KGs時,作者首先從輸入文本中提取一個k-hop子圖。文本通過GPT編碼器編碼,而KG子圖通過CompGCN(明智的選擇)編碼。推理模塊(本質上看起來像消息傳遞)通過子圖傳播信息,并在實體上創建softmax分布以選擇相關的實體。最后,復制門決定是放置該實體還是從詞匯表中選擇一個單詞。
在故事結尾生成、拐展NLG和解釋生成方面的實驗表明,在自動度量以及對生成文本的人類評估方面,優于各種GPT-2基線。
我們今天的舉重冠軍是由NVIDIA的Xu等人創建的MEGATRON-CTRL (8.3B參數)。通過控制生成,我們了解到調節LM生成器不僅要通過輸入上下文,還要使用一些關鍵字,這些關鍵字可以推動故事向某個方向發展。
這里,作者使用ConceptNet及其600K triples作為常識性KG和外部知識來源。
首先,關鍵字與三元組匹配,匹配的關鍵詞通過通用句子編碼器(USE)傳遞。另一方面,輸入上下文也通過使用傳遞。最后,選擇top-K個最大內積向量。對獵犬進行負采樣訓練。
解碼器是一個巨大的transformer (8.3億個參數),關鍵字生成器只有2.5億個參數。訓練只需160臺特斯拉v100。實驗表明,這樣的大模型確實能從背景知識中獲益,并且在AMT實驗中更容易被人們所青睞。
NLG(數據到文本):Datasetlandia的新成員
今年,我們看到了許多新的、大型的、設計良好的、復雜的任務/數據集,這些任務/數據集至少會在明年為NLG提供動力。
Cheng等人介紹了ENT-DESC,一個基于Wikidata的三到文本數據集,在其中,給定圍繞主實體的2跳子圖,任務是生成其文本描述。數據集在幾個方面優于WebNLG: 1 - desc要大得多:110K圖形-文本對,超過11M三組,大約700K不同的實體,1K不同的關系;2每個實體的三組比例更高,但不是所有的三組都對生成的文本有貢獻,也就是說,其中一些是干擾,模型應該足夠強大,以消除它們; 預期的描述比WebNLG的要長。
接下來,Chen等人提出了一個新的數據集Logic2Text,它挑戰了NLG系統從邏輯形式生成文本的能力。需要注意的是,它不僅是一個表到文本的任務,而且是一個更復雜的任務,包含7種邏輯類型,包括計數、比較、最高級、聚合、多數、唯一和序數。
在表格到文本的世界中,Parikh等人介紹了ToTTo,一個包含120K示例的大型數據集。任務是在給定表和幾個突出顯示的節點的情況下生成可信的文本。
實體鏈接:海量和多語言
在實體鏈接的世界里,谷歌和Facebook也加入了進來,他們通過提升TPUs和HPC集群來解決大量的多語言實體鏈接問題。
Botha, Shan和Gillick對100種語言的實體連接進行了研究。首先,為遠離只使用en的場景向您致敬:這是NLP社區的一項了不起的努力!像Wikidata這樣的大型KGs在設計語言上是不可知的,所以我們為什么不利用所有非en數據呢?(事實上,一些實體的標簽和描述甚至可能不存在)作者首先我684M提到約20M的巨大的數據集Wikidata實體在104種語言,和設計Mewsli-9,只一個輕量級的測試用例集的300 k提到82 k實體的9種語言評估實體連接性能。在模型方面,作者求助于雙編碼器,其中一個Transformer(通常是BERT)編碼提到,而第二個transformer編碼實體描述,計算余弦相似度作為最后的操作。使用mBERT檢查點初始化模型,在TPU v3上訓練幾天(TPUs運行brrr)。結果證明這個策略相當有效:在mewsli9上,最好的模型(以智能訓練增強為動力)達到micro-avg 90% Recall@1和98% Recall@10。另外,請查看下面的插圖,以獲得heldout集上特定于語言的數字。
與此略有不同的是,Wu等人將EN Wikipedia視為為零命中率設置而定制的新BLINK實體鏈接器中的背景知識庫和實體詞匯表。BLINK也采用了雙編碼器范例,但是這次所有的實體描述都是預先計算并存儲在FAISS索引中(那些是[CLS]嵌入)。上下文中提到的實體(需要事先注釋)通過另一個transformer傳遞,結果嵌入的提到通過FAISS在索引中檢索top-K最近鄰。最后,通過交叉編碼器transformer對top-K選項進行排序(非常有用)。實驗證明:1)基于fais的檢索速度快(~2ms/查詢)、準確(Recall@10 ">">">">">">">">">">">">">">">">">">">">">">>90%),明顯優于TF-IDF和BM-25;2)在零樣本的情況下,BLINK會把所有的基線都遠遠甩在后面!3)即使在一個CPU上推理也很快,所以你也可以將模型插入到你的應用程序中!
然而,BLINK確實需要注釋實體提及。這個問題由Li等人在他們的ELQ(問題實體鏈接)中的一篇同類論文解決了。事實上,ELQ駐留在相同的回購完全互補BLINK。 雖然架構類似于BLINK (bi-encoder + FAISS),但ELQ共同學習了提及檢測和消歧。也就是說,不需要輸入注釋! 此外,ELQ在實際應用中也表現出色:ELQ在QA數據集(如WebQSP和GraphQuestions)上優于TAGME和BLINK,同時也提高了在Natural Questions和TriviaQA等大型QA數據集上的準確性。
關系提取:OpenIE6和神經提取器
OpenIE是現代NLP應用程序的一個基石框架,它使用開放模式(沒有背景本體)從文本中提取三元組。各種各樣的CL論文都以這樣或那樣的方式使用OpenIE。Kolluru AtEMNLP 2020年,Adlakha等介紹OpenIE 6,下一個主要版本的IE方法。
什么新的? 首先,OpenIE 6幀的三重提取作為一個2-D (num_words x num_extraction)網格標注任務,使每次提取的每個單詞都可以屬于主語/謂詞/對象/無標簽。不過,細節才是真實的。提出了一種基于BERT的迭代網格標記系統,用于二維網格標記的實現。即幫助解決協調連詞(如圖IGL-CA),以及在三重提取過程中應用軟約束(CIGL-OIE)。軟約束使最終的損失函數增加了POS標簽的信號、頭部動詞的覆蓋和放大。排他性和提取計數附加在頭動詞上。實驗表明,在幾個基準測試中,OpenIE 6比OpenIE 5快10倍,性能有顯著且一致的提升(大約4個F1點)。你還可以用這4點來換取更快的速度,并獲得OpenIE 5級的性能,但是速度要快50倍。
此外,Hohenecker、Mtumbuka等人對OpenIE的神經結構進行了系統研究。
KG表示學習:時間KGC和FB15K-237的繼承者
在今年的EMNLP 2020上,我們有大約20篇(!)論文專門針對KG表示學習。其中有我們的論文《超相關知識圖譜的信息傳遞》,我不會在這里討論,因為我們在Medium上發表了一篇獨立的文章,涵蓋了所有的細節,所以我邀請你也來看看。
一定數量的工作被放入暫時的KGs中,也就是那些具有特定事實在特定時間范圍內有效的時間戳的KGs。例如,(奧巴馬,美國總統,2009,2017)。我們需要預測一個主體或一個客體,給出剩下的四組/五組。幾個著名的作品:
在這種設置中,Wu等人提出了TeMP(時態消息傳遞框架),其中結構GNN編碼器(R-GCN使用,但任何多關系的都可以使用,如CompGCN)與時態編碼器配對。 作者用時間編碼器進行了實驗:GRU和自我關注。也就是說,每一個時間步都用一個GNN編碼,它們的輸入被輸入到時間編碼器中。一個額外的控制機制考慮到在特定的時間范圍內發生實體的頻率(例如,在1900年1950年很少提到奧巴馬,但在2000年2020年更多)。最后的實體嵌入是計算澆注后,并被送入一個解碼器在這里它是復雜的,盡管我認為任何評分功能從KG嵌入家庭將工作。Jin等人在RE-NET中使用了類似的R-GCN + RNN方法(但處理時間分量時采用了不同的解碼器)。我們的結論是:多關系GNN可以有時間感知能力。
我們知道雙曲嵌入具有較小的嵌入尺寸(例如,32d或64d),并產生競爭性的結果。到目前為止,這些模型已經在經典的靜態KG完井設置中進行了探索。雙曲線+時間= ?
Han等人在DyERNIE中使用一些高級數學來建模KGs的時間方面。實體的時間相互作用被建模為在具有一定速度的流形上的運動。DyERNIE利用了不同曲率的黎曼流形的乘積,并定義了一個應用于四維(s, p, o, t)的新評分函數。實驗表明,20d/40d/100d維模型確實優于基線,學習速度確實捕獲了時間方面。但是,您可能會在附錄中發現,在標準數據集上訓練100d模型可能需要350小時。
最后,Jain, Rathi等人提出了一個有價值的方法論貢獻:大多數時間KG完成任務度量查詢(s, r, ?, t)或(?, r, o, t),而預測實際時間間隔(s, r, o, ?)仍未充分探索。此外,此任務的現有指標或低估或高估了系統性能。摘要提出了一種新的時間區間預測指標:親和力增強的并集交叉(aeIOU),其靈感來自于計算機視覺中常用的親和力增強交叉。
這個花哨的聯合符號是最小的船體(連續間隔),包含黃金和預測間隔。作者證明,aeIOU更好地抓住了任務的復雜性,并通過一個新的模型(TimePlex)展示了它的好處,這個新模型增加了具體時間的歸納偏差(例如,人出生的年份應該比人死亡的年份早)。總的來說,這篇論文結構良好,易于理解。
回到經典的鏈路預測,Safavi和Koutra深入研究了FB15K-237和其他KGE基準的缺陷,認為他們7年前的偏差和設計選擇在2021年并不適合該領域。
假設每年有大約50篇KG嵌入新論文,模型確實傾向于過度擬合數據集,因此,模型很難展示它們的表達能力,因為基準數據集不能從這種表達中獲益。沒有猛烈炮擊。相反,作者提出了法典、從Wikidata()和維基百科中提取的KG完成數據集。里面有:1個小/中/大的子圖; 2兩個任務:鏈路預測和三元組分類;用6種語言描述實體和類型,沒有一種語言能完全覆蓋所有實體;4 .眾包硬否定;5消除了測試泄漏源和大部分FB15K-237的偏差。我很高興看到法典在社區中獲得更多的吸引力!繼續偏差,Fisher等人研究了如何減輕KG嵌入模型學習的KGs中的偏差。例如,在Wikidata中,大多數鍵入為銀行家的人都是男性,但我們不希望性別影響所有Wikidata人的職業預測。強力解決方案的一個快速黑暗面可能是取消所有糟糕的三倍,但我們會發現沒有女性美國總統,因此模式的質量將受到損害。相反,作者提出了另一種方法(非常有用):本質上,創建一個可能存在偏差的關系的面具,并將KL損失分配給模型預測,以推動概率達到均衡。實驗表明,減少某些謂詞的偏差而不犧牲大量模型的預測能力確實是可能的。
更有趣的一項研究通過Albooyeh、高爾和齊米集中樣本外設置,也就是說,當在測試時間一個新的看不見的路節點到達作為一個主題或一個對象。有些人可能會稱之為設置感應,但不清楚為什么作者決定去樣本外。到目前為止,文獻中有兩種類型的任務,人們稱之為歸納:(1)一個帶有看不見的實體的三元組連接到看得見的經過訓練的圖(本文);(2)測試集包含一個全新的圖,我們需要預測這個未見圖中的鏈接(這是Teru等人最近發表的ICML 20論文)。盡管如此,在gnn的標準歸納任務中,節點通常具有一些特性,但在本文中,作者特別指出,這些特性是不可用的(簡單的節點度啟發式方法并不是很有用)。那么,我們如何推斷到達的未見實體的嵌入呢?提出了對所見實體的嵌入進行聚合的方法。關系,提出兩種策略:1簡單平均1-hop附近,和2解決最小二乘問題(與我們的逆矩陣珞O (n)時間)。作者還為該任務設計了WN18RR和FB15K-237子集,發現這兩種聚合策略都能夠處理該任務。我唯一沒有看到的是最小二乘選項的訓練時間。
ConvAI+KGs:在OpenDialKG的肩上 OpenDialKG是ACL 2019的亮點之一:一個大型會話數據集,具有豐富的底層KG和相當復雜的任務。基線模型留下了很多改進的空間,最后,在EMNLP 20,我們發現了在使用或受到OpenDialKG影響的基于kg的ConvAI系統中有相當大的進步。
我最喜歡的會議之一是Jung等人的作品,它將注意力流的概念應用于多跳穿越。他們的方法AttnIO模擬了流入和流出的流量。傳入流本質上是一個基于gnn的鄰域聚合(帶有關系類型的GAT),它在一個采樣的子圖上運行。對話上下文(和實體名稱)是通過ALBERT編碼的。流出流是由流出邊的注意力分數決定的。解碼器迭代T個步驟(分別得到T長的路徑)。從數量上看,實驗顯示了比原來的OpenDialKG基線有很大的性能提升,特別是在前1和前3的預測方面。定性地,案例研究表明,AttnIO產生可解釋的推理路徑,可被人類評估者理解。將工作規模擴大到像Wikidata這樣擁有100億個節點和1.1億個邊的大型KGs可能是一項令人興奮的努力,如果你有這個計劃,請給我寫信。
Madotto等人采用了一種不同的方式來合并KBs和KGs:正如我們在本文第一部分中所討論的,巨大的transformer LMs往往展示一些事實知識。為什么我們不把所有的知識放入LM params中呢?所提出的模型,KE (Knowledge Embedder),正是基于這一理念。我們的目標是生成所有可能的組合諾公斤事實的對話和條件任何LM全集。提出的策略如下:(1)使用SQL或Cypher查詢關系型DBs或KGs的內容。查詢然后轉換為對話模板(檢查)。(2)在模板中填充查詢的結果集。(3)我們將這些模板對話輸入LM,假設它會記住參數中的知識庫事實。將KE附加到GPT2中,并在多種ConvAI數據集(包括OpenDialKG)上對模型進行了探討。事實上,GPT2從KE模塊中獲益良多(在某些數據集上產生+ 20 F1點),并且與顯式的基于檢索的模型相當。一些缺點:原來的OpenDialKG圖太大,不能用當前的策略生成所有的對話模板,所以數字與AttnIO(例如)相差很遠,但留下了很大的空間,供以后改進。我還想提到幾篇論證在對話系統中使用KGs好處的論文:Yang等人在他們的GraphDialog中關注SMD和MultiWOZ數據集。他們將原來的表格數據轉換為KG并對圖進行了正確編碼,從而極大地提高了實體檢索F1得分!在醫學領域,Khosla等人開發了MedFilter,一個用于醫生和病人對話的系統。他們插入UMLS,一個巨大的醫學本體,作為話語編碼的一部分(連同話語信息)。MedFilter更好地提取和分類癥狀、抱怨和藥物。很高興看到有知識圖譜的對話系統的更多實際應用。