這部分是關于學習節點嵌入的方法。這些方法的目標是將節點編碼為低維向量,這些低維向量總結了它們的圖位置和它們的局部圖鄰域的結構。換句話說,我們希望項目節點為一個潛在的空間,在這個潛在的空間幾何關系對應關系(例如,邊緣)在原來的圖或網絡(Ho?et al ., 2002)(圖3.1)。在本章中,我們將提供簡單和加權圖的節點嵌入方法的概述。
在本章中,我們將訪問圖神經網絡(GNNs)的一些理論基礎。GNNs最有趣的方面之一是,它們是根據不同的理論動機獨立開發的。一方面,基于圖信號處理理論開發了GNN,將歐氏卷積推廣到非歐氏圖域[Bruna et al., 2014]。然而,與此同時,神經信息傳遞方法(構成了大多數現代GNN的基礎)被類比提出,用于圖模型中的概率推理的信息傳遞算法[Dai等人,2016]。最后,基于GNN與weisfeler - lehman圖同構檢驗的聯系,許多研究對其進行了激發[Hamilton et al., 2017b]。
將三個不同的領域匯聚成一個單一的算法框架是值得注意的。也就是說,這三種理論動機中的每一種都有其自身的直覺和歷史,而人們所采用的視角可以對模型的發展產生實質性的影響。事實上,我們推遲對這些理論動機的描述直到引入GNN模型本身之后,這并非偶然。在這一章,我們的目標是介紹這些背后的關鍵思想不同理論的動機,這樣一個感興趣的讀者可以自由探索和組合這些直覺和動機,因為他們認為合適的。
題目: Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction
摘要: 知識圖譜(KGs)嵌入的是一個強大的工具,能夠預測KGs缺失的鏈接。現有的技術通常將KG表示一個三元組集合,每個三元組(h, r, t)通過關系r將兩個實體h和t聯系起來,并從這樣的三元組中學習實體/關系嵌入,同時保留這樣的結構。然而,這種三元組的表示過分簡化了存儲在KG中的數據的復雜性,尤其是超關系的事實,其中每個事實不僅包含基本三元組(h r t),還有相關的鍵-值對(k、v)。盡管最近有一些技術試圖通過將超關系事實轉換為n元表示來學習這些數據(即一組沒有三元組組的鍵值對)。由于它們不知道三元組結構,導致了次優模型,三元組結構是現代KGs的基本數據結構,保留了鏈接預測的基本信息。為了解決這個問題,我們提出了HINGE,一個超相關KG嵌入模型,它直接從KG學習超相關事實。HINGE不僅捕獲了在三元組中編碼的KG的主要結構信息,而且還捕獲了每個三元組及其相關鍵-值對之間的相關性。我們在KG預測任務大量的實驗顯示了優越性。特別是,HINGE不僅始終優于僅從三元組學習的KG嵌入方法,而且始終優于使用n元表示從超關系事實學習的方法。
題目: Knowledge Graph Embeddings and Explainable AI
摘要: 知識圖譜嵌入是一種廣泛采用的知識表示方法,它將實體和關系嵌入到向量空間中。在這一章中,我們通過解釋知識圖譜嵌入是什么,如何生成它們以及如何對它們進行評估,向讀者介紹知識圖譜嵌入的概念。我們總結了這一領域的最新研究成果,對向量空間中表示知識的方法進行了介紹。在知識表示方面,我們考慮了可解釋性問題,并討論了通過知識圖譜嵌入來解釋預測的模型和方法。
簡介: 今年AAAI 2020接收了1591篇論文,其中有140篇是與圖相關的。接下來將會介紹幾篇與圖和知識圖譜相關的幾篇論文。以下為內容大綱:
Hayashi等人在知識圖上建立了自然語言生成(NLG)任務的潛在關系語言模型(LRLM)。就是說,模型在每個時間步上要么從詞匯表中提取一個單詞,要么求助于已知關系。 最終的任務是在給定主題實體的情況下生成連貫且正確的文本。 LRLM利用基礎圖上的KG嵌入來獲取實體和關系表示,以及用于嵌入表面形式的Fasttext。 最后,要參數化流程,需要一個序列模型。作者嘗試使用LSTM和Transformer-XL來評估與使用Wikidata批注的Freebase和WikiText鏈接的WikiFacts上的LRLM。
Liu等人提出了K-BERT,它希望每個句子(如果可能)都用來自某些KG的命名實體和相關(謂詞,賓語)對進行注釋。 然后,將豐富的句子樹線性化為一個新的位置相似嵌入,并用可見性矩陣進行遮罩,該矩陣控制輸入的哪些部分在訓練過程中可以看到并得到關注。
Bouraoui等人進一步評估了BERT的關系知識,即在給定一對實體(例如,巴黎,法國)的情況下,它是否可以預測正確的關系。 作者指出,BERT在事實和常識性任務中通常是好的,而不是糟糕的非詞性任務,并且在形態任務中相當出色。
不同的KG具有自己的模型來建模其實體,以前,基于本體的對齊工具僅依靠此類映射來標識相似實體。 今天,我們有GNN只需少量培訓即可自動學習此類映射!
Sun等人提出了AliNet,這是一種基于端到端GNN的體系結構,能夠對多跳鄰域進行聚合以實現實體對齊。 由于架構異質性,由于相似的實體KG的鄰域不是同構的,因此任務變得更加復雜。 為了彌補這一點,作者建議關注節點的n跳環境以及具有特定損失函數的TransE樣式關系模式。
Xu等人研究了多語言KG(在這種情況下為DBpedia)中的對齊問題,其中基于GNN的方法可能陷入“多對一”的情況,并為給定的目標實體生成多個候選源實體。 作者研究了如何使他們的預測中的GNN編碼輸出更加確定。
AAAI’20標記并概述了兩個增長趨勢:神經符號計算與臨時性的KG越來越受到關注。
AAAI’20主持了“對話狀態跟蹤研討會”(DSTC8)。 該活動聚集了對話AI方面的專家,包括來自Google Assistant,Amazon Alexa和DeepPavlov的人員。在研討會上,多個專家都提出了對話AI的相關研究方法。
論文摘要:
圖無處不在,從引文和社交網絡到知識圖譜(KGs)。它們是最富表現力的數據結構之一,已被用于建模各種問題。知識圖譜是圖中事實的結構化表示,其中節點表示實體,邊表示實體之間的關系。最近的研究已經開發出幾種大型知識圖譜;例如DBpedia、YAGO、NELL和Freebase。然而,它們都是稀疏的,每個實體只有很少的事實。例如,每個實體只包含1.34個事實。在論文的第一部分,我們提出了緩解這一問題的三個解決方案:(1)KG規范化,即(2)關聯提取,它涉及到從非結構化文本中提取實體之間的語義關系的自動化過程;(3)鏈接預測,它包括基于KG中的已知事實推斷缺失的事實。KG的規范化,我們建議CESI(規范化使用嵌入和邊信息),一個新穎的方法執行規范化學習嵌入開放KG。KG嵌入的方法擴展了最新進展將相關NP和關系詞信息原則的方式。對于關系提取,我們提出了一種遠程監督神經關系提取方法,該方法利用KGs中的附加邊信息來改進關系提取。最后,對于鏈路預測,我們提出了擴展ConvE的InteractE,這是一種基于卷積神經網絡的鏈路預測方法,通過三個關鍵思想:特征置換、新穎的特征重塑和循環卷積來增加特征交互的次數。通過對多個數據集的大量實驗,驗證了所提方法的有效性。
傳統的神經網絡如卷積網絡和遞歸神經網絡在處理歐幾里得數據時受到限制。然而,在自然語言處理(NLP)中圖形是很突出的。最近,圖卷積網絡(Graph Convolutional Networks, GCNs)被提出來解決這一缺點,并成功地應用于多個問題。在論文的第二部分,我們利用GCNs來解決文檔時間戳問題,它是文檔檢索和摘要等任務的重要組成部分。
為此,我們提出利用GCNs聯合開發文檔語法和時態圖結構的NeuralDater,以獲得該問題的最新性能。提出了一種靈活的基于圖卷積的詞嵌入學習方法——SynGCN,該方法利用詞的依賴上下文而不是線性上下文來學習更有意義的詞嵌入。在論文的第三部分,我們討論了現有GCN模型的兩個局限性,即(1)標準的鄰域聚合方案對影響目標節點表示的節點數量沒有限制。這導致了中心節點的噪聲表示,中心節點在幾個躍點中幾乎覆蓋了整個圖。為了解決這個缺點,我們提出了ConfGCN(基于信任的GCN),它通過估計信任來確定聚合過程中一個節點對另一個節點的重要性,從而限制其影響鄰居。(2)現有的GCN模型大多局限于處理無向圖。然而,更一般和更普遍的一類圖是關系圖,其中每條邊都有與之關聯的標簽和方向。現有的處理此類圖的方法存在參數過多的問題,并且僅限于學習節點的表示。我們提出了一種新的圖卷積框架CompGCN,它將實體和關系共同嵌入到一個關系圖中。CompGCN是參數有效的,并且可以根據關系的數量進行擴展。它利用了來自KG嵌入技術的各種實體-關系組合操作,并在節點分類、鏈接預測和圖分類任務上取得了明顯的優勢結果。