題目: word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data
摘要:
圖形和關系結構的向量表示,無論是手工制作的特征向量還是學習表示,都使我們能夠將標準的數據分析和機器學習技術應用于這些結構。在機器學習和知識表示的文獻中,對生成這種嵌入的方法進行了廣泛的研究。然而,從理論的角度來看,向量嵌入的研究相對較少。在這篇論文中,我們從一個已經在實踐中使用的嵌入技術的調查開始,提出了兩個我們認為是理解向量嵌入基礎的中心的理論方法。我們總結了各種方法之間的聯系,并為未來的研究提出了方向。
回答大規模知識圖譜上的復雜邏輯查詢是一項基本而又具有挑戰性的任務。在本文中,我將概述如何使用向量空間嵌入在知識圖譜中執行邏輯推理。首先,我將討論預測一對實體之間關系的知識圖譜補全方法:通過捕獲與實體相鄰的關系類型來考慮每個實體的關系上下文,并通過一種新的基于邊的消息傳遞方案進行建模;考慮關系路徑捕獲兩個實體之間的所有路徑;通過一種可學習的注意力機制,自適應地整合關系上下文和關系路徑。其次,我們還將討論QUERY2BOX,這是一個基于嵌入的框架,用于推理使用and、or和存在操作符進行的大量且不完整的KGs中的任意查詢。
主題: Graph Neural Networks with Composite Kernels
摘要: 近年來,對圖結構化數據的學習引起了越來越多人的興趣。諸如圖卷積網絡(GCN)之類的框架已經證明了它們在各種任務中捕獲結構信息并獲得良好性能的能力。在這些框架中,節點聚合方案通常用于捕獲結構信息:節點的特征向量是通過聚集其相鄰節點的特征來遞歸計算的。但是,大多數聚合方案都將圖中的所有連接均等化,而忽略了節點特征的相似性。本文從內核權重的角度重新解釋了節點聚合,并提出了一個框架來考慮特征相似性。我們表明歸一化的鄰接矩陣等效于Kerin空間中基于鄰居的內核矩陣。然后,我們提出功能聚集作為基于原始鄰居的內核和可學習的內核的組成,以在特征空間中編碼特征相似性。我們進一步展示了如何將所提出的方法擴展到圖注意力網絡(GAT)。實驗結果表明,在一些實際應用中,我們提出的框架具有更好的性能。
題目: Knowledge Graph Embeddings and Explainable AI
摘要: 知識圖譜嵌入是一種廣泛采用的知識表示方法,它將實體和關系嵌入到向量空間中。在這一章中,我們通過解釋知識圖譜嵌入是什么,如何生成它們以及如何對它們進行評估,向讀者介紹知識圖譜嵌入的概念。我們總結了這一領域的最新研究成果,對向量空間中表示知識的方法進行了介紹。在知識表示方面,我們考慮了可解釋性問題,并討論了通過知識圖譜嵌入來解釋預測的模型和方法。
【導讀】嵌入向量( embedding)是一項廣受歡迎的技術,有著眾多應用。最近來自撰寫了《Embeddings in Natural Language Processing Theory and Advances in Vector Representation of Meaning》,共163頁pdf,該書首先解釋了傳統的詞向量空間模型和詞嵌入(如Word2Vec和GloVe),然后介紹了其他類型的嵌入,如語意、句子和文檔以及圖形嵌入。我們還概述了上下文化表示(如ELMo、BERT)的最新發展狀況,并解釋了它們在NLP中的潛力。值得關注。
自2010年代早期以來,嵌入一直是自然語言處理(NLP)的流行詞匯之一。將信息編碼為低維向量表示,在現代機器學習算法中很容易得到集成,這在NLP的發展中起到了核心作用。嵌入技術最初集中在單詞上,但很快注意力開始轉向其他形式:從圖形結構(如知識庫),轉向其他類型的文本內容(如句子和文檔)。
這本書提供了一個高層次NLP嵌入技術的綜述。該書首先解釋了傳統的詞向量空間模型和詞嵌入(如Word2Vec和GloVe),然后介紹了其他類型的嵌入,如語意、句子和文檔以及圖形嵌入。我們還概述了上下文化表示(如ELMo、BERT)的最新發展狀況,并解釋了它們在NLP中的潛力。
在第二章,我們提供了一些基本的NLP和機器學習應用于語言問題的背景知識。然后,簡要介紹了詞匯語義中常用的一些主要的知識資源。
第3章討論了單詞表示,從傳統的基于可數的模型的簡要概述開始,接著是最近的基于預測的和基于字符的嵌入。在同一章中,我們還描述了一些專門用于嵌入的技術,例如跨語言單詞嵌入,以及單詞表示的通用評估方法。
3.第4章討論了嵌入結構化知識資源的各種技術,特別是語義圖。我們將概述最近的主要方法對于圖的嵌入節點和邊,并總結其應用和評價。
在第5章中,我們重點討論了單詞的個別含義的表示,即:文字意義。討論了兩類意義表示(無監督的和基于知識的),然后討論了這類表示的評價技術。
第六章是關于上下文嵌入的最新分支。在本章中,我們首先解釋這種嵌入的必要性,然后描述主要的模型以及它們如何與語言模型相聯系。在同一章中,我們還介紹了解釋和分析上下文模型有效性的一些工作。
第7章超越了單詞的層次,描述了如何將句子和文檔編碼成向量表示。我們介紹了一些著名的監督和非監督技術,并討論了這些表示的應用和評估方法。
第8章解釋了最近討論的詞嵌入的一些倫理問題和固有偏見。本章還介紹了消除詞嵌入的一些建議。
最后,在第九章中,我們提出了結束語和開放式研究的挑戰。
題目: Group Representation Theory for Knowledge Graph Embedding
摘要: 最近,知識圖譜嵌入已經成為一種流行的建模和推斷缺失鏈接的方法。本文提出了一種知識圖譜嵌入的群論觀點,將以往的方法與不同的群作用聯系起來。此外,利用群表示理論中的Schur引理,我們證明了最新的嵌入方法RotatE具有從任意有限阿貝爾群建立關系的能力
作者簡介: Chen Cai,俄亥俄州立大學計算機科學與工程系博士。他的研究興趣在于圖表示學習和拓撲數據分析。
題目: Graph Embedding Techniques, Applications, and Performance: A Survey
摘要: 圖形,如社交網絡、單詞共現網絡和通信網絡,自然地出現在各種實際應用中。通過對它們的分析,可以深入了解社會結構、語言和不同的交流模式。已經提出了許多方法來進行分析。近年來,在向量空間中使用圖節點表示的方法受到了研究界的廣泛關注。在這項調查中,我們對文獻中提出的各種圖嵌入技術進行了全面和結構化的分析。我們首先介紹了嵌入任務及其面臨的挑戰,如可伸縮性、維度的選擇、要保留的特性以及可能的解決方案。然后,我們提出了基于因子分解法、隨機游動和深度學習的三類方法,并舉例說明了每類算法的代表性,分析了它們在不同任務中的性能。我們在一些常見的數據集上評估這些最新的方法,并將它們的性能進行比較。我們的分析最后提出了一些潛在的應用和未來的方向。
作者簡介: Palash Goyal,南加州大學計算機系博士。
Emilio Ferrara,南加州大學計算機科學系助理研究教授和應用數據科學副主任,南加州大學信息科學研究所機器智能和數據科學(MINDS)小組的研究組長和首席研究員。
題目: Graph Neural Networks: A Review of Methods and Applications
摘要: 許多學習任務都需要處理包含元素間豐富關系信息的圖形數據。建模物理系統、學習分子指紋、預測蛋白質界面和疾病分類需要一個模型從圖形輸入中學習。在文本、圖像等非結構化數據的學習等領域,對句子的依存樹、圖像的場景圖等提取的結構進行推理是一個重要的研究課題,同時也需要建立圖形推理模型。圖神經網絡(GNNs)是通過圖節點之間的信息傳遞來獲取圖的依賴性的連接模型。與標準神經網絡不同,圖神經網絡保留了一種狀態,這種狀態可以以任意深度表示來自其鄰域的信息。雖然原始GNNs已經被發現很難訓練到固定的點,但是最近在網絡結構、優化技術和并行計算方面的進展已經使它能夠成功地學習。近年來,基于圖形卷積網絡(GCN)、圖形注意網絡(GAT)、門控圖形神經網絡(GGNN)等圖形神經網絡變體的系統在上述許多任務上都表現出了突破性的性能。在這項調查中,我們提供了一個詳細的檢討現有的圖形神經網絡模型,系統分類的應用,并提出了四個開放的問題,為今后的研究。
作者簡介: Jie Zhou,CS的研究生,從事系統研究,主要研究計算機安全。他畢業于廈門大學,在羅切斯特大學獲得碩士學位及博士學位。
Zhiyuan Liu,清華大學計算機系NLP實驗室副教授。
教程題目:Neural Vector Representations beyond Words: Sentence and Document Embeddings
教程簡介:
雖然word2vec和GloVe生成的詞嵌入被廣泛認為是處理文本數據的一種簡單方法,但最近在改進產生更好嵌入的方法方面取得了重大進展。特別是人們可能希望歸納出神經向量不僅表示單個單詞,而且表示更長的語言單位,包括:多單詞短語、整個句子甚至完整的文檔。這些設置的算法可以利用大型語料庫,但也可以利用其他類型數據的監督,如文檔標簽、詞匯資源或自然語言推理數據集。句子嵌入是特別有趣的,因為它們可能需要適當地解釋整個相當相似的句子之間相當微妙的區別。此外,還開發了新的技術來開發多語言和跨語言設置的嵌入式。因此,本教程將概述最新的最先進的方法,這些方法超越了word2vec,并且更好地對更長的單元(例如句子和文檔)的語義進行建模,包括單語和跨語言的。本教程將首先簡單介紹word2vec,以及它與傳統分布語義方法之間的關系,因此不需要先驗知識。
組織者:
Gerard de Melo是羅格斯大學(Rutgers University)的助理教授,領導著一個研究NLP和人工智能的團隊。他已經發表了100多篇論文,在WWW、CIKM、ICGL和NAACL VSM研討會上獲得了最佳論文/演示獎。
論文摘要:
圖無處不在,從引文和社交網絡到知識圖譜(KGs)。它們是最富表現力的數據結構之一,已被用于建模各種問題。知識圖譜是圖中事實的結構化表示,其中節點表示實體,邊表示實體之間的關系。最近的研究已經開發出幾種大型知識圖譜;例如DBpedia、YAGO、NELL和Freebase。然而,它們都是稀疏的,每個實體只有很少的事實。例如,每個實體只包含1.34個事實。在論文的第一部分,我們提出了緩解這一問題的三個解決方案:(1)KG規范化,即(2)關聯提取,它涉及到從非結構化文本中提取實體之間的語義關系的自動化過程;(3)鏈接預測,它包括基于KG中的已知事實推斷缺失的事實。KG的規范化,我們建議CESI(規范化使用嵌入和邊信息),一個新穎的方法執行規范化學習嵌入開放KG。KG嵌入的方法擴展了最新進展將相關NP和關系詞信息原則的方式。對于關系提取,我們提出了一種遠程監督神經關系提取方法,該方法利用KGs中的附加邊信息來改進關系提取。最后,對于鏈路預測,我們提出了擴展ConvE的InteractE,這是一種基于卷積神經網絡的鏈路預測方法,通過三個關鍵思想:特征置換、新穎的特征重塑和循環卷積來增加特征交互的次數。通過對多個數據集的大量實驗,驗證了所提方法的有效性。
傳統的神經網絡如卷積網絡和遞歸神經網絡在處理歐幾里得數據時受到限制。然而,在自然語言處理(NLP)中圖形是很突出的。最近,圖卷積網絡(Graph Convolutional Networks, GCNs)被提出來解決這一缺點,并成功地應用于多個問題。在論文的第二部分,我們利用GCNs來解決文檔時間戳問題,它是文檔檢索和摘要等任務的重要組成部分。
為此,我們提出利用GCNs聯合開發文檔語法和時態圖結構的NeuralDater,以獲得該問題的最新性能。提出了一種靈活的基于圖卷積的詞嵌入學習方法——SynGCN,該方法利用詞的依賴上下文而不是線性上下文來學習更有意義的詞嵌入。在論文的第三部分,我們討論了現有GCN模型的兩個局限性,即(1)標準的鄰域聚合方案對影響目標節點表示的節點數量沒有限制。這導致了中心節點的噪聲表示,中心節點在幾個躍點中幾乎覆蓋了整個圖。為了解決這個缺點,我們提出了ConfGCN(基于信任的GCN),它通過估計信任來確定聚合過程中一個節點對另一個節點的重要性,從而限制其影響鄰居。(2)現有的GCN模型大多局限于處理無向圖。然而,更一般和更普遍的一類圖是關系圖,其中每條邊都有與之關聯的標簽和方向。現有的處理此類圖的方法存在參數過多的問題,并且僅限于學習節點的表示。我們提出了一種新的圖卷積框架CompGCN,它將實體和關系共同嵌入到一個關系圖中。CompGCN是參數有效的,并且可以根據關系的數量進行擴展。它利用了來自KG嵌入技術的各種實體-關系組合操作,并在節點分類、鏈接預測和圖分類任務上取得了明顯的優勢結果。