基于圖表示的多元關系鏈接預測
Link Prediction on N-ary Relational Facts: A Graph-based Approach
論文鏈接: //www.zhuanzhi.ai/paper/419d53c9425c9b3061acb446861be7c7
知識圖譜上的鏈接預測是典型的知識推理任務,近年來受到了學術界和工業界的廣泛關注。現有的鏈接預測算法大多針對知識圖譜中的二元關系而設計,無法處理其中普遍存在的多元關系。為此,本文創新性地提出了一種基于異構圖表示的多元關系學習算法(GRAN),能夠針對知識圖譜中的多元關系進行有效的鏈接預測。GRAN首先將多元關系陳述表示為異構圖,同時利用拓撲結構感知的自注意力機制對異構圖進行建模,實現多元關系的學習與推理。實驗表明,GRAN能夠保留多元關系陳述的完整語義,同時有效建模其元素間的豐富交互以增強模型的推理能力,在眾多多元關系鏈接預測標準數據集上全面大幅超越現有方法。
圖神經網絡的表達能力有限,不能正確地表示許多圖類。雖然表達性更強的圖表示學習(GRL)替代品可以區分其中一些類,但它們非常難以實現,可能可擴展性不好,而且在現實任務中也沒有顯示出比調優的GNN更好的性能。因此,設計簡單、可擴展和表達的GRL架構,同時實現真實世界的改進,仍然是一個開放的挑戰。在這項工作中,我們展示了圖重構——從圖的子圖重構圖——能夠減輕GRL體系結構目前面臨的理論和實踐問題的程度。首先,我們利用圖重構來構建兩個新的表達圖表示類。其次,我們展示了圖重構如何提高任何GNN架構的表達能力,同時作為一個(可證明的)強大的對頂點移除的不變性的歸納偏差。通過解決7個原始GNN無法解決的圖屬性任務,我們展示了重構如何提高GNN的表達能力,同時保持其對頂點排列的不變性。此外,我們演示了它如何提高最先進的GNN的性能跨越九個真實世界的基準數據集。
基于外部因果陳述自監督表示學習的事件因果關系識別
Improving Event Causality Identification via Self-Supervised Representation Learning on External Causal Statement
論文鏈接: //www.zhuanzhi.ai/paper/f2d21791440eef4f7550cb9045d0101d
利用外部大量的因果陳述,提升模型對因果關系語義的理解能力,這些因果陳述可以提供充足的上下文相關因果模式,有助于理解文本中事件的因果關系。然而,與ECI任務的標注數據不同,外部因果陳述中沒有標注事件,模型很難直接從中學習上下文相關的因果模式幫助識別事件因果關系。為了解決這個問題,我們設計了一個基于自監督表示學習的事件因果關系識別模型 (Self-Supervised Representation Learning on External Causal Statement, CauSeRL),從外部因果陳述中學習強化的因果表示。具體來說,從外部因果陳述中迭代抽樣兩個實例,分別以其中一個因果陳述為目標,學習它們之間的共性。直覺上,通過自監督學習到的不同因果陳述間的共性反映了文本中上下文相關的因果模式,有助于在未見的實例中識別事件的因果關系。
在基準數據集上的實驗結果表明,該方法可以有效增強事件因果關系的表示、提升事件因果關系識別的性能,證明了我們的方法對于ECI任務的有效性。
由于現實世界中的對象及其交互往往是多模態和多類型的,異質網絡已經成為現實作為傳統同構網絡(圖)的一個更強大、更真實、更通用的超類而廣泛使用。與此同時, 表示學習(又稱嵌入)最近不僅有了新的深入的研究,而且在各種網絡挖掘和分析任務中顯示出了其有效性。在這項研究中,我們旨在提供一個統一的框架,來對現有的研究異質網絡嵌入(HNE)進行深入總結和評價,同時包括但不限于一般的綜述。既然HNE算法已經有了廣泛的基礎,關于這項研究的第一個貢獻就是,我們為系統分類提供了一個通用范式,以此來分析現有HNE算法的優點。此外,盡管大多數人聲稱現有的HNE算法是通用的,但實際上大多時候它只會在不同的數據集上進行評估。可以理解的是,由于HNE的應用優勢,這種間接的比較很大程度上阻礙了適當地將任務性能的提高歸因于有效的數據預處理和新穎的技術設計,尤其是考慮到從真實應用數據構建異質網絡的各種可能方法。因此,作為這項研究中的第二貢獻是,我們創建了四個基準數據集,它們具有關于規模、結構、屬性/標簽可用性等,以便于更加公平地評估HNE算法。此外,在這項研究工作中的第三個貢獻是,我們認真地對13種常用HNE算法的實現方式進行了改進和重構,同時還為它們創建了友好的接口,并對其進行了全面的比較通過多項任務和實驗設置。通過將現有的HNE算法置于統一的框架下,我們的目標是提供一個通用的參考和指導來了解和發展HNE算法。同時,通過開放所有的數據和代碼,我們設想能提供一個可用的基準平臺來測試和比較現有和未來HNE算法的性能,從而服務于社區。
知識圖譜(KG)是一種靈活的結構,能夠描述數據實體之間的復雜關系。目前,大多數KG嵌入模型都是基于負采樣進行訓練的,即模型的目標是最大限度地增加KG內被連接實體的某些相似度,同時最小化被采樣的斷開實體的相似度。負抽樣通過只考慮負實例的子集,降低了模型學習的時間復雜度,這可能會由于抽樣過程的不確定性而無法提供穩定的模型性能。為了避免這一缺陷,我們提出了一種新的KG嵌入高效非采樣知識圖譜嵌入框架(NS-KGE)。其基本思想是在模型學習中考慮KG中的所有負面實例,從而避免負面抽樣。框架可應用于基于平方損失的知識圖譜嵌入模型或其損失可轉換為平方損失的模型。這種非抽樣策略的一個自然副作用是增加了模型學習的計算復雜度。為了解決這一問題,我們利用數學推導來降低非采樣損失函數的復雜度,最終為我們提供了比現有模型更好的KG嵌入效率和精度。在基準數據集上的實驗表明,NS-KGE框架在效率和準確率方面均優于傳統的基于負采樣的模型,該框架適用于大規模知識圖譜嵌入模型。
序列推薦(SR)是根據用戶當前訪問的物品向其準確推薦物品列表。當新用戶不斷地進入現實世界時,一個關鍵的任務是要有歸納SR,它可以在不需要再訓練的情況下產生用戶和物品的嵌入。鑒于用戶-項目交互可能非常稀疏,另一個關鍵任務是擁有可遷移的SR,它可以將從一個具有豐富數據的領域派生的知識遷移到另一個領域。在這項工作中,我們的目標是呈現整體SR,同時適應傳統、歸納和可遷移的設置。我們提出了一種新的基于深度學習的模型——關系時間注意力圖神經網絡(RetaGNN),用于整體SR。首先,為了具有歸納和可遷移的能力,我們在從用戶-物品對中提取的局部子圖上訓練一個關注關系的GNN,其中可學習權矩陣是關于用戶、物品和屬性之間的各種關系,而不是節點或邊。第二,長期和短期用戶偏好的時間模式被提出的序列自注意機制編碼。第三,為了更好地訓練RetaGNN,設計了一個關系感知的正則化項。在MovieLens、Instagram和Book-Crossing數據集上進行的實驗表明,RetaGNN可以在常規、歸納和可遷移的設置下優于最先進的方法。推導出的注意力權重也為模型帶來了可解釋性。
摘要
知識圖譜(KGs)在工業和學術領域有很多應用,這反過來又推動了朝著大規模地從各種來源提取信息大量的研究工作。盡管付出了這些努力,但眾所周知,即使是最先進的KGs也是不完整的。鏈路預測(Link Prediction, LP)是一種根據KG中已存在的實體去預測缺失事實的任務,是一種有前途的、廣泛研究的、旨在解決KG的不完整的任務。在最近的LP技術中,基于KG嵌入的LP技術在一些基準測試中取得了很好的性能。盡管這方面的文獻在迅速增加,但對這些方法中各種設計選擇的影響卻沒有引起足夠的注意。此外,這一領域的標準做法是通過測試大量的事實來報告準確性,其中一些實體被過度表示;這允許LP方法通過只修改包含這些實體的結構屬性來展示良好的性能,而忽略KG的主要部分。本篇綜述分析提供了基于嵌入的LP方法的全面比較,將分析的維度擴展到常見的文獻范圍之外。我們通過實驗比較了16種最先進的方法的有效性和效率,考慮了一個基于規則的基準,并報告了文獻中最流行的基準的詳細分析。
介紹
知識圖譜(KGs)是真實世界信息的結構化表示。在一個KG中,節點表示實體,例如人和地點;標簽是連接它們的關系類型;邊是用關系連接兩個實體的特定事實。由于KGs能夠以機器可讀的方式對結構化、復雜的數據進行建模,因此它被廣泛應用于各個領域,從問答到信息檢索和基于內容的推薦系統,并且對于任何語義web項目都非常重要。常見的KG有FreeBase、WikiData、DBPedia、Yago和行業KG有谷歌KG、Satori和Facebook Graph Search。這些巨大的KG可以包含數百萬個實體和數十億個事實。
盡管有這樣的努力,但眾所周知,即使是最先進的KGs也存在不完整性問題。例如,據觀察FreeBase是用于研究目的的最大和最廣泛使用的KGs之一,但是在FreeBase中超過70%的個體沒有出生地點,超過99%的個體沒有民族。這使得研究人員提出了各種各樣的技術來糾正錯誤,并將缺失的事實添加到KGs中,通常稱為知識圖譜補全或知識圖譜增強任務。可以通過從外部源(如Web語料庫)提取新的事實,或者從KG中已經存在的事實推斷缺失的事實,來增長現有的KG。后來的方法,稱為鏈接預測(LP),是我們分析的重點。
LP一直是一個日益活躍的研究領域,最近受益于機器學習和深度學習技術的爆炸式增長。目前絕大多數LP模型使用原始的KG元素來學習低維表示,稱為知識圖譜嵌入,然后利用它們來推斷新的事實。在短短幾年的時間里,研究人員受到RESCAL和TransE等一些開創性工作的啟發,開發了幾十種基于不同的架構的新模型。這一領域的絕大多數論文都有一個共同點,但也存在問題,那就是它們報告的結果匯總在大量的測試事實之上,其中很少有實體被過度表示。因此,LP方法可以在這些基準上表現出良好的性能,只對這些實體進行訪問,而忽略其他實體。此外,當前最佳實踐的局限性可能使人們難以理解這一文獻中的論文是如何結合在一起的,以及如何描述出值得追求的研究方向。除此之外,目前技術的優點、缺點和局限性仍然是未知的,也就是說,幾乎沒有研究過允許模型更好地執行的情況。粗略地說,我們仍然不知道是什么可以讓一個事實變得容易還是難以學習和預測。
為了緩解上述問題,我們對一組有代表性的基于KG嵌入的LP模型進行了廣泛的比較分析。我們優先考慮最先進的系統,并考慮屬于廣泛的體系結構的工作。我們從零開始對這些系統進行訓練和調整,并通過提出新的、信息豐富的評估實踐,提供超出原始論文的實驗結果。具體是:
我們考慮了16個模型,屬于不同的機器學習和深度學習架構;我們還采用了一個基于規則挖掘的附加的最先進的LP模型作為基線。我們提供了實驗比較考慮的方法的詳細描述和相關文獻的總結,以及知識圖譜嵌入技術的教育分類。 我們考慮了5個最常用的數據集,以及目前用于基準測試的最流行的指標;我們詳細分析了它們的特點和特性。 對于每個模型,我們為每個數據集提供了效率和有效性的定量結果。 我們在訓練數據中提出一組結構特征,并測量它們如何影響每個模型對每個測試事實的預測性能。
方法概述
在本節中,我們描述并討論了基于潛在特征的知識管理的主要方法。正如在第2節中所描述的,LP模型可以利用各種各樣的方法和架構,這取決于它們如何對優化問題進行建模,以及它們實現來處理優化問題的技術。
為了概述它們高度不同的特征,我們提出了一種新的分類法,如圖1所示。我們列出了三個主要的系列模型,并進一步將它們劃分為更小的組,以獨特的顏色標識。對于每個組,我們都包括最有效的代表性模型,優先考慮那些達到最先進性能的模型,并且在任何可能的情況下,優先考慮那些具有公開可用實現的模型。結果是一組16個模型,基于極其多樣化的架構;這些是我們隨后在比較分析的實驗部分所使用的模型。對于每個模型,我們還報告了發表的年份以及從其他模型得到的信息。我們認為,這種分類有助于理解這些模型和在我們的工作中進行的實驗。表1報告了關于所包括的模型的進一步信息,例如它們的損失函數和空間復雜性。我們確定了三大類模型:1)張量分解模型;2)幾何模型;3)深度學習模型。
張量分解模型
這個家族的模型將LP解釋為一個張量分解的任務。這些模型隱式地將KG考慮為一個三維鄰接矩陣(即一個3維張量),由于KG的不完整性,這個鄰接矩陣只有部分可觀測。張量被分解成低維向量的組合(比如一個多線性乘積):這些向量被用作實體和關系的嵌入表示。張量分解的核心思想是,只要訓練集訓練不過擬合,則學習到的嵌入應該能夠泛化,并將高值與圖鄰接矩陣中不可觀測的真實事實相關聯。在實踐中,每個事實的得分都是通過對事實中涉及的特定嵌入進行組合計算得出的;通過優化所有訓練事實的評分函數,可以像往常一樣進行學習嵌入。這些模型傾向于使用很少或根本沒有共享參數;這使得它們特別容易訓練。
幾何模型
幾何模型將關系解釋為潛在空間的幾何變換。對于給定的事實,頭實體嵌入進行空間轉換τ,使用嵌入的關系作為參數的值。對事實評分的值是結果向量和尾向量之間的距離;這樣則可以使用距離函數計算δ(例如L1和L2范數)。
?
深度學習模型
深度學習模型使用深度神經網絡來執行LP任務。神經網絡學習參數,如權重和偏差,它們結合輸入數據,以識別顯著模式。深度神經網絡通常將參數組織成獨立的層,通常穿插非線性激活函數。
隨著時間的推移,人們開發了許多不同類型的層,對輸入數據應用不同的操作。例如,全連接層將把輸入數據X與權重W結合起來,并添加一個偏差B: W X + B。為了簡單起見,在下面的公式中我們將不提及偏差的使用,使其保持隱式。更高級的層執行更復雜的操作,如卷積層(它學習卷積內核以應用于輸入數據)或遞歸層(以遞歸方式處理順序輸入)。
在LP任務中,通常結合各層的權重和偏差來學習KG嵌入;這些共享的參數使這些模型更有表現力,但可能導致參數更多,更難訓練,更容易過擬合。