對于來自開源社會傳感器的多種類型并發事件及其相關參與者進行建模是許多領域(如醫療保健、救災和金融分析)的一項重要任務。預測未來的事件可以幫助人類分析師更好地理解全球社會動態,并做出快速而準確的決策。預期參與這些活動的參與者或參與者還可以幫助涉眾更好地響應意外事件。然而,由于以下幾個因素,實現這些目標是具有挑戰性的:(i)難以從大規模輸入中過濾出相關信息,(ii)輸入數據通常為高維非結構化和Non-IID(非獨立同分布),(iii)相關的文本特征是動態的,隨時間而變化。最近,圖神經網絡在學習復雜和關系數據方面表現出了優勢。本文研究了一種基于異構數據融合的時間圖學習方法,用于預測多類型并發事件并同時推斷多個候選參與者。為了從歷史數據中獲取時間信息,我們提出了一種基于事件知識圖的圖學習框架Glean,它結合了關系和單詞上下文。我們提出了一個上下文感知的嵌入融合模塊來豐富事件參與者的隱藏特性。我們在多個真實數據集上進行了廣泛的實驗,結果表明,所提出的方法在社會事件預測方面與各種先進的方法相比具有競爭力,而且還提供了急需的解釋能力。
論文專欄:KDD 2020 知識圖譜相關論文分享
論文解讀者:北郵 GAMMA Lab 博士生 閆博
題目:利用多信號輸入推斷知識圖譜中節點的重要性 會議: KDD 2020 論文地址://dl.acm.org/doi/10.1145/3394486.3403093 推薦理由:這篇論文是作者在KDD19上利用單一輸入信號進行節點重要性推斷論文的后續研究,擴展成了多輸入信號。利用迭代的方式對輸入的不同類信號進行聚類,從而解決不同信號的沖突問題。實驗表明,多種信號比相比單一信號,能更準確地推斷出節點的重要性,對輸入信號進行迭代聚類的方式有效解決了信號沖突問題。 節點重要性估計是知識圖譜中一項重要的任務,它可以被下游許多任務利用,如推薦系統,搜索和查詢消歧,節點資源分配等。在現實生活中,除了知識圖譜本身的信息,還有許多外界的輸入信息(輸入信號),這些輸入信號對節點的重要性評估也至關重要。此任務的關鍵是如何有效利用來自不同來源的輸入信號。這些外部輸入信號,例如票數或瀏覽量,可以直接告訴我們知識圖譜中實體的重要性。現有方法無法同時考慮多個信號,所以它們對這些外部信號的使用受到一定限制,造成了外部信號的利用率低下。本文設計了一個端到端的隱變量模型MultiImport,從多個稀疏,可能重疊的輸入信號中推斷潛在節點的重要性。它捕獲節點重要性和輸入信號之間的關系,并有效地處理了多個信號的潛在沖突問題。在多個知識圖譜上的實驗表明,MultiImport在利用多個輸入信號推斷節點重要性的任務中優于現有方法,并且與最先進的方法相比,NDCG@100提高了23.7% 。
題目: 魯棒的跨語言知識圖譜實體對齊
會議: KDD 2020
論文地址: //dl.acm.org/doi/pdf/10.1145/3394486.3403268
代碼地址:
推薦理由: 這篇論文首次提出了跨語言實體對齊中的噪音問題,并提出了一種基于迭代訓練的除噪算法,從而進行魯棒的跨語言知識圖譜實體對齊。本工作對后續跨語言實體對齊的去噪研究具有重要的開創性意義。
跨語言實體對齊旨在將不同知識圖譜中語義相似的實體進行關聯,它是知識融合和知識圖譜連接必不可少的研究問題,現有方法只在有干凈標簽數據的前提下,采用有監督或半監督的機器學習方法進行了研究。但是,來自人類注釋的標簽通常包含錯誤,這可能在很大程度上影響對齊的效果。因此,本文旨在探索魯棒的實體對齊問題,提出的REA模型由兩個部分組成:噪聲檢測和基于噪聲感知的實體對齊。噪聲檢測是根據對抗訓練原理設計的,基于噪聲感知的實體對齊利用圖神經網絡對知識圖譜進行建模。兩個部分迭代進行訓練,從而讓模型去利用干凈的實體對來進行節點的表示學習。在現實世界的幾個數據集上的實驗結果證明了提出的方法的有效性,并且在涉及噪聲的情況下,此模型始終優于最新方法,并且在準確度方面有顯著提高。
1 引言 現有方法在進行跨語言實體對齊時沒有考慮噪音問題,而這些噪音可能會損害模型的效果。如圖1所示,(a)中的兩個不同語言的知識圖譜存在實體對噪音(虛線表示的實體對1-4),(b)是理想狀況下節點在特征空間中的表示,可以看出不同語言知識圖譜中具有相似語義的實體在特征空間中也相近。(c)是利用含有噪音的訓練數據得到的節點特征表示,由于噪音的存在,節點的表示存在了一定的偏差。我們希望跨語言實體對齊是魯棒性的,即使訓練數據中存在噪音,模型也能盡量減少噪音的消極影響,得到如圖(b)中的表示。為了克服現有的跨語言實體對齊方法在處理帶噪標簽實體對時存在的局限性,本文探討了如何將噪聲檢測與實體對齊模型結合起來,以及如何共同訓練它們以對齊不同語言知識圖譜中的實體。
領域適應(DA)提供了重用數據和模型用于新問題領域的有價值的方法。然而,對于具有不同數據可用性的時間序列數據,還沒有考慮到健壯的技術。在本文中,我們做出了三個主要貢獻來填補這一空白。我們提出了一種新的時間序列數據卷積深度域自適應模型(CoDATS),該模型在現實傳感器數據基準上顯著提高了最先進的DA策略的準確性和訓練時間。通過利用來自多個源域的數據,我們增加了CoDATS的有用性,從而進一步提高了與以前的單源方法相比的準確性,特別是在域之間具有高度可變性的復雜時間序列數據集上。其次,我們提出了一種新的弱監督域自適應(DA-WS)方法,利用目標域標簽分布形式的弱監督,這可能比其他數據標簽更容易收集。第三,我們對不同的真實數據集進行了綜合實驗,以評估我們的域適應和弱監督方法的有效性。結果表明,用于單源DA的CoDATS比最先進的方法有了顯著的改進,并且我們使用來自多個源域和弱監督信號的數據實現了額外的準確性改進。
題目: Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs
摘要: 近年來隨著知識圖譜(KGs)的大量涌現,加上實體間缺失關系(鏈接)的不完全或部分信息,催生了大量關于知識庫補全(也稱為關系預測)的研究。最近的一些研究表明,基于卷積神經網絡(CNN)的模型能夠生成更豐富、更有表現力的特征嵌入,因此在關系預測方面也有很好的表現。然而,我們觀察到這些KG嵌入獨立地處理三元組,因此不能捕獲到三元組周圍的復雜和隱藏的信息。為此,本文提出了一種新的基于注意的特征嵌入方法,該方法能同時捕獲任意給定實體鄰域內的實體特征和關系特征。此外,我們還在模型中封裝了關系集群和多跳關系。我們的實驗研究為我們基于注意力的模型的有效性提供了深入的見解,并且與所有數據集上的最先進的方法相比,有顯著的性能提升。