每天都有數以百萬計的新聞文章在網上發布,這對讀者來說是難以承受的。將報道同一事件的文章分組成新聞報道是幫助讀者進行新聞消費的一種常見方式。然而,如何高效、有效地為每一個故事生成一個有代表性的標題仍然是一個具有挑戰性的研究問題。文檔集自動摘要的研究已經有幾十年的歷史了,但是很少有研究關注于為一組文章生成具有代表性的標題。摘要的目的是用最少的冗余捕獲最多的信息,而標題的目的是短篇幅捕獲由story文章共同共享的信息,并排除對每一篇文章過于具體的信息。在這項工作中,我們研究的問題,產生具有代表性的新聞故事標題。我們開發了一種遠監督方法來訓練大規模的沒有任何人工標注的生成模型。這種方法集中在兩個技術組件上。首先,我們提出了一個多層次的預訓練框架,該框架融合了大量不同質量的未標記語料庫。我們證明,在這個框架內訓練的模型比那些使用純人類策展語料庫訓練的模型表現得更好。其次,我們提出了一種新的基于自投票的文章注意層來提取多篇文章共享的顯著信息。我們證明了該層模型對新聞中潛在的干擾具有較強的魯棒性,無論是否存在干擾,其性能都優于已有的基線。我們可以通過合并人類標簽來進一步增強我們的模型,我們展示了我們的遠監督方法,這大大減少了對標簽數據的需求。
知識圖譜補全(KGC)任務的目的是自動推斷知識圖譜(KG)中缺失的事實信息。在本文中,我們采用了一個新的視角,旨在利用豐富的用戶-項目交互數據(簡稱用戶交互數據)來改進KGC任務。我們的工作靈感來自于許多KG實體對應于應用程序系統中的在線項目的觀察。然而,這兩種數據源具有非常不同的內在特性,使用簡單的融合策略可能會影響原始的性能。
為了解決這一挑戰,我們提出了一種利用KGC任務的用戶交互數據的新穎的對抗性學習方法。我們的生成器是與用戶交互數據隔離的,用于提高鑒別器的性能。鑒別器將從用戶交互數據中學習到的有用信息作為輸入,逐步增強評價能力,以識別生成器生成的虛假樣本。為了發現用戶的隱式實體偏好,我們設計了一種基于圖神經網絡的協同學習算法,該算法將與鑒別器共同優化。這種方法可以有效地緩解KGC任務的數據異構性和語義復雜性問題。在三個真實數據集上的大量實驗證明了我們的方法在KGC任務上的有效性。
作者:Jiaming Shen, Zhihong Shen, Chenyan Xiong, Chi Wang, Kuansan Wang, Jiawei Han
摘要:本體結構(Taxonomies)由機器可解釋的語義組成,并為許多Web應用程序提供有價值的知識。例如,在線零售商(亞馬遜和eBay)使用本體結構進行產品推薦,而網絡搜索引擎(Google和Bing)利用本體結構來增強查詢理解。當前我們在人工或半自動地構建本體結構方面已經做出了巨大的努力。然而,隨著網絡內容數量的快速增長,現有的本體結構無法捕捉到新興的知識。因此,在許多應用程序中,十分需要對現有本體結構進行動態擴展。在本文中,我們研究了如何通過添加一組新的概念來擴展現有的本體結構。我們提出了一種新的自監督框架TaxoExpanTM,該框架從已有的本體結構中自動生成一組 ?query concept, anchor concept ? 對作為訓練數據。使用這樣的自監督數據,TaxoExpanTM學習一個模型來預測query concept是否是 anchor concept的直接下義詞。我們在TaxoExspan中提出了兩種創新技術:(1)位置增強型圖形神經網絡,它編碼現有本體結構中anchor concept的局部結構;2)噪聲魯棒性訓練目標,使學習的模型能夠對自監控數據中的標簽噪聲不敏感。在來自不同領域的三個大規模數據集上的廣泛實驗證明了TaxoExspan在分類系統擴展方面的有效性和高效性。
摘要 近年來,使用結構化數據建模的圖神經網絡(GNNs)取得了巨大的成功。然而,大多數的GNN都是針對同構圖設計的,在同構圖中,所有的節點和邊都屬于同一種類型,使得它們無法表示異構結構。在這篇論文中,我們提出了一種異構圖 Transformer(HGT)結構來對web級的異構圖進行建模。為了對異構性進行建模,我們設計了節點類型和邊類型的相關參數來描述每個邊上的異構注意力程度,從而使HGT能夠維護不同類型節點和邊的特定表示。為了處理動態異構圖,我們在HGT中引入了相對時間編碼技術,該技術能夠捕獲具有任意持續時間的動態結構依賴關系。針對網絡規模圖數據的處理問題,設計了高效、可擴展的小批量圖數據采樣算法HGSampling。在擁有1.79億個節點和20億個邊的開放學術圖上進行的大量實驗表明,所提出的HGT模型在各種下游任務上的性能始終比所有最先進的GNN基線高9-21%。
關鍵詞:圖神經網絡;異構信息網絡;表示學習;圖嵌入;圖注意力
介紹
異構圖通常對復雜的系統進行抽象和建模,其中不同類型的對象以各種方式相互交互。此類系統的一些常見實例包括學術圖、Facebook實體圖、LinkedIn經濟圖,以及廣泛的物聯網網絡。例如,圖1中的開放學術圖(OAG)[28]包含五種類型的節點:論文、作者、機構、場所(期刊、會議或預印本)和字段,以及它們之間不同類型的關系。
在過去的十年中,人們對異構圖[17]的挖掘進行了大量的研究。其中一個經典的范例就是定義和使用元路徑來對異類結構進行建模,例如PathSim[18]和變元ath2vec[3]。最近,鑒于圖神經網絡(GNNs)的成功[7,9,22],[14,23,26,27]嘗試采用GNNs來學習異構網絡。然而,這些工作面臨著幾個問題:首先,它們大多涉及到為每種類型的異構圖設計元路徑,這需要特定的領域知識;其次,它們要么簡單地假設不同類型的節點/邊共享相同的特征和表示空間,要么為節點類型或單獨的邊類型保留不同的非共享權值,使它們不足以捕獲異類圖的屬性;三是大多忽略了每一個(異構)圖的動態性;最后,它們固有的設計和實現使得它們無法對web規模的異構圖進行建模。
以OAG為例:首先,OAG中的節點和邊可能具有不同的特征分布,如論文具有文本特征,而機構可能具有來自附屬學者的特征,共同作者明顯不同于引文鏈接;OAG一直在不斷發展,例如:1)出版物的數量每12年翻一倍[4];2)KDD會議在1990年代更多地與數據庫相關,而近年來更多地與機器學習相關;最后,OAG包含數億個節點和數十億個關系,使得現有的異構GNN無法擴展來處理它。
針對這些限制和挑戰,我們建議研究異構圖神經網絡,其目標是維護節點和邊類型依賴表示、捕獲網絡動態、避免自定義元路徑和可擴展到web級圖。在這項工作中,我們提出了異構圖 Transformer(HGT)架構來處理所有這些問題。
為了處理圖的異構性,我們引入了節點類型和邊類型依賴注意力機制。HGT中的相互注意不是對每一個類型邊參數化,而是根據其元關系三元組e=(s,t),即 s為節點類型,s與t之間的e的邊類型,t的節點類型。圖1展示了異構學術圖的元關系。具體來說,我們使用這些元關系來對權重矩陣參數化,以計算每條邊上的注意力。因此,允許不同類型的節點和邊維護其特定的表示空間。同時,不同類型的連接節點仍然可以交互、傳遞和聚合消息,而不受其分布差異的限制。由于其架構的性質,HGT可以通過跨層傳遞消息來整合來自不同類型的高階鄰居的信息,這可以看作是軟元路徑。也就是說,即使HGT只將其單跳邊作為輸入,而不需要手動設計元路徑,所提出的注意力機制也可以自動、隱式地學習和提取對不同下游任務重要的元路徑。
為了處理圖數據的動態特性,我們提出了相對時間編碼(RTE)策略來增強HGT。我們不打算將輸入圖分割成不同的時間戳,而是建議將發生在不同時間的所有邊作為一個整體進行維護,并設計RTE策略來對任何持續時間長度的結構性時間依賴關系進行建模,甚至包括不可見的和未來的時間戳。通過端到端訓練,RTE使HGT能夠自動學習異構圖的時間依賴性和演化。
為了處理網絡規模的圖形數據,我們設計了第一個用于小批量GNN訓練的異構子圖采樣算法HGSampling。它的主要思想是樣本異構子圖中不同類型的節點與類似的比例,由于直接使用現有的(均勻)GNN抽樣方法,如GraphSage [7], FastGCN[1],和LADIES[29],結果在高度不平衡的關于節點和邊緣的類型。此外,它還被設計成保持采樣子圖的密度以最小化信息的丟失。通過HGSampling,所有的GNN模型,包括我們提出的HGT,都可以在任意大小的異構圖上進行訓練和推斷。
我們證明了所提出的異構圖Transformer在網絡規模開放學術圖上的有效性和效率,該開放學術圖由1.79億個節點和20億個邊組成,時間跨度從1900年到2019年,這是迄今為止在異構圖上進行的規模最大、跨度最長的表示學習。此外,我們還檢查領域特定的圖表:計算機科學和醫學學術圖表。實驗結果表明,與最先進的GNNs和專用的異構模型相比,在下游任務中HGT可以顯著提高9-21%。我們進一步進行了案例研究,表明了所提出的方法確實能夠自動捕獲不同任務的隱式元路徑的重要性。
摘要:文本蘊涵是自然語言處理的基本任務。大多數解決這個問題的方法只使用訓練數據中的文本內容。一些方法已經表明,來自外部知識來源(如知識圖譜)的信息除了文本內容之外,還可以通過提供對任務至關重要的背景知識來增加價值。然而,所提出的模型并沒有充分利用通常大而有噪聲的公斤中所包含的信息,而且也不清楚如何有效地編碼這些信息以使其對加密有用。我們提出了一種方法,通過(1)使用個性化的PageR- ank生成低噪聲的上下文子圖和(2)使用圖卷積網絡捕獲KG結構對這些子圖進行編碼,用KGs的信息來補充基于文本的嵌入模型。我們的技術擴展了文本模型挖掘知識結構和語義信息的能力。我們在多個文本蘊涵數據集上評估了我們的方法,并表明使用外部知識有助于提高預測準確性。這一點在極具挑戰性的BreakingNLI數據集中表現得尤為明顯,我們看到在多個基于文本的entailment模型上有5-20%的絕對改進。