近年來,圖神經網絡在文獻分類中得到了廣泛的應用。然而,現有的方法大多是基于沒有句子級信息的靜態詞同現圖,這帶來了三個挑戰:(1)詞的歧義性(2)詞的同義性(3)動態上下文依存。為了解決這些問題,我們提出了一種新的基于GNN的稀疏結構學習模型用于文檔分類。具體地說,文檔級圖最初是由句子級詞同現圖的斷開并集生成的。模型收集了一組可訓練的連接句子間不相連詞的邊,利用結構學習對動態上下文依賴的邊進行稀疏選取。具有稀疏結構的圖可以通過GNN聯合利用文檔中的局部和全局上下文信息。在歸納學習中,將改進后的文檔圖進一步輸入到一個通用的讀出函數中,以端到端方式進行圖級分類和優化。在幾個真實世界數據集上的大量實驗表明,提出的模型優于最先進的結果,并揭示了學習每個文檔稀疏結構的必要性。
許多成熟的異常檢測方法使用的是樣本到其局部鄰居的距離:所謂的“局部離群值方法”,如LOF和DBSCAN。它們因其簡單的原則和在許多實際應用中常見的非結構化、基于特征的數據上的強大性能而受到歡迎。然而,由于缺乏可訓練的參數,它們無法學會適應一組特定的數據。在本文中,我們首先通過展示局部離群值方法是圖神經網絡中使用的更一般的消息傳遞框架的特殊情況來統一它們。這允許我們以神經網絡的形式將可學習性引入局部離群值方法,以獲得更大的靈活性和表現力: 具體來說,我們提出了一種新的基于圖神經網絡的異常檢測方法LUNAR。LUNAR學會使用每個節點最近鄰居的信息,以一種可訓練的方式來發現異常。我們表明,我們的方法比現有的局部離群值方法和最先進的深基線方法表現得更好。
圖神經網絡(GNN)已經在廣泛的應用領域取得了良好的效果。大多數對GNN的實證研究都直接將觀察到的圖作為輸入,假設觀察到的結構完美地描述了節點之間準確完整的關系。然而,現實世界中的圖不可避免地是嘈雜的或不完整的,這甚至會惡化圖表示的質量。本文從信息論的角度提出了一種新的變分信息瓶頸引導的圖結構學習框架VIB-GSL。VIB-GSL提出了圖結構學習的信息瓶頸(Information Bottleneck, IB)原則,為挖掘底層任務相關關系提供了一個更優雅和通用的框架。VIB-GSL學習了一種信息豐富的壓縮圖結構,為特定的下游任務提取可操作的信息。VIB-GSL對不規則圖數據進行變分逼近,形成易處理的IB目標函數,有利于訓練的穩定性。大量的實驗結果表明,VIB-GSL具有良好的有效性和魯棒性。
圖神經網絡(GNN)已被用于解決少樣本學習(FSL)問題,并顯示出在換能器設置下的巨大潛力。但在歸納設置下,現有的基于GNN的方法競爭力較弱。這是因為他們使用一個實例GNN作為標簽傳播/分類模塊,該模塊與一個特征嵌入網絡共同進行元學習。這種設計是有問題的,因為分類器需要快速適應新的任務,而嵌入不需要。為了解決這一問題,本文提出了一種新的混合GNN (HGNN)模型,該模型由兩個GNN、一個實例GNN和一個原型GNN組成。它們代替標簽傳播,作為嵌入特征的適應模塊,使元學習的特征嵌入快速適應新任務。重要的是,它們的設計是為了處理FSL中一個基本但經常被忽視的挑戰,即每個類中只有少量的樣本,任何少量樣本分類器都將對糟糕的采樣樣本敏感,這些樣本要么是異常值,要么會導致類間分布重疊。我們的兩個GNN分別針對這兩種差采樣的少樣本進行設計,并在混合GNN模型中利用它們的互補性。大量實驗表明,我們的HGNN在三個FSL基準測試中取得了新的先進水平。
摘要
在過去十年左右的時間里,我們見證了深度學習讓機器學習領域重新煥發活力。它以最先進的性能解決了計算機視覺、語音識別、自然語言處理等領域的許多問題。這些領域的數據一般用歐幾里得空間表示。其他許多領域都符合非歐幾里得空間,圖是其中的理想表示。圖適用于表示各種實體之間的依賴關系和相互關系。傳統上,手工制作的圖特性無法從復雜的數據表示中為各種任務提供必要的推斷。最近,出現了利用深度學習的各種進展來繪制基于數據的任務。本文提供了圖神經網絡(GNN)在每種學習設置中的全面綜述: 監督學習、無監督學習、半監督學習和自監督學習。每個基于圖的學習設置的分類提供了屬于給定學習設置的方法的邏輯劃分。從理論和實證兩方面分析了每個學習任務的方法。此外,我們還提供了構建GNN的一般架構指導方針。還提供了各種應用程序和基準數據集,以及仍然困擾著GNN的普遍適用性的開放挑戰。
//www.zhuanzhi.ai/paper/4014c909fcaa7d7c7c7d292b6a7febbb
引言
圖是定義一組節點及其關系的數據結構。從社交網絡[141]到物理互動[209],我們無處不在地觀察它們。圖表還可以用來表示不可思議的結構,如原子、分子、生態系統、生物、行星系統[42]等等。所以,圖形結構存在于我們的周圍環境和對世界的感知中。它包括實體和相互關系,以建立概念,如推理、溝通、關系、營銷等。
隨著當今技術的進步,互聯網(一個巨大的圖表)的使用正在迅速增長。如今,在社交網絡、搜索引擎的知識數據庫、街道地圖、甚至分子、高能物理、生物和化學化合物中也可以找到大量的圖表。圖結構表示在這些環境中很常見; 因此,需要有效和新穎的技術來解決基于圖的任務。許多傳統的機器學習技術都是在使用各種預定義的過程從原始數據表單中提取特征的基礎上提出的。提取的特征可以是圖像數據中的像素統計,也可以是自然語言數據中的單詞出現統計。在過去的十年中,深度學習(DL)技術獲得了巨大的普及,有效地解決了學習問題,從原始數據學習表示,并使用學習的表示同時預測。通常,這是通過探索許多不同的非線性轉換(由層執行)和使用基于梯度下降的學習方法對這些模型進行端到端訓練來實現的。盡管DL最近在計算機視覺、自然語言處理、生物醫學成像、生物信息學等領域取得了進展,但它仍然缺乏關系和因果推理、智力抽象和其他各種人類能力。以圖的形式構造深度神經網絡(DNN)中的計算和表示是解決這些問題的方法之一,這種方法被稱為圖神經網絡(GNN)。
GNN在具有許多學習設置的不同領域的圖結構數據集上都是成功的: 有監督、半監督、自監督和無監督。大多數基于圖的方法屬于無監督學習,通常基于自動編碼器、對比學習或隨機行走概念。圖自編碼器的最新研究成果有:Cao等人[22]在高光譜分類中的特征提取; Yang等人的防止消息傳遞過平滑[188];Park等人使用消息傳遞自動編碼器進行雙曲表示學習[134];用于解決Wu等人[182]提出的當前鏈路預測方法的局限性。最近,基于對比學習的方法也很成功,這在許多研究人員的工作中得到了證明。Okuda等[122]是最近出現的一種無監督圖表示學習方法,用于發現圖像中常見的目標和一組特定目標的定位方法。學習后的表示可以用于下游的學習任務,如Du等人[41]和Perozzi等人[138]所示。Adhikari等人[2]中的擴展隨機游動以及Dong等人[40]中的異構圖中的頂點表示也可以捕獲子圖的嵌入。
本文根據圖半監督學習方法的嵌入特征,將其分類為淺圖嵌入和深圖嵌入。將淺圖嵌入分為因子分解、隨機游走,將深圖嵌入分為自編碼器嵌入和GNN嵌入。本文還提供了對每種方法的進一步解釋,以及GNN的類別。基于圖的自監督學習方法根據任務和訓練策略進行分類。現有關于GNN的綜述論文大多側重于單一學習設置或一般GNN,如表1所示。這些綜述并沒有分別解釋每種學習環境。Zhou等人[205]最近完成了一項研究,重點研究了圖上的各種機器學習算法。
在本文中,我們探討了每個基于圖的學習設置,并將其分為幾個類別。本文的主要貢獻概述如下:
論文組織: 第2節分別介紹GNN的基本術語和概念,然后介紹2.1節和2.2節中基于圖結構數據的圖的變體和任務。第3節解釋了每個學習設置的基于GNN的方法,并進一步將方法和學習設置分解為邏輯劃分。3.1節簡要介紹了現有的圖監督學習方法。基于圖的無監督學習方法在第3.2節中進行了解釋,并對現有的學習方法進行了細分。然后我們在第3.3節給出了圖半監督學習方法,并通過嵌入方法對這些方法進行了細分。第3.4節介紹了圖的自監督學習方法,并根據任務和訓練策略對每種方法進行了劃分。GNN的一般step-wise結構在第4節中給出。第6節從理論和實證兩個方面對GNN方法進行了分析。在第5節中,我們介紹了幾個在GNN研究中常用的數據集,然后是第7節,介紹了GNN的一些流行應用。第8節總結了在基于GNN的圖任務解決方案中仍然存在的尚未解決的問題。最后,在第9部分,我們總結了這項工作。
圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。
圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:
在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。
在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。
總體來說,本文的貢獻如下:
由于層次主題結構在海量文本語料庫中普遍存在,將文檔分類到給定的標簽層次結構直觀上很有吸引力。雖然相關研究在全監督層次文檔分類方面取得了令人滿意的效果,但通常需要大量的人工標注訓練數據,且只利用文本信息。但在很多領域,(1)標注代價很高,可以獲取的訓練樣本很少;(2)文檔伴隨元數據信息。因此,本文研究弱監管下如何整合標簽層次結構、元數據和文本信號進行文檔分類。我們開發了HiMeCat,一個基于嵌入的生成框架用于我們的任務。具體地說,我們提出了一種新的聯合表示學習模塊,它允許對類別相關性、元數據信息和文本語義進行同步建模,我們的實驗證明了HiMeCat在Baseline上的持續改進,并驗證了我們的表示學習和數據增強模塊的貢獻。
//www.zhuanzhi.ai/paper/78629167dfc41e4a21cb8484c0b86e0a
中科院自動化所智能感知與計算研究中心張羽豐、吳書等人,受到圖結構數據易于建立整體關聯關系的啟發,提出一種基于圖神經網絡的歸納式文本分類方法。不再以完全順序化的方式學習文本內容,而是將文本構建為復雜關聯的圖結構進行學習,為上述問題提供了解決思路。相關成果發表于頂級國際會議ACL 2020。
該工作以單詞為節點、單詞間的共現關系為邊,將每個文檔構建為擁有自身結構的圖,將文本分類任務轉化為圖分類任務。通過應用圖神經網絡模型,單詞可聚合學習所有關聯單詞的表示,同時也可捕獲中長距離的上下文關系。最后使用最大池化加平均池化的方法,將所有單詞聚合為該文本的表示,進而得到其分類標簽。
基于圖神經網絡的文本分類模型示意圖
該模型在多個數據集中均取得最好性能,同時適用于歸納式學習,即當文本包含較多新詞的時候,也能取得不錯的效果。
該項研究在自然語言處理、信息組織和管理、內容信息過濾等領域都有著廣泛的應用,例如輿情監測、新聞分類、垃圾郵件過濾、個性化推薦等,也為相關領域的問題提供了新的研究思路。
題目: Graph Neural Networks:A Review of Methods and Applications
簡介: 許多學習任務需要處理圖形數據,該圖形數據包含元素之間的關系信息。對物理系統進行建模,學習分子指紋,預測蛋白質界面以及對疾病進行分類,都需要從圖輸入中學習模型。在諸如從文本和圖像之類的非結構數據中學習的其他領域中,對提取結構的推理,例如句子的依存關系樹和圖像的場景圖,是一個重要的研究課題,它也需要圖推理模型。圖神經網絡(GNN)是連接器模型,可通過在圖的節點之間傳遞消息來捕獲圖的依賴性。與標準神經網絡不同,圖神經網絡保留一種狀態,該狀態可以表示來自其鄰域的任意深度的信息。盡管已經發現難以訓練原始圖神經網絡來固定點,但是網絡體系結構,優化技術和并行計算的最新進展已使他們能夠成功學習。近年來,基于圖卷積網絡(GCN)和門控圖神經網絡(GGNN)的系統已經在上述許多任務上展示了突破性的性能。在本綜述中,我們對現有的圖神經網絡模型進行了詳細的回顧,對應用程序進行了系統分類,并提出了四個未解決的問題,供以后研究。
作者簡介: 周杰,教授,清華大學自動化系黨委書記,教授,博士生導師。