圖神經網絡(GNNs)在許多圖學習任務中表現出令人印象深刻的性能。然而,當輸入的圖數據信息弱,即結構不完整、特征不完整和標簽不足時,GNNs的性能可能會下降。大多數先前的研究試圖從具有特定類型弱信息的圖數據中學習,但在處理各種數據缺陷并相互影響的場景時,這些研究效果不佳。為了填補這個空白,我們在這篇論文中,試圖針對弱信息圖學習(GLWI)問題,開發一種有效且原則性的方法。基于我們的實證分析,我們得出了解決GLWI問題的兩個設計重點,即使GNNs能夠進行長距離傳播,并允許信息傳播到那些與最大連接組件隔離的漂泊節點。據此,我們提出了D2PT,一種雙通道GNN框架,它不僅在具有不完整結構的輸入圖上執行長距離信息傳播,而且還在編碼全局語義相似性的全局圖上執行信息傳播。我們進一步開發了一個原型對比對齊算法,它將從兩個通道中學到的類級原型進行對齊,以便兩種不同的信息傳播過程可以相互受益,最終學習的模型可以很好地處理GLWI問題。在八個真實世界的基準數據集上的大量實驗表明,我們提出的方法在各種GLWI場景中都表現出了有效性和效率。
圖神經網絡(GNNs)是用于圖學習問題的流行模型。在許多實際任務中,GNNs表現出強大的經驗性能能力。然而,其理論屬性尚未完全闡明。在本文中,我們從GNNs的表達能力的角度研究它們是否能利用圖結構。在我們的分析中,我們考慮由隱藏節點特征控制的圖生成過程,這些特征包含了關于圖結構的所有信息。這個框架的一個典型例子是根據隱藏特征構建的kNN圖。在我們的主要結果中,我們表明,即使在所有節點特征(包括隱藏特征本身和任何間接提示)都不可用的情況下,GNNs也可以僅從輸入圖中恢復隱藏節點特征。GNNs還可以使用恢復的節點特征進行下游任務。這些結果表明,GNNs可以完全自主地利用圖結構,并且在實際上,GNNs可以在下游任務中使用隱藏和顯式節點特征。在實驗中,我們通過展示基于我們理論分析構建的GNN架構可以準確地恢復隱藏特征,證實了我們的結果的有效性。
//www.zhuanzhi.ai/paper/1e88e68288b217c17d49b0f911eb71ea
圖神經網絡(GNNs)已被證明是有前途的解決方案的協同過濾(CF)與用戶項交互圖建模。現有的基于GNN的推薦系統的關鍵思路是遞歸地執行沿用戶-項目交互邊緣傳遞的消息,以細化編碼的嵌入。盡管他們的有效性,但是,目前大多數的推薦模型依賴于足夠的和高質量的訓練數據,這樣學習的表示可以很好地捕捉準確的用戶偏好。在許多實際的推薦場景中,用戶行為數據往往是有噪聲的,并且呈現出偏態分布,這可能導致基于GNN的模型的表現性能欠佳。在本文中,我們提出了一種新的自監督超圖transformer 框架(SHT),它通過明確地探索全局協作關系來增強用戶表示。具體來說,我們首先賦予圖神經CF范式以超圖transformer 網絡來維持用戶和物品之間的全局協同效果。在提取全局上下文的基礎上,提出了一種跨視圖生成式自監督學習組件,用于用戶-物品交互圖上的數據增強,以增強推薦系統的魯棒性。大量實驗表明,SHT可以顯著提高各種最先進的基線性能。進一步的消融研究表明,我們的SHT推薦框架在緩解數據稀疏性和噪聲問題方面具有卓越的表達能力。源代碼和評估數據集可以在//github.com/akaxlh/SHT上找到。
Transformer架構最近在圖表示學習中獲得了越來越多的關注,因為它通過避免圖神經網絡(GNN)的嚴格結構歸納偏差,而只通過位置編碼對圖結構進行編碼,從而自然地克服了圖神經網絡(GNN)的一些限制。在這里,我們展示了使用位置編碼的Transformer生成的節點表示不一定捕獲它們之間的結構相似性。為了解決這個問題,我們提出了結構感知Transformer (Structure-Aware Transformer),這是一類建立在一種新的自注意力機制上的簡單而靈活的圖Transformer。這種新的自注意在計算自注意之前,通過提取基于每個節點的子圖表示,將結構信息融入到原始自注意中。我們提出了幾種自動生成子圖表示的方法,并從理論上表明,生成的表示至少與子圖表示一樣具有表現力。從經驗上講,我們的方法在5個圖預測基準上達到了最先進的性能。我們的結構感知框架可以利用任何現有的GNN來提取子圖表示,我們表明,相對于基本GNN模型,它系統地提高了性能,成功地結合了GNN和transformer的優勢。我們的代碼可以在這個 https: //github.com/BorgwardtLab/SAT. 中找到。
摘要
在過去十年左右的時間里,我們見證了深度學習讓機器學習領域重新煥發活力。它以最先進的性能解決了計算機視覺、語音識別、自然語言處理等領域的許多問題。這些領域的數據一般用歐幾里得空間表示。其他許多領域都符合非歐幾里得空間,圖是其中的理想表示。圖適用于表示各種實體之間的依賴關系和相互關系。傳統上,手工制作的圖特性無法從復雜的數據表示中為各種任務提供必要的推斷。最近,出現了利用深度學習的各種進展來繪制基于數據的任務。本文提供了圖神經網絡(GNN)在每種學習設置中的全面綜述: 監督學習、無監督學習、半監督學習和自監督學習。每個基于圖的學習設置的分類提供了屬于給定學習設置的方法的邏輯劃分。從理論和實證兩方面分析了每個學習任務的方法。此外,我們還提供了構建GNN的一般架構指導方針。還提供了各種應用程序和基準數據集,以及仍然困擾著GNN的普遍適用性的開放挑戰。
//www.zhuanzhi.ai/paper/4014c909fcaa7d7c7c7d292b6a7febbb
引言
圖是定義一組節點及其關系的數據結構。從社交網絡[141]到物理互動[209],我們無處不在地觀察它們。圖表還可以用來表示不可思議的結構,如原子、分子、生態系統、生物、行星系統[42]等等。所以,圖形結構存在于我們的周圍環境和對世界的感知中。它包括實體和相互關系,以建立概念,如推理、溝通、關系、營銷等。
隨著當今技術的進步,互聯網(一個巨大的圖表)的使用正在迅速增長。如今,在社交網絡、搜索引擎的知識數據庫、街道地圖、甚至分子、高能物理、生物和化學化合物中也可以找到大量的圖表。圖結構表示在這些環境中很常見; 因此,需要有效和新穎的技術來解決基于圖的任務。許多傳統的機器學習技術都是在使用各種預定義的過程從原始數據表單中提取特征的基礎上提出的。提取的特征可以是圖像數據中的像素統計,也可以是自然語言數據中的單詞出現統計。在過去的十年中,深度學習(DL)技術獲得了巨大的普及,有效地解決了學習問題,從原始數據學習表示,并使用學習的表示同時預測。通常,這是通過探索許多不同的非線性轉換(由層執行)和使用基于梯度下降的學習方法對這些模型進行端到端訓練來實現的。盡管DL最近在計算機視覺、自然語言處理、生物醫學成像、生物信息學等領域取得了進展,但它仍然缺乏關系和因果推理、智力抽象和其他各種人類能力。以圖的形式構造深度神經網絡(DNN)中的計算和表示是解決這些問題的方法之一,這種方法被稱為圖神經網絡(GNN)。
GNN在具有許多學習設置的不同領域的圖結構數據集上都是成功的: 有監督、半監督、自監督和無監督。大多數基于圖的方法屬于無監督學習,通常基于自動編碼器、對比學習或隨機行走概念。圖自編碼器的最新研究成果有:Cao等人[22]在高光譜分類中的特征提取; Yang等人的防止消息傳遞過平滑[188];Park等人使用消息傳遞自動編碼器進行雙曲表示學習[134];用于解決Wu等人[182]提出的當前鏈路預測方法的局限性。最近,基于對比學習的方法也很成功,這在許多研究人員的工作中得到了證明。Okuda等[122]是最近出現的一種無監督圖表示學習方法,用于發現圖像中常見的目標和一組特定目標的定位方法。學習后的表示可以用于下游的學習任務,如Du等人[41]和Perozzi等人[138]所示。Adhikari等人[2]中的擴展隨機游動以及Dong等人[40]中的異構圖中的頂點表示也可以捕獲子圖的嵌入。
本文根據圖半監督學習方法的嵌入特征,將其分類為淺圖嵌入和深圖嵌入。將淺圖嵌入分為因子分解、隨機游走,將深圖嵌入分為自編碼器嵌入和GNN嵌入。本文還提供了對每種方法的進一步解釋,以及GNN的類別。基于圖的自監督學習方法根據任務和訓練策略進行分類。現有關于GNN的綜述論文大多側重于單一學習設置或一般GNN,如表1所示。這些綜述并沒有分別解釋每種學習環境。Zhou等人[205]最近完成了一項研究,重點研究了圖上的各種機器學習算法。
在本文中,我們探討了每個基于圖的學習設置,并將其分為幾個類別。本文的主要貢獻概述如下:
論文組織: 第2節分別介紹GNN的基本術語和概念,然后介紹2.1節和2.2節中基于圖結構數據的圖的變體和任務。第3節解釋了每個學習設置的基于GNN的方法,并進一步將方法和學習設置分解為邏輯劃分。3.1節簡要介紹了現有的圖監督學習方法。基于圖的無監督學習方法在第3.2節中進行了解釋,并對現有的學習方法進行了細分。然后我們在第3.3節給出了圖半監督學習方法,并通過嵌入方法對這些方法進行了細分。第3.4節介紹了圖的自監督學習方法,并根據任務和訓練策略對每種方法進行了劃分。GNN的一般step-wise結構在第4節中給出。第6節從理論和實證兩個方面對GNN方法進行了分析。在第5節中,我們介紹了幾個在GNN研究中常用的數據集,然后是第7節,介紹了GNN的一些流行應用。第8節總結了在基于GNN的圖任務解決方案中仍然存在的尚未解決的問題。最后,在第9部分,我們總結了這項工作。
圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。
MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge
Authors: Mengying Sun, Jing Xing, Huijun Wang, Bin Chen, Jiayu Zhou
近年來,利用圖神經網絡解決藥物相關問題在生物醫學領域得到了迅速發展。然而,就像任何其他深度架構一樣,GNN是數據需求型的。雖然在現實世界中要求標簽通常是昂貴的,但以一種無監督的方式對GNN進行預處理已經被積極地探索。其中,圖對比學習通過最大化成對圖增強之間的互信息,已被證明對各種下游任務是有效的。然而,目前的圖對比學習框架有兩個局限性。首先,增強是為一般圖設計的,因此對于某些領域可能不夠合適或不夠強大。第二,對比方案只學習對局部擾動不變的表示,因此不考慮數據集的全局結構,這也可能對下游任務有用。因此,本文研究生物醫學領域中存在分子圖的圖對比學習。我們提出了一個新的框架MoCL,利用領域知識在局部和全局水平上幫助表示學習。局部層次的領域知識指導擴展過程,這樣在不改變圖語義的情況下引入變體。全局層次的知識對整個數據集圖之間的相似性信息進行編碼,并幫助學習具有更豐富語義的表示。整個模型通過雙對比目標學習。我們評估了在線性和半監督設置下的多種分子數據集上的MoCL,結果表明MoCL達到了最先進的性能。
近年來,基于圖學習的推薦系統(GLRS)這個新興話題得到了快速發展。GLRS采用高級的圖學習方法來建模用戶的偏好和意圖,以及物品的特征來進行推薦。與其他RS方法(包括基于內容的過濾和協同過濾)不同,GLRS是建立在圖上的,其中重要對象(如用戶、物品和屬性)是顯式或隱式連接的。
隨著圖學習技術的快速發展,探索和開發圖中的同質或異質關系是構建更有效的RS的一個有前途的方向。通過討論如何從基于圖的表示中提取重要的知識,以提高推薦的準確性、可靠性和可解釋性。
首先對GLRS進行了表示和形式化,然后對該研究領域面臨的主要挑戰和主要進展進行了總結和分類。
引言
推薦系統(RS)是人工智能(AI)最流行和最重要的應用之一。它們已被廣泛采用,以幫助許多流行的內容分享和電子商務網站的用戶更容易找到相關的內容、產品或服務。與此同時,圖學習(Graph Learning, GL)是一種新興的人工智能技術,它涉及到應用于圖結構數據的機器學習,近年來發展迅速,顯示出了其強大的能力[Wu et al., 2021]。事實上,得益于這些學習關系數據的能力,一種基于GL的RS范式,即基于圖學習的推薦系統(GLRS),在過去幾年中被提出并得到了廣泛的研究[Guo等人,2020]。在本文中,我們對這一新興領域的挑戰和進展進行了系統的回顧。
動機: 為什么要用圖學習RS?
RS中的大部分數據本質上是一個圖結構。在現實世界中,我們身邊的大多數事物都或明或暗地相互聯系著;換句話說,我們生活在一個圖的世界里。這種特征在RS中更加明顯,這里考慮的對象包括用戶、物品、屬性、上下文,這些對象之間緊密相連,通過各種關系相互影響[Hu et al., 2014],如圖1所示。在實踐中,RS所使用的數據會產生各種各樣的圖表,這對推薦的質量有很大的幫助。
圖學習具有學習復雜關系的能力。作為最具發展前景的機器學習技術之一,GL在獲取嵌入在不同類型圖中的知識方面顯示出了巨大的潛力。具體來說,許多GL技術,如隨機游走和圖神經網絡,已經被開發出來學習特定類型的關系由圖建模,并被證明是相當有效的[Wu et al., 2021]。因此,使用GL來建模RS中的各種關系是一個自然和令人信服的選擇。
圖學習如何幫助RS? 到目前為止,還沒有統一的GLRS形式化。我們通常從高層次的角度對GLRS進行形式化。我們用一個RS的數據構造一個圖G = {V, E},其中對象(如用戶和商品)在V中表示為節點,它們之間的關系(如購買)在E中表示為邊。構建并訓練GLRS模型M(Θ)學習最優模型參數Θ,生成最優推薦結果R。
根據具體的推薦數據和場景,可以以不同的形式定義圖G和推薦目標R,例如,G可以是同質序列或異構網絡,而R可以是對物品的預測評級或排名。目標函數f可以是最大效用[Wang et al., 2019f]或節點之間形成鏈接的最大概率[Verma et al., 2019]。
這項工作的主要貢獻總結如下:
? 我們系統地分析了各種GLRS圖所呈現的關鍵挑戰,并從數據驅動的角度對其進行分類,為更好地理解GLRS的重要特征提供了有用的視角。
? 我們通過系統分類較先進的技術文獻,總結了目前GLRS的研究進展。
? 我們分享和討論了一些GLRS開放的研究方向,供社區參考。
近年來,圍繞著圖卷積網絡(GCN)這一主題的文獻大量涌現。如何有效地利用復雜圖(如具有異構實體和關系類型的知識圖譜)中豐富的結構信息是該領域面臨的主要挑戰。大多數GCN方法要么局限于具有同質邊類型的圖(例如,僅引用鏈接),要么只專注于節點的表示學習,而不是針對目標驅動的目標共同傳播和更新節點和邊的嵌入。本文提出了一種新的框架,即基于知識嵌入的圖卷積網絡(KE-GCN),該框架結合了基于圖的信念傳播中知識嵌入的能力和高級知識嵌入(又稱知識圖嵌入)方法的優勢,從而解決了這些局限性。我們的理論分析表明,KE-GCN作為具體案例提供了幾種著名的GCN方法的優雅統一,并提供了圖卷積的新視角。在基準數據集上的實驗結果表明,與強基線方法相比,KE-GCN方法在知識圖譜對齊和實體分類等任務中具有明顯的優勢。
圖神經網絡具有很強的圖表示學習能力,在各種實際應用中取得了巨大的成功。GNN通過聚集和轉換節點鄰域內的信息來探索圖的結構和節點特征。但是,通過理論和實證分析,我們發現GNN的聚集過程會破壞原始特征空間中的節點相似性。在許多場景中,節點相似性起著關鍵作用。因此,本文提出的SimP-GCN框架可以在利用圖結構的同時有效地保持節點相似性。具體地說,為了平衡圖結構和節點特征信息,我們提出了一種自適應地集成圖結構和節點特征的特征相似性保持聚合。此外,我們使用自監督學習來顯式地捕捉復雜特征之間的相似性和差異性關系。在包括3個同選型圖和4個異選型圖的7個基準數據集上驗證了SimP-GCN的有效性。結果表明SimP-GCN優于代表性基線。進一步的研究顯示了所提議的框架的各種優點。