表示學習為各種AI領域提供了一種革命性的學習范式。在這個綜述中,我們研究和回顧了表示學習的問題,并將重點放在由不同類型的頂點和關系組成的異構網絡上。這個問題的目標是自動地將輸入異構網絡中的對象(最常見的是頂點)投射到潛在的嵌入空間中,這樣網絡的結構和關系屬性就可以被編碼和保存。嵌入(表示)可以被用作機器學習算法處理相應網絡任務的特性。要學習表達性嵌入,目前的研究進展可以分為兩大類: 淺層嵌入學習和圖神經網絡。經過對現有文獻的徹底審查,我們確定了幾個關鍵的挑戰,仍然沒有解決,并討論未來的方向。最后,我們構建了異構圖Benchmark,以促進對這個快速發展的課題的開放研究。
現實網絡由多種相互作用、不斷進化的實體組成,而現有的研究大多將其簡單地描述為特定的靜態網絡,而沒有考慮動態網絡的演化趨勢。近年來,動態網絡的特性跟蹤研究取得了重大進展,利用網絡中實體和鏈接的變化來設計網絡嵌入技術。與被廣泛提出的靜態網絡嵌入方法相比,動態網絡嵌入努力將節點編碼為低維密集表示,有效地保持了網絡結構和時間動態,有利于處理各種下游機器學習任務。本文對動態網絡嵌入問題進行了系統的研究,重點介紹了動態網絡嵌入的基本概念,首次對現有的動態網絡嵌入技術進行了分類,包括基于矩陣分解的、基于躍格的、基于自動編碼器的、基于神經網絡的等嵌入方法。此外,我們仔細總結了常用的數據集和各種各樣的后續任務,動態網絡嵌入可以受益。在此基礎上,提出了動態嵌入模型、大規模動態網絡、異構動態網絡、動態屬性網絡、面向任務的動態網絡嵌入以及更多的嵌入空間等現有算法面臨的挑戰,并提出了未來可能的研究方向。
題目: A Survey on Dynamic Network Embedding
簡介:
現實世界的網絡由各種相互作用和不斷發展的實體組成,而大多數現有研究只是將它們描述為特定的靜態網絡,而沒有考慮動態網絡的發展趨勢。近來,在跟蹤動態網絡特性方面取得了重大進展,它利用網絡中實體和鏈接的變化來設計網絡嵌入技術。與靜態網絡嵌入方法相比,動態網絡嵌入致力于將節點編碼為低維密集表示形式,從而有效地保留了網絡結構和時間動態特性,這對眾多下游機器學習任務是有益的。在本文中,我們對動態網絡嵌入進行了系統的調查。特別是,描述了動態網絡嵌入的基本概念,特別是,我們首次提出了一種基于現有動態網絡嵌入技術的新分類法,包括基于矩陣分解的方法,基于Skip-Gram的方法,基于自動編碼器,基于神經網絡和其他嵌入方法。此外,我們仔細總結了常用的數據集以及動態網絡嵌入可以帶來的各種后續任務。之后,我們提出了現有算法面臨的幾個挑戰,并概述了促進未來研究的可能方向,例如動態嵌入模型,大規模動態網絡,異構動態網絡,動態屬性網絡,面向任務的動態網絡嵌入和更多的嵌入空間。
近年來,人們對學習圖結構數據表示的興趣大增。基于標記數據的可用性,圖表示學習方法一般分為三大類。第一種是網絡嵌入(如淺層圖嵌入或圖自動編碼器),它側重于學習關系結構的無監督表示。第二種是圖正則化神經網絡,它利用圖來增加半監督學習的正則化目標的神經網絡損失。第三種是圖神經網絡,目的是學習具有任意結構的離散拓撲上的可微函數。然而,盡管這些領域很受歡迎,但在統一這三種范式方面的工作卻少得驚人。在這里,我們的目標是彌合圖神經網絡、網絡嵌入和圖正則化模型之間的差距。我們提出了圖結構數據表示學習方法的一個綜合分類,旨在統一幾個不同的工作主體。具體來說,我們提出了一個圖編碼解碼器模型(GRAPHEDM),它將目前流行的圖半監督學習算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和圖表示的非監督學習(如DeepWalk、node2vec等)歸納為一個統一的方法。為了說明這種方法的一般性,我們將30多個現有方法放入這個框架中。我們相信,這種統一的觀點既為理解這些方法背后的直覺提供了堅實的基礎,也使該領域的未來研究成為可能。
概述
學習復雜結構化數據的表示是一項具有挑戰性的任務。在過去的十年中,針對特定類型的結構化數據開發了許多成功的模型,包括定義在離散歐幾里德域上的數據。例如,序列數據,如文本或視頻,可以通過遞歸神經網絡建模,它可以捕捉序列信息,產生高效的表示,如機器翻譯和語音識別任務。還有卷積神經網絡(convolutional neural networks, CNNs),它根據移位不變性等結構先驗參數化神經網絡,在圖像分類或語音識別等模式識別任務中取得了前所未有的表現。這些主要的成功僅限于具有簡單關系結構的特定類型的數據(例如,順序數據或遵循規則模式的數據)。
在許多設置中,數據幾乎不是規則的: 通常會出現復雜的關系結構,從該結構中提取信息是理解對象之間如何交互的關鍵。圖是一種通用的數據結構,它可以表示復雜的關系數據(由節點和邊組成),并出現在多個領域,如社交網絡、計算化學[41]、生物學[105]、推薦系統[64]、半監督學習[39]等。對于圖結構的數據來說,將CNNs泛化為圖并非易事,定義具有強結構先驗的網絡是一項挑戰,因為結構可以是任意的,并且可以在不同的圖甚至同一圖中的不同節點之間發生顯著變化。特別是,像卷積這樣的操作不能直接應用于不規則的圖域。例如,在圖像中,每個像素具有相同的鄰域結構,允許在圖像中的多個位置應用相同的過濾器權重。然而,在圖中,我們不能定義節點的順序,因為每個節點可能具有不同的鄰域結構(圖1)。此外,歐幾里德卷積強烈依賴于幾何先驗(如移位不變性),這些先驗不能推廣到非歐幾里德域(如平移可能甚至不能在非歐幾里德域上定義)。
這些挑戰導致了幾何深度學習(GDL)研究的發展,旨在將深度學習技術應用于非歐幾里德數據。特別是,考慮到圖在現實世界應用中的廣泛流行,人們對將機器學習方法應用于圖結構數據的興趣激增。其中,圖表示學習(GRL)方法旨在學習圖結構數據的低維連續向量表示,也稱為嵌入。
廣義上講,GRL可以分為兩類學習問題,非監督GRL和監督(或半監督)GRL。第一個系列的目標是學習保持輸入圖結構的低維歐幾里德表示。第二系列也學習低維歐幾里德表示,但為一個特定的下游預測任務,如節點或圖分類。與非監督設置不同,在非監督設置中輸入通常是圖結構,監督設置中的輸入通常由圖上定義的不同信號組成,通常稱為節點特征。此外,底層的離散圖域可以是固定的,這是直推學習設置(例如,預測一個大型社交網絡中的用戶屬性),但也可以在歸納性學習設置中發生變化(例如,預測分子屬性,其中每個分子都是一個圖)。最后,請注意,雖然大多數有監督和無監督的方法學習歐幾里德向量空間中的表示,最近有興趣的非歐幾里德表示學習,其目的是學習非歐幾里德嵌入空間,如雙曲空間或球面空間。這項工作的主要動機是使用一個連續的嵌入空間,它類似于它試圖嵌入的輸入數據的底層離散結構(例如,雙曲空間是樹的連續版本[99])。
鑒于圖表示學習領域的發展速度令人印象深刻,我們認為在一個統一的、可理解的框架中總結和描述所有方法是很重要的。本次綜述的目的是為圖結構數據的表示學習方法提供一個統一的視圖,以便更好地理解在深度學習模型中利用圖結構的不同方法。
目前已有大量的圖表示學習綜述。首先,有一些研究覆蓋了淺層網絡嵌入和自動編碼技術,我們參考[18,24,46,51,122]這些方法的詳細概述。其次,Bronstein等人的[15]也給出了非歐幾里德數據(如圖或流形)的深度學習模型的廣泛概述。第三,最近的一些研究[8,116,124,126]涵蓋了將深度學習應用到圖數據的方法,包括圖數據神經網絡。這些調查大多集中在圖形表示學習的一個特定子領域,而沒有在每個子領域之間建立聯系。
在這項工作中,我們擴展了Hamilton等人提出的編碼-解碼器框架,并介紹了一個通用的框架,圖編碼解碼器模型(GRAPHEDM),它允許我們將現有的工作分為四大類: (i)淺嵌入方法,(ii)自動編碼方法,(iii) 圖正則化方法,和(iv) 圖神經網絡(GNNs)。此外,我們還介紹了一個圖卷積框架(GCF),專門用于描述基于卷積的GNN,該框架在廣泛的應用中實現了最先進的性能。這使我們能夠分析和比較各種GNN,從在Graph Fourier域中操作的方法到將self-attention作為鄰域聚合函數的方法[111]。我們希望這種近期工作的統一形式將幫助讀者深入了解圖的各種學習方法,從而推斷出相似性、差異性,并指出潛在的擴展和限制。盡管如此,我們對前幾次綜述的貢獻有三個方面
我們介紹了一個通用的框架,即GRAPHEDM,來描述一系列廣泛的有監督和無監督的方法,這些方法對圖形結構數據進行操作,即淺層嵌入方法、圖形正則化方法、圖形自動編碼方法和圖形神經網絡。
我們的綜述是第一次嘗試從同一角度統一和查看這些不同的工作線,我們提供了一個通用分類(圖3)來理解這些方法之間的差異和相似之處。特別是,這種分類封裝了30多個現有的GRL方法。在一個全面的分類中描述這些方法,可以讓我們了解這些方法究竟有何不同。
我們為GRL發布了一個開源庫,其中包括最先進的GRL方法和重要的圖形應用程序,包括節點分類和鏈接預測。我們的實現可以在//github.com/google/gcnn-survey-paper上找到。
有關實體及其關系的真實世界事實的知識庫是各種自然語言處理任務的有用資源。然而,由于知識庫通常是不完整的,因此能夠執行知識庫補全或鏈接預測是很有用的。本文全面概述了用于知識庫完成的實體和關系的嵌入模型,總結了標準基準數據集上最新的實驗結果。
主題: Deep Learning on Knowledge Graph for Recommender System: A Survey
摘要: 最近的研究表明,知識圖譜(KG)在提供有價值的外部知識以改進推薦系統(RS)方面是有效的。知識圖譜能夠編碼連接兩個對象和一個或多個相關屬性的高階關系。借助于新興的GNN,可以從KG中提取對象特征和關系,這是成功推薦的一個重要因素。本文對基于GNN的知識感知深度推薦系統進行了綜述。具體來說,我們討論了最新的框架,重點是它們的核心組件,即圖嵌入模塊,以及它們如何解決實際的推薦問題,如可伸縮性、冷啟動等。我們進一步總結了常用的基準數據集、評估指標以及開源代碼。最后,我們對調查結果進行了總結,并提出了這一快速發展領域的潛在研究方向。
【導讀】異構網絡表示學習Heterogeneous Network Representation Learning是當前自數據挖掘以及其他應用的研究熱點,在眾多任務中具有重要的應用。近日,UIUC韓家煒等學者發布了異構網絡表示學習的綜述大全,共15頁pdf115篇參考文獻,從背景知識到當前代表性HNE模型和應用研究挑戰等,是最新可參考絕好的異構網絡表示學習模型的文獻。
由于現實世界中的對象及其交互通常是多模態和多類型的,所以異構網絡被廣泛地用作傳統同構網絡(圖)的一個更強大、更現實和更通用的超類。與此同時,表示學習(representation learning,又稱嵌入)最近得到了深入的研究,并被證明對各種網絡挖掘和分析任務都是有效的。由于已有大量的異構網絡嵌入(HNE)算法,但沒有專門的調研綜述,作為這項工作的第一個貢獻,我們率先提供了一個統一的范式,對各種現有的HNE算法的優點進行系統的分類和分析。此外,現有的HNE算法雖然大多被認為是通用的,但通常是在不同的數據集上進行評估。由于HNE在應用上的天然優勢,這種間接的比較在很大程度上阻礙了任務性能的改善,特別是考慮到從真實世界的應用數據構建異構網絡的各種可能的方法。因此,作為第二項貢獻,我們創建了四個基準數據集,這些數據集具有不同來源的尺度、結構、屬性/標簽可用性等不同屬性,以全面評估HNE算法。作為第三個貢獻,我們對十種流行的HNE算法的實現進行了細致的重構和修改,并創建了友好的接口,并在多個任務和實驗設置上對它們進行了全方位的比較。
1.概述
網絡和圖形構成了一種規范的、普遍存在的交互對象建模范式,已經引起了各個科學領域的重要研究關注[59、30、24、3、89、87]。然而,現實世界的對象和交互通常是多模態和多類型的(例如,作者、論文、場所和出版物網絡中的術語[69,65];基于位置的社交網絡中的用戶、地點、類別和gps坐標[101,91,94];以及生物醫學網絡中的基因、蛋白質、疾病和物種[38,14])。為了捕獲和利用這種節點和鏈路的異構性,異構網絡被提出并廣泛應用于許多真實的網絡挖掘場景中,如基于元路徑的相似度搜索[70、64、92]、節點分類和聚類[18、20、11]、知識庫補全[68、48、103]和推薦[23、106、31]。
與此同時,目前對圖數據的研究主要集中在表示學習(圖數據嵌入)方面,特別是在神經網絡算法的先行者們展示了前所未有的有效而高效的圖數據挖掘的經驗證據之后[25,4,13]。他們的目標是將圖數據(如節點[49、72、26、77、37、28、9、75]、鏈接[107、1、50、96]和子圖[47、93、97、45])轉換為嵌入空間中的低維分布向量,在嵌入空間中保留圖的拓撲信息(如高階鄰近性[5、76、105、34]和結構[55、102、42、17])。這樣的嵌入向量可以被各種下游的機器學習算法直接執行[58,39,10]。
在異構網絡與圖嵌入的交叉點上,異構網絡嵌入(HNE)近年來也得到了較多的研究關注[8、85、108、16、66、67、27、22、90、35、104、57、52、99、7、98、32、83、95、82、41]。由于HNE的應用優勢,許多算法在不同的應用領域分別被開發出來,如搜索和推薦[23,63,6,89]。此外,由于知識庫(KBs)也屬于異構網絡的一般范疇,許多KB嵌入算法可以與HNE算法相比較[81、3、40、68、88、15、48、79、60]。
不幸的是,不同的HNE算法是在學術界和工業界完全不同的社區開發的。無論是在概念上還是在實驗中,都沒有對其進行系統全面的分析。事實上,由于缺乏基準平臺(有現成的數據集和基線),研究人員往往傾向于構建自己的數據集,并重新實現一些最流行的(有時是過時的)比較算法,這使得公平的性能評估和明確的改進屬性變得極其困難。
只需考慮圖1中發布數據小例子。較早的HNE算法如metapath2vec [16])是在作者、論文和場所節點類型為(a)的異構網絡上發展起來的,但是可以像(b)那樣用大量的術語和主題作為附加節點來豐富論文,這使得基于隨機游走的淺嵌入算法效果不佳,而傾向于R-GCN[57]這樣的基于鄰域聚合的深度圖神經網絡。此外,還可以進一步加入術語嵌入等節點屬性和研究領域等標簽,使其只適用于半監督歸納學習算法,這可能會帶來更大的偏差[104、82、33、54]。最后,通常很難清楚地將性能收益歸因于技術新穎性和數據調整之間的關系。
在這項工作中,我們首先制定了一個統一而靈活的數學范式,概括了所有的HNE算法,便于理解每個模型的關鍵優點(第2節)。特別地,基于對現有模型(以及可能的未來模型)進行清晰分類和總結的統一分類,我們提出了網絡平滑度的一般目標函數,并將所有現有的模型重新組織成統一的范式,同時突出其獨特的新穎貢獻(第3節)。我們認為該范式將有助于指導未來新型HNE算法的發展,同時促進它們與現有算法的概念對比。
作為第二個貢獻,我們通過詳盡的數據收集、清理、分析和整理(第4節),特意準備了四個基準的異構網絡數據集,具有規模、結構、屬性/標簽可用性等多種屬性。這些不同的數據集,以及一系列不同的網絡挖掘任務和評估指標,構成了未來HNE算法的系統而全面的基準資源。
作為第三個貢獻,許多現有的HNE算法(包括一些非常流行的算法)要么沒有一個靈活的實現(例如,硬編碼的節點和邊緣類型、固定的元路徑集等),要么不能擴展到更大的網絡(例如,在訓練期間的高內存需求),這給新的研究增加了很多負擔(例如,,在正確的重新實現中需要大量的工程工作)。為此,我們選擇了10種流行的HNE算法,在這些算法中,我們仔細地重構和擴展了原始作者的實現,并為我們準備好的數據集的插件輸入應用了額外的接口(第5節)。基于這些易于使用和有效的實現,我們對算法進行了全面的經驗評估,并報告了它們的基準性能。實證結果在提供了與第3節的概念分析相一致的不同模型的優點的同時,也為我們的基準平臺的使用提供了范例,以供今后對HNE的研究參考。
本文的其余部分組織如下。第2節首先介紹我們提出的通用HNE范式。隨后,第3節對我們調查中的代表性模型進行了概念上的分類和分析。然后,我們在第4節中提供了我們準備好的基準數據集,并進行了深入的分析。在第5節中,我們對10種常用的HNE算法進行了系統而全面的實證研究,對HNE的發展現狀進行了評價。第六部分是對未來HNE平臺使用和研究的展望。
異構網絡示例
算法分類
Proximity-Preserving Methods
如前所述,網絡嵌入的一個基本目標是捕獲網絡拓撲信息。這可以通過在節點之間保留不同類型的鄰近性來實現。在HNE中,有兩類主要的接近性保護方法:基于隨機步法的方法(靈感來自DeepWalk[49])和基于一階/二階接近性的方法(靈感來自LINE[72])。
Message-Passing Methods
網絡中的每個節點都可以將屬性信息表示為特征向量xu。消息傳遞方法的目標是通過聚合來自u鄰居的信息來學習基于xu的節點嵌入eu。在最近的研究中,圖神經網絡(GNNs)[37]被廣泛用于促進這種聚合/消息傳遞過程。
Relation-Learning方法
異類網絡中的每條邊都可以看作是一個三元組(u, l, v),由兩個節點u, v∈v和一個邊緣類型l∈TE(即。,實體和關系,用KG表示)。關系學習方法的目標是學習一個評分函數sl(u, v),該函數對任意三元組求值并輸出一個標量來度量該三元組的可接受性。這種思想在KB嵌入中被廣泛采用。由于已經有關于KB嵌入算法的調查[81],我們在這里只討論最流行的方法,并強調它們與HNE的聯系。
基準
未來方向
在這項工作中,我們對各種現有的HNE算法進行了全面的調研,并提供了基準數據集和基線實現,以方便今后在這方面的研究。盡管HNE已經在各種下游任務中表現出了強大的性能,但它仍處于起步階段,面臨著許多尚未解決的挑戰。為了總結這項工作并啟發未來的研究,我們現在簡要地討論一下當前HNE的局限性和幾個可能值得研究的具體方向。
超越同質性。如式(1)所述,目前的HNE算法主要關注網絡同質性作用。由于最近對同構網絡的研究,研究位置和結構嵌入的組合,探索如何將這種設計原則和范式推廣到HNE將是很有趣的。特別是在異構網絡中,節點的相對位置和結構角色都可以在不同的元路徑或元圖下測量,這自然更具有信息性和多樣性。然而,這樣的考慮也帶來了更困難的計算挑戰。
超越準確性。大多數,如果不是全部,現有的研究主要集中在對不同的下游任務的準確性。進一步研究HNE的效率和可擴展性(用于大規模網絡)、時間適應性(用于動態演化網絡)、魯棒性(用于對抗攻擊)、可解釋性、不確定性、公平性等將是非常有趣的。
超越節點嵌入。圖級和子圖級嵌入在同構網絡上得到了廣泛的研究,但在異構網絡上卻很少有研究。雖然諸如HIN2Vec[22]等現有的工作都在研究元路徑的嵌入以改進節點的嵌入,但是圖和子圖級嵌入在異構網絡環境中的直接應用仍然處于萌芽狀態。
回顧KB嵌入。KB嵌入與其他HNE類型的區別主要在于節點和鏈接類型的數量不同。直接將KB嵌入到異構網絡中不能考慮具有豐富語義的元路徑,而將HNE直接應用到KB中由于元路徑的數量呈指數增長而不現實。然而,研究這兩組方法(以及兩種類型的數據)之間的交集仍然很有趣。例如,我們如何將異構網絡上的元路徑和HNE在KB上嵌入轉換的思想與更多的語義感知轉換結合起來?我們如何設計基于截斷隨機游走的方法來包含高階關系的知識庫嵌入?
異構上下文建模。異構網絡主要模擬不同類型的節點和鏈接。然而,現在的網絡常常與豐富的內容相關聯,這些內容提供了節點、鏈接和子網的上下文。因此,如何通過多模態內容和結構的集成來對多方面環境下的異構交互進行建模可能是一個具有挑戰性但值得研究的領域。
理解局限性。雖然HNE(以及許多神經表示學習模型)已經在各個領域顯示出了強大的性能,但值得了解其潛在的局限性。例如,與傳統的網絡挖掘方法(例如,路徑計數、子圖匹配、非神經或線性傳播)相比,現代HNE算法何時能更好地工作?我們怎樣才能把兩個世界的優點結合起來呢?此外,雖然對同構網絡數據的神經網絡背后的數學機制(如平滑、低通濾波、不變和等變變換)進行了深入的研究,通過統一現有的HNE模型,本工作也旨在激發對HNE的能力和局限性的進一步理論研究。
題目: A Survey on Edge Intelligence
簡介:
邊緣智能是指一組連接的系統和設備,用于在靠近基于人工智能捕獲數據的位置進行數據收集,緩存,處理和分析。邊緣智能的目的是提高數據處理的質量和速度,并保護數據的隱私和安全性。盡管最近出現,從2011年到現在,這個研究領域在過去五年中顯示出爆炸性增長。在本文中,我們對有關邊緣智能的文獻進行了全面的調查。我們首先根據與擬議和部署的系統有關的理論和實踐結果,確定邊緣智能的四個基本組成部分,即邊緣緩存,邊緣訓練,邊緣推理和邊緣卸載。然后,我們通過檢查四個組成部分每個的研究結果和觀察結果,來對解決方案的狀態進行系統的分類,并提出一種分類法,其中包括實際問題,采用的技術和應用目標。對于每個類別,我們從采用的技術,目標,性能,優點和缺點等方面詳細闡述,比較和分析文獻。本調查文章全面介紹了邊緣智能及其應用領域。此外,我們總結了新興研究領域的發展和當前的最新技術,并討論了重要的開放性問題以及可能的理論和技術解決方案。