亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

張量網絡(TNs)和神經網絡(NNs)是兩種基本的數據建模方法。TNs通過將指數維數轉換為多項式復雜度,被提出作為大規模張量面臨的維數災難的解決方案。因此,它們吸引了量子物理和機器學習領域的許多研究。另一方面,神經網絡是受構成人類大腦的生物神經網絡啟發的計算系統。近年來,神經網絡及其變體在計算機視覺、自然語言處理和機器人研究等各種應用中取得了卓越的性能。有趣的是,盡管這兩種類型的網絡來自不同的觀察,但它們通過TNs和NNs共同的內在多線性結構不可避免地聯系在一起。因此,出現了大量關于TNs和NN結合的思想火花。將"張量網絡與神經網絡"的組合稱為張量神經網絡(tensorial neural networks, TNNs)。**本文從三個方面對TNNs進行了介紹。1)網絡壓縮。TNs可以大大減少神經網絡中的參數,滿足構造有效神經網絡的思想。2)信息融合。TNs可以自然有效地增強神經網絡的能力,對多種模態、視圖或各種數據來源之間的相互作用進行建模。3)量子電路仿真。**TNs可以幫助設計和模擬量子神經網絡(QNNs)。本綜述還研究了改進TNN的方法,研究了用于實現TNN的有用工具箱,并試圖記錄TNN的發展并強調其潛在的未來方向。據我們所知,這是第一次將神經網絡、TNs和量子電路之間的聯系聯系起來的全面綜述。我們在//github.com/tnbar/awesome-tensorial-neural-networks上提供了一個精心策劃的TNNs列表。

1. 引言

**張量是高階數組,表示多個模態源之間的多方向相互作用。**相比之下,向量(即一階張量)和矩陣(即二階張量)分別只能以一種或兩種模式訪問。張量作為一種常見的數據類型,在[1],[2],[3],[4]等場景中得到了廣泛的觀察。例如,功能磁共振成像(fMRI)樣本本質上是四階張量,由隨時間變化的三維體素組成[5],[6],[7]。在量子物理中,用于研究多體量子系統的變分波函數也是高階張量[8],[9]。對于時空交通分析,幾周內從多條道路收集的道路流量/速度信息也可以構建為一個三階張量(road segment×day×time of day)[10]。然而,對于高階張量,當模態數量增加時,張量中的元素總數呈指數增長,導致存儲和處理張量時出現災難。這種現象也被公認為“維數詛咒”[11]。 張量網絡(TNs)。TNs[8],[11],[12]通常是通過張量收縮連接的小尺度張量的可數集合。這些小尺度張量被稱為“分量”、“塊”、“因子”或“核心”。非常大規模的張量可以通過TNs以極度壓縮和分布式的格式近似表示。因此,對以前無法處理的高階張量進行分布式存儲和高效處理是可行的。通過TN方法,可以緩解或完全克服[11]的維數災難問題。常用的TN格式包括CANDECOMP/PARAFAC (CP)[13]、[14]、[15]、Tucker分解[16]、[17]、Blockterm Tucker (BTT)分解[18]、[19]、[20]、矩陣積態(MPS)/張量列(TT)分解[21]、[22]、[23]、[24]、矩陣積算子(MPO)/矩陣張量列(mTT)分解[21]、[22]、[23]、[24]、張量環(TR)分解[25]、樹TN/層次Tucker (HT)分解[26]、投影糾纏對態(PEPS)/張量網格分解[8]、[27],[28],多尺度糾纏重整化[29]等。為了理解TNs相互關聯的結構,TN圖被開發為一種簡單的圖形圖(將在2.2節討論)。TN可以為分析一些計算上不可接受的任務提供一個理論和計算框架。例如,Pan等人基于TNs的低秩結構,[30]能夠在15小時內使用512個圖形處理器(GPU)解決量子隨機電路采樣問題;這個問題之前被認為在最強大的經典電子超級計算機上需要超過10000年的時間,并有效地挑戰了谷歌的量子計算機“Sycamore”的量子霸權。其他應用包括腦分析[31]、量子化學計算[32]、人臉聚類[33]、降維[34]、缺失值估計[35]、潛在因子分析[36]、子空間學習[37]等。

**神經網絡(NNs)。**神經網絡是受生物啟發的學習范式,使機器能夠通過反向傳播從觀察數據中學習知識[38],[39]。多層堆疊的神經網絡,即深度神經網絡[40]、[41],因其強大的從深層結構中捕獲豐富信息的能力,被廣泛應用于人工智能領域。典型的DNN類型包括受限玻爾茲曼機(RBMs)[42]、卷積神經網絡(CNNs)[41]、[43]、循環神經網絡(RNNs)[44]、[45]和transformer[46]、[47]。DNNs目前在計算機視覺[48]和自然語言處理[49]的廣泛應用中達到了最先進的性能。例如,一些CNN架構,如AlexNet [50], VGGNet [51], GoogLeNet[52]和ResNet[53]在ImageNet數據集[54]上贏得了冠軍,展示了解決圖像分類任務的良好潛力。特別是Alphafold[55],[56],這是一種Transformer架構,可以在幾天內識別蛋白質的結構,此前研究人員需要數年時間。最近,Alphafold2[55]、[56]以平均原子精度預測了幾乎所有已知蛋白質的結構。深度學習技術仍在推動多個學科的發展,包括語音識別[57]、DNA突變檢測[58]、結構生物學[55]、[56]、藥物發現[59]、食品安全[60]等。

**張量網絡遇見神經網絡。如上所述,TNs和NN是兩種來自不同起源并在不同方面取得成功的網絡。有趣的是,它們通過它們的多線性數學性質緊密結合而不是相互正交[11]。因此,一種有希望的方法是通過多元線性來整合它們,以達到“整體大于部分的總和”的目標。TNs的主要優點是其緊湊的結構、多條目以及與量子力學的密切聯系,而NN則以其廣泛的應用而聞名[8],[12]。基于這些觀察,可以通過三種方式將TNs和NNs結合起來。(1)網絡壓縮。**神經網絡在各種任務中取得了許多成功[40],[41],[41]。然而,神經網絡仍然存在大量維度的過度線性乘積計算和維數災難[78]。解決這個問題的一個有希望的解決方案是利用TNs的輕量級和多線性特性[68],[78],[79]。其中,TNs可以將NNs的任何張量分解為更小的塊,從而將維度降低到線性復雜度[61],[62]。例如,與使用樸素長短期記憶網絡(LSTM)進行動作識別任務相比,利用TN技術分解權重張量的TR-LSTM[79]模型可以將參數數量壓縮約34000倍,同時性能優于樸素LSTM。 **(2)信息融合。**在實際的數據分析中,多模態數據的高階交互建模對于獲得更好的性能是很重要的。然而,神經網絡通常用于處理單模向量的輸入,因此它們缺乏足夠的表達能力來建模這種高階交互[101]。為了解決這個問題,一種有希望的方法是將TNs嵌入到神經網絡中,作為有效的融合單元,借助多入口屬性[97],[98],[100]來處理多模態數據。以視覺問答(VQA)任務[142]為例,多模態Tucker融合(MUTAN)[101]可以通過Tucker格式框架學習文本表示和視覺表示之間的高級交互。因此,MUTAN通過有效的參數化低秩結構實現了最先進的性能。(3)量子電路仿真。TNs可以作為仿真器,成為經典神經網絡和量子電路之間的橋梁。首先,許多研究建議在量子電路上實現神經網絡,以通過量子計算方案的超并行性來加快其運行速度[143],[144]。然而,目前量子計算機還沒有足夠的能力直接部署神經網絡,這給驗證量子神經網絡(quantum neural networks, QNNs)的可能性能帶來了困難[143]。幸運的是,由于TNs和量子電路[8]之間的等效性,[145],TNs可以成為電子計算機中有效的量子模擬器。詳細地說,量子電路中的輸入量子比特和幺正運算門可以看作張量。門連接也可以被視為TN方案中的張量收縮[145]。利用TNs實現NNs的量子電路模擬,可以在制造出真正強大的量子計算機之前,開啟QNNs探索的新時代。

我們將這種連接TNs和NNs的方法族稱為張量神經網絡(TNNs)。據我們所知,這是第一次將神經網絡、TNs和量子電路之間的聯系聯系起來的全面綜述。TNN及其效用的概述如表1所示。本綜述的其余部分組織如下。第2節提供了張量符號、張量圖和TN格式的基礎知識。第3節討論如何使用TNs來構建緊湊的TNN。第4節探討了使用TNN的高效信息融合過程。第5節討論了TNs在量子電路和TNNs中的一些基本應用。第6節解釋了TNNs的一些訓練和實現技術。第7節介紹了可用于處理TNN的通用而強大的工具箱。

付費5元查看完整內容

相關內容

圖表示學習旨在將高維稀疏的圖結構數據有效編碼為低維稠密的向量,是機器學習、數據挖掘等眾多領域的一項基礎任務。經典的圖嵌入方法遵循圖中互聯節點的嵌入向量仍然可以保持相對近距離的基本思想,從而保留圖中節點之間的結構信息。然而,這是次優的,因為: (i)傳統方法的模型容量有限,限制了學習性能; (ii)現有技術通常依賴于無監督學習策略,無法與最新的學習范式耦合; (iii)表示學習和下游任務相互依賴,需要共同加強。隨著深度學習的顯著成功,深度圖表示學習比淺層(傳統)方法顯示出了巨大的潛力和優勢,近十年來提出了大量的深度圖表示學習技術,尤其是圖神經網絡對當前的深度圖表示學習算法進行了全面的調研,提出了一個現有的最先進文獻的新分類法。系統地總結了圖表示學習的基本組成部分,并通過圖神經網絡架構和最新的先進學習范式對現有方法進行了分類。此外,本文還提供了深度圖表示學習的實際和有前景的應用。最后,本文闡述了新的觀點,并提出了具有挑戰性的方向,值得未來進一步研究。

//www.zhuanzhi.ai/paper/f793020f8e47a7afe6f318478fc68493

1 引言

近年來,圖成為表示各種結構化和復雜數據的有力工具,包括社交網絡、交通網絡、信息系統、知識圖譜、蛋白質相互作用網絡和物理相互作用網絡等。作為一種通用的數據組織形式,圖結構能夠自然地表達這些數據的內在關系,因此可以表征大量在各種學科和領域中至關重要的非歐幾里得結構,因為它們具有靈活的適應性。例如,將社交網絡編碼為圖,用圖上的節點來表示個體用戶,用邊來表示兩個個體之間的關系,比如朋友。在生物學領域,節點可以用來表示蛋白質,邊可以用來表示各種蛋白質之間的生物相互作用,比如蛋白質之間的動態相互作用。因此,通過對圖結構數據的分析和挖掘,我們可以了解隱藏在數據背后的深層含義,進一步發現有價值的知識,從而造福社會和人類。

在過去的十年中,針對圖結構數據學習,已經開發出了各種各樣的機器學習算法。其中,傳統的圖核方法[107,177,314,316]通常將圖分解為不同的原子子結構,然后使用核函數來衡量它們所有對之間的相似性。雖然圖核可以提供一個建模圖拓撲的視角,但這些方法往往根據給定的手工制定的標準生成子結構或特征表示。這些規則相當具有啟發式,容易受到高計算復雜度的影響,因此可擴展性較弱,性能欠佳。過去幾年不斷涌現的圖嵌入算法[2,123,276,343,344,359],試圖對圖的結構信息(通常是高維稀疏矩陣)進行編碼,并將其映射為低維稠密的向量嵌入,以盡可能保留嵌入空間中的拓撲信息和屬性信息,使學習到的圖嵌入可以自然地融入傳統的機器學習算法中。與之前在預處理階段使用特征工程來提取圖結構特征的工作相比,目前的圖嵌入算法是以數據驅動的方式利用機器學習算法(如神經網絡)來編碼圖的結構信息。

具體來說,現有的圖嵌入方法可以分為以下主要組: (i)基于矩陣分解的方法[2,36,268],對矩陣進行分解以學習保留圖屬性的節點嵌入; (ii)應用專為圖結構數據設計的深度學習技術的基于深度學習的方法[123,276,344,359]; (iii)要么最大化邊緣重建概率,要么最小化邊緣重建損失的基于邊緣重建的方法[229,253,343]。一般來說,這些方法通常依賴于淺層架構,并未能利用深度神經網絡的潛力和能力,導致次優的表示質量和學習性能。受最近深度神經網絡顯著成功的啟發,一系列用于圖結構數據學習的深度學習算法被開發出來。這些方法的核心是使用圖神經網絡(GNNs)生成有效的節點和圖表示,其次是面向目標的學習范式。通過這種方式,派生出的表示可以自適應各種下游任務和應用程序。遵循這一思路,本文提出了一種新的分類法,對現有的圖表示學習算法進行分類,即圖神經網絡架構、學習范式和各種有前途的應用,如圖1所示具體來說,對于圖神經網絡的架構,我們調查了圖卷積、圖核神經網絡、圖池化和圖transformer的研究。對于學習范式,我們探索了三種高級類型,即圖上的監督/半監督學習,圖自監督學習和圖結構學習。為了證明學習到的圖表示的有效性,我們提供了幾個有希望的應用程序,以在表示學習和下游任務之間建立緊密的聯系,如社會分析、分子屬性預測和生成、推薦系統和流量分析。最后但并非最不重要的是,我們提出了一些思考的視角,并提出了值得在未來進一步研究的具有挑戰性的方向。本調查與現有調查的差異。到目前為止,還存在一些其他的綜述論文,側重于圖表示學習的不同視角[12,40,43,47,179,387,390,446,463,464],這些論文與我們的研究密切相關。然而,很少有全面的綜述從不同的GNN架構和相應的最新學習范式的角度同時總結了深度圖表示學習。

因此,我們在這里明確說明它們與我們調查的區別如下。已經有一些關于經典圖嵌入的調查[32,119],這些工作根據不同的訓練目標對圖嵌入方法進行了分類。Wang等人[366]更進一步,對現有的異構圖嵌入方法進行了全面的回顧。隨著深度學習的快速發展,出現了一些沿著這條路線的調查。例如,Wu et al.[387]和Zhang et al.[446]主要關注幾種經典和代表性的GNN架構,而沒有從圖自監督學習和圖結構學習等最新的高級學習范式的角度探索深度圖表示學習。Xia et al.[390]和Chami et al.[40]共同總結了圖嵌入和gnn的研究。Zhou等人[463]探索了GNNs不同類型的計算模塊。最近的一項綜述[179]對來自靜態圖和動態圖的圖表示學習的現有工作進行了分類。然而,這些分類強調了基本的GNN方法,但對學習范式關注不足,并且很少討論最有前途的應用,如推薦系統和分子性質的預測和生成。據我們所知,正式發表的最相關的調查是[464],它介紹了GNN架構的綜述,并粗略地討論了相應的應用。盡管如此,這項調查僅涵蓋了截至2020年的方法,錯過了過去兩年的最新發展。因此,非常希望將具有代表性的GNN方法、最新的先進學習范式和有前途的應用總結到一個統一和全面的框架中。此外,我們強烈相信,這項具有新的文獻分類法和400多項研究的調查將加強未來對深度圖表示學習的研究

本綜述的貢獻。本綜述的目標是系統地回顧關于深度圖表示學習進展的文獻,并討論進一步的方向。旨在幫助對該領域感興趣的研究人員和從業人員,并支持他們了解全景圖和深度圖表示學習的最新進展。本次調研的主要貢獻總結如下:

系統分類法。我們提出了一個系統的分類法來組織現有的深度圖表示學習方法,基于GNN架構的方式和最新的先進學習范式,通過提供一些代表性的分類法。此外,還提出了幾個有前途的應用,以說明圖表示學習的優越性和潛力。 全面綜述。對于本綜述的每個分支,我們回顧了基本組成部分并提供了代表性算法的詳細描述,并系統地總結了特點以進行概述比較。 未來的方向。基于現有的深度圖表示學習算法的屬性,討論了當前方法的局限性和挑戰,并提出了值得未來研究的潛力和有前途的研究方向。

2. 圖卷積

**圖卷積已經成為最近開發的許多深度圖表示學習算法和圖神經網絡的基本構建模塊。在本節中,我們對圖卷積進行了全面的回顧,圖卷積一般分為兩類: 譜圖卷積和空間圖卷積。基于圖信號處理(GSP)的堅實數學基礎[129,303,320],譜圖卷積尋求在頻域捕獲圖的模式。另一方面,空間圖卷積繼承了循環圖神經網絡(RecGNNs)的消息傳遞思想,它們通過聚合其鄰居的特征來計算節點特征。因此,一個節點的計算圖是從其周圍的局部圖結構中派生出來的,圖拓撲結構自然地納入到節點特征的計算方式中。在本節中,我們首先介紹譜圖卷積,然后介紹空間圖卷積,然后做一個簡要的總結。在表1中,我們總結了近年來提出的一些圖卷積。

?技術。圖卷積主要分為兩種類型,即譜圖卷積和空間圖卷積。譜圖卷積具有堅實的圖信號處理數學基礎,因此其操作具有理論解釋。空間圖卷積受到循環圖神經網絡的啟發,其計算簡單直接,因為其計算圖來源于局部圖結構。一般來說,空間圖卷積在應用中更常見。 ?挑戰和局限性。盡管圖卷積取得了巨大的成功,但在更復雜的應用中,其性能并不令人滿意。一方面,圖卷積的性能嚴重依賴于圖的構造。不同的圖構造可能會導致不同的圖卷積性能。另一方面,在構建非常深的神經網絡時,圖卷積容易出現過平滑。 ?未來工作。在未來,我們希望開發更強大的圖卷積來緩解過度平滑的問題,我們也希望圖結構學習(GSL)中的技術和方法可以幫助學習更有意義的圖結構,從而有利于圖卷積的性能。

3. 圖核神經網絡

圖核(GKs)是歷史上在圖分析和表示任務中使用最廣泛的技術[107,313,463]。然而,傳統的圖核在特定任務上依賴于手工設計的模式或領域知識[194,316]。多年來,人們對圖核神經網絡(GKNNs)進行了大量的研究,取得了很好的結果。研究人員已經探索了GKNN的各個方面,包括其理論基礎、算法設計和實際應用。這些努力導致了廣泛的基于GKNN的模型和方法的發展,這些模型和方法可用于圖分析和表示任務,如節點分類、鏈接預測和圖聚類[44,237,238]。GKNNs的成功可以歸因于它們能夠利用圖核和神經網絡的優勢。通過使用核函數來度量圖之間的相似性,GKNNs可以捕獲圖的結構屬性,而神經網絡的使用使其能夠學習到圖的更復雜和抽象的表示。這種技術的組合使GKNNs在廣泛的圖相關任務上實現最先進的性能。在本節中,我們首先介紹最具代表性的傳統圖核。然后總結了結合GNN和圖核的基本框架; 最后,對流行的圖核神經網絡進行分類,并比較它們的差異。

技術。圖核神經網絡(GKNNs)是最近流行的研究領域,它結合了圖核和GNNs的優勢來學習更有效的圖表示。研究人員從理論基礎、算法設計和實際應用等各個方面對GKNNs進行了研究。因此,廣泛的基于GKNN的模型和方法被開發出來用于圖分析和表示任務,包括節點分類、鏈接預測和圖聚類。 挑戰和限制。盡管gknn在圖相關任務中顯示出了巨大的潛力,但它們也有一些需要解決的局限性。可擴展性是一個重大挑戰,特別是在處理大規模圖和網絡時。隨著圖的規模增加,GKNNs的計算成本呈指數級增長,這可能會限制它們處理大型和復雜的現實世界應用程序的能力。 未來工作。對于未來的工作,我們希望GKNNs可以將更多特定領域的知識集成到設計的核中。特定領域的知識已經被證明可以顯著提高許多應用的性能,例如藥物發現、基于知識圖譜的信息檢索系統和分子分析[90,360]。將特定領域知識納入GKNNs可以增強其處理復雜和多樣化數據結構的能力,從而產生更準確和可解釋的模型。

4. 圖池化

當涉及到圖級別的任務時,如圖分類和圖回歸,圖池化是從學習到的節點嵌入生成整個圖表示的一個重要組件。為了確保同構圖具有相同的表示,圖池化操作應與節點的排列無關。在本節中,系統地回顧了現有的圖池化算法,并將其分為兩類:全局池化算法和層次池化算法。全局池化算法直接將節點嵌入聚合為最終的圖表示,而層次池化算法減小圖規模并逐步生成即時表示,以捕獲輸入圖的層次結構和特征。表3提供了一個總結。

技術。圖池化方法通過聚合節點嵌入在生成整個圖表示中發揮著至關重要的作用。圖池化方法主要有兩類:全局池化方法和層次池化方法。全局池化方法直接一步聚合節點嵌入,層次池化方法基于TopK選擇、聚類方法或混合方法逐步粗化圖以捕獲圖的層次結構特征。

挑戰和限制。盡管圖池化方法在學習整個圖表示方面取得了巨大的成功,但仍然存在一些未解決的挑戰和限制: 1)對于層次池化,大多數基于簇的方法都涉及到密集的分配矩陣,這限制了它們的應用于大型圖,而基于topk的方法在捕捉圖的結構信息方面不太好,可能會因為節點丟棄而丟失信息。 2)大多數圖池化方法是為簡單屬性圖設計的,而為其他類型的圖(如動態圖和異構圖)量身定制的池化算法在很大程度上還沒有得到充分的探索。

未來工作。在未來,我們預計可以研究更多的混合或其他池化方法,以充分捕獲圖結構信息,并對大型圖高效。在現實場景中,有各種類型的圖,涉及動態、異構或時空信息。專門針對這些圖設計圖池化方法是很有希望的,這可以有利于更真實的應用,如流量分析和推薦系統。

5. 圖 Transformer

盡管基于消息傳遞范式的gnn在多個眾所周知的任務[115,205,363,403]上取得了令人印象深刻的性能,但它們仍然面臨一些內在問題,迭代鄰居聚合操作。之前的許多工作已經證明了消息傳遞GNN的兩個主要缺陷,即所謂的過平滑和長距離建模問題。而且也有很多解釋性的工作試圖從這兩個問題中挖掘見解。過平滑問題可以解釋為各種只關注低頻信息[23]的GNN,混合不同類型節點之間的信息破壞模型性能[45],GCN相當于拉普拉斯平滑[213],鄰居之間的各向同性聚集導致與隨機游走相同的影響分布[404]等。無法對GNN的長距離依賴關系進行建模,部分原因是過度平滑問題,因為在傳統的鄰居聚合GNN的背景下,節點信息只能通過多個GNN層進行長距離傳遞。最近,Alon et al.[6]發現這個問題也可能是由過度擠壓(over- squeeashing)引起的,這意味著隨著距離的增加,計算路徑呈指數增長。雖然這兩個基本的性能瓶頸可以通過精心設計的消息傳遞和聚合策略來解決,但GNN的表征能力本質上受到Weisfeiler-Lehman同構層次結構的限制[264]。更糟糕的是,大多數GNN[115, 182, 351]都受到最簡單的一階Weisfeiler-Lehman檢驗(1-WL)的限制。一些努力致力于打破這一限制,如基于超圖的[93,149],基于路徑的[31,415]和基于k- wl的[15,264]方法。在解決這些基本問題的許多嘗試中,一個重要的嘗試是將Transformer[350]用于圖表示學習。transformer,無論是vanilla版本還是幾個變體,都已經在包括NLP [70, 350], CV[38, 469]等各種深度學習領域被采用,并取得了令人印象深刻的結果。最近,Transformer也在許多研究中顯示出強大的圖建模能力[46,81,193,386,415]。而廣泛的經驗結果表明,在基于transformer的方法中,傳統gnn中的一些慢性缺點可以很容易地克服。本節概述了這類方法的當前進展。

注意力操作的核心是基于源與待更新目標之間的相似度來完成信息遷移。這與全連接圖上的消息傳遞過程非常相似。然而,將這種架構直接應用到任意圖上并不能利用結構信息,因此在圖拓撲很重要的時候可能會導致性能不佳。另一方面,在圖中定義位置編碼并不是一個微不足道的問題,因為圖節點的順序或坐標是欠定義的。根據這兩個挑戰,基于transformer的圖表示學習方法可以分為兩大類,一類是在注意力過程中考慮圖結構,另一類是將圖的拓撲信息編碼為初始節點特征。我們將第一種命名為注意力修正,第二種命名為編碼增強。表4提供了一個總結。在接下來的討論中,如果在一篇論文中同時使用了兩種方法,我們將在不同的小節中列出,我們將忽略注意力操作中的多頭技巧。

本節介紹了基于transformer的圖表示學習方法,總結如下:

技術。圖Transformer方法修改了Transformer中的兩項基本技術,注意力操作和位置編碼,以增強其編碼圖數據的能力。通常,它們引入全連接注意力來建模長距離關系,利用最短路徑和拉普拉斯特征向量來打破1-WL瓶頸,并將屬于不同類別的點和邊分開以避免過度混合問題。

挑戰和限制。盡管圖transformer取得了令人鼓舞的性能,但它們仍然面臨兩個主要挑戰。第一個挑戰是二次注意力機制和最短路徑計算的計算成本。這些操作需要大量的計算資源,可能成為瓶頸,特別是對于大型圖。其次是基于transformer的模型對大量數據的依賴,以獲得穩定的性能。它在處理缺乏足夠數據的問題時提出了挑戰,特別是在少樣本和零樣本設置時。

未來的工作。我們期望進一步探索Graph Transformer的效率提升。此外,有一些工作使用預訓練和微調框架來平衡下游任務中的性能和復雜性[415],這可能是解決上述兩個挑戰的有希望的解決方案。

6. 圖半監督學習

我們研究了圖神經網絡的各種架構,其中的參數應該由學習目標調整。最流行的優化方法是圖數據上的監督學習。由于標簽scarify的存在,半監督學習在數據挖掘界引起了越來越多的關注。在細節上,這些方法試圖將圖表示學習與當前包括偽標記、一致性學習、知識蒸餾和主動學習在內的半監督技術相結合。這些工作可以進一步細分為節點級表示學習和圖級表示學習。我們將分別在第7.1節和第7.2節中詳細介紹這兩部分。表5給出了一個總結。

本節介紹用于圖表示學習的半監督學習,我們提供如下摘要:

技術。經典節點分類旨在對訪問未標記數據的圖進行直推式學習,這是一個自然的半監督問題。半監督圖分類旨在緩解對大量標記圖的需求。在這里,人們提出了多種半監督方法,以在標簽稀缺的情況下實現更好的性能。通常,他們試圖將主動學習、偽標記、一致性學習和一致性學習等半監督技術與圖表示學習相結合。

挑戰和限制。盡管取得了巨大的成功,但這些方法的性能仍然不令人滿意,特別是在圖級表示學習方面。例如,DSGC在二分類數據集REDDIT-BINARY中只能達到57%的準確率。更糟糕的是,標簽稀缺往往伴隨著不平衡的數據集和潛在的域偏移,這為現實世界的應用提供了更多的挑戰。

未來工作。在未來,我們期望這些方法可以應用于不同的問題,如分子性質預測。還有一些工作可以擴展圖表示學習的應用場景,如少樣本學習[41,249]。對于更先進、更有效的半監督技術,總是期待更高的精度。

7. 圖自監督學習

除了監督或半監督方法之外,近年來自監督學習(SSL)在數據挖掘和表示嵌入方面也顯示出強大的能力。在本節中,我們研究了基于SSL的圖神經網絡,并對幾個典型的模型進行了詳細介紹。圖SSL方法通常有一個統一的管道,包括前置任務和下游任務。前置任務幫助模型編碼器學習更好的表示,這是在下游任務中表現更好的前提。因此,精致的前置任務設計對于Graph SSL至關重要。我們將首先在8.1節介紹Graph SSL的整體框架,然后在8.2節和8.3節分別介紹兩種前置任務設計,基于生成的方法和基于對比的方法。表6提供了一個總結。本節介紹圖的自監督學習,總結如下:

技術。與經典的監督學習和半監督學習不同,自監督學習提高了模型泛化能力和魯棒性,同時降低了對標簽的依賴。Graph SSL利用前置任務來提取表示分布中的固有信息。典型的Graph SSL方法可以分為基于生成的和基于對比的兩種。基于生成的方法學習一個編碼器,該編碼器具有盡可能精確地重建圖的能力,由自動編碼器驅動。基于對比的方法最近引起了極大的興趣,它們學習一個編碼器,以最小化相關實例之間的互信息和最大化不相關實例之間的互信息。 挑戰和局限。盡管graph SSL在許多任務中取得了卓越的性能,但它的理論基礎并不那么堅實。許多眾所周知的方法只是通過實驗進行驗證,而沒有解釋理論或提出數學證明。為graph SSL建立一個強大的理論基礎是勢在必行的。 未來的工作。未來,我們期待更多基本上通過理論證明設計的graph ssl方法,而不是通過直覺專門設計的增強過程或偽裝任務。這將給我們帶來更明確的數學屬性和更少模糊的經驗意義。此外,圖是跨不同領域的數據表示的一種普遍形式,然而獲得手工標簽可能非常昂貴。將graph SSL的應用擴展到更廣泛的領域是未來研究的一個有希望的途徑。

8. 圖結構學習

圖結構決定了節點特征如何相互傳播和影響,在圖表示學習中起著至關重要的作用。在某些場景中,提供的圖是不完整的、有噪聲的,甚至根本沒有結構信息。最近的研究還發現,圖的對抗攻擊(即修改少量節點特征或邊)可以顯著降低學習到的表示。這些問題激發了圖結構學習(GSL),它旨在學習一種新的圖結構以產生最優的圖表示。根據邊連接的建模方式,GSL中有三種不同的方法,即基于度量的方法、基于模型的方法和直接的方法。除了邊建模,正則化也是一種常用的技巧,可以使學習到的圖滿足一些期望的屬性。我們首先介紹了基本框架和分別在9.1節和9.2節中介紹GSL的正則化方法,然后在9.3節、9.4節和9.5節中介紹GSL的不同類別。我們在表7中總結了GSL的方法

本節和我們提供的總結如下:

技術。GSL旨在學習一個優化的圖結構以獲得更好的圖表示。它還用于對抗對抗攻擊的更魯棒的圖表示。根據邊緣建模的方式,我們將GSL分為三組:基于度量的方法、基于模型的方法和直接方法。正則化也是一種常用的原理,使學習到的圖結構滿足包括稀疏性、低秩性和平滑性在內的特定屬性。 挑戰和限制。由于沒有辦法訪問groundtruth或最佳圖結構作為訓練數據,GSL的學習目標要么是間接的(例如,在下游任務上的性能),要么是手動設計的(例如,稀疏性和平滑性)。因此,GSL的優化是困難的,性能并不令人滿意。此外,許多GSL方法都是基于同質性假設,即相似的節點更容易相互連接。然而,現實世界中存在著許多其他類型的連接,這給GSL帶來了巨大的挑戰。 未來的工作。在未來,我們期望更高效和可泛化的GSL方法被應用于大規模和異構圖。大多數現有的GSL方法專注于成對節點相似性,因此難以擴展到大型圖。此外,它們通常學習同質的圖結構,但在許多場景中圖是異構的。

9 結論

在本綜述中,我們對深度圖表示學習進行了全面和最新的概述。提出了現有算法的一種新的分類法,分為GNN架構、學習范式和應用。技術上,我們首先總結了GNN架構的方法,即圖卷積、圖核神經網絡、圖池化和圖transformer。基于不同的訓練目標,我們提出了三種最新的高級學習范式,即:圖上的監督/半監督學習,圖自監督學習和圖結構學習。然后,我們提供了幾個有希望的應用,以證明深度圖表示學習的有效性。最后但同樣重要的是,我們討論了深度圖表示學習中具有潛在機會的未來方向。

付費5元查看完整內容

圖在表示關系數據(如化合物、蛋白質和社交網絡)方面具有卓越的能力。因此,圖級學習以一組圖作為輸入,已應用于許多任務,包括比較、回歸、分類等。傳統的圖學習方法往往依賴于手工設計的特征,如子結構。但是,雖然這些方法受益于良好的可解釋性,但它們往往遭受計算瓶頸,因為它們不能繞過圖同構問題。相反,深度學習通過自動提取特征并將圖解碼為低維表示,幫助圖級學習適應不斷增長的圖規模。**因此,這些深度圖學習方法取得了許多成功。然而,沒有一個全面的調研來回顧從傳統學習到深度學習方法的圖級學習。本文填補了這一空白,并將具有代表性的算法框架化為一個系統的分類,包括傳統學習、圖級深度神經網絡、圖級圖神經網絡和圖池化。為了確保一個徹底的全面的綜述,從四個不同的分支的開發方法之間的演變,交互和交流也被檢查。**接下來簡要回顧基準數據集、評估指標和常見的下游應用。該調研總結了13個必要研究的未來方向,這些研究將有助于克服這一蓬勃發展的領域面臨的挑戰。

//arxiv.org/abs/2301.05860

1. 引言

對圖結構數據的研究始于18世紀的哥尼斯堡橋問題,即:“我們如何在哥尼斯堡市的7座橋中設計一條每座橋只穿過一次的路徑?”1741年,Euler將7座橋梁建模成一個圖,并證明在沒有重復路徑[1]的情況下,該圖是不能完全遍歷的。在圖中,節點表示橋梁之間的連接點,而邊表示橋梁本身。**從那時起,圖結構數據已經成為建模和探索世界不可或缺的一部分。在大量與圖相關的文獻中,圖級學習引起了相當大的關注。圖級學習是對由圖組成的數據集的分析。**例如,圖同構問題,即兩個成對圖是否同構的問題,自1942年首次提出以來吸引了大量的研究[2]-[4][5]。進一步,在2016年[6]提出一個擬多項式時間解之前,圖同構被認為是NP-immediate的候選對象。還研究了其他有重要價值的應用。例如,Wang et al.[7]采用分子圖,其中節點表示原子,邊表示化學鍵,并執行圖回歸作為預測分子特性的一種方法,以幫助發現更經濟的晶體。在另一項研究中,基于一系列蛋白質圖的圖生成任務用于生成具有特定功能的蛋白質圖,以支持藥物發現[8]。同樣,基于腦圖的圖分類具有將神經系統疾病的腦結構與健康個體[9]的腦結構區分開來的潛力。

**傳統的圖級學習主要依賴手工設計的特征來區分圖。然而,盡管手工特征賦予了傳統方法良好的可解釋性,但它們通常具有較高的計算復雜度,這是阻礙其部署的主要障礙。**該方法的復雜性在于:(1)大規模圖數據中手工特征通常過于稀疏;(2)大多數依賴于這些手工特征的圖級學習算法通常涉及圖同構問題。例如,一些傳統的圖分類方法是根據從圖數據集中分解出的一系列子結構對圖進行分類的,其主要問題是判斷是否存在同構子結構。然而,深度學習技術已經開啟了圖級學習的新時代。通過這些方法,可以以端到端的方式自動學習圖的非線性和特定任務的特征,這為最先進的性能帶來了新的基準。此外,深度神經網絡學習的高維表示可以支持不斷增長的圖數據規模。美中不足的是,深度學習的黑箱性質導致可信性下降,因此一個新的趨勢是通過傳統技術開發可靠的神經網絡。

**此外,要理解跨越傳統和深度學習的各種圖級學習技術,需要全面回顧大量的圖級學習文獻。有一些關于學習圖結構數據的調研。**然而,這些評論有兩個主要缺點。首先,現有的研究大多集中在探索單個圖中的節點/邊/子結構的文章,如網絡嵌入[10]、社區檢測[11]、[12]、異常檢測[13]和圖神經網絡[14]、[15];圖級學習被視為占用分段或更少部分的副產品。圖1說明了單個圖上的圖學習和圖級別學習之間的差異。其次,僅從單一角度研究圖級學習,如圖核[16]或圖池[17]。因此,這些調研并不全面,因為它們忽略了不同圖級學習技術之間的相互作用。據我們所知,這是對圖級學習的第一次全面調查,涵蓋了傳統方法和基于深度學習的技術。詳盡地描述了圖級學習不同時期的主流技術(見圖2),并進一步討論了它們之間的演變、相互作用和交流。因此,本調研的貢獻包括: * 全面的分類法:本文提出了圖級學習技術的全面分類法。具體來說,該分類涵蓋了通過傳統和深度學習方法進行的圖級學習。 * 深度回顧:總結了四類具有代表性的算法,進行了比較,并討論了現有方法的貢獻和局限性。 * 豐富的資源:這份調研為讀者提供了豐富的圖級學習資源,包括最先進算法的信息,不同領域的基準數據集,不同圖級學習任務的公平評估指標,以及實際的下游應用。本文的存儲庫可在 * 未來方向:本文確定了圖級學習領域的13個重要未來方向。

圖2:四種主流技術下的圖級學習時間線。

**本節提供圖級學習技術的分類。**它的類別包括傳統學習,圖級深度神經網絡(GL-DNNs),圖級圖神經網絡(GL-GNNs)和圖池化。圖3中的分類樹描述了圖級學習的這四個分支,并突出了所選算法。接下來簡要介紹每一類。 A. 傳統的學習:

在深度學習技術取得巨大成功之前,傳統的學習形式曾經是圖級學習的主流。傳統的學習方法大多依賴手工特征來描述圖,如隨機游走序列[16]。給定確定性的圖描述,使用現成的機器學習模型以非端到端的方式執行下游任務,如圖分類。即使在今天,傳統方法也比深度學習技術具有一些優勢,例如更好的可解釋性和更好的建模不規則結構的能力。出于這些原因,傳統方法仍然為圖級學習社區提供了有價值的見解。

B.圖級深度神經網絡(GL-DNNs):

傳統方法不僅僅包括經典方法。它們還包括對深度學習技術的初步探索,如RNN、CNN和CapsNet。這三種類型的深度神經網絡最初并不是為了學習像圖這樣的非歐氏數據而設計的。因此,GL-DNNs的一個重要問題是如何使這些深度神經網絡學習大小不一且鄰域結構不規則的圖結構數據。

C.圖級圖神經網絡(GL-GNNs):

GL-GNNs使用專門為圖結構數據提出的圖卷積操作作為執行圖級學習的主干。大多數GL-GNN使用圖卷積MPNNs框架,因為它們簡單,易于理解,并且具有線性復雜度。GL-GNNs凝聚了圖級學習最豐富的成果。此外,一些從業者將基于MPNN的GL-GNN的優勢與其他技術,特別是傳統學習技術相結合,以提高圖級學習。

D .圖池化:

圖池化是一種縮小圖規模的技術,通過將一系列節點壓縮為一個超級節點來產生圖的緊湊表示。例如,圖池化可以通過求和或平均操作將圖的所有節點嵌入全局聚合到一個最終超級節點中。同時,圖池化可以逐層減小圖的大小。這種多層縮小過程傾向于在每一層聚集同一層次結構(例如,社區)中的節點。

付費5元查看完整內容

量子計算機是下一代設備,有望完成經典計算機無法完成的計算。實現這一目標的一種主要方法是通過量子機器學習,特別是量子生成學習。由于量子力學固有的概率性質,我們有理由假設量子生成學習模型(QGLMs)可能會超越經典模型。因此,QGLMs 越來越受到量子物理和計算機科學領域的關注,各種可以在近期量子機上高效實現且具有潛在計算優勢的QGLMs被提出。本文從機器學習的角度綜述了QGLMs 的研究進展。特別地,我們解釋了這些QGLMs ,包括量子電路Born機器、量子生成對抗網絡、量子玻爾茲曼機器和量子自編碼器,作為經典生成學習模型的量子擴展。在此背景下,我們探討它們的內在聯系和根本區別。我們進一步總結了QGLMs 在傳統機器學習任務和量子物理中的潛在應用。最后,我們討論了QGLMs 面臨的挑戰和進一步的研究方向。

//www.zhuanzhi.ai/paper/10f0db3781222d991dcdde521af288f6

在過去的十年中,深度生成學習模型(GLM)徹底改變了經典世界[1],包括但不限于計算機視覺[2]、自然語言處理[3]和藥物發現[4]。GLM的空前成功源于深度神經網絡的強大力量,它可以有效地捕獲訓練數據的底層分布,然后從相同的分布中生成新的樣本。由于這一特性,GLM最近被用于解決量子物理科學中的基本問題。也就是說,GLM被用來解決量子物理[5]中遇到的“維度詛咒”。與傳統方法相比,該方法總體性能更好,泛化能力也有所提高。所有這些特征都有助于物理學家理解自然機制。

在設計先進的GLMs 和探索其潛在應用的同時,人工智能的另一個關鍵研究方向是尋找具有增強能力的下一代GLMs 。目前的挑戰是克服GLMs 的計算開銷,因為摩爾定律的極限接近[6]。為此,一個領先的解決方案是在量子計算機上執行GLMs ,這已經展示了強大的理論和實驗性能[7,8]。在這方面,研究人員做了大量工作來設計量子生成學習模型(QGLMs),使其能夠在具有計算優勢的噪聲中尺度量子機器[9]上高效地進行。迄今為止,大量的研究已經證明了GLMs 在不同學習任務中的可行性,例如圖像生成[10]、量子態近似[11]和藥物設計[12]。

QGLMs 的快速發展需要對現有的工作進行系統的回顧,這將有利于計算機科學和量子物理社區的研究人員。為此,在本綜述中,我們通過深度生成學習的視角分析了QGLMs 的當前進展。最后,根據遺傳算法的典型協議,我們將遺傳算法分為四種類型:量子電路波恩機(QCBM)、量子生成對抗網絡(QGAN)、量子玻爾茲曼機(QBM)和量子自編碼器(QAE)。對于每種類型的QGLM,我們首先介紹其開創性工作及其與經典對應的固有關系,然后闡明其變體和在傳統機器學習和量子物理的潛在應用。據我們所知,這是在量子生成學習的背景下的第一次回顧。我們相信這項調查可以幫助不同背景的觀眾了解QGLMs的發展。

本次調研的結構如圖1所示。在第2節中,我們介紹了深度神經網絡的基本知識,典型的經典生成學習模型,量子計算和變分量子算法。在第3節中,我們系統地回顧了先前與QGLMs 相關的文獻,并解釋了它們與經典對應物的關系。根據QGLMs 的分類,本節包括四個子節,分別對QCBM、QGAN、QBM和QAE進行定位。在第4節中,我們討論了量子生成學習的挑戰和未來的方向。

經典和量子生成學習模型概述。左邊的面板說明了經典和量子生成學習的興趣數據分布。右邊的面板說明了經典和量子生成學習模型的類似工作機制(即,由經典神經網絡和量子神經網絡實現)。簡而言之,兩種學習模型的目的都是最小化它們生成的目標分布和估計分布之間的差異。最小化過程由經典優化器完成,該優化器不斷更新學習模型的可訓練參數。

付費5元查看完整內容

圖分析用于深入挖掘圖數據的內在特征,然而圖作為非歐幾里德數據,傳統的數據分析方法普遍存在較高的計算量和空間開銷。圖嵌入是一種解決圖分析問題的有效方法,其將原始圖數據轉換到低維空間并保留關鍵信息,從而提升節點分類、鏈接預測、節點聚類等下游任務的性能。與以往的研究不同,同時對靜態圖和動態圖嵌入文獻進行全面回顧,我們提出一種靜態圖嵌入和動態圖嵌入通用分類方法, 即基于矩陣分解的圖嵌入、基于隨機游走的圖嵌入、基于自編碼器的圖嵌入、基于圖神經網絡(GNN)的圖嵌入和基于其他方法的圖嵌入。其次,對靜態圖和動態圖方法的理論相關性進行分析,對模型核心策略、下游任務和數據集進行全面總結。最后,提出了四個圖嵌入的潛在研究方向。

//fcst.ceaj.org/article/2022/1673-9418/1673-9418-16-1-59.shtml

圖是復雜系統中常用的信息載體,可以表示現實中許多復雜關系,如社交網絡[1]、犯罪網絡[2]、交通網絡[3]等。圖結構作為一種非歐幾里德數據,很難直接應用卷積神經網絡(convolutional neural network,CNN)[4]和循環神經網絡(recurrent neural network,RNN)[5]等深度學習方法[6]。為了構造用于圖數據挖掘的特征表示,圖嵌入將節點映射到低維空間,生成保留原始圖中某些重要信息的低維向量。目前,圖嵌入不僅在節點分類[7]、鏈接預測[8]、節點聚類[9]、可視化[10]等復雜網絡上的機器學習任務中獲得成功,還廣泛用于社交影響力建模[11]、內容推薦[12]等現實任務。

早期的圖嵌入算法主要用于數據降維,通過鄰域關系構建相似度圖,將節點嵌入低維向量空間,并保持相連節點向量的相似性。這類方法通常時間復雜度高,很難擴展到大型圖上。近年來,圖嵌入算法轉向擴展性強的方法。例如,矩陣分解方法[13]使用鄰接矩陣的近似分解作為嵌入;隨機游走法[14]將游走序列輸入到Skip-Gram[15]生成嵌入。這些方法利用圖的稀疏性降低了時間復雜度。當前,很多綜述[16,17,18,19,20,21]對圖嵌入方法進行了歸納與總結,但存在兩大局限:一是部分綜述僅涉及傳統方法介紹,許多新模型沒有納入研究;二是這些綜述只關注靜態圖嵌入或動態圖嵌入,忽略了二者之間的關聯性。

本文對圖嵌入方法進行全面系統性綜述,有以下三方面的貢獻:(1)提出一種新的圖嵌入分類法,同時對靜態圖和動態圖方法進行分類;(2)對現有模型進行系統性分析,為理解現有方法提供新視角;(3)提出了四個圖嵌入的潛在研究方向。

付費5元查看完整內容

社區揭示了不同于網絡中其他社區成員的特征和聯系。社區檢測在網絡分析中具有重要意義。除了經典的譜聚類和統計推理方法,我們注意到近年來用于社區檢測的深度學習技術在處理高維網絡數據方面的優勢有了顯著的發展。因此,通過深度學習對社區檢測的最新進展進行全面概述,對學者和從業者都是及時的。本文設計并提出了一種新的分類方法,包括基于深度神經網絡的深度學習模型、深度非負矩陣分解和深度稀疏濾波。主要的類別,即深度神經網絡,進一步分為卷積網絡,圖注意力網絡,生成對抗網絡和自動編碼器。綜述還總結了流行的基準數據集、模型評估指標和開源實現,以解決實驗設置。然后討論了社區檢測在各個領域的實際應用,并提出了實現方案。最后,通過提出這一快速發展的深度學習領域中具有挑戰性的課題,我們概述了未來的發展方向。

//www.zhuanzhi.ai/paper/eb70a346cb2540dab57be737828445c6

引言

早在20世紀20年代,社會學和社會人類學就對社區進行了研究。然而,直到21世紀之后,研究人員才開始利用強大的數學工具和大規模數據操作來檢測社區,以解決具有挑戰性的問題[2]。自2002年[3]以來,Girvan和Newman將圖劃分問題引起了更廣泛的關注。在過去的10年里,計算機科學研究者廣泛研究了基于網絡拓撲結構[5]-[8]和實體語義信息[9]-[11]、靜態網絡[12]-[14]、小型網絡和大型網絡[15]-[17]的社區檢測問題[4]。越來越多的基于圖的方法被開發出來用于檢測具有復雜數據結構[18],[19]環境中的社區。通過社區檢測,可以詳細分析網絡中社區的動態和影響,如謠言傳播、病毒爆發、腫瘤進化等。

社區的存在推動了社區檢測研究的發展,是一個越來越具有現實意義的研究領域。俗話說,物以類聚,人以群分。根據六度分離理論,世界上任何一個人都可以通過六個熟人認識其他人[21]。事實上,我們的世界是一個由一系列社區組成的巨大網絡。例如,通過檢測社交網絡[22]-[24]中的社區,如圖1所示,平臺贊助商可以向目標用戶推廣他們的產品。在引文網絡[25]中,社區檢測決定了研究主題的重要性、關聯性、演化和識別研究趨勢。在代謝網絡[26]、[27]和蛋白質-蛋白質相互作用(PPI)網絡[28]中,社區檢測揭示了具有相似生物學功能的代謝和蛋白質。同樣,腦網絡[19]、[29]中的社區檢測反映了腦區域的功能和解剖分離。

許多傳統的技術,如譜聚類[30],[31]和統計推理[32]-[35],被用于小型網絡和簡單的場景。然而,由于它們的計算和空間成本巨大,它們無法擴展到大型網絡或具有高維特征的網絡。現實網絡中非線性結構信息豐富,使得傳統模型在實際應用中不太適用。因此,需要更強大的具有良好計算性能的技術。目前,深度學習提供了最靈活的解決方案,因為深度學習模型: (1) 學習非線性網絡屬性,如節點之間的關系,(2) 提供一個低維的網絡表示,保持復雜的網絡結構,(3) 提高了從各種信息中檢測社區的性能。因此,深度學習用于社區檢測是一種新的趨勢,需要及時全面的調查。

據我們所知,本文是第一次全面調研深度學習在社區檢測方面的貢獻。以往的研究主要集中在傳統的社區檢測上,回顧了其在發現網絡固有模式和功能[36]、[37]方面的重要影響。這篇論文綜述了一些具體的技術,但不限于: 基于隨機塊模型(sms)的部分檢測[38],標簽傳播算法(LPAs)[39],[40],以及單目標和多目標優化的進化計算[13],[14]。在網絡類型方面,研究人員綜述了動態網絡[12]、有向網絡[41]和多層網絡[5]中的社區檢測方法。此外,[6],[7]還回顧了一系列關于不相交和重疊的社區缺陷的概述。圍繞應用場景,以往的論文綜述了社交網絡[9]、[42]中的社區檢測技術。

本文旨在幫助研究人員和從業者從以下幾個方面了解社區檢測領域的過去、現在和未來趨勢:

  • 系統性分類和綜合評價。我們為此項綜述提出了一個新的系統分類(見圖3)。對于每個類別,我們回顧、總結和比較代表性的工作。我們還簡要介紹了現實世界中的社區檢測應用。這些場景為未來的社區檢測研究和實踐提供了見解。

  • 豐富的資源和高影響力的參考資料。該綜述不僅是文獻綜述,而且是基準數據集、評估指標、開源實現和實際應用的資源集合。我們在最新的高影響力國際會議和高質量同行評審期刊上廣泛調查社區檢測出版物,涵蓋人工智能、機器學習、數據挖掘和數據發現等領域。

  • 未來的發展方向。由于深度學習是一個新的研究趨勢,我們討論了當前的局限性,關鍵的挑戰和開放的問題,為未來的方向。

社區檢測在網絡分析和數據挖掘中具有重要意義。圖4展示了傳統學習方法和深度學習方法的發展。傳統的方法是在網絡結構上探索社區。這七種方法(圖3左圖)僅以一種簡單的方式捕捉淺連接。傳統方法的檢測結果往往是次優的。我們將在本節簡要回顧它們的代表性方法。深度學習方法(圖3右圖)揭示了深度網絡信息,復雜關系,處理高維數據。

本文提出了一種深度社區檢測的分類方法。分類法將方法歸納為六類: 卷積網絡、圖注意力網絡(GAT)、生成對抗網絡(GAN)、自動編碼器(AE)、深度非負矩陣分解(DNMF)和基于深度稀疏濾波(DSF)的深度社區檢測方法。卷積網絡包括卷積神經網絡(CNN)和圖卷積網絡(GCN)。AE又分為堆疊型AE、稀疏型AE、去噪型AE、圖卷積型AE、圖關注型AE和變分型AE (VAE)。

付費5元查看完整內容
北京阿比特科技有限公司