拓撲深度學習最新概述文章,值得關注!
拓撲深度學習是一個迅速發展的領域,涉及為支持拓撲域(如單純復合物、胞復合物和超圖)的數據開發深度學習模型,這些拓撲域推廣了在科學計算中遇到的許多領域。在本文中,我們提出了一個統一的深度學習框架,該框架基于一種更豐富的數據結構,包括廣泛采用的拓撲域。具體來說,我們首先引入組合復合物,一種新型的拓撲域。組合復合物可以看作是保持某些期望性質的圖的泛化。與超圖類似,組合復合物對關系集合沒有約束。此外,組合復合物允許構建類似于單純復合物和胞復合物中的分層高階關系。因此,組合復合物泛化并結合了超圖和胞復合物的有用特性,這兩者已經成為促使圖神經網絡向拓撲空間推廣的有前景的抽象。其次,基于組合復合物及其豐富的組合和代數結構,我們開發了一般類的消息傳遞組合復合物神經網絡(CCNNs),主要關注基于注意力的CCNNs。我們描述了CCNNs的排列和方向等變性,并詳細討論了CCNNs中的匯集和反匯集操作。第三,我們評估了CCNNs在與網格形狀分析和圖學習相關的任務上的性能。我們的實驗表明,與專門針對相同任務的最先進的深度學習模型相比,CCNNs具有競爭性的性能。我們的研究結果證明了將高階關系納入不同應用的深度學習模型的優勢。
引言
近年來,用于計算分析的數據量呈指數級增長,包括科學數據以及文本、圖像和音頻等常見數據類型。這大量的數據使得包括物理學、化學、計算社會科學和生物學在內的各個領域得以利用機器學習技術(主要是深度神經網絡)取得重大進展。由于深度神經網絡可以有效地總結和提取大型數據集中的模式,因此它們適用于許多復雜任務。最初,深度神經網絡是為了學習基于規律(歐幾里得)領域的數據而發展起來的,例如圖像中的網格、文本序列和時間序列。這些模型,包括卷積神經網絡(CNNs)[156, 162, 243]、循環神經網絡(RNNs)[249, 13]和變換器(Transformers)[256],在處理這類歐幾里得數據方面已被證明具有很高的效果[117],在各種應用中取得了空前的性能,最近的例子包括聊天機器人(例如 ChatGPT [2])和文本控制的圖像合成[223]。
然而,各個領域的科學數據往往具有不同的結構,并不都是基于規律的歐幾里得域。因此,調整深度神經網絡來處理這類數據一直是個挑戰。在這一背景下,幾何深度學習(GDL)[50, 284, 268]作為深度學習模型在非歐幾里得領域的擴展應運而生。為了實現這一目標,GDL通過幾何規律原理(如對稱性、不變性和等變性)對執行的計算進行限制。GDL的視角使得在處理任意數據域時可以施加適當的歸納偏見,包括集合[215, 217, 81, 283, 138]、網格[45, 187, 46, 154, 242, 267, 196]、流形[45, 187, 46, 154, 242, 267, 196]和圖[232, 101, 284, 268, 46, 196, 49, 150]。特別是圖,由于其在眾多科學研究中的適用性以及它們能夠泛化傳統網格的能力,因而受到了人們的關注。因此,圖神經網絡(GNNs)[49, 150]的發展顯著提高了我們在自然出現圖的多種數據類型中進行建模和分析的能力。
盡管幾何深度學習(GDL)和圖神經網絡(GNNs)取得了成功,但僅從純幾何的角度看待圖形會產生純粹的局部抽象,并無法捕捉數據中的非局部特性和依賴關系。拓撲數據,包括邊(在圖中)、三角形(在網格中)或團的相互作用,在復雜物理系統[30, 161]、交通預測[144]、社會影響[285]、蛋白質相互作用[200]、分子設計[237]、視覺增強[95]、推薦系統[160]和流行病學[82]等眾多新穎應用中自然產生。為了本質上和有效地對這些數據建模,我們必須超越圖形,考慮在某些幾何變換下保持不變的定性空間屬性。換句話說,我們需要考慮數據的拓撲結構[58],以構建能夠從復雜數據中提取語義含義的神經網絡架構。從數據中提取更多全局信息的一種方法是超越基于圖的抽象,考慮圖的擴展,如單純復形、胞復形和超圖,這些概念可以推廣到科學計算中遇到的大多數數據領域[41, 29, 32, 253]。學習從這些拓撲領域支持的數據中學習的機器學習模型的發展[97, 53, 222, 234, 42, 121, 123, 91, 235, 221, 112, 272]是一個迅速增長的新領域,我們將其稱為拓撲深度學習(TDL)。TDL融合了幾個研究領域,包括拓撲數據分析(TDA)[93, 58, 86, 178, 108]、拓撲信號處理[233, 273, 236, 222, 21, 219, 229]、網絡科學[245, 161, 20, 29, 41, 39, 33, 80, 19, 203]和幾何深度學習[278, 56, 99, 177, 27, 197, 26]。
盡管對拓撲深度學習(TDL)的興趣日益增長,但迄今為止尚未建立這些思想的基本原則的更廣泛綜合。我們認為,這種不足阻礙了TDL的進展,因為這使得在不同概念之間建立聯系變得具有挑戰性,阻礙了比較,并使其他領域的研究者難以找到進入TDL的切入點。因此,在本文中,我們旨在提供一個關于TDL原則的基本概述,不僅作為近年來文獻中涌現出的許多令人興奮的想法的統一框架,還作為一個概念性的起點,以促進新想法的探索。最終,我們希望這項工作將有助于TDL的加速發展,我們相信這將成為將深度學習成功轉移到更廣泛應用場景的關鍵推動力。受到代數拓撲[108, 133]中傳統拓撲概念以及高階網絡方面的最新進展[29, 253, 41, 30]的啟發,我們首先引入組合復形(CCs)作為我們TDL框架的主要構建模塊。組合復形構成了一個新穎的拓撲領域,將圖形、單純復形、胞復形和超圖作為特殊情況加以統一,如圖11所示。與超圖類似,CCs(連接復合體)可以在抽象實體集合之間編碼任意集合式關系。此外,CCs允許構建類似于在單純形和胞腔復合體中發現的分層高階關系。因此,CCs將超圖和胞腔復合體的最期待的 特性進行了概括和整合。
此外,我們引入了構建深度神經網絡所需的運算符,以便基于組合復合體學習輸入特征和抽象概括。這些運算符提供了卷積、注意力機制、信息傳遞方案以及實現不變性、等變性或其他幾何規律的方法。具體而言,我們的新穎的前推操作允許在不同維度之間傳遞數據,從而構成了在CCs(連接復合體)上定義高階信息傳遞協議和(非)池化操作的基本構建模塊。由此產生的學習機器,我們稱之為組合復合體神經網絡(CCNNs),如我們的實驗評估中所清楚地展示的那樣,它們能夠學習抽象的高階數據結構。 我們設想我們的貢獻將成為一個平臺,鼓勵研究人員和實踐者擴展我們的CCNNs,并邀請社區在我們的工作基礎上擴展高階領域的TDL(拓撲數據學習)。我們的貢獻如圖1所示,包括以下幾點:
首先,我們將CCs(連接復合體)引入作為TDL(拓撲數據學習)領域。我們描述了CCs及其屬性,并解釋了它們如何概括主要現有領域,例如圖、超圖、單純形和胞腔復合體。因此,CCs可以作為一個統一的起點,實現拓撲數據的表達式表示的學習。
其次,使用CCs作為領域,我們構建了CCNNs,這是一種基于超圖和胞腔復合體的TDL模型的抽象高階信息傳遞神經網絡類,為這些模型提供了統一的藍圖。
*基于在CCs上定義的前推操作符,我們為CCNNs引入了卷積、注意力、池化和反池化操作符。
第三,我們在實際場景中評估我們的想法。
近年來,人工智能(AI)及其應用引發了極大的興趣。這一成就可以部分歸因于人工智能子領域的進步,包括機器學習(ML)、計算機視覺(CV)和自然語言處理(NLP)。深度學習是機器學習的一個子領域,它采用人工神經網絡的概念,使這些領域增長最快。因此,視覺和語言的融合引發了很多關注。這些任務的創建方式恰當地示范了深度學習的概念。本文對最先進的方法、關鍵模型設計原則進行了全面和廣泛的回顧,并討論了現有的數據集、方法及其問題表述和評估措施,用于VQA和視覺推理任務,以理解視覺和語言表示學習。本文還提出了該研究領域的一些潛在未來路徑,希望我們的研究可以產生新的想法和新方法,以處理現有的困難和開發新的應用。
//www.zhuanzhi.ai/paper/c05fe89db0bbc0ddc6f7535150f36371
1. 引言
深度神經網絡(DNNs)的最新進展促進了人工智能(AI)許多領域的研究,如自然語言處理(NLP)和計算機視覺(CV)。隨著計算資源的指數級增長和數據集規模的不斷增大,卷積神經網絡(CNN)[1]、循環神經網絡(RNNs)[2]和自編碼器[3]等DNNs模型在目標檢測[4]、機器翻譯[5]、圖像標題生成[6]、語音識別[7]等機器學習(ML)任務中取得了巨大的勝利。盡管如此,在處理混合了兩個通常獨立領域的語義和視覺數據的問題時,仍然存在一些好奇心。解決集成問題的方法應該支持視覺或文本信息的全面知識。
盡管最近取得了一些進展,但在一些需要對關系和圖結構數據進行推理的研究領域,如場景圖[8]和自然語言理解,智能體和人腦之間仍然存在巨大的差距。人類可以快速識別物體、它們在網格上的位置和圖像等歐幾里得數據,推斷它們的關系,識別活動,并響應關于圖像的隨機問題。建立一個具有計算機視覺和自然語言能力的系統模型,該系統可以回答關于圖像的隨機問題,這似乎很鼓舞人心。
有效地解決上述及相關問題可以帶來許多可能的應用。例如,視覺障礙者可以受益于視覺場景理解,這允許他們通過生成的描述獲取有關場景的信息并提出有關問題。理解監控視頻是另一個用途。[9]、自動駕駛[10]、視覺解說機器人、人機交互[11]、城市導航[12]等解決這些問題通常需要對圖像內容進行更高層次的推理。鑒于基礎和應用研究的廣泛跨度,近年來進行了各種調查,以提供視覺和語言任務集成的徹底概述。另一方面,這些研究側重于涉及語言和視覺融合的特定任務,如圖像描述[13-15]視覺問答[16,17]、動作識別[18]和視覺語義[19]。
本文對最先進的方法、關鍵模型設計原則進行了全面和廣泛的回顧,并討論了用于VQA和視覺推理任務的現有數據集和方法,以理解視覺和語言表示學習。首先,以視覺和語言表示學習任務為例介紹了視覺問答(VQA)和視覺推理。詳細探索了現有的標注數據集驅動的這些領域的巨大進步。然后,進一步介紹了視覺問答和視覺推理的現有方法和最新進展;最后,討論了存在的問題和未來可能的研究方向。
2. 視覺與語言
視覺和語言(V+L)研究是CV和NLP交叉的一個迷人的領域,它受到了兩個群體的大量關注。許多V+L挑戰促使組合式多模態表示學習取得了重大進展,已經在大規模人工標注數據集上進行了基準測試。V+L的基礎是視覺理解主題,例如流行的ResNet,它提取CNN特征。其次是語言理解,其最終目標是多模態學習。
3. 數據集
我們有許多大規模的標注數據集,這些數據集正在推動這一領域的巨大進步。VQA領域是如此復雜,一個合適的數據集應該足夠大,以表示現實世界中問題和視覺材料中的各種各樣的選項。事實上,在過去的幾年里,有許多流行的數據集來解決VQA和視覺推理的挑戰。我們將在接下來的幾節中討論在這項艱巨任務中經常使用的數據集。
4. 方法
在過去的五年中,發展了大量的視覺問答和視覺推理方法。另一方面,所有已知的方法都是從問題和圖像中提取特征,然后將特征組合起來給出答案。詞袋模型(BOW)[61],長短期記憶網絡(LSTM)[62],門控循環單元(GRU),編碼器和跳過思維向量都可以用于文本。在ImageNet上預訓練的CNN是最受歡迎的圖像特征選擇。在生成答案時,大多數技術都將問題表示為分類練習。因此,這些技術之間的主要區別在于它們如何合并文本和視覺數據。例如,將它們連接起來并通過線性分類器運行。此外,貝葉斯模型也可以用來表示問題、圖像和答案特征分布之間的核心關系。在本節中,我們將介紹幾種最近為VQA和視覺推理任務提出的架構。將這些模型分為三個主要部分:外部知識、神經網絡和顯式推理。下面我們將更詳細地討論每一節。
文本信息檢索(IR)系統側重于檢索能夠滿足用戶信息需求的文本文檔,通常以文本查詢的形式表示。多年來,這種固有的模糊描述已經形式化,并以文檔、信息需求和用戶的特定性質為特征。形式化的核心在于文檔相對于查詢的相關性概念,以及如何估計它們的相關性。多年來,已經提出了許多不同的排序模型來估計文檔響應查詢的相關性。這些模型依賴于查詢和文檔提供的信息,這些信息被用來派生“相關性信號”。多年來開發了許多排名模型,從布爾模型到概率和統計語言模型。這些“單詞包”模型利用文檔中查詢詞的存在或出現次數來推斷它們與查詢的相關性,并利用手工制作的函數來組合這些出現的查詢,比如BM25。隨著Web和社交平臺的興起,越來越多的與文檔相關的信息來源被識別出來。機器學習方法已被證明能有效地處理這種豐富的關聯信號,并將其應用于根據相關度估計對文檔進行排序,從而產生了許多學習-排序(LTR)模型。關聯信號是LTR模型的輸入特征,通常是手工設計的,這是一個耗時的過程。由于神經網絡在許多計算機視覺和自然語言處理任務上的突破,它們代表了當前最先進的方法來對文檔和查詢相關度進行排序**。神經信息檢索主要是利用深度神經網絡檢索能夠滿足用戶信息需求的文本文檔。在神經IR中,神經網絡通常以兩種不同的方式使用:學習結合相關信號的排序函數以產生文檔排序,以及學習文檔和查詢的抽象表示以捕獲它們的相關性信息**。在接下來的文章中,我們將介紹神經IR的最新方法。由于該領域的研究正在迅速發展,我們不會涵蓋神經IR的每一個方面,而是對該領域的主要思想和現有系統提供原則性的介紹。如果可以,我們會提供相關和更詳細的調查鏈接。
下面是關于這部分內容的快速概述。第1節提供了在IR中采用的不同文本表示的簡短描述,從經典的一熱編碼到學習-排序特征到單詞嵌入。第2節介紹了用于計算查詢和文檔對的聯合表示以進行相關性排名的主要神經體系結構。第3節關注專門為學習查詢和文檔文本的抽象復雜表示而定制的神經體系結構。第4節概述了神經IR系統中采用的部署方案,以及支持精確和近似最近鄰搜索的最常見的密集檢索索引。第5節討論了學習稀疏檢索中的當前方法,處理了對文檔的低維表示的學習,這些文檔可以存儲在倒索引或類似的數據結構中。最后,第6節作結束語。
圖分類研究最新綜述論文
圖數據廣泛存在于現實世界中, 可以自然地表示復合對象及其元素之間的復雜關聯. 對圖數據的分類是一 個非常重要且極具挑戰的問題, 在生物/化學信息學等領域有許多關鍵應用, 如分子屬性判斷, 新藥發現等. 但目前 尚缺乏對于圖分類研究的完整綜述. 首先給出圖分類問題的定義和該領域的挑戰; 然后梳理分析了兩類圖分類方 法—基于圖相似度計算的圖分類方法和基于圖神經網絡的圖分類方法; 接著給出了圖分類方法的評價指標、常用 數據集和實驗結果對比; 最后介紹了圖分類常見的實際應用場景, 展望了圖分類領域的未來研究方向并對全文進 行總結.
//www.jos.org.cn/jos/article/abstract/6323
圖數據 (graph data) 廣泛地存在于我們的生活中, 用于表示復合對象元素之間的復雜關系. 例如社交網絡, 引 文網絡, 生物化學網絡, 交通網絡等. 不同于結構規則的歐式數據, 圖數據的結構復雜, 蘊含著豐富的信息. 近年來,對圖數據的研究是學術界的一個熱點. 圖上的研究問題包括節點分類[1,2] , 圖分類[3,4] , 鏈路預測[5]等, 本文主要關注 圖分類問題. 給定一組圖, 圖分類的目標是學習圖和對應類別標簽的映射關系, 并預測未知圖的類別標簽. 圖分類 是一個重要的數據挖掘任務, 可以應用在很多領域, 例如化學信息學中, 通過對分子圖進行分類來判斷化合物分子 的誘變性、毒性、抗癌活性等[6,7] ; 生物信息學中, 通過蛋白質網絡分類判斷蛋白質是不是酶, 是不是具有對某種 疾病的治療能力[8,9] . 從這個角度來看, 圖分類研究具有非常重要的意義.
圖分類的研究方法主要包括基于圖核的方法, 基于圖匹配的方法和基于圖深度學習的方法. 目前已有一些針 對圖分類領域中某類特定方法的綜述, 如圖核方法綜述[10,11] , 圖相似度學習綜述[12] . 但就我們所知, 當前還沒有既 包括傳統方法又包括近年來快速發展的深度學習方法的圖分類研究綜述. 為了方便更多的研究人員, 本文梳理總 結了圖分類的各類研究方法和這些研究之間的相互關系. 本文將現有圖分類方法總結為兩大類, 第 1 類是基于相似度計算的圖分類方法. 基于相似度計算的圖分類是 通過計算成對圖的相似度對圖進行分類, 包括圖核方法和圖匹配方法. 其中, 圖核方法主要通過圖核的定義來計算 圖的相似度, 是常見的傳統圖分類方法. 過去多年中已經有多種基于圖核的分類方法被提出[13?15] , 它們共同的思想 是將圖分解為某種子結構, 通過對比不同圖上的子結構來計算圖的相似度進而進行圖分類. 基于圖匹配方法的圖 分類方法, 則是通過考慮一些跨圖的因素來計算圖之間的相似度分數進而對圖分類. 早期的圖分類問題主要關注 于圖核方法, 然而這種方法不夠靈活且通常計算代價較大, 圖的特征提取過程和圖的分類是獨立進行的, 因此無法 針對具體任務進行優化.
第 2 類是基于圖神經網絡的圖分類方法. 隨著深度學習在圖像, 文本等領域的成功, 研究人員開始關注用深度 學習建模圖數據. 基于深度學習的圖數據建模方法也逐漸被應用于圖分類問題[16?19] . 其中, 圖神經網絡應用于圖分 類問題時, 主要包括卷積算子和池化算子兩個重要部分. 卷積算子利用結構和節點特征信息對圖的特征進行提取, 池化算子對特征進行匯總得到整個圖的表示用于分類. 本文從這兩個角度對基于圖卷積神經網絡的圖分類進行了 總結分析. 盡管近期已有大量的基于圖神經網絡的方法應用于圖分類任務, 但這個領域仍然存在許多問題和挑戰, 例如領 域內不同模型的實驗設置不同導致的復現困難; 有些模型在特定數據集上表現較好, 但模型泛化能力有限; 此外, 圖 分類任務中對圖結構信息的利用也是一個挑戰. 本文從這個角度總結分析了圖分類中存在的挑戰和未來的研究方向.
本文第 1 節給出圖分類問題定義并指出圖分類領域中的問題和挑戰. 第 2 節梳理了基于相似度計算的圖分類 方法, 其中包括基于圖核方法的圖分類和基于圖匹配的圖分類. 第 3 節介紹并分析了基于圖神經網絡的圖分類方 法. 第 4 節關注圖分類方法的評價, 包括圖分類的數據集, 評價指標和一些典型方法的效果對比分析. 第 5 節匯總 了圖分類在各個領域的應用場景并給出未來可能的研究趨勢. 最后一節總結全文.
圖分類問題挑戰
圖分類是圖領域中一個極具挑戰的任務, 當前圖分類任務上仍然存在許多問題和難點, 主要包括以下幾個方面.
(1) 圖數據的復雜多樣性 生活中有大量的數據都可以用圖這種數據結構進行表示. 例如社交網絡, 化學分子結構, 生物蛋白質結構等. 每種類型的圖中都包含不同的特征信息和結構信息. 這種多樣的信息提高了圖數據的分類難度. 此外, 圖數據是非 歐空間數據, 一般來說, 每個圖的節點數不同, 圖中節點連接方式不同, 每個節點的鄰居個數也不同. 卷積、池化等 在歐式數據中比較容易定義的操作, 很難直接遷移到圖數據上. 圖數據的復雜性和多樣性, 為圖數據的分類帶來非 常大的挑戰.
(2) 圖結構信息的有效建模 作為非歐數據, 圖的結構信息非常豐富. 圖數據的結構信息是指圖上節點之間的連接關系, 包括節點的一階連 接信息, 二階信息以及高階信息等[21] . 圖上機器學習的最基礎挑戰之一就是找到一種可以表示、編碼圖結構的方 法, 從而使得圖結構信息可以被機器學習方法有效利用[22] . 圖的結構信息對于圖分類任務也至關重要. 例如, 在生 物信息學等領域的數據集中, 圖的屬性標簽與圖上的某些結構模式有著必然的聯系. 然而 Errica 等人[23]在實驗中 發現, 目前基于圖神經網絡的圖分類方法在大部分數據集上并沒能有效地利用到圖的結構信息, 其對于圖分類的 預測性能甚至不如沒有建模圖結構信息的方法. 因此, 如何有效建模并合理利用圖結構信息是圖分類任務面臨的 一大重要挑戰.
(3) 強表達能力且高效的模型構建 目前基于信息傳遞的圖神經網絡方法都與 1-WL 圖同構測試有著緊密的聯系. Xu 等人[24]已經證明, 基于信息 傳遞的圖神經網絡, 其表達能力的上界就是 1-WL (Weisfeiler-Lehman) 圖同構測試. 近年也有一些對表達能力更強 的基于高階 WL 圖同構測試的圖神經網絡的探索[25,26] . 但總的來說, WL 測試關注的是對圖是否同構的判斷. 一方 面, 對圖同構的判斷還未被證明可以在多項式時間內完成, 通常計算復雜度較高. 另一方面, 在這種標準下, 并不能 保證表達能力強的模型, 也就是對圖是否同構的判斷準確率高的模型, 在圖分類問題上也表現得好[27] . 基于此, 探 索合適的圖分類模型表達能力的判斷標準非常重要, 這也是對圖分類本質的探索過程. 如何構建一個具有強表達 能力且高效的模型是圖分類問題中的一個關鍵挑戰.
基于圖相似度計算的圖分類
在很多用圖來表示數據的領域, 圖之間相似度度量是關鍵問題之一[12] , 它可以進一步處理一些下游任務, 包 括圖分類, 圖聚類和相似性搜索等. 本節關注利用圖的相似度度量進行圖分類的方法. 給定一組圖, 基于相似度計 算的圖分類方法先通過圖核或者圖匹配的方法獲得兩個圖之間的相似度度量, 然后利用機器學習方法, 根據已經 得到的相似度度量對圖進行分類. 這類方法隱含的假設是當兩個圖相似度較高時, 它們所屬的類別也相同. 這類方 法的關鍵是對圖之間相似度的計算. 本節從相似度計算的角度, 將基于圖相似度計算的圖分類分為基于圖核的方 法和基于圖匹配的方法, 分別進行介紹和分析.
基于圖神經網絡的圖分類
前文介紹的圖核方法很多年來都是圖分類中的主導方法, 也取得了不錯的分類效果[25] . 但由于這些方法通常 依賴于一組固定特征, 其特征表示難以有效地適應于新的數據分布. 隨著圖深度學習的發展[46] , 一些神經網絡方 法開始用于解決圖分類任務. 本節重點關注基于圖神經網絡的圖分類方法, 這類方法通過端到端的方式進行模型 的優化學習, 為圖分類的準確率帶來了較大的提升. 1?n 應用于圖像分類任務的傳統卷積神經網絡, 主要包括卷積和池化兩個操作, 這兩個操作依賴于圖像數據的結 構規則性和平移不變性. 類比于圖像分類任務, 圖卷積神經網絡應用于圖分類問題時, 同樣需要關注卷積和池化算 子. 但不同于圖像數據, 圖數據是非歐空間數據, 同一個數據集中的每個圖大小不同, 結構不一. 圖中的每個節點也 具有不同的局部結構, 為圖分類中卷積算子和池化算子的設計帶來了巨大的挑戰. 給定一組圖. 基于圖神經網絡的 圖分類方法通常先通過卷積的方式對這些圖進行多次特征變換, 然后在此基礎上進行池化操作, 將圖的規模縮小. 這個過程可以重復多次, 最終得到整個圖的表示, 從而進行分類. 本節就從圖分類任務中的卷積算子和池化算子角 度, 對基于圖神經網絡的圖分類方法進行總結和分析. 利用圖神經網絡進行圖分類的過程如圖 5 所示. 其中, 可選 的操作和模塊用虛線表示. 環形箭頭表示操作可以選擇重復1-n 次
圖分類方法評價
評價指標
圖分類方法的評價指標主要包括分類準確率, 精準率, 召回率, F1 值和 AUC, 下面分別介紹
圖分類的應用場景
(1) 化學信息學、生物信息學
傳統的圖分類主要應用于生物和化學領域. 它們天然地提供了很多圖結構數據. 通過實驗判斷分子屬性或蛋 白質功能的方式代價較大, 因此機器學習的方法被廣泛應用于生物化學信息學中. 在化學信息學中, 化合物被建模 為圖, 該領域常見的問題是判斷化合物是否具有某些性質. 圖分類方法已經被用于判斷分子是否具有誘變性、抗 癌活性、毒性等任務中[6,7] . 圖分類在藥物開發領域, 也有著非常重要的應用, 通過圖機器學習的方法對藥物的安 全性等性質進行判斷, 同時幫助化學家深入理解不斷增長的藥物發現數據[72] . 此外, 在多標簽圖分類場景下, 圖分 類方法也被用于計算機嗅覺領域中定量結構氣味關系 (QSOR) 建模問題. 此時, 分子有一個或多個氣味屬性標簽, 任務是預測分子的氣味屬性標簽[20,68] . 同樣的, 在生物信息學領域, 對蛋白質的探索[9]也是一項重要任務. 蛋白質的高級結構被建模為圖. 常見的應 用包括蛋白質屬性判斷, 如蛋白質是酶或者非酶, 通過蛋白質交互網絡預測疾病[8]等.
(2) 社交網絡分析
在社交網絡分析領域, 最常見的數據之一是引用網絡, 如第 4.1 節中描述的 COLLAB 數據集. 數據集中的圖 是研究人員的自我中心網絡圖, 也就是以研究人員為中心的引用關系圖. 該場景下常見的分類任務是給定訓練集 中自我網絡圖的類別標簽, 模型經訓練后對測試集中自我網絡圖的類別進行判斷.
(3) 計算機安全
圖分類常被應用于計算機安全領域,例如軟件剽竊的檢測、惡意軟件檢測、軟件漏洞檢測[73?75]等重要安全 問題. 該場景下的圖一般是經過一些轉化方式得到的控制圖, 通過控制圖結構判斷是否存在安全問題. 如在漏洞檢 測中, 當無權訪問源代碼時, 我們需要分析二進制文件, 結合反匯編程序和代碼分析器, 提取代碼的控制流圖. 控制 流圖以結構化的形式包含二進制函數中所有信息[43] . 控制流圖中的節點表示匯編指令的基本塊, 當兩個基本塊之 間有跳轉, 循環或者返回等控制流時, 對應節點之間有邊, 圖標簽是有無漏洞. 當前, 主要是基于圖相似度計算的圖 分類方法應用于計算機安全領域, 這些方法的假設是, 當未知控制流圖的結構和已知有漏洞的控制流圖相似度較 高時, 判斷該未知程序可能存在漏洞.
(4) 自然語言處理
圖分類的方法應用于自然語言處理的第一步就是圖的構建. 一種常見的方法是構建文本的單詞共現圖[76?78] , 節點表示單詞等有意義的語言實體, 邊表示在固定大小的滑動窗口中的共現關系. 與傳統的詞袋表示文本的方法相 比, 圖不僅建模了單詞等實體, 也對他們之間的遠距離依賴關系進行了建模. 圖分類的方法在自然語言處理領域已經 被應用于文檔相似性計算, 文本分類的重要任務中. 例如, Nikolentzos 等人[77]用共現的方式將文檔構建為無向無權 圖, 然后利用最短路徑核計算文檔的相似性, 取得了較好的效果. Peng 等人[76]將文檔構建為詞共現圖, 然后用對單 詞圖進行圖卷積操作, 提取單詞圖特征進而對文檔進行分類, 相比于傳統的文本分類方法, 該模型取得了較大的提升.
(5) 計算機視覺
有些基于圖核和基于圖神經網絡的方法被用于計算機視覺領域的圖像分類, 語義分割, 點云圖的形狀分類等 應用中[79?82] . 為了進行人體活動識別, Wu 等人[79]首先構建了 2 個圖模型建模人體活動的空間特征和時序關系, 然 后提出了上下文相關的圖核來衡量圖之間的相似性, 進而對人體活動進行識別. Wang 等人[80]在點云圖上使用邊 卷積的方式提取幾何特征, 然后利用全局池化的方式得到整個圖的表示進而進行形狀分類任務, 取得了較好的 效果.
未來研究方向
雖然圖分類問題已有很長的研究歷史, 并在近年取得了較大的進步. 但該領域仍然有很多需要注意的問題和值得繼續探索的研究方向.
(1) 圖分類中圖結構信息的充分利用
圖中的結構信息, 即圖上節點的連接信息, 如一階連接信息, 二階信息和其他高階信息等, 對于圖分類有著非 常重要的作用, 例如生物信息數據集中, 某些結構模式與分子功能屬性有著必然的聯系. 但當前圖分類領域中很多 基于圖神經網絡的方法并沒有有效地利用到圖結構信息[23] , 例如, 在基于信息傳遞的圖神經網絡中, 節點之間的 連接關系僅用來指導節點之間的信息傳遞, 并沒有直接對結構信息建模. 對于在圖分類中如何更好地利用結構信 息和判斷模型對結構的利用程度上, 我們并無定論. 對于圖結構信息的合理利用和對結構利用程度的表示是圖分 類領域重要的研究方向.
(2) 圖分類方法的可解釋性
基于圖神經網絡的圖分類方法的提出, 使得圖的表示和分類過程可以統一地進行優化, 取得了較好的分類效 果. 但是, 這類模型通常比較復雜且不夠透明, 人類無法直觀地理解它們的預測結果. 對圖分類模型的預測能力進 行直觀解釋, 探索這些模型中各個組件對圖分類的作用不僅可以增加我們對 GNN 模型的信任, 促進 GNN 模型應 用于涉及到公平, 隱私和安全的領域中, 也可以增進研究人員對于網絡特征的理解, 進一步提升模型效果[27,83] . 對 圖卷積神經網絡的可解釋性已有一些初步的嘗試[24,83] , 但當它們應用于圖分類問題時的可解釋性, 仍然值得進一 步探索.
(3) 圖分類模型表達能力的衡量
當前圖分類模型主要是基于圖神經網絡的模型. 一方面, 基于圖神經網絡模型的表達能力都是用判斷圖是否同 構的能力來衡量的[24,51] . 但我們并不能保證在這樣的衡量標準下, 對圖是否同構的區分能力在圖分類任務中可以泛 化得好[27] . 在圖分類問題中, 模型表達能力的衡量方法是一個重要的需要考慮的問題. 另一方面, 由于基于神經網 絡的模型依賴于充足數據, 需要通過大量的數據進行訓練. 而當前圖分類領域的常見數據集通常規模較小, 不能很 好地體現出方法的優勢, 限制了基于圖神經網絡的模型的表示能力. 構建更好的圖分類數據集成為亟待解決的問題.
(4) 圖分類新技術
雖然已經有很多經典的圖神經網絡方法在圖分類任務上取得了較好的效果, 但仍面臨著標簽數據獲取昂貴、 模型遷移能力不足等諸多挑戰, 需要通過合理引入新技術來解決. 具體來說, 一方面, 圖神經網絡的訓練過程需要 大量的任務相關的標簽數據, 標簽數據的獲取代價高昂[84] . 另一方面, 實際中, 有時我們需要具有遷移能力的模型 應用于不同的場景中. 類比于自然語言處理和圖像處理領域, 圖上也可以通過先在數據豐富的任務上對模型預訓 練, 然后在目標任務上進行微調來解決這些問題. 目前已有一些圖上預訓練的初步嘗試[84?86] , 未來圖上的預訓練仍 是值得探索的問題. 此外, 當前圖分類主要關注同質圖, 而實際場景中有很多異質圖存在, 已有的關于異質圖的研 究主要集中在節點分類問題[87,88]上, 未來, 關于異質圖的分類也是值得關注的方向.
(5) 實驗可復現性和學術社區的健康發展
在機器學習領域, 實驗的可復現一直是一個非常關鍵的議題[23] . 當前用圖神經網絡處理圖分類的工作中, 實 驗程序通常不夠嚴格且很難復現. 不同方法中的實驗設置也不盡相同, 使得我們很難橫向的對不同方法進行比較. Errica 等人[23]對 5 個圖分類模型在統一的評估框架下做了對比. 同樣的數據劃分和實驗設置條件下, 用 10 折交叉 驗證的方法進行模型的評估和選擇, 保證了實驗的公平性. 未來圖分類領域的工作, 應該延續這種做法, 詳細地給 出方法的實驗設置, 方便公平對比和對問題的深入理解, 推進圖分類學術社區的健康發展.
圖是連接數據網絡結構的一種常用表示形式。圖數據可以在廣泛的應用領域中找到,如社會系統、生態系統、生物網絡、知識圖譜和信息系統。隨著人工智能技術的不斷滲透發展,圖學習(即對圖進行機器學習)越來越受到研究者和實踐者的關注。圖學習對許多任務都非常有效,如分類,鏈接預測和匹配。圖學習方法通常是利用機器學習算法提取圖的相關特征。在這個綜述中,我們提出了一個關于圖學習最全面的概述。特別關注四類現有的圖學習方法,包括圖信號處理、矩陣分解、隨機游走和深度學習。分別回顧了這些類別下的主要模型和算法。我們研究了諸如文本、圖像、科學、知識圖譜和組合優化等領域的圖學習應用。此外,我們還討論了該領域幾個有前景的研究方向。
真實的智能系統通常依賴于機器學習算法處理各種類型的數據。盡管圖數據無處不在,但由于其固有的復雜性,給機器學習帶來了前所未有的挑戰。與文本、音頻和圖像不同,圖數據嵌入在一個不規則的領域,使得現有機器學習算法的一些基本操作不適用。許多圖學習模型和算法已經被開發出來解決這些挑戰。本文系統地綜述了目前最先進的圖學習方法及其潛在的應用。這篇論文有多種用途。首先,它作為不同領域(如社會計算、信息檢索、計算機視覺、生物信息學、經濟學和電子商務)的研究人員和從業者提供圖學習的快速參考。其次,它提供了對該領域的開放研究領域的見解。第三,它的目的是激發新的研究思路和更多的興趣在圖學習。
圖,又稱網絡,可以從現實世界中豐富的實體之間的各種關系中提取。一些常見的圖表已經被廣泛用于表達不同的關系,如社會網絡、生物網絡、專利網絡、交通網絡、引文網絡和通信網絡[1]-[3]。圖通常由兩個集合定義,即頂點集和邊集。頂點表示圖形中的實體,而邊表示這些實體之間的關系。由于圖學習在數據挖掘、知識發現等領域的廣泛應用,引起了人們的廣泛關注。由于圖利用了頂點[4],[5]之間的本質和相關關系,在捕獲復雜關系方面,圖學習方法變得越來越流行。例如,在微博網絡中,通過檢測信息級聯,可以跟蹤謠言的傳播軌跡。在生物網絡中,通過推測蛋白質的相互作用可以發現治療疑難疾病的新方法。在交通網絡中,通過分析不同時間戳[6]的共現現象,可以預測人類的移動模式。對這些網絡的有效分析很大程度上取決于網絡的表示方式。
一般來說,圖學習是指對圖進行機器學習。圖學習方法將圖的特征映射到嵌入空間中具有相同維數的特征向量。圖學習模型或算法直接將圖數據轉換為圖學習體系結構的輸出,而不將圖投影到低維空間。由于深度學習技術可以將圖數據編碼并表示為向量,所以大多數圖學習方法都是基于或從深度學習技術推廣而來的。圖學習的輸出向量在連續空間中。圖學習的目標是提取圖的期望特征。因此,圖的表示可以很容易地用于下游任務,如節點分類和鏈接預測,而無需顯式的嵌入過程。因此,圖學習是一種更強大、更有意義的圖分析技術。
在這篇綜述論文中,我們試圖以全面的方式檢驗圖機器學習方法。如圖1所示,我們關注現有以下四類方法:基于圖信號處理(GSP)的方法、基于矩陣分解的方法、基于隨機游走的方法和基于深度學習的方法。大致來說,GSP處理圖的采樣和恢復,并從數據中學習拓撲結構。矩陣分解可分為圖拉普拉斯矩陣分解和頂點接近矩陣分解。基于隨機游動的方法包括基于結構的隨機游動、基于結構和節點信息的隨機游動、異構網絡中的隨機游動和時變網絡中的隨機游動。基于深度學習的方法包括圖卷積網絡、圖注意力網絡、圖自編碼器、圖生成網絡和圖時空網絡。基本上,這些方法/技術的模型架構是不同的。本文對目前最先進的圖學習技術進行了廣泛的回顧。
傳統上,研究人員采用鄰接矩陣來表示一個圖,它只能捕捉相鄰兩個頂點之間的關系。然而,許多復雜和不規則的結構不能被這種簡單的表示捕獲。當我們分析大規模網絡時,傳統的方法在計算上是昂貴的,并且很難在現實應用中實現。因此,有效地表示這些網絡是解決[4]的首要問題。近年來提出的網絡表示學習(NRL)可以學習低維表示[7]-[9]的網絡頂點潛在特征。當新的表示被學習后,可以使用以前的機器學習方法來分析圖數據,并發現數據中隱藏的關系。
當復雜網絡被嵌入到一個潛在的、低維的空間中時,結構信息和頂點屬性可以被保留[4]。因此,網絡的頂點可以用低維向量表示。在以往的機器學習方法中,這些向量可以看作是輸入的特征。圖學習方法為新的表示空間中的圖分析鋪平了道路,許多圖分析任務,如鏈接預測、推薦和分類,都可以有效地解決[10],[11]。網絡的圖形化表現方式揭示了社會生活的各個方面,如交流模式、社區結構和信息擴散[12],[13]。根據頂點、邊和子圖的屬性,可以將圖學習任務分為基于頂點、基于邊和基于子圖三類。圖中頂點之間的關系可以用于分類、風險識別、聚類和社區檢測[14]。通過判斷圖中兩個頂點之間的邊的存在,我們可以進行推薦和知識推理。基于子圖[15]的分類,該圖可用于聚合物分類、三維可視化分類等。對于GSP,設計合適的圖形采樣方法以保持原始圖形的特征,從而有效地恢復原始圖形[16]具有重要意義。在存在不完整數據[17]的情況下,可以使用圖恢復方法構造原始圖。然后利用圖學習從圖數據中學習拓撲結構。綜上所述,利用圖學習可以解決傳統的圖分析方法[18]難以解決的以下挑戰。
近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。
//compstat-lmu.github.io/seminar_nlp_ss20/
在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。
這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。
為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。
遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。
為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。
在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。
本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。
我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1
摘要:隨著計算機行業和互聯網時代的不斷發展與進步,圖神經網絡已經成為人工智能和大數據重要研究領域。圖神經網絡是對相鄰節點間信息的傳播和聚合的重要技術,可以有效地將深度學習的理念應用于非歐幾里德空間的數據上。簡述圖計算、圖數據庫、知識圖譜、圖神經網絡等圖技術領域的相關研究歷史,分類介紹不同類型的圖結構。分析對比不同的圖神經網絡技術,重點從頻域和空間與的信息聚合方式上分類比較不同的圖卷積網絡算法。闡述圖生成和圖對抗網絡、圖強化學習、圖遷移學習、神經任務圖和圖零樣本學習等不同的圖網絡與深度學習方法相結合的技術方法,并列舉不同的圖神經網絡技術在文本、圖像、知識圖譜、視頻任務等領域的具體應用。最后,對圖神經網絡未來的發展與研究方向加以展望。
概述
近年來隨著計算機行業的快速發展和數據量的井噴式增長,深度學習方法被提出并得到了廣泛的 應用。深度學習通過神經網絡端到端的解決方案, 在圖像處理、語音識別、語義理解[1]等領域取得了 巨大的成功,深度學習的應用往往都是在高維特征 空間上特征規則分布的歐幾里德數據。作為一種關 系型數據結構,圖(Graph)在深度學習中的應用研究近年來受到越來越多的關注,本文將圖的演進歷程分為數學起源、計算應用、神經網絡延伸三個階段。
圖的概念起源于 18 世紀著名的柯尼斯堡七橋問 題,到了 20 世紀中期,擬陣理論、超圖理論、極圖 理論等研究蓬勃發展,使得圖論(Graph Theory)[2] 在電子計算誕生前,就已經成為了重要的數學研究領域。
隨著計算機的出現和機器計算時代的到來和發 展,圖作為一種能夠有效且抽象地表達信息和數據 中的實體以及實體之間關系的重要數據結構被廣泛應用,圖數據庫有效解決了傳統的關系型數據結構 面對大量復雜的數據所暴露出的建模缺陷多、計算速度慢等問題,圖數據庫也成為了非常熱門的研究 領域。圖結構(Graph-structured Data)[3]可以將結構化數據點通過邊的形式,依照數據間的關系將不同類型和結構的數據節點連接起來,因而被廣泛地應用在數據的存儲、檢索以及計算應用中。基于圖結構數據,知識圖譜[4-7]可以通過點和邊的語義關系, 來實現精確地描述現實世界中實體之間的關聯關系, 作為人工智能非常重要的研究領域,知識圖譜的研究方向包括知識抽取、知識推理、知識圖譜可視化等。圖計算(Graph Computing)具有數據規模量大、 局部性低、計算性能高等特性,圖計算算法[8-9]主要 可以分為路徑搜索算法、中心性算法、社群發現算法等三類,實現了在關系復雜型的大規模數據上高 時效性和準確度的表現,在社交網絡、團體反欺詐 和用戶推薦等領域有著重要的應用。
與已經非常成熟圖計算不同,圖神經網絡 (Graph Neural Network)的研究主要是集中在相鄰節點信息的傳播與聚合上,從圖神經網絡的概念提 出,到受深度學習中卷積神經網絡的啟發,2013 年 提出的基于圖論的圖卷積神經網絡 [10-11]研究方向吸 引了大量學者關注。2018 年 DeepMind 提出圖網絡 (Graph Network)[12]的概念,希望能夠將深度學習 端到端的學習方式與圖結構關系歸納推理的理論結 合解決深度學習無法處理關系推理的問題。針對圖 神經網絡存在的問題,不同的學者們也給出了不同 的方案,隨著對圖神經網絡這一新興領域更加深入 的研究與探索,人工智能領域的版圖將得到更大擴展。
文獻[12]在關系歸納偏置和深度學習的研究基礎 上,提出了面向關系推理的圖網絡概念并進行了綜 述,但未對不同圖網絡技術進行分類和對比。文獻 [13]從半監督、無監督方法的角度對圖結構上的深度 學習進行了綜述,但缺少相近的分類和應用的討論。文獻[14]主要從傳播規則、網絡結構等角度分析了圖神經網絡的不同模型以及應用。文獻[15]則是詳細對 比了時域和空間的不同圖卷神經網絡方法結構,但沒有對圖神經網絡之于深度學習領域的探討,如圖強化學習、圖遷移學習等。本文針對圖神經網絡, 分析對比了六種圖神經網絡方法的優劣,首次對處 理異構圖數據的圖神經網絡技術進行了討論和研究, 綜述了五類圖神經網絡的研究領域,并對未來的發展方向進行了展望。