近年來,圖神經網絡的先進技術已經擴展了它們的能力和表現力。此外,實際應用也開始在多個領域出現,包括推薦系統、假新聞檢測、交通預測、化學的分子結構、抗菌發現物理模擬等。因此,圖論和深度學習交匯處的研究繁榮起來,革命性地改變了許多研究領域。然而,盡管圖神經網絡受到了廣泛關注,但在將它們應用到其他領域時仍然面臨許多挑戰,從方法論的概念性理解到實際系統中的可擴展性和可解釋性。 《圖神經網絡的概念與技術》提供了逐步的討論、詳盡的文獻回顧、詳細的分析和討論、嚴格的實驗結果,以及針對圖神經網絡應用的實用導向方法。本書還發展了對圖神經網絡的概念和技術的理解,并建立了對各種領域中圖神經網絡的不同實際應用的熟悉度。覆蓋了圖數據、社交網絡、深度學習和圖聚類等關鍵主題,這本首屈一指的參考來源非常適合行業專家、研究員、學者、學者、實踐者、講師和學生。
涵蓋范圍: 本出版物涵蓋的許多學術領域包括但不限于: * 對抗性攻擊 * 計算機網絡 * 計算機視覺 * 深度學習 * 圖聚類 * 圖數據 * 圖神經網絡 * 知識圖譜 * 自然語言處理 * 社交網絡
圖是通用的數據結構,可以表示來自各種領域(社會、生物醫學、在線事務等)的信息。圖神經網絡(GNNs)是在神經網絡模型中使用圖結構數據的一種令人興奮的方法,這種方法最近非常流行。然而,在大型(和復雜)數據集上實現和運行gnn仍然給機器學習平臺帶來了許多挑戰。感謝您對我們的教程感興趣!本教程的主要目標是幫助從業者和研究人員在TensorFlow設置中實現GNN。具體來說,該教程將主要是實踐,并將引導觀眾通過在異構圖數據上運行現有GNN的過程,并介紹如何實現新的GNN模型。本教程的實踐部分將基于TF-GNN,這是一個用于處理TensorFlow中的圖形結構化數據的庫。
//github.com/tensorflow/gnn/tree/main/examples/tutorials/neurips_2022
在過去的幾年里,深度學習方法在從計算機視覺到語音識別的各個領域的廣泛問題上取得了前所未有的成績。目前的研究主要集中在開發網格結構數據的深度學習方法,而許多重要的應用都需要處理圖結構數據。這些幾何數據在計算機圖形學和三維視覺、傳感器網絡、藥物設計、生物醫學、推薦系統、NLP和帶有知識圖的計算機視覺、web應用等領域越來越重要。本次演講的目的是介紹圖上的卷積神經網絡,以及這些新的學習技術的應用。
人類從端粒到端粒的DNA全序列測定始于30年前,最終于2021年完成。這一成就是眾多專家的巨大努力的結果,他們設計了各種工具,并進行了艱苦的手工檢查,以實現第一個無間隙基因組序列。然而,這種方法很難作為一種組裝不同基因組的通用方法,尤其是在數據量大、組裝速度快的情況下。在這項工作中,我們探索了一種不同的方法來解決基因組組裝任務的中心部分,包括解開一個大的組裝圖,從中需要重建基因組序列。我們的主要動機是減少人類工程啟發式,并使用深度學習開發更通用的重建技術。準確地說,我們引入了一種新的學習框架來訓練圖卷積網絡通過找到正確的路徑來解析組裝圖。訓練使用從解析CHM13人類序列生成的數據集進行監督,并在使用真實人類PacBio HiFi讀取數據構建的組裝圖上進行測試。實驗結果表明,在單個染色體生成的模擬圖形上訓練的模型能夠顯著地解析所有其他染色體。此外,該模型在相同的圖表上優于從最先進的\textit{de novo}匯編器手工制作的啟發式。利用圖網絡重建的染色體在核苷酸水平上更準確,報告的contig數量更少,基因組重建分數更高,NG50/NGA50評估指標更高。
社交網絡和分子圖等結構化的圖形數據在現實世界中隨處可見。設計先進的圖結構數據表示學習算法,促進下游任務的完成,具有重要的研究意義。圖神經網絡(GNNs)將深度神經網絡模型推廣到圖結構數據,為從節點級或圖級有效學習圖結構數據表示開辟了一條新途徑。由于其強大的表示學習能力,GNN在從推薦、自然語言處理到醫療保健等各種應用中獲得了實際意義。近年來,它已成為一個熱門的研究課題,越來越受到機器學習和數據挖掘界的關注。本教程涵蓋了相關和有趣的主題,包括使用GNNs在圖結構數據上的表示學習、GNNs的魯棒性、GNNs的可擴展性和基于GNNs的應用程序。
目錄內容:
在監督模式下訓練的深度模型在各種任務上都取得了顯著的成功。在標記樣本有限的情況下,自監督學習(self-supervised learning, SSL)成為利用大量未標記樣本的新范式。SSL在自然語言和圖像學習任務中已經取得了很好的效果。最近,利用圖神經網絡(GNNs)將這種成功擴展到圖數據的趨勢。
在本綜述論文中,我們提供了使用SSL訓練GNN的不同方法的統一回顧。具體來說,我們將SSL方法分為對比模型和預測模型。
在這兩類中,我們都為方法提供了一個統一的框架,以及這些方法在框架下的每個組件中的不同之處。我們對GNNs SSL方法的統一處理揭示了各種方法的異同,為開發新的方法和算法奠定了基礎。我們還總結了不同的SSL設置和每個設置中使用的相應數據集。為了促進方法開發和實證比較,我們為GNNs中的SSL開發了一個標準化測試床,包括通用基線方法、數據集和評估指標的實現。
//www.zhuanzhi.ai/paper/794d1d27363c4987efd37c67ec710a18
引言
深度模型以一些數據作為輸入,并訓練輸出期望的預測。訓練深度模型的一種常用方法是使用有監督的模式,在這種模式中有足夠的輸入數據和標簽對。
然而,由于需要大量的標簽,監督訓練在許多現實場景中變得不適用,標簽是昂貴的,有限的,甚至是不可用的。
在這種情況下,自監督學習(SSL)支持在未標記數據上訓練深度模型,消除了對過多注釋標簽的需要。當沒有標記數據可用時,SSL可以作為一種從未標記數據本身學習表示的方法。當可用的標記數據數量有限時,來自未標記數據的SSL可以用作預訓練過程,在此過程之后,標記數據被用來為下游任務微調預訓練的深度模型,或者作為輔助訓練任務,有助于任務的執行。
最近,SSL在數據恢復任務中表現出了良好的性能,如圖像超分辨率[1]、圖像去噪[2,3,4]和單細胞分析[5]。它在語言序列[6,7,8]、圖像[9,10,11,12]、帶有序列模型的圖[13,14]等不同數據類型的表示學習方面也取得了顯著進展。這些方法的核心思想是定義前置訓練任務,以捕獲和利用輸入數據的不同維度之間的依賴關系,如空間維度、時間維度或通道維度,具有魯棒性和平滑性。Doersch等人以圖像域為例,Noroozi和Favaro[16],以及[17]等人設計了不同的前置任務來訓練卷積神經網絡(CNNs)從一幅圖像中捕捉不同作物之間的關系。Chen等人的[10]和Grill等人的[18]訓練CNN捕捉圖像的不同增強之間的依賴關系。
根據訓練任務的設計,SSL方法可以分為兩類;即對比模型和預測模型。這兩個類別之間的主要區別是對比模型需要數據-數據對來進行訓練,而預測模型需要數據-標簽對,其中標簽是自生成的,如圖1所示。對比模型通常利用自監督來學習數據表示或對下游任務進行預訓練。有了這些數據-數據對,對比模型就能區分出正面對和負面對。另一方面,預測模型是在監督的方式下訓練的,其中標簽是根據輸入數據的某些屬性或選擇數據的某些部分生成的。預測模型通常由一個編碼器和一個或多個預測頭組成。當應用于表示學習或預訓練方法時,預測模型的預測頭在下游任務中被刪除。
在圖數據分析中,SSL可能非常重要,它可以利用大量未標記的圖,如分子圖[19,20]。隨著圖神經網絡的快速發展[21,22,23,24,25,26,27],圖神經網絡的基本組成[28,29,30,31,32,33]等相關領域[34,35]得到了深入的研究,并取得了長足的進展。相比之下,在GNNs上應用SSL仍然是一個新興領域。由于數據結構的相似性,很多GNN的SSL方法都受到了圖像領域方法的啟發,如DGI[36]和圖自動編碼器[37]。然而,由于圖結構數據的唯一性,在GNN上應用SSL時存在幾個關鍵的挑戰。為了獲得良好的圖表示并進行有效的預訓練,自監督模型可以從圖的節點屬性和結構拓撲中獲取必要的信息。對于對比模型來說,由于自監督學習的GPU內存問題并不是圖形的主要關注點,關鍵的挑戰在于如何獲得良好的圖形視圖以及針對不同模型和數據集的圖形編碼器的選擇。對于預測模型,至關重要的是應該生成什么標簽,以便了解非平凡的表示,以捕獲節點屬性和圖結構中的信息。
為了促進方法論的發展和促進實證比較,我們回顧GNN的SSL方法,并為對比和預測方法提供了統一的觀點。我們對這一問題的統一處理,可以揭示現有方法的異同,啟發新的方法。我們還提供了一個標準化的測試,作為一個方便和靈活的開源平臺,用于進行實證比較。我們將本次綜述論文總結如下:
我們提供關于圖神經網絡SSL方法的徹底和最新的回顧。據我們所知,我們的綜述查首次回顧了關于圖數據的SSL。
我們將GNN現有的對比學習方法與一般框架統一起來。具體來說,我們從互信息的角度統一對比目標。從這個新的觀點來看,不同的對比學習方式可以看作是進行三種轉換來獲得觀點。我們回顧了理論和實證研究,并提供見解來指導框架中每個組成部分的選擇。
我們將SSL方法與自生成標簽進行分類和統一,作為預測學習方法,并通過不同的標簽獲取方式來闡明它們之間的聯系和區別。
我們總結了常用的SSL任務設置以及不同設置下常用的各類數據集,為未來方法的發展奠定了基礎。
我們開發了一個用于在GNN上應用SSL的標準化測試平臺,包括通用基準方法和基準的實現,為未來的方法提供了方便和靈活的定制。
社交網絡和分子圖等結構化的圖形數據在現實世界中隨處可見。設計先進的圖結構數據表示學習算法,促進下游任務的完成,具有重要的研究意義。圖神經網絡(GNNs)將深度神經網絡模型推廣到圖結構數據,為從節點級或圖級有效學習圖結構數據表示開辟了一條新途徑。由于其強大的表示學習能力,GNN在從推薦、自然語言處理到醫療保健等各種應用中獲得了實際意義。近年來,它已成為一個熱門的研究課題,越來越受到機器學習和數據挖掘界的關注。本教程涵蓋了相關和有趣的主題,包括使用GNNs在圖結構數據上的表示學習、GNNs的魯棒性、GNNs的可擴展性和基于GNNs的應用程序。
目錄內容: 引言 Introduction 基礎 Foundations 模型 Models 應用 Applications
近年來,圖神經網絡(GNNs)由于具有建模和從圖結構數據中學習的能力,在機器學習領域得到了迅猛發展。這種能力在數據具有內在關聯的各種領域具有很強的影響,而傳統的神經網絡在這些領域的表現并不好。事實上,正如最近的評論可以證明的那樣,GNN領域的研究已經迅速增長,并導致了各種GNN算法變體的發展,以及在化學、神經學、電子或通信網絡等領域的突破性應用的探索。然而,在目前的研究階段,GNN的有效處理仍然是一個開放的挑戰。除了它們的新穎性之外,由于它們依賴于輸入圖,它們的密集和稀疏操作的組合,或者在某些應用中需要伸縮到巨大的圖,GNN很難計算。在此背景下,本文旨在做出兩大貢獻。一方面,從計算的角度對GNNs領域進行了綜述。這包括一個關于GNN基本原理的簡短教程,在過去十年中該領域發展的概述,以及在不同GNN算法變體的多個階段中執行的操作的總結。另一方面,對現有的軟硬件加速方案進行了深入分析,總結出一種軟硬件結合、圖感知、以通信為中心的GNN加速方案。
在本章中,我們將訪問圖神經網絡(GNNs)的一些理論基礎。GNNs最有趣的方面之一是,它們是根據不同的理論動機獨立開發的。一方面,基于圖信號處理理論開發了GNN,將歐氏卷積推廣到非歐氏圖域[Bruna et al., 2014]。然而,與此同時,神經信息傳遞方法(構成了大多數現代GNN的基礎)被類比提出,用于圖模型中的概率推理的信息傳遞算法[Dai等人,2016]。最后,基于GNN與weisfeler - lehman圖同構檢驗的聯系,許多研究對其進行了激發[Hamilton et al., 2017b]。
將三個不同的領域匯聚成一個單一的算法框架是值得注意的。也就是說,這三種理論動機中的每一種都有其自身的直覺和歷史,而人們所采用的視角可以對模型的發展產生實質性的影響。事實上,我們推遲對這些理論動機的描述直到引入GNN模型本身之后,這并非偶然。在這一章,我們的目標是介紹這些背后的關鍵思想不同理論的動機,這樣一個感興趣的讀者可以自由探索和組合這些直覺和動機,因為他們認為合適的。