圖神經網絡一本簡明硬貨新書,快來學習!
William L. Hamilton McGill 大學計算機科學的助理教授,魁北克省Mila AI研究所的加拿大CIFAR AI主席。我開發了機器學習模型,可以對我們復雜、相互關聯的世界進行推理。
總的來說,研究興趣集中在機器學習、網絡科學和自然語言處理的交叉領域,目前重點關注快速增長的圖表示學習和圖神經網絡。
圖表示學習
在過去的7年里,圖表示學習領域以令人難以置信(有時難以控制)的速度發展,從從事一個相對小眾主題的一小部分研究人員,轉變為深度學習中增長最快的子領域之一。
這本書是我對圖表示學習的一個簡要而全面的介紹,包括嵌入圖數據的方法,圖神經網絡,以及圖的深層生成模型。
圖是一種普遍存在的數據結構和描述復雜系統的通用語言。在最普遍的觀點中,一個圖僅僅是對象的集合。,以及一組交互(例如,節點)。(邊)在這些對象對之間。例如,為了將一個社會網絡編碼為一個圖,我們可以使用節點來表示個體,使用邊來表示兩個個體是朋友(圖1.1)。在生物領域,我們可以使用圖中的節點來表示蛋白質,并使用邊緣來表示各種生物相互作用,例如蛋白質之間的動力學相互作用。
圖形式主義的力量在于它關注點之間的關系(而不是單個點的屬性),以及它的一般性。同樣的圖表形式也可以用來表示社會網絡、藥物和蛋白質之間的相互作用、原子之間的相互作用。
然而,圖表不僅僅提供了一個優雅的理論框架。它們提供了一個數學基礎,我們可以在此基礎上分析、理解和學習現實世界的復雜系統。在過去的25年里,可供研究人員使用的圖形結構數據在數量和質量上有了顯著的增長。隨著大型社交網絡平臺的出現,大量的科學活動對交互體建模,食物網,分子圖結構的數據庫,以及數十億網絡連接設備的出現,有意義的圖數據供研究人員分析。挑戰在于釋放這些數據的潛力。
這本書是關于我們如何利用機器學習來應對這一挑戰。當然,機器學習不是分析圖表數據的唯一可能的方法。然而,鑒于我們試圖分析的圖形數據集的規模和復雜性不斷增長,很明顯,機器學習將在提高我們建模、分析和理解圖形數據的能力方面發揮重要作用。
目錄內容:
介紹
我們對社交網絡的體驗在短暫的瞬間中閃過,通常不會再回頭。在Instagram上點贊照片,在Facebook上分享別人發布的帖子,或者在WhatsApp上給朋友發消息,不管是什么具體的互動,我們只做一次,之后可能就不會再去想它了。 但從刷屏、點擊到狀態更新,我們的在線生活正被社交媒體公司捕捉,并被一些世界上最大的數據服務器使用。我們產生的數據比以往任何時候都多。從整體上看這些數據點,我們可以對人類行為有更深刻的了解。我們還可以調查這些系統所造成的危害,從檢測虛假的在線參與者(例如,自動的機器人賬戶或散布錯誤信息的虛假檔案)到理解算法是如何隨著時間的推移向瀏覽者展示有問題的內容。如果我們一起看這些數據點,我們可以發現模式、趨勢或異常,并希望能更好地理解我們在網上認識和塑造人類體驗的方式。這本書旨在幫助那些想要從簡單地觀察社交網絡的一個帖子或推特,在更大的,更有意義的范圍內理解它的人。
什么是數據分析?
任何數據分析師的主要目標都是從大量信息中獲得有用的觀點。我們可以把數據分析看作是采訪大量記錄的一種方式:我們可以詢問不尋常的單個事件,或者我們可以觀察長期趨勢。了解一個數據集可能是一個漫長的過程,有各種曲折:它可能需要幾種不同的方法來找到我們的問題的答案,同樣的,它可能需要幾個不同的會見來了解受訪者。 即使我們的問題簡單而集中,要得到答案仍然需要我們做出一些邏輯上和哲學上的抉擇。什么樣的數據集可以用來檢查我們自己的行為,以及我們如何獲得這些數據?如果我們想要確定一個Facebook帖子的受歡迎程度,我們會用反應的數量(喜歡,hahas, wow,等等)來衡量嗎?收到的評論的數量,還是兩種指標的組合?如果我們想要更好地了解人們如何在Twitter上討論一個特定的話題,對相關的tweet進行分類的最佳方式是什么? 因此,雖然分析數據需要一定的技術技巧,但它也是一個創造性的過程,需要我們有意識地、知情地使用我們的判斷。換句話說,數據分析既是科學也是藝術。
誰適合使用這本書?
這本書是為那些以前幾乎沒有編程經驗的人寫的。考慮到社會媒體、互聯網和技術在我們生活中的巨大作用,這本書旨在以一種容易理解和直接的方式探索它們。通過實踐練習,您將學習編程、數據分析和社交網絡的基本概念。在某種程度上,這本書的目標讀者就像我以前的自己一樣,一個對世界充滿強烈好奇的人,但也被充滿術語的論壇、會議和在線教程嚇到了。我們將從宏觀和微觀兩方面入手,研究社交網絡的生態系統以及編寫代碼的細節。編程不僅僅是構建機器人或應用程序的一種方式:它是在一個越來越依賴技術的世界中滿足你好奇心的一種方式。
內容概要
本書的各個章節都是按照數據探索的旅程來構建的。我們將從介紹如何以及在哪里從社交網絡中找到數據開始。畢竟,我們需要數據才能進行分析!然后,在后面的章節中,您將學習處理、探索和分析我們挖掘的數據所必需的工具。
第一部分:數據挖掘
第一章:你需要知道的編程語言,介紹了前端語言(HTML, CSS和JavaScript),以及為什么它們在社交媒體數據挖掘中很重要。您還將通過交互式shell中的實踐練習學習Python的基礎知識。
第2章:從哪里獲取數解釋了什么是api,什么類型的數據可以通過它們訪問,并指導您如何訪問JSON格式的數據。本章還涵蓋了為數據分析制定研究問題的過程。
第3章:用代碼獲取數據,向您展示了如何收集從YouTube API返回的數據,并使用Python將其從JSON重構為電子表格,特別是.csv文件。
第4章:抓取你自己的Facebook數據定義抓取和描述如何檢查HTML以將內容從web頁面結構成數據。本文還介紹了社交媒體公司為用戶提供的數據存檔,以及如何將數據提取到.csv文件中。
第5章:抓取實時站點的解釋抓取網站的道德考慮,并帶領你完成為維基百科頁面撰寫抓取的過程。
第二部分:數據分析
簡介: 近年來,生命科學和數據科學已經融合。機器人技術和自動化技術的進步使化學家和生物學家能夠生成大量數據。與20年前的整個職業生涯相比,如今的科學家每天能夠產生更多的數據。快速生成數據的能力也帶來了許多新的科學挑戰。我們不再處于可以通過將數據加載到電子表格中并制作幾個圖表來對其進行處理的時代。為了從這些數據集中提取科學知識,我們必須能夠識別和提取非顯而易見的關系。近年來,作為識別數據模式和關系的強大工具而出現的一種技術是深度學習,它是一類算法,它徹底改變了解決諸如圖像分析,語言翻譯和語音識別等問題的方法。深度學習算法擅長識別和利用大型數據集中的模式。由于這些原因,深度學習在生命科學學科中具有廣泛的應用。本書概述了深度學習如何應用于遺傳學,藥物發現和醫學診斷等多個領域。我們描述的許多示例都附帶有代碼示例,這些示例為方法提供了實用的介紹,并為讀者提供了以后進行研究和探索的起點。
該書中代碼地址://github.com/deepchem/DeepLearningLifeSciences
目錄:
題目: Representation Learning on Graphs: Methods and Applications
摘要:
圖機器學習是一項重要且普遍存在的任務,其應用范圍從藥物設計到社交網絡中的友情推薦。這個領域的主要挑戰是找到一種表示或編碼圖形結構的方法,以便機器學習模型能夠輕松地利用它。傳統上,機器學習方法依賴于用戶定義的啟發法來提取對圖的結構信息進行編碼的特征(例如,度統計或內核函數)。然而,近年來,使用基于深度學習和非線性降維的技術,自動學習將圖結構編碼為低維嵌入的方法激增。在這里,我們提供了一個概念上的回顧,在這一領域的關鍵進展,圖表示學習,包括基于矩陣分解的方法,隨機漫步的算法和圖神經網絡。我們回顧了嵌入單個節點的方法以及嵌入整個(子)圖的方法。在此過程中,我們開發了一個統一的框架來描述這些最近的方法,并強調了一些重要的應用程序和未來工作的方向。
作者簡介:
William L. Hamilton是麥吉爾大學計算機科學的助理教授,也是加拿大魁北克Mila AI研究所的CIFAR AI主席。William L. Hamilton開發的機器學習模型可以對這個復雜的、相互聯系的世界進行推理。研究興趣集中在機器學習、網絡科學和自然語言處理的交叉領域,目前的重點是快速發展的圖表示學習和圖神經網絡。
Rex Ying是斯坦福大學計算機科學二年級的博士生,研究主要集中在開發應用于圖形結構數據的機器學習算法。曾致力于開發可擴展到網絡規模數據集的廣義圖卷積網絡,應用于推薦系統、異常檢測和生物學。
課程名稱: CS224W: Machine Learning with Graphs
課程簡介:
網絡是對復雜的社會、技術和生物系統建模的基本工具。結合在線社交網絡的出現和生物科學中大規模數據的可用性,本課程重點分析提供了幾個計算、算法和建模挑戰的大規模網絡。學生將學習機器學習技術和數據挖掘工具,通過研究其潛在的網絡結構和相互聯系,揭示對社會、技術和自然世界的洞察。
在本課程中,我們將介紹圖機器學習技術,包括以下主題:
課程部分大綱:
講師介紹:
Jurij Leskovec是斯坦福大學計算機科學副教授,研究側重于分析和建模大型社區和信息網絡,作為跨社區、技術和自然世界現象的研究。他側重于網絡結構的統計建模、網絡演化、信息傳播、網絡影響和病毒。他所研究的問題是由大規模數據、網絡和其他在線媒體引發的,同樣從事文本挖掘和機器學習的應用。個人官網:
下載索引:鏈接:
論文題目: A Structural Graph Representation Learning Framework
論文摘要: 許多基于圖的機器學習任務的成功在很大程度上取決于從圖數據中學習到的適當表示。大多數工作都集中在于學習保留鄰近性的節點嵌入,而不是保留節點之間結構相似性的基于結構的嵌入。這些方法無法捕獲對基于結構的應用程序(如web日志中的visitor stitching)至關重要的高階結構依賴和連接模式。在這項工作中,我們闡述了高階網絡表示學習,并提出了一個稱為HONE的通用框架,用于通過節點鄰域中的子圖模式(network motifs, graphlet orbits/positions)從網絡中學習這種結構性節點嵌入。HONE引入了一種通用的diffusion機制和一種節省空間的方法,該方法避免了使用k-step線性算子來顯式構造k-step motif-based矩陣。此外,HONE被證明是快速和有效的,最壞情況下的時間復雜度幾乎是線性的。實驗結果表明,該算法能有效地處理大量的網絡日志數據,包括鏈接預測和visitor stitching。
作者簡介:
Ryan A. Rossi,目前在Adobe Research工作,研究領域是機器學習;涉及社會和物理現象中的大型復雜關系(網絡/圖形)數據的理論、算法和應用。在普渡大學獲得了計算機科學博士和碩士學位。
Nesreen K. Ahmed,英特爾實驗室的高級研究員。我在普渡大學計算機科學系獲得博士學位,在普渡大學獲得統計學和計算機科學碩士學位。研究方向是機器學習和數據挖掘,涵蓋了大規模圖挖掘、統計機器學習的理論和算法,以及它們在社會和信息網絡中的應用。
題目: GNNExplainer: Generating Explanations for Graph Neural Networks
簡介: 圖神經網絡(GNN)通過沿輸入圖的邊緣遞歸傳遞神經消息,將節點特征信息與圖結構結合在一起。但是同時包含圖結構和特征信息會導致模型復雜,并且解釋GNN所做的預測仍未解決。在這里,我們提出GNNExplainer,這是第一種通用的,與模型無關的方法,可為任何基于GNN的模型的預測提供可解釋性。給定一個實例,GNNExplainer會確定緊湊的子圖結構和節點特征的一小部分,這些特征對GNN的預測至關重要。此外,GNNExplainer可以為整個實例類生成一致而簡潔的解釋。我們將GNNExplainer公式化為優化任務,該優化任務可最大化GNN的預測與可能的子圖結構的分布之間的相互信息。在合成圖和真實世界圖上進行的實驗表明,我們的方法可以識別重要的圖結構以及節點特征,并且比基準性能高出17.1%。 GNNExplainer提供了各種好處,從可視化語義相關結構的能力到可解釋性,再到洞悉有缺陷的GNN的錯誤。
作者簡介: 領域的大牛Jure Leskovec,是斯坦福大學計算機學院的副教授,也是圖表示學習方法 node2vec 和 GraphSAGE 作者之一。研究重點是對大型社會和信息網絡進行挖掘和建模,它們的演化,信息的傳播以及對它們的影響。 調查的問題是由大規模數據,網絡和在線媒體引起的。 Jure Leskovec主頁
代碼鏈接: