論文題目:面向社會計算的網絡表示學習
作者:涂存超
導師:孫茂松, 劉知遠
網址://nlp.csai.tsinghua.edu.cn/~tcc/#Thesis
論文摘要:在數據挖掘和社交網絡分析中,對于網絡節點的特征表示一直至關重要。隨 著大規模社會網絡的出現,傳統的網絡表示方法面臨著計算效率以及可解釋性的 問題。此外,這些社會網絡往往蘊含著豐富的異構信息,這些特點使得已有的網 絡表示方法不能很好的處理這些大規模社會網絡。 網絡表示學習(NetworkRepresentationLearning),也就是網絡嵌入(Network Embedding),目的是為網絡中的節點學習一個低維實值的向量表示。每個節點對 應的表示向量蘊含了該節點的網絡結構信息以及其它異構信息,這些表示向量一 般被當作特征向量,來進行進一步的網絡分析任務,例如節點分類、鏈接預測、社 區發現等。本文針對網絡節點表示已有工作的不足,提出了在社會網絡中學習節 點顯式及隱式表示的思路,來學習高質量的網絡節點特征向量和提高社交網絡分 析任務的效果。為了學習網絡節點顯式的特征表示,我們進行了如下工作:(1)基 于詞項的顯式網絡表示:針對網絡節點分類任務,我們提出一種雙層分類模型,融 合利用社交網絡用戶異構文本信息和網絡結構信息,來進行職業預測任務。(2)基 于主題標簽的顯式網絡表示:為了提高用戶特征表示的可解釋性問題,我們提出 利用顯式的標簽來表示用戶節點,探究標簽與社交網絡用戶社交行為之間的對應 關系,進行用戶標簽推薦任務。 雖然網絡節點顯式表示可解釋性強,但它面臨著計算效率的問題。基于表示 學習在圖像、語音、文本等領域成功應用,我們提出了一系列基于深度學習的網 絡表示學習的方法,來學習網絡節點的隱式低維表示。這些工作包括:(1)基于最 大間隔的隱式網絡表示:為了提高網絡節點表示的區分性及其在節點分類上的效 果,提出基于最大間隔理論的有區分性的網絡表示學習模型,同時訓練網絡表示 學習模型和最大間隔分類器,顯著提升了網絡節點分類的效果。(2)上下文相關 的隱式網絡表示:針對鏈接預測任務,提出上下文相關的網絡表示學習模型,根據 網絡節點交互的鄰居節點的不同,結合文本信息來學習節點動態的表示向量。由 于引入了互相注意力機制,該模型能夠顯著提高鏈接預測任務的效果。(3)面向 社會關系抽取的隱式網絡表示:為了更好的對節點之間邊上的語義信息進行建模, 提出基于平移思想的網絡表示學習模型,考慮節點之間邊上的標簽信息,來進行 社會關系抽取任務。(4)社區優化的隱式網絡表示:為了考慮社會網絡中全局的 社區特征,我們利用網絡中的社區與文本中的主題之間的類比關系,提出了社區 優化的網絡表示學習模型,來同時學習節點表示和社區發現。
內容概要:
在復雜的實際應用中,圖是有用的數據結構,例如對物理系統進行建模,學習分子指紋,控制交通網絡以及在社交網絡中推薦朋友。但是,這些任務需要處理包含元素之間的豐富關系信息且無法通過傳統深度學習模型(例如卷積神經網絡(CNN)或遞歸神經網絡(RNN))妥善處理的非歐氏圖數據。圖中的節點通常包含有用的特征信息,這些信息在大多數無監督的表示學習方法(例如,網絡嵌入方法)中無法很好地解決。圖神經網絡(GNN)被提出來結合特征信息和圖結構,以通過特征傳播和聚集學習更好的圖表示。由于其令人信服的性能和高解釋性,GNN最近已成為一種廣泛應用的圖分析工具。
本書全面介紹了圖神經網絡的基本概念,模型和應用。首先介紹了vanilla GNN模型。然后介紹了vanilla模型的幾種變體,例如圖卷積網絡,圖遞歸網絡,圖注意力網絡,圖殘差網絡和一些通用框架。還包括不同圖類型的變體和高級訓練方法。對于GNN的應用,該書分為結構,非結構和其他場景,然后介紹了解決這些任務的幾種典型模型。最后,最后幾章提供了GNN的開放資源以及一些未來方向的展望。
本書組織如下。在第1章中進行了概述之后,在第2章中介紹了數學和圖論的一些基本知識。在第3章中介紹了神經網絡的基礎,然后在第4章中簡要介紹了香草GNN。四種類型的模型分別在第5、6、7和8章中介紹。在第9章和第10章中介紹了不同圖類型和高級訓練方法的其他變體。然后在第11章中提出了幾種通用的GNN框架。第12、13和14章介紹了GNN在結構場景,非結構場景和其他場景中的應用。最后,我們在第15章提供了一些開放資源,并在第16章總結了這本書。
作者:
劉知遠,清華大學計算機系自然語言處理實驗室, 副教授。2006年獲得清華大學計算機科學與技術系學士學位,2011年獲得博士學位。他的研究興趣是自然語言處理和社會計算。在IJCAI、AAAI、ACL、EMNLP等國際期刊和會議上發表論文60余篇。
//nlp.csai.tsinghua.edu.cn/~lzy/index_cn.html
周界是清華大學計算機科學與技術系碩士二年級學生。他于2016年獲得清華大學學士學位。他的研究興趣包括圖形神經網絡和自然語言處理。
圖書目錄:
論文題目:富信息網絡表示學習及典型應用問題研究
論文作者:楊成,博士,北京郵電大學計算機學院助理教授,2019年7月畢業于清華大學計算機科學與技術系,從事自然語言處理與社會計算相關方向的研究,博士期間在國內外頂級期刊會議上發表多篇論文,Google Scholar累計獲得引用近500次,并擔任國內外頂級會議包括ACL、EMNLP、SMP等在內的程序委員會成員和期刊的審稿人。
指導老師:孫茂松,教授,博士生導師,曾任清華大學計算機科學與技術系系主任,現任教育部在線教育研究中心副主任、清華大學計算機系黨委書記、清華大學大規模在線開放教育研究中心主任。
論文摘要:網絡是表達對象與對象間關系的常用數據形式,在人們的日常生活與工作學 習中無處不在。除去網絡的拓撲結構信息之外,真實的網絡數據中一般還包含著 根據節點的屬性、行為等產生的豐富信息,統稱為富信息網絡。隨著互聯網技術 和移動智能設備的發展,富信息網絡的數據規模飛速增長,并帶來了豐富的應用 任務和巨大的市場價值。在富信息網絡數據的規模及其相關應用的研究需求日益 增長的同時,數據驅動的深度學習技術已經在計算機視覺、自然語言處理等多個 領域取得了巨大的成功。如何讓已經在多個領域展示出其有效性的機器學習,特 別是深度學習技術,服務于富信息網絡數據及其典型應用已經在近年來成為人工 智能領域的研究熱點。 傳統的鄰接矩陣形式的網絡表示具有維度過高和數據稀疏兩大缺點,使得研 究者們無法在網絡數據上應用機器學習和深度學習技術。因此,研究者們轉而將 網絡中的節點編碼為低維稠密的向量表示,稱為網絡表示或者網絡嵌入。為網絡 中的節點學習其向量表示的任務稱為網絡表示學習。本文針對現有的網絡表示學 習工作的缺點和不足,系統性地進行了以下五個工作: 針對缺乏對于已有網絡表示學習算法的理論分析的問題,本文提出了網絡表 示學習的統一框架和增強算法。本工作將大多數現有的只考慮拓撲結構信息的網 絡表示學習方法總結為一個統一的兩步框架:鄰近度矩陣構造和降維,并進一步 提出了網絡嵌入更新(NEU)算法,該算法從理論上隱含地近似了高階鄰近度,可 以應用于已有網絡表示學習方法以提高它們的性能。 針對現有網絡表示學習方法忽略了網絡拓撲結構以外的豐富信息的問題,本 文提出了結合富特征信息的網絡表示學習。受前一工作中得到的最先進的網絡表 示學習算法實際上等同于一種特殊的矩陣分解的結論的啟發,該工作以文本特征 為例,在矩陣分解的框架下將節點的特征信息結合到網絡表示學習中。 針對現有網絡表示學習方法難以應用于相對復雜的典型應用問題的缺點,本 文以網絡表示學習技術作為模型底層,并根據特定的富信息網絡場景利用包括循 環神經網絡、卷積神經網絡在內的深度學習模型進行建模,在推薦系統和傳播預 測兩個富信息網絡典型應用問題中,創新性地提出了基于位置的社交網絡的推薦 系統、微觀層面的信息傳播預測和多層面的信息傳播預測的應用模型。