摘要: 網絡是一系列節點和邊的集合,通常表示成一個包含節點和邊的圖。許多復雜系統都以網絡的形式來表示,如社交網絡、生物網絡和信息網絡。為了使網絡數據的處理變得簡單有效,針對網絡中節點的表示學習成為了近年來的研究熱點。網絡表示學習旨在為網絡中的每個節點學習一個低維稠密的表示向量,進而可將得到的向量表示運用到常見的網絡分析任務中,如節點聚類、節點分類和鏈路預測等。然而,絕大多數真實網絡節點都有豐富的屬性信息,如社交網絡中的用戶資料和引文網絡中的文本內容。網絡的屬性信息對網絡表示具有重要的作用,當網絡高度稀疏時,網絡的屬性信息是網絡表示重要的輔助信息,有助于更好地學習網絡表示。傳統的鄰接矩陣僅僅表示了邊的信息,而無法加入節點的屬性信息。因此,網絡表示不僅要保存網絡的結構信息,還要保存網絡的屬性信息。此外,大多數真實世界網絡都是動態變化的,這種變化包括網絡節點的增加和減少,以及網絡邊的新建和消失。同時,與網絡結構變化相似,網絡中的屬性也會隨著時間的推移發生變化。隨著機器學習技術的發展,針對網絡表示學習問題的研究成果層出不窮,文中將針對近年來的網絡表示學習方法進行系統性的介紹和總結。
復雜網絡在現實場景中無處不在,高效的復雜網絡分析技術具有廣泛的應用價值,比如社區檢測、鏈路預測等.然而直接對大規模的復雜網絡鄰接矩陣進行分析需要較高的時間、空間復雜度,網絡表征學習是一種解決此問題的有效方法.該類方法將高維稀疏的網絡信息轉化為低維稠密的實值向量,可以作為機器學習算法的輸入,便于后續應用的高效計算.傳統的網絡表征學習方法將實體對象嵌入到低維歐氏向量空間中,但復雜網絡是一類具有近似樹狀層次結構、冪率度分布、強聚類特性的網絡,該結構更適合用具有負曲率的雙曲空間來描述. 本文將針對復雜網絡的雙曲空間表征學習方法進行系統性的介紹和總結.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6092&flag=1
論文題目:富信息網絡表示學習及典型應用問題研究
論文作者:楊成,博士,北京郵電大學計算機學院助理教授,2019年7月畢業于清華大學計算機科學與技術系,從事自然語言處理與社會計算相關方向的研究,博士期間在國內外頂級期刊會議上發表多篇論文,Google Scholar累計獲得引用近500次,并擔任國內外頂級會議包括ACL、EMNLP、SMP等在內的程序委員會成員和期刊的審稿人。
指導老師:孫茂松,教授,博士生導師,曾任清華大學計算機科學與技術系系主任,現任教育部在線教育研究中心副主任、清華大學計算機系黨委書記、清華大學大規模在線開放教育研究中心主任。
論文摘要:網絡是表達對象與對象間關系的常用數據形式,在人們的日常生活與工作學 習中無處不在。除去網絡的拓撲結構信息之外,真實的網絡數據中一般還包含著 根據節點的屬性、行為等產生的豐富信息,統稱為富信息網絡。隨著互聯網技術 和移動智能設備的發展,富信息網絡的數據規模飛速增長,并帶來了豐富的應用 任務和巨大的市場價值。在富信息網絡數據的規模及其相關應用的研究需求日益 增長的同時,數據驅動的深度學習技術已經在計算機視覺、自然語言處理等多個 領域取得了巨大的成功。如何讓已經在多個領域展示出其有效性的機器學習,特 別是深度學習技術,服務于富信息網絡數據及其典型應用已經在近年來成為人工 智能領域的研究熱點。 傳統的鄰接矩陣形式的網絡表示具有維度過高和數據稀疏兩大缺點,使得研 究者們無法在網絡數據上應用機器學習和深度學習技術。因此,研究者們轉而將 網絡中的節點編碼為低維稠密的向量表示,稱為網絡表示或者網絡嵌入。為網絡 中的節點學習其向量表示的任務稱為網絡表示學習。本文針對現有的網絡表示學 習工作的缺點和不足,系統性地進行了以下五個工作: 針對缺乏對于已有網絡表示學習算法的理論分析的問題,本文提出了網絡表 示學習的統一框架和增強算法。本工作將大多數現有的只考慮拓撲結構信息的網 絡表示學習方法總結為一個統一的兩步框架:鄰近度矩陣構造和降維,并進一步 提出了網絡嵌入更新(NEU)算法,該算法從理論上隱含地近似了高階鄰近度,可 以應用于已有網絡表示學習方法以提高它們的性能。 針對現有網絡表示學習方法忽略了網絡拓撲結構以外的豐富信息的問題,本 文提出了結合富特征信息的網絡表示學習。受前一工作中得到的最先進的網絡表 示學習算法實際上等同于一種特殊的矩陣分解的結論的啟發,該工作以文本特征 為例,在矩陣分解的框架下將節點的特征信息結合到網絡表示學習中。 針對現有網絡表示學習方法難以應用于相對復雜的典型應用問題的缺點,本 文以網絡表示學習技術作為模型底層,并根據特定的富信息網絡場景利用包括循 環神經網絡、卷積神經網絡在內的深度學習模型進行建模,在推薦系統和傳播預 測兩個富信息網絡典型應用問題中,創新性地提出了基于位置的社交網絡的推薦 系統、微觀層面的信息傳播預測和多層面的信息傳播預測的應用模型。
論文題目:面向社會計算的網絡表示學習
作者:涂存超
導師:孫茂松, 劉知遠
網址://nlp.csai.tsinghua.edu.cn/~tcc/#Thesis
論文摘要:在數據挖掘和社交網絡分析中,對于網絡節點的特征表示一直至關重要。隨 著大規模社會網絡的出現,傳統的網絡表示方法面臨著計算效率以及可解釋性的 問題。此外,這些社會網絡往往蘊含著豐富的異構信息,這些特點使得已有的網 絡表示方法不能很好的處理這些大規模社會網絡。 網絡表示學習(NetworkRepresentationLearning),也就是網絡嵌入(Network Embedding),目的是為網絡中的節點學習一個低維實值的向量表示。每個節點對 應的表示向量蘊含了該節點的網絡結構信息以及其它異構信息,這些表示向量一 般被當作特征向量,來進行進一步的網絡分析任務,例如節點分類、鏈接預測、社 區發現等。本文針對網絡節點表示已有工作的不足,提出了在社會網絡中學習節 點顯式及隱式表示的思路,來學習高質量的網絡節點特征向量和提高社交網絡分 析任務的效果。為了學習網絡節點顯式的特征表示,我們進行了如下工作:(1)基 于詞項的顯式網絡表示:針對網絡節點分類任務,我們提出一種雙層分類模型,融 合利用社交網絡用戶異構文本信息和網絡結構信息,來進行職業預測任務。(2)基 于主題標簽的顯式網絡表示:為了提高用戶特征表示的可解釋性問題,我們提出 利用顯式的標簽來表示用戶節點,探究標簽與社交網絡用戶社交行為之間的對應 關系,進行用戶標簽推薦任務。 雖然網絡節點顯式表示可解釋性強,但它面臨著計算效率的問題。基于表示 學習在圖像、語音、文本等領域成功應用,我們提出了一系列基于深度學習的網 絡表示學習的方法,來學習網絡節點的隱式低維表示。這些工作包括:(1)基于最 大間隔的隱式網絡表示:為了提高網絡節點表示的區分性及其在節點分類上的效 果,提出基于最大間隔理論的有區分性的網絡表示學習模型,同時訓練網絡表示 學習模型和最大間隔分類器,顯著提升了網絡節點分類的效果。(2)上下文相關 的隱式網絡表示:針對鏈接預測任務,提出上下文相關的網絡表示學習模型,根據 網絡節點交互的鄰居節點的不同,結合文本信息來學習節點動態的表示向量。由 于引入了互相注意力機制,該模型能夠顯著提高鏈接預測任務的效果。(3)面向 社會關系抽取的隱式網絡表示:為了更好的對節點之間邊上的語義信息進行建模, 提出基于平移思想的網絡表示學習模型,考慮節點之間邊上的標簽信息,來進行 社會關系抽取任務。(4)社區優化的隱式網絡表示:為了考慮社會網絡中全局的 社區特征,我們利用網絡中的社區與文本中的主題之間的類比關系,提出了社區 優化的網絡表示學習模型,來同時學習節點表示和社區發現。