隨著深度學習的成功,基于圖神經網絡(GNN)的方法[8,12,30]已經證明了它們在分類節點標簽方面的有效性。大多數GNN模型采用消息傳遞策略[7]:每個節點從其鄰域聚合特征,然后將具有非線性激活的分層映射函數應用于聚合信息。這樣,GNN可以在其模型中利用圖結構和節點特征信息。
然而,這些神經模型的預測缺乏透明性,人們難以理解[36],而這對于與安全和道德相關的關鍵決策應用至關重要[5]。此外,圖拓撲、節點特征和映射矩陣的耦合導致復雜的預測機制,無法充分利用數據中的先驗知識。例如,已有研究表明,標簽傳播法采用上述同質性假設來表示的基于結構的先驗,在圖卷積網絡(GCN)[12]中沒有充分使用[15,31]。
作為證據,最近的研究提出通過添加正則化[31]或操縱圖過濾器[15,25]將標簽傳播機制納入GCN。他們的實驗結果表明,通過強調這種基于結構的先驗知識可以改善GCN。然而,這些方法具有三個主要缺點:(1)其模型的主體仍然是GNN,并阻止它們進行更可解釋的預測;(2)它們是單一模型而不是框架,因此與其他高級GNN架構不兼容;(3)他們忽略了另一個重要的先驗知識,即基于特征的先驗知識,這意味著節點的標簽完全由其自身的特征確定。
為了解決這些問題,我們提出了一個有效的知識蒸餾框架,以將任意預訓練的GNN教師模型的知識注入精心設計的學生模型中。學生模型是通過兩個簡單的預測機制構建的,即標簽傳播和特征轉換,它們自然分別保留了基于結構和基于特征的先驗知識。具體來說,我們將學生模型設計為參數化標簽傳播和基于特征的2層感知機(MLP)的可訓練組合。另一方面,已有研究表明,教師模型的知識在于其軟預測[9]。通過模擬教師模型預測的軟標簽,我們的學生模型能夠進一步利用預訓練的GNN中的知識。因此,學習的學生模型具有更可解釋的預測過程,并且可以利用GNN和基于結構/特征的先驗知識。我們的框架概述如圖1所示。 圖片
圖1:我們的知識蒸餾框架的示意圖。學生模型的兩種簡單預測機制可確保充分利用基于結構/功能的先驗知識。在知識蒸餾過程中,將提取GNN教師中的知識并將其注入學生。因此,學生可以超越其相應的老師,得到更有效和可解釋的預測。
我們在五個公共基準數據集上進行了實驗,并采用了幾種流行的GNN模型,包括GCN[12]、GAT[30]、SAGE[8]、APPNP[13]、SGC[33]和最新的深層GCN模型GCNII[4]作為教師模型。實驗結果表明,就分類精度而言,學生模型的表現優于其相應的教師模型1.4%-4.7%。值得注意的是,我們也將框架應用于GLP[15],它通過操縱圖過濾器來統一GCN和標簽傳播。結果,我們仍然可以獲得1.5%-2.3%的相對改進,這表明了我們框架的潛在兼容性。此外,我們通過探究參數化標簽傳播與特征轉換之間的可學習平衡參數以及標簽傳播中每個節點的可學習置信度得分,來研究學生模型的可解釋性。總而言之,改進是一致,并且更重要的是,它具有更好的可解釋性。
本文的貢獻總結如下:
在信息爆炸的時代,推薦系統已經成為一種高效發現用戶偏好的手段。多種多種的推薦范式也不斷涌現。作為一種新穎的推薦范式,促銷推薦可以很好的刺激用戶購買欲望進而最大化收益。不同于傳統的推薦(如商品推薦和組推薦), 促銷推薦(如圖1所示)旨在在選擇階段考慮所有用戶的偏好來選擇一組K個商品并最大化投放階段的收益。盡管上述兩個階段高度關聯,現有的算法通常只關注于商品選擇階段,極大的忽略了投放階段進而導致次優的結果。為了更好的解決促銷推薦問題,我們提出了一種Comb-K推薦模型,一種帶約束的組合優化問題。通過精心設計的一些約束,Comb-K可以無縫的整合選品與投放兩個階段,進而達到最優的投放效果。特別的,即使我們在選品階段選擇了K個商品構成了K-set,用戶來投放階段也只能看到K-set中的W個。而只有被用戶看到的商品才可能真正的產生投放收益。盡管上述2個階段高度相關,但是現有的算法并沒有很好的考慮它,進而導致了次優的結果。
為了解決促銷推薦問題,我們提出了Comb-K推薦模型,一個帶約束的組合優化問題來實現更佳的選品效果。受益于精心設計的約束(尤其是投放窗口W的約束),Comb-K推薦能夠綜合考慮選擇階段和投放階段的情況。當選擇K個商品時, Comb-K能夠考慮所有用戶的偏好來搜索最優的K個商品的組合。首先,我們設計異質圖卷積來學習用戶偏好并求解用戶級別的Comb-K問題。進一步的,為了解決大規模組合爆炸的問題, 我們將海量用戶聚集為少量人群,并在人群級別求解Comb-K問題。這里,我們提出了一個異質圖池化模型來進行人群聚類和人群偏好估計。除此之外,我們還設計了一個快速求解策略RNHS來加速Comb-K的求解過程。最后,在大規模數據上驗證了我們模型的有效性。
近年來,圍繞著圖卷積網絡(GCN)這一主題的文獻大量涌現。如何有效地利用復雜圖(如具有異構實體和關系類型的知識圖譜)中豐富的結構信息是該領域面臨的主要挑戰。大多數GCN方法要么局限于具有同質邊類型的圖(例如,僅引用鏈接),要么只專注于節點的表示學習,而不是針對目標驅動的目標共同傳播和更新節點和邊的嵌入。本文提出了一種新的框架,即基于知識嵌入的圖卷積網絡(KE-GCN),該框架結合了基于圖的信念傳播中知識嵌入的能力和高級知識嵌入(又稱知識圖嵌入)方法的優勢,從而解決了這些局限性。我們的理論分析表明,KE-GCN作為具體案例提供了幾種著名的GCN方法的優雅統一,并提供了圖卷積的新視角。在基準數據集上的實驗結果表明,與強基線方法相比,KE-GCN方法在知識圖譜對齊和實體分類等任務中具有明顯的優勢。
股票趨勢預測是以預測股票的未來趨勢為目的的,是投資者尋求股票市場利潤最大化的關鍵。近年來,許多事件驅動的方法利用新聞、社交媒體和討論板中提取的事件來預測股票走勢。然而,現有的事件驅動方法存在兩個主要缺陷:1) 忽略了由股票相關屬性區分的事件信息的影響; 2)忽略其他相關股票的事件信息的影響。在本文中,我們提出了一個關系事件驅動的股票趨勢預測(REST)框架,以解決現有方法的不足。為了彌補第一個不足,我們提出建立股票上下文模型,并學習事件信息對不同上下文下的股票的影響。為了解決第二個缺點,我們構造了一個股票圖并設計了一個新的傳播層來傳播相關股票的事件信息的影響。在真實世界數據上的實驗研究證明了我們的REST框架的有效性。投資模擬的結果表明,我們的框架可以獲得比基線更高的投資回報。
圖神經網絡(GNNs)在各種圖分析任務中得到了廣泛的關注,設計良好的消息傳播機制是GNNs中最基本的組成部分,并且被證明是十分有效的。雖然傳播機制多種多樣,但基本上都是以沿網絡拓撲傳播聚合節點特征的方式來利用拓撲與特征這兩種信息的。鑒于此,一個問題自然會被提出:盡管不同圖神經網絡有不同的傳播策略,是否存在統一的數學準則,能夠從本質上指導著不同的傳播機制?如果有的話,是什么?對這個問題較為完善的回答,可以幫助我們從宏觀的角度考察不同圖神經網絡之間的關系與差異。這樣的數學準則一旦被發現,就能夠幫助我們發現現有圖神經網絡的不足之處,進而激發更多新的圖神經網絡被設計出來。
本文中,我們首先分析了幾個具有代表性的圖神經網絡(例如GCN,SGC,PPNP)的傳播過程,并抽象出他們的共性。我們發現它們均可以歸結到一個統一的優化目標框架下,該優化目標由一個帶有靈活圖卷積核的特征擬合約束項和一個圖拉普拉斯正則項組成。特征擬合約束項旨在建立節點表示與原始節點特征之間的關系,而圖拉普拉斯正則項則起到拓撲平滑特征的作用。而對應圖神經網絡傳播后的節點表示則可以隱式地看做這個統一優化目標的最優解。
同時,基于該統一優化目標框架也較容易發現現有圖神經網絡傳播策略的不足之處,為設計新的圖神經網絡也提供了機會。通常來說,設計新的圖神經網絡往往側重于設計特定的譜圖濾波器或者空域聚合策略,而該統一框架為實現這一目標提供了另一種新的途徑,即通過設計傳播過程對應的優化目標函數來得到新的GNNs。這樣,我們就能夠清楚地知道傳播過程背后的優化目標,使新設計的圖神經網絡更具有可解釋性和可靠性。
本文的主要貢獻總結如下:
提出了一個包含特征擬合項與圖正則化項的統一優化目標框架,并從理論上證明了該框架能夠解釋多個圖神經網絡的傳播策略,為理解圖神經網絡提供了一個較宏觀的視角,也為設計新的圖神經網絡帶來新思路。 基于該統一優化框架,我們設計了兩種具有靈活圖卷積核擬合項的圖神經網絡傳播目標,并給出相應的網絡模型。同時對他們的收斂性,表達能力等進行了理論分析。 我們在六個數據集上驗證了提出兩種圖神經網絡模型的效果,實驗也表明他們具有較好的緩解過平滑的能力。這進一步驗證了基于該統一框架設計新圖神經網絡的可行性。
推薦系統作為人工智能的一個重要應用,是最普遍的計算機輔助系統之一,幫助用戶找到潛在的興趣項目。近年來,人工智能應用的公平性問題引起了研究人員的廣泛關注。這些方法大多假定實例獨立,并設計復雜的模型來消除敏感信息,以促進公平。然而,推薦系統與這些方法有很大的不同,因為用戶和商品自然形成一個用戶-商品二部圖,并且在圖結構中相互協作。在本文中,我們提出了一種新的基于圖的技術來保證任何推薦模型的公平性。這里的公平性要求指的是在用戶建模過程中不暴露敏感特性集。具體來說,給定任何推薦模型的原始嵌入,我們學習一組過濾器,這些過濾器將每個用戶和每個物品的原始嵌入轉換為一個基于敏感特征集的過濾嵌入空間。對于每個用戶,這種轉換是在以用戶為中心的圖的對抗學習下實現的,以便在過濾后的用戶嵌入和該用戶的子圖結構之間模糊每個敏感特征。最后,大量的實驗結果清楚地表明了我們所提出的模型在公平推薦方面的有效性。
題目:Interpreting and Unifying Graph Neural Networks with An Optimization Framework
作者:Meiqi Zhu, Xiao Wang, Chuan Shi, Houye Ji, Peng Cui
簡介:圖神經網絡(GNNs)在各種圖分析任務中得到了相當廣泛的關注。設計良好的消息傳遞機制是經典圖神經網絡中最基本的組成成分,并且經驗與實驗證明該部分是非常有效的。雖然傳播機制多種多樣,但基本都是通過沿著網絡拓撲結構聚合節點特征來利用網絡結構與特征信息的。鑒于此,一個問題自然產生:”盡管圖神經網絡有著不同的傳播策略,是否存在一個統一的數學準則,從本質上指導這不同圖神經網絡的傳播過程?如果有的話,是什么?“ 對這個問題較為完善的答案,可以幫助我們從宏觀上有原則地考察不同圖神經網絡之間的關系和差異,并且這樣的數學準則一旦被提出,就能夠幫助我們發現現有圖神經網絡的不足之處,進而激發設計更多新的圖神經網絡。
在本文中,我們致力于建立不同圖神經網絡傳播機制之間的聯系,將他們的傳播過程建模成一個統一的優化問題。分析表明,多種經典圖神經網絡的傳播機制實際上是在優化一個結合了特征擬合約束項和圖拉普拉斯正則化約束項的優化目標,而他們傳播后的節點表示可以隱式地看作是這個統一優化目標的最優解。特征擬合項旨在建立節點表示與原始節點特征之間的關系,通常用于滿足特定圖神經網絡的不同需求。圖拉普拉斯正則化項則是這些圖神經網絡所共享的,它起到拓撲平滑特征的作用。
我們提出的統一優化目標框架,總結了幾種最具代表性的GNN之間的共性,不僅為探索不同GNN之間的關系提供了一個宏觀的視角,也進一步為靈活設計GNN提供了新的機會。傳統上,在提出一種新的圖神經網絡模型時,我們通常側重于設計特定的譜域濾波器或空域聚合策略。現在,統一的優化目標框架為實現這一目標提供了另一種新的途徑,即通過設計傳播目標函數而得到新的圖神經網絡。這樣,我們就清楚地知道傳播過程背后的優化目標,使新設計的圖神經網絡更具有可解釋性和可靠性。舉例來說,本文我們發現現有的工作通常使用非常簡單的圖卷積核來設計特征擬合約束項,因此基于現有的不足開發出兩個具有可調低通和高通濾波器性質的靈活優化目標函數。此外,我們提供了收斂證明和表達能力的比較。在基準數據集上進行的大量實驗表明,基于本文優化框架提出的GNN模型不僅性能優于現有的優化方法,而且能夠很好地緩解過度平滑問題,進一步驗證了采用統一優化框架設計GNN的可行性。
圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:
在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。
在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。
總體來說,本文的貢獻如下:
【簡介】近些年深度神經網絡幾乎在各個領域都取得了巨大的成功。然而,這些深度模型在尺寸上過于巨大,有幾百萬甚至上億的參數,造成了巨大的計算開銷,致使模型難以部署和落地。除此之外,模型的表現還高度依賴于大量的標注數據。為了使模型得到更加高效的訓練和處理標記數據不足的難題,知識蒸餾(KD)被用來遷移從一個模型到另一個模型學習到的知識。這個過程也經常被描述為student-teacher(S-T)學習框架,并且已經被廣泛應用到模型壓縮和知識遷移中。這篇論文主要介紹了知識蒸餾和student-teacher學習模型。首先,我們對于KD是什么,它是如何工作的提供了一個解釋和描述。然后,我們對近些年知識蒸餾方法的研究進展和典型用于視覺任務的S-T學習框架進行了一個全面的調研。最后,我們討論了知識蒸餾和S-T模型未來的發展方向和研究前景,以及目前這些方法所面臨的開放性挑戰。
介紹
深度神經網絡的成功主要依賴于精心設計的DNN架構。在大規模機器學習任務中,尤其是圖像識別和語音識別任務,大多數基于DNN的模型都是憑借大量的參數來提取特征從而保證模型的泛化能力。這種笨重的模型通常都有非常深和非常寬的特點,需要花費大量的時間進行訓練,而且不可能實時操作。所以,為了加速模型訓練,許多研究人員嘗試著利用預訓練的復雜模型來獲得輕量級的DNN模型,從而使得這些模型可以被部署應用。這是一篇關于知識蒸餾(KD)和student-teacher(S-T)學習模型的論文。一般來講,知識蒸餾被視作一種機制:當只給出小型的訓練集,其中包含相同或不同種類的樣本的時候,這種機制能夠使得人類快速學習新的,復雜的概念。在深度學習中,知識蒸餾是一個有效的方法,目前已經被廣泛的應用在了從一個網絡到另一個網絡的信息轉移上。知識蒸餾主要被應用在模型壓縮和知識遷移這兩個領域,對于模型壓縮,一個較小的學生模型被訓練來模仿一個預先訓練好的較大的模型。盡管知識和任務種類多樣,但是S-T框架是他們的一個相同點,其中提供知識的模型被稱作teacher,學習知識的模型被稱作student。我們對現有的知識蒸餾方法進行了重點分析和分類,其中還伴隨著各種類型的S-T結構的模型壓縮和知識轉移。我們回顧和調查了這一迅速發展的領域,強調了該領域的最新進展。雖然知識蒸餾方法已經應用于視覺智能、語音識別、自然語言處理等各個領域,但本文主要關注的是視覺領域的知識蒸餾方法,所以論文中關于知識蒸餾的大多數闡釋都是基于計算機視覺任務。由于知識蒸餾方法研究最多的領域是模型壓縮,所以我們系統地討論了該領域的技術細節、關鍵性挑戰和發展潛力。同時,重點介紹了在半監督學習、自監督學習等領域的知識遷移方法,重點介紹了以S-T學習框架為基礎的技術。
文章結構
section 2:探討知識蒸餾和S-T學習框架為什么會吸引如此多的關注。 section 3:關于知識蒸餾的理論分析。 section 4-section14:對目前的方法進行分類,并且分析了面臨的挑戰以及該領域的發展前景。 section 15:根據上面的分類結果,我們回答了section 2中提出的問題。 section 16:介紹了知識蒸餾和S-T框架的潛力。 section 17:總結。
現有的知識蒸餾方法主要集中在卷積神經網絡(convolutional neural networks~, CNNs)上,其中圖像等輸入樣本位于一個網格域內,而處理非網格數據的graph convolutional networks~(GCN)則在很大程度上被忽略。在這篇論文中,我們提出從一個預先訓練好的GCN模型中蒸餾知識的第一個專門方法。為了實現知識從教師到學生的遷移,我們提出了一個局部結構保留模塊,該模塊明確地考慮了教師的拓撲語義。在這個模塊中,來自教師和學生的局部結構信息被提取為分布,因此最小化這些分布之間的距離,使得來自教師的拓撲感知的知識轉移成為可能,從而產生一個緊湊但高性能的學生模型。此外,所提出的方法很容易擴展到動態圖模型,其中教師和學生的輸入圖可能不同。我們使用不同架構的GCN模型,在兩個不同的數據集上對所提出的方法進行了評估,并證明我們的方法達到了GCN模型最先進的知識蒸餾性能。