作者 | 王永康審核 | 熊展坤
今天給大家分享美國密西根州立大學Jiliang Tang教授團隊表達在KDD 2022上的一篇論文“Graph Neural Networks for Multimodal Single-Cell Data Integration”。研究針對單細胞的三個關鍵任務:模態預測、模態匹配和聯合嵌入,提出了一種通用圖神經網絡scMoGNN。該方法對單細胞的不同模態分別進行建模,根據單細胞測序數據構建GNN網絡,將不同組學的生物知識添加到圖網絡中作為額外的結構性信息,從而捕捉細胞和模態之間的高階結構關系。同時,該方法表現出高度靈活性,可在不同模式的單細胞任務進行擴展使用,有效解決傳統的單細胞數據整合技術的局限性。實驗結果表明,該方法表現出優異性能,在三個任務上均領先當前基準模型。
單細胞技術的快速發展使得同時測量細胞中多種模式的分子特征成為可能,從而為單細胞提供了前所未有的多模態數據。這不僅為不同模態之間的關系帶來了新的見解,也提供了對細胞系統的整體理解和認識。如何有效地利用多模態數據的互補信息來研究單細胞狀態,并在利用多模態數據的同時整合大量的單模態數據,成為單細胞基因組學的巨大的挑戰。對此,近期有相關研究整理出單細胞的三大主要任務:
作者認為當前的大部分研究方法將每個細胞視為單獨的輸入,不考慮細胞之間或不同模態之間可能的交互關系,然而這種交互信息在單細胞數據的稀疏特征學習過程中是必不可少的。因此,作者提出一個通用圖神經網絡scMoGNN,用于解決不同模態的單細胞數據整合問題。該方法通過將單細胞與模態特征之間的交互關系建模為圖結構,進而采用GNN網絡通過結構信息解決先前單細胞數據整合技術的局限性。基于構建的圖結構,可以很容易地將外部的生物知識(如基因之間的相互作用)整合到圖網絡中。
本文主要使用三種模態的單細胞數據,包括GEX(轉錄組數據),ATAC(DNA數據),ADT(蛋白質數據)。每種類型的數據可表示為,即N個細胞數目,每個細胞的特征維度為K。同時對于每種模態數據,可以針對細胞和特征信息構建二部圖,其中為細胞節點,表示特征節點。以下定義單細胞的三個關鍵任務:
在二部圖中,表示細胞節點和特征節點之間的關聯狀態,整張圖的形式可以描述為下式,對角線分別表示細胞節點之間以及特征節點之間的關系。由于細胞之間不存在先驗生物知識,因此;特征節點之間的聯系需要根據實際的生物任務來具體設置。 鑒于圖上存在不同的關系邊類型(如細胞-細胞,細胞-特征,特征-特征),需要分別進行處理。具體來說,使用不同的網絡參數來對節點-邊信息進行聚合,進而使得不同類型的節點產生具有差異性的分布信息。例如,對于細胞與其鄰居特征之間的關系可描述為如下式。表示邊的權重, 和表示待學習的模型參數,用于權重的標準化過程。
同理,對于特征與其鄰居細胞之間的關系可描述為如下式:
因此在圖網絡消息傳播過程中,存在如下兩種傳播方式:
針對不同的模態任務,作者補充相應的生物學知識用于增強特征信息。例如在GEX-ADT和GEX-ATAC中,作者使用MSigDB數據庫中的hallmark基因集,用于標識基因特征之間的生物關聯性。因此細胞和基因特征的圖結構可描述為下式。 標識基因特征之間的關系。 由于細胞節點和特征節點標識不同的生物含義,因此在消息傳播時無法直接將兩者進行整合。作者分別處理不同類型鄰域內的節點消息,具體如下式: ; 是可學習超參數,用于確定特征內部和細胞-特征之間的消息比例。模態信息在經過多層的圖卷積操作后,從最終的卷積結果中提取細胞節點的嵌入并進行聚合,而后通過全連接層轉換到目標模態空間內。表示不同細胞節點嵌入的權重。
任務目標要求預測一對不同模態的單細胞數據,兩數據集中相應數據具有成對性(源于同一細胞)的評分。首先根據模態預測的過程,分別對兩種模態的數據各自進行cell-feature圖的構建,以及細胞嵌入的獲取,即。而后通過計算細胞嵌入之間的余弦相似度來獲得兩模態的打分矩陣,,并通過softmax方法將評分轉化為不同細胞之間的相似性概率: 除了相似性評分外,作者構建了預測損失和重構損失用于增強模態匹配的效果,具體如下: 表示兩模態的原始數據,表示相應的模態轉化器。最終作者將和結合,作為模態匹配任務的目標函數。
任務目標是學習不同模態細胞的嵌入,用于更好的描述細胞內部的異質性,便于下游的任務分析(如批次效應移除)。作者將不同模態的信息依據模態預測方式進行特征提取,并將得到細胞特征進行拼接,形成一張更大的cell-feature圖。鑒于細胞類型信息的重要性,作者根據新的圖結構,獲得細胞節點的嵌入信息,即給每個細胞添加T維度的信息,同時評估細胞所屬類型的概率;該任務的目標函數如下: 表示對兩種模態數據通過LSI算法進行預處理,而后將特征拼接,以此構建重構損失項。式子第二項表示分類損失,第三項為正則化。
研究評估了scMoGNN框架針對上述三個任務的有效性,并在本實驗中遵循多模態單細胞數據競賽中的官方設置和數據集,將所提出框架與競賽中的優勝者進行比較,具體結果如下: 在模態預測任務中,總體結果表明了scMoGNN框架的有效性,并且在某些特定情況下該方法具有巨大的性能優勢。
在模態匹配任務中,結果表明scMoGNN框架在不同模態的匹配轉換過程中,均達到最優的效果。
在聯合嵌入任務中,scMoGNN在GEX-ADT任務中的表現明顯優于其他兩個模型。
更多詳細的實驗結果請查看原文。
本研究提出了一個基于scMoGNN的通用框架,通過捕獲細胞和特征之間高階結構信息,以此用于多模態單細胞數據的整合。實驗結果表明該方法能有效地應用于單細胞的三個關鍵任務,情態預測,情態匹配和聯合嵌入,相對于任務中的其他模型,表現出具有顯著的優勢。
論文地址://dl.acm.org/doi/abs/10.1145/3534678.3539213 代碼地址:
編譯|程昭龍
審稿|林榮鑫,王靜本文介紹由不列顛哥倫比亞大學的Yongjin P. Park通訊預印在bioRxiv的研究成果:在多細胞生物中,細胞特性和功能是通過與周圍其他細胞的相互作用來啟動和完善的。在此,**作者提出了一種名為SPURCE的可擴展機器學習方法,旨在系統地確定嵌入單細胞RNA序列數據中常見細胞間的通信模式。**作者將該方法應用于研究腫瘤微環境,并整合了多個乳腺癌數據集,發現了七個經常觀察到的相互作用特征和潛在的基因-基因相互作用網絡。實驗結果表明,通過不同的相互作用模式而不是已知標記基因的靜態表達,可以更好地理解腫瘤異質性的一部分,尤其是同一亞型內的腫瘤異質性。
1 簡介 單細胞RNA測序(scRNA-seq)技術的發展已成為基因組學的新前沿。在單細胞分辨率下進行多模態組學定量分析,有助于深入了解癌癥生物學的不同方面。癌癥研究的基本問題之一是癌細胞如何在腫瘤微環境(TME)等受限的異質環境中相互作用,研究表明,TME中細胞群之間的細胞間通信(CCC)在腫瘤生長和轉移過程中至關重要。了解腫瘤及其相互作用的合作細胞之間的復雜通信可以幫助確定潛在的癌癥治療途徑。
要理解TME中細胞間相互作用的一個重大技術挑戰就是需設計一種系統化的方法,從每個相互作用的細胞對中分離和捕獲相互作用信號。研究CCC的傳統方法包括低維空間中的聚類特征和推斷已知細胞類型簇之間的相互作用。雖然這些方法揭示了許多控制細胞分化和發病的信號機制,但它們假設每個簇(使用有限數量的標記基因注釋)代表一種細胞類型,集群中的所有細胞都以相同的方式相互作用。因此,這些方法不能解釋簇內細胞的異質性。同一細胞類型內的細胞可能存在多種亞型/狀態,并根據相互作用的合作細胞的類型和狀態表現出不同的相互作用模式,這對于理解癌癥進展至關重要。此外,不同環境(例如疾病狀態)下的細胞之間的相互作用是單獨進行研究的,這會丟失特定環境的可變性信息,并且重復性強,計算成本高。
最近的研究已經解決了這些挑戰,并開發了捕捉同一簇內細胞相互作用多樣性的方法,例如Tensor-cell2cell、scTensor等。然而,這些方法依賴于細胞類型和聚集細胞的先驗知識,根據配體-受體(LR)基因的平均表達來計算通信分數。
因此,作者提出了一種新的計算方法SPRUCE,通過復合嵌入解開單細胞成對關系,以可擴展的方式分析數千萬個細胞對。采用已知的配體和受體蛋白質-蛋白質相互作用,作者研究了細胞對定位在潛在主題空間附近的原因和方式,并強調了在腫瘤微環境數據中反復觀察到的常見模式。SPRUCE基于嵌入式主題模型(ETM),ETM是一種基于變分自動編碼器架構的生成性深度學習方法,并使用可解釋的主題特定基因表達式字典矩陣表示低維主題空間中的單細胞矢量數據。它已經在自然語言處理中成功實現,可以提取代表大規模文檔的有意義主題,最近一項名為scETM的研究表明,基于ETM的技術可以有效地從稀疏和異質的單細胞數據中捕獲重要的生物信號。SPRUCE的關鍵貢獻是通過表征LR基因驅動的細胞-細胞相互作用模式,在多個數據集中無偏地識別可解釋的細胞亞型/狀態。現有的基于圖的單細胞分析方法通常將細胞間交互模塊定義為圖中緊密相連的組件(鄰接矩陣)。作者提出的SPRUCE模型將細胞間相互作用模式視為邊緣流,或一個巨大的關聯矩陣。
2 結果 乳腺癌研究中SPRUCE模型訓練概述
作者結合現有的乳腺癌數據集和癌癥特異性免疫細胞數據,為一項無偏乳腺癌研究構建了一個全面的單細胞目錄,產生了一個由20288個基因和155913個細胞組成的數據矩陣。作者首先將來自多個數據集的細胞映射到一個共同的潛在主題空間(K=50),并通過基于變分自動編碼器的主題建模來對它們進行協調,而不是提出額外的假設。然后,基于細胞間潛在主題空間的余弦相似度,構建細胞間交互網絡并進行分層抽樣,使主題-主題關系在SPRUCE訓練的后續步驟中以相似的方式表示。對于每一個25M+的細胞對,作者提取了已知的648種配體蛋白和672種受體蛋白的基因表達,并將其用作SPRUCE模型訓練的特征載體。
多項式概率主題模型確定了11種已知細胞類型的50個細胞主題
作者使用貝葉斯深度學習方法來估計包含50個潛在維度的155913個細胞的嵌入主題模型。研究發現每個細胞主題對應一組平均數量為3118個細胞 (圖1A)。在50個主題中,包含100個以上細胞的主題有32個(圖1C)。將最多數量的細胞(占數據集的24%)分配給主題37,其中96%的細胞是之前確定的免疫細胞(T細胞和B細胞)。數據集中98%的癌細胞被分配到13個細胞主題,這13個主題中9個主題的癌細胞比例大于95%。通過使用UMAP對標注了細胞類型的潛在細胞主題進行可視化,顯示每個主題的不同簇,其中大多數細胞是數據集中的主要細胞類型之一(圖1B)。同時,作者進一步證實了與之前使用細胞類型譜系典型標記進行分析的一致性(圖1D)。估計的細胞主題比例表明常駐細胞類型具有相似的主題比例。然而,癌細胞具有不同的混合主題比例,這表明該模型識別了癌細胞的許多不同主題(圖1E)。作者還嘗試了10個、25個和50個不同數量的細胞主題,并決定使用具有50個細胞主題的主題模型,因為該模型對主要細胞類型,尤其是癌細胞,顯示出了分離良好的不同簇。
圖1 概率主題模型為細胞類型確定細胞主題
在2500萬個細胞對中發現7個穩定的TME特異性相互作用特征
作者用來自155913個細胞的LR基因表達數據來構建24790167個細胞對,并估計具有25個潛在維度的嵌入交互主題模型,同時,通過SPRUCE模型可確定常見的交互模式(圖2A,B)。在代表2500萬個細胞對的25個交互主題中,7個主題占總細胞對交互的55%,每個主題包含3%+的細胞對(圖2C)。其他18個交互主題,每個主題占總細胞對交互的2%,嵌入了基線交互信號。
該模型估計了每個交互主題中的LR基因負載,這些交互主題描述了每個基因的相對貢獻,實驗中可以對這些負荷進行排序,從而在每個交互主題中識別生物學上可解釋的主題特異性頂部基因(圖2D)。在主要相互作用主題中,排名靠前的LR基因富集了不同細胞類型特異性的功能相互作用。為了確認每個交互主題都捕獲了細胞類型特異性CCC,作者仔細研究了數據集中所有細胞在每個交互主題中目標細胞的細胞類型分布。結果發現,在每個相互作用主題中,富集的頂部LR基因的功能作用與該主題中靶細胞的主要細胞類型匹配(圖2E)。此外,交互主題在各細胞類型中的分布進一步證實了交互主題的細胞類型特異性富集。與髓樣細胞、T細胞、內皮細胞、CAF和PVL細胞類型相比,癌細胞、上皮細胞、血漿細胞和B細胞顯示出異質性的相互作用模式(圖2F)。對于癌細胞而言,大多數相互作用屬于癌癥生長和癌癥轉移的主題,其中許多排名靠前的基因是癌基因。
圖2 SPRUCE模型概述及確定的交互模式
交互主題提供了一種理解乳腺癌異質性的方法
接下來,作者基于由細胞主題模型捕獲的無偏轉錄組特征來研究乳腺癌細胞的異質性,同時將細胞主題與SPRUCE分析表征的相互作用主題相關聯(圖3A)。25835個癌細胞的相互作用模式表現出了所有的相互作用模式(圖3B)。細胞主題模型確定了癌細胞的13個細胞主題,顯示了與其靶細胞相互作用的獨特模式(圖3C)。正如預期的那樣,癌癥生長主題在 13 個細胞主題的 7 個中占主導地位。
圖3 細胞主題特異性相互作用模式揭示癌細胞的異質性
乳腺癌細胞根據疾病的基因組學和病理學分為不同的亞型,不同的亞型通常會導致明顯不同的臨床結果。所有三種不同的癌細胞亞型表現出了不同的相互作用模式,其中 TNBC(三陰性乳腺癌)細胞的異質性與 HER2+ 和 ER+ 亞型相比更高(圖 3D)。此外,SPRUCE在這些癌癥亞型中確定了顯示特定主題相互作用模式的特定細胞群(細胞主題)。
交互主題揭示潛在的癌癥亞型特異性基因相互作用網絡
SPRUCE還揭示了模型參數矩陣中特定主題的相互作用模式(圖4),通過該模式可以估計基因-基因相關網絡(配體與受體)。同時,與癌細胞相鄰的相互作用網絡通常包括已知的癌癥相關基因和其他參與細胞發育過程的基因。通過分析將它們放在相同的網絡模塊中,這些相互作用對于癌細胞控制正常細胞過程的潛在作用。此外,在淋巴主題中,T細胞受體復合物和TCR信號通路基因在癌癥和周圍免疫細胞中均高表達。其他趨化因子受體基因,如CXCR3和CXCR4,也被發現在這一相互作用主題中高度共激活,這證實了T細胞和癌細胞之間的交互作用在促進癌癥生長、免疫逃避和轉移中的關鍵作用。
圖4 交互主題構建基因網絡
3 總結 在這項研究中,作者提出了一種新穎的機器學習框架,該框架系統地剖析了數千萬個細胞對,并揭示了關于細胞表面配體-受體蛋白相互作用的細胞相互交流的共同模式。特別是,作者的分析側重于通過重新分析最先進的單細胞基因組學數據集來尋找乳腺癌進展和轉移中常用的溝通渠道。SPRUCE建立在概率主題模型和變分自動編碼器模型的基礎上,具體地證明了癌癥異質性的一部分可以在癌癥細胞的不同和特定環境的相互作用中理解。實驗還發現了許多配體-受體相互作用可以以一種亞型特異性的方式發生,盡管在傳統的單細胞分析中,細胞主要聚集為癌細胞。在作者的研究結果中,細胞類型和狀態得到了更好的理解,并且在考慮細胞間通信模式的同時,可以細化細胞類型的定義。
SPRUCE概括了現有的生物信息學方法,并且不依賴于規定的細胞類型注釋/聚類結果,這可能會在下游分析中引入不必要的偏差。此外,如果簇內的細胞不像預期的那樣均勻,則基于簇的細胞-細胞交換方法很容易導致混淆相關統計,明顯違反必要的假設,如獨立和識別分布的表達值。對于多組學數據集成任務,可以通過連接多個數據模式來研究多模態表達的共現,例如DNA可及性、組蛋白修飾和代謝組學。
SPRUCE方法依賴于幾個專門的建模假設。其中之一是假設已知的配體-受體蛋白質-蛋白質相互作用網絡充當主題特異性相互作用網絡的超集/主干。考慮到大多數蛋白質-蛋白質相互作用是通過易出錯的高通量方法在體外實驗中發現的,因此在相互作用分析方法的精確度和特異性方面仍有改進的空間。在這里,作者只關注了直接的表面蛋白相互作用。然而,確定來自表面蛋白單鏈通路的下游基因的因果效應可以進一步豐富對疾病病因的理解。
參考資料 Subedi S, Park Y. SPRUCE: Single-cell Pairwise Relationships Untangled by Composite Embedding model[J]. bioRxiv, 2022.
在**《自然-計算科學》(Nature Computational Science)上發表題為《利用圖神經網絡對空間轉錄組數據進行細胞聚類》**(Cell clustering for spatial transcriptomics data with graph neural networks)的研究論文。
論文簡介
★
★ ★ ★
★
空間轉錄組技術是生物信息學領域近年來的重大突破之一。該技術通過同時測量大量細胞的空間位置和細胞內的轉錄組計數,彌補了單細胞測序技術難以測量單個細胞之間位置關系的缺陷,從而為理解多細胞之間的相互作用提供了全新的數據基礎。發展針對空間轉錄組數據的基礎分析方法是當前生物信息學領域的前沿問題之一。
論文提出了一種基于圖卷積神經網絡的空間轉錄組細胞聚類方法(Cell Clustering for Spatial Transcriptomics,CCST)。此前針對該類數據的處理模型大都基于“同種細胞在空間上相互臨近”的這一假設。相比之下,**CCST并不依賴于局部特征,而是****可以從細胞的全局空間分布中學習節點嵌入。**具體方案為:首先將空間轉錄組建模為圖結構的數據。圖中每一個節點代表一個細胞,其原始表征為高維的基因表達信息。圖的鄰接矩陣則依據細胞之間的空間距離建立。隨后分別提取圖上的局部特征和全局特征,以最大化局部和全局特征間的互信息為目標,訓練圖神經網絡模型,從而得到帶有全局結構信息的節點嵌入,再對各細胞所對應的表示向量進行聚類來識別細胞類型,最后從生物功能角度對聚類結果進行了深入分析。
CCST方法示意圖
創新之處
★
★ ★ ★
★
論文在幾種不同類型數據集上,綜合對比了近期學術界提出的多個相關算法。在腦前額葉皮質和人乳腺癌細胞ST數據集上的實驗表明,CCST在ARI、NMI和FMI等多個聚類評價指標上均體現出優勢。同時,此方法得到的聚類結果具有較好的生物可解釋性。在MERFISH數據中,通過進行差異表達基因和基因本體(GO)分析,可以發現使用CCST聚類出的各個細胞簇能夠很好地和各細胞周期階段對應。
CCST與相關算法的指標對比:a. 調整蘭德系數(ARI);b. 歸一化互信息(NMI);c. Fowlkes-Mallows分數(FMI);d. 局部逆辛普森指數(LISI)
此研究為處理空間轉錄組數據提供了新方案,具有被應用于生命醫藥科學中多層次基礎問題研究的潛力,包括建模基因表達的空間分布、分析細胞動力學以及發現關鍵細胞亞型相互作用及其分子機制等;同時該研究也具有潛在的廣泛醫學應用場景。
作者信息
★
★ ★ ★
★
電院自動化系博士生****李家琛為論文的第一作者,電院沈紅斌教授、****袁野副教授為通訊作者,潘小勇助理教授和陳思衡副教授為共同作者。該研究獲得國家自然科學基金項目和上海浦江計劃的資助。
關于Nature Computational Science
★
★ ★ ★
★
Nature Computational Science(《自然-計算科學》)是專注于基礎和應用計算科學的《Nature》子刊,側重于計算技術和數學模型的開發與使用,以及它們在解決一系列科學學科中復雜問題的應用。該雜志的主要目標是促進多學科研究和新計算技術的跨學科應用。
論文鏈接
來源丨自動化系 文稿丨袁野 編輯 | 孟嫻 李霞 責任編輯 | 王佳力瀾
ACM Computing Surveys(CSUR)中文全稱為美國計算機學會計算概觀,是計算機學科最具影響力的期刊之一。作為計算機科學、理論和方法的綜述類頂刊,其2020影響因子10.282,該期刊主要發表計算機科學領域較有代表性的綜述論文。PKU-DAIR實驗室研究成果《Graph Neural Networks in Recommender Systems: A Survey》已被ACM Computing Surveys接收。近幾年,圖神經網絡(GNN)技術在推薦系統中得到了廣泛的應用,因為推薦系統中的大部分信息本質上都具有圖結構,而 GNN 在圖表示學習方面具有優勢。該綜述旨在梳理、總結并討論關于基于 GNN 的推薦系統的研究工作,便于對此領域感興趣的研究者或者工業界人士快速了解這一領域。具體來說,該綜述基于推薦過程中使用的信息類型和推薦任務對現有工作進行分類。此外,我們分析了將 GNN 應用于不同類型數據和推薦任務面臨的挑戰,總結了現有工作如何應對這些挑戰,并討論了現有工作的優點和局限性。此外,我們闡述了9個該領域有待進一步研究的方向。”
綜述中提及的代表性工作及其對應的開源實現://github.com/PKU-DAIR/GNN-in-RS 本文作者: SHIWEN WU, Peking University, China FEI SUN? , Alibaba Group, China WENTAO ZHANG, XU XIE, BIN CUI? , Peking University, China 論文鏈接:
隨著在線信息的爆炸式增長,推薦系統在緩解這種信息過載方面發揮著關鍵作用。由于推薦系統的重要應用價值,該領域一直有新興的工作。在推薦系統中,主要挑戰是從交互和輔助信息(如果有的話)中學習有效的用戶/項目表示。最近,圖神經網絡(GNN)技術在推薦系統中得到了廣泛的應用,主要原因有以下三點:(1)推薦系統中的大部分信息本質上都具有圖結構,而 GNN 在圖表示學習方面具有優勢;(2)從圖結構的角度,不同的數據類型信息可以采用統一的框架建模;(3)GNN通過多層網絡傳遞信息,可以顯式地編碼用戶交互行為中的高階信號。本文基于推薦過程中使用的信息類型和推薦任務對現有工作進行分類,分別為用戶-項目協同過濾,序列推薦,基于社交網絡的推薦,基于知識圖譜的推薦,以及其他任務。對于每個類別,我們總結了主要挑戰,介紹了代表性模型并說明了它們如何解決這些問題。每一章的最后對現有工作的優點和局限性展開了討論。本文總結了主流基準數據集、廣泛采用的評估指標,并簡述了實際應用。此外,我們闡述了9個該領域有待進一步研究的方向。
給定 user-item 交互數據,user-item collaborative filtering 的目標是利用 items 來加強 user representations、利用 users 來加強 item representation。下圖演示了如何使用 GNN 做 Collaborative Filtering。
目前工作集中于解決以下四個問題:
使用異構的 user-item bipartite graph 還是使用兩階(two-hop)鄰的同質圖?考慮到效率,如何采樣鄰居?最直接的方法是直接使用原始的用戶-項目二分圖。如果某些節點在原始圖中的鄰居很少,則通過添加邊或節點來豐富圖結構將是有益的。在處理大規模圖時,需要對鄰域進行采樣以提高計算效率。抽樣是有效性和效率之間的權衡,更有效的抽樣策略值得進一步研究。
如何從鄰居匯聚信息?是否區分鄰居的重要程度?當鄰居更加異質時,采用注意力機制對鄰居進行聚合比相等的權重和程度歸一化更可取;否則,后兩者更易于計算。顯式建模鄰居之間的影響或中心節點與鄰居之間的親和力可能會帶來額外的好處,但需要在更多數據集上進行驗證。
為更新節點,如何整合中心節點的當前表征和聚合鄰居節點得到的表征?與丟棄原始節點相比,使用其原始表示和聚合的鄰居表示更新節點會更可取。最近的工作表明,通過去除變換和非線性操作來簡化傳統的 GCN,可以獲得比原始 GCN 更好的性能。
使用最后一層特征還是合并所有層?為了獲得整體的用戶/項目表示,利用所有層的表示比直接使用最后一層表示更可取。在整合來自所有層的表示的功能方面,線性加權且權重可學習的方式允許更大的靈活性,而拼接操作則保留了來自所有層的信息。
序列推薦是基于用戶的近期活動預測用戶下一個偏好,因此需要建模序列特征。下圖演示了如何使用 GNN 做序列推薦:
目前工作集中于解決以下三個問題:
為了使用 GNN,序列數據需要轉化為圖。是否為每一個序列建立子圖?是否在多個連續 items 上添加邊會比只在連續的兩個 items 上加邊更好?下圖顯示了4種代表性的構圖方式:
最直接的構造是在兩個連續項目之間添加邊。當序列長度較短時,利用附加序列可以豐富序列圖,如果附加序列與原始序列更相似則更好。另一條線是調整行為序列的圖結構。關于哪種方法更好,沒有公認的說法。此外,序列和序列之間的關系圖也被用來獲得進一步的改進。
哪一種 propagation 機制更好?是否有必要區分序列的順序?大多數信息傳播方法是傳統的GNN方向中傳播方式的變體,對于哪種方法更好還沒有共識。一些復雜的傳播方法,例如 LESSR,以更多的計算為代價實現了性能提升。在實踐中是否采用復雜的傳播方法取決于計算成本和性能增益之間的權衡。
為了獲取用戶時間上的偏好,需要集成序列中的每一個項目的表征。是否簡單使用 pooling 或者使用 RNN 結構來加強這種時間上連續的特征?為了獲得順序偏好,廣泛采用注意力機制來整合序列中項目的表示。除此之外,添加位置嵌入可以增強項目的相對順序并帶來一些改進。利用 RNN 結構是否可以提高所有順序推薦任務的性能需要進一步研究。
**
隨著在線社交網絡的出現,推薦系統開始采用和當前用戶存在社交關系的用戶來增強用戶表征。這些工作基于同一個假設,即具有社交關系的用戶,他們的表征符合社會影響理論:相互聯系的人會相互影響。一部分工作將此作為正則項來約束最終的用戶表征,另一部分工作則用這些關系來豐富單一的用戶表征。GNN的信息傳播和更新機制和社交關系中的社會影響關系十分相近,因此最近的研究開始將GNN用于基于社交關系的推薦系統中。 目前工作集中于解決以下兩個問題:
存在社交關系的朋友有同等的影響力嗎?如果不是,如何區分不同朋友的影響?相比對好友賦予同等權重,區分不同好友的影響力更為合適。一個新興的方向是自動修改社交關系,這可以從社交網絡中存在的噪音中受益。
用戶涉及兩種類型的關系,即與朋友的社會關系和與項目的交互。如何從社會影響角度和交互行為整合用戶表征?整合兩種信息源的策略取決于是分別考慮這兩個圖還是將它們統一為一個圖。對于單獨的圖,用戶偏好是從這兩個圖中學習的整體表示的集成。對于統一圖,通常采用的策略是分層聚合模式。
相比于社交網絡,知識圖譜表達的是 items 之間的關系,可以用來增強 item表征。另外它還連接了用戶歷史喜好 items 和被推薦 items,能有助于提升模型可解釋性。同時,知識圖譜也存在結構復雜的問題,實例(entities)和關系(relations)都有多個種類。 目前高效的基于知識圖譜的推薦系統有兩大主要問題:
如何聚合 user-item interactions 和知識圖譜中的語義信息?是否顯式地將用戶節點放入知識圖譜或是隱式地使用用戶表征來區分不同關系的重要程度?現有工作要么將用戶節點視為一種實體,要么隱式使用用戶節點來區分關系。第一個方向可以進一步分為整體統一圖或用戶-項目對的特定子圖。與整體統一圖相比,user-item子圖的優勢在于關注更多相關的實體和關系,但需要更多的計算時間,性能取決于子圖的構建,這還需要進一步研究。
知識圖譜中的關系有很多種,如何設計一個聚合函數聚合這些信息?考慮到關系的多樣性及其包含的豐富語義,GAT 的變體被廣泛用于聚合來自鏈接實體的信息。對于沒有明確包含用戶節點的圖,使用用戶表示來為關系分配權重。
除了這四類任務之外,研究人員還開始利用 GNN 來提高其他推薦任務的性能,例如 POI 推薦和多媒體推薦。本文分別總結每個任務的最新進展,包含POI推薦,群組推薦,組合推薦,CTR預測,多媒體推薦。詳細內容請參見綜述。
我們介紹了針對不同推薦任務的常用數據集和評估指標,并總結了基于 GNN 的推薦的實際應用。本節可以幫助研究人員找到合適的數據集和評估指標來測試他們的方法,并概述基于 GNN 的推薦的實際應用。
雖然 GNN 在推薦系統方面取得了巨大成功,但這一領域依然值得進一步地研究。本節概述了幾個有前途的前瞻性研究方向。
除了數據類型的異質性(例如,像用戶和項目對應不同的節點類型,以及不同行為類型對應不同的邊的類型),圖中的用戶通常還具有多樣化和不確定的興趣。將每個用戶表示為一個單一的向量(低維向量空間中的一個點)很難捕捉用戶感興趣的這些特征。因此,如何代表用戶的多重不確定興趣是一個值得探索的方向。
在數據集包含數十億個節點和邊,而每個節點包含數百萬個特征的工業推薦場景中,由于內存使用量大、訓練時間長,直接應用傳統 GNN 具有挑戰性。
在實際的推薦系統中,不僅用戶和物品等對象,而且它們之間的關系都隨著時間而變化。為了保持最新的推薦,系統應該使用新的信息迭代更新。從圖的角度來看,不斷更新的信息帶來的是動態圖而不是靜態圖。
對于推薦中的圖數據,節點度呈現長尾分布,即活躍用戶與物品的交互較多,冷用戶交互較少,類似于熱門物品和冷物品。因此,在所有節點上應用相同的傳播步驟可能不是最理想的。只有少數新興工作可以自適應地決定每個節點的傳播步驟,以獲得合理的接收域。因此,如何在基于 GNN 的推薦中為每個用戶或項目自適應地選擇合適的接收域仍然是一個值得研究的問題。
自監督學習 (SSL) 是一種用于提高數據利用率的新興范式,有助于緩解稀疏問題。受 SSL 在其他領域的成功啟發,最近的努力將 SSL 用于推薦系統,并取得了顯著成就。在基于 GNN 的推薦系統領域,值得進一步探索自監督學習方向。
最近的研究表明,GNN 很容易被輸入上的小擾動所欺騙,即如果圖結構包含噪聲,GNN 的性能將大大降低。在實際推薦場景中,節點之間的關系并不總是可靠的,這是一個普遍的現象。例如,用戶可能不小心點擊了物品,無法捕捉到部分社交關系。此外,攻擊者還可能將虛假數據注入推薦系統。因此,構建一個魯棒的推薦系統,即使在存在先令攻擊的情況下也能產生穩定的推薦,具有重要的現實意義。
由于《通用數據保護條例》第 12 條對隱私的嚴格保護,推薦系統中的隱私保護引起了學術界和工業界的廣泛關注,因為大多數數據可能被視為機密/私人,例如社交網絡和歷史行為。隨著社會對隱私保護的日益重視,基于 GNN 的推薦中的隱私保護由于其實用價值應該是一個有吸引力的方向。
近年來,關于推薦偏差的研究工作激增,以實現公平。例如,對不同群體的用戶的推薦性能應該接近,并且每個項目應該具有相同的整體曝光概率。隨著 GNN 的廣泛普及,社會越來越擔心 GNN 可能會做出歧視性決定。目前已經有一些工作對減輕基于 GNN 的推薦系統中的偏差進行了一些探索。由于推薦系統中普遍存在偏見以及社會對公平性的日益關注,在基于 GNN 的推薦系統中確保公平性的同時保持可比性能值得進一步研究。
可解釋性對推薦系統是有益的:一方面,向用戶提供可解釋的推薦讓他們知道為什么推薦這些項目并且可能具有說服力;另一方面,從業者可以知道該模型為何有效,這有助于進一步改進。由于可解釋性的重要性,許多興趣都集中在設計可解釋的推薦模型或進行事后解釋上。到目前為止,可解釋的基于 GNN 的推薦系統仍未得到充分探索,這應該是一個有趣且有益的方向。
近年來,圖已經成為表示各種真實世界數據集的抽象。作為一種圖結構數據進行機器學習的新興工具,圖神經網絡(GNN)通過遞歸聚合相鄰節點的內容(即特征或嵌入)來學習強大的圖表示,從而保留內容和結構信息。它們已被證明可以提高各種圖應用程序的性能,如節點和圖分類、推薦系統和圖生成。一般來說,GNN模型是使用(半)監督信息端到端的方式進行訓練的,不同的下游任務需要大量不同的標記數據。然而,在大多數現實場景中,大量的標記數據通常代價高昂。為了充分利用未標記的圖結構數據,最近部分工作從最近一些自然語言處理和計算機視覺中的預訓練技術中獲得了靈感,并提出在圖上進行預訓練的GNN模型。雖然這些GNN預訓練方法取得了很好的性能,但它們都是針對同構圖進行設計,其中每個節點或邊都屬于同一類型。相比之下,現有策略忽略了異構圖,其中多種類型的節點通過不同類型的邊相互作用。
現實生活中的網絡可以構成異構圖,這些圖體現了豐富的語義并組成由多種類型的節點和邊產生的獨特結構。如圖1(a)所示,為書目數據構建了一個簡單異構圖,該圖由作者、論文、會議和術語類型的節點以及作者論文、論文會議和論文術語類型的邊組成。不同類型的節點或邊通常表現出不同的網絡屬性,如度和聚類系數。例如,會議節點通常比作者節點具有更高的度。此外,這種異構性還產生了更復雜的語義上下文,涉及到多個節點之間的多方關系,例如,描述了“同一作者關于相似主題的兩篇論文”的語義語境。除了簡單的示例之外,異構圖在很多領域中也普遍存在,例如在用戶、產品、品牌和商店以各種方式交互的電子商務中,以及在疾病、蛋白質和藥物相互關聯的生物學中。考慮到它們的普遍性,為異構圖設計有效的GNN預訓練策略變得很重要。
在本文中,我們提出了一個對比預訓練的方案,它不僅考慮單個節點之間的差異,還保留了多個節點之間的高階語義。更具體的說,本文設計了一個預訓練任務來區分不同類型的兩個節點之間的關系類型(比如,作者-論文和論文-會議關系)來為下游任務編碼統一的基礎。受對比學習[42]的啟發,為了增強樣本的代表性,本文從兩個方面構造負關系級樣本:(1)來自不一致關系的負樣本,其中兩個節點與正樣本是不同的關系;(2)來自不相關節點的負樣本,其中兩個節點在圖中根本沒有鏈接。同時,本文提出了一個異構圖上的子圖級預訓練任務,使用元圖而不是元路徑來生成子圖實例進行對比學習,因此能夠對不同上下游任務相關的高階語義進行信息編碼。
圖神經網絡(GNN)在實際應用中往往會受到可用樣本數量太少的限制,而元學習(meta-learning)作為解決機器學習中樣本缺乏問題的重要框架,正逐漸被應用到 GNN 領域以解決該問題。本文梳理近年來在元學習應用于 GNN 的一系列研究進展,我們根據模型的架構、共享的表示和應用的領域對以往工作進行分類,并在最后討論該領域當前有待解決的問題和未來值得關注的研究方向。
圖結構數據(Graph)廣泛存在于現實場景中,例如藥物研究中的藥物分子結構和推薦系統中的用戶商品交互都可以用圖(Graph)表示,而圖數據(Graph)的廣泛存在也促進了圖神經網絡(GNN)的發展。GNN 是專門用于處理圖數據的深度神經網絡,它將圖或圖上的頂點、邊映射到一個低維空間,從而學習得到圖的有效表示,并進一步將其應用于下游任務。近年來,GNN 被廣泛應用于新藥發現、交通預測、推薦系統等各個領域。
盡管 GNN 擁有非常強大的能力,但在實際應用中依然面臨樣本數量有限的挑戰,特別是在推薦系統等真實系統更是要求 GNN 可以在少量樣本可用的情況下適應新問題。而元學習(meta-learning)作為解決深度學習系統中樣本缺乏問題的重要框架,在自然語言處理、機器人技術等多種應用中都取得了成功。因此,如何利用元學習解決 GNN 所面臨的樣本缺乏問題,是研究人員普遍關心的問題。
元學習的主要思想是利用之前的學習經驗來快速適應一個新問題,從而利用很少的樣本就能學習一個有用的算法。具體來講,元學習旨在以先驗的形式學習一個模型,而不是針對所有任務學習一個模型(不能區分任務)或針對每個任務學習單獨的模型(可能對每個任務過擬合)。元學習應用于 Graph 的主要挑戰是如何確定跨任務共享的表示類型,以及怎樣設計有效的訓練策略。近期,研究人員針對不同的應用場景,已經提出了多種元學習方法來訓練 GNN。本文我們就將對元學習在 GNN 上的運用進行全面回顧。