ACM Computing Surveys(CSUR)中文全稱為美國計算機學會計算概觀,是計算機學科最具影響力的期刊之一。作為計算機科學、理論和方法的綜述類頂刊,其2020影響因子10.282,該期刊主要發表計算機科學領域較有代表性的綜述論文。PKU-DAIR實驗室研究成果《Graph Neural Networks in Recommender Systems: A Survey》已被ACM Computing Surveys接收。近幾年,圖神經網絡(GNN)技術在推薦系統中得到了廣泛的應用,因為推薦系統中的大部分信息本質上都具有圖結構,而 GNN 在圖表示學習方面具有優勢。該綜述旨在梳理、總結并討論關于基于 GNN 的推薦系統的研究工作,便于對此領域感興趣的研究者或者工業界人士快速了解這一領域。具體來說,該綜述基于推薦過程中使用的信息類型和推薦任務對現有工作進行分類。此外,我們分析了將 GNN 應用于不同類型數據和推薦任務面臨的挑戰,總結了現有工作如何應對這些挑戰,并討論了現有工作的優點和局限性。此外,我們闡述了9個該領域有待進一步研究的方向。”
綜述中提及的代表性工作及其對應的開源實現://github.com/PKU-DAIR/GNN-in-RS 本文作者: SHIWEN WU, Peking University, China FEI SUN? , Alibaba Group, China WENTAO ZHANG, XU XIE, BIN CUI? , Peking University, China 論文鏈接:
隨著在線信息的爆炸式增長,推薦系統在緩解這種信息過載方面發揮著關鍵作用。由于推薦系統的重要應用價值,該領域一直有新興的工作。在推薦系統中,主要挑戰是從交互和輔助信息(如果有的話)中學習有效的用戶/項目表示。最近,圖神經網絡(GNN)技術在推薦系統中得到了廣泛的應用,主要原因有以下三點:(1)推薦系統中的大部分信息本質上都具有圖結構,而 GNN 在圖表示學習方面具有優勢;(2)從圖結構的角度,不同的數據類型信息可以采用統一的框架建模;(3)GNN通過多層網絡傳遞信息,可以顯式地編碼用戶交互行為中的高階信號。本文基于推薦過程中使用的信息類型和推薦任務對現有工作進行分類,分別為用戶-項目協同過濾,序列推薦,基于社交網絡的推薦,基于知識圖譜的推薦,以及其他任務。對于每個類別,我們總結了主要挑戰,介紹了代表性模型并說明了它們如何解決這些問題。每一章的最后對現有工作的優點和局限性展開了討論。本文總結了主流基準數據集、廣泛采用的評估指標,并簡述了實際應用。此外,我們闡述了9個該領域有待進一步研究的方向。
給定 user-item 交互數據,user-item collaborative filtering 的目標是利用 items 來加強 user representations、利用 users 來加強 item representation。下圖演示了如何使用 GNN 做 Collaborative Filtering。
目前工作集中于解決以下四個問題:
使用異構的 user-item bipartite graph 還是使用兩階(two-hop)鄰的同質圖?考慮到效率,如何采樣鄰居?最直接的方法是直接使用原始的用戶-項目二分圖。如果某些節點在原始圖中的鄰居很少,則通過添加邊或節點來豐富圖結構將是有益的。在處理大規模圖時,需要對鄰域進行采樣以提高計算效率。抽樣是有效性和效率之間的權衡,更有效的抽樣策略值得進一步研究。
如何從鄰居匯聚信息?是否區分鄰居的重要程度?當鄰居更加異質時,采用注意力機制對鄰居進行聚合比相等的權重和程度歸一化更可取;否則,后兩者更易于計算。顯式建模鄰居之間的影響或中心節點與鄰居之間的親和力可能會帶來額外的好處,但需要在更多數據集上進行驗證。
為更新節點,如何整合中心節點的當前表征和聚合鄰居節點得到的表征?與丟棄原始節點相比,使用其原始表示和聚合的鄰居表示更新節點會更可取。最近的工作表明,通過去除變換和非線性操作來簡化傳統的 GCN,可以獲得比原始 GCN 更好的性能。
使用最后一層特征還是合并所有層?為了獲得整體的用戶/項目表示,利用所有層的表示比直接使用最后一層表示更可取。在整合來自所有層的表示的功能方面,線性加權且權重可學習的方式允許更大的靈活性,而拼接操作則保留了來自所有層的信息。
序列推薦是基于用戶的近期活動預測用戶下一個偏好,因此需要建模序列特征。下圖演示了如何使用 GNN 做序列推薦:
目前工作集中于解決以下三個問題:
為了使用 GNN,序列數據需要轉化為圖。是否為每一個序列建立子圖?是否在多個連續 items 上添加邊會比只在連續的兩個 items 上加邊更好?下圖顯示了4種代表性的構圖方式:
最直接的構造是在兩個連續項目之間添加邊。當序列長度較短時,利用附加序列可以豐富序列圖,如果附加序列與原始序列更相似則更好。另一條線是調整行為序列的圖結構。關于哪種方法更好,沒有公認的說法。此外,序列和序列之間的關系圖也被用來獲得進一步的改進。
哪一種 propagation 機制更好?是否有必要區分序列的順序?大多數信息傳播方法是傳統的GNN方向中傳播方式的變體,對于哪種方法更好還沒有共識。一些復雜的傳播方法,例如 LESSR,以更多的計算為代價實現了性能提升。在實踐中是否采用復雜的傳播方法取決于計算成本和性能增益之間的權衡。
為了獲取用戶時間上的偏好,需要集成序列中的每一個項目的表征。是否簡單使用 pooling 或者使用 RNN 結構來加強這種時間上連續的特征?為了獲得順序偏好,廣泛采用注意力機制來整合序列中項目的表示。除此之外,添加位置嵌入可以增強項目的相對順序并帶來一些改進。利用 RNN 結構是否可以提高所有順序推薦任務的性能需要進一步研究。
**
隨著在線社交網絡的出現,推薦系統開始采用和當前用戶存在社交關系的用戶來增強用戶表征。這些工作基于同一個假設,即具有社交關系的用戶,他們的表征符合社會影響理論:相互聯系的人會相互影響。一部分工作將此作為正則項來約束最終的用戶表征,另一部分工作則用這些關系來豐富單一的用戶表征。GNN的信息傳播和更新機制和社交關系中的社會影響關系十分相近,因此最近的研究開始將GNN用于基于社交關系的推薦系統中。 目前工作集中于解決以下兩個問題:
存在社交關系的朋友有同等的影響力嗎?如果不是,如何區分不同朋友的影響?相比對好友賦予同等權重,區分不同好友的影響力更為合適。一個新興的方向是自動修改社交關系,這可以從社交網絡中存在的噪音中受益。
用戶涉及兩種類型的關系,即與朋友的社會關系和與項目的交互。如何從社會影響角度和交互行為整合用戶表征?整合兩種信息源的策略取決于是分別考慮這兩個圖還是將它們統一為一個圖。對于單獨的圖,用戶偏好是從這兩個圖中學習的整體表示的集成。對于統一圖,通常采用的策略是分層聚合模式。
相比于社交網絡,知識圖譜表達的是 items 之間的關系,可以用來增強 item表征。另外它還連接了用戶歷史喜好 items 和被推薦 items,能有助于提升模型可解釋性。同時,知識圖譜也存在結構復雜的問題,實例(entities)和關系(relations)都有多個種類。 目前高效的基于知識圖譜的推薦系統有兩大主要問題:
如何聚合 user-item interactions 和知識圖譜中的語義信息?是否顯式地將用戶節點放入知識圖譜或是隱式地使用用戶表征來區分不同關系的重要程度?現有工作要么將用戶節點視為一種實體,要么隱式使用用戶節點來區分關系。第一個方向可以進一步分為整體統一圖或用戶-項目對的特定子圖。與整體統一圖相比,user-item子圖的優勢在于關注更多相關的實體和關系,但需要更多的計算時間,性能取決于子圖的構建,這還需要進一步研究。
知識圖譜中的關系有很多種,如何設計一個聚合函數聚合這些信息?考慮到關系的多樣性及其包含的豐富語義,GAT 的變體被廣泛用于聚合來自鏈接實體的信息。對于沒有明確包含用戶節點的圖,使用用戶表示來為關系分配權重。
除了這四類任務之外,研究人員還開始利用 GNN 來提高其他推薦任務的性能,例如 POI 推薦和多媒體推薦。本文分別總結每個任務的最新進展,包含POI推薦,群組推薦,組合推薦,CTR預測,多媒體推薦。詳細內容請參見綜述。
我們介紹了針對不同推薦任務的常用數據集和評估指標,并總結了基于 GNN 的推薦的實際應用。本節可以幫助研究人員找到合適的數據集和評估指標來測試他們的方法,并概述基于 GNN 的推薦的實際應用。
雖然 GNN 在推薦系統方面取得了巨大成功,但這一領域依然值得進一步地研究。本節概述了幾個有前途的前瞻性研究方向。
除了數據類型的異質性(例如,像用戶和項目對應不同的節點類型,以及不同行為類型對應不同的邊的類型),圖中的用戶通常還具有多樣化和不確定的興趣。將每個用戶表示為一個單一的向量(低維向量空間中的一個點)很難捕捉用戶感興趣的這些特征。因此,如何代表用戶的多重不確定興趣是一個值得探索的方向。
在數據集包含數十億個節點和邊,而每個節點包含數百萬個特征的工業推薦場景中,由于內存使用量大、訓練時間長,直接應用傳統 GNN 具有挑戰性。
在實際的推薦系統中,不僅用戶和物品等對象,而且它們之間的關系都隨著時間而變化。為了保持最新的推薦,系統應該使用新的信息迭代更新。從圖的角度來看,不斷更新的信息帶來的是動態圖而不是靜態圖。
對于推薦中的圖數據,節點度呈現長尾分布,即活躍用戶與物品的交互較多,冷用戶交互較少,類似于熱門物品和冷物品。因此,在所有節點上應用相同的傳播步驟可能不是最理想的。只有少數新興工作可以自適應地決定每個節點的傳播步驟,以獲得合理的接收域。因此,如何在基于 GNN 的推薦中為每個用戶或項目自適應地選擇合適的接收域仍然是一個值得研究的問題。
自監督學習 (SSL) 是一種用于提高數據利用率的新興范式,有助于緩解稀疏問題。受 SSL 在其他領域的成功啟發,最近的努力將 SSL 用于推薦系統,并取得了顯著成就。在基于 GNN 的推薦系統領域,值得進一步探索自監督學習方向。
最近的研究表明,GNN 很容易被輸入上的小擾動所欺騙,即如果圖結構包含噪聲,GNN 的性能將大大降低。在實際推薦場景中,節點之間的關系并不總是可靠的,這是一個普遍的現象。例如,用戶可能不小心點擊了物品,無法捕捉到部分社交關系。此外,攻擊者還可能將虛假數據注入推薦系統。因此,構建一個魯棒的推薦系統,即使在存在先令攻擊的情況下也能產生穩定的推薦,具有重要的現實意義。
由于《通用數據保護條例》第 12 條對隱私的嚴格保護,推薦系統中的隱私保護引起了學術界和工業界的廣泛關注,因為大多數數據可能被視為機密/私人,例如社交網絡和歷史行為。隨著社會對隱私保護的日益重視,基于 GNN 的推薦中的隱私保護由于其實用價值應該是一個有吸引力的方向。
近年來,關于推薦偏差的研究工作激增,以實現公平。例如,對不同群體的用戶的推薦性能應該接近,并且每個項目應該具有相同的整體曝光概率。隨著 GNN 的廣泛普及,社會越來越擔心 GNN 可能會做出歧視性決定。目前已經有一些工作對減輕基于 GNN 的推薦系統中的偏差進行了一些探索。由于推薦系統中普遍存在偏見以及社會對公平性的日益關注,在基于 GNN 的推薦系統中確保公平性的同時保持可比性能值得進一步研究。
可解釋性對推薦系統是有益的:一方面,向用戶提供可解釋的推薦讓他們知道為什么推薦這些項目并且可能具有說服力;另一方面,從業者可以知道該模型為何有效,這有助于進一步改進。由于可解釋性的重要性,許多興趣都集中在設計可解釋的推薦模型或進行事后解釋上。到目前為止,可解釋的基于 GNN 的推薦系統仍未得到充分探索,這應該是一個有趣且有益的方向。
本文給大家介紹一篇剛被 ACM 旗艦期刊 ACM Computing Surveys (CSUR) 接收的基于會話推薦系統 (Session-based Recommender Systems (SBRS)) 的綜述長文。ACM Computing Surveys 是計算機學科最具影響力的期刊之一,其最新影響因子為 7.99,為中科院認定的一區 Top 期刊,CORE Rank A* 期刊,主要發表計算機科學領域較有代表性的綜述論文。
文章題為《A Survey on Session-based Recommender Systems》,論文一作為麥考瑞大學博后Shoujin Wang,研究方向為數據挖掘,機器學習以及推薦系統 。這篇文章是基于會話的推薦系統方向的一篇較為系統全面的綜述文章。全文共 39 頁,包含 11 個 sections、4 幅插圖、11 張表格和 163 篇該領域內有代表性的參考文獻。該文基于作者長期的積累和思考,對基于會話推薦系統這一推薦系統子領域進行了全面而深入的梳理和總結。
該文對目前文獻中存在的各種各樣的對問題的定義進行了統一的形式化,系統地定義了基于會話推薦系統的場景,任務和基本問題以及基本方法。作者從數據特征的角度出發,系統分析了 session 數據所特有的基本特征,以及他們給推薦任務帶來的挑戰。然后系統而全面地對這一領域當前的進展進行了歸納總結,包括對方法的分類和比較,對每類方法基本思想和特征的闡述。梳理和總結了基于會話推薦系統的主要應用場景,代表性算法和公開的數據集,并提供了開源鏈接。最后分享了本領域的未來可能的研究方向。
該文由淺入深,語言力求通俗易懂,舉例豐富,既有深入的理論分析,又有應用,算法和數據集,既適合科研工作者閱讀,也適合工程人員閱讀。作者希望該文能給相關的研究人員提供一個對該領域研究的主要問題以及涉及的各個方面、主要挑戰和進展一個全面而綜合的了解,同時給未來的研究提供一些啟發。
近年來,基于圖學習的推薦系統(GLRS)這個新興話題得到了快速發展。GLRS采用高級的圖學習方法來建模用戶的偏好和意圖,以及物品的特征來進行推薦。與其他RS方法(包括基于內容的過濾和協同過濾)不同,GLRS是建立在圖上的,其中重要對象(如用戶、物品和屬性)是顯式或隱式連接的。
隨著圖學習技術的快速發展,探索和開發圖中的同質或異質關系是構建更有效的RS的一個有前途的方向。通過討論如何從基于圖的表示中提取重要的知識,以提高推薦的準確性、可靠性和可解釋性。
首先對GLRS進行了表示和形式化,然后對該研究領域面臨的主要挑戰和主要進展進行了總結和分類。
引言
推薦系統(RS)是人工智能(AI)最流行和最重要的應用之一。它們已被廣泛采用,以幫助許多流行的內容分享和電子商務網站的用戶更容易找到相關的內容、產品或服務。與此同時,圖學習(Graph Learning, GL)是一種新興的人工智能技術,它涉及到應用于圖結構數據的機器學習,近年來發展迅速,顯示出了其強大的能力[Wu et al., 2021]。事實上,得益于這些學習關系數據的能力,一種基于GL的RS范式,即基于圖學習的推薦系統(GLRS),在過去幾年中被提出并得到了廣泛的研究[Guo等人,2020]。在本文中,我們對這一新興領域的挑戰和進展進行了系統的回顧。
動機: 為什么要用圖學習RS?
RS中的大部分數據本質上是一個圖結構。在現實世界中,我們身邊的大多數事物都或明或暗地相互聯系著;換句話說,我們生活在一個圖的世界里。這種特征在RS中更加明顯,這里考慮的對象包括用戶、物品、屬性、上下文,這些對象之間緊密相連,通過各種關系相互影響[Hu et al., 2014],如圖1所示。在實踐中,RS所使用的數據會產生各種各樣的圖表,這對推薦的質量有很大的幫助。
圖學習具有學習復雜關系的能力。作為最具發展前景的機器學習技術之一,GL在獲取嵌入在不同類型圖中的知識方面顯示出了巨大的潛力。具體來說,許多GL技術,如隨機游走和圖神經網絡,已經被開發出來學習特定類型的關系由圖建模,并被證明是相當有效的[Wu et al., 2021]。因此,使用GL來建模RS中的各種關系是一個自然和令人信服的選擇。
圖學習如何幫助RS? 到目前為止,還沒有統一的GLRS形式化。我們通常從高層次的角度對GLRS進行形式化。我們用一個RS的數據構造一個圖G = {V, E},其中對象(如用戶和商品)在V中表示為節點,它們之間的關系(如購買)在E中表示為邊。構建并訓練GLRS模型M(Θ)學習最優模型參數Θ,生成最優推薦結果R。
根據具體的推薦數據和場景,可以以不同的形式定義圖G和推薦目標R,例如,G可以是同質序列或異構網絡,而R可以是對物品的預測評級或排名。目標函數f可以是最大效用[Wang et al., 2019f]或節點之間形成鏈接的最大概率[Verma et al., 2019]。
這項工作的主要貢獻總結如下:
? 我們系統地分析了各種GLRS圖所呈現的關鍵挑戰,并從數據驅動的角度對其進行分類,為更好地理解GLRS的重要特征提供了有用的視角。
? 我們通過系統分類較先進的技術文獻,總結了目前GLRS的研究進展。
? 我們分享和討論了一些GLRS開放的研究方向,供社區參考。
隨著網絡信息的爆炸式增長,推薦系統在緩解信息過載方面發揮了重要作用。由于推薦系統具有重要的應用價值,這一領域的研究一直在不斷涌現。近年來,圖神經網絡(GNN)技術得到了廣泛的關注,它能將節點信息和拓撲結構自然地結合起來。由于GNN在圖形數據學習方面的優越性能,GNN方法在許多領域得到了廣泛的應用。在推薦系統中,主要的挑戰是從用戶/項目的交互和可用的邊信息中學習有效的嵌入用戶/項目。由于大多數信息本質上具有圖結構,而網絡神經網絡在表示學習方面具有優勢,因此將圖神經網絡應用于推薦系統的研究十分活躍。本文旨在對基于圖神經網絡的推薦系統的最新研究成果進行全面的綜述。具體地說,我們提供了基于圖神經網絡的推薦模型的分類,并闡述了與該領域發展相關的新觀點。
摘要:
隨著電子商務和社交媒體平臺的快速發展,推薦系統已經成為許多企業不可缺少的工具[78]。用戶依靠推薦系統過濾掉大量的非信息,促進決策。一個高效的推薦系統應該準確地捕捉用戶的偏好,并提出用戶潛在感興趣的內容,從而提高用戶對平臺的滿意度和用戶留存率。
推薦系統根據用戶的興趣和物品屬性來評估他們對物品的偏好。用戶興趣和項目屬性都用壓縮向量表示。因此,如何通過歷史交互以及社會關系、知識圖譜[49]等側面信息來了解用戶/項目嵌入是該領域面臨的主要挑戰。在推薦系統中,大多數信息都具有圖結構。例如,用戶之間的社會關系和與項目相關的知識圖譜,自然就是圖形數據。此外,用戶與項目之間的交互可以看作是二部圖,項目在序列中的轉換也可以構建為圖。因此,圖形學習方法被用來獲得用戶/項目嵌入。在圖學習方法中,圖神經網絡(graph neural network, GNN)目前受到了極大的追捧。
在過去的幾年里,圖神經網絡在關系提取和蛋白質界面預測等許多應用領域取得了巨大的成功[82]。最近的研究表明,推薦器在以圖[41]的形式引入用戶/項目和邊信息的交互時,性能有了很大的提升,并利用圖神經網絡技術得到了更好的用戶/項目表示。圖神經網絡通過迭代傳播能夠捕捉用戶-項目關系中的高階交互。此外,如果社會關系或知識圖譜的信息是可用的,則可以有效地將這些邊信息集成到網絡結構中。
本文旨在全面回顧基于圖神經網絡的推薦系統的研究進展。對推薦系統感興趣的研究者和實踐者可以大致了解基于圖神經網絡的推薦領域的最新發展,以及如何利用圖神經網絡解決推薦任務。本調查的主要貢獻總結如下:
新的分類法:我們提出了一個系統的分類模式來組織現有的基于圖神經網絡的推薦模型。我們可以很容易地進入這個領域,并對不同的模型進行區分。
對每個類別的全面回顧,我們展示了要處理的主要問題,并總結了模型的總體框架。此外,我們還簡要介紹了代表性模型,并說明它們是如何解決這些問題的。
我們討論了當前方法的局限性,并在效率、多圖集成、可擴展性和序列圖構造方面提出了四個潛在的未來方向。
推薦系統旨在為用戶推薦個性化的在線商品或信息, 其廣泛應用于眾多Web場景之中, 來處理海量信息數據所導致的信息過載問題, 以此提升用戶體驗. 鑒于推薦系統強大的實用性, 自20世紀90年代中期以來, 研究者針對其方法與應用兩方面, 進行了大量廣泛的研究. 近年來, 很多工作發現知識圖譜中所蘊含的豐富信息可以有效地解決推薦系統中存在的一系列關鍵問題, 例如數據稀疏、冷啟動、推薦多樣性等. 因此, 本文 針對基于知識圖譜的推薦系統這一領域進行了全面的綜述. 具體地, 首先簡單介紹推薦系統與知識圖譜中的一些基本概念. 隨后, 詳細介紹現有方法如何挖掘知識圖譜不同種類的信息并應用于推薦系統. 此外, 總結了相關的一系列推薦應用場景. 最后, 提出了對基于知識圖譜的推薦系統前景的看法, 并展望了該領域未來的研究方向.