【導讀】近來,知識圖譜用于推薦系統是關注的焦點,能夠提升推薦系統的準確性與可解釋性。如何將知識圖譜融入到推薦系統呢? 最近中科院計算所百度微軟等學者最新綜述論文《A Survey on Knowledge Graph-Based Recommender Systems》,闡述對基于知識圖譜的推薦系統進行了系統的研究。
地址://www.zhuanzhi.ai/paper/90d0d696560bc88ea93f629b478a2128
為了解決各種在線應用中的信息爆炸問題,提高用戶體驗,推薦系統被提出來進行用戶偏好建模。盡管人們已經做出了許多努力來實現更加個性化的推薦,但是推薦系統仍然面臨著一些挑戰,比如數據稀疏性和冷啟動。近年來,以知識圖譜作為邊信息生成推薦引起了人們的極大興趣。這種方法不僅可以緩解上述問題,提供更準確的推薦,而且可以對推薦的項目進行解釋。本文對基于知識圖譜的推薦系統進行了系統的研究。我們收集了這一領域最近發表的論文,并從兩個角度進行了總結。一方面,我們通過研究論文如何利用知識圖譜進行準確和可解釋的推薦來研究所提出的算法。另一方面,我們介紹了這些工作中使用的數據集。最后,我們提出了幾個可能的研究方向。
概述
隨著互聯網的快速發展,數據量呈指數級增長。由于信息量過大,用戶在眾多的選擇中很難找到自己感興趣的。為了提高用戶體驗,推薦系統已被應用于音樂推薦[1]、電影推薦[2]、網上購物[3]等場景。
推薦算法是推薦系統的核心要素,主要分為基于協同過濾(CF)的推薦系統、基于內容的推薦系統和混合推薦系統[4]。基于CF的推薦基于用戶或交互數據項的相似度來建模用戶偏好,而基于內容的推薦利用了物品項的內容特征。基于CF的推薦系統得到了廣泛的應用,因為它可以有效地捕獲用戶的偏好,并且可以很容易地在多個場景中實現,而不需要在基于內容的推薦系統[5]、[6]中提取特征。然而,基于CF的推薦存在數據稀疏性和冷啟動問題[6]。為了解決這些問題,提出了混合推薦系統來統一交互級相似度和內容級相似度。在這個過程中,我們探索了多種類型的邊信息,如項目屬性[7]、[8]、項目評論[9]、[10],以及用戶的社交網絡[11]、[12]。
近年來,將知識圖譜(KG)作為邊信息引入推薦系統引起了研究者的關注。KG是一個異構圖,其中節點作為實體,邊表示實體之間的關系。可以將項目及其屬性映射到KG中,以了解項目[2]之間的相互關系。此外,還可以將用戶和用戶端信息集成到KG中,從而更準確地捕捉用戶與物品之間的關系以及用戶偏好。圖1是一個基于KG的推薦示例,其中電影“Avatar”和“Blood Diamond”被推薦給Bob。此KG包含用戶、電影、演員、導演和類型作為實體,而交互、歸屬、表演、導演和友誼是實體之間的關系。利用KG,電影與用戶之間存在不同的潛關系,有助于提高推薦的精度。基于知識的推薦系統的另一個優點是推薦結果[14]的可解釋性。在同一個示例中,根據user-item圖中的關系序列可以知道向Bob推薦這兩部電影的原因。例如,推薦《阿凡達》的一個原因是,《阿凡達》與鮑勃之前看過的《星際穿越》屬于同一類型。最近提出了多種KGs,如Freebase[15]、DBpedia[16]、YAGO[17]、谷歌的知識圖譜[18],方便了KGs的推薦構建。
圖1 一個基于kg的推薦的例子
本次綜述的目的是提供一個全面的文獻綜述利用KGs作為側信息的推薦系統。在我們的研究過程中,我們發現現有的基于KG的推薦系統以三種方式應用KGs: 基于嵌入的方法、基于路徑的方法和統一的方法。我們詳細說明了這些方法的異同。除了更準確的推薦之外,基于KG的推薦的另一個好處是可解釋性。我們討論了不同的作品如何使用KG來進行可解釋的推薦。此外,根據我們的綜述,我們發現KGs在多個場景中充當了輔助信息,包括電影、書籍、新聞、產品、興趣點(POIs)、音樂和社交平臺的推薦。我們收集最近的作品,根據應用程序對它們進行分類,并收集在這些作品中評估的數據集。
本次綜述的組織如下: 在第二部分,我們介紹了KGs和推薦系統的基礎;在第3節中,我們介紹了本文中使用的符號和概念;在第4節和第5節中,我們分別從方法和評價數據集的角度對基于知識的推薦系統進行了綜述;第六部分提出了該領域的一些潛在研究方向;最后,我們在第7節總結了這次調查。
術語概念
圖2 常用知識圖譜集合
圖3 符號
知識圖譜推薦系統方法
Embedding-based方法
基于嵌入的方法通常直接使用來自KG的信息來豐富項目或用戶的表示。為了利用KG信息,需要使用知識圖嵌入(KGE)算法將KG編碼為低秩嵌入。KGE算法可分為兩類[98]:翻譯距離模型,如TransE[99]、TransH[100]、TransR[101]、TransD[102]等;語義匹配模型,如DistMult[103]等。
根據KG中是否包含用戶,可以將基于嵌入的方法分為兩個類。在第一種方法中,KGs由項目及其相關屬性構成,這些屬性是從數據集或外部知識庫中提取的。我們將這樣的圖命名為項目圖。注意,用戶不包括在這樣的項目圖中。遵循這一策略的論文利用知識圖嵌入(KGE)算法對圖進行編碼,以更全面地表示項目,然后將項目側信息集成到推薦框架中。其大意可以如下所示。
另一種embedding-based方法直接建立user-item圖,用戶,項目,以及相關屬性函數作為節點。在用戶-項目圖中,屬性級關系(品牌、類別等)和用戶級關系(共同購買、共同查看等)都是邊。
Path-based Methods
基于路徑的方法構建一個用戶-項目圖,并利用圖中實體的連接模式進行推薦。基于路徑的方法在2013年就已經開發出來了,傳統的論文將這種方法稱為HIN中的推薦方法。通常,這些模型利用用戶和/或項的連接性相似性來增強推薦。
統一方法
基于嵌入的方法利用KG中用戶/項的語義表示進行推薦,而基于路徑的方法使用語義連接信息,并且兩種方法都只利用圖中信息的一個方面。為了更好地利用KG中的信息,提出了將實體和關系的語義表示和連通性信息結合起來的統一方法。統一的方法是基于嵌入傳播的思想。這些方法以KG中的連接結構為指導,對實體表示進行細化。
總結:
基于嵌入的方法使用KGE方法對KG(項目圖或用戶-項目圖)進行預處理,以獲得實體和關系的嵌入,并將其進一步集成到推薦框架中。然而,這種方法忽略了圖中信息的連通性模式,很少有文獻能夠給出有原因的推薦結果。基于路徑的方法利用用戶-項圖,通過預先定義元路徑或自動挖掘連接模式來發現項的路徑級相似性。基于路徑的方法還可以為用戶提供對結果的解釋。將基于嵌入的方法與基于路徑的方法相結合,充分利用雙方的信息是當前的研究趨勢。此外,統一的方法還具有解釋推薦過程的能力。
圖4 收集論文表。在表格中,Emb代表基于嵌入的方法,Uni代表統一方法,Att’代表注意力機制,’RL’代表強化學習,’AE’代表自動編碼器,’MF’代表矩陣分解。
代表數據集
圖5 不同應用場景和相應論文的數據集集合
未來方向
在以上幾節中,我們從更準確的推薦和可解釋性方面展示了基于知識的推薦系統的優勢。雖然已經提出了許多利用KG作為側信息進行推薦的新模型,但仍然存在一些改進的機會。在這一部分中,我們概述并討論了一些未來的研究方向。
動態推薦。雖然基于KG的推薦系統在GNN或GCN架構下取得了良好的性能,但是訓練過程是耗時的。因此,這些模型可以看作是靜態的偏好推薦。然而,在某些情況下,如網上購物、新聞推薦、Twitter和論壇,用戶的興趣會很快受到社會事件或朋友的影響。在這種情況下,使用靜態偏好建模的推薦可能不足以理解實時興趣。為了捕獲動態偏好,利用動態圖網絡可以是一個解決方案。最近,Song等[127]設計了一個動態圖-注意力網絡,通過結合來自朋友的長期和短期興趣來捕捉用戶快速變化的興趣。按照這種方法,很自然地要集成其他類型的側信息,并構建一個KG來進行動態推薦。
多任務學習。基于kg的推薦系統可以看作是圖中鏈接預測。因此,考慮到KG的性質,有可能提高基于圖的推薦的性能。例如,KG中可能存在缺失的事實,從而導致關系或實體的缺失。然而,用戶的偏好可能會被忽略,因為這些事實是缺失的,這可能會惡化推薦結果。[70]、[95]已經證明了聯合訓練KG完成模塊和推薦模塊以獲得更好的推薦是有效的。其他的工作利用多任務學習,將推薦模塊與KGE task[45]和item relation regulation task聯合訓練[73]。利用從其他kg相關任務(例如實體分類和解析)遷移知識來獲得更好的推薦性能,這是很有趣的。
跨域推薦。最近,關于跨域推薦的研究已經出現。其動機是跨域的交互數據不相等。例如,在Amazon平臺上,圖書評級比其他域更密集。使用遷移學習技術,可以共享來自具有相對豐富數據的源域的交互數據,以便在目標域內進行更好的推薦。Zhang等[128]提出了一種基于矩陣的跨域推薦方法。后來,Zhao等人[129]引入了PPGN,將來自不同領域的用戶和產品放在一個圖中,并利用user item交互圖進行跨領域推薦。雖然PPGN的性能顯著優于SOTA,但是user item圖只包含交互關系,并不考慮用戶和項目之間的其他關系。通過將不同類型的用戶和項目端信息合并到用戶-項目交互圖中,以獲得更好的跨域推薦性能。
知識增強語言表示。為了提高各種自然語言處理任務的性能,有將外部知識集成到語言表示模型中的趨勢。知識表示和文本表示可以相互細化。例如,Chen等人[130]提出了短文本分類的STCKA,利用來自KGs(如YAGO)的先驗知識,豐富了短文本的語義表征。Zhang等人[131]提出了ERNIE,該方法融合了Wikidata的知識,增強了語言的表示能力,該方法已被證明在關系分類任務中是有效的。雖然DKN模型[48]既利用了文本嵌入,也利用了新聞中的實體嵌入,但這兩種嵌入方式只是簡單地串聯起來,得到新聞的最終表現形式,而沒有考慮兩個向量之間的信息融合。因此,將知識增強的文本表示策略應用于新聞推薦任務和其他基于文本的推薦任務中,能夠更好地表示學習,從而獲得更準確的推薦結果,是很有前景的。
知識圖譜嵌入方法。基于不同約束條件的KGE方法有兩種:翻譯距離模型和語義匹配模型。在本次綜述中,這兩種類型的KGE方法被用于三種基于KGE的推薦系統和推薦任務中。但是,還沒有全面的工作建議在什么情況下,包括數據源、推薦場景和模型架構,應該采用特定的KGE方法。因此,另一個研究方向是比較不同KGE方法在不同條件下的優勢。
用戶端信息。目前,大多數基于KG的推薦系統都是通過合并項目側信息來構建圖的,而很少有模型考慮用戶側信息。然而,用戶側信息,如用戶網絡和用戶的人口統計信息,也可以很自然地集成到當前基于KGbased的推薦系統框架中。最近,Fan等人[132]使用GNN分別表示用戶-用戶社交網絡和用戶-項目交互圖,該方法在用戶社交信息方面優于傳統的基于cf的推薦系統。在我們最近的調查[96]中,一篇論文將用戶關系整合到圖表中,并展示了這種策略的有效性。因此,在KG中考慮用戶側信息可能是另一個研究方向。
主題: Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion
摘要: 會話推薦系統(CRS)旨在通過交互式對話向用戶推薦高質量的項目。盡管已為CRS做出了一些努力,但仍有兩個主要問題有待解決。首先,對話數據本身缺少足夠的上下文信息,無法準確地了解用戶的偏好。第二,自然語言表達與項目級用戶偏好之間存在語義鴻溝。為了解決這些問題,我們結合了面向單詞和面向實體的知識圖(KG)來增強CRS中的數據表示,并采用互信息最大化來對齊單詞級和實體級的語義空間。基于對齊的語義表示,我們進一步開發了用于進行準確推薦的KGenhanced推薦器組件,以及可以在響應文本中生成信息性關鍵字或實體的KG增強對話框組件。大量的實驗證明了我們的方法在推薦和對話任務上都能產生更好的性能。
主題: Deep Learning on Knowledge Graph for Recommender System: A Survey
摘要: 最近的研究表明,知識圖譜(KG)在提供有價值的外部知識以改進推薦系統(RS)方面是有效的。知識圖譜能夠編碼連接兩個對象和一個或多個相關屬性的高階關系。借助于新興的GNN,可以從KG中提取對象特征和關系,這是成功推薦的一個重要因素。本文對基于GNN的知識感知深度推薦系統進行了綜述。具體來說,我們討論了最新的框架,重點是它們的核心組件,即圖嵌入模塊,以及它們如何解決實際的推薦問題,如可伸縮性、冷啟動等。我們進一步總結了常用的基準數據集、評估指標以及開源代碼。最后,我們對調查結果進行了總結,并提出了這一快速發展領域的潛在研究方向。
題目: A Survey on Knowledge Graph-Based Recommender Systems
摘要:
為了解決信息爆炸問題,提高用戶在各種在線應用中的體驗,人們開發了推薦系統來模擬用戶的偏好。盡管人們已經為更個性化的推薦做了很多努力,但是推薦系統仍然面臨著一些挑戰,如數據稀疏和冷啟動。近年來,以知識圖為輔助信息的推薦生成引起了人們的極大興趣。這種方法不僅可以緩解上述問題,使推薦更加準確,而且可以為推薦項目提供解釋。本文對基于知識圖的推薦系統進行了系統的研究。我們收集了最近在這一領域發表的論文,并從兩個角度對其進行了總結。一方面,我們通過研究論文如何利用知識圖進行精確和可解釋的推薦來研究所提出的算法。另一方面,我們介紹了這些工作中使用的數據集。最后,提出了該領域的幾個潛在研究方向。