數據稀疏和冷啟動是當前推薦系統面臨的兩大挑戰. 以知識圖譜為表現形式的附加信息能夠在某種程度上緩解數據稀疏和冷啟動帶來的負面影響, 進而提高推薦的準確度. 本文綜述了最近提出的應用知識圖譜的推薦方法和系統, 并依據知識圖譜來源與構建方法、推薦系統利用知識圖譜的方式, 提出了應用知識圖譜的推薦方法和系統的分類框架, 進一步分析了本領域的研究難點. 本文還給出了文獻中常用的數據集. 最后討論了未來有價值的研究方向.
//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200128
推薦系統推薦系統是一種向目標用戶建議可能感興趣物品的軟件工具. 隨著網絡與現實信息的爆炸式增長, 越來越多的在線服務商為用戶提供商品、音樂、電影等(以下統稱為物品)的推薦服務. 推薦系統能夠滿足用戶的個性化需求, 為在線服務商帶來巨大商業價值. 同時, 推薦方法與系統的研究促進了偏好挖掘、大數據處理、決策支持等領域的相關理論和實踐的飛速發展, 其學術價值也引起了廣泛的關注.
推薦系統面臨的重要挑戰主要是數據稀疏性問題和冷啟動問題. 數據稀疏問題指的是相對于數量龐大的用戶和物品, 僅有少量的物品獲得了用戶的評價或者購買, 難以據此獲得相似的用戶或相似的物品, 使得傳統推薦方法失效了. 冷啟動問題指的是系統由于并不知道新加入用戶的歷史行為, 無法給他們推薦物品, 同樣新加入的物品也由于沒有被用戶評價或購買過而無法被針對性的推薦.
推薦系統中通常利用附加信息來解決上述問題, 以提高性能. 附加信息(一般也稱上下文信息)分為顯式信息和隱式信息[1]. 顯式信息是通過諸如物理設備感知、用戶問詢、用戶主動設定等方式獲取的與用戶、物品相關聯的上下文信息. 隱式信息即利用已有數據或周圍環境間接獲取的一些上下文信息, 例如可根據用戶與系統的交互日志獲取時間上下文信息.
近年來, 利用以知識圖譜為表示形式的附加信息的推薦方法受到了學者們的關注. 知識圖譜最初用于提升搜索系統的性能[2], 刻畫了海量實體之間的多種關系, 具有網狀結構, 能夠用于推薦系統中來增強用戶、物品之間聯系的認知與解釋, 從而提高推薦準確度. 本文綜述了2015年~2019年發表在DLRS、RecSys、KDD、CIKM、NIPS、TIST、UMAP、SIGIR等會議和期刊中的利用知識圖譜的推薦方法的文獻, 共23篇. 在利用知識圖譜的推薦系統中, 通常首先將收集到的用戶信息、物品信息、在利用知識圖譜的推薦系統中, 通常首先將收集到的用戶信息、物品信息、用戶歷史行為等數據或者一些相關的外部數據表示成知識圖譜的形式. 然后, 設計推薦算法, 利用知識圖譜生成推薦. 此類推薦系統通常包含知識圖譜構建和利用知識圖譜產生推薦兩個環節. 本文根據這兩個環節中構建知識圖譜數據的不同來源, 以及推薦方法中利用知識圖譜信息的不同形式提出了分類框架, 并據此對相關文獻進行了分類綜述, 詳情請參看本文第三章. 與本文最為相關是文獻[3]. 該文獻綜述了2009年~2017年16篇利用知識圖譜的推薦方法的文獻. 本文在綜述的文章數量上超過了文獻[3]. 此外, 本文提出文獻分類框架能夠更好地覆蓋新提出的方法.
本文第一章介紹了利用知識圖譜的推薦方法的相關背景知識; 第二章對利用知識圖譜的推薦方法文獻進行分類與綜述; 第三章整理了目前常用的推薦系統數據集和知識圖譜數據集; 第四章、第五章分別討論了應用知識圖譜的推薦系統的研究難點與發展前景; 最后, 在第六章中對全文進行了總結.
搜索引擎中的實體推薦關鍵技術研究
搜索引擎是獲取信息的重要工具。近年來,為了更好地滿足用戶的信息獲取 需求,搜索引擎從最初只能被動地根據查詢返回相關網頁,逐步改進到能夠主動 地根據查詢提供相關信息推薦。實體推薦,即以實體為粒度進行信息推薦,是其 中推薦粒度最細且信息量最豐富的一種信息推薦形式。實體推薦旨在為用戶提供 與其查詢存在直接或間接關系的實體列表,能夠幫助用戶拓展知識面,因而越來 越受到用戶的歡迎。因此,實體推薦不僅成為現代搜索引擎必不可少的功能之一, 也正成為學術界重視的研究問題。
在搜索引擎實體推薦系統中,不僅需要為用戶提供與其查詢相關的實體推薦 結果,還需要對實體推薦結果進行恰當且合理的解釋以幫助用戶更好地理解推薦 結果。相應地,搜索引擎中的實體推薦研究主要包含以下兩個方面:(1)實體推薦算法,其目標是獲取與查詢相關的實體集合并對其進行排序;(2)實體推薦的可 解釋性,其目標是為實體推薦結果生成推薦理由,以提升推薦結果的可信度。針 對上述問題,本文研究了實體推薦算法的改進以及推薦理由的生成兩個方面的關 鍵技術,具體包括:(1)適用于搜索引擎的大規模實體推薦算法,以及基于上下文 優化實體推薦算法的具體策略;(2)實體對推薦理由的識別,以及實體推薦理由 的生成。本研究的主要內容包括以下幾個方面:
1. 基于排序學習與信息新穎性增強的實體推薦。構建適用于搜索引擎的大規 模實體推薦系統主要面臨以下 4 個挑戰:查詢與實體規模龐大、查詢的領域無關 性、用戶實體點擊數據極其稀疏以及很難為用戶推薦具有信息新穎性的實體。針 對上述挑戰,本文提出了一種基于排序學習框架的實體推薦算法,并圍繞信息新 穎性設計了相關特征與優化目標。一方面可以靈活地對召回與排序進行分階段優 化,另一方面可以直接基于查詢并面向信息新穎性構建多種粒度的排序特征,進 而能針對不同用戶偏好以及任何類型的查詢,為用戶提供個性化且兼具信息新穎 性的實體推薦結果,因此能夠大幅顯著提升實體推薦效果以及用戶參與度。
2. 基于深度多任務學習的上下文相關實體推薦。針對目前實體推薦方法普遍 忽略上下文信息以及上下文相關實體點擊數據存在數據稀疏問題,本文提出了一 種基于深度多任務學習的上下文相關實體推薦模型。一方面可以借助于上下文相 關文檔排序這一輔助任務中的大規模多任務交叉數據,另一方面可以基于多任務 學習來實現知識遷移,進而有效緩解數據稀疏問題并提升實體推薦結果的相關性,因此能夠顯著提升推薦效果。
3. 基于卷積神經網絡的實體對推薦理由識別。當推薦實體與查詢實體之間存 在確定的實體關系時,將能夠翔實地描述該實體對之間的關系的句子作為推薦理 由(簡稱為實體對推薦理由)展現給用戶,可以幫助用戶理解兩個實體間的關系, 從而提升推薦結果的可信度。目前的實體對推薦理由識別方法嚴重依賴于人工標 注的數據集以及人工設計的排序特征,從而導致識別出的實體對推薦理由的質量 較低。針對上述問題,本文提出了一種基于卷積神經網絡的實體對推薦理由識別 方法。一方面可以借助于搜索引擎點擊日志自動構建大規模訓練數據,另一方面 可以通過卷積神經網絡自動學習排序特征,進而顯著提升排序效果并帶來實體對 推薦理由質量的顯著提升。
4. 基于機器翻譯模型的實體推薦理由生成。當推薦實體與查詢之間不存在可 歸類的關系時,將能夠刻畫推薦實體特點的簡短描述作為推薦理由(簡稱為實體 推薦理由)展現給用戶,可以幫助用戶理清當前實體與查詢間的關聯,從而提升 推薦結果的可信度。然而,前人在實體推薦理由生成研究上鮮有涉獵。為此,本文 提出了基于機器翻譯模型的實體推薦理由生成方法,尤其是提出了一種由實體信 息指導的基于序列到序列學習的實體推薦理由生成模型。一方面可以有效識別并 保留源句子中的重要信息,另一方面可以指引模型生成與實體相關的結果,從而 能夠生成質量更高的實體推薦理由。
在應用方面,上述研究成果已在百度搜索引擎得到了大規模應用,取得了重 大的經濟效益和社會效益,并獲得了 2017 年中國電子學會科技進步一等獎。
景點推薦系統可以幫助游客過濾大量的無關信息, 還能輔助商家發掘潛在的顧客. 然而, 現有 的基于傳統方法的推薦系統, 如基于內容的推薦或協同過濾系統, 雖推薦過程相對透明直觀, 但由于數 據稀疏性的存在, 推薦結果往往不夠準確; 基于深度學習的推薦方法, 雖在一定程度上提高了推薦結 果的精度, 但由于缺乏可解釋性和透明度, 難以滿足部分用戶理解推薦依據的愿望, 也阻礙了此類方法 的推廣應用. 為了解決當前方法所存在的局限, 本文引入基于知識圖譜的景點推薦框架, 將推薦過程 與知識圖譜嵌入相結合, 推斷用戶興趣在知識圖譜上的傳播路徑, 以此作為推薦依據. 此外, 本文通過 對真實旅游數據的多角度時空分析, 探究旅游活動的時空規律, 并將其應用于景點推薦框架中, 提出一 種面向旅游的基于知識圖譜的可解釋推薦方法 —— Geo-RippleNet, 并通過構建基于開放網絡資源的 旅游知識圖譜, 對 Geo-RippleNet 進行了全面的實驗驗證. 結果表明, 本文提出的基于知識圖譜的景點 推薦方法, 不僅可以最大限度地吸收知識圖譜豐富的語義信息, 從而實現可觀的性能提升, 還能充分 利用圖譜的關系知識, 推理興趣傳播路徑, 以增強推薦結果的可解釋性. 此外, 將旅游活動的時空規律 融入到上述推薦框架中, 能夠還原用戶出游和決策的時空過程, 進一步提高方法的性能表現.
推薦系統旨在為用戶推薦個性化的在線商品或信息, 其廣泛應用于眾多Web場景之中, 來處理海量信息數據所導致的信息過載問題, 以此提升用戶體驗. 鑒于推薦系統強大的實用性, 自20世紀90年代中期以來, 研究者針對其方法與應用兩方面, 進行了大量廣泛的研究. 近年來, 很多工作發現知識圖譜中所蘊含的豐富信息可以有效地解決推薦系統中存在的一系列關鍵問題, 例如數據稀疏、冷啟動、推薦多樣性等. 因此, 本文 針對基于知識圖譜的推薦系統這一領域進行了全面的綜述. 具體地, 首先簡單介紹推薦系統與知識圖譜中的一些基本概念. 隨后, 詳細介紹現有方法如何挖掘知識圖譜不同種類的信息并應用于推薦系統. 此外, 總結了相關的一系列推薦應用場景. 最后, 提出了對基于知識圖譜的推薦系統前景的看法, 并展望了該領域未來的研究方向.
題目: A Survey on Knowledge Graph-Based Recommender Systems
摘要:
為了解決信息爆炸問題,提高用戶在各種在線應用中的體驗,人們開發了推薦系統來模擬用戶的偏好。盡管人們已經為更個性化的推薦做了很多努力,但是推薦系統仍然面臨著一些挑戰,如數據稀疏和冷啟動。近年來,以知識圖為輔助信息的推薦生成引起了人們的極大興趣。這種方法不僅可以緩解上述問題,使推薦更加準確,而且可以為推薦項目提供解釋。本文對基于知識圖的推薦系統進行了系統的研究。我們收集了最近在這一領域發表的論文,并從兩個角度對其進行了總結。一方面,我們通過研究論文如何利用知識圖進行精確和可解釋的推薦來研究所提出的算法。另一方面,我們介紹了這些工作中使用的數據集。最后,提出了該領域的幾個潛在研究方向。