摘要
推薦系統已經被廣泛應用于不同的現實生活場景,幫助我們找到有用的信息。近年來,基于強化學習(RL)的推薦系統已經成為一個新興的研究課題。由于其交互性和自主學習能力,它常常超過傳統的推薦模型,甚至是最基于深度學習的方法。然而,在推薦系統中應用RL還面臨著各種挑戰。為此,我們首先對五種典型推薦場景的RL方法進行了全面的概述、比較和總結,以下是三個主要的RL類別: 價值函數、策略搜索和演員-評論員(Actor-Critic)。然后,在現有文獻的基礎上,系統分析了面臨的挑戰和相應的解決方案。最后,通過對RL研究中存在的問題和局限性的討論,指出了該領域潛在的研究方向。
引言
個性化推薦系統能夠提供符合用戶喜好的有趣信息,從而有助于緩解信息過載問題。在過去的二十年中,人們對推薦系統進行了廣泛的研究,開發了許多推薦方法。這些方法通常根據用戶的喜好、商品特征和用戶與商品的交互來進行個性化的推薦。一些推薦方法還利用其他附加信息,如用戶之間的社會關系(例如,社會推薦)、時間數據(例如,順序推薦)和位置感知信息(例如,POI(“興趣點”的縮寫)推薦。
推薦技術通常利用各種信息為用戶提供潛在的項目。在現實場景中,推薦系統根據用戶與商品的交互歷史進行商品推薦,然后接收用戶反饋進行進一步推薦。也就是說,推薦系統的目的是通過交互獲取用戶的偏好,并推薦用戶可能感興趣的項目。為此,早期的推薦研究主要集中在開發基于內容和基于協同過濾的方法[2],[3]。矩陣分解是傳統推薦方法中最具代表性的方法之一。近年來,由于深度學習的快速發展,各種神經推薦方法被開發出來[4]。然而,現有的推薦方法往往忽略了用戶與推薦模型之間的交互。它們不能有效地捕捉到用戶的及時反饋來更新推薦模型,往往導致推薦結果不理想。
一般來說,推薦任務可以建模為這樣一個交互過程——用戶被推薦一個商品,然后為推薦模型提供反饋(例如,跳過、點擊或購買)。在下一次交互中,推薦模型從用戶的顯式/隱式反饋中學習,并向用戶推薦一個新項目。從用戶的角度來看,高效的交互意味著幫助用戶盡快找到準確的商品。從模型的角度看,有必要在推薦的多輪中平衡新穎性、相關性和多樣性。交互式推薦方法已成功應用于現實世界的推薦任務中。然而,該方法經常遇到一些問題,如冷啟動[5]和數據稀疏[6],以及挑戰,如可解釋性[7]和安全性[8]。
作為一個機器學習領域,強化學習(RL)專注于智能代理如何與環境交互,提供了潛在的解決方案來模擬用戶和代理之間的交互。最近RL的成功推動了人工智能[9],[10]的研究。特別是,深度強化學習(DRL)[11]具有強大的表示學習和函數逼近特性,可以解決人工智能的挑戰。它已被應用于各個領域,如游戲[12],機器人[13],網絡[14]。近年來,應用RL解決推薦問題已成為推薦研究的一個新趨勢。具體來說,RL使推薦代理能夠不斷地與環境(例如,用戶和/或記錄的數據)交互,以學習最佳推薦策略。在實踐中,基于RL的推薦系統已經被應用到許多特定的場景中,如電子商務[18]、電子學習[19]、電影推薦[20]、音樂推薦[21]、新聞推薦[22]、工作技能推薦[23]、醫療保健[24]、能量優化[25]等。
為促進基于RL的推薦系統的研究,本文總結了現有的推薦問題的相關解決方案,系統分析了在推薦方法中應用RL所面臨的挑戰,并探討了未來潛在的研究方向。本文從理論研究的角度,回顧了已有的研究工作,包括環境構建、先驗知識、獎勵函數定義、學習偏差和任務構建。環境建設可以緩解勘探開發的取舍。先驗知識和獎勵定義是進行推薦決策的關鍵。此外,任務結構化可以很好地解決維度的詛咒。從應用的角度,我們還提供了基于RL的推薦系統的全面調研,分別遵循價值函數、策略搜索和演員評論。值得注意[26]的是還提供了對基于RL和drl的推薦算法的回顧,并在推薦列表、架構、可解釋性和評估方面提出了幾個研究方向。[27]主要從基于模型的方法和無模型的算法兩方面對基于drl的推薦系統進行了概述,并重點介紹了基于drl的推薦中一些有待解決的問題和新興的課題。與[26]和[27]不同的是,我們根據其他分類算法(即價值函數、策略搜索和角色-評論)概述了現有的(D)RL推薦方法,并分析了在推薦系統中應用(D)RL的挑戰。
本工作的主要貢獻如下:
我們全面回顧了為五種典型推薦方案開發的RL方法。對于每個推薦場景,我們提供了有代表性的模型的詳細描述,總結了文獻中使用的具體RL算法,并進行了必要的比較。
我們系統地分析了在推薦系統中應用RL所面臨的挑戰,包括環境構建、先驗知識、獎勵函數定義、學習偏差和任務構建。
我們還討論了RL的開放問題,分析了該領域的實際挑戰,并提出了未來可能的研究和應用方向。
本文的其余部分結構如下。第2節介紹了RL的背景,定義了相關的概念,列出了常用的方法。第三節給出了基于rl的推薦方法的標準定義。第4節全面回顧了為推薦系統開發的RL算法。第五部分討論了在推薦系統中應用RL所面臨的挑戰和相應的解決方案。接下來,第6節討論了基于rl的推薦系統的各種限制和潛在的研究方向。最后,第7節總結了本研究。
當前,強化學習(包括深度強化學習DRL和多智能體強化學習MARL)在游戲、機器?等領域有?常出?的表現,但盡管如此,在達到相同?平的情況下,強化學習所需的樣本量(交互次數)還是遠遠超過?類的。這種對?量交互樣本的需求,嚴重阻礙了強化學習在現實場景下的應?。為了提升對樣本的利?效率,智能體需要?效率地探索未知的環境,然后收集?些有利于智能體達到最優策略的交互數據,以便促進智能體的學習。近年來,研究?員從不同的?度研究RL中的探索策略,取得了許多進展,但尚??個全?的,對RL中的探索策略進?深度分析的綜述。
本?介紹深度強化學習領域第?篇系統性的綜述?章Exploration in Deep Reinforcement Learning: A Comprehensive Survey。該綜述?共調研了將近200篇?獻,涵蓋了深度強化學習和多智能體深度強化學習兩?領域近100種探索算法。總的來說,該綜述的貢獻主要可以總結為以下四??:
三類探索算法。該綜述?次提出基于?法性質的分類?法,根據?法性質把探索算法主要分為基于不確定性的探索、基于內在激勵的探索和其他三?類,并從單智能體深度強化學習和多智能體深度強化學習兩??系統性地梳理了探索策略。
四?挑戰。除了對探索算法的總結,綜述的另??特點是對探索挑戰的分析。綜述中?先分析了探索過程中主要的挑戰,同時,針對各類?法,綜述中也詳細分析了其解決各類挑戰的能?。
三個典型benchmark。該綜述在三個典型的探索benchmark中提供了具有代表性的DRL探索?法的全?統?的性能?較。
五點開放問題。該綜述分析了現在尚存的亟需解決和進?步提升的挑戰,揭?了強化學習探索領域的未來研究?向。
隨著互聯網和信息計算的飛速發展,衍生了海量數據,我們已經進入信息爆炸的時代。網絡中各種信息量的指數型增長導致用戶想要從大量信息中找到自己需要的信息變得越來越困難,信息過載問題日益突出。推薦系統在緩解信息過載問題中起著非常重要的作用,該方法通過研究用戶的興趣偏好進行個性化計算,由系統發現用戶興趣進而引導用戶發現自己的信息需求。目前,推薦系統已經成為產業界和學術界關注、研究的熱點問題,應用領域十分廣泛。在電子商務、會話推薦、文章推薦、智慧醫療等多個領域都有所應用。傳統的推薦算法主要包括基于內容的推薦、協同過濾推薦以及混合推薦。其中,協同過濾推薦是推薦系統中應用最廣泛最成功的技術之一。該方法利用用戶或物品間的相似度以及歷史行為數據對目標用戶進行推薦,因此存在用戶冷啟動和項目冷啟動問題。此外,隨著信息量的急劇增長,傳統協同過濾推薦系統面對數據的快速增長會遇到嚴重的數據稀疏性問題以及可擴展性問題。為了緩解甚至解決這些問題,推薦系統研究人員進行了大量的工作。近年來,為了提高推薦效果、提升用戶滿意度,學者們開始關注推薦系統的多樣性問題以及可解釋性等問題。由于深度學習方法可以通過發現數據中用戶和項目之間的非線性關系從而學習一個有效的特征表示,因此越來越受到推薦系統研究人員的關注。目前的工作主要是利用評分數據、社交網絡信息以及其他領域信息等輔助信息,結合深度學習、數據挖掘等技術提高推薦效果、提升用戶滿意度。對此,本文首先對推薦系統以及傳統推薦算法進行概述,然后重點介紹協同過濾推薦算法的相關工作。包括協同過濾推薦算法的任務、評價指標、常用數據集以及學者們在解決協同過濾算法存在的問題時所做的工作以及努力。最后提出未來的幾個可研究方向。
//jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20210502&flag=1
摘要: 推薦系統致力于從海量數據中為用戶尋找并自動推薦有價值的信息和服務,可有效解決信息過載問題,成為大數據時代一種重要的信息技術。但推薦系統的數據稀疏性、冷啟動和可解釋性等問題,仍是制約推薦系統廣泛應用的關鍵技術難點。強化學習是一種交互學習技術,該方法通過與用戶交互并獲得反饋來實時捕捉其興趣漂移,從而動態地建模用戶偏好,可以較好地解決傳統推薦系統面臨的經典關鍵問題。強化學習已成為近年來推薦系統領域的研究熱點。文中從綜述的角度,首先在簡要回顧推薦系統和強化學習的基礎上,分析了強化學習對推薦系統的提升思路,對近年來基于強化學習的推薦研究進行了梳理與總結,并分別對傳統強化學習推薦和深度強化學習推薦的研究情況進行總結;在此基礎上,重點總結了近年來強化學習推薦研究的若干前沿,以及其應用研究情況。最后,對強化學習在推薦系統中應用的未來發展趨勢進行分析與展望。
摘要: 數據稀疏和冷啟動是當前推薦系統面臨的兩大挑戰. 以知識圖譜為表現形式的附加信息能夠在某種程度上緩解數據稀疏和冷啟動帶來的負面影響, 進而提高推薦的準確度. 本文綜述了最近提出的應用知識圖譜的推薦方法和系統, 并依據知識圖譜來源與構建方法、推薦系統利用知識圖譜的方式, 提出了應用知識圖譜的推薦方法和系統的分類框架, 進一步分析了本領域的研究難點. 本文還給出了文獻中常用的數據集. 最后討論了未來有價值的研究方向.
【導讀】首篇深度強化學習推薦系統綜述論文,值的關注!
摘要
鑒于深度強化學習(DRL)在推薦系統研究中的出現,以及近年來取得的豐碩成果,本研究旨在對深度強化學習在推薦系統中的最新發展趨勢提供一個及時而全面的概述。我們從在推薦系統中應用DRL的動機開始。然后,我們給出了當前基于DRL的推薦系統的分類,并對現有的方法進行了總結。我們討論新出現的話題和未決的問題,并提供我們推進該領域的觀點。本綜述為來自學術界和工業界的讀者提供了入門材料,并確定了進一步研究的顯著機會。
引言
近年來,推薦技術有了長足的發展,從傳統的協同過濾、基于內容的推薦、矩陣分解等推薦技術[62],到基于深度學習的推薦技術。特別是深度學習在解決復雜任務和處理復雜數據方面具有很強的優勢,因為深度學習能夠捕捉非線性的用戶-項目關系,能夠處理圖像、文本等各種類型的數據源。因此,它在推薦系統中得到了越來越多的應用。由于分布的變化,基于深度學習的推薦系統在捕獲興趣動態方面存在局限性[17,115],即訓練階段基于現有的數據集,這可能不能反映真實的用戶喜好,而用戶的喜好變化很快。而深度強化學習(deep reinforcement learning, DRL)的目標是將深度學習和強化學習的力量結合起來,訓練出一種能夠從環境提供的交互軌跡中學習的agent。由于DRL中的agent可以主動從用戶的實時反饋中學習,從而推斷出用戶的動態偏好,因此DRL特別適合于從交互中學習,如人-機器人協作; 它還推動了一系列互動應用的顯著進步,從視頻游戲、Alpha Go到自動駕駛[3]。鑒于DRL對推薦系統的重要性和最近的進展,我們旨在在本次綜述中及時總結和評論基于DRL的推薦系統。
最近的一項基于強化學習的推薦系統[2]綜述了推薦系統中的強化學習,但沒有對日益增長的深度強化學習領域進行復雜的研究。我們綜述重點在于系統全面地概述了基于DRL的推薦系統中的現有方法,并討論了新出現的主題、未決問題和未來的方向。這項綜述介紹了研究人員,實踐者和教育工作者到這個主題,并促進了對該領域的關鍵技術的理解。
這項綜述的主要貢獻包括:
我們提供關于推薦系統中深度強化學習的最新綜合綜述,具有最先進的技術和指向核心參考文獻的指針。據我們所知,這是基于深度強化學習的推薦系統的第一個全面綜述。
我們給出了推薦系統中深度強化學習的文獻分類。在概述分類和文獻綜述的同時,我們討論了其優缺點,并對未來的研究方向提出了建議。
我們闡明了基于DRL的推薦系統的新興主題和開放問題。我們還指出了未來發展方向,這對推進基于DRL的推薦系統至關重要。
本綜述的其余部分組織如下: 第2節概述了推薦系統、DRL及其集成。第3節提供了一個分類和分類機制的文獻綜述。第4節回顧了出現的話題,第5節指出了未解決的問題。最后,第6節為這一領域的進一步發展提供了一些有前景的未來方向。
近年來,采用異質信息網絡統一建模推薦系統中不同類型對象的復雜交互行為、豐富的用戶和商品屬性以及各種各樣的輔助信息,不僅有效地緩解了推薦系統的數據稀疏和冷啟動問題,而且具有較好的可解釋性,并因此得到了廣泛關注與應用。據我們所知,本文是首篇專門介紹基于異質信息網絡的推薦系統的綜述。
具體而言,本文首先介紹了異質信息網絡和推薦系統的核心概念和背景知識,簡要回顧了異質信息網絡和推薦系統的研究現狀,并且闡述了將推薦系統建模為異質信息網絡的一般步驟。然后,本文根據模型原理的不同將現有方法分為三類,分別是基于相似性度量的方法、基于矩陣分解的方法和基于圖表示學習的方法,并對每類方法的代表性工作進行了全面的介紹,指出了每類方法的優缺點和不同方法之間的發展脈絡與內在關系。最后,本文討論了現有方法存在的問題,并展望了該領域未來的幾個潛在的研究方向。
1 引言
推薦系統往往面臨著數據稀疏和冷啟動問題,因此無法得到精準的推薦結果。在推薦系統中引入輔助信息可以有效地緩解這些問題。例如社會化推薦根據用戶之間的關系構造社交網絡作為輔助信息,從而能夠在推薦系統中充分利用社會關系對用戶喜好的影響。類似地,基于地理位置的社交推薦構建了用戶與位置之間的關系,通過用戶的位置記錄來捕捉用戶的行為偏好。然而,這些方法僅適用于某種特定類型的輔助信息,不具有普適性。
異質信息網絡是一種通用的融合多源數據的方法。通過將推薦系統視為由不同類型對象和交互構成的異質信息網絡,我們可以建模用戶與商品之間復雜的交互關系,而且可以有效融合屬性和各類輔助信息。基于異質信息網絡的推薦系統在信息融合、探索結構語義等方面具有顯著優勢,不僅可以有效緩解數據稀疏與冷啟動問題,而且有助于提升推薦系統的準確性和可解釋性,因此取得了廣泛的關注與應用。
綜述的章節編排如下:第2章簡要介紹推薦系統和異質信息網絡的相關概念與定義;第3章按照模型原理的不同,對基于異質信息網絡的推薦系統進行分類,并對現有方法進行了系統地梳理與分析;第4章展望了基于異質信息網絡的推薦系統未來研究方向;第5章回顧并總結全文。(在這里,主要展示第3章和第4章的核心內容,其他內容詳見論文原文。)
2 模型分類
目前,研究人員設計了各種適用于異質信息網絡建模的推薦算法。本章根據模型的不同,將現有工作進行分類,如表1所示。 圖片
2.1 基于相似性度量
推薦系統的個性化匹配往往基于對實體相似性的度量,而協同過濾需要基于用戶與商品之間的交互歷史計算相似度。早期的相似性度量算法僅對同質信息網絡定義,然而,這些算法忽視了對象和聯系的不同類型,不適用于建模為異質信息網絡的推薦系統。為了解決這一問題,研究者們提出了一系列用于異質信息網絡中實體相似性度量的算法,主要包括基于隨機游走的方法和基于元路徑的方法。基于這兩類異質信息網絡相似性度量算法,研究者們提出了很多協同過濾算法的變體,本文將這類方法統稱為基于相似性度量的方法。(詳見原文)
2.2 基于矩陣分解
為了解決相似性度量方法存在的時空復雜度高的問題,推薦系統的研究者們提出了矩陣分解模型,其原理是通過分解評分矩陣來提取出用戶和商品的隱向量,然后根據隱向量的相似度進行推薦。傳統的矩陣分解模型在訓練時使用隱向量重構共現矩陣作為優化目標,無法利用異質信息網絡中豐富的語義信息。很多研究者提出適用于異質信息網絡建模的矩陣分解方法,可以分為兩類:基于正則化的方法,和基于神經矩陣分解的方法。與基于相似性度量的方法相比,本節介紹的方法不依賴顯式的路徑可達性,當路徑連接稀疏或嘈雜時也不會失敗。(詳見原文)
2.3 基于圖表示學習
隨著深度學習的發展,基于神經網絡的推薦模型憑借其強大的特征交叉能力以及模型架構設計的靈活性,取得了較好的推薦效果。然而,傳統的神經網絡并不能直接建模圖結構。隨著圖表示學習技術的興起,研究者們嘗試設計融合圖表示學習技術的推薦模型,從而更好地學習圖數據中豐富的結構和語義信息。本節將這類方法統稱為基于圖表示學習的方法,并進一步分為基于兩階段訓練的方法和基于端到端訓練的方法。(詳見原文)
3 未來研究方向
異質信息網絡作為一種融合輔助信息的建模方法,憑借其緩解數據稀疏與冷啟動問題、提升模型性能與可解釋性等方面的優勢,已經在各種各樣的推薦系統模型和推薦任務上得到了應用。然而,基于異質信息網絡的推薦系統仍面臨很多挑戰,本節將介紹幾個潛在的未來研究方向。(詳見原文) 新型的異質圖推薦的模型與應用:基于圖神經網絡的推薦系統模型仍存在過平滑、魯棒性差等缺陷,而目前在圖神經網絡中引入異質信息的方法也仍不夠靈活,如何設計更好的異質圖推薦模型存在挑戰,如何將異質信息網絡用于更多類型的推薦任務也存在挑戰。
面向跨域數據的異質圖推薦:目前的絕大多數工作僅關注在單一異質網絡上的推薦任務,與單圖推薦相比,跨域推薦存在很多額外的挑戰。例如,如何設計源域到目標域的映射函數,如何在利用跨域信息的同時不泄露用戶隱私等,如何應對上述挑戰是未來的研究重點。
面向大規模實時場景的異質圖推薦:真實的推薦系統往往需要處理超大規模的數據,并且對推薦的實時性有較高的要求,因此很多復雜的推薦模型無法直接使用。大規模實時推薦主要面臨兩方面問題:一方面是模型的輕量化,另一方面是模型的動態更新。目前的推薦算法輕量化和動態更新方法主要適用于二分圖,如何將其應用于異質信息網絡存在挑戰。
推薦系統在我們的日常生活中發揮著越來越重要的作用,特別是在許多以用戶為導向的在線服務中,推薦系統在緩解信息過載問題方面發揮著重要作用。推薦系統的目標是通過利用用戶和物品的交互來提高匹配的準確性,識別出一組最符合用戶顯性或隱性偏好的對象(即物品)。
隨著深度神經網絡(DNNs)在過去幾十年的快速發展,推薦技術已經取得了良好的性能。然而,現有的基于DNN的方法在實踐中存在一些缺陷。更具體地說,他們認為推薦過程是一個靜態的過程,并按照一個固定的貪心策略進行推薦; 現有的大多數基于DNN的推薦系統都是基于手工制作的超參數和深度神經網絡架構;它們將每個交互視為單獨的數據實例,而忽略了實例之間的關系。
在本教程中,我們將全面介紹深度推薦系統中解決上述問題的先進技術的最新進展,包括深度強化學習(DRL)、自動機器學習(AutoML)和圖神經網絡(GNN)。
通過這種方式,我們希望這三個領域的研究人員能夠對空間有更深刻的理解和準確的洞察,激發更多的想法和討論,促進推薦技術的發展。
隨著網絡信息的爆炸式增長,推薦系統在緩解信息過載方面發揮了重要作用。由于推薦系統具有重要的應用價值,這一領域的研究一直在不斷涌現。近年來,圖神經網絡(GNN)技術得到了廣泛的關注,它能將節點信息和拓撲結構自然地結合起來。由于GNN在圖形數據學習方面的優越性能,GNN方法在許多領域得到了廣泛的應用。在推薦系統中,主要的挑戰是從用戶/項目的交互和可用的邊信息中學習有效的嵌入用戶/項目。由于大多數信息本質上具有圖結構,而網絡神經網絡在表示學習方面具有優勢,因此將圖神經網絡應用于推薦系統的研究十分活躍。本文旨在對基于圖神經網絡的推薦系統的最新研究成果進行全面的綜述。具體地說,我們提供了基于圖神經網絡的推薦模型的分類,并闡述了與該領域發展相關的新觀點。
摘要:
隨著電子商務和社交媒體平臺的快速發展,推薦系統已經成為許多企業不可缺少的工具[78]。用戶依靠推薦系統過濾掉大量的非信息,促進決策。一個高效的推薦系統應該準確地捕捉用戶的偏好,并提出用戶潛在感興趣的內容,從而提高用戶對平臺的滿意度和用戶留存率。
推薦系統根據用戶的興趣和物品屬性來評估他們對物品的偏好。用戶興趣和項目屬性都用壓縮向量表示。因此,如何通過歷史交互以及社會關系、知識圖譜[49]等側面信息來了解用戶/項目嵌入是該領域面臨的主要挑戰。在推薦系統中,大多數信息都具有圖結構。例如,用戶之間的社會關系和與項目相關的知識圖譜,自然就是圖形數據。此外,用戶與項目之間的交互可以看作是二部圖,項目在序列中的轉換也可以構建為圖。因此,圖形學習方法被用來獲得用戶/項目嵌入。在圖學習方法中,圖神經網絡(graph neural network, GNN)目前受到了極大的追捧。
在過去的幾年里,圖神經網絡在關系提取和蛋白質界面預測等許多應用領域取得了巨大的成功[82]。最近的研究表明,推薦器在以圖[41]的形式引入用戶/項目和邊信息的交互時,性能有了很大的提升,并利用圖神經網絡技術得到了更好的用戶/項目表示。圖神經網絡通過迭代傳播能夠捕捉用戶-項目關系中的高階交互。此外,如果社會關系或知識圖譜的信息是可用的,則可以有效地將這些邊信息集成到網絡結構中。
本文旨在全面回顧基于圖神經網絡的推薦系統的研究進展。對推薦系統感興趣的研究者和實踐者可以大致了解基于圖神經網絡的推薦領域的最新發展,以及如何利用圖神經網絡解決推薦任務。本調查的主要貢獻總結如下:
新的分類法:我們提出了一個系統的分類模式來組織現有的基于圖神經網絡的推薦模型。我們可以很容易地進入這個領域,并對不同的模型進行區分。
對每個類別的全面回顧,我們展示了要處理的主要問題,并總結了模型的總體框架。此外,我們還簡要介紹了代表性模型,并說明它們是如何解決這些問題的。
我們討論了當前方法的局限性,并在效率、多圖集成、可擴展性和序列圖構造方面提出了四個潛在的未來方向。