用戶建模是各項個性化服務(如推薦系統)中的關鍵技術。基于用戶行為的用戶建模,是實際推薦系統中的主要建模方法。已有的基于用戶行為的用戶建模方法,通常將用戶建模為他們行為的集合或序列,亦或是用戶-物品二分圖上的節點。但是這些建模方法難以對行為之間的復雜聯系和上下文信息進行充分建模。為了解決這一問題,微軟亞洲研究院的研究員們提出了 User-as-Graph 方法。該方法將用戶建模為一個由行為組成的異構圖,這樣就可以更好地理解行為之間復雜的關系和上下文信息,進而更加準確地表示用戶,以實現“一人一圖,千圖千面”。
在 User-as-Graph 方法中,每個用戶都被表示為一個個性化異構圖。圖7展示了一個構建示例。圖中的節點是一個用戶的異構行為,邊是行為之間的關系。
此外,用戶建模的任務可以轉化為一個異構圖池化的問題,即從個性化的異構圖中學習用戶的表示。然而,對異構圖池化方面的研究非常稀缺,并且現有的同構圖池化方法對于異構圖池化可能不是最優的。基于此,研究員們又提出了一種名為 HG-Pool 的異構圖池化方法,如圖8所示。該方法的核心思想是經過多次迭代,將一個大的異構圖池化,并不斷壓縮為一個更小的異構圖,直到獲得最終的用戶表示。在每次迭代中,研究員們使用類型特定的 GNN 模型從整個異構圖的信息中學習每種節點的池化函數,這樣能夠充分考慮異構節點的特性。
HG-Pool 方法的框架如圖9所示。對于每種節點,首先使用一個不同的池化 GNN 模型來學習類型特定的節點表示。然后使用帶 softmax 激活函數的線性變換,將這些節點表示轉換為類型特定的池化矩陣。最后使用 padding 后的池化矩陣,將當前鄰接矩陣和節點特征矩陣轉換為更小的矩陣。
研究員們基于 MIND 新聞推薦數據集進行了實驗。表4的結果顯示 User-as-Graph 可以顯著提升新聞推薦中用戶建模的效果,從而取得更好的個性化新聞推薦的性能。
序列推薦的目的是利用用戶的歷史行為來預測他們的下一次互動。現有的工作還沒有解決序列推薦的兩個主要挑戰。首先,在豐富的歷史序列中,用戶行為往往是隱式的、有噪聲的偏好信號,不能充分反映用戶的實際偏好。此外,用戶的動態偏好往往會隨著時間的推移而迅速變化,因此很難在其歷史序列中捕獲用戶模式。在本研究中,我們提出一種稱為SURGE的圖神經網絡模型(即序列推薦圖神經網絡)來解決這兩個問題。具體來說,SURGE通過基于度量學習將松散的項目序列重構為緊密的項目興趣圖,將不同類型的長期用戶行為偏好集成到圖中的簇中。通過在興趣圖中形成密集的集群,這有助于明確區分用戶的核心興趣。然后,我們在構建的圖上執行集群感知和查詢感知的圖卷積傳播和圖池化。它從嘈雜的用戶行為序列中動態融合并提取用戶當前激活的核心興趣。我們在公共和專有的工業數據集上進行了廣泛的實驗。實驗結果表明,與現有方法相比,我們提出的方法有顯著的性能提高。對序列長度的進一步研究表明,該方法能夠有效地對較長的行為序列進行建模。
近年來,基于圖學習的推薦系統(GLRS)這個新興話題得到了快速發展。GLRS采用高級的圖學習方法來建模用戶的偏好和意圖,以及物品的特征來進行推薦。與其他RS方法(包括基于內容的過濾和協同過濾)不同,GLRS是建立在圖上的,其中重要對象(如用戶、物品和屬性)是顯式或隱式連接的。
隨著圖學習技術的快速發展,探索和開發圖中的同質或異質關系是構建更有效的RS的一個有前途的方向。通過討論如何從基于圖的表示中提取重要的知識,以提高推薦的準確性、可靠性和可解釋性。
首先對GLRS進行了表示和形式化,然后對該研究領域面臨的主要挑戰和主要進展進行了總結和分類。
引言
推薦系統(RS)是人工智能(AI)最流行和最重要的應用之一。它們已被廣泛采用,以幫助許多流行的內容分享和電子商務網站的用戶更容易找到相關的內容、產品或服務。與此同時,圖學習(Graph Learning, GL)是一種新興的人工智能技術,它涉及到應用于圖結構數據的機器學習,近年來發展迅速,顯示出了其強大的能力[Wu et al., 2021]。事實上,得益于這些學習關系數據的能力,一種基于GL的RS范式,即基于圖學習的推薦系統(GLRS),在過去幾年中被提出并得到了廣泛的研究[Guo等人,2020]。在本文中,我們對這一新興領域的挑戰和進展進行了系統的回顧。
動機: 為什么要用圖學習RS?
RS中的大部分數據本質上是一個圖結構。在現實世界中,我們身邊的大多數事物都或明或暗地相互聯系著;換句話說,我們生活在一個圖的世界里。這種特征在RS中更加明顯,這里考慮的對象包括用戶、物品、屬性、上下文,這些對象之間緊密相連,通過各種關系相互影響[Hu et al., 2014],如圖1所示。在實踐中,RS所使用的數據會產生各種各樣的圖表,這對推薦的質量有很大的幫助。
圖學習具有學習復雜關系的能力。作為最具發展前景的機器學習技術之一,GL在獲取嵌入在不同類型圖中的知識方面顯示出了巨大的潛力。具體來說,許多GL技術,如隨機游走和圖神經網絡,已經被開發出來學習特定類型的關系由圖建模,并被證明是相當有效的[Wu et al., 2021]。因此,使用GL來建模RS中的各種關系是一個自然和令人信服的選擇。
圖學習如何幫助RS? 到目前為止,還沒有統一的GLRS形式化。我們通常從高層次的角度對GLRS進行形式化。我們用一個RS的數據構造一個圖G = {V, E},其中對象(如用戶和商品)在V中表示為節點,它們之間的關系(如購買)在E中表示為邊。構建并訓練GLRS模型M(Θ)學習最優模型參數Θ,生成最優推薦結果R。
根據具體的推薦數據和場景,可以以不同的形式定義圖G和推薦目標R,例如,G可以是同質序列或異構網絡,而R可以是對物品的預測評級或排名。目標函數f可以是最大效用[Wang et al., 2019f]或節點之間形成鏈接的最大概率[Verma et al., 2019]。
這項工作的主要貢獻總結如下:
? 我們系統地分析了各種GLRS圖所呈現的關鍵挑戰,并從數據驅動的角度對其進行分類,為更好地理解GLRS的重要特征提供了有用的視角。
? 我們通過系統分類較先進的技術文獻,總結了目前GLRS的研究進展。
? 我們分享和討論了一些GLRS開放的研究方向,供社區參考。
騰訊健康,騰訊醫典有多個個性化推薦場景,為了提高推薦效果,使用預訓練機制學習更完整的用戶表示。
用戶表示的學習是推薦系統模型中的重要一環。早期的方法根據用戶和項目之間的交互矩陣來學習用戶表達,但這些交互矩陣非常稀疏且矩陣中的值通常是粗粒度的,導致系統很難學習到準確的用戶表達。近期一些工作利用信息更加豐富的評論文本來增強用戶的表示學習,但對于冷門的領域或場景,評論文本的數量也不足以幫助其學習到完整準確的用戶表示。用戶的一些偏好(如評論習慣等)是在不同的領域或場景間共享的,我們可以利用數據豐富的場景下的評論幫助數據不豐富的場景的推薦。同時,受到近期自然語言處理領域中預訓練技術的啟發,本論文提出了一種基于預訓練和微調的兩階段推薦模型。如圖(a)所示,U-BERT包含兩個主要模塊能夠建模評論文本并將其語義信息和用戶的嵌入表達進行融合。在預訓練階段,我們設計了兩種新的預訓練任務能夠充分地利用不同場景下積累的評論文本來學習通用的用戶表達。如圖(b)所示,在微調階段,我們會根據特定場景下的評論數據對預訓練的用戶表示進行微調以適應當前場景下的特點。此外,在進行評分預測時,我們還設計了一個co-matching模塊以捕捉細粒度的語義匹配信息來更好地預測用戶對項目的打分。實驗結果表明,本文提出的推薦模型在多個開放數據集上取得了性能提升。
//34.94.61.102/paper_AAAI-2116.html
大量真實世界的圖或網絡本質上是異構的,涉及節點類型和關系類型的多樣性。異構圖嵌入是將異構圖的豐富結構和語義信息嵌入到低維節點表示中。現有的模型通常定義多個metapaths在異構圖捕捉復合關系和指導鄰居選擇。但是,這些模型要么忽略節點內容特性,要么沿著元路徑丟棄中間節點,要么只考慮一個元路徑。為了解決這三個局限性,我們提出了一種新的集合圖神經網絡模型來提高最終性能。具體來說,MAGNN使用了三個主要組件,即,節點內容轉換封裝輸入節點屬性,元內聚合合并中間語義節點,元間聚合合并來自多個元的消息。在三個真實世界的異構圖數據集上進行了大量的節點分類、節點聚類和鏈路預測實驗,結果表明MAGNN的預測結果比最先進的基線更準確。