圖神經網絡(GNNs)已被證明是有前途的解決方案的協同過濾(CF)與用戶項交互圖建模。現有的基于GNN的推薦系統的關鍵思路是遞歸地執行沿用戶-項目交互邊緣傳遞的消息,以細化編碼的嵌入。盡管他們的有效性,但是,目前大多數的推薦模型依賴于足夠的和高質量的訓練數據,這樣學習的表示可以很好地捕捉準確的用戶偏好。在許多實際的推薦場景中,用戶行為數據往往是有噪聲的,并且呈現出偏態分布,這可能導致基于GNN的模型的表現性能欠佳。在本文中,我們提出了一種新的自監督超圖transformer 框架(SHT),它通過明確地探索全局協作關系來增強用戶表示。具體來說,我們首先賦予圖神經CF范式以超圖transformer 網絡來維持用戶和物品之間的全局協同效果。在提取全局上下文的基礎上,提出了一種跨視圖生成式自監督學習組件,用于用戶-物品交互圖上的數據增強,以增強推薦系統的魯棒性。大量實驗表明,SHT可以顯著提高各種最先進的基線性能。進一步的消融研究表明,我們的SHT推薦框架在緩解數據稀疏性和噪聲問題方面具有卓越的表達能力。源代碼和評估數據集可以在//github.com/akaxlh/SHT上找到。
學習動態用戶偏好已經成為許多在線平臺(如視頻分享網站、電子商務系統)進行序列推薦的一個越來越重要的組成部分。以前的工作已經做出了許多努力,基于各種架構,如循環神經網絡和自注意力機制,在用戶交互序列上建模物品-物品的轉換。最近出現的圖神經網絡也可以作為有用的骨干模型來捕獲序列推薦場景中的條目依賴關系。盡管它們很有效,但現有的方法一直專注于具有單一交互類型的商品序列表示,因此局限于捕捉用戶和商品之間的動態異構關系結構(例如,頁面視圖、添加到收藏、購買)。為了應對這一挑戰,我們設計了一個多行為超圖增強的Transformer框架(MBHT),以捕獲短期和長期的跨類型行為依賴關系。具體地說,一個多尺度的Transformer配備了低級別的自注意力,以便從細粒度和粗粒度級別聯合編碼行為感知的序列模式。此外,我們將全局多行為依賴關系納入超圖神經體系結構,以自定義的方式捕獲分層的長期項目相關性。實驗結果表明,在不同的設置下,我們的MBHT優于各種最先進的推薦解決方案。進一步的消融研究驗證了我們模型設計的有效性和新的MBHT框架的好處。我們的實現代碼發布在://github.com/yuh-yang/MBHT-KDD22。
序列推薦的目的是利用用戶的歷史行為來預測他們的下一次互動。現有的工作還沒有解決序列推薦的兩個主要挑戰。首先,在豐富的歷史序列中,用戶行為往往是隱式的、有噪聲的偏好信號,不能充分反映用戶的實際偏好。此外,用戶的動態偏好往往會隨著時間的推移而迅速變化,因此很難在其歷史序列中捕獲用戶模式。在本研究中,我們提出一種稱為SURGE的圖神經網絡模型(即序列推薦圖神經網絡)來解決這兩個問題。具體來說,SURGE通過基于度量學習將松散的項目序列重構為緊密的項目興趣圖,將不同類型的長期用戶行為偏好集成到圖中的簇中。通過在興趣圖中形成密集的集群,這有助于明確區分用戶的核心興趣。然后,我們在構建的圖上執行集群感知和查詢感知的圖卷積傳播和圖池化。它從嘈雜的用戶行為序列中動態融合并提取用戶當前激活的核心興趣。我們在公共和專有的工業數據集上進行了廣泛的實驗。實驗結果表明,與現有方法相比,我們提出的方法有顯著的性能提高。對序列長度的進一步研究表明,該方法能夠有效地對較長的行為序列進行建模。
協同過濾(CF)作為推薦系統的一種基本方法,通常建立在具有可學習參數的潛在因子模型上,預測用戶對產品的偏好。但是,為給定的數據設計適當的CF模型并不容易,因為數據集的屬性是高度多樣化的。在本文中,基于自動機器學習(AutoML)的最新進展,我們提出利用AutoML技術設計一個數據特定的CF模型。這里的關鍵是一個新的框架,它將最先進的CF方法統一起來,并將它們劃分為輸入編碼、嵌入函數、交互函數和預測函數等不相交的階段。我們進一步開發了一種易于使用、健壯和高效的搜索策略,它利用隨機搜索和性能預測器在上述框架內進行高效搜索。通過這種方式,我們可以從SOTA模型中組合概括出文獻中沒有訪問過的特定于數據的CF模型。在五個真實數據集上的大量實驗表明,對于各種CF任務,我們的方法可以持續優于SOTA方法。進一步的實驗驗證了所提框架的合理性和搜索策略的有效性。搜索的CF模型還可以為將來探索更有效的方法提供見解。
推薦系統(RS)采用知識蒸餾,這是一種模型壓縮技術,用從預訓練的大型教師模型遷移的知識來訓練緊湊的學生模型。最近的研究表明,從教師的中間層遷移知識顯著提高了學生的推薦質量。但是,它們是逐點遷移個體表示的知識,因此存在一個局限,即RS的主要信息在于表示空間中的關系。本文提出了一種新的拓撲蒸餾方法,通過將建立在教師空間關系上的拓撲結構傳遞給學生來指導學生進行拓撲蒸餾。我們首先觀察到,簡單地讓學生學習整個拓撲結構并不總是有效的,甚至會降低學生的表現。我們證明,因為與老師相比,學生的能力是非常有限的,學習整個拓撲結構對學生來說是令人生畏的。為了解決這一問題,我們提出了一種新的分層拓撲蒸餾(HTD)方法,該方法可以分層地對拓撲進行蒸餾,以應對較大的容量缺口。我們在真實數據集上的大量實驗表明,提出的方法明顯優于先進的競爭對手。我們還提供了深入的分析,以確定提取RS拓撲的好處。
在推薦系統中,當用戶-物品交互數據稀疏時,常用社會關系來提高推薦質量。大多數現有的社交推薦模型都是利用成對關系來挖掘潛在的用戶偏好。然而,現實生活中用戶之間的互動非常復雜,用戶關系可以是高階的。超圖提供了一種自然的方式來建模復雜的高階關系,而它在改善社會推薦方面的潛力還有待開發。在本文中,我們填補了這一空白,提出了一種利用高階用戶關系增強社交推薦的多通道超圖卷積網絡。技術上,網絡中的每個通道通過超圖卷積編碼一個描述常見高階用戶關系模式的超圖。通過聚合通過多種渠道學習到的嵌入,我們獲得了全面的用戶表示,從而產生推薦結果。然而,聚合操作也可能掩蓋不同類型高階連接信息的固有特征。為了彌補累積損失,我們創新性地將自監督學習融入到超圖卷積網絡的訓練中,以獲取具有層次互信息最大化的連通信息。在多個真實數據集上的實驗結果表明,該模型優于SOTA方法,消融研究驗證了多通道設置和自監督任務的有效性。我們的模型的實現可以通過//github.com/Coder-Yu/RecQ獲得。
近年來,許多在線平臺(如亞馬遜和淘寶網)都取得了巨大成功。在線平臺上的用戶行為是動態變化的,且會隨著時間而發展。序列推薦的主要目標就是從用戶歷史行為中捕捉關鍵的信息,并基于此準確表征用戶興趣進而提供高質量的推薦[1,2,3]。已有研究人員基于深度學習提出很多序列推薦的模型,此外還有研究人員結合豐富的上下文信息(如商品屬性)一起進行用戶興趣建模,實驗表明,上下文信息對于提高推薦效果很重要。
盡管現有方法在一定程度上已被證明有效,但它們有兩個可能會影響推薦效果的缺陷。首先,他們主要依靠“下一個物品推薦”(Next Item Prediction)損失函數來學習整個模型。在使用上下文信息時,也仍然只使用這一個優化目標。已有研究表明,這種優化方法很容易受到數據稀疏性等問題的影響。此外,它們過分強調最終的推薦性能,而上下文數據和序列數據之間的關聯或融合卻沒有在數據表示中被很好地捕獲。多個領域的實驗結果表明[4,5,6],更有效的數據表示方法(例如,預先訓練的上下文信息嵌入)已成為改善現有模型或體系結構性能的關鍵因素。因此,有必要重新考慮學習范式并開發更有效的序列推薦系統。
為了解決上述問題,我們借鑒了自監督學習的思想來改進序列推薦的方法。自監督學習是一個新興的學習范式,旨在讓模型從原始數據的內在結構中學習。自監督學習的一般框架是首先從原始數據中構建新的監督信號,然后通過這些額外設計的優化目標來對模型進行預訓練。如之前討論的,有限的監督信號和低效的數據表示是現有的神經序列推薦方法的兩個主要問題。幸運的是,自監督學習似乎為解決這兩個問題提供了解決方案:它通過內在數據相關性來設計輔助訓練目標以提供豐富的自監督信號,并通過預訓練的方法增強數據表示。對于序列推薦,上下文信息以不同的形式存在,包括物品,屬性,子序列和序列。開發統一表征這種數據相關性的方法并不容易。對于這個問題,我們借鑒最近提出的互信息最大化(Mutual Information Maximization, MIM)方法,其已被證明可以有效捕獲原始輸入的不同視圖(或部分)之間的相關性。
基于以上,我們提出了一種基于自監督學習方法的序列推薦模型(Self-Supervised Learning Sequential Recommendation, S3-Rec)。基于自注意力機制的體系結構[3],我們首先使用設計的自監督訓練目標對模型進行預訓練,然后根據推薦任務對模型進行微調。此工作的主要新穎之處在預訓練階段,我們基于MIM的統一形式精心設計了四個自監督的優化目標,分別用于捕獲物品-屬性間,序列-物品間,序列-屬性間和序列-子序列間的相關性。因此,S3-Rec能夠以統一的方式來表征不同粒度級別或不同形式數據之間的相關性,并且也可以靈活地適應新的數據類型或關聯模式。通過這樣的預訓練方法,我們可以有效地融合各種上下文數據,并學習屬性感知的上下文化的數據表示。最后,將學習到的表示輸入推薦模型,并根據推薦任務對其進行優化。
為了驗證S3-Rec的有效性,我們在6個不同領域的真實數據集上進行了充分的實驗。實驗結果表明,S3-Rec超過了目前的SOTA,并且在訓練數據非常有限的情況表現得尤為明顯。另外S3-Rec還可以有效得適應其他類別的神經體系結構,例如GRU[1]和CNN[2]。我們的主要貢獻概括如下:(1)據我們所知,這是首次采用MIM進行自監督學習來改善序列推薦任務的工作;(2)我們提出了4個自監督優化目標來最大化不同形式或粒度的上下文信息的互信息;(3)在6個數據集上的充分實驗證明了我們方法的有效性。