協同過濾(CF)作為推薦系統的一種基本方法,通常建立在具有可學習參數的潛在因子模型上,預測用戶對產品的偏好。但是,為給定的數據設計適當的CF模型并不容易,因為數據集的屬性是高度多樣化的。在本文中,基于自動機器學習(AutoML)的最新進展,我們提出利用AutoML技術設計一個數據特定的CF模型。這里的關鍵是一個新的框架,它將最先進的CF方法統一起來,并將它們劃分為輸入編碼、嵌入函數、交互函數和預測函數等不相交的階段。我們進一步開發了一種易于使用、健壯和高效的搜索策略,它利用隨機搜索和性能預測器在上述框架內進行高效搜索。通過這種方式,我們可以從SOTA模型中組合概括出文獻中沒有訪問過的特定于數據的CF模型。在五個真實數據集上的大量實驗表明,對于各種CF任務,我們的方法可以持續優于SOTA方法。進一步的實驗驗證了所提框架的合理性和搜索策略的有效性。搜索的CF模型還可以為將來探索更有效的方法提供見解。
在許多數據科學應用中,如推薦系統、在線廣告、醫療等,對表格數據進行預測是一項重要的任務。表格數據被結構成行和列,每一行作為數據樣本,每一列作為特性屬性。表格數據的列和行都帶有可以提高模型預測性能的有用模式。然而,大多數現有模型關注的是跨列模式,而忽略了跨行模式,因為它們獨立處理單個樣本。在這項工作中,我們提出了一個通用的學習框架,名為檢索與交互機(RIM),它充分利用表格數據中的橫行和橫列模式。具體來說,RIM首先利用搜索引擎技術高效地檢索表中有用的行來輔助目標行標簽預測,然后利用特征交互網絡捕捉目標行與被檢索行之間的跨列模式,從而做出最終的標簽預測。我們對三個重要任務的11個數據集進行了廣泛的實驗,即CTR預測(分類)、top-n推薦(排名)和評分預測(回歸)。實驗結果表明,RIM在不同的基準上取得了顯著的改進,證明了RIM的優越性和有效性。
圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。
推薦系統(RS)采用知識蒸餾,這是一種模型壓縮技術,用從預訓練的大型教師模型遷移的知識來訓練緊湊的學生模型。最近的研究表明,從教師的中間層遷移知識顯著提高了學生的推薦質量。但是,它們是逐點遷移個體表示的知識,因此存在一個局限,即RS的主要信息在于表示空間中的關系。本文提出了一種新的拓撲蒸餾方法,通過將建立在教師空間關系上的拓撲結構傳遞給學生來指導學生進行拓撲蒸餾。我們首先觀察到,簡單地讓學生學習整個拓撲結構并不總是有效的,甚至會降低學生的表現。我們證明,因為與老師相比,學生的能力是非常有限的,學習整個拓撲結構對學生來說是令人生畏的。為了解決這一問題,我們提出了一種新的分層拓撲蒸餾(HTD)方法,該方法可以分層地對拓撲進行蒸餾,以應對較大的容量缺口。我們在真實數據集上的大量實驗表明,提出的方法明顯優于先進的競爭對手。我們還提供了深入的分析,以確定提取RS拓撲的好處。
音樂流媒體服務嚴重依賴推薦系統來改善用戶體驗,通過幫助他們瀏覽一個大型音樂目錄,并發現新的歌曲、專輯或藝術家。然而,向新用戶推薦相關和個性化的內容,而不需要與目錄進行交互,是一項挑戰。這通常被稱為用戶冷啟動問題。在這篇應用論文中,我們提出了最近部署在音樂流媒體服務Deezer上的系統來解決這個問題。該解決方案利用了一種半個性化的推薦策略,該策略基于深度神經網絡架構,并基于來自異構信息源的用戶集群。通過離線和在線的大規模實驗,我們廣泛展示了該系統在預測冷啟動用戶未來音樂偏好方面的實際影響和有效性。我們公開了我們的代碼以及我們實驗中的匿名使用數據。我們希望此次發布的行業資源將有助于未來用戶冷啟動建議的研究。
個性化搜索的關鍵是基于歷史行為構建用戶畫像。針對缺乏歷史數據的用戶,基于組的個性化模型被提出,這些方法在對結果重排時,將相似用戶的畫像考慮在內。然而,現有的尋找相似的用戶的方法大多簡單地基于搜索行為中詞匯或主題的相似性。本文提出了一種基于神經網絡的增強方法,在語義空間中突出相似用戶的作用。此外,我們認為,當用戶只包含有限的歷史行為時,基于行為的相似用戶仍然不足以幫助用戶理解新的查詢。為了解決這個問題,我們將朋友網絡引入個性化搜索中,以另一種方式確定用戶之間的親密度關系。由于朋友關系往往是基于相似的背景或興趣而形成的,所以在朋友網絡中自然隱藏著大量個性化的信息。在搜索行為和朋友關系的融合下,相似用戶在基于組的個性化搜索中更為可靠地得到了強化。具體來說,我們分別針對用戶的搜索行為和朋友關系將其劃分到多個朋友圈。這兩種朋友圈是互補的,從而構建一個更全面的群體畫像來實現搜索結果個性化。實驗結果表明,與現有個性化模型相比,本文提出的模型有了顯著的提升。
//playbigdata.ruc.edu.cn/dou/publication/2021_SIGIR_FriendGraph.pdf
知識圖譜(KG)是一種靈活的結構,能夠描述數據實體之間的復雜關系。目前,大多數KG嵌入模型都是基于負采樣進行訓練的,即模型的目標是最大限度地增加KG內被連接實體的某些相似度,同時最小化被采樣的斷開實體的相似度。負抽樣通過只考慮負實例的子集,降低了模型學習的時間復雜度,這可能會由于抽樣過程的不確定性而無法提供穩定的模型性能。為了避免這一缺陷,我們提出了一種新的KG嵌入高效非采樣知識圖譜嵌入框架(NS-KGE)。其基本思想是在模型學習中考慮KG中的所有負面實例,從而避免負面抽樣。框架可應用于基于平方損失的知識圖譜嵌入模型或其損失可轉換為平方損失的模型。這種非抽樣策略的一個自然副作用是增加了模型學習的計算復雜度。為了解決這一問題,我們利用數學推導來降低非采樣損失函數的復雜度,最終為我們提供了比現有模型更好的KG嵌入效率和精度。在基準數據集上的實驗表明,NS-KGE框架在效率和準確率方面均優于傳統的基于負采樣的模型,該框架適用于大規模知識圖譜嵌入模型。
從全局到局部:面向視頻動作分割的高效網絡結構搜索
Global2Local: Efficient Structure Search for Video Action Segmentation
為了回答“是否可以通過高效地搜索不同感受野的之間的組合來替代手工設計的模式呢?”的問題,在本文中,我們提出一種基于從全局到局部的搜索策略來尋找更合適的感受野組合。具體而言,我們的搜索策略將利用全局搜索的優勢來找到粗粒度的參數組合,而后在利用局部搜索來精細化感受野的組合模式。值得指出的是,全局搜索并非是通過手工設計模式來尋找潛在的粗粒度參數組合。在全局搜索的基礎上,我們將會使用一種基于期望引導迭代的方式來有效地精修參數組合。最后,我們的這一結果可以即插即用地使用在當前動作分割的模型中,并取得了SOTA的效果。很快我們也將開源我們的代碼實現。
題目: Disentangled Graph Collaborative Filtering
簡介: 從交互數據中學習用戶和項目的信息表示對于協同過濾(CF)至關重要。當前的嵌入功能利用用戶-項目關系來豐富表示,從單個用戶-項目實例演變為整體交互圖。然而,他們在很大程度上以統一的方式對關系進行建模,而忽略了用戶采用這些項目的意圖的多樣性,這可能是為了消磨時間,出于興趣或為家庭等其他人購物。這種對用戶興趣進行建模的統一方法很容易導致次優的表示形式,無法對各種關系進行建模,也無法使用戶的意圖分解開來。
在這項工作中,我們會以用戶意圖的更細粒度特別注意用戶與項目之間的關系。因此,我們設計了一個新模型,即解纏圖協同過濾(DGCF),以解開這些因素并產生解開的表示。具體來說,通過對每個用戶項目交互的意圖分布進行建模,我們可以迭代地細化意圖感知交互圖和表示形式。同時,我們鼓勵不同意圖的獨立性。這導致了糾纏的表示,有效地提取了與每個意圖有關的信息。我們在三個基準數據集上進行了廣泛的實驗,并且DGCF在一些最新模型(如NGCF [40],DisenGCN [25]和MacridVAE [26])上取得了顯著改進。進一步的分析可以深入了解DGCF在消除用戶意圖和表示可解釋性方面的優勢。