搜索結果多樣化的目標是使得檢索得到的結果能夠盡量覆蓋用戶提出問題的所有子話題。已有的多樣化排序方法通常基于貪心選擇(Greedy Selection)過程,獨立地將每一個候選文檔與已選中的文檔序列進行比較,選擇每一個排序位置的最佳文檔,生成最后的文檔排序。而相關研究證明由于各候選文檔的邊際信息收益并非彼此獨立,貪心選擇得到的各個局部最優解將難以導向全局最佳排序。本文介紹了一種基于自注意力網絡(Self-Attention Network)的方法,可以同步地衡量全體候選文檔間的關系,以及候選文檔對不同用戶意圖的覆蓋程度,有效地克服原有方法受限于貪心選擇過程的局限性,并在TRECWebTrack09-12數據集上獲得更好的性能。
//dl.acm.org/doi/abs/10.1145/3340531.3411914
題目: 解決基于圖神經網絡的會話推薦存在的信息損失問題
會議: KDD 2020
論文地址: //dl.acm.org/doi/pdf/10.1145/3394486.3403170
推薦理由: 這篇論文提出了目前在使用圖神經網絡方法來解決基于會話的推薦問題時所存在的兩個信息缺失問題并建立一個沒有信息丟失問題的模型,在三個公共數據集上優于最先進的模型。
在許多在線服務中,用戶的行為自然是按時間排序的。為了預測用戶未來的行為,下一項(next-item)推薦系統通過從用戶的歷史行為中挖掘序列模式來學習用戶的偏好。基于會話的推薦是下一項推薦的特殊情況。與一般的下一項推薦系統使用固定數量的前n項來預測下一項不同,基于會話的推薦系統將用戶的操作分組為互不關聯的會話,只使用當前會話中的項目來進行推薦。其中會話是在時間上接近的一組項目。基于會話的推薦的思想來自于這樣一種觀察,即會話內依賴項對下一項的影響比會話間依賴項更大。因此,一般的下一項推薦系統可能存在合并不相關會話和提取不完整會話的問題。而基于會話的推薦系統則不存在這樣的問題,因此可以做出更準確的推薦,并被部署在許多在線服務中。
會話搜索的任務主要是使用交互數據來提高用戶在會話級別上的下一個查詢的相關性。在本文中,我們將會話搜索作為一個個性化任務,在學習排序的框架下進行。個性化方法重新排列結果以匹配用戶模型。這種用戶模型通常是根據用戶的瀏覽行為隨著時間的推移而積累起來的。我們使用一套預先計算的、透明的基于社會科學文獻概念的用戶模型。交互數據用于將每個會話映射到這些用戶模型。然后根據這些模型和sessions的交互數據來估計新特性。從TREC會話軌跡的測試收集上進行的廣泛實驗顯示,在統計上比當前會話搜索算法有顯著的改進。
//www.zhuanzhi.ai/paper/3cd6afe65db82a0f6e0fa3a45d1fda73
查詢理解是信息檢索中的一個基本問題,在過去的幾十年里一直受到人們的關注。為了理解用戶的搜索查詢,人們提出了許多不同的任務,例如查詢分類或查詢聚類。然而,在意圖類/集群級別上理解搜索查詢并不那么精確,因為會丟失許多詳細信息。正如我們在許多基準數據集(例如TREC和SemEval)中發現的那樣,查詢通常與人類注釋者提供的詳細描述相關聯,這些描述清楚地描述了查詢的意圖,以幫助評估文檔的相關性。如果一個系統能夠為搜索查詢自動生成詳細而精確的意圖描述,就像人類注釋器一樣,這將表明更好的查詢理解已經實現。因此,在本文中,我們提出了一種新的查詢到意圖描述(Q2ID)任務來進行查詢理解。與那些利用查詢及其描述來計算文檔相關性的現有排序任務不同,Q2ID是一個反向任務,旨在基于給定查詢的相關和不相關文檔生成自然語言意圖描述。為了解決這一問題,我們提出了一種新的對比生成模型,即CtrsGen(簡稱CtrsGen),該模型通過對比給定查詢的相關文檔和不相關文檔來生成意圖描述。我們通過與幾種最先進的生成模型在Q2ID任務上的比較,證明了我們的模型的有效性。我們將通過一個示例應用程序討論這種Q2ID技術的潛在用法。
第29屆國際計算機學會信息與知識管理大會(The 29th ACM International Conference on Information and Knowledge Management, CIKM 2020)將于2020年10月19日-10月23日在線上召開。CIKM是CCF推薦的B類國際學術會議,是信息檢索和數據挖掘領域頂級學術會議之一。本屆CIKM會議共收到投稿920篇,其中錄用論文193篇,錄取率約為21%。
論文題目:Diversifying Search Results using Self-Attention Network(長文)
作者者:秦緒博(人大博士生),竇志成,文繼榮
論文概述:搜索結果多樣化的目標是使得檢索得到的結果能夠盡量覆蓋用戶提出問題的所有子話題。已有的多樣化排序方法通常基于貪心選擇(Greedy Selection)過程,獨立地將每一個候選文檔與已選中的文檔序列進行比較,選擇每一個排序位置的最佳文檔,生成最后的文檔排序。而相關研究證明由于各候選文檔的邊際信息收益并非彼此獨立,貪心選擇得到的各個局部最優解將難以導向全局最佳排序。本文介紹了一種基于自注意力網絡(Self-Attention Network)的方法,可以同步地衡量全體候選文檔間的關系,以及候選文檔對不同用戶意圖的覆蓋程度,有效地克服原有方法受限于貪心選擇過程的局限性,并在TRECWebTrack09-12數據集上獲得更好的性能。
論文題目:PSTIE: Time Information Enhanced Personalized Search(長文)
作 者:馬正一(人大碩士生),竇志成,邊關月,文繼榮
論文概述:基于深度學習的個性化搜索模型通過序列神經網絡(例如RNN)對用戶搜索歷史進行序列建模,歸納出用戶的興趣表示,取得了當前最佳的效果。但是,這一類模型忽略了用戶搜索行為之間細粒度的時間信息,而只關注了搜索行為之間的相對順序。實際上,用戶每次查詢之間的時間間隔可以幫助模型更加準確地對用戶查詢意圖與文檔興趣的演化進行建模。同時,用戶歷史查詢與當前查詢之間的時間間隔可以直接幫助模型計算用戶的重查找(re-finding)行為概率。基于此,本文提出了一個時間信息增強的個性化搜索模型。我們設計了兩種時間感知的LSTM結構在連續時間空間中對用戶興趣進行建模,同時直接將時間信息利用在計算用戶重查找概率中,計算出了更加準確的用戶長短期興趣表示。我們提出了兩種將用戶興趣表示用于個性化排序的策略,并在兩個真實數據集上取得了更好的效果。
論文題目:Learning to Match Jobs with Resumes from Sparse Interaction Data using Multi-View Co-Teaching Network(長文)
作 者:卞書青(人大博士生),陳旭,趙鑫,周昆,侯宇蓬,宋洋,文繼榮
論文概述:隨著在線招聘規模的不斷增長,求職領域下的人崗匹配已經成為最重要的任務。人崗匹配任務通常可以看作文本匹配問題。當監督數據足夠多時,模型的學習效果是有用的。但是在線招聘平臺上,職位和簡歷的交互數據稀疏且帶有噪聲,這會影響求職簡歷匹配算法的性能。為了緩解這些問題,本文提出了一種多視圖協同教學網絡用來解決人崗匹配中的數據稀疏和噪聲問題,匹配網絡包含兩個主要模塊,即基于文本的匹配模型和基于關系的匹配模型。這兩個部分在兩個不同的視圖中捕獲了語義信息并且相互補充。為解決數據稀疏和噪聲數據帶來的挑戰,我們設計了兩種特定策略。首先,兩個模塊共享學習的參數和表示,以增強每個模塊的初始的表示。更重要的,我們采用了一種協同教學的機制來減少噪聲對訓練數據的影響。核心思想是讓這兩個模塊通過選擇更可靠的訓練實例來互相幫助。這兩種策略分別關注于表示增強和數據增強。與基于純文本的匹配模型相比,所提出的方法能夠從有限的甚至稀疏的交互數據中學習更好的表示,對訓練數據中的噪聲具有一定的抵抗能力。實驗結果表明,我們的模型均優于現有的方法。
論文題目:Knowledge-Enhanced Personalized Review Generation with Capsule Graph Neural Network(長文)
作 者:李軍毅(人大博士生),李思晴,趙鑫,何高樂,魏志成,袁晶,文繼榮
論文概述:個性化評論生成(PRG)任務旨在自動生成反映用戶偏好的評論文本。以前的大多數研究都沒有明確建模物品的事實描述,因此傾向于生成無信息的內容。而且,這些研究主要集中在單詞層面的生成,無法準確反映出用戶在多個主題上的抽象偏好。針對上述問題,我們提出了一種基于膠囊圖神經網絡(Caps-GNN)的知識增強個性化評論生成模型。我們首先構造一個異構知識圖譜(HKG),充分利用豐富的物品屬性。我們采用Caps-GNN學習到HKG圖膠囊,用于編碼HKG的隱含特征。我們的生成過程包含兩個主要步驟,即主題序列生成和句子生成。首先,基于圖膠囊,我們自適應地學習了主題膠囊,以推斷主題序列。然后,根據推斷的主題標簽,我們設計了一種基于圖的拷貝機制,通過引入HKG的相關實體或單詞來生成句子。本文是第一個將知識圖譜用于個性化評論生成任務,引入的KG信息能夠增強用戶在主題和單詞層面上的偏好。實驗表明,我們的模型對于個性化評論生成任務具有更好的效果。
論文題目:S3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization(長文)
作 者:周昆(人大博士生),王輝(人大碩士生),趙鑫,朱余韜,王思睿,張富錚,王仲遠,文繼榮
論文概述:近年來,深度學習在序列化推薦領域取得了巨大成功,已有的序列化推薦模型通常依賴于商品預測的損失函數進行參數訓練。但是該損失函數會導致數據稀疏和過擬合問題,其忽視了上下文數據與序列數據之間的關聯,使得數據的表示學習的并不充分。為解決該問題,本文提出了S3-Rec這一模型,該模型基于自注意力是模型框架,利用四個額外的自監督訓練函數來學習屬性、商品、序列之間的特殊關系。在這里,本文采用了互信息最大化技術來構造這些自監督函數,以此來統一這些關系。在六個數據集上的充分實驗表明本文提出的模型能夠取得State-of-the-art的效果,其在數據量受限和其他推薦模型上也能帶來較大的提升。
**論文:Learning Better Representations for Neural Information Retrieval with Graph Information” **
(作者:李祥圣,Maarten de Rijke, 劉奕群,毛佳昕,馬為之,張敏,馬少平)
內容簡介:目前的檢索模型多數基于文本間的匹配。然而,對于一個搜索會話,用戶的行為之間是具有聯系的,這樣的聯系可以用圖的方式表示出來。例如用戶在會話搜索中修改查詢的過程可以知道那些查詢之間是相似的,用戶點擊文檔后,可以知道查詢與文檔之間的關聯性。利用這樣的兩個網絡,我們可以構建一個由用戶行為組成的圖網絡。在傳統的文本匹配模式上,進一步地引入行為圖信息幫助檢索模型更好地理解用戶搜索意圖。檢索模型可以利用圖信息,對輸入的查詢進行相似節點查詢。同理,對于候選文檔也可以利用相似節點查詢。通過引入鄰接節點信息,豐富當前節點的語義表示。
現有的圖模型的工作主要分為兩種:網絡嵌入式表示方法與圖神經網絡方法。基于這兩種方法,我們提出了兩種利用圖信息改進檢索模型的方法,兩種方法的示意圖如下所示:
深度推薦系統近年來取得了顯著的進步。盡管其具有較高的排名精度,但其運行效率和內存消耗在現實中成為嚴重的瓶頸。為了克服這兩個限制,我們提出了LightRec,這是一個輕量級的推薦系統,具有快速的在線推理和經濟的內存消耗。LightRec的主干是B碼本,每個B碼本由W個潛在向量組成,稱為碼字。在這種結構的頂部,LightRec將有一個項目表示為B碼字的附加組合,這些B碼字是從每個碼本中最佳選擇的。為了從數據中有效地學習代碼本,我們設計了一個端到端學習工作流,其中所提出的技術克服了固有的可微性和多樣性方面的挑戰。此外,為了進一步提高表示質量,我們使用了一些蒸餾策略,這些策略可以更好地保存用戶-項目的相關性分數和相對的排序順序。LightRec通過四個真實世界的數據集進行了廣泛的評估,這產生了兩個經驗發現:1)與最先進的輕量級基線相比,LightRec在召回性能方面取得了超過11%的相對改進;2)與傳統推薦算法相比,在top-k推薦算法中,LightRec的精度下降幅度可以忽略不計,但速度提高了27倍以上。