題目
修正排序系統中的選擇偏差:Correcting for Selection Bias in Learning-to-rank Systems
類型
推薦系統偏差
關鍵字
推薦系統,學習排名,位置偏差,選擇偏差
簡介
現代推薦系統收集的點擊數據是一個重要的觀測數據來源,可用于訓練學習排名(LTR)系統。然而,這些數據受到許多偏差的影響,這些偏差可能導致LTR系統性能不佳。在這種系統中,最新的偏差校正方法主要集中在位置偏差上,即排名較高的結果(例如,上搜索引擎的結果)更容易被點擊,即使它們不是給出用戶查詢的最相關的結果。很少有人注意到對選擇偏差的糾正,這是因為被選中的文檔首先反映了用戶擁有的文檔。在這里,我們提出了一種新的基于赫克曼兩階段方法的新方法,并對LTR系統中的選擇和位置偏差進行了解釋。通過實例評價表明,與現有的無偏LTR算法相比,所提出的方法對噪聲具有更強的魯棒性和更好的精度,尤其是在沒有位置偏差的情況下。
作者
Zohreh Ovaisi,Ragib Ahsan,伊利諾伊大學芝加哥分校。
Yifan Zhang,中山大學
題目:
Con?dence-Aware Learning for Deep Neural Networks
簡介:
盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。
題目:
Mining Implicit Relevance Feedback from User Behavior for Web Question Answering
簡介:
訓練和刷新用于多語言商業搜索引擎的Web級問答系統通常需要大量的數據。一個想法是從搜索引擎日志中記錄的用戶行為從而挖掘隱式相關性。以前所有有關挖掘隱式相關性的著作都將反饋的目標指定為Web文檔的相關性。由于QA任務中的幾個獨特特性,現有的Web文檔用戶行為模型無法應用于推斷段落相關性。在本文中,我們進行了第一項研究,以探索用戶行為與段落之間的相關性,并提出了一種挖掘Web QA訓練數據的方法。我們對四個測試數據集進行了廣泛的實驗,結果表明,在沒有人標記的數據中,我們的方法顯著提高了段落排名的準確性。實際上,已證明這項工作有效地降低了全球商業搜索引擎中質量檢查服務的人工標記成本,尤其是對于資源較少的語言。
題目: Policy-Aware Unbiased Learning to Rank for Top-?? Rankings
摘要:
反事實學習排序(LTR)方法使用包含交互偏差的登錄用戶交互來優化排序系統。只有當用戶在每個排序中都能看到所有相關的條目時,現有的方法才是公正的。目前還沒有現有的反事實的無偏LTR的top-K排序的方法。文中引入了一種新的策略感知的LTR度量的反事實估計器,它可以解釋隨機測井策略的影響。如果每個相關項目都有一個非零概率出現在top-K排名中,就可以證明policy-aware估計量是無偏 我們的實驗結果表明,估計量的性能不受??大小的影響:對于任何??,policy-aware估計量達到相同的檢索性能,同時學習從top-K中反饋完整的排序。最后,將介紹擴展傳統的LTR方法執行反事實的LTR和優化前??指標。文中主要貢獻主要有介紹第一個policy-aware無偏LTR方法,學習從top-??反饋和優化前??指標。因此,反事實的LTR現在普遍適用于搜索和推薦中的top-??排序。
題目: Fairness-Aware Explainable Recommendation over Knowledge Graphs
簡介: 最近,人們對公平性的考慮日益受到關注,尤其是在智能決策系統中。可解釋的推薦系統可能會受到解釋偏差和性能差異的困擾。在本文中,我們根據用戶的活動水平分析了不同的用戶組,發現不同組之間的推薦績效存在偏差。結果顯示由于不活躍用戶的培訓數據不足,不活躍用戶可能更容易收到不滿意的推薦,并且由于協作過濾的性質,他們的推薦可能會受到更活躍用戶的培訓記錄的影響,因而受到系統的不公平對待。我們提出了一種啟發式重新排序的公平約束方法,以在對知識圖的可解釋性推薦的背景下減輕這種不公平問題。我們使用基于最新知識圖的可解釋推薦算法對幾個數據集進行了實驗,結果表明,我們的算法不僅能夠提供高質量的可解釋的推薦,而且在幾個方面都減少了推薦的不公平性。
位置偏差是信息檢索中處理隱式但有偏差的用戶反饋數據的關鍵問題。無偏排序方法通常依賴于因果關系模型,并通過反傾向加權消除用戶反饋的偏差。這些方法雖然實用,但仍存在兩個主要問題。首先,在推斷用戶單擊時,上下文信息(如已檢查的文檔)的影響常常被忽略。第二,只考慮了位置偏差,忽略了用戶瀏覽行為引起的其他問題。在本文中,我們提出了一個端到端的深度遞歸生存排序(DRSR),一個統一的框架來聯合建模用戶的各種行為,以 (i)考慮排序列表中豐富的上下文信息; (ii)解決隱藏在用戶行為背后的問題,即,在沒有任何點擊的查詢中挖掘觀察模式(非點擊查詢),對不能真實反映用戶瀏覽意圖的跟蹤日志進行建模(不可信觀察)。具體來說,我們采用遞歸神經網絡來建模上下文信息,并估計用戶在每個位置反饋的條件似然。然后,我們將生存分析技術與概率鏈式法則相結合,以數學方式恢復一個用戶的各種行為的無偏聯合概率。DRSR可以很容易地與點和成對的學習目標結合起來。對兩個大型工業數據集的大量實驗表明,我們的模型與最先進的技術相比,具有顯著的性能增益。
【導讀】國際萬維網大會(The Web Conference,簡稱WWW會議)是由國際萬維網會議委員會發起主辦的國際頂級學術會議,創辦于1994年,每年舉辦一屆,是CCF-A類會議。WWW 2020將于2020年4月20日至4月24日在中國臺灣臺北舉行。本屆會議共收到了1129篇長文投稿,錄用217篇長文,錄用率為19.2%。近期,推薦相關也比較熱門,專知小編提前整理了WWW 2020 推薦系統比較有意思的的論文,供參考——序列推薦、可解釋Serendipity 推薦、推薦效率、 bandit推薦、Off-policy學習。 WWW2020RS_Part1
作者:Jibang Wu, Renqin Cai, Hongning Wang
摘要:根據用戶的歷史連續行為預測用戶的偏好對于現代推薦系統來說是具有挑戰性的,也是至關重要的。現有的序列推薦算法在建模歷史事件對當前預測的影響時,大多側重于序列行為之間的過渡結構,而很大程度上忽略了時間和上下文信息。在這篇文章中,我們認為過去的事件對用戶當前行為的影響應該隨著時間的推移和不同的背景而變化。因此,我們提出了一種情境時間注意力機制(Contextualized Temporal Attention),該機制可以學習權衡歷史行為在行為以及行為發生的時間和方式上的影響。更具體地說,為了動態地校準來自自注意力機制的相對輸入的依賴關系,我們提出了多個參數化的核函數以學習各種時間動態,然后使用上下文信息來確定每個輸入要跟隨哪一個kernel( reweighing kernels )。在對兩個大型公開推薦數據集進行的實證評估中,我們的模型始終優于一系列最先進的序列推薦方法。
網址:
//arxiv.org/pdf/2002.00741.pdf
作者:Xueqi Li, Wenjun Jiang, Weiguang Chen, Jie Wu, Guojun Wang, Kenli Li
摘要:近幾年來,Serendipity推薦越來越受到人們的關注,它致力于提供既能迎合用戶需求,又能開闊他們眼界的建議。然而,現有的方法通常使用標量而不是向量來度量用戶與項目的相關性,忽略了用戶的偏好方向,這增加了不相關推薦的風險。此外,合理的解釋增加了用戶的信任度和接受度,但目前沒有為Serendipity推薦提供解釋的工作。為了解決這些局限性,我們提出了一種有向的、可解釋的Serendipity推薦方法,稱為DESR。具體而言,首先采用基于高斯混合模型(GMM)的無監督方法提取用戶的長期偏好,然后利用膠囊(capsule )網絡捕捉用戶的短期需求。然后,我們提出了將長期偏好與短期需求相結合的意外(serendipity)向量,并利用它生成有向的Serendipity推薦。最后,利用反向路徑選擇方案進行了解釋。在真實數據集上的大量實驗表明,與現有的基于意外(serendipity)發現的方法相比,DESR能夠有效地提高意外性和可解釋性,促進多樣性。
網址
作者:Defu Lian, Haoyu Wang, Zheng Liu, Jianxun Lian, Enhong Chen, Xing Xie
摘要:近年來,深度推薦系統已經取得了顯著的進步。盡管具有出色的排名精度,但實際上運行效率和內存消耗在現實中卻是嚴重的瓶頸。為了克服這兩個瓶頸,我們提出了LightRec,這是一個輕量級的推薦系統,具有快速的在線推斷功能和經濟的內存消耗。LightRec的主干是總共B個codebooks,每個codebook均由W個潛在向量組成,稱為codewords。在這種結構的頂部,LightRec將有一個商品表示為B codewords的加法組合,這些B codewords是從每個codebook中選擇的最佳的。為了有效地從數據中學習codebooks,我們設計了一個端到端的學習工作流程,其中所提出的技術克服了固有差異性和多樣性方面的挑戰。另外,為了進一步提高表示質量,采用了幾種distillation策略,可以更好地保留用戶-商品的相關性得分和相對排名順序。我們對LightRec在四個真實數據集上進行了廣泛評估,得出了兩個經驗發現:1)與最先進的輕量級baseline相比,LightRec在召回性能方面取得了超過11%的相對改進;2)與傳統推薦算法相比,在top-k推薦算法中,LightRec的精度下降幅度可以忽略不計,但速度提高了27倍以上。
網址:
作者:Mengyue Yang, Qingyang Li, Zhiwei Qin, Jieping Ye
摘要:上下文多臂 bandit(MAB)在各種問題上實現了優異性能。然而,當涉及到推薦系統和在線廣告等現實場景時,必須考慮探索的資源消耗。在實踐中,通常存在與在環境中執行建議(ARM)相關聯的非零成本,因此,應該在固定的探索成本約束下學習策略。由于直接學習全局最優策略是一個NP難題,并且極大地使bandit算法的探索和開發之間的權衡復雜化,因此直接學習全局最優策略是一個很大的挑戰。現有的方法著重于通過采用貪婪策略來解決問題,該策略估計預期的收益和成本,并基于每個臂的預期收益/成本比使用貪婪的選擇,利用歷史觀察直到勘探資源耗盡為止。然而,現有的方法當沒有更多的資源時,學習過程就會終止,因此很難擴展到無限的時間范圍。本文提出了一種分層自適應上下文bandit方法(HATCH)來進行有預算約束的上下文bandit的策略學習。HATCH采用一種自適應的方法,根據剩余資源/時間和對不同用戶上下文之間報酬分配的估計來分配勘探資源。此外,我們利用充分的上下文特征信息來找到最好的個性化推薦。最后,為了證明提出的理論,我們進行了regret bound分析,并證明HATCH的regret bound低至O(√T)。實驗結果證明了該方法在合成數據集和實際應用中的有效性和效率。
網址:
作者:Jiaqi Ma, Zhe Zhao, Xinyang Yi, Ji Yang, Minmin Chen, Jiaxi Tang, Lichan Hong, Ed H. Chi
摘要:許多現實世界中的推薦系統需要高度可伸縮性:將數百萬個項目與數十億用戶進行匹配,并只具有毫秒級的延遲。可伸縮性的要求導致了廣泛使用的兩階段推薦系統,由第一階段高效的候選生成模型和第二階段更強大的排序模型組成。通常使用記錄的用戶反饋(例如,用戶點擊或停留時間)來構建用于推薦系統的候選生成和排名模型。雖然很容易收集大量這樣的數據,但因為反饋只能在以前系統推薦的項目上觀察到,因此這些數據在本質上是有偏見的。近年來,推薦系統研究領域對此類偏差的off-policy 修正引起了越來越多的關注。然而,現有的大多數工作要么假設推薦系統是一個單階段系統,要么只研究如何將離策略校正應用于系統的候選生成階段,而沒有顯式地考慮這兩個階段之間的相互作用。在這項工作中,我們提出了一種兩階段離策略(two-stage off-policy)策略梯度方法,并證明了在兩階段推薦系統中忽略這兩個階段之間的交互會導致次優策略。該方法在訓練候選生成模型時明確考慮了排序模型,有助于提高整個系統的性能。我們在具有大項目空間的真實數據集上進行了實驗,驗證了所提方法的有效性。
網址:
每天都有數以百萬計的新聞文章在網上發布,這對讀者來說是難以承受的。將報道同一事件的文章分組成新聞報道是幫助讀者進行新聞消費的一種常見方式。然而,如何高效、有效地為每一個故事生成一個有代表性的標題仍然是一個具有挑戰性的研究問題。文檔集自動摘要的研究已經有幾十年的歷史了,但是很少有研究關注于為一組文章生成具有代表性的標題。摘要的目的是用最少的冗余捕獲最多的信息,而標題的目的是短篇幅捕獲由story文章共同共享的信息,并排除對每一篇文章過于具體的信息。在這項工作中,我們研究的問題,產生具有代表性的新聞故事標題。我們開發了一種遠監督方法來訓練大規模的沒有任何人工標注的生成模型。這種方法集中在兩個技術組件上。首先,我們提出了一個多層次的預訓練框架,該框架融合了大量不同質量的未標記語料庫。我們證明,在這個框架內訓練的模型比那些使用純人類策展語料庫訓練的模型表現得更好。其次,我們提出了一種新的基于自投票的文章注意層來提取多篇文章共享的顯著信息。我們證明了該層模型對新聞中潛在的干擾具有較強的魯棒性,無論是否存在干擾,其性能都優于已有的基線。我們可以通過合并人類標簽來進一步增強我們的模型,我們展示了我們的遠監督方法,這大大減少了對標簽數據的需求。
【導讀】國際萬維網大會(The Web Conference,簡稱WWW會議)是由國際萬維網會議委員會發起主辦的國際頂級學術會議,創辦于1994年,每年舉辦一屆,是CCF-A類會議。WWW 2020將于2020年4月20日至4月24日在中國臺灣臺北舉行。本屆會議共收到了1129篇長文投稿,錄用217篇長文,錄用率為19.2%。上周專知小編提前整理了WWW 2020圖神經網絡(GNN)比較有意思的的論文,這期小編繼續為大家奉上WWW 2020推薦相關論文供參考! WWW2020GNN
作者:Zohreh Ovaisi, Ragib Ahsan, Yifan Zhang, Kathryn Vasilaky and Elena Zheleva
摘要:現代推薦系統收集到的點擊數據是用來訓練學習排名(LTR)系統的觀察數據的重要來源。然而,這些點擊數據會受到許多偏差(bias)的影響,這些偏差可能會導致LTR系統的性能變差。在此類系統中,最近的偏差校正(bias correction)方法主要集中在位置偏差上,即雖然不是用戶查詢最相關的,但排名較高的結果(例如,頂級搜索引擎結果)更可能被點擊。由于所點擊的文檔反映了什么文檔首先向用戶展示,因此大部分方法對校正選擇偏差的關注較少。在本文中,我們提出了新的方法,這些方法可以適應Heckman的兩階段方法,并考慮LTR系統中的選擇偏差和位置偏差。我們的實驗評估表明,與現有的無偏LTR算法相比,我們提出的方法對噪聲的魯棒性更高,并且具有更好的準確性,尤其是在存在中度偏差到無位置偏差的情況下。
網址: //arxiv.org/abs/2001.11358
作者:Quanming Yao, Xiangning Chen, James T. Kwok, Yong Li and Cho-Jui Hsieh
摘要:在協同過濾(CF)中,交互函數(IFC)扮演著捕獲項目和用戶之間交互的重要角色。最流行的交互函數(IFC)是內積,它已經成功地應用于低階矩陣分解。然而,現實世界應用中的交互可能非常復雜。因此,可以提供更好性能的操作(例如:串聯和級聯)被提出。然而,現有的IFC仍然很難在不同的應用場景中保持一致的良好性能。受AutoML的啟發,本文提出在CF中尋找簡單神經交互函數(SIF)。通過對現有CF方法的研究和推廣,設計了一種具有表現力的SIF搜索空間,并將其表示為結構化的多層感知機。我們提出了一種one-shot搜索算法,可以同時更新體系結構和學習參數。 實驗結果表明,所提出的方法比流行的AutoML方法效率更高,比最新的CF方法可以獲得更好的預測性能,并且可以針對不同的數據集和任務發現不同的IFC。
網址:
作者:Minghong Fang, Neil Zhenqiang Gong and Jia Liu
摘要:推薦系統是Web服務中吸引用戶的重要組成部分。流行的推薦系統使用大量眾包用戶-項目交互數據(例如評級得分)對用戶偏好和項目屬性進行建模;然后,將與用戶偏好最匹配的前N個項目推薦給用戶。在這項工作中,我們展示了攻擊者可以通過向虛假用戶注入精心制作的用戶-項目交互數據,對推薦系統發起數據中毒攻擊,從而按照攻擊者的意愿進行推薦。具體地說,攻擊者可以誘導推薦系統向盡可能多的普通用戶推薦目標項目。我們關注已經在行業中得到了廣泛的應用的基于矩陣分解的推薦系統。給定攻擊者可以注入的虛假用戶數量,我們將虛假用戶評分的制定過程描述為一個優化問題。但是,該優化問題是一個非凸整數規劃問題,求解起來很有挑戰性。為了解決這一挑戰,我們開發了幾種技術來近似解決優化問題。例如,我們利用影響函數(influence function)來選擇對推薦有影響力的普通用戶子集,并基于這些有影響力的用戶來解決我們制定的優化問題。實驗結果表明,我們的攻擊是有效的,并且優于現有的方法。
網址:
作者:Wang-Cheng Kang,Derek Zhiyuan Cheng, Ting Chen, Xinyang Yi, Dong Lin, Lichan Hong and Ed H. Chi
摘要:推薦系統模型通常通過嵌入來表示像用戶、項目和分類特征這類的稀疏特征。標準方法是將每個唯一的特征值映射為嵌入向量。所產生的嵌入表的大小隨著詞匯表的大小線性增長。因此,大詞匯量不可避免地會導致巨大的嵌入表,從而產生兩個嚴重的問題:(I)使服務于資源緊張環境中的模型變得難以處理;(ii)造成過擬合的問題。在本文中,我們致力于學習用于推薦系統(recsys)中大型詞匯稀疏特征的高度簡潔的嵌入。首先,我們證明了新的可微積量化( Differentiable Product Quantization,DPQ)方法可以推廣到Recsys問題。此外,為了更好地處理Recsys中常見的冪律數據分布,我們提出了一種多粒度量化嵌入(MGQE)技術,該技術對不頻繁的項目學習更簡單的嵌入。我們嘗試以簡單的模型規模為提高推薦性能提供一個新的角度。在三個推薦任務和兩個數據集上的大量實驗表明,我們可以用原始模型規模的20%的模型獲得與原模型相當甚至更好的性能。
網址:
作者:Wen Wang, Wei Zhang, Shukai Liu, Bo Zhang, Leyu Lin and Hongyuan Zha
摘要:基于會話的目標行為預測旨在預測要與特定行為類型(例如,點擊)進行交互的下一個項目。雖然現有的基于會話的行為預測方法利用強大的表示學習方法來編碼項目在低維空間中的順序相關性,但是它們受到一些限制。首先,它們側重于只利用同一類型的用戶行為進行預測,而忽略了將其他行為數據作為輔助信息的潛力。當目標行為稀疏但很重要(例如,購買或共享物品)時,這一點尤為重要。其次,項目到項目的關系是在一個行為序列中單獨和局部建模的,缺乏一種規定的方法來更有效地全局編碼這些關系。為了克服這些局限性,我們提出了一種新的基于會話的目標行為預測的多關系圖神經網絡模型MGNN-SPred。具體地說,我們基于來自所有會話的所有行為序列(涉及目標行為類型和輔助行為類型)構建多關系項目圖(Multi-Relational Item Graph,MRIG)。在MRIG的基礎上,MGNN-SPred學習全局項目與項目之間的關系,進而獲得用戶偏好。即分別為當前目標行為序列和輔助行為序列。最后,MGNN-SPred利用門控機制自適應地融合用戶表示,以預測與目標行為交互的下一項目。在兩個真實數據集上的廣泛實驗證明了MGNN-SPred與最新的基于會話的預測方法相比的優越性,驗證了利用輔助行為和基于MRIG學習項目到項目關系的優點。
網址:
作者:Tanvi Dadu, Kartikey Pant and Radhika Mamidi
摘要:主觀偏見檢測(Subjective bias detection)對于宣傳檢測、內容推薦、情感分析和偏見消除等應用至關重要。這種偏見是在自然語言中通過煽動性的詞語和短語引入的,使人對事實產生懷疑,并預設事實。在這項工作中,我們在維基中立性語料庫(WNC)上使用基于BERT的模型進行了全面的主觀偏見檢測實驗。數據集為36萬個來自維基百科并刪除了各種偏見的標記實例組成。我們進一步提出了基于BERT的集成,其性能優于BERT_large之類的最新方法5.6 F1 score。
網址:
摘要:
推薦系統經常面對包含高度個性化的用戶歷史數據的異構數據集,單個模型無法為每個用戶提供最佳的推薦。我們在公共和私有數據集上觀察到這種普遍存在的現象,并解決了為每個用戶優化推薦質量的模型選擇問題。我們提出了一個元學習框架,以促進用戶級自適應模型選擇推薦系統。在該框架中,用來自所有用戶的數據對推薦器集合進行訓練,在此基礎上通過元學習對模型選擇器進行訓練,為具有特定用戶歷史數據的每個用戶選擇最佳模型。我們在兩個公共數據集和一個真實的生產數據集上進行了大量的實驗,證明我們提出的框架在AUC和LogLoss方面實現了對單個模型基線和樣本級模型選擇器的改進。特別是,這些改進可能會帶來巨大的利潤收益時,部署在網上推薦系統。
地址:
論文題目
一致收斂可能無法解釋深度學習中的泛化現象,Uniform convergence may be unable to explain generalization in deep learning
論文摘要
我們對基于一致收斂的泛化界的能力表示懷疑,以提供一個完整的圖像,說明為什么過度參數化的深網絡泛化良好。雖然眾所周知,許多現有的邊界是數值大的,通過各種實驗,我們首先揭示了這些界限的另一個關鍵和更關注的方面:在實踐中,這些界限可以{EM增加與數據集的大小。在我們的觀察結果的指導下,我們給出了隨機梯度下降(SGD)訓練的超參數線性分類器和神經網絡的例子,在這些例子中,即使我們盡可能充分地考慮隱式正則化{\em},一致收斂也無法“解釋泛化”。更準確地說,即使我們只考慮SGD輸出的一組測試誤差小于某個小?的分類器,對這組分類器應用(雙邊)一致收斂也會得到一個大于1?的泛化保證,因此幾乎是空的
論文亮點
本文提出了一個反對使用基于一致收斂的泛化界來解釋超參數深網絡泛化良好的理由。它們是通過破壞最緊的(算法,分布相關的)一致收斂界來實現的。
論文結構
論文作者
Vaishnavh Nagarajan, J. Zico Kolte。