排名,尤其是搜索和推薦系統中的排名,通常決定了人們如何訪問信息以及信息如何暴露給人們。因此,如何平衡信息披露的相關性和公平性是現代信息披露系統的關鍵問題之一。由于傳統的排名框架將文檔與相關性進行短視排序,這將不可避免地引入不公平的結果曝光,最近關于排名公平性的研究主要集中在動態排名范式,其中結果排名可以實時調整,以支持群體(如種族、性別等)的公平性。然而,現有關于動態學習排序公平性的研究,往往通過顯著犧牲排名前結果的相關性和公平性來實現排序列表中文檔曝光的總體公平性。為了解決這一問題,我們提出了一種公平無偏的排序方法——最大邊際公平(maximum Marginal Fairness, MMF)。該算法集成了對相關性和基于績效的公平性的無偏估計,同時提供了一個顯式控制器來平衡文檔的選擇,以最大化top-k結果的邊際相關性和公平性。理論分析和實證分析表明,我們的方法在長列表公平性上有較小的妥協,在top-k排序的相關性和公平性方面都取得了優于現有算法的效率和有效性。
論文2:Federated Learning with Fair Averaging
作者:王錚、范曉亮*、王程、溫程璐、俞容山、Jianzhong Qi
簡介:該論文提出一種基于梯度投影的聯邦學習公平性算法(federated fair averaging,簡稱FedFV)。FedFV探索性地揭示了造成聯邦學習公平性的重要因素:大尺度的梯度矛盾差異。該方法充分考慮了不同用戶數據集之間的分布差異以及網絡狀態不穩定帶來的掉線挑戰,故讓服務器得到一個兼顧公平性和準確性的高效模型。論文第一作者是信息學院2020級碩士研究生王錚,通訊作者是信息學院范曉亮高級工程師,合作作者包括澳大利亞墨爾本大學Jianzhong Qi高級講師等。
在信息爆炸的時代,推薦系統已經成為一種高效發現用戶偏好的手段。多種多種的推薦范式也不斷涌現。作為一種新穎的推薦范式,促銷推薦可以很好的刺激用戶購買欲望進而最大化收益。不同于傳統的推薦(如商品推薦和組推薦), 促銷推薦(如圖1所示)旨在在選擇階段考慮所有用戶的偏好來選擇一組K個商品并最大化投放階段的收益。盡管上述兩個階段高度關聯,現有的算法通常只關注于商品選擇階段,極大的忽略了投放階段進而導致次優的結果。為了更好的解決促銷推薦問題,我們提出了一種Comb-K推薦模型,一種帶約束的組合優化問題。通過精心設計的一些約束,Comb-K可以無縫的整合選品與投放兩個階段,進而達到最優的投放效果。特別的,即使我們在選品階段選擇了K個商品構成了K-set,用戶來投放階段也只能看到K-set中的W個。而只有被用戶看到的商品才可能真正的產生投放收益。盡管上述2個階段高度相關,但是現有的算法并沒有很好的考慮它,進而導致了次優的結果。
為了解決促銷推薦問題,我們提出了Comb-K推薦模型,一個帶約束的組合優化問題來實現更佳的選品效果。受益于精心設計的約束(尤其是投放窗口W的約束),Comb-K推薦能夠綜合考慮選擇階段和投放階段的情況。當選擇K個商品時, Comb-K能夠考慮所有用戶的偏好來搜索最優的K個商品的組合。首先,我們設計異質圖卷積來學習用戶偏好并求解用戶級別的Comb-K問題。進一步的,為了解決大規模組合爆炸的問題, 我們將海量用戶聚集為少量人群,并在人群級別求解Comb-K問題。這里,我們提出了一個異質圖池化模型來進行人群聚類和人群偏好估計。除此之外,我們還設計了一個快速求解策略RNHS來加速Comb-K的求解過程。最后,在大規模數據上驗證了我們模型的有效性。
越來越多的人際互動在社交媒體平臺上數字化,并受到算法決策的影響,而確保這些算法的公平對待變得越來越重要。在這項工作中,我們研究了在社交媒體數據上訓練的協作過濾推薦系統中的性別偏見。我們研發了神經公平協同過濾(NFCF),這是一個在推薦與職業相關的敏感項目(如工作、學術集中程度或課程)時減少性別偏見的實用框架,使用了神經協同過濾的預訓練和微調方法,并輔以偏見糾正技術。我們分別在MovieLens數據集和Facebook數據集上展示了我們的方法在性別去偏見職業和大學專業推薦方面的效用,并取得了比一些最先進的模型更好的表現和更公平的行為。
序列推薦作為一個新興的課題,由于其重要的現實意義而受到越來越多的關注。基于深度學習和注意力機制的模型在序列推薦中取得了良好的性能。近年來,基于變分自編碼器(VAE)的生成模型在協同過濾方面顯示出了獨特的優勢。特別是,序列貫VAE模型作為遞歸版本,可以有效地捕捉用戶序列中項目之間的時間依賴性,并進行序列推薦。然而,基于VAE的模型有一個共同的局限性,即獲得的近似后驗分布的表征能力有限,導致生成的樣本質量較低。對于生成序列來說尤其如此。為了解決上述問題,本文提出了一種基于對抗與對比的變分自編碼器(ACVAE)的序列推薦算法。具體來說,我們首先在對抗變分貝葉斯(AVB)框架下引入對抗訓練序列生成,從而使我們的模型產生高質量的潛在變量。然后,我們使用對比損失。潛在變量將能夠通過最大限度地減少對比損失來學習更個性化和突出的特征。此外,在對序列進行編碼時,我們使用一個遞歸和卷積結構來捕獲序列中的全局和局部關系。最后,我們在四個真實世界的數據集上進行了大量的實驗。實驗結果表明,我們提出的ACVAE模型優于其他先進的方法。
論文名稱:DDPNOpt: Differential Dynamic Programming Neural Optimizer
論文鏈接:
//www.zhuanzhi.ai/paper/9bd4fb54c41540ebb674f12141d91f37
作者:Guan-Horng Liu、Tianrong Chen、Evangelos Theodorou
推薦理由:將深度神經網絡(Deep Neural Networks,DNNs)訓練解釋為一個非線性動態系統的最優控制問題,近來受到了相當大的關注。
在這項工作中,作者沿著這一思路進行了嘗試,從軌跡優化的角度對訓練過程進行了重構。在該工作中,大多數廣泛使用的DNNs訓練算法都可以與微分動態編程(Differential Dynamic Programming,DDP)聯系起來,DDP是一種根植于近似動態編程的著名二階方法。
為此,作者提出了一類新的優化器,即DDP神經優化器(DDP Neural Optimizer,DDPNOpt),用于訓練前饋和卷積網絡。
DDPNOpt的特點是層間反饋策略,與現有的方法相比,它可以提高收斂性并降低對超參數的敏感性。它在收斂性和復雜度上都優于其他最優控制啟發的訓練方法,并且與最先進的一階和二階方法相比具有競爭力。該工作還觀察到DDPNOpt在防止梯度消失方面有驚人的優勢。
該工作為建立在最優控制理論基礎上的原則性算法設計開辟了新的途徑。
圖片
點擊率(CTR)預測在推薦系統和在線廣告中起著至關重要的作用。這些應用程序中使用的數據是多字段類別數據,其中每個特征屬于一個字段。字段信息被證明是重要的,在他們的模型中有一些考慮字段的工作。在本文中,我們提出了一種新的方法來有效和高效地建模場信息。該方法是對FwFM的直接改進,被稱為場矩陣分解機(FmFM,或FM2)。在FmFM框架下,我們對FM和FwFM提出了新的解釋,并與FFM進行了比較。除了對交叉項進行修剪外,我們的模型還支持特定領域的可變維度的嵌入向量,這是一種軟修剪。在保持模型性能的同時,我們還提出了一種有效的最小化維數的方法。FmFM模型還可以通過緩存中間向量來進一步優化,它只需要數千次浮點運算(FLOPs)就可以做出預測。實驗結果表明,該算法的性能優于復雜的FFM算法。FmFM模型的性能也可以與DNN模型相媲美,DNN模型在運行時需要更多FLOPs 。
//www.zhuanzhi.ai/paper/39df3ac3e3acb641f86294a4d6acb39f
特別檢索任務是給定查詢和文檔集合對相關文檔進行排序。一系列基于深度學習的方法被提出來解決這一問題,并得到了廣泛的關注。但是,我們認為它們本質上是基于局部詞序列的,忽略了細微的長距離文檔級詞關系。為了解決這一問題,我們通過圖結構明確地建模文檔級詞關系,并通過圖神經網絡捕獲微妙信息。此外,由于文檔集合的復雜性和規模,在更一般的級別上探索不同粒度層次匹配信號是相當重要的。因此,我們提出了一種基于圖的層次關聯匹配模型(GHRM)用于特殊檢索,該模型可以同時捕捉細微的和一般的層次匹配信號。我們在兩個具有代表性的特別檢索基準上驗證了GHRM的效果,綜合的實驗和結果表明它優于最新的檢索方法。
//www.zhuanzhi.ai/paper/f8e503be30747a4059bfb9e80e79705e
現有的反事實學習排名(LTR)工作集中于優化基于特征的模型,該模型基于文檔特征預測最優排名。基于bandit算法的LTR方法通常優化表格模型,這些表格模型記住每個查詢的最佳排名。這些類型的模型都有各自的優點和缺點。基于特征的模型在許多查詢(包括那些以前未見過的查詢)中提供了非常健壯的性能,但是,可用的特征往往限制了模型可以預測的排名。相反,表格模型通過記憶可以收斂于任何可能的排名。然而,記憶非常容易產生噪音,這使得表格模型只有在大量用戶交互可用時才可靠。我們能否開發一種穩健的反事實LTR方法,在安全的情況下追求基于記憶的優化? 我們介紹了泛化和專門化(GENSPEC)算法,這是一種魯棒的基于特征的反事實LTR方法,在安全的情況下,它會對每個查詢進行記憶。GENSPEC優化了單個基于特性的模型以實現泛化:跨所有查詢的健壯性能,以及用于專門化的許多表模型:每個表模型都針對單個查詢優化了高性能。GENSPEC使用新穎的相對高可信度邊界來選擇每個查詢部署哪個模型。通過這樣做,GENSPEC成功地實現了專門化表格模型的高性能和基于特征的廣義模型的魯棒性。我們的結果表明,GENSPEC可以在具有足夠點擊數據的查詢上獲得最佳性能,而在數據很少或有噪聲的查詢上具有健壯的行為。
//www.zhuanzhi.ai/paper/b0324110474b3753db34a6296cd76504
由于二部圖在各種應用領域中得到了廣泛的應用,因此嵌入二部圖引起了人們的廣泛關注。以往的方法大多采用基于隨機行走或基于重構的目標,對學習局部圖結構是典型的有效方法。但是,二部圖的全局性質,包括同構節點的社區結構和異構節點的遠程依賴關系,并沒有很好地保存下來。在本文中,我們提出了一種稱為BiGI的二部圖嵌入,通過引入一個新的局部-全局信息目標來捕獲這種全局性質。具體來說,BiGI首先生成一個由兩個原型表示組成的全局表示。然后BiGI通過提出的子級注意機制將采樣的邊緣編碼為局部表示。BiGI通過最大化局部表示和全局表示之間的互信息,使二部圖中的節點具有全局相關性。我們的模型在各種基準數據集上評估top-K推薦和鏈接預測任務。大量的實驗證明BiGI在最先進的基線上實現了一致和顯著的改進。詳細的分析驗證了二部圖全局性質建模的有效性。