【導讀】作為CCF推薦的A類國際學術會議,International ACM SIGIR Conference on Research and Development in Information Retrieval(國際計算機學會信息檢索大會,簡稱 SIGIR)在信息檢索領域享有很高的學術聲譽,每年都會吸引全球眾多專業人士參與。今年的 SIGIR 2021已經在2021年7月11-15日在線上舉行。此次大會共收到了720篇長文投稿,錄用151篇,長文錄取率21%(去年的錄取率為26.4%);共收到了526篇短文投稿,錄用145篇,短文錄取率27%(去年的錄取率為30%)。
SIGIR2021 Paper List: //dl.acm.org/doi/proceedings/10.1145/3404835
為此,專知小編為大家整理了五篇SIGIR 2021 反事實推理(Counterfactual Inference)相關研究和應用,這塊這幾年一直比較受關注——視頻時刻檢索、流行度偏好、AutoDebias、情緒偏差、延時反饋
CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Deconfounded Video Moment Retrieval with Causal Intervention
作者:Xun Yang, Fuli Feng, Wei Ji, Meng Wang, Tat-Seng Chua
摘要:本文解決了視頻時刻(moment)檢索 (VMR) 的任務,該任務旨在根據文本query定位視頻中的特定時刻(moment)。現有方法主要通過復雜的跨模態交互對query和moment之間的匹配關系進行建模。盡管它們有效,但當前的模型大多利用數據集偏差(biases)而忽略視頻內容,從而導致泛化性較差。本文認為這個問題是由 VMR 中隱藏的混雜因素引起的,即時刻(moments)的時間位置(temporal location),它虛假地關聯了模型輸入和預測。如何針對時間位置偏差設計穩健的匹配模型至關重要,但據本文所知,尚未有針對 VMR 進行研究。為了填補研究空白,本文提出了一個因果關系啟發的 VMR 框架,該框架構建了結構因果模型來捕捉query和視頻內容對預測的真實影響。具體來說,本文提出了一種去混雜的跨模態匹配 (DCM) 方法來消除moment location的混雜影響。它首先解開moment表示以推斷視覺內容的核心特征,然后基于后門調整(backdoor adjustment)對解開的多模態輸入進行因果干預,這迫使模型公平地考慮目標的每個可能位置。大量實驗清楚地表明,本文的方法可以在準確性和泛化性方面,比最先進方法,取得顯著改進。
論文:
2. Causal Intervention for Leveraging Popularity Bias in Recommendation
作者:Yang Zhang, Fuli Feng, Xiangnan He, Tianxin Wei, Chonggang Song, Guohui Ling, Yongdong Zhang
摘要:推薦系統通常面臨流行偏好(popularity bias)問題:從數據角度來看,items在交互頻率上表現出不均勻(通常是長尾)分布;從方法的角度來看,協同過濾方法容易通過過度推薦熱門items來放大bias。在推薦系統中考慮流行偏好(popularity bias)無疑是至關重要的,現有工作主要通過基于傾向的無偏學習或因果嵌入來消除偏差效應。然而,本文認為并非數據中的所有偏差都是不好的,即某些items因其更好的內在質量而表現出更高的受歡迎程度。盲目追求無偏學習可能會去除數據中的有益模式,從而降低推薦準確性和用戶滿意度。本文研究了推薦中一個未探索的問題——如何利用流行偏好(popularity bias)來提高推薦準確性。關鍵在于兩個方面:如何去除訓練過程中流行度偏差的不良影響,以及如何在生成top-K推薦的推理階段注入所需的流行度偏差。這對推薦生成過程的因果機制提出了一些疑惑。沿著這條線,本文發現items流行度在暴露項目和觀察到的交互之間起到了混雜的作用,導致了偏差放大的不良影響。為了實現這一目標,本文提出了一種新的推薦訓練和推理范式,稱為流行偏見解混和與調整(PDA)。它消除了模型訓練中混淆的流行偏差,并通過因果干預調整推薦分數。本文展示了潛在因素模型的新范式,并在來自快手、豆瓣和騰訊的三個真實世界數據集上進行了大量實驗。實證研究表明,去混淆訓練有助于發現用戶的真實興趣,并且根據流行度偏差進行推理調整可以進一步提高推薦準確率。
論文:
代碼:
3. AutoDebias: Learning to Debias for Recommendation
作者:Jiawei Chen, Hande Dong, Yang Qiu, Xiangnan He, Xin Xin, Liang Chen, Guli Lin, Keping Yang
摘要:
推薦系統依靠評分和點擊等用戶行為數據來構建個性化模型。然而,收集到的數據是觀察性的而不是實驗性的,這會導致數據中的各種偏差,從而顯著影響學習的模型。大多數現有的推薦去偏差工作,例如逆傾向評分(the inverse propensity scoring)和插補(imputation)方法,都側重于一兩個特定的偏差,缺乏可以解釋數據中混合甚至未知偏差的通用能力。針對這一研究空白,本文首先從風險差異的角度分析偏差的來源,風險差異代表了預期經驗風險與真實風險之間的差異。值得注意的是,本文推導出了一個通用學習框架,通過指定通用框架的一些參數,它很好地總結了大多數現有的除偏策略。這為開發用于去偏的通用解決方案提供了寶貴的機會,例如,通過從數據中學習去偏參數。然而,訓練數據缺乏重要信號來說明數據是有偏的,以及無偏數據是什么樣子的。為了推進這一想法,本文提出了 AotoDebias,它利用另一組(小)均勻數據,通過元學習解決雙層優化問題來優化除偏參數。通過理論分析,本文推導出了 AutoDebias 的泛化界限,并證明了其獲得合適的去偏策略的能力。對兩個真實數據集和一個模擬數據集的大量實驗證明了 AutoDebias 的有效性。
論文:
代碼:
4. Mitigating Sentiment Bias for Recommender Systems
作者:Chen Lin, Xinyi Liu, Guipeng Xv, Hui Li
摘要:推薦系統(RS)中的偏差和去偏差最近已成為研究熱點。這篇論文揭示了一種尚未探索的偏見類型,即情緒偏見。通過實證研究,本文發現許多 RS 模型對具有更多正面反饋的用戶/物品組(即正面用戶/物品)比對具有更多負面反饋的用戶/物品組(即負面用戶/物品)提供更準確的推薦。本文表明,情緒偏見與現有偏見(例如流行偏見)不同:積極的用戶/項目沒有更多的用戶反饋(即,更多的評分或更長的評論)。情緒偏見的存在導致對關鍵用戶的推薦質量低下,對小眾商品的推薦不公平。本文討論導致情緒偏差的因素。然后,為了修正情緒偏差的來源,本文提出了一個通用的去偏差框架,其中包含三種策略,體現在不同的正則化器中,可以輕松插入 RS 模型而無需更改模型架構。在各種 RS 模型和基準數據集上的實驗已經驗證了本文的去偏置框架的有效性。據本文所知,之前沒有研究過情緒偏見及其去偏見。本文希望這項工作可以幫助加強對 RS 中偏差和去偏差的研究。
論文:
5. Counterfactual Reward Modification for Streaming Recommendation with Delayed Feedback
作者:Xiao Zhang, Haonan Jia, Hanjing Su, Wenhan Wang, Jun Xu, Ji-Rong Wen
摘要:在許多流媒體推薦場景中,用戶反饋可能會延遲。例如,用戶對推薦優惠券的反饋包括對點擊事件的即時反饋和對轉化結果的延遲反饋。延遲反饋對使用標簽不完整的實例訓練推薦模型提出了挑戰。當應用于實際產品時,挑戰變得更加嚴峻,因為流推薦模型需要非常頻繁地重新訓練,并且需要在非常短的時間范圍內收集訓練實例。現有方法要么簡單地忽略未觀察到的反饋,要么在靜態實例集上試探性地調整反饋,從而導致訓練數據存在偏差并損害學習推薦的準確性。在本文中,本文提出了一種新穎且理論上合理的反事實方法來調整用戶反饋和學習推薦模型,稱為 CBDF(Counterfactual Bandit with Delayed Feedback)。CBDF 將具有延遲反饋的流推薦作為順序決策問題制定,并使用批量bandit對其進行建模。為了解決延遲反饋的問題,在每次迭代(episode)時,都會采用反事實重要性采樣模型來重新加權原始反饋并生成修改后的反饋。基于修改后的反饋,學習批量bandit以在下一次迭代中進行在線推薦。理論分析表明,修改后的獎勵在統計上是無偏的,并且學習到的bandit策略享有次線性的后悔界限。實驗結果表明,CBDF 在合成數據集、Criteo 數據集和來自騰訊微信應用的數據集上的表現優于最先進的基線方法。
論文:
【導讀】CCF A類會議,國際萬維網大會WWW 2021(The Web Conference)已于2021年4月23日落幕。今年共有1736 篇長論文投稿,接收357篇,接收率為20.6%;WWW(The International World Wide Web Conference)會議是由圖靈獎得主Tim創辦的學術會議,內容涵蓋互聯網相關的一切主題。會議原定在斯洛文尼亞首都盧布爾雅那舉行,后由于疫情改為線上會議。
為此,專知小編為大家整理了五篇WWW 2021圖神經網絡+推薦(Graph Neural Network)最新進展,這塊這幾年一直比較受關注,也非常前沿——自監督多通道超圖網絡、雙曲圖卷積網絡、圖推斷攻擊、交互感知圖歸納、多樣化推薦
CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Self-Supervised Multi-Channel Hypergraph Convolutional Network for Social Recommendation
作者:Junliang Yu, Hongzhi Yin, Jundong Li, Qinyong Wang, Nguyen Quoc Viet Hung, Xiangliang Zhang
摘要:在推薦者系統中,當用戶-商品交互數據比較稀疏時,通常會使用社交關系來提高推薦質量。大多數現有的社交推薦模型利用成對關系來挖掘潛在的用戶偏好。但是,現實生活中用戶之間的交互非常復雜,并且用戶關系可能是高階的。Hypergraph提供了一種自然的方式來建模復雜的高階關系,而其改善社會推薦的潛力尚未得到充分挖掘。而本文填補了這一空白,并提出了一種多通道超圖卷積網絡,通過利用高階用戶關系來增強社交推薦。從技術上講,網絡中的每個通道都對超圖進行編碼,該超圖通過超圖卷積來描述常見的高階用戶關系模式。同時該超圖通過匯總多個渠道學習到的嵌入信息,獲得全面的用戶表示形式來生成推薦結果。但是,聚合操作也可能會掩蓋不同類型的高階連接信息的固有特性。為了彌補聚集的損失,本文將自我監督學習集成到超圖卷積網絡的訓練中,通過分層互信息最大化重新獲得連通性信息。多個實際數據集上的實驗結果表明,所提出的模型優于SOTA方法,并且消融研究驗證了多通道設置和自我監督任務的有效性。可通過此https URL獲得本文模型的實現。
論文: //arxiv.org/abs/2101.06448
代碼:
2. HGCF: Hyperbolic Graph Convolution Networks for Collaborative Filtering
作者:Jianing Sun,Zhaoyue Cheng, Saba Zuberi,Felipe Pérez, Maksims Volkovs
摘要:雙曲空間提供了豐富的設置來學習具有優越性能的嵌入向量,這些嵌入向量已在計算機視覺,自然語言處理和計算生物學等領域得到利用。近來,學習推薦設置中的用戶和項目的魯棒表示的幾種雙曲線方法被提出。但是,這些方法無法捕獲推薦域中通常存在的更高級別的關系。另一方面,圖卷積神經網絡(GCN)擅長通過將多個級別的聚合信息應用于局部表示從而捕獲更高階的信息。本文通過提出用于協作過濾的雙曲線GCN模型,用新穎的方式組合了這些框架。本文證明了該模型可以有效地學習到邊距排名損失,并證明了雙曲空間在等級邊距設置下具有較好的特性。在測試時,該模型中的推論是使用雙曲線距離來完成的,該距離保持了學習空間的結構。本文對三個公共基準進行了廣泛的實證分析,并與大量基準進行了比較。結果表示本文的方法取得了極具競爭力的結果,并優于包括歐幾里得 GCN 在內的領先基線。本文進一步研究了所學雙曲線嵌入的性質,并表明它們為數據提供了有意義的見解。
論文:
代碼:
3. Graph Embedding for Recommendation against Attribute Inference Attacks
作者:Shijie Zhang, Hongzhi Yin, Tong Chen, Zi Huang, Lizhen Cui, Xiangliang Zhang
摘要:近年來,推薦系統在幫助用戶確定商品的個人喜好方面起著舉足輕重的作用。由于用戶項目交互可以自然地被建模成圖結構化數據,因此圖卷積網絡(GCN)的變體已被稱為最新推薦者中公認的基礎。由于敏感用戶配置文件數據的廣泛使用,現有的推薦范例可能會使用戶隱私權受到威脅,基于GCN的推薦者也不例外。除了泄漏原始用戶數據外,當前推薦者在推理攻擊下的脆弱性還為惡意攻擊者提供了后門,可以通過他們的行為足跡和推薦結果來估計用戶的私有屬性。但是,很少有人注意并開發出能夠防御此類屬性推斷攻擊的推薦器系統,并且現有工作通過犧牲相當大的推薦精度或僅覆蓋特定的攻擊模型或受保護的信息來實現抗攻擊性。本文提出了GERAI,這是一種新穎的差分私有圖卷積網絡,可以解決這些局限性。具體來說,GERAI將圖微卷積網絡的推薦功能綁定在差分隱私中的信息攝動機制。此外,基于本地差分隱私和功能機制,本文創新地設計了一個雙階段加密范例,以同時對用戶的敏感特征和模型優化過程實施隱私保證。大量的實驗顯示了GERAI在抵抗屬性推理攻擊和推薦有效性方面的優越性。
論文:
4. Drug Package Recommendation via Interaction-aware Graph Induction
作者:Zhi Zheng, Chao Wang, Tong Xu, Dazhong Shen, Penggang Qin, Baoxing Huai, Tongzhu Liu, Enhong Chen
摘要:近年來,大量電子病歷(EMR)迅速積累,這極大地支持了諸如藥物推薦之類的智能醫療服務。然而,現有技術主要遵循協同過濾等傳統推薦策略,將單個藥物視為相互獨立,而藥物之間的潛在相互作用,例如協同或拮抗作用,在很大程度上被忽略了。為此,在本文中,本文的目標是在考慮藥物內部的相互作用影響的情況下,開發一種新的推薦藥物包裝范例,其中相互作用可能會受到患者狀況的影響。具體來說,本文首先設計一種基于神經協作過濾的預訓練方法,以獲得患者和藥物的初始嵌入。然后,將基于病歷和領域知識來初始化藥物相互作用圖。按照這一思路,本文提出了一個新的藥品包裝推薦(DPR)框架,該框架具有兩個變體,分別是加權圖上的DPR(DPR-WG)和屬性圖上的DPR(DPR-AG),以解決該問題,其中每個交互作用都將被稱為有符號權重或屬性向量。詳細來說,掩模層用于捕獲患者狀況的影響,圖神經網絡(GNN)被用于最終的圖誘導任務以嵌入包裝。在一流醫院的真實數據集上進行的大量實驗證明,與幾種競爭性基準方法相比,本文的DPR框架是有效的,并且進一步支持了具有足夠性能的啟發式研究,用于藥物包裝生成任務。
論文:
5. DGCN: Diversified Recommendation with Graph Convolutional
作者:Yu Zheng, Chen Gao, Liang Chen, Depeng Jin, Yong Li
摘要:這些年來,人們一直在致力于提高推薦系統的準確性或相關性。多樣性是衡量推薦項目之間差異的關鍵因素,因此很少受到審查。與用戶滿意度直接相關,在生成候選項目后通常會考慮多樣化。但是,這種分散化和候選生成的分離設計使整個系統次優。本文旨在借助圖卷積網絡(GCN)將多樣化推向上游候選者生成階段。盡管基于GCN的推薦算法在建模復雜的協作過濾效果以提高推薦準確性方面顯示出強大的功能,但在這些高級工作中忽略了多樣性變化。本文提出在GCN之上執行重新平衡的鄰居結點,類別增強的負采樣和對抗性學習。本文對現實世界的數據集進行了廣泛的實驗。實驗結果證明了本文提出的多元化方法的有效性。進一步的消融研究證實,該方法可以大大緩解精度-多樣性難題。
論文:
代碼:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021對比學習(Contrastive Learning)在計算機視覺上的應用,這塊這幾年一直比較受關注,特別是具體領域應用等等?大家先睹為快——圖像去霧、少樣本學習、多模態視頻學習、密集CL、對抗CL
CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Contrastive Learning for Compact Single Image Dehazing
作者:Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Yuan Xie , Lizhuang Ma
摘要:由于嚴重的信息退化,單圖像去霧是一個具有挑戰性的問題。然而,現有的基于深度學習的除霧方法僅采用清晰的圖像作為正樣本來指導除霧網絡的訓練,而未利用負樣本信息。而且,它們中的大多數集中在通過增加深度和寬度來增強除霧網絡,從而導致大量的計算和內存需求。在本文中,我們提出了一種基于對比學習的新穎對比正則化(CR)技術,以利用模糊圖像和清晰圖像的信息分別作為負樣本和正樣本。CR確保在表示空間中將還原后的圖像拉到更接近清晰圖像,并推到遠離朦朧圖像的位置。此外,考慮到性能和內存存儲之間的權衡,我們基于類自動編碼器(AE)框架開發了一個緊湊的除霧網絡。它涉及自適應混合操作和動態特征增強模塊,分別受益于自適應地保存信息流和擴展接收域以提高網絡的轉換能力。我們將具有自動編碼器和對比正則化功能的除霧網絡稱為AECR-Net。在合成和真實數據集上進行的廣泛實驗表明,我們的AECR-Net超越了最新技術。
論文: //arxiv.org/abs/2104.09367
代碼:
2. Fine-grained Angular Contrastive Learning with Coarse Labels
作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky
摘要:Few-shot學習方法會提供經過優化的預訓練技術,以便使用一個或幾個示例輕松地將模型適應新類(在訓練過程中看不見)。這種對不可見類別的適應性對于許多實際應用尤為重要,在這些實際應用中,預先訓練的標簽空間無法保持固定以有效使用,并且模型需要“特殊化”以支持動態的新類別。粗粒度到細粒度(Coarse-to-Fine)Few-Shot(C2FS)是一種特別有趣的場景,基本上被Few-Shot文獻所忽略,其中訓練(train)類(例如,動物)的粒度比目標(test)類的“粒度”粗得多(例如品種)。C2FS的一個非常實際的示例是目標類是訓練類的子類。直觀地講,這是特別具有挑戰性的,因為包括regular and few-shot的有監督的預訓練往往會學會忽略類內差異性,這對于分離子類至關重要。在本文中,我們介紹了一種新穎的“角度歸一化(Angular normalization)”模塊,該模塊可以有效地結合監督和自監督的對比預訓練來解決C2FS任務,從而證明了在多個基準和數據集的廣泛研究中所取得的顯著成果。我們希望這項工作將有助于為有關C2FS分類這一新的,具有挑戰性且非常實用的主題的未來研究鋪平道路。
論文:
3. Distilling Audio-Visual Knowledge by Compositional Contrastive Learning
作者:Yanbei Chen, Yongqin Xian, A.Sophia Koepke, Ying Shan, Zeynep Akata
摘要:與從單模態學習相比,獲得多模態線索,(例如,視覺和音頻)可以更快地完成某些認知任務。在這項工作中,我們建議在跨模態中傳輸知識,即使這些數據模態在語義上可能不相關。與直接對齊不同模態的表示不同,我們組合音頻,圖像和視頻的跨模態表示,以發現更豐富的多模態知識。我們的主要思想是學習一種組合嵌入表示,這種嵌入可以縮小跨模態語義鴻溝并捕獲與任務相關的語義,這有助于通過組合對比學習將跨模態的表示整合在一起。我們在三個視頻數據集(UCF101,ActivityNet和VG-GSound)上建立了一個新的,全面的多模態蒸餾基準。此外,我們證明了我們的模型在傳輸視聽知識以改善視頻表示學習方面,明顯優于各種現有的知識蒸餾方法。
論文:
代碼:
4. Dense Contrastive Learning for Self-Supervised Visual Pre-Training
作者:Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li
摘要:迄今為止,大多數現有的自監督學習方法都是針對圖像分類進行設計和優化的。由于圖像級預測和像素級預測之間的差異,這些預訓練的模型對于密集的預測任務可能不是最佳的。為了解決這個問題,我們旨在設計一種有效,密集的自監督學習方法,通過考慮局部特征之間的對應關系,直接在像素(或局部特征)級別上起作用。我們提出了密集的對比學習(DenseCL),該算法通過在輸入圖像的兩個視圖之間的像素級別上優化成對的對比(不相似)損失來實現自監督學習。
與基準方法MoCo-v2相比,我們的方法引入的計算開銷(僅慢了1%)可忽略不計,但是在轉移到下游密集的預測任務(包括目標檢測,語義分割和實例分割)時,始終表現出優異的性能;并大大領先于最新技術。具體而言,在強大的MoCo-v2基線上,我們的方法在PASCAL VOC數據集對象檢測任務上的AP顯著提升2.0%,COCO數據集對象檢測任務上的AP顯著提升1.1%,COCO數據集實例分割任務上的AP提升0.9%,PASCAL VOC數據集語義分割任務上的AP提升3.0% Cityscapes數據集語義分割任務上mIoU顯著提升1.8%。
論文:
代碼:
5. AdCo: Adversarial Contrast for Efficient Learning of Unsupervised Representations from Self-Trained Negative Adversaries
作者:Qianjiang Hu, Xiao Wang, Wei Hu, Guo-Jun Qi
摘要:對比學習依賴于構建一個負樣本集合,當負樣本的表示是經過自訓練時,負樣本很難與正樣本的查詢(query)區分開來。現有的對比學習方法要么在小批量樣本中含有負樣本隊列,而只有一小部分在迭代中被更新,要么只使用當前小批量樣本中的其他樣本作為負樣本。他們無法通過更新整個隊列來密切跟蹤迭代過程中學習到的表示的變化,也無法從使用過的小批量樣本中剔除有用信息。或者,我們提出直接學習一組負樣本來對抗自我訓練的表示。兩個角色,表示網絡和負樣本對抗,交替更新來獲取最具挑戰性的負樣本,以區分正樣本查詢的表示。我們進一步表明,通過最大化對抗性對比損失,負樣本被更新為正樣本查詢的加權組合,從而他們能夠隨著時間密切跟蹤表示的變化。實驗結果表明,本文所提出的對抗對比模型(AdCo)不僅具有出色的性能(在ImageNet上進行線性評估,200個epoch時 top-1準確度為73.2%,800個epoch時為75.7%),而且可以在更短的GPU時間和更少的epoch條件下進行更有效的預訓練。
論文:
代碼:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021圖像/視頻描述生成(Image/Video Captioning)相關論文,這塊這幾年一直比較受關注,但是競爭也比較激烈,可以看看最新是如何創新,如何開展的?大家先睹為快——RGB-D描述生成、視頻的文本生成、可控圖像描述生成、圖像描述預訓練模型、開放域視頻描述生成
CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Scan2Cap: Context-aware Dense Captioning in RGB-D Scans
作者:Dave Zhenyu Chen, Ali Gholami, Matthias Nie?ner, Angel X. Chang
摘要:在commodity RGB-D 傳感器的3D掃描中,我們介紹了密集描述生成(dense captioning)的任務。作為輸入,我們假設3D場景的點云;預期的輸出是邊界框以及基礎目標的描述。為了解決3D目標檢測和描述生成問題,我們提出了一種Scan2Cap(一種端到端訓練有素的方法),以檢測輸入場景中的目標并以自然語言描述它們。在引用局部上下文的相關組件時,我們使用一種注意力生成機制來生成描述性標記。為了在生成的標題中反映目標關系(即相對空間關系),我們使用信息傳遞圖模塊來促進學習目標關系特征。我們的方法可以有效地定位和描述來自ScanReferdataset的場景中的3D目標,其性能大大優于2D基線方法(27.61%[email protected]改進)。
圖片 網址:
2. VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs
作者:Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani
摘要:我們介紹了VX2TEXT,這是一個用于從多模態輸入生成文本的框架,該輸入由視頻加上文本,語音或音頻組成。為了利用已被證明在建模語言方面有效的transformer網絡,本文首先將每個模態由可學習的tokenizer生成器轉換為一組語言嵌入。這使我們的方法可以在語言空間中執行多模態融合,從而消除了對臨時跨模態融合模塊的需求。為了解決連續輸入(例如:視頻或音頻)上tokenization的不可區分性,我們使用了一種relaxation 方案(relaxation scheme),該方案可進行端到端訓練。此外,與以前的僅編碼器模型不同,我們的網絡包括自回歸解碼器,可從語言編碼器融合的多模態嵌入中生成開放式文本。這使我們的方法完全具有生成性,并使其可直接應用于不同的“視頻+ x到文本”問題,而無需為每個任務設計專門的網絡負責人。本文所提出的框架不僅在概念上簡單,而且非常有效:實驗表明,我們基于單一體系結構的方法在字幕,問答和視聽這三個基于視頻的文本生成任務上均優于最新技術場景感知對話框架。
網址:
3. Human-like Controllable Image Captioning with Verb-specific Semantic Roles
作者:Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu
摘要:過去幾年來,可控圖像字幕(CIC)(根據指定的控制信號生成圖像描述)受到了前所未有的關注。為了模仿人類控制字幕生成的能力,當前的CIC研究僅關注與客觀屬性(例如:感興趣的內容或描述性模式)有關的控制信號。但是,我們認為幾乎所有現有的目標控制信號都忽略了理想控制信號的兩個必不可少的特征:1)事件兼容:在單個句子中提及的所有視覺內容應與所描述的活動兼容。2)適合樣本:控制信號應適合于特定的圖像樣本。為此,我們為CIC提出了一個新的控制信號:動詞特定的語義角色(VSR)。VSR由一個動詞和一些語義角色組成,它們表示目標活動以及此活動中涉及的實體的角色。給定指定的VSR,我們首先訓練一個語義角色標記(GSRL)模型,以識別每個角色的所有實體。然后,我們提出了一個語義結構計劃器(SSP)來學習類似人的描述性語義結構。最后,我們使用角色轉換描述模型來生成描述。大量的實驗和消融表明,在兩個具有挑戰性的CIC基準測試中,我們的框架比幾個強大的基準可以實現更好的可控性。此外,我們可以輕松生成多層次的不同描述。
代碼:
網址:
4. VirTex: Learning Visual Representations from Textual Annotations
作者:Karan Desai, Justin Johnson
摘要:實際上,許多解決視覺任務的方法是從預訓練的視覺表示開始,通常是通過ImageNet的監督訓練來學習的。最近的方法已經探索了無監督的預訓練,以擴展到大量未標記的圖像。相反,我們旨在從更少的圖像中學習高質量的視覺表示。為此,我們重新審視了有監督的預訓練,并尋求基于數據的有效方法來替代基于分類的預訓練。我們提出了VirTex——這是一種使用語義密集描述來學習視覺表示的預訓練方法。我們從頭開始在COCO Captions上訓練卷積網絡,并將其轉移到下游識別任務,包括圖像分類,目標檢測和實例分割。在所有任務上,VirTex所產生的特征都可以與ImageNet上達到或超過的特征(在監督或無監督的情況下)相提并論,并且其所使用的圖像最多減少十倍。
網址:
5. Open-book Video Captioning with Retrieve-Copy-Generate Network
作者:Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Ying Shan, Bing Li, Ying Deng, Weiming Hu
摘要:在本文中,我們將傳統的視頻描述任務轉換為一種新的范例,即``Open-book視頻描述'',它可以在與視頻內容相關的句子的提示下生成自然語言,而不僅限于視頻本身。為了解決Open-book的視頻描述問題,我們提出了一種新穎的“檢索-復制-生成”網絡,該網絡中構建了可插入的視頻到文本檢索器,以有效地從訓練語料庫檢索句子作為提示,而復制機制生成器則是引入動態提取多檢索語句中的表達式。這兩個模塊可以端到端或分別進行訓練,這是靈活且可擴展的。我們的框架將傳統的基于檢索的方法與正統的編碼器/解碼器方法進行了協調,它們不僅可以利用檢索到的句子中的各種表達方式,還可以生成自然而準確的視頻內容。在幾個基準數據集上進行的大量實驗表明,我們提出的方法超越了最新技術的性能,表明了在視頻描述任務中提出的范例的有效性和前景。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了六篇CVPR 2021行人重識別(Person Re-identification)相關論文,這塊近幾年非常火,但是競爭也比較激烈,可以看看最新是如何創新,如何開展的?大家先睹為快——視頻行人重識別、領域自適應行人重識別、無監督行人重識別、開放域行人重識別、
CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Watching You: Global-guided Reciprocal Learning for Video-based Person Re-identification
作者:Xuehu Liu, Pingping Zhang, Chenyang Yu, Huchuan Lu, Xiaoyun Yang
摘要:基于視頻的行人重識別(RE-ID)旨在自動在非重疊攝像機下檢索同一個人的視頻序列。為實現這一目標,充分利用視頻中豐富的空間和時間線索是關鍵。現有方法通常專注于最具顯著性的圖像區域,因此由于圖像序列中的行人類型不同,他們可能很容易錯過細粒度的線索。為了解決上述問題,在本文中,我們提出了一種新的全局指導的互惠學習(Global-guided Reciprocal Learning,GRL)框架,用于基于視頻的行人重識別。具體地,我們首先提出了全局指導的相關估計(Global-guided Correlation Estimation,GCE)來生成局部特征和全局特征的特征相關圖,這有助于定位高相關性區域和低相關性區域,以識別同一個人。此后,在全局表示的指導下,區分特征被分解為高相關特征和低相關特征。此外,設計了一種新的時間互惠學習(Temporal Reciprocal Learning ,TRL)機制,以依次增強高相關語義信息并積累低相關亞臨界線索。在三個公共基準上進行了廣泛的實驗。實驗結果表明,與其他最新技術相比,我們的方法可以實現更好的性能。
代碼:
網址:
2. Group-aware Label Transfer for Domain Adaptive Person Re-identificatio
作者:Kecheng Zheng, Wu Liu, Lingxiao He, Tao Mei, Jiebo Luo, Zheng-Jun Zha
摘要:無監督域自適應(UDA)行人重識別(ReID)的目的是使在有標記源域數據集上訓練的模型適應目標域數據集,而無需任何其他標記。最成功的UDA-ReID方法將基于聚類的偽標簽預測與表示學習相結合,并以交替的方式執行這兩個步驟。但是,這兩個步驟之間的離線交互可能使有噪聲的偽標簽阻礙模型的性能。在本文中,我們提出了一種組感知標簽轉移(GLT)算法,該算法可實現偽標簽預測和表示學習的在線交互和相互促進。具體而言,標簽轉移算法在使用偽標簽來訓練數據的同時將偽標簽細化為在線聚類算法。它將在線標簽提煉問題視為最佳運輸問題,它探索了將M個樣本分配給N個偽標簽的最低成本。更重要的是,我們引入了一種組感知策略來為樣本分配隱式屬性組ID。在線標簽細化算法和群體感知策略的結合可以在線方式糾正嘈雜的偽標簽,并縮小目標身份的搜索空間。Market1501→DukeMTMC (82.0%)和DukeMTMC→Market1501(92.2%)的實驗結果(Rank-1準確性)證明了擬議GLT的有效性,顯著縮小了行人重識別時無監督表現與有監督表現之間的差距。
代碼:
網址:
3. Intra-Inter Camera Similarity for Unsupervised Person Re-Identification
作者:Shiyu Xuan, Shiliang Zhang
摘要:大多數無監督的行人重識別(RE-ID)通過測量特征相似性來生產偽標簽,而不考慮相機之間的分布差異,導致相機標簽計算中的準確性降低。本文通過研究基于相機內相似性的偽標簽生成來解決這一挑戰。我們將樣本相似度計算分解為兩個階段,即分別是相機內和相機間計算。攝像機內部計算直接利用CNN特征進行每個攝像機內的相似度計算。在不同攝像機上生成的偽標簽在多分支網絡中訓練行人重識別模型。第二階段將不同相機上每個樣本的分類分數視為新的特征向量。這一新特征有效地緩解了攝像機之間的分配差異,并生成了更可靠的偽標簽。因此,我們將分別在兩個階段訓練我們的行人重識別模型,分別使用相機內和相機間的偽標簽。這種簡單的相機內和相機間的相似性在多個數據集上產生了令人驚訝的良好性能,例如,在Market1501數據集上達到了18.5%的準確度,比最近的無監督作品高了9 +%,可與最新的遷移學習作品相提并論但不需要利用額外的注釋。
代碼:
Xuan/IICS
網址:
4. Joint Noise-Tolerant Learning and Meta Camera Shift Adaptation for Unsupervised Person Re-Identification
作者:Fengxiang Yang, Zhun Zhong, Zhiming Luo, Yuanzheng Cai, Yaojin Lin, Shaozi Li, Nicu Sebe
摘要:本文考慮了無監督行人重識別(re-ID)的問題,該問題旨在學習使用未標記數據的判別模型。一種流行的方法是通過聚類獲得偽標簽并將其用于優化模型。盡管這種方法已顯示出令人信服的準確性,但它受到以下因素的阻礙:1)聚類產生的噪聲標簽;2)相機移位導致的特征變化。前者會導致錯誤的優化,從而影響模型的準確性。后者將導致將不同攝像機的類內樣本分配給不同的偽標簽,從而使模型對攝像機變化敏感。在本文中,我們提出了一個統一的框架來解決這兩個問題。具體而言,我們提出了一種動態和對稱的交叉熵損失(DSCE)來處理噪聲的樣本,并提出了一種可感知相機的元學習算法(MetaCam)以適應相機的偏移。DSCE可以減輕噪聲樣本的負面影響,并在每個聚類步驟之后適應聚類的變化。MetaCam通過將訓練數據基于攝像機ID分為元訓練和元測試來模擬跨攝像機約束。通過元訓練和元測試的交互梯度,該模型被強制學習相機不變的特征。在三個re-ID基準上進行的大量實驗證明了所提出的DSCE和MetaCam的有效性和互補性。在完全無監督的re-ID和無監督的域自適應re-ID上,我們的方法都優于最新方法。
代碼:
網址:
5. Meta Batch-Instance Normalization for Generalizable Person Re-Identification
作者:Seokeon Choi, Taekyung Kim, Minki Jeong, Hyoungseob Park, Changick Kim
摘要:盡管有監督行人重識別(Re-ID)方法表現出令人印象深刻的性能,但是它們在看不見的域上具有較差的泛化能力。因此,可通用化的Re-ID最近引起了越來越多的關注。許多現有方法已采用實例規范化技術來減少樣式變化,但是無法避免判別性信息的丟失。在本文中,我們提出了一種新穎的可推廣Re-ID框架,稱為Meta Batch-Instance Normalization。我們的主要思想是通過在元學習管道中預先模擬不太成功的泛化方案來泛化歸一化層。為此,我們將可學習的批處理實例歸一化層與元學習結合在一起,并研究由批處理和實例歸一化層造成的挑戰性情況。此外,我們通過元訓練損失以及循環內更新的方式來使虛擬仿真多樣化,以提高泛化能力。畢竟,MetaBIN框架可防止我們的模型過度適合給定的源樣式,并提高了對看不見域的泛化能力,而無需額外的數據擴充或復雜的網絡設計。大量的實驗結果表明,我們的模型在大規模域泛化Re-ID基準測試和跨域Re-ID問題上的性能優于最新方法。
代碼:
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021視頻理解(Video Understanding)相關論文,讓大家先睹為快——長視頻學習、指稱表達、VideoMoCo、視頻預測、自監督視頻表示學習
CVPR2021OD、CVPR2021AR
1. PGT: A Progressive Method for Training Models on Long Videos
作者:Bo Pang, Gao Peng, Yizhuo Li, Cewu Lu
摘要:卷積視頻模型的計算復雜度比其對應的圖像級模型大一個數量級。受計算資源的約束,沒有模型或訓練方法可以端到端訓練長視頻序列。目前,主流方法是將原始視頻分割成片段,導致片段時間信息流不完整,受自然語言處理長句的啟發,我們建議將視頻視為滿足馬爾可夫性質的連續片段,并將其訓練為通過逐步擴展信息在時間維度上的整體傳播。這種漸進式訓練(PGT)方法能夠以有限的資源端對端地訓練長視頻,并確保信息的有效傳輸。作為一種通用且強大的訓練方法,我們通過經驗證明了該方法在不同模型和數據集上均具有顯著的性能改進。作為說明性示例,我們提出的方法將Chalow上的SlowOnly網絡提高了3.7 mAP,在Kinetics 方面提高了1.9 top-1的精度,而參數和計算開銷卻可以忽略不計。
代碼:
網址:
2. Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos
作者:Sijie Song, Xudong Lin, Jiaying Liu, Zongming Guo, Shih-Fu Chang
摘要:在本文中,我們解決了在視頻中引用了指稱表達(Referring Expression)的問題,這個任務由于復雜的表達和場景動態而具有挑戰性。與以前的解決方案可以在多個階段(即跟蹤,基于proposal的匹配)解決問題的方法不同,我們從新穎的角度出發使用單階段框架—co-grounding。我們通過語義注意力學習來提高單幀 grounding 的準確性,并通過聯合co-grounding特征學習來提高跨幀 grounding的一致性。語義注意力學習顯式地解析具有不同屬性的線索,以減少復雜表達中的歧義。co-groundin特征學習通過集成時間相關性來減少由場景動態引起的模糊性,從而增強了視覺特征表示。實驗結果證明了我們的框架在video grounding數據集VID和LiOTB上的優越性,可以跨幀生成準確而穩定的結果。我們的模型還適用于引用圖像中的指稱表達(Referring Expression),這可以通過RefCOCO數據集上的改進性能來說明。
代碼:
網址:
3. VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples
作者:Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, Wei Liu
摘要:MOCO對于無監督的圖像表示學習是有效的。在本文中,我們針對無監督視頻表示學習提出VideomoCo。給出視頻序列作為輸入樣本,我們從兩個視角改善MoCo的時間特征表示。首先,我們介紹一個生成器,以便在時間上刪除幾個幀。然后學習鑒別器以編碼類似的特征表示,無論幀移除如何。通過在訓練攻擊期間自適應地丟棄不同的幀,我們將該輸入樣本增強以訓練一個時間魯棒的編碼器。其次,在計算對比損耗時,我們使用時間衰減來模擬內存隊列中的鍵(key)衰減。動量編碼器在鍵進入后進行更新,當我們使用當前輸入樣本進行對比學習時,這些鍵的表示能力會下降。這種下降通過時間衰減反映出來,以使輸入樣本進入隊列中的最近鍵。結果,我們使MoCo能夠學習視頻表示,而無需憑經驗設計pretext任務。通過增強編碼器的時間魯棒性并為鍵的時間衰減建模,我們的VideoMoCo基于對比學習在時間上提高了MoCo。在包括UCF101和HMDB51在內的基準數據集上進行的實驗表明,VideoMoCo是最先進的視頻表示學習方法。
代碼:
網址:
4. Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction
作者:Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn
摘要:拓展到不同場景的視頻預測模型將使智能體(agent)能夠通過使用模型規劃來執行多種任務。然而,雖然現有的視頻預測模型在小型數據集上產生了有希望的結果,但在大型和多樣化的數據集上訓練時,它們會遭受嚴重的欠擬合(underfitting)。為了解決這種欠擬合挑戰,我們首先觀察到訓練更大的視頻預測模型的能力通常是通過GPU或TPU的內存限制的。同時,深層次的潛在變量模型可以通過捕獲未來觀測值的多級隨機性來產生更高質量的預測,但是這種模型的端到端優化特別困難。我們的主要想法在于,通過對分層自編碼器的貪婪和模塊化優化可以同時解決內存限制和大規模視頻預測的優化挑戰。我們介紹貪婪的分層變分自編碼器(GHVAES),這是一種通過貪婪訓練分層自編碼器的每個級別來學習Highfivelity視頻預測的方法。GHVAE在四個視頻數據集上的預測性能提高了17-55%,在實際機器人任務上的成功率提高了35-40%,并且可以通過簡單地添加更多內容來提高性能模塊。
代碼:
網址:
5. Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning
作者:Jinpeng Wang, Yuting Gao, Ke Li, Yiqi Lin, Andy J. Ma, Hao Cheng, Pai Peng, Rongrong Ji, Xing Sun
摘要:通過從數據本身監督,自監督學習表現出了提高深神經網絡的視頻表示能力的巨大潛力。然而,一些當前的方法傾向于從背景中欺騙,即,預測高度依賴于視頻背景而不是運動,使得模型容易受到背景的變化。為了減輕模型依賴背景,我們建議通過添加背景來消除背景影響。也就是說,給定視頻,我們隨機選擇靜態幀并將其添加到每個其他幀以構建分散注意力的視頻樣本。然后我們強制模型拉動分散的視頻的特征和原始視頻的特征,以便明確地限制模型以抵抗背景影響,更多地關注運動變化。我們將我們的方法命名為Background Erasing (BE)。值得注意的是,我們的方法的實現非常簡單,可以很輕松地添加到大多數SOTA方法中。具體而言,在嚴重bias的數據集UCF101和HMDB51上具有16.4%和19.1%的改善,對較少bias的數據集Diving48改進了14.5%。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021行為識別(Action Recognition)相關論文,讓大家先睹為快——Action-Net、黑盒對抗攻擊、Coarse-Fine 網絡、時序差分網絡、對抗攻擊
CVPR2021OD
1. ACTION-Net: Multipath Excitation for Action Recognition
作者:Zhengwei Wang, Qi She, Aljosa Smolic
摘要:時空,channel-wise和運動模式是視頻動作識別的三種互補且至關重要的信息類型。傳統的2D CNN在計算上簡單,但無法捕捉時間關系。3D CNN可以實現良好的性能,但計算量很大。在這項工作中,我們通過設計可以嵌入到2D CNN中的通用有效模塊來解決這一難題。為此,我們提出了一個時空,通道和運動激發(ACTION)模塊,該模塊由三個路徑組成:時空激發(STE)路徑,通道激發(CE)路徑和運動激發(ME)路徑。STE路徑采用一個通道3D卷積來表征時空表示。CE路徑通過在時間方面明確地建模通道之間的相互依賴性,來自適應地重新校準通道方式的特征響應。ME路徑計算特征級別的時間差異,然后將其用于激發運動敏感通道。我們為2D CNN集成了ACTION模塊,以形成一個簡單而有效的ACTION-Net,這樣可以減少額外的計算成本。通過使用三個數據集(即Something-Something V2,Jester和EgoGesture)在三個主干網(即ResNet-50,MobileNet V2和BNInception)上始終優于2D CNN,證明了ACTION-Net的有效性。
代碼:
//github.com/V-Sense/ACTION-Net
網址:
2. BASAR:Black-box Attack on Skeletal Action Recognition
作者:Yunfeng Diao, Tianjia Shao, Yong-Liang Yang, Kun Zhou, He Wang
摘要:骨骼運動作為獨立的數據源或補充,在人類動作識別中起著至關重要的作用。最近,基于骨骼的動作識別器的魯棒性受到了質疑,當攻擊者可以全面了解識別器時,它們很容易受到對抗性攻擊。但是,在大多數情況下,此白盒要求過于嚴格,并且攻擊并未真正造成威脅。在本文中,我們證明了這種威脅在黑盒設置下也確實存在。為此,我們提出了第一種黑盒對抗攻擊方法BASAR。通過BASAR,我們證明對抗攻擊不僅是真正的威脅,而且可能是極具欺騙性的,因為流形上的對抗性樣本在骨骼運動中相當普遍,這與通常認為對抗性樣本僅在流形之外存在形成了鮮明的對比。通過詳盡的評估和比較,表明BASAR可以成功跨越模型,數據和攻擊模式進行攻擊。通過嚴格的感知研究,我們表明它可以實現有效而又不易察覺的攻擊。通過分析對不同動作識別器的攻擊,BASAR可以幫助確定其脆弱性的潛在原因,并提供有關哪些分類器可能更強大地抵抗攻擊的見解。
網址:
3. Coarse-Fine Networks for Temporal Activity Detection in Videos
作者:Kumara Kahatapitiya, Michael S. Ryoo
摘要:在本文中,我們介紹了Coarse-Fine網絡,這是一種雙流架構,該架構利用不同時間分辨率,來學習更好的長期運動視頻表示。傳統的視頻模型以一種(或幾種)固定的時間分辨率處理輸入,而沒有考慮任何動態幀選擇。但是,我們認為,處理輸入的多個時間分辨率并通過學習估計每個幀的重要性來動態地執行此操作可以極大地改善視頻表示,特別是在時序動作定位領域。為此,我們提出(1)“Grid Pool”,一個時間下采樣層,用于提取粗略特征;以及,(2)“多階段融合”,一種時空注意力機制,用于融合細粒度的上下文與粗略的特征。我們證明了本文的方法可以在包括Charades在內的公共數據集中勝過最新的動作檢測,并且顯著減少了計算和內存占用。
網址:
4. TDN: Temporal Difference Networks for Efficient Action Recognition
作者:Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu
摘要:對于視頻中的行動識別仍然具有挑戰性。為緩解此問題,本文提出了一種新的視頻架構,稱為時間差分網絡(Temporal Difference Network, TDN),重點是捕獲多尺度時間信息以進行高效動作識別。我們TDN的核心是通過明確地利用時間差分操作設計有效的時間模塊(TDM),并系統地評估其對短期和長期運動建模的影響。為了在整個視頻中完全捕獲時間信息,我們的TDN是采用兩級差分建模范例建立的。具體而言,對于局部運動建模,連續幀上的時間差異用于為2D CNN提供更精細的運動模式,而對于全局運動建模,跨段的時間差異被并入以捕獲用于運動特征激勵的遠程結構。TDN提供了簡單而有原則的時間建模框架,可以用現有的CNN實例化,而所需的額外計算成本很小。我們的TDN在Something-Something V1和V2數據集上展示了最新的技術水平,可以與Kinetics-400數據集上的最佳性能相提并論。此外,我們進行了深入的消融研究并繪制了TDN的可視化結果,希望能對時差操作提供深入的分析。
代碼:
網址:
5. Understanding the Robustness of Skeleton-based Action Recognition under Adversarial Attack
作者:He Wang, Feixiang He, Zhexi Peng, Yong-Liang Yang, Tianjia Shao, Kun Zhou, David Hogg
摘要:動作識別已在許多應用中被大量采用,例如自動駕駛,監控等,其中,魯棒性是首要考慮的問題。在本文中,我們研究了最前沿的動作識別器對付對抗攻擊的魯棒性,到目前為止,這種魯棒性很少被研究。為此,我們提出了一種新的攻擊依賴3D骨骼運動的動作識別器的方法。我們的方法涉及創新的感知損失,可確保攻擊的感知力。實證研究表明,我們的方法在白盒和黑盒方案中均有效。在各種動作識別器和數據集上都證明了其通用性。它的多功能性在不同的攻擊策略中得到了體現。其欺騙性在廣泛的感知研究中得到了證明。我們的方法表明,對3D骨骼運動(一種時間序列數據)的對抗攻擊與傳統的對抗攻擊問題顯著不同。它的成功引起了對動作識別器魯棒性的嚴重關注,并為潛在的改進提供了見解。
網址:
【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。NeurIPS 2020正在開會,小編發現視頻表示學習(Video Representation Learning)相關的接受paper不少,視頻理解在NeurIPS上越來越多,也顯示出視頻理解這個任務的火熱程度。
為此,這期小編為大家奉上NeurIPS 2020必讀的六篇視頻表示學習(Video Representation Learning)相關論文——上下文目標嵌入、自監督視頻表示學習、多模態自監督、解糾纏視頻表示、自監督協同訓練、跨模態音視頻聚類
NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020
NIPS2020DA、NIPS2020CI、ICLR2020CI、ICML2020CI
1. COBE: Contextualized Object Embeddings from Narrated Instructional Video
作者:Gedas Bertasius, Lorenzo Torresani
摘要:現實世界中的許多目標的視覺外觀都會發生巨大變化。例如,番茄可以是紅色或綠色,切成薄片或切碎的,新鮮或油炸的,液體或固體的。訓練單個檢測器以準確識別所有這些不同狀態的西紅柿是一項挑戰。另一方面,上下文提示(例如,刀,切菜板,濾網或平底鍋的存在)通常強烈指示目標在場景中的出現方式。識別此類上下文線索不僅有助于提高目標檢測的準確性或確定目標的狀態,而且有助于理解其功能特性并推斷正在進行或即將發生的人與目標之間的交互。然而,在現實世界中,有監督的識別目標狀態及其上下文的方法受到數據的長尾(long-tailed),開放式分布的影響,這將需要大量標注來捕獲所有目標的不同形式的表觀。我們提出了一個新的框架,用于從自動轉錄的教學視頻中學習上下文的目標嵌入(COBE),而不是依賴此任務的手動標記數據。我們通過訓練視覺檢測器來預測目標的上下文詞嵌入及其關聯的敘述,從而利用語言的語義和組成結構。這使得能夠學習根據語義語言度量與概念相關的目標表示。我們的實驗表明,我們的檢測器學會了預測各種各樣的上下文目標信息,并且在少樣本和零樣本學習的設置中非常有效。
網址:
2. Cycle-Contrast for Self-Supervised Video Representation Learning
作者:Quan Kong, Wenpeng Wei, Ziwei Deng, Tomoaki Yoshinaga, Tomokazu Murakami
摘要:我們提出了循環對比學習(Cycle-Contrastive Learning,CCL),這是一種用于學習視頻表示的新穎的自監督方法。遵循視頻及其幀之間存在和包含關系的性質,CCL設計為分別考慮幀和視頻在各自域中的對比表示來查找幀和視頻之間的對應關系。它與最近的方法不同,后者僅學習跨幀的對應關系。在我們的方法中,幀和視頻表示是從基于R3D架構的單個網絡中學習的,具有共享的非線性變換,可以在幀丟失之前嵌入幀和視頻特征。我們證明了CCL學習的視頻表示可以很好地轉移到視頻理解的下游任務,在UCF101,HMDB51和MMAct上最近鄰檢索和動作識別任務中取得了很好的效果。
網址:
3. Labelling unlabelled videos from scratch with multi-modal self-supervision
作者:Yuki Asano, Mandela Patrick, Christian Rupprecht, Andrea Vedaldi
摘要:深度學習當前成功很大一部分在于數據的有效性--更確切地說,是標記數據。然而,使用人工注釋標記數據集的成本仍然很高,尤其是對于視頻而言。雖然在圖像領域中,最近的方法已允許在無監督的情況下為未標記的數據集生成有意義的(偽)標簽,但視頻領域缺少這種發展,因為學習特征表示是當前關注的領域。在這項工作中,我們(a)展示了視頻數據集的無監督標記并非來自免費的特征編碼器,并且(b)提出了一種新穎的聚類方法,該方法可以利用音頻和視覺模態之間的自然對應關系,對視頻數據集進行偽標記而無需任何人工注釋。廣泛的分析表明,生成的聚類與真實的人類標簽具有高度的語義重疊。我們還將展示有關普通視頻數據集動力學,動力學聲音,VGG聲音和AVE2的無監督標記的第一個基準測試結果。
代碼:
網址:
4. Learning Disentangled Representations of Video with Missing Data
作者:Armand Comas, Chi Zhang, Zlatan Feric, Octavia Camps, Rose Yu
摘要:在學習視頻序列表示時,數據丟失問題是一個嚴峻的挑戰。我們提出了一個解糾纏估算視頻自編碼器(Disentangled Imputed Video autoEncoder,DIVE),這是一種深度生成模型,可以在缺少數據的情況下估算和預測未來的視頻幀。具體來說,DIVE引入了缺失潛在變量,將隱藏的視頻表示分解為每個目標的靜態和動態外觀,姿勢和缺失因子。DIVE會估算缺少數據的每個目標的軌跡。在具有各種缺失場景的移動MNIST數據集上,DIVE的性能大大優于現有基準水平。我們還對現實世界中的MOTSChallenge行人數據集進行了比較,證明了我們的方法在更現實的環境中的實用價值。
代碼:
網址:
5. Self-supervised Co-training for Video Representation Learning
作者:Tengda Han, Weidi Xie, Andrew Zisserman
摘要:本文的目標是視覺自監督視頻表示學習。我們做出了以下貢獻:(i)我們研究了在基于實例的信息噪聲對比估計(InfoNCE)訓練中添加語義類肯定句的好處,表明這種形式的監督式對比學習可以明顯改善性能;(ii)我們提出了一種新穎的自監督協同訓練方案,以通過使用一個視圖獲取同一數據源的正視圖樣本,以此來利用同一數據源的不同視圖,RGB流和光流的互補信息來改善流行的infoNCE損失;(iii)我們在兩個不同的下游任務(動作識別和視頻檢索)上全面評估所學表示的質量。在這兩種情況下,所提出的方法都展示了最新的技術或與其他自監督方法相當的性能,同時訓練的效率明顯更高,即需要更少的訓練數據即可達到類似的性能。
網址:
6. Self-Supervised Learning by Cross-Modal Audio-Video Clustering
作者:Humam Alwassel, Dhruv Mahajan, Bruno Korbar, Lorenzo Torresani, Bernard Ghanem, Du Tran
摘要:視覺和音頻模態高度相關,但是它們包含不同的信息。它們之間的強相關性使得可以高精度地預測彼此的語義。與在模態內學習相比,它們的固有差異使跨模態預測成為視頻和音頻表示形式的自監督學習的潛在更有意義的任務。基于這種直覺,我們提出了跨模態深度聚類(Cross-Modal Deep Clustering,XDC),這是一種新穎的自監督方法,它利用一種模態(例如音頻)中的無監督聚類作為另一種模態(例如視頻)的監督信號。這種跨模態監督有助于XDC利用語義相關性和兩種模態之間的差異。我們的實驗表明,XDC優于單模態聚類和其他多模態變體。XDC在多種視頻和音頻基準測試的自監督方法中實現了最先進的準確性。最重要的是,我們針對大規模無標簽數據進行預訓練的視頻模型明顯優于針對ImageNet和Kinetics在HMDB51和UCF101上進行動作識別的預訓練的相同模型。據我們所知,XDC是第一個自監督學習方法,其性能優于大規模有監督的針對相同體系結構上的動作識別的預訓練模型。
網址:
【導讀】一年一度的全球學術大會EMNLP是計算機語言學和自然語言處理領域最受關注的國際學術會議之一,由國際語言學會(ACL)旗下SIGDAT組織。據悉,EMNLP 2020共收到有效投稿3114篇,錄用602篇長文和150篇短文。近期,所有Paper list 放出,也包括(Findings of EMNLP),知識圖譜表示及其應用相關的接受paper很多,在其他領域比如CV、數據挖掘、推薦等也廣受關注。
為此,這期小編為大家奉上EMNLP 2020必讀的六篇知識圖譜(Knowledge Graph)相關論文——知識圖譜表示、常識、任務型對話、多語種知識庫補全、開放式KG表示、社會常識推理
EMNLP 2020 Accepted Papers : //2020.emnlp.org/papers/main
ICLR2020CI、ICML2020CI
1. AutoETER: Automated Entity Type Representation for Knowledge Graph Embedding
作者:Guanglin Niu, Bo Li, Yongfei Zhang, Shiliang Pu, Jingyang Li
摘要:知識圖譜嵌入(KGE)可以表示連續向量空間中的實體和關系。一些利用附加類型信息的傳統KGE模型可以改善實體的表示,但這些模型完全依賴于顯式類型(explicit types),或者忽略了特定于各種關系的不同類型表示。此外,現有的方法中沒有一種方法能夠同時推斷對稱、反轉、合成的所有關系模式以及1-N、N-1和n-N關系的復雜屬性。為了探索任何KG的類型信息,我們提出了一種新的KGE框架自動實體類型表示(AutoETER),通過將每個關系看作是兩個實體類型之間的轉換(translation)操作來學習每個實體的潛在類型嵌入,并利用關系感知映射機制來學習每個實體的潛在類型嵌入。特別是,我們設計的自動類型表示學習機制是一個可插拔的模塊,可以很容易地與任何KGE模型集成。此外,我們的方法可以對所有的關系模式和復雜關系進行建模和推理。在四個數據集上的實驗表明,該模型在鏈接預測任務上的性能優于最新的基線,類型聚類的可視化清楚地解釋了類型嵌入的原因,驗證了該模型的有效性。
網址:
2. COSMIC: COmmonSense knowledge for eMotion Identification in Conversations
作者:Deepanway Ghosal, Navonil Majumder,
Alexander Gelbukh, Rada Mihalcea, Soujanya Poria
摘要:在本文中,我們利用常識知識解決了會話中語言級別的情感識別問題。我們提出了COSMIC,這是一個新的框架,它融合了不同的常識元素,如心理狀態、事件和因果關系,并在它們的基礎上學習參與對話的對話者之間的互動。目前最先進的方法在上下文傳播、情感轉移檢測和區分相關情感類別方面經常遇到困難。通過學習不同的常識表示,COSMIC解決了這些挑戰,并在四個不同的基準對話數據集上取得了新的情感識別最先進的結果。
代碼: .
網址:
3. Learning Knowledge Bases with Parameters for Task-Oriented Dialogue Systems
作者:Andrea Madotto, Samuel Cahyawijaya,
Genta Indra Winata, Yan Xu, Zihan Liu, Zhaojiang Lin, Pascale Fung
摘要:面向任務的對話系統要么通過單獨的對話狀態跟蹤(DST)和管理步驟實現模塊化,要么是端到端可訓練。在這兩種情況下,知識庫(KB)在滿足用戶請求方面起著至關重要的作用。模塊化系統依賴DST與知識庫交互,這在注釋和推理時間方面是昂貴的。端到端系統直接使用知識庫作為輸入,但當知識庫大于幾百個條目時,它們無法進行擴展。在本文中,我們提出了一種將任意大小的知識庫直接嵌入到模型參數中的方法。所得到的模型不需要任何DST或模板響應,也不需要知識庫作為輸入,并且它可以通過微調來動態更新其知識庫。我們在五個小、中、大的KB的面向任務的對話數據集中對我們的解決方案進行了評估。我們的實驗表明,端到端模型可以有效地將知識庫嵌入到它們的參數中,并在所有被評估的數據集上獲得具有競爭力的性能。
代碼:
網址:
4. Multilingual Knowledge Graph Completion via Ensemble Knowledge Transfer
作者:Xuelu Chen, Muhao Chen, Changjun Fan, Ankith Uppunda, Yizhou Sun, Carlo Zaniolo
摘要:預測知識圖(KG)中的缺失事實是知識庫構建和推理中的一項重要任務,也是近年來利用知識圖嵌入(KG embeddings)進行研究的一個重要課題。雖然現有的KG嵌入方法主要是在單個KG中學習和預測事實,但考慮到不同KG在數據質量和覆蓋范圍方面有各自的優勢和局限性,一個更合理的解決方案是從多個特定語言KG中的知識去嘗試融合。但這是相當具有挑戰性的,因為多個獨立維護的KG之間的知識遷移經常受到比對信息不足和描述事實不一致的障礙。在本文中,我們提出了一種新的框架KENS,用于嵌入學習和跨多個特定語言的KG進行集成知識遷移。KENS將所有KG嵌入到一個共享的嵌入空間中,在那里基于自學習捕獲實體之間的關聯。然后,KENS進行集成推理,合并來自多個特定語言KG嵌入的預測結果,并為此研究了多個集成技術。在五個實際語言特定的KG上的實驗表明,KENS通過有效地識別和利用互補知識,不斷改進KG補全的最新方法。
網址:
5. Out-of-Sample Representation Learning for Knowledge Graphs
作者:Marjan Albooyeh, Rishab Goel, Seyed Mehran Kazemi
摘要:許多重要問題都可以表示為知識圖中的推理。表示學習已經被證明對直推式推理(transductive reasoning)非常有效,在transductive 推理中,一個人需要對已經觀察到的實體做出新的預測,屬性圖(其中每個實體都有初始特征向量)和非屬性圖(其中唯一的初始信息來自與其他實體的已知關系)都是如此。對于樣本外推理( out-of-sample reasoning),人們需要對訓練時看不到的實體進行預測,許多以前的工作都考慮屬性圖。然而,對于非屬性圖的樣本外推理,并沒有得到充分的研究。在本文中,我們研究了非屬性知識圖的樣本外表示學習問題,為這一任務創建了基準數據集,開發了幾個模型和基線,并對所提出的模型和基線進行了實證分析和比較。
網址:
6. Social Commonsense Reasoning with Multi-Head Knowledge Attention
作者:Debjit Paul, Anette Frank
摘要:社會常識推理需要對文本的理解,對社會事件及其實際含義的了解以及常識推理能力。在這項工作中,我們提出了一種新的多頭知識注意模型,該模型對半結構化常識推理規則進行編碼,并學習將其合并到基于transformer的推理單元中。我們評估了該模型在兩個需要不同推理技能的任務上的性能:作為一項新任務的歸納自然語言推理(Abductive Natural Language Inference)和反事實不變性預測(Counterfactual Invariance Prediction)。我們表明,我們提出的模型在兩個推理任務上都比最先進模型(即Roberta)提高了性能。值得注意的是,據我們所知,我們是第一個證明學習執行反事實推理的模型有助于在溯因推理任務中預測最佳解釋的人。通過對知識的擾動,我們驗證了模型推理能力的健壯性,并對模型的知識融合能力進行了定性分析。
網址:
【導讀】作為CCF推薦的A類國際學術會議,International ACM SIGIR Conference on Research and Development in Information Retrieval(國際計算機學會信息檢索大會,簡稱 SIGIR)在信息檢索領域享有很高的學術聲譽,每年都會吸引全球眾多專業人士參與。今年的 SIGIR 2020計劃將于 2020年7月25日~30日在中國西安舉行。本次大會共有555篇長文投稿,僅有147篇長文被錄用,錄用率約26%。專知小編提前為大家整理了六篇SIGIR 2020 基于圖神經網絡的推薦(GNN+RS)相關論文,這六篇論文分別出自中科大何向南老師和和昆士蘭大學陰紅志老師團隊,供大家參考——捆綁推薦、Disentangled GCF、服裝推薦、多行為推薦、全局屬性GNN
CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN
1. Bundle Recommendation with Graph Convolutional Networks
作者:Jianxin Chang, Chen Gao, Xiangnan He, Yong Li, Depeng Jin
摘要:捆綁推薦(Bundle recommendation )旨在推薦一組商品供用戶整體消費。現有的解決方案通過共享模型參數或多任務學習的方式將用戶項目交互建模集成到捆綁推薦中,然而,這些方法不能顯式建模項目與捆綁包(bundles)之間的隸屬關系,不能探索用戶選擇捆綁包時的決策。在這項工作中,我們提出了一個用于捆綁推薦的圖神經網絡模型BGCN(Bundle Graph Convolutional Network)。BGCN將用戶-項目交互、用戶-捆綁包交互和捆綁包-項目從屬關系統一到一個異構圖中。以項目節點為橋梁,在用戶節點和捆綁包節點之間進行圖卷積傳播,使學習到的表示能夠捕捉到項目級的語義。通過基于hard-negative采樣器的訓練,可以進一步區分用戶對相似捆綁包的細粒度偏好。在兩個真實數據集上的實驗結果表明,BGCN的性能有很高的提升,其性能比最新的基線高出10.77%到23.18%。
網址: //arxiv.org/abs/2005.03475
2. Disentangled Graph Collaborative Filtering
作者:Xiang Wang, Hongye Jin, An Zhang, Xiangnan He, Tong Xu, Tat-Seng Chua
摘要:從交互數據中學習用戶和項目的信息表示對于協同過濾(CF)至關重要。當前的嵌入函數利用用戶-項目關系來豐富表示,從單個用戶-項目實例演變為整體交互圖。然而,這些方法在很大程度上以統一的方式對關系進行建模,而忽略了用戶采用這些項目的意圖的多樣性,這可能是為了打發時間,為了興趣,或者為其他人(如家庭)購物。這種統一的對用戶興趣建模的方法很容易導致次優表示,不能對不同的關系建模并在表示中分清用戶意圖。在這項工作中,我們特別關注用戶意圖細粒度上的用戶-項目關系。因此,我們設計了一種新的模型- Disentangled圖協同過濾(Disentangled Graph Collaborative Filtering ,DGCF),來理清這些因素并產生disentangled的表示。具體地說,通過在每個用戶-項目交互意圖上的分布建模,我們迭代地細化意圖感知的交互圖和表示。同時,我們鼓勵不同的意圖獨立。這將生成disentangled的表示,有效地提取與每個意圖相關的信息。我們在三個基準數據集上進行了廣泛的實驗,DGCF與NGCF、DisenGCN和MacridV AE這幾個最先進的模型相比取得了顯著的改進。進一步的分析揭示了DGCF在分解用戶意圖和表示的可解釋性方面的優勢。
網址:
代碼鏈接:
.
3. GCN-Based User Representation Learning for Unifying Robust Recommendation and Fraudster Detection
作者:Shijie Zhang, Hongzhi Yin, Tong Chen, Quoc Viet Nguyen Hung, Zi Huang, Lizhen Cui
摘要:近年來,推薦系統已經成為所有電子商務平臺中不可缺少的功能。推薦系統的審查評級數據通常來自開放平臺,這可能會吸引一群惡意用戶故意插入虛假反饋,試圖使推薦系統偏向于他們。此類攻擊的存在可能會違反高質量數據始終可用的建模假設,而這些數據確實會影響用戶的興趣和偏好。因此,構建一個即使在攻擊下也能產生穩定推薦的健壯推薦系統具有重要的現實意義。本文提出了一種基于GCN的用戶表示學習框架GraphRf,該框架能夠統一地進行穩健的推薦和欺詐者檢測。在其端到端學習過程中,用戶在欺詐者檢測模塊中被識別為欺詐者的概率自動確定該用戶的評級數據在推薦模塊中的貢獻;而在推薦模塊中輸出的預測誤差作為欺詐者檢測模塊中的重要特征。因此,這兩個組成部分可以相互促進。經過大量的實驗,實驗結果表明我們的GraphRf在魯棒評級預測和欺詐者檢測這兩個任務中具有優勢。此外,所提出的GraphRf被驗證為對現有推薦系統上的各種攻擊具有更強的魯棒性。
網址:
4. Hierarchical Fashion Graph Network for Personalized Outfit Recommendation
作者:Xingchen Li, Xiang Wang, Xiangnan He, Long Chen, Jun Xiao, Tat-Seng Chua
摘要:服裝推薦越來越受到網購服務商和時尚界的關注。與向用戶推薦單個單品(例如,朋友或圖片)的其他場景(例如,社交網絡或內容共享)不同,服裝推薦預測用戶對一組匹配良好的時尚單品的偏好。因此,進行高質量的個性化服裝推薦應滿足兩個要求:1)時尚單品的良好兼容性;2)與用戶偏好的一致性。然而,目前的研究主要集中在其中一個需求上,只考慮了用戶-全套服裝(outfit)或全套服裝-項目的關系,從而容易導致次優表示,限制了性能。在這項工作中,我們統一了兩個任務,服裝兼容性建模和個性化服裝推薦。為此,我們開發了一個新的框架,層次時尚圖網絡(HFGN),用于同時建模用戶、商品和成套服裝之間的關系。特別地,我們構建了一個基于用戶-全套服裝交互和全套服裝-項目映射的層次結構。然后,我們從最近的圖神經網絡中得到啟發,在這種層次圖上使用嵌入傳播,從而將項目信息聚合到一個服裝表示中,然后通過他/她的歷史服裝來提煉用戶的表示。此外,我們還對這兩個任務進行了聯合訓練,以優化這些表示。為了證明HFGN的有效性,我們在一個基準數據集上進行了廣泛的實驗,HFGN在NGNN和FHN等最先進的兼容性匹配模型基礎上取得了顯著的改進。
網址:
代碼鏈接:
5. Multi-behavior Recommendation with Graph Convolutional Networks
作者:Bowen Jin, Chen Gao, Xiangnan He, Depeng Jin, Yong Li
摘要:傳統的推薦模型通常只使用一種類型的用戶-項目交互,面臨著嚴重的數據稀疏或冷啟動問題。利用多種類型的用戶-項目交互(例如:點擊和收藏)的多行為推薦可以作為一種有效的解決方案。早期的多行為推薦研究未能捕捉到行為對目標行為的不同程度的影響。它們也忽略了多行為數據中隱含的行為語義。這兩個限制都使得數據不能被充分利用來提高對目標行為的推薦性能。在這項工作中,我們創新性地構造了一個統一的圖來表示多行為數據,并提出了一種新的模型--多行為圖卷積網絡(Multi-Behavior Graph Convolutional Network,MBGCN)。MBGCN通過用戶-項目傳播層學習行為強度,通過項目-項目傳播層捕獲行為語義,較好地解決了現有工作的局限性。在兩個真實數據集上的實驗結果驗證了該模型在挖掘多行為數據方面的有效性。我們的模型在兩個數據集上的性能分別比最優基線高25.02%和6.51%。對冷啟動用戶的進一步研究證實了該模型的實用性。
網址:
6. GAG: Global Atributed Graph Neural Network for Streaming Session-based Recommendation
作者:Ruihong Qiu, Hongzhi Yin, Zi Huang, Tong Chen
摘要:基于流會話的推薦(Streaming session-based recommendation,SSR)是一項具有挑戰性的任務,它要求推薦器系統在流媒體場景(streaming scenario)中進行基于會話的推薦(SR)。在電子商務和社交媒體的現實應用中,在一定時間內產生的一系列用戶-項目交互被分組為一個會話,這些會話以流的形式連續到達。最近的SR研究大多集中在靜態集合上,即首先獲取訓練數據,然后使用該集合來訓練基于會話的推薦器模型。他們需要對整個數據集進行幾個epoch的訓練,這在流式設置下是不可行的。此外,由于對用戶信息的忽視或簡單使用,它們很難很好地捕捉到用戶的長期興趣。雖然最近已經提出了一些流推薦策略,但它們是針對個人交互流而不是會話流而設計的。本文提出了一種求解SSR問題的帶有Wasserstein 庫的全局屬性圖(GAG)神經網絡模型。一方面,當新的會話到達時,基于當前會話及其關聯用戶構造具有全局屬性的會話圖。因此,GAG可以同時考慮全局屬性和當前會話,以了解會話和用戶的更全面的表示,從而在推薦中產生更好的性能。另一方面,為了適應流會話場景,提出了Wasserstein庫來幫助保存歷史數據的代表性草圖。在兩個真實數據集上進行了擴展實驗,驗證了GAG模型與最新方法相比的優越性。
網址:
【導讀】國際萬維網大會(The Web Conference,簡稱WWW會議)是由國際萬維網會議委員會發起主辦的國際頂級學術會議,創辦于1994年,每年舉辦一屆,是CCF-A類會議。WWW 2020將于2020年4月20日至4月24日在中國臺灣臺北舉行。本屆會議共收到了1129篇長文投稿,錄用217篇長文,錄用率為19.2%。近期,推薦相關也比較熱門,專知小編提前整理了WWW 2020 推薦系統比較有意思的的論文,供參考——序列推薦、可解釋Serendipity 推薦、推薦效率、 bandit推薦、Off-policy學習。 WWW2020RS_Part1
作者:Jibang Wu, Renqin Cai, Hongning Wang
摘要:根據用戶的歷史連續行為預測用戶的偏好對于現代推薦系統來說是具有挑戰性的,也是至關重要的。現有的序列推薦算法在建模歷史事件對當前預測的影響時,大多側重于序列行為之間的過渡結構,而很大程度上忽略了時間和上下文信息。在這篇文章中,我們認為過去的事件對用戶當前行為的影響應該隨著時間的推移和不同的背景而變化。因此,我們提出了一種情境時間注意力機制(Contextualized Temporal Attention),該機制可以學習權衡歷史行為在行為以及行為發生的時間和方式上的影響。更具體地說,為了動態地校準來自自注意力機制的相對輸入的依賴關系,我們提出了多個參數化的核函數以學習各種時間動態,然后使用上下文信息來確定每個輸入要跟隨哪一個kernel( reweighing kernels )。在對兩個大型公開推薦數據集進行的實證評估中,我們的模型始終優于一系列最先進的序列推薦方法。
網址:
//arxiv.org/pdf/2002.00741.pdf
作者:Xueqi Li, Wenjun Jiang, Weiguang Chen, Jie Wu, Guojun Wang, Kenli Li
摘要:近幾年來,Serendipity推薦越來越受到人們的關注,它致力于提供既能迎合用戶需求,又能開闊他們眼界的建議。然而,現有的方法通常使用標量而不是向量來度量用戶與項目的相關性,忽略了用戶的偏好方向,這增加了不相關推薦的風險。此外,合理的解釋增加了用戶的信任度和接受度,但目前沒有為Serendipity推薦提供解釋的工作。為了解決這些局限性,我們提出了一種有向的、可解釋的Serendipity推薦方法,稱為DESR。具體而言,首先采用基于高斯混合模型(GMM)的無監督方法提取用戶的長期偏好,然后利用膠囊(capsule )網絡捕捉用戶的短期需求。然后,我們提出了將長期偏好與短期需求相結合的意外(serendipity)向量,并利用它生成有向的Serendipity推薦。最后,利用反向路徑選擇方案進行了解釋。在真實數據集上的大量實驗表明,與現有的基于意外(serendipity)發現的方法相比,DESR能夠有效地提高意外性和可解釋性,促進多樣性。
網址
作者:Defu Lian, Haoyu Wang, Zheng Liu, Jianxun Lian, Enhong Chen, Xing Xie
摘要:近年來,深度推薦系統已經取得了顯著的進步。盡管具有出色的排名精度,但實際上運行效率和內存消耗在現實中卻是嚴重的瓶頸。為了克服這兩個瓶頸,我們提出了LightRec,這是一個輕量級的推薦系統,具有快速的在線推斷功能和經濟的內存消耗。LightRec的主干是總共B個codebooks,每個codebook均由W個潛在向量組成,稱為codewords。在這種結構的頂部,LightRec將有一個商品表示為B codewords的加法組合,這些B codewords是從每個codebook中選擇的最佳的。為了有效地從數據中學習codebooks,我們設計了一個端到端的學習工作流程,其中所提出的技術克服了固有差異性和多樣性方面的挑戰。另外,為了進一步提高表示質量,采用了幾種distillation策略,可以更好地保留用戶-商品的相關性得分和相對排名順序。我們對LightRec在四個真實數據集上進行了廣泛評估,得出了兩個經驗發現:1)與最先進的輕量級baseline相比,LightRec在召回性能方面取得了超過11%的相對改進;2)與傳統推薦算法相比,在top-k推薦算法中,LightRec的精度下降幅度可以忽略不計,但速度提高了27倍以上。
網址:
作者:Mengyue Yang, Qingyang Li, Zhiwei Qin, Jieping Ye
摘要:上下文多臂 bandit(MAB)在各種問題上實現了優異性能。然而,當涉及到推薦系統和在線廣告等現實場景時,必須考慮探索的資源消耗。在實踐中,通常存在與在環境中執行建議(ARM)相關聯的非零成本,因此,應該在固定的探索成本約束下學習策略。由于直接學習全局最優策略是一個NP難題,并且極大地使bandit算法的探索和開發之間的權衡復雜化,因此直接學習全局最優策略是一個很大的挑戰。現有的方法著重于通過采用貪婪策略來解決問題,該策略估計預期的收益和成本,并基于每個臂的預期收益/成本比使用貪婪的選擇,利用歷史觀察直到勘探資源耗盡為止。然而,現有的方法當沒有更多的資源時,學習過程就會終止,因此很難擴展到無限的時間范圍。本文提出了一種分層自適應上下文bandit方法(HATCH)來進行有預算約束的上下文bandit的策略學習。HATCH采用一種自適應的方法,根據剩余資源/時間和對不同用戶上下文之間報酬分配的估計來分配勘探資源。此外,我們利用充分的上下文特征信息來找到最好的個性化推薦。最后,為了證明提出的理論,我們進行了regret bound分析,并證明HATCH的regret bound低至O(√T)。實驗結果證明了該方法在合成數據集和實際應用中的有效性和效率。
網址:
作者:Jiaqi Ma, Zhe Zhao, Xinyang Yi, Ji Yang, Minmin Chen, Jiaxi Tang, Lichan Hong, Ed H. Chi
摘要:許多現實世界中的推薦系統需要高度可伸縮性:將數百萬個項目與數十億用戶進行匹配,并只具有毫秒級的延遲。可伸縮性的要求導致了廣泛使用的兩階段推薦系統,由第一階段高效的候選生成模型和第二階段更強大的排序模型組成。通常使用記錄的用戶反饋(例如,用戶點擊或停留時間)來構建用于推薦系統的候選生成和排名模型。雖然很容易收集大量這樣的數據,但因為反饋只能在以前系統推薦的項目上觀察到,因此這些數據在本質上是有偏見的。近年來,推薦系統研究領域對此類偏差的off-policy 修正引起了越來越多的關注。然而,現有的大多數工作要么假設推薦系統是一個單階段系統,要么只研究如何將離策略校正應用于系統的候選生成階段,而沒有顯式地考慮這兩個階段之間的相互作用。在這項工作中,我們提出了一種兩階段離策略(two-stage off-policy)策略梯度方法,并證明了在兩階段推薦系統中忽略這兩個階段之間的交互會導致次優策略。該方法在訓練候選生成模型時明確考慮了排序模型,有助于提高整個系統的性能。我們在具有大項目空間的真實數據集上進行了實驗,驗證了所提方法的有效性。
網址: