【導讀】最近小編推出CVPR2019圖卷積網絡相關論文和CVPR2019生成對抗網絡相關視覺論文,反響熱烈。最近,模型的可解釋性是現在正火熱的科研和工程問題,也在各個頂級會議上都有相關文章發表,今天小編專門整理最新十篇可解釋性相關應用論文—推薦系統、知識圖譜、遷移學習以及視覺推理等。
1、Recurrent Knowledge Graph Embedding for Effective Recommendation(基于循環知識圖嵌入的推薦)
RecSys ’18
作者:Zhu Sun, Jie Yang, Jie Zhang, Alessandro Bozzon, Long-Kai Huang, Chi Xu
摘要:知識圖(KGs)已被證明是改進推薦的有效方法。現有的方法主要依賴于KG手工設計的特性(例如,元路徑meta paths),這需要領域知識(domain knowledge)。本文介紹了一種KG嵌入方法RKGE,它可以自動學習實體和實體之間的路徑的語義表示,從而描述用戶對商品的偏好。具體地說,RKGE采用了一種新的循環網絡架構,其中包含了一批循環網絡,用于對鏈接相同實體對的路徑進行語義建模,這些路徑無縫地融合到推薦中。它還使用pooling操作符來區分不同路徑在描述用戶對商品的偏好時的顯著性。對真實數據集的廣泛驗證顯示出RKGE相對于最先進方法的優越性。此外,我們證明了RKGE為推薦結果提供了有意義的解釋。
網址:
//yangjiera.github.io/works/recsys2018.pdf
2、Explainable Recommendation via Multi-Task Learning in Opinionated Text Data( 在觀點文本數據中基于多任務學習的可解釋性推薦)
SIGIR ’18
作者:Nan Wang, Hongning Wang, Yiling Jia, Yue Yin
摘要:通過解釋自動生成的推薦,可以讓用戶更明智、更準確地決定使用哪些結果,從而提高他們的滿意度。在這項工作中,我們開發了一個可解釋推薦的多任務學習解決方案。通過聯合張量因子分解,將推薦用戶偏好建模和解釋用戶意見內容建模這兩項學習任務結合起來。因此,該算法不僅預測了用戶對一組商品的偏好,即推薦,而且預測用戶如何在特征級別上喜歡某一特定商品,即觀點文本解釋。通過對Amazon和Yelp兩個大型評論數據集的大量實驗,與現有的幾種推薦算法相比,驗證了我們的解決方案在推薦和解釋任務方面的有效性。我們廣泛的實驗研究清楚地證明了我們的算法生成的可解釋建議有著不錯的實用價值。
網址:
代碼鏈接:
3、TEM:Tree-enhanced Embedding Model for Explainable Recommendation(基于Tree增強嵌入方法的可解釋性推薦)
WWW ’18
作者:Xiang Wang, Xiangnan He, Fuli Feng, Liqiang Nie, Tat-Seng Chua
摘要:雖然協同過濾是個性化推薦的主導技術,但它只對用戶-商品交互進行建模,不能為推薦提供具體的理由。與此同時,與用戶-商品交互相關的豐富的側面信息(例如,用戶統計數據和商品屬性)提供了有價值的證據,可以說明為什么該推薦適合于用戶,但在提供解釋方面還沒有得到充分的探索。在技術方面,基于嵌入的方法,如廣度&深度和神經因子分解機,提供了最先進的推薦性能。然而,它們的工作原理就像一個黑匣子,無法明確地呈現出預測背后的原因。另一方面,決策樹等基于樹的方法通過從數據中推斷決策規則來進行預測。雖然可以解釋,但它們不能推廣到不可見的特性交互,因此在協作過濾應用程序中會失敗。在這項工作中,我們提出了一種新的解決方案,稱為樹增強嵌入方法,它結合了基于嵌入和基于樹的模型的優點。我們首先使用一個基于樹的模型從豐富的側面信息來學習明確的決策規則(又稱交叉特征)。接下來,我們設計了一個嵌入模型,該模型可以包含顯式交叉特征,并推廣到用戶ID和商品ID上不可見的交叉特征。嵌入方法的核心是一個易于解釋的注意力網絡,使得推薦過程完全透明和可解釋。我們對旅游景點和餐廳推薦的兩個數據集進行了實驗,證明了我們的解決方案的優越性能和可解釋性。
網址:
代碼鏈接:
4、Explainable Reasoning over Knowledge Graphs for Recommendation(基于知識圖譜可解釋推理的推薦)
AAAI ’19
作者:Xiang Wang, Dingxian Wang, Canran Xu, Xiangnan He, Yixin Cao, Tat-Seng Chua
摘要:近年來,將知識圖譜與推薦系統相結合引起越來越多的關注。通過研究知識圖譜中的相互關系,可以發現用戶與商品之間的連接路徑,這為用戶與商品之間的交互提供了豐富且互補的信息。這種連通性不僅揭示了實體和關系的語義,而且有助于理解用戶的興趣。然而,現有的工作尚未充分探索用來推斷用戶偏好的這種連接性,特別是在建模路徑內部的順序依賴關系和整體語義方面。本文提出了一種新的知識感知路徑遞歸網絡(Knowledgeaware Path Recurrent Network,KPRN)模型,利用知識圖進行推薦。KPRN可以通過組合實體和關系的語義來生成路徑表示。通過利用路徑中的順序依賴關系,我們允許對路徑進行有效的推理,從而推斷用戶-商品交互的基本原理。此外,我們設計了一個新的加權pooling操作來區分連接用戶和商品的不同路徑的優勢,使我們的模型具有一定的可解釋性。我們對電影和音樂的兩個數據集進行了大量的實驗,證明了,與最好的方法相比,CKE(Collaborative Knowledge Base Embedding)和神經因子分解(Neural Factorization Machine),都有了顯著的改進。
網址:
代碼鏈接:
5、Explainable Recommendation Through Attentive Multi-View Learning(基于注意力機制多視角學習的可解釋推薦)
AAAI ’19
作者:Jingyue Gao, Xiting Wang, Yasha Wang, Xing Xie
摘要:由于信息的爆炸式增長,推薦系統在我們的日常生活中發揮著越來越重要的作用。當我們評估一個推薦模型時,準確性和可解釋性是兩個核心方面,并且已經成為機器學習的基本權衡指標之一。在本文中,我們提出通過開發一個結合了基于深度學習的模型和現有可解釋方法的優點的可解釋的深度模型,來減輕準確性和可解釋性之間的權衡。其基本思想是基于可解釋的深度層次結構(如Microsoft概念圖)構建初始網絡,通過優化層次結構中的關鍵變量(如節點重要性和相關性)來提高模型精度。為了保證準確的評分預測,我們提出了一個周到的多視圖學習框架。該框架通過在不同的特征層之間進行協同正則化,并專注地結合預測,使我們能夠處理稀疏和噪聲數據。為了從層次結構中挖掘可讀的解釋,我們將個性化解釋生成問題定義為一個約束樹節點選擇問題,并提出了一種動態規劃算法來解決該問題。實驗結果表明,該模型在準確性和可解釋性方面均優于現有的最好的方法。
網址:
6、ExFaKT- A Framework for Explaining Facts over Knowledge Graphs and Text(ExFaKT:一個基于知識圖譜和文本來解釋事實的框架)
WSDM ’19
作者:Mohamed H. Gad-Elrab, Daria Stepanova, Jacopo Urbani, Gerhard Weikum
摘要:事實檢驗是準確填充、更新和整理知識圖譜的關鍵。手工驗證候選事實非常耗時。先前關于自動完成這一任務的工作側重于使用非人類可解釋的數值分數來估計真實性。另一些則提取文本中對候選事實的顯式提及作為候選事實的證據,這很難直接發現。在我們的工作中,我們引入了ExFaKT,這是一個專注于為候選事實生成人類可理解的解釋的框架。ExFaKT使用以Horn子句形式編碼的背景知識將相關事實重寫為一組其他更容易找到的事實。我們框架的最終輸出是文本和知識圖譜中候選事實的一組語義跟蹤。實驗表明,我們的重寫在保持較高精確度的同時,顯著提高了事實發現的召回率。此外,我們還表明,這些解釋有效地幫助人類執行事實檢查,并且在用于自動事實檢查時也可以執行得很好。
網址:
代碼鏈接:
7、Interaction Embeddings for Prediction and Explanation in Knowledge Graphs(知識圖譜中的預測和解釋的交互嵌入學習)
WSDM ’19
作者:Wen Zhang, Bibek Paudel, Wei Zhang, Abraham Bernstein, Huajun Chen
摘要:知識圖嵌入旨在學習實體和關系的分布式表示,并在許多應用中被證明是有效的。交叉交互(Crossover interactions)——實體和關系之間的雙向影響——有助于在預測新的三元組時選擇相關信息,但之前從未正式討論過。在本文中,我們提出了一種新的知識圖嵌入算法CrossE,它可以顯式地模擬交叉交互。它不僅像以前的大多數方法一樣,為每個實體和關系學習一個通用嵌入,而且還為這兩個實體和關系生成多個三重特定嵌入,稱為交互嵌入。我們評估了典型鏈接預測任務的嵌入,發現CrossE在復雜和更具挑戰性的數據集上實現了最先進的結果。此外,我們從一個新的角度來評估嵌入——為預測的三元組提供解釋,這對實際應用非常重要。在本工作中,對三元組的解釋被認為是頭尾實體之間可靠的閉合路徑。與其他baseline相比,我們通過實驗證明,CrossE更有能力生成可靠的解釋來支持其預測,這得益于交互嵌入。
網址:
8、SimGNN- A Neural Network Approach to Fast Graph Similarity Computation(SimGNN:一種快速計算圖相似度的神經網絡方法)
WSDM ’19
作者:Yunsheng Bai, Hao Ding, Song Bian, Ting Chen, Yizhou Sun, Wei Wang
摘要:圖相似度搜索是基于圖的最重要的應用之一,例如查找與已知化合物最相似的化合物。圖的相似度/距離計算,如圖的編輯距離(GED)和最大公共子圖(MCS),是圖的相似度搜索和許多其他應用的核心操作,但在實踐中計算成本很高。受最近神經網絡方法在一些圖應用(如節點或圖分類)中的成功的啟發,我們提出了一種新的基于神經網絡的方法來解決這個經典但具有挑戰性的圖問題,目的是在保持良好性能的同時減輕計算負擔。這個被稱為SimGNN的方法結合了兩種策略。首先,我們設計了一個可學習的嵌入函數,它將每個圖映射到一個嵌入向量,該向量提供了一個圖的全局摘要。提出了一種新的注意機制,針對特定的相似度度量強調重要節點。其次,設計了一種節點對比較法,用細粒度節點信息來補充圖級嵌入。我們的模型對不可見圖有較好的泛化效果,并且在最壞的情況下,對兩個圖中的節點數運行二次方的時間。以GED計算為例,在三個實際圖形數據集上的實驗結果表明了該方法的有效性和效率性。具體來說,我們的模型與一系列baseline相比,包括一些基于GED計算的近似算法和許多現有的基于圖神經網絡的模型,實現了更小的錯誤率和更大的時間縮短。我們的工作表明,SimGNN為圖相似度計算和圖相似度搜索提供了一個新的研究方向。
網址:
代碼鏈接:
9、Human-centric Transfer Learning Explanation via Knowledge Graph(通過知識圖譜以人為中心的遷移學習可解釋)
AAAI-19 Workshop on Network Interpretability for Deep Learning
作者:Gao Yuxia Geng, Jiaoyan Chen, Ernesto Jim′enez-Ruiz, Huajun Chen
摘要:遷移學習(Transfer Learning)是利用從一個問題(源域)中學習到的知識來解決另一個不同但相關的問題(目標域),已經引起了廣泛的研究關注。然而,目前的遷移學習方法大多是無法解釋的,尤其是對沒有機器學習專業知識的人來說。在這篇摘要中,我們簡要介紹了兩種基于知識圖譜(KG)的人類可理解遷移學習解釋框架。第一個解釋了卷積神經網絡(CNN)學習特征通過預訓練和微調從一個域到另一個域的可移植性,第二個證明了零樣本學習(zero-shot learning ,ZSL)中多個源域模型預測的目標域模型的合理性。這兩種方法都利用了KG及其推理能力,為遷移過程提供了豐富的、人類可以理解的解釋。
網址:
10、Explainable and Explicit Visual Reasoning over Scene Graphs(對場景圖進行的可解釋和顯式的視覺推理)
CVPR-19
作者:Jiaxin Shi, Hanwang Zhang, Juanzi Li
摘要:我們的目標是將復雜視覺推理任務中使用的流行黑盒神經架構拆分為可解釋的,明確的神經模塊(XNMs), 它能夠超越現有的神經模塊網絡,使用場景圖—對象作為節點,成對關系作為邊—用于結構化知識的可解釋和明確推理。XNMs讓我們更加關注教機器如何“思考”,無論它們“看起來”是什么。正如我們將在本文中展示的那樣,通過使用場景圖作為一個歸納偏差,1)我們可以用簡潔靈活的方式設計XNMs,即, XNMs僅由4種元類型組成,大大減少了10 ~ 100倍的參數數量,2)我們可以根據圖的注意力程度顯式地跟蹤推理流程。XNMs是如此的通用,以至于它們支持具有不同質量的各種場景圖實現。例如,當圖形被完美地檢測到時,XNMs在CLEVR和CLEVR CoGenT上的準確率都達到了100%,為視覺推理建立了一個經驗性能上限; 當從真實世界的圖像中噪聲檢測出這些圖時,XNMs仍然很健壯,在VQAv2.0上達到了67.5%的有競爭力的精度,超越了流行的沒有圖結構的(bag-of-objects)注意力模型。
網址:
代碼鏈接:
鏈接: 提取碼:9e9x
【導讀】國際萬維網大會(The Web Conference,簡稱WWW會議)是由國際萬維網會議委員會發起主辦的國際頂級學術會議,創辦于1994年,每年舉辦一屆,是CCF-A類會議。WWW 2020將于2020年4月20日至4月24日在中國臺灣臺北舉行。本屆會議共收到了1129篇長文投稿,錄用217篇長文,錄用率為19.2%。近期,推薦相關也比較熱門,專知小編提前整理了WWW 2020 推薦系統比較有意思的的論文,供參考——序列推薦、可解釋Serendipity 推薦、推薦效率、 bandit推薦、Off-policy學習。 WWW2020RS_Part1
作者:Jibang Wu, Renqin Cai, Hongning Wang
摘要:根據用戶的歷史連續行為預測用戶的偏好對于現代推薦系統來說是具有挑戰性的,也是至關重要的。現有的序列推薦算法在建模歷史事件對當前預測的影響時,大多側重于序列行為之間的過渡結構,而很大程度上忽略了時間和上下文信息。在這篇文章中,我們認為過去的事件對用戶當前行為的影響應該隨著時間的推移和不同的背景而變化。因此,我們提出了一種情境時間注意力機制(Contextualized Temporal Attention),該機制可以學習權衡歷史行為在行為以及行為發生的時間和方式上的影響。更具體地說,為了動態地校準來自自注意力機制的相對輸入的依賴關系,我們提出了多個參數化的核函數以學習各種時間動態,然后使用上下文信息來確定每個輸入要跟隨哪一個kernel( reweighing kernels )。在對兩個大型公開推薦數據集進行的實證評估中,我們的模型始終優于一系列最先進的序列推薦方法。
網址:
//arxiv.org/pdf/2002.00741.pdf
作者:Xueqi Li, Wenjun Jiang, Weiguang Chen, Jie Wu, Guojun Wang, Kenli Li
摘要:近幾年來,Serendipity推薦越來越受到人們的關注,它致力于提供既能迎合用戶需求,又能開闊他們眼界的建議。然而,現有的方法通常使用標量而不是向量來度量用戶與項目的相關性,忽略了用戶的偏好方向,這增加了不相關推薦的風險。此外,合理的解釋增加了用戶的信任度和接受度,但目前沒有為Serendipity推薦提供解釋的工作。為了解決這些局限性,我們提出了一種有向的、可解釋的Serendipity推薦方法,稱為DESR。具體而言,首先采用基于高斯混合模型(GMM)的無監督方法提取用戶的長期偏好,然后利用膠囊(capsule )網絡捕捉用戶的短期需求。然后,我們提出了將長期偏好與短期需求相結合的意外(serendipity)向量,并利用它生成有向的Serendipity推薦。最后,利用反向路徑選擇方案進行了解釋。在真實數據集上的大量實驗表明,與現有的基于意外(serendipity)發現的方法相比,DESR能夠有效地提高意外性和可解釋性,促進多樣性。
網址
作者:Defu Lian, Haoyu Wang, Zheng Liu, Jianxun Lian, Enhong Chen, Xing Xie
摘要:近年來,深度推薦系統已經取得了顯著的進步。盡管具有出色的排名精度,但實際上運行效率和內存消耗在現實中卻是嚴重的瓶頸。為了克服這兩個瓶頸,我們提出了LightRec,這是一個輕量級的推薦系統,具有快速的在線推斷功能和經濟的內存消耗。LightRec的主干是總共B個codebooks,每個codebook均由W個潛在向量組成,稱為codewords。在這種結構的頂部,LightRec將有一個商品表示為B codewords的加法組合,這些B codewords是從每個codebook中選擇的最佳的。為了有效地從數據中學習codebooks,我們設計了一個端到端的學習工作流程,其中所提出的技術克服了固有差異性和多樣性方面的挑戰。另外,為了進一步提高表示質量,采用了幾種distillation策略,可以更好地保留用戶-商品的相關性得分和相對排名順序。我們對LightRec在四個真實數據集上進行了廣泛評估,得出了兩個經驗發現:1)與最先進的輕量級baseline相比,LightRec在召回性能方面取得了超過11%的相對改進;2)與傳統推薦算法相比,在top-k推薦算法中,LightRec的精度下降幅度可以忽略不計,但速度提高了27倍以上。
網址:
作者:Mengyue Yang, Qingyang Li, Zhiwei Qin, Jieping Ye
摘要:上下文多臂 bandit(MAB)在各種問題上實現了優異性能。然而,當涉及到推薦系統和在線廣告等現實場景時,必須考慮探索的資源消耗。在實踐中,通常存在與在環境中執行建議(ARM)相關聯的非零成本,因此,應該在固定的探索成本約束下學習策略。由于直接學習全局最優策略是一個NP難題,并且極大地使bandit算法的探索和開發之間的權衡復雜化,因此直接學習全局最優策略是一個很大的挑戰。現有的方法著重于通過采用貪婪策略來解決問題,該策略估計預期的收益和成本,并基于每個臂的預期收益/成本比使用貪婪的選擇,利用歷史觀察直到勘探資源耗盡為止。然而,現有的方法當沒有更多的資源時,學習過程就會終止,因此很難擴展到無限的時間范圍。本文提出了一種分層自適應上下文bandit方法(HATCH)來進行有預算約束的上下文bandit的策略學習。HATCH采用一種自適應的方法,根據剩余資源/時間和對不同用戶上下文之間報酬分配的估計來分配勘探資源。此外,我們利用充分的上下文特征信息來找到最好的個性化推薦。最后,為了證明提出的理論,我們進行了regret bound分析,并證明HATCH的regret bound低至O(√T)。實驗結果證明了該方法在合成數據集和實際應用中的有效性和效率。
網址:
作者:Jiaqi Ma, Zhe Zhao, Xinyang Yi, Ji Yang, Minmin Chen, Jiaxi Tang, Lichan Hong, Ed H. Chi
摘要:許多現實世界中的推薦系統需要高度可伸縮性:將數百萬個項目與數十億用戶進行匹配,并只具有毫秒級的延遲。可伸縮性的要求導致了廣泛使用的兩階段推薦系統,由第一階段高效的候選生成模型和第二階段更強大的排序模型組成。通常使用記錄的用戶反饋(例如,用戶點擊或停留時間)來構建用于推薦系統的候選生成和排名模型。雖然很容易收集大量這樣的數據,但因為反饋只能在以前系統推薦的項目上觀察到,因此這些數據在本質上是有偏見的。近年來,推薦系統研究領域對此類偏差的off-policy 修正引起了越來越多的關注。然而,現有的大多數工作要么假設推薦系統是一個單階段系統,要么只研究如何將離策略校正應用于系統的候選生成階段,而沒有顯式地考慮這兩個階段之間的相互作用。在這項工作中,我們提出了一種兩階段離策略(two-stage off-policy)策略梯度方法,并證明了在兩階段推薦系統中忽略這兩個階段之間的交互會導致次優策略。該方法在訓練候選生成模型時明確考慮了排序模型,有助于提高整個系統的性能。我們在具有大項目空間的真實數據集上進行了實驗,驗證了所提方法的有效性。
網址:
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。幾周前專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的,這期小編繼續為大家奉上CVPR 2020五篇GNN相關論文供參考——視頻文本檢索、人體解析、圖像描述生成、人臉重構、Human-Object Interaction。
CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
作者:Shizhe Chen, Yida Zhao, Qin Jin and Qi Wu
摘要:隨著視頻在網絡上的迅速涌現,視頻和文本之間的跨模態檢索越來越受到人們的關注。目前解決這一問題的主流方法是學習聯合嵌入空間來度量跨模態相似性。然而,簡單的聯合嵌入不足以表示復雜的視覺和文本細節,例如場景、對象、動作及他們的組成。為了提高細粒度的視頻文本檢索,我們提出了一種分層圖推理(HGR)模型,將視頻文本匹配分解為全局到局部層次。具體地說,該模型將文本分解成層次化的語義圖,包括事件、動作、實體這三個層次和這些層次之間的關系。利用基于屬性的圖推理生成層次化的文本嵌入,以指導多樣化、層次化的視頻表示學習。HGR模型聚合來自不同視頻-文本級別的匹配,以捕捉全局和局部細節。在三個視頻文本數據集上的實驗結果表明了該模型的優越性。這種分層分解還可以更好地跨數據集進行泛化,并提高區分細粒度語義差異的能力。
作者:Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen and Ling Shao
摘要:人體解析(Human parsing)是為了像素級的人類語義理解。由于人體是具有層次結構的,因此如何對人體結構進行建模是這個任務的中心主題。圍繞這一點,我們試圖同時探索深度圖網絡的表示能力和層次化的人類結構。在本文中,我們有以下兩個貢獻。首先,首次用三個不同的關系網絡完整而精確地描述了分解、組合和依賴這三種部件關系。這與以前的解析方式形成了鮮明的對比,之前的解析器只關注關系的一部分,并采用類型不可知(type-agnostic)的關系建模策略。通過在關系網絡中顯式地施加參數來滿足不同關系的具體特性,可以捕捉到更具表現力的關系信息。其次,以前的解析器在很大程度上忽略了循環的人類層次結構上的近似算法的需求,而我們則通過將具有邊類型的通用信息傳遞網絡與卷積網絡同化來解決迭代推理過程。通過這些努力,我們的解析器為更復雜、更靈活的人際關系推理模式奠定了基礎。在五個數據集上的綜合實驗表明,我們的解析器在每個數據集上都具有最好的表現。
網址:
作者:Shizhe Chen, Qin Jin, Peng Wang and Qi Wu
摘要:人類能夠隨心所欲地用粗略到精細的細節來描述圖像內容。然而,大多數圖像描述生成模型都是忽略意圖(intention-agnostic)的,不能根據不同的用戶意圖主動生成不同的描述。在這項工作中,我們提出了抽象場景圖(ASG)結構來在細粒度層次上表示用戶意圖,并控制生成的描述應該是什么和有多詳細。ASG是一個由三種類型的抽象節點(對象、屬性、關系)組成的有向圖,這些節點來自于圖像,沒有任何具體的語義標簽。因此,啊他們通過手動或自動生成都很容易獲得。在ASG的基礎上,我們提出了一種新穎的ASG2圖像描述生成模型,該模型能夠識別用戶在圖中的意圖和語義,從而根據圖的結構生成想要的字幕。與在VisualGenome和MSCOCO數據集上的其它的基線模型相比,我們的模型在ASG上具有更好的可控性條件。它還通過自動采樣不同的ASG作為控制信號,顯著提高了caption的多樣性。
網址:
作者:Jiangke Lin, Yi Yuan, Tianjia Shao and Kun Zhou
摘要:基于三維形變模型(3DMM)的方法在從單視圖圖像中恢復三維人臉形狀方面取得了很大的成功。然而,用這種方法恢復的面部紋理缺乏像輸入圖像中表現出的逼真度。最近的工作采用生成網絡來恢復高質量的面部紋理,這些網絡是從一個大規模的高分辨率臉部紋理UV圖數據庫中訓練出來的,這些數據庫很難準備的,也不能公開使用。本文介紹了一種在無約束條件下捕獲(in-the-wild)的單視圖像中重建具有高保真紋理的三維人臉形狀的方法,該方法不需要獲取大規模的人臉紋理數據庫。為此,我們提出使用圖卷積網絡來重建網格頂點的細節顏色來代替重建UV地圖。實驗表明,我們的方法可以產生高質量的結果,并且在定性和定量比較方面都優于最先進的方法。
網址:
作者:Oytun Ulutan, A S M Iftekhar and B. S. Manjunath
摘要:全面的視覺理解要求檢測框架能夠在單獨分析物體的同時有效地學習和利用物體交互。這是人類-物體交互(Human-Object Interaction,HOI)任務的主要目標。特別是,物體之間的相對空間推理和結構聯系是分析交互的基本線索,文中提出的視覺-空間-圖網絡(VSGNet)體系結構可以解決這一問題。VSGNet從人類-物體對中提取視覺特征,利用人類-物體對的空間構型對特征進行細化,并通過圖卷積利用人類-物體對之間的結構聯系。我們使用COCO(V-COCO)和HICO-Det數據集中的動詞對VSGNet的性能進行了全面評估。實驗結果表明,VSGNet在V-COCO和HICO-DET中的性能分別比現有解決方案高出8%或4MAP和16%或3MAP。
網址:
代碼鏈接:
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。近期,一些Paper放出來,專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的五篇論文,供大家參考—點云分析、視頻描述生成、軌跡預測、場景圖生成、視頻理解等。
1. Grid-GCN for Fast and Scalable Point Cloud Learning
作者:Qiangeng Xu, Xudong Sun, Cho-Ying Wu, Panqu Wang and Ulrich Neumann
摘要:由于點云數據的稀疏性和不規則性,越來越多的方法直接使用點云數據。在所有基于point的模型中,圖卷積網絡(GCN)通過完全保留數據粒度和利用點間的相互關系表現出顯著的性能。然而,基于點的網絡在數據結構化(例如,最遠點采樣(FPS)和鄰接點查詢)上花費了大量的時間,限制了其速度和可擴展性。本文提出了一種快速、可擴展的點云學習方法--Grid-GCN。Grid-GCN采用了一種新穎的數據結構策略--Coverage-Aware Grid Query(CAGQ)。通過利用網格空間的效率,CAGQ在降低理論時間復雜度的同時提高了空間覆蓋率。與最遠的點采樣(FPS)和Ball Query等流行的采樣方法相比,CAGQ的速度提高了50倍。通過網格上下文聚合(GCA)模塊,Grid-GCN在主要點云分類和分割基準上實現了最先進的性能,并且運行時間比以前的方法快得多。值得注意的是,在每個場景81920個點的情況下,Grid-GCN在ScanNet上的推理速度達到了50fps。
2. Object Relational Graph with Teacher-Recommended Learning for Video Captioning
作者:Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu and Zhengjun Zha
摘要:充分利用視覺和語言的信息對于視頻字幕任務至關重要。現有的模型由于忽視了目標之間的交互而缺乏足夠的視覺表示,并且由于長尾(long-tailed)問題而對與內容相關的詞缺乏足夠的訓練。在本文中,我們提出了一個完整的視頻字幕系統,包括一種新的模型和一種有效的訓練策略。具體地說,我們提出了一種基于目標關系圖(ORG)的編碼器,該編碼器捕獲了更詳細的交互特征,以豐富視覺表示。同時,我們設計了一種老師推薦學習(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部語言模型(ELM)將豐富的語言知識整合到字幕模型中。ELM生成了在語義上更相似的單詞,這些單詞擴展了用于訓練的真實單詞,以解決長尾問題。 對三個基準MSVD,MSR-VTT和VATEX進行的實驗評估表明,所提出的ORG-TRL系統達到了最先進的性能。 廣泛的消去研究和可視化說明了我們系統的有效性。
網址:
3. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction
作者:Abduallah Mohamed and Kun Qian
摘要:有了更好地了解行人行為的機器可以更快地建模智能體(如:自動駕駛汽車)和人類之間的特征交互。行人的運動軌跡不僅受行人自身的影響,還受與周圍物體相互作用的影響。以前的方法通過使用各種聚合方法(整合了不同的被學習的行人狀態)對這些交互進行建模。我們提出了社交-時空圖卷積神經網絡(Social-STGCNN),它通過將交互建模為圖來代替聚合方法。結果表明,最終位偏誤差(FDE)比現有方法提高了20%,平均偏移誤差(ADE)提高了8.5倍,推理速度提高了48倍。此外,我們的模型是數據高效的,在只有20%的訓練數據上ADE度量超過了以前的技術。我們提出了一個核函數來將行人之間的社會交互嵌入到鄰接矩陣中。通過定性分析,我們的模型繼承了行人軌跡之間可以預期的社會行為。
網址:
代碼鏈接:
4. Unbiased Scene Graph Generation from Biased Training
作者:Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi and Hanwang Zhang
摘要:由于嚴重的訓練偏差,場景圖生成(SGG)的任務仍然不夠實際,例如,將海灘上的各種步行/坐在/躺下的人簡化為海灘上的人。基于這樣的SGG,VQA等下游任務很難推斷出比一系列對象更好的場景結構。然而,SGG中的debiasing 是非常重要的,因為傳統的去偏差方法不能區分好的和不好的偏差,例如,好的上下文先驗(例如,人看書而不是吃東西)和壞的長尾偏差(例如,將在后面/前面簡化為鄰近)。與傳統的傳統的似然推理不同,在本文中,我們提出了一種新的基于因果推理的SGG框架。我們首先為SGG建立因果關系圖,然后用該因果關系圖進行傳統的有偏差訓練。然后,我們提出從訓練好的圖中提取反事實因果關系(counterfactual causality),以推斷應該被去除的不良偏差的影響。我們使用Total Direct Effect作為無偏差SGG的最終分數。我們的框架對任何SGG模型都是不可知的,因此可以在尋求無偏差預測的社區中廣泛應用。通過在SGG基準Visual Genome上使用我們提出的場景圖診斷工具包和幾種流行的模型,與以前的最新方法相比有顯著提升。
網址:
代碼鏈接:
5. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences
作者:Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu and Lianli Gao
摘要:在本文中,我們考慮了一項用于多形式句子(Multi-Form Sentences)的時空Video Grounding(STVG)的任務。 即在給定未剪輯的視頻和描述對象的陳述句/疑問句,STVG旨在定位所查詢目標的時空管道(tube)。STVG有兩個具有挑戰性的設置:(1)我們需要從未剪輯的視頻中定位時空對象管道,但是對象可能只存在于視頻的一小段中;(2)我們需要處理多種形式的句子,包括帶有顯式賓語的陳述句和帶有未知賓語的疑問句。 由于無效的管道預生成和缺乏對象關系建模,現有方法無法解決STVG任務。為此,我們提出了一種新穎的時空圖推理網絡(STGRN)。首先,我們構建時空區域圖來捕捉具有時間對象動力學的區域關系,包括每幀內的隱式、顯式空間子圖和跨幀的時間動態子圖。然后,我們將文本線索加入到圖中,并開發了多步跨模態圖推理。接下來,我們引入了一種具有動態選擇方法的時空定位器,該定位器可以直接檢索時空管道,而不需要預先生成管道。此外,我們在視頻關系數據集Vidor的基礎上構建了一個大規模的video grounding數據集VidSTG。大量的實驗證明了該方法的有效性。
網址:
【導讀】最近小編推出CVPR2019圖卷積網絡相關論文、CVPR2019生成對抗網絡相關視覺論文、【可解釋性】相關論文和代碼,CVPR視覺目標跟蹤相關論文和代碼,反響熱烈。最近,視覺問答和推理這一領域也廣泛受關注,出現了好多新方法、新數據集,CVPR 2019已經陸續放出很多篇篇相關文章。今天小編專門整理最新七篇視覺問答相關應用論文—多模態關系推理、視覺上下文、遷移學習、通用VQA模型、新數據集GQA等。
1、MUREL: Multimodal Relational Reasoning for Visual Question Answering (MUREL:視覺問答的多模態關系推理)
CVPR ’19
作者:Remi Cadene, Hedi Ben-younes, Matthieu Cord, Nicolas Thome
摘要:多模態注意力網絡是目前用于涉及真實圖像的視覺問答(VQA)任務的最先進的模型。盡管注意力集中在與問題相關的可視內容上,但這種簡單的機制可能不足以模擬VQA或其他高級任務所需的復雜推理功能。在本文中,我們提出了MuRel,一種多模態關系網絡,它通過真實圖像進行端到端的學習。我們的第一個貢獻是引入了MuRel單元,這是一個原子推理原語,通過豐富的向量表示來表示問題和圖像區域之間的交互,并使用成對組合對區域關系建模。其次,我們將單元格合并到一個完整的MuRel網絡中,該網絡逐步細化了可視化和問題交互,并且可以用來定義比注意力更精細的可視化方案。我們驗證了我們的方法與各種消融研究的相關性,并在三個數據集:VQA 2.0、VQA- cp v2和TDIUC上顯示了它相對于基于注意力的方法的優勢。我們的最終MuRel網絡在這一具有挑戰性的環境中具有競爭力或優于最先進的結果。
網址:
代碼鏈接:
2、Image-Question-Answer Synergistic Network for Visual Dialog( 基于圖像-問題-答案協同網絡的視覺對話)
CVPR ’19
作者:Dalu Guo, Chang Xu, Dacheng Tao
摘要:圖像、問題(結合用于de-referencing的歷史)和相應的答案是視覺對話的三個重要組成部分。經典的視覺對話系統集成了圖像、問題和歷史來搜索或生成最佳匹配的答案,因此,這種方法明顯忽略了答案的作用。在本文中,我們設計了一個新穎的圖像 - 問題 - 答案協同網絡,以評估答案對精確視覺對話的作用。我們將傳統的一階段解決方案擴展為兩階段解決方案。在第一階段,根據候選答案與圖像和問題對的相關性對候選答案進行粗略評分。之后,在第二階段,通過與圖像和問題協同,對具有高正確概率的答案進行重新排序。在Visual Dialog v1.0數據集上,所提出的協同網絡增強了判別性視覺對話模型,實現了57.88%的NDCG(normalized discounted cumulative gain)的最新的最優表現。
網址:
3、Learning to Compose Dynamic Tree Structures for Visual Contexts(學習為視覺上下文構建動態樹結構)
CVPR ’19 Oral
作者:Kaihua Tang, Hanwang Zhang, Baoyuan Wu, Wenhan Luo, Wei Liu
摘要:我們提出組合動態樹結構,將圖像中的對象放入視覺上下文中,幫助進行視覺推理任務,如場景圖生成和視覺問答。我們的視覺上下文樹模型(稱為VCTree)與現有的結構化對象表示(包括鏈和全連接圖)相比具有兩個關鍵優勢:1)高效且富有表現力的二叉樹編碼對象之間固有的并行/層次關系,例如“衣服”和“褲子”通常是共同出現的,屬于“人”; 2)動態結構因圖像和任務而異,允許在對象之間傳遞更多特定于任務的內容/消息。為了構造一個VCTree,我們設計了一個score函數來計算每個對象對之間的任務依賴效度,這個VCTree是score矩陣中最大生成樹的二進制版本。然后,視覺上下文由雙向TreeLSTM編碼,并由特定于任務的模型解碼。本文提出了一種混合學習方法,將末端任務監督學習與樹形結構強化學習相結合,前者的評估結果作為后者結構探索的self-critic。兩個benchmark測試的實驗結果,需要對上下文進行推理:用于場景圖生成的Visual Genome和用于視覺Q&A的VQA2.0,表明VCTree在發現可解釋的視覺上下文結構時優于最先進的結果。
網址:
4、Transfer Learning via Unsupervised Task Discovery for Visual Question Answering(通過無監督的任務發現遷移學習以進行視覺問答)
CVPR ’19
作者:Hyeonwoo Noh, Taehoon Kim, Jonghwan Mun, Bohyung Han
摘要:我們研究如何利用現成的視覺和語言數據來處理視覺問答任務中詞匯量不足的問題。現有的帶有圖像類標簽、邊界框和區域描述等標注的大型可視化數據集是學習豐富多樣的視覺概念的好資源。然而,由于依賴于問題的回答模型與無問題的視覺數據之間缺少聯系,如何捕獲視覺概念并將其轉化為VQA模型并不簡單。我們通過兩個步驟來解決這個問題:1)學習一個任務條件視覺分類器,該分類器基于無監督任務發現,能夠解決多種特定問題的視覺識別任務;2)將任務條件視覺分類器轉化為視覺問答模型。具體來說,我們使用結構化詞匯庫(如WordNet)和視覺概念描述等語言知識資源來進行無監督任務發現,并將學習到的任務條件視覺分類器作為一個回答單元遷移到一個 VQA模型中。實驗結果表明,該算法利用從視覺數據集中遷移的知識成功地推廣到詞匯表外的問題。
網址:
代碼鏈接:
5、Answer Them All! Toward Universal Visual Question Answering Models(回答他們所有人!基于通用的視覺問答模型)
CVPR ’19
作者:Robik Shrestha, Kushal Kafle, Christopher Kanan
摘要:視覺問答(VQA)研究分為兩個陣營:第一個陣營關注需要自然圖像理解的VQA數據集,第二個陣營關注測試推理的合成數據集。一個好的VQA算法應該同時具備這兩種功能,但是只有少數VQA算法是以這種方式進行測試的。我們比較了涵蓋這兩個領域的8個VQA數據集中的5種最先進的VQA算法。為了公平起見,所有的模型都盡可能標準化,例如,它們使用相同的視覺特性、答案詞表等。我們發現,這些方法不能泛化到這兩個領域。為了解決這一問題,我們提出了一種新的VQA算法,它可以與這兩個領域的最先進算法相媲美或超過它們。
網址:
6、GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering(GQA: 一個用于真實世界的視覺推理和合成問題回答的新數據集)
CVPR ’19
作者:Drew A. Hudson, Christopher D. Manning
摘要:我們介紹了一個新的數據集GQA,用于真實世界的視覺推理和合成問題回答,試圖解決以前的VQA數據集的關鍵缺陷。我們開發了一個強大而健壯的問題引擎,它利用場景圖結構創建了2200萬個不同的推理問題,所有這些問題都帶有表示其語義的功能程序。我們使用這些程序來獲得對答案分布的嚴格控制,并提出了一種新的可調平滑技術來減少問題的偏差。隨數據集而來的是一套新的度量標準,用于評估consistency、grounding和plausibility等基本質量。對baseline和最先進的模型進行了廣泛的分析,為不同的問題類型和拓撲提供了細粒度的結果。一個單獨的LSTM僅獲得42.1%的結果,強大的VQA模型達到54.1%,而人類的表現最高達到89.3%,這為探索新的研究提供了充足的機會。我們強烈希望GQA能夠為下一代模型提供支持資源,增強健壯性、改進一致性以及對圖像和語言更深入的語義理解。
網址:
7、Towards VQA Models that can Read(面向可讀的VQA模型)
CVPR ’19
作者:Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach
摘要:研究表明,視障用戶對周圍環境圖像提出的主要問題包括閱讀圖像中的文字。但是今天的VQA模型不能讀取! 我們的論文朝著解決這個問題邁出了第一步。首先,我們引入一個新的“TextVQA”數據集來促進在這個重要問題上的進展。現有的數據集要么有一小部分關于文本的問題(例如,VQA數據集),要么太小(例如,VizWiz數據集)。TextVQA包含45,336個問題,涉及28,408張圖像,需要對文本進行推理才能回答。其次,我們介紹了一種新的模型架構,它可以讀取圖像中的文本,在圖像和問題的上下文中對其進行推理,并預測一個可能是基于文本和圖像的推理或由圖像中發現的字符串組成的答案。因此,我們稱我們的方法為“Look, Read, Reason & Answer”(LoRRA)。我們在TextVQA數據集中展示了LoRRA優于現有的最先進的VQA模型。我們發現,在TextVQA上,人類性能和機器性能之間的差距明顯大于VQA 2.0,這表明TextVQA非常適合在與VQA 2.0互補的方向上進行基準測試。
網址:
代碼鏈接:
下載鏈接: 提取碼:yfq2