【導讀】作為世界數據挖掘領域的最高級別的學術會議,ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)每年都會吸引全球領域眾多專業人士參與。今年的 KDD大會已經在這周線上舉行(疫情影響)。KDD 2020官方發布接收論文,共有1279篇論文提交到Research Track,共216篇被接收,接收率16.8%。KDD 2020 Paper 都已經放出來了,為此,專知小編提前為大家整理了五篇KDD 2020 遷移學習(Transfer Learning)相關論文,供大家參考——對抗攻擊、時序數據、半監督協同過濾、遷移集成學習、信息抽取
KDD2020 Accepted Papers //www.kdd.org/kdd2020/accepted-papers
KDD2020RS、KDD2020GNN_Part2、KDD2020GNN、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、
1、Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer Learning
作者:Yinghua Zhang, Yangqiu Song, Jian Liang, Kun Bai, Qiang Yang
摘要:遷移學習已經成為在目標領域訓練有限標簽數據的深度學習模型的一種常見做法。另一方面,深度模型容易受到對抗性攻擊。盡管遷移學習已得到廣泛應用,但其對模型穩健性的影響尚不清楚。為了解決這個問題,我們進行了廣泛的實驗評估,表明這種微調方式有效地增強了模型在白盒FGSM攻擊下的魯棒性。我們還提出了一種針對遷移學習模型的黑盒攻擊方法,該方法利用目標模型的源模型生成的對抗性示例攻擊目標模型。為了系統地度量白盒攻擊和黑盒攻擊的效果,我們提出了一種新的度量來評估源模型產生的對抗性示例向目標模型遷移的程度。實驗結果表明,與兩個網絡單獨訓練時相比,使用微調時的對抗性例子具有更強的可移植性。
網址:
2、Multi-Source Deep Domain Adaptation with Weak Supervision for Time-Series Sensor Data
作者:Garrett Wilson, Janardhan Rao Doppa, Diane J. Cook
摘要:域自適應(DA)為重新使用新問題領域的數據和模型提供了一種有價值的手段。然而,對于時間序列數據,這些技術尚未被考慮。在本文中,我們主要做了三個方面的貢獻來填補這一空白。首先,我們提出了一種新的用于時序數據的卷積深度域自適應模型(CoDATS),該模型在真實傳感器數據基準上比現有的DA策略顯著提高了準確率和訓練時間。通過利用來自多個源域的數據,我們增加了CoDATS的有用性,以進一步提高先前的單源方法的準確性,特別是在域間具有高度變異性的復雜時間序列數據集上。其次,我們提出了一種新的弱監督領域自適應(DA-WS)方法,該方法利用目標領域標簽分布形式的弱監督,可能比附加的數據標簽更容易收集。第三,我們在不同的真實數據集上進行了全面的實驗,以評估我們的領域自適應和弱監督方法的有效性。結果表明,單源DA的CoDATS比最先進的方法有了顯著的改進,并且我們使用來自多個源域和弱監督信號的數據在準確率上取得了額外的改進。
網址:
3、Semi-supervised Collaborative Filtering by Text-enhanced Domain Adaptation
作者:Wenhui Yu, Xiao Lin, Junfeng Ge, Wenwu Ou, Zheng Qin
摘要:在推薦系統中,數據稀疏是一個固有的挑戰,其中大部分數據都是從用戶的隱式反饋中收集的。這給設計有效的算法帶來了兩個困難:第一,大多數用戶與系統的交互很少,沒有足夠的數據可供學習;第二,隱式反饋中沒有負樣本,通常需要進行負采樣來生成負樣本。然而,這會導致許多潛在的正樣本被錯誤地標記為負樣本,而數據稀疏會加劇錯誤標記問題。為了解決這些困難,我們將稀疏隱式反饋推薦問題看作一個半監督學習任務,并探索領域自適應來解決這個問題。我們將從密集數據中學到的知識轉移到稀疏數據中,并將重點放在最具挑戰性的案例a??上,該案列沒有用戶或項目重疊。在這種極端情況下,由于兩個潛在空間編碼的信息非常不同的,直接對齊兩個數據集的嵌入是相當次優的。因此,我們采用領域不變的文本特征作為錨點來對齊潛在空間。為了對齊嵌入,我們提取每個用戶和項目的文本特征,并將它們與用戶和項目的嵌入一起饋送到領域分類器中。通過訓練嵌入來迷惑分類器,并將文本特征固定為錨點。通過域自適應,將源域中的分布模式轉移到目標域。由于目標部分可以通過領域自適應進行監督,因此我們放棄了對目標數據集的負采樣,以避免標簽噪聲。
網址:
4、TranSlider: Transfer Ensemble Learning from Exploitation to Exploration
作者:Kuo Zhong, Ying Wei, Chun Yuan, Haoli Bai, Junzhou Huang
摘要:在遷移學習中,遷移什么、遷移到哪里已經得到了廣泛的研究。然而,學習到的遷移策略有很高的過擬合風險,特別是當目標域中只有幾個帶標注實例時。在本文中,我們引入了遷移集成學習的概念,這是解決遷移策略過擬合問題的一個新方向。直觀地說,具有不同遷移策略的模型提供了關于遷移什么以及遷移到哪里的不同視角。因此,一個核心問題是如何在這些不同遷移的模型中搜索集成,以達到更好的泛化。為此,我們提出了用于遷移集成學習的可遷移性滑塊(TranSlider)。通過降低可遷移性,我們得到了從源模型的純粹開發到對目標域的無約束探索的各種基本模型。此外,參數共享降低可遷移性的方式保證了在不增加訓練成本的情況下快速優化。最后,我們對各種分析進行了廣泛的實驗,證明了TranSlider在綜合基準數據集上達到了最先進的性能。
網址:
5、FreeDOM: A Transferable Neural Architecture for Structured Information Extraction on Web Documents
作者:Bill Yuchen Lin, Ying Sheng, Nguyen Vo, Sandeep Tata
摘要:從HTML文檔中提取結構化數據是一個研究已久的問題,具有廣泛的應用,如擴充知識庫、支持分面搜索,以及為購物和電影等關鍵垂直領域提供特定領域的經驗。以前的方法要么需要為每個目標站點提供少量示例,要么依賴于構建在網站視覺渲染之上的啟發式方法。在本文中,我們提出了一種新的兩階段神經方法,稱為FreeDOM,它克服了這兩個限制。First階段通過組合文本和標記信息來學習頁面中每個DOM節點的表示。第二階段使用關系神經網絡捕獲長距離和語義相關性。通過將這些階段結合在一起,在不需要在頁面的視覺呈現上花費昂貴的手工特征的前提下,Liberty能夠從垂直方向對少量 seed sites 進行訓練之后,將其推廣到不可知的sites。通過在具有8個不同垂直方向的公共數據集上的實驗表明,在不需要渲染頁面上的特征或昂貴的手工特征的情況下,平均比以前的技術狀態高出近3.7的F1點。
網址:
【導讀】ICML(International Conference on Machine Learning),即國際機器學習大會, 是機器學習領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。因疫情的影響, 今年第37屆ICML大會已于2020年7月13日至18日在線上舉行。據官方統計,ICML 2020共提交4990篇論文,接收論文1088篇,接收率為21.8%。與往年相比,接收率逐年走低。小編發現基于域自適應(Domain Adaptation)相關的paper也不少,域自適應及其在不同方式的轉換和應用等等都是這幾年比較火的topic,受到了很多人的關注。
為此,這期小編繼續為大家奉上ICML 2020必讀的六篇域自適應(Domain Adaptation)相關論文——連續域自適應、多源域自適應、無監督域自適應、少樣本域自適應、開放集域自適應
ICML 2020 Accepted Paper: //proceedings.icml.cc/book/2020
ICML2020ML、ICML2020CL、ICML2020CI、ICML2020GNN_Part2、ICML2020GNN_Part1
1、Continuously Indexed Domain Adaptation
作者:Hao Wang, Hao He, Dina Katabi
摘要:現有的域自適應集中于在具有分類索引的領域之間(例如,在數據集A和B之間)傳遞知識。然而,許多任務涉及連續索引的域。例如,在醫療應用中,人們經常需要在不同年齡的患者之間進行疾病分析和預測,而年齡是連續領域的指標。這樣的任務對于現有的域自適應方法是有挑戰性的,因為它們忽略了領域之間的潛在關系。在本文中,我們第一個提出了連續索引域自適應的方法。該方法將傳統的對抗性適應與新穎的鑒別器相結合,該鑒別器對編碼條件下的域索引分布進行建模。我們的理論分析證明了利用域索引在連續域范圍內生成不變特征的意義。我們的實驗結果表明,我們的方法在綜合醫學數據集和實際醫學數據集上均優于最先進的域自適應方法。
代碼鏈接:
網址:
2、Domain Aggregation Networks for Multi-Source Domain Adaptation
作者:Junfeng Wen, Russell Greiner, Dale Schuurmans
摘要:在許多實際應用中,我們希望利用多個源數據集為不同但相關的目標數據集建立模型。盡管最近在經驗上取得了成功,但大多數現有的研究都是采用特別的方法來組合多種來源,從而導致理論與實踐之間的差距。本文提出了一種基于域差異的有限樣本泛化邊界,并據此提出了一種理論上合理的優化方法。我們的算法,Domain AggRegation Network(DARN),能夠自動、動態地平衡包含更多數據以增加有效樣本量和排除無關數據以避免訓練過程中的負面影響。我們發現,DARN在多個實際任務(包括數字/對象識別和情感分析)上性能明顯優于現有的最新技術。
網址:
3、Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation
作者:Jian Liang, Dapeng Hu, Jiashi Feng
摘要:無監督域自適應(UDA)的目的是利用從標記的源數據集中學習的知識來解決新的未標記域中的相似任務。以前的UDA方法通常需要在學習適應模型時訪問源數據,這使得它們對于分散的私有數據來說風險很大,效率低下。這項工作解決了一個只有經過訓練的源模型可用的新環境,并研究了如何在沒有源數據的情況下有效地利用這種模型來解決UDA問題。我們提出了一個簡單而通用的表示學習框架,稱為源假設遷移(SHOT)。SHOT凍結了源模型的分類器模塊(假設),通過利用信息最大化和自監督偽標記將目標域的表示隱式地與源假設對齊,從而學習了特定于目標的特征提取模塊。為了驗證它的通用性,我們對SHOT在各種適應情況下進行了評估,包括閉集、部分集和開集域適配。實驗表明,SHOT在多個域自適應基準中產生了最先進的結果。
代碼鏈接:
網址:
4、Few-shot Domain Adaptation by Causal Mechanism Transfer
作者:Takeshi Teshima, Issei Sato, Masashi Sugiyama
摘要:我們研究將少樣本自監督域自適應方法應用于回歸類問題,其中只有少量的已標記的目標域數據和大量的已標記源域數據可用。目前的許多域適應方法的轉移條件都是基于參數化分布偏移或明顯的分布相似性,例如相同的條件或很小的分布差異。然而,這些假設排除了在復雜的遷移環境或者明顯不同的分布中適應的可能性。為了克服這個問題,我們提出了機制遷移(mechanism transfer),這是一種元分布場景,其中數據生成機制在域之間是不變的。這種遷移假設可以適應非參數化偏移所導致的明顯的分布差異,同時也為域自適應學習提供一個堅實的統計基礎。本文以因果模型中的結構方程為例,提出了一種新的域自適應學習方法,該方法在理論和實驗上都表明了良好的可用性。我們提出的方法可以看做是第一次嘗試利用結構因果模型來進行域自適應學習。
代碼鏈接:
網址:
5、Margin-aware Adversarial Domain Adaptation with Optimal Transport
作者:Sofien Dhouib, Ievgen Redko, Carole Lartizien
摘要:本文對于無監督域適應學習提出了一種新的理論分析方法,涉及大邊際分離,對抗性學習和最優傳輸。我們提出這種分析方法一般化了之前通過對目標邊界違規率進行限定的工作,結果表明出對目標域類別進行分離質量控制優于對誤分類率進行限定。該邊界還強調了源域上的邊際分離對自適應的好處,并引入了基于最優傳輸(OT)的域間距離,該距離與其他方法不同之處在于其依賴于具體的任務。從目前所獲得的結果看,我們得到了一個新的域自適應解決方案,該方案引入了一種新的基于淺OT的對抗方法,并且在一些現實世界中的分類任務上優于其他域自適應方法。
代碼鏈接:
網址:
6、Progressive Graph Learning for Open-Set Domain Adaptation
作者:Yadan Luo, Zijian Wang, Zi Huang, Mahsa Baktashmotlagh
摘要:域偏移是計算機視覺識別中的一個基本問題,通常在源數據和目標數據遵循不同的分布時出現。現有的域適應方法都是在閉集環境下工作的,即假設源數據和目標數據共享完全相同的對象。在這篇論文中,我們解決了一個開放域在遷移時所面臨的現實問題:目標域中所包含的一些樣本類別在源域中并不存在。具體來說,本文提出了一種端到端的漸進式(PGL)學習框架,該框架集成了一個已訓練過的圖神經網絡來抑制潛在的條件轉移,并采用對抗性學習來縮小源域和目標域之間的分布差異。與目前的開放域自適應方法相比,我們的方法能夠保證更加接近目標誤差的上限。在三個公共基準數據集上的大量實驗證明,我們的方法在開放域適應方面的性能明顯優于目前的其他方法。
網址:
【導讀】IJCAI(國際人工智能聯合會議,International Joint Conferences on Artificial Intelligence)作為人工智能領域最頂級的國際學術會議之一,IJCAI 的舉辦自然備受矚目。第29屆國際人工智能聯合會議和第17屆環太平洋國際人工智能會議原定于2020年7月11日在日本橫濱召開,但由于疫情影響,將延期半年,至 2021年1月召開。近期,IJCAI 2020 論文集已經放出來。在 4717 份有效投稿中,最終僅有 592 篇被接收,接收率為 12.6%,這也是 IJCAI 史上最低的接收率。我們發現在今年的IJCAI 2020會議上圖神經網絡相關的論文非常多,今天小編專門整理最新6篇圖神經網絡(GNN)應用在數據挖掘上的相關論文——多通道GNN、自適應時空圖卷積、會話流GNN、雙重注意力GNN、域自適應HIN、雙線性GNN
IJCAI 2020 Accepted Paper: //www.ijcai.org/Proceedings/2020/
IJCAI2020GNN_Part1、ICML2020GNN_Part1、KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、
1、Multi-Channel Graph Neural Networks
作者:Kaixiong Zhou, Qingquan Song, Xiao Huang, Daochen Zha, Na Zou, Xia Hu
摘要:在許多學科中,圖結構數據的分類已變得越來越重要。已經觀察到,現實世界圖中的隱式或顯式分層社區結構可能對下游分類應用有用。利用層次結構的一種直接方法是利用池化算法將節點聚類為固定簇(cluster),然后逐層縮小輸入圖以學習池化圖。但是,池化縮小( pool shrinking)會舍棄圖的詳細信息,從而難以區分兩個非同構圖,并且固定簇忽略了節點固有的多重特征。為了補償縮小損失并了解各個節點的特性,我們提出了多通道圖神經網絡(MuchGNN)。受卷積神經網絡中提出的底層機制的啟發,我們定義了定制的圖卷積,以學習每一層的一系列圖通道,并按層次縮小圖以對合并的結構進行編碼。真實數據集上的實驗結果證明了MuchGNN優于最新方法。
網址:
2、GraphSleepNet: Adaptive Spatial-Temporal Graph Convolutional Networks for Sleep Stage Classification
作者:Ziyu Jia, Youfang Lin, Jing Wang, Ronghao Zhou, Xiaojun Ning, Yuanlai He, Yaoshuai Zhao
摘要:睡眠階段分類對于睡眠評估和疾病診斷至關重要。但是,如何有效利用大腦的空間特征和睡眠階段之間的轉換信息仍然是一個挑戰。特別地,由于對人腦的了解有限,為睡眠階段分類預定義合適的空間腦連接結構仍然是一個懸而未決的問題。在本文中,我們提出了一種新穎的深度圖神經網絡,名為GraphSleepNet,用于自動睡眠階段分類。GraphSleepNet的主要優點是可以自適應地學習以鄰接矩陣表示的不同腦電圖(EEG)通道之間的內在聯系,從而為時空圖卷積網絡(ST-GCN)提供服務,以進行睡眠階段分類。同時,ST-GCN由用于提取空間特征的圖形卷積和用于捕獲睡眠階段之間的轉換規則的時間卷積組成。蒙特利爾睡眠研究檔案(MASS)數據集上的實驗表明GraphSleepNet優于最新的基線。
網址:
3、GraphFlow: Exploiting Conversation Flow with Graph Neural Networks for Conversational Machine Comprehension
作者:Yu Chen, Lingfei Wu, Mohammed J. Zaki
摘要:事實證明,與傳統MC相比,會話機器理解(MC)更具挑戰性,因為它需要更好地利用會話歷史記錄。但是,大多數現有方法無法有效地捕獲會話歷史記錄,因此難以處理涉及的指代或省略號的問題。此外,在對段落文本進行推理時,大多數人只是將其視為單詞序列,而沒有探索單詞之間豐富的語義關系。在本文中,我們首先提出一種簡單而有效的圖結構學習技術,以在每次對話轉折時動態構造一個具有問題和會話歷史意識的上下文圖。然后,我們提出了一種新穎的遞歸圖神經網絡,并在此基礎上,引入了一種flow機制來對一系列上下文圖中的時間依賴性進行建模。與現有的CoQA,QuAC和DoQA基準的最新技術相比,我們所提出的GRAPHFLOW模型可以有效地捕獲會話中的對話流,并顯示出可競爭的性能。此外,可視化實驗表明,我們提出的模型可以為推理過程提供良好的可解釋性。
網址:
4、GoGNN: Graph of Graphs Neural Network for Predicting Structured Entity Interactions
作者:Hanchen Wang, Defu Lian, Ying Zhang, Lu Qin, Xuemin Lin
摘要:實體交互預測在許多重要應用中至關重要,例如化學,生物學,材料科學和醫學。當每個實體由復雜結構(即結構化實體)表示時,該問題變得非常具有挑戰性,因為涉及兩種類型的圖:結構化實體的局部圖和捕獲結構化實體之間的交互的全局圖。我們注意到,現在有關結構化實體交互預測的工作無法正確利用圖模型的唯一圖。在本文中,我們提出了一種圖神經網絡圖(Graph of Graphs Neural Network,GoGNN),它以分層的方式提取結構化實體圖和實體交互圖中的特征。我們還提出了雙重注意機制,該機制使模型能夠在圖的兩個級別中保留鄰居的重要性。在現實世界的數據集上進行的大量實驗表明,GoGNN在兩個代表性的結構化實體交互預測任務上勝過了最新技術:化學-化學交互預測和藥物-藥物交互預測。
代碼:
網址:
5、Domain Adaptive Classification on Heterogeneous Information Networks
作者:Shuwen Yang, Guojie Song, Yilun Jin, Lun Du
摘要:異構信息網絡(HIN)是無處不在的結構,因為它們可以描述復雜的關系數據。由于這些數據的復雜性,很難在HIN上獲得足夠的標記數據,從而妨礙了HIN的分類。雖然領域適應(DA)技術已在圖像和文本中得到廣泛利用,但是異構性和復雜的語義對HIN上的領域自適應分類提出了特定的挑戰。一方面,HIN涉及多個級別的語義,這要求在它們之間進行域對齊。另一方面,由于域不變性特征是同質的并且對分類沒有信息,因此必須精心選擇域相似性和可區分性之間的權衡。在本文中,我們提出了多空間域自適應分類(MuSDAC)來解決HIN上的DA問題。具體來說,我們利用多通道共享權重GCN,將HIN中的節點投影到執行成對對齊的多個空間。此外,我們提出了一種啟發式采樣算法,該算法可以有效地選擇具有可區分性的通道組合,并采用移動平均加權投票(moving averaged weighted voting)方案來融合所選通道,從而最大程度地減少傳輸和分類損失。在成對數據集上進行的大量實驗證明了我們模型在HIN領域自適應分類和各個組成部分的貢獻方面的表現。
網址:
6、Bilinear Graph Neural Network with Neighbor Interactions
作者:Hongmin Zhu, Fuli Feng, Xiangnan He, Xiang Wang, Yan Li, Kai Zheng, Yongdong Zhang
摘要:圖神經網絡(GNN)是一個功能強大的模型,可用于學習表示形式并對圖形數據進行預測。對GNN的現有工作已將圖卷積定義為所連接節點的特征的加權和,以形成目標節點的表示形式。然而,加權和的運算假設相鄰節點彼此獨立,并且忽略它們之間可能的交互。當存在這樣的交互時,例如兩個鄰居節點的同時出現是目標節點特征的強烈信號,現有的GNN模型可能無法捕獲該信號。在這項工作中,我們認為在GNN中對相鄰節點之間的交互進行建模是十分重要的。我們提出了一種新的圖卷積算子,該算子通過鄰居節點表示的成對交互來增加加權和。我們將此框架稱為雙線性圖神經網絡( Bilinear Graph Neural Network ,BGNN),該框架可通過相鄰節點間的雙線性交互雙線性來提高GNN表示能力。特別是,我們分別基于著名的GCN和GAT指定了兩個名為BGCN和BGAT的BGNN模型。關于三個半監督節點分類的公開基準的實證結果證明了BGNN的有效性-BGCN(BGAT)在分類準確度方面比GCN(GAT)高1.6%(1.5%)。
代碼:
網址:
【導讀】作為世界數據挖掘領域的最高級別的學術會議,ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)每年都會吸引全球領域眾多專業人士參與。今年的 KDD大會計劃將于 2020 年 8 月 23 日 ~27 日在美國美國加利福尼亞州圣地亞哥舉行。上周,KDD 2020官方發布接收論文,共有1279篇論文提交到Research Track,共216篇被接收,接收率16.8%。近期KDD官網公布了接受論文列表,為此,上個月專知小編為大家整理了圖神經網絡相關的論文,這期小編繼續為大家奉上KDD 2020必讀的五篇圖神經網絡(GNN)相關論文-Part 2——多層次GCN、無監督預訓練GCN、圖Hash、GCN主題模型、采樣
KDD 2020 Accepted Paper: //www.kdd.org/kdd2020/accepted-papers
KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、
1. Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction
作者:Hongxu Chen, Hongzhi Yin, Xiangguo Sun, Tong Chen, Bogdan Gabrys, Katarzyna Musial
摘要:跨平臺的賬號匹配在社交網絡分析中發揮著重要作用,并且有利于廣泛的應用。然而,現有的方法要么嚴重依賴于高質量的用戶生成內容(包括用戶興趣模型),要么只關注網絡拓撲結構,存在數據不足的問題,這使得研究這個方向變得很困難。為了解決這一問題,我們提出了一種新的框架,該框架統一考慮了局部網絡結構和超圖結構上的多級圖卷積。該方法克服了現有工作中數據不足的問題,并且不一定依賴于用戶的人口統計信息。此外,為了使所提出的方法能夠處理大規模社交網絡,我們提出了一種兩階段的空間協調機制,在基于網絡分區的并行訓練和跨不同社交網絡的帳戶匹配中對齊嵌入空間。我們在兩個大規模的真實社交網絡上進行了廣泛的實驗。實驗結果表明,該方法的性能比現有的模型有較大幅度的提高。
網址:
2. GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training
作者:Jiezhong Qiu, Qibin Chen, Yuxiao Dong, Jing Zhang, Hongxia Yang, Ming Ding, Kuansan Wang, Jie Tang
摘要:圖表示學習已經成為解決現實問題的一種強有力的技術。包括節點分類、相似性搜索、圖分類和鏈接預測在內的各種下游圖學習任務都受益于它的最新發展。然而,關于圖表示學習的現有技術集中于領域特定的問題,并為每個圖訓練專用模型,這通常不可轉移到領域之外的數據。受自然語言處理和計算機視覺在預訓練方面的最新進展的啟發,我們設計了圖對比編碼(Graph Contrastive Coding,GCC)一個無監督的圖表示學習框架來捕捉跨多個網絡的通用網絡拓撲屬性。我們將GCC的預訓練任務設計為網絡內部和網絡之間的子圖級別的實例判斷,并利用對比學習來增強模型學習內在的和可遷移的結構表征能力。我們在三個圖學習任務和十個圖數據集上進行了廣泛的實驗。結果表明,GCC在一組不同的數據集上進行預訓練,可以獲得與從頭開始的特定任務訓練的方法相媲美或更好的性能。這表明,預訓練和微調范式對圖表示學習具有巨大的潛力。
網址:
代碼鏈接:
3. GHashing: Semantic Graph Hashing for Approximate Similarity Search in Graph Databases
作者:Zongyue Qin, Yunsheng Bai, Yizhou Sun
摘要:圖相似搜索的目的是根據給定的鄰近度,即圖編輯距離(GED),在圖形數據庫中找到與查詢最相似的圖。這是一個被廣泛研究但仍具有挑戰性的問題。大多數研究都是基于剪枝驗證框架,該框架首先對非看好的圖進行剪枝,然后在較小的候選集上進行驗證。現有的方法能夠管理具有數千或數萬個圖的數據庫,但由于其精確的剪枝策略,無法擴展到更大的數據庫。受到最近基于深度學習的語義哈希(semantic hashing)在圖像和文檔檢索中的成功應用的啟發,我們提出了一種新的基于圖神經網絡(GNN)的語義哈希,即GHash,用于近似剪枝。我們首先用真實的GED結果訓練GNN,以便它學習生成嵌入和哈希碼,以保持圖之間的GED。然后建立哈希索引以實現恒定時間內的圖查找。在回答一個查詢時,我們使用哈希碼和連續嵌入作為兩級剪枝來檢索最有希望的候選對象,并將這些候選對象發送到精確的求解器進行最終驗證。由于我們的圖哈希技術利用了近似剪枝策略,與現有方法相比,我們的方法在保持高召回率的同時,實現了顯著更快的查詢時間。實驗表明,該方法的平均速度是目前唯一適用于百萬級數據庫的基線算法的20倍,這表明GHash算法成功地為解決大規模圖形數據庫的圖搜索問題提供了新的方向。
網址:
4. Graph Structural-topic Neural Network
作者:Qingqing Long, Yilun Jin, Guojie Song, Yi Li, Wei Lin
摘要:圖卷積網絡(GCNS)通過有效地收集節點的局部特征,取得了巨大的成功。然而,GCNS通常更多地關注節點特征,而較少關注鄰域內的圖結構,特別是高階結構模式。然而,這種局部結構模式被顯示為許多領域中的節點屬性。此外,由于網絡很復雜,每個節點的鄰域由各種節點和結構模式的混合組成,不只是單個模式,所有這些模式上的分布都很重要。相應地,在本文中,我們提出了圖結構主題神經網絡,簡稱GraphSTONE,這是一種利用圖的主題模型的GCN模型,使得結構主題廣泛地從概率的角度捕捉指示性的圖結構,而不僅僅是幾個結構。具體地說,我們使用 anonymous walks和Graph Anchor LDA(一種LDA的變體,首先選擇重要的結構模式)在圖上建立主題模型,以降低復雜性并高效地生成結構主題。此外,我們設計了多視圖GCNS來統一節點特征和結構主題特征,并利用結構主題來指導聚合。我們通過定量和定性實驗對我們的模型進行了評估,我們的模型表現出良好的性能、高效率和清晰的可解釋性。
網址:
代碼鏈接:
5. Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks
作者:Weilin Cong, Rana Forsati, Mahmut Kandemir, Mehrdad Mahdavi
摘要:抽樣方法(如節點抽樣、分層抽樣或子圖抽樣)已成為加速大規模圖神經網絡(GNNs)訓練不可缺少的策略。然而,現有的抽樣方法大多基于圖的結構信息,忽略了最優化的動態性,導致隨機梯度估計的方差較大。高方差問題在非常大的圖中可能非常明顯,它會導致收斂速度慢和泛化能力差。本文從理論上分析了抽樣方法的方差,指出由于經驗風險的復合結構,任何抽樣方法的方差都可以分解為前向階段的嵌入近似方差和后向階段的隨機梯度方差,這兩種方差都必須減小,才能獲得較快的收斂速度。我們提出了一種解耦的方差減小策略,利用(近似)梯度信息自適應地對方差最小的節點進行采樣,并顯式地減小了嵌入近似引入的方差。理論和實驗表明,與現有方法相比,該方法即使在小批量情況下也具有更快的收斂速度和更好的泛化能力。
網址:
【導讀】作為CCF推薦的A類國際學術會議,International ACM SIGIR Conference on Research and Development in Information Retrieval(國際計算機學會信息檢索大會,簡稱 SIGIR)在信息檢索領域享有很高的學術聲譽,每年都會吸引全球眾多專業人士參與。今年的 SIGIR 2020計劃將于 2020年7月25日~30日在中國西安舉行。本次大會共有555篇長文投稿,僅有147篇長文被錄用,錄用率約26%。專知小編提前為大家整理了六篇SIGIR 2020 基于圖神經網絡的推薦(GNN+RS)相關論文,這六篇論文分別出自中科大何向南老師和和昆士蘭大學陰紅志老師團隊,供大家參考——捆綁推薦、Disentangled GCF、服裝推薦、多行為推薦、全局屬性GNN
CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN
1. Bundle Recommendation with Graph Convolutional Networks
作者:Jianxin Chang, Chen Gao, Xiangnan He, Yong Li, Depeng Jin
摘要:捆綁推薦(Bundle recommendation )旨在推薦一組商品供用戶整體消費。現有的解決方案通過共享模型參數或多任務學習的方式將用戶項目交互建模集成到捆綁推薦中,然而,這些方法不能顯式建模項目與捆綁包(bundles)之間的隸屬關系,不能探索用戶選擇捆綁包時的決策。在這項工作中,我們提出了一個用于捆綁推薦的圖神經網絡模型BGCN(Bundle Graph Convolutional Network)。BGCN將用戶-項目交互、用戶-捆綁包交互和捆綁包-項目從屬關系統一到一個異構圖中。以項目節點為橋梁,在用戶節點和捆綁包節點之間進行圖卷積傳播,使學習到的表示能夠捕捉到項目級的語義。通過基于hard-negative采樣器的訓練,可以進一步區分用戶對相似捆綁包的細粒度偏好。在兩個真實數據集上的實驗結果表明,BGCN的性能有很高的提升,其性能比最新的基線高出10.77%到23.18%。
網址: //arxiv.org/abs/2005.03475
2. Disentangled Graph Collaborative Filtering
作者:Xiang Wang, Hongye Jin, An Zhang, Xiangnan He, Tong Xu, Tat-Seng Chua
摘要:從交互數據中學習用戶和項目的信息表示對于協同過濾(CF)至關重要。當前的嵌入函數利用用戶-項目關系來豐富表示,從單個用戶-項目實例演變為整體交互圖。然而,這些方法在很大程度上以統一的方式對關系進行建模,而忽略了用戶采用這些項目的意圖的多樣性,這可能是為了打發時間,為了興趣,或者為其他人(如家庭)購物。這種統一的對用戶興趣建模的方法很容易導致次優表示,不能對不同的關系建模并在表示中分清用戶意圖。在這項工作中,我們特別關注用戶意圖細粒度上的用戶-項目關系。因此,我們設計了一種新的模型- Disentangled圖協同過濾(Disentangled Graph Collaborative Filtering ,DGCF),來理清這些因素并產生disentangled的表示。具體地說,通過在每個用戶-項目交互意圖上的分布建模,我們迭代地細化意圖感知的交互圖和表示。同時,我們鼓勵不同的意圖獨立。這將生成disentangled的表示,有效地提取與每個意圖相關的信息。我們在三個基準數據集上進行了廣泛的實驗,DGCF與NGCF、DisenGCN和MacridV AE這幾個最先進的模型相比取得了顯著的改進。進一步的分析揭示了DGCF在分解用戶意圖和表示的可解釋性方面的優勢。
網址:
代碼鏈接:
.
3. GCN-Based User Representation Learning for Unifying Robust Recommendation and Fraudster Detection
作者:Shijie Zhang, Hongzhi Yin, Tong Chen, Quoc Viet Nguyen Hung, Zi Huang, Lizhen Cui
摘要:近年來,推薦系統已經成為所有電子商務平臺中不可缺少的功能。推薦系統的審查評級數據通常來自開放平臺,這可能會吸引一群惡意用戶故意插入虛假反饋,試圖使推薦系統偏向于他們。此類攻擊的存在可能會違反高質量數據始終可用的建模假設,而這些數據確實會影響用戶的興趣和偏好。因此,構建一個即使在攻擊下也能產生穩定推薦的健壯推薦系統具有重要的現實意義。本文提出了一種基于GCN的用戶表示學習框架GraphRf,該框架能夠統一地進行穩健的推薦和欺詐者檢測。在其端到端學習過程中,用戶在欺詐者檢測模塊中被識別為欺詐者的概率自動確定該用戶的評級數據在推薦模塊中的貢獻;而在推薦模塊中輸出的預測誤差作為欺詐者檢測模塊中的重要特征。因此,這兩個組成部分可以相互促進。經過大量的實驗,實驗結果表明我們的GraphRf在魯棒評級預測和欺詐者檢測這兩個任務中具有優勢。此外,所提出的GraphRf被驗證為對現有推薦系統上的各種攻擊具有更強的魯棒性。
網址:
4. Hierarchical Fashion Graph Network for Personalized Outfit Recommendation
作者:Xingchen Li, Xiang Wang, Xiangnan He, Long Chen, Jun Xiao, Tat-Seng Chua
摘要:服裝推薦越來越受到網購服務商和時尚界的關注。與向用戶推薦單個單品(例如,朋友或圖片)的其他場景(例如,社交網絡或內容共享)不同,服裝推薦預測用戶對一組匹配良好的時尚單品的偏好。因此,進行高質量的個性化服裝推薦應滿足兩個要求:1)時尚單品的良好兼容性;2)與用戶偏好的一致性。然而,目前的研究主要集中在其中一個需求上,只考慮了用戶-全套服裝(outfit)或全套服裝-項目的關系,從而容易導致次優表示,限制了性能。在這項工作中,我們統一了兩個任務,服裝兼容性建模和個性化服裝推薦。為此,我們開發了一個新的框架,層次時尚圖網絡(HFGN),用于同時建模用戶、商品和成套服裝之間的關系。特別地,我們構建了一個基于用戶-全套服裝交互和全套服裝-項目映射的層次結構。然后,我們從最近的圖神經網絡中得到啟發,在這種層次圖上使用嵌入傳播,從而將項目信息聚合到一個服裝表示中,然后通過他/她的歷史服裝來提煉用戶的表示。此外,我們還對這兩個任務進行了聯合訓練,以優化這些表示。為了證明HFGN的有效性,我們在一個基準數據集上進行了廣泛的實驗,HFGN在NGNN和FHN等最先進的兼容性匹配模型基礎上取得了顯著的改進。
網址:
代碼鏈接:
5. Multi-behavior Recommendation with Graph Convolutional Networks
作者:Bowen Jin, Chen Gao, Xiangnan He, Depeng Jin, Yong Li
摘要:傳統的推薦模型通常只使用一種類型的用戶-項目交互,面臨著嚴重的數據稀疏或冷啟動問題。利用多種類型的用戶-項目交互(例如:點擊和收藏)的多行為推薦可以作為一種有效的解決方案。早期的多行為推薦研究未能捕捉到行為對目標行為的不同程度的影響。它們也忽略了多行為數據中隱含的行為語義。這兩個限制都使得數據不能被充分利用來提高對目標行為的推薦性能。在這項工作中,我們創新性地構造了一個統一的圖來表示多行為數據,并提出了一種新的模型--多行為圖卷積網絡(Multi-Behavior Graph Convolutional Network,MBGCN)。MBGCN通過用戶-項目傳播層學習行為強度,通過項目-項目傳播層捕獲行為語義,較好地解決了現有工作的局限性。在兩個真實數據集上的實驗結果驗證了該模型在挖掘多行為數據方面的有效性。我們的模型在兩個數據集上的性能分別比最優基線高25.02%和6.51%。對冷啟動用戶的進一步研究證實了該模型的實用性。
網址:
6. GAG: Global Atributed Graph Neural Network for Streaming Session-based Recommendation
作者:Ruihong Qiu, Hongzhi Yin, Zi Huang, Tong Chen
摘要:基于流會話的推薦(Streaming session-based recommendation,SSR)是一項具有挑戰性的任務,它要求推薦器系統在流媒體場景(streaming scenario)中進行基于會話的推薦(SR)。在電子商務和社交媒體的現實應用中,在一定時間內產生的一系列用戶-項目交互被分組為一個會話,這些會話以流的形式連續到達。最近的SR研究大多集中在靜態集合上,即首先獲取訓練數據,然后使用該集合來訓練基于會話的推薦器模型。他們需要對整個數據集進行幾個epoch的訓練,這在流式設置下是不可行的。此外,由于對用戶信息的忽視或簡單使用,它們很難很好地捕捉到用戶的長期興趣。雖然最近已經提出了一些流推薦策略,但它們是針對個人交互流而不是會話流而設計的。本文提出了一種求解SSR問題的帶有Wasserstein 庫的全局屬性圖(GAG)神經網絡模型。一方面,當新的會話到達時,基于當前會話及其關聯用戶構造具有全局屬性的會話圖。因此,GAG可以同時考慮全局屬性和當前會話,以了解會話和用戶的更全面的表示,從而在推薦中產生更好的性能。另一方面,為了適應流會話場景,提出了Wasserstein庫來幫助保存歷史數據的代表性草圖。在兩個真實數據集上進行了擴展實驗,驗證了GAG模型與最新方法相比的優越性。
網址:
【導讀】作為世界數據挖掘領域的最高級別的學術會議,ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)每年都會吸引全球領域眾多專業人士參與。今年的 KDD大會計劃將于 2020 年 8 月 23 日 ~27 日在美國美國加利福尼亞州圣地亞哥舉行。上周,KDD 2020官方發布接收論文,共有1279篇論文提交到Research Track,共216篇被接收,接收率16.8%。近期一些Paper放出來了,為此,專知小編提前為大家整理了五篇KDD 2020 圖神經網絡(GNN)相關論文,供大家參考。——圖結構學習、多元時間序列預測、負采樣、多任務多視角圖表示學習、多興趣推薦
CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、
1. Graph Structure Learning for Robust Graph Neural Networks
作者:Wei Jin, Yao Ma, Xiaorui Liu, Xianfeng Tang, Suhang Wang, Jiliang Tang
摘要:圖神經網絡(GNNs)是圖表示學習的有力工具。但是,最近的研究表明,GNN容易受到精心設計的擾動(稱為對抗攻擊)的攻擊。對抗性攻擊很容易欺騙GNN來預測下游任務。對于對抗攻擊的脆弱性使人們越來越關注在安全關鍵型應用中應用GNN。因此,開發穩健的算法來防御對抗攻擊具有重要意義。防御對抗攻擊的一個自然想法是清理受干擾的圖。很明顯,真實世界的圖共享一些內在屬性。例如,許多現實世界的圖都是低秩和稀疏的,兩個相鄰節點的特征往往是相似的。事實上,我們發現對抗攻擊很可能會違背這些圖的性質。因此,在本文中,我們利用這些特性來防御針對圖的對抗攻擊。特別是,我們提出了一個通用框架Pro-GNN,該框架可以從受這些特性指導的擾動圖中聯合學習結構圖和魯棒圖神經網絡模型。在真實圖上的大量實驗表明,即使在圖受到嚴重干擾的情況下,我們所提出的框架也比現有的防御方法獲得了顯著更好的性能。我們將Pro-GNN的實現發布到我們的DeepRobust存儲庫,以進行對抗性攻擊和防御。
網址: //arxiv.org/pdf/2005.10203.pdf
代碼鏈接:
2. Connecting the Dots: Multivariate Time Series Forecasting with Graph Neural Networks
作者:Zonghan Wu, Shirui Pan, Guodong Long, Jing Jiang, Xiaojun Chang, Chengqi Zhang
摘要:多變量時間序列的建模長期以來一直吸引著來自經濟、金融和交通等不同領域的研究人員的關注。多變量時間序列預測背后的一個基本假設是其變量之間相互依賴,但現有方法未能充分利用變量對之間的潛在空間相關性。同時,近些年來,圖神經網絡(GNNs)在處理關系依賴方面表現出了很高的能力。GNN需要定義良好的圖結構來進行信息傳播,這意味著它們不能直接應用于事先不知道依賴關系的多變量時間序列。本文提出了一種專門針對多變量時間序列數據設計的通用圖神經網絡框架。該方法通過圖學習模塊自動提取變量間的單向關系,可以方便地集成變量屬性等外部知識。在此基礎上,提出了一種新的max-hop傳播層和一個dilated inception層來捕捉時間序列中的時間和空間依賴關系。圖學習、圖卷積和時間卷積模塊在端到端框架中聯合學習。實驗結果表明,我們提出的模型在4個基準數據集中的3個數據上優于最新的基線方法,并且在提供額外結構信息的兩個交通數據集上,與其他方法具有同等的性能。
網址:
3. Understanding Negative Sampling in Graph Representation Learning
作者:Zhen Yang, Ming Ding, Chang Zhou, Hongxia Yang, Jingren Zhou, Jie Tang
摘要:在最近的幾年中,對圖表示學習進行了廣泛的研究。盡管它有可能為各種網絡生成連續的嵌入,但是在大型節點集中得到有效高質量的表示仍然具有挑戰性。采樣是實現該性能目標的關鍵點。現有技術通常側重于正向節點對的采樣,而對負向采樣的策略探索不夠。為了彌補這一差距,我們從目標和風險兩個角度系統地分析了負采樣的作用,從理論上論證了負采樣在確定優化目標和結果方差方面與正采樣同等重要。據我們所知,我們是第一個推導該理論并量化負采樣分布應與其正采樣分布成正相關但亞線性相關的方法。在該理論的指導下,我們提出了MCNS,用自對比度近似法近似正分布,并通過Metropolis-Hastings加速負采樣。我們在5個數據集上評估了我們的方法,這些數據集涵蓋了19個實驗設置,涵蓋了廣泛的下游圖學習任務,包括鏈接預測,節點分類和個性化推薦。這些相對全面的實驗結果證明了其穩健性和優越性。
網址:
4. M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems
作者:Menghan Wang, Yujie Lin, Guli Lin, Keping Yang, Xiao-ming Wu
摘要:將圖表示學習與多視圖數據(邊信息)相結合進行推薦是工業上的一種趨勢。現有的大多數方法可以歸類為多視圖表示融合,它們首先構建一個圖,然后將多視圖數據集成到圖中每個節點的單個緊湊表示中。這些方法在工程和算法方面都引起了人們的關注:1)多視圖數據在工業中是豐富而且有用的,并且可能超過單個矢量的容量;2)由于多視圖數據往往來自不同的分布,可能會引入歸納偏置(inductive bias)。在本文中,我們使用一種多視圖表示對齊方法來解決這個問題。特別地,我們提出了一個多任務多視角圖表示學習框架(M2GRL)來學習web級推薦系統中的多視角圖節點表示。M2GRL為每個單視圖數據構造一個圖,從多個圖中學習多個單獨的表示,并執行對齊以建立模型的交叉視圖關系。M2GRL選擇了一種多任務學習范式來聯合學習視圖內表示和交叉視圖關系。此外,M2GRL在訓練過程中利用同方差不確定性自適應地調整任務的損失權重。我們在淘寶部署了M2GRL,并對570億個實例進行了訓練。根據離線指標和在線A/B測試,M2GRL的性能明顯優于其他最先進的算法。對淘寶多樣性推薦的進一步研究表明,利用M2GRL產生的多種表征是有效的,對于不同側重點的各種工業推薦任務來說,M2GRL是一個很有前途的方向。
網址:
5. Controllable Multi-Interest Framework for Recommendation
作者:Yukuo Cen, Jianwei Zhang, Xu Zou, Chang Zhou, Hongxia Yang, Jie Tang
摘要:近年來,由于深度學習的快速發展,神經網絡在電子商務推薦系統中得到了廣泛的應用。我們將推薦系統形式化為一個序列推薦問題,目的是預測可能與用戶交互的下一個項目。最近的研究通常從用戶的行為序列中給出一個整體的嵌入。然而,統一的用戶嵌入不能反映用戶在一段時間內的多個興趣。本文提出了一種新穎的可控多興趣序列推薦框架,稱為ComiRec。我們的多興趣模塊從用戶行為序列中捕獲多個興趣,可用于從大規模項目集中檢索候選項目。然后將這些項目送入聚合模塊以獲得總體推薦。聚合模塊利用一個可控因素來平衡推薦的準確性和多樣性。我們在兩個真實的數據集Amazon和Taobao進行序列推薦實驗。實驗結果表明,我們的框架相對于最新模型取得了重大改進。我們的框架也已成功部署在離線阿里巴巴分布式云平臺上。
網址:
代碼鏈接:
【導讀】國際萬維網大會(The Web Conference,簡稱WWW會議)是由國際萬維網會議委員會發起主辦的國際頂級學術會議,創辦于1994年,每年舉辦一屆,是CCF-A類會議。WWW 2020已于2020年4月20日至4月24日在中國臺灣臺北舉行。會議論文集已經公開,大家可以自己查看感興趣的論文,專知小編繼續整理WWW 2020 系列論文,這期小編為大家奉上的是WWW 2020六篇遷移學習(Transfer Learning)相關論文,供大家參考!——主動域遷移、多任務域遷移、類別注意力遷移網絡、多模態域遷移、跨域推薦、跨域欺詐檢測。
WWW 2020 會議論文集: //dl.acm.org/doi/proceedings/10.1145/3366423
WWW2020KG+GNN、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
CCF-A類頂會WWW2020最佳論文出爐!OSU最佳論文,北郵斬獲最佳學生論文!
1. Active Domain Transfer on Network Embedding
作者:Lichen Jin, Yizhou Zhang, Guojie Song, Yilun Jin
摘要:最近的工作表明,端到端、監督(半監督)的網絡嵌入模型可以生成令人滿意的向量來表示網絡拓撲,甚至可以通過歸納學習(inductive learning)適用于未知(unseen)的圖。然而,歸納學習的訓練網絡和測試網絡之間的域不匹配,以及缺乏標記數據,會影響這種方法的結果。相應地能夠解決上述問題的遷移學習和主動學習(active learning)技術已經在常規獨立同分布數據上得到了很好的研究,而它們在網絡上的關注相對較少。因此,本文提出了一種網絡上的主動遷移學習方法,稱為主動遷移網絡嵌入(Active-Transfer Network Embedding,ATNE)。在ATNE中,我們從遷移和主動學習兩個角度綜合考慮各個節點對網絡的影響,從而在訓練過程中結合這兩個方面設計新穎有效的影響分值以方便節點的選擇。我們證明了ATNE是有效的,并且與實際使用的模型是解耦的。進一步的實驗表明,ATNE的性能優于最新的主動節點選擇方法,并且在不同的情況下表現出了通用性。
網址:
2. Anchored Model Transfer and Soft Instance Transfer for Cross-Task Cross-Domain Learning: A Study Through Aspect-Level Sentiment Classification
作者:Yaowei Zheng, Richong Zhang, Suyuchen Wang, Samuel Mensah, Yongyi Mao
摘要:監督學習在很大程度上依賴于容易獲得的標記數據來推斷有效的分類函數。然而,在有監督學習下提出的方法面臨領域內標注數據稀缺的問題,且通用性不夠強,不能適用于其他任務。通過允許跨域和跨任務共享知識,遷移學習已被證明是解決這些問題的一個有價值的選擇。通過允許跨域和跨任務共享知識,遷移學習已被證明是解決上述問題的一個有價值的選擇。本文提出了Anchored Model遷移(AMT)和Soft Instance遷移(SIT)兩種遷移學習方法,這兩種學習方法都是基于多任務學習,兼顧了模型遷移和實例遷移,可以結合到一個通用的框架中。我們證明了AMT和SIT對于aspect-level的情感分類的有效性,在基準數據集上我們的模型表現出比基線模型更有競爭力的表現。有趣的是,AMT + SIT的集成可在同一任務上實現最先進的性能。
網址:
作者:Dongbo Xi, Fuzhen Zhuang, Ganbin Zhou, Xiaohu Cheng, Fen Lin, Qing He
摘要:跨域情感分類等領域自適應任務旨在利用源域中已有的已標記數據和目標域中未標記或很少的標記數據,通過減少數據分布之間的偏移來提高目標域的性能。現有的跨領域情感分類方法需要區中心點(pivots)(即領域共享的情感詞)和非中心點(即領域特定的情感詞),才能獲得良好的自適應性能。本文首先設計了一個類別注意網絡(CAN),然后提出了一種將CAN和卷積神經網絡(CNN)相結合的CAN-CNN模型。該模型一方面將中心點和非中心點作為統一的類別屬性詞進行自動捕獲,提高領域自適應性能;另一方面,對遷移后的類別屬性詞進行可解釋性學習的嘗試。具體地說,該模型的優化目標有三個不同的組成部分:1)監督分類損失;2)類別特征權重的分布損失;3)領域不變性損失。最后,在三個輿情分析數據集上對所提出的模型進行了評估,結果表明CAN-CNN的性能優于其他各種基線方法。
網址:
4. Domain Adaptive Multi-Modality Neural Attention Network for Financial Forecasting
作者:Dawei Zhou, Lecheng Zheng, Yada Zhu, Jianbo Li, Jingrui He
摘要:金融時間序列分析在優化投資決策、對沖市場風險方面起著核心作用。這是一項具有挑戰性的任務,因為問題總是伴隨著雙層(即數據級和任務級)的異構性。例如,在股價預測中,一個成功的具有有限風險的投資組合通常由來自不同領域(如公用事業、信息技術、醫療保健等)的大量股票組成,每個領域的股票預測可以視為一個任務;在一個投資組合中,每個股票的特征是從多個模態(例如金融、天氣和新聞)收集的時間數據,這對應于數據層的異構性。此外,金融業遵循高度監管的過程,這就要求預測模型是可解釋的,輸出結果必須滿足合規性。因此,一個自然的研究問題就是如何建立一個模型,既能在解決此類多通道多任務學習問題時取得滿意的性能,又能為最終用戶提供全面的解釋。為了回答這個問題,本文提出了一個通用的時間序列預測框架Dandelion,它利用多模態的一致性,并使用深度神經網絡來探索多個任務的相關性。此外,為了保證框架的可解釋性,我們集成了一種新的三位一體的注意機制,允許最終用戶在三個維度(即任務、通道和時間)上調查變量重要性。廣泛的實證結果表明,Dandelion在過去15年中對來自4個不同領域的396只股票的金融市場預測取得了優異的表現。具體地說,兩個有趣的案例研究顯示了Dandelion在其盈利表現和輸出結果對最終用戶的可解釋性方面的成效。
網址:
5. Exploiting Aesthetic Preference in Deep Cross Networks for Cross-domain Recommendation
作者:Jian Liu, Pengpeng Zhao, Fuzhen Zhuang, Yanchi Liu, Victor S. Sheng, Jiajie Xu, Xiaofang Zhou, Hui Xiong
摘要:產品的視覺美學在購買外觀優先的產品(如服裝)的決策過程中起著重要的作用。用戶的審美偏好作為一種個性特征和基本要求,是與領域無關的,可以作為領域間知識遷移的橋梁。然而,現有的工作很少考慮產品圖像中的審美信息進行跨域推薦。為此,本文提出了一種新的深度審美跨域網絡(ACDN),通過跨網絡共享表征個人審美偏好的參數來實現領域間的知識傳遞。具體地說,我們首先利用審美網絡來提取審美特征。然后,我們將這些特征集成到一個跨域網絡中,以傳遞用戶與領域無關的審美偏好。此外,還引入了網絡交叉連接,以實現跨域的雙重知識轉移。最后,在真實數據集上的實驗結果表明,我們提出的模型ACDN在推薦準確率方面優于基準方法。
網址:
6. Modeling Users’ Behavior Sequences with Hierarchical Explainable Network for Cross-domain Fraud Detection
作者:Yongchun Zhu, Dongbo Xi, Bowen Song, Fuzhen Zhuang, Shuai Chen, Xi Gu, Qing He
摘要:隨著電子商務行業的爆炸式增長,檢測現實應用中的網絡交易欺詐對電子商務平臺的發展變得越來越重要。用戶的連續行為歷史為區分欺詐支付和正常支付提供了有用的信息。最近,已經提出了一些方法來解決這一基于序列的欺詐檢測問題。然而,這些方法通常存在兩個問題:預測結果難以解釋和對行為內部信息的利用不足。針對上述兩個問題,本文提出了一種分層可解釋網絡(HEN)對用戶行為序列進行建模,不僅提高了欺詐檢測的性能,而且使推理過程具有可解釋性。同時,隨著電子商務業務擴展到新的領域,例如,新的國家或新的市場,在欺詐檢測系統中建模用戶行為的一個主要問題是數據收集的限制(例如,可用的數據/標簽非常少)。因此,在本文中,我們進一步提出了一個跨域欺詐檢測問題的遷移框架,該框架的目的是從現有領域(源域)遷移足夠成熟數據的知識,以提高在新領域(目標域)的性能。我們提出的方法是一個通用的遷移框架,它不僅可以應用于HEN,而且可以應用于嵌入&MLP范式中的各種現有模型。利用世界領先的跨境電商平臺的數據,我們在不同國家進行了廣泛的檢測盜卡交易詐騙的實驗,以展示HEN的優越性能。此外,基于90個遷移任務的實驗,證明了我們的遷移框架不僅可以用于HEN的跨域詐騙檢測任務,而且對現有的各種模型都具有通用性和可擴展性。此外,HEN和遷移框架形成了三個級別的注意力,極大地提高了檢測結果的可解釋性。
網址:
【導讀】國際萬維網大會(The Web Conference,簡稱WWW會議)是由國際萬維網會議委員會發起主辦的國際頂級學術會議,創辦于1994年,每年舉辦一屆,是CCF-A類會議。WWW 2020將于2020年4月20日至4月24日在中國臺灣臺北舉行。本屆會議共收到了1129篇長文投稿,錄用217篇長文,錄用率為19.2%。近期,隨著會議的臨近,有很多paper放出來,專知小編提前整理了WWW 2020圖神經網絡(GNN)比較有意思的的論文—TaxoExpan,結構深度聚類網絡、MetapathGNN、對抗樣本、圖域自適應。
作者:Jiaming Shen, Zhihong Shen, Chenyan Xiong, Chi Wang, Kuansan Wang, Jiawei Han
摘要:本體結構(Taxonomies)由機器可解釋的語義組成,并為許多Web應用程序提供有價值的知識。例如,在線零售商(亞馬遜和eBay)使用本體結構進行產品推薦,而網絡搜索引擎(Google和Bing)利用本體結構來增強查詢理解。當前我們在人工或半自動地構建本體結構方面已經做出了巨大的努力。然而,隨著網絡內容數量的快速增長,現有的本體結構無法捕捉到新興的知識。因此,在許多應用程序中,十分需要對現有本體結構進行動態擴展。在本文中,我們研究了如何通過添加一組新的概念來擴展現有的本體結構。我們提出了一種新的自監督框架TaxoExpanTM,該框架從已有的本體結構中自動生成一組 ?query concept, anchor concept ? 對作為訓練數據。使用這樣的自監督數據,TaxoExpanTM學習一個模型來預測query concept是否是 anchor concept的直接下義詞。我們在TaxoExspan中提出了兩種創新技術:(1)位置增強型圖形神經網絡,它編碼現有本體結構中anchor concept的局部結構;2)噪聲魯棒性訓練目標,使學習的模型能夠對自監控數據中的標簽噪聲不敏感。在來自不同領域的三個大規模數據集上的廣泛實驗證明了TaxoExspan在分類系統擴展方面的有效性和高效性。
作者:Deyu Bo, Xiao Wang, Chuan Shi, Meiqi Zhu, Emiao Lu, Peng Cui
摘要:聚類是數據分析的基本任務。近年來,深度聚類技術(deep clustering)得到了廣泛的關注,它的靈感主要來自于深度學習方法。當前的深度聚類方法通常借助深度學習強大的表示能力(如自編碼)來提高聚類結果,這表明學習一種有效的聚類表示是一個關鍵的要求。深度聚類方法的優勢在于從數據本身中提取有用的表示,而不是從數據的結構中提取,這在表示學習中受到的關注較少。基于圖卷積網絡(GCN)在對圖結構進行編碼方面取得的巨大成功,我們提出了一種結構化深度聚類網絡(SDCN),將結構信息集成到深度聚類中。具體來說,我們設計了一個傳遞算子,將自編碼器學習到的表示轉換到相應的GCN層,并設計了雙重自監督機制來統一這兩種不同的深層神經結構,指導整個模型的更新。通過這種方式,從低階到高階的多種數據結構自然地與自動編碼器學習的多種表示相結合。在此基礎上,從理論上分析了傳遞算子。通過使用傳遞操作符,GCN改進了作為高階圖正則化約束的特定于自編碼的表示形式,并且自動編碼器有助于緩解GCN中的過度平滑問題。通過綜合實驗,我們證明我們提出的模型可以持續地比最先進的技術表現得更好。
網址:
作者:Xinyu Fu, Jiani Zhang, Ziqiao Meng, Irwin King
摘要:大量真實世界的圖或網絡本質上是異構的,涉及節點類型和關系類型的多樣性。異構圖嵌入是將異構圖的豐富結構和語義信息嵌入到低維節點表示中。現有的模型通常定義多個metapaths在異構圖捕捉復合關系和指導鄰居選擇。但是,這些模型要么忽略節點內容特性,要么沿著元路徑丟棄中間節點,要么只考慮一個元路徑。為了解決這三個局限性,我們提出了一種新的集合圖神經網絡模型來提高最終性能。具體來說,MAGNN使用了三個主要組件,即,節點內容轉換封裝輸入節點屬性,元內聚合合并中間語義節點,元間聚合合并來自多個元的消息。在三個真實世界的異構圖數據集上進行了大量的節點分類、節點聚類和鏈路預測實驗,結果表明MAGNN的預測結果比最先進的基線更準確。
網址:
作者:Jinyuan Jia, Binghui Wang, Xiaoyu Cao, Neil Zhenqiang Gong
摘要:社區發現(Community detection)在理解圖結構中起著關鍵作用。但是,最近的一些研究表明,社區發現很容易受到對抗性結構的干擾。即通過在圖中添加或刪除少量選擇的邊,攻擊者可以控制發現的社區。然而,目前還沒有關于社區發現對這種對抗性結構擾動的魯棒性的研究。為了減少這一差距,在這項工作中,我們開發了第一個經過認證的可以抵御對抗性結構擾動的社區發現的魯棒性保證。在任意給定的社區發現方法的基礎上,通過對圖結構隨機進行擾動,構建了一種新的平滑社區發現方法。在理論上,當攻擊者添加/刪除有限數量的邊時,平滑社區發現方法可以將給定的任意節點集合分到相同的社區(或不同的社區)中。此外, 我們還根據經驗在真實社區的多個現實圖上評估了我們的方法。
網址:
作者:Man Wu, Shirui Pan, Chuan Zhou, Xiaojun Chang, Xingquan Zhu
摘要:圖卷積網絡(GCNS)在許多與圖相關的分析任務中取得了成功。然而,由于圖表示學習和圖結構上的域自適應方面的挑戰,大多數GCN只工作在單個域(圖)中,不能將知識從一個域(圖)傳遞到其他域(圖)中。本文提出了一種新的圖域自適應學習方法--無監督域自適應圖卷積網絡(UDAGCN)。為了實現有效的圖表示學習,我們首先提出了一個對偶圖卷積網絡組件,該組件聯合利用局部一致性和全局一致性來進行特征聚合。注意力機制還用于為不同圖中的每個節點產生統一表示。為了便于圖之間的知識傳遞,我們提出了一個域自適應學習模塊,將源分類器損失、域分類器損失和目標分類器損失這三個不同的損失函數作為一個整體進行優化,從而可以區分源域中的類別標簽、不同領域樣本和目標領域的類別標簽。我們還在節點分類任務的真實數據集上的實驗結果驗證該方法的性能,并與最新的圖神經網絡算法進行了比較。
網址:
作者:Nir Rosenfeld, Aron Szanto, David C. Parkes
摘要:最近,在錯誤信息檢測領域已經使用文本中豐富的信號以及與社交媒體上的內容相關的用戶身份來進行檢測。但由于文本可以被策略性地操縱,賬戶也可以用不同的名字重新創建,以上這些方法本質上是脆弱的。在這項工作中,我們研究了另一種更加自然與健壯的模式:信息傳播的模式。僅根據未經證實的謠言在社交網絡中的傳播模式,就能辨別在線傳播的未經證實的謠言的真實性嗎?
使用圖核(graph kernels )從Twitter中提取復雜的拓撲信息,我們訓練了不考慮語言,用戶身份和時間的準確預測模型,這首次證明了這種“sanitized”的擴散模式具有很高的準確性。 我們的結果表明,通過適當的聚集,即使在傳播的早期階段,人群的集中共享模式也可能會顯示出辨別謠言真假的強有力的信號。
網址:
【導讀】最近小編推出CVPR2019圖卷積網絡相關論文、CVPR2019生成對抗網絡相關視覺論文、【可解釋性】相關論文和代碼,CVPR視覺目標跟蹤相關論文,CVPR視覺問答相關論文,反響熱烈。最近,醫學圖像分割這一新分割應用領域也廣泛受關注,出現了好多新方法、新數據集,今天小編專門整理最新七篇醫學圖像分割相關應用論文—對抗攻擊、跨模態域自適應、遷移學習、one-shot、GAN等。
1、Non-Local Context Encoder: Robust Biomedical Image Segmentation against Adversarial Attacks(非局部上下文編碼器: 針對對抗攻擊的魯棒生物醫學圖像分割)
AAAI ’19 Oral
作者:Xiang He, Sibei Yang, Guanbin Li?, Haofeng Li, Huiyou Chang, Yizhou Yu
摘要:基于深度卷積神經網絡(CNNs)的生物醫學圖像分割技術近年來受到廣泛關注。然而,它對對抗性樣本的脆弱性不容忽視。本文首次發現所有基于CNN的先進生物醫學圖像分割模型都對對抗擾動敏感。這限制了這些方法在安全關鍵的生物醫學領域的應用。在本文中,我們發現生物醫學圖像中的全局空間依賴關系和全局上下文信息可以被用來抵御對抗攻擊。為此,提出了一種基于非局部上下文編碼(NLCE)的短時和長時程空間依賴關系建模方法,并對全局上下文進行編碼,通過信道感知增強特征激活。NLCE模塊增強了非局部上下文編碼網絡(NLCEN)的魯棒性和準確性,NLCEN利用NLCE模塊學習魯棒性增強的金字塔特征表示,并將不同層次的信息集成在一起。在肺和皮膚病變分割數據集上的實驗表明,NLCEN在抵抗對抗攻擊方面優于任何其他先進的生物醫學圖像分割方法。此外,NLCE模塊可用于提高其他基于CNN的生物醫學圖像分割方法的魯棒性。
網址:
2、Synergistic Image and Feature Adaptation: Towards Cross-Modality Domain Adaptation for Medical Image Segmentation(協同圖像與特征自適應: 面向醫學圖像分割的跨模態域自適應)
AAAI ’19 Oral
作者:Cheng Chen, Qi Dou, Hao Chen, Jing Qin, Pheng-Ann Heng
摘要:本文提出了一種新的無監督域自適應框架——協同圖像與特征自適應(SIFA),有效地解決了domain shift問題。域自適應是近年來深度學習研究的一個重要和熱點問題,其目的是解決神經網絡應用于新的測試領域時性能下降的問題。我們提出的SIFA是一個優雅的學習圖,它從圖像和特征兩個角度展示了適應性的協同融合。特別是,我們同時跨域轉換圖像的外觀并且增強所提取的特征的域不變性來進行分割任務。在端到端學習過程中,特征編碼器層由兩個透視圖共享,以掌握它們的共同特征。在不使用目標域的任何標注的情況下,我們的統一模型的學習是以對抗性損失為指導,從各個方面使用多個判別器。我們已經通過對心臟結構的跨模態醫學圖像分割這一具有挑戰性的應用廣泛地驗證了我們的方法。實驗結果表明,我們的SIFA模型能夠將性能下降幅度從17.2%恢復到73.0%,并顯著優于現有的最先進方法。
網址:
代碼鏈接:
3、Data augmentation using learned transformations for one-shot medical image segmentation(利用學習變換進行數據增強,實現one-shot醫學圖像分割)
CVPR ’19
作者:Amy Zhao, Guha Balakrishnan, Frédo Durand, John V. Guttag, Adrian V. Dalca
摘要:圖像分割是醫學應用中的一個重要課題。基于卷積神經網絡的方法獲得了最先進的精度;然而,它們通常依賴于帶有大型標記數據集的監督訓練。醫學圖像的標注需要大量的專業知識和時間,而典型的手工調優的數據增強方法無法捕捉這些圖像中的復雜變化。我們提出了一種自動數據增強方法來合成標記醫學圖像。我們在分割磁共振成像(MRI)腦掃描的任務中展示了我們的方法。我們的方法只需要一次分段掃描,并利用半監督方法中的其他未標記掃描。我們從圖像中學習轉換模型,并使用該模型和帶標記的示例來合成其他帶標記的示例。每個轉換都由空間變形場和強度變化組成,從而能夠綜合復雜的效果,如解剖學和圖像采集過程的變化。我們展示了使用這些新示例訓練有監督的分割器,對于one-shot生物醫學圖像分割的最先進方法有著顯著的改進。我們的代碼可以在
網址:
代碼鏈接:
4、Autofocus Layer for Semantic Segmentation(用于語義分割的自動聚焦層)
作者:Yao Qin, Konstantinos Kamnitsas, Siddharth Ancha, Jay Nanavati, Garrison Cottrell, Antonio Criminisi, Aditya Nori
摘要:為了提高神經網絡的多尺度處理能力,提出了一種自聚焦卷積層用于語義分割。自動聚焦層根據處理過的上下文自適應地改變有效接受域的大小,以生成更強大的特征。這是通過將具有不同膨脹率的多個卷積層并行化來實現的,并結合一種注意力機制,該機制學會將注意力集中在由上下文驅動的最優尺度上。通過共享并行卷積的權值,我們使網絡的規模不變,只增加了少量的參數。提出的自動聚焦層可以很容易地集成到現有網絡中,提高模型的表示能力。我們在骨盆CT多器官分割和MRI腦腫瘤分割的挑戰性任務中評估了我們的模型,并取得了非常有前景的性能。
網址:
5、Few-shot 3D Multi-modal Medical Image Segmentation using Generative Adversarial Learning(利用生成式對抗學習進行Few-shot三維多模態醫學圖像分割)
作者:Arnab Kumar Mondal, Jose Dolz, Christian Desrosiers
摘要:我們解決了在極少數標記示例可供訓練的情況下分割三維多模態醫學圖像的問題。利用最近成功的對抗學習進行半監督分割,我們提出了一種基于生成對抗網絡(GAN)的新方法來訓練具有標記和未標記圖像的分割模型。該方法通過學習識別生成網絡中獲得的真假patch,來防止過擬合。我們的工作擴展了目前的專注于二維單模態圖像對抗性學習方法到更具挑戰性的三維體多模態。針對iSEG-2017和MRBrainS 2013數據集的腦MRI分割問題,對該方法進行了評估。與在完全監督下訓練的最先進的分割網絡相比,性能有了顯著的提高。此外,我們的工作提供了對半監督分割的不同GAN架構的綜合分析,顯示了最近的技術,如特征匹配,以產生比傳統對抗訓練方法更高的性能。我們的代碼可以通過
網址:
代碼鏈接:
6、nnU-Net: Breaking the Spell on Successful Medical Image Segmentation(nnU-Net)
作者:Fabian Isensee, Jens Petersen, Simon A. A. Kohl, Paul F. J?ger, Klaus H. Maier-Hein
摘要:由于數據集的多樣性,語義分割是醫學圖像分析中的一個熱門子領域,每年都有大量的新方法被提出。然而,這個不斷增長的系列方法變得越來越難以理解。同時,許多提出的方法不能推廣到實驗之外,從而阻礙了在新數據集上開發分割算法的過程。這里我們介紹nnU-Net(“no-new-Net”),這個框架可以自適應任何給定的新數據集。雖然到目前為止這個過程完全由人為驅動,但我們首先嘗試根據給定數據集的屬性自動執行必要的調整,例如預處理,精確的patch大小,batch大小和推理設置。值得注意的是,nnU-Net去掉了通常在文獻中提出的架構上的附加功能,只依賴于嵌入在健壯的訓練方案中的簡單U-Net架構。開箱即用,nnU-Net在六個完善的細分挑戰中實現了最先進的性能。源代碼可從
網址:
代碼鏈接:
7、PnP-AdaNet: Plug-and-Play Adversarial Domain Adaptation Network with a Benchmark at Cross-modality Cardiac Segmentation(PnP-AdaNet:即插即用的對抗性域自適應網絡,用于跨模態心臟分割的基準)
作者:Qi Dou, Cheng Ouyang, Cheng Chen, Hao Chen, Ben Glocker, Xiahai Zhuang, Pheng-Ann Heng
摘要:深卷積網絡在各種醫學圖像計算任務中表現出了最先進的性能。利用來自不同模式的圖像進行相同的分析任務具有臨床益處。然而,深度模型對不同分布的測試數據的泛化能力仍然是一個主要的挑戰。在本文中,我們提出了PnPAdaNet(即插即用的對抗域自適應網絡)來適應不同醫學圖像模式(如MRI和CT)之間的分割網絡。我們建議以一種無監督的方式對齊源域和目標域的特征空間,從而解決重要的domain shift問題。具體地,域自適應模塊靈活地替換源網絡的早期編碼器層,并且在域之間共享更高層。通過對抗性學習,我們構建了兩個判別器,其輸入分別是多級特征和預測分割掩碼。我們在非配對MRI和CT中的心臟結構分割任務驗證了我們的域自適應方法。綜合消融研究的實驗結果證明了我們提出的PnP-AdaNet的優異功效。此外,我們為心臟數據集引入了一個新的基準,用于無監督跨模態域自適應的任務。我們將公開我們的代碼和數據集,旨在促進醫學成像這一具有挑戰性但重要的研究課題的未來研究。
網址:
代碼鏈接:
下載鏈接: 提取碼:kljf