【導讀】NeurIPS,全稱神經信息處理系統大會(Conference and Workshop on Neural Information Processing Systems),作為關于機器學習和計算神經科學的國際會議,每年固定在12月舉行,由NIPS基金會主辦。NeurIPS是機器學習領域的頂級會議 ,是神經計算方面最好的會議之一 。在中國計算機學會的國際學術會議排名中,NeurIPS為人工智能領域的A類會議。NeurIPS 2021將于12月6日-12月14日在加拿大蒙特利爾采用線上線下結合的方式舉辦。
來自新加坡國立大學Wee Sun Lee教授做《機器學習中的消息傳遞-從圖模型到GNN》報告,NeurIPS | 2021教程,95頁ppt,值的關注!
Wee Sun Lee
新加坡國立大學計算機科學系教授。1992年在昆士蘭大學獲得學士學位,1996年在澳大利亞國立大學獲得博士學位。他曾是澳大利亞國防學院的研究員,新加坡-麻省理工聯盟的成員,以及麻省理工學院的訪問科學家。主要研究方向為機器學習、不確定性規劃、近似推理等。
機器學習中的消息傳遞
消息傳遞算法是在圖上操作的分布式算法,其中每個節點只使用本地存在于節點和事件邊緣的信息,并且只將信息發送給其鄰近節點。它們通常在機器學習中非常有效,而且相對容易并行化。例子包括概率圖形模型的近似推理算法,馬爾科夫決策過程的值迭代算法,圖神經網絡和注意力網絡。
本教程介紹了概率圖模型常用的近似推理算法和馬爾科夫決策過程的值迭代算法,重點是了解算法優化的目標。然后我們考慮更靈活但更難以解釋的信息傳遞算法,包括圖神經網絡和注意力網絡。我們討論了這些更靈活的網絡如何模擬更易于解釋的算法,通過算法對齊提供了對這些網絡的歸納偏差的一些理解,并允許將這種理解用于網絡設計。
【導讀】NeurIPS,全稱神經信息處理系統大會(Conference and Workshop on Neural Information Processing Systems),作為關于機器學習和計算神經科學的國際會議,每年固定在12月舉行,由NIPS基金會主辦。NeurIPS是機器學習領域的頂級會議 ,是神經計算方面最好的會議之一 。在中國計算機學會的國際學術會議排名中,NeurIPS為人工智能領域的A類會議。NeurIPS 2021于12月6日-12月14日在加拿大蒙特利爾采用線上線下結合的方式舉辦。
來自普林斯頓大學的研究人員Miles Cranmer和Shirley Ho對物理學知識嵌入的深度學習的報告,非常值得關注。
機器學習與物理學
物理研究和深度學習有著一種共生關系,而且這種關系在過去幾年變得越來越強。在本教程中,我們將展示這個故事的兩個方面。深度學習如何從物理和其他科學的概念中受益?物理研究的不同分支領域如何利用深度學習?深度學習在物理學中還有哪些尚未探索的應用可以從機器學習中獲益?我們將討論這個交集的過去和現在,然后為這一聯系的未來可能的方向理論化。在本次演講的第二部分,我們將概述一些利用物理學思想的現有深度學習技術,并指出該領域一些有趣的新方向。
【導讀】NeurIPS,全稱神經信息處理系統大會(Conference and Workshop on Neural Information Processing Systems),作為關于機器學習和計算神經科學的國際會議,每年固定在12月舉行,由NIPS基金會主辦。NeurIPS是機器學習領域的頂級會議 ,是神經計算方面最好的會議之一 。在中國計算機學會的國際學術會議排名中,NeurIPS為人工智能領域的A類會議。NeurIPS 2021于12月6日-12月14日在加拿大蒙特利爾采用線上線下結合的方式舉辦。
來自OpenAI的研究人員Lilian Weng和Jong Wook Kim對自監督學習做了最新的報告,非常值得關注。
Lilian Weng現為OpenAI應用人工智能研究負責人,主要從事機器學習、深度學習和網絡科學研究 。她本科畢業于香港大學,碩士就讀于北京大學信息系統與計算機科學系,之后前往印度安納大學布魯頓分校攻讀博士。
Lilian Weng經常在個人博客分享學習和工作筆記,感興趣的可以戳這里: //lilianweng.github.io/lil-log/。
Jong Wook Kim,OpenAI研究技術人員,參與Jukebox和CLIP這樣的項目。研究興趣包括大規模多模態深度學習和音樂理解。
自監督學習:自預測與對比學習
自監督學習是一種很好的方法,可以從大量的未標記數據中提取訓練信號,并學習良好的表示,以方便下游的任務,在這些任務中收集特定于任務的標簽非常昂貴。本教程將著重介紹自監督學習的兩種主要方法:自預測和對比學習。自預測是指自監督的訓練任務,在這種訓練任務中,模型學會從剩余數據中預測一部分可用數據。對比學習是通過從數據集構造相似和不同的對,來學習一個相似數據樣本保持相近而不同數據樣本相距較遠的表示空間。本教程將涵蓋這兩個主題和跨各種應用程序的方法,包括視覺、語言、視頻、多模態和強化學習。
● 導論 Introduction: motivation, basic concepts, examples.
● 早期工作 Early work: look into connection with old methods.
● 方法 Methods
○ Self-prediction
○ Contrastive Learning
● 前置任務 Pretext tasks: a wide range of literature review.
● 技術 Techniques: improve training efficiency.
● 未來方向 Future directions
圖任務無處不在,其應用范圍從推薦系統到語言理解,再到具有環境感知識和分子合成的自動化。將機器學習應用于這些任務的一個基本挑戰是,以一種ML模型可以輕松利用圖中的關系信息(包括節點和邊緣特征)的方式編碼(表示)圖結構。直到最近,這種編碼都是通過因子模型(又名矩陣因子化嵌入)來實現的,它可以說起源于1904年的Spearman因子。然而,最近,圖神經網絡引入了一種新的強大的方法來為機器學習模型編碼圖。在我的演講中,我將描述這兩種方法,然后介紹一個統一的數學框架,使用群體理論和因果關系將它們聯系起來。使用這個新框架,我將介紹生成和使用節點嵌入和圖表示的新的實用指南,它修復了目前使用的標準操作過程的重大缺陷。
//www.anl.gov/event/unearthing-relationships-between-graph-neural-networks-and-matrix-factorization
貝葉斯概率模型為不確定性下的相干推理和預測提供了一個原則框架。近似推理解決了貝葉斯計算的關鍵挑戰,即計算棘手的后驗分布和相關數量,如貝葉斯預測分布。近十年來,貝葉斯建模技術在計算機視覺、自然語言處理、強化學習等領域的機器學習任務中得到了廣泛應用。
本教程對近似推理的最新進展進行了一個連貫的總結。我們將以介紹近似推理的概念和變分推理的基礎知識開始本教程。然后我們將描述現代近似推理的基本方面,包括可擴展推理、蒙特卡洛技術、平攤推理、近似后驗設計和優化目標。這些最新進展之間的聯系也將被討論。最后,我們將在下游不確定性估計和決策任務中的應用實例提供先進的近似推理技術,并對未來的研究方向進行討論。
許多ML任務與信號處理有共同的實際目標和理論基礎(例如,光譜和核方法、微分方程系統、順序采樣技術和控制理論)。信號處理方法是ML許多子領域中不可分割的一部分,例如,強化學習,哈密頓蒙特卡洛,高斯過程(GP)模型,貝葉斯優化,神經ODEs /SDEs。
本教程旨在涵蓋與離散時間和連續時間信號處理方法相聯系的機器學習方面。重點介紹了隨機微分方程(SDEs)、狀態空間模型和高斯過程模型的遞推估計(貝葉斯濾波和平滑)。目標是介紹基本原則之間的直接聯系信號處理和機器學習, (2) 提供一個直觀的實踐理解隨機微分方程都是關于什么, (3) 展示了這些方法在加速學習的真正好處,提高推理,模型建立,演示和實際應用例子。這將展示ML如何利用現有理論來改進和加速研究,并為從事這些方法交叉工作的ICML社區成員提供統一的概述。
【導讀】國際萬維網大會(The Web Conference,簡稱WWW會議)是CCF-A類會議。WWW 2020將于2020年4月20日至4月24日在中國臺灣臺北舉行。本屆會議共收到了1129篇長文投稿,錄用217篇長文,錄用率為19.2%。這周會議已經虛擬召開。圖深度學習研討會(DL4G)展示結構化數據的嵌入和表示學習以及圖深度學習的最新進展。來自DeepMind的研究科學家Petar Veli?kovi?給了關于《圖表示學習算法推理》的報告,共46頁ppt,詳述了神經圖算法推理的前沿研究進展,涵蓋GNN基準、泛化、多任務學習和算法發現。
圖表示學習算法推理是個新的和令人興奮的方向,尋求理解和使用GNNs的表達能力建模經典算法。其潛在的影響是巨大的: 為元學習和搜索等任務提供可擴展的解決方案,幫助理論計算機科學中的新發現,以及嚴格地對GNNs進行基準測試。
Petar Veli?kovi? 是DeepMind研究科學家。他擁有劍橋大學博士學位。他目前的研究興趣廣泛地涉及設計操作復雜結構數據(如圖)的神經網絡架構,以及它們在算法推理和計算生物學中的應用。他在機器學習領域(ICLR、NeurIPS-W、ICML-W)和生物醫學領域和期刊(生物信息學、PLOS One、JCB、PervasiveHealth)發表了他的研究成果。特別是,他是Graph Attention Networks(一種流行的圖卷積層)和Deep Graph Infomax(一種用于圖形的可伸縮的本地/全局無監督學習管道)的第一作者。他的研究已經在ZDNet等媒體上發表。此外,他還在ICLR 2019年和NeurIPS 2019年聯合組織了關于圖形表示學習的研討會。
【導讀】國際萬維網大會(The Web Conference,簡稱WWW會議)是由國際萬維網會議委員會發起主辦的國際頂級學術會議,創辦于1994年,每年舉辦一屆,是CCF-A類會議。WWW 2020將于2020年4月20日至4月24日在中國臺灣臺北舉行。由于疫情影響,這次會議在線上舉行,本屆會議共收到了1129篇長文投稿,錄用217篇長文,錄用率為19.2%。近期,隨著會議的臨近,有很多paper放出來,小編發現這次WWW 2020被圖神經網絡攻占,占比非常大,可見其火爆程度。這期小編繼續為大家奉上WWW 2020五篇GNN相關論文供參考——圖注意力主題模型、超圖學習、圖神經網絡Hash、多視角圖聚類、Graph Pooling。
WWW2020GNN_Part2、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
作者:Liang Yang, Fan Wu, Junhua Gu, Chuan Wang, Xiaochun Cao, Di Jin, and Yuanfang Guo
摘要:現有的主題模型(topic modeling)方法存在一些問題,包括概率潛在語義索引模型(Probablistic Latent Semantic Indexing,PLSI)過擬合問題、隱狄利克雷分配(Latent Dirichlet Allocation,LDA)模型不能能捕捉主題間豐富的主題相關性與推理復雜度高等問題。本文提出了一種新的方法來克服pLSI的過擬合問題,用嵌入單詞的平攤推理(amortized inference)作為輸入,代替LDA中的狄利克雷先驗。對于生成性主題模型,大量的自由隱變量是過擬合的根源。為了減少參數個數,平攤推理用一個具有共享(平攤)可學習參數的函數代替了對隱變量的推理。共享參數的數量是固定的,并且與語料庫的規模無關。為了克服平攤推理在獨立同分布(I.I.D)數據中應用的局限性,根據以下兩個觀察結果,我們提出了一種新的圖神經網絡--圖注意力主題網絡(GATON),用于對非I.I.D文檔的主題結構進行建模。首先,pLSI可以解釋為特定二分圖上的隨機塊模型(SBM)。其次,圖注意力網絡(GAT)可以解釋為SBM的半平攤推理(semi-amortized inference),它放寬了I.I.D數據的vanilla 平攤推理假設。GATON提供了一種新穎的基于圖卷積運算的方案,去聚合單詞相似度和單詞共現結構。具體地說,詞袋文檔表示被建模為二分圖拓撲。同時,將捕獲詞相似性的詞嵌入建模為詞節點的屬性,并采用詞頻向量作為文檔節點的屬性。基于加權(注意力)圖卷積操作,詞共現結構和詞相似度模式被無縫地集成在一起進行主題識別。大量實驗表明,GATON在主題識別方面的有效性不僅有利于文檔分類,而且能顯著細化輸入詞的嵌入。
網址://yangliang.github.io/pdf/www20.pdf
作者:Se-eun Yoon, Hyungseok Song, Kijung Shin, and Yung Yi
摘要:超圖提供了一種自然的表示組群關系的方法,其復雜性促使大量先前的工作采用某種形式抽象和簡化高階交互。然而,以下問題尚未得到解決:在解決超圖任務時,組群間交互的抽象程度需要多大?這些結果在不同的數據集中會有多大的不同?如果這個問題可以回答,將為如何在解決下游任務的復雜性和準確性之間權衡提供有用的工程指南。為此,我們提出了一種使用n投影圖( n-projected graph )的概念遞增表示群組交互的方法,該圖的累積量包含多達n種交互作用的信息,并隨著各種數據集的增長,量化解決任務的準確性。作為下游任務,我們考慮超邊預測,它是連接預測的擴展,是評估圖模型的典型任務。通過在15個真實數據集上的實驗,我們得出了以下信息:(a)收益遞減:較小地n足以獲得與接近完美近似值相當的精度,(b)疑難解答:隨著任務的挑戰性越來越大,n帶來了更多好處,(c)不可約性:當成對抽象化時,其成對交互并不能充分說明高階交互的數據集將失去很多準確性。
網址:
作者:Qiaoyu Tan, Ninghao Liu, Xing Zhao, Hongxia Yang, Jingren Zhou, and Xia Hu
摘要:工業推薦系統一般包括兩個階段:召回和排名。召回是指從海量的項目語料庫中高效地識別出數百個用戶可能感興趣的候選項目,而排名的目標是使用復雜的排名模型輸出精確的排名列表。近年來,圖表示學習在支持大規模高質量候選搜索方面受到了廣泛關注。盡管它在用戶-項目交互網絡中學習對象的嵌入向量方面是有效的,但在連續嵌入空間中推斷用戶偏好的計算代價是巨大的。在這項工作中,我們研究了基于圖神經網絡(GNNs)的哈希高質量檢索問題,并提出了一種簡單而有效的離散表示學習框架來聯合學習連續與離散編碼。具體地說,提出了一種基于GNN的深度哈希算法(HashGNN),它由兩部分組成,一個是用于學習節點表示的GNN編碼器,另一個是用于將表示編碼為哈希碼的哈希層。整個框架通過聯合優化以下兩個損失進行端到端的訓練,即通過重建觀察到的連接而產生的重建損失,以及通過保留哈希碼的相對順序產生的排序損失。我們還提出了一種基于直通估計器(straight through estimator ,STE)指導的離散優化策略。其主要思想是在連續嵌入指導下避免STE的反向傳播中的梯度放大,在這種情況下,我們從學習一個更容易模仿連續嵌入的更簡單的網絡開始,并使其在訓練過程中發展直至最終返回STE。在三個公開可用數據集和一個真實的阿里巴巴公司數據集的綜合實驗表明,我們的模型不僅可以達到連續模型的性能,而且在推理過程中運行速度快了好幾倍。
網址:
作者:Shaohua Fan, Xiao Wang, Chuan Shi, Emiao Lu, Ken Lin, and Bai Wang
摘要:多視圖圖聚類(Multi-view graph clustering)近年來受到了相當大的關注,它是一種尋找具有多個視圖的圖的分割方法,通常提供更全面但更復雜的信息。雖然多視圖圖聚類已經做了一些努力并取得了較好的效果,但大多數都是采用淺層模型來處理多視圖間的復雜關系,這可能會嚴重限制多視圖的圖信息建模能力。本文首次嘗試將深度學習技術應用于屬性多視圖圖聚類,提出了一種新的任務導向的One2Multi圖自編碼器聚類框架。One2Multi圖自編碼器能夠通過使用一個信息豐富的圖形視圖和內容數據來重建多個圖形視圖來學習節點嵌入。因此,可以很好地捕捉多個圖的共享特征表示。在此基礎上,我們還提出了一種自訓練聚類目標,以迭代地改善聚類結果。通過將自訓練和自編碼器重構集成到一個統一的框架中,我們的模型可以聯合優化適用于圖聚類的簇標簽分配和嵌入。在真實屬性多視圖圖數據集上的實驗很好地驗證了該模型的有效性。
網址:
作者:Liang Zhang, Xudong Wang, Hongsheng Li, Guangming Zhu, Peiyi Shen, Ping Li, Xiaoyuan Lu, Syed Afaq Ali Shah, and Mohammed Bennamoun
摘要:近年來,人們提出了各種處理圖數據的方法。然而,這些方法大多側重于圖的特征聚合,而不是圖的池化。此外,現有的top-k選擇圖池化方法存在一些問題。首先,在構建池化圖拓撲時,現有的top-k選擇方法只從單一的角度評價節點的重要性,這是簡單化和不客觀的。其次,未選中節點的特征信息在池化過程中直接丟失,必然導致大量的圖特征信息丟失。為了解決上述問題,我們提出了一種新穎的圖自適應池化方法,目標如下:(1)為了構造合理的池化圖拓撲,同時考慮了圖的結構信息和特征信息,增加了節點選擇的準確性和客觀性;(2)為了使池化的節點包含足夠有效的圖信息,在丟棄不重要的節點之前,先聚合節點特征信息;因此,所選擇的節點包含來自鄰居節點的信息,這可以增強未選擇節點的特征的使用。在四個不同的數據集上的實驗結果表明,我們的方法在圖分類中是有效的,并且優于最新的圖池化方法。
網址: