最佳論文獎
1. No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium
地址: //www.zhuanzhi.ai/paper/1cede84d4fe70b6f36d5df9acb3076e7
獲獎理由:
人們的決定會影響到他人。為了保證合理的行事方式,我們需要通過這種「相互依賴」達到經濟學家所說的「均衡」(equilibrium)。創建能夠找出均衡點的自動程序是非常困難的任務。這篇論文提供了首個解決方法——利用學習方法為通用交互尋找「相關均衡」(correlated equilibria,CE)。
相關均衡要求一個受信任的外部調停者為決策者提供決策建議,典型案例就是紅綠燈,紅綠燈告訴車輛前進這一行為是否安全。即使在相關法律缺失的情況下,我們仍然應該遵循紅綠燈的推薦結果,因為我們知道每個人都可以推斷出這是最好的選擇,闖紅燈是危險的行為。
這篇論文表明,此類均衡可以通過完全獨立執行的學習算法來實現,無需外部交通工程師,甚至在決策涉及多個步驟、決策者對于世界的狀態一知半解時也是如此。也就是說,存在此類 regret-minimizing 算法使 CE 在更廣泛的博弈類別中實現收斂,即擴展形式的博弈。這一結果解決了博弈論、計算機科學和經濟學領域中長期存在的開放性問題,并對涉及調停者的博弈產生顯著影響,如通過導航 app 高效制定交通路線。
2. Improved guarantees and a multiple-descent curve for Column Subset Selection and the Nystrom method
獲獎理由:
從大型矩陣中選擇小規模且具代表性的列向量子集是一個困難的組合問題,基于基數約束行列式點過程的方法可以給出實用的近似解。這篇論文推導出近似解近似因子的新型上下界。由于這些近似方法在機器學習領域中廣泛應用,因此這篇論文可能帶來巨大影響,并為核方法、特征選擇和神經網絡的雙下降現象提供新的理解方式。
隨著更多大型數據集變得可用,人們越來越依賴以簡明扼要的形式總結復雜數據。數據總結(data summarization)是識別數據中重要的樣例及屬性以高效表示數據的過程。它能夠用于從遺傳學數據集中選擇具有代表性的基因變體子集,也可用于從文本數據庫中選擇最具信息量的文檔。
此前的研究表明,數據總結是一個棘手的問題,對于有些數據集,不存在能夠在合理的時間范圍內很好地總結數據的算法。而這篇論文表明,這些分析過于悲觀。實際上,對于現實世界中的數據而言,生成可解釋總結的成本要低得多。該研究表明,未來的系統將能夠創建準確、可解釋且高效生成的數據總結,從而極大地提高我們吸收和處理復雜數據集的能力。
3. Language Models are Few-Shot Learners
獲獎理由:
用于估計序列中下一個詞概率的人工智能系統叫做「語言模型」。語言模型首次出現在 1950 年代,是連接自然語言與當時的新領域——信息論的理論構架。OpenAI 的這篇論文提出了 GPT-3——有史以來最大也最復雜的語言模型。這項研究表明,如果你使用史無前例的大量算力和數據讓語言模型獲得足夠的準確率,它也就獲得了無需額外訓練,僅使用簡單的自然語言提示即可解決大量任務的能力。比如回答簡單的問題、生成文章、確定電影評論是否積極,以及英法互譯等。
論文作者表明,GPT-3 在一些任務中的能力勝過其他模型,并用大量篇幅探討這項技術的優缺點。論文作者還考慮了這項技術的潛在有害影響,如低成本生成難以檢測的假新聞,模型因訓練數據偏見在種族、性別和宗教等敏感話題上產生傾向性。
探索 - 利用(exploration-exploitation)是多智能體學習(MAL)中強大而實用的工具,但其效果遠未得到理解。為了探索這個目標,這篇論文研究了 Q 學習的平滑模擬。首先,研究者認為其學習模型是學習「探索 - 利用」的最佳模型,并提供了強大的理論依據。具體而言,該研究證明了平滑的 Q 學習在任意博弈中對于成本模型有 bounded regret,該成本模型能夠明確捕獲博弈和探索成本之間的平衡,并且始終收斂至量化響應均衡(QRE)集,即有限理性下博弈的標準解概念,適用于具有異構學習智能體的加權潛在博弈。
該研究的主要任務轉向衡量「探索」對集體系統性能的影響。研究者在低維 MAL 系統中表征 QRE 表面的幾何形狀,并將該研究的發現與突變(分歧)理論聯系起來。具體而言,隨著探索超參數隨著時間的演化,系統會經歷相變。在此過程中,給定探索參數的無窮小變化,均衡的數量和穩定性可能會發生劇烈變化。在此基礎上,該研究提供了一種形式理論處理方法,即如何調整探索參數能夠可驗證地產生均衡選擇,同時對系統性能帶來積極和消極(以及可能無限)的影響。
//www.zhuanzhi.ai/paper/58dfd45f8af99a926fb48199e1447e9a
近年來,張量分解模型憑借模型簡潔、計算速度快等優點在知識圖譜補全任務上取得了令人矚目的成就。但是,這些模型較易受到過擬合的影響,在性能上通常落后于其他類型的模型。為解決過擬合問題,包括 L2 正則,N3 正則 [1] 在內的多種正則項被提出,但這些正則項又在性能或者適用范圍上存在明顯缺陷。為此,我們基于知識圖譜補全模型之間的對偶性,為張量分解模型提出了一種新的正則項---DURA。該正則項可以廣泛地應用于多種不同的張量分解知識圖譜補全模型,且能夠顯著提升模型性能。
論文題目:Scalable Graph Neural Networks via Bidirectional Propagation
論文概述:圖神經網絡(GNN)是一個新興的非歐氏數據學習領域。近年來,人們對設計可擴展到大型圖形的GNN越來越感興趣。大多數現有的方法使用“圖采樣”或“分層采樣”技術來減少訓練時間;但是,這些方法在應用于具有數十億條邊的圖時仍然無法提供可靠的性能。在本文中,我們提出了一種可伸縮的圖神經網絡GBP,同時從特征向量和訓練/測試節點進行雙向消息傳播,為每個表示生成一個無偏估計量。每個傳播都是以局部方式執行的,從而實現了亞線性時間復雜性。廣泛的實驗證明,GBP達到了state-of-the-art性能同時顯著減少訓練和推理時間。在單臺機器上,GBP能夠在不到2000秒的時間內,在一個擁有超過6000萬個節點和18億條邊的圖形上提供優異的性能
//www.zhuanzhi.ai/paper/bf70cf78aa20bcfce7a1f6d36c8e080a
我們提出并分析了具有條件風險值(CVaR)的凸損失分布魯棒優化算法和有條件風險值的χ2發散不確定性集。我們證明了我們的算法需要大量的梯度評估,獨立于訓練集的大小和參數的數量,使它們適合大規模的應用。對于χ2的不確定性集,這些是文獻中第一個這樣的保證,對于CVaR,我們的保證在不確定性水平上是線性的,而不是像之前的工作中那樣是二次的。我們還提供了下界來證明我們的CVaR算法的最壞情況的最優性和一個懲罰性的版本的χ2問題。我們的主要技術貢獻是基于[Blanchet & Glynn, 2015]的批量魯棒風險估計偏差的新界和多層蒙特卡洛梯度估計器的方差。
杰出論文獎
論文1:On Learning Sets of Symmetric Elements
論文地址://arxiv.org/pdf/2002.08599.pdf
論文作者:Haggai Maron(英偉達研究院)、Or Litany(斯坦福大學)、Gal Chechik(英偉達、以色列巴伊蘭大學)、Ethan Fetaya(以色列巴伊蘭大學)
從無序集合中學習是一種基本的學習設置,最近這引起了越來越多的關注。這一領域的研究集中于用特征向量表示集合元素的案例,很少關注集合元素本身即遵循其自身對稱性的常見情況。而后者與大量應用具備相關性,如圖像去噪、多視圖 3D 形狀識別與重建等。
這篇論文提出了一種原則性方法來學習一般對稱元素的集合。研究者首先描述了線性層的空間。線性層與元素重排序和元素的內在對稱性具備等變性。
該研究進一步表明,由被稱為 Deep Sets for Symmetric elements layers (DSS) 的層構成的網絡是不變函數和等變函數的通用逼近器。此外,DSS 層很容易實現。
最后,研究者用一系列使用圖像、圖以及點云的實驗,證明該方法比現有的集合學習架構有所改進。
論文2:Tuning-free Plug-and-Play Proximal Algorithm for Inverse Imaging Problems
論文地址:
論文作者:Kaixuan Wei(北理工)、Angelica Aviles-Rivero(劍橋大學)、Jingwei Liang(劍橋大學)、Ying Fu(北理工)、Carola-Bibiane Schnlieb(劍橋大學)、Hua Huang(北理工)
即插即用(PnP)是將 ADMM 或其他近端算法與高級去噪先驗結合的非凸(non-convex)框架。近來,PnP 取得了巨大的實驗成功,特別是集成了基于深度學習的去噪器。但是,基于 PnP 的方法存在一個關鍵的問題:這些方法需要手動調參。此類方法必須在成像條件和場景內容具備高度差異的情況下獲得高質量結果。
該研究提出了一種免調參的 PnP 近端算法,支持自動設置內部參數,包括懲罰參數、去噪強度以及終止時間。該方法的核心部分是開發一個用于自動搜索參數的策略網絡,該網絡能夠通過混合無模型和基于模型的深度強化學習來高效地學習參數。
研究人員通過數值和視覺實驗表明,該方法學到的策略能夠為不同的狀態定制不同的參數,并且比現有的手動調參更加高效。
此外,該研究還探討了插入式去噪器,它和學得策略一起可達到 SOTA 結果,在線性和非線性的示例逆成像問題中皆是如此,尤其是在壓縮感知 MRI 和相位恢復問題上都取得了不錯的結果。
個人主頁:
另外,這篇論文的第一作者魏愷軒目前就讀于北京理工大學,是一名研二學生。研究興趣為圖像處理、計算機視覺、計算攝影學、計算成像學,在 NEUCOM、CVPR、ICML 等會議上發表論文。
杰出論文榮譽提名獎
本屆杰出論文榮譽提名獎授予了兩篇論文,分別是帝國理工學院、圣彼得堡國立大學等研究者的《Efficiently sampling functions from Gaussian process posteriors》和 OpenAI 研究者的《Generative Pretraining from Pixels》。
論文 1:Efficiently sampling functions from Gaussian process posteriors
論文地址:
論文作者:James T. Wilson(帝國理工學院) 、Viacheslav Borovitskiy(圣彼得堡國立大學)、Alexander Terenin(帝國理工學院)、Peter Mostowsky(圣彼得堡國立大學)、Marc Peter Deisenroth(倫敦大學學院)
該研究發現了一種高斯過程(Gaussian process)分解形式,該分解通過從數據中分離出先驗,從而自然地進行可擴展采樣。在這種因式分解的基礎上,研究者提出了一種易用且通用的快速后驗采樣方法,該方法可以無縫匹配稀疏近似,從而在訓練和測試階段保證可擴展性。
該研究進行了一系列實驗,表明只需要通常成本的一部分即可利用解耦采樣路徑準確地表示高斯過程后驗。
論文 2:Generative Pretraining From Pixels
論文地址:
論文作者:Mark Chen、Alec Radford、Rewon Child、Jeff Wu、Heewoo Jun、Prafulla Dhariwal 、David Luan、Ilya Sutskever(均來自 OpenAI)
受自然語言無監督表示學習進展的啟發,OpenAI 的研究者探究了類似模型是否可以學習圖像的有用表示。具體來說,OpenAI 推出了用于圖像分類的模型 iGPT,并發現該模型似乎能夠理解物體外觀和類別等 2D 圖像特征。那么,iGPT 緣何能夠成功呢?這是因為,在下一像素預測(next pixel prediction)上訓練的足夠大的 transformer 模型最終可能學會生成具有清晰可識別物體的樣本。一旦學會了生成此類樣本,那么通過「合成分析」,iGPT 將知道目標類別。
實驗表明,iGPT 模型的特征在大量的分類數據集上實現了當前 SOTA 性能,以及在 ImageNet 數據集上實現了接近 SOTA 的無監督準確率。
1、Approximation Ratios of Graph Neural Networks for Combinatorial Problems
作者:Ryoma Sato, Makoto Yamada, Hisashi Kashima;
摘要:本文從理論的角度研究了圖神經網絡(GNNs)在學習組合問題近似算法中的作用。為此,我們首先建立了一個新的GNN類,它可以嚴格地解決比現有GNN更廣泛的問題。然后,我們彌合了GNN理論和分布式局部算法理論之間的差距,從理論上證明了最強大的GNN可以學習最小支配集問題的近似算法和具有一些近似比的最小頂點覆蓋問題比率,并且沒有GNN可以執行比這些比率更好。本文首次闡明了組合問題中GNN的近似比。此外,我們還證明了在每個節點特征上添加著色或弱著色可以提高這些近似比。這表明預處理和特征工程在理論上增強了模型的能力。
網址://www.zhuanzhi.ai/paper/9cad40c81920dfd71fa91e4ddf778616
2、D-VAE: A Variational Autoencoder for Directed Acyclic Graphs
作者:Muhan Zhang, Shali Jiang, Zhicheng Cui, Roman Garnett, Yixin Chen;
摘要:圖結構數據在現實世界中是豐富的。在不同的圖類型中,有向無環圖(DAG)是機器學習研究人員特別感興趣的,因為許多機器學習模型都是通過DAG上的計算來實現的,包括神經網絡和貝葉斯網絡。本文研究了DAG的深度生成模型,提出了一種新的DAG變分自編碼器(D-VAE)。為了將DAG編碼到潛在空間中,我們利用了圖神經網絡。我們提出了一個異步消息傳遞方案,它允許在DAG上編碼計算,而不是使用現有的同步消息傳遞方案來編碼局部圖結構。通過神經結構搜索和貝葉斯網絡結構學習兩項任務驗證了該方法的有效性。實驗表明,該模型不僅生成了新穎有效的DAG,還可以生成平滑的潛在空間,有助于通過貝葉斯優化搜索具有更好性能的DAG。
網址:
3、End to end learning and optimization on graphs
作者:Bryan Wilder, Eric Ewing, Bistra Dilkina, Milind Tambe;
摘要:在實際應用中,圖的學習和優化問題常常結合在一起。例如,我們的目標可能是對圖進行集群,以便檢測有意義的社區(或者解決其他常見的圖優化問題,如facility location、maxcut等)。然而,圖或相關屬性往往只是部分觀察到,引入了一些學習問題,如鏈接預測,必須在優化之前解決。我們提出了一種方法,將用于常見圖優化問題的可微代理集成到用于鏈接預測等任務的機器學習模型的訓練中。這允許模型特別關注下游任務,它的預測將用于該任務。實驗結果表明,我們的端到端系統在實例優化任務上的性能優于將現有的鏈路預測方法與專家設計的圖優化算法相結合的方法。
網址:
4、Graph Neural Tangent Kernel: Fusing Graph Neural Networks with Graph Kernels
作者:Simon S. Du, Kangcheng Hou, Barnabás Póczos, Ruslan Salakhutdinov, Ruosong Wang, Keyulu Xu;
摘要:雖然圖內核(graph kernel,GK)易于訓練并享有可證明的理論保證,但其實際性能受其表達能力的限制,因為內核函數往往依賴于圖的手工組合特性。與圖內核相比,圖神經網絡通常具有更好的實用性能,因為圖神經網絡使用多層結構和非線性激活函數來提取圖的高階信息作為特征。然而,由于訓練過程中存在大量的超參數,且訓練過程具有非凸性,使得GNN的訓練更加困難。GNN的理論保障也沒有得到很好的理解。此外,GNN的表達能力隨參數的數量而變化,在計算資源有限的情況下,很難充分利用GNN的表達能力。本文提出了一類新的圖內核,即圖神經切線核(GNTKs),它對應于通過梯度下降訓練的無限寬的多層GNN。GNTK充分發揮了GNN的表現力,繼承了GK的優勢。從理論上講,我們展示了GNTK可以在圖上學習一類平滑函數。根據經驗,我們在圖分類數據集上測試GNTK并展示它們實現了強大的性能。
網址:
5、HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs
作者:Naganand Yadati, Madhav Nimishakavi, Prateek Yadav, Vikram Nitin, Anand Louis, Partha Talukdar;
摘要:在許多真實世界的網絡數據集中,如co-authorship、co-citation、email communication等,關系是復雜的,并且超越了成對關聯。超圖(Hypergraph)提供了一個靈活而自然的建模工具來建模這種復雜的關系。在許多現實世界網絡中,這種復雜關系的明顯存在,自然會激發使用Hypergraph學習的問題。一種流行的學習范式是基于超圖的半監督學習(SSL),其目標是將標簽分配給超圖中最初未標記的頂點。由于圖卷積網絡(GCN)對基于圖的SSL是有效的,我們提出了HyperGCN,這是一種在超圖上訓練用于SSL的GCN的新方法。我們通過對真實世界超圖的詳細實驗證明HyperGCN的有效性,并分析它何時比最先進的baseline更有效。
網址:
6、Social-BiGAT: Multimodal Trajectory Forecasting using Bicycle-GAN and Graph Attention Networks
作者:Vineet Kosaraju, Amir Sadeghian, Roberto Martín-Martín, Ian Reid, S. Hamid Rezatofighi, Silvio Savarese;
摘要:從自動駕駛汽車和社交機器人的控制到安全監控,預測場景中多個交互主體的未來軌跡已成為許多不同應用領域中一個日益重要的問題。這個問題由于人類之間的社會互動以及他們與場景的身體互動而變得更加復雜。雖然現有的文獻探索了其中的一些線索,但它們主要忽略了每個人未來軌跡的多模態性質。在本文中,我們提出了一個基于圖的生成式對抗網絡Social-BiGAT,它通過更好地建模場景中行人的社交互來生成真實的多模態軌跡預測。我們的方法是基于一個圖注意力網絡(GAT)學習可靠的特征表示(編碼場景中人類之間的社會交互),以及一個反方向訓練的循環編解碼器體系結構(根據特征預測人類的路徑)。我們明確地解釋了預測問題的多模態性質,通過在每個場景與其潛在噪聲向量之間形成一個可逆的變換,就像在Bicycle-GAN中一樣。我們表明了,與現有軌跡預測基準的幾個baseline的比較中,我們的框架達到了最先進的性能。
網址:
7、Scalable Gromov-Wasserstein Learning for Graph Partitioning and Matching
作者:Hongteng Xu, Dixin Luo, Lawrence Carin;
摘要:我們提出了一種可擴展的Gromov-Wasserstein learning (S-GWL) 方法,并建立了一種新的、理論支持的大規模圖分析范式。該方法基于Gromov-Wasserstein discrepancy,是圖上的偽度量。給定兩個圖,與它們的Gromov-Wasserstein discrepancy相關聯的最優傳輸提供了節點之間的對應關系,從而實現了圖的匹配。當其中一個圖具有獨立但自連接的節點時(即,一個斷開連接的圖),最優傳輸表明了其他圖的聚類結構,實現了圖的劃分。利用這一概念,通過學習多觀測圖的Gromov-Wasserstein barycenter圖,將該方法推廣到多圖的劃分與匹配; barycenter圖起到斷開圖的作用,因為它是學習的,所以聚類也是如此。該方法將遞歸K分割機制與正則化近似梯度算法相結合,對于具有V個節點和E條邊的圖,其時間復雜度為O(K(E+V) logk V)。據我們所知,我們的方法是第一次嘗試使Gromov-Wasserstein discrepancy適用于大規模的圖分析,并將圖的劃分和匹配統一到同一個框架中。它優于最先進的圖劃分和匹配方法,實現了精度和效率之間的平衡。
網址:
8、Universal Invariant and Equivariant Graph Neural Networks
作者:Nicolas Keriven, Gabriel Peyré;
摘要:圖神經網絡(GNN)有多種形式,但應該始終是不變的(輸入圖節點的排列不會影響輸出)或等變的(輸入的排列置換輸出)。本文考慮一類特殊的不變和等變網絡,證明了它的一些新的普適性定理。更確切地說,我們考慮具有單個隱藏層的網絡,它是通過應用等變線性算子、點態非線性算子和不變或等變線性算子形成的信道求和而得到的。最近,Maron et al. (2019b)指出,通過允許網絡內部的高階張量化,可以獲得通用不變的GNN。作為第一個貢獻,我們提出了這個結果的另一種證明,它依賴于實值函數代數的Stone-Weierstrass定理。我們的主要貢獻是將這一結果推廣到等變情況,這種情況出現在許多實際應用中,但從理論角度進行的研究較少。證明依賴于一個新的具有獨立意義的廣義等變函數代數Stone-Weierstrass定理。最后,與以往許多考慮固定節點數的設置不同,我們的結果表明,由一組參數定義的GNN可以很好地近似于在不同大小的圖上定義的函數。
網址: