Improved Analysis of Clipping Algorithms for Non-convex Optimization
梯度裁剪在深度神經網絡訓練中應用廣泛,部分原因是其在解決梯度爆炸問題上的實用性。最近,Zhang等人[2020a]通過引入一個新的假設(L0, L1)-平滑性,證明剪切(隨機)梯度下降(GD)比普通的GD/SGD收斂得更快,該假設表征了深度神經網絡中通常遇到的梯度劇烈波動。然而,它們在問題相關參數上的迭代復雜性是相當悲觀的,并且裁剪與其他關鍵技術(如動量加速)相結合的理論證明仍然缺乏。在本文中,我們提出了一個研究剪切算法的一般框架來彌補這一差距,該框架也考慮了動量法。我們提供了框架在確定性和隨機設置的收斂性分析,并通過比較它們與現有的下界來證明我們的結果的緊密性。我們的結果表明,剪裁方法的效率不會退化,即使在景觀的高度非光滑的區域。實驗證明了基于裁剪的方法在深度學習任務中的優越性。
Code://github.com/Shen-Lab/GraphCL Paper:
對于當前的圖神經網絡(GNNs)來說,圖結構數據的可泛化、可遷移和魯棒表示學習仍然是一個挑戰。與為圖像數據而開發的卷積神經網絡(CNNs)不同,自監督學習和預訓練很少用于GNNs。在這篇文章中,我們提出了一個圖對比學習(GraphCL)框架來學習圖數據的無監督表示。我們首先設計了四種類型的圖擴充來包含不同的先驗。然后,我們在四種不同的環境下系統地研究了圖擴充的各種組合對多個數據集的影響:半監督、無監督、遷移學習和對抗性攻擊。結果表明,與最先進的方法相比,即使不調優擴展范圍,也不使用復雜的GNN架構,我們的GraphCL框架也可以生成類似或更好的可泛化性、可遷移性和健壯性的圖表示。我們還研究了參數化圖增強的范圍和模式的影響,并在初步實驗中觀察了性能的進一步提高。
以圖結構為目標的擾動已被證明在降低圖神經網絡(GNNs)性能方面非常有效,而傳統的防御手段如對抗性訓練似乎不能提高魯棒性。這項工作的動機是觀察到,反向注入的邊緣有效地可以視為一個節點的鄰域聚集函數的額外樣本,這導致扭曲的聚集在層上累積。傳統的GNN聚合函數,如總和或平均值,可以被一個單獨的離群值任意扭曲。在魯棒統計領域的啟發下,我們提出了一個魯棒聚合函數。我們的方法顯示了0.5的最大可能分解點,這意味著只要節點的對抗邊的比例小于50%,聚合的偏差就有界。我們的新聚合函數,軟Medoid,是Medoid的一個完全可微的泛化,因此很適合端到端深度學習。在Cora ML上配置聚合的GNN,可將結構擾動的魯棒性提高3倍(Citeseer上提高5.5倍),對于低度節點,可提高8倍。
我們知道,目前的圖神經網絡(GNNs)由于被稱為過度平滑的問題,很難變深。多尺度GNN是一種很有前途的方法,以減輕過度平滑問題。然而,很少有人從學習理論的角度解釋為什么它在經驗上有效。在本研究中,我們推導了包括多尺度GNN的轉導學習算法的優化和泛化保證。利用boosting理論,證明了訓練誤差在弱學習類型條件下的收斂性。通過將其與泛化間隙邊界在轉導距離復雜度上的結合,我們證明了在此條件下,某一特定類型的多尺度GNN的測試誤差邊界隨深度的減小而相應減小。我們的結果為多尺度結構對抗過平滑問題的有效性提供了理論解釋。我們將boosting算法應用于訓練多尺度的GNN來完成真實的節點預測任務。我們證實其性能與現有的GNNs相當,實際行為與理論觀測一致。代碼可在//github.com/delta2323/GB-GNN下載。
圖神經網絡(GNNs)已被證明是有效的模型,用于對圖結構數據的不同預測任務。最近關于它們表達能力的工作集中在同構任務和可數特征空間。我們對這個理論框架進行了擴展,使其包含連續的特性——在真實世界的輸入域和gnn的隱藏層中定期出現——并演示了在此上下文中對多個聚合函數的需求。為此,我們提出了一種新的聚合器結構——主鄰域聚合(PNA),它將多個聚合器與度標器相結合,從而推廣了總和聚合器。最后,我們通過一個新的基準來比較不同模型捕獲和利用圖結構的能力,該基準包含了來自經典圖理論的多個任務,以及來自現實領域的現有基準,所有這些都證明了我們模型的強大。通過這項工作,我們希望引導一些GNN研究轉向新的聚合方法,我們認為這對于尋找強大和健壯的模型至關重要。
//www.zhuanzhi.ai/paper/bee47b0e291d163fae01c
非凸優化是機器學習中的基礎問題,迭代優化方法缺乏理論支撐。普林斯頓大學助理教授Yuxin Chen一直從事非凸優化方面的研究,這份報告講述了最近關于非凸統計估計的故事,它們強調了統計模型在實現有效的非凸優化中的重要作用。
Yuxin Chen 目前是普林斯頓大學電氣工程系的助理教授。在加入普林斯頓大學之前,他是斯坦福大學統計系的博士后學者,并在斯坦福大學完成了電子工程博士學位。他的研究興趣包括高維統計、凸與非凸優化、統計學習和信息論。他獲得了2019年AFOSR青年研究員獎。
非凸優化與統計學
近年來,利用非凸優化方法來解決統計估計和學習問題的研究工作層出不窮。由于非凸優化算法易受虛假局部極小值的影響,傳統工作通常對其持悲觀看法,而簡單的迭代方法,如梯度下降法,在實踐中已經取得了顯著的成功。然而,直到最近,這些理論基礎在很大程度上一直缺乏。這個報告展示了兩個最近關于非凸統計估計的故事,它們強調了統計模型在實現有效的非凸優化中的重要作用。第一個故事是關于一個相位檢索問題的隨機初始化非凸方法:即使沒有仔細的初始化,像梯度下降這樣的簡單算法也可以在對數迭代次數內找到全局解。第二個故事是關于非凸低秩矩陣補全的不確定性量化。我們在非凸估計的基礎上開發了一個去偏估計器,使未知矩陣缺失項的置信區間能得到最優構造。所有這些都是通過一個“一留一出”的統計分析框架實現的,該框架在處理和解耦復雜的統計依賴方面非常強大。
簡介:
梯度爆炸和消失的問題一直是阻礙神經網絡有效訓練的長期障礙。盡管在實踐中采用了各種技巧和技術來緩解該問題,但仍然缺少令人滿意的理論或可證明的解決方案。在本文中,我們從高維概率論的角度解決了這個問題。我們提供了嚴格的結果,表明在一定條件下,如果神經網絡具有足夠的寬度,則爆炸/消失梯度問題將很可能消失。我們的主要思想是通過一類新的激活函數(即高斯-龐加萊歸一化函數和正交權重矩陣)來限制非線性神經網絡中的正向和反向信號傳播。在數據實驗都可以驗證理論,并在實際應用中將其有效性確認在非常深的神經網絡上。
1、Approximation Ratios of Graph Neural Networks for Combinatorial Problems
作者:Ryoma Sato, Makoto Yamada, Hisashi Kashima;
摘要:本文從理論的角度研究了圖神經網絡(GNNs)在學習組合問題近似算法中的作用。為此,我們首先建立了一個新的GNN類,它可以嚴格地解決比現有GNN更廣泛的問題。然后,我們彌合了GNN理論和分布式局部算法理論之間的差距,從理論上證明了最強大的GNN可以學習最小支配集問題的近似算法和具有一些近似比的最小頂點覆蓋問題比率,并且沒有GNN可以執行比這些比率更好。本文首次闡明了組合問題中GNN的近似比。此外,我們還證明了在每個節點特征上添加著色或弱著色可以提高這些近似比。這表明預處理和特征工程在理論上增強了模型的能力。
網址://www.zhuanzhi.ai/paper/9cad40c81920dfd71fa91e4ddf778616
2、D-VAE: A Variational Autoencoder for Directed Acyclic Graphs
作者:Muhan Zhang, Shali Jiang, Zhicheng Cui, Roman Garnett, Yixin Chen;
摘要:圖結構數據在現實世界中是豐富的。在不同的圖類型中,有向無環圖(DAG)是機器學習研究人員特別感興趣的,因為許多機器學習模型都是通過DAG上的計算來實現的,包括神經網絡和貝葉斯網絡。本文研究了DAG的深度生成模型,提出了一種新的DAG變分自編碼器(D-VAE)。為了將DAG編碼到潛在空間中,我們利用了圖神經網絡。我們提出了一個異步消息傳遞方案,它允許在DAG上編碼計算,而不是使用現有的同步消息傳遞方案來編碼局部圖結構。通過神經結構搜索和貝葉斯網絡結構學習兩項任務驗證了該方法的有效性。實驗表明,該模型不僅生成了新穎有效的DAG,還可以生成平滑的潛在空間,有助于通過貝葉斯優化搜索具有更好性能的DAG。
網址:
3、End to end learning and optimization on graphs
作者:Bryan Wilder, Eric Ewing, Bistra Dilkina, Milind Tambe;
摘要:在實際應用中,圖的學習和優化問題常常結合在一起。例如,我們的目標可能是對圖進行集群,以便檢測有意義的社區(或者解決其他常見的圖優化問題,如facility location、maxcut等)。然而,圖或相關屬性往往只是部分觀察到,引入了一些學習問題,如鏈接預測,必須在優化之前解決。我們提出了一種方法,將用于常見圖優化問題的可微代理集成到用于鏈接預測等任務的機器學習模型的訓練中。這允許模型特別關注下游任務,它的預測將用于該任務。實驗結果表明,我們的端到端系統在實例優化任務上的性能優于將現有的鏈路預測方法與專家設計的圖優化算法相結合的方法。
網址:
4、Graph Neural Tangent Kernel: Fusing Graph Neural Networks with Graph Kernels
作者:Simon S. Du, Kangcheng Hou, Barnabás Póczos, Ruslan Salakhutdinov, Ruosong Wang, Keyulu Xu;
摘要:雖然圖內核(graph kernel,GK)易于訓練并享有可證明的理論保證,但其實際性能受其表達能力的限制,因為內核函數往往依賴于圖的手工組合特性。與圖內核相比,圖神經網絡通常具有更好的實用性能,因為圖神經網絡使用多層結構和非線性激活函數來提取圖的高階信息作為特征。然而,由于訓練過程中存在大量的超參數,且訓練過程具有非凸性,使得GNN的訓練更加困難。GNN的理論保障也沒有得到很好的理解。此外,GNN的表達能力隨參數的數量而變化,在計算資源有限的情況下,很難充分利用GNN的表達能力。本文提出了一類新的圖內核,即圖神經切線核(GNTKs),它對應于通過梯度下降訓練的無限寬的多層GNN。GNTK充分發揮了GNN的表現力,繼承了GK的優勢。從理論上講,我們展示了GNTK可以在圖上學習一類平滑函數。根據經驗,我們在圖分類數據集上測試GNTK并展示它們實現了強大的性能。
網址:
5、HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs
作者:Naganand Yadati, Madhav Nimishakavi, Prateek Yadav, Vikram Nitin, Anand Louis, Partha Talukdar;
摘要:在許多真實世界的網絡數據集中,如co-authorship、co-citation、email communication等,關系是復雜的,并且超越了成對關聯。超圖(Hypergraph)提供了一個靈活而自然的建模工具來建模這種復雜的關系。在許多現實世界網絡中,這種復雜關系的明顯存在,自然會激發使用Hypergraph學習的問題。一種流行的學習范式是基于超圖的半監督學習(SSL),其目標是將標簽分配給超圖中最初未標記的頂點。由于圖卷積網絡(GCN)對基于圖的SSL是有效的,我們提出了HyperGCN,這是一種在超圖上訓練用于SSL的GCN的新方法。我們通過對真實世界超圖的詳細實驗證明HyperGCN的有效性,并分析它何時比最先進的baseline更有效。
網址:
6、Social-BiGAT: Multimodal Trajectory Forecasting using Bicycle-GAN and Graph Attention Networks
作者:Vineet Kosaraju, Amir Sadeghian, Roberto Martín-Martín, Ian Reid, S. Hamid Rezatofighi, Silvio Savarese;
摘要:從自動駕駛汽車和社交機器人的控制到安全監控,預測場景中多個交互主體的未來軌跡已成為許多不同應用領域中一個日益重要的問題。這個問題由于人類之間的社會互動以及他們與場景的身體互動而變得更加復雜。雖然現有的文獻探索了其中的一些線索,但它們主要忽略了每個人未來軌跡的多模態性質。在本文中,我們提出了一個基于圖的生成式對抗網絡Social-BiGAT,它通過更好地建模場景中行人的社交互來生成真實的多模態軌跡預測。我們的方法是基于一個圖注意力網絡(GAT)學習可靠的特征表示(編碼場景中人類之間的社會交互),以及一個反方向訓練的循環編解碼器體系結構(根據特征預測人類的路徑)。我們明確地解釋了預測問題的多模態性質,通過在每個場景與其潛在噪聲向量之間形成一個可逆的變換,就像在Bicycle-GAN中一樣。我們表明了,與現有軌跡預測基準的幾個baseline的比較中,我們的框架達到了最先進的性能。
網址:
7、Scalable Gromov-Wasserstein Learning for Graph Partitioning and Matching
作者:Hongteng Xu, Dixin Luo, Lawrence Carin;
摘要:我們提出了一種可擴展的Gromov-Wasserstein learning (S-GWL) 方法,并建立了一種新的、理論支持的大規模圖分析范式。該方法基于Gromov-Wasserstein discrepancy,是圖上的偽度量。給定兩個圖,與它們的Gromov-Wasserstein discrepancy相關聯的最優傳輸提供了節點之間的對應關系,從而實現了圖的匹配。當其中一個圖具有獨立但自連接的節點時(即,一個斷開連接的圖),最優傳輸表明了其他圖的聚類結構,實現了圖的劃分。利用這一概念,通過學習多觀測圖的Gromov-Wasserstein barycenter圖,將該方法推廣到多圖的劃分與匹配; barycenter圖起到斷開圖的作用,因為它是學習的,所以聚類也是如此。該方法將遞歸K分割機制與正則化近似梯度算法相結合,對于具有V個節點和E條邊的圖,其時間復雜度為O(K(E+V) logk V)。據我們所知,我們的方法是第一次嘗試使Gromov-Wasserstein discrepancy適用于大規模的圖分析,并將圖的劃分和匹配統一到同一個框架中。它優于最先進的圖劃分和匹配方法,實現了精度和效率之間的平衡。
網址:
8、Universal Invariant and Equivariant Graph Neural Networks
作者:Nicolas Keriven, Gabriel Peyré;
摘要:圖神經網絡(GNN)有多種形式,但應該始終是不變的(輸入圖節點的排列不會影響輸出)或等變的(輸入的排列置換輸出)。本文考慮一類特殊的不變和等變網絡,證明了它的一些新的普適性定理。更確切地說,我們考慮具有單個隱藏層的網絡,它是通過應用等變線性算子、點態非線性算子和不變或等變線性算子形成的信道求和而得到的。最近,Maron et al. (2019b)指出,通過允許網絡內部的高階張量化,可以獲得通用不變的GNN。作為第一個貢獻,我們提出了這個結果的另一種證明,它依賴于實值函數代數的Stone-Weierstrass定理。我們的主要貢獻是將這一結果推廣到等變情況,這種情況出現在許多實際應用中,但從理論角度進行的研究較少。證明依賴于一個新的具有獨立意義的廣義等變函數代數Stone-Weierstrass定理。最后,與以往許多考慮固定節點數的設置不同,我們的結果表明,由一組參數定義的GNN可以很好地近似于在不同大小的圖上定義的函數。
網址: