近年來,監督學習設置的幾個結果表明,經典的統計學習理論度量,如VC維,不能充分解釋深度學習模型的性能,這促使大量工作在無限寬和迭代機制。然而,對于神經網絡在監督設置之外的成功,幾乎沒有理論解釋。本文認為,在一些分布假設下,經典學習理論測度可以充分解釋圖神經網絡在轉導環境下的泛化問題。特別是,我們提供了一個嚴格的分析神經網絡在轉導推理的背景下的性能,特別是通過分析圖卷積網絡的泛化性質的節點分類問題。雖然VC維在這種情況下也會導致微不足道的泛化誤差邊界,但我們表明,轉換的Rademacher復雜性可以解釋隨機塊模型的圖卷積網絡的泛化特性。我們進一步使用基于轉導Rademacher復雜性的泛化誤差邊界來演示圖卷積和網絡架構在實現更小的泛化誤差方面的作用,并提供關于何時圖結構可以幫助學習的見解。這篇論文的發現可以重新激發人們在學習理論測量方面研究神經網絡泛化的興趣,盡管是在具體的問題上。
本文研究了深度學習理論中一個基本的開放挑戰: 為什么深度網絡在過度參數化、非正則化和擬合訓練數據為零誤差的情況下仍能很好地泛化? 在論文的第一部分,我們將實證研究如何通過隨機梯度下降訓練深度網絡隱式控制網絡容量。隨后,為了說明這如何導致更好的泛化,我們將推導基于數據的一致收斂的泛化邊界,并改進參數計數的依賴性。由于其簡單性和通用性,一致收斂實際上已經成為深度學習文獻中使用最廣泛的工具。鑒于它的流行,在這篇論文中,我們也將后退一步,確定一致收斂的基本極限,作為解釋泛化的工具。特別地,我們將證明在一些過度參數化的設置的例子中,任何一致收斂界將只提供一個空洞的泛化界。考慮到這一點,在論文的最后一部分,我們將改變航向,并引入一種經驗技術來估計使用未標記數據的泛化。我們的技術不依賴于任何基于一致收斂的復雜性概念,而且非常精確。我們將從理論上說明為什么我們的技術如此精確。最后,我們將討論未來的工作如何探索在泛化邊界中納入分布假設的新方法(例如以未標記數據的形式),并探索其他工具來推導邊界,可能是通過修改統一收斂或開發完全新的工具。
我們根據預測中包含的信息而不是訓練算法的輸出來推導有監督學習算法的信息理論泛化邊界。這些邊界改進了現有的信息理論界限,適用于更廣泛的算法,并解決了兩個關鍵的挑戰: (a)它們為確定性算法提供了有意義的結果;(b)它們明顯更容易估計。我們通過實驗證明,在深度學習的實際場景中,所提出的邊界與泛化差距密切相關。
雖然許多現有的圖神經網絡(gnn)已被證明可以執行基于?2的圖平滑,從而增強全局平滑,但在本工作中,我們旨在通過基于?1的圖平滑進一步增強GNN的局部平滑自適應。在此基礎上,提出了一種基于?1和?2圖平滑的彈性GNN。特別地,我們提出了一種新的、通用的消息傳遞方案。該消息傳遞算法不僅有利于反向傳播訓練,而且在保證理論收斂的前提下達到了預期的平滑特性。在半監督學習任務上的實驗表明,所提出的彈性GNN在基準數據集上具有較好的自適應能力,對圖對抗攻擊具有顯著的魯棒性。
GNN的表示能力和泛化能力得到了廣泛的研究。但是,它們的優化其實研究的很少。通過研究GNN的梯度動力學,我們邁出分析GNN訓練的第一步。具體來說,首先,我們分析線性化(linearized)的GNN,并證明了:盡管它的訓練不具有凸性,但在我們通過真實圖驗證的溫和假設下,可以保證以線性速率收斂到全局最小值。其次,我們研究什么會影響GNN的訓練速度。我們的結果表明,通過跳過(skip)連接,更深的深度和/或良好的標簽分布,可以隱式地加速GNN的訓練。實驗結果證實,我們針對線性GNN的理論結果與非線性GNN的訓練行為一致。我們的結果在優化方面為具有跳過連接的GNN的成功提供了第一個理論支持,并表明具有跳過連接的深層GNN在實踐中將很有希望。
自訓練算法訓練模型以適應另一個先前學習的模型預測的偽標簽,對于使用神經網絡對未標記的數據進行學習非常成功。但是,當前對自訓練的理論理解僅適用于線性模型。這項工作為半監督學習,無監督領域適應和無監督學習提供了深度網絡自訓練的統一理論分析。我們分析的核心是一個簡單但現實的“擴展”假設,該假設指出,數據的低概率子集必須擴展到相對于子集而言具有較大概率的鄰域。我們還假設不同類別中的示例鄰域具有最小的重疊。我們證明在這些假設下,基于自訓練和輸入一致性正則化的人口目標最小化方法將在地面真相標簽方面實現高精度。通過使用現成的泛化邊界,我們立即將此結果轉換為在邊際和Lipschitzness中為多項式的神經網絡的樣本復雜度保證。我們的結果有助于解釋最近提出的使用輸入一致性正則化的自訓練算法的經驗成功。
//www.zhuanzhi.ai/paper/dd480967a4fbca4c6cc92
在過去的十年里,神經網絡在視覺、語音、語言理解、醫學、機器人和游戲等領域取得了驚人的成果。人們原本以為,這種成功需要克服理論上存在的重大障礙。畢竟,深度學習優化是非凸的、高度非線性的、高維的,那么我們為什么能夠訓練這些網絡呢?在許多情況下,它們擁有的參數遠遠多于記憶數據所需的參數,那么為什么它們能夠很好地推廣呢?盡管這些主題已經占據了機器學習研究領域的大部分注意力,但當涉及到更簡單的模型時,神經網絡領域的原則是先數據訓練再說。顯然,這招奏效了。
//www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/
結果,神經網絡的實際成功已經超過了我們理解它們如何工作的能力。這門課是關于開發概念工具來理解當神經網絡訓練時會發生什么。其中一些思想早在幾十年前就已經形成了(可能已經被社區的大部分人遺忘了),而另一些思想今天才剛剛開始被理解。我將試圖傳達我們最好的現代理解,盡管它可能不完整。
這門課從優化中汲取靈感,它不是一門優化課。一方面,優化的研究通常是指令性的,從優化問題的信息和明確定義的目標(如在特定規范下快速收斂)開始,并找出保證實現該目標的計劃。對于現代神經網絡來說,分析通常是描述性的: 采用在使用的程序,并找出它們(似乎)有效的原因。希望這種理解能讓我們改進算法。
與優化研究的另一個區別是,目標不是簡單地擬合一個有限的訓練集,而是一般化。盡管神經網絡有巨大的能力,但為什么它能泛化與訓練的動態密切相關。因此,如果我們從優化中引入一個想法,我們不僅需要考慮它是否會更快地最小化成本函數,還需要考慮它是否以一種有利于泛化的方式實現。
這類應用不會為您提供在ImageNet上實現最先進性能的方法。它也不是那種為了證明定理而去證明定理的理論課。相反,我們的目的是為您提供概念性工具,以便您在任何特定情況下推斷出影響訓練的因素。
除了讓你的網絡更好地訓練之外,學習神經網絡訓練動力學的另一個重要原因是,許多現代架構本身就足夠強大,可以進行優化。這可能是因為我們在體系結構中明確地構建了優化,就像在MAML或深度均衡模型中那樣。或者,我們可能只是在大量數據上訓練一個靈活的架構,然后發現它具有驚人的推理能力,就像GPT3一樣。不管怎樣,如果網絡架構本身在優化某些東西,那么外部訓練過程就會與本課程中討論的問題糾纏在一起,不管我們喜歡與否。為了有希望理解它提出的解決方案,我們需要理解問題。因此,本課程將以雙層優化結束,利用課程中涵蓋的所有內容。
目錄內容:
我們將通過分析一個簡單的模型開始這門課,梯度下降動力學可以被精確地確定:線性回歸。盡管線性回歸很簡單,但它提供了對神經網絡訓練驚人的洞察力。我們將使用線性回歸來理解兩種神經網絡訓練現象: 為什么對輸入進行歸一化是一個好策略,以及增加維度可以減少過擬合。
線性化是我們理解非線性系統最重要的工具之一。我們將涵蓋神經網絡的一階泰勒近似(梯度,方向導數)和二階近似(Hessian)。我們將看到如何用雅可比向量乘積有效地計算它們。我們將使用Hessian診斷緩慢收斂和解釋網絡預測。
度量給出了流形上距離的一個局部概念。在許多情況下,兩個神經網絡之間的距離可以更有效地定義為它們所代表的函數之間的距離,而不是權重向量之間的距離。這就引出了一個重要的優化工具,叫做自然梯度。
我們從幾個角度來激勵神經網絡的二階優化:最小化二階泰勒近似、預處理、不變性和近端優化。我們將看到如何使用共軛梯度或克羅內克因子近似來近似二階更新。
我們看看已經成為神經網絡訓練的主要內容的三個算法特征。我們試圖理解它們對動力學的影響,并找出構建深度學習系統的一些陷阱。
本文首先給出了一種學習節點信息卷積隱含層的圖網學習算法。根據標簽是附著在節點上還是附著在圖上,研究了兩種類型的GNN。在此基礎上,提出了一個完整的GNN訓練算法收斂性設計和分析框架。該算法適用于廣泛的激活函數,包括ReLU、Leaky ReLU、Sigmod、Softplus和Swish。實驗表明,該算法保證了對基本真實參數的線性收斂速度。對于這兩種類型的GNN,都用節點數或圖數來表征樣本復雜度。從理論上分析了特征維數和GNN結構對收斂率的影響。數值實驗進一步驗證了理論分析的正確性。
我們知道,目前的圖神經網絡(GNNs)由于被稱為過度平滑的問題,很難變深。多尺度GNN是一種很有前途的方法,以減輕過度平滑問題。然而,很少有人從學習理論的角度解釋為什么它在經驗上有效。在本研究中,我們推導了包括多尺度GNN的轉導學習算法的優化和泛化保證。利用boosting理論,證明了訓練誤差在弱學習類型條件下的收斂性。通過將其與泛化間隙邊界在轉導距離復雜度上的結合,我們證明了在此條件下,某一特定類型的多尺度GNN的測試誤差邊界隨深度的減小而相應減小。我們的結果為多尺度結構對抗過平滑問題的有效性提供了理論解釋。我們將boosting算法應用于訓練多尺度的GNN來完成真實的節點預測任務。我們證實其性能與現有的GNNs相當,實際行為與理論觀測一致。代碼可在//github.com/delta2323/GB-GNN下載。
圖神經網絡(GNNs)是針對圖信號的信息處理體系結構。它們已經被開發出來,并在本課程中作為卷積神經網絡(CNNs)的推廣來介紹,它被用來在時間和空間上處理信號。這句話聽起來可能有些奇怪,這取決于你對神經網絡(NNs)和深度學習的了解程度。CNN不就是NN的特例嗎?GNN不也是這樣嗎?從嚴格意義上說,它們是存在的,但我們這門課的重點是涉及高維信號的大規模問題。在這些設置中,神經網絡無法伸縮。CNN為信號在時間和空間上提供可擴展的學習。GNNS支持圖信號的可擴展學習。
在本課程中,我們將在學習單特征和多特征GNN之前,介紹圖卷積濾波器和圖濾波器組。我們還將介紹相關的架構,如經常性的GNN。特別的重點將放在研究GNN的排列的等方差和圖變形的穩定性。這些特性提供了一個解釋的措施,可以觀察到的良好性能的GNNs經驗。我們還將在大量節點的極限范圍內研究GNN,以解釋不同節點數量的網絡間GNN的可遷移性。
Lecture 1: Machine Learning on Graphs 圖機器學習
圖神經網絡(GNNs)是一種具有廣泛適用性和非常有趣的特性的工具。可以用它們做很多事情,也有很多東西需要學習。在第一節課中,我們將回顧本課程的目標并解釋為什么我們應該關注GNN。我們還提供了未來的預覽。我們討論了在可擴展學習中利用結構的重要性,以及卷積是如何在歐幾里得空間中實現這一點的。我們進一步解釋如何將卷積推廣到圖,以及隨后將卷積神經網絡推廣到圖(卷積)神經網絡。
1.1 – Graph Neural Networks 圖神經網絡
在這門課程中,我希望我們能夠共同完成兩個目標。您將學習如何在實際應用程序中使用GNNs。也就是說,您將開發使用圖神經網絡在圖上表述機器學習問題的能力。你將學會訓練他們。你將學會評估它們。但你也會學到,你不能盲目地使用它們。你將學習到解釋他們良好的實證表現的基本原理。這些知識將允許您確定GNN適用或不適用的情況。
1.2 Machine Learning on Graphs: The Why 圖機器學習
我們關心GNN是因為它們使機器能夠在圖上學習。但我們為什么要關注圖機器學習呢?我們在這里詳述圖機器學習的原因。它為什么有趣?我們為什么要關心這個?我們關心的原因很簡單:因為圖表在信息處理中無處不在。
1.3 – Machine Learning on Graphs: The How
在討論了原因之后,我們來處理如何做。我們如何在圖上進行機器學習?這個問題的答案很簡單:我們應該使用神經網絡。我們應該這樣做,因為我們有豐富的經驗和理論證據證明神經網絡的價值。理解這些證據是本課程的目標之一。但在我們準備這么做之前,有一個潛在的阻礙因素:神經網絡必須利用結構來實現可擴展。
我們討論關于圖神經網絡(GNNs)的兩個基本問題。首先,我們證明了幾個重要的圖屬性是不能由完全依賴于局部信息的GNN計算的。這樣的GNN包括標準的消息傳遞模型,以及更強大的空間變體,利用本地圖結構(例如,通過消息的相對方向,或本地端口排序)來區分每個節點的鄰居。我們的處理包括一種新的圖論形式主義。其次,我們為消息傳遞GNN提供了第一個依賴數據的泛化邊界。該分析明確地說明了GNN的局部置換不變性。我們的邊界比現有的基于VC維的GNN保證更緊,并且可與遞歸神經網絡的Rademacher邊界相媲美。