這篇論文探討了對神經網絡表示的結構性約束,作為在神經網絡中編碼先驗知識的一種方式。神經網絡已經證明具有處理感知數據的卓越能力,通過映射感知實體并預測缺失或未來信息。盡管它們在建模方面表現出色,但神經網絡不編碼或表示一般知識或概念,并且通常不提供對被建模對象的理解或洞察。一種可能的使用神經網絡作為允許科學分析和理解的工具的方式是,探討將先驗概念知識與從數據中提取的感知信息相結合的方法。這篇論文檢驗了圖分割、子集、離散變量和微分方程作為特定的結構性約束,對神經網絡表示進行約束,以表示先驗知識,目的是使神經網絡更加可解釋和可分析。
//hdl.handle.net/11245.1/53614a81-69a1-4671-a906-fa0672b29a92
盡管當前的神經網絡模型在許多感知任務上表現出色,但這是以大量數據和計算為代價的。此外,當神經網絡面對與訓練數據不同或相差甚遠的數據時,往往會表現出脆弱性。一種更實際的代表性結構的動機是,通過賦予神經網絡本質上代表任務或手頭數據類型的結構,可能避免或減輕對大型數據集和計算的需求以及神經網絡的缺乏魯棒性。非平凡的任務和數據通常具有內部結構,這種結構在輸入表示中并沒有顯式表示。在圖像中,相鄰像素通常是相關的;視頻通常在相鄰幀中有小的變化;場景由可以移動的對象組成;時間序列可能具有因果或動態關系等。這種結構構成了任務的本質特征,并且不依賴于訓練分布。在沒有對網絡的結構性約束或指導原則的情況下,這樣的網絡可能無法區分對任務本質重要的特征和僅由數據偶然給出的特征。這樣的網絡可能只能檢測數據給出的偶然特征中的模式,并且在尊重某個給定任務的本質特征的分布外數據上表現不佳。另一方面,在神經網絡的內部表示中表示給定任務的本質特征,可能提高模型的魯棒性和效率。學習模型設計的任務是找到可以在模型中整合的適當結構,同時保持結構整合和學習、表示的形式和內容之間正確的平衡,而不退化為手工特征工程。
**研究問題1 可微分圖分割能否在以對象為中心的表示中提高泛化能力? **在第2章中,我們聚焦于圖像和視頻中的以對象為中心的學習問題,并考慮特征之間的圖結構關系。在本章中,我們提出了一種拓撲感知的特征分區方法,將給定場景特征劃分為k個不相交的分區,作為以對象為中心的表示學習方法。對于分區方法,我們建議使用最小s-t圖割,該方法表示為一個線性程序。這種方法是拓撲感知的,因為它明確編碼了圖像圖中的鄰域關系。為了解決圖割問題,我們的解決方案依賴于一個高效、可擴展且可微分的二次規劃近似。針對割問題的特定優化使我們能夠顯著更高效地解決二次規劃問題并計算其梯度,與一般的二次規劃方法相比。以前的以對象為中心的學習方法在紋理場景和物體以及新穎物體形狀存在的情況下通常有困難。在我們的結果中,我們展示了我們的方法在具有紋理場景和物體的對象發現任務上改進了以前的方法,并且在具有新穎和未見過的紋理和形狀的分布外數據上提高了泛化性能。對于我們的第二個研究問題,我們考慮代表一個神經網絡表示自身動態演化的問題,通過一個可解釋且適合分析的生成動態機制來管理。
**研究問題2 神經網絡如何生成明確的、可解釋的、可分析的動態機制來管理網絡自身的內部動態演化? **在第3章中,我們提出了一類新的動態模型,稱為機械神經網絡,它們生成作為一組線性常微分方程(ODEs)的明確內部機制,進而管理內部神經網絡表示的演化。網絡表示的演化是通過解生成的ODEs來計算的。我們展示了可微分優化也可以用來在神經網絡內部有效地解線性ODEs,同時允許相對于ODE參數計算梯度。該模型可以應用于動態數據以及圖像等其他類型的數據,并且在其他神經網絡動態系統模型上有所改進。盡管機制是內部神經網絡表示的一部分,它們也是明確的,這意味著它們可以被理論和實驗分析所研究。接下來,我們探討具有子集操作的神經網絡作為離散結構的下一個示例。作為應用,我們考慮解釋性和子采樣大圖像的任務。在這兩種情況下,問題是是否可以選擇輸入數據示例的一個子集,以某種方式代表原始輸入。在解釋性任務中,選擇的子集是逐實例解釋預測的。在子采樣任務中,選擇的子集是逐數據集的,并且可以看作是原始數據集的替代。以前的方法通常限于小的子集和領域大小。我們的下一個研究問題探索這個任務是否可以快速有效地完成,對于大領域和子集大小。
**研究問題3 條件泊松子集抽樣是否提供了一種相比序列抽樣在神經網絡中更高效且可擴展的替代方案? **在第4章中,我們提出了一種既高效又可擴展到大子集大小的序列抽樣的替代方法。當前神經網絡方法用于抽樣子集通常屬于序列抽樣方法(Tillé, 2006)。使用序列抽樣時,如Gumbel分布這樣的排名分布被用來獨立地對給定全集中的每個元素進行排名,這產生了可能子集上的概率分布。要獲得大小為k的子集樣本,選擇最大(或最小)的k個元素。選擇最大k個元素(Top-k)的操作自然不是連續可微的,并且已經為Top-k操作開發了近似可微分程序。然而,這些方法對于抽樣大子集在時間和內存方面都是昂貴的。此外,使用這些方法時子集大小參數不是可微分的,且使用逐實例子集大小是麻煩的。在這項工作中,我們提出使用泊松和條件泊松抽樣之間的一個可微分替代方案作為序列抽樣的替代方案。這種方法效率高且可擴展,內存和計算成本低,且允許可微分的子集大小。接下來,我們考慮具有離散變量的神經網絡,并考慮正則化高斯函數以近似離散變量。
**研究問題4 高斯函數穩定性是否為訓練具有離散變量的神經網絡提供了一種可行的方法? **在第5章中,我們檢查了使用高斯函數穩定性概念作為訓練具有離散變量的神經網絡的正則化方法。用于學習具有離散變量的網絡的放松方法依賴于手動溫度調整,因為網絡沒有指導性激勵去獲得離散表示。這項工作提出了一種正則化方法,其中放松的程度作為穩定性項包含在損失函數中。粗略地說,高斯函數的噪聲穩定性是衡量其對噪聲的抵抗力的度量。Borell的等周定理(Borell, 1985)指出,對于某個固定體積的有界函數,其范圍為[0, 1],噪聲穩定性由半空間的指示函數最大化。鑒于半空間指示符在高斯空間中最大化噪聲穩定性,我們通過優化穩定性作為將高斯輸入轉換為二進制向量的簡單有效方法來開發我們的方法。在最后一章中,我們從高斯函數的諧波分析的角度考慮了一個層次模型,層次變分自編碼器。
**研究問題5 高斯分析對層次VAE的改進和后驗坍塌的緩解有何建議? **在第6章中,我們從高斯函數分析的角度檢查具有高斯變量的層次變分自編碼器。具有深層隨機層次的變分自編碼器已知存在后驗坍塌的問題,其中頂層回落到先驗并變得獨立于輸入。在本章中,我們提出通過引入一個由高斯分析激發的平滑參數來概括VAE神經網絡,以減少更高頻率分量并因此參數化函數的方差。我們證明,平滑操作在層次VAE目標的KL散度項中引入了偏差-方差權衡。我們進一步展示,在這種平滑下,VAE損失表現出一個相變,其中頂層KL散度在平滑參數的一個臨界值處急劇降至零,對于同一模型跨數據集是相似的。
深度神經網絡越來越多地被用于計算機視覺任務,這得益于它們的強大性能。然而,它們的訓練需要大規模的標記數據集,這些數據集的準備工作非常耗時。半監督學習(SSL)通過從標記和未標記數據的混合中學習提供了一個解決方案。雖然大多數最先進的SSL方法遵循確定性方法,但對其概率對應物的探索仍然有限。這一研究領域非常重要,因為概率模型可以提供對現實世界應用至關重要的不確定性估計。例如,由于未標記數據中潛在的偽標簽錯誤,接受SSL訓練的模型可能不及接受監督學習訓練的模型,這些模型在實踐中更可能做出錯誤的預測。特別是在醫學圖像分析和自動駕駛等關鍵領域,決策者必須了解模型的局限性以及可能發生錯誤預測的時機,這些洞察通常由不確定性估計提供。此外,當使用未標記樣本進行訓練時,不確定性還可以作為過濾不可靠偽標簽的標準,從而可能提高深度模型的性能。本論文進一步探索了SSL的概率模型。依靠廣泛使用的貝葉斯近似工具——蒙特卡洛(MC)dropout,我提出了一個新的概率框架,即生成式貝葉斯深度學習(GBDL)架構,用于半監督醫學圖像分割。這種方法不僅緩解了以前方法中發現的潛在過擬合問題,而且在四個評估指標中都取得了更優的結果。與其經驗設計的前身不同,GBDL由完整的貝葉斯公式支撐,提供了理論上的概率基礎。承認MC dropout的局限性,我引入了NP-Match,一種新的大規模半監督圖像分類的概率方法。通過在不同的挑戰性設置中進行廣泛的實驗,包括標準的、不平衡的和多標簽的半監督圖像分類,我們評估了NP-Match的泛化能力。根據實驗結果,NP-Match不僅與以前的最先進方法相比有優勢,而且比基于MC-dropout的模型更快地估計不確定性,從而提高了訓練和測試的效率。最后,我提出了NP-SemiSeg,一種新的半監督語義分割的概率模型。這種靈活的模型可以與各種現有的分割框架集成,以進行預測和估計不確定性。實驗表明,NP-SemiSeg在準確性、不確定性量化和速度方面都超過了MC dropout。
這篇論文探討了對稱神經網絡的理論,這是一種在設計、實現和分析保持對稱性質的神經網絡時使用的概念和數學框架。在這里,對稱性可能涉及到神經網絡架構或其組件在某些變換下保持不變的性質。例如,這可能包括旋轉或平移不變性。 對稱函數,它們以一個無序的、固定大小的集合作為輸入,在基于不可區分點或粒子的多種物理場景中找到了實際應用,并且也被用作構建具有其他不變性網絡的中間構建塊。已知通過強制執行排列不變性的神經網絡可以普遍表示對稱函數。然而,表征典型網絡的近似、優化和泛化的理論工具未能充分表征強制執行不變性的架構。 這篇論文探討了何時可以將這些工具適應于對稱架構,以及何時不變性質本身導致了全新的理論發現。我們研究并證明了對稱神經網絡擴展到無限大小輸入時的近似限制、對稱和反對稱網絡相對于集合元素之間的互動的近似能力,以及通過梯度方法學習簡單對稱函數的可學習性。 深度學習理論始于通用逼近定理,樂觀地說,人們可能希望這就是理論的全部。在無限數據的極限情況下,似乎沒有必要超越兩層的標準神經網絡。但無論數據集變得多大,實踐者仍然尋求應用某種先驗知識來改善優化和泛化。 通常,這種先驗知識是根據數據的性質來適配的。例如,自注意力機制似乎是處理序列數據的適當先驗[Vaswani et al. 2017]。但往往,這種先驗知識采取的是底層對稱性的形式。 經典地,圖像數據從強制執行平移等變性的架構中獲得巨大益處[LeCun et al. 1998]。同樣,對于圖數據,我們執行對節點重新標記的不變性[Scarselli et al. 2008];對于分子,我們執行旋轉不變性[Cohen et al. 2018];對于費米子波函數,我們執行反對稱性[Moreno et al. 2021]等等。 對于集合,適當的幾何先驗是排列不變性[Zaheer et al. 2017; Qi et al. 2017; Santoro et al. 2017]。集合數據在粒子物理或人口統計的設置中自然出現。但排列不變性也是其他架構內部應用的基本原語,特別是對于圖[Kipf and Welling 2016]和反對稱波函數[Pfau et al. 2020]。因此,我們將排列不變性架構視為自成一體的首要公民,值得顯式研究。 這段討論強調了在深度學習架構中應用先驗知識的重要性,特別是當這些先驗與數據的內在對稱性相關時。通過理解和應用這些對稱性原則,可以設計出更有效的深度學習模型,這些模型不僅能夠更好地理解數據的幾何和結構特性,而且能夠更有效地進行優化和泛化,即使在數據量巨大的情況下也是如此。
神經過程是一種模型家族,它使用神經網絡直接參數化從數據集到預測的映射。直接參數化這種映射使得在傳統上神經網絡會過擬合的小數據問題中使用表達性強的神經網絡成為可能。神經過程能夠產生校準良好的不確定性,有效處理缺失數據,并且易于訓練。這些屬性使得這個模型家族在如醫療保健或環境科學等廣泛的應用領域中顯得非常吸引人。
本論文在三個方面推進了神經過程。
首先,我們提出了卷積神經過程(ConvNPs)。ConvNPs通過構建一種稱為平移等變性的對稱性來提高神經過程的數據效率。ConvNPs依賴于卷積神經網絡而不是多層感知器。 其次,我們提出了高斯神經過程(GNPs)。GNPs直接參數化神經過程預測中的依賴性。當前對預測依賴性建模的方法依賴于一個潛在變量,因此需要近似推理,這削弱了方法的簡便性。 第三,我們提出了自回歸條件神經過程(AR CNPs)。AR CNPs在不對模型或訓練程序進行任何修改的情況下訓練神經過程,并在測試時以自回歸的方式展開模型。AR CNPs為神經過程框架配備了一個新的旋鈕,可以在訓練時將建模復雜性和計算開銷與測試時的計算開銷進行交換。 除了方法論上的進步,本論文還提出了一種軟件抽象,使得實現神經過程的方式可以組合。這種方法允許用戶通過以不同方式組合基本構建塊來快速探索神經過程模型的空間。
神經網絡在各種機器學習任務和不同領域取得了巨大的進步。通常,神經網絡依賴于啟發式地優化非凸目標,這引發了對它們的透明度、效率和經驗性能的質疑。在這篇論文中,我們展示了各種神經網絡架構都可以適應凸優化,意味著它們的非凸目標可以通過半無限對偶公式重新構成為凸優化問題。我們首先展示對于具有ReLU激活函數的雙層全連接神經網絡,優化問題是凸的,并且與共積程序編程有著獨特的聯系,該程序具有一種促進網絡中使用的激活模式數量稀疏性以及每種激活模式中活躍的神經元數量稀疏性的正則化器。我們展示了在某些數據情況下,這種公式能夠獲得封閉形式的解決方案,并使用共積程序編程來放松問題,使其在問題維度上為多項式時間,對于固定秩的數據矩陣而言。我們展示了解決凸形式的重構問題會比應用于原始非凸目標的啟發式算法(如梯度下降)找到更好的解決方案。
在本論文的其余部分,我們探索了不同的神經網絡架構和訓練機制,這些機制對凸優化公式提出了新的挑戰。我們展示了對于卷積神經網絡和Transformer架構,優化問題也可以接受凸重構。我們還展示了對于具有批量歸一化和生成對抗網絡的神經網絡,相同的凸重構技術可以解開非凸優化中無法解釋的方面,并對實際問題提供更快、更穩健的解決方案。最后,我們展示了這些方法可以通過Burer-Monteiro分解凸目標來擴展到更深的網絡,同時保持凸保證,但允許以可擴展的方式逐層堆疊凸子網絡。
神經網絡在多種任務中的應用變得越來越強大和廣泛。它們廣泛使用的最新原因是深度學習的出現,深度學習已被證明在多種任務中有效,包括圖像分類和自然語言處理。近年來,深度學習和在機器學習的基礎問題上應用大規模計算和數據的步伐改變,帶來了人工智能的許多突破,例如能夠生成與人類撰寫文本無法區分的文本的大型語言模型(LLMs),以及具有超人類準確度的圖像分類器。
然而,盡管取得了成功,神經網絡通常被認為是黑盒,很難理解它們為什么如此有效。這種缺乏理解是神經網絡進一步發展的主要障礙。具體來說,訓練神經網絡的優化過程并不被充分理解,尚不清楚為何這種優化過程能產生在未見數據上表現良好的解決方案。這尤其令人困惑,因為并沒有保證神經網絡會收斂到全局最優解,在許多情況下,眾所周知神經網絡只會收斂到局部最優,這些局部最優在解決方案空間的某個鄰域內是最優的,但不是最佳可能解決方案。這引發了一個問題:是否存在更好的解決方案,以及如何找到它們。此外,由于優化過程不被充分理解,神經網絡訓練往往是一個效率低下的試錯過程,需要重度的直覺和實驗來找到一個好的解決方案。在大規模機器學習的世界里,這尤其令人關注,因為訓練LLMs的成本對于少數機構來說是高得令人望而卻步的。 在這篇論文中,我們旨在通過理解和利用神經網絡優化問題的隱含結構來解決這些問題。我們將通過找到神經網絡問題的一個等價公式來做到這一點,這個公式是凸的,可以高效地解決。
近年來,神經3D場景表示已經成為一種新的方式來存儲關于3D環境、它們的屬性和行為的信息,其中包括學習到的特征。與傳統計算機圖形表示的主要區別在于,表示的參數可以通過優化獲得,目的是與觀察結果保持一致。因此,它們已經成為了將計算機圖形技術和機器學習技術結合起來表示3D場景的變革性工具。 這些表示在從機器人技術和遙感到電影攝影和視頻編輯的應用中都有所應用。但是,這些表示受到一個事實的限制,即它們只能利用在特定單一場景中捕獲的信息。具體來說,只有對單一場景的觀察可以用來創建和提高這個場景的神經表示的質量。這導致了一些不受歡迎的屬性,例如從觀察中慢慢地創建神經場景表示,或者無法生成完全新的真實的神經場景表示。在這篇論文中,學習神經場景表示的先驗知識,我提出了一種利用超出單一場景的數據中學到的信息來創建神經3D場景表示的新方法。我探討了使用3D、圖像和預訓練模型作為從中學習神經3D場景表示先驗的信息來源。此外,我展示了如何在我們的神經場景表示架構中構建標準計算機圖形方法,以簡化從未捕獲完整3D幾何形狀的數據中學習先驗的過程。
具體來說,在這篇論文中: ? 我們展示了如何使用元學習從3D掃描和物體圖像數據集中學習先驗知識,以加速創建新物體的神經場景表示所需的優化。我們證明了使用元學習可以將從圖像中的優化和神經場景表示的圖像渲染時間從數小時縮短到幾分鐘。 ? 我們提出了一個新的框架,使用生成對抗網絡從僅有的2D圖像集合中學習生成全新的人體和面部的3D表示。為了能夠生成如人體這樣的復雜物體類別,我們的方法提出了一個新穎的生成對抗網絡架構,允許對生成的3D人體的身份和姿勢進行獨立控制。這允許對生成的3D人體進行可解釋的控制。 ?** 我們開發了一種方法,使用存儲在2D擴散模型中的信息,僅根據文本提示創建可操作的人頭的3D表示**。我們展示了使用我們的方法生成的3D資產與一個可變形的頭部模型對齊,因此可以動畫化面部表情和形狀,與其他僅使用文本的3D資產生成方法不同。
受寬神經網絡(NNs)理論的啟發,核學習和特征學習近期作為兩個范式浮現出來,通過它們我們可以實際理解大規模深度學習系統的復雜行為。在文獻中,它們通常被描述為二分法的兩個對立面,各自具有優點和缺點:核學習與經過深入研究的機器學習技術(如核方法和高斯過程)建立聯系,而特征學習則承諾捕捉更多豐富而尚未解釋的,獨特于神經網絡的屬性。在這篇論文中,我們介紹了三項研究,研究結合了來自兩個角度的見解來研究神經網絡的性質,不僅強調它們的差異,而且強調共同點。我們首先回顧了有關深度學習理論的相關文獻,重點是寬神經網絡的研究。這為核學習和特征學習的討論提供了背景,基于此,我們繼續描述我們的貢獻。首先,我們研究了寬神經網絡集合與貝葉斯推斷之間的關系,利用核學習與高斯過程之間的聯系,并提出了一種修改,以解釋神經網絡函數在初始化時缺失的方差,從而使我們訓練過的深度集合具有貝葉斯解釋。接下來,我們結合核學習和特征學習來展示特征核的適用性,即通過最終層神經網絡特征的內積引導的核,作為知識蒸餾的目標,其中人們尋求使用強大的教師模型來提高弱學生模型的性能。最后,我們探討自監督學習中折疊特征和白化特征之間的差距,強調特征核中特征值的衰減率作為一項關鍵量,它彌合了這一差距,并影響下游泛化性能,特別是在標記數據稀缺的情況下。我們以討論我們的貢獻,包括局限性和未來展望,作為結論。
在過去的十年中,自然語言處理(NLP)系統幾乎完全建立在大型神經模型的基礎上。由于這些模型的能力,可行的任務范圍擴大了,應用的空間也擴大了,包括具有現實世界影響的子領域,如事實核查、假新聞檢測和醫療決策支持。這些模型的規模和非線性的增加導致了不透明,阻礙了機器學習從業者和外行用戶理解其內部原理并從其預測中獲得意義或信任的努力。可解釋人工智能(XAI)和更具體的可解釋NLP (ExNLP)領域通過提供對人類用戶有意義的文本解釋,已成為糾正這種不透明度并確保模型在高風險場景中的可靠性和可信性的活躍領域。可以檢查為其個人預測提供理由的模型,以調試、量化偏差和公平性、理解模型行為以及確定魯棒性和隱私(Molnar 2019)。無論任務模式如何,文本解釋是機器學習數據集中的主要解釋形式。因此,本文涵蓋了自然語言任務解釋和自然語言任務解釋兩個方面。本文提出了兩種語義定義下的模型解釋質量評估測試集:忠實度(faithfulness)和人類可接受性(human acceptability)。我使用這些評估方法來研究兩種解釋形式和三種模型架構的效用。最后,我提出了兩種方法來提高解釋質量——一種增加了忠實突出解釋的可能性,另一種提高了人類對自由文本解釋的可接受性。本文努力增加在實踐中部署人工智能系統時積極使用和產生結果的可能性。
表示學習已經成為一種多功能工具,能夠利用使用數字技術獲得的大量數據集。該方法的廣泛適用性源于其作為子系統使用的靈活性和在模型架構中納入先驗的可擴展性。數據內部的直觀依賴關系,如像素主要對其鄰近的上下文做出貢獻,可以被形式化和嵌入,以提高泛化,并允許具有很大能力的模型避免過擬合。元學習也被應用于將這些系統擴展到低數據設置,通過將特定任務視為更普遍問題的實現而不損失性能。本文考慮如何利用這些方法的基本兼容性。本工作的主要論點是,歸納偏差提供的計算的清晰度可以用于改進元學習架構,并直接構建元學習器過去經驗和解決問題能力到新任務的遷移。通過融合這些方法開發的方法可以在廣泛的設置和領域中提高與基線模型相比的性能。融合有三種實現方式。第一個將復合分類確定為一種自然設置,并展示了如何使用注意力下數據點的自組織來增強元學習分類器。第二種使用顯式關系推理來調節和重組神經模塊,以在測試時快速準確地適應。自適應神經過程來捕獲關系和時間依賴,以提高預測和不確定性估計的準確性和一致性。在驗證本文的激勵假設時,這些貢獻在其他領域中發現了最先進的應用,包括小樣本圖像分類、粒子控制系統的相互作用的無監督恢復、蛋白質-蛋白質相互作用位點預測以及動力系統的識別和演化。通過這樣做,這項工作有助于使機器智能應用于更廣泛、更精細的問題范圍——作為所考慮問題的解決方案,作為進一步應用的架構模板,以及作為未來研究的方向。
圖神經網絡(GNNs)成功地從大多數類型的網絡數據學習表示,但在大型圖的情況下受到限制。挑戰出現在學習架構的設計本身,因為大多數GNN是由圖的一些矩陣表示(例如,鄰接矩陣)參數化的,當網絡很大時,這可能很難獲得。此外,在許多GNN架構中,圖操作是通過譜域中的卷積操作來定義的。在這種情況下,另一個障礙是圖譜的獲得,這需要代價高昂的矩陣特征分解。
然而,從共享結構屬性的意義上來說,大型圖通常可以被識別為彼此相似。因此,我們可以預期,處理這些圖上支持的數據應該會產生類似的結果,這將減輕大尺寸的挑戰,因為我們可以為小圖設計GNN,并將它們轉移到更大的圖上。在這篇論文中,我將這種直覺形式化,并表明當這些圖屬于同一個“族”時,這種圖的可移植性是可能的,其中每個族由不同的圖元標識。
graphon是一個函數W(x,y),它描述了一類具有相似形狀的隨機圖。我們可以將參數(x,y)看作是一對節點的標簽,以及圖元值W(x,y)作為x和y之間一條邊的概率的標簽。這產生了一個從圖元采樣的圖的概念,或者,等價地,一個隨著采樣圖中節點數量增長的極限的概念。從一個graphon上采樣的圖形幾乎肯定在極限上具有相同的屬性,例如同態密度,這在實踐中意味著,graphon識別的網絡家族在某種意義上是相似的,某些“motifs”的密度是保持不變的。這激發了對圖上的信息處理的研究,作為在大型圖上進行信息處理的一種方法。
信號處理理論的核心部分是一個移位的概念,它引入了一類具有傅立葉變換(FT)特征的光譜表示的線性濾波器。本文表明,graphon誘導了一個線性算子,可用于定義移位,從而定義graphon濾波器和graphon FT。基于圖序列和相關圖信號的收斂性質,可以證明對于這些序列,圖FT收斂到graphon FT,圖濾波器的輸出收斂到具有相同系數的graphon濾波器的輸出。這些定理表明,對于屬于某些族的圖,圖傅里葉分析和圖濾波器設計具有明確的限制。反過來,這些事實使具有大量節點的圖上的圖信息處理成為可能,因為為極限圖設計的信息處理管道可以應用于有限圖。
我們通過組合具有點非線性的graphon濾波器組來進一步定義graphon神經網絡(WNNs)。WNNs是理想的極限,在實際中并不存在,但它們是理解GNNs基本性質的有用工具。特別是,graphon濾波器的采樣和收斂結果可以很容易地擴展到WNNs,從而表明當圖收斂到graphon時,GNN收斂到WNNs。如果兩個GNN可以任意接近同一個WNN,那么通過一個簡單的三角形不等式參數,它們也可以任意接近彼此。這個結果證實了我們的直覺,即GNN可以在相似的圖之間轉移。一個GNN可以在中等規模的圖上訓練,并在一個可轉移性誤差主要為最小圖的大小的倒數的大尺度圖上執行。有趣的是,這種誤差隨著卷積濾波器光譜響應的可變性而增加,揭示了從圖濾波器繼承來的可轉移性和光譜鑒別性之間的權衡。在實踐中,由于非線性,這種權衡在GNN中很少出現,它能夠將數據的光譜成分分散到特征值譜的不同部分,在那里它們可以被區分。這解釋了為什么GNN比圖過濾器更可轉移。
對稱和不變性在機器學習任務中無處不在。雖然卷積神經網絡以成功利用平移對稱性而聞名,但其他對稱性直到最近才經常被忽視。將對稱性或不變性納入神經網絡體系結構可以避免昂貴的數據增強,并減輕對大型數據集的需求。提出的工作集中在不變和等變神經網絡層,把對稱性放在神經網絡架構設計的中心。具體而言,本文涵蓋了三種不同的不變性:排列不變性、旋轉-平移不變性和標簽不變性。