基于擴散的生成性圖模型已被證明在生成高質量的小圖上非常有效。然而,他們需要更具可擴展性才能生成包含數千個節點并期望圖統計的大圖。在這項工作中,我們提出了EDGE,一種新的基于擴散的生成性圖模型,用于處理大圖的生成任務。為了提高計算效率,我們通過使用一種離散擴散過程鼓勵圖的稀疏性,該過程在每個時間步隨機刪除邊,最終得到一個空圖。EDGE在每個去噪步驟中只關注圖中的一部分節點。它比以前的基于擴散的模型做出更少的邊預測。此外,EDGE允許顯式地模擬圖的節點度,進一步提高模型的性能。實證研究顯示,EDGE比競爭方法更高效,能夠生成包含數千個節點的大圖。它在生成質量上也超過了基線模型:我們方法生成的圖的圖統計數據與訓練圖的更相似。
//www.zhuanzhi.ai/paper/cc59405ca6fa98d54ead7fd468e1015e
圖神經網絡(GNNs)是用于圖學習問題的流行模型。在許多實際任務中,GNNs表現出強大的經驗性能能力。然而,其理論屬性尚未完全闡明。在本文中,我們從GNNs的表達能力的角度研究它們是否能利用圖結構。在我們的分析中,我們考慮由隱藏節點特征控制的圖生成過程,這些特征包含了關于圖結構的所有信息。這個框架的一個典型例子是根據隱藏特征構建的kNN圖。在我們的主要結果中,我們表明,即使在所有節點特征(包括隱藏特征本身和任何間接提示)都不可用的情況下,GNNs也可以僅從輸入圖中恢復隱藏節點特征。GNNs還可以使用恢復的節點特征進行下游任務。這些結果表明,GNNs可以完全自主地利用圖結構,并且在實際上,GNNs可以在下游任務中使用隱藏和顯式節點特征。在實驗中,我們通過展示基于我們理論分析構建的GNN架構可以準確地恢復隱藏特征,證實了我們的結果的有效性。
//www.zhuanzhi.ai/paper/1e88e68288b217c17d49b0f911eb71ea
給定目標分布中的觀察樣本x,生成模型的目標是學習為其真實的數據分布p(x)建模。一旦學習,我們可以從我們的近似模型任意生成新的樣本。此外,在一些公式下,我們能夠使用學習的模型來評估觀察或抽樣數據的可能性。在目前的文獻中有幾個著名的方向,我們將只在較高的水平上簡要介紹。生成對抗網絡(GANs)模擬了一個復雜分布的抽樣過程,它是通過對抗的方式學習的。另一類生成模型被稱為“基于似然的”,它試圖學習一個模型,該模型為觀察到的數據樣本分配高可能性。這包括自回歸模型、標準化流和變分自動編碼器(VAEs)。另一種類似的方法是基于能量的建模,在這種方法中,分布被學習為任意靈活的能量函數,然后被歸一化。基于評分的生成模型是高度相關的; 他們不是學習建立能量函數本身的模型,而是將基于能量的模型的評分作為神經網絡來學習。在這項工作中,我們探索和回顧了擴散模型,正如我們將展示的,有基于似然和基于評分的解釋。我們以令人痛苦的細節展示了這些模型背后的數學,目的是讓任何人都可以跟隨并理解擴散模型是什么以及它們如何工作。
ELBO, VAE, 和 Hierarchical VAE
對于許多模態,我們可以認為我們觀察到的數據是由一個相關的看不見的潛在變量表示或產生的,我們可以用隨機變量z表示。表達這一想法的最佳直覺是通過柏拉圖的洞穴寓言。在這個寓言中,一群人一生都被鎖在一個洞穴里,只能看到投射在他們面前墻上的二維陰影,這些陰影是由在火前經過的看不見的三維物體產生的。對這些人來說,他們所觀察到的一切實際上都是由他們永遠無法看到的高維抽象概念所決定的。
類似地,我們在現實世界中遇到的對象也可能是一些更高層次表征的函數;例如,這樣的表示可以封裝諸如顏色、大小、形狀等抽象屬性。那么,我們所觀察到的就可以被解釋為三維投影或這些抽象概念的實例化,就像穴居人所觀察到的其實是三維物體的二維投影一樣。雖然穴居人永遠看不到(甚至完全理解)隱藏的物體,但他們仍然可以對它們進行推理和推斷;以類似的方式,我們可以近似描述我們觀察到的數據的潛在表示。
柏拉圖的寓言闡述了潛在變量背后的想法,作為潛在的不可觀察的表征來決定觀察,這個類比的一個警告是,在生成建模中,我們通常尋求學習低維的潛在表征,而不是高維的。這是因為如果沒有強大的先驗,試圖學習比觀察更高維度的表示是徒勞的。另一方面,學習低維潛勢也可以被視為一種壓縮形式,并可能揭示描述觀察結果的語義有意義的結構。
在默認的變分自動編碼器(VAE)[1]的公式中,我們直接最大化了ELBO。這種方法是變分的,因為我們在一個由φ參數化的潛在后驗分布家族中優化最佳的qφ(z|x)。它之所以被稱為自動編碼器,是因為它讓人想起了傳統的自動編碼器模型,在傳統的自動編碼器模型中,輸入數據經過中間瓶頸表示步驟后被訓練成預測自己。為了明確這種聯系,讓我們進一步分析ELBO術語:
分層變分自動編碼器(HVAE)[2,3]是擴展到潛變量的多重層次的一種推廣。在這個公式下,潛在變量本身被解釋為由其他更高級、更抽象的潛在變量生成。直觀地說,就像我們把三維被觀察的物體看成是由更高層次的抽象潛伏體產生的一樣,柏拉圖洞穴里的人把三維物體看成是產生二維觀測的潛伏體。因此,從柏拉圖的洞穴居民的角度來看,他們的觀察可以被視為一個深度2(或更多)的潛在層次模型。
變分擴散模型 Variational Diffusion Models
最簡單的方法是把變分擴散模型(VDM)[4,5,6]簡單地看作是一個馬爾可夫層次變分自編碼器,有三個關鍵的限制條件: * 潛在維度與數據維度完全相等 * 不學習每個時步的潛在編碼器的結構;它被預先定義為線性高斯模型。換句話說,它是一個以前一個時間步長的輸出為中心的高斯分布 * 潛在編碼器的高斯參數隨時間變化,在最終時間步T的分布是標準高斯
結論
請允許我們總結一下我們在探索過程中的發現。首先,我們推導了變分擴散模型作為馬爾可夫層次變分自動編碼器的特殊情況,其中三個關鍵假設使ELBO的可跟蹤計算和可擴展優化成為可能。然后,我們證明優化VDM可以歸結為學習一個神經網絡來預測以下三個潛在目標之一:來自任意噪聲化的原始源圖像,來自任意噪聲化圖像的原始源噪聲,或在任意噪聲水平上的噪聲化圖像的評分函數。然后,我們深入研究評分函數的含義,并明確地將其與基于評分的生成模型的視角聯系起來。最后,我們將介紹如何使用擴散模型學習條件分布。
總之,擴散模型表現出了生成模型不可思議的能力;事實上,它們為目前最先進的基于文本條件的圖像生成模型(如Imagen和DALL-E 2)提供了動力。此外,建立這些模型的數學運算非常優雅**。但是,仍然有一些缺點需要考慮:
這不太可能是我們作為人類自然建模和生成數據的方式;我們不生成樣本作為我們迭代去噪的隨機噪聲。
VDM不會產生可解釋的潛量。VAE算法希望通過編碼器的優化來獲得一個結構化的潛在空間,而在VDM中,編碼器在每個時間步長的位置都是線性高斯模型,不能靈活地優化。因此,中間潛伏被限制為原始輸入的噪聲版本。
潛勢被限制在與原始輸入相同的維度,進一步阻礙了學習有意義的壓縮潛勢結構的努力。
采樣是一個昂貴的過程,因為在兩種配方下必須運行多個去噪步驟。回想一下,其中一個限制是選擇足夠多的時間步T,以確保最終潛伏是完全高斯噪聲;在采樣期間,我們必須遍歷所有這些時間步來生成一個樣本。
最后,擴散模型的成功凸顯了層次式VAE模型作為生成模型的力量。我們已經證明,當我們推廣到無限潛在層次時,即使編碼器是微不足道的,潛在維是固定的,并且假設馬爾可夫躍遷,我們仍然能夠學習強大的數據模型。這表明,在一般的深度HVAEs情況下,可以獲得進一步的性能提高,其中復雜的編碼器和語義有意義的潛在空間可以學習。
圖上的機器學習方法在許多應用中已經被證明是有用的,因為它們能夠處理一般結構化數據。高斯馬爾可夫隨機場(GMRFs)框架提供了一種原則性的方法,利用圖的稀疏性結構來定義高斯模型。本文在深度GMRF的多層結構基礎上,針對一般圖提出了一種靈活的GMRF模型,該模型最初只針對格點圖提出。通過設計一種新型的層,我們使模型能夠縮放到大的圖。該層的構造允許使用變分推理和現有的軟件框架的圖神經網絡進行有效的訓練。對于高斯似然,潛在場可用接近精確的貝葉斯推斷。這允許進行預測,并伴隨不確定性估計。在大量的合成和真實數據集上的實驗驗證了所提出的模型的有效性,在這些實驗中,它比其他貝葉斯和深度學習方法都要好。
//www.zhuanzhi.ai/paper/1527c7e63ed14084f3bc6947391f8789
Transformer架構最近在圖表示學習中獲得了越來越多的關注,因為它通過避免圖神經網絡(GNN)的嚴格結構歸納偏差,而只通過位置編碼對圖結構進行編碼,從而自然地克服了圖神經網絡(GNN)的一些限制。在這里,我們展示了使用位置編碼的Transformer生成的節點表示不一定捕獲它們之間的結構相似性。為了解決這個問題,我們提出了結構感知Transformer (Structure-Aware Transformer),這是一類建立在一種新的自注意力機制上的簡單而靈活的圖Transformer。這種新的自注意在計算自注意之前,通過提取基于每個節點的子圖表示,將結構信息融入到原始自注意中。我們提出了幾種自動生成子圖表示的方法,并從理論上表明,生成的表示至少與子圖表示一樣具有表現力。從經驗上講,我們的方法在5個圖預測基準上達到了最先進的性能。我們的結構感知框架可以利用任何現有的GNN來提取子圖表示,我們表明,相對于基本GNN模型,它系統地提高了性能,成功地結合了GNN和transformer的優勢。我們的代碼可以在這個 https: //github.com/BorgwardtLab/SAT. 中找到。
我們提出了一種新的參數化方案來解決在大型神經網絡上運用差分私有SGD所面臨的挑戰,這些挑戰包括1) 存儲單個梯度的巨大存儲成本,2) 附加的噪聲嚴重依賴于維數。具體地說,我們用兩個小維的梯度載波矩陣和一個殘差權矩陣來重新參數化每個權矩陣。我們認為,這樣的重新參數化保持向前/向后過程不變,同時使我們能夠在不計算梯度本身的情況下計算投影梯度。為了學習差分隱私,我們設計了重參數梯度擾動(RGP),它擾亂梯度載體矩陣上的梯度,并從有噪聲的梯度中重建原始權重的更新。重要的是,我們使用歷史更新來尋找梯度載波矩陣,其最優性在線性回歸下得到嚴格證明,并通過深度學習任務得到經驗驗證。RGP顯著降低了內存成本并改進了實用程序。例如,我們首次能夠在BERT模型上應用差分隱私,并在e = 8的四個下游任務上實現了83.9%的平均精度,與非私有基準相比,損失在5%以內,但隱私泄漏風險要低得多。
圖結構數據的自監督學習最近引起了從無標記圖學習可泛化、可遷移移和魯棒表示的興趣。其中,圖對比學習(GraphCL)以良好的表征學習性能出現。不幸的是,與圖像數據不同的是,GraphCL的有效性依賴于特定的數據擴展,由于圖數據的多樣性,必須根據經驗或反復試驗的規則手動選擇每個數據集。這極大地限制了GraphCL更普遍的適用性。為了填補這一關鍵空白,本文提出了一個統一的雙層優化框架,在對特定圖形數據執行GraphCL時自動、自適應、動態地選擇數據增強。聯合增強優化(JOint Augmentation Optimization, JOAO)的通用框架被實例化為最小最大化優化。JOAO所做的增強的選擇通常與從手工調優中觀察到的以前的“最佳實踐”一致:但現在已經自動化,更加靈活和通用。此外,我們提出了一種新的增強感知投影頭機制,在每個訓練步驟中,通過選擇不同的投影頭對應不同的增強來路由輸出特征。大量實驗表明,JOAO在不同規模和類型的多個圖數據集上的性能與最先進的競爭對手(包括GraphCL)相當,有時甚至更好,而無需對增強選擇進行任何費力的數據集特定調優。我們在//github.com/ Shen-Lab/GraphCL_Automated發布了代碼。
論文題目:Graph Neural Networks Inspired by Classical Iterative Algorithms
作者:Yongyi Yang,Tang Liu,Yangkun Wang,Jinjing Zhou,Quan Gan,魏哲巍,Zheng Zhang,Zengfeng Huang,David Wipf
論文概述:圖神經網絡(GNN)作為建模實體間關系的代表性方法,已被成功應用于多個領域。然而現有方法仍存在一些局限性,例如過平滑問題、長距離依賴性問題等。本篇論文基于兩種經典迭代算法提出了首個unfolding視角的GNN集成框架TWIRLS,首先通過模仿近似梯度下降設計了一個可擴展的基礎GNN架構,能夠允許任意的傳播步驟以捕捉長距離依賴關系同時有效避免過平滑問題。在此基礎上,結合迭代加權最小二乘法的更新規則提出了新的注意力機制系列,無需引入額外參數或設計啟發式方法而對邊的不確定性表現魯棒。同時,本篇論文進行了大量實驗旨在評估不同情況下算法的性能,實驗結果表明,即使與特定任務SOTA模型相比,本篇論文所提算法均取得具有競爭力或更高的節點分類精度。
GNN的表示能力和泛化能力得到了廣泛的研究。但是,它們的優化其實研究的很少。通過研究GNN的梯度動力學,我們邁出分析GNN訓練的第一步。具體來說,首先,我們分析線性化(linearized)的GNN,并證明了:盡管它的訓練不具有凸性,但在我們通過真實圖驗證的溫和假設下,可以保證以線性速率收斂到全局最小值。其次,我們研究什么會影響GNN的訓練速度。我們的結果表明,通過跳過(skip)連接,更深的深度和/或良好的標簽分布,可以隱式地加速GNN的訓練。實驗結果證實,我們針對線性GNN的理論結果與非線性GNN的訓練行為一致。我們的結果在優化方面為具有跳過連接的GNN的成功提供了第一個理論支持,并表明具有跳過連接的深層GNN在實踐中將很有希望。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。