亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

這篇論文探討了對稱神經網絡的理論,這是一種在設計、實現和分析保持對稱性質的神經網絡時使用的概念和數學框架。在這里,對稱性可能涉及到神經網絡架構或其組件在某些變換下保持不變的性質。例如,這可能包括旋轉或平移不變性。 對稱函數,它們以一個無序的、固定大小的集合作為輸入,在基于不可區分點或粒子的多種物理場景中找到了實際應用,并且也被用作構建具有其他不變性網絡的中間構建塊。已知通過強制執行排列不變性的神經網絡可以普遍表示對稱函數。然而,表征典型網絡的近似、優化和泛化的理論工具未能充分表征強制執行不變性的架構。 這篇論文探討了何時可以將這些工具適應于對稱架構,以及何時不變性質本身導致了全新的理論發現。我們研究并證明了對稱神經網絡擴展到無限大小輸入時的近似限制、對稱和反對稱網絡相對于集合元素之間的互動的近似能力,以及通過梯度方法學習簡單對稱函數的可學習性。 深度學習理論始于通用逼近定理,樂觀地說,人們可能希望這就是理論的全部。在無限數據的極限情況下,似乎沒有必要超越兩層的標準神經網絡。但無論數據集變得多大,實踐者仍然尋求應用某種先驗知識來改善優化和泛化。 通常,這種先驗知識是根據數據的性質來適配的。例如,自注意力機制似乎是處理序列數據的適當先驗[Vaswani et al. 2017]。但往往,這種先驗知識采取的是底層對稱性的形式。 經典地,圖像數據從強制執行平移等變性的架構中獲得巨大益處[LeCun et al. 1998]。同樣,對于圖數據,我們執行對節點重新標記的不變性[Scarselli et al. 2008];對于分子,我們執行旋轉不變性[Cohen et al. 2018];對于費米子波函數,我們執行反對稱性[Moreno et al. 2021]等等。 對于集合,適當的幾何先驗是排列不變性[Zaheer et al. 2017; Qi et al. 2017; Santoro et al. 2017]。集合數據在粒子物理或人口統計的設置中自然出現。但排列不變性也是其他架構內部應用的基本原語,特別是對于圖[Kipf and Welling 2016]和反對稱波函數[Pfau et al. 2020]。因此,我們將排列不變性架構視為自成一體的首要公民,值得顯式研究。 這段討論強調了在深度學習架構中應用先驗知識的重要性,特別是當這些先驗與數據的內在對稱性相關時。通過理解和應用這些對稱性原則,可以設計出更有效的深度學習模型,這些模型不僅能夠更好地理解數據的幾何和結構特性,而且能夠更有效地進行優化和泛化,即使在數據量巨大的情況下也是如此。

付費5元查看完整內容

相關內容

(New York University),成立于 1831 年,是全美最大的私立大學之一,也是美國唯一一座坐落于紐約心臟地帶的名校。所設課程壓力不大,但要求甚高。而34名諾貝爾獎得主更是使紐約大學光芒四射,享譽世界。紐約大學較為偏重人文藝術及社會科學,研究生院享有很高的聲譽。屬下的帝勢藝術學院是全美最佳的美術學院之一;斯特恩商學院由于得到地靈人杰之助,是蜚聲世界的著名商學院,聚集著世界最頂尖的人才。

現代神經網絡的成功歸因于兩個基本屬性:表達能力和泛化能力。前者指模型適應多種數據集的能力,后者使網絡能夠從訓練樣本中外推模式,并將其應用于以前未見過的數據。本論文解決了與這兩個關鍵屬性相關的一些挑戰。過度參數化的網絡能夠適應任何數據集,并不總是表明它們實際的表達能力。這是本論文第一部分的研究對象,我們將探討輸入信息在通過深層架構時如何丟失,我們提出了一個易于實施的可能解決方案,即引入適當的縮放因子和殘差連接。論文的第二部分關注泛化。盡管現代神經網絡過度參數化,但為何能夠很好地泛化到新數據而不過擬合,這是一個目前在研究界受到廣泛關注的開放問題。我們從信息論和PAC-貝葉斯的視角探索這一主題,提出了新的學習算法和泛化界限。

自從可編程計算機的首次構想以來,人們就對機器獲得智能的可能性感到好奇(Lovelace,1842年)。目前,已經明確計算機可以高效地執行計算和任務,這些對于任何人來說幾乎是無法解決的。然而,實現執行我們日常生活中的簡單動作的算法,如識別物體或理解口語句子,呈現出更大的挑戰,因為它需要以正式的方式表達我們的直覺和主觀理解。事實上,早期嘗試構建計算機,其世界知識直接由人類開發者以正式語言硬編碼,到目前為止還未能取得重大成功:為了學習,機器必須“通過從原始數據中提取模式來獲取[...]知識”(Goodfellow等人,2016年),這一能力被稱為機器學習。神經網絡已經顯示出能夠自主地從外部環境編碼知識的能力。這背后的成功是反向傳播算法的發展,該算法能夠有效地訓練能夠學習自己表征的多層架構,而不依賴于人為設計的特征。事實上,現代神經網絡被結構化為簡單參數化函數的順序組合,使不同層能夠學習輸入和輸出之間日益復雜的關系。這種層次化架構使網絡能夠從輸入中提取和組合不同類型的信息,從而導致更抽象和有用的特征的出現(LeCun等人,2015年)。對于絕大多數當前最先進的神經網絡,模型參數遠遠超過了調整它們的訓練樣本數量。從數學角度來看,這轉化為一個高度復雜的設置,為此找到嚴格的統計性能保證仍然是一個重大的開放問題(Zhang等人,2017年)。盡管如此,巨大的經驗成功使得多層過參數化神經架構成為多個領域包括醫學、電子郵件過濾、語音識別、計算機視覺和市場營銷等在內的幾個學習任務的標準首選(LeCun等人,2015年)。具有數百萬參數的神經網絡可以準確地逼近廣泛的功能,這一屬性被稱為表達性(或表現力)。這通常是一個理想的品質,因為它允許網絡學習復雜的模式并展示出極大的靈活性。然而,傳統智慧認為,如果一個模型可以輕易地逼近任何函數,它很可能過擬合訓練樣本,并在面對新數據時表現不佳。從訓練數據集中外推知識并有效應用于以前未見過的實例的能力被稱為泛化。盡管過參數化,神經網絡在幾個任務中展示了令人印象深刻的泛化能力。當前缺乏對這一現象的理論理解,以及隨后在提供先驗統計性能保證方面的困難,導致了神經網絡的泛化屬性研究成為一個活躍的研究領域(Zhang等人,2017年,2021年)。這篇論文的主要焦點是分析過參數化神經網絡的表達性和泛化屬性。

付費5元查看完整內容

 這篇論文探討了對神經網絡表示的結構性約束,作為在神經網絡中編碼先驗知識的一種方式。神經網絡已經證明具有處理感知數據的卓越能力,通過映射感知實體并預測缺失或未來信息。盡管它們在建模方面表現出色,但神經網絡不編碼或表示一般知識或概念,并且通常不提供對被建模對象的理解或洞察。一種可能的使用神經網絡作為允許科學分析和理解的工具的方式是,探討將先驗概念知識與從數據中提取的感知信息相結合的方法。這篇論文檢驗了圖分割、子集、離散變量和微分方程作為特定的結構性約束,對神經網絡表示進行約束,以表示先驗知識,目的是使神經網絡更加可解釋和可分析。

//hdl.handle.net/11245.1/53614a81-69a1-4671-a906-fa0672b29a92

盡管當前的神經網絡模型在許多感知任務上表現出色,但這是以大量數據和計算為代價的。此外,當神經網絡面對與訓練數據不同或相差甚遠的數據時,往往會表現出脆弱性。一種更實際的代表性結構的動機是,通過賦予神經網絡本質上代表任務或手頭數據類型的結構,可能避免或減輕對大型數據集和計算的需求以及神經網絡的缺乏魯棒性。非平凡的任務和數據通常具有內部結構,這種結構在輸入表示中并沒有顯式表示。在圖像中,相鄰像素通常是相關的;視頻通常在相鄰幀中有小的變化;場景由可以移動的對象組成;時間序列可能具有因果或動態關系等。這種結構構成了任務的本質特征,并且不依賴于訓練分布。在沒有對網絡的結構性約束或指導原則的情況下,這樣的網絡可能無法區分對任務本質重要的特征和僅由數據偶然給出的特征。這樣的網絡可能只能檢測數據給出的偶然特征中的模式,并且在尊重某個給定任務的本質特征的分布外數據上表現不佳。另一方面,在神經網絡的內部表示中表示給定任務的本質特征,可能提高模型的魯棒性和效率。學習模型設計的任務是找到可以在模型中整合的適當結構,同時保持結構整合和學習、表示的形式和內容之間正確的平衡,而不退化為手工特征工程。

**研究問題1 可微分圖分割能否在以對象為中心的表示中提高泛化能力? **在第2章中,我們聚焦于圖像和視頻中的以對象為中心的學習問題,并考慮特征之間的圖結構關系。在本章中,我們提出了一種拓撲感知的特征分區方法,將給定場景特征劃分為k個不相交的分區,作為以對象為中心的表示學習方法。對于分區方法,我們建議使用最小s-t圖割,該方法表示為一個線性程序。這種方法是拓撲感知的,因為它明確編碼了圖像圖中的鄰域關系。為了解決圖割問題,我們的解決方案依賴于一個高效、可擴展且可微分的二次規劃近似。針對割問題的特定優化使我們能夠顯著更高效地解決二次規劃問題并計算其梯度,與一般的二次規劃方法相比。以前的以對象為中心的學習方法在紋理場景和物體以及新穎物體形狀存在的情況下通常有困難。在我們的結果中,我們展示了我們的方法在具有紋理場景和物體的對象發現任務上改進了以前的方法,并且在具有新穎和未見過的紋理和形狀的分布外數據上提高了泛化性能。對于我們的第二個研究問題,我們考慮代表一個神經網絡表示自身動態演化的問題,通過一個可解釋且適合分析的生成動態機制來管理。

**研究問題2 神經網絡如何生成明確的、可解釋的、可分析的動態機制來管理網絡自身的內部動態演化? **在第3章中,我們提出了一類新的動態模型,稱為機械神經網絡,它們生成作為一組線性常微分方程(ODEs)的明確內部機制,進而管理內部神經網絡表示的演化。網絡表示的演化是通過解生成的ODEs來計算的。我們展示了可微分優化也可以用來在神經網絡內部有效地解線性ODEs,同時允許相對于ODE參數計算梯度。該模型可以應用于動態數據以及圖像等其他類型的數據,并且在其他神經網絡動態系統模型上有所改進。盡管機制是內部神經網絡表示的一部分,它們也是明確的,這意味著它們可以被理論和實驗分析所研究。接下來,我們探討具有子集操作的神經網絡作為離散結構的下一個示例。作為應用,我們考慮解釋性和子采樣大圖像的任務。在這兩種情況下,問題是是否可以選擇輸入數據示例的一個子集,以某種方式代表原始輸入。在解釋性任務中,選擇的子集是逐實例解釋預測的。在子采樣任務中,選擇的子集是逐數據集的,并且可以看作是原始數據集的替代。以前的方法通常限于小的子集和領域大小。我們的下一個研究問題探索這個任務是否可以快速有效地完成,對于大領域和子集大小。

**研究問題3 條件泊松子集抽樣是否提供了一種相比序列抽樣在神經網絡中更高效且可擴展的替代方案? **在第4章中,我們提出了一種既高效又可擴展到大子集大小的序列抽樣的替代方法。當前神經網絡方法用于抽樣子集通常屬于序列抽樣方法(Tillé, 2006)。使用序列抽樣時,如Gumbel分布這樣的排名分布被用來獨立地對給定全集中的每個元素進行排名,這產生了可能子集上的概率分布。要獲得大小為k的子集樣本,選擇最大(或最小)的k個元素。選擇最大k個元素(Top-k)的操作自然不是連續可微的,并且已經為Top-k操作開發了近似可微分程序。然而,這些方法對于抽樣大子集在時間和內存方面都是昂貴的。此外,使用這些方法時子集大小參數不是可微分的,且使用逐實例子集大小是麻煩的。在這項工作中,我們提出使用泊松和條件泊松抽樣之間的一個可微分替代方案作為序列抽樣的替代方案。這種方法效率高且可擴展,內存和計算成本低,且允許可微分的子集大小。接下來,我們考慮具有離散變量的神經網絡,并考慮正則化高斯函數以近似離散變量。

**研究問題4 高斯函數穩定性是否為訓練具有離散變量的神經網絡提供了一種可行的方法? **在第5章中,我們檢查了使用高斯函數穩定性概念作為訓練具有離散變量的神經網絡的正則化方法。用于學習具有離散變量的網絡的放松方法依賴于手動溫度調整,因為網絡沒有指導性激勵去獲得離散表示。這項工作提出了一種正則化方法,其中放松的程度作為穩定性項包含在損失函數中。粗略地說,高斯函數的噪聲穩定性是衡量其對噪聲的抵抗力的度量。Borell的等周定理(Borell, 1985)指出,對于某個固定體積的有界函數,其范圍為[0, 1],噪聲穩定性由半空間的指示函數最大化。鑒于半空間指示符在高斯空間中最大化噪聲穩定性,我們通過優化穩定性作為將高斯輸入轉換為二進制向量的簡單有效方法來開發我們的方法。在最后一章中,我們從高斯函數的諧波分析的角度考慮了一個層次模型,層次變分自編碼器。

**研究問題5 高斯分析對層次VAE的改進和后驗坍塌的緩解有何建議? **在第6章中,我們從高斯函數分析的角度檢查具有高斯變量的層次變分自編碼器。具有深層隨機層次的變分自編碼器已知存在后驗坍塌的問題,其中頂層回落到先驗并變得獨立于輸入。在本章中,我們提出通過引入一個由高斯分析激發的平滑參數來概括VAE神經網絡,以減少更高頻率分量并因此參數化函數的方差。我們證明,平滑操作在層次VAE目標的KL散度項中引入了偏差-方差權衡。我們進一步展示,在這種平滑下,VAE損失表現出一個相變,其中頂層KL散度在平滑參數的一個臨界值處急劇降至零,對于同一模型跨數據集是相似的。

付費5元查看完整內容

神經過程是一種模型家族,它使用神經網絡直接參數化從數據集到預測的映射。直接參數化這種映射使得在傳統上神經網絡會過擬合的小數據問題中使用表達性強的神經網絡成為可能。神經過程能夠產生校準良好的不確定性,有效處理缺失數據,并且易于訓練。這些屬性使得這個模型家族在如醫療保健或環境科學等廣泛的應用領域中顯得非常吸引人。

本論文在三個方面推進了神經過程。

首先,我們提出了卷積神經過程(ConvNPs)。ConvNPs通過構建一種稱為平移等變性的對稱性來提高神經過程的數據效率。ConvNPs依賴于卷積神經網絡而不是多層感知器。 其次,我們提出了高斯神經過程(GNPs)。GNPs直接參數化神經過程預測中的依賴性。當前對預測依賴性建模的方法依賴于一個潛在變量,因此需要近似推理,這削弱了方法的簡便性。 第三,我們提出了自回歸條件神經過程(AR CNPs)。AR CNPs在不對模型或訓練程序進行任何修改的情況下訓練神經過程,并在測試時以自回歸的方式展開模型。AR CNPs為神經過程框架配備了一個新的旋鈕,可以在訓練時將建模復雜性和計算開銷與測試時的計算開銷進行交換。 除了方法論上的進步,本論文還提出了一種軟件抽象,使得實現神經過程的方式可以組合。這種方法允許用戶通過以不同方式組合基本構建塊來快速探索神經過程模型的空間。

付費5元查看完整內容

神經語言模型是由神經網絡參數化的文本的概率模型。它們廣泛適用于輸出由離散序列組成的應用程序,例如文檔摘要、問答和圖像字幕生成。關于數據的最小假設使得語言建模的進步可以推動在各種各樣的應用中的改進。在自然語言中,結構既普遍又重要。例如,一本書被組織成章節,它們之間有邏輯的聯系;沒有這種結構,書就會失去連貫性。因此,有效地理解和建模文本序列需要理解和表示其中的內在結構。這篇論文側重于語言模型的結構建模。論文分為兩個主要部分:語言模型的結構分析和結構建模技術。第一部分研究了語言模型生成中各種結構方面的建模,包括節段轉換結構、共指結構和主題相關性結構。強調了對這些組成部分的全面理解的必要性,論文在結構水平評估語言模型的性能。通過采用一個評估機器生成文本中高級連貫性的統計框架,研究揭示了即使是大型語言模型在捕捉話語連貫性和共指方面也存在局限性。此外,研究還表明,表面級別建模的改進并不一定保證更好的結構建模。論文的第二部分介紹了各種旨在改進或定制語言模型的結構建模技術。這些技術分為三類:分解結構建模、分層結構建模和全局結構建模。它們可以提高語言模型的結構連貫性、透明度、計算效率和數據效率。總之,這項研究深入探討了語言模型的結構分析和建模技術。通過開發各種結構分析方法和建模方法,論文旨在加深對語言模型在表示結構方面的能力的理解和改進。所提出的技術有潛力在廣泛的應用領域提高語言模型的性能,最終推動不僅自然語言生成,還包括輸出空間包含離散序列的其他領域,如計算機視覺、機器人技術和基因組學。//dash.harvard.edu/handle/1/37375813

付費5元查看完整內容

在一個典型的建模設置中,我們對想要學習的函數類型有先驗的概念。例如,在回歸中,我們可能想要學習一個平滑函數或周期函數;在圖像分類中,我們可能想要學習一個對旋轉不變的函數。雖然函數空間為我們提供了理解諸如不變性或平滑性等特性的好處,但直接量化模型的功能屬性往往是困難的。 在這篇論文中,我們利用對函數空間的推理能力來構建更強大的模型,無論是在高斯過程(GPs)還是神經網絡中。通過將GP核作為潛在過程本身的函數生成,我們引入了一種方法,不僅僅是對GP模型中的函數本身,而且對我們產生的函數類型提供不確定性。我們還引入了一種方法,用于在神經網絡中學習不變性和等變性的水平,使我們能夠賦予模型產生的函數以軟感應偏見,而不是硬約束。最后,我們展示了如何利用對神經網絡參數空間的理解,高效地整合多樣化的函數集合,以提高模型的準確性和魯棒性。通過引入這些方法,我們展示了通過仔細考慮我們正在產生的函數類型,我們可以描述具有一系列理想特性的模型。這些特性包括更靈活的模型、更符合領域知識的模型,以及既準確又魯棒的模型。我們在包括時間序列預測、圖像分類和強化學習在內的廣泛問題上展示了這些結果。 在許多建模背景下,對于我們想要產生什么類型的函數進行規定要比推理函數的參數形式或函數本身的參數容易得多。例如,在時間序列中,我們可能只需簡單地觀察我們的數據,就能確定我們想要的,比如某種具有上升趨勢的準周期函數。相反地,給定一個足夠復雜的參數化回歸模型和相同的數據,如果沒有一些數值優化程序,我們可能無法事先確定合理的參數值來擬合數據。盡管推理我們想要產生的函數類型可能更容易,但在實踐中直接產生這些函數卻是具有挑戰性的,我們的努力反而集中在學習參數上。 雖然從函數空間的角度提供了與我們旨在建模的數據更直接的聯系,而不是參數空間的視角,但它也引入了許多新的和令人興奮的挑戰。盡管高斯過程(GPs)提供了一種建模函數的方法,甚至在函數空間中進行貝葉斯推理,但用于考慮GP模型本身的不確定性的方法是有限的。例如,在核學習中,我們可能希望對一系列核的分布進行邊緣化,其中每個核可能產生不同類型的函數。通過對核本身設置函數空間先驗,我們能夠對我們的GP模型產生的函數類型提供不確定性,而不僅僅是對函數本身。 另一個直接處理函數空間的日益增長的興趣領域是神經網絡中的等變性和不變性。例如,如果我們尋求建模一個對旋轉不變或僅對一部分旋轉不變的函數,這意味著我們的預測不應隨輸入的旋轉而改變,那么我們可能會旨在學習一個分布,反映我們期望我們的函數對其不變的旋轉范圍。通過對變換進行簡單的分布假設,我們使模型能夠學習對正確變換的近似不變性,以及這些變換的正確數量。 這篇論文由三部分組成,每部分都關注于函數空間建模的一個獨特組成部分,重點是高斯過程模型或神經網絡。在第2章中,我們討論了在高斯過程模型中形成協方差函數分布的方法。首先是從譜表示的角度,通過使用一個潛在的GP對核函數的傅里葉變換進行建模,然后是通過隨機波動模型,使用一個潛在的GP來模型一個隨時間變化的波動性術語。 在第3章中,我們引入了在神經網絡中構建對稱性分布的方法。我們首先研究對有限范圍的變換的近似對稱性,例如僅對一部分旋轉的不變性。然后我們研究學習僅近似滿足的對稱性分布,例如在物理系統中,關于某一軸的反射可能幾乎但不完全保持能量和動量等量。 最后,在第4章中,我們探討了神經網絡中參數空間和函數空間之間的聯系。我們通過描述在神經網絡中聚合和集成訓練解決方案集合的一般方法來結束。這種方法圍繞著我們無法直接解決像對稱性這樣的函數空間量的情況,而希望集成多樣化的函數集合的案例。在我們無法有效測量功能多樣性的情況下,我們依靠損失表面推理來收集多樣化的參數集,作為收集多樣化函數的代理。 總體而言,這些方法反映了從函數空間的角度進行建模的力量,或者從一個能夠建立我們的模型中的參數與它們產生的函數之間聯系的視角。

付費5元查看完整內容

這項工作旨在理解不變性和等變性對監督學習中泛化的影響。我們利用平均算子的視角來展示,對于任何非等變的預測器,存在一個具有嚴格更低測試風險的等變預測器,適用于所有正確指定等變性的回歸問題。這構成了一個嚴格的證明:對稱性(以不變性或等變性的形式)是一種有用的歸納偏差。 我們將這些想法應用于隨機設計最小二乘法和核嶺回歸中的等變性和不變性。這使我們能夠在更具體的設置中指定預期測試風險的減少,并根據群體、模型和數據的屬性來表達它。 在此過程中,我們給出了例子和額外的結果,以展示平均算子方法在分析等變預測器時的實用性。此外,我們采用了另一種視角,將使用不變模型進行學習的常見直覺形式化為關于軌道代表的問題。這種形式主義自然地擴展到對等變模型的類似直覺。我們通過連接這兩種視角并提出未來工作的一些想法來結束。

付費5元查看完整內容

受寬神經網絡(NNs)理論的啟發,核學習和特征學習近期作為兩個范式浮現出來,通過它們我們可以實際理解大規模深度學習系統的復雜行為。在文獻中,它們通常被描述為二分法的兩個對立面,各自具有優點和缺點:核學習與經過深入研究的機器學習技術(如核方法和高斯過程)建立聯系,而特征學習則承諾捕捉更多豐富而尚未解釋的,獨特于神經網絡的屬性。在這篇論文中,我們介紹了三項研究,研究結合了來自兩個角度的見解來研究神經網絡的性質,不僅強調它們的差異,而且強調共同點。我們首先回顧了有關深度學習理論的相關文獻,重點是寬神經網絡的研究。這為核學習和特征學習的討論提供了背景,基于此,我們繼續描述我們的貢獻。首先,我們研究了寬神經網絡集合與貝葉斯推斷之間的關系,利用核學習與高斯過程之間的聯系,并提出了一種修改,以解釋神經網絡函數在初始化時缺失的方差,從而使我們訓練過的深度集合具有貝葉斯解釋。接下來,我們結合核學習和特征學習來展示特征核的適用性,即通過最終層神經網絡特征的內積引導的核,作為知識蒸餾的目標,其中人們尋求使用強大的教師模型來提高弱學生模型的性能。最后,我們探討自監督學習中折疊特征和白化特征之間的差距,強調特征核中特征值的衰減率作為一項關鍵量,它彌合了這一差距,并影響下游泛化性能,特別是在標記數據稀缺的情況下。我們以討論我們的貢獻,包括局限性和未來展望,作為結論。

付費5元查看完整內容

圖神經網絡(GNNs)成功地從大多數類型的網絡數據學習表示,但在大型圖的情況下受到限制。挑戰出現在學習架構的設計本身,因為大多數GNN是由圖的一些矩陣表示(例如,鄰接矩陣)參數化的,當網絡很大時,這可能很難獲得。此外,在許多GNN架構中,圖操作是通過譜域中的卷積操作來定義的。在這種情況下,另一個障礙是圖譜的獲得,這需要代價高昂的矩陣特征分解。

然而,從共享結構屬性的意義上來說,大型圖通常可以被識別為彼此相似。因此,我們可以預期,處理這些圖上支持的數據應該會產生類似的結果,這將減輕大尺寸的挑戰,因為我們可以為小圖設計GNN,并將它們轉移到更大的圖上。在這篇論文中,我將這種直覺形式化,并表明當這些圖屬于同一個“族”時,這種圖的可移植性是可能的,其中每個族由不同的圖元標識。

graphon是一個函數W(x,y),它描述了一類具有相似形狀的隨機圖。我們可以將參數(x,y)看作是一對節點的標簽,以及圖元值W(x,y)作為x和y之間一條邊的概率的標簽。這產生了一個從圖元采樣的圖的概念,或者,等價地,一個隨著采樣圖中節點數量增長的極限的概念。從一個graphon上采樣的圖形幾乎肯定在極限上具有相同的屬性,例如同態密度,這在實踐中意味著,graphon識別的網絡家族在某種意義上是相似的,某些“motifs”的密度是保持不變的。這激發了對圖上的信息處理的研究,作為在大型圖上進行信息處理的一種方法。

信號處理理論的核心部分是一個移位的概念,它引入了一類具有傅立葉變換(FT)特征的光譜表示的線性濾波器。本文表明,graphon誘導了一個線性算子,可用于定義移位,從而定義graphon濾波器和graphon FT。基于圖序列和相關圖信號的收斂性質,可以證明對于這些序列,圖FT收斂到graphon FT,圖濾波器的輸出收斂到具有相同系數的graphon濾波器的輸出。這些定理表明,對于屬于某些族的圖,圖傅里葉分析和圖濾波器設計具有明確的限制。反過來,這些事實使具有大量節點的圖上的圖信息處理成為可能,因為為極限圖設計的信息處理管道可以應用于有限圖。

我們通過組合具有點非線性的graphon濾波器組來進一步定義graphon神經網絡(WNNs)。WNNs是理想的極限,在實際中并不存在,但它們是理解GNNs基本性質的有用工具。特別是,graphon濾波器的采樣和收斂結果可以很容易地擴展到WNNs,從而表明當圖收斂到graphon時,GNN收斂到WNNs。如果兩個GNN可以任意接近同一個WNN,那么通過一個簡單的三角形不等式參數,它們也可以任意接近彼此。這個結果證實了我們的直覺,即GNN可以在相似的圖之間轉移。一個GNN可以在中等規模的圖上訓練,并在一個可轉移性誤差主要為最小圖的大小的倒數的大尺度圖上執行。有趣的是,這種誤差隨著卷積濾波器光譜響應的可變性而增加,揭示了從圖濾波器繼承來的可轉移性和光譜鑒別性之間的權衡。在實踐中,由于非線性,這種權衡在GNN中很少出現,它能夠將數據的光譜成分分散到特征值譜的不同部分,在那里它們可以被區分。這解釋了為什么GNN比圖過濾器更可轉移。

付費5元查看完整內容

對稱和不變性在機器學習任務中無處不在。雖然卷積神經網絡以成功利用平移對稱性而聞名,但其他對稱性直到最近才經常被忽視。將對稱性或不變性納入神經網絡體系結構可以避免昂貴的數據增強,并減輕對大型數據集的需求。提出的工作集中在不變和等變神經網絡層,把對稱性放在神經網絡架構設計的中心。具體而言,本文涵蓋了三種不同的不變性:排列不變性、旋轉-平移不變性和標簽不變性。

  • 對稱和不變性在機器學習任務中無處不在。雖然卷積神經網絡以成功利用平移對稱性而聞名,但其他對稱性直到最近才經常被忽視。
  • 將對稱性或不變性納入神經網絡體系結構可以避免昂貴的數據增強,并減輕對大型數據集的需求。
  • 提出的工作集中在不變和等變神經網絡層,把對稱性放在神經網絡架構設計的中心。具體而言,本文涵蓋了三種不同的不變性:排列不變性、旋轉-平移不變性和標簽不變性

付費5元查看完整內容

如何對不同設置下的序列數據建模是一個跨許多領域的重要機器學習問題,包括對時間序列數據、自然語言文本和事件流的預測。不同字段中的順序數據通常具有不同的特征。例如,自然語言文本可以被視為一個離散變量的序列,而傳感器網絡信號可以被視為一個連續向量空間中的多變量序列。為了在各種各樣的現實世界領域中開發成功的神經網絡模型,我們需要根據數據和問題的性質定制架構和算法。本文設計了新穎高效的神經網絡解決方案,用于序列建模和應用。具體來說,這些貢獻可以分為四部分。

第一部分重點研究了多變量序列數據中變量之間的相關性,如多傳感器的時間序列,并提出了新的算法,即深度可分圖卷積網絡(DSGC)(第二章)[60]和分解遞歸神經網絡(FRNN)(第三章)[63],以利用相關模式,提高預測精度。

第二部分側重于將人類先驗知識用于時序數據依賴模式的時間建模。具體地說,我們提出了一種新的方法,命名為長期和短期時間序列網絡(LSTNet)(第4章)[59],它被證明是特別有效的捕獲各種周期模式在不同的應用。

第三部分著重于序列分類任務中Transformers 的高效算法。具體來說,通過識別常用的Transformer架構中的計算冗余,并提出一種新的替代方案,即漏斗Transformers (第5章)[27],我們實現了更好的計算與精度之間的權衡。

第四部分側重于事件之間時間關系的建模/預測,其中的主要挑戰是從稀疏標記的數據中有效學習。我們通過結合高級數據增強、半監督學習和人類先驗知識的引入來應對這一挑戰(第6章)。因此,我們大大提高了這項任務的最先進性能。

付費5元查看完整內容
北京阿比特科技有限公司