亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

神經過程是一種模型家族,它使用神經網絡直接參數化從數據集到預測的映射。直接參數化這種映射使得在傳統上神經網絡會過擬合的小數據問題中使用表達性強的神經網絡成為可能。神經過程能夠產生校準良好的不確定性,有效處理缺失數據,并且易于訓練。這些屬性使得這個模型家族在如醫療保健或環境科學等廣泛的應用領域中顯得非常吸引人。

本論文在三個方面推進了神經過程。

首先,我們提出了卷積神經過程(ConvNPs)。ConvNPs通過構建一種稱為平移等變性的對稱性來提高神經過程的數據效率。ConvNPs依賴于卷積神經網絡而不是多層感知器。 其次,我們提出了高斯神經過程(GNPs)。GNPs直接參數化神經過程預測中的依賴性。當前對預測依賴性建模的方法依賴于一個潛在變量,因此需要近似推理,這削弱了方法的簡便性。 第三,我們提出了自回歸條件神經過程(AR CNPs)。AR CNPs在不對模型或訓練程序進行任何修改的情況下訓練神經過程,并在測試時以自回歸的方式展開模型。AR CNPs為神經過程框架配備了一個新的旋鈕,可以在訓練時將建模復雜性和計算開銷與測試時的計算開銷進行交換。 除了方法論上的進步,本論文還提出了一種軟件抽象,使得實現神經過程的方式可以組合。這種方法允許用戶通過以不同方式組合基本構建塊來快速探索神經過程模型的空間。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

 這篇論文探討了對神經網絡表示的結構性約束,作為在神經網絡中編碼先驗知識的一種方式。神經網絡已經證明具有處理感知數據的卓越能力,通過映射感知實體并預測缺失或未來信息。盡管它們在建模方面表現出色,但神經網絡不編碼或表示一般知識或概念,并且通常不提供對被建模對象的理解或洞察。一種可能的使用神經網絡作為允許科學分析和理解的工具的方式是,探討將先驗概念知識與從數據中提取的感知信息相結合的方法。這篇論文檢驗了圖分割、子集、離散變量和微分方程作為特定的結構性約束,對神經網絡表示進行約束,以表示先驗知識,目的是使神經網絡更加可解釋和可分析。

//hdl.handle.net/11245.1/53614a81-69a1-4671-a906-fa0672b29a92

盡管當前的神經網絡模型在許多感知任務上表現出色,但這是以大量數據和計算為代價的。此外,當神經網絡面對與訓練數據不同或相差甚遠的數據時,往往會表現出脆弱性。一種更實際的代表性結構的動機是,通過賦予神經網絡本質上代表任務或手頭數據類型的結構,可能避免或減輕對大型數據集和計算的需求以及神經網絡的缺乏魯棒性。非平凡的任務和數據通常具有內部結構,這種結構在輸入表示中并沒有顯式表示。在圖像中,相鄰像素通常是相關的;視頻通常在相鄰幀中有小的變化;場景由可以移動的對象組成;時間序列可能具有因果或動態關系等。這種結構構成了任務的本質特征,并且不依賴于訓練分布。在沒有對網絡的結構性約束或指導原則的情況下,這樣的網絡可能無法區分對任務本質重要的特征和僅由數據偶然給出的特征。這樣的網絡可能只能檢測數據給出的偶然特征中的模式,并且在尊重某個給定任務的本質特征的分布外數據上表現不佳。另一方面,在神經網絡的內部表示中表示給定任務的本質特征,可能提高模型的魯棒性和效率。學習模型設計的任務是找到可以在模型中整合的適當結構,同時保持結構整合和學習、表示的形式和內容之間正確的平衡,而不退化為手工特征工程。

**研究問題1 可微分圖分割能否在以對象為中心的表示中提高泛化能力? **在第2章中,我們聚焦于圖像和視頻中的以對象為中心的學習問題,并考慮特征之間的圖結構關系。在本章中,我們提出了一種拓撲感知的特征分區方法,將給定場景特征劃分為k個不相交的分區,作為以對象為中心的表示學習方法。對于分區方法,我們建議使用最小s-t圖割,該方法表示為一個線性程序。這種方法是拓撲感知的,因為它明確編碼了圖像圖中的鄰域關系。為了解決圖割問題,我們的解決方案依賴于一個高效、可擴展且可微分的二次規劃近似。針對割問題的特定優化使我們能夠顯著更高效地解決二次規劃問題并計算其梯度,與一般的二次規劃方法相比。以前的以對象為中心的學習方法在紋理場景和物體以及新穎物體形狀存在的情況下通常有困難。在我們的結果中,我們展示了我們的方法在具有紋理場景和物體的對象發現任務上改進了以前的方法,并且在具有新穎和未見過的紋理和形狀的分布外數據上提高了泛化性能。對于我們的第二個研究問題,我們考慮代表一個神經網絡表示自身動態演化的問題,通過一個可解釋且適合分析的生成動態機制來管理。

**研究問題2 神經網絡如何生成明確的、可解釋的、可分析的動態機制來管理網絡自身的內部動態演化? **在第3章中,我們提出了一類新的動態模型,稱為機械神經網絡,它們生成作為一組線性常微分方程(ODEs)的明確內部機制,進而管理內部神經網絡表示的演化。網絡表示的演化是通過解生成的ODEs來計算的。我們展示了可微分優化也可以用來在神經網絡內部有效地解線性ODEs,同時允許相對于ODE參數計算梯度。該模型可以應用于動態數據以及圖像等其他類型的數據,并且在其他神經網絡動態系統模型上有所改進。盡管機制是內部神經網絡表示的一部分,它們也是明確的,這意味著它們可以被理論和實驗分析所研究。接下來,我們探討具有子集操作的神經網絡作為離散結構的下一個示例。作為應用,我們考慮解釋性和子采樣大圖像的任務。在這兩種情況下,問題是是否可以選擇輸入數據示例的一個子集,以某種方式代表原始輸入。在解釋性任務中,選擇的子集是逐實例解釋預測的。在子采樣任務中,選擇的子集是逐數據集的,并且可以看作是原始數據集的替代。以前的方法通常限于小的子集和領域大小。我們的下一個研究問題探索這個任務是否可以快速有效地完成,對于大領域和子集大小。

**研究問題3 條件泊松子集抽樣是否提供了一種相比序列抽樣在神經網絡中更高效且可擴展的替代方案? **在第4章中,我們提出了一種既高效又可擴展到大子集大小的序列抽樣的替代方法。當前神經網絡方法用于抽樣子集通常屬于序列抽樣方法(Tillé, 2006)。使用序列抽樣時,如Gumbel分布這樣的排名分布被用來獨立地對給定全集中的每個元素進行排名,這產生了可能子集上的概率分布。要獲得大小為k的子集樣本,選擇最大(或最小)的k個元素。選擇最大k個元素(Top-k)的操作自然不是連續可微的,并且已經為Top-k操作開發了近似可微分程序。然而,這些方法對于抽樣大子集在時間和內存方面都是昂貴的。此外,使用這些方法時子集大小參數不是可微分的,且使用逐實例子集大小是麻煩的。在這項工作中,我們提出使用泊松和條件泊松抽樣之間的一個可微分替代方案作為序列抽樣的替代方案。這種方法效率高且可擴展,內存和計算成本低,且允許可微分的子集大小。接下來,我們考慮具有離散變量的神經網絡,并考慮正則化高斯函數以近似離散變量。

**研究問題4 高斯函數穩定性是否為訓練具有離散變量的神經網絡提供了一種可行的方法? **在第5章中,我們檢查了使用高斯函數穩定性概念作為訓練具有離散變量的神經網絡的正則化方法。用于學習具有離散變量的網絡的放松方法依賴于手動溫度調整,因為網絡沒有指導性激勵去獲得離散表示。這項工作提出了一種正則化方法,其中放松的程度作為穩定性項包含在損失函數中。粗略地說,高斯函數的噪聲穩定性是衡量其對噪聲的抵抗力的度量。Borell的等周定理(Borell, 1985)指出,對于某個固定體積的有界函數,其范圍為[0, 1],噪聲穩定性由半空間的指示函數最大化。鑒于半空間指示符在高斯空間中最大化噪聲穩定性,我們通過優化穩定性作為將高斯輸入轉換為二進制向量的簡單有效方法來開發我們的方法。在最后一章中,我們從高斯函數的諧波分析的角度考慮了一個層次模型,層次變分自編碼器。

**研究問題5 高斯分析對層次VAE的改進和后驗坍塌的緩解有何建議? **在第6章中,我們從高斯函數分析的角度檢查具有高斯變量的層次變分自編碼器。具有深層隨機層次的變分自編碼器已知存在后驗坍塌的問題,其中頂層回落到先驗并變得獨立于輸入。在本章中,我們提出通過引入一個由高斯分析激發的平滑參數來概括VAE神經網絡,以減少更高頻率分量并因此參數化函數的方差。我們證明,平滑操作在層次VAE目標的KL散度項中引入了偏差-方差權衡。我們進一步展示,在這種平滑下,VAE損失表現出一個相變,其中頂層KL散度在平滑參數的一個臨界值處急劇降至零,對于同一模型跨數據集是相似的。

付費5元查看完整內容

在一個典型的建模設置中,我們對想要學習的函數類型有先驗的概念。例如,在回歸中,我們可能想要學習一個平滑函數或周期函數;在圖像分類中,我們可能想要學習一個對旋轉不變的函數。雖然函數空間為我們提供了理解諸如不變性或平滑性等特性的好處,但直接量化模型的功能屬性往往是困難的。 在這篇論文中,我們利用對函數空間的推理能力來構建更強大的模型,無論是在高斯過程(GPs)還是神經網絡中。通過將GP核作為潛在過程本身的函數生成,我們引入了一種方法,不僅僅是對GP模型中的函數本身,而且對我們產生的函數類型提供不確定性。我們還引入了一種方法,用于在神經網絡中學習不變性和等變性的水平,使我們能夠賦予模型產生的函數以軟感應偏見,而不是硬約束。最后,我們展示了如何利用對神經網絡參數空間的理解,高效地整合多樣化的函數集合,以提高模型的準確性和魯棒性。通過引入這些方法,我們展示了通過仔細考慮我們正在產生的函數類型,我們可以描述具有一系列理想特性的模型。這些特性包括更靈活的模型、更符合領域知識的模型,以及既準確又魯棒的模型。我們在包括時間序列預測、圖像分類和強化學習在內的廣泛問題上展示了這些結果。 在許多建模背景下,對于我們想要產生什么類型的函數進行規定要比推理函數的參數形式或函數本身的參數容易得多。例如,在時間序列中,我們可能只需簡單地觀察我們的數據,就能確定我們想要的,比如某種具有上升趨勢的準周期函數。相反地,給定一個足夠復雜的參數化回歸模型和相同的數據,如果沒有一些數值優化程序,我們可能無法事先確定合理的參數值來擬合數據。盡管推理我們想要產生的函數類型可能更容易,但在實踐中直接產生這些函數卻是具有挑戰性的,我們的努力反而集中在學習參數上。 雖然從函數空間的角度提供了與我們旨在建模的數據更直接的聯系,而不是參數空間的視角,但它也引入了許多新的和令人興奮的挑戰。盡管高斯過程(GPs)提供了一種建模函數的方法,甚至在函數空間中進行貝葉斯推理,但用于考慮GP模型本身的不確定性的方法是有限的。例如,在核學習中,我們可能希望對一系列核的分布進行邊緣化,其中每個核可能產生不同類型的函數。通過對核本身設置函數空間先驗,我們能夠對我們的GP模型產生的函數類型提供不確定性,而不僅僅是對函數本身。 另一個直接處理函數空間的日益增長的興趣領域是神經網絡中的等變性和不變性。例如,如果我們尋求建模一個對旋轉不變或僅對一部分旋轉不變的函數,這意味著我們的預測不應隨輸入的旋轉而改變,那么我們可能會旨在學習一個分布,反映我們期望我們的函數對其不變的旋轉范圍。通過對變換進行簡單的分布假設,我們使模型能夠學習對正確變換的近似不變性,以及這些變換的正確數量。 這篇論文由三部分組成,每部分都關注于函數空間建模的一個獨特組成部分,重點是高斯過程模型或神經網絡。在第2章中,我們討論了在高斯過程模型中形成協方差函數分布的方法。首先是從譜表示的角度,通過使用一個潛在的GP對核函數的傅里葉變換進行建模,然后是通過隨機波動模型,使用一個潛在的GP來模型一個隨時間變化的波動性術語。 在第3章中,我們引入了在神經網絡中構建對稱性分布的方法。我們首先研究對有限范圍的變換的近似對稱性,例如僅對一部分旋轉的不變性。然后我們研究學習僅近似滿足的對稱性分布,例如在物理系統中,關于某一軸的反射可能幾乎但不完全保持能量和動量等量。 最后,在第4章中,我們探討了神經網絡中參數空間和函數空間之間的聯系。我們通過描述在神經網絡中聚合和集成訓練解決方案集合的一般方法來結束。這種方法圍繞著我們無法直接解決像對稱性這樣的函數空間量的情況,而希望集成多樣化的函數集合的案例。在我們無法有效測量功能多樣性的情況下,我們依靠損失表面推理來收集多樣化的參數集,作為收集多樣化函數的代理。 總體而言,這些方法反映了從函數空間的角度進行建模的力量,或者從一個能夠建立我們的模型中的參數與它們產生的函數之間聯系的視角。

付費5元查看完整內容

現代機器學習主要受到黑盒模型的驅動,這些模型提供了卓越的性能,但對于如何進行預測的透明度有限。對于需要了解模型如何做出決策的應用,以及協助模型調試和數據驅動的知識發現,我們需要可以回答有關影響模型行為的問題的工具。這就是可解釋機器學習(XML)的目標,這是一個子領域,它開發了從多個角度理解復雜模型的工具,包括特征重要性、概念歸因和數據估值。本文提供了對XML領域的幾個貢獻,主要思想分為三部分:(i)一個框架,使得可以統一分析許多當前的方法,包括它們與信息論和模型魯棒性的聯系;(ii)一系列技術,用于加速Shapley值的計算,這是幾種流行算法的基礎;以及(iii)一系列用于深度學習模型的特征選擇的方法,例如,在無監督和自適應的設置中。這些思想中的許多都是受到計算生物學和醫學應用的啟發,但它們也代表了在各種領域中都有用的基本工具和觀點。

在模型透明度的辯論中,傳統的觀點是我們面臨解釋性與準確性之間的權衡。1有些人辯稱這種權衡并不存在,聲稱我們可以使用“天生可解釋”的模型達到近乎最優的性能(Rudin, 2019);這對于簡單的表格數據集往往是正確的,但對于像圖像和語言這樣的復雜數據模態則較為罕見。在這里,我們采取了更為寬容的立場:鑒于黑盒模型目前提供了最佳的性能并且已經廣泛部署,我們探討是否有可能從任何模型中獲得足夠的見解。在這樣做的過程中,我們開發了一套在很大程度上對模型的內部機制持中立態度,或者說是模型不可知的工具集,因此即使在今天的最高性能的黑盒模型中也能正常運行。 這一目標也被可解釋機器學習(XML)子領域的許多工作所共享,并且近年來已經取得了顯著的進展。目前,XML工具已被用于了解新疾病的風險因素(Razavian等人,2020;Snider等人,2021),加速數學猜想的發現(Davies等人,2021),在有限的訓練數據標簽下識別蛋白質結合位點(Gligorijevi?等人,2021),審計有缺陷的醫學診斷系統(DeGrave等人,2021)以及從功能系統中獲得新的見解(Ting等人,2017;Sundararajan等人,2017)。這些早期的成功表明了這些工具的潛力,但在這些方法的底層理論以及使它們在實踐中高效的計算程序方面仍有進展空間。這篇論文介紹了我在博士期間進行的幾項工作,旨在解決這些挑戰。

這篇論文包含了我在博士期間完成的大部分項目,所有這些項目都與透明機器學習的核心主題相關。我們首先在第2章建立符號和幾個初步的概念。接下來,每一章都基于一篇第一作者的出版物,其中在某些情況下與共同第一作者共享。為了使它們在一個文檔中更具連貫性,對各個作品進行了修改,但這里沒有提供新的信息,這些論文也可以單獨閱讀。這些作品被組織成三個部分,如下所述。

**第一部分:XML的基礎 **我們首先討論一個統一了大部分文獻的觀點:許多現有的方法都基于一個解釋原則,即通過移除或量化從模型中移除特征的影響。我們描述了一個框架,在這個框架中,這些方法基于三個實現選擇而有所不同,我們為26個現有的算法確定了這些選擇(第3章)。基于這個觀點,我們對這些方法進行了統一分析,并找到了與信息理論、博弈論和認知心理學的聯系。然后,我們探索這些方法的魯棒性特性,并得出了描述它們對輸入和模型擾動的魯棒性的新結果(第4章)。 第二部分:Shapley值計算 接下來,我們探討XML中最廣泛使用的工具之一:Shapley值,一種博弈論信用分配技術。這些是最受歡迎的特征歸因方法之一,SHAP(Lundberg和Lee,2017)的基礎,以及一個著名的數據估值技術(Ghorbani和Zou,2019),但它們是臭名昭著的難以計算。有一系列方法來加速它們的計算(Chen等人,2022),我們在這里討論兩個:基于加權線性回歸的近似(第5章),和基于深度學習的攤銷優化的近似(第6章,第7章)。 第三部分:深度學習的特征選擇 最后,特征選擇為提供透明度的同時也降低了特征獲取成本提供了另一個方向。由于多次訓練不同特征集的模型的高昂成本,似乎很難與深度學習一起實施,但我們探討了如何使用可微分的層來阻止特征信息進入網絡(第8章)。然后,我們討論如何在自適應設置中應用這些思想,其中我們根據當前可用的信息為每個預測單獨選擇特征(第9章,第10章)。

付費5元查看完整內容

建模的一個核心目標是幫助我們理解周圍的世界,但通常我們希望建模的現象只能間接觀察到。例如,我們經常通過它們對周圍物體產生的引力效應來檢測黑洞。未觀察到的現象通常使用與觀察到的變量存在統計關系但從未直接觀察到的潛變量來建模。這些潛變量模型是一種強大的形式主義,可以實現數據的簡潔和可解釋表示,但在變量之間的關系復雜時很難使用。 本論文開發了一種適用于具有非線性函數參數化變量之間依賴關系的潛變量模型的擬合技術,例如深度神經網絡或非線性微分方程。非線性依賴關系使得解析方法變得不可行,本論文的主要重點是將蒙特卡羅文獻中的抽樣算法擴展到深度生成模型中的工作。

具體來說,本論文側重于對順序數據進行建模,如神經電壓跟蹤或語音音頻。首先,我介紹了一種名為FIVO的方法,用于使用濾波順序蒙特卡羅來擬合非線性順序潛變量模型,并使用它來改進語音音頻和鋼琴譜的模型。然后,我開發了一種名為SIXO的基于平滑的FIVO擴展,成功地擬合了神經膜電位的生物物理模型。接下來,我介紹了NAS-X,這是SIXO的擴展,適用于離散潛變量。最后,我開發了用于嵌入式抽樣算法的擬合模型的方法,并與基于能量的建模建立了聯系。

這些方法為非線性潛變量模型中的推斷和學習建立了新的標準。例如,在霍奇金-赫胥黎神經膜電位模型中,NAS-X和SIXO相對于以前的方法實現了32倍的推斷對數似然度的改進。改進的推斷性能導致了參數學習方面的下游收益,并且能夠擬合基于具有數百個參數的非線性微分方程的潛變量模型。總的來說,本論文擴展了蒙特卡羅算法,以解決序列建模中的難題。

付費5元查看完整內容

受寬神經網絡(NNs)理論的啟發,核學習和特征學習近期作為兩個范式浮現出來,通過它們我們可以實際理解大規模深度學習系統的復雜行為。在文獻中,它們通常被描述為二分法的兩個對立面,各自具有優點和缺點:核學習與經過深入研究的機器學習技術(如核方法和高斯過程)建立聯系,而特征學習則承諾捕捉更多豐富而尚未解釋的,獨特于神經網絡的屬性。在這篇論文中,我們介紹了三項研究,研究結合了來自兩個角度的見解來研究神經網絡的性質,不僅強調它們的差異,而且強調共同點。我們首先回顧了有關深度學習理論的相關文獻,重點是寬神經網絡的研究。這為核學習和特征學習的討論提供了背景,基于此,我們繼續描述我們的貢獻。首先,我們研究了寬神經網絡集合與貝葉斯推斷之間的關系,利用核學習與高斯過程之間的聯系,并提出了一種修改,以解釋神經網絡函數在初始化時缺失的方差,從而使我們訓練過的深度集合具有貝葉斯解釋。接下來,我們結合核學習和特征學習來展示特征核的適用性,即通過最終層神經網絡特征的內積引導的核,作為知識蒸餾的目標,其中人們尋求使用強大的教師模型來提高弱學生模型的性能。最后,我們探討自監督學習中折疊特征和白化特征之間的差距,強調特征核中特征值的衰減率作為一項關鍵量,它彌合了這一差距,并影響下游泛化性能,特別是在標記數據稀缺的情況下。我們以討論我們的貢獻,包括局限性和未來展望,作為結論。

付費5元查看完整內容

在過去的十年中,自然語言處理(NLP)系統幾乎完全建立在大型神經模型的基礎上。由于這些模型的能力,可行的任務范圍擴大了,應用的空間也擴大了,包括具有現實世界影響的子領域,如事實核查、假新聞檢測和醫療決策支持。這些模型的規模和非線性的增加導致了不透明,阻礙了機器學習從業者和外行用戶理解其內部原理并從其預測中獲得意義或信任的努力。可解釋人工智能(XAI)和更具體的可解釋NLP (ExNLP)領域通過提供對人類用戶有意義的文本解釋,已成為糾正這種不透明度并確保模型在高風險場景中的可靠性和可信性的活躍領域。可以檢查為其個人預測提供理由的模型,以調試、量化偏差和公平性、理解模型行為以及確定魯棒性和隱私(Molnar 2019)。無論任務模式如何,文本解釋是機器學習數據集中的主要解釋形式。因此,本文涵蓋了自然語言任務解釋和自然語言任務解釋兩個方面。本文提出了兩種語義定義下的模型解釋質量評估測試集:忠實度(faithfulness)和人類可接受性(human acceptability)。我使用這些評估方法來研究兩種解釋形式和三種模型架構的效用。最后,我提出了兩種方法來提高解釋質量——一種增加了忠實突出解釋的可能性,另一種提高了人類對自由文本解釋的可接受性。本文努力增加在實踐中部署人工智能系統時積極使用和產生結果的可能性。

付費5元查看完整內容

表示學習已經成為一種多功能工具,能夠利用使用數字技術獲得的大量數據集。該方法的廣泛適用性源于其作為子系統使用的靈活性和在模型架構中納入先驗的可擴展性。數據內部的直觀依賴關系,如像素主要對其鄰近的上下文做出貢獻,可以被形式化和嵌入,以提高泛化,并允許具有很大能力的模型避免過擬合。元學習也被應用于將這些系統擴展到低數據設置,通過將特定任務視為更普遍問題的實現而不損失性能。本文考慮如何利用這些方法的基本兼容性。本工作的主要論點是,歸納偏差提供的計算的清晰度可以用于改進元學習架構,并直接構建元學習器過去經驗和解決問題能力到新任務的遷移。通過融合這些方法開發的方法可以在廣泛的設置和領域中提高與基線模型相比的性能。融合有三種實現方式。第一個將復合分類確定為一種自然設置,并展示了如何使用注意力下數據點的自組織來增強元學習分類器。第二種使用顯式關系推理來調節和重組神經模塊,以在測試時快速準確地適應。自適應神經過程來捕獲關系和時間依賴,以提高預測和不確定性估計的準確性和一致性。在驗證本文的激勵假設時,這些貢獻在其他領域中發現了最先進的應用,包括小樣本圖像分類、粒子控制系統的相互作用的無監督恢復、蛋白質-蛋白質相互作用位點預測以及動力系統的識別和演化。通過這樣做,這項工作有助于使機器智能應用于更廣泛、更精細的問題范圍——作為所考慮問題的解決方案,作為進一步應用的架構模板,以及作為未來研究的方向。

付費5元查看完整內容

圖神經網絡(GNNs)成功地從大多數類型的網絡數據學習表示,但在大型圖的情況下受到限制。挑戰出現在學習架構的設計本身,因為大多數GNN是由圖的一些矩陣表示(例如,鄰接矩陣)參數化的,當網絡很大時,這可能很難獲得。此外,在許多GNN架構中,圖操作是通過譜域中的卷積操作來定義的。在這種情況下,另一個障礙是圖譜的獲得,這需要代價高昂的矩陣特征分解。

然而,從共享結構屬性的意義上來說,大型圖通常可以被識別為彼此相似。因此,我們可以預期,處理這些圖上支持的數據應該會產生類似的結果,這將減輕大尺寸的挑戰,因為我們可以為小圖設計GNN,并將它們轉移到更大的圖上。在這篇論文中,我將這種直覺形式化,并表明當這些圖屬于同一個“族”時,這種圖的可移植性是可能的,其中每個族由不同的圖元標識。

graphon是一個函數W(x,y),它描述了一類具有相似形狀的隨機圖。我們可以將參數(x,y)看作是一對節點的標簽,以及圖元值W(x,y)作為x和y之間一條邊的概率的標簽。這產生了一個從圖元采樣的圖的概念,或者,等價地,一個隨著采樣圖中節點數量增長的極限的概念。從一個graphon上采樣的圖形幾乎肯定在極限上具有相同的屬性,例如同態密度,這在實踐中意味著,graphon識別的網絡家族在某種意義上是相似的,某些“motifs”的密度是保持不變的。這激發了對圖上的信息處理的研究,作為在大型圖上進行信息處理的一種方法。

信號處理理論的核心部分是一個移位的概念,它引入了一類具有傅立葉變換(FT)特征的光譜表示的線性濾波器。本文表明,graphon誘導了一個線性算子,可用于定義移位,從而定義graphon濾波器和graphon FT。基于圖序列和相關圖信號的收斂性質,可以證明對于這些序列,圖FT收斂到graphon FT,圖濾波器的輸出收斂到具有相同系數的graphon濾波器的輸出。這些定理表明,對于屬于某些族的圖,圖傅里葉分析和圖濾波器設計具有明確的限制。反過來,這些事實使具有大量節點的圖上的圖信息處理成為可能,因為為極限圖設計的信息處理管道可以應用于有限圖。

我們通過組合具有點非線性的graphon濾波器組來進一步定義graphon神經網絡(WNNs)。WNNs是理想的極限,在實際中并不存在,但它們是理解GNNs基本性質的有用工具。特別是,graphon濾波器的采樣和收斂結果可以很容易地擴展到WNNs,從而表明當圖收斂到graphon時,GNN收斂到WNNs。如果兩個GNN可以任意接近同一個WNN,那么通過一個簡單的三角形不等式參數,它們也可以任意接近彼此。這個結果證實了我們的直覺,即GNN可以在相似的圖之間轉移。一個GNN可以在中等規模的圖上訓練,并在一個可轉移性誤差主要為最小圖的大小的倒數的大尺度圖上執行。有趣的是,這種誤差隨著卷積濾波器光譜響應的可變性而增加,揭示了從圖濾波器繼承來的可轉移性和光譜鑒別性之間的權衡。在實踐中,由于非線性,這種權衡在GNN中很少出現,它能夠將數據的光譜成分分散到特征值譜的不同部分,在那里它們可以被區分。這解釋了為什么GNN比圖過濾器更可轉移。

付費5元查看完整內容

設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。

付費5元查看完整內容

對稱和不變性在機器學習任務中無處不在。雖然卷積神經網絡以成功利用平移對稱性而聞名,但其他對稱性直到最近才經常被忽視。將對稱性或不變性納入神經網絡體系結構可以避免昂貴的數據增強,并減輕對大型數據集的需求。提出的工作集中在不變和等變神經網絡層,把對稱性放在神經網絡架構設計的中心。具體而言,本文涵蓋了三種不同的不變性:排列不變性、旋轉-平移不變性和標簽不變性。

  • 對稱和不變性在機器學習任務中無處不在。雖然卷積神經網絡以成功利用平移對稱性而聞名,但其他對稱性直到最近才經常被忽視。
  • 將對稱性或不變性納入神經網絡體系結構可以避免昂貴的數據增強,并減輕對大型數據集的需求。
  • 提出的工作集中在不變和等變神經網絡層,把對稱性放在神經網絡架構設計的中心。具體而言,本文涵蓋了三種不同的不變性:排列不變性、旋轉-平移不變性和標簽不變性

付費5元查看完整內容
北京阿比特科技有限公司