后驗貝葉斯神經網絡(BNN)參數是非常高維和非凸的。出于計算上的原因,研究人員使用廉價的小批量方法來近似這種后變方法,如平均場變分推斷或隨機梯度馬爾科夫鏈蒙特卡羅(SGMCMC)。為了研究貝葉斯深度學習中的基礎問題,我們在現代體系結構中使用全批量哈密頓蒙特卡羅(HMC)。我們證明: (1)與標準訓練和深度集成相比,BNNs可以獲得顯著的性能增益; (2)單一的HMC長鏈可以提供多個較短鏈后驗的可比性表示;(3)與最近的研究相比,我們發現不需要后驗回火來獲得接近最佳的性能,幾乎沒有證據表明存在“冷后驗”效應,這主要是數據增強的人為影響;(4) BMA對先驗尺度的選擇具有較強的魯棒性,對對角高斯、混合高斯和logistic先驗的選擇具有較強的相似性;(5)貝葉斯神經網絡在域移下泛化性能差;(6)雖然深度集成和SGMCMC等廉價方法可以提供良好的泛化,但它們提供的預測分布與HMC不同。值得注意的是,深度集成預測分布與標準SGLD的HMC相似,比標準變分推斷更接近。
最近的對比表示學習方法依賴于估計一個上下文的多個視圖之間的互信息。例如,我們可以通過應用數據增強獲得給定圖像的多個視圖,或者我們可以將序列分割成包含序列中某個步驟的過去和未來的視圖。MI的下界比較容易優化,但當評估大量的MI有強烈的低估偏見。我們提出將完整的MI估計問題分解為一個較小的估計問題。這個表達式包含一個無條件和條件MI項的和,每個測量總的MI的適度塊,這有助于通過對比界近似。為了使和最大化,我們給出了條件MI的一個比較下界,它可以有效地逼近。我們將我們的一般方法稱為互信息分解估計(DEMI)。我們證明了DEMI可以捕獲比標準的非分解對比界在綜合設置更大數量的MI,并在視覺域的對話生成學習更好的表示。
在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵,比如演示。然而,通常有許多不同的獎勵功能來解釋人類的反饋,這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性,但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL,它優化了平衡預期性能和風險的軟魯棒目標。據我們所知,PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法,該假設可以擴展到連續的MDPs。結果表明,PG-BROIL可以產生一系列從風險中性到風險厭惡的行為,并通過對沖不確定性從模糊的演示中學習,而不是尋求唯一識別演示者的獎勵功能時,表現優于最先進的模仿學習算法。
基于注意力的神經網絡已經在許多任務上取得了最先進的成果。這類模型大多采用確定性注意力,而隨機注意力由于優化困難或模型設計復雜,研究較少。本文介紹了貝葉斯注意力信念網絡,該網絡通過將非歸一化的注意力權值建立在伽馬分布的層次上來構造解碼器網絡,通過將具有確定性-向上-隨機-向下結構的Weibull分布疊加來近似后變分布來構造編碼器網絡。所得到的自編碼網絡可以以一種變分下界的可微方式進行優化。任何具有確定性注意力的模型,包括預訓練過的模型,都可以簡單地轉換為所提出的貝葉斯注意力信念網絡。在各種語言理解任務中,我們證明了我們的方法在準確性、不確定性估計、跨域泛化和對抗攻擊的魯棒性方面優于確定性注意和最新的隨機注意力。我們進一步證明了該方法在神經機器翻譯和視覺問答方面的普遍適用性,顯示了將該方法整合到各種注意力相關任務中的巨大潛力。
在不依賴下游任務的情況下評估學習表征的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出幾何成分分析(GeomCA)算法,評估表示空間的幾何和拓撲性質。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表征來證明其適用性,如對比學習模型、生成模型和監督學習模型。
本文研究了任務自適應預訓練模型的選擇問題,這是一個有待探討的問題,即如何評估預訓練模型,以便在不進行微調的情況下從模型族中選擇適合任務的模型。一項試點工作(Nguyen等人,2020年)解決了將有監督的預訓練模型轉移到分類任務中的問題,但它不能處理新興的無監督的預訓練模型或回歸任務。
為了尋求一種實用的評估方法,我們提出了估計標簽的最大證據(邊緣似然),在給定預先訓練模型提取的特征。與似然值相比,最大證據值不容易出現過擬合,而且通過我們精心設計的算法可以大大減少昂貴的計算量。最大證據對數(LogME)可以用來評估遷移學習的預訓練模型:LogME高的預訓練模型可能具有良好的遷移性能。LogME具有快速、準確、通用的特點,是第一個實用的遷移學習評估方法。相對于蠻力微調,LogME在時間上帶來了超過3000倍的加速。它在設置上比以前的方法有很大的優勢,并且適用于以前的方法不能處理的新設置。它對于不同的預訓練模型(有監督的預訓練和無監督的預訓練)、下游任務(分類和回歸)和模式(視覺和語言)來說是足夠普遍的。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。
最近,人們對在非歐幾里得空間中表示數據的方法(例如雙曲或球面)越來越感興趣,這些方法提供了對某些真實世界數據屬性(例如無尺度、分層或循環)有用的特定歸納偏差。然而,流行的圖神經網絡目前僅限于通過歐幾里得幾何和相關的向量空間操作來建模數據。在這里,我們通過提出將圖卷積網絡(GCN)在數學基礎上推廣為常曲率空間的(乘積)來彌補這一差距。我們通過i)引入一種統一的形式,可以在所有常曲率幾何之間平滑地插入,ii)利用陀螺質心坐標,推廣了經典的歐幾里德質心概念。當曲率從任何一邊變為零時,我們這類模型平滑地恢復它們的歐幾里得對應模型。根據其離散曲率,我們在非歐幾里得行為的符號數據上的節點分類和失真最小化的任務表現優于歐幾里得GCNs。
概述
圖卷積網絡 針對圖像數據的卷積網絡和深度學習的成功啟發了對于共享參數與圖形幾何形狀一致的圖推廣。Bruna等人(2014);Henaff等人(2015)是利用圖上的局部譜濾波器在圖傅里葉空間中開發頻譜圖卷積神經網絡的先驅。然而,為了減少對拉普拉斯特征模式的圖依賴,Defferrard等人(2016)利用Hammond等人(2011)的結果使用Chebyshev多項式近似卷積濾波器。所得到的方法(在附錄A中討論)在計算效率和精度和復雜性方面是優越的。此外,Kipf和Welling(2017)通過考慮一階近似來簡化這種方法,從而獲得高可伸縮性。提出的圖卷積網絡(GCN)是通過對稱歸一化鄰接矩陣來插值節點嵌入,而這種權值共享可以理解為一種有效的擴散式正則化器。最近的工作擴展了GCNs,實現了鏈接預測(Zhang & Chen, 2018)、圖分類(Hamilton等,2017;和節點分類(Klicpera et al., 2019;Velickoviˇc et al .′, 2018)。
ML中的歐幾里得幾何。在機器學習(ML)中,由于各種原因,數據通常在歐幾里得空間中表示。首先,有些數據本質上是歐幾里得的,比如經典力學中三維空間中的位置。其次,直覺在這樣的空間中更容易,因為它們擁有一個吸引人的矢量結構,允許基本的算術和豐富的線性代數理論。最后,許多感興趣的量,如距離和內積在封閉公式中是已知的,可以在現有的硬件上非常有效地計算。這些操作是當今大多數流行的機器學習模型的基本構建模塊。因此,歐幾里得幾何強大的簡單性和效率已經導致許多方法實現了最先進的任務,如機器翻譯(Bahdanau等,2015;wani et al., 2017),語音識別(Graves et al., 2013),圖像分類(He et al., 2016)或推薦系統(He et al., 2017)。
黎曼ML 盡管取得了成功,但某些類型的數據(例如分層數據、無標度數據或球形數據)被證明可以更好地用非歐幾里德幾何表示(Defferrard et al., 2019;Bronstein等,2017;Nickel & Kiela, 2017;Gu et al., 2019),尤其帶來了豐富的流形學習理論(Roweis & Saul, 2000;和信息幾何(Amari & Nagaoka, 2007)。在活力操縱非歐幾里得幾何的數學框架被稱為黎曼幾何(Spivak, 1979)。雖然它的理論導致了許多強而優雅的結果,但它的一些基本量,如距離函數d(·,·),通常不能以封閉的形式提供,這對許多計算方法都是禁止的。
常曲率幾何的代表性優勢。在一般黎曼流形和歐幾里得空間之間的一個有趣的權衡是由常截面曲率流形給出的。他們一起定義了所謂的雙曲(負曲率),橢圓(正曲率)和歐幾里得(零曲率)幾何。正如下面和附錄B中所討論的,歐幾里得空間在嵌入某些類型的數據(如樹)時具有局限性,并且會產生很大的失真。在這些情況下,雙曲空間和球面空間具有代表性的優勢,為各自的數據提供了更好的歸納偏差。
雙曲空間可以直觀地理解為一棵連續樹:球的體積隨半徑呈指數增長,類似于二叉樹的節點數隨深度呈指數增長(圖1)。它的樹狀性質已經被數學研究了很長時間(Gromov, 1987;哈曼,2017;與歐幾里得幾何結構相比,它被證明能夠更好地嵌入復雜網絡(Krioukov et al., 2010)、無標度圖和分層數據(Cho et al., 2019; Sala et al., 2018; Ganea et al., 2018b; Gu et al., 2019; Nickel & Kiela, 2018; 2017; Tifrea et al., 2019)。一些重要的工具或方法找到了它們的雙曲線對應物,例如變分自編碼器(Mathieu et al., 2019;、注意力機制(Gulcehre等,2018)、矩陣乘法、遞歸單位和多項logistic回歸(Ganea等,2018)。
常曲率空間中的GCNs。在這項工作中,我們引入了一個擴展的圖形卷積網絡,它允許學習存在于具有任何曲率符號的常曲率空間(乘積)中的表示。我們通過將導出的統一陀螺框架與GCNs的有效性相結合來實現這一點(Kipf & Welling, 2017)。與我們的工作同時,Chami等人(2019年);Liu等人(2019)考慮了通過切線空間聚合在雙曲空間中學習嵌入的圖神經網絡。他們的方法將在第3.4節中作更詳細的分析。我們的模型更一般化,因為它在一個包含雙曲空間的嚴格超集中產生表示。