確定輸入是否在分布外(OOD)是在開放世界中安全部署機器學習模型的一個重要基石。然而,以往依賴softmax置信評分的方法對OOD數據存在過自信的后驗分布。我們提出了一個使用能量分數的OOD檢測的統一框架。我們表明,能量分數比使用softmax分數的傳統方法更好地區分分布內和分布外的樣本。與softmax信心分數不同,能量分數理論上與輸入的概率密度一致,不太容易受到過度自信問題的影響。在這個框架內,能量可以被靈活地用作任何預訓練的神經分類器的評分函數,也可以作為可訓練的代價函數來明確地塑造能量表面,用于OOD檢測。在CIFAR-10預訓練的WideResNet中,使用能量分數比softmax信心分數降低平均FPR (TPR 95%) 18.03%。在以能量為基礎的訓練中,我們的方法在一般的基準上比最先進的方法表現得更好。
Code://github.com/Shen-Lab/GraphCL Paper:
對于當前的圖神經網絡(GNNs)來說,圖結構數據的可泛化、可遷移和魯棒表示學習仍然是一個挑戰。與為圖像數據而開發的卷積神經網絡(CNNs)不同,自監督學習和預訓練很少用于GNNs。在這篇文章中,我們提出了一個圖對比學習(GraphCL)框架來學習圖數據的無監督表示。我們首先設計了四種類型的圖擴充來包含不同的先驗。然后,我們在四種不同的環境下系統地研究了圖擴充的各種組合對多個數據集的影響:半監督、無監督、遷移學習和對抗性攻擊。結果表明,與最先進的方法相比,即使不調優擴展范圍,也不使用復雜的GNN架構,我們的GraphCL框架也可以生成類似或更好的可泛化性、可遷移性和健壯性的圖表示。我們還研究了參數化圖增強的范圍和模式的影響,并在初步實驗中觀察了性能的進一步提高。
以圖結構為目標的擾動已被證明在降低圖神經網絡(GNNs)性能方面非常有效,而傳統的防御手段如對抗性訓練似乎不能提高魯棒性。這項工作的動機是觀察到,反向注入的邊緣有效地可以視為一個節點的鄰域聚集函數的額外樣本,這導致扭曲的聚集在層上累積。傳統的GNN聚合函數,如總和或平均值,可以被一個單獨的離群值任意扭曲。在魯棒統計領域的啟發下,我們提出了一個魯棒聚合函數。我們的方法顯示了0.5的最大可能分解點,這意味著只要節點的對抗邊的比例小于50%,聚合的偏差就有界。我們的新聚合函數,軟Medoid,是Medoid的一個完全可微的泛化,因此很適合端到端深度學習。在Cora ML上配置聚合的GNN,可將結構擾動的魯棒性提高3倍(Citeseer上提高5.5倍),對于低度節點,可提高8倍。
圖池化是眾多圖神經網絡(GNN)架構的核心組件。由于繼承了傳統的CNNs,大多數方法將圖池化為一個聚類分配問題,將規則網格中的局部patch的思想擴展到圖中。盡管廣泛遵循了這種設計選擇,但沒有任何工作嚴格評估過它對GNNs成功的影響。我們以代表性的GNN為基礎,并引入了一些變體,這些變體挑戰了在補充圖上使用隨機化或聚類的局部保持表示的需要。引人注目的是,我們的實驗表明,使用這些變體不會導致任何性能下降。為了理解這一現象,我們研究了卷積層和隨后的池層之間的相互作用。我們證明了卷積在學習的表示法中起著主導作用。與通常的看法相反,局部池化不是GNNs在相關和廣泛使用的基準測試中成功的原因。
我們解決了監督學習的特征化和尋找最優表示的問題。傳統上,這個問題通過使用信息瓶頸來解決,即壓縮輸入,同時保留關于目標的信息,這種方式與解碼器無關。然而,在機器學習中,我們的目標不是壓縮而是泛化,這與我們感興趣的預測族或譯碼器(例如線性分類器)密切相關。我們提出了可解碼信息瓶頸(DIB),它從預期預測族的角度考慮信息的保留和壓縮。因此,DIB產生了預期測試性能方面的最優表示,并且可以在保證的情況下進行估計。實驗表明,該框架可以在下游分類器上施加一個小的泛化間隙,并預測神經網絡的泛化能力。
//www.zhuanzhi.ai/paper/89c6cd33631078ee766b8b8dc409a503
我們發現了在流行的小樣本學習(FSL)方法中一直被忽視的一個缺陷: 預訓練的知識確實是限制性能的一個混雜因素。這一發現源于我們的因果假設: 一個關于預訓練的知識、樣本特征和標簽之間因果關系的結構性因果模型(SCM)。正因為如此,我們提出了一種新的FSL范式:干預少樣本學習(IFSL)。具體來說,我們開發三個有效的IFSL算法,它本質上是一個因果干預SCM學習:目前在因果視圖的上限。值得注意的是,IFSL的貢獻與現有的基于微調和元學習的FSL方法是正交的,因此IFSL可以改進所有這些方法.
持續學習和適應新任務的能力,同時又不失去對已經獲得的知識的掌握,是生物學習系統的一個特征,這是目前的深度學習系統所欠缺的。在這項工作中,我們提出了一種新的持續學習方法,稱為MERLIN:持續學習的元鞏固。
我們假設一個用于解決任務t的神經網絡的權值是來自于一個元分布p(lenian| t)。這種元分布是逐步學習和鞏固的。我們在具有挑戰性的在線持續學習設置中操作,其中一個數據點只被模型看到一次。
我們對MNIST、CIFAR-10、CIFAR-100和Mini-ImageNet數據集的持續學習基準進行的實驗顯示,在五個基線上,包括最近的最先進水平,都證明了MERLIN的前景。
為了從最能區分類的高維數據中學習內在的低維結構,我們提出了最大編碼率降低原理(MCR2),這是一種信息理論度量,可以最大限度地提高整個數據集和每個類的編碼率差。明確了它與交叉熵、信息瓶頸、信息增益、壓縮學習和對比學習等現有框架的關系,為學習多樣性和有判別性表示提供了理論保障。該編碼率可以從簡并類子空間分布的有限樣本中精確地計算出來,并且可以統一地學習有監督、自監督和無監督三種情況下的本征表示。特別地,單獨使用該原理學習的表示比使用交叉熵學習的表示在分類中標記錯誤時具有更強的魯棒性,并且可以在自學習不變特征聚類混合數據方面產生最先進的結果。
我們為構建帶有深度學習組件的結構性因果模型(SCMs)制定了一個總體框架。所提出的方法采用了流歸一化和變分推理,以實現對外生噪聲變量的可處理推理——這是反事實推理的關鍵一步,而這正是現有的深度因果學習方法所缺少的。我們的框架在構建在MNIST上的合成數據集以及真實世界的腦核磁共振掃描醫學數據集上得到驗證。我們的實驗結果表明,我們可以成功地訓練深度SCMs,使其具備Pearl因果關系階梯的所有三個層次:關聯、干預和反事實,從而為在成像應用和其他方面回答因果問題提供了一種強大的新方法。
//github.com/biomedia-mira/deepscm.
圖神經網絡(GNNs)已被證明是有效的模型,用于對圖結構數據的不同預測任務。最近關于它們表達能力的工作集中在同構任務和可數特征空間。我們對這個理論框架進行了擴展,使其包含連續的特性——在真實世界的輸入域和gnn的隱藏層中定期出現——并演示了在此上下文中對多個聚合函數的需求。為此,我們提出了一種新的聚合器結構——主鄰域聚合(PNA),它將多個聚合器與度標器相結合,從而推廣了總和聚合器。最后,我們通過一個新的基準來比較不同模型捕獲和利用圖結構的能力,該基準包含了來自經典圖理論的多個任務,以及來自現實領域的現有基準,所有這些都證明了我們模型的強大。通過這項工作,我們希望引導一些GNN研究轉向新的聚合方法,我們認為這對于尋找強大和健壯的模型至關重要。
//www.zhuanzhi.ai/paper/bee47b0e291d163fae01c