題目: Bayesian Neural Networks With Maximum Mean Discrepancy Regularization
摘要: 貝葉斯神經網絡(BNNs)訓練來優化整個分布的權重,而不是一個單一的集合,在可解釋性、多任務學習和校準等方面具有顯著的優勢。由于所得到的優化問題的難解性,大多數BNNs要么通過蒙特卡羅方法采樣,要么通過在變分近似上最小化一個合適的樣本下界(ELBO)來訓練。在這篇論文中,我們提出了后者的一個變體,其中我們用最大平均偏差(MMD)估計器代替了ELBO項中的Kullback-Leibler散度,這是受到了最近的變分推理工作的啟發。在根據MMD術語的性質提出我們的建議之后,我們接著展示了公式相對于最先進的公式的一些經驗優勢。特別地,我們的BNNs在多個基準上實現了更高的準確性,包括多個圖像分類任務。此外,它們對權重上的先驗選擇更有魯棒性,而且它們的校準效果更好。作為第二項貢獻,我們提供了一個新的公式來估計給定預測的不確定性,表明與更經典的標準(如微分熵)相比,它在對抗攻擊和輸入噪聲的情況下表現得更穩定。
題目:
Con?dence-Aware Learning for Deep Neural Networks
簡介:
盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。
當前的圖神經網絡(GNN)簡單地將節點嵌入到聚合的圖表示中——可能會丟失結構或語義信息。我們在這里介紹了OT-GNN,它通過GNN節點嵌入集合與“原型”點云之間的最佳傳輸距離作為自由參數來計算圖嵌入。這允許不同的原型突出顯示不同圖子部分的關鍵方面。證明了點云上的函數類滿足一個通用的近似定理,這是一個由于和和而失去的基本性質。然而,根據經驗,該模型在訓練過程中有一種崩潰回標準聚合的自然趨勢。我們通過提出一種有效的噪聲對比調節器來解決這一優化問題,從而使模型朝著真正挖掘最優運輸幾何的方向發展。我們的模型在幾個分子性質預測任務上始終表現出更好的泛化性能,也產生更平滑的表示。
題目: Graph Random Neural Networks
摘要:
圖神經網絡(GNNs)將深度學習方法推廣到圖結構數據中,在圖形挖掘任務中表現良好。然而,現有的GNN常常遇到具有標記節點的復雜圖結構,并受到非魯棒性、過度平滑和過擬合的限制。為了解決這些問題,本文提出了一個簡單而有效的GNN框架——圖隨機神經網絡(Grand)。與現有GNNs中的確定性傳播不同,Grand采用隨機傳播策略來增強模型的魯棒性。這種策略也很自然地使Grand能夠將傳播從特征轉換中分離出來,減少了過度平滑和過度擬合的風險。此外,隨機傳播是圖數據擴充的一種有效方法。在此基礎上,利用無標記節點在多個擴展中的分布一致性,提高模型的泛化能力,提出了Grand的一致性正則化方法。在圖形基準數據集上的大量實驗表明,Grand在半監督的圖形學習任務上顯著優于最先進的GNN基線。最后,證明了它可以顯著減輕過度平滑和過度擬合的問題,并且它的性能與魯棒性相結合。
題目: Efficient and Scalable Bayesian Neural Nets with Rank-1 Factors
摘要:
貝葉斯神經網絡(BNNs)在提高現代深度學習的魯棒性和不確定性量化方面取得了成功。然而,它們通常在規模和參數效率上與欠擬合作斗爭。另一方面,深度集成已成為不確定性量化的替代方案,雖然在某些問題上表現優于BNNs,但也存在效率問題。目前還不清楚如何結合這兩種方法的優點并糾正它們的共同問題。為了解決這個問題,我們提出一個BNNs的秩-1參數化,其中每個權矩陣只涉及一個秩-1子空間上的分布。我們還重新使用混合近似后驗來捕獲多個模式,與典型的混合不同,這種方法允許的內存增加要小得多(例如,對于大小為10的ResNet-50混合,僅增加0.4%)。我們進行了一個系統的實證研究來改善訓練。對于ImageNet上的ResNet-50、CIFAR-10/100上的ResNet 28-10和MIMIC-III上的RNN, rank-1 BNNs在測試集和out- distribution變體上的對數似然、準確性和校準方面實現了最先進的性能。
題目: Probability Calibration for Knowledge Graph Embedding Models
摘要: 知識圖譜嵌入的研究忽略了概率定標問題。我們展示了流行的嵌入模型確實是未經校準的。這意味著與預測三元組相關的概率估計是不可靠的。摘要針對知識圖譜中常見的情況,提出了一種新的校準模型的方法。我們建議在我們的方法的同時使用普拉特尺度和等滲回歸。在三個帶有地面真值負樣本的數據集上進行的實驗表明,與使用負樣本的黃金標準相比,我們的貢獻使模型得到了很好的校準。我們得到的結果顯著優于未校準的模型從所有校準方法。我們證明等滲回歸提供了最好的整體性能,而不是沒有權衡。我們還表明,經過校準的模型不需要定義特定于關系的決策閾值就可以達到最先進的精度。
我們研究了深度學習優化算法評估中的幾個混合因素。首先,我們深入研究自適應梯度方法如何與學習速率調整相互作用,這是一個眾所周知的難以調整的超參數,它對神經網絡訓練的收斂和推廣具有顯著影響。我們引入了一個“嫁接”實驗,該實驗將更新的大小與其方向解耦,發現文獻中的許多現有信念可能是由于對步長的隱式時間表的隔離不足而產生的。除了這一貢獻之外,我們還對自適應梯度方法的推廣進行了一些實證和理論回顧,旨在為這一空間帶來更清晰的視角。
Dropout是一種廣泛使用的正則化技術,通常需要為許多體系結構獲得最先進的技術。這項工作表明,dropout引入了兩種截然不同但相互糾纏的正則化效應:由于dropout修改了預期的訓練目標而產生的顯式效應(在之前的工作中也研究過),以及可能令人驚訝的是,dropout訓練更新中的隨機性帶來的另一種隱式效應。這種隱式正則化效應類似于小批量隨機梯度下降中的隨機度效應。我們通過控制實驗把這兩種效應分開。然后,我們推導出分析的簡化,用模型的導數和損失來描述每個影響,對于深度神經網絡。我們證明了這些簡化的、解析的正則化器準確地捕獲了輟學的重要方面,表明它們在實踐中忠實地替代了dropout。
題目: A simple baseline for bayesian uncertainty in deep learning
摘要:
本文提出了一種簡單、可擴展、通用的面向深度學習的不確定性表示和標定方法SWA-Gaussian (SWAG)。隨機加權平均(SWA)是一種計算隨機梯度下降(SGD)的第一次迭代的改進學習速率調度方法,最近被證明可以提高深度學習的泛化能力。在SWAG中,我們以SWA解作為第一個矩來擬合高斯分布,并從SGD迭代中得到一個低秩加對角協方差,形成了一個近似的后驗分布;然后我們從這個高斯分布中取樣,進行貝葉斯模型平均。根據SGD迭代的平穩分布結果,我們發現SWAG近似真實后驗的形狀。此外,我們證明了SWAG在各種計算機視覺任務上表現良好,包括樣本外檢測、校準和遷移學習,與許多流行的替代方案相比,包括MC dropout、KFAC拉普拉斯和溫度標度。
作者:
Wesley Maddox是紐約大學數據科學專業的博士生,研究方向是統計機器學習、貝葉斯深度學習、高斯過程和生成模型。正在研究在機器學習模型(如神經網絡)中加入和利用不確定性的方法。
Pavel Izmailov是紐約大學計算機科學的博士生,研究方向主要包括深度學習中的損失面分析、優化和正則化,對深度半監督學習、貝葉斯深度學習、生成模型、高斯過程等課題也很感興趣。
摘要: 深度卷積神經網絡(Deep convolutional neural networks, DCNNs)通過制作各種破紀錄的模型,主導了計算機視覺領域的最新發展。然而,在資源有限的環境下,如嵌入式設備和智能手機上,實現強大的DCNNs仍然是一個巨大的挑戰。研究人員已經認識到,1位CNNs是解決這一問題的一個可行方案;然而,與全精度DCNNs相比,它們的性能較差。在本文中,我們提出了一種新的方法,稱為貝葉斯優化1位CNNs(簡稱BONNs),利用貝葉斯學習這一成熟的解決困難問題的策略來顯著提高極端1位CNNs的性能。我們在貝葉斯框架中加入了全精度內核的先驗分布和特征,以端到端的方式構造了1位CNNs,這在以前的相關方法中都沒有考慮到。在理論支持下,實現了連續和離散空間同時優化網絡的貝葉斯損失,將不同的損失聯合起來,提高了模型的容量。在ImageNet和CIFAR數據集上的大量實驗表明,與最先進的1位CNNs相比,BONNs具有最佳的分類性能。