貝葉斯范式有潛力解決深度神經網絡的核心問題,如校準差和數據效率低。唉,將貝葉斯推理擴展到大權重空間通常需要限制性的近似。在這項工作中,我們證明,為了獲得準確的預測后驗,對模型權重的一個小子集進行推理是足夠的。其他權重保留為點估計值。這個子網絡推理框架使我們能夠在這些子集上使用表達性的,否則難以處理的后驗近似。特別地,我們將子網絡線性化拉普拉斯作為一種簡單的、可擴展的貝葉斯深度學習方法來實現:我們首先獲得所有權重的MAP估計,然后使用線性化拉普拉斯近似來推斷子網絡上的全協方差高斯后程。我們提出了一種子網絡選擇策略,旨在最大限度地保持模型的預測不確定性。
題目: 基于置信度校正可信圖神經網絡
會議: NeurIPS 2021
論文地址://arxiv.org/abs/2109.14285
自信點,我的GNN們
圖神經網絡 (GNN) 卓越的性能已經廣受關注,但其預測結果是否值得信賴卻有待探索。之前的研究結果表明,許多現代神經網絡對其預測具有過度自信的現象。然而與之不同的是,我們發現 GNN對其預測結果卻呈現出欠自信的現象。因此,要想獲得一個可信的GNN,亟需對其置信度進行校正。在本文中,我們設計了一種拓撲感知的后處理校正函數,并由此提出了一種新穎的可信賴 GNN 模型。具體來說,我們首先驗證了圖中的置信度分布具有同質性的特點,由此啟發我們再次利用GNN模型來為分類GNN模型學習校正函數(CaGCN)的想法。CaGCN 能夠為每個節點學習到一種從分類 GNN 的輸出到校正后的置信度的唯一轉換,同時這種轉換還能夠保留類間的序關系,從而滿足保存精度的屬性。此外,我們還將CaGCN應用于自訓練框架,結果表明可以通過對置信度進行校正獲得更可信的偽標簽,從而并進一步提高性能。我們通過大量實驗證明了我們提出的模型在置信度校正方面和在提高分類準確率方面的有效性。
隨著時間的推移,當學習任務時,人工神經網絡會遇到一個被稱為“災難性遺忘”(CF)的問題。當網絡的權值在訓練新任務時被覆蓋,導致舊信息的遺忘時,就會發生這種情況。為了解決這個問題,我們提出了MetA可重用知識(MetA Reusable Knowledge)或MARK,這是一種新的方法,可以在學習新任務時促進權重可重用性,而不是覆蓋。具體來說,MARK在任務之間保持了一組共享權重。我們將這些共享權重設想為一個公共知識庫(KB),該知識庫不僅用于學習新任務,而且在模型學習新任務時還包含新知識。MARK背后的關鍵組件有兩個方面。一方面,元學習方法提供了用新知識逐步豐富知識庫和促進任務間權重重用的關鍵機制。另一方面,一組可訓練掩碼提供了從知識庫中選擇性地選擇相關權值來解決每個任務的關鍵機制。通過使用MARK,我們在幾個流行的基準測試中獲得了最先進的結果,在20-Split-MiniImageNet數據集上的平均準確率超過了最好的方法10%,同時使用55%的參數實現了幾乎零遺忘。此外,一項消融研究提供了證據,確實,MARK正在學習可重復使用的知識,這些知識被每個任務選擇性地使用。
圖匹配深度學習由于其優于傳統方法的性能和為解決其他圖上的組合問題提供的見解而成為一個重要的研究課題。雖然最近的通用深度方法廣泛研究了有效的節點/邊緣特征學習或給出這些學習特征的下游通用求解器,但很少有現有工作質疑固定連通性/拓撲是否通常使用啟發式構建(例如,從學習的角度來看,我們認為固定的拓撲可能會限制模型的容量,從而潛在地阻礙性能。為了解決這個問題,我們提出學習潛在拓撲的分布,這樣可以更好地支持下游GM任務。我們設計了兩種潛在圖生成程序,一個是確定性的,一個是生成的。特別地,生成過程強調跨圖的一致性,因此可以看作是一個匹配引導的共生成模型。我們的方法在公共基準上的表現優于以往的先進水平,因此支持了我們的假設。
檢測語義異常具有挑戰性,因為它們可能以無數種方式出現在真實數據中。雖然增強網絡的健壯性可能足以對簡單異常進行建模,但沒有一種已知的好方法來準備模型,以應對可能發生的所有潛在的、看不見的異常,比如出現新的對象類。在本文中,我們展示了一個以前被忽視的異常檢測(AD)策略,即對從一些大型和多樣的語義任務轉移過來的表示引入一個顯式的歸納偏差。我們在使用干預的對照試驗中嚴格驗證了我們的假設,并表明它產生了出乎意料的有效輔助目標,優于以往的AD范式。
對抗性例子的威脅激發了訓練可靠的魯棒神經網絡的工作,以便在推理時有效地驗證局部魯棒性。我們形式化了全局魯棒的概念,它捕獲了在線局部魯棒認證的操作特性,同時為魯棒訓練提供了一個自然學習目標。我們證明,通過將有效的全局Lipschitz邊界合并到網絡中,通過構建達到最先進的可驗證精度的可靠模型,廣泛使用的體系結構可以很容易地適應這一目標。值得注意的是,與最近的認證訓練方法相比,這種方法需要更少的時間和記憶,并且在在線認證點時成本可以忽略不計;例如,我們的評估表明,在大約幾小時內訓練一個大型魯棒的Tiny-Imagenet模型是可能的。我們的模型有效地利用了便宜的全局Lipschitz邊界來進行實時認證,盡管之前的建議是為了良好的性能需要更緊密的局部邊界;我們假設這是可能的,因為我們的模型經過專門訓練,以實現更緊密的全局邊界。也就是說,我們證明了對于給定的數據集,最大可實現的可驗證精度不能通過使用局部邊界來提高。
基于隱含結構推理網絡的事件因果關系識別
Knowledge-Enriched Event Causality Identification via Latent Structure Induction Networks
傳統的事件關系抽取方法僅利用文本語義推斷事件關系,忽略了背景知識。很多情況下僅僅利用文本語義很難判斷出事件之間的關系。如何在復雜的真實應用場景中,同時利用文本和知識聯合推斷事件關系,是迫切亟待需要解決的問題。
知識圖譜中除了包含事件的描述性知識,還包含事件之間的關聯知識,這類知識對預測事件因果關系非常有幫助。本文采用基于隱含結構歸納網絡和事件關聯知識的事件因果關系抽取。首先,從知識圖譜中獲得事件之間的關聯知識,在知識圖譜中,事件之間的關聯知識一般由一條多跳路徑組成,由于路徑上有很多與因果無關的知識,并且由于知識圖譜的不完備性,很多有用的知識沒有標注出來,因此直接使用多跳路徑進行因果推理并不是最優的。為了降低因果無關知識的影響以及捕獲潛在的有用的知識,我們提出一個隱含結構歸納網絡,能夠基于事件之間的關聯知識自動地學出一個最優的推理結構。基于歸納出的推理結構,我們執行因果關系推理,從而預測出事件的因果關系。
基于注意力的神經網絡已經在許多任務上取得了最先進的成果。這類模型大多采用確定性注意力,而隨機注意力由于優化困難或模型設計復雜,研究較少。本文介紹了貝葉斯注意力信念網絡,該網絡通過將非歸一化的注意力權值建立在伽馬分布的層次上來構造解碼器網絡,通過將具有確定性-向上-隨機-向下結構的Weibull分布疊加來近似后變分布來構造編碼器網絡。所得到的自編碼網絡可以以一種變分下界的可微方式進行優化。任何具有確定性注意力的模型,包括預訓練過的模型,都可以簡單地轉換為所提出的貝葉斯注意力信念網絡。在各種語言理解任務中,我們證明了我們的方法在準確性、不確定性估計、跨域泛化和對抗攻擊的魯棒性方面優于確定性注意和最新的隨機注意力。我們進一步證明了該方法在神經機器翻譯和視覺問答方面的普遍適用性,顯示了將該方法整合到各種注意力相關任務中的巨大潛力。
最近利用圖神經網絡來處理圖匹配任務的研究已經顯示出了良好的結果。離散分布學習的最新進展為學習圖匹配模型提供了新的機會。在此工作中,我們提出了一個新的模型,隨機迭代圖匹配(SIGMA),以解決圖匹配問題。我們的模型定義了一個圖對匹配的分布,因此模型可以探索更廣泛的可能的匹配。我們進一步介紹了一種新的多步匹配方法,該方法學習如何逐步地改進圖對的匹配結果。該模型還包括虛擬節點,因此模型不必為沒有對應關系的節點尋找匹配。我們通過可擴展的隨機優化方法將該模型與數據擬合。我們在合成圖形數據集以及生物化學和計算機視覺應用中進行了廣泛的實驗。在所有任務中,我們的結果表明,與最先進的模型相比,SIGMA可以產生顯著改善的圖匹配結果。消融實驗研究證實,我們的每個組件(隨機訓練、迭代匹配和虛擬節點)提供了顯著的改進。
后驗貝葉斯神經網絡(BNN)參數是非常高維和非凸的。出于計算上的原因,研究人員使用廉價的小批量方法來近似這種后變方法,如平均場變分推斷或隨機梯度馬爾科夫鏈蒙特卡羅(SGMCMC)。為了研究貝葉斯深度學習中的基礎問題,我們在現代體系結構中使用全批量哈密頓蒙特卡羅(HMC)。我們證明: (1)與標準訓練和深度集成相比,BNNs可以獲得顯著的性能增益; (2)單一的HMC長鏈可以提供多個較短鏈后驗的可比性表示;(3)與最近的研究相比,我們發現不需要后驗回火來獲得接近最佳的性能,幾乎沒有證據表明存在“冷后驗”效應,這主要是數據增強的人為影響;(4) BMA對先驗尺度的選擇具有較強的魯棒性,對對角高斯、混合高斯和logistic先驗的選擇具有較強的相似性;(5)貝葉斯神經網絡在域移下泛化性能差;(6)雖然深度集成和SGMCMC等廉價方法可以提供良好的泛化,但它們提供的預測分布與HMC不同。值得注意的是,深度集成預測分布與標準SGLD的HMC相似,比標準變分推斷更接近。
Adaptive Methods for Real-World Domain Generalization
不變方法在解決領域泛化問題方面已經取得了顯著的成功,該問題的目標是對不同于訓練中使用的數據分布進行推斷。在我們的工作中,我們研究是否有可能利用未知測試樣本本身的領域信息。我們提出一個域自適應方法包括兩個步驟: a)我們首先學習區別的域嵌入從無監督訓練的例子,和 b)使用該域嵌入作為補充信息來構建一個domainadaptive模型,這需要輸入以及其域考慮而做出的預測。對于看不見的域,我們的方法簡單地使用少數未標記的測試示例來構建域嵌入。這使得對任何看不見的域進行自適應分類成為可能。我們的方法在各種領域泛化基準上實現了最先進的性能。此外,我們還引入了第一個真實世界的大規模域泛化基準Geo-YFCC,該基準包含超過40個訓練域、7個驗證域和15個測試域的1.1萬個樣本,比之前的工作大了幾個數量級。我們表明,現有的方法要么不能擴展到這個數據集,要么不如基于所有訓練領域的數據聯合的訓練模型的簡單基線。相比之下,我們的方法獲得了顯著的1%的改進。
//www.zhuanzhi.ai/paper/6e7661967d0879ebfd0236873a75386b