我們假設,由于多模態深度神經網絡學習的貪婪性質,這些模型往往只依賴于一種模態,而不擬合其他模態。根據我們的經驗觀察,這種行為是反直覺的,并且損害了模型的泛化。為了估計模型對每種模態的依賴性,我們計算當模型除了另一種模態外還可以訪問它時,對精度的增益。我們把這個增益稱為條件利用率。在實驗中,我們始終觀察到不同模態之間的條件利用率不平衡,跨多個任務和架構。由于在訓練過程中不能有效地計算條件利用率,我們引入了一個基于模型從每個模態學習的速度的代理,我們稱之為條件學習速度。我們提出了一種算法來平衡訓練過程中模態之間的條件學習速度,并證明它確實解決了貪婪學習的問題該算法提高了模型在三個數據集上的泛化能力:Colored MNIST、ModelNet40和NVIDIA Dynamic Hand Gesture。
//www.zhuanzhi.ai/paper/a175b09bb7bfe5bc36d68b6fdf98fe86
深度學習在圖像分類和物體識別等復雜的模式識別任務中表現出色。然而,它很難處理需要困難推理的任務,比如算法計算。人類能夠通過迭代推理來解決這樣的任務——花更多的時間來思考更難的任務。然而,大多數現有的神經網絡都表現出由神經網絡體系結構控制的固定計算開銷,從而阻止了對更難的任務進行額外的計算處理。在這項工作中,我們提出了一個新的框架迭代推理與神經網絡。我們訓練一個神經網絡,將所有輸出的能量參數化,并將迭代推理的每一步作為能量最小化步驟來實現,以找到最小能量解決方案。通過將推理作為一個能量最小化問題,對于導致更復雜的能量景觀的更難的問題,我們可以通過運行一個更復雜的優化程序來調整我們的潛在計算預算。我們的經驗表明,我們的迭代推理方法在圖和連續域可以解決更精確和可泛化的算法推理任務。最后,我們說明了我們的方法可以遞歸地解決需要嵌套推理的算法問題。可以在//energy-based-model.github.io/iterativereasoning-as-energy-minimization/上獲得代碼和其他信息。
時間序列對齊方法需要具有高度表達性、可微性和可逆性的扭曲函數來保持時間拓撲,即差分同構。在常微分方程(ODE)控制下的速度場積分可以產生異形扭曲函數。包含異構變換的基于梯度的優化框架需要計算微分方程的解對模型參數的導數,即敏感性分析。不幸的是,深度學習框架通常缺乏自動微分兼容的靈敏度分析方法;隱函數,比如ODE的解,需要特別小心。目前的解決方案呼吁伴隨靈敏度方法,特別的數值求解或ResNet的歐拉離散化。在這項工作中,我們提出了一個閉合形式的ODE解及其梯度在連續分段仿射(CPA)速度函數。我們提出了一個高度優化的結果在CPU和GPU上的實現。此外,我們在多個數據集上進行了大量的實驗,以驗證我們的模型對不可見數據的泛化能力。結果表明,在效率和準確性方面都有顯著提高。 //www.zhuanzhi.ai/paper/6bf12cef7552c6267240f4067265d338
約束強化學習(CRL)最近引起了人們的極大興趣,因為滿足安全約束對現實世界的問題至關重要。然而,現有的CRL方法對折現累積成本的約束通常缺乏嚴格的定義和安全性保證。另一方面,在安全控制研究中,安全被定義為持續滿足一定的狀態約束。這種持久安全只在狀態空間的一個子集上是可能的,這個子集被稱為可行集,對于給定的環境存在一個最優最大可行集。近年來的研究利用基于能量的方法,如控制屏障函數(CBF)、安全指數(SI)等,將安全控制與CRL相結合,利用可行集的先驗保守估計,影響了學習策略的性能。針對這一問題,本文提出了一種可達性CRL (RCRL)方法,利用可達性分析來刻畫最大可行集。我們用建立的自一致性條件刻畫可行集,然后學習一個安全值函數作為CRL的約束。我們還利用多時間尺度隨機逼近理論證明了所提算法收斂于局部最優,其中最大可行集是可以保證的。不同基準上的經驗結果,如safecontrol-gym和Safety-Gym驗證了學習的可行集,在最優標準中的性能,以及RCRL的約束滿足,與最先進的CRL基線進行了比較。
//www.zhuanzhi.ai/paper/7cf75b83c7c786a3f426e412204927f8
對抗性例子的威脅激發了訓練可靠的魯棒神經網絡的工作,以便在推理時有效地驗證局部魯棒性。我們形式化了全局魯棒的概念,它捕獲了在線局部魯棒認證的操作特性,同時為魯棒訓練提供了一個自然學習目標。我們證明,通過將有效的全局Lipschitz邊界合并到網絡中,通過構建達到最先進的可驗證精度的可靠模型,廣泛使用的體系結構可以很容易地適應這一目標。值得注意的是,與最近的認證訓練方法相比,這種方法需要更少的時間和記憶,并且在在線認證點時成本可以忽略不計;例如,我們的評估表明,在大約幾小時內訓練一個大型魯棒的Tiny-Imagenet模型是可能的。我們的模型有效地利用了便宜的全局Lipschitz邊界來進行實時認證,盡管之前的建議是為了良好的性能需要更緊密的局部邊界;我們假設這是可能的,因為我們的模型經過專門訓練,以實現更緊密的全局邊界。也就是說,我們證明了對于給定的數據集,最大可實現的可驗證精度不能通過使用局部邊界來提高。
在領域泛化工作中,一個常見的目標是在類標簽條件下學習獨立于領域的表示。我們證明這個目標是不充分的: 存在反例,在滿足類條件域不變性后,模型不能泛化到不可見域。我們通過一個結構性因果模型將這個觀察形式化,并展示了類內變量建模對泛化的重要性。具體來說,類包含描述特定因果特征的對象,而域可以被解釋為對這些對象的干預,這些對象改變了非因果特征。我們強調了一個可選條件:如果來自相同對象,那么跨域的輸入應該具有相同的表示。在此基礎上,我們提出了觀測基礎目標時的匹配算法(如通過數據增強)和未觀測目標時的近似算法(MatchDG)。我們簡單的基于匹配的算法在旋轉MNIST、Fashion-MNIST、PACS和胸部x射線數據集的域外精度方面具有很好性能。我們的方法MatchDG也恢復了真實對象匹配:在MNIST和Fashion-MNIST上,MatchDG的前10個匹配與真實匹配有超過50%的重疊。
Learning Diverse-Structured Networks for Adversarial Robustness
該文針對對抗訓練(adversarial training)提出了一種輕量級的結構多樣化的網絡結構, 該網絡結構以現有可以直接使用的有效網絡模型作為原子模塊,并引入注意力權重來動態地對這些原子模塊進行加權,從而增加了整體網絡結構的多樣性以提高模型的對抗魯棒性。
在對抗訓練 (adversarial training, AT) 中,目前學術界主要的研究重點是訓練目標函數和優化器,而對于魯棒的網絡結構研究較少,因此目前多數文獻使用的仍然是標準訓練(standard training, ST)中的那些經典的網絡結構。在標準訓練中,經典的網絡結構是通常比搜索得到的網絡結構表現差的,這樣的趨勢在對抗訓練中應該是一樣的。
在本文中,我們認為網絡結構和訓練的方式,即對抗訓練AT,不能獨立處理,由于給定一個數據集,標準訓練ST中的表現最佳的網絡結構在對抗訓練中不一定是最優的。話雖如此,由于需要在線生成對抗樣本,對抗訓練本身是非常耗時,如果我們在超大搜索空間中直接搜索網絡結構,計算復雜度將幾乎無法接受。因此,在這篇文章里,我們提出一個多樣化的網絡結構(DS-Net),以顯著減少搜索空間的大小,相比于細粒度搜索空間里的網絡前向傳播操作,我們只考慮預定義的原子模塊的設計,其中原子模塊是像殘差塊(residual block)一樣經過時間考驗的網絡結構。
由于只有幾個原子模塊,因此在計算網絡任意位置的輸入和輸出時,我們可以加權所有原子模塊而不是找到DS-Net所有原子模塊中最好的一個。在這樣的過程中,DS-Net可以實現探索(explore)多樣化網絡結構和利用(exploit)最好的網絡結構之間的重要權衡。本文中的實驗結果證明了 DS-Net 的優勢,即對原子模塊進行加權。
用反向傳播方法訓練深度殘差神經網絡(ResNets)的記憶成本隨網絡深度的增加而線性增加。規避這個問題的一種方法是使用可逆的架構。本文提出通過增加動量項來改變ResNet的正向規則。所得到的網絡,動量剩余神經網絡(動量ResNets)是可逆的。與以前的可逆架構不同,它們可以作為任何現有的ResNet塊的替代。我們證明動量ResNets可以被解釋為二階常微分方程(ode),并準確地描述了如何逐步增加動量增加動量ResNets的表示能力。我們的分析顯示,Momentum ResNets可以學習任何線性映射到一個倍增因子,而ResNets不能。在優化設置的學習中,需要收斂到一個不動點,我們從理論上和經驗上證明了我們的方法成功,而現有的可逆架構失敗。我們在CIFAR和ImageNet上展示了Momentum ResNets與ResNets具有相同的精度,但占用的內存要小得多,并展示了預訓練的Momentum ResNets對模型的微調是有前途的。
深度學習模型的分散訓練是實現網絡上數據隱私和設備上學習的關鍵要素。在現實的學習場景中,不同客戶端局部數據集之間存在異構,這對優化提出了挑戰,并可能嚴重影響泛化性能。在本文中,我們研究并識別了幾種分散優化算法在不同程度的數據異構下的局限性。我們提出了一種新的基于動量的方法來緩解這種分散訓練的困難。我們通過對各種CV/NLP數據集(CIFAR-10、ImageNet和AG News)和幾種網絡拓撲(Ring和Social network)的大量經驗實驗表明,與其他現有方法相比,我們的方法對客戶數據的異構性更穩健,測試性能顯著提高(1% - 20%)。我們的代碼是公開的。
我們研究計算化學中的一個基本問題,即分子構象生成,試圖從二維分子圖中預測穩定的三維結構。現有的機器學習方法通常首先預測原子之間的距離,然后生成滿足這些距離的3D結構,而在3D坐標生成過程中,預測距離中的噪聲可能會導致額外的誤差。本文受傳統分子動力學力場模擬方法的啟發,提出了一種直接估算原子坐標對數密度梯度場的新方法ConfGF。估計的梯度場允許通過朗之萬動力學直接生成穩定的構象。然而,由于梯度場是旋轉平移等變的,因此該問題非常具有挑戰性。我們注意到估計原子坐標的梯度場可以轉化為估計原子間距離的梯度場,因此開發了一種基于最近的基于分數的生成模型的新算法來有效地估計這些梯度。跨多個任務的實驗結果表明,ConfGF顯著優于以前的最先進基線。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。