對抗訓練是提高模型對抗擾動魯棒性的最有效技術之一。然而,這種方法對模型的全部影響還沒有被很好地理解。例如,雖然對抗訓練可以減少對抗風險(針對對手的預測錯誤),但它有時會增加標準風險(沒有對手時的泛化錯誤)。在本文中,我們關注于分布擾動對手框架,其中對手可以改變訓練數據分布的鄰域內的測試分布。鄰域是通過分布之間的Wasserstein距離定義的,鄰域的半徑是對手操縱能力的度量。我們研究了標準風險和對抗風險之間的權衡,并推導了在特征維數不變的無限數據限制下,在特定類型的模型上可實現的Pareto最優權衡。我們考慮了三種學習設置:1) 線性模型類的回歸; 2) 二元分類下的高斯混合數據模型,用線性分類器分類; 3)用一類隨機特征模型進行回歸(可等效表示為第一層權值為隨機的兩層神經網絡)。我們表明,標準風險和對抗性風險之間的權衡在所有三種情況下都得到了體現。我們進一步描述了Pareto最優權衡曲線,并討論了各種因素,如特征相關性、對手的力量或兩層神經網絡的寬度會如何影響這種權衡。
在現實世界中,存在許多難以用數學方法指定的約束條件。然而,對于強化學習(RL)的現實部署來說,RL agent意識到這些約束條件是至關重要的,這樣它們才能安全地行動。在這項工作中,我們考慮了學習約束的問題,從一個遵守約束的行為的示范。我們通過實驗驗證了我們的方法,并證明了我們的框架能夠成功地學習agent所尊重的最有可能的約束。我們進一步證明,這些習得的約束是可轉移到新個體的,這些新個體可能具有不同的形態和/或獎賞功能。在這方面,之前的工作要么主要局限于表格(離散)設置、特定類型的約束,要么假設環境的過渡動力學。相比之下,我們的框架能夠在完全無模型的環境中學習高維中的任意文本{馬爾可夫}約束。代碼可在:\url{//github.com/shehryar-malik/icrl}。
元學習理論的一個關鍵問題是如何理解任務分布對遷移風險的影響,即從未知任務分布中得出的元學習器對新任務的預期錯誤。本文針對高斯噪聲和高斯任務(或參數)分布的固定設計線性回歸問題,給出了任意算法的分布相關的遷移風險下界,同時給出了一種新的,所謂的偏置正則化回歸方法的加權版本能夠將這些下界匹配到一個固定的常數因子。值得注意的是,權重是由高斯任務分布的協方差得到的。總之,我們的結果提供了在這種高斯設置下元學習的困難的精確表征。雖然這個問題設置可能看起來很簡單,但我們證明它足夠豐富,可以統一元學習的“參數共享”和“表示學習”流; 特別地,表示學習是作為任務分布的協方差矩陣未知的特殊情況得到的。在這種情況下,我們提出采用EM方法,這在我們的情況下顯示了有效的更新。本文通過對EM的實證研究完成,實驗結果表明,EM算法可以隨著任務數量的增加而達到下界,同時在表示學習環境中,該算法也能成功地與其他算法相媲美。
用反向傳播方法訓練深度殘差神經網絡(ResNets)的記憶成本隨網絡深度的增加而線性增加。規避這個問題的一種方法是使用可逆的架構。本文提出通過增加動量項來改變ResNet的正向規則。所得到的網絡,動量剩余神經網絡(動量ResNets)是可逆的。與以前的可逆架構不同,它們可以作為任何現有的ResNet塊的替代。我們證明動量ResNets可以被解釋為二階常微分方程(ode),并準確地描述了如何逐步增加動量增加動量ResNets的表示能力。我們的分析顯示,Momentum ResNets可以學習任何線性映射到一個倍增因子,而ResNets不能。在優化設置的學習中,需要收斂到一個不動點,我們從理論上和經驗上證明了我們的方法成功,而現有的可逆架構失敗。我們在CIFAR和ImageNet上展示了Momentum ResNets與ResNets具有相同的精度,但占用的內存要小得多,并展示了預訓練的Momentum ResNets對模型的微調是有前途的。
在統一魯棒半監督變分自編碼器(URSVAE)中,通過同時處理噪聲標簽和異常值,提出了一種新的噪聲魯棒半監督深度生成模型。輸入數據的不確定性通常是將不確定性優先于概率密度分布的參數,以確保變分編碼器對異常值的魯棒性。隨后,我們將噪聲轉換模型自然地集成到我們的模型中,以減輕噪聲標簽的有害影響。此外,為了進一步增強魯棒性,采用魯棒散度測度,推導并優化了新的變分下界來推斷網絡參數。通過證明對所提證據下界的影響函數是有界的,證明了所提模型在存在復合噪聲的情況下在分類方面的巨大潛力。通過對圖像分類任務的評價和與現有方法的比較,實驗結果表明了該框架的優越性。
我們提出并分析了一種基于動量的梯度方法,用于訓練具有指數尾損失(例如,指數或logistic損失)的線性分類器,它以O (1/t2)的速率最大化可分離數據的分類邊緣。這與標準梯度下降的速率O(1/log(t))和標準化梯度下降的速率O(1/t)形成對比。這種基于動量的方法是通過最大邊際問題的凸對偶,特別是通過將Nesterov加速度應用于這種對偶,從而在原函數中得到了一種簡單而直觀的方法。這種對偶觀點也可以用來推導隨機變量,通過對偶變量進行自適應非均勻抽樣。
基于注意力的神經網絡已經在許多任務上取得了最先進的成果。這類模型大多采用確定性注意力,而隨機注意力由于優化困難或模型設計復雜,研究較少。本文介紹了貝葉斯注意力信念網絡,該網絡通過將非歸一化的注意力權值建立在伽馬分布的層次上來構造解碼器網絡,通過將具有確定性-向上-隨機-向下結構的Weibull分布疊加來近似后變分布來構造編碼器網絡。所得到的自編碼網絡可以以一種變分下界的可微方式進行優化。任何具有確定性注意力的模型,包括預訓練過的模型,都可以簡單地轉換為所提出的貝葉斯注意力信念網絡。在各種語言理解任務中,我們證明了我們的方法在準確性、不確定性估計、跨域泛化和對抗攻擊的魯棒性方面優于確定性注意和最新的隨機注意力。我們進一步證明了該方法在神經機器翻譯和視覺問答方面的普遍適用性,顯示了將該方法整合到各種注意力相關任務中的巨大潛力。
殘差網絡(ResNets)在模式識別方面顯示了令人印象深刻的結果,最近,由于與神經常微分方程(neural ODEs)的感知聯系,獲得了相當大的理論興趣。隨著層數的增加,這條鏈路依賴于網絡權值的收斂到平滑的函數。我們通過詳細的數值實驗研究了隨機梯度下降訓練權值的性質,以及它們隨網絡深度的變換。我們觀察到有明顯不同于神經ODE文獻中假設的標度區存在。根據網絡結構的某些特征,如激活函數的光滑性,人們可以得到另一個ODE極限,一個隨機微分方程或兩者都不能。這些發現對神經ODE模型作為深度ResNets的充分漸近描述的有效性提出了質疑,并指出了另一類微分方程作為深度網絡極限的更好描述。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。
盡管健壯的深度學習中的現有工作都集中在基于像素級別的小型規范擾動,但這可能無法解決在多個實際設置中遇到的擾動。在許多此類情況下,盡管可能無法獲得測試數據,但可能知道有關擾動類型(例如未知的旋轉度)的廣泛規范。我們考慮一種在看不見的測試域中預期具有魯棒性的設置。但偏離了訓練領域。雖然可能無法確切知道此偏差,但根據屬性先驗地指定了其廣泛的特征。我們提出了一種對抗訓練方法,該方法學習如何生成新樣本,從而最大程度地將分類器暴露于屬性空間,而無需訪問來自測試域的數據。我們的對抗訓練解決了最小-最大優化問題,通過優化內部最大化產生的對抗性擾動的損失,使內部最大化產生對抗性擾動,而外部最小化找到模型參數。我們證明了我們的方法在三種類型的自然擾動上的適用性-與對象相關的移動,幾何變換和常見的圖像破壞。我們的方法使深度神經網絡能夠抵抗各種自然擾動。我們通過展示在MNIST,CIFAR-10和CLEVR數據集的新變體上進行對抗訓練而獲得的深度神經網絡的魯棒性收益,從而證明了所提出方法的有效性。