盡管神經網絡在安全設置(如惡意軟件檢測)方面取得了相當大的成功,但事實證明,這種模型很容易受到規避攻擊,即攻擊者對輸入(如惡意軟件)稍加改變以繞過檢測。我們提出了一種新的方法——傅里葉穩定,用于設計具有二值輸入的規避魯棒神經網絡。這種方法與其他形式的防御方法是互補的,它用傅里葉分析工具推導出的健壯的類似物取代了單個神經元的權重。神經網絡中穩定神經元的選擇是一個組合優化問題,我們提出了幾種近似求解方法。我們提供了一個由傅里葉穩定引起的每個神經元精度下降的正式界限,并通過實驗證明了所提出的方法在幾個檢測設置中增強神經網絡的魯棒性的有效性。此外,我們還表明,我們的方法可以有效地與對抗性訓練相結合。
最近的對比表示學習方法依賴于估計潛在上下文的多個視圖之間的互信息(MI)。例如,我們可以通過應用數據增強獲得給定圖像的多個視圖,或者我們可以將序列分割成包含序列中某個步驟的過去和未來的視圖。MI的對比下界很容易優化,在估計大量MI時具有很強的低估偏差。我們提出將整個MI估計問題分解為一組較小的估計問題,方法是將其中一個視圖分解為越來越知情的子視圖,并在分解的視圖之間運用MI的鏈式法則。這個表達式包含無條件和有條件的MI項的和,每一項測量MI總量的適度塊,便于通過對比邊界進行近似。為了使和最大化,我們在條件MI上建立了一個可以有效逼近的對比下界。我們將我們的一般方法稱為互信息分解估計(DEMI)。我們證明了DEMI可以在一個綜合設置中捕獲比標準的非分解的對比邊界更多的MI,并且在視覺域中學習更好的表示和對話生成。
對抗性例子的威脅激發了訓練可靠的魯棒神經網絡的工作,以便在推理時有效地驗證局部魯棒性。我們形式化了全局魯棒的概念,它捕獲了在線局部魯棒認證的操作特性,同時為魯棒訓練提供了一個自然學習目標。我們證明,通過將有效的全局Lipschitz邊界合并到網絡中,通過構建達到最先進的可驗證精度的可靠模型,廣泛使用的體系結構可以很容易地適應這一目標。值得注意的是,與最近的認證訓練方法相比,這種方法需要更少的時間和記憶,并且在在線認證點時成本可以忽略不計;例如,我們的評估表明,在大約幾小時內訓練一個大型魯棒的Tiny-Imagenet模型是可能的。我們的模型有效地利用了便宜的全局Lipschitz邊界來進行實時認證,盡管之前的建議是為了良好的性能需要更緊密的局部邊界;我們假設這是可能的,因為我們的模型經過專門訓練,以實現更緊密的全局邊界。也就是說,我們證明了對于給定的數據集,最大可實現的可驗證精度不能通過使用局部邊界來提高。
非線性核方法是被工業界廣泛應用的重要的機器學習模型之一。由于核函數矩陣的維度正比于數據點個數,大規模數據集在時間和存儲上都給直接使用非線性核方法帶來極大困難。對于最常見的高斯核函數,隨機傅立葉特征(Random Fourier Features, RFF)可以有效地在線性時間內接近非線性核學習的效果,并且不需要直接計算龐大的核函數矩陣,因此成為大規模非線性核學習的重要工具之一。
本文首次通過研究隨機傅立葉特征的統計分布,提出基于Lloyd-Max(LM)最小失真準則的量化方法,以此進一步顯著減少RFF的存儲成本。我們給出LM量化下高斯核函數估計量的一系列嚴格理論結果,證明LM估計量的正確性和優越性,以及規范化量化后的傅立葉特征可以進一步降低高斯核估計的除偏方差。基于多個大規模數據集的實證分析證明,在平均可降低10倍以上的存儲成本的前提下,經LM量化后的特征可以達到使用全精度傅立葉特征的準確率。該方法的表現顯著優于過去已提出的隨機量化方法。本文為工業級大規模非線性核學習提供了一種存儲便利且效果極佳的壓縮數據表征方法。
在統一魯棒半監督變分自編碼器(URSVAE)中,通過同時處理噪聲標簽和異常值,提出了一種新的噪聲魯棒半監督深度生成模型。輸入數據的不確定性通常是將不確定性優先于概率密度分布的參數,以確保變分編碼器對異常值的魯棒性。隨后,我們將噪聲轉換模型自然地集成到我們的模型中,以減輕噪聲標簽的有害影響。此外,為了進一步增強魯棒性,采用魯棒散度測度,推導并優化了新的變分下界來推斷網絡參數。通過證明對所提證據下界的影響函數是有界的,證明了所提模型在存在復合噪聲的情況下在分類方面的巨大潛力。通過對圖像分類任務的評價和與現有方法的比較,實驗結果表明了該框架的優越性。
殘差網絡(ResNets)在模式識別方面顯示了令人印象深刻的結果,最近,由于與神經常微分方程(neural ODEs)的感知聯系,獲得了相當大的理論興趣。隨著層數的增加,這條鏈路依賴于網絡權值的收斂到平滑的函數。我們通過詳細的數值實驗研究了隨機梯度下降訓練權值的性質,以及它們隨網絡深度的變換。我們觀察到有明顯不同于神經ODE文獻中假設的標度區存在。根據網絡結構的某些特征,如激活函數的光滑性,人們可以得到另一個ODE極限,一個隨機微分方程或兩者都不能。這些發現對神經ODE模型作為深度ResNets的充分漸近描述的有效性提出了質疑,并指出了另一類微分方程作為深度網絡極限的更好描述。
GNN的表示能力和泛化能力得到了廣泛的研究。但是,它們的優化其實研究的很少。通過研究GNN的梯度動力學,我們邁出分析GNN訓練的第一步。具體來說,首先,我們分析線性化(linearized)的GNN,并證明了:盡管它的訓練不具有凸性,但在我們通過真實圖驗證的溫和假設下,可以保證以線性速率收斂到全局最小值。其次,我們研究什么會影響GNN的訓練速度。我們的結果表明,通過跳過(skip)連接,更深的深度和/或良好的標簽分布,可以隱式地加速GNN的訓練。實驗結果證實,我們針對線性GNN的理論結果與非線性GNN的訓練行為一致。我們的結果在優化方面為具有跳過連接的GNN的成功提供了第一個理論支持,并表明具有跳過連接的深層GNN在實踐中將很有希望。
我們知道,目前的圖神經網絡(GNNs)由于被稱為過度平滑的問題,很難變深。多尺度GNN是一種很有前途的方法,以減輕過度平滑問題。然而,很少有人從學習理論的角度解釋為什么它在經驗上有效。在本研究中,我們推導了包括多尺度GNN的轉導學習算法的優化和泛化保證。利用boosting理論,證明了訓練誤差在弱學習類型條件下的收斂性。通過將其與泛化間隙邊界在轉導距離復雜度上的結合,我們證明了在此條件下,某一特定類型的多尺度GNN的測試誤差邊界隨深度的減小而相應減小。我們的結果為多尺度結構對抗過平滑問題的有效性提供了理論解釋。我們將boosting算法應用于訓練多尺度的GNN來完成真實的節點預測任務。我們證實其性能與現有的GNNs相當,實際行為與理論觀測一致。代碼可在//github.com/delta2323/GB-GNN下載。
本文通過最小化驗證損失代理來搜索最佳神經網絡結構。現有的神經結構搜索(NAS)方法在給定最新的網絡權重的情況下發現基于驗證樣本的最佳神經網絡結構。但是,由于在NAS中需要多次重復進行反向傳播,使用大量驗證樣本進行反向傳播可能會非常耗時。在本文中,我們建議通過學習從神經網絡結構到對應的損失的映射來近似驗證損失情況。因此,可以很容易地將最佳神經網絡結構識別為該代理驗證損失范圍的最小值。同時,本文進一步提出了一種新的采樣策略,可以有效地近似損失情況。理論分析表明,與均勻采樣相比,我們的采樣策略可以達到更低的錯誤率和更低的標簽復雜度。在標準數據集上的實驗結果表明,通過本方法進行神經結構搜索可以在較低的搜索時間內搜索到精度很高的網絡結構。