最近解開深度學習中的隱式正則化之謎的努力促使了對矩陣分解的理論關注——通過線性神經網絡的矩陣完成。作為對實際深度學習的進一步研究,我們首次對張量因子分解中的隱正則化進行了理論分析——通過某種非線性神經網絡的張量補全。我們采用動力學系統的觀點,規避了張量問題的困難,刻畫了梯度下降引起的演化。給出了貪心低張量秩搜索的一種形式,在一定條件下給出了嚴格的證明,并在其他條件下給出了經驗證明。基于張量秩捕獲非線性神經網絡隱含正則化的動機,我們將其作為復雜性的度量方法進行了實證研究,并發現它捕獲了神經網絡所泛化的數據集的本質。這使我們相信張量秩可以為解釋深度學習中的隱正則化以及將這種隱正則化轉換為泛化的真實數據的特性鋪平道路。
隨著機器學習模型和數據量的增大,大規模分布式訓練決定了模型部署的效率。去中心化,作為一種經典的分布式系統設計原型,近年來在擴展機器學習規模上顯示出良好的效率和魯棒性。本文基于此背景,探究了不同去中心化系統下訓練復雜度的理論極限;并進一步提出了兩種算法,其復雜度可以達到該理論極限。 論文鏈接:
我們提出了一種新的在線元學習算法,在有限的監督下順序揭示任務實例,并期望學習器在每一輪中對它們進行元學習,從而允許學習器在很少的任務級監督下快速定制特定任務模型。在線元學習中出現的一個基本問題是,隨著時間的推移,學習任務越來越多,記憶的可擴展性也越來越強。到目前為止,之前的工作都允許完美的回憶,導致記憶隨時間線性增加。與之前的工作不同,在我們的方法中,先前的任務實例是允許被刪除的。我們建議通過固定大小的狀態向量來利用之前的任務實例,狀態向量是按順序更新的。我們的理論分析表明,我們提出的記憶高效在線學習(MOML)方法具有凸損失函數的次線性遺憾和非凸損失的次線性局部遺憾。在基準數據集上,我們證明了我們的方法可以超越之前的方法,即使它們允許完美的回憶。
盡管神經網絡在安全設置(如惡意軟件檢測)方面取得了相當大的成功,但事實證明,這種模型很容易受到規避攻擊,即攻擊者對輸入(如惡意軟件)稍加改變以繞過檢測。我們提出了一種新的方法——傅里葉穩定,用于設計具有二值輸入的規避魯棒神經網絡。這種方法與其他形式的防御方法是互補的,它用傅里葉分析工具推導出的健壯的類似物取代了單個神經元的權重。神經網絡中穩定神經元的選擇是一個組合優化問題,我們提出了幾種近似求解方法。我們提供了一個由傅里葉穩定引起的每個神經元精度下降的正式界限,并通過實驗證明了所提出的方法在幾個檢測設置中增強神經網絡的魯棒性的有效性。此外,我們還表明,我們的方法可以有效地與對抗性訓練相結合。
用反向傳播方法訓練深度殘差神經網絡(ResNets)的記憶成本隨網絡深度的增加而線性增加。規避這個問題的一種方法是使用可逆的架構。本文提出通過增加動量項來改變ResNet的正向規則。所得到的網絡,動量剩余神經網絡(動量ResNets)是可逆的。與以前的可逆架構不同,它們可以作為任何現有的ResNet塊的替代。我們證明動量ResNets可以被解釋為二階常微分方程(ode),并準確地描述了如何逐步增加動量增加動量ResNets的表示能力。我們的分析顯示,Momentum ResNets可以學習任何線性映射到一個倍增因子,而ResNets不能。在優化設置的學習中,需要收斂到一個不動點,我們從理論上和經驗上證明了我們的方法成功,而現有的可逆架構失敗。我們在CIFAR和ImageNet上展示了Momentum ResNets與ResNets具有相同的精度,但占用的內存要小得多,并展示了預訓練的Momentum ResNets對模型的微調是有前途的。
近年來,互信息(MI)在限制深度神經網絡(DNNs)泛化誤差方面引起了人們的廣泛關注。然而,由于很難準確估計神經網絡中的信息熵,因此以往的研究大多都需要放寬信息熵的界限,從而削弱了對泛化的信息理論解釋。針對這一局限性,本文引入了一種用于精確估計MI的DNNs的概率表示方法。利用本文提出的MI估計器,我們驗證了對泛化的信息理論解釋,并得出了一個比最先進的松解更緊的概化邊界。
GNN的表示能力和泛化能力得到了廣泛的研究。但是,它們的優化其實研究的很少。通過研究GNN的梯度動力學,我們邁出分析GNN訓練的第一步。具體來說,首先,我們分析線性化(linearized)的GNN,并證明了:盡管它的訓練不具有凸性,但在我們通過真實圖驗證的溫和假設下,可以保證以線性速率收斂到全局最小值。其次,我們研究什么會影響GNN的訓練速度。我們的結果表明,通過跳過(skip)連接,更深的深度和/或良好的標簽分布,可以隱式地加速GNN的訓練。實驗結果證實,我們針對線性GNN的理論結果與非線性GNN的訓練行為一致。我們的結果在優化方面為具有跳過連接的GNN的成功提供了第一個理論支持,并表明具有跳過連接的深層GNN在實踐中將很有希望。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。
深度神經網絡泛化的神秘能力被認為源于隱式正則化,一種基于梯度的優化的趨勢,以擬合訓練數據與低復雜度的預測器。“形式化這種直覺的一個主要挑戰是,我們缺乏對復雜性的度量,既要量化,又要捕捉承認泛化的數據的本質(圖像、音頻、文本等)。考慮到這一挑戰,我將介紹最近的隱式正則化在矩陣分解(等價于線性神經網絡)和張量分解(等價于某種類型的非線性神經網絡)中的分析。通過動態描述,我將建立隱式的低秩正則化,不同于任何類型的范數最小化,與先前的信念相反。然后,由于張量秩捕獲非線性神經網絡的隱式正則化,我將建議將其作為復雜度的度量,并表明在擬合標準數據集時它保持極低的水平。這就產生了張量秩解釋神經網絡的隱式正則化和將其轉化為泛化的真實數據的特性的可能性。
//www.ipam.ucla.edu/abstract/?tid=16593&pcode=TMWS1
目錄:
1 深度學習隱式正則化 Implicit Regularization in Deep Learning
2 矩陣分解 Matrix Factorization
3 CP張量分解 CP Tensor Factorization
4 張量秩 Tensor Rank as Measure of Complexity
5 結論 Conclusion
深度學習不斷增長的能源耗費和性能成本,促使社區通過選擇性修剪組件來減少神經網絡的規模。與生物學上的相似之處是,稀疏網絡即使不能比原來的密集網絡更好,也能得到同樣好的推廣。稀疏性可以減少常規網絡的內存占用,以適應移動設備,也可以縮短不斷增長的網絡的訓練時間。在本文中,我們調研了深度學習中的稀疏性之前的工作,并為推理和訓練提供了一個廣泛的稀疏化教程。我們描述了去除和添加神經網絡元素的方法,實現模型稀疏性的不同訓練策略,以及在實踐中利用稀疏性的機制。我們的工作從300多篇研究論文中提煉思想,并為希望利用稀疏性的實踐者提供指導,以及為目標是推動前沿發展的研究人員提供指導。我們在稀疏化中包括必要的數學方法背景,描述諸如早期結構適應、稀疏性和訓練過程之間的復雜關系等現象,并展示在真實硬件上實現加速的技術。我們還定義了一個修剪參數效率的度量,可以作為不同稀疏網絡比較的基線。最后,我們推測稀疏性如何改善未來的工作,并概述該領域的主要開放問題。
在計算機視覺、自然語言處理、知識表示、推薦系統、藥物發現等領域,深度學習在解決非常復雜的現實世界問題方面展現了無與倫比的前景。隨著這一發展,機器學習領域正從傳統的特征工程向神經結構工程發展。然而,對于如何選擇正確的架構來解決特定的任務,我們仍然知之甚少。在模型設計中,采用了卷積層中的平移等方差、遞歸、結構權重共享、池化或局部化等方法來引入強歸納偏差。然而,任務所需的精確模型大小和容量仍然未知,一個常見的策略是訓練過度參數化的模型,并將它們壓縮成更小的表示。
生物的大腦,特別是人類的大腦,是分層的、稀疏的和周期性的結構[Friston 2008],我們可以得出一些類似于今天人工神經網絡中的歸納偏差。稀疏性在生物大腦的縮放中扮演著重要的角色——大腦的神經元越多,大腦就越稀疏[Herculano-Houzel et al. 2010]。此外,研究表明,人類的大腦開始稀疏,在大量修剪之后有一個致密化的早期階段,然后保持在一個相對穩定的稀疏水平。然而,即使是完全發育成熟的大腦,每天也會改變多達40%的突觸[Hawkins 2017]。許多今天的工程修剪技術具有直觀的生物學類比,我們將在整篇文章中提到并在第8節討論。然而,計算基質(生物組織和CMOS)導致了非常不同的限制。
人工深度學習模型傳統上是密集和過度參數化的,有時甚至可以記憶數據中的隨機模式[Zhang et al. 2017],或者95%的參數可以從剩余的5%中預測出來[Denil et al. 2014]。這可能與經驗證據有關,表明使用隨機梯度下降(SGD)訓練過度參數化模型比使用更緊湊的表示更容易Glorot et al. 2011a; Kaplan et al. 2020; Li et al. 2020a; Mhaskar and Poggio 2016]. Brutzkus et al. [2017] 和Du et al. [2019]表明,這種梯度下降技術可證明以良好的泛化最優地訓練(淺)過參數化網絡。具體來說,他們指出,過度參數化會導致一種強大的“類凸性”,這有利于梯度下降的收斂性。最近的理論結果[Allen-Zhu et al. 2019; Neyshabur et al. 2018]似乎支持這些發現,并指出訓練動力學和泛化依賴于過度參數化。
這種過度參數化是以模型訓練和推理過程中額外的內存和計算工作為代價的。特別是,對于移動設備和電池驅動設備的推理,以及在成本意識較強的環境下,稀疏模型表示可以帶來巨大的節省。具體地說,稀疏模型更容易存儲,并且常常節省計算量。此外,過度參數化的模型往往會過度擬合數據,并降低泛化到看不見的例子。緊跟著Occam 's razor,稀疏化也可以看作是某種形式的正則化,可以通過有效降低模型中的噪聲來提高模型質量。具體來說,最小描述長度框架提供了一個具有貝葉斯解釋和數據壓縮清晰解釋的吸引人的公式[Grünwald 2007],我們稍后會討論。
許多工作,特別是老的工作,集中在通過稀疏化改進泛化。早期的研究[Mozer和Smolensky 1988]關注的是具有數十到數百個參數的模型,也說明了它們的簡化版本有更好的可解釋性。然而,隨著今天的模型使用數百萬或數十億個參數,稀疏性是否會顯著提高可解釋性和可解釋性就有待觀察了。Bartoldson等人[2020]最近的工作將剪枝作為“噪聲”,類似于dropout或數據增強來解釋泛化。其他近期的研究發現,稀疏性可以提高對抗對抗攻擊的魯棒性[Cosentino et al. 2019; Gopalakrishnan et al. 2018; Guo et al. 2018; Madaan et al. 2020; Rakin et al. 2020; Sehwag et al. 2020; Verdenius et al. 2020]。
最近,一組更大的工作集中在提高計算效率的同時保持模型的精度。現代網絡在計算上的使用是昂貴的——例如,Inception-V3 [Szegedy等人2016],一個最先進的目標識別網絡,需要57億次算術運算和2700萬個參數進行評估;GPT-3 [Brown et al. 2020],一種最先進的自然語言處理網絡的實驗狀態需要1750億個參數(350 GiB,假設每個參數16位)來評估。此外,訓練這樣的深度神經模型變得越來越昂貴,而且最大的語言模型已經需要超級計算機進行訓練,每次訓練可能要花費數百萬美元[Brown等人2020]。因此,研究訓練過程中的稀疏性對于管理訓練成本是非常重要的。
我們綜述的結果表明,今天的稀疏化方法可以導致模型尺寸減少10-100倍,并在計算、存儲和能源效率方面獲得相應的理論收益,而不會顯著降低精度。如果這些加速是在高效的硬件實現中實現的,那么所獲得的性能可能會導致一個階段的變化,使更復雜的、可能是革命性的任務得到實際解決。此外,我們還觀察到,在稀疏化方法方面的進展速度正在加快,因此,即使在我們編寫本論文的最后幾個月里,也發表了一些改進現有技術的新方法。
我們的目標是總結現有的技術,并且在第2-5節首先關注設計模型的純定性方面。然后,在第6節和第7節中,我們將解釋實現這些設計組合的架構選擇,包括性能結果。
關系數據中的表示學習和鏈接預測算法大多是針對靜態數據設計的。然而,它們所應用的數據通常會隨著時間的推移而變化,比如社交網絡中的朋友圖,或者推薦系統中的用戶與條目的交互。這也是知識庫的情況,其中包含的事實,如(美國,有總統,B.奧巴馬,[2009-2017]),只是在特定的時間點有效。對于時間約束下的鏈路預測問題,即,回答諸如(US, has president, ?, 2012)之類的問題時,我們提出了一個受4階張量的正則分解啟發的解決方案。我們引入了新的正則化方案,并提出了一個復雜的擴展(Trouillon et al., 2016),實現了最先進的性能。此外,我們還提出了一個新的Wikidata構建的知識庫完成數據集,比以前的基準要大一個數量級,作為評估時間和非時間鏈接預測方法的新參考。