模型復雜性是深度學習的一個基本問題。
本文對深度學習中模型復雜性的最新研究進行了系統的綜述。深度學習的模型復雜度可分為表達能力和有效模型復雜度。
從模型框架、模型規模、優化過程和數據復雜性四個方面回顧了現有的研究成果。我們還討論了深度學習模型復雜性的應用,包括理解模型泛化能力、模型優化、模型選擇和設計。
最后,我們提出幾個有趣的未來方向。
//www.zhuanzhi.ai/paper/f7c683dfd6eb2f07eba0ed31d337345c
引言
主要由于其優越的性能,深度學習在許多應用中具有破壞性,如計算機視覺[40]、自然語言處理[55]和計算金融[91]。然而,與此同時,關于深度學習模型的一系列基本問題仍然存在,如為什么深度學習的表達能力比經典機器學習模型有很大提高,如何理解和量化深度模型的泛化能力,如何理解和改進優化過程等。深度學習的模型復雜性是一個核心問題,與許多基礎性問題有關。
深度學習的模型復雜性關注的是,對于某種深度學習體系結構,深度學習模型能夠表達多復雜的問題[15,44,70,89]。理解深度模型的復雜性是準確理解模型的能力和局限性的關鍵。探索模型復雜性不僅是理解深度模型本身的必要條件,也是研究許多其他相關基本問題的必要條件。例如,從統計學習理論的觀點來看,利用模型的表達能力來限制泛化誤差[69]。最近一些研究提出了基于范數的模型復雜度[60]和基于靈敏度的模型復雜度[76,81]來探討深度模型的泛化能力。此外,在訓練過程中檢測模型復雜性的變化可以為理解和提高模型優化和正則化的性能提供見解[44,74,89]。
對機器學習模型復雜性的研究可以追溯到幾十年前。20世紀90年代的一系列早期研究討論了經典機器學習模型的復雜性[16,20,21,98]。其中具有代表性的模型是決策樹[19],其復雜性總是通過樹的深度[20]和葉節點數量[16]來度量的。模型復雜性分析的另一個常見課題是邏輯回歸,它是大量參數化模型的基礎。從Vapnik-Chervonenicks理論[26,96]、Rademacher復雜性[46]、Fisher信息矩陣[21]和[6]模型的razor等角度研究logistic回歸模型的復雜性。在這里,模型剃刀是一個理論指標,比較一個參數模型家族的真實分布的復雜性。然而,深度學習模型與幾十年前討論的經典機器學習模型有很大的不同[70]。經典機器學習模型的復雜性分析不能直接應用或直接推廣到深度模型。
近年來,深度學習中的模型復雜性受到了越來越多的關注[13,60,70,78,81,89]。然而,據我們所知,目前還沒有關于深度學習中模型復雜性的研究。缺乏對這一新興和重要課題的調研促使我們對最新研究進行調查。在本文中,我們交替使用術語“深度學習模型”和“深度神經網絡”。幾十年前就有大量關于經典機器學習模型復雜性的研究,優秀的研究綜述了這些研究[20,21,61,93]。在本節中,我們將非常簡要地回顧幾個典型模型的復雜性,包括決策樹、邏輯回歸和貝葉斯網絡模型。討論了深度神經網絡的模型復雜度與其他模型的不同之處。
深度學習模型在結構上與傳統的機器學習模型不同,具有更多的參數。深度學習模型總是比傳統模型復雜得多。因此,以往對傳統機器學習模型的復雜性建模方法不能直接應用于深度學習模型,以獲得有效的復雜性測度。例如,用樹的深度[20,98]和葉節點數[16,61]來衡量決策樹的復雜性顯然不適用于深度學習模型。通過[46]可訓練參數的數量來衡量模型的復雜性對深度學習模型的影響非常有限,因為深度學習模型往往過于參數化。
本次綜述的其余部分組織如下。
在第2節中,我們介紹了深度學習模型的復雜性以及這兩類模型的表達能力和有效模型復雜性。
在第3節中,我們回顧了關于深度學習模型表達能力的現有研究。
在第4節中,我們綜述了關于深度學習模型有效復雜性的現有研究。
在第5節中,我們將討論深度學習模型復雜性的應用。
在第6節中,我們總結了這一研究并討論了一些未來的方向。
深度學習在許多應用中具有破壞性,主要是由于其優越的性能。與此同時,關于深度學習的許多基本問題仍未得到解答。深度神經網絡的模型復雜度就是其中之一。模型復雜性是指一個深度模型能夠表達的問題有多復雜,以及具有給定參數的模型的函數有多非線性和復雜。
在機器學習、數據挖掘和深度學習中,模型復雜性一直是一個重要的基本問題。模型復雜度影響模型對特定問題和數據的可學習性,也影響模型對未知數據的泛化能力。此外,學習模型的復雜性不僅受到模型體系結構本身的影響,還受到數據分布、數據復雜性和信息量的影響。近年來,模型復雜性已成為一個越來越活躍的方向,并在模型體系結構搜索、圖表示、泛化研究和模型壓縮等許多領域發展了理論指導意義。
我們提出這個教程來概述關于深度學習模型復雜性的最新研究。本文將模型復雜性研究分為模型表達能力和有效模型復雜性兩個方向,并對這兩個方向的最新進展進行了綜述。此外,我們還介紹了深度學習模型復雜性的一些應用實例,以說明其實用性。
目錄內容:
Part 1: 深度學習模型復雜度 Deep Learning Model Complexity
Part 2: 表示容量 Expressive Capacity
Part 3: 有效性復雜度 Effective Complexity
Part 4: 應用實例 Application Examples
Part 5: Conclusion
人工神經網絡在解決特定剛性任務的分類問題時,通過不同訓練階段的廣義學習行為獲取知識。由此產生的網絡類似于一個靜態的知識實體,努力擴展這種知識而不針對最初的任務,從而導致災難性的遺忘。
持續學習將這種范式轉變為可以在不同任務上持續積累知識的網絡,而不需要從頭開始再訓練。我們關注任務增量分類,即任務按順序到達,并由清晰的邊界劃分。我們的主要貢獻包括:
(1) 對持續學習技術的分類和廣泛的概述;
(2) 一個持續學習器穩定性-可塑性權衡的新框架;
(3) 對11種最先進的持續學習方法和4條基準進行綜合實驗比較。
考慮到微型Imagenet和大規模不平衡的非自然主義者以及一系列識別數據集,我們以經驗的方式在三個基準上仔細檢查方法的優缺點。我們研究了模型容量、權重衰減和衰減正則化的影響,以及任務呈現的順序,并從所需內存、計算時間和存儲空間等方面定性比較了各種方法。
//www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f
引言
近年來,據報道,機器學習模型在個人任務上表現出甚至超過人類水平的表現,如雅達利游戲[1]或物體識別[2]。雖然這些結果令人印象深刻,但它們是在靜態模型無法適應其行為的情況下獲得的。因此,這需要在每次有新數據可用時重新啟動訓練過程。在我們的動態世界中,這種做法對于數據流來說很快就變得難以處理,或者可能由于存儲限制或隱私問題而只能暫時可用。這就需要不斷適應和不斷學習的系統。人類的認知就是這樣一個系統的例證,它具有順序學習概念的傾向。通過觀察例子來重新審視舊的概念可能會發生,但對保存這些知識來說并不是必要的,而且盡管人類可能會逐漸忘記舊的信息,但完全丟失以前的知識很少被證明是[3]。相比之下,人工神經網絡則不能以這種方式學習:在學習新概念時,它們會遭遇對舊概念的災難性遺忘。為了規避這一問題,人工神經網絡的研究主要集中在靜態任務上,通常通過重組數據來確保i.i.d.條件,并通過在多個時期重新訪問訓練數據來大幅提高性能。
持續學習研究從無窮無盡的數據流中學習的問題,其目標是逐步擴展已獲得的知識,并將其用于未來[4]的學習。數據可以來自于變化的輸入域(例如,不同的成像條件),也可以與不同的任務相關聯(例如,細粒度的分類問題)。持續學習也被稱為終身學習[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,順序學習[10],[11],[12]或增量學習[13],[14],[15],[16],[17],[18],[19]。主要的標準是學習過程的順序性質,只有一小部分輸入數據來自一個或幾個任務,一次可用。主要的挑戰是在不發生災難性遺忘的情況下進行學習:當添加新的任務或域時,之前學習的任務或域的性能不會隨著時間的推移而顯著下降。這是神經網絡中一個更普遍的問題[20]的直接結果,即穩定性-可塑性困境,可塑性指的是整合新知識的能力,以及在編碼時保持原有知識的穩定性。這是一個具有挑戰性的問題,不斷學習的進展使得現實世界的應用開始出現[21]、[22]、[23]。
為了集中注意力,我們用兩種方式限制了我們的研究范圍。首先,我們只考慮任務增量設置,其中數據按順序分批到達,一個批對應一個任務,例如要學習的一組新類別。換句話說,我們假設對于一個給定的任務,所有的數據都可以同時用于離線訓練。這使得對所有訓練數據進行多個時期的學習成為可能,反復洗刷以確保i.i.d.的條件。重要的是,無法訪問以前或將來任務的數據。在此設置中優化新任務將導致災難性的遺忘,舊任務的性能將顯著下降,除非采取特殊措施。這些措施在不同情況下的有效性,正是本文所要探討的。此外,任務增量學習將范圍限制為一個多頭配置,每個任務都有一個獨占的輸出層或頭。這與所有任務共享一個頭的更有挑戰性的類增量設置相反。這在學習中引入了額外的干擾,增加了可供選擇的輸出節點的數量。相反,我們假設已知一個給定的樣本屬于哪個任務。
其次,我們只關注分類問題,因為分類可以說是人工神經網絡最既定的任務之一,使用相對簡單、標準和易于理解的網絡體系結構具有良好的性能。第2節對設置進行了更詳細的描述,第7節討論了處理更一般設置的開放問題。
深度學習技術的發展使得神經機器翻譯(NMT)模型在充分的訓練數據和訓練時間下變得極為強大。
然而,系統在翻譯具有獨特風格或詞匯的新領域的文本時會遇到困難。對具有代表性的訓練語料庫進行調優可以實現良好的域內翻譯,但這種以數據為中心的方法可能會導致對新數據的過度擬合和對之前學習過的行為的“災難性遺忘”。
我們將重點放在更為魯棒的領域適應方法上,特別是在一個系統可能需要翻譯多個領域的句子的情況下。我們將技術分為數據選擇技術、模型結構技術、參數自適應技術和推理技術。
最后,我們強調了領域適應和多領域適應技術對其他學科的研究的好處。
深度學習不斷增長的能源耗費和性能成本,促使社區通過選擇性修剪組件來減少神經網絡的規模。與生物學上的相似之處是,稀疏網絡即使不能比原來的密集網絡更好,也能得到同樣好的推廣。稀疏性可以減少常規網絡的內存占用,以適應移動設備,也可以縮短不斷增長的網絡的訓練時間。在本文中,我們調研了深度學習中的稀疏性之前的工作,并為推理和訓練提供了一個廣泛的稀疏化教程。我們描述了去除和添加神經網絡元素的方法,實現模型稀疏性的不同訓練策略,以及在實踐中利用稀疏性的機制。我們的工作從300多篇研究論文中提煉思想,并為希望利用稀疏性的實踐者提供指導,以及為目標是推動前沿發展的研究人員提供指導。我們在稀疏化中包括必要的數學方法背景,描述諸如早期結構適應、稀疏性和訓練過程之間的復雜關系等現象,并展示在真實硬件上實現加速的技術。我們還定義了一個修剪參數效率的度量,可以作為不同稀疏網絡比較的基線。最后,我們推測稀疏性如何改善未來的工作,并概述該領域的主要開放問題。
在計算機視覺、自然語言處理、知識表示、推薦系統、藥物發現等領域,深度學習在解決非常復雜的現實世界問題方面展現了無與倫比的前景。隨著這一發展,機器學習領域正從傳統的特征工程向神經結構工程發展。然而,對于如何選擇正確的架構來解決特定的任務,我們仍然知之甚少。在模型設計中,采用了卷積層中的平移等方差、遞歸、結構權重共享、池化或局部化等方法來引入強歸納偏差。然而,任務所需的精確模型大小和容量仍然未知,一個常見的策略是訓練過度參數化的模型,并將它們壓縮成更小的表示。
生物的大腦,特別是人類的大腦,是分層的、稀疏的和周期性的結構[Friston 2008],我們可以得出一些類似于今天人工神經網絡中的歸納偏差。稀疏性在生物大腦的縮放中扮演著重要的角色——大腦的神經元越多,大腦就越稀疏[Herculano-Houzel et al. 2010]。此外,研究表明,人類的大腦開始稀疏,在大量修剪之后有一個致密化的早期階段,然后保持在一個相對穩定的稀疏水平。然而,即使是完全發育成熟的大腦,每天也會改變多達40%的突觸[Hawkins 2017]。許多今天的工程修剪技術具有直觀的生物學類比,我們將在整篇文章中提到并在第8節討論。然而,計算基質(生物組織和CMOS)導致了非常不同的限制。
人工深度學習模型傳統上是密集和過度參數化的,有時甚至可以記憶數據中的隨機模式[Zhang et al. 2017],或者95%的參數可以從剩余的5%中預測出來[Denil et al. 2014]。這可能與經驗證據有關,表明使用隨機梯度下降(SGD)訓練過度參數化模型比使用更緊湊的表示更容易Glorot et al. 2011a; Kaplan et al. 2020; Li et al. 2020a; Mhaskar and Poggio 2016]. Brutzkus et al. [2017] 和Du et al. [2019]表明,這種梯度下降技術可證明以良好的泛化最優地訓練(淺)過參數化網絡。具體來說,他們指出,過度參數化會導致一種強大的“類凸性”,這有利于梯度下降的收斂性。最近的理論結果[Allen-Zhu et al. 2019; Neyshabur et al. 2018]似乎支持這些發現,并指出訓練動力學和泛化依賴于過度參數化。
這種過度參數化是以模型訓練和推理過程中額外的內存和計算工作為代價的。特別是,對于移動設備和電池驅動設備的推理,以及在成本意識較強的環境下,稀疏模型表示可以帶來巨大的節省。具體地說,稀疏模型更容易存儲,并且常常節省計算量。此外,過度參數化的模型往往會過度擬合數據,并降低泛化到看不見的例子。緊跟著Occam 's razor,稀疏化也可以看作是某種形式的正則化,可以通過有效降低模型中的噪聲來提高模型質量。具體來說,最小描述長度框架提供了一個具有貝葉斯解釋和數據壓縮清晰解釋的吸引人的公式[Grünwald 2007],我們稍后會討論。
許多工作,特別是老的工作,集中在通過稀疏化改進泛化。早期的研究[Mozer和Smolensky 1988]關注的是具有數十到數百個參數的模型,也說明了它們的簡化版本有更好的可解釋性。然而,隨著今天的模型使用數百萬或數十億個參數,稀疏性是否會顯著提高可解釋性和可解釋性就有待觀察了。Bartoldson等人[2020]最近的工作將剪枝作為“噪聲”,類似于dropout或數據增強來解釋泛化。其他近期的研究發現,稀疏性可以提高對抗對抗攻擊的魯棒性[Cosentino et al. 2019; Gopalakrishnan et al. 2018; Guo et al. 2018; Madaan et al. 2020; Rakin et al. 2020; Sehwag et al. 2020; Verdenius et al. 2020]。
最近,一組更大的工作集中在提高計算效率的同時保持模型的精度。現代網絡在計算上的使用是昂貴的——例如,Inception-V3 [Szegedy等人2016],一個最先進的目標識別網絡,需要57億次算術運算和2700萬個參數進行評估;GPT-3 [Brown et al. 2020],一種最先進的自然語言處理網絡的實驗狀態需要1750億個參數(350 GiB,假設每個參數16位)來評估。此外,訓練這樣的深度神經模型變得越來越昂貴,而且最大的語言模型已經需要超級計算機進行訓練,每次訓練可能要花費數百萬美元[Brown等人2020]。因此,研究訓練過程中的稀疏性對于管理訓練成本是非常重要的。
我們綜述的結果表明,今天的稀疏化方法可以導致模型尺寸減少10-100倍,并在計算、存儲和能源效率方面獲得相應的理論收益,而不會顯著降低精度。如果這些加速是在高效的硬件實現中實現的,那么所獲得的性能可能會導致一個階段的變化,使更復雜的、可能是革命性的任務得到實際解決。此外,我們還觀察到,在稀疏化方法方面的進展速度正在加快,因此,即使在我們編寫本論文的最后幾個月里,也發表了一些改進現有技術的新方法。
我們的目標是總結現有的技術,并且在第2-5節首先關注設計模型的純定性方面。然后,在第6節和第7節中,我們將解釋實現這些設計組合的架構選擇,包括性能結果。
深度學習通常被描述為一個實驗驅動的領域,并不斷受到缺乏理論基礎的批評。這個問題已經部分地被大量的文獻解決了,這些文獻至今沒有被很好地組織起來。本文對深度學習理論的最新進展進行了綜述和整理。文獻可分為六類: (1)基于模型復雜度和容量的深度學習泛化; (2)用于建模隨機梯度下降及其變量的隨機微分方程及其動力學系統,其特征是深度學習的優化和泛化,部分受到貝葉斯推理啟發; (3)驅動動力系統軌跡的損失的幾何結構; (4)深度神經網絡的過參數化從積極和消極兩個方面的作用; (5)網絡架構中幾種特殊結構的理論基礎; (6)對倫理和安全及其與普遍性的關系的日益關注。
//arxiv.org/pdf/2012.10931.pdf
概述
深度學習可以廣義定義為使用人工神經網絡從經驗中發現知識以進行預測或決策的一系列算法[138]。經驗的規范形式可以是人類注解的電子記錄作為數據集,也可以是學習者或電子環境之間的交互作用,取決于場景[169]。在深度學習中,一般的人工神經網絡通常是把一個由非線性激活函數組成的序列的權值矩陣連接成一個網絡,這種網絡具有相當大的參數大小。
深度學習的術語是由Dechter[62]引入機器學習,然后由Aizenberg等人[5]引入腦啟發算法,其中幾個主要概念可以追溯到20世紀40年代早期。深度學習的研究在20世紀40 - 60年代[162,111,199]和80 - 90年代[201]經歷了兩次上升后下降。第三次和當前的浪潮開始于2006年[24,114,196],一直持續到現在。最近的浪潮已經從本質上重塑了許多真實世界的應用領域,包括計算機視覺[110]、自然語言處理[63,184]、語音處理[64]、3D點云處理[98]、數據挖掘[232]、推薦系統[247]、自動駕駛汽車[152,215]、醫療診斷[135,209]和藥物發現[43]。
然而,到目前為止,深度學習的發展嚴重依賴實驗,缺乏堅實的理論基礎。深度學習機制的許多方面仍然是未知的。我們不斷地驚訝地發現啟發式方法可以在廣泛的領域實現出色的性能,盡管有時也相當不穩定。與此同時,直覺方法往往未被證實,甚至未被驗證。這種做法是可以容忍的,并且在深度學習研究中已經變得普遍。這種黑盒特性給深度學習應用帶來了未知的風險。這種不了解在很大程度上削弱了我們識別、管理和預防算法導致的災難的能力,并進一步嚴重損害了我們將最近的進展應用于許多工業部門的信心,特別是在安全關鍵領域,如自動駕駛汽車、醫療診斷和藥物發現。這也對深度學習算法設計的未來發展產生了沖擊。
理論基礎的一個主要部分是泛化,泛化是指通過深度學習算法對未見數據進行預測,在訓練數據上訓練好的模型的能力[224,169]。由于訓練數據不能覆蓋未來的所有情況,良好的泛化性保證了所學的模型能夠處理未知事件。在長尾事件經常出現并有可能造成致命災難的地方,這一點尤其重要。
統計學習理論建立了基于假設復雜度的泛化理論[224,169]。這些工具能解決深度學習理論中的問題嗎?答案是否定的。傳統工具通常根據假設復雜度構建泛化邊界,如vc維[28,223]、Rademacher復雜度[130,129,21]和覆蓋數[73,104]。在經典的結果中,這些復雜性很大程度上依賴于模型的大小。這就引入了奧卡姆剃刀原理:
如無必要,勿增實體
即,只要模型能夠擬合訓練樣本,就需要找到一個足夠小的模型來防止過擬合。然而,深度學習模型通常具有非常大的模型規模,這有時會使泛化界甚至大于損失函數的潛在最大值。此外,根據Occam 's razor原理,可泛化性與模型大小之間存在正相關關系,而這在深度學習中已經不存在了。相比之下,更深更廣的網絡往往具有優越的性能[38]。深度學習卓越的泛化能力與其極端的過參數化之間的矛盾,就像傳統復雜學習理論的一朵“云”。
早期的工作試圖建立深度學習的理論基礎[172,90,22,20,23,158,11],但很大程度上由于深度學習研究的廣泛發展而停滯不前。
最近的研究始于Zhang等人在2017年的工作[244]。作者進行了系統的實驗來探索深度神經網絡的泛化能力。他們表明,即使訓練標簽是隨機的,神經網絡也能幾乎完美地擬合訓練數據。如何從理論上解釋深度神經網絡的成功,是學習理論界關注的一個重要話題。Kawaguchi等人[122]討論了許多關于深度神經網絡在容量大、復雜性、算法可能不穩定、非魯棒性和極小值尖銳的情況下仍具有出色泛化能力的開放問題。作者也提出了一些解決問題的見解。從那時起,深度學習理論的重要性得到了廣泛的認識。大量文獻的出現建立了深度學習的理論基礎。在本文中,我們回顧了相關文獻,并將其歸納為以下六類:
**基于復雜度和容量的方法分析深度學習泛化性。**傳統的統計學習理論根據假設空間的復雜度,建立了一系列泛化誤差(泛化界)的上界,如vc維[28,223],Rademacher復雜度[130,129,21],覆蓋數[73,104]。通常,這些泛化范圍明確地依賴于模型的大小。他們認為,控制模型的大小可以幫助模型更好地泛化。然而,深度學習模型龐大的模型規模也使得泛化范圍顯得空洞。因此,如果我們能夠開發出大小無關的假設復雜度度量和泛化邊界是非常值得期待的。一種有前景的方法是刻畫深度學習中可以學習的“有效”假設空間的復雜性。有效假設空間可以明顯小于整個假設空間。因此,我們可以期望得到一個小得多的泛化保證。
**隨機梯度下降(SGD)及其變體模型的隨機偏微分方程(SDE)在深度學習優化算法中占主導地位。**這些SDEs的動態系統決定了訓練神經網絡中權值的軌跡,其穩定分布代表了學習網絡。通過SDEs及其動力學,許多工作為深度學習的優化和泛化提供了保障。“有效”假設空間正是“SGD能找到的”假設空間。因此,通過SGD研究深度學習的普遍性將是直接的。此外,這一系列的方法部分受到貝葉斯推斷的啟發。這與前面的變異推斷相似,后者以優化的方式解決了貝葉斯推斷,以解決縮放問題。這種隨機梯度方法和貝葉斯推斷之間的相互作用將有助于這兩個領域的發展。
**高度復雜的經驗風險曲面的幾何結構驅動動態系統的軌跡。**損失曲面觀的幾何形狀在驅動SDEs的軌跡方面起著重要作用:(1)損失的導數是SDEs的組成部分;(2)損失作為SDEs的邊界條件。因此,理解損失面是建立深度學習理論基礎的關鍵一步。通常,“正則化”問題的可學習性和優化能力是有保證的。1“正則化”可以用許多術語來描述,包括凸性、李普希茨連續性和可微性。然而,在深度學習中,這些因素不再得到保障,至少不是很明顯。神經網絡通常由大量的非線性激活組成。激活過程中的非線性使得損失曲面極其不光滑和非凸。所建立的凸優化保證失效。損失曲面令人望而卻步的復雜性,使社區長時間難以接觸到損失曲面的幾何形狀,甚至深度學習理論。然而,損失面復雜的幾何形狀恰恰表征了深度學習的行為。通過損失曲面是理解深度學習的“捷徑”。
深度神經網絡的過參數化作用。 過度參數化通常被認為是通過基于復雜性的方法為深度學習開發有意義的泛化邊界的主要障礙。然而,最近的研究表明,過度參數化將對塑造深度學習的損失曲面做出主要貢獻——使損失曲面更加光滑,甚至“類似”凸。此外,許多研究也證明了神經網絡在極端過參數化情況下與一些更簡單的模型(如高斯核)等效。
**網絡架構中幾種特殊結構的理論基礎。**在前面的綜述中,我們主要關注的結果一般代表所有的神經網絡。同時,深度神經網絡的設計涉及到許多特殊的技術。這些結構也對深度學習的卓越性能做出了重要貢獻。我們回顧了卷積神經網絡、遞歸神經網絡和置換不變/等變函數網絡的理論成果。
**深入關注倫理和安全以及它們與深度學習理論的關系。**深度學習已經被部署在越來越廣泛的應用領域。其中一些涉及高度隱私的個人數據,如手機上的圖像和視頻、健康數據和最終記錄。其他一些場景可能需要深度學習來提供高度敏感的決策,比如抵押貸款審批、大學入學和信用評估。此外,研究表明,深度學習模型容易受到對抗性例子的攻擊。如何保護深度學習系統免受隱私保護、公平保護和對抗攻擊等方面的破壞是非常重要的。
本文結構
本文綜述了深度學習理論基礎研究的最新進展。我們承認有一些論文回顧了深度學習理論。Alom等人[9]對深度學習中使用的技術進行了調查。Sun[214]綜述了深度學習中的優化理論。E等人[81]總結了深度學習中最優化的近似和ademacher復雜性、損失面以及收斂和隱式正則化相關的結果和挑戰。我們的調查是最全面的。我們以獨特的視角組織文獻,并為未來的作品提供新的見解。
深度學習的極好的泛化性就像傳統復雜學習理論的“云”:深度學習的過度參數化使得幾乎所有現有的工具都變得空洞。現有的工作試圖通過三個主要途徑來解決這一問題: (1)開發大小無關的復雜性測度,它可以表征可學習的“有效”假設空間的復雜性,而不是整個假設空間。第二節討論了相關工作; (2) 基于隨機微分函數和相關損失函數的幾何性質,利用深度學習中占主導地位的優化器隨機梯度方法對所學假設進行建模。有關的工作在第3及4節檢討; (3) 過度參數化出人意料地為損失函數帶來了許多良好的性質,進一步保證了優化和泛化性能。相關工作在第5節中給出。與此同時,第6節回顧了網絡體系結構特殊結構的理論基礎。
機器學習的另一個重要方面是對道德和安全問題的日益關注,包括隱私保護、對抗魯棒性和公平保護。具體地說,隱私保護和對抗魯棒性與可泛化性密切相關:泛化性好通常意味著隱私保護能力強;更穩健的算法可能會有。本文還討論了在深度學習場景中,如何理解這些問題之間的相互作用。相關工作將在第7節討論。
通過人工神經網絡等獲得的預測具有很高的準確性,但人類經常將這些模型視為黑盒子。對于人類來說,關于決策制定的洞察大多是不透明的。在醫療保健或金融等高度敏感領域,對決策的理解至關重要。黑盒子背后的決策要求它對人類來說更加透明、可問責和可理解。這篇綜述論文提供了基本的定義,概述了可解釋監督機器學習(SML)的不同原理和方法。我們進行了最先進的綜述,回顧過去和最近可解釋的SML方法,并根據介紹的定義對它們進行分類。最后,我們通過一個解釋性的案例研究來說明原則,并討論未來的重要方向。
//www.zhuanzhi.ai/paper/d34a1111c1ab9ea312570ae8e011903c
目前人工智能(AI)模型的準確性是顯著的,但準確性并不是最重要的唯一方面。對于高風險的領域,對模型和輸出的詳細理解也很重要。底層的機器學習和深度學習算法構建的復雜模型對人類來說是不透明的。Holzinger等人(2019b)指出,醫學領域是人工智能面臨的最大挑戰之一。對于像醫療這樣的領域,深刻理解人工智能的應用是至關重要的,對可解釋人工智能(XAI)的需求是顯而易見的。
可解釋性在許多領域很重要,但不是在所有領域。我們已經提到了可解釋性很重要的領域,例如衛生保健。在其他領域,比如飛機碰撞避免,算法多年來一直在沒有人工交互的情況下運行,也沒有給出解釋。當存在某種程度的不完整時,需要可解釋性。可以肯定的是,不完整性不能與不確定性混淆。不確定性指的是可以通過數學模型形式化和處理的東西。另一方面,不完全性意味著關于問題的某些東西不能充分編碼到模型中(Doshi-Velez和Kim(2017))。例如,刑事風險評估工具應該是公正的,它也應該符合人類的公平和道德觀念。但倫理學是一個很寬泛的領域,它是主觀的,很難正式化。相比之下,飛機避免碰撞是一個很容易理解的問題,也可以被精確地描述。如果一個系統能夠很好地避免碰撞,就不用再擔心它了。不需要解釋。
本文詳細介紹了可解釋SML的定義,并為該領域中各種方法的分類奠定了基礎。我們區分了各種問題定義,將可解釋監督學習領域分為可解釋模型、代理模型擬合和解釋生成。可解釋模型的定義關注于自然實現的或通過使用設計原則強制實現的整個模型理解。代理模型擬合方法近似基于黑盒的局部或全局可解釋模型。解釋生成過程直接產生一種解釋,區分局部解釋和全局解釋。
綜上所述,本文的貢獻如下:
盡管它在機器學習中有重要的應用,非凸非凹目標的最小-最大優化仍然是難以實現的。不僅沒有已知的一階方法收斂甚至近似局部最小最大點,而且識別它們的計算復雜度也不為人所知。本文給出了非凸非凹目標和線性約束的約束最小-最優優化問題的計算復雜度,以及一階方法的局限性。
主動學習試圖在具有盡可能少標注樣本的同時最大化模型的性能增益。深度學習(Deep learning, DL)需要大量標注數據,如果模型要學習如何提取高質量的特征,就需要大量的數據供應來優化大量的參數。近年來,由于互聯網技術的飛速發展,我們進入了一個以海量可用數據為特征的信息豐富性時代。因此,DL得到了研究者的極大關注,并得到了迅速的發展。但與DL相比,研究者對AL的興趣相對較低,這主要是因為在DL興起之前,傳統機器學習需要的標記樣本相對較少,這意味著早期的AL很少被賦予應有的價值。雖然DL在各個領域都取得了突破,但大部分的成功都要歸功于大量公開的帶標注的數據集。然而,獲取大量高質量的帶注釋數據集需要耗費大量人力,在需要較高專業知識水平的領域(如語音識別、信息提取、醫學圖像等)是不可行的,因此AL逐漸得到了它應該得到的重視。
因此,研究是否可以使用AL來降低數據標注的成本,同時保留DL強大的學習能力是很自然的。由于這些調研的結果,深度主動學習(DAL)出現了。雖然對這一課題的研究相當豐富,但至今還沒有對相關著作進行全面的調研; 因此,本文旨在填補這一空白。我們為現有的工作提供了一個正式的分類方法,以及一個全面和系統的概述。此外,我們還從應用的角度對DAL的發展進行了分析和總結。最后,我們討論了與DAL相關的問題,并提出了一些可能的發展方向。
概述:
深度學習(DL)和主動學習(AL)在機器學習領域都有重要的應用。由于其優良的特性,近年來引起了廣泛的研究興趣。更具體地說,DL在各種具有挑戰性的任務上取得了前所未有的突破;然而,這很大程度上是由于大量標簽數據集的發表[16,87]。因此,在一些需要豐富知識的專業領域,樣品標注成本高限制了DL的發展。相比之下,一種有效的AL算法在理論上可以實現標注效率的指數加速。這將極大地節省數據標注成本。然而,經典的AL算法也難以處理高維數據[160]。因此,DL和AL的結合被稱為DAL,有望取得更好的效果。DAL被廣泛應用于多個領域,包括圖像識別[35,47,53,68],文本分類[145,180,185],視覺答題[98],目標檢測[3,39,121]等。雖然已經發表了豐富的相關工作,DAL仍然缺乏一個統一的分類框架。為了填補這一空白,在本文中,我們將全面概述現有的DAL相關工作,以及一種正式的分類方法。下面我們將簡要回顧DL和AL在各自領域的發展現狀。隨后,在第二節中,進一步闡述了DL與AL結合的必要性和挑戰。
圖1所示。DL、AL和DAL的典型體系結構比較。(a)一種常見的DL模型:卷積神經網絡。(b) 基于池化的AL框架: 使用查詢策略查詢未標記的樣本池U和將其交給oracle進行標注,然后將查詢樣本添加到標記的訓練數據集L,然后使用新學到的知識查詢的下一輪。重復此過程,直到標簽預算耗盡或達到預定義的終止條件。(c) DAL的一個典型例子:在標簽訓練集L0上初始化或預訓練DL模型的參數的常變量,利用未標記池U的樣本通過DL模型提取特征。然后根據相應的查詢策略選擇樣本,在查詢時對標簽進行查詢,形成新的標簽訓練集L,然后在L上訓練DL模型,同時更新U。重復此過程,直到標簽預算耗盡或達到預定義的終止條件。
DAL結合了DL和AL的共同優勢:它不僅繼承了DL處理高維圖像數據和自動提取特征的能力,也繼承了AL有效降低標注成本的潛力。因此,DAL具有令人著迷的潛力,特別是在標簽需要高水平的專業知識和難以獲得的領域。
圖在許多應用中被廣泛用于表示復雜數據,如電子商務、社交網絡和生物信息學。高效、有效地分析圖數據對于基于圖的應用程序非常重要。然而,大多數圖分析任務是組合優化(CO)問題,這是NP困難。最近的研究集中在使用機器學習(ML)解決基于圖CO問題的潛力上。使用基于ML的CO方法,一個圖必須用數值向量表示,這被稱為圖嵌入。在這個調查中,我們提供了一個全面的概述,最近的圖嵌入方法已經被用來解決CO問題。大多數圖嵌入方法有兩個階段:圖預處理和ML模型學習。本文從圖預處理任務和ML模型的角度對圖嵌入工作進行分類。此外,本文還總結了利用圖嵌入的基于圖的CO方法。特別是,圖嵌入可以被用作分類技術的一部分,也可以與搜索方法相結合來尋找CO問題的解決方案。最后對未來的研究方向做了一些評論。
在本章中,我們將訪問圖神經網絡(GNNs)的一些理論基礎。GNNs最有趣的方面之一是,它們是根據不同的理論動機獨立開發的。一方面,基于圖信號處理理論開發了GNN,將歐氏卷積推廣到非歐氏圖域[Bruna et al., 2014]。然而,與此同時,神經信息傳遞方法(構成了大多數現代GNN的基礎)被類比提出,用于圖模型中的概率推理的信息傳遞算法[Dai等人,2016]。最后,基于GNN與weisfeler - lehman圖同構檢驗的聯系,許多研究對其進行了激發[Hamilton et al., 2017b]。
將三個不同的領域匯聚成一個單一的算法框架是值得注意的。也就是說,這三種理論動機中的每一種都有其自身的直覺和歷史,而人們所采用的視角可以對模型的發展產生實質性的影響。事實上,我們推遲對這些理論動機的描述直到引入GNN模型本身之后,這并非偶然。在這一章,我們的目標是介紹這些背后的關鍵思想不同理論的動機,這樣一個感興趣的讀者可以自由探索和組合這些直覺和動機,因為他們認為合適的。