蒸汽機為工業革命提供了動力,并永遠地改變了制造業——但直到接下來的一個世紀,熱力學定律和統計力學原理得到發展,科學家們才能夠在理論層面上全面解釋蒸汽機為何以及如何工作。
當然,缺乏理論理解并沒有阻止人們對蒸汽機的改進,但是熱機原理的發現導致了迅速的改進。當科學家們最終掌握了統計力學,其結果遠遠超出了制造更好、更高效的發動機。統計力學使人們認識到物質是由原子構成的,它預示了量子力學的發展,(如果你從整體上看)甚至使我們看到了為我們今天使用的計算機提供動力的晶體管。
如今,人工智能正處于類似的關頭。深度神經網絡(DNNs)是現代人工智能研究的一部分,但它們或多或少被視為一個“黑盒子”。盡管人工智能從業者取得了重大進展,但DNN通常被認為過于復雜,無法從基本原理理解。模型在很大程度上是通過反復試驗來調整的——雖然反復試驗可以通過多年的經驗來明智地進行,但卻沒有任何統一的理論語言來描述DNN及其功能。
《深度學習理論原理:理解神經網絡的有效理論方法》的新書出版,該研究由Facebook AI Research的Sho Yaida、麻省理工學院和Salesforce的Dan Roberts以及普林斯頓的Boris Hanin共同完成。作為一個基本的層面,這本書提供了一個從第一原則理解DNNs的理論框架。對于人工智能從業者來說,這種理解可以顯著減少訓練這些DNN所需的試錯次數。例如,它可以揭示任何給定模型的最佳超參數,而不需要經過今天所需要的時間和計算密集的實驗。
《深度學習理論原理》將于2022年初由劍橋大學出版社出版,手稿現已公開。斯坦福大學物理學教授伊娃·西爾弗斯坦(Eva Silverstein)說:“這本書提出了一種機器學習理論方法。”看到這些方法在理解和改進人工智能方面取得的進展將是令人興奮的。
這只是重塑人工智能科學這一更大項目的第一步,這一項目既源自基本原理,同時也專注于描述現實模型的實際工作方式。如果成功,這種深度學習的一般理論可能會使人工智能模型更加強大,甚至可能引導我們建立一個研究通用智能方面的框架。
在過去的十年里,我們見證了深度學習的無數驚人成功。盡管取得了許多成功,但我們可能正在再次攀登通脹預期的高峰。如果在過去,錯誤的解決方法是把計算能力扔到問題上,那么今天我們試著把數據扔進去。這種行為在少數大企業中引發了一場贏者通吃的數據爭奪戰,引發了人們對隱私和權力集中的擔憂。然而,我們知道一個事實,從更少的樣本中學習是可能的:人類表現出了比我們目前最先進的人工智能更好的泛化能力。為了達到這種需要的泛化能力,我們必須更好地了解學習是如何在深度神經網絡中發生的。現代機器學習的實踐已經超過了它的理論發展,深度學習模型具有當前機器學習理論無法預測的泛化能力。目前還沒有建立新的學習理論來處理這個問題。2015年Naftali Tishby和Noga Zaslavsky在瓶頸原理的信息理論概念基礎上發表了一篇開創性的學習理論。本文旨在研究利用信息瓶頸原理來解釋深度神經網絡的泛化能力的分散努力,并將它們整合到這個新的一般深度學習理論的綜合摘要中。
Facebook、普林斯頓大學和 MIT 的 AI 研究人員近日聯合出版了一份名為《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks(深度學習理論原理:理解神經網絡的一種有效理論方法)》的研究手稿,用來解釋深度學習實際工作原理的理論。
蒸汽機推動了工業革命的發生,并改變了制造業。然而,直到熱力學定律和統計力學原理的發展,科學家們才能夠在理論層面完全解釋蒸汽機的工作原理。
圖片
當然,缺乏理論知識并不能阻止人們對蒸汽機的改進,但是有了理論的指導為基礎,技術的發展將會更快。當科學家們最終掌握了統計力學時,其影響遠遠超出了制造更好、更高效的引擎。統計力學使人們認識到物質是由原子構成的,預示著量子力學的發展,如果從整體上看,這甚至促進了為計算機提供動力的晶體管的發展。
今天的人工智能也處于類似的關頭。DNN(深度神經網絡)是現代 AI 研究的重要組成部分,但它們的實現方式或多或少被視為「黑匣子」。雖然人工智能從業者對 DNN 的理解取得了實質性進展,但 DNN 通常被認為太復雜而無法從基本原理來理解。模型主要通過反復試錯進行微調——雖然試錯可以智能地進行,通常是根據多年的經驗,但它是在沒有任何統一的理論語言來描述 DNN 及其功能的情況下進行的。
近日,來自 Facebook 人工智能研究中心(FAIR)的科學家 Sho Yaida,麻省理工學院理論物理中心的研究員、Salesforce 的首席研究員 Dan Roberts 和普林斯頓的 Boris Hanin 合作,撰寫了一本關于如何從「第一性原理」來理解 DNN 的書籍《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks》。該書將于 2022 年初由劍橋大學出版社出版,手稿現在已經公開。
書籍地址: //www.zhuanzhi.ai/paper/29455b8c7149b1161238854bcd85251e
「第一性原理」理解 DNN
首先我們來簡單了解一下什么是「第一性原理」?
「第一性原理」指的是回歸事物最基本的條件,將其拆分成各要素進行解構分析,從而找到實現目標最優路徑的方法。
最早提出第一性原理思維的人是亞里士多德,他把它定義為「認知事物的第一基礎。」
許多偉大的思想家,包括發明家都使用了第一性原理的思考方法,但是沒有人比企業家伊隆 · 馬斯克更有效地深入思考第一性原理。這個詞的出圈也得益于馬斯克的助推。他曾在采訪中提到自己特別推崇第一性原理思考法。
書籍作者也是從「第一性原理」來理解 DNN 的。
書籍長達 451 頁,開篇引用了量子力學的奠基人、諾貝爾物理學獎得主狄拉克在《量子力學原理》一書序言中的一句話:「這就需要完全脫離歷史發展路線,但這種突破是一種優勢,因為它使人們能夠盡可能直接地接近新的思想。」
在基本層面上,該書提供了一個理論框架,從「第一性原理」理解 DNN。對于人工智能從業者來說,這種理解可以顯著減少訓練 DNN 所需的試錯量。例如,該理論框架可以揭示任何給定模型的最佳超參數,而無需經過當今所需的時間和計算密集型實驗。
「該書提出了一種具有吸引力的方法,基于理論物理學中熟悉的擴展來進行機器學習,」斯坦福大學物理學教授 Eva Silverstein 表示道。「這些方法在理解和改進人工智能方面可以帶來多大的進步,將是令人興奮的。」
Facebook VP 兼首席 AI 科學家 Yann LeCun 也在推特上推薦該書,并表示「在科學技術發展史上,工程相關的往往排在第一位:望遠鏡、蒸汽機、數字通信。解釋其功能和局限性的理論往往出現得較晚:折射定律、熱力學和信息理論。」「隨著深度學習的出現,人工智能驅動的工程奇跡已經進入我們的生活——但我們對深度學習的力量和局限性的理論理解仍然是片面的。這是最早致力于深度學習理論的書籍之一,并以連貫的方式列出了近期理論方法和結果。」
這只是重塑人工智能科學這一更大項目的第一步,這一項目既源自「第一性原理」,又側重于描述現實模型如何工作。如果成功,這種關于深度學習的一般理論可能會使人工智能模型更加強大,甚至可以指導研究人員建立一個研究智能普遍方面的框架。
相互作用的神經元
到目前為止,試圖理解 DNN 的理論家們通常依賴于網絡的理想化,即所謂的「無限寬度限制」,在這種限制下,DNN 的每一層都有無限數量的神經元。
這類似于理想氣體定律與真實氣體情況。「無限寬度限制」為理論分析提供了一個起點,但它通常與現實世界的深度學習模型幾乎沒有什么相似之處,尤其是普通的深度神經網絡,在那種情況下,抽象將越來越偏離準確的描述。雖然偶爾有用,但「無限寬度限制」過于簡單,忽略了真正 DNN 的關鍵特性,而這些被忽略掉的特性可能就是讓 DNN 如此強大的有力工具。
如果從物理學家的角度來處理這個問題,核心是通過在「有限寬度」上建立一個有效的 DNN 理論,從而改進這個無限寬度限制。傳統上,物理學家的目標是創造最簡單和最理想的模型,同時也包含了描述現實世界所需的最小復雜性。在這里,這需要取消無限寬度限制,并系統地納入所有必要的修正,以解釋有限寬度的影響。在物理學語言中,這意味著對單層和跨層神經元之間的微小相互作用進行建模。
這些聽起來像是小的改變,但是現有的玩具模型(toy models)和書中描述的模型在性質上是不同的。想象兩個臺球朝著對方前進。如果你用一個類似于無限寬度限制的非交互模型來計算即將發生的事情,你會發現這些球互相穿過,繼續朝著同一個方向運動。
但事實顯然不是這樣。球中的電子不能占據同一個空間,所以它們會相互作用碰撞彈跳。
這些交互作用在現實生活中很重要,在物理學中也很重要,對 DNN 來說同樣如此。
考慮到神經元之間的類似交互作用,該書的理論發現了 DNN 的真正威力——它們從數據中學習世界表征的能力——與其縱橫比(即深度與寬度之比)成正比。對于無限寬度模型,該比率為零,因此這些玩具模型無法捕捉深度,并且隨著 DNN 深度的增加,它們的描述變得越來越不準確。相比之下,使用有限寬度層,有效理論(effective theory)實際上會影響深度——這對于表征學習和 DNN 的 D (深度)真正重要的其他應用至關重要。
麻省理工學院物理學副教授、NSF AI 人工智能與基礎交互研究所所長 Jesse Thaler 說:「在物理學中,有效場論是理解粒子復雜相互作用的一種嚴謹而系統的方法。令人興奮的是,一個類似的、嚴謹的、系統的方法適用于理解深層網絡的動態。在這些發展的啟發下,我期待著物理學界和人工智能界進行更有成效的對話。」
雖然本書中描述的框架可以擴展到現代人工智能社區使用的真實世界的 DNN,并為此提供了藍圖,但該書主要側重于用于教學目的、最簡單的深度學習模型(深度多層感知器) 。
應用于這種最簡單的結構,可以系統地求解有效理論方程。這意味著我們可以對 DNN 在整個訓練軌跡中的行為有一個第一性原理理解。特別地,我們可以明確地寫下一個完全訓練的 DNN 所計算的函數,來對新的測試例子做出預測。
借助這一新的有效理論,研究者希望理論家們能夠推動對神經網絡更深入、更全面的理解。雖然還有很多東西需要計算,但這項工作可能使該領域更接近于了解這些模型的哪些特定屬性使它們能夠智能地執行。
研究者還希望這本書能夠幫助 AI 社區減少試錯周期,這些試錯有時會限制當前研究進展。研究者希望也能幫助 AI 從業者快速設計更好的模型——更高效、性能更好、訓練更快,或者所有這些。特別地,設計 DNN 的研究者能夠在沒有任何訓練的情況下選擇最優的超參數,并選擇最優的算法和模型結構以獲得最佳的結果。
多年來,許多人認為這些問題永遠無法得到回答或解釋。該書籍表明,人工智能不是一門無法解釋的藝術,實用的人工智能可以通過基本的科學原理來理解。
研究者希望這只是個開始,并將繼續這項研究,將理論框架擴展到其他模型架構并獲得新的結果。在更廣泛的層面上,研究者希望這本書能夠證明,理論能夠提供對真實模型的理解。
雖然近年來,實證結果將人工智能推向了新的高度,但研究者堅信,以理論為基礎的實踐有助于加速人工智能的研究,并有可能發現無法想象的新領域,就像統計力學在一個多世紀前引領信息時代一樣。
作者簡介
Sho Yaida 為 Facebook 人工智能研究中心(FAIR)的科學家,研究方向是將理論物理學方法應用于理解神經網絡。他在斯坦福大學獲得博士學位,讀博期間主要研究了黑洞,后來在麻省理工學院和杜克大學做博士后時轉向了有關玻璃的物理學研究。
個人主頁:
Dan Roberts 為麻省理工學院理論物理中心的研究員、Salesforce 的首席研究員,同時還是美國國家科學基金會人工智能與基礎互動研究所 (IAIFI) 的成員。研究方向集中于如何將理論物理學的工具和觀點應用到人工智能中。
個人主頁:
此外,還包括研究合作者普林斯頓的 Boris Hanin,主要研究深度學習、概率等。
個人主頁:
原文鏈接:
近年來,深度學習已經成為機器學習和計算機視覺、自然語言處理等相關領域的中心范式。但是對這一努力的許多方面的數學理解仍然缺乏。訓練何時成功,速度有多快? 用了多少例子? 各種架構的優點和局限性是什么? 本書重點研究深度學習的理論方面。
本課程的目標(以及本教材的目標)是為最廣泛使用的學習架構介紹學習理論的新舊結果。本課程面向以理論為導向的學生,以及希望對機器學習和相關領域(如計算機視覺或自然語言處理等學習方法的大量用戶)中使用的算法有基本數學理解的學生。我們將特別努力去證明許多來自第一性原理的結果,同時保持闡述盡可能簡單。這將自然地導致一個關鍵結果的選擇,以簡單但相關的實例展示學習理論中的重要概念。一些一般的結果也將在沒有證明的情況下給出。當然,第一性原理的概念是主觀的,我將假定你對線性代數、概率論和微積分有很好的了解。此外,我將重點關注在實踐中可以運行的算法之外不存在的學習理論部分,因此本書中描述的所有算法框架都是常規使用的。對于大多數學習方法,一些簡單的說明性實驗被提出,并計劃有伴隨的代碼(Matlab, Julia和Python),這樣學生就可以自己看到算法是簡單和有效的綜合實驗。
神經網絡是一組計算單元的集合,這些計算單元被連接在一起,稱為神經元,每個神經元產生一個實際值的結果,稱為激活。輸入神經元從感知環境的傳感器中被激活,而其他神經元從之前的神經元激活中被激活。這種結構使神經元能夠相互發送信息,從而理順那些有助于成功解決問題的連接,減少那些導致失敗的連接。
這本書從數學的角度描述了神經網絡如何運作。因此,神經網絡既可以解釋為函數通用逼近器,也可以解釋為信息處理器。目前工作的主要目標是把神經網絡的思想和概念寫成精確的現代數學語言,這些思想和概念現在在直觀的水平上使用。這本書是一個古老的好古典數學和現代概念的深入學習的混合物。主要的焦點是在數學方面,因為在今天的發展趨勢中,忽略了許多數學細節,大多數論文只強調計算機科學的細節和實際應用。
近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。
//compstat-lmu.github.io/seminar_nlp_ss20/
在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。
這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。
為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。
遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。
為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。
在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。
本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。
在過去的十年里,神經網絡在視覺、語音、語言理解、醫學、機器人和游戲等領域取得了驚人的成果。人們原本以為,這種成功需要克服理論上存在的重大障礙。畢竟,深度學習優化是非凸的、高度非線性的、高維的,那么我們為什么能夠訓練這些網絡呢?在許多情況下,它們擁有的參數遠遠多于記憶數據所需的參數,那么為什么它們能夠很好地推廣呢?盡管這些主題已經占據了機器學習研究領域的大部分注意力,但當涉及到更簡單的模型時,神經網絡領域的原則是先數據訓練再說。顯然,這招奏效了。
//www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/
結果,神經網絡的實際成功已經超過了我們理解它們如何工作的能力。這門課是關于開發概念工具來理解當神經網絡訓練時會發生什么。其中一些思想早在幾十年前就已經形成了(可能已經被社區的大部分人遺忘了),而另一些思想今天才剛剛開始被理解。我將試圖傳達我們最好的現代理解,盡管它可能不完整。
這門課從優化中汲取靈感,它不是一門優化課。一方面,優化的研究通常是指令性的,從優化問題的信息和明確定義的目標(如在特定規范下快速收斂)開始,并找出保證實現該目標的計劃。對于現代神經網絡來說,分析通常是描述性的: 采用在使用的程序,并找出它們(似乎)有效的原因。希望這種理解能讓我們改進算法。
與優化研究的另一個區別是,目標不是簡單地擬合一個有限的訓練集,而是一般化。盡管神經網絡有巨大的能力,但為什么它能泛化與訓練的動態密切相關。因此,如果我們從優化中引入一個想法,我們不僅需要考慮它是否會更快地最小化成本函數,還需要考慮它是否以一種有利于泛化的方式實現。
這類應用不會為您提供在ImageNet上實現最先進性能的方法。它也不是那種為了證明定理而去證明定理的理論課。相反,我們的目的是為您提供概念性工具,以便您在任何特定情況下推斷出影響訓練的因素。
除了讓你的網絡更好地訓練之外,學習神經網絡訓練動力學的另一個重要原因是,許多現代架構本身就足夠強大,可以進行優化。這可能是因為我們在體系結構中明確地構建了優化,就像在MAML或深度均衡模型中那樣。或者,我們可能只是在大量數據上訓練一個靈活的架構,然后發現它具有驚人的推理能力,就像GPT3一樣。不管怎樣,如果網絡架構本身在優化某些東西,那么外部訓練過程就會與本課程中討論的問題糾纏在一起,不管我們喜歡與否。為了有希望理解它提出的解決方案,我們需要理解問題。因此,本課程將以雙層優化結束,利用課程中涵蓋的所有內容。
目錄內容:
我們將通過分析一個簡單的模型開始這門課,梯度下降動力學可以被精確地確定:線性回歸。盡管線性回歸很簡單,但它提供了對神經網絡訓練驚人的洞察力。我們將使用線性回歸來理解兩種神經網絡訓練現象: 為什么對輸入進行歸一化是一個好策略,以及增加維度可以減少過擬合。
線性化是我們理解非線性系統最重要的工具之一。我們將涵蓋神經網絡的一階泰勒近似(梯度,方向導數)和二階近似(Hessian)。我們將看到如何用雅可比向量乘積有效地計算它們。我們將使用Hessian診斷緩慢收斂和解釋網絡預測。
度量給出了流形上距離的一個局部概念。在許多情況下,兩個神經網絡之間的距離可以更有效地定義為它們所代表的函數之間的距離,而不是權重向量之間的距離。這就引出了一個重要的優化工具,叫做自然梯度。
我們從幾個角度來激勵神經網絡的二階優化:最小化二階泰勒近似、預處理、不變性和近端優化。我們將看到如何使用共軛梯度或克羅內克因子近似來近似二階更新。
我們看看已經成為神經網絡訓練的主要內容的三個算法特征。我們試圖理解它們對動力學的影響,并找出構建深度學習系統的一些陷阱。
強化一詞來源于實驗心理學中對動物學習的研究,它指的是某一事件的發生,與某一反應之間有恰當的關系,而這一事件往往會增加該反應在相同情況下再次發生的可能性。雖然心理學家沒有使用“強化學習”這個術語,但它已經被人工智能和工程領域的理論家廣泛采用,用來指代基于這一強化原理的學習任務和算法。最簡單的強化學習方法使用的是一個常識,即如果一個行為之后出現了一個令人滿意的狀態,或者一個狀態的改善,那么產生該行為的傾向就會得到加強。強化學習的概念在工程領域已經存在了幾十年(如Mendel和McClaren 1970),在人工智能領域也已經存在了幾十年(Minsky 1954, 1961;撒母耳1959;圖靈1950)。然而,直到最近,強化學習方法的發展和應用才在這些領域占據了大量的研究人員。激發這種興趣的是兩個基本的挑戰:1) 設計能夠在復雜動態環境中在不確定性下運行的自主機器人代理,2) 為非常大規模的動態決策問題找到有用的近似解。
【導讀】深度學習革新了很多應用,但是背后的理論作用機制一直沒有得到統一的解釋。最近來自谷歌大腦和斯坦福的學者共同撰寫了深度學習統計力學的綜述論文《Statistical Mechanics of Deep Learning》,共30頁pdf,從物理學視角闡述了深度學習與各種物理和數學主題之間的聯系。
最近,深度神經網絡在機器學習領域取得了驚人的成功,這對它們成功背后的理論原理提出了深刻的疑問。例如,這樣的深度網絡可以計算什么?我們如何訓練他們?信息是如何通過它們傳播的?為什么他們可以泛化?我們如何教他們想象?我們回顧了最近的工作,其中物理分析方法植根于統計力學已經開始提供這些問題的概念上的見解。這些見解產生了深度學習與各種物理和數學主題之間的聯系,包括隨機景觀、旋轉玻璃、干擾、動態相變、混沌、黎曼幾何、隨機矩陣理論、自由概率和非平衡統計力學。事實上,統計力學和機器學習領域長期以來一直享有強耦合交互作用的豐富歷史,而統計力學和深度學習交叉領域的最新進展表明,這些交互作用只會進一步深化。
概述
具有多層隱含層(1)的深度神經網絡在許多領域都取得了顯著的成功,包括機器視覺(2)、語音識別(3)、自然語言處理(4)、強化學習(5),甚至在神經科學(6、7)、心理學(8、9)和教育(10)中對動物和人類自身的建模。然而,用于獲得成功的深度神經網絡的方法仍然是一門高度熟練的藝術,充滿了許多啟發,而不是一門精確的科學。這為理論科學提出了令人興奮的挑戰和機會,以創建一個成熟的深度神經網絡理論,該理論強大到足以指導在深度學習中廣泛的工程設計選擇。雖然我們目前離這樣成熟的理論還有很長的距離,但是最近在統計力學和深度學習交叉領域出現的一批研究已經開始為深度網絡的學習和計算提供理論上的見解,有時還會提出新的和改進的方法來推動這些理論的深入學習。
在這里,我們回顧了建立在統計力學和機器學習相互作用的悠久而豐富的歷史基礎上的這一工作體系(11-15)。有趣的是,正如我們下面所討論的,這些工作在統計力學和深度學習之間建立了許多新的橋梁。在本介紹的其余部分中,我們將為機器學習的兩個主要分支提供框架。第一個是監督學習,它涉及到從例子中學習輸入-輸出映射的過程。第二種是無監督學習,它涉及到學習和挖掘數據中隱藏的結構模式的過程。有了這兩個框架,我們將在1.3節中介紹本綜述中討論的幾個深度學習的基本理論問題,以及它們與與統計力學相關的各種主題的聯系。