Facebook、普林斯頓大學和 MIT 的 AI 研究人員近日聯合出版了一份名為《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks(深度學習理論原理:理解神經網絡的一種有效理論方法)》的研究手稿,用來解釋深度學習實際工作原理的理論。
蒸汽機推動了工業革命的發生,并改變了制造業。然而,直到熱力學定律和統計力學原理的發展,科學家們才能夠在理論層面完全解釋蒸汽機的工作原理。
圖片
當然,缺乏理論知識并不能阻止人們對蒸汽機的改進,但是有了理論的指導為基礎,技術的發展將會更快。當科學家們最終掌握了統計力學時,其影響遠遠超出了制造更好、更高效的引擎。統計力學使人們認識到物質是由原子構成的,預示著量子力學的發展,如果從整體上看,這甚至促進了為計算機提供動力的晶體管的發展。
今天的人工智能也處于類似的關頭。DNN(深度神經網絡)是現代 AI 研究的重要組成部分,但它們的實現方式或多或少被視為「黑匣子」。雖然人工智能從業者對 DNN 的理解取得了實質性進展,但 DNN 通常被認為太復雜而無法從基本原理來理解。模型主要通過反復試錯進行微調——雖然試錯可以智能地進行,通常是根據多年的經驗,但它是在沒有任何統一的理論語言來描述 DNN 及其功能的情況下進行的。
近日,來自 Facebook 人工智能研究中心(FAIR)的科學家 Sho Yaida,麻省理工學院理論物理中心的研究員、Salesforce 的首席研究員 Dan Roberts 和普林斯頓的 Boris Hanin 合作,撰寫了一本關于如何從「第一性原理」來理解 DNN 的書籍《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks》。該書將于 2022 年初由劍橋大學出版社出版,手稿現在已經公開。
書籍地址: //www.zhuanzhi.ai/paper/29455b8c7149b1161238854bcd85251e
「第一性原理」理解 DNN
首先我們來簡單了解一下什么是「第一性原理」?
「第一性原理」指的是回歸事物最基本的條件,將其拆分成各要素進行解構分析,從而找到實現目標最優路徑的方法。
最早提出第一性原理思維的人是亞里士多德,他把它定義為「認知事物的第一基礎。」
許多偉大的思想家,包括發明家都使用了第一性原理的思考方法,但是沒有人比企業家伊隆 · 馬斯克更有效地深入思考第一性原理。這個詞的出圈也得益于馬斯克的助推。他曾在采訪中提到自己特別推崇第一性原理思考法。
書籍作者也是從「第一性原理」來理解 DNN 的。
書籍長達 451 頁,開篇引用了量子力學的奠基人、諾貝爾物理學獎得主狄拉克在《量子力學原理》一書序言中的一句話:「這就需要完全脫離歷史發展路線,但這種突破是一種優勢,因為它使人們能夠盡可能直接地接近新的思想。」
在基本層面上,該書提供了一個理論框架,從「第一性原理」理解 DNN。對于人工智能從業者來說,這種理解可以顯著減少訓練 DNN 所需的試錯量。例如,該理論框架可以揭示任何給定模型的最佳超參數,而無需經過當今所需的時間和計算密集型實驗。
「該書提出了一種具有吸引力的方法,基于理論物理學中熟悉的擴展來進行機器學習,」斯坦福大學物理學教授 Eva Silverstein 表示道。「這些方法在理解和改進人工智能方面可以帶來多大的進步,將是令人興奮的。」
Facebook VP 兼首席 AI 科學家 Yann LeCun 也在推特上推薦該書,并表示「在科學技術發展史上,工程相關的往往排在第一位:望遠鏡、蒸汽機、數字通信。解釋其功能和局限性的理論往往出現得較晚:折射定律、熱力學和信息理論。」「隨著深度學習的出現,人工智能驅動的工程奇跡已經進入我們的生活——但我們對深度學習的力量和局限性的理論理解仍然是片面的。這是最早致力于深度學習理論的書籍之一,并以連貫的方式列出了近期理論方法和結果。」
這只是重塑人工智能科學這一更大項目的第一步,這一項目既源自「第一性原理」,又側重于描述現實模型如何工作。如果成功,這種關于深度學習的一般理論可能會使人工智能模型更加強大,甚至可以指導研究人員建立一個研究智能普遍方面的框架。
相互作用的神經元
到目前為止,試圖理解 DNN 的理論家們通常依賴于網絡的理想化,即所謂的「無限寬度限制」,在這種限制下,DNN 的每一層都有無限數量的神經元。
這類似于理想氣體定律與真實氣體情況。「無限寬度限制」為理論分析提供了一個起點,但它通常與現實世界的深度學習模型幾乎沒有什么相似之處,尤其是普通的深度神經網絡,在那種情況下,抽象將越來越偏離準確的描述。雖然偶爾有用,但「無限寬度限制」過于簡單,忽略了真正 DNN 的關鍵特性,而這些被忽略掉的特性可能就是讓 DNN 如此強大的有力工具。
如果從物理學家的角度來處理這個問題,核心是通過在「有限寬度」上建立一個有效的 DNN 理論,從而改進這個無限寬度限制。傳統上,物理學家的目標是創造最簡單和最理想的模型,同時也包含了描述現實世界所需的最小復雜性。在這里,這需要取消無限寬度限制,并系統地納入所有必要的修正,以解釋有限寬度的影響。在物理學語言中,這意味著對單層和跨層神經元之間的微小相互作用進行建模。
這些聽起來像是小的改變,但是現有的玩具模型(toy models)和書中描述的模型在性質上是不同的。想象兩個臺球朝著對方前進。如果你用一個類似于無限寬度限制的非交互模型來計算即將發生的事情,你會發現這些球互相穿過,繼續朝著同一個方向運動。
但事實顯然不是這樣。球中的電子不能占據同一個空間,所以它們會相互作用碰撞彈跳。
這些交互作用在現實生活中很重要,在物理學中也很重要,對 DNN 來說同樣如此。
考慮到神經元之間的類似交互作用,該書的理論發現了 DNN 的真正威力——它們從數據中學習世界表征的能力——與其縱橫比(即深度與寬度之比)成正比。對于無限寬度模型,該比率為零,因此這些玩具模型無法捕捉深度,并且隨著 DNN 深度的增加,它們的描述變得越來越不準確。相比之下,使用有限寬度層,有效理論(effective theory)實際上會影響深度——這對于表征學習和 DNN 的 D (深度)真正重要的其他應用至關重要。
麻省理工學院物理學副教授、NSF AI 人工智能與基礎交互研究所所長 Jesse Thaler 說:「在物理學中,有效場論是理解粒子復雜相互作用的一種嚴謹而系統的方法。令人興奮的是,一個類似的、嚴謹的、系統的方法適用于理解深層網絡的動態。在這些發展的啟發下,我期待著物理學界和人工智能界進行更有成效的對話。」
雖然本書中描述的框架可以擴展到現代人工智能社區使用的真實世界的 DNN,并為此提供了藍圖,但該書主要側重于用于教學目的、最簡單的深度學習模型(深度多層感知器) 。
應用于這種最簡單的結構,可以系統地求解有效理論方程。這意味著我們可以對 DNN 在整個訓練軌跡中的行為有一個第一性原理理解。特別地,我們可以明確地寫下一個完全訓練的 DNN 所計算的函數,來對新的測試例子做出預測。
借助這一新的有效理論,研究者希望理論家們能夠推動對神經網絡更深入、更全面的理解。雖然還有很多東西需要計算,但這項工作可能使該領域更接近于了解這些模型的哪些特定屬性使它們能夠智能地執行。
研究者還希望這本書能夠幫助 AI 社區減少試錯周期,這些試錯有時會限制當前研究進展。研究者希望也能幫助 AI 從業者快速設計更好的模型——更高效、性能更好、訓練更快,或者所有這些。特別地,設計 DNN 的研究者能夠在沒有任何訓練的情況下選擇最優的超參數,并選擇最優的算法和模型結構以獲得最佳的結果。
多年來,許多人認為這些問題永遠無法得到回答或解釋。該書籍表明,人工智能不是一門無法解釋的藝術,實用的人工智能可以通過基本的科學原理來理解。
研究者希望這只是個開始,并將繼續這項研究,將理論框架擴展到其他模型架構并獲得新的結果。在更廣泛的層面上,研究者希望這本書能夠證明,理論能夠提供對真實模型的理解。
雖然近年來,實證結果將人工智能推向了新的高度,但研究者堅信,以理論為基礎的實踐有助于加速人工智能的研究,并有可能發現無法想象的新領域,就像統計力學在一個多世紀前引領信息時代一樣。
作者簡介
Sho Yaida 為 Facebook 人工智能研究中心(FAIR)的科學家,研究方向是將理論物理學方法應用于理解神經網絡。他在斯坦福大學獲得博士學位,讀博期間主要研究了黑洞,后來在麻省理工學院和杜克大學做博士后時轉向了有關玻璃的物理學研究。
個人主頁:
Dan Roberts 為麻省理工學院理論物理中心的研究員、Salesforce 的首席研究員,同時還是美國國家科學基金會人工智能與基礎互動研究所 (IAIFI) 的成員。研究方向集中于如何將理論物理學的工具和觀點應用到人工智能中。
個人主頁:
此外,還包括研究合作者普林斯頓的 Boris Hanin,主要研究深度學習、概率等。
個人主頁:
原文鏈接:
在過去的十年里,我們見證了深度學習的無數驚人成功。盡管取得了許多成功,但我們可能正在再次攀登通脹預期的高峰。如果在過去,錯誤的解決方法是把計算能力扔到問題上,那么今天我們試著把數據扔進去。這種行為在少數大企業中引發了一場贏者通吃的數據爭奪戰,引發了人們對隱私和權力集中的擔憂。然而,我們知道一個事實,從更少的樣本中學習是可能的:人類表現出了比我們目前最先進的人工智能更好的泛化能力。為了達到這種需要的泛化能力,我們必須更好地了解學習是如何在深度神經網絡中發生的。現代機器學習的實踐已經超過了它的理論發展,深度學習模型具有當前機器學習理論無法預測的泛化能力。目前還沒有建立新的學習理論來處理這個問題。2015年Naftali Tishby和Noga Zaslavsky在瓶頸原理的信息理論概念基礎上發表了一篇開創性的學習理論。本文旨在研究利用信息瓶頸原理來解釋深度神經網絡的泛化能力的分散努力,并將它們整合到這個新的一般深度學習理論的綜合摘要中。
蒸汽機為工業革命提供了動力,并永遠地改變了制造業——但直到接下來的一個世紀,熱力學定律和統計力學原理得到發展,科學家們才能夠在理論層面上全面解釋蒸汽機為何以及如何工作。
當然,缺乏理論理解并沒有阻止人們對蒸汽機的改進,但是熱機原理的發現導致了迅速的改進。當科學家們最終掌握了統計力學,其結果遠遠超出了制造更好、更高效的發動機。統計力學使人們認識到物質是由原子構成的,它預示了量子力學的發展,(如果你從整體上看)甚至使我們看到了為我們今天使用的計算機提供動力的晶體管。
如今,人工智能正處于類似的關頭。深度神經網絡(DNNs)是現代人工智能研究的一部分,但它們或多或少被視為一個“黑盒子”。盡管人工智能從業者取得了重大進展,但DNN通常被認為過于復雜,無法從基本原理理解。模型在很大程度上是通過反復試驗來調整的——雖然反復試驗可以通過多年的經驗來明智地進行,但卻沒有任何統一的理論語言來描述DNN及其功能。
《深度學習理論原理:理解神經網絡的有效理論方法》的新書出版,該研究由Facebook AI Research的Sho Yaida、麻省理工學院和Salesforce的Dan Roberts以及普林斯頓的Boris Hanin共同完成。作為一個基本的層面,這本書提供了一個從第一原則理解DNNs的理論框架。對于人工智能從業者來說,這種理解可以顯著減少訓練這些DNN所需的試錯次數。例如,它可以揭示任何給定模型的最佳超參數,而不需要經過今天所需要的時間和計算密集的實驗。
《深度學習理論原理》將于2022年初由劍橋大學出版社出版,手稿現已公開。斯坦福大學物理學教授伊娃·西爾弗斯坦(Eva Silverstein)說:“這本書提出了一種機器學習理論方法。”看到這些方法在理解和改進人工智能方面取得的進展將是令人興奮的。
這只是重塑人工智能科學這一更大項目的第一步,這一項目既源自基本原理,同時也專注于描述現實模型的實際工作方式。如果成功,這種深度學習的一般理論可能會使人工智能模型更加強大,甚至可能引導我們建立一個研究通用智能方面的框架。
新版《概率論》第三版經過了徹底的修訂和擴充,在一本書中對現代概率進行了全面的闡述。它是一個真正的現代闡述版,不僅提供經典的結果,而且材料,將是重要的未來研究。很多已經添加到以前的版本,包括8個全新的章節,隨機度量,Malliavin 微積分,多元數組,和隨機微分幾何。除了重要的改進和修訂,一些早期章節已經被完全重寫。為了幫助讀者,這些材料被分為十個主要領域,每一個領域對于任何嚴肅的研究生和研究者來說都是必不可少的,無論他們的專業是什么。
每一章很大程度上是獨立的,包括大量的練習,使書理想的自學和設計研究生水平的課程和研討會在不同的領域和不同的水平。廣泛的注釋和詳細的參考書目使它很容易超越所提出的材料,如果需要。
人工智能技術已經成為當前技術變革的主要推動力之一,從計算機科學到工程學等許多科學技術領域都在竭盡全力想用自動化的方法創造更大的價值。要想做到這一點,工程師當然必須要對當前最具潛力的機器學習方法有一個大致了解。倫敦國王學院信息學習教授 Osvaldo Simeone 公開發布了長達 237 頁的最新專著,為工程師提供了全面細致的機器學習入門介紹。
本專著的目標是介紹機器學習領域內的關鍵概念、算法和理論框架,涵蓋了監督學習與無監督學習、統計學習理論、概率圖模型和近似推斷等方向。本專著的目標讀者是具有概率學和線性代數背景的電氣工程師。本書基于第一原理(first principle)寫作,并按照有清晰定義的分類方式對其中的主要思想進行了組織,其中的類別包含鑒別式模型和生成式模型、頻率論者和貝葉斯方法、準確推斷和近似推斷、有向模型和無向模型、凸優化和非凸優化。本書中的數學框架使用了信息論的描述方式,以便工具具有統一性。書中提供了簡單且可重復的數值示例,以便讀者了解相關的關鍵動機和結論。本專著的目的并不是要為每個特定類別中已有的大量解決方案提供詳盡的細節描述(這些描述讀者可參閱教科書和論文了解),而是為了給工程師提供一個切入點,以便他們能借此進一步深入機器學習相關文獻。
第一章 概述
當我在教授機器學習課程時,有著工程學背景的同事和學生經常問及:如何更好地入門機器學習。我通常會以書籍推薦的形式回應——一般但稍微過時的介紹,請讀這本書;對于基于概率模型方法的詳細調查,請查看這些索引;如果想要了解統計學習,我覺得這篇文章很有用;如此等等。結果證明這些回答無法使我與提問者滿意。書籍很多很厚,使得繁忙的工程學教授和學生望而卻步。因此我首次撰寫了這篇專論,一篇基礎且體量適當的入門書,其中通過簡單的術語面向工程師統一介紹了機器學習主要思想和原理,同時涵蓋了其最新發展和文獻指導,以供進一步研究。
第二章,線性回歸入門介紹
第二章我們回顧了三個核心的學習框架,即頻率論者(frequentist)、貝葉斯和 MDL。頻率論者為數據假定了真實、未知分布的存在,并致力于學習一個預測器(predictor),從而更好地泛化來自這一分布的不可見數據。這可通過學習一個插入最優預測器表達式的概率模型或者直接解決預測變量上的 ERM 問題而完成。貝葉斯方法輸出一個預測分布,可通過解決計算不可見標簽上后驗分布的推斷問題而整合先驗信息與數據。最后,MDL 方法旨在篩選一個模型,允許使用最少的比特描述數據,因此去除在未觀察實例上泛化的任務。本章也廣泛討論了過擬合的關鍵問題,展示了學習算法的性能可就偏差和評估錯誤獲得理解。運行實例是用于高斯模型的線形回歸中的一個。下一章將會介紹更多學習構建和學習常見概率模型的工具。
第三章,概率學習模型
本章中,我們回顧了概率模型的一個重要類別——指數族,它被廣泛用作學習算法的組件以完成監督、無監督學習任務。這一類別成員的關鍵屬性是由同一家族中的梯度 LL 和共軛先驗的可用性采用的簡單形式。下一章我們將講述指數族在解決分類問題方面的不同應用模型。
第四章,分類
本章扼要概述了分類的關鍵問題。按照第二章提出的分類系統,我們依據用來連接解釋性變量與標簽的模型類型劃分了學習算法。尤其地,我們描述了線性與非線性的確定性判別模型,涵蓋了用于多層神經網絡的感知機算法、SVM、反向傳播;聚焦于 GLM 的概率判別模型;包括 QDA 和 LDA 在內的概率生成模型。我們同樣介紹了混合模型與提升方法(Boosting)。盡管本章聚焦在算法方面,下一章將討論一個理論框架,研究監督學習的性能。
第五章,統計學習理論
本章描述了經典的 PAC 框架,并用它分析監督學習的泛化性能。我們知道 VC 維理論定義了模型的能力,這就意味著 VC 維在給定模型準確度和置信度上度量了其學習所需要的樣本數量。在下一章中,我們將從監督學習進一步討論無監督學習問題。
第六章,無監督學習
在本章節中,我們回顧了無監督學習的基礎知識。優秀的無監督學習方法一般都通過隱變量或潛在變量幫助解釋數據的結構。我們首先通過期望最大化算法(EM)回顧了機器學習及各種變體。隨后介紹了機器學習生成模型 GAN,該方法使用從數據中學到的散度度量以代替 KL 散度。隨后接著回顧了通過 InfoMax 原則訓練的判別模型和自編碼器。在下一章節中,我們通過討論概率圖模型的強大框架而擴展了對概率模型的理解。
第七章,概率圖模型
概率圖模型將關于數據結構的先驗信息編碼為因果關系的形式,即通過有向圖和貝葉斯網絡(BN),或通過無向圖和馬爾可夫隨機場(MRF)編碼為相互之間的依賴性關系。這種結構可以表示為條件獨立性屬性。概率圖模型所編碼的結構屬性能有效地控制模型的性能,因此能以可能的偏差為代價減少過模型擬合。概率圖模型也推動執行貝葉斯推斷,至少在樹型結構的圖中是這樣的。下一章將討論貝葉斯推斷和關聯學習比較重要的問題,當然具體的方法對計算力的需求就太大了。
第八章,近似推斷與學習
本章通過關注 MC 和 VI 方法概覽了近似推斷技術。并且重點關注了選擇不同類型的近似準則及其所產生的影響,例如介紹 M- 和 I- 映射。同樣我們還討論了在學習問題上使用近似推斷的方法。此外,我們還討論了本章目前最優的技術進展。
第九章,結語
這一章節主要是簡單介紹機器學習,尤其是強調那些統一框架下的概念。除了前文縱覽機器學習的各種方法,我們在這年還提供了那些只是提到或簡要描述的重要概念及其擴展方向,因此下面將提供前文沒有介紹的重要概念列表。
隱私:在許多應用中,用于訓練機器學習算法的數據集包含了很多敏感的私人信息,例如推薦系統中的個人偏好和醫療信息等等。因此確保學習的模型并不會揭露任何訓練數據集中的個人記錄信息就顯得十分重要了。這一約束能使用差分隱私(differential privacy)概念形式化表達。保證個人數據點隱私的典型方法包括在執行 SGD 訓練模型時對梯度添加隨機噪聲,該方法依賴于使用不同的訓練數據子集混合所學習到的專家系統 [1]。
魯棒性:已經有研究者表明不同的機器學習模型包含神經網絡對數據集中很小的變化十分敏感,它們會對次要的、正確選擇的和解釋變量中的變動給出錯誤的響應。為了確保模型關于對抗樣本具有魯棒性,修正訓練過程是具有重要實踐意義的研究領域 [37]。
計算平臺和編程框架:為了擴展機器學習應用,利用分布式計算架構和相應的標準編程框架 [9] 是十分有必要的。
遷移學習:針對特定任務并使用給定數據集進行訓練的機器學習模型,目前如果需要應用到不同的任務還需要重新初始化和訓練。遷移學習研究領域即希望將預訓練模型從一個任務獲得的專業知識遷移到另一個任務中。神經網絡的典型解決方案規定了通用隱藏層的存在,即對不同任務訓練的神經網絡有一些隱藏層是相同的。
域適應(Domain adaptation):在許多學習問題中,可用數據和測試數據的分布并不相同。例如在語音識別中,模型學習時所使用的用戶數據和訓練后其他用戶使用該模型所提供的語音數據是不同的。廣義 PAC 理論分析了這種情況,其將測試分布作為測試和訓練的分布差異函數而獲得了泛化誤差邊界。
有效通信學習(Communication-efficient learning):在分布式計算平臺上,數據通常被分配在處理器中,處理器中的通信造成了延遲與能耗。一個重要的研究問題是找到學習性能與通信成本之間的最佳折衷。
強化學習:強化學習是機器學習方法最近大獲成功的根本核心,獲得了玩視頻游戲或與人類選手對決的必要技能。在強化學習中,一方想要學習世界中已觀察到的狀態 x 和動作 t 之間的最優映射,比如說 p(t|x, θ)。不同于監督學習,強化學習中最優動作不可知,機器會由于采取的動作而獲得一個獎勵/懲罰信號。其中一個流行的方法是深度強化學習,它通過神經網絡建模映射 p(t|x, θ)。通過使用強化方法評估梯度并借助 SGD,這被訓練從而最大化平均獎勵。
在過去的十年里,神經網絡在視覺、語音、語言理解、醫學、機器人和游戲等領域取得了驚人的成果。人們原本以為,這種成功需要克服理論上存在的重大障礙。畢竟,深度學習優化是非凸的、高度非線性的、高維的,那么我們為什么能夠訓練這些網絡呢?在許多情況下,它們擁有的參數遠遠多于記憶數據所需的參數,那么為什么它們能夠很好地推廣呢?盡管這些主題已經占據了機器學習研究領域的大部分注意力,但當涉及到更簡單的模型時,神經網絡領域的原則是先數據訓練再說。顯然,這招奏效了。
//www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/
結果,神經網絡的實際成功已經超過了我們理解它們如何工作的能力。這門課是關于開發概念工具來理解當神經網絡訓練時會發生什么。其中一些思想早在幾十年前就已經形成了(可能已經被社區的大部分人遺忘了),而另一些思想今天才剛剛開始被理解。我將試圖傳達我們最好的現代理解,盡管它可能不完整。
這門課從優化中汲取靈感,它不是一門優化課。一方面,優化的研究通常是指令性的,從優化問題的信息和明確定義的目標(如在特定規范下快速收斂)開始,并找出保證實現該目標的計劃。對于現代神經網絡來說,分析通常是描述性的: 采用在使用的程序,并找出它們(似乎)有效的原因。希望這種理解能讓我們改進算法。
與優化研究的另一個區別是,目標不是簡單地擬合一個有限的訓練集,而是一般化。盡管神經網絡有巨大的能力,但為什么它能泛化與訓練的動態密切相關。因此,如果我們從優化中引入一個想法,我們不僅需要考慮它是否會更快地最小化成本函數,還需要考慮它是否以一種有利于泛化的方式實現。
這類應用不會為您提供在ImageNet上實現最先進性能的方法。它也不是那種為了證明定理而去證明定理的理論課。相反,我們的目的是為您提供概念性工具,以便您在任何特定情況下推斷出影響訓練的因素。
除了讓你的網絡更好地訓練之外,學習神經網絡訓練動力學的另一個重要原因是,許多現代架構本身就足夠強大,可以進行優化。這可能是因為我們在體系結構中明確地構建了優化,就像在MAML或深度均衡模型中那樣。或者,我們可能只是在大量數據上訓練一個靈活的架構,然后發現它具有驚人的推理能力,就像GPT3一樣。不管怎樣,如果網絡架構本身在優化某些東西,那么外部訓練過程就會與本課程中討論的問題糾纏在一起,不管我們喜歡與否。為了有希望理解它提出的解決方案,我們需要理解問題。因此,本課程將以雙層優化結束,利用課程中涵蓋的所有內容。
目錄內容:
我們將通過分析一個簡單的模型開始這門課,梯度下降動力學可以被精確地確定:線性回歸。盡管線性回歸很簡單,但它提供了對神經網絡訓練驚人的洞察力。我們將使用線性回歸來理解兩種神經網絡訓練現象: 為什么對輸入進行歸一化是一個好策略,以及增加維度可以減少過擬合。
線性化是我們理解非線性系統最重要的工具之一。我們將涵蓋神經網絡的一階泰勒近似(梯度,方向導數)和二階近似(Hessian)。我們將看到如何用雅可比向量乘積有效地計算它們。我們將使用Hessian診斷緩慢收斂和解釋網絡預測。
度量給出了流形上距離的一個局部概念。在許多情況下,兩個神經網絡之間的距離可以更有效地定義為它們所代表的函數之間的距離,而不是權重向量之間的距離。這就引出了一個重要的優化工具,叫做自然梯度。
我們從幾個角度來激勵神經網絡的二階優化:最小化二階泰勒近似、預處理、不變性和近端優化。我們將看到如何使用共軛梯度或克羅內克因子近似來近似二階更新。
我們看看已經成為神經網絡訓練的主要內容的三個算法特征。我們試圖理解它們對動力學的影響,并找出構建深度學習系統的一些陷阱。
深度學習的研究在許多機器學習任務上產生了最先進的結果。大多數的進步都是由直覺和通過試驗和錯誤進行的大規模探索推動的。因此,目前理論落后于實踐。ML社區并不完全理解為什么最好的方法是有效的。來自UIUC Matus Telgarsky教授撰寫了關于深度學習理論筆記,值得關注。
地址: //mjt.cs.illinois.edu/dlt/
這些筆記的哲學。兩個關鍵的觀點決定了到目前為止所包含的內容。 我的目標是對文獻中出現的東西提供簡化的證明,理想情況下,把困難的東西簡化成適合一節課的東西。 我主要關注通過標準(通常是ReLU)前饋網絡實現IID數據的二進制分類的低測試誤差的經典觀點。
內容組織:
近似 (從第1節開始): 給定一個分類問題,存在一個深度網絡,在分布上實現低誤差。
優化 (從第9節開始): 對于一個分類問題,給定一個有限的訓練集,存在尋找低訓練誤差和低復雜度的預測器的算法。
泛化 (從第16節開始): 對于低復雜度的網絡,訓練和測試誤差之間的差距很小。
線性代數是計算和數據科學家的基本工具之一。這本書“高級線性代數:基礎到前沿”(ALAFF)是一個替代傳統高級線性代數的計算研究生課程。重點是數值線性代數,研究理論、算法和計算機算法如何相互作用。這些材料通過將文本、視頻、練習和編程交織在一起來保持學習者的參與性。
我們在不同的設置中使用了這些材料。這是我們在德克薩斯大學奧斯汀分校名為“數值分析:線性代數”的課程的主要資源,該課程由計算機科學、數學、統計和數據科學、機械工程以及計算科學、工程和數學研究生課程提供。這門課程也通過UT-Austin計算機科學碩士在線課程提供“高級線性代數計算”。最后,它是edX平臺上名為“高級線性代數:基礎到前沿”的大規模在線開放課程(MOOC)的基礎。我們希望其他人可以將ALAFF材料重新用于其他學習設置,無論是整體還是部分。
為了退怕學習者,我們采取了傳統的主題的數字線性代數課程,并組織成三部分。正交性,求解線性系統,以及代數特征值問題。
第一部分:正交性探討了正交性(包括規范的處理、正交空間、奇異值分解(SVD)和解決線性最小二乘問題)。我們從這些主題開始,因為它們是其他課程的先決知識,學生們經常與高等線性代數并行(甚至在此之前)進行學習。
第二部分:求解線性系統集中在所謂的直接和迭代方法,同時也引入了數值穩定性的概念,它量化和限定了在問題的原始陳述中引入的誤差和/或在計算機算法中發生的舍入如何影響計算的正確性。
第三部分:代數特征值問題,重點是計算矩陣的特征值和特征向量的理論和實踐。這和對角化矩陣是密切相關的。推廣了求解特征值問題的實用算法,使其可以用于奇異值分解的計算。本部分和本課程以在現代計算機上執行矩陣計算時如何實現高性能的討論結束。
在復雜的以人為中心的系統中,每天的決策都具有決策相關信息不完全的特點。現有決策理論的主要問題是,它們沒有能力處理概率和事件不精確的情況。在這本書中,我們描述了一個新的理論的決策與不完全的信息。其目的是將決策分析和經濟行為的基礎從領域二價邏輯轉向領域模糊邏輯和Z約束,從行為決策的外部建模轉向組合狀態的框架。
這本書將有助于在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學的專業人員,學者,經理和研究生。
讀者:專業人士,學者,管理者和研究生在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學。
盡管有很多嘗試[1-6],深度學習的有效性到目前為止還沒有明確的解釋。考慮到神經網絡是一個非常簡單且定義良好的數學對象,這相當令人驚訝[7-9]。使分析變得困難的是深度神經網絡通常是用大量的參數來描述的,例如權重矩陣、偏差向量、訓練數據等。對于這樣的系統,大多數分析技術不是很有用,必須依賴于數字。這種情況與物理中發生的情況非常相似。物理系統(包括經典系統和量子系統)通常可以在自由度很小的時候被精確地解決,但是當自由度很大的時候,這個問題就變得棘手了。幸運的是,有一組思想被證明對于分析具有多個自由度的物理系統非常有用。它是統計力學。本文的重點是將統計力學的方法應用于機器學習。在本節的其余部分,我們將總結主要結果,因為它可能有助于讀者瀏覽本文。
【導讀】深度學習革新了很多應用,但是背后的理論作用機制一直沒有得到統一的解釋。最近來自谷歌大腦和斯坦福的學者共同撰寫了深度學習統計力學的綜述論文《Statistical Mechanics of Deep Learning》,共30頁pdf,從物理學視角闡述了深度學習與各種物理和數學主題之間的聯系。
最近,深度神經網絡在機器學習領域取得了驚人的成功,這對它們成功背后的理論原理提出了深刻的疑問。例如,這樣的深度網絡可以計算什么?我們如何訓練他們?信息是如何通過它們傳播的?為什么他們可以泛化?我們如何教他們想象?我們回顧了最近的工作,其中物理分析方法植根于統計力學已經開始提供這些問題的概念上的見解。這些見解產生了深度學習與各種物理和數學主題之間的聯系,包括隨機景觀、旋轉玻璃、干擾、動態相變、混沌、黎曼幾何、隨機矩陣理論、自由概率和非平衡統計力學。事實上,統計力學和機器學習領域長期以來一直享有強耦合交互作用的豐富歷史,而統計力學和深度學習交叉領域的最新進展表明,這些交互作用只會進一步深化。
概述
具有多層隱含層(1)的深度神經網絡在許多領域都取得了顯著的成功,包括機器視覺(2)、語音識別(3)、自然語言處理(4)、強化學習(5),甚至在神經科學(6、7)、心理學(8、9)和教育(10)中對動物和人類自身的建模。然而,用于獲得成功的深度神經網絡的方法仍然是一門高度熟練的藝術,充滿了許多啟發,而不是一門精確的科學。這為理論科學提出了令人興奮的挑戰和機會,以創建一個成熟的深度神經網絡理論,該理論強大到足以指導在深度學習中廣泛的工程設計選擇。雖然我們目前離這樣成熟的理論還有很長的距離,但是最近在統計力學和深度學習交叉領域出現的一批研究已經開始為深度網絡的學習和計算提供理論上的見解,有時還會提出新的和改進的方法來推動這些理論的深入學習。
在這里,我們回顧了建立在統計力學和機器學習相互作用的悠久而豐富的歷史基礎上的這一工作體系(11-15)。有趣的是,正如我們下面所討論的,這些工作在統計力學和深度學習之間建立了許多新的橋梁。在本介紹的其余部分中,我們將為機器學習的兩個主要分支提供框架。第一個是監督學習,它涉及到從例子中學習輸入-輸出映射的過程。第二種是無監督學習,它涉及到學習和挖掘數據中隱藏的結構模式的過程。有了這兩個框架,我們將在1.3節中介紹本綜述中討論的幾個深度學習的基本理論問題,以及它們與與統計力學相關的各種主題的聯系。