在過去的十年里,神經網絡在視覺、語音、語言理解、醫學、機器人和游戲等領域取得了驚人的成果。人們原本以為,這種成功需要克服理論上存在的重大障礙。畢竟,深度學習優化是非凸的、高度非線性的、高維的,那么我們為什么能夠訓練這些網絡呢?在許多情況下,它們擁有的參數遠遠多于記憶數據所需的參數,那么為什么它們能夠很好地推廣呢?盡管這些主題已經占據了機器學習研究領域的大部分注意力,但當涉及到更簡單的模型時,神經網絡領域的原則是先數據訓練再說。顯然,這招奏效了。
//www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/
結果,神經網絡的實際成功已經超過了我們理解它們如何工作的能力。這門課是關于開發概念工具來理解當神經網絡訓練時會發生什么。其中一些思想早在幾十年前就已經形成了(可能已經被社區的大部分人遺忘了),而另一些思想今天才剛剛開始被理解。我將試圖傳達我們最好的現代理解,盡管它可能不完整。
這門課從優化中汲取靈感,它不是一門優化課。一方面,優化的研究通常是指令性的,從優化問題的信息和明確定義的目標(如在特定規范下快速收斂)開始,并找出保證實現該目標的計劃。對于現代神經網絡來說,分析通常是描述性的: 采用在使用的程序,并找出它們(似乎)有效的原因。希望這種理解能讓我們改進算法。
與優化研究的另一個區別是,目標不是簡單地擬合一個有限的訓練集,而是一般化。盡管神經網絡有巨大的能力,但為什么它能泛化與訓練的動態密切相關。因此,如果我們從優化中引入一個想法,我們不僅需要考慮它是否會更快地最小化成本函數,還需要考慮它是否以一種有利于泛化的方式實現。
這類應用不會為您提供在ImageNet上實現最先進性能的方法。它也不是那種為了證明定理而去證明定理的理論課。相反,我們的目的是為您提供概念性工具,以便您在任何特定情況下推斷出影響訓練的因素。
除了讓你的網絡更好地訓練之外,學習神經網絡訓練動力學的另一個重要原因是,許多現代架構本身就足夠強大,可以進行優化。這可能是因為我們在體系結構中明確地構建了優化,就像在MAML或深度均衡模型中那樣。或者,我們可能只是在大量數據上訓練一個靈活的架構,然后發現它具有驚人的推理能力,就像GPT3一樣。不管怎樣,如果網絡架構本身在優化某些東西,那么外部訓練過程就會與本課程中討論的問題糾纏在一起,不管我們喜歡與否。為了有希望理解它提出的解決方案,我們需要理解問題。因此,本課程將以雙層優化結束,利用課程中涵蓋的所有內容。
目錄內容:
我們將通過分析一個簡單的模型開始這門課,梯度下降動力學可以被精確地確定:線性回歸。盡管線性回歸很簡單,但它提供了對神經網絡訓練驚人的洞察力。我們將使用線性回歸來理解兩種神經網絡訓練現象: 為什么對輸入進行歸一化是一個好策略,以及增加維度可以減少過擬合。
線性化是我們理解非線性系統最重要的工具之一。我們將涵蓋神經網絡的一階泰勒近似(梯度,方向導數)和二階近似(Hessian)。我們將看到如何用雅可比向量乘積有效地計算它們。我們將使用Hessian診斷緩慢收斂和解釋網絡預測。
度量給出了流形上距離的一個局部概念。在許多情況下,兩個神經網絡之間的距離可以更有效地定義為它們所代表的函數之間的距離,而不是權重向量之間的距離。這就引出了一個重要的優化工具,叫做自然梯度。
我們從幾個角度來激勵神經網絡的二階優化:最小化二階泰勒近似、預處理、不變性和近端優化。我們將看到如何使用共軛梯度或克羅內克因子近似來近似二階更新。
我們看看已經成為神經網絡訓練的主要內容的三個算法特征。我們試圖理解它們對動力學的影響,并找出構建深度學習系統的一些陷阱。
近年來,機器學習取得了顯著進展,提供了一些新功能,比如創建復雜的、可計算的文本和圖像表示。這些功能催生了新產品,如基于圖像內容的圖像搜索、多種語言之間的自動翻譯,甚至是真實圖像和聲音的合成。同時,機器學習已經在企業中被廣泛采用,用于經典的用例(例如,預測客戶流失、貸款違約和制造設備故障)。
在機器學習取得成功的地方,它是非常成功的。
在許多情況下,這種成功可以歸因于對大量訓練數據的監督學習(結合大量計算)。總的來說,有監督的學習系統擅長于一項任務:預測。當目標是預測一個結果,并且我們有很多這個結果的例子,以及與它相關的特征時,我們可能會轉向監督學習。
隨著機器學習的普及,它在業務流程中的影響范圍已經從狹窄的預測擴展到決策制定。機器學習系統的結果經常被用來設定信用限額,預測制造設備故障,以及管理我們的各種新聞推送。當個人和企業試圖從這些復雜和非線性系統提供的信息中學習時,更多(和更好)的可解釋性方法已經被開發出來,這是非常重要的。
然而,僅僅基于預測的推理有一些基本的限制。例如,如果銀行提高客戶的信用額度會發生什么?這些問題不能用建立在先前觀察到的數據上的相關模型來回答,因為它們涉及到客戶選擇的可能變化,作為對信用限額變化的反應。在很多情況下,我們的決策過程的結果是一種干預——一種改變世界的行動。正如我們將在本報告中展示的,純粹相關的預測系統不具備在這種干預下進行推理的能力,因此容易產生偏差。對于干預下的數據決策,我們需要因果關系。
即使對于純粹的預測系統(這是監督學習的強項),應用一些因果思維也會帶來好處。根據因果關系的定義,它們是不變的,這意味著它們在不同的情況和環境中都是正確的。對于機器學習系統來說,這是一個非常理想的特性,在機器學習系統中,我們經常根據我們在訓練中沒有看到的數據進行預測;我們需要這些系統具有適應性和健壯性。
因果推理和機器學習的交集是一個迅速擴展的研究領域。它已經產生了可供主流采用的功能——這些功能可以幫助我們構建更健壯、可靠和公平的機器學習系統。
本書介紹了因果推理,因為它涉及很多數據科學和機器學習工作。我們引入因果圖,著重于消除理解的概念障礙。然后我們利用這個理解來探索關于不變預測的最新想法,它給高維問題帶來了因果圖的一些好處。通過附帶的原型,我們展示了即使是經典的機器學習問題,如圖像分類,也可以從因果推理工具中受益。
深度學習的研究在許多機器學習任務上產生了最先進的結果。大多數的進步都是由直覺和通過試驗和錯誤進行的大規模探索推動的。因此,目前理論落后于實踐。ML社區并不完全理解為什么最好的方法是有效的。來自UIUC Matus Telgarsky教授撰寫了關于深度學習理論筆記,值得關注。
地址: //mjt.cs.illinois.edu/dlt/
這些筆記的哲學。兩個關鍵的觀點決定了到目前為止所包含的內容。 我的目標是對文獻中出現的東西提供簡化的證明,理想情況下,把困難的東西簡化成適合一節課的東西。 我主要關注通過標準(通常是ReLU)前饋網絡實現IID數據的二進制分類的低測試誤差的經典觀點。
內容組織:
近似 (從第1節開始): 給定一個分類問題,存在一個深度網絡,在分布上實現低誤差。
優化 (從第9節開始): 對于一個分類問題,給定一個有限的訓練集,存在尋找低訓練誤差和低復雜度的預測器的算法。
泛化 (從第16節開始): 對于低復雜度的網絡,訓練和測試誤差之間的差距很小。
本課程關注控制理論和強化學習的理論介紹,側重于連續狀態空間以及物理世界和機器人技術的應用。我們強調計算效率的算法和可證明的界。特別關注RL中非隨機控制和遺憾最小化的新方法。我們將與該領域的經典方法論進行比較和對比。
本課程的練習和項目將需要用python編寫代碼。
這門課程對所有學生開放,但要求有很強的數學背景。
//sites.google.com/view/cos59x-cct/home
深度學習的先驅、圖靈獎獲得者Yann Lecun教授有一種非常簡潔明了地抓住問題癥結的氣質。2020年2月左右,他在巴巴多斯研討會上說,
“控制=梯度強化學習”。
強化學習和控制理論的關鍵區別在于它們所操作的空間。強化學習的范圍通常位于離散狀態空間(如圍棋、國際象棋),而控制理論通常處理涉及物理和連續空間(如機器人)的問題。物理學和結構環境的知識使我們能夠利用差分信息。
后者允許我們使用強大的數學優化和凸松弛技術來設計高效的算法。這是自適應非隨機控制理論的主題,也是本課程的主題。
基于最近關于非凸優化算法在訓練深度神經網絡和數據分析中的其他優化問題中的應用,我們對非凸優化算法全局性能保證的最新理論成果進行了綜述。我們從經典的論證開始,證明一般的非凸問題不可能在合理的時間內得到有效的解決。然后,我們給出了一個可以通過盡可能多地利用問題的結構來尋找全局最優解的問題列表。處理非凸性的另一種方法是將尋找全局最小值的目標放寬到尋找一個平穩點或局部最小值。對于這種設置,我們首先給出確定性一階方法收斂速度的已知結果,然后是最優隨機和隨機梯度格式的一般理論分析,以及隨機一階方法的概述。然后,我們討論了相當一般的一類非凸問題,如α-弱擬凸函數的極小化和滿足Polyak- Lojasiewicz條件的函數,這些函數仍然可以得到一階方法的理論收斂保證。然后我們考慮非凸優化問題的高階、零階/無導數方法及其收斂速度。
現代人工智能(AI)系統通常需要在一個未知的、不確定的、可能敵對的環境中,通過積極地與環境交互來收集相關數據,從而做出連續的決策。強化學習(RL)是一個通用框架,可以捕獲交互式學習設置,并已被用于設計智能代理,以實現超人水平的表現,在具有挑戰性的任務,如圍棋,電腦游戲,機器人操作。
這門研究生水平的課程著重于強化學習的理論和算法基礎。本課程的四個主題為: (1)可證明有效的探索; (2)策略優化(特別是策略梯度); (3)控制; (4)模仿學習。
通過本課程,學生將能夠理解經典的和最新的可證明正確的RL算法及其分析。學生將能夠對與RL相關的課題進行研究。
機器學習是計算機科學中增長最快的領域之一,具有深遠的應用。本書的目的是介紹機器學習,以及它所提供的算法范例。本書對機器學習的基本原理和將這些原理轉化為實際算法的數學推導提供了理論解釋。在介紹了基礎知識之后,這本書涵蓋了以前教科書沒有涉及到的一系列廣泛的中心主題。這些包括討論學習的計算復雜性和凸性和穩定性的概念;重要的算法范例包括隨機梯度下降、神經網絡和結構化輸出學習;以及新興的理論概念,如PAC-Bayes方法和基于壓縮的界限。本文面向高級本科生或剛畢業的學生,使統計學、計算機科學、數學和工程學領域的學生和非專業讀者都能接觸到機器學習的基本原理和算法。
//www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/index.html
概述
機器學習是指自動檢測數據中有意義的模式。在過去的幾十年里,它已經成為幾乎所有需要從大數據集中提取信息的任務的通用工具。我們被一種基于機器學習的技術包圍著:搜索引擎學習如何給我們帶來最好的結果(同時投放有利可圖的廣告),反垃圾郵件軟件學習如何過濾我們的電子郵件信息,信用卡交易被一種學習如何偵測欺詐的軟件保護著。數碼相機學會識別人臉,智能手機上的智能個人輔助應用學會識別語音指令。汽車配備了使用機器學習算法構建的事故預防系統。機器學習還廣泛應用于生物信息學、醫學和天文學等科學領域。
所有這些應用程序的一個共同特征是,與計算機的更傳統使用相比,在這些情況下,由于需要檢測的模式的復雜性,人類程序員無法提供關于這些任務應該如何執行的明確、詳細的規范。以智慧生物為例,我們的許多技能都是通過學習我們的經驗(而不是遵循給我們的明確指示)而獲得或改進的。機器學習工具關注的是賦予程序“學習”和適應的能力。
這本書的第一個目標是提供一個嚴格的,但易于遵循,介紹機器學習的主要概念: 什么是機器學習?
本書的第二個目標是介紹幾種關鍵的機器學習算法。我們選擇展示的算法一方面在實踐中得到了成功應用,另一方面提供了廣泛的不同的學習技術。此外,我們特別關注適合大規模學習的算法(又稱“大數據”),因為近年來,我們的世界變得越來越“數字化”,可用于學習的數據量也在急劇增加。因此,在許多應用中數據量大,計算時間是主要瓶頸。因此,我們明確地量化了學習給定概念所需的數據量和計算時間。
目錄:
Part I: Foundations
Part II: From Theory to Algorithms
Part III: Additional Learning Models
Part IV: Advanced Theory
Appendices
【導讀】如何進一步理解貝葉斯分類器以及與互信息分類器的區別是機器學習中的重要基礎知識。涉及到的基礎問題一是處理不平衡數據背后的數學原理是什么。二是如何驗證貝葉斯大腦猜想。本章給出了初步研究進展。
美籍華人學者周紹康(Chow,C.K.)1957年開創式將貝葉斯方法引入模式識別研究中,其它重要學術貢獻還有:融合拒識智能決策于分類問題中與共同提出“周-劉”樹的方法。這些都是創造知識的經典范例。本人正是受益于他1970年研究工作并擴展為不同拒識閾值(T_r1≠T_r2)情況下導出新的理論公式,更具一般性和圖解釋性(第13,14,16頁)。目前教科書中通常是以單交叉點圖(第14頁中圖)示意二值分類。其中三個定理擴充了機器學習與信息理論方面的基礎知識。第一定理給出了不平衡數據下貝葉斯分類器將失效的證明。第二定理給出了代價矩陣中獨立參數個數。這是參數可辨識性(即關于模型參數能否被惟一確定性質)研究內容。定理證明中應用了復合函數中獨立參數個數上界是其中最小尺寸參數集的維數,可以理解為木桶原理中的短板決定木桶容量。該方式證明有利于延伸到對多類分類代價矩陣中獨立參數個數的理解。第三定理給出了第二章中第3作業的解答。應用修正互信息定義不僅可以簡單地解決問題,在非拒識情況下與原始互信息定義等價。它是否會引入其它問題還值得讀者思考。
如果將貝葉斯分類與互信息分類視為兩種不同數學原理,如第5章中第13頁,代表了兩種不同驅動力機制(力學方式思考)。要理解第44頁中給出的例題為回答上面兩個基礎問題很有意義。處理不平衡數據要求小類樣本被多數正確識別(第1章中第38頁)。例題數值結果表明貝葉斯分類器是失效的。這樣一個反例即可以推翻貝葉斯為大腦統一理論的猜想。例題的重要發現是熵原理支撐了“物以稀為貴”這樣的分類決策(第54-55頁)。另一方面我們要理解證實某數學原理為統一理論則必須要窮舉。這通常是無法做到的。本人建議應用“猜想(conjecture)”的說法(如第1章第33頁)。這部分仍然需要讀者質疑”。對于大數據下的不平衡數據學習,對應代價敏感學習我們首次提出了代價缺失學習(即沒有代價方面信息)。雖然已經有其它的代價缺失學習方法(如AUC, 幾何平均等),但是只有互信息分類器能夠處理拒識學習(第57頁)。建議要思考這個“獨門絕技”方法的內涵。信息論不僅能夠深化解釋性,而且還為發展新的工具提供原理性的方法。
第30,43頁: 解釋為什么在拒識分類中應用代價矩陣會有解釋不一致性問題。這里以二值分類為例,會存在兩組參數是代表了同一個分類器。而第一組對應了誤差代價固定且相同,只是拒識代價不同。第二組對應了拒識代價固定且相同,只是誤差代價不同。這種現象被稱為解釋不一致性。由此會在應用中產生混亂的解釋結果。而應用拒識閾值可以獲得唯一解釋性。
第32頁: 希望同學們明白知識創新并非只是“高大上”的產物,只要是有心人,是可以預期獲得的。由張曉晚博士發展的的拒識分類ROC曲線(第32頁中右圖)就是這樣的實例。這是可以進入機器學習教科書中嶄新基礎知識。已有研究是應用三維方式描述拒識情況。而二維ROC曲線不僅常規應用,而且解釋性更直接與簡單(相關點給出的斜率計算公式解釋與獨立參數個數的解釋)。要理解對于同一個ROC曲線,左右圖是有關聯的。左圖只是右圖中拒識率為零的特殊情況。另一方面,左圖ROC曲線中黑點位置應該位于右圖ROC兩個黑點之間的曲線中(滿足第13頁中不等式關系)。為避免數據構成的ROC經驗曲線導出代價矩陣中有負值情況,應用中采用ROC凸包曲線(ROCCH,第49頁)常規方法。
第45,52頁: 應用互信息分類器可以根據數據分布獲得拒識閾值方面的信息。考慮到拒識分類常規應用中人們習慣應用代價矩陣。我們提出了代價矩陣計算方法,并保證解釋一致性。該方法提出了兩步計算方式。第一步是應用互信息分類器對數據按照非拒識分類計算,計算結果可以唯一確定一個代價參數。第二步 是應用互信息分類器對數據按照拒識分類計算,獲得拒識閾值具體值兩個(T_r1與T_r2)。根據第13頁中拒識閾值與代價參數之間的關系,以及其中四個代價參數已知(見第45頁),可以唯一確定剩余兩個固定代價參數。由此確保代價矩陣是唯一結果,實現了解釋一致性。
作業:
在第32頁左圖中,當類別趨于極端不平衡情況時,貝葉斯分類器會位于ROC曲線中的什么位置?互信息分類器結果會怎樣?
討論題:第54頁中是基于“物以稀為貴”語義的分類討論,有否應用中會與此相反?這時應該建議什么樣的學習目標?
思考題(第58頁):拒識分類是人類決策中的重要智能方式之一。你會怎樣找出優化方式的拒識閾值?人們一般是這樣給出嗎?