【導讀】本文檔包含加州大學伯克利分校機器學習Jonathan Shewchuk入門課程的課堂講稿。它涵蓋了許多分類和回歸的方法,以及聚類和降維的方法。簡潔明了,是非常合適的機器學習入門學習材料。
內容目錄包括: 介紹 線性分類器和感知器 感知器學習;最大邊緣分類器 軟邊緣支持向量機;特性 機器學習抽象和數值優化 決策理論;生成和判別模型 高斯判別分析,包括QDA和LDA 特征向量與各向異性多元正態分布 各向異性高斯,最大似然估計,QDA和LDA 回歸,包括最小二乘線性回歸和邏輯回歸 更多的回歸;牛頓法;ROC曲線 統計的理由;偏見方差分解 收縮:脊線回歸,子集選擇,套索 內核的訣竅 決策樹 更多的決策樹、集成學習和隨機森林 神經網絡 神經元;神經網絡的變化 更好的神經網絡訓練;卷積神經網絡 無監督學習與主成分分析 奇異值分解;聚類 光譜圖聚類 學習理論 多個特征向量;潛在的因素分析;最近的鄰居 更快的最近鄰居:Voronoi圖和k-d樹
本教程關注信息理論在統計學中的應用。被稱為信息散度或Kullback-Leibler距離或相對熵的信息度量起著關鍵作用。涵蓋的主題包括大偏差、假設檢驗、指數族的最大似然估計、列聯表的分析以及具有“信息幾何”背景的迭代算法。同時,還介紹了通用編碼的理論,以及由通用編碼理論驅動的最小描述長度原理的統計推理。
機器學習和人工神經網絡無處不在,它們對我們日常生活的影響比我們可能意識到的還要深遠。這堂課是專門針對機器學習在不同科學領域的使用的介紹。在科學研究中,我們看到機器學習的應用越來越多,反映了工業技術的發展。這樣一來,機器學習就成為了精確科學的通用新工具,與微積分、傳統統計學和數值模擬等方法并行其道。這就提出了一個問題,在圖2所示的科學工作流程中,這些新方法是最好的。
此外,一旦確定了一項特定的任務,將機器學習應用到科學領域就會面臨非常具體的挑戰: (i) 科學數據通常具有非常特定的結構,例如晶體圖像中近乎完美的周期性; (ii) 通常情況下,我們對應該反映在機器學習分析中的數據相關性有特定的知識; (iii) 我們想要了解為什么一個特定的算法會起作用,尋求對自然機制和法則的基本見解; (iv) 在科學領域,我們習慣于算法和定律提供確定性答案,而機器學習本質上是概率性的——不存在絕對的確定性。盡管如此,定量精度在許多科學領域是至關重要的,因此是機器學習方法的一個關鍵基準。
這堂課是為科學領域的科學家和學生介紹基本機器學習算法。我們將涵蓋:
機器學習領域充滿了行話,對于不了解機器學習的人來說,這些行話掩蓋了機器學習方法的核心。作為一個不斷變化的領域,新的術語正在以快速的速度被引入。我們的目標是通過精確的數學公式和簡潔的公式來切入俚語,為那些了解微積分和線性代數的人揭開機器學習概念的神秘面紗。
如上所述,數據是本節課所討論的大多數機器學習方法的核心。由于原始數據在很多情況下非常復雜和高維,首先更好地理解數據并降低它們的維數往往是至關重要的。下一節,第2節將討論在轉向神經網絡的重型機器之前可以使用的簡單算法。
我們最關注的機器學習算法,一般可以分為兩類算法,即判別算法和生成算法,如圖3所示。判別任務的例子包括分類問題,如上述數字分類或分類為固體,液體和氣相給出一些實驗觀測。同樣,回歸,也就是估計變量之間的關系,也是一個判別問題。更具體地說,我們在給定一些輸入數據x的情況下,嘗試近似某個變量y (label)的條件概率分布P(y|x)。由于這些任務中的大部分數據都是以輸入數據和目標數據的形式提供的,這些算法通常采用監督學習。判別算法最直接地適用于科學,我們將在第3和第4節中討論它們。
人工智能的前景可能引發科學領域的不合理預期。畢竟,科學知識的產生是最復雜的智力過程之一。計算機算法肯定還遠沒有達到那樣復雜的水平,而且在不久的將來也不會獨立地制定新的自然法則。盡管如此,研究人員研究了機器學習如何幫助科學工作流程的各個部分(圖2)。雖然制定牛頓經典力學定律所需的抽象類型似乎難以置信地復雜,但神經網絡非常擅長隱式知識表示。然而,要準確地理解它們是如何完成某些任務的,并不是一件容易的事情。我們將在第6節討論這個可解釋的問題。
第三類算法被稱為強化學習(reinforcement learning),它不完全符合近似統計模型的框架. 機器學習的成功很大程度上與科學家使用適當算法的經驗有關。因此,我們強烈建議認真解決伴隨練習,并充分利用練習課程。
深度學習的研究在許多機器學習任務上產生了最先進的結果。大多數的進步都是由直覺和通過試驗和錯誤進行的大規模探索推動的。因此,目前理論落后于實踐。ML社區并不完全理解為什么最好的方法是有效的。來自UIUC Matus Telgarsky教授撰寫了關于深度學習理論筆記,值得關注。
地址: //mjt.cs.illinois.edu/dlt/
這些筆記的哲學。兩個關鍵的觀點決定了到目前為止所包含的內容。 我的目標是對文獻中出現的東西提供簡化的證明,理想情況下,把困難的東西簡化成適合一節課的東西。 我主要關注通過標準(通常是ReLU)前饋網絡實現IID數據的二進制分類的低測試誤差的經典觀點。
內容組織:
近似 (從第1節開始): 給定一個分類問題,存在一個深度網絡,在分布上實現低誤差。
優化 (從第9節開始): 對于一個分類問題,給定一個有限的訓練集,存在尋找低訓練誤差和低復雜度的預測器的算法。
泛化 (從第16節開始): 對于低復雜度的網絡,訓練和測試誤差之間的差距很小。
UvA - Machine Learning 1課程是阿姆斯特丹大學人工智能碩士課程的一部分。該課程由阿姆斯特丹機器學習實驗室開發,目前由Erik Bekkers博士提供。
UvA - Machine Learning 1的課程主頁(//uvaml1.github.io)包括講課的鏈接(Youtube頻道)和相應的pdf注釋幻燈片。該系列講座密切關注Bishop的《模式識別和機器學習》一書。每個視頻的開頭都有相關章節。
課程內容如下:
第一周
第二周
第三周
第四周:
第五周
第六周
第七周
課程視頻和PDF下載鏈接在下方的PDF文件中
這門課程是Pr Biau關于統計學習課程的補充,這在兩個方面:
這解釋了為什么一些主要的方法,如k近鄰,決策樹和隨機森林
這些課堂講稿由三章組成:
第一章:詳細介紹了幾種分類方法,快速填補了兩者之間的差距
分類回歸:
線性和二次判別分析(LDA, QDA); Fisher判別分析(FDA); 核Fisher判別分析(KFDA); 多類線性判別分析; 邏輯回歸; Adaboost和梯度推進; 分類(SVC)和回歸(SVR)的支持向量機(SVM)。
第2章:我們考慮了未觀察到的標簽問題,并給出了一些生成的劃分方法 輸入空間: 高斯混合的期望-最大化(軟k均值); k - means算法; 譜聚類; 層次聚類 基于密度的噪聲應用的空間聚類(DBSCAN)。
第三章:維數災難 降維技術 (線性或非線性)給出: 主成分分析(PCA); 隨機預測; 核主成分分析(KPCA); 多維標度(MDS)。
這篇介紹旨在為讀者提供對高斯過程回歸的直觀理解。高斯過程回歸(GPR)模型由于其表示法的靈活性和預測的固有不確定性,在機器學習應用中得到了廣泛的應用。本文首先解釋了高斯過程所建立的數學基礎,包括多元正態分布、核、非參數模型、聯合概率和條件概率。然后,通過顯示不必要的數學推導步驟和缺少關鍵的結論性結果的平衡,以可訪問的方式描述高斯過程回歸。給出了一個標準高斯過程回歸算法的說明性實現。除了標準的高斯過程回歸之外,現有的軟件包實現了最先進的高斯過程算法。最后,給出了更高級的高斯過程回歸模型。這篇論文的寫作方式通俗易懂,理工科本科學生理解文章內容不會有困難。
這本書向讀者介紹點估計、置信區間和統計檢驗。基于線性模型的一般理論,本文對以下內容進行了深入的概述:固定效應、隨機效應和混合效應模型的方差分析;在擴展到非線性模型之前,回歸分析也首先出現在具有固定、隨機和混合效應的線性模型中;統計多決策問題,如統計選擇程序(Bechhofer和Gupta)和順序測試;從數理統計的角度設計實驗。大多數分析方法都補充了最小樣本量的公式。這些章節還包含了解答的提示練習。
管理統計和數據科學的原理包括:數據可視化;描述性措施;概率;概率分布;數學期望;置信區間;和假設檢驗。方差分析;簡單線性回歸;多元線性回歸也包括在內。另外,本書還提供了列聯表、卡方檢驗、非參數方法和時間序列方法。
教材: