【導讀】紐約大學開設的離散數學課程,這是一門運用于計算機科學的離散數學課程。這只是一門一學期的課程,所以有很多話題是它沒有涉及到的,或者沒有深入討論。但我們希望這能給你一個技能的基礎,你可以在你需要的時候建立,特別是給你一點數學的成熟——對數學是什么和數學定義和證明如何工作的基本理解。
本課程從數據科學的角度介紹概率論與統計的基本概念。目的是熟悉在數據分析中廣泛使用的概率模型和統計方法。
本備忘單是機器學習手冊的濃縮版,包含了許多關于機器學習的經典方程和圖表,旨在幫助您快速回憶起機器學習中的知識和思想。
這個備忘單有兩個顯著的優點:
清晰的符號。數學公式使用了許多令人困惑的符號。例如,X可以是一個集合,一個隨機變量,或者一個矩陣。這是非常混亂的,使讀者很難理解數學公式的意義。本備忘單試圖規范符號的使用,所有符號都有明確的預先定義,請參見小節。
更少的思維跳躍。在許多機器學習的書籍中,作者省略了數學證明過程中的一些中間步驟,這可能會節省一些空間,但是會給讀者理解這個公式帶來困難,讀者會在中間迷失。
林軒田機器學習基石這門課有一個配套教材:《Learning From Data》,林軒田也是編者之一。這本書的主頁為:Learning From Data,豆瓣上關于這本書的評分高達9.4,還是很不錯的,值得推薦!可以配套視頻一起學習。
機器學習允許計算系統根據從觀測數據中積累的經驗自適應地改進性能。其技術廣泛應用于工程、科學、金融、商業等領域。這本書是為機器學習的短期課程設計的。這是一門短期課程,不是倉促的課程。經過十多年的教材教學,我們提煉出了我們認為每個學生都應該知道的核心主題。我們選擇了“從數據中學習”這個標題,它忠實地描述了這個主題是關于什么的,并且以一種類似故事的方式覆蓋了這些主題。我們希望讀者能通過從頭到尾閱讀這本書來學習這門學科的所有基礎知識。
數據學習具有明顯的理論和實踐軌跡。在這本書中,我們平衡了理論和實踐,數學和啟發式。我們的納入標準是相關性。包括建立學習概念框架的理論,以及影響實際學習系統性能的啟發法。
從數據中學習是一個動態的領域。一些熱門的技術和理論有時只是一時的流行,而另一些獲得了牽引,成為該領域的一部分。我們在本書中強調的是必要的基礎知識,這些基礎知識使任何從數據中學習的學生有了堅實的基礎,并使他們能夠冒險去探索更多的技術和理論,或者貢獻自己的知識。
作者是加州理工學院(Caltech)、倫斯勒理工學院(RPI)和國立臺灣大學(NTU)的教授,這本書是他們廣受歡迎的機器學習課程的主要教材。作者還廣泛咨詢了金融和商業公司關于機器學習的應用,并在機器學習競賽中帶領獲勝團隊。
本章從數學角度描述了卷積神經網絡(CNN)的工作原理。這一章是自成一體的,重點是讓初學者能夠理解CNN領域。
卷積神經網絡(CNN)在許多計算機視覺、機器學習和模式識別問題上表現出優異的性能。關于這個主題已經發表了許多可靠的論文,并且已經提供了許多高質量的開源CNN軟件包。
也有寫得很好的CNN教程或CNN軟件手冊。但是,我們認為,專門為初學者準備的介紹CNN的材料仍然是需要的。研究論文通常很簡潔,缺乏細節。對于初學者來說,閱讀這樣的論文可能是困難的。針對有經驗的研究人員的教程可能無法涵蓋理解CNN如何運行的所有必要細節。
本章試圖提出一個文檔:
自成一體。所有需要的數學背景知識都將在本章(或本書其他章節)中介紹;
有所有衍生的細節。這一章的目的是詳細解釋所有必要的數學。我們盡量不忽略推導過程中的任何重要步驟。因此,初學者應該能夠跟上(盡管專家可能會發現這一章有點重復);
忽略實現細節。目的是讓讀者了解CNN是如何在數學層面運作的。我們將忽略這些實現細節。在CNN中,對各種實現細節做出正確的選擇是其高準確性的關鍵之一(即“細節決定成敗”)。然而,我們有意省略了這一部分,以便讀者關注數學。在了解了數學原理和細節之后,通過親身體驗CNN編程來學習這些實現和設計細節會更有優勢。本章的練習問題提供了動手制作CNN編程的機會。
CNNs在很多應用中都很有用,特別是在與圖像相關的任務中。CNNs的應用包括圖像分類、圖像語義分割、圖像中的目標檢測等。在本章中,我們將重點討論圖像分類。在圖像分類中,每幅圖像都有一個主要的對象,占圖像的很大一部分。一個圖像根據其主要對象的身份被分類到其中一個類中。狗、飛機、鳥等。