機器學習使用各種數學領域的工具。本文試圖對機器學習入門課程所需的數學背景進行總結,這門課在加州大學伯克利分校被稱為CS 189/289A。我們假設讀者已經熟悉多變量微積分和線性代數的基本概念(UCB數學53/54的水平)。這里介紹的大多數主題都很少涉及; 我們打算給出一個概述,并向感興趣的讀者指出更全面的處理以獲得進一步的細節。請注意,本文關注的是機器學習的數學背景,而不是機器學習本身。我們將不討論具體的機器學習模型或算法,除非可能通過強調數學概念的相關性。該文件的早期版本不包括校樣。我們已開始在有助于理解的相當短的證明里加上證明。這些證明不是cs189的必要背景,但可以用來加深讀者的理解。
來自昆士蘭大學經典線性代數分析包括線性方程、矩陣等內容,值得關注!
這本書的書名聽起來有點神秘。如果這本書以一種錯誤的方式呈現了這個主題,人們為什么要讀它呢?書中哪些地方做得特別“不對”?
在回答這些問題之前,讓我先描述一下本文的目標受眾。這本書是“榮譽線性代數”課程的課堂講稿。這應該是高等數學學生的第一門線性代數課程。它的目標是一個學生,雖然還不是非常熟悉抽象推理,但愿意學習更嚴格的數學,在“烹飪書風格”的微積分類型課程。除了作為線性代數的第一門課程,它也應該是第一門向學生介紹嚴格證明、形式定義——簡而言之,現代理論(抽象)數學風格的課程。
目標讀者解釋了基本概念和具體實例的非常具體的混合,它們通常出現在介紹性的線性代數文本中,具有更抽象的定義和高級書籍的典型構造。
這本書的第五版繼續講述如何運用概率論來深入了解真實日常的統計問題。這本書是為工程、計算機科學、數學、統計和自然科學的學生編寫的統計學、概率論和統計的入門課程。因此,它假定有基本的微積分知識。
第一章介紹了統計學的簡要介紹,介紹了它的兩個分支:描述統計學和推理統計學,以及這門學科的簡短歷史和一些人,他們的早期工作為今天的工作提供了基礎。
第二章將討論描述性統計的主題。本章展示了描述數據集的圖表和表格,以及用于總結數據集某些關鍵屬性的數量。
為了能夠從數據中得出結論,有必要了解數據的來源。例如,人們常常假定這些數據是來自某個總體的“隨機樣本”。為了確切地理解這意味著什么,以及它的結果對于將樣本數據的性質與整個總體的性質聯系起來有什么意義,有必要對概率有一些了解,這就是第三章的主題。本章介紹了概率實驗的思想,解釋了事件概率的概念,并給出了概率的公理。
我們在第四章繼續研究概率,它處理隨機變量和期望的重要概念,在第五章,考慮一些在應用中經常發生的特殊類型的隨機變量。給出了二項式、泊松、超幾何、正規、均勻、伽瑪、卡方、t和F等隨機變量。
機器學習使用來自各種數學領域的工具。本文件試圖提供一個概括性的數學背景,需要在入門類的機器學習,這是在加州大學伯克利分校被稱為CS 189/289A。
//people.eecs.berkeley.edu/~jrs/189/
我們的假設是讀者已經熟悉多變量微積分和線性代數的基本概念(達到UCB數學53/54的水平)。我們強調,本文檔不是對必備類的替代。這里介紹的大多數主題涉及的很少;我們打算給出一個概述,并指出感興趣的讀者更全面的理解進一步的細節。
請注意,本文檔關注的是機器學習的數學背景,而不是機器學習本身。我們將不討論特定的機器學習模型或算法,除非可能順便強調一個數學概念的相關性。
這份文件的早期版本不包括校樣。我們已經開始在一些證據中加入一些比較簡短并且有助于理解的證據。這些證明不是cs189的必要背景,但可以用來加深讀者的理解。
本備忘單是機器學習手冊的濃縮版,包含了許多關于機器學習的經典方程和圖表,旨在幫助您快速回憶起機器學習中的知識和思想。
這個備忘單有兩個顯著的優點:
清晰的符號。數學公式使用了許多令人困惑的符號。例如,X可以是一個集合,一個隨機變量,或者一個矩陣。這是非常混亂的,使讀者很難理解數學公式的意義。本備忘單試圖規范符號的使用,所有符號都有明確的預先定義,請參見小節。
更少的思維跳躍。在許多機器學習的書籍中,作者省略了數學證明過程中的一些中間步驟,這可能會節省一些空間,但是會給讀者理解這個公式帶來困難,讀者會在中間迷失。
對因果推理的簡明和自成體系的介紹,在數據科學和機器學習中越來越重要。
因果關系的數學化是一個相對較新的發展,在數據科學和機器學習中變得越來越重要。這本書提供了一個獨立的和簡明的介紹因果模型和如何學習他們的數據。在解釋因果模型的必要性,討論潛在的因果推論的一些原則,這本書教讀者如何使用因果模型:如何計算干預分布,如何從觀測推斷因果模型和介入的數據,和如何利用因果思想經典的機器學習問題。所有這些主題都將首先以兩個變量的形式進行討論,然后在更一般的多元情況下進行討論。對于因果學習來說,二元情況是一個特別困難的問題,因為經典方法中用于解決多元情況的條件獨立不存在。作者認為分析因果之間的統計不對稱是非常有意義的,他們報告了他們對這個問題十年來的深入研究。
本書對具有機器學習或統計學背景的讀者開放,可用于研究生課程或作為研究人員的參考。文本包括可以復制和粘貼的代碼片段、練習和附錄,其中包括最重要的技術概念摘要。
首先,本書主要研究因果關系推理子問題,這可能被認為是最基本和最不現實的。這是一個因果問題,需要分析的系統只包含兩個可觀測值。在過去十年中,作者對這個問題進行了較為詳細的研究。本書整理這方面的大部分工作,并試圖將其嵌入到作者認為對研究因果關系推理問題的選擇性至關重要的更大背景中。盡管先研究二元(bivariate)案例可能有指導意義,但按照章節順序,也可以直接開始閱讀多元(multivariate)章節;見圖一。
第二,本書提出的解決方法來源于機器學習和計算統計領域的技術。作者對其中的方法如何有助于因果結構的推斷更感興趣,以及因果推理是否能告訴我們應該如何進行機器學習。事實上,如果我們不把概率分布描述的隨機實驗作為出發點,而是考慮分布背后的因果結構,機器學習的一些最深刻的開放性問題就能得到最好的理解。