《The Hundred-Page Machine Learning Book》,中文翻譯為為《百頁機器學習書》。這本書是Andriy Burkov所著,其是Gartner的機器學習團隊負責人。這本書短小精悍,只有一百頁左右,包含大量自 20 世紀 60 年代以來具有重要實用價值的機器學習材料。它既適用于初學者,也適用于有經驗的從業者。
讓我們從實話實說開始:機器其實不會學習。典型的“Learning Machine”所做的是找到一個數學公式,當它應用于一組輸入(稱為“訓練數據”)時,就會產生所需的輸出。這個數學公式還可以為大多數其他輸入(與訓練數據不同)生成正確的輸出,條件是這些輸入來自與訓練數據相同或類似的統計分布。
為什么這不是學習?因為如果你稍微改變或扭曲一下輸入,輸出就很可能完全錯誤。但動物的學習不是這樣的。如果你學會了通過直視屏幕來玩電子游戲,那么如果有人稍微轉動一下屏幕,你仍然可以玩得很好。機器學習算法,如果它是通過“直視”屏幕來訓練的,除非它也經過了識別旋轉的訓練,否則它將無法在旋轉的屏幕上玩游戲。
那么為什么叫“機器學習”呢?原因是由于市場營銷:美國電腦游戲和人工智能領域的先驅阿瑟?塞繆爾(Arthur Samuel) 于1959年在IBM工作時創造了這個詞。與IBM在2010年試圖推銷“認知計算(cognitive computing)”一詞在競爭中脫穎而出的情況類似,在上世紀60年代,IBM使用了新的“機器學習(machine learning)”一詞來吸引客戶和有才華的員工。
正如你所看到的,就像人工智能不是智能一樣,機器學習也不是學習。然而,機器學習是一個被普遍認可的術語,通常指的是制造機器的科學和工程,這些機器能夠在沒有明確編程的情況下完成各種有用的事情。因此,這個術語中的“學習”這個詞是用來類比動物的學習,而不是字面上的學習。
本備忘單是機器學習手冊的濃縮版,包含了許多關于機器學習的經典方程和圖表,旨在幫助您快速回憶起機器學習中的知識和思想。
這個備忘單有兩個顯著的優點:
清晰的符號。數學公式使用了許多令人困惑的符號。例如,X可以是一個集合,一個隨機變量,或者一個矩陣。這是非常混亂的,使讀者很難理解數學公式的意義。本備忘單試圖規范符號的使用,所有符號都有明確的預先定義,請參見小節。
更少的思維跳躍。在許多機器學習的書籍中,作者省略了數學證明過程中的一些中間步驟,這可能會節省一些空間,但是會給讀者理解這個公式帶來困難,讀者會在中間迷失。
題目: Supervised learning
簡介:
監督學習是指利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程,也稱為監督訓練或有教師學習,其同樣是基于示例輸入-輸出數據對,在輸入和輸出數據之間建立數學函數的機器學習任務,而該數學函數來源于對有標簽訓練數據集的學習過程。函數的輸出可以是一個連續的值(稱為回歸分析),或是預測一個分類標簽(稱作分類)。一個監督式學習者的任務在觀察完一些事先標記過的訓練范例(輸入和預期輸出)后,去預測這個函數對任何可能出現的輸入的輸出。要達到此目的,學習者必須以"合理"(見歸納偏向)的方式從現有的資料中一般化到非觀察到的情況。在人類和動物感知中,則通常被稱為概念學習(concept learning)。
主要內容: