這本書通過探索計算機科學理論和機器學習雙方可以相互傳授的內容,將理論和機器學習聯系起來。它強調了對靈活、易于操作的模型的需求,這些模型更好地捕捉使機器學習變得容易的東西,而不是讓機器學習變得困難的東西。
理論計算機科學家將被介紹到機器學習的重要模型和該領域的主要問題。機器學習研究人員將以一種可訪問的格式介紹前沿研究,并熟悉現代算法工具包,包括矩法、張量分解和凸規劃松弛。
超越最壞情況分析的處理方法是建立對實踐中使用的方法的嚴格理解,并促進發現令人興奮的、解決長期存在的重要問題的新方法。
在這本書中,我們將涵蓋以下主題:
(a)非負矩陣分解
(b)主題建模
(c)張量分解
(d)稀疏恢復
(e)稀疏編碼
(f)學習混合模型
(g)矩陣補全
近年來,在所有科學學科和工業環境中,數據的數量和種類都出現了爆炸式增長。如此龐大的數據集給統計學和機器學習的研究人員帶來了許多挑戰。本書對高維統計領域進行了介紹,針對的是第一年的研究生水平。它包括的章節集中在核心方法論和理論-包括尾邊界,集中不等式,一致定律和經驗過程,和隨機矩陣-以及章節致力于深入探索特定的模型類-包括稀疏線性模型,矩陣模型與秩約束,圖形模型,以及各種類型的非參數模型。通過數百個工作示例和練習,本文旨在為課程和自學的研究生和研究人員在統計,機器學習,以及相關領域誰必須理解,應用和適應現代統計方法適合大規模數據。
在過去的十年里,人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說,這些領域旨在“學習一些有用的東西”,了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段,類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述,但許多都有,它是圖模型的框架(圖和概率論的結合),使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上,現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然,沒有人說這種方法是正確的,也沒有人說這是唯一有用的方法。事實上,有人可能會反駁說,這是沒有必要的,因為“生物有機體不使用概率論”。無論情況是否如此,不可否認的是,圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚,貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。
//www0.cs.ucl.ac.uk/staff/d.barber/brml/
本書結構
本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練,這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時,我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是,計算機科學的學生熟悉的概念,算法為核心。然而,在機器學習中更常見的做法是將模型視為核心,而如何實現則是次要的。從這個角度來看,理解如何將一個數學模型轉換成一段計算機代碼是核心。
第二部分介紹了理解連續分布所需的統計背景,以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然,當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時,他們會感到驚訝。統計學和機器學習之間的一個不同觀點是,我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器),而不是某些技術。因此,我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式,這有助于強調模型是什么,而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術,包括隨機(蒙特卡羅)和確定性(變分)技術。
這本書將理論計算機科學和機器學習連接起來,探索雙方可以相互教授什么。它強調需要靈活、易于處理的模型,以便更好地捕捉機器學習的難點,而不是難點。
理論計算機科學家將介紹機器學習的重要模型和該領域的主要問題。機器學習研究人員將以一種可訪問的格式介紹前沿研究,并熟悉現代算法工具包,包括矩的方法,張量分解和凸規劃松弛。
此外是建立對實踐中使用的方法的嚴格理解,并促進發現令人興奮的新方法來解決重要的長期問題。
現代機器學習系統通常建立在沒有可證明的保證的算法之上,它們何時以及為何有效是一個爭論的主題。在這門課中,我們將重點設計算法,讓我們可以嚴格分析其性能,以解決基本的機器學習問題。我們將涵蓋的主題包括:非負矩陣分解、張量分解、稀疏編碼、學習混合模型、圖模型中的矩陣補全和推理。幾乎所有這些糟糕的計算困難的問題, 所以開發一個算法理論是關于(1)選擇合適的模型來研究這些問題,(2)開發適宜的數學工具(通常從概率,幾何或代數)為了嚴格分析現有的啟發式,或設計全新的算法。
優化和機器學習的相互作用是現代計算科學最重要的發展之一。優化的公式和方法在設計從大量數據中提取基本知識的算法方面被證明是至關重要的。然而,機器學習并不僅僅是優化技術的消費者,而是一個快速發展的領域,它本身也在產生新的優化思想。這本書以一種對兩個領域的研究人員都可訪問的方式捕獲了優化和機器學習之間交互的藝術的狀態。
優化方法因其廣泛的適用性和吸引人的理論特性而在機器學習中占有重要地位。當今機器學習模型的復雜性、規模和多樣性日益增加,需要對現有假設進行重新評估。這本書開始了重新評估的過程。它描述了在諸如一階方法,隨機近似,凸松弛,內點方法,和近端方法等已建立的框架。它還專門關注一些新的主題,如正則化優化、魯棒優化、梯度和次梯度方法、分裂技術和二階方法。其中許多技術的靈感來自其他領域,包括運籌學、理論計算機科學和優化子領域。這本書將豐富機器學習社區和這些其他領域以及更廣泛的優化社區之間正在進行的交叉發展。
學習使用Python分析數據和預測結果的更簡單和更有效的方法
Python機器學習教程展示了通過關注兩個核心機器學習算法家族來成功分析數據,本書能夠提供工作機制的完整描述,以及使用特定的、可破解的代碼來說明機制的示例。算法用簡單的術語解釋,沒有復雜的數學,并使用Python應用,指導算法選擇,數據準備,并在實踐中使用訓練過的模型。您將學習一套核心的Python編程技術,各種構建預測模型的方法,以及如何測量每個模型的性能,以確保使用正確的模型。關于線性回歸和集成方法的章節深入研究了每種算法,你可以使用書中的示例代碼來開發你自己的數據分析解決方案。
機器學習算法是數據分析和可視化的核心。在過去,這些方法需要深厚的數學和統計學背景,通常需要結合專門的R編程語言。這本書演示了機器學習可以如何實現使用更廣泛的使用和可訪問的Python編程語言。
使用線性和集成算法族預測結果
建立可以解決一系列簡單和復雜問題的預測模型
使用Python應用核心機器學習算法
直接使用示例代碼構建自定義解決方案
機器學習不需要復雜和高度專業化。Python使用了更簡單、有效和經過良好測試的方法,使這項技術更容易為更廣泛的受眾所接受。Python中的機器學習將向您展示如何做到這一點,而不需要廣泛的數學或統計背景。
這本書將理論計算機科學和機器學習連接起來,探索雙方可以相互促進什么。它強調需要靈活、易于處理的模型,以便更好地捕捉機器學習的難點。理論計算機科學家將介紹機器學習的重要模型和該領域的主要問題。機器學習研究人員將以一種可訪問的格式介紹前沿研究,并熟悉現代算法工具包,包括矩的方法,張量分解和凸規劃松弛。最壞情況分析之外的處理是建立對實踐中使用的方法的嚴格理解,并促進發現令人興奮的、解決長期存在的重要問題的新方法。
這份手冊最大的特點就是包含許多關于機器學習的經典公式和圖表,有助于您快速回憶有關機器學習的知識點。非常適合那些正在準備與機器學習相關的工作面試的人。
項目地址: //github.com/soulmachine/machine-learning-cheat-sheet
該手冊雖然只有 135 頁,但麻雀雖小五臟俱全,包含了 28 個主題內容,目錄如下:
機器學習簡明指南,不可錯過!
A Machine Learning Primer
亞馬遜研究科學家Mihail Eric關于機器學習實踐重要經驗。包括監督學習、機器學習實踐、無監督學習以及深度學習。具體為:
監督學習
機器學習實踐
無監督學習
深度學習
機器學習正在對軟件的設計方式產生巨大的影響,以便軟件能夠跟上商業變化的步伐。機器學習之所以如此引人注目,是因為它幫助您使用數據來驅動業務規則和邏輯。這有什么不同呢?在傳統的軟件開發模型中,程序員根據業務的當前狀態編寫邏輯,然后添加相關數據。然而,商業變革已經成為常態。幾乎不可能預測市場會發生什么變化。機器學習的價值在于它允許你不斷地從數據中學習并預測未來。這一強大的算法和模型集正在被跨行業使用,以改進流程并洞察數據中的模式和異常。但是機器學習不是一個人的努力;這是一個需要數據科學家、數據工程師、業務分析師和業務領導協作的團隊流程。機器學習的力量需要協作,所以重點是解決業務問題。
管理統計和數據科學的原理包括:數據可視化;描述性措施;概率;概率分布;數學期望;置信區間;和假設檢驗。方差分析;簡單線性回歸;多元線性回歸也包括在內。另外,本書還提供了列聯表、卡方檢驗、非參數方法和時間序列方法。
教材: