機器學習是關于基于數據的學習、推理和行動。這是通過構建計算機程序來完成的,這些程序可以處理數據,提取有用的信息,對未知屬性做出預測,并建議采取的行動或做出的決定。將數據分析變成機器學習的原因是,這個過程是自動化的,計算機程序是從數據中學習的。這意味著使用通用計算機程序,這些程序根據觀察到的所謂訓練數據自動調整程序的設置,以適應特定的應用程序環境。因此可以說,機器學習是一種通過實例編程的方式。機器學習的美妙之處在于,數據所代表的內容是非常隨意的,我們可以設計出適用于不同領域的廣泛實際應用的通用方法。我們通過下面的一系列例子來說明這一點。上述“通用計算機程序”是指數據的數學模型。也就是說,當我們開發和描述不同的機器學習方法時,我們使用的是數學語言。數學模型描述了與觀測數據對應的相關數量或變量與感興趣的屬性(如預測、動作等)之間的關系。因此,模型是數據的緊湊表示,以精確的數學形式捕捉我們正在研究的現象的關鍵屬性。使用哪個模型通常由機器學習工程師在查看可用數據時產生的見解和從業者對問題的總體理解來指導。在實踐中實現該方法時,將該數學模型轉換為可在計算機上執行的代碼。然而,要理解計算機程序的實際作用,了解其基礎數學也很重要。
這本書的目的是介紹監督機器學習,而不需要在該領域的任何經驗。我們既關注基礎的數學,也關注實踐方面。本書是教科書,不是參考書,也不是編程手冊。因此,它只包含一個仔細(但全面)的監督機器學習方法的選擇,而沒有編程代碼。現在有許多精彩和證據確鑿的代碼包可用,我們深信,在很好地理解數學和內部運行的方法。在這本書中,我們從統計學的角度來討論方法的統計特性。因此,它需要一些統計和概率論的知識,以及微積分和線性代數。我們希望,從頭到尾閱讀這本書將給讀者一個良好的起點,作為一個機器學習工程師工作和/或繼續在該學科的進一步研究。下圖說明了章節之間的主要依賴關系。特別是在第二、三、四章中討論了最基本的主題,我們建議讀者先閱讀這些章節,然后再閱讀后面包含更高級的主題的章節(第5-9章)。第10章超越了機器學習的監督設置,第11章關注于設計一個成功的機器學習解決方案的一些更實際的方面,比前幾章的技術性更少。最后,第十二章(由David Sumpter撰寫)討論了現代機器學習的某些倫理方面。
在過去的十年里,人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說,這些領域旨在“學習一些有用的東西”,了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段,類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述,但許多都有,它是圖模型的框架(圖和概率論的結合),使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上,現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然,沒有人說這種方法是正確的,也沒有人說這是唯一有用的方法。事實上,有人可能會反駁說,這是沒有必要的,因為“生物有機體不使用概率論”。無論情況是否如此,不可否認的是,圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚,貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。
//www0.cs.ucl.ac.uk/staff/d.barber/brml/
本書結構
本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練,這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時,我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是,計算機科學的學生熟悉的概念,算法為核心。然而,在機器學習中更常見的做法是將模型視為核心,而如何實現則是次要的。從這個角度來看,理解如何將一個數學模型轉換成一段計算機代碼是核心。
第二部分介紹了理解連續分布所需的統計背景,以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然,當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時,他們會感到驚訝。統計學和機器學習之間的一個不同觀點是,我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器),而不是某些技術。因此,我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式,這有助于強調模型是什么,而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術,包括隨機(蒙特卡羅)和確定性(變分)技術。
//link.springer.com/book/10.1007/978-3-319-55444-0
這本引人入勝的和清晰的書面教科書/參考提供了一個必要的介紹,迅速興起的跨學科領域的數據科學。它側重于成為一名優秀的數據科學家的基本原則,以及建立收集、分析和解釋數據的系統所需的關鍵技能。
《數據科學設計手冊》是一個實用的見解來源,它突出了分析數據中真正重要的東西,并提供了對如何使用這些核心概念的直觀理解。這本書沒有強調任何特定的編程語言或數據分析工具套件,而是著重于重要設計原則的高層討論。
《數據科學概論》是一門易于閱讀的課程,理想情況下,它能滿足本科生和早期研究生的需求。它揭示了這門學科如何處于統計學、計算機科學和機器學習的交叉點,具有自己獨特的分量和特點。這些和相關領域的從業者會發現這本書非常適合自學。
這本書的目的是介紹計算機科學家所需要的一些基本數學知識。讀者并不期望自己是數學家,我們希望下面的內容對你有用。
機器學習中復雜的統計數據讓許多開發人員感到擔憂。了解統計學可以幫助你建立強大的機器學習模型,針對給定的問題陳述進行優化。這本書將教你所有需要執行復雜的統計計算所需的機器學習。您將獲得有關監督學習、非監督學習、強化學習等統計信息。了解真實世界的例子,討論機器學習的統計方面,并熟悉它。您還將設計用于執行諸如模型、參數擬合、回歸、分類、密度收集等任務的程序。
到本書結束時,你將掌握機器學習所需的統計數據,并能夠將你的新技能應用于任何類型的行業問題。
這本書是為任何想學習如何開發機器學習系統的人準備的。我們將從理論和實踐兩方面涵蓋關于機器學習算法的最重要概念,并將使用Python編程語言中的Scikit-learn庫實現許多機器學習算法。在第一章中,您將學習機器學習最重要的概念,在下一章中,您將主要學習分類。在最后一章中,你將學習如何訓練你的模型。我假定你已經了解了編程的基礎知識。
學習使用Python分析數據和預測結果的更簡單和更有效的方法
Python機器學習教程展示了通過關注兩個核心機器學習算法家族來成功分析數據,本書能夠提供工作機制的完整描述,以及使用特定的、可破解的代碼來說明機制的示例。算法用簡單的術語解釋,沒有復雜的數學,并使用Python應用,指導算法選擇,數據準備,并在實踐中使用訓練過的模型。您將學習一套核心的Python編程技術,各種構建預測模型的方法,以及如何測量每個模型的性能,以確保使用正確的模型。關于線性回歸和集成方法的章節深入研究了每種算法,你可以使用書中的示例代碼來開發你自己的數據分析解決方案。
機器學習算法是數據分析和可視化的核心。在過去,這些方法需要深厚的數學和統計學背景,通常需要結合專門的R編程語言。這本書演示了機器學習可以如何實現使用更廣泛的使用和可訪問的Python編程語言。
使用線性和集成算法族預測結果
建立可以解決一系列簡單和復雜問題的預測模型
使用Python應用核心機器學習算法
直接使用示例代碼構建自定義解決方案
機器學習不需要復雜和高度專業化。Python使用了更簡單、有效和經過良好測試的方法,使這項技術更容易為更廣泛的受眾所接受。Python中的機器學習將向您展示如何做到這一點,而不需要廣泛的數學或統計背景。
前言 在這本書中,我們從圖形模型的基礎知識、它們的類型、為什么使用它們以及它們解決了什么類型的問題開始。然后我們在圖形模型的上下文中探索子問題,例如它們的表示、構建它們、學習它們的結構和參數,以及使用它們回答我們的推理查詢。
這本書試圖提供足夠的理論信息,然后使用代碼示例窺視幕后,以了解一些算法是如何實現的。代碼示例還提供了一個方便的模板,用于構建圖形模型和回答概率查詢。在文獻中描述的許多種類的圖形模型中,這本書主要關注離散貝葉斯網絡,偶爾也有來自馬爾科夫網絡的例子。
內容概述
第一章:概率論,涵蓋了理解圖形模型所需的概率論的概念。
第2章:有向圖形模型,提供了關于貝葉斯網絡的信息,他們的屬性相關的獨立性,條件獨立性,和D分離。本章使用代碼片段加載貝葉斯網絡并理解其獨立性。
第三章:無向圖模型,介紹了馬爾可夫網絡的性質,馬爾可夫網絡與貝葉斯網絡的區別,以及馬爾可夫網絡的獨立性。
第四章:結構學習,涵蓋了使用數據集來推斷貝葉斯網絡結構的多種方法。我們還學習了結構學習的計算復雜性,并在本章使用代碼片段來學習抽樣數據集中給出的結構。
第5章:參數學習,介紹了參數學習的最大似然法和貝葉斯方法。
第6章:使用圖形模型的精確推理,解釋了精確推理的變量消除算法,并探索了使用相同算法回答我們的推理查詢的代碼片段。
第7章:近似推理方法,探討了網絡太大而無法進行精確推理的近似推理。我們還將通過在馬爾科夫網絡上使用循環信念傳播運行近似推論的代碼樣本。
目錄
這本書的第五版繼續講述如何運用概率論來深入了解真實日常的統計問題。這本書是為工程、計算機科學、數學、統計和自然科學的學生編寫的統計學、概率論和統計的入門課程。因此,它假定有基本的微積分知識。
第一章介紹了統計學的簡要介紹,介紹了它的兩個分支:描述統計學和推理統計學,以及這門學科的簡短歷史和一些人,他們的早期工作為今天的工作提供了基礎。
第二章將討論描述性統計的主題。本章展示了描述數據集的圖表和表格,以及用于總結數據集某些關鍵屬性的數量。
為了能夠從數據中得出結論,有必要了解數據的來源。例如,人們常常假定這些數據是來自某個總體的“隨機樣本”。為了確切地理解這意味著什么,以及它的結果對于將樣本數據的性質與整個總體的性質聯系起來有什么意義,有必要對概率有一些了解,這就是第三章的主題。本章介紹了概率實驗的思想,解釋了事件概率的概念,并給出了概率的公理。
我們在第四章繼續研究概率,它處理隨機變量和期望的重要概念,在第五章,考慮一些在應用中經常發生的特殊類型的隨機變量。給出了二項式、泊松、超幾何、正規、均勻、伽瑪、卡方、t和F等隨機變量。