美国式禁忌电影在线观看免费观看-亚洲国产精品成人综合一区

數據挖掘和機器學習的基本算法構成了數據科學的基礎，利用自動化方法分析各種數據的模式和模型，應用范圍從科學發現到商業分析。本教材面向本科和研究生課程，全面深入地介紹了數據挖掘、機器學習和統計學，為學生、研究人員和實踐者提供了堅實的指導。這本書奠定了數據分析、模式挖掘、聚類、分類和回歸的基礎，集中在算法和潛在的代數、幾何和概率概念上。新的第二版是一個完整的部分致力于回歸方法，包括神經網絡和深度學習。

涵蓋核心方法和前沿研究，包括深度學習
提供了一種基于開源實現的算法方法
包含了經過類測試的例子和練習，允許課程設計的靈活性和現成的參考

數據挖掘和機器學習使人能夠從數據中獲得基本的見解和知識。它們允許發現深刻的、有趣的和新穎的模式，以及從大規模數據中描述的、可理解的和可預測的模型。在這個領域有幾本好書，但其中很多不是太高級就是太高級。這本書是一個介紹性的文本，奠定了機器學習和數據挖掘的基本概念和算法的基礎。重要的概念在第一次遇到時就會被解釋，并附有詳細的步驟和推導。本書的主要目標是通過對數據和方法的幾何、(線性)代數和概率解釋的相互作用，建立公式背后的直覺。這第二版在回歸上增加了一個完整的新部分，包括線性和邏輯回歸，神經網絡，和深度學習。其他章節的內容也進行了更新，已知的勘誤表也得到了修正。本書的主要部分包括數據分析基礎、頻繁模式挖掘、聚類、分類和回歸。這些課程涵蓋了核心方法以及尖端主題，如深度學習、核方法、高維數據分析和圖分析。

深度學習，核方法，高維數據分析，圖分析。這本書包括許多例子來說明概念和算法。它也有結束語練習，在課堂上使用過。書中所有的算法都是由作者實現的。為了幫助實際理解，我們建議讀者自己實現這些算法(例如，使用Python或R)。如幻燈片、數據集和視頻等補充資源可以在該書的同伴站點在線獲得:

//dataminingbook.info

目錄內容： Front Matter Contents Preface

PART I. DATA ANALYSIS FOUNDATIONS

1 Data Mining and Analysis 2 Numeric Attributes 3 Categorical Attributes 4 Graph Data 5 Kernel Methods 6 High-dimensional Data 7 Dimensionality Reduction

PART II. FREQUENT PATTERN MINING

8 Itemset Mining 9 Summarizing Itemsets 10 Sequence Mining 11 Graph Pattern Mining 12 Pattern and Rule Assessment

PART III. CLUSTERING

13 Representative-based Clustering 14 Hierarchical Clustering 15 Density-based Clustering 16 Spectral and Graph Clustering 17 Clustering Validation PART IV. CLASSIFICATION

18 Probabilistic Classification 19 Decision Tree Classifier 20 Linear Discriminant Analysis 21 Support Vector Machines 22 Classification Assessment

PART V. REGRESSION

23 Linear Regression 24 Logistic Regression 25 Neural Networks 26 Deep Learning 27 Regression Evaluation

Index

圖片

付費5元查看完整內容

相關內容

數據挖掘

關注 0

數據挖掘（Data mining）一般是指從大量的數據中自動搜索隱藏于其中的有著特殊關系性的信息和知識的過程。

面向工程師的機器學習 · 機器學習 ·

2021 年 3 月 10 日

[付費5元查看完整內容]【干貨書】面向工程師的機器學習，237頁pdf概述機器學習理論、算法、概念全覆蓋

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人工智能技術已經成為當前技術變革的主要推動力之一，從計算機科學到工程學等許多科學技術領域都在竭盡全力想用自動化的方法創造更大的價值。要想做到這一點，工程師當然必須要對當前最具潛力的機器學習方法有一個大致了解。倫敦國王學院信息學習教授 Osvaldo Simeone 公開發布了長達 237 頁的最新專著，為工程師提供了全面細致的機器學習入門介紹。

本專著的目標是介紹機器學習領域內的關鍵概念、算法和理論框架，涵蓋了監督學習與無監督學習、統計學習理論、概率圖模型和近似推斷等方向。本專著的目標讀者是具有概率學和線性代數背景的電氣工程師。本書基于第一原理（first principle）寫作，并按照有清晰定義的分類方式對其中的主要思想進行了組織，其中的類別包含鑒別式模型和生成式模型、頻率論者和貝葉斯方法、準確推斷和近似推斷、有向模型和無向模型、凸優化和非凸優化。本書中的數學框架使用了信息論的描述方式，以便工具具有統一性。書中提供了簡單且可重復的數值示例，以便讀者了解相關的關鍵動機和結論。本專著的目的并不是要為每個特定類別中已有的大量解決方案提供詳盡的細節描述（這些描述讀者可參閱教科書和論文了解），而是為了給工程師提供一個切入點，以便他們能借此進一步深入機器學習相關文獻。

第一章概述

當我在教授機器學習課程時，有著工程學背景的同事和學生經常問及：如何更好地入門機器學習。我通常會以書籍推薦的形式回應——一般但稍微過時的介紹，請讀這本書；對于基于概率模型方法的詳細調查，請查看這些索引；如果想要了解統計學習，我覺得這篇文章很有用；如此等等。結果證明這些回答無法使我與提問者滿意。書籍很多很厚，使得繁忙的工程學教授和學生望而卻步。因此我首次撰寫了這篇專論，一篇基礎且體量適當的入門書，其中通過簡單的術語面向工程師統一介紹了機器學習主要思想和原理，同時涵蓋了其最新發展和文獻指導，以供進一步研究。

第二章，線性回歸入門介紹

第二章我們回顧了三個核心的學習框架，即頻率論者（frequentist）、貝葉斯和 MDL。頻率論者為數據假定了真實、未知分布的存在，并致力于學習一個預測器（predictor），從而更好地泛化來自這一分布的不可見數據。這可通過學習一個插入最優預測器表達式的概率模型或者直接解決預測變量上的 ERM 問題而完成。貝葉斯方法輸出一個預測分布，可通過解決計算不可見標簽上后驗分布的推斷問題而整合先驗信息與數據。最后，MDL 方法旨在篩選一個模型，允許使用最少的比特描述數據，因此去除在未觀察實例上泛化的任務。本章也廣泛討論了過擬合的關鍵問題，展示了學習算法的性能可就偏差和評估錯誤獲得理解。運行實例是用于高斯模型的線形回歸中的一個。下一章將會介紹更多學習構建和學習常見概率模型的工具。

第三章，概率學習模型

本章中，我們回顧了概率模型的一個重要類別——指數族，它被廣泛用作學習算法的組件以完成監督、無監督學習任務。這一類別成員的關鍵屬性是由同一家族中的梯度 LL 和共軛先驗的可用性采用的簡單形式。下一章我們將講述指數族在解決分類問題方面的不同應用模型。

第四章，分類

本章扼要概述了分類的關鍵問題。按照第二章提出的分類系統，我們依據用來連接解釋性變量與標簽的模型類型劃分了學習算法。尤其地，我們描述了線性與非線性的確定性判別模型，涵蓋了用于多層神經網絡的感知機算法、SVM、反向傳播；聚焦于 GLM 的概率判別模型；包括 QDA 和 LDA 在內的概率生成模型。我們同樣介紹了混合模型與提升方法（Boosting）。盡管本章聚焦在算法方面，下一章將討論一個理論框架，研究監督學習的性能。

第五章，統計學習理論

本章描述了經典的 PAC 框架，并用它分析監督學習的泛化性能。我們知道 VC 維理論定義了模型的能力，這就意味著 VC 維在給定模型準確度和置信度上度量了其學習所需要的樣本數量。在下一章中，我們將從監督學習進一步討論無監督學習問題。

第六章，無監督學習

在本章節中，我們回顧了無監督學習的基礎知識。優秀的無監督學習方法一般都通過隱變量或潛在變量幫助解釋數據的結構。我們首先通過期望最大化算法（EM）回顧了機器學習及各種變體。隨后介紹了機器學習生成模型 GAN，該方法使用從數據中學到的散度度量以代替 KL 散度。隨后接著回顧了通過 InfoMax 原則訓練的判別模型和自編碼器。在下一章節中，我們通過討論概率圖模型的強大框架而擴展了對概率模型的理解。

第七章，概率圖模型

概率圖模型將關于數據結構的先驗信息編碼為因果關系的形式，即通過有向圖和貝葉斯網絡（BN），或通過無向圖和馬爾可夫隨機場（MRF）編碼為相互之間的依賴性關系。這種結構可以表示為條件獨立性屬性。概率圖模型所編碼的結構屬性能有效地控制模型的性能，因此能以可能的偏差為代價減少過模型擬合。概率圖模型也推動執行貝葉斯推斷，至少在樹型結構的圖中是這樣的。下一章將討論貝葉斯推斷和關聯學習比較重要的問題，當然具體的方法對計算力的需求就太大了。

第八章，近似推斷與學習

本章通過關注 MC 和 VI 方法概覽了近似推斷技術。并且重點關注了選擇不同類型的近似準則及其所產生的影響，例如介紹 M- 和 I- 映射。同樣我們還討論了在學習問題上使用近似推斷的方法。此外，我們還討論了本章目前最優的技術進展。

第九章，結語

這一章節主要是簡單介紹機器學習，尤其是強調那些統一框架下的概念。除了前文縱覽機器學習的各種方法，我們在這年還提供了那些只是提到或簡要描述的重要概念及其擴展方向，因此下面將提供前文沒有介紹的重要概念列表。

隱私：在許多應用中，用于訓練機器學習算法的數據集包含了很多敏感的私人信息，例如推薦系統中的個人偏好和醫療信息等等。因此確保學習的模型并不會揭露任何訓練數據集中的個人記錄信息就顯得十分重要了。這一約束能使用差分隱私（differential privacy）概念形式化表達。保證個人數據點隱私的典型方法包括在執行 SGD 訓練模型時對梯度添加隨機噪聲，該方法依賴于使用不同的訓練數據子集混合所學習到的專家系統 [1]。

魯棒性：已經有研究者表明不同的機器學習模型包含神經網絡對數據集中很小的變化十分敏感，它們會對次要的、正確選擇的和解釋變量中的變動給出錯誤的響應。為了確保模型關于對抗樣本具有魯棒性，修正訓練過程是具有重要實踐意義的研究領域 [37]。

計算平臺和編程框架：為了擴展機器學習應用，利用分布式計算架構和相應的標準編程框架 [9] 是十分有必要的。

遷移學習：針對特定任務并使用給定數據集進行訓練的機器學習模型，目前如果需要應用到不同的任務還需要重新初始化和訓練。遷移學習研究領域即希望將預訓練模型從一個任務獲得的專業知識遷移到另一個任務中。神經網絡的典型解決方案規定了通用隱藏層的存在，即對不同任務訓練的神經網絡有一些隱藏層是相同的。

域適應（Domain adaptation）：在許多學習問題中，可用數據和測試數據的分布并不相同。例如在語音識別中，模型學習時所使用的用戶數據和訓練后其他用戶使用該模型所提供的語音數據是不同的。廣義 PAC 理論分析了這種情況，其將測試分布作為測試和訓練的分布差異函數而獲得了泛化誤差邊界。

有效通信學習（Communication-efficient learning）：在分布式計算平臺上，數據通常被分配在處理器中，處理器中的通信造成了延遲與能耗。一個重要的研究問題是找到學習性能與通信成本之間的最佳折衷。

強化學習：強化學習是機器學習方法最近大獲成功的根本核心，獲得了玩視頻游戲或與人類選手對決的必要技能。在強化學習中，一方想要學習世界中已觀察到的狀態 x 和動作 t 之間的最優映射，比如說 p(t|x, θ)。不同于監督學習，強化學習中最優動作不可知，機器會由于采取的動作而獲得一個獎勵／懲罰信號。其中一個流行的方法是深度強化學習，它通過神經網絡建模映射 p(t|x, θ)。通過使用強化方法評估梯度并借助 SGD，這被訓練從而最大化平均獎勵。

付費5元查看完整內容

機器學習 · 圖核方法 · 核方法 ·

2021 年 3 月 1 日

[付費5元查看完整內容]923頁ppt！經典課《機器學習核方法》，附視頻

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本課程深入介紹機器學習中的數學理論、算法和核方法的應用。該課程是為研究生開設的，由Julien Mairal和Jean-Philippe Vert于2021年教授，是巴黎高等師范學院“數學、計算機視覺和機器學習”碩士課程的一部分。

//members.cbio.mines-paristech.fr/~jvert/svn/kernelcourse/course/2021mva/index.html

機器學習在現實世界應用中的許多問題可以被形式化為經典的統計問題，例如模式識別、回歸或降維，但要注意的是數據通常不是數字的向量。例如，計算生物學中的蛋白質序列和結構、web挖掘中的文本和XML文檔、圖像處理中的分割圖像、語音識別和金融中的時間序列，都具有包含統計問題相關信息但難以編碼為有限維向量表示的特定結構。

內核方法是一類非常適合于此類問題的算法。實際上，它們將最初為向量設計的許多統計方法的適用性擴展到了幾乎任何類型的數據，而不需要對數據進行明確的向量化。向非向量擴展的代價是需要在對象之間定義一個所謂的正定核函數，形式上相當于數據的隱式向量化。近年來，各種對象內核設計的“藝術”取得了重要的進展，產生了許多最先進的算法，并在許多領域獲得了成功的應用。

本課程的目的是介紹核方法的數學基礎，以及到目前為止在核設計中出現的主要方法。我們將首先介紹正定核的理論和重建核希爾伯特空間，這將允許我們介紹幾種核方法，包括核主成分分析和支持向量機。然后我們再回到定義內核的問題。我們將介紹關于Mercer核和半群核的主要結果，以及字符串和圖的核的一些例子，從計算生物學的應用，文本處理和圖像分析。最后，我們將討論一些活躍的研究課題，如大規模核方法和深度核機器。

付費5元查看完整內容

Python · 機器學習 ·

2021 年 2 月 25 日

[付費5元查看完整內容]【干貨書】Python機器學習，361頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

學習使用Python分析數據和預測結果的更簡單和更有效的方法

Python機器學習教程展示了通過關注兩個核心機器學習算法家族來成功分析數據，本書能夠提供工作機制的完整描述，以及使用特定的、可破解的代碼來說明機制的示例。算法用簡單的術語解釋，沒有復雜的數學，并使用Python應用，指導算法選擇，數據準備，并在實踐中使用訓練過的模型。您將學習一套核心的Python編程技術，各種構建預測模型的方法，以及如何測量每個模型的性能，以確保使用正確的模型。關于線性回歸和集成方法的章節深入研究了每種算法，你可以使用書中的示例代碼來開發你自己的數據分析解決方案。

機器學習算法是數據分析和可視化的核心。在過去，這些方法需要深厚的數學和統計學背景，通常需要結合專門的R編程語言。這本書演示了機器學習可以如何實現使用更廣泛的使用和可訪問的Python編程語言。

使用線性和集成算法族預測結果

建立可以解決一系列簡單和復雜問題的預測模型

使用Python應用核心機器學習算法

直接使用示例代碼構建自定義解決方案

機器學習不需要復雜和高度專業化。Python使用了更簡單、有效和經過良好測試的方法，使這項技術更容易為更廣泛的受眾所接受。Python中的機器學習將向您展示如何做到這一點，而不需要廣泛的數學或統計背景。

付費5元查看完整內容

自然語言標注 · 機器學習 ·

2021 年 2 月 12 日

[付費5元查看完整內容]【經典書】自然語言標注—用于機器學習，341頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

“語言標注是自然語言處理的關鍵環節，但是它很少在計算語言學課程中被提及。這是第一本手把手講解標注的書籍，從規范和設計到使用機器學習算法面面俱到。它必然成為本科和研究生的計算語言學課程的范本。” ——Nancy Ide Vassar學院的計算機科學教授

是時候創建屬于你自己的用于機器學習的自然語言訓練語料庫了。無論你使用英語、漢語或者其他任何一種自然語言，本書都可以手把手地指導你一種經驗證的標注開發周期——把元語添加到你的訓練語料庫中來幫助機器學習算法更有效工作的過程。你無需任何編程或者語言學方面的經驗就可以上手。

通過每一步中的詳細示例，你將學到“標注開發過程”是如何幫助你建模、標注、訓練、測試、評估和修正你的訓練語料庫。你也將了解到一個實際標注項目的完整演示。

在收集你的數據集（語料庫）之前定義一個清晰的標注目標學習用于分析你的語料庫中語言內容的工具搭建用于你的標注項目的模型和規范檢查從基本的XML到語言標記框架這樣一些不同的標注格式創建適合于訓練和測試機器學習算法的黃金標準語料庫

選擇用來處理你的標注數據的機器學習算法評估測試結果并修正你的標注任務學習如何使用用于標注文本和調整標注的輕量級軟件

James Pustejovsky是Brandeis大學的教授，他在該大學的計算機科學系講解和研究人工智能及計算語言學。

Amber Stubbs剛剛獲得了Brandeis大學標注方法論的博士學位。她現在是SUNY Albany大學的博士后。

付費5元查看完整內容

統計學習 · 序列預測 ·

2020 年 11 月 17 日

[付費5元查看完整內容]【MIT經典書】統計學習與序列預測，261頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本書將側重于統計學習和序列預測(在線學習)的理論方面。在本筆記的第一部分，我們將使用經典的工具:集中不等式、隨機平均、覆蓋數字和組合參數來分析學習的i.i.d.數據。然后，我們將重點放在序列預測上，并開發許多用于在此場景中學習的相同工具。后一部分是基于最近的研究，并提出了進一步研究的方向。我們在整個課程中強調的極大極小方法，提供了一種比較學習問題的系統方法。除了理論分析，我們將討論學習算法，特別是學習和優化之間的重要聯系。我們的框架將處理開發接近最優和計算效率的算法。我們將用矩陣補全、鏈路預測等問題來說明這一點。如果時間允許，我們將深入了解信息理論和博弈論，并展示我們的新工具如何無縫地產生許多有趣的結果。

付費5元查看完整內容

概率 · 統計學 ·

2020 年 7 月 28 日

[付費5元查看完整內容]【經典書】概率統計導論第五版，730頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這本書的第五版繼續講述如何運用概率論來深入了解真實日常的統計問題。這本書是為工程、計算機科學、數學、統計和自然科學的學生編寫的統計學、概率論和統計的入門課程。因此，它假定有基本的微積分知識。

第一章介紹了統計學的簡要介紹，介紹了它的兩個分支:描述統計學和推理統計學，以及這門學科的簡短歷史和一些人，他們的早期工作為今天的工作提供了基礎。

第二章將討論描述性統計的主題。本章展示了描述數據集的圖表和表格，以及用于總結數據集某些關鍵屬性的數量。

為了能夠從數據中得出結論，有必要了解數據的來源。例如，人們常常假定這些數據是來自某個總體的“隨機樣本”。為了確切地理解這意味著什么，以及它的結果對于將樣本數據的性質與整個總體的性質聯系起來有什么意義，有必要對概率有一些了解，這就是第三章的主題。本章介紹了概率實驗的思想，解釋了事件概率的概念，并給出了概率的公理。

我們在第四章繼續研究概率，它處理隨機變量和期望的重要概念，在第五章，考慮一些在應用中經常發生的特殊類型的隨機變量。給出了二項式、泊松、超幾何、正規、均勻、伽瑪、卡方、t和F等隨機變量。

付費5元查看完整內容

概率 · 統計 · 機器學習 ·

2020 年 6 月 3 日

[付費5元查看完整內容]【干貨書】用于概率、統計和機器學習的Python，288頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本書涵蓋了這些領域中使用Python模塊演示的概率、統計和機器學習的關鍵思想。整本書包括所有的圖形和數值結果，都可以使用Python代碼及其相關的Jupyter/IPython Notebooks。作者通過使用多種分析方法和Python代碼的有意義的示例，開發了機器學習中的關鍵直覺，從而將理論概念與具體實現聯系起來。現代Python模塊(如panda、y和Scikit-learn)用于模擬和可視化重要的機器學習概念，如偏差/方差權衡、交叉驗證和正則化。許多抽象的數學思想，如概率論中的收斂性，都得到了發展，并用數值例子加以說明。本書適合任何具有概率、統計或機器學習的本科生，以及具有Python編程的基本知識的人。

付費5元查看完整內容

機器學習 · 機器學習精要 ·

2020 年 4 月 5 日

[付費5元查看完整內容]【干貨書】機器學習精要，基礎、算法和應用，301頁pdf，西北大學

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文采用了一種獨特的機器學習方法，它包含了對進行研究、開發產品、修補和玩耍所必需的所有基本概念的全新的、直觀的、但又嚴謹的描述。通過優先考慮幾何直觀，算法思維，和實際應用的學科，包括計算機視覺，自然語言處理，經濟學，神經科學，推薦系統，物理，和生物學，這篇文章為讀者提供了一個清晰的理解基礎材料以及實際工具需要解決現實世界的問題。通過深入的Python和基于MATLAB/ octave的計算練習，以及對前沿數值優化技術的完整處理，這是學生的基本資源，也是從事機器學習、計算機科學、電子工程、信號處理和數值優化的研究人員和實踐者的理想參考。其他資源包括補充討論主題、代碼演示和練習，可以在官方教材網站mlrefined.com上找到。