為了提取知識和做出預測,機器學習使用數學模型來擬合數據。這些模型將特征作為輸 入。特征就是原始數據某個方面的數值表示。在機器學習流程中,特征是數據和模型之間 的紐帶。特征工程是指從原始數據中提取特征并將其轉換為適合機器學習模型的格式。它 是機器學習流程中一個極其關鍵的環節,因為正確的特征可以減輕構建模型的難度,從而 使機器學習流程輸出更高質量的結果。機器學習從業者有一個共識,那就是建立機器學習 流程的絕大部分時間都耗費在特征工程和數據清洗上。然而,盡管特征工程非常重要,專 門討論這個話題的著作卻很少。究其原因,可能是正確的特征要視模型和數據的具體情況 而定,而模型和數據千差萬別,很難從各種項目中歸納出特征工程的實踐原則。
然而,特征工程并不只是針對具體項目的行為,它有一些基本原則,而且最好結合具體情 境進行解釋說明。在本書中,每一章都集中闡述一個數據問題:如何表示文本數據或圖像 數據,如何為自動生成的特征降低維度,何時以及如何對特征進行標準化,等等。你可以 將本書看作內容互有聯系的短篇小說集,而不是一部長篇小說。每一章都對大量現有特征 工程技術進行了簡單介紹,它們綜合在一起,闡明了特征工程的基本原則。
掌握一門學科不僅僅是要了解其中的定義以及能夠推導公式。僅知道它的工作機制和用途 是不夠的,你還必須理解它為什么這樣設計,它與其他技術有何聯系,以及每種方法的優 點和缺點。只有清楚地知道事情是如何完成的,對其中的基本原理有直觀的理解,并能將 知識融會貫通,才稱得上精通。盡管一本好書可以讓你初窺門徑,但只靠讀書不能登堂入 室,你必須動手實踐,將你的想法變成實際的應用,這是一個不斷迭代的過程。在每次迭 代中,我們都能將想法理解得更加透徹,并逐漸找到更巧妙、更有創造性的實現方法。本書的目的就是幫助你更好地實現想法。
第 8 章專門講解圖像處理, 圖像數據的特征提取要比文本數據困難得多。我們先介紹兩種手動提取特征的技術:SIFT 和 HOG,然后再介紹深度學習這種最新的圖像特征提取技術。
最后,第 9 章通過一個完 整的例子(為一個學術論文數據集創建推薦器)演示幾種技術的實際應用。
通過這個緊湊的實用指南,開始使用Python進行數據分析。這本書包括三個練習和一個用正確的格式從Python代碼中獲取數據的案例研究。使用Python學習數據分析還可以幫助您使用分析發現數據中的意義,并展示如何可視化數據。
每一節課都盡可能是獨立的,允許您根據需要插入和退出示例。如果您已經在使用Python進行數據分析,那么您會發現您希望知道如何使用Python來完成許多事情。然后,您可以將這些技術直接應用到您自己的項目中。
如果您不使用Python進行數據分析,那么本書從一開始就帶您了解基礎知識,為您在該主題中打下堅實的基礎。當你閱讀完這本書的時候,你會對如何使用Python進行數據分析有更好的理解。
你將學到什么
這本書是給誰的
想學習使用Python進行數據分析的同學。建議您具有Python方面的經驗,但不是必需的,因為您需要具有數據分析或數據科學方面的經驗。
高斯過程(GPs)為核機器的學習提供了一種有原則的、實用的、概率的方法。在過去的十年中,GPs在機器學習社區中得到了越來越多的關注,這本書提供了GPs在機器學習中理論和實踐方面長期需要的系統和統一的處理。該書是全面和獨立的,針對研究人員和學生在機器學習和應用統計學。
這本書處理監督學習問題的回歸和分類,并包括詳細的算法。提出了各種協方差(核)函數,并討論了它們的性質。從貝葉斯和經典的角度討論了模型選擇。討論了許多與其他著名技術的聯系,包括支持向量機、神經網絡、正則化網絡、相關向量機等。討論了包括學習曲線和PAC-Bayesian框架在內的理論問題,并討論了幾種用于大數據集學習的近似方法。這本書包含說明性的例子和練習,和代碼和數據集在網上是可得到的。附錄提供了數學背景和高斯馬爾可夫過程的討論。
本備忘單是機器學習手冊的濃縮版,包含了許多關于機器學習的經典方程和圖表,旨在幫助您快速回憶起機器學習中的知識和思想。
這個備忘單有兩個顯著的優點:
清晰的符號。數學公式使用了許多令人困惑的符號。例如,X可以是一個集合,一個隨機變量,或者一個矩陣。這是非常混亂的,使讀者很難理解數學公式的意義。本備忘單試圖規范符號的使用,所有符號都有明確的預先定義,請參見小節。
更少的思維跳躍。在許多機器學習的書籍中,作者省略了數學證明過程中的一些中間步驟,這可能會節省一些空間,但是會給讀者理解這個公式帶來困難,讀者會在中間迷失。
簡介: 特征工程在機器學習、數據挖掘和數據分析中起著關鍵作用。本文提供了特征工程的一般定義,以及該領域的主要問題、方法和挑戰的概述。特征工程在大數據分析中起著關鍵作用。沒有數據,機器學習和數據挖掘算法就無法工作。如果沒有表示基礎數據對象的功能,大數據分析則幾乎不能實現,并且這些算法的結果質量在很大程度上取決于可用特征的質量。數據通常以各種形式存在,如圖像、文本、圖形、序列和時間序列。表示數據對象的常見方法是使用特征矢量。即使由特征向量表示的數據可能仍然需要新的有效特征。特征工程涉及滿足生成和選擇基于特征向量的有效數據表示的需求。
本書目錄:
下載鏈接: 鏈接://pan.baidu.com/s/1rshWh8-ST_Mtkw525mz-yQ
提取碼:4abr
由于特征工程通常是特定于數據類型且依賴于應用程序的,本書包含專門介紹主要數據類型的特征工程的章節,如文本數據、圖像數據、序列數據、時間序列數據、圖形數據、流數據、軟件工程數據、Twitter 數據和社交媒體數據。這些章節介紹了生成經過反復測試、手工制作的特定于域的功能以及自動通用功能生成方法(如 Word2Vec)的方法。
本書目錄:
本書還包含有關特征選擇、基于特征轉換的自動方法、使用深度學習方法生成功能以及使用頻繁和對比度模式生成特征的章節。有幾章是關于在特定應用中使用特征工程的。
本書包含許多有用的特征工程概念和技術,這些概念和技術適用于多種方案:(a) 生成功能以表示沒有要素時的數據,(b) 在(人們可能擔心)存在時生成有效特征功能不夠好/競爭力不夠,(c) 在功能過多時選擇功能,(d) 為特定類型的應用程序生成和選擇有效功能,以及 (e) 了解與相關挑戰以及需要處理的方法,各種數據類型。