商業分析的數據挖掘:Python中的概念、技術和應用介紹了數據挖掘概念和方法的應用方法,使用Python軟件進行說明。讀者將學習如何在Python(一種免費的開源軟件)中實現各種流行的數據挖掘算法,以解決業務問題和機會。這是本書的第六個版本,也是第一個使用Python的版本。它涵蓋了預測、分類、可視化、降維、推薦系統、聚類、文本挖掘和網絡分析的統計和機器學習算法。它還包括:一位新的合著者,Peter Gedeck,他帶來了使用Python教授商業分析課程的經驗,以及在藥物發現過程中應用機器學習方法的專業知識關于數據挖掘中的倫理問題的新章節根據MBA、本科、文憑和高管課程的教師和學生的反饋更新和新材料十多個案例研究演示了所描述的數據挖掘技術的應用章末練習,幫助讀者衡量和擴大他們的理解和能力提出的材料。一個有二十多個數據集的配套網站,以及包括練習解決方案、PowerPoint幻燈片和案例解決方案在內的指導材料商業分析的數據挖掘:Python中的概念、技術和應用是數據挖掘、預測分析和商業分析的研究生和本科以上水平課程的理想教材。這個新版本也是一個很好的參考分析,研究人員,和從業人員在商業,金融,市場營銷,計算機科學和信息技術領域的定量方法工作。這本書是迄今為止我所見過的最全面的商業分析方法綜述,涵蓋了從線性和邏輯回歸等經典方法,到神經網絡、bagging和boosting等現代方法,甚至更具體的商業程序,如社交網絡分析和文本挖掘。即使不是圣經,它也至少是這方面的權威手冊。”——南加州大學的gareth M. James(與Witten, hasttie和Tibshirani)合著了暢銷書《統計學習導論》,并在R
這本教科書介紹了時間序列分析和預測的方法和技術,并展示了如何使用Python實現它們和解決數據科學問題。它不僅涵蓋了常用的統計方法和時間序列模型,包括ARMA、SARIMA、VAR、GARCH、狀態空間和(非)平穩、多元和金融時間序列的馬爾可夫切換模型,還包括現代機器學習程序和時間序列預測的挑戰。它提供了時間序列分析原理和Python編程的有機結合,使讀者能夠學習方法和技術,同時練習編寫和運行Python代碼。它的數據驅動方法來分析和建模時間序列數據,幫助新學習者可視化和解釋原始數據及其計算結果。本書主要面向具有概率和統計學本科知識的統計學、經濟學和數據科學專業的學生,同樣也會吸引人工智能和數據科學領域的行業專業人士,以及任何對使用Python解決時間序列問題感興趣的人。
“Brumback的文本以這種清晰、嚴謹、可讀的方式,用概率和統計的基本原理展示了因果推理的概念,這將極大地提高學生、研究人員和各行各業從業者對因果推理的可及性。” -Debashis Ghosh,《國際統計評論》,2022年3月
人類臨床試驗和觀察性研究的主要動機之一是推斷因果關系。理清因果關系是極其重要的。《因果推理基礎》從潛在結果和圖形模型的角度解釋和關聯了混雜調整的不同方法,包括標準化、差中差估計、前門法、工具變量估計和傾向評分法。它還涵蓋了效果測量修正、精度變量、中介分析和時間相關的混雜。一些真實的數據實例、模擬研究和使用R的分析貫穿始終。本書假定熟悉基本統計和概率、回歸和R,適合統計學、生物統計學和數據科學的高年級學生或研究生以及其他各種學科的博士生,包括流行病學、藥學、健康科學、教育和社會、經濟和行為科學。
本書以簡要的歷史和概率論和統計基本要素的回顧開始,一個獨特的特點是它的焦點是真實和模擬的數據集,所有二進制變量,以減少復雜的方法到它們的基本原理。微積分不是必需的,但是愿意處理數學符號、復雜的概念和復雜的邏輯論證是必不可少的。雖然包含了許多真實的數據例子,但本書也以雙重假設研究為特色,它基于已知因果機制的模擬數據,相信在已知方法成功或失敗的情況下,這些方法是最好的理解。數據集,R代碼和奇數練習的解決方案可在該書的網站www.routledge.com/9780367705053上獲得。
學習如何在編寫高性能python程序和算法中使用數據結構這篇關于數據結構和算法的實用介紹可以幫助每一個想要編寫更高效軟件的程序員。本書以Robert Lafore基于java的傳奇指南為基礎,幫助學生準確理解數據結構和算法是如何運行的。您將學習如何用非常流行的Python語言有效地應用它們,并擴展您的代碼以應對當今的大數據挑戰。在整個過程中,作者關注現實世界的例子,用直觀的交互式可視化交流關鍵思想,并將復雜性和數學限制在提高性能所需的范圍內。他們逐步介紹了數組、排序、堆棧、隊列、鏈表、遞歸、二叉樹、2-3-4樹、哈希表、空間數據結構、圖等等。它們的代碼示例和插圖非常清晰,即使你是一個接近初學者,或者你有使用其他過程或面向對象語言的經驗,你也可以理解它們。
《數據科學設計手冊》提供了實用的見解,突出了分析數據中真正重要的東西,并提供了如何使用這些核心概念的直觀理解。這本書沒有強調任何特定的編程語言或數據分析工具套件,而是專注于重要設計原則的高級討論。這個易于閱讀的文本理想地服務于本科生和早期研究生的需要,開始“數據科學入門”課程。它揭示了這門學科是如何以其獨特的分量和特點,處于統計學、計算機科學和機器學習的交叉領域。在這些和相關領域的從業者會發現這本書完美的自學以及。
《數據科學設計手冊》是數據科學的介紹,重點介紹建立收集、分析和解釋數據的系統所需的技能和原則。作為一門學科,數據科學位于統計學、計算機科學和機器學習的交匯處,但它正在構建自己獨特的分量和特征。
這本書涵蓋了足夠的材料在本科或早期研究生水平的“數據科學入門”課程。在這里可以找到教學這門課程的全套講課幻燈片,以及項目和作業的數據資源,以及在線視頻講座。
數據挖掘和機器學習的基本算法構成了數據科學的基礎,利用自動化方法分析各種數據的模式和模型,應用范圍從科學發現到商業分析。本教材面向本科和研究生課程,全面深入地介紹了數據挖掘、機器學習和統計學,為學生、研究人員和實踐者提供了堅實的指導。這本書奠定了數據分析、模式挖掘、聚類、分類和回歸的基礎,集中在算法和潛在的代數、幾何和概率概念上。新的第二版是一個完整的部分致力于回歸方法,包括神經網絡和深度學習。
涵蓋核心方法和前沿研究,包括深度學習
提供了一種基于開源實現的算法方法
包含了經過類測試的例子和練習,允許課程設計的靈活性和現成的參考
數據挖掘和機器學習使人能夠從數據中獲得基本的見解和知識。它們允許發現深刻的、有趣的和新穎的模式,以及從大規模數據中描述的、可理解的和可預測的模型。在這個領域有幾本好書,但其中很多不是太高級就是太高級。這本書是一個介紹性的文本,奠定了機器學習和數據挖掘的基本概念和算法的基礎。重要的概念在第一次遇到時就會被解釋,并附有詳細的步驟和推導。本書的主要目標是通過對數據和方法的幾何、(線性)代數和概率解釋的相互作用,建立公式背后的直覺。這第二版在回歸上增加了一個完整的新部分,包括線性和邏輯回歸,神經網絡,和深度學習。其他章節的內容也進行了更新,已知的勘誤表也得到了修正。本書的主要部分包括數據分析基礎、頻繁模式挖掘、聚類、分類和回歸。這些課程涵蓋了核心方法以及尖端主題,如深度學習、核方法、高維數據分析和圖分析。
深度學習,核方法,高維數據分析,圖分析。這本書包括許多例子來說明概念和算法。它也有結束語練習,在課堂上使用過。書中所有的算法都是由作者實現的。為了幫助實際理解,我們建議讀者自己實現這些算法(例如,使用Python或R)。如幻燈片、數據集和視頻等補充資源可以在該書的同伴站點在線獲得:
目錄內容: Front Matter Contents Preface
PART I. DATA ANALYSIS FOUNDATIONS
1 Data Mining and Analysis 2 Numeric Attributes 3 Categorical Attributes 4 Graph Data 5 Kernel Methods 6 High-dimensional Data 7 Dimensionality Reduction
PART II. FREQUENT PATTERN MINING
8 Itemset Mining 9 Summarizing Itemsets 10 Sequence Mining 11 Graph Pattern Mining 12 Pattern and Rule Assessment
PART III. CLUSTERING
13 Representative-based Clustering 14 Hierarchical Clustering 15 Density-based Clustering 16 Spectral and Graph Clustering 17 Clustering Validation PART IV. CLASSIFICATION
18 Probabilistic Classification 19 Decision Tree Classifier 20 Linear Discriminant Analysis 21 Support Vector Machines 22 Classification Assessment
PART V. REGRESSION
23 Linear Regression 24 Logistic Regression 25 Neural Networks 26 Deep Learning 27 Regression Evaluation
Index
圖片
通過使用Python開發用例,全面了解監督學習算法您將學習監督學習概念、Python代碼、數據集、最佳實踐、常見問題和缺陷的解決方案,以及實現結構化、文本和圖像數據集算法的實踐知識。
你將從介紹機器學習開始,強調監督學習、半監督學習和非監督學習之間的區別。在接下來的章節中,你將學習回歸和分類問題,它們背后的數學,像線性回歸、邏輯回歸、決策樹、KNN、樸素貝葉斯等算法,以及像隨機森林、支持向量機、梯度增強和神經網絡等高級算法。提供了所有算法的Python實現。最后,您將得到一個端到端模型開發流程,包括模型的部署和維護。在閱讀了Python的監督學習之后,你將會對監督學習和它的實際實現有一個廣泛的理解,并且能夠以一種創新的方式運行代碼和擴展它。
你將學習:
這本書是給誰的
獲得高級數據分析概念的廣泛基礎,并發現數據庫中的最新革命,如Neo4j、Elasticsearch和MongoDB。這本書討論了如何實現ETL技術,包括主題爬行,這是應用在諸如高頻算法交易和面向目標的對話系統等領域。您還將看到機器學習概念的示例,如半監督學習、深度學習和NLP。使用Python的高級數據分析還包括時間序列和主成分分析等重要的傳統數據分析技術。
讀完這本書,你將對分析項目的每個技術方面都有了經驗。您將了解使用Python代碼的概念,并提供在您自己的項目中使用的示例。
你會學到什么
這本書是給誰看的
對數據分析領域感興趣的數據科學家和軟件開發人員。
本書通過提供真實的案例研究和示例,為使用Python庫進行機器學習提供了堅實的基礎。它涵蓋了諸如機器學習基礎、Python入門、描述性分析和預測分析等主題。包括高級機器學習概念,如決策樹學習、隨機森林、增強、推薦系統和文本分析。這本書在理論理解和實際應用之間采取了一種平衡的方法。所有的主題都包括真實世界的例子,并提供如何探索、構建、評估和優化機器學習模型的逐步方法。