掌握數據科學、機器學習和統計學方面的數學知識。在這本書中,作者Thomas Nield將指導您學習微積分、概率、線性代數和統計學等領域,以及如何將它們應用到線性回歸、邏輯回歸和神經網絡等技術中。在此過程中,您還將獲得關于數據科學狀態的實際見解,以及如何利用這些見解來最大化您的職業生涯。
//www.oreilly.com/library/view/essential-math-for/9781098102920/
學習如何:
//nostarch.com/math-deep-learning
深度學習無處不在,這使得AI的強大驅動力成為更多STEM專業人士需要了解的東西。學習使用哪個庫命令是一回事,但要真正理解這一原則,您需要掌握使之正確的數學概念。本書將為您提供概率論、統計學、線性代數和微分學等主題的工作知識,這些是使深度學習易于理解的基本數學知識,也是成功練習深度學習的關鍵。 這四個子領域中的每一個都與Python代碼和實際操作的示例相關聯,這些示例彌合了純數學及其在深度學習中的應用之間的差距。章節建立在彼此的基礎上,基本的主題,如貝葉斯定理,然后是更高級的概念,如使用向量、矩陣和函數的導數訓練神經網絡。在探索和實現深度學習算法時,您將最終使用所有這些數學知識,包括反向傳播和梯度下降——這些基本算法使AI革命成為可能。 你將學習:
目錄內容:
Introduction Chapter 1: Setting the Stage Chapter 2: Probability Chapter 3: More Probability Chapter 4: Statistics Chapter 5: Linear Algebra Chapter 6: More Linear Algebra Chapter 7: Differential Calculus Chapter 8: Matrix Calculus Chapter 9: Data Flow in Neural Networks Chapter 10: Backpropagation Chapter 11: Gradient Descent Appendix: Going Further View the Copyright page
View the detailed Table of Contents
View the Index
現在是進入數據科學領域的最佳時機。但是你從哪里開始呢?數據科學是一個廣泛的領域,包括統計學、機器學習和數據工程等方面。人們很容易變得不知所措,或最終只學習數據科學的一小部分或單一的方法。
//www.manning.com/books/exploring-data-science
《探索數據科學》由五個章節組成,向你介紹了數據科學的各個領域,并解釋了哪種方法最適合每個領域。《實用數據科學與R》的作者John Mount和Nina Zumel選擇了這些章節來給你展示許多數據領域的大圖景。您將學習時間序列、神經網絡、文本分析等。當您探索不同的建模實踐時,您將看到如何在數據科學中使用R、Python和其他語言的實際示例。
數據科學是一個涉及統計學、機器學習和數據工程等方面的廣泛領域。工具、方法和工作的樣子很大程度上取決于您的問題領域和觀點。我們的書《實用數據科學與R》向讀者介紹了R語言中的基本預測建模。但是,我們的意圖絕不是暗示數據科學家可以將自己限制在一個問題領域或一種實現語言。現在是進入數據科學的大好時機。免費工具和材料的數量激增。存儲和管理大型數據集現在明顯更容易了。然而,這種多樣性似乎勢不可擋,并造成分裂。傳統的統計學家可能不認為文本分析是數據科學,類似地,使用神經網絡分析圖像的人可能不會欣賞經典的統計推理。我們相信你的問題有助于你選擇你的技術。為了說明這個概念,我們把我們的書和曼寧的其他書名中的章節樣本放在一起。它們涵蓋了與數據科學相關的各種主題,突出了各種領域和編程語言。我們希望這些選擇能讓您更好地了解許多可用的工具,以解決特定的數據科學問題。
你們已經學過了一些基本的統計學知識。均值、中位數和標準差都很熟悉。你知道調查和實驗,以及相關和簡單回歸的基本概念。你已經學習了概率,誤差范圍,一些假設檢驗和置信區間。你準備好為你的統計工具箱裝載新的工具了嗎?Statistics II For Dummies, 2nd Edition,拾取了Statistics For Dummies, 2nd Edition, (John Wiley & Sons)的右邊,并保持你沿著統計學的想法和技術的道路,以積極的,一步一步的方式。《傻瓜統計II》第二版的重點是尋找更多分析數據的方法。我會一步一步地說明如何使用一些技術,如多元回歸、非線性回歸、單向和雙向方差分析(ANOVA)和卡方檢驗,我還會給你一些使用大數據集的練習,這是現在非常流行的。使用這些新技術,您可以根據手頭的信息估計、調查、關聯和聚集更多的變量,并看到如何將這些工具組合在一起,創建一個關于您的數據的偉大故事(我希望是非虛構的!)。
//www.wiley.com/en-ag/Statistics+II+For+Dummies,+2nd+Edition-p-9781119827399
這本書是為那些已經通過置信區間和假設檢驗完成統計學的基本概念的人設計的(在《傻瓜統計學》第二版中找到),他們已經準備好了通過Stats I的最后部分,或者解決Stats II的問題。不過,我還是會根據需要對Stats進行一些簡要概述,以提醒您所涵蓋的內容,并確保您了解最新情況。對于每一項新技術,您都可以從經驗豐富的數據分析師(真正屬于您的)那里獲得關于何時以及為何使用它的概述,如何知道何時需要它,如何應用它的逐步指導,以及提示和技巧。因為知道何時使用哪種方法是非常重要的,我強調是什么使每一種技術不同,以及結果告訴你什么。您還將看到這些技術在現實生活中的許多應用。
本書是Coursera統計推理課程的配套教材,是數據科學專業的一部分。然而,如果你不上這門課,這本書基本上是獨立的。這本書的一個有用的組成部分是包括Coursera課程的一系列YouTube視頻。這本書是對統計推斷做介紹。目標受眾是具有數字和計算能力的學生,他們希望將這些技能用于數據科學或統計學。
這本書的第三版繼續演示如何應用概率論,以獲得洞察到真實的,日常統計問題和情況。這種方法最終導致了對統計程序和策略的直觀理解,最常用的是實踐工程師和科學家。這本書是為統計學或概率和統計的入門課程而寫的,為工程、計算機科學、數學、統計學和自然科學的學生而寫。因此,它假定你有初等微積分知識。
第一章簡要介紹統計學,介紹它的兩個分支,描述性統計和推理統計學,并簡要介紹該學科的歷史和一些人的早期工作為今天所做的工作奠定了基礎。描述性統計的主題將在第二章中討論。描述數據集的圖和表在本章中給出,以及用于總結數據集某些關鍵屬性的數量。要想從數據中得出結論,就必須了解數據的來源。例如,通常假設數據是來自某些總體的“隨機樣本”。為了準確理解這意味著什么,以及將樣本數據屬性與總體屬性相關聯的結果是什么,有必要對概率有一些了解,這是第三章的主題。本章介紹了概率實驗的思想,解釋了事件概率的概念,并給出了概率的公理。我們的概率研究將在第四章繼續,這一章涉及隨機變量和期望的重要概念,在第五章,考慮一些在應用中經常出現的特殊類型的隨機變量。給出了二項式、泊松、超幾何、正態、均勻、伽馬、卡方、t和F等隨機變量。在第6章中,我們研究了樣本均值和樣本方差等抽樣統計量的概率分布。我們將展示如何使用一個著名的概率理論結果,即中心極限定理,來近似樣本均值的概率分布。此外,我們還介紹了關節基礎數據來自正態分布總體的重要特殊情況下的樣本均值和樣本方差的概率分布。第7章展示了如何使用數據來估計感興趣的參數。第8章介紹了統計假設檢驗的重要主題,它涉及到使用數據來檢驗特定假設的可信性。第9章討論回歸的重要課題。簡單線性回歸(包括回歸到均值、殘差分析和加權最小二乘等子主題)和多元線性回歸都被考慮在內。第10章是方差分析。考慮了單向和雙向(有或沒有交互的可能性)問題。第11章是關于擬合優度檢驗,它可以用來檢驗所提出的模型是否與數據一致。文中給出了經典的卡方擬合優度檢驗,并將其應用于列聯表的獨立性檢驗。本章的最后一節介紹了Kolmogorov-Smirnov程序,用于測試數據是否來自特定的連續概率分布。第12章討論了非參數假設檢驗,當人們無法假設潛在的分布具有某些特定的參數形式(如正態分布)時,可以使用非參數假設檢驗。第13章考慮質量控制的主題,一個關鍵的統計技術在制造和生產過程。我們考慮了各種控制圖,不僅包括休哈特控制圖,還包括基于移動平均線和累積總和的更復雜的控制圖。第14章討論與壽命試驗有關的問題。在本章中,指數分布,而不是正態分布,起著關鍵作用。
《數據科學與機器學習概論》的創建目標是為尋求了解數據科學的初學者、數據愛好者和經驗豐富的數據專業人士提供從頭到尾對使用開源編程進行數據科學應用開發的深刻理解。這本書分為四個部分: 第一部分包含對這本書的介紹,第二部分涵蓋了數據科學、軟件開發和基于開源嵌入式硬件的領域; 第三部分包括算法,是數據科學應用的決策引擎; 最后一節匯集了前三節中共享的概念,并提供了幾個數據科學應用程序示例。
^
By Pakize Erdogmus and Fatih Kayaalp
By Deanne Larson
數據科學和大數據項目的數量正在增長,當前的軟件開發方法受到了挑戰,以支持和促進這些項目的成功和頻率。關于如何使用數據科學算法以及大數據的好處已經有了很多研究,但是關于可以利用哪些最佳實踐來加速和有效地交付數據科學和大數據項目的研究卻很少。大數據的數量、種類、速度和準確性等特點使這些項目復雜化。數據科學家可利用的開源技術的激增也會使情況變得復雜。隨著數據科學和大數據項目的增加,組織正在努力成功交付。本文討論了數據科學和大數據項目過程,過程中的差距,最佳實踐,以及這些最佳實踐如何在Python中應用,Python是一種常見的數據科學開源編程語言。
正如人們所期望的那樣,技術書籍的大部分時間都集中在技術方面。然而,這造成了一種錯覺,即技術在某種程度上是沒有偏見的,總是中性的,因此適合每個人。后來,當產品已經存在時,現實會證明我們不是這樣的。包含和表示在設計和建模階段是至關重要的。在本章中,我們將從架構的角度分析,哪些非功能性需求是最敏感的,以及如何開始討論它們以最大限度地提高我們的軟件產品成功的可能性。
Embedded Systems Based on Open Source Platforms By Zlatko Bundalo and Dusanka Bundalo
The K-Means Algorithm Evolution By Joaquín Pérez-Ortega, Nelva Nely Almanza-Ortega, Andrea Vega-Villalobos, Rodolfo Pazos-Rangel, Crispín Zavala-Díaz and Alicia Martínez-Rebollar
“Set of Strings” Framework for Big Data Modeling By Igor Sheremet
Investigation of Fuzzy Inductive Modeling Method in Forecasting Problems By Yu. Zaychenko and Helen Zaychenko
Segmenting Images Using Hybridization of K-Means and Fuzzy C-Means Algorithms By Raja Kishor Duggirala
The Software to the Soft Target Assessment By Lucia Mrazkova Duricova, Martin Hromada and Jan Mrazek
The Methodological Standard to the Assessment of the Traffic Simulation in Real Time By Jan Mrazek, Martin Hromada and Lucia Duricova Mrazkova
Augmented Post Systems: Syntax, Semantics, and Applications By Igor Sheremet
Serialization in Object-Oriented Programming Languages By Konrad Grochowski, Micha? Breiter and Robert Nowak
本章描述了將對象狀態轉換為一種格式的過程,這種格式可以在當前使用的面向對象編程語言中傳輸或存儲。這個過程稱為序列化(封送處理);相反的稱為反序列化(反編組)進程。它是一種低級技術,應該考慮一些技術問題,如內存表示的大小、數字表示、對象引用、遞歸對象連接等。在本章中,我們將討論這些問題并給出解決辦法。我們還簡要回顧了當前使用的工具,并指出滿足所有需求是不可能的。最后,我們提供了一個新的支持向前兼容性的c++庫。
有興趣的數據科學專業人士可以通過本書學習Scikit-Learn圖書館以及機器學習的基本知識。本書結合了Anaconda Python發行版和流行的Scikit-Learn庫,演示了廣泛的有監督和無監督機器學習算法。通過用Python編寫的清晰示例,您可以在家里自己的機器上試用和試驗機器學習的原理。
所有的應用數學和編程技能需要掌握的內容,在這本書中涵蓋。不需要深入的面向對象編程知識,因為工作和完整的例子被提供和解釋。必要時,編碼示例是深入和復雜的。它們也簡潔、準確、完整,補充了介紹的機器學習概念。使用示例有助于建立必要的技能,以理解和應用復雜的機器學習算法。
對于那些在機器學習方面追求職業生涯的人來說,Scikit-Learn機器學習應用手冊是一個很好的起點。學習這本書的學生將學習基本知識,這是勝任工作的先決條件。讀者將接觸到專門為數據科學專業人員設計的蟒蛇分布,并將在流行的Scikit-Learn庫中構建技能,該庫是Python世界中許多機器學習應用程序的基礎。
你將學習
這本書是給誰的