亚洲成AV人片乱码色午夜刚交-国产乱来免费视频

《The Art of Data Science》深入探討您隨時可以使用的大量數據，并從中探及索獲得見解。本書重點介紹如何分析數據并進行篩選，借此找出數據背后的故事。作者運用本身的經驗，透過分析數據科學引導初學者和管理人員。

兩位作者都擁有管理數據科學以及在專業環境中管理分析員的經驗。作者討論本身的經驗，說明哪些做法將確實產生成功的結果，以及哪些陷阱會導致數據科學必然失敗。

數據分析很難，部分原因是很少有人能解釋如何進行數據分析。這并不是說沒有人定期做數據分析。而是那些真正擅長于此的人還沒有告訴我們他們頭腦中進行的思考過程。

在這本書中，我們打算做的是寫下數據分析的過程。我們所描述的不是一個具體的數據分析“公式”——類似于“應用這個方法，然后運行那個測試”——而是一個可以應用于各種情況的通用過程。通過我們管理數據分析師和進行自己的數據分析的豐富經驗，我們仔細觀察了哪些可以產生一致的結果，哪些不能對數據產生有用的見解。我們的目標是把我們學到的東西寫下來，希望別人能發現它有用。

付費5元查看完整內容

相關內容

數據科學

關注 48

數據科學（英語：data science）是一門利用數據學習知識的學科，其目標是通過從數據中提取出有價值的部分來生產數據產品。它結合了諸多領域中的理論和技術，包括應用數學、統計、模式識別、機器學習、數據可視化、數據倉庫以及高性能計算。數據科學通過運用各種相關的數據來幫助非專業人士理解問題。

數據結構 · 算法 ·

2021 年 4 月 15 日

[付費5元查看完整內容]【經典書】數據結構與算法，770頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

高效數據結構的設計和分析長期以來被認為是計算機領域的一個重要學科，是計算機科學和計算機工程本科學位的核心課程的一部分。Python中的數據結構和算法介紹了數據結構和算法，包括它們的設計、分析和實現。本書適用于入門級數據結構課程，或中級算法入門課程。我們將在本序言后面更詳細地討論它在此類課程中的使用。

為了促進魯棒的和可重用的軟件的開發，我們試圖在整本書中采取一致的面向對象的觀點。面向對象方法的主要思想之一是，數據應該被封裝在訪問和修改它們的方法中。也就是說，不是簡單地將數據看作字節和地址的集合，而是將數據對象看作抽象數據類型(ADT)的實例，ADT包含了對這種類型的數據對象執行操作的一整套方法。然后我們強調，對于特定的ADT可能有幾種不同的實現策略，并探討這些選擇的優缺點。我們為幾乎所有討論過的數據結構和算法提供了完整的Python實現，我們還引入了重要的面向對象設計模式，將這些實現組織成可重用的組件。

我們書的讀者期望的結果包括: 他們了解最常見的數據集合抽象(如堆棧、隊列、列表、樹、地圖)。他們理解算法產生有效的實現策略常見的數據結構。他們可以從理論上和實驗上分析算法性能，并識別競爭策略之間的共同權衡。他們可以明智地使用現代編程語言庫中現有的數據結構和算法。他們有處理大多數基本數據結構和算法的具體實現的經驗。他們可以運用數據結構和算法來解決復雜的問題。

//www.wiley.com/en-us/Data+Structures+and+Algorithms+in+Python-p-9781118290279

付費5元查看完整內容

數理統計學 ·

2021 年 3 月 25 日

[付費5元查看完整內容]【經典書】數理統計學，142頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

統計學是關于可觀測現象的數學建模，使用隨機模型，以及分析數據:估計模型的參數和檢驗假設。在這些注釋中，我們研究了各種評估和測試程序。我們考慮它們的理論性質，并研究各種最優化的概念。

付費5元查看完整內容

信息論原理 ·

2021 年 3 月 22 日

[付費5元查看完整內容]【經典書】信息論原理，774頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本書是信息論領域中一本簡明易懂的教材。主要內容包括：熵、信源、信道容量、率失真、數據壓縮與編碼理論和復雜度理論等方面的介紹。

本書還對網絡信息論和假設檢驗等進行了介紹，并且以賽馬模型為出發點，將對證券市場研究納入了信息論的框架，從新的視角給投資組合的研究帶來了全新的投資理念和研究技巧。

本書適合作為電子工程、統計學以及電信方面的高年級本科生和研究生的信息論基礎教程教材，也可供研究人員和專業人士參考。

本書是一本簡明易懂的信息論教材。正如愛因斯坦所說：“凡事應該盡可能使其簡單到不能再簡單為止。''雖然我們沒有深人考證過該引語的來源（據說最初是在幸運蛋卷中發現的），但我們自始至終都將這種觀點貫穿到本書的寫作中。信息論中的確有這樣一些關鍵的思想和技巧，一旦掌握了它們、不僅使信息論的主題簡明，而且在處理新問題時提供重要的直覺。本書來自使用了十多年的信息論講義，原講義是信息論課程的高年級本科生和一年級研究生兩學期用的教材。本書打算作為通信理論．計算機科學和統計學專業學生學習信息論的教材。

信息論中有兩個簡明要點。第一，熵與互信息這樣的特殊量是為了解答基本問題而產生的。例如，熵是隨機變量的最小描述復雜度，互信息是度量在噪聲背景下的通信速率。另外，我們在以后還會提到，互信息相當于已知邊信息條件下財富雙倍的增長。第二，回答信息理論問邀的答案具有自然的代數結構。例如，熵具有鏈式法則，因而，謫和互信息也是相關的。因此，數據壓縮和通信中的問題得到廣泛的解釋。我們都有這樣的感受，當研究某個問題時，往往歷經大量的代數運算推理得到了結果，但此時沒有真正了解問題的全莪，最終是通過反復觀察結果，才對整個問題有完整、明確的認識。所以，對一個問題的全面理解，不是靠推理，而是靠對結果的觀察。要更具體地說明這一點，物理學中的牛頓三大定律和薛定諤波動方程也許是最合適的例子。誰曾預見過薛定諤波動方程后來會有如此令人敬畏的哲學解釋呢？

在本書中，我們常會在著眼于問題之前，先了解一下答案的性質。比如第2章中，我們定義熵、相對熵和互信息，研究它們之間的關系，再對這些關系作一點解釋·由此揭示如何融會貫通地使用各式各樣的方法解決實際問題。同理，我們順便探討熱力學第二定律的含義。熵總是增加嗎？答案既肯定也否定。這種結果會令專家感興趣，但初學者或i午認為這是必然的而不會深人考慮。

在實際教學中．教師往往會加人一自己的見解。事實上，尋找無人知道的證明或者有所創新的結果是一件很愉快的事情。如果有人將新的思想和已經證明的內容在課堂上講解給學生，那么不僅學生會積極反饋“對，對，對六而且會大大地提升教授該課程的樂崆我們正是這樣從研究本教材的許多新想法中獲得樂趣的。

本書加人的新素材實例包括信息論與博弈之間的關系，馬爾可夫鏈背景下熱力學第二定律的普遍性問題，信道容量定理的聯合典型性證明，赫夫曼碼的競爭最優性，以及關于最大熵譜密度估計的伯格（回定理的證明。科爾莫戈羅夫復雜度這一章也是本書的獨到之處。面將費希爾信息，互信息、中心極限定理以及布倫一閔可夫斯基不等式與熵冪不等式聯系在一起，也是我們引以為豪之處。令我們感到驚訝的是．關于行列式不等式的許多經典結論，當利用信息論不等式后會很容易得到證明。

自從香農的奠基性論文面世以來，盡管信息論已有了相當大的發展，但我們還是要努力強調它的連貫性。雖然香農創立信息論時受到通信理論中的問題啟發，然而我們認為信息論是一門獨立的學科，可應用于通信理論和統計學中。我們將信息論作為一個學科領域從通信理論、概率論和統計學的背景中獨立出來因為明顯不可能從這些學科中獲得難以理解的信息概念。由于本書中絕大多數結論以定理和證明的形式給出，所以，我們期望通過對這些定理的巧妙證明能說明這些結論的完美性。一般來講，我們在介紹問題之前先描述回題的解的性質，而這些很有的性質會使接下來的證明順理成章。

使用不等式串、中間不加任何文字、最后直接加以解釋，是我們在表述方式上的一項創新希望讀者學習我們所給的證明過程達到一定數量時，在沒有任何解釋的情況下就能理解其中的大部分步，并自己給出所需的解釋這些不等式串好比模擬到試題，讀者可以通過它們確認自己是否已掌握證明那些重要定理的必備知識。這些證明過程的自然流程是如此引人注目，以至于導致我們輕視了寫作技巧中的某條重要原則。由于沒有多余的話，因而突出了思路的邏輯性與主題思想u我們希望當讀者閱讀完本書后，能夠與我們共同分亨我們所推崇的，具有優美、簡潔和自然風格的信息論。

本書廣泛使用弱的典型序列的方法，此概念可以追溯到香農1948年的創造性工作，而它真正得到發展是在20世紀70年代初期。其中的主要思想就是所謂的漸近均分性(AEP),或許可以粗略地說成“幾乎一切事情都是等可能的"

第2章闡述了熵、相對熵和互信息之同的基本代數關系。漸近均分性是第3章重中之重的內容，這也使我們將隨機過程和數據壓縮的熵率分別放在第4章和第5章中論述。第6章介紹博弈，研究了數據壓縮的對偶性和財富的增長率。可作為對信息論進行理性思考基礎的科爾莫戈羅夫復雜度，擁有著巨大的成果，放在第14章中論述。我們的目標是尋找一個通用的最矩描述，而不是平均意義下的次佳描述。的確存在這樣的普遍性概念用來刻畫一個對象的復雜度。該章也論述了神奇數0，揭示數學上的不少奧秘，是圖靈機停止運轉概率的推廣。第7章論述信道容量定理。第8章敘述微分熵的必需知識，它們是將早期容量定理推廣到連續噪聲信道的基礎。基本的高斯信道容量問題在第9章中論述。第il章闡述信息論和統計學之間的關系，20世紀年代初期庫爾貝克首次對此進行了研究，此后相對被忽視。由于率失真理論比無噪聲數據壓縮理論需要更多的背景知識，因而將其放置在正文中比較靠后的第10章。

網絡信息理論是個大的主題，安排在第巧章，主要研究的是噪聲和干擾存在情形下的同時可達的信息流。有許多新的思想在網絡信息理論中開始活躍起來，其主要新要素有干擾和反饋第16章講述股票市場，這是第6章所討論的博弈的推廣，也再次表明了信息論和博弈之間的緊密聯系。第17章講述信息論中的不等式，我們借此一隅把散布于全書中的有趣不等式重新收攏在一個新的框架中，再加上一些關于隨機抽取子集熵率的有趣新不等式。集合和的體積的布倫一閔可夫斯基不等式，獨立隨機變量之和的有效方差的熵冪不等式以及費希爾信息不等式之間的美妙關系也將在此章中得到詳盡的闡述。

本書力求推理嚴密，因此對數學的要求相當高·要求讀者至少學過一學期的概率論課程且有扎實的數學背景，大致為本科高年級或研究生一年級水平。盡管如此，我們還是努力避免使用測度論。因為了解它只對第16章中的遍歷過程的AEP的證明過程起到簡化作用。這符合我們的觀點，那就是信息論基礎與技巧不同，后者才需要將所有推廣都寫進去。

本書的主體是第2，3，4，5，7，8，9，10，11和巧章，它們自成體系，讀懂了它們就可以對信息論有很好的理解。但在我們看來，第14章的科爾莫戈羅夫復雜度是深人理解信息論所需的必備知識。余下的幾章，從博弈到不等式．目的是使主題更加連貫和完美。

付費5元查看完整內容

Python · 機器學習 ·

2021 年 3 月 19 日

[付費5元查看完整內容]【干貨書】Python實現機器學習算法的一步一步指南，103頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這本書是為任何想學習如何開發機器學習系統的人準備的。我們將從理論和實踐兩方面涵蓋關于機器學習算法的最重要概念，并將使用Python編程語言中的Scikit-learn庫實現許多機器學習算法。在第一章中，您將學習機器學習最重要的概念，在下一章中，您將主要學習分類。在最后一章中，你將學習如何訓練你的模型。我假定你已經了解了編程的基礎知識。

付費5元查看完整內容

數據結構 · 數據表示 ·

2020 年 10 月 6 日

[付費5元查看完整內容]【2020新書】數據結構與數據表示指南，112頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

從一開始就創建良好的數據，而不是在收集數據之后修復它。通過遵循這本書中的指導方針，你將能夠進行更有效的分析，并產生研究數據的及時演示。

數據分析師通常與數據集提出了勘探和研究設計不良,導致解釋的困難和延誤產生有意義的結果。數據分析培訓的重點是如何在開始認真分析之前清理和轉換數據集。通過使用良好的數據集設計和理解數據類型如何決定可以執行的分析類型，可以避免不恰當或令人困惑的表示、度量單位選擇、編碼錯誤、缺失值、離群值等。

這本書討論了數據集創建的原則和最佳實踐，并涵蓋了基本數據類型及其相關的適當統計和可視化。這本書的一個重點是為什么選擇某些數據類型來表示概念和度量，而不是典型的討論如何分析選定的特定數據類型。

你會: 注意創建和收集數據的原則了解基本數據類型和表示選擇數據類型，預測分析目標理解數據集的結構和用于分析和共享的實踐由例子引導和用例(好的和壞的) 使用清潔工具和方法創建良好的數據

付費5元查看完整內容

Python · 編程 ·

2020 年 8 月 14 日

[付費5元查看完整內容]【干貨書】Python 編程，480頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如果您是用Python編程的新手，并且正在尋找可靠的介紹，那么這本書就是為您準備的。由計算機科學教師開發，在“為絕對初學者”系列叢書通過簡單的游戲創造教授編程的原則。您將獲得實際的Python編程應用程序所需的技能，并將了解如何在真實場景中使用這些技能。在整個章節中，你會發現一些代碼示例來說明所提出的概念。在每一章的結尾，你會發現一個完整的游戲，展示了這一章的關鍵思想，一章的總結，以及一系列的挑戰來測試你的新知識。當你讀完這本書的時候，你將非常精通Python，并且能夠將你所學到的基本編程原理應用到你要處理的下一種編程語言。

付費5元查看完整內容

Python · 機器學習 · Scikit-learn ·

2020 年 6 月 10 日

[付費5元查看完整內容]【實用書】Python機器學習Scikit-Learn應用指南，247頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

有興趣的數據科學專業人士可以通過本書學習Scikit-Learn圖書館以及機器學習的基本知識。本書結合了Anaconda Python發行版和流行的Scikit-Learn庫，演示了廣泛的有監督和無監督機器學習算法。通過用Python編寫的清晰示例，您可以在家里自己的機器上試用和試驗機器學習的原理。

所有的應用數學和編程技能需要掌握的內容，在這本書中涵蓋。不需要深入的面向對象編程知識，因為工作和完整的例子被提供和解釋。必要時，編碼示例是深入和復雜的。它們也簡潔、準確、完整，補充了介紹的機器學習概念。使用示例有助于建立必要的技能，以理解和應用復雜的機器學習算法。

對于那些在機器學習方面追求職業生涯的人來說，Scikit-Learn機器學習應用手冊是一個很好的起點。學習這本書的學生將學習基本知識，這是勝任工作的先決條件。讀者將接觸到專門為數據科學專業人員設計的蟒蛇分布，并將在流行的Scikit-Learn庫中構建技能，該庫是Python世界中許多機器學習應用程序的基礎。

你將學習

使用Scikit-Learn中常見的簡單和復雜數據集
將數據操作為向量和矩陣，以進行算法處理
熟悉數據科學中使用的蟒蛇分布
應用帶有分類器、回歸器和降維的機器學習
優化算法并為每個數據集找到最佳算法
從CSV、JSON、Numpy和panda格式加載數據并保存為這些格式

這本書是給誰的

有抱負的數據科學家渴望通過掌握底層的基礎知識進入機器學習領域，而這些基礎知識有時在急于提高生產力的過程中被忽略了。一些面向對象編程的知識和非常基本的線性代數應用將使學習更容易，盡管任何人都可以從這本書獲益。

付費5元查看完整內容

機器學習 · 數據科學 ·

2020 年 6 月 4 日

[付費5元查看完整內容]【干貨書】Python機器學習導論，340頁pdf數據科學家指南

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習已經成為許多商業應用和研究項目中不可或缺的一部分，但這一領域并不僅限于擁有廣泛研究團隊的大公司。如果您使用Python，即使是初學者，這本書也會教你構建自己的機器學習解決方案的實用方法。今天，有了所有可用的數據，機器學習應用程序只受限于你的想象力。

您將學習使用Python和scikit-learn庫創建成功的機器學習應用程序所需的步驟。兩位作者安德烈亞斯?穆勒(Andreas Muller)和薩拉?圭多(Sarah Guido)關注的是使用機器學習算法的實踐層面，而不是背后的數學。熟悉NumPy和matplotlib庫將有助于您從本書獲得更多信息。

通過這本書，你會學到 :