在過去的十年里,特別是在過去的三年里,隱私已經成為與用戶聯系并消費他們數據的企業的首要和中心。無論是保護數據免受黑客攻擊和入侵,遵守復雜的法規,避免內部員工濫用數據,還是以可衡量的方式解決廣泛的隱私問題,隱私正成為一個重大挑戰,而不是一個利他的業余項目。
具有重大跨職能職責的技術領導必須平衡項目交付和跟蹤,并需要實踐技能和技術來實現隱私。本書將基于我在這方面的十多年經驗提供這樣的技巧。我不得不在有限的環境下匆忙創建隱私和安全程序,修復過去的錯誤,同時與一個既封閉又自主的團隊合作。
這本書將教你通過幫助建立一個數據分類和目錄來將隱私嵌入到你的數據中,開發數據共享技術,這樣你就可以在不損害用戶隱私的情況下進行創新,創建刪除和模糊數據的機制,從法律和技術隱私的角度進行隱私審查,等等。
總而言之,這本書將為領導者們提供他們可以用來建立一個更適合他們公司的隱私程序的技巧,而不是那些價格不菲的現成的一刀切的產品。這些技能將幫助領導者與工程、數據科學、平臺開發等團隊建立聯系,從而使數據隱私成為共同的目標。從那些曾經在那里工作過幾次的人那里獲得這些見解的好處,應該會使這本書成為一個有價值的資源。
為了人性化隱私的概念和海量數據背后的人類,這本書還將提供一系列故事和現實事件的分析,并將它們與有關數據隱私的決策聯系起來。
在數據隱私問題上,你將學習如何:
數據隱私教你設計、開發和衡量隱私程序的有效性。您將從作者尼桑特·巴賈利亞(Nishant Bhajaria)那里學習,他是業界知名的專家,曾在谷歌、Netflix和Uber公司監管隱私。隱私的術語和法律要求都用清晰、無術語的語言解釋。本書對業務需求的不斷了解將幫助您權衡利弊,并確保您的用戶隱私可以在不增加時間和資源成本的情況下得到改善。
//www.manning.com/books/data-privacy
使用免費且易于學習的網絡工具,用數據講述你的故事并展示出來。這本入門書教你如何為你的網站設計交互式圖表和定制地圖,從簡單的拖放工具開始,如谷歌Sheets、Datawrapper和Tableau Public。你也將逐漸學會如何編輯開源代碼模板,如圖表.js, Highcharts,和在GitHub上的傳單。
動手數據可視化將通過教程,現實世界的例子和在線資源逐步帶您。這本實用指南對于學生、非營利組織、小企業主、地方政府、記者、學者以及任何想要從電子表格中提取數據并將其轉化為生動互動故事的人來說都是理想的。不需要編碼經驗。
這本書,你將學習如何通過混合設計原則和一步一步的教程的章節來創建真實和有意義的數據可視化,從而使你的基于信息的分析和論證更有洞察力和說服力。就像句子有了支持性證據和來源說明會變得更有說服力一樣,你的數據驅動寫作在搭配適當的表格、圖表或地圖時也會變得更強大。文字告訴我們故事,而可視化通過將數量、關系或空間模式轉換為圖像向我們展示數據故事。當可視化設計良好時,它們會將我們的注意力吸引到數據中最重要的東西上,而這是很難通過文本進行交流的。
我們的書以越來越多的免費和易于學習的數字工具為特色,用于創建數據可視化。我們將這一術語廣義地定義為:將數據編碼為圖像的圖表和添加空間維度的地圖。雖然表格不能以同樣的方式展示數據,但我們在本書中包含它們,是因為我們的實用需要引導新學習者通過決策過程,通常導致構建這三種產品之一。此外,在這個數字時代,我們將數據可視化定義為可以通過修改底層信息(通常存儲在數據文件中)輕松重用的圖像,而不是通常設計為一次性藝術品的信息圖。
我們設計了動手數據可視化來介紹關鍵概念,并為新學習者提供一步一步的教程。你可以自學,也可以用書來教別人。另外,與許多只關注于一個工具的技術書籍不同,我們的書指導您如何在我們推薦的20多個免費且易于使用的可視化工具中進行選擇。最后,雖然其他一些書只關注只能分布在紙上或PDF文檔上的靜態可視化,但我們演示了如何設計交互式表格、圖表和地圖,并將它們嵌入到web上。交互式可視化通過邀請他們與數據進行交互,探索他們感興趣的模式,如果需要的話下載文件,并輕松地在社交媒體上分享您的工作,從而在互聯網上吸引更廣泛的受眾。
//www.oreilly.com/library/view/hands-on-data-visualization/9781492085997/
Python Book為任何與數據打交道但沒有編程經驗的人提供了學習Python的基本入門指南。作者是一位經驗豐富的數據科學家和Python程序員,他向讀者展示了如何使用Python進行數據分析、探索、清理和討論。讀者將了解Python語言中哪些內容對數據分析很重要,以及為什么重要。
Python Book為讀者提供了全面全面的Python介紹,它既簡單到對初學者來說是理想的,又深刻到對那些更有經驗的人來說是有用的。這本書幫助初出乍到的程序員在閱讀過程中逐漸提高他們的技能,并始終理解他們所涉及的內容以及為什么它是有用的。Python被谷歌、Facebook、Instagram、Spotify等大公司使用,在未來的幾年里,它將繼續成為編程領域的中心。
包含了Python編程主題的深入討論,如變量,等式和比較,元組和字典數據類型,while和for循環,以及if語句,讀者還將學習:
完美的統計學家,計算機科學家,軟件程序員,和從業人員在私營行業和醫學,Python書也將對任何上述領域的學生感興趣。因為它假設沒有編程經驗或知識,所以這本書非常適合那些使用數據工作并希望學習使用Python來增強他們工作的人。
學習使用Python分析數據和預測結果的更簡單和更有效的方法
Python機器學習教程展示了通過關注兩個核心機器學習算法家族來成功分析數據,本書能夠提供工作機制的完整描述,以及使用特定的、可破解的代碼來說明機制的示例。算法用簡單的術語解釋,沒有復雜的數學,并使用Python應用,指導算法選擇,數據準備,并在實踐中使用訓練過的模型。您將學習一套核心的Python編程技術,各種構建預測模型的方法,以及如何測量每個模型的性能,以確保使用正確的模型。關于線性回歸和集成方法的章節深入研究了每種算法,你可以使用書中的示例代碼來開發你自己的數據分析解決方案。
機器學習算法是數據分析和可視化的核心。在過去,這些方法需要深厚的數學和統計學背景,通常需要結合專門的R編程語言。這本書演示了機器學習可以如何實現使用更廣泛的使用和可訪問的Python編程語言。
使用線性和集成算法族預測結果
建立可以解決一系列簡單和復雜問題的預測模型
使用Python應用核心機器學習算法
直接使用示例代碼構建自定義解決方案
機器學習不需要復雜和高度專業化。Python使用了更簡單、有效和經過良好測試的方法,使這項技術更容易為更廣泛的受眾所接受。Python中的機器學習將向您展示如何做到這一點,而不需要廣泛的數學或統計背景。
文本無處不在,對社會科學家來說,它是一個極好的資源。然而,由于信息非常豐富,而且語言又是千變萬化的,通常很難提取出我們想要的信息。人工智能的整個子領域與文本分析(自然語言處理)有關。開發的許多基本分析方法現在都可以作為Python實現使用。這本書將告訴您何時使用哪個方法、它如何工作的數學背景以及實現它的Python代碼。
概述:
今天,文本是我們生活中不可或缺的一部分,也是最豐富的信息來源之一。平均每天,我們閱讀約9000字,包括電子郵件、短信、新聞、博客文章、報告、推特,以及街道名稱和廣告。在你一生的閱讀過程中,這會讓你有大約2億字。這聽起來令人印象深刻(事實也的確如此),然而,我們可以在不到0.5 g的空間里存儲這些信息:我們可以在u盤上隨身攜帶一生都值得閱讀的信息。在我寫這篇文章的時候,互聯網上估計至少有超過1200 TB的文本,或250萬人的閱讀價值。現在,大部分文本都以社交媒體的形式存在:微博、推特、Facebook狀態、Instagram帖子、在線評論、LinkedIn個人資料、YouTube評論等等。然而,文本即使在線下也是豐富的——季度收益報告、專利申請、問卷答復、書面信函、歌詞、詩歌、日記、小說、議會會議記錄、會議記錄,以及成千上萬的其他形式,可以(也正在)用于社會科學研究和數據挖掘。
文本是一個極好的信息來源,不僅僅是因為它的規模和可用性。它(相對)是永久性的,而且——最重要的是——它對語言進行編碼。這一人類能力(間接地,有時甚至直接地)反映了廣泛的社會文化和心理結構:信任、權力、信仰、恐懼。因此,文本分析被用于衡量社會文化結構,如信任(Niculae, Kumar, Boyd-Graber, & danescul - niculescul - mizil, 2015)和權力(Prabhakaran, Rambow, & Diab, 2012)。語言編碼了作者的年齡、性別、出身和許多其他人口統計因素(Labov, 1972;Pennebaker, 2011;Trudgill, 2000)。因此,文本可以用來衡量社會隨著時間推移對這些目標概念的態度(見Garg, Schiebinger, Jurafsky, & Zou, 2018;Hamilton, Leskovec, & Jurafsky, 2016;Kulkarni, Al-Rfou, Perozzi, & Skiena, 2015)。
然而,這種海量數據可能很快就會讓人喘不過氣來,處理這些數據可能會讓人望而生畏。文本通常被稱為非結構化數據,這意味著它不是以電子表格的形式出現,而是整齊地按類別排列。它有不同的長度,如果不首先對其進行格式化,就不能很容易地將其送入您喜歡的統計分析工具。然而,正如我們將看到的,“非結構化”是一個有點用詞不當。文本絕不是沒有任何結構的——它遵循非常規則的結構,受語法規則的控制。如果你知道這些,理解文本就會變得容易得多。
這本書分成兩部分。在前半部分,我們將學習文本和語言的一些基本屬性——語言分析的層次、語法和語義成分,以及如何描述它們。我們還將討論為我們的分析刪除哪些內容,保留哪些內容,以及如何計算簡單、有用的統計數據。在下半部分,我們將著眼于探索,發現數據中的潛在結構。我們將從簡單的統計學習到更復雜的機器學習方法,如主題模型、詞嵌入和降維。
學習設計、構建和部署由機器學習(ML)支持的應用程序所必需的技能。通過這本親力親為的書,您將構建一個示例ML驅動的應用程序,從最初的想法到部署的產品。數據科學家、軟件工程師和產品經理—包括有經驗的實踐者和新手—將逐步學習構建真實的ML應用程序所涉及的工具、最佳實踐和挑戰。
作者Emmanuel Ameisen是一位經驗豐富的數據科學家,他領導了一個人工智能教育項目,通過代碼片段、插圖、截圖和對行業領袖的采訪展示了實用的ML概念。第1部分將告訴您如何計劃ML應用程序并度量成功。第2部分解釋了如何構建一個工作的ML模型。第三部分演示了改進模型的方法,直到它滿足您最初的設想。第4部分介紹部署和監控策略。
這本書會對你有所幫助:
本書建立在基本的Python教程的基礎上,解釋了許多沒有被常規覆蓋的Python語言特性:從通過利用入口點作為微服務扮演雙重角色的可重用控制臺腳本,到使用asyncio高效地整理大量來源的數據。通過這種方式,它涵蓋了基于類型提示的linting、低開銷測試和其他自動質量檢查,以演示一個健壯的實際開發過程。
Python的一些功能強大的方面通常用一些設計的示例來描述,這些示例僅作為一個獨立示例來解釋該特性。通過遵循從原型到生產質量的真實應用程序示例的設計和構建,您不僅將看到各種功能是如何工作的,而且還將看到它們如何作為更大的系統設計過程的一部分進行集成。此外,您還將受益于一些有用的附加說明和庫建議,它們是Python會議上問答會議的主要內容,也是討論現代Python最佳實踐和技術的主要內容,以便更好地生成易于維護的清晰代碼。
高級Python開發是為已經能用Python編寫簡單程序的開發人員準備的,這些開發人員希望了解什么時候使用新的和高級語言特性是合適的,并且能夠以一種自信的方式這樣做。它對于希望升級到更高級別的開發人員和迄今為止使用過較老版本Python的非常有經驗的開發人員特別有用。
你將學習
這本書是給誰的 -已經有Python經驗的中高級開發人員。
學習使用技術進行數據科學并在實踐中利用物聯網(IoT)。這本書介紹了現代數據科學的核心概念。您將從可以在BBC micro:bit上進行的簡單應用程序開始,然后使用其他硬件進行更復雜的實驗。
在教育領域,數據科學是最令人興奮和增長最快的主題之一。理解數據是如何工作的,以及如何使用數據,是21世紀的一項關鍵生活技能。在一個由信息驅動的世界里,學生們必須配備他們需要的工具來理解這一切。例如,考慮一下數據科學是如何成為識別氣候變化危險的關鍵因素,并繼續幫助我們識別和應對它帶來的威脅。這本書探討了數據的威力,以及如何使用手邊的硬件來應用數據。
您將學習數據科學的核心概念,如何在現實世界中應用它們,以及如何利用物聯網的巨大潛力。到最后,你將能夠執行復雜而有意義的數據科學實驗——為什么不成為一名公民科學家,為對抗氣候變化做出真正的貢獻呢?
你將學習
通過機器學習的實際操作指南深入挖掘數據
機器學習: 為開發人員和技術專業人員提供實踐指導和全編碼的工作示例,用于開發人員和技術專業人員使用的最常見的機器學習技術。這本書包含了每一個ML變體的詳細分析,解釋了它是如何工作的,以及如何在特定的行業中使用它,允許讀者在閱讀過程中將所介紹的技術融入到他們自己的工作中。機器學習的一個核心內容是對數據準備的強烈關注,對各種類型的學習算法的全面探索說明了適當的工具如何能夠幫助任何開發人員從現有數據中提取信息和見解。這本書包括一個完整的補充教師的材料,以方便在課堂上使用,使這一資源有用的學生和作為一個專業的參考。
機器學習的核心是一種基于數學和算法的技術,它是歷史數據挖掘和現代大數據科學的基礎。對大數據的科學分析需要機器學習的工作知識,它根據從訓練數據中獲得的已知屬性形成預測。機器學習是一個容易理解的,全面的指導,為非數學家,提供明確的指導,讓讀者:
通過學習構建一個可以從數據中學習的系統,讀者可以在各個行業中增加他們的效用。機器學習是深度數據分析和可視化的核心,隨著企業發現隱藏在現有數據中的金礦,這一領域的需求越來越大。對于涉及數據科學的技術專業人員,機器學習:為開發人員和技術專業人員提供深入挖掘所需的技能和技術。
這本書提供 訪問Spark平臺的真實文檔和示例,以構建大型企業級機器學習應用程序。
在過去的十年里,機器學習取得了一系列驚人的進步。這些突破正在影響我們的日常生活,并對每個行業產生影響。下一代機器學習Spark提供了Spark和Spark MLlib的介紹,并在標準Spark MLlib庫之外,向更強大的第三方機器學習算法和庫邁進。在這本書的結尾,你將能夠通過許多實際的例子和有洞察力的解釋將你的知識應用到現實世界的用例中
這本書是給誰的
數據科學家和機器學習工程師,他們希望將自己的知識提升到一個新的水平,使用Spark和更強大的下一代算法和庫,而不是標準Spark MLlib庫中提供的;同時也是有抱負的數據科學家和工程師的入門書,他們需要機器學習的入門知識,Spark,SparkMLlib。