這本書由數據庫和網絡技術的權威撰寫,對學生和實踐者都是必不可少的讀本。Web和Internet商務的普及提供了許多非常大的數據集,可以通過數據挖掘從中收集信息。這本書集中在實用的算法,已被用來解決關鍵問題的數據挖掘,并可以成功地應用到即使是最大的數據集。它首先討論MapReduce框架,這是自動并行化算法的一個重要工具。作者解釋了對位置敏感的哈希和流處理算法的技巧,這些算法用于挖掘到達速度過快而無法進行詳盡處理的數據。其他章節介紹了PageRank的思想和組織Web的相關技巧,發現頻繁項目集和集群的問題。這第三版包括新的和擴展的覆蓋決策樹,深度學習,和挖掘社會網絡圖。
分布式文件系統和map-reduce作為創建并行算法的工具,可以成功地處理大量數據。
相似度搜索,包括minhashing和localitysensitive hashing的關鍵技術。3.數據流處理和專門的算法,用于處理快速到達的數據,這些數據必須立即處理,否則就會丟失。
搜索引擎的技術,包括谷歌的PageRank,鏈接垃圾郵件檢測,以及中心和權威的方法。
頻繁項集挖掘,包括關聯規則、市場籃子、a -先驗算法及其改進。
算法聚類非常大,高維數據集。
Web應用程序的兩個關鍵問題:管理廣告和推薦系統。
用于分析和挖掘非常大的圖的結構的算法,特別是社會網絡圖。
通過降維獲得大數據集重要屬性的技術,包括奇值分解和潛在語義索引。
機器學習算法,可以應用于非常大的數據,如感知機,支持向量機,梯度下降,和決策樹。
神經網絡和深度學習,包括最重要的特殊情況:卷積和遞歸神經網絡,以及長短時記憶網絡。
本書主要內容包括:數據清洗在數據科學領域中的重要作用,文件格式、數據類型、字符編碼的基本概念,組織和處理數據的電子表格與文本編輯器,各種格式數據的轉換方法,解析和清洗網頁上的HTML 文件的三種策略,提取和清洗PDF 文件中數據的方法,檢測和清除RDBMS 中的壞數據的解決方案,以及使用書中介紹的方法清洗來自Twitter 和Stack Overflow 的數據。
本書適合任何水平的數據科學家以及對數據清理感興趣的讀者閱讀。
數據清洗是數據挖掘與分析過程中不可缺少的一個環節,但因為數據類型極其復雜,傳統的清洗臟數據工作單調乏味且異常辛苦。如果能利用正確的工具和方法,就可以讓數據清洗工作事半功倍。
本書從文件格式、數據類型、字符編碼等基本概念講起,通過真實的示例,探討如何提取和清洗關系型數據庫、網頁文件和PDF文檔中的數據。最后提供了兩個真實的項目,讓讀者將所有數據清洗技術付諸實踐,完成整個數據科學過程。
如果你是一位數據科學家,或者從事數據科學工作,哪怕是位新手,只要對數據清洗有興趣,那么本書就適合你閱讀!
書名: Mining of Massive Datasets
前言
這本書是由Jure Leskovec和Anand Rajaraman幾年來為斯坦福大學四分之一課程開發的材料發展而來的。名為《網絡挖掘》的CS345A課程被設計成一門高級研究生課程,盡管它已經成為高級本科生的必修課和興趣所在。當Jure Leskovec加入斯坦福大學時,我們對材料進行了大量的重組。他介紹了一門新的網絡分析課程CS224W,并在CS345A中加入了新的材料,重新編號為CS246。三位作者還介紹了一個大型數據挖掘項目課程CS341。這本書現在包含了所有三門課程的內容。
主要內容:
在最高級別的描述中,這本書是關于數據挖掘的。但是,它側重于對非常大的數據進行數據挖掘,也就是說,數據大到無法裝入主內存。由于對大小的強調,我們的許多示例都是關于Web或來自Web的數據的。此外,該書采用了算法的觀點:數據挖掘是將算法應用于數據,而不是使用數據來訓練某種機器學習引擎。主要議題包括:
主題: Mastering Large Datasets with Python
簡介: 使用Python掌握大型數據集可以教會您編寫可以處理任何大小的數據集的代碼。您將從筆記本大小的數據集開始,這些數據集通過將大任務分解為可以同時運行的小任務來教您并行化數據分析。然后將這些程序擴展到云服務器集群上的工業大小的數據集。隨著map和reduce范例的穩固就位,您將探索Hadoop和PySpark等工具,以高效地處理大量分布式數據集,使用機器學習加快決策,并使用AWS S3簡化數據存儲。
作者簡介: John T. Wolohan是Booz Allen Hamilton的首席數據科學家,也是印第安納大學的博士研究員。
//www.manning.com/books/mastering-large-datasets-with-python
現代數據科學解決方案需要簡潔、易于閱讀和可伸縮。在《用Python掌握大型數據集》一書中,作者J.T. Wolohan向您介紹了如何使用Python編碼的功能影響方法來處理小型項目并對其進行擴展。您將探索有助于清晰性和可伸縮性的方法和內置Python工具,比如高性能并行方法,以及支持高數據吞吐量的分布式技術。本實用教程中豐富的實踐練習將為任何大型數據科學項目鎖定這些基本技能。
對這項技術
當應用于大量文件或分布式數據集時,在筆記本大小的數據上運行良好的編程技術可能會變慢,甚至完全失敗。通過掌握強大的map和reduce范型,以及支持它的基于python的工具,您可以編寫以數據為中心的應用程序,這些應用程序可以有效地擴展,而不需要在需求發生變化時重寫代碼庫。
關于這本書
使用Python掌握大型數據集教會您編寫可以處理任何大小的數據集的代碼。您將從筆記本大小的數據集開始,這些數據集通過將大任務分解為可以同時運行的小任務來教會您并行化數據分析。然后將這些程序擴展到云服務器集群上的工業級數據集。有了map和reduce范型,您將探索像Hadoop和PySpark這樣的工具來有效地處理大量的分布式數據集,使用機器學習加速決策制定,并使用AWS S3簡化數據存儲。
里面有什么
對map和reduce范例的介紹
并行化與多處理模塊框架
分布式計算的Hadoop和Spark
運行AWS作業來處理大型數據集
課程名稱: CS276: Information Retrieval and Web Search(Spring quarter 2019
課程簡介: 信息檢索(Information Retrieval)是用戶進行信息查詢和獲取的主要方式,是查找信息的方法和手段。 IR是自然語言處理(NLP)領域中的第一個,并且仍然是最重要的問題之一。 網絡搜索是將信息檢索技術應用于世界上最大的文本語料庫-網絡-這是大多數人最頻繁地與IR系統交互的區域。
在本課程中,我們將介紹構建基于文本的信息系統的基本和高級技術,包括以下主題:
講師介紹: Christopher Manning,SAIL 新任負責人,Christopher Manning于1989年在澳大利亞國立大學取得三個學士學位(數學、計算機和語言學),并于 1994 年獲得斯坦福大學語言學博士學位。 他曾先后在卡內基梅隆大學、悉尼大學等任教,1999 年回到母校斯坦福,就職于計算機科學和語言學系,是斯坦福自然語言處理組(Stanford NLP Group)的創始成員及負責人。重返斯坦福之后,他一待就是 19 年。 Manning 的研究目標是以智能的方式實現人類語言的處理、理解及生成,研究領域包括樹形 RNN 、情感分析、基于神經網絡的依存句法分析、神經機器翻譯和深度語言理解等,是一位 NLP 領域的深度學習開拓者。他是國際計算機學會 (ACM)、國際人工智協會(AAAI)、國際計算語言學會(ACL)等國際權威學術組織的 Fellow,曾獲 ACL、EMNLP、COLING、CHI 等國際頂會最佳論文獎,著有《統計自然語言處理基礎》、《信息檢索導論》等自然語言處理著名教材。
Pandu Nayak,谷歌工程師,負責信息檢索方面的研究。 在加入Google之前,我曾是Stratify,Inc.的首席架構師和首席技術官。在那里,幫助開發了成功的Stratify Legal Discovery服務。
在過去的十年里,計算和信息技術突飛猛進。它帶來了醫學、生物學、金融和營銷等各個領域的大量數據。理解這些數據的挑戰導致了統計領域新工具的發展,并催生了數據挖掘、機器學習和生物信息學等新領域。許多這些工具有共同的基礎,但經常用不同的術語表示。這本書在一個共同的概念框架中描述了這些領域的重要思想。雖然方法是統計的,但重點是概念而不是數學。許多例子都給出了,與自由使用彩色圖形。它應該是統計學家和任何對科學或工業數據挖掘感興趣的人的寶貴資源。這本書的覆蓋面很廣,從監督學習(預測)到非監督學習。許多主題包括神經網絡、支持向量機、分類樹和增強——這是任何一本書中對這個主題的首次全面論述。這個主要的新版本的特點,許多主題不包括在原來的,包括圖形模型,隨機森林,集成方法,最小角度回歸和用于lasso的路徑算法、非負矩陣分解和譜聚類。還有一章是關于“寬”數據的方法(p大于n),包括多重測試和錯誤發現率。Trevor Hastie、Robert Tibshirani和Jerome Friedman是斯坦福大學的統計學教授。他們是這一領域的杰出研究人員:Hastie和Tibshirani開發了廣義可加性模型,并就此寫了一本很受歡迎的書。Hastie在S-PLUS中編寫了大量的統計建模軟件,并發明了主曲線和曲面。Tibshirani提出了Lasso,并且是非常成功的Bootstrap介紹的合著者。弗里德曼是許多數據挖掘工具的共同發明者,包括CART、MARS和投影追蹤。