//www.manning.com/books/graph-powered-machine-learning
機器學習的核心是有效地識別數據中的模式和關系。許多任務,例如查找詞匯之間的關聯以便您能夠做出準確的搜索建議,或者在社交網絡中定位具有相似興趣的個人,很自然地以圖Graph的形式表達出來。圖驅動機器學習教你如何使用基于圖形的算法和數據組織策略來開發高級的機器學習應用程序。
對這項技術
對于任何涉及到大型數據集中的模式匹配的任務,基于圖的機器學習都是一個非常強大的工具。應用程序包括安全問題,如識別欺詐或檢測網絡入侵,應用程序領域,如社交網絡或自然語言處理,以及更好的用戶體驗,通過準確的推薦和智能搜索。通過將數據組織和分析為圖形,您的應用程序可以更流暢地使用以圖形為中心的算法(如最近鄰算法或頁面排名算法),在這些算法中,快速識別和利用相關關系非常重要。現代圖形數據存儲(如Neo4j或Amazon Neptune)是支持圖形機器學習的現成工具。
關于這本書
圖驅動機器學習向您介紹圖技術概念,強調圖在機器學習和大數據平臺中的作用。您將深入了解各種技術,包括數據源建模、算法設計、鏈接分析、分類和集群。在掌握核心概念之后,您將探索三個端到端項目,它們將演示體系結構、最佳設計實踐、優化方法和常見缺陷。作者亞歷山德羅·內格羅在構建基于圖形的機器學習系統方面的豐富經驗在每一章中都有所體現,你可以從他與真實客戶合作的實例和具體場景中學習!
里面有什么
機器學習項目的生命周期 端到端應用程序 大數據平臺中的圖形 數據源建模 自然語言處理、推薦和相關搜索 優化方法
本書組織
這本書分為四部分,共12章。第一部分介紹了書中的主要主題,從通用機器學習和圖的概念開始,然后轉移到將這些概念結合起來的好處:
第一章介紹了機器學習和圖,涵蓋了理解以下章節所必需的基本概念。
第二章列舉了將大數據作為機器學習輸入的主要挑戰,并討論了如何使用圖模型和圖數據庫來處理這些挑戰。介紹了圖形數據庫的主要特點。
第三章詳細描述了圖在機器學習工作流中的作用,并描述了一個用于大規模圖處理的系統。
第2部分討論了幾個實際用例,在這些用例中,圖形支持了機器學習項目的開發,并改進了最終的結果,特別關注以下:
第四章介紹了最常見的推薦技術,并描述了如何為其中之一設計合適的圖模型:基于內容的推薦引擎。它詳細展示了如何將現有(非圖)數據集導入到圖模型中,并實現基于內容的工作推薦引擎。
第五章描述了如何為協同過濾方法設計合適的圖模型,以及如何實現充分工作的協同過濾推薦引擎。
第六章介紹了基于會話的推薦算法,并描述了一個能夠捕獲用戶會話數據的圖模型。它演示了如何將示例數據集導入到設計的模型中,并在其上實現一個真正的推薦引擎。
第七章通過一個考慮用戶上下文的推薦引擎的實現來驅動讀者。它描述了上下文感知推薦引擎的圖模型,并展示了如何將現有數據集導入到圖模型中。此外,本章還說明了如何在單個引擎中組合多種推薦方法。
第三部分討論了欺詐檢測:
第八章介紹了欺詐檢測,并描述了不同領域的不同類型的欺詐。它還規定了圖形在建模數據中的作用,以便更快更容易地揭示欺詐,以及一些用于打擊欺詐的簡單圖形模型中的技術和算法。
第九章轉向基于異常檢測的更高級的打擊欺詐的算法。它展示了如何使用圖來存儲和分析事務的k-NN,并識別異常事務。
第十章描述了如何使用社會網絡分析(SNA)對欺詐者和欺詐風險進行分類。它列出了基于SNA的欺詐分析的不同圖表算法,并展示了如何從數據中得出正確的圖表。
第四部分介紹了自然語言處理(NLP):
第十一章介紹了基于圖的自然語言處理的相關概念。特別地,它描述了一種通過NLP提取非結構化數據的隱藏結構來分解文本并將其存儲到圖中的簡單方法。
第十二章介紹了知識圖譜,詳細描述了如何從文本中提取實體和關系,并從中創建知識圖譜。它列出了知識圖譜使用的后處理技術,如語義網絡構建和自動主題抽取。
自然語言處理實戰教你如何創建實用的NLP應用,而不陷入復雜的語言理論和深度學習的數學。在這本引人入勝的書中,您將探索構建大量強大的NLP應用所需的核心工具和技術,包括聊天機器人、語言檢測器和文本分類器。
真實世界的自然語言處理不是典型的自然語言處理教科書。我們專注于構建真實世界的NLP應用。這里真實世界的意義有兩個方面:首先,我們關注構建真實世界的NLP應用需要什么。作為讀者,您不僅將學習如何訓練NLP模型,還將學習如何設計、開發、部署和監控它們。在此過程中,您還將學習現代NLP模型的基本構建模塊,以及對構建NLP應用有用的NLP領域的最新開發。其次,與大多數介紹性書籍不同,我們采用自上而下的教學方法。我們不采用自下而上的方法,一頁頁地展示神經網絡理論和數學公式,而是專注于快速構建“正常工作”的NLP應用程序。然后我們深入研究組成NLP應用的各個概念和模型。您還將學習如何使用這些基本構建塊構建端到端定制NLP應用,以滿足您的需求。
這本書由三個部分組成,共11章。第1部分介紹了NLP的基礎知識,其中我們學習了如何使用AllenNLP 快速構建一個NLP應用,以完成情感分析和序列標記等基本任務。
第1章首先介紹了NLP的“什么”和“為什么”——什么是NLP,什么不是NLP,如何使用NLP技術,以及NLP如何與人工智能的其他領域相關聯。
第2章演示了如何構建第一個NLP應用程序,一個情感分析器,并介紹了現代NLP模型的基礎知識——單詞嵌入和遞歸神經網絡(RNN)。
第3章介紹了自然語言處理應用的兩個重要組成部分,單詞和句子的嵌入,并演示了如何使用和訓練它們。
第4章討論了最簡單但最重要的NLP任務之一,句子分類,以及如何在這個任務中使用RNN。
第5章介紹了序列標注任務,如詞性標注和命名實體提取。它還涉及到一個相關的技術,語言建模。
第2部分介紹高級NLP主題,包括序列到序列模型、Transformer以及如何利用遷移學習和預先訓練過的語言模型來構建強大的NLP應用。
第6章介紹了序列到序列的模型,它將一個序列轉換為另一個序列。我們在一個小時內構建了一個簡單的機器翻譯系統和一個聊天機器人。
第7章討論了另一種流行的神經網絡結構,卷積神經網絡(CNN)。
第8章深入介紹了Transformer,它是當今最重要NLP模型之一。我們將演示如何使用Transformer構建改進的機器翻譯系統和拼寫檢查器。
第9章在前一章的基礎上,討論了遷移學習,這是現代NLP中的一種流行的技術,使用預先訓練過的語言模型,如BERT。
第3部分將討論與開發NLP應用程序相關的主題,這些應用程序對真實數據具有健壯性,并部署和服務它們。
第10章詳細介紹了開發NLP應用程序時的最佳實踐,包括批處理和填充、正則化和超參數優化。
第11章總結了如何部署和服務NLP模型。它還涵蓋了如何解釋和解釋ML模型。
//www.manning.com/books/advanced-algorithms-and-data-structures
作為一名軟件工程師,您將遇到無數的編程挑戰,這些挑戰最初看起來令人困惑、困難甚至是不可能的。不要絕望!許多這些“新”問題已經有了完善的解決方案。高級算法和數據結構為您提供了強大的方法來應對各種棘手的編碼挑戰,您可以對這些挑戰進行調整并應用于自己的應用程序。本實用指南提供了經典、先進和新的算法的平衡混合,用新的視角和實踐技術升級您的編程工具箱。
《高級算法和數據結構》介紹了一系列算法,用于數據分析、機器學習和圖計算中的復雜編程挑戰。您將發現解決各種棘手情況的尖端方法。您甚至將學習為需要自定義解決方案的項目設計自己的數據結構。
第1部分著重于發現高級數據結構,這些結構允許您改進一些基本操作,例如跟蹤事物或事物組。關鍵是要習慣這樣一種思想,即對數據執行操作有多種方式,而最佳方式取決于上下文和需求。
第2部分介紹了搜索中的另一種特殊情況: 處理多維數據、索引該數據和執行空間查詢。我們將再次展示特別數據結構如何在使用基本搜索算法的基礎上提供巨大的改進。但是,本部分還描述了其他重要的主題:集群、高度利用空間查詢和分布式計算,特別是使用MapReduce編程模型。
第3部分主要關注單個數據結構和圖表,這將是介紹一些優化技術的共同主線,這些技術推動了當今的人工智能和大數據工作。
圖是連接數據網絡結構的一種常用表示形式。圖數據可以在廣泛的應用領域中找到,如社會系統、生態系統、生物網絡、知識圖譜和信息系統。隨著人工智能技術的不斷滲透發展,圖學習(即對圖進行機器學習)越來越受到研究者和實踐者的關注。圖學習對許多任務都非常有效,如分類,鏈接預測和匹配。圖學習方法通常是利用機器學習算法提取圖的相關特征。在這個綜述中,我們提出了一個關于圖學習最全面的概述。特別關注四類現有的圖學習方法,包括圖信號處理、矩陣分解、隨機游走和深度學習。分別回顧了這些類別下的主要模型和算法。我們研究了諸如文本、圖像、科學、知識圖譜和組合優化等領域的圖學習應用。此外,我們還討論了該領域幾個有前景的研究方向。
真實的智能系統通常依賴于機器學習算法處理各種類型的數據。盡管圖數據無處不在,但由于其固有的復雜性,給機器學習帶來了前所未有的挑戰。與文本、音頻和圖像不同,圖數據嵌入在一個不規則的領域,使得現有機器學習算法的一些基本操作不適用。許多圖學習模型和算法已經被開發出來解決這些挑戰。本文系統地綜述了目前最先進的圖學習方法及其潛在的應用。這篇論文有多種用途。首先,它作為不同領域(如社會計算、信息檢索、計算機視覺、生物信息學、經濟學和電子商務)的研究人員和從業者提供圖學習的快速參考。其次,它提供了對該領域的開放研究領域的見解。第三,它的目的是激發新的研究思路和更多的興趣在圖學習。
圖,又稱網絡,可以從現實世界中豐富的實體之間的各種關系中提取。一些常見的圖表已經被廣泛用于表達不同的關系,如社會網絡、生物網絡、專利網絡、交通網絡、引文網絡和通信網絡[1]-[3]。圖通常由兩個集合定義,即頂點集和邊集。頂點表示圖形中的實體,而邊表示這些實體之間的關系。由于圖學習在數據挖掘、知識發現等領域的廣泛應用,引起了人們的廣泛關注。由于圖利用了頂點[4],[5]之間的本質和相關關系,在捕獲復雜關系方面,圖學習方法變得越來越流行。例如,在微博網絡中,通過檢測信息級聯,可以跟蹤謠言的傳播軌跡。在生物網絡中,通過推測蛋白質的相互作用可以發現治療疑難疾病的新方法。在交通網絡中,通過分析不同時間戳[6]的共現現象,可以預測人類的移動模式。對這些網絡的有效分析很大程度上取決于網絡的表示方式。
一般來說,圖學習是指對圖進行機器學習。圖學習方法將圖的特征映射到嵌入空間中具有相同維數的特征向量。圖學習模型或算法直接將圖數據轉換為圖學習體系結構的輸出,而不將圖投影到低維空間。由于深度學習技術可以將圖數據編碼并表示為向量,所以大多數圖學習方法都是基于或從深度學習技術推廣而來的。圖學習的輸出向量在連續空間中。圖學習的目標是提取圖的期望特征。因此,圖的表示可以很容易地用于下游任務,如節點分類和鏈接預測,而無需顯式的嵌入過程。因此,圖學習是一種更強大、更有意義的圖分析技術。
在這篇綜述論文中,我們試圖以全面的方式檢驗圖機器學習方法。如圖1所示,我們關注現有以下四類方法:基于圖信號處理(GSP)的方法、基于矩陣分解的方法、基于隨機游走的方法和基于深度學習的方法。大致來說,GSP處理圖的采樣和恢復,并從數據中學習拓撲結構。矩陣分解可分為圖拉普拉斯矩陣分解和頂點接近矩陣分解。基于隨機游動的方法包括基于結構的隨機游動、基于結構和節點信息的隨機游動、異構網絡中的隨機游動和時變網絡中的隨機游動。基于深度學習的方法包括圖卷積網絡、圖注意力網絡、圖自編碼器、圖生成網絡和圖時空網絡。基本上,這些方法/技術的模型架構是不同的。本文對目前最先進的圖學習技術進行了廣泛的回顧。
傳統上,研究人員采用鄰接矩陣來表示一個圖,它只能捕捉相鄰兩個頂點之間的關系。然而,許多復雜和不規則的結構不能被這種簡單的表示捕獲。當我們分析大規模網絡時,傳統的方法在計算上是昂貴的,并且很難在現實應用中實現。因此,有效地表示這些網絡是解決[4]的首要問題。近年來提出的網絡表示學習(NRL)可以學習低維表示[7]-[9]的網絡頂點潛在特征。當新的表示被學習后,可以使用以前的機器學習方法來分析圖數據,并發現數據中隱藏的關系。
當復雜網絡被嵌入到一個潛在的、低維的空間中時,結構信息和頂點屬性可以被保留[4]。因此,網絡的頂點可以用低維向量表示。在以往的機器學習方法中,這些向量可以看作是輸入的特征。圖學習方法為新的表示空間中的圖分析鋪平了道路,許多圖分析任務,如鏈接預測、推薦和分類,都可以有效地解決[10],[11]。網絡的圖形化表現方式揭示了社會生活的各個方面,如交流模式、社區結構和信息擴散[12],[13]。根據頂點、邊和子圖的屬性,可以將圖學習任務分為基于頂點、基于邊和基于子圖三類。圖中頂點之間的關系可以用于分類、風險識別、聚類和社區檢測[14]。通過判斷圖中兩個頂點之間的邊的存在,我們可以進行推薦和知識推理。基于子圖[15]的分類,該圖可用于聚合物分類、三維可視化分類等。對于GSP,設計合適的圖形采樣方法以保持原始圖形的特征,從而有效地恢復原始圖形[16]具有重要意義。在存在不完整數據[17]的情況下,可以使用圖恢復方法構造原始圖。然后利用圖學習從圖數據中學習拓撲結構。綜上所述,利用圖學習可以解決傳統的圖分析方法[18]難以解決的以下挑戰。
了解圖算法如何幫助您利用數據中的關系來開發智能解決方案并增強機器學習模型。有了這個實用的指南,開發者和數據科學家將會發現圖表分析是如何傳遞價值的,不管是用來建立動態網絡模型還是預測真實世界的行為。
這本書是有使用Apache Spark或Neo4j經驗的開發人員和數據科學家開始使用圖算法的實用指南。盡管我們的算法示例利用了Spark和Neo4j平臺,但無論您選擇哪種圖技術,這本書也有助于理解更一般的圖概念。
它解釋了圖算法如何描述復雜的結構和揭示難以發現的模式——從發現漏洞和瓶頸到檢測社區和改進機器學習預測。您將通過實際示例演示如何在Apache Spark和Neo4j中使用圖形算法,這兩種圖形分析最常見的選擇。
這本書是關于運用機器和深度學習來解決石油和天然氣行業的一些挑戰。這本書開篇簡要討論石油和天然氣勘探和生產生命周期中不同階段的數據流工業操作。這導致了對一些有趣問題的調查,這些問題很適合應用機器和深度學習方法。最初的章節提供了Python編程語言的基礎知識,該語言用于實現算法;接下來是監督和非監督機器學習概念的概述。作者提供了使用開源數據集的行業示例以及對算法的實際解釋,但沒有深入研究所使用算法的理論方面。石油和天然氣行業中的機器學習涵蓋了包括地球物理(地震解釋)、地質建模、油藏工程和生產工程在內的各種行業主題。
在本書中,重點在于提供一種實用的方法,提供用于實現機器的逐步解釋和代碼示例,以及用于解決油氣行業現實問題的深度學習算法。
你將學到什么
這本書是給誰的
關于大數據技術的信息很多,但將這些技術拼接到端到端企業數據平臺是一項艱巨的任務,沒有得到廣泛的討論。通過這本實用的書,您將學習如何在本地和云中構建大數據基礎設施,并成功地構建一個現代數據平臺。
本書非常適合企業架構師、IT經理、應用程序架構師和數據工程師,它向您展示了如何克服Hadoop項目期間出現的許多挑戰。在深入了解以下內容之前,您將在一個徹底的技術入門中探索Hadoop和大數據領域中可用的大量工具:
-平臺: 了解部署、操作、安全性、高可用性和災難恢復的各個方面,以及將平臺與企業IT的其他部分集成在一起所需了解的所有內容
從設計和原型設計到測試、部署和維護,Python在許多方面都很有用,它一直是當今最流行的編程語言之一。這本實用的書的第三版提供了對語言的快速參考——包括Python 3.5、2.7和3.6的突出部分——它龐大的標準庫中常用的區域,以及一些最有用的第三方模塊和包。
本書非常適合具有一些Python經驗的程序員,以及來自其他編程語言的程序員,它涵蓋了廣泛的應用領域,包括web和網絡編程、XML處理、數據庫交互和高速數字計算。了解Python如何提供優雅、簡單、實用和強大功能的獨特組合。
這個版本包括:
簡單易懂,讀起來很有趣,介紹Python對于初學者和語言新手都是理想的。作者Bill Lubanovic帶您從基礎知識到更復雜和更多樣的主題,混合教程和烹飪書風格的代碼配方來解釋Python 3中的概念。章節結尾的練習可以幫助你練習所學的內容。
您將獲得該語言的堅實基礎,包括測試、調試、代碼重用和其他開發技巧的最佳實踐。本書還向您展示了如何使用各種Python工具和開放源碼包將Python用于商業、科學和藝術領域的應用程序。
機器學習(ML)是一組用于發現數據關系的編程技術。使用ML算法,您可以對數據進行聚類和分類,以執行建議或欺詐檢測之類的任務,并對銷售趨勢、風險分析和其他預測進行預測。機器學習曾經是學術數據科學家的領域,現在已經成為主流的業務流程,而像易于學習的R編程語言這樣的工具將高質量的數據分析交到任何程序員的手中。《使用R、tidyverse和mlr的機器學習》將教會您廣泛使用的ML技術,以及如何使用R編程語言及其強大的工具生態系統將它們應用于您自己的數據集。這本書會讓你開始!
對這項技術
機器學習技術準確而有效地識別數據中的模式和關系,并使用這些模型對新數據進行預測。ML技術甚至可以在相對較小的數據集上工作,使這些技能成為幾乎所有數據分析任務的強大盟友。R語言的設計考慮了數學和統計的應用。小型數據集是它的最佳選擇,它的現代數據科學工具(包括流行的tidyverse包)使R成為ML的自然選擇。
關于這本書
《使用R、tidyverse和mlr的機器學習》將教會您如何使用強大的R編程語言從數據中獲得有價值的見解。作者兼R專家Hefin Ioan Rhys以其引人入勝的、非正式的風格為ML基礎知識打下了堅實的基礎,并向您介紹了tidyverse,這是一套專門為實用數據科學設計的強大的R工具。有了這些基礎知識,您將更深入地研究常用的機器學習技術,包括分類、預測、約簡和聚類算法,并將每種技術應用于實際數據,從而對有趣的問題進行預測。
使用tidyverse包,您將轉換、清理和繪制您的數據,并在工作中使用數據科學最佳實踐。為了簡化您的學習過程,您還將使用R的mlr包,這是一個非常靈活的接口,用于各種核心算法,允許您以最少的編碼執行復雜的ML任務。您將探索一些基本概念,如過擬合、欠擬合、驗證模型性能,以及如何為您的任務選擇最佳模型。富有啟發性的圖片提供了清晰的解釋,鞏固了你的新知識。
無論您是在處理業務問題、處理研究數據,還是僅僅是一個有數據頭腦的開發人員,您都可以通過本實用教程立即構建自己的ML管道!
里面有什么
機器學習的核心是有效地識別數據中的模式和關系。許多任務,例如查找詞匯之間的關聯以便您能夠做出準確的搜索建議,或者在社交網絡中定位具有相似興趣的個人,很自然地以圖Graph的形式表達出來。圖驅動機器學習教你如何使用基于圖形的算法和數據組織策略來開發高級的機器學習應用程序。
對這項技術
對于任何涉及到大型數據集中的模式匹配的任務,基于圖的機器學習都是一個非常強大的工具。應用程序包括安全問題,如識別欺詐或檢測網絡入侵,應用程序領域,如社交網絡或自然語言處理,以及更好的用戶體驗,通過準確的推薦和智能搜索。通過將數據組織和分析為圖形,您的應用程序可以更流暢地使用以圖形為中心的算法(如最近鄰算法或頁面排名算法),在這些算法中,快速識別和利用相關關系非常重要。現代圖形數據存儲(如Neo4j或Amazon Neptune)是支持圖形機器學習的現成工具。
關于這本書
圖驅動機器學習向您介紹圖技術概念,強調圖在機器學習和大數據平臺中的作用。您將深入了解各種技術,包括數據源建模、算法設計、鏈接分析、分類和集群。在掌握核心概念之后,您將探索三個端到端項目,它們將演示體系結構、最佳設計實踐、優化方法和常見缺陷。作者亞歷山德羅·內格羅在構建基于圖形的機器學習系統方面的豐富經驗在每一章中都有所體現,你可以從他與真實客戶合作的實例和具體場景中學習!
里面有什么