我寫這本書的主要目的是幫助你了解NLP領域是多么令人興奮,在這個領域工作的可能性是多么無限,以及現在的門檻是多么低。我的目標是幫助你輕松開始在這個領域,并向你展示你可以在幾天內實現多么廣泛的不同的應用,即使你以前從未在這個領域工作過。這本書可以通過一系列的實際應用作為一個全面的指南,如果你只對一些實際任務感興趣,也可以作為參考書。到你讀完這本書的時候,你就已經學會了: //www.manning.com/books/getting-started-with-natural-language-processing#:~:text=about%20the%20book,user%20profiling%2C%20and%20much%20more.
了解基本的NLP任務,并能夠在實際場景中識別遇到的任何特定任務。我們將涵蓋諸如情感分析、文本分類、信息搜索等流行任務。
一整套的NLP算法和技術,包括詞干提取、詞形還原、詞性標注等。您將學習如何將一系列實用方法應用于文本,例如向量化、特征提取、有監督和無監督機器學習等。 組織NLP項目的能力,以及對實際項目中需要涉及哪些步驟的理解。 全面了解關鍵的自然語言處理,以及機器學習,術語。 對自然語言處理可用資源和工具的全面知識。
本書的前兩章向您介紹了自然語言處理領域和各種可用的NLP應用。它們還向您展示了如何用最少的NLP專業知識和技能構建自己的小型應用。如果你有興趣在這個領域有一個快速的開始,我建議閱讀這兩章。后續的每一章都更深入地研究特定的NLP應用,因此,如果您對任何這樣的特定應用感興趣,您可以只關注特定的一章。如果你想全面了解這個領域、技術和應用,我建議你從頭到尾閱讀這本書:
第1章介紹NLP領域及其各種任務和應用。它還簡要概述了該領域的歷史,并展示了NLP應用如何在我們的日常生活中使用。 * 第2章解釋了如何從頭開始構建自己的實際NLP應用程序(垃圾郵件過濾),帶您完成應用程序管道中的所有基本步驟。與此同時,本文介紹了一些基本的NLP技術,包括分詞和文本規范化,并展示了如何通過流行的NLTK工具包在實踐中使用它們。 * 第三章主要討論信息檢索任務。它介紹了幾個關鍵的NLP技術,如詞干提取和停用詞刪除,并展示了如何實現自己的信息檢索算法。它還解釋了如何對這種算法進行評估。 * 第4章探討了信息提取并進一步介紹了一些基本技術,如詞性標記、詞元化和依賴分析。此外,還展示了如何使用另一個流行的NLP工具包spacacy構建信息提取應用程序。 * 第5章展示了如何實現您自己的作者(或用戶)分析算法,在NLTK和space中提供了進一步的示例和實踐。此外,本文將該任務作為一個文本分類問題來呈現,并展示了如何使用流行的機器學習庫scikit-learn實現一個機器學習分類器。 * 第6章繼續第5章開始的作者(用戶)分析主題。它深入研究了語言特征工程的任務,這是任何自然語言處理項目中必不可少的一步。它展示了如何使用NLTK和space執行語言特征工程,以及如何評估文本分類算法的結果。 * 第7章開始了情緒分析的主題,這是一個非常流行的NLP任務。它對任務應用了基于詞典的方法。情感分析器是使用帶有空間的語言管道構建的。 * 第8章繼續情感分析,但與第7章不同的是,它采用了數據驅動的方法來完成這項任務。使用scikit-learn應用了幾種機器學習技術,并通過使用空間和NLTK語言資源引入了進一步的語言概念。 * 第9章概述了主題分類的任務。與前面的文本分類任務相比,它是一個多類分類問題,因此本章討論了這個任務的復雜性,并展示了如何使用scikit-learn實現一個主題分類器。此外,本文還采用了無監督機器學習的視角,并展示了如何將此任務作為聚類問題處理。 * 第10章介紹了潛在狄利克雷分配(LDA)的主題建模任務。此外,本文還介紹了一個名為gensim的流行工具包,它特別適合使用主題建模算法。本文討論了LDA方法的動機、實現細節和結果評估的技術。 * 第11章以另一個稱為名稱實體識別(NER)的關鍵NLP任務結束本書。在介紹該任務的同時,本章還介紹了廣泛用于NLP任務的一系列功能強大的序列標記方法,并展示了NER如何集成到進一步的下游NLP應用程序中。
自然語言處理實戰教你如何創建實用的NLP應用,而不陷入復雜的語言理論和深度學習的數學。在這本引人入勝的書中,您將探索構建大量強大的NLP應用所需的核心工具和技術,包括聊天機器人、語言檢測器和文本分類器。
真實世界的自然語言處理不是典型的自然語言處理教科書。我們專注于構建真實世界的NLP應用。這里真實世界的意義有兩個方面:首先,我們關注構建真實世界的NLP應用需要什么。作為讀者,您不僅將學習如何訓練NLP模型,還將學習如何設計、開發、部署和監控它們。在此過程中,您還將學習現代NLP模型的基本構建模塊,以及對構建NLP應用有用的NLP領域的最新開發。其次,與大多數介紹性書籍不同,我們采用自上而下的教學方法。我們不采用自下而上的方法,一頁頁地展示神經網絡理論和數學公式,而是專注于快速構建“正常工作”的NLP應用程序。然后我們深入研究組成NLP應用的各個概念和模型。您還將學習如何使用這些基本構建塊構建端到端定制NLP應用,以滿足您的需求。
這本書由三個部分組成,共11章。第1部分介紹了NLP的基礎知識,其中我們學習了如何使用AllenNLP 快速構建一個NLP應用,以完成情感分析和序列標記等基本任務。
第1章首先介紹了NLP的“什么”和“為什么”——什么是NLP,什么不是NLP,如何使用NLP技術,以及NLP如何與人工智能的其他領域相關聯。
第2章演示了如何構建第一個NLP應用程序,一個情感分析器,并介紹了現代NLP模型的基礎知識——單詞嵌入和遞歸神經網絡(RNN)。
第3章介紹了自然語言處理應用的兩個重要組成部分,單詞和句子的嵌入,并演示了如何使用和訓練它們。
第4章討論了最簡單但最重要的NLP任務之一,句子分類,以及如何在這個任務中使用RNN。
第5章介紹了序列標注任務,如詞性標注和命名實體提取。它還涉及到一個相關的技術,語言建模。
第2部分介紹高級NLP主題,包括序列到序列模型、Transformer以及如何利用遷移學習和預先訓練過的語言模型來構建強大的NLP應用。
第6章介紹了序列到序列的模型,它將一個序列轉換為另一個序列。我們在一個小時內構建了一個簡單的機器翻譯系統和一個聊天機器人。
第7章討論了另一種流行的神經網絡結構,卷積神經網絡(CNN)。
第8章深入介紹了Transformer,它是當今最重要NLP模型之一。我們將演示如何使用Transformer構建改進的機器翻譯系統和拼寫檢查器。
第9章在前一章的基礎上,討論了遷移學習,這是現代NLP中的一種流行的技術,使用預先訓練過的語言模型,如BERT。
第3部分將討論與開發NLP應用程序相關的主題,這些應用程序對真實數據具有健壯性,并部署和服務它們。
第10章詳細介紹了開發NLP應用程序時的最佳實踐,包括批處理和填充、正則化和超參數優化。
第11章總結了如何部署和服務NLP模型。它還涵蓋了如何解釋和解釋ML模型。
//www.manning.com/books/advanced-algorithms-and-data-structures
作為一名軟件工程師,您將遇到無數的編程挑戰,這些挑戰最初看起來令人困惑、困難甚至是不可能的。不要絕望!許多這些“新”問題已經有了完善的解決方案。高級算法和數據結構為您提供了強大的方法來應對各種棘手的編碼挑戰,您可以對這些挑戰進行調整并應用于自己的應用程序。本實用指南提供了經典、先進和新的算法的平衡混合,用新的視角和實踐技術升級您的編程工具箱。
《高級算法和數據結構》介紹了一系列算法,用于數據分析、機器學習和圖計算中的復雜編程挑戰。您將發現解決各種棘手情況的尖端方法。您甚至將學習為需要自定義解決方案的項目設計自己的數據結構。
第1部分著重于發現高級數據結構,這些結構允許您改進一些基本操作,例如跟蹤事物或事物組。關鍵是要習慣這樣一種思想,即對數據執行操作有多種方式,而最佳方式取決于上下文和需求。
第2部分介紹了搜索中的另一種特殊情況: 處理多維數據、索引該數據和執行空間查詢。我們將再次展示特別數據結構如何在使用基本搜索算法的基礎上提供巨大的改進。但是,本部分還描述了其他重要的主題:集群、高度利用空間查詢和分布式計算,特別是使用MapReduce編程模型。
第3部分主要關注單個數據結構和圖表,這將是介紹一些優化技術的共同主線,這些技術推動了當今的人工智能和大數據工作。
通過調整預訓練的機器學習模型來解決特殊問題,在時間內建立自定義NLP模型。
在自然語言處理遷移學習中,您將學習:
//www.manning.com/books/transfer-learning-for-natural-language-processing
從頭開始訓練深度學習NLP模型是昂貴的、耗時的,并且需要大量的數據。在自然語言處理的遷移學習中,DARPA研究員Paul Azunre揭示了前沿的遷移學習技術,可以將可定制的預訓練模型應用到您自己的NLP架構中。您將學習如何使用遷移學習為語言理解提供最先進的結果,即使使用有限的標簽數據。最重要的是,您將節省訓練時間和計算成本。
關于本書:
自然語言處理遷移學習教你通過構建現有的預訓練模型快速創建強大的NLP解決方案。這是一本非常有用的書,書中提供了一些非常清晰的概念解釋,你需要這些概念來學習轉學,同時也提供了一些實際的例子,這樣你就可以馬上練習你的新技能。隨著您的學習,您將應用最先進的遷移學習方法來創建垃圾郵件分類器、事實檢查器和更多的現實世界的應用程序。
自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能夠實現人與電腦之間用自然語言進行有效通信的各種理論和方法,涉及所有用計算機對自然語言進行的操作。
//www.datascienceassn.org/sites/default/files/Natural%20Language%20Processing%20with%20Python.pdf
伯德、克萊恩、洛佩爾編著的這本《Python自然語言處理》是自然語言處理領域的一本實用入門指南,旨在幫助讀者學習如何編寫程序來分析書面語言。《Python自然語言處理》基于Python編程語言以及一個名為NLTK的自然語言工具包的開源庫,但并不要求讀者有Python編程的經驗。全書共11章,按照難易程度順序編排。第1章到第3章介紹了語言處理的基礎,講述如何使用小的Python程序分析感興趣的文本信息。第4章討論結構化程序設計,以鞏固前面幾章中介紹的編程要點。第5章到第7章介紹語言處理的基本原理,包括標注、分類和信息提取等。第8章到第10章介紹了句子解析、句法結構識別和句意表達方法。第11章介紹了如何有效管理語言數據。后記部分簡要討論了NLP領域的過去和未來。
《Python自然語言處理》的實踐性很強,包括上百個實際可用的例子和分級練習。《Python自然語言處理》可供讀者用于自學,也可以作為自然語言處理或計算語言學課程的教科書,還可以作為人工智能、文本挖掘、語料庫語言學等課程的補充讀物。
介紹使用spaCy使用Python進行自然語言處理,spaCy是一個領先的Python自然語言處理庫。
使用Python和spaCy進行自然語言處理將向您展示如何快速輕松地創建聊天機器人、文本壓縮腳本和訂單處理工具等NLP應用程序。您將了解如何利用spaCy庫智能地從文本中提取含義;如何確定句子中詞語之間的關系(句法依賴分析);識別名詞、動詞和其他詞類(詞性標注);并將專有名詞分類,如人員、組織和地點(識別命名實體)。你甚至會學到如何將陳述轉換成問題來保持對話的進行。您還將學習如何:
每一章的“嘗試這個”部分鼓勵您通過擴展該書的示例腳本來處理更廣泛的輸入、添加錯誤處理和構建專業質量的應用程序,從而實踐您所學到的知識。在本書的最后,您將使用Python和spaCy創建自己的NLP應用程序。
Yuli Vasiliev是一名程序員、自由撰稿人和顧問,專門從事開源開發、Oracle數據庫技術和自然語言處理。
Introduction
Chapter 1: How Natural Language Processing Works Chapter 2: The Text-Processing Pipeline Chapter 3: Working with Container Objects and Customizing spaCy Chapter 4: Extracting and Using Linguistic Features Chapter 5: Working with Word Vectors Chapter 6: Finding Patterns and Walking Dependency Trees Chapter 7: Visualizations Chapter 8: Intent Recognition Chapter 9: Storing User Input in a Database Chapter 10: Training Models Chapter 11: Deploying Your Own Chatbot Chapter 12: Implementing Web Data and Processing Images Linguistic Primer
獲得高級數據分析概念的廣泛基礎,并發現數據庫中的最新革命,如Neo4j、Elasticsearch和MongoDB。這本書討論了如何實現ETL技術,包括主題爬行,這是應用在諸如高頻算法交易和面向目標的對話系統等領域。您還將看到機器學習概念的示例,如半監督學習、深度學習和NLP。使用Python的高級數據分析還包括時間序列和主成分分析等重要的傳統數據分析技術。
讀完這本書,你將對分析項目的每個技術方面都有了經驗。您將了解使用Python代碼的概念,并提供在您自己的項目中使用的示例。
你會學到什么
這本書是給誰看的
對數據分析領域感興趣的數據科學家和軟件開發人員。
這本書在對算法工作原理的高層次理解和對優化模型的具體細節的了解之間找到一個平衡點。這本書將給你的信心和技能時,開發所有主要的機器學習模型。在這本Pro機器學習算法中,您將首先在Excel中開發算法,以便在用Python/R實現模型之前,實際了解可以在模型中調優的所有細節。
你將涵蓋所有主要的算法:監督和非監督學習,其中包括線性/邏輯回歸;k - means聚類;主成分分析;推薦系統;決策樹;隨機森林;“GBM”;和神經網絡。您還將通過CNNs、RNNs和word2vec等文本挖掘工具了解最新的深度學習。你不僅要學習算法,還要學習特征工程的概念來最大化模型的性能。您將看到該理論與案例研究,如情緒分類,欺詐檢測,推薦系統,和圖像識別,以便您得到最佳的理論和實踐為工業中使用的絕大多數機器學習算法。在學習算法的同時,您還將接觸到在所有主要云服務提供商上運行的機器學習模型。
你會學到什么?
這本書是給誰看的
希望轉換到數據科學角色的業務分析師/ IT專業人員。想要鞏固機器學習知識的數據科學家。