自然語言理解是人工智能的一個重要分支,主要研究如何利用電腦來理解和生成自然語言。本書重點介紹了自然語言理解所涉及的各個方面,包括語法分析、語義分析、概念分析、語料庫語言學、詞匯語義驅動、中間語言、WordNet、詞匯樹鄰接文法、鏈接文法、基于語段的機器翻譯方法、內識別與文本過濾、機器翻譯的評測等,既有對基礎知識的介紹,又有對新研究進展的綜述,同時還結合了作者(JamesPustejovsky,生成詞庫理論的創始人)多年的研究成果。本書內容全面、詳略得當,結合實例講解,使讀者更易理解。
編輯推薦
《面向機器學習的自然語言標注》內容全面、詳略得當,結合實例講解,使讀者更易理解。自然語言理解是人工智能的一個重要分支,主要研究如何利用計算機來理解和生成自然語言。
名人推薦
“語言標注是自然語言處理的一個關鍵部分,但是現有的計算語言學課程卻少有涉及。本書是難得的一本從實踐角度討論自然語言標注,并且以服務于機器學習算法為目的來考察標注規格與設計的專著。它必將成為本科生和研究生計算語言學課程的一個標準。” ——Nancy Ide瓦薩學院計算機科學系教授
作者簡介 James Pustejovsky教授是美國布蘭代斯(Brandeis University)大學計算機科學系和Volen國家綜合系統中心教授。先后在美國麻省理工學院和馬薩諸塞大學獲得學士學位和博士學位。 Pustejovsky教授主要從事自然語言的理論和計算研究。研究領域包括:計算語言學、詞匯語義學、知識表征、話語語義學、時間推理和抽取等。已經出版多部專著。
人工智能是由機器表現出來的智能,而不是由人類表現出來的智能。
這本書涵蓋了人工智能的各個領域的基本概念,如人工神經網絡,自然語言處理,機器學習,深度學習,遺傳算法等,以及它在Python中的實現。
這本書將是有用的畢業生,研究生,和研究學生誰有興趣在這個課題或有這個課題作為他們的課程的一部分。讀者可以是初學者,也可以是高級學習者。
這本書是為任何想學習如何開發機器學習系統的人準備的。我們將從理論和實踐兩方面涵蓋關于機器學習算法的最重要概念,并將使用Python編程語言中的Scikit-learn庫實現許多機器學習算法。在第一章中,您將學習機器學習最重要的概念,在下一章中,您將主要學習分類。在最后一章中,你將學習如何訓練你的模型。我假定你已經了解了編程的基礎知識。
學習使用Python分析數據和預測結果的更簡單和更有效的方法
Python機器學習教程展示了通過關注兩個核心機器學習算法家族來成功分析數據,本書能夠提供工作機制的完整描述,以及使用特定的、可破解的代碼來說明機制的示例。算法用簡單的術語解釋,沒有復雜的數學,并使用Python應用,指導算法選擇,數據準備,并在實踐中使用訓練過的模型。您將學習一套核心的Python編程技術,各種構建預測模型的方法,以及如何測量每個模型的性能,以確保使用正確的模型。關于線性回歸和集成方法的章節深入研究了每種算法,你可以使用書中的示例代碼來開發你自己的數據分析解決方案。
機器學習算法是數據分析和可視化的核心。在過去,這些方法需要深厚的數學和統計學背景,通常需要結合專門的R編程語言。這本書演示了機器學習可以如何實現使用更廣泛的使用和可訪問的Python編程語言。
使用線性和集成算法族預測結果
建立可以解決一系列簡單和復雜問題的預測模型
使用Python應用核心機器學習算法
直接使用示例代碼構建自定義解決方案
機器學習不需要復雜和高度專業化。Python使用了更簡單、有效和經過良好測試的方法,使這項技術更容易為更廣泛的受眾所接受。Python中的機器學習將向您展示如何做到這一點,而不需要廣泛的數學或統計背景。
“語言標注是自然語言處理的關鍵環節,但是它很少在計算語言學課程中被提及。這是第一本手把手講解標注的書籍,從規范和設計到使用機器學習算法面面俱到。它必然成為本科和研究生的計算語言學課程的范本。” ——Nancy Ide Vassar學院的計算機科學教授
是時候創建屬于你自己的用于機器學習的自然語言訓練語料庫了。無論你使用英語、漢語或者其他任何一種自然語言,本書都可以手把手地指導你一種經驗證的標注開發周期——把元語添加到你的訓練語料庫中來幫助機器學習算法更有效工作的過程。你無需任何編程或者語言學方面的經驗就可以上手。
通過每一步中的詳細示例,你將學到“標注開發過程”是如何幫助你建模、標注、訓練、測試、評估和修正你的訓練語料庫。你也將了解到一個實際標注項目的完整演示。
在收集你的數據集(語料庫)之前定義一個清晰的標注目標 學習用于分析你的語料庫中語言內容的工具 搭建用于你的標注項目的模型和規范 檢查從基本的XML到語言標記框架這樣一些不同的標注格式 創建適合于訓練和測試機器學習算法的黃金標準語料庫
選擇用來處理你的標注數據的機器學習算法 評估測試結果并修正你的標注任務 學習如何使用用于標注文本和調整標注的輕量級軟件
James Pustejovsky是Brandeis大學的教授,他在該大學的計算機科學系講解和研究人工智能及計算語言學。
Amber Stubbs剛剛獲得了Brandeis大學標注方法論的博士學位。她現在是SUNY Albany大學的博士后。
管理統計和數據科學的原理包括:數據可視化;描述性措施;概率;概率分布;數學期望;置信區間;和假設檢驗。方差分析;簡單線性回歸;多元線性回歸也包括在內。另外,本書還提供了列聯表、卡方檢驗、非參數方法和時間序列方法。
教材:
當前關于機器學習方面的資料非常豐富:Andrew NG在Coursera上的機器學習教程、Bishop的《機器學習與模式識別》 和周志華老師的《機器學習》都是非常好的基礎教材;Goodfellow等人的《深度學習》是學習深度學習技術的首選資料;MIT、斯坦福等名校的公開課也非常有價值;一些主要會議的Tutorial、keynote也都可以在網上搜索到。然而,在對學生們進行培訓的過程中, 我深感這些資料專業性很強,但入門不易。一方面可能是由于語言障礙,另一個主要原因在于機器學習覆蓋 面廣,研究方向眾多,各種新方法層出不窮,初學者往往在各種復雜的名詞,無窮無盡的 算法面前產生畏難情緒,導致半途而廢。
本書的主體內容是基于該研討班形成的總結性資料。基于作者的研究背景,這本書很難說 是機器學習領域的專業著作,而是一本學習筆記,是從一個機器學習 技術使用者角度對機器學習知識的一次總結,并加入我們在本領域研究中的一些經驗和發現。與其說是一本教材,不如說是一本科普讀物, 用輕松活潑的語言和深入淺出的描述為初學者打開機器學習這扇充滿魔力的大門。打開大門以后,我們會發現這是個多么讓人激動人心的 領域,每天都有新的知識、新的思路、新的方法產生,每天都有令人振奮的成果。我們希望這本書 可以讓更多學生、工程師和相關領域的研究者對機器學習產生興趣,在這片異彩紛呈的海域上找到 屬于自己的那顆貝殼。
強烈推薦給所有初學機器學習的人,里面有: 書籍的pdf 課堂視頻 課堂slides 各種延伸閱讀 MIT等世界名校的slides 學生的學習筆記等
通過機器學習的實際操作指南深入挖掘數據
機器學習: 為開發人員和技術專業人員提供實踐指導和全編碼的工作示例,用于開發人員和技術專業人員使用的最常見的機器學習技術。這本書包含了每一個ML變體的詳細分析,解釋了它是如何工作的,以及如何在特定的行業中使用它,允許讀者在閱讀過程中將所介紹的技術融入到他們自己的工作中。機器學習的一個核心內容是對數據準備的強烈關注,對各種類型的學習算法的全面探索說明了適當的工具如何能夠幫助任何開發人員從現有數據中提取信息和見解。這本書包括一個完整的補充教師的材料,以方便在課堂上使用,使這一資源有用的學生和作為一個專業的參考。
機器學習的核心是一種基于數學和算法的技術,它是歷史數據挖掘和現代大數據科學的基礎。對大數據的科學分析需要機器學習的工作知識,它根據從訓練數據中獲得的已知屬性形成預測。機器學習是一個容易理解的,全面的指導,為非數學家,提供明確的指導,讓讀者:
通過學習構建一個可以從數據中學習的系統,讀者可以在各個行業中增加他們的效用。機器學習是深度數據分析和可視化的核心,隨著企業發現隱藏在現有數據中的金礦,這一領域的需求越來越大。對于涉及數據科學的技術專業人員,機器學習:為開發人員和技術專業人員提供深入挖掘所需的技能和技術。
高斯過程(GPs)為核機器的學習提供了一種有原則的、實用的、概率的方法。在過去的十年中,GPs在機器學習社區中得到了越來越多的關注,這本書提供了GPs在機器學習中理論和實踐方面長期需要的系統和統一的處理。該書是全面和獨立的,針對研究人員和學生在機器學習和應用統計學。
這本書處理監督學習問題的回歸和分類,并包括詳細的算法。提出了各種協方差(核)函數,并討論了它們的性質。從貝葉斯和經典的角度討論了模型選擇。討論了許多與其他著名技術的聯系,包括支持向量機、神經網絡、正則化網絡、相關向量機等。討論了包括學習曲線和PAC-Bayesian框架在內的理論問題,并討論了幾種用于大數據集學習的近似方法。這本書包含說明性的例子和練習,和代碼和數據集在網上是可得到的。附錄提供了數學背景和高斯馬爾可夫過程的討論。
由于特征工程通常是特定于數據類型且依賴于應用程序的,本書包含專門介紹主要數據類型的特征工程的章節,如文本數據、圖像數據、序列數據、時間序列數據、圖形數據、流數據、軟件工程數據、Twitter 數據和社交媒體數據。這些章節介紹了生成經過反復測試、手工制作的特定于域的功能以及自動通用功能生成方法(如 Word2Vec)的方法。
本書目錄:
本書還包含有關特征選擇、基于特征轉換的自動方法、使用深度學習方法生成功能以及使用頻繁和對比度模式生成特征的章節。有幾章是關于在特定應用中使用特征工程的。
本書包含許多有用的特征工程概念和技術,這些概念和技術適用于多種方案:(a) 生成功能以表示沒有要素時的數據,(b) 在(人們可能擔心)存在時生成有效特征功能不夠好/競爭力不夠,(c) 在功能過多時選擇功能,(d) 為特定類型的應用程序生成和選擇有效功能,以及 (e) 了解與相關挑戰以及需要處理的方法,各種數據類型。