国产一国产一级毛片A久久久-中文字幕精品无码福利电影

“語言標注是自然語言處理的關鍵環節，但是它很少在計算語言學課程中被提及。這是第一本手把手講解標注的書籍，從規范和設計到使用機器學習算法面面俱到。它必然成為本科和研究生的計算語言學課程的范本。” ——Nancy Ide Vassar學院的計算機科學教授

是時候創建屬于你自己的用于機器學習的自然語言訓練語料庫了。無論你使用英語、漢語或者其他任何一種自然語言，本書都可以手把手地指導你一種經驗證的標注開發周期——把元語添加到你的訓練語料庫中來幫助機器學習算法更有效工作的過程。你無需任何編程或者語言學方面的經驗就可以上手。

通過每一步中的詳細示例，你將學到“標注開發過程”是如何幫助你建模、標注、訓練、測試、評估和修正你的訓練語料庫。你也將了解到一個實際標注項目的完整演示。

在收集你的數據集（語料庫）之前定義一個清晰的標注目標學習用于分析你的語料庫中語言內容的工具搭建用于你的標注項目的模型和規范檢查從基本的XML到語言標記框架這樣一些不同的標注格式創建適合于訓練和測試機器學習算法的黃金標準語料庫

選擇用來處理你的標注數據的機器學習算法評估測試結果并修正你的標注任務學習如何使用用于標注文本和調整標注的輕量級軟件

James Pustejovsky是Brandeis大學的教授，他在該大學的計算機科學系講解和研究人工智能及計算語言學。

Amber Stubbs剛剛獲得了Brandeis大學標注方法論的博士學位。她現在是SUNY Albany大學的博士后。

付費5元查看完整內容

相關內容

自然語言標注

關注 0

機器學習導論 · 斯坦福大學 (Stanford University) ·

2021 年 3 月 31 日

[付費5元查看完整內容]【斯坦福經典書】機器學習導論，188頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這本書調研了大約20世紀90年代末機器學習的許多重要課題。我的意圖是在理論和實踐之間尋求一個中間橋梁帶。筆記集中在機器學習的重要思想上——它既不是一本實踐手冊，也不是一個理論證明的概要。我的目標是為讀者提供充分的準備，使一些關于機器學習的廣泛文獻易于理解。草稿只有200多頁(包括扉頁)。

這本書集中在機器學習的重要思想上。對于我所陳述的許多定理，我并沒有給出證明，但對于形式的證明，我確實給出了可信的論據和引用。而且，我沒有討論許多在應用中具有實際重要性的問題;這本書不是機器學習實踐手冊。相反，我的目標是為讀者提供充分的準備，使大量關于機器學習的文獻易于理解。

學習，就像智力一樣，涵蓋了如此廣泛的過程，很難精確定義。詞典的定義包括這樣的短語:“通過學習、指導或經驗獲得知識、或理解、或技能”和“通過經驗改變行為傾向”。動物學家和心理學家研究動物和人類的學習。在這本書中，我們關注的是機器學習。動物和機器學習之間有一些相似之處。當然，機器學習的許多技術都來自心理學家的努力，他們通過計算模型使動物和人類學習的理論更加精確。機器學習研究人員正在探索的概念和技術似乎也可能闡明生物學習的某些方面。

付費5元查看完整內容

數理統計學 ·

2021 年 3 月 25 日

[付費5元查看完整內容]【經典書】數理統計學，142頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

統計學是關于可觀測現象的數學建模，使用隨機模型，以及分析數據:估計模型的參數和檢驗假設。在這些注釋中，我們研究了各種評估和測試程序。我們考慮它們的理論性質，并研究各種最優化的概念。

付費5元查看完整內容

信息論原理 ·

2021 年 3 月 22 日

[付費5元查看完整內容]【經典書】信息論原理，774頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本書是信息論領域中一本簡明易懂的教材。主要內容包括：熵、信源、信道容量、率失真、數據壓縮與編碼理論和復雜度理論等方面的介紹。

本書還對網絡信息論和假設檢驗等進行了介紹，并且以賽馬模型為出發點，將對證券市場研究納入了信息論的框架，從新的視角給投資組合的研究帶來了全新的投資理念和研究技巧。

本書適合作為電子工程、統計學以及電信方面的高年級本科生和研究生的信息論基礎教程教材，也可供研究人員和專業人士參考。

本書是一本簡明易懂的信息論教材。正如愛因斯坦所說：“凡事應該盡可能使其簡單到不能再簡單為止。''雖然我們沒有深人考證過該引語的來源（據說最初是在幸運蛋卷中發現的），但我們自始至終都將這種觀點貫穿到本書的寫作中。信息論中的確有這樣一些關鍵的思想和技巧，一旦掌握了它們、不僅使信息論的主題簡明，而且在處理新問題時提供重要的直覺。本書來自使用了十多年的信息論講義，原講義是信息論課程的高年級本科生和一年級研究生兩學期用的教材。本書打算作為通信理論．計算機科學和統計學專業學生學習信息論的教材。

信息論中有兩個簡明要點。第一，熵與互信息這樣的特殊量是為了解答基本問題而產生的。例如，熵是隨機變量的最小描述復雜度，互信息是度量在噪聲背景下的通信速率。另外，我們在以后還會提到，互信息相當于已知邊信息條件下財富雙倍的增長。第二，回答信息理論問邀的答案具有自然的代數結構。例如，熵具有鏈式法則，因而，謫和互信息也是相關的。因此，數據壓縮和通信中的問題得到廣泛的解釋。我們都有這樣的感受，當研究某個問題時，往往歷經大量的代數運算推理得到了結果，但此時沒有真正了解問題的全莪，最終是通過反復觀察結果，才對整個問題有完整、明確的認識。所以，對一個問題的全面理解，不是靠推理，而是靠對結果的觀察。要更具體地說明這一點，物理學中的牛頓三大定律和薛定諤波動方程也許是最合適的例子。誰曾預見過薛定諤波動方程后來會有如此令人敬畏的哲學解釋呢？

在本書中，我們常會在著眼于問題之前，先了解一下答案的性質。比如第2章中，我們定義熵、相對熵和互信息，研究它們之間的關系，再對這些關系作一點解釋·由此揭示如何融會貫通地使用各式各樣的方法解決實際問題。同理，我們順便探討熱力學第二定律的含義。熵總是增加嗎？答案既肯定也否定。這種結果會令專家感興趣，但初學者或i午認為這是必然的而不會深人考慮。

在實際教學中．教師往往會加人一自己的見解。事實上，尋找無人知道的證明或者有所創新的結果是一件很愉快的事情。如果有人將新的思想和已經證明的內容在課堂上講解給學生，那么不僅學生會積極反饋“對，對，對六而且會大大地提升教授該課程的樂崆我們正是這樣從研究本教材的許多新想法中獲得樂趣的。

本書加人的新素材實例包括信息論與博弈之間的關系，馬爾可夫鏈背景下熱力學第二定律的普遍性問題，信道容量定理的聯合典型性證明，赫夫曼碼的競爭最優性，以及關于最大熵譜密度估計的伯格（回定理的證明。科爾莫戈羅夫復雜度這一章也是本書的獨到之處。面將費希爾信息，互信息、中心極限定理以及布倫一閔可夫斯基不等式與熵冪不等式聯系在一起，也是我們引以為豪之處。令我們感到驚訝的是．關于行列式不等式的許多經典結論，當利用信息論不等式后會很容易得到證明。

自從香農的奠基性論文面世以來，盡管信息論已有了相當大的發展，但我們還是要努力強調它的連貫性。雖然香農創立信息論時受到通信理論中的問題啟發，然而我們認為信息論是一門獨立的學科，可應用于通信理論和統計學中。我們將信息論作為一個學科領域從通信理論、概率論和統計學的背景中獨立出來因為明顯不可能從這些學科中獲得難以理解的信息概念。由于本書中絕大多數結論以定理和證明的形式給出，所以，我們期望通過對這些定理的巧妙證明能說明這些結論的完美性。一般來講，我們在介紹問題之前先描述回題的解的性質，而這些很有的性質會使接下來的證明順理成章。

使用不等式串、中間不加任何文字、最后直接加以解釋，是我們在表述方式上的一項創新希望讀者學習我們所給的證明過程達到一定數量時，在沒有任何解釋的情況下就能理解其中的大部分步，并自己給出所需的解釋這些不等式串好比模擬到試題，讀者可以通過它們確認自己是否已掌握證明那些重要定理的必備知識。這些證明過程的自然流程是如此引人注目，以至于導致我們輕視了寫作技巧中的某條重要原則。由于沒有多余的話，因而突出了思路的邏輯性與主題思想u我們希望當讀者閱讀完本書后，能夠與我們共同分亨我們所推崇的，具有優美、簡潔和自然風格的信息論。

本書廣泛使用弱的典型序列的方法，此概念可以追溯到香農1948年的創造性工作，而它真正得到發展是在20世紀70年代初期。其中的主要思想就是所謂的漸近均分性(AEP),或許可以粗略地說成“幾乎一切事情都是等可能的"

第2章闡述了熵、相對熵和互信息之同的基本代數關系。漸近均分性是第3章重中之重的內容，這也使我們將隨機過程和數據壓縮的熵率分別放在第4章和第5章中論述。第6章介紹博弈，研究了數據壓縮的對偶性和財富的增長率。可作為對信息論進行理性思考基礎的科爾莫戈羅夫復雜度，擁有著巨大的成果，放在第14章中論述。我們的目標是尋找一個通用的最矩描述，而不是平均意義下的次佳描述。的確存在這樣的普遍性概念用來刻畫一個對象的復雜度。該章也論述了神奇數0，揭示數學上的不少奧秘，是圖靈機停止運轉概率的推廣。第7章論述信道容量定理。第8章敘述微分熵的必需知識，它們是將早期容量定理推廣到連續噪聲信道的基礎。基本的高斯信道容量問題在第9章中論述。第il章闡述信息論和統計學之間的關系，20世紀年代初期庫爾貝克首次對此進行了研究，此后相對被忽視。由于率失真理論比無噪聲數據壓縮理論需要更多的背景知識，因而將其放置在正文中比較靠后的第10章。

網絡信息理論是個大的主題，安排在第巧章，主要研究的是噪聲和干擾存在情形下的同時可達的信息流。有許多新的思想在網絡信息理論中開始活躍起來，其主要新要素有干擾和反饋第16章講述股票市場，這是第6章所討論的博弈的推廣，也再次表明了信息論和博弈之間的緊密聯系。第17章講述信息論中的不等式，我們借此一隅把散布于全書中的有趣不等式重新收攏在一個新的框架中，再加上一些關于隨機抽取子集熵率的有趣新不等式。集合和的體積的布倫一閔可夫斯基不等式，獨立隨機變量之和的有效方差的熵冪不等式以及費希爾信息不等式之間的美妙關系也將在此章中得到詳盡的闡述。

本書力求推理嚴密，因此對數學的要求相當高·要求讀者至少學過一學期的概率論課程且有扎實的數學背景，大致為本科高年級或研究生一年級水平。盡管如此，我們還是努力避免使用測度論。因為了解它只對第16章中的遍歷過程的AEP的證明過程起到簡化作用。這符合我們的觀點，那就是信息論基礎與技巧不同，后者才需要將所有推廣都寫進去。

本書的主體是第2，3，4，5，7，8，9，10，11和巧章，它們自成體系，讀懂了它們就可以對信息論有很好的理解。但在我們看來，第14章的科爾莫戈羅夫復雜度是深人理解信息論所需的必備知識。余下的幾章，從博弈到不等式．目的是使主題更加連貫和完美。

付費5元查看完整內容

Python · 機器學習 ·

2021 年 2 月 25 日

[付費5元查看完整內容]【干貨書】Python機器學習，361頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

學習使用Python分析數據和預測結果的更簡單和更有效的方法

Python機器學習教程展示了通過關注兩個核心機器學習算法家族來成功分析數據，本書能夠提供工作機制的完整描述，以及使用特定的、可破解的代碼來說明機制的示例。算法用簡單的術語解釋，沒有復雜的數學，并使用Python應用，指導算法選擇，數據準備，并在實踐中使用訓練過的模型。您將學習一套核心的Python編程技術，各種構建預測模型的方法，以及如何測量每個模型的性能，以確保使用正確的模型。關于線性回歸和集成方法的章節深入研究了每種算法，你可以使用書中的示例代碼來開發你自己的數據分析解決方案。

機器學習算法是數據分析和可視化的核心。在過去，這些方法需要深厚的數學和統計學背景，通常需要結合專門的R編程語言。這本書演示了機器學習可以如何實現使用更廣泛的使用和可訪問的Python編程語言。

使用線性和集成算法族預測結果

建立可以解決一系列簡單和復雜問題的預測模型

使用Python應用核心機器學習算法

直接使用示例代碼構建自定義解決方案

機器學習不需要復雜和高度專業化。Python使用了更簡單、有效和經過良好測試的方法，使這項技術更容易為更廣泛的受眾所接受。Python中的機器學習將向您展示如何做到這一點，而不需要廣泛的數學或統計背景。

付費5元查看完整內容

統計強化學習 · 機器學習 ·

2021 年 2 月 24 日

[付費5元查看完整內容]【經典書】統計強化學習：現代機器學習方法，206頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

強化學習技術是人工智能從感知智能向決策智能發展的關鍵技術之一；是基于控制論、心理學、生理學、認知科學、電腦科學等多學科交叉的新興機器學習技術。

本書是學習和研究強化學習技術的重要參考書籍，作者是日本人工智能領域知名學者、東京大學杉山將教授。

全書將統計學習和強化學習結合，從模型無關策略迭代、模型無關策略搜索、模型相關強化學習三個技術路線角度，對強化學習函數估計中的基函數設計、樣本重用以及策略搜索、模型估計等做了深入淺出的介紹。本書適合于從事人工智能和機器學習研究和應用的專家學者、技術人員、研究生閱讀。

本書特色：

從現代機器學習的角度介紹了統計強化學習的基本概念和實用算法，為該領域提供了最新介紹。

涵蓋了各種類型的強化學習方法，包括基于模型和無模型的方法、策略迭代和策略搜索方法。

涵蓋了最近在數據挖掘和機器學習領域引入的方法，以便在強化學習和數據挖掘/機器學習研究人員之間提供系統橋梁。

呈現了最新的結果，包括強化學習的維數降低和風險敏感強化學習；介紹了許多示例來幫助讀者理解強化學習技術的直觀性和實用性。

付費5元查看完整內容

Linux · 精通Linux ·

2021 年 2 月 19 日

[付費5元查看完整內容]【經典書】精通Linux，394頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

由沃德(Brian Ward)著，姜南、袁志鵬譯的《精通Linux(第2版)》講解了Linux操作系統的工作機制以及運行Linux系統所需的常用工具和命令。根據系統啟動的大體順序，本書更深入地介紹從設備管理到網絡配置的各個部分，最后演示了系統各部分的運行方式，并介紹了一些基本技巧和開發人員常用的工具。

Linux不像其他操作，會對用戶隱藏很多重要的東西。相反，Linux會讓用戶掌控一切。而要掌控一切，就必須理解這個操作系統的工作機制，包括如何啟動、如何連網，以及Linux內核如何工作。本書是暢銷書的新版本，作者擁有多年的實踐經驗，內容通俗易懂。通過這本書，讀者可以迅速從Linux新手變成老鳥，把作者豐富的經驗裝進自己的知識庫。

<章節目錄>

第1章概述第2章基礎命令和目錄結構第3章設備管理第4章硬盤和文件系統第5章Linux內核的啟動第6章用戶空間的啟動第7章系統配置：日志、系統時間、批處理任務和用戶第8章進程與資源利用詳解第9章網絡與配置第10章網絡應用與服務第11章shell腳本第12章在網絡上傳輸文件第13章用戶環境第14章Linux桌面概覽第15章開發工具第16章從C代碼編譯出軟件第17章在基礎上搭建

付費5元查看完整內容

機器學習 · 自然語言標注 ·

2021 年 2 月 7 日

[付費5元查看完整內容]【干貨書】面向機器學習的自然語言標注，341頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自然語言理解是人工智能的一個重要分支，主要研究如何利用電腦來理解和生成自然語言。本書重點介紹了自然語言理解所涉及的各個方面，包括語法分析、語義分析、概念分析、語料庫語言學、詞匯語義驅動、中間語言、WordNet、詞匯樹鄰接文法、鏈接文法、基于語段的機器翻譯方法、內識別與文本過濾、機器翻譯的評測等，既有對基礎知識的介紹，又有對新研究進展的綜述，同時還結合了作者（JamesPustejovsky，生成詞庫理論的創始人）多年的研究成果。本書內容全面、詳略得當，結合實例講解，使讀者更易理解。

編輯推薦

《面向機器學習的自然語言標注》內容全面、詳略得當，結合實例講解，使讀者更易理解。自然語言理解是人工智能的一個重要分支，主要研究如何利用計算機來理解和生成自然語言。

名人推薦

“語言標注是自然語言處理的一個關鍵部分，但是現有的計算語言學課程卻少有涉及。本書是難得的一本從實踐角度討論自然語言標注，并且以服務于機器學習算法為目的來考察標注規格與設計的專著。它必將成為本科生和研究生計算語言學課程的一個標準。” ——Nancy Ide瓦薩學院計算機科學系教授

作者簡介 James Pustejovsky教授是美國布蘭代斯（Brandeis University）大學計算機科學系和Volen國家綜合系統中心教授。先后在美國麻省理工學院和馬薩諸塞大學獲得學士學位和博士學位。 Pustejovsky教授主要從事自然語言的理論和計算研究。研究領域包括：計算語言學、詞匯語義學、知識表征、話語語義學、時間推理和抽取等。已經出版多部專著。

付費5元查看完整內容

操作系統 · 操作系統導論 ·

2020 年 10 月 28 日

[付費5元查看完整內容]【經典書】操作系統導論，687頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本書圍繞虛擬化、并發和持久性這三個主要概念展開，介紹了所有現代系統的主要組件（包括調度、虛擬內存管理、磁盤和I/O子系統、文件系統）。全書共50章，分為3個部分，分別講述虛擬化、并發和持久性的相關內容。作者以對話形式引入所介紹的主題概念，行文詼諧幽默卻又鞭辟入里，力求幫助讀者理解操作系統中虛擬化、并發和持久性的原理。本書內容全面，并給出了真實可運行的代碼（而非偽代碼），還提供了相應的練習，很適合高等院校相關專業的教師開展教學和高校學生進行自學。?

本書具有以下特色：

主題突出，緊緊圍繞操作系統的三大主題元素——虛擬化、并發和持久性。
以對話的方式引入背景，提出問題，進而闡釋原理，啟發動手實踐。
包含眾多“補充”和“提示”，拓展讀者知識面，增加趣味性。
使用真實代碼而不是偽代碼，讓讀者更加深入透徹地了解操作系統。
提供作業、模擬和項目等眾多學習方式，鼓勵讀者動手實踐。
為教師提供教學輔助資源。

付費5元查看完整內容

機器學習 · 速查手冊 ·

2020 年 3 月 15 日

[付費5元查看完整內容]機器學習速查手冊，135頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本備忘單是機器學習手冊的濃縮版，包含了許多關于機器學習的經典方程和圖表，旨在幫助您快速回憶起機器學習中的知識和思想。

這個備忘單有兩個顯著的優點:

清晰的符號。數學公式使用了許多令人困惑的符號。例如，X可以是一個集合，一個隨機變量，或者一個矩陣。這是非常混亂的，使讀者很難理解數學公式的意義。本備忘單試圖規范符號的使用，所有符號都有明確的預先定義，請參見小節。
更少的思維跳躍。在許多機器學習的書籍中，作者省略了數學證明過程中的一些中間步驟，這可能會節省一些空間，但是會給讀者理解這個公式帶來困難，讀者會在中間迷失。

付費5元查看完整內容