亚洲精品无码黄色网站在线观看,清清操在线视频免费观看

本書是對機器學習一個領域的全面綜述，處理在分類問題中的未標記數據的使用: 最先進的算法，該領域的分類，應用，基準實驗，和未來的研究方向。

在機器學習領域，半監督學習(SSL)處于監督學習(其中所有訓練示例都被標記)和非監督學習(其中不給出標記數據)之間。近年來，人們對SSL的興趣有所增加，特別是在圖像、文本和生物信息學等未標記數據豐富的應用領域。這是對SSL的第一次全面概述，介紹了最先進的算法、該領域的分類、選定的應用程序、基準測試，以及對未來研究的展望。半監督學習首先提出了該領域的關鍵假設和思想:平滑性、聚類或低密度分離、流形結構和轉導。本書的核心是介紹根據算法策略組織的SSL方法。經過對生成模型的檢查，本書描述了實現低密度分離假設的算法，基于圖的方法，和執行兩步學習的算法。然后，本書討論了SSL應用程序，并通過分析大量基準測試的結果為SSL實踐者提供了指導方針。最后，本書還介紹了SSL研究的有趣方向。本書以半監督學習和轉導之間的關系的討論結束。

//mitpress.mit.edu/books/semi-supervised-learning

付費5元查看完整內容

相關內容

概率論 · 統計學 ·

2021 年 10 月 6 日

[付費5元查看完整內容]【經典書】概率與統計導論，641頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這本書的第三版繼續演示如何應用概率論，以獲得洞察到真實的，日常統計問題和情況。這種方法最終導致了對統計程序和策略的直觀理解，最常用的是實踐工程師和科學家。這本書是為統計學或概率和統計的入門課程而寫的，為工程、計算機科學、數學、統計學和自然科學的學生而寫。因此，它假定你有初等微積分知識。

第一章簡要介紹統計學，介紹它的兩個分支，描述性統計和推理統計學，并簡要介紹該學科的歷史和一些人的早期工作為今天所做的工作奠定了基礎。描述性統計的主題將在第二章中討論。描述數據集的圖和表在本章中給出，以及用于總結數據集某些關鍵屬性的數量。要想從數據中得出結論，就必須了解數據的來源。例如，通常假設數據是來自某些總體的“隨機樣本”。為了準確理解這意味著什么，以及將樣本數據屬性與總體屬性相關聯的結果是什么，有必要對概率有一些了解，這是第三章的主題。本章介紹了概率實驗的思想，解釋了事件概率的概念，并給出了概率的公理。我們的概率研究將在第四章繼續，這一章涉及隨機變量和期望的重要概念，在第五章，考慮一些在應用中經常出現的特殊類型的隨機變量。給出了二項式、泊松、超幾何、正態、均勻、伽馬、卡方、t和F等隨機變量。在第6章中，我們研究了樣本均值和樣本方差等抽樣統計量的概率分布。我們將展示如何使用一個著名的概率理論結果，即中心極限定理，來近似樣本均值的概率分布。此外，我們還介紹了關節基礎數據來自正態分布總體的重要特殊情況下的樣本均值和樣本方差的概率分布。第7章展示了如何使用數據來估計感興趣的參數。第8章介紹了統計假設檢驗的重要主題，它涉及到使用數據來檢驗特定假設的可信性。第9章討論回歸的重要課題。簡單線性回歸(包括回歸到均值、殘差分析和加權最小二乘等子主題)和多元線性回歸都被考慮在內。第10章是方差分析。考慮了單向和雙向(有或沒有交互的可能性)問題。第11章是關于擬合優度檢驗，它可以用來檢驗所提出的模型是否與數據一致。文中給出了經典的卡方擬合優度檢驗，并將其應用于列聯表的獨立性檢驗。本章的最后一節介紹了Kolmogorov-Smirnov程序，用于測試數據是否來自特定的連續概率分布。第12章討論了非參數假設檢驗，當人們無法假設潛在的分布具有某些特定的參數形式(如正態分布)時，可以使用非參數假設檢驗。第13章考慮質量控制的主題，一個關鍵的統計技術在制造和生產過程。我們考慮了各種控制圖，不僅包括休哈特控制圖，還包括基于移動平均線和累積總和的更復雜的控制圖。第14章討論與壽命試驗有關的問題。在本章中，指數分布，而不是正態分布，起著關鍵作用。

付費5元查看完整內容

機器學習 · 統計學 ·

2021 年 7 月 19 日

[付費5元查看完整內容]【經典書】機器學習統計學，476頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習中復雜的統計數據讓許多開發人員感到擔憂。了解統計學可以幫助你建立強大的機器學習模型，針對給定的問題陳述進行優化。這本書將教你所有需要執行復雜的統計計算所需的機器學習。您將獲得有關監督學習、非監督學習、強化學習等統計信息。了解真實世界的例子，討論機器學習的統計方面，并熟悉它。您還將設計用于執行諸如模型、參數擬合、回歸、分類、密度收集等任務的程序。

到本書結束時，你將掌握機器學習所需的統計數據，并能夠將你的新技能應用于任何類型的行業問題。

付費5元查看完整內容

主動學習 ·

2021 年 7 月 14 日

[付費5元查看完整內容]【經典書】主動學習理論，226頁pdf，Theory of Active Learning

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

主動學習是一種有監督的機器學習協議，其中學習算法從大量未標記數據中序列地請求選定數據點的標簽。這與被動學習形成了對比，被動學習是隨機獲取有標記的數據。主動學習的目標是產生一個高度精確的分類器，理想情況下使用的標簽要比被動學習達到同樣目的所需的隨機標記數據的數量少。這本書描述了我們對主動學習的理論益處的理解的最新進展，以及對設計有效的主動學習算法的啟示。文章的大部分內容都集中在一種特殊的方法上，即基于不同意見的主動學習，到目前為止，這種方法已經積累了大量的文獻。它還從文獻中簡要地考察了幾種可供選擇的方法。重點是關于一些一般算法的性能的定理，包括適當的嚴格證明。然而，本文的目的是教學，集中于說明基本思想的結果，而不是獲得最強或最普遍的已知定理。目標受眾包括機器學習和統計學領域的研究人員和高級研究生，他們有興趣更深入地了解主動學習理論最近和正在進行的發展。

付費5元查看完整內容

數據結構 · 算法 ·

2021 年 4 月 15 日

[付費5元查看完整內容]【經典書】數據結構與算法，770頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

高效數據結構的設計和分析長期以來被認為是計算機領域的一個重要學科，是計算機科學和計算機工程本科學位的核心課程的一部分。Python中的數據結構和算法介紹了數據結構和算法，包括它們的設計、分析和實現。本書適用于入門級數據結構課程，或中級算法入門課程。我們將在本序言后面更詳細地討論它在此類課程中的使用。

為了促進魯棒的和可重用的軟件的開發，我們試圖在整本書中采取一致的面向對象的觀點。面向對象方法的主要思想之一是，數據應該被封裝在訪問和修改它們的方法中。也就是說，不是簡單地將數據看作字節和地址的集合，而是將數據對象看作抽象數據類型(ADT)的實例，ADT包含了對這種類型的數據對象執行操作的一整套方法。然后我們強調，對于特定的ADT可能有幾種不同的實現策略，并探討這些選擇的優缺點。我們為幾乎所有討論過的數據結構和算法提供了完整的Python實現，我們還引入了重要的面向對象設計模式，將這些實現組織成可重用的組件。

我們書的讀者期望的結果包括: 他們了解最常見的數據集合抽象(如堆棧、隊列、列表、樹、地圖)。他們理解算法產生有效的實現策略常見的數據結構。他們可以從理論上和實驗上分析算法性能，并識別競爭策略之間的共同權衡。他們可以明智地使用現代編程語言庫中現有的數據結構和算法。他們有處理大多數基本數據結構和算法的具體實現的經驗。他們可以運用數據結構和算法來解決復雜的問題。

//www.wiley.com/en-us/Data+Structures+and+Algorithms+in+Python-p-9781118290279

付費5元查看完整內容

深度半監督學習 · 圖像分類 · 機器學習 ·

2021 年 3 月 6 日

[付費5元查看完整內容]電子科大最新《深度半監督學習》綜述論文，24頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

深度半監督學習是一個快速發展的領域，具有一系列的實際應用。

本文從模型設計和無監督損失函數的角度對深度半監督學習方法的基本原理和最新進展進行了全面的綜述。

我們首先提出了一種深度半監督學習分類法，該分類法對現有方法進行分類，包括深度生成方法、一致性正則化方法、基于圖的方法、偽標記方法和混合方法。然后，我們根據損失類型、貢獻和架構差異對這些方法進行了詳細的比較。

在總結近年來研究進展的基礎上，進一步探討了現有方法的不足之處，并提出了一些探索性的解決方案。

//arxiv.org/pdf/2103.00550.pdf

引言

深度學習一直是一個活躍的研究領域，在模式識別[1]、[2]、數據挖掘[3]、統計學習[4]、計算機視覺[5]、[6]、自然語言處理[7]、[8]等領域有著豐富的應用。它利用了大量高質量的標記數據，在[9]、[10]的理論和實踐中都取得了巨大的成功，特別是在監督學習場景中。然而，標簽樣品通常是困難的，昂貴的，或耗時獲得。標記過程通常需要專家的努力，這是訓練一個優秀的全監督深度神經網絡的主要限制之一。例如，在醫療任務中，測量是用昂貴的機器進行的，標簽是由多個人類專家耗時分析得出的。如果只有少數標記的樣本可用，建立一個成功的學習系統是具有挑戰性的。相比之下，未標記的數據通常是豐富的，可以很容易地或廉價地獲得。因此，它是可取的利用大量的未標記的數據，以改善學習性能給定的少量標記樣本。因此，半監督學習(semi-supervised learning, SSL)一直是近十年來機器學習領域的研究熱點。

SSL是一種學習范式，它與構建使用標記數據和未標記數據的模型有關。與只使用標記數據的監督學習算法相比，SSL方法可以通過使用額外的未標記實例來提高學習性能。通過對監督學習算法和非監督學習算法的擴展，可以很容易地獲得SSL算法。SSL算法提供了一種從未標記的示例中探索潛在模式的方法，減輕了對大量標記[13]的需求。根據系統的關鍵目標函數，可以有半監督分類、半監督聚類或半監督回歸。我們提供的定義如下:

半監督分類。給定一個包含有標記的實例和無標記的實例的訓練數據集，半監督分類的目標是同時從有標記的和無標記的數據訓練分類器，這樣它比只在有標記的數據上訓練的有監督分類器更好。
半監督聚類。假設訓練數據集由未標記的實例和一些關于聚類的監督信息組成，半監督聚類的目標是獲得比單獨從無標記數據聚類更好的聚類。半監督聚類也稱為約束聚類。
半監督回歸。給定一個包含有標記的實例和沒有標記的實例的訓練數據集，半監督回歸的目標是從一個單獨帶有標記數據的回歸算法改進回歸算法的性能，該回歸算法預測一個實值輸出，而不是一個類標簽。

為了更清楚、更具體地解釋SSL，我們重點研究了圖像分類問題。本調查中描述的思想可以毫無困難地適應其他情況，如對象檢測，語義分割，聚類，或回歸。因此，在本研究中，我們主要回顧了利用未標記數據進行圖像分類的方法。

SSL方法有很多種，包括生成模型[14]，[15]，半監督支持向量機[16]，[17]，基于圖的方法[18]，[19]，[20]，[21]和聯合訓練[22]。我們向感興趣的讀者推薦[12]、[23]，它們提供了傳統SSL方法的全面概述。目前，深度神經網絡已經在許多研究領域占據主導地位。重要的是要采用經典的SSL框架，并為深度學習設置開發新的SSL方法，這將導致深度半監督學習(DSSL)。DSSL研究了如何通過深度神經網絡有效地利用標記數據和未標記數據。已經提出了相當多的DSSL方法。根據半監督損失函數和模型設計最顯著的特征，我們將DSSL分為五類，即生成法、一致性正則化法、基于圖的方法、偽標記方法和混合方法。本文獻使用的總體分類法如圖1所示。

在[12]，[23]中有很多具有代表性的作品，但是一些新興的技術并沒有被納入其中，尤其是在深度學習取得巨大成功之后。例如，深度半監督方法提出了新的技術，如使用對抗訓練生成新的訓練數據。另外，[13]側重于統一SSL的評價指標，[24]只回顧了SSL的一部分，沒有對SSL進行全面的概述。最近，Ouali等人的綜述[25]給出了與我們類似的DSSL概念。然而，它不能與現有的方法相比，基于它們的分類，并提供了未來的趨勢和存在的問題的觀點。在前人研究的基礎上，結合最新的研究，我們將對基礎理論進行綜述，并對深度半監督方法進行比較。總結一下，我們的貢獻如下：

我們對DSSL方法進行了詳細的回顧，并介紹了主要DSSL方法的分類、背景知識和變體模型。人們可以很快地掌握DSSL的前沿思想。

我們將DSSL方法分為生成方法、一致性正則化方法、基于圖形的方法、偽標記方法和混合方法，每一種方法都有特定的類型。我們回顧了每一類的變體，并給出了標準化的描述和統一的示意圖。

我們確定了該領域的幾個開放問題，并討論了DSSL的未來方向。

付費5元查看完整內容

模式識別 · 概率理論 ·

2021 年 1 月 21 日

[付費5元查看完整內容]【經典書】模式識別概率理論，654頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

模式識別對科學家和工程師來說是最重要的挑戰之一，并且已經提出了許多不同的方法。本書的目的是為這些方法的概率分析提供一個自成體系的描述。本書包括了距離度量，基于內核或最近鄰居的非參數方法，Vapnik-Chervonenkis理論，epsilon熵，參數分類，誤差估計，自由分類器和神經網絡的討論。在可能的情況下，可以導出無分布性質和不等式。大量的結果或分析是新的。

//link.springer.com/book/10.1007/978-1-4612-0711-5

付費5元查看完整內容

統計學習 · 序列預測 ·

2020 年 11 月 17 日

[付費5元查看完整內容]【MIT經典書】統計學習與序列預測，261頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本書將側重于統計學習和序列預測(在線學習)的理論方面。在本筆記的第一部分，我們將使用經典的工具:集中不等式、隨機平均、覆蓋數字和組合參數來分析學習的i.i.d.數據。然后，我們將重點放在序列預測上，并開發許多用于在此場景中學習的相同工具。后一部分是基于最近的研究，并提出了進一步研究的方向。我們在整個課程中強調的極大極小方法，提供了一種比較學習問題的系統方法。除了理論分析，我們將討論學習算法，特別是學習和優化之間的重要聯系。我們的框架將處理開發接近最優和計算效率的算法。我們將用矩陣補全、鏈路預測等問題來說明這一點。如果時間允許，我們將深入了解信息理論和博弈論，并展示我們的新工具如何無縫地產生許多有趣的結果。

付費5元查看完整內容

操作系統 · 操作系統導論 ·

2020 年 10 月 28 日

[付費5元查看完整內容]【經典書】操作系統導論，687頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本書圍繞虛擬化、并發和持久性這三個主要概念展開，介紹了所有現代系統的主要組件（包括調度、虛擬內存管理、磁盤和I/O子系統、文件系統）。全書共50章，分為3個部分，分別講述虛擬化、并發和持久性的相關內容。作者以對話形式引入所介紹的主題概念，行文詼諧幽默卻又鞭辟入里，力求幫助讀者理解操作系統中虛擬化、并發和持久性的原理。本書內容全面，并給出了真實可運行的代碼（而非偽代碼），還提供了相應的練習，很適合高等院校相關專業的教師開展教學和高校學生進行自學。?

本書具有以下特色：

主題突出，緊緊圍繞操作系統的三大主題元素——虛擬化、并發和持久性。
以對話的方式引入背景，提出問題，進而闡釋原理，啟發動手實踐。
包含眾多“補充”和“提示”，拓展讀者知識面，增加趣味性。
使用真實代碼而不是偽代碼，讓讀者更加深入透徹地了解操作系統。
提供作業、模擬和項目等眾多學習方式，鼓勵讀者動手實踐。
為教師提供教學輔助資源。

付費5元查看完整內容

深度半監督學習 ·

2020 年 6 月 12 日

[付費5元查看完整內容]最新《深度半監督學習》綜述論文，43頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

當對大量的標記數據集合(如ImageNet)進行訓練時，深度神經網絡展示了它們在特殊監督學習任務(如圖像分類)上的卓越表現。然而，創建這樣的大型數據集需要大量的資源、時間和精力。這些資源在很多實際案例中可能無法獲得，限制了許多深度學習方法的采用和應用。為了尋找數據效率更高的深度學習方法，以克服對大型標注數據集的需求，近年來，我們對半監督學習應用于深度神經網絡的研究興趣日益濃厚，通過開發新的方法和采用現有的半監督學習框架進行深度學習設置。在本文中，我們從介紹半監督學習開始，對深度半監督學習進行了全面的概述。然后總結了在深度學習中占主導地位的半監督方法。