//www.worldscientific.com/page/pressroom/2018-07-31-01
這本書提供了一個機器學習和數據挖掘領域的數學分析。典型的計算機科學數學課程的數學分析部分省略了這些非常重要的思想和技術,這些思想和技術對于機器學習的專門領域是不可缺少的,以優化為中心,如支持向量機,神經網絡,各種類型的回歸,特征選擇和聚類。本書適用于研究者和研究生,他們將從書中討論的這些應用領域獲益。
數學分析可以被松散地描述為數學的一個領域,其主要對象是研究函數及其關于極限的行為。術語“函數”指的是實參數實函數的廣義集合,包括函數、運算符、測度等。在數學分析中,有幾個發展良好的領域對機器學習產生了特殊的興趣:拓撲(具有不同的風格:點集拓撲、組合拓撲和代數拓撲),賦范和內積空間的泛函分析(包括巴拿赫和希爾伯特空間),凸分析,優化,等等。此外,像測量和集成理論這樣的學科在統計學中發揮著至關重要的作用,這是機器學習的另一個支柱,在計算機科學家的教育中缺乏。我們的目標是為縮小這一差距做出貢獻,這是對研究感興趣的人的一個嚴重障礙。機器學習和數據挖掘文獻非常廣泛,包括各種各樣的方法,從非正式的到復雜的數學展示。然而,接近研究主題所需要的必要的數學背景通常以一種簡潔和無動機的方式呈現,或者干脆就不存在。本卷機器學習的通常介紹,并提供(通過其應用章節,討論優化,迭代算法,神經網絡,回歸,和支持向量機)的數學方面的研究。
在過去的十年里,人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說,這些領域旨在“學習一些有用的東西”,了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段,類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述,但許多都有,它是圖模型的框架(圖和概率論的結合),使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上,現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然,沒有人說這種方法是正確的,也沒有人說這是唯一有用的方法。事實上,有人可能會反駁說,這是沒有必要的,因為“生物有機體不使用概率論”。無論情況是否如此,不可否認的是,圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚,貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。
//www0.cs.ucl.ac.uk/staff/d.barber/brml/
本書結構
本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練,這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時,我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是,計算機科學的學生熟悉的概念,算法為核心。然而,在機器學習中更常見的做法是將模型視為核心,而如何實現則是次要的。從這個角度來看,理解如何將一個數學模型轉換成一段計算機代碼是核心。
第二部分介紹了理解連續分布所需的統計背景,以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然,當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時,他們會感到驚訝。統計學和機器學習之間的一個不同觀點是,我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器),而不是某些技術。因此,我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式,這有助于強調模型是什么,而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術,包括隨機(蒙特卡羅)和確定性(變分)技術。
這本書的目的是全面概述在算法的數學分析中使用的主要技術。涵蓋的材料從經典的數學主題,包括離散數學,基本的真實分析,和組合學,以及從經典的計算機科學主題,包括算法和數據結構。重點是“平均情況”或“概率”分析,但也涵蓋了“最壞情況”或“復雜性”分析所需的基本數學工具。我們假設讀者對計算機科學和實際分析的基本概念有一定的熟悉。簡而言之,讀者應該既能寫程序,又能證明定理。否則,這本書是自成一體的。
這本書是用來作為算法分析高級課程的教科書。它也可以用于計算機科學家的離散數學課程,因為它涵蓋了離散數學的基本技術,以及組合學和重要的離散結構的基本性質,在計算機科學學生熟悉的背景下。傳統的做法是在這類課程中有更廣泛的覆蓋面,但許多教師可能會發現,這里的方法是一種有用的方式,可以讓學生參與到大量的材料中。這本書也可以用來向數學和應用數學的學生介紹與算法和數據結構相關的計算機科學原理。
盡管有大量關于算法數學分析的文獻,但該領域的學生和研究人員尚未直接獲得廣泛使用的方法和模型的基本信息。本書旨在解決這種情況,匯集了大量的材料,旨在為讀者提供該領域的挑戰的欣賞和學習正在開發的先進工具以應對這些挑戰所需的背景知識。補充的論文從文獻,這本書可以作為基礎的介紹性研究生課程的算法分析,或作為一個參考或基礎的研究人員在數學或計算機科學誰想要獲得這個領域的文獻自學。
第 1 章:算法 分析考慮算法分析的一般動機以及研究算法性能特征的各種方法之間的關系。
第 2 章:遞歸關系 專注于各種類型的 遞歸關系的基本數學屬性,這些遞歸關系在通過從程序的遞歸表示到描述其屬性的函數的遞歸表示的直接映射來分析算法時經常出現。
第 3 章:生成函數 在算法的平均情況分析中介紹了一個核心概念:生成函數 ——作為我們研究對象的算法與發現其屬性所必需的分析方法之間的必要且自然的聯系。
第 4 章:漸近逼近 研究了推導問題的近似解或逼近精確解的方法,這使我們能夠 在分析算法時對感興趣的數量進行 簡潔而精確的估計。
第 5 章:分析組合 學介紹了一種研究組合結構的現代方法,其中生成函數是研究的中心對象。這種方法是通過本書其余部分研究特定結構的基礎。
第 6 章:樹 研究了許多不同類型的 樹的屬性,以及在許多實際算法中隱含和顯式出現的基本結構。我們的目標是提供對樹組合分析的廣泛文獻結果的訪問,同時為大量算法應用提供基礎。
第 7 章:排列 調查了排列的組合屬性(數字1到N的排序),并展示了它們如何以自然的方式與基本的和廣泛使用的排序算法相關聯。
第 8 章:字符串和嘗試 研究 字符串、字符序列或從固定字母表中提取的字母的基本組合屬性,并介紹處理字符串的算法,從計算理論核心的基本方法到實用的文本處理方法重要應用程序的主機。
第 9 章:單詞和映射 涵蓋單詞的全局屬性( 來自M 字母字母表的 N 字母字符串),這些屬性在經典組合學(因為它們模擬獨立伯努利試驗的序列)和經典應用算法(因為它們散列算法的模型輸入序列)。本章還涵蓋了隨機映射 ( N個字母表中的N個字母單詞),并討論了與樹和排列的關系。
大量大維度數據是現代機器學習(ML)的默認設置。標準的ML算法,從支持向量機這樣的內核方法和基于圖的方法(如PageRank算法)開始,最初的設計是基于小維度的,在處理真實世界的大數據集時,即使不是完全崩潰的話,往往會表現失常。隨機矩陣理論最近提出了一系列廣泛的工具來幫助理解這種新的維數詛咒,幫助修復或完全重建次優算法,最重要的是提供了處理現代數據挖掘的新方向。本編著的主要目的是提供這些直覺,通過提供一個最近的理論和應用突破的隨機矩陣理論到機器學習摘要。針對廣泛的受眾,從對統計學習感興趣的本科生到人工智能工程師和研究人員,這本書的數學先決條件是最小的(概率論、線性代數和真實和復雜分析的基礎是足夠的):與隨機矩陣理論和大維度統計的數學文獻中的介紹性書籍不同,這里的理論重點僅限于機器學習應用的基本要求。這些應用范圍從檢測、統計推斷和估計,到基于圖和核的監督、半監督和非監督分類,以及神經網絡: 為此,本文提供了對算法性能的精確理論預測(在不采用隨機矩陣分析時往往難以實現)、大維度的洞察力、改進方法,以及對這些方法廣泛適用于真實數據的基本論證。該專著中提出的大多數方法、算法和圖形都是用MATLAB和Python編寫的,讀者可以查閱(//github.com/Zhenyu-LIAO/RMT4ML)。本專著也包含一系列練習兩種類型:短的練習與修正附加到書的最后讓讀者熟悉隨機矩陣的基本理論概念和工具分析,以及長期指導練習應用這些工具進一步具體的機器學習應用程序。
《量子信息理論》這本書基本上是自成體系的,主要關注構成這門學科基礎的基本事實的精確數學公式和證明。它是為研究生和研究人員在數學,計算機科學,理論物理學尋求發展一個全面的理解關鍵結果,證明技術,和方法,與量子信息和計算理論的廣泛研究主題相關。本書對基礎數學,包括線性代數,數學分析和概率論有一定的理解。第一章總結了這些必要的數學先決條件,并從這個基礎開始,這本書包括清晰和完整的證明它提出的所有結果。接下來的每一章都包含了具有挑戰性的練習,旨在幫助讀者發展自己的技能,發現關于量子信息理論的證明。
這是一本關于量子信息的數學理論的書,專注于定義、定理和證明的正式介紹。它主要是為對量子信息和計算有一定了解的研究生和研究人員準備的,比如將在本科生或研究生的入門課程中涵蓋,或在目前存在的關于該主題的幾本書中的一本中。量子信息科學近年來有了爆炸性的發展,特別是在過去的二十年里。對這個問題的全面處理,即使局限于理論方面,也肯定需要一系列的書,而不僅僅是一本書。與這一事實相一致的是,本文所涉及的主題的選擇并不打算完全代表該主題。量子糾錯和容錯,量子算法和復雜性理論,量子密碼學,和拓撲量子計算是在量子信息科學的理論分支中發現的許多有趣的和基本的主題,在這本書中沒有涵蓋。然而,當學習這些主題時,人們很可能會遇到本書中討論的一些核心數學概念。
這本書的目的是介紹計算機科學家所需要的一些基本數學知識。讀者并不期望自己是數學家,我們希望下面的內容對你有用。
如果您不熟悉基礎知識,則機器學習可能是一個困難的主題。借助本書,您將獲得統計編程語言R在機器學習中使用的入門原則的堅實基礎。您將從回歸等基礎知識開始,然后進入神經網絡等更高級的主題,最后深入研究像Caret這樣的軟件包在R世界中機器學習的前沿。
通過熟悉諸如理解回歸模型和分類模型之間的差異之類的主題,您將能夠解決一系列機器學習問題。知道何時使用特定模型可能意味著高精度模型與完全無用的模型之間的區別。本書提供了大量示例來構建機器學習的實用知識。
了解機器學習算法的主要部分: 認識到如何使用機器學習以簡單的方式解決問題 找出何時使用某些機器學習算法與其他算法 了解如何使用最先進的軟件包實施算法
機器學習使用各種數學領域的工具。本文試圖對機器學習入門課程所需的數學背景進行總結,這門課在加州大學伯克利分校被稱為CS 189/289A。我們假設讀者已經熟悉多變量微積分和線性代數的基本概念(UCB數學53/54的水平)。這里介紹的大多數主題都很少涉及; 我們打算給出一個概述,并向感興趣的讀者指出更全面的處理以獲得進一步的細節。請注意,本文關注的是機器學習的數學背景,而不是機器學習本身。我們將不討論具體的機器學習模型或算法,除非可能通過強調數學概念的相關性。該文件的早期版本不包括校樣。我們已開始在有助于理解的相當短的證明里加上證明。這些證明不是cs189的必要背景,但可以用來加深讀者的理解。
這本書來自統計學習課程,這是一門統計機器學習的入門課程,面向具有一些微積分、線性代數和統計學背景的學生。這門課程的重點是監督學習:分類和回歸。本課程將涵蓋機器學習和數據科學中使用的一系列方法,包括:
這些方法將在整個課程中被研究并應用于來自各種應用的真實數據。課程還涵蓋了一些重要的實際問題,如交叉驗證、模型選擇和偏方差權衡。課程包括理論(例如,推導和證明)以及實踐(特別是實驗室和小型項目)。實際部分將使用Python實現。
在復雜的以人為中心的系統中,每天的決策都具有決策相關信息不完全的特點。現有決策理論的主要問題是,它們沒有能力處理概率和事件不精確的情況。在這本書中,我們描述了一個新的理論的決策與不完全的信息。其目的是將決策分析和經濟行為的基礎從領域二價邏輯轉向領域模糊邏輯和Z約束,從行為決策的外部建模轉向組合狀態的框架。
這本書將有助于在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學的專業人員,學者,經理和研究生。
讀者:專業人士,學者,管理者和研究生在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學。
本書涵蓋了這些領域中使用Python模塊演示的概率、統計和機器學習的關鍵思想。整本書包括所有的圖形和數值結果,都可以使用Python代碼及其相關的Jupyter/IPython Notebooks。作者通過使用多種分析方法和Python代碼的有意義的示例,開發了機器學習中的關鍵直覺,從而將理論概念與具體實現聯系起來。現代Python模塊(如panda、y和Scikit-learn)用于模擬和可視化重要的機器學習概念,如偏差/方差權衡、交叉驗證和正則化。許多抽象的數學思想,如概率論中的收斂性,都得到了發展,并用數值例子加以說明。本書適合任何具有概率、統計或機器學習的本科生,以及具有Python編程的基本知識的人。