這本書是提供信息理論和錯誤控制編碼的全面概述,使用一個不同的方法然后在現有的文獻。章節根據香農系統模型組織,其中一個區塊影響其他區塊。在每一章的開始提供一個相對簡短的理論介紹,包括一些額外的例子和解釋,但沒有任何證明。并在相應章節的末尾對抽象代數的一些方面作了簡要的概述。帶有大量插圖和表格的典型復雜例子被選擇來提供對問題本質的詳細見解。給出了一些極限情況來說明與理論界的聯系。仔細選擇數值,以提供所描述的算法的深入解釋。雖然不同章節中的例子可以單獨考慮,但它們是相互聯系的,一個考慮的問題的結論與書中的其他問題有關。
//link.springer.com/book/10.1007/978-3-319-49370-1
這本教科書在機器學習的背景下介紹線性代數和優化。書中提供了例子和練習。每個章節末尾的練習解決方案手冊可供教學指導老師使用。本教材針對計算機科學、數學和數據科學領域的研究生和教授。高級本科生也可以使用本教材。本書各章節的組織方式如下:
1. 線性代數及其應用:章節集中在線性代數的基礎以及它們在奇異值分解、矩陣分解、相似矩陣(核方法)和圖分析方面的常見應用。大量的機器學習應用已經被用作例子,如光譜聚類、基于核的分類和異常值檢測。緊密整合的線性代數方法與例子,從機器學習區分這本書從線性代數的一般卷。重點顯然是機器學習線性代數最相關的方面,并教讀者如何應用這些概念。
2. 優化及其應用:機器學習的大部分內容都是優化問題,其中我們試圖最大化回歸和分類模型的準確性。以優化為中心的機器學習的“父問題”是最小二乘回歸。有趣的是,這個問題在線性代數和優化中都有出現,是連接這兩個領域的關鍵問題之一。最小二乘回歸也是支持向量機、邏輯回歸和推薦系統的起點。此外,降維和矩陣分解的方法也需要優化方法的發展。在計算圖中討論了優化的一般觀點,以及它在神經網絡中的反向傳播的應用。
機器學習初學者經常面臨的一個挑戰是線性代數和優化所需的廣泛背景。一個問題是,現有的線性代數和優化課程并不是針對機器學習的;因此,一個人通常需要完成比機器學習所需的更多的課程材料。此外,優化和線性代數的某些類型的思想和技巧在機器學習中出現的頻率比其他以應用程序為中心的設置更高。因此,發展一種更適合機器學習的特定視角的線性代數和優化的觀點具有重要的價值。
自1948年引入信息論以來,信息論已被證明在分析與壓縮、存儲和傳輸數據有關的問題方面起著重要作用。例如,信息論允許分析數據通信和壓縮的基本限制,并在幾十年的實際通信系統設計中發揮了作用。近年來,在使用信息理論方法解決數據壓縮、數據通信和網絡之外的問題方面出現了復興,例如壓縮感知、數據獲取、數據分析、機器學習、圖挖掘、社區檢測、隱私和公平。在這本書中,我們探索了信號處理、機器學習、學習理論和統計的接口上的一系列廣泛的問題,其中源自信息論的工具和方法可以提供類似的好處。幾十年來,信息論在這一界面上的作用確實得到了承認。一個突出的例子是在1980年代使用互信息、度量熵和容量等信息理論量來建立估計的極大極小率。在這里,我們打算探索這個界面的現代應用,這些應用正在塑造21世紀的數據科學。
當然,標準信息理論工具與信號處理或數據分析方法之間有一些顯著的差異。從整體上說,信息論傾向于關注漸近極限,使用大的塊長度,并假設數據是由有限的比特數表示,并通過一個噪聲信道觀看。標準結果不關心復雜性,而是更多地關注通過可實現性和反向結果表征的基本限制。另一方面,一些信號處理技術,如采樣理論,專注于離散時間表示,但不一定假設數據是量化的或系統中有噪聲。信號處理通常關注的是最優的具體方法,即達到開發的極限,并具有有限的復雜性。因此,很自然地將這些工具結合起來,以解決更廣泛的問題和分析,包括量化、噪聲、有限樣本和復雜性分析。
這本書的目的是為新興的數據科學問題的信息理論方法的最近的應用提供一個綜述。本書的潛在讀者可能是信息理論、信號處理、機器學習、統計學、應用數學、計算機科學或相關研究領域的研究人員,或尋求了解信息理論和數據科學并在此界面上找出開放問題的研究生。本卷的特殊設計確保它可以作為研究人員和學生的教科書的最先進的參考。
這本書包含了16個不同的章節,由世界范圍內公認的領先專家撰寫,涵蓋了信號處理、數據科學和信息論界面上的各種各樣的主題。本書以信息理論的介紹作為其余章節的背景開始,也設置了貫穿全書使用的符號。接下來的章節被分為四類: 數據獲取(第2-4章),數據表示和分析(第5-9章),信息論和機器學習(第10和11章),以及信息論、統計和壓縮(第12-15章)。最后一章,第16章,通過對范諾不等式在一系列數據科學問題中的調研,將本書的幾個主題聯系起來。章節是獨立的,涵蓋了各自主題的最新研究結果,并且可以彼此獨立地處理。
深度學習:全面指南提供了深度學習(DL)和機器學習(ML)的概念的全面覆蓋。DL和ML是最受歡迎的領域,需要深刻的理解。這本書使讀者能夠基于ML和DL構建創新和有用的應用。從神經網絡的基礎開始,并繼續通過各種類型的CNN, RNNs, LSTM的架構,以及更多,直到書的結尾,每一個主題都給予了最大的照顧和專業和全面的塑造。
關鍵特征: 包括從ML概念到DL概念的平穩過渡
對于所有基于代碼的示例,都提供了逐行解釋
包括許多實際的例子和面試問題
即使是非計算機科學背景的人也可以從這本書中受益,學習理論、例子、案例研究和代碼片段
每一章都以目標開始,并以一組測試讀者理解力的測試問題結束
包括對提供額外指導的相關YouTube視頻的引用
人工智能是每個人的領域。這本書面向所有人,不論他們的專業領域是什么。畢業生和研究人員在深度學習將發現這本書有用。
這本書通過探索計算機科學理論和機器學習雙方可以相互傳授的內容,將理論和機器學習聯系起來。它強調了對靈活、易于操作的模型的需求,這些模型更好地捕捉使機器學習變得容易的東西,而不是讓機器學習變得困難的東西。
理論計算機科學家將被介紹到機器學習的重要模型和該領域的主要問題。機器學習研究人員將以一種可訪問的格式介紹前沿研究,并熟悉現代算法工具包,包括矩法、張量分解和凸規劃松弛。
超越最壞情況分析的處理方法是建立對實踐中使用的方法的嚴格理解,并促進發現令人興奮的、解決長期存在的重要問題的新方法。
在這本書中,我們將涵蓋以下主題:
(a)非負矩陣分解
(b)主題建模
(c)張量分解
(d)稀疏恢復
(e)稀疏編碼
(f)學習混合模型
(g)矩陣補全
//link.springer.com/book/10.1007/978-3-319-55444-0
這本引人入勝的和清晰的書面教科書/參考提供了一個必要的介紹,迅速興起的跨學科領域的數據科學。它側重于成為一名優秀的數據科學家的基本原則,以及建立收集、分析和解釋數據的系統所需的關鍵技能。
《數據科學設計手冊》是一個實用的見解來源,它突出了分析數據中真正重要的東西,并提供了對如何使用這些核心概念的直觀理解。這本書沒有強調任何特定的編程語言或數據分析工具套件,而是著重于重要設計原則的高層討論。
《數據科學概論》是一門易于閱讀的課程,理想情況下,它能滿足本科生和早期研究生的需求。它揭示了這門學科如何處于統計學、計算機科學和機器學習的交叉點,具有自己獨特的分量和特點。這些和相關領域的從業者會發現這本書非常適合自學。
這本最新的教科書是向數學、計算機科學、工程、統計學、經濟學或商業研究的新學生介紹概率論和信息理論的一個極好的方式。它只需要基本的微積分知識,首先建立一個清晰和系統的基礎: 通過對布爾代數度量的簡化討論,特別關注概率的概念。這些理論思想隨后被應用到實際領域,如統計推斷、隨機游走、統計力學和通信建模。主題涵蓋了離散和連續隨機變量,熵和互信息,最大熵方法,中心極限定理和編碼和信息傳輸,并為這個新版本添加了關于馬爾可夫鏈和它們的熵的材料。大量的例子和練習包括說明如何使用理論在廣泛的應用,與詳細的解決方案,大多數練習可在網上找到。
機器學習是關于基于數據的學習、推理和行動。這是通過構建計算機程序來完成的,這些程序可以處理數據,提取有用的信息,對未知屬性做出預測,并建議采取的行動或做出的決定。將數據分析變成機器學習的原因是,這個過程是自動化的,計算機程序是從數據中學習的。這意味著使用通用計算機程序,這些程序根據觀察到的所謂訓練數據自動調整程序的設置,以適應特定的應用程序環境。因此可以說,機器學習是一種通過實例編程的方式。機器學習的美妙之處在于,數據所代表的內容是非常隨意的,我們可以設計出適用于不同領域的廣泛實際應用的通用方法。我們通過下面的一系列例子來說明這一點。上述“通用計算機程序”是指數據的數學模型。也就是說,當我們開發和描述不同的機器學習方法時,我們使用的是數學語言。數學模型描述了與觀測數據對應的相關數量或變量與感興趣的屬性(如預測、動作等)之間的關系。因此,模型是數據的緊湊表示,以精確的數學形式捕捉我們正在研究的現象的關鍵屬性。使用哪個模型通常由機器學習工程師在查看可用數據時產生的見解和從業者對問題的總體理解來指導。在實踐中實現該方法時,將該數學模型轉換為可在計算機上執行的代碼。然而,要理解計算機程序的實際作用,了解其基礎數學也很重要。
這本書的目的是介紹監督機器學習,而不需要在該領域的任何經驗。我們既關注基礎的數學,也關注實踐方面。本書是教科書,不是參考書,也不是編程手冊。因此,它只包含一個仔細(但全面)的監督機器學習方法的選擇,而沒有編程代碼。現在有許多精彩和證據確鑿的代碼包可用,我們深信,在很好地理解數學和內部運行的方法。在這本書中,我們從統計學的角度來討論方法的統計特性。因此,它需要一些統計和概率論的知識,以及微積分和線性代數。我們希望,從頭到尾閱讀這本書將給讀者一個良好的起點,作為一個機器學習工程師工作和/或繼續在該學科的進一步研究。下圖說明了章節之間的主要依賴關系。特別是在第二、三、四章中討論了最基本的主題,我們建議讀者先閱讀這些章節,然后再閱讀后面包含更高級的主題的章節(第5-9章)。第10章超越了機器學習的監督設置,第11章關注于設計一個成功的機器學習解決方案的一些更實際的方面,比前幾章的技術性更少。最后,第十二章(由David Sumpter撰寫)討論了現代機器學習的某些倫理方面。
神經網絡是一組計算單元的集合,這些計算單元被連接在一起,稱為神經元,每個神經元產生一個實際值的結果,稱為激活。輸入神經元從感知環境的傳感器中被激活,而其他神經元從之前的神經元激活中被激活。這種結構使神經元能夠相互發送信息,從而理順那些有助于成功解決問題的連接,減少那些導致失敗的連接。
這本書從數學的角度描述了神經網絡如何運作。因此,神經網絡既可以解釋為函數通用逼近器,也可以解釋為信息處理器。目前工作的主要目標是把神經網絡的思想和概念寫成精確的現代數學語言,這些思想和概念現在在直觀的水平上使用。這本書是一個古老的好古典數學和現代概念的深入學習的混合物。主要的焦點是在數學方面,因為在今天的發展趨勢中,忽略了許多數學細節,大多數論文只強調計算機科學的細節和實際應用。
從一開始就創建良好的數據,而不是在收集數據之后修復它。通過遵循這本書中的指導方針,你將能夠進行更有效的分析,并產生研究數據的及時演示。
數據分析師通常與數據集提出了勘探和研究設計不良,導致解釋的困難和延誤產生有意義的結果。數據分析培訓的重點是如何在開始認真分析之前清理和轉換數據集。通過使用良好的數據集設計和理解數據類型如何決定可以執行的分析類型,可以避免不恰當或令人困惑的表示、度量單位選擇、編碼錯誤、缺失值、離群值等。
這本書討論了數據集創建的原則和最佳實踐,并涵蓋了基本數據類型及其相關的適當統計和可視化。這本書的一個重點是為什么選擇某些數據類型來表示概念和度量,而不是典型的討論如何分析選定的特定數據類型。
你會: 注意創建和收集數據的原則 了解基本數據類型和表示 選擇數據類型,預測分析目標 理解數據集的結構和用于分析和共享的實踐 由例子引導和用例(好的和壞的) 使用清潔工具和方法創建良好的數據
這本教科書通過提供實用的建議,使用直接的例子,并提供相關應用的引人入勝的討論,以一種容易理解的方式介紹了基本的機器學習概念。主要的主題包括貝葉斯分類器,最近鄰分類器,線性和多項式分類器,決策樹,神經網絡,和支持向量機。后面的章節展示了如何通過“推進”的方式結合這些簡單的工具,如何在更復雜的領域中利用它們,以及如何處理各種高級的實際問題。有一章專門介紹流行的遺傳算法。
這個修訂的版本包含關于工業中機器學習的實用應用的關鍵主題的三個全新的章節。這些章節研究了多標簽域,無監督學習和它在深度學習中的使用,以及歸納邏輯編程的邏輯方法。許多章節已經被擴展,并且材料的呈現已經被增強。這本書包含了許多新的練習,許多解決的例子,深入的實驗,和獨立工作的計算機作業。
//link.springer.com/book/10.1007/978-3-319-63913-0#about