這本全面的教材的主要目標是涵蓋工程師需要了解的一些基本且最受歡迎的模型學習算法的核心技術,然后直接展示其在平穩時間序列中的適用性。這本書引入了一種與文獻中的主流方法不同的多步驟時間序列建模方法。更詳細地討論了單變量時間序列的奇異譜分析、使用最小二乘法進行的趨勢和季節性建模與殘差分析,以及ARMA模型的建模。
隨著數據驅動模型學習的應用在社會中變得普及,工程師需要了解其背后的原理,然后獲得開發和使用由此產生的數據驅動模型學習解決方案的技能。讀完這本書后,用戶將獲得足夠的背景知識和信心來:(i)更容易地閱讀其他模型學習教材,(ii)使用線性代數和統計學進行數據分析和建模,(iii)探索其他模型學習在其中發揮核心作用的應用領域。得益于眾多的插圖和模擬,這本教材將吸引需要在數據驅動模型學習中接受第一門課程的本科生和研究生。由于本書引入了易于實施的專門用于平穩時間序列模型學習的方法,因此對實踐者也很有用。只需具備高級微積分、線性代數和統計學的基本知識,使該材料對高級本科生來說容易理解。
基于作者四十年的教學經驗,這本獨特的教科書涵蓋了流程系統工程師需要了解的優化理論和方法的基礎和高級概念。涉及的主題包括連續、離散和邏輯優化(線性、非線性、混合整數和廣義析取規劃),在不確定性下的優化(隨機編程和靈活性分析),以及分解技術(拉格朗日和本德斯分解)。這本書假設讀者只有微積分和線性代數的基礎知識,便可輕松理解數學推理,全書還通過大量實例闡明了關鍵概念和算法。章節末尾的練習涉及理論推導和小型數值問題,以及GAMS等建模系統,有助于加深理解并將知識付諸實踐。書附有兩個附錄,包含了與PSE應用相關的建模系統和模型的網站鏈接,是化學工程系流程系統工程研究生單學期課程的必備教材。
這個更新的手冊提供了理解和開發線性代數在數據挖掘和機器學習中應用所必需的線性代數背景。這里既介紹了基礎知識,也介紹了高級新主題(譜理論、奇異值、矩陣、張量和多維數組的分解技術),以及線性代數的幾種應用(k-means聚類、雙坐標圖、最小二乘逼近、降維技術、張量和多維數組)。這本有用的參考文獻包括了600多個練習和補充材料,其中許多都有完成的解決方案和MATLAB應用。該書對模式識別/圖像分析、人工智能、機器學習和數據庫領域的專業人員、學者、研究者和研究生都有益處。
線性代數在數據挖掘和模式識別研究中的作用日益重要,無論是直接應用,還是通過在圖論和優化中應用線性代數。基于線性代數的算法既簡潔又快速,它們基于一個包含基本思想和技巧的公共數學原理,并且易于實現;它們特別適合并行和分布式計算來解決如從整個網絡中搜索和提取模式之類的大規模挑戰性問題。因此,線性代數技術在數據挖掘和機器學習研究中的應用構成了一個日益吸引人的領域。許多線性代數的結果對其在生物學、化學、心理學和社會學中的應用至關重要。
計算機科學家的標準本科教育包括一到兩個學期的線性代數,這對數據挖掘或模式識別的研究者來說是遠遠不夠的。即使是對這些學科的出版物進行隨意的審查,也能令人信服地展示出線性代數、優化、概率、函數分析和其他領域的相當復雜的工具的使用。線性代數及其應用領域在不斷發展,本卷只是對終身學習的一個簡單介紹。數學背景對于理解當前的數據挖掘和模式識別研究以及在這些學科進行研究是至關重要的。因此,這本書的構建旨在提供這種背景,并展示一系列的應用,吸引讀者研究其數學基礎。我們沒有關注算法的數值方面,特別是錯誤敏感性,因為這個非常重要的主題已經在數值分析的大量文獻中得到了處理,而且不特定于數據挖掘應用。我們討論的數據挖掘應用包括k-means算法及其幾種放寬版本、用于數據降維的主成分分析和奇異值分解、雙坐標圖、用于無監督和半監督學習的非負矩陣分解以及潛在語義索引。為這本書的第二版做準備涉及糾正現有的文本,大量的重寫,并引入新的主要話題:張量、外代數和多維數組。預期的讀者是從事數據挖掘和模式識別工作的研究生和研究者。我努力使這個卷冊盡可能地自足。對應用感興趣的讀者將在本卷中找到目前所需的大部分數學背景。每一章的主要部分都支持很少的例行練習,而且還有600多個練習和補充材料。
這本教材為讀者介紹了數值計算及其在科學和工程中的應用。涵蓋的主題包括那些通常出現在入門課程中的,以及那些在數據分析中出現的主題。這包括使用奇異值分解的優化和基于回歸的方法。重點是解決問題,文中有大量關于工程和科學應用的練習。還考慮了方法背后的數學理論的基本作用,既為了理解方法是如何工作的,也為了了解計算的誤差如何取決于所使用的方法。文中大部分計算示例所用的代碼都可以在GitHub上找到。這個新版還包括了上級課程在計算線性代數中所需的材料。
本書對基于機器學習的方法在自然語言文本知識發現中的應用提供了一個視角。通過分析各種數據集,可以得出通常不明顯的結論,并可用于各種目的和應用。本書解釋了應用于文本挖掘的經過時間驗證的機器學習算法的原理,并逐步演示了如何使用流行的R語言及其實現的機器學習算法揭示真實世界數據集中的語義內容。這本書不僅面向IT專家,而且面向更廣泛的需要處理大量文本文檔并具備該主題基本知識的讀者,例如電子郵件服務提供商、在線購物者、圖書管理員等。 本書首先介紹了基于文本的自然語言數據處理及其目標和問題。它專注于機器學習,介紹各種算法及其用途和可能性,并回顧其優缺點。從初始數據預處理開始,讀者可以按照R語言提供的步驟進行操作,包括將各種可用的插件包含到生成的軟件工具中。一個很大的優勢是R也包含許多實現機器學習算法的庫,因此讀者可以專注于主要目標,而無需自己實現算法的細節。為了更好地理解結果,本書還對算法進行了解釋,以支持對結果的最終評估和解釋。這些例子使用來自互聯網的真實數據進行演示。 //www.routledge.com/Text-Mining-with-Machine-Learning-Principles-and-Techniques/Zizka-Darena-Svoboda/p/book/9781032086217
深度學習在基因組學領域顯示出了驚人的前景;然而,該學科缺乏熟練的深度學習導引書。這本書將幫助研究人員和數據科學家從其他人群中脫穎而出,并通過發展必要的技能集解決基因組學中的現實問題。本書從基本概念的介紹開始,強調了深度學習在基因組學處理大數據方面的力量。首先,您將了解傳統的基因組學分析,然后過渡到最先進的基于機器學習的基因組學應用,最后深入到基因組學的深度學習方法。這本書涵蓋了研究界普遍使用的所有重要的深度學習算法,并詳細介紹了它們是什么、如何工作以及它們在基因組學中的實際應用。這本書專門用了一整節的時間來操作深度學習模型,這將為研究人員和任何深度學習實踐者提供必要的動手教程,從基因組學大數據集構建、調整、解釋、部署、評估和監控深度學習模型。
深度學習是機器學習的一個子集,它基于人工神經網絡,利用大量數據進行代表性學習。機器學習是人工智能的一個子組成部分,它包括復雜的算法,使機器能夠模仿人類智能自動執行人類任務。深度學習和機器學習都有助于自動從數據中檢測有意義的模式,而無需顯式編程。機器學習和深度學習已經完全改變了我們現在的生活方式。我們如此依賴它們,以至于我們很難想象哪一天不以這樣或那樣的方式使用它們,無論是通過垃圾郵件過濾、產品推薦或語音識別。機器學習,特別是深度學習,已經被科學界采用在諸如生物學、基因組學、生物信息學和計算生物學等領域。下一代測序(NGS)等高通量技術(HTS)對基因組學做出了重大貢獻,以前所未有的規模以單堿基對分辨率研究復雜的生物現象,促進了大數據基因組學時代的到來。為了從這些大數據中獲得有意義的、新穎的生物學見解,目前大多數算法都是基于機器學習的,而最近的深度學習方法比最先進的基于規則的算法在基因組學相關的特定任務中提供更高水平的準確性。鑒于機器學習和深度學習在基因組學中的感知和應用的增長趨勢,研究專業人員、科學家和管理人員需要對這個令人興奮的領域有很好的了解,以使他們擁有必要的工具、技術和通用指南,以幫助他們選擇機器學習和深度學習方法,以處理基因組學數據,并加快生命科學和生物技術相關行業的數據驅動決策。 這本書旨在為基因組應用實際介紹機器學習和深度學習,可以將基因組數據轉化為新穎的生物學見解。它提供了理論基礎和實踐部分,讓您了解如何在生命科學和生物技術行業的現實應用中利用機器學習和深度學習。這本書涵蓋了目前在其他教科書中沒有的一系列主題。本書還包括將機器學習和深度學習應用到現實場景時的挑戰、陷阱和最佳實踐。本書的每一章都有用Python編寫的代碼,使用行業標準的機器學習和深度學習庫以及像Keras這樣的框架,讀者可以在他們的工作環境中再現這些代碼。本書旨在滿足學術界和工業界的研究人員、生物信息學家和數據科學家的需求,他們希望在基因組應用中利用機器學習和深度學習技術,從大數據集中提取見解。已經在生命科學和生物技術領域立足的管理者和領導者不僅會發現這本書很有用,而且還可以采用這些方法來識別模式,提出預測,從而為各自公司的數據驅動決策做出貢獻。
這本書分為三個不同的部分。第一部分介紹了基因組數據分析和機器學習的基本原理。在這一部分,我們將介紹基因組數據分析的基本概念,并討論什么是機器學習,為什么它對基因組學很重要,以及機器學習將給生命科學和生物技術行業帶來什么價值。第二部分將把讀者從機器學習過渡到深度學習,并向他們介紹深度學習的基本概念和各種深度學習算法,使用現實世界的例子將原始基因組數據轉化為生物學見解。最后一部分將描述如何使用開源工具操作深度學習模型,為最終用戶提供預測。在本部分中,您將學習如何使用Python和行業標準庫構建和調優最先進的機器學習模型,從大量多模態基因組數據集中獲得生物學見解,以及如何在AWS和Azure等多個云平臺上部署這些模型。最后一部分的最后一章完全致力于基因組學深度學習方法目前面臨的挑戰和潛在的陷阱,以及如何使用最佳實踐避免它們。
線性模型是統計方法論的基石。統計學、生物統計學、機器學習、數據科學、計量經濟學等學科的高級學生可能比其他任何工具都更應該花時間學習這門學科的細節。
在這本書中,我們對高級線性模型作了簡短而嚴格的處理。它是先進的,在某種意義上,它是一個初級的博士生在統計學或生物統計學會看到的水平。這本書中的材料是任何統計學或生物統計學博士的標準知識。
在嘗試學習這門課程之前,學生將需要相當數量的數學先決條件。首先是多元微積分和線性代數。特別是線性代數,因為線性模型的許多早期部分是線性代數結果在統計背景下的直接應用。此外,一些基于數學的基本證明是遵循證明所必需的。此外,還需要一些回歸模型和數理統計。
這新版本的教科書/參考提供了從工程的角度對概率圖模型(PGMs)的介紹。它提供了關于馬爾科夫決策過程、圖模型和深度學習的新材料,以及更多的練習。
這本書涵蓋了PGM的每個主要類的基礎知識,包括表示、推理和學習原理,并回顧了每種類型的模型的實際應用。這些應用來自廣泛的學科,突出了貝葉斯分類器、隱藏馬爾可夫模型、貝葉斯網絡、動態和時間貝葉斯網絡、馬爾可夫隨機場、影響圖和馬爾可夫決策過程的許多使用。
概率圖模型(PGMs)及其在不確定性下進行智能推理的應用出現于20世紀80年代的統計和人工智能推理領域。人工智能的不確定性(UAI)會議成為這一蓬勃發展的研究領域的首要論壇。20歲的時候,我在圣何塞的UAI-92大學第一次見到了恩里克·蘇卡——我們都是研究生——在那里,他展示了他關于高層次視覺推理的關系和時間模型的研究成果。在過去的25年里,Enrique對我們的領域做出了令人印象深刻的研究貢獻,從客觀概率的基礎工作,到開發時態和事件貝葉斯網絡等高級形式的PGMS,再到PGMS的學習,例如,他的最新研究成果是用于多維分類的貝葉斯鏈分類器。
概率圖模型作為一種強大而成熟的不確定性推理技術已被廣泛接受。與早期專家系統中采用的一些特殊方法不同,PGM基于圖和概率論的強大數學基礎。它們可用于廣泛的推理任務,包括預測、監測、診斷、風險評估和決策。在開源軟件和商業軟件中有許多有效的推理和學習算法。此外,它們的力量和功效已通過其成功應用于大量現實世界的問題領域而得到證明。Enrique Sucar是PGM作為實用和有用技術建立的主要貢獻者,他的工作跨越了廣泛的應用領域。這些領域包括醫學、康復和護理、機器人和視覺、教育、可靠性分析以及從石油生產到發電廠的工業應用。