本書詳細介紹了流程挖掘技術的理論、實踐和概念,特別是社會、科學、醫學、工程和商業中的模式識別。這本書在更廣泛的數據科學和大數據方法的背景下討論了流程挖掘技術的幾個觀點。模式識別的流程挖掘技術:概念、理論和實踐介紹了流程挖掘技術和模式識別。之后,它提供了流程建模和挖掘的基本原理,以理解這本書。文本強調發現是一個重要的流程挖掘任務,并包括案例研究和現實生活中的例子,以指導用戶在實踐中成功地應用流程挖掘技術進行模式識別。本書旨在為學生、學者和從業者介紹流程挖掘和模式識別,對于那些想要學習基礎知識并在更深層次上理解概念的人來說是完美的。
這本書涵蓋了凸優化的介紹,凸優化是一種強大且易處理的優化問題,可以在計算機上高效求解。本書的目標是幫助讀者了解凸優化是什么以及如何在不斷擴大的實際應用場景中使用,特別強調在機器學習領域的應用。本書的第一部分涵蓋了凸集、凸函數和相關基本定義,這些概念有助于理解凸優化及其相應的模型。第二部分講述了一個非常有用的理論——對偶性,它使我們能夠:(1)獲得算法洞察;(2)為通常難以解決的非凸優化問題獲得近似解。最后一部分關注機器學習和深度學習的現代應用。這本書的一個特點是,它簡潔地講述了凸優化如何通過歷史示例和當前機器學習應用發揮作用的“故事”。另一個關鍵特點是,它包括了基于優化基礎原理啟發的各種機器學習算法的編程實現,以及所使用編程工具的簡要教程。實現基于Python,CVXPY和TensorFlow。本書并未遵循傳統教科書式的組織結構,而是通過一系列緊密相關的講義進行簡化,圍繞連貫的主題和概念展開。本書主要作為高年級本科生課程教材,同時也適用于一年級研究生課程。讀者需要具備良好的線性代數背景,一定程度的概率知識和對Python的基本熟悉。本書由三部分組成。在第一部分中,我們將學習基本概念和幾個數學定義,以便理解什么是凸優化,以及如何將感興趣的問題轉化為凸問題。然后,我們將探索凸優化問題的五個實例:LP、最小二乘、QP、SOCP和SDP。我們將專注于識別(和轉換)這類問題的技術。我們還將研究一些用于解決這些問題的著名算法。在第二部分中,我們將研究最優化領域中的一個關鍵理論,稱為對偶性。二元性有兩種類型:(1)強二元性;(2)弱對偶性。強對偶性對于獲得凸問題的算法見解是非常有用的。福利對偶性通過提供近似解來幫助處理困難的非凸問題。在最后的第三部分,我們將探討機器學習的應用:(1)監督學習,最流行的機器學習方法之一;(ii)生成對抗網絡(GANs),無監督學習的突破性模型之一;(iii)公平分類器,這是機器學習中的熱門話題之一。
這本教材旨在從數學的角度指出數據分析的最重要的原則。具體來說,它選擇了這些問題進行探索:哪些是理解應用的含義所必需的原則,哪些是理解所使用的方法成功的條件所必需的?理論只在適當應用的必要程度上呈現,力求在過度復雜和過度簡化之間取得平衡。它的主要重點是應用成功的關鍵原則。主題及特點:
雖然這本核心教材直接針對計算機科學和/或數據科學的學生,但它也將對該領域的研究人員具有真正的吸引力,他們希望獲得“超越”唯一計算經驗的數學基礎的正確理解。
//link.springer.com/book/10.1007/978-3-031-19074-2
本書為表示提供了簡明而全面的指南,這是機器學習(ML)的核心。最先進的實際應用涉及許多高維數據分析的挑戰。不幸的是,許多流行的機器學習算法在面對龐大的基礎數據時,在理論和實踐中都無法執行。本書恰當地介紹了這個問題的解決方案。 此外,這本書涵蓋了廣泛的表示技術,對學者和ML從業者都很重要,如局部敏感哈希(LSH),距離度量和分數范數,主成分(PCs),隨機投影和自動編碼器。書中提供了幾個實驗結果來證明所討論技術的有效性。 本書討論了機器學習(ML)中最重要的表示問題。在使用機器從數據中學習類/聚類抽象時,以適合有效和高效機器學習的形式表示數據是很重要的。在本書中,我們建議涵蓋各種在理論和實踐中都很重要的表示技術。在當前興趣的實際應用中,數據通常是高維的。這些應用包括圖像分類、信息檢索、人工智能中的問題解決、生物和化學結構分析以及社會網絡分析。這種高維數據分析的一個主要問題是,大多數流行的工具,如k近鄰分類器、決策樹分類器,以及一些依賴于模式間距離計算的聚類算法都不能很好地工作。因此,在低維空間中表示數據是不可避免的。 常用的降維技術有以下幾種:
數字技術在20世紀下半葉取得了前所未有的進步,產生了一場正在改變科學的測量革命。在生命科學中,數據分析現在幾乎是每個研究項目的一部分。尤其是基因組學,正受到新的測量技術的推動,這些技術允許我們第一次觀察某些分子實體。這些觀察導致了類似于鑒別微生物的發現和顯微鏡發明所允許的其他突破。這些技術的典型例子是微陣列和下一代測序。這本書將涵蓋在數據驅動的生命科學研究中成功所需的幾個統計概念和數據分析技能。我們從與計算p值相關的相對基本概念,到與分析高通量數據相關的高級主題。//leanpub.com/dataanalysisforthelifesciences統計教科書的重點是數學,而這本書的重點是使用計算機進行數據分析。我們不是解釋數學和理論,然后展示例子,而是從陳述一個實際的與數據相關的挑戰開始。本書還包括為問題提供解決方案的計算機代碼,并幫助說明解決方案背后的概念。通過自己運行代碼,實時查看數據生成和分析,您將對概念、數學和理論有更好的直覺。這本書是使用R markdown語言創建的,我們將所有這些代碼都提供給讀者。這意味著讀者可以復制所有用來創作這本書的數據和分析
《機器學習中的統計建模:概念和應用》介****紹了統計、探索性數據分析和機器學習的基本概念和作用。本文將討論機器學習的各個方面以及統計的基礎知識。通過簡單的例子和圖形表示來介紹概念,以便更好地理解技術。這本書采取了一個整體的方法-把關鍵概念與機器學習的多學科應用的深入論述放在一起。討論了新的案例研究和研究問題陳述,這將幫助研究人員在他們的應用領域基于統計和機器學習的概念。機器學習中的統計建模:概念和應用將幫助統計學家、機器學習從業者和程序員解決各種任務,如分類、回歸、聚類、預測、推薦等。
//www.elsevier.com/books/statistical-modeling-in-machine-learning/goswami/978-0-323-91776-6
通過實際問題、應用和教程的幫助,提供了應用于機器學習的最新統計概念的全面概述 * 介紹了從基本原理到先進技術的逐步方法 * 包括成功和不成功的機器學習應用的案例研究,以理解其實現中的挑戰,以及工作的例子
商業分析的數據挖掘:Python中的概念、技術和應用介紹了數據挖掘概念和方法的應用方法,使用Python軟件進行說明。讀者將學習如何在Python(一種免費的開源軟件)中實現各種流行的數據挖掘算法,以解決業務問題和機會。這是本書的第六個版本,也是第一個使用Python的版本。它涵蓋了預測、分類、可視化、降維、推薦系統、聚類、文本挖掘和網絡分析的統計和機器學習算法。它還包括:一位新的合著者,Peter Gedeck,他帶來了使用Python教授商業分析課程的經驗,以及在藥物發現過程中應用機器學習方法的專業知識關于數據挖掘中的倫理問題的新章節根據MBA、本科、文憑和高管課程的教師和學生的反饋更新和新材料十多個案例研究演示了所描述的數據挖掘技術的應用章末練習,幫助讀者衡量和擴大他們的理解和能力提出的材料。一個有二十多個數據集的配套網站,以及包括練習解決方案、PowerPoint幻燈片和案例解決方案在內的指導材料商業分析的數據挖掘:Python中的概念、技術和應用是數據挖掘、預測分析和商業分析的研究生和本科以上水平課程的理想教材。這個新版本也是一個很好的參考分析,研究人員,和從業人員在商業,金融,市場營銷,計算機科學和信息技術領域的定量方法工作。這本書是迄今為止我所見過的最全面的商業分析方法綜述,涵蓋了從線性和邏輯回歸等經典方法,到神經網絡、bagging和boosting等現代方法,甚至更具體的商業程序,如社交網絡分析和文本挖掘。即使不是圣經,它也至少是這方面的權威手冊。”——南加州大學的gareth M. James(與Witten, hasttie和Tibshirani)合著了暢銷書《統計學習導論》,并在R
第一本關于流程挖掘的書,彌合了業務流程建模和業務智能之間的差距,并在快速增長的數據科學學科中定位流程挖掘。
這第二版包括超過150頁的新材料,例如關于數據質量,數據科學的關系,歸納挖掘技術和對齊的概念。
由最有影響力、被引用最多的計算機科學家之一和最知名的BPM研究員撰寫。
面向學術界和工業界的廣泛受眾的獨立和全面的概述,包括關于工具和現代IT基礎結構的利用的最新信息。
人們對數據科學的興趣正在迅速增長。許多人認為數據科學是未來的職業。就像計算機科學在20世紀70年代成為一門學科一樣,我們現在見證了數據科學研究中心和學士/碩士項目的快速創建。大數據和預測分析相關的炒作說明了這一點。數據(“大”或“小”)對個人和組織來說是必不可少的,它們的重要性只會增加。然而,僅僅關注數據存儲和數據分析是不夠的。數據科學家還需要將數據與操作流程聯系起來,并能夠提出正確的問題。這需要理解端到端流程。流程挖掘彌合了傳統的基于模型的流程分析(如模擬和其他業務流程管理技術)和以數據為中心的分析技術(如機器學習和數據挖掘)之間的差距。流程挖掘為各種應用領域的過程改進提供了一種新的手段。無所不在的事件數據與處理挖掘相結合,使組織能夠基于事實而不是虛構來診斷問題。
盡管傳統的業務流程管理(BPM)和業務智能(BI)技術受到了廣泛的關注,但它們并沒有達到學者、顧問和軟件供應商的期望。今天大力推廣的大多數大數據技術可能也會發生同樣的情況。目標應該是改進操作過程本身,而不是它們使用的工件(模型、數據和系統)。正如將在本書中演示的那樣,有一些新穎的方法將“數據科學付諸行動”,并基于它們生成的數據改進流程。
流程挖掘是一個新興的學科,提供了全面的工具集,以提供基于事實的見解,并支持過程改進。這個新的規程建立在過程模型驅動的方法和數據挖掘的基礎上。然而,過程挖掘不僅僅是現有方法的合并。例如,現有的數據挖掘技術過于以數據為中心,無法提供對組織中端到端流程的全面理解。BI工具專注于簡單的儀表板和報告,而不是明確的業務流程洞察。BPM套件嚴重依賴于專家對理想化的將來流程進行建模,而不幫助涉眾理解原有流程。
本書介紹了一系列流挖掘技術,幫助組織揭示他們的實際業務過程。流程挖掘不限于流程發現。通過將事件數據和過程模型緊密耦合,可以檢查一致性、檢測偏差、預測延遲、支持決策并建議過程重新設計。流程挖掘為靜態流程模型注入了活力,并將今天的海量數據放到流程上下文中。因此,與過程改進(例如,六西格瑪,TQM, CPI和CPM)和遵從性(SOX, Basel II等)相關的管理趨勢可以從過程挖掘中受益。如本書所述,過程挖掘出現于過去十年[156,160]。然而,它的起源可以追溯到大約半個世紀以前。例如,Anil Nerode在1958年提出了一種方法來合成有限狀態機[108],Carl Adam Petri在1962年引入了第一種充分捕獲并發性的建模語言[111],Mark Gold在1967年第一個系統地探索了可學習性的不同概念[61]。當數據挖掘在20世紀90年代開始蓬勃發展時,很少有人關注過程。此外,直到最近事件日志才變得普遍,從而支持端到端流程發現。自2003年第一次調查過程采礦以來[156],取得了驚人的進展。過程挖掘技術已經成熟,并得到各種工具的支持。此外,雖然最初的主要焦點是過程發現,但過程挖掘的范圍已經顯著擴大。例如,一致性檢查、多視角過程挖掘和操作支持已經成為ProM(主要過程挖掘工具之一)的組成部分。
本書提供了流程挖掘的最先進技術的全面概述。本課程旨在為實踐者、學生和學者介紹本課題。一方面,這本書對不熟悉這個話題的人來說很容易理解。另一方面,這本書并沒有避免以一種嚴謹的方式解釋重要的概念。本書的目標是獨立的,同時涵蓋從過程發現到操作支持的整個過程挖掘。因此,它也可以作為日常處理BPM或BI的人員的參考手冊。
**機器學習和數據科學, **由一組在該領域的專家撰寫和編輯,這份論文集合反映了機器學習和數據科學的最新和全面的現狀,適用于工業、政府和學術界。
機器學習(ML)和數據科學(DS)是非常活躍的課題,在理論和應用方面都具有廣泛的應用范圍。它們已經成為一個重要的新興科學領域和范式,推動了統計、計算科學和智能科學等學科的研究演變,以及科學、工程、公共部門、商業、社會科學和生活方式等領域的實踐轉型。同時,它們的應用提供了一些重要的挑戰,這些挑戰通常只能通過創新的機器學習和數據科學算法來解決。
這些算法涵蓋了人工智能、數據分析、機器學習、模式識別、自然語言理解和大數據操作等更廣泛的領域。他們還解決了相關的新的科學挑戰,從數據捕獲、創建、存儲、檢索、共享、分析、優化和可視化,到跨異構和相互依賴的復雜資源的集成分析,以更好的決策、協作,并最終創造價值。