這是關于分布式強化學習的首本全面指南,提供了從概率視角考慮決策的新數學形式。 分布式強化學習是考慮決策的新數學形式。它超越了強化學習和期望值的常見方法,專注于因智能體的選擇而獲得的總獎勵或回報 - 特別是,這種回報從概率視角看表現如何。在這本首本全面的分布式強化學習指南中,Marc G. Bellemare, Will Dabney, 和 Mark Rowland,他們引領了這個領域的發展,介紹了其關鍵概念并回顧了其許多應用。他們展示了其解釋因與環境互動而產生的許多復雜有趣現象的能力。
作者們從經典強化學習中介紹核心思想,以使分布式主題有所背景,并包含了對文本中討論的主要結果的數學證明。他們引導讀者通過一系列的算法和數學發展,從而表征,計算,估計,以及基于隨機回報做決策。在金融(風險管理)、計算神經科學、計算精神病學、心理學、宏觀經濟學和機器人技術等多種學科中的實踐者已經在使用分布式強化學習,為其在數學金融、工程和生命科學中的擴展應用鋪平了道路。分布式強化學習不僅僅是一種數學方法,它代表了智能體如何進行預測和決策的新視角。
這本書的目的是將不確定情況下的決策基礎結果集中在一處。特別的,目標是對序列決策制定問題的算法和理論給出統一的描述,包括強化學習。從基礎的統計決策理論開始,我們進展到強化學習問題和各種解決方法。本書的最后聚焦于模型和近似算法的當前藝術狀態。不確定性下的決策制定問題可以分解為兩部分。首先,我們如何了解世界?這包括了關于我們最初對世界的不確定性建模的問題,以及從證據和我們的初始信仰中得出結論的問題。其次,考慮到可能改變我們結論的未來事件和觀察,我們當前對世界的了解,我們應該如何決定要做什么?通常,這將涉及創建覆蓋可能未來情況的長期計劃。也就是說,在不確定性下規劃時,我們還需要考慮在執行我們的計劃時可能產生的未來知識。直觀地說,執行涉及嘗試新事物的計劃應該提供更多的信息,但很難判斷這些信息是否會有益。在已知能產生好結果的事物和試驗新事物之間的選擇被稱為探索–利用困境,它是學習和規劃互動的根源。這本書的第一部分,第1-4章,專注于非序列設置下的不確定性決策。這包括假設測試等場景,其中決策者必須根據可用證據選擇一個行動。大部分的發展都是通過貝葉斯推理和決策理論的視角給出的,其中決策者對真實情況有一個主觀信仰(以概率分布表示)。本書的第二部分,第5-8章,介紹了序列問題和馬爾可夫決策過程的形式主義。其余章節致力于強化學習問題,這是最通用的不確定性下的序列決策問題之一。最后,我們增加了一些理論和實踐練習,希望能幫助讀者理解這些材料。
隨機建模是一套用于分析具有隨機因素的實際系統的定量技術。這個領域高度技術化,主要由數學家發展。現有的大多數書籍都是為具有豐富數學培訓的人編寫的;本書將這種需求降到最低,使主題容易理解。《隨機模型基礎》提供了許多實際例子和應用,并彌合了基本隨機過程理論與高級過程理論之間的差距。它解決了隨機系統的性能評估和優化問題,并涵蓋了不同的現代分析技術,如矩陣分析方法、擴散和流體極限方法。接下來,它探討了隨機模型、機器學習和人工智能之間的聯系,并討論如何利用直觀方法而非傳統理論方法。目標是盡量減少讀者在理解本書涵蓋的主題時所需的數學背景。因此,本書適合工業工程、商業與經濟、計算機科學和應用數學專業的專業人士和學生。
//www.barnesandnoble.com/w/fundamentals-of-stochastic-models-zhe-george-zhang/1142551933 1. Introduction. Part I. Fundamentals of Stochastic Models. 2. Discrete-time Markov Chains. 3. Continuous-Time Markov Chains. 4. Structured Markov Chains. 5. Renewal Processes and Embedded Markov Chains. 6. Random Walks and Brownian Motions. 7. Reflected Brownian Motion Approximations to Simple Stochastic Systems. 8. Large Queueing Systems. 9. Static Optimization in Stochastic Models. 10. Dynamic Optimization in Stochastic Models. 11. Learning in Stochastic Models. Part II. Appendices: Elements of Probability and Stochastics. A. Basics of Probability Theory. B. Conditional Expectation and Martingales. C. Some Useful Bounds, Inequalities, and Limit Laws. D. Non-linear Programming in Stochastics. E. Change of Probability Measure for a Normal Random Variable. F. Convergence of Random Variables. G. Major Theorems for Stochastic Process Limits. H. A Brief Review on
博弈論是涉及兩個或多個人或組織的大多數決策過程中的關鍵要素。本書闡述了博弈論如何預測復雜決策過程的結果,以及它如何幫助您提高自己的談判和決策能力。本書立足于既定的理論,但用廣泛的國際案例來說明其應用,為這個正成為明智經理必備武器的領域提供了一種新穎的方法。本書通俗易懂,用簡單的語言解釋了技巧游戲背后的數學原理,然后轉向更為復雜的主題,如零和博弈、混合動機博弈、多人博弈、聯盟和權力等。整本書貫穿著清晰的例子和有用的圖表,數學部分也保持在最低程度。本書適用于經理、學生和任何領域的決策者。
博弈論是戰略決策的科學。它是理解競爭與合作過程中建立和破裂的關系的有力工具。它并非治療糟糕管理不足的靈丹妙藥。對于經理或與管理層互動的人來說,它只是一種觀察問題解決過程的替代視角。它是一種工具,就像所有其他工具一樣,最好由那些反思自己實踐以作為改進機制的人使用。機遇偏愛有準備的頭腦,這本書既適用于尋求有效性的人,也適用于已經找到有效性的人。博弈論已經在諸如進化生物學和經濟學等不同領域取得了很大的成果,因此關于這個主題的書籍豐富多樣。它們從深奧的到通俗的,從迂腐的到輕佻的都有。這本書在很多方面都與眾不同。它既適用于學生,也適用于實踐者。它在理論上提供了博弈論科學和數學的介紹;在實踐上,它提供了這一理論的實踐,以說明在商業和非營利領域的管理中普遍存在的問題的解決方案。
現在是學習集成方法的最佳時機。本書介紹的模型主要分為三類。 //www.manning.com/books/ensemble-methods-for-machine-learning
基礎集成方法——每個人都聽說過的經典方法,包括歷史集成技術,如bagging、隨機森林和AdaBoost * 最先進的集成方法——現代集成時代經過試驗和測試的強大工具,它們構成了許多現實世界中生產中的預測、推薦和搜索系統的核心 * 新興的集成方法-最新的方法的研究代工廠處理新的需求和新興的優先級,如可解釋性
每一章將介紹一種不同的集成技術,使用三管齊下的方法。首先,你將通過逐步可視化學習實際是如何進行的,了解每種集成方法背后的直覺。其次,你將自己實現每個集成方法的基本版本,以完全理解算法的具體細節。第三,你將學習如何實際應用強大的集成庫和工具。 大多數章節都有自己的案例研究,這些案例來自手寫數字預測、推薦系統、情感分析、需求預測等應用。這些案例研究在適當的情況下解決了幾個現實世界的問題,包括預處理和特征工程,超參數選擇,高效的訓練技術和有效的模型評估。 本書分為三部分,共九章。第1部分是集成方法的簡單介紹,第2部分介紹并解釋了幾個基本的集成方法,第3部分涵蓋了高級主題。 第1部分,“集成的基礎”,介紹集成方法以及為什么你應該關注它們。這一部分還包含本書其余部分將介紹的集成方法的路線圖。 ?第1章討論了集成方法和基本的集成術語。它還引入了適應性與復雜性的權衡(或者更正式的叫法是偏差-方差權衡)。你將在本章中構建第一個集成。 第2部分,“基本集成方法”,介紹了幾個重要的集成方法族,其中許多被認為是“基本的”,在現實世界的應用中廣泛使用。在每一章中,你都將學習如何從零開始實現不同的集成方法,它們的工作原理,以及如何將它們應用于實際問題。
?第2章開始我們的旅程,平行集成方法,特別是平行同質集成。集成方法包括bagging、隨機森林、粘貼、隨機子空間、隨機補丁和額外的樹。 ?第3章繼續介紹更多并行集成,但本章的重點是并行異構集成。介紹的集成方法包括通過多數投票組合基礎模型、通過加權組合、使用Dempster-Shafer進行預測融合以及通過堆疊進行元學習。 ?第4章介紹了另一類集成方法——順序自適應集成——特別是將許多弱模型提升為一個強大模型的基本概念。介紹的集成方法包括Ada- Boost和LogitBoost。 ?第5章建立在boosting的基本概念之上,并涵蓋了另一種基本的序列集成方法,梯度boosting,它將梯度下降與boosting相結合。本章將討論如何使用scikit-learn和LightGBM訓練梯度增強集成。 ?第6章繼續探索牛頓boosting的序列集成方法,牛頓boosting是梯度boosting的有效擴展,結合了牛頓下降和boosting。本章將討論如何使用XGBoost訓練Newton boosting集合。 第3部分“實際應用中的集成:使集成方法適用于數據”向您展示了如何將集成方法應用于許多場景,包括具有連續和計數型標簽的數據集以及具有分類特征的數據集。你還將學習如何解釋集合以及它們的預測: ?第7章展示了我們如何為不同類型的回歸問題和廣義線性模型訓練集成,其中訓練標簽是連續的或計數的。本章涵蓋了線性回歸、泊松回歸、伽馬回歸和Tweedie回歸的并行和順序集成。 ?第8章確定了使用非數值特征學習的挑戰,特別是分類特征,以及將幫助我們為此類數據訓練有效集成的編碼方案。本章還討論了兩個重要的實際問題:數據泄漏和預測偏移。最后,我們將看到如何使用ordered boosting和CatBoost克服這些問題。 ?第9章從集成方法的角度涵蓋了新興的非常重要的主題可解釋人工智能。本章將介紹可解釋性的概念以及它的重要性。還討論了幾種常見的黑盒可解釋性方法,包括排列特征重要性、部分依賴圖、代理方法、局部可解釋的模型無關解釋、Shapley值和Shapley加性解釋。介紹了玻璃盒集成方法、可解釋增強機和InterpretML包。 ?結語以其他主題結束我們的旅程,以供進一步探索和閱讀。
這本教材旨在從數學的角度指出數據分析的最重要的原則。具體來說,它選擇了這些問題進行探索:哪些是理解應用的含義所必需的原則,哪些是理解所使用的方法成功的條件所必需的?理論只在適當應用的必要程度上呈現,力求在過度復雜和過度簡化之間取得平衡。它的主要重點是應用成功的關鍵原則。主題及特點:
雖然這本核心教材直接針對計算機科學和/或數據科學的學生,但它也將對該領域的研究人員具有真正的吸引力,他們希望獲得“超越”唯一計算經驗的數學基礎的正確理解。
//link.springer.com/book/10.1007/978-3-031-19074-2
數字技術在20世紀下半葉取得了前所未有的進步,產生了一場正在改變科學的測量革命。在生命科學中,數據分析現在幾乎是每個研究項目的一部分。尤其是基因組學,正受到新的測量技術的推動,這些技術允許我們第一次觀察某些分子實體。這些觀察導致了類似于鑒別微生物的發現和顯微鏡發明所允許的其他突破。這些技術的典型例子是微陣列和下一代測序。這本書將涵蓋在數據驅動的生命科學研究中成功所需的幾個統計概念和數據分析技能。我們從與計算p值相關的相對基本概念,到與分析高通量數據相關的高級主題。//leanpub.com/dataanalysisforthelifesciences統計教科書的重點是數學,而這本書的重點是使用計算機進行數據分析。我們不是解釋數學和理論,然后展示例子,而是從陳述一個實際的與數據相關的挑戰開始。本書還包括為問題提供解決方案的計算機代碼,并幫助說明解決方案背后的概念。通過自己運行代碼,實時查看數據生成和分析,您將對概念、數學和理論有更好的直覺。這本書是使用R markdown語言創建的,我們將所有這些代碼都提供給讀者。這意味著讀者可以復制所有用來創作這本書的數據和分析
超越機器學習和網絡安全博弈論的基礎,進入這一前沿領域的最新研究 在網絡安全的博弈論和機器學習中,一個專家安全研究團隊提供了一組來自適用于網絡安全的機器學習和博弈論的核心研究成果。杰出的編輯包括了解決博弈論和機器學習應用于網絡安全系統的開放研究問題的資源,并檢查了當前網絡安全博弈論模型的優勢和局限性。 讀者將探索傳統機器學習算法的漏洞,以及如何在對抗性機器學習方法中緩解這些漏洞。這本書為應用博弈論和機器學習解決網絡安全挑戰的廣泛技術問題提供了一套全面的解決方案。 從介紹博弈論、機器學習、網絡安全和網絡欺騙的基本概念開始,編輯人員為讀者提供了討論最新的超級游戲、行為博弈論、對抗性機器學習、生成對抗網絡和多智能體強化學習的資源。
讀者還將享受:
本書分為三個部分。第一部分介紹了分布式強化學習的構建模塊。我們首先介紹了我們的基本研究對象,收益分布和分布Bellman方程(第二章)。第三章介紹了分類時間差分學習,一種簡單的學習收益分布的算法。在第三章結束時,讀者應該理解分布式強化學習的基本原則,并且應該能夠在簡單的實際設置中使用它。
第二部分是對分布式強化學習理論的發展。第4章介紹了一種用于測量返回分布之間距離的語言,以及與這些分布交互的操作符。第5章介紹了實現分布式強化學習所需的概率表示的概念;在此基礎上,研究了用這種表示來計算和近似收益分布的問題,并引入了分布動態規劃的框架。第6章研究了如何從樣本中以增量的方式學習返回分布,給出了類別時間差分學習的正式結構,以及其他算法,如分位數時間差異學習。第7章將這些思想擴展到最優決策的設置(也稱為控制設置)。最后,第8章介紹了基于統計泛函概念的分布強化學習的不同視角。在第二部分結束時,讀者應該理解在設計分布式強化學習算法時出現的挑戰,以及解決這些挑戰的可用工具。
第三部分和最后一部分為實際場景ios開發了分布式強化學習。第九章回顧了線性值函數逼近的原理,并將這些思想推廣到分布環境中。第10章討論了如何將分布方法與深度神經網絡相結合來獲得深度強化學習的算法,并提出了一個模型來研究這種結合所產生的現象。第11章討論了分布式強化學習在兩個進一步研究領域(多主體學習和神經科學)的新興應用,并得出結論。
圖像分類、目標檢測與跟蹤、姿態估計、人臉識別和情感估計在解決計算機視覺問題中都起著重要的作用。
本書將重點介紹這些和其他深度學習架構和技術,以幫助您創建使用Keras和TensorFlow庫的解決方案。您還將回顧多種神經網絡架構,包括LeNet、AlexNet、VGG、Inception、R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、YOLO和SqueezeNet,并通過最佳實踐、技巧、捷徑和陷阱了解它們如何與Python代碼一起工作。所有代碼片段都將被分解并進行詳細討論,以便您可以在各自的環境中實現相同的原則。
使用深度學習的計算機視覺提供了一個全面而簡潔的指南,將DL和CV結合在一起,實現自動化操作,減少人工干預,提高能力,并降低成本。
你會:
不久前,計算機視覺還只是科幻小說的專屬內容,但現在,即使不是在整個社會,也正迅速成為各行各業的普遍現象。人類視覺是人類感官中最珍貴的一種,在模仿人類視覺這一領域取得的進展令人驚嘆。直到1957年,拉塞爾·基爾希才掃描出了世界上第一張照片——他兒子的黑白照片。到20世紀80年代末,西羅維奇和柯比的工作幫助人臉識別成為一種可行的生物識別技術。盡管存在隱私問題和法律挑戰,但Facebook在2010年將人臉識別技術納入其社交媒體平臺時,使這項技術無處不在。
這本書試圖解釋計算機視覺問題的深度學習和神經網絡的概念。我們正在詳細研究卷積神經網絡,以及它們的各個組成部分和屬性。我們正在探索各種神經網絡架構,如LeNet, AlexNet, VGG, R-CNN, Fast R-CNN, Faster R-CNN, SSD, YOLO, ResNet, Inception, DeepFace,和FaceNet的細節。我們還在開發實用的解決方案,以解決二值圖像分類、多類圖像分類、目標檢測、人臉識別和視頻分析的用例。我們將使用Python和Keras作為解決方案。所有的代碼和數據集被檢入GitHub repo快速訪問。在最后一章中,我們將學習深度學習項目中的所有步驟——從定義業務問題到部署。我們還在處理在制定解決方案時面臨的重大錯誤和問題。在這本書中,我們提供了訓練更好的算法的技巧和技巧,減少訓練時間,監測結果,并改進解決方案。我們也分享代表性的研究論文和數據集,你應該使用它們來獲得進一步的知識。
這本書把這個主題分成三部分。在第1章到第4章,本書描述了神經網絡的本質和揭秘他們如何學習。并指出了不同的架構及其歷史意義。實踐者在擁有所有所需資源的情況下,可以體驗到LeNet優雅的簡單性、AlexNet提高的效率以及流行的VGG Net。在第5至7章,從業人員運用簡單而強大的計算機視覺應用,如訓練算法來檢測物體和識別人臉。在進行視頻分析時,我們遇到了漸變消失和爆炸的困擾問題,以及如何在ResNet架構中使用跳過連接來克服它。最后,在第8章中,我們回顧了完整的模型開發過程,從正確定義的業務問題開始,系統地推進,直到模型在生產環境中部署和維護。