国产综合欧美日韩激情在线-亚洲欧美日韩中文字幕精品

《強化學習和隨機優化:序列決策的統一框架》是一本新書，它提供了一個統一框架，涵蓋了所有在不確定性下進行決策的社區(見jungle.princeton.edu)。這是第一本全面介紹這些領域的書，遵循了確定性優化和機器學習(但不是隨機優化)中長期使用的風格。

第一部分提供了基礎材料，其中大部分可以略讀。第1章提供了通用建模框架的概述，該框架涵蓋了任何序列決策問題，最困難的挑戰(對于大多數問題)是策略的設計。第1章提供了跨越任何可能被設計的策略的四類策略路線圖的早期草圖。第2章總結了每個社區的規范化建模框架，這些框架使用了該字段的符號來處理某種形式的序列決策問題。對這一領域完全陌生的讀者可以略讀這一章，了解已經采用的各種方法。有深度的讀者將在這些規范問題中的一個或多個方面有一定程度的專業知識，這將有助于在該問題和我們的框架之間提供一座橋梁。最后，第三章深入探討了在線學習。本章應該略讀，然后在需要時作為參考資料使用。
第二部分-隨機搜索-這些是隨機優化問題，可以使用自適應算法解決，其中唯一的信息鏈接迭代是關于函數的信念。我們還將這些狀態獨立函數稱為狀態獨立函數，以區別于我們在第三部分中開始處理的更一般的狀態依賴函數。
第三部分-狀態相關問題-這里我們過渡到更豐富的序列問題類，其中被優化的函數是狀態相關的。
第四部分-策略搜索-這些章節描述了必須調整的策略，無論是在模擬器中還是通過經驗。
第五部分-基于前瞻近似的策略-基于前瞻近似的策略是策略搜索派生的策略的對應。
第六部分-多智能體系統和學習-最后我們展示了如何擴展我們的框架來處理多智能體系統。

目錄內容：

Chapter 1 – Introduction

Chapter 2 – Canonical models and applications .

Chapter 3 – Online learning- Revised from ADP book

Chapter 4 – Introduction to stochastic search

Chapter 5 – Derivative-based stochastic optimization

Chapter 6 – Stepsize policies

Chapter 7 – Derivative-free stochastic optimization

Chapter 8 – State-dependent problems

Chapter 9 – Modeling sequential decision problems

Chapter 10 – Uncertainty modeling

Chapter 11 – Designing policies

Chapter 12 – Policy function approximations and policy search

Chapter 13 – Cost function approximations

Chapter 14 – Discrete Markov decision processes

Chapter 15 – Backward approximate dynamic programming

Chapter 16 – Forward ADP I: The value of a policy

Chapter 17 – Forward ADP II: Policy optimization

Chapter 18 – Forward ADP III: Convex functions

Chapter 19 – Direct lookahead policies

Chapter 20 – POMDPs, two-agent systems, and multiagent RL

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

魯棒優化方法 ·

2021 年 3 月 17 日

[付費5元查看完整內容]【干貨書】魯棒優化Robust Optimization，570頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本書致力于魯棒優化——一種處理不確定數據優化問題的特定的和相對新穎的方法。

? 數據不確定性的現象是什么，為什么它值得專門處理，

? 如何在魯棒優化中處理這一現象，以及如何將這種處理方法與處理數據不確定性的傳統方法進行比較。

本書的主體部分分為四個部分:

第一部分是魯棒線性規劃的基本理論，它從一個不確定線性規劃問題及其魯棒/廣義魯棒問題的概念的詳細討論開始。

第二部分可以看作是第一部分的“二次曲線版本”，將non-adjustable魯棒優化的主要概念推廣到二次曲線形式的不確定凸規劃問題，重點是不確定二次曲線和半定規劃問題。

第三部分致力于魯棒多階段決策，特別是魯棒動態規劃。

第四部分提出了三個實際的例子，充分詳細地提出了RO方法的應用。

付費5元查看完整內容

機器學習優化 ·

2021 年 2 月 26 日

[付費5元查看完整內容]【干貨書】機器學習優化，509頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

優化和機器學習的相互作用是現代計算科學最重要的發展之一。優化的公式和方法在設計從大量數據中提取基本知識的算法方面被證明是至關重要的。然而，機器學習并不僅僅是優化技術的消費者，而是一個快速發展的領域，它本身也在產生新的優化思想。這本書以一種對兩個領域的研究人員都可訪問的方式捕獲了優化和機器學習之間交互的藝術的狀態。

優化方法因其廣泛的適用性和吸引人的理論特性而在機器學習中占有重要地位。當今機器學習模型的復雜性、規模和多樣性日益增加，需要對現有假設進行重新評估。這本書開始了重新評估的過程。它描述了在諸如一階方法，隨機近似，凸松弛，內點方法，和近端方法等已建立的框架。它還專門關注一些新的主題，如正則化優化、魯棒優化、梯度和次梯度方法、分裂技術和二階方法。其中許多技術的靈感來自其他領域，包括運籌學、理論計算機科學和優化子領域。這本書將豐富機器學習社區和這些其他領域以及更廣泛的優化社區之間正在進行的交叉發展。

付費5元查看完整內容

非凸優化 ·

2020 年 12 月 18 日

[付費5元查看完整內容]最新《非凸優化理論》進展書冊，79頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基于最近關于非凸優化算法在訓練深度神經網絡和數據分析中的其他優化問題中的應用，我們對非凸優化算法全局性能保證的最新理論成果進行了綜述。我們從經典的論證開始，證明一般的非凸問題不可能在合理的時間內得到有效的解決。然后，我們給出了一個可以通過盡可能多地利用問題的結構來尋找全局最優解的問題列表。處理非凸性的另一種方法是將尋找全局最小值的目標放寬到尋找一個平穩點或局部最小值。對于這種設置，我們首先給出確定性一階方法收斂速度的已知結果，然后是最優隨機和隨機梯度格式的一般理論分析，以及隨機一階方法的概述。然后，我們討論了相當一般的一類非凸問題，如α-弱擬凸函數的極小化和滿足Polyak- Lojasiewicz條件的函數，這些函數仍然可以得到一階方法的理論收斂保證。然后我們考慮非凸優化問題的高階、零階/無導數方法及其收斂速度。

付費5元查看完整內容

機器學習 · 機器學習速查手冊 ·

2020 年 11 月 20 日

[付費5元查看完整內容]【干貨書】機器學習速查手冊，135頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這份手冊最大的特點就是包含許多關于機器學習的經典公式和圖表，有助于您快速回憶有關機器學習的知識點。非常適合那些正在準備與機器學習相關的工作面試的人。

項目地址： //github.com/soulmachine/machine-learning-cheat-sheet

該手冊雖然只有 135 頁，但麻雀雖小五臟俱全，包含了 28 個主題內容，目錄如下：

Introduction
Probability
Generative models for discrete data
Gaussian Models
Bayesian statistics
Frequentist statistics
Linear Regression
Logistic Regression
Generalized linear models and the exponential family
Directed graphical models(Bayes nets)
Mixture models and the EM algorithm
Latent linear models
Sparse linear models
Kernels
Gaussian processes
Adaptive basis function models
Hidden markov Model
State space models
Undirected graphical models(Markov random fields)
Exact inference for graphical models
Variational inference
More variational inference
Monte Carlo inference
Markov chain Monte Carlo (MCMC)inference
Clustering
Graphical model structure learning
Latent variable models for discrete data
Deep learning

付費5元查看完整內容

機器學習 ·

2020 年 6 月 13 日

[付費5元查看完整內容]【干貨書】面向工程師的機器學習簡介：理論、算法、概念全覆蓋，206頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

為工程師寫的機器學習簡介（A Brief Introduction to Machine Learning for Engineers）

//arxiv.org/abs/1709.02840

摘要

本專著的目標是介紹機器學習領域內的關鍵概念、算法和理論框架，涵蓋了監督學習與無監督學習、統計學習理論、概率圖模型和近似推斷等方向。本專著的目標讀者是具有概率學和線性代數背景的電氣工程師。本書基于第一原理（first principle）寫作，并按照有清晰定義的分類方式對其中的主要思想進行了組織，其中的類別包含鑒別式模型和生成式模型、頻率論者和貝葉斯方法、準確推斷和近似推斷、有向模型和無向模型、凸優化和非凸優化。本書中的數學框架使用了信息論的描述方式，以便工具具有統一性。書中提供了簡單且可重復的數值示例，以便讀者了解相關的關鍵動機和結論。本專著的目的并不是要為每個特定類別中已有的大量解決方案提供詳盡的細節描述（這些描述讀者可參閱教科書和論文了解），而是為了給工程師提供一個切入點，以便他們能借此進一步深入機器學習相關文獻。

付費5元查看完整內容

2020 年 5 月 22 日

[付費5元查看完整內容]【圣經書】《強化學習導論(2nd)》電子書與代碼，548頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

強化學習是現在人工智能領域里面最活躍的研究領域之一，它是一種用于學習的計算方法，其中會有一個代理在與復雜的不確定環境交互時試圖最大化其所收到的獎勵。現在，如果你是一個強化學習的初學者，由 Richard Sutton 和 Andrew Barto 合著的《Reinforcement Learning : An Introduction》可能就是你的最佳選擇。這本書提供了關于強化學習的簡單明了的關鍵思想和算法的解釋。他們討論了該領域的知識基礎的歷史延伸到了最新的發展的應用。

本書全文共分三部分，17章內容

第一部分：列表（Tabular）解決法，第一章描述了強化學習問題具體案例的解決方案，第二章描述了貫穿全書的一般問題制定——有限馬爾科夫決策過程，其主要思想包括貝爾曼方程（Bellman equation）和價值函數，第三、四、五章介紹了解決有限馬爾科夫決策問題的三類基本方法：動態編程，蒙特卡洛方法、時序差分學習。三者各有其優缺點，第六、七章介紹了上述三類方法如何結合在一起進而達到最佳效果。第六章中介紹了可使用適合度軌跡（eligibility traces）把蒙特卡洛方法和時序差分學習的優勢整合起來。第七章中表明時序差分學習可與模型學習和規劃方法（比如動態編程）結合起來，獲得一個解決列表強化學習問題的完整而統一的方案。
第二部分：近似求解法，從某種程度上講只需要將強化學習方法和已有的泛化方法結合起來。泛化方法通常稱為函數逼近，從理論上看，在這些領域中研究過的任何方法都可以用作強化學習算法中的函數逼近器，雖然實際上有些方法比起其它更加適用于強化學習。在強化學習中使用函數逼近涉及一些在傳統的監督學習中不常出現的新問題，比如非穩定性（nonstationarity）、引導（bootstrapping）和目標延遲（delayed targets）。這部分的五章中先后介紹這些以及其它問題。首先集中討論在線（on-policy）訓練，而在第九章中的預測案例其策略是給定的，只有其價值函數是近似的，在第十章中的控制案例中最優策略的一個近似已經找到。第十一章討論函數逼近的離線（off-policy）學習的困難。第十二章將介紹和分析適合度軌跡（eligibility traces）的算法機制，它能在多個案例中顯著優化多步強化學習方法的計算特性。這一部分的最后一章將探索一種不同的控制、策略梯度的方法，它能直接逼近最優策略且完全不需要設定近似值函數（雖然如果使用了一個逼近價值函數，效率會高得多）。
第三部分：深層次研究，這部分把眼光放到第一、二部分中介紹標準的強化學習思想之外，簡單地概述它們和心理學以及神經科學的關系，討論一個強化學習應用的采樣過程，和一些未來的強化學習研究的活躍前沿。

付費5元查看完整內容

貝葉斯編程 ·

2020 年 5 月 18 日

[付費5元查看完整內容]【經典書】貝葉斯編程，378頁pdf，Bayesian Programming

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！