決策理論是現代人工智能和經濟學的基礎。本課程主要從統計學的角度,也從哲學的角度,為決策理論打下堅實的基礎。本課程有兩個目的:
課程可分為兩部分。
第一部分,我們介紹了主觀概率和效用的概念,以及如何用它們來表示和解決決策問題。然后討論未知參數的估計和假設檢驗。最后,我們討論了順序抽樣、順序實驗,以及更一般的順序決策。
第二部分是不確定性下的決策研究,特別是強化學習和專家咨詢學習。首先,我們研究幾個有代表性的統計模型。然后,我們給出了使用這些模型做出最優決策的算法的概述。最后,我們來看看學習如何根據專家的建議來行動的問題,這個領域最近在在線廣告、游戲樹搜索和優化方面有很多應用。
本課程從數據科學的角度介紹概率論與統計的基本概念。目的是熟悉在數據分析中廣泛使用的概率模型和統計方法。
最新的技術進步提高了交通運輸的質量。新的數據驅動方法為所有基于控制的系統(如交通、機器人、物聯網和電力系統)帶來了新的研究方向。將數據驅動的應用與運輸系統相結合在最近的運輸應用程序中起著關鍵的作用。本文綜述了基于深度強化學習(RL)的交通控制的最新應用。其中,詳細討論了基于深度RL的交通信號控制(TSC)的應用,這在文獻中已經得到了廣泛的研究。綜合討論了TSC的不同問題求解方法、RL參數和仿真環境。在文獻中,也有一些基于深度RL模型的自主駕駛應用研究。我們的調查廣泛地總結了這一領域的現有工作,并根據應用程序類型、控制模型和研究的算法對它們進行了分類。最后,我們討論了基于深度可編程邏輯語言的交通應用所面臨的挑戰和有待解決的問題。
強化一詞來源于實驗心理學中對動物學習的研究,它指的是某一事件的發生,與某一反應之間有恰當的關系,而這一事件往往會增加該反應在相同情況下再次發生的可能性。雖然心理學家沒有使用“強化學習”這個術語,但它已經被人工智能和工程領域的理論家廣泛采用,用來指代基于這一強化原理的學習任務和算法。最簡單的強化學習方法使用的是一個常識,即如果一個行為之后出現了一個令人滿意的狀態,或者一個狀態的改善,那么產生該行為的傾向就會得到加強。強化學習的概念在工程領域已經存在了幾十年(如Mendel和McClaren 1970),在人工智能領域也已經存在了幾十年(Minsky 1954, 1961;撒母耳1959;圖靈1950)。然而,直到最近,強化學習方法的發展和應用才在這些領域占據了大量的研究人員。激發這種興趣的是兩個基本的挑戰:1) 設計能夠在復雜動態環境中在不確定性下運行的自主機器人代理,2) 為非常大規模的動態決策問題找到有用的近似解。
對因果推理的簡明和自成體系的介紹,在數據科學和機器學習中越來越重要。
因果關系的數學化是一個相對較新的發展,在數據科學和機器學習中變得越來越重要。這本書提供了一個獨立的和簡明的介紹因果模型和如何學習他們的數據。在解釋因果模型的必要性,討論潛在的因果推論的一些原則,這本書教讀者如何使用因果模型:如何計算干預分布,如何從觀測推斷因果模型和介入的數據,和如何利用因果思想經典的機器學習問題。所有這些主題都將首先以兩個變量的形式進行討論,然后在更一般的多元情況下進行討論。對于因果學習來說,二元情況是一個特別困難的問題,因為經典方法中用于解決多元情況的條件獨立不存在。作者認為分析因果之間的統計不對稱是非常有意義的,他們報告了他們對這個問題十年來的深入研究。
本書對具有機器學習或統計學背景的讀者開放,可用于研究生課程或作為研究人員的參考。文本包括可以復制和粘貼的代碼片段、練習和附錄,其中包括最重要的技術概念摘要。
首先,本書主要研究因果關系推理子問題,這可能被認為是最基本和最不現實的。這是一個因果問題,需要分析的系統只包含兩個可觀測值。在過去十年中,作者對這個問題進行了較為詳細的研究。本書整理這方面的大部分工作,并試圖將其嵌入到作者認為對研究因果關系推理問題的選擇性至關重要的更大背景中。盡管先研究二元(bivariate)案例可能有指導意義,但按照章節順序,也可以直接開始閱讀多元(multivariate)章節;見圖一。
第二,本書提出的解決方法來源于機器學習和計算統計領域的技術。作者對其中的方法如何有助于因果結構的推斷更感興趣,以及因果推理是否能告訴我們應該如何進行機器學習。事實上,如果我們不把概率分布描述的隨機實驗作為出發點,而是考慮分布背后的因果結構,機器學習的一些最深刻的開放性問題就能得到最好的理解。
題目:Applied Reinforcement Learning with Python With OpenAI Gym, Tensorflow, and Keras
深入研究強化學習算法,并通過Python將它們應用到不同的用例中。這本書涵蓋了重要的主題,如策略梯度和Q學習,并利用框架,如Tensorflow, Keras,和OpenAI Gym。
Python中的應用增強學習向您介紹了強化學習(RL)算法背后的理論和用于實現它們的代碼。您將在指導下了解OpenAI Gym的特性,從使用標準庫到創建自己的環境,然后了解如何構建強化學習問題,以便研究、開發和部署基于rl的解決方案。
你將學習:
這本書是給誰看的: 數據科學家、機器學習工程師和軟件工程師熟悉機器學習和深度學習的概念。
地址:
//www.springerprofessional.de/en/applied-reinforcement-learning-with-python/17098944
目錄:
第1章 強化學習導論
在過去的一年里,深度學習技術的不斷擴散和發展給各個行業帶來了革命性的變化。毫無疑問,這個領域最令人興奮的部分之一是強化學習(RL)。這本身往往是許多通用人工智能應用程序的基礎,例如學習玩視頻游戲或下棋的軟件。強化學習的好處是,假設可以將問題建模為包含操作、環境和代理的框架,那么代理就可以熟悉大量的任務。假設,解決問題的范圍可以從簡單的游戲,更復雜的3d游戲,自動駕駛汽車教學如何挑選和減少乘客在各種不同的地方以及教一個機械手臂如何把握對象和地點在廚房柜臺上。
第二章 強化學習算法
讀者應該知道,我們將利用各種深度學習和強化學習的方法在這本書。然而,由于我們的重點將轉移到討論實現和這些算法如何在生產環境中工作,我們必須花一些時間來更詳細地介紹算法本身。因此,本章的重點將是引導讀者通過幾個強化學習算法的例子,通常應用和展示他們在使用Open AI gym 不同的問題。
第三章 強化學習算法:Q學習及其變體
隨著策略梯度和Actor-Critic模型的初步討論的結束,我們現在可以討論讀者可能會發現有用的替代深度學習算法。具體來說,我們將討論Q學習、深度Q學習以及深度確定性策略梯度。一旦我們了解了這些,我們就可以開始處理更抽象的問題,更具體的領域,這將教會用戶如何處理不同任務的強化學習。
第四章 通過強化學習做市場
除了在許多書中發現的強化學習中的一些標準問題之外,最好看看那些答案既不客觀也不完全解決的領域。在金融領域,尤其是強化學習領域,最好的例子之一就是做市。我們將討論學科本身,提出一些不基于機器學習的基線方法,然后測試幾種基于強化學習的方法。
第五章 自定義OpenAI強化學習環境
在我們的最后一章,我們將專注于Open AI Gym,但更重要的是嘗試理解我們如何創建我們自己的自定義環境,這樣我們可以處理更多的典型用例。本章的大部分內容將集中在我對開放人工智能的編程實踐的建議,以及我如何編寫這個軟件的建議。最后,在我們完成創建環境之后,我們將繼續集中精力解決問題。對于這個例子,我們將集中精力嘗試創建和解決一個新的視頻游戲。
書名
部分觀測動態系統的貝葉斯學習:Bayesian Learning for partially observed dynamical systems
書簡介
本書主要整理了最近關于動態系統中貝葉斯學習的著名講座,這里包含了關于該方面的最新知識講解,方便機器學習從事者及時快捷了解相關最新技術與研究。
目錄
前言: 目標:本課程旨在讓學生對人工智能的基本概念和實踐有一個堅實的(通常是有點理論性的)基礎。這門課程在第一學期主要涉及符號化的人工智能,有時也被稱為優秀的老式人工智能(GofAI),并在第二學期提供統計方法的基礎。事實上,一個完整的基于機器學習的AI應該有專業課程,并且需要比我們在這門課程中更多的數學基礎。
課程內容:
目標: 使學生對人工智能領域的基本概念和實踐有一個堅實的基礎。該課程將基于Russell/Norvig的書《人工智能》:現代方法[RN09]
Artificial Intelligence I(第一部分): 介紹人工智能作為一個研究領域,討論作為人工智能統一概念范式的理性代理,并涵蓋問題解決、搜索、約束傳播、邏輯、知識表示和規劃。
Artificial Intelligence II(第二部分): 更傾向于讓學生接觸基于統計的人工智能的基礎知識:我們從不確定性下的推理開始,用貝葉斯網絡建立基礎,并將其擴展到理性決策理論。在此基礎上,我們介紹了機器學習的基礎知識。
題目: Reinforcement Learning:Theory and Algorithms
簡介:
強化學習是近幾年研究的熱點,特別是伴隨DeepMind AlphaGo的出現名聲大噪。強化學習(RL)是一種機器學習范式,在這種范式中,agent從經驗中學習完成順序決策任務,RL在機器人、控制、對話系統、醫療等領域有廣泛的應用。《強化學習:理論與算法》這本書講述了強化學習最新進展,包括MDP、樣本復雜度、策略探索、PG、值函數等關鍵議題,是了解強化學習的材料。
章節:
作者簡介:
Alekh Agarwal目前是微軟人工智能研究中心的研究員,領導強化學習研究小組。之前,在加州大學伯克利分校獲得計算機科學博士學位后,與彼得·巴特利特(Peter Bartlett)和馬丁·溫賴特(Martin Wainwright)一起在紐約微軟研究院(Microsoft Research)度過了六年美好的時光。
姜楠,UIUC助理教授,機器學習研究員。核心研究領域是強化學習(RL),關注于RL的樣本效率,并利用統計學習理論中的思想來分析和開發RL算法。
沙姆·卡卡德(Sham M. Kakade)是華盛頓研究基金會(Washington Research Foundation)數據科學主席,同時在華盛頓大學(University of Washington)艾倫學院(Allen School)和統計學系任職。他致力于機器學習的理論基礎,專注于設計(和實現)統計和計算效率的算法。