強化一詞來源于實驗心理學中對動物學習的研究,它指的是某一事件的發生,與某一反應之間有恰當的關系,而這一事件往往會增加該反應在相同情況下再次發生的可能性。雖然心理學家沒有使用“強化學習”這個術語,但它已經被人工智能和工程領域的理論家廣泛采用,用來指代基于這一強化原理的學習任務和算法。最簡單的強化學習方法使用的是一個常識,即如果一個行為之后出現了一個令人滿意的狀態,或者一個狀態的改善,那么產生該行為的傾向就會得到加強。強化學習的概念在工程領域已經存在了幾十年(如Mendel和McClaren 1970),在人工智能領域也已經存在了幾十年(Minsky 1954, 1961;撒母耳1959;圖靈1950)。然而,直到最近,強化學習方法的發展和應用才在這些領域占據了大量的研究人員。激發這種興趣的是兩個基本的挑戰:1) 設計能夠在復雜動態環境中在不確定性下運行的自主機器人代理,2) 為非常大規模的動態決策問題找到有用的近似解。
在復雜的以人為中心的系統中,每天的決策都具有決策相關信息不完全的特點。現有決策理論的主要問題是,它們沒有能力處理概率和事件不精確的情況。在這本書中,我們描述了一個新的理論的決策與不完全的信息。其目的是將決策分析和經濟行為的基礎從領域二價邏輯轉向領域模糊邏輯和Z約束,從行為決策的外部建模轉向組合狀態的框架。
這本書將有助于在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學的專業人員,學者,經理和研究生。
讀者:專業人士,學者,管理者和研究生在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學。
強化學習是現在人工智能領域里面最活躍的研究領域之一,它是一種用于學習的計算方法,其中會有一個代理在與復雜的不確定環境交互時試圖最大化其所收到的獎勵。現在,如果你是一個強化學習的初學者,由 Richard Sutton 和 Andrew Barto 合著的《Reinforcement Learning : An Introduction》可能就是你的最佳選擇。這本書提供了關于強化學習的簡單明了的關鍵思想和算法的解釋。他們討論了該領域的知識基礎的歷史延伸到了最新的發展的應用。
本書全文共分三部分,17章內容
第一部分:列表(Tabular)解決法,第一章描述了強化學習問題具體案例的解決方案,第二章描述了貫穿全書的一般問題制定——有限馬爾科夫決策過程,其主要思想包括貝爾曼方程(Bellman equation)和價值函數,第三、四、五章介紹了解決有限馬爾科夫決策問題的三類基本方法:動態編程,蒙特卡洛方法、時序差分學習。三者各有其優缺點,第六、七章介紹了上述三類方法如何結合在一起進而達到最佳效果。第六章中介紹了可使用適合度軌跡(eligibility traces)把蒙特卡洛方法和時序差分學習的優勢整合起來。第七章中表明時序差分學習可與模型學習和規劃方法(比如動態編程)結合起來,獲得一個解決列表強化學習問題的完整而統一的方案。
第二部分:近似求解法,從某種程度上講只需要將強化學習方法和已有的泛化方法結合起來。泛化方法通常稱為函數逼近,從理論上看,在這些領域中研究過的任何方法都可以用作強化學習算法中的函數逼近器,雖然實際上有些方法比起其它更加適用于強化學習。在強化學習中使用函數逼近涉及一些在傳統的監督學習中不常出現的新問題,比如非穩定性(nonstationarity)、引導(bootstrapping)和目標延遲(delayed targets)。這部分的五章中先后介紹這些以及其它問題。首先集中討論在線(on-policy)訓練,而在第九章中的預測案例其策略是給定的,只有其價值函數是近似的,在第十章中的控制案例中最優策略的一個近似已經找到。第十一章討論函數逼近的離線(off-policy)學習的困難。第十二章將介紹和分析適合度軌跡(eligibility traces)的算法機制,它能在多個案例中顯著優化多步強化學習方法的計算特性。這一部分的最后一章將探索一種不同的控制、策略梯度的方法,它能直接逼近最優策略且完全不需要設定近似值函數(雖然如果使用了一個逼近價值函數,效率會高得多)。
第三部分:深層次研究,這部分把眼光放到第一、二部分中介紹標準的強化學習思想之外,簡單地概述它們和心理學以及神經科學的關系,討論一個強化學習應用的采樣過程,和一些未來的強化學習研究的活躍前沿。
決策理論是現代人工智能和經濟學的基礎。本課程主要從統計學的角度,也從哲學的角度,為決策理論打下堅實的基礎。本課程有兩個目的:
課程可分為兩部分。
第一部分,我們介紹了主觀概率和效用的概念,以及如何用它們來表示和解決決策問題。然后討論未知參數的估計和假設檢驗。最后,我們討論了順序抽樣、順序實驗,以及更一般的順序決策。
第二部分是不確定性下的決策研究,特別是強化學習和專家咨詢學習。首先,我們研究幾個有代表性的統計模型。然后,我們給出了使用這些模型做出最優決策的算法的概述。最后,我們來看看學習如何根據專家的建議來行動的問題,這個領域最近在在線廣告、游戲樹搜索和優化方面有很多應用。
題目:Applied Reinforcement Learning with Python With OpenAI Gym, Tensorflow, and Keras
深入研究強化學習算法,并通過Python將它們應用到不同的用例中。這本書涵蓋了重要的主題,如策略梯度和Q學習,并利用框架,如Tensorflow, Keras,和OpenAI Gym。
Python中的應用增強學習向您介紹了強化學習(RL)算法背后的理論和用于實現它們的代碼。您將在指導下了解OpenAI Gym的特性,從使用標準庫到創建自己的環境,然后了解如何構建強化學習問題,以便研究、開發和部署基于rl的解決方案。
你將學習:
這本書是給誰看的: 數據科學家、機器學習工程師和軟件工程師熟悉機器學習和深度學習的概念。
地址:
//www.springerprofessional.de/en/applied-reinforcement-learning-with-python/17098944
目錄:
第1章 強化學習導論
在過去的一年里,深度學習技術的不斷擴散和發展給各個行業帶來了革命性的變化。毫無疑問,這個領域最令人興奮的部分之一是強化學習(RL)。這本身往往是許多通用人工智能應用程序的基礎,例如學習玩視頻游戲或下棋的軟件。強化學習的好處是,假設可以將問題建模為包含操作、環境和代理的框架,那么代理就可以熟悉大量的任務。假設,解決問題的范圍可以從簡單的游戲,更復雜的3d游戲,自動駕駛汽車教學如何挑選和減少乘客在各種不同的地方以及教一個機械手臂如何把握對象和地點在廚房柜臺上。
第二章 強化學習算法
讀者應該知道,我們將利用各種深度學習和強化學習的方法在這本書。然而,由于我們的重點將轉移到討論實現和這些算法如何在生產環境中工作,我們必須花一些時間來更詳細地介紹算法本身。因此,本章的重點將是引導讀者通過幾個強化學習算法的例子,通常應用和展示他們在使用Open AI gym 不同的問題。
第三章 強化學習算法:Q學習及其變體
隨著策略梯度和Actor-Critic模型的初步討論的結束,我們現在可以討論讀者可能會發現有用的替代深度學習算法。具體來說,我們將討論Q學習、深度Q學習以及深度確定性策略梯度。一旦我們了解了這些,我們就可以開始處理更抽象的問題,更具體的領域,這將教會用戶如何處理不同任務的強化學習。
第四章 通過強化學習做市場
除了在許多書中發現的強化學習中的一些標準問題之外,最好看看那些答案既不客觀也不完全解決的領域。在金融領域,尤其是強化學習領域,最好的例子之一就是做市。我們將討論學科本身,提出一些不基于機器學習的基線方法,然后測試幾種基于強化學習的方法。
第五章 自定義OpenAI強化學習環境
在我們的最后一章,我們將專注于Open AI Gym,但更重要的是嘗試理解我們如何創建我們自己的自定義環境,這樣我們可以處理更多的典型用例。本章的大部分內容將集中在我對開放人工智能的編程實踐的建議,以及我如何編寫這個軟件的建議。最后,在我們完成創建環境之后,我們將繼續集中精力解決問題。對于這個例子,我們將集中精力嘗試創建和解決一個新的視頻游戲。