亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習范式之一。 強化學習與監督學習的不同之處在于,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在于,后者不假設MDP的確切數學模型,并且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

題目:Applied Reinforcement Learning with Python With OpenAI Gym, Tensorflow, and Keras

深入研究強化學習算法,并通過Python將它們應用到不同的用例中。這本書涵蓋了重要的主題,如策略梯度和Q學習,并利用框架,如Tensorflow, Keras,和OpenAI Gym。

Python中的應用增強學習向您介紹了強化學習(RL)算法背后的理論和用于實現它們的代碼。您將在指導下了解OpenAI Gym的特性,從使用標準庫到創建自己的環境,然后了解如何構建強化學習問題,以便研究、開發和部署基于rl的解決方案。

你將學習:

  • 用Python實現強化學習
  • 使用AI框架,如OpenAI Gym、Tensorflow和Keras
  • 通過云資源部署和培訓基于增強學習的解決方案
  • 應用強化學習的實際應用

這本書是給誰看的: 數據科學家、機器學習工程師和軟件工程師熟悉機器學習和深度學習的概念。

地址:

//www.springerprofessional.de/en/applied-reinforcement-learning-with-python/17098944

目錄:

第1章 強化學習導論

在過去的一年里,深度學習技術的不斷擴散和發展給各個行業帶來了革命性的變化。毫無疑問,這個領域最令人興奮的部分之一是強化學習(RL)。這本身往往是許多通用人工智能應用程序的基礎,例如學習玩視頻游戲或下棋的軟件。強化學習的好處是,假設可以將問題建模為包含操作、環境和代理的框架,那么代理就可以熟悉大量的任務。假設,解決問題的范圍可以從簡單的游戲,更復雜的3d游戲,自動駕駛汽車教學如何挑選和減少乘客在各種不同的地方以及教一個機械手臂如何把握對象和地點在廚房柜臺上。

第二章 強化學習算法

讀者應該知道,我們將利用各種深度學習和強化學習的方法在這本書。然而,由于我們的重點將轉移到討論實現和這些算法如何在生產環境中工作,我們必須花一些時間來更詳細地介紹算法本身。因此,本章的重點將是引導讀者通過幾個強化學習算法的例子,通常應用和展示他們在使用Open AI gym 不同的問題。

第三章 強化學習算法:Q學習及其變體

隨著策略梯度和Actor-Critic模型的初步討論的結束,我們現在可以討論讀者可能會發現有用的替代深度學習算法。具體來說,我們將討論Q學習、深度Q學習以及深度確定性策略梯度。一旦我們了解了這些,我們就可以開始處理更抽象的問題,更具體的領域,這將教會用戶如何處理不同任務的強化學習。

第四章 通過強化學習做市場

除了在許多書中發現的強化學習中的一些標準問題之外,最好看看那些答案既不客觀也不完全解決的領域。在金融領域,尤其是強化學習領域,最好的例子之一就是做市。我們將討論學科本身,提出一些不基于機器學習的基線方法,然后測試幾種基于強化學習的方法。

第五章 自定義OpenAI強化學習環境

在我們的最后一章,我們將專注于Open AI Gym,但更重要的是嘗試理解我們如何創建我們自己的自定義環境,這樣我們可以處理更多的典型用例。本章的大部分內容將集中在我對開放人工智能的編程實踐的建議,以及我如何編寫這個軟件的建議。最后,在我們完成創建環境之后,我們將繼續集中精力解決問題。對于這個例子,我們將集中精力嘗試創建和解決一個新的視頻游戲。

付費5元查看完整內容
北京阿比特科技有限公司