指南簡介
最近神經網絡在計算機視覺、機器翻譯和時間序列預測等問題上得到了重大突破,但它們也可以與強化學習算法相結合,創造出像AlphaGo這樣令人震驚的東西。強化學習指的是面向目標的算法,它學習如何獲得復雜的目標(目標)或在許多步驟中沿著特定的維度最大化;例如,在許多動作中最大化在游戲中贏得的分數。他們可以從一塊白板開始,在適當的條件下,他們可以達到超人的表現。就像一個被鞭打和糖果激勵的孩子,當他們做出錯誤的決定時,這些算法會受到懲罰,當他們做出正確的決定時,這些算法會得到獎勵——這就是強化。包含深度學習的強化算法可以在圍棋游戲中擊敗世界冠軍,也可以在玩許多阿塔里電子游戲的人類專家。雖然這聽起來微不足道,但與他們之前的成就相比,這是一個巨大的進步,目前的技術正在迅速進步。強化學習解決了將即時行為與其產生的延遲回報關聯起來的難題。與人類一樣,強化學習算法有時需要等待一段時間才能看到決策的成果。它們在延遲返回的環境中運行,在這種環境中,很難理解在許多時間步驟中哪些操作會導致哪些結果。強化學習算法可以期望在更模糊、真實的環境中執行得越來越好,同時可以從任意數量的可能動作中進行選擇,而不是從視頻游戲的有限選項中進行選擇。也就是說,隨著時間的推移,我們期望它們對實現現實世界中的目標是有價值的。Skymind將深度強化學習應用于真實世界用例的模擬,以幫助企業優化他們如何建立工廠、員工呼叫中心、建立倉庫和供應鏈以及管理流量。
內容目錄