亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

開發能夠與其他智能體互動以完成特定任務的自主智能體是人工智能和機器學習的一個核心研究領域。為了實現這一目標,自主智能體研究小組為自主系統控制開發了新的機器學習算法,具體重點是深度強化學習和多智能體強化學習。研究問題包括協調智能體策略和智能體間通信的可擴展學習;從有限的觀察中推理其他智能體的行為、目標和構成;以及基于內在動機、課程學習、因果推理和表征學習的樣本效率學習。本文對該小組正在進行的研究組合進行了廣泛的概述,并討論了未來方向的開放問題。

付費5元查看完整內容

相關內容

深度強化學習(RL)在各個領域取得了顯著的成功,包括在圍棋和國際象棋等游戲中的使用。最近,深度多智能體強化學習(MARL)引起了廣泛關注,因為大量現實世界的問題可以自然地在MARL環境中表示。例如,自主車輛與無人機或機器人編隊的協調控制需要多個智能體根據局部觀察采取行動并協調其行為。然而,單智能體深度強化學習和多智能體深度強化學習都面臨著一個共同的挑戰:數據效率低和訓練時間長。本文向解決該問題邁出了一步:如何使(多智能體)深度強化學習更有效,即如何使用更少的數據和減少訓練時間?本文從五個方面解決深度強化學習的訓練時間長和數據效率低的問題:(1)并行高通量訓練;(2)更好的表示學習;(3)遷移學習;(4)高效探索;(5)訓練智能體以利用外部知識。對于1),為了實現更高的強化學習訓練吞吐量,我們提出了一個快速強化學習訓練框架,該框架并行收集數據,而不犧牲強化學習算法的數據效率。對于2),研究了圖卷積網絡的使用,以捕獲MARL中常用的集中式批評器的排列不變性質。我們發現這可以導致更有效的學習。研究了一種以物體為中心的表示,將多智能體RL算法擴展到復雜的視覺環境。3)為了讓強化學習智能體利用經過訓練的智能體的"知識",本文提出了一個遷移學習框架,該框架允許學生模型利用多個教師模型的"知識"。我們發現這種遷移可以導致更快的學習。對于4),研究了協調的多智能體探索,這允許智能體協調它們的探索努力,并更快地學習。最后,對于5),本文提出了"知識詢問" (AFK),一個學習生成語言命令以查詢有意義的知識的智能體,以更有效地解決給定的任務。綜上所述,本文研究了提高深度強化學習數據效率和訓練時間的方法。我們相信,通過更短的訓練時間和更好的數據效率,(多智能體)深度強化學習可以應用于各種現實世界的問題,本文提出的方法使我們更接近這一目標。

付費5元查看完整內容

作為解決序貫決策的機器學習方法,強化學習采用交互試錯的方法學習最優策略,能夠契合人類的智能決策方 式。基于課程學習的深度強化學習是強化學習領域的一個研究熱點,它針對強化學習智能體在面臨高維狀態空間和動作 空間時學習效率低、難以收斂的問題,通過抽取一個或多個簡單源任務訓練優化過程中的共性知識,加速或改善復雜目標 任務的學習。論文首先介紹了課程學習的基礎知識,從四個角度對深度強化學習中的課程學習最新研究進展進行了綜 述,包括基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習。然后對課程強化學習最新發展情況進行了分析,并對深度強化學習中的課程學習的當前存在問題和解決思路進行了總結 歸納。最后,基于當前課程學習在深度強化學習中的應用,對課程強化學習的發展和研究方向進行了總結。

1. 引言

強化學習(Reinforcement Learning,RL) 作為機器 學習分支之一,在人工智能領域具有重要地位[1] :智能 體在環境中通過“交互-試錯冶獲取正/ 負獎勵值,調整 自身的動作策略,從而生成總獎勵值最大的動作策略 模型[2]。傳統強化學習方法在有限狀態空間和動作空間的 任務中能夠取得較好的收斂效果[3] ,但復雜空間狀態 任務往往具有很大的狀態空間和連續的動作空間,尤 其當輸入數據為圖像和聲音時,傳統強化學習很難處 理,會出現維度爆炸問題[4 -5 ] 。解決上述問題的一個 方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強 化學習中的值函數和策略函數[6] 。

深度 強 化 學 習 ( Deep Reinforcement Learning, DRL)將深度學習的感知能力和強化學習的決策能力 相結合[7],近年來在人工智能領域迅猛發展,例如 Atari 游戲[8 -9 ] 、復雜機器人動作控制[10 -11 ] ,以及圍棋 AlphaGo 智能的應用[12]等,2015 年機器學習領域著名 專家 Hinton、Bengio、Lecun 在《Nature》 上發表的深度 學習綜述一文將深度強化學習作為深度學習的重要發 展方向[13] 。

盡管在過去三十年間取得很大進步,但由于標準 強化學習智能體的初始設定都是隨機策略,在簡單環 境中通過隨機探索和試錯,能夠達成較好的訓練效 果[14] 。但在復雜環境中由于狀態空間的復雜性、獎勵 信號的稀疏性,強化學習從環境中獲取樣本的成本不 斷提高,學習時間過長,從而影響了智能體的有效 探索[15]

解決上述問題的一個有效途徑,就是將課程學習 (Curriculum Learning,CL)和深度強化學習相結合[16]。2009 年,以機器學習領軍人物 Bengio 為首的科研團隊 在國際頂級機器學習會議 ICML 上首次提出課程學習 的概念[17] ,引起機器學習領域的巨大轟動。課程學習 借鑒人類從簡單到復雜的學習思想,首先在任務集中 篩選出部分簡單任務進行學習以產生訓練課程,而后 在剩余的復雜任務中利用訓練課程進行學習,最后在 整個訓練集中進行訓練。將課程學習和深度強化學習 相結合,可以有以下兩個方面的作用[18] :(1)可以加快 訓練模型的收斂速度,避免訓練初期對于復雜任務投 入過多訓練時間;(2)提高模型的泛化能力,增強對復 雜任務的學習能力。

該文首先對課程學習進行簡要描述,從四個角度 對深度強化學習中的課程學習進行了分類整理,之后 對近三年的基于課程學習的深度強化學習新算法進行 了總結分析,最后討論了基于課程學習的深度強化學 習的發展前景和挑戰。

1 基于課程學習的深度強化學習

課程學習的目標是自動設計和選擇完整序列的任 務(即課程) M1 ,M2 ,…,Mt 對智能體進行訓練,從而提 高對目標任務的學習速度或性能[19] ,課程學習流程如 圖 1 所示。 課程 馬 爾 可 夫 決 策 過 程 ( Curriculum Markov Decision Process,CMDP) [20] 是一個 6 元組 (S,A,p,r, 駐s0 ,Sf) ,其中 S 是狀態空間集, A 是動作空間集, p(s ' | s,a) 代表智能體在狀態 s 時采取動作 a 后轉移到狀 態 s ' 的概率, r(s,a,s ' ) 代表在狀態 s 采取動作 a 到達 狀態 s ' 所獲得的即時獎勵, 駐s0 代表初始狀態分布, Sf 代表最終狀態集。

常見的課程創建方法有以下兩種[21] :(1)在線創 建課程,根據智能體對給定頂點樣本的學習進度動態 添加邊;(2)離線創建課程,在訓練前生成圖,并根據 與不同頂點相關聯的樣本的屬性選擇邊。 課程設計流 程如圖 2 所示。

課程學習方法可認為包括三部分[22] :任務生成、 排序和遷移學習。 任務生成是創建一組好的中間任務 的過程,從中獲取經驗樣本。 排序研究了如何在一組 經驗樣本上創建部分排序 D ,也就是說,如何生成課 程圖的邊。 遷移學習主要研究如何將知識從一個或多 個源任務直接轉移到目標任務。 為了評價源任務遷移 到目標任務的性能優劣[23 -24 ] ,有以下指標可以量化。 (1)學習速度提升。 即智能體在遷移知識的前提下能 夠以多快的速度學習到最優策略,從而在目標任務上 實現預期的性能值 GO 逸 啄 ,其中 啄 是總任務期望的性 能閾值。 (2) 初始性能提升。 通過從源任務進行遷 移,觀察智能體在學習過程中對目標任務的初始性能 提升來衡量遷移效果。 (3)漸近性能提升。 通過比較 智能體在使用遷移與不使用遷移時目標任務收斂后的 最終性能來衡量遷移效果。

2 深度強化學習中的課程學習研究進展

對于強化學習智能體來說,自主學習一項復雜任 務需要很長的時間。 在深度強化學習中應用課程學 習,可以通過利用一個或多個源任務的知識來加速或 改善復雜目標任務的學習[25] 。 Felipe 等人提出了新方法[26] :(1) 將目標任務劃 分為簡單任務;(2)在盡量小的專家經驗支持下,根據 面向對象的任務描述自動生成課程;(3) 使用生成的 課程來跨任務重用知識。 實驗表明在人工指定和生成子任務方面都取得了更好的性能。 為了提高多智能體的學習性能,Jayesh 等人應用 前饋神經網絡( Feedforward Neural Network,FNN) 完 成協 同 控 制 任 務[27] , 包 括 離 散 和 連 續 動 作 任 務, Daphna 等人提出了推斷課程( Inference Curriculum, IC)的方法[28] ,從另一個網絡遷移學習的方式,接受不 同任務的訓練。 為了解決從稀疏和延遲獎勵中學習的 局限性問題,Atsushi 提出了一種基于漸進式神經網絡 (Progressive Neural Network, PNN ) 的 課 程 學 習 方 法[29] ,帶參數的模塊被附加上預先確定的參數,該策 略比單組參數的效果更好。

3 算法分析與總結

強化學習是處理序列決策任務的流行范式[46] ,盡 管在過去的三十年中取得了許多進步,但在許多領域 的學習仍然需要與環境進行大量的交互,導致模型的 訓練時間過長,收斂速度過慢。 為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經 驗可以在開始學習下一個更難的任務時加以利用。 然 而,盡管課程學習理論、算法和應用研究在國內外已普 遍開展,并且也已經取得了較多的研究成果[47 -48 ] ,但 仍然有許多問題還亟待解決。

3. 1 強化學習中的課程學習算法理論分析與對比

在算法和理論方面,傳統課程學習對于小規模的 多智能體強化學習性能提升明顯,但在大規模多智能 體環境中,由于環境和智能體之間的復雜動態以及狀 態-行動空間的爆炸,因此在實際問題的解決上進展 不大[49] 。 得益于深度神經網絡的數據處理能力,使用 深度神經網絡表示回報函數,避免了特征提取工作,當 前基于課程學習的深度強化學習算法在實驗場景中應 用于 StarCraft [50] 、 grid - world [51] 、 hide - and - seek [52] 、 Sokoban [53]等經典強化學習問題的解決。 隨著課程學 習技術的發展,算法在智能決策[54] 、困難編隊下的合 作導航[55] 、在 SUMO 交通模 擬 器 中 協 商 多 車 輛 變 道[56]以及在 Checkers 環境下的戰略合作[57] 等領域也 取得了一定的成功。 該綜述分四個角度對目前強化學習中的課程學習 方法進行分類并介紹,希望能夠為相關研究人員提供 一點幫助。 為方便了解和對比,該文分析、對比了這幾 類方法的優缺點,并歸納在表 1 中。

(1)基于網絡優化的課程學習。 解決大規模問題 的方法是從小型多智能體場景開始學習,逐步增加智 能體的數量,最終學習目標任務。 使用多種傳輸機制 以加速課程學習過程,課程設計是影響課程遷移成績 的關鍵因素。 如何選擇合適的課程(包括如何決定每 個任務的訓練步長,如何選擇合適的學習模型重新加 載等)是至關重要的。 如何自動生成多智能體課程可 能是目前尚存在的主要局限性,這將在今后的工作中 進一步研究[58] 。

(2)基于多智能體合作的課程學習。 是根據全局 目標和個體目標之間的關系進行學習探索,使用信度 分配[33] 、種群進化課程[34] 、任務排序框架[36] ,通過函 數增強方案來連接價值和策略函數的階段,在具有高 維狀態空間的多目標多智能體環境中執行高挑戰性任 務性能較好,缺點是沖突較為頻繁、更高的方差和無法 維持合作解決方案[59] ,目前難以推廣到非齊次系統或 沒有已知目標分配的設置的工作。

(3)基于能力評估的課程學習。 通過限制其最初 行動空間來設置內部課程,使用非策略強化學習同時 估計多個行動空間的最優值函數,建立技能、表述和有 意義的經驗數據集,從而避免從頭開始學習,加快學習 效率。 缺點是集群對每個狀態都會改變[60] ,這可能會 干擾泛化,因為沒有一致的語義。

(4)基于功能函數的課程學習。 通過設定級數函 數和映射函數來為智能體量身定制在線課程,通過高 斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。 使用神經網絡作為函數逼近器來估計 動作-價值函數,并提出一個獎勵函數來幫助單位平 衡它們的移動和攻擊。 缺點是只提供最初的啟發式解 決方案[61] ,而且質量不能得到保證。

3. 2 基于課程學習的深度強化學習研究方向

通過對最新課程學習算法理論的研究分析,本節 對當前基于課程學習的深度強化學習存在的開放性問 題和可能的研究方向進行討論。 (1)自動創建任務課程。 任務創建是課程學習方法的重要組成部分,任務 質量會影響課程的生成質量,任務數量會影響課程排 序算法的搜索空間和效率。 現有課程學習中的任務大 多由人工創建,減少任務創建過程中的人工輸入量是 未來工作的重要發展方向[62] 。 (2)遷移不同類型知識。 課程任務之間,知識必須從一個任務遷移到另一 個任務。 目前大部分研究中,知識遷移的類型是固定 的。 例 如, Narvekar 等 人 在 任 務 之 間 遷 移 價 值 函 數[63] ,而 Svetlik 等人遷移成型獎勵[64] 。 這種知識遷 移類型的局限性在于,不同的任務對于知識類型的需 求可能是不同的,因此可以從不同任務中分別提取知 識進行組合。 例如,從一個任務中提取一個選項,從另 一個任務中提取模型,從而達成更好的學習效果。 (3)課程重用的成本分攤。 當前課程學習方法的另一個局限性是,生成課程 的時間可能比直接學習目標任務的時間更長。 原因在 于,課程通常是為每個智能體和目標任務獨立學習的。 因此,分攤成本的一種方法是學習一門課程來訓練多 個不同的智能體[65] ,或解決多個不同的目標任務。

4 結束語

該文對基于課程學習的深度強化學習進行了回 顧,由淺入深地對課程學習進行了分析,介紹了課程學 習的概念理論、經典算法、研究進展和發展展望等,從 基于網絡優化的課程學習、基于多智能體合作的課程 學習、基于能力評估的課程學習、基于功能函數的課程 學習四個角度對強化學習中的課程學習進行了分類梳 理、對比分析,最后對基于課程學習的深度強化學習的 未來展望進行簡要分析。 根據當前深度強化學習中存在的狀態空間復雜、 維數災難、學習時間長等問題,課程學習會是未來的一 個發展方向。 課程學習算法可以將目標任務分解成多 個子任務,結合大多數的強化學習算法,使用多種傳輸 機制以加速強化學習進程,大大提高了學習探索效率 和通用性。 最后,目前課程算法在大規模多智能體場 景的研究進展緩慢,其主要原因在于多智能體場景的 復雜性。 然而大規模多智能體場景更加貼近現實,優 質的課程學習算法能夠在很大程度上提高學習探索的 效率。 因此,相信課程學習算法會成為深度強化學習 的熱門方向,加快深度強化學習的發展速度。

付費5元查看完整內容

人工智能的主要目標之一是構建智能Agent,如計算機游戲中的對手或將包裹送到客戶手中的無人駕駛飛行器。這些智能Agent在各種環境中感知和行動以實現其目標。例如,在電腦游戲的情況下,目標是擊敗玩家。在包裹運送無人機的情況下,目標是將包裹及時送到客戶手中。

Agent感知環境的狀態,并需要決定下一步該做什么。一種可能的方法是強化學習[36],即Agent從與環境的互動中學習。這種方法在一些領域是成功的,在圍棋[60]、《星際爭霸》[66]或Atari游戲[41]中取得了超人的表現。Agent如何在環境中行動的另一種方法是事先創建一個行動計劃。對于一個給定的目標,Agent計算出導致它的行動序列。自動計劃在許多領域都是成功的,如深空1號[4]或火星探測器任務[1]。自動規劃的一個缺點是,當環境意外改變時,Agent通常不能再向目標前進。這種情況要么是隨機發生的,要么是由其他對手Agent的行動引起的。為了明確地推理其他Agent并找到一個穩健的計劃,必須使用博弈論方法[59],如 double-oracle(DO,見圖1)。博弈論算法在實踐中有幾個成功的應用,例如,在物理安全[64]或保護野生動物[19]領域。我們關注的更多案例是戰斗情況,如用無人機保衛核電站,抵御侵略者。

這項工作的主要目標是通過加強幾何推理來推進自動對抗性規劃的算法。盡管規劃域定義語言(PDDL)[39]是一個富有表現力的建模工具,但對行動的結構有一個重要的限制:行動的參數被限制在有限(實際上是明確列舉的)域的值上。這種限制的動機是,它確保了有基礎的行動集合是有限的,而且,忽略持續時間,在一個狀態下的行動選擇的分支因素也是有限的。盡管持續時間參數可以使這種選擇無限大,但很少有規劃者支持這種可能性,而是將自己限制在固定的持續時間上。像吉普車穿越未知寬度的沙漠這樣的問題是無法解決的[32]。

圖 1:對抗性規劃、資源分配、雙預言機算法、幾何導航(從左到右)。

我們提議對PDDL進行擴展,以豐富具有幾何特征的行動。我們實現了能夠將推理提升到空間領域的規劃器,并將其應用于對抗性環境。我們說明這些方法可以解決有趣的問題,并將這項工作應用于任務和運動規劃場景(圖2),以表明我們的工作有很大的潛力,可以重新發明機器人技術中使用任務規劃器的方式。即使沒有對手,幾何學也是有效的,但在DO算法中,規劃器被多次調用以獲得最佳響應,所以作為一個乘數,我們有,如果對手的規劃域是幾何學的,可溶性和擴展性會變得更好。

圖 2:幾何任務-運動規劃:循環、線性近似、檢查運動規劃(從左到右)。

付費5元查看完整內容

摘要

本文試圖考慮DeepMind科技公司的一群科學家的斷言,即強化學習的獎勵機制足以實現通用人工智能(AGI)。強化學習是一種專注于獎勵最大化的機器學習技術,在20世紀80年代和90年代,基于美國政府的資助而快速發展。它已被應用于自動駕駛汽車、視頻游戲、游戲計算機、文本到語音系統,以及用于訓練卷積神經網絡。本文的獨特貢獻在于提出了量子計算可以支持強化學習的應用,以實現AGI。在實現AGI方面已經有了一些嘗試,但無濟于事,這就是為什么DeepMind的科學家認為強化學習是一條可行的發展道路。他們的立場與關于強化學習潛力的主流思想不一致,這就是量子計算的作用。然而,與強化學習相比,量子計算在現實世界的應用較少。盡管如此,它的基本原則可能會加速走向AGI的進程。

1.0 引言

在DeepMind Technologies的一群科學家(David Silver, Satinder Singh, Doina Precup, Richard S. Sutton)發表的一篇題為 "獎勵就夠了 "的論文中,他們提出并論證了強化學習是實現通用人工智能(AGI)或超級人工智能(AI)的可行路徑。然而,從理論上講,DeepMind的科學家們所提出的建議是可能的。

然而,在實踐中,這可能是不可想象的。西爾弗等人承認,目前還沒有可用的模型或系統能夠模擬自然環境的復雜性,以訓練建立在強化學習基礎上的智能系統。然而,如果我們最終將目光投向人工智能(AI)之外,AGI可能是可以解決的。幾十年來,對人類水平的人工智能的探索一直是內向型的,研究人員深入到人工智能的現有子領域--深度學習、無監督學習、監督學習和強化學習,僅此而已。

這種對內的關注有其收獲,但人類水平的人工智能的目標仍然遙不可及。作者提出,答案就在人工智能之外--為了實現AGI,我們應該把目光投向另一個最近得到更多關注和吸引投資的領域--量子計算。量子計算在加速訓練過程和降低強化學習模型的錯誤率方面可能至關重要。

強化學習(RL)+ 量子計算(QC)= 通用人工智能(AGI)

換句話說,通過在訓練強化學習算法中應用量子計算原理,我們也許能夠實現具有人類水平能力的智能agent或AGI。

本文分為八個大的部分來證實這一說法。第一部分通過定義強化學習奠定了基礎。第二部分討論了強化學習的一些領域應用。接下來,它轉向AGI和當前科學家為實現AGI而采取的一些方法。第四部分將定義并向讀者介紹量子計算。第五部分簡要回顧了本次討論的核心論文《獎勵就夠了》,以及贊成強化學習作為通往AGI之路的論據。第六部分則提出了反對 "獎勵就夠了 "這一立場的論據。在這一點上,讀者應該了解什么是強化學習,它的能力、限制和量子計算的潛力。第七部分解釋了量子計算是如何使天平傾向于強化學習的。第八部分也是最后一部分,為本文畫上了句號,總結了整個討論,并提出了作者的結束語。

8.0 量子計算如何使天平傾向于強化學習以實現敏捷性

雖然量子計算機的發展可能仍處于早期階段,但初步的事件表明,如果量子計算的努力是針對強化學習的,則可以支持AGI的實現。此外,有人預測,"由于其優越的性能和與問題相關的特定屬性,量子計算機將主要用于計算智能和機器人"。

例如,量子計算機可以并行地運行不同的可能性,每個并行的可能性都試圖達到不同的答案。與傳統的強化學習算法訓練不同,在開始另一條學習曲線之前,必須完成一條學習曲線并取得或失去獎勵。但是有了量子計算,所有的學習曲線都可以同時運行,從而從根本上縮短了訓練強化學習模型的時間。

為了說明這一點,使用我們一開始的老鼠例子,我們的老鼠必須反復穿過迷宮才能找到奶酪。每一次嘗試,老鼠都會獲得更多的迷宮導航經驗,這樣它花在錯誤地方的時間就會減少,直到最后它可以直接找到奶酪所在的地方。如果我們以某種方式將量子計算引入這只老鼠,使它成為一只 "量子老鼠",可以說,它將能夠同時嘗試迷宮中的所有路線。最終,這只 "量子老鼠 "將同時知道所有不正確和正確的路線,而不是反復嘗試和失敗。

盡管這聽起來很有希望,但必須注意到,量子計算不僅僅是同時嘗試不同的替代方案。在量子計算中,隨著所有替代方案被同時探索,那些導致錯誤結論的方案被取消,而那些導致正確結論的方案被強化。回到我們的 "量子老鼠 "的例子,當它探索所有路線時,所有那些不通往奶酪的路線被自動取消,而那些通往奶酪的路線被強化或學習。當引入強化學習時,量子計算可以從根本上改寫作為后者基礎的獎勵最大化原則。如果沒有 "錯誤的開始 "或通常比正確結果多的錯誤,獎勵就會成為默認狀態。因此,我們有一只 "量子老鼠",一旦經過訓練,只學習通往奶酪的正確路線,可能永遠不會犯錯。

然而,假設錯誤的結論被編碼為準確的。在這種情況下,雖然正確的結論被編碼為不準確的,導致它們被抵消,但我們的量子主體有可能迅速學會錯誤的原則。管理這種風險可能涉及到一個交錯的審查過程,以確保正確的結論被編碼,以及一個人在環形的后培訓過程,以確保在受控環境中檢測到不良結果。

8.1 量子計算在人工智能/機器學習中的當前使用案例

我找不到任何當前量子計算與強化學習相關或結合的用例;也有其他的例子,量子計算原理被應用于人工智能的其他方面。例如,應用量子退火機器學習解決了一個希格斯優化問題。

這個用例表明了量子機器學習、量子神經網絡、量子生成對抗網絡(QGANs)的可行性,也可能是量子強化學習的前景。

9.0 結論

本文試圖表達一群DeepMind科學家對強化學習作為實現通用人工智能(AGI)的途徑的可行性的立場。我相信,當應用于強化學習時,量子計算原理可能會加速實現AGI的進展。

這篇論文區分了強化學習和其他機器學習技術。還依靠動物心理學來正確說明實踐中的強化學習。最后,通過現實世界的例子,還介紹了強化學習的潛力和限制。

強化學習需要在線互動,并與城市驅動的復雜性作斗爭。量子計算可能通過大大減少訓練強化學習代理的時間來緩解這一挑戰。

然而,量子計算仍然主要是一種學術追求,現實世界的應用有限。盡管如此,量子的優勢可能會減少訓練強化學習模型的時間和成本。它也顛覆了開發AGI的傳統思維。

無論是否有量子計算,實現AGI的道路都不容易,因此人們更傾向于狹義或弱義的AI。在沒有量子計算的情況下,建立一個通用的、足夠強大的強化學習agent可能被證明是不可能的。然而,在采用量子計算原理時,應該有一種謹慎的意識。使其成為強大的加速器的特性也使其變得無比危險,如果壞的結果被編碼。量子計算可能會惡化現代人工智能應用中的一切問題,加速偏見和歧視,在這里,它被用來訓練強化學習agent,具有顯著或合法的效果。

還有一個更大的問題是關于AGI的必要性或效用。如果我們仍在努力對開發狹義的人工智能工具施加道德標準,為什么要試圖咬得更緊呢?除了經濟潛力之外,投資于AGI的發展還能獲得什么重大優勢?

AGI的支持者、開發者和研究者還必須投資于理解其關于信任、偏見、道德、網絡安全和隱私挑戰的社會影響。如果量子計算被應用于支持AGI的發展,這項工作應該包括具有不同生活經歷和背景的利益相關者,以確保編碼的結果不是排他性的。這項工作也應該在沙盒環境中完成,并且在現實世界中部署時要接受人類在環(HOTL)和人類在環(HITL)的監督機制。

付費5元查看完整內容

【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey

【作者團隊】Sven Gronauer, Klaus Diepold

【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf

【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。

付費5元查看完整內容

摘要

本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。

關鍵詞:遷移學習,強化學習,綜述,機器學習

介紹

強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。

DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。

在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。

在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。

本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。

在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。

第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。

付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容

強化學習(RL)是一種流行的處理順序決策任務的范式,其中agent只有有限的環境反饋。盡管在過去的三十年里取得了許多進步,但是在許多領域的學習仍然需要大量的與環境的交互,這在現實的場景中是非常昂貴的。為了解決這個問題,遷移學習被應用于強化學習,這樣在一個任務中獲得的經驗可以在開始學習下一個更困難的任務時得到利用。最近,有幾項研究探索了如何將任務(或數據樣本本身)排序到課程中,以便學習一個可能很難從頭學起的問題。在本文中,我們提出了一個課程學習的強化學習框架,并利用它來調查和分類現有的課程學習方法的假設、能力和目標。最后,我們使用我們的框架來發現開放的問題,并為未來的RL課程學習研究提出方向。

付費5元查看完整內容
北京阿比特科技有限公司