亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。

//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。

付費5元查看完整內容

相關內容

是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。

在現實生活中部署人工智能體的一個基本問題是它們快速適應環境的能力。傳統的強化學習(RL)以兩種方式與這一需求作斗爭。首先,對不受約束的環境動態的迭代探索會產生大量信息不足的更新,從而導致適應速度緩慢。其次,最終的策略沒有能力適應未來的觀察結果,必須隨著觀察結果的發生緩慢地無限學習或完全重新訓練。本文探討了兩種旨在解決這些問題的表述。元強化學習對整個任務分布的考慮使策略能夠快速適應特定實例。通過強迫智能體特定地請求反饋,主動強化學習強制進行選擇性的觀察和更新。這兩個公式都簡化為貝葉斯-自適應設置,在其中保持對可能環境的概率信念。許多現有的解只提供了在實際環境中使用有限的漸近保證。我們開發了一種近似信念管理的變分方法,并通過廣泛的消融實證支持其有效性。然后,我們考慮最近成功的規劃方法,但發現和討論它們在應用到所討論的設置中的障礙。影響RL系統的數據需求和穩定性的一個重要因素是選擇合適的超參數。我們開發了一種貝葉斯優化方法,利用訓練過程的迭代結構,其經驗性能超過現有基線。本文的最后一個貢獻是提高高斯過程(GPs)的可擴展性和表達性。雖然我們沒有直接使用現有的框架,但GPs已經被用于在密切相關的設置中建模概率信念。

//ora.ox.ac.uk/objects/uuid:54963b90-2d7c-41a9-9bf3-065a3097c077

付費5元查看完整內容

幾十年來,研究人員一直在追求一個雄心勃勃的目標:設計出能夠像人類一樣有效地解決問題的計算機模型。人工神經網絡——一種通用的、可優化的模型,最初是受到大腦中的生物神經元的啟發——似乎提供了一個有希望的答案。然而,當前模型的一個重大限制是,它們往往只可靠地精通它們明確訓練過的任務和數據集。如果正在訓練多個任務或數據集,則需要適當地混合和平衡樣本,以便在連續批次的訓練中不會導致前批次學習到的知識的遺忘,這是持續學習的障礙。此外,需要通過成對的輸入目標樣本使訓練網絡的關聯明確,以實現其在期望任務上的最佳性能;當網絡在沒有明確目標的情況下以無監督方式進行訓練時,為了減少數據收集的成本,網絡學到的知識遷移到期望任務的效果明顯差于具有明確關聯的有監督訓練。

所有這些問題都與基本的泛化問題有關,泛化是指盡管面向新類但仍能表現良好的能力。在第二章中,我們討論了在有監督、無監督和持續學習環境下,可以預期產生良好泛化的條件,包括小模型大小和訓練和測試數據之間的相似性。第三章提出了一種預測模型何時不能泛化到測試樣本的方法,推導出泛化邊界,利用模型大小和與訓練數據的相似度來量化預測的可靠性。第四章介紹了一種聚類方法,該方法學習了如何在語義概念之間近似地分離數據,使用的是非監督目標不使用手動標簽。第五章包含了一種不需要專門訓練數據就可以執行目標定位任務的方法,即通過重新利用顯著性映射。第6章包含了一個持續學習的方法,在這個方法中,模型被迫重新考慮之前的知識與新知識并行,第7章使用了一個動態架構來抑制新學習片段對舊知識的干擾。如果沒有這些泛化問題的解決方案,神經網絡就無法從自然順序的、沒有注釋的現實世界數據中實時有效地學習,這限制了它們的部署選項。因此,泛化是一個具有巨大實際意義的問題,從理論上和從生物學啟發學習的角度來看都很有趣。

//ora.ox.ac.uk/objects/uuid:2d7f8f92-d730-40a5-a47c-0acd0998f0d0

付費5元查看完整內容

摘要

深度強化學習 (RL) 中的泛化研究旨在產生 RL 算法,其策略可以很好地泛化到部署時新的未知情況,避免過度擬合其訓練環境。如果要在現實世界的場景中部署強化學習算法,解決這個問題至關重要,在現實世界中,環境將是多樣的、動態的和不可預測的。本綜述是對這一新興領域的概述,在已有研究的基礎上,通過提供了一個統一的格式和術語來討論不同的泛化問題。繼續對現有的泛化基準以及解決泛化問題的方法進行分類。最后,對該領域的現狀進行了批判性討論,包括對未來研究的建議。本文認為對基準設計采用純程序性內容生成方法不利于推廣,其建議快速在線適應和解決RL特定問題,并在未充分探索的問題環境中建立基準,如離線RL概括和獎勵函數變化。

引言

強化學習(RL)可以用于一系列應用,如自動駕駛汽車[1]和機器人[2],但為了實現這一潛力,我們需要可以在現實世界中使用的RL算法。現實是動態的、開放的、總是在變化的,RL算法需要對其環境的變化具有健壯性,并在部署過程中具有遷移和適應不可見(但類似)環境的能力。

然而,目前許多RL研究工作都是在諸如Atari[3]和MuJoCo[4,5]等基準測試上進行的,這些基準測試不具備上述屬性:它們在訓練策略時所處的環境中評估策略,這與現實場景不匹配(圖1左列)。這與監督學習的標準假設形成了鮮明的對比,在監督學習中,訓練集和測試集是不相交的,很可能導致強評估過擬合[6]。這導致策略即使在稍微調整的環境實例(環境中的特定關卡或任務)上表現也很糟糕,并且經常在用于隨機初始化上失敗[7,8,9,10]。

許多研究人員已經認真對待這些批評,現在專注于提高RL的泛化(從這項綜述的內容可以看出)。本研究的重點是生成策略具有預期魯棒性、遷移和自適應特性的算法,挑戰訓練和測試將是相同的基本假設(圖1中右列)。雖然這項研究是有價值的,但目前它經常缺乏清晰或連貫的論文。我們認為,這部分是因為泛化(尤其是在RL中)是一類問題,而不是一個特定的問題。改進“泛化”,但不明確需要哪種泛化,這是不明確的;我們不太可能從總體上改進泛化,因為這類問題太廣泛了,以至于適用于一些類似于No Free Lunch定理[11]的類比:在某些情況下改進泛化可能會損害在其他情況下的泛化。圖1中右兩欄顯示了兩大類泛化問題。

我們將泛化概念作為一個單一的問題來解決。我們提出了一種理解這類問題的形式化(建立在以前的工作[12,13,14,15,16]),以及在指定一個泛化問題時有哪些選擇。這是基于特定基準所做出的選擇,以及為驗證特定方法而做出的假設,我們將在下面討論這些。最后,我們在泛化中提出了一些尚未被探索的設置,但對于RL的各種現實應用仍然至關重要,以及未來在解決不同泛化問題的方法上的許多途徑。我們的目標是使該領域的研究人員和實踐者在該領域內外更容易理解,并使討論新的研究方向更容易。這種新的清晰性可以改善該領域,并使更通用的RL方法取得穩健的進展。

綜述結構。綜述的結構如下。我們首先在第2節中簡要描述相關工作,如其他概述。在第3節中,我們介紹了RL中泛化的形式化和術語,包括相關的背景。然后,在第4節中,我們繼續使用這種形式化來描述用于RL泛化的當前基準,討論環境(第4.1節)和評估協議(第4.2節)。我們將在第5節中對處理泛化的工作產生方法進行分類和描述。最后,我們將在第6節中對當前領域進行批判性的討論,包括在方法和基準方面對未來工作的建議,并在第7節中總結綜述的關鍵結論。

  • 我們提出了關于泛化的一種形式主義和術語,這是建立在以往多部工作[12,13,14,15,16]中提出的形式主義和術語基礎上的。我們在這里的貢獻是將這些先前的工作統一為RL中被稱為泛化的一類問題的清晰的正式描述。

  • 我們提出了一個現有基準的分類,可以用來進行泛化測試,將討論分為分類環境和評估協議。我們的形式主義讓我們能夠清楚地描述純粹的PCG方法在泛化基準和環境設計方面的弱點:擁有一個完全的PCG環境限制了在該環境下進行研究的精確度。我們建議未來的環境應結合PCG和可控變異因素。

  • 我們提出現有的分類方法來解決各種泛化問題,出于希望使它容易對從業人員選擇的方法給出一個具體的問題。我們指出了許多有待進一步研究的途徑,包括快速在線適應、解決RL特定的一般化問題、新穎的架構、基于模型的RL和環境生成。

  • 我們批判性地討論了RL研究的泛化現狀,并提出了未來的研究方向。特別地,我們指出,構建基準將使離線的RL一般化和獎勵功能變化取得進展,這兩者都是重要的設置。此外,我們指出了幾個值得探索的不同設置和評估指標:調查上下文效率和在連續的RL設置中工作都是未來工作的必要領域。

付費5元查看完整內容

在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。

本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。

我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。

//www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容
北京阿比特科技有限公司