亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

智能體與人類或機器人的無縫交互很困難,因為現實環境是動態變化的,并根據自智能體的行為更新策略,而自智能體必須預測這些變化以隨機應變。受人類行為啟發,我們認識到機器人不需要顯式地為另一個智能體要進行的每一個低級動作建模;相反,我們可以通過高級表征來捕捉其他智能體的潛在策略。我們提出了一個基于強化學習的學習框架來學習一個智能體策略的潛在表示,其中自智能體識別其行為與另一個智能體的未來策略之間的關系。然后,自智能體利用這些潛在的動力來影響另一個智能體,有目的地引導他們走向共同適應的策略。在多個模擬領域和一個真實的空中曲棍球游戲中,本文的方法要優于其他方法,并學會了影響其他智能體。

付費5元查看完整內容

相關內容

CoRL的全程為Conference on Robot Learning(機器人學習大會),CoRL是一個新的以機器人學和機器學習為主題的年度國際會議。大會的組織者包括來自UC Berkrley、Google、Microsoft、CMU、MIT、ETH、Deepmind等知名院校和知名企業的研究者和從業者,同時CoRL大會的舉辦還得到了機器人國際機構“三巨頭”之一的國際機器人研究基金會(IFRR)和機器學習領域最好的期刊之一JMLR(Journal of Machine Learning Research)的支持。

深度卷積網絡的出現推動了視覺識別領域的新一波進步。這些學習到的表示大大優于手工設計的特征,在視覺任務上獲得更高的性能,同時在數據集上有更好的泛化性。盡管這些模型看起來很普遍,但當它們所訓練的數據與所要求操作的數據之間存在不匹配時,它們仍然會受到影響。領域適應提供了一種潛在的解決方案,允許我們將網絡從源領域訓練到新的目標領域。在這些領域中,標記數據是稀疏的或完全缺失的。然而,在端到端可學習表示出現之前,視覺域適應技術很大程度上局限于在固定的、手工設計的視覺特征上訓練的分類器。在這篇論文中,我們展示了如何將視覺域適應與深度學習相結合,以直接學習能夠適應域移動的表示,從而使模型能夠泛化到源域之外。

在第2章中,我們將演示如何設計損失,以衡量兩個領域的不同程度。我們表明,通過優化表示來最小化這些損失,我們可以學習從源到目標更好地泛化的表示。在第3章和第4章中,我們展示了我們可以訓練模型來嘗試測量域差異,而不是手工設計這些域損失。由于這些模型本身是端到端可學習的,我們可以通過它們反向傳播來學習表示,從而最小化學習的差異。這在概念上與生成式對抗網絡類似,我們還探索了兩者之間的關系,以及我們如何在對抗環境中使用為GANs開發的技術。最后,在第5章和第6章中,我們證明了適應性不需要局限于深度網絡的中間特征。對抗適應技術也可以用于訓練模型,直接改變圖像的像素,將它們轉換成跨域的類似物。然后,這些轉換后的圖像可以用作標記的偽目標數據集,以學習更適合目標領域的監督模型。我們表明,這種技術是基于特征的適應性的補充,當兩者結合時產生更好的性能。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-69.html

付費5元查看完整內容

基于記憶的元學習是一種強大的技術,可以構建能夠快速適應目標分布中的任何任務的agents。之前的一項理論研究認為,這種顯著的表現是因為元訓練方案激勵agent以貝葉斯最優的方式行為。我們通過一些預測和敲詐任務對這一主張進行了實證研究。在理論計算機科學的啟發下,我們發現元學習和貝葉斯最優agent不僅行為相似,而且在某種意義上,它們甚至共享相似的計算結構,即一個agent系統可以近似地模擬另一個。此外,我們證明貝葉斯最優agent是元學習動態的不動點。我們的研究結果表明,基于記憶的元學習可以作為一種通用技術,用于數值逼近貝葉斯最優agent,也就是說,甚至對于我們目前沒有可處理模型的任務分布也是如此。

在“學習到學習”的范式中,基于記憶的元學習是一種創建代理的強大技術,它能快速適應從目標分布中抽取的任何任務。此外,有人聲稱元學習可能是創建泛化到看不見的環境的系統的關鍵工具。計算神經科學的研究也部分支持了這一觀點,其中對人類的實驗研究表明,快速的技能適應依賴于任務的變化。因此,理解元學習agent如何獲得它們的表征結構并執行它們的計算是至關重要的,因為它可以為架構選擇、訓練任務的設計提供信息,并解決人工智能中的泛化和安全性問題。

以前的理論工作認為,充分優化元學習目標的agent是通過構造的貝葉斯最優,因為元學習目標是貝葉斯最優目標的蒙特卡羅近似。這是令人震驚的,因為貝葉斯最優agent通過最優地權衡勘探和開發來實現收益最大化(或損失最小化)。該理論還提出了一個更強的、結構化的主張:即經過元訓練的agent在幕后執行貝葉斯更新,其中計算是通過嵌入在內存動態中的狀態機實現的,該狀態機跟蹤解決任務類所需的不確定性的充分統計信息。

在這里,我們著手實證綜述元學習agent的計算結構。然而,這帶來了不小的挑戰。人工神經網絡以其難以解釋的計算結構而臭名昭著:它們在具有挑戰性的任務中取得了卓越的表現,但這種表現背后的計算仍然難以捉摸。因此,盡管可解釋機器學習的許多工作集中在I/O行為或記憶內容上,只有少數通過仔細的定制分析來研究引起它們的內部動態(見例[12 18])。

為了應對這些挑戰,我們調整了理論計算機科學與機器學習系統的關系。具體來說,為了在計算級別[19]上比較agent,我們驗證它們是否可以近似地相互模擬。仿真的質量可以根據原始和仿真之間的狀態和輸出相似度來評估。

因此,我們的主要貢獻是研究基于RNN的元學習解決方案的計算結構。具體地說,我們比較元學習代理的計算和貝葉斯最優agent的計算,在他們的行為和內部表示的一套預測和強化學習任務已知的最優解決方案。我們在這些任務中展示了這一點:

  • 元學習代理的行為類似貝葉斯最優agent(第4.1節)。也就是說,元學習agent做出的預測和行動實際上與貝葉斯最優agent無法區分。

  • 在元訓練過程中,元學習者收斂于貝葉斯最優(第4.2節)。我們的經驗表明,貝葉斯最優策略是學習動態的不動點。

  • 元學習代理代表像Bayes-optimal代理這樣的任務(第4.3節)。具體來說,計算結構對應于嵌入在(歐幾里得)內存空間中的狀態機,其中狀態編碼任務的充分統計信息并產生最優操作。我們可以用貝葉斯最優agent執行的計算來近似地模擬元學習代理執行的計算。

付費5元查看完整內容

Model-Based Methods in Reinforcement Learning 本教程對基于模型的強化學習(MBRL)領域進行了廣泛的概述,特別強調了深度方法。MBRL方法利用環境模型來做決策——而不是將環境看作一個黑箱——并且提供了超越無模型RL的獨特機會和挑戰。我們將討論學習過渡和獎勵模式的方法,如何有效地使用這些模式來做出更好的決策,以及計劃和學習之間的關系。我們還強調了在典型的RL設置之外利用世界模型的方式,以及在設計未來的MBRL系統時,從人類認知中可以得到什么啟示。

付費5元查看完整內容

摘要: 強化學習作為一種用于解決無模型序列決策問題的方法已經有數十年的歷史, 但強化學習方法在處理高維變量問題時常常會面臨巨大挑戰. 近年來, 深度學習迅猛發展, 使得強化學習方法為復雜高維的多智能體系統提供優化的決策策略、在充滿挑戰的環境中高效執行目標任務成為可能. 本文綜述了強化學習和深度強化學習方法的原理, 提出學習系統的閉環控制框架, 分析了多智能體深度強化學習中存在的若干重要問題和解決方法, 包括多智能體強化學習的算法結構、環境非靜態和部分可觀性等問題, 對所調查方法的優缺點和相關應用進行分析和討論. 最后提供多智能體深度強化學習未來的研究方向, 為開發更強大、更易應用的多智能體強化學習控制系統提供一些思路.

付費5元查看完整內容

主題: Learning for policy improvement

摘要: 強化學習在經驗易獲得的領域取得了許多成功,如電子游戲或棋盤游戲。這類區域的RL算法通常基于梯度下降:它們以較小的學習率進行許多噪聲更新。相反,我們研究每次更新花費更多計算的算法,試圖減少噪聲并進行更大的更新;當經驗比計算時間更昂貴時,這樣的算法是合適的。特別地,我們看幾種基于近似策略迭代的方法。

作者簡介: Geoff Gordon博士是微軟研究蒙特勒實驗室的研究主任,也是卡內基梅隆大學機器學習系的教授。他還擔任過機械學習系的臨時系主任和教育副系主任。戈登博士的研究集中在能夠進行長期思考的人工智能系統上,比如提前推理以解決問題、計劃一系列行動或從觀察中推斷出看不見的特性。特別是,他著眼于如何將機器學習與這些長期思考任務結合起來。1991年,戈登博士在康奈爾大學獲得計算機科學學士學位,1999年在卡內基梅隆大學獲得計算機科學博士學位。他的研究興趣包括人工智能、統計機器學習、教育數據、博弈論、多機器人系統,以及概率、對抗和一般和領域的規劃。他之前的任命包括斯坦福大學計算機科學系的客座教授和圣地亞哥燃燒玻璃技術的首席科學家。

付費5元查看完整內容
北京阿比特科技有限公司