亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在強化學習(RL)中使用先驗知識已經變得無處不在,因為我們正在開發適合真實機器人的系統。最近的研究顯示,人們對以行為先驗的形式吸收先驗知識的方法重新產生了興趣。行為先驗是指當處于特定狀態時,可以為代理提出潛在有意義的行為的系統,包括經典手工制作的控制器、之前學習的策略、演示和最近潛在的技能模塊。這些系統已經在RL中證明了其在加速訓練、更安全探索和廣泛任務推廣方面的有效性。

本次研討會的目標是將不同領域的研究人員聚集在一起,包括RL,機器人和控制,討論行為先驗可能在RL中發揮的作用。這包括我們可以學習/建模這些先驗的各種方法,在RL框架內集成他們的經驗的方法,以及他們的適用性來解決現實機器人中RL面臨的一些關鍵挑戰。

付費5元查看完整內容

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習范式之一。 強化學習與監督學習的不同之處在于,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在于,后者不假設MDP的確切數學模型,并且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

近年來,關于單智能體和多智能體自主決策的研究工作層出不窮。現在,許多IT專家正在打造自動駕駛汽車和醫療機器人,開發先進的自主決策系統已經是一個數十億美元的產業。這些新技術提供了監督、先進的自動化和自動儀器,能夠適應不斷變化的情況、知識和約束。然而,將新技術引入我們的技術和社會基礎設施具有深遠的影響,需要建立對其行為的信心,以避免潛在的風險和傷害。因此,自主決策系統的有效性和更廣泛的可接受性依賴于他們做出“風險規避”決策的能力,這也被稱為“風險規避”。人工智能(AI)系統的風險規避能力是人機交互的關鍵要求,也是實現人工智能的全范圍社會和工業效益的關鍵。這一行業有廣泛的實際失敗-昂貴的應用,如控制、機器人、電子商務、自動駕駛和醫療。

本教程圍繞以下問題介紹了自主系統最先進的風險規避方法 (1) 風險到底是什么,風險規避的數學公式是什么? (2) 如何設計規避風險的方法?我們需要從頭開始嗎?或者,我們能否通過一些簡單的調整,將現有的風險無關算法轉變為風險規避算法?

本教程將介紹近年來開發的各種風險規避技術和算法。強化學習和數學規劃(優化)的介紹性材料將包括在教程中,因此對參與者沒有必要的知識。在介紹了基本的數學框架之后,我們將描述用于計算對偶性、塊坐標上升和信息論下界的新穎優化方法。最后,我們將強調在這一領域未來工作的許多機會,包括令人興奮的新領域和基本的理論和算法挑戰。

付費5元查看完整內容

對于機器人來說,要在現實世界的非結構化環境中執行任務,他們必須能夠以一般的方式被賦予一個期望的目標,并且在機器人還不知道如何完成的情況下,學會快速地執行期望的任務。在這篇論文中,我們探索了深度強化學習作為一種解決方案,通過兩個主要主題來實現可擴展的基于學習的真實世界機器人的愿景:從先驗數據加速強化學習和自監督RL。從先驗數據或先驗知識加速RL對于使強化學習算法具有足夠的樣本效率來直接運行在現實世界中是非常重要的。我們討論了利用人類演示來加速強化學習,使用人類設計的剩余控制器與工業插入任務的強化學習相結合,以及離線強化學習的算法,也可以受益于少量的在線微調。同時,雖然強化學習算法的樣本效率是一個備受贊賞的問題,但圍繞可以從豐富的觀察(如圖像)中學習的智能體產生了額外的問題:特別是獎勵監督和自主收集數據。我們通過一個生成模型來討論自監督的RL,通過目標達成,讓智能體評估他們自己在達成目標方面的成功,并自主提出和練習技能。在最后一部分,我們考慮將線下政策學習與自我監督練習相結合,讓機器人在新的環境中練習和完善技能。這些指示使機器人能夠監督自己的數據收集,從交互中學習復雜和一般的操作技能。

機器人在制造業和其他行業變得無處不在,用于各種任務,如揀貨、組裝、焊接、油漆等。然而,現代機器人系統的自主能力仍然相當有限。機器人操作的設置被仔細控制;它們通常需要非常具體的末端執行器工具(Zhongkui Wang et al., 2020)結合高精度運動和運動規劃(Ang et al., 2005;LaValle, 2006; Karaman and Frazzoli, 2011; Zucker et al., 2013)來完成一項特定的任務。實際上,機器人依靠人類的智慧和工程學來完成他們的工作。但是這樣的系統是脆弱的,并且硬件和軟件必須經常為任務的微小變化而重新設計。柔性機器人控制器可以實現一定的適應性或自主性(Mason, 1981;Hogan, 1985),以及與抽象任務規劃(Sacerdoti, 1974;萊斯利·帕克·凱爾布林(Sacerdoti, 1974; Leslie Pack Kaelbling and Lozano-Perez, 2011)結合了感知。但是,如果一項制造任務實際上需要對基于感知輸入的各種環境條件具有顯著的適應性或穩健性,那么設計一個工作系統就會變得困難得多——這一點從今天數百萬從事這些工作的人類勞動者身上就可以看出。除了相對可控的制造環境之外,我們還希望未來的機器人能做更多的事情:做飯、幫助家中的老人和其他以人類為中心的環境、導航未繪制的地形、操作機械和電器、操作物體,以及在人類在場時安全互動。這種開放世界的能力需要適應性、通用性,這是當今大多數機器人所無法企及的。

相比之下,人類可以如此輕松地進行高度熟練的靈巧操作,以至于有時很難想象在機器人身上復制這種能力的難度。大多數人在生命的前五年內已經發展出復雜的精細運動技能,成功地對各種不熟悉的動態物體進行雙手靈巧操作,并使用帶有緊密感覺運動回路的工具,其中包括感知、功能性抓取和控制(Adolph和franak, 2017)。為機器人開發同樣魯棒的反饋控制器仍然是一個挑戰,它可以適應各種各樣的情況來完成目標。如果機器人也有同樣的技術,那么它將具有難以置信的經濟價值——它們可以用來自動化許多人類今天必須做的任務。我們怎樣才能開發出具有類似技術的通用機器人呢?

過去十年的深度學習表明,從大型數據集學習模型是這種開放世界泛化的關鍵,這是通用機器人的先決條件。在廣泛的數據集上訓練的表達函數逼近推動了一系列領域的人工智能研究的最新進展:在語音識別(Graves等人,2014年)、圖像分類(Krizhevsky等人,2012年)和分割(Ren等人,2015年)、自然語言處理(Devlin等人,2019年),甚至蛋白質結構預測(Jumper等人,2021年)等領域,結合適當的深度學習架構的大數據集recipe已經推動了前沿領域的發展。這些模型是在足夠廣泛的數據集上訓練的,因此模型可以從廣泛的訓練分布中一般化,并在測試時捕獲拐角用例,這對于手動設計的解決方案來說是一個挑戰。如果我們能夠實現控制的普遍性——選擇行動以最大化獎勵函數的問題——它就能夠在野外實現真正的通用機器人。但是控制引入了監督學習中沒有的兩個新問題。第一個問題是信用分配:過去采取的行動會影響未來。第二是探索:所采取的行動改變了訪問數據的分布。為了解決這些問題,深度強化學習(RL)是一種很有前途的方法,它將強化學習與深度函數逼近相結合。深度強化學習已成功應用于許多連續決策問題:在競爭游戲如雅達利(Mnih等人,2015),圍棋(D. Silver等人,2016a), Dota 2 (OpenAI等人,2019)和星際爭霸II (Vinyals等人,2019),機器人(MMarc Peter Deisenroth and Rasmussen, 2011; Kober et al., 2013; Levine et al., 2017; J. ; Lee et al., 2020),平流層氣球導航Marc G. belleare等人,2020,甚至控制核聚變反應堆中的等離子體,Degrave等人,2022。然而,雖然RL的算法一直在穩步發展(Schulman et al., 2015; Lillicrap et al., 2016; Schulman et al., 2017; Haarnoja et al., 2018a),變得更高效和穩定的樣本,仍然有重大的障礙,以RL機器人的通用解決方案。在賦予機器人人類水平的操作技能方面還存在哪些挑戰?

付費5元查看完整內容

計算上下文理解指的是agent融合不同信息源進行決策的能力,因此,通常被認為是人工智能(AI)等復雜機器推理能力的先決條件。數據驅動和知識驅動方法是追求這種機器意義生成能力的兩種經典技術。然而,雖然數據驅動的方法試圖通過在現實世界中的觀察來模擬事件的統計規律,但它們仍然難以解釋,而且缺乏自然地結合外部知識的機制。相反,知識驅動的方法結合了結構化的知識庫,使基于公理原則的符號推理成為可能,并產生更多可解釋的預測; 然而,它們往往缺乏估計推斷的統計顯著性或魯棒地適應輸入中的擾動的能力。為了解決這些問題,我們使用混合AI方法作為綜合兩種方法的優勢的一般框架。具體而言,我們繼承了神經符號的概念,將其作為一種使用領域知識來指導深度神經網絡學習進程的方法。領域知識以多種形式出現,包括:(i) 圖模型,它描述了實體之間的關系,如依賴、獨立、因果、相關和部分相關; (ii) 常識性知識,包括空間知識、物體的物理屬性、語義關系和功能知識; 專家智能體以演示或軟標簽的形式提供特權信息; (iv) 習得的行為原語和先驗,這些行為原語和先驗可能構成可推廣和可轉移的任務執行;以及(v)輔助任務、目標和約束條件——為約束優化精心選擇。

無論可用的領域知識類型是什么,相同的實際目標仍然是:學習有意義的神經表征,用于下游感興趣的任務。神經表征學習的潛在目標是在統計上識別agent輸入數據或觀察中變化的最佳解釋因素,通常需要對輸入中多種模式或觀點之間的互補性的直覺。雖然已經有很多關注于學習特定任務的有效神經表征,然后將學習到的表征轉移或適應其他任務,相對較少的重點放在有各種類型的領域知識的表征學習。這些知識可用于恢復潛在生成過程的信息,設計學習問題的有效建模策略,確保模型的可轉移性或泛化性,或理解視圖之間的互補性。本文研究了將上述類型的領域知識與神經表示相結合的方法,以提高以下問題領域的模型性能和通用性:神經常識推理、多模態機器人導航和自動駕駛。本文提供了一系列工具、方法、任務、國際AI挑戰和排行榜、數據集和知識圖;此外,這項工作還成功組織了兩場關于自動駕駛安全學習的國際研討會。

付費5元查看完整內容

現代深度強化學習(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題,在本論文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在特定的環境分布上進行學習,從這些環境中采樣特定的任務,并直接優化元學習器,以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布,元學習器可以調整自己的歸納偏見,使其能夠在測試時快速適應。

本論文的重點是設計元學習算法,利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法,利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此,在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念簡單,但使用情景間記憶的元學習非常有效,仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。

論文的第一部分集中在“具身”類環境,其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分,我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先,我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環境中行動。接下來,我們討論了一個通用的和強大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數據效率的巨大改進。最后,我們開發了一種方法,可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲,目的是(1)使它們在研究社區中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應用中使用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

強化學習(RL)方法在許多機器人應用中取得了令人印象深刻的結果,受到了廣泛的關注。雖然在理論上RL涵蓋了基于學習的接近最優行為控制,但由于各種實施挑戰,無法保證最后能成功實施。即使選擇了最適合的學習方法,由于超參數選擇不當或算法的不可靠實現,學習性能仍然可能令人失望。此外,不正確的規范可能會使學習任務變得不必要的困難。

這個教程指出這些實際的陷阱,并向觀眾介紹機器人RL的工具,將幫助機器人專家成功地解決機器人學習任務,在模擬和現實世界。

//araffin.github.io/tools-for-robotic-rl-icra2022/

付費5元查看完整內容

本教程將是關于無監督學習和強化學習的交叉。隨著自然語言處理中基于語言模型的預訓練和計算機視覺中的對比學習的出現,無監督學習(UL)在過去幾年中真正得到了發展。在這些領域中,無監督預訓練的一些主要優勢是在下游有監督學習任務中出現的數據效率。在如何將這些技術應用于強化學習和機器人方面,社區中有很多人感興趣。考慮到問題的連續決策性質,RL和機器人技術比被動地從互聯網上的圖像和文本中學習面臨更大的挑戰,它可能不會那么簡單。本教程將涵蓋如何在強化學習中應用和使用無監督學習的基本模塊,希望人們可以帶回最新的最先進的技術和實踐的知識,以及在這個具有挑戰性和有趣的交叉領域的廣泛的未來可能性和研究方向。

//icml.cc/Conferences/2021/Schedule

付費5元查看完整內容

強化學習算法被廣泛的認為可以分為兩大類:無模型(Model-Free)的算法和基于模型(Model-Based)的算法。無模型的算法在過去一段時間在許多任務中已經取得了巨大的進步,這包括了機器人,視頻游戲等。盡管這類算法取得了巨大的成功,但是由于其較高的采樣復雜度,即需要與測試任務和環境進行大量的交互,生成樣本,從而學習得到效果較好的策略,這使得無模型的強化學習算法難以應用到大量的實際場景問題中,而僅僅應用在具有仿真環境的問題當中。

而通過學習一個近似環境的參數化的模型(Model),進而進一步幫助策略的學習的這類算法,被稱為基于模型的算法,使得其相比無模型算法可以大大降低采樣復雜度。本教程對基于模型的強化學習(MBRL)領域進行了廣泛的概述,特別強調了深度方法。MBRL方法利用環境模型來做決策——而不是將環境看作一個黑箱——并且提供了超越無模型RL的獨特機會和挑戰。我們將討論學習過渡和獎勵模式的方法,如何有效地使用這些模式來做出更好的決策,以及計劃和學習之間的關系。我們還強調了在典型的RL設置之外。

付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容
北京阿比特科技有限公司