在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵,比如演示。然而,通常有許多不同的獎勵功能來解釋人類的反饋,這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性,但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL,它優化了平衡預期性能和風險的軟魯棒目標。據我們所知,PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法,該假設可以擴展到連續的MDPs。結果表明,PG-BROIL可以產生一系列從風險中性到風險厭惡的行為,并通過對沖不確定性從模糊的演示中學習,而不是尋求唯一識別演示者的獎勵功能時,表現優于最先進的模仿學習算法。
在過去的十年中,人們對不確定性下的連續決策產生了極大的興趣,這是一類涉及到智能體與未知環境交互以實現某些目標的廣泛問題。強化學習方法解決了這些問題,最近人工智能在游戲、機器人等領域取得了突破。受這些實證證明的啟發,許多學習理論界的研究人員將他們的注意力轉向了強化學習,試圖更好地理解這些問題并發展新的算法原則。他們的努力為強化學習帶來了一個更現代的統計基礎,強調通過全局收斂、樣本復雜性和遺憾分析的非漸近特征。
本教程將概述這一新興理論,重點是最具挑戰性的在線探索設置。本教程分為三個部分:
第一部分將介紹必要的背景知識和定義。我們在這里重點討論了表式馬爾可夫決策過程的最基本設置,并考慮了難度不斷增加的問題:從規劃,到基于探索性分布的優化,再到在線探索。我們將提出兩種算法:用于優化問題的自然策略梯度(NPG)和用于探索的ucb -值迭代(UCB-VI),以及它們的保證。
第二部分是復習/實踐習部分。我們準備了一個問題集,涵蓋了NPG和UCB-VI的詳細分析,突出了在強化學習中廣泛有用的關鍵引理,以及與相關領域的技術聯系。這次會議將集體舉行。許多該領域的專家將會在問題集上提供幫助或回答其他問題。
第三部分將著重于表格設置之外的在線探索,在表格設置中需要函數近似來進行泛化。在這里,我們將提供一個RL模型和復雜性度量的合集,使易于處理的學習,以及一些統計障礙和算法。最后,我們將討論一些尚未解決的問題和未來的方向。
所有COLT參與者都可以訪問本教程。不需要RL的背景知識,但我們希望教程參與者能夠熟練使用學習理論研究中使用的標準數學工具,如集中不等式和一些線性代數。
近年來,在控制和強化學習中出現了新的方法,這些方法結合了遺憾(regret )最小化和在線凸優化技術。由此產生的理論為控制和強化學習中一些長期存在的問題提供了可證明的保證:對數后悔和快速速率,沒有系統知識的端到端LQG-LQR,帶有對抗噪聲的卡爾曼濾波,具有可證明的有限時間保證的黑盒控制,系統識別的緊下界,等等。
這些結果的主要創新之處在于在線控制模型將隨機擾動替換為對抗性擾動,并以后悔最小為最優控制目標。我們將描述設置,以及基于梯度和依賴于新的凸松弛的新方法。
本教程將是關于無監督學習和強化學習的交叉。隨著自然語言處理中基于語言模型的預訓練和計算機視覺中的對比學習的出現,無監督學習(UL)在過去幾年中真正得到了發展。在這些領域中,無監督預訓練的一些主要優勢是在下游有監督學習任務中出現的數據效率。在如何將這些技術應用于強化學習和機器人方面,社區中有很多人感興趣。考慮到問題的連續決策性質,RL和機器人技術比被動地從互聯網上的圖像和文本中學習面臨更大的挑戰,它可能不會那么簡單。本教程將涵蓋如何在強化學習中應用和使用無監督學習的基本模塊,希望人們可以帶回最新的最先進的技術和實踐的知識,以及在這個具有挑戰性和有趣的交叉領域的廣泛的未來可能性和研究方向。
在統一魯棒半監督變分自編碼器(URSVAE)中,通過同時處理噪聲標簽和異常值,提出了一種新的噪聲魯棒半監督深度生成模型。輸入數據的不確定性通常是將不確定性優先于概率密度分布的參數,以確保變分編碼器對異常值的魯棒性。隨后,我們將噪聲轉換模型自然地集成到我們的模型中,以減輕噪聲標簽的有害影響。此外,為了進一步增強魯棒性,采用魯棒散度測度,推導并優化了新的變分下界來推斷網絡參數。通過證明對所提證據下界的影響函數是有界的,證明了所提模型在存在復合噪聲的情況下在分類方面的巨大潛力。通過對圖像分類任務的評價和與現有方法的比較,實驗結果表明了該框架的優越性。
模仿學習使智能體能夠重用和適應他人來之不易的專業知識,為學習行為中的幾個關鍵挑戰提供了解決方案。雖然在現實世界中很容易觀察行為,但可能無法訪問底層操作。我們提出了一種新的方法,僅從觀測中進行模仿,在具有挑戰性的連續控制任務中達到與專家相當的性能,同時在與任務無關的觀測存在時也表現出魯棒性。我們的方法叫做FORM(“未來觀察獎勵模型”),它來自逆RL目標,并使用專家行為模型進行模擬,該模型是通過對專家觀察的生成模型學習而來的,不需要地面的真實行動。我們的研究表明,在DeepMind Control Suite基準上,FORM的性能與強基線IRL方法(GAIL)相當,而在存在與任務無關的特征時,FORM的性能優于GAIL。
模仿學習的目的是從人類專家的演示或人工創造的代理中提取知識,以復制他們的行為。它已經成功在視頻游戲、自動駕駛、機器人模擬和物體操縱等領域得到了證明。然而,這種復制過程可能會有問題,比如性能高度依賴于演示質量,并且大多數經過訓練的代理在特定于任務的環境中只能表現良好。在本研究中,我們對模仿學習進行了系統的回顧。我們首先介紹了模仿學習的發展歷史和初步的背景知識,然后介紹了模仿學習的不同分類和該領域的關鍵里程碑。然后,我們詳細介紹學習策略中的挑戰,并通過次優演示、語音指令和其他相關優化方案提供學習策略的研究機會。
//www.zhuanzhi.ai/paper/ccc89d6d517a856cc909be399988e654
引言
模仿學習(IL),也被稱為示范學習,通過模仿行為以一種相對簡單的方法作出反應。它提取有用的知識來重現環境中的行為,類似于演示。人工智能的存在促進了自主控制系統的研究和人工智能代理的設計,因為它在現實場景中展示了良好的前景和訓練策略的效率。深度學習、在線學習、生成對抗網絡[23]等機器學習領域的最新發展使IL得到了進一步的改進,不僅緩解了現有的動態環境、頻繁查詢、高維計算等問題,而且實現了更快的收斂。更魯棒的噪聲和更有效的樣本學習過程。這些改進促進了連續和離散控制領域的應用。例如,在連續控制領域,模仿學習可以應用于自動駕駛汽車操縱,在動態環境中重現適當的駕駛行為[11,13,14,22,31,52,53,80]。此外,模仿學習也應用于機器人,從基本的抓取和放置到手術輔助[21,37,43,46,48,49,67,79]。在離散控制領域,模仿學習對博弈論[5,19,24,55]、導航任務[28,62,76]、緩存管理[38]等領域做出了貢獻。
值得注意的是,可以從人類專家或人工代理那里收集演示。在大多數情況下,演示是從人類專家那里收集的,但也有一些研究通過另一個人工代理獲得演示。例如,Chen等人[13]提出了一個師生訓練結構,他們用額外的信息訓練一個教師代理,并使用這個經過訓練的代理來教導一個沒有額外信息的學生代理。這個過程不是多余的,使用來自其他代理的演示有助于訓練過程,因為學生代理可以通過經常查詢訓練過的代理來推出自己的策略,并從類似的配置中學習策略,而經典IL需要克服運動學轉移問題。
IL與強化學習(RL)有著密切的關系。IL和RL通常都解決了馬爾科夫決策過程下的問題,RL中的TRPO[60]等改進也可以使IL受益,但它們以不同的方式再現了行為。與RL相比,IL更高效、更易訪問和人機交互。在效率方面,與嘗試和錯誤相比,IL代理通常花費更少的時間來通過使用演示作為指導產生所需的行為。就可訪問性而言,在RL方法中實現自主行為需要熟悉問題設置的人類專家,以及硬編碼的獎勵功能,這些功能在某些情況下可能是不切實際的和非直覺的。例如,人們幾乎是通過演示而不是數學函數來學習游泳和走路的,而且很難用數學來表述這些行為。IL還促進跨學科的集成,編程新手專家可以為設計和評估范例做出貢獻。在人機交互方面,IL通過提供演示或偏好來加速學習過程,突出了人類的影響力,有效地利用和轉移專家的知識。盡管IL具有上述優點,但它也面臨著挑戰和機遇,這一內容將在下面的章節中詳細介紹。
本研究在行為克隆vs.逆強化學習和無模型vs.基于模型三個類別下進行了模仿學習的研究。然后將IL研究歸納為兩個新的類別,即低級任務與高級任務,BC、IRL與對抗性結構化IL,更適應IL的發展。
第2部分全面描述了IL的演變,第3部分介紹了基本知識,第5部分介紹了最常見的學習框架。
該綜述提出了IL的剩余挑戰,如學習不同的行為,利用各種演示和更好的表現。然后從遷移學習和重要抽樣等方面探討了未來的研究方向。
Density Constrained Reinforcement Learning
Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan
//www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821
我們從一個新的角度研究約束強化學習(CRL),通過直接設置狀態密度函數的約束,而不是以往研究中考慮的值函數。狀態密度具有清晰的物理和數學解釋,并能夠表達各種各樣的約束,如資源限制和安全要求。密度約束還可以避免設計和調優成本功能的耗時過程,這些成本功能是基于價值功能的約束來編碼系統規范所需要的。利用密度函數與Q函數之間的對偶性,提出了一種求解密度約束的RL問題的有效算法,保證了約束條件的滿足。我們證明了當策略更新不完美時,所提出的算法收斂到一個有界誤差的接近最優解。我們使用一組全面的實驗來證明我們的方法相對于最先進的CRL方法的優勢,包括廣泛的密度約束任務和標準的CRL基準測試,如Safety-Gym。
當演示專家的潛在獎勵功能在任何時候都不能被觀察到時,我們解決了在連續控制的背景下模仿學習算法的超參數(HPs)調優的問題。關于模仿學習的大量文獻大多認為這種獎勵功能適用于HP選擇,但這并不是一個現實的設置。事實上,如果有這種獎勵功能,就可以直接用于策略訓練,而不需要模仿。為了解決這個幾乎被忽略的問題,我們提出了一些外部獎勵的可能代理。我們對其進行了廣泛的實證研究(跨越9個環境的超過10000個代理商),并對選擇HP提出了實用的建議。我們的結果表明,雖然模仿學習算法對HP選擇很敏感,但通常可以通過獎勵功能的代理來選擇足夠好的HP。
現代人工智能(AI)系統通常需要在一個未知的、不確定的、可能敵對的環境中,通過積極地與環境交互來收集相關數據,從而做出連續的決策。強化學習(RL)是一個通用框架,可以捕獲交互式學習設置,并已被用于設計智能代理,以實現超人水平的表現,在具有挑戰性的任務,如圍棋,電腦游戲,機器人操作。
這門研究生水平的課程著重于強化學習的理論和算法基礎。本課程的四個主題為: (1)可證明有效的探索; (2)策略優化(特別是策略梯度); (3)控制; (4)模仿學習。
通過本課程,學生將能夠理解經典的和最新的可證明正確的RL算法及其分析。學生將能夠對與RL相關的課題進行研究。