論文題目: Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
摘要: 元強化學習算法可以利用以前的經驗來學習如何學習,從而使機器人更快地獲得新技能。然而,目前關于元強化學習的研究大多集中在任務分布非常狹窄的情況下。例如,一個常用的元強化學習基準對一個模擬機器人使用不同的運行速度作為不同的任務。當策略在如此狹窄的任務分布上進行元訓練時,它們不可能泛化到更快速地獲取全新的任務。因此,如果這些方法的目的是更快地獲取全新的行為,那么我們必須在任務分布上對它們進行評估,這些任務分布足夠廣泛,從而能夠對新行為進行泛化。在本文中,我們提出了一種元強化學習和多任務學習的開源模擬基準,由50個不同的機器人操作任務組成。我們的目標是使開發算法成為可能,從而加速獲取全新的、未完成的任務。我們評估了6種最先進的元強化學習和多任務學習算法。令人驚訝的是,雖然每個任務及其變體(例如,具有不同的對象位置)都可以成功地學習,但這些算法很難同時學習多個任務,即使只有10個不同的訓練任務。我們的分析和開源環境為未來多任務學習和元學習的研究鋪平了道路,這些研究可以使有意義的概括成為可能,從而釋放這些方法的全部潛力。
論文作者: Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, Sergey Levine
Sergey Levine于2009年獲得斯坦福大學計算機科學學士學位和碩士學位,并獲得博士學位。 2014年獲得斯坦福大學計算機科學博士學位。他于2016年秋天加入加州大學伯克利分校電氣工程與計算機科學系。他的工作重點是決策和控制的機器學習,重點是深度學習和強化學習。他的工作應用包括自動駕駛機器人和車輛,以及計算機視覺和圖形。 他的研究包括開發將感知和控制相結合的深度神經網絡策略的端到端訓練算法,用于逆向強化學習的可擴展算法,深度強化學習算法等。 在許多受歡迎的媒體中,包括紐約時報,BBC,麻省理工學院技術評論和彭博社,他的作品都得到了報道。
機器學習模型在自然語言處理中的應用最近的進展是由評估各種任務模型的基準驅動的。然而,這些覆蓋范圍廣泛的基準測試主要局限于英語,盡管人們對多語言模型的興趣越來越大,但是仍然缺少一個基準測試來全面評估這些方法對各種語言和任務的影響。為此,我們引入了多語言編碼器XTREME基準的跨語言轉換評估,這是一個多任務基準,用于評估40種語言和9個任務的多語言表示的跨語言泛化能力。我們證明,雖然英語測試的模型在許多任務上達到了人類的表現,但在跨語言遷移模型的表現上仍然有相當大的差距,特別是在句法和句子檢索任務上。在不同的語言之間也有廣泛的結果。我們發布基準測試是為了鼓勵對跨語言學習方法的研究,這種方法可以將語言知識傳遞到不同的、有代表性的語言和任務中。
題目: Supplementary Materials for Niseko: a Large-ScaleMeta-Learning Dataset
摘要: 已有幾項研究綜述了元學習技術。通過對一些學習算法的優先任務和評估(如精度或時間),人們已經進行了大量的研究,以期在給定一個新任務的情況下找到一些有前途的學習算法配置。通過建立在先前任務基礎上的模擬模型,我們可以測量任務相似性,從而應用貝葉斯優化為新數據集找到下一個有前途的模型。
作者簡介: Zeyuan Shang,麻省理工學院計算機科學與人工智能實驗室(CSAIL)的電氣工程與計算機科學博士。他也是麻省理工學院數據庫組的成員,麻省理工學院數據系統和人工智能實驗室的成員。//www.shangzeyuan.com/。
Tim Kraska,麻省理工學院計算機科學與人工智能實驗室(CSAIL)的電子工程與計算機科學副教授,也是麻省理工學院數據系統與人工智能實驗室(DSAIL)的創始聯席主任。
簡介: 強大的機器學習技術在數據豐富的領域成為可能。然而,數據稀缺的領域對這類方法具有挑戰性,因為高容量函數逼近器非常依賴大型數據集進行泛化。這可能對從監督醫學圖像處理到增強學習等領域構成重大挑戰,在這些領域中,真實世界的數據收集(例如機器人)構成了重大的后勤挑戰。元學習或小樣本學習為這一問題提供了一個潛在的解決方案:通過學習跨許多以前任務的數據學習,小樣本元學習算法可以發現任務之間的結構,從而使新任務的快速學習成為可能。
本教程的目的是提供一個統一的元學習視角:向讀者講授現代方法,描述圍繞這些技術的概念和理論原則,介紹這些方法以前在哪里被應用,并討論該領域內的基本開放問題和挑戰。我們希望本教程對其他領域的機器學習研究人員有用,同時也為元學習研究人員提供了一個新的視角。總而言之,我們的目標是讓觀眾能夠將元學習應用到他們自己的應用中,并開發新的元學習算法和理論分析,以應對當前的挑戰和現有工作的局限性。
視頻地址:
Part1 //www.facebook.com/icml.imls/videos/4006/
Part2
主講人介紹:
Chelsea Finn是Google Brain的研究科學家,也是加州大學伯克利分校的博士后。在2019年9月,她將加入斯坦福大學的計算機科學系擔任助理教授。 Finn的研究興趣在于使機器人和其他代理能夠通過學習和交互來發展廣泛的智能行為的能力。為此,芬恩開發了深度學習算法,用于同時學習機器人操縱技能中的視覺感知和控制,用于非線性獎勵函數的可伸縮獲取的逆強化方法以及可以在兩個視覺系統中實現快速,少拍適應的元學習算法感知和深度強化學習。 Finn在麻省理工學院獲得EECS的學士學位,并在加州大學伯克利分校獲得CS的博士學位。她的研究得到了NSF研究生獎學金,Facebook獎學金C.V.的認可。她獲得了Ramamoorthy杰出研究獎和《麻省理工學院技術評論35分35獎》,她的工作已被《紐約時報》,《連線》和彭博社等多家媒體報道。
Sergey Levine于2009年獲得斯坦福大學計算機科學學士學位和碩士學位,并獲得博士學位。 2014年獲得斯坦福大學計算機科學博士學位。他于2016年秋天加入加州大學伯克利分校電氣工程與計算機科學系。他的工作重點是決策和控制的機器學習,重點是深度學習和強化學習。他的工作應用包括自動駕駛機器人和車輛,以及計算機視覺和圖形。 他的研究包括開發將感知和控制相結合的深度神經網絡策略的端到端訓練算法,用于逆向強化學習的可擴展算法,深度強化學習算法等。 在許多受歡迎的媒體中,包括紐約時報,BBC,麻省理工學院技術評論和彭博社,他的作品都得到了報道。
主題: Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning
摘要: 近年來,在數據豐富的領域,諸如深度神經網絡等高容量模型已經使機器學習技術變得非常強大。然而,數據稀缺的領域已被證明具有挑戰性的這種方法,因為高容量函數逼近嚴重依賴于大數據集的泛化。這可能對從有監督的醫學圖像處理到強化學習等領域構成重大挑戰,在這些領域,真實世界的數據收集(如機器人)構成重大的后勤挑戰。元學習或少鏡頭學習為這個問題提供了一個潛在的解決方案:通過學習從許多以前的任務中跨數據學習,很少鏡頭元學習算法能夠發現任務之間的結構,從而實現新任務的快速學習。本教程的目的是為元學習提供一個統一的視角:向觀眾講授現代方法,描述圍繞這些技術的概念和理論原則,介紹這些方法以前的應用領域,并討論了該地區存在的基本問題和挑戰。我們希望本教程對那些在其他領域有專長的機器學習研究人員都有用,同時也為元學習研究人員提供了一個新的視角。總而言之,我們的目標是為受眾成員提供將元學習應用到他們自己的應用中的能力,并開發新的元學習算法和理論分析,這些驅動是由現有工作的挑戰和局限所驅動的。我們將提供一個統一的視角,說明各種元學習算法如何能夠從小數據集中學習,概述元學習能夠而且不容易應用的應用,并討論這一子領域的突出挑戰和前沿。
邀請嘉賓: Chelsea Finn是Google Brain的研究科學家,也是加州大學伯克利分校的博士后學者。2019年9月,她將以助理教授的身份加入斯坦福大學計算機科學系。芬恩的研究興趣在于通過學習和互動,使機器人和其他智能體發展出廣泛的智能行為。為此,芬恩開發了深度學習算法,用于同時學習機器人操作技能中的視覺感知和控制,用于可伸縮獲取非線性回報函數的逆強化方法,以及能夠快速實現的元學習算法,在視覺感知和深度強化學習中,很少有鏡頭適應。芬恩在麻省理工學院獲得了EECS學士學位,在加州大學伯克利分校獲得了CS博士學位。她的研究成果已通過NSF研究生獎學金、Facebook獎學金、C.V.Ramamoorthy杰出研究獎和麻省理工35歲以下技術評論獎獲得認可,她的研究成果已被包括《紐約時報》、《連線》和彭博社在內的多家媒體報道。
Sergey Levine 2009年獲得斯坦福大學計算機科學學士和碩士學位,2014年獲得斯坦福大學計算機科學博士學位。他于2016年秋季加入加州大學伯克利分校電氣工程與計算機科學系。他的工作重點是決策和控制的機器學習,重點是深度學習和強化學習算法。他的工作包括自主機器人和車輛,以及計算機視覺和圖形。他的研究工作包括開發將感知和控制相結合的深度神經網絡策略的端到端訓練算法、反向強化學習的可擴展算法、深度強化學習算法等。