機器人在社會上有很多應用,比如今年雙十一我們明顯感到快遞變得更快了!這背后就有分揀機器人的功勞~ 除此之外,機器人在搜救,太空探索,手術等很多方面都有應用。而為了讓機器人能夠更好地服務于人類,讓機器模仿人的行為,并變得更加智能必不可少。
來自斯坦福與Google Research的Chelsea Finn為我們介紹了面向機器人的機器學習。
《Machine Learning for Robots》教程的內容
基本知識與模仿學習:物體分類是一個監督學習的任務,處理的是獨立同分布的數據,因此能夠取得較好的結果。但是物體生產是一個序列決策任務,決策會影響到下一步的狀態。模仿學習又稱“行為克隆”,它很簡單,但是需要人類的監督信息,并且天花板就是人類。并且,由于它的錯誤是累積的,可能每一步差之毫厘,最終結果就會失之千里。
基于模型的強化學習:基于模型的強化學習有幾種實現方式。1. 隨機采樣,動態訓練,優點是簡單,但是缺點也很明顯,會遇到分布不匹配的問題。2. 迭代地采樣,逐步優化模型。優點是解決了分布不匹配的問題。3. 使用MPC迭代的采樣,優點是對小的模型的錯誤魯棒,缺點是計算復雜。
輸入為圖片的基于模型的強化學習:如果反饋信號為高維數據(如圖片)時,基于模型的強化學習主要有兩種方案:在隱空間學習,即學習反饋信號的表示,然后在隱空間做基于模型的強化學習(基于概率的方法、結構化方法(空間或者以物體為中心的結構化表示));直接在觀察空間學習:使用深度學習,預測可能得到的反饋信號(視頻),再與實際的反饋信號相比,最小化。
機器人學習的一些挑戰:理解和轉化一些復雜的命令;新環境的適應性;收集大量數據并從中學習。
PPT下載鏈接://pan.baidu.com/s/1-zqrWBUrXCVMrj0d3EPTkQ 提取碼:4jta
借助現代的高容量模型,大數據已經推動了機器學習的許多領域的革命,但標準方法——從標簽中進行監督學習,或從獎勵功能中進行強化學習——已經成為瓶頸。即使數據非常豐富,獲得明確指定模型必須做什么的標簽或獎勵也常常是棘手的。收集簡單的類別標簽進行分類對于數百萬計的示例來說是不可能的,結構化輸出(場景解釋、交互、演示)要糟糕得多,尤其是當數據分布是非平穩的時候。
自監督學習是一個很有前途的替代方法,其中開發的代理任務允許模型和代理在沒有明確監督的情況下學習,這有助于對感興趣的任務的下游性能。自監督學習的主要好處之一是提高數據效率:用較少的標記數據或較少的環境步驟(在強化學習/機器人技術中)實現可比較或更好的性能。
自監督學習(self-supervised learning, SSL)領域正在迅速發展,這些方法的性能逐漸接近完全監督方法。
主題: Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning
摘要: 近年來,在數據豐富的領域,諸如深度神經網絡等高容量模型已經使機器學習技術變得非常強大。然而,數據稀缺的領域已被證明具有挑戰性的這種方法,因為高容量函數逼近嚴重依賴于大數據集的泛化。這可能對從有監督的醫學圖像處理到強化學習等領域構成重大挑戰,在這些領域,真實世界的數據收集(如機器人)構成重大的后勤挑戰。元學習或少鏡頭學習為這個問題提供了一個潛在的解決方案:通過學習從許多以前的任務中跨數據學習,很少鏡頭元學習算法能夠發現任務之間的結構,從而實現新任務的快速學習。本教程的目的是為元學習提供一個統一的視角:向觀眾講授現代方法,描述圍繞這些技術的概念和理論原則,介紹這些方法以前的應用領域,并討論了該地區存在的基本問題和挑戰。我們希望本教程對那些在其他領域有專長的機器學習研究人員都有用,同時也為元學習研究人員提供了一個新的視角。總而言之,我們的目標是為受眾成員提供將元學習應用到他們自己的應用中的能力,并開發新的元學習算法和理論分析,這些驅動是由現有工作的挑戰和局限所驅動的。我們將提供一個統一的視角,說明各種元學習算法如何能夠從小數據集中學習,概述元學習能夠而且不容易應用的應用,并討論這一子領域的突出挑戰和前沿。
邀請嘉賓: Chelsea Finn是Google Brain的研究科學家,也是加州大學伯克利分校的博士后學者。2019年9月,她將以助理教授的身份加入斯坦福大學計算機科學系。芬恩的研究興趣在于通過學習和互動,使機器人和其他智能體發展出廣泛的智能行為。為此,芬恩開發了深度學習算法,用于同時學習機器人操作技能中的視覺感知和控制,用于可伸縮獲取非線性回報函數的逆強化方法,以及能夠快速實現的元學習算法,在視覺感知和深度強化學習中,很少有鏡頭適應。芬恩在麻省理工學院獲得了EECS學士學位,在加州大學伯克利分校獲得了CS博士學位。她的研究成果已通過NSF研究生獎學金、Facebook獎學金、C.V.Ramamoorthy杰出研究獎和麻省理工35歲以下技術評論獎獲得認可,她的研究成果已被包括《紐約時報》、《連線》和彭博社在內的多家媒體報道。
Sergey Levine 2009年獲得斯坦福大學計算機科學學士和碩士學位,2014年獲得斯坦福大學計算機科學博士學位。他于2016年秋季加入加州大學伯克利分校電氣工程與計算機科學系。他的工作重點是決策和控制的機器學習,重點是深度學習和強化學習算法。他的工作包括自主機器人和車輛,以及計算機視覺和圖形。他的研究工作包括開發將感知和控制相結合的深度神經網絡策略的端到端訓練算法、反向強化學習的可擴展算法、深度強化學習算法等。