元學習是近幾年來AI最熱的研究方向之一,它可以學習如何去學習,因此可以被應用于小樣本學習等場景。Uber AI(優步人工智能)的高級研究經理Jeff Clune在NeurIPS 2019上做了關于元學習的教程。
深度學習很好地解決了傳統AI中特征工程的問題,用深度網絡自動提取特征取代了大量繁瑣的人工特征設計,使得我們可以基于標注數據有監督地訓練出高性能的AI模型。然而,由于許多深度學習模型的訓練需要依賴在目標任務上的大量人工標注,這些模型并不能很好地適應小樣本、多任務等場景。
元學習(Meta-Learning)方法學習如何去學習(Learning to Learn)。例如,通過Learning to Learn,一些元學習模型可以基于少量的樣本和較少的學習步驟學習可用的模型,并且,這些元學習模型具有泛化性,可在不同的任務上進行元學習。
在NeurIPS 2019上,Uber AI(優步人工智能)的高級研究經理Jeff Clune做了關于元學習的92頁教程《How Meta-Learning Could Help Us Accomplish Our Grandest AI Ambitions, and Early, Exotic Steps in that Direction》,總結了目前元學習的一些發展情況。
教程內容大致如下:
持續的終身學習需要一個代理或模型學習許多按順序排列的任務,建立在以前的知識上而不是災難性地忘記它。許多工作都是為了防止機器學習模型的默認趨勢災難性地遺忘,但實際上所有這些工作都涉及到手工設計的問題解決方案。我們主張元學習是一種解決災難性遺忘的方法,允許人工智能不斷學習。受大腦神經調節過程的啟發,我們提出了一種神經調節元學習算法(ANML)。它通過一個連續的學習過程來區分元學習一個激活門控功能,使上下文相關的選擇激活在深度神經網絡中成為可能。具體地說,一個神經調節(NM)神經網絡控制另一個(正常的)神經網絡的前向通道,稱為預測學習網絡(PLN)。NM網絡也因此間接地控制PLN的選擇性可塑性(即PLN的后向通徑)。ANML支持持續學習而不會出現大規模的災難性遺忘:它提供了最先進的連續學習性能,連續學習多達600個類(超過9000個SGD更新)。
Deep Reinforcement Learning via Policy Optimization
編寫機器人程序仍然是出了名的困難。讓機器人具備學習的能力,就可以繞過那些通常需要耗費大量時間來完成特定任務的編程工作。這個演講將描述最近在深度強化學習(機器人通過自己的嘗試和錯誤學習)、學徒學習(機器人通過觀察人學習)和元學習(機器人學習學習)方面的進展。這項工作使機器人在操作、移動和飛行方面有了新的能力,這些領域的進步都是基于相同的方法。