機器學習系統通常是在這樣的假設下設計的,即它們將作為一個靜態模型部署在世界上一個單一的靜態區域。然而,世界是不斷變化的,因此未來看起來不再完全像過去,甚至在相對靜態的環境中,系統可能部署在其世界的新的、看不見的部分。盡管數據分布的這種連續變化會給機器學習中獲得的模型帶來重大挑戰,但模型也不必是靜態的:它可以而且應該自適應。在這次演講中,我將討論我們如何允許深度網絡通過適應來魯棒地應對這種分布轉移。首先介紹元學習的概念,然后簡要概述從機器人到藥物設計的幾個成功的元學習應用,最后討論元學習研究前沿的幾項最新工作。
視頻: //www.youtube.com/watch?v=7qOOmtXHilY&feature=youtu.be
元學習可以讓機器學習新的算法。這是一個新興且快速發展的機器學習研究領域,對所有人工智能研究都有影響。最近的成功案例包括自動模型發現、少槍學習、多任務學習、元強化學習,以及教機器閱讀、學習和推理。正如人類不會從頭開始學習新任務,而是利用之前所學的知識一樣,元學習是高效和穩健學習的關鍵。本教程將介紹該領域及其應用的重要數學基礎,包括這個領域中當前技術水平的關鍵方法,該領域對眾多AAAI參與者來說越來越重要。
//sites.google.com/mit.edu/aaai2021metalearningtutorial
內容目錄:
元強化學習算法可以利用以前的經驗來學習如何學習,從而使機器人更快地獲得新技能。然而,目前關于元強化學習的研究大多集中在非常狹窄的任務分布上。例如,一個常用的元強化學習基準將模擬機器人的不同跑步速度作為不同的任務。當策略在如此狹窄的任務分布上進行元訓練時,它們不可能推廣到更快地獲得全新的任務。因此,如果這些方法的目標是能夠更快地獲得全新的行為,我們就必須在任務分布上評估它們,任務分布必須足夠廣泛,以使新行為普遍化。
持續學習(CL)是一種特殊的機器學習范式,它的數據分布和學習目標會隨著時間的推移而改變,或者所有的訓練數據和客觀標準都不會立即可用。學習過程的演變是以一系列學習經驗為模型的,其中的目標是能夠在學習過程中一直學習新的技能,而不會忘記之前學過的知識。CL可以看作是一種在線學習,需要進行知識融合,以便從按順序及時呈現的數據流中學習。在學習過程中,不斷學習的目的還在于優化記憶、計算能力和速度。機器學習的一個重要挑戰不是必須找到在現實世界中有效的解決方案,而是找到可以在現實世界中學習的穩定算法。因此,理想的方法是在嵌入的平臺中處理現實世界:自治的代理。持續學習在自主代理或機器人中是有效的,它們將通過時間自主學習外部世界,并逐步發展一套復雜的技能和知識。機器人必須學會通過連續的觀察來適應環境并與之互動。一些最近的方法旨在解決機器人持續學習的問題,但最近關于持續學習的論文只是在模擬或靜態數據集的實驗方法。不幸的是,對這些算法的評估并不能說明它們的解決方案是否有助于在機器人技術的背景下持續學習。這篇論文的目的是回顧持續學習的現有狀態,總結現有的基準和度量標準,并提出一個框架來展示和評估機器人技術和非機器人技術的方法,使這兩個領域之間的轉換更加容易。我們在機器人技術的背景下強調持續學習,以建立各領域之間的聯系并規范方法。
//www.sciencedirect.com/science/article/pii/S07377#sec0001
概要:
機器學習(ML)方法通常從平穩數據分布中隨機采樣的數據流中學習。這通常是有效學習的必要條件。然而,在現實世界中,這種設置相當少見。持續學習(CL)[128]匯集了解決當數據分布隨時間變化時,以及在永無止境的數據流中需要考慮的知識融合的學習問題的工作和方法。因此,CL是處理災難性遺忘[47]的范式[102]。
為了方便起見,我們可以根據經驗將數據流分割成幾個子段,這些子段有時間邊界,我們稱之為任務。然后我們可以觀察在學習一項新任務時所學到或忘記了什么。即使對任務沒有強制約束,任務通常指的是一段特定的時間,其中數據分布可能(但不一定)是平穩的,并且目標函數是常量。就學習目標而言,任務可以是相互獨立的,也可以是相互關聯的,并且取決于設置。
持續學習的一個解決方案是保存所有數據,打亂它,然后回到傳統的機器學習設置。不幸的是,在這種情況下,這并不總是可能的,也不是最佳的。這里有幾個例子,其中持續學習是必要的:
你有一個訓練過的模型,你想用新的數據更新它,但是原來的訓練數據被丟棄了,或者你沒有權利再訪問它。
你想在一系列任務上訓練一個模型,但你不能存儲你的所有數據,或者你沒有計算能力從所有數據中重新訓練模型(例如,在嵌入式平臺中)。
您希望智能代理學習多種策略,但您不知道學習目標何時發生變化,如何變化。
您希望從持續的數據流中學習,這些數據可能會隨著時間而變化,但您不知道如何變化,何時變化。
為了處理這些設置,表示應該通過在線方式學習[87]。隨著數據被丟棄并且生命周期有限,忘記不重要的東西而保留對未來有意義的東西的能力是持續學習的主要目標和重點。
從機器人技術的角度來看,CL是發展機器人技術的機器學習答案[93]。發展機器人技術是一種交叉學科的方法,用于自主設計人工主體的行為和認知能力,直接從兒童自然認知系統中觀察到的發展原則和機制中獲得靈感。
在這種情況下,CL必須包含一個學習累積技能的過程,并能逐步提高所處理任務的復雜性和多樣性。
自主主體在這樣的環境中以開放式的[36]方式學習,但也以持續的方式學習。這種發展方法的關鍵組成部分包括學習自主產生目標和探索環境的能力,開發內在動機[113]和好奇心的計算模型[112]。
我們提出了一個框架來連接持續學習和機器人技術。這個框架也為持續學習提供了機會,以一個有框架的數學公式以清晰和系統的方式呈現方法。
首先,我們介紹了持續學習的背景和歷史。其次,我們的目標是在不斷學習的基礎上理清概念匯。第三,我們將介紹我們的框架作為一種標準的CL方法,以幫助在不同的持續學習領域之間進行轉換,特別是對于機器人技術。第四,我們提供了一組度量標準,它將有助于更好地理解每一類方法的質量和缺點。最后,我們提出了持續學習機器人技術的細節和機會,這使得CL變得如此重要。
對于機器人技術和非機器人技術領域,我們保持了定義、框架、策略和評估的一般性。盡管如此,最后一節,機器人持續學習(第6節)受益于前幾節的內容,以呈現機器人領域持續學習的特殊性。
小樣本學習是當前研究關注的熱點。這篇論文總結了2016年到2020年的小樣本元學習文章,劃分為四類:基于數據增強; 基于度量學習,基于元優化; 和基于語義的。值得查看!
摘要:
在圖像識別和圖像分類等方面,深度神經網絡的表現已經超過了人類。然而,隨著各種新類別的出現,如何從有限的樣本中不斷擴大此類網絡的學習能力,仍然是一個挑戰。像元學習和/或小樣本學習這樣的技術表現出了良好的效果,他們可以根據先驗知識學習或歸納到一個新的類別/任務。在本文中,我們研究了計算機視覺領域中現有的小樣本元學習技術的方法和評價指標。我們為這些技術提供了一個分類法,并將它們分類為數據增強、嵌入、優化和基于語義的學習,用于小樣本、單樣本和零樣本設置。然后我們描述在每個類別中所做的重要工作,并討論他們解決從少數樣本中學習的困境的方法。最后,我們在常用的基準測試數據集Omniglot和MiniImagenet上比較了這些技術,并討論了提高這些技術性能的未來方向,從而達到超越人類的最終目標。
地址: //www.zhuanzhi.ai/paper/8d29a5f14fcd0cc9a1aa508d072fb328
概述:
基于人工智能(AI)的系統正在成為人類生活的重要組成部分,無論是個人生活還是專業生活。我們周圍都是基于人工智能的機器和應用程序,它們將使我們的生活變得更容易。例如,自動郵件過濾(垃圾郵件檢測),購物網站推薦,智能手機中的社交網絡等[1,2,3,4]。這一令人印象深刻的進展之所以成為可能,是因為機器或深度學習模型[5]取得了突破性的成功。機器或深度學習占據了AI領域的很大一部分。深度學習模型是建立在多層感知器與應用基于梯度的優化技術的能力。深度學習模型最常見的兩個應用是:計算機視覺(CV),其目標是教會機器如何像人類一樣看和感知事物;自然語言處理(NLP)和自然語言理解(NLU),它們的目標是分析和理解大量的自然語言數據。這些深度學習模型在圖像識別[6,7,8]、語音識別[9,10,11,12,13]、自然語言處理與理解[14,15,16,17,18]、視頻分析[19,20,21,22,23]、網絡安全[24,25,26,27,28,29,30]等領域都取得了巨大的成功。機器和/或深度學習最常見的方法是監督學習,其中針對特定應用程序的大量數據樣本與它們各自的標簽一起被收集并形成一個數據集。該數據集分為三個部分: 訓練、驗證和測試。在訓練階段,將訓練集和驗證集的數據及其各自的標簽輸入模型,通過反向傳播和優化,將模型歸納為一個假設。在測試階段,將測試數據輸入模型,根據導出的假設,模型預測測試數據樣本的輸出類別。
由于計算機和現代系統的強大能力[31,32],處理大量數據的能力已經非常出色。隨著各種算法和模型的進步,深度學習已經能夠趕上人類,在某些情況下甚至超過人類。AlphaGo[33]是一個基于人工智能的agent,在沒有任何人類指導的情況下訓練,能夠擊敗世界圍棋冠軍。圍棋是一種古老的棋盤游戲,被認為比國際象棋[34]復雜10倍;在另一個復雜的多人戰略游戲《DOTA》中,AI-agent打敗了《DOTA[35]》的人類玩家;對于圖像識別和分類的任務,ResNet[6]和Inception[36,37,38]等模型能夠在流行的ImageNet數據集上取得比人類更好的性能。ImageNet數據集包括超過1400萬張圖像,超過1000個類別[39]。
人工智能的最終目標之一是在任何給定的任務中趕上或超過人類。為了實現這一目標,必須盡量減少對大型平衡標記數據集的依賴。當前的模型在處理帶有大量標記數據的任務時取得了成功的結果,但是對于其他帶有標記數據很少的任務(只有少數樣本),各自模型的性能顯著下降。對于任何特定任務,期望大型平衡數據集是不現實的,因為由于各種類別的性質,幾乎不可能跟上產生的標簽數據。此外,生成標記數據集需要時間、人力等資源,而且在經濟上可能非常昂貴。另一方面,人類可以快速地學習新的類或類,比如給一張奇怪動物的照片,它可以很容易地從一張由各種動物組成的照片中識別出動物。人類相對于機器的另一個優勢是能夠動態地學習新的概念或類,而機器必須經過昂貴的離線培訓和再培訓整個模型來學習新類,前提是要有標簽數據可用性。研究人員和開發人員的動機是彌合人類和機器之間的鴻溝。作為這個問題的一個潛在解決方案,我們已經看到元學習[40,41,42,43,44,45,46,47,48,49,50]、小樣本學習[51,52,53,54]、低資源學習[55,56,57,58]、零樣本學習[59,60,61,62,63,63,64,64,65]等領域的工作在不斷增加,這些領域的目標是使模型更好地推廣到包含少量標記樣本的新任務。
什么是小樣本元學習?
在few-shot, low-shot, n-shot learning (n一般在1 - 5之間)中,其基本思想是用大量的數據樣本對模型進行多類的訓練,在測試過程中,模型會給定一個新的類別(也稱為新集合),每個類別都有多個數據樣本,一般類別數限制為5個。在元學習中,目標是泛化或學習學習過程,其中模型針對特定任務進行訓練,不同分類器的函數用于新任務集。目標是找到最佳的超參數和模型權值,使模型能夠輕松適應新任務而不過度擬合新任務。在元學習中,有兩類優化同時運行: 一類是學習新的任務; 另一個是訓練學習器。近年來,小樣本學習和元學習技術引起了人們極大的興趣。
元學習領域的早期研究工作是Yoshua和Samy Bengio[67]以及Fei-Fei Li在less -shot learning[68]中完成的。度量學習是使用的較老的技術之一,其目標是從嵌入空間中學習。將圖像轉換為嵌入向量,特定類別的圖像聚在一起,而不同類別的圖像聚在一起比較遠。另一種流行的方法是數據增強,從而在有限的可用樣本中產生更多的樣本。目前,基于語義的方法被廣泛地研究,分類僅僅基于類別的名稱及其屬性。這種基于語義的方法是為了解決零樣本學習應用的啟發。
遷移學習與自監督學習
遷移學習的總體目標是從一組任務中學習知識或經驗,并將其遷移到類似領域的任務中去[95]。用于訓練模型獲取知識的任務有大量的標記樣本,而遷移任務的標記數據相對較少(也稱為微調),這不足以使模型訓練和收斂到特定的任務。遷移學習技術的表現依賴于兩項任務之間的相關性。在執行遷移學習時,分類層被訓練用于新的任務,而模型中先前層的權值保持不變[96]。對于每一個新的任務,在我們進行遷移學習的地方,學習速率的選擇和要凍結的層數都必須手工決定。與此相反,元學習技術可以相當迅速地自動適應新的任務。
自監督學習的研究近年來得到了廣泛的關注[97,98,99]。自監督學習(SSL)技術的訓練基于兩個步驟:一是在一個預定義代理任務上進行訓練,在大量的未標記數據樣本上進行訓練;第二,學習到的模型參數用于訓練或微調主要下游任務的模型。元學習或小樣本學習技術背后的理念與自監督學習非常相似,自監督學習是利用先前的知識,識別或微調一個新的任務。研究表明,自監督學習可以與小樣本學習一起使用,以提高模型對新類別的表現[100,101]。
方法體系組織:
元學習、小樣本學習、低資源學習、單樣本學習、零樣本學習等技術的主要目標是通過基于先驗知識或經驗的迭代訓練,使深度學習模型從少量樣本中學習能泛化到新類別。先驗知識是在包含大量樣本的帶標簽數據集上訓練樣本,然后利用這些知識在有限樣本下識別新的任務而獲得的知識。因此,在本文中,我們將所有這些技術結合在了小樣本體系下。由于這些技術沒有預定義的分類,我們將這些方法分為四大類: 基于數據增強; 基于度量學習,基于元優化; 和基于語義的(如圖1所示)。基于數據增強的技術非常流行,其思想是通過擴充最小可用樣本和生成更多樣化的樣本來訓練模型來擴展先驗知識。在基于嵌入的技術中,數據樣本被轉換為另一個低級維,然后根據這些嵌入之間的距離進行分類。在基于優化的技術中,元優化器用于在初始訓練期間更好地泛化模型,從而可以更好地預測新任務。基于語義的技術是將數據的語義與模型的先驗知識一起用于學習或優化新的類別。
論文題目: Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
摘要: 元強化學習算法可以利用以前的經驗來學習如何學習,從而使機器人更快地獲得新技能。然而,目前關于元強化學習的研究大多集中在任務分布非常狹窄的情況下。例如,一個常用的元強化學習基準對一個模擬機器人使用不同的運行速度作為不同的任務。當策略在如此狹窄的任務分布上進行元訓練時,它們不可能泛化到更快速地獲取全新的任務。因此,如果這些方法的目的是更快地獲取全新的行為,那么我們必須在任務分布上對它們進行評估,這些任務分布足夠廣泛,從而能夠對新行為進行泛化。在本文中,我們提出了一種元強化學習和多任務學習的開源模擬基準,由50個不同的機器人操作任務組成。我們的目標是使開發算法成為可能,從而加速獲取全新的、未完成的任務。我們評估了6種最先進的元強化學習和多任務學習算法。令人驚訝的是,雖然每個任務及其變體(例如,具有不同的對象位置)都可以成功地學習,但這些算法很難同時學習多個任務,即使只有10個不同的訓練任務。我們的分析和開源環境為未來多任務學習和元學習的研究鋪平了道路,這些研究可以使有意義的概括成為可能,從而釋放這些方法的全部潛力。
論文作者: Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, Sergey Levine
Sergey Levine于2009年獲得斯坦福大學計算機科學學士學位和碩士學位,并獲得博士學位。 2014年獲得斯坦福大學計算機科學博士學位。他于2016年秋天加入加州大學伯克利分校電氣工程與計算機科學系。他的工作重點是決策和控制的機器學習,重點是深度學習和強化學習。他的工作應用包括自動駕駛機器人和車輛,以及計算機視覺和圖形。 他的研究包括開發將感知和控制相結合的深度神經網絡策略的端到端訓練算法,用于逆向強化學習的可擴展算法,深度強化學習算法等。 在許多受歡迎的媒體中,包括紐約時報,BBC,麻省理工學院技術評論和彭博社,他的作品都得到了報道。
簡介: 強大的機器學習技術在數據豐富的領域成為可能。然而,數據稀缺的領域對這類方法具有挑戰性,因為高容量函數逼近器非常依賴大型數據集進行泛化。這可能對從監督醫學圖像處理到增強學習等領域構成重大挑戰,在這些領域中,真實世界的數據收集(例如機器人)構成了重大的后勤挑戰。元學習或小樣本學習為這一問題提供了一個潛在的解決方案:通過學習跨許多以前任務的數據學習,小樣本元學習算法可以發現任務之間的結構,從而使新任務的快速學習成為可能。
本教程的目的是提供一個統一的元學習視角:向讀者講授現代方法,描述圍繞這些技術的概念和理論原則,介紹這些方法以前在哪里被應用,并討論該領域內的基本開放問題和挑戰。我們希望本教程對其他領域的機器學習研究人員有用,同時也為元學習研究人員提供了一個新的視角。總而言之,我們的目標是讓觀眾能夠將元學習應用到他們自己的應用中,并開發新的元學習算法和理論分析,以應對當前的挑戰和現有工作的局限性。
視頻地址:
Part1 //www.facebook.com/icml.imls/videos/4006/
Part2
主講人介紹:
Chelsea Finn是Google Brain的研究科學家,也是加州大學伯克利分校的博士后。在2019年9月,她將加入斯坦福大學的計算機科學系擔任助理教授。 Finn的研究興趣在于使機器人和其他代理能夠通過學習和交互來發展廣泛的智能行為的能力。為此,芬恩開發了深度學習算法,用于同時學習機器人操縱技能中的視覺感知和控制,用于非線性獎勵函數的可伸縮獲取的逆強化方法以及可以在兩個視覺系統中實現快速,少拍適應的元學習算法感知和深度強化學習。 Finn在麻省理工學院獲得EECS的學士學位,并在加州大學伯克利分校獲得CS的博士學位。她的研究得到了NSF研究生獎學金,Facebook獎學金C.V.的認可。她獲得了Ramamoorthy杰出研究獎和《麻省理工學院技術評論35分35獎》,她的工作已被《紐約時報》,《連線》和彭博社等多家媒體報道。
Sergey Levine于2009年獲得斯坦福大學計算機科學學士學位和碩士學位,并獲得博士學位。 2014年獲得斯坦福大學計算機科學博士學位。他于2016年秋天加入加州大學伯克利分校電氣工程與計算機科學系。他的工作重點是決策和控制的機器學習,重點是深度學習和強化學習。他的工作應用包括自動駕駛機器人和車輛,以及計算機視覺和圖形。 他的研究包括開發將感知和控制相結合的深度神經網絡策略的端到端訓練算法,用于逆向強化學習的可擴展算法,深度強化學習算法等。 在許多受歡迎的媒體中,包括紐約時報,BBC,麻省理工學院技術評論和彭博社,他的作品都得到了報道。
編寫機器人程序仍然是出了名的困難。讓機器人具備學習的能力,就可以繞過那些通常需要耗費大量時間來完成特定任務的編程工作。這個演講將描述最近在深度強化學習(機器人通過自己的嘗試和錯誤學習)、學徒學習(機器人通過觀察人學習)和元學習(機器人學習學習)方面的進展。這項工作使機器人在操作、移動和飛行方面有了新的能力,這些領域的進步都是基于相同的方法。
主題: Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning
摘要: 近年來,在數據豐富的領域,諸如深度神經網絡等高容量模型已經使機器學習技術變得非常強大。然而,數據稀缺的領域已被證明具有挑戰性的這種方法,因為高容量函數逼近嚴重依賴于大數據集的泛化。這可能對從有監督的醫學圖像處理到強化學習等領域構成重大挑戰,在這些領域,真實世界的數據收集(如機器人)構成重大的后勤挑戰。元學習或少鏡頭學習為這個問題提供了一個潛在的解決方案:通過學習從許多以前的任務中跨數據學習,很少鏡頭元學習算法能夠發現任務之間的結構,從而實現新任務的快速學習。本教程的目的是為元學習提供一個統一的視角:向觀眾講授現代方法,描述圍繞這些技術的概念和理論原則,介紹這些方法以前的應用領域,并討論了該地區存在的基本問題和挑戰。我們希望本教程對那些在其他領域有專長的機器學習研究人員都有用,同時也為元學習研究人員提供了一個新的視角。總而言之,我們的目標是為受眾成員提供將元學習應用到他們自己的應用中的能力,并開發新的元學習算法和理論分析,這些驅動是由現有工作的挑戰和局限所驅動的。我們將提供一個統一的視角,說明各種元學習算法如何能夠從小數據集中學習,概述元學習能夠而且不容易應用的應用,并討論這一子領域的突出挑戰和前沿。
邀請嘉賓: Chelsea Finn是Google Brain的研究科學家,也是加州大學伯克利分校的博士后學者。2019年9月,她將以助理教授的身份加入斯坦福大學計算機科學系。芬恩的研究興趣在于通過學習和互動,使機器人和其他智能體發展出廣泛的智能行為。為此,芬恩開發了深度學習算法,用于同時學習機器人操作技能中的視覺感知和控制,用于可伸縮獲取非線性回報函數的逆強化方法,以及能夠快速實現的元學習算法,在視覺感知和深度強化學習中,很少有鏡頭適應。芬恩在麻省理工學院獲得了EECS學士學位,在加州大學伯克利分校獲得了CS博士學位。她的研究成果已通過NSF研究生獎學金、Facebook獎學金、C.V.Ramamoorthy杰出研究獎和麻省理工35歲以下技術評論獎獲得認可,她的研究成果已被包括《紐約時報》、《連線》和彭博社在內的多家媒體報道。
Sergey Levine 2009年獲得斯坦福大學計算機科學學士和碩士學位,2014年獲得斯坦福大學計算機科學博士學位。他于2016年秋季加入加州大學伯克利分校電氣工程與計算機科學系。他的工作重點是決策和控制的機器學習,重點是深度學習和強化學習算法。他的工作包括自主機器人和車輛,以及計算機視覺和圖形。他的研究工作包括開發將感知和控制相結合的深度神經網絡策略的端到端訓練算法、反向強化學習的可擴展算法、深度強化學習算法等。