我們假設好奇心是進化過程中發現的一種機制,它鼓勵個體在生命早期進行有意義的探索,從而使個體接觸到能夠在其一生中獲得高回報的經歷。我們將產生好奇行為的問題表述為元學習的問題之一:一個外環將在一個好奇心機制的空間中搜索,該機制動態地適應代理的獎勵信號,而一個內環將使用適應的獎勵信號執行標準的強化學習。然而,目前基于神經網絡權值傳遞的meta-RL方法只在非常相似的任務之間進行了推廣。為了擴展泛化,我們提出使用元學習算法:類似于ML論文中人類設計的代碼片段。我們豐富的程序語言將神經網絡與其他構建模塊(如緩沖區、最近鄰模塊和自定義丟失函數)結合在一起。我們通過實驗證明了該方法的有效性,發現了兩種新的好奇心算法,它們在圖像輸入網格導航、acrobot、lunar lander、ant和hopper等不同領域的性能與人類設計的公開發布的好奇心算法相當,甚至更好。
主題: On-the-Fly Adaptation of Source Code Models using Meta-Learning
摘要:
適應看不見的本地環境的能力是成功的源代碼模型必須克服的重要挑戰。動態模型評估是適應此類模型的最流行方法之一。通過動態評估,當在看不見的文件上運行模型時,在觀察到文件中的每個標記后立即更新模型。在本工作中,我們建議將上下文適應問題構造為元學習問題。我們的目標是訓練最能從文件中的信息中學習的基本源代碼模型,以提供丟失令牌的改進預測。與動態評估不同,此公式允許我們選擇更多針對性的信息(支持令牌)進行調整,即在文件中的目標孔之前和之后。我們考慮一種稱為調用級維護的評估設置,該設置旨在反映IDE中代碼自動完成的下游任務。利用一階MAML和Reptile等元學習的最新發展,我們證明了與大規模的Java GitHub語料庫相比,包括動態評估在內的其他適應性基準,改進了性能實驗。此外,我們的分析表明,與非自適應基準相比,我們的方法將標識符和文字的性能分別提高了44%和15%。
元學習利用相關的源任務來學習初始化,可以通過有限的標記示例將初始化快速調整到目標任務。然而,許多流行的元學習算法,如模型無關元學習(MAML),都只假設可以訪問目標樣本進行微調。在這項工作中,我們提供了一個通用的元學習框架,該框架基于對不同源任務的損失進行加權,其中的權重允許依賴于目標樣本。在這個一般的設置中,我們提供了基于積分概率度量(IPM)和Rademacher復雜性的源任務加權經驗風險和預期目標風險之間距離的上限,該上限適用于包括MAML和加權MAML變體在內的許多元學習設置。然后開發一個基于最小化誤差學習算法對實證IPM,包括α-MAML加權MAML算法。最后,我們實證地證明了我們的加權元學習算法能夠比單加權元學習算法(如MAML)找到更好的初始化。
神經網絡已經成功地完成了許多推理任務。從經驗上看,這些任務需要專門的網絡結構,例如,圖神經網絡(GNNs)在許多這樣的任務中表現良好,而較少結構的網絡會失敗。從理論上講,盡管網絡結構具有相同的表達能力,但人們對網絡結構為什么以及何時比其他網絡結構更能泛化的理解是有限的。本文通過研究網絡的計算結構與相關推理過程的算法結構之間的一致性,建立了一個描述網絡能很好學習哪些推理任務的框架。我們正式定義了這種算法對齊,并推導出一個隨更好的對齊而減小的樣本復雜度界。該框架為流行推理模型的經驗成功提供了一個解釋,并指出了它們的局限性。例如,我們通過一個強大的算法范例——動態規劃(DP),將看似不同的推理任務,如直覺物理、可視化問題回答和最短路徑統一起來。我們證明了gnn與DP是一致的,因此可以解決這些問題。在一些推理任務中,我們的理論得到了實證結果的支持。
題目
Ranking architectures using meta-learning
簡介
神經架構搜索(Neural architecture search)最近吸引了大量的研究工作,因為它有望實現神經網絡手動設計的自動化。然而,它需要大量的計算資源,為了緩解這一問題,最近提出了一種性能預測網絡,它可以通過預測候選體系結構的性能來實現高效的體系結構搜索,而不依賴于實際的模型訓練。性能預測器是任務感知的,不僅作為候選體系結構的輸入,而且作為任務元特性的輸入,它被設計為從多個任務中共同學習。在這項工作中,我們引入了一個成對排序損失,用于訓練一個網絡,該網絡能夠根據其任務元特征,為一個新的不可見任務條件排列候選架構。我們給出了實驗結果,表明該排序網絡比先前提出的性能預測器在架構搜索方面更有效。
作者
Alina Dubatovka,Efi Kokiopoulou,Luciano Sbaiz,Andrea Gesmundo,Gábor Bartók,Jesse Berent來自于Google AI團隊
簡介: 強大的機器學習技術在數據豐富的領域成為可能。然而,數據稀缺的領域對這類方法具有挑戰性,因為高容量函數逼近器非常依賴大型數據集進行泛化。這可能對從監督醫學圖像處理到增強學習等領域構成重大挑戰,在這些領域中,真實世界的數據收集(例如機器人)構成了重大的后勤挑戰。元學習或小樣本學習為這一問題提供了一個潛在的解決方案:通過學習跨許多以前任務的數據學習,小樣本元學習算法可以發現任務之間的結構,從而使新任務的快速學習成為可能。
本教程的目的是提供一個統一的元學習視角:向讀者講授現代方法,描述圍繞這些技術的概念和理論原則,介紹這些方法以前在哪里被應用,并討論該領域內的基本開放問題和挑戰。我們希望本教程對其他領域的機器學習研究人員有用,同時也為元學習研究人員提供了一個新的視角。總而言之,我們的目標是讓觀眾能夠將元學習應用到他們自己的應用中,并開發新的元學習算法和理論分析,以應對當前的挑戰和現有工作的局限性。
視頻地址:
Part1 //www.facebook.com/icml.imls/videos/4006/
Part2
主講人介紹:
Chelsea Finn是Google Brain的研究科學家,也是加州大學伯克利分校的博士后。在2019年9月,她將加入斯坦福大學的計算機科學系擔任助理教授。 Finn的研究興趣在于使機器人和其他代理能夠通過學習和交互來發展廣泛的智能行為的能力。為此,芬恩開發了深度學習算法,用于同時學習機器人操縱技能中的視覺感知和控制,用于非線性獎勵函數的可伸縮獲取的逆強化方法以及可以在兩個視覺系統中實現快速,少拍適應的元學習算法感知和深度強化學習。 Finn在麻省理工學院獲得EECS的學士學位,并在加州大學伯克利分校獲得CS的博士學位。她的研究得到了NSF研究生獎學金,Facebook獎學金C.V.的認可。她獲得了Ramamoorthy杰出研究獎和《麻省理工學院技術評論35分35獎》,她的工作已被《紐約時報》,《連線》和彭博社等多家媒體報道。
Sergey Levine于2009年獲得斯坦福大學計算機科學學士學位和碩士學位,并獲得博士學位。 2014年獲得斯坦福大學計算機科學博士學位。他于2016年秋天加入加州大學伯克利分校電氣工程與計算機科學系。他的工作重點是決策和控制的機器學習,重點是深度學習和強化學習。他的工作應用包括自動駕駛機器人和車輛,以及計算機視覺和圖形。 他的研究包括開發將感知和控制相結合的深度神經網絡策略的端到端訓練算法,用于逆向強化學習的可擴展算法,深度強化學習算法等。 在許多受歡迎的媒體中,包括紐約時報,BBC,麻省理工學院技術評論和彭博社,他的作品都得到了報道。