模型無關元學習(Model-agnostic meta learning, MAML)是目前小樣本元學習的主流方法之一。盡管MAML是有效的,但由于MAML固有的雙層問題結構,其優化具有挑戰性。具體而言,MAML的損失情況比經驗風險最小化方法復雜得多,可能包含更多的鞍點和局部最小化點。為了應對這一挑戰,我們利用最近發明的銳度感知最小化(sharp -aware minimization)方法,提出一種銳度感知的MAML方法(Sharp-MAML)。實驗結果表明,Sharp-MAML及其高效計算變體的性能優于現有主流的MAML基準(例如,在Mini-Imagenet上的準確率為+12%)。我們用收斂速度分析和Sharp-MAML的泛化界來補充實證研究。據我們所知,這是第一次在雙層學習背景下對銳度感知最小化問題進行實證和理論研究。代碼可以在//github.com/mominabbass/Sharp-MAML上找到。
我們研究離線元強化學習,這是一種實用的強化學習范式,從離線數據中學習以適應新的任務。離線數據的分布由行為策略和任務共同決定。現有的離線元強化學習算法無法區分這些因素,導致任務表示對行為策略的變化不穩定。為了解決這個問題,我們提出了一個任務表示的對比學習框架,該框架對訓練和測試中的行為策略分布不匹配具有魯棒性。我們設計了一個雙層編碼器結構,使用互信息最大化來形式化任務表示學習,導出了一個對比學習目標,并引入了幾種方法來近似負對的真實分布。在各種離線元強化學習基準上的實驗表明,我們的方法比以前的方法更有優勢,特別是在泛化到非分布行為策略上。代碼可以在//github.com/PKU-AI-Edge/CORRO上找到。
論文題目:Learning to Weight Imperfect Demonstrations (ICML 2021)
作者:Yunke Wang, Chang Xu, Bo Du, Honglak Lee
論文概述:這篇論文主要解決的問題是如何在生成對抗模仿學習(GAIL)中為不完美專家演示加權。模仿學習期望智能體通過模仿專家的行為來進行學習,然而在許多現實世界的任務中專家也會犯錯,由此產生的不完美專家演示將會嚴重誤導智能體的學習。目前,已有的一些基于加權和偏好學習的解決不完美專家演示的方法往往依賴額外的先驗信息,無法在更普遍和通用的模仿學習設置下使用。因此,本文提出了一種在生成對抗模仿學習的框架下為專家演示自動生成權重的方法,通過嚴格的數學證明,我們發現專家演示的權重可以在訓練中由GAIL中的判別器和智能體策略估算得到。理論分析顯示,當我們使用該估算的權重,智能體事實上在學習一個比原始給定的專家策略更優的策略。在Mujoco和Atari上的實驗結果顯示了算法的優越性。
手工設計深度神經網絡需要花費大量的時間和精力。這促使了神經結構搜索(NAS)技術的發展,以實現這種設計的自動化。然而,NAS算法往往是緩慢和昂貴的;他們需要訓練大量的候選網絡,為搜索過程提供信息。如果我們能從網絡的初始狀態部分預測其訓練的準確性,這就可以緩解。在這項工作中,我們檢查了未經過訓練的網絡中數據點之間的激活重疊,并激勵它如何能給出一個有用的衡量指標,以表明網絡的訓練性能。我們將這種方法整合到一個簡單的算法中,該算法允許我們無需任何訓練就能在單個GPU上搜索強大的網絡,并在NAS-Bench-101、NAS-Bench-201、NATS-Bench和Network Design Spaces上驗證其有效性。我們的方法可以很容易地與更昂貴的搜索方法相結合;我們研究了一種規則化進化搜索的簡單適應。復制我們實驗的代碼可以在//github.com/BayesWatch/nas-without-training上找到。
模仿學習試圖通過利用專家行為來規避為訓練主體設計適當的獎勵功能的困難。在以Markov Decision Processes (MDP)建模的環境中,大多數現有的模仿算法都取決于在同一MDP中是否有專家演示,而在該MDP中要學習新的模仿策略。在本文中,我們研究了當專家和代理MDP存在差異時如何模擬任務的問題。這些跨領域的差異可能包括不同的動力學、觀點或形態;我們提出了一個新的框架來學習這些領域的響應。重要的是,與之前的工作相比,我們使用只包含專家領域狀態的未配對和未對齊軌跡來學習這種對應關系。我們利用狀態空間和領域未知的潛在空間上的循環一致性約束來做到這一點。此外,我們通過一個歸一化的位置估計函數加強狀態的時間位置的一致性,以對齊兩個領域的軌跡。一旦找到了這種對應關系,我們就可以直接將一個領域的演示轉移到另一個領域,并將其用于模仿。在許多具有挑戰性的領域進行的實驗證明了我們的方法的有效性。
元學習理論的一個關鍵問題是如何理解任務分布對遷移風險的影響,即從未知任務分布中得出的元學習器對新任務的預期錯誤。本文針對高斯噪聲和高斯任務(或參數)分布的固定設計線性回歸問題,給出了任意算法的分布相關的遷移風險下界,同時給出了一種新的,所謂的偏置正則化回歸方法的加權版本能夠將這些下界匹配到一個固定的常數因子。值得注意的是,權重是由高斯任務分布的協方差得到的。總之,我們的結果提供了在這種高斯設置下元學習的困難的精確表征。雖然這個問題設置可能看起來很簡單,但我們證明它足夠豐富,可以統一元學習的“參數共享”和“表示學習”流; 特別地,表示學習是作為任務分布的協方差矩陣未知的特殊情況得到的。在這種情況下,我們提出采用EM方法,這在我們的情況下顯示了有效的更新。本文通過對EM的實證研究完成,實驗結果表明,EM算法可以隨著任務數量的增加而達到下界,同時在表示學習環境中,該算法也能成功地與其他算法相媲美。
元強化學習(Meta - reinforcement learning, Meta - rl)從以前的任務中提取知識,實現對新任務的快速適應。盡管最近取得了一些進展,但對元強化學習的有效探索仍然是稀疏獎勵任務中的一個關鍵挑戰,因為它需要在元訓練和適應中快速找到與任務相關的信息性經驗。針對這一挑戰,我們明確建模了一個元強化學習的探索策略學習問題,該問題與開發策略學習分離,并引入了一個新的賦權驅動的探索目標,該目標旨在最大限度地獲取信息以進行任務識別。我們得到了相應的內在獎勵,并開發了一個新的非策略元強化學習框架,通過共享任務推理知識,有效地學習獨立的上下文感知的探索和開發策略。實驗結果表明,在不同的稀疏獎勵MuJoCo運動任務和更復雜的稀疏獎勵元世界任務中,我們的meta-RL方法顯著優于最先進的基線。
對于有足夠標記樣本的基類,小樣本分類的目標是在只有少量標記樣本的情況下識別新類的未標記樣本。現有的方法大多只關注新類的標記樣本和未標記樣本之間的關系,沒有充分利用基類內部的信息。在本文中,我們為研究小樣本分類問題做了兩個貢獻。首先,我們提出了一個簡單而有效的基線,通過傳統的監督學習的方式在基類上訓練,可以取得與目前水平相當的結果。其次,在基線的基礎上,我們提出了一個協作的雙路徑分類度量,它利用基類和新類之間的相關性來進一步提高分類的準確性。在兩個廣泛使用的基準上的實驗表明,該方法是一種簡單有效的分類方法,在小樣本分類領域開創了一種新局面。
元學習已被提出作為一個框架來解決具有挑戰性的小樣本學習設置。關鍵的思想是利用大量相似的小樣本任務,以學習如何使基學習者適應只有少數標記的樣本可用的新任務。由于深度神經網絡(DNNs)傾向于只使用少數樣本進行過度擬合,元學習通常使用淺層神經網絡(SNNs),因此限制了其有效性。本文提出了一種新的學習方法——元轉移學習(MTL)。具體來說,“meta”是指訓練多個任務,“transfer”是通過學習每個任務的DNN權值的縮放和變換函數來實現的。此外,我們還介紹了作為一種有效的MTL學習課程的困難任務元批處理方案。我們使用(5類,1次)和(5類,5次)識別任務,在兩個具有挑戰性的小樣本學習基準上進行實驗:miniImageNet和Fewshot-CIFAR100。通過與相關文獻的大量比較,驗證了本文提出的HT元批處理方案訓練的元轉移學習方法具有良好的學習效果。消融研究還表明,這兩種成分有助于快速收斂和高精度。
地址:
代碼:
論文題目: Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation
摘要: 模型無關元學習的目標是從相似的任務中獲取元學習參數,以適應分布相同但梯度更新較少的新任務。由于模型選擇的靈活性,這些框架在諸如小樣本圖像分類和增強學習等多個領域表現出了良好的性能。然而,此類框架的一個重要限制是,它們尋求在整個任務分布中共享的公共初始化,這極大地限制了它們能夠學習的任務分布的多樣性。在本文中,我們增強了MAML的能力,以識別從多模式任務分布中采樣的任務模式,并通過梯度更新快速適應。具體來說,我們提出了一個多模態MAML (MMAML)框架,該框架能夠根據所識別的模式調整其元學習先驗參數,從而實現更高效的快速適應。我們在一組不同的小樣本學習任務上對所提出的模型進行評估,包括回歸、圖像分類和強化學習。結果不僅證明了我們的模型在調整元學習先驗以響應任務特征方面的有效性,而且表明了多模態分布的訓練比單模態訓練有更好的效果。
論文作者: Risto Vuorio, Shao-Hua Sun, Hexiang Hu, Joseph J. Lim
論文題目: Meta-Learning to Cluster
摘要: 聚類是探索性數據分析中最基本、最廣泛應用的技術之一。然而,聚類的基本方法并沒有真正改變:專業人員手工挑選特定于任務的聚類損失,以優化并適合給定的數據,以揭示底層聚類結構。某些類型的損失——例如k-means或其非線性版本:kernelized k-means(基于質心的)和DBSCAN(基于密度的)——由于它們在一系列應用中具有良好的經驗性能,因此很受歡迎。盡管使用這些標準損失的聚類輸出常常不能揭示底層結構,而且執行者必須自定義設計它們自己的變體。在這項工作中,我們采用了一種本質上不同的聚類方法:我們不是根據特定的聚類損失來擬合數據集,而是訓練一個學習如何聚類的遞歸模型。該模型使用數據集的示例(作為輸入)和相應的聚類標識(作為輸出)作為訓練對。通過提供多種類型的訓練數據集作為輸入,我們的模型能夠很好地泛化不可見的數據集(新的集群任務)。實驗表明,與標準的基準聚類技術相比,在簡單的綜合生成數據集或現有的真實數據集上進行訓練,可以獲得更好的聚類性能。我們的元聚類模型即使對于通常的深度學習模型表現較差的小數據集也能很好地工作。
作者: Yibo Jiang, Nakul Verma