基于記憶的元學習是一種強大的技術,可以構建能夠快速適應目標分布中的任何任務的agents。之前的一項理論研究認為,這種顯著的表現是因為元訓練方案激勵agent以貝葉斯最優的方式行為。我們通過一些預測和敲詐任務對這一主張進行了實證研究。在理論計算機科學的啟發下,我們發現元學習和貝葉斯最優agent不僅行為相似,而且在某種意義上,它們甚至共享相似的計算結構,即一個agent系統可以近似地模擬另一個。此外,我們證明貝葉斯最優agent是元學習動態的不動點。我們的研究結果表明,基于記憶的元學習可以作為一種通用技術,用于數值逼近貝葉斯最優agent,也就是說,甚至對于我們目前沒有可處理模型的任務分布也是如此。
在“學習到學習”的范式中,基于記憶的元學習是一種創建代理的強大技術,它能快速適應從目標分布中抽取的任何任務。此外,有人聲稱元學習可能是創建泛化到看不見的環境的系統的關鍵工具。計算神經科學的研究也部分支持了這一觀點,其中對人類的實驗研究表明,快速的技能適應依賴于任務的變化。因此,理解元學習agent如何獲得它們的表征結構并執行它們的計算是至關重要的,因為它可以為架構選擇、訓練任務的設計提供信息,并解決人工智能中的泛化和安全性問題。
以前的理論工作認為,充分優化元學習目標的agent是通過構造的貝葉斯最優,因為元學習目標是貝葉斯最優目標的蒙特卡羅近似。這是令人震驚的,因為貝葉斯最優agent通過最優地權衡勘探和開發來實現收益最大化(或損失最小化)。該理論還提出了一個更強的、結構化的主張:即經過元訓練的agent在幕后執行貝葉斯更新,其中計算是通過嵌入在內存動態中的狀態機實現的,該狀態機跟蹤解決任務類所需的不確定性的充分統計信息。
在這里,我們著手實證綜述元學習agent的計算結構。然而,這帶來了不小的挑戰。人工神經網絡以其難以解釋的計算結構而臭名昭著:它們在具有挑戰性的任務中取得了卓越的表現,但這種表現背后的計算仍然難以捉摸。因此,盡管可解釋機器學習的許多工作集中在I/O行為或記憶內容上,只有少數通過仔細的定制分析來研究引起它們的內部動態(見例[12 18])。
為了應對這些挑戰,我們調整了理論計算機科學與機器學習系統的關系。具體來說,為了在計算級別[19]上比較agent,我們驗證它們是否可以近似地相互模擬。仿真的質量可以根據原始和仿真之間的狀態和輸出相似度來評估。
因此,我們的主要貢獻是研究基于RNN的元學習解決方案的計算結構。具體地說,我們比較元學習代理的計算和貝葉斯最優agent的計算,在他們的行為和內部表示的一套預測和強化學習任務已知的最優解決方案。我們在這些任務中展示了這一點:
元學習代理的行為類似貝葉斯最優agent(第4.1節)。也就是說,元學習agent做出的預測和行動實際上與貝葉斯最優agent無法區分。
在元訓練過程中,元學習者收斂于貝葉斯最優(第4.2節)。我們的經驗表明,貝葉斯最優策略是學習動態的不動點。
元學習代理代表像Bayes-optimal代理這樣的任務(第4.3節)。具體來說,計算結構對應于嵌入在(歐幾里得)內存空間中的狀態機,其中狀態編碼任務的充分統計信息并產生最優操作。我們可以用貝葉斯最優agent執行的計算來近似地模擬元學習代理執行的計算。
圖神經網絡(GNNs)的快速發展帶來了越來越多的新架構和新應用。目前的研究側重于提出和評估GNNs的具體架構設計,而不是研究GNNs的更一般的設計空間,后者由不同設計維度的笛卡爾積(如層數或聚合函數的類型)組成。此外,GNN設計通常專門針對單個任務,但很少有人努力了解如何快速為新任務或新數據集找到最佳GNN設計。這里我們定義并系統地研究了GNNs的架構設計空間,它包含了超過32種不同的預測任務的315000種不同的設計。我們的方法有三個主要創新:(1)一個通用的GNN設計空間;(2)具有相似度度量的GNN任務空間,這樣對于給定的新任務/數據集,我們可以快速識別/傳輸性能最好的架構;(3)一種高效的設計空間評價方法,可以從大量的模型-任務組合中提取洞察力。我們的主要結果包括:(1)一套設計性能良好的GNN的全面指南;(2)雖然針對不同任務的最佳GNN設計存在顯著差異,但GNN任務空間允許在不同任務之間傳輸最佳設計;(3)利用我們的設計空間發現的模型實現了最先進的性能。總的來說,我們的工作提供了一個原則性和可擴展性的方法,實現了從研究針對特定任務的個體GNN設計到系統地研究GNN設計空間和任務空間的過渡。最后,我們發布了GraphGym,這是一個用于探索不同GNN設計和任務的強大平臺。GraphGym具有模塊化的GNN實現、標準化的GNN評估和可重復和可擴展的實驗管理。
?強化學習具有在復雜環境下自動獲取行為的潛力,但為了成功地部署它,必須解決許多實際的挑戰。首先,在實際設置中,當代理嘗試某個任務并失敗時,環境必須以某種方式“重置”,以便代理能夠再次嘗試該任務。雖然在模擬中很容易,但在現實世界中可能需要相當多的人力,特別是在試驗數量非常大的情況下。第二,現實世界的學習通常涉及復雜的、時間上延伸的行為,這種行為通常很難通過隨機探索獲得。雖然這兩個問題乍一看似乎是不相關的,但在本研究中,我們將展示一個單一的方法如何允許代理在最小的監督下獲得技能,同時消除重置的需要。我們這樣做是通過利用這樣的洞察力:為學習任務將代理“重置”為一組廣泛的初始狀態的需要,提供了一種學習多種“重置技能”的自然設置。我們提出了一個平衡重置目標和學習技能的通用和博弈公式,并證明了這種方法提高了無重置任務的性能,另外,我們獲得的技能可以用來顯著加速下游學習。
圖神經網絡(GNNs)已被證明是有效的模型,用于對圖結構數據的不同預測任務。最近關于它們表達能力的工作集中在同構任務和可數特征空間。我們對這個理論框架進行了擴展,使其包含連續的特性——在真實世界的輸入域和gnn的隱藏層中定期出現——并演示了在此上下文中對多個聚合函數的需求。為此,我們提出了一種新的聚合器結構——主鄰域聚合(PNA),它將多個聚合器與度標器相結合,從而推廣了總和聚合器。最后,我們通過一個新的基準來比較不同模型捕獲和利用圖結構的能力,該基準包含了來自經典圖理論的多個任務,以及來自現實領域的現有基準,所有這些都證明了我們模型的強大。通過這項工作,我們希望引導一些GNN研究轉向新的聚合方法,我們認為這對于尋找強大和健壯的模型至關重要。
//www.zhuanzhi.ai/paper/bee47b0e291d163fae01c
摘要
在只有很少數據的情況下,如分類問題中的新類別或輸入中的域變換,現代視覺系統的性能會急劇下降。在這項工作中,我們說明了支撐現代視覺系統的神經網絡表征如何受到監督崩塌的影響,從而丟失了執行訓練任務所不需要的任何信息,包括遷移到新任務或領域所需要的信息。然后我們提出了兩種方法來緩解這一問題。首先,我們采用自監督學習來鼓勵能夠更好地遷移的通用特性。第二,我們提出一種新穎的基于Transformer的神經網絡結構稱為CrossTransformers,這可能需要少量的標記圖像和一個無標簽查詢,發現粗空間對應查詢和標簽之間的圖像,然后通過計算相應空間之間的距離特性推斷相似類別的樣本。結果是一個分類器在任務和領域遷移方面更加具有魯棒性,我們通過在Meta-Dataset上的最先進的性能來證明這一點,Meta-Dataset是一個最近的數據集,用于評估從ImageNet到許多其他視覺數據集的遷移。
介紹
通用視覺系統必須具有適應性。比如家庭機器人必須能夠在新的、看不見的家庭中操作;照片組織軟件必須能夠識別看不見的物體(例如,尋找我六年級兒子的抽象藝術作品的樣本);工業質量保證體系必須發現新產品中的缺陷。深度神經網絡表示可以從像ImageNet這樣的數據集中帶來一些視覺知識,用于ImageNet之外的不同任務,但從經驗上講,這需要在新任務中使用大量的標記數據。如果標簽數據太少,或者在分布上有大的變化,這樣的系統在實際上會表現很差。元學習研究直接衡量適應性。在訓練時,算法會收到大量的數據和伴隨的監督(如標簽)。然而,在測試時,算法會接收到一系列的片段,每個片段都由一小部分數據點組成,這些數據點來自不同于訓練集的分布(例如,不同的域或不同的類別)。只有這些數據的一個子集有伴隨的監督(稱為支持集);算法必須對其余部分(查詢集)進行預測。元數據集尤其與視覺相關,因為它的挑戰是小樣本細粒度圖像分類。訓練數據是ImageNet類的子集。在測試時,每一集都包含來自其他ImageNet類的圖像,或者來自其他九個細粒度識別數據集之一的圖像。算法必須快速調整其表示以適應新的類別和域。 簡單的基于中心的算法,如Prototypical Nets在Meta-Dataset方面處于或接近最先進的水平,并且在支持集的外置ImageNet類上可以達到大約50%的精度(概率大約是1 / 20)。在同樣的挑戰下,在這些外面的類上訓練等價的分類器可以達到84%的準確率。是什么導致了性能上的巨大差異分布內樣本和分布外樣本?我們假設典型的網絡,像大多數元學習算法一樣,很少要求表示捕獲訓練集以外的任何東西。由于核心神經網絡是為分類而設計的,它們傾向于這樣做:只表示類別信息,而丟失可能在訓練類別之外有用的信息。我們稱這個問題為監督崩塌,并在圖1中說明了這個問題。
我們的第一個貢獻是探索用自我監督來克服監督崩塌。我們使用SimCLR學習嵌入,區分數據集中的每個圖像,同時保持不變的轉換(例如,裁剪和顏色轉移),因此捕獲的不僅僅是類別的信息。然而,與其將SimCLR視為一種輔助損失,不如將SimCLR重新定制為可以以同樣的方式分類為訓練插曲的插曲。我們的第二個貢獻是提出一種被稱為CrossTransformers的新架構,它將Transformer擴展到小樣本的細粒度分類。我們的關鍵見解是,物體和場景通常由較小的部分組成,局部外觀可能與訓練時看到的相似。這方面的經典例子是出現在早期幾篇關于視覺的論文中的半人馬,其中人和馬的部分組成了半人馬。
CrossTransformers的操作持有這一觀點(i)基于部分的局部比較,和(2)考慮空間對齊,讓程序去比較與底層類無關的圖像。更詳細地說,首先使用Transformer中的注意力來構建查詢集和支持集圖像中的幾何或功能部分之間的粗對齊。然后,給定這種對齊方式,計算相應局部特征之間的距離來指導分類。我們將演示這將改進未見類和域的泛化。
綜上所述,我們在本文中的貢獻是:(i)我們通過自監督技術提高了局部特征的魯棒性,修改了最先進的SimCLR算法。(ii)我們提出了CrossTransformers,這是一種空間感知的網絡架構,使用更多的局部特征進行小樣本分類,從而改進了遷移。最后,(iii)我們評估和分析了這些算法的選擇如何影響Meta-Dataset集的性能,并在其中幾乎每一個數據集上展示最先進的結果。
由于硬件資源有限,深度學習模型的訓練目標通常是在訓練和推理的時間和內存限制下最大化準確性。在這種情況下,我們研究了模型大小的影響,關注于計算受限的NLP任務的Transformer模型:自監督的預訓練和高資源機器翻譯。我們首先展示了,盡管較小的Transformer模型在每次迭代中執行得更快,但更廣、更深入的模型在顯著更少的步驟中收斂。此外,這種收斂速度通常超過了使用更大模型的額外計算開銷。因此,計算效率最高的訓練策略是反直覺地訓練非常大的模型,但在少量迭代后停止。
這導致了大型Transformer 模型的訓練效率和小型Transformer 模型的推理效率之間的明顯權衡。然而,我們表明大模型比小模型在壓縮技術(如量化和剪枝)方面更健壯。因此,一個人可以得到最好的兩個好處: 重壓縮,大模型比輕壓縮,小模型獲得更高的準確度。
//www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a
概述:
在當前的深度學習范式中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的模型準確度(brock2018large;raffel2019exploring)。最近自監督預訓練的成功進一步論證了這種趨勢經模型。因此,計算資源日益成為提高模型準確度的關鍵制約因素。這個約束導致模型訓練的(通常是隱含的)目標是最大化計算效率:如何在固定的硬件和訓練時間下達到最高的模型準確度。
最大化計算效率需要重新考慮關于模型訓練的常見假設。特別是,有一個典型的隱式假設,即模型必須經過訓練直到收斂,這使得較大的模型在有限的計算預算下顯得不太可行。我們通過展示以收斂為代價來增加模型大小的機會來挑戰這一假設。具體地說,我們表明,訓練Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止訓練。
在我們的實驗中,我們改變了Transformer模型的寬度和深度,并在自監督的預訓練(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上訓練)和機器翻譯(WMT14英語→法語)上評估了它們的訓練時間和準確性。對于這些任務,我們首先展示了更大的模型比更小的模型在更少的梯度更新中收斂到更低的驗證錯誤(第3節)。此外,這種收斂速度的增加超過了使用更大模型所帶來的額外計算開銷——計算效率最高的模型是非常大的,并且遠遠不能收斂(例如,圖2,左)。我們還表明,收斂的加速主要是參數計數的函數,只有模型寬度、深度和批大小的微弱影響。
雖然較大的模型訓練速度更快,但它們也增加了推理的計算和內存需求。這種增加的成本在現實應用中尤其成問題,推理成本占訓練成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,對于RoBERTa來說,這種明顯的權衡可以與壓縮相協調:與小型模型相比,大型模型在壓縮方面更加健壯(第4節)。因此,使用可比較的推理成本,大型重壓縮的模型優于小型輕壓縮的模型(例如,圖2,右)。
神經網絡已經成功地完成了許多推理任務。從經驗上看,這些任務需要專門的網絡結構,例如,圖神經網絡(GNNs)在許多這樣的任務中表現良好,而較少結構的網絡會失敗。從理論上講,盡管網絡結構具有相同的表達能力,但人們對網絡結構為什么以及何時比其他網絡結構更能泛化的理解是有限的。本文通過研究網絡的計算結構與相關推理過程的算法結構之間的一致性,建立了一個描述網絡能很好學習哪些推理任務的框架。我們正式定義了這種算法對齊,并推導出一個隨更好的對齊而減小的樣本復雜度界。該框架為流行推理模型的經驗成功提供了一個解釋,并指出了它們的局限性。例如,我們通過一個強大的算法范例——動態規劃(DP),將看似不同的推理任務,如直覺物理、可視化問題回答和最短路徑統一起來。我們證明了gnn與DP是一致的,因此可以解決這些問題。在一些推理任務中,我們的理論得到了實證結果的支持。
論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning
作者:Tuomas Haarnoja
導師:Pieter Abbeel and Sergey Levine
網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html
論文摘要:
在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。