這篇論文研究了通過試錯學習教導自主智能體完成任務的算法。通常,這個問題被描述為一個強化學習(RL)問題,其中智能體試圖最大化用戶提供的獎勵函數。這里研究的算法采取了不同的方法,大部分避免使用獎勵函數,而是直接從數據中學習實現期望的結果。這種方法允許用戶使用來自監督學習和非監督學習的算法工具,同時也為非專家用戶提供了一個教導智能體新任務的界面。這些方法的設計中的主要挑戰是預測期望結果的概率,尤其是當這些結果在未來的數百步中才發生,特別是在使用離策略數據時。為此,這篇論文的第一部分基于遞歸分類開發了一種算法,該算法通過時間差分更新估計未來狀態的概率(第2章)。這種方法直接適用于具有連續狀態和動作的環境,不需要任何手工制作的距離度量,并導致了一個比之前的方法更高效的面向目標的RL算法。然后,我們將這個想法推廣到可以通過多種方式解決的任務,允許更靈活的任務規范,并提供更廣泛的泛化能力。
將控制問題以期望的結果來描述提供了一個簡單的機制來指定任務是什么,但它沒有為如何解決任務留下任何余地,這引發了一個問題:這些方法是否僅限于簡單任務。為了解決這個限制,我們考慮推斷復雜任務解決方案的結構。由于第一部分介紹的算法在本質上是概率性的,所以很容易將這種結構作為一個未觀察到的潛在變量納入其中。這些新算法推斷這種任務結構;在這樣做的過程中,它們將控制問題分解為一系列更容易的問題,從而加速學習。
我們首先討論以目標為條件的設置,這種推斷觀點導致了一個簡單且理論上有正當理由的方法,將面向目標的RL集成到傳統的規劃流程中(第4章)。RL被用來估計距離并學習一個局部策略,而觀察(如,圖像)上的圖搜索確定了通往目標的高級路徑。這種方法顯著優于標準的目標條件RL算法。接著,我們考慮一種不同的方式來構造任務解決方案:作為一個學習過的動態模型和策略的組合(第5章)。結果是一個基于模型的RL算法,其中模型和策略使用相同的目標聯合優化,這是預期回報的下界。
這篇論文基于初步論文提案中提出的工作在兩個主要方向上進行了深入。首先,我們探討了遞歸分類的幾何解釋(第2章),在表示學習和強化學習之間建立了緊密的聯系(第3章)。這種聯系使我們能夠將遞歸分類擴展到通過有限數量的獎勵標記狀態后設定的任務,并使我們能夠將這些方法應用到基于真實世界圖像的機器人操作任務上。其次,我們擴展了RL的潛在變量觀點(第4章和第5章)以在學習的表示上執行推斷(第5.6節)。這種擴展使我們的方法能夠擴展到更高維度的任務,并提供了大量的計算加速。
深度學習有望從數據中學習復雜的模式,特別是當輸入或輸出空間很大時。在機器人學習中,輸入(如圖像或其他傳感器數據)和輸出(如關節角度等動作)都可能很大,這暗示深度學習可能特別適合解決機器人學領域的挑戰性問題。
然而,與大多數機器學習應用不同,機器人學習涉及物理約束,使得標準的學習方法面臨挑戰。機器人昂貴,通常需要人工介入以重置環境和修復硬件。這些約束使得大規模的數據收集和訓練變得困難,為應用當前的數據密集型算法設置了一個主要的障礙。機器人學習在評估方面還有一個額外的障礙:每個物理空間都是不同的,這使得實驗室之間的結果不一致。
機器人學習范例的兩個常見假設限制了數據效率。首先,一個代理通常假設獨立的環境和沒有先前的知識或經驗 —— 學習是從零開始的。其次,代理通常只接收圖像觀察作為輸入,僅依賴視覺來學習任務。但在現實世界中,人類在多個環境中通過多種感官學習,并在學習新任務時帶有先前的經驗。這種方法不僅是實際的,而且在實際的機器人技術中也是至關重要的,因為從部署的物理系統中收集大量樣本在成本上是不切實際的。 在這篇論文中,我展示了一項工作,通過利用多模態和預訓練來提高機器人學習的數據效率。首先,我展示了如何通過多模態感知,如視覺和聽覺,提供豐富的自監督(第2章)。其次,我介紹了一個框架,用于預訓練和評估通過環境轉移的自監督探索(第3章)。在第4章中,我將這些想法應用于實際的操作,結合了大規模預訓練和多模態的好處,通過音頻-視頻預訓練來為接觸式微型麥克風提供訓練。最后,根據第3章的基準測試工作,我介紹了一個真實的機器人基準,用于通過共享數據和硬件評估視覺和策略學習方法的泛化能力(第5章)。
想象一個嬰兒玩一個她從未見過的物體。她搖晃它并聽那噪音。她觀察她的父母來了解它是如何使用的。盡管這些行為對成年人來說可能看起來并不聰明,但嬰兒的學習方式卻充分利用了他們早期生活的豐富性。他們利用所有的感官;他們尋求創意的反饋;他們在周圍的世界的多樣性中茁壯成長 [133]。我認為這些行為是為了構建更好的智能體而得到的靈感。具體來說,我旨在通過利用自監督、多模態和先前的經驗來提高機器人的學習能力。強化學習(RL)允許系統超越被動學習,并在與世界互動的同時從這些互動中學習。在標準的RL范式中,研究者手動指定一個獎勵函數(得分),代理則學會最大化這一獎勵。這在Atari或圍棋這樣的游戲中效果很好,但在機器人技術這樣的應用中,獎勵函數很難制定,而且從現實世界的數據中學習需要樣本效率。RL的挑戰可以分為兩個領域:如何在一個環境中收集有趣的數據(探索)和如何從這樣的數據中學習任務(策略學習)。在我的論文中,我探討了如何改進探索和策略學習,使RL在真實世界的環境中變得可行。目前的RL探索框架是兒童探索世界方式的差勁代理。RL代理往往從零開始(在一個環境中從零開始初始化)并且只使用視覺或狀態向量,而忽略了其他感覺模態。在這篇論文中,我旨在使探索更加符合真實世界:代理使用大規模數據(來自先前的環境和被動來源)有效地將知識轉移到新的環境中,其中自監督和多模態引導快速適應。
自監督學習(SSL)從大量未標記的訓練數據中學習高質量的表示。隨著數據集的不斷擴大,確定哪些樣本對學習這些表示最有貢獻變得至關重要。這使得SSL能夠通過減少學習高質量表示所需的數據量來提高效率。然而,如何量化樣本對SSL的價值一直是一個未解決的問題。在這項工作中,我們首次對此進行了討論,我們證明了對比自監督學習最有貢獻的樣本在期望值上是那些與其他樣本的增強最相似的樣本。我們為這些子集的SSL的泛化性能提供了嚴格的保證。從經驗上看,我們發現,也許令人驚訝的是,對SSL貢獻最大的那些子集是對監督學習貢獻最少的那些子集。通過大量實驗,我們證明了我們的子集在CIFAR100、CIFAR10和STL10上的性能超過隨機子集超過3%。有趣的是,我們還發現我們可以安全地從CIFAR100中排除20%的樣本,從STL10中排除40%,而不影響下游任務的性能。
//sjoshi804.github.io/data-efficient-contrastive-learning/
1. 引言
大數據集驅動現代的機器學習模型。然而,一個關鍵問題是:什么樣的數據點對學習是必要的,是否更多的數據總能帶來更好的性能?回答這個問題至關重要,因為它可以減少在大數據集上訓練的大量成本,提高訓練模型的性能,并指導數據收集。這激發了一系列最近的研究,尋找監督學習最基本的子集(Toneva等,2019;Paul等,2021;Mirzasoleiman等,2020;Mindermann等,2022;Sorscher等,2022;Swayamdipta等,2020)。然而,隨著數據集的不斷擴大,獲取高質量的標簽變得過于昂貴。因此,人們對大規模無標簽數據集的自監督(SSL)預訓練產生了濃厚的興趣(Chen等,2020;Grill等,2020;Chen和He,2021;Zbontar等,2021)。然而,找到對SSL最重要的數據點仍然是一個未解決的問題。找出對SSL貢獻最大的樣例確實非常具有挑戰性。當標簽可用時,可以根據每個樣例的損失(或預測的置信度)或梯度范數來量化學習的價值。實際上,難以學習的樣例,即在訓練過程中損失大或梯度范數大的例子,是對最小化訓練損失貢獻最大的樣例。然而,在沒有標簽的情況下,SSL方法基于樣例與其他數據點的相似性來聚類樣例。因此,每個樣例的SSL損失和梯度與數據集中的其他樣例緊密相連。因此,刪除一個樣例會影響所有其他樣例的損失和梯度。這使得數據選擇對SSL來說比監督學習更具挑戰性。在這項工作中,我們首次解決了上述挑戰,找到了可以證明對SSL貢獻最大的樣例。特別的,我們關注的是對比自監督學習,它通過最大化同一樣例的增強視圖之間的對齊度,并最小化不同樣例的增強視圖之間的相似度來學習表示(Chen等,2020;Zbontar等,2021;Oord等,2018)。我們證明,對SSL貢獻最大的樣例是那些其增強視圖與其潛在類別中其他樣例的增強視圖之間的預期相似度最高的樣例。實際上,這樣的樣例將一個類中的不同組樣例拉到一起,并使對比損失能最大程度地把不同類別中的樣例的表示推開。我們證明這樣的樣例(1)確保了每個類別中樣例的增強視圖之間的高度對齊度,(2)保留了SSL在完整數據上學習的類別表示的中心。我們利用上述屬性為在子集上學習的SSL表示上訓練的線性分類器的性能提供泛化保證。
我們注意到,可能令人驚訝的是,對對比自監督學習(SSL)貢獻最大的樣例對監督學習的貢獻最小。特別地,我們使用預測的置信度以及遺忘分數(Toneva等,2019)即一個樣例在訓練過程中被正確分類后被誤分類的次數,來量化監督學習的樣例的難度。我們發現對SSL貢獻最大的樣例是對監督學習來說容易的樣例,這些樣例具有高置信度和低遺忘分數。這樣的樣例可以安全地從監督學習流程中排除(Toneva等,2019),而不會影響準確度。相反,對監督學習貢獻最大的難以學習的樣例會嚴重影響SSL的性能。我們廣泛評估了我們提出的方法在CIFAR10,CIFAR100(Krizhevsky等,2009)和STL(Coates等,2011a)中學習樣例表示的性能,使用的是ResNet50。我們證明了我們的子集在CIFAR100和STL上的性能超過隨機子集超過3%。有趣的是,我們發現在CIFAR100的樣例中,最多20%的樣例,以及在STL中,最多40%的樣例可以安全地排除,而不會影響下游性能。我們證明了對SSL貢獻最大的子集可以在訓練早期或通過一個小的代理模型有效地提取出來。我們也證實了我們的方法適用于其他的對比學習方法,例如BYOL(Grill等,2020),并進一步觀察到,對于BYOL,丟棄STL10中20%的樣例甚至可以提高下游性能2%。
2. 問題與方法
對比式自監督學習通過學習一個編碼器f,最大化同一樣例不同增強視圖(即正對)的表示之間的一致性,并最小化不同樣例的增強視圖(即負對)的表示之間的一致性,從而學習訓練數據中樣例的表示。我們的目標是找到一個最多包含r個訓練樣例的子集S ? V,使得通過在子集上最小化對比損失得到的編碼器
,使得神經網絡分類器在完整數據上獲得相似的錯誤。形式上,我們旨在解決以下問題:
我們首先研究子集S ?必須滿足哪些屬性,以使得在子集上學習到的表示能夠提供較小的下游分類錯誤。為此,我們依賴最近對對比學習優化和泛化的理論結果。特別是,Huang等人(2021)最近的結果顯示,通過對比學習獲得的表示的泛化性能依賴于:(1)正對的對齊,(2)類中心的離散度,以及(3)增強數據的集中度。對齊反映了樣例的增強視圖的表示之間的相似性,期望中的這種相似性。良好的對齊需要一個樣例的所有增強視圖具有相似的表示。類中心的離散度反映了類中心μl和μk有多遠。良好的離散度會導致所有類中心對之間的距離足夠大。
3. 實驗結果
在本節中,我們首先評估對比學習訓練的模型在由CL-Core和隨機子集找到的常見圖像分類基準數據集(即CIFAR10、CIFAR100和STL10)上的下游泛化性能。然后,我們對近似潛在類別和用于估計預期數據增強距離的代理模型的效果進行了廣泛的消融研究。最后,我們研究了在子集中用于監督學習的樣本的難度。
3.1. 下游泛化性能
SimCLR 圖3顯示,使用CL-Core找到的不同大小的子集在CIFAR100和STL10上比隨機子集的訓練性能提高了超過3%,在CIFAR10上提高了最多2%。BYOL 圖4(a)顯示,使用CL-Core從STL10找到的不同大小的子集進行訓練,在性能上超過隨機子集超過3%。有趣的是,80%大小的子集在全數據上的性能超過了BYOL 2%。這證實了CL-Core可以有效地找到對對比學習做出最大貢獻的樣例,并排除可能有害的樣例。
3.2 探究由CL-Core找到的子集
圖5(a)使用t-SNE可視化了在CIFAR100中從“bed”類別中由CL-Core選擇和未選擇的樣例。與選擇和未選擇樣例之間的預期數據增強距離較小的樣例之間有連接線。我們可以看到,被選擇的樣例與該類別中的許多其他樣例之間的預期數據增強距離很小。圖5(b)展示了從“bicycle”類別中選擇和未選擇的一些樣例。我們可以看到,被選擇的樣例代表了整個類別,而未被選擇的用哪個例則呈現了不常見的姿勢或視角。易樣本是最重要的接下來,我們使用遺忘分數(Toneva等人,2019),即在監督學習期間被正確分類后被錯誤分類的次數,來量化一個樣例的難度。圖4(e)顯示了那些在監督學習中可以安全丟棄的最不易遺忘的樣例(Toneva等人,2019)能夠顯著優于隨機基線,并且在較小的子集上實現可比較的性能。附錄A的圖6顯示了由CL-Core找到的子集具有較低的遺忘分數和較高的置信度,平均而言,它們對于監督學習來說是易樣本。實際上,對于SSL來說最重要的子集對于監督學習來說卻是最不重要的。困難樣例損害對比學習最后,圖4(f)確認了由CL-Core排名最低的樣例,即由具有與其潛在類別的其他樣例之間較大預期數據增強距離的樣例組成的子集,會嚴重阻礙對比學習。這些樣例很難學習,并且對于監督學習非常有益(Toneva等人,2019)。
序列決策是機器學習應用的一種自然模型,學習器必須實時進行在線決策,同時從序列數據中學習,以便在未來做出更好的決策。經典工作專注于基于隨機或對抗性數據分布的問題變體,或基于對學習器決策的反饋,這些決策可能是部分的或完整的。隨著大型在線市場的迅速崛起,序列學習方法越來越多地部署在復雜的多智能體系統中,智能體可以根據自己的個人目標進行戰略性優化。這為序列決策問題增加了一個新的維度,在這個維度中,學習器必須考慮到它正在學習的智能體的戰略行為,這些智能體可能希望引導其未來的決策朝著有利于自己的方向發展。本文旨在從系統設計者的角度設計有效的在線決策算法,系統設計者的目標是在具有有限反饋的戰略智能體環境中學習,以及戰略智能體的目標是優化個人目標。
在論文的第一部分中,我們專注于重復拍賣,并設計了拍賣者可以在戰略投標人存在的情況下有效學習的機制,反之,解決智能體如何在重復拍賣中投標或使用數據中毒攻擊來最大化他們自己的目標。在第二部分中,我們考慮在線學習環境,其中關于學習者決策的反饋是昂貴的。本文提出一種在線學習算法,受主動學習技術的啟發,可以快速前進隊列中信息量更大的一小部分示例。這允許學習器獲得與最優在線算法相同的性能,但僅通過查詢非常小的分數的反饋。最后,在論文的第三部分,我們考慮了一個新的隨機多臂匪徒學習目標,它促進了個人和群體機會的擇優公平。//smartech.gatech.edu/handle/1853/70199
文獻中考慮的許多序列決策問題變體取決于反饋的類型和它們揭示的有關相關獎勵的信息量。之前的大多數工作都研究了行動的反饋揭示了與行動相關的獎勵的案例。然而,在許多領域,如眾包、醫療診斷和自適應資源分配,行動的反饋可能是薄弱的,即可能根本沒有揭示任何關于獎勵的信息。如果沒有任何關于獎勵的信息,就不可能了解哪種行動是最佳的。顯然,只有在問題結構是這樣的,即可以在不明確知道獎勵的情況下識別最佳行動的情況下,學習最佳行動才是可行的。本文的目標是研究一類問題,在不明確知道獎勵的情況下可以推斷出最優行動。研究了無監督順序選擇(USS),所選行動的回報/損失從未顯示,但問題結構適合于識別最優行動。本文還提出了一種名為審查半Bandits (CSB)的新設置,從一個行動中觀察到的獎勵取決于分配給它的資源數量。
本文的主要研究內容是USS問題。在USS問題中,無法從觀察到的反饋中推斷出與動作相關的損失。這種情況出現在許多現實應用中。例如,在醫療診斷中,患者的真實狀態可能不為人知;因此,測試的有效性無法得知。在眾包系統中,眾包工人的專業知識水平是未知的;因此,他們的工作質量是不可知的。在此類問題中,可以觀察到測試/工作者的預測,但由于缺乏真實值,無法確定其可靠性。通過比較不同動作得到的反饋,可以找到一類USS問題在滿足“弱支配”性質時的最優動作。針對該問題,本文提出了基于置信上界和Thompson采樣的性能最優算法。
本文提出一種稱為審查半bandits (CSB)的新設置,其中從行動中觀察到的反饋取決于分配的資源數量。如果沒有分配足夠的資源,反饋就會被“審查”。在CSB設置中,學習者在每一輪中在不同的活動(動作)之間分配資源,并從每個動作中接受審查損失作為反饋。目標是學習一種資源分配策略,使累計損失最小化。每個時間步長的損失取決于兩個未知參數,一個與動作有關,但與分配的資源無關,另一個取決于分配的資源數量。更具體地說,如果動作的資源分配超過一個恒定的(但未知的)閾值,該閾值可以取決于動作,則損失等于零。CSB模型可以應用于許多資源分配問題,如警察巡邏、交通規則和執行、偷獵控制、廣告預算分配、隨機網絡效用最大化等。
論文的最后一部分重點研究了多玩家多臂匪徒的分布式學習,以識別最優動作子集。這種設置是這樣的,獎勵只適用于那些只有一個玩家參與的行動。這些問題適用于無線ad hoc網絡和認知無線電中尋找最佳通信信道的問題。本文的貢獻是通過利用這些問題表現出的特定結構來解決上述序列決策問題。對于這些具有弱反饋的每個設置,開發了可證明的最優算法。最后,在合成數據集和真實數據集上驗證了它們在不同問題實例上的經驗性能。
決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。
深度度量學習(Deep Metric Learning, DML)提出學習度量空間,將語義相似性編碼為嵌入空間距離。這些空間應該可以轉移到訓練期間看到的類別之外。通常,DML方法使用任務網絡來解決在二元類分配上定義的對比排序任務。然而,這種方法忽略了實際類之間的高級語義關系。這導致學習后的嵌入空間編碼不完整的語義上下文,并歪曲類之間的語義關系,影響了學習后的度量空間的泛化性。為了解決這一問題**,我們提出了一種視覺相似度學習的語言指導目標**。利用專家類名和偽類名的語言嵌入,我們根據有意義的語言語義對視覺表示空間進行上下文化和重新對齊,以獲得更好的語義一致性。大量的實驗和消融為我們提出的方法提供了強大的動力,并顯示語言指導為DML提供了顯著的、模型無關的改進,在所有基準上實現了具有競爭力的和最先進的結果。代碼可在//github.com/ExplainableML/LanguageGuidance_for_DML獲得。
這篇論文是關于從一系列動作中學習產生一個物體(比如分子圖)的隨機策略的問題,這樣產生一個物體的概率與該物體的給定的正回報成正比。盡管標準收益最大化傾向于收斂于單個收益最大化序列,但在某些情況下,我們希望抽樣不同的高收益解決方案集。例如,在黑箱函數優化中,當可能的輪數很少時,每個批次都有大量的查詢,這些查詢的批次應該是不同的,例如,在新分子的設計中。人們也可以把這看作是一個將能量函數近似轉化為生成分布的問題。雖然MCMC方法可以實現這一點,但它們的成本很高,而且通常只執行局部勘探。相反,生成式策略在訓練過程中攤銷了搜索成本,并讓位于快速生成。利用來自時態差分學習的見解,我們提出了GFlowNet,基于將生成過程視為流動網絡的觀點,使其有可能處理不同軌跡可能產生相同最終狀態的棘手情況,例如,有許多方法順序添加原子來生成一些分子圖。我們將軌跡集轉換為一個流,并將流一致性方程轉換為一個學習目標,類似于將Bellman方程轉換為時間差分方法。我們證明了所提出的目標的任何全局最小值都能產生一個從期望分布中采樣的策略,并在一個有許多模式的獎勵函數的簡單域和一個分子合成任務上證明了GFlowNet改進的性能和多樣性。
多任務學習(Multi-task learning, MTL)旨在通過對多個相關任務的聯合學習來提高任務的泛化能力。作為對比,除了聯合訓練方案,現代元學習允許在測試階段進行一些不可見的、標簽有限的任務,希望能夠快速適應它們。盡管MTL和元學習在問題表述上存在細微的差異,但兩種學習范式都認為,現有訓練任務之間的共享結構可以導致更好的泛化和適應性。本文通過理論分析和實證調查,進一步了解了這兩種學習模式之間的密切聯系。理論上,我們首先證明了MTL與一類基于梯度的元學習(GBML)算法具有相同的優化公式。然后我們證明了對于具有足夠深度的過參數化神經網絡,MTL和GBML學習到的預測函數是接近的。特別是,這一結果表明,這兩個模型給出的預測是相似的,在相同的看不見的任務。通過實證,我們證實了我們的理論發現,通過適當的實現,MTL可以在一組少樣本分類基準上與先進的GBML算法相媲美。由于現有的GBML算法經常涉及代價高昂的二階兩級優化,我們的一階MTL方法在大型數據集(如微型imagenet)上快了一個數量級。我們相信,這項工作可以幫助彌合這兩種學習模式之間的差距,并提供一個計算效率高的替代GBML,也支持快速任務適應。
機器學習系統通常是在這樣的假設下設計的,即它們將作為一個靜態模型部署在世界上一個單一的靜態區域。然而,世界是不斷變化的,因此未來看起來不再完全像過去,甚至在相對靜態的環境中,系統可能部署在其世界的新的、看不見的部分。盡管數據分布的這種連續變化會給機器學習中獲得的模型帶來重大挑戰,但模型也不必是靜態的:它可以而且應該自適應。在這次演講中,我將討論我們如何允許深度網絡通過適應來魯棒地應對這種分布轉移。首先介紹元學習的概念,然后簡要概述從機器人到藥物設計的幾個成功的元學習應用,最后討論元學習研究前沿的幾項最新工作。
視頻: //www.youtube.com/watch?v=7qOOmtXHilY&feature=youtu.be