亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

監督學習通過使用標記數據集訓練模型,由于其高成本以及泛化性和魯棒性問題,正變得不那么流行。這并不令人意外,因為圖像和語言等數據十分復雜,無法通過單一標簽準確表示。使用這種方法訓練的模型往往學習到與標簽虛假相關的特征,導致在現實世界中表現不佳。本論文探討了使用多種數據源進行表示學習,如圖像和語言或照片和素描。我們通過生成模型和判別模型證明,在多種模態或領域之間提取共同的抽象概念可以獲得更準確和更具泛化能力的表示。此外,我們還研究了提高這些模型數據效率的方法,包括通過對比風格目標使用更少的多模態對,以及通過掩碼圖像建模生成多模態對。最后,我們系統地評估了不同學習目標在分布偏移任務上的魯棒性,以了解它們在現實世界中的實用性。假設你是一名外星人,任務是掌握“狗”的概念,作為征服地球的第一步。如果你的同事Groot建議你通過查看一百萬張狗的圖片并將它們標記為“0”,以及另一百萬張非狗的圖片并將它們標記為“1”來完成這個任務,你可能會覺得他在故意破壞你的職業生涯。相反,更有效(也更有趣)的方式是親自訪問地球,與一些狗互動——讓你有機會看、聽、聞和觸摸它們。事實上,地球上的研究表明,人類在現實世界中的學習涉及多模態或多領域的觀察和互動,例如通過視覺觀察、語言描述或物理互動來感知同一個對象(Stein et al., 2009; Quiroga et al., 2009)。這些不同模態的聯合學習已被證明有助于通過這些模態的表達來促進推理和理解(Yildirim, 2014; Bauer and Johnson-Laird, 1993; Fan et al., 2018)。

盡管有這些見解,大多數機器學習模型仍然使用Groot倡導的單模態監督學習模式進行訓練,其中通過標簽來訓練模型以提取特征。這種模式被用于幾乎所有計算機視覺任務的最先進模型中(Bhat et al., 2021; Zhai et al., 2022; Liu et al., 2022a; Li et al., 2022a):對于圖像分類,標簽是圖像所屬類別的索引;對于深度估計,使用場景中物體的每像素距離來監督模型的學習。雖然這種方法對于某些任務可能有效,但它存在幾個潛在的缺陷。首先,獲取足夠數量的標記數據既昂貴又耗時。此外,這些算法可能脆弱且容易過擬合,尤其是在處理高維和復雜數據時。它們在處理類別分布不均衡的數據集時也可能會遇到困難(Abd Elrahman and Abraham, 2013; Buda et al., 2018)。最近的研究還揭示了使用監督學習訓練的模型容易受到對抗性攻擊(Szegedy et al., 2013)、易受簡單性偏見的影響(Shah et al., 2020),并且在分布外(OOD)泛化性能較差(Koh et al., 2021; Gulrajani and Lopez-Paz, 2020)。

多模態學習,利用不同模態之間復雜而微妙的關系,可能是解決監督學習挑戰的潛在解決方案。除了前面提到的人類學習啟示,多模態學習允許模型通過利用不同模態之間的復雜和微妙的關系來學習抽象概念,從而對給定問題或任務有更全面的理解。這可能解決監督學習從簡單、潛在噪聲和偏見標簽中學習時遇到的魯棒性問題;此外,多模態數據更容易獲取且無需人工標注,因為可以簡單地利用不同感知模態之間的時間一致性。例如,YouTube上的烹飪教學視頻包含三種感知模態:圖像(視頻)、文本(字幕)和音頻(聲音軌道)。可以認為這些模態互為標簽,不同之處在于這些“標簽”更復雜,可能包含輸入模態中未包含的信息。 在本論文中,我們研究了從多模態數據中學習表示。由于目標是探索聯合嵌入來自多個源數據的好處,我們將“模態”的定義從傳統的視覺和語言等感知模態放寬到不同的數據分布,例如狗的素描和真實照片,或同一圖像的兩個隨機增強視圖。這使我們能夠在多種機器學習設置下研究聯合嵌入問題,從領域泛化、自監督學習到視覺-語言生成模型。我們通過生成模型和判別模型展示了從多模態數據中學習的優勢,無論是在流行基準測試中的表現還是在泛化等魯棒性方面;我們還首次提出了多模態深度生成模型的系統需求。此外,受限于我們當時的計算資源和合適的數據集,我們還研究了提高多模態學習數據效率的方法,包括嚴格使用更少的多模態對和生成多模態數據。接下來,我們介紹本論文在這些不同主題上的貢獻如何組織。

貢獻和組織摘要 第2章提供了理解本論文其余部分所需的背景,包括所研究問題的介紹以及全面的文獻綜述。 在第3章中,我們在生成模型設置下研究多模態學習,提出了一種新的多模態VAE,名為MMVAE,它為其所有輸入模態學習高質量、平衡的表示。重要的是,我們的工作是第一個能夠在測試時無需輔助組件進行跨模態生成(例如語言→視覺,視覺→語言)的多模態VAE。此外,我們還提出了多模態VAE應滿足的四個需求,這些需求現已被多模態VAE領域廣泛采用。 第4章繼續研究多模態VAE,并著眼于提高此類模型的數據效率。我們提出了一個可用于任何多模態VAE的對比框架,并通過實驗證明我們的框架大大減少了達到同一性能水平所需的標記多模態對的數量;請注意,我們將對比目標適配于多模態學習的工作早于CLIP(Radford et al., 2021),在發表時具有新穎性。 在第5章中,我們從判別角度重新審視多模態學習問題,研究領域泛化,即模型必須利用多個源領域之間的共性,以便在未見過的目標領域中表現良好。我們提出了一種名為Fish的方法,通過最大化域間梯度內積來鼓勵學習這些共性。 最后,在第6章中,我們研究了自監督學習(SSL),其學習原理可以被認為本質上是“多模態”的,因為學習目標依賴于保持同一圖像的兩個增強視圖之間的共性。我們提出使用對圖像編碼器生成的對抗性掩碼遮蔽一個增強視圖,使我們能夠遮蔽圖像中的完整語義實體,從而從圖像編碼器中學習到更高質量的表示。 值得注意的是,本論文主體所涵蓋的工作研究了三種不同的表示學習機制:基于重構的生成模型(VAE)、監督學習和自監督學習。大多數模型評估遵循標準統計假設,即訓練和測試數據來自相同分布。然而,在機器學習模型的部署中,這一假設并不成立。因此,在附錄A中,我們研究了這些不同機制的方法如何在未見過的分布中泛化,以評估它們在現實世界中的表現。通過精心設計的實驗和評估指標,我們發現令人驚訝的是,特別是自監督學習,在分布變化較大的情況下,泛化效果更好。由于這項工作與論文的多模態主題不太契合,因此我們將其排除在正文之外,感興趣的讀者可參考附錄。

付費5元查看完整內容

相關內容

是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。

鑒于機器人在現實世界中采取的行動具有重要影響,必須確保它們的部署在設計上盡可能安全和可信。因此,本論文解決了一個稱為分布偏移的問題。當深度學習系統暴露于與其訓練數據分布不同的數據時,就會發生分布偏移,從而導致不可預測和意外的部署場景。本論文針對語義分割任務,研究了如何檢測由于分布偏移而導致的錯誤,以防止這些危險場景的發生。在討論了分布不確定性的本質,即由于分布偏移引起的錯誤原因,以及現有文獻之后,本論文提出了三種方法,這些方法在駕駛數據的語義分割過程中進行分布不確定性估計。第一種方法將問題視為大規模的分布外檢測問題,其中使用大規模圖像數據集訓練一個分割神經網絡,以區分分布內和分布外的訓練實例。該訓練方法涉及對比損失函數和數據增強程序,以減少分布內和分布外實例之間的外觀差異。第二種方法借鑒了第一種方法的經驗,即使用本質上與分布內圖像相比分布偏移較小的分布外訓練圖像,而不是依賴數據增強。這使得區分它們的任務更加具有挑戰性,因此學習到的不確定性估計更加穩健。出于這個原因,該方法設計使用一個未標注的分布偏移駕駛數據集,并提出了一種訓練程序以解決缺乏標簽的問題。最后,第三種方法結合了前兩種方法的思路,通過使用大規模圖像數據學習通用特征表示,并使用未標注的分布偏移駕駛數據集將這種表示調整為針對駕駛圖像的分布不確定性估計。

付費5元查看完整內容

圖在現實世界中被廣泛用于表示關系,許多數據自然地表示為圖,如社交網絡、蛋白質結構、分子和交易。與有特定自然順序的圖像和文本不同,圖是無序且置換不變的,這為學習良好的表示帶來了顯著的困難。圖神經網絡(GNNs)被提出并不斷改進以用于圖表示學習。本論文研究了節點級和圖級表示,并提出了實現更強大表示學習的解決方案,目標是實現圖上的基礎模型。

在第一部分中,我關注于節點級圖表示學習,并解決一個被稱為“表示過平滑”的關鍵問題。為了進一步理解圖卷積網絡(GCNs)的優勢,我們探索了神經網絡和主成分分析(PCA)之間的關系。我們的研究表明,圖正則化PCA的解與單個圖卷積層的公式一致。

在第二部分中,我深入研究了圖級表示學習。不同于對表格數據的多層感知機(MLPs)作為通用函數逼近器,GNNs的表達能力有限。我探索了增強GNN表達能力的兩個方向:使用有根子圖以實現更好的局部結構感知;探索無序高階交互,以實現與有序對應物相當的表達能力,同時獲得實際使用中的極大可擴展性。 在第三部分中,我聚焦于圖的生成模型。不同于需要標簽來學習任務依賴表示的判別模型,生成模型擅長無監督表示學習。然而,由于圖的無序性,圖生成提出了獨特的挑戰,這需要一種獨立于任何特定排序的方法。為了解決這個問題,我首先研究了應用于分類數據的擴散模型,并提出簡化和統一現有的離散時間和連續時間離散擴散模型。基于統一的離散擴散模型,我提出了一種基于部分順序的擴散模型,將自回歸方法與擴散模型結合用于圖生成。這種方法奠定了圖生成預訓練的基礎。

在最后一部分中,我探討了圖表示學習的應用。具體而言,我研究了圖級異常檢測(GLAD),其具有許多重要應用。由于GLAD很少被探索,我構建了一個強大的基于GNN的基準“OCGIN”,一個包含數據集和許多非GNN基準的評估平臺。我還發現并研究了一個稱為“性能翻轉”的問題。隨后,我設計了一種用于檢測普華永道可疑會計交易的特定模型,該模型需要處理具有元數據的屬性多圖,能夠有效地檢測專家引導的異常。

付費5元查看完整內容

文本生成領域的進步源于管道中的每一個階段:問題定義、數據整理、學習、解碼和評估。本論文重點關注學習。傳統的訓練目標與評估目標之間存在不匹配:常規的最大似然估計(MLE)嘗試最小化數據集中每個樣本的交叉熵損失,但下游評估通常基于輸入輸出對的兼容性得分(例如,人類對輸出的判斷)。我們的目標是通過直接優化生成文本的獎勵來彌合這一差距

本論文包括以下部分:(1) 獎勵可能難以獲得。為了解決社交對話中的這一挑戰,我們從部署數據中提取隱式信號,而無需額外的人類注釋。為了生成機器人的回應,我們優化未來人類回合中預測的正面反應。我們的方法總體上改進了機器人回應,但某些代理信號可能導致生成更多具有不良屬性的文本。(2) 模型在學習中可能進展緩慢或沒有進展,其中一個想法是獲得更密集和更高質量的獎勵。在神經機器翻譯中,我們從有著悠久歷史的噪聲通道解碼中獲得靈感,基于此我們定義了一個獎勵函數。副產品是我們能夠在確保翻譯質量相似的情況下顯著提高解碼速度。(3) 另一個在學習中取得進展的方法是創新訓練算法。我們將獎勵設定為生成和參考的簡單精確匹配,但在算法方面,我們探索了一個極端情況,即通過將文本生成框架化為離線強化學習問題來不偏離參考太遠。我們提出了從演示中離線學習生成(GOLD):一種通過重要性加權從演示中學習的算法。我們展示了使用GOLD訓練的模型在一系列任務中表現優于使用MLE和策略梯度訓練的模型。(4) 我們展示了不需要依賴強化學習的情況,以推理任務(例如數學、科學、常識)作為測試平臺。我們開發了一種稱為迭代推理偏好優化(IRPO)的方法,通過優化獲勝與失敗的推理思維鏈,使用修改后的直接偏好優化作為標準。與一系列基準相比,IRPO顯著提高了準確性。 最后,我們討論了將大型語言模型作為獎勵的未來方向。我們簡要提及了在使用類似于IRPO的迭代直接偏好優化學習標準的自我獎勵語言模型工作中初步展現的前景;隨后討論了相應的挑戰和下一步措施。此外,提高評估能力的另一種方法可能依賴于人類與AI的協作方法,其最終目標是使最終表現遠遠超過單獨的人類或單獨的AI的表現。

付費5元查看完整內容

神經網絡自動化了在計算機上表示對象及其關系的過程,包括從家庭用品到分子的一切。通過將不同實例轉換為共享的表示空間來獲得新的表示,其中數據的變化可以使用簡單的幾何量度量,如歐幾里得距離。本論文研究了這一空間的幾何結構及其對學習過程關鍵屬性的影響,包括獲得新技能所需的數據量、預測何時會失敗,以及學習的計算成本。我們檢驗了神經網絡表示的幾何結構的兩個基礎方面。 第一部分設計并研究了考慮到數據在表示空間中的位置的學習算法。專注于對比自監督學習,我們設計了a) 困難實例采樣策略和b) 控制模型學習哪些特征的方法。每種方法都在關鍵特性上產生了改進,如訓練速度、泛化和模型可靠性。

第二部分研究了如何使用非歐幾里得幾何來構建尊重物理數據中出現的對稱性和結構的網絡架構,為學習提供了強大的歸納偏差。具體來說,我們使用諸如實射影平面和光譜體這樣的幾何空間來構建a) 能夠尊重特征向量對稱性的可證明強大的神經網絡,這對于在圖結構數據上構建變壓器是重要的,以及b) 解決圖上的組合優化問題的神經網絡,如尋找大團或小割,這些問題在分子工程和網絡科學中出現。

計算機上對世界觀察的描述影響了計算問題解決過程的所有部分。因此,發現更適合簡單計算過程的描述或表示,幾十年來一直是計算科學進步的一個關鍵且持續的驅動力。與所有其他計算過程一樣,人工智能系統提取和使用的數據表示方式對其行為產生了關鍵影響,例如獲得新技能所需的數據量、預測何時會失敗,以及其學習的速度。

然而,現代基于深度學習的人工智能系統最重要的優勢之一是它們能夠處理基本的感知輸入,如圖像的單個像素,并在內部決定保留哪些來自像素級特征的信息,以及丟棄哪些。

除了自動化表示獲取之外,深度學習系統的另一個關鍵優勢是能夠在單一、連貫的空間中表示不同的數據點。例如,生活在極大的、高維空間中的圖像(例如,免疫組織化學圖像通常大小為1024×1024×3或更大)被轉換為相對較小、緊湊的幾千維空間。這種表示空間允許數據之間的比較,而這個空間的幾何屬性,如距離、方向和角度,不僅捕捉單個對象,還捕捉對象之間的關系。

然而,這種幾何性質通常是浮現的。也就是說,它不是直接學習的,而是作為使用低粒度監督(如類標簽)的端到端系統中的一個中間步驟學習的。這篇論文的目標是探索更明確編程這種幾何性質的思路、方法和新方向。通過明確處理,希望能夠更大程度地控制表示空間的屬性,使得使用這個空間來推理世界變得更加容易。 這篇論文有兩個主要部分。第一部分研究對比表示學習,這是一種學習歐幾里得結構表示的通用框架。本部分從第二章開始,概述了貫穿整篇論文的對比學習的一般介紹。然后,第三章提出以下問題:對比學習的負樣本應該如何生成?負樣本是對比學習中兩個關鍵設計選擇之一,但大多數以前的負樣本采樣方法都是簡單的,例如,隨機均勻采樣。我們引入了根據它們在表示空間中的位置采樣負樣本的技術。通過以位置依賴的方式采樣負樣本,我們能夠生成更有信息量的樣本,加速學習并提高最終表示空間的質量,以用于下游任務。在第四章中,我們更仔細地檢查對比學習模型實際編碼了哪些輸入數據特征——在許多可能性中。不出所料,我們展示了正負樣本的生成方式影響特征學習,并概述了理解這種關系的直觀方法。更令人驚訝的是,我們還發現調整采樣的明顯方法——例如,調整負樣本的難度——并沒有帶來明確的勝者。不同的采樣方法在某些下游任務上表現更好,在其他任務上表現更差。作為回應,我們探索了使用表示空間幾何性質修改樣本的新原則。我們的隱式特征修改方法擾亂嵌入,以去除用于解決對比任務的任何特征,然后要求模型使用新特征重新解決對比任務。這迫使模型尋找新的和不同的特征來使用,從而鼓勵模型不忽略它之前可能忽略的輸入數據的某些方面。 第五章退一步重新考慮表示空間應該具有的結構。除了編碼數據之間的相似性,第五章還論證了將數據的復雜變換編碼為嵌入空間中的可預測、簡單變換也是有價值的。具體來說,我們引入了一種訓練方法,該方法強制數據的增強——裁剪、旋轉等——對應于球形嵌入空間的正交變換。我們發現我們的方法導致了改進的下游性能,以及對其他對比方法不敏感的數據特征的增加敏感性。

本節的最后一章,第六章,探討了大規模的對比學習。隨著模型參數和數據集大小擴展到數億甚至數十億,考慮模型性能的擴展不僅僅是重要的,還有訓練它們的成本。性能可靠地擴展,但成本增長過快的訓練方法最終會輸給性能增長更慢,但成本增長更慢的方法。由于對比學習在大規模時相對昂貴,因為它使用了每個批次樣本的兩個完整副本。另一個重新出現的訓練方法——掩碼自編碼器(MAE)——非常高效,因為它只使用每個批次樣本的25%的一個副本,但性能相對較差,特別是對于少樣本的下游任務。我們的貢獻是引入了CAN,一種對比學習和MAE的混合體,享有更好的效率-性能權衡。與對比學習相比,它的成本降低了70%,同時性能優于對比學習和MAE。對CAN的一個重要解釋是幾何的:MAE學習了強大的嵌入,但由于它具有非線性的視覺變壓器解碼器,這可能輕易地撤銷非線性變換,因此未能以線性可分的方式安排其幾何結構。通過向MAE的嵌入空間添加對比成分(即,在解碼器之前),CAN迫使嵌入之間的歐幾里得距離具有意義,從而大大提高了少樣本性能。

這篇論文的第二部分探索了表示空間幾何性質與問題結構之間的關系。第七章考慮對稱性,特別是特征向量的對稱性(例如,符號對稱性:如果??是特征向量,那么???也是)。特征向量在機器學習中廣泛使用。特別是對于圖上的學習,譜理論多年來為許多問題提供了堅實的數學基礎。這在當今仍然延續,圖的拉普拉斯特征向量被廣泛用作構建圖上變壓器的節點位置編碼。然而,符號對稱性(以及當特征值的重數大于1時出現的更一般的基礎對稱性)是一個問題,因為神經網絡對符號變化不變,因此在輸入數據的不相關變化下不可靠地改變預測。

為了解決這個問題,我們引入了一個符號不變的架構SignNet和一個基礎不變的BasisNet——這些模型內置了特征向量的對稱性。我們的模型在使用拉普拉斯位置編碼時顯著提高了性能,并且在數學上非常強大:SignNet可以近似所有符號不變函數。SignNet的表達能力基于其嵌入空間的幾何結構。我們展示了特征向量的理想空間是空間R??/{?1, +1},通過將??和???粘合在一起成為一個點,消除了符號歧義。關鍵的是,這個商空間是一個被廣泛研究的流形,稱為實射影平面。使用實射影平面的幾何屬性——特別是,它可以在一個2??維歐幾里得空間中被渲染——我們能夠設計SignNet的各個部分,以便它們始終在歐幾里得空間中處理向量,但這些歐幾里得空間以某種方式連接起來,以反映實射影平面,由此我們得出了普適表達性的結果。對BasisNet的分析也以同樣的方式進行,但使用相應的商空間,即Grassmanian。

付費5元查看完整內容

深度生成模型(DGM)將深度神經網絡與生成模型結合,以學習感興趣數據的底層生成機制。這已經成為從數據中提取知識的重要方法,適用于機器學習和人工智能。然而,盡管具有潛在的潛力,學習和應用DGM在不同領域中仍然存在許多挑戰。因此,本論文的重點是理解、改進和應用不同的深度生成模型。

首先,我們介紹了不同DGM的基本原理,包括變分自動編碼器(VAE)、基于流的模型、生成對抗網絡(GAN)和基于能量的模型(EBM)。我們還提出了VAE的新對應物:變分潛在優化(VLO),它不需要編碼器結構。此外,我們提供了一種新的角度來理解EBM的生成過程,建立了EBM和GAN之間的聯系,并設計了一種新方法來提高EBM樣本質量。

接下來,我們提出了兩種混合型DGM,以改善當前模型的生成質量。首先,我們將基于流的模型和變分自動編碼器結合,以提高基于自動編碼器的生成模型的生成質量。其次,我們借鑒了指數傾斜的思想,將基于能量的模型與其他基于似然性的生成模型相結合,以獲得更好的樣本。

最后,我們進行了與現代深度生成模型相關的各種應用,包括將生成模型用作基于似然性方法的離群分布(OOD)檢測,并設計了可控的人臉生成模型。我們提出了一種新的OOD檢測分數,稱為似然性遺憾,以幫助使用VAE檢測OOD樣本。此外,我們建議在當前基于關鍵點的人臉重演模型中添加新結構,并將其與3D可變模型相結合,以提高其生成質量和泛化能力。

付費5元查看完整內容

從零開始的強化學習通常需要大量樣本來學習復雜任務,但是許多真實世界的應用場景卻只需要從少量樣本中進行學習。例如,一個有效的新聞推薦系統必須能夠在僅觀察到少量推薦結果后,適應新用戶的口味。為了滿足那些需要快速學習或適應新任務的應用的需求,本論文專注于元強化學習(meta-RL)。具體來說,我們考慮的場景是,智能體會反復接觸到一些來自相同任務族的新任務。智能體必須在極少的嘗試中學會每個新任務,這被形式化為與任務交互的幾個階段。智能體如何利用這些少量嘗試至關重要,因為這決定了它是否能夠隨后解決任務,但學習如何有效使用這些嘗試是具有挑戰性的,因為這里沒有直接的監督。

在本論文中,我們主張有效地利用這些少量的嘗試——因此,快速解決新任務需要仔細地將學習如何利用少量嘗試與學習解決任務相分離。具體來說,我們證明了現有的元強化學習算法如果不分離這兩個問題,就會因為雞和蛋的問題而無法學習到復雜的策略來有效地利用這些少量的嘗試。雞和蛋的問題是指,有效地利用這些少量嘗試的學習依賴于已經學會解決任務,反之亦然。我們用一個新的稱為Dream的算法來解決這個問題,它將這兩個問題分開。此外,我們還研究了如何在這個場景中利用預先收集的離線數據。我們證明了流行的從離線數據中提取技能以快速學習新任務的方法使用了一個具有退化解決方案的欠規定目標,并通過輔助目標來解決這個問題,使優化問題明確規定。我們的算法使得元強化學習中以前未探索的應用成為可能。具體來說,我們表明:(1) Dream通過在解決并不一定需要語言的任務的過程中學習語言,為無需大型文本數據集的語言學習開啟了新的范式。例如,在我們的實驗中,Dream在學習如何在各種建筑中導航到特定辦公室的過程中,學會了閱讀帶有語言描述的建筑平面圖;(2) Dream可以幫助自動評估通常需要大量手動評級的交互式計算機科學作業。我們在斯坦福大學的入門計算機科學課程中部署了Dream來協助評估Breakout作業,并發現它在不犧牲準確性的情況下將評估速度提高了28%,相當于節省了大約10小時的時間。

雖然在強化學習(RL)中從零開始(tabula rasa)的訓練已經取得了巨大的成功,但這需要大量的數據。例如,從零開始訓練以在圍棋(Silver等人,2017年)、Dota 2(Berner等人,2019年)和星際爭霸 II(Vinyals等人,2019年)中取得專家級的成績,都需要數百天的TPU或GPU訓練時間,相當于從常規云服務提供商那里花費數萬或數十萬美元。在許多應用領域,對單一任務進行如此長時間的訓練,或者僅僅是獲取這樣的訓練數據都是不切實際的——想象一下等待一百天讓新聞推薦系統開始推薦好的建議,或者等待新購買的家庭機器人廚師開始烹飪。因此,這篇論文探討了一種利用以前的經驗快速學習新任務的替代范式,稱為元強化學習(meta-RL)。在其核心,元強化學習試圖解決與標準的從零開始的RL不同的問題。元強化學習的目標不是嘗試學習一個全新的任務,而是構建可以快速適應新的,但與之前遇到的任務相關的任務的智能體,例如一個可以在新的家庭廚房中快速開始烹飪的機器人廚師,這得益于它以前的經驗(例如,在許多工廠廚房中的訓練)。我們主要關注典型的元強化學習環境,即智能體面臨一個新任務,并首先允許有少數嘗試(即,幾個階段)與任務交互,然后再被要求解決任務。例如,當被放置在一個新廚房中時,機器人廚師可能首先簡要探索以尋找食材和烹飪用具,然后利用這些信息來烹制美味的飯菜。最初的幾個階段構成了智能體的“快速學習”過程,因為預計智能體在這幾個階段過后能夠解決任務。

元強化學習中最初幾個階段的存在在標準的從零開始的RL中是沒有的挑戰,這就是如何最好地利用最初的階段以便之后能解決任務。直觀來說,學習如何有效地利用這些階段可能面臨兩個主要的挑戰:首先,有效地利用這些階段可能與解決任務大不相同,所以智能體可能需要學習兩種復雜的行為模式。例如,通過尋找食材來適應新廚房在質量上與烹飪一頓飯是不同的。其次,對于學習如何有效利用最初的階段沒有直接的監督——智能體在最初階段收集的信息(例如,食材的位置)可能在智能體學習如何實際使用這些信息之前并不明顯有用。因此,現有的元強化學習算法可能會遇到困難,尤其是在需要復雜且不同的行為來利用最初階段和解決任務的任務家族中。

為了應對這些挑戰,本文借鑒了一系列關于元強化學習的研究,始于Schmidhuber的開創性工作(Schmidhuber,1987年)。在深度RL時代的一些早期元強化學習方法(Finn等人,2017年;Houthooft等人,2018年)通過完全不針對最初的幾個階段進行優化,而是專注于構建能夠在給定適當數據的情況下有效適應新任務的智能體,來避開了這些挑戰。其他早期方法(Duan等人,2016年;Wang等人,2016a年)針對最初的幾個階段進行了優化,但是只是間接地從一個旨在最大化最終回報的端到端目標進行優化,對于最初的幾個階段并沒有特別的關注。后來,Stadie等人(2018年)提出了一個觀點,即最初的幾個階段最好用于收集信息或探索以找到高回報的區域,從而引領了一系列關于如何最好地進行這種探索的工作(Rakelly等人,2019年;Humplik等人,2019年;Zintgraf等人,2019年;Kamienny等人,2020年)。本文借鑒了Stadie等人(2018年)提出的信息收集觀點,并認為在最初的幾個階段有效地進行探索并因此快速適應新任務,需要仔細地將學習探索和學習實際解決任務分離開來。具體來說,在第三章中,我們展示了將這兩者結合在一起的算法遇到了一個雞和蛋的問題,即學習探索依賴于已經學會解決任務,反之亦然。然后,我們提出了一種算法,Dream,它將這兩者分離,從而在實際應用(第5章和第6章)上取得了更好的性能。

此外,我們還研究了如何在這種少樣本元強化學習環境中有效地利用預先收集的離線數據。具體來說,我們考慮了智能體在訓練期間可以訪問到其他策略在各種任務上預先收集的離線數據,而智能體的目標仍然是在僅經過幾個階段后在測試時解決新的相關任務。這些離線數據可以通過幾種方式來利用,包括學習動態模型(Finn等人,2016年),學習行為先驗(Singh等人,2021年),或提取有意義的技能或選項(Sutton等人,1999年;Kipf等人,2019年;Ajay等人,2020年)。我們選擇了最后這種方法,即從離線數據中提取常見的行為作為可以代替標準低級行為空間的高級技能,這使得學習新任務變得更容易。提取這種技能的常見方法是學習一個潛在變量模型來重建離線數據,其中潛在變量代表了提取出的技能。然而,我們發現這種方法是欠指定的,因為許多解決方案都可以等同地最大化似然性,包括退化的解決方案。然后,我們使用一個輔助目標來解決這種欠指定,這個目標最小化了提取技能的描述長度,這在直觀上鼓勵最大限度地提取常見的結構。我們的目標在實踐中結果在語義上有意義的技能,可以加速學習新任務。

在本論文的剩余部分,我們首先在第2章中正式定義我們的少樣本學習場景。然后,我們在兩個主要部分中討論快速學習新任務:在第一部分,我們討論了快速學習新任務的算法,并克服了上述挑戰,這些算法基于在智能體的少數嘗試中有效地探索以揭示解決任務所需的信息(第3章),以及從離線數據中提取可復用技能(第4章)。在第二部分,我們討論了由第一部分引入的算法所支持的兩個應用,具體來說,一種新的機器語言學習范式(第5章)和自動提供初級計算機科學作業的反饋(第6章)。最后,在第7章,我們通過討論(a)有效利用本論文中提出的元強化學習算法;以及(b)選擇適合元強化學習工具箱的應用來結束。盡管元強化學習仍是一個活躍發展的領域,并且其實用性在很大程度上取決于應用的選擇,但本論文的目標是為元強化學習實踐者提供適用于今天實際部署的工具。

付費5元查看完整內容

連續數據和離散數據之間的差異是計算機科學、數學以及認知科學等相關領域的一個基本問題。歷史上,大部分計算都是在離散領域進行的,但連接主義提供了一種使用連續向量表示數據的替代技術,這種替代技術在過去十年深度學習的崛起中愈發突出。本論文探索了將連續的高維數據(像深度學習那樣成功地處理)轉換為離散的緊湊表示(如傳統計算所用)的技術。五個主要章節每一個都介紹了一個新的技術,這些技術都有助于實現這個目標,但也可以作為一個獨立的研究項目來閱讀。這些技術主要涉及深度學習和聚類,并且,與一般的表示學習一致,主要(但不完全)處于無監督的環境中。有些章節分別關注深度學習或聚類,以形成連續數據的離散表示。其他章節則探討如何在一個單一的端到端學習系統中結合深度學習和聚類。這樣的組合本身就涉及到連續和離散之間的交界,因為深度學習操作的是前者,而聚類操作的是后者。能夠在連續和離散的世界之間搭建橋梁,也符合人工智能模擬人類智能的原始目標,因為人類認知的重要部分就是在連續和離散的世界之間的運動。我們的感官輸入主要是連續的,但我們使用的自然語言和推理裝置大都是離散的。有朝一日能夠像人類一樣思考和行動的機器也必須學會做同樣的事。

付費5元查看完整內容

人類具有持續學習而不忘記的非凡能力,并使自己的行為適應不斷變化的環境要求。雖然以前的工作集中在闡明靈活的依賴于上下文的信息處理的基礎機制,但對信息在人腦中表示的格式以及這如何促進持續的任務表現知之甚少。本論文的目的是為依賴上下文的處理開發計算信息的表示學習理論,并在健康人類參與者的行為和神經成像記錄中測試這些理論。

通過一系列神經網絡模擬、行為和神經成像研究,以及對從macaque FEF錄制的免費可用數據集的重新分析,我收集了支持早期認知控制理論的證據,該理論假設,前額葉皮質實施了有利于任務相關而非任務無關信息的門控策略,以服務于特定上下文的任務目標。在第3章中,我提出了一個計算框架,用于研究人工神經網絡的上下文相關決策的表示學習,并演示了相同的架構如何學習高維和任務無關的表示,或低維和任務特定的表示。在第4章中,我在學習執行類似的上下文依賴決策任務的人類參與者的fMRI記錄中測試了這些模擬的預測,發現額頂葉區域的表示是高度特定于任務的,不同任務的相關信息映射到正交編碼軸上。在第5章中,我將介紹一個人類持續學習的模型,其中門控信號是通過一個簡單的Hebbian機制學習的。最后,在第6章中,我測試了之前報告的blocked相比于泛化到抽象規則的交叉訓練的好處,以及它們是否促進了跨域遷移。本文介紹了持續表示學習的計算理論,并提供了人類大腦使用門控策略在特定上下文的子空間中表示相關信息的經驗證據。

付費5元查看完整內容

圖聚類是無監督學習中的一個基本問題,在計算機科學和分析現實世界數據中有著廣泛的應用。在許多實際應用中,我們發現聚類具有重要的高層結構。這在圖聚類算法的設計和分析中經常被忽視,因為這些算法對圖的結構做了強烈的簡化假設。本文討論了聚類結構是否可以有效學習的自然問題,并描述了四個用于學習圖和超圖中聚類結構的新算法結果。論文的第一部分對經典的譜聚類算法進行了研究,并對其性能進行了更嚴格的分析。這一結果解釋了為什么它在更弱、更自然的條件下工作,并有助于縮小譜聚類算法的理論保證與其優秀的經驗性能之間的差距。

論文的第二部分在前一部分的理論保證的基礎上,表明當底層圖的簇具有一定的結構時,少于k個特征向量的譜聚類能夠比使用k個特征向量的經典譜聚類產生更好的輸出,其中k是聚類的個數。本文首次討論和分析了少于k個特征向量的譜聚類的性能,并表明一般的聚類結構可以用譜方法學習。第三部分考慮使用局部算法高效地學習簇結構,其運行時間僅依賴于目標簇的大小,且與底層輸入圖無關。經典的局部聚類算法的目標是找到一個與圖其他部分稀疏連接的簇,本文的這一部分提出了一種局部聚類算法,它可以找到一對彼此緊密連接的簇。這一結果表明,即使在現實世界中普遍存在的大圖中,某些聚類結構也可以在局部環境中有效地學習。

論文的最后研究了超圖中密集連接聚類的學習問題。該算法基于一種新的熱擴散過程,擴展了最近在超圖譜理論方面的一系列工作。它允許在建模對象的高階關系的數據集中學習簇的結構,可以應用于有效分析在實踐中發生的許多復雜數據集。在不同領域的合成數據集和真實數據集上進行了廣泛的評估,包括圖像分類和分割、遷移網絡、合著網絡和自然語言處理。實驗結果表明,新提出的算法是實用、有效的,可以立即應用于實際數據的聚類結構學習。

付費5元查看完整內容

機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。

首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。

然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。

最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。

付費5元查看完整內容
北京阿比特科技有限公司