鑒于機器人在現實世界中采取的行動具有重要影響,必須確保它們的部署在設計上盡可能安全和可信。因此,本論文解決了一個稱為分布偏移的問題。當深度學習系統暴露于與其訓練數據分布不同的數據時,就會發生分布偏移,從而導致不可預測和意外的部署場景。本論文針對語義分割任務,研究了如何檢測由于分布偏移而導致的錯誤,以防止這些危險場景的發生。在討論了分布不確定性的本質,即由于分布偏移引起的錯誤原因,以及現有文獻之后,本論文提出了三種方法,這些方法在駕駛數據的語義分割過程中進行分布不確定性估計。第一種方法將問題視為大規模的分布外檢測問題,其中使用大規模圖像數據集訓練一個分割神經網絡,以區分分布內和分布外的訓練實例。該訓練方法涉及對比損失函數和數據增強程序,以減少分布內和分布外實例之間的外觀差異。第二種方法借鑒了第一種方法的經驗,即使用本質上與分布內圖像相比分布偏移較小的分布外訓練圖像,而不是依賴數據增強。這使得區分它們的任務更加具有挑戰性,因此學習到的不確定性估計更加穩健。出于這個原因,該方法設計使用一個未標注的分布偏移駕駛數據集,并提出了一種訓練程序以解決缺乏標簽的問題。最后,第三種方法結合了前兩種方法的思路,通過使用大規模圖像數據學習通用特征表示,并使用未標注的分布偏移駕駛數據集將這種表示調整為針對駕駛圖像的分布不確定性估計。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
監督學習通過使用標記數據集訓練模型,由于其高成本以及泛化性和魯棒性問題,正變得不那么流行。這并不令人意外,因為圖像和語言等數據十分復雜,無法通過單一標簽準確表示。使用這種方法訓練的模型往往學習到與標簽虛假相關的特征,導致在現實世界中表現不佳。本論文探討了使用多種數據源進行表示學習,如圖像和語言或照片和素描。我們通過生成模型和判別模型證明,在多種模態或領域之間提取共同的抽象概念可以獲得更準確和更具泛化能力的表示。此外,我們還研究了提高這些模型數據效率的方法,包括通過對比風格目標使用更少的多模態對,以及通過掩碼圖像建模生成多模態對。最后,我們系統地評估了不同學習目標在分布偏移任務上的魯棒性,以了解它們在現實世界中的實用性。假設你是一名外星人,任務是掌握“狗”的概念,作為征服地球的第一步。如果你的同事Groot建議你通過查看一百萬張狗的圖片并將它們標記為“0”,以及另一百萬張非狗的圖片并將它們標記為“1”來完成這個任務,你可能會覺得他在故意破壞你的職業生涯。相反,更有效(也更有趣)的方式是親自訪問地球,與一些狗互動——讓你有機會看、聽、聞和觸摸它們。事實上,地球上的研究表明,人類在現實世界中的學習涉及多模態或多領域的觀察和互動,例如通過視覺觀察、語言描述或物理互動來感知同一個對象(Stein et al., 2009; Quiroga et al., 2009)。這些不同模態的聯合學習已被證明有助于通過這些模態的表達來促進推理和理解(Yildirim, 2014; Bauer and Johnson-Laird, 1993; Fan et al., 2018)。
盡管有這些見解,大多數機器學習模型仍然使用Groot倡導的單模態監督學習模式進行訓練,其中通過標簽來訓練模型以提取特征。這種模式被用于幾乎所有計算機視覺任務的最先進模型中(Bhat et al., 2021; Zhai et al., 2022; Liu et al., 2022a; Li et al., 2022a):對于圖像分類,標簽是圖像所屬類別的索引;對于深度估計,使用場景中物體的每像素距離來監督模型的學習。雖然這種方法對于某些任務可能有效,但它存在幾個潛在的缺陷。首先,獲取足夠數量的標記數據既昂貴又耗時。此外,這些算法可能脆弱且容易過擬合,尤其是在處理高維和復雜數據時。它們在處理類別分布不均衡的數據集時也可能會遇到困難(Abd Elrahman and Abraham, 2013; Buda et al., 2018)。最近的研究還揭示了使用監督學習訓練的模型容易受到對抗性攻擊(Szegedy et al., 2013)、易受簡單性偏見的影響(Shah et al., 2020),并且在分布外(OOD)泛化性能較差(Koh et al., 2021; Gulrajani and Lopez-Paz, 2020)。
多模態學習,利用不同模態之間復雜而微妙的關系,可能是解決監督學習挑戰的潛在解決方案。除了前面提到的人類學習啟示,多模態學習允許模型通過利用不同模態之間的復雜和微妙的關系來學習抽象概念,從而對給定問題或任務有更全面的理解。這可能解決監督學習從簡單、潛在噪聲和偏見標簽中學習時遇到的魯棒性問題;此外,多模態數據更容易獲取且無需人工標注,因為可以簡單地利用不同感知模態之間的時間一致性。例如,YouTube上的烹飪教學視頻包含三種感知模態:圖像(視頻)、文本(字幕)和音頻(聲音軌道)。可以認為這些模態互為標簽,不同之處在于這些“標簽”更復雜,可能包含輸入模態中未包含的信息。 在本論文中,我們研究了從多模態數據中學習表示。由于目標是探索聯合嵌入來自多個源數據的好處,我們將“模態”的定義從傳統的視覺和語言等感知模態放寬到不同的數據分布,例如狗的素描和真實照片,或同一圖像的兩個隨機增強視圖。這使我們能夠在多種機器學習設置下研究聯合嵌入問題,從領域泛化、自監督學習到視覺-語言生成模型。我們通過生成模型和判別模型展示了從多模態數據中學習的優勢,無論是在流行基準測試中的表現還是在泛化等魯棒性方面;我們還首次提出了多模態深度生成模型的系統需求。此外,受限于我們當時的計算資源和合適的數據集,我們還研究了提高多模態學習數據效率的方法,包括嚴格使用更少的多模態對和生成多模態數據。接下來,我們介紹本論文在這些不同主題上的貢獻如何組織。
貢獻和組織摘要 第2章提供了理解本論文其余部分所需的背景,包括所研究問題的介紹以及全面的文獻綜述。 在第3章中,我們在生成模型設置下研究多模態學習,提出了一種新的多模態VAE,名為MMVAE,它為其所有輸入模態學習高質量、平衡的表示。重要的是,我們的工作是第一個能夠在測試時無需輔助組件進行跨模態生成(例如語言→視覺,視覺→語言)的多模態VAE。此外,我們還提出了多模態VAE應滿足的四個需求,這些需求現已被多模態VAE領域廣泛采用。 第4章繼續研究多模態VAE,并著眼于提高此類模型的數據效率。我們提出了一個可用于任何多模態VAE的對比框架,并通過實驗證明我們的框架大大減少了達到同一性能水平所需的標記多模態對的數量;請注意,我們將對比目標適配于多模態學習的工作早于CLIP(Radford et al., 2021),在發表時具有新穎性。 在第5章中,我們從判別角度重新審視多模態學習問題,研究領域泛化,即模型必須利用多個源領域之間的共性,以便在未見過的目標領域中表現良好。我們提出了一種名為Fish的方法,通過最大化域間梯度內積來鼓勵學習這些共性。 最后,在第6章中,我們研究了自監督學習(SSL),其學習原理可以被認為本質上是“多模態”的,因為學習目標依賴于保持同一圖像的兩個增強視圖之間的共性。我們提出使用對圖像編碼器生成的對抗性掩碼遮蔽一個增強視圖,使我們能夠遮蔽圖像中的完整語義實體,從而從圖像編碼器中學習到更高質量的表示。 值得注意的是,本論文主體所涵蓋的工作研究了三種不同的表示學習機制:基于重構的生成模型(VAE)、監督學習和自監督學習。大多數模型評估遵循標準統計假設,即訓練和測試數據來自相同分布。然而,在機器學習模型的部署中,這一假設并不成立。因此,在附錄A中,我們研究了這些不同機制的方法如何在未見過的分布中泛化,以評估它們在現實世界中的表現。通過精心設計的實驗和評估指標,我們發現令人驚訝的是,特別是自監督學習,在分布變化較大的情況下,泛化效果更好。由于這項工作與論文的多模態主題不太契合,因此我們將其排除在正文之外,感興趣的讀者可參考附錄。
這篇論文探討了易處理概率建模原理在因果學習與推理中的應用。易處理概率建模是近年來出現的一個有前景的范式,專注于能夠進行精確和高效的概率推理的概率模型。特別地,概率電路框架為基于模型結構屬性的各種推理查詢提供了一個系統性的語言,近期的提案則擴展了表達能力和易處理性的邊界。然而,并非所有關于一個系統的信息都能通過觀測變量的概率分布來捕獲;例如,兩個變量之間的因果方向僅憑數據是無法區分的。為了形式化這一點,Pearl的因果層次結構(也稱為信息層次結構)劃分了三個層次的因果查詢,即關聯性、干預性和反事實性,這些需要越來越多地了解由結構因果模型和相關因果圖表示的底層因果系統。受此啟發,我們調查了易處理因果建模的可能性;也就是說,針對因果查詢類型進行精確和高效的推理。特別地,我們確定了三種場景,由模型者可用的知識量來區分:即當完整的因果圖/模型可用時,當僅觀測分布和可識別的因果估計量可用時,以及當對因果圖存在額外的不確定性時。在這些場景中,我們提出了能夠進行有效和精確因果推理的概率電路表示、結構屬性和算法。這些模型與易處理概率模型有所不同,因為它們不僅可以回答不同的概率推理查詢,還可以涉及不同的干預和甚至不同的因果圖的因果查詢。然而,我們也確定了一些關鍵局限性,這些局限性讓人懷疑是否存在一個完全通用的易處理因果模型。我們的貢獻還擴展了概率電路的理論,通過提出新的屬性和電路架構,從而使得包括但不限于因果推理估計量在內的高級推理查詢的分析成為可能。
深度生成模型(DGM)將深度神經網絡與生成模型結合,以學習感興趣數據的底層生成機制。這已經成為從數據中提取知識的重要方法,適用于機器學習和人工智能。然而,盡管具有潛在的潛力,學習和應用DGM在不同領域中仍然存在許多挑戰。因此,本論文的重點是理解、改進和應用不同的深度生成模型。
首先,我們介紹了不同DGM的基本原理,包括變分自動編碼器(VAE)、基于流的模型、生成對抗網絡(GAN)和基于能量的模型(EBM)。我們還提出了VAE的新對應物:變分潛在優化(VLO),它不需要編碼器結構。此外,我們提供了一種新的角度來理解EBM的生成過程,建立了EBM和GAN之間的聯系,并設計了一種新方法來提高EBM樣本質量。
接下來,我們提出了兩種混合型DGM,以改善當前模型的生成質量。首先,我們將基于流的模型和變分自動編碼器結合,以提高基于自動編碼器的生成模型的生成質量。其次,我們借鑒了指數傾斜的思想,將基于能量的模型與其他基于似然性的生成模型相結合,以獲得更好的樣本。
最后,我們進行了與現代深度生成模型相關的各種應用,包括將生成模型用作基于似然性方法的離群分布(OOD)檢測,并設計了可控的人臉生成模型。我們提出了一種新的OOD檢測分數,稱為似然性遺憾,以幫助使用VAE檢測OOD樣本。此外,我們建議在當前基于關鍵點的人臉重演模型中添加新結構,并將其與3D可變模型相結合,以提高其生成質量和泛化能力。
從零開始的強化學習通常需要大量樣本來學習復雜任務,但是許多真實世界的應用場景卻只需要從少量樣本中進行學習。例如,一個有效的新聞推薦系統必須能夠在僅觀察到少量推薦結果后,適應新用戶的口味。為了滿足那些需要快速學習或適應新任務的應用的需求,本論文專注于元強化學習(meta-RL)。具體來說,我們考慮的場景是,智能體會反復接觸到一些來自相同任務族的新任務。智能體必須在極少的嘗試中學會每個新任務,這被形式化為與任務交互的幾個階段。智能體如何利用這些少量嘗試至關重要,因為這決定了它是否能夠隨后解決任務,但學習如何有效使用這些嘗試是具有挑戰性的,因為這里沒有直接的監督。
在本論文中,我們主張有效地利用這些少量的嘗試——因此,快速解決新任務需要仔細地將學習如何利用少量嘗試與學習解決任務相分離。具體來說,我們證明了現有的元強化學習算法如果不分離這兩個問題,就會因為雞和蛋的問題而無法學習到復雜的策略來有效地利用這些少量的嘗試。雞和蛋的問題是指,有效地利用這些少量嘗試的學習依賴于已經學會解決任務,反之亦然。我們用一個新的稱為Dream的算法來解決這個問題,它將這兩個問題分開。此外,我們還研究了如何在這個場景中利用預先收集的離線數據。我們證明了流行的從離線數據中提取技能以快速學習新任務的方法使用了一個具有退化解決方案的欠規定目標,并通過輔助目標來解決這個問題,使優化問題明確規定。我們的算法使得元強化學習中以前未探索的應用成為可能。具體來說,我們表明:(1) Dream通過在解決并不一定需要語言的任務的過程中學習語言,為無需大型文本數據集的語言學習開啟了新的范式。例如,在我們的實驗中,Dream在學習如何在各種建筑中導航到特定辦公室的過程中,學會了閱讀帶有語言描述的建筑平面圖;(2) Dream可以幫助自動評估通常需要大量手動評級的交互式計算機科學作業。我們在斯坦福大學的入門計算機科學課程中部署了Dream來協助評估Breakout作業,并發現它在不犧牲準確性的情況下將評估速度提高了28%,相當于節省了大約10小時的時間。
雖然在強化學習(RL)中從零開始(tabula rasa)的訓練已經取得了巨大的成功,但這需要大量的數據。例如,從零開始訓練以在圍棋(Silver等人,2017年)、Dota 2(Berner等人,2019年)和星際爭霸 II(Vinyals等人,2019年)中取得專家級的成績,都需要數百天的TPU或GPU訓練時間,相當于從常規云服務提供商那里花費數萬或數十萬美元。在許多應用領域,對單一任務進行如此長時間的訓練,或者僅僅是獲取這樣的訓練數據都是不切實際的——想象一下等待一百天讓新聞推薦系統開始推薦好的建議,或者等待新購買的家庭機器人廚師開始烹飪。因此,這篇論文探討了一種利用以前的經驗快速學習新任務的替代范式,稱為元強化學習(meta-RL)。在其核心,元強化學習試圖解決與標準的從零開始的RL不同的問題。元強化學習的目標不是嘗試學習一個全新的任務,而是構建可以快速適應新的,但與之前遇到的任務相關的任務的智能體,例如一個可以在新的家庭廚房中快速開始烹飪的機器人廚師,這得益于它以前的經驗(例如,在許多工廠廚房中的訓練)。我們主要關注典型的元強化學習環境,即智能體面臨一個新任務,并首先允許有少數嘗試(即,幾個階段)與任務交互,然后再被要求解決任務。例如,當被放置在一個新廚房中時,機器人廚師可能首先簡要探索以尋找食材和烹飪用具,然后利用這些信息來烹制美味的飯菜。最初的幾個階段構成了智能體的“快速學習”過程,因為預計智能體在這幾個階段過后能夠解決任務。
元強化學習中最初幾個階段的存在在標準的從零開始的RL中是沒有的挑戰,這就是如何最好地利用最初的階段以便之后能解決任務。直觀來說,學習如何有效地利用這些階段可能面臨兩個主要的挑戰:首先,有效地利用這些階段可能與解決任務大不相同,所以智能體可能需要學習兩種復雜的行為模式。例如,通過尋找食材來適應新廚房在質量上與烹飪一頓飯是不同的。其次,對于學習如何有效利用最初的階段沒有直接的監督——智能體在最初階段收集的信息(例如,食材的位置)可能在智能體學習如何實際使用這些信息之前并不明顯有用。因此,現有的元強化學習算法可能會遇到困難,尤其是在需要復雜且不同的行為來利用最初階段和解決任務的任務家族中。
為了應對這些挑戰,本文借鑒了一系列關于元強化學習的研究,始于Schmidhuber的開創性工作(Schmidhuber,1987年)。在深度RL時代的一些早期元強化學習方法(Finn等人,2017年;Houthooft等人,2018年)通過完全不針對最初的幾個階段進行優化,而是專注于構建能夠在給定適當數據的情況下有效適應新任務的智能體,來避開了這些挑戰。其他早期方法(Duan等人,2016年;Wang等人,2016a年)針對最初的幾個階段進行了優化,但是只是間接地從一個旨在最大化最終回報的端到端目標進行優化,對于最初的幾個階段并沒有特別的關注。后來,Stadie等人(2018年)提出了一個觀點,即最初的幾個階段最好用于收集信息或探索以找到高回報的區域,從而引領了一系列關于如何最好地進行這種探索的工作(Rakelly等人,2019年;Humplik等人,2019年;Zintgraf等人,2019年;Kamienny等人,2020年)。本文借鑒了Stadie等人(2018年)提出的信息收集觀點,并認為在最初的幾個階段有效地進行探索并因此快速適應新任務,需要仔細地將學習探索和學習實際解決任務分離開來。具體來說,在第三章中,我們展示了將這兩者結合在一起的算法遇到了一個雞和蛋的問題,即學習探索依賴于已經學會解決任務,反之亦然。然后,我們提出了一種算法,Dream,它將這兩者分離,從而在實際應用(第5章和第6章)上取得了更好的性能。
此外,我們還研究了如何在這種少樣本元強化學習環境中有效地利用預先收集的離線數據。具體來說,我們考慮了智能體在訓練期間可以訪問到其他策略在各種任務上預先收集的離線數據,而智能體的目標仍然是在僅經過幾個階段后在測試時解決新的相關任務。這些離線數據可以通過幾種方式來利用,包括學習動態模型(Finn等人,2016年),學習行為先驗(Singh等人,2021年),或提取有意義的技能或選項(Sutton等人,1999年;Kipf等人,2019年;Ajay等人,2020年)。我們選擇了最后這種方法,即從離線數據中提取常見的行為作為可以代替標準低級行為空間的高級技能,這使得學習新任務變得更容易。提取這種技能的常見方法是學習一個潛在變量模型來重建離線數據,其中潛在變量代表了提取出的技能。然而,我們發現這種方法是欠指定的,因為許多解決方案都可以等同地最大化似然性,包括退化的解決方案。然后,我們使用一個輔助目標來解決這種欠指定,這個目標最小化了提取技能的描述長度,這在直觀上鼓勵最大限度地提取常見的結構。我們的目標在實踐中結果在語義上有意義的技能,可以加速學習新任務。
在本論文的剩余部分,我們首先在第2章中正式定義我們的少樣本學習場景。然后,我們在兩個主要部分中討論快速學習新任務:在第一部分,我們討論了快速學習新任務的算法,并克服了上述挑戰,這些算法基于在智能體的少數嘗試中有效地探索以揭示解決任務所需的信息(第3章),以及從離線數據中提取可復用技能(第4章)。在第二部分,我們討論了由第一部分引入的算法所支持的兩個應用,具體來說,一種新的機器語言學習范式(第5章)和自動提供初級計算機科學作業的反饋(第6章)。最后,在第7章,我們通過討論(a)有效利用本論文中提出的元強化學習算法;以及(b)選擇適合元強化學習工具箱的應用來結束。盡管元強化學習仍是一個活躍發展的領域,并且其實用性在很大程度上取決于應用的選擇,但本論文的目標是為元強化學習實踐者提供適用于今天實際部署的工具。
連續數據和離散數據之間的差異是計算機科學、數學以及認知科學等相關領域的一個基本問題。歷史上,大部分計算都是在離散領域進行的,但連接主義提供了一種使用連續向量表示數據的替代技術,這種替代技術在過去十年深度學習的崛起中愈發突出。本論文探索了將連續的高維數據(像深度學習那樣成功地處理)轉換為離散的緊湊表示(如傳統計算所用)的技術。五個主要章節每一個都介紹了一個新的技術,這些技術都有助于實現這個目標,但也可以作為一個獨立的研究項目來閱讀。這些技術主要涉及深度學習和聚類,并且,與一般的表示學習一致,主要(但不完全)處于無監督的環境中。有些章節分別關注深度學習或聚類,以形成連續數據的離散表示。其他章節則探討如何在一個單一的端到端學習系統中結合深度學習和聚類。這樣的組合本身就涉及到連續和離散之間的交界,因為深度學習操作的是前者,而聚類操作的是后者。能夠在連續和離散的世界之間搭建橋梁,也符合人工智能模擬人類智能的原始目標,因為人類認知的重要部分就是在連續和離散的世界之間的運動。我們的感官輸入主要是連續的,但我們使用的自然語言和推理裝置大都是離散的。有朝一日能夠像人類一樣思考和行動的機器也必須學會做同樣的事。
人類具有持續學習而不忘記的非凡能力,并使自己的行為適應不斷變化的環境要求。雖然以前的工作集中在闡明靈活的依賴于上下文的信息處理的基礎機制,但對信息在人腦中表示的格式以及這如何促進持續的任務表現知之甚少。本論文的目的是為依賴上下文的處理開發計算信息的表示學習理論,并在健康人類參與者的行為和神經成像記錄中測試這些理論。
通過一系列神經網絡模擬、行為和神經成像研究,以及對從macaque FEF錄制的免費可用數據集的重新分析,我收集了支持早期認知控制理論的證據,該理論假設,前額葉皮質實施了有利于任務相關而非任務無關信息的門控策略,以服務于特定上下文的任務目標。在第3章中,我提出了一個計算框架,用于研究人工神經網絡的上下文相關決策的表示學習,并演示了相同的架構如何學習高維和任務無關的表示,或低維和任務特定的表示。在第4章中,我在學習執行類似的上下文依賴決策任務的人類參與者的fMRI記錄中測試了這些模擬的預測,發現額頂葉區域的表示是高度特定于任務的,不同任務的相關信息映射到正交編碼軸上。在第5章中,我將介紹一個人類持續學習的模型,其中門控信號是通過一個簡單的Hebbian機制學習的。最后,在第6章中,我測試了之前報告的blocked相比于泛化到抽象規則的交叉訓練的好處,以及它們是否促進了跨域遷移。本文介紹了持續表示學習的計算理論,并提供了人類大腦使用門控策略在特定上下文的子空間中表示相關信息的經驗證據。
本文的目的是表明,研究機器學習系統中潛在的組成和函數結構使我們能夠更好地理解它們。本文探索了機器學習許多子領域的范疇理論表述,包括優化、概率、無監督學習和有監督學習。本文首先研究了當用一般的范疇理論結構取代梯度時,各種優化算法的行為。證明了這些算法的關鍵性質在非常寬松的假設下是成立的,并通過數值實驗證明了這一結果。本文還探索了動態系統的范疇論視角,使我們能夠從簡單操作的組成中構建強大的優化器。其次,從范疇理論的角度研究了概率建模與梯度優化之間的關系;本文從這個角度來研究最大似然估計如何在從統計模型到監督學習算法的轉換中保持某些關鍵結構。
//ora.ox.ac.uk/objects/uuid:ec72e338-d95e-4bd6-9412-7ac76b7ddc15
接下來,我們從函數的角度來研究無監督學習。我們基于非監督學習算法的函式表示的范疇論性質,開發了非監督學習算法的分類法,并證明了這些分類法是算法行為的預測。用這個視角推導出了一系列用于聚類和流形學習的新無監督學習算法,并證明了這些新算法在真實世界數據上可以優于常用的替代算法。還用這些工具證明了關于流行的無監督學習算法的行為和局限性的新結果,包括細化界限和在噪聲面前的穩定性。最后,轉向監督學習,并證明數據科學和機器學習中許多最常見的問題都可以表示為Kan擴展。本文用這個角度推導出新的分類和監督聚類算法。同時在真實數據上對這些算法的性能進行了測試。
**本文研究了因果表示學習問題,即從高維的低維觀測中發現低維的高層次因果變量及其因果關系,以實現機器學習中的泛化和自適應。**考慮在監督學習中為泛化學習因果表示。由于虛假的相關性,預測模型往往無法泛化到與訓練時使用的分布不同的環境。本文提出一個框架,在基本因果圖的相當一般的假設下有理論保證,首先從觀察中確定給定目標的直接原因,然后用這些原因來構建不變的預測器,這些預測器能夠泛化到未見過的測試環境。
**其次,我們考慮在模仿和強化學習中學習因果表示的泛化。**其中一個基本的挑戰是學習策略、表示或動態,這些策略、表示或動態不會建立在虛假的相關性之上,并且不會泛化到它們所訓練的特定環境之外。我們從一個統一的觀點來研究這些泛化問題。為此,我們提出了一個框架來解決它們,在溫和的環境變化假設下,理論保證了可識別性和可泛化性。關鍵思想是,通過利用環境變量之間的結構關系(即,觀察、狀態、行動和獎勵),我們首先構建一個忽略虛假特征的數據表示,然后在策略、表示和動態方面構建不變預測因子。我們從理論上證明,所得到的策略、表示和動態可以很好地泛化到未見的環境。
**最后,我們考慮了強化學習中適應的學習因果表示。**除了泛化之外,強化學習的另一個基本挑戰是如何在只提供少量樣本的情況下快速使策略適應新環境。通過利用環境變量的結構關系,我們構建了一個簡約的圖表示,它分別編碼了用于策略適應的最小和充分的環境特定因素集和環境共享因素集的內容和位置。我們表明,這樣的表示允許我們以一種只需要少量樣本的有效方式使策略適應目標環境,而不需要進一步的策略優化。
在這篇論文中,我們考慮了多模態在機器學習決策和協調問題中的作用。我們提出使用一系列多模態概率方法,使用(有限)混合模型的擴展來解決時間序列預測的挑戰,神經網絡中的高效不確定性量化,對抗模型和多智能體協調。在論文的第一部分中,我們關注多模態不確定性估計在時間序列預測中的應用,表明這種方法提供了易于操作的、有益的替代點估計方法,點估計仍然是預測的普遍選擇方法。我們討論了多模態不確定性的意義,并展示了更熟練的方法估計后驗目標分布的必要性。我們提出了一系列計算高效,但有能力的方法來估計豐富的多模態后驗分布。我們將我們的模型與用點測量或單峰分布估計不確定性的技術進行了比較,并在生成對抗網絡的啟發下,對所開發的方法進行了擴展,以此結束本部分。我們表明,該方法對加性噪聲提供了最先進的魯棒性,使其特別適用于包含大量未知隨機的數據集。
在本工作的第二部分,我們研究了協作多智能體系統(CMASs)的多模態模型的重要性,并將我們的工作擴展到采用概率方法。到目前為止,這一領域的大多數研究都局限于考慮自玩范式,即使這些方法解決了各種具有挑戰性的問題。雖然這些進步是重要的,但在自玩中使用任意約定會導致當智能體在此設置之外玩時的協調問題。我們考慮了特殊的CMAS設置,遠離了自玩框架。這是機器學習中一個特別具有挑戰性的領域,也是近年來備受關注的一個領域,為AI智能體在現實世界中能夠與人類(和其他智能體)有效交互提供了希望。我們通過在其他主體的策略上建立后驗信念來解決特別協調問題。這是通過吉布斯抽樣的擴展來實現的,以獲得接近最優的即席性能。我們在具有挑戰性的游戲Hanabi上測試了我們的算法,Hanabi是合作多智能體強化學習中最著名的測試平臺之一,近年來已成為一個具有發展勢頭的基準。我們表明,我們的方法可以實現強大的交叉游戲,即使與看不到的合作伙伴,實現成功的臨時協調,無需預先了解合作伙伴的戰略。
在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。
//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。