貝葉斯不確定性的量化是許多機器學習應用的關鍵元素。為此,開發了近似推理算法[176],以相對較低的成本執行推理。盡管最近將近似推理擴展到"大模型×大數據"機制取得了進展,但仍存在許多公開挑戰。例如,如何正確地量化復雜、不可識別的模型(如神經網絡)的參數不確定性?如何正確處理由缺失數據引起的不確定性,并以可擴展的方式進行學習/推理?此外,如何優化地收集新信息,使缺失數據的不確定性進一步減少,從而做出更好的決策?本文對這些研究問題提出了新的研究方向和新的技術貢獻。本文分為兩個部分(主題A和主題B)。在主題A中,我們考慮在監督學習設置下量化模型的不確定性。為了克服參數空間推理的一些困難,本文提出了一個新的研究方向,稱為函數空間近似推理。也就是說,通過將監督概率模型視為隨機過程(對函數的度量),我們現在可以通過另一類(更簡單的)隨機過程來近似預測函數的真實后驗。為函數空間推理提供了兩種不同的方法,并證明它們返回更好的不確定性估計,以及在復雜模型上改進的經驗性能。在主題B中,我們考慮了無監督學習環境下缺失數據不確定性的量化。本文提出一種基于深度生成模型的缺失數據不確定性量化新方法。它允許我們擺脫傳統方法的計算負擔,并執行準確和可擴展的缺失數據填補。此外,利用生成模型返回的不確定性估計,提出了一個信息論框架,用于高效、可擴展和個性化的主動信息獲取。這使我們能夠最大限度地減少缺失數據的不確定性,并根據新信息做出改進的決策。
在許多任務中,神經網絡和深度學習的預測能力目前都很出色。因此,這項技術被應用于各種各樣的應用中,在我們的日常生活中發揮著重要作用。因此,這項技術的潛在改進已經成為一個更加重要的話題。**在本文中,我們致力于改進深度學習模型的兩個重要方面;表示預測的不確定性以及對大量計算和資源的內在需求的能力。我們通過介紹和陳述本文要回答的兩個主要研究問題來開始這項工作。我們進一步為本文將使用的主要技術提供必要的背景知識。本文描述了神經網絡和貝葉斯神經網絡,即其參數(又稱權重和偏差)是隨機的,并由概率分布控制的神經網絡,而不是固定的,以及(變分)貝葉斯推理,一種根據觀測數據更新參數概率分布的方法。**通過剪枝(pruning)和量化(quantization)簡要介紹了神經網絡壓縮和量化(quantization),前者通過顯式設置為零來刪除不相關的參數和網絡的部分內容,后者以硬件友好的格式(如定點)表示網絡的權重和中間表示的數值。
**本文的第一部分描述了提高神經網絡不確定性估計能力的三個貢獻。前兩者圍繞著在我們觀察數據時,通過更好地逼近其參數的概率分布來提高變分貝葉斯神經網絡的不確定性質量。**本文提出一種簡單的方法,通過矩陣變量高斯分布在神經網絡權重之間引入線性依賴;它們是隨機矩陣上的分布,可以很容易地對每層中的輸入和輸出神經元之間的相關性進行建模,這種能力會導致性能的提高,正如我們實驗表明的那樣。提出了乘歸一化流,這是一個通用框架,引入了網絡參數之間的非線性依賴關系。這是通過結合輔助隨機變量和參數化雙射來實現的,以一種允許每層權重之間靈活的相關性,同時仍然是計算可處理的。實驗表明,與之前工作的簡單高斯變分近似相比,不確定性質量得到了提高。這部分的最后一個貢獻對應于功能神經過程,一個采用不同視角的模型;它不是假設概率分布并對神經網絡權值進行(變分)推理,而是采用隨機過程的建模框架,從而假設概率分布并對神經網絡的函數空間進行推理。這有一個額外的好處,即更容易的推理和更直觀的建模任務,因為它允許我們推理數據集中點之間的關系,通過引入一個“參考”點集,而不是不可解釋的神經網絡參數來實現。實驗表明,這種模型提供了更好的不確定性質量,同時保持了可比的預測性能。
**第二部分介紹了三種新的壓縮技術,它們可以讓我們學習更小、更快的神經網絡,從而減少所需的計算量和資源。**第一個貢獻對應于貝葉斯壓縮,這是一種變分貝葉斯推理過程,通過對網絡參數進行精心選擇的概率分布,可以通過聯合修剪和量化來揭示高性能和計算高效的架構。雖然這種方法可能導致高度壓縮的架構,但它缺乏對特定任務或問題進行修剪或量化的細粒度自適應。因此,其他兩項貢獻旨在分別處理剪枝和量化。第二個貢獻對應于一種新的L0范數優化方法,L0范數是神經網絡稀疏性的黃金標準。本文提出一種通用技術,通過適當數量的噪聲,可以對不可微L0范數進行基于梯度的優化。實驗表明,這種方法可以產生準確和高度稀疏的模型,同時它可以通過條件計算和適當的軟件進行稀疏訓練,這也可以促進更快的訓練。最后,為了最后的貢獻,我們采用類似的思想并引入松弛量化;基于梯度的優化過程,允許學習神經網絡,其中參數和激活位于(自適應)量化網格上。經驗表明,這允許在大規模任務中訓練準確的神經網絡,同時每權重和激活只需4位。最后,對研究問題進行了回答,同時討論了所提出方法的缺陷和缺點,并指出了有希望的研究方向。
機器學習被廣泛應用于各種不同的學科,以開發感興趣的變量的預測模型。然而,構建這樣的解決方案是一個耗時且具有挑戰性的學科,需要經過高度訓練的數據科學家和領域專家。作為回應,自動化機器學習(AutoML)領域旨在通過自動化減少人工工作量并加快開發周期。由于超參數在機器學習算法中無處不在,以及調優的超參數配置可以對預測性能產生影響,超參數優化是AutoML的一個核心問題。最近,深度學習的興起推動了神經架構搜索(NAS),這是一個專注于自動化神經網絡設計的超參數優化問題的專門實例。對于大規模調優問題,網格搜索和隨機搜索等簡單的超參數優化方法在計算上是難以處理的。因此,本文的重點是開發高效和有原則的超參數優化和NAS方法。
**在回答以下問題方面取得了進展,目的是開發更高效和有效的自動化機器學習算法。**1. 超參數優化(a)我們如何有效地使用早期停止來加速超參數優化?(b)如何利用并行計算來執行超參數優化,同時在順序設置中訓練單個模型所需的時間?(c)對于多階段機器學習管道,我們如何利用搜索空間的結構來減少總計算成本?
鑒于這些問題,本文分為兩個部分。第一部分側重于通過解決1a, 1b和1c問題在高效超參數優化方面取得的進展。第二部分側重于通過解決問題2a, 2b和2c,在理解和改進神經架構搜索的權重共享方面取得的進展。
**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。
**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。
**最近機器學習方法的大部分成功都是通過利用過去幾年產生的大量標記數據而實現的。**然而,對于一些重要的實際應用來說,如此大規模的數據收集仍然是不可行的。這包括機器人、醫療健康、地球科學和化學等領域,在這些領域獲取數據可能既昂貴又耗時。在本文中,我們考慮三個不同的學習問題,其中可以收集的數據量是有限的。這包括在在線學習期間限制對標簽、整個數據集和生成經驗的訪問的設置。本文通過采用序列決策策略來解決這些數據限制,這些策略在收集新數據和根據新獲得的證據做出明智的決策之間迭代。**首先,解決標簽獲取成本較高時如何高效地收集批量標簽的問題。**概率主動學習方法可用于貪婪地選擇信息量最大的待標記數據點。然而,對于許多大規模問題,標準的貪心算法在計算上變得不可行。為緩解這個問題,本文提出一種可擴展的貝葉斯批量主動學習方法,其動機是近似模型參數的完整數據后驗。
**其次,我們解決了自動化分子設計的挑戰,以加速對新藥物和材料的搜索。**由于迄今為止只探索了化學空間的一個小區域,可用于某些化學系統的數據量是有限的。本文通過將3D分子設計問題制定為強化學習任務,克服了生成模型對數據集的依賴,并提出了一種對稱感知策略,可以生成用以前方法無法實現的分子結構。
**最后,我們考慮了如何在不同任務中有效地學習機器人行為的問題。**實現這一目標的一個有希望的方向是在不同的任務上下文中泛化局部學習的策略。上下文策略搜索通過顯式地將策略約束在參數化上下文空間上,從而提供數據高效的學習和泛化。進一步構建上下文策略表示,在各種機器人領域實現更快的學習和更好的泛化。
**人類通過被動觀察和主動互動來學習世界的心理模型,從而在環境中導航。他們的世界模型允許他們預測接下來可能發生的事情,并根據潛在的目標采取相應的行動。**這樣的世界模型在自動駕駛等復雜環境的規劃方面具有強大的前景。人類司機或自動駕駛系統用眼睛或相機感知周圍環境。他們推斷出世界的一種內部表示應該:(i)具有空間記憶(例如遮擋),(ii)填充部分可觀測或有噪聲的輸入(例如被陽光蒙蔽時),以及(iii)能夠概率地推理不可觀測的事件(例如預測不同的可能的未來)。它們是具身的智能體,可以通過其世界模型在物理世界中預測、計劃和行動。本文提出一個通用框架,從攝像機觀察和專家演示中訓練世界模型和策略,由深度神經網絡參數化。利用幾何、語義和運動等重要的計算機視覺概念,將世界模型擴展到復雜的城市駕駛場景。**在我們的框架中,我們推導了這種主動推理設置的概率模型,其目標是推斷解釋主動代理的觀察和行動的潛在動力學。**我們通過確保模型預測準確的重建以及合理的操作和過渡來優化日志證據的下界。首先,我們提出了一個模型,預測計算機視覺中的重要量:深度、語義分割和光流。然后,我們使用三維幾何作為歸納偏差在鳥瞰空間中操作。我們首次提出了一個模型,可以從360?環繞單目攝像機鳥瞰動態代理的概率未來軌跡。最后,我們展示了在閉環駕駛中學習世界模型的好處。我們的模型可以聯合預測城市駕駛環境中的靜態場景、動態場景和自我行為。我們表明,學習世界模型和駕駛策略可以生成超過1小時的預測(比訓練序列大小長2000倍)。
自然智能具有從環境中不斷學習的能力,環境是不斷變化的,因此產生了需要應對的不確定性,以確保生存。相比之下,人工智能(AI)通常只在特定的訓練階段從數據中學習一次,很少明確表示或利用不確定性。在這篇論文中,我們通過設計和理解基于神經網絡的模型,在這些方面為改進人工智能做出貢獻,這些模型可以持續學習,并明確表示幾種不確定性來源,最終目標是獲得有用、可靠和實用的模型。
我們首先將這項研究置于一個更廣泛的背景下,并提供對不確定性估計和持續學習領域的介紹。對于那些有興趣熟悉這些主題的人來說,這個詳細的回顧可以成為一個入門點。在奠定這個基礎之后,我們將深入研究如何持續學習一組任務的具體問題,并提出我們基于神經網絡系統解決這一問題的方法。更具體地說,我們訓練一個元網絡為推理模型生成特定于任務的參數,并表明,在這種設置下,可以在元級別使用簡單的正則化來防止遺忘。由于任務特定解決方案的存在,出現了必須推斷不可見輸入所屬的任務的問題。我們研究了解決這一任務推理問題的兩種主要方法:(i)基于重玩的方法和(ii)基于不確定性的方法。盡管基于重放的任務推理在簡單的基準測試中表現出了顯著的性能,但我們的這種方法的實現依賴于生成建模,隨著任務復雜性的增加,這變得不成比例地困難。另一方面,基于不確定性的任務推理不依賴外部模型,更容易擴展到復雜的場景。因為校準任務推斷所需的不確定性是困難的,在實踐中,人們經常求助于應該知道他們不知道的東西的模型。這在理論上可以通過對模型參數的貝葉斯處理來實現。然而,由于對基于神經網絡的模型的先驗知識的難以解釋,也就很難解釋模型知道什么是不知道的。這種認識的意義超越了持續學習,更普遍地影響了當前機器學習模型如何處理看不見的輸入。我們討論了神經網絡中與選擇先驗知識相關的復雜性,并表明常見的選擇往往導致不確定性,這些不確定性在本質上不能反映特定的需求數據,如檢測模型不應推廣到的看不出的輸入。
總體而言,本文對當前深度學習研究中的兩個重要課題——不確定性估計和持續學習進行了總結和貢獻,同時揭示了現有的挑戰,評估了新的方法,并確定了未來研究的有前途的途徑。
機器學習(ML)正在經歷一場范式的轉變——機器學習模型越來越多地被作為一種服務來提供,以自動化各種下游決策,而不是由機器學習專家對特定任務進行端到端的訓練和部署。例如,大型科技公司提供的圖片或文本分類API,被廣泛的第三方應用開發者使用,以及通過網站向數百萬用戶提供各種預測(如天氣、COVID、流量等),以幫助他們進行規劃。盡管這種新的范式通過使ML更廣泛地可訪問而使其民主化,但它引起了對可信性(用戶無法看到他們是如何被訓練的以及他們的失敗模式)和性能(預測模型不再為特定的下游任務量身定做)的擔憂。本文通過以下方法來解決這些問題:
貢獻1。提出了一種新的方法,通過精確的不確定性量化,向下游決策者傳遞信心,后者將對(高風險)決策進行預測。精確的不確定性量化可以通過預測相關結果的真實概率(例如給定癥狀的病人患病的真實概率)來實現。雖然在大多數情況下,準確地輸出這些概率是不可能的,但對于大型決策任務,學習與真實概率難以區分的概率卻是驚人的可能。不可區分性保證了決策者的可靠性,因為在他們的決策任務中,他們不應該能夠區分預測概率和真實概率之間的區別。作為一個應用程序,我開發了一些預測模型,如醫療診斷、航班延誤預測和貧困預測等領域。我展示了通過使用我的方法,決策者可以自信地做出導致良好結果的決策。
貢獻2。發展一種新的信息理論,以嚴格推理和優化ML預測在廣泛的決策任務中的“有用性”。香農信息理論在機器學習中有著廣泛的應用,但在處理復雜的學習和決策任務時存在一些局限性。例如,考慮從對手攔截的安全加密消息數據集。根據信息論,這些加密信息與對手的計劃具有高度的互信息,而任何計算有界的決策者都不能利用這些信息。為了解決這些局限性,我提出了一個新的框架,稱為“效用信息理論”,它概括了香農熵、信息和散度,以解釋知識或建模能力有限的決策者將如何使用信息。作為一個應用,我將新的信息應用于貝葉斯優化問題,并顯示了比使用香農信息的當前方法在樣本效率方面的數量級改進。
多模態數據融合是將不同的數據源集成到一個適用于復雜推理的共享表示的過程。因此,人們可以對潛在現象做出比單獨使用每個數據源更精確的推論。在論文中,我們采用貝葉斯觀點的多模態數據融合,它將推理定義為對潛在變量的后驗推理。在貝葉斯設置中,我們提出了一種新的數據集成方法,我們稱之為輕量級數據融合(LDF)。LDF解決了數據源子集的正向模型未知或特征不佳的情況。LDF利用剩余的數據源學習適合后驗推斷的逆模型,該模型結合了這兩種類型的數據。此外,我們開發了分層Dirichlet過程(mmHDPs)的多模態擴展,其中,與LDF的設置相比,我們缺乏跨模態的觀察級對應,數據來自隱式潛在變量模型。最后,我們為Dirichlet過程和HDP混合模型開發了一種新穎的表示,可以在推理過程中實現并行化,并擴展到更復雜的模型,包括mmHDPs。
我們解決數據融合的問題,即從多個數據源學習。我們考慮了幾個具體的挑戰:例如,某些數據源可能缺乏特征良好的正向模型,或者底層模型的復雜性可能未知。我們采用貝葉斯視角,將數據融合問題視為對潛在變量結構的后驗推斷,并允許進行各種分析,包括不確定性量化、優雅地處理缺失數據和模型檢查。然而,貝葉斯推斷也提出了自己的挑戰。后驗推斷的常見方法不適應缺乏前向模型或難以適應大數據集的觀察模式。
本論文的一個重要重點是開發能夠實現高效和并行的后驗推理的表示。我們特別關注多模態數據融合中的兩個明顯挑戰。首先,當一個或多個觀察模態缺乏特征良好的前向模型,并且我們也缺乏明確標記的訓練數據,從而允許直接學習前向模型時,我們考慮學習。在這里,我們使用了來自不同模態的數據,它具有一個特征良好的正態模型,與未校準的數據一起出現。我們提出了一種方法,該方法使用具有良好校準數據的聯合觀測來學習一種模態的逆模型。其次,我們試圖從多種測量模態中學習,其中跨模態的觀察之間的直接對應是不可用的。我們利用不同模態的數據組之間的對應關系來揭示共同表示。在這里,我們開發了層次Dirichlet過程(HDP)混合模型的擴展,將不同的模態表示為子文檔。本文解決了這兩個問題,并開發了一種新的Dirichlet過程(DP)和HDP混合模型的表示,從而產生了一個并行推理過程。
在第三章中,我們提出了輕量級數據融合(LDF)。LDF是一種基于多源數據的貝葉斯推理新方法,其中一些源缺乏已知的正演模型。雖然與論文中的其他章節略有不同,但LDF確實解決了多模態數據融合中的一個常見挑戰。LDF的一個核心組成部分是它將未校準的數據源簡化為一組描述后驗分布的信息統計數據。我們為一般的模型結構制定了LDF,并表明我們的構造導致了有效的推理和一個易于處理的學習過程,具有吸引人的信息理論屬性。LDF使用具有已知可能性的數據類型來幫助學習如何對具有未知可能性的數據類型設置條件。
在第四章中,我們開發了一種新的DP和HDP混合模型的表示,這對設計高效的推理程序有重要的意義。在本章中,我們假設數據的正向模型是已知的,與第3章不同;我們將使用在第5章中開發的方法。特別地,我們引入了DP和HDP混合模型的聚合表示,它們既有被實例化的顯式原子,也有被聚合成未實例化組件的隱式原子。未實例化組件是延遲實例化Gibbs采樣器的核心,它允許并行執行許多采樣操作。
我們在第5章中介紹了DP和HDP混合模型的擴展,它可以容納多個數據源,并允許學習聯合依賴。在第4章中,我們假設數據的正向模型是已知的。本章使用底層的泊松過程表示定義了多模態DP和HDPs,并將它們用作混合模型的基礎。所得到的模型可以被視為所有模態的聯合措施,也可以被視為適用于單個模態的邊際隨機措施。我們提供了這些模型的幾種特征,指定了折疊推理過程,并使用第4章中的延遲實例化開發了一個并行推理過程。
在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。
本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。
我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。