本論文將因果關系與表示學習的思想結合在一起。因果模型通過描述每個變量受其直接原因影響的機制,提供了對復雜系統的豐富描述。因果模型支持對系統部分進行操作的推理,捕捉各種干預分布,從而有望解決人工智能(AI)的一些開放性挑戰,如規劃、在變化環境中的知識遷移或對分布變化的魯棒性。然而,因果模型在AI中更廣泛應用的一個關鍵障礙是需要預先指定相關變量,而這通常不適用于現代AI系統處理的高維、非結構化數據。同時,機器學習(ML)在自動提取此類復雜數據的有用和緊湊表示方面非常成功。因果表示學習(CRL)旨在通過學習具有因果模型語義的潛變量表示,結合ML和因果關系的核心優勢。在本論文中,我們研究并提出了不同CRL設置的新結果。一個核心主題是可識別性的問題:給定無限數據,何時保證滿足相同學習目標的表示是等價的?這可以說是CRL的重要先決條件,因為它正式表明了一個學習任務在原則上是否可行。由于學習因果模型——即使沒有表示學習成分——是出了名的困難,我們需要在模型類或豐富數據上超越經典的獨立同分布(i.i.d.)設置進行額外的假設。對于從i.i.d.數據中進行無監督表示學習,我們開發了獨立機制分析,這是一種對映射潛在變量到觀察變量的混合函數的約束,已證明可以促進獨立潛在變量的可識別性。對于從非獨立觀測對中學習的多視圖設置,我們證明了始終在視圖間共享的不變潛在塊是可識別的。最后,對于從單節點完美干預產生的非同分布數據集中學習的多環境設置,我們表明潛在變量及其因果圖是可識別的。通過研究和部分描述不同設置下的可識別性,本論文探討了在沒有直接監督的情況下,CRL的可能性和不可能性,從而為其理論基礎做出貢獻。理想情況下,所發展的見解可以幫助指導數據收集實踐,或激發新實用估計方法和算法的設計。
這篇論文探討了如何通過將實體信息納入神經網絡模型來增強自然語言理解。它解決了三個關鍵問題:
利用實體進行理解任務:本文引入了Entity-GCN模型,該模型在一個圖上執行多步推理,其中節點代表實體提及,邊代表關系。這種方法在一個多文檔問答數據集上取得了最先進的結果。
使用大型語言模型識別和消歧實體:該研究提出了一種新穎的系統,通過逐字生成實體名稱來檢索實體,克服了傳統方法的局限性,并顯著減少了內存占用。該方法還擴展到了多語言環境,并進一步優化了效率。
解釋和控制模型中的實體知識:本文提出了一種事后解釋技術,用于分析神經模型各層的決策過程,允許對知識表示進行可視化和分析。此外,提出了一種編輯實體事實知識的方法,使得在無需昂貴的重新訓練的情況下能夠修正模型預測。
實體在我們表示和匯總知識的方式中處于中心地位。例如,像維基百科這樣的百科全書是按實體組織的(例如,每篇維基百科文章對應一個實體)。書面百科全書已有約兩千年的歷史(例如,《自然史》可以追溯到公元77年),在此期間,它們在形式、語言、風格及許多其他方面都有了很大的發展。《百科全書,或科學、藝術和工藝詳解詞典》(在1751年至1772年間于法國出版;狄德羅和達朗貝爾,1751)和《大英百科全書》(在1768年至1771年間于蘇格蘭出版;斯梅利,1768)通常被認為是現代歷史上第一部印刷的百科全書,并定義了信息傳播的重大變革。盡管內容和語言可能有所不同,但通過實體、類別和交叉引用組織信息的基本方式在幾個世紀以來幾乎沒有改變。以這種方式組織世界知識對人類來說是自然且方便的,但對機器來說如何呢?機器學習算法能否利用我們的分類方式?我們能否構建能夠連接不同知識點或區分模糊概念的計算機算法?雖然這些復雜問題目前還沒有明確的答案,但在本文中,我們將論證,向自然語言處理(NLP)算法提供關于實體性質的額外信息,可以提高其在許多有用應用中的性能。
讓我們從一個利用實體進行多文檔問答的例子開始。在這種情況下,用戶向信息系統提出問題,該系統需要在文檔庫中搜索答案。此外,我們假設需要跨多個文檔進行分析和推理,因為在單個文檔中找不到簡單的答案。圖1.1展示了在這種情況下獲得答案的機器輔助過程。正如我們從中看到的那樣,機器進行的過程旨在模仿人類的行為,這似乎是一種合理的策略。我們假設將這種復雜任務分解為可學習的子步驟會導致整體系統的改進和人類可解釋性。我們可以使用客觀指標來驗證這一任務是否如此。
用于自然語言理解的實體 為了研究上述問題,在第三章中,我們探討了如何利用實體來解決自然語言理解(NLU)。我們引入了一種依靠在多個文檔內外傳播的信息進行“推理”的神經模型。我們的假設是,通過引用實體進行“推理”(學習)步驟使模型輸出預測,將使其學會處理復雜問題的合理且更具普遍性的策略。文本中出現的實體提及進行了注釋,這使得測試我們的假設變得更容易。然后,我們將任務框定為圖上的推理問題。這些提及是圖的節點,而邊則編碼了不同提及之間的關系(例如,文檔內和跨文檔的共指關系)。圖卷積網絡(GCN)應用于這些圖,并經過訓練以執行多步推理。我們展示了使用額外的實體信息可以實現一種可擴展且緊湊的方法,在開發時(即2018年)在一個流行的多文檔問答數據集WikiHop上取得了最先進的結果。 第三章的發現為更有趣的問題打開了大門,因為我們貢獻的一個限制因素是所有實體的提及都作為輸入提供給模型。檢索文本中實體提及的能力對于知識密集型任務(如開放領域問答和對話)至關重要。因此,一個自然的問題出現了:我們如何利用語言模型來識別和消歧文本中的實體?
使用語言模型在文本中查找實體 實體鏈接(EL;Bunescu & Pa?ca,2006;Cucerzan,2007;Dredze等,2010;Hoffart等,2011;Le & Titov,2018)是NLP中的一項基本任務,用作文本理解的構建模塊(Févry等,2020b;Verga等,2020)。它包括將非結構化文本中的實體提及錨定到知識庫(KB)標識符(例如,維基百科文章)。實體鏈接在多個領域有廣泛應用,涵蓋開放領域問答(De Cao等,2019b;Nie等,2019;Asai等,2020)、對話(Bordes等,2017;Wen等,2017;Williams等,2017;Chen等,2017b;Curry等,2018;Sevegnani等,2021)、生物醫學系統(Leaman & Gonzalez,2008;Zheng等,2015)、信息抽取(Sarawagi,2008;Martinez-Rodriguez等,2020)等。在圖1.2中,我們展示了將提及鏈接到知識庫中相關實體的例子。
盡管之前有大量關于實體檢索的研究(例如,Hoffart等,2011;Piccinno & Ferragina,2014;Huang等,2015;Le & Titov,2018;Logeswaran等,2019;Broscheit,2019;Wu等,2020,僅舉幾例),但大多數當前解決方案的一個共同設計選擇是:實體與唯一的原子標簽相關聯,可以將檢索問題解釋為跨這些標簽的多類分類。輸入和標簽之間的匹配通過雙編碼器(Wu等,2020;Karpukhin等,2020)計算:輸入的密集向量編碼與實體信息(如標題和描述)的編碼之間的點積。這種形式化允許使用現代最大內積搜索庫(Johnson等,2019)進行亞線性搜索,從而支持從大型實體數據庫中檢索。在第四章中,我們提出了一種新穎的方法:第一個通過逐字生成其唯一名稱(從左到右,自回歸方式)來檢索實體的系統。我們的模型緩解了當時廣泛采用的現代模型(4)可能忽略文本和知識庫中實體之間的細粒度交互的限制。此外,我們顯著減少了當前系統的內存占用(最多15倍),因為我們的編碼器-解碼器架構的參數隨詞匯量的變化而不是實體數量的變化而變化。我們還將我們的方法擴展到一個包含100多種語言的大型多語言環境(第五章)。在這種環境中,我們對盡可能多語言的實體名稱進行匹配,這允許利用源輸入和目標名稱之間的語言連接。最后,我們還提出了一種非常高效的方法,可以在文本片段中的所有潛在提及上并行化自回歸鏈接。這樣的系統依賴于一個淺層且高效的解碼器,使得模型速度提高超過70倍且沒有性能下降(第六章)。
語言模型的可解釋性和可控性 第四、五和六章的發現為許多子領域的許多有趣應用打開了大門。我們研究的一個引人注目的方面是,它表明系統的大部分收益來自模型回憶起其在語言建模預訓練和任務特定微調過程中獲得的實體名稱記憶的能力。不幸的是,這種能力是有代價的。因為大多數(如果不是全部)基于深度學習的語言模型都是黑箱函數。因此,我們不能完全理解它們的預測,也不能確定它們是推理還是記憶。當它們記憶時,我們通常也不能輕松地控制添加、刪除或修改這些記憶的方式和位置。這些反思引出了下一個研究問題:我們如何解釋和控制模型內部關于實體的知識?
為此,在第七章中,我們介紹了一種新的事后解釋技術,用于檢查神經模型各層決策的形成方式。我們的系統學習屏蔽向量子集,同時保持可微性。這不僅讓我們能夠繪制歸因熱圖,還能分析決策在網絡層中的形成方式。我們使用該系統研究了BERT模型(Devlin等,2019a)在情感分類和問答任務中的表現,并展示了該技術也可以應用于第三章提出的基于圖的模型。最后,我們還提出了一種可以用于編輯語言模型中實體事實知識的方法,從而在無需昂貴的重新訓練或微調的情況下修復“錯誤”或意外預測(第八章)。
貢獻 本論文的主要貢獻可總結如下: 1. 我們引入了一種依靠在多個文檔內外傳播的信息進行推理的神經模型。我們將其框定為圖上的推理問題。實體提及是該圖的節點,而邊則編碼了不同提及之間的關系。 1. 我們提出了一個系統,通過生成實體的唯一名稱(自回歸方式)來識別文本中的實體并將其鏈接到外部知識庫中,支持100多種語言。我們采用受限生成方法,將這種生成自回歸模型用作分類器。 1. 我們提出了一種新的事后解釋技術,用于檢查神經模型各層決策的形成方式。 1. 我們開發了一種方法,可以編輯語言模型內部的實體事實知識,從而在無需昂貴的重新訓練或微調的情況下修復“錯誤”或意外預測。
大多數(如果不是全部)研究結果表明,實體在自然語言處理中的核心作用,我們鼓勵在更多任務中納入實體信息的研究。
這篇論文探討了自動化推理和大型語言模型(LLMs),通過創新算法研究如何提高這兩個領域的效率和有效性。論文由三個主要部分組成,每一部分都關注人工智能的不同但相互關聯的方面。 在第一部分,論文深入探討了自動化推理領域,該領域通過計算方法模仿人類的邏輯推理。研究解決了該領域中的重大挑戰,特別是隨著問題復雜性的增加,計算需求呈指數級增長的情況。值得注意的是,這一部分強調了可滿足性模理論(SMT)方面的進展,重點是提高在復雜性增加時的解決效率。論文通過探索理論組合、代數數據類型和序列,貢獻了更高效的推理框架。
轉到第二部分,焦點轉向LLMs,它們在各種應用中變得至關重要,從內容生成到企業決策支持。盡管LLMs功能強大,但由于巨大的計算資源需求和用戶提示的多樣性,實現這些模型的高效部署仍是一個挑戰。這部分論文提出了新穎的算法和服務基礎設施,旨在優化LLMs的性能,特別是在減少延遲和提高實時應用吞吐量方面。創新如FlexGen和S-LoRA被引入,旨在使LLMs在個人計算設備上更加可用,并提供個性化的高吞吐量服務。這一部分還介紹了虛擬令牌計數器(VTC),一種新穎的公平調度算法,確保在高需求的LLM推理環境中公平分配資源,解決服務公平性的問題。
論文的第三部分將前兩部分橋接起來,展示了將形式驗證和代碼生成與LLMs集成的初步結果。該集成旨在利用兩個領域的優勢,創建更強大和多功能的AI系統。
引言
本論文展示了實現自動推理和大型語言模型(LLM)系統高效算法的幾種方法。本章將首先描述這兩個領域中的問題及其效率挑戰,然后概述論文中提出的研究貢獻。
1.1 問題與動機
1.1.1 符號推理與神經網絡
人工智能研究傳統上遵循兩種主要范式:符號推理和神經網絡。符號推理,也稱為符號AI,利用邏輯和知識表示來解決問題。這種方法在需要顯式規則和推理的任務中表現出色,但在處理復雜的非結構化數據時可能會遇到困難。相反,神經網絡則松散地受到大腦結構的啟發,擅長模式識別和從大量數據中學習。然而,神經網絡在推理過程中可能不透明,導致其可解釋性較差。隨著研究的進展,越來越多的研究集中在結合這兩種方法,利用符號推理和神經網絡的優勢,開發更強大和多功能的AI系統。為了充分利用每種方法的優勢,運行它們需要高效的算法和系統。在本論文中,我們首先分別關注加速自動推理的技術(第一部分)和加速大型語言模型推理的技術(第二部分)。然后,在第三部分中,我們展示了利用兩者力量的初步結果。 1.1.2 自動化推理與效率挑戰
自動化推理通過計算方法模擬人類邏輯推理的挑戰。該領域致力于開發能夠自動分析和操作邏輯表達式等形式化表示的算法。這種能力遠遠超出簡單計算,允許計算機處理具有復雜邏輯結構的問題。 自動化推理的應用領域與其解決的問題一樣多樣。在軟件和硬件設計中,自動化推理工具用于確保電路的正確性。通過分析組件之間的邏輯關系,這些工具可以識別設計中的潛在錯誤和邏輯不一致,防止在開發過程中出現昂貴的錯誤。同樣,自動化推理在形式驗證中也起著關鍵作用,這是一種通過數學證明關鍵系統中不存在錯誤的技術。在這里,自動化推理工具仔細分析系統的規范和行為,確保其遵循所需屬性,消除意外故障的可能性。 自動化推理的關鍵挑戰之一是解決時間問題。隨著所處理問題復雜性的增加,找到解決方案所需的計算資源可能呈指數級增長。這在可滿足性模理論(SMT)領域尤為突出,在該領域中,任務是確定給定的一階邏輯公式相對于背景理論(如線性算術或位向量)是否可滿足。SMT問題的解決時間可能高度可變,取決于具體理論、公式的復雜性以及底層SMT求解器的性能。自動化推理研究人員在開發更高效的算法和啟發式方法以應對這一挑戰方面取得了顯著進展,但該領域中許多問題的固有復雜性意味著解決時間仍然是一個關鍵考慮因素。
1.1.3 大型語言模型與服務挑戰
基礎模型,特別是大型語言模型(LLM),已成為各種應用的核心,徹底改變了各行業中任務的處理和執行方式。除了它們的功能外,LLMs已演變為廣泛使用的服務,受到從個人用戶到大型企業的多樣化客戶的采用。這種廣泛的應用在多個領域中尤為明顯,從個人助手和創意內容生成到高級企業數據分析和決策支持。盡管LLMs具有巨大的力量和能力,但關鍵在于利用它們的潛力來增強人類生活和生產力。 盡管大型語言模型(LLM)提供了引人注目的能力,但將其有效部署于實際應用中仍存在顯著挑戰。主要障礙在于硬件資源限制。LLMs由于其復雜的架構和龐大的參數空間,在推理過程中需要大量計算資源。此外,用戶提示的不確定性破壞了傳統的優化技術。與具有控制格式的訓練數據不同,用戶提示在長度和復雜性上可能有很大差異。此外,由于LLM生成的迭代性質,實現實時應用的低延遲和高吞吐量變得困難。與單步任務不同,LLM可能需要多次來回交流才能完成一個響應。這些因素需要開發專門的服務基礎設施和新穎的調度算法,以優化LLM性能并提供無縫的用戶體驗。
1.2 我們的方法
1.2.1 走向高效且具表現力的SMT求解
可滿足性模理論(SMT)求解在自動化推理中是一種強大的技術,專門解決結合命題邏輯和背景理論的問題。與只處理真假命題的經典命題邏輯不同,SMT結合了可判定的一階邏輯理論,如算術或等式約束。這允許對涉及整數、實數或特定數據結構的問題進行推理。SMT求解器通過系統地探索搜索空間,在指定的理論下評估公式的真值。由于將邏輯與這些理論相結合的內在復雜性,高效的求解算法和專門的決策過程對于解決現實世界的SMT問題至關重要。可滿足性模理論(SMT)求解的最新技術不斷發展,重點是提高效率和處理日益復雜的問題。盡管已經取得了令人矚目的進展,但對于高度復雜的SMT問題實現可處理的解決時間仍然是一個活躍的研究領域。 本論文的第一部分涵蓋了這一范圍內的三個研究課題,包括更好地理解和提高理論組合的效率以及利用代數數據類型和序列的兩種特定理論。在第二章中,我們對SMT中禮貌組合的研究做出了兩項貢獻。首先是一個困難結果,通過展示一個禮貌理論但不是強禮貌的例子,揭示了禮貌和強禮貌之間的區別。第二項貢獻是對禮貌組合方法的優化,借鑒了Nelson-Oppen方法。我們展示了在某些條件下,可以減少禮貌組合所需的枚舉安排的復雜性。在第三章中,我們研究了數據類型理論,并證明其是強禮貌的,展示了如何使用禮貌組合將其與其他任意不相交的理論相結合。在第四章中,我們介紹了一種用于推理向量的序列理論。與使用現有的數組理論相比,新的序列理論更具表現力,并且推理速度更快。
1.2.2 走向高效且公平的LLM服務
LLM的一個不可避免的方面是使其能夠被各個領域的更多用戶訪問。擴大訪問的目的是賦能各類個人和組織,使他們能夠利用這些強大的工具滿足其獨特的應用和需求。本論文的第二部分探討了如何提高LLM對所有用戶的可訪問性。自2022年底LLM在日常生活中被廣泛使用以來,對更易于訪問的LLM的需求不斷增長,這包括:(1)能夠在個人計算機上運行LLM,(2)訪問個性化服務,以及(3)需要公平的資源分配以防止重度用戶的壟斷。
第五章(FlexGen)旨在解決第一個需求:在個人計算機上運行LLM。由于高計算和內存需求,傳統上只能通過多個高級加速器實現,在內存有限的設備上運行LLM需要卸載,除了傳統的模型壓縮優化外。盡管激進的卸載會嚴重影響推理延遲,但FlexGen受到對批處理延遲不敏感任務的需求的驅動。它開始研究在有限資源下的高吞吐量LLM推理。它聚合了GPU、CPU和磁盤的內存和計算資源,并展示了如何在給定設置中獲得最佳的卸載策略。我們的方法也是第一個提出使用4位量化KV緩存的,這與卸載策略相結合,使吞吐量比以前的方法高出100倍。
第六章(S-LoRA)旨在解決第二個需求:個性化LLM服務。低秩適應(LoRA)技術可以提供高效的、任務特定的適應,從一個基礎模型中創建許多適配器,以實現成本效益高的個性化服務。LoRA適配器通過將適配器與模型參數合并來提供服務,這使得單個適配器的低延遲成為可能,但在同時服務多個適配器時會降低整體吞吐量。S-LoRA探索了LoRA適配器的可擴展服務,通過更好的內存管理、為異構批處理定制的CUDA內核和新穎的張量并行策略,實現了高吞吐量的多適配器服務。與之前的引擎相比,S-LoRA的吞吐量提高了4倍,服務的適配器數量增加了幾個數量級。
第七章(VTC)旨在解決第三個需求:公平地為用戶服務。LLM推理服務在高需求下處理各種請求。為了保持公平,大多數主要服務實施請求速率限制,防止任何單個客戶端壟斷隊列。然而,這種基本的公平方法在容量可用時可能導致服務未充分利用和客戶體驗不佳。我們展示了如何將傳統網絡和操作系統中的公平排隊概念應用于LLM服務領域,達到令牌粒度的公平性。我們定義了LLM服務中的公平性問題,并提出了虛擬令牌計數器(VTC)算法,這是一種具有理論保證的新型公平調度算法。廣泛的評估展示了VTC在保持公平性方面的有效性,與傳統方法相比,為更加公平高效的LLM服務系統鋪平了道路。
大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。
我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。
過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。
在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。
從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。
在機器學習領域,開發在世界中智能行為的代理仍是一個開放性挑戰。對這樣的代理的期望包括高效的探索、最大化長期效用以及能夠有效利用以往數據解決新任務的能力。強化學習(RL)是一種基于通過試錯直接與環境互動來學習的方法,并為我們訓練和部署此類代理提供了途徑。此外,將RL與強大的神經網絡功能逼近器結合使用——一個被稱為“深度RL”的子領域——已顯示出實現這一目標的證據。例如,深度RL已產生了能夠以超人水平玩圍棋的代理、提高微芯片設計的效率,以及學習控制核聚變反應的復雜新策略的代理。部署深度RL的一個主要問題是樣本效率低。具體來說,雖然可以使用深度RL訓練有效的代理,但主要成功案例大多數是在我們可以通過使用模擬器獲得大量在線互動的環境中實現的。然而,在許多現實世界的問題中,我們面臨的情況是樣本成本高昂。正如所暗示的,解決這個問題的一種方式是通過獲取一些以往的數據,通常稱為“離線數據”,這可以加速我們學習這些代理的速度,例如利用探索性數據防止重復部署,或使用人類專家數據快速引導代理朝向有前途的行為等。然而,將這些數據融入現有的深度RL算法的最佳方式并不直觀;簡單地使用RL算法在這些離線數據上進行預訓練,一種稱為“離線RL”的范式作為后續學習的起點,往往是不利的。此外,如何明確地在線派生出由這種離線預訓練積極影響的有用行為尚不清楚。鑒于這些因素,本文提出了一種三管齊下的策略來提高深度RL中的樣本效率。首先,我們研究了在離線數據上進行有效的預訓練。然后,我們解決在線問題,探討在純在線操作時對環境進行高效適應。最后,我們得出結論,使用離線數據在在線行動時明確增強策略。
本論文將因果關系和表示學習的思想結合起來。因果模型以一組機制的形式提供復雜系統的豐富描述,每個變量都受其直接原因的影響。它們支持對系統部分進行操縱的推理,捕獲一整套干預分布,因此有望解決人工智能(AI)的一些開放性挑戰,如規劃、在變化環境中轉移知識或對分布變化的魯棒性。然而,因果模型在AI中更廣泛使用的一個主要障礙是需要預先指定相關變量,這通常不適用于現代AI系統處理的高維、非結構化數據。與此同時,機器學習(ML)在自動提取此類復雜數據的有用且緊湊的表示方面已經證明相當成功。因果表示學習(CRL)旨在通過學習以因果模型語義賦予的潛變量形式的表示來結合ML和因果關系的核心優勢。在這篇論文中,我們研究并呈現了不同CRL設置的新結果。一個核心主題是可識別性的問題:給定無限數據,何時滿足相同學習目標的表示保證是等價的?這可以說是CRL的一個重要先決條件,因為它正式表明學習任務在原則上至少是可行的。由于學習因果模型——即使沒有表示學習組件——是出了名的困難,我們需要對模型類或超出經典i.i.d.設置的豐富數據進行額外假設。對于從i.i.d.數據進行的無監督表示學習,我們開發了獨立機制分析,這是對將潛變量映射到觀察變量的混合函數的約束,它被證明促進了獨立潛變量的可識別性。對于從非獨立觀察對學習的多視角設置,我們證明了在視圖中始終共享的潛在塊是可識別的。最后,對于從完美單節點干預產生的非同分布數據集學習的多環境設置,我們顯示了潛變量及其因果圖是可識別的。 通過研究和部分描述不同設置的可識別性,這篇論文調查了在沒有直接監督的情況下CRL的可能性和不可能性,因此為其理論基礎做出了貢獻。理想情況下,開發的見解可以幫助指導數據收集實踐或激發新的實用估計方法和算法的設計。
機器學習模型對抗性攻擊的脆弱性的理解日益重要。在對抗性機器學習中,一個基本問題是在存在所謂的規避攻擊的情況下量化需要多少訓練數據,其中數據在測試時會被損壞。在本論文中,我們采用了“球內精確性”概念,從學習理論的角度研究了對抗性魯棒學習的可行性,考慮樣本復雜性。我們首先得出了兩個負面結果。我們證明,在無分布設置下,任何非平凡的概念類都不能在對手能夠擾動單個輸入位的情況下得到魯棒學習。然后,我們展示了樣本復雜性的下界:單調合取的類以及布爾超立方體上的任何超類,其樣本復雜性至少是對手預算(即每個輸入上可以擾動的最大位數)的指數函數。特別地,這意味著在均勻分布下,不能對那些可以擾動輸入的 ω(log n) 位的對手進行魯棒學習。
作為獲得魯棒性學習保證的第一條途徑,我們考慮限制用于訓練和測試數據的分布類別。我們關注概率分布在輸入數據上滿足Lipschitz條件的學習問題:附近的點具有類似的概率。我們證明,如果對手被限制在擾動 O(log n) 位的情況下,那么可以在對數Lipschitz分布類別的條件下魯棒地學習單調合取類。然后,我們擴展了這一結果,展示了在相同的分布和對抗環境中學習 1-決策列表、2-決策列表和單調 k-決策列表的可行性。最后,我們展示對于每個固定的 k 值,k-決策列表類在 log(n) 有界對手條件下具有多項式樣本復雜性。考慮中間的 k-決策列表子類的優勢在于,我們能夠為這些情況獲得改進的樣本復雜性界限。
作為第二條途徑,我們研究了學習模型,其中學習者通過使用局部查詢獲得了更多的能力。我們首先考慮的學習模型使用局部成員查詢(LMQ),在該模型中,學習者可以查詢接近訓練樣本的點的標簽。我們證明,在均勻分布下,即使在學習者除了隨機示例外還可以訪問LMQ的情況下,對于擾動預算為 O(log n) 的對手,魯棒學習合取類和任何超類對于對數Lipschitz分布仍然不可避免地需要對對手的預算呈指數依賴。面對這個負面結果,我們引入了局部等價查詢預測器,該預測器返回假設和目標概念在訓練樣本中的某個點周圍區域內是否一致,以及如果存在反例的話也會返回反例。我們證明了一個分離結果:一方面,如果查詢半徑 λ 嚴格小于對手的擾動預算 ρ,那么在多種概念類別中是不可能進行無分布魯棒學習的;另一方面,當 λ = ρ 時,我們能夠在無分布環境中開發出魯棒的經驗風險最小化算法。然后,我們基于在線學習保證來限制這些算法的查詢復雜性,并在合取式特殊情況下進一步改進這些界限。接著,我們提供了一個在 {0, 1} n 上的半空間魯棒學習算法。最后,由于在 R n 上的半空間查詢復雜性是無界的,我們轉而考慮具有有界精度的對手,并在這種情況下給出了查詢復雜性的上界。
這篇論文研究了通過試錯學習教導自主智能體完成任務的算法。通常,這個問題被描述為一個強化學習(RL)問題,其中智能體試圖最大化用戶提供的獎勵函數。這里研究的算法采取了不同的方法,大部分避免使用獎勵函數,而是直接從數據中學習實現期望的結果。這種方法允許用戶使用來自監督學習和非監督學習的算法工具,同時也為非專家用戶提供了一個教導智能體新任務的界面。這些方法的設計中的主要挑戰是預測期望結果的概率,尤其是當這些結果在未來的數百步中才發生,特別是在使用離策略數據時。為此,這篇論文的第一部分基于遞歸分類開發了一種算法,該算法通過時間差分更新估計未來狀態的概率(第2章)。這種方法直接適用于具有連續狀態和動作的環境,不需要任何手工制作的距離度量,并導致了一個比之前的方法更高效的面向目標的RL算法。然后,我們將這個想法推廣到可以通過多種方式解決的任務,允許更靈活的任務規范,并提供更廣泛的泛化能力。
將控制問題以期望的結果來描述提供了一個簡單的機制來指定任務是什么,但它沒有為如何解決任務留下任何余地,這引發了一個問題:這些方法是否僅限于簡單任務。為了解決這個限制,我們考慮推斷復雜任務解決方案的結構。由于第一部分介紹的算法在本質上是概率性的,所以很容易將這種結構作為一個未觀察到的潛在變量納入其中。這些新算法推斷這種任務結構;在這樣做的過程中,它們將控制問題分解為一系列更容易的問題,從而加速學習。
我們首先討論以目標為條件的設置,這種推斷觀點導致了一個簡單且理論上有正當理由的方法,將面向目標的RL集成到傳統的規劃流程中(第4章)。RL被用來估計距離并學習一個局部策略,而觀察(如,圖像)上的圖搜索確定了通往目標的高級路徑。這種方法顯著優于標準的目標條件RL算法。接著,我們考慮一種不同的方式來構造任務解決方案:作為一個學習過的動態模型和策略的組合(第5章)。結果是一個基于模型的RL算法,其中模型和策略使用相同的目標聯合優化,這是預期回報的下界。
這篇論文基于初步論文提案中提出的工作在兩個主要方向上進行了深入。首先,我們探討了遞歸分類的幾何解釋(第2章),在表示學習和強化學習之間建立了緊密的聯系(第3章)。這種聯系使我們能夠將遞歸分類擴展到通過有限數量的獎勵標記狀態后設定的任務,并使我們能夠將這些方法應用到基于真實世界圖像的機器人操作任務上。其次,我們擴展了RL的潛在變量觀點(第4章和第5章)以在學習的表示上執行推斷(第5.6節)。這種擴展使我們的方法能夠擴展到更高維度的任務,并提供了大量的計算加速。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
深度神經網絡在學習給定數據集上的表示方面取得了巨大的成功。然而,在許多情況下,學習到的表示是依賴于數據集的,不能轉移到具有不同分布的數據集,即使是對于相同的任務。如何處理域漂移是提高模型泛化能力的關鍵。域適應提供了一個潛在的解決方案,允許我們將具有豐富標簽的源域轉移到只有有限標簽或沒有標簽的目標域。
在本論文中,我將介紹在不同場景下學習可遷移表示的許多方法,包括1) 當源域只有有限的標簽,甚至每個類只有一個標簽時,2) 當有多個標記源域時,3) 當有多個未標記的目標域時。這些方法在不同的數據模態(如視覺和語言)中是通用的,并且可以很容易地組合起來解決其他類似的領域轉移設置(如從具有有限標簽的多個源適應),使模型能夠泛化到源域之外。許多工作將知識從模擬數據轉移到真實數據,以減少對昂貴的手動注釋的需求。最后,介紹了我們在構建LiDAR 點云模擬器方面的開創性工作,進一步實現了LiDAR 點云分割的大量領域適配工作。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-213.html
本博士論文包含了對統計因果模型領域的幾個貢獻。統計因果模型是嵌入因果假設的統計模型,允許對受外部操縱(干預)影響的隨機系統的行為進行推斷和推理。本文在因果效應估計、因果結構學習和分布魯棒(非分布廣義)預測方法等方面進行了深入的研究。我們提出了新的和一致的線性和非線性因果效應估計工具變量設置,采用數據依賴的均方預測誤差正則化。我們提出的估計量顯示,在某些情況下,均方誤差比標準和最先進的估計量都有所改善。我們表明,最近對分布穩健預測方法的研究與計量經濟學中經過充分研究的估計量有關。由此證明了一般k類估計具有分布魯棒性。此外,我們提出了一個關于干預誘發分布的分布穩健性的一般框架。在這個框架中,我們推導了分布魯棒預測方法可識別的充分條件,并給出了一些不可能的結果,證明了這些條件的必要性。提出了一種新的結構學習方法,適用于以有向樹為因果圖的加性噪聲模型。我們證明了消失可辨識性設置中的一致性,并提供了一種方法來檢驗具有漸近家族誤差控制的子結構假設,該方法在選擇后仍然有效。最后,我們提出了學習非線性時間序列模型總結圖的啟發式思想。