實現人工通用智能(Artificial General Intelligence, AGI)需要開發能夠跨越多種感知模態——不僅限于語言——去感知、理解并與世界交互的模型。盡管自監督學習(self-supervised learning)已在大型語言模型(LLMs)中取得了顯著突破,但在視覺領域復刻這一成功仍面臨重大挑戰,其主要原因在于當前仍高度依賴人工標注數據。本文探討了自監督學習如何突破人類監督的限制,釋放視覺智能的潛力,使模型能夠直接從視覺世界固有的結構與規律中學習。 本論文圍繞這一愿景,展開了多項探索與實踐。首先,我們研究了自監督的視覺世界理解,證明了模型無需依賴如 Segment Anything Model(SAM)等監督方法所需的數十億標注掩膜,也能實現強大的圖像分割性能。相反,我們的工作表明,模型可以通過利用未標注數據中豐富的語義信息,實現“分割任何物體”的能力。其次,論文提出了基于自監督與合成數據的方法,將生成式與判別式視覺模型進行統一,使二者能夠互補,從而同時提升視覺理解與生成能力。再次,論文探討了如何通過自監督去偏學習(debiased learning)構建魯棒的視覺模型,提出了在數據條件不完美的情況下,緩解偏差并增強泛化性的技術方案,并將其置于數據中心(data-centric)的表征學習框架中進行系統化設計。 總體而言,這些工作服務于一個共同目標:構建可擴展的、多模態的視覺智能系統,使其學習方式不再是模仿人工標注,而是主動發現世界的潛在結構! 大型語言模型(Large Language Models,LLMs)[1]–[5],以 GPT 系列為代表,已經從根本上改變了人類處理和交互信息的方式。這些突破由兩個關鍵因素驅動:互聯網規模數據的廣泛可得性,以及無需顯式人類監督的自監督下一詞預測范式。然而,語言只是人類智能的一個狹窄投影。要實現真正的人工通用智能(Artificial General Intelligence,AGI),模型必須整合更豐富的感知模態——涵蓋視覺、物理交互、空間導航與社會動態——遠遠超越僅限于文本的范疇。其中,視覺智能至關重要:它是系統直接從原始像素中解析場景、定位目標、建模組合結構的能力,使其能夠以最少的人類干預感知并推理視覺世界。 遺憾的是,盡管大型語言模型已能通過利用語言的組合性與結構性實現令人印象深刻的泛化,將這些成果擴展到視覺領域仍是一個重大未解難題。與文本不同,視覺數據是連續且高維的,缺乏天然的離散化單元或語義語法。此外,視覺領域的監督學習高度依賴大規模標注數據集,而這些數據集的采集成本高昂,且內容與分布往往存在偏差。 本論文試圖回答:我們能否構建一種通用視覺系統,使其能從視覺數據的自然結構中學習——以極少甚至無需人類監督?我的目標是建立理論基礎與實用的自監督學習(Self-Supervised Learning,SSL)方法,以處理多樣化的真實世界視覺數據,并將其應用于復雜的下游任務。通過增強面向多模態模型的 SSL 技術、最大限度地減少對人工標注數據集的依賴,我力圖開發能夠理解并與環境交互的智能系統,使其在感知、認知與反應方面與人類相媲美,甚至超越人類。 為實現這一目標,我探索了一系列基于自監督學習的技術,從未標注的圖像與視頻中直接獲取以物體為中心的、語義化的、可組合的表征。我著重利用視覺歸納偏置(visual inductive bias)、借助合成信號進行監督,并在統一的 SSL 框架下閉合判別式模型與生成式模型之間的回路。所有這些工作共同體現了一個更宏大的愿景:視覺智能應當從數據的結構中涌現,而非源于標簽的結構。這一觀點挑戰了傳統的監督學習范式,并倡導構建一種無需標簽、數據驅動且可擴展的視覺系統。
大型語言模型(LLM)展現出了卓越的能力,且越來越多的研究者開始關注將其作為智能體——能夠將復雜的用自然語言表達的人類目標轉換為在數字環境中(如網頁瀏覽器)執行的一系列動作的系統。實現這一目標需要兩個核心能力:首先是理解任意且組合性的語言輸入的能力;其次是學習未知環境的能力,使得語言目標能夠在有效的多步驟決策中得到實現。本論文解決了這兩個挑戰。
在第一部分,我介紹了樹投影(Tree Projections)這一框架,用于理解變換器(transformer)如何構建組合結構。接著,我展示了一系列基于樹投影的結果,闡明了組合泛化、深刻理解(grokking)和樣本高效學習在變換器中的機制。雖然樹投影有助于解釋成功的泛化,但先前的研究表明,標準的變換器在處理深度遞歸時存在困難,因為它們缺乏應對無界層次深度的機制。為了解決這個問題,我提出了推送層(Pushdown Layers),這是一種通過向變換器中添加基于棧的記憶來進行架構增強的方法。推送層在需要嵌套或遞歸推理的任務上提升了樣本效率和泛化能力。
在第二部分,我介紹了NNetNav和BAGEL,這兩種方法支持在網頁環境中的無監督、開放式探索,使模型能夠在沒有人工監督的情況下自動為新網站收集訓練數據。我們最好的結果來自于使用NNetNav收集的示范對大型語言模型進行微調,NNetNav利用語言的層次結構來引導探索策略。使用NNetNav,我們從20個真實網站收集了10,000個示范,并對一個8B模型進行了微調,創下了無監督方法的新最佳成績,并在多個瀏覽器基準測試中超越了零-shot的GPT-4。
綜合來看,這些貢獻使我們更接近于開發能夠處理語言指令復雜性并能通過與環境互動自主學習的數字語言智能體。
//searchworks.stanford.edu/view/in00000451497
語言模型在訓練過程中需要大量的數據,這限制了它們的使用范圍,僅限于能夠滿足這些數據需求的語言。為了將語言技術擴展到更多的語言社區,研究人員開發了多語言模型(MLMs),這些模型基于來自多種語言的數據進行訓練。其理念是,不同語言可以互相支持,因為它們共享共同的模式,這使得模型可以在更多語言中有效使用。
然而,這種方法在技術和社會層面上都帶來了新的挑戰。當一個模型在多種語言上進行訓練時,這些語言會開始爭奪有限的模型容量,這可能導致負面干擾,降低模型的有效性。此外,為了將多語言模型部署到文化多樣的社區,它們的輸出需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型也必須具備內在的多文化特征。 在本論文中,我們探討了如何構建更有效的多語言模型,以減輕跨語言的負面干擾,并研究多語言訓練對它們所編碼的社會偏見和文化價值觀的影響。 近年來,自然語言處理(NLP)領域在多種任務中取得了快速的性能提升。這一成功在很大程度上歸因于大規模自監督預訓練方法的發展,這些方法繞過了對大量人工標注數據集的需求。然而,大規模預訓練仍然需要海量文本數據,使得這些技術的有效性在很大程度上依賴于特定語言所能提供的資源量。這嚴重限制了NLP的進展,僅限于能夠滿足這些文本需求的少數幾種語言(Hedderich等人,2021)。因此,這導致了不同語言社區之間在語言技術的質量和可用性上的差異(O’Horan等人,2016;Joshi等人,2020)。為了彌合這一差距,并將大規模預訓練的優勢擴展到低資源語言,研究人員集中開發了更廣泛適用于多種語言的模型。這激發了對多語言NLP領域的重新關注,并促成了基于多語言文本聯合訓練的單一模型的發展,即多語言語言模型(MLMs)。多語言聯合訓練的直覺是,它促進了語言之間的信息共享。通過這樣做,語言能夠通過利用它們的共同點來相互支持,并創造一個共享的多語言語義空間。這樣做的好處是多方面的:它限制了低資源語言的文本需求,更好地支持少樣本或零樣本的跨語言模型遷移,并允許模型對新(未見過的)語言進行泛化。 然而,盡管語言模型(LMs)已經變得越來越多語言化,在預訓練過程中涵蓋了100多種語言,但當前的多語言建模設計仍然帶來了新的技術和社會挑戰。特別是,先前的研究表明,多語言聯合學習會受到負面干擾的影響——即有利于某一語言的參數更新,卻會損害其處理另一種語言的能力——這削弱了多語言建模的優勢,尤其是在低資源語言上(Arivazhagan等人,2019;Wang等人,2020;Ansell等人,2021)。此外,多語言的“詛咒”意味著,在某些時刻,有限的模型容量阻止了MLMs進一步學習更多語言(Conneau等人,2020a)。這提出了一些有趣的問題:(1)當前的MLMs如何學習跨語言編碼和共享信息;(2)我們如何更好地引導MLMs中的信息共享,以實現跨語言共享中的正向知識遷移與負面干擾之間的最佳平衡。 此外,除了技術挑戰,MLMs在實踐中的應用還面臨著社會層面的挑戰。尤其是,MLMs的一個限制因素是,為了將它們部署到文化多樣的社區中,它們不僅需要在生成多語言文本方面表現出色,而且它們的輸出還需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型在功能上也必須具備內在的多文化特性。然而,由于MLMs是基于來自全球多種語言文本的拼接進行訓練的,我們可以預期它們會同時編碼不同甚至相反的社會偏見。目前,尚不清楚跨文化價值觀的互動如何在MLMs中體現出來。此外,已有研究表明,語言模型在實際應用中與人類價值觀對齊并不完全,進而開啟了關于如何改進語言模型對齊的一條全新研究路線(Shen等人,2023)。 盡管多語言NLP近年來取得了巨大進展,但多文化NLP領域仍處于起步階段。因此,本論文研究了MLMs在技術和社會挑戰方面的問題。具體而言,我們探討了如何構建更有效的MLMs,以減輕負面干擾,并研究聯合多語言訓練對MLMs中編碼的社會偏見和文化價值觀的影響。
近年來,語言模型(Language Models, LMs)已被確立為大多數自然語言任務中最具能力的模型。然而,除了Transformer架構的發明,大多數進展主要依賴于模型和數據規模的擴展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。這種擴展使得這些模型在標準自然語言基準上能夠與人類水平持平甚至超越。然而,盡管這些模型版本不斷迭代,其推理能力、可解釋性和學習能力依然與人類存在差距并較為遜色。自然語言解釋(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神經網絡的語言模型(Bengio et al., 2003)的研究,部分原因是其起步較晚。此外,LMs仍然通過反向傳播進行訓練,這種方式效率較低且與人腦的工作方式根本不同。在本論文中,我展示了使語言模型在自然語言理解和生物學合理性上更具類人特征的研究進展。首先,我研究了一組測試自然語言理解的具有挑戰性的問題集,即代詞解析的難例,如Winograd模式挑戰。我特別提出了通過合成訓練數據集、專用損失函數以及任務重構對語言模型進行代詞解析訓練的改進方法。其次,我利用語言模型在常識推理任務(如代詞解析難例和常識驗證)上生成自然語言解釋。我展示了語言模型可以高效地在不同領域之間轉移自然語言解釋,同時在下游任務中獲得較高準確率。最后,我探索了基于更符合生物學原理的預測編碼訓練方法用于語言模型的訓練,這種方法可能成為超越反向傳播的深度學習未來方向(Millidge et al., 2022)。我展示了這些方法在語言模型訓練中的首次應用,研究了其最佳實現方式、可擴展性,并確定了最佳使用方法,展示了在小型語言模型中與反向傳播具有競爭力的結果。
傳統的機器學習方法通常依賴于最大似然估計(MLE),因為它易于實現并且與KL散度最小化等價。然而,僅通過最大化似然訓練的模型通常缺乏在實際部署中所期望的某些特性,例如不確定性的量化、對分布外輸入的魯棒性或遵守隱私約束。隨著機器學習模型的廣泛部署,這些重要特性比以往任何時候都更加必要。不幸的是,能夠提供這些特性的方法往往難以在當今的大型模型和數據集上實現。 在本文中,我們提出了幾項貢獻,以提高超越最大似然方法的可行性。首先,我們在多個領域改進了貝葉斯機器學習。這使我們能夠恢復感興趣參數的完整后驗分布,而不僅僅是最大似然方法提供的點估計。其次,我們在序列任務中實現了新的訓練方案:強化學習和序列建模。在強化學習的情況下,這使我們能夠開發不泄露私人信息的獎勵最大化策略。在序列建模的情況下,我們實現了新的散度方法,從而改進了文本生成。 我們的貢獻使我們能夠將分布感知的方法擴展到多個領域,并實現最先進的結果,包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私感知算法,以及使用具有數十億參數的語言模型生成類人文本。
傳統的機器學習方法通常依賴于最大似然估計(MLE),因為其實現簡單且等價于最小化KL散度。然而,僅通過最大化似然進行訓練的模型往往缺乏在實際應用中所期望的某些特性,如不確定性的量化、對分布外輸入的魯棒性,或遵守隱私約束。隨著機器學習模型被越來越廣泛地部署,這些重要特性變得比以往任何時候都更加必要。不幸的是,能夠提供這些特性的方法在當今的大模型和大數據集下通常難以實現。
在本論文中,我們提出了若干貢獻,以提高超越最大似然方法的可操作性。首先,我們在多個領域改進了貝葉斯機器學習。這使得我們能夠恢復感興趣參數的完整后驗分布,而不是最大似然方法所給出的點估計。其次,我們在順序任務中實現了新穎的訓練方案,包括強化學習和序列建模。在強化學習的案例中,這使我們能夠開發不會泄露私人信息的獎勵最大化策略。在序列建模的案例中,我們實現了新的散度函數,從而改進了文本生成。
我們的貢獻使得分布感知方法能夠擴展到多個領域,取得了最新的研究成果,包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私保護算法,以及使用數十億參數的語言模型生成類似人類的文本。
在我的博士學習期間,機器學習領域取得了巨大的進展。然而,隨著這些模型在越來越廣泛和重要的應用中部署,越來越多的關注點集中在它們的局限性上。盡管許多當前的模型在某些領域可以實現超越人類的表現 [SHM+16],它們仍然存在一些人類不會表現出的缺陷。這些問題包括缺乏對分布外數據的魯棒性 [SZS+14]、缺乏對不確定性的考慮 [GPSW17],以及私人信息的泄露 [KR19]。
在本論文中,我們的目標是開發解決這些缺陷的方法,涵蓋多種機器學習問題和應用領域。特別是,我們首先專注于改進貝葉斯機器學習,這是一種在參數估計中超越最大似然估計的傳統方法。在后續部分中,我們在強化學習和序列建模中引入了替代的訓練方法。正如下文所討論的,這些方法也可以看作是超越最大似然的訓練方法。
最大似然目標無疑是今天機器學習中最常用的目標函數,是分類、參數估計和生成建模中占主導地位的方法。簡單來說,給定一個數據集 DDD 和一個由參數 θ\thetaθ 參數化的概率模型 PθP_\thetaPθ,為數據集中的元素分配概率,最大似然目標尋找: θ?=arg?max?θEx~D[log?Pθ(x)]. 然而,最大似然目標并不總是機器學習從業者的顯而易見的選擇。在早期的分類研究中 [LeBB+98],非基于似然的目標函數常常被使用。在早期關于神經網絡機器學習的教材中 [Bis95],提出了幾種損失函數,包括平方和目標。實際上,在2010年代中期,生成對抗網絡 [GPM+14] 開始采用非似然損失。然而,最大似然目標逐漸成為今天機器學習中的主要目標函數。其原因有很多。首先,MLE方法在概率論上非常有依據,因為它與最小化KL散度是等價的。
DKL(PD∥Pθ) = Ex~D [log PD(x) ? log Pθ(x)] = ?Ex~D [log Pθ(x)] + C, 其中PD是數據集D的經驗分布函數(或基礎的群體分布),C是一個不依賴于θ的常數。因此,最大化似然等價于最小化數據分布與由θ參數化的分布之間的KL散度。其次,MLE方法通常非常容易優化。最大化似然只需要從數據集中采樣并計算對數似然的梯度,而這通常可以通過現代自動微分工具包輕松實現 [BFH+20, PGM+19]。相比之下,最小化數據分布與參數化分布之間的其他散度(例如χ2散度)通常要求對數據分布的密度有詳細了解。這種情況通常是未知的,而通過學習分類器近似這種密度的方法(如生成對抗網絡)則需要與θ一起對分類器參數進行對抗性訓練,導致訓練不穩定。
最后,最大似然通常與下游任務目標高度一致。例如,在ImageNet發布后變得流行的分類任務中 [DDS+09],最大化正確標簽的概率正是訓練分類模型的目標。 然而,最大似然目標并不總是最合適的選擇。不幸的是,采用非基于似然的目標通常是具有挑戰性的。在現代機器學習中,方法的可擴展性和優化的便捷性是所有方法的重要考慮因素。我們面臨的挑戰是:找到超越最大似然方法的技術,同時保持數據效率、易于通過梯度下降優化,并具備計算擴展性。為了解決這個問題,我們利用了一些在本論文中提出的關鍵技術:變分推理用于神經函數逼近下的貝葉斯推斷,連續松弛和路徑梯度估計器用于減少優化中的方差,以及將問題重新參數化為更易處理的等價形式。 本論文分為兩部分,但有一個共同的目標:開發超越典型MLE方法的技術。在第一部分中,我們研究了貝葉斯機器學習的改進,尤其在數據較少的情況下,由于數據集的有限性,關于θ的值可能存在相當大的不確定性。首先,我們開發了一種使用正則化流計算高維積分的新方法,并將其應用于計算貝葉斯定理中的歸一化函數。然后,我們將變分推理應用于因果發現問題,解決了在復雜有向無環因果圖集中構建后驗分布的挑戰。 在第二部分中,我們研究了在序列任務中超越最大似然的替代訓練方法。首先,我們研究了在強化學習中執行隱私約束的問題。這需要控制策略生成的軌跡分布,以確保它們不會泄露有關私有狀態變量的信息。最后,我們解決了基于序列數據的自回歸模型訓練問題。我們將任務重新表述為模仿學習任務,從而可以有效地最小化與數據分布的不同散度。超越MLE方法還為生成過程提供了額外的靈活性,我們通過允許回溯來增強生成過程。
在參數估計的設定中,我們有一個數據集D,并希望推斷感興趣的參數θ。例如,我們可能有一組(x, y)對,并希望推斷可能的線性關系的斜率,在假設數據生成y = θx + ?(其中? ~ N(0, σ))的情況下。最大似然估計給出了使Ex~D [Pθ(x)]最大的θ值,也可以寫作P(D|θ)。實際上,我們通常想要得到的是P(θ|D),即在給定數據集的情況下θ的后驗概率。根據貝葉斯定理,我們知道P(θ|D) = P(D|θ)P(θ)/P(D),其中P(θ)是θ的先驗分布,P(D)是歸一化常數。只要θ可以從數據中識別,并且先驗分布對θ的真實值有密度,那么在足夠的數據情況下,最大似然解將收斂于后驗分布的眾數。然而,在數據有限的情況下,得到完整的后驗分布通常非常重要,而不僅僅是最大似然值。后驗分布可以指示對θ估計的不確定性,這在做出最優決策時非常有用。 然而,精確計算后驗分布通常是不可行的,因為它需要計算歸一化常數P(D) = ∫ΘP(D|θ)P(θ)dθ。當θ的維度超出適度范圍時,由于維度詛咒,進行這種積分變得極其困難。在論文的第一個貢獻中,我們通過隨機采樣域的子集并估計每個子集的積分值來解決這個問題。雖然這是無偏的,但這種方法在典型目標函數下具有極高的方差,因為它們集中在域的一個小體積內。我們通過使用正則化流解決這個問題,正則化流是一種靈活的變換家族,可以在保持體積的同時在空間之間映射。這使我們能夠學習一個可逆映射,將[0, 1]d映射到積分域上,構造該映射,使得在[0, 1]d上的均勻分區通過正則化流映射后在積分域上生成具有大致相等積分量的(非均勻)分區。這大大降低了估計器的方差。通過改變分區的數量,我們可以在重要性采樣估計器(在無限多的小分區的極限下)和變分下界(在單個分區的極限下)之間平滑插值。
在這一部分的第二個重點中,我們將變分推理應用于從數據中推斷線性高斯結構方程模型(SEM)的問題。結構方程模型是一種特定類型的因果圖,配備了因果解釋的有向邊。在線性高斯SEM中,條件概率分布是高斯分布,均值由圖中變量的父節點的線性函數給出。盡管這個設定受到了限制,但在這種設定中進行變分推理仍然具有挑戰性。主要問題是網絡必須是一個有向無環圖(DAG),這是在鄰接矩陣空間中的一個復雜約束。我們通過將DAG權重矩陣重新參數化為P LP?來解決這個問題,其中L是下三角矩陣,P是置換矩陣。這使我們能夠應用關于置換的松弛的最新研究 [MBLS18]。我們發現我們的方法能夠恢復與真實數據生成圖非常相似的圖,并且表現優于基線方法。
在論文的第二部分中,我們從序列建模和強化學習(RL)設定的角度,探索了超越最大似然的訓練方法。如上所述,最大似然等價于KL散度最小化。實際上,正如 [Lev18] 中所描述的,我們可以將傳統的強化學習目標視為在熵獎勵的條件下最大化回報的過程,這等價于最小化由策略引發的分布與按軌跡獎勵加權的分布之間的KL散度。
在這一部分的第一個章節中,我們研究了在滿足信息披露約束的情況下最大化回報的任務。例如,參與管理CEO日程的算法可能擁有私人信息,在安排會議時不應泄露這些信息,或者游戲策略可能包含一些應該保密的有用信息。這表現為對對手從策略行動中推斷私有信息的能力的約束——為了隱藏私有信息,可能有必要采取次優行動(從減少回報的角度)。我們將其表述為對私有狀態變量與策略行動之間互信息的約束,并使用對抗訓練的批評者來試圖發現這些私有信息。我們進一步通過引入可微分模擬器擴展了這一方法,使我們首次能夠將私有強化學習擴展到高維模擬機器人任務。
在這一部分的最后一章中,我們解決了自回歸序列建模的傳統問題。通常這被表述為最大似然問題:對于由一系列標記構建的序列x1,目標是最大化似然PL1 log Pθ(xi|x<i)。這等價于最小化數據的經驗分布與由自回歸模型Pθ引發的分布之間的KL散度。然而,越來越多的模型用于生成任務,即自回歸地采樣一系列標記,如x1 ~ Pθ(·),x2 ~ Pθ(·|x1),依此類推。如果模型Pθ與基礎數據分布完全匹配,這將導致從真實的序列分布中采樣。然而,對于不能完全匹配數據分布的有限容量模型,最大化似然不一定會導致最理想的自回歸序列分布。我們將任務重新表述為模仿學習任務,從而能夠有效地最小化與數據分布的不同散度。此外,超越MLE方法為生成過程提供了額外的靈活性,我們通過允許回溯來增強生成過程。我們將該方法擴展到具有超過70億參數的Llama-2-7B語言模型 [TMS+23],并且性能優于可比方法。
構建能從文本、語音、視頻、現實世界傳感器、可穿戴設備和醫療數據等多種感官輸入中學習的多感官人工智能系統,在許多具有實際益處的科學領域展現出巨大的影響潛力,例如在支持人類健康與福祉、使多媒體內容處理以及增強現實世界自主代理的應用中。然而,多模態研究進展的廣度使得難以識別該領域的共同主題和開放性問題。通過綜合多種理論框架和應用領域,本論文旨在推進多模態機器學習的基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系,將展示最近的技術成就,使研究者能夠理解不同方法之間的相似性和差異,并識別未來研究的開放問題。本論文的主要內容涵蓋了我們最近在解決多模態學習中兩個關鍵問題方面的進展:多模態交互的機器學習基礎以及構建在現實世界中廣泛適用于多種模態和任務的多感官基礎模型的實用方法。在第一部分,我們研究多模態交互的基礎:即模態如何結合產生任務所需的新信息的基本原理。我們提出了一個理論框架,用于形式化模態如何相互作用以產生任務所需的新信息,例如從言語和聲音表達之間的不一致性中識別出的諷刺。使用這個理論框架,我們提出了兩個實用的估算器,以量化實際數據集中的交互。量化多模態任務所需的交互類型,使研究者能夠決定收集哪種模態,設計合適的學習這些交互的方法,并分析他們的模型是否成功地學習了這些交互。在第二部分,我們研究了設計實用的多模態基礎模型,這些模型可以廣泛地適用于多種模態和任務,這是將大型語言模型與現實世界感官模態相結合的一步。我們首先引入MULTIBENCH,一個跨廣泛模態、任務和研究領域的統一大規模基準測試。我們還將介紹現在支持今天許多多模態基礎模型的跨模態注意力和多模態變換器架構。在MULTIBENCH上擴展這些架構,使得創建適用于多種任務的通用多模態多任務模型成為可能,我們已與實踐者廣泛合作,將這些模型應用于情感計算、心理健康和癌癥預后的實際影響中。我們在論文的最后討論如何利用這些思想,朝著更通用、交互性更強和更安全的多模態人工智能邁進。
多模態人工智能是一個充滿活力的跨學科研究領域,旨在設計能夠通過多種交流方式(包括語言、聲學、視覺、觸覺、感官和生理信息)感知、推理和交互的計算機代理[46, 375]。多模態AI系統在許多具有實際益處的科學領域都能帶來巨大影響,例如支持人類健康與福祉[360, 427, 716]、使多媒體內容處理[11, 486, 514],以及增強現實世界自主代理[63, 93, 334, 523, 546]。然而,多模態研究的廣泛進展使得難以識別該領域的共同主題和開放性問題。本論文通過綜合歷史和近期視角下的廣泛理論框架和應用領域,旨在推進多模態機器學習的理論和計算基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互,這些原則帶來了機器學習的獨特挑戰。多模態數據的異質性使學習變得具有挑戰性,例如,語言通常被視為符號性的,而音頻和視頻則被表示為連續信號。同時,這些模態包含重疊的連接信息,并互動以產生任務相關的新信息。學習這些連接和互動對于系統的良好性能至關重要。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系的視角,將展示最近的技術成就,使研究者能夠理解新方法之間的相似性和差異,并幫助我們識別未來研究的關鍵開放問題。利用我們的多模態機器學習分類體系,我們強調了多模態學習進展中的兩個關鍵挑戰:(1)建立多模態交互的基礎,以便我們能夠量化數據集中存在的交互并使用機器學習方法正確地模擬這些交互;(2)構建能夠在大量模態和任務中實現泛化的多模態模型和數據集,以產生真實世界的社會影響(圖1.1)。
最優控制是一個強大的控制器設計范式,因為它可以用相對簡單的成本函數來隱含地編碼復雜的穩定行為。然而,維度災難和非凸優化的存在可能使得為復雜的高維系統可靠地獲得穩定的控制器變得具有挑戰性。近期,基于采樣的強化學習方法使機器人學家能夠為高維系統獲得近似最優的反饋控制器,即使動力學未知。然而,這些方法在許多應用領域的實際部署仍然不夠可靠。
這篇博士論文主張,可靠的基于優化的控制器合成的關鍵是深入理解我們寫下的成本函數和我們設計的算法如何與控制系統的基礎反饋幾何結構相互作用。首先,我們將研究如何通過嵌入控制Lyapunov函數(這是系統的能量類函數)來加速無模型的強化學習。接下來,我們將介紹一種新的基于數據的策略優化框架,該框架將來自近似動力學模型和低級反饋控制器家族的結構信息嵌入到更新方案中。然后,我們轉向動態規劃的視角,研究系統的幾何結構如何在計算或學習穩定控制器所需的計算量上施加根本性的限制。最后,我們研究基于導數的搜索算法,并研究如何設計用于模型預測控制方案的“好”成本函數,以確保即使使用基于梯度的方法在非凸目標上搜索,這些方法也能穩定系統。在整個過程中,我們將重點關注如何從簡單的分析模型中獲得的結構性洞見指導我們的設計決策,并將討論其在動態行走、飛行控制和自動駕駛等應用中的用途。
視覺感知和語言理解是人類智能的基本組成部分,使他們能夠理解和推理物體及其相互作用。對于機器來說,使用這兩種模式來創造新的機器人-人類協作系統的推理能力是至關重要的。深度學習的最新進展已經建立了視覺場景和語言的獨立復雜表示。然而,在共享的上下文中理解兩種模態之間的關聯以進行多模態推理仍然是一個挑戰。本文以語言和視覺模態為重點,推進了對如何利用神經網絡開發和使用視覺-語言任務的關鍵方面來支持推理的理解。這些貢獻包括:(i)從動態視覺場景中選擇內容和構建時間關系以響應語言查詢的有效機制,并為推理過程準備足夠的知識(ii)利用視覺-語言關聯(直接從數據推導或由外部先驗引導)用神經網絡進行推理的新框架。 在第一項工作中,本文提出一種新的雙過程神經架構,類似于人類視頻問答(視頻QA)推理系統中的雙過程。它由一個快速和反應的問題引導視頻處理模塊(系統1)和一個緩慢和深思的通用推理模塊(系統2)組成。快速系統是一個層次模型,在給定問題的文本線索的情況下,編碼關于對象、動作和時空關系的視覺模式。編碼的表示是一組高級的視覺特征,然后傳遞給緩慢的、深思熟慮的系統。多步推理用于根據文本元素的需要迭代地鏈接視覺元素。該系統在主要的大規模視頻QA基準上進行了評估,顯示了有競爭力的結果,在多步驟推理的情況下有很大的優勢。
機器學習(ML)正在經歷一場范式的轉變——機器學習模型越來越多地被作為一種服務來提供,以自動化各種下游決策,而不是由機器學習專家對特定任務進行端到端的訓練和部署。例如,大型科技公司提供的圖片或文本分類API,被廣泛的第三方應用開發者使用,以及通過網站向數百萬用戶提供各種預測(如天氣、COVID、流量等),以幫助他們進行規劃。盡管這種新的范式通過使ML更廣泛地可訪問而使其民主化,但它引起了對可信性(用戶無法看到他們是如何被訓練的以及他們的失敗模式)和性能(預測模型不再為特定的下游任務量身定做)的擔憂。本文通過以下方法來解決這些問題:
貢獻1。提出了一種新的方法,通過精確的不確定性量化,向下游決策者傳遞信心,后者將對(高風險)決策進行預測。精確的不確定性量化可以通過預測相關結果的真實概率(例如給定癥狀的病人患病的真實概率)來實現。雖然在大多數情況下,準確地輸出這些概率是不可能的,但對于大型決策任務,學習與真實概率難以區分的概率卻是驚人的可能。不可區分性保證了決策者的可靠性,因為在他們的決策任務中,他們不應該能夠區分預測概率和真實概率之間的區別。作為一個應用程序,我開發了一些預測模型,如醫療診斷、航班延誤預測和貧困預測等領域。我展示了通過使用我的方法,決策者可以自信地做出導致良好結果的決策。
貢獻2。發展一種新的信息理論,以嚴格推理和優化ML預測在廣泛的決策任務中的“有用性”。香農信息理論在機器學習中有著廣泛的應用,但在處理復雜的學習和決策任務時存在一些局限性。例如,考慮從對手攔截的安全加密消息數據集。根據信息論,這些加密信息與對手的計劃具有高度的互信息,而任何計算有界的決策者都不能利用這些信息。為了解決這些局限性,我提出了一個新的框架,稱為“效用信息理論”,它概括了香農熵、信息和散度,以解釋知識或建模能力有限的決策者將如何使用信息。作為一個應用,我將新的信息應用于貝葉斯優化問題,并顯示了比使用香農信息的當前方法在樣本效率方面的數量級改進。
盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。
//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf