基礎模型正在迅速從實驗室起源轉向現實世界的部署和使用。在這篇論文中,我討論了兩個相互關聯的研究線,它們致力于彌合這個鴻溝,以便基礎模型能夠在現實世界的環境中,如工程、醫學或科學等領域中,得到有效的應用。第一種研究是使模型更加領域無關:盡管訓練基礎模型的技術是為語言和視覺領域開發的,但我們證明了簡單的技術可以將這些方法推廣到至少十二個不同的領域。第二個研究是使模型在任務模糊性的情況下更有用,也就是說用戶希望完成的任務可能模糊或未完全明確,這在現實世界環境中往往是常態。在這里,我們展示了如何衡量和提高基礎模型在任務模糊性下的性能,并探索了模型本身如何幫助澄清用戶意圖的過程。我們在討論未來的方向和更廣闊的挑戰及機遇前景時結束。
通用機器學習模型已經到來。盡管它們常常不完美、不可靠、不值得信賴或存在偏見,但現在存在的機器學習模型能夠通過自然語言或圖像示例快速學習一系列新任務。使用這些模型的一般公式有兩個步驟。首先,對模型進行大量廣泛的數據訓練,如從互聯網上策略性地抓取的圖像或文本,然后將其適應于所需的任務,例如,通過一組輸入輸出示例的自然語言指令。對于這種范例,已經創造了基礎模型這個術語,因為第一階段的訓練產生了一個模型,可以作為這些許多下游用例的集中基礎[Bommasani等人,2021]。
支撐這些模型的進步源自于各大研究實驗室的廣泛進展——太多以至于無法一一列舉。一些重要的例子包括構建和策劃大規模數據集(例如,C4 [Raffel et al., 2020],ImageNet [Deng et al., 2009a]),為評估模型構建下游任務和基準測試(例如,GLUE [Wang et al., 2018a],SQuAD [Rajpurkar et al., 2016],ImageNet [Deng et al., 2009a]),為專用機器學習加速器開發硬件和軟件堆棧(例如,CUDA [Catanzaro et al., 2008, Garland et al., 2008],AlexNet [Krizhevsky, 2009a],TPUs [Jouppi et al., 2017]),訓練神經網絡的編程抽象(例如,Torch [Collobert et al., 2011],Theano [Team et al., 2016],TensorFlow [Abadi et al., 2016],PyTorch [Paszke et al., 2019],JAX [Frostig et al., 2018]),可擴展的機器學習架構(例如,ResNets [He et al., 2016],Transformers [Vaswani et al., 2017b]),優化器和分布式訓練的改進(例如,Adam [Kingma and Ba, 2014],Megatron [Shoeybi et al., 2019]),當然還有大規模無監督預訓練和遷移學習(例如,BERT [Devlin et al., 2018],GPT-3 [Brown et al., 2020])。
基礎模型迅速從實驗室走向實際部署和應用。在這篇論文中,我討論了兩個相關的研究方向,旨在彌合這一鴻溝,以便基礎模型可以在實際環境中得到有效應用,例如工程、醫學或科學領域。第一個方向是使模型更加領域無關:雖然用于訓練基礎模型的技術最初是為語言和視覺領域開發的,但我們展示了簡單的技術可以將這些方法推廣到至少十二個不同的領域中。第二個方向是在任務模糊性的情況下使模型更加有用,即用戶所需任務可能模糊或沒有完全明確,這在實際環境中經常發生。在這里,我們展示了如何衡量和改進基礎模型在任務模糊性下的性能,并探討了模型本身如何協助消除用戶意圖的歧義過程。最后,我們討論了未來的方向以及面臨的挑戰和機遇的廣闊前景。
通用機器學習模型已經問世。雖然它們往往是不完美的、不可靠的、不可信賴的或帶有偏見的,但現在存在著機器學習模型,能夠通過自然語言或圖像示例快速學習各種新任務。使用這些模型的一般公式包括兩個步驟。首先,模型在大量廣泛的數據上進行訓練,例如從互聯網中篩選出的圖像或文本,然后根據所需的任務進行適應,例如使用一組輸入-輸出示例的自然語言指令。這種范式被稱為基礎模型,因為訓練的第一階段產生了一個可以作為許多后續用例的中心基礎的模型。支撐這些模型的進展源于各種研究實驗室的進展,這里無法一一列舉。一些重要的例子包括構建和策劃大規模數據集(例如C4,ImageNet),為評估模型構建后續任務和基準測試(例如GLUE,SQuAD,ImageNet),開發用于專門的機器學習加速器的硬件和軟件堆棧(例如CUDA,AlexNet,TPUs),用于訓練神經網絡的編程抽象(例如Torch,Theano,TensorFlow,PyTorch,JAX),可擴展的機器學習架構(例如ResNets,Transformers),優化器和分布式訓練的改進(例如Adam,Megatron),當然還有大規模無監督預訓練和遷移學習(例如BERT,GPT-3)。
像許多技術一樣,機器學習在開發過程中使用了一套假設,以使上述的發展變得可行。這些假設就像訓練輪,它們支持技術在初期的發展,但隨著技術成熟并在更廣泛的社會中部署,這些假設需要被摒棄,以免阻礙進一步的進展。盡管上面提到的進展令人矚目,但機器學習算法必須摒棄一些重要的訓練輪,以推動在實際問題中的進展,例如科學、工程和醫學領域。特別是,這篇論文關注的是兩個訓練輪,即領域特定性和明確的任務,隨著這些技術繼續從實驗室走向真實世界,它們已經不再可行。
我們展示了在開發穩定、可擴展和可傳遞的用于視覺數據的生成模型方面的進展。我們首先利用自回歸模型學習表達豐富的圖像先驗知識,這些模型可以生成高質量且多樣化的圖像。然后,我們探索了遷移學習,將視覺表征模型推廣到具有有限可用數據的新數據模態。我們提出了兩種方法,通過從預訓練的判別式視覺模型中提取知識,從稀疏的輸入圖像或自然語言描述生成高質量的3D圖形。我們簡要總結了利用去噪擴散概率模型改善生成質量的工作,并展示了如何將其轉移到新的模態,包括使用分數蒸餾采樣進行高質量的文本到3D合成。最后,我們通過優化矢量圖形渲染器,利用從預訓練的文本到圖像擴散模型中提取的知識,從文本生成2D矢量圖形,而無需矢量圖形數據。我們的模型可以在許多模態下實現高質量的生成,并在隨后的工作中得到廣泛應用。
研究主要集中在三類工作上:(i) 可以擴展學習的高效計算機系統,(ii) 開發更具表達力和穩定性的模型,以便從規模效應中受益,以及 (iii) 能夠使模型推廣到新模態的遷移學習算法。在這篇論文中,我將專注于后兩類工作。
從真實樣本中估計高維分布是機器學習和統計學中一個長期存在的挑戰性問題。這樣的分布估計需要一個模型來捕捉一組變量之間的相互依賴關系,例如隨機向量的各個維度。通過參數化分布估計,幾乎可以在真實世界的數據上實現神奇的效果。當這些分布描述圖像時,這些應用包括無條件圖像生成,例如合成無限的人工數據,基于已知屬性的圖像生成,照片編輯,增強技術,如超分辨率或修復,領域轉換等等。深度生成模型還推動了其他數據模態的進展,包括語音合成、音樂生成和自然語言生成。
在深度生成模型的許多研究中,重點是估計無條件參數分布???? (x),通過與任務無關的樣本質量和似然度量來衡量進展。然而,生成建模的吸引力在于先驗分布????在向下游任務中的靈活性,其中通常可以獲取一些條件信息,如類別標簽??或損壞的觀測值x?。在這些設置中,能夠以較低的計算成本訪問所需的后驗分布(例如???? (x|x?))至關重要。通用的推斷算法在某些情況下可以從所需的后驗中進行采樣,但理想情況下,我們希望能夠準確且高效地對這些后驗進行計算。
我們的整體目標是學習和轉移表達豐富的生成視覺模型到許多領域。我們通過消除生成圖像先驗中的架構限制來解決這個問題,然后通過從大型預訓練模型中轉移知識,降低生成應用的數據需求。首先,在第二章中,我們提出了一種改進的PixelCNN自回歸模型架構,支持對數據維度進行任意條件分布的圖像補全應用。我們修改后的架構,局部掩蔽的PixelCNN,允許在集合中共享參數,從而提高密度估計。然而,自回歸模型是強大的密度估計器,但在小尺度上樣本質量較差,采樣速度慢,并且在條件生成任務上相對不夠靈活。特別是,像PixelCNN這樣的自回歸模型一次只對一個數據維度進行采樣,通常需要進行完整的神經網絡前向傳遞,這是低效的。
在第三章中,我們探索了圖像合成的一個具有挑戰性的應用:新視角合成(NVS)問題。NVS的目標是從新的相機位置插值出場景的稀疏視角。在給定稀疏采樣的觀察視角的情況下,基于神經輻射場的現有方法估計了編碼特定場景幾何和外觀的神經網絡的參數。然后,使用體積渲染生成新視角。在我們的工作中,我們提出了一個輔助損失函數,允許將大型圖像編碼器的先驗知識轉移到視角合成問題中。這使得神經輻射場能夠對未見區域進行外推——這對于生成模型來說是一項重要的能力。使用輔助損失函數來約束場景表示還可以改善視角合成的質量,即使只有1-8個觀察圖像。利用自監督模型的先驗知識是提高生成模型的數據效率、靈活性和可控性的一種有前途的方法。是否需要任何觀察?在第四章中,我們展示了特征空間損失可以用于僅通過標題生成一個3D物體。我們描述了一種名為Dream Fields的方法,通過測試時訓練來合成一個3D神經輻射場。Dream Fields由一個經過正則化的3D表示和一個基于預訓練語言模型和圖像編碼器的特征空間對齊的損失函數優化而成。正則化對于高質量是至關重要的。我們的工作為無需使用任何3D訓練數據的開放領域文本到3D生成鋪平了道路。
DietNeRF和Dream Fields依賴于來自自監督視覺Transformer和對比語言-視覺雙編碼器等判別模型的先驗知識。然而,判別模型不一定能夠完全表示高質量合成所需的所有視覺細節。第五章簡要討論了我們在生成建模方面的兩項工作,使得跨模態生成具有更高保真度成為可能。首先,我們開發了一種新的去噪擴散概率模型(DDPM),它在圖像合成方面實現了最先進的樣本質量。DDPM被證明是一種高度可擴展且穩定的先驗模型,可以直接在不同模態下進行訓練。然而,在不同格式的訓練數據可用量上總會存在差異:當前圖像數據集的規模比最大的3D數據集大幾個數量級。在后續的工作中,我們找到了將擴散模型從其訓練模態中轉移出來的新方法。我們提出了分數蒸餾采樣損失來實現這種轉移能力,并將其首次應用于高質量的文本到3D方法,即Dream Fusion。在擴散模型和分數蒸餾采樣的基礎上,我們在第六章中基于預訓練的文本到圖像擴散模型開發了一種文本到SVG的方法,稱為VectorFusion。VectorFusion展示了生成模型從文本中創建抽象的矢量化圖形的潛力。在整個論文中,我們通過將在數據豐富的模態上學習到的大規模先驗知識與可微分的渲染器相結合,構建了強大的合成工具,這些渲染器表示了為下游任務有用的定制模態。第七章提供了總結思考。
這篇博士論文解決了大型語言模型(LLMs)的兩個重要挑戰:魯棒性和可擴展性。首先,我們通過學習代碼表示的視角來提高大型語言模型的魯棒性。我在這里強調我們在ContraCode上的工作,該模型學習了對保留標簽編輯具有魯棒性的代碼表示。其次,我們從系統角度解決可擴展性挑戰。我們提出了Checkmate,這是一個通過最優再物化超越GPU內存容量限制來支持模型訓練的系統。此外,Skyplane,一種優化云對象存儲之間大批量數據傳輸的系統,使得在云端訓練更大的預訓練數據集成為可能。總的來說,這些貢獻為提高大型語言模型的魯棒性和可擴展性提供了一條路徑。
在1945年,Vannevar Bush設想出了一種名為memex的假想設備,該設備能夠存儲和索引人類的所有知識,使用戶能夠通過"全新形式的百科全書"查詢和導航知識。盡管Bush設想的memex是一種基于機械微膠片的設備,但他的遠見遠超出了該設備的物理形態。他預見了深度語言理解、知識存儲和推理系統的發展。大型語言模型(LLMs)通過學習可以查詢和推理的語言表示,已經朝這個方向取得了重大進展。不同于以往的語言模型,這些神經網絡在大量數據上進行訓練,以預測單詞并理解語言。他們在某些基準測試上達到了人類水平的表現,但也面臨著限制其廣泛部署的重大挑戰。具體來說,大型語言模型在兩個維度上面臨重要難關:魯棒性和可擴展性。大型語言模型的魯棒性是一個多面的挑戰。雖然大型語言模型在理解和生成文本方面取得了顯著進步,但他們仍然在處理幻覺、對輸入擾動的敏感性和組合泛化上存在困難。另一方面,可擴展性是一個關于規模和計算資源的挑戰。對于大型語言模型,交叉熵損失隨著模型規模、數據集規模和用于訓練的計算量的增加而呈冪律增長。在這篇博士論文中,我為持續改進大型語言模型的魯棒性和可擴展性做出了貢獻。
第二章:增強大型語言模型的魯棒性
在第二章中,我們研究了提高大型語言模型魯棒性的策略。這個討論的一個核心問題是語言建模目標是否會導致學習魯棒的語義表示,或者僅僅是基于局部上下文預測標記。為了回答這個問題,我們轉向源代碼的情境,其中程序的語義是由其執行定義的。我們探索了對比預訓練任務ContraCode,它學習代碼的功能而不是形式。ContraCode預訓練一個神經網絡,區分功能上類似的程序變體與眾多非等效的干擾項。這種策略在JavaScript總結和TypeScript類型推斷精度上顯示出改善。我們還介紹了一個新的零射擊JavaScript代碼克隆檢測數據集,結果表明與其他方法相比,ContraCode更具魯棒性和語義意義。
第三章:解決大型語言模型的可擴展性挑戰
在第三章中,我們開始解決大型語言模型的可擴展性挑戰,首先考察了在訓練大型模型過程中出現的"內存壁"問題。在這里,我們介紹了Checkmate,一個在DNN訓練中優化計算時間和內存需求之間權衡的系統。Checkmate解決了張量重制化優化問題,這是先前檢查點策略的一種推廣。它使用現成的MILP求解器確定最優的重制化計劃,并加速了數百萬次的訓練迭代。該系統可以擴展到復雜、現實的架構,并且是硬件感知的,使用基于特定加速器的配置文件成本模型。Checkmate使得能夠訓練實際網絡,其輸入最大可達5.1倍。
第四章:大型預訓練數據集的管理
在第四章中,我們探討了大型預訓練數據集的管理,這也是可擴展性挑戰的另一個方面。具體而言,我們研究了如何在云端目標之間收集和移動這些數據集。我們介紹了Skyplane,一個使用云感知網絡覆蓋來進行云對象存儲間批量數據傳輸的系統。它使用混合整數線性規劃來確定數據傳輸的最優覆蓋路徑和資源分配,從而優化價格和性能的平衡。Skyplane在單一云中的傳輸性能比公共云傳輸服務高出4.6倍,跨云傳輸性能高出5.0
如果1609年已經有機器學習技術,開普勒會發現他的定律嗎?還是他會滿足于黑盒回歸模型的準確性,導致牛頓沒有靈感去發現萬有引力定律?在這篇論文中,我將對物理科學領域中機器學習及其用例進行回顧。我將強調科學應用中面臨的一個主要問題:缺乏可解釋性。過度參數化的黑盒模型容易在訓練數據中記住偽相關。這不僅威脅到使用機器學習取得的研究進展,而且剝奪了科學家最強大的工具箱:符號操縱和邏輯推理。考慮到這一點,我將展示一個可解釋機器學習框架,使用物理驅動的歸納偏差和一種名為“符號提煉”的新技術。這些方法的結合使從業者可以將訓練好的神經網絡模型轉換為可解釋的符號表達式。首先,我將討論執行這種提煉的深度學習策略,然后回顧“符號回歸”,這是一種使用進化算法優化符號表達式的算法。尤其是,我將描述我的PySR/SymbolicRegression.jl軟件包,它是一個易于使用的高性能符號回歸包,適用于Python和Julia。與此相關,我將討論一些使這種技術更有效的物理驅動的歸納偏差。在論文的下半部分,我將回顧這種和其他可解釋機器學習技術在天體物理問題上的各種應用。這些包括:宇宙學中的宇宙空洞、計算流體動力學中的子網格尺度建模、最優望遠鏡時間分配、恒星和引力波天文學中人口模型的靈活建模,以及學習有效且概率嚴格的行星不穩定性模型。
本文主要研究不確定性和數據限制下的現代因果推理,并將其應用于新輔助臨床試驗、分布式數據網絡和魯棒的個性化決策。在第一個項目中,我們在主要分層框架下提出了一種方法,以治療后中間反應的反事實狀態為條件,來識別和估計治療對二元結果的平均影響。在溫和的假設下,可以確定感興趣的治療效果。將該方法擴展到審查結果數據。將所提方法應用于新輔助臨床試驗,并通過仿真研究對其性能進行評估。在第二個項目中,我們提出了一種基于樹的模型平均方法,通過利用來自其他潛在異構站點的模型,在不共享主題級數據的情況下,提高目標站點條件平均處理效果的估計精度。據我們所知,目前還沒有建立分布式數據的模型平均方法,專注于改善治療效果的估計。通過對氧療對醫院生存率的因果影響的研究,證明了這種方法的性能,并得到了綜合模擬的支持。
在第三個項目中,提出了一個具有敏感變量的魯棒個性化決策學習框架,以改善決策時不可用的敏感變量造成的個人最壞結果。與大多數使用均值最優目標的現有工作不同,本文通過找到一個新定義的分位數或最小最優決策規則,提出了一個魯棒的學習框架。從因果角度出發,將(平均)公平的經典概念泛化到個體主體的條件公平。通過合成實驗和3個真實數據應用驗證了所提方法的可靠性能。
本論文涉及以下幾個方面的因果推斷:1)確定主要階層的治療效應;2)通過異構數據集成增強對治療效果的估計;3)考慮最壞情況下的個性化決策規則。它有可能從根本上改善目前在藥物開發和精準醫療方面的實踐。
在過去的十年里,深度學習取得了巨大的成功,但在權值更新和訓練樣本數量方面,實際有用的深度模型的訓練仍然非常低效。為了解決這些問題的一個方面,本文研究了持續學習設置,該模型利用一系列的任務,利用之前的知識來快速學習新任務。持續學習的主要挑戰是,在為新任務更新模型時,避免模型災難性地忘記之前的信息。
//ora.ox.ac.uk/objects/uuid:7a3e5c33-864f-4cfe-8b80-e85cbf651946
為此,本文首先提出了一種持續學習算法,通過正則化兩個連續任務的條件似然之間的kl -散度來保留之前的知識。結果表明,這種正則化對網絡權值施加了二次懲罰,該懲罰基于上一個任務的最小曲率。其次,本文提出了一種更有效的持續學習算法,利用對過去任務的情景記憶作為約束,這樣當對新任務進行權重更新時,情景記憶的損失不會增加。結果表明,使用情景記憶約束目標比正則化網絡參數更有效。此外,為了提高學習新任務的速度,提出了使用組合任務描述符的聯合嵌入模型,大大提高了正向遷移。基于情景記憶的持續學習目標通過直接在損失函數中使用記憶來簡化。盡管它傾向于記憶出現在微小情景記憶中的數據,結果算法顯示出比使用記憶作為約束的算法更好的泛化。分析認為,這種驚人的概化是由于新任務數據帶來的正則化效應。然后利用該算法對合成數據和真實數據進行持續學習。為此,提出了一種方法,通過優化重放緩沖區上的事后遺忘損失,為每個任務生成合成數據點。設計了一個嵌套的持續學習優化目標,有效地利用這些綜合點來減少基于記憶的持續學習方法的遺忘。最后,本文提出了一種持續學習算法,在不重疊的特征子空間中學習不同的任務。通過保持不同任務的子空間相互正交來最小化重疊,可以減少這些任務表示之間的干擾。
在現實生活中部署人工智能體的一個基本問題是它們快速適應環境的能力。傳統的強化學習(RL)以兩種方式與這一需求作斗爭。首先,對不受約束的環境動態的迭代探索會產生大量信息不足的更新,從而導致適應速度緩慢。其次,最終的策略沒有能力適應未來的觀察結果,必須隨著觀察結果的發生緩慢地無限學習或完全重新訓練。本文探討了兩種旨在解決這些問題的表述。元強化學習對整個任務分布的考慮使策略能夠快速適應特定實例。通過強迫智能體特定地請求反饋,主動強化學習強制進行選擇性的觀察和更新。這兩個公式都簡化為貝葉斯-自適應設置,在其中保持對可能環境的概率信念。許多現有的解只提供了在實際環境中使用有限的漸近保證。我們開發了一種近似信念管理的變分方法,并通過廣泛的消融實證支持其有效性。然后,我們考慮最近成功的規劃方法,但發現和討論它們在應用到所討論的設置中的障礙。影響RL系統的數據需求和穩定性的一個重要因素是選擇合適的超參數。我們開發了一種貝葉斯優化方法,利用訓練過程的迭代結構,其經驗性能超過現有基線。本文的最后一個貢獻是提高高斯過程(GPs)的可擴展性和表達性。雖然我們沒有直接使用現有的框架,但GPs已經被用于在密切相關的設置中建模概率信念。
//ora.ox.ac.uk/objects/uuid:54963b90-2d7c-41a9-9bf3-065a3097c077
機器學習正在醫療健康等各種關鍵應用得到實施。為了能夠信任機器學習模型,并在它出現故障時修復它,能夠解釋它的決策是很重要的。例如,如果一個模型在特定的子群體(性別、種族等)上的表現很差,找出原因并解決它是很重要的。在本文中,我們研究了現有可解釋性方法的不足,并介紹了新的ML可解釋性算法,旨在解決一些不足。數據是訓練機器學習模型的材料。如果不返回最初訓練ML模型的數據,就不可能解釋ML模型的行為。一個基本的挑戰是如何量化每個數據源對模型性能的貢獻。例如,在醫療健康和消費市場,有人提出個人應因其產生的數據而得到補償,但對個人數據的公平估值尚不清楚。在本文中,我們討論了數據公平價值評估的原則框架; 也就是說,給定一個學習算法和一個性能度量來量化結果模型的性能,我們試圖找到單個數據的貢獻。本論文分為3個部分,機器學習的可解釋性和公平性,數據估值,以及用于醫療健康的機器學習——所有這些都被一個共同的目標聯系在一起,即使機器學習的使用對人類的福祉更負責。
在過去的20年里,基因組學、神經科學、經濟學和互聯網服務等許多領域產生了越來越多的大數據集,這些數據集有高維、大樣本,或者兩者兼之。這為我們從數據中檢索和推斷有價值的信息提供了前所未有的機會。同時,也對統計方法和計算算法提出了新的挑戰。一方面,我們希望建立一個合理的模型來捕獲所需的結構,并提高統計估計和推斷的質量。另一方面,面對越來越大的數據集,計算可能成為一個巨大的障礙,以得出有意義的結論。這篇論文站在兩個主題的交叉點,提出了統計方法來捕獲所需的數據結構,并尋求可擴展的方法來優化計算非常大的數據集。我們提出了一種可擴展的靈活框架,用于利用lasso/elastic-net解決大規模稀疏回歸問題; 提出了一種可伸縮的框架,用于在存在多個相關響應和其他細微差別(如缺失值)的情況下解決稀疏縮減秩回歸問題。分別在snpnet和multiSnpnet R包中以PLINK 2.0格式為基因組數據開發了優化的實現。這兩種方法在超大和超高維的英國生物樣本庫研究中得到了驗證,與傳統的預測建模方法相比有了顯著的改進。此外,我們考慮了一類不同的高維問題,異質因果效應的估計。與監督學習的設置不同,這類問題的主要挑戰在于,在歷史數據中,我們從未觀察到硬幣的另一面,因此我們無法獲得處理之間真正差異的基本真相。我們提出適應非參數統計學習方法,特別是梯度增強和多元自適應回歸樣條,以估計處理效果的預測器可用。實現被打包在一個R包causalLearning中。