機器學習領域見證了對從未整理數據中學習的日益濃厚的興趣,這涉及從未經精心整理或標記的數據中訓練模型。然而,這種類型的數據通常嘈雜、不完整,并充斥著錯誤,使得機器學習算法難以有效學習。本論文關注于開發能夠有效利用未整理數據同時對數據中固有的噪聲和錯誤具有韌性的強健學習方法。具體來說,我們調查了對比學習的韌性,這是一種通過比較語義上相似和不同的樣本對的自監督表示學習的突出技術。 首先,我們深入探討了從未標記數據中學習所固有的基本挑戰。我們發現,消除假陰性和鼓勵困難的負面案例顯著提高了下游性能和訓練效率。隨后,我們將焦點轉移到數據集內無處不在的噪聲。我們特別關注于假陽性對的出現,這是多模態對比學習環境中特別普遍的現象。
在我們研究的最后部分,我們思考了從大規模模型中有效地消除偏見。觀察到,當模型在有偏見的未整理數據上進行預訓練時,它們通常會繼承許多不適當的偏見,從而導致傾斜的預測。為了糾正這一點,我們設計了一種獨立于任何數據或訓練要求的去偏算法。
貫穿整篇論文的共同線索是對未標記、嘈雜和有偏見數據分別所關聯的獨特錯誤類型的韌性和全面的緩解方法,為機器學習研究領域提供了實質性的貢獻。
近年來,機器學習取得了顯著進展,尤其是在使用標記數據訓練模型的監督學習領域。然而,獲取大量標記數據可能是一個成本高昂且耗時的過程,這促使越來越多的人對從未整理數據中學習產生了興趣。 未整理數據指的是那些未經仔細整理或標記的數據,這些數據通常包含噪音,不完整且包含錯誤。從這類數據中學習對機器學習算法來說是一個重大挑戰,因為它們必須能夠有效利用可用信息,同時對固有的噪聲和錯誤具有韌性。本論文關注于以下基本目標:能夠從未整理數據中學習的強健學習算法。 為了實現這一目標,我分析了對比學習,這是一種通過比較語義上相似和不同的樣本對來進行自監督表示學習的突出技術[24, 81, 147]。傳統上,監督學習一直是人工智能(AI)進步的基石,依賴大量的標記數據來訓練模型。然而,收集和標記如此大量的數據可能既昂貴又耗時。此外,在現實世界的應用中,標記數據往往稀缺甚至無法獲得。為了克服這些障礙,研究人員轉向使用無標記數據的無監督和自監督學習技術來訓練模型。然而,這些技術在性能上通常落后于監督方法,主要是因為定義引導模型走向有用表示的目標很困難。 對比學習就在這里發揮了作用。通過設定目標,將語義上相似(正面)和不同(負面)的數據點對在學習到的特征空間中拉近或推遠,對比學習提供了一種從無標記數據構建有用且富有信息的表示的方法。對比學習在包括計算機視覺、自然語言處理、圖表示學習和強化學習等多個領域的能力已被證明,實現了許多基準測試中的最先進性能。
本論文解決了上述瓶頸問題,分為三個部分:第一部分:從未標記數據中學習,第二部分:從嘈雜數據中學習,第三部分:從有偏見的數據中學習。
在第一部分,我解決了負樣本的兩個關鍵問題:假負樣本和困難負樣本。我們首先在第2章提供問題形式化和對比學習的背景。在第3章中,基于Chuang等人的研究[36],我用一種新的對比損失解決了假負樣本的問題。然后在第4章,基于Robinson等人的研究[163],我們通過重要性采樣估計擴展了提出的損失,包括困難負樣本采樣。
在第二部分,我將揭示假陽性樣本的問題,特別是在多模態環境中,并開發針對它的強健損失函數。在第5章中,基于Chuang等人的研究[39],我將對比學習與二元分類聯系起來,并為對比損失開發強健的損失函數。第6章提供了所提出損失的理論基礎,即Wasserstein互信息的變分下界。
在第三部分,我將討論如何消除大規模基礎模型中的偏見,基于Chuang等人的研究[40]。第7章概述了基礎模型的興起,并提出了一種去偏算法,以高效地消除視覺-語言基礎模型的偏見。 第8章建立了表示學習與泛化理論之間的聯系,使用邊界界限,從而為對比學習提供了理論驗證。作為結語,第9章總結了本論文,并進行了一些討論。
隨著機器學習(ML)系統在現實世界中的部署,這些系統的可靠性和信任度成為更加突出的挑戰。本論文旨在通過兩個關鍵推動力來應對這一挑戰:(1)通過利用機器學習模型的一個被認為是其弱點的方面——對抗性擾動,使機器學習模型更值得信賴;(2)探索可靠的機器學習部署的基礎。
具體來說,在第一個推動力中,我們關注對抗性擾動,這是對機器學習模型完整性的一個眾所周知的威脅,并展示如何構建對所謂的對抗性貼片具有魯棒性的機器學習模型。然后,我們展示對抗性擾動可以被重新利用,不僅僅是機器學習模型的弱點,而且還可以增強這些模型的韌性和可靠性。為此,我們利用這些擾動來首先開發一種創建易于機器學習模型識別的對象的方法,然后設計一種保護圖像免受不希望的AI驅動修改的方法,最后改進遷移學習的性能。
本論文的第二個推動力圍繞機器學習模型的可解釋性和調試,以確保機器學習系統的安全性、公平性和無偏見的決策制定。特別是,我們研究構建更易于調試的機器學習模型的方法,并提供診斷其故障模式的工具。然后,我們研究數據如何影響模型行為,識別數據可能以意想不到的方式引入機器學習模型偏見的情況,特別是在遷移學習的背景下。最后,我們提出了一個基于數據的框架來研究遷移學習,這可以幫助我們發現從預訓練數據中繼承的問題偏見。
在過去的十年中,機器學習(ML)在各個領域推動了顯著的進步,例如計算機視覺[KSH12]、自然語言處理[VSP+17; DCL+19]和語音識別[GMH13; BZM+20; ZQP+20]。機器學習在多個領域的廣泛應用強調了全面評估其在現實世界系統中的可靠性、信任度和可部署性的重要性。隨著機器學習繼續擴展到復雜且不斷變化的領域,確保其可靠和公平地運作至關重要。
盡管機器學習模型取得了顯著成就,但它們并非沒有缺點。有趣的是,這些模型很脆弱,不經意間與一些表面模式對齊,從而延續了它們所訓練數據中現有的偏見。這種脆弱性的一個明顯例證是對抗性示例[BCM+13; SZS+14]的現象,其中對圖像的微小擾動可以干擾機器學習模型,導致錯誤分類(參見圖1)。 對抗性示例僅僅代表了更廣泛問題的一種表現形式,即機器學習模型在暴露于分布偏移時缺乏魯棒性,此時測試時的數據分布與訓練時的不同。這使得人們對機器學習在現實世界中的部署準備產生疑問,強調了需要可靠的系統能夠承受動態、真實世界的條件。因此,以下關鍵問題出現了: 我們如何自信和負責地在現實環境中部署機器學習?
本論文通過兩個主要推動力來推進這一總體挑戰,都致力于解決機器學習在現實世界部署中面臨的一些最關鍵問題。這兩個推動力是: 對抗性擾動與更好的機器學習。新機器學習模型的開發通常涉及對靜態基準的優化,這可能與這些模型在部署過程中面臨的場景大不相同。這種差異要求創建魯棒和可靠的模型,特別是在預測準確性至關重要的高風險應用中。本論文的第一部分解決了這一需求,重點關注由對抗性擾動所表現的最壞情況分布偏移。我們首先展示如何構建對這些擾動魯棒的模型,并證明從安全角度看,這些魯棒模型在部署時更安全外,當用于下游任務(例如,在遷移學習中)時,它們的泛化能力更好。然后,我們轉換方向,展示如何利用這些(看似不好的)對抗性擾動來(1)創建在分布偏移下易于被機器學習模型識別的魯棒對象,以及(2)保護圖像免受不希望的AI操縱,這兩者也有助于使機器學習部署更可靠和值得信賴。
理解可靠機器學習部署的基礎。現實世界中的機器學習部署不僅需要魯棒和可靠的模型;它還要求深入理解模型的決策過程,以確保安全性、公平性和偏見檢測。本論文的第二部分專注于解密和故障排除機器學習模型。它探索了(1)構建可調試的機器學習模型,(2)開發用于檢測和理解機器學習模型失敗原因的工具,以及(3)研究數據如何以意外的方式偏見和影響機器學習模型。這種多方面的方法旨在增強我們對實際應用中機器學習模型的理解和控制。
在本引言的后續部分,我們將介紹這些主要關注領域的總結,概述我們的主要概念和發現,并將它們與論文的相應部分對齊。
可部署的機器學習(ML)仍然面臨重大挑戰,隨著模型的演變和能力增強,例如大型語言模型(LLMs),復雜性也隨之增加。雖然本論文闡明了可部署ML的某些方面,但要實現自信的ML部署仍有很長的路要走。這一領域需要進一步研究,以下幾個緊迫的未解決問題值得關注。
重新評估LLMs的對抗性示例。盡管已努力增強ML模型對抗對抗性示例的魯棒性,但這仍是一個困難的開放性問題。鑒于解決最壞情況魯棒性問題的困難,研究重點最近已轉向一般分布偏移的平均情況魯棒性。然而,隨著LLMs的進步,重新審視對抗性示例變得至關重要。例如,我們如何加強LLMs以抵御越獄[WHS23; ZWK+23],一種特別影響LLMs的對抗性示例?隨著LLMs變得更加強大并包含各種模態,如圖像、視頻和音頻,預防越獄變得更加困難[CNC+23]。
此外,解決方案可能不僅在于加固ML模型,還在于加強整個ML流程。當前的研究經常忽視了ML模型在復雜系統中運行的上下文。如果ML模型是復雜系統的一部分,魯棒性評估將如何改變?內容審核技術是否有效對抗越獄,以及如何改進它們?隨著LLMs對社會影響的日益增加,這些問題變得異常相關。 創建與人類對齊的表征。對抗性示例的存在說明了機器學習(ML)模型與人類之間在決策上的顯著差異。目標是使模型與人類特征的利用對齊,從而消除對抗性漏洞。如何指導模型使用“正確”的特征?盡管在與人類表征對齊方面,對抗性魯棒性取得了一些成功,但這個領域仍是一個開放的挑戰。在追求與人類對齊的學習中,可能需要全新的技術和方法論。
探索計算機視覺之外的非對抗性示例。本論文探討了作為增強圖像分類中ML模型魯棒性和可靠性的方法的非對抗性示例。然而,這一概念可以擴展到其他領域,如目標檢測、圖像分割等。在自然語言處理、語音識別和表格數據處理等領域,非對抗性示例可能發揮關鍵作用。是否可以合成非對抗性的語音信號或文本,以促進未來的識別?將這一點與水印技術相結合,特別是在檢測由LLMs和擴散模型生成的偽造內容方面,呈現出另一個令人興奮的探索方向。 將調試ML模型作為一個全面系統的一部分。本論文展示了偏見如何滲透整個ML流程,強調了調試整個過程以識別故障模式的必要性。重點特別放在源自模型本身的故障模式,或者基于其構建的預訓練模型。ML系統的哪些其他關鍵組成部分可能同樣引入偏見或故障?在ML部署的更廣泛背景下,開發專門的綜合調試工具的必要性日益增長。
人類智能的一個重要方面是能夠從簡單的想法中組合出越來越復雜的概念,從而實現快速學習和知識的適應。盡管目前的AI系統表現出色,但在這一領域卻有所欠缺,通常無法解決超出其訓練分布范圍的任務。本論文的工作旨在通過將組合性納入深度神經網絡來彌補這一差距,從而增強它們解決新穎和復雜任務的能力,例如根據復雜的規范生成2D圖像和3D資產,或使仿人代理執行多種家庭活動。這篇論文的影響深遠,因為組合性在生物學、機器人技術和藝術制作等領域有眾多應用。通過顯著提高AI系統的組合性能力,這項研究將為不同研究領域中更高效的數據和更強大的模型鋪平道路。
"組合性是現代AI系統所缺少的人類智能的一個關鍵方面。構建概念的能力:結合模式、思想和子目標來構建對世界的結構化表示,然后通過操縱個別組成部分來推理世界,體現在關鍵的認知能力中。人類可以將個別觀察結果融入復雜的知識和信念結構中,對復雜計劃進行小范圍的針對性調整,想象基本情景的替代方案,并創造出受現有作品啟發的新技術或藝術。此類組合能力在AI系統中基本上尚未實現,但實現這一點可能是解鎖主要AI能力(如持續學習、可控和穩健行為、高級規劃、反事實推理和更強大的泛化)的關鍵之一。 本論文專注于開發表現出組合能力的神經網絡,以解決廣泛的任務,如圖像生成、問題回答、數學推理、機器人操控和體現決策。目標是使網絡能夠解決在訓練過程中未曝露的概念、目標或技能組合的任務。 我們對組合AI的研究涵蓋以下兩個軸心:先驗知識和組合結構。先驗知識描述了模型在培訓過程中學習的基本概念和能力集合。在大量數據上訓練的大型深度學習模型[131, 125, 13]包含豐富的先驗知識,但它們缺乏實現組合性的另一個關鍵組成部分——組合結構。為了構建組合結構,我們提出了組合算子來組合基本概念。將組合算子應用于預訓練模型,使我們能夠顯著提高AI系統的組合生成能力。
本論文的前兩部分介紹了如何構建組合結構。第一部分:構思概念和目標:我們開發了可以組合概念或目標以產生高度可控和復雜、細致行為的神經網絡。第二部分:模型組合:我們組合來自不同領域的預訓練模型,以在沒有任何訓練或微調的情況下產生強大的跨模態能力。在第三部分:轉移組合性中,我們介紹了如何通過從預訓練模型轉移知識來以數據高效的方式實現先驗知識。"
在過去的十年里,深度學習取得了令人興奮的進展。隨著大型基礎模型的不斷發展和在現實生活中的應用,一個重要的問題是,我們如何使這些昂貴、難以解讀的模型更加高效和可靠。在這篇論文中,我們提出了一系列基于共形預測的基本技術來構建和部署有效的深度學習系統。共形預測是一種模型不可知且無分布的不確定性估計框架。我們開發了理論和實踐,利用不確定性估計來構建適應性模型,這些模型運行成本更低,具有理想的性能保證,且通用性足以在許多現實世界場景中表現良好。在實證研究中,我們主要關注自然語言處理(NLP)應用,同時對計算機視覺、藥物發現和醫學領域的任務進行了大量拓展。
近年來,深度學習方法的穩步進展已導致在自然語言處理(Devlin et al., 2019; Brown et al., 2020; Schulman et al., 2023)、計算機視覺(He et al., 2015; Dosovitskiy et al., 2021)、計算化學(Jumper et al., 2021)以及預測醫學(Yala et al., 2021; Mikhael et al., 2023)等領域廣泛且有時是革命性的突破。這一進展的重要部分可以歸因于規模:在前所未有的數據量上訓練的大型基礎模型改變了許多預測任務的建模和解決方式。同時,隨著這些模型開始滲透到現實生活應用中,新的挑戰開始出現。特別是,最優秀的現代模型的巨大計算占用使得運行成本高昂,甚至這些最好的模型在部署期間也不可避免地會犯下有害的錯誤。 在這篇論文中,我們基于共形預測開發了嚴格的統計工具,以幫助解決這些相互關聯的挑戰的多個方面。共形預測(Vovk et al., 2005)是一個日益受到機器學習社區歡迎的不確定性估計框架,因其有利的模型不可知、無分布、有限樣本保證而受到青睞。我們在共形預測的基礎上提出了幾項基本的理論和實證進步,幫助用戶安全地使用在真實世界中出現的困難但常見情況下部署的模型。同時,我們還展示了如何利用這些不確定性估計技術通過采取相反的方法來做出更高效的預測:對于簡單的輸入,采用不那么保守的方式,并選擇使用更便宜、更簡單的函數來做出預測——但仍確保對模型整體性能的任何降級都嚴格限制在一定范圍內。
在大型神經網絡中的高效計算如變壓器(Transformers,Vaswani et al., 2017b)等大型多層神經網絡已成為解決自然語言處理等任務的事實標準方法。然而,盡管它們表現出色,但它們通常巨大的計算負擔使得運行成本高昂。關于它們效率的擔憂引發了該領域的大量研究(Schwartz et al., 2020a)。使模型更高效通常不是免費的:加速推斷的簡單技術可能會導致對依賴維度的不可預測打擊,如模型準確性,特別是在更難、少數群體子集的最壞情況下。然而,一個關鍵的洞察是,這種退化可以從輸入到輸入變化——并非所有示例都需要相同的計算量(例如,可以使用簡單函數來推斷它們的標簽)。我們開發了允許神經網絡中根據輸入示例的復雜性進行自適應計算的技術,并提供了精確的概率上界,用于可能遭受的誤差增加。
嚴謹的、通用目的的不確定性估計使模型更高效運行使它們能夠在計算限制可能是限制因素的實際場景中更廣泛地部署。然而,隨著模型在現實世界中的更廣泛部署,它們有可能犯下昂貴的錯誤。大多數現代系統輸出單一預測——無論是實值、標簽、自由形式生成的文本、結構化對象還是其他響應變量。然而,對于許多應用程序,用有意義的不確定性估計來豐富這種預測也至關重要(Amodei et al., 2016; Jiang et al., 2012, 2018; Rajpurkar et al.,2018)。在敏感的高風險應用中(如醫學應用),顯示置信度指標(實際反映模型是否可能正確或錯誤)與獲得高準確性一樣重要。不確定性估計也在用戶無法輕易驗證答案本身并必須盲目信任時相關。例如,大多數機器翻譯系統用戶無法知道特定翻譯是否準確。可靠的不確定性估計可以緩解這些錯誤的一些負面后果。一個意識到自己不確定性的模型可以用來(1)告訴用戶它有多確信某個概率,(2)說它確信正確答案是幾個選項之一,或者(3)完全放棄預測,以轉而依賴于不同的模型或人類。在這篇論文中,我們探索了這些方向的幾個,并在共形預測的基礎上建立了用于校準具有可證明性能保證的集合值不確定性估計的額外重要基礎。具體而言,我們提出了對共形預測的擴展,這些擴展可以可證明地控制各種類型的風險,更適合于具有非唯一答案的大標簽空間,適用于具有有限校準數據的少數鏡頭設置進行驗證,以及在具有約束的實際問題中應用時通常更有用。
深度生成模型(DGM)將深度神經網絡與生成模型結合,以學習感興趣數據的底層生成機制。這已經成為從數據中提取知識的重要方法,適用于機器學習和人工智能。然而,盡管具有潛在的潛力,學習和應用DGM在不同領域中仍然存在許多挑戰。因此,本論文的重點是理解、改進和應用不同的深度生成模型。
首先,我們介紹了不同DGM的基本原理,包括變分自動編碼器(VAE)、基于流的模型、生成對抗網絡(GAN)和基于能量的模型(EBM)。我們還提出了VAE的新對應物:變分潛在優化(VLO),它不需要編碼器結構。此外,我們提供了一種新的角度來理解EBM的生成過程,建立了EBM和GAN之間的聯系,并設計了一種新方法來提高EBM樣本質量。
接下來,我們提出了兩種混合型DGM,以改善當前模型的生成質量。首先,我們將基于流的模型和變分自動編碼器結合,以提高基于自動編碼器的生成模型的生成質量。其次,我們借鑒了指數傾斜的思想,將基于能量的模型與其他基于似然性的生成模型相結合,以獲得更好的樣本。
最后,我們進行了與現代深度生成模型相關的各種應用,包括將生成模型用作基于似然性方法的離群分布(OOD)檢測,并設計了可控的人臉生成模型。我們提出了一種新的OOD檢測分數,稱為似然性遺憾,以幫助使用VAE檢測OOD樣本。此外,我們建議在當前基于關鍵點的人臉重演模型中添加新結構,并將其與3D可變模型相結合,以提高其生成質量和泛化能力。
隨著全球可持續性挑戰的加劇,對創新的、跨學科的解決方案的需求正在激增,這些解決方案能夠利用多種數據來源和分析方法。我們研究了如何結合運籌學和人工智能,通過開發可適應的、普遍適用的框架來解決緊迫的可持續性和醫療保健問題。本論文深入研究了通過同時使用不同的數據類型(如表格、圖像、時間序列和自由文本)來實現的多模態性。我們制定了可以應用于各種任務的多功能方法,從熱帶氣旋預測和生物多樣性跟蹤到醫療保健運營,只需進行最小的適應。
我們模仿人類理解和連接不同數據類型的能力,將人工智能和優化結合到數據驅動的策略中。我們的貢獻包括開發了可泛化的數據預處理、特征提取和數據融合管道,以便在復雜的實際場景中進行大規模的多模態數據處理。值得注意的是,我們的熱帶氣旋預測模型的性能與美國國家颶風中心的頂級模型在24小時強度和軌跡預測上相當。此外,我們構建了連接運籌學和人工智能的預測到規定的數據驅動框架。為了支持多模態性,我們引入了確保在關鍵情況下模型的可靠性和性能的創新工具。我們探索了自適應的健壯集成建模,以增強在不確定性下的計劃和決策制定。
我們的預測和規定模型已在工廠、博物館和醫院中有效地實施,以解決可持續性和公共衛生問題,包括空氣污染管理、生態系統保護和罕見腫瘤分割。我們的污染管理模型在摩洛哥最大的化學工業廠OCP Safi Site顯著地減少了有害排放,同時減少了不必要的成本。此外,我們的腫瘤分割模型與醫學醫生的專業知識相匹配,同時提供了大量的時間節省。
潛在變量模型假設某些潛在變量在觀測數據中缺失,這種模型已經被長期研究,并在實踐中找到了眾多應用。使用潛在變量的機器學習不僅可以提高預測的準確性,而且在增強數據的可解釋性以及發現數據背后的原理上起到了關鍵作用。本論文致力于為各種潛在變量模型的學習開發高效和可證明的算法。第一和第二個主題涉及使用無標簽樣本學習混合模型,這是一種對異質和復雜數據進行建模的強大技術。考慮了兩種具體設置:(1) 低秩模型的混合,將低復雜性的結構先驗整合到高維的混合線性回歸中;(2) 線性動態系統的混合,由于時間序列數據之間的時間依賴性,模型估計尤為具有挑戰性。對于這兩個問題,我們設計了有原則的和模塊化的算法,并正式導出了可靠模型估計所需的樣本復雜度。此外,實證證據證實,我們的方法有潛力推廣到更廣泛的設置,超出我們的理論研究所涵蓋的范圍。第三個主題涉及根據邊緣上的成對比較對一組項目進行排名,這些項目構成了一個連接圖。我們關注經典的Bradley-Terry-Luce模型,該模型假設成對比較的噪聲測量是基于項目的某些未知潛在分數生成的。在關注潛在得分估計的前提下,我們首先導出了在一般圖形拓撲下最大似然估計的接近最優的逐項錯誤,這是通過觀察統計估計和迭代優化算法之間的關聯來證明的。此外,我們開始研究具有局部性的圖形中的排名,這在實踐中由于物理約束而出現;我們的貢獻包括(1)確定局部性不受影響的條件,以及(2)設計新穎的分而治之算法,即使在最小的樣本復雜度下也能保證達到接近最優的錯誤,同時享有某些計算優勢。
從零開始的強化學習通常需要大量樣本來學習復雜任務,但是許多真實世界的應用場景卻只需要從少量樣本中進行學習。例如,一個有效的新聞推薦系統必須能夠在僅觀察到少量推薦結果后,適應新用戶的口味。為了滿足那些需要快速學習或適應新任務的應用的需求,本論文專注于元強化學習(meta-RL)。具體來說,我們考慮的場景是,智能體會反復接觸到一些來自相同任務族的新任務。智能體必須在極少的嘗試中學會每個新任務,這被形式化為與任務交互的幾個階段。智能體如何利用這些少量嘗試至關重要,因為這決定了它是否能夠隨后解決任務,但學習如何有效使用這些嘗試是具有挑戰性的,因為這里沒有直接的監督。
在本論文中,我們主張有效地利用這些少量的嘗試——因此,快速解決新任務需要仔細地將學習如何利用少量嘗試與學習解決任務相分離。具體來說,我們證明了現有的元強化學習算法如果不分離這兩個問題,就會因為雞和蛋的問題而無法學習到復雜的策略來有效地利用這些少量的嘗試。雞和蛋的問題是指,有效地利用這些少量嘗試的學習依賴于已經學會解決任務,反之亦然。我們用一個新的稱為Dream的算法來解決這個問題,它將這兩個問題分開。此外,我們還研究了如何在這個場景中利用預先收集的離線數據。我們證明了流行的從離線數據中提取技能以快速學習新任務的方法使用了一個具有退化解決方案的欠規定目標,并通過輔助目標來解決這個問題,使優化問題明確規定。我們的算法使得元強化學習中以前未探索的應用成為可能。具體來說,我們表明:(1) Dream通過在解決并不一定需要語言的任務的過程中學習語言,為無需大型文本數據集的語言學習開啟了新的范式。例如,在我們的實驗中,Dream在學習如何在各種建筑中導航到特定辦公室的過程中,學會了閱讀帶有語言描述的建筑平面圖;(2) Dream可以幫助自動評估通常需要大量手動評級的交互式計算機科學作業。我們在斯坦福大學的入門計算機科學課程中部署了Dream來協助評估Breakout作業,并發現它在不犧牲準確性的情況下將評估速度提高了28%,相當于節省了大約10小時的時間。
雖然在強化學習(RL)中從零開始(tabula rasa)的訓練已經取得了巨大的成功,但這需要大量的數據。例如,從零開始訓練以在圍棋(Silver等人,2017年)、Dota 2(Berner等人,2019年)和星際爭霸 II(Vinyals等人,2019年)中取得專家級的成績,都需要數百天的TPU或GPU訓練時間,相當于從常規云服務提供商那里花費數萬或數十萬美元。在許多應用領域,對單一任務進行如此長時間的訓練,或者僅僅是獲取這樣的訓練數據都是不切實際的——想象一下等待一百天讓新聞推薦系統開始推薦好的建議,或者等待新購買的家庭機器人廚師開始烹飪。因此,這篇論文探討了一種利用以前的經驗快速學習新任務的替代范式,稱為元強化學習(meta-RL)。在其核心,元強化學習試圖解決與標準的從零開始的RL不同的問題。元強化學習的目標不是嘗試學習一個全新的任務,而是構建可以快速適應新的,但與之前遇到的任務相關的任務的智能體,例如一個可以在新的家庭廚房中快速開始烹飪的機器人廚師,這得益于它以前的經驗(例如,在許多工廠廚房中的訓練)。我們主要關注典型的元強化學習環境,即智能體面臨一個新任務,并首先允許有少數嘗試(即,幾個階段)與任務交互,然后再被要求解決任務。例如,當被放置在一個新廚房中時,機器人廚師可能首先簡要探索以尋找食材和烹飪用具,然后利用這些信息來烹制美味的飯菜。最初的幾個階段構成了智能體的“快速學習”過程,因為預計智能體在這幾個階段過后能夠解決任務。
元強化學習中最初幾個階段的存在在標準的從零開始的RL中是沒有的挑戰,這就是如何最好地利用最初的階段以便之后能解決任務。直觀來說,學習如何有效地利用這些階段可能面臨兩個主要的挑戰:首先,有效地利用這些階段可能與解決任務大不相同,所以智能體可能需要學習兩種復雜的行為模式。例如,通過尋找食材來適應新廚房在質量上與烹飪一頓飯是不同的。其次,對于學習如何有效利用最初的階段沒有直接的監督——智能體在最初階段收集的信息(例如,食材的位置)可能在智能體學習如何實際使用這些信息之前并不明顯有用。因此,現有的元強化學習算法可能會遇到困難,尤其是在需要復雜且不同的行為來利用最初階段和解決任務的任務家族中。
為了應對這些挑戰,本文借鑒了一系列關于元強化學習的研究,始于Schmidhuber的開創性工作(Schmidhuber,1987年)。在深度RL時代的一些早期元強化學習方法(Finn等人,2017年;Houthooft等人,2018年)通過完全不針對最初的幾個階段進行優化,而是專注于構建能夠在給定適當數據的情況下有效適應新任務的智能體,來避開了這些挑戰。其他早期方法(Duan等人,2016年;Wang等人,2016a年)針對最初的幾個階段進行了優化,但是只是間接地從一個旨在最大化最終回報的端到端目標進行優化,對于最初的幾個階段并沒有特別的關注。后來,Stadie等人(2018年)提出了一個觀點,即最初的幾個階段最好用于收集信息或探索以找到高回報的區域,從而引領了一系列關于如何最好地進行這種探索的工作(Rakelly等人,2019年;Humplik等人,2019年;Zintgraf等人,2019年;Kamienny等人,2020年)。本文借鑒了Stadie等人(2018年)提出的信息收集觀點,并認為在最初的幾個階段有效地進行探索并因此快速適應新任務,需要仔細地將學習探索和學習實際解決任務分離開來。具體來說,在第三章中,我們展示了將這兩者結合在一起的算法遇到了一個雞和蛋的問題,即學習探索依賴于已經學會解決任務,反之亦然。然后,我們提出了一種算法,Dream,它將這兩者分離,從而在實際應用(第5章和第6章)上取得了更好的性能。
此外,我們還研究了如何在這種少樣本元強化學習環境中有效地利用預先收集的離線數據。具體來說,我們考慮了智能體在訓練期間可以訪問到其他策略在各種任務上預先收集的離線數據,而智能體的目標仍然是在僅經過幾個階段后在測試時解決新的相關任務。這些離線數據可以通過幾種方式來利用,包括學習動態模型(Finn等人,2016年),學習行為先驗(Singh等人,2021年),或提取有意義的技能或選項(Sutton等人,1999年;Kipf等人,2019年;Ajay等人,2020年)。我們選擇了最后這種方法,即從離線數據中提取常見的行為作為可以代替標準低級行為空間的高級技能,這使得學習新任務變得更容易。提取這種技能的常見方法是學習一個潛在變量模型來重建離線數據,其中潛在變量代表了提取出的技能。然而,我們發現這種方法是欠指定的,因為許多解決方案都可以等同地最大化似然性,包括退化的解決方案。然后,我們使用一個輔助目標來解決這種欠指定,這個目標最小化了提取技能的描述長度,這在直觀上鼓勵最大限度地提取常見的結構。我們的目標在實踐中結果在語義上有意義的技能,可以加速學習新任務。
在本論文的剩余部分,我們首先在第2章中正式定義我們的少樣本學習場景。然后,我們在兩個主要部分中討論快速學習新任務:在第一部分,我們討論了快速學習新任務的算法,并克服了上述挑戰,這些算法基于在智能體的少數嘗試中有效地探索以揭示解決任務所需的信息(第3章),以及從離線數據中提取可復用技能(第4章)。在第二部分,我們討論了由第一部分引入的算法所支持的兩個應用,具體來說,一種新的機器語言學習范式(第5章)和自動提供初級計算機科學作業的反饋(第6章)。最后,在第7章,我們通過討論(a)有效利用本論文中提出的元強化學習算法;以及(b)選擇適合元強化學習工具箱的應用來結束。盡管元強化學習仍是一個活躍發展的領域,并且其實用性在很大程度上取決于應用的選擇,但本論文的目標是為元強化學習實踐者提供適用于今天實際部署的工具。
機器學習領域,特別是深度學習,由于算法、計算能力和數據集的改進,近年來取得了巨大進步。為支持深度學習而構建的系統主要針對用于生成學習模型的計算。 本論文提出改為關注數據在訓練和驗證中的作用。在論文的第一部分,我們關注訓練數據,展示了負責訓練數據的數據管道是性能考慮的首要目標。為了解決性能問題,我們引入了一種在數據轉換空間中進行數據子采樣的方式,一種降低精度的輸入/輸出格式,以及一個自動調整數據管道性能參數的系統。在論文的第二部分,由于日益增長和表達能力增強的模型的趨勢,我們轉向驗證環境,開發了一個系統,可以使用標準正則表達式自動查詢和驗證大型語言模型的行為。我們以機器學習的數據系統領域的未來工作作為結論。在過去的十年里,機器學習(ML)在應用方面經歷了迅猛的增長。這個領域關注的是隨著數據或經驗而改進的算法[201],已經從一系列專業化的應用(例如,廣告[195],推薦系統[60, 106, 213],垃圾郵件檢測[316])演變為應用于幾乎所有技術領域。例如,深度學習應用于游戲玩法[261, 286],蛋白質折疊[143],機器人學[80],一系列自然語言處理任務[43, 55],并且預計將達到一種無處不在的程度,可能導致重大的經濟顛覆[87]。在這場革命的最前沿是深度學習子領域[108, 173]。深度學習使用多層結構 - 數學操作 - 來構建模型。這些層被聯合學習,以便早期層簡化后續層面臨的任務。雖然深度網絡在理論上可能不如其他機器學習或人工智能方法那么被理解,但它們已經表明,盡管在計算上開銷巨大但通用的方法最終會主導利用額外專業化的算法[268]。這種在計算上開銷巨大但通用的方法已經受益于像摩爾定律[209]這樣的趨勢 - 硬件性能的指數級增長 - 以及硬件和軟件的專業化[165, 275]。如今眾多的深度學習軟件使深度學習或許比其他替代方案更易于獲取 - 只需獲得通常是開源且隨時可用的模型規范代碼,就可以訓練最先進的模型。深度學習技術的核心已經被商品化和民主化,使任何人都可以受益于人類多年的研究和開發。
然而,盡管使用深度學習的常規方面變得更加容易,但仍然存在一些基本問題有待解決,并影響許多應用的下游性能。對這些問題(及其相應解決方案)進行分類的一種方法是將它們分為三個領域:1)機器學習算法,2)計算能力,和3)數據。這三個領域的每一個都已經經過優化以持續推動該領域的進步,并且被列為導致深度學習興起的關鍵因素[35]。例如,缺乏訓練數據和計算能力被歸因為深度網絡在2000年初的衰退[35]。直到大約十年后,這些因素的缺乏才得以彌補,當時在2012年ImageNet大規模視覺識別挑戰(ILSVRC)比賽中取得了創紀錄的表現[71]。獲勝的提交,AlexNet[156],是一個深度卷積神經網絡(CNN),并且在圖形處理單元(GPU)的幫助下接受了一百萬張圖像的訓練。機器學習算法也有所進步,使學習更加高效。例如,ReLU激活和dropout是2012年提交[156, 173]的關鍵算法組件,是廣泛用于加速學習的數學操作。當這些進步結合起來時,由此產生的模型以絕對誤差超過了僅次于其的提交,開始了計算機視覺的革命[173]。今天在自然語言處理方面的最新趨勢可以類似地視為核心算法創新[285],并擴展到大量數據和計算[43, 55],從而導致性能的可預測提升。在民主化機器學習的最前沿是機器學習系統[239]。這些系統包含并解決機器學習方法中足夠公式化的部分,使從業者能夠將時間集中在其他問題上。如果機器學習算法,計算能力和數據是支撐現代機器學習的支柱,那么機器學習系統就是用來將它們置于適當位置的工具。如今的系統包括用于數學表達式符號操作的功能,跨各種硬件平臺的可移植性,分布式執行,以及與常用實用程序和數學表達式一起預先打包的庫[11, 49, 96, 222]。
作為這篇論文的一部分,我們探討了現代機器學習技術棧中新功能或修訂功能的幾個方向,重點關注整個技術棧中數據的處理。研究數據很重要,因為在三個問題領域中,數據是最具動態性的 — 數據總是可以進一步優化以涵蓋更多樣本、更多特征或某些類型的行為,而模型(和計算)在處理某種類型的數據時必然是固定的。此外,對數據的優化可能導致應用程序的顯著增益,從而刺激數據為中心的AI研究[3]。然而,這并非輕而易舉,改變數據容易說難做。由于缺乏理論理解,對于任何新類型的機器學習任務,從業者可能必須測試哪種數據組合效果最好。如果沒有適當的數據抽象,任務中的單一變化可能導致從業者必須手動評估和調整應用程序數據的特征。調整數據的方面不僅是單調乏味的,而且根據數據評估模型以及系統性能的行為需要機器學習和系統的專業知識,而這些專業知識通常是由不同群體的人擁有的。如果機器學習系統的目標是支持從業者解決重復問題,那么可以合理地期望機器學習系統能夠使數據的快速配置和原型制作成為可能。簡而言之,數據管道應該是機器學習系統棧中的一等公民 - 它們不應該是作為附加工具支持模型和計算的事后考慮。本章其余部分的組織結構如下。首先,我們概述機器學習系統是如何構建和評估的(§1.1)。然后,我們概述機器學習中的工作負載是如何發生根本性變化的,這使得社區分裂成兩個部分(§1.2),并激勵對機器學習系統進行根本不同的處理。然后我們轉向論文的動機,重新審視數據在當前機器學習環境中的重要性(§1.3)。最后,我們介紹論文陳述并概述本文的章節(§1.4)。熟悉當前機器學習和機器學習系統狀態的讀者可以跳過第1.1節和第1.2節的“教科書材料”,并直接前往第1.3節。
現如今,從日益增長的數據中提取有用的信息以作出知情決策變得越來越具有挑戰性。盡管深度學習在最近有所進步,但如何有效且可擴展地利用如此龐大的數據去處理各種任務的問題尚未解決。為了解決從數據中進行表示學習的兩個主要方面,即效率和可擴展性,這篇論文介紹了處理各種任務的技術,包括情感分析,手寫識別和文檔智能,這些任務的數據形式各不相同:包括文本,音頻和視頻的多模態數據,噪聲掃描手寫圖像,或者布局不同的長文檔。由于各自數據的可獲得性和可能存在的問題,以及相關任務的明確目標,沒有一種通用的解決方案,而是對每個問題都有特定的方法。另外,為了處理大規模數據,本論文還介紹了一些近似技術和分析方法,用于估計基本組件,學習有效的表示,并加速學習過程,包括使用并行非自適應方法進行矩陣跡近似,高斯過程訓練中的譜近似,以及用于大規模多任務神經機器翻譯模型的基于任務的專家混合模型。在這些工作中,這篇論文介紹了應對數據和任務中出現的問題,學習有效表示,以及為實際可擴展性近似模型的新穎方法。
由于醫療數據的多樣性和數據收集和注釋的費用高昂,數據不足和異質性是表示學習在醫學機器學習中的挑戰。為了從如此有限和異構的醫療數據中學習可泛化的表示,我們的目標是利用各種學習范式來克服這個問題。在本文中,我們系統地探索了有限數據、數據不平衡和異構數據的機器學習框架,使用跨領域學習、自我監督學習、對比學習、元學習、多任務學習和魯棒學習。我們提出了不同醫療應用的研究,如臨床語言翻譯、超聲圖像分類和分割、醫學圖像檢索、皮膚診斷分類、病理元數據預測和肺部病理預測。
//dspace.mit.edu/handle/1721.1/144745
我們首先關注有限的數據問題,這在醫學領域很常見。我們利用具有相同錨點的無監督嵌入空間對齊方法,在有限且不配對的醫學語料庫中學習臨床語言翻譯的跨領域表示,并使用統計語言建模進行句子翻譯。使用臨床正確性和可讀性的指標,開發的方法在單詞和句子級別的翻譯中優于基于詞典的算法。為了更好地學習有限數量的超聲圖像的數據表示,我們隨后采用了自我監督學習技術,并將相應的元數據作為多模態資源集成,以引入歸納偏差。我們發現,與標準遷移學習方法相比,通過開發的方法學習的表示可以獲得更好的下游任務性能,如超聲圖像質量分類和器官分割。
接下來,我們放大數據不平衡問題。本文探索了對比學習的用途,特別是孿生網絡,從不平衡的眼底成像數據集中學習表示,用于糖尿病視網膜病變圖像檢索。與標準的監督學習設置相比,我們使用從Siamese網絡學習的表示獲得了可比較但可解釋的結果。我們還利用極不平衡的長尾皮膚圖像數據集進行皮膚病分類的元學習。我們發現,使用元學習模型和使用常規類不平衡技術訓練的模型集成可以產生更好的預測性能,特別是對于罕見的皮膚病。
最后,針對異構醫療數據,我們開發了一個多模態多任務學習框架來學習病理元數據預測的共享表示。我們利用多模態融合技術集成幻燈片圖像、自由文本和結構化元數據,并采用多任務目標損失來引入學習時的歸納偏差。這比標準的單模態單任務訓練設置產生更好的預測能力。我們還應用魯棒訓練技術來學習可以解決兩個胸部x射線數據集分布轉移的表示。與標準訓練相比,我們發現當存在偏移時,魯棒訓練提供了更好的容忍度,并學習了肺病理預測的魯棒表示。本文的研究并不詳盡,但對在有限和異構的醫療數據設置下利用機器學習幫助臨床決策進行了廣泛的了解。我們還提供了見解和警告,以激發利用低資源和高維醫療數據的機器學習的未來研究方向,并希望對現實世界的臨床產生積極的影響。