生成型人工智能是一個快速發展和不斷擴大的領域。隨著研究領域轉向構建大型基礎模型和強大的架構,我們必須仔細考慮如何將這些模型適應到新的領域和任務中。本論文的工作展示了將大型生成模型和架構適應于特定應用的新方法,如虛擬試穿、概念藝術和領域特定圖像分類。除了技術貢獻外,本論文還探討了關于領域特定生成模型的更廣泛的開放性問題;例如,我們如何仔細構建訓練數據以減少偏見?實踐中創意生成型人工智能的人在循環方法是什么樣的?大型視覺-語言模型在傳統的僅圖像任務中有多大用處?
生成式人工智能是一個快速發展的研究領域,涉及生成未見過的圖像和文本。最近,圖像生成 [88, 92, 95]、文本生成 [11, 22, 80]、圖像字幕 [107, 118] 和視覺-語言表示學習 [85] 領域的模型和架構有了許多發展。這些模型即使在研究社區之外也產生了巨大影響。例如,人工智能生成的圖像已經贏得了攝影獎項,1 在佳士得拍賣中售價高達數十萬美元,2 并被作為雜志封面特色。3 例如ChatGPT [11, 80]等語言模型,已經影響了從教育到法律的各個領域。近年來,社會被生成式人工智能大大影響,但生成模型已經存在一段時間了。過去,生成對抗網絡 [35] 和變分自編碼器 [57, 58] 可以在特定領域的數據集上進行訓練,生成該領域的新圖像。近年來,生成模型的規模有了前所未有的增長。這些模型在生成高質量圖像(圖1.1)和文本方面表現出色,但它們需要大量數據和計算才能訓練。因此,這些模型的開發和訓練變得越來越不可行。一個重要的挑戰是學習如何將這些大規模預訓練模型和數據密集型架構適應于與原始意圖不同的新領域。常見的方法是在新領域的數據上微調預訓練模型。然而,當數據稀缺、訓練數據與微調數據之間存在較大領域差距,或者領域需要特定用戶輸入和對輸出的控制時,微調的有效性就受到了限制。本論文提供了如何將這些強大的大規模模型應用于新數據或任務的見解,并展示了視覺-語言模型如何彌合強大的大型語言模型和視覺任務之間的差距。此外,它還提供了在特定領域任務中使用較小、更專業模型的示例。 除了技術挑戰之外,生成模型對社會的日益影響還引發了一系列需要計算機科學研究人員仔細考慮的倫理問題。例如,藝術領域新興的生成技術引發了關于版權、所有權以及我們如何定義真正創造力的討論。更廣泛地說,人們越來越擔心訓練數據中的社會偏見被生成模型在它們創造的輸出中持續傳播。本論文的目標是在我們的技術貢獻旁提供對生成式人工智能這些更廣泛社會問題的見解。在以下小節中,我們概述了每個論文章節中的技術和社會問題。
視覺-語言模型的迅速擴展需要大量資源,包括計算和數據。越來越多的人對高效訓練這些模型并將它們用于各種下游任務產生了興趣。本論文提出了幾項旨在提高視覺-語言模型訓練中的學習和數據效率的貢獻,并闡明了如何在下游任務中利用它們。論文圍繞三個關鍵領域展開:
學習高效的視覺-語言基礎模型:本節討論了VisualGPT,這是一個數據高效的圖像描述模型,探討了如何有效地將預訓練的語言模型整合到視覺-語言模型中。它還涵蓋了MiniGPT-4,旨在將先進的大型語言模型技術應用于視覺-語言模型,從而增強它們的能力。此外,還介紹了MiniGPT-v2,它使大型語言模型能夠作為一個通用界面,統一多種視覺-語言任務。
學習高效的視覺-語言模型,用于開放和長尾感知任務:這部分包括ZeroSeg,它研究了如何高效地將從CLIP視覺編碼器中學到的視覺-語言概念轉移到開放詞匯的語義分割中,而無需像素級監督。它還研究了RelTransformer,通過利用局部、全局和增強的記憶層次的視覺上下文來識別長尾視覺關系。
在開發更高效的視頻-語言理解模型中的數據貢獻:本節介紹了一個大規模的視頻數據集,重點是復合性地識別動物及其行為。對這些模型進行廣泛的評估,與常見基準相比顯示出顯著的進步。這些發現對于視覺-語言模型中高效學習的持續發展有所貢獻。這些洞見和方法論旨在加速實際應用,并為未來在視覺-語言領域的研究奠定基礎。
在過去的十年里,深度學習取得了令人興奮的進展。隨著大型基礎模型的不斷發展和在現實生活中的應用,一個重要的問題是,我們如何使這些昂貴、難以解讀的模型更加高效和可靠。在這篇論文中,我們提出了一系列基于共形預測的基本技術來構建和部署有效的深度學習系統。共形預測是一種模型不可知且無分布的不確定性估計框架。我們開發了理論和實踐,利用不確定性估計來構建適應性模型,這些模型運行成本更低,具有理想的性能保證,且通用性足以在許多現實世界場景中表現良好。在實證研究中,我們主要關注自然語言處理(NLP)應用,同時對計算機視覺、藥物發現和醫學領域的任務進行了大量拓展。
近年來,深度學習方法的穩步進展已導致在自然語言處理(Devlin et al., 2019; Brown et al., 2020; Schulman et al., 2023)、計算機視覺(He et al., 2015; Dosovitskiy et al., 2021)、計算化學(Jumper et al., 2021)以及預測醫學(Yala et al., 2021; Mikhael et al., 2023)等領域廣泛且有時是革命性的突破。這一進展的重要部分可以歸因于規模:在前所未有的數據量上訓練的大型基礎模型改變了許多預測任務的建模和解決方式。同時,隨著這些模型開始滲透到現實生活應用中,新的挑戰開始出現。特別是,最優秀的現代模型的巨大計算占用使得運行成本高昂,甚至這些最好的模型在部署期間也不可避免地會犯下有害的錯誤。 在這篇論文中,我們基于共形預測開發了嚴格的統計工具,以幫助解決這些相互關聯的挑戰的多個方面。共形預測(Vovk et al., 2005)是一個日益受到機器學習社區歡迎的不確定性估計框架,因其有利的模型不可知、無分布、有限樣本保證而受到青睞。我們在共形預測的基礎上提出了幾項基本的理論和實證進步,幫助用戶安全地使用在真實世界中出現的困難但常見情況下部署的模型。同時,我們還展示了如何利用這些不確定性估計技術通過采取相反的方法來做出更高效的預測:對于簡單的輸入,采用不那么保守的方式,并選擇使用更便宜、更簡單的函數來做出預測——但仍確保對模型整體性能的任何降級都嚴格限制在一定范圍內。
在大型神經網絡中的高效計算如變壓器(Transformers,Vaswani et al., 2017b)等大型多層神經網絡已成為解決自然語言處理等任務的事實標準方法。然而,盡管它們表現出色,但它們通常巨大的計算負擔使得運行成本高昂。關于它們效率的擔憂引發了該領域的大量研究(Schwartz et al., 2020a)。使模型更高效通常不是免費的:加速推斷的簡單技術可能會導致對依賴維度的不可預測打擊,如模型準確性,特別是在更難、少數群體子集的最壞情況下。然而,一個關鍵的洞察是,這種退化可以從輸入到輸入變化——并非所有示例都需要相同的計算量(例如,可以使用簡單函數來推斷它們的標簽)。我們開發了允許神經網絡中根據輸入示例的復雜性進行自適應計算的技術,并提供了精確的概率上界,用于可能遭受的誤差增加。
嚴謹的、通用目的的不確定性估計使模型更高效運行使它們能夠在計算限制可能是限制因素的實際場景中更廣泛地部署。然而,隨著模型在現實世界中的更廣泛部署,它們有可能犯下昂貴的錯誤。大多數現代系統輸出單一預測——無論是實值、標簽、自由形式生成的文本、結構化對象還是其他響應變量。然而,對于許多應用程序,用有意義的不確定性估計來豐富這種預測也至關重要(Amodei et al., 2016; Jiang et al., 2012, 2018; Rajpurkar et al.,2018)。在敏感的高風險應用中(如醫學應用),顯示置信度指標(實際反映模型是否可能正確或錯誤)與獲得高準確性一樣重要。不確定性估計也在用戶無法輕易驗證答案本身并必須盲目信任時相關。例如,大多數機器翻譯系統用戶無法知道特定翻譯是否準確。可靠的不確定性估計可以緩解這些錯誤的一些負面后果。一個意識到自己不確定性的模型可以用來(1)告訴用戶它有多確信某個概率,(2)說它確信正確答案是幾個選項之一,或者(3)完全放棄預測,以轉而依賴于不同的模型或人類。在這篇論文中,我們探索了這些方向的幾個,并在共形預測的基礎上建立了用于校準具有可證明性能保證的集合值不確定性估計的額外重要基礎。具體而言,我們提出了對共形預測的擴展,這些擴展可以可證明地控制各種類型的風險,更適合于具有非唯一答案的大標簽空間,適用于具有有限校準數據的少數鏡頭設置進行驗證,以及在具有約束的實際問題中應用時通常更有用。
機器學習領域見證了對從未整理數據中學習的日益濃厚的興趣,這涉及從未經精心整理或標記的數據中訓練模型。然而,這種類型的數據通常嘈雜、不完整,并充斥著錯誤,使得機器學習算法難以有效學習。本論文關注于開發能夠有效利用未整理數據同時對數據中固有的噪聲和錯誤具有韌性的強健學習方法。具體來說,我們調查了對比學習的韌性,這是一種通過比較語義上相似和不同的樣本對的自監督表示學習的突出技術。 首先,我們深入探討了從未標記數據中學習所固有的基本挑戰。我們發現,消除假陰性和鼓勵困難的負面案例顯著提高了下游性能和訓練效率。隨后,我們將焦點轉移到數據集內無處不在的噪聲。我們特別關注于假陽性對的出現,這是多模態對比學習環境中特別普遍的現象。
在我們研究的最后部分,我們思考了從大規模模型中有效地消除偏見。觀察到,當模型在有偏見的未整理數據上進行預訓練時,它們通常會繼承許多不適當的偏見,從而導致傾斜的預測。為了糾正這一點,我們設計了一種獨立于任何數據或訓練要求的去偏算法。
貫穿整篇論文的共同線索是對未標記、嘈雜和有偏見數據分別所關聯的獨特錯誤類型的韌性和全面的緩解方法,為機器學習研究領域提供了實質性的貢獻。
近年來,機器學習取得了顯著進展,尤其是在使用標記數據訓練模型的監督學習領域。然而,獲取大量標記數據可能是一個成本高昂且耗時的過程,這促使越來越多的人對從未整理數據中學習產生了興趣。 未整理數據指的是那些未經仔細整理或標記的數據,這些數據通常包含噪音,不完整且包含錯誤。從這類數據中學習對機器學習算法來說是一個重大挑戰,因為它們必須能夠有效利用可用信息,同時對固有的噪聲和錯誤具有韌性。本論文關注于以下基本目標:能夠從未整理數據中學習的強健學習算法。 為了實現這一目標,我分析了對比學習,這是一種通過比較語義上相似和不同的樣本對來進行自監督表示學習的突出技術[24, 81, 147]。傳統上,監督學習一直是人工智能(AI)進步的基石,依賴大量的標記數據來訓練模型。然而,收集和標記如此大量的數據可能既昂貴又耗時。此外,在現實世界的應用中,標記數據往往稀缺甚至無法獲得。為了克服這些障礙,研究人員轉向使用無標記數據的無監督和自監督學習技術來訓練模型。然而,這些技術在性能上通常落后于監督方法,主要是因為定義引導模型走向有用表示的目標很困難。 對比學習就在這里發揮了作用。通過設定目標,將語義上相似(正面)和不同(負面)的數據點對在學習到的特征空間中拉近或推遠,對比學習提供了一種從無標記數據構建有用且富有信息的表示的方法。對比學習在包括計算機視覺、自然語言處理、圖表示學習和強化學習等多個領域的能力已被證明,實現了許多基準測試中的最先進性能。
本論文解決了上述瓶頸問題,分為三個部分:第一部分:從未標記數據中學習,第二部分:從嘈雜數據中學習,第三部分:從有偏見的數據中學習。
在第一部分,我解決了負樣本的兩個關鍵問題:假負樣本和困難負樣本。我們首先在第2章提供問題形式化和對比學習的背景。在第3章中,基于Chuang等人的研究[36],我用一種新的對比損失解決了假負樣本的問題。然后在第4章,基于Robinson等人的研究[163],我們通過重要性采樣估計擴展了提出的損失,包括困難負樣本采樣。
在第二部分,我將揭示假陽性樣本的問題,特別是在多模態環境中,并開發針對它的強健損失函數。在第5章中,基于Chuang等人的研究[39],我將對比學習與二元分類聯系起來,并為對比損失開發強健的損失函數。第6章提供了所提出損失的理論基礎,即Wasserstein互信息的變分下界。
在第三部分,我將討論如何消除大規模基礎模型中的偏見,基于Chuang等人的研究[40]。第7章概述了基礎模型的興起,并提出了一種去偏算法,以高效地消除視覺-語言基礎模型的偏見。 第8章建立了表示學習與泛化理論之間的聯系,使用邊界界限,從而為對比學習提供了理論驗證。作為結語,第9章總結了本論文,并進行了一些討論。
我們研究了野外拍攝的視頻中多人三維重建的問題。人類的動作是動態的,準確地在各種環境中重建它們對于開發沉浸式社交遠程呈現、輔助性人形機器人和增強現實系統至關重要。然而,創建這樣的系統需要解決關于數據和模型架構的以前工作的基本問題。在這篇論文中,我們開發了幾個大規模的3D基準測試,旨在評估在苛刻條件下的多人重建,以及對遮擋和擁擠環境有韌性的自上而下的算法。 數據 - 為深度學習模型獲得大規模的3D監督是實現真實世界泛化的關鍵。然而,與大規模2D數據集不同,3D數據集的多樣性顯著受限 - 主要是因為在3D空間中手工注釋是不切實際的。因此,大多數3D基準測試都限制于室內環境,或者最多是兩個室外的人類主題,攝像機的移動緩慢或固定,并且遮擋最小。為了解決這個差距,我們探索使用3D合成數據,并構建兩個真實的多人3D數據集,這些數據集包括動態的人類活動、快速的攝像機移動和人與人之間的接觸,這些在之前的基準測試中都被忽視了;以突出現有方法的關鍵局限性。 方法論 - 一個通用的多人3D重建方法應該對尺度變化和遮擋具有韌性,并結合絕對深度理解。我們在2D和3D設置中引入了這些特性的算法,這些算法使我們能夠推理在動態環境和擁擠場景中的多個人。我們的自上而下的方法利用空間-上下文信息來推理3D場景中嚴重遮擋的人類。 基于這兩個組件,我們開發了從野外視頻中重建動態場景中的多個人的通用3D方法。
計算機視覺領域的一個主要目標是人體的三維重建[78]。這種能力對于視頻游戲、電影和遠程呈現的應用至關重要。然而,目前大多數關于3D人體重建的方法和數據集都是針對單一人體場景的[95, 109, 263]。考慮到人類本質上是社交生物,經常與其他人互動,多人場景的存在顯得十分重要。現有的方法往往做出了限制性的假設,不容易擴展到這些多人情境。此外,現有的單一人體數據集提供的監督在泛化到多人上下文時,特別是在不可預測的、野外的條件下,都顯得不足。 本論文描述了在野外捕獲的大規模3D多人數據集的新技術。此外,它還提出了一些不僅定制于多人場景,而且對于擁擠和遮擋等挑戰表現出強大韌性的方法。從圖像和視頻中推導人體的3D結構的主要挑戰是這個任務的數學病態性。正如Adelson和Pentland[1]在工作坊的比喻中所強調的,以及Sinha和Adelson[229]的多面體線條圖所展示的,許多3D配置都可以匹配一個給定的2D圖像。然而,我們的世界是有結構的,這些配置并不都同樣可能。盡管如此,我們的世界具有固有的結構,使得某些配置比其他配置更有可能。人們根據環境中的熟悉模式和規律來辨識可能的3D結構。同樣地,我們讓計算機掌握3D的努力也主要依賴于將這種先驗知識嵌入到推斷過程中。 在當前的計算機視覺領域,像圖像分類[46]、物體檢測[144]和語義分割[40]這樣的領域,3D人體重建主要依賴于帶有3D注釋的3D數據集來編碼這些固有的先驗。獲得這些3D人體注釋的主要方法是通過多視圖捕獲設置,因為手工3D注釋既低效又具有挑戰性。然而,值得注意的是,許多這些3D人體重建數據集主要集中在單一人體場景上,忽視了多人互動。是什么驅動了這種趨勢?人們可能會辯稱,收集單一人體數據更簡單、更直接。此外,在多視圖設置中,框架中只有一個主題可以避免多個個體之間的跨視圖對應關系的復雜性。然而,這種對數據集組成的狹隘關注無意中推動了該領域朝向在多人環境中失誤的方法,參見圖1.1。總之,深入研究構建一個全面的多人3D重建系統不僅需要開發能夠適當地建模人與人之間的深度關系和互動的方法,如人與人之間的接觸,而且更關鍵的是,解決現有3D人體數據集中的局限性。
在本論文中,我們解決了這兩個主要的挑戰:創建大規模的多人數據集以及改進3D人體重建技術。我們的討論分為三部分。在第一部分中,我們探討了使用合成3D監督以及它糾正當前數據集偏見的潛力。這引出了關鍵問題:純粹在合成數據上進行訓練的模型可以被信任在真實數據上工作得很好嗎?我們如何在它們之間建立域間的橋梁?在第二部分,我們評估了當前方法在多人上下文中的局限性,從簡單的任務如2D姿態估計開始,然后轉向更復雜的任務,如從單一圖像恢復3D網格。在第三部分,我們回到數據主題,考慮在確保其真實性和多樣性的同時,在大規模收集實際的多人數據的需要和挑戰。 第一部分:合成3D監督。利用最先進的模擬器為3D人體重建的大規模監督生成合成數據的想法是一個令人信服的想法。在這一部分,我們檢查一個中心問題:當純粹在合成數據上進行訓練時,3D方法可以可靠地擴展到真實世界的數據嗎?在第2章,我們提供了證據,表明使用域隨機化的數據允許方法泛化,即使沒有真實世界的注釋,特別是對于3D對象姿態估計任務。然而,我們觀察到,對域隨機化的普通方法并不是最有效率的,通常需要許多合成樣本才能達到可靠的實數據泛化。第3章解決了這一挑戰,引入了一個更有效的域隨機化方法,使合成數據的生成與深度模型在訓練期間的持續進展保持一致。這一章還概述了關于需要多少數據才能實現可靠的實際世界泛化的理論保證。
第二部分:多人姿態和形狀估計。在這部分,我們解決了3D多人重建方法的關鍵限制。第4章主要關注2D姿態估計,尤其是在由遮擋和擁擠標記的復雜多人情境中。我們介紹了一套專為這些場景設計的新穎的自上而下的方法,有效地擺脫了限制性的單人假設。基于這一基礎,第5章擴大了這些方法,以從圖像中解決3D人體網格恢復的問題。我們的主要哲學是將人的點基表示與它們的邊界框表示相結合。我們展示了,令人驚訝的是,這種簡單的集成能夠維持自己,即使在具有挑戰性的多人遮擋的情境中也能夠取得令人印象深刻的結果。 第三部分:真實的3D多人數據集。雖然在第一部分中,我們調查了用于3D的合成數據的使用,但第三部分將焦點轉向真實的多人數據。在第6章中,我們設計了一個適合野外設置的無標記捕獲系統,以記錄多人活動,重點是動態活動,如體育和舞蹈。同時,我們引入了一個半自動的注釋流程,以減少人為監督地生成大規模的3D注釋,如人體姿態和網格。此外,為了捕獲帶有移動相機的3D場景,我們利用了主題的自中心視圖,并為這一具有挑戰性的視圖提供了注釋。然后第7章深入探討,重點是多人互動,代表了人與人之間的擴展接觸,包括摔跤、擁抱和舞蹈等活動。利用我們之前的方法,我們引入了一個增強的注釋協議,旨在充分處理這些活動中固有的遮擋。總之,第6章和第7章中詳細描述的努力共同為建立兩個全面的多人3D數據集作出了貢獻。 然而,為了開發更大的數據集和高效且普遍的3D多人方法,還有更多的工作要做。第8章通過討論這一領域未來工作的具體方向來結束,包括短期和長期的方向。
深度生成模型(DGM)將深度神經網絡與生成模型結合,以學習感興趣數據的底層生成機制。這已經成為從數據中提取知識的重要方法,適用于機器學習和人工智能。然而,盡管具有潛在的潛力,學習和應用DGM在不同領域中仍然存在許多挑戰。因此,本論文的重點是理解、改進和應用不同的深度生成模型。
首先,我們介紹了不同DGM的基本原理,包括變分自動編碼器(VAE)、基于流的模型、生成對抗網絡(GAN)和基于能量的模型(EBM)。我們還提出了VAE的新對應物:變分潛在優化(VLO),它不需要編碼器結構。此外,我們提供了一種新的角度來理解EBM的生成過程,建立了EBM和GAN之間的聯系,并設計了一種新方法來提高EBM樣本質量。
接下來,我們提出了兩種混合型DGM,以改善當前模型的生成質量。首先,我們將基于流的模型和變分自動編碼器結合,以提高基于自動編碼器的生成模型的生成質量。其次,我們借鑒了指數傾斜的思想,將基于能量的模型與其他基于似然性的生成模型相結合,以獲得更好的樣本。
最后,我們進行了與現代深度生成模型相關的各種應用,包括將生成模型用作基于似然性方法的離群分布(OOD)檢測,并設計了可控的人臉生成模型。我們提出了一種新的OOD檢測分數,稱為似然性遺憾,以幫助使用VAE檢測OOD樣本。此外,我們建議在當前基于關鍵點的人臉重演模型中添加新結構,并將其與3D可變模型相結合,以提高其生成質量和泛化能力。
隨著全球可持續性挑戰的加劇,對創新的、跨學科的解決方案的需求正在激增,這些解決方案能夠利用多種數據來源和分析方法。我們研究了如何結合運籌學和人工智能,通過開發可適應的、普遍適用的框架來解決緊迫的可持續性和醫療保健問題。本論文深入研究了通過同時使用不同的數據類型(如表格、圖像、時間序列和自由文本)來實現的多模態性。我們制定了可以應用于各種任務的多功能方法,從熱帶氣旋預測和生物多樣性跟蹤到醫療保健運營,只需進行最小的適應。
我們模仿人類理解和連接不同數據類型的能力,將人工智能和優化結合到數據驅動的策略中。我們的貢獻包括開發了可泛化的數據預處理、特征提取和數據融合管道,以便在復雜的實際場景中進行大規模的多模態數據處理。值得注意的是,我們的熱帶氣旋預測模型的性能與美國國家颶風中心的頂級模型在24小時強度和軌跡預測上相當。此外,我們構建了連接運籌學和人工智能的預測到規定的數據驅動框架。為了支持多模態性,我們引入了確保在關鍵情況下模型的可靠性和性能的創新工具。我們探索了自適應的健壯集成建模,以增強在不確定性下的計劃和決策制定。
我們的預測和規定模型已在工廠、博物館和醫院中有效地實施,以解決可持續性和公共衛生問題,包括空氣污染管理、生態系統保護和罕見腫瘤分割。我們的污染管理模型在摩洛哥最大的化學工業廠OCP Safi Site顯著地減少了有害排放,同時減少了不必要的成本。此外,我們的腫瘤分割模型與醫學醫生的專業知識相匹配,同時提供了大量的時間節省。
潛在變量模型假設某些潛在變量在觀測數據中缺失,這種模型已經被長期研究,并在實踐中找到了眾多應用。使用潛在變量的機器學習不僅可以提高預測的準確性,而且在增強數據的可解釋性以及發現數據背后的原理上起到了關鍵作用。本論文致力于為各種潛在變量模型的學習開發高效和可證明的算法。第一和第二個主題涉及使用無標簽樣本學習混合模型,這是一種對異質和復雜數據進行建模的強大技術。考慮了兩種具體設置:(1) 低秩模型的混合,將低復雜性的結構先驗整合到高維的混合線性回歸中;(2) 線性動態系統的混合,由于時間序列數據之間的時間依賴性,模型估計尤為具有挑戰性。對于這兩個問題,我們設計了有原則的和模塊化的算法,并正式導出了可靠模型估計所需的樣本復雜度。此外,實證證據證實,我們的方法有潛力推廣到更廣泛的設置,超出我們的理論研究所涵蓋的范圍。第三個主題涉及根據邊緣上的成對比較對一組項目進行排名,這些項目構成了一個連接圖。我們關注經典的Bradley-Terry-Luce模型,該模型假設成對比較的噪聲測量是基于項目的某些未知潛在分數生成的。在關注潛在得分估計的前提下,我們首先導出了在一般圖形拓撲下最大似然估計的接近最優的逐項錯誤,這是通過觀察統計估計和迭代優化算法之間的關聯來證明的。此外,我們開始研究具有局部性的圖形中的排名,這在實踐中由于物理約束而出現;我們的貢獻包括(1)確定局部性不受影響的條件,以及(2)設計新穎的分而治之算法,即使在最小的樣本復雜度下也能保證達到接近最優的錯誤,同時享有某些計算優勢。
機器學習領域,特別是深度學習,由于算法、計算能力和數據集的改進,近年來取得了巨大進步。為支持深度學習而構建的系統主要針對用于生成學習模型的計算。 本論文提出改為關注數據在訓練和驗證中的作用。在論文的第一部分,我們關注訓練數據,展示了負責訓練數據的數據管道是性能考慮的首要目標。為了解決性能問題,我們引入了一種在數據轉換空間中進行數據子采樣的方式,一種降低精度的輸入/輸出格式,以及一個自動調整數據管道性能參數的系統。在論文的第二部分,由于日益增長和表達能力增強的模型的趨勢,我們轉向驗證環境,開發了一個系統,可以使用標準正則表達式自動查詢和驗證大型語言模型的行為。我們以機器學習的數據系統領域的未來工作作為結論。在過去的十年里,機器學習(ML)在應用方面經歷了迅猛的增長。這個領域關注的是隨著數據或經驗而改進的算法[201],已經從一系列專業化的應用(例如,廣告[195],推薦系統[60, 106, 213],垃圾郵件檢測[316])演變為應用于幾乎所有技術領域。例如,深度學習應用于游戲玩法[261, 286],蛋白質折疊[143],機器人學[80],一系列自然語言處理任務[43, 55],并且預計將達到一種無處不在的程度,可能導致重大的經濟顛覆[87]。在這場革命的最前沿是深度學習子領域[108, 173]。深度學習使用多層結構 - 數學操作 - 來構建模型。這些層被聯合學習,以便早期層簡化后續層面臨的任務。雖然深度網絡在理論上可能不如其他機器學習或人工智能方法那么被理解,但它們已經表明,盡管在計算上開銷巨大但通用的方法最終會主導利用額外專業化的算法[268]。這種在計算上開銷巨大但通用的方法已經受益于像摩爾定律[209]這樣的趨勢 - 硬件性能的指數級增長 - 以及硬件和軟件的專業化[165, 275]。如今眾多的深度學習軟件使深度學習或許比其他替代方案更易于獲取 - 只需獲得通常是開源且隨時可用的模型規范代碼,就可以訓練最先進的模型。深度學習技術的核心已經被商品化和民主化,使任何人都可以受益于人類多年的研究和開發。
然而,盡管使用深度學習的常規方面變得更加容易,但仍然存在一些基本問題有待解決,并影響許多應用的下游性能。對這些問題(及其相應解決方案)進行分類的一種方法是將它們分為三個領域:1)機器學習算法,2)計算能力,和3)數據。這三個領域的每一個都已經經過優化以持續推動該領域的進步,并且被列為導致深度學習興起的關鍵因素[35]。例如,缺乏訓練數據和計算能力被歸因為深度網絡在2000年初的衰退[35]。直到大約十年后,這些因素的缺乏才得以彌補,當時在2012年ImageNet大規模視覺識別挑戰(ILSVRC)比賽中取得了創紀錄的表現[71]。獲勝的提交,AlexNet[156],是一個深度卷積神經網絡(CNN),并且在圖形處理單元(GPU)的幫助下接受了一百萬張圖像的訓練。機器學習算法也有所進步,使學習更加高效。例如,ReLU激活和dropout是2012年提交[156, 173]的關鍵算法組件,是廣泛用于加速學習的數學操作。當這些進步結合起來時,由此產生的模型以絕對誤差超過了僅次于其的提交,開始了計算機視覺的革命[173]。今天在自然語言處理方面的最新趨勢可以類似地視為核心算法創新[285],并擴展到大量數據和計算[43, 55],從而導致性能的可預測提升。在民主化機器學習的最前沿是機器學習系統[239]。這些系統包含并解決機器學習方法中足夠公式化的部分,使從業者能夠將時間集中在其他問題上。如果機器學習算法,計算能力和數據是支撐現代機器學習的支柱,那么機器學習系統就是用來將它們置于適當位置的工具。如今的系統包括用于數學表達式符號操作的功能,跨各種硬件平臺的可移植性,分布式執行,以及與常用實用程序和數學表達式一起預先打包的庫[11, 49, 96, 222]。
作為這篇論文的一部分,我們探討了現代機器學習技術棧中新功能或修訂功能的幾個方向,重點關注整個技術棧中數據的處理。研究數據很重要,因為在三個問題領域中,數據是最具動態性的 — 數據總是可以進一步優化以涵蓋更多樣本、更多特征或某些類型的行為,而模型(和計算)在處理某種類型的數據時必然是固定的。此外,對數據的優化可能導致應用程序的顯著增益,從而刺激數據為中心的AI研究[3]。然而,這并非輕而易舉,改變數據容易說難做。由于缺乏理論理解,對于任何新類型的機器學習任務,從業者可能必須測試哪種數據組合效果最好。如果沒有適當的數據抽象,任務中的單一變化可能導致從業者必須手動評估和調整應用程序數據的特征。調整數據的方面不僅是單調乏味的,而且根據數據評估模型以及系統性能的行為需要機器學習和系統的專業知識,而這些專業知識通常是由不同群體的人擁有的。如果機器學習系統的目標是支持從業者解決重復問題,那么可以合理地期望機器學習系統能夠使數據的快速配置和原型制作成為可能。簡而言之,數據管道應該是機器學習系統棧中的一等公民 - 它們不應該是作為附加工具支持模型和計算的事后考慮。本章其余部分的組織結構如下。首先,我們概述機器學習系統是如何構建和評估的(§1.1)。然后,我們概述機器學習中的工作負載是如何發生根本性變化的,這使得社區分裂成兩個部分(§1.2),并激勵對機器學習系統進行根本不同的處理。然后我們轉向論文的動機,重新審視數據在當前機器學習環境中的重要性(§1.3)。最后,我們介紹論文陳述并概述本文的章節(§1.4)。熟悉當前機器學習和機器學習系統狀態的讀者可以跳過第1.1節和第1.2節的“教科書材料”,并直接前往第1.3節。
機器學習模型在面對分布變化時很脆弱,這使得它們在現實世界的部署中很難依賴。這促使開發方法,使我們能夠檢測和減輕這種模型的脆弱性,以及驗證我們的模型確實滿足期望的魯棒性保證。本文提出了一套工具,幫助我們檢測模型漏洞和偏差。該集合包括一套新的數據集,使我們能夠更細粒度地了解模型對背景的依賴。另一方面,它涉及3DB,一個利用逼真模擬的框架,以探測模型對更多樣化分布變化的脆弱性。除了識別這些漏洞外,還討論了可以使模型對分布變化更魯棒的干預措施,包括使用更多的訓練數據。正如所證明的,不加區分地使用更多的輔助數據并不總是有益的,因此提出了數據集投影,一種選擇要使用的"正確"輔助數據的方法。展示了如何有效和形式化地驗證所提出模型對研究最充分的分布漂移類型之一是魯棒的:逐像素對抗性擾動。
大規模的神經語言模型在自然語言生成方面取得了令人印象深刻的進展。然而,典型的模型以一種從左到右的、不受約束的方式運行,對生成的內容的控制有限。本文探討了柔性序列模型和弱監督方法來執行各種控制生成任務。我們預計這些技術將廣泛應用于其他領域,如圖像、分子和生物序列的生成。
我們首先介紹了一類稱為空白語言模型(BLMs)的序列模型,它通過動態創建和填充空白來生成序列。給定帶有一個或多個空格的部分指定文本,BLM將使用與上下文一致的可變數量的標記來填充這些空格。我們的模型非常適合各種文本編輯和重寫任務,并在文本填充、古代文本恢復和情感遷移方面證明了有效性。
接下來,我們研究文本自動編碼器及其通過潛在空間操作控制生成的用途。我們建立了一個理論,如何塑造一個有意義的潛在空間幾何離散文本數據。在此基礎上,我們開發了一系列去噪文本自動編碼器,通過簡單的矢量算法展示了屬性修改(例如,時態,情感等)的潛力。
最后兩章討論了在沒有監督數據的情況下的語言風格遷移。我們首先將非并行風格遷移的任務形式化,并討論學習問題的可行性。我們提出了一種利用潛在表示的分布對齊來執行樣式傳輸的方法。然后,我們研究了混雜因素,并表明通過將數據分為兩組不同的風格,每組中的集合說明了我們不希望改變的變化,我們可以利用不變性來隔離混雜因素,并向所需的方向轉移文本。
//dspace.mit.edu/handle/1721.1/144561