我們研究了野外拍攝的視頻中多人三維重建的問題。人類的動作是動態的,準確地在各種環境中重建它們對于開發沉浸式社交遠程呈現、輔助性人形機器人和增強現實系統至關重要。然而,創建這樣的系統需要解決關于數據和模型架構的以前工作的基本問題。在這篇論文中,我們開發了幾個大規模的3D基準測試,旨在評估在苛刻條件下的多人重建,以及對遮擋和擁擠環境有韌性的自上而下的算法。 數據 - 為深度學習模型獲得大規模的3D監督是實現真實世界泛化的關鍵。然而,與大規模2D數據集不同,3D數據集的多樣性顯著受限 - 主要是因為在3D空間中手工注釋是不切實際的。因此,大多數3D基準測試都限制于室內環境,或者最多是兩個室外的人類主題,攝像機的移動緩慢或固定,并且遮擋最小。為了解決這個差距,我們探索使用3D合成數據,并構建兩個真實的多人3D數據集,這些數據集包括動態的人類活動、快速的攝像機移動和人與人之間的接觸,這些在之前的基準測試中都被忽視了;以突出現有方法的關鍵局限性。 方法論 - 一個通用的多人3D重建方法應該對尺度變化和遮擋具有韌性,并結合絕對深度理解。我們在2D和3D設置中引入了這些特性的算法,這些算法使我們能夠推理在動態環境和擁擠場景中的多個人。我們的自上而下的方法利用空間-上下文信息來推理3D場景中嚴重遮擋的人類。 基于這兩個組件,我們開發了從野外視頻中重建動態場景中的多個人的通用3D方法。
計算機視覺領域的一個主要目標是人體的三維重建[78]。這種能力對于視頻游戲、電影和遠程呈現的應用至關重要。然而,目前大多數關于3D人體重建的方法和數據集都是針對單一人體場景的[95, 109, 263]。考慮到人類本質上是社交生物,經常與其他人互動,多人場景的存在顯得十分重要。現有的方法往往做出了限制性的假設,不容易擴展到這些多人情境。此外,現有的單一人體數據集提供的監督在泛化到多人上下文時,特別是在不可預測的、野外的條件下,都顯得不足。 本論文描述了在野外捕獲的大規模3D多人數據集的新技術。此外,它還提出了一些不僅定制于多人場景,而且對于擁擠和遮擋等挑戰表現出強大韌性的方法。從圖像和視頻中推導人體的3D結構的主要挑戰是這個任務的數學病態性。正如Adelson和Pentland[1]在工作坊的比喻中所強調的,以及Sinha和Adelson[229]的多面體線條圖所展示的,許多3D配置都可以匹配一個給定的2D圖像。然而,我們的世界是有結構的,這些配置并不都同樣可能。盡管如此,我們的世界具有固有的結構,使得某些配置比其他配置更有可能。人們根據環境中的熟悉模式和規律來辨識可能的3D結構。同樣地,我們讓計算機掌握3D的努力也主要依賴于將這種先驗知識嵌入到推斷過程中。 在當前的計算機視覺領域,像圖像分類[46]、物體檢測[144]和語義分割[40]這樣的領域,3D人體重建主要依賴于帶有3D注釋的3D數據集來編碼這些固有的先驗。獲得這些3D人體注釋的主要方法是通過多視圖捕獲設置,因為手工3D注釋既低效又具有挑戰性。然而,值得注意的是,許多這些3D人體重建數據集主要集中在單一人體場景上,忽視了多人互動。是什么驅動了這種趨勢?人們可能會辯稱,收集單一人體數據更簡單、更直接。此外,在多視圖設置中,框架中只有一個主題可以避免多個個體之間的跨視圖對應關系的復雜性。然而,這種對數據集組成的狹隘關注無意中推動了該領域朝向在多人環境中失誤的方法,參見圖1.1。總之,深入研究構建一個全面的多人3D重建系統不僅需要開發能夠適當地建模人與人之間的深度關系和互動的方法,如人與人之間的接觸,而且更關鍵的是,解決現有3D人體數據集中的局限性。
在本論文中,我們解決了這兩個主要的挑戰:創建大規模的多人數據集以及改進3D人體重建技術。我們的討論分為三部分。在第一部分中,我們探討了使用合成3D監督以及它糾正當前數據集偏見的潛力。這引出了關鍵問題:純粹在合成數據上進行訓練的模型可以被信任在真實數據上工作得很好嗎?我們如何在它們之間建立域間的橋梁?在第二部分,我們評估了當前方法在多人上下文中的局限性,從簡單的任務如2D姿態估計開始,然后轉向更復雜的任務,如從單一圖像恢復3D網格。在第三部分,我們回到數據主題,考慮在確保其真實性和多樣性的同時,在大規模收集實際的多人數據的需要和挑戰。 第一部分:合成3D監督。利用最先進的模擬器為3D人體重建的大規模監督生成合成數據的想法是一個令人信服的想法。在這一部分,我們檢查一個中心問題:當純粹在合成數據上進行訓練時,3D方法可以可靠地擴展到真實世界的數據嗎?在第2章,我們提供了證據,表明使用域隨機化的數據允許方法泛化,即使沒有真實世界的注釋,特別是對于3D對象姿態估計任務。然而,我們觀察到,對域隨機化的普通方法并不是最有效率的,通常需要許多合成樣本才能達到可靠的實數據泛化。第3章解決了這一挑戰,引入了一個更有效的域隨機化方法,使合成數據的生成與深度模型在訓練期間的持續進展保持一致。這一章還概述了關于需要多少數據才能實現可靠的實際世界泛化的理論保證。
第二部分:多人姿態和形狀估計。在這部分,我們解決了3D多人重建方法的關鍵限制。第4章主要關注2D姿態估計,尤其是在由遮擋和擁擠標記的復雜多人情境中。我們介紹了一套專為這些場景設計的新穎的自上而下的方法,有效地擺脫了限制性的單人假設。基于這一基礎,第5章擴大了這些方法,以從圖像中解決3D人體網格恢復的問題。我們的主要哲學是將人的點基表示與它們的邊界框表示相結合。我們展示了,令人驚訝的是,這種簡單的集成能夠維持自己,即使在具有挑戰性的多人遮擋的情境中也能夠取得令人印象深刻的結果。 第三部分:真實的3D多人數據集。雖然在第一部分中,我們調查了用于3D的合成數據的使用,但第三部分將焦點轉向真實的多人數據。在第6章中,我們設計了一個適合野外設置的無標記捕獲系統,以記錄多人活動,重點是動態活動,如體育和舞蹈。同時,我們引入了一個半自動的注釋流程,以減少人為監督地生成大規模的3D注釋,如人體姿態和網格。此外,為了捕獲帶有移動相機的3D場景,我們利用了主題的自中心視圖,并為這一具有挑戰性的視圖提供了注釋。然后第7章深入探討,重點是多人互動,代表了人與人之間的擴展接觸,包括摔跤、擁抱和舞蹈等活動。利用我們之前的方法,我們引入了一個增強的注釋協議,旨在充分處理這些活動中固有的遮擋。總之,第6章和第7章中詳細描述的努力共同為建立兩個全面的多人3D數據集作出了貢獻。 然而,為了開發更大的數據集和高效且普遍的3D多人方法,還有更多的工作要做。第8章通過討論這一領域未來工作的具體方向來結束,包括短期和長期的方向。
生成型人工智能是一個快速發展和不斷擴大的領域。隨著研究領域轉向構建大型基礎模型和強大的架構,我們必須仔細考慮如何將這些模型適應到新的領域和任務中。本論文的工作展示了將大型生成模型和架構適應于特定應用的新方法,如虛擬試穿、概念藝術和領域特定圖像分類。除了技術貢獻外,本論文還探討了關于領域特定生成模型的更廣泛的開放性問題;例如,我們如何仔細構建訓練數據以減少偏見?實踐中創意生成型人工智能的人在循環方法是什么樣的?大型視覺-語言模型在傳統的僅圖像任務中有多大用處?
生成式人工智能是一個快速發展的研究領域,涉及生成未見過的圖像和文本。最近,圖像生成 [88, 92, 95]、文本生成 [11, 22, 80]、圖像字幕 [107, 118] 和視覺-語言表示學習 [85] 領域的模型和架構有了許多發展。這些模型即使在研究社區之外也產生了巨大影響。例如,人工智能生成的圖像已經贏得了攝影獎項,1 在佳士得拍賣中售價高達數十萬美元,2 并被作為雜志封面特色。3 例如ChatGPT [11, 80]等語言模型,已經影響了從教育到法律的各個領域。近年來,社會被生成式人工智能大大影響,但生成模型已經存在一段時間了。過去,生成對抗網絡 [35] 和變分自編碼器 [57, 58] 可以在特定領域的數據集上進行訓練,生成該領域的新圖像。近年來,生成模型的規模有了前所未有的增長。這些模型在生成高質量圖像(圖1.1)和文本方面表現出色,但它們需要大量數據和計算才能訓練。因此,這些模型的開發和訓練變得越來越不可行。一個重要的挑戰是學習如何將這些大規模預訓練模型和數據密集型架構適應于與原始意圖不同的新領域。常見的方法是在新領域的數據上微調預訓練模型。然而,當數據稀缺、訓練數據與微調數據之間存在較大領域差距,或者領域需要特定用戶輸入和對輸出的控制時,微調的有效性就受到了限制。本論文提供了如何將這些強大的大規模模型應用于新數據或任務的見解,并展示了視覺-語言模型如何彌合強大的大型語言模型和視覺任務之間的差距。此外,它還提供了在特定領域任務中使用較小、更專業模型的示例。 除了技術挑戰之外,生成模型對社會的日益影響還引發了一系列需要計算機科學研究人員仔細考慮的倫理問題。例如,藝術領域新興的生成技術引發了關于版權、所有權以及我們如何定義真正創造力的討論。更廣泛地說,人們越來越擔心訓練數據中的社會偏見被生成模型在它們創造的輸出中持續傳播。本論文的目標是在我們的技術貢獻旁提供對生成式人工智能這些更廣泛社會問題的見解。在以下小節中,我們概述了每個論文章節中的技術和社會問題。
在過去的十年里,深度學習取得了令人興奮的進展。隨著大型基礎模型的不斷發展和在現實生活中的應用,一個重要的問題是,我們如何使這些昂貴、難以解讀的模型更加高效和可靠。在這篇論文中,我們提出了一系列基于共形預測的基本技術來構建和部署有效的深度學習系統。共形預測是一種模型不可知且無分布的不確定性估計框架。我們開發了理論和實踐,利用不確定性估計來構建適應性模型,這些模型運行成本更低,具有理想的性能保證,且通用性足以在許多現實世界場景中表現良好。在實證研究中,我們主要關注自然語言處理(NLP)應用,同時對計算機視覺、藥物發現和醫學領域的任務進行了大量拓展。
近年來,深度學習方法的穩步進展已導致在自然語言處理(Devlin et al., 2019; Brown et al., 2020; Schulman et al., 2023)、計算機視覺(He et al., 2015; Dosovitskiy et al., 2021)、計算化學(Jumper et al., 2021)以及預測醫學(Yala et al., 2021; Mikhael et al., 2023)等領域廣泛且有時是革命性的突破。這一進展的重要部分可以歸因于規模:在前所未有的數據量上訓練的大型基礎模型改變了許多預測任務的建模和解決方式。同時,隨著這些模型開始滲透到現實生活應用中,新的挑戰開始出現。特別是,最優秀的現代模型的巨大計算占用使得運行成本高昂,甚至這些最好的模型在部署期間也不可避免地會犯下有害的錯誤。 在這篇論文中,我們基于共形預測開發了嚴格的統計工具,以幫助解決這些相互關聯的挑戰的多個方面。共形預測(Vovk et al., 2005)是一個日益受到機器學習社區歡迎的不確定性估計框架,因其有利的模型不可知、無分布、有限樣本保證而受到青睞。我們在共形預測的基礎上提出了幾項基本的理論和實證進步,幫助用戶安全地使用在真實世界中出現的困難但常見情況下部署的模型。同時,我們還展示了如何利用這些不確定性估計技術通過采取相反的方法來做出更高效的預測:對于簡單的輸入,采用不那么保守的方式,并選擇使用更便宜、更簡單的函數來做出預測——但仍確保對模型整體性能的任何降級都嚴格限制在一定范圍內。
在大型神經網絡中的高效計算如變壓器(Transformers,Vaswani et al., 2017b)等大型多層神經網絡已成為解決自然語言處理等任務的事實標準方法。然而,盡管它們表現出色,但它們通常巨大的計算負擔使得運行成本高昂。關于它們效率的擔憂引發了該領域的大量研究(Schwartz et al., 2020a)。使模型更高效通常不是免費的:加速推斷的簡單技術可能會導致對依賴維度的不可預測打擊,如模型準確性,特別是在更難、少數群體子集的最壞情況下。然而,一個關鍵的洞察是,這種退化可以從輸入到輸入變化——并非所有示例都需要相同的計算量(例如,可以使用簡單函數來推斷它們的標簽)。我們開發了允許神經網絡中根據輸入示例的復雜性進行自適應計算的技術,并提供了精確的概率上界,用于可能遭受的誤差增加。
嚴謹的、通用目的的不確定性估計使模型更高效運行使它們能夠在計算限制可能是限制因素的實際場景中更廣泛地部署。然而,隨著模型在現實世界中的更廣泛部署,它們有可能犯下昂貴的錯誤。大多數現代系統輸出單一預測——無論是實值、標簽、自由形式生成的文本、結構化對象還是其他響應變量。然而,對于許多應用程序,用有意義的不確定性估計來豐富這種預測也至關重要(Amodei et al., 2016; Jiang et al., 2012, 2018; Rajpurkar et al.,2018)。在敏感的高風險應用中(如醫學應用),顯示置信度指標(實際反映模型是否可能正確或錯誤)與獲得高準確性一樣重要。不確定性估計也在用戶無法輕易驗證答案本身并必須盲目信任時相關。例如,大多數機器翻譯系統用戶無法知道特定翻譯是否準確。可靠的不確定性估計可以緩解這些錯誤的一些負面后果。一個意識到自己不確定性的模型可以用來(1)告訴用戶它有多確信某個概率,(2)說它確信正確答案是幾個選項之一,或者(3)完全放棄預測,以轉而依賴于不同的模型或人類。在這篇論文中,我們探索了這些方向的幾個,并在共形預測的基礎上建立了用于校準具有可證明性能保證的集合值不確定性估計的額外重要基礎。具體而言,我們提出了對共形預測的擴展,這些擴展可以可證明地控制各種類型的風險,更適合于具有非唯一答案的大標簽空間,適用于具有有限校準數據的少數鏡頭設置進行驗證,以及在具有約束的實際問題中應用時通常更有用。
盡管形式各異的視覺數據(如圖片和視頻)的呈指數級增長,為我們解釋周圍環境提供了前所未有的機會,自然語言依然是我們傳遞知識和信息的主要方式。因此,目前迫切需要構建一個框架來實現不同模態信息之間的交互。在這篇論文中,我研究了實現多模態信息有效交互的三個方向。第一個方向關注于構建具有相似語義意義信息的一致性表示。更具體地說,在高維語義空間中,相似信息的表示應該在適當的范圍內彼此接近,不論它們的模態如何。第二個方向是實現圖像視覺屬性與相應語義詞之間的有效關聯,這首先要求網絡能夠識別圖像和文本中的不同語義信息,然后允許它們進行交互。第三個方向是構建一個輕量級架構的模型,用于處理來自多個域的輸入。這是因為當網絡涉及多模態信息時,可能需要大量增加可訓練參數的數量,其目的是允許網絡全面學習捕捉具有域間差異的信息之間的相關性。需要大量計算資源的要求可能會極大地阻礙框架的部署,這對于現實世界應用中的實現來說是不切實際的。這些方向的貢獻如下。
首先,為了有一個一致的表示,生成網絡采用了對比學習和聚類學習,其中對比學習可以最大化由給定數據集提供的成對實例之間的互信息,而聚類學習可以將具有相似語義意義的實例分組到同一個簇中,并將不同的實例推得彼此遠離。通過這樣做,可以構建一個結構化的聯合語義空間,在這個空間內,具有相似語義意義的實例可以在適當的范圍內緊密地聚集在一起,以確保不論其模態如何,都能有一個一致的表示。
其次,為了實現多模態信息之間的有效關聯,提出了三種不同的方法,有效地將圖像視覺屬性與相應的語義文本描述相關聯,使網絡學習理解文本和圖像信息的語義意義,然后實現有效的交互。更特別的是,為了探索相關性,我首先研究了基于單詞級別注意力的連接,并輔以補充的單詞級別鑒別器,其中注意力允許網絡學習識別與相應語義詞對齊的特定圖像視覺屬性,而補充的單詞級別鑒別器提供細粒度的訓練反饋,以允許網絡正確捕捉這種關聯。然后,介紹了文本-圖像仿射組合,采用仿射變換將文本和圖像特征結合在生成過程中,使網絡具有區域選擇效應,有選擇地將文本所需的圖像屬性融合到生成流程中,并保留與文本無關的內容。此外,提出了一種半參數的記憶驅動方法,它結合了參數技術和非參數技術的優點。非參數組成部分是一個存儲庫,由訓練數據集構建而成的預處理信息庫,而參數組成部分是一個神經網絡。通過這樣做,參數方法可以實現高度表達模型的端到端訓練的好處,非參數技術允許網絡在推理時充分利用大型數據集。
第三,提出了兩種解決方案來減輕由于不同模態輸入而需要的網絡計算資源成本,允許網絡在各個領域中輕松實施。更具體地說,我們改進了條件GAN中生成器和鑒別器的能力,以避免盲目增加網絡的可訓練參數數量,并構建了一個單向鑒別器,將兩個訓練目標(即獲得更好的圖像質量和文本-圖像語義對齊)結合到一個方向(即提高融合特征的質量)中,以減少條件GAN中的冗余。這項工作為構建一個輕量級框架鋪平了道路,該框架旨在實現多模態信息之間的有效交互,并且也可以輕松部署在各種真實世界的應用中。
引言
視覺感知是人類解釋周圍環境的最重要能力之一。每天,人類消耗的視覺信息量令人難以置信,他們觀看視頻、拍照、欣賞繪畫以及在社交媒體上分享。例如,YouTube每天幾乎有50億視頻被觀看;僅Instagram每天就有超過9500萬照片被上傳。如此大量的視覺數據的可用性為研究人員提供了前所未有的機會來構建各種視覺解釋和合成方法,如(1)物體/場景分類(He等,2016年;Simonyan和Zisserman,2014年;Szegedy等,2015年,2016年;Zhou等,2014年b),(2)物體檢測(Girshick等,2014年;Long等,2015年;Ren等,2015年;Ronneberger等,2015年;Howard等,2017年;Redmon等,2016年),(3)圖像描述(Donahue等,2015年;Xu等,2015年),(4)視覺問題回答(Andreas等,2016年;Johnson等,2017年;Lu等,2016年;Nam等,2017年;Antol等,2015年;Anderson等,2018年;Yang等,2016年),(5)文本到圖像生成(Reed等,2016年b;Xu等,2018年;Zhang等,2017年a,2018年a),(6)圖像到圖像翻譯(Isola等,2017年;Park等,2019年;Wang等,2018年;Zhu等,2017年),(7)文本引導的圖像操作(Dong等,2017年;Li等,2020年a,c;Nam等,2018年),(8)故事可視化(Li等,2019年c;Song等,2020年;Maharana等,2021年;Maharana和Bansal,2021年)等等。這些方法旨在實現多模態表征之間的跨域轉換,例如,將非視覺數據(如自然語言描述或場景圖)轉換成視覺信息(如視頻或圖像),反之亦然,并旨在實現它們之間的有效交互。 在這篇論文中,我專注于探索實現多模態信息(例如,語言和視覺信息)之間有效交互的原則,包括(1)如何在一個聯合語義空間中為這些信息構建一致的表示,(2)如何有效地連接并融合來自不同模態的特征,以及(3)如何減輕計算需求以實現有效的交互。我的研究可以在許多領域啟用無數潛在的應用,包括設計、視頻游戲、藝術、建筑和醫學診斷等等。
為了實現多模態信息之間的有效交互,首先,重要的是對具有相似語義含義的信息有一個一致的表征。這是因為來自不同領域的信息可能有它們自己的表征形式,因此,在一個高維語義空間中,這些特征的位置可能會彼此相距甚遠,即使它們表達的是相似的語義含義。即使是來自同一領域的信息也會發生這種情況(Mikolov等人,2013年),例如,對于意思相同但使用同義詞的兩個句子,比如“貓”和“小貓”,它們在語義空間中的表征可能不會完全相同。當特征的維度增加時,這種情況可能會變得更糟,這是由維度的詛咒(Bellman,1966年)引起的:隨著特征或維度的數量增長,我們需要準確概括的數據量呈指數增長。所以,一個問題出現了:如何為具有相似語義含義的同一領域或不同領域的信息構建一致的表征?這一點很重要,因為具有一致的表征意味著具有相似語義含義的信息可以在高維語義空間中有固定且接近的位置,因此即使來自不同模態的信息也可以在空間中的適當范圍內容易地從一個轉換到另一個,這與本論文實現多模態信息之間有效交互的目標是一致的。
為了考慮實例之間的相似性,我們首先從對比學習中尋求幫助,對比學習是自監督表征學習的一個強大方案(Oord等人,2018年;He等人,2020年;Chen等人,2020年;Zhang等人,2021年),它可以通過對比正樣本對和負樣本對來強化不同增強下的表征一致性。然而,對比學習并沒有考慮樣本的語義信息和語義相似性,它簡單地將兩個樣本視為正樣本對,只要它們位于將通過網絡傳播的訓練樣例的相同位置(即在同一個批次中),并且當它們在不同的批次中時視為負樣本對,而不考慮它們的語義信息。通過這種做法,學到的表征可能會受到相當大的影響。例如,簡單采用對比學習可能會將具有相似語義含義但在不同批次中的實例推得相距甚遠,從而可能破壞它們之間的語義一致性。
為了考慮樣本之間的相似性,聚類算法(Alwassel等人,2020年;Asano等人,2020年;Caron等人,2020年;Li等人,2020年d)可以補救上述問題,聚類算法將相似的實例(即具有相似語義含義的實例)分組到同一個簇中,并將不同的實例推到不同的簇中。因此,對比學習和聚類學習互為補充,采用對比學習可以讓我們更好地探索跨模態的互信息,并且使用聚類學習將具有相似語義含義的信息分組到同一個簇中,從而實現一致的表征。更多細節將在第三章中呈現。
在為具有相似語義含義的同一或不同模態信息建立了一致的表征之后,另一個問題出現了:如何實現這些信息之間的有效交互?更具體地說,如何有效地構建圖像中的視覺特征與句子中相應的語義詞之間的連接?這是因為機器需要理解給定文本描述的語義含義,并且識別特定的圖像區域,然后它才能生成具有文本要求的對象和屬性的圖像,或者修改特定的圖像區域以匹配給定的文本描述。
為了實現不同模態信息之間的有效交互,提出了三種方法:(1)基于詞級注意的連接,輔以補充的詞級鑒別器提供細粒度的訓練反饋,(2)文本-圖像仿射組合模塊,以及(3)基于記憶的方法。這些方法使網絡能夠有效地將圖像區域的視覺屬性與相應的語義詞聯系起來。更多細節將在第四章中呈現。
在有了一個框架以實現多模態信息之間的有效交互之后,又出現了一個問題:這個框架能否在大多數設備中輕松部署?更具體地說,有可能開發一個不依賴昂貴計算資源的框架嗎?這主要是因為,當一個網絡涉及到不同模態的信息時,可能需要大量增加可訓練參數的數量,這旨在讓網絡能夠全面學習捕捉多模態信息之間的相關性,并彌合領域差距。需要大量計算資源的要求可能會大大阻礙這個框架的部署,這對于實際應用中的實現來說是不切實際的。為了解決這些問題,我們提出提高基于GAN網絡的生成器和鑒別器的能力,并重新思考條件GAN中鑒別器的架構,而不是盲目地通過增加大量的可訓練參數來增加網絡的特征維度。更多細節將在第五章中呈現。
人工智能系統近年來已經展現出了顯著的進步。然而,擴展性和泛化到實際問題仍然是一個重大問題。在本論文中,我們探討了構建可擴展計算機視覺人工智能系統的三個關鍵組成部分,包括模型優化能力、學習目標和大規模數據集,并將這些成果應用于機器人技術。我們的工作從視覺變換器的優化性研究開始,提出了一組新的優化性度量標準和一種替代的片段化設計。接下來,我們引入了一種對比自監督學習目標,減少了自監督學習中的歸納偏見,導致在各種數據集上都有優越的性能。然后,我們展示了自監督視覺預訓練在真實世界圖像中學習運動控制任務的效果,從像素中學習,超越了有監督的基線,并與標準狀態性能相匹配。在此基礎上,我們探索了在野外多樣化視頻中對真實世界機器人任務的自監督視覺預訓練,展示了預訓練表示在一系列任務和實體中的有效性。此外,我們提出了一種基于因果變換器的仿真到真實學習方法,用于真實世界中全尺寸仿人機器人的行走,這標志著第一個完全基于學習的方法用于真實世界中全尺寸仿人機器人的行走。最后,我們總結了論文并討論了該領域進一步研究的可能未來方向。
在這篇論文中,我們建立并分析了推動神經網絡成功的兩個核心原則:超參數化和特征學習。我們利用這些原則設計了在各種計算機視覺和生物醫學應用上具有更好性能和解釋性的模型。我們首先討論超參數化的好處,即使用越來越大的網絡完美地擬合訓練數據。盡管之前的工作已經描述了超參數化網絡在監督學習任務中的好處,但我們展示了超參數化對于非監督學習問題(如自動編碼)也是有益的。越來越大的網絡的普遍優勢意味著無限大的網絡應該提供最佳的性能。值得注意的是,在某些條件下,訓練無限寬的網絡簡化為使用神經切線核(NTK)訓練經典模型,也稱為核機器。我們通過推導并使用NTK來展示其在矩陣補全問題(如圖像修復和虛擬藥物篩選)中的實際價值。此外,我們利用NTK連接為深度神經網絡提供理論保證。具體地說,我們構建了插值的無限寬和深的網絡,對于分類來說,它們是貝葉斯最優的或一致的。
盡管NTK已經成為理解深度網絡屬性的有用工具,但它缺少對神經網絡成功至關重要的關鍵組件:特征學習。在這篇論文的第二部分,我們識別并數學地描述了深度神經網絡如何自動選擇數據中的特征或模式的機制。我們展示了神經特征學習是通過基于它們如何在擾動下改變預測來重新加權特征來發生的,這一過程在數學上由平均梯度外積來描述。我們的結果解釋了如虛假特征、彩票票據和grokking等深度學習現象。此外,我們工作中確定的機制為任何機器學習模型提供了一個無需反向傳播的特征學習方法。為了展示這種通用特征學習機制的有效性,我們使用它來實現核機器中的特征學習。我們展示了由此產生的模型,稱為遞歸特征機,達到了表格數據上的最新性能。總體而言,這篇論文推進了機器學習的基礎,并為構建新的機器學習模型提供了工具,這些模型在計算上簡單、可解釋且有效。
機器學習領域,特別是深度學習,由于算法、計算能力和數據集的改進,近年來取得了巨大進步。為支持深度學習而構建的系統主要針對用于生成學習模型的計算。 本論文提出改為關注數據在訓練和驗證中的作用。在論文的第一部分,我們關注訓練數據,展示了負責訓練數據的數據管道是性能考慮的首要目標。為了解決性能問題,我們引入了一種在數據轉換空間中進行數據子采樣的方式,一種降低精度的輸入/輸出格式,以及一個自動調整數據管道性能參數的系統。在論文的第二部分,由于日益增長和表達能力增強的模型的趨勢,我們轉向驗證環境,開發了一個系統,可以使用標準正則表達式自動查詢和驗證大型語言模型的行為。我們以機器學習的數據系統領域的未來工作作為結論。在過去的十年里,機器學習(ML)在應用方面經歷了迅猛的增長。這個領域關注的是隨著數據或經驗而改進的算法[201],已經從一系列專業化的應用(例如,廣告[195],推薦系統[60, 106, 213],垃圾郵件檢測[316])演變為應用于幾乎所有技術領域。例如,深度學習應用于游戲玩法[261, 286],蛋白質折疊[143],機器人學[80],一系列自然語言處理任務[43, 55],并且預計將達到一種無處不在的程度,可能導致重大的經濟顛覆[87]。在這場革命的最前沿是深度學習子領域[108, 173]。深度學習使用多層結構 - 數學操作 - 來構建模型。這些層被聯合學習,以便早期層簡化后續層面臨的任務。雖然深度網絡在理論上可能不如其他機器學習或人工智能方法那么被理解,但它們已經表明,盡管在計算上開銷巨大但通用的方法最終會主導利用額外專業化的算法[268]。這種在計算上開銷巨大但通用的方法已經受益于像摩爾定律[209]這樣的趨勢 - 硬件性能的指數級增長 - 以及硬件和軟件的專業化[165, 275]。如今眾多的深度學習軟件使深度學習或許比其他替代方案更易于獲取 - 只需獲得通常是開源且隨時可用的模型規范代碼,就可以訓練最先進的模型。深度學習技術的核心已經被商品化和民主化,使任何人都可以受益于人類多年的研究和開發。
然而,盡管使用深度學習的常規方面變得更加容易,但仍然存在一些基本問題有待解決,并影響許多應用的下游性能。對這些問題(及其相應解決方案)進行分類的一種方法是將它們分為三個領域:1)機器學習算法,2)計算能力,和3)數據。這三個領域的每一個都已經經過優化以持續推動該領域的進步,并且被列為導致深度學習興起的關鍵因素[35]。例如,缺乏訓練數據和計算能力被歸因為深度網絡在2000年初的衰退[35]。直到大約十年后,這些因素的缺乏才得以彌補,當時在2012年ImageNet大規模視覺識別挑戰(ILSVRC)比賽中取得了創紀錄的表現[71]。獲勝的提交,AlexNet[156],是一個深度卷積神經網絡(CNN),并且在圖形處理單元(GPU)的幫助下接受了一百萬張圖像的訓練。機器學習算法也有所進步,使學習更加高效。例如,ReLU激活和dropout是2012年提交[156, 173]的關鍵算法組件,是廣泛用于加速學習的數學操作。當這些進步結合起來時,由此產生的模型以絕對誤差超過了僅次于其的提交,開始了計算機視覺的革命[173]。今天在自然語言處理方面的最新趨勢可以類似地視為核心算法創新[285],并擴展到大量數據和計算[43, 55],從而導致性能的可預測提升。在民主化機器學習的最前沿是機器學習系統[239]。這些系統包含并解決機器學習方法中足夠公式化的部分,使從業者能夠將時間集中在其他問題上。如果機器學習算法,計算能力和數據是支撐現代機器學習的支柱,那么機器學習系統就是用來將它們置于適當位置的工具。如今的系統包括用于數學表達式符號操作的功能,跨各種硬件平臺的可移植性,分布式執行,以及與常用實用程序和數學表達式一起預先打包的庫[11, 49, 96, 222]。
作為這篇論文的一部分,我們探討了現代機器學習技術棧中新功能或修訂功能的幾個方向,重點關注整個技術棧中數據的處理。研究數據很重要,因為在三個問題領域中,數據是最具動態性的 — 數據總是可以進一步優化以涵蓋更多樣本、更多特征或某些類型的行為,而模型(和計算)在處理某種類型的數據時必然是固定的。此外,對數據的優化可能導致應用程序的顯著增益,從而刺激數據為中心的AI研究[3]。然而,這并非輕而易舉,改變數據容易說難做。由于缺乏理論理解,對于任何新類型的機器學習任務,從業者可能必須測試哪種數據組合效果最好。如果沒有適當的數據抽象,任務中的單一變化可能導致從業者必須手動評估和調整應用程序數據的特征。調整數據的方面不僅是單調乏味的,而且根據數據評估模型以及系統性能的行為需要機器學習和系統的專業知識,而這些專業知識通常是由不同群體的人擁有的。如果機器學習系統的目標是支持從業者解決重復問題,那么可以合理地期望機器學習系統能夠使數據的快速配置和原型制作成為可能。簡而言之,數據管道應該是機器學習系統棧中的一等公民 - 它們不應該是作為附加工具支持模型和計算的事后考慮。本章其余部分的組織結構如下。首先,我們概述機器學習系統是如何構建和評估的(§1.1)。然后,我們概述機器學習中的工作負載是如何發生根本性變化的,這使得社區分裂成兩個部分(§1.2),并激勵對機器學習系統進行根本不同的處理。然后我們轉向論文的動機,重新審視數據在當前機器學習環境中的重要性(§1.3)。最后,我們介紹論文陳述并概述本文的章節(§1.4)。熟悉當前機器學習和機器學習系統狀態的讀者可以跳過第1.1節和第1.2節的“教科書材料”,并直接前往第1.3節。
自動駕駛車輛在公共道路上的部署已取得了巨大的進展,然而在人駕車和自動駕駛車共享道路的情況下進行安全導航對于即使是最先進的系統也是一項挑戰。我們需要算法和系統來為自動駕駛車輛開發和評估符合社會規范的規劃算法。在這篇論文中,我們提出了一個考慮到人類操作員在車輛軌跡規劃和運動控制中的社會效用的半合作自主性框架。此外,我們提出了一個新的機器人平臺,用于在安全的實驗室環境中部署和評估半合作自主性。在這篇論文中,我們結合了來自社會心理學的概念和博弈論規劃算法,以開發半合作自主規劃器。從一個自動駕駛車輛開始,我們提出了一種考慮到每個人駕駛員的社會價值取向,同時實現了可取的博弈論均衡的算法,稱為"想象共享控制的迭代最佳反應"。半合作框架被應用到更大規模的系統,例如為混合人機自主交通提供符合社會規范的交叉口管理器,以及理解社會價值取向對車輛交通流的影響。此外,我們提出了一個能感知可視性的軌跡優化算法,用于圍繞盲點的主動運動規劃,該算法將人類駕駛員的不確定性模型納入到半合作軌跡規劃器中。我們在人類和自動駕駛車輛的模擬中演示了這些算法的有效性,并研究了人類性格對算法性能的影響。其次,我們介紹了 MiniCity,這是一個1/10比例的城市環境,包括逼真的城市景觀、交叉口,以及配備了最先進傳感器和算法的多個完全自動駕駛的1/10比例車輛。我們描述了 MiniCity 機器人平臺如何用于半合作自主性的開發,從評估算法性能到開發新的智能交通系統。首先,我們使用 MiniCity 來評估車輛自主性,既測量上游感知對下游車輛性能的影響,又測量半合作交叉口管理器的效率。其次,我們利用 MiniCity 的人在環路駕駛員界面收集用戶偏好,用于共同設計穿越交叉口的共享控制器。最后,我們提出了一種新的基于基礎設施的故障檢測算法 FailureNet,該算法在 MiniCity 的自動駕駛車輛上進行訓練和部署。在所有這些中,MiniCity 為開發交互式算法提供了一個安全和可擴展的環境,使我們更接近在混合人工自主駕駛的道路上完全部署符合社會規范的自主性。
我們展示了在開發穩定、可擴展和可傳遞的用于視覺數據的生成模型方面的進展。我們首先利用自回歸模型學習表達豐富的圖像先驗知識,這些模型可以生成高質量且多樣化的圖像。然后,我們探索了遷移學習,將視覺表征模型推廣到具有有限可用數據的新數據模態。我們提出了兩種方法,通過從預訓練的判別式視覺模型中提取知識,從稀疏的輸入圖像或自然語言描述生成高質量的3D圖形。我們簡要總結了利用去噪擴散概率模型改善生成質量的工作,并展示了如何將其轉移到新的模態,包括使用分數蒸餾采樣進行高質量的文本到3D合成。最后,我們通過優化矢量圖形渲染器,利用從預訓練的文本到圖像擴散模型中提取的知識,從文本生成2D矢量圖形,而無需矢量圖形數據。我們的模型可以在許多模態下實現高質量的生成,并在隨后的工作中得到廣泛應用。
研究主要集中在三類工作上:(i) 可以擴展學習的高效計算機系統,(ii) 開發更具表達力和穩定性的模型,以便從規模效應中受益,以及 (iii) 能夠使模型推廣到新模態的遷移學習算法。在這篇論文中,我將專注于后兩類工作。
從真實樣本中估計高維分布是機器學習和統計學中一個長期存在的挑戰性問題。這樣的分布估計需要一個模型來捕捉一組變量之間的相互依賴關系,例如隨機向量的各個維度。通過參數化分布估計,幾乎可以在真實世界的數據上實現神奇的效果。當這些分布描述圖像時,這些應用包括無條件圖像生成,例如合成無限的人工數據,基于已知屬性的圖像生成,照片編輯,增強技術,如超分辨率或修復,領域轉換等等。深度生成模型還推動了其他數據模態的進展,包括語音合成、音樂生成和自然語言生成。
在深度生成模型的許多研究中,重點是估計無條件參數分布???? (x),通過與任務無關的樣本質量和似然度量來衡量進展。然而,生成建模的吸引力在于先驗分布????在向下游任務中的靈活性,其中通常可以獲取一些條件信息,如類別標簽??或損壞的觀測值x?。在這些設置中,能夠以較低的計算成本訪問所需的后驗分布(例如???? (x|x?))至關重要。通用的推斷算法在某些情況下可以從所需的后驗中進行采樣,但理想情況下,我們希望能夠準確且高效地對這些后驗進行計算。
我們的整體目標是學習和轉移表達豐富的生成視覺模型到許多領域。我們通過消除生成圖像先驗中的架構限制來解決這個問題,然后通過從大型預訓練模型中轉移知識,降低生成應用的數據需求。首先,在第二章中,我們提出了一種改進的PixelCNN自回歸模型架構,支持對數據維度進行任意條件分布的圖像補全應用。我們修改后的架構,局部掩蔽的PixelCNN,允許在集合中共享參數,從而提高密度估計。然而,自回歸模型是強大的密度估計器,但在小尺度上樣本質量較差,采樣速度慢,并且在條件生成任務上相對不夠靈活。特別是,像PixelCNN這樣的自回歸模型一次只對一個數據維度進行采樣,通常需要進行完整的神經網絡前向傳遞,這是低效的。
在第三章中,我們探索了圖像合成的一個具有挑戰性的應用:新視角合成(NVS)問題。NVS的目標是從新的相機位置插值出場景的稀疏視角。在給定稀疏采樣的觀察視角的情況下,基于神經輻射場的現有方法估計了編碼特定場景幾何和外觀的神經網絡的參數。然后,使用體積渲染生成新視角。在我們的工作中,我們提出了一個輔助損失函數,允許將大型圖像編碼器的先驗知識轉移到視角合成問題中。這使得神經輻射場能夠對未見區域進行外推——這對于生成模型來說是一項重要的能力。使用輔助損失函數來約束場景表示還可以改善視角合成的質量,即使只有1-8個觀察圖像。利用自監督模型的先驗知識是提高生成模型的數據效率、靈活性和可控性的一種有前途的方法。是否需要任何觀察?在第四章中,我們展示了特征空間損失可以用于僅通過標題生成一個3D物體。我們描述了一種名為Dream Fields的方法,通過測試時訓練來合成一個3D神經輻射場。Dream Fields由一個經過正則化的3D表示和一個基于預訓練語言模型和圖像編碼器的特征空間對齊的損失函數優化而成。正則化對于高質量是至關重要的。我們的工作為無需使用任何3D訓練數據的開放領域文本到3D生成鋪平了道路。
DietNeRF和Dream Fields依賴于來自自監督視覺Transformer和對比語言-視覺雙編碼器等判別模型的先驗知識。然而,判別模型不一定能夠完全表示高質量合成所需的所有視覺細節。第五章簡要討論了我們在生成建模方面的兩項工作,使得跨模態生成具有更高保真度成為可能。首先,我們開發了一種新的去噪擴散概率模型(DDPM),它在圖像合成方面實現了最先進的樣本質量。DDPM被證明是一種高度可擴展且穩定的先驗模型,可以直接在不同模態下進行訓練。然而,在不同格式的訓練數據可用量上總會存在差異:當前圖像數據集的規模比最大的3D數據集大幾個數量級。在后續的工作中,我們找到了將擴散模型從其訓練模態中轉移出來的新方法。我們提出了分數蒸餾采樣損失來實現這種轉移能力,并將其首次應用于高質量的文本到3D方法,即Dream Fusion。在擴散模型和分數蒸餾采樣的基礎上,我們在第六章中基于預訓練的文本到圖像擴散模型開發了一種文本到SVG的方法,稱為VectorFusion。VectorFusion展示了生成模型從文本中創建抽象的矢量化圖形的潛力。在整個論文中,我們通過將在數據豐富的模態上學習到的大規模先驗知識與可微分的渲染器相結合,構建了強大的合成工具,這些渲染器表示了為下游任務有用的定制模態。第七章提供了總結思考。
機器學習模型在面對分布變化時很脆弱,這使得它們在現實世界的部署中很難依賴。這促使開發方法,使我們能夠檢測和減輕這種模型的脆弱性,以及驗證我們的模型確實滿足期望的魯棒性保證。本文提出了一套工具,幫助我們檢測模型漏洞和偏差。該集合包括一套新的數據集,使我們能夠更細粒度地了解模型對背景的依賴。另一方面,它涉及3DB,一個利用逼真模擬的框架,以探測模型對更多樣化分布變化的脆弱性。除了識別這些漏洞外,還討論了可以使模型對分布變化更魯棒的干預措施,包括使用更多的訓練數據。正如所證明的,不加區分地使用更多的輔助數據并不總是有益的,因此提出了數據集投影,一種選擇要使用的"正確"輔助數據的方法。展示了如何有效和形式化地驗證所提出模型對研究最充分的分布漂移類型之一是魯棒的:逐像素對抗性擾動。
在過去的幾年中,深度學習和醫學的交叉領域取得了快速的進展,特別是在醫學圖像的解釋方面。在這篇論文中,我描述了為醫學圖像解釋的深度學習技術的發展帶來挑戰和機遇的三個主要方向。首先,我討論了專家級醫學圖像解譯算法的發展,重點是轉移學習和自監督學習算法,設計用于低標簽醫療數據設置。其次,我將討論高質量數據集的設計和管理及其在推進算法開發中的作用,重點是使用有限的手工注釋進行高質量標記。第三,通過系統分析臨床相關分布位移下的性能的研究,我討論了醫學圖像算法的真實評估。總之,這篇論文總結了這些方向的關鍵貢獻和見解,以及在醫學專業的關鍵應用。