人工智能系統近年來已經展現出了顯著的進步。然而,擴展性和泛化到實際問題仍然是一個重大問題。在本論文中,我們探討了構建可擴展計算機視覺人工智能系統的三個關鍵組成部分,包括模型優化能力、學習目標和大規模數據集,并將這些成果應用于機器人技術。我們的工作從視覺變換器的優化性研究開始,提出了一組新的優化性度量標準和一種替代的片段化設計。接下來,我們引入了一種對比自監督學習目標,減少了自監督學習中的歸納偏見,導致在各種數據集上都有優越的性能。然后,我們展示了自監督視覺預訓練在真實世界圖像中學習運動控制任務的效果,從像素中學習,超越了有監督的基線,并與標準狀態性能相匹配。在此基礎上,我們探索了在野外多樣化視頻中對真實世界機器人任務的自監督視覺預訓練,展示了預訓練表示在一系列任務和實體中的有效性。此外,我們提出了一種基于因果變換器的仿真到真實學習方法,用于真實世界中全尺寸仿人機器人的行走,這標志著第一個完全基于學習的方法用于真實世界中全尺寸仿人機器人的行走。最后,我們總結了論文并討論了該領域進一步研究的可能未來方向。
盡管形式各異的視覺數據(如圖片和視頻)的呈指數級增長,為我們解釋周圍環境提供了前所未有的機會,自然語言依然是我們傳遞知識和信息的主要方式。因此,目前迫切需要構建一個框架來實現不同模態信息之間的交互。在這篇論文中,我研究了實現多模態信息有效交互的三個方向。第一個方向關注于構建具有相似語義意義信息的一致性表示。更具體地說,在高維語義空間中,相似信息的表示應該在適當的范圍內彼此接近,不論它們的模態如何。第二個方向是實現圖像視覺屬性與相應語義詞之間的有效關聯,這首先要求網絡能夠識別圖像和文本中的不同語義信息,然后允許它們進行交互。第三個方向是構建一個輕量級架構的模型,用于處理來自多個域的輸入。這是因為當網絡涉及多模態信息時,可能需要大量增加可訓練參數的數量,其目的是允許網絡全面學習捕捉具有域間差異的信息之間的相關性。需要大量計算資源的要求可能會極大地阻礙框架的部署,這對于現實世界應用中的實現來說是不切實際的。這些方向的貢獻如下。
首先,為了有一個一致的表示,生成網絡采用了對比學習和聚類學習,其中對比學習可以最大化由給定數據集提供的成對實例之間的互信息,而聚類學習可以將具有相似語義意義的實例分組到同一個簇中,并將不同的實例推得彼此遠離。通過這樣做,可以構建一個結構化的聯合語義空間,在這個空間內,具有相似語義意義的實例可以在適當的范圍內緊密地聚集在一起,以確保不論其模態如何,都能有一個一致的表示。
其次,為了實現多模態信息之間的有效關聯,提出了三種不同的方法,有效地將圖像視覺屬性與相應的語義文本描述相關聯,使網絡學習理解文本和圖像信息的語義意義,然后實現有效的交互。更特別的是,為了探索相關性,我首先研究了基于單詞級別注意力的連接,并輔以補充的單詞級別鑒別器,其中注意力允許網絡學習識別與相應語義詞對齊的特定圖像視覺屬性,而補充的單詞級別鑒別器提供細粒度的訓練反饋,以允許網絡正確捕捉這種關聯。然后,介紹了文本-圖像仿射組合,采用仿射變換將文本和圖像特征結合在生成過程中,使網絡具有區域選擇效應,有選擇地將文本所需的圖像屬性融合到生成流程中,并保留與文本無關的內容。此外,提出了一種半參數的記憶驅動方法,它結合了參數技術和非參數技術的優點。非參數組成部分是一個存儲庫,由訓練數據集構建而成的預處理信息庫,而參數組成部分是一個神經網絡。通過這樣做,參數方法可以實現高度表達模型的端到端訓練的好處,非參數技術允許網絡在推理時充分利用大型數據集。
第三,提出了兩種解決方案來減輕由于不同模態輸入而需要的網絡計算資源成本,允許網絡在各個領域中輕松實施。更具體地說,我們改進了條件GAN中生成器和鑒別器的能力,以避免盲目增加網絡的可訓練參數數量,并構建了一個單向鑒別器,將兩個訓練目標(即獲得更好的圖像質量和文本-圖像語義對齊)結合到一個方向(即提高融合特征的質量)中,以減少條件GAN中的冗余。這項工作為構建一個輕量級框架鋪平了道路,該框架旨在實現多模態信息之間的有效交互,并且也可以輕松部署在各種真實世界的應用中。
引言
視覺感知是人類解釋周圍環境的最重要能力之一。每天,人類消耗的視覺信息量令人難以置信,他們觀看視頻、拍照、欣賞繪畫以及在社交媒體上分享。例如,YouTube每天幾乎有50億視頻被觀看;僅Instagram每天就有超過9500萬照片被上傳。如此大量的視覺數據的可用性為研究人員提供了前所未有的機會來構建各種視覺解釋和合成方法,如(1)物體/場景分類(He等,2016年;Simonyan和Zisserman,2014年;Szegedy等,2015年,2016年;Zhou等,2014年b),(2)物體檢測(Girshick等,2014年;Long等,2015年;Ren等,2015年;Ronneberger等,2015年;Howard等,2017年;Redmon等,2016年),(3)圖像描述(Donahue等,2015年;Xu等,2015年),(4)視覺問題回答(Andreas等,2016年;Johnson等,2017年;Lu等,2016年;Nam等,2017年;Antol等,2015年;Anderson等,2018年;Yang等,2016年),(5)文本到圖像生成(Reed等,2016年b;Xu等,2018年;Zhang等,2017年a,2018年a),(6)圖像到圖像翻譯(Isola等,2017年;Park等,2019年;Wang等,2018年;Zhu等,2017年),(7)文本引導的圖像操作(Dong等,2017年;Li等,2020年a,c;Nam等,2018年),(8)故事可視化(Li等,2019年c;Song等,2020年;Maharana等,2021年;Maharana和Bansal,2021年)等等。這些方法旨在實現多模態表征之間的跨域轉換,例如,將非視覺數據(如自然語言描述或場景圖)轉換成視覺信息(如視頻或圖像),反之亦然,并旨在實現它們之間的有效交互。 在這篇論文中,我專注于探索實現多模態信息(例如,語言和視覺信息)之間有效交互的原則,包括(1)如何在一個聯合語義空間中為這些信息構建一致的表示,(2)如何有效地連接并融合來自不同模態的特征,以及(3)如何減輕計算需求以實現有效的交互。我的研究可以在許多領域啟用無數潛在的應用,包括設計、視頻游戲、藝術、建筑和醫學診斷等等。
為了實現多模態信息之間的有效交互,首先,重要的是對具有相似語義含義的信息有一個一致的表征。這是因為來自不同領域的信息可能有它們自己的表征形式,因此,在一個高維語義空間中,這些特征的位置可能會彼此相距甚遠,即使它們表達的是相似的語義含義。即使是來自同一領域的信息也會發生這種情況(Mikolov等人,2013年),例如,對于意思相同但使用同義詞的兩個句子,比如“貓”和“小貓”,它們在語義空間中的表征可能不會完全相同。當特征的維度增加時,這種情況可能會變得更糟,這是由維度的詛咒(Bellman,1966年)引起的:隨著特征或維度的數量增長,我們需要準確概括的數據量呈指數增長。所以,一個問題出現了:如何為具有相似語義含義的同一領域或不同領域的信息構建一致的表征?這一點很重要,因為具有一致的表征意味著具有相似語義含義的信息可以在高維語義空間中有固定且接近的位置,因此即使來自不同模態的信息也可以在空間中的適當范圍內容易地從一個轉換到另一個,這與本論文實現多模態信息之間有效交互的目標是一致的。
為了考慮實例之間的相似性,我們首先從對比學習中尋求幫助,對比學習是自監督表征學習的一個強大方案(Oord等人,2018年;He等人,2020年;Chen等人,2020年;Zhang等人,2021年),它可以通過對比正樣本對和負樣本對來強化不同增強下的表征一致性。然而,對比學習并沒有考慮樣本的語義信息和語義相似性,它簡單地將兩個樣本視為正樣本對,只要它們位于將通過網絡傳播的訓練樣例的相同位置(即在同一個批次中),并且當它們在不同的批次中時視為負樣本對,而不考慮它們的語義信息。通過這種做法,學到的表征可能會受到相當大的影響。例如,簡單采用對比學習可能會將具有相似語義含義但在不同批次中的實例推得相距甚遠,從而可能破壞它們之間的語義一致性。
為了考慮樣本之間的相似性,聚類算法(Alwassel等人,2020年;Asano等人,2020年;Caron等人,2020年;Li等人,2020年d)可以補救上述問題,聚類算法將相似的實例(即具有相似語義含義的實例)分組到同一個簇中,并將不同的實例推到不同的簇中。因此,對比學習和聚類學習互為補充,采用對比學習可以讓我們更好地探索跨模態的互信息,并且使用聚類學習將具有相似語義含義的信息分組到同一個簇中,從而實現一致的表征。更多細節將在第三章中呈現。
在為具有相似語義含義的同一或不同模態信息建立了一致的表征之后,另一個問題出現了:如何實現這些信息之間的有效交互?更具體地說,如何有效地構建圖像中的視覺特征與句子中相應的語義詞之間的連接?這是因為機器需要理解給定文本描述的語義含義,并且識別特定的圖像區域,然后它才能生成具有文本要求的對象和屬性的圖像,或者修改特定的圖像區域以匹配給定的文本描述。
為了實現不同模態信息之間的有效交互,提出了三種方法:(1)基于詞級注意的連接,輔以補充的詞級鑒別器提供細粒度的訓練反饋,(2)文本-圖像仿射組合模塊,以及(3)基于記憶的方法。這些方法使網絡能夠有效地將圖像區域的視覺屬性與相應的語義詞聯系起來。更多細節將在第四章中呈現。
在有了一個框架以實現多模態信息之間的有效交互之后,又出現了一個問題:這個框架能否在大多數設備中輕松部署?更具體地說,有可能開發一個不依賴昂貴計算資源的框架嗎?這主要是因為,當一個網絡涉及到不同模態的信息時,可能需要大量增加可訓練參數的數量,這旨在讓網絡能夠全面學習捕捉多模態信息之間的相關性,并彌合領域差距。需要大量計算資源的要求可能會大大阻礙這個框架的部署,這對于實際應用中的實現來說是不切實際的。為了解決這些問題,我們提出提高基于GAN網絡的生成器和鑒別器的能力,并重新思考條件GAN中鑒別器的架構,而不是盲目地通過增加大量的可訓練參數來增加網絡的特征維度。更多細節將在第五章中呈現。
我們研究了野外拍攝的視頻中多人三維重建的問題。人類的動作是動態的,準確地在各種環境中重建它們對于開發沉浸式社交遠程呈現、輔助性人形機器人和增強現實系統至關重要。然而,創建這樣的系統需要解決關于數據和模型架構的以前工作的基本問題。在這篇論文中,我們開發了幾個大規模的3D基準測試,旨在評估在苛刻條件下的多人重建,以及對遮擋和擁擠環境有韌性的自上而下的算法。 數據 - 為深度學習模型獲得大規模的3D監督是實現真實世界泛化的關鍵。然而,與大規模2D數據集不同,3D數據集的多樣性顯著受限 - 主要是因為在3D空間中手工注釋是不切實際的。因此,大多數3D基準測試都限制于室內環境,或者最多是兩個室外的人類主題,攝像機的移動緩慢或固定,并且遮擋最小。為了解決這個差距,我們探索使用3D合成數據,并構建兩個真實的多人3D數據集,這些數據集包括動態的人類活動、快速的攝像機移動和人與人之間的接觸,這些在之前的基準測試中都被忽視了;以突出現有方法的關鍵局限性。 方法論 - 一個通用的多人3D重建方法應該對尺度變化和遮擋具有韌性,并結合絕對深度理解。我們在2D和3D設置中引入了這些特性的算法,這些算法使我們能夠推理在動態環境和擁擠場景中的多個人。我們的自上而下的方法利用空間-上下文信息來推理3D場景中嚴重遮擋的人類。 基于這兩個組件,我們開發了從野外視頻中重建動態場景中的多個人的通用3D方法。
計算機視覺領域的一個主要目標是人體的三維重建[78]。這種能力對于視頻游戲、電影和遠程呈現的應用至關重要。然而,目前大多數關于3D人體重建的方法和數據集都是針對單一人體場景的[95, 109, 263]。考慮到人類本質上是社交生物,經常與其他人互動,多人場景的存在顯得十分重要。現有的方法往往做出了限制性的假設,不容易擴展到這些多人情境。此外,現有的單一人體數據集提供的監督在泛化到多人上下文時,特別是在不可預測的、野外的條件下,都顯得不足。 本論文描述了在野外捕獲的大規模3D多人數據集的新技術。此外,它還提出了一些不僅定制于多人場景,而且對于擁擠和遮擋等挑戰表現出強大韌性的方法。從圖像和視頻中推導人體的3D結構的主要挑戰是這個任務的數學病態性。正如Adelson和Pentland[1]在工作坊的比喻中所強調的,以及Sinha和Adelson[229]的多面體線條圖所展示的,許多3D配置都可以匹配一個給定的2D圖像。然而,我們的世界是有結構的,這些配置并不都同樣可能。盡管如此,我們的世界具有固有的結構,使得某些配置比其他配置更有可能。人們根據環境中的熟悉模式和規律來辨識可能的3D結構。同樣地,我們讓計算機掌握3D的努力也主要依賴于將這種先驗知識嵌入到推斷過程中。 在當前的計算機視覺領域,像圖像分類[46]、物體檢測[144]和語義分割[40]這樣的領域,3D人體重建主要依賴于帶有3D注釋的3D數據集來編碼這些固有的先驗。獲得這些3D人體注釋的主要方法是通過多視圖捕獲設置,因為手工3D注釋既低效又具有挑戰性。然而,值得注意的是,許多這些3D人體重建數據集主要集中在單一人體場景上,忽視了多人互動。是什么驅動了這種趨勢?人們可能會辯稱,收集單一人體數據更簡單、更直接。此外,在多視圖設置中,框架中只有一個主題可以避免多個個體之間的跨視圖對應關系的復雜性。然而,這種對數據集組成的狹隘關注無意中推動了該領域朝向在多人環境中失誤的方法,參見圖1.1。總之,深入研究構建一個全面的多人3D重建系統不僅需要開發能夠適當地建模人與人之間的深度關系和互動的方法,如人與人之間的接觸,而且更關鍵的是,解決現有3D人體數據集中的局限性。
在本論文中,我們解決了這兩個主要的挑戰:創建大規模的多人數據集以及改進3D人體重建技術。我們的討論分為三部分。在第一部分中,我們探討了使用合成3D監督以及它糾正當前數據集偏見的潛力。這引出了關鍵問題:純粹在合成數據上進行訓練的模型可以被信任在真實數據上工作得很好嗎?我們如何在它們之間建立域間的橋梁?在第二部分,我們評估了當前方法在多人上下文中的局限性,從簡單的任務如2D姿態估計開始,然后轉向更復雜的任務,如從單一圖像恢復3D網格。在第三部分,我們回到數據主題,考慮在確保其真實性和多樣性的同時,在大規模收集實際的多人數據的需要和挑戰。 第一部分:合成3D監督。利用最先進的模擬器為3D人體重建的大規模監督生成合成數據的想法是一個令人信服的想法。在這一部分,我們檢查一個中心問題:當純粹在合成數據上進行訓練時,3D方法可以可靠地擴展到真實世界的數據嗎?在第2章,我們提供了證據,表明使用域隨機化的數據允許方法泛化,即使沒有真實世界的注釋,特別是對于3D對象姿態估計任務。然而,我們觀察到,對域隨機化的普通方法并不是最有效率的,通常需要許多合成樣本才能達到可靠的實數據泛化。第3章解決了這一挑戰,引入了一個更有效的域隨機化方法,使合成數據的生成與深度模型在訓練期間的持續進展保持一致。這一章還概述了關于需要多少數據才能實現可靠的實際世界泛化的理論保證。
第二部分:多人姿態和形狀估計。在這部分,我們解決了3D多人重建方法的關鍵限制。第4章主要關注2D姿態估計,尤其是在由遮擋和擁擠標記的復雜多人情境中。我們介紹了一套專為這些場景設計的新穎的自上而下的方法,有效地擺脫了限制性的單人假設。基于這一基礎,第5章擴大了這些方法,以從圖像中解決3D人體網格恢復的問題。我們的主要哲學是將人的點基表示與它們的邊界框表示相結合。我們展示了,令人驚訝的是,這種簡單的集成能夠維持自己,即使在具有挑戰性的多人遮擋的情境中也能夠取得令人印象深刻的結果。 第三部分:真實的3D多人數據集。雖然在第一部分中,我們調查了用于3D的合成數據的使用,但第三部分將焦點轉向真實的多人數據。在第6章中,我們設計了一個適合野外設置的無標記捕獲系統,以記錄多人活動,重點是動態活動,如體育和舞蹈。同時,我們引入了一個半自動的注釋流程,以減少人為監督地生成大規模的3D注釋,如人體姿態和網格。此外,為了捕獲帶有移動相機的3D場景,我們利用了主題的自中心視圖,并為這一具有挑戰性的視圖提供了注釋。然后第7章深入探討,重點是多人互動,代表了人與人之間的擴展接觸,包括摔跤、擁抱和舞蹈等活動。利用我們之前的方法,我們引入了一個增強的注釋協議,旨在充分處理這些活動中固有的遮擋。總之,第6章和第7章中詳細描述的努力共同為建立兩個全面的多人3D數據集作出了貢獻。 然而,為了開發更大的數據集和高效且普遍的3D多人方法,還有更多的工作要做。第8章通過討論這一領域未來工作的具體方向來結束,包括短期和長期的方向。
機器學習(ML)的訓練將繼續增長,消耗更多的計算周期,其推斷將在更多種類的設備上擴展,而且其功能將在更多的領域中得到應用。未來的一些核心目標是使ML模型高效,從而使其保持實用性并能夠被訓練和部署,并開啟具有新功能的新應用領域。我們描述了一些針對硬件的算法的最新發展,以提高ML模型的效率與質量之間的權衡,并為它們裝備長時間的上下文信息。
//searchworks.stanford.edu/view/14784052
在第2章中,我們關注結構化稀疏性,這是一種自然的方法來減輕大型ML模型的計算和內存成本。我們描述了一種關于可學習的快速變換的工作,由于它們的表現能力和效率,產生了一些首批稀疏訓練方法,可以在實際計時(2×)中加速大型模型而不影響其質量。
在第3章中,我們關注長序列的高效Transformer訓練和推斷。我們描述了FlashAttention,一種快速且內存高效的算法,用于計算注意力而無需近似。通過在不同層次的內存結構之間仔細地讀/寫計算,FlashAttention比現有最好的注意力實現快2-4倍,使用的內存少10-20倍,使我們能夠訓練具有8倍更長上下文的更高質量的Transformers。FlashAttention現在廣泛用于一些最大的研究實驗室和公司。
在第4章中,我們研究了狀態空間模型,這是一種為長期記憶設計的有前途的架構。當我們試圖理解為什么早期的狀態空間模型在語言建模任務上表現不佳時,我們提出了簡單的乘法交互來擴展它們的表現能力。我們還設計了對硬件友好的算法來訓練它們。結果,我們能夠訓練達到千億參數規模的狀態空間模型,展示了一種與語言建模中占主導地位的Transformers競爭的新型模型。我們總結了ML和系統中的一些令人興奮的方向,如軟硬件協同設計、用于科學AI的結構化稀疏性以及用于新AI工作流程和模態的長上下文。
醫學影像是醫療健康中的重要工具,放射科醫生經過高度培訓,能夠在醫學圖像中檢測和描述疾病。然而,僅依賴人類的分析有其局限性:它可能耗時、變化大且難以擴展。自動化部分醫學圖像分析流程可以克服這些局限性,以支持和擴展臨床醫生和放射科醫生的能力。在本文中,我們將重點研究深度學習在自動化醫學圖像分析中可能起到的轉變性角色。我們將分割視為基于深度學習的圖像分析的關鍵工具,并展示了如何在沒有大量手動注釋訓練數據集的情況下,分割神經網絡可以在許多醫學圖像分析任務上實現高性能。
我們首先描述了兩種在標簽數據有限的情況下訓練醫學圖像分割神經網絡的方法。在我們的第一種方法中,我們將弱監督適應于分割。在我們的第二種方法中,我們將數據增強、一致性正則化和偽標簽融合在一個統一的半監督流程中。這些方法將多種有限標簽訓練方法融入到同一框架中,利用每種方法的優點實現高性能,同時保持標簽負擔低。接下來,我們評估了在多機構、多掃描儀、多疾病數據集上使用有限標簽數據訓練的網絡在臨床相關指標上的表現。我們發現,我們的半監督網絡在某些泛化任務上比全監督網絡(訓練數據標簽多100倍以上)表現更好,與人類注釋者的一致性更強。然而,我們發現了標簽效率方法表現不佳的數據子集。我們提出了一種針對我們半監督流程的主動學習擴展,以解決這些錯誤模式,使困難數據切片上的半監督性能提高18.5%。通過這種評估,我們了解了如何使用有限標簽數據訓練的網絡在臨床任務上的表現,它們與使用豐富標簽數據訓練的網絡的比較,以及如何減輕錯誤模式。
最后,我們將標簽高效的分割模型應用到更廣泛的醫學圖像分析任務中。具體來說,我們展示了分割如何以及為什么可以使醫學圖像分類受益。我們首先分析了為什么在同一數據集和任務上,分割模型和分類模型可能達到不同的性能。然后,我們實現了使用分割模型對醫學圖像進行分類的方法,我們稱之為"以分割為分類",并將這些方法與三個回顧性數據集上的傳統分類進行比較。最后,我們利用我們的分析和實驗總結了與標準分類相比,使用"以分割為分類"的優點,包括:改善樣本效率,能夠在標簽圖像更少的情況下(少一個數量級)提高性能,在低發病率類別和某些罕見子組中(最高提高161.1%的召回率);提高對假相關的魯棒性(最高提高44.8%的魯棒AUROC);以及提高模型的可解釋性,評估和錯誤分析。這些結果表明,利用分割模型可以在常見設置中導致更高質量的醫學圖像分類器。總的來說,本文聚焦于將分割作為支持自動化醫學圖像分析的關鍵工具,并展示了如何訓練分割網絡,在沒有大量標簽負擔的情況下,在許多圖像分析任務上實現高性能。
我們展示了在開發穩定、可擴展和可傳遞的用于視覺數據的生成模型方面的進展。我們首先利用自回歸模型學習表達豐富的圖像先驗知識,這些模型可以生成高質量且多樣化的圖像。然后,我們探索了遷移學習,將視覺表征模型推廣到具有有限可用數據的新數據模態。我們提出了兩種方法,通過從預訓練的判別式視覺模型中提取知識,從稀疏的輸入圖像或自然語言描述生成高質量的3D圖形。我們簡要總結了利用去噪擴散概率模型改善生成質量的工作,并展示了如何將其轉移到新的模態,包括使用分數蒸餾采樣進行高質量的文本到3D合成。最后,我們通過優化矢量圖形渲染器,利用從預訓練的文本到圖像擴散模型中提取的知識,從文本生成2D矢量圖形,而無需矢量圖形數據。我們的模型可以在許多模態下實現高質量的生成,并在隨后的工作中得到廣泛應用。
研究主要集中在三類工作上:(i) 可以擴展學習的高效計算機系統,(ii) 開發更具表達力和穩定性的模型,以便從規模效應中受益,以及 (iii) 能夠使模型推廣到新模態的遷移學習算法。在這篇論文中,我將專注于后兩類工作。
從真實樣本中估計高維分布是機器學習和統計學中一個長期存在的挑戰性問題。這樣的分布估計需要一個模型來捕捉一組變量之間的相互依賴關系,例如隨機向量的各個維度。通過參數化分布估計,幾乎可以在真實世界的數據上實現神奇的效果。當這些分布描述圖像時,這些應用包括無條件圖像生成,例如合成無限的人工數據,基于已知屬性的圖像生成,照片編輯,增強技術,如超分辨率或修復,領域轉換等等。深度生成模型還推動了其他數據模態的進展,包括語音合成、音樂生成和自然語言生成。
在深度生成模型的許多研究中,重點是估計無條件參數分布???? (x),通過與任務無關的樣本質量和似然度量來衡量進展。然而,生成建模的吸引力在于先驗分布????在向下游任務中的靈活性,其中通常可以獲取一些條件信息,如類別標簽??或損壞的觀測值x?。在這些設置中,能夠以較低的計算成本訪問所需的后驗分布(例如???? (x|x?))至關重要。通用的推斷算法在某些情況下可以從所需的后驗中進行采樣,但理想情況下,我們希望能夠準確且高效地對這些后驗進行計算。
我們的整體目標是學習和轉移表達豐富的生成視覺模型到許多領域。我們通過消除生成圖像先驗中的架構限制來解決這個問題,然后通過從大型預訓練模型中轉移知識,降低生成應用的數據需求。首先,在第二章中,我們提出了一種改進的PixelCNN自回歸模型架構,支持對數據維度進行任意條件分布的圖像補全應用。我們修改后的架構,局部掩蔽的PixelCNN,允許在集合中共享參數,從而提高密度估計。然而,自回歸模型是強大的密度估計器,但在小尺度上樣本質量較差,采樣速度慢,并且在條件生成任務上相對不夠靈活。特別是,像PixelCNN這樣的自回歸模型一次只對一個數據維度進行采樣,通常需要進行完整的神經網絡前向傳遞,這是低效的。
在第三章中,我們探索了圖像合成的一個具有挑戰性的應用:新視角合成(NVS)問題。NVS的目標是從新的相機位置插值出場景的稀疏視角。在給定稀疏采樣的觀察視角的情況下,基于神經輻射場的現有方法估計了編碼特定場景幾何和外觀的神經網絡的參數。然后,使用體積渲染生成新視角。在我們的工作中,我們提出了一個輔助損失函數,允許將大型圖像編碼器的先驗知識轉移到視角合成問題中。這使得神經輻射場能夠對未見區域進行外推——這對于生成模型來說是一項重要的能力。使用輔助損失函數來約束場景表示還可以改善視角合成的質量,即使只有1-8個觀察圖像。利用自監督模型的先驗知識是提高生成模型的數據效率、靈活性和可控性的一種有前途的方法。是否需要任何觀察?在第四章中,我們展示了特征空間損失可以用于僅通過標題生成一個3D物體。我們描述了一種名為Dream Fields的方法,通過測試時訓練來合成一個3D神經輻射場。Dream Fields由一個經過正則化的3D表示和一個基于預訓練語言模型和圖像編碼器的特征空間對齊的損失函數優化而成。正則化對于高質量是至關重要的。我們的工作為無需使用任何3D訓練數據的開放領域文本到3D生成鋪平了道路。
DietNeRF和Dream Fields依賴于來自自監督視覺Transformer和對比語言-視覺雙編碼器等判別模型的先驗知識。然而,判別模型不一定能夠完全表示高質量合成所需的所有視覺細節。第五章簡要討論了我們在生成建模方面的兩項工作,使得跨模態生成具有更高保真度成為可能。首先,我們開發了一種新的去噪擴散概率模型(DDPM),它在圖像合成方面實現了最先進的樣本質量。DDPM被證明是一種高度可擴展且穩定的先驗模型,可以直接在不同模態下進行訓練。然而,在不同格式的訓練數據可用量上總會存在差異:當前圖像數據集的規模比最大的3D數據集大幾個數量級。在后續的工作中,我們找到了將擴散模型從其訓練模態中轉移出來的新方法。我們提出了分數蒸餾采樣損失來實現這種轉移能力,并將其首次應用于高質量的文本到3D方法,即Dream Fusion。在擴散模型和分數蒸餾采樣的基礎上,我們在第六章中基于預訓練的文本到圖像擴散模型開發了一種文本到SVG的方法,稱為VectorFusion。VectorFusion展示了生成模型從文本中創建抽象的矢量化圖形的潛力。在整個論文中,我們通過將在數據豐富的模態上學習到的大規模先驗知識與可微分的渲染器相結合,構建了強大的合成工具,這些渲染器表示了為下游任務有用的定制模態。第七章提供了總結思考。
在這篇論文中,我通過三個貢獻呈現了使圖像和視頻生成模型對于一般視覺內容創建具有用處的基本要素。首先,我將介紹關于長視頻生成的研究。這項工作提出了一種網絡架構和訓練范例,使其能夠從視頻中學習長期時間模式,這是將視頻生成從短片推進到更長格式連貫視頻的關鍵挑戰。接下來,我將介紹關于生成基于人體姿勢的場景圖像的研究。這項工作展示了生成模型表示人與其環境之間關系的能力,并強調了從大規模復雜的日常人類活動數據集中學習的重要性。最后,我將提出一種教導生成模型按照圖像編輯指示進行操作的方法,通過結合大型語言模型和文本到圖像模型的能力來創建有監督的訓練數據。遵循指示是一個重要步驟,將使得視覺數據的生成模型對人們更有幫助。總的來說,這些工作推進了生成模型在合成圖像和長視頻方面的能力。 在我攻讀博士學位期間,圖像和視頻生成模型已從小眾展示發展為廣泛采用的創意工具。在這個關鍵時期,我很榮幸能夠研究視覺生成模型,我對未來視覺生成模型的變革潛力和實用性感到樂觀。在這篇論文中,我介紹了三項旨在提高生成模型進行視覺內容創作能力的工作。這些工作概述了制作未來圖像和視頻生成模型,使其更有助于人們完成復雜視覺創作任務所需的關鍵元素。在第二章,我討論了能夠表示長期模式的視頻生成模型的開發。增加生成視頻的時長是改善視覺生成模型的重要方面,這些模型以前主要集中在短視頻片段上。長視頻生成對于AI輔助制作長片等應用至關重要。此外,從長視頻中學習有助于深入理解視覺世界,這對于通用視覺生成模型無比寶貴。在其他模態中增加序列長度,如語言和語音建模,已經顯示出這些模型在緊急能力上的巨大提升。同樣,未來的視覺生成模型可能會處理非常長的視頻,最終解鎖變革性的視覺理解和生成能力。我提出的視頻生成方法采取了朝這個方向邁出的一步,將模型在視頻中的時間視野擴大到比以前的研究更大。長視頻帶來了特殊的挑戰,如隨著時間推移在視頻中出現的新物體和風景的建模,以及維護真實環境所期望的物理一致性。我的工作通過引入一種新的視頻生成對抗網絡(GAN),能夠在有效的時間潛在空間中表示長期模式,并且能夠通過將建模問題分解為在不同的時間和空間規模上操作的兩種互補的生成模型,有效地在長視頻上進行訓練,來解決這些困難問題。
在第三章,我介紹了關于從反映日常人類活動的復雜實際數據中學習的研究。人與物體及其周圍環境之間的互動為我們提供了關于世界的豐富信息。我提出了一種通過條件生成模型學習這些關系的方法。早期的生成模型主要集中在特定的內容類別上,如臉部或特定的物體類別。這項工作將生成模型擴展到建模復雜人類場景的領域。只要提供一個人的輸入骨骼姿勢,模型就能夠生成與該姿勢兼容的合理場景。模型可以生成空場景,也可以生成包含輸入姿勢的人的場景。視覺結果表明,該模型開始學習場景可供性和環境與人類行為之間語義關系的微妙理解。這項研究突顯了生成模型通過在大型的日常人類活動的視覺數據集上進行訓練,理解視覺世界復雜關系的能力。
在第四章,我提出了一種通過教導它們遵循圖像編輯指示,使視覺生成模型對人們更有用的技術。考慮人們如何使用生成模型創建視覺內容的界面是至關重要的,我認為理想的界面,除了讀心術,就是與AI系統交談,就像與有創造力的人類專家交談一樣。我們應該能夠明確地告訴AI模型我們希望它們做什么,并收到一個符合我們請求的有用的輸出。基于這個概念,我將介紹的最后一項工作教導生成模型遵循圖像編輯指示。
基于指示的圖像編輯是一個特別具有挑戰性的任務,因為不像其他圖像預測任務,并不存在大量的示例訓練數據集。雖然有大量的圖像,包括許多帶有對應文本的圖像,但沒有大量的帶有編輯指示和對應的前后圖像的數據集,而收集這樣的數據將會極其昂貴并且難以擴展。我展示的工作的一個關鍵洞察是結合大型語言模型和文本到圖像模型的能力來生成必要的訓練數據。隨著生成模型在產生逼真樣本方面變得越來越強大,它們在為其他模型或專門任務創建訓練數據方面也將變得越來越有用。通過結合兩個在不同模態上訓練的大型生成模型的知識——一個大型語言模型和一個文本到圖像模型——可以為基于指示的圖像編輯創建訓練數據,這是單獨的模型無法完成的任務。雖然訓練數據完全是生成的,但結果模型可以推廣到實際輸入,并為各種圖像和指示生成引人入勝的圖像編輯。教導視覺生成模型遵循指示是使基于AI的內容創建更有用的關鍵一步。在未來,將這些能力擴展到超過單一指示,并使用戶和視覺生成模型之間進行全面交談將是至關重要的。總的來說,這些工作確定了未來視覺生成模型的三個關鍵組成部分:隨時間建模長期模式、從復雜視覺數據中學習和遵循視覺生成指示。在開發執行復雜視覺創作任務、輔助人類創造力和將我們的視覺想象變為現實的人工超智能方面,這三個元素都將是必不可少的。
最近在無監督表示學習方面的進展導致了許多廣泛使用的人工智能工具,如ChatGPT和穩定擴散。這些工具是將相對簡單的訓練算法應用于大規模GPU集群上的大規模模型,甚至是大量未標記的訓練數據,以及在大量標記的評估任務上調整算法的結果。在這篇論文中,我們提出了一些方法來解決在訓練模型進行表示學習時去除這些組件的問題,即有限的計算量、有限的訓練數據和有限的評估數據。本文主要分為四章,重點研究數據和標簽高效的表示學習。
數據高效表示學習的重點是用較少的數據(有標記或無標記)學習有用的表示,這在本文中討論過,對于數據可用性有限的應用特別重要。標記高效表示學習專注于在訓練數據很少或沒有人工標注的情況下學習有用的表示。正如將要討論的,這對于通常很難或不可能獲得準確標記數據的應用程序很重要,例如在隱私敏感領域或具有高度模糊的標簽定義的應用程序。
(1)自增強:用于自監督學習的自動增強策略,探索了如何在很少/沒有標記訓練數據和少量無標記數據的情況下為無監督學習管道開發增強策略。(2)數據高效的自監督表示學習,探索了如何利用一種形式的分層預訓練進行數據高效80倍的預訓練。(3)區域相似性表示學習,通過在區域(基于塊的)水平上進行對比學習,探索了學習區域級表示的首批方法之一,并在標記數據很少的情況下,對目標檢測/分割等下游任務進行了實質性的改進。(4) scale - mae:一種面向多尺度地理空間表示學習的尺度感知掩碼自編碼器,探索了利用已知尺度信息進行地理空間表示學習的方法。
深度學習,特別是神經網絡(NN),在過去十年中受到了極大的歡迎。它們在自動駕駛、醫療診斷和自然語言處理等通常對安全至關重要的決策系統中得到了越來越多的應用。因此,迫切需要一些方法來幫助開發基于人工智能的系統。在這篇論文中,我們研究了可解釋性和不確定性在為基于神經網絡的人工智能應用提供安全保證方面的作用。
我們的第一個貢獻,主要研究基于神經網絡模型的決策,是一種獲得具有可證明的魯棒性和最優性保證的局部解釋的方法,稱為最優魯棒解釋(OREs)。ORE隱含模型預測,為模型決策提供了充分的理由。我們開發了一種提取礦石的算法,該算法使用神經網絡驗證工具Marabou或Neurify作為黑箱求解器。我們展示了ORE在模型開發和安全保證任務中的有用性,如模型調試、偏差評估和修復由非形式解釋者(如anchor)提供的解釋。
我們的第二篇文章關注的是一個自動駕駛場景,該場景由基于Carla模擬器數據訓練的端到端貝葉斯神經網絡(BNN)控制器實現。BNN能夠捕捉學習模型中的不確定性,同時保留神經網絡固有的主要優勢。我們提出了兩種方法來評估在離線和在線設置中存在不確定性的BNN控制器的決策安全性。我們開發了一種技術,在給定的標準下近似整個系統的安全邊界,具有高概率和先驗統計保證。我們最后的貢獻是結合貝葉斯神經網絡的不確定性信息和局部解釋方法的方法集合。展示了如何制定現有特征評分解釋方法的貝葉斯版本,以及礦石的貝葉斯版本,稱為貝葉斯最優魯棒解釋(B-OREs)。我們定義了一個覆蓋解釋,它將由多個BNN后驗樣本產生的信息濃縮為一個單一的解釋,該解釋的可能性是一個隨機樣本的解釋。在貝葉斯最優魯棒覆蓋解釋的情況下,我們獲得了解釋暗示預測的可能性的概率。我們將貝葉斯覆蓋解釋與特征不確定性的概念結合起來,對覆蓋解釋中出現的每個特征進行重要性排序,并表明特征不確定性可以用于提供模型與每個類關聯最多的輸入特征的全局概述。
引言
深度學習,特別是神經網絡(NNs),在過去十年中迅速流行起來。網絡神經網絡在現實世界中越來越普遍,通常是對安全至關重要的決策系統,如自動駕駛、自然語言處理和醫療診斷。因此,人工智能的安全性已經成為一個核心問題,因為我們試圖用可理解的解釋和嚴格的安全保證來補充這種高度準確但不透明的模型。
目前,由于安全保證很少,我們已經看到了錯誤的邊例行為。這種行為的一個顯著例子發生在人工智能系統應用于自動駕駛的過程中。2016年,一輛特斯拉Model S(以自動駕駛模式著稱的汽車品牌和型號)未能在明亮的天空中分辨出一輛白色拖車,導致致命事故[132]。因此,迫切需要能夠準確檢測、分析和診斷這種錯誤行為的方法。
解釋一個決定背后的原因對于確保人工智能的安全同樣重要,在世界上一些地區甚至是法律要求的[24]。例如,圖1.1所示的交通標志。通過對標識進行分類的模型檢查圖像的哪些部分影響決策,人工解釋器可以驗證使用了適當的相關信息(例如,我們可能要求模型基于標識本身而不是可能表明錯誤決策的背景進行分類)。模型開發人員也從解釋中受益,因為解釋有助于模型調試和偏差評估。例如,從推特[43]中提取情緒分析數據集,考慮以下推文:“我真的很想聽一些泰勒斯威夫特的歌,但我找不到CD,我不想在電腦上播放它,CD聽起來更好。”這條推特含有負面情緒,但作為研究的一部分,一個簡單的神經網絡將其歸類為積極情緒。通過檢查分類背后的解釋,我們可以確定積極的分類是否可以完全歸因于流行創作型歌手泰勒·斯威夫特的名字的存在,即這是否是一個有偏見或不合理的決定。
神經網絡的一種變體,稱為貝葉斯神經網絡(BNNs),能夠捕捉學習模型中的不確定性,同時保留神經網絡固有的主要優勢[83]。因此,它們對安全關鍵應用特別有吸引力,如自動駕駛,其中不確定性估計可以通過決策管道傳播,以實現安全決策[85]。直觀地說,如果模型的不確定性很高,我們可能想要更嚴格地檢查它的預測,或者進行干預。例如,一輛自動駕駛汽車在行駛過程中發現路中間有一個障礙。在每個時間步中,控制器可能不確定轉向的角度,為了避免障礙,可以選擇使汽車向右或向左轉彎的角度,其概率相等。BNN控制器能夠指示這種不確定性,不像NN控制器可能會沿著一條直線朝著障礙物擺動(選擇左、右、左等等的結果)。擁有BNN不確定度的精確定量測量有助于發現和解決這種模糊情況。
此外,在面對決策過程中的不確定性時,解釋保持魯棒和有用是很重要的,因為對于非常相似的決策的高度可變的復雜解釋不能為人類解釋器提供良好或有用的反饋。保證對對抗擾動的魯棒性保證了解釋的穩定性,并且可以使用用戶定義的代價函數來收集有用的解釋(以確保得到的解釋是相關的和有用的)。目前,在確保人工智能安全方面,缺乏探索不確定性信息和解釋之間相互作用的技術。
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。
常見的圖像編輯方法側重于低級特征。在本論文中,我利用機器學習使圖像編輯在更高的概念層次上運行。從根本上說,所提出的方法旨在通過結合通用的視覺知識,從可能被編輯的信息中提取出必須在編輯過程中維護的視覺信息。因此,新方法可以以人類可理解的方式轉換圖像,比如將一個物體轉換為另一個物體,將照片程式化到特定藝術家的畫作中,或將日落加到白天拍攝的照片中。我們探索在不同的設置和不同數量的監督設計這樣的方法: 逐像素標簽,逐圖像標簽,和沒有標簽。首先,利用逐像素監督,我提出了一種新的深度神經網絡架構,可以從場景布局和可選目標風格合成逼真的圖像。其次,使用每個圖像監督,我探索了域翻譯的任務,其中一個類的輸入圖像被轉換為另一個類。最后,我設計了一個框架,可以從一組未標記的圖像中發現結構和紋理的分離操作。我們在廣泛的應用中提供令人信服的視覺效果,包括交互式照片繪圖工具、對象變形、虛擬和真實環境之間的域間隙減少,以及圖像紋理的逼真操作