在這篇論文中,我通過三個貢獻呈現了使圖像和視頻生成模型對于一般視覺內容創建具有用處的基本要素。首先,我將介紹關于長視頻生成的研究。這項工作提出了一種網絡架構和訓練范例,使其能夠從視頻中學習長期時間模式,這是將視頻生成從短片推進到更長格式連貫視頻的關鍵挑戰。接下來,我將介紹關于生成基于人體姿勢的場景圖像的研究。這項工作展示了生成模型表示人與其環境之間關系的能力,并強調了從大規模復雜的日常人類活動數據集中學習的重要性。最后,我將提出一種教導生成模型按照圖像編輯指示進行操作的方法,通過結合大型語言模型和文本到圖像模型的能力來創建有監督的訓練數據。遵循指示是一個重要步驟,將使得視覺數據的生成模型對人們更有幫助。總的來說,這些工作推進了生成模型在合成圖像和長視頻方面的能力。 在我攻讀博士學位期間,圖像和視頻生成模型已從小眾展示發展為廣泛采用的創意工具。在這個關鍵時期,我很榮幸能夠研究視覺生成模型,我對未來視覺生成模型的變革潛力和實用性感到樂觀。在這篇論文中,我介紹了三項旨在提高生成模型進行視覺內容創作能力的工作。這些工作概述了制作未來圖像和視頻生成模型,使其更有助于人們完成復雜視覺創作任務所需的關鍵元素。在第二章,我討論了能夠表示長期模式的視頻生成模型的開發。增加生成視頻的時長是改善視覺生成模型的重要方面,這些模型以前主要集中在短視頻片段上。長視頻生成對于AI輔助制作長片等應用至關重要。此外,從長視頻中學習有助于深入理解視覺世界,這對于通用視覺生成模型無比寶貴。在其他模態中增加序列長度,如語言和語音建模,已經顯示出這些模型在緊急能力上的巨大提升。同樣,未來的視覺生成模型可能會處理非常長的視頻,最終解鎖變革性的視覺理解和生成能力。我提出的視頻生成方法采取了朝這個方向邁出的一步,將模型在視頻中的時間視野擴大到比以前的研究更大。長視頻帶來了特殊的挑戰,如隨著時間推移在視頻中出現的新物體和風景的建模,以及維護真實環境所期望的物理一致性。我的工作通過引入一種新的視頻生成對抗網絡(GAN),能夠在有效的時間潛在空間中表示長期模式,并且能夠通過將建模問題分解為在不同的時間和空間規模上操作的兩種互補的生成模型,有效地在長視頻上進行訓練,來解決這些困難問題。
在第三章,我介紹了關于從反映日常人類活動的復雜實際數據中學習的研究。人與物體及其周圍環境之間的互動為我們提供了關于世界的豐富信息。我提出了一種通過條件生成模型學習這些關系的方法。早期的生成模型主要集中在特定的內容類別上,如臉部或特定的物體類別。這項工作將生成模型擴展到建模復雜人類場景的領域。只要提供一個人的輸入骨骼姿勢,模型就能夠生成與該姿勢兼容的合理場景。模型可以生成空場景,也可以生成包含輸入姿勢的人的場景。視覺結果表明,該模型開始學習場景可供性和環境與人類行為之間語義關系的微妙理解。這項研究突顯了生成模型通過在大型的日常人類活動的視覺數據集上進行訓練,理解視覺世界復雜關系的能力。
在第四章,我提出了一種通過教導它們遵循圖像編輯指示,使視覺生成模型對人們更有用的技術。考慮人們如何使用生成模型創建視覺內容的界面是至關重要的,我認為理想的界面,除了讀心術,就是與AI系統交談,就像與有創造力的人類專家交談一樣。我們應該能夠明確地告訴AI模型我們希望它們做什么,并收到一個符合我們請求的有用的輸出。基于這個概念,我將介紹的最后一項工作教導生成模型遵循圖像編輯指示。
基于指示的圖像編輯是一個特別具有挑戰性的任務,因為不像其他圖像預測任務,并不存在大量的示例訓練數據集。雖然有大量的圖像,包括許多帶有對應文本的圖像,但沒有大量的帶有編輯指示和對應的前后圖像的數據集,而收集這樣的數據將會極其昂貴并且難以擴展。我展示的工作的一個關鍵洞察是結合大型語言模型和文本到圖像模型的能力來生成必要的訓練數據。隨著生成模型在產生逼真樣本方面變得越來越強大,它們在為其他模型或專門任務創建訓練數據方面也將變得越來越有用。通過結合兩個在不同模態上訓練的大型生成模型的知識——一個大型語言模型和一個文本到圖像模型——可以為基于指示的圖像編輯創建訓練數據,這是單獨的模型無法完成的任務。雖然訓練數據完全是生成的,但結果模型可以推廣到實際輸入,并為各種圖像和指示生成引人入勝的圖像編輯。教導視覺生成模型遵循指示是使基于AI的內容創建更有用的關鍵一步。在未來,將這些能力擴展到超過單一指示,并使用戶和視覺生成模型之間進行全面交談將是至關重要的。總的來說,這些工作確定了未來視覺生成模型的三個關鍵組成部分:隨時間建模長期模式、從復雜視覺數據中學習和遵循視覺生成指示。在開發執行復雜視覺創作任務、輔助人類創造力和將我們的視覺想象變為現實的人工超智能方面,這三個元素都將是必不可少的。
現如今,從日益增長的數據中提取有用的信息以作出知情決策變得越來越具有挑戰性。盡管深度學習在最近有所進步,但如何有效且可擴展地利用如此龐大的數據去處理各種任務的問題尚未解決。為了解決從數據中進行表示學習的兩個主要方面,即效率和可擴展性,這篇論文介紹了處理各種任務的技術,包括情感分析,手寫識別和文檔智能,這些任務的數據形式各不相同:包括文本,音頻和視頻的多模態數據,噪聲掃描手寫圖像,或者布局不同的長文檔。由于各自數據的可獲得性和可能存在的問題,以及相關任務的明確目標,沒有一種通用的解決方案,而是對每個問題都有特定的方法。另外,為了處理大規模數據,本論文還介紹了一些近似技術和分析方法,用于估計基本組件,學習有效的表示,并加速學習過程,包括使用并行非自適應方法進行矩陣跡近似,高斯過程訓練中的譜近似,以及用于大規模多任務神經機器翻譯模型的基于任務的專家混合模型。在這些工作中,這篇論文介紹了應對數據和任務中出現的問題,學習有效表示,以及為實際可擴展性近似模型的新穎方法。
我們展示了在開發穩定、可擴展和可傳遞的用于視覺數據的生成模型方面的進展。我們首先利用自回歸模型學習表達豐富的圖像先驗知識,這些模型可以生成高質量且多樣化的圖像。然后,我們探索了遷移學習,將視覺表征模型推廣到具有有限可用數據的新數據模態。我們提出了兩種方法,通過從預訓練的判別式視覺模型中提取知識,從稀疏的輸入圖像或自然語言描述生成高質量的3D圖形。我們簡要總結了利用去噪擴散概率模型改善生成質量的工作,并展示了如何將其轉移到新的模態,包括使用分數蒸餾采樣進行高質量的文本到3D合成。最后,我們通過優化矢量圖形渲染器,利用從預訓練的文本到圖像擴散模型中提取的知識,從文本生成2D矢量圖形,而無需矢量圖形數據。我們的模型可以在許多模態下實現高質量的生成,并在隨后的工作中得到廣泛應用。
研究主要集中在三類工作上:(i) 可以擴展學習的高效計算機系統,(ii) 開發更具表達力和穩定性的模型,以便從規模效應中受益,以及 (iii) 能夠使模型推廣到新模態的遷移學習算法。在這篇論文中,我將專注于后兩類工作。
從真實樣本中估計高維分布是機器學習和統計學中一個長期存在的挑戰性問題。這樣的分布估計需要一個模型來捕捉一組變量之間的相互依賴關系,例如隨機向量的各個維度。通過參數化分布估計,幾乎可以在真實世界的數據上實現神奇的效果。當這些分布描述圖像時,這些應用包括無條件圖像生成,例如合成無限的人工數據,基于已知屬性的圖像生成,照片編輯,增強技術,如超分辨率或修復,領域轉換等等。深度生成模型還推動了其他數據模態的進展,包括語音合成、音樂生成和自然語言生成。
在深度生成模型的許多研究中,重點是估計無條件參數分布???? (x),通過與任務無關的樣本質量和似然度量來衡量進展。然而,生成建模的吸引力在于先驗分布????在向下游任務中的靈活性,其中通常可以獲取一些條件信息,如類別標簽??或損壞的觀測值x?。在這些設置中,能夠以較低的計算成本訪問所需的后驗分布(例如???? (x|x?))至關重要。通用的推斷算法在某些情況下可以從所需的后驗中進行采樣,但理想情況下,我們希望能夠準確且高效地對這些后驗進行計算。
我們的整體目標是學習和轉移表達豐富的生成視覺模型到許多領域。我們通過消除生成圖像先驗中的架構限制來解決這個問題,然后通過從大型預訓練模型中轉移知識,降低生成應用的數據需求。首先,在第二章中,我們提出了一種改進的PixelCNN自回歸模型架構,支持對數據維度進行任意條件分布的圖像補全應用。我們修改后的架構,局部掩蔽的PixelCNN,允許在集合中共享參數,從而提高密度估計。然而,自回歸模型是強大的密度估計器,但在小尺度上樣本質量較差,采樣速度慢,并且在條件生成任務上相對不夠靈活。特別是,像PixelCNN這樣的自回歸模型一次只對一個數據維度進行采樣,通常需要進行完整的神經網絡前向傳遞,這是低效的。
在第三章中,我們探索了圖像合成的一個具有挑戰性的應用:新視角合成(NVS)問題。NVS的目標是從新的相機位置插值出場景的稀疏視角。在給定稀疏采樣的觀察視角的情況下,基于神經輻射場的現有方法估計了編碼特定場景幾何和外觀的神經網絡的參數。然后,使用體積渲染生成新視角。在我們的工作中,我們提出了一個輔助損失函數,允許將大型圖像編碼器的先驗知識轉移到視角合成問題中。這使得神經輻射場能夠對未見區域進行外推——這對于生成模型來說是一項重要的能力。使用輔助損失函數來約束場景表示還可以改善視角合成的質量,即使只有1-8個觀察圖像。利用自監督模型的先驗知識是提高生成模型的數據效率、靈活性和可控性的一種有前途的方法。是否需要任何觀察?在第四章中,我們展示了特征空間損失可以用于僅通過標題生成一個3D物體。我們描述了一種名為Dream Fields的方法,通過測試時訓練來合成一個3D神經輻射場。Dream Fields由一個經過正則化的3D表示和一個基于預訓練語言模型和圖像編碼器的特征空間對齊的損失函數優化而成。正則化對于高質量是至關重要的。我們的工作為無需使用任何3D訓練數據的開放領域文本到3D生成鋪平了道路。
DietNeRF和Dream Fields依賴于來自自監督視覺Transformer和對比語言-視覺雙編碼器等判別模型的先驗知識。然而,判別模型不一定能夠完全表示高質量合成所需的所有視覺細節。第五章簡要討論了我們在生成建模方面的兩項工作,使得跨模態生成具有更高保真度成為可能。首先,我們開發了一種新的去噪擴散概率模型(DDPM),它在圖像合成方面實現了最先進的樣本質量。DDPM被證明是一種高度可擴展且穩定的先驗模型,可以直接在不同模態下進行訓練。然而,在不同格式的訓練數據可用量上總會存在差異:當前圖像數據集的規模比最大的3D數據集大幾個數量級。在后續的工作中,我們找到了將擴散模型從其訓練模態中轉移出來的新方法。我們提出了分數蒸餾采樣損失來實現這種轉移能力,并將其首次應用于高質量的文本到3D方法,即Dream Fusion。在擴散模型和分數蒸餾采樣的基礎上,我們在第六章中基于預訓練的文本到圖像擴散模型開發了一種文本到SVG的方法,稱為VectorFusion。VectorFusion展示了生成模型從文本中創建抽象的矢量化圖形的潛力。在整個論文中,我們通過將在數據豐富的模態上學習到的大規模先驗知識與可微分的渲染器相結合,構建了強大的合成工具,這些渲染器表示了為下游任務有用的定制模態。第七章提供了總結思考。
這篇博士論文探索了通過優化體積場景函數使用稀疏輸入視圖合成復雜場景的新視圖。我們的方法將場景表示為神經輻射場(NeRF),這是一個基于5D坐標的密度和輻射場,包括空間位置(x, y, z)和觀察方向(?, )。NeRF使得渲染超越以往技術的逼真的新視圖成為可能,引發了計算機視覺和圖形社區的眾多后續研究和擴展。為了增強NeRFs中高頻細節的表示,我們引入了一種傅里葉特征映射技術,有效地在低維問題域中學習高頻函數,包括NeRF。我們通過標準的元學習算法演示了利用學習到的初始權重參數的好處,導致了坐標基網絡的加速收斂、更強的先驗和改善的泛化。此外,我們通過一種能夠表示任意大場景的提議方法改善了NeRFs的可擴展性。這種方法使得能夠使用在多種環境條件下捕獲的數據進行城市規模的重建。最后,我們介紹了Nerfstudio框架,這是一套為開發和部署基于NeRF的方法而設計的全面的模塊化組件和工具。這個框架賦予了研究者和實踐者實時可視化、流線化的數據管道和導出能力,促進了NeRFs的民主化,并擴大了它們在研究環境之外的影響。隨著它們改變計算機圖形、虛擬現實、增強現實和其他領域的潛力,NeRFs有望革新我們感知和互動的數字世界的方式。
我們在實踐中部署高性能神經網絡時面臨許多挑戰。這些挑戰主要是由于神經網絡的規模,既適用于訓練也適用于推理。因此,壓縮神經網絡以使其訓練和運行更高效至關重要,并自神經網絡發展初期以來一直是研究的平行方向。深度學習中的兩種主要壓縮技術是剪枝和量化,它們是本論文的重點。本論文探討了如何利用高階梯度(元梯度)的信息來改進深度學習壓縮。我們首先發現剪枝公式中的一個根本性限制:盡管許多方法(如基于顯著性的剪枝)在剪枝后進行訓練或微調階段,但參數顯著性只關注參數的一個快照,而沒有考慮到參數的可訓練性。我們展示了如何使用元梯度作為更具信息量的信號,在初始化時找到更好的可訓練子網絡。接下來,我們研究量化神經網絡,并展示了如何在正則化方案中使用元梯度來學習具有對訓練后量化固有魯棒性的模型。最后,我們研究雙重壓縮問題,即使用神經網絡壓縮數據源。我們從圖像開始,提出了一種簡單的無自編碼器架構,其中我們存儲神經網絡的權重而非圖像像素的RGB值。然后,我們使用元梯度來元學習一個基礎網絡,以攤銷每個輸入訓練一個網絡的成本。我們學習壓縮的一個顯著優勢是它變得對數據類型不可知,并且我們展示了在2D圖像之外的各種數據類型上的結果。重要的是,我們評估了標準DNN壓縮技術(如量化)在這種新型神經網絡中的實用性。
1. 引言
近年來,深度學習的成功是由于幾個幾乎同時發生的突破和范式轉變而成為可能:訓練中采用反向傳播,卷積神經網絡的進步,大規模數據集的可用性,至關重要的是,由于GPU演變為通用、高度并行、多線程的計算平臺,計算能力的大幅提高。隨著算法和計算能力的不斷進步,訓練可以利用大量數據并在廣泛應用中做出非常有價值的預測的大型神經網絡現在已經是我們力所能及的事情。
然而,隨著我們進入一個希望在生活中越來越多的方面使用高性能神經網絡的時代,在實踐中部署它們面臨許多挑戰。這些挑戰主要是由于神經網絡的規模。現在,神經網絡很容易擁有數百萬或數十億個參數,并且沒有跡象表明我們的速度正在放緩,特別是在一些應用程序,如自然語言處理,我們還沒有看到縮放定律的結束。這可以在圖1.1中看到,它顯示了在兩個特定的視覺和自然語言處理任務中模型大小和性能的趨勢。 神經網絡的規模帶來的挑戰適用于訓練和推理。在推理方面,人們越來越希望在設備上私下運行模型。一些示例應用程序是語音到文本識別和自動字幕,其中模型必須在設備上實時運行。需要運行此類應用程序的設備通常是手機、嵌入式系統和物聯網設備,這些正是在內存、計算、延遲和能耗方面具有最嚴格要求的平臺類型。 除了推理之外,訓練也會受到神經網絡和數據集規模較大的阻礙。首先,與推理相比,訓練需要更多的內存。這是因為在訓練過程中,我們需要保留網絡生成的中間值,以便完成反向傳播。這也使得并行化變得困難,因為我們無法進行新的前向傳遞,直到梯度找到它們自己的路回到第一層。其次,訓練大型神經網絡比較小的模型更脆弱和不穩定。Zhang et al.(2022)最近發布了一個1750億參數的語言模型,除了模型參數,他們還包括訓練日志,這表明訓練如此大的模型涉及大量的工程。我們將在后續章節中看到,這對需要重新培訓或針對特定平臺的高效方法具有深遠影響。
因此,壓縮神經網絡以使其更有效地訓練和運行是至關重要的,自神經網絡發展早期以來一直是一個平行的研究方向(LeCun等人,1990a;Hassibi等人,1993b)。在介紹各種用于提高神經網絡效率的方法之前,有必要快速回顧一下在這個過程中我們關心的主要指標(Reagen等人,2017;Sze等人,2020):
準確性或模型性能。這個指標決定了我們在不影響模型性能的情況下提高模型效率的成功程度。準確率對于類平衡分類任務來說是一個合適的度量指標,本文中的大多數實驗都是這樣的,在其他任務中,準確率可以用其他指標來代替,以提高模型的性能。
能耗和動力。能耗指的是每單位能量可以處理的數據量,在使用電池供電的設備上運行時,能耗變得至關重要。它是決定裝置形狀因素的一個主要因素。另一方面,功率消耗是單位時間內消耗的能量,它決定了設備的冷卻要求。它與移動設備和服務器安裝都相關。
存儲和內存。需要更多的存儲和內存是神經網絡規模帶來的第一個挑戰。它是決定模型所需硅芯片面積的一個主要因素。
吞吐量和延遲;除了存儲權重和中間值之外,我們還需要足夠快地移動數據。延遲衡量的是這個要求,定義為從輸入數據到達模型到輸出結果的時間。它決定了模型是否可以實時運行,這在許多應用中至關重要,如機器人,自動駕駛和游戲。
要使神經網絡對這些指標有效,需要在每個堆棧級別進行優化。棧的一端是用于訓練和運行模型的硬件平臺。半導體制造工藝的不斷進步導致了更密集的晶體管,從而產生了更強大和更節能的芯片,但深度學習工作負載尤其影響了CPU和GPU的硬件設計,并產生了專門針對神經網絡的定制加速器。
本文的主要貢獻是研究了元梯度在各種壓縮任務中的應用。本文主要關注視覺應用中的神經網絡,并解決以下中心問題: 高階梯度的信息可以通過量化和修剪來改進深度神經網絡的壓縮嗎? 除了研究神經網絡的壓縮外,我們還研究了對偶壓縮問題,即用神經網絡壓縮數據,并解決以下問題:神經網絡的參數可以用于存儲和壓縮數據嗎?如果是,量化和剪枝技術是否仍然適用于此設置?
除了提供必要背景材料的第2章和總結工作的第6章外,本文的主要材料分為三章(如圖1.2所示),每一章都專注于一個壓縮任務。
標準流和擴散模型是深度生成模型中代表性方法,阿姆斯特丹大學Emiel Hoogeboom博士論文《離散數據和幾何數據的標準流和擴散模型》,詳細闡述了兩種生成模型在離散幾何數據上的應用。
**作者:**Emiel Hoogeboom
**Emiel Hoogeboom是阿姆斯特丹大學的一名博士生,**導師是Max Welling。
**《離散數據和幾何數據的標準流和擴散模型》 **
**深度生成模型正變得越來越流行和有影響力。這項技術的應用范圍很廣,從照片編輯、語音合成到藥物發現。**本文分析并改進了兩種類型的生成模型的靈活性:標準流和擴散模型。具體來說,在本文的第一部分中,我們的目標是通過發明構建可逆卷積層的新方法,使標準流更具表現力。從線性代數和傅里葉分析可以看出,可以選擇不同的結構。 此外,我們探索了為離散空間定義標準流和擴散模型的方法。我們找到了可以成功優化的新模型配方。這些新模型的某些變體有一個實用的副產品:它們可以有效地應用于無損壓縮。此外,我們將看到這些新的離散擴散模型之一連接了許多著名的生成模型。它彌合了離散擴散、自回歸模型和掩碼語言模型之間的差距。最后,設計了一種用于三維分子生成的標準流和擴散模型。為了模擬離散的原子類型,我們將結合我們的新技術來操作離散空間。此外,由于分子生活在物理空間中,我們將證明考慮位置信息的歐氏對稱性是很重要的。
1. 引言
**深度學習范式已經改變了多個領域,目前正在許多科學領域進行探索。可以說,這一成功始于ImageNet競賽,其中一個模型將圖像作為輸入,并需要預測該圖像屬于1000個類別中的哪個類別,例如“考拉”,“河鲀”和“烤面包機”。**讓變量x指向一個圖像,例如,一個向量,其中每個元素代表一個像素值。從概率的角度來看,這項任務可以框架為給定圖像x對特定類別y的概率進行建模,簡而言之:p(y|x)是什么?2012年,深度卷積網絡[104]的表現超過了其非基于深度學習的方法。此外,從那一刻起,接下來的每一年也都是通過深度學習方法獲勝。從那時起,深度學習已經超越圖像應用于不同類型的數據,如音頻、視頻、文本、圖形和分子。除了越來越多的數據源,需要在這些數據上學習的任務也變得越來越具有挑戰性。其中一個基本任務是生成模型,以創建看似來自給定數據的相同分布的數據。從概率的角度來看,生成模型旨在學習分布p(x),從中我們可以提取樣本x?p(x)以生成新數據。使建模p(x)比建模p(y|x)困難得多的關鍵因素是x的高維性,而y是一維的。事實證明,在高維變量上指定靈活的分布是非常困難的。
生成模型是非常基本的,它們的原理出現在許多應用中,對于這些應用來說,它們共享的許多特征可能并不明顯。生成模型目前正在公司中用于語言翻譯、圖像超分辨率、材料發現、照片編輯、視頻特效、文本音頻和虛擬助手。由于高維建模的固有難度,存在許多不同類型的生成模型。目前,它們可以大致量化為六類:自回歸模型(ARMs)、變分自編碼器(vae)、生成對抗網絡(GANs)、標準化流(NFs)、基于能量的模型(EBMs)和(基于分數的)擴散模型。
**本文研究了在各種環境下的兩個生成模型:標準流和擴散模型。**標準流之所以有吸引力,是因為它們可以計算精確的可能性,而不是依賴于下限。這個特性源于變量替換公式的使用。擴散模型特別有趣,因為它們在訓練規模期間的計算成本與其他生成模型相比具有優勢:以前對于VAE來說需要一個大型集群,但可以在單個GPU上訓練具有同等質量的擴散模型。盡管存在這些差異,但隨著研究的進展,這些模型之間的聯系越來越多。通常,模型類的優缺點不僅取決于它們所屬的類,還取決于所使用的特定實現和體系結構。
研究問題1:如何構建可逆卷積層來標準化流?
標準化流的一個大問題是找到可驗證可逆的變換,并且可以高效地計算雅可比行列式。對于全連接矩陣乘法,一個選擇是學習矩陣分解。然而,深度學習架構通常通過參數共享來表現良好,例如在卷積層中。對于這些層,沒有已知的分解。在第4章中,我們將探索構建線性卷積流的方法,這些方法可以用作標準化流的構建模塊,以提高其靈活性和性能。本文提出三種變體,它們都有各自的優點和缺點:基于三角卷積分解的新興卷積,基于傅里葉變換的周期卷積,以及基于矩陣指數的卷積指數。所有提出的方法都優于現有方法。
研究問題2:如何定義離散變量的標準化流?
標準化流通常是針對連續變量定義的,因為它們依賴于變量變化公式。這可能會帶來問題,因為許多數據源是離散的(或離散化的),例如8位圖像、音頻、視頻和文本。在第5章中,我們提出了新的標準化流來處理離散數據,包括整數值和類別數據:整數離散流和Argmax流。與現有方法相比,這些模型是有競爭力的,并允許對離散變量模型的新見解。此外,整數流是無損壓縮的自然模型,甚至可以輕松地針對特定類型的數據進行調整。
研究問題3: 如何用離散潛空間定義擴散模型?
擴散模型與標準化流有類似的問題:它們通常用連續隱空間定義,對整數數據可以很好地工作,但對文本等分類數據就不行了。在第6章中,我們將探索直接在離散空間中定義的新擴散模型,為用擴散模型建模類別數據開辟了可能性。它們是離散擴散模型和自回歸模型之間的深度聯系,通過順序不可知的自回歸模型。提出了兩種新的擴散方法:多項擴散和自回歸擴散模型。有趣的是,最后一種模型也是無損壓縮的自然模型。
研究問題4: 我們如何創建一個強大的生成模型來生成3D分子?
分子生活在物理3D空間中,服從歐氏對稱性,這意味著它們的全局方向和平移不會影響分子的含義。理想情況下,此類數據的生成模型不應該受到方向或轉換的變化的影響。簡而言之,我們希望模型是等變的(或在某些情況下不變)。在第7章中,我們將介紹兩個生成模型,它們與上述來自數學群E(3)的歐氏對稱性等變。首先引入了E(3)等變歸一化流(E- nfs),該流能夠生成具有高穩定性的分子。用E(3)等變擴散模型(EDMs)改進了E- nfs,該模型更容易擴展,因此生成的分子更穩定。
盡管數據規模在增長,但我們希望將學習算法的許多應用都受到數據數量和質量的限制。生成模型提出了一個框架,可以自然地將先驗信念與現實世界的數據結合起來。生成式方法的核心是概率推理的挑戰,或估計給定觀測的潛變量。這一挑戰催生了涵蓋多種統計技術的豐富研究領域。最近,深度學習方法被用來解決推理查詢,被恰當地命名為深度推理。在我的論文中,我將探索深度推理的擴展,以應對現實世界的稀疏性和效率的挑戰。我將介紹實際應用的案例研究,其中深度推理在以前的工作上取得了相當大的改進。
本文主要圍繞三個部分展開。我們介紹了生成模型和深度推理的背景,重點是現代變分方法。第一部分將提出新的泛化推理算法,以對不同的稀疏性概念(如多模態數據、缺失數據或計算約束)具有魯棒性。其次,我們研究了元平攤推理,或“推斷如何推斷”。一種雙平攤推理算法將能夠廉價地解決一個新的生成模型的推理查詢。我們將展示一種新的算法來重新利用掩碼語言建模來實現這一點。
第三,我們提出了深度推理在教育中的兩個現實應用:(a)在項目反應理論和相關心理測量模型下估計學生的能力,(b)為學生學習解決編程問題推理教育反饋。總之,這些貢獻展示了深度推理在教育中的豐富性和實用性,以及在現實世界中更廣泛的應用。
深度學習推動了應用的爆炸式增長,然而訓練深度神經網絡通常需要昂貴的人工注釋。在這篇論文中,我們探索了在訓練深度神經網絡時避免大量依賴人工注釋示例的替代方案。具體來說,要么采用自監督方法來自動糾正自由獲得的數據標簽,要么完全放棄使用人工標簽,而是利用音頻和視覺信息的自然共生來學習視頻中的對象表示。越來越多的數字數據通常會提供噪聲標簽,這些標簽可以用來監督學習過程。傳統的數據預處理包括在訓練識別模型之前糾正/清理數據,但這可能需要大量的人工工作。我們考慮自動更正注釋噪聲,從而避免了昂貴的手動注釋的需要。我們構建和擴展了最近的突破,使用一致性損失(consistency loss)和空間記憶映射(space memory map)來提供靈活的實例級注冊,從而實現更大的泛化。進一步探索了多模態感覺流,利用模態冗余,即模態之間的重疊信息,為模型提供自監督。表示是通過利用不同的模式來學習的,而不使用任何人類注釋的標簽。我們將使用三個不同的應用程序演示此技術。
首先,我們自動管理一個大型音頻數據集VGG-Sound,使用視覺引導收集了超過200k的視頻,并在此基礎上進行訓練,生成最先進的音頻識別模型。其次,我們提出了一種改進和擴展最近聲源定位技術的方法,通過引入一種機制來挖掘硬樣本并自動將其添加到對比學習公式中。最后,與在一個特定領域執行的現有視聽同步任務不同,我們建議通過探索使用幾種基于transformer的體系結構來解決開放世界設置中的同步問題。通過這些模型,我們在具有挑戰性的語音數據集中獲得了最先進的結果,并在一般聲音數據集中顯示了出色的泛化效果。
視覺感知和語言理解是人類智能的基本組成部分,使他們能夠理解和推理物體及其相互作用。對于機器來說,使用這兩種模式來創造新的機器人-人類協作系統的推理能力是至關重要的。深度學習的最新進展已經建立了視覺場景和語言的獨立復雜表示。然而,在共享的上下文中理解兩種模態之間的關聯以進行多模態推理仍然是一個挑戰。本文以語言和視覺模態為重點,推進了對如何利用神經網絡開發和使用視覺-語言任務的關鍵方面來支持推理的理解。這些貢獻包括:(i)從動態視覺場景中選擇內容和構建時間關系以響應語言查詢的有效機制,并為推理過程準備足夠的知識(ii)利用視覺-語言關聯(直接從數據推導或由外部先驗引導)用神經網絡進行推理的新框架。 在第一項工作中,本文提出一種新的雙過程神經架構,類似于人類視頻問答(視頻QA)推理系統中的雙過程。它由一個快速和反應的問題引導視頻處理模塊(系統1)和一個緩慢和深思的通用推理模塊(系統2)組成。快速系統是一個層次模型,在給定問題的文本線索的情況下,編碼關于對象、動作和時空關系的視覺模式。編碼的表示是一組高級的視覺特征,然后傳遞給緩慢的、深思熟慮的系統。多步推理用于根據文本元素的需要迭代地鏈接視覺元素。該系統在主要的大規模視頻QA基準上進行了評估,顯示了有競爭力的結果,在多步驟推理的情況下有很大的優勢。
常見的圖像編輯方法側重于低級特征。在本論文中,我利用機器學習使圖像編輯在更高的概念層次上運行。從根本上說,所提出的方法旨在通過結合通用的視覺知識,從可能被編輯的信息中提取出必須在編輯過程中維護的視覺信息。因此,新方法可以以人類可理解的方式轉換圖像,比如將一個物體轉換為另一個物體,將照片程式化到特定藝術家的畫作中,或將日落加到白天拍攝的照片中。我們探索在不同的設置和不同數量的監督設計這樣的方法: 逐像素標簽,逐圖像標簽,和沒有標簽。首先,利用逐像素監督,我提出了一種新的深度神經網絡架構,可以從場景布局和可選目標風格合成逼真的圖像。其次,使用每個圖像監督,我探索了域翻譯的任務,其中一個類的輸入圖像被轉換為另一個類。最后,我設計了一個框架,可以從一組未標記的圖像中發現結構和紋理的分離操作。我們在廣泛的應用中提供令人信服的視覺效果,包括交互式照片繪圖工具、對象變形、虛擬和真實環境之間的域間隙減少,以及圖像紋理的逼真操作