從壓縮相機到弱光攝影,許多計算成像系統的一個關鍵方面是用于從編碼或噪聲測量中發現信號的算法。一些計算相機將高維信息(例如不同波長的光、3D、時間)編碼到二維傳感器上,然后使用算法解碼和恢復這種高維信息。另一些捕獲的測量值極具噪聲或退化,需要算法來提取信號并使圖像可供人們使用,或供更高級別的下游算法使用。在每種情況下,用于解碼和從原始測量中提取信息的算法對于使計算攝像機發揮作用至關重要和必要。多年來,從計算攝像機中恢復信息的主要方法,經典方法都是基于最小化由數據項和精心挑選的先驗項組成的優化問題。最近,深度學習已被應用于這些問題,但往往無法納入已知的光學特性,需要大型訓練數據集,并導致無法輕松解釋的黑盒模型。本文提出基于物理信息的機器學習的計算成像,這是一種將經典方法的元素與深度學習相結合的中間方法。本文展示了如何將成像系統物理學的知識納入神經網絡,以提高圖像質量和性能,超出幾個計算相機的經典或深度方法的可行性。本文展示了幾種將成像物理納入神經網絡的不同方法,包括算法展開、可微光學模型、無監督方法以及通過生成式對抗網絡。對于這些方法中的每一種,都專注于具有獨特挑戰和建模考慮的不同計算相機。引入了一個展開的、基于物理的網絡,提高了無鏡頭相機的質量和重建時間,改善了這些相機,并在各種場景中顯示出逼真的圖像質量。在此基礎上,本文展示了一種新的重建網絡,可以將具有空間變化模糊度的壓縮單次3D顯微鏡的重建時間提高1600倍,從而實現場景的交互式預覽。在難以獲得訓練數據的情況下,未經訓練的物理信息網絡可以提高壓縮單次視頻和高光譜成像的圖像質量,而不需要訓練數據。設計了一種物理信息噪聲發生器,可以在極高增益、低照度設置下真實地合成噪聲。使用這個學習到的噪聲模型,我們展示了如何推動相機超過其典型的極限,并首次在星光級別的照明下拍攝逼真的視頻。每個案例都強調了使用基于物理學的機器學習如何改善計算相機并將其推向極限。
我們展示了在開發穩定、可擴展和可傳遞的用于視覺數據的生成模型方面的進展。我們首先利用自回歸模型學習表達豐富的圖像先驗知識,這些模型可以生成高質量且多樣化的圖像。然后,我們探索了遷移學習,將視覺表征模型推廣到具有有限可用數據的新數據模態。我們提出了兩種方法,通過從預訓練的判別式視覺模型中提取知識,從稀疏的輸入圖像或自然語言描述生成高質量的3D圖形。我們簡要總結了利用去噪擴散概率模型改善生成質量的工作,并展示了如何將其轉移到新的模態,包括使用分數蒸餾采樣進行高質量的文本到3D合成。最后,我們通過優化矢量圖形渲染器,利用從預訓練的文本到圖像擴散模型中提取的知識,從文本生成2D矢量圖形,而無需矢量圖形數據。我們的模型可以在許多模態下實現高質量的生成,并在隨后的工作中得到廣泛應用。
研究主要集中在三類工作上:(i) 可以擴展學習的高效計算機系統,(ii) 開發更具表達力和穩定性的模型,以便從規模效應中受益,以及 (iii) 能夠使模型推廣到新模態的遷移學習算法。在這篇論文中,我將專注于后兩類工作。
從真實樣本中估計高維分布是機器學習和統計學中一個長期存在的挑戰性問題。這樣的分布估計需要一個模型來捕捉一組變量之間的相互依賴關系,例如隨機向量的各個維度。通過參數化分布估計,幾乎可以在真實世界的數據上實現神奇的效果。當這些分布描述圖像時,這些應用包括無條件圖像生成,例如合成無限的人工數據,基于已知屬性的圖像生成,照片編輯,增強技術,如超分辨率或修復,領域轉換等等。深度生成模型還推動了其他數據模態的進展,包括語音合成、音樂生成和自然語言生成。
在深度生成模型的許多研究中,重點是估計無條件參數分布???? (x),通過與任務無關的樣本質量和似然度量來衡量進展。然而,生成建模的吸引力在于先驗分布????在向下游任務中的靈活性,其中通常可以獲取一些條件信息,如類別標簽??或損壞的觀測值x?。在這些設置中,能夠以較低的計算成本訪問所需的后驗分布(例如???? (x|x?))至關重要。通用的推斷算法在某些情況下可以從所需的后驗中進行采樣,但理想情況下,我們希望能夠準確且高效地對這些后驗進行計算。
我們的整體目標是學習和轉移表達豐富的生成視覺模型到許多領域。我們通過消除生成圖像先驗中的架構限制來解決這個問題,然后通過從大型預訓練模型中轉移知識,降低生成應用的數據需求。首先,在第二章中,我們提出了一種改進的PixelCNN自回歸模型架構,支持對數據維度進行任意條件分布的圖像補全應用。我們修改后的架構,局部掩蔽的PixelCNN,允許在集合中共享參數,從而提高密度估計。然而,自回歸模型是強大的密度估計器,但在小尺度上樣本質量較差,采樣速度慢,并且在條件生成任務上相對不夠靈活。特別是,像PixelCNN這樣的自回歸模型一次只對一個數據維度進行采樣,通常需要進行完整的神經網絡前向傳遞,這是低效的。
在第三章中,我們探索了圖像合成的一個具有挑戰性的應用:新視角合成(NVS)問題。NVS的目標是從新的相機位置插值出場景的稀疏視角。在給定稀疏采樣的觀察視角的情況下,基于神經輻射場的現有方法估計了編碼特定場景幾何和外觀的神經網絡的參數。然后,使用體積渲染生成新視角。在我們的工作中,我們提出了一個輔助損失函數,允許將大型圖像編碼器的先驗知識轉移到視角合成問題中。這使得神經輻射場能夠對未見區域進行外推——這對于生成模型來說是一項重要的能力。使用輔助損失函數來約束場景表示還可以改善視角合成的質量,即使只有1-8個觀察圖像。利用自監督模型的先驗知識是提高生成模型的數據效率、靈活性和可控性的一種有前途的方法。是否需要任何觀察?在第四章中,我們展示了特征空間損失可以用于僅通過標題生成一個3D物體。我們描述了一種名為Dream Fields的方法,通過測試時訓練來合成一個3D神經輻射場。Dream Fields由一個經過正則化的3D表示和一個基于預訓練語言模型和圖像編碼器的特征空間對齊的損失函數優化而成。正則化對于高質量是至關重要的。我們的工作為無需使用任何3D訓練數據的開放領域文本到3D生成鋪平了道路。
DietNeRF和Dream Fields依賴于來自自監督視覺Transformer和對比語言-視覺雙編碼器等判別模型的先驗知識。然而,判別模型不一定能夠完全表示高質量合成所需的所有視覺細節。第五章簡要討論了我們在生成建模方面的兩項工作,使得跨模態生成具有更高保真度成為可能。首先,我們開發了一種新的去噪擴散概率模型(DDPM),它在圖像合成方面實現了最先進的樣本質量。DDPM被證明是一種高度可擴展且穩定的先驗模型,可以直接在不同模態下進行訓練。然而,在不同格式的訓練數據可用量上總會存在差異:當前圖像數據集的規模比最大的3D數據集大幾個數量級。在后續的工作中,我們找到了將擴散模型從其訓練模態中轉移出來的新方法。我們提出了分數蒸餾采樣損失來實現這種轉移能力,并將其首次應用于高質量的文本到3D方法,即Dream Fusion。在擴散模型和分數蒸餾采樣的基礎上,我們在第六章中基于預訓練的文本到圖像擴散模型開發了一種文本到SVG的方法,稱為VectorFusion。VectorFusion展示了生成模型從文本中創建抽象的矢量化圖形的潛力。在整個論文中,我們通過將在數據豐富的模態上學習到的大規模先驗知識與可微分的渲染器相結合,構建了強大的合成工具,這些渲染器表示了為下游任務有用的定制模態。第七章提供了總結思考。
這篇博士論文探索了通過優化體積場景函數使用稀疏輸入視圖合成復雜場景的新視圖。我們的方法將場景表示為神經輻射場(NeRF),這是一個基于5D坐標的密度和輻射場,包括空間位置(x, y, z)和觀察方向(?, )。NeRF使得渲染超越以往技術的逼真的新視圖成為可能,引發了計算機視覺和圖形社區的眾多后續研究和擴展。為了增強NeRFs中高頻細節的表示,我們引入了一種傅里葉特征映射技術,有效地在低維問題域中學習高頻函數,包括NeRF。我們通過標準的元學習算法演示了利用學習到的初始權重參數的好處,導致了坐標基網絡的加速收斂、更強的先驗和改善的泛化。此外,我們通過一種能夠表示任意大場景的提議方法改善了NeRFs的可擴展性。這種方法使得能夠使用在多種環境條件下捕獲的數據進行城市規模的重建。最后,我們介紹了Nerfstudio框架,這是一套為開發和部署基于NeRF的方法而設計的全面的模塊化組件和工具。這個框架賦予了研究者和實踐者實時可視化、流線化的數據管道和導出能力,促進了NeRFs的民主化,并擴大了它們在研究環境之外的影響。隨著它們改變計算機圖形、虛擬現實、增強現實和其他領域的潛力,NeRFs有望革新我們感知和互動的數字世界的方式。
利用有限的數據進行學習是深度學習的最大問題之一。目前,解決這個問題的流行方法是在大量數據上訓練模型,無論是否標記,然后在同一模態的感興趣的較小數據集上重新訓練模型。直觀地說,這種技術允許模型首先學習某種數據(如圖像)的一般表示。然后,學習這種特定模態的特定任務應該需要更少的數據。雖然這種被稱為“遷移學習”的方法在計算機視覺或自然語言處理等領域非常有效,但它不能解決深度學習的常見問題,如模型可解釋性或對數據的總體需求。本文探索了在數據約束設置中學習表達模型問題的不同答案。我們不再依賴大數據集來學習神經網絡的參數,而是用反映數據結構的已知函數來代替其中的一些參數。這些函數通常都是從內核方法的豐富文獻中提取出來的。實際上,許多核函數都可以解釋,并且/或允許使用少量數據進行學習。所提出方法屬于"歸納偏差"的范疇,可以定義為對手頭數據的假設,限制了學習過程中模型探索的空間。在本文的前兩章中,我們在序列(如自然語言中的句子或蛋白質序列)和圖(如分子)的上下文中證明了該方法的有效性。本文還強調了工作與深度學習最新進展之間的關系。本文的最后一章重點研究凸機器學習模型。這里,我們不是提出新的模型,而是想知道學習一個“好的”模型真正需要數據集中的哪些樣本比例。更準確地說,研究了安全樣本篩選的問題,即在擬合機器學習模型之前,執行簡單測試以丟棄數據集中沒有信息的樣本,而不影響最優模型。此類技術可用于壓縮數據集或挖掘稀有樣本。
**人類通過被動觀察和主動互動來學習世界的心理模型,從而在環境中導航。他們的世界模型允許他們預測接下來可能發生的事情,并根據潛在的目標采取相應的行動。**這樣的世界模型在自動駕駛等復雜環境的規劃方面具有強大的前景。人類司機或自動駕駛系統用眼睛或相機感知周圍環境。他們推斷出世界的一種內部表示應該:(i)具有空間記憶(例如遮擋),(ii)填充部分可觀測或有噪聲的輸入(例如被陽光蒙蔽時),以及(iii)能夠概率地推理不可觀測的事件(例如預測不同的可能的未來)。它們是具身的智能體,可以通過其世界模型在物理世界中預測、計劃和行動。本文提出一個通用框架,從攝像機觀察和專家演示中訓練世界模型和策略,由深度神經網絡參數化。利用幾何、語義和運動等重要的計算機視覺概念,將世界模型擴展到復雜的城市駕駛場景。**在我們的框架中,我們推導了這種主動推理設置的概率模型,其目標是推斷解釋主動代理的觀察和行動的潛在動力學。**我們通過確保模型預測準確的重建以及合理的操作和過渡來優化日志證據的下界。首先,我們提出了一個模型,預測計算機視覺中的重要量:深度、語義分割和光流。然后,我們使用三維幾何作為歸納偏差在鳥瞰空間中操作。我們首次提出了一個模型,可以從360?環繞單目攝像機鳥瞰動態代理的概率未來軌跡。最后,我們展示了在閉環駕駛中學習世界模型的好處。我們的模型可以聯合預測城市駕駛環境中的靜態場景、動態場景和自我行為。我們表明,學習世界模型和駕駛策略可以生成超過1小時的預測(比訓練序列大小長2000倍)。
雖然深度學習已經成功地應用于計算機圖形學和視覺的許多任務,但標準的學習架構通常是基于密集和規則的形狀表示,如像素或體素網格。另一方面,幾十年的計算機圖形學和幾何處理研究已經產生了專門的算法和工具,這些算法和工具使用沒有這種規則結構的表示。在這篇論文中,我們回顧了幾何圖形中的傳統方法,提出了深度學習流程和歸納偏差,這些深度學習流程和歸納偏差可以直接兼容常見的幾何表示,而不依賴于簡單的統一結構。
在過去的十年中,硬件的發展、訓練數據的大規模可用性和算法的進步推動了深度學習在各種應用中的成功。神經網絡廣泛地能夠處理不完整、混亂和模糊的輸入,產生有用的和一致的輸出。計算機圖形學和視覺也不例外,深度學習的普及,數據驅動的方法現在已經成為許多任務的標準。在這些領域中,最富有成效的深度學習架構是卷積神經網絡(CNN)。如今,CNN在圖像分類、分割,目標檢測和圖像到圖像的轉換。然而,CNN對柵格表示(例如,圖1-1中的像素和體素網格)進行操作。網格結構是卷積的基本組成部分,是信息在網絡層之間和像素之間傳遞的一種機制。這種結構被用來優化GPU硬件性能,許多現成的數據集由像素或體素網格格式的示例組成。
由于各種原因,柵格表示很容易使用。它們與相機傳感器、屏幕等標準輸入輸出設備兼容,構成了表現不同結構和拓撲結構的多樣視覺內容的有效手段。因此,CNN利用合理的歸納偏差,以簡單的歐拉方式處理數據,將固定操作應用到密集的網格。另一方面,拉格朗日表示使用隨形狀移動的稀疏參數集,即控制點來表示幾何形狀。這種表示具有明顯的優勢。通過將形狀表示為基元的集合,我們可以輕松地應用轉換并以任意分辨率呈現,同時只存儲稀疏表示。此外,參數表示對于高級推理是有效的,例如發現公共底層結構和估計形狀之間的對應關系,促進檢索、探索和樣式/結構轉移的工具。它們可以用傳統軟件直觀地編輯,與分辨率無關,并且可以高效地存儲。
許多工具、算法和數學框架已經被開發出來,用于編寫、操作和分析此類拉格朗日內容。藝術家、工程師和動畫師使用標準的CAD和3D建模軟件。模擬依賴于使用網格的有限元分析。然而,通過將與我們的機器學習方法兼容的形狀模式限制在歐拉網格中,我們放棄了這些成熟工具的許多見解和技術。
在這篇論文中,我們提出設計深度學習算法。我們沒有將標準架構、損失函數和訓練算法視為理所當然,從而接受各自的輸入和輸出形狀模式,而是考慮了比像素更豐富、更適合應用的其他幾何原子單位。這種范式的轉變促使我們對傳統方法和應用進行現代化改造,這些方法和應用先于深度學習。特別是,我們借鑒了度量幾何、幾何測量理論、譜幾何和動畫等領域的思想,開發了自定義尾損失函數、架構和培訓管道,使深度學習成為處理視覺數據的從業者更有用的工具。
在這篇論文中,我們提出了深度學習架構、訓練程序和算法,使在可視化數據數據集上訓練神經網絡成為可能,這些數據的格式使用起來直觀,并兼容常見的下游任務和應用,如設計、建模、仿真和渲染。在第二章中,我們描述了一種基于三角形網格的編碼器,借鑒了譜幾何的思想。在第三章中,我們考慮了兩種方法,受度量幾何的啟發,來產生參數化定義的形狀,比如CAD模型。第四章介紹了一種混合形狀表示,它結合了顯式幾何的優點和隱式幾何的優點。最后,在第5章中,我們提出了一種自監督的方法來學習圖像集合的直觀分解,例如,動畫或視頻游戲的幀,這允許使用學習到的紋理塊作為幾何基元進行高級操作。我們在圖1-2中說明了我們的貢獻。
常見的圖像編輯方法側重于低級特征。在本論文中,我利用機器學習使圖像編輯在更高的概念層次上運行。從根本上說,所提出的方法旨在通過結合通用的視覺知識,從可能被編輯的信息中提取出必須在編輯過程中維護的視覺信息。因此,新方法可以以人類可理解的方式轉換圖像,比如將一個物體轉換為另一個物體,將照片程式化到特定藝術家的畫作中,或將日落加到白天拍攝的照片中。我們探索在不同的設置和不同數量的監督設計這樣的方法: 逐像素標簽,逐圖像標簽,和沒有標簽。首先,利用逐像素監督,我提出了一種新的深度神經網絡架構,可以從場景布局和可選目標風格合成逼真的圖像。其次,使用每個圖像監督,我探索了域翻譯的任務,其中一個類的輸入圖像被轉換為另一個類。最后,我設計了一個框架,可以從一組未標記的圖像中發現結構和紋理的分離操作。我們在廣泛的應用中提供令人信服的視覺效果,包括交互式照片繪圖工具、對象變形、虛擬和真實環境之間的域間隙減少,以及圖像紋理的逼真操作
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。