深度學習在經驗上非常有影響力,但在理論理解上滯后。神經網絡在結構和訓練算法上都比傳統的機器學習模型復雜得多,所以傳統的理論直覺可能不適用。本文旨在從理論上更好地理解深度學習中的泛化問題。在論文的第一部分,我們研究了所有數據都有標簽的監督設置下的泛化。我們的主要工具是泛化界:通過推導和研究泛化界,我們可以深入了解深度學習中影響泛化的各種因素。
首先,我們比較了正則化神經網絡和神經正切核(NTK)的統計特性。通過建立神經網絡常見的正則化訓練損失與基于輸出邊際的泛化界之間的聯系,我們證明了正則化神經網絡比NTK解具有更好的泛化效果。其次,我們基于邊緣的新概念——全層邊緣,推導出神經網絡的新泛化邊界。與傳統的基于規范的泛化測度相比,這些邊界更依賴于數據,更具有深度,并突出了數據依賴的Lipschitzness在泛化中的重要作用。我們以經驗證明,這些邊界對于激勵新的訓練目標和理解和解密現有的正則化策略是有用的。
在論文的第二部分,我們把我們的焦點轉向涉及未標記數據的設置。在這些情況下,很難證明為什么許多算法可以工作,盡管它們有廣泛的經驗成功。
首先,我們研究了視覺設置,并提出了一個理論框架來理解最近的半監督學習和領域適應的自訓練算法。通過利用自然圖像的現實結構屬性,我們表明,在未標記數據上的自訓練導致可證明的準確性增益。此外,我們的理論框架和相關假設可以用來表明,自監督對比學習在線性探針評價下獲得了可證明的良好特征。最后,我們研究了為什么預訓練語言模型可以幫助處理NLP設置中的下游任務。我們通過潛在的潛在變量生成模型來考慮預訓練和下游任務相關的設置。我們表明,當這個生成模型是HMM或記憶增強HMM時,預訓練允許解決下游任務的可證明保證。
//searchworks.stanford.edu/view/14230987
迭代方法,尤其是凸優化方法,構成了許多現代算法的基礎。這類方法的成功依賴于它們的通用性:像梯度下降法和牛頓法這樣的方法通常只需要對目標進行最小的假設就能收斂到高質量的最小化。然而,在許多現實環境中,這些算法所獲得的理論保證在實踐中往往是不夠的。本文通過開發凸優化方法和利用問題特定結構的圖算法來解決這個問題。
//searchworks.stanford.edu/view/14239649
第一部分給出了求解拉普拉斯線性系統的最先進算法,以及求解最小成本流的更快算法。我們的結果是通過新穎的組合經典迭代方法,從凸優化與基于圖的數據結構和預調節器。第二部分給出了若干類結構凸優化問題的新算法。給出了凸函數極小化的近似最優方法,包括球優化oracle和N個凸函數的最大值極小化,以及投影極小化和復合凸極小化的新算法。我們的結果是通過對經典加速梯度方法的更精細的理解實現的,并為各種重要的機器學習任務,如邏輯回歸和硬邊界支持向量機提供了新的算法。第三部分討論了離散最優傳輸問題算法的進展,這是一個近年來由于深度學習的新應用而引起極大興趣的任務。我們給出了簡單的并行算法來逼近離散最優傳輸,并進一步證明了這些算法可以在空間界和流設置中實現。通過進一步利用我們的機制,我們還對半流模型中的圖優化問題(如二部匹配和轉運)給出了改進的復雜度邊界。
在第一個教程中,我們回顧了來自經典統計學習理論的工具,這些工具對理解深度神經網絡的泛化性能很有用。我們描述大數的統一定律,以及它們如何依賴于感興趣的函數類的復雜性。我們專注于一個特定的復雜性度量,Rademacher復雜性,以及深度ReLU網絡中這種復雜性的上界。我們研究了現代神經網絡的行為如何與在經典設置中發展的直覺相沖突。
在第二篇教程中,我們將從優化的角度回顧理解神經網絡訓練的方法。我們回顧了凸目標和光滑目標的梯度下降的經典分析。我們描述了Polyak- Lojasiewicz (PL)不等式,并討論如何在神經網絡訓練的背景下解釋這樣的不等式。我們描述了一種特殊的神經網絡訓練機制,它可以通過核方法很好地逼近,被稱為神經切線核(NTK)機制。我們展示了如何用兩種方法建立神經網絡的PL不等式:一種基于NTK近似的一般方法,另一種在線性可分離數據的特殊設置中。
近年來,在Instagram、Podcast、Clubhouse、YouTube等各種平臺上產生和發布了大量的多媒體數據。這一現象啟發了大規模多媒體分析的研究工作,包括分析方法的基礎,以及一些具體的下游應用(如識別、檢索和信息提取)。特別是多媒體的表示學習是其中最重要的研究方向之一。一個良好的多媒體數據實例特征表示具有可解釋性和通用性,可以提高下游任務的性能和效率。 由于多媒體內容的豐富性和噪聲性,對其進行良好的表示具有挑戰性。例如,在語音處理任務中,人類的話語包含語言信息,以及說話人的身份、說話風格和背景噪聲等其他因素。在這種情況下,我們需要一種表示類型,它從所有這些因素中捕獲信息,并為下游應用程序恢復有用的因素。大多數主流技術利用特征向量來表示訓練數據集中的每個實例,并通過進行預訓練任務來優化特征提取器。然而,基于向量的表示方法不足以保持多媒體數據的豐富度和處理噪聲。此外,常見的預訓練程序,如計算機視覺研究領域的ImageNet分類任務,只關注單一類型的鑒別信息,對于某些應用可能是不夠的。因此,在本文中,我探索了兩個研究方向來解決這些問題。 在本文的第一部分,我提出了兩種新的多媒體內容表示類型:概率分布和線性子空間。與基于向量的表示方法相比,這兩種方法都能較好地處理多媒體的豐富度和噪聲。為了在下游任務中利用這兩種表示,設計特定的算法和訓練策略是必要的。在這部分論文中,我介紹了將分布和子空間表示與深度神經網絡架構相結合的方法,這些方法可以端到端地進行優化。在下游任務上的實驗結果表明,與主流的向量表示方法相比,本文提出的兩種表示方法具有更好的性能。 在本文的第二部分,我研究了風格和內容解糾纏技術,它明確地保留了表征學習過程中多媒體內容中的不同因素。解糾纏表示提供了更好的可解釋性,并允許在數據合成場景中操縱隱藏因素。基于這一動機,我提出了兩種方法來有效地分離多媒體數據中的隱藏因素。第一種方法將風格和內容之間的關系建模為隱藏特征空間中的簡單矩陣操作。第二種方法通過制定對抗訓練準則來最小化兩個隱藏因素之間的互信息。在數據合成/生成任務的定性和定量實驗中,評價了兩種方法的優勢。此外,我進一步論證了風格和內容解糾纏技術的適用性,通過構建一個預訓練框架與生成模型。具體來說,生成模型產生的合成數據可以支持語音識別、人的重新識別等下游任務的監督訓練過程。此外,解纏生成過程將數據擴充的思想從原始數據空間擴展到可解釋的表示空間,允許我們在下游任務中納入更多的先驗知識。
深度學習徹底改變了機器學習和人工智能,在幾個標準基準上取得了超人的表現。眾所周知,深度學習模型訓練效率低;它們通過多次處理數以百萬計的訓練數據來學習,并且需要強大的計算資源來同時并行處理大量數據,而不是順序處理。深度學習模型也存在非預期失效模式;他們可能會被愚弄,做出錯誤的預測。
在本文中,我們研究了提高深度學習模型訓練效率和魯棒性的方法。在學習視覺語義嵌入的背景下,我們發現優先學習更多的信息訓練數據可以提高收斂速度和提高測試數據的泛化性能。我們形式化了一個簡單的技巧,稱為硬負挖掘,作為學習目標函數的修改,沒有計算開銷。接下來,我們在深度學習的通用優化方法中尋求優化速度的改進。我們展示了對訓練數據采樣的冗余感知修改提高了訓練速度,并開發了一種檢測訓練信號多樣性的有效方法,即梯度聚類。最后,我們研究了深度學習中的對抗魯棒性,以及在不使用額外數據訓練的情況下實現最大對抗魯棒性的方法。對于線性模型,我們證明保證最大的魯棒性實現只有通過適當的選擇優化器,正則化,或架構。
//arxiv.org/pdf/2112.01423.pdf
【導讀】自監督學習是當下研究的熱點。如何在多模態時序數據進行自監督表示學習?最新來自皇家墨爾本理工大學RMIT等學者發表了《自監督表示學習:多模態與時序數據》,首次全面綜述多模態時序數據自監督學習方法,非常值得關注!
近年來,自監督表示學習(Self-Supervised Representation Learning, SSRL)在計算機視覺、語音、自然語言處理(natural language processing, NLP)等領域受到廣泛關注,近年來,它也逐漸被應用于傳感器數據的時間序列等模態。傳統模型通常需要大量注釋良好的數據進行訓練,這一事實推動了自我監督學習的流行。獲取帶注釋的數據可能是一個困難且代價高昂的過程。自監督方法通過使用從原始數據中自由獲取的監督信號對模型進行區分性預訓練來提高訓練數據的效率。現有的研究主要集中在單模態CV或NLP領域的方法,與此不同,本文的目的是首次全面綜述多模態時序數據自監督學習方法。為此,我們 1) 對現有的SSRL方法進行了全面的分類; 2) 通過定義SSRL框架的關鍵組件引入了一個通用流水線; 3) 就其目標功能、網絡架構和潛在應用對現有模型進行了比較; 4) 對每種類別和各種模態下的現有多模態技術進行了綜述。最后,我們提出了現有的弱點和未來的機會。我們相信,我們的工作為利用多模態和/或時間數據的領域的SSRL需求提供了一個視角。
//www.zhuanzhi.ai/paper/88836a11fa745f249523bdfcf9298998
表示學習
過去幾十年,深度學習技術取得了巨大的成功,催生了大量面向大規模數據集的應用。盡管深度學習具有顯著的影響,但許多最先進的技術仍然需要人工干預,例如手動數據預處理和數據注釋。這是監督學習模型的一個主要瓶頸,因為獲取數據注釋通常是一個耗時的過程,需要一些領域知識。自監督表示學習(SSRL)解決了這一瓶頸,它試圖通過從數據本身獲得的監督信號來訓練網絡模型,從而揭示關于數據的有意義的信息。這大大增加了用于訓練模型的數據帶寬,并已被證明可以減少對手動數據注釋的依賴[69]。這也可能被認為是邁向通用人工智能道路上的早期一步,因為與監督學習方法相比,計算機從觀察數據中學習所需的人工輸入要少得多。接下來,我們將概述表征學習和相關的自監督學習技術。
數據表示的研究最初依賴于特征工程,即定義人工步驟將原始數據轉換為有意義的特征。這種轉換的例子包括統計屬性(如均值和標準差)的計算和基于形狀或模式的特征(如圖1中的小波變換)。然而,為一項復雜任務設計良好的特征選擇通常需要大量的人力和大量的領域知識來確保特征的質量。此外,為一個任務選擇的特征可能不適合另一個任務,使其不可行的一般化使用這些方法。為此,提出了一種旨在從數據中自動提取鑒別特征的表示學習方法。其基本原理是降維算法,如主成分分析、流形學習和深度學習將只保留高維數據中信息量最大的特征,并在將數據映射到其低維表示時消除數據中的噪聲。之后,保留和去噪的特征可以用作后續機器學習模型的輸入。由于表示學習對人類干預的依賴程度最低,它不再被視為機器要解決的任務,而是學習一種技能(Satinder Singh),以發展對世界的一般性理解,并匯聚創造一種可以泛化到新場景的一般性共同理解89。因此,表示學習在計算機視覺(CV)、語音識別和自然語言處理(NLP)等多個領域受到了廣泛關注。
自監督表示學習
一個監督模型接受一個帶注釋的數據集用于給定的任務(例如圖像分類的ImageNet),并學習數據表示。由于訓練任務的普遍性,學習到的表示可以作為一個新的但類似的任務(如物體檢測)的良好起點。然而,監督表示學習的主要限制是對注釋數據集的要求。數據注釋是一個昂貴和耗時的過程,需要大量的人力工作。為了獲得高質量的數據集,需要在數據領域(如醫療、法律或生物數據集)擁有廣泛的專業知識。此外,對于一些應用領域(如與人類相關的應用),由于隱私問題,獲取標簽數據集是不可行的。
針對上述問題,提出了一種自監督表示學習方法。它直接處理未標記的數據,不需要外部注釋。與人類的自學習過程類似,這是一個“觀察、行動、觀察和推斷”的重復循環,SSRL以原始數據為輸入,對輸入數據應用一個或多個預定義的動作,觀察動作的結果,并推斷出模型參數的下一個優化步驟。重復這個過程,SSRL模型可以提取數據的分布和局部/全局特征。SSRL的一個關鍵組件是對數據輸入的預定義操作,它生成偽標簽來監督訓練過程。這種行為的一個例子是偽裝學習的前置任務,它掩蓋了一部分數據,使用被掩蓋的部分作為標簽,并引導模型恢復被掩蓋的部分。
由于SSRL不需要外部監督,它可以利用大量可用的未標記數據(例如,所有發布在互聯網上的圖像)。這導致了SSRL的顯著成功。在2000年代,Hinton等人(2006)[70]和Bengio等人(2007)[21]提出了一種自監督算法,在使用真實標簽對模型進行微調之前,對深度信任網絡進行預訓練。他們表明,使用預訓練的權值可以提高監督任務的性能。如今,基于深度學習的模型,SSRL不僅在許多下游任務中實現了與其他完全監督競爭方法相比的競爭精度,而且與類似的監督模型相比,具有參數少得多、網絡小得多的優勢; 因此,它們不容易發生過擬合[78]。此外,SSRL的用例不僅限于作為機器學習管道中的預處理步驟(如遷移學習),還包括其他領域的應用,如通過提高這些學習系統的標簽/獎勵效率的持續學習[113]和強化學習[124]。
多模態和時序數據的自監督表示學習
多模態時序數據在日常生活中無處不在。數字設備的廣泛使用和數字應用(如物聯網應用、無線通信和媒體消費)的普及,使時序數據的可用性越來越高。時序數據的例子包括傳感器讀數、股票價格和醫療記錄等等。時序數據分析在環境(如氣候建模)、公共安全(如犯罪預測)和智能交通(如城市交通管理)等各個領域都有廣泛的應用。
另外,由于產生了大量異構格式的數據,因此涵蓋了多種數據形式。例如,自動駕駛汽車的決策同時依賴視覺和傳感器數據。這些來自不同來源的數據可以被視為同一主題的不同觀點,并提供補充信息。因此,同時利用這兩類數據可以提高機器學習模型的有效性和可靠性。盡管多模態和時序數據很重要,但分析它們并非微不足道。時序數據與其他數據類型(如圖像和文本數據)相比具有獨特的特征,因為它與采集時間有很強的相關性。提取動態時間模式(例如周期模式)對于發現數據如何隨時間演變是至關重要的。當有多種可用的數據模式時,學習在不同模式下不僅有效而且語義一致的表示是至關重要的。
為了解決這些問題,許多SSRL模型被提出,利用大量未標記的多模態和/或可用的時間數據來學習可轉移到下游預測器的數據表示。這些模型在數據模式(如音頻、圖像、文本或時間序列或這些模式的組合)、生成監督信號的方法(如借口任務、聚類、對比數據樣本和相似性計算)和目標函數(如交叉熵、三元組損失和InfoNCE)等方面存在不同。本文系統地綜述了近年來多模態和時序數據SSRL的研究進展。本文對這些研究成果進行了綜述,對它們進行了定位和比較,并指出了未來可能的研究方向。
本文貢獻:
在這篇文章中,我們介紹了快速發展的表示學習領域,并回顧了SSRL技術。特別地,我們討論了現有綜述中較少涉及的模態(時間數據),并特別關注跨模態學習模型。本文將做出貢獻:
據我們所知,這是第一次全面的SSRL調研,涵蓋了視覺數據之外的多種形態。我們包括音頻和時間序列數據類型及其與視覺和文本的組合。這將為研究人員提供一個快速了解這些領域最先進工作的全景圖。
我們提出一個分類方案來定位、分類和比較審查的工作。比較分析可以作為讀者在現實生活中使用哪種模型的實踐指南。
我們確定了多模態和時間數據SSRL領域的公開挑戰。我們進一步討論可能的未來研究方向,可能解決這些挑戰。
本文其余部分的組織如下:在第2節中,我們回顧了關于SSRL的現有綜述論文。在第3節中,我們解釋了重要的術語和背景信息,以使文章易于閱讀和理解。在第4節中,我們描述了現有的類別,并特別介紹了為單一時態數據模式提出的SSRL方法。在第5節中,我們將現有的框架擴展為跨模態方法,并研究跨模態應用可能的框架、需求和挑戰。在第6節中,我們關注用于自監督學習的目標函數的演變趨勢。最后,第7節討論了挑戰和未來的研究方向。
自監督表示學習(SSRL)工作流。首先,SSRL方法以未標記的數據為輸入,利用數據轉換、時間/空間掩蔽、先天關聯和交叉模態匹配等多種技術提取新的實例及其對應的偽標簽。接下來,學習表征的目的是預測那些提取的偽標簽。最后,一個預訓練的編碼器將被轉移到一個有監督/無監督的下游任務,只有有限的標記數據。
適用于所有基礎架構和模式的自監督表征學習框架的類別。
比較不同的自監督表示學習模型的整體架構。
近年來,監督學習設置的幾個結果表明,經典的統計學習理論度量,如VC維,不能充分解釋深度學習模型的性能,這促使大量工作在無限寬和迭代機制。然而,對于神經網絡在監督設置之外的成功,幾乎沒有理論解釋。本文認為,在一些分布假設下,經典學習理論測度可以充分解釋圖神經網絡在轉導環境下的泛化問題。特別是,我們提供了一個嚴格的分析神經網絡在轉導推理的背景下的性能,特別是通過分析圖卷積網絡的泛化性質的節點分類問題。雖然VC維在這種情況下也會導致微不足道的泛化誤差邊界,但我們表明,轉換的Rademacher復雜性可以解釋隨機塊模型的圖卷積網絡的泛化特性。我們進一步使用基于轉導Rademacher復雜性的泛化誤差邊界來演示圖卷積和網絡架構在實現更小的泛化誤差方面的作用,并提供關于何時圖結構可以幫助學習的見解。這篇論文的發現可以重新激發人們在學習理論測量方面研究神經網絡泛化的興趣,盡管是在具體的問題上。
在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。
本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。
我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。
在過去的十年里,神經網絡在視覺、語音、語言理解、醫學、機器人和游戲等領域取得了驚人的成果。人們原本以為,這種成功需要克服理論上存在的重大障礙。畢竟,深度學習優化是非凸的、高度非線性的、高維的,那么我們為什么能夠訓練這些網絡呢?在許多情況下,它們擁有的參數遠遠多于記憶數據所需的參數,那么為什么它們能夠很好地推廣呢?盡管這些主題已經占據了機器學習研究領域的大部分注意力,但當涉及到更簡單的模型時,神經網絡領域的原則是先數據訓練再說。顯然,這招奏效了。
//www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/
結果,神經網絡的實際成功已經超過了我們理解它們如何工作的能力。這門課是關于開發概念工具來理解當神經網絡訓練時會發生什么。其中一些思想早在幾十年前就已經形成了(可能已經被社區的大部分人遺忘了),而另一些思想今天才剛剛開始被理解。我將試圖傳達我們最好的現代理解,盡管它可能不完整。
這門課從優化中汲取靈感,它不是一門優化課。一方面,優化的研究通常是指令性的,從優化問題的信息和明確定義的目標(如在特定規范下快速收斂)開始,并找出保證實現該目標的計劃。對于現代神經網絡來說,分析通常是描述性的: 采用在使用的程序,并找出它們(似乎)有效的原因。希望這種理解能讓我們改進算法。
與優化研究的另一個區別是,目標不是簡單地擬合一個有限的訓練集,而是一般化。盡管神經網絡有巨大的能力,但為什么它能泛化與訓練的動態密切相關。因此,如果我們從優化中引入一個想法,我們不僅需要考慮它是否會更快地最小化成本函數,還需要考慮它是否以一種有利于泛化的方式實現。
這類應用不會為您提供在ImageNet上實現最先進性能的方法。它也不是那種為了證明定理而去證明定理的理論課。相反,我們的目的是為您提供概念性工具,以便您在任何特定情況下推斷出影響訓練的因素。
除了讓你的網絡更好地訓練之外,學習神經網絡訓練動力學的另一個重要原因是,許多現代架構本身就足夠強大,可以進行優化。這可能是因為我們在體系結構中明確地構建了優化,就像在MAML或深度均衡模型中那樣。或者,我們可能只是在大量數據上訓練一個靈活的架構,然后發現它具有驚人的推理能力,就像GPT3一樣。不管怎樣,如果網絡架構本身在優化某些東西,那么外部訓練過程就會與本課程中討論的問題糾纏在一起,不管我們喜歡與否。為了有希望理解它提出的解決方案,我們需要理解問題。因此,本課程將以雙層優化結束,利用課程中涵蓋的所有內容。
目錄內容:
我們將通過分析一個簡單的模型開始這門課,梯度下降動力學可以被精確地確定:線性回歸。盡管線性回歸很簡單,但它提供了對神經網絡訓練驚人的洞察力。我們將使用線性回歸來理解兩種神經網絡訓練現象: 為什么對輸入進行歸一化是一個好策略,以及增加維度可以減少過擬合。
線性化是我們理解非線性系統最重要的工具之一。我們將涵蓋神經網絡的一階泰勒近似(梯度,方向導數)和二階近似(Hessian)。我們將看到如何用雅可比向量乘積有效地計算它們。我們將使用Hessian診斷緩慢收斂和解釋網絡預測。
度量給出了流形上距離的一個局部概念。在許多情況下,兩個神經網絡之間的距離可以更有效地定義為它們所代表的函數之間的距離,而不是權重向量之間的距離。這就引出了一個重要的優化工具,叫做自然梯度。
我們從幾個角度來激勵神經網絡的二階優化:最小化二階泰勒近似、預處理、不變性和近端優化。我們將看到如何使用共軛梯度或克羅內克因子近似來近似二階更新。
我們看看已經成為神經網絡訓練的主要內容的三個算法特征。我們試圖理解它們對動力學的影響,并找出構建深度學習系統的一些陷阱。
使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務,從機器人技術到計算機圖形再到醫學成像。然而,現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中,我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀,只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布,我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明,在這個過程中學習到的特征使整個類對象的三維語義分割成為可能,只訓練了30個帶標記的例子,證明了三維形狀、外觀和語義分割之間的緊密聯系。最后,我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用,并討論了未來工作的前景。