近年來,深度學習推動的視覺內容創作取得了顯著進展。這包括3D感知的生成圖像合成,以3D一致的方式產生高保真圖像,同時從純圖像集合中捕獲緊湊的物體表面,而不需要任何3D監督,從而彌合了2D圖像和3D現實之間的差距。3D感知生成模型表明,3D信息的引入可以使生成的圖像更加可控**。3D圖像合成的任務已經席卷了計算機視覺領域,近年來(主要是在過去兩年)有數百篇論文被頂級期刊和會議接受,但缺乏對這一顯著而迅速的進展的全面調研**。本文旨在介紹新的研究人員,為相關工作提供有用的參考,并通過討論部分激發未來的研究方向。除了現有的論文,我們還將在//weihaox.github.io/projects/awesome-3d-aware上不斷更新最新的相關論文和相應的實現。
引言
深度生成模型已經取得了巨大的進展,導致了逼真的圖像合成。盡管取得了令人信服的結果,但大多數方法專注于二維(2D)圖像,忽略了物理世界的三維(3D)本質。因此,三維結構的缺乏不可避免地限制了它們的一些實際應用。因此,最近的一些工作提出了3D感知的生成模型,即場景在3D中建模,然后在圖像平面上進行差異化渲染。與2D生成模型相比,最近開發的3D感知生成模型[1]、[2]在2D圖像和3D物理世界之間架起了橋梁。我們周圍的物理世界本質上是三維的,圖像在一定的幾何、材料和照明條件下描繪現實,因此在三維空間中建模圖像生成過程是很自然的。如圖1所示,經典渲染(a)在給定人類設計或掃描的3D形狀模型的特定相機位置渲染圖像;逆渲染(b)從2D圖像中恢復3D物理世界的潛在內在屬性;2D圖像生成(c)主要由生成模型驅動,在真實感圖像合成方面取得了令人印象深刻的成果;3D感知的圖像合成(d)提供了用直接從圖像學習的有效模型取代經典渲染管道的可能性。
盡管近年來三維圖像合成的研究取得了驚人的進展,但對這一進展缺乏及時和系統的綜述。在這項工作中,我們通過呈現三維感知圖像合成方法的最新研究的全面調研來填補空白。我們的工作將闡明三維感知圖像合成的設計考慮因素和先進方法,展示其不同種類的優缺點,并提出未來的研究方向。我們在圖2中提供了這次調研的大綱和分類。我們建議將3D感知的圖像合成方法分為三類:二維生成模型的3D控制(第3節)、來自多個視圖的3D新視圖合成(第4節)和來自單個視圖的3D生成模型(第5節)。然后,根據實驗設置或3D信息的具體利用,將每一類進一步劃分為一些子類別。具體而言,二維生成模型的三維控制進一步分為1)三維控制潛在方向(第3.1節),2)三維參數作為控制(第3.2節),3)三維先驗知識作為約束(第3.3節)。第4和第5節都總結了通過學習3D表示來生成逼真和多視點一致圖像的方法。一般來說,這兩類都是利用神經3D表示來表示場景,使用可微神經渲染器將場景渲染到圖像平面,并通過最小化渲染圖像與觀察圖像之間的差異來優化網絡參數。然而,由于它們的應用場景截然不同,它們在多視圖和單視圖圖像集合上的訓練存在顯著差異。此外,為了直觀地展示這些代表性的生成式3D感知圖像合成方法,我們將它們組織成前面提到的三個范例,在圖3中按時間順序概述了它們。
在這里,我們提出了一個及時的最新綜述的三維圖像合成的發展領域。考慮到缺乏全面的調查和日益增長的興趣和普及,我們認為有必要組織一個幫助計算機視覺從業者與這一新興課題。本次調研的目的是為該領域的新研究人員提供對3d感知圖像合成方法的全面了解,并展示其優于現有方法的優越性能。最后,我們強調了幾個有待進一步研究的研究方向和問題。這一迅速發展的領域的范圍是相當廣泛的,全面的綜述將是具有挑戰性的。我們將只介紹具有代表性的3D感知圖像合成方法,而不是列出所有的文獻。因此,這篇綜述可以作為一種教學工具,為研究人員提供關于3D感知圖像合成的典型方法的關鍵信息。研究人員可以使用這些通用的指導方針,為自己的特定研究開發最合適的技術。這項工作的主要技術貢獻如下:
層次分類。我們為三維圖像合成研究提出了一個系統的分類法。我們將現有的模型分為三類:2D生成模型的3D控制、單視圖的3D生成模型和多視圖的新視圖合成。
全面地綜述。我們提供了現有的最先進的三維圖像合成方法的全面概述。我們比較和分析每種類型的主要特點和改進,評估它們的優缺點。
出色的挑戰。在此基礎上,提出了三維感知圖像合成的若干研究問題,并對其未來發展提出了一些建議。
為了持續跟蹤這一快速發展領域的最新發展,我們提供了一個相應的網頁,根據我們的基于問題的分類: /項目/ awesome-3d-aware。
神經輻射場(Neural Radiance Field, NeRF)作為一種具有隱式場景表示的新型視場合成技術,在計算機視覺領域引起了廣泛的關注。作為一種新穎的視圖合成和三維重建方法,NeRF模型在機器人、城市地圖、自主導航、虛擬現實/增強現實等領域都有廣泛的應用。自Mildenhall等人的原始論文以來,已經發表了250多篇預印本,其中100多篇最終在一級計算機視覺會議上被接受。考慮到NeRF的流行和當前對該研究領域的興趣,我們認為有必要對過去兩年的NeRF論文進行全面的調查,我們將其分為體系結構和基于應用的分類。我們還介紹了基于NeRF的新視圖合成理論,并對關鍵NeRF模型的性能和速度進行了基準比較。希望通過本次調研,為NeRF領域的新研究者提供有益的參考,同時也為未來的研究方向提供參考。 神經輻射場(NeRF)模型是一種利用多層感知器(MLPs)進行隱式神經場景體繪制的新型視圖合成方法。在ECCV 2020年由Mildenhall等人[1]首次介紹,NeRF已經達到了最先進的視覺質量,產生了令人印象深刻的演示,并啟發了許多后續的作品源自這種新穎的方法。在最近的過去(2022年),NeRF模型已經在照片編輯、3D表面提取、大型/城市規模的3D表示和視圖合成中找到了應用。NeRF模型比其他新視圖合成和場景表示方法有一些關鍵優勢。
NeRF模型是自監督的。它們可以只使用一個場景的多視圖圖像進行訓練。與許多其他3D神經表示或視圖合成方法不同,NeRF模型只需要圖像和姿勢來學習場景,不需要3D/深度監督。姿勢也可以使用結構從運動(SfM)包,如COLMAP[2]來估計,就像在原始NeRF論文中的某些場景中所做的那樣。
NeRF模型是照片逼真的。與[3][4]等經典技術,以及早期新穎的視圖合成方法如[5][6][7]、神經3D表示方法[8][9][10]相比,原始NeRF模型在視覺質量方面收斂得更好,而最新的模型表現得更好
在過去的兩年中,NeRF模型在計算機視覺社區中引起了很大的關注,在流行的代碼聚合網站1上出現了150多篇論文和預印本,在arXiv上出現了200多份預印本。許多預印本最終在頂級計算機視覺會議上發表,如CVPR、ICCV和ECCV, CVPR 2021年發表了不到10篇NeRF論文,CVPR 2022年發表了超過50篇關于該主題的論文。在其他計算機視覺會議上也可以看到類似的趨勢。在2022年,NeRF的影響是巨大的,并且不斷增加,Mildenhall等人的NeRF原始論文被引用超過1300次,而且興趣逐年增加。鑒于目前的興趣和現有的綜合調查論文的缺乏,我們認為有必要組織一個這樣的論文,以幫助計算機視覺從業者與這一新主題。 這篇手稿的其余部分組織如下。第2節介紹了現有的NeRF調查預印本(2.1),解釋了NeRF體繪制背后的理論(2.2),介紹了常用的數據集(2.3)和質量評估指標(2.4)。?第三部分是論文的核心,介紹了有影響力的NeRF出版物,并包含了我們創建的分類來組織這些作品。它的子部分詳細介紹了在過去兩年中提出的不同的NeRF創新家族,以及最近NeRF模型在各種計算機視覺任務中的應用。第四和第五部分討論了未來可能的研究方向和應用,并總結了調研結果。
神經輻射場 NeRF 理論
Mildenhall等人[1]于2020年首次提出神經輻射場用于新視圖合成。NeRFs實現了復雜場景的高度真實感的視圖合成,在該領域引起了廣泛關注。在其基本形式中,NeRF模型將三維場景表示為由神經網絡近似的輻射場。輻射場描述了場景中每個點和每個觀看方向的顏色和體積密度。
NeRF關鍵論文的分類。
NeRF應用分類
神經壓縮是神經網絡和其他機器學習方法在數據壓縮方面的應用。雖然機器學習涉及許多與壓縮密切相關的概念,但由于神經壓縮依賴信息論、感知度量和該領域的其他特定知識,因此進入神經壓縮領域可能很困難。本導論希望通過回顧熵編碼和率失真理論等基本編碼主題、位背編碼和感知度量等相關機器學習思想,并通過目前文獻中的代表性作品提供指導,填補必要的背景知識。
圖1所示 壓縮作為生成模型。
數據壓縮的目標是減少表示有用信息所需的比特數。神經,或學習壓縮,是應用神經網絡和相關機器學習技術的任務。本文旨在通過回顧信息論背景以及神經壓縮的代表性方法和技術,為機器學習研究者提供一個切入點。神經壓縮借鑒了基于學習的圖像處理方法的豐富歷史。事實上,計算攝影中的許多問題可以被視為有損圖像壓縮;例如,圖像超分辨率可以通過學習固定編碼器的解碼器(圖像降采樣過程)[1][2]來解決。事實上,神經網絡在20世紀80年代末和90年代就已經被應用于圖像壓縮[3][4],甚至有一篇早期的綜述文章[5]。與早期的工作相比,現代方法在規模、神經結構和編碼方案上有顯著的不同。
當前神經壓縮的研究很大程度上受到了深度生成模型的啟發,如GANs、VAE、標準化流和自回歸模型[6]、[7]、[8]、[9]。雖然這些模型允許我們從樣本中捕捉復雜的數據分布(這是神經壓縮的關鍵),但研究傾向于生成真實的數據[10]或實現高數據日志密度[8],目標并不總是與數據壓縮一致。可以說,第一個探索數據壓縮的深度生成模型的工作出現在2016年[11],神經壓縮的主題從那時起就有了相當大的發展。許多研究人員已經確定了變分推斷與無損[12][67]以及有損[13][14][15][16]壓縮之間的聯系。本文希望進一步促進這些領域之間的交流,提高對壓縮作為生成建模的一種富有成效的應用以及相關的有趣挑戰的認識。
我們的目標不是調研大量的文獻,而是涵蓋神經壓縮的基本概念和方法,并考慮到精通機器學習但不一定精通數據壓縮的讀者。我們希望通過強調生成建模和機器學習之間的聯系來補充現有的綜述,這些綜述更注重數據壓縮[17][18][19]。神經壓縮提供了從原始數據自動構建壓縮算法的潛力。這對于新的或領域特定的數據類型尤其有用,如VR內容或科學數據,否則開發自定義編解碼器可能會很昂貴。然而,這種潛力的大部分仍未被探索,所以我們的討論集中在圖像壓縮上,大多數學習到的壓縮方法都是在圖像壓縮上首次開發的。盡管如此,這些方法更廣泛地適用于其他類型的數據。我們將在第3.7節中討論一個順序數據的例子,視頻壓縮。有效地壓縮這類數據需要更精細的模型,但調節學習表征的熵/比特率和相關技術的基本思想保持不變。
本介紹由兩個主要部分組成,無損壓縮(第2節)和有損壓縮(第3節);后者依賴于前者來壓縮數據的潛在表示(見圖2)。我們從回顧基本編碼理論(第2.1節)開始,它允許我們將無損壓縮問題轉化為學習離散數據分布。在實踐中,我們需要使用生成式建模的工具來分解潛在的高維數據分布,包括自回歸(第2.2節)、潛在變量(第2.3節),以及其他模型(第2.4節)。每種模型在其與不同熵碼的兼容性上有所不同,并在壓縮比特率和計算效率之間提供了不同的權衡。然后,有損壓縮引入了額外的需要,最常見的是重構的失真,在此基礎上,經典理論和算法,如VQ和變換編碼進行了回顧(第3.1節)。然后,我們介紹神經方法作為轉換編碼的自然擴展(第3.2節),討論量化表示的端到端學習所需的技術(第3.3節),以及試圖繞過量化的有損壓縮方案(第3.4節)。然后,在簡要回顧視頻壓縮(第3.7節)之前,我們探討了其他需要的數據,如重構的感知質量(第3.5節),以及學習到的下游任務表示的有用性(第3.6節)。最后,我們總結在第4節的挑戰和開放的問題,神經壓縮,可能會推動其未來的進展。
圖像配準是圖像引導手術、圖像融合、器官圖譜生成、腫瘤和骨骼生長監測等臨床任務應用的關鍵技術,也是一個極具挑戰性的問題。近年來,深度學習技術對醫學圖像處理方法的研究產生重要的影響,在醫學圖像配準領域發展迅速。來自美國辛辛那提兒童醫院醫療中心等發布了**《深度學習醫學圖像配準》**綜述,闡述了相關進展。
圖像配準是各種醫學圖像分析應用中的一個重要組成部分。近年來,基于深度學習(DL)的醫學圖像配準模型發展迅速。本文對醫學圖像配準技術進行了綜述。首先,討論了監督配準的分類,如完全監督配準、雙重監督配準和弱監督配準。接下來,基于相似度和基于生成對抗網絡(GAN)的配準被提出作為無監督配準的一部分。然后描述了深度迭代配準,重點是基于深度相似度和基于強化學習的配準。此外,對醫學圖像配準的應用領域進行了綜述。本文主要綜述單模態和多模態配準及其相關成像,如X線、CT掃描、超聲和MRI。本綜述強調了現有的挑戰,其中顯示,一個主要挑戰是缺乏具有已知轉換的訓練數據集。最后,討論了基于深度學習的醫學圖像配準的未來研究方向。
//www.zhuanzhi.ai/paper/1fb1db2059362b38007d8e59df7d6f61
使用圖像配準,可以將不同的圖像集合合并到一個具有相同信息的單一坐標系中。當比較從不同角度多次拍攝的兩幅圖像或使用不同的模態/傳感器時,可能需要配準[1,2]。直到最近,大多數圖像配準都是由醫生手工完成的。人工對齊在很大程度上依賴于用戶的能力,這在臨床上可能不利于某些配準程序的質量。自動配準的產生是為了克服一些可能的缺點手動圖像配準。DL的復興改變了圖像配準研究的背景[3],盡管事實上各種自動圖像配準方法已經被深入研究之前(和期間)。DL[4]使最近的工作在廣泛的計算機視覺任務中得以表現,包括但不限于: 圖像分類[4],分割[5],特征提取[6-8],以及目標識別[9]。作為一個起點,DL在增強基于強度的配準性能方面被證明是有用的。這只是時間問題,直到其他研究人員看到使用強化學習的配準過程的應用[10-12]。由于獲取/創建地面真實數據的困難,人們對開發用于一步轉換估計的無監督框架越來越感興趣[13,14]。圖像相似度量化是這一范式中的一個眾所周知的障礙。應用基于信息理論的相似性度量[13]、生成對抗網絡(GAN)框架[16]和解剖特征分割[17]來解決這一難題,取得了良好的效果。
傳統的圖像配準是一個基于迭代的過程,包括收集必要的特征,確定相似度(以評估配準質量),選擇變換模型,最后是搜索機制[18,149,153]。可以發送到系統的圖片有兩種: 移動和固定,如圖1所示。通過在靜止圖像上反復滑動移動圖像,可以獲得最佳對齊。考慮的相似性度量最初決定了輸入的照片之間的相似度。計算新轉換的參數是通過使用更新機制的優化方法完成的。通過將這些因素作用于運動圖像,就產生了具有改進對齊的圖像。否則,將開始一個新的算法迭代。如果滿足終止要求,則流程結束。直到不能再獲得配準或滿足一定的預定要求,運動圖像才會在每一個循環中改善與靜止圖像的對應關系。該系統的輸出既可以是變換參數,也可以是最終的插值融合圖像。
一個用于醫學圖像的圖像配準框架流程圖
有必要對使用DL的醫學圖像配準領域進行徹底的調研,突出專家面臨的常見問題,并討論可以解決這些挑戰的即將到來的研究可能性。它是一種利用多層神經網絡(NN)來學習數據描述的機器學習(ML)。許多不同種類的神經網絡可以用于不同的目的,最近已經開發出一些重要的設計來解決工程挑戰。在討論神經網絡時,也可以討論許多神經網絡的訓練過程。關于神經網絡類型、訓練范式、網絡結構以及方法的章節構成了DL的介紹。PyTorch[19]、Caffe[20]、Keras[21]、MXNet[22]和TensorFlow[23]都是可用于創建網絡的公共訪問庫。現有的文獻主要集中在醫學圖像分析中使用DL、reinforcement learning和GANs進行醫學圖像分析。
本文綜合回顧了現有文獻中基于離散域的圖像配準的研究進展。本文著重從方法和功能的角度對其創新進行了綜述。本文研究了不同形式的配準,包括無監督和監督變換估計,以及深度迭代配準。討論了當前圖像配準的趨勢、挑戰和局限性。最后,本文對未來的研究方向進行了展望。
對于深度學習模型,監督訓練是各種配準模型的共同基礎。根據在訓練階段中使用的監督程度,有三個子類別的模型: 完全監督、雙重監督和弱監督。完全監督配準利用傳統配準算法中的真DVFs來監督學習過程。這些損失通常是由于地面真實值和預期SVF不匹配造成的,如圖2所示。弱監督配準使用隱式參考標簽,而不是使用廣泛使用的解剖輪廓參考DVF,如圖2所示。經常使用兩種以上的參考數據來訓練雙監督配準模型。這包括解剖結構輪廓、參考SVF以及圖像相似性。
弱監督和完全監督配準模型的示例工作圖
盡管為了解決有監督圖像配準的信息或數據稀缺問題,人們采取了許多策略(如弱監督和數據增強)[43-47],但訓練樣本的創建仍然是一個耗時的過程。由于移動和固定的圖像配對是DL模型需要學習的所有變形,無監督配準是一種方法。表1提供了這個子類別的概述。在這一類別的訓練中仍然需要一個可與傳統迭代配準中使用的損失函數。一個DVF正則化項和一個圖像相似項和通常包括在損失函數中。由于固有卷積的性質,一些相似性度量,即局部NCC (LNCC),被改變為專注于微小斑塊。可以引入各種損失項,如防止過擬合的同一性損失和減少奇異性的循環一致性損失。
基于(a) GAN和(b)相似矩陣的醫學圖像配準通用框架
各種醫學圖像配準通用框架
本文綜述了近年來在醫學圖像配準方面的研究進展。由于每個應用程序都有不同的問題,因此有必要謹慎地開發DL框架。多模態圖像配準,比如涉及TRUS和MRI的配準,也面臨著類似的挑戰,比如無法在多模態應用中使用穩健的相似性度量,缺乏大型數據集,難以獲得地面真實值配準和分割,以及量化模型的偏好。(36、37)。解決這些問題的常用方法包括補丁式框架、應用程序特定的相似性度量、注冊框架和受變分自動編碼器影響的無監督技術。插值和重采樣,盡管在本文中描述的許多方法復雜,通常不是由神經網絡學習。隨著該領域的成熟,我們預計會有更多的學者將這些組件包含到他們基于深度學習的解決方案中。每種策略都有自己的優點和局限性,但比較這兩種策略的研究人員總數大致相同。在這兩個領域,我們預計會出現更多結合這兩種策略的好處的研究和新方法。我們預測在這兩類中還會有進一步的研究。
從單目圖像中估計人體的姿勢和形狀是計算機視覺領域中一個長期存在的問題。來自南京大學和清華大學的最新研究論文《從單目圖像中恢復三維人體網格》,提出了從而二維數據提升至三維網格過程中基于優化和基于回歸的兩種范式,第一次關注單目3D人體網格恢復任務的研究,并討論了有待解決的問題和未來的發展方向。
從單目圖像中估計人體的姿勢和形狀是計算機視覺領域中一個長期存在的問題。自統計學人體模型發布以來,三維人體網格恢復一直受到廣泛關注。為了獲得有序的、符合物理規律的網格數據而開發了兩種范式,以克服從二維到三維提升過程中的挑戰:i)基于優化的范式,利用不同的數據項和正則化項作為優化目標;ii)基于回歸的范式,采用深度學習技術以端到端的方式解決問題。同時,不斷提高各種數據集的3D網格標簽的質量。盡管在過去十年中,該研究取得了顯著的進展,但由于肢體動作靈活、外觀多樣、環境復雜以及人工注釋不足,這項任務仍然具有挑戰性。據調查,這是第一次關注單目3D人體網格恢復任務的研究。我們從介紹人體模型開始,通過深入分析其優缺點詳細闡述了恢復框架和訓練目標。我們還總結了數據集、評估指標和基準測試結果。最后討論了有待解決的問題和未來的發展方向,旨在激發研究人員的積極性,促進各位學者在這一領域的研究。定期更新的項目頁面可在 //github.com/tinatiansjz/hmr-survey 查看.
從單目圖像中理解人類是計算機視覺的基本任務之一。在過去的20年里,業界一直致力于預測二維內容,如關鍵點[1]、[2]、[3]、輪廓[4]和RGB圖像的局部分割[5]。隨著這些進展,研究人員進一步尋求在3D空間中預測人類姿勢[6]、[7]、[8]、[9]、[10]、[11]、[12]。雖然簡單的動作可以通過2D內容或一些稀疏的3D關節相對清晰地表示出來,但復雜的人類行為需要更細致地描述人體細節。此外,因為我們使用表面皮膚與外界直接接觸而不是用未觀察到的關節,所以對身體的形狀、接觸面、手勢和表情進行推理也是至關重要的。
近年來,社區已經將他們的興趣轉向了人體的3D網格恢復[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21],以及富有表情的臉和生動細致的手[22]、[23]、[24]、[25]、[26]。這一趨勢與統計人體模型的成功密不可分。如圖1所示,自2015年發布SMPL模型[27]和2019年發布SMPL-X模型[22]以來,隨著它們的年度引用量逐年快速增長,它們獲得了越來越多的關注。人體網格的恢復在促進后續任務(如衣服人體重建[28]、[29]、[30]、動畫[31]、[32]和渲染[33])方面起著關鍵作用。它還涉及廣泛的應用,如VR/AR內容創建、虛擬試穿、計算機輔助指導等等,如圖2所示。
圖 1 三種具有代表性的3D統計人體模型的年度引用,即SCAPE[34]、SMPL[27]和SMPL-X[22]。
圖 2 人體網格恢復的現實應用:(a)一款健身視頻游戲(b) 虛擬試穿(c)3D+AI潛水教練系統(d)游泳過程中的動力學模擬
從單目圖像中恢復三維人體網格非常具有挑戰性,因為將二維觀測值提升到三維空間時存在固有的模糊性、柔性身體運動學結構、與環境的復雜性以及人工三維數據注釋不足等問題。為了解決這些問題,在該領域研究了兩種不同的范式,以恢復一致且物理上合理的結果。對于基于優化的范例[13]、[15]、[35],通過迭代的方式將身體模型顯式地應用于二維觀測。以各種數據項和正則化項為優化目標。對于基于回歸的范例[16]、[17]、[18]、[36]、[37]利用神經網絡強大的非線性映射能力,直接從原始圖像像素預測模型參數。設計了不同的網絡架構和回歸目標,以實現更好的性能。同時,為了促進這項任務的研究,還投入了大量精力創建各種數據集。盡管近年來取得了顯著進展,但在實現強健、準確和高效的人體網格恢復的最終目標面前,業界仍然面臨著挑戰。
本綜述主要關注深度學習時代的單目3D人體網格恢復方法(也稱3D人體姿勢和形狀估計)。將單個RGB圖像和單目RGB視頻(統稱為“單目圖像”)作為輸入。除了從單目圖像中恢復單人外,我們還考慮了多人恢復。對于重建目標,使用統計人體模型來估計衣服下的體型。RGBD和多視圖輸入有助于解決歧義,但它們不在本綜述的范圍內。我們只是忽略了服裝的造型,這是向照片現實主義邁進的一步。我們請讀者參考[38]中關于人類服裝重建的內容。我們也不涉及神經渲染方面的工作[33],[39],這些工作側重于外觀的建模,而不是幾何體。這項調查也是對現有調查論文的補充,主要關注2D/3D人體姿勢估計[40]、[41]、[42]。
其余部分組織如下。在第2節中,我們簡要介紹了人類模型的發展歷史,并提供了SMPL模型[27]的詳細信息,SMPL模型是人類推理中使用最廣泛的模板。第3節描述了用手和臉進行身體恢復和全身恢復的方法。方法分為基于優化的范式或基于回歸的范式。在第4節和第5節中,我們將整理出幫助處理視頻或多人恢復的新模塊。然而,如果我們僅僅用常規數據項監督人體,結果可能在物理上不合理,并且存在視覺缺陷。因此,在第6節中,我們討論了通過涉及真實攝像機模型、接觸約束和人類先驗來增強物理合理性的策略。第7節總結了常用的數據集和評估標準,以及基準排行榜。最后,我們在第8節中得出結論并指出一些有價值的未來方向。
人體網格恢復
自從統計身體模型發布以來,研究人員利用它們從單目圖像中估計形狀和姿勢。Balan等[82]率先從圖像中估計SCAPE[34]的參數。目前,學術界普遍采用SMPL[27]進行三維體型恢復。這要歸功于SMPL的開源特性和它周圍快速發展的社區:地面真相采集方法[13],[77],具有擴展SMPL注釋的數據集[35],[83],[84],[85],[86],以及里程碑作品[16],[37],[87]。在本節中,我們將根據預先定義的人體模型[22],[27],[34]來整理人體網格恢復的文章。身體捕捉身材和姿勢的變化,但不考慮衣服或頭發。因此,更準確地說,這些方法可以估計出穿著衣服或緊身衣時身體的形狀和姿勢。在圖4中,我們演示了一些有代表性的方法。我們根據它們采用的人體模型對它們進行分類。
圖 3最相關的參數化人體模型和3D人體網格恢復方法時間軸
圖 4基于回歸的人體網格恢復方法的流程。
回歸網絡中各種輸出類型和中間表示的說明。我們研究了四種輸出類型:(a)參數輸出;(b)網格頂點的三維坐標;(c)UV 位置圖;(d)在姿態和/或形狀參數上的概率分布。在多階段框架中采用的中間表示包括(a)輪廓;(b)分割;(c) 2D位姿熱圖;(d)二維關鍵點坐標;(e) IUV地圖;(d)三維關鍵點坐標,可作為簡化輸入或指導。
表 1 用于人體網格恢復的典型回歸方法總結
在這篇論文告中,我們對過去十年中的3D人體網格恢復方法進行了全面概述。分類基于設計范式、重構粒度和應用場景。我們還特別考慮了物理合理性,包括相機模型、接觸約束和人類先驗。在實驗部分,我們介紹了相關的數據集、評估指標,并提供了性能比較,希望促進這一領域的進步。
機器如何創造逼真的圖像?這是個有意思的問題。深度學習算法的發展為這個問題的解決帶來了機會。南洋理工大學Chuanxia Zheng博士論文系統性來回答這個問題。論文的目的是展示在解決各種視覺合成和生成任務方面的研究貢獻,包括圖像翻譯、圖像補全和場景分解。非常值得關注。
本文是對目標的整體展示。在第一行,我們首先展示了一般的視覺理解任務,由于大量的視覺數據和深度學習網絡,這些任務在圖像分類、實例分割和圖像字幕等方面取得了快速的進展[64]。在這篇論文中,我們試圖探索相反的方向,視覺合成,在那里我們促使模型想象和生成新的逼真的圖像,通過估計數據分布。
ChuanXia Zheng是南洋理工大學計算機科學與工程學院的博士生,導師是at-Jen Cham和Jianfei Cai。研究興趣涵蓋計算機視覺和機器學習。目前的工作重點是場景理解,特別是圖像生成、補全和翻譯、3D場景理解和補全,目標是構建智能機器,能夠重建一個近乎真實的世界。//www.chuanxiaz.com/
本文的目的是展示我們在解決各種視覺合成和生成任務方面的研究貢獻,包括圖像翻譯、圖像補全和場景分解。本論文共五篇論文,每一篇論文都提出了一種新的基于學習的方法來合成內容可信且外觀逼真的圖像。每一項工作都證明了所提出的方法在圖像合成方面的優越性,并對其他任務如深度估計做出了進一步的貢獻。
第一部分描述了改變視覺外觀的方法。特別地,在第二章中,我們提出了一個合成到真實的翻譯系統來處理真實世界的單圖像深度估計,其中只使用合成圖像深度對和未配對的真實圖像進行訓練。該模型通過利用低成本但高度可重用的合成數據,為現實世界的評估任務提供了一個新的視角。在第三章中,重點是一般的圖像到圖像(I2I)翻譯任務,而不是狹義的合成到現實的圖像翻譯。提出了一種新穎的空間相關損失方法,該方法簡單、高效、有效地保持了場景結構的一致性,同時支持較大的外觀變化。自相似的空間模式被用作定義場景結構的一種手段,這種空間相關的損失只用于捕捉圖像中的空間關系,而不是域外觀。廣泛的實驗結果表明,在多個I2I任務中,包括單模態、多模態甚至單圖像翻譯,使用這種內容損失可以得到顯著的改進。此外,這種新的損失可以很容易地集成到現有的網絡架構中,因此具有廣泛的適用性。
第二部分介紹了為屏蔽區域生成語義上合理內容的方法。與第一部分中單純修改局部外觀不同,本文提出了兩種方法來為給定的圖像創建新的內容和逼真的外觀。在第四章中,我們引入了一個新的任務,叫做多元圖像補全,即生成多種多樣的似是而非的結果,而不是像以前的作品那樣,對這個高度主觀的問題只進行單一的“猜測”。在本章中,我們提出了一個新穎的概率原則框架,該框架在這一新任務中取得了最先進的結果,并成為后續工作的基準。然而,我隨后觀察到,基于卷積神經網絡(CNN)的體系結構通過許多堆疊層模擬了長期依賴關系,在這些層中,孔洞逐漸受到鄰近像素的影響,從而產生一些工件。為了緩解這個問題,在第5章中,我建議將圖像補全作為一個無方向的序列到序列的預測任務,并在第一階段部署一個轉換器來直接捕獲編碼器中的長期依賴關系。至關重要的是,一個帶有小且不重疊接受域(RF)的限制性CNN被用于令牌表示,這允許轉換器顯式地建模在所有層中具有同等重要性的遠程上下文關系,當使用較大的RF時,不會隱式地混淆鄰近的令牌。在多個數據集上的大量實驗表明,與以往基于CNN的方法相比,該方法具有更好的性能。
第三部分將識別學習和最新的生成建模結合到一個整體場景分解和完成框架中,在這個框架中,一個網絡被訓練成將場景分解為單個對象,推斷其潛在的遮擋關系,此外,想象最初被遮擋的對象可能看起來像什么,而只使用單個圖像作為輸入。在第6章中,我們的目標是對場景進行更高層次的結構分解,自動識別物體并為被遮擋的區域生成完整的形狀和逼真的外觀,而不需要像在第二部分中那樣使用人工掩蔽。為了實現這一目標,我們提出了一種新的流程,通過多次迭代將實例分割和場景完成兩項任務交織在一起,以分層的方式求解對象。該系統比目前的先進方法有了顯著的改進,并能實現一些有趣的應用,如場景編輯和重組。
綜上所述,本文介紹了一系列通過改變外觀、想象語義內容、自動推斷不可見的形狀和外觀來合成真實感圖像的工作。
目錄內容:
1 Introduction
II Generating Semantic Content: Image Completion
III Modeling Shape and Appearance: Completed Scene Decomposition
悉尼大學最新《基于圖像的自動駕駛三維目標檢測研究進展》論文
基于圖像的三維目標檢測是自動駕駛技術中最基本、最具挑戰性的問題之一,近年來越來越受到業界和學術界的關注。得益于深度學習技術的快速發展,基于圖像的三維檢測已經取得了顯著的進展。特別是,從2015年到2021年,已有200多部著作對這個問題進行了研究,涵蓋了廣泛的理論、算法和應用。然而,到目前為止,還沒有最近的綜述來收集和組織這些知識。在本文中,我們填補了文獻中的這一空白,對這一新興且不斷發展的研究領域進行了首次全面的綜述,總結了基于圖像的三維檢測最常用的方法,并深入分析了它們的每個組成部分。此外,我們還提出了兩種新的分類法,將最先進的方法組織成不同的類別,目的是為現有方法提供一個更系統的回顧,并促進與未來工作的公平比較。回顧了目前所取得的成果,分析了當前該領域面臨的挑戰,并討論了基于圖像的三維檢測研究的未來方向。
//www.zhuanzhi.ai/paper/ffba05abdd8ef430a2cb5682c64fa1a2
引言
自動駕駛有可能從根本上改變人們的生活,提高流動性,減少旅行時間、能源消耗和排放。因此,不出所料,在過去的十年里,研究和行業都在大力開發自動駕駛汽車。三維目標檢測作為自動駕駛的關鍵實現技術之一,受到了廣泛的關注。特別是最近,基于深度學習的3D目標檢測方法得到了廣泛的應用。
現有的三維目標檢測方法可以根據輸入數據是圖像還是激光雷達信號(一般表示為點云)大致分為兩類。與基于激光雷達的方法相比,僅從圖像中估計三維邊界框的方法面臨著更大的挑戰,因為從二維輸入數據中恢復三維信息是一個不適定問題。然而,盡管存在這種內在的困難,在過去的六年里,基于圖像的3D目標檢測方法在計算機視覺(CV)社區中得到了廣泛應用。在該領域的頂級會議和期刊上發表論文80余篇,在檢測精度和推理速度方面取得多項突破。
本文首次對基于深度學習技術的基于圖像的三維目標檢測技術的最新進展進行了全面、系統的綜述。特別地,本綜述總結了這一領域的以往研究工作,從開創性的方法[1],[2]到ICLR ' 2022發表的最新方法[3],[4]。該綜述回顧和分析了基于圖像的三維檢測模型的高層框架和每個必需組件的具體設計選擇(如特征提取、損失公式等)。此外,我們提出了兩種新的分類法來分類現有的方法,即根據它們采用的框架和使用的輸入數據。這樣做的目的是為了促進系統地分析目前的方法和對今后的工作進行公平的比較。
本工作的主要貢獻如下:
本文除了詳細介紹這些基于圖像的三維檢測器的技術細節外,還介紹了它們的分類、常用數據集、評價指標和潛在的挑戰/研究方向。此外,我們還提供了一個持續維護的項目頁面: 3dodi-survey
本文組織如下。第2節簡要介紹了基于圖像的三維檢測任務。第3節總結了常用的數據集和評價標準。第4節描述了常用框架。這三個部分是為初學者準備的,以便他們快速對基于圖像的三維檢測問題獲得一個很好的理解。在第5節中,我們比較了3D檢測器中通常需要的每個組件的細節,而第6節討論了常用的輔助輸入數據。這兩個部分可以幫助研究者在這個領域建立一個清晰,深入和更結構化的知識的主題。第7節介紹了本課題的一些討論,并在第8節中指出了未來可能的研究方向。這兩個部分為以后的作品提供了見解。最后,在第9節中得出結論。
任務
在給定RGB圖像和相機參數的條件下,基于圖像的三維目標檢測的目標是對感興趣的目標進行分類和定位。在3D世界空間中,每個對象都由其類別和邊界框表示。通常,三維包圍盒的參數化是相對于預定義的參考坐標系(例如記錄數據的自我車)的位置[x, y, z],尺寸[h, w, l]和方向[θ, φ, ψ] 。在大多數自動駕駛場景中,只考慮沿上軸方向的航向角θ(偏航角)。圖1在2D圖像平面和鳥瞰圖上顯示了示例結果。雖然一般問題的基于圖像的三維對象檢測可以表示如上所述,值得一提的是:i):除了類別和3D邊界框,需要額外的一些基準預測,如二維邊界框為KITTI數據集[5]和速度/屬性nuScenes數據集[6]。ii):雖然本任務最初只提供圖像和相機參數,但該領域普遍采用輔助數據(如立體對、CAD模型、LiDAR信號等)。
數據集
眾所周知,大規模數據集的可用性對數據驅動的深度學習技術的成功至關重要。對于自動駕駛場景下基于圖像的三維目標檢測,公開的數據集[5]、[6]、[11]、[7]、[8]、[9]、[10]、[12]、[13]、[14]的主要特征如表1所示。其中KITTI 3D[5]、nuScenes[6]、Waymo Open[11]是最常用的數據集,極大地促進了3D檢測的發展。在下面的文章中,我們將根據數據集的大小、多樣性和其他數據提供有關這些基準測試的主要信息。
方法
我們將現有的基于圖像的三維檢測器分為兩類: (1)基于二維特征的方法。這些方法首先從二維特征中估計出圖像平面中物體的二維位置(以及方向、深度等項),然后將二維檢測提升到三維空間中。基于此,這些方法也可以稱為“基于結果提升的方法”。此外,由于這些方法通常與二維檢測模型具有相似的結構,因此可以按照二維檢測中常用的分類方法(即基于區域的方法和單次射擊的方法)進一步進行分類。(ii) 基于三維特征的方法。這些方法基于三維特征對目標進行預測,從而可以在三維空間中直接定位目標。此外,根據如何獲取三維特征,這些方法可以進一步分為“基于特征提升的方法”和“基于數據提升的方法”。顧名思義,前者通過提升二維特征獲得三維特征,后者直接從二維圖像傳輸的三維數據中提取三維特征。根據前面提到的分類法,我們在圖2中突出顯示了具有關鍵基準的重要方法。
由于基于圖像的三維檢測沒有具體的分類方法,以往的工作一般采用經典的二維檢測分類方法,將三維檢測器分為基于區域的方法和單鏡頭的方法。我們提出的分類方法更適合于基于圖像的三維檢測,因為: (i) 我們的分類方法基于特征表示對現有的方法進行分組,從而幫助讀者快速構建結構化的知識。(ii)我們的分類表明了檢測器如何對齊2D輸入數據和3D結果之間的維度不匹配(即結果提升、特征提升或數據提升),這是這項任務的核心問題。(3)我們的分類法可以清晰地定義現有的方法,而以往的分類法不能。例如,基于偽LiDAR的方法(將在4.3.2節中介紹)可以采用任何基于LiDAR的探測器,包括基于區域的方法和單次樣本的方法。因此,很難將這些方法劃分給任何一方。
未來挑戰
基于圖像的三維目標檢測是一個相對較新的領域。性能得到了迅速的提高和不斷的提高,但仍有許多局限性和方向需要進一步分析和探索。在本節中,我們重點介紹了一些最相關的問題,希望為有影響力的未來工作提供相關線索。
深度估計
基于圖像的三維目標檢測方法的性能在很大程度上依賴于目標精確距離的估計能力。因此,分析和提高三維目標探測器的深度估計能力是未來的一個相關方向。最近的許多研究,如[20],[49],[75],[92],[95],[25],試圖解決這個問題,提出了回歸目標和損失公式的替代定義,并表明仍有很大的改進空間。
不止監督學習
創建3D檢測數據集是一個非常昂貴和耗時的操作。它通常涉及不同技術(如激光雷達、GPS、相機)之間的協同作用,以及大量的勞動力。注釋過程的要求很高,即使存在許多質量檢查,它也不可避免地受到錯誤的影響。因此,可以看到,幾乎所有的三維物體檢測方法都是完全監督的,即需要訓練三維包圍盒標注。相反,在其他相關領域,完全的監督要求已被放寬,如深度估計[56],[183]或基于lidar的3D檢測[184],[185],[186],[187],很少有人致力于探索半監督或自監督方法[178],[188],[4]。在這方面,值得強調的是[178]中的方法,該方法引入了一個可微分的渲染模塊,可以利用輸入的RGB圖像作為唯一的監控源。此外,鑒于在通用場景(如NeRF[189])和真實對象(如[190],[191])上可區分渲染領域的最新進展,我們相信這個特定的方向非常有價值,并有可能放松3D框注釋的要求。
多模態
如第7節所述,圖像數據和LiDAR數據都有各自的優勢,一些方法,如[31],[89],[32],[162],[163],最近已經開始將這兩種類型的數據整合到一個模型中。然而,這一領域的研究仍處于起步階段。此外,還可以考慮其他數據形態,進一步提高算法的準確性和魯棒性。例如,與激光雷達相比,雷達設備具有更長的傳感距離,可以用來提高對遙遠物體的精度。此外,在一些極端天氣條件下,如雨天和大霧天氣,雷達更加穩定。然而,雖然在一些數據集[6],[192],[193]中已經提供了雷達同步數據,但研究如何使用的方法卻很少[193],[194],[195]。另一個例子是來自熱相機的數據[196],這為解決不利的照明條件,提高探測精度提供了新的機會。綜上所述,理想的檢測算法應該集成多種數據,覆蓋異構和極端條件。
時間序列
在現實世界中,人類駕駛員依靠連續的視覺感知來獲取周圍環境的信息。然而,該領域的大部分工作都是從單幀的角度來解決三維檢測問題,這顯然是次優的,最近只有一項工作[69]開始考慮時間線索和約束。另一方面,大量的工作已經證明了在許多任務中使用視頻數據的有效性,包括二維檢測[197]、[198]、深度估計[199]、[200]、分割[201]、[202],以及基于LiDAR的三維檢測[203]、[204]、[205]。這些相關領域的成功證明了視頻數據在三維探測任務中的潛力,通過引入時間數據和構建時空空間新約束可以實現新的突破。
泛化性
泛化對自動駕駛汽車的安全性起著重要的作用。在這方面,不幸的是,眾所周知,基于圖像的3D對象檢測方法在測試看不見的數據集、對象或具有挑戰性的天氣條件時,性能會有相當大的下降。
本文綜述了基于圖像的自動駕駛三維檢測技術的最新進展。我們看到,從2015年到2021年,已經有很多關于這個話題的論文發表。為了對這些方法進行系統的總結,我們首先對現有的方法進行了分類。然后,對這些算法進行了詳細的比較,討論了三維檢測中各個必要的組成部分,如特征提取、損耗計算、后處理等。我們還討論了輔助數據在這一領域的應用,支持有必要進行系統的總結,如本次調查和更好的協議,以便在未來的工作中進行公平比較。最后,我們描述了這一領域中一些開放的挑戰和潛在的方向,可能在未來幾年激發新的研究。
論文標題://www.zhuanzhi.ai/paper/73cf9736c65be0102766f210e8693513
論文鏈接:
作者單位:中國人民大學
26頁綜述,共計99篇參考文獻!本文對基于圖像(單目/立體)、點云、多模態融合的3D目標檢測技術進行全面調研,內容包括傳感器、基礎知識和最經典和最先進的檢測方法及其優缺點。
自動駕駛被認為是保護人類免受嚴重碰撞的最有希望的補救措施之一。為此,3D目標檢測作為此類感知系統的核心基礎,尤其是在路徑規劃、運動預測、碰撞避免等方面。通常,立體或單目圖像與相應的3D點云已經是3D物體的標準布局檢測,其中點云越來越普遍,提供準確的深度信息。盡管已有努力,但點云上的3D目標檢測仍處于起步階段,因為點云本質上的高度稀疏性和不規則性,相機視圖和 LiDAR 鳥瞰視圖之間的錯位視圖,用于模態協同,遠距離的遮擋和尺度變化,最近,3D對象檢測取得了重大進展,正在研究大量文獻以解決這一視覺任務。因此,我們全面回顧了該領域的最新進展,涵蓋了所有主要主題,包括傳感器、基礎知識和最近最先進的檢測方法及其優缺點。此外,我們引入了指標并提供了對流行公共數據集的定量比較。在對所調查的工作進行深入分析后,將明智地確定未來工作的途徑。最后,我們總結了這篇論文。