點云數據由于其緊湊的形式和在表示復雜3D結構方面的靈活性而得到了廣泛的研究。點云數據準確捕捉和表示復雜3D幾何形狀的能力使其成為計算機視覺、機器人技術和自動駕駛等廣泛應用的理想選擇,這些應用都需要了解底層空間結構。鑒于標注大規模點云數據的挑戰,近年來自監督點云表示學習越來越受到關注。這種方法旨在從未標記的數據中學習通用且有用的點云表示,從而避免了大量的手動標注。在本文中,我們對使用DNNs的自監督點云表示學習進行了全面調查。我們首先介紹研究動機和近期研究的一般趨勢。然后簡要介紹常用的數據集和評估指標。在此基礎上,我們深入探討了基于這些技術的自監督點云表示學習方法。最后,我們分享了一些關于自監督學習在預訓練3D點云方面可能面臨的挑戰和潛在問題的想法。
1. 引言
三維點云是一種緊湊而靈活的表示形式,提供了豐富的幾何、形狀和尺度信息。隨著3D采集技術的快速進步,用于捕獲點云的3D傳感器已經變得越來越容易獲得,包括各種類型的3D掃描儀,激光雷達和RGB-D相機[1],[2]。當與圖像結合時,這些3D點云數據可以幫助機器感知周圍環境,從而被廣泛應用于計算機視覺、機器人、自動駕駛、遙感和醫療[3]等與場景理解相關的應用中。
隨著深度神經網絡(DNN)的不斷發展,點云理解得到了越來越多的關注,導致了近年來許多深度架構和模型的發展。然而,深度網絡的有效訓練通常需要大規模的、人工標注的訓練數據,例如用于目標檢測的3D邊界框和用于語義分割的逐點標注。由于遮擋、形狀變化以及人類感知和點云顯示之間的視覺不一致等因素,收集這些注釋可能是費時費力的。因此,大規模標注點云的高效收集已成為深度神經網絡有效設計、評估和部署的瓶頸。
為了規避耗時且昂貴的數據標記過程,許多自監督方法被提出,以從大規模無標記點云中學習視覺特征,而不依賴任何人工生成的標簽。一種流行的方法涉及設計各種前置任務讓網絡來解決。通過優化前置任務的目標函數來訓練網絡,并在此過程中學習特征。各種前置任務已被提出用于自監督學習,包括點云重建、對比學習和多模態學習等。前置任務具有兩個共性:(1)深度神經網絡在求解前置任務時必須捕獲點云的視覺特征;(2)通過利用數據本身的結構,從數據本身(自監督)中產生監督信號。 為促進方法學的進步并進行全面的比較,本文回顧了3D預訓練的自監督學習(SSL)方法,并為比較和預測技術提供了一個統一的視角。對該問題的綜合方法突出了現有方法的差異和相似性,可能鼓舞人心的新解決方案。我們將本次調查的貢獻總結如下:
統一的框架和系統的分類。本文提出了一個統一的框架,基于該框架,將現有的工作分為兩大類:對象和室內層,以及室外層。構建了下游任務和SSL學習方案的分類,以提供對這一領域的全面理解。 全面和最新的綜述。本文對經典和前沿的3D預訓練SSL方法進行了全面和及時的調查。對于每種類型的方法,都提供了細粒度的分類、深入的比較和總結。據我們所知,本文對SSL進行了首次回顧,特別關注預訓練的3D點云數據。 展望未來方向。本文強調了當前研究的技術局限性,并為未來的工作提出了幾個有希望的途徑,從各種角度提供了見解,以激勵該領域的進一步發展。
本綜述的結構如下:第2節介紹了預訓練點云的自監督學習的背景知識、常用的數據集及其特點。第3節系統地回顧了在物體和室內場景級別預訓練點云的SSL方法,而第4節比較和總結了室外場景級別數據的方法。最后,第5節確定了自監督點云預訓練的幾個有希望的未來方向。
2 物體和室內場景級別的自監督學習(SSL)
物體級別的自監督學習(SSL)方法主要關注使用單個3D物體(如椅子、桌子、汽車等)預訓練模型,這些物體通常與語義標簽關聯,以提供有關其身份的上下文信息。這種類型的數據通常用于物體識別、檢測和分割等任務,旨在識別和定位更大場景中的單個物體。另一方面,室內場景級別的SSL方法專注于使用整個3D室內環境預訓練模型,這些環境通常包含多個物體及其空間布局。室內場景級別的數據通常與物體和建筑元素的語義標簽關聯,例如“墻”、“門”、“窗戶”和“地板”,或者根據功能標簽進行分類,例如“廚房”、“臥室”、“客廳”或“辦公室”。與物體級別的SSL方法相比,室內場景級別的SSL方法通常需要將輸入數據預先分割成語義區域或物體,以提供關于場景的上下文信息。
**2.1 基于重建的自監督學習 **基于重建的自監督學習方法采用重建任務,使網絡能夠學習更好的3D點云表示(見圖3)。根據預設任務的性質,它們可以大致分為兩個主要子類別:基于掩碼的和基于損壞的。還有一些方法不屬于這兩組,它們被歸類為“其他”方法。
2.2 基于對比學習的自監督學習
對比學習是一種流行的自監督學習方法。它通過輔助任務構建正樣本和負樣本,并訓練模型使正樣本對在嵌入空間中靠近,同時將正樣本與負樣本分開。與生成方法相比,對比學習不依賴于特定樣本的細節,而是依賴于在嵌入空間中區分正樣本和負樣本。這一特性使得模型更容易優化和更具泛化性。
3.3 基于空間的自監督學習
基于空間的自監督學習方法利用點云中固有的豐富幾何信息來開發預設任務。圖5展示了一些典型的幾何變換,如裁剪、剪裁、抖動、隨機丟棄、下采樣和歸一化。通過采用這些空間退化點云的恢復過程,可以有效地預訓練模型,利用數據中豐富的空間上下文。
2.4 基于時間的自監督學習
基于時間的自監督學習方法強調利用序列中或人工生成的變換中固有的時間信息。點云序列由連續的點云幀組成,類似于視頻數據。例如,從RGB-D視頻幀轉換的室內點云序列和由連續點云掃描組成的激光雷達序列數據。這些點云序列包含豐富的時間信息,可以通過為自監督學習設計預設任務并利用提取的數據作為監督信號來訓練網絡。所學習的表示可以有效地轉移到各種下游任務。
2.5 多模態自監督學習
多模態學習旨在利用不同模態之間的相關性,如圖像、文本和點云(圖7)。這些方法的優點包括能夠利用來自多個來源的互補信息,對任何一種模態中缺失或嘈雜數據的魯棒性,以及對新環境的改善泛化能力。
3 室外場景級別的自監督學習
室內級別和室外級別自監督學習之間的主要區別源于點云數據的復雜性和稀疏性。室內級別的自監督學習關注具有相對較少變化和較高點云密度的環境,如房間、建筑物或其他封閉空間。另一方面,室外級別的自監督學習處理更復雜和動態的環境,如街道、森林和城市景觀,其中點云通常更稀疏。與物體和室內場景級別數據相比,室外點云的稀疏性導致語義信息的稀缺,因為可能只有少數幾個點表示一個物體或類別。此外,由于各種未見過的類別,室外場景級別點云的感知通常被認為是一個開放集問題,使得任務更具挑戰性。 自動駕駛系統通常依賴于室外場景的LiDAR數據,這些數據稀疏且缺乏顏色信息[95]。雖然無標簽的LiDAR數據很容易獲得1,但有標簽的數據的生產成本很高。這為在自動駕駛中建立依賴大規模標記3D數據的感知模型提出了一個重大挑戰[97]。因此,最近的工作專注于利用對大量未標記3D數據的自監督學習,以提高自動駕駛中下游任務的性能。上述挑戰使得室外場景級點云的預訓練成為一項艱巨的任務。然而,一些基于預測和流的方法已經被開發出來以匹配室外場景級點云的內在特性。
3.1 基于重構的自監督學習
與物體和室內場景級別的數據類似,基于重構的自監督預訓練已成為室外場景級別數據的一個重要研究領域(如圖8所示)。然而,室外場景級別點云的稀疏性給3D重構帶來了挑戰。為了解決直接處理大規模點云所遇到的困難,基于體素的和鳥瞰視圖(BEV)的重構方法已成為解決這些挑戰的有效途徑。 **3.2 基于對比學習的自監督學習 **
與物體或室內場景級別點云相比,室外場景級別點云具有更大的尺寸、噪聲、稀疏性、復雜的天氣和光照條件。這些因素可能會影響基于對比學習的自監督預訓練方法的有效性。因此,在室外場景級別點云中應用基于對比學習的自監督學習需要根據室外場景的特點進行改進,以提高預訓練模型的性能和泛化能力。在本節中,我們主要關注室外場景級別點云的對比學習。 **3.3 多模態自監督學習 **
隨著距離的增加,由于激光束發散,點云的稀疏度會增加,這使得預測小型和遠離的物體的邊界和語義類別變得非常困難。結合多種傳感器,如激光雷達和攝像頭,可以提供互補信息,從而提高自動駕駛系統的整體魯棒性。使用攝像頭提供的高分辨率二維圖像,使系統能夠更好地處理那些僅通過激光雷達數據難以檢測和分類的小型和遠離的物體(如圖10所示)。然而,獲取和處理多模態數據以實現高質量數據融合是非常繁瑣的。盡管可以通常獲得更高的精度,但多模態探測器不可避免地要犧牲推理效率來處理額外的模態[113]。
**3.4 基于預測的自監督學習 **
點云預測有助于車輛提高其在路徑規劃和碰撞避免等任務中的決策能力。由于激光雷達掃描的后續幀中天然提供了地面真實情況,因此可以通過自監督學習進行訓練,無需昂貴的標注,使其成為自動駕駛應用的有前途的方法。基于距離圖像和視覺的預測方法已經被廣泛研究,用于從過去的一系列激光雷達掃描中預測未來的點云。[115]和[116]等方法利用RNN來建模時間相關性,而[117]、[118]、[119]和[120]等方法關注于估計體素化的點云。
**3.5 基于流的自監督學習 **
場景流指的是點云時間序列中每個3D點的相對運動。場景流估計是自動駕駛領域的一個重要主題,因為它通過幫助自動駕駛車輛感知周圍實體的動作來支持安全規劃和導航。
給予機器精確感知并理解三維視覺世界的能力,是讓它們能夠在我們的物理世界中有效交互的基礎步驟。然而,由于3D形狀的復雜幾何結構和有限的高質量數據資源,大規模3D場景理解和感知的研究仍處于初級階段。在各種3D表示中,點云因其靈活性、緊湊性以及接近原始感知數據的特性而引起了越來越多的關注。盡管如此,由于其無序、非結構化和非均勻的特性,對大規模3D點云的語義理解仍然是一個挑戰。為此,本論文從高質量的城市規模數據集出發,做出了三個核心貢獻,然后完全監督語義理解,以便弱監督標簽有效學習大規模3D點云。本論文的主要貢獻有三個方面。在第三章中,我們首先構建了一個擁有近30億豐富注釋點的城市規模光學測量點云數據集。我們還識別出城市規模3D場景理解面臨的一些開放和獨特的挑戰,并進行全面的實驗分析來應對這些挑戰。這項工作指出了現有算法的局限性,并為理解城市環境中大規模3D點云提供了一些深思熟慮的結論。
在第四章中,我們利用高質量的大規模3D數據集,進一步研究大規模3D點云有效語義分割的研究問題。我們首先分析現有下采樣策略的優點和缺點,發現隨機抽樣是大規模點云有效學習的適合組成部分。此外,我們提出了一個本地特征聚合模塊,以分層方式增加感受野,并保留重要特征。然后,我們構建了一個高效的輕量級神經結構RandLA-Net,可以直接推斷出數百米范圍內包含數百萬點的大規模點云的每一點語義。在第五章中,我們更進一步研究大規模3D點云的標簽高效學習問題,即在有限注釋的情況下實現高質量的語義分割。我們首先檢查3D點云弱監督學習中的關鍵問題,包括不同的弱監督方案和弱注釋的關鍵點。通過一個初步研究,我們發現密集的3D注釋實際上是冗余和不必要的。受此啟發,我們提出了一個新的弱監督框架,通過利用鄰近點之間的語義同質性,隱式增加了可用監督信號的總量。這是通過一個點鄰域查詢實現的,允許稀疏的訓練信號被反向傳播到更廣泛的上下文。本論文中提出的所有算法和數據集都已經在GitHub上開源,以便于未來的研究。RandLA-Net算法被認為是CVPR 2020會議上最具影響力的論文之一,并已被整合到Open3D和TorchPoints3D等代碼庫中。SensatUrban數據集被用作兩次Urban3D挑戰的平臺,為城市規模點云的語義理解的進步做出了貢獻。總的來說,這篇論文呈現了一個高質量的數據集和兩個新穎的數據驅動算法,目標是實現大規模3D點云的有效、可擴展和有效的基于學習的語義理解,最終提高智能機器在實踐中的實時3D感知能力。
大多數視覺識別研究在深度神經網絡(DNN)訓練中嚴重依賴群體標記數據,通常為每個視覺識別任務訓練一個DNN,導致耗時費力的視覺識別范式。為應對這兩個挑戰,視覺-語言模型(VLM)最近得到了深入研究,它從互聯網上幾乎無限可用的網絡規模的圖像-文本對中學習豐富的視覺-語言相關性,并用一個VLM對各種視覺識別任務進行零樣本預測。**文中對面向各種視覺識別任務的視覺語言模型進行了系統綜述,包括: (1)視覺識別范式發展的背景; (2) VLM的基礎,總結了廣泛采用的網絡架構、預訓練目標和下游任務; (3) VLM預訓練和評估中廣泛采用的數據集;(4)對現有的VLM預訓練方法、VLM遷移學習方法和VLM知識蒸餾方法進行綜述和分類;(5)對所述方法的基準化、分析和討論;(6)視覺識別中VLM研究面臨的挑戰和未來可能的研究方向。**與此調研相關的項目已在//github.com/jingyi0000/VLM survey上創建。
1. 引言
視覺識別(如圖像分類、目標檢測和語義分割)是計算機視覺研究中長期存在的挑戰,也是自動駕駛[1]、[2]、遙感[3]、[4]、機器人[5]、[6]等無數計算機視覺應用的基石。隨著深度學習[7]、[8]、[9]的出現,視覺識別研究通過利用端到端的可訓練深度神經網絡(DNNs)取得了巨大的成功。然而,從傳統機器學習[10]、[11]、[12]、[13]向深度學習的轉變帶來了兩個新的重大挑戰,即深度學習從零開始[7]、[8]、[9]的經典設置下的DNN訓練收斂緩慢,以及在DNN訓練中費力耗時地收集大規模、特定任務、眾標數據[14]。 最近,一種新的學習范式預訓練、微調和預測在廣泛的視覺識別任務[15]、[16]、[17]、[18]、[19]中表現出了巨大的有效性。在這種新范式下,DNN模型首先用某些現成的大規模訓練數據(被標注或未標注)進行預訓練,然后用圖2(a)和(b)所示的特定任務標注訓練數據對預訓練模型進行微調。通過在預訓練模型中學習到的全面知識,這種學習范式可以加速網絡收斂,并為各種下游任務訓練表現良好的模型。
盡管如此,預訓練、微調和預測范式仍然需要一個額外的階段,使用來自每個下游任務的標記訓練數據進行特定任務的微調。受自然語言處理[20],[21],[22],[23]進展的啟發,一種名為視覺-語言模型預訓練和零樣本預測的新的深度學習范式最近受到越來越多的關注[14],[24],[25]。**在這種范式中,一種視覺-語言模型(VLM)是用互聯網上幾乎無限可用的大規模圖像-文本對進行預訓練的,預訓練的VLM可以直接應用于下游視覺識別任務,而無需微調,如圖2(c)所示。**VLM預訓練通常由某些視覺-語言目標[14],[25],[26]指導,使其能夠從大規模圖像-文本對[27],[28]中學習圖像-文本對應關系,例如:CLIP[14]采用圖像-文本對比目標,通過在嵌入空間中將成對的圖像和文本拉近并將其他圖像和文本推遠來進行學習。通過這種方式,預訓練的vlm捕獲了豐富的視覺-語言對應知識,并可以通過匹配任何給定圖像和文本的嵌入來進行零樣本預測。這種新的學習范式能夠有效地利用網絡數據,并允許零樣本預測,而不需要特定任務的微調,實現起來很簡單,但表現得非常好,例如,預訓練的CLIP在36個視覺識別任務中實現了出色的零樣本性能,從經典圖像分類[29],[30],[31],[32],[33]到人類行為和光學字符識別[14],[34],[35],[36],[37]。
隨著視覺-語言模型預訓練和零樣本預測的巨大成功,在各種VLM預訓練研究之外,人們還深入研究了兩條研究路線。第一行探索了帶有遷移學習[38],[39],[40],[41]的vlm。幾個遷移方法證明了這一點,例如,提示調優[38],[39],視覺適應[40],[41]等,所有預訓練的vlm對各種下游任務的有效適應都具有相同的目標。第二行通過知識蒸餾[42],[43],[44]探索vlm,例如,[42],[43],[44]探索如何從VLM中提取知識到下游任務,旨在在目標檢測,語義分割等方面取得更好的性能。
盡管從圖1所示的大量近期論文中證明了從VLM中獲取大量知識的濃厚興趣,但研究界缺乏一份全面的調查,可以幫助梳理現有的基于VLM的視覺識別研究、面臨的挑戰以及未來的研究方向。我們的目標是通過對各種視覺識別任務(包括圖像分類、目標檢測、語義分割等)中的VLM研究進行系統的綜述來填補這一空白。 從不同的角度進行了綜述,包括背景、基礎、數據集、技術方法、基準和未來的研究方向。我們相信,這項調查將為我們已經取得的成就提供一個清晰的藍圖,我們可以沿著這個新興但非常有前瞻性的研究方向進一步取得成就。
總而言之,這項工作的主要貢獻有三個方面。首先,對用于圖像分類、目標檢測和語義分割等視覺識別任務的VLMs進行了系統綜述。據我們所知,這是視覺識別VLMs的第一次綜述,通過對現有研究的全面總結和分類,為這個有前途的研究領域提供了一個大的圖景。其次,研究了視覺識別VLM的最新進展,包括對多個公共數據集上的現有工作進行全面的基準測試和討論。第三,分享了幾個用于視覺識別的VLM中可以追求的研究挑戰和潛在研究方向。
**本綜述的其余部分組織如下。**第2節介紹了視覺識別的范式發展和幾個相關的調查。第3節描述了VLM的基礎,包括廣泛使用的深度網絡架構、預訓練目標和VLM評估中的下游任務。第4節介紹了常用的VLM預訓練和評估中的數據集。第5節回顧并分類了VLM預訓練方法。第6節和第7節分別對VLM的遷移學習和知識蒸餾方法進行了系統綜述。第8節在多個廣泛采用的數據集上對所審查的方法進行了基準測試和分析。最后,我們在第9節中分享了視覺識別的幾個有前途的VLM研究方向。
2 背景
本節介紹了視覺識別訓練范式的發展,以及它如何向視覺-語言模型預訓練和零樣本預測范式演進。我們還討論了幾個相關的綜述,以突出本綜述的范圍和貢獻。
2.1 視覺識別的訓練范式
視覺識別范式的發展大致可以分為五個階段,包括(1)傳統機器學習和預測,(2)深度從頭學習和預測,(3)有監督的預訓練、微調和預測,(4)無監督的預訓練、微調和預測和(5)視覺-語言模型預訓練和零樣本預測。在接下來的內容中,我們將對這五種訓練范式進行詳細介紹、比較和分析。
2.1.1 傳統的機器學習和預測
在深度學習時代[7]之前,視覺識別研究嚴重依賴特征工程,使用手工特征[13]、[45]、[46]、[47]、[48]、[49]、[50]、[51]和輕量級學習模型[10]、[11]、[12]將手工特征分類為預定義的語義類別。例如,經典的SIFT特征[51]對圖像尺度、平移和旋轉的變化具有容忍度,實現了非常令人印象深刻的視覺識別性能。然而,這種范式需要領域專家為特定的視覺識別任務制作有效的特征,不能很好地應對復雜的任務,也具有較差的可擴展性。
2.1.2深度學習從零開始和預測
隨著深度學習[7]、[8]、[9]的出現,視覺識別研究通過利用端到端的可訓練dnn,用單一框架統一特征提取和分類過程,取得了巨大的成功。基于dnn的視覺識別繞開了復雜的特征工程,在很大程度上專注于神經網絡的架構工程,以學習有效特征。例如,ResNet[9]通過跳躍設計實現了有效的深度網絡,并可以從大量群體標記的數據中學習語義特征,在具有挑戰性的1000類ImageNet分類任務[52]上取得了前所未有的性能。另一方面,從傳統機器學習向深度學習的轉變提出了兩個新的重大挑戰,包括從頭開始深度學習的經典設置下的DNN訓練收斂緩慢,以及DNN訓練中費力且耗時地收集大規模、特定任務和眾標數據[14]。
2.1.3 有監督的預訓練、微調和預測
隨著發現從標記的大規模數據集中學習到的特征可以遷移到下游任務[15],[16],[17],從頭學習和預測的范式已經逐漸被有監督的預訓練、微調和預測的新范式所取代。這種新的學習范式,如圖2(a)所示,以監督損失對大規模標記數據(如ImageNet)進行預訓練DNN,然后用特定任務的訓練數據[15]、[16]、[17]對預訓練的DNN進行微調。由于預訓練的dnn已經學習了一定的視覺知識,它可以加速網絡收斂,并幫助用有限的特定任務訓練數據訓練出表現良好的模型。
雖然范式監督預訓練、微調和預測在許多視覺識別任務上實現了最先進的性能,但它在預訓練中需要大規模的標記數據。為了緩解這一限制,最近的研究[18]、[19]采用了一種新的學習范式無監督預訓練、微調和預測,探索自監督學習從無標記數據中學習有用和可轉移的表示,如圖2(b)所示。為此,各種自監督訓練目標(即,偽裝任務)[18]、[53]、[54]、[55]、[56]被提出,包括學習上下文信息的圖像修復[53],建模跨塊關系的掩碼圖像建模[54],通過對比訓練樣本[18]來學習判別式特征的對比學習等。然后,自監督預訓練模型在帶有標記任務特定訓練數據的下游任務上進行微調。由于這種范式在預訓練中不需要標記數據,它可以利用更多的訓練數據來學習有用的和可遷移的特征,與監督預訓練[18]、[19]相比,導致甚至更好的性能。
2.1.5 VLM預訓練和零樣本預測
盡管有監督或無監督預訓練的預訓練和微調范式提高了網絡收斂性,但它仍然需要一個額外的階段對圖2(a)和(b)所示的帶標簽的特定任務訓練數據進行微調。受自然語言處理的預訓練成功[20],[21],[22],[23]的激勵,一種名為視覺-語言模型預訓練和零樣本預測的新深度學習范式被提出用于視覺識別,如圖2(c)所示。在互聯網上幾乎無限可用的大規模圖像-文本對的情況下,VLM由特定的視覺-語言目標[14],[25],[26]進行預訓練。通過這種方式,預訓練的VLM捕獲了豐富的視覺-語言對應知識,并可以通過匹配任何給定圖像和文本的嵌入,對下游視覺識別任務進行零樣本預測(無需微調)。
與預訓練和微調相比,這種新的范式可以在不進行特定任務微調的情況下有效利用大規模網絡數據和零樣本預測。大多數現有研究探索從三個角度來改進VLM: 1) 收集大規模信息豐富的圖像-文本數據,2) 設計高容量模型以從大數據中有效學習,3) 設計新的預訓練目標用于學習有效的視覺-語言關聯。本文對視覺識別的這一新的視覺-語言學習范式進行了系統的綜述,旨在為現有的VLM研究、這一具有挑戰性但非常有前途的研究領域面臨的挑戰和未來方向提供一個清晰的藍圖。
3 VLM基礎
VLM預訓練[14],[24]旨在預訓練一個VLM來學習圖像-文本相關性,針對視覺識別任務的有效零樣本預測[9],[66],[67],[68]。給定圖像-文本對[27],[28],它首先采用一個文本編碼器和一個圖像編碼器來提取圖像和文本特征[9],[20],[69],[70],然后學習與某些預訓練目標[14],[24]的視覺-語言相關性。有了學習到的視覺-語言相關性,VLMs可以在未見過的數據上以零樣本的方式進行評估[14],[24],通過匹配任何給定圖像和文本的嵌入。在本節中,我們介紹了VLM預訓練的基礎,包括用于提取圖像和文本特征的常見深度網絡架構,用于建模視覺-語言相關性的預訓練目標,以及用于評估預訓練的VLM的下游任務。
4 數據集
本節總結了用于VLM預訓練和評估的常用數據集,如表1-2所示。
5 視覺-語言模型預訓練
如第3.2節所述,VLM預訓練已經用三種典型的方法進行了探索,包括對比目標、生成目標和對齊目標。本節通過表3所列的多個VLM預訓練研究對它們進行了回顧。
5.1 具有對比目標的VLM預訓練
對比學習在VLM預訓練中已經被廣泛探索,它為學習具有判別力的圖像-文本特征設計了對比目標[14],[80],[138]。
5.2 帶有生成目標的VLM預訓練
生成式VLM預訓練通過學習通過掩碼圖像建模、掩碼語言建模、掩碼跨模態建模和圖像到文本生成生成圖像或文本來學習語義知識。
5.3 帶有對齊目標的VLM預訓練
對齊目標通過學習預測給定的文本是否正確描述了給定的圖像,強制vlm對齊成對的圖像和文本。它可以大致分為全局圖像-文本匹配和局部區域-單詞匹配,用于VLM預訓練。
5.4 總結和討論
總而言之,VLM預訓練對具有不同跨模態目標的視覺-語言相關性進行建模,如圖像-文本對比學習、掩碼跨模態建模、圖像到文本生成和圖像-文本/區域-單詞匹配。還探索了各種單模態目標,以充分挖掘其自身模態的數據潛力,如針對圖像模態的掩碼圖像建模和針對文本模態的掩碼語言建模。另一方面,最近的VLM預訓練專注于學習全局視覺-語言相關性,在圖像級識別任務(如圖像分類)中有好處。同時,多項研究[84]、[89]、[91]、[150]、[151]、[152]、[153]通過區域-單詞匹配對局部細粒度視覺-語言相關性進行建模,旨在在目標檢測和語義分割中實現更好的密集預測。
6 VLM遷移學習
除了在沒有微調的情況下直接將預訓練的VLM應用于下游任務的零樣本預測外,最近研究了遷移學習,通過提示微調[38],[154],特征適配器[40],[41]等使VLM適應下游任務。本節介紹了預訓練VLM的遷移學習動機、常見的遷移學習設置以及三種遷移學習方法,包括提示調優方法、特征適配器方法和其他方法。
7 VLM知識蒸餾
由于VLM捕獲了涵蓋廣泛的視覺和文本概念的通用知識,一些研究探索了如何提取通用和魯棒的VLM知識,同時解決復雜的密集預測任務,如目標檢測和語義分割。本節介紹了從VLM中提取知識的動機,以及兩組關于語義分割和目標檢測任務的知識蒸餾研究。
8. 結論
用于視覺識別的視覺-語言模型能夠有效地使用web數據,并允許零樣本預測,而無需特定任務的微調,這很容易實現,但在廣泛的識別任務中取得了巨大的成功。本綜述從背景、基礎、數據集、技術方法、基準測試和未來研究方向等幾個角度廣泛回顧了視覺識別的視覺-語言模型。以表格的形式對VLM數據集、方法和性能進行了比較總結,為VLM預訓練的最新發展提供了一個清晰的藍圖,這將極大地有利于這個新興但非常有前途的研究方向的未來研究。
深度學習在2維圖像等結構化數據處理中表現出了優越性能,對非結構化的點云數據分析處理 的潛力已經成為計算機圖形學的重要研究方向,并在機器人、自動駕駛、虛擬及增強現實等領域取得一 定進展.通過回顧近年來3維點云處理任務的主要研究問題,圍繞深度學習在3維點云形狀分析、結構提取、檢測和修復等方向的應用,總結整理了典型算法.介紹了點云拓撲結構的提取方法,然后對比分析 了變換、分類分割、檢測跟蹤、姿態估計等方向的以構建神經網絡為主要研究方法的進展.最后,總結常 用的3維點云公開數據集,分析對比了各類方法的特點與評價指標,指出其優勢與不足,并從不同角度 對基于深度學習的方法處理點云數據所面臨的挑戰與發展方向進行了討論.
隨著3維傳感器的迅速發展,3維數據變得無 處不在,利用深度學習方法對這類數據進行語義理 解和分析變得越來越重要. 不同3維數據(體素、網格等)表示下,深度學習 的方法不盡相同,但這些方法應用于點云中都有一 定的局限性,具體表現為:體素化方法會受到分辨率 的限制;轉換為2維圖像的方法在形狀分類和檢索 任務上取得了優越性能,但將其擴展到場景理解或 其他3維任務(如姿態估計)有一定的困難;光譜卷 積神經網絡限制在流形網格;基于特征的深度神經 網絡會受到所提取特征表示能力的限制[1].
點云本身具有的無序性與不規則性為利用深度 學習方法直接處理該類數據帶來一定挑戰性:1)規 模局限性.現有研究方法一般針對小規模點云,而能 處理大型點云的方法也需要切割處理,即將其分為 小塊后再處理.但切割可能會造成點云整體信息的 丟失.2)遮擋.當被掃描對象被遮擋時,將直接導致 信息的丟失,這為后續任務的處理帶來嚴重影響.3) 噪聲.由于點云數據本身就是3維空間內的點集,噪 聲的存在直接影響點云模型的正確表示,在形狀識 別等任務中會造成精度的降低.4)旋轉不變.對于同 一模型,旋轉不同角度仍表示同一對象,網絡識別結 果不應由于角度不同而產生差異. 隨著近年來激光雷達等傳感設備及相關技術的 發展,3維點云的掃描與獲取更為便捷,其處理技術 在機器人、自動駕駛及其他領域的實際應用中已取 得一定進展.基于深度學習的蓬勃發展,研究者提出 了許多方法來解決相關領域的不同問題.
**本文對基 于深度學習的點云處理任務進行詳細闡述. 本文的主要貢獻有4個方面: **
1) 從機器人、自動駕駛、虛擬和增強現實以及 醫學4個領域介紹點云處理技術的應用情況; 2) 探討點云拓撲結構與形狀分析在應用于點 云處理任務中的必要性,并總結對比多種算法; 3) 歸納基于點云數據處理相關任務的方法,主 要包括模型重建與變換、分類分割、檢測跟蹤與姿態 估計,著重討論基于深度學習的方法,并給出各種方 法的優劣比較; 4) 總結多個公開點云數據集,并分析各數據集 中不同方法能處理的不同任務.
1 基本概念及應用情況
1.1 深度學習
機器學習推動現代科技手段的進步.網絡的內 容過濾及推薦、語音文本的轉換及醫學影像分析等 應用程序越來越多地使用深度學習技術.
1) 基礎概念
深度學習善于發現高維數據中的復雜結構,因 此可應用于科學、商業和醫學等諸多領域. 深度學習利用多處理層組成的計算模型學習具 有抽象層次的數據表示,關鍵在于其目標特征不是 人類指定的,而是從大量數據中學習獲取的,深度神 經網絡已經成為人工智能的基礎.多層感知機或全 連接網絡堆疊線性層和非線性激活層,是神經網絡 的經典類型.卷積網絡引入卷積層和池化層,在處理 圖像、視頻和音頻方面取得了突破性進展.遞歸網絡 可有效處理文本語音等具有連續性的數據.TransG former利用selfGattention機制提取特征,最早用于 處理自然語言[2G3].
2) 框架平臺
為了實現更復雜的模型,若從頭開始編寫代碼, 效率非常低,因此深度學習框架應運而生.本節介紹 常用的深度學習框架,并將其匯總于表1中. 目前常用于點云處理的框架更多為 TensorFlow 與 PyTorch,其他框架如 Caffe與Jittor等也可用于 處理點云,但應用較少.
1.2 點云處理任務
3維幾何模型中,點云已經成為主要表達方式 之一,其應用于深度學習中的處理技術已取得一定成果.在不同任務驅動下,本文以構建神經網絡為主 要方法,通過分類與整理相關文獻,將點云處理任務 分為模型重建與變換、分類分割、檢測跟蹤與姿態估 計幾大類.本節總結其基本概念.
模型重建與變換包括形狀修復、模型補全與變 形.掃描獲取到的數據并不能完美表征原物體的特 性,很可能存在缺漏或誤差,造成模型不完整、扭曲, 故而需要對該模型進行處理,使其盡可能貼合原物 體模型或目標模型,處理手段即為重建與變換. 分類分割主要包括分類、部件分割、語義分割與 實例分割.在諸如機器人抓取等需求中,必須明確所 抓取對象的分類,即需要判斷其信息,判斷即為對場 景中對象語義信息標記與分類. 檢測跟蹤主要包括3維對象檢測、場景流估計 與目標跟蹤.在諸如自動駕駛等應用中,需要明確路 徑與方向,確定追蹤對象,并能依據當前狀態自動調 節或人為干預使其后續運動符合預期目標. 姿態估計主要包括位姿估計與手部姿態估計. 前者需要確定對象的位置與方向,如工廠噴漆中,噴 槍需要依據目標不斷改變其位置與指向.后者則是 為了理解人類肢體語言,如在體感游戲中,根據肢體 變換執行相應游戲操作.
1.3 應用情況
3維點云處理目前在實際應用中已經取得了一 定的進展.本節以應用為導向,從機器人領域、自動 駕駛領域及虛擬、增強現實領域及醫學領域4個角 度介紹點云處理技術的應用情況.
1.3.1 機器人領域
機器人抓取技術的核心在于目標識別和定位. 2019年 Lin等人[4]利用深度神經網絡學習物體外 在形狀,并訓練網絡在獲取物體局部表面時也能成 功抓取目標. 在機器人 室 內 定 位 及 導 航 技 術 方 面,2020 年 Khanh等人[5]設計了新的云端導航系統.云端導航 下機器人能更準確地移動到目標位置.該技術可應 用于位置服務需求,如盲人導航. 針對噴漆機器人的自動化操作,2019年 Lin等 人[6]利用迭代最近點(iterativeclosestpoint,ICP) 算法進行姿態估計,計算物體部件的位置誤差,并重 新調整機器人的方向,以完成所需的噴漆任務.2020 年 Parra等人[7]設計了能夠在地板下的空隙中進行 隔熱噴涂以提高建筑的強度及使用年限的機器人. 他們針對地形不均勻等情況,提出定位模塊.機器人 依據傳感器獲取連續點云的信息.Yang等人[8]基于 點云模型表示的家具表面路徑規劃和邊緣提取技術 提出邊緣噴涂,獲取噴涂槍路徑點序列和對應姿態. 在家具等工件的生產流程中,該方法能夠根據噴涂 系統坐標系與家具姿態的不同,自適應地調整二者 的坐標關系,以實現正確噴涂的目的.
1.3.2 自動駕駛領域
自動駕駛系統的性能受環境感知的影響.車輛 對其環境的感知為系統的自動響應提供了基礎.2017 年 Hanke等人[9]提出采用光線追蹤的汽車激光雷 達傳感器實現實時模型測量方法.使用由真實世界場 景的測量構建的虛擬環境,能夠在真實世界和虛擬世 界傳感器數據之間建立直接聯系.2019年Josyula等 人[10]提出了利用機器人操作系統(robotoperating system,ROS)和點云庫(pointcloudlibrary,PCL) 對點云進行分割的方法.它是為自動駕駛車輛和無 人機的避障而開發的,具體涉及障礙物檢測與跟蹤.激光雷達(lightdetectionandranging,LIDAR) 和視覺感知是高水平(L4GL5)飛行員成功自動避障 的關鍵因素.為了對大量數據進行點云標記,2020 年 Li等人[11]提出針對3維點云的標注工具,實現 了點云3維包圍盒坐標信息到相機與 LIDAR 聯合 標定后獲得的2維圖像包圍盒的轉換. 基于圖的同步定位與建圖(simultaneouslocaliG zationandmapping,SLAM)在自動駕駛中應用廣 泛.實際駕駛環境中包含大量的運動目標,降低了掃 描匹配性能.2020年 Lee等人[12]利用加權無損檢測 (掃描匹配算法)進行圖的構造,在動態環境下也具 有魯棒性.
1.3.3 虛擬、增強現實領域
為了更好地了解室內空間信息,2015年 Tredinnick 等人[13] 創 建 了 能 夠 在 沉 浸 式 虛 擬 現 實 (virtual reality,VR)顯示系統中以較快的交互速率可視化 大規模 LIDAR 點云的應用程序,能夠產生準確的 室內環境渲染效果.2016年 Bonatto等人[14]探討了 在頭戴式顯示設備中渲染自然場景的可能性.實時 渲染是使用優化的子采樣等技術來降低場景的復雜 度實現的,這些技術為虛擬現實帶來了良好的沉浸 感.2018年 Feichter等人[15]提出了在真實室內點云 場景中抽取冗余信息的算法.其核心思想是從點云 中識別出平面線段,并通過對邊界進行三角剖分來 獲取內點,從而描述形狀. 生成可用于訓練新模型的標注已成為機器學習 中獨立的研究領域,它的目標是高效和高精度.標注 3維點云的方法包括可視化,但這種方法是十分耗 時的.2019年 Wirth等人[16]提出了新的虛擬現實標 注技術,它大大加快了數據標注的過程. LTDAR為增強現實(augmentedreality,AR) 提供了基本的3維信息支持.2020年 Liu等人[17]提 出學習圖像和 LIDAR 點云的局部特征表示,并進 行匹配以建立2維與3維空間的關系. 使用手勢自然用戶界面(naturaluserinterface, NUI)對于頭戴式顯示器和增強及虛擬現實等可穿 戴設備中虛擬對象的交互至關重要.然而,它在 GPU 上的實現存在高延遲,會造成不自然的響應.2020年Im 等人[18]提出基于點云的神經網絡處理器.該 處理器采用異構內核結構以加速卷積層和采樣層, 實現了使用 NUI所必需的低延遲.
1.3.4 醫學領域
醫學原位可視化能夠顯示患者特定位置的成像 數據,其目的是將特定病人的數據與3維模型相結 合,如將手術模擬過程直接投影到患者的身體上,從 而在實際位置顯示解剖結構.2011年Placitelli等人[19] 采用 采 樣 一 致 性 初 始 配 準 算 法 (sampleconsensus initialalignment,SACGIA),通過快速配準三元組 計算相應的匹配變換,實現點云快速配準. 模擬醫學圖像如 X 射線是物理學和放射學的 重要研究領域.2020年 Haiderbhai等人[20]提出 基 于 條 件 生 成 式 對 抗 網 絡 (conditionalgenerative adversarialnetwork,CGAN)的點云 X射線圖像估 計法.通過訓練 CGAN 結構并利用合成數據生成器 中創建的數據集,可將點云轉換成 X射線圖像.
2 模型形狀結構
了解并確定高層形狀結構及其關系能夠使得模 型感知局部和全局的結構,并能通過部件之間的排 列和關系描繪形狀,這是研究形狀結構分析的核心 課題.隨著真實世界的掃描和信息的挖掘,以及設計 模型規模的增大,在大量信息中進行3維幾何模型 的識別和分析變得越來越重要。
3 模型重建與變換
由于遮擋等多種因素的限制,利用激光雷達等 點云獲取設備得到的數據存在幾何信息和語義信息的丟失以及拓撲結構的不確定,這直接導致了數據 的質量問題.為后續任務的處理帶來極大挑戰.
4 形狀分類與分割
基于檢索或劃分的目的,對具有相似特征或相 同屬性的點云數據進行區域的分割或屬性的分類是 極其重要的.
5 目標檢測與跟蹤
自動駕駛、機器人設計等領域中,3維目標檢測 與跟蹤至關重要.自動駕駛車輛和無人機的避障等 實際應用中,涉及障礙物檢測與跟蹤.
5.1 3維目標跟蹤
目標跟蹤是推測幀的屬性并預測變化,即推斷 對象的運動情況,可以利用預測對象的運動信息進 行干預使之實際運動符合預期目標或用戶要求. 為了從點云中推斷出目標對象的可移動部件以 及移動信息,2019年 Yan等人[67]提出 RPMGNet.其 特定的體系結構夠預測對象多個運動部件在后續幀 中的運動,同時自主決定運動何時停止. 2020年 Wang等人[68]提出 PointTrackNet.網 絡中提出了新的數據關聯模塊,用于合并2幀的點 特征,并關聯同一對象的相應特征.首次使用 3 維 Siamese跟蹤器并應用于點云的是 Giancola等人[69]. 基于 Achlioptas等人[70]提出的形狀完成網絡,2019 年 Giancola等人[69]通過使用給定對象的語義幾何 信息豐富重編碼后的表示來提高跟蹤性能. 2019年Burnett等人[71]提出aUToTrack,使用 貪婪算法進行數據關聯和擴展卡爾曼濾波(extended Kalmanfilter,EKF)跟蹤目標的位置和速度.Simon 等人[72]融合2維語義信息及 LIDAR 數據,還引入 了縮放旋轉平移分數(scaleGrotationGtranslationscore, SRTs),該方法可更好地利用時間信息并提高多目 標跟蹤的精度. 文獻[67]可以從開始幀和結束幀的移動部分導 出變化范圍,故參數中不含變換范圍,減少了參數個 數.文獻[68]提供的跟蹤關聯信息有助于減少目標 短期消失的影響,其性能比較穩定,但是當汽車被嚴 重遮擋時,結果會出現問題.文獻[69]解決了相似性 度量、模型更新以及遮擋處理3方面的問題,但該方 法直接利用對稱性來完善汽車整體形狀會導致更多 噪聲.文獻[71]實際需要計算被檢測物體的質心,這 種方法能有效檢測行人,但對于汽車來說,其結果并 不準確.文獻[72]提出的 SRTs可用于快速檢測目 標,提高了準確性和魯棒性.
5.2 3維場景流估計
機器人和人機交互中的應用可以從了解動態環 境中點的3維運動,即場景流中受益.以往對場景流 的研究方法主要集中于立體圖像和 RGBGD 圖像作 為輸入,很少有人嘗試從點云中直接估計. 2019年 Behl等人[73]提出 PointFlowNet,網絡 聯合預測3維場景流以及物體的3維包圍盒和剛體 運動.Gu等人[74]提出 HPLFlowNet,可以有效地處 理非結構化數據,也可以從點云中恢復結構化信息. 能在不犧牲性能的前提下節省計算成本.Liu等人[75] 提出 FlowNet3D.由于每個點都不是“獨立”的,相鄰點會形成有意義的信息,故而 FlowNet3D 網絡嵌入 層會學習點的幾何相似性和空間關系. 文獻[73]先檢測出object并計算出egomotion 和sceneflow,再去回歸各個object的 motion,它從 非結構化點云中直接估計3維場景流.文獻[74G75] 的整體結構類似,都是下采樣 融合 上采樣,直接擬 合出sceneflow.
5.3 3維目標檢測與識別
在城市環境中部署自動型車輛是一項艱巨的技 術挑戰,需要實時檢測移動物體,如車輛和行人.為 了在大規模點云中實現實時檢測,研究者針對不同 需求提出多種方法. 2019年 Shi等人[76]提出 PointRCNN,將場景 中的點云基于包圍盒生成真實分割掩模,分割前景 點的同時生成少量高質量的包圍盒預選結果.在標 準坐標中優化預選結果來獲得最終檢測結果. 2019年 Lang等人[77]提出編碼器 PointPillars. 它學 習 在 pillars 中 組 織 的 點 云 表 示,通 過 操 作 pillar,無需手動調整垂直方向的組合.由于所有的 關鍵操作都可以表示為2維卷積,所以僅使用2維 卷積就能實現端到端的3維點云學習. 考慮到模型的通用性,2019年 Yang等人[78]提 出STD,利用球形錨生成精確的預測,保留足夠的 上下文信息.PointPool生成的規范化坐標使模型在 幾何變化下具有魯棒性.box預測網絡模塊消除定 位精度與分類得分之間的差異,有效提高性能. 2019年 Liu等人[79]提出大規模場景描述網絡 (largeGscaleplacedescriptionnetwork,LPDGNet). 該網絡采用自適應局部特征提取方法得到點云的局 部特征.此外,特征空間和笛卡兒空間的融合能夠進 一步揭示局部特征的空間分布,歸納學習整個點云 的結構信息. 為了克服一般網絡中點云規模較小的局限性, 2019年Paigwar等人[80]提出 AttentionalPointNet. 利用 Attentional機制進行檢測能夠在大規模且雜 亂無章的環境下重點關注感興趣的對象. 2020年 Shi等人[81]提出 PVGRCNN.它執行 2 步策略:第1步采用體素 CNN 進行體素特征學習 和精確的位置生成,以節省后續計算并對具有代表 性的場景特征進行編碼;第2步提取特征,聚集特征 可以聯合用于后續的置信度預測和進一步細化. 文獻[76]生成的預選結果數量少且質量高.文 獻[77]能夠利用點云的全部信息,其計算速度較快. 文獻[78]能夠將點特征從稀疏表示轉換為緊湊表 示,且用時較短.文獻[79]充分考慮點云的局部結 構,自適應地將局部特征作為輸入,在不同天氣條件 下仍能體現出健壯性.文獻[80]不必處理全部點云, 但預處理步驟使得計算成本較大.文獻[81]結合基 于體素的與基于 PointNet的優勢,能夠學習更具鑒 別力的點云特征.
5.4 算法性能對比分析
跟蹤算法中,文獻[67]主要關注的是物體部件 的跟蹤,文獻[68]與文獻[69]則主要檢測同一物體 在不同時間的狀態.文獻[67]的優勢在于可以同時 預測多個運動部件及其各自的運動信息,進而產生 基于運動的分割.該方法實現高精度的前提是輸入 對象的幾何結構明確,否則很有可能會生成不完美 的運動序列.文獻[68]在快速變化的情況下,如突然 剎車或轉彎,其結果仍可靠.但是當目標被嚴重遮擋 時,其結果并不可靠.由于大多數模型(如汽車模型) 只能從單側看到,文獻[69]利用對稱性完善汽車形 狀的方法未必是有效的.文獻[71]的處理方法較簡 單且用時較短,在 CPU 上運行時間不超過75ms.它 能在檢測行人時達到較高性能.但用于擁擠道路的 自動駕駛時,其采用的質心估計對于汽車并不準確. 文獻[72]同時利用2維信息與3維 LIDAR 數據, 且使用的SRTs指標可縮短訓練時間. 場景流估計算法中,文獻[73]聯合3維場景流 和剛性運動進行預測,其效率較高且處理不同運動 時具有魯棒性.文獻[74]與文獻[75]都以端到端的 方式從點云中學習場景流.前者從非結構化的點云 中恢復結構化,在生成的網格上進行計算,后者則是 在點云的連續幀中計算. 檢測算法中,文獻[76]不會在量化過程中丟失 信息,也不需要依賴2維檢測來估計3維包圍盒,故 而可以充分利用3維信息.文獻[77]的處理速度較 快,計算效率較高.文獻[78]具有較高的計算效率和 較少的計算量,能夠同時集成基于點和基于體素的 優點.文獻[79]引入局部特征作為網絡輸入,有助于 充分了解輸入點云的局部結構.文獻[80]能夠有效 地獲取數據的3維幾何信息.但是,將點云裁剪成較 小區域等預處理步驟增加了計算成本.文獻[81]結 合了基于體素與基于 PointNet的優點,不僅保留了 精確的位置,而且編碼了豐富的場景上下文信息.
表4給出 KITTI數據集下不同算法處理跟蹤 任務的性能對比.指標為多目標跟蹤準確度(multiG objecttrackingaccurancy,MOTA)、多 目 標 跟 蹤 精確度(multiGobjecttrackingprecision,MOTP)、 目標大部分被跟蹤到的軌跡占比(mostlytracked,MT)、目 標 大 部 分 跟 丟 的 軌 跡 占 比 (mostlylost, ML)、ID改變總數量(IDswitches,IDS)、跟蹤過程 中被打斷的次數(fragmentation,FRAG)及每秒幀 數(framespersecond,FPS).
表 5 給出在 KITTI數據集下 3 維檢測框(3G dimensionaldetectionbenchmark,3D)、BEV 視圖下 檢測框(birdeyeviewdetectionbenchmark,BEV) 與檢測目標旋轉角度(averageorientationsimilarity detectionbenchmark,AOS)的檢測結果.其中,評估指 標為AP,IoU 閾值為:汽車0.7,行人和自行車0.5.
6 姿態估計
3維姿態估計即確定目標物體的方位指向問題, 在機器人、動作跟蹤和相機定標等領域都有應用.
6.1 位姿估計
解決3維可視化問題的中間步驟一般是確定 3維局部特征,位姿估計是其中最突出的問題. 2017年 Elbaz等人[82]提出的 LORAX 采用了 可以處理不同大小點云的設置,并設計了對大規模 掃描數據有效的算法.2019年 Speciale等人[83]將原 始3維點提升到隨機方向的3維線上,僅存儲3維 線和3維 點 的 關 聯 特 征 描 述 符,這 類 映 射 被 稱 為 3維線云.2019年 Zhang等人[84]從目標點云中自動 提取關鍵點,生成對剛性變換不變的逐點特征,利用 層次式神經網絡預測參考姿態對應的關鍵點坐標. 最后計算出當前姿態與參考姿態之間的相對變換. 2018年 Deng等人[85]提出了 PPFGFoldNet,通 過點對特征(pointpairfeature,PPF)對局部3維幾 何編碼,建立了理論上的旋轉不變性,同時兼顧點的 稀疏性和置換不變性,能很好地處理密度變化. 考慮到成對配準描述符也應該為局部旋轉的計 算提供線索,2019年 Deng等人[86]提出端到端的配 準方法.這種算法在 PPFGFoldNet [85]的工作基礎上, 通過學習位姿變換將3維結構與6自由度運動解耦.該方法基于數據驅動來解決2點云配準問題. 2020年 Kurobe等人[87]提出 CorsNet,連接局 部特征與全局特征,不直接聚集特征,而是回歸點云 之間的對應關系,比傳統方法集成更多信息. 文獻[82]解決了2點云之間點數相差數倍的問 題,它簡單、快速,并且具備擴展性,但在極端情況 下,其結果會出錯.文獻[83]只使用了一個幾何約 束,其準確性與召回率可以與傳統方法媲美,但這種 方法的速度較慢.文獻[84]需要較少的訓練數據,因 此對于沒有紋理的對象,它更快、更精確.文獻[85] 繼承了多個網絡框架的優點,且充分利用點云稀疏 性,能夠快速提取描述符.文獻[86]提高了成對配準 的技術水平且減少了運行時間.文獻[87]結合了局 部與全局特征,從平移和旋轉的角度而言準確性較 高.表6上半部分給出位姿估計算法的核心方法及 優勢對比分析.
6.2 手部姿態估計
點云作為更簡單有效的數據表示方法,其輸入 的點集和輸出的手部姿態共享相同表示域,有利于 學習如何將輸入數據映射到輸出姿態上. 為了直接從點云中估計手部姿態,同樣以手部 3維點云為輸入,2018年 Chen等人[88]提出語義手 部姿 態 回 歸 網 絡 (semantichandposeregression network,SHPRGNet),通過學習輸入數據的變換矩 陣和輸出姿態的逆矩陣應對幾何變換的挑戰.Ge等 人[89]提出的方法輸出反映手部關節的每點貼近度 和方向的 heatGmaps和單位向量場,并利用加權融 合從估計的heatGmaps和單位向量場中推斷出手部 關節位置.2019年 Li等人[90]提出的方法以置換等 變層(permutationequivariantlayer,PEL)為基本 單元,構建了基于 PEL 的殘差網絡模型.且手部姿 態是利用點對姿勢的投票方案來獲得的,這避免了 使用最大池化層提取特征而導致的信息丟失. 現有的手部姿態估計方法大多依賴于訓練集, 而在訓練數據上標注手部3維姿態費時費力.2019 年 Chen等人[91]提出的 SOGHandNet旨在利用未 注記數據以半監督的方式獲得精確的3維手部姿態 估計.通過自組織映射(selfGorganizingmap,SOM) 模擬點的空間分布,然后對單個點和 SOM 節點進 行層次化特征提取,最終生成輸入點云的判別特征. 2018年 Ge等人[92]提出 HandPointNet,提出 的精細化網絡可以進一步挖掘原始點云中更精細的 細節,能夠回歸出更精確的指尖位置.Huang等人[93] 認為學習算法不僅要研究數據的內在相關性,而且 要充分利用手部關節之間的結構相關性及其與輸入 數據的相關性.基于此,2020年他們提出非自回歸手 部transformer(nonGautoregressivehandtransformer, NARHT),以關節特征的形式提供參考手部姿態, 利用其固有的相關性來逼近輸出姿態. 文獻[88]對點云的幾何變換具有魯棒性.文獻 [89]能夠很好地捕捉空間中點云的結構信息.文獻 [90]較利用體素的方法占用內存更少,但其效率不 如基于深度圖像的方法.文獻[91]的特征編碼器能 夠揭示輸入點云的空間分布.文獻[92]能夠捕捉復 雜的手部結構,并精確地回歸出手部姿態的低維表 示.文獻[93]采用新的nonGautoregressive結構學習機制來代替transformer的自回歸分解,在解碼過 程中提供必要的姿態信息.表6下半部分給出手部 姿態估計算法的核心方法及優勢對比分析.
**6.3 算法性能對比分析 **
位姿估計方法中,核心問題是找到旋轉矩陣與 平移矩陣.文獻[83,85G86]都利用了 RANSAC迭代 算法.其中,文獻[83]實現了魯棒、準確的6自由度 姿態估計.文獻[85]是無監督、高精度、6自由度變 換不變的網絡.文獻[86]在挑戰成對配準的真實數 據集方面優于現有技術,具有更好的泛化能力且速 度更快.文獻[82]的 LORAX能夠并行實現,效率較 高,適合實時應用.它對隨機噪聲、密度變化不敏感, 并且其魯棒性僅在極端水平下才會惡化.文獻[84] 使用較少 的 訓 練 圖 像 實 現 了 較 高 的 準 確 性.文 獻 [87]提出的 CorsNet回歸的是對應關系,而不是直 接姿態變化. 手部姿態估計方法中,文獻[88]可獲得更具代 表性的特征.SHPRGNet可以在不改變網絡結構的前 提下擴展到多視點的手部姿態估計,這需要將多視 點的深度數據融合到點云上.然而,融合后的點云也 會受到噪聲的影響.文獻[89]可以更好地利用深度 圖像中的3維空間信息,捕捉3維點云的局部結構, 并且能夠集中學習手部點云的有效特征,從而進行 精確的3維手部姿態估計.文獻[90]與基于體素化的 方法相比,需要更少的內存.但與基于深度圖像的方 法相比,需要更多的計算時間和內存.文獻[91]使用 半監督的方式對網絡進行訓練,其性能可與全監督 的方法相媲美.文獻[92]有效利用深度圖中的信息, 以較少的網絡參數捕獲更多的手部細節及結構,并 準確地估計其3維姿態.文獻[93]首次結合結構化 手部姿勢估計與基于transformer的自然語言處理 領域的轉換框架.引入參考手部姿勢為輸出關節提 供等效依賴關系.文獻[89]的模型大小為17.2MB.其 中11.1MB用于點對點回歸網絡,它是分層PointNet; 6.1MB用于附加的回歸模塊,它由3個全連層組成. 文獻[90]有2種版本,回歸版本為38MB,檢測版本 為44MB.文獻[91]中,手部特征編碼器(handfeature encoder,HFE)、手部特征解碼器(handfeaturedecoder, HFD)和 手 部 特 征 估 計 器 (handposeestimator, HPE)的大小分別為8.1MB,74MB,8.5MB.由于只 在測試階段使用 HFE 和 HPE,所以其網絡模型大 小為16.6MB.文獻[92]的模型大小為10.3MB,其 中回歸網絡為9.2MB,指尖精細網絡為1.1MB.不 同方法在3個數據集上的性能對比分析如圖1所示:
7 總 結
本文總結了近年來多種點云處理任務的方法, 特別側重于基于深度學習的工作,為讀者提供了最 新的研究進展. 大多數關于點云的綜述類文章都集中于討論點 云分類分割處理任務.如文獻[94G95]只討論了語義 分割任務;文獻[96G97]增加了目標檢測和分類任務 的研究分析.其中,文獻[97]只用1節內容簡要介紹 分類、分割及目標檢測三大任務,更關注于處理點云數據的深度學習方法,而不依據處理任務對其進行 劃分討論.本文則考慮多種點云處理任務,包括模型 重建與變換、分類分割、檢測跟蹤與姿態估計等.在 模型分割分類中,由于大部分算法有用于實現點云 分類與分割的功能,不同于文獻[96G97]將分類與分 割作為2種類別分開討論,本文將它們統一考慮,并 根據基于體素、基于視圖與基于點三大主流方法對 其劃分并展開討論,明確給出各算法可處理的任務. 目前,已經有大量學者對點云處理任務進行研 究并依據任務的不同提出多種方法,但這些方法或 多或少都有一定的局限性.本文基于這些算法的不 足總結點云處理任務所面臨的挑戰與發展趨勢.
1) 數據方面
大部分方法只在現有的數據集上進行實驗,而 對于新獲取的數據并不適用.這很大程度上是由于 新獲取的數據無法實現多角度、全方位的完美匹配, 而且不同平臺獲得的數據難以融合,無法達到統一 的標準.對于融合后的點云,具有魯棒性和區分性特 征的提取有一定的難度,未來的研究可以從特征提 取方面入手. 數據集尺度不均衡是由于真實復雜場景中檢測 及識別小目標較為困難.未來研究工作可人工生成 小目標樣本,增大數據集中小目標所占比例,進而在 網絡訓練中提高其識別檢測能力. 數據質量對網絡(如transformers)的泛化性和 魯棒性的影響較大[2].點云的幾何位置存在誤差時, 可以通過已知控制點對其進行幾何矯正.當使用激 光掃描獲取數據時,除了考慮掃描距離和入射角度 的問題,還可以進行強度矯正,通過不同方法改善點 云的質量. 隨著3維掃描技術的發展,大規模點云的獲取 已不是難點,挑戰性在于如何對其進行處理.此外, 算法精度依賴大批量的數據集[98],目前還沒有比較 好的解決手段.
2) 性質方面
點云是3維空間內點的集合,它沒有提供鄰域 信息,故而大部分方法需要依據不同的鄰域查詢方 法確定點的鄰域,這將導致算法增加額外的計算成 本.點云不能顯式地表達目標結構以及空間拓撲關 系.此外,當目標被遮擋或重疊時,不能依據幾何關 系確定拓撲結構,給后續處理任務帶來一定難度. 針對點云的不規則性及無序性,將其應用于深 度神經網絡中進行相關任務的處理需要做數據形式 的轉換,如體素化[40].但這些轉換操作不但增加了 計算量,而且很可能在轉換的過程中丟失信息,所以 直接的點云處理方法是重要的研究方向.
3)網絡結構方面
① 基于快速和輕量級的模型.為了達到理想效 果,目前的算法傾向于使用含大量參數的較大的神 經網絡結構,導致計算復雜度高、內存占用大、速度 慢等問題.因此,設計快速且輕量級的網絡架構具有 較大的應用價值[99G100]. ② 網絡結構的改良.優化網絡結構可使同一網 絡處理多種任務,能夠很大程度地降低復雜度[2].還 可以考慮與其他網絡結構結合[45]來實現優化目的.
4) 應用方面
室外場景信息較多、結構復雜,所以目前大多數 方法著重于相對簡單的室內場景的分析.然而自動 駕駛[12]等技術的研究無法在室內場景中完成,所以 未來的研究方向可側重于構建適用于室外場景的網 絡模型. 現有分割方法大都用于單個物體的部件分割[1] 或場景中同類對象的語義分割[25].而真實場景中目 標類別眾多、結構復雜,對同類對象的不同個體分割 是3維形態檢測(文物、古建監測)的重要手段. 現有的大多數算法主要利用靜態場景中獲取的 數據,在地震檢測等實際應用中,設計能夠應對變化 場景的算法具有重要應用價值.利用時序上下文信 息可作為其研究方向[99]. 計算機視覺中的有效性通常與效率相關,它決 定模型是否可用于實際應用中[100],因此在二者之 間實現更好的平衡是未來研究中有意義的課題.
點云數據在各種不利條件下具有較高的準確性和魯棒性,因此得到了廣泛的研究。與此同時,深度神經網絡(DNN)在監控、自動駕駛等應用領域取得了令人矚目的成功。點云和DNN的融合產生了許多深度點云模型,這些模型主要是在大規模和密集標記的點云數據的監督下訓練的。無監督點云表示學習旨在從無標記點云數據中學習一般和有用的點云表示,由于大規模點云標記的約束,近年來受到越來越多的關注。本文對使用DNN的無監督點云表示學習進行了全面的綜述。首先介紹了近年來研究的動機、常用途徑和術語。相關背景包括廣泛采用的點云數據集和DNN架構,然后簡要介紹。接下來是根據其技術方法對現有的無監督點云表示學習方法的廣泛討論。我們也定量的基準和討論的方法,在多個廣泛采用的點云數據集。最后,我們對未來無監督點云表示學習研究中可能面臨的幾個挑戰和問題提出了自己的看法。
摘要
作為一種比傳統機器學習方法更有效的訓練框架,元學習獲得了廣泛的歡迎。然而,在多模態任務等復雜任務分布中,其泛化能力尚未得到深入研究。近年來,基于多模態的元學習出現了一些研究。本綜述從方法論和應用方面提供了基于多模態的元學習景觀的全面概述。我們首先對元學習和多模態的定義進行了形式化的界定,并提出了這一新興領域的研究挑戰,如何豐富少樣本或零樣本情況下的輸入,以及如何將模型泛化到新的任務中。然后我們提出了一個新的分類系統,系統地討論了結合多模態任務的典型元學習算法。我們對相關論文的貢獻進行了調研,并對其進行了分類總結。最后,提出了該領域的研究方向。
//www.zhuanzhi.ai/paper/3cf8fdad89ed44f7ea803ce6e0ab21b5
引言
深度學習方法在語音、語言和視覺領域取得了顯著進展[1,2,3]。然而,這些方法的性能嚴重依賴于大量標記數據的可用性,而在大多數應用中,獲取這些數據可能不切實際或成本高昂。僅使用有限的標記數據往往會導致過擬合問題,導致泛化到新數據[4]或完全不同的分布的不確定性。另一方面,人類學習過程中使用的“學會學習”機制[5]使我們能夠從很少的樣本[6]中快速學習新的概念。已有證據表明,通過結合先驗知識和情境,人類可以在有限情景下獲得多個先驗任務的經驗,在有限情景下,習得的抽象經驗被一般化,以提高未來對新概念的學習表現。受此啟發,提出了一種名為元學習(meta-learning)的計算范式[7,8],用來模擬人類學習廣義任務經驗的能力,旨在讓機器從類似任務中獲取先驗知識,并快速適應新任務。通過在動態選擇中提取跨領域任務目標,元學習過程比傳統機器學習模型更具數據效率[9,10]。
由于元學習能夠泛化到新的任務,我們的目的是了解元學習如何發揮作用,當任務更復雜時,例如,數據源不再是單模態的,或原始模態中的數據是有限的。最近的研究集中在將元學習框架應用于復雜任務的分配上[11,12],但僅限于單一的模態。特別是,在多個應用[7]、學習優化步驟[13]的先驗知識、數據嵌入[14,15]或模型結構[16]的多任務和單任務場景中,元學習已經被證明是成功的。然而,在異構任務模態下,如何巧妙地利用元學習給研究人員帶來了獨特的挑戰。要在額外模態的幫助下從這些任務中學習新概念,示例應該以成對或多種方式提供,其中每個示例包含同一概念的兩個或多個項目,但在不同的模態。
首先在圖像分類的零樣本學習(ZSL) /廣義零樣本學習(GSZL)領域探討了不同模態的異質特征。語義模式被認為在模型訓練中提供強大的先驗知識和輔助視覺模式。為了更好地將知識從可見的類遷移到不可見的類,基于元的算法被廣泛引入來捕獲配對模態之間的屬性關系。然而,訓練過程大多將一個模態視為主要模態,并通過添加另一個模態來利用額外的信息。它不涉及在真實的復雜情景中對多種模態的分析,如未配對的模態、缺失的模態以及模態之間的關聯。因此,一些研究進一步將元學習方法應用于由其他模態構成的任務。具體來說,當不同任務的模態來自不同的數據分布,或者不同任務的模態被遺漏或不平衡時,通過充分利用元學習背景下的多模態數據,可以將不同模式的優勢整合到問題中,從而提高績效。另一方面,元學習本身的訓練框架有助于提高原多模態學習者在新任務中的泛化能力。雖然對這兩個概念的跨學科研究聽起來很有前景,但目前的研究大多將元學習算法和多模態學習算法分開進行總結,導致多模態與元學習結合的研究存在差距。
最后,我們希望在本次綜述中對基于多模態的元學習算法進行系統而全面的研究。我們旨在為不同的方法提供直觀的解釋,并有助于:
識別將元學習算法應用于多模態任務的挑戰; 提出一個新的分類,并為每個類別提供深刻的分析; 總結解決不同挑戰的具體貢獻,包括其方法和與其他方法的區別; 強調當前的研究趨勢和未來可能的方向。
本綜述的其余部分組織如下。在第二節中,我們首先對元學習和多模態的定義進行了形式化界定,然后給出了基于多模態的元學習挑戰的總體范式。然后我們在第3節提出了一個基于元學習算法可以學習的先驗知識的新分類。我們分別在第4節、第5節和第6節對如何使原始元學習方法適應多模態數據的相關研究進行了考察,在第7節對這些工作進行了總結。最后,我們總結了目前的研究趨勢在第8節和可能的方向,未來的工作在第9節。
近年來,深度傳感器和三維激光掃描儀的普及推動了三維點云處理方法的快速發展。點云語義分割作為理解三維場景的關鍵步驟,受到了研究者的廣泛關注。隨著深度學習的迅速發展并廣泛應用到三維語義分割領域,點云語義分割效果得到了顯著提升。主要對基于深度學習的點云語義分割方法和研究現狀進行了詳細的綜述。將基于深度學習的點云語義分割方法分為間接語義分割方法和直接語義分割方法,根據各方法的研究內容進一步細分,對每類方法中代表性算法進行分析介紹,總結每類方法的基本思想和優缺點,并系統地闡述了深度學習對語義分割領域的貢獻。然后,歸納了當前主流的公共數據集和遙感數據集,并在此基礎上對比主流點云語義分割方法的實驗結果。最后,對語義分割技術未來的發展方向進行了展望。
近年來,隨著計算機視覺、人工智能以及遙感測繪 的發展,SLAM(simultaneous localization and mapping) 技術、Kinect 技術以及激光掃描等技術日漸成熟,點 云的數據量迅速增長,針對描述點云數據空間信息 的高層語義理解也越來越受到關注。語義分割作為 點云數據處理與分析的基礎技術,成為自動駕駛、導 航定位、智慧城市、醫學影像分割等領域的研究熱 點,具有廣泛的應用前景。語義分割是一種典型的 計算機視覺問題,也稱為場景標簽,是指將一些原始 數據(例如:二維(two-dimensional,2D)圖像、三維(threedimensional,3D)點云)作為輸入并通過一系列技術 操作轉換為具有突出顯示的感興趣區域的掩模。
點云語義分割是把點云分為若干個特定的、具 有獨特性質的區域并識別出點云內容的技術。由于 初期三維數據模型庫可用數據量較少以及深度網絡 由二維轉到三維的復雜性,傳統的點云語義分割方 法大多是通過提取三維形狀幾何屬性的空間分布或 者直方圖統計等方法得到手工提取特征,構建相應 的判別模型(例如:支持向量機(support vector machine, SVM)[1]、隨機森林(random forest,RF)[2]、條件隨機場 (conditional random field,CRF)[3]、馬爾可夫隨機場 (Markov random field,MRF)[4]等)實現分割。由于手 工提取的特征主要依靠設計者的先驗知識以及手工 調動參數,限制了大數據的使用。伴隨著大型三維 模型數據的出現和 GPU 計算能力的不斷迭代更新, 深度學習在點云語義分割領域逐漸占據了絕對主導 地位。深度學習模型的核心思想是采用數據驅動的 方式,通過多層非線性運算單元,將低層運算單元的 輸出作為高層運算單元的輸入,從原始數據中提取 由一般到抽象的特征。初期,研究者們借鑒二維圖 像語義分割模型的經驗,對輸入點云形狀進行規范 化,將不規則的點云或者網格數據轉換為常規的 3D 體素網格或者多視圖,將它們提供給深層的網絡體 系結構。然而,丟失幾何結構信息和數據稀疏性等。問題限制了多視圖方法和體素化方法的發展。于 是,研究者開始從三維數據源頭著手,斯坦福大學 Qi 等人[5]提出的 PointNet 網絡模型,直接從點云數據中 提取特征信息,在沒有向體素轉換的情況下,體系結 構保留原始點內的固有信息以預測點級語義。隨 后,直接處理點云的網絡模型方法逐漸發展起來。
目前已有一些綜述性論文[6-9]對基于深度學習的 點云語義分割研究進行了總結和分析。文獻[6]是基 于深度學習和遙感數據背景下進行的分類研究進展 綜述;文獻[7]從遙感和計算機視覺的角度概述了三 維點云數據的獲取和演化,對傳統的和先進的點云 語義分割技術進行了比較和總結;文獻[8]詳細介紹 了一些較為突出的點云分割算法及常見數據集;文 獻[9]所做的綜述工作涵蓋了不同的應用,包括點云 數據的形狀分類、目標檢測和跟蹤以及語義和實例 分割,涉及的方面較為廣泛。本文對前人工作進行 了完善,在算法內容上,本文添加了最近提出的新方 法,總結了 50多種三維語義分割算法,根據三維點云 數據處理方式,將它們分為兩類:間接語義分割方法 和直接語義分割方法。數據集內容上,本文在新增 最新公共數據集的同時,增加了常用的三維遙感數 據集。未來研究方向上,本文在基于深度學習的語 義分割技術評述基礎上,對語義分割領域未來研究 方向進行了展望并給出各類技術的參考性價值。
自監督深度學習(SSDL)方法是近年來在計算機視覺領域出現的一種很有前途的學習范式。該方法巧妙地使用密集的學習信號來構建監督學習問題,而不需要外部的人工注釋。除了視覺之外,它是一個通用框架,可以實現多種學習模式,包括深度強化學習和AlphaGo Zero的成功。在NLP中,SSDL在表示學習方面也取得了很好的效果,包括屏蔽語言模型,如BERT和XLNet。
在本教程中,我們簡要介紹了自監督深度學習的基礎,以及NLP中一些實際問題的公式和解決方案。我們描述了NLP的自監督深度學習的最新進展,特別關注于生成和語言模型。我們提供了一個研究領域的概述,分類不同類型的自監督學習模型,并討論利弊,旨在提供一些解釋和實踐的觀點,以解決現實世界的NLP問題的自監督學習的未來。
//aacl2020.org/program/tutorials/#t3-self-supervised-deep-learning-for-nlp
自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。
概述:
隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。
傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。
監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。
生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。
隨著自動駕駛和機器人技術等實際應用的發展,人們越來越關注對3D點云的理解。雖然深度學習在基于圖像的任務上取得了顯著的成功,但深度神經網絡在處理大量、非結構化和噪聲的三維點時仍面臨著許多獨特的挑戰。為了展示深度學習在理解三維點云方面的最新進展,本文從幾個不同的方向(分類、分割、檢測、跟蹤、流量估計、配準、增強和補全),以及常用的數據集、指標和最新性能,總結了該領域最近顯著的研究貢獻。