亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度學習在2維圖像等結構化數據處理中表現出了優越性能,對非結構化的點云數據分析處理 的潛力已經成為計算機圖形學的重要研究方向,并在機器人、自動駕駛、虛擬及增強現實等領域取得一 定進展.通過回顧近年來3維點云處理任務的主要研究問題,圍繞深度學習在3維點云形狀分析、結構提取、檢測和修復等方向的應用,總結整理了典型算法.介紹了點云拓撲結構的提取方法,然后對比分析 了變換、分類分割、檢測跟蹤、姿態估計等方向的以構建神經網絡為主要研究方法的進展.最后,總結常 用的3維點云公開數據集,分析對比了各類方法的特點與評價指標,指出其優勢與不足,并從不同角度 對基于深度學習的方法處理點云數據所面臨的挑戰與發展方向進行了討論.

隨著3維傳感器的迅速發展,3維數據變得無 處不在,利用深度學習方法對這類數據進行語義理 解和分析變得越來越重要. 不同3維數據(體素、網格等)表示下,深度學習 的方法不盡相同,但這些方法應用于點云中都有一 定的局限性,具體表現為:體素化方法會受到分辨率 的限制;轉換為2維圖像的方法在形狀分類和檢索 任務上取得了優越性能,但將其擴展到場景理解或 其他3維任務(如姿態估計)有一定的困難;光譜卷 積神經網絡限制在流形網格;基于特征的深度神經 網絡會受到所提取特征表示能力的限制[1].

點云本身具有的無序性與不規則性為利用深度 學習方法直接處理該類數據帶來一定挑戰性:1)規 模局限性.現有研究方法一般針對小規模點云,而能 處理大型點云的方法也需要切割處理,即將其分為 小塊后再處理.但切割可能會造成點云整體信息的 丟失.2)遮擋.當被掃描對象被遮擋時,將直接導致 信息的丟失,這為后續任務的處理帶來嚴重影響.3) 噪聲.由于點云數據本身就是3維空間內的點集,噪 聲的存在直接影響點云模型的正確表示,在形狀識 別等任務中會造成精度的降低.4)旋轉不變.對于同 一模型,旋轉不同角度仍表示同一對象,網絡識別結 果不應由于角度不同而產生差異. 隨著近年來激光雷達等傳感設備及相關技術的 發展,3維點云的掃描與獲取更為便捷,其處理技術 在機器人、自動駕駛及其他領域的實際應用中已取 得一定進展.基于深度學習的蓬勃發展,研究者提出 了許多方法來解決相關領域的不同問題.

**本文對基 于深度學習的點云處理任務進行詳細闡述. 本文的主要貢獻有4個方面: **

1) 從機器人、自動駕駛、虛擬和增強現實以及 醫學4個領域介紹點云處理技術的應用情況; 2) 探討點云拓撲結構與形狀分析在應用于點 云處理任務中的必要性,并總結對比多種算法; 3) 歸納基于點云數據處理相關任務的方法,主 要包括模型重建與變換、分類分割、檢測跟蹤與姿態 估計,著重討論基于深度學習的方法,并給出各種方 法的優劣比較; 4) 總結多個公開點云數據集,并分析各數據集 中不同方法能處理的不同任務.

1 基本概念及應用情況

1.1 深度學習

機器學習推動現代科技手段的進步.網絡的內 容過濾及推薦、語音文本的轉換及醫學影像分析等 應用程序越來越多地使用深度學習技術.

1) 基礎概念

深度學習善于發現高維數據中的復雜結構,因 此可應用于科學、商業和醫學等諸多領域. 深度學習利用多處理層組成的計算模型學習具 有抽象層次的數據表示,關鍵在于其目標特征不是 人類指定的,而是從大量數據中學習獲取的,深度神 經網絡已經成為人工智能的基礎.多層感知機或全 連接網絡堆疊線性層和非線性激活層,是神經網絡 的經典類型.卷積網絡引入卷積層和池化層,在處理 圖像、視頻和音頻方面取得了突破性進展.遞歸網絡 可有效處理文本語音等具有連續性的數據.TransG former利用selfGattention機制提取特征,最早用于 處理自然語言[2G3].

2) 框架平臺

為了實現更復雜的模型,若從頭開始編寫代碼, 效率非常低,因此深度學習框架應運而生.本節介紹 常用的深度學習框架,并將其匯總于表1中. 目前常用于點云處理的框架更多為 TensorFlow 與 PyTorch,其他框架如 Caffe與Jittor等也可用于 處理點云,但應用較少.

1.2 點云處理任務

3維幾何模型中,點云已經成為主要表達方式 之一,其應用于深度學習中的處理技術已取得一定成果.在不同任務驅動下,本文以構建神經網絡為主 要方法,通過分類與整理相關文獻,將點云處理任務 分為模型重建與變換、分類分割、檢測跟蹤與姿態估 計幾大類.本節總結其基本概念.

模型重建與變換包括形狀修復、模型補全與變 形.掃描獲取到的數據并不能完美表征原物體的特 性,很可能存在缺漏或誤差,造成模型不完整、扭曲, 故而需要對該模型進行處理,使其盡可能貼合原物 體模型或目標模型,處理手段即為重建與變換. 分類分割主要包括分類、部件分割、語義分割與 實例分割.在諸如機器人抓取等需求中,必須明確所 抓取對象的分類,即需要判斷其信息,判斷即為對場 景中對象語義信息標記與分類. 檢測跟蹤主要包括3維對象檢測、場景流估計 與目標跟蹤.在諸如自動駕駛等應用中,需要明確路 徑與方向,確定追蹤對象,并能依據當前狀態自動調 節或人為干預使其后續運動符合預期目標. 姿態估計主要包括位姿估計與手部姿態估計. 前者需要確定對象的位置與方向,如工廠噴漆中,噴 槍需要依據目標不斷改變其位置與指向.后者則是 為了理解人類肢體語言,如在體感游戲中,根據肢體 變換執行相應游戲操作.

1.3 應用情況

3維點云處理目前在實際應用中已經取得了一 定的進展.本節以應用為導向,從機器人領域、自動 駕駛領域及虛擬、增強現實領域及醫學領域4個角 度介紹點云處理技術的應用情況.

1.3.1 機器人領域

機器人抓取技術的核心在于目標識別和定位. 2019年 Lin等人[4]利用深度神經網絡學習物體外 在形狀,并訓練網絡在獲取物體局部表面時也能成 功抓取目標. 在機器人 室 內 定 位 及 導 航 技 術 方 面,2020 年 Khanh等人[5]設計了新的云端導航系統.云端導航 下機器人能更準確地移動到目標位置.該技術可應 用于位置服務需求,如盲人導航. 針對噴漆機器人的自動化操作,2019年 Lin等 人[6]利用迭代最近點(iterativeclosestpoint,ICP) 算法進行姿態估計,計算物體部件的位置誤差,并重 新調整機器人的方向,以完成所需的噴漆任務.2020 年 Parra等人[7]設計了能夠在地板下的空隙中進行 隔熱噴涂以提高建筑的強度及使用年限的機器人. 他們針對地形不均勻等情況,提出定位模塊.機器人 依據傳感器獲取連續點云的信息.Yang等人[8]基于 點云模型表示的家具表面路徑規劃和邊緣提取技術 提出邊緣噴涂,獲取噴涂槍路徑點序列和對應姿態. 在家具等工件的生產流程中,該方法能夠根據噴涂 系統坐標系與家具姿態的不同,自適應地調整二者 的坐標關系,以實現正確噴涂的目的.

1.3.2 自動駕駛領域

自動駕駛系統的性能受環境感知的影響.車輛 對其環境的感知為系統的自動響應提供了基礎.2017 年 Hanke等人[9]提出采用光線追蹤的汽車激光雷 達傳感器實現實時模型測量方法.使用由真實世界場 景的測量構建的虛擬環境,能夠在真實世界和虛擬世 界傳感器數據之間建立直接聯系.2019年Josyula等 人[10]提出了利用機器人操作系統(robotoperating system,ROS)和點云庫(pointcloudlibrary,PCL) 對點云進行分割的方法.它是為自動駕駛車輛和無 人機的避障而開發的,具體涉及障礙物檢測與跟蹤.激光雷達(lightdetectionandranging,LIDAR) 和視覺感知是高水平(L4GL5)飛行員成功自動避障 的關鍵因素.為了對大量數據進行點云標記,2020 年 Li等人[11]提出針對3維點云的標注工具,實現 了點云3維包圍盒坐標信息到相機與 LIDAR 聯合 標定后獲得的2維圖像包圍盒的轉換. 基于圖的同步定位與建圖(simultaneouslocaliG zationandmapping,SLAM)在自動駕駛中應用廣 泛.實際駕駛環境中包含大量的運動目標,降低了掃 描匹配性能.2020年 Lee等人[12]利用加權無損檢測 (掃描匹配算法)進行圖的構造,在動態環境下也具 有魯棒性.

1.3.3 虛擬、增強現實領域

為了更好地了解室內空間信息,2015年 Tredinnick 等人[13] 創 建 了 能 夠 在 沉 浸 式 虛 擬 現 實 (virtual reality,VR)顯示系統中以較快的交互速率可視化 大規模 LIDAR 點云的應用程序,能夠產生準確的 室內環境渲染效果.2016年 Bonatto等人[14]探討了 在頭戴式顯示設備中渲染自然場景的可能性.實時 渲染是使用優化的子采樣等技術來降低場景的復雜 度實現的,這些技術為虛擬現實帶來了良好的沉浸 感.2018年 Feichter等人[15]提出了在真實室內點云 場景中抽取冗余信息的算法.其核心思想是從點云 中識別出平面線段,并通過對邊界進行三角剖分來 獲取內點,從而描述形狀. 生成可用于訓練新模型的標注已成為機器學習 中獨立的研究領域,它的目標是高效和高精度.標注 3維點云的方法包括可視化,但這種方法是十分耗 時的.2019年 Wirth等人[16]提出了新的虛擬現實標 注技術,它大大加快了數據標注的過程. LTDAR為增強現實(augmentedreality,AR) 提供了基本的3維信息支持.2020年 Liu等人[17]提 出學習圖像和 LIDAR 點云的局部特征表示,并進 行匹配以建立2維與3維空間的關系. 使用手勢自然用戶界面(naturaluserinterface, NUI)對于頭戴式顯示器和增強及虛擬現實等可穿 戴設備中虛擬對象的交互至關重要.然而,它在 GPU 上的實現存在高延遲,會造成不自然的響應.2020年Im 等人[18]提出基于點云的神經網絡處理器.該 處理器采用異構內核結構以加速卷積層和采樣層, 實現了使用 NUI所必需的低延遲.

1.3.4 醫學領域

醫學原位可視化能夠顯示患者特定位置的成像 數據,其目的是將特定病人的數據與3維模型相結 合,如將手術模擬過程直接投影到患者的身體上,從 而在實際位置顯示解剖結構.2011年Placitelli等人[19] 采用 采 樣 一 致 性 初 始 配 準 算 法 (sampleconsensus initialalignment,SACGIA),通過快速配準三元組 計算相應的匹配變換,實現點云快速配準. 模擬醫學圖像如 X 射線是物理學和放射學的 重要研究領域.2020年 Haiderbhai等人[20]提出 基 于 條 件 生 成 式 對 抗 網 絡 (conditionalgenerative adversarialnetwork,CGAN)的點云 X射線圖像估 計法.通過訓練 CGAN 結構并利用合成數據生成器 中創建的數據集,可將點云轉換成 X射線圖像.

2 模型形狀結構

了解并確定高層形狀結構及其關系能夠使得模 型感知局部和全局的結構,并能通過部件之間的排 列和關系描繪形狀,這是研究形狀結構分析的核心 課題.隨著真實世界的掃描和信息的挖掘,以及設計 模型規模的增大,在大量信息中進行3維幾何模型 的識別和分析變得越來越重要。

3 模型重建與變換

由于遮擋等多種因素的限制,利用激光雷達等 點云獲取設備得到的數據存在幾何信息和語義信息的丟失以及拓撲結構的不確定,這直接導致了數據 的質量問題.為后續任務的處理帶來極大挑戰.

4 形狀分類與分割

基于檢索或劃分的目的,對具有相似特征或相 同屬性的點云數據進行區域的分割或屬性的分類是 極其重要的.

5 目標檢測與跟蹤

自動駕駛、機器人設計等領域中,3維目標檢測 與跟蹤至關重要.自動駕駛車輛和無人機的避障等 實際應用中,涉及障礙物檢測與跟蹤.

5.1 3維目標跟蹤

目標跟蹤是推測幀的屬性并預測變化,即推斷 對象的運動情況,可以利用預測對象的運動信息進 行干預使之實際運動符合預期目標或用戶要求. 為了從點云中推斷出目標對象的可移動部件以 及移動信息,2019年 Yan等人[67]提出 RPMGNet.其 特定的體系結構夠預測對象多個運動部件在后續幀 中的運動,同時自主決定運動何時停止. 2020年 Wang等人[68]提出 PointTrackNet.網 絡中提出了新的數據關聯模塊,用于合并2幀的點 特征,并關聯同一對象的相應特征.首次使用 3 維 Siamese跟蹤器并應用于點云的是 Giancola等人[69]. 基于 Achlioptas等人[70]提出的形狀完成網絡,2019 年 Giancola等人[69]通過使用給定對象的語義幾何 信息豐富重編碼后的表示來提高跟蹤性能. 2019年Burnett等人[71]提出aUToTrack,使用 貪婪算法進行數據關聯和擴展卡爾曼濾波(extended Kalmanfilter,EKF)跟蹤目標的位置和速度.Simon 等人[72]融合2維語義信息及 LIDAR 數據,還引入 了縮放旋轉平移分數(scaleGrotationGtranslationscore, SRTs),該方法可更好地利用時間信息并提高多目 標跟蹤的精度. 文獻[67]可以從開始幀和結束幀的移動部分導 出變化范圍,故參數中不含變換范圍,減少了參數個 數.文獻[68]提供的跟蹤關聯信息有助于減少目標 短期消失的影響,其性能比較穩定,但是當汽車被嚴 重遮擋時,結果會出現問題.文獻[69]解決了相似性 度量、模型更新以及遮擋處理3方面的問題,但該方 法直接利用對稱性來完善汽車整體形狀會導致更多 噪聲.文獻[71]實際需要計算被檢測物體的質心,這 種方法能有效檢測行人,但對于汽車來說,其結果并 不準確.文獻[72]提出的 SRTs可用于快速檢測目 標,提高了準確性和魯棒性.

5.2 3維場景流估計

機器人和人機交互中的應用可以從了解動態環 境中點的3維運動,即場景流中受益.以往對場景流 的研究方法主要集中于立體圖像和 RGBGD 圖像作 為輸入,很少有人嘗試從點云中直接估計. 2019年 Behl等人[73]提出 PointFlowNet,網絡 聯合預測3維場景流以及物體的3維包圍盒和剛體 運動.Gu等人[74]提出 HPLFlowNet,可以有效地處 理非結構化數據,也可以從點云中恢復結構化信息. 能在不犧牲性能的前提下節省計算成本.Liu等人[75] 提出 FlowNet3D.由于每個點都不是“獨立”的,相鄰點會形成有意義的信息,故而 FlowNet3D 網絡嵌入 層會學習點的幾何相似性和空間關系. 文獻[73]先檢測出object并計算出egomotion 和sceneflow,再去回歸各個object的 motion,它從 非結構化點云中直接估計3維場景流.文獻[74G75] 的整體結構類似,都是下采樣 融合 上采樣,直接擬 合出sceneflow.

5.3 3維目標檢測與識別

在城市環境中部署自動型車輛是一項艱巨的技 術挑戰,需要實時檢測移動物體,如車輛和行人.為 了在大規模點云中實現實時檢測,研究者針對不同 需求提出多種方法. 2019年 Shi等人[76]提出 PointRCNN,將場景 中的點云基于包圍盒生成真實分割掩模,分割前景 點的同時生成少量高質量的包圍盒預選結果.在標 準坐標中優化預選結果來獲得最終檢測結果. 2019年 Lang等人[77]提出編碼器 PointPillars. 它學 習 在 pillars 中 組 織 的 點 云 表 示,通 過 操 作 pillar,無需手動調整垂直方向的組合.由于所有的 關鍵操作都可以表示為2維卷積,所以僅使用2維 卷積就能實現端到端的3維點云學習. 考慮到模型的通用性,2019年 Yang等人[78]提 出STD,利用球形錨生成精確的預測,保留足夠的 上下文信息.PointPool生成的規范化坐標使模型在 幾何變化下具有魯棒性.box預測網絡模塊消除定 位精度與分類得分之間的差異,有效提高性能. 2019年 Liu等人[79]提出大規模場景描述網絡 (largeGscaleplacedescriptionnetwork,LPDGNet). 該網絡采用自適應局部特征提取方法得到點云的局 部特征.此外,特征空間和笛卡兒空間的融合能夠進 一步揭示局部特征的空間分布,歸納學習整個點云 的結構信息. 為了克服一般網絡中點云規模較小的局限性, 2019年Paigwar等人[80]提出 AttentionalPointNet. 利用 Attentional機制進行檢測能夠在大規模且雜 亂無章的環境下重點關注感興趣的對象. 2020年 Shi等人[81]提出 PVGRCNN.它執行 2 步策略:第1步采用體素 CNN 進行體素特征學習 和精確的位置生成,以節省后續計算并對具有代表 性的場景特征進行編碼;第2步提取特征,聚集特征 可以聯合用于后續的置信度預測和進一步細化. 文獻[76]生成的預選結果數量少且質量高.文 獻[77]能夠利用點云的全部信息,其計算速度較快. 文獻[78]能夠將點特征從稀疏表示轉換為緊湊表 示,且用時較短.文獻[79]充分考慮點云的局部結 構,自適應地將局部特征作為輸入,在不同天氣條件 下仍能體現出健壯性.文獻[80]不必處理全部點云, 但預處理步驟使得計算成本較大.文獻[81]結合基 于體素的與基于 PointNet的優勢,能夠學習更具鑒 別力的點云特征.

5.4 算法性能對比分析

跟蹤算法中,文獻[67]主要關注的是物體部件 的跟蹤,文獻[68]與文獻[69]則主要檢測同一物體 在不同時間的狀態.文獻[67]的優勢在于可以同時 預測多個運動部件及其各自的運動信息,進而產生 基于運動的分割.該方法實現高精度的前提是輸入 對象的幾何結構明確,否則很有可能會生成不完美 的運動序列.文獻[68]在快速變化的情況下,如突然 剎車或轉彎,其結果仍可靠.但是當目標被嚴重遮擋 時,其結果并不可靠.由于大多數模型(如汽車模型) 只能從單側看到,文獻[69]利用對稱性完善汽車形 狀的方法未必是有效的.文獻[71]的處理方法較簡 單且用時較短,在 CPU 上運行時間不超過75ms.它 能在檢測行人時達到較高性能.但用于擁擠道路的 自動駕駛時,其采用的質心估計對于汽車并不準確. 文獻[72]同時利用2維信息與3維 LIDAR 數據, 且使用的SRTs指標可縮短訓練時間. 場景流估計算法中,文獻[73]聯合3維場景流 和剛性運動進行預測,其效率較高且處理不同運動 時具有魯棒性.文獻[74]與文獻[75]都以端到端的 方式從點云中學習場景流.前者從非結構化的點云 中恢復結構化,在生成的網格上進行計算,后者則是 在點云的連續幀中計算. 檢測算法中,文獻[76]不會在量化過程中丟失 信息,也不需要依賴2維檢測來估計3維包圍盒,故 而可以充分利用3維信息.文獻[77]的處理速度較 快,計算效率較高.文獻[78]具有較高的計算效率和 較少的計算量,能夠同時集成基于點和基于體素的 優點.文獻[79]引入局部特征作為網絡輸入,有助于 充分了解輸入點云的局部結構.文獻[80]能夠有效 地獲取數據的3維幾何信息.但是,將點云裁剪成較 小區域等預處理步驟增加了計算成本.文獻[81]結 合了基于體素與基于 PointNet的優點,不僅保留了 精確的位置,而且編碼了豐富的場景上下文信息.

表4給出 KITTI數據集下不同算法處理跟蹤 任務的性能對比.指標為多目標跟蹤準確度(multiG objecttrackingaccurancy,MOTA)、多 目 標 跟 蹤 精確度(multiGobjecttrackingprecision,MOTP)、 目標大部分被跟蹤到的軌跡占比(mostlytracked,MT)、目 標 大 部 分 跟 丟 的 軌 跡 占 比 (mostlylost, ML)、ID改變總數量(IDswitches,IDS)、跟蹤過程 中被打斷的次數(fragmentation,FRAG)及每秒幀 數(framespersecond,FPS).

表 5 給出在 KITTI數據集下 3 維檢測框(3G dimensionaldetectionbenchmark,3D)、BEV 視圖下 檢測框(birdeyeviewdetectionbenchmark,BEV) 與檢測目標旋轉角度(averageorientationsimilarity detectionbenchmark,AOS)的檢測結果.其中,評估指 標為AP,IoU 閾值為:汽車0.7,行人和自行車0.5.

6 姿態估計

3維姿態估計即確定目標物體的方位指向問題, 在機器人、動作跟蹤和相機定標等領域都有應用.

6.1 位姿估計

解決3維可視化問題的中間步驟一般是確定 3維局部特征,位姿估計是其中最突出的問題. 2017年 Elbaz等人[82]提出的 LORAX 采用了 可以處理不同大小點云的設置,并設計了對大規模 掃描數據有效的算法.2019年 Speciale等人[83]將原 始3維點提升到隨機方向的3維線上,僅存儲3維 線和3維 點 的 關 聯 特 征 描 述 符,這 類 映 射 被 稱 為 3維線云.2019年 Zhang等人[84]從目標點云中自動 提取關鍵點,生成對剛性變換不變的逐點特征,利用 層次式神經網絡預測參考姿態對應的關鍵點坐標. 最后計算出當前姿態與參考姿態之間的相對變換. 2018年 Deng等人[85]提出了 PPFGFoldNet,通 過點對特征(pointpairfeature,PPF)對局部3維幾 何編碼,建立了理論上的旋轉不變性,同時兼顧點的 稀疏性和置換不變性,能很好地處理密度變化. 考慮到成對配準描述符也應該為局部旋轉的計 算提供線索,2019年 Deng等人[86]提出端到端的配 準方法.這種算法在 PPFGFoldNet [85]的工作基礎上, 通過學習位姿變換將3維結構與6自由度運動解耦.該方法基于數據驅動來解決2點云配準問題. 2020年 Kurobe等人[87]提出 CorsNet,連接局 部特征與全局特征,不直接聚集特征,而是回歸點云 之間的對應關系,比傳統方法集成更多信息. 文獻[82]解決了2點云之間點數相差數倍的問 題,它簡單、快速,并且具備擴展性,但在極端情況 下,其結果會出錯.文獻[83]只使用了一個幾何約 束,其準確性與召回率可以與傳統方法媲美,但這種 方法的速度較慢.文獻[84]需要較少的訓練數據,因 此對于沒有紋理的對象,它更快、更精確.文獻[85] 繼承了多個網絡框架的優點,且充分利用點云稀疏 性,能夠快速提取描述符.文獻[86]提高了成對配準 的技術水平且減少了運行時間.文獻[87]結合了局 部與全局特征,從平移和旋轉的角度而言準確性較 高.表6上半部分給出位姿估計算法的核心方法及 優勢對比分析.

6.2 手部姿態估計

點云作為更簡單有效的數據表示方法,其輸入 的點集和輸出的手部姿態共享相同表示域,有利于 學習如何將輸入數據映射到輸出姿態上. 為了直接從點云中估計手部姿態,同樣以手部 3維點云為輸入,2018年 Chen等人[88]提出語義手 部姿 態 回 歸 網 絡 (semantichandposeregression network,SHPRGNet),通過學習輸入數據的變換矩 陣和輸出姿態的逆矩陣應對幾何變換的挑戰.Ge等 人[89]提出的方法輸出反映手部關節的每點貼近度 和方向的 heatGmaps和單位向量場,并利用加權融 合從估計的heatGmaps和單位向量場中推斷出手部 關節位置.2019年 Li等人[90]提出的方法以置換等 變層(permutationequivariantlayer,PEL)為基本 單元,構建了基于 PEL 的殘差網絡模型.且手部姿 態是利用點對姿勢的投票方案來獲得的,這避免了 使用最大池化層提取特征而導致的信息丟失. 現有的手部姿態估計方法大多依賴于訓練集, 而在訓練數據上標注手部3維姿態費時費力.2019 年 Chen等人[91]提出的 SOGHandNet旨在利用未 注記數據以半監督的方式獲得精確的3維手部姿態 估計.通過自組織映射(selfGorganizingmap,SOM) 模擬點的空間分布,然后對單個點和 SOM 節點進 行層次化特征提取,最終生成輸入點云的判別特征. 2018年 Ge等人[92]提出 HandPointNet,提出 的精細化網絡可以進一步挖掘原始點云中更精細的 細節,能夠回歸出更精確的指尖位置.Huang等人[93] 認為學習算法不僅要研究數據的內在相關性,而且 要充分利用手部關節之間的結構相關性及其與輸入 數據的相關性.基于此,2020年他們提出非自回歸手 部transformer(nonGautoregressivehandtransformer, NARHT),以關節特征的形式提供參考手部姿態, 利用其固有的相關性來逼近輸出姿態. 文獻[88]對點云的幾何變換具有魯棒性.文獻 [89]能夠很好地捕捉空間中點云的結構信息.文獻 [90]較利用體素的方法占用內存更少,但其效率不 如基于深度圖像的方法.文獻[91]的特征編碼器能 夠揭示輸入點云的空間分布.文獻[92]能夠捕捉復 雜的手部結構,并精確地回歸出手部姿態的低維表 示.文獻[93]采用新的nonGautoregressive結構學習機制來代替transformer的自回歸分解,在解碼過 程中提供必要的姿態信息.表6下半部分給出手部 姿態估計算法的核心方法及優勢對比分析.

**6.3 算法性能對比分析 **

位姿估計方法中,核心問題是找到旋轉矩陣與 平移矩陣.文獻[83,85G86]都利用了 RANSAC迭代 算法.其中,文獻[83]實現了魯棒、準確的6自由度 姿態估計.文獻[85]是無監督、高精度、6自由度變 換不變的網絡.文獻[86]在挑戰成對配準的真實數 據集方面優于現有技術,具有更好的泛化能力且速 度更快.文獻[82]的 LORAX能夠并行實現,效率較 高,適合實時應用.它對隨機噪聲、密度變化不敏感, 并且其魯棒性僅在極端水平下才會惡化.文獻[84] 使用較少 的 訓 練 圖 像 實 現 了 較 高 的 準 確 性.文 獻 [87]提出的 CorsNet回歸的是對應關系,而不是直 接姿態變化. 手部姿態估計方法中,文獻[88]可獲得更具代 表性的特征.SHPRGNet可以在不改變網絡結構的前 提下擴展到多視點的手部姿態估計,這需要將多視 點的深度數據融合到點云上.然而,融合后的點云也 會受到噪聲的影響.文獻[89]可以更好地利用深度 圖像中的3維空間信息,捕捉3維點云的局部結構, 并且能夠集中學習手部點云的有效特征,從而進行 精確的3維手部姿態估計.文獻[90]與基于體素化的 方法相比,需要更少的內存.但與基于深度圖像的方 法相比,需要更多的計算時間和內存.文獻[91]使用 半監督的方式對網絡進行訓練,其性能可與全監督 的方法相媲美.文獻[92]有效利用深度圖中的信息, 以較少的網絡參數捕獲更多的手部細節及結構,并 準確地估計其3維姿態.文獻[93]首次結合結構化 手部姿勢估計與基于transformer的自然語言處理 領域的轉換框架.引入參考手部姿勢為輸出關節提 供等效依賴關系.文獻[89]的模型大小為17.2MB.其 中11.1MB用于點對點回歸網絡,它是分層PointNet; 6.1MB用于附加的回歸模塊,它由3個全連層組成. 文獻[90]有2種版本,回歸版本為38MB,檢測版本 為44MB.文獻[91]中,手部特征編碼器(handfeature encoder,HFE)、手部特征解碼器(handfeaturedecoder, HFD)和 手 部 特 征 估 計 器 (handposeestimator, HPE)的大小分別為8.1MB,74MB,8.5MB.由于只 在測試階段使用 HFE 和 HPE,所以其網絡模型大 小為16.6MB.文獻[92]的模型大小為10.3MB,其 中回歸網絡為9.2MB,指尖精細網絡為1.1MB.不 同方法在3個數據集上的性能對比分析如圖1所示:

7 總 結

本文總結了近年來多種點云處理任務的方法, 特別側重于基于深度學習的工作,為讀者提供了最 新的研究進展. 大多數關于點云的綜述類文章都集中于討論點 云分類分割處理任務.如文獻[94G95]只討論了語義 分割任務;文獻[96G97]增加了目標檢測和分類任務 的研究分析.其中,文獻[97]只用1節內容簡要介紹 分類、分割及目標檢測三大任務,更關注于處理點云數據的深度學習方法,而不依據處理任務對其進行 劃分討論.本文則考慮多種點云處理任務,包括模型 重建與變換、分類分割、檢測跟蹤與姿態估計等.在 模型分割分類中,由于大部分算法有用于實現點云 分類與分割的功能,不同于文獻[96G97]將分類與分 割作為2種類別分開討論,本文將它們統一考慮,并 根據基于體素、基于視圖與基于點三大主流方法對 其劃分并展開討論,明確給出各算法可處理的任務. 目前,已經有大量學者對點云處理任務進行研 究并依據任務的不同提出多種方法,但這些方法或 多或少都有一定的局限性.本文基于這些算法的不 足總結點云處理任務所面臨的挑戰與發展趨勢.

1) 數據方面

大部分方法只在現有的數據集上進行實驗,而 對于新獲取的數據并不適用.這很大程度上是由于 新獲取的數據無法實現多角度、全方位的完美匹配, 而且不同平臺獲得的數據難以融合,無法達到統一 的標準.對于融合后的點云,具有魯棒性和區分性特 征的提取有一定的難度,未來的研究可以從特征提 取方面入手. 數據集尺度不均衡是由于真實復雜場景中檢測 及識別小目標較為困難.未來研究工作可人工生成 小目標樣本,增大數據集中小目標所占比例,進而在 網絡訓練中提高其識別檢測能力. 數據質量對網絡(如transformers)的泛化性和 魯棒性的影響較大[2].點云的幾何位置存在誤差時, 可以通過已知控制點對其進行幾何矯正.當使用激 光掃描獲取數據時,除了考慮掃描距離和入射角度 的問題,還可以進行強度矯正,通過不同方法改善點 云的質量. 隨著3維掃描技術的發展,大規模點云的獲取 已不是難點,挑戰性在于如何對其進行處理.此外, 算法精度依賴大批量的數據集[98],目前還沒有比較 好的解決手段.

2) 性質方面

點云是3維空間內點的集合,它沒有提供鄰域 信息,故而大部分方法需要依據不同的鄰域查詢方 法確定點的鄰域,這將導致算法增加額外的計算成 本.點云不能顯式地表達目標結構以及空間拓撲關 系.此外,當目標被遮擋或重疊時,不能依據幾何關 系確定拓撲結構,給后續處理任務帶來一定難度. 針對點云的不規則性及無序性,將其應用于深 度神經網絡中進行相關任務的處理需要做數據形式 的轉換,如體素化[40].但這些轉換操作不但增加了 計算量,而且很可能在轉換的過程中丟失信息,所以 直接的點云處理方法是重要的研究方向.

3)網絡結構方面

① 基于快速和輕量級的模型.為了達到理想效 果,目前的算法傾向于使用含大量參數的較大的神 經網絡結構,導致計算復雜度高、內存占用大、速度 慢等問題.因此,設計快速且輕量級的網絡架構具有 較大的應用價值[99G100]. ② 網絡結構的改良.優化網絡結構可使同一網 絡處理多種任務,能夠很大程度地降低復雜度[2].還 可以考慮與其他網絡結構結合[45]來實現優化目的.

4) 應用方面

室外場景信息較多、結構復雜,所以目前大多數 方法著重于相對簡單的室內場景的分析.然而自動 駕駛[12]等技術的研究無法在室內場景中完成,所以 未來的研究方向可側重于構建適用于室外場景的網 絡模型. 現有分割方法大都用于單個物體的部件分割[1] 或場景中同類對象的語義分割[25].而真實場景中目 標類別眾多、結構復雜,對同類對象的不同個體分割 是3維形態檢測(文物、古建監測)的重要手段. 現有的大多數算法主要利用靜態場景中獲取的 數據,在地震檢測等實際應用中,設計能夠應對變化 場景的算法具有重要應用價值.利用時序上下文信 息可作為其研究方向[99]. 計算機視覺中的有效性通常與效率相關,它決 定模型是否可用于實際應用中[100],因此在二者之 間實現更好的平衡是未來研究中有意義的課題.

付費5元查看完整內容

相關內容

圖像配準是圖像引導手術、圖像融合、器官圖譜生成、腫瘤和骨骼生長監測等臨床任務應用的關鍵技術,也是一個極具挑戰性的問題。近年來,深度學習技術對醫學圖像處理方法的研究產生重要的影響,在醫學圖像配準領域發展迅速。來自美國辛辛那提兒童醫院醫療中心等發布了**《深度學習醫學圖像配準》**綜述,闡述了相關進展。

圖像配準是各種醫學圖像分析應用中的一個重要組成部分。近年來,基于深度學習(DL)的醫學圖像配準模型發展迅速。本文對醫學圖像配準技術進行了綜述。首先,討論了監督配準的分類,如完全監督配準、雙重監督配準和弱監督配準。接下來,基于相似度和基于生成對抗網絡(GAN)的配準被提出作為無監督配準的一部分。然后描述了深度迭代配準,重點是基于深度相似度和基于強化學習的配準。此外,對醫學圖像配準的應用領域進行了綜述。本文主要綜述單模態和多模態配準及其相關成像,如X線、CT掃描、超聲和MRI。本綜述強調了現有的挑戰,其中顯示,一個主要挑戰是缺乏具有已知轉換的訓練數據集。最后,討論了基于深度學習的醫學圖像配準的未來研究方向。

//www.zhuanzhi.ai/paper/1fb1db2059362b38007d8e59df7d6f61

引言

使用圖像配準,可以將不同的圖像集合合并到一個具有相同信息的單一坐標系中。當比較從不同角度多次拍攝的兩幅圖像或使用不同的模態/傳感器時,可能需要配準[1,2]。直到最近,大多數圖像配準都是由醫生手工完成的。人工對齊在很大程度上依賴于用戶的能力,這在臨床上可能不利于某些配準程序的質量。自動配準的產生是為了克服一些可能的缺點手動圖像配準。DL的復興改變了圖像配準研究的背景[3],盡管事實上各種自動圖像配準方法已經被深入研究之前(和期間)。DL[4]使最近的工作在廣泛的計算機視覺任務中得以表現,包括但不限于: 圖像分類[4],分割[5],特征提取[6-8],以及目標識別[9]。作為一個起點,DL在增強基于強度的配準性能方面被證明是有用的。這只是時間問題,直到其他研究人員看到使用強化學習的配準過程的應用[10-12]。由于獲取/創建地面真實數據的困難,人們對開發用于一步轉換估計的無監督框架越來越感興趣[13,14]。圖像相似度量化是這一范式中的一個眾所周知的障礙。應用基于信息理論的相似性度量[13]、生成對抗網絡(GAN)框架[16]和解剖特征分割[17]來解決這一難題,取得了良好的效果。

傳統的圖像配準是一個基于迭代的過程,包括收集必要的特征,確定相似度(以評估配準質量),選擇變換模型,最后是搜索機制[18,149,153]。可以發送到系統的圖片有兩種: 移動和固定,如圖1所示。通過在靜止圖像上反復滑動移動圖像,可以獲得最佳對齊。考慮的相似性度量最初決定了輸入的照片之間的相似度。計算新轉換的參數是通過使用更新機制的優化方法完成的。通過將這些因素作用于運動圖像,就產生了具有改進對齊的圖像。否則,將開始一個新的算法迭代。如果滿足終止要求,則流程結束。直到不能再獲得配準或滿足一定的預定要求,運動圖像才會在每一個循環中改善與靜止圖像的對應關系。該系統的輸出既可以是變換參數,也可以是最終的插值融合圖像。

一個用于醫學圖像的圖像配準框架流程圖

有必要對使用DL的醫學圖像配準領域進行徹底的調研,突出專家面臨的常見問題,并討論可以解決這些挑戰的即將到來的研究可能性。它是一種利用多層神經網絡(NN)來學習數據描述的機器學習(ML)。許多不同種類的神經網絡可以用于不同的目的,最近已經開發出一些重要的設計來解決工程挑戰。在討論神經網絡時,也可以討論許多神經網絡的訓練過程。關于神經網絡類型、訓練范式、網絡結構以及方法的章節構成了DL的介紹。PyTorch[19]、Caffe[20]、Keras[21]、MXNet[22]和TensorFlow[23]都是可用于創建網絡的公共訪問庫。現有的文獻主要集中在醫學圖像分析中使用DL、reinforcement learning和GANs進行醫學圖像分析。

本文綜合回顧了現有文獻中基于離散域的圖像配準的研究進展。本文著重從方法和功能的角度對其創新進行了綜述。本文研究了不同形式的配準,包括無監督和監督變換估計,以及深度迭代配準。討論了當前圖像配準的趨勢、挑戰和局限性。最后,本文對未來的研究方向進行了展望。

監督配準模型

對于深度學習模型,監督訓練是各種配準模型的共同基礎。根據在訓練階段中使用的監督程度,有三個子類別的模型: 完全監督、雙重監督和弱監督。完全監督配準利用傳統配準算法中的真DVFs來監督學習過程。這些損失通常是由于地面真實值和預期SVF不匹配造成的,如圖2所示。弱監督配準使用隱式參考標簽,而不是使用廣泛使用的解剖輪廓參考DVF,如圖2所示。經常使用兩種以上的參考數據來訓練雙監督配準模型。這包括解剖結構輪廓、參考SVF以及圖像相似性。

弱監督和完全監督配準模型的示例工作圖

盡管為了解決有監督圖像配準的信息或數據稀缺問題,人們采取了許多策略(如弱監督和數據增強)[43-47],但訓練樣本的創建仍然是一個耗時的過程。由于移動和固定的圖像配對是DL模型需要學習的所有變形,無監督配準是一種方法。表1提供了這個子類別的概述。在這一類別的訓練中仍然需要一個可與傳統迭代配準中使用的損失函數。一個DVF正則化項和一個圖像相似項和通常包括在損失函數中。由于固有卷積的性質,一些相似性度量,即局部NCC (LNCC),被改變為專注于微小斑塊。可以引入各種損失項,如防止過擬合的同一性損失和減少奇異性的循環一致性損失。

基于(a) GAN和(b)相似矩陣的醫學圖像配準通用框架

各種醫學圖像配準通用框架

本文綜述了近年來在醫學圖像配準方面的研究進展。由于每個應用程序都有不同的問題,因此有必要謹慎地開發DL框架。多模態圖像配準,比如涉及TRUS和MRI的配準,也面臨著類似的挑戰,比如無法在多模態應用中使用穩健的相似性度量,缺乏大型數據集,難以獲得地面真實值配準和分割,以及量化模型的偏好。(36、37)。解決這些問題的常用方法包括補丁式框架、應用程序特定的相似性度量、注冊框架和受變分自動編碼器影響的無監督技術。插值和重采樣,盡管在本文中描述的許多方法復雜,通常不是由神經網絡學習。隨著該領域的成熟,我們預計會有更多的學者將這些組件包含到他們基于深度學習的解決方案中。每種策略都有自己的優點和局限性,但比較這兩種策略的研究人員總數大致相同。在這兩個領域,我們預計會出現更多結合這兩種策略的好處的研究和新方法。我們預測在這兩類中還會有進一步的研究。

付費5元查看完整內容

目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。

付費5元查看完整內容

摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。

付費5元查看完整內容

自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。

付費5元查看完整內容

題目: Review: deep learning on 3D point clouds

簡介:

點云是在三維度量空間中定義的點集。點云已經成為三維表示中最重要的數據格式之一。由于激光雷達等獲取設備的可用性增加以及機器人、自動駕駛、增強和虛擬現實等領域的應用增加,它越來越受歡迎。深度學習現在是計算機視覺中最強大的數據處理工具,成為分類、分割和檢測等任務的首選技術。深度學習技術主要應用于具有結構化網格的數據,而點云則是非結構化的。點云的無結構使得深度學習直接處理點云非常具有挑戰性。早期的方法通過將點云預處理成結構化的網格格式來克服這一挑戰,代價是計算成本的增加或深度信息的丟失。然而,最近許多先進的深度學習技術正在開發中,這些技術可以直接操作點云。這篇論文包含了對當前最先進的深度學習技術的調查,這些技術主要集中在點云數據上。我們首先簡要地討論了在點云上直接使用深度學習所面臨的主要挑戰,我們還簡要地討論了通過將點云預處理成結構化網格來克服這些挑戰的早期方法。然后,我們回顧了各種先進的深度學習方法,直接處理點云的非結構化形式。我們介紹了流行的3D點云基準數據集。我們還進一步討論了深度學習在當前流行的三維視覺任務中的應用,包括分類、分割和檢測。

作者:

王程,福建省特支“雙百計劃”入選者、福建省科技創新領軍人才、廈門大學計算機科學系教授、博士生導師、副院長。研究方向:三維視覺,空間大數據分析,激光雷達,虛擬/增強現實。個人主頁:

付費5元查看完整內容
北京阿比特科技有限公司