亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著多媒體技術的發展,可獲取的媒體數據在種類和量級上都大幅提升。受人類感知方式的啟發,多種媒體數據互相融合處理,促進了人工智能在計算機視覺領域的研究發展,在遙感圖像解譯、生物醫學、深度估計等方面有廣泛的應用。盡管多模態數據在描述事物特征時有著明顯的優勢,仍面臨著較大的挑戰。首先,受到不同成像設備和傳感器的限制,難以收集到大規模、高質量的多模態數據集;其次,多模態數據需要匹配成對用于研究,任一模態的缺失都會造成可用數據的減少;同時,圖像、視頻數據在處理和標注上需要耗費較多的時間和人力成本,這些問題使得目前本領域的技術尚待攻關。本文立足于數據受限條件下的多模態學習方法,根據樣本數量、標注信息、樣本質量等不同的維度,將計算機視覺領域中的多模態數據受限方法分為小樣本學習、缺乏強監督標注信息、主動學習、數據去噪和數據增強 5 個方向,詳細闡述了各類方法的樣本特點和模型方法的最新進展。并且,介紹了數據受限前提下的多模態學習方法使用的數據集(包括SUNRGB+D、SYSU-MM01 等)及其應用方向(包括人體姿態估計、行人重識別等),比對分析了現有算法的優缺點以及未來的發展方向,對該領域的發展具有積極的意義。

模態是事物的一種表現形式,是對事物某特 定角度的描述。多模態通常包含兩個或者兩個以 上的模態形式,是指從多個視角出發對事物進行 描述。人們在感知世界時,多種感官總是同時接 收外在信息,如看見圖像、聽見聲音、聞到氣味 和觸摸感知等。隨著多媒體技術的發展,可獲取 的媒體數據在種類和量級上都大幅提升。例如, 傳感器不僅可以生成圖像或者視頻,還包含與之 匹配的深度、溫度信息等。為使人工智能技術更 好地解譯數據,必須使人工智能具有多模態學習 的能力。在人工智能技術的早期研究中,學者通常使 用單一模態的數據。受到人類感知方式的啟發, 研究認為每個模態對事物的描述具有相對獨立性, 使用多模態數據的互補表述能夠使事物呈現更立 體、表現更全面(Baltru?aitis 等,2019)。近年來,多模態數據的處理和應用成為重點研究方向,在情感分析、機器翻譯、自然語言處理和生物醫學等前沿方向取得了重要突破。計算機視覺是深度學習的重要應用領域和熱點研究問題,本文重點圍繞多模態在計算機視覺領域的發展進行介紹。如圖 1 所示,計算機視覺領域內的多模態學習主要是通過對圖像、視頻等多模態數據進行分析,學習并互補不同模態間的信息,實現圖像檢測識別、語義分割、視頻動作預測等任務(Liu等,2015a; Eigen 和R. Fergus, 2015),并廣泛應用于自動駕駛、農業監測、生物醫療、交通管理和災難預測等領域。如在醫學領域,醫學影像作為醫療診斷的重要依據,相較于單角度描述病灶特征的圖像,多模態醫療影像能有效輔助醫生從多個層面聯合判斷病灶及其周邊部分,加快診斷時間;在遙感領域,單傳感器依據設備特點從某種固定的角度描述地理目標,獨立分析時會受到成 像原理限制,而對不同成像方式、不同傳感器獲取 到的多模態遙感影像進行分析,可以有效提取地物 目標的綜合信息。

盡管多模態數據在描述事物特征時有著明顯的 優勢,但目前仍面臨著較大的挑戰。首先,雖然成 像技術層出不窮,但其同步帶來的圖像、視頻數據 的處理和標注任務有著不容忽視的工作量,需要耗 費較多的時間成本和人力資源。其次,傳統深度學 習模型需要將多模態數據匹配成對用于研究,任一 模態的缺失都會造成可用數據的減少。同時,由于 使用目的是利用多模態互補的特性,因此對數據內 部的完整度要求較高,但受到不同成像設備和傳感 器的限制,數據量少、質量模糊和缺失現象嚴重, 這些現象都會對后續的研究造成不利影響。因此, 在數據受限的前提下進行的多模態處理研究具有重 要的現實意義。面對以上的難點問題,根據多模態樣本數量、 標注信息、樣本質量等不同的維度,目前處理多模 態數據受限的方法主要分為以下幾類:

  1. 小樣本學習方法。在多模態數據不足的情 況下,小樣本學習方法僅通過學習少量樣本就能做 出正確判斷的認知能力,在數據量匱乏的情況下仍 能夠有效地學習目標特征。
  2. 缺乏強監督標注信息的方法。由于數據標 注過程會產生高額的成本,較難獲取所有模態的全 部真值標簽對模型進行強監督學習。常見的非完全 監督的方法有基于弱監督、無監督、半監督、自監 督的學習方法,這些方法可以有效改善模態缺乏標 注信息的問題,大大減少人工標注成本。
  3. 主動學習方法。該類方法通過設計具有自 主學習能力的模型,將人類經驗與學習規則充分結 合,致力于研究如何使用標注盡可能少的樣本來獲 得盡可能較好的效果。通過選擇最有用的樣本,可 以在保持性能的同時有效降低標注成本。
  4. 數據去噪方法。在多模態數據的獲取和處 理的過程中,外界環境和設備內部因素都可能會引 入噪聲。任何模態的數據受到噪聲污染都可能會影 響多模態數據處理的結果。多模態數據去噪是指減 少數據中的噪聲,恢復原始數據,進而再提取感興 趣的信息。
  5. 數據增強。在樣本較少的前提下,為進行 有限多模態數據的充分利用,數據增強方法通過對 原始數據集進行一系列變換操作,擴張數據的可使用性。

本文主要對數據受限下的多模態數據處理方法進行綜述。在此之前,本文作者對相關領域進行了研究,在多模態學習、小樣本學習、弱監督學習、主動學習、數據去噪和增強等方面進行了深入調研。Baltru?aitis 等人(2019)從整體的角度探討了多模態機器學習的進展,并對多模態機器學習方法進行分類,但沒有介紹具體的應用場景。Wang 等人(2020b)從網絡架構的角度介紹了多模態模型,但沒有討論多模態數據本身的特點。Ramachandram等人(2017)對多模態深度學習現狀進行了總結,并提出網絡體系結構的設計應該考慮融合模式、模態信息和對缺失的數據或模態的處理,但沒有詳細綜述目前處理缺失數據以提高模型的魯棒性的方法。Gao等人(2020)總結了具有代表性的處理異構數據的深度學習網絡架構,并認為一些深度學習模型只關注單模態噪聲數據,未來迫切需要解決針對低質量多模態數據的深度學習模型。上述的綜述缺乏對數據受限條件下多模態數據發展的詳細介紹。Wang等人(2020a)綜述了近年來小樣本學習方法的進展,并進行統一分類。Zhou 等人(2018)綜述了弱監督學習的一些研究進展。Settles 等人(2011)回顧了將主動學習應用于實踐遇到的挑戰,并介紹為解決挑戰所做的工作。但上述文獻都僅基于單模態數據進行總結,并沒有關注多模態數據背景問題。針對在數據受限條件下多模態數據處理面臨的各種挑戰和難題,已有研究者提供了一些解決思路,但是尚未形成相關的綜述文獻。因此,本文總結了數據受限條件下多模態分析處理的研究方法和進展,以及多模態數據在不同領域的應用情況。首先闡述了多模態數據在計算機視覺方向的研究現狀與數據受限的難題挑戰,介紹了對不同數據受限情況的處理方法,幫助讀者熟悉和了解該研究的背景和目的。然后分類闡明不同數據受限處理方法的現狀與研究方法,區分不同的受限情況所面臨的困難和挑戰。最后對多模態數據的各個應用領域的典型數據集進行介紹,總結目前的研究成果,能夠啟發未來多模態的應用前景,展望下一步研究方向。

付費5元查看完整內容

相關內容

深度學習在2維圖像等結構化數據處理中表現出了優越性能,對非結構化的點云數據分析處理 的潛力已經成為計算機圖形學的重要研究方向,并在機器人、自動駕駛、虛擬及增強現實等領域取得一 定進展.通過回顧近年來3維點云處理任務的主要研究問題,圍繞深度學習在3維點云形狀分析、結構提取、檢測和修復等方向的應用,總結整理了典型算法.介紹了點云拓撲結構的提取方法,然后對比分析 了變換、分類分割、檢測跟蹤、姿態估計等方向的以構建神經網絡為主要研究方法的進展.最后,總結常 用的3維點云公開數據集,分析對比了各類方法的特點與評價指標,指出其優勢與不足,并從不同角度 對基于深度學習的方法處理點云數據所面臨的挑戰與發展方向進行了討論.

隨著3維傳感器的迅速發展,3維數據變得無 處不在,利用深度學習方法對這類數據進行語義理 解和分析變得越來越重要. 不同3維數據(體素、網格等)表示下,深度學習 的方法不盡相同,但這些方法應用于點云中都有一 定的局限性,具體表現為:體素化方法會受到分辨率 的限制;轉換為2維圖像的方法在形狀分類和檢索 任務上取得了優越性能,但將其擴展到場景理解或 其他3維任務(如姿態估計)有一定的困難;光譜卷 積神經網絡限制在流形網格;基于特征的深度神經 網絡會受到所提取特征表示能力的限制[1].

點云本身具有的無序性與不規則性為利用深度 學習方法直接處理該類數據帶來一定挑戰性:1)規 模局限性.現有研究方法一般針對小規模點云,而能 處理大型點云的方法也需要切割處理,即將其分為 小塊后再處理.但切割可能會造成點云整體信息的 丟失.2)遮擋.當被掃描對象被遮擋時,將直接導致 信息的丟失,這為后續任務的處理帶來嚴重影響.3) 噪聲.由于點云數據本身就是3維空間內的點集,噪 聲的存在直接影響點云模型的正確表示,在形狀識 別等任務中會造成精度的降低.4)旋轉不變.對于同 一模型,旋轉不同角度仍表示同一對象,網絡識別結 果不應由于角度不同而產生差異. 隨著近年來激光雷達等傳感設備及相關技術的 發展,3維點云的掃描與獲取更為便捷,其處理技術 在機器人、自動駕駛及其他領域的實際應用中已取 得一定進展.基于深度學習的蓬勃發展,研究者提出 了許多方法來解決相關領域的不同問題.

**本文對基 于深度學習的點云處理任務進行詳細闡述. 本文的主要貢獻有4個方面: **

1) 從機器人、自動駕駛、虛擬和增強現實以及 醫學4個領域介紹點云處理技術的應用情況; 2) 探討點云拓撲結構與形狀分析在應用于點 云處理任務中的必要性,并總結對比多種算法; 3) 歸納基于點云數據處理相關任務的方法,主 要包括模型重建與變換、分類分割、檢測跟蹤與姿態 估計,著重討論基于深度學習的方法,并給出各種方 法的優劣比較; 4) 總結多個公開點云數據集,并分析各數據集 中不同方法能處理的不同任務.

1 基本概念及應用情況

1.1 深度學習

機器學習推動現代科技手段的進步.網絡的內 容過濾及推薦、語音文本的轉換及醫學影像分析等 應用程序越來越多地使用深度學習技術.

1) 基礎概念

深度學習善于發現高維數據中的復雜結構,因 此可應用于科學、商業和醫學等諸多領域. 深度學習利用多處理層組成的計算模型學習具 有抽象層次的數據表示,關鍵在于其目標特征不是 人類指定的,而是從大量數據中學習獲取的,深度神 經網絡已經成為人工智能的基礎.多層感知機或全 連接網絡堆疊線性層和非線性激活層,是神經網絡 的經典類型.卷積網絡引入卷積層和池化層,在處理 圖像、視頻和音頻方面取得了突破性進展.遞歸網絡 可有效處理文本語音等具有連續性的數據.TransG former利用selfGattention機制提取特征,最早用于 處理自然語言[2G3].

2) 框架平臺

為了實現更復雜的模型,若從頭開始編寫代碼, 效率非常低,因此深度學習框架應運而生.本節介紹 常用的深度學習框架,并將其匯總于表1中. 目前常用于點云處理的框架更多為 TensorFlow 與 PyTorch,其他框架如 Caffe與Jittor等也可用于 處理點云,但應用較少.

1.2 點云處理任務

3維幾何模型中,點云已經成為主要表達方式 之一,其應用于深度學習中的處理技術已取得一定成果.在不同任務驅動下,本文以構建神經網絡為主 要方法,通過分類與整理相關文獻,將點云處理任務 分為模型重建與變換、分類分割、檢測跟蹤與姿態估 計幾大類.本節總結其基本概念.

模型重建與變換包括形狀修復、模型補全與變 形.掃描獲取到的數據并不能完美表征原物體的特 性,很可能存在缺漏或誤差,造成模型不完整、扭曲, 故而需要對該模型進行處理,使其盡可能貼合原物 體模型或目標模型,處理手段即為重建與變換. 分類分割主要包括分類、部件分割、語義分割與 實例分割.在諸如機器人抓取等需求中,必須明確所 抓取對象的分類,即需要判斷其信息,判斷即為對場 景中對象語義信息標記與分類. 檢測跟蹤主要包括3維對象檢測、場景流估計 與目標跟蹤.在諸如自動駕駛等應用中,需要明確路 徑與方向,確定追蹤對象,并能依據當前狀態自動調 節或人為干預使其后續運動符合預期目標. 姿態估計主要包括位姿估計與手部姿態估計. 前者需要確定對象的位置與方向,如工廠噴漆中,噴 槍需要依據目標不斷改變其位置與指向.后者則是 為了理解人類肢體語言,如在體感游戲中,根據肢體 變換執行相應游戲操作.

1.3 應用情況

3維點云處理目前在實際應用中已經取得了一 定的進展.本節以應用為導向,從機器人領域、自動 駕駛領域及虛擬、增強現實領域及醫學領域4個角 度介紹點云處理技術的應用情況.

1.3.1 機器人領域

機器人抓取技術的核心在于目標識別和定位. 2019年 Lin等人[4]利用深度神經網絡學習物體外 在形狀,并訓練網絡在獲取物體局部表面時也能成 功抓取目標. 在機器人 室 內 定 位 及 導 航 技 術 方 面,2020 年 Khanh等人[5]設計了新的云端導航系統.云端導航 下機器人能更準確地移動到目標位置.該技術可應 用于位置服務需求,如盲人導航. 針對噴漆機器人的自動化操作,2019年 Lin等 人[6]利用迭代最近點(iterativeclosestpoint,ICP) 算法進行姿態估計,計算物體部件的位置誤差,并重 新調整機器人的方向,以完成所需的噴漆任務.2020 年 Parra等人[7]設計了能夠在地板下的空隙中進行 隔熱噴涂以提高建筑的強度及使用年限的機器人. 他們針對地形不均勻等情況,提出定位模塊.機器人 依據傳感器獲取連續點云的信息.Yang等人[8]基于 點云模型表示的家具表面路徑規劃和邊緣提取技術 提出邊緣噴涂,獲取噴涂槍路徑點序列和對應姿態. 在家具等工件的生產流程中,該方法能夠根據噴涂 系統坐標系與家具姿態的不同,自適應地調整二者 的坐標關系,以實現正確噴涂的目的.

1.3.2 自動駕駛領域

自動駕駛系統的性能受環境感知的影響.車輛 對其環境的感知為系統的自動響應提供了基礎.2017 年 Hanke等人[9]提出采用光線追蹤的汽車激光雷 達傳感器實現實時模型測量方法.使用由真實世界場 景的測量構建的虛擬環境,能夠在真實世界和虛擬世 界傳感器數據之間建立直接聯系.2019年Josyula等 人[10]提出了利用機器人操作系統(robotoperating system,ROS)和點云庫(pointcloudlibrary,PCL) 對點云進行分割的方法.它是為自動駕駛車輛和無 人機的避障而開發的,具體涉及障礙物檢測與跟蹤.激光雷達(lightdetectionandranging,LIDAR) 和視覺感知是高水平(L4GL5)飛行員成功自動避障 的關鍵因素.為了對大量數據進行點云標記,2020 年 Li等人[11]提出針對3維點云的標注工具,實現 了點云3維包圍盒坐標信息到相機與 LIDAR 聯合 標定后獲得的2維圖像包圍盒的轉換. 基于圖的同步定位與建圖(simultaneouslocaliG zationandmapping,SLAM)在自動駕駛中應用廣 泛.實際駕駛環境中包含大量的運動目標,降低了掃 描匹配性能.2020年 Lee等人[12]利用加權無損檢測 (掃描匹配算法)進行圖的構造,在動態環境下也具 有魯棒性.

1.3.3 虛擬、增強現實領域

為了更好地了解室內空間信息,2015年 Tredinnick 等人[13] 創 建 了 能 夠 在 沉 浸 式 虛 擬 現 實 (virtual reality,VR)顯示系統中以較快的交互速率可視化 大規模 LIDAR 點云的應用程序,能夠產生準確的 室內環境渲染效果.2016年 Bonatto等人[14]探討了 在頭戴式顯示設備中渲染自然場景的可能性.實時 渲染是使用優化的子采樣等技術來降低場景的復雜 度實現的,這些技術為虛擬現實帶來了良好的沉浸 感.2018年 Feichter等人[15]提出了在真實室內點云 場景中抽取冗余信息的算法.其核心思想是從點云 中識別出平面線段,并通過對邊界進行三角剖分來 獲取內點,從而描述形狀. 生成可用于訓練新模型的標注已成為機器學習 中獨立的研究領域,它的目標是高效和高精度.標注 3維點云的方法包括可視化,但這種方法是十分耗 時的.2019年 Wirth等人[16]提出了新的虛擬現實標 注技術,它大大加快了數據標注的過程. LTDAR為增強現實(augmentedreality,AR) 提供了基本的3維信息支持.2020年 Liu等人[17]提 出學習圖像和 LIDAR 點云的局部特征表示,并進 行匹配以建立2維與3維空間的關系. 使用手勢自然用戶界面(naturaluserinterface, NUI)對于頭戴式顯示器和增強及虛擬現實等可穿 戴設備中虛擬對象的交互至關重要.然而,它在 GPU 上的實現存在高延遲,會造成不自然的響應.2020年Im 等人[18]提出基于點云的神經網絡處理器.該 處理器采用異構內核結構以加速卷積層和采樣層, 實現了使用 NUI所必需的低延遲.

1.3.4 醫學領域

醫學原位可視化能夠顯示患者特定位置的成像 數據,其目的是將特定病人的數據與3維模型相結 合,如將手術模擬過程直接投影到患者的身體上,從 而在實際位置顯示解剖結構.2011年Placitelli等人[19] 采用 采 樣 一 致 性 初 始 配 準 算 法 (sampleconsensus initialalignment,SACGIA),通過快速配準三元組 計算相應的匹配變換,實現點云快速配準. 模擬醫學圖像如 X 射線是物理學和放射學的 重要研究領域.2020年 Haiderbhai等人[20]提出 基 于 條 件 生 成 式 對 抗 網 絡 (conditionalgenerative adversarialnetwork,CGAN)的點云 X射線圖像估 計法.通過訓練 CGAN 結構并利用合成數據生成器 中創建的數據集,可將點云轉換成 X射線圖像.

2 模型形狀結構

了解并確定高層形狀結構及其關系能夠使得模 型感知局部和全局的結構,并能通過部件之間的排 列和關系描繪形狀,這是研究形狀結構分析的核心 課題.隨著真實世界的掃描和信息的挖掘,以及設計 模型規模的增大,在大量信息中進行3維幾何模型 的識別和分析變得越來越重要。

3 模型重建與變換

由于遮擋等多種因素的限制,利用激光雷達等 點云獲取設備得到的數據存在幾何信息和語義信息的丟失以及拓撲結構的不確定,這直接導致了數據 的質量問題.為后續任務的處理帶來極大挑戰.

4 形狀分類與分割

基于檢索或劃分的目的,對具有相似特征或相 同屬性的點云數據進行區域的分割或屬性的分類是 極其重要的.

5 目標檢測與跟蹤

自動駕駛、機器人設計等領域中,3維目標檢測 與跟蹤至關重要.自動駕駛車輛和無人機的避障等 實際應用中,涉及障礙物檢測與跟蹤.

5.1 3維目標跟蹤

目標跟蹤是推測幀的屬性并預測變化,即推斷 對象的運動情況,可以利用預測對象的運動信息進 行干預使之實際運動符合預期目標或用戶要求. 為了從點云中推斷出目標對象的可移動部件以 及移動信息,2019年 Yan等人[67]提出 RPMGNet.其 特定的體系結構夠預測對象多個運動部件在后續幀 中的運動,同時自主決定運動何時停止. 2020年 Wang等人[68]提出 PointTrackNet.網 絡中提出了新的數據關聯模塊,用于合并2幀的點 特征,并關聯同一對象的相應特征.首次使用 3 維 Siamese跟蹤器并應用于點云的是 Giancola等人[69]. 基于 Achlioptas等人[70]提出的形狀完成網絡,2019 年 Giancola等人[69]通過使用給定對象的語義幾何 信息豐富重編碼后的表示來提高跟蹤性能. 2019年Burnett等人[71]提出aUToTrack,使用 貪婪算法進行數據關聯和擴展卡爾曼濾波(extended Kalmanfilter,EKF)跟蹤目標的位置和速度.Simon 等人[72]融合2維語義信息及 LIDAR 數據,還引入 了縮放旋轉平移分數(scaleGrotationGtranslationscore, SRTs),該方法可更好地利用時間信息并提高多目 標跟蹤的精度. 文獻[67]可以從開始幀和結束幀的移動部分導 出變化范圍,故參數中不含變換范圍,減少了參數個 數.文獻[68]提供的跟蹤關聯信息有助于減少目標 短期消失的影響,其性能比較穩定,但是當汽車被嚴 重遮擋時,結果會出現問題.文獻[69]解決了相似性 度量、模型更新以及遮擋處理3方面的問題,但該方 法直接利用對稱性來完善汽車整體形狀會導致更多 噪聲.文獻[71]實際需要計算被檢測物體的質心,這 種方法能有效檢測行人,但對于汽車來說,其結果并 不準確.文獻[72]提出的 SRTs可用于快速檢測目 標,提高了準確性和魯棒性.

5.2 3維場景流估計

機器人和人機交互中的應用可以從了解動態環 境中點的3維運動,即場景流中受益.以往對場景流 的研究方法主要集中于立體圖像和 RGBGD 圖像作 為輸入,很少有人嘗試從點云中直接估計. 2019年 Behl等人[73]提出 PointFlowNet,網絡 聯合預測3維場景流以及物體的3維包圍盒和剛體 運動.Gu等人[74]提出 HPLFlowNet,可以有效地處 理非結構化數據,也可以從點云中恢復結構化信息. 能在不犧牲性能的前提下節省計算成本.Liu等人[75] 提出 FlowNet3D.由于每個點都不是“獨立”的,相鄰點會形成有意義的信息,故而 FlowNet3D 網絡嵌入 層會學習點的幾何相似性和空間關系. 文獻[73]先檢測出object并計算出egomotion 和sceneflow,再去回歸各個object的 motion,它從 非結構化點云中直接估計3維場景流.文獻[74G75] 的整體結構類似,都是下采樣 融合 上采樣,直接擬 合出sceneflow.

5.3 3維目標檢測與識別

在城市環境中部署自動型車輛是一項艱巨的技 術挑戰,需要實時檢測移動物體,如車輛和行人.為 了在大規模點云中實現實時檢測,研究者針對不同 需求提出多種方法. 2019年 Shi等人[76]提出 PointRCNN,將場景 中的點云基于包圍盒生成真實分割掩模,分割前景 點的同時生成少量高質量的包圍盒預選結果.在標 準坐標中優化預選結果來獲得最終檢測結果. 2019年 Lang等人[77]提出編碼器 PointPillars. 它學 習 在 pillars 中 組 織 的 點 云 表 示,通 過 操 作 pillar,無需手動調整垂直方向的組合.由于所有的 關鍵操作都可以表示為2維卷積,所以僅使用2維 卷積就能實現端到端的3維點云學習. 考慮到模型的通用性,2019年 Yang等人[78]提 出STD,利用球形錨生成精確的預測,保留足夠的 上下文信息.PointPool生成的規范化坐標使模型在 幾何變化下具有魯棒性.box預測網絡模塊消除定 位精度與分類得分之間的差異,有效提高性能. 2019年 Liu等人[79]提出大規模場景描述網絡 (largeGscaleplacedescriptionnetwork,LPDGNet). 該網絡采用自適應局部特征提取方法得到點云的局 部特征.此外,特征空間和笛卡兒空間的融合能夠進 一步揭示局部特征的空間分布,歸納學習整個點云 的結構信息. 為了克服一般網絡中點云規模較小的局限性, 2019年Paigwar等人[80]提出 AttentionalPointNet. 利用 Attentional機制進行檢測能夠在大規模且雜 亂無章的環境下重點關注感興趣的對象. 2020年 Shi等人[81]提出 PVGRCNN.它執行 2 步策略:第1步采用體素 CNN 進行體素特征學習 和精確的位置生成,以節省后續計算并對具有代表 性的場景特征進行編碼;第2步提取特征,聚集特征 可以聯合用于后續的置信度預測和進一步細化. 文獻[76]生成的預選結果數量少且質量高.文 獻[77]能夠利用點云的全部信息,其計算速度較快. 文獻[78]能夠將點特征從稀疏表示轉換為緊湊表 示,且用時較短.文獻[79]充分考慮點云的局部結 構,自適應地將局部特征作為輸入,在不同天氣條件 下仍能體現出健壯性.文獻[80]不必處理全部點云, 但預處理步驟使得計算成本較大.文獻[81]結合基 于體素的與基于 PointNet的優勢,能夠學習更具鑒 別力的點云特征.

5.4 算法性能對比分析

跟蹤算法中,文獻[67]主要關注的是物體部件 的跟蹤,文獻[68]與文獻[69]則主要檢測同一物體 在不同時間的狀態.文獻[67]的優勢在于可以同時 預測多個運動部件及其各自的運動信息,進而產生 基于運動的分割.該方法實現高精度的前提是輸入 對象的幾何結構明確,否則很有可能會生成不完美 的運動序列.文獻[68]在快速變化的情況下,如突然 剎車或轉彎,其結果仍可靠.但是當目標被嚴重遮擋 時,其結果并不可靠.由于大多數模型(如汽車模型) 只能從單側看到,文獻[69]利用對稱性完善汽車形 狀的方法未必是有效的.文獻[71]的處理方法較簡 單且用時較短,在 CPU 上運行時間不超過75ms.它 能在檢測行人時達到較高性能.但用于擁擠道路的 自動駕駛時,其采用的質心估計對于汽車并不準確. 文獻[72]同時利用2維信息與3維 LIDAR 數據, 且使用的SRTs指標可縮短訓練時間. 場景流估計算法中,文獻[73]聯合3維場景流 和剛性運動進行預測,其效率較高且處理不同運動 時具有魯棒性.文獻[74]與文獻[75]都以端到端的 方式從點云中學習場景流.前者從非結構化的點云 中恢復結構化,在生成的網格上進行計算,后者則是 在點云的連續幀中計算. 檢測算法中,文獻[76]不會在量化過程中丟失 信息,也不需要依賴2維檢測來估計3維包圍盒,故 而可以充分利用3維信息.文獻[77]的處理速度較 快,計算效率較高.文獻[78]具有較高的計算效率和 較少的計算量,能夠同時集成基于點和基于體素的 優點.文獻[79]引入局部特征作為網絡輸入,有助于 充分了解輸入點云的局部結構.文獻[80]能夠有效 地獲取數據的3維幾何信息.但是,將點云裁剪成較 小區域等預處理步驟增加了計算成本.文獻[81]結 合了基于體素與基于 PointNet的優點,不僅保留了 精確的位置,而且編碼了豐富的場景上下文信息.

表4給出 KITTI數據集下不同算法處理跟蹤 任務的性能對比.指標為多目標跟蹤準確度(multiG objecttrackingaccurancy,MOTA)、多 目 標 跟 蹤 精確度(multiGobjecttrackingprecision,MOTP)、 目標大部分被跟蹤到的軌跡占比(mostlytracked,MT)、目 標 大 部 分 跟 丟 的 軌 跡 占 比 (mostlylost, ML)、ID改變總數量(IDswitches,IDS)、跟蹤過程 中被打斷的次數(fragmentation,FRAG)及每秒幀 數(framespersecond,FPS).

表 5 給出在 KITTI數據集下 3 維檢測框(3G dimensionaldetectionbenchmark,3D)、BEV 視圖下 檢測框(birdeyeviewdetectionbenchmark,BEV) 與檢測目標旋轉角度(averageorientationsimilarity detectionbenchmark,AOS)的檢測結果.其中,評估指 標為AP,IoU 閾值為:汽車0.7,行人和自行車0.5.

6 姿態估計

3維姿態估計即確定目標物體的方位指向問題, 在機器人、動作跟蹤和相機定標等領域都有應用.

6.1 位姿估計

解決3維可視化問題的中間步驟一般是確定 3維局部特征,位姿估計是其中最突出的問題. 2017年 Elbaz等人[82]提出的 LORAX 采用了 可以處理不同大小點云的設置,并設計了對大規模 掃描數據有效的算法.2019年 Speciale等人[83]將原 始3維點提升到隨機方向的3維線上,僅存儲3維 線和3維 點 的 關 聯 特 征 描 述 符,這 類 映 射 被 稱 為 3維線云.2019年 Zhang等人[84]從目標點云中自動 提取關鍵點,生成對剛性變換不變的逐點特征,利用 層次式神經網絡預測參考姿態對應的關鍵點坐標. 最后計算出當前姿態與參考姿態之間的相對變換. 2018年 Deng等人[85]提出了 PPFGFoldNet,通 過點對特征(pointpairfeature,PPF)對局部3維幾 何編碼,建立了理論上的旋轉不變性,同時兼顧點的 稀疏性和置換不變性,能很好地處理密度變化. 考慮到成對配準描述符也應該為局部旋轉的計 算提供線索,2019年 Deng等人[86]提出端到端的配 準方法.這種算法在 PPFGFoldNet [85]的工作基礎上, 通過學習位姿變換將3維結構與6自由度運動解耦.該方法基于數據驅動來解決2點云配準問題. 2020年 Kurobe等人[87]提出 CorsNet,連接局 部特征與全局特征,不直接聚集特征,而是回歸點云 之間的對應關系,比傳統方法集成更多信息. 文獻[82]解決了2點云之間點數相差數倍的問 題,它簡單、快速,并且具備擴展性,但在極端情況 下,其結果會出錯.文獻[83]只使用了一個幾何約 束,其準確性與召回率可以與傳統方法媲美,但這種 方法的速度較慢.文獻[84]需要較少的訓練數據,因 此對于沒有紋理的對象,它更快、更精確.文獻[85] 繼承了多個網絡框架的優點,且充分利用點云稀疏 性,能夠快速提取描述符.文獻[86]提高了成對配準 的技術水平且減少了運行時間.文獻[87]結合了局 部與全局特征,從平移和旋轉的角度而言準確性較 高.表6上半部分給出位姿估計算法的核心方法及 優勢對比分析.

6.2 手部姿態估計

點云作為更簡單有效的數據表示方法,其輸入 的點集和輸出的手部姿態共享相同表示域,有利于 學習如何將輸入數據映射到輸出姿態上. 為了直接從點云中估計手部姿態,同樣以手部 3維點云為輸入,2018年 Chen等人[88]提出語義手 部姿 態 回 歸 網 絡 (semantichandposeregression network,SHPRGNet),通過學習輸入數據的變換矩 陣和輸出姿態的逆矩陣應對幾何變換的挑戰.Ge等 人[89]提出的方法輸出反映手部關節的每點貼近度 和方向的 heatGmaps和單位向量場,并利用加權融 合從估計的heatGmaps和單位向量場中推斷出手部 關節位置.2019年 Li等人[90]提出的方法以置換等 變層(permutationequivariantlayer,PEL)為基本 單元,構建了基于 PEL 的殘差網絡模型.且手部姿 態是利用點對姿勢的投票方案來獲得的,這避免了 使用最大池化層提取特征而導致的信息丟失. 現有的手部姿態估計方法大多依賴于訓練集, 而在訓練數據上標注手部3維姿態費時費力.2019 年 Chen等人[91]提出的 SOGHandNet旨在利用未 注記數據以半監督的方式獲得精確的3維手部姿態 估計.通過自組織映射(selfGorganizingmap,SOM) 模擬點的空間分布,然后對單個點和 SOM 節點進 行層次化特征提取,最終生成輸入點云的判別特征. 2018年 Ge等人[92]提出 HandPointNet,提出 的精細化網絡可以進一步挖掘原始點云中更精細的 細節,能夠回歸出更精確的指尖位置.Huang等人[93] 認為學習算法不僅要研究數據的內在相關性,而且 要充分利用手部關節之間的結構相關性及其與輸入 數據的相關性.基于此,2020年他們提出非自回歸手 部transformer(nonGautoregressivehandtransformer, NARHT),以關節特征的形式提供參考手部姿態, 利用其固有的相關性來逼近輸出姿態. 文獻[88]對點云的幾何變換具有魯棒性.文獻 [89]能夠很好地捕捉空間中點云的結構信息.文獻 [90]較利用體素的方法占用內存更少,但其效率不 如基于深度圖像的方法.文獻[91]的特征編碼器能 夠揭示輸入點云的空間分布.文獻[92]能夠捕捉復 雜的手部結構,并精確地回歸出手部姿態的低維表 示.文獻[93]采用新的nonGautoregressive結構學習機制來代替transformer的自回歸分解,在解碼過 程中提供必要的姿態信息.表6下半部分給出手部 姿態估計算法的核心方法及優勢對比分析.

**6.3 算法性能對比分析 **

位姿估計方法中,核心問題是找到旋轉矩陣與 平移矩陣.文獻[83,85G86]都利用了 RANSAC迭代 算法.其中,文獻[83]實現了魯棒、準確的6自由度 姿態估計.文獻[85]是無監督、高精度、6自由度變 換不變的網絡.文獻[86]在挑戰成對配準的真實數 據集方面優于現有技術,具有更好的泛化能力且速 度更快.文獻[82]的 LORAX能夠并行實現,效率較 高,適合實時應用.它對隨機噪聲、密度變化不敏感, 并且其魯棒性僅在極端水平下才會惡化.文獻[84] 使用較少 的 訓 練 圖 像 實 現 了 較 高 的 準 確 性.文 獻 [87]提出的 CorsNet回歸的是對應關系,而不是直 接姿態變化. 手部姿態估計方法中,文獻[88]可獲得更具代 表性的特征.SHPRGNet可以在不改變網絡結構的前 提下擴展到多視點的手部姿態估計,這需要將多視 點的深度數據融合到點云上.然而,融合后的點云也 會受到噪聲的影響.文獻[89]可以更好地利用深度 圖像中的3維空間信息,捕捉3維點云的局部結構, 并且能夠集中學習手部點云的有效特征,從而進行 精確的3維手部姿態估計.文獻[90]與基于體素化的 方法相比,需要更少的內存.但與基于深度圖像的方 法相比,需要更多的計算時間和內存.文獻[91]使用 半監督的方式對網絡進行訓練,其性能可與全監督 的方法相媲美.文獻[92]有效利用深度圖中的信息, 以較少的網絡參數捕獲更多的手部細節及結構,并 準確地估計其3維姿態.文獻[93]首次結合結構化 手部姿勢估計與基于transformer的自然語言處理 領域的轉換框架.引入參考手部姿勢為輸出關節提 供等效依賴關系.文獻[89]的模型大小為17.2MB.其 中11.1MB用于點對點回歸網絡,它是分層PointNet; 6.1MB用于附加的回歸模塊,它由3個全連層組成. 文獻[90]有2種版本,回歸版本為38MB,檢測版本 為44MB.文獻[91]中,手部特征編碼器(handfeature encoder,HFE)、手部特征解碼器(handfeaturedecoder, HFD)和 手 部 特 征 估 計 器 (handposeestimator, HPE)的大小分別為8.1MB,74MB,8.5MB.由于只 在測試階段使用 HFE 和 HPE,所以其網絡模型大 小為16.6MB.文獻[92]的模型大小為10.3MB,其 中回歸網絡為9.2MB,指尖精細網絡為1.1MB.不 同方法在3個數據集上的性能對比分析如圖1所示:

7 總 結

本文總結了近年來多種點云處理任務的方法, 特別側重于基于深度學習的工作,為讀者提供了最 新的研究進展. 大多數關于點云的綜述類文章都集中于討論點 云分類分割處理任務.如文獻[94G95]只討論了語義 分割任務;文獻[96G97]增加了目標檢測和分類任務 的研究分析.其中,文獻[97]只用1節內容簡要介紹 分類、分割及目標檢測三大任務,更關注于處理點云數據的深度學習方法,而不依據處理任務對其進行 劃分討論.本文則考慮多種點云處理任務,包括模型 重建與變換、分類分割、檢測跟蹤與姿態估計等.在 模型分割分類中,由于大部分算法有用于實現點云 分類與分割的功能,不同于文獻[96G97]將分類與分 割作為2種類別分開討論,本文將它們統一考慮,并 根據基于體素、基于視圖與基于點三大主流方法對 其劃分并展開討論,明確給出各算法可處理的任務. 目前,已經有大量學者對點云處理任務進行研 究并依據任務的不同提出多種方法,但這些方法或 多或少都有一定的局限性.本文基于這些算法的不 足總結點云處理任務所面臨的挑戰與發展趨勢.

1) 數據方面

大部分方法只在現有的數據集上進行實驗,而 對于新獲取的數據并不適用.這很大程度上是由于 新獲取的數據無法實現多角度、全方位的完美匹配, 而且不同平臺獲得的數據難以融合,無法達到統一 的標準.對于融合后的點云,具有魯棒性和區分性特 征的提取有一定的難度,未來的研究可以從特征提 取方面入手. 數據集尺度不均衡是由于真實復雜場景中檢測 及識別小目標較為困難.未來研究工作可人工生成 小目標樣本,增大數據集中小目標所占比例,進而在 網絡訓練中提高其識別檢測能力. 數據質量對網絡(如transformers)的泛化性和 魯棒性的影響較大[2].點云的幾何位置存在誤差時, 可以通過已知控制點對其進行幾何矯正.當使用激 光掃描獲取數據時,除了考慮掃描距離和入射角度 的問題,還可以進行強度矯正,通過不同方法改善點 云的質量. 隨著3維掃描技術的發展,大規模點云的獲取 已不是難點,挑戰性在于如何對其進行處理.此外, 算法精度依賴大批量的數據集[98],目前還沒有比較 好的解決手段.

2) 性質方面

點云是3維空間內點的集合,它沒有提供鄰域 信息,故而大部分方法需要依據不同的鄰域查詢方 法確定點的鄰域,這將導致算法增加額外的計算成 本.點云不能顯式地表達目標結構以及空間拓撲關 系.此外,當目標被遮擋或重疊時,不能依據幾何關 系確定拓撲結構,給后續處理任務帶來一定難度. 針對點云的不規則性及無序性,將其應用于深 度神經網絡中進行相關任務的處理需要做數據形式 的轉換,如體素化[40].但這些轉換操作不但增加了 計算量,而且很可能在轉換的過程中丟失信息,所以 直接的點云處理方法是重要的研究方向.

3)網絡結構方面

① 基于快速和輕量級的模型.為了達到理想效 果,目前的算法傾向于使用含大量參數的較大的神 經網絡結構,導致計算復雜度高、內存占用大、速度 慢等問題.因此,設計快速且輕量級的網絡架構具有 較大的應用價值[99G100]. ② 網絡結構的改良.優化網絡結構可使同一網 絡處理多種任務,能夠很大程度地降低復雜度[2].還 可以考慮與其他網絡結構結合[45]來實現優化目的.

4) 應用方面

室外場景信息較多、結構復雜,所以目前大多數 方法著重于相對簡單的室內場景的分析.然而自動 駕駛[12]等技術的研究無法在室內場景中完成,所以 未來的研究方向可側重于構建適用于室外場景的網 絡模型. 現有分割方法大都用于單個物體的部件分割[1] 或場景中同類對象的語義分割[25].而真實場景中目 標類別眾多、結構復雜,對同類對象的不同個體分割 是3維形態檢測(文物、古建監測)的重要手段. 現有的大多數算法主要利用靜態場景中獲取的 數據,在地震檢測等實際應用中,設計能夠應對變化 場景的算法具有重要應用價值.利用時序上下文信 息可作為其研究方向[99]. 計算機視覺中的有效性通常與效率相關,它決 定模型是否可用于實際應用中[100],因此在二者之 間實現更好的平衡是未來研究中有意義的課題.

付費5元查看完整內容

摘要: 行人重識別是近年來計算機視覺領域的熱點問題, 經過多年的發展, 基于可見光圖像的一般行人重識別技術已經趨近成熟. 然而, 目前的研究多基于一個相對理想的假設, 即行人圖像都是在光照充足的條件下拍攝的高分辨率圖像. 因此雖然大多數的研究都能取得較為滿意的效果, 但在實際環境中并不適用. 多源數據行人重識別即利用多種行人信息進行行人匹配的問題. 除了需要解決一般行人重識別所面臨的問題外, 多源數據行人重識別技術還需要解決不同類型行人信息與一般行人圖片相互匹配時的差異問題, 如低分辨率圖像、紅外圖像、深度圖像、文本信息和素描圖像等. 因此, 與一般行人重識別方法相比, 多源數據行人重識別研究更具實用性, 同時也更具有挑戰性. 本文首先介紹了一般行人重識別的發展現狀和所面臨的問題, 然后比較了多源數據行人重識別與一般行人重識別的區別, 并根據不同數據類型總結了5 類多源數據行人重識別問題, 分別從方法、數據集兩個方面對現有工作做了歸納和分析. 與一般行人重識別技術相比, 多源數據行人重識別的優點是可以充分利用各類數據學習跨模態和類型的特征轉換. 最后, 本文討論了多源數據行人重識別未來的發展.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190278

付費5元查看完整內容

多模態摘要(Multi-modal Summarization)是指輸入多種模態信息,通常包括文本,語音,圖像,視頻等信息,輸出一段綜合考慮多種模態信息后的核心概括。目前的摘要研究通常以文本為處理對象,一般不涉及其他模態信息的處理。然而,不同模態的信息是相互補充和驗證的,充分有效的利用不同模態的信息可以幫助模型更好的定位關鍵內容,生成更好的摘要。本文首先按照任務類型與模態信息是否同步對多模態摘要進行分類;接著介紹多模態表示中的一些基礎知識;最后按照任務類型分類,簡述了近幾年多模態摘要在教學型視頻、多模態新聞、多模態輸入多模態輸出以及會議中的相關工作,最后給出一些思考與總結。

本文從任務分類的角度,簡單介紹了多模態摘要的相關工作。盡管多模態摘要已經取得了一定的進展,但是依舊存在以下幾個關鍵點值得認真思考:

(1)現有模型結構簡單。現有模型架構基本為序列到序列模型結合層次化注意力機制,不同的工作會依據任務特點進行一定的改進。為了更有效的融合多模態信息,發揮模態信息的交互互補作用,在目前架構的基礎上,應該思考更加合適的架構。

(2)不同模態信息交互較少。現有工作模態融合的核心在于層次化注意力機制,除此以外,不同模態信息缺少顯式的交互方式,無法充分的發揮模態信息之間的互補關系。

(3)依賴于人工先驗知識。通常來講,需要人為預先選擇不同類型的預訓練特征抽取模型進行特征提取,這一過程依賴于很強的人工判斷來預先決定有效的特征,需要一定的領域專業知識。

(4)數據隱私性考慮少。多模態數據在提供更豐富信息的同時,也給數據保密帶來了一定的挑戰。例如多模態會議數據,其中的聲紋特征與臉部特征都是非常重要的個人隱私信息。因此在實際落地中需要充分考慮數據隱私性問題。

(5)單一文本輸出缺少多樣性。現有工作已經開始嘗試多模態輸入多模態輸出,當輸出摘要包含多種模態時,可以滿足更廣泛人群的需求。例如對于語言不熟悉時,可以通過視頻和圖片快速了解重要內容。在未來多模態摘要輸出也將成為一個重要的研究關注點。

總體而言,在多模態火熱發展的大背景下,多模態摘要作為其中的一個分支既具有多模態學習的共性問題,也具有摘要任務自身的個性問題,該任務在近幾年開始蓬勃發展,在未來也會成為一個重要的研究方向。

[1] Jind?ich Libovicky and Jind?ich Helcl. Attention strategies for multi-source sequence-to-sequence learning. ACL 2017. //www.aclweb.org/anthology/P17-2031

[2] Yansen Wang, Ying Shen, Zhun Liu, P. P. Liang, Amir Zadeh, and Louis-Philippe Morency. Words can shift: Dynamically adjusting word representations using nonverbal behaviors. AAAI 2019.

[3] Gen Li, N. Duan, Yuejian Fang, Daxin Jiang, and M. Zhou. Unicoder-vl: A universal encoder forvision and language by cross-modal pre-training. AAAI 2020.

[4] R. Sanabria, Ozan Caglayan, Shruti Palaskar, Desmond Elliott, Lo?c Barrault, Lucia Specia,and F. Metze. How2: A large-scale dataset for multimodal language understanding. NeurIPS 2018.

[5] Shruti Palaskar, Jind?ich Libovicky, Spandana Gella, and F. Metze. Multimodal abstractive summarization for how2 videos. ACL 2019.

[6] Haoran Li, Junnan Zhu, C. Ma, Jiajun Zhang, and C. Zong. Multi-modal summarization forasynchronous collection of text, image, audio and video. 2017.

[7] Haoran Li, Junnan Zhu, Tianshang Liu, Jiajun Zhang, and C. Zong. Multi-modal sentence summarization with modality attention and image filtering. IJCAI 2018.

[8] Junnan Zhu, Haoran Li, Tianshang Liu, Y. Zhou, Jiajun Zhang, and C. Zong. Msmo: Multimodal summarization with multimodal output. EMNLP 2018.

[9] Junnan Zhu, Yin qing Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, and Changliang Li. Multimodal summarization with guidance of multimodal reference. AAAI 2020.

[10] B. Erol, Dar-Shyang Lee, and J. Hull. Multimodal summarization of meeting recordings. ICME 2003.

[11] Fumio Nihei, Yukiko I. Nakano, and Yutaka Takase. Fusing verbal and nonverbal information forextractive meeting summarization. GIFT 2018.

[12] Manling Li, L. Zhang, H. Ji, and R. Radke. Keep meeting summaries on topic: Abstractive multimodal meeting summarization. ACL 2019.

付費5元查看完整內容
北京阿比特科技有限公司