五月丁香四月婷婷激情综合,美女午夜一区视频在线播放,精品欧洲视频人人视频网站

丹麥奧胡斯大學等最新《高效高分辨率深度學習》綜述，全面闡述高效高分辨率深度學習方法，非常值得關注！

智能手機、衛星和醫療設備等現代設備中的相機能夠捕捉非常高分辨率的圖像和視頻。此類高分辨率數據通常需要通過深度學習模型進行處理，用于癌癥檢測、自動道路導航、天氣預測、監測、優化農業過程和許多其他應用。由于高參數、計算成本、推理延遲和GPU內存消耗大，將高分辨率圖像和視頻作為深度學習模型的直接輸入會帶來許多挑戰。像將圖像調整到較低分辨率這樣的簡單方法在文獻中很常見，但它們通常會顯著降低精度。文獻中的一些工作提出了更好的替代方案，以應對高分辨率數據的挑戰，提高精度和速度，同時遵守硬件限制和時間限制。本綜述介紹了這些高效的高分辨率深度學習方法，總結了高分辨率深度學習在現實世界中的應用，并提供了現有高分辨率數據集的全面信息。

//www.zhuanzhi.ai/paper/f70e86bd36f853e9e2f1b8e3d3257954

概述

許多現代設備，如智能手機、無人機、增強現實頭盔、車輛和其他物聯網(IoT)設備都配備了高質量的相機，可以捕捉高分辨率的圖像和視頻。在圖像拼接技術、相機陣列[1]、[2]、十億像素采集機器人[3]和全切片掃描儀[4]的幫助下，捕獲分辨率可以提高到數十億像素(通常稱為十億像素)，如圖1所示的圖像。人們可以嘗試根據人類視覺系統的能力來定義高分辨率。然而，許多深度學習任務依賴于設備捕獲的數據，這些設備的行為與人眼非常不同，如顯微鏡、衛星圖像和紅外相機。此外，利用眼睛無法感知的更多細節在許多深度學習任務中是有益的，例如在第二節中討論的應用。可以捕獲并在處理時有用的細節量因任務而異。因此，高分辨率的定義與進程有關。例如，在圖像分類和計算機斷層掃描(CT)掃描處理中，512×512像素的分辨率被認為是高[5]，[6]。在視覺人群計數中，高分辨率(HD)或更高分辨率的數據集常見[7]，而在組織病理學中研究組織疾病的全切片圖像(WSIs)，或由飛機或衛星捕獲的遙感數據，很容易達到十億像素分辨率[8]、[9]。

此外，隨著硬件和方法的不斷進步，深度學習文獻認為的高分辨率已經隨著時間發生了變化。例如，在20世紀90年代末，用神經網絡處理32×32-pixel MNIST圖像是一項成就，而在2010年代初，ImageNet中的256×256-pixel圖像被認為是高分辨率[11]。在流行的深度學習數據集如人群計數[7]和異常檢測[12]數據集上，圖像平均分辨率的持續提升也可以看出這一趨勢。因此，高分辨率的定義也與周期有關。根據任務和周期依賴特性，“高分辨率”一詞顯然是技術性的，而不是基本的或普遍的。因此，在撰寫本文時，我們將重點轉移到對深度學習造成技術挑戰的解決方案上，而不是試圖得出這樣的定義。將高分辨率圖像和視頻直接作為深度學習模型的輸入，在訓練和推理階段都存在挑戰。除了全卷積網絡(FCNs)，深度學習模型中的參數數量通常隨著輸入規模的增加而增加。此外，通常以浮點操作(FLOPs)來衡量的計算量，以及推理/訓練時間，以及GPU內存消耗，都隨著更高分辨率的輸入而增加，如圖2所示。這個問題在視覺Transformer (ViT)架構中尤其嚴重，這些架構使用自注意力機制，其中推理速度和參數數量與輸入大小[6]，[15]呈二次增長。當需要在資源受限的設備(如智能手機)上進行訓練或推理時，這些問題會加劇，與工作站或服務器等高端計算設備相比，智能手機的計算能力有限。

盡管在訓練[17]、[18]和推理[19]階段，可以使用模型并行等方法在多個GPU之間分割模型，從而避免內存和延遲問題，但這些方法需要大量的資源，如大量的GPU和服務器，這可能會導致很高的成本，特別是在處理十億像素圖像等極端分辨率時。此外，在許多應用中，如自動駕駛汽車和無人機圖像處理，可以安裝的硬件是有限的，并且將計算卸載到外部服務器并不總是可能的，因為移動和應用程序的時間關鍵性導致網絡連接不可靠。因此，深度學習訓練和推理最常見的方法是在每個GPU實例上加載完整的模型。相反，多GPU設置通常用于通過增加總體批大小來加速訓練，以并行測試多組超參數或分配推理負載。因此，在許多情況下，深度學習模型可以處理有效的最大分辨率。例如，使用SASNet[14]進行推理的最大分辨率(在撰寫本文時，它是上海科技數據集[20]上最先進的人群計數模型)在具有11 GBs顯存的Nvidia 2080 Ti GPU上約為1024×768(低于高清)。

雖然新一代的GPU越來越快，內存也越來越多，但設備捕獲的圖像和視頻的分辨率也在提高。圖3顯示了近年來多種類型設備的這種趨勢。因此，即使在計算硬件技術進步的情況下，上述問題也可能會持續存在。此外，目前的成像技術還遠沒有達到圖像分辨率的物理極限，估計在petapixels[21]。捕獲和處理更高的分辨率是否會帶來改進取決于手頭的特定問題。例如，在圖像分類中，將物體或動物圖像的分辨率提高到十億像素不太可能揭示更多有益的細節并提高準確性。另一方面，如果目標是計算場景中的總人數，如圖1所示，使用高清分辨率而不是十億像素意味著可以用一個像素表示多個人，這將大大增加誤差。同樣，在組織病理學中使用更高的分辨率可以導致更好的結果[22]。

假設由于硬件限制或延遲要求，對于特定問題存在有效的最大分辨率，有兩種簡單的基線方法用于處理原始捕獲的輸入，這在深度學習文獻[23]-[25]中常用。這些基線的流行可以歸因于它們實現的簡單性。第一種方法是調整原始輸入的大小(下采樣)到所需的分辨率，然而，如果丟失了手頭問題的任何重要細節，這將導致較低的精度。這種方法被稱為統一下采樣(UD)，因為整個圖像的質量是統一降低的。第二種方法是將原始輸入分割成每個具有最大分辨率的小塊，獨立處理這些小塊，并聚合結果，例如，通過對回歸問題進行匯總，對分類問題進行多數投票。我們稱這種方法為切塊(CIP)。這種方法有兩個問題。首先，許多深度學習模型依賴于全局特征，這些特征將丟失，因為從每個補丁中提取的特征不會與其他補丁共享，導致準確性下降。例如，人群計數方法通常嚴重依賴透視或照明[7]等全局信息，在物體檢測中，邊界附近的物體可能被分割到多個補丁中。其次，由于執行了多次推理，即每個補丁一次，推理將花費更長的時間。當補丁重疊時，這個問題會更嚴重。

為了強調這些問題，在Shanghai Tech Part B數據集[20]上測試了兩種基線方法(UD和CIP)，用于人群計數，其中包含大小為1024×768像素的圖像。將原始圖像大小減小4和16倍，并測量兩個基線的平均絕對誤差(MAE)。為了測試UD，我們采用了在Shanghai Tech Part B數據集[20]上預訓練的SASNet模型[14]，輸入大小為1024×768，并使用AdamW優化器[26]針對目標輸入大小進行微調，學習率為10?5，權重衰減為10?4。請注意，原始的SASNet論文使用Adam優化器[27]，學習率為10?5。我們使用3×Nvidia A6000 GPU對模型進行了100個epoch的訓練，每個GPU實例的批大小為12。我們根據經驗發現，微調并不能提高切割成塊的準確性，因此，我們將原始圖像切割成4和16個塊，并使用上述預訓練的SASNet獲得每個塊的計數，然后通過對每個塊的預測計數求和來聚合結果。

這些實驗的結果如表一所示。可以觀察到，與處理原始輸入大小相比，均勻下采樣顯著增加了誤差。請記住，即使在分割補丁時誤差的增加沒有那么劇烈，但這種方法的推理時間也增加了相同的因子(即4和16)，因為我們假設我們正在使用硬件可能的有效最大分辨率，因此補丁無法并行處理，因為整個硬件需要處理單個補丁。

由于這些基準方法遠不是理想的，近年來，文獻中提出了幾種替代方法，以提高精度和速度，同時遵守由內存限制或速度要求引起的最大分辨率限制。本綜述的目的是總結和分類這些貢獻。據我們所知，目前還沒有關于高分辨率深度學習主題的其他綜述。然而，有一些調查包括與此主題相關的方面。在[15]中對降低Transformer架構計算復雜度的方法進行了綜述，討論了自注意力的二次時間和內存復雜度相關問題，并分析了內存占用和計算成本等效率的各個方面。雖然降低Transformer模型的計算復雜度有助于高效處理高分辨率輸入，但在本綜述中，只包括明確關注高分辨率圖像的視覺Transformer方法。一些特定于應用程序的調查包括高分辨率的數據集和操作此類數據的方法。例如，[28]中提供了對組織病理學的深度學習的調查，其中提到了處理WSIs的超大分辨率的挑戰;[29]綜述了計算機斷層掃描(computed tomography, CT)獲得更高空間分辨率的方法，重點介紹了超高分辨率CT提高診斷精度的方法，并簡要討論了用于降噪和重建的深度學習方法;對人群計數的研究進行了綜述，其中[7]提供了許多可用的高分辨率數據集;在[30]中對面向高分辨率遙感影像的土地覆蓋分類和目標檢測的深度學習方法進行了綜述;在[31]中對基于深度學習的高分辨率遙感圖像變化檢測方法進行了綜述。

值得一提的是，有些方法在高分辨率輸入上運行，但沒有努力解決上述挑戰。例如，多列(也稱為多尺度)網絡[7]在其體系結構中合并了多個層列，其中每一列負責處理特定的尺度，如圖4所示。然而，由于列處理的分辨率與原始輸入相同，與只處理原始尺度的情況相比，這些方法中的大多數實際上需要更多的內存和計算。這些方法的主要目標是通過考慮高分辨率圖像中出現的尺度差異來提高精度，盡管也有一些多尺度方法可以同時提高精度和效率[32]-[34]。因此，這些方法不屬于本綜述的范圍，除非它們明確解決高分辨率輸入的效率問題。ZoomCount [35]， Locality-Aware Crowd Counting [36]， RAZ-Net[37]和Learn to Scale[38]都是人群計數中的多尺度方法，以及醫學圖像處理中的DMMN[39]和KGZNet[40]。

本綜述的主要目的是收集和描述深度學習文獻中存在的方法，這些方法可以用于輸入圖像和視頻的高分辨率造成上述關于內存、計算和時間的技術挑戰的情況。本文的其余部分組織如下:第二節列出了使用深度學習處理高分辨率圖像和視頻的應用程序。第三節將高分辨率深度學習的有效方法分為五大類，并為每一類提供了一些示例。本節還簡要討論解決高分辨率輸入帶來的內存和處理時間問題的替代方法。第四節列出了用于各種深度學習問題的現有高分辨率數據集，并提供了每個問題的詳細信息。第五節討論了使用屬于不同類別的高效高分辨率方法的優缺點，并就在不同情況下使用哪種方法提供了建議。最后，第六部分總結了高分辨率深度學習的研究現狀和趨勢，并對未來的研究提出了建議。本綜述中進行的實驗代碼可以在 maleci/high-resolution-deep-learning找到。

付費5元查看完整內容

相關內容

[付費5元查看完整內容]「深度學習3D點云處理」最新2022進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習在２維圖像等結構化數據處理中表現出了優越性能,對非結構化的點云數據分析處理的潛力已經成為計算機圖形學的重要研究方向,并在機器人、自動駕駛、虛擬及增強現實等領域取得一定進展．通過回顧近年來３維點云處理任務的主要研究問題,圍繞深度學習在３維點云形狀分析、結構提取、檢測和修復等方向的應用,總結整理了典型算法．介紹了點云拓撲結構的提取方法,然后對比分析了變換、分類分割、檢測跟蹤、姿態估計等方向的以構建神經網絡為主要研究方法的進展．最后,總結常用的３維點云公開數據集,分析對比了各類方法的特點與評價指標,指出其優勢與不足,并從不同角度對基于深度學習的方法處理點云數據所面臨的挑戰與發展方向進行了討論．

隨著３維傳感器的迅速發展,３維數據變得無處不在,利用深度學習方法對這類數據進行語義理解和分析變得越來越重要．不同３維數據(體素、網格等)表示下,深度學習的方法不盡相同,但這些方法應用于點云中都有一定的局限性,具體表現為:體素化方法會受到分辨率的限制;轉換為２維圖像的方法在形狀分類和檢索任務上取得了優越性能,但將其擴展到場景理解或其他３維任務(如姿態估計)有一定的困難;光譜卷積神經網絡限制在流形網格;基于特征的深度神經網絡會受到所提取特征表示能力的限制[１]．

點云本身具有的無序性與不規則性為利用深度學習方法直接處理該類數據帶來一定挑戰性:１)規模局限性．現有研究方法一般針對小規模點云,而能處理大型點云的方法也需要切割處理,即將其分為小塊后再處理．但切割可能會造成點云整體信息的丟失．２)遮擋．當被掃描對象被遮擋時,將直接導致信息的丟失,這為后續任務的處理帶來嚴重影響．３) 噪聲．由于點云數據本身就是３維空間內的點集,噪聲的存在直接影響點云模型的正確表示,在形狀識別等任務中會造成精度的降低．４)旋轉不變．對于同一模型,旋轉不同角度仍表示同一對象,網絡識別結果不應由于角度不同而產生差異．隨著近年來激光雷達等傳感設備及相關技術的發展,３維點云的掃描與獲取更為便捷,其處理技術在機器人、自動駕駛及其他領域的實際應用中已取得一定進展．基于深度學習的蓬勃發展,研究者提出了許多方法來解決相關領域的不同問題．

**本文對基于深度學習的點云處理任務進行詳細闡述．本文的主要貢獻有４個方面: **

１) 從機器人、自動駕駛、虛擬和增強現實以及醫學４個領域介紹點云處理技術的應用情況; ２) 探討點云拓撲結構與形狀分析在應用于點云處理任務中的必要性,并總結對比多種算法; ３) 歸納基于點云數據處理相關任務的方法,主要包括模型重建與變換、分類分割、檢測跟蹤與姿態估計,著重討論基于深度學習的方法,并給出各種方法的優劣比較; ４) 總結多個公開點云數據集,并分析各數據集中不同方法能處理的不同任務．

１基本概念及應用情況

1.1 深度學習

機器學習推動現代科技手段的進步．網絡的內容過濾及推薦、語音文本的轉換及醫學影像分析等應用程序越來越多地使用深度學習技術．

１) 基礎概念

深度學習善于發現高維數據中的復雜結構,因此可應用于科學、商業和醫學等諸多領域．深度學習利用多處理層組成的計算模型學習具有抽象層次的數據表示,關鍵在于其目標特征不是人類指定的,而是從大量數據中學習獲取的,深度神經網絡已經成為人工智能的基礎．多層感知機或全連接網絡堆疊線性層和非線性激活層,是神經網絡的經典類型．卷積網絡引入卷積層和池化層,在處理圖像、視頻和音頻方面取得了突破性進展．遞歸網絡可有效處理文本語音等具有連續性的數據．TransＧ former利用selfＧattention機制提取特征,最早用于處理自然語言[２Ｇ３]．

２) 框架平臺

為了實現更復雜的模型,若從頭開始編寫代碼, 效率非常低,因此深度學習框架應運而生．本節介紹常用的深度學習框架,并將其匯總于表１中．目前常用于點云處理的框架更多為 TensorFlow 與 PyTorch,其他框架如 Caffe與Jittor等也可用于處理點云,但應用較少．

1.2 點云處理任務

３維幾何模型中,點云已經成為主要表達方式之一,其應用于深度學習中的處理技術已取得一定成果．在不同任務驅動下,本文以構建神經網絡為主要方法,通過分類與整理相關文獻,將點云處理任務分為模型重建與變換、分類分割、檢測跟蹤與姿態估計幾大類．本節總結其基本概念．

模型重建與變換包括形狀修復、模型補全與變形．掃描獲取到的數據并不能完美表征原物體的特性,很可能存在缺漏或誤差,造成模型不完整、扭曲, 故而需要對該模型進行處理,使其盡可能貼合原物體模型或目標模型,處理手段即為重建與變換．分類分割主要包括分類、部件分割、語義分割與實例分割．在諸如機器人抓取等需求中,必須明確所抓取對象的分類,即需要判斷其信息,判斷即為對場景中對象語義信息標記與分類．檢測跟蹤主要包括３維對象檢測、場景流估計與目標跟蹤．在諸如自動駕駛等應用中,需要明確路徑與方向,確定追蹤對象,并能依據當前狀態自動調節或人為干預使其后續運動符合預期目標．姿態估計主要包括位姿估計與手部姿態估計．前者需要確定對象的位置與方向,如工廠噴漆中,噴槍需要依據目標不斷改變其位置與指向．后者則是為了理解人類肢體語言,如在體感游戲中,根據肢體變換執行相應游戲操作．

1.3 應用情況

３維點云處理目前在實際應用中已經取得了一定的進展．本節以應用為導向,從機器人領域、自動駕駛領域及虛擬、增強現實領域及醫學領域４個角度介紹點云處理技術的應用情況．

1.3.1 機器人領域

機器人抓取技術的核心在于目標識別和定位．２０１９年 Lin等人[４]利用深度神經網絡學習物體外在形狀,并訓練網絡在獲取物體局部表面時也能成功抓取目標．在機器人室內定位及導航技術方面,２０２０年 Khanh等人[５]設計了新的云端導航系統．云端導航下機器人能更準確地移動到目標位置．該技術可應用于位置服務需求,如盲人導航．針對噴漆機器人的自動化操作,２０１９年 Lin等人[６]利用迭代最近點(iterativeclosestpoint,ICP) 算法進行姿態估計,計算物體部件的位置誤差,并重新調整機器人的方向,以完成所需的噴漆任務．２０２０年 Parra等人[７]設計了能夠在地板下的空隙中進行隔熱噴涂以提高建筑的強度及使用年限的機器人．他們針對地形不均勻等情況,提出定位模塊．機器人依據傳感器獲取連續點云的信息．Yang等人[８]基于點云模型表示的家具表面路徑規劃和邊緣提取技術提出邊緣噴涂,獲取噴涂槍路徑點序列和對應姿態．在家具等工件的生產流程中,該方法能夠根據噴涂系統坐標系與家具姿態的不同,自適應地調整二者的坐標關系,以實現正確噴涂的目的．

1.3.2 自動駕駛領域

自動駕駛系統的性能受環境感知的影響．車輛對其環境的感知為系統的自動響應提供了基礎．２０１７年 Hanke等人[９]提出采用光線追蹤的汽車激光雷達傳感器實現實時模型測量方法．使用由真實世界場景的測量構建的虛擬環境,能夠在真實世界和虛擬世界傳感器數據之間建立直接聯系．２０１９年Josyula等人[１０]提出了利用機器人操作系統(robotoperating system,ROS)和點云庫(pointcloudlibrary,PCL) 對點云進行分割的方法．它是為自動駕駛車輛和無人機的避障而開發的,具體涉及障礙物檢測與跟蹤．激光雷達(lightdetectionandranging,LIDAR) 和視覺感知是高水平(L４ＧL５)飛行員成功自動避障的關鍵因素．為了對大量數據進行點云標記,２０２０年 Li等人[１１]提出針對３維點云的標注工具,實現了點云３維包圍盒坐標信息到相機與 LIDAR 聯合標定后獲得的２維圖像包圍盒的轉換．基于圖的同步定位與建圖(simultaneouslocaliＧ zationandmapping,SLAM)在自動駕駛中應用廣泛．實際駕駛環境中包含大量的運動目標,降低了掃描匹配性能．２０２０年 Lee等人[１２]利用加權無損檢測 (掃描匹配算法)進行圖的構造,在動態環境下也具有魯棒性．

1.3.3 虛擬、增強現實領域

為了更好地了解室內空間信息,２０１５年 Tredinnick 等人[１３] 創建了能夠在沉浸式虛擬現實 (virtual reality,VR)顯示系統中以較快的交互速率可視化大規模 LIDAR 點云的應用程序,能夠產生準確的室內環境渲染效果．２０１６年 Bonatto等人[１４]探討了在頭戴式顯示設備中渲染自然場景的可能性．實時渲染是使用優化的子采樣等技術來降低場景的復雜度實現的,這些技術為虛擬現實帶來了良好的沉浸感．２０１８年 Feichter等人[１５]提出了在真實室內點云場景中抽取冗余信息的算法．其核心思想是從點云中識別出平面線段,并通過對邊界進行三角剖分來獲取內點,從而描述形狀．生成可用于訓練新模型的標注已成為機器學習中獨立的研究領域,它的目標是高效和高精度．標注３維點云的方法包括可視化,但這種方法是十分耗時的．2019年 Wirth等人[１６]提出了新的虛擬現實標注技術,它大大加快了數據標注的過程． LTDAR為增強現實(augmentedreality,AR) 提供了基本的３維信息支持．2020年 Liu等人[１７]提出學習圖像和 LIDAR 點云的局部特征表示,并進行匹配以建立２維與３維空間的關系．使用手勢自然用戶界面(naturaluserinterface, NUI)對于頭戴式顯示器和增強及虛擬現實等可穿戴設備中虛擬對象的交互至關重要．然而,它在 GPU 上的實現存在高延遲,會造成不自然的響應．2020年Im 等人[１８]提出基于點云的神經網絡處理器．該處理器采用異構內核結構以加速卷積層和采樣層, 實現了使用 NUI所必需的低延遲．

1.3.4 醫學領域

醫學原位可視化能夠顯示患者特定位置的成像數據,其目的是將特定病人的數據與３維模型相結合,如將手術模擬過程直接投影到患者的身體上,從而在實際位置顯示解剖結構．2011年Placitelli等人[１９] 采用采樣一致性初始配準算法 (sampleconsensus initialalignment,SACＧIA),通過快速配準三元組計算相應的匹配變換,實現點云快速配準．模擬醫學圖像如 X 射線是物理學和放射學的重要研究領域．2020年 Haiderbhai等人[２０]提出基于條件生成式對抗網絡 (conditionalgenerative adversarialnetwork,CGAN)的點云 X射線圖像估計法．通過訓練 CGAN 結構并利用合成數據生成器中創建的數據集,可將點云轉換成 X射線圖像．

２模型形狀結構

了解并確定高層形狀結構及其關系能夠使得模型感知局部和全局的結構,并能通過部件之間的排列和關系描繪形狀,這是研究形狀結構分析的核心課題．隨著真實世界的掃描和信息的挖掘,以及設計模型規模的增大,在大量信息中進行３維幾何模型的識別和分析變得越來越重要。

３模型重建與變換

由于遮擋等多種因素的限制,利用激光雷達等點云獲取設備得到的數據存在幾何信息和語義信息的丟失以及拓撲結構的不確定,這直接導致了數據的質量問題．為后續任務的處理帶來極大挑戰．

４形狀分類與分割

基于檢索或劃分的目的,對具有相似特征或相同屬性的點云數據進行區域的分割或屬性的分類是極其重要的．

５目標檢測與跟蹤

自動駕駛、機器人設計等領域中,３維目標檢測與跟蹤至關重要．自動駕駛車輛和無人機的避障等實際應用中,涉及障礙物檢測與跟蹤．

5.1 ３維目標跟蹤

目標跟蹤是推測幀的屬性并預測變化,即推斷對象的運動情況,可以利用預測對象的運動信息進行干預使之實際運動符合預期目標或用戶要求．為了從點云中推斷出目標對象的可移動部件以及移動信息,２０１９年 Yan等人[６７]提出 RPMＧNet．其特定的體系結構夠預測對象多個運動部件在后續幀中的運動,同時自主決定運動何時停止．２０２０年 Wang等人[６８]提出 PointTrackNet．網絡中提出了新的數據關聯模塊,用于合并２幀的點特征,并關聯同一對象的相應特征．首次使用３維 Siamese跟蹤器并應用于點云的是 Giancola等人[６９]．基于 Achlioptas等人[７０]提出的形狀完成網絡,２０１９年 Giancola等人[６９]通過使用給定對象的語義幾何信息豐富重編碼后的表示來提高跟蹤性能．２０１９年Burnett等人[７１]提出aUToTrack,使用貪婪算法進行數據關聯和擴展卡爾曼濾波(extended Kalmanfilter,EKF)跟蹤目標的位置和速度．Simon 等人[７２]融合２維語義信息及 LIDAR 數據,還引入了縮放旋轉平移分數(scaleＧrotationＧtranslationscore, SRTs),該方法可更好地利用時間信息并提高多目標跟蹤的精度．文獻[６７]可以從開始幀和結束幀的移動部分導出變化范圍,故參數中不含變換范圍,減少了參數個數．文獻[６８]提供的跟蹤關聯信息有助于減少目標短期消失的影響,其性能比較穩定,但是當汽車被嚴重遮擋時,結果會出現問題．文獻[６９]解決了相似性度量、模型更新以及遮擋處理３方面的問題,但該方法直接利用對稱性來完善汽車整體形狀會導致更多噪聲．文獻[７１]實際需要計算被檢測物體的質心,這種方法能有效檢測行人,但對于汽車來說,其結果并不準確．文獻[７２]提出的 SRTs可用于快速檢測目標,提高了準確性和魯棒性．

5.2 ３維場景流估計

機器人和人機交互中的應用可以從了解動態環境中點的３維運動,即場景流中受益．以往對場景流的研究方法主要集中于立體圖像和 RGBＧD 圖像作為輸入,很少有人嘗試從點云中直接估計．２０１９年 Behl等人[７３]提出 PointFlowNet,網絡聯合預測３維場景流以及物體的３維包圍盒和剛體運動．Gu等人[７４]提出 HPLFlowNet,可以有效地處理非結構化數據,也可以從點云中恢復結構化信息．能在不犧牲性能的前提下節省計算成本．Liu等人[７５] 提出 FlowNet３D．由于每個點都不是“獨立”的,相鄰點會形成有意義的信息,故而 FlowNet３D 網絡嵌入層會學習點的幾何相似性和空間關系．文獻[７３]先檢測出object并計算出egomotion 和sceneflow,再去回歸各個object的 motion,它從非結構化點云中直接估計３維場景流．文獻[７４Ｇ７５] 的整體結構類似,都是下采樣融合上采樣,直接擬合出sceneflow．

5.3 ３維目標檢測與識別

在城市環境中部署自動型車輛是一項艱巨的技術挑戰,需要實時檢測移動物體,如車輛和行人．為了在大規模點云中實現實時檢測,研究者針對不同需求提出多種方法．２０１９年 Shi等人[７６]提出 PointRCNN,將場景中的點云基于包圍盒生成真實分割掩模,分割前景點的同時生成少量高質量的包圍盒預選結果．在標準坐標中優化預選結果來獲得最終檢測結果．２０１９年 Lang等人[７７]提出編碼器 PointPillars．它學習在 pillars 中組織的點云表示,通過操作 pillar,無需手動調整垂直方向的組合．由于所有的關鍵操作都可以表示為２維卷積,所以僅使用２維卷積就能實現端到端的３維點云學習．考慮到模型的通用性,２０１９年 Yang等人[７８]提出STD,利用球形錨生成精確的預測,保留足夠的上下文信息．PointPool生成的規范化坐標使模型在幾何變化下具有魯棒性．box預測網絡模塊消除定位精度與分類得分之間的差異,有效提高性能．２０１９年 Liu等人[７９]提出大規模場景描述網絡 (largeＧscaleplacedescriptionnetwork,LPDＧNet)．該網絡采用自適應局部特征提取方法得到點云的局部特征．此外,特征空間和笛卡兒空間的融合能夠進一步揭示局部特征的空間分布,歸納學習整個點云的結構信息．為了克服一般網絡中點云規模較小的局限性, ２０１９年Paigwar等人[８０]提出 AttentionalPointNet．利用 Attentional機制進行檢測能夠在大規模且雜亂無章的環境下重點關注感興趣的對象．２０２０年 Shi等人[８１]提出 PVＧRCNN．它執行２步策略:第１步采用體素 CNN 進行體素特征學習和精確的位置生成,以節省后續計算并對具有代表性的場景特征進行編碼;第２步提取特征,聚集特征可以聯合用于后續的置信度預測和進一步細化．文獻[７６]生成的預選結果數量少且質量高．文獻[７７]能夠利用點云的全部信息,其計算速度較快．文獻[７８]能夠將點特征從稀疏表示轉換為緊湊表示,且用時較短．文獻[７９]充分考慮點云的局部結構,自適應地將局部特征作為輸入,在不同天氣條件下仍能體現出健壯性．文獻[８０]不必處理全部點云, 但預處理步驟使得計算成本較大．文獻[８１]結合基于體素的與基于 PointNet的優勢,能夠學習更具鑒別力的點云特征．

5.4 算法性能對比分析

跟蹤算法中,文獻[６７]主要關注的是物體部件的跟蹤,文獻[６８]與文獻[６９]則主要檢測同一物體在不同時間的狀態．文獻[６７]的優勢在于可以同時預測多個運動部件及其各自的運動信息,進而產生基于運動的分割．該方法實現高精度的前提是輸入對象的幾何結構明確,否則很有可能會生成不完美的運動序列．文獻[６８]在快速變化的情況下,如突然剎車或轉彎,其結果仍可靠．但是當目標被嚴重遮擋時,其結果并不可靠．由于大多數模型(如汽車模型) 只能從單側看到,文獻[６９]利用對稱性完善汽車形狀的方法未必是有效的．文獻[７１]的處理方法較簡單且用時較短,在 CPU 上運行時間不超過７５ms．它能在檢測行人時達到較高性能．但用于擁擠道路的自動駕駛時,其采用的質心估計對于汽車并不準確．文獻[７２]同時利用２維信息與３維 LIDAR 數據, 且使用的SRTs指標可縮短訓練時間．場景流估計算法中,文獻[７３]聯合３維場景流和剛性運動進行預測,其效率較高且處理不同運動時具有魯棒性．文獻[７４]與文獻[７５]都以端到端的方式從點云中學習場景流．前者從非結構化的點云中恢復結構化,在生成的網格上進行計算,后者則是在點云的連續幀中計算．檢測算法中,文獻[７６]不會在量化過程中丟失信息,也不需要依賴２維檢測來估計３維包圍盒,故而可以充分利用３維信息．文獻[７７]的處理速度較快,計算效率較高．文獻[７８]具有較高的計算效率和較少的計算量,能夠同時集成基于點和基于體素的優點．文獻[７９]引入局部特征作為網絡輸入,有助于充分了解輸入點云的局部結構．文獻[８０]能夠有效地獲取數據的３維幾何信息．但是,將點云裁剪成較小區域等預處理步驟增加了計算成本．文獻[８１]結合了基于體素與基于 PointNet的優點,不僅保留了精確的位置,而且編碼了豐富的場景上下文信息．

表４給出 KITTI數據集下不同算法處理跟蹤任務的性能對比．指標為多目標跟蹤準確度(multiＧ objecttrackingaccurancy,MOTA)、多目標跟蹤精確度(multiＧobjecttrackingprecision,MOTP)、目標大部分被跟蹤到的軌跡占比(mostlytracked,MT)、目標大部分跟丟的軌跡占比 (mostlylost, ML)、ID改變總數量(IDswitches,IDS)、跟蹤過程中被打斷的次數(fragmentation,FRAG)及每秒幀數(framespersecond,FPS)．

表５給出在 KITTI數據集下３維檢測框(３Ｇ dimensionaldetectionbenchmark,３D)、BEV 視圖下檢測框(birdeyeviewdetectionbenchmark,BEV) 與檢測目標旋轉角度(averageorientationsimilarity detectionbenchmark,AOS)的檢測結果．其中,評估指標為AP,IoU 閾值為:汽車０.７,行人和自行車０.５．

６姿態估計

３維姿態估計即確定目標物體的方位指向問題, 在機器人、動作跟蹤和相機定標等領域都有應用．

6.1 位姿估計

解決３維可視化問題的中間步驟一般是確定３維局部特征,位姿估計是其中最突出的問題．２０１７年 Elbaz等人[８２]提出的 LORAX 采用了可以處理不同大小點云的設置,并設計了對大規模掃描數據有效的算法．２０１９年 Speciale等人[８３]將原始３維點提升到隨機方向的３維線上,僅存儲３維線和３維點的關聯特征描述符,這類映射被稱為３維線云．２０１９年 Zhang等人[８４]從目標點云中自動提取關鍵點,生成對剛性變換不變的逐點特征,利用層次式神經網絡預測參考姿態對應的關鍵點坐標．最后計算出當前姿態與參考姿態之間的相對變換．２０１８年 Deng等人[８５]提出了 PPFＧFoldNet,通過點對特征(pointpairfeature,PPF)對局部３維幾何編碼,建立了理論上的旋轉不變性,同時兼顧點的稀疏性和置換不變性,能很好地處理密度變化．考慮到成對配準描述符也應該為局部旋轉的計算提供線索,２０１９年 Deng等人[８６]提出端到端的配準方法．這種算法在 PPFＧFoldNet [８５]的工作基礎上, 通過學習位姿變換將３維結構與６自由度運動解耦．該方法基于數據驅動來解決２點云配準問題．２０２０年 Kurobe等人[８７]提出 CorsNet,連接局部特征與全局特征,不直接聚集特征,而是回歸點云之間的對應關系,比傳統方法集成更多信息．文獻[８２]解決了２點云之間點數相差數倍的問題,它簡單、快速,并且具備擴展性,但在極端情況下,其結果會出錯．文獻[８３]只使用了一個幾何約束,其準確性與召回率可以與傳統方法媲美,但這種方法的速度較慢．文獻[８４]需要較少的訓練數據,因此對于沒有紋理的對象,它更快、更精確．文獻[８５] 繼承了多個網絡框架的優點,且充分利用點云稀疏性,能夠快速提取描述符．文獻[８６]提高了成對配準的技術水平且減少了運行時間．文獻[８７]結合了局部與全局特征,從平移和旋轉的角度而言準確性較高．表６上半部分給出位姿估計算法的核心方法及優勢對比分析．

6.2 手部姿態估計

點云作為更簡單有效的數據表示方法,其輸入的點集和輸出的手部姿態共享相同表示域,有利于學習如何將輸入數據映射到輸出姿態上．為了直接從點云中估計手部姿態,同樣以手部３維點云為輸入,２０１８年 Chen等人[８８]提出語義手部姿態回歸網絡 (semantichandposeregression network,SHPRＧNet),通過學習輸入數據的變換矩陣和輸出姿態的逆矩陣應對幾何變換的挑戰．Ge等人[８９]提出的方法輸出反映手部關節的每點貼近度和方向的 heatＧmaps和單位向量場,并利用加權融合從估計的heatＧmaps和單位向量場中推斷出手部關節位置．２０１９年 Li等人[９０]提出的方法以置換等變層(permutationequivariantlayer,PEL)為基本單元,構建了基于 PEL 的殘差網絡模型．且手部姿態是利用點對姿勢的投票方案來獲得的,這避免了使用最大池化層提取特征而導致的信息丟失．現有的手部姿態估計方法大多依賴于訓練集, 而在訓練數據上標注手部３維姿態費時費力．２０１９年 Chen等人[９１]提出的 SOＧHandNet旨在利用未注記數據以半監督的方式獲得精確的３維手部姿態估計．通過自組織映射(selfＧorganizingmap,SOM) 模擬點的空間分布,然后對單個點和 SOM 節點進行層次化特征提取,最終生成輸入點云的判別特征．２０１８年 Ge等人[９２]提出 HandPointNet,提出的精細化網絡可以進一步挖掘原始點云中更精細的細節,能夠回歸出更精確的指尖位置．Huang等人[９３] 認為學習算法不僅要研究數據的內在相關性,而且要充分利用手部關節之間的結構相關性及其與輸入數據的相關性．基于此,２０２０年他們提出非自回歸手部transformer(nonＧautoregressivehandtransformer, NARHT),以關節特征的形式提供參考手部姿態, 利用其固有的相關性來逼近輸出姿態．文獻[８８]對點云的幾何變換具有魯棒性．文獻 [８９]能夠很好地捕捉空間中點云的結構信息．文獻 [９０]較利用體素的方法占用內存更少,但其效率不如基于深度圖像的方法．文獻[９１]的特征編碼器能夠揭示輸入點云的空間分布．文獻[９２]能夠捕捉復雜的手部結構,并精確地回歸出手部姿態的低維表示．文獻[９３]采用新的nonＧautoregressive結構學習機制來代替transformer的自回歸分解,在解碼過程中提供必要的姿態信息．表６下半部分給出手部姿態估計算法的核心方法及優勢對比分析．

**6.3 算法性能對比分析 **

位姿估計方法中,核心問題是找到旋轉矩陣與平移矩陣．文獻[８３,８５Ｇ８６]都利用了 RANSAC迭代算法．其中,文獻[８３]實現了魯棒、準確的６自由度姿態估計．文獻[８５]是無監督、高精度、６自由度變換不變的網絡．文獻[８６]在挑戰成對配準的真實數據集方面優于現有技術,具有更好的泛化能力且速度更快．文獻[８２]的 LORAX能夠并行實現,效率較高,適合實時應用．它對隨機噪聲、密度變化不敏感, 并且其魯棒性僅在極端水平下才會惡化．文獻[８４] 使用較少的訓練圖像實現了較高的準確性．文獻 [８７]提出的 CorsNet回歸的是對應關系,而不是直接姿態變化．手部姿態估計方法中,文獻[８８]可獲得更具代表性的特征．SHPRＧNet可以在不改變網絡結構的前提下擴展到多視點的手部姿態估計,這需要將多視點的深度數據融合到點云上．然而,融合后的點云也會受到噪聲的影響．文獻[８９]可以更好地利用深度圖像中的３維空間信息,捕捉３維點云的局部結構, 并且能夠集中學習手部點云的有效特征,從而進行精確的３維手部姿態估計．文獻[９０]與基于體素化的方法相比,需要更少的內存．但與基于深度圖像的方法相比,需要更多的計算時間和內存．文獻[９１]使用半監督的方式對網絡進行訓練,其性能可與全監督的方法相媲美．文獻[９２]有效利用深度圖中的信息, 以較少的網絡參數捕獲更多的手部細節及結構,并準確地估計其３維姿態．文獻[９３]首次結合結構化手部姿勢估計與基于transformer的自然語言處理領域的轉換框架．引入參考手部姿勢為輸出關節提供等效依賴關系．文獻[８９]的模型大小為１７．２MB．其中１１．１MB用于點對點回歸網絡,它是分層PointNet; ６．１MB用于附加的回歸模塊,它由３個全連層組成．文獻[９０]有２種版本,回歸版本為３８MB,檢測版本為４４MB．文獻[９１]中,手部特征編碼器(handfeature encoder,HFE)、手部特征解碼器(handfeaturedecoder, HFD)和手部特征估計器 (handposeestimator, HPE)的大小分別為８．１MB,７４MB,８．５MB．由于只在測試階段使用 HFE 和 HPE,所以其網絡模型大小為１６．６MB．文獻[９２]的模型大小為１０．３MB,其中回歸網絡為９．２MB,指尖精細網絡為１．１MB．不同方法在３個數據集上的性能對比分析如圖１所示:

７總結

本文總結了近年來多種點云處理任務的方法, 特別側重于基于深度學習的工作,為讀者提供了最新的研究進展．大多數關于點云的綜述類文章都集中于討論點云分類分割處理任務．如文獻[９４Ｇ９５]只討論了語義分割任務;文獻[９６Ｇ９７]增加了目標檢測和分類任務的研究分析．其中,文獻[９７]只用１節內容簡要介紹分類、分割及目標檢測三大任務,更關注于處理點云數據的深度學習方法,而不依據處理任務對其進行劃分討論．本文則考慮多種點云處理任務,包括模型重建與變換、分類分割、檢測跟蹤與姿態估計等．在模型分割分類中,由于大部分算法有用于實現點云分類與分割的功能,不同于文獻[９６Ｇ９７]將分類與分割作為２種類別分開討論,本文將它們統一考慮,并根據基于體素、基于視圖與基于點三大主流方法對其劃分并展開討論,明確給出各算法可處理的任務．目前,已經有大量學者對點云處理任務進行研究并依據任務的不同提出多種方法,但這些方法或多或少都有一定的局限性．本文基于這些算法的不足總結點云處理任務所面臨的挑戰與發展趨勢．

１) 數據方面

大部分方法只在現有的數據集上進行實驗,而對于新獲取的數據并不適用．這很大程度上是由于新獲取的數據無法實現多角度、全方位的完美匹配, 而且不同平臺獲得的數據難以融合,無法達到統一的標準．對于融合后的點云,具有魯棒性和區分性特征的提取有一定的難度,未來的研究可以從特征提取方面入手．數據集尺度不均衡是由于真實復雜場景中檢測及識別小目標較為困難．未來研究工作可人工生成小目標樣本,增大數據集中小目標所占比例,進而在網絡訓練中提高其識別檢測能力．數據質量對網絡(如transformers)的泛化性和魯棒性的影響較大[２]．點云的幾何位置存在誤差時, 可以通過已知控制點對其進行幾何矯正．當使用激光掃描獲取數據時,除了考慮掃描距離和入射角度的問題,還可以進行強度矯正,通過不同方法改善點云的質量．隨著３維掃描技術的發展,大規模點云的獲取已不是難點,挑戰性在于如何對其進行處理．此外, 算法精度依賴大批量的數據集[９８],目前還沒有比較好的解決手段．

２) 性質方面

點云是３維空間內點的集合,它沒有提供鄰域信息,故而大部分方法需要依據不同的鄰域查詢方法確定點的鄰域,這將導致算法增加額外的計算成本．點云不能顯式地表達目標結構以及空間拓撲關系．此外,當目標被遮擋或重疊時,不能依據幾何關系確定拓撲結構,給后續處理任務帶來一定難度．針對點云的不規則性及無序性,將其應用于深度神經網絡中進行相關任務的處理需要做數據形式的轉換,如體素化[４０]．但這些轉換操作不但增加了計算量,而且很可能在轉換的過程中丟失信息,所以直接的點云處理方法是重要的研究方向．

３)網絡結構方面

① 基于快速和輕量級的模型．為了達到理想效果,目前的算法傾向于使用含大量參數的較大的神經網絡結構,導致計算復雜度高、內存占用大、速度慢等問題．因此,設計快速且輕量級的網絡架構具有較大的應用價值[９９Ｇ１００]． ② 網絡結構的改良．優化網絡結構可使同一網絡處理多種任務,能夠很大程度地降低復雜度[２]．還可以考慮與其他網絡結構結合[４５]來實現優化目的．

４) 應用方面

室外場景信息較多、結構復雜,所以目前大多數方法著重于相對簡單的室內場景的分析．然而自動駕駛[１２]等技術的研究無法在室內場景中完成,所以未來的研究方向可側重于構建適用于室外場景的網絡模型．現有分割方法大都用于單個物體的部件分割[１] 或場景中同類對象的語義分割[２５]．而真實場景中目標類別眾多、結構復雜,對同類對象的不同個體分割是３維形態檢測(文物、古建監測)的重要手段．現有的大多數算法主要利用靜態場景中獲取的數據,在地震檢測等實際應用中,設計能夠應對變化場景的算法具有重要應用價值．利用時序上下文信息可作為其研究方向[９９]．計算機視覺中的有效性通常與效率相關,它決定模型是否可用于實際應用中[１００],因此在二者之間實現更好的平衡是未來研究中有意義的課題．

付費5元查看完整內容

深度學習 · 膠囊網絡 · 深度神經網絡 · 卷積神經網絡 · 綜述論文 ·

2022 年 6 月 11 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

帝國理工等最新《膠囊網絡綜述》論文，29頁pdf闡述膠囊的概念、方法與應用

膠囊網絡作為卷積神經網絡(Convolutional Neural networks, CNNs)的另一種學習以對象為中心表示的方法，可以提高泛化能力和樣本復雜度。與cnn不同，膠囊網絡使用神經元組對視覺實體進行編碼，顯式地建模部分-整體層次關系，并學習這些實體之間的關系。膠囊網絡早期取得的有前景的成果激勵了深度學習社區繼續努力提高其在多個應用領域的性能和可擴展性。然而，膠囊網絡研究的一個主要障礙是缺乏可靠的參考點來理解它們的基本思想和動機。這項綜述的目的是提供一個全面的概述膠囊網絡的研究景觀，這將為社區的未來提供寶貴的資源。為此，我們首先介紹膠囊網絡背后的基本概念和動機，例如計算機視覺中的等變推理。然后，我們將介紹膠囊路由機制的技術進展和膠囊網絡的各種公式，如生成和幾何。此外，我們還詳細解釋了膠囊網絡與Transformers中流行的注意力機制之間的關系，并強調了它們在表征學習背景下的非微不足道的概念相似性。隨后，我們探索了膠囊網絡在視頻和運動(如視頻對象分割、回歸跟蹤和動作視頻識別)、自然語言處理(如文本分類、關系提取、語言和視覺、推薦系統)、醫學成像(如病變的語義分割、腦腫瘤分類)、故障診斷(如軸承故障診斷)、高光譜成像和偽造檢測等方面的廣泛應用。最后，我們對膠囊網絡研究的主要障礙進行了深入的討論，并指出了未來的研究方向。

引言

計算機視覺的核心任務是從圖像中提取的特征向量對物體進行分類，并提供更全面的描述，如姿態、形狀、外觀等。幾十年來，構建適合下游任務的數據表示(特征)需要大量的手工工程和專家知識。表示學習[1]由一組工具組成，使機器能夠自動發現原始數據的有用表示，然后用于下游的預測任務。近年來最成功的表示學習方法是深度學習(Deep learning, DL)[2]。盡管現代基于深度學習的視覺系統[2]、[3]、[4]取得了許多成功，但普遍缺乏對分布轉移的魯棒性[5]仍然很普遍。事實上，與目前的系統不同，人類能夠快速適應分布的變化，只需要很少的例子來學習[6]，[7]，[8]。有令人信服的證據表明，人類將視覺場景分解為部分-整體層次結構，我們通過對部分和整體之間的視點不變的空間關系建模，如分配給它們的內在坐標系[9]，[10]，[11]之間的坐標變換。讓神經網絡(NN)更加透明和可解釋的一種方法是，嘗試讓它們像人類一樣理解圖像。然而，這對于標準神經網絡來說是困難的，因為它們不能動態地表示每個圖像[12]的不同的部分-整體層次樹結構。這種無能是一系列模型的動機被稱為膠囊網絡[12]，[13]，[14]，[15]，[16]。膠囊網絡是一種NN，它比卷積神經網絡(Convolutional Neural Networks, CNNs)更明確地建模部分-整體層次關系，通過使用神經元組來編碼實體，并學習這些實體之間的關系[17]。和機器學習[18]，[19]的其他發展一樣，膠囊網絡也是受到生物啟發的，他們的目標是能夠學習更健壯的、以對象為中心的、具有姿態感知和可解釋性的表示。來自神經科學的證據表明，緊密連接的附近神經元群(即超列)可以表示一個向量值單位，它不僅能夠傳遞標量，而且能夠傳遞一組協調值[8]。向量值單位的概念是膠囊網絡和軟注意機制[8]，[20]，[21]的核心，包括transformer [22]。如后面所示，在膠囊網絡中，這些向量值單位被稱為膠囊，在transformer 中，它們被表示為查詢向量、鍵向量和值向量。通過執行神經活動向量之間的標量乘積等操作，可以計算出強大的算法概念，如符合過濾和注意力。

盡管在膠囊工作上取得了有希望的進展，Barham等人[23]解釋說，盡管他們的卷積膠囊模型所需的浮點運算(FLOPS)比CNN少4倍，參數比CNN少16倍，但在TensorFlow[24]和PyTorch[25]中的實現運行速度明顯更慢，并且在更小的模型中耗盡內存。雖然后來有人提出了幾個更有效的膠囊路由版本[26]，[27]，[28]，[29]，但潛在的問題不僅是由路由引起的，還由膠囊投票過程引起。在他們的分析中，[23]得出結論，當前的框架已經針對一個流行的模型家族所使用的一小部分計算進行了高度優化，而且這些框架已經變得不適合研究，因為標準和非標準計算負載之間的性能差異巨大。因此，非標準的工作負載(如膠囊網絡中由路由和投票過程引起的工作負載)比它們本可以達到的速度要慢得多。正如[30]所指出的，雖然膠囊網絡的操作可以在CPU上很好地實現，但在GPU和TPU這樣的加速器上，性能會急劇下降，因為它們使用常見架構中的構建塊對標準工作負載進行了大量優化。我們希望這項綜述將激勵研究人員為膠囊網絡開發合適的工具。

在這項綜述中，我們提供了一個全面的概述，使用膠囊網絡和相關的注意為基礎的模型表征學習。雖然相對而言，膠囊的研究仍處于早期階段，但圖1a向我們顯示，盡管最初流行程度迅速增長，但每年的出版物總數有些停滯。這可能是由于進入該領域的高壁壘和缺乏可靠的參考點。盡管如此，如圖1b所示，頂級會議的膠囊網相關出版物數量持續穩步增長。我們相信，現在有足夠的材料來保證對各種概念、技術和基本思想進行詳細的組織，這將有利于社區和激發該領域的研究興趣。在撰寫本文時，僅存在三個基于Capsule Network的綜述。[31]是在Capsule Networks首次引入后不久編寫的，因此它沒有涵蓋最近取得的重大里程碑。同樣，[32]的寫作目的也很簡短，因此只涵蓋了相關文獻的很小一部分。[33]是最近的，涵蓋了更廣泛的論文，但沒有以我們認為必要的方式對該領域進行足夠詳細的廣泛綜述。相反，本綜述的目的是提供膠囊網絡和以對象為中心的表征學習的相關研究的第一次全面和詳細的分解。具體而言，我們的目標是:(a)詳細解釋膠囊網絡背后的基礎、動機和基本概念;(b)調查膠囊網在各個應用領域的研究現狀;(c)將膠囊和協議路由與Transformers 剛和自注意進行關聯和比較。(d)討論有待解決的問題，并提出有前景的研究方向。我們期望我們的綜述將作為膠囊網絡未來的主要參考文獻，并將有助于促進該領域的發展。

本次綜述的組織方式如下。在第1節中，我們對膠囊網絡背后的思想做了一個介紹性的概述。在第2節中，我們開始溫和地介紹不變性和等方差，并解釋為什么這些概念在表示學習中是基本的。在第3節中，我們解釋了膠囊網絡背后的基本思想和動機，并介紹了協議和膠囊路由等基本概念。在第4節中，我們深入研究了文獻中提出的最突出的膠囊路由算法。在第5節中，我們將揭示膠囊路由和Transformers中流行的自我注意機制之間的概念相似性。第6至10節討論膠囊網絡在視頻和運動、圖形、自然語言處理和醫學成像方面的一些主要應用。第11節重點介紹膠囊網絡的其他應用，如故障診斷、高光譜成像、偽造檢測和對抗攻擊。最后，在第12節中，我們討論了膠囊網絡的公開挑戰和缺點，以及我們認為未來有希望的研究方向。

付費5元查看完整內容

AI+建筑 · 結構動力學和振動聲學 · 機器學習 · 論文 · 綜述論文 ·

2022 年 4 月 12 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

機器學習 (ML) 的使用已迅速擴展到多個領域，在結構動力學和振動聲學 (SD&V) 中產生了許多應用。在前所未有的數據可用性、算法進步和計算能力的推動下，ML 從數據中揭示洞察力的能力不斷增強，增強了決策制定、不確定性處理、模式識別和實時評估。 SD&V 中的三個主要應用都利用了這些優勢。在結構健康監測中，機器學習檢測和預測導致安全操作和優化維護計劃。 ML 技術在主動噪聲控制和主動振動控制中利用了系統識別和控制設計。最后，所謂的基于 ML 的代理模型為昂貴的模擬提供了快速替代方案，從而實現了穩健和優化的產品設計。盡管該地區有許多作品，但尚未對其進行審查和分析。因此，為了跟蹤和理解這種持續的領域整合，本文對機器學習在 SD&V 分析中的應用進行了調查，闡明了當前的實施狀態和新出現的機會。為這三種應用中的每一種確定了主要的方法、優勢、局限性和基于科學知識的建議。此外，本文還考慮了數字孿生和物理引導 ML 在克服當前挑戰和推動未來研究進展方面的作用。因此，該調查對在 SD&V 中應用的機器學習的現狀進行了廣泛的概述，并引導讀者深入了解該領域的進展和前景。

圖 9：結構健康監測工作流程：（a）在經典方法中，特征提取和選擇是手工制作的，然后是 ML 方法；(b) 如果使用深度學習，則通過 ML 方法自動執行特征提取和選擇。

圖 15：數字孿生框架：來自物理的數據由數字孿生的數據驅動方法處理，在整個產品生命周期中支持優化和穩健的決策。

付費5元查看完整內容

深度學習優化 · 深度神經網絡 · 分布式學習 · 綜述論文 ·

2021 年 11 月 19 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】深度學習優化是構建深度學習模型中的一個關鍵問題。來自NUS的研究人員發布了《大規模深度學習優化》綜述論文，DL優化目標是雙重的: 模型準確性和模型效率。至于模型的準確性，研究了最常用的優化算法，從梯度下降變量到(大批量)自適應方法，從一階方法到二階方法。此外，還闡述了在大批量訓練中出現的泛化差距這一有爭議的問題。

深度學習在人工智能的廣泛應用中取得了可喜的成果。更大的數據集和模型總是產生更好的性能。然而，我們通常花更長的訓練時間在更多的計算和通信上。在這項綜述中，我們的目標是提供一個清晰的草圖，關于優化大規模深度學習的模型準確性和模型效率。我們研究最常用于優化的算法，闡述大批量訓練中出現的泛化缺口這一有爭議的話題，并回顧SOTA解決通信開銷和減少內存占用的策略。

//www.zhuanzhi.ai/paper/9f75513e868ff294b34ab94275cab043

引言

目前，深度學習(DL)已經在廣泛的人工智能應用領域取得了可喜的結果，包括計算機視覺(如圖像分類[42,47,66]，目標檢測和分割[35,41,65,85])，自然語言處理(如語言建模[28,117]和機器翻譯[108,114])，信息檢索(例如，推薦系統[43])和許多其他。規模是DL上升的主要推動力[28,42,55,56,94,104]。更大的數據集和神經網絡在所有通常需要更多計算和更長的訓練時間的任務中總是產生更好的性能。

因此，近年來，學術界和工業界對在具有更高計算能力和內存限制的TPU和GPU等設備的大集群上擴展DL和分布式訓練的興趣激增。數據并行已經成為分布式訓練的主要實踐。它將一個大的批處理分布到多個設備，其中每個設備持有一個相同的模型副本，計算局部批處理的梯度，最后在每次迭代收集梯度來同步參數更新。通過最新的優化技術，它現在能夠在成千上萬的GPU設備上訓練非常大的批量。然而，這種規模的訓練需要克服算法和系統相關的挑戰。其中一個主要的挑戰是模型精度在超過某一點(例如32k)時的大批量下降。單純地增加批處理大小通常會導致泛化性能下降，并降低計算效益。此外，我們不能總是通過使用更多的處理器來提高訓練速度，因為通信成本是不可忽略的開銷。多處理器協同訓練一個任務可以減少整體訓練時間，但相應的處理器間通信成本很高，限制了模型的可擴展性。更糟糕的是，擁有數百億到數萬億參數的模型顯然無法裝入單個設備的內存中，簡單地增加更多設備也無助于擴大訓練規模。這種限制阻止DL研究人員探索更高級的模型體系結構。現有的工作研究和開發了克服這些問題的優化技術，以加速大規模深度神經網絡(DNN)的訓練。我們將這些工作分為兩類，一種努力在大規模設置下保持/提高模型的準確性，另一種強調模型的效率，設計不太需要通信和內存的算法。重要的是，它們不是相互排斥的，而是可以協同使用，以進一步加快訓練。

該綜述的總體結構如圖1所示。第2節介紹了一個典型的有監督學習神經網絡優化問題的公式。我們將大規模DL優化大致分為模型精度和模型效率兩部分。第3節介紹了梯度下降優化系列，包括梯度下降變種、動量SGD和自適應梯度算法。隨著具有數據并行性的大批訓練在DL中日益普及，同時也帶來了挑戰，第4節討論了在這一設置中存在的問題，并回顧了主要的SOTA優化策略來改善這種情況。第5部分深入探討了泛化差距——批量訓練中的一個辯論話題。第6節介紹了二階優化。然后我們將注意力轉向模型效率。第7節調研了通信瓶頸，第8節重點討論了高效存儲技術。最后，第9節對本文進行總結。

梯度下降優化算法

訓練DNN是一個優化過程，即在網絡中找到使損失函數最小的參數。梯度下降及其變體算法是最常用的神經網絡優化算法[87]。為了控制梯度下降法的振動，引入了動量控制的思想。此外，將學習率與前一階段的梯度相適應，有利于避免波動。在本節中，我們簡要梳理了目前主流的優化算法，包括梯度下降變分算法(3.1節)、動量算法(3.2節)和自適應梯度算法(3.3節)。

大批量訓練

大型DNN和大型數據集推動了深度學習的發展[28,42,55,56,94,104]。然而，在海量數據集上訓練大型模型是計算密集型的。例如，BERT和ResNet-50等SOTA DL模型在16個TPUv3芯片上訓練3天，在8個Tesla P100 GPU上訓練29個小時[28,42]。一種直觀的加速訓練的方法是增加更多的計算能力(例如，更多的GPU節點)并使用數據并行(見圖1)。考慮到通信(即在每次迭代時同步更新)是一個問題，必須盡可能多地利用每個GPU來分攤通信成本。因此，需要使用大批量來將更多的數據分配到每個GPU上。批量大小的非平凡增長常常導致測試性能下降，如[45,52,54,61]中觀察到的。我們在4.1節中描述了大批量引入的訓練難點，在4.2節中描述了大批量訓練的配方(即帶熱身策略的線性LR縮放)，在4.3節中描述了其他補充策略，如自適應分層學習和4.4節中描述了自適應批量大小。最后在第4.5節中討論我們可以擴大批量的程度。

泛化差距

優化通常是一項極其困難的任務，尤其是在訓練神經網絡時。對于非凸高維函數，有可能存在許多局部極小點和鞍點。優化方法，如SGD，一般收斂于參數空間的不同區域，高度依賴于網絡架構的設計、優化器的選擇、變量初始化等多種考慮[92]。泛化這個術語指的是一個假設如何很好地適用于訓練集中沒有看到的新例子。如4.1節所述，我們可以看到，盡管訓練函數的值相似，但用大批量方法訓練的模型在測試數據上的表現要比小批量方法差[45,52,70,92]。這種泛化性能的持續下降被稱為泛化差距。弄清這一差距的根源并找到消除這一差距的方法具有重大的現實意義，但仍是一個懸而未決的問題。本節的結構如下。第5.1節介紹了sharp and flat (wide) minima的概念;5.2節討論了局部最小值的銳度/平整度與其泛化能力之間的關系;第5.3節解釋了所謂的泛化差距，第5.4節提供了一個有點相反的解釋。

二階優化

DL中的優化，無論是理論上還是經驗上，目前都由一階梯度方法主導[2,3,15,21,26,116]。二階優化方法，包括二階導數和/或數據的二階統計，是遠遠不普遍的，盡管強大的理論性質，由于其令人望而卻步的計算，內存和通信成本。在本節中，我們將在6.1節中建立二階優化基礎知識，從6.2節中的經典牛頓方法開始，并轉向一些最新的算法，如Hessian-Free方法(在6.3節中)、K-FAC(在6.4節中)和Shampoo40。

通信

大規模分布式訓練提高了訓練更深、更大模型的效率，其中采用了數據并行，充分利用了多個workers的計算能力。SGD計算效率高，并且得到了DL工具包TensorFlow[1]、PyTorch[77]和DeepSpeed[83]的良好支持，因此通常被選擇為優化方法。在數據并行的SGD中，每個worker處理其訓練數據的隨機小批，然后通過一個All-Reduce步驟或通過一個集中的參數服務器來同步本地更新，該服務器聚集了來自所有worker的隨機梯度，并采取Broadcast步驟，將更新后的參數向量傳送回所有workers。重復梯度同步的過程，直到滿足適當的收斂準則。

內存

更大的模型通常需要更多的計算和內存資源來訓練。訓練這些模型所需的內存數量可能比單個GPU上可用的內存數量大幾個數量級。在本節中，我們將看到一些流行的技術如何成功地在不影響模型性能的情況下降低訓練神經網絡的內存需求。第8.1節介紹了混合精度訓練[72]如何使用更少的位來保留訓練期間的權值和梯度，從而降低內存負擔。第8.2節介紹了兩種有效內存的自適應優化器，Adafactor[93]和SM3[10]。與上述方法正交，ZeRO[81]不改變模型優化方法，也不影響模型收斂，而是通過消除數據并行中的冗余來降低內存成本(章節8.3)。

結論

鑒于更大的數據集和更大的模型持續產生的準確性的顯著提高，大規模的深度學習已成為一個不可避免的趨勢。隨著數據集大小和DNN復雜度的增加，深度學習的計算強度、通信成本和內存需求均成比例增加。為了提高訓練速度已經付出了相當大的努力。在本文中，我們給出了大規模深度學習優化的概述。一般來說，目標是雙重的: 模型準確性和模型效率。至于模型的準確性，我們研究了最常用的優化算法，從梯度下降變量到(大批量)自適應方法，從一階方法到二階方法。此外，我們還闡述了在大批量訓練中出現的泛化差距這一有爭議的問題。至于模型的效率，我們總結了SOTA技術在解決通信開銷和內存占用方面的昂貴成本。我們希望這篇文章可以為那些有興趣進行大規模訓練的人提供一個清晰的草圖。

付費5元查看完整內容

神經網絡推理 · 量化 · 加州大學伯克利分校 (UC Berkeley) ·

2021 年 6 月 28 日

[付費5元查看完整內容]【伯克利】高效神經網絡推理的量化方法綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

一旦抽象數學計算被用于數字計算機上的計算，這些計算中數值的有效表示、操作和通信的問題就出現了。與數字表示問題密切相關的是量化問題:一組連續的實數應該以何種方式分布在一組固定的離散數上，以最小化所需的位數，并使伴隨的計算的準確性最大化?當內存和/或計算資源受到嚴重限制時，量化這個長期存在的問題就顯得尤為重要。由于神經網絡模型在計算機視覺、自然語言處理和相關領域的出色表現，這一問題近年來已經成為一個前沿問題。從浮點表示方式移動到以4位或更少表示的低精度固定整數值可以將內存占用和延遲減少16倍;事實上，4倍到8倍的縮小在這些應用中經常被實現。因此，量化最近作為神經網絡計算的有效實現的一個重要和非常活躍的研究子領域出現就不足為奇了。在這篇文章中，我們調研了在深度神經網絡計算中量化數值問題的方法，包括當前方法的優點/缺點。通過這個調研和它的組織，我們希望已經提出了一個有用的量化神經網絡研究綜述，以方便在這一領域的未來研究的拓展。

//www.zhuanzhi.ai/paper/c451f4f98fbca30e3edee0a9751a0b93

引言

在過去的十年中，我們已經觀察到神經網絡(NNs)在精度上的顯著改進，用于解決廣泛的問題，通常是通過高度過參數化的模型實現的。雖然這些過度參數化(因此非常大)的神經網絡模型的精度顯著提高了，但這些模型的純粹規模?相等的貢獻。這意味著不可能為許多資源受限的應用程序部署它們。這給在資源受限的環境下實現普適深度學習帶來了問題，普適深度學習需要實時推理，具有低能耗和高精度。這種普遍深度學習預計將對實時智能醫療保健監控、自動駕駛、音頻分析和語音識別等廣泛應用產生重大影響。

要實現高效、實時的、具有最優精度的神經網絡，需要重新思考神經網絡模型的設計、訓練和部署[71]。有大量的文獻專注于通過使NN模型更有效(在延遲、內存占用和能量消耗等方面)來解決這些問題，同時仍然提供最佳的準確性/泛化權衡。這些努力可以大致分為以下幾類。

a) 設計高效的NN模型架構: 一些工作都集中在優化神經網絡模型結構的微架構(101,111,127,167,168,212,253,280](例如,內核類型深度方面卷積或低秩分解等)以及它macro-architecture(100、101、104、110、214、233](如模塊類型,例如殘差,或inception)。這里的經典技術大多使用手動搜索找到新的體系結構模塊，這是不可擴展的。因此，一個新的工作是設計自動機器學習(AutoML)和神經結構搜索(NAS)方法。這些方法的目的是在給定模型尺寸、深度和/或寬度的約束下，自動找到正確的NN架構[161,194,232,245,252,291]。我們向有興趣的讀者推薦[54]來了解NAS方法的最新調查。

b) 協同設計網絡架構和硬件: 最近的另一項工作是為特定的目標硬件平臺調整(并協同設計)網絡架構。這是因為NN組件的開銷(在延遲和能量方面)是依賴于硬件的。例如，具有專用緩存層次結構的硬件可以比沒有專用緩存層次結構的硬件更有效地執行受帶寬限制的操作。與神經網絡體系結構設計類似，體系結構-硬件協同設計的最初方法是手動的，即由專家調整/更改神經網絡體系結構[70]，然后使用自動化的AutoML和/或NAS技術[22,23,100,252]。

c) 剪枝: 另一種減少網絡的內存占用和計算成本的方法是運用剪枝。在剪枝過程中，去掉敏感性小的神經元，得到稀疏計算圖。這里，具有小顯著性的神經元是指那些去除后對模型輸出/損失函數影響最小的神經元。剪枝方法可以大致分為非結構剪枝[49,86,139,143,191,257]和結構剪枝[91,106,156,166,274,275,279]。在非結構化剪枝中，我們可以去除那些不太顯著的神經元，無論它們在哪里出現。該方法可以進行主動剪枝，去除大部分神經網絡參數，對模型的泛化性能影響很小。然而，這種方法導致了稀疏矩陣操作，這是眾所周知的難以加速，并且通常是內存受限的[21,66]。另一方面，使用結構化剪枝，一組參數(例如，整個卷積濾波器)被刪除。這可以改變層和權重矩陣的輸入和輸出形狀，從而仍然允許密集的矩陣操作。然而，積極的結構修剪往往導致顯著的精度退化。具有高水平修剪/稀疏性的訓練和推理，同時保持最先進的性能，仍然是一個開放問題[16]。有興趣的讀者請參閱[66,96,134]，了解修剪/稀疏性相關工作的詳細情況。

d) 知識蒸餾: 模型蒸餾[3,95,150,177,195,207,269,270]涉及訓練一個大模型，然后作為教師使用它來訓練一個更緊湊的模型。在對學生模型的訓練中，不是使用“硬”的類別標簽，模型蒸餾的關鍵思想是利用老師產生的“軟”概率，因為這些概率可以包含更多關于輸入的信息。盡管在蒸餾方面做了大量的工作，但這里的一個主要挑戰是僅用蒸餾就能獲得高壓縮比。與量化和剪枝相比，在壓縮≥4×的情況下(具有INT8和較低的精度)，知識蒸餾方法在壓縮強度大的情況下具有不可忽略的精度退化。然而，將知識精餾與之前的方法(即量化和剪枝)相結合已經取得了巨大的成功[195]。

e) 量化: 最后，量化方法在神經網絡模型的訓練和推理方面都表現出了巨大和一致的成功。雖然數字表示和量化的問題和數字計算一樣古老，但神經網絡提供了獨特的改進機會。雖然對量化的研究主要集中在推理方面，但我們應該強調量化在神經網絡訓練方面取得了重要的成功[10,35,57,130,247]。特別是，半精度和混合精度訓練的突破[41,72,79,175]是人工智能加速器實現一個數量級更高吞吐量的主要驅動因素。然而，事實證明，如果沒有顯著的調整，很難達到半精度以下，而且最近的大多數量化研究都集中在推理上。這種用于推理的量化是本文的重點。

f) 量化和神經科學: 神經網絡量化是神經科學領域的一項工作，表明人類大腦以離散/量化的形式存儲信息，而不是以連續的形式存儲信息[171,236,240]。這一觀點的一個普遍理由是，以連續形式存儲的信息不可避免地會被噪聲(噪聲總是存在于物理環境中，包括我們的大腦，它可以由熱噪聲、感覺噪聲、外部噪聲、突觸噪聲等引起)所損壞[27,58]。然而，離散信號表示對這種低水平噪聲更有魯棒性。其他原因，包括離散表示更高的泛化能力[128,138,242]和有限資源下更高的效率[241]，也被提出。我們建議讀者參考[228]對神經科學文獻中相關工作的全面回顧。

付費5元查看完整內容

深度學習 · 目標檢測 ·

2020 年 8 月 1 日

[付費5元查看完整內容]深度學習目標檢測方法綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用，目標檢測的精確度和效率都得到了較大提升，但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰，本文在廣泛文獻調研的基礎上，從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法，從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法，從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法，從網絡結構的角度分析了用于輕量化檢測模型的方法。此外，對目標檢測的通用數據集進行了詳細介紹，從4個方面對該領域代表性算法的性能表現進行了對比分析，對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點，仍然有更多高精度和高效的算法相繼提出，未來將朝著更多的研究方向發展。