以圖為中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系統方面取得了顯著的成功,從生物動力學系統到粒子物理。數據的日益異構性需要可以結合多種歸納偏差的圖神經架構。然而,結合來自不同來源的數據是具有挑戰性的,因為適當的歸納偏差可能因數據形態而異。多模態學習方法融合多種數據模式,同時利用跨模態依賴來解決這一挑戰。在這里,我們調研了140項關于以圖為中心的人工智能的研究,并意識到越來越多的數據類型使用圖匯集在一起,并輸入到復雜的多模態模型中。這些模型分為以圖像、語言和知識為基礎的多模態學習。在此基礎上,我們提出了一個多模態圖學習的算法藍圖。通過適當地選擇四個不同的組件,該藍圖可以將處理多模態數據的最先進的架構進行分組。這一努力可以為高度復雜的現實世界問題的復雜多模態架構的標準化設計鋪平道路。
基于圖結構數據的大型深度學習對生物、化學、物理和社會科學的突破做出了貢獻[1-7]。在許多成功的應用中,圖神經網絡[8]根據預定的傳播方案學習圖組件的表示。這些學習后的表示可以用于半監督學習[9]中的標簽預測,用于無監督學習的結構重構,如鏈接預測[10],以及圖的設計和生成問題[11,12]。關于模型輸入,圖學習方法已被用于對數據集進行建模,其中圖結構由節點、邊和上下文信息明確給出。這些上下文信息對應于圖屬性(即節點和邊屬性)。它來自定義圖類型的單一來源(例如,包含文章數據的引文網絡或包含化學鍵信息的分子網絡)。
對現實問題建模通常需要考慮來自多種類型來源(例如圖像、聲音、文本、化學反應等)的相同實體數據測量。多****模態學習探索了如何從不同分布中采樣的數據組合來執行[13]預測。盡管它在單模態方法無法學習的許多應用中取得了巨大成功[14-16],但多模態學習遇到了限制其性能的關鍵挑戰[17]。具體來說,已觀察到多模態模型往往傾向于部分關注一部分模態,而忽略其余的模態,這種現象被稱為模態坍縮[18]。此外,與常見的所有模態都可用的假設相反,噪聲的存在或資源的限制可能會導致模態缺失[19,20]。上述問題在不同來源的數據(如生物序列、物理模擬和圖像)合并的情況下很容易遇到,如圖1所示。
**圖1 圖為中心的多模態學習。**左邊顯示的是本次調研中涉及的不同數據模態。右邊顯示的是多模態圖學習用于取得進展的各個領域中的代表性任務。本文簡要概述了多模態圖學習(MGL)在這些模式中的應用,并介紹了MGL的藍圖。在許多應用中,不同模態之間的依賴關系可以表達一種固有的網絡結構,阻礙使用簡單模態融合方法[21]的ad hoc方法的性能。最近的進展表明,圖學習模型在多模態數據上的推理是成功的[22,23]。將模態依賴考慮為圖邊并通過學習網絡結構上的表示,可以更準確地捕獲它們[24,25]。特別是,在生物學和化學中,經常假設表示分子網絡、蛋白質相互作用網絡和蛋白質序列的圖結構,這推動了基于圖的多模態方法的應用[26-28]。多模態學習和圖學習聯系的文獻描述了通過合并在下游任務中的單模態組件處理多模態數據的架構,或利用不同模態之間的相關性的更復雜的機制。我們將這些方法組合在一個藍圖下,我們稱之為多模態圖學習(MGL),在這個藍圖下,我們可以以統一的多模態方式表達現有的方法,并為新架構的設計鋪平道路。如圖1所示,MGL考慮了不同的輸入源,從計算機視覺、語言處理到物理、化學和生物。此外,基于提出的公式,揭示了三種主要的建模圖類型:1)圖像密集圖(IIG)用于圖像和視頻推理相關的任務(見第3節),2)語言密集圖(LIG)用于序列處理任務(見第4節),最后3)知識密集圖(KIG)用于物理、化學和生物任務(見第5節)。
圖神經網絡多模態學習
深度學習為多模態學習創造了廣泛的融合方法[13,29]。例如,循環神經網絡(RNN)和卷積神經網絡(CNN)架構已經成功地結合在一起,在視頻描述問題中融合聲音和圖像表示[30,31]。最近,生成模型也被證明對于語言密集的[32]和基于物理的多模態數據[33]都非常準確。這種模型基于編碼器-解碼器框架,其中在編碼器中,組合的體系結構同時進行訓練(每個專門用于一種模態),而解碼器負責聚合來自單一體系結構的信息。注意力機制也顯著影響了用于數據融合的深度學習模型。通過在模型中加入注意力權重,可以學習不同模式重要性的優先級。Up-Down模型[34]利用了一組用于圖像標題和視覺問題回答(VQA)的注意層組合。VQA-Machine[35]使用共同注意機制層來生成圖像和問題的重要排序。最后,深度強化學習(RL)成功地解決了多模態學習問題。例如,在視頻字幕任務中,基于強化學習的模型PickNet[36]依次選擇信息量最大的視頻幀。在視覺對話任務中,視覺和文本信息的結合激發了可以處理多模態數據的強化學習方法的設計[37,38]。通常,數據集中模態之間的復雜關系可以產生一個網絡結構。圖神經網絡(gnn)為探索和利用多模態數據收集中可能出現的固有網絡拓撲提供了一種表達力強且靈活的工具包。基于圖的多模態學習是一個令人興奮的新興領域,它將多模態學習與圖神經網絡的最新進展相結合,在圖像、文本、物理和許多其他應用領域取得進展[22 - 25,39]。圖學習模型的使用可以發生在(1)探索連接多模態數據的網絡拓撲或(2)利用已經存在的拓撲來實現不同模式之間的數據融合。例如,在[25]中,作者提出了一個多模態圖學習框架,用于融合神經成像數據與生物標志物和認知測試數據,用于疾病預測。在[39]中,一個圖多模態網絡被建議用于解決VQA問題,其中兩個模型從圖像和文本生成以對象為中心的圖,另一個模型匹配生成的圖并學習有用的表示。在[23]中,圖融合網絡是一個層次圖網絡,它探索單模態和多模態交互。
以圖為中心的多模態學習
圖神經網絡用于多模態學習由于其靈活地檢測數據模態之間的交互作用而受到關注。通過圖學習融合不同形態的信息,需要網絡拓撲結構的構建和圖上推理算法的應用。我們提出了一種端到端的方法,在給定多模態輸入數據集合的情況下產生輸出表示。我們將這種方法稱為多模態圖學習(MGL)。MGL可以看作是一個藍圖,由四個以端到端方式連接的學習組件組成。在圖2a中,我們強調了處理多模態數據的傳統單模態架構組合與建議的一體化多模態架構之間的區別。
圖2 多模態圖學習藍圖概述。a,多模態學習的標準方法包括組合不同的單模態架構,每個架構針對不同的數據模態進行優化。b、相反,MGL框架中的一體化多模態架構考慮了端到端模型中每個數據模態的歸納偏差,從而實現了更具表現力的數據融合。c、MGL四個組件的路線圖。即將實體識別、拓撲揭示、信息傳播和表示混合學習組件集成到一體化多模態藍圖中。
面向圖像的多模態圖學習**
圖像密集圖(IIGs)是多模態圖,其中節點表示視覺特征,邊緣表示特征之間的空間聯系。圖像中的結構學習包含了IIGs的構建。為了了解這種結構,模型在IIGs上學習,通過修改GNN架構來編碼與圖像預測任務相關的歸納偏差,并融合CNNs和GNN。CNN編碼與圖像相關的幾何先驗:平移不變性和尺度分離[42]。平移不變性描述了CNN的輸出如何不改變依賴于輸入圖像的移位,并通過共享權值的卷積濾波器實現。尺度分離描述了如何可能跨尺度分解特征之間的長期相互作用,專注于較小的局部相互作用,然后可以傳播到課程尺度。池化層在CNNs中跟隨卷積層實現尺度分離[42]。GNN可以模擬任意形狀的遠程依賴關系,這對圖像相關任務[43]很重要,如圖像分割[44,45],圖像恢復[46,47],或人體物體交互[48,49]。在本節中,我們將重點介紹MGL在圖像任務中的應用,以簡要概述用于構建IIGs的方法,并創建模型以了解IIGs。我們根據方法的相似性將任務分成兩類: 視覺理解和視覺推理。
圖3 多模態圖學習藍圖在圖像中的應用。a,用于圖像理解的模態識別,其中節點代表SLIC分割算法生成的聚集的感興趣區域或超像素。b,圖像去噪的拓撲發現,圖像補丁(節點)連接到其他非局部相似的補丁。c,創建兩個圖的人機交互中的拓撲揭示。以人類為中心的圖將身體各部分映射到它們的解剖鄰居,并通過相互作用將身體各部分相對于圖像中其他物體的距離連接起來。d,人-物體交互中的信息傳播,其中空間條件圖修改消息傳遞,以合并強制圖像中對象的相對方向的邊緣特征[50]。
面向語言的多模態圖學習**
隨著生成上下文語言嵌入的能力,語言模型已經廣泛地重塑了自然語言[7]的分析。除了單詞,語言的結構還存在于句子(語法樹、依賴解析)、段落(句子到句子的關系)和文檔(段落到段落的關系)等層面[71]。transformer是一種流行的語言模型[72],它可以捕獲這種結構,但對計算和數據有嚴格的要求。MGL方法通過在模型中注入語言結構來緩解這些問題。具體來說,這些方法依賴于語言密集型圖(LIGs),顯式或隱式圖中節點表示由語言依賴關系鏈接的語義特征。本節概述構建和學習LIGs的MGL方法。
自然科學中的多模態圖學習
除了語言建模和計算機視覺領域,圖越來越多地應用于自然科學。我們稱這些圖為知識密集型圖(KIGs),因為它們對與特定應用領域相關的結構領域知識進行編碼。在下一節中,我們將重點介紹MGL在自然科學,特別是物理、化學和生物學中最普遍的應用。我們描述了MGL方法如何將與特定任務相關的歸納偏差納入到KIG建模中。
多模態圖學習在自然科學中的應用。a、物理相互作用中的信息傳播,其中,由于粒子間的相互作用和其他力,物理信息神經消息傳遞用于更新系統中粒子的狀態。b,分子推理中的信息傳播,使用全局注意機制來模擬兩個分子中原子之間的潛在相互作用,以預測兩個分子是否會發生反應。c,蛋白質建模中的拓撲發現,使用多尺度圖表示將蛋白質的一級、二級和三級結構與分子超像素中總結的高級蛋白質基序集成,以表示蛋白質[27]。這種強大的拓撲結構為蛋白質-配體結合親和力預測等任務提供了更好的預測。
圖神經網絡(GNNs)在圖表示學習中取得了發展勢頭,并推動了各種領域的先進水平,例如數據挖掘(如社會網絡分析和推薦系統),計算機視覺(如目標檢測和點云學習),自然語言處理(如關系提取和序列學習),等等。隨著Transformer在自然語言處理和計算機視覺中的出現,圖Transformer將圖結構嵌入到Transformer架構中,以克服局部鄰域聚集的局限性,同時避免嚴格的結構歸納偏差。本文從面向任務的角度對計算機視覺中的GNNs和圖transformer進行了全面的回顧。具體而言,我們將其在計算機視覺中的應用根據輸入數據的形式分為五類,即2D自然圖像、視頻、3D數據、視覺+語言和醫學圖像。在每個類別中,我們根據一組遠景任務進一步劃分應用程序。這種面向任務的分類法允許我們檢查每個任務是如何由不同的基于GNN的方法處理的,以及這些方法的性能如何。基于必要的初步準備,我們提供了任務的定義和挑戰,對代表性方法的深入報道,以及關于見解、局限性和未來方向的討論。
引言
深度學習[1]為計算機視覺帶來了許多突破,其中卷積神經網絡(CNN)占據了主導地位,成為許多現代視覺系統的基礎設施。特別是,許多最先進的CNN模型,如AlexNet[2]、ResNet[3]和EfficientNet[4],在過去十年中被提出,并在各種視覺問題中取得了前所未有的進展,包括圖像分類、目標檢測、語義分割和圖像處理等。另一方面,現有的視覺系統可以像人類一樣建立在各種輸入模態之上,如2D圖像(如自然圖像和醫學圖像)、視頻、3D數據(如點云和網格)以及多模態輸入(如圖像+文本)。 盡管基于CNN的方法在處理像圖像這樣的網格狀數據結構方面表現出色,但在計算機視覺社區中出現了一種新意識,即數據的非網格拓撲信息對表示學習至關重要,但還有待徹底研究。觀察到人類的組合泛化能力在很大程度上依賴于他們表示結構和推理關系的認知機制[5],模仿人類的學習和決策過程可以提高視覺模型的性能,并為最終的預測提供邏輯證據。例如,在物體識別的任務中,最先進的神經網絡更傾向于單獨感知物體的存在,而不同物體之間的依賴性和相互作用卻很少受到關注。
此外,與具有內在邊連接和節點概念的自然圖數據(如社交網絡和生物蛋白質網絡)相比,基于規則網格數據(如圖像和文本)的圖(如關系圖)構建缺乏原則性方法,嚴重依賴于領域知識。另一方面,視覺問題中的一些數據格式,如點云和網格,自然不是定義在笛卡爾網格上的,并且涉及復雜的關系信息。從這個意義上說,無論是規則的還是不規則的視覺數據格式都將受益于拓撲結構和關系的探索,特別是在理解復雜場景、從有限的經驗中學習和跨領域的知識轉移等具有挑戰性的場景。
在過去的幾年中,在深度學習的最新進展下,GNNs[6]在建模圖結構方面展示了突破性的性能。在計算機視覺的范圍內,目前許多與GNN相關的研究都有以下兩個目標之一:(1)GNN和CNN主干的混合(2)用于表示學習的純GNN架構。前者通常尋求提高CNN學習到的特征的遠程建模能力,適用于以前純CNN架構解決的視覺任務,如圖像分類和語義分割。后者在一些可視化數據格式(如點云)中充當特征提取器,與其他方向相比,它是并行開發的。例如,在點云[7]的三維形狀分類任務中,主要有三個研究方向,分別是基于點的MLP方法、基于卷積的方法和基于圖的方法。 然而,盡管取得了豐碩的成果,仍然沒有一篇綜述來系統和及時地回顧基于GNN的計算機視覺的進展。本文對現有研究進行了文獻綜述,從任務導向的角度對計算機視覺中的圖神經網絡進行了完整的介紹,包括(i)任務的定義和挑戰,(ii)代表性方法的深入覆蓋,以及(iii)關于見解、局限性和未來方向的系統討論。具體而言,我們將GNN在計算機視覺中的應用根據輸入數據的形式分為五種類型。在每種類型中,我們根據它們執行的計算機視覺任務對應用程序進行分類。我們還回顧了視覺任務中使用的圖變形函數,考慮到它們在架構[8]、[9]方面與GNN的相似性。本次調查的組織如圖1所示。 背景知識
在本節中,我們將回顧在計算機視覺中使用的GNN和圖transformer。讀者可以參考之前的幾個GNN調研[10],[11],[12],全面介紹GNN的發展。此外,我們要強調的是,許多現有的基于GNN的視覺方法實際上是使用CNN和GNN的混合,而我們專注于GNN方面。
目錄
圖像建模 圖像分類 多標簽分類 少樣本學習 零樣本學習 遷移學習 目標檢測 圖像分割 場景圖生成 視頻理解 視頻動作識別 時序動作定位 視覺+語言 視覺問答基準 視覺Grounding 圖像描述 3D 數據分析 3D表示學習 3D理解 3D 生成 醫學圖像分析
盡管在感知方面取得了突破性進展,但如何賦予深度學習模型推理能力仍然是現代計算機視覺系統面臨的一個艱巨挑戰。在這方面,GNN和圖transformer在處理"關系"任務方面表現出了極大的靈活性和優越性。本文首次從面向任務的角度全面綜述了計算機視覺中的GNN和圖transformer。具體來說,根據輸入數據的形式,將各種經典和最新的算法分為5類,如圖像、視頻和點云。通過系統地梳理每個任務的方法,我們希望這項調查可以揭示未來更多的進展。通過對關鍵創新、局限性和潛在研究方向的討論,我們希望讀者能夠獲得新的見解,并向類似人類的視覺理解更進一步。
深度學習在2維圖像等結構化數據處理中表現出了優越性能,對非結構化的點云數據分析處理 的潛力已經成為計算機圖形學的重要研究方向,并在機器人、自動駕駛、虛擬及增強現實等領域取得一 定進展.通過回顧近年來3維點云處理任務的主要研究問題,圍繞深度學習在3維點云形狀分析、結構提取、檢測和修復等方向的應用,總結整理了典型算法.介紹了點云拓撲結構的提取方法,然后對比分析 了變換、分類分割、檢測跟蹤、姿態估計等方向的以構建神經網絡為主要研究方法的進展.最后,總結常 用的3維點云公開數據集,分析對比了各類方法的特點與評價指標,指出其優勢與不足,并從不同角度 對基于深度學習的方法處理點云數據所面臨的挑戰與發展方向進行了討論.
隨著3維傳感器的迅速發展,3維數據變得無 處不在,利用深度學習方法對這類數據進行語義理 解和分析變得越來越重要. 不同3維數據(體素、網格等)表示下,深度學習 的方法不盡相同,但這些方法應用于點云中都有一 定的局限性,具體表現為:體素化方法會受到分辨率 的限制;轉換為2維圖像的方法在形狀分類和檢索 任務上取得了優越性能,但將其擴展到場景理解或 其他3維任務(如姿態估計)有一定的困難;光譜卷 積神經網絡限制在流形網格;基于特征的深度神經 網絡會受到所提取特征表示能力的限制[1].
點云本身具有的無序性與不規則性為利用深度 學習方法直接處理該類數據帶來一定挑戰性:1)規 模局限性.現有研究方法一般針對小規模點云,而能 處理大型點云的方法也需要切割處理,即將其分為 小塊后再處理.但切割可能會造成點云整體信息的 丟失.2)遮擋.當被掃描對象被遮擋時,將直接導致 信息的丟失,這為后續任務的處理帶來嚴重影響.3) 噪聲.由于點云數據本身就是3維空間內的點集,噪 聲的存在直接影響點云模型的正確表示,在形狀識 別等任務中會造成精度的降低.4)旋轉不變.對于同 一模型,旋轉不同角度仍表示同一對象,網絡識別結 果不應由于角度不同而產生差異. 隨著近年來激光雷達等傳感設備及相關技術的 發展,3維點云的掃描與獲取更為便捷,其處理技術 在機器人、自動駕駛及其他領域的實際應用中已取 得一定進展.基于深度學習的蓬勃發展,研究者提出 了許多方法來解決相關領域的不同問題.
**本文對基 于深度學習的點云處理任務進行詳細闡述. 本文的主要貢獻有4個方面: **
1) 從機器人、自動駕駛、虛擬和增強現實以及 醫學4個領域介紹點云處理技術的應用情況; 2) 探討點云拓撲結構與形狀分析在應用于點 云處理任務中的必要性,并總結對比多種算法; 3) 歸納基于點云數據處理相關任務的方法,主 要包括模型重建與變換、分類分割、檢測跟蹤與姿態 估計,著重討論基于深度學習的方法,并給出各種方 法的優劣比較; 4) 總結多個公開點云數據集,并分析各數據集 中不同方法能處理的不同任務.
1 基本概念及應用情況
1.1 深度學習
機器學習推動現代科技手段的進步.網絡的內 容過濾及推薦、語音文本的轉換及醫學影像分析等 應用程序越來越多地使用深度學習技術.
1) 基礎概念
深度學習善于發現高維數據中的復雜結構,因 此可應用于科學、商業和醫學等諸多領域. 深度學習利用多處理層組成的計算模型學習具 有抽象層次的數據表示,關鍵在于其目標特征不是 人類指定的,而是從大量數據中學習獲取的,深度神 經網絡已經成為人工智能的基礎.多層感知機或全 連接網絡堆疊線性層和非線性激活層,是神經網絡 的經典類型.卷積網絡引入卷積層和池化層,在處理 圖像、視頻和音頻方面取得了突破性進展.遞歸網絡 可有效處理文本語音等具有連續性的數據.TransG former利用selfGattention機制提取特征,最早用于 處理自然語言[2G3].
2) 框架平臺
為了實現更復雜的模型,若從頭開始編寫代碼, 效率非常低,因此深度學習框架應運而生.本節介紹 常用的深度學習框架,并將其匯總于表1中. 目前常用于點云處理的框架更多為 TensorFlow 與 PyTorch,其他框架如 Caffe與Jittor等也可用于 處理點云,但應用較少.
1.2 點云處理任務
3維幾何模型中,點云已經成為主要表達方式 之一,其應用于深度學習中的處理技術已取得一定成果.在不同任務驅動下,本文以構建神經網絡為主 要方法,通過分類與整理相關文獻,將點云處理任務 分為模型重建與變換、分類分割、檢測跟蹤與姿態估 計幾大類.本節總結其基本概念.
模型重建與變換包括形狀修復、模型補全與變 形.掃描獲取到的數據并不能完美表征原物體的特 性,很可能存在缺漏或誤差,造成模型不完整、扭曲, 故而需要對該模型進行處理,使其盡可能貼合原物 體模型或目標模型,處理手段即為重建與變換. 分類分割主要包括分類、部件分割、語義分割與 實例分割.在諸如機器人抓取等需求中,必須明確所 抓取對象的分類,即需要判斷其信息,判斷即為對場 景中對象語義信息標記與分類. 檢測跟蹤主要包括3維對象檢測、場景流估計 與目標跟蹤.在諸如自動駕駛等應用中,需要明確路 徑與方向,確定追蹤對象,并能依據當前狀態自動調 節或人為干預使其后續運動符合預期目標. 姿態估計主要包括位姿估計與手部姿態估計. 前者需要確定對象的位置與方向,如工廠噴漆中,噴 槍需要依據目標不斷改變其位置與指向.后者則是 為了理解人類肢體語言,如在體感游戲中,根據肢體 變換執行相應游戲操作.
1.3 應用情況
3維點云處理目前在實際應用中已經取得了一 定的進展.本節以應用為導向,從機器人領域、自動 駕駛領域及虛擬、增強現實領域及醫學領域4個角 度介紹點云處理技術的應用情況.
1.3.1 機器人領域
機器人抓取技術的核心在于目標識別和定位. 2019年 Lin等人[4]利用深度神經網絡學習物體外 在形狀,并訓練網絡在獲取物體局部表面時也能成 功抓取目標. 在機器人 室 內 定 位 及 導 航 技 術 方 面,2020 年 Khanh等人[5]設計了新的云端導航系統.云端導航 下機器人能更準確地移動到目標位置.該技術可應 用于位置服務需求,如盲人導航. 針對噴漆機器人的自動化操作,2019年 Lin等 人[6]利用迭代最近點(iterativeclosestpoint,ICP) 算法進行姿態估計,計算物體部件的位置誤差,并重 新調整機器人的方向,以完成所需的噴漆任務.2020 年 Parra等人[7]設計了能夠在地板下的空隙中進行 隔熱噴涂以提高建筑的強度及使用年限的機器人. 他們針對地形不均勻等情況,提出定位模塊.機器人 依據傳感器獲取連續點云的信息.Yang等人[8]基于 點云模型表示的家具表面路徑規劃和邊緣提取技術 提出邊緣噴涂,獲取噴涂槍路徑點序列和對應姿態. 在家具等工件的生產流程中,該方法能夠根據噴涂 系統坐標系與家具姿態的不同,自適應地調整二者 的坐標關系,以實現正確噴涂的目的.
1.3.2 自動駕駛領域
自動駕駛系統的性能受環境感知的影響.車輛 對其環境的感知為系統的自動響應提供了基礎.2017 年 Hanke等人[9]提出采用光線追蹤的汽車激光雷 達傳感器實現實時模型測量方法.使用由真實世界場 景的測量構建的虛擬環境,能夠在真實世界和虛擬世 界傳感器數據之間建立直接聯系.2019年Josyula等 人[10]提出了利用機器人操作系統(robotoperating system,ROS)和點云庫(pointcloudlibrary,PCL) 對點云進行分割的方法.它是為自動駕駛車輛和無 人機的避障而開發的,具體涉及障礙物檢測與跟蹤.激光雷達(lightdetectionandranging,LIDAR) 和視覺感知是高水平(L4GL5)飛行員成功自動避障 的關鍵因素.為了對大量數據進行點云標記,2020 年 Li等人[11]提出針對3維點云的標注工具,實現 了點云3維包圍盒坐標信息到相機與 LIDAR 聯合 標定后獲得的2維圖像包圍盒的轉換. 基于圖的同步定位與建圖(simultaneouslocaliG zationandmapping,SLAM)在自動駕駛中應用廣 泛.實際駕駛環境中包含大量的運動目標,降低了掃 描匹配性能.2020年 Lee等人[12]利用加權無損檢測 (掃描匹配算法)進行圖的構造,在動態環境下也具 有魯棒性.
1.3.3 虛擬、增強現實領域
為了更好地了解室內空間信息,2015年 Tredinnick 等人[13] 創 建 了 能 夠 在 沉 浸 式 虛 擬 現 實 (virtual reality,VR)顯示系統中以較快的交互速率可視化 大規模 LIDAR 點云的應用程序,能夠產生準確的 室內環境渲染效果.2016年 Bonatto等人[14]探討了 在頭戴式顯示設備中渲染自然場景的可能性.實時 渲染是使用優化的子采樣等技術來降低場景的復雜 度實現的,這些技術為虛擬現實帶來了良好的沉浸 感.2018年 Feichter等人[15]提出了在真實室內點云 場景中抽取冗余信息的算法.其核心思想是從點云 中識別出平面線段,并通過對邊界進行三角剖分來 獲取內點,從而描述形狀. 生成可用于訓練新模型的標注已成為機器學習 中獨立的研究領域,它的目標是高效和高精度.標注 3維點云的方法包括可視化,但這種方法是十分耗 時的.2019年 Wirth等人[16]提出了新的虛擬現實標 注技術,它大大加快了數據標注的過程. LTDAR為增強現實(augmentedreality,AR) 提供了基本的3維信息支持.2020年 Liu等人[17]提 出學習圖像和 LIDAR 點云的局部特征表示,并進 行匹配以建立2維與3維空間的關系. 使用手勢自然用戶界面(naturaluserinterface, NUI)對于頭戴式顯示器和增強及虛擬現實等可穿 戴設備中虛擬對象的交互至關重要.然而,它在 GPU 上的實現存在高延遲,會造成不自然的響應.2020年Im 等人[18]提出基于點云的神經網絡處理器.該 處理器采用異構內核結構以加速卷積層和采樣層, 實現了使用 NUI所必需的低延遲.
1.3.4 醫學領域
醫學原位可視化能夠顯示患者特定位置的成像 數據,其目的是將特定病人的數據與3維模型相結 合,如將手術模擬過程直接投影到患者的身體上,從 而在實際位置顯示解剖結構.2011年Placitelli等人[19] 采用 采 樣 一 致 性 初 始 配 準 算 法 (sampleconsensus initialalignment,SACGIA),通過快速配準三元組 計算相應的匹配變換,實現點云快速配準. 模擬醫學圖像如 X 射線是物理學和放射學的 重要研究領域.2020年 Haiderbhai等人[20]提出 基 于 條 件 生 成 式 對 抗 網 絡 (conditionalgenerative adversarialnetwork,CGAN)的點云 X射線圖像估 計法.通過訓練 CGAN 結構并利用合成數據生成器 中創建的數據集,可將點云轉換成 X射線圖像.
2 模型形狀結構
了解并確定高層形狀結構及其關系能夠使得模 型感知局部和全局的結構,并能通過部件之間的排 列和關系描繪形狀,這是研究形狀結構分析的核心 課題.隨著真實世界的掃描和信息的挖掘,以及設計 模型規模的增大,在大量信息中進行3維幾何模型 的識別和分析變得越來越重要。
3 模型重建與變換
由于遮擋等多種因素的限制,利用激光雷達等 點云獲取設備得到的數據存在幾何信息和語義信息的丟失以及拓撲結構的不確定,這直接導致了數據 的質量問題.為后續任務的處理帶來極大挑戰.
4 形狀分類與分割
基于檢索或劃分的目的,對具有相似特征或相 同屬性的點云數據進行區域的分割或屬性的分類是 極其重要的.
5 目標檢測與跟蹤
自動駕駛、機器人設計等領域中,3維目標檢測 與跟蹤至關重要.自動駕駛車輛和無人機的避障等 實際應用中,涉及障礙物檢測與跟蹤.
5.1 3維目標跟蹤
目標跟蹤是推測幀的屬性并預測變化,即推斷 對象的運動情況,可以利用預測對象的運動信息進 行干預使之實際運動符合預期目標或用戶要求. 為了從點云中推斷出目標對象的可移動部件以 及移動信息,2019年 Yan等人[67]提出 RPMGNet.其 特定的體系結構夠預測對象多個運動部件在后續幀 中的運動,同時自主決定運動何時停止. 2020年 Wang等人[68]提出 PointTrackNet.網 絡中提出了新的數據關聯模塊,用于合并2幀的點 特征,并關聯同一對象的相應特征.首次使用 3 維 Siamese跟蹤器并應用于點云的是 Giancola等人[69]. 基于 Achlioptas等人[70]提出的形狀完成網絡,2019 年 Giancola等人[69]通過使用給定對象的語義幾何 信息豐富重編碼后的表示來提高跟蹤性能. 2019年Burnett等人[71]提出aUToTrack,使用 貪婪算法進行數據關聯和擴展卡爾曼濾波(extended Kalmanfilter,EKF)跟蹤目標的位置和速度.Simon 等人[72]融合2維語義信息及 LIDAR 數據,還引入 了縮放旋轉平移分數(scaleGrotationGtranslationscore, SRTs),該方法可更好地利用時間信息并提高多目 標跟蹤的精度. 文獻[67]可以從開始幀和結束幀的移動部分導 出變化范圍,故參數中不含變換范圍,減少了參數個 數.文獻[68]提供的跟蹤關聯信息有助于減少目標 短期消失的影響,其性能比較穩定,但是當汽車被嚴 重遮擋時,結果會出現問題.文獻[69]解決了相似性 度量、模型更新以及遮擋處理3方面的問題,但該方 法直接利用對稱性來完善汽車整體形狀會導致更多 噪聲.文獻[71]實際需要計算被檢測物體的質心,這 種方法能有效檢測行人,但對于汽車來說,其結果并 不準確.文獻[72]提出的 SRTs可用于快速檢測目 標,提高了準確性和魯棒性.
5.2 3維場景流估計
機器人和人機交互中的應用可以從了解動態環 境中點的3維運動,即場景流中受益.以往對場景流 的研究方法主要集中于立體圖像和 RGBGD 圖像作 為輸入,很少有人嘗試從點云中直接估計. 2019年 Behl等人[73]提出 PointFlowNet,網絡 聯合預測3維場景流以及物體的3維包圍盒和剛體 運動.Gu等人[74]提出 HPLFlowNet,可以有效地處 理非結構化數據,也可以從點云中恢復結構化信息. 能在不犧牲性能的前提下節省計算成本.Liu等人[75] 提出 FlowNet3D.由于每個點都不是“獨立”的,相鄰點會形成有意義的信息,故而 FlowNet3D 網絡嵌入 層會學習點的幾何相似性和空間關系. 文獻[73]先檢測出object并計算出egomotion 和sceneflow,再去回歸各個object的 motion,它從 非結構化點云中直接估計3維場景流.文獻[74G75] 的整體結構類似,都是下采樣 融合 上采樣,直接擬 合出sceneflow.
5.3 3維目標檢測與識別
在城市環境中部署自動型車輛是一項艱巨的技 術挑戰,需要實時檢測移動物體,如車輛和行人.為 了在大規模點云中實現實時檢測,研究者針對不同 需求提出多種方法. 2019年 Shi等人[76]提出 PointRCNN,將場景 中的點云基于包圍盒生成真實分割掩模,分割前景 點的同時生成少量高質量的包圍盒預選結果.在標 準坐標中優化預選結果來獲得最終檢測結果. 2019年 Lang等人[77]提出編碼器 PointPillars. 它學 習 在 pillars 中 組 織 的 點 云 表 示,通 過 操 作 pillar,無需手動調整垂直方向的組合.由于所有的 關鍵操作都可以表示為2維卷積,所以僅使用2維 卷積就能實現端到端的3維點云學習. 考慮到模型的通用性,2019年 Yang等人[78]提 出STD,利用球形錨生成精確的預測,保留足夠的 上下文信息.PointPool生成的規范化坐標使模型在 幾何變化下具有魯棒性.box預測網絡模塊消除定 位精度與分類得分之間的差異,有效提高性能. 2019年 Liu等人[79]提出大規模場景描述網絡 (largeGscaleplacedescriptionnetwork,LPDGNet). 該網絡采用自適應局部特征提取方法得到點云的局 部特征.此外,特征空間和笛卡兒空間的融合能夠進 一步揭示局部特征的空間分布,歸納學習整個點云 的結構信息. 為了克服一般網絡中點云規模較小的局限性, 2019年Paigwar等人[80]提出 AttentionalPointNet. 利用 Attentional機制進行檢測能夠在大規模且雜 亂無章的環境下重點關注感興趣的對象. 2020年 Shi等人[81]提出 PVGRCNN.它執行 2 步策略:第1步采用體素 CNN 進行體素特征學習 和精確的位置生成,以節省后續計算并對具有代表 性的場景特征進行編碼;第2步提取特征,聚集特征 可以聯合用于后續的置信度預測和進一步細化. 文獻[76]生成的預選結果數量少且質量高.文 獻[77]能夠利用點云的全部信息,其計算速度較快. 文獻[78]能夠將點特征從稀疏表示轉換為緊湊表 示,且用時較短.文獻[79]充分考慮點云的局部結 構,自適應地將局部特征作為輸入,在不同天氣條件 下仍能體現出健壯性.文獻[80]不必處理全部點云, 但預處理步驟使得計算成本較大.文獻[81]結合基 于體素的與基于 PointNet的優勢,能夠學習更具鑒 別力的點云特征.
5.4 算法性能對比分析
跟蹤算法中,文獻[67]主要關注的是物體部件 的跟蹤,文獻[68]與文獻[69]則主要檢測同一物體 在不同時間的狀態.文獻[67]的優勢在于可以同時 預測多個運動部件及其各自的運動信息,進而產生 基于運動的分割.該方法實現高精度的前提是輸入 對象的幾何結構明確,否則很有可能會生成不完美 的運動序列.文獻[68]在快速變化的情況下,如突然 剎車或轉彎,其結果仍可靠.但是當目標被嚴重遮擋 時,其結果并不可靠.由于大多數模型(如汽車模型) 只能從單側看到,文獻[69]利用對稱性完善汽車形 狀的方法未必是有效的.文獻[71]的處理方法較簡 單且用時較短,在 CPU 上運行時間不超過75ms.它 能在檢測行人時達到較高性能.但用于擁擠道路的 自動駕駛時,其采用的質心估計對于汽車并不準確. 文獻[72]同時利用2維信息與3維 LIDAR 數據, 且使用的SRTs指標可縮短訓練時間. 場景流估計算法中,文獻[73]聯合3維場景流 和剛性運動進行預測,其效率較高且處理不同運動 時具有魯棒性.文獻[74]與文獻[75]都以端到端的 方式從點云中學習場景流.前者從非結構化的點云 中恢復結構化,在生成的網格上進行計算,后者則是 在點云的連續幀中計算. 檢測算法中,文獻[76]不會在量化過程中丟失 信息,也不需要依賴2維檢測來估計3維包圍盒,故 而可以充分利用3維信息.文獻[77]的處理速度較 快,計算效率較高.文獻[78]具有較高的計算效率和 較少的計算量,能夠同時集成基于點和基于體素的 優點.文獻[79]引入局部特征作為網絡輸入,有助于 充分了解輸入點云的局部結構.文獻[80]能夠有效 地獲取數據的3維幾何信息.但是,將點云裁剪成較 小區域等預處理步驟增加了計算成本.文獻[81]結 合了基于體素與基于 PointNet的優點,不僅保留了 精確的位置,而且編碼了豐富的場景上下文信息.
表4給出 KITTI數據集下不同算法處理跟蹤 任務的性能對比.指標為多目標跟蹤準確度(multiG objecttrackingaccurancy,MOTA)、多 目 標 跟 蹤 精確度(multiGobjecttrackingprecision,MOTP)、 目標大部分被跟蹤到的軌跡占比(mostlytracked,MT)、目 標 大 部 分 跟 丟 的 軌 跡 占 比 (mostlylost, ML)、ID改變總數量(IDswitches,IDS)、跟蹤過程 中被打斷的次數(fragmentation,FRAG)及每秒幀 數(framespersecond,FPS).
表 5 給出在 KITTI數據集下 3 維檢測框(3G dimensionaldetectionbenchmark,3D)、BEV 視圖下 檢測框(birdeyeviewdetectionbenchmark,BEV) 與檢測目標旋轉角度(averageorientationsimilarity detectionbenchmark,AOS)的檢測結果.其中,評估指 標為AP,IoU 閾值為:汽車0.7,行人和自行車0.5.
6 姿態估計
3維姿態估計即確定目標物體的方位指向問題, 在機器人、動作跟蹤和相機定標等領域都有應用.
6.1 位姿估計
解決3維可視化問題的中間步驟一般是確定 3維局部特征,位姿估計是其中最突出的問題. 2017年 Elbaz等人[82]提出的 LORAX 采用了 可以處理不同大小點云的設置,并設計了對大規模 掃描數據有效的算法.2019年 Speciale等人[83]將原 始3維點提升到隨機方向的3維線上,僅存儲3維 線和3維 點 的 關 聯 特 征 描 述 符,這 類 映 射 被 稱 為 3維線云.2019年 Zhang等人[84]從目標點云中自動 提取關鍵點,生成對剛性變換不變的逐點特征,利用 層次式神經網絡預測參考姿態對應的關鍵點坐標. 最后計算出當前姿態與參考姿態之間的相對變換. 2018年 Deng等人[85]提出了 PPFGFoldNet,通 過點對特征(pointpairfeature,PPF)對局部3維幾 何編碼,建立了理論上的旋轉不變性,同時兼顧點的 稀疏性和置換不變性,能很好地處理密度變化. 考慮到成對配準描述符也應該為局部旋轉的計 算提供線索,2019年 Deng等人[86]提出端到端的配 準方法.這種算法在 PPFGFoldNet [85]的工作基礎上, 通過學習位姿變換將3維結構與6自由度運動解耦.該方法基于數據驅動來解決2點云配準問題. 2020年 Kurobe等人[87]提出 CorsNet,連接局 部特征與全局特征,不直接聚集特征,而是回歸點云 之間的對應關系,比傳統方法集成更多信息. 文獻[82]解決了2點云之間點數相差數倍的問 題,它簡單、快速,并且具備擴展性,但在極端情況 下,其結果會出錯.文獻[83]只使用了一個幾何約 束,其準確性與召回率可以與傳統方法媲美,但這種 方法的速度較慢.文獻[84]需要較少的訓練數據,因 此對于沒有紋理的對象,它更快、更精確.文獻[85] 繼承了多個網絡框架的優點,且充分利用點云稀疏 性,能夠快速提取描述符.文獻[86]提高了成對配準 的技術水平且減少了運行時間.文獻[87]結合了局 部與全局特征,從平移和旋轉的角度而言準確性較 高.表6上半部分給出位姿估計算法的核心方法及 優勢對比分析.
6.2 手部姿態估計
點云作為更簡單有效的數據表示方法,其輸入 的點集和輸出的手部姿態共享相同表示域,有利于 學習如何將輸入數據映射到輸出姿態上. 為了直接從點云中估計手部姿態,同樣以手部 3維點云為輸入,2018年 Chen等人[88]提出語義手 部姿 態 回 歸 網 絡 (semantichandposeregression network,SHPRGNet),通過學習輸入數據的變換矩 陣和輸出姿態的逆矩陣應對幾何變換的挑戰.Ge等 人[89]提出的方法輸出反映手部關節的每點貼近度 和方向的 heatGmaps和單位向量場,并利用加權融 合從估計的heatGmaps和單位向量場中推斷出手部 關節位置.2019年 Li等人[90]提出的方法以置換等 變層(permutationequivariantlayer,PEL)為基本 單元,構建了基于 PEL 的殘差網絡模型.且手部姿 態是利用點對姿勢的投票方案來獲得的,這避免了 使用最大池化層提取特征而導致的信息丟失. 現有的手部姿態估計方法大多依賴于訓練集, 而在訓練數據上標注手部3維姿態費時費力.2019 年 Chen等人[91]提出的 SOGHandNet旨在利用未 注記數據以半監督的方式獲得精確的3維手部姿態 估計.通過自組織映射(selfGorganizingmap,SOM) 模擬點的空間分布,然后對單個點和 SOM 節點進 行層次化特征提取,最終生成輸入點云的判別特征. 2018年 Ge等人[92]提出 HandPointNet,提出 的精細化網絡可以進一步挖掘原始點云中更精細的 細節,能夠回歸出更精確的指尖位置.Huang等人[93] 認為學習算法不僅要研究數據的內在相關性,而且 要充分利用手部關節之間的結構相關性及其與輸入 數據的相關性.基于此,2020年他們提出非自回歸手 部transformer(nonGautoregressivehandtransformer, NARHT),以關節特征的形式提供參考手部姿態, 利用其固有的相關性來逼近輸出姿態. 文獻[88]對點云的幾何變換具有魯棒性.文獻 [89]能夠很好地捕捉空間中點云的結構信息.文獻 [90]較利用體素的方法占用內存更少,但其效率不 如基于深度圖像的方法.文獻[91]的特征編碼器能 夠揭示輸入點云的空間分布.文獻[92]能夠捕捉復 雜的手部結構,并精確地回歸出手部姿態的低維表 示.文獻[93]采用新的nonGautoregressive結構學習機制來代替transformer的自回歸分解,在解碼過 程中提供必要的姿態信息.表6下半部分給出手部 姿態估計算法的核心方法及優勢對比分析.
**6.3 算法性能對比分析 **
位姿估計方法中,核心問題是找到旋轉矩陣與 平移矩陣.文獻[83,85G86]都利用了 RANSAC迭代 算法.其中,文獻[83]實現了魯棒、準確的6自由度 姿態估計.文獻[85]是無監督、高精度、6自由度變 換不變的網絡.文獻[86]在挑戰成對配準的真實數 據集方面優于現有技術,具有更好的泛化能力且速 度更快.文獻[82]的 LORAX能夠并行實現,效率較 高,適合實時應用.它對隨機噪聲、密度變化不敏感, 并且其魯棒性僅在極端水平下才會惡化.文獻[84] 使用較少 的 訓 練 圖 像 實 現 了 較 高 的 準 確 性.文 獻 [87]提出的 CorsNet回歸的是對應關系,而不是直 接姿態變化. 手部姿態估計方法中,文獻[88]可獲得更具代 表性的特征.SHPRGNet可以在不改變網絡結構的前 提下擴展到多視點的手部姿態估計,這需要將多視 點的深度數據融合到點云上.然而,融合后的點云也 會受到噪聲的影響.文獻[89]可以更好地利用深度 圖像中的3維空間信息,捕捉3維點云的局部結構, 并且能夠集中學習手部點云的有效特征,從而進行 精確的3維手部姿態估計.文獻[90]與基于體素化的 方法相比,需要更少的內存.但與基于深度圖像的方 法相比,需要更多的計算時間和內存.文獻[91]使用 半監督的方式對網絡進行訓練,其性能可與全監督 的方法相媲美.文獻[92]有效利用深度圖中的信息, 以較少的網絡參數捕獲更多的手部細節及結構,并 準確地估計其3維姿態.文獻[93]首次結合結構化 手部姿勢估計與基于transformer的自然語言處理 領域的轉換框架.引入參考手部姿勢為輸出關節提 供等效依賴關系.文獻[89]的模型大小為17.2MB.其 中11.1MB用于點對點回歸網絡,它是分層PointNet; 6.1MB用于附加的回歸模塊,它由3個全連層組成. 文獻[90]有2種版本,回歸版本為38MB,檢測版本 為44MB.文獻[91]中,手部特征編碼器(handfeature encoder,HFE)、手部特征解碼器(handfeaturedecoder, HFD)和 手 部 特 征 估 計 器 (handposeestimator, HPE)的大小分別為8.1MB,74MB,8.5MB.由于只 在測試階段使用 HFE 和 HPE,所以其網絡模型大 小為16.6MB.文獻[92]的模型大小為10.3MB,其 中回歸網絡為9.2MB,指尖精細網絡為1.1MB.不 同方法在3個數據集上的性能對比分析如圖1所示:
7 總 結
本文總結了近年來多種點云處理任務的方法, 特別側重于基于深度學習的工作,為讀者提供了最 新的研究進展. 大多數關于點云的綜述類文章都集中于討論點 云分類分割處理任務.如文獻[94G95]只討論了語義 分割任務;文獻[96G97]增加了目標檢測和分類任務 的研究分析.其中,文獻[97]只用1節內容簡要介紹 分類、分割及目標檢測三大任務,更關注于處理點云數據的深度學習方法,而不依據處理任務對其進行 劃分討論.本文則考慮多種點云處理任務,包括模型 重建與變換、分類分割、檢測跟蹤與姿態估計等.在 模型分割分類中,由于大部分算法有用于實現點云 分類與分割的功能,不同于文獻[96G97]將分類與分 割作為2種類別分開討論,本文將它們統一考慮,并 根據基于體素、基于視圖與基于點三大主流方法對 其劃分并展開討論,明確給出各算法可處理的任務. 目前,已經有大量學者對點云處理任務進行研 究并依據任務的不同提出多種方法,但這些方法或 多或少都有一定的局限性.本文基于這些算法的不 足總結點云處理任務所面臨的挑戰與發展趨勢.
1) 數據方面
大部分方法只在現有的數據集上進行實驗,而 對于新獲取的數據并不適用.這很大程度上是由于 新獲取的數據無法實現多角度、全方位的完美匹配, 而且不同平臺獲得的數據難以融合,無法達到統一 的標準.對于融合后的點云,具有魯棒性和區分性特 征的提取有一定的難度,未來的研究可以從特征提 取方面入手. 數據集尺度不均衡是由于真實復雜場景中檢測 及識別小目標較為困難.未來研究工作可人工生成 小目標樣本,增大數據集中小目標所占比例,進而在 網絡訓練中提高其識別檢測能力. 數據質量對網絡(如transformers)的泛化性和 魯棒性的影響較大[2].點云的幾何位置存在誤差時, 可以通過已知控制點對其進行幾何矯正.當使用激 光掃描獲取數據時,除了考慮掃描距離和入射角度 的問題,還可以進行強度矯正,通過不同方法改善點 云的質量. 隨著3維掃描技術的發展,大規模點云的獲取 已不是難點,挑戰性在于如何對其進行處理.此外, 算法精度依賴大批量的數據集[98],目前還沒有比較 好的解決手段.
2) 性質方面
點云是3維空間內點的集合,它沒有提供鄰域 信息,故而大部分方法需要依據不同的鄰域查詢方 法確定點的鄰域,這將導致算法增加額外的計算成 本.點云不能顯式地表達目標結構以及空間拓撲關 系.此外,當目標被遮擋或重疊時,不能依據幾何關 系確定拓撲結構,給后續處理任務帶來一定難度. 針對點云的不規則性及無序性,將其應用于深 度神經網絡中進行相關任務的處理需要做數據形式 的轉換,如體素化[40].但這些轉換操作不但增加了 計算量,而且很可能在轉換的過程中丟失信息,所以 直接的點云處理方法是重要的研究方向.
3)網絡結構方面
① 基于快速和輕量級的模型.為了達到理想效 果,目前的算法傾向于使用含大量參數的較大的神 經網絡結構,導致計算復雜度高、內存占用大、速度 慢等問題.因此,設計快速且輕量級的網絡架構具有 較大的應用價值[99G100]. ② 網絡結構的改良.優化網絡結構可使同一網 絡處理多種任務,能夠很大程度地降低復雜度[2].還 可以考慮與其他網絡結構結合[45]來實現優化目的.
4) 應用方面
室外場景信息較多、結構復雜,所以目前大多數 方法著重于相對簡單的室內場景的分析.然而自動 駕駛[12]等技術的研究無法在室內場景中完成,所以 未來的研究方向可側重于構建適用于室外場景的網 絡模型. 現有分割方法大都用于單個物體的部件分割[1] 或場景中同類對象的語義分割[25].而真實場景中目 標類別眾多、結構復雜,對同類對象的不同個體分割 是3維形態檢測(文物、古建監測)的重要手段. 現有的大多數算法主要利用靜態場景中獲取的 數據,在地震檢測等實際應用中,設計能夠應對變化 場景的算法具有重要應用價值.利用時序上下文信 息可作為其研究方向[99]. 計算機視覺中的有效性通常與效率相關,它決 定模型是否可用于實際應用中[100],因此在二者之 間實現更好的平衡是未來研究中有意義的課題.
【導讀】如何有效管控新冠,疫情預測是個關鍵的問題。美國佐治亞理工**“以數據為中心”的解決方案,這些解決方案顯示出了利用非傳統數據源以及人工智能和機器學習方面的最新創新來提高我們的預測能力的潛力。這項綜述深入研究了各種數據驅動的方法和實際進展,并介紹了一個概念框架來闡述。**
2019冠狀病毒病(COVID-19,即2019冠狀病毒病)疫情大流行使得從公共衛生到整個經濟的多個領域的決策者都必須進行疫情預測。雖然預測疫情發展在概念上常常與天氣預報類似,但它有一些關鍵的區別,仍然是一項艱巨的任務。疾病的傳播受到多種混雜因素的影響,包括人類行為、病原體動態、天氣和環境條件。越來越多的豐富的數據來源捕捉了以前無法觀察到的方面,也得益于政府公共衛生和資助機構的舉措,如預測挑戰和大規模團隊科學舉措,研究興趣得到了激發。特別是,這導致了一系列“以數據為中心”的解決方案,這些解決方案顯示出了利用非傳統數據源以及人工智能和機器學習方面的最新創新來提高我們的預測能力的潛力。這項綜述深入研究了各種數據驅動的方法和實際進展,并介紹了一個概念框架來闡述。首先,我們列舉了大量與流行病預測相關的流行病學數據集和新穎的數據流,捕捉了各種因素,如癥狀在線調查、零售和商業、流動性、基因組數據等。接下來,我們討論了方法和建模范式,重點關注最近的數據驅動的統計方法和基于深度學習的方法,以及將機械模型的領域知識與統計方法的有效性和靈活性相結合的新型混合模型。我們還討論了這些預測系統在實際應用中出現的經驗和挑戰,包括根據預測做出決策。最后,我們強調了在預測過程中發現的一些挑戰和開放性問題。
圖1: 以數據為中心的流行病預測流程概述。(A)在建模之前,我們需要準備數據,包括收集和探索性分析,以處理數據質量問題。在這個階段,我們還確定了流行病的目標和任務。(B)模型的制定考慮到流行病傳播的多個方面(例如,多尺度動力學)和預測的利用(例如,不確定性量化)。驗證和模型選擇需要使用定量指標來評估預測的可操作性和可靠性。(C)實時預測有多種用途,包括儀表板、集成組成和其他公共衛生舉措。這些活動為資源分配、個人風險評估和公眾溝通提供決策平臺。
2019冠狀病毒病大流行對人類生活、經濟發展和整個社會造成的毀滅性影響,突顯了我們在重大傳染病和流行病面前的脆弱性。雖然流行病預測科學在許多方面仍處于初級階段,但當前的流行病以及之前的流行病(如H1N1和埃博拉)已經顯示出其至關重要的意義。預防和應對此類流行病需要可操作的流行病預測,例如設計有效的醫療文件策略和最優的供應鏈決策。然而,產生這樣的預測有多個跨學科的挑戰。這些研究包括了解控制病原體進化的生物過程、免疫反應和耐藥性,以及異質性群體及其在群落內和跨群落之間的相互作用的種群水平模型。
在過去幾年政府公共衛生和資助機構的幾項舉措的基礎上,人們對以數據為中心的流行病預測解決方案越來越感興趣[197]。例如,2013年,美國疾病控制和預防中心(CDC)引入了“FluSight”挑戰[40],這不僅幫助提高了流感預測能力和公共衛生決策,還幫助發展了這一主題的研究人員社區。隨后,由歐洲疾病預防控制中心(CDC)[49,152]、IARPA[2]和拉丁美洲PAHO[210]等全球機構領導的針對埃博拉[338]、登革熱[158]和COVID-19[77]的類似行動也開始了。這些預測活動為研究人員提供了一個前所未有的機會,來觀察當前預測科學的成功和差距。同樣,國家科學基金會(NSF)、國家衛生研究院(NIH)和美國陸軍研究等機構最近舉行了一系列與大流行預測相關的座談會[117]和籌資呼吁,這為這一主題提供了急需的動力。美國疾病控制與預防中心于2021年建立了第一個預測和爆發分析中心,這也使這種興趣達到了頂峰[104]。我們的調研深入研究了這種數據驅動的計算方法,這些方法在利用數據科學和人工智能的進步以及從生物到行為的新信息源的結合方面顯示出了巨大的潛力。事實上,可靠來源的數據越來越多(其中一些是公開可獲取的),而COVID-19大流行只會加速這一趨勢。這包括更豐富的流行病學數據集和新的數字數據流,如流動性[10,349]、在線調研[75,270]和廢水樣本[247]。在這些因素的推動下,在過去兩年中,我們還看到了一些使用機器學習和深度學習技術的技術創新,這些技術為流行病預測科學打開了新的視野。
這項調研是在一個適當的時間包含最近的方法和實踐進展,以幫助和使更廣泛的計算和數據/ML/AI社區參與這一領域。我們可以將以數據為中心的計算流行病預測管道概念化,如圖1所示。我們對這些組件進行了概述,并將它們大致分為三種:數據處理、模型訓練和驗證,以及利用和決策。廣義上說,流行病預測的目的是提供關于以多種指標(例如每周到醫院就診的病人人數)衡量的流行病傳播軌跡的信息。我們的渠道從來自不同來源和模式的數據開始,這些數據捕捉了流行病傳播的多個方面。在準備數據并在空間和時間尺度上確定具體目標和解決辦法之后,考慮到疾病傳播的特征(例如,多尺度動力學)、數據考慮(例如,噪聲數據)以及公共衛生官員和公眾的要求(例如,不確定性量化),進行建模訓練和部署。我們的調研收集了所有這些因素,并研究了每一個方面的最近發展和當前的重要趨勢。在表1中,我們總結并分類了我們綜述的方法論工作。我們強調每種建模范式使用的數據類型、它們所用于的任務以及獨特的建模特性。
通常,早期的相關調查集中在傳統的流行病學方法上,很少強調以數據為中心的觀點,通常將調查范圍限定在一種疾病上[73,229]。相比之下,雖然沒有調研是完全詳盡的,但我們提供了一個跨越多種建模方法的更廣泛、更全面的視角。最近有一些調研討論了AI/ML技術在流行病引起的各種醫療挑戰中的使用/應用[65,310],這些調研主要集中在醫學成像等臨床問題上。相反,我們專注于流行病學預測,并提供了一個更廣泛的框架來理解從傳統機械方法到基于統計機器學習模型的建模范式。事實上,在這里,我們比以前的工作更深入,專注于范式,旨在通過利用兩種方法(所謂的混合方法)的優勢,彌合流行病學和ML社區之間的差距。我們還提供了一個全面的討論與這些預測系統的實時部署相關的挑戰和解決方案。我們在管道的多個階段對它們進行研究,包括數據收集、建模、評估和決策。最后,對疫情預測領域的開放問題和研究方向進行了全面討論。
圖2: 綜述組織。第2節全面介紹了用于更好地為流行病預測提供信息的數據來源。在第3節中,我們描述了建模之前需要的其他元素,如預測目標和任務,以及通用的評估指標(第3.4節)。然后,我們將在第5、6和7節中討論預測方法。在第8.2節中,我們回顧了近期在銜接預測和決策方面的工作。在第8節中,我們調研了利用這些模型的計劃和經驗,并討論了實時部署的挑戰。最后,在第9節中,我們討論了主要的挑戰和重要的開放研究問題的所有主題調查。
**該綜述分為7個部分,**如圖2所示。在第2節中,我們討論用于流行病預測的傳統和較新的數據來源。在第3節中,我們描述了預測設置,包括定義預測目標和具體任務。然后我們討論常用的定量評估指標。然后,我們轉向預測建模技術(第4節),我們將其分為機械的、統計的和混合的,并進一步根據它們的關鍵建模思想對它們進行分類。對于每一種建模技術,我們都將對一些突出的方法進行深入的回顧,從研究良好的機械模型(第5節)開始,然后轉向統計模型(第6節),統計模型更靈活地利用大量多樣的數據來源,從過去的數據中學習復雜的模式,通常提供更準確的預測。在這里,我們密切關注深度學習創新,這是一個非常活躍的研究領域,有多個最新的例子。在第7節中,我們將描述最近引起人們興趣的混合模型,并將可解釋的、基于理論的機械模型的長期建模能力與更靈活、準確和數據驅動的統計模型結合起來。在第8節中,我們調查了最近的“戰壕”行動和利用這些模型進行流行病和大流行預測的經驗,討論了現實部署的挑戰,包括根據預測做出決策。最后,在第9節中,我們討論了與流行病預測管道的各個方面相關的主要挑戰和重要的開放研究問題。
隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。
//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a
引言
隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。
在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。
根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。
具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。
FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。
在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。
在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。
這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。
目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。
近年來,人們對學習圖結構數據表示的興趣大增。基于標記數據的可用性,圖表示學習方法一般分為三大類。第一種是網絡嵌入(如淺層圖嵌入或圖自動編碼器),它側重于學習關系結構的無監督表示。第二種是圖正則化神經網絡,它利用圖來增加半監督學習的正則化目標的神經網絡損失。第三種是圖神經網絡,目的是學習具有任意結構的離散拓撲上的可微函數。然而,盡管這些領域很受歡迎,但在統一這三種范式方面的工作卻少得驚人。在這里,我們的目標是彌合圖神經網絡、網絡嵌入和圖正則化模型之間的差距。我們提出了圖結構數據表示學習方法的一個綜合分類,旨在統一幾個不同的工作主體。具體來說,我們提出了一個圖編碼解碼器模型(GRAPHEDM),它將目前流行的圖半監督學習算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和圖表示的非監督學習(如DeepWalk、node2vec等)歸納為一個統一的方法。為了說明這種方法的一般性,我們將30多個現有方法放入這個框架中。我們相信,這種統一的觀點既為理解這些方法背后的直覺提供了堅實的基礎,也使該領域的未來研究成為可能。
概述
學習復雜結構化數據的表示是一項具有挑戰性的任務。在過去的十年中,針對特定類型的結構化數據開發了許多成功的模型,包括定義在離散歐幾里德域上的數據。例如,序列數據,如文本或視頻,可以通過遞歸神經網絡建模,它可以捕捉序列信息,產生高效的表示,如機器翻譯和語音識別任務。還有卷積神經網絡(convolutional neural networks, CNNs),它根據移位不變性等結構先驗參數化神經網絡,在圖像分類或語音識別等模式識別任務中取得了前所未有的表現。這些主要的成功僅限于具有簡單關系結構的特定類型的數據(例如,順序數據或遵循規則模式的數據)。
在許多設置中,數據幾乎不是規則的: 通常會出現復雜的關系結構,從該結構中提取信息是理解對象之間如何交互的關鍵。圖是一種通用的數據結構,它可以表示復雜的關系數據(由節點和邊組成),并出現在多個領域,如社交網絡、計算化學[41]、生物學[105]、推薦系統[64]、半監督學習[39]等。對于圖結構的數據來說,將CNNs泛化為圖并非易事,定義具有強結構先驗的網絡是一項挑戰,因為結構可以是任意的,并且可以在不同的圖甚至同一圖中的不同節點之間發生顯著變化。特別是,像卷積這樣的操作不能直接應用于不規則的圖域。例如,在圖像中,每個像素具有相同的鄰域結構,允許在圖像中的多個位置應用相同的過濾器權重。然而,在圖中,我們不能定義節點的順序,因為每個節點可能具有不同的鄰域結構(圖1)。此外,歐幾里德卷積強烈依賴于幾何先驗(如移位不變性),這些先驗不能推廣到非歐幾里德域(如平移可能甚至不能在非歐幾里德域上定義)。
這些挑戰導致了幾何深度學習(GDL)研究的發展,旨在將深度學習技術應用于非歐幾里德數據。特別是,考慮到圖在現實世界應用中的廣泛流行,人們對將機器學習方法應用于圖結構數據的興趣激增。其中,圖表示學習(GRL)方法旨在學習圖結構數據的低維連續向量表示,也稱為嵌入。
廣義上講,GRL可以分為兩類學習問題,非監督GRL和監督(或半監督)GRL。第一個系列的目標是學習保持輸入圖結構的低維歐幾里德表示。第二系列也學習低維歐幾里德表示,但為一個特定的下游預測任務,如節點或圖分類。與非監督設置不同,在非監督設置中輸入通常是圖結構,監督設置中的輸入通常由圖上定義的不同信號組成,通常稱為節點特征。此外,底層的離散圖域可以是固定的,這是直推學習設置(例如,預測一個大型社交網絡中的用戶屬性),但也可以在歸納性學習設置中發生變化(例如,預測分子屬性,其中每個分子都是一個圖)。最后,請注意,雖然大多數有監督和無監督的方法學習歐幾里德向量空間中的表示,最近有興趣的非歐幾里德表示學習,其目的是學習非歐幾里德嵌入空間,如雙曲空間或球面空間。這項工作的主要動機是使用一個連續的嵌入空間,它類似于它試圖嵌入的輸入數據的底層離散結構(例如,雙曲空間是樹的連續版本[99])。
鑒于圖表示學習領域的發展速度令人印象深刻,我們認為在一個統一的、可理解的框架中總結和描述所有方法是很重要的。本次綜述的目的是為圖結構數據的表示學習方法提供一個統一的視圖,以便更好地理解在深度學習模型中利用圖結構的不同方法。
目前已有大量的圖表示學習綜述。首先,有一些研究覆蓋了淺層網絡嵌入和自動編碼技術,我們參考[18,24,46,51,122]這些方法的詳細概述。其次,Bronstein等人的[15]也給出了非歐幾里德數據(如圖或流形)的深度學習模型的廣泛概述。第三,最近的一些研究[8,116,124,126]涵蓋了將深度學習應用到圖數據的方法,包括圖數據神經網絡。這些調查大多集中在圖形表示學習的一個特定子領域,而沒有在每個子領域之間建立聯系。
在這項工作中,我們擴展了Hamilton等人提出的編碼-解碼器框架,并介紹了一個通用的框架,圖編碼解碼器模型(GRAPHEDM),它允許我們將現有的工作分為四大類: (i)淺嵌入方法,(ii)自動編碼方法,(iii) 圖正則化方法,和(iv) 圖神經網絡(GNNs)。此外,我們還介紹了一個圖卷積框架(GCF),專門用于描述基于卷積的GNN,該框架在廣泛的應用中實現了最先進的性能。這使我們能夠分析和比較各種GNN,從在Graph Fourier域中操作的方法到將self-attention作為鄰域聚合函數的方法[111]。我們希望這種近期工作的統一形式將幫助讀者深入了解圖的各種學習方法,從而推斷出相似性、差異性,并指出潛在的擴展和限制。盡管如此,我們對前幾次綜述的貢獻有三個方面
我們介紹了一個通用的框架,即GRAPHEDM,來描述一系列廣泛的有監督和無監督的方法,這些方法對圖形結構數據進行操作,即淺層嵌入方法、圖形正則化方法、圖形自動編碼方法和圖形神經網絡。
我們的綜述是第一次嘗試從同一角度統一和查看這些不同的工作線,我們提供了一個通用分類(圖3)來理解這些方法之間的差異和相似之處。特別是,這種分類封裝了30多個現有的GRL方法。在一個全面的分類中描述這些方法,可以讓我們了解這些方法究竟有何不同。
我們為GRL發布了一個開源庫,其中包括最先進的GRL方法和重要的圖形應用程序,包括節點分類和鏈接預測。我們的實現可以在//github.com/google/gcnn-survey-paper上找到。
摘要: 隨著智能時代和大數據時代的到來,各種復雜異構數據不斷涌現,成為數據驅動的人工智能方法、機器學習模型的基礎。復雜異構數據的表征直接關系著后續模型的學習性能,因此如何有效地表征復雜異構數據成為機器學習的一個重要研究領域。文中首先介紹了數據表征的多種類型,并提出了現有數據表征方法面臨的挑戰;其次,根據數據類型將數據劃分成單一類型數據和復合類型數據,針對單一類型數據,分別介紹了4種典型數據的表征學習發展現狀和代表算法,包含離散數據、網絡數據、文本數據和圖像數據;然后,詳細介紹了4種由多個單一數據或數據源復合而成的復雜數據,包含了離散特征與連續特征混合的結構化數據、屬性數據與復雜網絡復合的屬性網絡數據、來自不同領域的跨領域數據和由多種數據類型復合的多模態數據,分別介紹了基于上述復雜數據的表征學習現狀以及最新的表征學習模型;最后,對復雜異構數據表征學習的發展趨勢進行了探討。