雷達目標檢測技術能夠判斷回波信號中目標存在與否,并提取目標位置信息。隨著雷達圖像 質量的提升和人工智能技術的發展,利用雷達圖像數據通過深度學習方法實現雷達目標檢測功能成為一種 新的思路。該文首先從雷達目標檢測原理入手,對傳統和現代兩類檢測方法進行了梳理,分析了各類檢測 方法的特點及適用性。然后針對現代雷達回波信號復雜性增大導致傳統檢測方法統計建模難的問題和機 器學習方法特征提取難度大的問題,對深度學習目標檢測方法進行了歸納,主要從深度學習算法、雷達回波 圖像數據類型和應用場景三個方面進行總結。最后分析了深度學習在雷達目標檢測應用中面臨的挑戰,展 望了未來的發展趨勢。目標檢測作為雷達的基本功能之一,是雷達 目標跟蹤和目標識別的前提,其檢測性能的好壞 決定了雷達探測能力的高低。雷達接收的回波 中,既有目標,也有雜波和噪聲等干擾信號。雷達 目標檢測技術的本質是在噪聲和雜波條件下對目 標存在與否的判決問題和目標的定位問題。目標 定位問題可以通過測量回波信號的延遲時間和雷 達天線的方向性予以解決。判決問題是當前雷達 目標檢測面臨的主要挑戰。 早期的雷達大多采用非相參體制,沒有專門 的信號處理設備,目標檢測功能是在雷達顯示器 上,通過人工觀測回波幅度的高低來實現。雖然 人工檢測方法在目前許多雷達中仍有使用,但人 工觀測無法適應長時間的工作和大批量目標的處 理。因此,需要雷達具備目標自動檢測功能。雷達目標自動檢測技術根據檢測門限和判決準則判 斷是否存在目標。雷達目標自動檢測的理論基礎 是統計檢測理論。實際上,雷達回波信號的統計 特性無法預知,導致檢測門限難以確定。檢測門 限過高會造成漏警,檢測門限過低會導致虛警。 為了解 決 這 個 問 題,恒 虛 警 率 (ConstantFalse AlarmRate,CFAR)檢測技術[1]應運而生。但傳 統的CFAR檢測技術主要通過回波能量實現目標 檢測,由于可用于參考的單元環境有限,易受到資 源的限制,對于微弱目標易造成漏警[2]。 近年來,深度學習技術在光學圖像處理領域 的應用發展迅速,尤其在目標檢測[3]、圖像分類[4] 和圖像分割[5]等方面成果顯著。由于雷達技術的 進步,雷達分辨率逐漸提升,不同形式的雷達圖像 數據的質量越來越好。雖然雷達圖像信息量比光 學圖像嚴重不足,在成像機理、目標特性、分辨率 等方面存在差異,但深度學習強大的圖像特征自 動提取能力,為雷達目標檢測技術提供了一種新 的思路。在圖像層面上,可將雷達目標檢測視為 一項計算機視覺任務,在圖像中將目標與背景進 行區分,并對每個目標進行精準定位和分類標簽 預測,從而實現雷達目標檢測功能。
時間序列一般是指對某種事物發展變化過程進行觀測并按照一定頻率采集得出的一組隨機變量。時間序列預測的任務就是從眾多數據中挖掘出其蘊含的核心規律并且依據已知的因素對未來的數據做出準確的估計。由于大量物聯網數據采集設備的接入、多維數據的爆炸增長和對預測精度的要求愈發苛刻,導致經典的參數模型以及傳統機器學習算法難以滿足預測任務的高效率和高精度需求。**近年來,以卷積神經網絡、循環神經網絡和 Transformer 模型為代表的深度學習算法在時間序列預測任務中取得了豐碩的成果。**為進一步促進時間序列預測技術的發展,綜述了時間序列數據的常見特性、數據集和模型的評價指標,并以時間和算法架構為研究主線,實驗對比分析了各預測算法的特點、優勢和局限;著重介紹對比了多個基于 Transformer 模型的時間序列預測方法;最后結合深度學習應用于時間序列預測任務存在的問題與挑戰對未來該方向的研究趨勢進行了展望。
//fcst.ceaj.org/CN/10.3778/j.issn.1673-9418.2211108
隨著社會中物聯網傳感器的廣泛接入,幾乎所 有科學領域都在以不可估量的速度產生大量的時 間序列數據。傳統參數模型和機器學習算法已難以 高效準確地處理時間序列數據,因此采用深度學習 算法從時間序列中挖掘有用信息已成為眾多學者 關注的焦點。 分類聚類[1-4]、異常檢測[5-7]、事件預測[8-10]、時 間序列預測[11-14]是時間序列數據的四個重點研究方 向。已有的時序預測綜述文章,概括了經典的參數模型以及傳統機器學習算法的相關內容,但缺少對Transformer 類算法最新成果的介紹和在各行業常用數據集的實驗對比分析。余下內容將以深度學習的視角重點分析闡述有關時間序列預測方向的內容,并在多種 GPU 環境下對不同數據集采用多個評價指標進行實驗對比分析。基于深度學習的時間序列預測算法發展脈絡如圖1 所示:
時間序列預測是時間序列任務中最常見和最 重要的應用,通過挖掘時間序列潛在規律,去進行 類推或者延展用于解決在現實生活中面臨的諸多 問題,包括噪聲消除[15]、股票行情分析[16-17]、電力 負荷預測[18]、交通路況預測[19-20]、流感疫情預警[21] 等。 當時間序列預測任務提供的原始數據僅為目 標數據的歷史數據時,為單變量時間序列預測,當 提供的原始數據包含多種隨機變量時,為多變量時 間序列預測。 時間序列預測任務根據所預測的時間跨度長短,可劃分為四類,具體如圖2 所示:
文章余下部分主要介紹基于深度學習的時間 序列預測算法研究,其中第二節介紹時間序列數據 特性,第三節介紹了時間序列預測任務的常用數據 集和評價指標,第四節介紹了深度學習的研究進展 及在時間序列預測領域的應用,第五節展望未來深 度學習在時序預測領域的研究方向。
**1 時間序列數據的特性 **
時間序列預測是對前 t -1個時刻的歷史數據學 習分析,來估計出指定未來時間段的數據值。時間 序列數據由于其各變量間固有的潛在聯系,常表現 出一種或多種特性,為對時序預測有更全面的認 識,本節將對這些常見特性進行詳細介紹。 **(1)海量性:**隨著物聯網傳感器設備的升級,測 量頻率的提高,測量維度的增加,時間序列數據爆 炸性增長,高維度的時間序列數據占據主流[22]。在 數據集層面進行有效的預處理工作,是高質量完成 時間序列預測任務的關鍵。 **(2)趨勢性:**當前時刻數據往往與前一段時刻數 據有著密切的聯系,該特點暗示了時間序列數據受 其他因素影響通常有一定的變化規律,時間序列可能在長時間里展現出一種平穩上升或平穩下降或保持水平的趨勢。 **(3)周期性:**時間序列中數據受外界因素影響,在長時間內呈現出起起落落的交替變化[23],例如,漲潮退潮,一周內潮水高度不符合趨勢性變化,并不是朝著某一方向的近似直線的平穩運動。 **(4)波動性:**隨著長時間的推移和外部多因素影響,時間序列的方差和均值也可能會發生系統的變化,在一定程度上影響時間序列預測的準確度。 **(5)平穩性:**時間序列數據個別為隨機變動,在不同時間上呈統計規律,在方差與均值上保持相對穩定。 **(6)對稱性:**若某段時間周期內,原始的時間序列和其反轉時間序列的距離控制在一定的閾值以內,曲線基本對齊,即認定該段時間序列具有對稱性[24],例如港口大型運輸車往復作業,起重機抬臂和降臂工作等。
2. 基于深度學習的時間序列預測方法
基于深度學習的時間序列預測方法 最初預測任務數據量小,淺層神經網絡訓練速 度快,但隨著數據量的增加和準確度要求的不斷提 高,淺層神經網絡已經遠不能滿足任務需求。近年 來,深度學習引起了各領域研究者的廣泛關注,深 度學習方法在時間序列預測任務中與傳統算法相 比表現出了更強勁的性能,得到了長遠發展和普遍 應用。 深度神經網絡與淺層神經網絡相比有更好的 線性和非線性特征提取能力,能夠挖掘出淺層神經 網絡容易忽略的規律,最終滿足高精度的預測任務 要求[30]。本節余下部分將介紹可用于解決時間序列 預測問題的三大類深度學習模型。 **3.1 卷積神經網絡 **
3.1.1 卷積神經網絡 卷積神經網絡(Convolutional Neural Networks, CNN)是一類以卷積和池化操作為核心的深層前饋 神經網絡,在設計之初,其用于解決計算機視覺領 域的圖片識別問題[31-32]。 卷積神經網絡做時間序列預測的原理是利用 卷積核的能力,可以感受歷史數據中一段時間的變 化情況,根據這段歷史數據的變化情況做出預測。 池化操作可以保留關鍵信息,減少信息的冗余,卷 積神經網絡可以有效減少以往算法提取特征的人力資源消耗,同時避免了人為誤差的產生。卷積神經網絡所需的樣本輸入量巨大,多用于預測具備空間特性的數據集,其網絡結構一般有五層,具體結構如圖 4 所示:
從表 1 中可以看出模型在樣本量巨大的多變量 數據集上處理短期預測任務時,Kmeans-CNN 采用 先聚類分類再由模型訓練的思路取得了比較理想 的預測效果,后續也有不少研究人員在解決時序預 測問題時進行類似處理。引入了擴展卷積和殘差連 接等架構元素的 TCN 能保有更長的有效歷史信息, 同樣達到了不錯的預測效果,而且其網絡較為簡單 清晰。 目前,CNNs 的預測精度與循環神經網絡等其 他網絡結構相比已不占優勢,難以單獨處理步長較 長的時序預測問題,但常作為一個功能強大的模塊 接入其他先進算法模型中用于預測任務。
3.2 循環神經網絡RNNs 循環神經網絡類算法自提出就一直是解決時間序列預測任務的重要方法,常常作為一個模塊嵌入到其他算法中來獲得更好的預測效果,在2017 年以前一直作為解決時間序列數據預測問題的主力模型,得到廣泛應用。主要循環神經網絡類算法實驗性能對比和總體分析如表3 和表4所示:
表 3 可以看出,GRU 和 LSTM 在性能上相當, 但都受限于只能從一個方向上學習訓練,在預測精 度 上 要 低 于 可 以 從 兩 個 方 向 上 獲 取 信 息 的 Bi-LSTM 模型。Bi-LSTM 在解決短期時序預測任務 時的優勢包括所需的樣本數量少,擬合速度快,預 測精度高,如今依然有眾多學者研究使用。 循環神經網絡類方法可以捕獲并利用長期和 短期的時間依賴關系來進行預測,但在長序列時間 序列預測任務中表現不好,并且 RNNS 多為串行計 算,導致訓練過程中對內存的消耗極大,而且梯度 消失和梯度爆炸問題始終沒有得到徹底解決。
**3.3 Transformer 類模型 **介紹 Transformer 模型之前先要介紹一下注意力機 制,人類眼睛的視角廣闊,但局限于視覺資源,往往重 點關注視線中的特定部分,注意力機制就是以此為靈感 提出,重點關注數據中的更有價值的部分[48-49]。 Transformer 所采用的自注意力機制所解決的 情況是:神經網絡的輸入是很多大小不一的向量, 不同時刻的向量往往存在著某種潛在聯系,實際訓 練的時候無法充分捕捉輸入之間的潛在聯系而導致模型訓練結果較差。
Transformer 類算法如今廣泛用于人工智能領域的各項任務,在Transformer 基礎上構建模型可以打破以往算法的能力瓶頸,可以同時具備良好的捕捉短期和長期依賴的能力,有效解決長序列預測難題,并且可以并行處理。上述算法性能對比和總體分析如表 6 和表 7 所示:
從表 6可以看出 Transformer類算法為避免過擬 合需要大量數據來進行自身的訓練,在中期和長期 預測任務上都有著不錯的性能表現。 目前,部分 Transformer 類算法在保留編碼器- 解碼器架構的同時,開始重新審視注意力機制的作 用,因為在錯綜復雜的長序列預測任務中自注意力 機制可能不可靠。Informer 等在降低復雜度的同時 選擇犧牲了一部分的有效信息,Conformer 使用局 部注意力與全局的 GRU 進行功能互補。 Pyraformer 在相對較低的配置下依然表現出不 錯的性能,一定程度上緩解了 Transformer 類算法設 備要求高的問題,適合在欠發達地區普及使用。
3.4 總結
文章在對時間序列數據、經典時間序列參數模 型和算法評價指標簡單介紹后,系統總結了基于深 度 學 習 的 時 間 序 列 預 測 算 法 , 其 中 以 基 于 Transformer 的模型為主,深入分析了 Transformer 類算法的網絡架構優缺點,在注意力機制被提出以 來,時間序列預測任務發展進入快車道取得了令人 矚目的成果。下面列出了時間序列預測領域的重點 問題和進一步的研究方向,以促進時間序列預測算 法的研究和完善。 **(1) 采用隨機自然啟發優化算法優化深度學習 模型的多個超參數。**深度學習算法愈發復雜,需要 處理的超參數越來越多,超參數的選擇往往決定著 算法能不能突破局部最優陷阱達到全局最優。隨機 自然啟發優化算法靈感來自群體智能的各種現象、 為動物的自然行為、物理定律以及進化定律。優化 算法首先基于問題的約束隨機生成一定數量的可解解,然后利用算法的各階段重復尋找全局最優解,在限制范圍內尋找最優的超參數以提升模型預測能力。因此,采用隨機自然啟發優化算法用于模型最優超參數尋找,將成為未來研究熱點之一。 **(2) 研究適合時間間隔不規則的小數據集的網絡架構。**現有 Transformer 模型架構復雜,參數多,在周期性好的數據集上表現出優越的性能,但在數據量小,時間間隔不規則的數據集中表現不理想。Transformer 類模型為在小數據上的過擬合問題值得進一步思考和解決。處理時間間隔不規則的數據集時,在模型架構中引入重采樣、插值、濾波或其他方法是處理時間序列數據和任務特征的新思路,會是未來一個新的研究方向。 **(3) 引 入 圖 神經網絡(graph neural network,GNN)用于多變量時序預測建模。**由于多變量時序預測任務的潛在變量相關性十分復雜,且在現實世界中的數據相關性是變化的,導致準確多變量預測具有挑戰性。最近不少學者采用時間多項式圖神經網絡將動態變量相關性表示為動態矩陣多項式,可以更好地理解時空動態和潛在的偶然性,在短期和長期多變量時序預測上都達到了先進的水平。因此GNN 對多變量時序預測的強大建模能力值得進一步研究。 **(4) 研究同時支持精確形狀和時間動態的可微損失函數作為評價指標。**在時間序列預測領域中已經使用了許多測量度量,并且基于歐氏距離的點誤差損失函數,例如MSE,被廣泛用于處理時間序列數據,但是其逐點映射,對形狀和時間延后失真不 具有不變性。損失函數不僅要最小化預測和目標時 間序列之間的差距還應該考慮整個輸出序列和基本 事實之間的相關性,從而幫助模型生成更及時、更 穩健和更準確的預測,而不是僅僅逐點優化模型。 如果損失函數能在曲線形狀和時間感知上對模型進 行評價能更有利于訓練出高效準確的時間序列預測 模型。
數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。
1. 引言
數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。
深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。
最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。
2 任務和數據集
在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。
2.1 數學應用題解決
幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。
2.2 定理證明
自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。
2.3 幾何解題
自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。
2.4 數學問答
數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。
3 用于數學推理的神經網絡
3.1 數學的Seq2Seq網絡
序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。
3.2基于圖的數學網絡
Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡
注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。
4 預訓練的數學推理語言模型
預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。
**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。
5 .基于上下文的數學推理學習
大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。
結論:
本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新
時間序列異常檢測在廣泛的研究領域和應用中有著廣泛的應用,包括制造業和醫療健康。異常的出現可能表明出現了新的或意料之外的事件,例如生產故障、系統缺陷或心臟跳動,因此特別值得關注。時間序列的巨大規模和復雜模式促使研究人員開發專門的深度學習模型來檢測異常模式。本綜述的重點是通過使用深度學習來提供結構化的、全面的、最先進的時間序列異常檢測模型。它提供了基于因素的分類法,將異常檢測模型劃分為不同的類別。除了描述每種類型的基本異常檢測技術外,還討論了其優點和局限性。此外,本研究包含了近年來跨不同應用領域的時間序列深度異常檢測實例。最后總結了在采用深度異常檢測模型時研究中存在的問題和面臨的挑戰。
1. 概述
異常檢測又稱異常值檢測和新穎性檢測,自60年代以來一直是眾多研究領域的一個蓬勃發展的研究領域[74]。隨著計算過程的發展,大數據和人工智能(AI)受到了積極的影響,有助于時間序列分析,包括異常檢測。隨著可獲得的數據越來越多,算法越來越高效,計算能力越來越強,時間序列分析越來越多地被用于通過預測、分類和異常檢測[59]、[26]來解決業務問題。時間序列異常檢測在城市管理、入侵檢測、醫療風險、自然災害等多個領域的需求日益增長,其重要性也日益提高。
隨著深度學習在過去幾年的顯著進步,它已經越來越有能力學習復雜時間序列的表達表示,比如同時具有空間(度量間)和時間特征的多維數據。在深度異常檢測中,利用神經網絡學習特征表示或異常評分來檢測異常。許多深度異常檢測模型已經被開發出來,在不同的現實應用中,對時間序列檢測任務提供了明顯高于傳統異常檢測的性能。雖然Chandola等人在[29]中對深度學習異常檢測模型進行了廣泛的綜述,但本研究的目的是對深度異常檢測模型進行全面的綜述,重點關注時間序列數據。考慮到多變量時間序列分析比單變量時間序列分析更具挑戰性,目前提出的模型主要用于處理多變量時間序列。
雖然在異常檢測領域已有多篇文獻綜述[140],[27]、[20]、[23]和一些評價綜述論文存在[154]、[102],但對時間序列數據[41]的深度異常檢測方法的研究僅一篇。然而,這一綜述并沒有涵蓋近年來出現的大量時間序列異常檢測方法,如DAEMON[37]、TranAD[171]、DCT-GAN[116]和Interfusion[119]。因此,有必要進行一項涵蓋該領域當前技術現狀的調研,以幫助研究人員確定:1)時間序列異常檢測的重要未來研究方向是什么;2)在特定的應用環境下,哪些方法適合應用。具體而言,本文有以下幾點貢獻:
提出了一種新的時間序列深度異常檢測模型分類方法。深度異常檢測模型一般分為三類:基于預測的、基于重構的和混合方法。每個類別被劃分為子類別,根據模型中使用的深度神經網絡架構定義子類別。模型的特征是各種不同的結構特征,這有助于其檢測能力。
本研究提供了對當前技術狀態的全面回顧。這一領域的發展方向和趨勢已經十分清晰。
描述了該領域目前使用的主要基準和數據集,并提供了超鏈接。
對可能導致時間序列中不同異常發生的基本原理的討論
本文的其余部分組織如下。在第二節中,我們從時間序列的初步定義開始。然后概述了時間序列數據異常分類的分類法。第3節討論了深度異常檢測模型如何應用于時間序列數據。然后,根據深度神經網絡的主要方法(基于預測的、基于重構的、混合的)和主要架構,介紹了不同的深度模型及其功能。對于所考慮的異常檢測模型,可以在第4節中找到公開可用的和常用的數據集的概述。此外,第5節探討了時間序列深度異常檢測模型在不同領域的應用領域。最后,第6節提供了該領域的幾個挑戰,可以作為未來的機會。
2. 深度異常檢測方法
在具有復雜結構的數據中,深度神經網絡是建模依賴關系的強大方法。許多學者對其在異常檢測中的應用非常著迷,它使用了許多深度學習架構,如圖3所示。在實踐中,訓練數據往往只有極少數被標記的異常。因此,大多數模型試圖學習正常數據的表示或特征。然后根據異常定義檢測異常,這意味著他們發現了與正常數據不同的數據。在最近的深度異常檢測模型中,有四種學習方案:無監督、有監督、半監督和自監督。這是基于標簽數據點的可用性(或缺乏)。監督方法采用一種獨特的方法來學習異常數據和正常數據之間的邊界,該方法基于在訓練集中發現的所有標簽。它可以確定一個適當的閾值,如果分配給這些時間戳的異常評分(第3.1節)超過閾值,則該閾值將用于將所有時間戳分類為異常。這種方法的問題是它不適用于現實世界中的應用程序,因為異常通常是未知的或標記不正確的。相反,在無監督異常檢測方法中,不區分訓練集和測試集。這些技術是最靈活的,因為它們完全依賴于數據的內在特征。它們在流應用程序中很有用,因為它們不需要標簽進行培訓和測試。盡管有這些優點,研究人員可能會遇到困難,評估異常檢測模型使用非監督方法。異常檢測問題通常被視為無監督學習問題,因為歷史數據固有的無標記性質和異常的不可預測性質。在數據集只包含正常點且不存在異常的情況下,可以使用半監督方法。然后,訓練一個模型來擬合時間序列分布,并檢測任何偏離該分布的點作為異常。通過充分利用未標記數據本身(例如,通過設計文本前任務),訓練自監督方法從其可觀察部分預測輸入的任何未觀察部分(或屬性)。在自監督學習中,只需要從無監督問題中自動生成少量的標記,因此將無監督問題轉換為有監督問題。
深度學習在2維圖像等結構化數據處理中表現出了優越性能,對非結構化的點云數據分析處理 的潛力已經成為計算機圖形學的重要研究方向,并在機器人、自動駕駛、虛擬及增強現實等領域取得一 定進展.通過回顧近年來3維點云處理任務的主要研究問題,圍繞深度學習在3維點云形狀分析、結構提取、檢測和修復等方向的應用,總結整理了典型算法.介紹了點云拓撲結構的提取方法,然后對比分析 了變換、分類分割、檢測跟蹤、姿態估計等方向的以構建神經網絡為主要研究方法的進展.最后,總結常 用的3維點云公開數據集,分析對比了各類方法的特點與評價指標,指出其優勢與不足,并從不同角度 對基于深度學習的方法處理點云數據所面臨的挑戰與發展方向進行了討論.
隨著3維傳感器的迅速發展,3維數據變得無 處不在,利用深度學習方法對這類數據進行語義理 解和分析變得越來越重要. 不同3維數據(體素、網格等)表示下,深度學習 的方法不盡相同,但這些方法應用于點云中都有一 定的局限性,具體表現為:體素化方法會受到分辨率 的限制;轉換為2維圖像的方法在形狀分類和檢索 任務上取得了優越性能,但將其擴展到場景理解或 其他3維任務(如姿態估計)有一定的困難;光譜卷 積神經網絡限制在流形網格;基于特征的深度神經 網絡會受到所提取特征表示能力的限制[1].
點云本身具有的無序性與不規則性為利用深度 學習方法直接處理該類數據帶來一定挑戰性:1)規 模局限性.現有研究方法一般針對小規模點云,而能 處理大型點云的方法也需要切割處理,即將其分為 小塊后再處理.但切割可能會造成點云整體信息的 丟失.2)遮擋.當被掃描對象被遮擋時,將直接導致 信息的丟失,這為后續任務的處理帶來嚴重影響.3) 噪聲.由于點云數據本身就是3維空間內的點集,噪 聲的存在直接影響點云模型的正確表示,在形狀識 別等任務中會造成精度的降低.4)旋轉不變.對于同 一模型,旋轉不同角度仍表示同一對象,網絡識別結 果不應由于角度不同而產生差異. 隨著近年來激光雷達等傳感設備及相關技術的 發展,3維點云的掃描與獲取更為便捷,其處理技術 在機器人、自動駕駛及其他領域的實際應用中已取 得一定進展.基于深度學習的蓬勃發展,研究者提出 了許多方法來解決相關領域的不同問題.
**本文對基 于深度學習的點云處理任務進行詳細闡述. 本文的主要貢獻有4個方面: **
1) 從機器人、自動駕駛、虛擬和增強現實以及 醫學4個領域介紹點云處理技術的應用情況; 2) 探討點云拓撲結構與形狀分析在應用于點 云處理任務中的必要性,并總結對比多種算法; 3) 歸納基于點云數據處理相關任務的方法,主 要包括模型重建與變換、分類分割、檢測跟蹤與姿態 估計,著重討論基于深度學習的方法,并給出各種方 法的優劣比較; 4) 總結多個公開點云數據集,并分析各數據集 中不同方法能處理的不同任務.
1 基本概念及應用情況
1.1 深度學習
機器學習推動現代科技手段的進步.網絡的內 容過濾及推薦、語音文本的轉換及醫學影像分析等 應用程序越來越多地使用深度學習技術.
1) 基礎概念
深度學習善于發現高維數據中的復雜結構,因 此可應用于科學、商業和醫學等諸多領域. 深度學習利用多處理層組成的計算模型學習具 有抽象層次的數據表示,關鍵在于其目標特征不是 人類指定的,而是從大量數據中學習獲取的,深度神 經網絡已經成為人工智能的基礎.多層感知機或全 連接網絡堆疊線性層和非線性激活層,是神經網絡 的經典類型.卷積網絡引入卷積層和池化層,在處理 圖像、視頻和音頻方面取得了突破性進展.遞歸網絡 可有效處理文本語音等具有連續性的數據.TransG former利用selfGattention機制提取特征,最早用于 處理自然語言[2G3].
2) 框架平臺
為了實現更復雜的模型,若從頭開始編寫代碼, 效率非常低,因此深度學習框架應運而生.本節介紹 常用的深度學習框架,并將其匯總于表1中. 目前常用于點云處理的框架更多為 TensorFlow 與 PyTorch,其他框架如 Caffe與Jittor等也可用于 處理點云,但應用較少.
1.2 點云處理任務
3維幾何模型中,點云已經成為主要表達方式 之一,其應用于深度學習中的處理技術已取得一定成果.在不同任務驅動下,本文以構建神經網絡為主 要方法,通過分類與整理相關文獻,將點云處理任務 分為模型重建與變換、分類分割、檢測跟蹤與姿態估 計幾大類.本節總結其基本概念.
模型重建與變換包括形狀修復、模型補全與變 形.掃描獲取到的數據并不能完美表征原物體的特 性,很可能存在缺漏或誤差,造成模型不完整、扭曲, 故而需要對該模型進行處理,使其盡可能貼合原物 體模型或目標模型,處理手段即為重建與變換. 分類分割主要包括分類、部件分割、語義分割與 實例分割.在諸如機器人抓取等需求中,必須明確所 抓取對象的分類,即需要判斷其信息,判斷即為對場 景中對象語義信息標記與分類. 檢測跟蹤主要包括3維對象檢測、場景流估計 與目標跟蹤.在諸如自動駕駛等應用中,需要明確路 徑與方向,確定追蹤對象,并能依據當前狀態自動調 節或人為干預使其后續運動符合預期目標. 姿態估計主要包括位姿估計與手部姿態估計. 前者需要確定對象的位置與方向,如工廠噴漆中,噴 槍需要依據目標不斷改變其位置與指向.后者則是 為了理解人類肢體語言,如在體感游戲中,根據肢體 變換執行相應游戲操作.
1.3 應用情況
3維點云處理目前在實際應用中已經取得了一 定的進展.本節以應用為導向,從機器人領域、自動 駕駛領域及虛擬、增強現實領域及醫學領域4個角 度介紹點云處理技術的應用情況.
1.3.1 機器人領域
機器人抓取技術的核心在于目標識別和定位. 2019年 Lin等人[4]利用深度神經網絡學習物體外 在形狀,并訓練網絡在獲取物體局部表面時也能成 功抓取目標. 在機器人 室 內 定 位 及 導 航 技 術 方 面,2020 年 Khanh等人[5]設計了新的云端導航系統.云端導航 下機器人能更準確地移動到目標位置.該技術可應 用于位置服務需求,如盲人導航. 針對噴漆機器人的自動化操作,2019年 Lin等 人[6]利用迭代最近點(iterativeclosestpoint,ICP) 算法進行姿態估計,計算物體部件的位置誤差,并重 新調整機器人的方向,以完成所需的噴漆任務.2020 年 Parra等人[7]設計了能夠在地板下的空隙中進行 隔熱噴涂以提高建筑的強度及使用年限的機器人. 他們針對地形不均勻等情況,提出定位模塊.機器人 依據傳感器獲取連續點云的信息.Yang等人[8]基于 點云模型表示的家具表面路徑規劃和邊緣提取技術 提出邊緣噴涂,獲取噴涂槍路徑點序列和對應姿態. 在家具等工件的生產流程中,該方法能夠根據噴涂 系統坐標系與家具姿態的不同,自適應地調整二者 的坐標關系,以實現正確噴涂的目的.
1.3.2 自動駕駛領域
自動駕駛系統的性能受環境感知的影響.車輛 對其環境的感知為系統的自動響應提供了基礎.2017 年 Hanke等人[9]提出采用光線追蹤的汽車激光雷 達傳感器實現實時模型測量方法.使用由真實世界場 景的測量構建的虛擬環境,能夠在真實世界和虛擬世 界傳感器數據之間建立直接聯系.2019年Josyula等 人[10]提出了利用機器人操作系統(robotoperating system,ROS)和點云庫(pointcloudlibrary,PCL) 對點云進行分割的方法.它是為自動駕駛車輛和無 人機的避障而開發的,具體涉及障礙物檢測與跟蹤.激光雷達(lightdetectionandranging,LIDAR) 和視覺感知是高水平(L4GL5)飛行員成功自動避障 的關鍵因素.為了對大量數據進行點云標記,2020 年 Li等人[11]提出針對3維點云的標注工具,實現 了點云3維包圍盒坐標信息到相機與 LIDAR 聯合 標定后獲得的2維圖像包圍盒的轉換. 基于圖的同步定位與建圖(simultaneouslocaliG zationandmapping,SLAM)在自動駕駛中應用廣 泛.實際駕駛環境中包含大量的運動目標,降低了掃 描匹配性能.2020年 Lee等人[12]利用加權無損檢測 (掃描匹配算法)進行圖的構造,在動態環境下也具 有魯棒性.
1.3.3 虛擬、增強現實領域
為了更好地了解室內空間信息,2015年 Tredinnick 等人[13] 創 建 了 能 夠 在 沉 浸 式 虛 擬 現 實 (virtual reality,VR)顯示系統中以較快的交互速率可視化 大規模 LIDAR 點云的應用程序,能夠產生準確的 室內環境渲染效果.2016年 Bonatto等人[14]探討了 在頭戴式顯示設備中渲染自然場景的可能性.實時 渲染是使用優化的子采樣等技術來降低場景的復雜 度實現的,這些技術為虛擬現實帶來了良好的沉浸 感.2018年 Feichter等人[15]提出了在真實室內點云 場景中抽取冗余信息的算法.其核心思想是從點云 中識別出平面線段,并通過對邊界進行三角剖分來 獲取內點,從而描述形狀. 生成可用于訓練新模型的標注已成為機器學習 中獨立的研究領域,它的目標是高效和高精度.標注 3維點云的方法包括可視化,但這種方法是十分耗 時的.2019年 Wirth等人[16]提出了新的虛擬現實標 注技術,它大大加快了數據標注的過程. LTDAR為增強現實(augmentedreality,AR) 提供了基本的3維信息支持.2020年 Liu等人[17]提 出學習圖像和 LIDAR 點云的局部特征表示,并進 行匹配以建立2維與3維空間的關系. 使用手勢自然用戶界面(naturaluserinterface, NUI)對于頭戴式顯示器和增強及虛擬現實等可穿 戴設備中虛擬對象的交互至關重要.然而,它在 GPU 上的實現存在高延遲,會造成不自然的響應.2020年Im 等人[18]提出基于點云的神經網絡處理器.該 處理器采用異構內核結構以加速卷積層和采樣層, 實現了使用 NUI所必需的低延遲.
1.3.4 醫學領域
醫學原位可視化能夠顯示患者特定位置的成像 數據,其目的是將特定病人的數據與3維模型相結 合,如將手術模擬過程直接投影到患者的身體上,從 而在實際位置顯示解剖結構.2011年Placitelli等人[19] 采用 采 樣 一 致 性 初 始 配 準 算 法 (sampleconsensus initialalignment,SACGIA),通過快速配準三元組 計算相應的匹配變換,實現點云快速配準. 模擬醫學圖像如 X 射線是物理學和放射學的 重要研究領域.2020年 Haiderbhai等人[20]提出 基 于 條 件 生 成 式 對 抗 網 絡 (conditionalgenerative adversarialnetwork,CGAN)的點云 X射線圖像估 計法.通過訓練 CGAN 結構并利用合成數據生成器 中創建的數據集,可將點云轉換成 X射線圖像.
2 模型形狀結構
了解并確定高層形狀結構及其關系能夠使得模 型感知局部和全局的結構,并能通過部件之間的排 列和關系描繪形狀,這是研究形狀結構分析的核心 課題.隨著真實世界的掃描和信息的挖掘,以及設計 模型規模的增大,在大量信息中進行3維幾何模型 的識別和分析變得越來越重要。
3 模型重建與變換
由于遮擋等多種因素的限制,利用激光雷達等 點云獲取設備得到的數據存在幾何信息和語義信息的丟失以及拓撲結構的不確定,這直接導致了數據 的質量問題.為后續任務的處理帶來極大挑戰.
4 形狀分類與分割
基于檢索或劃分的目的,對具有相似特征或相 同屬性的點云數據進行區域的分割或屬性的分類是 極其重要的.
5 目標檢測與跟蹤
自動駕駛、機器人設計等領域中,3維目標檢測 與跟蹤至關重要.自動駕駛車輛和無人機的避障等 實際應用中,涉及障礙物檢測與跟蹤.
5.1 3維目標跟蹤
目標跟蹤是推測幀的屬性并預測變化,即推斷 對象的運動情況,可以利用預測對象的運動信息進 行干預使之實際運動符合預期目標或用戶要求. 為了從點云中推斷出目標對象的可移動部件以 及移動信息,2019年 Yan等人[67]提出 RPMGNet.其 特定的體系結構夠預測對象多個運動部件在后續幀 中的運動,同時自主決定運動何時停止. 2020年 Wang等人[68]提出 PointTrackNet.網 絡中提出了新的數據關聯模塊,用于合并2幀的點 特征,并關聯同一對象的相應特征.首次使用 3 維 Siamese跟蹤器并應用于點云的是 Giancola等人[69]. 基于 Achlioptas等人[70]提出的形狀完成網絡,2019 年 Giancola等人[69]通過使用給定對象的語義幾何 信息豐富重編碼后的表示來提高跟蹤性能. 2019年Burnett等人[71]提出aUToTrack,使用 貪婪算法進行數據關聯和擴展卡爾曼濾波(extended Kalmanfilter,EKF)跟蹤目標的位置和速度.Simon 等人[72]融合2維語義信息及 LIDAR 數據,還引入 了縮放旋轉平移分數(scaleGrotationGtranslationscore, SRTs),該方法可更好地利用時間信息并提高多目 標跟蹤的精度. 文獻[67]可以從開始幀和結束幀的移動部分導 出變化范圍,故參數中不含變換范圍,減少了參數個 數.文獻[68]提供的跟蹤關聯信息有助于減少目標 短期消失的影響,其性能比較穩定,但是當汽車被嚴 重遮擋時,結果會出現問題.文獻[69]解決了相似性 度量、模型更新以及遮擋處理3方面的問題,但該方 法直接利用對稱性來完善汽車整體形狀會導致更多 噪聲.文獻[71]實際需要計算被檢測物體的質心,這 種方法能有效檢測行人,但對于汽車來說,其結果并 不準確.文獻[72]提出的 SRTs可用于快速檢測目 標,提高了準確性和魯棒性.
5.2 3維場景流估計
機器人和人機交互中的應用可以從了解動態環 境中點的3維運動,即場景流中受益.以往對場景流 的研究方法主要集中于立體圖像和 RGBGD 圖像作 為輸入,很少有人嘗試從點云中直接估計. 2019年 Behl等人[73]提出 PointFlowNet,網絡 聯合預測3維場景流以及物體的3維包圍盒和剛體 運動.Gu等人[74]提出 HPLFlowNet,可以有效地處 理非結構化數據,也可以從點云中恢復結構化信息. 能在不犧牲性能的前提下節省計算成本.Liu等人[75] 提出 FlowNet3D.由于每個點都不是“獨立”的,相鄰點會形成有意義的信息,故而 FlowNet3D 網絡嵌入 層會學習點的幾何相似性和空間關系. 文獻[73]先檢測出object并計算出egomotion 和sceneflow,再去回歸各個object的 motion,它從 非結構化點云中直接估計3維場景流.文獻[74G75] 的整體結構類似,都是下采樣 融合 上采樣,直接擬 合出sceneflow.
5.3 3維目標檢測與識別
在城市環境中部署自動型車輛是一項艱巨的技 術挑戰,需要實時檢測移動物體,如車輛和行人.為 了在大規模點云中實現實時檢測,研究者針對不同 需求提出多種方法. 2019年 Shi等人[76]提出 PointRCNN,將場景 中的點云基于包圍盒生成真實分割掩模,分割前景 點的同時生成少量高質量的包圍盒預選結果.在標 準坐標中優化預選結果來獲得最終檢測結果. 2019年 Lang等人[77]提出編碼器 PointPillars. 它學 習 在 pillars 中 組 織 的 點 云 表 示,通 過 操 作 pillar,無需手動調整垂直方向的組合.由于所有的 關鍵操作都可以表示為2維卷積,所以僅使用2維 卷積就能實現端到端的3維點云學習. 考慮到模型的通用性,2019年 Yang等人[78]提 出STD,利用球形錨生成精確的預測,保留足夠的 上下文信息.PointPool生成的規范化坐標使模型在 幾何變化下具有魯棒性.box預測網絡模塊消除定 位精度與分類得分之間的差異,有效提高性能. 2019年 Liu等人[79]提出大規模場景描述網絡 (largeGscaleplacedescriptionnetwork,LPDGNet). 該網絡采用自適應局部特征提取方法得到點云的局 部特征.此外,特征空間和笛卡兒空間的融合能夠進 一步揭示局部特征的空間分布,歸納學習整個點云 的結構信息. 為了克服一般網絡中點云規模較小的局限性, 2019年Paigwar等人[80]提出 AttentionalPointNet. 利用 Attentional機制進行檢測能夠在大規模且雜 亂無章的環境下重點關注感興趣的對象. 2020年 Shi等人[81]提出 PVGRCNN.它執行 2 步策略:第1步采用體素 CNN 進行體素特征學習 和精確的位置生成,以節省后續計算并對具有代表 性的場景特征進行編碼;第2步提取特征,聚集特征 可以聯合用于后續的置信度預測和進一步細化. 文獻[76]生成的預選結果數量少且質量高.文 獻[77]能夠利用點云的全部信息,其計算速度較快. 文獻[78]能夠將點特征從稀疏表示轉換為緊湊表 示,且用時較短.文獻[79]充分考慮點云的局部結 構,自適應地將局部特征作為輸入,在不同天氣條件 下仍能體現出健壯性.文獻[80]不必處理全部點云, 但預處理步驟使得計算成本較大.文獻[81]結合基 于體素的與基于 PointNet的優勢,能夠學習更具鑒 別力的點云特征.
5.4 算法性能對比分析
跟蹤算法中,文獻[67]主要關注的是物體部件 的跟蹤,文獻[68]與文獻[69]則主要檢測同一物體 在不同時間的狀態.文獻[67]的優勢在于可以同時 預測多個運動部件及其各自的運動信息,進而產生 基于運動的分割.該方法實現高精度的前提是輸入 對象的幾何結構明確,否則很有可能會生成不完美 的運動序列.文獻[68]在快速變化的情況下,如突然 剎車或轉彎,其結果仍可靠.但是當目標被嚴重遮擋 時,其結果并不可靠.由于大多數模型(如汽車模型) 只能從單側看到,文獻[69]利用對稱性完善汽車形 狀的方法未必是有效的.文獻[71]的處理方法較簡 單且用時較短,在 CPU 上運行時間不超過75ms.它 能在檢測行人時達到較高性能.但用于擁擠道路的 自動駕駛時,其采用的質心估計對于汽車并不準確. 文獻[72]同時利用2維信息與3維 LIDAR 數據, 且使用的SRTs指標可縮短訓練時間. 場景流估計算法中,文獻[73]聯合3維場景流 和剛性運動進行預測,其效率較高且處理不同運動 時具有魯棒性.文獻[74]與文獻[75]都以端到端的 方式從點云中學習場景流.前者從非結構化的點云 中恢復結構化,在生成的網格上進行計算,后者則是 在點云的連續幀中計算. 檢測算法中,文獻[76]不會在量化過程中丟失 信息,也不需要依賴2維檢測來估計3維包圍盒,故 而可以充分利用3維信息.文獻[77]的處理速度較 快,計算效率較高.文獻[78]具有較高的計算效率和 較少的計算量,能夠同時集成基于點和基于體素的 優點.文獻[79]引入局部特征作為網絡輸入,有助于 充分了解輸入點云的局部結構.文獻[80]能夠有效 地獲取數據的3維幾何信息.但是,將點云裁剪成較 小區域等預處理步驟增加了計算成本.文獻[81]結 合了基于體素與基于 PointNet的優點,不僅保留了 精確的位置,而且編碼了豐富的場景上下文信息.
表4給出 KITTI數據集下不同算法處理跟蹤 任務的性能對比.指標為多目標跟蹤準確度(multiG objecttrackingaccurancy,MOTA)、多 目 標 跟 蹤 精確度(multiGobjecttrackingprecision,MOTP)、 目標大部分被跟蹤到的軌跡占比(mostlytracked,MT)、目 標 大 部 分 跟 丟 的 軌 跡 占 比 (mostlylost, ML)、ID改變總數量(IDswitches,IDS)、跟蹤過程 中被打斷的次數(fragmentation,FRAG)及每秒幀 數(framespersecond,FPS).
表 5 給出在 KITTI數據集下 3 維檢測框(3G dimensionaldetectionbenchmark,3D)、BEV 視圖下 檢測框(birdeyeviewdetectionbenchmark,BEV) 與檢測目標旋轉角度(averageorientationsimilarity detectionbenchmark,AOS)的檢測結果.其中,評估指 標為AP,IoU 閾值為:汽車0.7,行人和自行車0.5.
6 姿態估計
3維姿態估計即確定目標物體的方位指向問題, 在機器人、動作跟蹤和相機定標等領域都有應用.
6.1 位姿估計
解決3維可視化問題的中間步驟一般是確定 3維局部特征,位姿估計是其中最突出的問題. 2017年 Elbaz等人[82]提出的 LORAX 采用了 可以處理不同大小點云的設置,并設計了對大規模 掃描數據有效的算法.2019年 Speciale等人[83]將原 始3維點提升到隨機方向的3維線上,僅存儲3維 線和3維 點 的 關 聯 特 征 描 述 符,這 類 映 射 被 稱 為 3維線云.2019年 Zhang等人[84]從目標點云中自動 提取關鍵點,生成對剛性變換不變的逐點特征,利用 層次式神經網絡預測參考姿態對應的關鍵點坐標. 最后計算出當前姿態與參考姿態之間的相對變換. 2018年 Deng等人[85]提出了 PPFGFoldNet,通 過點對特征(pointpairfeature,PPF)對局部3維幾 何編碼,建立了理論上的旋轉不變性,同時兼顧點的 稀疏性和置換不變性,能很好地處理密度變化. 考慮到成對配準描述符也應該為局部旋轉的計 算提供線索,2019年 Deng等人[86]提出端到端的配 準方法.這種算法在 PPFGFoldNet [85]的工作基礎上, 通過學習位姿變換將3維結構與6自由度運動解耦.該方法基于數據驅動來解決2點云配準問題. 2020年 Kurobe等人[87]提出 CorsNet,連接局 部特征與全局特征,不直接聚集特征,而是回歸點云 之間的對應關系,比傳統方法集成更多信息. 文獻[82]解決了2點云之間點數相差數倍的問 題,它簡單、快速,并且具備擴展性,但在極端情況 下,其結果會出錯.文獻[83]只使用了一個幾何約 束,其準確性與召回率可以與傳統方法媲美,但這種 方法的速度較慢.文獻[84]需要較少的訓練數據,因 此對于沒有紋理的對象,它更快、更精確.文獻[85] 繼承了多個網絡框架的優點,且充分利用點云稀疏 性,能夠快速提取描述符.文獻[86]提高了成對配準 的技術水平且減少了運行時間.文獻[87]結合了局 部與全局特征,從平移和旋轉的角度而言準確性較 高.表6上半部分給出位姿估計算法的核心方法及 優勢對比分析.
6.2 手部姿態估計
點云作為更簡單有效的數據表示方法,其輸入 的點集和輸出的手部姿態共享相同表示域,有利于 學習如何將輸入數據映射到輸出姿態上. 為了直接從點云中估計手部姿態,同樣以手部 3維點云為輸入,2018年 Chen等人[88]提出語義手 部姿 態 回 歸 網 絡 (semantichandposeregression network,SHPRGNet),通過學習輸入數據的變換矩 陣和輸出姿態的逆矩陣應對幾何變換的挑戰.Ge等 人[89]提出的方法輸出反映手部關節的每點貼近度 和方向的 heatGmaps和單位向量場,并利用加權融 合從估計的heatGmaps和單位向量場中推斷出手部 關節位置.2019年 Li等人[90]提出的方法以置換等 變層(permutationequivariantlayer,PEL)為基本 單元,構建了基于 PEL 的殘差網絡模型.且手部姿 態是利用點對姿勢的投票方案來獲得的,這避免了 使用最大池化層提取特征而導致的信息丟失. 現有的手部姿態估計方法大多依賴于訓練集, 而在訓練數據上標注手部3維姿態費時費力.2019 年 Chen等人[91]提出的 SOGHandNet旨在利用未 注記數據以半監督的方式獲得精確的3維手部姿態 估計.通過自組織映射(selfGorganizingmap,SOM) 模擬點的空間分布,然后對單個點和 SOM 節點進 行層次化特征提取,最終生成輸入點云的判別特征. 2018年 Ge等人[92]提出 HandPointNet,提出 的精細化網絡可以進一步挖掘原始點云中更精細的 細節,能夠回歸出更精確的指尖位置.Huang等人[93] 認為學習算法不僅要研究數據的內在相關性,而且 要充分利用手部關節之間的結構相關性及其與輸入 數據的相關性.基于此,2020年他們提出非自回歸手 部transformer(nonGautoregressivehandtransformer, NARHT),以關節特征的形式提供參考手部姿態, 利用其固有的相關性來逼近輸出姿態. 文獻[88]對點云的幾何變換具有魯棒性.文獻 [89]能夠很好地捕捉空間中點云的結構信息.文獻 [90]較利用體素的方法占用內存更少,但其效率不 如基于深度圖像的方法.文獻[91]的特征編碼器能 夠揭示輸入點云的空間分布.文獻[92]能夠捕捉復 雜的手部結構,并精確地回歸出手部姿態的低維表 示.文獻[93]采用新的nonGautoregressive結構學習機制來代替transformer的自回歸分解,在解碼過 程中提供必要的姿態信息.表6下半部分給出手部 姿態估計算法的核心方法及優勢對比分析.
**6.3 算法性能對比分析 **
位姿估計方法中,核心問題是找到旋轉矩陣與 平移矩陣.文獻[83,85G86]都利用了 RANSAC迭代 算法.其中,文獻[83]實現了魯棒、準確的6自由度 姿態估計.文獻[85]是無監督、高精度、6自由度變 換不變的網絡.文獻[86]在挑戰成對配準的真實數 據集方面優于現有技術,具有更好的泛化能力且速 度更快.文獻[82]的 LORAX能夠并行實現,效率較 高,適合實時應用.它對隨機噪聲、密度變化不敏感, 并且其魯棒性僅在極端水平下才會惡化.文獻[84] 使用較少 的 訓 練 圖 像 實 現 了 較 高 的 準 確 性.文 獻 [87]提出的 CorsNet回歸的是對應關系,而不是直 接姿態變化. 手部姿態估計方法中,文獻[88]可獲得更具代 表性的特征.SHPRGNet可以在不改變網絡結構的前 提下擴展到多視點的手部姿態估計,這需要將多視 點的深度數據融合到點云上.然而,融合后的點云也 會受到噪聲的影響.文獻[89]可以更好地利用深度 圖像中的3維空間信息,捕捉3維點云的局部結構, 并且能夠集中學習手部點云的有效特征,從而進行 精確的3維手部姿態估計.文獻[90]與基于體素化的 方法相比,需要更少的內存.但與基于深度圖像的方 法相比,需要更多的計算時間和內存.文獻[91]使用 半監督的方式對網絡進行訓練,其性能可與全監督 的方法相媲美.文獻[92]有效利用深度圖中的信息, 以較少的網絡參數捕獲更多的手部細節及結構,并 準確地估計其3維姿態.文獻[93]首次結合結構化 手部姿勢估計與基于transformer的自然語言處理 領域的轉換框架.引入參考手部姿勢為輸出關節提 供等效依賴關系.文獻[89]的模型大小為17.2MB.其 中11.1MB用于點對點回歸網絡,它是分層PointNet; 6.1MB用于附加的回歸模塊,它由3個全連層組成. 文獻[90]有2種版本,回歸版本為38MB,檢測版本 為44MB.文獻[91]中,手部特征編碼器(handfeature encoder,HFE)、手部特征解碼器(handfeaturedecoder, HFD)和 手 部 特 征 估 計 器 (handposeestimator, HPE)的大小分別為8.1MB,74MB,8.5MB.由于只 在測試階段使用 HFE 和 HPE,所以其網絡模型大 小為16.6MB.文獻[92]的模型大小為10.3MB,其 中回歸網絡為9.2MB,指尖精細網絡為1.1MB.不 同方法在3個數據集上的性能對比分析如圖1所示:
7 總 結
本文總結了近年來多種點云處理任務的方法, 特別側重于基于深度學習的工作,為讀者提供了最 新的研究進展. 大多數關于點云的綜述類文章都集中于討論點 云分類分割處理任務.如文獻[94G95]只討論了語義 分割任務;文獻[96G97]增加了目標檢測和分類任務 的研究分析.其中,文獻[97]只用1節內容簡要介紹 分類、分割及目標檢測三大任務,更關注于處理點云數據的深度學習方法,而不依據處理任務對其進行 劃分討論.本文則考慮多種點云處理任務,包括模型 重建與變換、分類分割、檢測跟蹤與姿態估計等.在 模型分割分類中,由于大部分算法有用于實現點云 分類與分割的功能,不同于文獻[96G97]將分類與分 割作為2種類別分開討論,本文將它們統一考慮,并 根據基于體素、基于視圖與基于點三大主流方法對 其劃分并展開討論,明確給出各算法可處理的任務. 目前,已經有大量學者對點云處理任務進行研 究并依據任務的不同提出多種方法,但這些方法或 多或少都有一定的局限性.本文基于這些算法的不 足總結點云處理任務所面臨的挑戰與發展趨勢.
1) 數據方面
大部分方法只在現有的數據集上進行實驗,而 對于新獲取的數據并不適用.這很大程度上是由于 新獲取的數據無法實現多角度、全方位的完美匹配, 而且不同平臺獲得的數據難以融合,無法達到統一 的標準.對于融合后的點云,具有魯棒性和區分性特 征的提取有一定的難度,未來的研究可以從特征提 取方面入手. 數據集尺度不均衡是由于真實復雜場景中檢測 及識別小目標較為困難.未來研究工作可人工生成 小目標樣本,增大數據集中小目標所占比例,進而在 網絡訓練中提高其識別檢測能力. 數據質量對網絡(如transformers)的泛化性和 魯棒性的影響較大[2].點云的幾何位置存在誤差時, 可以通過已知控制點對其進行幾何矯正.當使用激 光掃描獲取數據時,除了考慮掃描距離和入射角度 的問題,還可以進行強度矯正,通過不同方法改善點 云的質量. 隨著3維掃描技術的發展,大規模點云的獲取 已不是難點,挑戰性在于如何對其進行處理.此外, 算法精度依賴大批量的數據集[98],目前還沒有比較 好的解決手段.
2) 性質方面
點云是3維空間內點的集合,它沒有提供鄰域 信息,故而大部分方法需要依據不同的鄰域查詢方 法確定點的鄰域,這將導致算法增加額外的計算成 本.點云不能顯式地表達目標結構以及空間拓撲關 系.此外,當目標被遮擋或重疊時,不能依據幾何關 系確定拓撲結構,給后續處理任務帶來一定難度. 針對點云的不規則性及無序性,將其應用于深 度神經網絡中進行相關任務的處理需要做數據形式 的轉換,如體素化[40].但這些轉換操作不但增加了 計算量,而且很可能在轉換的過程中丟失信息,所以 直接的點云處理方法是重要的研究方向.
3)網絡結構方面
① 基于快速和輕量級的模型.為了達到理想效 果,目前的算法傾向于使用含大量參數的較大的神 經網絡結構,導致計算復雜度高、內存占用大、速度 慢等問題.因此,設計快速且輕量級的網絡架構具有 較大的應用價值[99G100]. ② 網絡結構的改良.優化網絡結構可使同一網 絡處理多種任務,能夠很大程度地降低復雜度[2].還 可以考慮與其他網絡結構結合[45]來實現優化目的.
4) 應用方面
室外場景信息較多、結構復雜,所以目前大多數 方法著重于相對簡單的室內場景的分析.然而自動 駕駛[12]等技術的研究無法在室內場景中完成,所以 未來的研究方向可側重于構建適用于室外場景的網 絡模型. 現有分割方法大都用于單個物體的部件分割[1] 或場景中同類對象的語義分割[25].而真實場景中目 標類別眾多、結構復雜,對同類對象的不同個體分割 是3維形態檢測(文物、古建監測)的重要手段. 現有的大多數算法主要利用靜態場景中獲取的 數據,在地震檢測等實際應用中,設計能夠應對變化 場景的算法具有重要應用價值.利用時序上下文信 息可作為其研究方向[99]. 計算機視覺中的有效性通常與效率相關,它決 定模型是否可用于實際應用中[100],因此在二者之 間實現更好的平衡是未來研究中有意義的課題.
深度學習作為當前人工智能領域的研究熱點之一,已經受到廣泛關注。借助于強大的特征表示和學習能力,深度學習日益成為軍事領域智能化發展的技術基礎。首先結合深度學習的最新發展,指出深度學習的快速發展得益于理論的突破、計算機運算能力的顯著提高和開源軟件的廣泛流行,著重梳理了目前主要的深度學習硬件平臺和編程框架,并總結了各自的特點和研究進展;然后對深度學習在目標識別、態勢感知、指揮決策等典型軍事領域的應用和存在的不足進行了總結;最后,分析了深度學習軍事應用面臨的挑戰,包括數據獲取困難、處理不確定不完備信息和多域信息能力不足、精確度和實時性較低、可解釋和可理解性不強等,并針對這些問題展望了未來可能的發展方向和趨勢。 深度學習為很多復雜問題的解決提供了新的思路$由于其具有強大的特征表示和學習能力$在以目 標識別與檢測,態勢感知,智能指揮決策等為代表的 軍事領域中取得了一系列應用成果$并日益成為軍事領域智能化發展的技術基礎與研究熱點。
1. 目標識別與檢測
雷達目標識別一直是軍事領域關注的重點,隨 著高分辨雷達技術的發展,目標的高分辨一維距離 像(high resolution range profile, HRRP)、合成孔徑 雷達(synthetic aperture radar,SAR)圖像等已經成 為軍事目標綜合識別的重要數據來源,傳統雷達目 標識別方法主要采用人工設計的特征提取算法提取 目標特征,目標識別的性能依賴于提取特征的好壞, 而采用深度學習方法則能自動學習目標數據的深層 次抽象特征,能夠進行更準確、更穩健的識別,從而受 到廣泛的關注。表1為當前主要的深度學習框架。 在 基 于 H R R P 的 雷 達 目 標 識 別 方 面 , B ( ) . F 等[⑸提出一種新的矯正自編碼器Corrective AE, 自 動 提 取 H R R P 抽 象 特 征 , 實 現 了 對 目 標 H R R P 的高效識別。P a n等[⑹采用t . S N E方法解決H R - RP目標識別中的訓練數據不均衡問題,利用判別式深層置信網絡提取訓練數據中與類別無關的全局 特征來提升小樣本條件下的H R R P分類性能。徐 彬等口力考慮HRRP樣本距離單元間的時序相關特 性,提出了采用雙向長短時記憶模型的HRRP目標 識別方法,提高了目標識別性能。文獻口8] 將5種 彈道中段目標HRRP轉化為0-1二值圖,并構建了 二維CNN對HRRP圖像進行分類,充分利用圖像 中蘊含的目標結構信息提升了分類效果,但將HRRP轉化為圖像增加了計算量。Xiang等[血在一維 CNN中引入通道注意力,同時利用改進的人工蜂群 算法對一維CNN進行剪枝,在保持對彈道中段目 標H R R P的高準確識別率前提下大幅降低了模型 的復雜度。
2 態勢感知
現代戰場態勢具有顯著的大數據特征,傳統方法已不能滿足現代復雜戰場態勢的感知需求,深度學習技術為研究戰場態勢感知提供了智能化技術手段,在對以往實戰數據,實兵對抗數據,靶場試 驗數據,兵棋推演數據等進行態勢標注的基礎上,將 其作為訓練數據,對深度學習模型進行訓練利用訓 練獲得的網絡模型可以實現對戰場態勢的理解。
3 指揮決策以 AlphaGo等為代表的人工智能 應用的成功,表明了深度學習技術在應對實時對抗, 不確定性推理等復雜動態場景問題的優秀能力深 度學習在軍事智能輔助決策領域的應用已經受到廣 泛的關注。
中科院自動化所等《圖像異常檢測研究現狀》綜述論文
圖像異常檢測是計算機視覺領域的一個熱門研究課題, 其目標是在不使用真實異常樣本的情況下, 利用現有的正 常樣本構建模型以檢測可能出現的各種異常圖像, 在工業外觀缺陷檢測, 醫學圖像分析, 高光譜圖像處理等領域有較高的研 究意義和應用價值. 本文首先介紹了異常的定義以及常見的異常類型. 然后, 本文根據在模型構建過程中有無神經網絡的參 與, 將圖像異常檢測方法分為基于傳統方法和基于深度學習兩大類型, 并分別對相應的檢測方法的設計思路、優點和局限性 進行了綜述與分析. 其次, 梳理了圖像異常檢測任務中面臨的主要挑戰. 最后, 對該領域未來可能的研究方向進行了展望.
//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200956
異常檢測是機器學習領域中一項重要的研究內容. 它是一種利用無標注樣本或者正常樣本構建檢測模型[1], 檢測與期望模式存在差異的異常樣本的方法. 異常檢測在各種領域中都有廣泛的應用, 如網絡入侵檢測, 信號處理, 工業大數據分析, 異常行為檢測和圖像與視頻處理等.
早期的異常檢測算法大多應用于數據挖掘領域, 而近年來隨著計算機視覺和深度學習等相關技術的發展, 許多相關工作將異常檢測引入到圖像處理領域來解決樣本匱乏情況下的目標檢測問題.
傳統的目標檢測算法中很大一部分方法屬于監督學習的范疇, 即需要收集足夠的目標類別樣本并進行精確的標注, 比如圖像的類別、圖像中目標的位置以及每一個像素點的類別信息等[2, 3]. 然而, 在許多應用場景下, 很難收集到足夠數量的樣本. 例如, 在表面缺陷檢測任務當中, 實際收集到的圖像大部分屬于正常的無缺陷樣本, 僅有少部分屬于缺陷樣本, 而需要檢測的缺陷類型又十分多樣, 這就使得可供訓練的缺陷樣本的數量十分有限[4]. 又比如在安檢任務當中, 不斷會有新的異常物品出現[5]. 而對于醫學圖像中病變區域的識別任務, 不僅帶有病變區域的樣本十分稀少, 對樣本進行手工標注也十分耗時[6]. 在這些情況下, 由于目標類別樣本的缺乏, 傳統的目標檢測和圖像分割的方法已不再適用.
而異常檢測無需任何標注樣本就能構建檢測模型的特點, 使得其十分適用于上述幾種情況[7]. 在圖像異常檢測當中, 收集正常圖像的難度要遠低于收集異常圖像的難度, 能顯著減少檢測算法在實際應用中的時間和人力成本. 而且, 在異常檢測中模型是通過分析與正常樣本之間的差異來檢測異常樣本, 這使得異常檢測算法對各種類型甚至是全新的異常樣本都具有檢測能力. 雖然標注樣本的缺失給圖像異常檢測帶來了許多問題和挑戰, 不過由于上述各種優點, 如表1所示, 已經有許多方法將圖像異常檢測應用在各種領域中.因此, 圖像異常檢測問題具有較高的研究價值和實際應用價值.
隨著對異常檢測研究的深入, 大量研究成果不斷涌現, 也有許多學者開展了一些綜述性工作. 如Ehret等[20]根據不同的圖像背景, 對大量圖像異常檢測方法進行了綜述, 不過對基于深度學習的方法還缺乏一定的梳理. Pang等[21]和Chalapathy[22]等則是從更為廣闊的角度對基于深度學習的異常檢測方法進行了梳理, 不過由于數據類型的多樣性, 這些工作對異常檢測在圖像中的應用還缺乏針對性. 陶顯等[23]對異常檢測在工業外觀缺陷檢測中的應用進行了一些總結, 不過重心落在有監督的檢測任務上, 對無監督的異常檢測方法欠缺一定的整理和歸納. 而本文則針對無監督的圖像異常檢測任務, 以工業、醫學和高光譜圖像作為具體應用領域, 對傳統和基于深度學習的兩大類方法進行梳理. 上述三種應用領域都有相同的特點即可使用的帶標注異常樣本數量稀少, 因此有許多工作針對這幾個領域內的異常目標檢測問題開展了研究. 本文整體結構安排如下: 第1節將介紹異常的定義以及常見的形態. 第2節根據模型構建過程中有無神經網絡的參與, 將現有的圖像異常檢測算法分為傳統方法和基于深度學習兩大類并分別進行綜述與分析. 第3節將介紹圖像異常檢測中常用的數據集. 第4節將介紹在圖像異常檢測當中面臨的主要挑戰. 第5節將綜合圖像異常檢測的研究現狀對未來可能的發展方向進行展望. 最后第6節將對本文內容進行總結.
異常, 又被稱為離群值, 是一個在數據挖掘領域中常見的概念[24], 已經有不少的工作嘗試對異常數據進行定義[25, 26]. Hawkins等[25]將異常定義為與其余觀測結果完全不同, 以至于懷疑其是由不同機制產生的觀測值. 一般情況下, 會將常見的異常樣本分為三個類別[1]: 點異常、上下文異常和集群異常. 點異常一般表現為某些嚴重偏離正常數據分布范圍的觀測值, 如圖1(a)所示的二維數據點, 其中偏離了正常樣本點的分布區域(N1, N2)的點(O1, O2和O3)即為異常點。
圖像數據中每一個像素點上的像素值就對應著一個觀測結果. 由于圖像內像素值的多樣性, 僅僅分析某一個點的像素值很難判斷其是否屬于異常. 所以在大部分圖像異常檢測任務中, 需要聯合分析圖像背景以及周圍像素信息來進行分類, 檢測的異常也大多屬于上下文或者模式異常. 當然, 這三種異常類型之間并沒有非常嚴格的界限. 例如, 有一部分方法就提取圖像的各類特征[27], 并將其與正常圖像的特征進行比較以判斷是否屬于異常, 這就將原始圖像空間內模式異常的檢測轉換到了特征空間內點異常的檢測. 圖像異常檢測任務根據異常的形態可以分為定性異常的分類和定量異常的定位兩個類別. 定性異常的分類, 類似于傳統圖像識別任務中的圖像分類任務, 即整體地給出是否異常的判斷, 無需準確定位異常的位置. 如圖2左上圖所示, 左側代表正常圖像, 右側代表異常圖像, 在第一行中, 模型僅使用服飾數據集(Fashion mixed national institute of standards and technology database, Fashion-MNIST)[28]中衣服類型的樣本進行訓練, 則其他類別的樣本圖像(鞋子等)對模型來說都是需要檢測的異常樣本, 因為他們在紋理、結構和語義信息等方面都不相同. 又或者如第二行所示, 異常圖像中的三極管與正常圖像之間只是出現了整體的偏移, 而三極管表面并不存在任何局部的異常區域, 難以準確地定義出現異常的位置, 更適合整體地進行異常與否的分類.
一般情況下圖像異常檢測的目標是通過無監督或者半監督學習的方式, 檢測與正常圖像不同的異常圖像或者局部異常區域. 近年來傳統機器學習方法已經在圖像異常檢測領域有了較多的應用, 而隨著深度學習技術的發展, 越來越多的方法嘗試結合神經網絡來實現圖像異常檢測. 根據在模型構建階段有無神經網絡的參與, 現有的圖像異常檢測方法可以分為基于傳統方法和基于深度學習的方法兩大類別. 如圖3所示, 基于傳統方法的異常檢測技術大致包含六個類別: 基于模板匹配、基于統計模型、基于圖像分解、基于頻域分析、基于稀疏編碼重構和基于分類面構建的異常檢測方法. 而基于深度學習的方法大致包含四個類別: 基于距離度量、基于分類面構建、基于圖像重構和結合傳統方法的異常檢測方法.
本文根據檢測原理將傳統圖像異常檢測方法分類為以下類別: 基于模板匹配、基于統計模型、基于圖像分解、基于頻域分析、 基于稀疏編碼重構和基于分類面構建的異常檢測方法. 傳統的圖像異常檢測算法大多會學習一個模型來描述正常圖像, 隨后在檢測階段根據待檢圖像與現有模型之間的匹配程度來進行異常檢測.
近年來, 深度學習在計算機視覺中的各個領域內都得到了長足的發展. 相比于傳統的方法, 深度學習由于其無需人工設計特征, 算法通用性更高等優點, 已經被廣泛引入到了圖像異常檢測任務當中. 現有的方法大致可以分為以下幾類: 基于距離度量的方法、基于分類面構建的方法、基于圖像重構的方法和與傳統方法相結合的方法.
圖像異常檢測相關的研究方興未艾, 目前有許多識別定性異常的相關文章是在傳統圖像分類數據集上開展的, 諸如MNIST[89], Fashion-MNIST[28], CIFAR-10[90]等等. 而對于定量異常的檢測任務, 所使用的數據集就與具體的應用領域相關, 如表4所示.
本文對近年來圖像異常檢測方法的發展狀況進行了回顧, 可以看到針對這一問題已經有了一定數量的研究. 關于未來可能的研究方向, 我們認為可以從以下幾個角度進行考慮:
1) 構建更為高效的異常檢測算法. 對于異常檢測而言, 不僅僅需要對待檢圖像進行正常與否的判斷, 往往還需要對異常區域進行定位. 比如工業圖像表面的缺陷檢測, 醫學圖像中病變區域的定位等等. 然而, 由于在訓練階段沒有任何關于異常區域的標注信息, 傳統的目標檢測或者圖像分割的方法無法直接應用到異常檢測任務中. 因此, 現有的方法大多采用的是將待檢圖像切分成一系列的圖像塊, 然后分塊進行異常與否的二分類來進行異常區域的定位. 而且, 為了獲得異常區域的準確輪廓, 這種切分的步長一般較小, 會顯著影響算法的效率. 現有的一些方法比如頻譜分析雖然能夠同時處理整張圖像以實現高效的定位, 但該方法對于圖像有一定的要求. 而基于深度學習的圖像重構方法雖然沒有上述約束, 但重構圖像中殘留的異常區域會影響后續的檢測. 因此, 如何兼顧檢測精度和實時性仍需進一步的探索.
2) 小樣本/半監督學習. 現階段的異常檢測方法大部分僅利用正常樣本來訓練模型. 但是在實際檢測任務中, 并不是完全無法獲取真實的異常樣本. 比如在工業外觀檢測任務中, 少量的缺陷樣本是可以獲取的. 而且對幾張缺陷圖像進行標注并不會顯著地增加訓練成本. 而且相關文獻[96]初步嘗試了在訓練過程中引入一張真實異常圖像并且獲得了一定的效果提升. 因此可以考慮結合小樣本學習的方法, 利用大量正常樣本和幾張真實的異常樣本來進行模型訓練以提高性能. 而有些異常檢測任務面臨的是嚴格無監督的環境[98], 連所用樣本是否屬于正常樣本也不可預知, 此時訓練樣本中存在的少量異常樣本就會對模型的訓練產生性能上的影響, 如果采用半監督的訓練方式, 對少量正常和異常樣本進行標注, 可以有效提升模型對潛在異常樣本的檢測能力. 但是這種方法還是會面臨一些問題, 比如采集到的異常樣本顯然不可能囊括所有類別, 如何讓模型兼顧對已知類型和未知類型異常樣本的檢測能力, 也是一個待研究的任務.
3) 更自適應的樣本合成方法. 在許多相關的文獻中[105, 108, 110]都已經證明了在模型訓練階段, 引入各種人工構造的異常圖像能有效地提升檢測性能. 即便構造的異常圖像與真實的異常圖像并不相同, 額外增加的異常圖像可以提升分類面的貼合度或者背景重構的穩定度, 這都可以增加模型對潛在異常圖像的檢測能力. 但相關文獻表明這些額外的異常樣本越接近與正常樣本模型的性能越好[105]. 然而, 相關方法中額外使用的異常圖像大多是采集自別的數據集, 這些圖像一般與正常樣本的分布之間存在較為明顯的差異. 雖然有方法嘗試采用梯度上升的方式合成異常圖像, 但該方法在更為復雜的圖像上的結果還有待論證. 因此, 如何針對各種正常圖像自適應地合成異常樣本也是一個有待解決的問題.
4) 輕量化網絡設計. 基于深度學習的異常檢測方法得益于神經網絡強大的學習能力往往能得到比傳統方法更優秀的性能, 但代價是需要更多的計算量和更長的處理時間. 對于一張待測圖像, 需要利用深層神經網絡提取特征向量以區分正常和異常樣本, 而且重構類的方法還需要再次經過第二個深層神經網絡來重構輸入圖像. 因此, 更為輕量化的網絡設計能夠減少方法的運行時間. 此外, 大多數方法在驗證時硬件條件較好, 而實際生產現場要部署同等算力的設備會需要較高的成本, 因此, 輕量化的網絡設計在減少計算量的同時, 還能降低對硬件設備的需求, 降低在實際應用中的成本. 針對這一問題, 現階段常用的有兩類方法: 1)輕量模型設計, 設計更為高效的網絡計算方法以實現減小模型體積的同時保持性能不變, 例如MobileNet[175]等. 也可以采用知識蒸餾的方式, 用復雜網絡的輸出作為目標來訓練一個更為簡單的網絡; 2)模型壓縮, 有通過剪枝的方式剔除冗余的權重以減小模型大小, 也有通過網絡量化的方式, 以犧牲一定精度為代價減小網絡參數所占空間, 其中二值化模型具有突出的壓縮性能, 更利于模型部署.
5) 更高精度的異常定位方法. 對于異常定位任務, 現有的方法大多會采用滑窗的方式將原始圖像分解成一系列小的圖像區域, 然后再利用異常分類的方式對每一個區域進行異常與否的分析. 這種分塊分析的方式無法精準地定位異常區域, 處于異常紋理與正常紋理的交界處的圖像區域也很有可能被誤判為異常. 而對于能直接定位異常的圖像重構類方法, 又會因自身重構精度的限制, 在正常紋理區域也會出現差異, 這也會影響對一些微弱異常區域的定位效果. 在醫學和工業等領域內異常目標的檢測中, 不僅要關注召回率, 異常檢測的精準率也十分重要. 但從現有方法的效果看, 許多方法主要在召回率方面性能優異, 因為在實際應用領域中漏檢的危害性遠高于誤檢. 但如果能夠在保證召回率的同時提高精準率, 盡可能減少后續人工或者算法的二次處理, 異常檢測方法將能更廣泛地應用在相關領域中. 因此, 如何精準定位異常區域并減少對正常圖像區域的誤判情況, 同樣也是一個值得研究的問題.
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。