摘要:實際生活中有很多帶有季節特征的時空數據,在城市計算領域分布尤廣,例如交通流量數據便具有較為明顯的以天或周為周期的統計學特征。如何有效利用這種季節特征,如何捕捉歷史觀測與待預測數據之間的相關性,成為了預測此類時空數據未來變化趨勢的關鍵。傳統時序建模方法將時序數據分解為多個信號分量,并使用線性模型來進行預測。此類方法具有較強的理論基礎,但對于數據的平穩性要求過于嚴格,難以預測趨勢信息復雜的數據,更不適用于高維的時空數據。然而在真實場景下,季節性時空數據的周期長短可變,且不同周期的對應關系往往并不固定,存在時間、空間上的模式變化與偏移,很難作為理想的周期信號以傳統時序方法建模。相比之下,深度神經網絡建模能力更強,可擬合更為復雜的數據。近幾年有許多工作研究了如何利用卷積神經網絡和循環神經網絡來處理時空數據,也有一些工作討論了如何有效利用周期性信息提升預測的準確性。但深度神經網絡受困于梯度消失和誤差累積,難以捕捉時序數據中的長時間依賴,且少有方法討論如何在深度神經網絡中有效建模上述具有彈性周期對應關系的時空信號。本文針對真實場景下季節性時空數據的上述問題,給出具有彈性周期對應關系的時空數據預測問題的形式化定義,并提出了一種新的季節性時空數據預測模型。該模型包含季節網絡、趨勢網絡、時空注意力模塊三個部分,可捕捉短期數據中的臨近變化趨勢和長期數據中隱含的季節性趨勢,并廣泛考慮歷史周期中的每個時空元素對未來預測值的影響。為了解決深度循環網絡難以捕捉時序數據中的長時間依賴的問題,本文提出一種新的循環卷積記憶單元,該單元將上述模塊融合于一個可端到端訓練的神經網絡中,一方面實現了時間和空間信息統一建,另一方面實現了短期趨勢特征與歷史周期特征的統一建模。進一步地,為了解決季節性數據中的各周期時空元素對應關系不固定的問題,本文探討了多種基于注意力模塊的時空數據融合方式,創新性地提出一種級聯式的時空注意力模塊,并將其嵌入于上述循環卷積記憶單元內。該模塊建模記憶單元的隱藏狀態在不同周期內的彈性時空對應關系,自適應地選取相關度高的季節性特征輔助預測。實驗部分,我們選取了兩個時空數據預測在城市計算中最為典型的應用:交通流量預測和氣象數據預報。本文所提出的時空周期性循環神經網絡在北京、紐約的交通流量數據集、美國氣象數據集上均取得了目前最高的預測準確性。
為了克服遞歸網絡(RNN)學習長期依賴的困難,長短期記憶(LSTM)網絡于1997年被提出并后續在應用方面取得了重大進展。大量論文證實了LSTM的實用性并試圖分析其性質。而“RNN和LSTM是否具有長期記憶?”這個問題依然缺少答案。本論文從統計學的角度回答了這一問題,證明了RNN和LSTM在做時間序列的預測時不具備統計意義上的長期記憶。統計學已有的對于長期記憶的定義并不適用于神經網絡,于是我們提出了一個對于神經網絡適用的新定義,并利用新定義再次分析了RNN和LSTM的理論性質。為了驗證我們的理論,我們對RNN和LSTM進行了最小程度的修改,將他們轉換為長期記憶神經網絡,并且在具備長期記憶性質的數據集上驗證了它們的優越性。
本文針對深度卷積神經網絡提出了一種常規的、易應用的變換單元,即Gated Channel Transformation (GCT) 模塊。GCT結合了歸一化方法和注意力機制,并使用輕量級的、易于分析的變量來隱式地學習網絡通道間的相互關系。這些通道量級的變量可以直接影響神經元間的競爭或者合作行為,且能方便地與卷積網絡本身的權重參數一同參與訓練。通過引入歸一化方法,GCT模塊要遠比SE-Nets的SE模塊輕量,這使得將GCT部署在每個卷積層上而不讓網絡變得過于臃腫成為了可能。本文在多個大型數據集上針對數種基礎視覺任務進行了充分的實驗,即ImageNet數據集上的圖片分類,COCO上的目標檢測與實例分割,還有Kinetics上的視頻分類。在這些視覺任務上,引入GCT模塊均能帶來明顯的性能提升。這些大量的實驗充分證明了GCT模塊的有效性。
摘要:場景分割問題是計算機視覺領域基本而重要的問題,具有廣泛的應用價值。 場景分割需要解決的科學問題是如何對場景中的要素進行精確分割。其主要難 點在于場景圖像的結構十分復雜,包含多種類別和多種尺度的要素,且這些要素 之間存在著豐富的空間關系。同時在實際應用中,在保證場景分割精度的條件下 也需要綜合考慮計算復雜度和速度。因此,場景分割問題的主要難點和挑戰可概 括為三個方面:1)尺度變換多樣,2)空間關系復雜,3)時間復雜度高。近年來, 基于深度學習,尤其是卷積神經網絡的方法在場景分割領域取得了巨大的進展, 但基于深度學習的場景分割方法還存在著一定的局限性。本課題對基于深度學 習的場景分割方法進行研究,針對上述三個難點和挑戰,取得了以下成果:
基于尺度自適應卷積的場景分割方法 目前基于深度學習的場景分割方法主要利用標準卷積,其感受野大小固定。 而場景圖像中要素的尺度變化多樣,導致大尺度要素分割結果不連續,小尺度要 素與背景混淆而遺漏的問題。針對該問題,我們提出尺度自適應卷積方法,對場 景圖像中不同尺度的要素自適應改變卷積感受野大小。該方法可以緩解由于標 準卷積感受野固定引起的大尺度要素分割結果不連續和小尺度要素被遺漏的問 題。尺度自適應卷積的整個過程是可導的,其卷積參數可以利用一個端到端的結 構從數據中自動和隱式的學習。我們在 Cityscapes 和 ADE20K 兩個數據集上驗 證了尺度自適應卷積的有效性。
基于全局和局部修正的場景分割方法 場景圖像中具有復雜的空間關系和豐富的上下文信息,對場景中要素的識 別具有極大的幫助作用。我們分別利用全局上下文信息和局部上下文信息對給 定的場景分割結果進行修正。我們首先提出全局殘差修正網絡,通過捕捉圖像中 的全局上下文信息進行分割結果的修正。經過全局殘差修正網絡修正之后,原 始分割結果中不一致、不連續的區域將被修正。其次,我們提出局部邊界修正網 絡,通過捕捉圖像中的局部上下文信息,對給定分割結果的邊界和細節進行修 正。經過局部邊界修正網絡修正之后,原始分割結果中的分割邊界將更加精確和 平滑。這兩種修正網絡均可單獨使用,也可以級聯在給定的分割網絡之后形成一 個統一框架,以共同提高修正結果的精度。在 Cityscapes 和 ADE20K 兩個數據 集上的結果顯示這兩種修正網絡可以有效提高給定分割結果的精度。
基于高分辨率特征圖重建的場景分割加速方法 現有大多數場景分割方法著眼于提高模型的分割精度,因此使用較深的神 經網絡和較高分辨率的特征圖,分割精度較高但速度較慢。為解決由于較大尺寸 輸入圖像和高分辨率特征圖導致的場景分割速度較慢的問題,我們提出高分辨 率特征圖重建方法對任意給定的場景分割框架進行加速。該方法利用降采樣輸 入圖像的特征圖對原始大小輸入圖像的特征圖進行重建。利用降采樣輸入圖像 進行特征學習的速度較快,而重建原始大小輸入圖像的特征圖可以緩解使用降 采樣輸入圖像導致的細節丟失和精度下降問題。我們在兩個公開數據集上驗證 了高分辨率特征圖重建方法的有效性,當使用 1/2 降采樣率時,可以在分割精度 損失忽略不計的情況下得到約 3 倍的加速比。
關鍵詞:場景分割,深度學習,尺度自適應卷積,全局和局部修正網絡,高分辨 率特征圖重建
作者簡介:張蕊,2009年9月-2013 年7月,在北京航空航天大學數學與系統科學學院獲理學學士學位。2013年9月-2019年7月,在中國科學院計算技術研究所攻讀博士學位,博士生導師是李錦濤。