來自南京理工大學的李翔博士論文,入選2022年度“CCF優秀博士學位論文獎”初評名單!
//www.ccf.org.cn/Focus/2022-12-08/781244.shtml
近年來,深度卷積神經網絡在計算機視覺領域取得了革命性的進展,并被廣泛地 應用到圖像分類、物體檢測、實例分割等經典的計算機視覺問題當中。深度卷積神經 網絡通過層次化地響應圖像局部單元使其能夠充分利用輸入數據的二維結構,從而針 對圖像提取魯棒與鑒別性的特征表示。卷積網絡本質上是一種卷積核在空間維度參數 共享的前饋神經網絡,它的成功主要歸功于良好的模塊架構設計以及合理地解決優化 過程中的問題。本文從上述兩個角度,即架構設計和優化相關問題,進行了較為深入 的探索和研究,其主要工作內容如下:
(1) 早期的卷積神經網絡基礎架構 (如卷積、池化) 的誕生受到了初級視覺皮層神經元 響應特性的啟發,而最新的架構研究進展則更側重于工程、優化和效率層面,較 少關注生物特性方面的指導。本文首先嘗試從現代深度網絡架構所忽視的一種生 物視覺特性:即神經元隨環境刺激動態調整視覺感受野出發進行建模,提出了選 擇性核 (Selective Kernel, SK) 架構,使得網絡能夠根據輸入圖像信號自適應地選 擇不同感受野的信息特征。本文通過對環境刺激的模擬實驗驗證了該動態選擇機 制的有效性,且基準網絡的識別能力也得到了顯著的增強。其次,基于最新流行的兩種代表性的拓撲架構設計——跨層連接 (ResNet) 和密 集連接 (DenseNet),本文首次揭示了兩者本質上都隸屬同一種密集拓撲 (Dense Topology) 的連接結構,而它們的區別僅在于最終連接部分所采用的具體形式。在此基礎上,本文提出了一種混合連接架構,該架構統一了 ResNet 和 DenseNet 的拓撲設計,使網絡獲得了更高的參數效率。同時,本文從現有注意力架構設計中存在的空間注意力掩碼過于單一、用于注 意力掩碼生成的信息源不夠豐富等局限性出發,提出了輕量級的空間分組增強 (Spatial Group-wise Enhance, SGE) 架構,從而增加了空間注意力掩碼及其信息 源的維度,以幾乎可以忽略不計的額外代價進一步提升了基準網絡在圖像分類和 檢測任務中的性能。最后,為了解決非常特殊的線狀物體的檢測問題,以及現有的兩階段的方法無法 很好地捕捉車道線的全局特征表示,本文對卷積網絡的底層設計進行了調整與改 進,提出了一種線提議卷積網絡架構 (Line Proposal Unit, LPU),借助射線參考 系的數據結構表征讓網絡能夠端到端地捕捉學習整條線在圖像中的全局特征,進 而得到精準的車道線檢測結果。本文的方法在多個數據集上超越了此前的最優方 法,其算法原型已應用部署到實際的產品中。
(2) 深度卷積神經網絡在優化的過程中會存在一系列問題,例如多個模塊之間的優化 沖突。本文從該角度出發,研究了具體的 “兩個沖突” 問題:在 “第一個沖突” 中,本文從理論和實驗兩個方面探索了特征批歸一化 (Batch Normalization, BN) 與隨機丟棄方法 (Dropout) 的沖突。其根源是來自網絡從訓 練狀態切換為測試狀態時產生的 “方差偏移”,從而造成了網絡識別性能的下降。進一步,本文通過調整模塊的位置以及引入對方差變化不敏感的隨機丟棄方法來 消除或減弱方差偏移帶來的影響;在 “第二個沖突” 中,本文從理論和實驗兩個方面研究了權重歸一化 (Weight Normalization, WN) 家族與權重衰減 (Weight Decay, WD) 的沖突,它主要體現 在權重歸一化在優化過程中梯度與權重模長成反比而帶來的訓練不充分或不穩定 等現象。對此本文引入 ? 偏移的二范數正則項,從而限制模長的過度衰減,防止 梯度浮點溢出,在大幅提升訓練穩定性的同時,網絡的識別性能也獲得了一定的 增益。
**深度神經網絡(dnn)在人工智能(AI)的廣泛應用中蓬勃發展。深度神經網絡的普遍采用可以歸因于其對不同任務的高度可定制性。**事實上,研究人員已經為不同的應用設計了DNNs的變種,例如,用于視覺識別的卷積神經網絡(CNNs)、用于圖像合成的生成對抗網絡(GANs)、用于時間序列處理的循環神經網絡(RNNs)等。所有這些變體都具有高度不同的網絡拓撲和訓練目標。
//dataspace.princeton.edu/handle/88435/dsp01zk51vm00t
盡管DNNs取得了成功,但人們越來越關注DNNs的效率。當前的DNN資源匱乏,為它們在資源有限的邊緣設備上部署設置了困難的障礙。然而,深度神經網絡應用的廣泛性增加了發現高效的不同變體深度神經網絡的難度。由于這種關鍵的多樣性,很難產生一種通用方法來獲得高效的DNN,并在不同的應用程序中具有令人滿意的性能。
本文通過一個簡單而直觀而有效的概念,解決了不同領域的深度神經網絡高效設計的挑戰:深度神經網絡本身是為不同的學習目標定制的,提高其效率的方法也應該是定制的。有了這個概念,本文提出設計高效CNN、GANs和RNN的方法。本文首先提出了一種CNN壓縮算法——類判別壓縮(CDC),與CNN的類判別訓練目標無縫契合,并在不損失精度的情況下為ImageNet上的ResNet50提供了1.8倍的加速。對CNN壓縮的通道剪枝進行了深入研究。在分類精度目標的驅動下,本文提出一種進化框架,以自動發現優于手動設計的可遷移剪枝函數。本文進一步研究了GAN圖像合成的另一種應用。GAN被訓練成合成真實的內容,從而提出了一種內容感知的GAN壓縮方法,將最先進的模型加速了11倍,而圖像質量損失可以忽略不計。最后,我們將研究擴展到系統設計領域,我們的目標是通過構建高效的RNN數據預取器來緩解內存墻。本文提出一種多架構協同設計策略,將最先進的神經預取器速度提高15倍,性能甚至更好。
來自中科院計算所的嚴明玉博士論文,入選2022年度“CCF優秀博士學位論文獎”初評名單! //www.ccf.org.cn/Focus/2022-12-08/781244.shtml 圖計算應用和圖神經網絡是處理圖數據的核心應用,被廣泛應用于各個領 域。圖數據處理應用特有的執行行為導致傳統的通用架構無法高效地執行上述 應用。隨著智能萬物互聯時代的來臨,上述應用急需高效的硬件平臺加速。加速 圖計算應用的主要挑戰是不規則的執行行為,而加速圖神經網絡面臨兩個主要 的挑戰是混合的執行行為和算法模型的快速演變。因此本文從分析圖計算應用 和圖神經網絡的執行特征出發,對專用圖處理加速架構進行了探索,設計了如下 三款加速架構分別應對上述三個挑戰。具體主要包括以下三方面的貢獻:
基于數據依賴感知的動態調度圖計算加速架構 (GraphDynS): 首先,對圖 計算應用因依賴圖數據的不規則執行行為進行了深入分析,并歸納出導致 不規則執行行為的三種不規則性。然后,基于解耦合的 Vertex-centric 編程 模型解耦合圖計算應用的硬件通路,以建立數據依賴可視化且易調度的硬 件通路。最后,在解耦合的硬件通路上基于數據依賴感知對不規則執行行 為進行動態調度,以消除不規則性對性能的影響。在 16nm 工藝下,得到 GraphDynS 的功率和面積分別為 3.38 W 和 12.08 mm2,并比最先進的圖計 算加速架構 (Graphicionado) 快 1.8 倍且少 45% 能耗。?
多模混合圖神經網絡加速架構 (HyGCN): 對混合的執行行為進行了定量分析并設計了世界第一款圖神經網絡加速架構。該架構包含了圖遍歷引擎 和神經網絡引擎,分別用于減少不規則執行行為對性能的影響和利用規則 執行行為提高執行效率。為了進一步提高整體性能,通過構建引擎間的數 據流減少了無效計算和訪存,并基于優先級的訪存調度策略高效地協調引 擎間的片外訪存。在 12nm 工藝下,得到 HyGCN 的功率和面積分別為 6.7 W 和 8.8 mm2,比運行在 NVIDIA GPU V100 的最先進圖神經網絡軟件框 架 (Pytorch Geometry) 快 6.5 倍且少 90% 能耗。?
可重配置圖神經網絡加速架構 (UFlowGCN): 雖然算法模型不停地演變, 但核心操作離不開鄰居節點屬性向量的聚合和節點屬性向量的神經網絡 變換,并且它們的計算圖和訪存分別可以用歸約圖和變長向量訪存統一表 示。因此,本文首先提取了兩者的統一微歸約計算圖,并設計了支持各種聚合操作和點乘的 8 輸入微歸約圖計算單元。接著提出了動態數據流調度 機制,以通過微歸約圖處理單元構建各種類型和規模的計算圖,實現了計 算資源的可重配置性。最后利用訪存共性設計了高效支持變長向量訪問的 存儲子系統,實現了片上存儲資源的可重配置性。在 12nm 工藝下,得到 UFlowGCN 的功率和面積分別為 18.6 W 和 14.5 mm2。UFlowGCN 在一定 程度上兼容未來的算法模型,并比 HyGCN 快 2.5 倍且少 29% 能耗。
魯棒和高效的3D場景理解可以使具身智能體實時安全地與物理世界交互。過去十年計算機視覺取得顯著成功的關鍵在于卷積神經網絡的重新發現。然而,由于維度的詛咒,這種技術并不總是直接轉化為3D。數據的大小隨著體素的增加呈立方體增長,同樣水平的輸入分辨率和網絡深度與2D相比是不可行的。基于對三維空間基本為空的觀察,稀疏張量和稀疏卷積由于只作用于非空的空間,作為二維卷積的高效的三維對應物而突出出來。這種效率增益支持更深入的神經網絡,以獲得實時參考速度的更高精度。為此,本文探討了稀疏卷積在各種3D場景理解任務中的應用。
//searchworks.stanford.edu/view/14311969
本文將一個整體的3D場景理解流程分解為以下子目標:1.三維重建數據采集; 2. 語義分割,3. 目標檢測; 4. 多目標跟蹤。考慮到機器人應用,本文旨在實現更好的性能、可擴展性和效率,以理解時空域的高級語義,同時解決稀疏數據所提出的獨特挑戰。在這篇論文中,我們提出了廣義稀疏卷積,并演示了我們的方法1。利用三維點云的稀疏性來提高效率。利用所獲得的效率,實現了魯棒的性能,3。通過動態生成點對空白空間進行預測;結合時空推理解決檢測跟蹤問題。總之,本文提出了一種高效、可靠的三維場景整體理解途徑。
基于深度學習的圖像處理算法研究
隨著智能手機和微單相機的普及,拍照已經變成人們日常生活中不可缺少的一部分,圖像也已成為人類社會的重要信息媒介。然而受到拍照環境、設備和技術的影響,圖像中難免會出現退化現象,如何從圖像處理的角度提升拍攝照片的質量具有重要的研究意義與應用價值。近年來,深度學習技術得到了巨大的發展,并廣泛應用于圖像處理領域。相對于許多傳統算法,深度學習技術從海量的訓練數據中學習到的先驗知識具有更強的泛化能力和更復雜的參數化表達,且無需調節算法參數以適應不同的應用場景。得益于上述優勢,深度學習技術已經廣泛應用于圖像處理領域,如何利用深度學習算法提升圖像處理的效果也變成了一個重要的研究方向。
盡管深度學習技術顯著促進了圖像處理領域的發展,但是受限于其對訓練數據的敏感性,在面對無標簽、僅有弱標簽或者合成偽標簽的數據時,深度學習技術的優勢難以充分體現。本學位論文針對以上挑戰,重點研究了缺失完整數據標簽的經典圖像處理問題,包括圖像平滑、反光去除和本征圖像分解等。本文通過將上述問題抽象為對圖像結構敏感的圖像分解問題,將顯著的目標邊緣信息通過優化或者濾波的方式編碼進深度學習的算法設計中。根據圖像處理問題中數據標簽的類型和數量不同,本文依次提出了基于無監督學習、弱監督學習和多標簽聯合訓練的深度學習解決方案。本文的最后提出了解耦學習框架,通過對10種不同圖像處理問題的聯合訓練,提煉出了圖像處理問題的核心解空間。該算法對于理解深度學習技術在圖像處理領域的應用有重要的研究價值和意義。本文的創新點和貢獻包括以下幾個方面:
(1) 一種基于無監督學習的空間自適應圖像平滑算法
該算法通過使用卷積神經網絡,以無監督的方式從無標簽數據中學習圖像平滑的優化過程,并實現可靈活調節的圖像平滑效果。該算法提出了一個由邊緣保持項和空間自適應平滑項構成的能量函數,前者用于保持重要但易破壞的圖像結構,后者用于將多種形式的正則器(Lp范數)施加至圖像的不同區域。由于缺乏平滑圖像的真值數據,本文采用一個無監督學習的能量優化框架,用來實現多種基于圖像平滑的視覺應用,譬如圖像抽象化、鉛筆素描、細節增強、紋理去除和基于內容的圖像處理等。實驗結果表明,該基于無監督學習的空間自適應圖像平滑算法獲得了更好的視覺結果。
(2) 一種基于弱監督學習的圖像反光去除算法
該算法提出了一個多階段卷積神經網絡,用以解決圖像分解領域中經典的反光去除問題。本算法框架由兩個結構相似的卷積神經網絡串聯而成,前者預測目標圖像的邊緣結構,后者依據預測邊緣信息的引導重建目標圖像;整個過程既不需要任何人工設計,也不依賴于其他圖像處理應用。通過從真實反光圖像觀察得到的圖像亮度和結構先驗,該算法設計了一種針對模糊強反光的反光圖像合成算法;通過將合成數據以弱監督信號的形式融入到多階段神經網絡訓練中,該算法獲得了在真實反光圖像上的良好泛化性能。實驗結果表明,該基于弱監督學習的圖像反光去除算法在不同程度的反光場景中均獲得更優的視覺效果。
(3) 一種基于多標簽聯合訓練的本征圖像分解算法
本征圖像分解往往存在數據集冗雜、數據標簽不一致等問題。為解決該問題,本文提出了一個通用的核心神經網絡,用以在不同類型的數據標簽中共享本征圖像形成過程的稀疏先驗。該神經網絡由三個不同的基礎模塊組成:直接本征圖像估計網絡、導向網絡和域濾波器;其中,直接本征圖像估計網絡通過對本征圖像的直接監督獲得初始的預測結果,導向網絡負責生成稀疏的反射結構先驗,并引導域濾波器獲得干凈的反射估計。該算法設計了一個靈活的能量損失層以實現多標簽數據聯合訓練的目的。實驗結果表明,該本征圖像分解算法在所有的主流基準數據集上都獲得了更高的精確度。
(4) 一種基于解耦學習的實時參數化圖像處理框架
傳統的深度學習算法在面對不同的圖像處理應用時,需要重復地訓練神經網絡。為了解決這個問題,該算法提出了由基礎網絡和權重學習網絡組成的解耦學習框架,其中前者用來實現具體的圖像處理應用,后者用來學習基礎網絡的權重。該算法通過對基礎網絡的結構和權重進行解耦,達到根據圖像處理應用的變化實時動態調整基礎網絡權重的效果,并因此實現了利用單一神經網絡融合多種圖像處理應用的目的。實驗結果表明,該解耦學習框架成功應用在10種不同的參數化圖像算子中,并減少了網絡參數的存儲空間。
圖卷積網絡(Graph Convolutional Networks, GCNs)作為一種學習圖結構數據的神經網絡,在處理圖數據分析問題上表現出了極大的人氣,被用于如節點分類、圖分類、鏈路預測、推薦等任務中。典型的GCN及其變體通常采用消息傳遞方式,其關鍵步驟是特征聚合,即一個節點在每個卷積層中聚合來自其拓撲鄰居的特征信息。這樣,特征信息通過網絡拓撲結構傳播到鄰居節點表示中,然后通過學習所有節點嵌入表示用于下游任務如分類等,該學習過程是由部分節點標簽來監督的。實際上,GCNs能夠取得巨大的成功部分歸功于它提供了一種拓撲結構和節點特征的融合策略來學習節點表示,而這種融合策略的學習訓練過程由一個端到端的模型框架來監督。
這里我們首先思考了一個問題:作為端到端框架的GCNs,從拓撲結構和節點特征中真正學習和融合了什么樣的信息? 在第二小節我們通過實驗設計評估了GCNs融合拓撲結構和節點特征的能力。實驗結果表明,GCNs在融合網絡拓撲結構和節點特征上能力上與最理想的水平相差甚遠。即使在一些簡單的情況下(節點的特性/拓撲與節點標簽的關聯是非常明確的)GCN仍不能自適應地融合節點特性和拓撲結構并提取最相關的信息。而無法自適應學習到拓撲結構、節點特征與最終任務之間最相關的信息,可能會嚴重阻礙GCNs在分類任務中的表現能力,并且由于實際應用中圖數據與任務之間的相關性往往非常復雜且不可知,因此自適應能力也是很重要的。
針對這些問題,我們提出了一種靈活地用于半監督節點分類的自適應多通道圖卷積網絡方案。其核心思想是同時學習基于節點特征、拓撲結構及其組合的節點嵌入,并依據特征與結構之間的相似性對標簽預測的作用往往是互補的這一事實,采用設計的自適應融合機制來獲取對分類任務最有幫助且最深層次的相關信息。
本文研究如何更好聚合網絡拓撲信息和特征信息。中心思想是,構造了結構圖,特征圖(feature graph),以及兩者的組合來提取特定的和通用的嵌入,并使用注意機制來學習嵌入的自適應重要性權重。實驗發現,AM-GCN可以從節點特征和拓撲結構中提取自適應地提取相關的信息,對應不同的參數取值。 //arxiv.org/abs/2007.02265
摘要:圖卷積網絡(GCNs)在處理圖數據和網絡數據的各種分析任務方面得到了廣泛的應用。然而,最近的一些研究提出了一個問題,即GCNs是否能夠在一個信息豐富的復雜圖形中優化地整合節點特征和拓撲結構。在本文中,我們首先提出一個實驗研究。令人驚訝的是,我們的實驗結果清楚地表明,當前的GCNs融合節點特征和拓撲結構的能力遠遠不是最優的,甚至是令人滿意的。由于GCNs無法自適應地學習拓撲結構與節點特征之間的一些深層次關聯信息,這一弱點可能會嚴重阻礙GCNs在某些分類任務中的能力。我們能否彌補這一缺陷,設計出一種新型的GCNs,既能保留現有GCNs的優勢,又能大幅度提高拓撲結構和節點特征融合的能力?為了解決這個問題,我們提出了一種自適應多通道半監督分類圖卷積網絡。其核心思想是同時從節點特征、拓撲結構及其組合中提取具體的和常見的嵌入,并利用注意機制學習嵌入的自適應重要度權值。我們在基準數據集上進行的大量實驗表明,AM-GCN從節點特征和拓撲結構中提取了最多的相關信息,顯著提高了分類精度。