露脸视频一区二区三区在线播放,国产精品久久久精品无码A片闺蜜,激情天天综合网亚洲天堂,国产一区二区免费精品无码电影,国产精品第一区二区三区

圖神經網絡憑借其處理非歐氏空間數據及其復雜特征方面的優越性受到了大量的關注, 并且被廣泛應用于推薦系統、知識圖譜、交通道路分析等場景中. 面對大規模數據, 圖結構的不規則性、節點特征的復雜性以及訓練樣本之間的依賴性對圖神經網絡模型的計算效率、內存管理以及分布式系統中的通信開銷造成了巨大的壓力. 為應對和緩解以上問題, 研究者從應用場景、算法模型、編程框架和硬件結構等多個層面對其進行了優化. 本文主要回顧和總結了算法模型及編程框架方面的優化, 為讀者了解面向大規模數據的圖神經網絡采樣算法以及框架優化相關工作提供幫助, 為未來算法-框架協同優化奠定基礎. 具體來說, 本文首先簡要介紹圖神經網絡模型中的消息傳遞機制, 分類介紹常見的圖神經網絡模型, 并分析其在大規模數據訓練中面臨的困難和挑戰；然后對面向大規模數據的圖神經網絡算法模型進行分類總結和分析, 包括基于節點、邊和子圖的采樣算法；接著介紹圖神經網絡編程框架加速的相關進展, 主要包括主流框架的介紹以及優化技術的分類總結和分析；最后對未來面向大規模數據的圖神經網絡研究進行展望.

1 引言

圖結構能夠有效表征自然界和社會生活中廣泛存在的復雜關系, 如基因結構[1-2]、通信網絡[3]、交通路線[4]、社交網絡[5-6]等. 針對相互關聯的圖數據, 圖計算能夠有效挖掘其結構信息, 但是不具備對其節點特征 (比如, 社交網絡中用戶興趣、年齡等附加信息) 的學習能力. 另一方面, 神經網絡模型通過海量參數訓練能夠靈活表示數據的復雜特征, 在圖片、視頻、文本等基于歐氏空間的數據上表現出優越的性能[7-9] , 但其無法直接應用于非歐氏空間的圖數據. 綜合圖計算和神經網絡的優勢, 圖神經網絡 (Graph Neural Network, GNN)[10-11]憑借其在處理非歐氏空間數據及其復雜特征方面的優越性受到了大量的關注, 并被廣泛應用于網絡鏈接預測[12]、推薦系統[13-14]、交通道路分析[15]等場景中。

實際應用場景中通常需要處理海量數據. 2019 年, 阿里巴巴研究團隊在其工作[16]中提到常見的電商平臺往往存在百億級節點、千億級邊, 其存儲開銷超過 10TB. 在面向大規模數據的圖神經網絡中, 圖數據的不規則性、特征復雜性以及訓練過程中樣本間的依賴性對模型計算效率、內存管理、以及分布式系統中的通信開銷造成了巨大的壓力. 下面我們將圖神經網絡模型在大規模數據應用中面臨的挑戰按照來源分為圖數據結構、圖神經網絡模型、數據規模和硬件平臺四類, 分別介紹. (1) 圖數據結構. 圖結構數據的不規則性、稀疏性、動態性、節點鄰居數量呈冪律分布以及樣本間的相互依賴, 對高效的訪存造成了一定的壓力, 尤其對面向大規模數據場景的分布式計算系統提出了更大的挑戰. (2) 圖神經網絡模型. 節點的高緯表示是圖神經網絡模型區別與傳統圖算法的典型特征, 在增強了模型表示能力的同時, 也造成了更大的計算和內存開銷, 尤其是在大規模數據的應用中面臨更大的挑戰. 其迭代更新的機制設計使得深層的圖神經網絡模型面臨鄰居節點爆炸的問題. (3) 數據規模. 典型的圖神經網絡模型采用整批訓練的模式, 這在大規模數據的應用中存在內存限制的問題. 在基于分批訓練模式的圖神經網絡模型中, 數據大規模性增大了數據劃分和迭代更新的難度. (4) 硬件結構. 圖神經網絡模型在圖數據結構和復雜特征方面的建模需求使得模型既需要靈活的不規則數據讀取, 又需要高效的密集計算. 目前 CPU 在靈活讀取方面表現較好, GPU 支持高效的密集計算, 但二者都不能同時滿足這兩點需求. 圖神經網絡的需求和硬件結構的不匹配增加了大規模圖神經網絡模型加速的難度.

為應對和緩解上述困難和挑戰, 研究者通過優化硬件結構、編程框架、算法模型以及應用模型 (如圖 1所示), 來提高圖神經網絡模型的可拓展性、加速模型運行過程以及減小內存開銷[17-18] . 在應用模型方面, 針對自然語言處理、交通道路預測、推薦系統等不同的應用場景提出具體的處理策略[4,13,19] , 以提高圖神經網絡模型在具體任務上的處理效率. 在算法模型方面, 典型的圖神經網絡模型采用整批訓練的方式, 要求將完整的圖數據載入內存, 在面向大規模數據訓練 (尤其是基于 GPU 進行訓練) 時往往面臨內存不足的問題. 針對這一問題, 一些研究工作提出通過采樣算法實現圖神經網絡模型的分批訓練, 比如 GraphSage[20] , FastGCN[21] , Cluster-GCN[22]等. 在編程框架方面, 圖神經網絡迭代更新的表示機制導致訓練樣本之間相互依賴, 使得 TensorFlow、Pytorch 等典型的神經網絡框架無法有效地實現模型分批訓練及其高效運行. 計算過程中的特征復雜性對原有圖計算框架提出了更大的內存和計算需求. 結合傳統神經網絡和圖計算框架的特點, Deep Graph Library(DGL)[23]、PyTorch Geometric(PyG)[24]等面向圖神經網絡的編程框架被提出來緩解這一問題.

在硬件結構方面, 一些研究者結合 CPU、GPU、 FPGA 等硬件的結構特征, 在計算、訪存等方面提出了對應的優化策略[25-27] . 或者針對圖神經網絡的特征設計了專用的硬件加速結構, 比如 HyGCN[28] . 基于以上大量的研究工作, 目前已有綜述從應用模型、算法模型、編程框架以及硬件結構四個方面總結和分析圖神經網絡相關的進展, 表 1列出了本文相關的 5 篇綜述. 綜述[29]總結了圖神經網絡在算法和應用方面的主要進展, 將 GNN 算法分為循環 GNN、圖卷積神經網絡 (Graph Convolutional Network, GCN)、圖自編碼器和時空 GNN 四類進行介紹, 并總結了開源的數據集、已有方法的實現和應用場景. 綜述[30]將圖神經網絡模型的設計過程總結為消息傳播模式、采樣方法和池化操作三個子模塊的設計, 并總結了不同的圖神經網絡模型和應用場景. 除了分類介紹 GNN 算法模型和應用場景, 綜述[31]還總結了已有的典型框架: 消息傳播網絡 (Message Passing Neural Network, MPNN)、非局部神經網絡 (Non-Local Neural Network, NLNN)、圖網絡 (Graph Network, GN) 和混合網絡模型 (Mixture Model Networks, MoNet). 綜述[32]主要從算法模型和應用場景兩方面總結了圖卷積神經網絡 (GCN) 的提出、發展和應用. 綜述[33]主要總結了 GNN 在算法、軟硬件加速器方面的進展, 首先從計算過程的角度介紹了 GNN 的基礎操作和算法分類, 然后從軟件 (編程框架) 和硬件兩個方面總結了 GNN 加速器相關的工作, 最后展望了今后加速器設計可能的方向: 軟硬件結合、圖感知和以通信為中心. 綜述[34]總結了現有圖神經網絡編程框架的設計和實現方案, 分類分析了其中的優化技術, 并對開源的圖神經網絡編程框架進行了試驗評估. 綜述[35]首先概述了 GNN 基礎知識、典型算法、應用場景和主流編程框架, 然后介紹了 GNN 加速結構的整體設計, 并從 GNN 加速面臨的挑戰出發詳細介紹了計算、片內訪存、片外訪存方面的關鍵技術。總的來說, 綜述[29-32]側重于總結和分析采用整圖 (full-batch) 訓練模式的圖神經網絡模型及其相關應用場景. 然而, 當圖中的節點或邊的數量達到百萬甚至十億級時, 訓練過程往往會超出單塊 GPU 的內存限制. 針對這一問題, 一些方法的提出促進了圖神經網絡模型從全圖訓練方式到分批 (minibatch) 訓練方式的轉變。其中, 采樣算法為圖神經網絡模型的分批訓練提供支持, 為其在大規模數據中的應用奠定了基礎. 面向圖神經網絡的編程框架結合了深度學習框架和圖結構的具體特征, 提高了存儲利用率和計算效率, 促進了圖神經網絡模型在大規模數據中的應用. 相關綜述[33-34]主要總結了圖神經網絡編程框架方面的進展. 綜述[36-38]主要針對分布式平臺, 總結和分析了分布式 GNN 在算法模型、軟件框架和硬件平臺等方面的相關進展. 與現有綜述相比, 本文主要針對大規模圖神經網絡, 從算法模型和框架優化兩個方面對現有研究進行了調研、總結和分析. 本文首先對 GNN 的基礎知識和典型算法進行介紹和總結; 總結分析了基于不同粒度采樣策略的圖神經網絡模型; 總結分析了主流的加速框架及其相關技術. 為后續圖神經網絡模型在大規模數據數據應用中框架-算法的協同優化提供更多的思路.

本文的內容安排如圖 2所示. 第 2 部分簡要介紹圖神經網絡, 包括消息傳遞機制、常見的圖神經網絡模型及其在針對大規模數據訓練時面臨的困難和挑戰. 第 3 部分分類總結和分析圖神經網絡模型針對大規模數據的優化工作, 主要包含對不同粒度的采樣算法的介紹. 第 4 部分介紹和總結圖神經網絡編程框架加速方面的進展, 包括對主流框架的介紹和相關加速技術的分類總結. 第 5 部分對全文進行總結并對面向大規模數據的圖神經網絡在算法模型和編程框架方面的未來研究進行展望.

2 圖神經網絡

圖神經網絡 (Graph Neural Network, GNN) 是面向圖結構數據的神經網絡模型[10-11] , 主要用于對圖數據中的節點進行向量表示及其相關任務[39-40] , 融合了圖計算和神經網絡模型的優勢, 能夠在捕捉圖結構的同時抽象出節點包含的復雜特征[41] . 其中, 圖計算模型能夠很好地捕捉圖的拓撲結構特征, 但無法處理節點的高維特征. 典型神經網絡模型通常用于處理歐氏空間數據, 比如, 卷積神經網絡適用于處理網格類數據[42] , 循環神經網絡在捕捉序列信息方面表現較好[43] . 綜上, 針對非歐氏空間的復雜圖數據, 圖結構本身不規則并且節點包含復雜特征, 其建模過程需要一種新的處理機制. 目前比較受歡迎的消息傳播模式通過獲取高階鄰居信息來提升節點的表達能力, 主要包括鄰居聚合和節點更新兩個步驟[44] . 本節將從消息傳遞機制出發. 首先簡要介紹基于此的圖神經網絡模型中的兩個主要操作, 聚合和更新操作. 然后分類介紹常見的圖神經網絡模型: 圖卷積神經網絡、圖注意力網絡、循環圖神經網絡以及基于自編碼器的圖神經網絡. 并針對每一類圖神經網絡模型, 分析其在大規模數據訓練過程中存在的挑戰. 最后對圖神經網絡模型在面向大規模數據訓練過程中存在的挑戰進行總結.

3 圖神經網絡采樣算法

針對圖神經網絡在大規模數據訓練中面臨的挑戰, 一些研究工作在算法模型方面進行了對應的優化. 大部分工作集中在針對數據的優化方面, 主要通過不同粒度的采樣算法實現分批訓練以應對數據大規模性在計算效率和內存開銷方面帶來的挑戰. 根據采樣粒度，已有的采樣算法可以分為基于節點的采樣算法、基于層的采樣算法以及基于子圖的采樣算法. 下文將分別介紹和分析三類采樣算法及其涉及的具體模型.

4 圖神經網絡框架加速

圖神經網絡中計算過程包含圖結構數據的不規則訪存 (集中于聚合階段) 和復雜特征的大量計算 (集中于更新階段). 然而, 傳統神經網絡編程框架只擅長加速規則數據的計算效率, 在不規則訪存方面性能較差. 圖計算框架在圖遍歷等不規則訪存任務上表現較好, 但并不適用于節點復雜特征的訪存和計算. 針對以上問題, 不少研究者提出了面向圖神經網絡模型的編程框架并進行了相關優化技術的探索, 為面向大規模數據的圖神經網絡模型運行以及優化奠定了基礎. 本節將分別對編程框架和相關優化技術進行分析和總結.

5 總結與展望

數據大規模性是圖神經網絡模型在應用中面臨的主要挑戰之一, 大量的研究工作從不同的角度進行了性能優化和加速. 針對現有綜述在這一方面的空白, 本文分析總結了現有圖神經網絡模型存在的具體挑戰, 并從算法模型和編程框架兩個方面介紹了圖神經網絡在大規模數據應用中的相關進展. 下文將對面向大規模數據的圖神經網絡模型中存在的挑戰進行總結, 并總結本文在算法模型和編程框架方面的綜述工作. 然后對未來相關工作進行展望.

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

圖神經網絡 · GPU ·

2023 年 1 月 19 日

[付費5元查看完整內容]面向多GPU的圖神經網絡訓練加速

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖神經網絡由于其強大的表示能力和靈活性最近取得了廣泛的關注. 隨著圖數據規模的增長和顯存容量的限制, 基于傳統的通用深度學習系統進行圖神經網絡訓練已經難以滿足要求, 無法充分發揮GPU設備的性能. 如何高效利用GPU硬件進行圖神經網絡的訓練已經成為了該領域重要的研究問題之一. 傳統做法是基于稀疏矩陣乘法, 完成圖神經網絡中的計算過程, 當面對GPU顯存容量限制時, 通過分布式矩陣乘法, 把計算任務分發到每個設備上, 這類方法的主要不足有: (1)稀疏矩陣乘法忽視了圖數據本身的稀疏分布特性, 計算效率不高; (2)忽視了GPU本身的計算和訪存特性, 無法充分利用GPU硬件. 為了提高訓練效率, 現有一些研究通過圖采樣方法, 減少每輪迭代的計算帶價和存儲需求, 同時也可以支持靈活的分布式拓展, 但是由于采樣隨機性和方差, 它們往往會影響訓練的模型精度. 為此, 提出了一套面向多GPU的高性能圖神經網絡訓練框架, 為了保證模型精度, 基于全量圖進行訓練, 探索了不同的多GPU圖神經網絡切分方案, 研究了GPU上不同的圖數據排布對圖神經網絡計算過程中GPU性能的影響, 并提出了稀疏塊感知的GPU訪存優化技術. 基于C++和CuDNN實現了該原型系統, 在4個不同的大規模GNN數據集上的實驗表明: (1)通過圖重排優化, 提高了GPU約40%的緩存命中率, 計算加速比可達2倍; (2)相比于現有系統DGL, 取得了5.8倍的整體加速比.

//www.jos.org.cn/jos/article/abstract/6647

付費5元查看完整內容

神經網絡 · 偏微分方程 · 綜述論文 ·

2022 年 12 月 7 日

[付費5元查看完整內容]基于神經網絡的偏微分方程求解方法研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

　神經網絡作為一種強大的信息處理工具在計算機視覺, 生物醫學, 油氣工程領域得到廣泛應用, 引發多領域技術變革. 深度學習網絡具有非常強的學習能力, 不僅能發現物理規律, 還能求解偏微分方程. 近年來基于深度學習的偏微分方程求解已是研究新熱點. 遵循于傳統偏微分方程解析解、偏微分方程數值解術語, 本文稱用神經網絡進行偏微分方程求解的方法為偏微分方程智能求解方法或偏微分方程神經網絡求解方法. 本文首先簡要介紹偏微分方程智能求解發展歷程, 然后從反演未知偏微分方程與求解已知偏微分方程兩個角度展開討論, 重點討論已知偏微分方程的求解方法. 根據神經網絡中損失函數的構建方式, 將偏微分方程求解方法分為 3 大類: 第 1 類是數據驅動, 主要從數據中學習偏微分方程, 可以應用于恢復方程、參數反演等; 第 2 類是物理約束, 即在數據驅動的基礎上, 輔以物理約束, 在損失函數中加入控制方程等物理規律, 減少網絡對標簽數據的依賴, 大幅提高泛化能力與應用價值; 第 3 類物理驅動 (純物理約束), 完全不使用標簽數據, 僅通過物理規律求解偏微分方程, 目前僅適用于簡單偏微分方程. 本文從這 3 個方面介紹偏微分方程智能求解的研究進展, 涉及全連接神經網絡、卷積神經網絡、循環神經網絡等多種網絡結構. 最后總結偏微分方程智能求解的研究進展, 給出相應的應用場景以及未來研究展望.

1. 引言

人工智能引發多領域技術變革, 廣泛應用于計算機視覺, 生物醫學, 油氣工程開發等領域. 深度學習 (deep learning) 在工程技術, 流體力學, 計算力學等領域的研究具有重要的理論指導意義與工程應用價值. 近年來, 基于油藏動、靜態數據, 人工智能有望實現油藏精細描述與精準開發, 提高采收率. 將測井、壓裂施工、生產數據等進行智能融合, 大幅提升壓裂改造效果, 降低開發成本. 大數據與智能優化方法相結合, 將變革油田數據分析方法、油田開發控制與優化方法[1] . 非常規油氣開發難題與人工智能相結合, 有望解決非常規復雜油氣物理規律建立、偏微分方程求解等難題. 人工智能與大數據將“實現石油勘探開發主體技術更新換代的宏偉目標, 從技術層面上促進石油勘探開發行業整體轉型升級” [2] .

人工智能方法因其處理高度復雜問題的突出能力, 已引起油田領域的特別關注[3-6]. 傳統人工神經網絡已在石油工程領域得到廣泛應用, 例如預測未知年份的測井數據[3]、預測油品壓力?體積?溫度屬性[4]、預測注產剖面[5]、估算孔隙度[6]、井底流動壓力[7]、選擇頁巖氣藏完井方法[8]、試井解釋[9-13] 等. 深度學習是機器學習的一個新領域. 深度學習的本質是構建含有多個隱藏層的網絡模型, 通過學習大規模的數據, 獲得更具代表性的特征, 從而提高預測和分類的精度. Tian 和 Horne[14] 利用遞歸神經網絡學習永久井下壓力計 (PDG) 數據, 用于識別油藏模型及生產預測. Sudakov 等[15] 將深度學習用于滲透率預測. Mosser 等[16] 利用深度學習進行三維多孔介質重構. 張東曉等[17] 利用循環神經網絡研究測井曲線的生成與修補. 近兩年, 深度學習在試井參數自動反演得到了很好的應用[18-20] . 同時, 在解決參數反演、數字巖心、測井曲線、試井解釋等問題上, 深度學習作為人工智能發展引擎有著優秀的表現[21-25] . 以深度學習為核心的人工智能正在油氣開發領域掀起新的研究熱潮, 其中最具前瞻性、顛覆性的研究當屬基于深度學習的偏微分方程求解. 該方法一旦突破, 物理規律建立、參數反演和數值模擬方法都將發生變革, 我國也將在以偏微分方程 (偏微分方程) 求解為核心的工業計算軟件中迎來巨大機遇. 自 2017 年來, 深度學習在物理規律發現、油藏參數反演和偏微分方程求解中發揮了令人驚訝的作用[26-30] .

在實際開發現場或其他應用場景中, 只能獲取相關測量數據, 而數據背后所潛在的物理規律需要進一步分析得到, 偏微分方程模型是刻畫其特性的重要工具. 目前, 解決基于大量數據尋找物理規律的主要思路有: 在有一定的先驗知識下, 列出偏微分方程所描述的物理過程的備選項, 利用稀疏回歸技術或其他方法進行特征選擇和參數估計[31-35] ; 其二用神經網絡作為逼近器的功能, 使用不同的神經網絡結構表征偏微分方程系統, 通過學習網絡結構達到發現物理規律的目的[1,36] .

現有的偏微分方程求解方法要進行網格劃分、非線性方程組求解, 計算成本高, 技術突破難度大. 基于深度學習的偏微分方程求解方法不僅能快速正演、快速反演[37-38] , 而且能很好解決非線性問題[39-42] , 能對更復雜、更高維的偏微分方程[27,30,43] 進行求解, 有望顛覆傳統偏微分方程數值求解技術, 引發數值模擬技術的巨大變革。

雖然技術路線存在差異, 但深度學習在物理模型建立、偏微分方程求解和參數反演中的應用, 其核心仍是如何用深度學習表征偏微分方程. 當前的研究多集中在無源匯的偏微分方程, 多是數據驅動 (data driven)、物理約束 (physics informed), 少量為物理驅動 (physical based, physical constraint, theory based or without labeleddata).由于當前處于研究初始階段,很多學者都提出了自己的術語,導致當前術語復雜,然而不同術語往往表示同一含義.為此,本文約定:數據驅動(datadriven)為僅用標簽數據約束的方法,物理驅動(physicsdriven)為不含任何標簽數據約束的方法.物理約束(physicsinformed)介于二者之間,即標簽數據約束、偏微分方程約束共存的方法.因而,若僅用偏微分方程約束,物理約束方法就是物理驅動方法.另外,遵循于傳統偏微分方程解析解、偏微分方程數值解術語, 這里稱用深度學習進行偏微分方程求解的方法為偏微分方程智能求解方法或偏微分方程神經網絡求解方法.

本文將深度學習表征偏微分方程分為兩個場景: 構建未知偏微分方程與求解已知偏微分方程. 對于構建未知偏微分方程, 本文簡要介紹了網絡結構與偏微分方程、微分算子或演化算子等的內在聯系, 概述神經網絡逼近未知偏微分方程的表示方法, 并給出其中有待解決的問題與難點. 對于求解已知偏微分方程, 本文從數據驅動、物理約束和物理驅動 3 個角度介紹神經網絡求解已知偏微分方程方法, 主要包括神經網絡求解偏微分方程原理, 網絡框架構建, 損失函數構造等, 結合國內外研究現狀, 系統梳理該領域的研究脈絡, 分析神經網絡求解偏微分方程中存在的關鍵問題和解決方案, 并對可行的未來研究方向和內容進行討論和展望. 此外, 雖然深度學習在近年來得到了迅猛發展, 但其在求解偏微分方程等力學問題上的研究仍然有限, 在實際應用中的表現仍有待考驗. 因此, 本文主要側重研究方法上的進展.

1. 基于神經網絡的偏微分方程求解方法探索研究

1943年McCulloch和Pitts[44]建立了神經網絡及其數學模型, 開創了人工神經網絡研究的新時代. 20世紀80年代中期, 首次提出的反向傳播算法算法及其發展[45]引起了人工神經網絡領域研究的第二次熱潮. 一直以來, 人們希望找到無須網格劃分、無須非線性方程求解的偏微分方程數值求解新方法. 其探索之一就是基于人工神經網絡的求解方法. 自動微分(automatic differentiation) 能使用鏈式法則精確計算導數[46-48], 可以根據神經網絡的輸入坐標和網絡參數對整個神經網絡模型進行微分, 從而代替偏微分方程中復雜的梯度計算, 為基于人工神經網絡的偏微分方程求解奠定了基礎.

在20世紀90年代, 便有學者開始研究使用神經網絡求解微分方程的數學基礎與方法. 1990年Wornik等[49]證明了多層神經網絡能夠逼近任意函數及其導數. 這為微分方程的神經網絡求解奠定了理論基礎. 隨后, Li[50]證明了一個隱藏層的神經網絡可逼近多元多項式函數及其導數. Lagaris等[51]將微分方程中的初值與邊界條件獨立表征, 提出頗為新穎的偏微分方程求解方法. 隨后, 不少學者進行了探索研究, 例如, Aarts和Van[52]將表征不同階微分算子的單隱層前饋網絡聯合起來, 共同訓練來求解偏微分方程; 又如, Ramuhalli等[53]將有限元模型嵌入到神經網絡中, 提出了有限元神經網絡. 由于早期多層前饋神經網絡模型的局限性, 早期方法只能求解簡單的偏微分方程, 基于神經網絡的偏微分方程求解方法沒引起足夠的重視.

早期方法主要基于數據驅動, 即事先獲得偏微分方程的輸入及精確解(常稱為“標簽數據”), 然后用神經網絡逼近標簽數據, 從而獲得能夠表征偏微分方程的神經網絡模型, 如圖1(a)所示. 網絡的輸入可以是參數或空間、時間等, 可根據需要選擇.

隨著深度學習算法在多個領域的成功應用[54-55], 國內外學者重新開啟了基于神經網絡的偏微分方程求解方法研究, 取得了系列突破, 提出了新方法, 如純物理驅動的偏微分方程求解方法. 該方法用控制方程進行約束, 無需標簽數據, 如圖1(b)所示.

根據不同的應用場景, 本文將從深度學習反演構建未知偏微分方程和求解已知偏微分方程兩個方面展開介紹. 下節主要介紹如何通過神經網絡逼近線性或非線性算子, 從數據中找出隱藏的偏微分方程模型.

2. 基于深度學習反演未知偏微分方程

利用深度學習方法從數據中反演未知的偏微分方程是當前的研究熱點之一. 對于未知的偏微分方程, 主要的研究目標是通過深度學習找出數據背后蘊藏的偏微分方程模型, 從數據中反演未知的偏微分方程 (例如方程的右端項、方程的積分形式或方程的演化算子等), 進一步構建模型用于求解.

恢復方程的傳統思路是構建簡單函數和偏導數的備選字典. 這些函數和偏導數很可能出現在未知的控制方程中. 根據已知偏微分方程的非線性響應的形式構建模型, 然后利用稀疏回歸類方法來學習這些未知參數, 選擇最準確代表數據的項. 這種傳統的恢復方式要求假設非線性響應形式已知或確定微分算子的有限差分逼近的方法, 而深度學習大大降低了對偏微分方程先驗知識的要求, 只需要簡單的先驗知識, 如方程最大可能的階. 此外稀疏回歸方法需要事先確定字典中空間差分的數值近似, 限制了字典的表達能力和預測能力且需要建立一個足夠大的字典, 這可能會導致高的內存負載和計算成本, 特別是當模型變量的數量很大的時候. 深度學習方法采用可學習的卷積近似微分算子或近似演化算子, 從根本上提高從噪聲數據中識別動力學的能力, 從而使模型具有更強的表達能力和和預測準確性. 如果沒有足夠的數據知識, 也有可能通過調整多項式的微分來獲得更好的表征效果, 神經網絡在偏微分方程求解和恢復問題中都大有可為. 近幾年, 國內外學者致力于探究網絡結構與偏微分方程、各項微分算子或方程的演化算子等的內在聯系, 從理論上支撐用深度學習來表征偏微分方程. 2018年Long等[56-57]提出一種基于數據驅動的前饋神經網絡(PDE-Net), 其核心思想是: 時間導數項做歐拉離散, 受約束卷積核近似微分算子, 進而使用神經網絡或其他機器學習方法近似方程右端項, 構建網絡來逼近偏微分方程系統, 并對其解進行長期預測. 此外結合Symnet (symbolic neural network) [58-59], 使用可學習濾波器PDE-Net2.0[56-57]更加靈活, 能夠在少量先驗知識的情況下揭示方程的解析形式, 尤其對于非線性問題有更好的結果, 并能夠更強大地逼近未知動態和更長的時間預測.

González-García等[62]基于人工神經網絡體系結構提出物理模型建立方法, 其本質是在一定的先驗知識下, 列出描述物理過程的偏微分方程所有的備選項, 利用人工神經網絡進行自動選擇和參數估計, 從而發現數據后隱藏的物理規律.

Wu等[63-64]首次基于殘差網絡(ResNet)構建了從數據中學習未知微分方程的新框架. 該框架以微分方程內在的積分形式為基礎, 以逼近方程的流譜(flow map, 針對常微分方程)和演化算子(evolution operator, 針對偏微分方程)為目標, 從根本上避免了傳統框架(以逼近方程的右端項為目標)所依賴的數值微分. 文獻[63-64]提出了兩種多步的ResNet神經網絡結構, 從精確演化算子的角度, 首次在理論上建立了ResNet與精確演化算子的內在數學關系、由此給出了該深度學習方法的數學解釋. 不同于Wu和Xiu[64]在模態/傅里葉空間學習方程, Chen等[65]在物理空間進行學習和建模, 利用DNN學習測量數據, 從而學習未知偏微分方程. Chen等[66]提出一種無梯度的符號遺傳算法(SGA-PDE), 使用符號數學靈活表示任意給定偏微分方程, 優化其表示形式, 從數據中發現開放形式的偏微分方程. Xu和Zhang[67]在PINN的基礎上提出一種更具魯棒性的深度學習遺傳算法(R-DLGA), 將深度學習?遺傳算法提供的潛在項的初步結果作為物理約束加入損失函數, 提升了在高階導數等影響下導數的計算精度, 從而在高噪聲稀疏數據中獲得偏微分方程.

迄今為止, 該領域提出的許多方法都存在一些局限性. 特別是, 目前的方法通常研究ut=N(u,x,t)ut=N(u,x,t) 形式的方程, 但許多物理方程不在此類. 此外, 如果測量一個具有參數依賴性的系統, 如何消除演化動力學及其參數依賴性之間的歧義是有待解決的問題. 盡管神經網絡表現出強大的數據學習能力, 但對于有噪聲數據的學習, 尤其在非線性、多耦合的復雜物理系統中, 網絡模型的精確性以及穩定性有待提升.

而對于已知的給定的偏微分方程, 神經網絡可用于逼近偏微分方程的解或表征方程, 本文下節將從數據驅動、物理約束和物理驅動3個方面對神經網絡求解偏微分方程展開介紹, 并簡述所用的神經網絡, 如全連接神經網絡, 卷積神經網絡(CNN)、殘差網絡(ResNet)、DenseNet、自編碼網絡(autoencoder)、長短期記憶(LSTM)網絡等, 總結現有研究的重要進展, 并探討下一步的發展趨勢, 對未來偏微分方程智能求解的研究提出建議.

3. 基于深度學習的偏微分方程求解方法

**3.1 偏微分方程神經網絡求解方法概述

深度神經網絡的基本結構是前饋全連接深度神經網絡[68], 以此為例介紹已知偏微分方程的神經網絡求解方法. 以d維行向量x∈Rdx∈Rd為網絡輸入, 一個單隱層神經網絡的k維輸出形式為

數值實驗表明, 3D-PDE-Net求解精度L∞L∞誤差比求解比數值格式Douglas-Gunn ADI降低20倍[73]; 所加入分層的自適應激活函數可10倍提高訓練速度, 且局部誤差得到改善. 但此時3D-PDE-Net不是顯式可解釋的.3.2.2 基于其他網絡的偏微分方程求解方法

Liu等[26]探討了全連接神經網絡在函數逼近中的應用, 并提出了一個通用的基礎微分方程求解器, 主要利用自動微分對方程的初值問題和邊值問題進行求解. E等[30]與Han等[27]用深度學習逼近梯度算子, 基于偏微分方程的離散格式, 對高維偏微分方程給出深度學習求解新方法. 對有H個隱藏層、N個時間間隔的半線性拋物型偏微分方程的網絡結構如圖3所示, 整個網絡共有(H+1)(N?1)(H+1)(N?1)層, 通過損失函數共同優化所有的網絡參數. t=t1,t2,?,tN?1t=t1,t2,?,tN?1中的每一列對應一個tt時間步的子網絡, h1n ,h2n ,?,hHnhn 1,hn 2,?,hnH是每一個子網絡中的中間神經元. 基于標簽數據, 用多層前饋神經網絡逼近梯度算子, 從而可得到高于100維的偏微分方程解, 并給出了多種類型高維偏微分方程方程的求解結果.

**3.3 物理約束下的偏微分方程神經網絡求解方法

由于數據驅動存在泛化能力弱等缺點, 物理驅動可提高泛化能力, 減少標簽數據. 物理驅動與數據驅動相融合, 即物理約束的方法, 受到廣泛的關注.

在近幾年的研究中[74-76], 已經看到利用結構化先驗信息構建基于數據和物理信息的機器學習算法的研究前景. Sirignano等[77]給出了類似于LSTM人工神經網絡的deep Galerkin method (DGM)網絡, 提出了基于Galerkin方法的二階微分算子計算方法, 同時給出了物理約束下的神經網絡逼近定理.3.3.1 PINN Raissi等[39-40]利用偏微分方程的控制方程以及邊界條件等恒等式構造殘差, 利用各項殘差之和構造損失函數, 并將此方法拓展到解決非線性問題, 提出了物理約束下的神經網絡(physics informed neural network, PINN). PINN將數據驅動與物理約束相結合, 從而提出了偏微分方程建立與求解的新思路, 即, 對偏微分方程

3.3.2 基于PINN的改進方法

基于PINN算法, Toshiyuki等[78]使用由3個DNNs組成的PINN框架對Richardson-Richards方程進行參數反演, 并估算保水曲線和水力傳導函數. Han等[79]介紹了一種基于深度學習的一般高維拋物型偏微分方程的求解方法. 先對偏微分方程進行重新構造, 再利用神經網絡逼近未知解的梯度, 在非線性方程計算中得到了滿意的數值結果. Meng等[80]提出了一種改進的PINN方法, 稱為PPINN, 將一個長時間的問題分解為多個獨立的短時間問題, 以加速偏微分方程的求解. Michoski等[81]研究了激波偏微分方程神經網絡求解方法, 神經網絡方法與傳統方法結果對比表明, 基于神經網絡的求解方法有優勢, 標簽數據可有效提升求解精度. Kani和Elsheikh[82]將物理約束求解偏微分方程方法與正交分解(POD)和離散經驗插值方法(DEIM)相結合, 提供了一個高精度的非線性動力系統降階模型, 降低了高保真數值模擬的計算復雜度. Jagtap等[83-84]提出自適應激活函數, 有效地提高了PINN逼近非線性函數和偏微分方程的效率、魯棒性和準確性, 自適應激活函數如下, 圖4為各自適應激活函數的圖像

然而, 含標簽數據的偏微分方程神經網絡求解方法, 存在很大的局限性. 對很多問題, 其精確解是未知的. 若需要偏微分方程的精確解才能構造損失函數, 這大大限制了其應用范圍. 例如, 在油田開發過程中, 儀器只能測量井底的壓力、井口的產量, 而不能獲得其他地區的壓力. 這意味著基于標簽數據的偏微分方程求解方法無效. 從而, 基于純物理約束(即物理驅動)的求解方法具有更廣闊的應用前景, 有著與傳統求解方法一樣的便利性(無須任何標簽數據). 這一旦突破, 將引發偏微分方程求解技術的真正變革.3.3.3 可測量標簽數據下的偏微分方程神經網絡求解方法

上述數據驅動下的偏微分方程求解方法往往需要未知量的分布數據例如需要知道壓力空間分布數據. 這往往在實驗條件下才能獲得. 例如, 可在實驗中布置多個壓力傳感器, 才能獲得壓力的空間時變數據. 但對實際工程問題, 這部分數據是不可測量的. 例如, 在油藏開發中, 只能測量井中的壓力, 其他的壓力數據無法獲知. 因而, 上述數據驅動下的偏微分方程智能求解方法難以有真正應用.

實際工程中, 存在一部分可測量的數據, 若能使用少量的可測量數據作為標簽, 就能對偏微分方程進行求解, 將具有重要的理論意義與應用價值. 部分學者對此進行了積極的探索研究.

Wang等[85-86]將實際工程中的專家經驗、物理規律和稀疏觀測數據等整合為理論指導神經網絡(theory-guided neural network,TgNN), 如圖5所示, 利用TgNN解決地下流動建模, 不確定性量化等問題.

Li等[87]使用深度神經網絡解決單相滲流問題, 加入部分可測量的井底流壓數據作為標簽, 有效提高非穩態、具有源匯的偏微分方程問題的求解精度. 該方法的最大特點是, 除將可觀測的井底壓力數據作為標簽外, 不再需要任何其他的標簽數據, 而是用偏微分方程約束代替壓力分布的標簽數據, 從而大大提高該方法實際應用可行性. 此外, 利用源匯項引起的梯度特征構造梯度模型, 作為“路標”加入神經網絡, 通過添加固定神經元的方式幫助網絡提高優化能力, 同時提出了預訓練獲得“路標”的解決思路. 圖6為智能求解所獲得的壓力分布、井底壓力(BHP)圖.

Chen等[88]提出一種基于協方差矩陣優化的無梯度神經網絡, 有效提升學習小數據樣本的魯棒性, 適合實際工程應用. 在后續研究中, Chen等[89]提出一種硬約束投影(hard constraint projection, HCP)的方法提升機器學習方法對小樣本數據的學習能力.

**3.4 物理驅動下的偏微分方程神經網絡求解方法

相較于傳統數值求解, 偏微分方程智能求解仍受標簽數據的約束, 在實際應用中, 往往會面臨數據獲取困難的情況. 對此, 無需標簽數據的物理驅動方法成為重要的研究方向, 是最終的解決方案.3.4.1 全連接神經網絡(FC-NN)求解偏微分方程

Nabian等[90]使用無監督的前饋深度殘差神經網絡近似高維偏微分方程, 利用隨機梯度下降(SGD)算法優化神經網絡參數. Cai等[91]研究了基于無監督深度學習的一維二階橢圓偏微分方程數值求解方法, 并利用一階系統最小二乘(FOSLS)作為損失函數來優化神經網絡的參數. Sun等[92]提出了基于“硬邊界約束”的神經網絡求解方法, 將偏微分方程的控制方程和邊界條件作為損失函數來約束神經網絡, 通過構造“硬編碼”的結構化深度神經網絡來加強初始條件和Dirichlet邊界條件, 有效增強物理約束下的偏微分方程智能求解, 如圖7所示. 對于下述不可壓縮Navier-Stokes方程[92]

然而, 對于具有Neumann邊界條件的偏微分方程問題, 仍將Neumann邊界條件以懲罰項的形式加入損失函數, 在求解精度上仍有所欠缺. 綜上所述, Sun等[92]為一部分具有Dirichlet邊界的穩態問題的物理約束求解提供了很好的解決方法, 但由于需要解析解構造邊界平滑函數, 對非穩態, 具有Neumann邊界的問題存在一定的局限性.3.4.2 CNN求解偏微分方程

在人臉識別、AlphaGo等大顯身手的CNN在偏微分方程求解中也受到廣泛關注. 偏微分方程的屬性空間(如滲流方程中的滲透率)與解空間的對應關系, 非常適合用卷積算子進行表征. 基于這一特性, 卷積神經網絡求解偏微分方程會有很大的優勢. 然而, 多數偏微分方程求解網絡都基于FC-NN的“點態”(基于時空域中離散的分布點)方式進行訓練, 這意味著FC-NN訓練樣本分布自由度很大. 而CNN則需要輸入相對完整的樣本分布, 是以“點陣”圖像的形式進行訓練. 這就帶來了諸多新挑戰, 如不規則域、卷積網絡損失函數構造等. 對于不規則域, Gao等[93]通過對CNN網絡輸入的物理量約束, 得到偏微分方程求解神經網絡模型, 再通過保形變換, 實現對不規則區域下的偏微分方程求解.

對于卷積網絡的損失函數, Zhu和Zabaras[94]提出了貝葉斯損失函數約束下的新偏微分方程求解網絡. 該網絡模型將CNN與編解碼器網絡相融合, 吸取了DenseNet特征重用的優點, 使得在參數和計算成本更少的情形下實現比ResNet更優的性能[95]. 如圖8所示.

隨后, Zhu等[96]研究了數據驅動、物理驅動等損失約束下的偏微分方程求解方法, 并提出物理約束的稠密卷積編解碼器網絡(如圖9所示), 提高求解精度以及泛化能力, 并使用Sobel算子計算CNN框架下的導數. 與FC-NN不同, CNN以卷積的形式提取圖像特征, 其本質就是對圖像的像素求導數, Sobel算子是以濾波算子的形式計算一階導數, 從而可利用卷積函數快速計算.

然而, 目前研究的物理驅動方法(無標簽數據)尚不能有效解決非穩態與源匯的問題. 物理驅動的研究仍在起步階段, 離實際需求還很遠.

總體上, 基于深度學習的偏微分方程建立、求解與參數反演研究還處于初始階段, 主要存在以下問題: (1)很多方法只能應用于簡單的偏微分方程, 例如, 偏微分方程中沒有時間導數項, 或沒有源匯項. 這說明求解方法還有待深入研究. (2)多數方法都是基于數據驅動的: 數據驅動下, 神經網絡受到了強有力的約束, 從而更容易收斂, 但其場景有限. (3)物理驅動方法亟待突破: 一旦物理驅動下的偏微分方程求解方法獲得突破, 偏微分方程求解方法將獲得顛覆性的變革, 基于深度學習的偏微分方程重建、參數反演方法都將隨之變革. 然而, 少了標簽數據的約束, 深度學習收斂將十分困難, 大量的科學技術問題亟待解決.

4. 研究前景與展望

國內外研究進展表明, 當前的應用場景主要有3種. (1)基于神經網絡的偏微分方程建立: 在大量實測數據的基礎上, 可以利用深度學習網絡在大量備選的偏微分算子中, 尋找合適的算子來“擬合”實測數據, 從而“人工智能”地建立偏微分方程. 相關研究很多, Raissi和Karniadakis[42]認為, 深度學習有能力在少量的數據中就可發現其背后的物理規律; 對高噪聲稀疏數據, Xu和Zhang[67]將深度學習和遺傳算法相融合來提算法高魯棒性.

(2)參數反演: 參數反演是眾多工程問題的難點之一. 利用神經網絡的逼近能力, 可以進行快速反演. 該方法一般是基于標簽數據的. 數據驅動下的參數反演可無須考慮物理過程, 例如試井參數自動反演就可從數據到數據[18-19]. 然而, 將數據驅動與物理信息相結合, 可能會有更好的反演效果[86,97]. 從另一個角度, 將物理信息(如控制方程)加入預測模型, 能夠根據容易獲得的數據預測更難獲得的數據[89,98-99]. 為此, 將物理驅動與數據驅動相結合, 將大幅降低標簽數據的數據量, 相關研究將給工業應用帶來很大的便利.

(3) 偏微分方程智能求解: 基于深度網絡的偏微分方程求解, 無須網格劃分、線性方程組求解、沒有維度災難. 然而, 由于約束少, 純物理約束下的求解方法挑戰仍很大. 這也是偏微分方程深度學習求解必須攻克的難題.

另一求解偏微分方程的思路是利用神經網絡對非線性方程組的逼近能力, 進行偏微分方程求解. 神經網絡的權值修正方法可以用來逼近與求解非線性方程組, 且能證明, 通過對權值的限制, 該方法一定是收斂的[100]. 由于偏微分方程方程離散后仍是非線性的, 從而可用此方法進行求解. 按此思路, Ebadi等[101]用自適應神經網絡代替傳統的牛頓迭代法, 提出了一種技術路線與上完全不同的偏微分方程求解方法, 并利用該方法對一維的單項與兩相流動進行了求解.

另一研究思路是, 將偏微分方程與深度學習混合使用, 相互學習、相互支撐. 存在這樣的情形, 數據中隱藏的物理規律部分已知, 部分未知. 未知部分用深度學習表征, 已知部分用偏微分方程表征, 從而整個損失函數將包含這兩部分內容. 這樣, 在神經網絡訓練時, 二者能相互約束、相互修正, 既能防止過擬合, 也能彌補數據丟失等引起的誤差[102], 使精度更高, 效果更好.

除傳統數值計算具備的應用前景外, 基于深度網絡的偏微分方程求解還將大幅提升強非線性偏微分方程求解能力, 借助深度學習的并行能力, 提升數值模擬速度. 再借助物理約束與深度學習本身認知能力, 在歷史擬合中, 有望自我完善偏微分方程, 從而極大豐富與增強建模途徑與能力, 流動模型建立與數值模擬能力都將發生巨大變化.

5. 結語

從反演未知偏微分方程與求解已知偏微分方程兩個角度, 本文總結了偏微分方程智能求解方法的發展歷程, 從數據驅動、物理約束和物理驅動3個方面, 重點介紹了已知偏微分方程的智能求解方法, 簡要介紹了應用場景和未來研究方向. 數學界更注重一般偏微分方程方程智能求解方法研究, 結合具體領域的應用研究研究正受到重視. 若能突破物理驅動求解方法瓶頸, 有望顛覆傳統偏微分方程數值求解技術, 引發數值模擬技術的巨大變革.

偏微分方程深度學習求解具有深厚的科學內涵, 需要將深度學習理論、數值模擬技術、偏微分方程數學本質、偏微分方程物理意義和工程背景等有機融合, 深度交叉, 方能得到物理意義明確、數學基礎堅實、能解決工程問題的偏微分方程求解新方法, 將推動數學、力學、人工智能和油藏工程等學科融合與學科發展.

付費5元查看完整內容

人工智能 · 神經網絡加速器 · 體系結構 ·

2022 年 4 月 23 日

[付費5元查看完整內容]神經網絡加速器架構概述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如今, 隨著數據需求的增長以及硬件算力性能的提升, 人工智能得到越來越廣泛的應用. 其中, 神經網絡算法已經被成功地用于解決一些實際問題, 例如人臉識別、自動駕駛等. 盡管這些算法有著卓越的表現, 但其在傳統硬件平臺上的計算性能仍然不夠高效. 因而, 一些為神經網絡算法定制的計算平臺應運而生. 本文將總結一些典型的神經網絡加速器架構設計, 包括計算單元、數據流控制、所加速的不同神經網絡的特點, 以及在新興計算平臺上設計加速器的考量等. 最后我們也將提出對神經網絡加速器未來的展望.

1 引言

當前, 人工智能(artificial intelligence, AI)已經在生活中無處不在, 例如手機的人臉識別、汽車的自動駕駛、廣告的自動推薦等. AI之所以能被廣泛應用, 與三大因素密切相關: 算法、數據與算力. 數據為算法提供“學習"的來源, 也是算法所應用的對象; 硬件則為算法的實際運行提供算力支撐. 但隨著摩爾定律(Moore's law)不斷逼近物理極限, 傳統通用的硬件平臺已經難以高效處理AI算法, 特別是復雜的神經網絡(neural network, NN)的推理與訓練. 因而, 為NN定制硬件加速平臺已經成為一個重要并且熱門的話題.

1.1 研究背景

長期以來人類一直在努力嘗試創造具有智能意識的人造生物, 這也就是所謂AI概念的起源. 美國達特茅斯學院(Dartmouth College)最早于1956年便開始了關于AI的立項研究 [1]. 在隨后的幾十年中, AI這個研究領域經歷了起起落落. 最近由于大數據的普及和計算能力的快速增長, AI重新獲得了巨大的關注和投資. 而其中機器學習(machine learning, ML)不僅在學術界備受關注, 也成功應用于解決工業界的許多問題.

ML算法最初是為模仿人類大腦行為所設計的. 與人腦中的生物神經系統類似, 機器學習算法中的兩個基本功能單元是突觸(synapse)和神經元(neuron). 突觸負責信息處理, 神經元負責特征提取. 而神經元模型又有很多種類, 例如sigmoid, ReLU以及Integrate-and-Fire [2]等模型. 而這些非線性的神經元模型都具有特征提取的功能并且適合NN訓練. 后來, 一些“生物啟發式"的模型被提出(例如將輸入抽象為脈沖信號等), 其主要是以數學方法去實現更高層次的功能. 總之, 現代ML算法大致分為兩類: 人工神經網絡(artificial neural network, ANN)以及脈沖神經網絡(spiking neural network, SNN).

1.2 研究現狀

雖然大數據應用的井噴推動了ML算法的發展, 但也為其在傳統計算系統上的數據處理速度及可擴展性帶來了極大的挑戰. 這是因為在傳統的馮 ? 諾依曼(John von Neumann)架構上, 數據處理與數據存儲是分開的兩個部分. 因此, 處理器與片下存儲器之間頻繁的數據交換限制了系統的性能與能效. 這一問題無疑又會因為AI應用中海量的數據處理而進一步加劇. 因而, 專門為AI應用所定制的計算平臺也就應運而生. 這些定制的計算平臺有些是基于傳統馮 ? 諾依曼架構平臺的改進, 而有些則是完全一個單獨的加速平臺. 而大多數的定制設計都基于一個共識: 與計算相比, 訪存所占的延遲與能耗要大得多. 所以, 解決了“內存墻" (memory wall) [3]的問題就可以大幅度提升性能和能效. 最近的AI加速器設計通常利用大量的高并行計算和存儲單元. 這些單元以二維陣列的形式排布來支持NN中的矩陣向量乘法(matrix-vector multiplication). 除此之外, 片上網絡(network on chip, NoC) [4]、高帶寬內存(high bandwidth memory, HBM) [5]以及數據重用(data reuse) [6]等技術進一步優化了加速器中的數據傳輸. 除了傳統的基于互補金屬氧化物半導體(complementary-symmetry metal-oxide-semiconductor, CMOS)的設計之外, 例如憶阻器(metal-oxide resistive random access memory, ReRAM)等新型存儲器件也被應用于AI加速器的設計中 [7-9]. 這些新型存儲器件都有存儲密度高、訪寸延遲低并且可以進行存內計算(processing-in-memory, PIM)等特點. 以ReRAM為例, ReRAM陣列不僅可以存儲NN的權重, 也可以在模擬域進行原位的MVM (matrix-vector multiplication)計算. 與基于CMOS等設計相比, 基于ReRAM的AI加速器利用模擬域低能耗計算可以在能效上有3 ～ 4個數量級的提升 [10]. 而運算過程中因模擬噪聲信號所產生的計算偏差則可以通過ML算法上的優化被消除. 但是, 基于ReRAM的AI加速器也同樣存在著一些問題. 例如其中數模(digital-to-analog converter, DAC)與模數(analog-to-digital converter, ADC)轉換電路的能耗與面積可以分別占到總能耗的66.4%和總面積的73.2% [11].

1.3 本文章節介紹

本文主要關注面向ANN的加速器架構設計. 我們將總結關于深度神經網絡(deep neural network, DNN)加速器設計的最新進展. 第2節主要介紹NN的相關基礎知識以及ReRAM的工作原理; 第3節介紹片上NN處理單元; 第4節介紹獨立的NN加速器; 第5節介紹基于新型存儲器件的加速器; 第6節介紹軟硬件協同設計及面向新型應用的加速器; 第7節對未來NN加速器設計進行展望.

2 背景介紹

本節主要介紹關于DNN的背景知識以及一些在本文中涉及的重要概念. 另外, 本節也將簡要介紹ReRAM及其在NN加速計算中的應用.

2.1 神經網絡推理與訓練

總體來說, 一個DNN模型可以看成是一個根據高維輸入給出有效預測的復雜的參數化函數. 這個預測的過程則被稱為推理(inference). 而獲得參數的過程則被稱為訓練(training). DNN的訓練在訓練數據集上完成. 訓練的目標則是不斷減小一個預先定義的損失函數(loss function). DNN的參數也被稱為權重(weight), 權重在訓練過程中通過隨機梯度下降(stochastic gradient descent, SGD)等方法被不斷優化. 在每一次訓練中, 首先進行前向傳播(forward pass)來計算損失函數; 然后再進行反向傳播(back propagate)來反傳誤差; 最后, 每一個參數的梯度都被計算并且累計. 如果要完全訓練一個大規模的DNN, 訓練過程可能要持續一百萬次甚至更多. 一個DNN通常由許多神經網絡層(NN layer)組成. 我們把第 l 層記作函數 f l , 那么一個包含 L 層網絡的簡單的DNN的推理可以寫作

其中 x 為DNN的輸入. 由此例可知, 每一層的輸出其實只作為下一層的輸入, 因而整個DNN的推理過程可以看作是一個鏈式計算的過程. 在DNN的訓練中, 數據的前向傳播過程和推理一致, 但其反向傳播過程與之相反. 并且前向傳播過程中每一層的中間結果都會在反向傳播過程中被重新利用來計算誤差(這是由于反向傳播的鏈式法則). 這無疑大大加劇了數據之間的依賴性. 圖 1 表明了訓練與推理過程中的區別. 一個DNN也可能會包含卷積層(convolutional layer), 全連接層(fully connected layer)以及一些其他非線性層(如激活函數ReLU, sigmoid, 池化層(max pooling)以及批標準化層(batch normalization)). 在反向傳播過程中, 矩陣乘法以及卷積仍然基本保持其計算模式不變. 細節上的區別是在反向傳播過程中, 原來的權重矩陣以轉置的形式參與反向傳播計算, 而卷積核也以旋轉的形式參與梯度下降的計算.

2.2 計算模式

盡管一個DNN模型會包含很多層, 但矩陣乘法和卷積占了超過90%的計算量. 而這兩者也是DNN加速器設計優化的主要對象. 對于一個矩陣乘法而言, 如果我們用 I c , O c 和 B 分別表示輸入通道數(input channel)、輸出通道數(output channel)以及批量輸入大小(batch size), 那么推理的計算過程可以寫成

其中 i c 是輸入通道的標號, o c 是輸出通道的標號( 0 ≤ o c < O c ), b 是批量輸入樣本中的標號( 0 ≤ b < B ). 在這個矩陣向量乘法中每一個輸入可以被所有的輸出通道重用, 而每一個權重則可以被所有批量輸入重用.

DNN中的卷積實際上可以被看成是矩陣乘法的擴展. 卷積的作用從直觀上來講可以說是增加數據的局部聯系性. 與一般的矩陣乘法相比, 在卷積計算中, 每一個輸入元素被一張2維特征圖所替代, 每一個權重元素被一個2維卷積核(convolution kernel/filter)替代. 其計算模式是一種“滑窗"式計算. 如圖 2所示, 卷積核從輸入特征圖的左上角開始滑向右下角. 這個過程可以表示為

其中 F h 和 F w 分別是卷積核的高度和寬度, i 和 j 分別是2維卷積核的行索引和列索引, x 和 y 分別是2維輸入特征圖的行索引和列索引, 并且滿足條件 0 ≤ b < B , 0 ≤ o c < O c , 0 ≤ x < O h , 0 ≤ y < O w , 其中 O h 和 O w 分別為輸出特征圖的高度和寬度. 不難發現, 一個卷積核要被重復應用到輸入特征圖的所有部分. 這使得卷積運算中的數據重用比矩陣乘法中更為復雜. 可以把這個2維的“滑窗"看成是兩個層級: 第1個層級是把“滑窗"看成是幾行權重在特征圖上自上而下滑動, 由此進行行間數據重用; 第2個層級是“滑窗"的某一行都自左至右滑動, 由此進行行內數據重用. 盡管矩陣乘法和卷積的計算模式不同, 但是卷積也可以通過Toeplitz變換轉換為矩陣乘法, 但這將付出一定量數據冗余的代價 [12].

2.3 憶阻器平臺

ReRAM是一種用電阻單元來存儲數據信息的新型非易失性存儲器件. 如圖 3(a)所示, 每一個ReRAM單元都在上下電極之間有一個金屬氧化物夾層. 這個單元的電阻值可以通過寫入電流或者電壓而設定. 寫入電流的脈沖寬度及電壓的大小決定了所要設定的電阻值的大小. 當讀出數據信息時, 只需要在此器件上加一個小的感應電壓, 輸出電流的大小反應了電阻值的大小, 進而可獲得所存儲的數據信息. 除此之外, 由許多ReRAM單元組成的ReRAM陣列可以進行原位的MVM計算. 這可以應用到加速NN的MVM計算上. 如圖 3(b)所示, 輸入向量作為輸入信號以電壓的形式加到字線上. 而矩陣的每一個元素作為電導值則被預先寫入ReRAM陣列中. 每一個位線的累積電流則可以看成是兩個向量內積的結果. 因而一個陣列的所有輸出則可看成是一個MVM的結果. MVM的輸出作為中間結果會被進一步處理從而得到最終結果.

3 片上加速器

其實神經網絡加速硬件單元最早作為通用處理器的輔助單元 [13], 加速被NN替代的某些通用程序中的“近似程序段"(approximate program), 從而實現加速通用程序處理的目的. 注意, 這里的近似程序段是指可以通過訓練一個NN模型模仿其行為并且被NN替代后其精度損失可以在接受范圍內的程序. 隨著NN應用的范圍越來越廣泛, 其作用也不再僅僅局限于近似計算領域, 專門為NN的計算定制加速硬件也變得更有必要.

3.1 神經處理單元

神經處理單元(neural processing unit, NPU) [13]是加速通用程序段中可以用NN做近似計算(approximate computation)來替代的部分, 例如為索貝爾邊緣檢測(sobel edge detection)和快速傅立葉變換(fast Fourier transform)而設計的專用硬件. 為了在NPU上執行一個程序, 程序員需要手動注釋近似程序段. 當編譯器開始編譯時將被注釋的程序段編譯為NPU指令, 然后相關的計算任務便從CPU轉交到NPU執行. NPU的硬件設計非常簡單. 如圖 4所示, 每個NPU有8個處理單元(processing engine, PE). 每個PE都負責一個“神經元"計算, 即乘加之后再進行sigmoid非線性處理. 所以這個NPU只能處理簡單的多層感知機(multiple layer perception, MLP) NN模型.

3.2 可重構片上網絡加速器

隨著NN算法的不斷發展, NN的應用不再局限于近似計算. 因此專門為NN的計算設計硬件平臺就顯得愈發重要. RENO [4]就是一個專為NN定制的硬件加速平臺. 如圖 5所示, RENO對于PE的功能設計采用了與NPU類似的想法. RENO的PE都是基于ReRAM的交叉陣列(crossbar). RENO利用ReRAM crossbar作為基本的計算單元去處理MVM. 每個PE都有4個ReRAM crossbar去處理正負輸入與正負權重所對應的4個MVM. 在RENO中, 數據通路(router)主要用來負責PE之間的數據傳輸, 即把上一個PE模擬域獲得的中間結果傳遞到下一個PE上去. 在RENO中, 輸入和最終的輸出是數字信號, 而所有的中間結果都是模擬信號. 因而, 只有當RENO和CPU之間傳輸數據時才需要DAC和ADC轉換電路. 不難看出, 定制的片上加速器作為CPU的輔助單元, 可以幫助CPU高效地處理一些特定的任務. 但由于片上資源的限制(例如面積、功耗等因素), 片上加速器的設計預算有限. 因而其只能用來加速一些例如近似計算、簡單的MLP的推理等計算量較小的應用.

4 神經網絡加速器

為了支持更為復雜的DNN和CNN, 獨立的專用NN加速器已經被提出并且在云端(cloud)和邊緣端(edge)都獲得了巨大的成功. 與傳統的CPU和GPU相比, 這些定制的架構可以有更強的性能以及更高的能效. 在設計定制的架構時, 要特別考慮數據流的設計, 從而減小片上與片外的數據交互. 本節主要以DianNao系列 [14]以及張量處理單元 [15] (tensor processing unit, TPU)為例介紹獨立的神經網絡加速器并對其數據流設計進行分析.

4.1 DianNao

如表 tab1所示, DianNao系列有多個加速器. DianNao是這個系列的首款加速器. 如圖 6所示, DianNao由以下部分組成: (1)由神經計算單元組成的計算模塊(neural functional unit, NFU); (2)一個輸入緩存( N B i n ); (3)一個輸出緩存( N B o u t ); (4)一個突觸權重緩存(synapse buffer, SB); (5) 一個控制處理器(control processor, CP). NFU是進行乘加操作以及非線性運算的基本單元, 并且采用流水線的方式進行計算. NFU沒有采用傳統的片上緩存, 而是用片上便簽存儲器(scratchpad memory)作為片上的數據存儲. 與傳統緩存相比, scratchpad可以被編譯器控制并且更有利于通過編譯控制來提高數據的局部性, 從而更好地進行數據重用. 盡管高性能的計算單元對于DNN加速器非常重要, 低效的緩存也可以很大程度地影響系統的能效及吞吐率. DianNao系列加速器提出了一種針對減小訪存延時的特殊設計. 例如針對數據中心應用場景所設計的DaDianNao [16]在片上集成了大量嵌入式動態隨機存取存儲器(embedded dynamic random access memory, eDRAM)來盡可能避免對片外主存的讀取. 同樣的思路也適用于針對面向嵌入式場景的ShiDianNao [17]. ShiDianNao主要用來加速CNN. 由于CNN計算中存在大量的數據重用, 因而加速CNN所需的數據讀取次數相對更少. 這就使得當CNN模型參數量小時, 我們就可以把CNN的權重全都存儲到片上靜態隨機存取存儲器(static random access memory, SRAM)上. 在這種情況下, 與DianNao對比, ShiDianNao避免了大量高延遲高能耗的片外訪存, 并且可以將能效提高60倍. PuDianNao [18]是一個面向多種ML應用的加速器設計. 除了支持DNN的加速計算外, 它還支持像k均值(k-means)和分類樹(claasification tree)這樣的其他ML算法. 為了同時支持這些應用的不同數據訪存模式, PuDianNao提出了“冷緩存" (cold buffer)和“熱緩存" (hot buffer)來應對不同的數據重用方式. 除此之外, 一些如循環展開(loop unrolling)和循環分塊(loop tiling)等編譯技術也被應用, 從而形成一個軟硬件協同設計的方法來增加片上數據的重用以及PE的實際利用率.

4.2 TPU

如圖 7所示, Google在2017年提出了基于脈沖陣列(systolic array)的TPU [15]. 其實在2015年Google就已經開始使用其提出的第一代TPU在數據中心加速NN的推理. Systolic arrary的數據流是“權重固定" (weight stationary)的數據流, 并且是一個2維的單指令多數據流(single instruction multiple data, SIMD). 在此之后, Google又發布了面向云端應用的第二代TPU 1). 第二代TPU既可以處理DNN的推理也可以加速模型的訓練. 它依然是基于脈沖陣列的架構并且引入了專用的向量處理單元.

Google I/O'17. California: Google cited 2019 Jan 18. //events.google.com/io2017/.

4.3 寒武紀

除了獨立的加速器設計之外, 相應的指令集(instruction set architecture)也被提出. 寒武紀 [19] (Cambricon)就是一個以load-store架構為基礎, 集成標量、向量、矩陣、邏輯、數據傳輸及控制指令的一個面向DNN加速的ISA. ISA設計考慮了數據并行、定制的向量/矩陣操作指令以及對scratchpad memory的使用等多重因素.

4.4 數據流分析與架構設計

DNN和CNN的計算通常都需要大量的訪存. 對于復雜而且參數量大的NN模型而言, 將模型的全部參數都放在片上是不可能的. 由于受限的片外帶寬, 提高片上數據的重用以及減少片外數據的讀取對于提高計算效率而言就顯得尤為重要. Eyeriss [6]針對NN計算的特點提出了3種不同的數據流, 分別是“輸入固定" (input-stationary, IS), “輸出固定" (output-stationary, OS)以及“權重固定" (weight-stationary, WS). 在這3種數據流的基礎上, 結合具體的加速器硬件設計, Eyeriss提出了“行"固定(row-stationary, RS)的數據流來進一步提高數據的重用(如圖 8). 工業界的許多加速器產品也都重視數據流的設計與實現. 例如, WaveComputing 2) 為可重構陣列加速器提出了粗粒度調配的數據流, GraphCore 3) 則專門為圖計算設計高效的架構及數據流. NN加速器常常作為CPU的協處理器來幫助其處理一些相對復雜的NN模型的加速(包括推理與計算). 雖然有更充足的硬件資源預算, 但是NN加速器與外部存儲器鏈接的帶寬依然非常受限. 其所需的數據本質上仍然需要從片外讀取. 在一些條件下, 其產生的中間數據也仍需寫到片外. 因而受限的片外帶寬以及頻繁的片外數據讀取/寫入成為了此類NN加速器的性能瓶頸. 2) HC29 (2017). Hot chips cited 2019 Jan 18. . 3) GraphCore. Bristol: GraphCore cited 2019 Jan 18. .

5 基于新型存儲器件的加速器

ReRAM和HMC是兩個具有代表性的能實現“存算一體" (PIM)的新型存儲器件. PIM可以大大降低數據在計算平臺上的移動, 從而降低數據傳輸所帶來的延遲與能耗.

5.1 基于憶阻器的神經網絡加速器

利用ReRAM進行DNN加速的主要思路是利用ReRAM陣列進行“原位"的MVM計算. PRIME [7], ISAAC [11]以及PipeLayer [8]是3個具有代表性的基于ReRAM的DNN加速器. PRIME的架構如圖 9 所示. PRIME利用ReRAM同時對數據進行存儲和計算. 在PRIME中, WDD可以根據輸入的大小配置相應的電壓. Col mux可以配置為模擬域減法和非線性激活函數電路(sigmoid). 兩個不同ReRAM陣列的中間結果可以合并在一起然后發送到sigmoid 電路上進行下一步計算. PRIME中SA的精度也可以按照需求進行配置, 并且像ADC一樣進行模擬信號到數字信號的轉換. ISAAC [11]提出了一個數據塊內流水線式的NN處理架構. 如圖 10 所示, 這條流水線中結合了數據的編碼與計算. IMA是基于ReRAM的原位乘加單元. 第一個周期, 數據先從eDRAM中被取出然后發送到計算單元. ISAAC中的數據格式是16比特定點數. 在計算過程中, 每一個周期都有1比特數據被發送到IMA中. IMA的結果被轉換成數字信號形式存儲. 針對一個數據的16個計算周期, 之前的結果不斷移位與當前結果相加, 從而得到最終結果. 然后, 線性的最終結果被非線性函數計算電路處理, 最后寫入eDRAM. PipeLayer [8]也采用了流水線的工作方式. 與ISAAC不同, PipeLayer每次處理的數據“粒度"更大, 以此來充分利用ReRAM計算單元的高并行性. PipeLayer也提出了兩種并行計算的方式: 層內并行與層間并行. 對于層內并行, PipeLayer采用了一種數據并行的處理方式, 即用多個含有相同權重的處理單元去處理更多的輸入數據; 而層間并行則采用模型并行的處理方式, 即含有模型不同層權重的處理單元同時運行. 中間結果被一直復用. 注意, 這時不同的處理單元同時得到的是來自不同輸入的中間結果.

5.2 基于混合記憶立方體(HMC)的神經網絡加速器

HMC將幾個DRAM的存儲芯片和邏輯層芯片豎直集成在一起. 這個集成體被劃分為多個相對獨立的“計算集合" (vault). HMC大存儲量、高帶寬、低延遲的特點使得近存計算成為可能. 在一個基于HMC的加速器架構設計中, 計算和邏輯單元被放在邏輯層芯片上, DRAM的存儲芯片則用來儲存數據. Neurocube [20]和Tetris [21]是兩個典型的基于HMC的DNN加速器. 如圖11所示, Neurocube包含16個vault. 每個vault可以被看成一個子系統. 這個子系統包含一個可以做乘加的PE和一個負責數據包在邏輯層芯片與DRAM存儲芯片之間傳輸的數據通路. 每個vault也可以通過數據通路與其他vault進行亂序數據發送與接收. 基于新型存儲器件的加速器有效減少了數據的搬運, 并且尤其適合處理數據量/參數量較大的計算任務, 不再受“馮 ? 諾依曼"架構的限制, 是未來加速器架構發展的重要方向.

6 軟硬件協同設計及面向新型應用的加速器

DNN加速器的性能也可以通過高效且適用于硬件計算特點的NN算法提升. 例如通過對NN的剪枝減少模型的參數量并且使其更加稀疏, 以此來減少數據訪存. 而對NN中參數的量化則可以使NN計算更加低精度, 既能減少數據的存儲量又能降低計算成本. 除此之外, 一些新型的應用, 如對抗神經網絡(generative adversarial network, GAN)、基于深度學習的推薦系統等, 為專用加速器等設計提出了新的要求.

6.1 稀疏神經網絡加速

文獻[22]提出在精度損失很小的情況下, NN模型中很大一部分的連接可以被剪枝, 即很大比例的權重可以被設置為0. 相應地, 很多加速這種稀疏神經網絡的加速器也被提出. 例如EIE [23]是專為加速稀疏的權重矩陣計算而設計的, Cnvlutin [24]為加速稀疏的特征圖輸入而定制. 但是這些設計中額外的數據編碼器與解碼器也會帶來附加的硬件開銷. 有一些算法工作討論了如何設計對于硬件加速友好的NN模型 [25,26]. 為了使得硬件更有效地加速稀疏NN模型, 文獻 [25]將稀疏對象的粒度從每個權重提升到每個參數塊, 從而減少復雜的硬件控制而節省額外的開銷. 已經有一些加速器設計提出相應的技術方法來處理不規則訪存以及緩解稀疏NN給硬件處理單元之間帶來不平衡的工作量的問題. 例如Cambricon-X [27]和Cambricon-S [28]就采用了一種軟硬件協同的方法去解決稀疏NN模型計算中不規則訪存的問題. ReCom [29] 則針對ReRAM平臺提出了一種將權重和輸入(包含中間結果)結構化壓縮的方案來加速稀疏NN的推理. ReBoc [26]則在ReRAM平臺上對采用“塊循環"(block circulant)壓縮方法的NN進行加速. par 除此之外, 最近對數據比特粒度的加速也得到了廣泛的關注. PRA [30]對串行輸入中每個數據中的“0"比特進行跳過操作, 因而節省了不必要的計算開銷. 并且對此操作提出了相應的定制乘加器設計. Laconic [31]則對NN計算中的乘法進行比特粒度的分解, 從而可將必要的計算量降低到原來的1/40.

6.2 低精度神經網絡加速

降低數據精度, 對NN的參數進行量化是提高NN加速器計算效率的另一種方式. 最近TensorRT [32]的結果顯示, 在確保推理精度不損失的情況下, AlexNet, VGG以及ResNet等被廣泛使用的NN模型可以被量化至8比特. 但當量化精度進一步降低時, NN模型的精度很難再得到保證. 許多復雜的量化方法也被相繼提出. 但附加的硬件編碼器與解碼器的開銷也隨之增加. 所以研究者們試圖在數據的精度以及整體系統的性能之間找到一個平衡點. 權衡各種因素的量化方法可以總結如下. (1) 權重和特征圖被量化成不同的精度來減小NN推理精度的損失. 這可能會改變加速器架構中數據流的設計. (2) NN模型中不同的層或者不同的數據需要不同的量化策略. 總體來說, 一般NN的第一層與最后一層的數據需要更高的精度. 但這也會增加相關控制硬件的開銷. (3) 還可以根據NN參數的數據分布來確定量化策略. 例如文獻 [33]對大部分的權重和中間結果進行低精度量化并進行計算; 而對少數偏離大多數數據范圍分布的數據, 則采用高精度量化.

6.3 生成對抗神經網絡加速

與CNN/GAN不同, GAN包含兩部分, 分別是生成器(generator)和判別器(discriminator). Generator負責產生“假"的數據并提供給discriminator, 而discriminator則負責去學習如何辨別出這些“假"的數據. 這兩部分被循環訓練并且相互競爭. 在GAN的計算中包含一個新的算子叫轉置卷積(transposed convolution). 與原來的卷積相比, transposed convolution包含上采樣操作并把許多“0"值插入到特征圖中. 如果transposed convolution被直接計算, 這無疑將引入許多冗余計算. 除此之外, 如果不存儲這些上采樣過程中所產生的“0", 那么對非0數據的訪存又是極其不規則的. 總之, GAN的加速器必須要支持訓練, 為transposed convolution定制計算數據流, 還要優化不規則的數據訪存. ReGAN [9]提出了一個基于ReRAM的GAN加速器. 如圖 12所示, 一個專門設計的層級流水線被提出來提高系統的吞吐率. 其中, “空間并行" (spatial parallelism)和“共享計算" (computation sharing)兩項技術也被提出來進一步提高訓練效率. 也有基于CMOS的GAN的加速器設計提出針對GAN的不同計算部分的數據流進行優化. GANAX [34]提出了基于SIMD-MIMD的加速器來提高generator和discriminator的運行效率. SIMD-MIMD的模式主要是用在一些涉及generator的上采樣插入“0"的操作加速上, 而單獨的SIMD模式則主要用在discriminator的CNN加速上.

7 展望

本節主要對DNN的訓練加速器、基于ReRAM的加速器以及edge端的DNN加速器進行展望, 對其未來的發展趨勢予以討論.

7.1 DNN訓練加速器

目前, 幾乎大多數DNN加速器架構都專注于DNN推理優化, 只有少數部分支持NN的訓練 [8]. 隨著訓練數據集和神經網絡規模的增加, 單個加速器不再能夠支持大型 DNN 的訓練. 不可避免地需要部署一組加速器或多個加速器來訓練 DNN. 文獻 [35]提出了一種在加速器陣列上進行DNN訓練的混合并行結構. 加速器之間的通信在加速器陣列上的 DNN 訓練中占主導地位. 文獻 [35]提出了一種通信模型來識別數據通信的產生位置以及通信量的大小. 在通信模型的基礎上, 它還優化了分層并行性, 以最大限度地減少總通信量, 提高系統性能和能源效率.

7.2 基于ReRAM的DNN加速器

當前基于ReRAM的加速器 [7,8,11], 都假設憶阻器單元是理想的. 然而, 諸如工藝變化 [36]、電路噪聲 [37]和耐久性問題 [38]等現實挑戰極大地阻礙了基于ReRAM 的加速器的實現. 未來, 在實際的基于 ReRAM 的 DNN 加速器設計中, 必須考慮這些非理想因素.

7.3 Edge端DNN加速器

在DNN應用中, 計算和內存密集型部分(例如, 訓練)通常被卸載到cloud端具有強大算力的 GPU上, 只有某些輕推理模型部署在edge端設備(例如, 物聯網或移動設備)上. 隨著數據采集規模的快速增長, 擁有能夠針對某些任務自適應學習或微調其 DNN 模型的智能邊緣設備已經成為一種迫切的需求. 例如, 可穿戴設備會監控用戶的健康. 由于顯著的數據通信開銷和隱私問題, 用戶更傾向于在本地調整設備所使用的NN 模型, 而不是將感測到的健康數據發送回云端. 在其他應用中, 例如機器人、無人機和自動駕駛汽車, 經過靜態訓練的模型也無法有效處理隨時間變化的環境條件. 然而, 將大量環境數據發送到cloud端進行增量訓練所帶來的數據傳輸的高延遲通常是不可接受的. 更重要的是, 許多現實生活場景需要實時執行多個任務和動態適應能力 [39]. 然而, 由于邊緣設備嚴格的計算資源限制, 在邊緣設備中進行這些計算極具挑戰性. RedEye [40]是邊緣 DNN 處理的加速器, 其中計算部分與傳感部分集成在一起. 因而, 為邊緣 DNN 設計輕量級、實時和節能的架構是下一步的重要研究方向.

付費5元查看完整內容

圖嵌入 · 隨機游走 · 圖神經網絡 · 期刊 ·

2022 年 1 月 17 日

[付費5元查看完整內容]圖嵌入模型綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖分析用于深入挖掘圖數據的內在特征,然而圖作為非歐幾里德數據,傳統的數據分析方法普遍存在較高的計算量和空間開銷。圖嵌入是一種解決圖分析問題的有效方法,其將原始圖數據轉換到低維空間并保留關鍵信息,從而提升節點分類、鏈接預測、節點聚類等下游任務的性能。與以往的研究不同,同時對靜態圖和動態圖嵌入文獻進行全面回顧,我們提出一種靜態圖嵌入和動態圖嵌入通用分類方法, 即基于矩陣分解的圖嵌入、基于隨機游走的圖嵌入、基于自編碼器的圖嵌入、基于圖神經網絡（GNN）的圖嵌入和基于其他方法的圖嵌入。其次,對靜態圖和動態圖方法的理論相關性進行分析,對模型核心策略、下游任務和數據集進行全面總結。最后,提出了四個圖嵌入的潛在研究方向。

//fcst.ceaj.org/article/2022/1673-9418/1673-9418-16-1-59.shtml

圖是復雜系統中常用的信息載體,可以表示現實中許多復雜關系,如社交網絡[1]、犯罪網絡[2]、交通網絡[3]等。圖結構作為一種非歐幾里德數據,很難直接應用卷積神經網絡（convolutional neural network,CNN）[4]和循環神經網絡（recurrent neural network,RNN）[5]等深度學習方法[6]。為了構造用于圖數據挖掘的特征表示,圖嵌入將節點映射到低維空間,生成保留原始圖中某些重要信息的低維向量。目前,圖嵌入不僅在節點分類[7]、鏈接預測[8]、節點聚類[9]、可視化[10]等復雜網絡上的機器學習任務中獲得成功,還廣泛用于社交影響力建模[11]、內容推薦[12]等現實任務。

早期的圖嵌入算法主要用于數據降維,通過鄰域關系構建相似度圖,將節點嵌入低維向量空間,并保持相連節點向量的相似性。這類方法通常時間復雜度高,很難擴展到大型圖上。近年來,圖嵌入算法轉向擴展性強的方法。例如,矩陣分解方法[13]使用鄰接矩陣的近似分解作為嵌入;隨機游走法[14]將游走序列輸入到Skip-Gram[15]生成嵌入。這些方法利用圖的稀疏性降低了時間復雜度。當前,很多綜述[16,17,18,19,20,21]對圖嵌入方法進行了歸納與總結,但存在兩大局限：一是部分綜述僅涉及傳統方法介紹,許多新模型沒有納入研究;二是這些綜述只關注靜態圖嵌入或動態圖嵌入,忽略了二者之間的關聯性。

本文對圖嵌入方法進行全面系統性綜述,有以下三方面的貢獻：（1）提出一種新的圖嵌入分類法,同時對靜態圖和動態圖方法進行分類;（2）對現有模型進行系統性分析,為理解現有方法提供新視角;（3）提出了四個圖嵌入的潛在研究方向。

付費5元查看完整內容

圖神經網絡 · 圖結構數據 · 圖卷積神經網絡 · 譜域 · 空間域 ·

2022 年 1 月 9 日

[付費5元查看完整內容]圖神經網絡綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近幾年來,將深度學習應用到處理和圖結構數據相關的任務中越來越受到人們的關注．圖神經網絡的出現使其在上述任務中取得了重大突破,比如在社交網絡、自然語言處理、計算機視覺甚至生命科學等領域得到了非常廣泛的應用．圖神經網絡可以把實際問題看作圖中節點之間的連接和消息傳播問題,對節點之間的依賴關系進行建模,從而能夠很好地處理圖結構數據．鑒于此,系統綜述了圖神經網絡模型以及應用．首先從譜域、空間域和池化３方面對圖卷積神經網絡進行了闡述．然后,描述了基于注意力機制和自編碼器的圖神經網絡模型,并補充了一些其他方法實現的圖神經網絡．其次,總結了針對圖神經網絡能不能做大做深等問題的討論分析．進而,概括了圖神經網絡的４個框架．還詳細說明了在圖神經網絡在自然語言處理、計算機視覺等方面的應用．最后,對圖神經網絡未來的研究進行了展望和總結．相較于已有的圖神經網絡綜述文章,詳細闡述了譜理論知識,并對基于譜域的圖卷積神經網絡體系進行全面總結．同時,給出了針對空間域圖卷積神經網絡效率低的改進模型這一新的分類標準．并總結了針對圖神經網絡表達能力、理論保障等的討論分析,增加了新的框架模型．在應用部分,闡述了圖神經網絡的最新應用．

在過去幾年,深度學習已經在人工智能和機器學習上取得了成功,給社會帶來了巨大的進步．深度學習的特點是堆積多層的神經網絡層,從而具有更好的學習表示能力．卷積神經網絡 (convolutional neuralnetwork,CNN)的飛速發展更是將深度學習帶上了一個新的臺階[１Ｇ２]．CNN 的平移不變性、局部性和組合性使其天然適用于處理像圖像這樣的歐氏結構數據的任務中[３Ｇ４],同時也可以應用于機器學習的其他各個領域[５Ｇ７]．深度學習的成功一部分源自于可以從歐氏數據中提取出有效的數據表示,從而對其進行高效的處理．另一個原因則是得益于 GPU 的快速發展,使得計算機具有強大的計算和存儲能力, 能夠在大規模的數據集中訓練和學習深度學習模型．這使得深度學習在自然語言處理[８]、機器視覺[９] 和推薦系統[１０]等領域都表現出了良好的性能．

但是, 現有的神經網絡只能對常規的歐氏結構數據進行處理．如圖１(a)歐氏數據結構,其特點就是節點有固定的排列規則和順序,如２維網格和１維序列．而當前越來越多的實際應用問題必須要考慮非歐氏數據,如圖１(b)非歐氏數據結構中節點沒有固定的排列規則和順序,這就使得不能直接將傳統的深度學習模型遷移到處理非歐氏結構數據的任務中．如若直接將 CNN 應用到其中,由于非歐氏數據中心節點的鄰居節點數量和排列順序不固定,不滿足平移不變性,這就很難在非歐氏數據中定義卷積核．針對圖神經網絡(graphneuralnetwork,GNN) 的研究工作,最開始就是在如何固定鄰居節點數量以及如何給鄰居節點排序展開的,比如 PATCHYＧ SAN [１１],LGCN [１２],DCNN [１３]方法等．完成上述２項工作之后,非歐氏結構數據就轉化為歐氏結構數據, 然后就可以利用 CNN 處理．圖是具有點和邊的典型非歐氏數據,在實際中可以將各種非歐氏數據問題抽象為圖結構．比如在交通系統中,利用基于圖的學習模型可以對路況信息進行有效的預測[１４]．在計算機視覺中,將人與物的交互看作一種圖結構,可以對其進行有效地識別[１５]。

近期已有一些學者對圖神經網絡及其圖卷積神經網絡分支進行了綜述[１６Ｇ１９]．本文的不同之處在于,首先由于經典模型是很多變體模型的基石,所以給出了經典模型的理論基礎以及詳細推理步驟．在１．２節基于空間方法的圖卷積神經網絡中,多用圖的形式列出模型的實現過程,使模型更加通俗易懂．文獻 [１６Ｇ１９]并未對目前廣大學者熱點討論的問題進行總結,所以在第５節針對圖神經網絡的討論部分,首次列出了目前研究學者對 GNN 的熱點關注問題, 比如其表達能力、過平滑問題等．然后,在第６節中總結了圖神經網絡新框架．同時,針對圖神經網絡的應用,在第７節中較全面地介紹了 GNN 的應用場景．最后,列出了圖神經網絡未來的研究方向．在圖２中列出了本文的主體結構．

研究圖神經網絡對推動深度學習的發展以及人類的進步具有重大意義．首先,現實中越來越多的問題可以抽象成非歐氏結構數據,由于圖數據的不規則性,傳統的深度學習模型已經不能處理這種數據, 這就亟需研究設計一種新的深度神經網絡．而 GNN 所處理的數據對象就是具有不規則結構的圖數據,GNN 便在這種大背景下應運而生[２０Ｇ２１]．然后,圖數據的結構和任務是十分豐富的．這種豐富的結構和任務也正是和人們生活中要處理的實際問題相貼合的．比如,圖數據有異質性以及邊的有向連接特性, 這和推薦系統中的場景完全類似．圖數據處理任務中節點級別、邊級別以及整圖級別也同樣可以應用到深度學習的各個應用場景中．所以,GNN 的研究為解決生活中的實際問題找到了一種新的方法和途徑．最后,GNN 的應用領域是十分廣泛的,能夠處理各種能抽象成圖數據的任務．不管是在傳統的自然語言處理領域[２２Ｇ２４]或者圖像領域[２５Ｇ２６],還是在新興的生化領域[２７Ｇ２８],GNN都能表現出強大的性能．

１圖卷積神經網絡

CNN 已經在圖像識別、自然語言處理等多個領域取得了不俗的成績,但其只能高效地處理網格和序列等這樣規則的歐氏數據．不能有效地處理像社交多媒體網絡數據、化學成分結構數據、生物蛋白數據以及知識圖譜數據等圖結構的非歐氏數據．為此, 無數學者經過不懈努力,成功地將 CNN 應用到圖結構的非歐氏數據上,提出了圖卷積神經網絡(graph convolutionalnetwork,GCN)．GCN 是 GNN 中一個重要分支,現有的大多數模型基本上都是在此基礎上變化推導而來．下面我們將按照從基于譜方法、空間方法和池化３方面對 GCN 進行總結和概括．

2 基于注意力實現的圖神經網絡

注意力機制在處理序列任務已經表現出強大的能力[６０],比如在機器閱讀和學習句子表征的任務中．其強大的優勢在于允許可變大小的輸入,然后利用注意力機制只關心最重要的部分,最后做出決策處理．一些研究發現,注意力機制可以改進卷積方法,從而可以構建一個強大的模型,在處理一些任務時能夠取得更好的性能．為此,文獻[６１]將注意力機制引入到了圖神經網絡中對鄰居節點聚合的過程中,提出了圖注意力網絡(graphattentionnetworks, GAT)．在傳統的 GNN 框架中,加入了注意力層,從而可以學習出各個鄰居節點的不同權重,將其區別對待．進而在聚合鄰居節點的過程中只關注那些作用比較大的節點,而忽視一些作用較小的節點．GAT 的核心思想是利用神經網絡學習出各個鄰居節點的權重,然后利用不同權重的鄰居節點更新出中心節點的表示。

３基于自編碼器實現的圖神經網絡

在無監督學習任務中,自編碼器(autoencoder, AE)及其變體扮演者非常重要的角色,它借助于神經網絡模型實現隱表示學習,具有強大的數據特征提取能力．AE 通過編碼器和解碼器實現對輸入數據的有效表示學習,并且學習到的隱表示的維數可以遠遠小于輸入數據的維數,實現降維的目的．AE 是目前隱表示學習的首選深度學習技術,當我們把具有某些聯系的原始數據(X１,X２,…,Xn)輸入到 AE中進行重構學習時,可以完成特征提取的任務．自編碼器的應用場景是非常廣泛的,經常被用于數據去噪、圖像重構以及異常檢測等任務中．除此之外,當 AE被用于生成與訓練數據類似的數據時, 稱之為生成式模型．由于 AE具有上述優點,一些學者便將 AE 及其變體模型應用到圖神經網絡當中來．文獻 [６９]第１個提出了基于變分自編碼器 (variationalautoencoder,VAE)的變分圖自編碼器模型 (variationalgraphautoencoder,VGAE),將 VAE應用到對圖結構數據的處理上．VGAE利用隱變量學習出無向圖的可解釋隱表示,使用了圖卷積網絡編碼器和一個簡單的內積解碼器來實現這個模型．

4. 未來研究展望 GNN

雖然起步較晚, 但由于其強大的性能, 已經取得了不俗的表現, 并且也在例如計算機視覺和推薦系統等實際應用中發揮著巨大的作用．不難發現, GNN 確實更符合當前實際應用的發展趨勢, 所以在近幾年才會得到越來越多人的關注．但是, GNN 畢竟起步較晚,還沒有時間積累,研究的深度和領域還不夠寬廣．目前來看,它依然面臨著許多亟待解決的問題,本節總結了 GNN 以后的研究趨勢．

１) 動態圖．目前,GNN 處理的圖結構基本上都是靜態圖,涉及動態圖結構的模型較少[１３８Ｇ１３９],處理動態圖對 GNN 來說是一個不小的挑戰．靜態圖的圖結構是靜態不變的,而動態圖的頂點和邊是隨機變化的,甚至會消失,并且有時還沒有任何規律可循．目前針對 GNN 處理動態圖結構的研究還是比較少的,還不夠成熟．如果 GNN 能夠成功應用于動態圖結構上,相信這會使 GNN 的應用領域更加寬廣．將 GNN 模型成功地推廣到動態圖模型是一個熱點研究方向．

２) 異質圖．同質圖是指節點和邊只有一種類型, 這種數據處理起來較容易．而異質圖則是指節點和邊的類型不只一種,同一個節點和不同的節點連接會表現出不同的屬性,同一條邊和不同的節點連接也會表現出不同的關系,這種異質圖結構處理起來就相對復雜．但異質圖卻是和實際問題最為貼切的場景,比如在社交網絡中,同一個人在不同的社交圈中可能扮演著父親、老師等不同的角色．對于異質圖的研究還處在剛起步的階段[１４０Ｇ１４１],模型方法還不夠完善．所以,處理異質圖也是將來研究的一個熱點．

３) 構建更深的圖神經網絡模型．深度學習的強大優勢在于能夠形成多層的不同抽象層次的隱表示,從而才能表現出優于淺層機器學習的強大優勢．但對于圖深度學習來說,現有的圖神經網絡模型大多還是只限于淺層的結構．通過實驗發現,當構造多層的神經網絡時,實驗結果反而變差．這是由過平滑現象造成的,GNN 的本質是通過聚合鄰居節點信息來表征中心節點．當構造多層的神經網絡之后,中心節點和鄰居節點的差異就會變得微乎其微,從而會導致分類結果變差．如何解決過平滑現象,使圖神經網絡能夠應用于更多層的結構,從而發揮出深度學習的強大優勢．雖然已有文獻對其進行了討論[９１], 但構建更深的圖神經網絡模型仍是值得深入研究的問題．

４) 將圖神經網絡應用到大圖上．隨著互聯網的普及,圖神經網絡處理的數據也變得越來越大,致使圖中的節點數量變得巨大,這就給圖神經網絡的計算帶來了不小的挑戰．雖然一些學者對該問題進行了研究改進[１４２],但針對將圖神經網絡應用到大圖上的研究同樣是將來研究的熱點問題,在這方面,引入摘要數據結構,構造局部圖數據,并能適當地融合局部圖結構,形成整體圖神經網絡的表示是可能的思路．

５) 探索圖中更多有用的信息．在當前諸多學者對于圖神經網絡模型的研究中,僅僅利用了圖中節點之間有無連接這一拓撲結構信息．但是,圖是一個非常復雜的數據結構,里面還有很多有用的信息未被人們發現利用．比如,圖中節點的位置信息．中心節點的同階鄰居節點處于不同位置,距離中心節點的遠近不同應該會對中心節點產生的影響程度不同．如果能夠探索出圖中更多的有用信息,必會將圖神經網絡的性能提升一個層次,這是一個非常值得探討的問題．

６) 設計圖神經網絡的數學理論保障體系．任何神經網絡模型必須有強大的數學理論支撐才能發展得更快,走得更遠．現在對于圖神經網絡模型的設計,大多還只是依靠研究者的經驗和基于機理邏輯設計出來的,并且對于圖神經網絡模型的性能分析僅僅是從實驗結果中得來,并沒有從數學理論層面給出一個合理的解釋．目前,該領域已有一些研究[９０Ｇ９１],但為圖神經網絡設計出強大的數學理論,指導圖神經網絡的構造、學習和推理過程．能夠給出圖神經網絡學習結果正確性的數學理論保障,仍是未來發展的一個重要方向．

圖神經網絡的工業落地．當前對于圖神經網絡的研究大多還只是停留在理論層面,首先設計出模型,然后在公開數據集上進行測試驗證,鮮有把工業的實際情況考慮在內．雖然圖神經網絡在工業上已有一小部分的實際應用,但還遠沒有達到大規模應用的程度．任何研究只有真正地在工業界落地,才能發揮它的應用價值,反之也會促進其進一步的研究發展．盡快將圖神經網絡應用到實際的工業場景中,是一個亟需解決的問題．

付費5元查看完整內容

深度生成模型 · 受限玻爾茲曼機 · 變分自編碼器 · 流模型 · 生成式對抗網絡 ·

2022 年 1 月 2 日

[付費5元查看完整內容]深度生成模型綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

通過學習可觀測數據的概率密度而隨機生成樣本的生成模型在近年來受到人們的廣泛關注, 網絡結構中包含多個隱藏層的深度生成式模型以更出色的生成能力成為研究熱點, 深度生成模型在計算機視覺、密度估計、自然語言和語音識別、半監督學習等領域得到成功應用, 并給無監督學習提供了良好的范式. 本文根據深度生成模型處理似然函數的不同方法將模型分為三類: 第一類方法是近似方法, 包括采用抽樣方法近似計算似然函數的受限玻爾茲曼機(Restricted Boltzmann machine, RBM)和以受限玻爾茲曼機為基礎模塊的深度置信網絡(Deep belief network, DBN)、深度玻爾茲曼機(Deep Boltzmann machines, DBM)和亥姆霍茲機, 與之對應的另一種模型是直接優化似然函數變分下界的變分自編碼器以及其重要的改進模型, 包括重要性加權自編碼和可用于半監督學習的深度輔助深度模型; 第二類方法是避開求極大似然過程的隱式方法, 其代表模型是通過生成器和判別器之間的對抗行為來優化模型參數從而巧妙避開求解似然函數的生成對抗網絡以及重要的改進模型, 包括WGAN、深度卷積生成對抗網絡和當前最頂級的深度生成模型BigGAN; 第三類方法是對似然函數進行適當變形的流模型和自回歸模型, 流模型利用可逆函數構造似然函數后直接優化模型參數, 包括以NICE為基礎的常規流模型、變分流模型和可逆殘差網絡(i-ResNet), 自回歸模型(NADE)將目標函數分解為條件概率乘積的形式, 包括神經自回歸密度估計(NADE)、像素循環神經網絡(PixelRNN)、掩碼自編碼器(MADE)以及WaveNet等. 詳細描述上述模型的原理和結構以及模型變形后, 闡述各個模型的研究進展和應用, 最后對深度生成式模型進行展望和總結.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190866

付費5元查看完整內容

圖神經網絡 · 混合執行模式 · 加速結構 · 人工智能 · 領域專用架構 ·

2021 年 6 月 24 日

[付費5元查看完整內容]圖神經網絡加速結構綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：近年來，新興的圖神經網絡因其強大的圖學習和推理能力，得到學術界和工業界的廣泛關注，被認為是推動人工智能領域邁入“認知智能”階段的核心力量.圖神經網絡融合傳統圖計算和神經網絡的執行過程，形成了不規則與規則的計算和訪存行為共存的混合執行模式.傳統處理器結構設計以及面向圖計算和神經網絡的加速結構不能同時應對2種對立的執行行為，無法滿足圖神經網絡的加速需求.為解決上述問題，面向圖神經網絡應用的專用加速結構不斷涌現，它們為圖神經網絡定制計算硬件單元和片上存儲層次，優化計算和訪存行為，取得了良好的加速效果.以圖神經網絡執行行為帶來的加速結構設計挑戰為出發點，從整體結構設計以及計算、片上訪存、片外訪存層次對該領域的關鍵優化技術進行詳實而系統地分析與介紹.最后還從不同角度對圖神經網絡加速結構設計的未來方向進行了展望，期望能為該領域的研究人員帶來一定的啟發.

人工智能時代,包括卷積神經網絡 (convoluＧ tionalneuralnetworks,CNNs)、循環神經網絡 (recurrentneuralnetworks,RNNs)等在內的機器學習應用為社會與生活的智能化做出了革新性的巨大貢獻．然而傳統的神經網絡只能處理來自歐幾里得空間(Euclideanspace)的數據[１],該類分布規整且結構固定的數據無法靈活地表示事物間的復雜關系．現實生活中,越來越多的場景采用圖作為表征數據屬性與關系的結構．非歐幾里得空間中的圖結構理論上能夠表征世間萬物的互聯關系(如社交網絡、路線圖、基因結構等)[２],具有極為豐富和強大的數據表達能力．圖計算是一種能夠對圖進行處理,深入挖掘圖數據內潛藏信息的重要應用,但其不具備對圖數據進行學習的能力．

受到傳統神經網絡與圖計算應用的雙重啟發, 圖神經網絡(graph neural networks,GNNs)應運而生．圖神經網絡使得機器學習能夠應用于非歐幾里得空間的圖結構中,具備對圖進行學習的能力．目前圖神經網絡已經廣泛應用到節點分類[３]、風控評估[４]、推薦系統[５]等眾多場景中．并且圖神經網絡被認為是推動人工智能從“感知智能”階段邁入“認知智能”階段的核心要素[６Ｇ８],具有極高的研究和應用價值．

圖神經網絡的執行過程混合了傳統圖計算和神經網絡應用的不同特點．圖神經網絡通常包含圖聚合和圖更新２個主要階段．１)圖聚合階段的執行行為與傳統圖計算相似,需要對鄰居分布高度不規則的圖進行遍歷,為每個節點進行鄰居信息的聚合,因此這一階段具有極為不規則的計算和訪存行為特點．２)圖更新階段的執行行為與傳統神經網絡相似, 通過多層感知機(multiＧlayerperceptrons,MLPs) 等方式來進行節點特征向量的變換與更新,這一階段具有規則的計算和訪存行為特點．

圖神經網絡的混合執行行為給應用的加速帶來極大挑戰,規則與不規則的計算與訪存模式共存使得傳統處理器結構設計無法對其進行高效處理．圖聚合階段高度不規則的執行行為使得 CPU 無法從其多層次緩存結構與數據預取機制中獲益．主要面向密集規則型計算的 GPU 平臺也因圖聚合階段圖遍歷的不規則性、圖更新階段參數共享導致的昂貴數據復制和線程同步開銷等因素無法高效執行圖神經網絡[９]．而已有的面向傳統圖計算應用和神經網絡應用的專用加速結構均只關注于單類應用,無法滿足具有混合應用特征的圖神經網絡加速需求．因此為圖神經網絡專門設計相應的加速結構勢在必行．

自２０２０年全球首款面向圖神經網絡應用的專用加速結構 HyGCN [９]發表后,短時間內學術界已在該領域有多篇不同的硬件加速結構成果產出．為使讀者和相關領域研究人員能夠清晰地了解圖神經網絡加速結構的現有工作,本文首先對圖神經網絡應用的基礎知識、常見算法、應用場景、編程模型以及主流的基于通用平臺的框架與擴展庫等進行介紹．然后以圖神經網絡執行行為帶來的加速結構設計挑戰為出發點,從整體結構設計以及計算、片上訪存、片外訪存多個層次對該領域的關鍵優化技術進行詳實而系統的分析與介紹．最后還從不同角度對圖神經網絡加速結構設計的未來方向進行了展望, 期望能為該領域的研究人員帶來一定的啟發．

當前已有的圖神經網絡應用領域綜述論文從不同角度對圖神經網絡算法以及軟件框架進行總結與分析．綜述[１]對應用于數據挖掘和機器學習領域的主流圖神經網絡算法進行分類,并討論不同類別算法的關系與異同．綜述[１０]依據圖神經網絡模型的結構和訓練策略的不同,提出新的分類方法,并以模型的發展歷史為主線進行介紹與分析．綜述[１１]圍繞圖的表示學習(representationlearning)方法展開,并建立統一的框架來描述這些相關模型．綜述[１２]關注于圖神經網絡的理論屬性,總結圖神經網絡的表達能力(expressivepower)并對比分析克服表達限制的圖神經網絡模型．綜述[１３]基于計算機的金字塔組織結構,對面向圖計算的加速結構進行分類和總結, 對于新興的圖神經網絡應用,僅以 HyGCN [９]作為案例進行了討論．與前述工作側重點不同的是,本文針對圖神經網絡加速結構設計過程中涉及到的關鍵優化技術,進行系統性分析和總結,具有重要意義與啟發價值．

付費5元查看完整內容

目標檢測 · 深度學習 · 尺度問題 · 多尺度特征 ·

2021 年 5 月 11 日

[付費5元查看完整內容]多尺度目標檢測的深度學習研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

目標檢測一直以來都是計算機視覺領域的研究熱點之一,其任務是返回給定圖像中的單個或多個特定目標的類別與矩形包圍框坐標.隨著神經網絡研究的飛速進展,R-CNN 檢測器的誕生標志著目標檢測正式進入深度學習時代,速度和精度相較于傳統算法均有了極大的提升.但是,目標檢測的尺度問題對于深度學習算法而言也始終是一個難題,即檢測器對于尺度極大或極小目標的檢測精度會顯著下降,因此,近年來有不少學者在研究如何才能更好地實現多尺度目標檢測.雖然已有一系列的綜述文章從算法流程、網絡結構、訓練方式和數據集等方面對基于深度學習的目標檢測算法進行了總結與分析,但對多尺度目標檢測的歸納和整理卻鮮有人涉足.因此,首先對基于深度學習的目標檢測的兩個主要算法流派的奠基過程進行了回顧,包括以 R-CNN 系列為代表的兩階段算法和以 YOLO、 SSD 為代表的一階段算法;然后,以多尺度目標檢測的實現為核心,重點詮釋了圖像金字塔、構建網絡內的特征金字塔等典型策略;最后,對多尺度目標檢測的現狀進行總結,并針對未來的研究方向進行展望。

//www.jos.org.cn/jos/ch/reader/create_pdf.aspx?file_no=6166&journal_id=jos

付費5元查看完整內容

深度神經網絡 · 模型壓縮 ·

2020 年 8 月 22 日

[付費5元查看完整內容]深度神經網絡模型壓縮綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，隨著深度學習的飛速發展，深度神經網絡受到了越來越多的關注，在許多應用領域取得了顯著效果。通常，在較高的計算量下，深度神經網絡的學習能力隨著網絡層深度的增加而不斷提高，因此深度神經網絡在大型數據集上的表現非常卓越。然而，由于其計算量大、存儲成本高、模型復雜等特性，使得深度學習無法有效地應用于輕量級移動便攜設備。因此，壓縮、優化深度學習模型成為目前研究的熱點，當前主要的模型壓縮方法有模型裁剪、輕量級網絡設計、知識蒸餾、量化、體系結構搜索等。通過對以上方法的性能、優缺點和最新研究成果進行分析總結，對未來研究方向進行了展望。

付費5元查看完整內容

輕量級神經網絡 ·

2020 年 4 月 29 日

[付費5元查看完整內容]輕量級神經網絡架構綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度神經網絡已經被證明可以有效的解決圖像、自然語言等不同領域的問題.同時伴隨著移動互聯網技術的不斷發展，便攜式設備得到了迅速的普及，用戶提出了越來越多的需求.因此，如何設計高效、高性能的輕量級神經網絡是解決問題的關鍵.本文詳細闡述了三種構建輕量級神經網絡的方法，分別是人工設計輕量級神經網絡、神經網絡模型壓縮算法和基于神經網絡架構搜索的自動化神經網絡架構設計，同時簡要總結和分析了每種方法的特點，并重點介紹了典型的構建輕量級神經網絡的算法.最后，總結現有的方法，并給出了未來發展的前景.

付費5元查看完整內容

游客

閱讀: 0 點贊: 0

小貼士

登錄享主題訂閱及個性化推薦

相關主題

圖神經網絡

大規模數據

北京阿比特科技有限公司

注冊地址：北京市海淀區羊坊店路18號2幢3層301-191

亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

相關內容

知識薈萃

更多

1. 基于神經網絡的偏微分方程求解方法探索研究

2. 基于深度學習反演未知偏微分方程

3. 基于深度學習的偏微分方程求解方法

**3.1 偏微分方程神經網絡求解方法概述

**3.3 物理約束下的偏微分方程神經網絡求解方法

**3.4 物理驅動下的偏微分方程神經網絡求解方法

4. 研究前景與展望

5. 結語

1 引言

1.1 研究背景

1.2 研究現狀

1.3 本文章節介紹

2 背景介紹

2.1 神經網絡推理與訓練

2.2 計算模式

2.3 憶阻器平臺

3 片上加速器

3.1 神經處理單元

3.2 可重構片上網絡加速器

4 神經網絡加速器

4.1 DianNao

4.2 TPU

4.3 寒武紀

4.4 數據流分析與架構設計

5 基于新型存儲器件的加速器

5.1 基于憶阻器的神經網絡加速器

5.2 基于混合記憶立方體(HMC)的神經網絡加速器

6 軟硬件協同設計及面向新型應用的加速器

6.1 稀疏神經網絡加速

6.2 低精度神經網絡加速

6.3 生成對抗神經網絡加速

7 展望

亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

相關內容

知識薈萃

更多

1. 基于神經網絡的偏微分方程求解方法探索研究

2. 基于深度學習反演未知偏微分方程

3. 基于深度學習的偏微分方程求解方法

**3.1 偏微分方程神經網絡求解方法概述

**3.3 物理約束下的偏微分方程神經網絡求解方法

**3.4 物理驅動下的偏微分方程神經網絡求解方法

4. 研究前景與展望

5. 結語

1 引言

1.1 研究背景

1.2 研究現狀

1.3 本文章節介紹

2 背景介紹

2.1 神經網絡推理與訓練

2.2 計算模式

2.3 憶阻器平臺

3 片上加速器

3.1 神經處理單元

3.2 可重構片上網絡加速器

4 神經網絡加速器

4.1 DianNao

4.2 TPU

4.3 寒武紀

**4.4 數據流分析與架構設計 **

5 基于新型存儲器件的加速器

5.1 基于憶阻器的神經網絡加速器

5.2 基于混合記憶立方體(HMC)的神經網絡加速器

6 軟硬件協同設計及面向新型應用的加速器

6.1 稀疏神經網絡加速

6.2 低精度神經網絡加速

6.3 生成對抗神經網絡加速

7 展望

4.4 數據流分析與架構設計