借助人工神經網絡(Artificial Neural Network, ANN),深度強化學習在游戲、機器人等復雜控制任務中 取得了巨大的成功.然而,在認知能力與計算效率等方面,深度強化學習與大腦中的獎勵學習機制相比仍存在著巨 大的差距.受大腦中基于脈沖的通信方式啟發,脈沖神經網絡(Spiking Neural Network, SNN)使用擬合生物神經 元機制的脈沖神經元模型進行計算,具有處理復雜時序數據的能力、極低的能耗以及較強的魯棒性,并展現出了持 續學習的潛力.在神經形態工程以及類腦計算領域中,SNN受到了廣泛的關注,被譽為是新一代的神經網絡.通過 將SNN與強化學習相結合,脈沖強化學習算法被認為是發展人工大腦的一個可行途徑,并能夠有效解釋生物大腦 中的發現.作為神經科學與人工智能的交叉學科,脈沖強化學習算法涵蓋了一大批杰出的研究工作.根據對不同領 域的側重,這些研究工作主要可以分為兩大類:一類是以更好地理解大腦中的獎勵學習機制為目的,用于解釋動物 實驗中的發現,并對大腦學習進行仿真,例如R-STDP學習規則;另一類則是以實際控制任務中的性能、功耗等具 體指標為導向,用作人工智能的一種魯棒且低能耗的解決方案,在機器人、自主控制等領域具有巨大的應用潛力 . 本文首先介紹了脈沖強化學習算法的基礎(即脈沖神經網絡以及強化學習),然后對當前這兩大類脈沖強化學習算 法的研究特點與研究進展等進行分析 .對于第一類算法,本文重點分析了利用三因素學習規則實現的強化學習算 法,并回顧了其生理學背景以及具體實現方式 . 根據在訓練過程中是否使用 ANN,本文將第二類算法分為依托 ANN實現的脈沖強化學習算法與基于脈沖的直接強化學習算法,并率先對這一脈沖強化學習算法的最新進展進行 了系統性的梳理與分析,同時全面展示了在深度強化學習算法中應用SNN的不同方式.最后,本文對該領域的研究 挑戰以及后續研究方向進行了深入地探討,總結了當前研究的優勢與不足,并對其未來對神經科學以及人工智能領 域可能產生的影響進行展望,以吸引更多研究人士參與這個新興方向的交流與合作.
神經科學在人工智能(Artificial Intelligence, AI)發展史上扮演了重要的角色,許多經典神經網 絡結構的出發點都是為了理解大腦的工作機制[1-3] . 此外,神經科學不僅可以為已存在的AI技術提供生 物學解釋[4-7] ,還可以為構建人工大腦時所需的新算 法與新架構提供豐富的靈感來源[8-10] . 近些年來,隨 著計算機算力的增強以及大數據的積累,以深度學 習[11] 為代表的人工智能領域得到了蓬勃的發展. 然 而,現有的計算系統執行相同的任務所需要的能耗 往往要比人腦高出至少一個數量級[12] . 因此,AI 研 究人員將目光轉回大腦,對神經元之間脈沖驅動的通信方式產生了極大的興趣 . 在人腦的指引下,通 過脈沖驅動通信實現的神經元-突觸硬件計算系統 有望解決當前深度學習算法面臨的高能耗問題[13] . 這種神經形態計算技術[14] 始于 20 世紀 80 年代,并 在21世紀初期促成了大規模神經形態芯片的出現, 例如IBM的TrueNorth芯片[15] 、Intel的Loihi芯片[16] 以及英國曼徹斯特大學的 SpiNNaker 芯片[17] . 通過 采用存算一體的架構,神經形態芯片解決了傳統 馮·諾依曼計算架構中處理單元與存儲單元物理分 離(存算分離)的固有缺陷,從而減輕“內存墻瓶頸” 對計算吞吐量和能源效率的影響,將硬件功耗降低 到毫瓦級[13] .
在硬件不斷發展的同時,相關的算法也在不斷 協同演化. 通過將生物神經元之間通信的稀疏脈沖 信號和事件驅動的性質抽象為神經單元,生物學合 理的脈沖神經元模型[18] 被應用到神經網絡之中,由 此誕生了脈沖神經網絡(Spiking Neural Network, SNN). SNN 是為了彌合神經科學與機器學習之間 的差異而設計的新一代神經網絡[19] ,被認為是人工 智能硬件實現的一種極具前景的解決方案[13] . SNN 與目前流行的神經網絡和機器學習方法有著根本上 的不同,即其使用脈沖,而非常見的浮點值進行學 習 . 脈沖是一種發生在時間點上的離散事件,一般 可以由0和1進行表示,與生物神經元中的動作電位 (Action Potential)相對應 . 通常來說,SNN 的輸入 和輸出均為脈沖序列,神經元之間通過突觸進行連 接 . 理論分析表明,SNN 在計算性能上與常規神經 元模型相當[19] . 由于其處理復雜時序數據的能力、 極低的能耗[13] 以及深厚的生理學基礎[20] ,SNN受到 了廣大學者的關注,在圖像分類[21-23] 、目標識別[24-25] 、 語音識別[26-27] 以及其他領域[28-30] 上取得了飛速的發 展,展現出了極強的上升勢頭 . 最近的研究表明, SNN 在許多領域接近或達到了與經典人工神經網 絡(Artificial Neural Network, ANN)相 當 的 性 能[21,27] . 相比 ANN,SNN 還表現出了較強的魯棒 性 . 首先,脈沖神經元動態中的隨機性可以提高網 絡對外部噪聲的魯棒性[31] . 其次,近期有研究表明 脈沖神經元的發放機制使得 SNN 之于對抗攻擊存 在內在的魯棒性[32] . 此外,生物體的一生都在從與 環境之間的交互中學習,而人工系統若要在現實世 界中行動和適應,同樣需要能夠實現持續學習 (Continual Learning)[33] . 為了解決這一難題,許多生 物學啟發的模型以及機制被應用到人工系統中,并 取得了不錯的效果[34] . 由于額外的時間維度,SNN 被認為具有實現持續學習的潛力[35-36] .
盡管深度學習在很多領域都取得了突破性的成 就,達到甚至超過了人類水平,為 SNN 設下了很高 的競爭門檻 . 研究表明,相比于目前已經較為成熟 的計算機視覺任務,SNN 能夠在機器人、自主控制 等領域取得優于深度學習的表現[13,37] . 在這些領域 中,傳統深度學習算法需要的大量計算資源在處理 實際問題時往往難以滿足,而借助專用的神經形態 硬件,SNN 能夠極大地降低任務所需的能耗,這與 移動設備上有限的主板能量資源之間具有天然適 配性.
強化學習(Reinforcement Learning, RL)作為 AI研究的一個重要分支,用于解決在智能體與環境 交互過程中的序列決策問題,通過學習策略以實現 期望未來獎勵最大化,并且已經在廣泛的控制任務 上證明了其有效性[10,38-40]. 因此,通過將SNN與強化 學習相結合,脈沖強化學習算法[41-43] 為連續控制任 務提供了一種低能耗的解決方案,已經被廣泛應用 在車輛、機器人等移動設備的控制任務中[29,44] ,受到 了 不 少 學 者 的 關 注 . 同 時,借 助 神 經 形 態 傳 感 器[45-46] ,脈沖強化學習算法能夠充分利用多模態的 脈沖序列數據,令智能體像人腦一樣進行感知與決 策,為仿生機器人的研究提供了一個可行的解決方 案[44] . 更令人驚喜的是,脈沖強化學習算法能夠有 效解決強化學習中的魯棒性問題[43,47] ,這是決定策 略是否實用的關鍵因素.
此外,強化學習在誕生初期就與動物學習中心 理學中的試錯法以及神經科學中大腦的獎勵學習機 制密切相關,其中最顯著的聯系就是時序差分 (Temporal Difference, TD)誤差與多巴胺之間的相 似關系,這被歸納為多巴胺的獎勵預測誤差假說[48] . 多巴胺的獎勵預測誤差假說認為,多巴胺的功能之 一就是將未來期望獎勵的新舊估計值之間的誤差傳 遞給大腦中的所有目標區域. 這一假說利用強化學 習中的 TD 誤差概念,成功解釋了哺乳動物中多巴 胺神經元的相位活動特征 . 在計算神經科學領域 里,大量的研究工作利用強化學習算法對大腦的獎 勵學習機制進行建模[49-51] ,這些都屬于脈沖強化學 習算法的研究范疇. 綜上所述,脈沖強化學習算法不僅是脈沖神經 網絡與強化學習算法的有機結合,還是連通神經科 學與AI兩個領域的橋梁. 根據時間順序,脈沖強化 學習算法的發展歷程可以被分為三個時期:SNN與 強化學習的基礎研究時期、基于突觸可塑性的脈沖強化學習算法時期以及深度強化學習算法與SNN的 結合時期,如圖1所示. 在基礎研究時期,圖1列舉了 SNN與強化學習各自的一些早期代表性工作,這些 工作為后續脈沖強化學習算法的誕生與發展奠定了 基礎. 以深度學習的興起為時間節點,脈沖強化學習 算法有著明顯的不同. 早期的算法注重突觸可塑性 與強化學習理論的結合,而后期的算法側重于將 SNN應用到深度強化學習算法中. 由此,圖1進一步 地劃分出了兩個時期,分別列舉了脈沖強化學習算 法在早期與晚期的代表性工作. 盡管近些年也出現 了一些優秀的突觸可塑性算法(例如e-prop[52] ),但這 已經不是計算機科學領域的主流,所以未被列入圖1 中. 由于圖的大小有限,部分SNN與強化學習的經 典工作并未在圖中展現,這將在本文的后續章節中 進行更為系統的梳理 . 此外,出于美觀考慮,圖 1根 據事件線分為上下兩側,不存在事件類型的區別.
關于相關工作在脈沖強化學習算法的發展歷程 中的地位以及作用,其概述如下:1949 年 Hebb[53] 提 出了突觸可塑性的經典理論,對突觸可塑性的基本 原理進行了描述 . 1972 年 Klopf [54] 提出了智能自適 應系統的新理論,其中的一系列思想促成了資格跡 (Eligibility Trace)在強化學習中的應用[48] . 1989 年 Watkins[55] 提出了Q學習,這是強化學習早期的一個 重要突破,實現了異策(Off-policy)[48] 下的時序差分 控制 . 1992 年 Williams[56] 提出了 REINFORCE 算 法,這是一個經典的策略梯度算法,動作選擇不再直 接依賴于價值函數,而是可以直接學習參數化的策 略. 1997年Markram等人[57] 提出了一個較為通用的 SNN 學習規則,即脈沖時序依賴可塑性(Spiketiming-dependent Plasticity, STDP),這是無監督學 習的重要生物學基礎 . 2000 年 Bohte 等人[58] 提出了 SpikeProp 算法,首次使用誤差反向傳播對 SNN 進 行訓練 . 2003 年 Seung[59] 基于策略梯度算法提出了 R-max學習規則. 2007年Izhikevich[60] 受到動物學實 驗的發現啟發,提出了 R-STDP 學習規則 . 2009 年 Urbanczik 和 Senn[50] 提出了利用基于群體響應的反 饋配合全局獎勵對突觸可塑性進行調節,豐富了三 因素學習規則中全局信號的選擇范圍 . 2010 年 Frémaux 等人[61] 總結了基于基線的 R-STDP 與 Rmax 學習規則,利用基線函數對原本的學習規則進 行 改 進,使 其 能 夠 同 時 學 習 多 個 任 務 . 2013 年 Frémaux 等人[51] 提出了 TD-LTP 學習規則,成功解 決了如何在非離散框架下實現強化學習以及如何在 神經元中計算獎勵預測誤差的問題 . O'Brien 和 Srinivasa[62] 提出了將多種突觸可塑性結合的學習算 法以解決同時學習多個遠端獎勵的問題 . Patal 等 人[47] 首次將 ANN-SNN 轉換應用到強化學習領域, 避免了強化學習直接訓練 SNN 的困難,并證明了 SNN 能夠提高模型對于遮擋的魯棒性 . Tang 等 人[63] 提 出 了 一 個 混 合 的 行 動 器 -評 判 器(ActorCritic)網絡,對脈沖行動器網絡與深度評判器網絡 進行聯合訓練,證明了脈沖行動器網絡可以作為原 本深度行動器網絡的一個低能耗替代方案 . Zhang 等人[64] 受到知識蒸餾[65] 啟發,提出了一種間接訓練 SNN 的方法,利用強化學習訓練得到的 ANN 教師 網絡指導 SNN 學生網絡的學習 . Liu等人[66] 提出了DSQN 算法,擺脫了原本的深度脈沖強化學習算法 在訓練過程中對ANN的依賴. 由于脈沖強化學習算法的領域交叉性,脈沖強 化學習算法的研究在脈沖神經網絡與強化學習算法 的文獻綜述中少有提及 . 例如 Taherkhani等人[67] 簡 單提及了基于獎勵的突觸可塑性學習 . Hu 等人[68] 介紹了三因素學習規則. Sutton和Barto[48] 闡述了神 經科學中大腦獎勵系統與強化學習理論之間的對應 關系,并對神經科學與強化學習如何相互影響進行 了討論 . 此外,之前關于脈沖強化學習算法的綜述 由于時間較早,其關注的都是與突觸可塑性相關的 內容 . 例如 Frémaux 和 Gerstner[69] 系統總結了利用 三因素學習規則實現的強化學習算法. Bing等人[37] 介紹了利用三因素學習規則實現的強化學習算法及 其相應的機器人應用.
本文首先介紹了SNN與強化學習的基本原理, 然后以SNN學習算法的分類為基礎,從更長的時間 線對傳統的利用三因素學習規則實現的強化學習算 法與近些年來出現的新型脈沖強化學習算法進行了 系統性回顧與綜述 . 不同于已有的綜述,本文率先 對依托 ANN 實現的脈沖強化學習算法與基于脈沖 的直接強化學習算法進行了系統梳理與全面總結, 并介紹了最新的研究挑戰與未來研究方向 . 最后, 本文對脈沖強化學習算法的優點與不足進行了總 結,并展望了其對未來人工智能和神經科學領域的 潛在影響,希望通過跨學科的交流與合作,推動該領 域的快速發展.
近年來,神經網絡在語音識別、計算機視覺、自然語言處理等領域都取得了良好的進展. 大量的神經網 絡被部署于諸如手機、攝像頭等依賴電池或太陽能供電的小型設備. 但神經網絡參數量大計算復雜,需占用大量 計算資源并消耗電能,從而限制了其在資源受限平臺上的應用. 學術界和工業界逐漸關注于神經網絡的高能耗問 題. 神經網絡輕量化方法可以有效地減少參數數量、降低參數精度或優化計算過程從而降低神經網絡能耗. 本文 從能耗優化的角度梳理了神經網絡能耗估算方法和神經網絡輕量化方法的基本思路,綜述了近年來該領域主要研 究成果,并提出了能耗估算和能耗優化的神經網絡輕量化方法存在的挑戰及進一步研究的方向. 其中神經網絡能 耗估算方法包括測量法、分析法和估算法. 能耗優化的神經網絡輕量化方法包括剪枝、量化、張量分解和知識蒸 餾. 對于進一步研究方向我們認為,首先需要建立可自適應網絡類型的能耗模型;然后需要考慮平衡精度和能耗 的輕量化方法. 其次需要實現硬件平臺可泛化的輕量化方法;最后開發搜索空間可約束的輕量化方法.
//cjc.ict.ac.cn/online/onlinepaper/gcp-2023112105635.pdf
作為人工智能實現的范式之一,神經網絡采用 廣泛互聯的結構與有效的學習機制來模擬人腦智能 信息處理的過程,是人工智能發展歷程中的重要方 法,也是類腦智能研究中的有效工具[1]. 近年來,人 工智能移動化的趨勢逐漸顯現[2]. 當前,越來越多的 神經網絡被部署于依靠電池或太陽能供電的小型移 動設備中,如智能手機、智能攝像頭等. 神經網絡 的移動端部署助力了許多智能應用的發展,常見的 包括語音助手、在線翻譯、人臉識別等. 值得注意 的是,這些智能移動設備的出貨量目前呈幾何式增 長. 以智能手機為例,到 2022 年,支持 AI 功能的 智能手機出貨量占比將從 2017 年的不到 10%提升 到 80%,年銷量將超 13 億部. AI 手機將是未來行業 的產品方向[3]. 到 2023 年,專用的人工智能芯片很 可能已經成為智能手機的標準配置[4]. 這些移動端設備通常外形尺寸較小,依靠電池 或綠色能源供電[5],因而其可使用的電能有限. 神經 網絡的執行涉及大量計算,對電能消耗要求較高. 例如,具有 50 個卷積層的 ResNet-50 在推理階段處 理圖像時需要占用超過 95MB 的內存,執行超過 38 億次浮點乘法[6];圖像分類的基礎網絡 AlexNet[7]在 手機端運行不到一個小時就耗光了手機全部電能[8]. 移動端神經網絡能耗受限問題日益突出. 能耗受限問題極大地影響了移動端設備的運行 時長,縮短了設備的服務時限,阻礙了移動端設備 的智能化發展[9]. 為了應對能耗受限問題,學術界和 工業界涌現了大量相關研究和解決方案. 一種解決 方案是在云邊結合的體系結構下將網絡部署于云 端,該方法較為直接地緩解了能耗受限問題,但云 邊端通信帶來了額外的通信成本,實時性、安全性 較差[10];另一種解決方案是神經網絡能耗優化的神 經網絡輕量化方法. 這種解決方案延遲低、安全性 高且具有隱私優勢[2]. 能耗優化的神經網絡輕量化方法是降低神經網 絡在目標設備上能耗需求的有效方法,該方法關注 網絡自身的結構特征,壓縮成本低、效率高且易于 部署. 本文重點關注能耗優化的神經網絡輕量化方 法,從神經網絡能耗估算方法和網絡輕量化方法兩 個方面出發,概述優化思路,敘述具體方法,總結 當前能耗優化的神經網絡輕量化方法的研究進展并 提出進一步研究問題與挑戰. 在作者文獻查找范圍 內,本文是綠色計算和高性能計算領域中第一篇針 對能耗優化的神經網絡輕量化方法的中文綜述,系 統地總結了當前的研究進展. 本文第 2 節將介紹研究問題和思路;第 3 節介 紹能耗估算方法具體細節;第 4 節介紹能耗優化的 神經網絡輕量化方法的具體細節;第 5 節提出目前 能耗估算方法和網絡輕量化方法存在的問題與挑 戰;最后在第 6 節總結全文.
深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].
近年來, 深度神經網絡(DNNs)在許多人工智能任務中取得卓越表現, 例如計算機視覺(CV)、自然語言處理(NLP). 然而, 網絡設計嚴重依賴專家知識, 這是一個耗時且易出錯的工作. 于是, 作為自動化機器學習(AutoML)的重要子領域之一, 神經結構搜索(NAS)受到越來越多的關注, 旨在以自動化的方式設計表現優異的深度神經網絡模型. 全面細致地回顧神經結構搜索的發展過程, 進行了系統總結. 首先, 給出了神經結構搜索的研究框架, 并分析每個研究內容的作用; 接著, 根據其發展階段, 將現有工作劃分為4個方面, 介紹各階段發展的特點; 然后, 介紹現階段驗證結構搜索效果經常使用的數據庫, 創新性地總結該領域的規范化評估標準, 保證實驗對比的公平性, 促進該領域的長久發展; 最后, 對神經結構搜索研究面臨的挑戰進行了展望與分析.
深度學習 (deep learning)[1]已成為現階段人工智能領域發展的重要推動力. 不同于傳統手工設計特征, 深度神 經網絡以一種端到端的方式, 自動提取數據深層表征, 已在多個人工智能學科領域內取得卓越表現, 例如計算機視覺 (computer vision)、自然語言處理 (natural language processing)、語音識別 (speech recognition)、智能機器人 (intelligent robot) 等. 盡管深度學習在上述領域內取得成功, 研究人員還是面臨著神經網絡設計困難的挑戰. 尤其 是當前手工設計的神經網絡結構越來越復雜, 不利于更多研究人員和從業人員使用深度學習. 于是, 研究者開始尋 求一種自動化方式, 實現自主設計神經網絡的目標, 即神經結構搜索 (neural architecture search, NAS).
自動化機器學習 (automated machine learning, AutoML) 是一種自動化的數據驅動方法, 并做出一系列決策. 僅需要使用者提供數據, 自動化機器學習技術能夠自動獲取最佳訓練方案, 極大地降低機器學習技術的應用難度. 作 為自動化機器學習的重要子領域之一, 神經結構搜索旨在以一種自動化的方式, 解決高難度的復雜神經網絡設計 問題. 具體上, 根據專家預先定義的搜索空間 (search space), 神經結構搜索算法在一個龐大的神經網絡集合中評估 結構性能并尋找到表現最佳的網絡結構. 自動化結構搜索的結果往往是專家手工設計過程中未考慮的, 能夠取得 更加優異的性能表現, 尤其在一些硬件資源受限的應用場景中, NAS 往往能取得驚人的效果. 神經結構搜索在超 參數選擇的過程中扮演著關鍵角色, 而且具有重要的理論意義和應用價值. 面向一種特殊的神經網絡結構超參數, 神經結構搜索聯合優化理論和機器學習理論, 有效地解決神經網絡模型的調參問題, 降低神經網絡的使用成本與 實現成本, 促使模型設計的智能化與神經網絡應用的大眾化.
近年來, 神經結構搜索成為人工智能領域中的熱點方向之一. 根據 automl.org 列舉的文獻情況, NAS 文章發表 時間與數量分布如圖 1 所示. 自 2015 年起, 關于 NAS 的文章數量呈現指數增長的趨勢. 回顧神經結構搜索技術的 發展, 本文對神經結構搜索的已有重點研究工作進行全面綜述. 在 NAS 算法發展的初期, NAS 算法通常采用采樣 重新訓練的策略, 即從預先定義好的搜索空間中采樣數量龐大的網絡結構, 分別對每個采樣結構重新訓練并評估 性能, 以獲取表現最佳的神經網絡. 這是廣大研究者公認的真正意義上的一種神經結構搜索方法, 實驗結果的優越 性也表明其有效性. 然而, 對于 Cifar-10 數據集, 這類方法需要應用 800 個圖形處理單元, 持續近一個月才能完成 對最佳結構的搜索. 因此, 這種采樣重新訓練策略對計算資源的需求過大, 不利于 NAS 領域的發展與落地應用. 于 是, 為了降低搜索階段的資源消耗, 神經結構搜索領域內應用最廣的一種加速方式: 權重共享策略 (weight-sharing strategy), 即盡可能地利用已經訓練好的模型, 避免重新訓練. 目前這種權重共享的搜索策略已經成為神經網絡結 構搜索的主流方向. 簡而言之, 首先將預先設定的搜索空間表示為已經訓練好的超級網絡 (super-network), 然后在 保留原始權重的同時, 直接對采樣的子結構 (sub-architectures) 進行性能評估, 不需要重新進行模型訓練.
自 2018 年起, 已經有多篇神經結構搜索的研究綜述[2?5]對該任務進行了介紹. Elsken 等人[2]給出了較全面的 神經結構搜索領域的研究內容, 并從搜索空間、搜索策略和性能評估 3 個維度對 NAS 方法進行分類介紹. Xie 等 人[4]深入分析基于權重共享的神經結構搜索方法, 并給出現階段存在的優化缺陷與解決方案, 是目前 NAS 領域最 全面的研究型綜述. 然而, 回顧并反思現階段的 NAS 發展, 最嚴重的問題就是實驗評估中的不公平比較, 以及評估 數據的局限性進一步限制神經結構搜索算法的通用性能, 這兩個角度目前尚未在上述綜述論文中得到分析, 我們 將詳細分析并給出相應的解決方案.
為了給讀者提供清晰直觀的 NAS 發展經歷, 本文創新性地根據其發展階段, 將現有工作劃分為 4 個階段, 即 早期、快速發展期、應用期和反思期. 我們認為這種劃分方式能夠對今后研究 NAS 的工作人員提供很好的研究基礎, 更好地了解本領域的技術發展. 本文重點分析現階段 NAS 算法在實驗評估環節的缺陷, 建設性地提出規范 化評估手段, 公正客觀地對比不同方法, 推動該領域的良好發展與落地. 最后, 我們根據自身的研究基礎, 概括 NAS 領域的現有問題與挑戰, 提出若干點未來可能的研究方向, 幫助新的從業人員快速著手神經結構搜索研究.
隨著深度學習的不斷發展,目標檢測技術逐步從基于傳統的手工檢測方法向基于深度神經網絡的檢測方法轉變。在眾多基于深度學習的目標檢測算法中,基于深度學習的單階段目標檢測算法因其網絡結構較簡單、運行速度較快以及具有更高的檢測效率而被廣泛運用。但現有的基于深度學習的單階段目標檢測方法由于小目標物體包含的特征信息較少、分辨率較低、背景信息較復雜、細節信息不明顯以及定位精度要求較高等原因,導致在檢測過程中對小目標物體的檢測效果不理想,使得模型檢測精度降低。針對目前基于深度學習的單階段目標檢測算法存在的問題,研究了大量基于深度學習的單階段小目標檢測技術。首先從單階段目標檢測方法的Anchor Box、網絡結構、交并比函數以及損失函數等幾個方面,系統地總結了針對小目標檢測的優化方法;其次列舉了常用的小目標檢測數據集及其應用領域,并給出在各小目標檢測數據集上的檢測結果圖;最后探討了基于深度學習的單階段小目標檢測方法的未來研究方向。
傳統神經網絡具有過度依賴硬件資源和對應用設備性能要求較高的缺點,因此無法部署于算力有限的邊緣設備和移動終端上,人工智能技術的應用發展在一定程度上受到了限制。然而,隨著科技時代的到來,受用戶需求影響的人工智能迫切需要在便攜式設備上能成功進行如計算機視覺應用等方面的操作。為此,本文以近幾年流行的輕量化神經網絡中的卷積部分為研究對象,詳細比對了各類輕量化模型中卷積構成方式的不同,并針對卷積設計的主要思路和特點進行了較為詳細的闡述。首先,通過引入輕量化神經網絡的概念,介紹了輕量化神經網絡的發展現狀和網絡中卷積方面所面臨的問題;然后,將卷積分為卷積結構輕量化、卷積模塊輕量化和卷積運算輕量化三個方面進行介紹,具體通過對各類輕量化神經網絡模型中卷積設計的研究,來展示不同卷積的輕量化效果并對其中優化方法的優缺點進行闡述;最后,對文中所有輕量化模型卷積設計的主要思路和使用方式進行了總結分析,并對其未來的可能性發展進行了展望。
隨著人工智能技術的飛速發展,深度神經網絡在計算機視覺、信號分析和自然語言處理等領域中都得到了廣泛應用.自然語言處理通過語法分析、語義分析、篇章理解等功能幫助機器處理、理解及運用人類語言.但是,已有研究表明深度神經網絡容易受到對抗文本的攻擊,通過產生不可察覺的擾動添加到正常文本中,就能使自然語言處理模型預測錯誤.為了提高模型的魯棒安全性,近年來也出現了防御相關的研究工作.針對已有的研究,全面地介紹自然語言處理攻防領域的相關工作,具體而言,首先介紹了自然語言處理的主要任務與相關方法;其次,根據攻擊和防御機制對自然語言處理的攻擊方法和防御方法進行分類介紹;然后,進一步分析自然語言處理模型的可驗證魯棒性和評估基準數據集,并提供自然語言處理應用平臺和工具包的詳細介紹;最后總結面向自然語言處理的攻防安全領域在未來的研究發展方向.
強化學習(ReinforcementLearning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三種學習范式,通過與 環境進行交互來學習,最終將累積收益最大化.常用的強化學習算法分為模型化強化學習(ModelGbasedReinforcementLearG ning)和無模型強化學習(ModelGfreeReinforcementLearning).模型化強化學習需要根據真實環境的狀態轉移數據來預定義 環境動態模型,隨后在通過環境動態模型進行策略學習的過程中無須再與環境進行交互.在無模型強化學習中,智能體通過與 環境進行實時交互來學習最優策略,該方法在實際任務中具有更好的通用性,因此應用范圍更廣.文中對無模型強化學習的最 新研究進展與發展動態進行了綜述.首先介紹了強化學習、模型化強化學習和無模型強化學習的基礎理論;然后基于價值函數 和策略函數歸納總結了無模型強化學習的經典算法及各自的優缺點;最后概述了無模型強化學習在游戲 AI、化學材料設計、自 然語言處理和機器人控制領域的最新研究現狀,并對無模型強化學習的未來發展趨勢進行了展望.
深度學習作為人工智能技術的重要組成部分,被廣泛應用于計算機視覺和自然語言處理等領域。盡管深度學習在圖像分類和目標檢測等任務中取得了較好性能,但是對抗攻擊的存在對深度學習模型的安全應用構成了潛在威脅,進而影響了模型的安全性。在簡述對抗樣本的概念及其產生原因的基礎上,分析對抗攻擊的主要攻擊方式及目標,研究具有代表性的經典對抗樣本生成方法。描述對抗樣本的檢測與防御方法,并闡述對抗樣本在不同領域的應用實例。通過對對抗樣本攻擊與防御方法的分析與總結,展望對抗攻擊與防御領域未來的研究方向。
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。
A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷積神經網絡(CNNs)最近在許多視覺識別任務中取得了巨大的成功。然而,現有的深度神經網絡模型在計算上是昂貴的和內存密集型的,這阻礙了它們在低內存資源的設備或有嚴格時間延遲要求的應用程序中的部署。因此,在不顯著降低模型性能的情況下,在深度網絡中進行模型壓縮和加速是一種自然的思路。在過去幾年中,這方面取得了巨大的進展。本文綜述了近年來發展起來的壓縮和加速CNNs模型的先進技術。這些技術大致分為四種方案: 參數剪枝和共享、低秩因子分解、傳輸/緊湊卷積過濾器和知識蒸餾。首先介紹參數修剪和共享的方法,然后介紹其他技術。對于每種方案,我們都提供了關于性能、相關應用程序、優點和缺點等方面的詳細分析。然后我們將討論一些最近比較成功的方法,例如,動態容量網絡和隨機深度網絡。然后,我們調查評估矩陣、用于評估模型性能的主要數據集和最近的基準測試工作。最后,對全文進行總結,并對今后的研究方向進行了展望。