近年來,神經輻射場(NeRF)已成為計算機圖形學和計算機視覺領域中一個重要的研究方向,因其高逼真的視覺合成效果,在真實感渲染、虛擬現實、人體建模、城市地圖等領域得到了廣泛的應用。NeRF利用神經網絡從輸入圖片集中學習三維場景的隱式表征,并合成高逼真的新視角圖像。然而原始NeRF模型的訓練和推理速度都很慢,難以在真實環境下部署與應用。針對NeRF的加速問題,研究者們從場景建模方法、光線采樣策略等方面展開對NeRF進行提速的研究。該類工作大致可分為以下研究方向:烘焙模型、與離散表示方法結合、提高采樣效率、利用哈希編碼降低MLP網絡復雜度、引入場景泛化性、引入深度監督信息和分解方法。通過介紹NeRF模型提出的背景,對上述思路的代表方法的優勢與特點進行了討論和分析,最后總結了NeRF相關工作在加速方面所取得的進展和對于未來的展望。
擴散模型(DMs)代表了圖像超分辨率(SR)領域的重大進步,使技術圖像質量更加符合人類偏好,并擴展了SR應用。DMs解決了先前方法的關鍵局限性,提高了SR圖像的整體真實感和細節。然而,DMs存在顏色偏移問題,且高計算成本要求高效采樣替代方案,這凸顯了平衡計算效率和圖像質量的挑戰。這篇綜述概述了將DMs應用于圖像SR的情況,并提供了一項詳細分析,強調了該領域內獨特的特征和方法論,與該領域更廣泛的現有綜述截然不同。它呈現了DM基礎知識的統一視角,并探索了研究方向,包括替代輸入域、條件策略、引導、腐敗空間和零樣本方法。這篇綜述提供了關于DMs在圖像SR領域演化的見解,涵蓋了當前趨勢、挑戰和這個快速發展領域的未來方向。
在不斷發展的計算機視覺領域中,超分辨率(SR)——將低分辨率(LR)圖像增強為高分辨率(HR)圖像——一直是一個長期而仍然令人困惑的挑戰,這歸因于其本質上不適定的特性:由于亮度和顏色等多種因素,任何給定的LR圖像都可以對應多個有效的HR圖像【1】。SR的應用范圍從自然【2】【3】到先進的衛星【4】和醫學成像【5】,其進展得益于深度學習的快速發展。最近,擴散模型(DMs)作為一種主要的生成模型家族嶄露頭角,挑戰著生成對抗網絡(GANs)長期以來的主導地位【6】【7】【8】【9】。雖然早期的生成模型展示了令人印象深刻的圖像生成能力,但它們存在內在的局限性。例如,自回歸模型在生成HR圖像時可能成本過高【10】【11】【12】。另一方面,NFs和VAEs通常生成的樣本質量不理想。此外,GANs需要精心設計的正則化和優化策略來管理優化不穩定性并防止模式崩潰【13】。盡管如此,這些模型對SR領域的貢獻仍然顯著。 DMs的出現標志著生成模型的新時代,并深刻影響了生成式AI領域,再次為圖像SR領域注入活力。然而,隨著關于DMs的研究量持續增長,對于那些新入此領域的人來說,跟上最新發展變得越來越具有挑戰性。這一研究領域的廣度可能會掩蓋主要趨勢,并可能阻礙進一步研究的進展。我們通過提供對圖像SR中DMs當前研究的全面概述來解決這些問題。 這篇綜述是在我們之前的作品《超分辨率領域的搭車旅行指南》【14】的基礎上建立的,該作品對圖像SR領域進行了廣泛的概述。我們旨在為那些新入DMs在圖像SR領域的人提供一個有價值的切入點,同時為那些已有經驗的人提供更廣闊的視角。
本文的結構如下所述: 第2節 - 超分辨率基礎:這一節提供了基本定義,并介紹了評估圖像質量時常用的標準數據集、方法和度量,這些都是圖像SR出版物中常用的。 第3節 - 擴散模型基礎:介紹了擴散模型(DMs)的原理和各種形式,包括去噪擴散概率模型(DDPMs)、基于評分的生成模型(SGMs)和隨機微分方程(SDEs)。這一節還探討了DMs與其他生成模型的關系。 第4節 - 擴散模型的改進:常見的增強DMs的實踐,重點是高效采樣技術和改進的似然估計。 第5節 - 圖像SR中的擴散模型:介紹了DMs在SR中的具體實現,探討了替代領域(潛在空間和小波域),討論了架構設計和多任務Null-Space模型,并研究了替代腐敗空間。 第6節 - 領域特定應用:基于DM的SR應用,特別是醫學成像、盲目面部恢復、面部SR中的大氣湍流以及遙感。 第7節 - 討論和未來工作:圖像SR中DMs的常見問題和值得注意的DMs在圖像SR中的研究途徑。 第8節 - 結論:總結了這項調查。
可視圖是將時間序列轉換成復雜網絡的重要方法之一,也是連接非線性信號分析和復雜網絡之間的全新視角,在經濟金融、生物醫學、工業工程等領域均應用廣泛.可視圖的拓撲結構繼承了原始時間序列的重要性質,穩定且易于實現,通過可視圖網絡的相關統計特性,可區分特定時間序列數據下的特定行為.首先本文介紹了可視圖方法在時間序列復雜網絡分析中的相關研究,并通過必要性與可行性分析,充分說明可視圖方法的優勢所在.然后本文闡述了經典可視圖和水平可視圖方法的具體步驟及主要性質,從算法的過程改進、效率提升和可視圖應用幾個方面對現階段可視圖相關研究進行綜述,介紹了眾多可視圖方法的基本過程,分析了可視圖算法的識別抗噪能力和建網效率,并歸納整理了這些可視圖方法的主要特性與適用范圍.另外,本文復現了目前幾種主流可視圖算法,并公開相關的算法代碼以供參考使用.通過對可視圖相關研究的綜述分析,可了解現階段可視圖的主要研究方向,為未來相關研究提供思路,并為時間序列復雜網絡分析奠定基礎.
借助人工神經網絡(Artificial Neural Network, ANN),深度強化學習在游戲、機器人等復雜控制任務中 取得了巨大的成功.然而,在認知能力與計算效率等方面,深度強化學習與大腦中的獎勵學習機制相比仍存在著巨 大的差距.受大腦中基于脈沖的通信方式啟發,脈沖神經網絡(Spiking Neural Network, SNN)使用擬合生物神經 元機制的脈沖神經元模型進行計算,具有處理復雜時序數據的能力、極低的能耗以及較強的魯棒性,并展現出了持 續學習的潛力.在神經形態工程以及類腦計算領域中,SNN受到了廣泛的關注,被譽為是新一代的神經網絡.通過 將SNN與強化學習相結合,脈沖強化學習算法被認為是發展人工大腦的一個可行途徑,并能夠有效解釋生物大腦 中的發現.作為神經科學與人工智能的交叉學科,脈沖強化學習算法涵蓋了一大批杰出的研究工作.根據對不同領 域的側重,這些研究工作主要可以分為兩大類:一類是以更好地理解大腦中的獎勵學習機制為目的,用于解釋動物 實驗中的發現,并對大腦學習進行仿真,例如R-STDP學習規則;另一類則是以實際控制任務中的性能、功耗等具 體指標為導向,用作人工智能的一種魯棒且低能耗的解決方案,在機器人、自主控制等領域具有巨大的應用潛力 . 本文首先介紹了脈沖強化學習算法的基礎(即脈沖神經網絡以及強化學習),然后對當前這兩大類脈沖強化學習算 法的研究特點與研究進展等進行分析 .對于第一類算法,本文重點分析了利用三因素學習規則實現的強化學習算 法,并回顧了其生理學背景以及具體實現方式 . 根據在訓練過程中是否使用 ANN,本文將第二類算法分為依托 ANN實現的脈沖強化學習算法與基于脈沖的直接強化學習算法,并率先對這一脈沖強化學習算法的最新進展進行 了系統性的梳理與分析,同時全面展示了在深度強化學習算法中應用SNN的不同方式.最后,本文對該領域的研究 挑戰以及后續研究方向進行了深入地探討,總結了當前研究的優勢與不足,并對其未來對神經科學以及人工智能領 域可能產生的影響進行展望,以吸引更多研究人士參與這個新興方向的交流與合作.
神經科學在人工智能(Artificial Intelligence, AI)發展史上扮演了重要的角色,許多經典神經網 絡結構的出發點都是為了理解大腦的工作機制[1-3] . 此外,神經科學不僅可以為已存在的AI技術提供生 物學解釋[4-7] ,還可以為構建人工大腦時所需的新算 法與新架構提供豐富的靈感來源[8-10] . 近些年來,隨 著計算機算力的增強以及大數據的積累,以深度學 習[11] 為代表的人工智能領域得到了蓬勃的發展. 然 而,現有的計算系統執行相同的任務所需要的能耗 往往要比人腦高出至少一個數量級[12] . 因此,AI 研 究人員將目光轉回大腦,對神經元之間脈沖驅動的通信方式產生了極大的興趣 . 在人腦的指引下,通 過脈沖驅動通信實現的神經元-突觸硬件計算系統 有望解決當前深度學習算法面臨的高能耗問題[13] . 這種神經形態計算技術[14] 始于 20 世紀 80 年代,并 在21世紀初期促成了大規模神經形態芯片的出現, 例如IBM的TrueNorth芯片[15] 、Intel的Loihi芯片[16] 以及英國曼徹斯特大學的 SpiNNaker 芯片[17] . 通過 采用存算一體的架構,神經形態芯片解決了傳統 馮·諾依曼計算架構中處理單元與存儲單元物理分 離(存算分離)的固有缺陷,從而減輕“內存墻瓶頸” 對計算吞吐量和能源效率的影響,將硬件功耗降低 到毫瓦級[13] .
在硬件不斷發展的同時,相關的算法也在不斷 協同演化. 通過將生物神經元之間通信的稀疏脈沖 信號和事件驅動的性質抽象為神經單元,生物學合 理的脈沖神經元模型[18] 被應用到神經網絡之中,由 此誕生了脈沖神經網絡(Spiking Neural Network, SNN). SNN 是為了彌合神經科學與機器學習之間 的差異而設計的新一代神經網絡[19] ,被認為是人工 智能硬件實現的一種極具前景的解決方案[13] . SNN 與目前流行的神經網絡和機器學習方法有著根本上 的不同,即其使用脈沖,而非常見的浮點值進行學 習 . 脈沖是一種發生在時間點上的離散事件,一般 可以由0和1進行表示,與生物神經元中的動作電位 (Action Potential)相對應 . 通常來說,SNN 的輸入 和輸出均為脈沖序列,神經元之間通過突觸進行連 接 . 理論分析表明,SNN 在計算性能上與常規神經 元模型相當[19] . 由于其處理復雜時序數據的能力、 極低的能耗[13] 以及深厚的生理學基礎[20] ,SNN受到 了廣大學者的關注,在圖像分類[21-23] 、目標識別[24-25] 、 語音識別[26-27] 以及其他領域[28-30] 上取得了飛速的發 展,展現出了極強的上升勢頭 . 最近的研究表明, SNN 在許多領域接近或達到了與經典人工神經網 絡(Artificial Neural Network, ANN)相 當 的 性 能[21,27] . 相比 ANN,SNN 還表現出了較強的魯棒 性 . 首先,脈沖神經元動態中的隨機性可以提高網 絡對外部噪聲的魯棒性[31] . 其次,近期有研究表明 脈沖神經元的發放機制使得 SNN 之于對抗攻擊存 在內在的魯棒性[32] . 此外,生物體的一生都在從與 環境之間的交互中學習,而人工系統若要在現實世 界中行動和適應,同樣需要能夠實現持續學習 (Continual Learning)[33] . 為了解決這一難題,許多生 物學啟發的模型以及機制被應用到人工系統中,并 取得了不錯的效果[34] . 由于額外的時間維度,SNN 被認為具有實現持續學習的潛力[35-36] .
盡管深度學習在很多領域都取得了突破性的成 就,達到甚至超過了人類水平,為 SNN 設下了很高 的競爭門檻 . 研究表明,相比于目前已經較為成熟 的計算機視覺任務,SNN 能夠在機器人、自主控制 等領域取得優于深度學習的表現[13,37] . 在這些領域 中,傳統深度學習算法需要的大量計算資源在處理 實際問題時往往難以滿足,而借助專用的神經形態 硬件,SNN 能夠極大地降低任務所需的能耗,這與 移動設備上有限的主板能量資源之間具有天然適 配性.
強化學習(Reinforcement Learning, RL)作為 AI研究的一個重要分支,用于解決在智能體與環境 交互過程中的序列決策問題,通過學習策略以實現 期望未來獎勵最大化,并且已經在廣泛的控制任務 上證明了其有效性[10,38-40]. 因此,通過將SNN與強化 學習相結合,脈沖強化學習算法[41-43] 為連續控制任 務提供了一種低能耗的解決方案,已經被廣泛應用 在車輛、機器人等移動設備的控制任務中[29,44] ,受到 了 不 少 學 者 的 關 注 . 同 時,借 助 神 經 形 態 傳 感 器[45-46] ,脈沖強化學習算法能夠充分利用多模態的 脈沖序列數據,令智能體像人腦一樣進行感知與決 策,為仿生機器人的研究提供了一個可行的解決方 案[44] . 更令人驚喜的是,脈沖強化學習算法能夠有 效解決強化學習中的魯棒性問題[43,47] ,這是決定策 略是否實用的關鍵因素.
此外,強化學習在誕生初期就與動物學習中心 理學中的試錯法以及神經科學中大腦的獎勵學習機 制密切相關,其中最顯著的聯系就是時序差分 (Temporal Difference, TD)誤差與多巴胺之間的相 似關系,這被歸納為多巴胺的獎勵預測誤差假說[48] . 多巴胺的獎勵預測誤差假說認為,多巴胺的功能之 一就是將未來期望獎勵的新舊估計值之間的誤差傳 遞給大腦中的所有目標區域. 這一假說利用強化學 習中的 TD 誤差概念,成功解釋了哺乳動物中多巴 胺神經元的相位活動特征 . 在計算神經科學領域 里,大量的研究工作利用強化學習算法對大腦的獎 勵學習機制進行建模[49-51] ,這些都屬于脈沖強化學 習算法的研究范疇. 綜上所述,脈沖強化學習算法不僅是脈沖神經 網絡與強化學習算法的有機結合,還是連通神經科 學與AI兩個領域的橋梁. 根據時間順序,脈沖強化 學習算法的發展歷程可以被分為三個時期:SNN與 強化學習的基礎研究時期、基于突觸可塑性的脈沖強化學習算法時期以及深度強化學習算法與SNN的 結合時期,如圖1所示. 在基礎研究時期,圖1列舉了 SNN與強化學習各自的一些早期代表性工作,這些 工作為后續脈沖強化學習算法的誕生與發展奠定了 基礎. 以深度學習的興起為時間節點,脈沖強化學習 算法有著明顯的不同. 早期的算法注重突觸可塑性 與強化學習理論的結合,而后期的算法側重于將 SNN應用到深度強化學習算法中. 由此,圖1進一步 地劃分出了兩個時期,分別列舉了脈沖強化學習算 法在早期與晚期的代表性工作. 盡管近些年也出現 了一些優秀的突觸可塑性算法(例如e-prop[52] ),但這 已經不是計算機科學領域的主流,所以未被列入圖1 中. 由于圖的大小有限,部分SNN與強化學習的經 典工作并未在圖中展現,這將在本文的后續章節中 進行更為系統的梳理 . 此外,出于美觀考慮,圖 1根 據事件線分為上下兩側,不存在事件類型的區別.
關于相關工作在脈沖強化學習算法的發展歷程 中的地位以及作用,其概述如下:1949 年 Hebb[53] 提 出了突觸可塑性的經典理論,對突觸可塑性的基本 原理進行了描述 . 1972 年 Klopf [54] 提出了智能自適 應系統的新理論,其中的一系列思想促成了資格跡 (Eligibility Trace)在強化學習中的應用[48] . 1989 年 Watkins[55] 提出了Q學習,這是強化學習早期的一個 重要突破,實現了異策(Off-policy)[48] 下的時序差分 控制 . 1992 年 Williams[56] 提出了 REINFORCE 算 法,這是一個經典的策略梯度算法,動作選擇不再直 接依賴于價值函數,而是可以直接學習參數化的策 略. 1997年Markram等人[57] 提出了一個較為通用的 SNN 學習規則,即脈沖時序依賴可塑性(Spiketiming-dependent Plasticity, STDP),這是無監督學 習的重要生物學基礎 . 2000 年 Bohte 等人[58] 提出了 SpikeProp 算法,首次使用誤差反向傳播對 SNN 進 行訓練 . 2003 年 Seung[59] 基于策略梯度算法提出了 R-max學習規則. 2007年Izhikevich[60] 受到動物學實 驗的發現啟發,提出了 R-STDP 學習規則 . 2009 年 Urbanczik 和 Senn[50] 提出了利用基于群體響應的反 饋配合全局獎勵對突觸可塑性進行調節,豐富了三 因素學習規則中全局信號的選擇范圍 . 2010 年 Frémaux 等人[61] 總結了基于基線的 R-STDP 與 Rmax 學習規則,利用基線函數對原本的學習規則進 行 改 進,使 其 能 夠 同 時 學 習 多 個 任 務 . 2013 年 Frémaux 等人[51] 提出了 TD-LTP 學習規則,成功解 決了如何在非離散框架下實現強化學習以及如何在 神經元中計算獎勵預測誤差的問題 . O'Brien 和 Srinivasa[62] 提出了將多種突觸可塑性結合的學習算 法以解決同時學習多個遠端獎勵的問題 . Patal 等 人[47] 首次將 ANN-SNN 轉換應用到強化學習領域, 避免了強化學習直接訓練 SNN 的困難,并證明了 SNN 能夠提高模型對于遮擋的魯棒性 . Tang 等 人[63] 提 出 了 一 個 混 合 的 行 動 器 -評 判 器(ActorCritic)網絡,對脈沖行動器網絡與深度評判器網絡 進行聯合訓練,證明了脈沖行動器網絡可以作為原 本深度行動器網絡的一個低能耗替代方案 . Zhang 等人[64] 受到知識蒸餾[65] 啟發,提出了一種間接訓練 SNN 的方法,利用強化學習訓練得到的 ANN 教師 網絡指導 SNN 學生網絡的學習 . Liu等人[66] 提出了DSQN 算法,擺脫了原本的深度脈沖強化學習算法 在訓練過程中對ANN的依賴. 由于脈沖強化學習算法的領域交叉性,脈沖強 化學習算法的研究在脈沖神經網絡與強化學習算法 的文獻綜述中少有提及 . 例如 Taherkhani等人[67] 簡 單提及了基于獎勵的突觸可塑性學習 . Hu 等人[68] 介紹了三因素學習規則. Sutton和Barto[48] 闡述了神 經科學中大腦獎勵系統與強化學習理論之間的對應 關系,并對神經科學與強化學習如何相互影響進行 了討論 . 此外,之前關于脈沖強化學習算法的綜述 由于時間較早,其關注的都是與突觸可塑性相關的 內容 . 例如 Frémaux 和 Gerstner[69] 系統總結了利用 三因素學習規則實現的強化學習算法. Bing等人[37] 介紹了利用三因素學習規則實現的強化學習算法及 其相應的機器人應用.
本文首先介紹了SNN與強化學習的基本原理, 然后以SNN學習算法的分類為基礎,從更長的時間 線對傳統的利用三因素學習規則實現的強化學習算 法與近些年來出現的新型脈沖強化學習算法進行了 系統性回顧與綜述 . 不同于已有的綜述,本文率先 對依托 ANN 實現的脈沖強化學習算法與基于脈沖 的直接強化學習算法進行了系統梳理與全面總結, 并介紹了最新的研究挑戰與未來研究方向 . 最后, 本文對脈沖強化學習算法的優點與不足進行了總 結,并展望了其對未來人工智能和神經科學領域的 潛在影響,希望通過跨學科的交流與合作,推動該領 域的快速發展.
擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。
擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。
為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。
這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。
**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。
有效擴散模型的有效策略
擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。
流場可視化是科學計算可視化中一個重要的分支,主要對計算流體動力學的模擬計算結果進行可視化,給研究人員提 供視覺上直觀可見的圖形圖像,方便研究人員進行分析.流場可視化的已知技術包括基于幾何的方法(如流線和粒子追蹤法) 以及基于紋理的方法(如 LIC、噪聲點、IBFV 等).流線可視化是流場可視化的一個重要且常用的幾何可視化手段.在流線可 視化的研究中,流線的放置是整個流線可視化的重點,流線的數目和位置影響了整個可視化效果.當流線放置過多時,會造成 視覺的雜亂;而流線放置過少會使流場信息表達不完整,無法傳遞完整的信息給領域專家.為了實現對科學數據的精確顯示, 流線可視化產生了兩個重要的研究方向:種子點的放置和流線的約減.文中介紹了種子點放置方法和流線的約減方法的相關 研究,總結了在2D和3D流場上出現的一些問題和采取的解決方案,并針對日益增長的科學數據,提出流線可視化下一步需要 解決的問題。
神經風格遷移技術主要用于對圖像、視頻等進行風格化,使其具有藝術美感,該領域極具應用價值,是人工智能的熱門研究領域之一。為推動神經風格遷移領域的研究發展,對神經風格遷移技術進行了全面概述。簡述了非真實感渲染技術和傳統的紋理遷移技術。對現有神經風格遷移模型進行了分類整理,并詳細探討了各類代表性模型的算法原理及后續改進,分析了神經風格遷移技術的應用市場。提出對風格遷移模型質量的評判應該從定性評估和定量評估兩個方面來考慮,并從各個角度討論了現階段風格遷移技術存在的問題以及未來研究方向。最后強調應提高模型的綜合能力,在保證生成質量的情況下提升生成速度以及泛化能力。
深度視覺生成是計算機視覺領域的熱門方向,旨在使計算機能夠根據輸入數據自動生成預期的視覺內容。深度視覺生成用人工智能技術賦能相關產業,推動產業自動化、智能化改革與轉型。生成對抗網絡(GAN)是深度視覺生成的有效工具,近年來受到了極大關注,成為快速發展的研究方向。GAN能夠接收多種模態的輸入數據,包括噪聲、圖像、文本、視頻,以對抗博弈的模式進行圖像生成和視頻生成,已成功應用于多項視覺生成任務,如廣告設計、藝術創作、動畫制作、虛擬現實等。利用GAN實現真實的、多樣化、可控的視覺生成具有重要的研究意義。本文通過系統調研,對近年來深度對抗視覺生成的相關工作進行綜述。首先介紹深度視覺生成背景及典型生成模型,然后根據深度對抗視覺生成的主流任務概述相關算法,總結深度對抗視覺生成目前面臨的痛點問題,在此基礎上分析深度對抗視覺生成的未來發展趨勢。
視覺多目標跟蹤是計算機視覺領域的熱點問題,然而,場景中目標數量的不確定、目標之間的相互遮擋、目標特征區分度不高等多種難題導致了視覺多目標跟蹤現實應用進展緩慢。近年來,隨著視覺智能處理研究的不斷深入,涌現出多種多樣的深度學習類視覺多目標跟蹤算法。在分析了視覺多目標跟蹤面臨的挑戰和難點基礎上,將算法分為基于檢測跟蹤(Detection-Based-Tracking,DBT)、聯合檢測跟蹤(Joint-Detection-Tracking,JDT)兩大類及六個子類,研究不同類別算法的優缺點。分析表明,DBT類算法結構簡單,但算法各子環節的關聯度不高,JDT類算法融合多模塊聯合學習,在多項跟蹤評價指標中占優。DBT類算法中特征提取模塊是解決目標遮擋問題的關鍵,但損失了算法速度,JDT類算法對檢測模塊更為依賴。目前,多目標跟蹤跟蹤總體是從DBT類算法向JDT發展,分階段實現算法準確度與速度的均衡。提出多目標跟蹤算法未來在數據集、各子模塊、具體場景應用等方面的發展方向。
對流體圖像序列進行運動分析一直是流體力學、醫學和計算機視覺等領域的重要研究課題。從圖像對中提取的密集精確的速度矢量場能夠為許多領域提供有價值的信息,基于光流法的流體運動估計技術因其獨特的優勢成為一個有前途的方向。光流法可以獲得具有較高分辨率的密集速度矢量場,在小尺度精細結構的測量上有所改進,彌補了基于相關分析法的粒子圖像測速技術的不足。此外,光流方法還可以方便的引入各種物理約束,獲得較為符合流體運動特性的運動估計結果。為了全面反映基于光流法的流體運動估計算法的研究進展,本文在廣泛調研相關文獻的基礎上,對國內外具有代表性的論文進行了系統闡述。首先介紹了光流法的基本原理,然后將現有算法按照要解決的突出問題進行分類:結合流體力學知識的能量最小化函數,提高對光照變化的魯棒性,大位移估計和消除異常值。對每類方法,從問題解決過程的角度予以介紹,分析了各類突出問題中現有算法的特點和局限性。最后,總結分析了流體運動估計技術當前面臨的問題和挑戰,并對未來基于光流法的運動估計算法的研究方向和研究重點進行了展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210209&flag=1
A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷積神經網絡(CNNs)最近在許多視覺識別任務中取得了巨大的成功。然而,現有的深度神經網絡模型在計算上是昂貴的和內存密集型的,這阻礙了它們在低內存資源的設備或有嚴格時間延遲要求的應用程序中的部署。因此,在不顯著降低模型性能的情況下,在深度網絡中進行模型壓縮和加速是一種自然的思路。在過去幾年中,這方面取得了巨大的進展。本文綜述了近年來發展起來的壓縮和加速CNNs模型的先進技術。這些技術大致分為四種方案: 參數剪枝和共享、低秩因子分解、傳輸/緊湊卷積過濾器和知識蒸餾。首先介紹參數修剪和共享的方法,然后介紹其他技術。對于每種方案,我們都提供了關于性能、相關應用程序、優點和缺點等方面的詳細分析。然后我們將討論一些最近比較成功的方法,例如,動態容量網絡和隨機深度網絡。然后,我們調查評估矩陣、用于評估模型性能的主要數據集和最近的基準測試工作。最后,對全文進行總結,并對今后的研究方向進行了展望。