亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

由于其強大的生成能力,深度生成模型在低層視覺任務領域引起了廣泛關注。其中,以擴散模型為基礎的解決方案,因其通過正向擴散過程破壞圖像和逆向去噪過程生成圖像的特點,而廣受贊譽。這些模型能夠生成質量高且多樣性豐富的樣本,確保生成具有復雜紋理信息的視覺效果。盡管它們在低層視覺中的成功和廣泛應用顯著,但缺乏一篇全面且有啟發性的綜述來整合這些開創性的擴散模型研究并組織相關內容。為填補這一空白,本文提出了首個聚焦于低層視覺任務中去噪擴散模型技術的全面綜述,涵蓋了該領域的理論和實踐貢獻。我們展示了三種通用的擴散建模框架,并探討了它們與其他常用深度生成模型的關系,從而為后續分析奠定理論基礎。隨后,我們從多角度對低層視覺任務中使用的擴散模型進行了分類,考慮了基礎框架和目標任務。此外,除了自然圖像處理方法外,我們還總結了在其他低層視覺任務中應用的擴展擴散模型,包括醫學、遙感和視頻場景。我們概述了低層視覺任務中常用的基準測試和評估指標,并對三項主要任務中的擴散模型技術進行了全面評估,涵蓋了性能和效率。最后,我們闡明了當前擴散模型的局限性,并提出了七個未來研究的有趣方向。本綜述旨在促進對低層視覺任務中去噪擴散模型的深刻理解。對于感興趣的讀者,可以在//github.com/ChunmingHe/awesome-diffusion-models-in-low-level-vision找到一份包含超過20個低層視覺任務的擴散模型技術、數據集及其他相關信息的精選列表。

作為計算機視覺的一個重要組成部分,低層視覺任務旨在改善由于復雜場景導致的低質量數據,并在圖像超分辨率[1]、去模糊[2]、去霧[3]、圖像修復[4]、融合[5]、壓縮感知[6]、低光增強[7]和遙感云去除[8]等方面有著廣泛且實際的應用。請參見圖1中的視覺結果。

傳統方法[13], [14]將問題表述為變分優化挑戰,并采用手工設計的算法來解決與特定圖像屬性或降解先驗相關的近似約束[15], [16]。然而,這些方法由于缺乏通用性,無法應對復雜的降解問題。隨著深度學習的出現,卷積神經網絡(CNN)[17]和Transformers[18]因其強大的特征提取能力被廣泛應用于低層視覺任務。此外,豐富數據集的收集,如超分辨率中的DIV2K[19]和去雨中的Rain800[20],進一步促進了其通用性。盡管這些技術在PSNR和SSIM等基于失真的指標上取得了可喜的結果,但它們在紋理生成方面表現不佳,限制了其在現實場景中的應用。

為應對此局限,深度生成模型,尤其是生成對抗網絡(GANs)[21],被引入到低層視覺領域。得益于其強大的生成能力,這些網絡有望合成真實的紋理細節,從而擴展到現實世界的應用。然而,這些策略仍面臨幾個關鍵挑戰:(1) 訓練過程容易受到模式崩潰和不穩定優化的影響,需要在訓練期間進行復雜的超參數調優。(2) 生成的結果仍可能出現偽影和反事實細節,破壞全局一致性,限制了其適用范圍。

一種新型深度生成模型,稱為擴散模型(DMs)[22]-[30],最近因其卓越的生成能力和訓練穩定性成為計算機視覺領域的熱門話題。擴散模型的特點在于正向擴散階段和逆向擴散階段,通過引入噪聲系統性地擾動數據,然后學習逆轉這一過程以生成樣本。作為基于似然的模型,擴散模型將其訓練目標表述為重加權變分下界,以其廣泛的分布覆蓋、穩定的訓練目標和簡單的可擴展性而受到好評。

利用上述優勢,擴散模型在多個領域中取得了顯著成功,包括數據生成、圖像內容理解和低層視覺。在低層視覺領域,擴散模型[9], [10], [31], [32]主要集中于低質量數據的恢復,確保重建的高質量數據具有精確的語義信息和逼真的紋理細節,即使在復雜且嚴重降解的現實場景中也是如此。如圖1所示,許多基于擴散模型的算法在各種低層視覺任務中表現出色。然而,不同任務中使用的技術表現出顯著的多樣性和復雜性,使其難以理解和改進,從而對未來發展和通用重建模型的引入構成了障礙。因此,迫切需要一篇結構良好且全面的低層視覺任務中基于擴散模型的綜述。然而,大多數現有的基于擴散模型的綜述[33]-[36]側重于基礎理論模型和生成技術的發展。只有少數綜述[37]-[39]集中于自然圖像場景中的某一特定問題或少數有限任務。

為滿足領域需求并彌補上述缺陷,我們提出了首個針對低層視覺任務的基于擴散模型的綜述(見圖2和圖3)。本綜述包括詳細的理論介紹、廣泛的應用范圍、全面的實驗分析和廣泛的未來展望。具體來說,我們在第2節全面介紹了擴散模型的基本原理,闡明了擴散模型與其他深度生成模型之間的聯系和相互關系。然后,我們在第3節總結了現有的前沿基于擴散模型的自然低層視覺方法,基于基礎框架和目標任務對其進行分類,包括六個廣泛使用的任務。接著,我們在第4節擴展到更廣泛的場景,包括醫學、遙感和視頻場景,旨在提供應用范圍廣泛的綜合概述。此外,第5節匯編了30多個常用基準測試和10多個基本評估指標。在三個主要任務(超分辨率、圖像去模糊和低光圖像增強)的相關設置中,我們提供了基于擴散模型方法的豐富實驗。最后,我們在第6節中指出了現有低層視覺任務中基于擴散模型方法的局限性,并提出了未來研究和改進的三個主要潛力方向,并在第7節總結了本綜述。

我們希望這篇基于擴散模型的綜述,旨在促進對低層視覺領域的理解,能夠激發計算機視覺社區的進一步興趣并促進相關研究工作。

付費5元查看完整內容

相關內容

擴散模型是近年來快速發展并得到廣泛關注的生成模型。它通過一系列的加噪和去噪過程,在復雜的圖像分布和高斯分布之間建立聯系,使得模型最終能將隨機采樣的高斯噪聲逐步去噪得到一張圖像。

半監督學習的顯著進展推動了研究人員在計算機視覺領域探索其在目標檢測任務中的潛力。半監督目標檢測(SSOD)利用小規模標注數據集和大規模未標注數據集的組合,有效減少了對大規模標注數據集的依賴,這些數據集通常昂貴且耗時。最初,SSOD模型在有效利用未標注數據和管理生成的未標注數據偽標簽中的噪聲方面遇到了挑戰。然而,許多最近的進展已經解決了這些問題,導致SSOD性能顯著提升。本文全面回顧了27項最前沿的SSOD方法發展,從卷積神經網絡(CNNs)到Transformers。我們深入探討了半監督學習的核心組件及其在目標檢測框架中的整合,涵蓋數據增強技術、偽標簽策略、一致性正則化和對抗訓練方法。此外,我們對各種SSOD模型進行了比較分析,評估它們的性能和架構差異。我們旨在激發更多關于克服現有挑戰和探索半監督學習在目標檢測中新方向的研究興趣。

深度學習 [42], [43], [44], [45] 已成為一個活躍的研究領域,并在模式識別 [46], [47]、數據挖掘 [48], [49]、統計學習 [50], [51]、計算機視覺 [52], [53] 和自然語言處理 [54], [54], [55] 等多個領域中有著廣泛的應用。特別是在有監督學習環境中,深度學習通過有效利用大量高質量的標注數據,取得了顯著的成就。然而,這些有監督學習方法 [56], [57], [58] 依賴于昂貴且耗時的標注數據進行訓練。半監督目標檢測 (SSOD) [59] 通過結合標注數據和未標注數據 [60] 來彌補這一缺口,在計算機視覺領域 [52], [53] 尤其是在獲取大規模標注數據 [59] 具有挑戰性或成本高昂的行業中顯示出顯著進步。SSOD 應用于包括自動駕駛汽車 [61], [62] 和醫學影像 [63], [64] 在內的各個行業。在農業 [65] [66] 和制造業 [67] 等數據豐富但標注耗時的行業中,SSOD 有助于提高效率。

半監督方法 [68], [69] 通過利用未標注和標注數據 [70], [71] 提升模型性能并減少標注需求。此外,以前的目標檢測方法 [72], [73] 主要涉及手動特征工程 [74], [75] 和簡單模型的使用。這些方法在準確識別不同形狀和尺寸的物體時遇到困難。后來,卷積神經網絡 (CNNs) [77], [78] 的引入,通過直接從原始數據中提取分層特征 [79],實現了端到端學習 [80],大大提高了準確性和有效性。近年來,半監督目標檢測在深度學習架構 [81], [82]、優化技術 [83] 和數據集增強策略 [84], [85], [86], [87] 的推動下取得了顯著進步。研究人員開發了各種針對目標檢測的半監督學習 (SSL) 方法,每種方法都有其獨特的優缺點 [88], [89], [90]。這些方法主要分為偽標簽 [91], [92], [93] 和一致性正則化 [94],兩者在訓練過程中都有效利用了標注和未標注數據。此外,將SSL方法與最先進的目標檢測架構(如FCOS [95],Faster R-CNN [96] 和 YOLO [97])相結合,顯著提升了半監督目標檢測系統的性能和可擴展性。這種結合不僅提高了檢測準確性,還幫助模型在處理新的和未見過的數據集時表現良好。

隨著DEtection TRansformer(DETR) [98], [99], [100] 的出現,目標檢測取得了顯著進展。Transformers最初為自然語言處理 [54], [54], [55] 開發,在捕捉長距離依賴關系 [101] 和上下文信息 [102], [103] 方面表現出色,使其在復雜空間排列的目標檢測中理想 [104], [105]。與依賴于局部卷積并需要非極大值抑制 (NMS) [106] 來過濾冗余檢測的CNNs [78], [79], [80] 不同,DETR使用自注意力機制 [107], [108],不需要NMS。它將目標檢測任務視為直接的集合預測問題,消除了傳統的NMS [106] 和錨生成 [109] 過程。盡管有優勢,DETR仍存在如訓練期間收斂速度慢和小物體檢測困難等局限性。為了應對這些問題,DETR通過改進的注意力機制和優化技術 [110] 提高了性能和效率。在DETR取得成功后,研究人員現在在半監督目標檢測方法中采用基于DETR的網絡 [1], [2], [3],結合DETR的優勢與半監督學習,利用未標注數據 [88], [94],減少對大規模標注數據的需求。

由于基于transformer的半監督目標檢測(SSOD) [60], [111] 方法的快速進步,跟上最新進展變得越來越具有挑戰性。因此,從基于CNN到基于Transformer的SSOD方法的最新發展進行回顧對于該領域的研究人員具有重要意義。本文對從基于CNN到基于Transformer的半監督目標檢測(SSOD)方法的轉變進行了全面概述。如圖1所示,綜述將SSOD方法分為基于CNN(單階段和兩階段) [4], [6], [7], [8], [10], [24], [27], [45] 和基于Transformer的方法 [1], [2], [3],重點介紹了偽標簽和基于一致性的標注等技術。它還詳細介紹了包括強、弱和混合技術在內的數據增強策略 [85], [86], [87], [112], [113], [114], [115]。

圖2展示了一種為半監督目標檢測量身定制的教師-學生架構。一個預訓練的教師模型用于為未標注數據生成偽標簽。這些偽標簽與標注數據一起用于共同訓練學生模型。通過結合偽標注數據,學生模型從更廣泛和多樣化的數據集中學習,增強其準確檢測物體的能力。此外,數據增強方法也應用于標注和偽標注數據集。這種協同學習方法有效利用了標注和未標注數據,提高了目標檢測系統的整體性能。本文其余部分組織如下:第2節回顧了以前的SSOD綜述。第3節討論了該領域的相關工作。第8節探討了SSOD在各種視覺任務中的作用。第4節是本文的核心,提供了SSOD方法的全面概述。第5節研究了SSOD中使用的不同損失函數。第6節對SSOD方法進行了比較分析。第7節解決了開放的挑戰和未來的方向。最后,第9節對本文進行了總結。

付費5元查看完整內容

虛假信息在在線平臺上的傳播對社會構成了嚴重挑戰,亟需采取有效措施進行信息驗證。盡管人工事實核查依然非常重要,但虛假信息的不斷增加需要自動化的方法來應對。大型語言模型(LLMs)為幫助事實核查員提供了有前景的機會,利用LLMs廣泛的知識和強大的推理能力。在這篇綜述論文中,我們探討了生成型LLMs在事實核查領域的應用,展示了已采用的各種方法和用于提示或微調LLMs的技術。通過概述現有方法,這篇綜述旨在提高對LLMs在事實核查中應用的理解,并促進LLMs在這一過程中進一步的發展。

引言 當代數字時代帶來了各種挑戰,其中包括虛假信息的傳播。社交媒體的普及使這個問題更加嚴峻,成為一個嚴重的社會關注點。有效應對虛假信息的策略之一是事實核查(Vlachos 和 Riedel,2014),這主要由事實核查員手動完成。然而,事實核查員的數量有限,而虛假信息的傳播卻在增加(A?meur 等,2023)。因此,有必要通過使用數字工具和大型語言模型(LLMs)來開發自動化的事實核查流程,以協助事實核查員(Nakov 等,2021a)。

LLMs利用大規模數據集,結合數十億參數來模擬語言的細微差別和自然語言的模式。此外,生成型LLMs代表了一種專門用于文本生成的LLMs子集。它們在手動事實核查中的應用顯示出提高效率和準確性的良好前景。本研究首次綜合總結了將生成型LLMs整合到事實核查過程中的各種方法和技術。

現有的綜述已探討了事實核查員的需求和可自動化的任務(Nakov 等,2021a),任務定義、傳統方法或類似BERT的架構(Thorne 和 Vlachos,2018;Zeng 等,2021)。此外,還有幾位作者審查了現有的事實核查數據集(Guo 等,2022)。另一項綜述旨在利用LLMs對抗虛假信息,并探索LLMs帶來的機會和挑戰(Chen 和 Shu,2023b)。然而,這項研究并未詳細探討所使用的方法,這為更深入研究生成型LLMs在事實核查中的作用提供了機會。

我們的主要貢獻是提供生成型LLMs在自動化事實核查中應用的概述。我們概述了70篇相關方法和新穎提示技術的論文,供研究人員深入研究LLMs輔助的信息驗證。我們確定了四個主要任務和各種提出的解決策略。此外,我們討論了未來的挑戰和利用LLMs進行信息驗證的可能方向。

付費5元查看完整內容

深度強化學習(RL)方法的擴展提出了一個顯著的挑戰。隨著生成模型的發展,基于模型的RL成為一個有力的競爭者。最近在序列建模方面的進展帶來了有效的基于Transformer的世界模型,盡管這些模型由于需要長序列的標記來準確模擬環境而導致計算量巨大。在這項工作中,我們提出了?-IRIS,這是一種具有世界模型架構的新型智能體,該架構由一個離散自動編碼器組成,該編碼器對時間步之間的隨機變化進行編碼,以及一個自回歸Transformer,該Transformer通過用連續標記總結當前世界狀態來預測未來的變化。在Crafter基準測試中,?-IRIS在多個幀預算中設立了新的狀態標準,同時其訓練速度比之前的基于注意力的方法快一個數量級。我們在//github.com/vmicheli/delta-iris上發布了我們的代碼和模型。

付費5元查看完整內容

擴散生成模型最近已成為一種用于生成和修改連貫、高質量視頻的強大技術。本綜述提供了視頻生成擴散模型關鍵元素的系統概覽,涵蓋應用、架構選擇以及時間動態的建模。領域中的最新進展被總結并歸類為發展趨勢。綜述以剩余挑戰的概覽和對該領域未來的展望結束。網站://github.com/ndrwmlnk/Awesome-Video-Diffusion-Models。

擴散生成模型(Sohl-Dickstein等,2015年;Song & Ermon,2019年;Ho等,2020年;Song等,2021年;Ruiz等,2024年)已經展示了學習多樣化視覺概念和基于文本描述創建高質量圖像的顯著能力(Rombach等,2022年;Ramesh等,2022年)。最近的發展還將擴散模型擴展到了視頻領域(Ho等,2022c),具有徹底革新娛樂內容生成或為智能決策模擬世界的潛力(Yang等,2023a)。例如,文本到視頻的SORA模型(Brooks等,2024年)已能夠根據用戶的提示生成長達一分鐘的高質量視頻。將擴散模型適應視頻生成帶來了獨特的挑戰,這些挑戰仍需克服,包括維持時間一致性、生成長視頻和計算成本。

在本綜述中,我們提供了視頻擴散模型的關鍵方面概覽,包括可能的應用、架構選擇、時間動態建模機制和訓練模式(見圖1以獲取概覽)。隨后,我們將簡要總結一些值得注意的論文,以勾勒出到目前為止該領域的發展。最后,我們總結討論持續存在的挑戰,并識別未來改進的潛在領域。

應用分類

視頻擴散模型的可能應用可以根據輸入方式大致分類。這包括文本提示、圖像、視頻和聽覺信號。許多模型也接受這些模態的某些組合作為輸入。圖2展示了不同的應用。我們從第7.1.3節開始,總結了每個應用領域中的重要論文。為此,我們根據一個主要任務對每個模型進行了分類。

在我們的分類中,文本條件生成(第7.1.3節)指的是完全基于文本描述生成視頻的任務。不同模型在如何模擬對象特定運動方面表現出不同程度的成功。因此,我們將模型分為兩類:一類能夠產生簡單運動,如輕微的攝像機平移或流動的頭發;另一類能夠表現出更復雜的隨時間變化的運動,如融入物理推理的模型(Melnik等,2023年)。

在圖像條件視頻生成(第7.4節)任務中,一個現有的參考圖像被賦予動畫效果。有時,提供文本提示或其他指導信息。由于其對生成視頻內容的高度可控性,圖像條件視頻生成近期已被廣泛研究。對于在其他章節中介紹的模型,我們在適用的情況下提及它們的圖像到視頻生成能力。

我們將視頻補全模型(第8節)視為一個獨立的組,這些模型接受現有視頻并在時間域中進行擴展,盡管它們與前面的應用有交集。視頻擴散模型通常由于架構和硬件限制而具有固定的輸入和輸出幀數。為了擴展這些模型生成任意長度的視頻,已探索了自回歸和分層方法。

音頻條件模型(第9節)接受聲音片段作為輸入,有時與文本或圖像等其他模態結合。然后它們可以合成與聲源一致的視頻。典型應用包括生成說話的面孔、音樂視頻以及更一般的場景。 視頻編輯模型(第10節)使用現有視頻作為基線,從中生成新視頻。典型任務包括風格編輯(在保持對象身份的同時改變視頻的外觀)、對象/背景替換、深度偽造以及恢復舊視頻素材(包括去噪、上色或擴展寬高比等任務)。

最后,我們考慮將視頻擴散模型應用于智能決策(第11節)。視頻擴散模型可以用作基于代理當前狀態或高級文本任務描述的現實世界模擬器。這可以使在模擬世界中進行規劃成為可能,同時也可以在生成性世界模型內完全訓練強化學習策略。

付費5元查看完整內容

圖神經網絡(GNNs)在各個領域的圖結構數據學習中展示了顯著的成功。盡管取得了巨大成功,現有工作經常忽視一個關鍵挑戰,即消息傳播的學習能否有效地泛化到代表性不足的圖區域。這些少數區域經常展示不規則的同質性/異質性模式和多樣化的鄰域類分布,導致模糊性。在這項工作中,我們研究了GNNs內的模糊性問題,其對表示學習的影響,以及為對抗這一問題而開發的更豐富的監督信號。我們對GNN進行了細致的評估,分析了不同圖區域中模糊性的存在及其與節點位置的關系。為了消除節點嵌入的模糊性,我們提出了一種新穎的方法,DisamGCL,它利用額外的優化指導來增強表示學習,特別是對于模糊區域中的節點。DisamGCL基于預測的時間不一致性識別模糊節點,并通過以拓撲感知的方式采用對比學習引入消歧規則化。DisamGCL促進節點表示的區分性,并且可以減輕消息傳播引起的語義混合,有效地解決了模糊性問題。經驗結果驗證了DisamGCL的效率,并突出了其在代表性不足的圖區域改善GNN性能的潛力。

付費5元查看完整內容

擴散模型(DMs)代表了圖像超分辨率(SR)領域的重大進步,使技術圖像質量更加符合人類偏好,并擴展了SR應用。DMs解決了先前方法的關鍵局限性,提高了SR圖像的整體真實感和細節。然而,DMs存在顏色偏移問題,且高計算成本要求高效采樣替代方案,這凸顯了平衡計算效率和圖像質量的挑戰。這篇綜述概述了將DMs應用于圖像SR的情況,并提供了一項詳細分析,強調了該領域內獨特的特征和方法論,與該領域更廣泛的現有綜述截然不同。它呈現了DM基礎知識的統一視角,并探索了研究方向,包括替代輸入域、條件策略、引導、腐敗空間和零樣本方法。這篇綜述提供了關于DMs在圖像SR領域演化的見解,涵蓋了當前趨勢、挑戰和這個快速發展領域的未來方向。

在不斷發展的計算機視覺領域中,超分辨率(SR)——將低分辨率(LR)圖像增強為高分辨率(HR)圖像——一直是一個長期而仍然令人困惑的挑戰,這歸因于其本質上不適定的特性:由于亮度和顏色等多種因素,任何給定的LR圖像都可以對應多個有效的HR圖像【1】。SR的應用范圍從自然【2】【3】到先進的衛星【4】和醫學成像【5】,其進展得益于深度學習的快速發展。最近,擴散模型(DMs)作為一種主要的生成模型家族嶄露頭角,挑戰著生成對抗網絡(GANs)長期以來的主導地位【6】【7】【8】【9】。雖然早期的生成模型展示了令人印象深刻的圖像生成能力,但它們存在內在的局限性。例如,自回歸模型在生成HR圖像時可能成本過高【10】【11】【12】。另一方面,NFs和VAEs通常生成的樣本質量不理想。此外,GANs需要精心設計的正則化和優化策略來管理優化不穩定性并防止模式崩潰【13】。盡管如此,這些模型對SR領域的貢獻仍然顯著。 DMs的出現標志著生成模型的新時代,并深刻影響了生成式AI領域,再次為圖像SR領域注入活力。然而,隨著關于DMs的研究量持續增長,對于那些新入此領域的人來說,跟上最新發展變得越來越具有挑戰性。這一研究領域的廣度可能會掩蓋主要趨勢,并可能阻礙進一步研究的進展。我們通過提供對圖像SR中DMs當前研究的全面概述來解決這些問題。 這篇綜述是在我們之前的作品《超分辨率領域的搭車旅行指南》【14】的基礎上建立的,該作品對圖像SR領域進行了廣泛的概述。我們旨在為那些新入DMs在圖像SR領域的人提供一個有價值的切入點,同時為那些已有經驗的人提供更廣闊的視角。

本文的結構如下所述: 第2節 - 超分辨率基礎:這一節提供了基本定義,并介紹了評估圖像質量時常用的標準數據集、方法和度量,這些都是圖像SR出版物中常用的。 第3節 - 擴散模型基礎:介紹了擴散模型(DMs)的原理和各種形式,包括去噪擴散概率模型(DDPMs)、基于評分的生成模型(SGMs)和隨機微分方程(SDEs)。這一節還探討了DMs與其他生成模型的關系。 第4節 - 擴散模型的改進:常見的增強DMs的實踐,重點是高效采樣技術和改進的似然估計。 第5節 - 圖像SR中的擴散模型:介紹了DMs在SR中的具體實現,探討了替代領域(潛在空間和小波域),討論了架構設計和多任務Null-Space模型,并研究了替代腐敗空間。 第6節 - 領域特定應用:基于DM的SR應用,特別是醫學成像、盲目面部恢復、面部SR中的大氣湍流以及遙感。 第7節 - 討論和未來工作:圖像SR中DMs的常見問題和值得注意的DMs在圖像SR中的研究途徑。 第8節 - 結論:總結了這項調查。

付費5元查看完整內容

基于擴散的生成模型在生成高質量的圖像方面非常有效,生成的樣本在某些指標下常常超過其他模型生成的樣本。然而,這些模型的一個顯著特征是,它們通常需要很長的采樣鏈來生成高保真圖像。這不僅帶來了采樣時間的挑戰,也帶來了通過這些鏈反向傳播的固有困難,以完成諸如模型反演等任務,即近似地找到生成已知圖像的潛在狀態。在本文中,我們從一個不同的角度來看待擴散模型,即一個(深度)平衡(DEQ)不動點模型。具體來說,我們擴展了最近的去噪擴散隱式模型(DDIM;Song et al. 2020),并將整個采樣鏈建模為一個聯合的多元不動點系統。這種設置提供了擴散模型和平衡模型的優雅統一,并顯示出1)單幅圖像采樣的好處,因為它用并行采樣過程取代了典型的全串行采樣過程;2)模型反演,我們可以利用DEQ設置中的快速梯度,更快地找到生成給定圖像的噪聲。該方法也是正交的,因此與用于減少采樣時間或改進模型反演的其他方法互補。我們在多個數據集上演示了我們的方法的強大性能,包括CIFAR10、CelebA和LSUN Bedrooms和Churches。

付費5元查看完整內容

擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。

擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。

為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。

這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。

**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。

有效擴散模型的有效策略

擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。

付費5元查看完整內容

結構化數據在網絡應用中很好地存在,如社交媒體中的社交網絡、學術網站中的引文網絡、在線論壇中的線程數據。由于拓撲結構的復雜性,這些數據中的豐富信息難以處理和利用。圖神經網絡(GNN)在結構化數據的學習表示方面顯示出極大的優勢。然而,深度學習模型的不透明性使得解釋GNN的預測變得非常重要。同時,GNN解釋的評價也是一個巨大的挑戰,因為在很多情況下,基準真相解釋是不可用的。在本文中,我們從因果推理理論中借鑒反事實和事實推理(CF^2)的觀點,來解決可解釋GNN中的學習和評價問題。為了生成解釋,我們提出了一個模型無關的框架,通過建立一個優化問題的基礎上,這兩個隨意的觀點。這將CF^2與之前只考慮其中一個的可解釋GNN區分開來。這項工作的另一個貢獻是對GNN解釋的評價。為了在不要求基本事實的情況下定量地評估生成的解釋,我們設計了基于反事實和事實推理的度量標準,以評估解釋的必要性和充分性。實驗表明,無論基準真相解釋是否可用,CF^2在真實數據集上都比以前的最先進的方法產生了更好的解釋。此外,統計分析證明了基準真相評估和我們提出的指標之間的相關性。

//www.zhuanzhi.ai/paper/3b2867aa0d96b5b6a4993c1affa0e534

付費5元查看完整內容

最近,終身學習在構建不斷積累和轉移知識以幫助未來學習的機器學習系統方面引起了關注。無監督主題建模廣泛用于從文檔集合中發現主題。然而,由于數據稀疏性,例如,在一個小的(短)文檔集合中,會產生不連貫的主題和次優的文檔表示,主題建模的應用具有挑戰性。為了解決這個問題,我們提出了一個神經主題建模的終身學習框架,它可以連續處理文檔集流,積累主題,并通過從多個來源的知識轉移來指導未來的主題建模任務,以更好地處理稀疏的數據。在終身學習過程中,我們特別共同研究:(1)終生共享生成同源性(潛在話題)以轉移先驗知識,(2)通過新穎的選擇性數據增強、聯合訓練和話題正則化方法最小化保留過去學習的災難性遺忘。在給定一個文檔集合流的情況下,我們應用所提出的終身神經主題建模(LNTM)框架,將三個稀疏文檔集合建模為未來任務,并通過perplexity、Topic coherence和information retrieval task量化,證明了性能的提高。

付費5元查看完整內容
北京阿比特科技有限公司