亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

許多現實世界的數據集可以自然地表示為圖,涵蓋了廣泛的領域。然而,圖數據集的日益增長的復雜性和大小為分析和計算帶來了顯著挑戰。作為回應,圖簡化技術因其在簡化大型圖的同時保留關鍵屬性而獲得了重要地位。在這篇綜述中,我們旨在提供對圖簡化方法的全面理解,包括圖稀疏化、圖粗化和圖凝聚。具體來說,我們為這些方法建立了統一的定義,并引入了一個層次化的分類法來歸類它們解決的挑戰。我們的綜述然后系統地回顧了這些方法的技術細節,并強調了它們在不同場景中的實際應用。此外,我們概述了確保圖簡化技術持續有效性的關鍵研究方向,并在//github.com/ChandlerBang/awesome-graph-reduction上提供了一份全面的論文列表。我們希望這篇綜述能夠填補文獻空缺,并推動這一有希望的領域的進步。

圖結構數據在各個領域已變得無處不在,從社交網絡和生物系統到推薦系統和知識圖譜[Fan et al., 2019; Wu et al., 2022b, 2018; Shi and Weninger, 2017; Wang et al., 2021]。圖數據的內在關系結構使其成為模擬復雜交互和依賴關系的強大表示。此外,隨著圖機器學習技術的興起,特別是圖神經網絡(GNNs)[Kipf and Welling, 2016; Wu et al., 2020],圖數據集的利用見證了前所未有的增長,推動了節點分類、鏈接預測、圖分類和圖生成等任務的進展[Zhou et al., 2020; Ma and Tang, 2021]。 近年來,圖數據集的大小和復雜性呈指數級增長。大規模網絡,如社交圖和引文網絡[Hu et al., 2021],挑戰了現有算法的可擴展性和效率,并要求為高效模型訓練提供創新解決方案。盡管最近努力設計了可以伴隨大型圖擴展的GNNs [Jia et al., 2020; Zeng et al., 2021; Song et al., 2023; Liu et al., 2021],另一種方法專注于減小圖數據集的大小,包括圖、節點和邊的數量,我們將之稱為圖簡化[Jin et al., 2022b; Huang et al., 2021]。在本文中,我們將圖簡化定義為尋找一個更小尺寸的圖數據集的過程,同時保留其關鍵信息。具體來說,這一定義要求一個算法接受原始圖數據集作為輸入并產生一個更小的數據集。如圖1所示,圖簡化旨在通過保持其結構和語義特性來從龐大的圖數據集中提取關鍵信息。除了加速圖算法外,圖簡化還提供了一系列優勢。首先,減少后的圖顯示出與各種下游模型架構的兼容性[Jin et al., 2022b]。其次,圖簡化可能有助于隱私保護,因為它改變了原始結構或節點屬性,使它們難以恢復[Dong et al., 2022]。第三,與其較大的對應物相比,減少后的圖顯著更小,更易于人類理解,這有助于圖可視化[Imre et al., 2020]。

鑒于圖簡化的重要性,已經開發了眾多算法,這些算法分為三種不同策略:圖稀疏化[Althofer et al., 1993; Batson et al., 2009]、圖粗化[Loukas and Vandergheynst, 2018; Dorfler and Bullo, 2012],以及更近期的圖凝聚[Jin et al., 2022b,a; Xu et al., 2023; Liu et al., 2022]。圖稀疏化圍繞通過僅保留一部分邊和重要節點來近似圖的概念展開。與之相反,圖粗化并未消除任何節點,而是將節點分組并合并成超級節點,使用指定的聚合算法將原始組間邊聚合成超級邊。與前兩種策略不同,圖凝聚最近被引入作為一種在保持GNNs性能的同時,通過合成更小的圖來凝聚圖的方法。盡管這些方法已經廣泛傳播,但它們通常是孤立研究的,留下了它們之間的聯系和區別有些模糊。因此,提供這些現有算法的系統概覽,以增強我們對圖簡化技術的理解,既必要又及時。

貢獻。在這項工作中,我們旨在提供一份全面且最新的綜述,聚焦于圖簡化技術及其在解決圖相關挑戰中的多樣化應用。我們希望這份綜述能夠成為初學者研究人員和對探索該領域感興趣的從業者的寶貴資源,同時也催化未來研究努力。我們的貢獻可以總結如下:(a) 我們提供了第一個全面的圖簡化方法綜述,包括圖稀疏化、圖粗化和圖凝聚。 (b) 我們為現有的圖簡化方法開發了一個統一的視角,在第2節中根據它們的特征進行區分,并在第3節提供代表性算法的詳細回顧。 (c) 我們在第4節討論了圖簡化方法的實際應用,闡明了這些技術證明有價值的現實世界場景。 (d) 在第5節,我們識別關鍵挑戰和有希望的未來研究方向,指導圖簡化技術的持續進步

與現有綜述的聯系。與之前關于圖簡化的綜述[Liu et al., 2018; Interdonato et al., 2020; Shabani et al., 2023; Chen et al., 2022]相比,我們的研究提供了圖凝聚這一新興領域的全面概述,并提出了一個統一框架,將圖凝聚與傳統的圖簡化技術聯系起來。此外,我們的綜述探索了圖簡化和GNNs之間的協同作用,這是現有綜述中很少涉及的一個方面。同時,一些以數據為中心的圖學習綜述[Zha et al., 2023; Zheng et al., 2023a]包括了對圖簡化的討論,但我們提供了更詳細、更徹底的簡化技術審查。此外,我們的工作與最近關于數據集蒸餾的綜述[Geng et al., 2023; Sachdeva and McAuley, 2023]有所聯系,雖然它們主要關注應用于圖像數據的凝聚方法。 在圖2中,我們提供了上述類別中現有圖簡化方法的詳細分類,并將在接下來的部分中詳細闡述。此外,表2提供了前面提到的三種圖簡化策略的定性比較。

方法論

在本節中,我們將介紹上述三種圖簡化策略的代表性算法。對于每種策略,我們根據它們的學習目標對方法進行分類,并在表3中總結了流行的方法。 圖稀疏化 圖稀疏化作為圖簡化的直觀方法,涉及基于特定標準選擇關鍵邊或節點。傳統方法通常側重于保留特定圖屬性,如譜和中心性。隨著GNNs日益流行,旨在維持節點表示質量的方法越來越多。因此,我們根據它們的保留目標將現有技術分為兩組:一組專注于保留圖屬性的,另一組致力于維持模型性能的。 圖粗化 在稀疏化方法中選擇節點或邊不可避免地會丟失一些信息。為了確保保留足夠量的信息,開發了粗化技術,涉及對節點進行分組并聚合它們。這一過程可以迭代進行,產生原始圖的層次視圖。現有的粗化方法可以根據是否存在重構目標分為兩組:基于重構的方法和無需重構的方法,將在后續進一步闡述。 圖凝聚 盡管稀疏化和粗化方法在減小圖數據的大小方面已被證明是有效的,但它們存在內在的局限性。由于這些方法中的許多優先保留特定的圖屬性,它們沒有利用下游任務信息,可能導致模型性能不佳。此外,這些技術依賴于原始圖中存在代表性節點或邊的假設,這在原始數據集中可能并不總是成立。為了解決這些問題,圖凝聚首次由[Jin et al., 2022b]引入,開始發揮作用。

結論

在本文中,我們提供了一個結構化且具有前瞻性的圖簡化綜述。我們首先建立了圖簡化的正式定義,然后開發了一個詳細的層次分類法,系統地組織了這一領域內的多樣化方法論。我們的綜述將圖簡化技術劃分為三個主要類別:稀疏化、粗化和凝聚。每個類別代表了一種獨特的方法來減少圖復雜性,同時保留關鍵屬性。在每個類別中,我們系統地深入探討了突出方法的技術細節,并突出顯示了它們在各種現實世界場景中的實際應用。此外,我們闡明了該領域內存在的挑戰,并指出了未來研究努力的潛在方向。我們的目標是激勵和指導即將進行的研究,為圖簡化方法論的持續發展和進步做出貢獻。

付費5元查看完整內容

相關內容

去噪擴散模型已經成為各種圖像生成和編輯任務的強大工具,促進了以無條件或輸入條件方式合成視覺內容。它們背后的核心思想是學習逆轉逐漸向圖像添加噪聲的過程,使它們能夠從復雜分布中生成高質量樣本。在這篇綜述中,我們提供了一個關于使用擴散模型進行圖像編輯的現有方法的詳盡概述,涵蓋了該領域的理論和實踐方面。我們深入分析并從多個角度對這些工作進行了分類,包括學習策略、用戶輸入條件和可以完成的特定編輯任務的范圍。此外,我們特別關注圖像修復和擴展,并探索了早期的傳統上下文驅動方法和當前的多模態條件方法,提供了它們方法論的全面分析。為了進一步評估文本引導的圖像編輯算法的性能,我們提出了一個系統的基準,EditEval,特色是一個創新的指標,LMM分數。最后,我們討論了當前的局限性,并設想了未來研究的一些潛在方向。伴隨的倉庫發布在 //github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods。

在人工智能生成內容(AIGC)的領域中,利用人工智能來創建和修改數字內容,圖像編輯被認為是創新和實際應用的重要領域。與從最小輸入創建新圖像的圖像生成不同,圖像編輯涉及更改圖像的外觀、結構或內容,包括從微妙的調整到重大變革的一系列更改。這項研究在數字媒體、廣告和科學研究等各個領域都至關重要,其中改變視覺內容是必需的。圖像編輯的演變反映了數字技術的進步,從手工、勞動密集型過程發展到由基于學習的算法驅動的高級數字技術。在這一演進中的一個關鍵進步是生成對抗網絡(GANs)[1]-[6]的引入,顯著增強了創造性圖像操作的可能性。

最近,擴散模型在AIGC[1],[7]-[15]中嶄露頭角,帶來了視覺生成任務的顯著突破。擴散模型,受到非平衡熱力學[15]原理的啟發,通過逐漸向數據添加噪聲,然后學習逆轉這一過程,從隨機噪聲生成直到產生與源數據分布匹配的所需數據。它們大致可以分為去噪擴散基礎[15]-[18]和分數匹配基礎[19]-[23]。它們的適應性和有效性導致了在各種任務中的廣泛應用,如圖像生成[24]-[38]、視頻生成[39]-[56]、圖像恢復[57]-[71]和圖像編輯。

在圖像編輯中應用擴散模型的興趣激增,近年來在這一領域的研究出版物數量顯著增加為證。這種日益增長的關注突顯了擴散模型在改善圖像編輯性能方面相比于以往工作的潛力和多功能性。鑒于這一顯著進步,系統地回顧和總結這些貢獻是必要的。然而,現有關于擴散模型的綜述文獻集中在其他特定視覺任務上[72]-[75],如視頻應用[73]或圖像恢復與增強[74],[75]。一些提到圖像編輯的綜述往往只提供了一個粗略的概述[76]-[83],缺少對方法的詳細和專注探索。

為了填補這一空缺,我們進行了一項綜述,提供了一項專注于圖像編輯的深入和全面分析。我們深入研究了這一領域擴散模型所實現的方法論、輸入條件和廣泛的編輯任務。該綜述批判性地回顧了超過100篇研究論文,根據學習策略將它們組織成三個主要類別:基于訓練的方法、測試時微調方法和無需訓練和微調的方法。每個類別根據其核心技術進一步劃分,分別在第4、5和6節中進行了詳細討論。我們還探索了這些方法中使用的10種不同類型的輸入條件,包括文本、遮罩、參考(Ref.)圖像、類別、布局、姿態、草圖、分割(Seg.)圖、音頻和拖動點,以展示擴散模型在多樣化圖像編輯場景中的適應性。此外,我們的綜述提出了一種新的圖像編輯任務分類,將其劃分為三大類:語義編輯、風格編輯和結構編輯,涵蓋了12種特定類型。圖1直觀地表示了研究在學習策略、輸入條件和編輯任務類別之間的統計分布。另外,我們特別關注了修復和外擴,這兩者共同構成了一種獨特的編輯類型。我們探索了早期的傳統和當前的多模態條件方法,第7節提供了它們方法論的全面分析。我們還介紹了EditEval,這是一個旨在評估文本引導的圖像編輯算法的基準,詳細內容在第8節。特別地,我們通過利用大型多模態模型(LMMs)的先進視覺-語言理解能力,提出了一個有效的評估指標,LMM分數。最后,我們在第9節中展示了一些當前的挑戰和潛在的未來趨勢作為展望。 總之,這項綜述旨在系統地分類和批判性地評估基于擴散模型的圖像編輯研究的廣泛文獻。我們的目標是提供一個全面的資源,不僅綜合了當前的發現,而且還指導了這一快速進步領域的未來研究方向。

除了擴散模型在圖像生成、恢復和增強方面取得的重大進展之外,它們在圖像編輯方面也取得了顯著的突破,與之前占主導地位的GANs相比,提供了更強的可控性。與從零開始創建新圖像的圖像生成不同,以及旨在修復和提高降級圖像質量的圖像恢復和增強,圖像編輯涉及修改現有圖像的外觀、結構或內容,包括添加對象、替換背景和改變紋理等任務。

在這項綜述中,我們根據它們的學習策略將圖像編輯論文組織成三個主要群體:基于訓練的方法、測試時微調方法和無需訓練和微調的方法,分別在第4、5和6節中詳細闡述。此外,我們探索了這些方法用來控制編輯過程的10種類型的輸入條件,包括文本、遮罩、參考(Ref.)圖像、類別、布局、姿勢、草圖、分割(Seg.)圖、音頻和拖動點。此外,我們研究了這些方法可以完成的12種最常見的編輯類型,這些類型被組織成以下三大類。

  • 語義編輯:這一類別包括對圖像內容和敘述的修改,影響所描繪場景的故事、背景或主題元素。該類別內的任務包括對象添加(Obj. Add.)、對象移除(Obj. Remo.)、對象替換(Obj. Repl.)、背景更改(Bg. Chg.)和情感表達修改(Emo. Expr. Mod.)。

  • 風格編輯:這一類別專注于增強或轉換圖像的視覺風格和美學元素,而不改變其敘述內容。該類別內的任務包括顏色更改(Color Chg.)、紋理更改(Text. Chg.)和整體風格更改(Style Chg.),涵蓋藝術和現實風格。

  • 結構編輯:這一類別涉及圖像內元素的空間布局、位置、視點和特性的更改,強調場景內對象的組織和呈現。該類別內的任務包括對象移動(Obj. Move.)、對象大小和形狀更改(Obj. Size. Chg.)、對象動作和姿勢更改(Obj. Act. Chg.)和透視/視點更改(Persp./View. Chg.)。

表1全面總結了對調研論文的多角度分類,提供了快速搜索。

在基于擴散模型的圖像編輯領域中,基于訓練的方法已經獲得了顯著的突出地位。這些方法不僅因其穩定訓練擴散模型和有效建模數據分布而著稱,也因其在多種編輯任務中的可靠性能而備受關注。為了徹底檢查這些方法,我們根據它們的應用范圍、訓練所需的條件以及監督類型,將它們分類為四個主要組,如圖2所示。進一步地,在每個主要組內,我們根據它們的核心編輯方法將這些方法分類為不同的類型。這一分類展示了這些方法的范圍,從針對特定領域的應用到更廣泛的開放世界用途。

在圖像生成和編輯中,測試時微調代表了向精確度和控制性邁進的重要一步。本節探討了各種微調策略(見圖5),這些策略增強了圖像編輯的能力。如圖6所示,這些方法范圍從微調整個去噪模型到專注于特定層或嵌入。我們研究了微調整個模型、針對特定參數和優化基于文本的嵌入的方法。此外,我們討論了超網絡的集成和直接圖像表示優化。這些方法共同展示了微調技術在圖像編輯中的不斷復雜化和有效性,滿足了廣泛的編輯需求和用戶意圖。

在圖像編輯領域中,無需訓練和微調的方法起始于它們快速且低成本的前提——因為在整個編輯過程中,它們不需要任何形式的訓練(針對數據集)或微調(針對源圖像)。本節根據它們所修改的內容,將這些方法分為五個類別,如圖7和8所示。它們巧妙地利用擴散模型內在的原則來實現它們的編輯目標。

結論

我們已經全面概述了基于擴散模型的圖像編輯方法,從多個角度檢查了這一領域。我們的分析首先根據它們的學習策略,將超過100種方法分類為三個主要群體:基于訓練的、測試時微調的,以及無需訓練和微調的方法。然后,我們將圖像編輯任務分類為三個不同的類別:語義編輯、風格編輯和結構編輯,總共包含12種特定類型。我們探索了這些方法及其對提高編輯性能的貢獻。我們的圖像編輯基準EditEval中對7個任務及最近的最先進方法進行了評估。此外,引入了一種新的度量LMM分數,用于這些方法的比較分析。總結我們的綜述,我們強調了圖像編輯領域內的廣泛潛力,并建議了未來研究的方向。

付費5元查看完整內容

近來,持續圖學習在非靜態環境下處理多樣的圖結構數據任務中被越來越多地采用。盡管其學習能力充滿希望,當前關于持續圖學習的研究主要集中在緩解災難性遺忘問題,而忽視了持續性能改進。為了彌補這一差距,本文旨在提供一個關于持續圖學習最近努力的全面綜述。具體而言,我們從克服災難性遺忘的角度引入了一個新的持續圖學習分類法。此外,我們系統地分析了在持續提高性能中應用這些持續圖學習方法的挑戰,然后討論可能的解決方案。最后,我們提出了與持續圖學習發展相關的開放問題和未來方向,并討論它們如何影響持續性能改進。隨著深度學習在生活各領域的成功應用,社區開始渴望更強大的通用人工智能。盡管具有前景的潛力,基于神經網絡的持續學習面臨著一個嚴重的遺忘問題:在新任務上的學習通常會導致舊任務上性能的急劇下降,這被稱為災難性遺忘(CF)[95]。持續學習(CL)[46, 122] 被認為是克服這一挑戰的有希望的方式。CL 被視為智能代理逐步獲取、更新、積累并利用知識以持續改善其在任務上性能的學習能力[46]。為了緩解災難性遺忘問題,已經提出了許多CL策略,包括重放方法、正則化方法和參數隔離方法[27]。這些策略在智能代理的可塑性和穩定性之間尋找平衡,并減輕了災難性遺忘的問題。然而,當前的CL僅考慮單個數據樣本,并忽略了它們之間普遍存在的聯系。此外,克服CF僅代表著實現持續性能改進(CPI)的一條必不可少的路徑,而不是CL的終點。圖,也稱為網絡,是一種描述和分析具有交互作用實體的通用數據表示。圖已被廣泛采用于模擬不同應用中不同類型的關系,從生物分子到社會網絡。一方面,許多數據自然以圖的形式存在,如引文網絡、社交網絡和交易網絡。另一方面,即使那些看似未連接的數據也可以人為地構建成圖,如文本中的依賴圖、圖像中的特征圖和代碼中的調用圖。最近,圖學習已成為AI和機器學習中一個有前景的領域,由于其在學習實體間錯綜復雜的關系及相應的網絡結構方面的優勢。

然而,圖學習也受到了災難性遺忘現象的困擾。將持續學習與圖學習整合顯然也是緩解災難性遺忘的流行解決方案。持續圖學習(CGL)的整合稱為持續圖學習。盡管CGL具有潛力,但由于歐幾里得數據與圖之間的結構差異,一般CL與CGL之間存在顯著或復雜的差異,包括模型、任務設置和方法。此外,CL和CGL主要關注克服災難性遺忘,而忽視了持續性能改進。盡管關于CGL的研究數量在增加,但關于CGL的綜述很少。為了彌補這一差距,本文旨在提供一個關于CGL研究努力的全面綜述,特別是討論CGL方法如何實現持續性能改進。本綜述與現有綜述的不同之處。由于CGL與持續學習和圖學習高度相關,兩個領域都有許多綜述。表1將相關綜述歸類為CL、圖學習和CGL。特別是,關于持續學習的綜述大多關注(i)特定領域,如自然語言處理(NLP)[11]、計算機視覺(CV)[97]、機器人學[71]和自主系統[109];(ii)特定任務,如分類[27, 88];以及(iii)模型,如神經網絡[8, 46, 93]。然而,它們都只從孤立的角度而非綜合角度考慮數據。此外,它們過分強調緩解災難性遺忘,而忽視了持續性能改進,這是持續學習的最終目標。關于圖學習的綜述主要關注特定技術,包括圖表示學習[12, 24, 43, 48, 49]、圖神經網絡[138, 170]和圖深度學習[9, 41, 164]。此外,這些研究大多數通常考慮樣本級別的連接數據,而忽略了特征級別和任務級別的連接。另外,它們只關注靜態圖而忽略了在動態圖上的持續學習。盡管有幾項綜述考慮了圖的動態性質,包括動態圖學習[171]、動態圖表示學習[10, 62, 145]和動態圖神經網絡[116],它們主要考慮模型是否適應新數據,而忽略了災難性遺忘問題,從而完全排除了CL。據我們所知,只有兩篇綜述全面整合了持續學習和圖學習。特別是,[35] 回顧了CGL的研究進展、潛在應用和挑戰,而 [154] 則分類了克服CGL中災難性遺忘的方法。盡管它們明確考慮了持續學習中數據之間的聯系并專注于CGL,但它們沒有構建一個全面的視角,并且未能徹底闡述CL和CGL之間的關系和差異。此外,它們主要關注緩解災難性遺忘,而忽略了持續性能改進。

貢獻。本綜述總結了CGL領域的最新研究,并討論了當前方法是否以及如何實現持續性能改進。具體來說,我們的主要貢獻如下所述:

  • 一個新的分類法:我們提供了一個新的分類法來總結克服CGL中災難性遺忘的方法。具體來說,從如何實現持續性能改進的角度引入了四個組別(見圖1)。
  • 一個全面的綜述:對于每一類方法,我們討論了克服災難性遺忘的動機和主要挑戰。此外,我們進一步討論了當前方法如何實現持續性能改進。據我們所知,這是第一次對持續性能改進進行探討。
  • 未來方向:專注于持續性能改進,我們進一步提出了一些與持續圖學習相關的開放問題,并討論了它們如何影響持續性能改進以及相應的未來方向。

圖1展示了本文的組織結構。第2節介紹了CL和圖學習的基礎知識。第3節提出了CGL的概述,包括形式化、動機以及克服災難性遺忘的CGL方法的新分類法。具體來說,它從特定維度比較了與CGL相關的領域。第4至第7節根據提出的分類法總結了CGL的最近進展。在每一個類別中,都調查了主要挑戰及其相應的解決方案。此外,還從知識增強和優化控制的角度討論了這些方法如何實現持續性能改進。第8節總結了現有CLG研究中使用的實際應用和數據集。此后,第9節討論了開放問題和未來方向。最后,第10節總結了本文。

持續圖學習分類法持續圖學習本質上是持續學習的一個子領域,因此,持續圖學習的目標與常規持續學習相同:通過增量學習實現模型的持續性能改進。然而,由于圖中節點之間的相互依賴性,持續圖學習在方法上比常規持續學習更為復雜和多樣化。因此,我們提出了當前持續圖學習方法的一個新分類法,該分類法分為四個類別:基于重放的方法、基于正則化的方法、基于架構的方法和基于表示的方法,如圖3所示。所提出的分類法主要關注那些明確聲稱能夠克服災難性遺忘的方法,因為當前的工作很少涉及持續性能改進。然而,我們從知識的角度討論了災難性遺忘的根本原因和持續性能改進的關鍵,并進一步討論這些方法是否以及如何實現持續性能改進。從知識的角度看,災難性遺忘的根本原因是新知識對現有知識的覆蓋。假設某一時期的知識是有限的,并且可以在持續學習的設置中學到,那么持續學習的目標就是學習所有知識并在特定任務上實現持續性能改進。基于這種考慮,持續性能改進等同于持續獲取新知識或對現有知識的補充。這通常可以通過兩種方式實現:知識增強和優化控制。知識增強指的是后續任務的知識可以增強先前任務的知識。例如,人們在低年級學習四則運算,并使用它們來解決現實世界中的問題。然而,他們不使用變量來代表數字,因此在理解對象之間的數量關系時容易犯錯。在他們高年級學習變量和方程式后,他們將使用變量方程來理解和建模對象之間的數量關系,這給他們犯錯的機會更少。在這個例子中,變量和方程是對基本四則運算的增強。知識增強可以通過學習正樣本或負樣本來實現。優化控制指的是控制學習過程。如果學習過程可以用完成度來量化,完全學習肯定優于不完全學習。類比地,那些在課堂上認真聽講并完成所有作業的學生通常會比那些在課堂上分心并留下空白作業的學生表現得更好。在本文中,我們遵循上述考慮來討論和分析當前持續圖學習方法是否以及如何實現持續性能改進。

基于重放的方法利用從先前任務中學到的知識,與當前數據一起進行聯合訓練,以避免在學習新任務時發生災難性遺忘。基于重放方法的關鍵是獲取從先前任務中學到的知識,這通常通過抽樣或生成模型來獲得。圖4總結了基于重放的方法。

基于正則化的方法通過顯式考慮拓撲結構并向損失函數添加相應的正則化項來平衡舊任務和新任務的學習,以此來規范梯度方向,從而限制對先前任務至關重要的參數的劇烈變化,以克服災難性遺忘。正則化項通常有兩種方式:約束和蒸餾。圖5總結了基于正則化的方法。

基于架構的方法通過特定架構為任務分配任務特定的參數或網絡(部分共享或不共享),以避免任務之間的干擾。這些架構可以是固定的或動態的,如圖6所示。

由于節點之間的相互依賴性以及任務間邊緣的存在,新的增量圖將會影響先前的圖,而且先前任務的知識也可以傳遞給后續任務。這種知識難以顯式地納入持續圖學習,但可以隱式地編碼在節點嵌入中,我們將此稱為基于表示的方法。其基本原理是,現有的節點嵌入已經包含了下游任務所需的所有必要信息,而通過這種方法獲得的嵌入等同于弱化的聯合訓練。一般來說,基于表示的方法可以總結為分離和傳輸,如圖7所示。

結論 由于圖在現實世界中的普遍存在和動態性質,由圖神經網絡(GNNs)代表的圖模型已在各個領域得到廣泛應用。持續圖學習是一種新興的學習范式,旨在持續學習設置中進行圖學習任務,并實現持續性能改進。在這篇綜述中,我們提供了對持續圖學習近期研究的全面回顧。我們提出了一種新的分類法,用于總結克服災難性遺忘的持續圖學習方法。此外,對于每個類別,我們簡要闡明了關鍵問題,詳細描述了當前研究中的相應實踐,并討論了實現持續性能改進的可能解決方案。進一步地,我們還提出了一些與持續性能改進相關的開放問題,并建議了相應的有前景的研究方向。我們希望這篇綜述能幫助讀者理解持續圖學習的最近進展,并對這個有前景的領域的未來發展提供一些啟示。

付費5元查看完整內容

時間序列數據存在于現實世界系統和服務的每個角落,范圍從天空中的衛星到人體上的可穿戴設備。通過提取和推斷這些時間序列中的有價值信息來學習表示,對于理解特定現象的復雜動態和做出明智的決策至關重要。有了學習到的表示,我們可以更有效地進行眾多下游分析。在幾種方法中,深度學習在無需手動特征工程的情況下提取時間序列數據中隱藏的模式和特征方面展示了卓越的性能。這篇綜述首先基于三個基本元素提出了一個新穎的分類法,這三個元素用于設計最先進的通用時間序列表示學習方法。根據提出的分類法,我們全面回顧了現有研究,并討論了這些方法如何提高學習表示質量的直覺和洞察。最后,作為未來研究的指南,我們總結了常用的實驗設置和數據集,并討論了幾個有前景的研究方向。最新的對應資源可在 //github.com/itouchz/awesome-deep-time-series-representations 獲取。

1.1 背景

時間序列是按時間順序記錄的數據點序列,反映了特定變量或現象隨時間的復雜動態。時間序列數據可以在不同時間點代表各種應用領域的有意義信息,使得做出明智的決策和預測成為可能,例如物聯網中的傳感器讀數[1, 2]、網絡物理系統中的測量[3, 4]、股票市場的波動[5, 6]以及可穿戴設備上的人類活動[7, 8]。然而,要從這些復雜的觀測中提取和理解有意義的信息,我們需要一種表示這些時間序列的機制,這導致了時間序列表示研究的出現。基于新的表示,我們可以有效地進行各種下游時間序列分析[9],例如預測[10]、分類[11]、回歸[12]和異常檢測[13]。圖1描繪了時間序列數據表示方法的基本概念。早期的嘗試[14]使用分段線性方法(例如,分段聚合近似)、基于符號的方法(例如,符號聚合近似)、基于特征的方法(例如,形狀片段)或基于變換的方法(例如,離散小波變換)來表示時間序列。這些傳統的時間序列表示方法因依賴領域知識和預定義先驗的通用性差而被認為是耗時且效率較低的。由于表示的質量顯著影響下游任務的性能,許多研究提出自動學習有意義的時間序列表示[15-17]。這些研究的主要目標是獲得高質量的時間序列學習表示,捕獲數據中的有價值信息并揭示相應系統或現象的潛在動態。在幾種方法中,神經網絡或深度學習(DL)在從廣泛數據中提取隱藏的模式和特征方面展現了前所未有的性能,包括時間序列,且不需要手動特征工程。

鑒于時間序列的序貫性質,循環神經網絡(RNN)及其變體,如長短時記憶和門控循環單元,被認為是捕獲時間序列中時間依賴性的熱門選擇[18, 19]。然而,基于循環的網絡復雜且計算成本高。另一方面的工作采用一維卷積神經網絡(CNN)來提高計算效率,利用卷積操作的并行處理[20]。盡管基于RNN和CNN的模型在捕獲時間依賴性方面表現良好,但它們無法顯式地模擬多變量時間序列中不同變量之間的關系。許多研究提出使用基于注意力的網絡或圖神經網絡,通過注意力機制或圖結構來共同學習每個變量中的時間依賴性以及多變量時間序列中不同變量之間的相關性[21, 22]。盡管在架構設計方面取得了顯著進展,但在現實世界場景中,時間序列可能會不規則地收集或由于傳感器故障導致缺失值,使得常用的神經網絡由于插補過程中的不利副作用而變得低效。因此,最近的研究將神經常微分方程集成到現有網絡中,使模型能夠產生連續的隱藏狀態,從而對不規則時間序列具有魯棒性[23, 24]。

此外,基于深度學習(DL)的方法的可靠性和有效性通常取決于充足的、標注良好的數據的可用性,這通常被稱為監督學習。然而,時間序列數據本質上是連續值的,含有高水平的噪聲,且其視覺模式不那么直觀易辨。與圖像或文本中人類可識別的模式不同,時間序列數據在現實世界設置中的語義意義在應用領域間可能不一致。因此,獲得一個標注良好的時間序列不可避免地效率低下,即使對于領域專家來說也更具挑戰性,因為它們從不同頻率的多種傳感器或可穿戴設備收集的時間演化觀測動態復雜。例如,我們可以從智能工廠收集大量傳感器信號,而其中只有少數可以由領域專家標注。為了避免繁瑣的標注過程和減少對標記實例的依賴,對無監督和自監著學習方法的興趣日益增長,這些方法使用從各種前置任務中自生成的標簽,而不依賴于人類標注[25-28]。雖然無監督和自監著表示學習都旨在從復雜的原始時間序列中提取潛在表示,而不依賴于人類標注的標簽,但它們的基本機制不同。無監督學習方法[28]通常采用自動編碼器和序列到序列模型,通過基于重構的學習目標來學習有意義的表示。然而,準確地重構復雜的時間序列數據仍然具有挑戰性,尤其是對于高頻信號。相反,自監著學習方法[26]利用前置任務,通過利用未標注數據中提取的內在信息,自主生成標簽。最近,提出了帶有對比損失的前置任務(也稱為對比學習),通過自生成的監督信號進行區分性的預訓練,以提高學習效率。對比學習的目標是在特征空間中使相似樣本更接近,同時將不相似樣本推遠。這些前置任務是模型從未標注數據中學習解決的自生成挑戰,因此能夠為多個下游任務產生有意義的表示[29]。

為了進一步提高表示質量并減輕在特定設置中訓練樣本有限的影響,例如在收集足夠大數據量受限的情況下(例如,與人相關的服務),一些研究還采用了數據相關技術,例如增強[30]和轉換[31],在現有學習方法之上。相應地,我們可以有效地增加訓練數據的規模并提高其質量。這些技術在生成前置任務時也被認為是必不可少的。與其他數據類型不同,處理時間序列數據需要考慮其獨特的屬性,例如時間依賴性和多尺度關系[32]。本文旨在識別設計最先進的時間序列表示學習方法中的關鍵元素,以及這些元素如何影響學習到的表示的質量。據我們所知,這是第一篇關于通用時間序列表示學習的綜述。我們提出了一種新穎的分類法,用于從新穎性角度學習時間序列的通用表示——即論文的主要貢獻集中在上述哪些設計元素上——以總結選定的研究。表2總結并比較了基于所提分類法的審閱文章。從神經架構的角度來看,我們總結了用于表示學習的神經架構在模塊層面和網絡層面上的變化。從學習角度來看,我們分類了用于使學習到的表示能夠泛化到各種下游任務的目標。最后,我們還對特別關注提高訓練數據質量的論文進行了數據中心的方法分類。

總的來說,我們的主要貢獻如下

  • 我們基于一種新穎且最新的分類法,對通用時間序列表示學習進行了廣泛的文獻綜述,將審閱的方法歸類為三個主要類別:神經架構、學習為重點和數據中心方法。
  • 我們提供了一個關于實驗設置和評估時間序列表示學習方法的基準數據集的指南。
  • 我們討論了幾個開放的研究挑戰和新見解,以促進未來的工作。

第2節介紹了時間序列表示學習的定義和具體背景知識。在第3節中,我們全面回顧了關注神經架構方面的方法。然后,在第4節中,我們討論了關注推導新學習目標的方法。第5節對數據中心方法進行了回顧。此外,我們在第6節和第7節分別討論了時間序列表示學習的評估協議和有前途的未來研究方向。最后,第8節總結了這篇綜述。

結論

本文介紹了一項通用時間序列表示學習研究及其對下游時間序列分析的重要性。我們提供了一份全面且最新的關于時間序列通用表示學習的文獻綜述,通過從設計角度對最近的進展進行分類。我們的主要目標是回答每個基本設計元素——神經架構、學習目標和訓練數據——在最先進的時間序列表示學習方法中如何貢獻于學習表示質量的提升,從而形成一個具有十五個子類別的新型結構化分類法。盡管大多數最先進的研究在其方法中考慮了所有設計元素,但只有一個或兩個元素是新提出的。根據對選定研究的當前綜述,我們發現數據中心方法中的分解和轉換方法以及樣本選擇技術仍然未被充分探索。此外,我們提供了關于標準實驗設置和特定下游任務廣泛使用的時間序列數據集的實用指南,并討論了與時間序列表示學習相關的各種開放挑戰和未來研究方向。最終,我們希望這篇綜述能成為對時間序列通用表示學習方法有多方面理解興趣的從業者和研究人員的寶貴資源。

付費5元查看完整內容

鑒于深度神經網絡(DNNs)的復雜性和不透明性,人們已經做出了廣泛努力,使這些系統更易于解釋或用易于理解的術語解釋它們的行為。與大多數專注于算法和以模型為中心的視角的綜述不同,本工作采取了“以數據為中心”的視角,考察了數據收集、處理和分析如何促進可解釋人工智能(XAI)我們將現有工作分類為三個目的類別深度模型的解釋,涉及特征歸因和將數據點與模型輸出相關聯的推理過程;訓練數據的影響,檢查訓練數據細微差別(如數據價值和樣本異常)對決策過程的影響;以及領域知識的洞察,從數據和模型中發現潛在模式,培養新知識,以推進社會價值和科學發現。具體來說,我們將XAI方法提煉為對訓練和測試數據的數據挖掘操作,這些數據跨越不同的模態,如圖像、文本和表格數據,以及對訓練日志、檢查點、模型和其他DNN行為描述符的操作。通過這種方式,我們的研究從數據挖掘方法和應用的角度,對XAI進行了全面的、以數據為中心的審視。

//www.zhuanzhi.ai/paper/6960f37082a968c932aec73e1160f875

**1 引言 **

隨著人工智能(AI)的發展,傳統的決策技術,如感知器[1]、基于規則的系統[2]、基于案例的推理[3]和專家系統[4],已讓位于更復雜的深度神經網絡(DNNs)[5]。這些早期技術是基于人類決策過程,從基于規則的推理[6]到基于委員會的預測[7]。存儲和計算能力的激增催化了向DNNs的演變,盡管它們在視覺識別和語言建模等任務上表現出色[5],但在可解釋性方面面臨挑戰[8]。

DNNs的“黑箱”本質以及其廣泛的參數化妨礙了自動駕駛和醫療等關鍵應用中所需的透明度,引發了人們對這些模型在高風險環境中可靠性的擔憂[9]、[10]、[11]。因此,可解釋人工智能(XAI)已成為一個關鍵領域,提出了諸如LIME[12]等解決方案來改善機器學習的可解釋性1,可能增加對AI系統的信任[13]。這些XAI技術不僅努力實現模型透明度,還為數據集增加了附加價值,幫助完成諸如調試[14]和定位誤標記樣本[15]等任務,豐富了對數據集及其各自領域的理解[16]、[11]。在這項研究中,我們通過對現有文獻的全面審查,通過我們的兩個獨特觀察、三個目的和四階段XAI技術數據處理的角度進行分組和分析。 我們的第一個觀察重點關注XAI技術演變和應用背后的驅動力。在對當前文獻進行廣泛審查后,我們將主要目的概括為三個核心類別:1)深度模型的解釋:盡管深度學習模型具有高度的預測能力,但它們的“黑箱”本質限制了可解釋性[12]、[17]。XAI旨在通過闡明這些模型在每個實例基礎上的預測理由,從而促進透明度和信任[8]、[18]。2)訓練數據的影響:機器學習模型的性能取決于訓練數據的分布和質量[19]、[20]。XAI技術可以準確地指出對模型輸出產生重大影響的數據點,促進改進的訓練過程和模型簡化[21]、[22]。3)領域知識的洞察:XAI還揭示了模型和數據中特定于領域的知識,提供了在這些領域內人類理解的潛在進步,并在醫療保健和金融等高風險應用中提供寶貴的洞察[23]、[24]。 如圖1所示,XAI作為人類理解和機器學習模型復雜性之間差距的橋梁,提高了AI應用的信心[25]、[26]。

我們還發現,XAI方法遵循類似于傳統數據挖掘的結構化過程[27]、[28]、[29],將數據、算法和以人為中心的分析整合起來。以下列出了四個關鍵步驟。 1)數據獲取與收集:XAI將數據收集擴展到超越數據集,涵蓋了深度學習的生命周期,如訓練數據集、訓練日志和檢查點、測試樣本等。 2)數據準備與轉換:從模型、數據和訓練日志中提取和轉換DNNs的行為描述符,包括顯著性地圖、訓練損失曲線和輸入/損失梯度向量(也請參見表1),以便后續解釋[30]、[31]、[15]。 3)數據建模與分析:挖掘DNN行為描述符以模擬DNN決策、訓練數據貢獻和數據集模式,從而導致三種類型的分析目的:解釋、影響和洞察[11]。 4)結果報告與可視化:XAI努力的高潮是通過適當的報告和可視化來呈現發現,這取決于數據模態,例如將顯著性地圖疊加在圖像上[32]、[33],突出顯示關鍵視覺特征。

通過這些步驟,XAI增強了AI框架中的可解釋性、信任,甚至是知識與理解,促進了人類與AI的更好協同。 我們的調查采用了以數據為中心的視角來審查XAI,通過結合三個目的和四階段數據挖掘過程來分類組織技術。這項研究的貢獻包括: ? 從數據挖掘的角度對XAI范式進行技術回顧,重點關注解釋過程中的數據相關實踐[34]。這項工作開創了對XAI進行新框架系統審查的先河。 ? 引入了一個新的分類系統,圍繞XAI的三重目的和數據挖掘的四個不同階段,對當前XAI方法進行分類和闡述。 ? 對XAI未來發展的前瞻性討論,強調其揭示數據內在深層洞察的能力,這對像AI驅動的科學和醫學等領域有重要意義。

將XAI研究納入這一分類提供了一個結構化的敘述,豐富了對XAI趨勢和潛力的精確理解。 關于XAI的新興研究已在幾項調查中得到審查,突出了解釋深度模型的挑戰和重要性。Doshi-Velez和Kim[8]強調了評估XAI技術的必要性,而Carvalho等人[9]提供了一項廣泛的可解釋性方法研究,涵蓋了模型不可知和模型特定的方法。Hammoudeh和Lowd[174]將重點轉移到了訓練數據的影響上。Mohseni等人提供了一項評估XAI系統的調查和框架[175]。Marcinkeviˇcs和Vogt[16]以及Notovich等人[176]對實用XAI方法進行了擴展,提供了應用示例和技術分類。Preuer等人[177]在藥物發現中探討了領域特定的應用,而Tjoa和Guan[30]則在醫學成像中進行了探討。

與上述工作相比,我們的調查(圖2中顯示的簡要結果)通過從數據挖掘的角度探索XAI的三重角色來彌補XAI文獻中的差距:(1)解釋模型的行為以理解其決策;(2)估算數據的影響,以評估和識別關鍵樣本;(3)從模型和數據中提煉洞察,以獲得推動社會價值和科學發現的新理解。

解釋:深度模型的特征歸因和推理過程

解釋深度模型包括使用特征歸因來評估每個輸入對模型輸出的影響,并檢查推理過程以理解模型內部的決策路徑。

影響:訓練樣本的數據價值和異常檢測

通過衡量訓練樣本對決策過程的影響來解釋深度模型對于理解和驗證這些模型的輸出至關重要。這一過程通常涉及多種技術,這些技術將單個訓練樣本與模型所做決策之間的相關性映射出來[221]、[174]。在本節中,我們將現有工作分類為以下三個方向。

洞察:從數據中發現模式和知識

XAI算法有助于提取人類可讀的洞察,部分原因是它們能夠識別和解釋復雜的多維或多模態數據中的模式、相關性和異常。已經做了兩組努力:一組關注社會價值,另一組專注于科學發現的進步。 結論

本文通過數據挖掘的視角,系統地回顧了可解釋人工智能(XAI)的作用,涵蓋了三個關鍵的主題領域: ? 解釋模型行為:本綜述強調了揭示深度神經網絡(DNNs)的決策過程的必要性,從特征歸因和推理邏輯的角度出發,旨在增加AI系統的透明度和信任。 ?** 評估數據影響**:本綜述關注單個數據樣本如何塑造模型的決策和泛化性能,強調對學習的重要貢獻者,并檢測可能導致結果偏斜的任何數據異常。 ? 提煉可行洞察:超越提供解釋,本綜述尋求發現與社會價值一致并促進科學創新的新洞察,將XAI技術的知識引向實際應用。

總之,本研究對上述三個目的的XAI方法進行了全面分析,突出了當前的能力、實際用途,并識別了需要改進的領域。這一分析為進一步的研究奠定了基礎,這些研究努力將XAI更深入地整合到數據挖掘實踐中,并培育一個更透明、可靠、以用戶為中心的人工智能環境。

付費5元查看完整內容

現代人工智能為產生不同風格的數字藝術提供了一種新穎的方式。神經網絡的表達能力使得視覺風格轉移方法成為可能,這些方法可以用來編輯圖像、視頻和3D數據,使它們更具藝術性和多樣性。本文報道了3D數據神經風格化的最新進展。我們提供了一種神經風格化的分類法,考慮了幾個重要的設計選擇,包括場景表示、指導數據、優化策略和輸出風格。基于這種分類法,我們的綜述首先回顧了2D圖像神經風格化的背景,然后對3D數據的最新神經風格化方法進行了深入討論,并提供了一個關于藝術風格化方法的小型基準測試。基于綜述中獲得的洞見,我們接著討論了開放性挑戰、未來研究,以及神經風格化的潛在應用和影響。

//www.zhuanzhi.ai/paper/d5ea0c58d303f46ebcf7e8cc629aa08c

數字藝術和視覺設計在我們的日常生活空間中盛行,表達了視覺上引人入勝的美學、獨特的品味和人類的情感。隨著計算硬件的最新進展,使用計算工具或算法創作高質量的數字藝術越來越受到公眾關注。人工智能(AI)技術的出現進一步推動了這一計算設計過程,并顯示出加速或自動化創作數字藝術的強大潛力。最近出現的視覺合成和編輯AI產品,如LUMA AI [Lum23]、DALL·E 3 [Ope23]、Midjourney [Mid23] 和 RunwayML [Run23] 已成功展示了它們加速高質量視覺設計和生成的能力。

本報告深入探討了利用AI創作3D數字藝術的最新進展,特別是通過風格化。一個典型的3D場景風格化涉及編輯場景幾何和/或外觀以匹配某些指定的藝術風格。風格化可以通過現代深度學習中的神經網絡實現,因此稱為神經風格化。放在傳統計算機圖形管線的背景下,3D神經風格化可以被視為傳統渲染管線的替代品,使用可編程著色器用于風格化的后處理。因此,3D神經風格化有助于減少在風格化3D場景中的勞動密集型手工工作,包括3D建模、紋理化、渲染或模擬。3D神經風格化因此對于各種工業應用具有實際價值,包括電影制作中的3D紋理設計和藝術模擬 [NR21,KAOT23,HHK?23],混合現實體驗 [THC?22, Tan19](圖2),逼真的視覺特效(VFX)和虛擬制作 [Man23],藝術品創作 [GC22] 以及視頻游戲開發 [OBW22,MLS?22]。從2D神經風格化擴展到3D,使用傳統3D表示和渲染進行的3D神經風格化通常面臨視角一致性和逼真渲染問題。多虧了神經渲染技術的進步,對于不同3D表示(包括網格、體積、點云和神經場)的3D神經風格化取得了高質量結果的顯著改進。它也適用于各種3D場景,從小型物體場景到大型野外場景,甚至應用于工業生產 [HHK?23]。

在本報告中,我們涵蓋了3D神經風格化領域的風格化基礎、最新進展、現有挑戰和未來研究方向。我們從神經風格化的基本技術(第2節)開始,包括2D視覺風格轉移算法和3D神經渲染。在第3節中,我們介紹了神經風格化的分類法,并為3D神經風格化的最新技術提供了分類。使用這種分類法,我們深入討論了先進的3D神經風格化方法,并提出了我們對3D風格化最近困難的分析。在第4節中,我們總結了3D風格化評估中常用的數據集。我們還提供了一個小型基準測試,作為評估最新3D風格化算法性能的標準。最后,在第5節中,我們討論了開放的挑戰和未來的研究方向。我們將隨報告發布我們的評估代碼和其他實施資源。

本報告的范圍專注于應用于3D場景的神經風格轉移。目標是探索基于深度學習的技術和方法,這些技術和方法能夠自動將藝術或逼真風格和語義特征轉移到3D數字世界中。盡管承認專用于風格化的3D訓練數據集的稀缺性和挑戰,本報告旨在突出現成的大型數據模型驅動的圖像引導和文本引導神經風格化的潛力,以實現視覺上吸引人的3D風格化結果。神經風格化基礎在神經風格化的基礎上,視覺風格轉移指的是編輯場景的紋理或顏色以匹配由參考圖像定義的風格,同時保持整體場景結構不變。在這一節中,我們首先提供2D神經風格化的概覽作為基礎。我們重點關注圖像引導和文本引導的風格轉移,因為它們是兩種主要的風格化方法,分別通過一張圖片或一段文字來指示目標風格參考。我們從使用經典特征提取器(如VGG分類器和CLIP編碼器)的簡單方法開始討論基礎知識。我們還根據它們的優化方法對這些2D神經風格轉移技術進行分類。最后,我們簡要介紹神經輻射場的基礎知識,這是一種重要的3D神經表示形式,在第3節中將深入討論3D神經風格化。我們參考了[JYF?19,SJJ?21,ZYW?23]中關于條件圖像合成和風格化的更多討論,以及[TTM?22,XTS?22]中關于場景表示和神經渲染的更多討論。

3D神經風格化

3D神經風格化指的是將神經風格化技術應用于修改現有3D數字表示的視覺外觀和美學特征。這個過程涉及利用神經網絡及相關風格化算法來操縱顏色、紋理、形狀等3D模型的視覺和幾何屬性。3D神經風格化促進了3D數字內容的視覺風格化自動生成,為計算機圖形學領域的創意表達和視覺設計提供了新的途徑。為了將3D表示與新風格融合,需要考慮兩個重要因素:3D幾何保留和風格轉換。與視覺風格轉移類似,我們關注基于圖像和文本的3D神經風格化方法。大多數方法依賴現有的大型預訓練模型(例如VGG和CLIP)進行零樣本特征提取,并且不需要任何額外的3D數據預訓練。與3D數據上的預訓練3D特征提取器相比(例如體素[WSK?15]、網格[MBBV15]、點云[QSMG17, ZJJ?21]),圖像和文本預訓練模型是廣泛可訪問的,它們以多級視覺模式和語義特征提取而聞名。在這一節中,我們首先引入神經風格化的分類法,并給出現有3D神經風格化方法的分類示例。在后續章節中,我們將介紹最先進的3D神經風格化技術,涵蓋了如網格、體積數據、點云和隱式場等多種3D表示,重點關注外觀和/或幾何風格化的轉變。最后,我們將深入總結和分析3D神經風格化的技術。

分類法 我們從2D對應物擴展了3D神經風格化的術語。3D神經風格化方法的分類法如圖9所示,詳細內容如下。

  • 表示形式可以是顯式圖像或隱式2D場,構建的3D資產如網格、體積模擬、多視圖3D重建(如重建的網格),以及隱式3D場。

  • 神經風格特征指的是來自預訓練特征提取器的圖像視覺嵌入或文本語義嵌入,通常是神經分類器。

  • 優化指的是基于優化的(類似于第2.1節)或基于預測的風格化方法(類似于第2.2節),支持單一、多個或任意風格。

  • 風格化類型指的是不同類型的風格化,從從藝術作品中檢索的風格(例如圖1中的梵高星夜雕塑場景),到逼真風格(包括傳統基于顏色的風格轉移和逼真的幾何與外觀變化,例如圖1中的“燃燒的松果”),再到具有風格語義對應的語義風格轉移,使用顯式標簽或掩碼,或隱式文本或視覺語義定位和映射。我們進一步將方法分類為幾何風格化和外觀風格化,其中幾何風格化指的是變換原始形狀以對齊風格參考,如改變頂點、體素的位置,外觀風格化指的是重新著色、圖案和圖騰轉移,如圖像像素、紋理映射、頂點顏色、點顏色和輻射場。 圖10展示了3D神經風格化方法的層次分類。表1詳細突出了基于我們在圖9中提出的分類法標準的選定3D風格化方法的分類和比較。

結論

本最新報告探討了3D神經風格化的進展,特別是針對3D數據的圖像引導和文本引導神經風格化技術。通過對最新3D神經風格化技術及其相應應用的全面綜述,我們強調了神經風格化在加速創造過程、實現風格化的細粒度控制、以及在電影制作、虛擬制作和視頻游戲開發等多個領域增強藝術表達的重要性。此外,我們介紹了神經風格化的分類法,為神經風格化領域的新作品提供了一個分類框架。我們對先進技術的分析和討論強調了持續的研究努力,旨在解決限制并推動3D數字領域神經風格化的邊界。最后,我們提出了一個3D藝術風格化的小型基準測試,我們的目標是為其他3D風格化作品提供靈感和評估標準。

付費5元查看完整內容

對比學習作為一種自監督式的深度學習范式,在計算機視覺、自然語言處理等領域取得了矚目的成績。受 這些成功的對比學習模型的啟發,近年來大量研究者嘗試將其拓展到圖數據上,這為推動圖對比學習的發展提供 了堅實的基礎。該領域現有的綜述主要關注于傳統的圖自監督學習任務,而缺少對圖對比學習方法的梳理和歸 納。為了更好地幫助相關領域的研究者,該文梳理了近些年來的圖對比學習模型,通過將現有工作歸納到一個統 一的框架下,突出其發展脈絡。最后該文總結了圖對比學習常用的數據集和評價指標,并展望了該領域未來的發 展方向。

1 引言

圖數據是一種描述物體和物體之間關聯關系的 抽象數據類型,它廣泛存在于各個領域。例如,在社 交網絡中,用戶和用戶之間的關注關系構成了社交 關系圖;在化學領域,原子和它們之間的化學鍵構成 了化合物分子圖;在物流領域,城市和它們之間的道 路構成了交通路網圖[1-2]。作為實際場景中最常見 的信息載體,圖數據蘊含著豐富信息,因此對圖數據 的分析研究具有重要的價值。能否很好地感知與理 解圖數據,從中挖掘有用的信息,是解決很多實際問 題的關鍵。例如,鏈接預測、節點分類、社區發現、推 薦 系 統、新 藥 發 現 等 都 是 與 圖 數 據 相 關 的 實 際問題[1-2]。 傳統的圖數據分析通常采用監督學習的框架,即 通過人為特征提取或端到端圖深度學習模型將圖數 據作為輸入,經過訓練后,挖掘圖數據中的有效信息, 輸出預測結果[3-4]。雖然這類圖監督學習方法在很多 任務上取得了顯著成功,但仍面臨著以下問題:①依 賴大量的人工標注數據;②由于過擬合導致泛化能 力差以及面向標簽相關的攻擊時模型魯棒性差[5]。 為了解決上述問題,不依賴于人工標注的自監 督學習正在成為圖深度學習的趨勢[1-2,6-7]。其中,對 比學習是一類重要的自監督學習方法,隨著其在計 算機視覺、自然語言處理等領域取得成功[8],如何將 對比學習應用在圖數據上,開始受到研究者的關注。 圖數據比語音、文本、圖像更加復雜,如何設計有效 的圖對比學習模型仍面臨著諸多挑戰。

為了更好地幫助該領域的發展,已有研究者梳 理了近些年來關于圖自監督學習的相關工作,并且 形成綜述[5,7,9-10]。但這些綜述主要關注傳統的圖上 自監督任務,并沒有針對圖對比學習的方法進行詳 細的梳理和分類。本文主要關注圖對比學習模型, 收集整理了近些年圖對比學習的工作。同時本文在 統一的框架下對比現有的方法,突出現有工作的異 同點及其發展脈絡,從而幫助研究者更好地梳理現 有工作,期望能激發對圖對比學習方法新的思考。 本文組織結構如下:第1節介紹圖對比學習問 題及其涉及的相關背景知識,并給出形式化定義; 第2節梳理了節點級的圖對比學習方法;第3節整 理了邊級別的圖對比學習;第4節整理了圖級別的 圖對比學習方法;第5節整理介紹了將圖對比學習 應用在更復雜場景下的拓展;第6節總結了常用的 評價數據集和評價指標;第7節分析整理了圖對比 學習現存的問題和未來可能的發展方向;最后一節 對全文進行了總結。

1 問題定義和相關背景

對比學習是一種判別式的學習方法,其目的是 讓相似的樣本學到相近的表示,同時讓不相似樣本 的表示互相遠離。對比學習在文本[19]、語音[20]、圖 像[21-25]等領域取得了顯著的效果提升,受到了廣泛 關注。對比學習在這些領域取得成功,為研究者設 計圖對比學習的框架打下了堅實的基礎。 圖對比學習期望學到一個編碼模型,使得相似 的節點(圖)經過編碼模型后得到相似的表示,不相 似的節點(圖)得到差異較大的表示。現有的方法可 以總結成一個統一的框架,如圖1所示,首先定義正 負例并利用正例生成器和負例生成器分別得到正負 樣本。接著將這些樣本輸入到編碼模型后得到對應 的表示。最后設計一個將正負樣本表示區分開的損 失函數,進行參數優化。 目前的圖對比學習方法在設計時主要關注:① 正負例的定義與產生方式;②編碼模型的架構;③損 失函數的形式。我們在圖1中用虛線框出了這三 部分。應用圖對比學習的典型范式如圖2所示,包括 無監督表示學習、無監督預訓練、輔助學習三種方 式[6]。其中,無監督表示學習和無監督預訓練是兩 階段的訓練范式,輔助學習是一階段聯合優化的訓 練范式。無監督表示學習利用對比學習為每個節點 (或圖)學習向量表示。接著固定這些表示作為輸入 去訓練模型解決下游任務。無監督預訓練范式,同 樣先用對比學習無監督地學習一個編碼器。但在解 決下游任務時,不僅利用標簽信息更新預測層的參 數,同時也微調編碼器的參數。輔助學習范式是指 在主任務損失函數的基礎上添加對比學習損失作為 正則項,聯合優化這兩項損失函數進行參數更新。

2 節點級圖對比學習方法

正負例 的 定 義 是 現 有 的 圖 對 比 學 習 方 法 關 鍵,不同的定 義 方 式 需 要 不 同 的 編 碼 模 型 和 損 失 函數。根據對比類型可以將現有方法分成實例對 比和跨級別對比兩類。實例對比是指同一個樣本 的不同增強 樣 本 之 間 的 對 比,跨 級 別 對 比 是 指 不 同 級 別 對 象 之 間 的 對 比,例 如,節 點 級 對 象 和 子 圖級對 象 的 對 比。 同 時,對 于 每 一 個 模 型,將 從 正負例的 定 義 與 產 生 方 式 以 及 損 失 函 數 的 形 式 兩個方 面 進 行 介 紹。 表 1 總 結 了 本 節 介 紹 的 圖 對比學習框架,并且 對 比 了 不 同 模 型 使 用 的 增 強 方式。

3 邊級別圖對比學習

在現實的圖中,節點往往表現出同質性,即在圖中 相近的節點往往具有相似的性質[1]。例如,存在引用 關系的論文往往屬于同一個領域;在社交網絡中兩個 用戶共同好友越多,他們是好友關系的可能性就越高。

4 圖級別圖對比學習

圖級別的對比學習框架在近些年來也受到了廣 泛的關注,其在生物、化學、醫藥領域發揮了關鍵的 作用。但該領域處于剛起步的節點,因此相比于節 點級的對比學習,圖級別對比學習的研究工作相對 較少。 You等人[53]提出的 GraphCL是將基于實例的 節點級圖對比學習框架應用到圖級別對比學習上的 典型模型,其框架如圖13所示。

5 圖對比學習的拓展

前文介紹 了 同 質 網 絡 上 的 圖 對 比 學 習 框 架, 而現實中的 圖 數 據 往 往 具 有 復 雜 的 結 構,無 法 直 接應用上述的圖對比學習模型。因此一些研究者 開始將 圖 對 比 學 習 拓 展 到 不 同 類 型 的 圖 上。 此 外,在實際場景中往往會伴隨著監督信息,如何將 圖對比學習框架和監督信息結合也是一個重要的 拓展方向。

6 圖對比學習方法的評價

不同的圖對比學習方法的優劣,往往通過其在 下游任務上的表現來評判。常見的下游任務在1.4 節中已經進行了說明,本節主要介紹常用的節點級 任務的數據集和圖級任務的數據集以及評價指標。

7 挑戰與未來展望

圖對比學習框架在節點級任務、邊級任務和圖 級任務上都取得了成功,但目前仍有如下一些問題 待解決。

7.1 圖增強操作

圖數據的增強是圖對比學習框架中非常重要的 組成部分,其為節點/圖提供了更加豐富的上下文信 息,從而幫助節點/圖學到更優質的表示。在圖像領 域,可以比較容易地確定增強后的圖片仍然與原圖 片反映同一類別的物體。由于圖數據本身就是一種 抽象的數據結構,應用現有的增強操作(如增邊刪 邊,隱藏部分特征維度)后,難以直觀判斷原來的節 點/圖是否保持類別不變。因此設計增強后類別保 持不變的圖增強操作是未來重要的發展方向。此外 如何判斷哪種數據增強的方式是對于對比學習有效 的,也是一個重要方向。已有工作試圖尋找在圖像 領域哪種增強是有效的[68],但在圖領域仍然等待被 探索。

7.2 基于圖對比學習的預訓練模型

預訓練旨在通過自監督學習從大量數據中學到 通用的語義信息,并將學到的知識遷移到下游的任 務中。目前預訓練模型在很多領域都取得了最佳的 效果,具有巨大的發展潛力。圖對比學習方法為圖 上的大規模預訓練奠定了很好的框架基礎。 然而,現有的圖對比學習主要關注于在同一圖 上模型遷移到下游任務上的效果[34,35,39-42,52]。這些 模型未考慮模型跨數據集遷移的能力。雖然近年來 有研究提出了具有一定跨數據遷移能力的圖對比學 習模型[45],但該方法只適用于沒有屬性的同質信息 網絡,局限性較大。因此如何設計具有跨數據集遷 移能力的圖對比學習模型是未來大規模圖預訓練應 用中亟待解決的重要問題。

7.3 對比學習的理論分析

雖然對比學習的框架在很多領域都取得了顯著的提升,但是該框架為何能提升表示的質量,以及其 和下游任務之間有什么關聯、什么樣的對比任務更 有效等仍然值得探索。雖然在圖像領域有工作開始 分析對比學習有效的原因[69-70],但在圖數據領域的 理論分析仍然是空白的。

7.4 實際場景的應用

如何將圖對比學習應用在實際場景中提升實際 任務的效果,也是一個潛力巨大的方向。目前有研 究者嘗試在推薦系統[71-73]、藥物分類[74-75]領域利用 圖對比學習解決某些關鍵問題。因此,如何利用圖 對比學習解決更多實際的圖分析問題是具有重大研 究意義的方向。

7.5 大規模圖上對比學習

現有的圖對比學習往往需要大量的負樣本,才 能學好節點/圖表示。但在實際的場景中,圖的規模 往往非常的巨大。因此大量的負樣本需要巨大的內 存和計算代價。在圖像領域已經有一些工作去探索 如何利用更少的負樣本[76],或者不使用負樣本的方 式來減少計算代價[46,77]。因此如何設計適用于大 規模網絡的圖對比學習也是未來發展方向之一。

7.6 更公平的方法對比

本文從方法上對比了不同圖對比學習框架的異 同。但由于不同模型適用的數據集不同,實驗設定 上也有差異,從而導致難以從實驗結果上判定哪個 框架更有效。但是從實驗上對比不同模型的優劣對 于圖對比學習的發展有著至關重要的作用。因此設 計一個基準實驗框架,更公平地對比不同方法也是 一個重要的方向。

8 結束語

基于深度學習的圖分析方法在很多任務上取得 顯著的效果,而做好節點/圖表示是其中的關鍵。近 年來基于對比學習的表示學習框架在圖像等領域取 得了成功,這為圖對比學習框架提供了堅實的基礎。 本文對近年來出現的圖對比學習框架進行了分析總 結,將圖對比學習框架總結成三個重要的部分,分別 是正負例的定義方式、編碼器模型的設計以及損失 函數的設計三個部分。 本文圍繞圖對比學習展開,梳理總結了近些年 來重要的圖對比學習工作,同時提出了一些仍未被 很好解決的問題,以及未來可能的研究方向,嘗試為研究人員建立一個較完整的研究視圖,希望能為進 一步推進該領域的研究提供一定的幫助。

付費5元查看完整內容

**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。

//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a

1. 引言

一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。

最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型

本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架

GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。

Imagen:用預訓練語言模型編碼文本。

繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。

隱空間框架

穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。

3. 文本到圖像擴散模型的改進

3.1改進模型架構

關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖

盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。

3.3 面向概念控制的文本反轉

文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。

3.4 分布外檢索

SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。

付費5元查看完整內容

 長文本建模是自然語言處理(NLP)領域的一項重要技術。隨著長文檔數量的不斷增長,開發能夠處理和分析此類文本的有效建模方法變得非常重要。然而,長文本具有更為復雜的語義和特殊的特征,給現有文本模型帶來了重要的研究挑戰。本文綜述了基于Transformer模型的長文本建模的最新進展。首先,介紹長文本建模的形式化定義;然后,作為核心內容,討論了如何處理長輸入以滿足長度限制,并設計改進的Transformer架構以有效擴展最大上下文長度。討論了如何自適應Transformer模型來捕捉長文本的特殊特征。最后,介紹了4種典型的長文本建模應用,并對未來的研究方向進行了展望。本文旨在為研究人員提供長文本建模的相關工作的綜合和指導。在現實生活中,長文本是記錄人類活動或日常事件的一種主要信息媒體形式,如學術文章、官方報告、會議腳本等。由于文本量的不斷增長,人類難以閱讀、處理和提取大規模長文本中重要的相關信息。因此,對NLP系統自動建模長文本和提取人類感興趣的信息的需求很強烈。一般來說,長文本建模的任務旨在通過信息表示(如關鍵字)從文本中捕獲顯著的語義,這對各種下游應用都很有用。例如,將arXiv中的一篇長科學論文總結為摘要[Cohan et al., 2018],并將一篇長法律文件分類為不同類別[Wan et al., 2019]。為了處理涉及長文本建模的任務,許多先前的研究基于循環神經網絡(RNNs) [Yang et al., 2016],其中有兩個突出的變體LSTM [Cohan et al., 2018]和GRU [Yang et al., 2016]。然而,循環神經網絡不能有效地處理長文本中的長程依賴關系。最近,基于Transformer的模型[Vaswani等人,2017],特別是預訓練語言模型(PLMs)在NLP中取得了巨大成功[Devlin等人,2018;Radford等人,2019;Lewis等人,2019]。當涉及到在長文本任務中使用PLM時,許多工作只是采用相同的方法來處理相對較短的文本,而沒有考慮與長文本的區別[Lewis等人,2019]。然而,對長文本進行建模是自然語言處理中一項具有挑戰性的任務。首先,現有PLM對每個輸入序列的長度有限制。每個PLM預定義了一個最大上下文長度,通常超過長文本的長度,使得超過最大長度的標記直接被丟棄。因此,如何預處理長文本以適應現有的PLM是值得深入研究的。此外,計算效率也是一個不可避免的問題。隨著文檔長度的增加,對文本進行建模所需的時間和內存消耗呈二次增長,給實際應用程序帶來了巨大的負擔。此外,相對于短文本,長文檔包含了更多的特殊特征。由于長文本通常是具有復雜層次結構的特定領域文章,因此需要考慮長期依存關系、句間關系和篇章結構。盡管現有工作對相關領域進行了綜述,但沒有一項綜述系統地總結了長文本建模的最新進展。Koh等人[2022]對長文檔摘要的研究進行了簡要概述,但沒有深入長文本建模的核心技術。Tay等人[2022]和Lin等人[2022]專注于提高長文本建模中Transformer模型的計算效率。與現有的綜述不同,本綜述試圖對基于Transformer模型的長文本建模提供更通用和全面的概述,而不限于特定的應用或主題。

本綜述的其余部分組織如下(見圖1)。首先,我們在第2節中給出長文本建模的正式定義。為了對任意長度的長文本進行建模,本文介紹了第3節中處理PLM長度限制的預處理方法,以及第4節中有效擴展最大上下文大小同時保持計算效率的Transformer架構。由于長文本具有特殊的特性,我們將在第5節中解釋如何設計模型架構以滿足這些特性。隨后,在第6節介紹了典型的應用。最后,對全文進行了總結,并在第7節提出了未來的研究方向。

**長文本建模 **首先,提供了長文本建模的正式定義。在本綜述中,長文本表示為單詞序列X = (x1,…, xn),與可以直接由Transformer處理的短文本或普通文本相比,它可能包含數千個或更多的標記。由于PLM的預定最大上下文長度,Transformer模型對整個長序列進行編碼是具有挑戰性的。因此,使用預處理函數g(·)將冗長的輸入轉換為較短的序列或片段集合(第3節)。此外,冗長的文檔將包含在建模過程中必須考慮的特殊特征C,例如長期依存關系、句子間關系和篇章結構(第5節)。使用Transformer架構M從輸入數據中捕獲上下文信息,并建模從輸入X到期望輸出Y的語義映射關系(第4節)。基于這些概念,建模長文本的任務被形式化描述如下:

預處理輸入長文本

現有的基于transformer的PLMs [Devlin等人,2018;Radford等人,2019;Lewis等人,2019]預定義了最大序列長度,例如,BERT只能處理多達512個token。根據第2節,當序列長度n超過最大上下文大小t時,使用預處理函數g(·)將輸入文檔轉換為一個或多個短段(見公式1)。在本節中,我們介紹了三種主要的文本預處理技術,以規避plm的長度限制,即截斷、分塊和內容選擇,如表1所示 * 文本截斷(Truncating Long Texts):從頭開始對輸入文本進行截斷到PLM最大長度,將截斷后的文本送入PLM。 * 文本分塊(Chunking Long Texts):將輸入文本分成一個個文本塊,其中每個文本塊長度小于等于PLM最大長度。之后,每個文本塊分別被PLM處理。 * 文本選擇(Selecting Salient Texts):將輸入文本分成一個個文本塊,識別并連接其中重要的文本塊成為新的輸入序列。新的輸入需要滿足小于PLM最大長度并送往PLM進行處理。

用于長文本的Transformer架構

考慮到自注意力模塊的二次復雜度,在計算資源有限的情況下,基于transformer的PLM在長文本中不能很好地擴展。本文沒有對長文本進行預處理(第3節),而是討論了Transformer模型的有效架構M(公式1),降低了復雜性。之前的研究廣泛討論了提高Transformer計算效率的各種方法[Tay等人,2022;Lin等,2022]。在這里,我們主要討論可以有效擴展其最大上下文長度的變體。介紹了為長文本設計的transformer預訓練目標和策略。 * 高效Transformer(Efficient Transformer):針對Transformer的自注意力機制進行改進降低復雜度。

固定模式(Fixed Attention Patterns):根據位置選擇每個token可以交互的token子集。 * 可學習模式(Learnable Attention Patterns):根據輸入的內容信息選擇每個token可以交互的token子集。 * 注意力近似(Attention Approximation):對注意力機制進行近似改進,分為低秩近似和核近似。 * 高效編碼器解碼器注意力(Efficient Encoder-decoder Attention):對解碼器和編碼器之間的注意力機制降低復雜度。 * 循環Transformer(Recurrent Transformer):不改變自注意力機制,而是對輸入進行分塊,使用模型對當前以及存儲的先前塊的信息進行處理。 * 長文本預訓練(Pretraining for Long Texts):針對長文本,設計更合適的預訓練目標函數,使用長文本作為訓練數據,并可以從現有的PLM開始繼續訓練。

長文本特殊性質(Special Characteristics of Long Text)

背景:之前兩個章節的方法理論上足以處理長文本問題。但是,相比于普通的文本,長文本含有許多獨特性質。利用這些獨特性質,可以更好地對長文本進行建模。 * 長期依賴(Long-term Dependency):當前,許多方法關注局部細節信息的建模。然而,在長文本中,遙遠的詞之間可能存在依賴關系。

增強局部注意力:為了彌補高效Transformer中局部注意力的不足,增加模塊捕捉長期依賴信息。 * 建模塊間交互:文本分塊中不同分塊之間信息缺少交互,增加單向或者雙向的塊間信息交互。 * 句間關系(Inter-sentence Relations):長文本中含有許多句子,因此擁有復雜的句間關系。然而,PLM大多更善于捕捉token級別的依賴,因此需要對于句子層面的關系進行額外建模。

層次化模型:將Transformer結構修改為層次化模式,利用編碼器顯式編碼句子級表示,解碼器利用兩個級別的信息。 * 圖模型:將下游任務轉化為結點分類任務,文本轉化為圖。其中,句子表示作為結點,利用邊捕獲句間關系,并使用圖神經網絡進行結點分類。 * 篇章結構(Discourse Structure):長文本中通常含有復雜的篇章(含有多個句子的語義單元)結構信息,如科學論文中的章節。

顯式設計模型:在模型中設計模塊負責捕捉篇章結構信息。 * 隱式增強模型:不改變模型架構,在訓練,輸入預處理等階段引入歸納偏置。

**

**

應用(Applications)

文章介紹了涉及建模長文本的典型下游任務: * 文本摘要(Text summarization) * 問答(Question answering) * 文本分類(Text classification) * 文本匹配(Text matching)

未來方向(Future Directions)

最后,文章討論了一些可能的未來方向: * 探究適用于長文本模型架構 * 探究長文本預訓練語言模型 * 探究如何消除長文本和現有語言模型之間的差距 * 探究在低資源情況下對長文本進行建模 * 探究使用大型預訓練語言模型(LLMs)對長文本進行建模

總結

文章介紹了近年來使用Transformer解決長文本的一些研究工作,如果不足和遺漏,歡迎大家留言討論。

付費5元查看完整內容

本次演講將討論通過大規模的預訓練和少樣本遷移來學習一般的視覺表示,特別關注Vision Transformer (ViT)架構,它將transformers推廣到視覺領域。Transformer模型架構最近引起了極大的興趣,因為它們在語言、視覺和強化學習等領域的有效性。例如,在自然語言處理領域,Transformer已經成為現代深度學習堆棧中不可缺少的主要部分。最近,提出的令人眼花繚亂的X-former模型如Linformer, Performer, Longformer等這些都改進了原始Transformer架構的X-former模型,其中許多改進了計算和內存效率。為了幫助熱心的研究人員在這一混亂中給予指導,本文描述了大量經過深思熟慮的最新高效X-former模型的選擇,提供了一個跨多個領域的現有工作和模型的有組織和全面的概述。關鍵詞:深度學習,自然語言處理,Transformer模型,注意力模型

//www.zhuanzhi.ai/paper/39a97bd373cc6f37c6b2e9026f3422e8

付費5元查看完整內容

《圖算法指南》這本書提供了圖算法研究領域的高質量內容,并探討了圖算法的最新發展。讀者將全面了解如何使用算法來探索圖形。這是一個文本的集合,已經被證明是趨勢的領導者和很好的例子。本書旨在為讀者提供對設計有效算法有用的圖的結構屬性的深刻理解。這些算法在有限狀態機建模、社會網絡理論、生物學和數學中都有應用。這本書里有許多練習題,有些達到了現在的研究水平。這些練習鼓勵讀者通過把事情放在一個清晰的角度去發現新的技術。本書的研究將為讀者提供許多強大的工具來建模和解決現實世界中的問題。

付費5元查看完整內容
北京阿比特科技有限公司