亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

去噪擴散模型已經成為各種圖像生成和編輯任務的強大工具,促進了以無條件或輸入條件方式合成視覺內容。它們背后的核心思想是學習逆轉逐漸向圖像添加噪聲的過程,使它們能夠從復雜分布中生成高質量樣本。在這篇綜述中,我們提供了一個關于使用擴散模型進行圖像編輯的現有方法的詳盡概述,涵蓋了該領域的理論和實踐方面。我們深入分析并從多個角度對這些工作進行了分類,包括學習策略、用戶輸入條件和可以完成的特定編輯任務的范圍。此外,我們特別關注圖像修復和擴展,并探索了早期的傳統上下文驅動方法和當前的多模態條件方法,提供了它們方法論的全面分析。為了進一步評估文本引導的圖像編輯算法的性能,我們提出了一個系統的基準,EditEval,特色是一個創新的指標,LMM分數。最后,我們討論了當前的局限性,并設想了未來研究的一些潛在方向。伴隨的倉庫發布在 //github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods。

在人工智能生成內容(AIGC)的領域中,利用人工智能來創建和修改數字內容,圖像編輯被認為是創新和實際應用的重要領域。與從最小輸入創建新圖像的圖像生成不同,圖像編輯涉及更改圖像的外觀、結構或內容,包括從微妙的調整到重大變革的一系列更改。這項研究在數字媒體、廣告和科學研究等各個領域都至關重要,其中改變視覺內容是必需的。圖像編輯的演變反映了數字技術的進步,從手工、勞動密集型過程發展到由基于學習的算法驅動的高級數字技術。在這一演進中的一個關鍵進步是生成對抗網絡(GANs)[1]-[6]的引入,顯著增強了創造性圖像操作的可能性。

最近,擴散模型在AIGC[1],[7]-[15]中嶄露頭角,帶來了視覺生成任務的顯著突破。擴散模型,受到非平衡熱力學[15]原理的啟發,通過逐漸向數據添加噪聲,然后學習逆轉這一過程,從隨機噪聲生成直到產生與源數據分布匹配的所需數據。它們大致可以分為去噪擴散基礎[15]-[18]和分數匹配基礎[19]-[23]。它們的適應性和有效性導致了在各種任務中的廣泛應用,如圖像生成[24]-[38]、視頻生成[39]-[56]、圖像恢復[57]-[71]和圖像編輯。

在圖像編輯中應用擴散模型的興趣激增,近年來在這一領域的研究出版物數量顯著增加為證。這種日益增長的關注突顯了擴散模型在改善圖像編輯性能方面相比于以往工作的潛力和多功能性。鑒于這一顯著進步,系統地回顧和總結這些貢獻是必要的。然而,現有關于擴散模型的綜述文獻集中在其他特定視覺任務上[72]-[75],如視頻應用[73]或圖像恢復與增強[74],[75]。一些提到圖像編輯的綜述往往只提供了一個粗略的概述[76]-[83],缺少對方法的詳細和專注探索。

為了填補這一空缺,我們進行了一項綜述,提供了一項專注于圖像編輯的深入和全面分析。我們深入研究了這一領域擴散模型所實現的方法論、輸入條件和廣泛的編輯任務。該綜述批判性地回顧了超過100篇研究論文,根據學習策略將它們組織成三個主要類別:基于訓練的方法、測試時微調方法和無需訓練和微調的方法。每個類別根據其核心技術進一步劃分,分別在第4、5和6節中進行了詳細討論。我們還探索了這些方法中使用的10種不同類型的輸入條件,包括文本、遮罩、參考(Ref.)圖像、類別、布局、姿態、草圖、分割(Seg.)圖、音頻和拖動點,以展示擴散模型在多樣化圖像編輯場景中的適應性。此外,我們的綜述提出了一種新的圖像編輯任務分類,將其劃分為三大類:語義編輯、風格編輯和結構編輯,涵蓋了12種特定類型。圖1直觀地表示了研究在學習策略、輸入條件和編輯任務類別之間的統計分布。另外,我們特別關注了修復和外擴,這兩者共同構成了一種獨特的編輯類型。我們探索了早期的傳統和當前的多模態條件方法,第7節提供了它們方法論的全面分析。我們還介紹了EditEval,這是一個旨在評估文本引導的圖像編輯算法的基準,詳細內容在第8節。特別地,我們通過利用大型多模態模型(LMMs)的先進視覺-語言理解能力,提出了一個有效的評估指標,LMM分數。最后,我們在第9節中展示了一些當前的挑戰和潛在的未來趨勢作為展望。 總之,這項綜述旨在系統地分類和批判性地評估基于擴散模型的圖像編輯研究的廣泛文獻。我們的目標是提供一個全面的資源,不僅綜合了當前的發現,而且還指導了這一快速進步領域的未來研究方向。

除了擴散模型在圖像生成、恢復和增強方面取得的重大進展之外,它們在圖像編輯方面也取得了顯著的突破,與之前占主導地位的GANs相比,提供了更強的可控性。與從零開始創建新圖像的圖像生成不同,以及旨在修復和提高降級圖像質量的圖像恢復和增強,圖像編輯涉及修改現有圖像的外觀、結構或內容,包括添加對象、替換背景和改變紋理等任務。

在這項綜述中,我們根據它們的學習策略將圖像編輯論文組織成三個主要群體:基于訓練的方法、測試時微調方法和無需訓練和微調的方法,分別在第4、5和6節中詳細闡述。此外,我們探索了這些方法用來控制編輯過程的10種類型的輸入條件,包括文本、遮罩、參考(Ref.)圖像、類別、布局、姿勢、草圖、分割(Seg.)圖、音頻和拖動點。此外,我們研究了這些方法可以完成的12種最常見的編輯類型,這些類型被組織成以下三大類。

  • 語義編輯:這一類別包括對圖像內容和敘述的修改,影響所描繪場景的故事、背景或主題元素。該類別內的任務包括對象添加(Obj. Add.)、對象移除(Obj. Remo.)、對象替換(Obj. Repl.)、背景更改(Bg. Chg.)和情感表達修改(Emo. Expr. Mod.)。

  • 風格編輯:這一類別專注于增強或轉換圖像的視覺風格和美學元素,而不改變其敘述內容。該類別內的任務包括顏色更改(Color Chg.)、紋理更改(Text. Chg.)和整體風格更改(Style Chg.),涵蓋藝術和現實風格。

  • 結構編輯:這一類別涉及圖像內元素的空間布局、位置、視點和特性的更改,強調場景內對象的組織和呈現。該類別內的任務包括對象移動(Obj. Move.)、對象大小和形狀更改(Obj. Size. Chg.)、對象動作和姿勢更改(Obj. Act. Chg.)和透視/視點更改(Persp./View. Chg.)。

表1全面總結了對調研論文的多角度分類,提供了快速搜索。

在基于擴散模型的圖像編輯領域中,基于訓練的方法已經獲得了顯著的突出地位。這些方法不僅因其穩定訓練擴散模型和有效建模數據分布而著稱,也因其在多種編輯任務中的可靠性能而備受關注。為了徹底檢查這些方法,我們根據它們的應用范圍、訓練所需的條件以及監督類型,將它們分類為四個主要組,如圖2所示。進一步地,在每個主要組內,我們根據它們的核心編輯方法將這些方法分類為不同的類型。這一分類展示了這些方法的范圍,從針對特定領域的應用到更廣泛的開放世界用途。

在圖像生成和編輯中,測試時微調代表了向精確度和控制性邁進的重要一步。本節探討了各種微調策略(見圖5),這些策略增強了圖像編輯的能力。如圖6所示,這些方法范圍從微調整個去噪模型到專注于特定層或嵌入。我們研究了微調整個模型、針對特定參數和優化基于文本的嵌入的方法。此外,我們討論了超網絡的集成和直接圖像表示優化。這些方法共同展示了微調技術在圖像編輯中的不斷復雜化和有效性,滿足了廣泛的編輯需求和用戶意圖。

在圖像編輯領域中,無需訓練和微調的方法起始于它們快速且低成本的前提——因為在整個編輯過程中,它們不需要任何形式的訓練(針對數據集)或微調(針對源圖像)。本節根據它們所修改的內容,將這些方法分為五個類別,如圖7和8所示。它們巧妙地利用擴散模型內在的原則來實現它們的編輯目標。

結論

我們已經全面概述了基于擴散模型的圖像編輯方法,從多個角度檢查了這一領域。我們的分析首先根據它們的學習策略,將超過100種方法分類為三個主要群體:基于訓練的、測試時微調的,以及無需訓練和微調的方法。然后,我們將圖像編輯任務分類為三個不同的類別:語義編輯、風格編輯和結構編輯,總共包含12種特定類型。我們探索了這些方法及其對提高編輯性能的貢獻。我們的圖像編輯基準EditEval中對7個任務及最近的最先進方法進行了評估。此外,引入了一種新的度量LMM分數,用于這些方法的比較分析。總結我們的綜述,我們強調了圖像編輯領域內的廣泛潛力,并建議了未來研究的方向。

付費5元查看完整內容

相關內容

擴散模型是近年來快速發展并得到廣泛關注的生成模型。它通過一系列的加噪和去噪過程,在復雜的圖像分布和高斯分布之間建立聯系,使得模型最終能將隨機采樣的高斯噪聲逐步去噪得到一張圖像。

在過去的十年中,深度學習在人工智能的各個領域,包括自然語言處理、計算機視覺和生物醫學信號處理中,顯示出了顯著的主導地位。盡管模型準確性有了顯著提高,但在移動電話和微控制器等輕量級設備上部署這些模型受到了有限資源的制約。在這篇綜述中,我們為這些設備提供了全面的設計指導,詳細介紹了輕量級模型的精細設計、壓縮方法和硬件加速策略。這項工作的主要目標是探索在不影響模型準確性的前提下,如何繞過硬件限制的方法和概念。此外,我們還探討了未來輕量級深度學習的兩條值得注意的路徑:TinyML 和大型語言模型的部署技術。盡管這些路徑無疑具有潛力,但它們也帶來了重大挑戰,鼓勵對未探索領域的研究。

近年來,神經網絡(NN)的重要性急劇上升,其應用已滲透到日常生活的各個方面,并擴展到支持復雜任務【18, 84, 222】。然而,自2012年AlexNet【110】發布以來,一直流行著創建更深、更復雜的網絡以提高準確性的趨勢。例如,Model Soups【215】在ImageNet數據集上取得了顯著的準確性,但代價是超過18.43億個參數。同樣,GPT-4【10】在自然語言處理(NLP)基準測試中表現出色,盡管其擁有驚人的1.76萬億參數。值得注意的是,Amodei等人【4】指出,從2012年到2018年,深度學習(DL)的計算需求急劇增加,大約增長了300,000倍。這種尺寸的急劇增加為本文探討的挑戰和發展奠定了舞臺。

同時,近幾年來Green AI【169, 188】已成為突出的關注點,因其對顯著的GPU和訓練時間需求標記出不適合使用的重量級DL模型,這可能導致環境退化。Strubell等人【178】對在多GPU上訓練的語言模型的碳足跡進行了廣泛分析。與此同時,輕量級設備因其多功能應用和便攜性而受到增加的關注。根據Sinha【174】的說法,2022年連接的IoT設備數量增長了18%,達到了144億,并預計到2027年將增長到290億。自2016年以來生產的超過2億部iPhone證明了這種需求的增長。另一方面,邊緣設備提供了比移動設備更優越的自動化和能效,特別是在如起搏器和額溫計等設備中部署的超低成本微控制器(MCU)【46】。

為了應對上述實際需求,近年來出現了大量研究,重點是輕量級建模、模型壓縮和加速技術。連續在CVPR 2021-2023年期間舉行的年度移動AI(MAI)研討會【139–141】,主要強調在ARM Mali GPU和Raspberry Pi 4等資源受限的設備上部署DL模型用于圖像處理。此外,在ICCV 2019、ICCV 2021和ECCV 2022【3】舉辦的圖像操作進步(AIM)研討會組織了圍繞在移動設備上進行圖像/視頻操作、恢復和增強的挑戰。

通過我們的研究,我們發現從設計階段到部署,分析高效輕量級模型發展的最有效方法涉及到將三個關鍵元素整合到流程中:NN架構設計、壓縮方法和輕量級DL模型的硬件加速。以前的綜述【11, 62, 69, 121, 165】通常只關注這一流程的特定方面,例如僅討論量化方法,提供那些部分的詳細見解。然而,這些綜述可能無法提供整個過程的全面視圖,可能忽視了重要的替代方法和技術。相比之下,我們的綜述涵蓋了輕量級架構、壓縮方法和硬件加速算法。

1.1 神經網絡設計

在本文的第一部分,第2節中,我們考察了經典的輕量級架構,將它們歸類為系列族以提高清晰度。其中一些架構通過引入創新的卷積塊取得了重大進展。例如,深度可分離卷積[35]優先考慮高精度和降低計算需求。Sandler等人[168]引入了反向殘差瓶頸來增強梯度傳播。其他架構,如ShuffleNet[248],能夠開發優化的卷積操作,該操作應用了群卷積[110]以實現并行設計,并通過洗牌操作進一步提高數據組間的轉移能力。ShiftNet[217]實現了與傳統卷積相等的效果,但不需要參數或浮點運算(FLOPs)。AdderNet[21]用加法操作取代乘法操作,大大降低了計算需求。

還需注意的是,參數和FLOPs與推理時間并不總是一致相關。早期的輕量級架構,如SqueezeNet[98]和MobileNet[89],旨在減少參數和FLOPs。然而,這種減少常常會增加內存訪問成本(MAC)[138],導致推理速度變慢。因此,我們旨在通過提供更全面和深入的綜述來促進輕量級模型的應用。

1.2 神經網絡壓縮

除了輕量級架構設計外,第3節還提到了可以應用于壓縮給定架構的各種高效算法。例如,量化方法[97, 132, 230]旨在減少數據存儲需求,常通過用8位或16位數字甚至使用二進制值代替32位浮點數來實現。最簡單的剪枝算法[54, 67, 114]從模型中移除參數,以消除網絡內不必要的冗余。更復雜的算法可能會從網絡中移除整個通道或濾波器[81, 135]。知識蒸餾(KD)技術[62, 85]探討了從一個模型(稱為“教師”)向另一個模型(稱為“學生”)轉移知識的概念。教師代表一個具有所需知識的大型預訓練模型,而學生則是一個未訓練的小型模型,負責從教師中提取知識。隨著方法的演進,一些算法[5, 239]通過使用相同的網絡兩次,消除了額外教師模型的需要。隨著這些各種壓縮方法的進展,常見的是采用兩種或更多技術的融合,例如在同一模型中結合剪枝和量化方法。

1.3 神經網絡部署

在第4節中,我們瀏覽了專用于DL應用的常見硬件加速器的概況,包括圖形處理單元(GPUs)、現場可編程門陣列(FPGAs)和張量處理單元(TPUs)。此外,我們描述了各種數據流類型[23, 65, 103, 128]并深入探討了數據局部性優化方法[146, 177, 241],探索支撐DL工作流中高效處理的復雜技術。本篇綜述還討論了加速DL過程的流行DL庫[1, 24, 153],這些庫和框架在優化硬件加速器的利用中發揮了關鍵作用。此外,我們還研究了共同設計的解決方案[32, 152, 212],在加速DL中實現優化和整體的成果需要仔細考慮硬件架構和壓縮方法。

1.4 挑戰與未來工作

最后,在第5節中,我們開始探索旨在在極低功耗設備上執行DL模型的新興TinyML技術,這些設備通常的功率消耗不到1毫瓦。此外,我們的論文還深入探討了大型語言模型(LLMs),這些模型在資源有限的設備上部署時面臨挑戰,因為它們的模型尺寸巨大。在計算機視覺領域,將這些方法部署在邊緣設備上對于廣泛應用至關重要。

1.5 貢獻

本文旨在簡單但準確地描述如何利用輕量級架構、壓縮方法和硬件技術在資源受限的設備上實現準確模型。我們的主要貢獻總結如下: (1) 以前的綜述僅簡要參考了少數關于輕量級架構的作品。我們將輕量級架構組織成系列,例如將MobileNetV1-V3和MobileNeXt歸類為MobileNet系列,并提供了從其開始到現在的輕量級架構的歷史。 (2) 為了全面覆蓋輕量級DL應用,我們還涵蓋了壓縮和硬件加速方法。與許多其他綜述不同,我們的綜述明確建立了這些技術之間的聯系,提供了每個領域的徹底概覽,以便全面了解它們的相互關系。 (3) 作為輕量級DL領域前沿進展的一部分,我們回顧了當前的挑戰并探索了未來的工作。首先,我們探討了TinyML,這是一種為在資源極其有限的設備上部署DL模型而設計的新興方法。隨后,我們調查了各種當代倡議,這些倡議在輕量級DL領域的邊緣設備上利用LLMs,這是一個有前景的方向。

付費5元查看完整內容

多語言大型語言模型利用強大的大型語言模型處理和響應多種語言的查詢,這在多語言自然語言處理任務中取得了顯著的成功。盡管取得了這些突破,但在這一領域仍缺乏一個全面的綜述來總結現有方法和最近的發展。為此,在本文中,我們提出了一個徹底的審查,并提供了一個統一的視角來總結多語言大型語言模型(MLLMs)文獻中的最新進展和新興趨勢。本文的貢獻可以總結如下:(1)第一份綜述:據我們所知,我們采取了第一步,在多語言對齊的基礎上對MLLMs研究領域進行了徹底的審查;(2)新分類法:我們提出了一個新的統一視角來總結MLLMs的當前進展;(3)新前沿:我們突出了幾個新興的前沿并討論了相應的挑戰;(4)豐富資源:我們收集了大量的開源資源,包括相關論文、數據語料庫和排行榜。我們希望我們的工作能為社區提供快速訪問并推動MLLMs的突破性研究。

近年來,大型語言模型(LLMs)在各種自然語言處理任務上取得了優異的表現(Brown et al., 2020; Touvron et al., 2023a; Bang et al., 2023; Zhao et al., 2023b; Pan et al., 2023; Nguyen et al., 2023a; Trivedi et al., 2023),并展示出了令人驚訝的突發能力,包括上下文學習(Min et al., 2022; Dong et al., 2022)、思維鏈推理(Wei et al., 2022; Huang et al., 2023a; Qin et al., 2023a)以及規劃(Driess et al., 2023; Hu et al., 2023b)。然而,大多數LLMs主要關注英語任務(Held et al., 2023; Zhang et al., 2023i),使其在多語言環境,尤其是低資源環境下表現不足。

實際上,全球有超過7000種語言。隨著全球化的加速,大型語言模型的成功應考慮服務于不同國家和語言。為此,多語言大型語言模型(MLLMs)具有全面處理多種語言的優勢,越來越受到關注。具體來說,現有的MLLMs可以根據不同階段大致分為兩組。第一系列工作(Xue et al., 2020; Workshop et al., 2022; Zhang et al., 2023g; Muennighoff et al., 2022)利用多語言數據調整參數以提升整體多語言性能。第二系列工作(Shi et al., 2022a; Qin et al., 2023b; Huang et al., 2023a)還采用先進的提示策略,在參數凍結推理階段挖掘MLLMs的更深層次多語言潛力。

盡管在MLLMs上取得了顯著成功,但仍缺乏對最近努力的全面回顧和分析,這阻礙了MLLMs的發展。為了彌補這一差距,我們首次嘗試對MLLMs進行全面而詳盡的分析。具體來說,我們首先介紹廣泛使用的數據資源(§3)。此外,由于跨語言對齊的關鍵挑戰,我們根據對齊策略引入了新的分類法(§4),旨在提供文獻中的統一視角,包括參數調整對齊和參數凍結對齊(如圖1所示)。具體來說,參數調整對齊需要在預訓練、監督微調、人類反饋學習和下游微調過程中調整模型參數以增強英語和目標語言之間的對齊。參數凍結對齊指的是通過跨語言提示實現的對齊,無需調整參數。最后,我們指出了一些潛在的前沿領域以及MLLMs面臨的相應挑戰,希望激發后續研究(§5)。

本工作的貢獻可以總結如下:(1)首次綜述:據我們所知,我們是第一個根據多語言對齊在MLLMs文獻中提出全面綜述的;(2)新分類法:我們引入了將MLLMs分類為參數凍結和參數調整兩種對齊類型的新分類法,為理解MLLMs文獻提供了統一視角;(3)新前沿:我們討論了一些新興的前沿,并突出了它們的挑戰和機遇,希望為未來研究的發展鋪路;(4)詳盡資源:我們首次嘗試組織MLLMs資源,包括開源軟件、多樣的語料庫和相關出版物的精選列表,可在//multilingual-llm.net訪問。 我們希望這項工作能成為研究者的寶貴資源,并激發未來研究的更多突破。

如圖4所示,我們引入了一種新的分類法,包括參數調整對齊(§4.1)和參數凍結對齊(§4.2),旨在為研究人員提供一個統一的視角,以理解MLLMs文獻。具體來說,參數調整對齊(PTA)包括一系列逐步進階的訓練和對齊策略,包括預訓練對齊、監督微調(SFT)對齊、人類反饋學習(RLHF)對齊,以及最終的下游微調對齊。這些階段的共同目標是系統地優化模型參數,以對齊多語言性能。相反,參數凍結對齊(PFA)側重于基于PTA的四種提示策略:直接提示、代碼切換提示、翻譯對齊提示和檢索增強對齊。這種方法保持原始模型參數,以實現預期結果。

付費5元查看完整內容

近年來,生成工具的驚人增長為許多令人興奮的應用提供了動力,這些應用包括從文本到圖像的生成和從文本到視頻的生成。這些生成工具背后的基本原理是擴散的概念,一種特殊的采樣機制,它克服了之前方法中被認為難以解決的一些缺點。這個教程的目標是討論擴散模型背后的基本思想。這個教程的目標受眾包括對研究擴散模型或應用這些模型解決其他問題感興趣的本科生和研究生

付費5元查看完整內容

近來,持續圖學習在非靜態環境下處理多樣的圖結構數據任務中被越來越多地采用。盡管其學習能力充滿希望,當前關于持續圖學習的研究主要集中在緩解災難性遺忘問題,而忽視了持續性能改進。為了彌補這一差距,本文旨在提供一個關于持續圖學習最近努力的全面綜述。具體而言,我們從克服災難性遺忘的角度引入了一個新的持續圖學習分類法。此外,我們系統地分析了在持續提高性能中應用這些持續圖學習方法的挑戰,然后討論可能的解決方案。最后,我們提出了與持續圖學習發展相關的開放問題和未來方向,并討論它們如何影響持續性能改進。隨著深度學習在生活各領域的成功應用,社區開始渴望更強大的通用人工智能。盡管具有前景的潛力,基于神經網絡的持續學習面臨著一個嚴重的遺忘問題:在新任務上的學習通常會導致舊任務上性能的急劇下降,這被稱為災難性遺忘(CF)[95]。持續學習(CL)[46, 122] 被認為是克服這一挑戰的有希望的方式。CL 被視為智能代理逐步獲取、更新、積累并利用知識以持續改善其在任務上性能的學習能力[46]。為了緩解災難性遺忘問題,已經提出了許多CL策略,包括重放方法、正則化方法和參數隔離方法[27]。這些策略在智能代理的可塑性和穩定性之間尋找平衡,并減輕了災難性遺忘的問題。然而,當前的CL僅考慮單個數據樣本,并忽略了它們之間普遍存在的聯系。此外,克服CF僅代表著實現持續性能改進(CPI)的一條必不可少的路徑,而不是CL的終點。圖,也稱為網絡,是一種描述和分析具有交互作用實體的通用數據表示。圖已被廣泛采用于模擬不同應用中不同類型的關系,從生物分子到社會網絡。一方面,許多數據自然以圖的形式存在,如引文網絡、社交網絡和交易網絡。另一方面,即使那些看似未連接的數據也可以人為地構建成圖,如文本中的依賴圖、圖像中的特征圖和代碼中的調用圖。最近,圖學習已成為AI和機器學習中一個有前景的領域,由于其在學習實體間錯綜復雜的關系及相應的網絡結構方面的優勢。

然而,圖學習也受到了災難性遺忘現象的困擾。將持續學習與圖學習整合顯然也是緩解災難性遺忘的流行解決方案。持續圖學習(CGL)的整合稱為持續圖學習。盡管CGL具有潛力,但由于歐幾里得數據與圖之間的結構差異,一般CL與CGL之間存在顯著或復雜的差異,包括模型、任務設置和方法。此外,CL和CGL主要關注克服災難性遺忘,而忽視了持續性能改進。盡管關于CGL的研究數量在增加,但關于CGL的綜述很少。為了彌補這一差距,本文旨在提供一個關于CGL研究努力的全面綜述,特別是討論CGL方法如何實現持續性能改進。本綜述與現有綜述的不同之處。由于CGL與持續學習和圖學習高度相關,兩個領域都有許多綜述。表1將相關綜述歸類為CL、圖學習和CGL。特別是,關于持續學習的綜述大多關注(i)特定領域,如自然語言處理(NLP)[11]、計算機視覺(CV)[97]、機器人學[71]和自主系統[109];(ii)特定任務,如分類[27, 88];以及(iii)模型,如神經網絡[8, 46, 93]。然而,它們都只從孤立的角度而非綜合角度考慮數據。此外,它們過分強調緩解災難性遺忘,而忽視了持續性能改進,這是持續學習的最終目標。關于圖學習的綜述主要關注特定技術,包括圖表示學習[12, 24, 43, 48, 49]、圖神經網絡[138, 170]和圖深度學習[9, 41, 164]。此外,這些研究大多數通常考慮樣本級別的連接數據,而忽略了特征級別和任務級別的連接。另外,它們只關注靜態圖而忽略了在動態圖上的持續學習。盡管有幾項綜述考慮了圖的動態性質,包括動態圖學習[171]、動態圖表示學習[10, 62, 145]和動態圖神經網絡[116],它們主要考慮模型是否適應新數據,而忽略了災難性遺忘問題,從而完全排除了CL。據我們所知,只有兩篇綜述全面整合了持續學習和圖學習。特別是,[35] 回顧了CGL的研究進展、潛在應用和挑戰,而 [154] 則分類了克服CGL中災難性遺忘的方法。盡管它們明確考慮了持續學習中數據之間的聯系并專注于CGL,但它們沒有構建一個全面的視角,并且未能徹底闡述CL和CGL之間的關系和差異。此外,它們主要關注緩解災難性遺忘,而忽略了持續性能改進。

貢獻。本綜述總結了CGL領域的最新研究,并討論了當前方法是否以及如何實現持續性能改進。具體來說,我們的主要貢獻如下所述:

  • 一個新的分類法:我們提供了一個新的分類法來總結克服CGL中災難性遺忘的方法。具體來說,從如何實現持續性能改進的角度引入了四個組別(見圖1)。
  • 一個全面的綜述:對于每一類方法,我們討論了克服災難性遺忘的動機和主要挑戰。此外,我們進一步討論了當前方法如何實現持續性能改進。據我們所知,這是第一次對持續性能改進進行探討。
  • 未來方向:專注于持續性能改進,我們進一步提出了一些與持續圖學習相關的開放問題,并討論了它們如何影響持續性能改進以及相應的未來方向。

圖1展示了本文的組織結構。第2節介紹了CL和圖學習的基礎知識。第3節提出了CGL的概述,包括形式化、動機以及克服災難性遺忘的CGL方法的新分類法。具體來說,它從特定維度比較了與CGL相關的領域。第4至第7節根據提出的分類法總結了CGL的最近進展。在每一個類別中,都調查了主要挑戰及其相應的解決方案。此外,還從知識增強和優化控制的角度討論了這些方法如何實現持續性能改進。第8節總結了現有CLG研究中使用的實際應用和數據集。此后,第9節討論了開放問題和未來方向。最后,第10節總結了本文。

持續圖學習分類法持續圖學習本質上是持續學習的一個子領域,因此,持續圖學習的目標與常規持續學習相同:通過增量學習實現模型的持續性能改進。然而,由于圖中節點之間的相互依賴性,持續圖學習在方法上比常規持續學習更為復雜和多樣化。因此,我們提出了當前持續圖學習方法的一個新分類法,該分類法分為四個類別:基于重放的方法、基于正則化的方法、基于架構的方法和基于表示的方法,如圖3所示。所提出的分類法主要關注那些明確聲稱能夠克服災難性遺忘的方法,因為當前的工作很少涉及持續性能改進。然而,我們從知識的角度討論了災難性遺忘的根本原因和持續性能改進的關鍵,并進一步討論這些方法是否以及如何實現持續性能改進。從知識的角度看,災難性遺忘的根本原因是新知識對現有知識的覆蓋。假設某一時期的知識是有限的,并且可以在持續學習的設置中學到,那么持續學習的目標就是學習所有知識并在特定任務上實現持續性能改進。基于這種考慮,持續性能改進等同于持續獲取新知識或對現有知識的補充。這通常可以通過兩種方式實現:知識增強和優化控制。知識增強指的是后續任務的知識可以增強先前任務的知識。例如,人們在低年級學習四則運算,并使用它們來解決現實世界中的問題。然而,他們不使用變量來代表數字,因此在理解對象之間的數量關系時容易犯錯。在他們高年級學習變量和方程式后,他們將使用變量方程來理解和建模對象之間的數量關系,這給他們犯錯的機會更少。在這個例子中,變量和方程是對基本四則運算的增強。知識增強可以通過學習正樣本或負樣本來實現。優化控制指的是控制學習過程。如果學習過程可以用完成度來量化,完全學習肯定優于不完全學習。類比地,那些在課堂上認真聽講并完成所有作業的學生通常會比那些在課堂上分心并留下空白作業的學生表現得更好。在本文中,我們遵循上述考慮來討論和分析當前持續圖學習方法是否以及如何實現持續性能改進。

基于重放的方法利用從先前任務中學到的知識,與當前數據一起進行聯合訓練,以避免在學習新任務時發生災難性遺忘。基于重放方法的關鍵是獲取從先前任務中學到的知識,這通常通過抽樣或生成模型來獲得。圖4總結了基于重放的方法。

基于正則化的方法通過顯式考慮拓撲結構并向損失函數添加相應的正則化項來平衡舊任務和新任務的學習,以此來規范梯度方向,從而限制對先前任務至關重要的參數的劇烈變化,以克服災難性遺忘。正則化項通常有兩種方式:約束和蒸餾。圖5總結了基于正則化的方法。

基于架構的方法通過特定架構為任務分配任務特定的參數或網絡(部分共享或不共享),以避免任務之間的干擾。這些架構可以是固定的或動態的,如圖6所示。

由于節點之間的相互依賴性以及任務間邊緣的存在,新的增量圖將會影響先前的圖,而且先前任務的知識也可以傳遞給后續任務。這種知識難以顯式地納入持續圖學習,但可以隱式地編碼在節點嵌入中,我們將此稱為基于表示的方法。其基本原理是,現有的節點嵌入已經包含了下游任務所需的所有必要信息,而通過這種方法獲得的嵌入等同于弱化的聯合訓練。一般來說,基于表示的方法可以總結為分離和傳輸,如圖7所示。

結論 由于圖在現實世界中的普遍存在和動態性質,由圖神經網絡(GNNs)代表的圖模型已在各個領域得到廣泛應用。持續圖學習是一種新興的學習范式,旨在持續學習設置中進行圖學習任務,并實現持續性能改進。在這篇綜述中,我們提供了對持續圖學習近期研究的全面回顧。我們提出了一種新的分類法,用于總結克服災難性遺忘的持續圖學習方法。此外,對于每個類別,我們簡要闡明了關鍵問題,詳細描述了當前研究中的相應實踐,并討論了實現持續性能改進的可能解決方案。進一步地,我們還提出了一些與持續性能改進相關的開放問題,并建議了相應的有前景的研究方向。我們希望這篇綜述能幫助讀者理解持續圖學習的最近進展,并對這個有前景的領域的未來發展提供一些啟示。

付費5元查看完整內容

近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。

近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。

“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:

上下文學習 * 規模定律 * 同質化

上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。

通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強

這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。

付費5元查看完整內容

我們從跨模態生成的角度回顧了從文本生成視覺數據的研究。這種觀點讓我們能夠在不將分析局限于狹窄的子領域的情況下,對各種旨在處理輸入文本并產生視覺輸出的方法進行比較。這也導致了在該領域內識別出共同的模板,這些模板隨后在類似方法池中以及跨越研究線索進行了比較和對比。我們將文本到圖像的生成分解為各種形式的從文本到圖像的方法、從文本到視頻的方法、圖像編輯、自監督學習和基于圖的方法。在這次討論中,我們關注的是2016-2022年間在8個領先的機器學習會議上發表的研究論文,同時也包括了一些不符合概述搜索標準的相關論文。進行的綜述表明該領域發表的論文數量顯著增加,并強調了研究空白和潛在的研究方向。據我們所知,這是第一次從跨模態生成的視角系統性地審視文本到圖像的生成

**1 引言 **

自2012年ImageNet大規模視覺識別挑戰(ILSVRC)以來,當AlexNet [70] 顯著超越了所有先前方法后,深度學習成為了圖像分類的事實標準,因為它能夠比其他方法實現顯著更高的準確度。卷積神經網絡(CNNs)已成為視覺領域進步的主要動力,首先是使用反向傳播 [74] 的基本形式,隨后引入了殘差連接 [46]。這被自然語言處理(NLP)領域的進步所仿效,后者依賴于循環神經網絡(RNNs),其中長短期記憶(LSTM)[53] 架構成為一種特別成功的方法。隨后,注意力機制 [7] 的設計導致了基于注意力的架構,如Transformer [148],以及針對Transformers的預訓練(BERT)[29]。Transformer架構的進步已進入視覺領域,表現在Vision Transformer(ViT)[33]的設計上。 CNN/ViT在視覺領域和RNN在NLP領域的方法共同依賴于分類任務。這在視覺領域更為明顯,其中手頭的問題通常本身就是分類任務。NLP架構可能以更隱性的方式使用分類,例如在機器翻譯中,問題形式可允許多步驟分類作為可行的任務形式。 然而,必須指出,基于分類的問題并不是深度學習取得顯著進步的唯一領域。新技術成功引入的一個廣泛研究領域是生成模型領域。使用編碼器/解碼器架構 [1] 的想法為生成建模找到了新的相關性,隨著變分自編碼器(VAEs)[67] 和生成對抗網絡(GANs)[42] 的出現,以及后來的擴散模型 [134]。這些模型最初有限的能力被擴展,例如通過引入穩定GAN訓練的措施,形成了DCGAN模型 [113]。隨后進行了更多擴展基本方法的工作。對于VAEs的顯著例子包括量化的VAE(VQ-VAE)[147] 及其第二代 [117]。對于GANs,通過像StackGAN [168] 及其擴展 [169] 這樣的模型進行了改進。在擴散方面,通過去噪擴散概率模型(DDPMs)[50],[104],[30] 的出現取得了進展。 聚焦于VAEs、GANs和擴散,所有這些方法都依賴于隨機輸入作為數據生成過程的種子。這種隨機性是生成樣本多樣性的來源。也已經實驗性地顯示,輸入可能還攜帶了關于生成樣本的某種語義信息。對于視覺而言,這可能意味著輸入到系統中的隨機數據決定了在生成圖像中可見的選定特征 [113],而這些特征可能與人類對描述性屬性的理解相關聯。 這不僅適用于隨機輸入,還適用于提供給架構的特定定制信息。原則上,VAEs、GANs和擴散模型并不嚴格要求所有輸入數據都是隨機的,因此可以向模型展示額外信息。在這種情況下,生成過程取決于輸入數據,架構可以被認為是條件生成模型。條件信息的確切形式可能有所不同。在相對簡單的設置中,它可能是我們希望生成的實例所屬類的標簽。然而,情況可能并不那么簡單。 如果我們考慮條件信息編碼了所需生成圖像的一部分特征,那么就有可能使用由單獨訓練的模型或聯合訓練架構的上游部分提取的實際特征。一個相關的例子可能是使用CNN或ViT特征提取器(圖像編碼器)處理輸入圖像,并得到這個圖像的特征表示。然后,這個表示可以輸入到基于VAE、GAN或擴散的模型中。原則上,這個過程可以針對多個數據源重復進行,無論是否包括隨機數據。一個具體的例子可能涉及圖像編輯任務,其中輸入圖像由CNN/ViT圖像編碼器處理,所需最終圖像的文本描述由RNN文本編碼器處理。然后將這些表示融合為一個,傳遞給轉置卷積(TCNN)[35] 圖像解碼器、Transformer圖像解碼器 [148],可能以自回歸方式 [146],或擴散圖像解碼器 [134] 來生成與輸入圖像特征相符但符合提供描述的圖像。這一過程的概述可見于圖1。

這個例子展示了條件數據生成的一個重要原則。即,沒有明確的假設條件數據來自于與輸出數據相同的分布,或實際上是相同的模態。所需圖像的描述來自文本模態,而生成的輸出來自圖像模態。因此,有可能根據另一模態的輸入生成一個模態的數據。這個一般過程可以被描述為跨模態生成。可以考慮各種可能的跨模態設置,其中包含一個或多個輸入模態,類似地,一個或多個輸出模態,每個輸入和輸出模態都可能不同。例如,可以根據圖像生成音頻,或相反地,根據音頻輸入生成圖像。 在眾多可能的模態中,文本和視覺模態是顯著研究努力的對象。這部分可以歸因于圖像和文本模態都已經分別在視覺和NLP領域進行了相對密集的研究。此外,文本或語言領域由于大多數語言問題依賴于有限的詞匯量,從而允許使用多步驟分類方法處理文本,因此具有固有的結構。例如,從輸入圖像生成文本描述,即圖像字幕,可能使用多步驟分類程序來選擇字幕中的后續詞語。這里的一個重要點是,在這種設置中,圖像編碼器和文本解碼器可以像在視覺和NLP中一樣使用,無需顯著修改,這使得將這些方法移植到生成設置中變得更容易。由于上述原因,圖像字幕,作為圖像到文本生成的子領域 [166],可能是跨模態文本和視覺生成中探索最多的領域。 另一方面,從文本領域到視覺領域(例如圖像、視頻等)在研究產出方面受到的關注明顯較少。這背后的一個重要原因可以追溯到數據的固有結構。雖然文本到圖像生成可能在輸入端獲得類似于圖像到文本問題的好處,其中可以利用文本的結構化特性,但在輸出端的情況完全不同,那里涉及圖像。與文本描述不同,圖像沒有有限的詞匯量,至少在傳統意義上是這樣的,因此,潛在圖像的空間顯著大于文本生成問題。這是因為對于給定大小的圖像,原始像素輸出可以在圖像的每個點上設置,從而導致可能組合的數量爆炸性增長,問題的維度非常高。如果我們考慮所有有效圖像的空間,其中有效圖像我們理解為按照某種相似度度量看起來像數據集中的實際圖像,那么隨機生成有效圖像的可能性可能比隨機生成有效句子(對于圖像字幕問題)要小得多。因此,雖然使用非隨機方法生成有效圖像高度依賴于方法,但可能仍然比基于圖像生成有效句子要求更高。所有這些使得這個問題對多步驟分類方法的適應性大大降低。這些困難導致文本到圖像生成的研究領域相對于圖像到文本問題明顯被低估。盡管研究產出有限,但最近在這個領域取得了顯著進展。 圖像到文本和文本到圖像的問題已經得到了顯著的擴展,都處于跨模態生成研究的前沿。它們還吸納了深度學習其他領域的研究線索。 在這項工作中,我們特別關注文本到圖像問題及其派生任務。隨著對這一領域的興趣和研究成果不斷增加,有必要對各種研究方向進行全面的回顧。據我們所知,現有的文本到圖像生成研究缺乏這樣的回顧,這也是本工作的主要貢獻所在。我們的目標是建立文本到圖像生成內部各個領域以及與深度學習其他領域的聯系,將分散的研究線索匯聚起來。我們的意圖是從跨模態生成的全局視角統一討論。本次回顧的起點是發表在8個機器學習會議上的研究論文: ? 神經信息處理系統會議(NeurIPS) ? 國際機器學習會議(ICML) ? 國際學習表示會議(ICLR) ? AAAI人工智能會議(AAAI) ? 國際人工智能聯合大會(IJCAI) ? 計算機視覺國際會議(ICCV) ? 歐洲計算機視覺大會(ECCV) ? 計算機視覺與模式識別會議(CVPR)。

更具體地說,我們考慮了2016年至2022年的時間段內發表的論文 - 在撰寫時刻的最新出版年份。我們已經在會議論文集中搜索了以下術語:跨模態,多模態,生成和擴散。根據符合這些標準的論文,我們選擇了那些實際涵蓋文本到圖像生成的論文。我們還添加了一些不符合概述搜索標準但仍然與文本到圖像生成相關的論文,特別是關于文本到圖像擴散模型的工作。我們努力提供對跨模態文本到圖像生成的全面回顧,重點關注各種方法的共同要素以及它們的獨特特性。涵蓋的主題概述如圖2所示。 本次回顧的流程結構如下。在第2節中,描述了文本到圖像生成問題,詳細討論了與此任務相關的子領域。特別是,第2.1節涵蓋了從文本生成圖像,第2.2節討論了標準方法的迭代擴展,第2.3節聚焦于基于Transformer的變種,第2.4節描述了自監督方法,第2.5節強調了從文本輸入生成視頻的可能性,第2.6節處理了根據描述編輯圖像的任務,第2.7節考慮了圖方法,而第2.8節回顧了剩余的特殊方法。在第3節中,討論了未來研究的潛在方向。第4節總結。

付費5元查看完整內容

在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。

自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。

傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。

大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。

鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。

本綜述的組織我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。

在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。

當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。

本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。

基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。

結論

在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。

在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。

付費5元查看完整內容

現代人工智能為產生不同風格的數字藝術提供了一種新穎的方式。神經網絡的表達能力使得視覺風格轉移方法成為可能,這些方法可以用來編輯圖像、視頻和3D數據,使它們更具藝術性和多樣性。本文報道了3D數據神經風格化的最新進展。我們提供了一種神經風格化的分類法,考慮了幾個重要的設計選擇,包括場景表示、指導數據、優化策略和輸出風格。基于這種分類法,我們的綜述首先回顧了2D圖像神經風格化的背景,然后對3D數據的最新神經風格化方法進行了深入討論,并提供了一個關于藝術風格化方法的小型基準測試。基于綜述中獲得的洞見,我們接著討論了開放性挑戰、未來研究,以及神經風格化的潛在應用和影響。

//www.zhuanzhi.ai/paper/d5ea0c58d303f46ebcf7e8cc629aa08c

數字藝術和視覺設計在我們的日常生活空間中盛行,表達了視覺上引人入勝的美學、獨特的品味和人類的情感。隨著計算硬件的最新進展,使用計算工具或算法創作高質量的數字藝術越來越受到公眾關注。人工智能(AI)技術的出現進一步推動了這一計算設計過程,并顯示出加速或自動化創作數字藝術的強大潛力。最近出現的視覺合成和編輯AI產品,如LUMA AI [Lum23]、DALL·E 3 [Ope23]、Midjourney [Mid23] 和 RunwayML [Run23] 已成功展示了它們加速高質量視覺設計和生成的能力。

本報告深入探討了利用AI創作3D數字藝術的最新進展,特別是通過風格化。一個典型的3D場景風格化涉及編輯場景幾何和/或外觀以匹配某些指定的藝術風格。風格化可以通過現代深度學習中的神經網絡實現,因此稱為神經風格化。放在傳統計算機圖形管線的背景下,3D神經風格化可以被視為傳統渲染管線的替代品,使用可編程著色器用于風格化的后處理。因此,3D神經風格化有助于減少在風格化3D場景中的勞動密集型手工工作,包括3D建模、紋理化、渲染或模擬。3D神經風格化因此對于各種工業應用具有實際價值,包括電影制作中的3D紋理設計和藝術模擬 [NR21,KAOT23,HHK?23],混合現實體驗 [THC?22, Tan19](圖2),逼真的視覺特效(VFX)和虛擬制作 [Man23],藝術品創作 [GC22] 以及視頻游戲開發 [OBW22,MLS?22]。從2D神經風格化擴展到3D,使用傳統3D表示和渲染進行的3D神經風格化通常面臨視角一致性和逼真渲染問題。多虧了神經渲染技術的進步,對于不同3D表示(包括網格、體積、點云和神經場)的3D神經風格化取得了高質量結果的顯著改進。它也適用于各種3D場景,從小型物體場景到大型野外場景,甚至應用于工業生產 [HHK?23]。

在本報告中,我們涵蓋了3D神經風格化領域的風格化基礎、最新進展、現有挑戰和未來研究方向。我們從神經風格化的基本技術(第2節)開始,包括2D視覺風格轉移算法和3D神經渲染。在第3節中,我們介紹了神經風格化的分類法,并為3D神經風格化的最新技術提供了分類。使用這種分類法,我們深入討論了先進的3D神經風格化方法,并提出了我們對3D風格化最近困難的分析。在第4節中,我們總結了3D風格化評估中常用的數據集。我們還提供了一個小型基準測試,作為評估最新3D風格化算法性能的標準。最后,在第5節中,我們討論了開放的挑戰和未來的研究方向。我們將隨報告發布我們的評估代碼和其他實施資源。

本報告的范圍專注于應用于3D場景的神經風格轉移。目標是探索基于深度學習的技術和方法,這些技術和方法能夠自動將藝術或逼真風格和語義特征轉移到3D數字世界中。盡管承認專用于風格化的3D訓練數據集的稀缺性和挑戰,本報告旨在突出現成的大型數據模型驅動的圖像引導和文本引導神經風格化的潛力,以實現視覺上吸引人的3D風格化結果。神經風格化基礎在神經風格化的基礎上,視覺風格轉移指的是編輯場景的紋理或顏色以匹配由參考圖像定義的風格,同時保持整體場景結構不變。在這一節中,我們首先提供2D神經風格化的概覽作為基礎。我們重點關注圖像引導和文本引導的風格轉移,因為它們是兩種主要的風格化方法,分別通過一張圖片或一段文字來指示目標風格參考。我們從使用經典特征提取器(如VGG分類器和CLIP編碼器)的簡單方法開始討論基礎知識。我們還根據它們的優化方法對這些2D神經風格轉移技術進行分類。最后,我們簡要介紹神經輻射場的基礎知識,這是一種重要的3D神經表示形式,在第3節中將深入討論3D神經風格化。我們參考了[JYF?19,SJJ?21,ZYW?23]中關于條件圖像合成和風格化的更多討論,以及[TTM?22,XTS?22]中關于場景表示和神經渲染的更多討論。

3D神經風格化

3D神經風格化指的是將神經風格化技術應用于修改現有3D數字表示的視覺外觀和美學特征。這個過程涉及利用神經網絡及相關風格化算法來操縱顏色、紋理、形狀等3D模型的視覺和幾何屬性。3D神經風格化促進了3D數字內容的視覺風格化自動生成,為計算機圖形學領域的創意表達和視覺設計提供了新的途徑。為了將3D表示與新風格融合,需要考慮兩個重要因素:3D幾何保留和風格轉換。與視覺風格轉移類似,我們關注基于圖像和文本的3D神經風格化方法。大多數方法依賴現有的大型預訓練模型(例如VGG和CLIP)進行零樣本特征提取,并且不需要任何額外的3D數據預訓練。與3D數據上的預訓練3D特征提取器相比(例如體素[WSK?15]、網格[MBBV15]、點云[QSMG17, ZJJ?21]),圖像和文本預訓練模型是廣泛可訪問的,它們以多級視覺模式和語義特征提取而聞名。在這一節中,我們首先引入神經風格化的分類法,并給出現有3D神經風格化方法的分類示例。在后續章節中,我們將介紹最先進的3D神經風格化技術,涵蓋了如網格、體積數據、點云和隱式場等多種3D表示,重點關注外觀和/或幾何風格化的轉變。最后,我們將深入總結和分析3D神經風格化的技術。

分類法 我們從2D對應物擴展了3D神經風格化的術語。3D神經風格化方法的分類法如圖9所示,詳細內容如下。

  • 表示形式可以是顯式圖像或隱式2D場,構建的3D資產如網格、體積模擬、多視圖3D重建(如重建的網格),以及隱式3D場。

  • 神經風格特征指的是來自預訓練特征提取器的圖像視覺嵌入或文本語義嵌入,通常是神經分類器。

  • 優化指的是基于優化的(類似于第2.1節)或基于預測的風格化方法(類似于第2.2節),支持單一、多個或任意風格。

  • 風格化類型指的是不同類型的風格化,從從藝術作品中檢索的風格(例如圖1中的梵高星夜雕塑場景),到逼真風格(包括傳統基于顏色的風格轉移和逼真的幾何與外觀變化,例如圖1中的“燃燒的松果”),再到具有風格語義對應的語義風格轉移,使用顯式標簽或掩碼,或隱式文本或視覺語義定位和映射。我們進一步將方法分類為幾何風格化和外觀風格化,其中幾何風格化指的是變換原始形狀以對齊風格參考,如改變頂點、體素的位置,外觀風格化指的是重新著色、圖案和圖騰轉移,如圖像像素、紋理映射、頂點顏色、點顏色和輻射場。 圖10展示了3D神經風格化方法的層次分類。表1詳細突出了基于我們在圖9中提出的分類法標準的選定3D風格化方法的分類和比較。

結論

本最新報告探討了3D神經風格化的進展,特別是針對3D數據的圖像引導和文本引導神經風格化技術。通過對最新3D神經風格化技術及其相應應用的全面綜述,我們強調了神經風格化在加速創造過程、實現風格化的細粒度控制、以及在電影制作、虛擬制作和視頻游戲開發等多個領域增強藝術表達的重要性。此外,我們介紹了神經風格化的分類法,為神經風格化領域的新作品提供了一個分類框架。我們對先進技術的分析和討論強調了持續的研究努力,旨在解決限制并推動3D數字領域神經風格化的邊界。最后,我們提出了一個3D藝術風格化的小型基準測試,我們的目標是為其他3D風格化作品提供靈感和評估標準。

付費5元查看完整內容

開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為

//github.com/HITsz-TMG/awesome-llm-attributions。

自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。

幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):

考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型

  1. 直接模型驅動的歸因:大型模型本身為其回答提供歸因。然而,這種類型經常面臨挑戰,因為回答可能不僅是虛構的,而且歸因本身也可能是虛構的(Agrawal等人,2023)。雖然ChatGPT在大約50.6%的時間里提供正確或部分正確的答案,但建議的參考文獻僅在14%的時間內存在(Zuccon等人,2023)。
  2. 檢索后回答:這種方法根植于明確檢索信息然后讓模型基于這些檢索到的數據進行回答的思想。但檢索并不本質上等同于歸因(Gao等人,2023b)。當模型的內部知識和外部檢索的信息之間的邊界變得模糊時,可能會出現潛在的知識沖突問題(Xie等人,2023)。檢索也可以被用作一種專門的工具,允許模型獨立觸發它,類似于ChatGPT 1中的“使用必應進行瀏覽”。
  3. 生成后歸因:系統首先提供答案,然后使用問題和答案進行歸因搜索。如果需要,答案然后會進行修改并得到適當的歸因。現代搜索引擎,如Bing Chat 2,已經包含了這種歸因方式。然而,研究顯示,從四個生成式搜索引擎生成的內容中,只有51.5%完全得到了引用文獻的支持(Liu等人,2023)。這種歸因方式在高風險專業領域,如醫學和法律中尤其缺乏,研究發現有大量不完整的歸因(分別為35%和31%);而且,許多歸因來自不可靠的來源,51%的歸因被專家評估為不可靠(Malaviya等人,2023)。

超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。

歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。

直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。

**檢索后回答 **

多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。

生成后歸因

為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。

付費5元查看完整內容

知識圖譜嵌入是監督學習模型,學習帶標簽、有向多圖的節點和邊的向量表示。我們描述了它們的設計原理,并解釋了為什么它們在圖表示學習和更廣泛的NLP社區中受到越來越多的關注。我們強調了它們的局限性、開放的研究方向和真實世界的用例。除了理論概述之外,我們還提供了一個handson會議,在那里我們展示了如何在實踐中使用這些模型。

付費5元查看完整內容
北京阿比特科技有限公司