亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近來,持續圖學習在非靜態環境下處理多樣的圖結構數據任務中被越來越多地采用。盡管其學習能力充滿希望,當前關于持續圖學習的研究主要集中在緩解災難性遺忘問題,而忽視了持續性能改進。為了彌補這一差距,本文旨在提供一個關于持續圖學習最近努力的全面綜述。具體而言,我們從克服災難性遺忘的角度引入了一個新的持續圖學習分類法。此外,我們系統地分析了在持續提高性能中應用這些持續圖學習方法的挑戰,然后討論可能的解決方案。最后,我們提出了與持續圖學習發展相關的開放問題和未來方向,并討論它們如何影響持續性能改進。隨著深度學習在生活各領域的成功應用,社區開始渴望更強大的通用人工智能。盡管具有前景的潛力,基于神經網絡的持續學習面臨著一個嚴重的遺忘問題:在新任務上的學習通常會導致舊任務上性能的急劇下降,這被稱為災難性遺忘(CF)[95]。持續學習(CL)[46, 122] 被認為是克服這一挑戰的有希望的方式。CL 被視為智能代理逐步獲取、更新、積累并利用知識以持續改善其在任務上性能的學習能力[46]。為了緩解災難性遺忘問題,已經提出了許多CL策略,包括重放方法、正則化方法和參數隔離方法[27]。這些策略在智能代理的可塑性和穩定性之間尋找平衡,并減輕了災難性遺忘的問題。然而,當前的CL僅考慮單個數據樣本,并忽略了它們之間普遍存在的聯系。此外,克服CF僅代表著實現持續性能改進(CPI)的一條必不可少的路徑,而不是CL的終點。圖,也稱為網絡,是一種描述和分析具有交互作用實體的通用數據表示。圖已被廣泛采用于模擬不同應用中不同類型的關系,從生物分子到社會網絡。一方面,許多數據自然以圖的形式存在,如引文網絡、社交網絡和交易網絡。另一方面,即使那些看似未連接的數據也可以人為地構建成圖,如文本中的依賴圖、圖像中的特征圖和代碼中的調用圖。最近,圖學習已成為AI和機器學習中一個有前景的領域,由于其在學習實體間錯綜復雜的關系及相應的網絡結構方面的優勢。

然而,圖學習也受到了災難性遺忘現象的困擾。將持續學習與圖學習整合顯然也是緩解災難性遺忘的流行解決方案。持續圖學習(CGL)的整合稱為持續圖學習。盡管CGL具有潛力,但由于歐幾里得數據與圖之間的結構差異,一般CL與CGL之間存在顯著或復雜的差異,包括模型、任務設置和方法。此外,CL和CGL主要關注克服災難性遺忘,而忽視了持續性能改進。盡管關于CGL的研究數量在增加,但關于CGL的綜述很少。為了彌補這一差距,本文旨在提供一個關于CGL研究努力的全面綜述,特別是討論CGL方法如何實現持續性能改進。本綜述與現有綜述的不同之處。由于CGL與持續學習和圖學習高度相關,兩個領域都有許多綜述。表1將相關綜述歸類為CL、圖學習和CGL。特別是,關于持續學習的綜述大多關注(i)特定領域,如自然語言處理(NLP)[11]、計算機視覺(CV)[97]、機器人學[71]和自主系統[109];(ii)特定任務,如分類[27, 88];以及(iii)模型,如神經網絡[8, 46, 93]。然而,它們都只從孤立的角度而非綜合角度考慮數據。此外,它們過分強調緩解災難性遺忘,而忽視了持續性能改進,這是持續學習的最終目標。關于圖學習的綜述主要關注特定技術,包括圖表示學習[12, 24, 43, 48, 49]、圖神經網絡[138, 170]和圖深度學習[9, 41, 164]。此外,這些研究大多數通常考慮樣本級別的連接數據,而忽略了特征級別和任務級別的連接。另外,它們只關注靜態圖而忽略了在動態圖上的持續學習。盡管有幾項綜述考慮了圖的動態性質,包括動態圖學習[171]、動態圖表示學習[10, 62, 145]和動態圖神經網絡[116],它們主要考慮模型是否適應新數據,而忽略了災難性遺忘問題,從而完全排除了CL。據我們所知,只有兩篇綜述全面整合了持續學習和圖學習。特別是,[35] 回顧了CGL的研究進展、潛在應用和挑戰,而 [154] 則分類了克服CGL中災難性遺忘的方法。盡管它們明確考慮了持續學習中數據之間的聯系并專注于CGL,但它們沒有構建一個全面的視角,并且未能徹底闡述CL和CGL之間的關系和差異。此外,它們主要關注緩解災難性遺忘,而忽略了持續性能改進。

貢獻。本綜述總結了CGL領域的最新研究,并討論了當前方法是否以及如何實現持續性能改進。具體來說,我們的主要貢獻如下所述:

  • 一個新的分類法:我們提供了一個新的分類法來總結克服CGL中災難性遺忘的方法。具體來說,從如何實現持續性能改進的角度引入了四個組別(見圖1)。
  • 一個全面的綜述:對于每一類方法,我們討論了克服災難性遺忘的動機和主要挑戰。此外,我們進一步討論了當前方法如何實現持續性能改進。據我們所知,這是第一次對持續性能改進進行探討。
  • 未來方向:專注于持續性能改進,我們進一步提出了一些與持續圖學習相關的開放問題,并討論了它們如何影響持續性能改進以及相應的未來方向。

圖1展示了本文的組織結構。第2節介紹了CL和圖學習的基礎知識。第3節提出了CGL的概述,包括形式化、動機以及克服災難性遺忘的CGL方法的新分類法。具體來說,它從特定維度比較了與CGL相關的領域。第4至第7節根據提出的分類法總結了CGL的最近進展。在每一個類別中,都調查了主要挑戰及其相應的解決方案。此外,還從知識增強和優化控制的角度討論了這些方法如何實現持續性能改進。第8節總結了現有CLG研究中使用的實際應用和數據集。此后,第9節討論了開放問題和未來方向。最后,第10節總結了本文。

持續圖學習分類法持續圖學習本質上是持續學習的一個子領域,因此,持續圖學習的目標與常規持續學習相同:通過增量學習實現模型的持續性能改進。然而,由于圖中節點之間的相互依賴性,持續圖學習在方法上比常規持續學習更為復雜和多樣化。因此,我們提出了當前持續圖學習方法的一個新分類法,該分類法分為四個類別:基于重放的方法、基于正則化的方法、基于架構的方法和基于表示的方法,如圖3所示。所提出的分類法主要關注那些明確聲稱能夠克服災難性遺忘的方法,因為當前的工作很少涉及持續性能改進。然而,我們從知識的角度討論了災難性遺忘的根本原因和持續性能改進的關鍵,并進一步討論這些方法是否以及如何實現持續性能改進。從知識的角度看,災難性遺忘的根本原因是新知識對現有知識的覆蓋。假設某一時期的知識是有限的,并且可以在持續學習的設置中學到,那么持續學習的目標就是學習所有知識并在特定任務上實現持續性能改進。基于這種考慮,持續性能改進等同于持續獲取新知識或對現有知識的補充。這通常可以通過兩種方式實現:知識增強和優化控制。知識增強指的是后續任務的知識可以增強先前任務的知識。例如,人們在低年級學習四則運算,并使用它們來解決現實世界中的問題。然而,他們不使用變量來代表數字,因此在理解對象之間的數量關系時容易犯錯。在他們高年級學習變量和方程式后,他們將使用變量方程來理解和建模對象之間的數量關系,這給他們犯錯的機會更少。在這個例子中,變量和方程是對基本四則運算的增強。知識增強可以通過學習正樣本或負樣本來實現。優化控制指的是控制學習過程。如果學習過程可以用完成度來量化,完全學習肯定優于不完全學習。類比地,那些在課堂上認真聽講并完成所有作業的學生通常會比那些在課堂上分心并留下空白作業的學生表現得更好。在本文中,我們遵循上述考慮來討論和分析當前持續圖學習方法是否以及如何實現持續性能改進。

基于重放的方法利用從先前任務中學到的知識,與當前數據一起進行聯合訓練,以避免在學習新任務時發生災難性遺忘。基于重放方法的關鍵是獲取從先前任務中學到的知識,這通常通過抽樣或生成模型來獲得。圖4總結了基于重放的方法。

基于正則化的方法通過顯式考慮拓撲結構并向損失函數添加相應的正則化項來平衡舊任務和新任務的學習,以此來規范梯度方向,從而限制對先前任務至關重要的參數的劇烈變化,以克服災難性遺忘。正則化項通常有兩種方式:約束和蒸餾。圖5總結了基于正則化的方法。

基于架構的方法通過特定架構為任務分配任務特定的參數或網絡(部分共享或不共享),以避免任務之間的干擾。這些架構可以是固定的或動態的,如圖6所示。

由于節點之間的相互依賴性以及任務間邊緣的存在,新的增量圖將會影響先前的圖,而且先前任務的知識也可以傳遞給后續任務。這種知識難以顯式地納入持續圖學習,但可以隱式地編碼在節點嵌入中,我們將此稱為基于表示的方法。其基本原理是,現有的節點嵌入已經包含了下游任務所需的所有必要信息,而通過這種方法獲得的嵌入等同于弱化的聯合訓練。一般來說,基于表示的方法可以總結為分離和傳輸,如圖7所示。

結論 由于圖在現實世界中的普遍存在和動態性質,由圖神經網絡(GNNs)代表的圖模型已在各個領域得到廣泛應用。持續圖學習是一種新興的學習范式,旨在持續學習設置中進行圖學習任務,并實現持續性能改進。在這篇綜述中,我們提供了對持續圖學習近期研究的全面回顧。我們提出了一種新的分類法,用于總結克服災難性遺忘的持續圖學習方法。此外,對于每個類別,我們簡要闡明了關鍵問題,詳細描述了當前研究中的相應實踐,并討論了實現持續性能改進的可能解決方案。進一步地,我們還提出了一些與持續性能改進相關的開放問題,并建議了相應的有前景的研究方向。我們希望這篇綜述能幫助讀者理解持續圖學習的最近進展,并對這個有前景的領域的未來發展提供一些啟示。

付費5元查看完整內容

相關內容

持續學習(continuallearning,CL) 是 模 擬 大 腦 學 習 的 過 程,按 照 一 定 的 順 序 對 連 續 非 獨 立 同 分 布 的 (independentlyandidenticallydistributed,IID)流數據進行學習,進而根據任務的執行結果對模型進行 增量式更新.持續學習的意義在于高效地轉化和利用已經學過的知識來完成新任務的學習,并且能夠極 大程度地降低遺忘帶來的問題.連續學習研究對智能計算系統自適應地適應環境改變具有重要的意義

視頻生成是一個迅速發展的研究領域,由于其廣泛的應用范圍而獲得了重大關注。這一領域的一個關鍵方面是長時視頻的生成,這呈現了獨特的挑戰和機遇。本文呈現了對長視頻生成近期進展的第一個綜述,并將其總結為兩個關鍵范式:分而治之或時間自回歸。我們深入探討了每個范式中常用的模型,包括網絡設計和條件技術的方面。此外,我們提供了數據集和評估指標的全面概述和分類,這對于推進長視頻生成研究至關重要。以現有研究的總結結束,我們還討論了這一動態領域中出現的挑戰和未來方向。我們希望這篇綜述能成為長視頻生成領域的研究人員和實踐者的重要參考。

//www.zhuanzhi.ai/paper/6fcdf09712b06f301551fccf2dc693f8

計算機視覺和人工智能領域經歷了變革性的增長,特別是在視頻生成領域。最近,開發出能夠產生高質量和逼真視頻序列的算法激增。值得注意的是,長視頻的生成,以其延長的持續時間和復雜的內容為特征,為社區提出了新的挑戰并激發了新的研究方向。

盡管如此,關于長視頻生成的研究仍存在差距。當前研究中的一個缺口是缺乏長視頻的標準定義。長短視頻之間的區別通常依賴于不同工作中的相對度量,如幀數(例如,512,1024或3376幀)或持續時間(例如,3、5分鐘),與較短視頻(例如,30、48或64幀)相比。考慮到研究標準的多樣性,我們在圖1中總結了現有研究中聲稱的長視頻生成的視頻長度,基于此我們提出了長視頻的定義。具體而言,如果視頻的持續時間超過10秒,假設標準幀率為10fps,或者等價地,如果視頻包含超過100幀,則將視頻分類為“長”視頻。這一定義旨在為各種研究背景中長視頻的識別提供一個明確的基準。

根據這一定義,長視頻長度已取得顯著進展。Yin等人(2023)提出了一種分而治之的擴散結構,專門針對長視頻進行訓練,以消除推理和訓練之間的差距,成功生成長達1024幀的視頻。Zhuang等人(2024)利用大型語言模型(LLM)的強大能力,將輸入文本擴展為腳本,以指導生成分鐘級長視頻。最近,Sora(OpenAI,2024)實現了高保真且無縫生成長達一分鐘的長視頻,特色包括多分辨率和鏡頭轉換等高質量效果。此外,許多杰出的研究在現有視頻生成模型上引入了新的結構和思想,為長視頻生成鋪平了道路。

即便如此,長視頻的生成仍面臨諸多挑戰。其核心是,長視頻的固有多維復雜性對處理和生成的硬件資源提出了巨大的需求,導致訓練和生成成本在時間和資源上的顯著增加。這提出了在現有資源約束下生成長視頻的挑戰。此外,長視頻數據集的稀缺性未能滿足訓練要求,阻止研究人員直接獲得支持長視頻模型生成的最優參數。在這種情況下,當生成的視頻長度超過某些閾值時,難以保持長視頻生成的時間一致性、連續性和多樣性。此外,當前研究表面上出現了幾種偏離現實世界既定物理定律的現象,提出了尚未被現有方法理解或直接操縱的未預見挑戰。因此,長視頻生成研究仍處于早期階段,有許多挑戰待解決,需要進一步的探索和發展。 在這項綜述中,我們對長視頻生成的現有研究進行了全面調查,旨在提供當前發展狀態的清晰概述,并為其未來進展做出貢獻。本文其余部分的組織概述在圖2中。最初,我們在第1節中定義了長視頻持續時間。第2節討論了四種不同類型的視頻生成模型和控制信號。根據第1節和第2節,我們在第3.1節和第3.2節中分別介紹了簡化長視頻生成任務的兩種常見范式:分而治之和時間自回歸。第4節和第5節討論了視頻質量改進和硬件要求。最后,本文以長視頻生成的總結和對新興趨勢及機會的討論結束。

我們詳細介紹了四種流行的視頻生成模型,包括擴散模型、自回歸模型、生成對抗網絡(GAN)和掩碼建模。 擴散模型用于視頻生成,采用了傳統擴散技術的迭代細化過程,這些技術最初是為靜態圖像設計的(Ho等,2020),適應了視頻的動態領域。這些模型的核心是從一系列隨機噪聲開始,通過一系列步驟逐步去噪,以生成一個連貫的視頻序列。每一步都由學習到的梯度指導,這些梯度能夠基于單個幀的空間內容及連續幀之間的時間關系預測性地去噪。這種方法允許生成的視頻不僅每一幀在視覺上與其前序幀一致,而且還有助于整個序列的流暢性。 在視頻生成中,空間自回歸模型(Alex Graves,2013)采用了一種獨特的方法,通過基于補丁的方法合成內容,每個補丁的創建依賴于與之前生成的補丁的空間關系。這個過程類似于遞歸算法,一次生成一個補丁。因此,它一幀一幀地構建視頻,直至完成。在這個框架內,補丁之間的空間關系至關重要,因為每個后續補丁必須與其鄰居無縫對齊,以確保整個幀在視覺上的連貫性。這種方法利用了視頻內容中固有的空間依賴性,確保視頻在時間上進展時,每一幀都與其前序幀保持一致和連續,不僅僅是在時間上,也在空間上。 GAN(生成對抗網絡)(Creswell等,2020)在使用GAN進行視頻生成的過程中,從生成器開始,將簡單的噪聲模式轉換為一系列視頻幀。這個本質上隨機的噪聲作為視頻制作的初始空白狀態。通過神經網絡的層,生成器逐漸將這個噪聲塑造成看起來像視頻幀的圖像,確保每一幀邏輯上緊跟上一幀,創造平滑的動作和可信的敘述。 這種從噪聲到視頻的演變通過來自鑒別器的反饋進行精煉,鑒別器是一個判斷生成的視頻看起來是真實還是假的組件。生成器從這個判斷中學習,隨著時間的推移提高其產生更逼真視頻的能力。最終目標是生成的視頻與真實視頻無法區分,并展示自然的動作和過渡。 掩碼建模在視頻生成中,掩碼建模利用了選擇性遮蓋視頻幀部分區域以增強模型學習過程的概念。這種技術通過在視頻的某些段落應用掩碼開始,有效地在訓練期間將它們隱藏起來。模型隨后學習基于可見的上下文和視頻的時間流動來預測這些遮蓋的部分。這個過程不僅迫使模型理解視頻內容的基本結構和動態,還提高了其生成連貫和連續視頻序列的能力。通過在部分可見數據上進行迭代訓練,模型變得擅長填補缺失的信息,確保生成的視頻保持場景和動作的自然進展。 長視頻生成范式

在長視頻生成的領域中,有限的計算資源的挑戰以及現有模型直接生成顯著持續時間視頻的能力不足,導致提出了兩個不同的范式:分而治之和時間自回歸,如圖3所示。這些范式旨在將長視頻生成的復雜任務解構為更易管理的過程,專注于創建單個幀或短片段,這些片段可以邏輯上組裝以完成長視頻的生成。 分而治之范式首先通過識別概述主要敘事的關鍵幀開始,然后生成介于關鍵幀之間的幀,以編織出一個連貫的長視頻。另一方面,時間自回歸范式,也簡稱為自回歸,采用序列方法基于先前條件生成短視頻段。這一范式旨在確保片段之間的流暢過渡,從而實現連續的長視頻敘述。與分而治之采取層次化方法通過區分故事線關鍵幀和補充填充幀不同,時間自回歸范式放棄了層次結構,轉而專注于直接生成由前序幀信息指導的詳細片段。 在這一部分,討論集中在兩個范式上,考察當前研究如何策略性地將長視頻生成任務簡化為更小、更易管理的任務。此外,它還突出了現有模型是如何被用于生成的,這些輸出隨后被組裝成完整的視頻敘述。

結論與未來方向

本文提供了長視頻生成領域最新研究進展的全面回顧。我們系統地回顧了四種視頻生成模型,并深入探討了基于這些模型生成長視頻的范式,將它們歸類為兩大類型:分而治之和自回歸。此外,我們的工作包括了長視頻生成質量特性的綜合總結。為旨在增強這些質量的現有研究提供了詳細解釋。還討論了聚焦于資源需求解決方案的研究。為了進一步推進該領域,我們識別了幾個未來發展的有希望方向。 數據資源擴展現有方法面臨著在訓練長視頻生成模型時由于長視頻數據集資源不足的挑戰,這些數據集未能滿足通過訓練數據獲得最優模型參數的要求。因此,這導致了如長視頻生成不連貫和內容重復等問題。為了解決這一問題,Gu等人(2023)提出了一種使用大型語言模型并轉換現有視頻內容以擴展數據集的方法,有效解決了數據稀缺問題。未來的研究可以探索更有效的方法來豐富長視頻數據集。 統一生成方法的開發長視頻生成的現有范式被總結為兩大類:分而治之和自回歸。雖然它們能夠利用現有模型生成長視頻,但每種方法都有其缺點。具體而言,分而治之受制于長視頻訓練數據集的稀缺性,需要顯著的生成時間,面臨在長時間跨度上預測關鍵幀的挑戰,且關鍵幀的質量顯著影響填充幀的質量。自回歸傾向于累積錯誤,并在多次推斷后遭受內容退化。總體而言,每種范式都有其優勢和弱點。未來的研究可能旨在開發一種高質量的統一范式,整合兩種范式的優勢以解決它們各自的局限性。 具有靈活長度和寬高比的生成當前的研究主要側重于訓練和創建具有預定尺寸的長視頻內容。然而,對多樣化視頻內容和模擬現實世界的日益增長的需求,要求生成具有可變長度和寬高比的視頻。Sora(OpenAI,2024)和FiT(Lu等人,2024)在這一領域取得了進展,Sora實現了靈活視頻大小的生成,FiT在圖像生成的兩個維度上展示了適應性。未來的研究可能會強調改善視頻生成的靈活性,旨在提高生成模型在現實世界設置中的適用性,并進一步激發視頻內容利用的創新。 超長視頻的生成在圖1中描述的調查中,現有研究中長視頻的最長持續時間為1小時(Skorokhodov等人,2022)。然而,在現實生活中,如電影和駕駛模擬中,視頻持續時間通常為90分鐘甚至更長。我們將這些稱為“超長視頻”。因此,未來的研究可以集中于生成超長視頻,并解決隨著持續時間延長而出現的視角轉換、角色和場景發展以及動作和情節豐富化的挑戰。 增強的可控性和現實世界模擬在長視頻生成中,當前模型在生成過程中和內部操作像黑盒一樣,使得理解錯誤的原因(如違反物理定律的錯誤,由Sora(OpenAI,2024)展示)變得具有挑戰性。現有解決方案缺乏對問題起源的洞察以及直觀、可控的補救措施。因此,需要新的方法和技術來增強我們對生成模型的理解和控制,使它們更適合于現實世界的應用。

付費5元查看完整內容

許多現實世界的數據集可以自然地表示為圖,涵蓋了廣泛的領域。然而,圖數據集的日益增長的復雜性和大小為分析和計算帶來了顯著挑戰。作為回應,圖簡化技術因其在簡化大型圖的同時保留關鍵屬性而獲得了重要地位。在這篇綜述中,我們旨在提供對圖簡化方法的全面理解,包括圖稀疏化、圖粗化和圖凝聚。具體來說,我們為這些方法建立了統一的定義,并引入了一個層次化的分類法來歸類它們解決的挑戰。我們的綜述然后系統地回顧了這些方法的技術細節,并強調了它們在不同場景中的實際應用。此外,我們概述了確保圖簡化技術持續有效性的關鍵研究方向,并在//github.com/ChandlerBang/awesome-graph-reduction上提供了一份全面的論文列表。我們希望這篇綜述能夠填補文獻空缺,并推動這一有希望的領域的進步。

圖結構數據在各個領域已變得無處不在,從社交網絡和生物系統到推薦系統和知識圖譜[Fan et al., 2019; Wu et al., 2022b, 2018; Shi and Weninger, 2017; Wang et al., 2021]。圖數據的內在關系結構使其成為模擬復雜交互和依賴關系的強大表示。此外,隨著圖機器學習技術的興起,特別是圖神經網絡(GNNs)[Kipf and Welling, 2016; Wu et al., 2020],圖數據集的利用見證了前所未有的增長,推動了節點分類、鏈接預測、圖分類和圖生成等任務的進展[Zhou et al., 2020; Ma and Tang, 2021]。 近年來,圖數據集的大小和復雜性呈指數級增長。大規模網絡,如社交圖和引文網絡[Hu et al., 2021],挑戰了現有算法的可擴展性和效率,并要求為高效模型訓練提供創新解決方案。盡管最近努力設計了可以伴隨大型圖擴展的GNNs [Jia et al., 2020; Zeng et al., 2021; Song et al., 2023; Liu et al., 2021],另一種方法專注于減小圖數據集的大小,包括圖、節點和邊的數量,我們將之稱為圖簡化[Jin et al., 2022b; Huang et al., 2021]。在本文中,我們將圖簡化定義為尋找一個更小尺寸的圖數據集的過程,同時保留其關鍵信息。具體來說,這一定義要求一個算法接受原始圖數據集作為輸入并產生一個更小的數據集。如圖1所示,圖簡化旨在通過保持其結構和語義特性來從龐大的圖數據集中提取關鍵信息。除了加速圖算法外,圖簡化還提供了一系列優勢。首先,減少后的圖顯示出與各種下游模型架構的兼容性[Jin et al., 2022b]。其次,圖簡化可能有助于隱私保護,因為它改變了原始結構或節點屬性,使它們難以恢復[Dong et al., 2022]。第三,與其較大的對應物相比,減少后的圖顯著更小,更易于人類理解,這有助于圖可視化[Imre et al., 2020]。

鑒于圖簡化的重要性,已經開發了眾多算法,這些算法分為三種不同策略:圖稀疏化[Althofer et al., 1993; Batson et al., 2009]、圖粗化[Loukas and Vandergheynst, 2018; Dorfler and Bullo, 2012],以及更近期的圖凝聚[Jin et al., 2022b,a; Xu et al., 2023; Liu et al., 2022]。圖稀疏化圍繞通過僅保留一部分邊和重要節點來近似圖的概念展開。與之相反,圖粗化并未消除任何節點,而是將節點分組并合并成超級節點,使用指定的聚合算法將原始組間邊聚合成超級邊。與前兩種策略不同,圖凝聚最近被引入作為一種在保持GNNs性能的同時,通過合成更小的圖來凝聚圖的方法。盡管這些方法已經廣泛傳播,但它們通常是孤立研究的,留下了它們之間的聯系和區別有些模糊。因此,提供這些現有算法的系統概覽,以增強我們對圖簡化技術的理解,既必要又及時。

貢獻。在這項工作中,我們旨在提供一份全面且最新的綜述,聚焦于圖簡化技術及其在解決圖相關挑戰中的多樣化應用。我們希望這份綜述能夠成為初學者研究人員和對探索該領域感興趣的從業者的寶貴資源,同時也催化未來研究努力。我們的貢獻可以總結如下:(a) 我們提供了第一個全面的圖簡化方法綜述,包括圖稀疏化、圖粗化和圖凝聚。 (b) 我們為現有的圖簡化方法開發了一個統一的視角,在第2節中根據它們的特征進行區分,并在第3節提供代表性算法的詳細回顧。 (c) 我們在第4節討論了圖簡化方法的實際應用,闡明了這些技術證明有價值的現實世界場景。 (d) 在第5節,我們識別關鍵挑戰和有希望的未來研究方向,指導圖簡化技術的持續進步

與現有綜述的聯系。與之前關于圖簡化的綜述[Liu et al., 2018; Interdonato et al., 2020; Shabani et al., 2023; Chen et al., 2022]相比,我們的研究提供了圖凝聚這一新興領域的全面概述,并提出了一個統一框架,將圖凝聚與傳統的圖簡化技術聯系起來。此外,我們的綜述探索了圖簡化和GNNs之間的協同作用,這是現有綜述中很少涉及的一個方面。同時,一些以數據為中心的圖學習綜述[Zha et al., 2023; Zheng et al., 2023a]包括了對圖簡化的討論,但我們提供了更詳細、更徹底的簡化技術審查。此外,我們的工作與最近關于數據集蒸餾的綜述[Geng et al., 2023; Sachdeva and McAuley, 2023]有所聯系,雖然它們主要關注應用于圖像數據的凝聚方法。 在圖2中,我們提供了上述類別中現有圖簡化方法的詳細分類,并將在接下來的部分中詳細闡述。此外,表2提供了前面提到的三種圖簡化策略的定性比較。

方法論

在本節中,我們將介紹上述三種圖簡化策略的代表性算法。對于每種策略,我們根據它們的學習目標對方法進行分類,并在表3中總結了流行的方法。 圖稀疏化 圖稀疏化作為圖簡化的直觀方法,涉及基于特定標準選擇關鍵邊或節點。傳統方法通常側重于保留特定圖屬性,如譜和中心性。隨著GNNs日益流行,旨在維持節點表示質量的方法越來越多。因此,我們根據它們的保留目標將現有技術分為兩組:一組專注于保留圖屬性的,另一組致力于維持模型性能的。 圖粗化 在稀疏化方法中選擇節點或邊不可避免地會丟失一些信息。為了確保保留足夠量的信息,開發了粗化技術,涉及對節點進行分組并聚合它們。這一過程可以迭代進行,產生原始圖的層次視圖。現有的粗化方法可以根據是否存在重構目標分為兩組:基于重構的方法和無需重構的方法,將在后續進一步闡述。 圖凝聚 盡管稀疏化和粗化方法在減小圖數據的大小方面已被證明是有效的,但它們存在內在的局限性。由于這些方法中的許多優先保留特定的圖屬性,它們沒有利用下游任務信息,可能導致模型性能不佳。此外,這些技術依賴于原始圖中存在代表性節點或邊的假設,這在原始數據集中可能并不總是成立。為了解決這些問題,圖凝聚首次由[Jin et al., 2022b]引入,開始發揮作用。

結論

在本文中,我們提供了一個結構化且具有前瞻性的圖簡化綜述。我們首先建立了圖簡化的正式定義,然后開發了一個詳細的層次分類法,系統地組織了這一領域內的多樣化方法論。我們的綜述將圖簡化技術劃分為三個主要類別:稀疏化、粗化和凝聚。每個類別代表了一種獨特的方法來減少圖復雜性,同時保留關鍵屬性。在每個類別中,我們系統地深入探討了突出方法的技術細節,并突出顯示了它們在各種現實世界場景中的實際應用。此外,我們闡明了該領域內存在的挑戰,并指出了未來研究努力的潛在方向。我們的目標是激勵和指導即將進行的研究,為圖簡化方法論的持續發展和進步做出貢獻。

付費5元查看完整內容

現代人工智能為產生不同風格的數字藝術提供了一種新穎的方式。神經網絡的表達能力使得視覺風格轉移方法成為可能,這些方法可以用來編輯圖像、視頻和3D數據,使它們更具藝術性和多樣性。本文報道了3D數據神經風格化的最新進展。我們提供了一種神經風格化的分類法,考慮了幾個重要的設計選擇,包括場景表示、指導數據、優化策略和輸出風格。基于這種分類法,我們的綜述首先回顧了2D圖像神經風格化的背景,然后對3D數據的最新神經風格化方法進行了深入討論,并提供了一個關于藝術風格化方法的小型基準測試。基于綜述中獲得的洞見,我們接著討論了開放性挑戰、未來研究,以及神經風格化的潛在應用和影響。

//www.zhuanzhi.ai/paper/d5ea0c58d303f46ebcf7e8cc629aa08c

數字藝術和視覺設計在我們的日常生活空間中盛行,表達了視覺上引人入勝的美學、獨特的品味和人類的情感。隨著計算硬件的最新進展,使用計算工具或算法創作高質量的數字藝術越來越受到公眾關注。人工智能(AI)技術的出現進一步推動了這一計算設計過程,并顯示出加速或自動化創作數字藝術的強大潛力。最近出現的視覺合成和編輯AI產品,如LUMA AI [Lum23]、DALL·E 3 [Ope23]、Midjourney [Mid23] 和 RunwayML [Run23] 已成功展示了它們加速高質量視覺設計和生成的能力。

本報告深入探討了利用AI創作3D數字藝術的最新進展,特別是通過風格化。一個典型的3D場景風格化涉及編輯場景幾何和/或外觀以匹配某些指定的藝術風格。風格化可以通過現代深度學習中的神經網絡實現,因此稱為神經風格化。放在傳統計算機圖形管線的背景下,3D神經風格化可以被視為傳統渲染管線的替代品,使用可編程著色器用于風格化的后處理。因此,3D神經風格化有助于減少在風格化3D場景中的勞動密集型手工工作,包括3D建模、紋理化、渲染或模擬。3D神經風格化因此對于各種工業應用具有實際價值,包括電影制作中的3D紋理設計和藝術模擬 [NR21,KAOT23,HHK?23],混合現實體驗 [THC?22, Tan19](圖2),逼真的視覺特效(VFX)和虛擬制作 [Man23],藝術品創作 [GC22] 以及視頻游戲開發 [OBW22,MLS?22]。從2D神經風格化擴展到3D,使用傳統3D表示和渲染進行的3D神經風格化通常面臨視角一致性和逼真渲染問題。多虧了神經渲染技術的進步,對于不同3D表示(包括網格、體積、點云和神經場)的3D神經風格化取得了高質量結果的顯著改進。它也適用于各種3D場景,從小型物體場景到大型野外場景,甚至應用于工業生產 [HHK?23]。

在本報告中,我們涵蓋了3D神經風格化領域的風格化基礎、最新進展、現有挑戰和未來研究方向。我們從神經風格化的基本技術(第2節)開始,包括2D視覺風格轉移算法和3D神經渲染。在第3節中,我們介紹了神經風格化的分類法,并為3D神經風格化的最新技術提供了分類。使用這種分類法,我們深入討論了先進的3D神經風格化方法,并提出了我們對3D風格化最近困難的分析。在第4節中,我們總結了3D風格化評估中常用的數據集。我們還提供了一個小型基準測試,作為評估最新3D風格化算法性能的標準。最后,在第5節中,我們討論了開放的挑戰和未來的研究方向。我們將隨報告發布我們的評估代碼和其他實施資源。

本報告的范圍專注于應用于3D場景的神經風格轉移。目標是探索基于深度學習的技術和方法,這些技術和方法能夠自動將藝術或逼真風格和語義特征轉移到3D數字世界中。盡管承認專用于風格化的3D訓練數據集的稀缺性和挑戰,本報告旨在突出現成的大型數據模型驅動的圖像引導和文本引導神經風格化的潛力,以實現視覺上吸引人的3D風格化結果。神經風格化基礎在神經風格化的基礎上,視覺風格轉移指的是編輯場景的紋理或顏色以匹配由參考圖像定義的風格,同時保持整體場景結構不變。在這一節中,我們首先提供2D神經風格化的概覽作為基礎。我們重點關注圖像引導和文本引導的風格轉移,因為它們是兩種主要的風格化方法,分別通過一張圖片或一段文字來指示目標風格參考。我們從使用經典特征提取器(如VGG分類器和CLIP編碼器)的簡單方法開始討論基礎知識。我們還根據它們的優化方法對這些2D神經風格轉移技術進行分類。最后,我們簡要介紹神經輻射場的基礎知識,這是一種重要的3D神經表示形式,在第3節中將深入討論3D神經風格化。我們參考了[JYF?19,SJJ?21,ZYW?23]中關于條件圖像合成和風格化的更多討論,以及[TTM?22,XTS?22]中關于場景表示和神經渲染的更多討論。

3D神經風格化

3D神經風格化指的是將神經風格化技術應用于修改現有3D數字表示的視覺外觀和美學特征。這個過程涉及利用神經網絡及相關風格化算法來操縱顏色、紋理、形狀等3D模型的視覺和幾何屬性。3D神經風格化促進了3D數字內容的視覺風格化自動生成,為計算機圖形學領域的創意表達和視覺設計提供了新的途徑。為了將3D表示與新風格融合,需要考慮兩個重要因素:3D幾何保留和風格轉換。與視覺風格轉移類似,我們關注基于圖像和文本的3D神經風格化方法。大多數方法依賴現有的大型預訓練模型(例如VGG和CLIP)進行零樣本特征提取,并且不需要任何額外的3D數據預訓練。與3D數據上的預訓練3D特征提取器相比(例如體素[WSK?15]、網格[MBBV15]、點云[QSMG17, ZJJ?21]),圖像和文本預訓練模型是廣泛可訪問的,它們以多級視覺模式和語義特征提取而聞名。在這一節中,我們首先引入神經風格化的分類法,并給出現有3D神經風格化方法的分類示例。在后續章節中,我們將介紹最先進的3D神經風格化技術,涵蓋了如網格、體積數據、點云和隱式場等多種3D表示,重點關注外觀和/或幾何風格化的轉變。最后,我們將深入總結和分析3D神經風格化的技術。

分類法 我們從2D對應物擴展了3D神經風格化的術語。3D神經風格化方法的分類法如圖9所示,詳細內容如下。

  • 表示形式可以是顯式圖像或隱式2D場,構建的3D資產如網格、體積模擬、多視圖3D重建(如重建的網格),以及隱式3D場。

  • 神經風格特征指的是來自預訓練特征提取器的圖像視覺嵌入或文本語義嵌入,通常是神經分類器。

  • 優化指的是基于優化的(類似于第2.1節)或基于預測的風格化方法(類似于第2.2節),支持單一、多個或任意風格。

  • 風格化類型指的是不同類型的風格化,從從藝術作品中檢索的風格(例如圖1中的梵高星夜雕塑場景),到逼真風格(包括傳統基于顏色的風格轉移和逼真的幾何與外觀變化,例如圖1中的“燃燒的松果”),再到具有風格語義對應的語義風格轉移,使用顯式標簽或掩碼,或隱式文本或視覺語義定位和映射。我們進一步將方法分類為幾何風格化和外觀風格化,其中幾何風格化指的是變換原始形狀以對齊風格參考,如改變頂點、體素的位置,外觀風格化指的是重新著色、圖案和圖騰轉移,如圖像像素、紋理映射、頂點顏色、點顏色和輻射場。 圖10展示了3D神經風格化方法的層次分類。表1詳細突出了基于我們在圖9中提出的分類法標準的選定3D風格化方法的分類和比較。

結論

本最新報告探討了3D神經風格化的進展,特別是針對3D數據的圖像引導和文本引導神經風格化技術。通過對最新3D神經風格化技術及其相應應用的全面綜述,我們強調了神經風格化在加速創造過程、實現風格化的細粒度控制、以及在電影制作、虛擬制作和視頻游戲開發等多個領域增強藝術表達的重要性。此外,我們介紹了神經風格化的分類法,為神經風格化領域的新作品提供了一個分類框架。我們對先進技術的分析和討論強調了持續的研究努力,旨在解決限制并推動3D數字領域神經風格化的邊界。最后,我們提出了一個3D藝術風格化的小型基準測試,我們的目標是為其他3D風格化作品提供靈感和評估標準。

付費5元查看完整內容

本報告詳細介紹了在 DARPA LwLL 或 "少標簽學習 "項目中采用的方法和取得的成果。

本報告解決的關鍵問題是從小標簽數據集學習的問題。這是許多應用領域經常遇到的問題。尤其是在國防應用領域,標簽數據可能是分類數據,因此數量有限。不幸的是,現代深度學習系統需要大量的標注訓練示例,這使得它們在標注較少的情況下效果不佳。在本報告中,我們將介紹我們在開發新型學習機器方面所做的努力,這些機器可以有效地從少量標簽中學習。

我們對這一問題的主要見解是利用任務和領域中的結構。這種結構可以是關于所需不變性的領域知識。它也可能更無定形,難以具體化,但它可能決定了哪些分類器能在該領域發揮良好的作用。我們探索了三種納入這種領域結構思想的方法:

1.納入已知不變量: 我們探索了明確包含已知不變量的機器學習新架構。特別是,我們設計的識別架構允許特征在空間上移動,以納入姿勢不變性。

2.跨領域學習: 考慮到不同領域之間的相似性,我們探索了跨領域傳輸所學模型的新技術。

3.特定領域的學習算法: 我們還探索了兩個領域的專業學習技術:衛星圖像和自動駕駛汽車。對于這些領域,我們利用數據的特殊結構來學習無標簽模型。

使用標準基準和 DARPA 評估進行了實驗。普遍發現

1.在對領域一無所知的情況下,最佳策略是自我訓練,即使用經過適當過濾的網絡自身輸出作為 "地面實況 "標簽。在這里,我們發現了進行自我訓練的新方法,即使網絡是在完全不同的問題領域中訓練出來的。

2.如果我們了解我們正在處理的領域,我們甚至可以建立完全無監督的識別模型,其性能優于有監督的模型。關鍵是要利用底層數據生成過程的知識。我們在衛星圖像和自動駕駛汽車上都展示了結果。

付費5元查看完整內容

過去十年里,深度神經網絡通過使用小批量隨機梯度下降(mini-batch stochastic gradient descent)訓練方案在大型數據集上展現了顯著的成功。在此基礎上,研究者開始大量探索神經網絡在其他學習場景中的應用。一個受到廣泛關注的框架是元學習(meta-learning)。通常被描述為“學會學習”,元學習是一種以數據為驅動,優化學習算法的方法。其他感興趣的分支包括持續學習(continual learning)和在線學習(online learning),這兩者都涉及使用流數據逐步更新模型。雖然這些框架最初是獨立開發的,但最近的工作開始探討它們的結合,提出新穎的問題設置和學習算法。然而,由于復雜性的提高和缺乏統一術語,即使是經驗豐富的研究人員也可能難以辨識這些學習框架之間的差異。為了促進清晰的理解,本文提供了一份全面的綜述,使用一致的術語和正式描述來組織各種問題設置。通過概述這些學習范式,我們的工作旨在促進這一研究領域的進一步發展。

近年來,深度神經網絡的成功主要基于離線學習框架,該框架涉及使用從大型數據集中以獨立同分布(i.i.d.)方式采樣的小批量進行隨機梯度下降(SGD)。另一方面,人類展示出了令人印象深刻的遞增學習能力,即使是從高度非靜態數據流中也能學習,并且不像深度神經網絡那樣需要大量的訓練數據。此外,人類可以隨著知識和經驗的積累不斷提升其學習能力。因此,已有大量努力致力于使深度神經網絡適應這些類人學習場景。在線學習[1]和持續學習[2],[3]是應對這些挑戰的研究領域的例子。這兩者都通過從數據流中學習來逐步更新模型,但它們在目標和假設上有細微差別。最顯著的是,在線學習假設一個靜態流,而持續學習旨在減輕從非靜態流學習時的災難性遺忘。

另一個重要的研究領域是元學習[4]。與傳統機器學習不同,后者通過訓練集優化模型,元學習專注于以數據驅動的方式優化學習算法,使其產生比手工制作的學習算法更好的模型。因此,它通常被描述為“學會學習”。標準學習只涉及一個學習階段,而元學習包括多個學習階段,這些階段被分為元訓練集和元測試集。通過利用元訓練集中的多個階段提取的元知識,元學習旨在改進元測試集中每個階段的學習。元學習也與多個其他領域密切相關,如小樣本學習[5],[6],[7]和遷移學習[8],[9]。

雖然這些學習框架已經進行了廣泛的單獨研究,但最近在它們的協同結合方面出現了濃厚的興趣,導致了新問題設置和方法的出現。例如,在元持續學習的情況下,傳統元學習的每個階段被替換為一個持續學習階段。這種設置可以被稱為“學會持續學習”。另一個例子是在線元學習,其中學習階段不是一次性提供的,而是作為一系列階段呈現,可以總結為“順序學會學習”。

盡管這些框架每個都具有獨特的特點和重要性,但由于幾個原因它們可能容易混淆。首先,結合多個框架不可避免地增加了問題表述的復雜性。其次,即使問題設置的基本結構相同,個別論文經常引入一些變體,使它們更難以分類。最后,缺乏統一的術語和表述加劇了混淆。

在這種背景下,我們的主要目標是提供一個全面概述,涉及在線學習、持續學習和元學習之間的交叉點。我們建立了統一的符號來組織現有學習框架到一個明確定義的分類中。使用我們的符號,我們首先定義了四個基本學習框架,即離線學習、在線學習、持續學習和元學習。然后,我們將它們的組合分類為五個主要分支:元在線學習、元持續學習、在線元學習、持續元學習和持續雙層學習。對于這些組合學習框架中的每一個,我們提供了一個正式定義,并綜述了相關論文。

雖然我們確實解釋了基本學習框架的概念,但這項工作主要關注它們的組合,目前尚缺乏全面的綜述。雖然不是嚴格必要的,但參考現有的綜述可以促進對話題的更深入理解。我們建議參考在線學習的綜述[1],持續學習的[2],[3],以及元學習的[4]。總而言之,我們的貢獻可以概括如下。首先,我們為在線、持續和元學習的組合定義了清晰的學習框架分類。其次,我們提供了每個類別的全面綜述,識別了各種研究分支。第三,我們探討了剩余的挑戰,并提出了在這個有前景的領域未來工作的潛在途徑。

本文的其余部分安排如下。在§2中,我們介紹了學習框架的定義和分類。我們用正式算法和數據結構的圖形說明補充了描述。在§3-§6中,我們提供了每個學習框架的全面綜述和討論。在§7中,我們討論了剩余的挑戰,并提出了潛在的研究方向。最后,在§8中,我們以一般討論和未來的評論結束。

本節定義了相關學習框架的問題表述。我們根據它們的問題設置,將學習框架分類為八個主要分支:離線學習、在線學習、持續學習(CL)、元學習、元在線學習(MOL)、元持續學習(MCL)、在線元學習(OML)和持續元學習(CML)。解決這些問題的方法將分別在§3-6中描述。圖1展示了每個學習框架的關鍵特征和數據結構,表1總結了我們在本文中使用的統一符號。

付費5元查看完整內容

基于圖像的虛擬試穿旨在合成一張穿著自然的人物圖像和服裝圖像,這不僅徹底改變了在線購物體驗,也激發了圖像生成領域內相關話題的探索,顯示了其研究意義和商業潛力。然而,當前研究進展與商業應用之間存在較大差距,這一領域缺乏全面的概述以加速其發展。在這篇綜述中,我們對最先進的技術和方法論進行了全面分析,涵蓋了流程架構、人物表示以及關鍵模塊,如試穿指示、服裝變形和試穿階段。我們提出了一種新的語義標準,并使用CLIP評估了代表性方法,這些方法均應用了統一實施的評估標準,并在相同的數據集上進行評估。除了對當前開源方法進行量化和質化評估外,我們還利用ControlNet微調了最近的大型圖像生成模型(PBE),展示了大規模模型在基于圖像的虛擬試穿任務上的未來潛力。最后,我們揭示了尚未解決的問題,并展望了未來的研究方向,以識別關鍵趨勢并激發進一步探索。統一實施的評估標準、數據集和收集的方法將在 //github.com/little-misfit/Survey-Of-Virtual-Try-On 上公開。

1 引言

基于圖像的虛擬試穿是人工智能生成內容(AIGC)領域中的一個熱門研究話題,特別是在條件性人物圖像生成領域。它使得編輯、更換和設計服裝圖像內容成為可能,因此在電子商務平臺和短視頻平臺等多個領域具有極高的應用價值。特別是在線購物者可以通過虛擬試穿獲取服裝的試穿效果圖像,從而增強他們的購物體驗并提高成功交易的可能性。此外,AI時尚也在短視頻平臺上出現,用戶可以根據自己的創意編輯圖像或視頻中角色穿著的衣服。這使得用戶可以探索他們的時尚感并制作出一系列迷人的圖像和視頻。 虛擬試穿的概念最早在2001年提出,使用預先計算的通用數據庫來生成個人尺寸的身體并在網絡應用上動態展示服裝。虛擬試穿方法可以分為三類:基于物理的模擬、真實采集和圖像生成。以布料模擬技術為核心部分的物理基礎試穿模擬還涉及人體重建和布料測量。這類方法在姿勢可控和360度展示方面有優勢,但在準確性、效率和自動化方面面臨諸多困難。一些品牌,例如優衣庫和GAP,采用這種方式作為虛擬試穿解決方案。真實采集方法通常捕捉并存儲服裝在形狀可控機器人上的外觀,用于后續展示,展示出高保真度。只有少數公司,如Fits.me,采用了這種方法,這需要大量的實際采集勞動。隨著圖像生成技術的發展,基于圖像的虛擬試穿因其高效率和低成本而變得吸引人。然而,生成圖像中的人工痕跡阻礙了其在實際場景中的應用。具體來說,本文聚焦于基于圖像的虛擬試穿方法,對方法設計和實驗評估進行了全面回顧,并進一步揭示了未解決的問題和未來研究方向的展望。

基于圖像的虛擬試穿可以被看作是一種條件性人物圖像生成,自2017年以來經歷了快速發展(見圖1)。給定一張穿著服裝的人物圖像和一張店內服裝圖像,基于圖像的虛擬試穿旨在合成一張自然穿著的身體圖像。要完成這項任務,需要克服三個主要難點:1)獲取高質量的監督訓練數據:幾乎不可能獲得同一人在相同姿勢下試穿兩件不同服裝的照片配對。2)實現服裝在人體適當區域的自然和真實的彎曲和陰影效果:確保服裝自然無縫地適應身體輪廓并在光線和陰影方面看起來真實是一項挑戰。3)生成真實的試穿圖像:需要在非服裝區域(如移除新服裝未覆蓋的原始服裝殘留)保持一致性,同時保持人物身份的清晰。為了克服上述困難,已經做出了巨大努力,圖1展示了一些代表性方法的時間線。2017年,CAGAN [19]首次嘗試使用CycleGAN [20]來克服訓練三元組數據(原始人物圖像、店內服裝圖像、試穿圖像)缺乏的問題,但生成質量遠未達到滿意。隨后,VITON [21]創造性地提出了人體解析的服裝不可知人物表示,以彌補監督訓練數據的不足。他們構建了“試穿指示 + 衣物變形 + 試穿”的基本網絡框架,為后續作品中進一步提高生成質量奠定了基礎 [22]–[31]。除了持續的質量改進,一些新的目標也受到關注。2019年,多件服裝的試穿引起了注意 [32],但由于多件服裝之間復雜的相互作用和缺乏專門的數據集,此類工作較少 [33]–[35]。為了擺脫對人體解析的過度依賴,設計了幾個師生網絡 [36]–[38],以實現在推理時無解析器的試穿。最近,隨著計算能力的提升,高分辨率虛擬試穿任務變得可能,例如VITON-HD [39] 和 HR-VTON [31]。受到圖像生成領域StyleGAN [40]–[43] 和 Diffusion模型 [44]–[47] 的啟發,出現了單階段網絡 [48]、[49] 以及Diffusion架構 [50]。

盡管新興工作層出不窮,但缺乏系統性的綜述來總結基于圖像的虛擬試穿方法在數據集、方法設計和實驗評估方面。之前的兩篇綜述 [51]、[52] 僅介紹了幾種代表性方法,但沒有進行全面的比較和統一評估。據我們所知,這是第一次系統性的基于圖像的虛擬試穿綜述,具有統一評估,并且還具有以下獨特特點:

? 深入分析。我們從流程結構、人物表現、服裝變形策略、試穿指示和圖像合成的架構以及相應的損失函數等多個角度,全面回顧了現有的基于圖像的虛擬試穿方法。

? 評估:統一評估、新標準和用戶研究。我們使用相同的數據集評估開源作品,并且還對視覺結果進行了333名志愿者的用戶研究。特別地,我們計算了CLIP [53] 的語義分數作為一種新標準,可以分別評估試穿和非試穿部分的語義相似性。相關數據和代碼將在 公開。

? 開放挑戰和未來方向。根據實驗結果,我們揭示了一系列未解決的問題,并提出了重要的未來研究方向。此外,我們利用ControlNet [54] 微調了最近的大型模型(PBE [55])用于基于圖像的虛擬試穿,展示了流行的大型模型在這一任務上的潛力和問題。我們希望這篇綜述能激發新穎的想法,并加速基于圖像的虛擬試穿及其在工業中的應用發展。

本綜述的其余部分安排如下。第2節首先給出問題定義,然后從多個角度全面回顧文獻。第3節介紹數據集和評估標準。實驗結果和分析在第4節呈現。然后我們在第5節揭示未解決的問題,并在第6節展望未來方向。最后,第7節總結本文。

基于圖像的虛擬試穿可以被視為一種條件性圖像生成任務,它使用店內服裝圖像Ic和人物圖像Ip作為原始數據,并預處理原始數據作為條件信息,以指導模型生成試穿圖像 Itry-on = G(Ip, Ic)。在基于圖像的虛擬試穿中通常涉及三個關鍵模塊: ? 試穿指示旨在為服裝變形模塊中的服裝變形和試穿模塊中服裝與身體的融合提供先驗。它通常采用人體表示的組合(例如,語義信息 [56]、[57],Densepose [58],Openpose [59]、[60] 等)作為輸入,并預測試穿狀態下人體的空間結構。 ?** 衣物變形將服裝圖像轉換為試穿狀態下的空間分布**。該模塊的輸入包括服裝圖像和人體特征,如試穿指示模塊中獲得的服裝不可知人物表達或穿著服裝的人物表達。通過像TPS [61]、STN [62] 和 FlowNet [63] 這樣的變形方法,變換像素/特征點的空間位置,該模塊的輸出可以是變形的服裝圖像或變形的服裝特征。 ? 試穿模塊通過融合人體和服裝特征來生成最終的試穿圖像。該模塊設計了插值或生成網絡,輸出圖像應滿足以下要求:1)試穿區域內的服裝應清晰自然,2)試穿區域外的內容(不包括計劃脫下的原始服裝)應保持不變,3)新服裝與人體之間應有正確的語義關系。

值得注意的是,上述三個步驟不一定同時存在,也沒有嚴格的順序。表1總結了代表性方法,我們將在以下小節中討論關鍵設計。 在虛擬試穿流程中,上述三個模塊的選擇和放置對最終試穿結果有重要影響。如圖2所示,基本的流程結構可以分為七種類型。類型I和II是單階段流程,后者額外引入了特征對齊。類型III和IV是兩階段流程,分別利用人物表達和變形服裝作為中間生成進行進一步優化。其余類型是三階段流程,其中類型V和VI在試穿指示和衣物變形模塊的順序上有所不同,而類型VII同時優化這兩個模塊。代表性方法的流程選擇可以在表1中找到,發展趨勢上沒有明顯偏好。

作為基本試穿圖像生成流程的補充,圖3展示了其他結構,如師生網絡 [36]–[38] 和 Cycle-GAN [20]、[77]。師生架構主要用于訓練無解析器試穿網絡,圖3a展示了直接實現 [36]。PFAFN和Style-Flow-VTON [37]、[38] 進一步將其改進為圖3b,其中由教師網絡生成的合成圖像 Itry-on 用作學生網絡的輸入。與類型1相比,類型2在教師網絡生成不良結果的情況下提供了更可靠的監督。同樣地,采用 Cycle-GAN [20]、[77](圖3c)也顯示了使用循環一致性來增強試穿監督的策略。

結論

在這篇綜述中,我們提供了基于圖像的虛擬試穿當前研究狀態的全面概覽。代表性方法在流程、人物表達、試穿指示、衣物變形、試穿階段及相應損失等方面的特點進行了比較和分析。我們使用了一個通用數據集,并在相同的評估標準(包括一種新提出的標準)下評估了現有的開源作品,以分析現有設計。此外,揭示了未解決的問題,并指出了未來的工作方向。通過綜合現有文獻,識別關鍵趨勢,并突出未來研究的領域,我們希望激發基于圖像的虛擬試穿的進一步發展。

付費5元查看完整內容

開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為

//github.com/HITsz-TMG/awesome-llm-attributions。

自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。

幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):

考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型

  1. 直接模型驅動的歸因:大型模型本身為其回答提供歸因。然而,這種類型經常面臨挑戰,因為回答可能不僅是虛構的,而且歸因本身也可能是虛構的(Agrawal等人,2023)。雖然ChatGPT在大約50.6%的時間里提供正確或部分正確的答案,但建議的參考文獻僅在14%的時間內存在(Zuccon等人,2023)。
  2. 檢索后回答:這種方法根植于明確檢索信息然后讓模型基于這些檢索到的數據進行回答的思想。但檢索并不本質上等同于歸因(Gao等人,2023b)。當模型的內部知識和外部檢索的信息之間的邊界變得模糊時,可能會出現潛在的知識沖突問題(Xie等人,2023)。檢索也可以被用作一種專門的工具,允許模型獨立觸發它,類似于ChatGPT 1中的“使用必應進行瀏覽”。
  3. 生成后歸因:系統首先提供答案,然后使用問題和答案進行歸因搜索。如果需要,答案然后會進行修改并得到適當的歸因。現代搜索引擎,如Bing Chat 2,已經包含了這種歸因方式。然而,研究顯示,從四個生成式搜索引擎生成的內容中,只有51.5%完全得到了引用文獻的支持(Liu等人,2023)。這種歸因方式在高風險專業領域,如醫學和法律中尤其缺乏,研究發現有大量不完整的歸因(分別為35%和31%);而且,許多歸因來自不可靠的來源,51%的歸因被專家評估為不可靠(Malaviya等人,2023)。

超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。

歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。

直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。

**檢索后回答 **

多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。

生成后歸因

為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。

付費5元查看完整內容

盡管近年來深度學習取得了巨大進展,但訓練神經網絡所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關于算法高效深度學習的研究,這些研究旨在通過改變訓練程序的語義,而不是在硬件或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將算法加速問題形式化,然后我們使用算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,并揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(通過實驗說明),并為它們提供分類緩解策略。最后,我們強調了一些尚未解決的研究挑戰,并提出了有希望的未來方向。 //arxiv.org/abs/2210.06640

在過去的幾年里,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文本到圖像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。實現這些性能提升的關鍵策略是將DL模型擴展到非常大的規模,并對它們進行大量數據的訓練。對于大多數應用程序,可訓練參數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。大規模人工智能模型的著名例子包括:用于視覺應用的Swin Transformer-V2 [Liu等人2022a],用于語言建模的PaLM [Chowdhery等人2022],用于內容推薦的波斯[Lian等人2021],具有100萬億參數。

盡管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當于5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的性能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的性能,但還沒有達到。不斷增長的模型和數據規模以達到所需的性能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智能模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的用戶(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種算法高效的深度學習方法可以通過多種方式改變訓練過程,包括:改變數據或樣本呈現給模型的順序;調整模型的結構;改變優化算法。這些算法改進對于實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。

此外,這些算法增益與軟件和硬件加速技術相結合[Hernandez和Brown 2020]。因此,我們相信算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益并降低其成本。雖然最近涌現的算法效率論文支持了這一觀點,但這些論文也表明,算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特征不佳的環境中執行的,這將導致不正確或過于寬泛的結論。在討論算法效率方法時,缺乏反映它們的廣度和關系的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來并開發新的方法。因此,本文的核心貢獻是組織算法效率文獻(通過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(通過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,算法效率方法是否會導致實際的加速確實取決于方法(通過我們的分類法可以理解)和計算平臺(通過我們的從業者指南可以理解)之間的交互。

我們的貢獻總結如下:

  • 形式化加速:我們回顧DNN效率指標,然后形式化算法加速問題。
  • 分類和調研:我們通過適用于3個培訓管道組成部分的5個加速行動(5Rs)對200多篇論文進行分類(見表1和表3)。分類有助于為從業者選擇方法,為讀者消化文獻,并為研究人員識別機會。
  • 最佳評估實踐:我們識別了文獻中常見的評估陷阱,并相應地提出最佳評估實踐,以實現對各種加速技術的全面、公平和可靠的比較。
  • 從業者指南:我們討論了影響加速方法有效性的計算平臺瓶頸。根據訓練管道中瓶頸的位置,提出適當的方法和緩解措施。

有了這些貢獻,我們希望改進算法效率的研究和應用,這是計算效率深度學習的關鍵部分,需要克服現有研究面臨的經濟、環境和包容相關的障礙。本文主要分為四個部分:第2節概述了DNN訓練和效率度量以及算法加速問題的形式化。第3節使用廣泛適用的加速方法的構建塊以及它們影響的訓練管道組件來開發我們的分類法。第4節根據我們的分類法對加速文獻進行了全面的分類,并討論了研究機會和挑戰。第5節和第6節分別討論了比較不同方法的最佳評估實踐和選擇合適的加速方法的實際建議。最后,第7節總結并提出了算法效率領域的開放問題。

付費5元查看完整內容

強化學習作為人工智能領域研究熱點之一,它與元學習相結合的研究進展與成果也引發了眾多關注。元強化學習近年來取得了令人矚目的成就,其應用于各個領域的研究也取得較大的進步。元強化學習在總結多次學習策略的情況下,以不斷改進學習算法。近年來,該方向已經取得了一系列矚目的進展,比如策略自適應、機器人導航、加工參數優化等。故元強化學習領域具有較大的潛在研究優勢。

付費5元查看完整內容

多目標跟蹤(MOT)的問題在于在一個序列中跟蹤不同目標的軌跡,通常是視頻。近年來,隨著深度學習的興起,為這一問題提供解決方案的算法受益于深度模型的表示能力。本文對利用深度學習模型解決單攝像機視頻MOT任務的作品進行了全面的綜述。提出了MOT算法的四個主要步驟,并對深度學習在每個階段的應用進行了深入的回顧。本文還對三種MOTChallenge數據集上的現有工作進行了完整的實驗比較,確定了一些最優的方法之間的相似性,并提出了一些可能的未來研究方向。

付費5元查看完整內容
北京阿比特科技有限公司