亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文提供了對去噪擴散概率模型(DDPMs)的數學嚴謹介紹,DDPMs 有時也被稱為擴散概率模型或擴散模型,主要用于生成式人工智能。我們提供了 DDPMs 的基本數學框架,并解釋了訓練和生成過程背后的主要思想。本文還回顧了文獻中一些選定的擴展和改進,如改進版 DDPMs、去噪擴散隱式模型、無分類器擴散引導模型以及潛在擴散模型。

1 引言

生成模型的目標是基于從未知潛在分布中采樣得到的數據集,生成新的數據樣本。為了實現這一目標,已經提出了許多不同的機器學習方法,例如生成對抗網絡(GANs)[12]、變分自編碼器(VAEs)[22]、自回歸模型[47]、歸一化流[37]和能量基模型[25]。本文將介紹去噪擴散概率模型(DDPMs),這是一類生成方法(有時也被稱為擴散模型或擴散概率模型),其基于重建一個擴散過程的思想,擴散過程從潛在分布開始,逐漸向其狀態添加噪聲,直到最終狀態完全是噪聲,然后反向重建。通過這種反向重建,純噪聲轉變為有意義的數據,因此 DDPMs 提供了一種自然的生成框架。我們旨在提供對 DDPMs 背后動機思想的基本但嚴謹的理解,并對文獻中一些最具影響力的基于 DDPM 的方法進行精確描述。

DDPMs 最初在 [44] 中提出,并在 [15] 中進一步推廣,已經能夠在圖像合成和編輯 [31,35,36,38,40]、視頻生成 [17,53]、自然語言處理 [3,26] 和異常檢測 [50,52] 等許多領域取得最先進的成果。在經典的形式中,DDPM 是一個由兩個隨機過程組成的框架,即正向過程和反向過程。正向過程——擴散過程——從初始時間步驟的(近似)潛在分布開始(例如,它的初始狀態可以是數據集中的隨機樣本),然后逐漸向其狀態添加噪聲,直到其終止時間步驟的狀態(近似)完全是噪聲。反向過程——去噪過程——是一個參數化過程,從(終止時間步驟)完全噪聲的狀態開始。在 DDPM 的背景下,關鍵思想是學習反向過程的參數,使得反向過程每個時間步驟的分布近似與正向過程對應時間步驟的分布相同。如果這一目標得以實現,反向過程可以解釋為逐漸去除噪聲,直到恢復到正向過程的初始分布。從這個意義上講,反向過程逐漸去噪其完全噪聲的初始狀態。一旦找到合適的反向過程參數,生成過程便是從反向過程采樣生成的。 在第2節中,我們將為 DDPMs 構建一個一般的數學框架,并解釋反向過程的訓練和生成樣本的基本思想。接著,在第3節中,我們將考慮該框架的最常見特例,即噪聲為高斯噪聲,反向過程由去噪人工神經網絡(ANN)控制的情況。在第4節,我們將討論文獻中用于評估生成樣本質量的一些指標。最后,在第5節中,我們將討論一些文獻中提出的最流行的基于 DDPM 的方法,如改進版 DDPMs(見 [15])、去噪擴散隱式模型(DDIMs)(見 [45])、無分類器擴散引導模型(見 [16])以及潛在擴散模型(見 [38])。特別是,無分類器擴散引導模型和潛在擴散模型展示了如何引導反向過程生成來自不同類別的數據以及基于給定文本生成數據。 本文的支持代碼可在 //github.com/deeplearningmethods/diffusion_model 獲得。

2 去噪擴散概率模型(DDPMs)

在本節中,我們將介紹去噪擴散概率模型(DDPMs)的主要思想。具體來說,我們將首先介紹并討論DDPMs的一般數學框架,并在2.1小節中詳細闡述其一些基本性質;接著,我們將在2.2小節中討論DDPMs的訓練目標,分析其如何實現生成建模的目標;最后,在2.3小節中,我們將基于這一訓練目標,提出一種簡化的DDPM方法。

3 帶有高斯噪聲的DDPMs

在本節中,我們考慮在轉移核由高斯分布給出時,帶有馬爾可夫假設的DDPMs。本節中考慮的設置和方法基本上與[15]中提出的相對應。直觀而言,在這個設置中,我們認為正向過程逐漸向訓練樣本添加高斯噪聲,反向過程則旨在逐漸去除噪聲,從而恢復原始的訓練樣本。 我們首先在3.1小節中討論高斯分布的一些基本性質。然后,在3.2小節中,我們介紹并描述一個涉及高斯分布作為轉移核的DDPM框架。接著,在3.3小節中,我們討論這種轉移核選擇對正向過程分布的影響,并在3.4小節中探討此選擇對上述引理2.9中訓練目標的上界的影響。受到前述章節啟發,我們在3.5小節中描述了帶有高斯噪聲的DDPM的訓練和生成方案。最后,在3.6小節中,我們指出了一些可能的人工神經網絡(ANNs)架構選擇,這些架構出現在3.5小節方法描述中。

4 生成模型的評估

在生成建模的背景下,特別是在擴散模型中,評估生成數據的質量和性能是至關重要的。因此,找到穩健的評估指標對于確保模型能夠生成期望的結果至關重要。在本節中,我們考慮了用于這一目的的兩類指標:內容變異指標和內容不變指標。這些指標提供了對模型在不同方面能力的理解。在4.1小節中,我們詳細解釋了兩種內容不變指標:生成模型評估指標(Inception Score,IS)和Fréchet生成模型距離(Fréchet Inception Distance,FID);在4.2小節中,我們概述了最常用的內容不變評估指標。

付費5元查看完整內容

相關內容

生成式人工智能是利用復雜的算法、模型和規則,從大規模數據集中學習,以創造新的原創內容的人工智能技術。這項技術能夠創造文本、圖片、聲音、視頻和代碼等多種類型的內容,全面超越了傳統軟件的數據處理和分析能力。2022年末,OpenAI推出的ChatGPT標志著這一技術在文本生成領域取得了顯著進展,2023年被稱為生成式人工智能的突破之年。這項技術從單一的語言生成逐步向多模態、具身化快速發展。在圖像生成方面,生成系統在解釋提示和生成逼真輸出方面取得了顯著的進步。同時,視頻和音頻的生成技術也在迅速發展,這為虛擬現實和元宇宙的實現提供了新的途徑。生成式人工智能技術在各行業、各領域都具有廣泛的應用前景。

本綜述研究了信息檢索(IR)中模型架構的發展,重點關注兩個關鍵方面:用于特征提取的骨干模型和用于相關性估計的端到端系統架構。本文有意將架構考慮與訓練方法區分開,以便對IR系統中的結構性創新進行集中分析。我們追溯了從傳統基于術語的方法到現代神經網絡方法的發展,特別突出變換器(transformer)模型以及隨后的大規模語言模型(LLM)所帶來的影響。最后,我們討論了新興的挑戰和未來的發展方向,包括性能和可擴展性的架構優化、多模態和多語言數據的處理,以及如何適應超越傳統搜索范式的新應用領域。

1 引言

信息檢索(IR)的目標是檢索相關的信息源,以滿足用戶的信息需求。在過去幾十年中,信息檢索已經成為高效、有效地訪問大量信息的重要工具,廣泛應用于各類場景。除了其傳統作用,信息檢索如今還在協助大規模語言模型(LLM)生成有依據和事實性的響應方面發揮著至關重要的作用。信息檢索的研究主要集中在兩個關鍵方面:(1)提取更好的查詢和文檔特征表示;(2)開發更精確的相關性估計方法。查詢和文檔特征提取方法經歷了從傳統的基于術語的方法(如布爾邏輯和向量空間模型)到基于預訓練語言模型的稠密檢索等現代解決方案的演變(Lin et al., 2022)。相關性估計方法則隨著特征表示的進展而發展。早期方法,包括概率性和統計性語言模型,使用基于術語特征的簡單相似度函數計算相關性。之后,學習排序(LTR)技術應運而生,結合了機器學習模型和多層神經網絡用于相關性估計(Li, 2011)。LTR方法的成功在很大程度上歸功于其廣泛使用手工設計的特征,這些特征源自文本術語的統計屬性以及從網頁瀏覽流量中收集的用戶行為數據(Qin and Liu, 2013)。在2010年代,大量文獻探討了不同架構中的神經網絡重排序模型,以捕捉查詢與文檔之間的語義相似度。隨后,預訓練的變換器模型,代表作BERT(Devlin et al., 2019),迅速革新了模型設計,進入了一個檢索與排序模型采用更簡化架構進行相關性估計的時代,例如基于學習到的神經表示的點積操作和多層感知機(MLP)層預測頭(Karpukhin et al., 2020;Nogueira et al., 2020;Lin et al., 2022)。近年來,LLM的進展徹底改變了應用機器學習(ML)領域,包括信息檢索。LLM的一個有趣特性是它們可以用于特征提取和相關性估計,并且在沒有大量訓練的情況下就能取得強大的性能(Ni et al., 2022a;Neelakantan et al., 2022;BehnamGhader et al., 2024;Sun et al., 2023;Qin et al., 2024a,等等)。LLM在信息檢索中的崛起,建立在變換器(transformer)預訓練語言模型的豐富基礎上,這些模型已從早期的神經網絡架構中發展而來,包括變換器(Vaswani et al., 2017)、遞歸神經網絡(RNN,Elman, 1990)、注意力機制(Bahdanau, 2014)以及預訓練的靜態神經表示,如Word2Vec(Mikolov, 2013)和GloVe(Pennington et al., 2014)。本文回顧了信息檢索中模型架構的演變(如圖1所示)。在這里,模型架構的意義是雙重的:它描述了(1)用于提取查詢和文檔特征表示的骨干模型;(2)處理原始輸入、執行特征提取和估計相關性的端到端系統架構。與之前的研究和調查(Lin et al., 2022;Zhu et al., 2023)不同,我們有意將模型架構的討論與訓練方法和部署最佳實踐分開,以提供一個更聚焦的架構分析。向神經架構的轉變,特別是基于變換器的模型,已經從根本上改變了信息檢索,使得更豐富、上下文化的表示成為可能,并改善了對復雜查詢的處理。盡管這種演變提高了檢索精度,但也帶來了新的挑戰,尤其是隨著LLM的出現。這些挑戰包括需要架構創新以優化性能和可擴展性,處理多模態和多語言數據,以及整合領域特定的知識。此外,隨著信息檢索系統越來越多地被集成到各類應用中——從機器人技術(Xie et al., 2024)、自主智能體(Wu et al., 2023)到蛋白質結構發現(Jumper et al., 2021)——該領域必須超越傳統的搜索范式。我們在本文的最后將探討這些挑戰,并討論它們對未來信息檢索模型架構研究的影響。

付費5元查看完整內容

圖像反演是生成模型中的一個基礎任務,旨在將圖像映射回其潛在表示,以支持下游應用,如圖像編輯、修復和風格遷移。本文全面綜述了圖像反演技術的最新進展,重點討論了兩種主要范式:生成對抗網絡(GAN)反演和擴散模型反演。我們根據優化方法對這些技術進行分類。對于GAN反演,我們系統地將現有方法分為基于編碼器的方法、潛在優化方法和混合方法,分析其理論基礎、技術創新和實際權衡。對于擴散模型反演,我們探討了無訓練策略、微調方法以及附加可訓練模塊的設計,重點討論它們的獨特優勢和局限性。此外,我們討論了幾種流行的下游應用以及超越圖像任務的新興應用,識別了當前的挑戰和未來的研究方向。通過整合最新的研究成果,本文旨在為研究人員和實踐者提供一個有價值的參考資源,推動圖像反演領域的進一步發展。我們將持續跟蹤最新的研究工作,

網址://github.com/RyanChenYN/ImageInversion。

 引言圖像反演是指將給定圖像映射回預訓練生成模型的潛在表示的任務。這一任務在圖像編輯、風格遷移、圖像修復等應用中具有重要意義 [Xia 等,2022;Shuai 等,2024]。通過反演技術,用戶可以有效利用生成模型的豐富語義信息,實現對真實圖像的高效控制和修改,成為一個日益獨立且活躍的研究方向。早期的圖像反演研究始于生成對抗網絡(GAN)的興起 [Zhu 等,2016],主要集中于如何將圖像投影到GAN的潛在空間中,以便于后續的圖像編輯和生成任務。StyleGAN系列的問世 [Karras 等,2019;Karras 等,2020] 顯著提高了圖像反演技術的準確性和效率。然而,這些方法存在一定的局限性 [Tov 等,2021;Roich 等,2023;Zhang 等,2024c]:基于編碼器的前向方法仍然會導致次優結果,而基于優化的方法則需要大量時間,且未能滿足一般圖像編輯和高精度應用的需求,例如肖像攝影。近年來,擴散模型憑借其強大的生成能力和穩定的訓練過程,逐漸成為生成模型領域的新寵。從DDPM [Ho 等,2020] / DDIM [Song 等,2020] 到LDM [Rombach 等,2022],像Stable Diffusion系列這樣的開源模型顯著增強了圖像編輯的可控性和有效性,推動了許多優秀的無訓練和微調解決方案的出現 [Miyake 等,2023;Chung 等,2024;Mo 等,2024]。最近的突破性進展,如DiT [Peebles 和 Xie,2023] 框架和流匹配技術,為圖像反演提供了新的思路和方法。GAN到擴散模型的多樣化發展,也為高保真度圖像反演任務和復雜場景中的可控編輯應用奠定了基礎。本文系統地回顧并總結了這些技術的發展軌跡,從公式化的角度抽象定義了問題,深入探討了不同類別方法的原理和實際問題。全面覆蓋了圖像反演及相關子領域,并提供了深入的討論。范圍本文重點討論了兩種主要的圖像反演框架:GAN反演和擴散模型反演。對于GAN反演,我們從三個角度進行全面分析與比較:基于編碼器的方法、潛在優化方法和混合方法。對于擴散模型反演,我們從訓練角度將方法分為無訓練方法、微調方法和額外可訓練模塊方法,并討論每種方法的優缺點。此外,我們還分析了最新的技術趨勢,如基于DiT的反演方法 [Feng 等,2024],并探討了反演技術在圖像及更廣泛領域(如視頻 [Fan 等,2024] 和音頻 [Manor 和 Michaeli,2024])中的應用。本文主要分析了2021年以后的研究,以確保其相關性和前瞻性。由于篇幅限制,本文僅討論了具有代表性的工作,最新的、持續更新的研究成果可通過該項目頁面獲取。與相關綜述的討論與現有的綜述文章相比,例如專注于早期基于GAN的方法 [Xia 等,2022],以及近期專注于基于擴散的方法的工作 [Shuai 等,2024],本文將GAN反演和擴散模型反演整合到一個統一框架中進行系統比較,填補了該領域的研究空白。并且,本文將反演討論擴展到非圖像應用,為讀者提供了更全面的視角。貢獻首先,本文提供了對圖像反演領域最新進展的全面回顧,涵蓋了兩種主要生成模型(GAN和擴散模型)的關鍵反演技術。通過系統地分類這些方法,我們揭示了內在的聯系和技術差異,為研究人員提供了清晰的理論指導。其次,本文從圖像級別的角度討論了主要應用及相關領域的進展。最后,我們總結了當前研究中的主要挑戰,并提出了一系列潛在的未來研究方向,為圖像反演領域的進一步發展提供了重要參考。

付費5元查看完整內容

最近的技術進步增強了我們收集和分析豐富多模態數據(如語音、視頻和眼動)的能力,以更好地改進學習和訓練體驗。盡管之前的綜述已經關注了多模態處理流程的部分內容(如概念模型和數據融合),但尚未有關于多模態學習和訓練環境方法的全面文獻綜述。本文提供了對這些環境中的研究方法的深入分析,提出了一個涵蓋該領域最新方法進展的分類法和框架,并根據五個模態組對多模態領域進行了描述:自然語言、視頻、傳感器、人本中心和環境日志。我們引入了一種新的數據融合類別——中級融合(mid fusion),以及一種用于優化文獻綜述的基于圖的技術,稱為引文圖剪枝。我們的分析表明,利用多種模態可以更全面地理解學習者和受訓者的行為和結果。即使多模態未能提高預測準確性,它通常也能揭示模式,以情境化和解釋單模態數據,揭示單一模態可能遺漏的細微差別。然而,仍需進一步研究以彌合多模態學習和訓練研究與基礎AI研究之間的差距。

1 引言與背景

1.1 簡史

隨著技術進步推動學習科學的發展,教育和訓練課程的個性化正在不斷推進,以滿足學習者和受訓者的獨特需求。這種轉變由數據驅動的方法支撐,這些方法已被整合到學習分析領域[61]。學習分析專注于收集和評估學習者和受訓者的行為數據——特別是他們在學習和訓練任務中的表現[94, 166]。例如,智能輔導系統如Practical Algebra Tutor [78]專注于診斷學生錯誤,開放式環境如Betty’s Brain [84]自適應地支架學習,而教師反饋工具(如[72, 124])則通過提供學生行為的洞察來幫助教育者改進教學。 學習分析中的一個核心研究問題是,哪些類型的數據對于深入了解學習者的行為和表現,以及在不同情境下促進學生學習和訓練提供有意義的支持是必要的?[108, 151]。最初,數據收集和分析的范圍受到教育環境中可用技術和計算方法的限制。早期的學習分析主要分析基于計算機環境的日志數據,將學生的行為與其數字交互建立關聯,從而為該領域的許多現代理論和方法奠定了基礎[71, 108]。 傳感器和數據收集技術的進步正將學習分析擴展到傳統的基于日志的分析之外[108]。在實際的學習空間中,日志數據不足以捕捉所有學習者的行為、情感狀態和協作行為。研究人員現在整合了額外的數據收集設備,如用于捕捉物理互動的視頻、用于記錄對話的麥克風、用于檢測壓力水平的生物傳感器和用于跟蹤注意力的眼動儀[151]。這種豐富的數據收集提供了對學生情感、認知、心理運動和元認知狀態的更全面理解,推進了多模態學習分析(MMLA)[12, 13, 158]。經過十年的研究,MMLA已經成熟,并通過期刊專題[52, 96, 109]、會議[60]、編輯書籍[64]和系統綜述[4, 22, 39, 50, 100, 130, 158]得到了廣泛傳播。本文基于這一堅實的基礎,重點關注MMLA中的應用研究方法。1.2 相關工作最近的MMLA研究、調查和綜述通過不同的視角探索了MMLA的全貌:多模態數據融合[22]、概念模型和分類法[50]、統計和定性評估[121, 131]、虛擬現實[118]、技術和數據工程[26]以及倫理考量[4]。我們的綜述集中在多模態學習和訓練環境中支持數據收集和分析的應用方法,特別關注使用學習理論收集、融合、分析和解釋多模態數據的方法。我們擴展和修改了現有的分類法,以反映MMLA的最新進展。 Di Mitri等人[50]提出了多模態學習分析模型(MLeAM),這是一個概念框架,概述了MMLA中行為、數據、機器學習和反饋之間的關系。該框架提供了一種分類法,并引入了數據可觀測性(data observability)的概念,將可量化的輸入證據與推斷的注釋(如情感、認知)區分開來。可觀測性線劃分了這些領域,對于MMLA研究中從輸入到假設的AI介導轉化至關重要。Chango等人[22]調查了MMLA中的融合方法,將研究按融合類型和在多模態管道中的應用階段進行分類。他們提出了三種融合類型:早期融合(特征級整合)、后期融合(決策級整合)和混合融合(兩者的結合)。這一分類澄清了融合方法及其在教育數據挖掘中的相關性。 整合了這兩項調查的見解后,我們提出了一種聚焦于特征可觀測性的分類法,區分感官數據和人類推斷的注釋。這一改進的分類方案精煉了我們對MMLA中數據融合的理解,并在第2節中展示了一個精細的分類法。

1.3 本綜述的范圍

在本文中,我們將數據收集媒介定義為一種獨特的原始數據流(如視頻、音頻、光體積描記(PPG)傳感器)。模態是從一個或多個數據流中派生出的獨特屬性,每個流傳達不同的信息,即使來自相同的媒介[108]。模態組是通過歸納編碼派生出的傳達相似信息的模態的獨立集合(見圖1)。多模態是多種模態或多種數據流的組合。例如,同一視頻數據流可以用來派生情感和姿勢模態,情感模態可以從音頻和視頻流中派生。這兩個例子都被認為是多模態的。我們在文中將“論文”和“作品”交替使用,包括會議和期刊之外的出版物(如書籍和書籍章節)。我們的定義旨在描述我們綜述的范圍,而不是建立“通用”的多模態和多模態分析的定義。 我們的綜述包括所有未被排除標準(見附錄B.2.2)排除的文獻搜索結果中的論文。這包括“順帶”進行的多模態學習和訓練分析。例如,一篇專注于多模態創作環境的論文,如果在此過程中進行了多模態學習分析,也會被納入。我們感興趣的是多模態分析所使用的方法,而不僅僅是其作為主要研究焦點的研究。我們審查了跨越多種媒介和模態的數據收集和分析的研究,包括完全物理環境(如物理治療)、混合現實環境(如基于假人的護理模擬)以及在線教育平臺(如基于計算機的物理教學)。值得注意的是,由于當前虛擬現實環境在教育環境中的可擴展性挑戰[37],我們的綜述排除了虛擬現實環境。

1.4 貢獻本文對多模態學習和訓練環境的方法進行了系統的文獻綜述,并做出了以下幾個新穎的貢獻:

  • 對多模態學習和訓練環境中使用的研究方法、遇到的挑戰以及文獻中報告的相關結果進行了全面綜述。同時,我們還識別了數據收集和分析方法中的研究空白;
  • 提出一個反映多模態學習和訓練方法最新進展的統一框架和分類法;
  • 引入了一種稱為中級融合(mid fusion)的額外數據融合分類(即介于早期融合和后期融合之間),用于區分相對于可觀測性線的已處理特征;
  • 提出一種基于圖的語料庫縮減程序,稱為引文圖剪枝(citation graph pruning),該程序允許通過程序化方式修剪文獻綜述語料庫。詳細描述見第3.2.1節。
付費5元查看完整內容

模型融合是機器學習社區中的一種高效賦能技術,它不需要收集原始訓練數據,也不需要昂貴的計算。隨著模型融合在各個領域中變得越來越普遍,全面了解現有的模型融合技術變得至關重要。然而,文獻中在系統且深入地審視這些技術方面存在顯著的空白。本綜述提供了對模型融合方法和理論的全面概述,涵蓋了它們在各個領域和場景中的應用,以及未來的研究方向。具體而言,我們首先提出了一種新的分類方法,對現有的模型融合方法進行了詳盡的討論。其次,我們討論了模型融合技術在大語言模型、多模態大語言模型以及10多個機器學習子領域中的應用,包括持續學習、多任務學習、少樣本學習等。最后,我們強調了模型融合的剩余挑戰,并討論了未來的研究方向。關于模型融合的論文完整列表請參見\url{this https URL}。

模型融合,也稱為模型合并,是一種有效的技術,通過融合多個具有不同能力的獨立模型的參數,構建一個通用模型,而無需訪問原始訓練數據或進行昂貴的計算。與模型融合最相關的概念是集成學習 [33, 109, 142, 180],因為它們都促進了知識的融合與傳遞。如圖1所示,它們之間的主要區別在于,集成學習必須保存所有的單個模型,并在推理階段融合多個模型的預測(或輸出),而模型融合則直接在參數層面進行合并,并且在推理時只有一個最終模型。這使得模型融合具備了更為吸引人的特性。盡管模型融合是一個相對年輕的課題,但它正在快速發展,并且已經在多個領域中找到了應用。例如,在基礎模型中,由不同下游任務微調的模型被合并,以增強大語言模型的能力,而具有不同風格的圖像生成模型被合并,以創建具有混合風格能力的新模型。特別是,近年來機器學習社區中的預訓練和微調檢查點數量呈指數級增長,包括開源庫如Huggingface [182]、torchvision [111]和timm [181],這使得用戶可以輕松獲取各種能力的訓練良好的專家模型。這些豐富的模型庫進一步推動了模型融合方向的快速發展。隨著模型融合在機器學習社區的各個領域中變得越來越流行,全面了解現有模型融合技術的優勢和局限性及其在不同領域的應用變得至關重要。盡管社區已經做出了一些努力 [48, 96, 157, 214],但仍有許多空白需要填補。更具體地說,MergeKit [48]和FusionBench [157]是技術報告,MergeKit中僅討論了七種代表性方法,FusionBench中討論了八種合并方法。此外,Zheng等人 [214] 討論了“從模型中學習”的話題,并且僅在整個論文中以一個子節(一頁)提到了模型融合。與“模型融合”主題最相關的工作是 [96],但在應用方面,它只討論了模型融合在聯邦學習、微調和蒸餾三種場景中的應用。由于模型融合方向的快速發展,它也忽略了許多最近發表的文章。為了解決這些空白,本綜述旨在闡明模型融合方向中的方法、理論、應用和未來趨勢,提供相關方法的全面分類。特別是,本文通過涵蓋三個主要方面來增強對模型融合的全面理解:

**首先,現有的模型融合方法是如何分類的?**我們首先在圖2(上半部分)中提出了一個新的分類法,將現有的模型融合方法分為兩個階段(§2):預融合和融合過程中。(i)預融合方法旨在為融合創造更好的條件。它進一步分為使用線性微調實現權重空間和輸入空間的解耦,執行架構轉換以將異構模型轉換為同質模型,以及對齊權重以將它們置于同一盆地。(ii)融合過程中的方法側重于設計復雜的技術,將多個模型融合為一個。這些方法解決了在融合模型時的任務沖突和干擾問題。它們可以進一步分為基本融合方法,即執行最簡單的參數融合策略;加權融合方法,即根據特定規則計算的重要性來融合多個模型;子空間融合方法,即將多個模型投影到稀疏子空間進行融合;基于路由的方法,即在推理過程中根據輸入樣本動態融合模型;以及基于后校準的方法,即對融合后的模型進行校正。除了這些方法外,我們還討論了模型融合的理論或實證分析。

**其次,哪些應用可以從模型融合中受益?**我們詳細討論了模型融合在基礎模型(§3)和機器學習的十多個子領域(§4)中的各種用例。如圖2(下半部分)所示,模型融合可以應用于多種基礎模型,包括大語言模型、多模態大語言模型和圖像生成模型。例如,模型融合在大語言模型中可以幫助減輕不真實和有害輸出,實現知識去學習,并加速訓練。此外,模型融合還出現在不同的機器學習子領域,如持續學習、多任務/多域學習、少樣本學習和其他子領域,以解決各種挑戰。例如,在持續學習中,模型融合可以減輕舊任務的災難性遺忘。在多任務學習、多目標學習和多域學習中,它促進了知識傳遞。此外,在對抗性學習中,模型融合可以用于攻擊和防御策略。**第三,模型融合的剩余挑戰和未來研究機遇是什么?**盡管融合方法取得了進展并且應用已經得到了充分發展,但該領域仍存在許多未解決的挑戰和未來的研究方向(§5)。例如,隨著任務數量的增加,現有方法與獨立專家模型之間的性能差距顯著擴大。此外,當前的模型融合方法在融合過程中產生了巨大的內存成本,并且缺乏信任保證以及深入的理論分析。解決這些空白需要研究人員做出大量努力,以進一步推動該領域的蓬勃發展。

總而言之,本文的主要貢獻包括以下三個方面: ? 方法概述:我們提供了對模型融合技術方面的全面總結。具體而言,我們提出了一個新的分類法,將現有的模型融合方法分為兩個階段,并根據關鍵技術進一步細分每個階段的方法。此外,我們還討論了與模型融合相關的理論分析工作。 ? 應用概述:我們提供了對模型融合應用方面的全面總結。具體而言,我們探索了模型融合在基礎模型和10多個機器學習子領域中的應用,展示了模型融合如何解決這些領域中的現有挑戰。 ? 未來方向:我們概述了模型融合的幾個剩余挑戰和未來方向。我們認為,未來需要從性能差距、理論分析、信任保證、跨學科應用等方面進一步探索模型融合。 本文的主要結構如下:§1是介紹,§2從技術角度對高級模型融合方法進行了全面討論。在§3和§4中,我們分別總結了模型融合在各種基礎模型和機器學習不同子領域中的應用。剩余的挑戰和未來的研究方向在§5中討論。最后,我們在§6中對本文進行了總結。

高級模型融合方法

在本節中,我們首先在§2.1中介紹模型融合的符號表示和問題定義。然后,我們詳細闡述了高級模型融合方法(表1總結了每類方法的主要目的)。現有的模型融合技術大致可以分為以下兩類: (i) 融合前方法 在§2.2中:為模型融合提供更好的先驗知識。 (ii) 融合過程中方法 在§2.3中:通過各種策略解決任務沖突/干擾,然后執行參數融合操作。最后,我們在§2.4中總結了模型融合有效性的理論或解釋。

模型融合在基礎模型中的應用

基礎模型的出現,包括大語言模型(LLM)、多模態大語言模型(MLLM)和圖像生成模型,是近年來人工智能領域技術進步的重要標志。然而,盡管這些大型模型取得了顯著進展,但它們仍面臨諸多挑戰,如LLM生成有害內容、MLLM在融合不同模態信息時的困難,以及圖像生成模型在生成混合風格圖像時的難度。最新研究表明,模型融合技術為這些基礎模型中固有的挑戰提供了一個有前景的解決方案。表2首先簡要總結了模型融合在基礎模型中的應用。然后,§3.1、§3.2和§3.3分別詳細討論了LLM、MLLM和圖像生成模型如何從模型融合中受益。

模型融合在不同機器學習子領域的應用

模型融合是一種簡單而有效的技術,廣泛應用于機器學習的各個子領域,如持續學習、多任務學習、領域泛化、聯邦學習、少樣本學習和對抗性防御等。在本節中,我們將全面討論模型融合在不同機器學習子領域中的應用。表3提供了簡要總結,§4.1至§4.6中詳細介紹了每個應用案例。

結論

模型融合是一種簡單而有效的模型增強技術,通過結合多個模型來實現多樣化的能力。在本綜述中,我們首先全面概述了當前在模型融合領域可用的高級方法和理論。接下來,我們討論了模型融合技術在各種基礎模型(如LLM、MLLM)和機器學習的十多個子領域中的應用,強調了它們在解決各種挑戰和困難中的作用。最后,我們識別了模型融合領域中尚存的問題,并提出了六個值得進一步探索的研究方向。我們相信,作為一種高效且模塊化的模型賦能解決方案,模型融合技術將在未來的更多實際場景中發揮重要作用。

付費5元查看完整內容

視覺與語言導航(VLN)近年來受到越來越多的關注,許多方法已經涌現出來以推動其發展。基礎模型的顯著成就已經塑造了VLN研究的挑戰和提出的方法。在本綜述中,我們提供了一種自上而下的審視方法,采用了一種原則性框架進行具身規劃和推理,并強調了利用基礎模型應對VLN挑戰的當前方法和未來機會。我們希望通過深入的討論提供有價值的資源和見解:一方面,用以標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;另一方面,為基礎模型研究者整理VLN中的各種挑戰和解決方案。

開發能夠與人類及其周圍環境互動的具身代理是人工智能(AI)的長期目標之一(Nguyen et al., 2021; Duan et al., 2022)。這些AI系統在實際應用中具有巨大的潛力,可以作為多功能助手在日常生活中發揮作用,如家庭機器人(Szot et al., 2021)、自動駕駛汽車(Hu et al., 2023)和個人助理(Chu et al., 2023)。一個推進這一研究方向的正式問題設置是視覺與語言導航(VLN)(Anderson et al., 2018),這是一項多模態和協作任務,要求代理根據人類指令探索三維環境,并在各種模糊情況下進行在場通信。多年來,VLN在仿真環境(Chang et al., 2017; Savva et al., 2019; Xia et al., 2018)和實際環境(Mirowski et al., 2018; Banerjee et al., 2021)中都進行了探索,產生了許多基準測試(Anderson et al., 2018; Ku et al., 2020; Krantz et al., 2020),每個基準測試都提出了稍有不同的問題表述。

近年來,基礎模型(Bommasani et al., 2021)從早期的預訓練模型如BERT(Kenton and Toutanova, 2019)到當代的大型語言模型(LLMs)和視覺語言模型(VLMs)(Achiam et al., 2023; Radford et al., 2021)展現出了在多模態理解、推理和跨領域泛化方面的非凡能力。這些模型在海量數據上進行了預訓練,如文本、圖像、音頻和視頻,并可以進一步適應廣泛的具體應用,包括具身AI任務(Xu et al., 2024)。將這些基礎模型整合到VLN任務中標志著具身AI研究的一個關鍵進展,表現出顯著的性能提升(Chen et al., 2021b; Wang et al., 2023f; Zhou et al., 2024a)。基礎模型還為VLN領域帶來了新的機會,例如從多模態注意力學習和策略政策學習擴展到預訓練通用的視覺和語言表征,從而實現任務規劃、常識推理以及泛化到現實環境。

盡管基礎模型對VLN研究產生了最近的影響,以往關于VLN的綜述(Gu et al., 2022; Park and Kim, 2023; Wu et al., 2024)來自基礎模型時代之前,主要關注VLN基準測試和傳統方法,即缺少利用基礎模型解決VLN挑戰的現有方法和機會的全面概述。特別是隨著LLMs的出現,據我們所知,尚未有綜述討論它們在VLN任務中的應用。此外,與以前將VLN任務視為孤立的下游任務的努力不同,本綜述的目標有兩個:首先,標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;其次,在系統框架內為基礎模型研究者組織VLN中的不同挑戰和解決方案。為建立這種聯系,我們采用LAW框架(Hu and Shu, 2023),其中基礎模型作為世界模型和代理模型的骨干。該框架提供了基礎模型中推理和規劃的一般景觀,并與VLN的核心挑戰緊密相關。

具體而言,在每一步導航中,AI代理感知視覺環境,接收來自人類的語言指令,并基于其對世界和人類的表征進行推理,以規劃行動并高效完成導航任務。如圖1所示,世界模型是代理理解周圍外部環境以及其行動如何改變世界狀態的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。該模型是一個更廣泛的代理模型的一部分,該代理模型還包含一個人類模型,該模型解釋其人類伙伴的指令,從而告知代理的目標(Andreas, 2022; Ma et al., 2023)。為了回顧VLN領域不斷增長的工作并理解所取得的里程碑,我們采用自上而下的方法進行綜述,重點關注從三個角度出發的基本挑戰:

  • 學習一個世界模型來表示視覺環境并泛化到未見過的環境。
  • 學習一個人類模型以有效地從基礎指令中解釋人類意圖。
  • 學習一個VLN代理,利用其世界和人類模型來實現語言的基礎、溝通、推理和規劃,使其能夠按指示導航環境。

我們在圖2中展示了一個分層和細粒度的分類法,基于基礎模型討論每個模型的挑戰、解決方案和未來方向。為了組織本綜述,我們首先簡要概述該領域的背景和相關研究工作以及可用的基準測試(第2節)。我們圍繞提出的方法如何解決上述三個關鍵挑戰進行結構化審查:世界模型(第3節)、人類模型(第4節)和VLN代理(第5節)。最后,我們討論了當前的挑戰和未來的研究機會,特別是在基礎模型興起的背景下(第6節)。

VLN任務定義

一個典型的視覺與語言導航(VLN)代理在指定位置接收來自人類指令者的(一系列)語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令,代理的任務是在一系列離散視圖或較低級別的動作和控制(例如,前進0.25米)上生成軌跡,以到達目的地。如果代理到達距離目的地指定距離(例如3米)以內的位置,則任務被認為成功。此外,代理可以在導航過程中與指令者交換信息,可以請求幫助或進行自由形式的語言交流。此外,人們對VLN代理集成額外任務(如操作任務(Shridhar et al., 2020)和物體檢測(Qi et al., 2020b))的期望也在不斷增加。

基準測試

如表1所示,現有的VLN基準測試可以根據幾個關鍵方面進行分類:(1)導航發生的世界,包括領域(室內或室外)和環境的具體情況。(2)涉及的人機交互類型,包括交互回合(單次或多次)、通信格式(自由對話、限制對話或多重指令)和語言粒度(動作導向或目標導向)。(3)VLN代理,包括其類型(如家庭機器人、自動駕駛車輛或自主飛行器)、動作空間(基于圖形、離散或連續)和額外任務(操作和物體檢測)。(4)數據集的收集,包括文本收集方法(人類生成或模板化)和路徑演示(人類執行或規劃生成)。有代表性的是,Anderson等人(2018)基于Matterport3D模擬器(Chang et al., 2017)創建了Room-to-Room(R2R)數據集,代理需要遵循精細的導航指令到達目標。Room-across-Room(RxR)(Ku et al., 2020)是一個多語言版本,包括英語、印地語和泰盧固語指令。它提供了更大的樣本量,并為虛擬姿態提供了時間對齊的指令,豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作,并依賴預定義的連接圖進行導航,代理通過在相鄰節點之間的傳送在圖上移動,被稱為VLN-DE。為了使簡化的設置更現實,Krantz等人(2020)、Li等人(2022c)、Irshad等人(2021)通過將離散的R2R路徑轉移到連續空間(Savva等人,2019)提出了連續環境中的VLN(VLN-CE)。Robo-VLN(Irshad等人,2021)通過引入在機器人環境中更現實的連續動作空間的VLN,進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望,我們在第6節中討論這些變更。

評估指標

三種主要指標用于評估導航路徑規劃性能(Anderson等人,2018):(1)導航誤差(NE),代理最終位置與目標位置之間最短路徑距離的平均值;(2)成功率(SR),最終位置足夠接近目標位置的百分比;(3)成功率加權路徑長度(SPL),通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性,例如:(4)按長度加權的覆蓋得分(CLS)(Jain等人,2019);(5)歸一化動態時間規整(nDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰;以及(6)按成功率加權的歸一化動態時間規整(sDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰,并考慮成功率。

付費5元查看完整內容

**引言

擴散模型(Diffusion Models)是近年來在各種視覺任務中廣受關注的生成建模方法。由于這些模型不依賴標簽注釋,因此可以被視為一種獨特的自監督學習方法。本文綜述了擴散模型與表示學習之間的相互關系,概述了擴散模型的基本方面,包括數學基礎、流行的去噪網絡架構和指導方法。此外,本文還詳細介紹了與擴散模型和表示學習相關的各種方法,包括利用預訓練擴散模型學習的表示進行后續識別任務的框架,以及利用表示學習和自監督學習進展來增強擴散模型的方法。本文旨在提供擴散模型與表示學習之間分類法的全面概述,識別現有問題和潛在探索的關鍵領域。

擴散模型(Diffusion Models)最近在生成建模領域中脫穎而出,展示了在圖像合成、自然語言處理、計算化學和音頻合成等領域的非凡成果。擴散模型的卓越生成能力表明,它們不僅可以學習輸入數據的低層次特征,還可以學習高層次特征,使其成為通用表示學習的理想候選者。與生成對抗網絡(GANs)和變分自編碼器(VAEs)等其他生成模型不同,擴散模型沒有固定的架構組件來捕獲數據表示,這使得基于擴散模型的表示學習具有挑戰性。然而,利用擴散模型進行表示學習的方法受到了越來越多的關注,同時也得益于擴散模型在訓練和采樣方面的進展。

目前最先進的自監督表示學習方法展示了良好的可擴展性,因此,擴散模型也可能表現出類似的擴展特性。用于獲得最先進的生成結果的控制生成方法(如分類器指導和無分類器指導)依賴于帶注釋的數據,這成為擴展擴散模型的瓶頸。利用表示學習的指導方法無需注釋,提供了一種解決方案,可能使擴散模型能夠在更大的、無注釋的數據集上進行訓練。

本文旨在闡明擴散模型與表示學習之間的關系和相互作用。我們重點介紹兩個核心觀點:利用擴散模型本身進行表示學習,以及利用表示學習來改進擴散模型。我們介紹了當前方法的分類,并總結了展示當前方法共性的通用框架。

自Ho等人、Sohl-Dickstein等人和Song等人最初提出擴散模型以來,對探索擴散模型表示學習能力的興趣不斷增加。正如圖1所示,我們預計這一趨勢將在今年繼續。擴散模型和表示學習方面發表的作品數量增加,使得研究人員更難識別最先進的方法并跟上當前的發展。這可能會阻礙這一領域的進展,這也是為什么我們認為需要對這一領域進行全面概述和分類。

擴散模型和表示學習的研究還處于初期階段。許多當前的方法僅依賴于為生成合成訓練的擴散模型進行表示學習。因此,我們假設未來在這一領域有顯著的進步機會,擴散模型可以越來越多地挑戰當前表示學習的最先進水平。圖2展示了現有方法的定性結果。我們希望這份綜述可以通過澄清當前方法的共性和差異,促進基于擴散的表示學習的進展。總結而言,本文的主要貢獻如下:

全面概述:提供擴散模型與表示學習相互作用的全面綜述,澄清如何利用擴散模型進行表示學習,反之亦然。

方法分類:我們引入了基于擴散表示學習的當前方法的分類,突出它們之間的共性和差異。

通用框架:本文為擴散模型特征提取和基于分配的指導提出了通用框架,提供了對大量擴散模型和表示學習作品的結構化視角。

未來方向:我們確定了這一領域進一步發展的關鍵機會,鼓勵探索擴散模型和流匹配作為表示學習的新前沿。

付費5元查看完整內容

人類通過多種感官,如視覺、嗅覺、聽覺和觸覺來感知世界。同樣,多模態大型語言模型(MLLMs)通過整合和處理包括文本、視覺、音頻、視頻和3D環境在內的多種模態數據,增強了傳統大型語言模型的能力。數據在這些模型的發展和優化中起到了關鍵作用。在這篇綜述中,我們從數據中心視角全面回顧了MLLMs的相關文獻。具體而言,我們探討了在MLLMs預訓練和適應階段準備多模態數據的方法。此外,我們還分析了數據集的評估方法,并回顧了評估MLLMs的基準測試。我們的綜述還概述了未來潛在的研究方向。本研究旨在為研究人員提供關于MLLMs數據驅動方面的詳細理解,促進該領域的進一步探索和創新。

近年來,我們見證了大型語言模型(LLMs)和多模態大型語言模型(MLLMs)的快速發展[280, 324]。諸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等MLLMs整合了多模態信息,展示了令人印象深刻的理解和生成能力。這些模型在傳統的多模態任務中取得了競爭性表現,如視覺識別[320]、視頻理解[258, 289]、語音識別[200]和3D理解[89, 100]。此外,它們卓越的語言理解能力使其在文本豐富的任務中表現出色,如問答[104]、多輪對話和邏輯推理[156, 296]。

大多數現有的MLLMs主要關注修改模型架構以探索多模態信息的使用[121, 178, 246, 286, 287, 304]。盡管模型的有效性至關重要,數據也顯著影響了MLLMs的成功。例如,Hoffmann等人[99]展示了為了擴展模型,有必要增加訓練數據的規模。除了數據數量外,數據質量同樣重要。先前的研究[251]表明,精心策劃的數據集可以使較小的模型達到與較大模型相當的性能。然而,關于MLLMs數據策劃和利用的綜合研究仍然缺乏。因此,本研究旨在從數據中心視角提供對MLLMs的全面理解。

與優先考慮架構增強而依賴固定數據集的模型中心方法相比,數據中心視角強調對數據集的迭代改進以提高性能。在數據中心MLLMs的范圍內,我們關注利用數據模態的異質性、增強數據結構、增加數據數量和提高數據質量以改進MLLMs [316]。我們的討論從不同階段的MLLMs數據中心視角回答了三個關鍵問題:

  • Q1:如何收集、選擇和管理MLLMs的數據?大量的數據需求和多模態數據的異質性在收集、選擇和有效管理模型訓練數據方面帶來了挑戰。MLLMs的不同訓練階段也導致了不同的數據類型需求。

  • Q2:數據如何影響MLLMs的性能?理解數據特性與MLLMs性能之間的關系對于優化數據集和增強模型能力至關重要。

  • Q3:如何評估MLLMs的數據?有必要開發全面的評估基準,以評估MLLMs在各種任務中的性能和魯棒性。 本綜述與現有綜述的區別。在模型中心視角下,已有若干綜述聚焦于LLMs [93, 203, 324]和MLLMs [280, 318],但缺乏對數據中心方面的深入分析。最近,一些綜述開始關注LLMs的數據準備,如數據管理方法[274]、數據選擇方法[5]和LLM數據集的綜合綜述[174]。然而,這些綜述主要集中于僅文本LLMs的數據管理和選擇方法,沒有對MLLMs的數據處理管道進行徹底分析。盡管Zhang等人[318]總結了MLLMs的數據集,但未能提供對這些數據集的全面分析。與我們最相關的工作是數據中心人工智能(DCAI)[109, 111, 220, 279, 316],它也關注AI研究的數據中心視角,但未具體分析LLMs和MLLMs。

隨著MLLMs的快速增長以及數據在這個大型模型時代越來越重要的角色,我們認為提供一個全面的MLLMs數據中心方法綜述是至關重要的。本綜述旨在從數據中心視角全面回顧MLLMs的進展文獻,并討論該領域的開放問題或未來方向。

貢獻。在這篇綜述中,我們從數據中心視角回顧了MLLMs的進展文獻。我們為研究人員和開發者提供了對MLLMs數據方面最新發展的總體和全面的理解。本綜述的主要貢獻總結如下:

  • 新的數據中心視角。我們從數據中心視角提供了對MLLMs的全面綜述,考慮了文本、圖像、視頻和音頻等模態。
  • 數據準備和管理管道。我們總結了在預訓練和適應階段MLLMs的數據準備和管理管道。
  • 數據評估基準。我們概述了常用的從數據中心視角出發的評估基準。
  • 開放問題和未來方向。我們討論了當前數據中心LLMs研究中的開放問題,并提出了若干未來研究方向。

本文的其余部分安排如下:第2節介紹LLMs和MLLMs的預備知識,并討論從數據中心視角分析它們的動機。第3至第5節總結了MLLMs訓練數據的收集、處理和選擇的主要階段。第6節總結了MLLMs的評估方法和現有的評估數據集。第7節討論了開放問題并強調了該領域的若干未來研究方向。最后,我們在第8節對本綜述進行了總結。我們的Github倉庫可以在//github.com/beccabai/Data-centric_multimodal_LLM找到。

付費5元查看完整內容

多語言大型語言模型利用強大的大型語言模型處理和響應多種語言的查詢,這在多語言自然語言處理任務中取得了顯著的成功。盡管取得了這些突破,但在這一領域仍缺乏一個全面的綜述來總結現有方法和最近的發展。為此,在本文中,我們提出了一個徹底的審查,并提供了一個統一的視角來總結多語言大型語言模型(MLLMs)文獻中的最新進展和新興趨勢。本文的貢獻可以總結如下:(1)第一份綜述:據我們所知,我們采取了第一步,在多語言對齊的基礎上對MLLMs研究領域進行了徹底的審查;(2)新分類法:我們提出了一個新的統一視角來總結MLLMs的當前進展;(3)新前沿:我們突出了幾個新興的前沿并討論了相應的挑戰;(4)豐富資源:我們收集了大量的開源資源,包括相關論文、數據語料庫和排行榜。我們希望我們的工作能為社區提供快速訪問并推動MLLMs的突破性研究。

近年來,大型語言模型(LLMs)在各種自然語言處理任務上取得了優異的表現(Brown et al., 2020; Touvron et al., 2023a; Bang et al., 2023; Zhao et al., 2023b; Pan et al., 2023; Nguyen et al., 2023a; Trivedi et al., 2023),并展示出了令人驚訝的突發能力,包括上下文學習(Min et al., 2022; Dong et al., 2022)、思維鏈推理(Wei et al., 2022; Huang et al., 2023a; Qin et al., 2023a)以及規劃(Driess et al., 2023; Hu et al., 2023b)。然而,大多數LLMs主要關注英語任務(Held et al., 2023; Zhang et al., 2023i),使其在多語言環境,尤其是低資源環境下表現不足。

實際上,全球有超過7000種語言。隨著全球化的加速,大型語言模型的成功應考慮服務于不同國家和語言。為此,多語言大型語言模型(MLLMs)具有全面處理多種語言的優勢,越來越受到關注。具體來說,現有的MLLMs可以根據不同階段大致分為兩組。第一系列工作(Xue et al., 2020; Workshop et al., 2022; Zhang et al., 2023g; Muennighoff et al., 2022)利用多語言數據調整參數以提升整體多語言性能。第二系列工作(Shi et al., 2022a; Qin et al., 2023b; Huang et al., 2023a)還采用先進的提示策略,在參數凍結推理階段挖掘MLLMs的更深層次多語言潛力。

盡管在MLLMs上取得了顯著成功,但仍缺乏對最近努力的全面回顧和分析,這阻礙了MLLMs的發展。為了彌補這一差距,我們首次嘗試對MLLMs進行全面而詳盡的分析。具體來說,我們首先介紹廣泛使用的數據資源(§3)。此外,由于跨語言對齊的關鍵挑戰,我們根據對齊策略引入了新的分類法(§4),旨在提供文獻中的統一視角,包括參數調整對齊和參數凍結對齊(如圖1所示)。具體來說,參數調整對齊需要在預訓練、監督微調、人類反饋學習和下游微調過程中調整模型參數以增強英語和目標語言之間的對齊。參數凍結對齊指的是通過跨語言提示實現的對齊,無需調整參數。最后,我們指出了一些潛在的前沿領域以及MLLMs面臨的相應挑戰,希望激發后續研究(§5)。

本工作的貢獻可以總結如下:(1)首次綜述:據我們所知,我們是第一個根據多語言對齊在MLLMs文獻中提出全面綜述的;(2)新分類法:我們引入了將MLLMs分類為參數凍結和參數調整兩種對齊類型的新分類法,為理解MLLMs文獻提供了統一視角;(3)新前沿:我們討論了一些新興的前沿,并突出了它們的挑戰和機遇,希望為未來研究的發展鋪路;(4)詳盡資源:我們首次嘗試組織MLLMs資源,包括開源軟件、多樣的語料庫和相關出版物的精選列表,可在//multilingual-llm.net訪問。 我們希望這項工作能成為研究者的寶貴資源,并激發未來研究的更多突破。

如圖4所示,我們引入了一種新的分類法,包括參數調整對齊(§4.1)和參數凍結對齊(§4.2),旨在為研究人員提供一個統一的視角,以理解MLLMs文獻。具體來說,參數調整對齊(PTA)包括一系列逐步進階的訓練和對齊策略,包括預訓練對齊、監督微調(SFT)對齊、人類反饋學習(RLHF)對齊,以及最終的下游微調對齊。這些階段的共同目標是系統地優化模型參數,以對齊多語言性能。相反,參數凍結對齊(PFA)側重于基于PTA的四種提示策略:直接提示、代碼切換提示、翻譯對齊提示和檢索增強對齊。這種方法保持原始模型參數,以實現預期結果。

付費5元查看完整內容

近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。

近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。

“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:

上下文學習 * 規模定律 * 同質化

上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。

通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強

這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。

付費5元查看完整內容

**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。

//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a

1. 引言

一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。

最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型

本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架

GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。

Imagen:用預訓練語言模型編碼文本。

繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。

隱空間框架

穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。

3. 文本到圖像擴散模型的改進

3.1改進模型架構

關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖

盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。

3.3 面向概念控制的文本反轉

文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。

3.4 分布外檢索

SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。

付費5元查看完整內容
北京阿比特科技有限公司