亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。

關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述

1 引言

技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。

例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。

第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。

圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。

本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。

本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。

2 為什么需要對齊與融合

對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。

2.1 提升全面性與魯棒性

對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題

在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性

對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用

對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊

多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊

顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。

DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊

隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法

圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。

這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法

近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。

4 多模態融合

多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。

4.1 編碼器-解碼器融合

編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。

4.1.1 數據級融合

在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。

4.1.2 特征級融合

這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。

4.1.3 模型級融合

模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。

4.2 基于注意力機制的融合

基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。

4.3 圖神經網絡(GNN)在多模態融合中的應用

圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。

4.4 自監督學習與多模態融合

自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。

在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。

例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。

4.5 持續學習與多模態融合

持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。

在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。

付費5元查看完整內容

相關內容

摘要

離線強化學習也稱為批量強化學習,是深度強化學習領域的一項重要研究內容。它利用行為策略生成靜態數據集,無需在線和環境交互,成功地將大規模數據轉換成強大的決策引擎。近年來,離線強化學習方法得到了廣泛關注和深入研究,并在實際應用中取得了矚目的成績。目前,該方法已經應用于推薦系統、導航駕駛、自然語言處理、機器人控制以及醫療與能源等應用領域,并被看作是現實世界應用強化學習最具潛力的技術途徑之一。該文首先介紹了離線強化學習的背景與理論基礎。隨后從決策思路出發,將離線強化學習方法分為無模型、基于模型和基于Transformer模型3大類,并對各類方法的研究現狀與發展趨勢進行分析。同時,對比了目前3個最流行的實驗環境D4RL、RL Unplugged和NeoRL,進而介紹了離線強化學習技術在現實世界諸多領域的應用。最后,對離線強化學習進行了總結與展望,以此推動更多領域的研究工作。 關鍵詞

人工智能;強化學習;深度強化學習;離線強化學習;批量強化學習

付費5元查看完整內容

多模態學習是人工智能領域中一個快速發展的方向,旨在通過整合和分析多種類型的數據(包括文本、圖像、音頻和視頻),構建更具多樣性和魯棒性的系統。受到人類通過多感官獲取信息能力的啟發,這種方法使得文本到視頻轉換、視覺問答和圖像描述等應用成為可能。本文綜述了支持多模態語言模型(MLLM)的數據集的最新發展。大規模多模態數據集至關重要,因為它們為這些模型提供了全面的測試和訓練。本文重點討論了多個數據集的貢獻,包括用于訓練、領域特定任務和現實世界應用的數據集。還強調了基準數據集在評估模型在不同場景中的表現、可擴展性和適用性方面的重要性。由于多模態學習始終在不斷發展,克服這些挑戰將有助于推動人工智能研究和應用達到新的高度。

關鍵詞:多模態 · LMM · LLM · 視頻 · 音頻 · VLM

1 多模態學習與大語言模型概述

多模態學習是人工智能領域一個不斷發展的方向,旨在整合和處理多種數據類型,如文本、圖像和音頻,目標是模仿人類認知,后者自然地將感官輸入結合起來。這種方法相比單模態方法,可以構建出更具魯棒性和智能性的系統。 大語言模型(LLMs),如GPT-3、BERT和T5,在文本相關任務中表現出色,如問答和摘要[36]。然而,它們在處理非文本數據時面臨挑戰,這也推動了多模態大語言模型(MLLMs)的研究,后者將LLM的語言能力與計算機視覺的優勢結合起來。MLLMs在圖像描述和視覺問答等任務中取得了最先進的成果[18]。然而,仍然存在一些挑戰,包括高質量數據集的匱乏、高計算成本以及偏見和隱私等倫理問題[28]。盡管如此,MLLMs在醫療、教育和研究等領域具有變革潛力,成為推動人工智能發展的關鍵焦點。

1.1 多模態學習:基礎與概念

1 多模態學習與大語言模型概述

多模態學習是人工智能領域一個不斷發展的方向,旨在構建能夠處理和結合多種數據模態(如文本、圖像、音頻和視頻)的模型。這是因為現實世界的經驗本質上是多模態的,不同模態所攜帶的信息提供了一種更加全面地理解復雜環境的方式[28]。 多模態學習結合了多種數據類型:文本、圖像、音頻和視頻。這些數據創建了每種模態獨特的表示。鑒于各種數據類型的多樣性,傳統上使用不同的方法來捕捉它們的特征。例如,文本通常通過詞嵌入來表示,重點強調意義和結構[3],而圖像數據則通常依賴于卷積神經網絡(CNN)來提取視覺場景中的細節。同樣,音頻數據通常被轉化為聲譜圖或梅爾頻率倒譜系數(MFCC)以捕捉時間和頻率上的模式[41]。一個典型的大型多模態模型(MLLM)處理管道如圖1所示,首先通過模態編碼器處理輸入,統一其表示。然后通過輸入投影器進行細化,并傳入大語言模型(LLM)進行更深入的對齊和理解。最后,輸出投影器和模態生成器將模型的結果轉化為有意義的輸出,支持諸如生成多模態內容或在不同數據類型之間進行轉換的任務。

模態表示的融合是多模態學習中的關鍵焦點。常用的方法包括早期融合,在處理的初期階段通過連接或組合表示[38],以及晚期融合,其中模態特定的表示在過程的后期結合,通常通過注意力機制或門控機制進行[38]。

除了表示和融合之外,多模態學習還面臨更多挑戰,如對齊、翻譯和共學習。對齊使得跨模態的時間或語義同步成為可能,這是視頻理解或視聽語音識別等任務的基本任務[5]。翻譯幫助實現模態轉換,例如從文本生成圖像[57]。共學習則允許在某些數據模態不可用或損壞的情況下學習,通過從可用模態轉移知識[41]。 最近,LLM的進展,如BERT、GPT和DALL-E,顯著加速了多模態學習的進展。這些模型在理解和生成文本方面表現出色,它們擴展到多種數據類型,使得回答圖像相關問題、創建圖像描述甚至基于文本生成圖像成為可能[32]。

簡而言之,多模態學習在發展能夠有效處理和整合來自不同來源的信息的智能系統中扮演著至關重要的角色。多模態的互補優勢確保了這一領域在自然語言處理(NLP)、計算機視覺和機器人等領域不斷創造創新,應用和研究方向也在不斷擴展。

1.2 多模態大語言模型:機遇與挑戰

最近在LLM方面的進展為多模態大語言模型(MLLMs)鋪平了道路,這些模型結合了跨模態的數據,如文本、圖像、音頻和視頻[59]。MLLMs通過結合不同模態的數據,提升理解和表示能力,具有改變多個領域的潛力。 MLLMs將LLM的能力擴展到傳統文本模型之外的任務。這類模型在圖像描述、視覺問答和文本到視頻生成等任務中表現出色——這些任務都需要深入理解語言與視覺的關系[63]。多模態數據的整合為科學研究和領域特定應用提供了更大的空間,通過推動邊界的擴展,開辟了更多可能性。一些關鍵領域,如醫學影像、自動駕駛和地理空間智能,結合了文本、視覺和傳感器數據,從而實現了更現實的決策過程。 盡管MLLMs具有巨大的潛力,但它們的開發仍面臨重要挑戰。其中主要問題之一是缺乏大規模高質量的多模態數據集[49]。覆蓋現實復雜性的無偏數據是訓練強大MLLMs的必要條件[28]。 另一個挑戰是集成這些不同模態所帶來的計算需求和復雜性。訓練和部署MLLMs需要大量資源,因此需要開發新的模型架構、高效的訓練策略和硬件能力[28]。 最后,確保MLLMs的可靠性、可解釋性和倫理對齊性至關重要。隨著這些模型的日益復雜化,越來越需要提供其決策過程的見解,以減少偏見并使其與人類價值觀更緊密地對齊。開發強大的評估框架和可解釋性工具是建立對MLLMs信任的必要條件[45]。 盡管如此,MLLMs的前景仍然廣闊。通過融合多模態數據,這些模型為更好地理解復雜場景開辟了道路,從而誕生了新的應用并推動了相關科學研究。此外,未來的跨學科合作和對倫理問題的關注將是推動MLLMs轉型的關鍵因素[28]。 在接下來的章節中,我們將對MLLMs所需的關鍵數據集進行分類,分為三大類:訓練特定數據集、任務特定數據集和領域特定數據集,如圖2所示。 **

付費5元查看完整內容

摘要——根據規模預測,大型模型在許多領域取得了突破性進展,特別是在自然語言生成任務中,它們的表現已接近甚至超越人類水平。然而,前所未有的參數規模帶來了顯著的計算和存儲成本。這些大型模型需要大量的計算資源和GPU內存來運行。在將大型模型適應于特定下游任務時,其龐大的參數規模在計算能力和GPU內存有限的硬件平臺上微調時面臨重大挑戰。為了解決這個問題,參數高效微調(PEFT)通過有效調整大型預訓練模型的參數以適應各種下游任務,提供了一種實用的解決方案。具體而言,PEFT調整預訓練大型模型的參數,以適應特定任務或領域,最小化額外參數的引入和所需的計算資源。本文主要介紹PEFT的基礎知識、各種PEFT算法的核心思想和原理、PEFT的應用以及未來研究方向。通過閱讀本綜述,我們相信感興趣的讀者能夠迅速掌握PEFT方法論,從而加速其發展和創新。 關鍵詞——微調、參數高效、大型語言模型、深度學習、人工智能。

最近幾年,大型預訓練模型(通常稱為“大模型”)作為人工智能領域的一項重要進展,逐漸受到廣泛關注。由于其在各種應用場景中的卓越表現和多樣性,這些模型引發了大量討論。這些模型具有強大的計算能力和豐富的數據資源,使其能夠在處理復雜任務時表現出色。在自然語言處理(NLP)領域,大型語言模型(LLMs)備受關注。這些模型在文本生成、機器翻譯、個性化聊天機器人、文本摘要、情感分析和問答系統等任務中展現出卓越的創造力。 然而,大模型的發展面臨著重大挑戰和爭議。這些模型需要大量的計算資源和數據支持,這可能對環境造成威脅并影響隱私保護。盡管在特定任務中表現出色,但這些模型仍然存在局限性和錯誤率,需要不斷優化和改進。在直接使用大模型處理特定任務時,其性能往往低于預期。因此,微調大模型已成為提高模型性能的關鍵方法。 PEFT(參數高效微調)是一種轉移學習方法,專門用于調整大型預訓練模型的參數,以適應新的任務和場景。這種方法涉及動態調整模型,以增強其在執行特定任務時的有效性,考慮到目標任務的獨特特征和要求。微調過程通常包括改進模型架構、優化參數和調整學習策略等多個方面,以在新任務中實現更好的性能。隨著深度學習領域的不斷發展,優化和微調大模型的技術也取得了顯著進展。值得注意的PEFT方法包括LoRA、適配器調優、前綴調優、提示調優、P-tuning、BitFit等。 然而,盡管在多個領域中,大模型微調技術取得了顯著成就,但仍然存在許多需要解決的挑戰和困難。例如,過擬合的緩解、微調效率的優化,以及在預訓練與微調任務之間找到學習平衡等問題都需要更多的研究。 近年來,關于PEFT的文章層出不窮,其中一些研究提供了對最流行方法的有益概述。以下是對這些研究的比較分析。丁寧等人引入了一種理論抽象,用于Delta Tuning,從優化和最優控制的角度進行分析。這一抽象提供了一種統一的方法,描述當前的參數高效微調方法,為未來的研究提供了獨特的視角。然而,盡管該研究主要集中在NLP應用上,但這些方法在不同領域的通用性和有效性仍需進一步探討。Lialin等人提供了全面的分析和分類,涵蓋了廣泛的方法,并比較了約30種方法在存儲效率、內存效率、計算效率、準確性和推理開銷等五個維度上的表現。然而,雖然文章主要關注于對數十億參數規模語言模型進行有效微調的詳細方法,但對真實應用場景的探討相對有限。徐玲玲等人對當前PEFT方法進行了全面的評估和分析,評估了它們在一系列NLP任務中的性能、參數效率和內存利用率。然而,該論文并未充分闡述這些方法在實際操作環境中的應用,也未深入探討它們的適應性及可能遇到的領域特定挑戰。辛怡等人提供了視覺PEFT的全面概述和未來方向,系統地回顧了最新的進展。盡管文章涵蓋了多種視覺任務,但實驗主要集中在幾個常見任務上,并未完全涵蓋更廣泛的潛在應用場景。韓澤宇等人詳細分類了PEFT方法,探討了PEFT技術在各種模型架構和下游任務中的應用,以及參數高效微調方法的系統設計挑戰。該研究為研究人員和工程師提供了PEFT方法的全面概述,但在實際應用覆蓋方面仍有改進空間。 我們的貢獻如下:

  • 我們提供了與現有綜述論文相比,更全面和詳細的關于大模型和一般微調方法論的基礎知識概述。這部分內容不僅涵蓋了大模型的基本原理、結構和技術,還提供了它們在自然語言處理、多模態活動和其他領域的實際應用的深入概述。
  • 我們的調查涵蓋了最新的研究方法論,突出展示了大模型領域的最新進展。這確保了我們的綜述內容全面且詳盡。我們的綜述范圍廣泛,涵蓋了自然語言處理、多模態任務和計算機視覺等多個場景,使讀者能夠全面理解大模型技術的現狀和未來前景。
  • 在回顧和分析當前方法后,我們提出了一些創新和面向未來的研究方向。這些領域考慮到了先進模型技術的增長潛力,并結合了實際應用中行業需求和障礙,提出了可行和創新的研究途徑。

本調查旨在全面回顧大模型微調技術的最新進展。通過對現有研究的深入審查,我們的目標是識別并填補當前知識體系中的空白,從而開發出一個全面和系統的知識框架,為研究人員提供清晰的視角,并指導他們未來的研究。總之,我們的工作為相關領域提供了有價值的資源和視角,供學術和實踐用途。調查的剩余部分結構如下: 在第二部分中,我們提供大型語言模型基本組成部分的簡要總結,包括其過去的發展、新興能力以及支配其規模的擴展規律。隨后,我們簡要概述了全面語言模型的主要分類,并介紹了多模態綜合模型的基本原理和框架。此外,我們還探討了在大型語言模型微調領域采用的主要方法,包括指令微調、對齊和基于人類反饋的強化學習(RLHF)。最后,我們簡要總結了在大模型微調領域最常用的基準和評估數據集。 在第三部分中,我們提供了對PEFT方法的全面分析和總結,展示了當前PEFT方法的分類框架,涵蓋了2019年6月至2024年7月發布的100多篇研究文章。我們在傳統的加法、重新參數化和減法PEFT分類基礎上,納入了混合、量化和多任務分類PEFT方法的總結。 在第四部分中,我們對多模態、視覺和擴散模型領域的PEFT方法進行全面分析和描述。我們的目標是提供深刻的理解和針對不同應用場景的PEFT選擇和改進建議。 在第五部分中,我們總結了我們的廣泛調查,并提出了多個有前景的未來發展方向,包括算法改進和任務場景,旨在為這一蓬勃發展的領域的進一步研究和發展提供有價值的見解。

付費5元查看完整內容

摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來,基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法,導致了相關文獻的爆炸式增長。然而,擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性,為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中,我們根據條件如何融入擴散模型的兩個基本組件(即去噪網絡和采樣過程)對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時,各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后,我們指出了一些關鍵但仍未解決的未來問題,并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。

關鍵詞——生成模型,擴散模型,條件圖像生成,條件集成。

I. 引言

圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時,它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破,如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而,早期基于深度學習的生成模型(如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200])在條件圖像生成中的表現并不令人滿意,這是由于它們的內在局限性:GANs 容易出現模式崩潰和訓練不穩定的問題 [49];VAEs 通常生成模糊的圖像 [81];而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。

近年來,擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角,憑借其強大的生成能力和多功能性,得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中,圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能,表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外,與一步生成模型相比,擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具,近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。

隨著相關研究的快速擴展,模型架構、訓練方法和采樣技術的眾多變化,以及潛在的條件生成任務的廣泛性,研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述,提供對這一快速發展的研究領域的全面且結構化的概述。

已有一些關于特定條件圖像生成任務的綜述,如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64],或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解,但它們并未涵蓋不同條件生成任務在模型框架中的共同特征,特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述,但它們的范圍有限,主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作,忽略了早期將條件集成到無條件去噪網絡中的工作,或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎,并且在低級任務如圖像修復中仍然廣泛應用。此外,[182] 主要關注基于擴散模型的圖像編輯框架,缺乏對該領域其他任務統一框架的系統分析,而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此,它們的分類方法缺乏系統性,并遺漏了 DCIS 領域中的一些關鍵相關工作。

相較之下,本綜述旨在提供一個全面且結構化的框架,涵蓋當前廣泛的 DCIS 研究工作,基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說,我們通過審查和總結現有的 DCIS 方法,探討條件如何集成到擴散建模的兩個基本組件中:去噪網絡和采樣過程。在去噪網絡方面,我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中,我們將六種主流的采樣中條件機制進行分類,詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述,使他們能夠設計適用于其所需任務的條件生成框架,包括尚未探索的新任務。

本綜述的其余部分組織如下:首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來,我們在第三部分總結去噪網絡中的條件集成方法,并在第四部分總結采樣過程中的方法。最后,我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。

付費5元查看完整內容

摘要——在過去的十年中,深度神經網絡取得了令人振奮的突破,數據增強作為一種正則化技術在缺乏大規模標注數據的情況下越來越受到關注。在現有的數據增強方法中,Mixup 及相關的數據混合方法通過凸組合選定樣本及其對應的標簽生成數據依賴的虛擬數據,廣泛應用于各種領域并取得了優異的性能。本綜述對基礎的Mixup方法及其應用進行了全面的回顧。我們首先詳細闡述了包含Mixup增強的訓練流程,作為一個包含模塊的統一框架。一個重構的框架可以容納各種Mixup方法,并給出直觀的操作步驟。然后,我們系統地研究了Mixup增強在視覺下游任務、各種數據模態上的應用,以及Mixup的分析與定理。同時,我們總結了當前Mixup研究的現狀和局限性,并指出了進一步提升Mixup增強有效性和效率的研究方向。本綜述可以為研究者提供Mixup方法的最新進展,并在Mixup領域中提供一些洞見和指導作用。本綜述的在線項目可在 //github.com/Westlake-AI/Awesome-Mixup 獲取。 關鍵詞——數據增強,Mixup,分類,自監督學習,計算機視覺,自然語言處理,圖結構

深度神經網絡(DNNs),如卷積神經網絡(CNNs)和Transformers,由于其強大的特征表示能力,已成功應用于諸多任務,如圖像分類、目標檢測和自然語言處理(NLP)等。為了完成越來越具有挑戰性的任務,DNNs使用了大量可學習的參數,這意味著如果沒有大量的訓練數據,模型容易過擬合,無法很好地泛化。然而,在某些情況下,訓練數據難以獲得且收集成本高昂。如何讓DNNs在有限的訓練數據之外實現泛化,是深度學習中的一個基本問題。

為了解決數據需求量大的問題,研究人員提出了數據增強(DA)技術。與“模型中心”和正則化方法相比,DA是一種“數據中心”的正則化技術,它通過合成虛擬訓練數據來防止過擬合。DA通過構建同一樣本的不同版本引入有用的不變特征。DA帶來的數據集大小增加和歸納偏差的引入也起到了一定的正則化效果,緩解了過擬合問題。最近,數據增強已被證明能夠提高深度學習模型的泛化能力,成為實現最先進性能的關鍵因素。數據增強可以通過對比組合、Mixup和生成等方式合成新數據。

在本綜述中,我們聚焦于一個新興領域——Mixup。Mixup [1] 通過對兩個樣本及其對應的one-hot標簽進行插值來生成增強樣本。本質上,基于Mixup的方法通過混合多個樣本來生成增強數據。與大多數現有的增強技術修改單個樣本但不改變其唯一標簽的做法不同,Mixup通過來自兩個或多個示例生成增強樣本,導致多個標簽的產生,從而更好地反映現實世界的情況。此外,Mixup在不同的數據集和領域中表現出很強的可遷移性。相比之下,其他組合方法通常需要大量時間來確定合適的增強策略。生成方法在應用于大數據集時具有挑戰性,因為它需要額外的生成器和判別器,從而限制了可遷移性和應用場景。而Mixup不依賴于保留標簽的操作,而是通過可學習的方法來創建更有效的增強樣本。與傳統的數據增強方法處理單個樣本不同,Mixup通過混合多個樣本生成虛擬訓練數據,無需領域知識即可生成大量的訓練數據。目前,Mixup已成功應用于多種任務和訓練范式,包括監督學習(SL)、自監督學習(SSL)、半監督學習(Semi-SL)、自然語言處理(NLP)、圖結構和語音處理等領域。

在圖1中,我們總結了這些訓練范式和數據模態下的一些主流方法的時間軸

  • SL(樣本):2018年,Mixup [1] 提出了靜態線性插值的樣本混合方法。2019年,CutMix [2] 和 Manifold Mixup [3] 提出了基于切割和特征的Mixup改進。這些是特定的增強方法。但從2020年到2023年,許多方法進一步在靜態線性、切割和特征基礎上改進了Mixup,甚至逐步轉向自適應方式。到2024年,DiffuseMix [4] 結合了生成模型和Mixup方法。

  • SL(標簽):2019年,AdaMixup [5] 發現混合比例λ會影響模型性能,這被稱為“流形入侵”。因此,從2020年到2024年,許多基于CNNs或Vision Transformers(ViTs)的方法涌現出來,優化這些比例。此外,CAMixup [6] 在2021年和RankMixup [7] 在2023年提出了增強模型校準的方法。

  • SSL(CL)與SSL(MIM):對比學習(CL)在圖像分類任務中表現出強大的能力。為了提高模型性能,研究人員提出了大量結合Mixup的CL方法,這些方法通過Mixup獲得“半正樣本”以捕捉更多特征。CL + Mixup 通常會修改其損失項以適應SSL任務。遮掩圖像建模(MIM)通過從混合樣本中重建樣本,認為混合樣本將共享更多特征,能夠學習一些高維信息。MixMAE [8] 和MixedAE [9] 在2023年展示了這一觀點。

  • Semi-SL:可以利用標注和未標注的信息。2019年,MixMatch [10] 使用這種方法提高了模型性能,并使其更具魯棒性,因為混合樣本可以作為帶噪聲圖像的干凈圖像使用。對于PUL,P3Mix [11] 在2021年通過混合來自決策邊界附近的樣本獲得了更好的準確性。DecoupledMix [12] 在2023年提出了通過解耦樣本預測來獲得更干凈的偽標簽。

  • 數據模態:不僅限于圖像領域。對于NLP,WordMixup & SenMixup [13] 在2019年提出了兩種文本混合方式,分別基于句子混合和嵌入混合。基于這兩種基本方法,許多帶有特定修改的方法被提出。例如,SeqMix [14] 在2021年提出了基于顯著性的嵌入混合,TreeMix [15] 通過使用成分句法分析將句子分解為子結構,并通過混合重新組合成新句子。對于圖結構,GraphMix [16] 和 ProGCL [17] 在2021年和2022年提出了結合Mixup方法的圖分類,并提出了一些結合Mixup和圖結構的新損失項,用于困難樣本挖掘。GraphMixup [18]、G-Mixup [19] 和iGraphMix [20] 在2022年和2024年通過顯著性信息獲得混合圖樣本,以提高模型的分類能力和魯棒性。對于語音,BC [21] 和Contrastive-mixup [22] 通過線性插值直接混合語音數據。

總體而言,與已發表的三篇關于Mixup的綜述[23]、[24]和[25]相比,我們的貢獻包括:

  • 我們提供了及時的文獻回顧,并使用SL作為示例,提出了兩種不同的Mixup改進策略(樣本和標簽)的綜合框架。這兩種策略可以對應不同的訓練范式和數據模態。

  • 我們仔細回顧并討論了各種Mixup方法的技術細節,如靜態線性、顯著性和基于注意力的方式,以便研究人員能夠更好地了解所涉及的方法,進而獲得更深入的理解和洞見。

  • 我們對Mixup方法在下游任務中的應用進行了系統性的綜述,提出了技術挑戰,并進一步展示了它們在視覺任務之外的廣泛適用性,如音頻、語音、圖形、生物學等領域。

  • 我們進一步將Mixup方法總結為一種可訓練的范式,相比于其他綜述中將其作為數據增強工具和方法的處理方式,我們呼吁研究人員貢獻一個統一的Mixup框架,以解決多種任務,而不是離散的任務特定修改。

Mixup框架模塊 在本小節中,我們將詳細說明Mixup方法流程中的各個模塊功能,如圖2所示。

  • 初始化:在進行Mixup之前,一些方法會選擇mini-batch中的原始樣本來篩選適合混合的樣本。例如,Co-Mix [26] 在mini-batch中選擇適合的樣本,以最大化所獲得的混合樣本的多樣性。除了篩選樣本外,一些基于顯著性的方式利用預訓練模型定位并獲取樣本的特征圖。最后,各種方法從Beta分布中獲取Mixup比例λ。

  • 樣本Mixup策略:在監督學習中,我們將策略分為9類,詳細信息展示在圖A1中。靜態線性方法使用λ基于插值線性混合兩個或多個樣本。基于特征的方法使用由fθ(?)f_θ(·)fθ(?)獲得的原始樣本特征圖,并以插值線性的方式進行混合。切割方法通過不同方式(如切割、調整大小或堆疊)混合樣本,混合比例λ來自掩碼區域。K樣本Mixup方法使用兩個以上的樣本進行混合。隨機策略方法結合了多種不同的數據增強方法和一些手工制作的Mixup方法,策略的選擇由每種方法的權重因子決定。基于風格的混合方法通過額外的風格提取器從樣本的風格和內容中進行混合。顯著性方法使用樣本特征圖來定位顯著性信息,并獲得最大特征混合樣本。基于注意力的方法類似于顯著性方法,利用注意力得分而非顯著圖。生成樣本的方法使用生成模型,如基于GAN的模型[27]和基于擴散的模型[28]生成混合樣本。

  • 標簽Mixup策略:在監督學習中,我們將策略分為8類,并在圖A1中展示了詳細內容。校準優化方法使用ECE指標對混合樣本進行排序,以提高分類性能和模型校準。基于區域的方法使用掩碼區域重新定義混合比例λ。損失對象方法重新定義新的Mixup分類損失或提出新的損失作為正則化方法。隨機策略方法將其他增強方法與Mixup方法結合或為Mixup提出新的訓練策略。混合比例優化方法使用可學習的參數作為λ,通過不同的混合樣本獲得可靠的混合比例。生成標簽方法通過混合樣本生成混合標簽,而不是使用one-hot標簽。注意力得分方法使用原始樣本的注意力圖來獲得比例,或者使用混合樣本的注意力圖通過每個樣本的得分計算混合比例。顯著性Token方法使用每個原始樣本的顯著圖并將其劃分為tokens,通過tokens計算混合比例。

  • 采樣:一些方法僅專注于樣本策略,以提高模型的性能和能力。它們采用其他策略來固定比例λ或標簽,一些方法計算掩碼上的所有像素并固定λ,而另一些方法為混合樣本設置權重因子。

  • 通道Mixup策略:與樣本或標簽不同,通道具有大量高級特征。Manifold Mixup [3] 通過插值線性獲得混合樣本,Catch up-Mix [29] 通過選擇一些特征圖進一步提高濾波器能力,獲得混合樣本。

Mixup方法的主要步驟

如圖2頂部所示,Mixup方法遵循以下步驟:

  1. 從訓練數據集中加載mini-batch原始樣本;
  2. 對于一些下游任務,包括選擇原始樣本和保留可靠樣本,一些基于顯著性或注意力的方法通過加載預訓練模型獲得特征區域或tokens。然后,定義從Beta分布或均勻分布采樣的混合比例λ;
  3. 初始化后,原始樣本通過樣本Mixup策略與其他樣本混合。我們在3.1小節中展示了這些策略;
  4. 當生成混合樣本x^\hat{x}x^ 后,有兩種選擇:一種是采樣,一些方法通過掩碼M的總像素更新混合比例,一些方法選擇混合樣本以保留更多的多樣性或具有挑戰性的樣本,另一些方法重新定義混合比例。另一種是標簽Mixup策略,我們在3.2小節中展示了這些策略并進一步挖掘標簽y^\hat{y}y^;
  5. 最后一步是通道Mixup策略,混合樣本x^\hat{x}x^ 通過網絡編碼并映射到高維潛在空間,一些方法相互插值或選擇特征圖用于高維特征z^\hat{z}z^。然后繼續對特征向量進行編碼以執行不同的任務,并根據不同的損失函數優化網絡。

結論

在本綜述中,我們將Mixup方法重新表述為一個統一的框架,并總結了這些方法在2018年至2024年間在各種任務中的技術細節和數據模態。此外,我們將Mixup分為兩大類:樣本Mixup策略和標簽Mixup策略,這兩類可以涵蓋Mixup的不同改進版本,并在圖A1和圖A2中總結了本綜述中的所有Mixup方法。我們還總結了Mixup方法中經常使用的各種數據集類型,以及在常用數據集上基于主流模型進行圖像分類任務的主流Mixup方法的分類結果,顯示在表A2、表A3和表A4中。最后,我們討論了現有問題和未來有價值的研究方向,旨在為研究人員提供該領域中的一些前沿想法和思路。

付費5元查看完整內容

摘要——在數據爆炸性增長和技術快速發展的時代,多模態大型語言模型(MLLMs)處于人工智能(AI)系統的前沿。MLLMs旨在無縫集成包括文本、圖像、視頻、音頻和生理序列在內的多種數據類型,解決遠遠超出單一模態系統能力范圍的復雜現實應用問題。在本文中,我們系統地梳理了MLLM在自然語言、視覺和音頻等多模態任務中的應用。我們還對不同MLLM在任務中的關注點進行了對比分析,并深入探討了當前MLLMs的不足之處,并提出了未來研究的潛在方向。通過這些討論,本文希望為MLLM的進一步發展和應用提供寶貴的見解。關鍵詞——MLLMs, 任務, AI應用, 融合技術。多模態大型語言模型(MLLMs)是設計用來處理和集成各種類型數據的復雜人工智能(AI)系統,包括文本、圖像、視頻、音頻和生理序列數據[1],[2],[3]。隨著我們進入多模態數據融合的時代,信息技術的快速進步和數據量的爆炸性增長,單一模態系統的能力已不足以應對復雜的現實任務[4],[5],[6]。因此,MLLMs的發展不僅是技術進化的必然趨勢,也是提高AI應用有效性的關鍵改進。通過融合來自多個數據源的信息,MLLMs培育了更全面和準確的信息表示,這種能力不僅釋放了巨大的潛力,還展示了在各個領域的顯著實際應用價值。多樣化數據集的整合使得MLLMs能夠更有效地執行任務,確立其作為下一代技術的不可或缺地位,致力于充分發揮AI技術的潛力[7],[8],[9]。值得注意的是,MLLMs在語言、圖像、視頻和音頻處理等多種多模態任務中表現出了顯著的性能。這些模型在集成多模態信息以增強多模態任務的有效性方面表現出色。在自然語言處理(NLP)任務中,如文本生成和機器翻譯,MLLMs利用圖像、視頻和音頻提供上下文支持,增強生成文本的準確性和表達力[10],[11],[12]。這些模型在情感分析和對話系統中也表現出色,通過整合多模態信息來提高理解和生成能力。特別是,MLLMs通過結合視覺和聽覺數據,豐富了文本生成和機器翻譯[13],[14],[15]。這些模型提高了生成文本的準確性和表達力,提供了傳統模型無法實現的細膩上下文支持。在情感分析和對話系統中,MLLMs能夠整合多模態信息,進一步加深系統的理解和響應能力,展示了在人機交互方面的重大進步[16],[17]。此外,在視覺任務中,MLLMs顯著提升了任務的理解、分析和生成能力。整合文本描述和圖像指令使得圖像分類、目標檢測和圖像注釋等任務更加準確。例如,像GPT-4V[13]和Gemini[18]這樣的MLLMs結合圖像內容和自然語言描述,產生更生動和精確的注釋結果。這些模型在圖像生成方面也取得了進展,可以從文本描述生成圖像或實現跨模態圖像風格遷移,從而拓寬了該領域的可能性。同時,由于視頻處理的復雜性,它提出了獨特的挑戰。然而,MLLMs的出現推動了語言模型在這一領域的能力發展。像NExT-GPT[19]和Sora[20]這樣的模型在多模態視頻生成方面處于領先地位,通過學習多模態數據生成更豐富和逼真的視頻內容。此外,智能視頻理解技術的進步,如VideoChat[21]和Video-LLaVA[22],顯著增強了分析和處理視頻內容的能力。這些發展在虛擬現實、電子游戲和教育應用中承諾了增強的用戶體驗。在音頻任務中,MLLMs為音頻處理任務帶來了新的技術變革。傳統的音頻處理通常依賴于單一模態的信號處理方法,如語音識別[23]或音頻分類[24],這些方法在處理復雜的多模態數據時存在局限性。MLLMs通過結合音頻信號、文本和視覺信息,能夠更好地理解和生成音頻相關內容。例如,在語音生成任務中,MLLMs可以利用文本和視覺信息生成更自然和上下文相關的語音輸出[25],[26]。在音頻理解任務中,這些模型可以結合視覺線索和文本描述,更準確地執行情感識別、音頻分類或音頻事件檢測。此外,MLLMs在跨模態音頻文本翻譯、音頻配樂生成和多模態情感分析等任務中顯示出強大的潛力[27],[18]。這些技術進步不僅提高了音頻處理的有效性,還擴展了其在智能家居、虛擬助手、影視制作等現實應用中的場景。本文回顧了MLLM應用的最新進展,在第二節介紹了MLLMs的基本概念和主要架構,第三節描述了它們在不同領域的表現,以識別其優缺點,第四節通過比較分析突出MLLMs的變革性影響,并在第五節提供了未來研究的路線圖。我們的討論旨在激勵持續創新,確保MLLMs在AI技術發展的前沿位置。通過對當前實施和進展的全面回顧,本文旨在總結研究成果,提供有價值的參考,并為MLLM領域的未來研究提供指導。我們的目標是激發新思想和新方向,以確保MLLMs在AI技術發展中保持領先地位。

II. 多模態大型語言模型概述

**A. 定義和基本概念

總體而言,MLLMs 代表了人工智能和機器學習領域的重大進展,具備處理和解釋多種數據類型(包括文本、圖像、音頻和視頻)的能力[28], [29], [30]。通過整合和合成這些不同模態的數據,MLLMs 實現了對信息更全面和精確的理解和生成[3]。

特別是,MLLMs 是專門設計用來同時處理和解碼多模態數據的復雜系統。MLLMs 的核心原理在于不同模態的整合和交互,這顯著增強了模型的有效性。這種多模態方法不僅提升了對單一數據類型的理解,還促進了它們之間的更細致的互動,從而擴展了 AI 應用的范圍和準確性。例如,在圖像描述任務中,MLLMs 利用文本和視覺數據生成準確且上下文相關的圖像描述。這種協同作用使模型能夠超越單一模態系統的限制,提供更豐富和詳細的輸出。此外,音頻和視覺數據的結合可以大大提高視頻理解和注釋任務的性能,使 MLLMs 成為需要詳細多媒體分析的應用中的寶貴工具。

通過利用各種數據類型的集體優勢,MLLMs 不僅增強了 AI 解釋和與世界互動的能力,還為機器理解復雜、多方面的信息開辟了新的發展方向。

**B. 多模態大型語言模型的主要組件

MLLM 通過多個關鍵組件有效地處理和整合來自不同模態的數據。這些組件設計用于將各種來源的原始輸入轉化為可操作的見解,使這些模型非常通用和有效。這些模型的架構大致可以分為三個主要組件:多模態輸入編碼器、特征融合機制和多模態輸出解碼器。

多模態輸入編碼器:多模態輸入編碼器是 MLLMs 中的關鍵組件,設計用于將來自不同模態的原始輸入數據轉化為模型可以有效處理的結構化格式。這個重要模塊專門處理不同類型的數據,確保每種數據形式都能被優化編碼,從而有效地貢獻于模型的整體功能。以下是編碼器如何處理每種數據類型的細節:

文本:對于文本數據,編碼器利用嵌入層技術,將詞匯映射到連續數字向量中,以及多層感知器(MLP)或更高級的 Transformer 來管理文本中的長程依賴和上下文。

圖像:視覺數據通過最先進的架構如 Vision Transformer (ViT) [31] 處理,ViT 將圖像部分視為序列以更好地捕捉關系,或通過殘差網絡(ResNet)[32] 處理,ResNet 幫助在各層中學習更深的特征而不丟失上下文。

音頻:音頻數據使用 C-Former [33]、HuBERT [34]、BEATs [35] 或 Whisper [36] 等模型進行分析。這些模型專門捕捉聲音的獨特特性,從基本音調到復雜的語言,增強了模型準確解釋聽覺信息的能力。

序列數據:對于如腦電圖(EEG)和心跳等序列數據,編碼器采用 1D 卷積神經網絡(1D-CNN)和長短期記憶網絡(LSTM)單元的組合。該設置特別有效于捕捉數據中的時間和空間模式,這對于醫療應用中的早期診斷至關重要。

通用編碼器:一種較新的創新是通用編碼器,旨在標準化處理各種高度多樣化的數據類型,包括音頻、視頻和功能性磁共振成像(fMRI)。該編碼器利用一種通用方法來處理和整合多種形式的數據,促進數據處理的一致性和效率。這些編碼器將原始輸入轉換為特征向量,然后轉化為固定長度的特征序列。這種標準化對于進一步處理數據至關重要,確保模型的后續層可以有效地執行特征融合和解碼。

通過適應和優化各種數據類型的初始處理,多模態輸入編碼器不僅提升了模型的性能,還擴展了其在不同領域的適用性。無論是提高圖像描述的準確性,豐富機器翻譯的上下文,還是推進醫療診斷工具的精度,這個編碼器在使 AI 模型能夠執行復雜任務方面發揮了基礎性作用。 特征融合機制:多模態模型的核心在于整合不同模態的特征。這個整合可以在不同階段進行[37],[38]:

早期融合:在初始階段結合輸入數據,利用不同模態的原始互聯性。

中期融合:在特征提取階段融合特征,使每種模態都能為統一表示做出獨特貢獻。

晚期融合:在決策階段整合單獨模態路徑的最終輸出,通常用于需要多種數據類型綜合判斷的任務。

聯合融合:一種混合方法,結合早期、中期和晚期融合,最大化各階段的數據利用。這些融合過程通常利用預訓練的大型語言模型(LLM),這些模型雖然最初設計用于文本數據,但通過高級特征投影和序列化技術適應處理和綜合多模態輸入。

多模態輸出解碼器:最后,多模態輸出解碼器將融合、綜合的多模態信息重新轉換為特定任務所需的可用形式。比如在圖像描述任務中,解碼器可能基于視覺輸入生成描述性文本。在視頻理解任務中,它可能生成結合視覺和聽覺數據的注釋或摘要。每個解碼器都經過精心設計以優化準確性和質量,確保輸出精確反映從綜合模態中獲得的見解。

總之,多模態大型語言模型的復雜架構使其能夠通過整合和合成文本、圖像和音頻數據來處理復雜任務。這種能力不僅提升了 AI 應用的性能,還為我們理解和互動技術開辟了新的創新途徑。

**C. 大型語言模型中的多模態特征概述

在融合多模態特征時,通常不會從零開始訓練新模型,而是利用現有的預訓練大型模型,如 LLMs。盡管預訓練的 LLMs 主要設計用于處理文本輸入,但可以通過各種技術使這些模型適應處理多模態數據。我們將在本節介紹一個具體示例,以詳細說明融合過程并進行理解。

首先,需要將每種模態的數據編碼并投影到統一的特征空間中。例如,可以使用預訓練模型如 ResNet 或 Vision Transformer 將圖像數據轉換為特征向量 Vimage。文本數據可以使用預訓練文本編碼器如 BERT [39] 轉換為特征向量 Vtext,音頻數據可以通過預訓練音頻編碼器如 wav2vec [40] 轉換為特征向量 Vaudio。然后,通過線性變換或其他投影方法將不同模態的特征向量映射到共享特征空間中。為了將這些多模態特征輸入到預訓練的 LLM 中,需要將來自不同模態的特征組織成一個序列。可以簡單地通過連接來自不同模態的特征(如 [Vimage, Vtext, ..., Vaudio, Vtext])來形成多模態特征序列。

接下來,將構建的多模態特征序列輸入到預訓練的 LLM 中進行處理。Transformer 模型通過多層自注意力機制和前饋神經網絡處理輸入特征序列。每一層包含自注意力和前饋網絡模塊,更新和整合特征表示,逐步提取更高層次的特征。經過多層 Transformer 處理后,模型生成一個包含綜合信息的特征表示序列。根據任務需求,可以通過特定的輸出層生成最終結果。例如,如果任務是生成文本描述,可以將綜合特征表示輸入到文本生成器中以生成描述性文本。

通過遵循這些步驟,可以有效地由 LLM 處理多模態特征。盡管預訓練語言模型如 GPT 和 LLAMA 主要設計用于文本輸入,但其能力可以通過特征投影和序列化方法擴展,以處理和整合多模態數據,從而執行復雜的多模態任務。

付費5元查看完整內容

隨著大型語言模型(LLMs)的最新進展,結合LLMs與多模態學習的興趣日益增長。先前關于多模態大型語言模型(MLLMs)的綜述主要集中在理解方面。本綜述詳細闡述了不同領域的多模態生成,包括圖像、視頻、3D和音頻,并重點介紹了這些領域的里程碑式的顯著進展。具體來說,我們詳盡調查了這些方法背后的關鍵技術組件和研究中使用的多模態數據集。此外,我們深入探討了可以利用現有生成模型進行人機交互的工具增強型多模態代理。最后,我們還全面討論了人工智能安全的進展,并研究了新興應用及未來前景。我們的工作提供了對多模態生成的系統且深入的概述,預計將推動生成內容人工智能(AIGC)和世界模型的發展。所有相關論文的精選列表可以在//github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation找到。

人與物理世界的互動涉及來自多種模態的信息,例如語言、視覺和音頻。因此,實現一個世界模擬器也需要模型能夠以靈活的方式感知和響應多模態信息。最近,OpenAI提出了一個基礎視頻生成模型Sora [1],能夠生成高度逼真的視頻作為世界模擬器。它在模擬或生成真實世界視頻方面取得了很大進展,但無法生成其他模態,如文本、3D和音頻。此外,它缺乏感知其他模態(如圖像、視頻、3D和音頻)的能力,使其成為一個無法全面理解的世界模擬器。

在過去的幾年中,研究人員專注于單一模態的生成并取得了很大的進展:在文本生成方面,我們見證了從BERT [2]、GPT1 [3]、GPT2 [4]、GPT3 [5]、GPT4 [6]到ChatGPT [7]、LLaMA [8]、[9]的定性飛躍,模型參數和訓練樣本數量迅速增長,導致模態能力和產品部署的不斷提升。在視覺生成領域,隨著擴散模型和大規模圖文數據集的快速進步,圖像生成取得了顯著成就,能夠根據各種用戶提供的提示文本合成高質量的圖像 [10]–[13]。隨后,通過視頻擴散模型和大規模視頻語言數據集,視頻生成領域也取得了重要進展,出現了許多開創性的工作,如 [14]–[22] 和Sora [1]。在3D生成方面,隨著CLIP [23]模型的出現,一些方法 [24]–[26] 嘗試將文本信息帶入3D表示的渲染圖像(即點云、網格、NeRF [27]和高斯投影 [28]),這些方法在文本到3D生成方面取得了顯著進展。此外,將Stable Diffusion (SD) [10]與文本到圖像渲染相結合,推動了一系列文本到3D生成的工作 [29]–[43]。強大的文本到圖像模型幫助3D生成實現了更高的性能和更好的結果。在音頻生成領域,一系列代表性工作涉及不同的音頻域,如 [44]–[46] 的文本到音頻、 [47]–[49] 的文本到音樂和 [50]–[55] 的文本到語音,它們在生成高質量的自然聲音、音樂和人類級語音方面取得了顯著的性能。

隨著大型語言模型(LLMs)的顯著進步,其他非文本模態開始利用LLMs的力量來增強其生成流程,或將文本生成與非文本生成集成到一個統一系統中,旨在實現更高級的功能和改進的生成性能。在圖像生成方面,有兩類方法與語言模型實現了顯著的整合。第一類方法涉及將視覺信息編碼為離散的令牌ID,試圖統一視覺理解與生成 [56]–[61]。具體來說,視覺信息被編碼為令牌表示,LLMs直接理解并生成視覺令牌,從而實現視覺理解與生成的同步。第二類方法專注于利用LLMs提升現有預訓練文本到圖像(T2I)模型的生成質量:一類工作涉及利用LLMs作為布局規劃器,結合對象的空間位置、數量和對象大小的知識,生成所需的邊界框 [62]–[66]。在獲得邊界框后,可以通過一個基于文本到圖像(T2I)模型生成圖像 [67]。另一種方法是利用LLMs擴展用戶輸入的提示 [68]:通過提供高度詳細和全面的用戶提示,LLMs通過豐富提示信息生成高質量的圖像。在LLMs的幫助下,視覺生成實現了更高的生成質量、改進的提示跟隨能力、對話功能和用戶友好界面。在視頻生成方面,LLMs作為統一的多模態聯合生成的通用骨干 [69]、[70],用于視頻布局規劃 [63]、[71]–[74] 和動態指導的時間提示生成 [75]–[79]。在3D生成和編輯方面,LLMs作為用戶與3D資產之間的橋梁,提高了交互效率 [80]、[81] 并幫助用戶理解 [82]、[83] 3D資產。在音頻生成和編輯方面,語言模型主要作為多模態音頻的協調骨干 [84]–[96],用于特定任務的條件器 [97]–[99],用于音頻理解的標簽器 [100]–[102],以及用于交互生成/編輯的代理 [103]–[108],并作為新方法的靈感來源 [47]、[48]、[53]、[109]–[111]。LLMs在音頻領域的日益廣泛使用不僅改變了我們與聲音和音樂互動的方式,還擴展了AGI與音頻技術交叉點的邊界。此外,多模態代理將多種模態整合到一個系統中,開發出一個能夠理解和生成非文本模態的通用系統。因此,LLMs在生成各種模式的內容中扮演著越來越不可或缺的角色。

為了賦能世界模擬器并推動多模態生成的發展,在這項工作中,我們對涉及LLMs在多模態生成中的工作及其在這一過程中的角色進行了全面回顧。如圖1所示,我們將LLMs的角色總結為幾個關鍵方面,如評估者、標注者、指令處理器、規劃者、語義指導的提供者或骨干架構。此外,我們在第9節討論了AIGC時代的重要安全問題,在第10節和第11節探討了新興應用和未來前景。

我們總結了我們的貢獻如下

  • 我們首次系統性地回顧了LLMs在多模態生成中的應用,包括圖像、視頻、3D和音頻。
  • 我們通過比較分析前LLM時代和后LLM時代的生成技術演變,提供了對這些方法進展和改進的清晰視角。
  • 我們從技術角度總結了LLMs在各模態生成過程中的各種角色。
  • 我們討論了重要的AI安全問題,研究了新興應用,并探索了未來方向,以促進多模態生成和世界模型的發展。 內容概述

我們首先在第2節回顧了關于特定模態生成和LLMs的相關綜述。接著在第3節簡要回顧了代表性生成模型、多模態編碼器、Transformer和LLMs的基本技術。然后,我們在第4節、第5節、第6節、第7節和第8節分別回顧了基于LLMs的不同視覺模態的視覺生成,包括圖像、視頻、3D、音頻和多模態代理。最后,我們在第9節討論了生成式AI的安全性,并在第11節探討了基于LLMs的多模態生成領域的幾個潛在未來方向。

范圍

本綜述探討了多種模態的生成,包括圖像、視頻、3D模型和音頻。我們的多模態生成綜述涵蓋了不同模態的單獨生成以及多模態的聯合生成。我們不會深入探討純文本生成,因為已有許多綜述專門關注該領域的進展 [112]–[114]。我們的主要關注點是近年來大型語言模型的出現如何幫助生成其他視覺和音頻模態,特別是在開放域生成方面。這將有助于我們設計更好的多模態統一生成模型。具體來說,我們關注以下任務:

  • 圖像生成與編輯:圖像生成旨在根據用戶提供的文本描述創建各種開放域圖像內容,包括圖片、照片或風格化繪畫。圖像編輯旨在根據用戶指示修改輸入的圖像內容。
  • 視頻生成與編輯:模型根據自由形式的文本描述生成或修改任意和各種動態視覺內容。
  • 3D生成與編輯:生成和編輯3D對象、場景或頭像的任務,基于用戶提供的文本描述。
  • 音頻生成與編輯:使用文本描述生成音頻,包括一般聲音、音樂和語音。音頻編輯任務如添加、刪除或修復涉及使用文本描述修改現有音頻。
  • 多模態生成代理:使LLMs能夠通過利用各種專門的多模態工具處理不同模態的數據。
  • 生成式AI安全:關注減少有害和偏見內容,保護版權,并解決多模態生成模型創建虛假內容的問題

付費5元查看完整內容

摘要 —— 隨著ChatGPT的興起,大型模型的使用顯著增加,迅速在整個行業中脫穎而出,并在互聯網上廣泛傳播。本文是對大型模型微調方法的全面綜述。本文研究了最新的技術進展以及在諸如任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調和動態微調等方面應用先進方法。 索引術語 —— 大型語言模型(LLMs)、任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調、動態微調 I. 引言 變換器(Transformer)模型的出現標志著自然語言處理(NLP)領域的一個重要里程碑。變換器架構最初是為了解決循環神經網絡(RNNs [143])和卷積神經網絡(CNNs [55])在處理長距離依賴關系中的局限而設計的,該架構由Vaswani等人在2017年引入[126],徹底改變了我們處理語言理解和生成任務的方式。 變換器架構背景:變換器模型源于對比傳統模型更有效處理序列數據的需求。其獨特的架構,不依賴遞歸和卷積,利用注意力機制來抽取輸入與輸出之間的全局依賴關系,顯著提高了處理效率和模型性能。 編碼器[19]、解碼器[95] [96] [13]以及編解碼器[100]架構:變換器架構主要由其編碼器和解碼器組成。編碼器處理輸入序列,創建每個詞的豐富上下文表征。相比之下,解碼器通常在語言翻譯任務中生成輸出序列,使用編碼信息。 兩者的區別在于它們的角色:編碼器是輸入的上下文感知處理器,而解碼器基于編碼輸入生成預測。編解碼器架構常用于序列到序列的任務,結合這兩個組件,便于處理復雜任務,如機器翻譯,編碼器處理源語言,解碼器生成目標語言。 大型模型中的微調興起:微調大型語言模型的概念源于將這些模型從訓練于龐大、多樣的數據集適應到特定任務或領域的挑戰。微調調整模型的權重,針對特定任務,增強其從廣泛語言模式到特定應用需求的泛化能力。隨著模型規模和復雜性的增長,這種方法變得越來越重要,需要更精細的適應技術來充分發揮其潛力。 本文的結構旨在提供關于微調大型語言模型的方法論和進展的全面概覽。后續部分的組織如下: 文獻回顧:審視語言模型的發展,突出變換器架構的關鍵發展和基礎概念。 理論基礎:深入探討變換器模型的理論基礎,包括注意力機制、編碼器和解碼器的機制。 微調策略:討論各種微調方法,如任務特定、領域特定的適應和高級技術,如小樣本學習和動態微調。 挑戰與未來方向:識別微調方法中的當前挑戰,并探索這一迅速發展領域的潛在未來研究方向。 本文介紹了基于變換器架構的大型語言模型的范式,并提供了常用的大模型微調方法的詳細概述。文章以一個比較實驗結束,聚焦于六個文本分類數據集上的模型大小和LoRA微調范式。實驗代碼已在GitHub上提供。

付費5元查看完整內容

摘要: 隨著人工智能的快速發展,從可行的算法中選擇滿足應用需求的算法已經成為各領域亟待解決的關鍵問題,即算法選擇問題。基于元學習的方法是解決算法選擇問題的重要途徑,被廣泛應用于算法選擇研究并取得了良好成果。方法通過構建問題特征到候選算法性能的映射模型來選擇合適的算法,主要包括提取元特征、計算候選算法性能、構建元數據集以及訓練元模型等步驟。首先,闡述基于元學習的算法選擇概念和框架,回顧簡述相關綜述工作;其次,從元特征、元算法和元模型性能指標三方面總結研究進展,對其中典型的方法進行介紹并比較不同類型方法的優缺點和適用范圍;然后,概述基于元學習的算法選擇在不同學習任務中的應用情況;繼而,使用140個分類數據集、9種候選分類算法和5種性能指標開展算法選擇實驗,對比不同算法選擇方法的性能;最后,分析目前存在的挑戰和問題,探討未來的發展方向。 //fcst.ceaj.org/CN/abstract/abstract3212.shtml

人工智能是數據處理與分析的重要技術,為人 們利用數據進行決策和研究提供了有力支撐。在人 工智能的不同領域中,研究人員提出了大量算法,然 而,不同算法在有限數量的問題上具備優越性能,不 存在一個適用于所有問題的可行算法,該現象被稱 為算法的性能互補性(performance complementarity) 現象[1] ,與“沒有免費午餐”(no free lunch)定理相印 證[2] 。算法的性能互補性現象普遍存在于不同領域, 如何為給定問題從大量可行算法中選擇滿足應用需 求的算法成為了各領域面臨的重要挑戰,即算法選 擇問題(algorithm selection problem)[3] 。算法選擇問 題通常采用人工選擇或自動選擇的方法解決。人工 選擇方法通過實驗試錯或依賴專家選擇合適的算 法,然而實驗試錯方法成本較高,專家選擇與專家的 經驗知識相關且靈活性較低[4] 。自動選擇方法通過 設計算法和模型,根據問題的特點自動選擇滿足應 用需求的算法,包括活躍測試(active test)方法、推薦 系統方法以及基于元學習(meta-learning)的方法[5-7] 。 其中基于元學習的方法研究基礎較為深厚,具備開 銷低和靈活度高等優點,成為了解決算法選擇問題 的主要方法[8-9] 。 本文對基于元學習的算法選擇進行綜述總結, 為研究人員了解相關領域的發展現狀提供參考。

付費5元查看完整內容

摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。

付費5元查看完整內容
北京阿比特科技有限公司