摘要——在現實場景中,實現領域適應和泛化面臨著重大挑戰,因為模型必須適應或在未知目標分布之間進行泛化。將這些能力擴展到看不見的多模態分布,即多模態領域適應與泛化,因不同模態的特性差異而變得更加困難。多年來,在這一領域取得了顯著進展,應用范圍涵蓋從動作識別到語義分割等多個領域。此外,近期大型預訓練多模態基礎模型(如CLIP)的出現,激發了利用這些模型來增強適應性和泛化性能,或將其應用于下游任務的研究工作。本綜述首次全面回顧了從傳統方法到基礎模型的最新進展,涵蓋以下內容:(1)多模態領域適應;(2)多模態測試時適應;(3)多模態領域泛化;(4)借助多模態基礎模型進行領域適應和泛化;(5)多模態基礎模型的適應。對于每個主題,我們正式定義問題并全面回顧現有方法。此外,我們還分析了相關的數據集和應用,突出了開放挑戰和未來可能的研究方向。我們維護一個活躍的資源庫,包含最新的文獻,網址://github.com/donghao51/Awesome-Multimodal-Adaptation。關鍵詞——領域泛化,領域適應,多模態學習,基礎模型,測試時適應
1 引言領域適應(Domain Adaptation, DA)和領域泛化(Domain Generalization, DG)已在研究領域中引起了廣泛關注 [1], [2]。在機器人學 [3], [4]、動作識別 [5] 和異常檢測 [6], [7] 等現實應用中,訓練于有限源領域的模型必須在新的目標領域上表現良好。為了解決分布偏移問題,已經提出了眾多DA和DG算法,包括分布對齊 [8]、領域不變特征學習 [9]、特征解耦 [10]、數據增強 [11] 和元學習 [12] 等。然而,這些算法大多是為單模態數據(如圖像或時間序列數據)設計的。隨著大規模多模態數據集的出現,解決多模態領域適應(Multimodal Domain Adaptation, MMDA)和多模態領域泛化(Multimodal Domain Generalization, MMDG)的問題變得尤為重要,這些數據集跨越了多個模態,包括音頻-視頻 [13]、圖像-語言 [14] 和激光雷達-相機 [15]。圖1展示了單模態和多模態DA/DG之間的區別,其中MMDA和MMDG通過整合來自多個模態的信息,增強了泛化能力。近年來,MMDA和MMDG在動作識別 [16] 和語義分割 [17] 等領域取得了顯著進展。MMDA和MMDG的一個核心挑戰是如何有效利用來自不同模態的互補信息來提升泛化性能——這是單模態DA和DG方法往往無法做到的。例如,Munro和Damen [16] 提出的方案將模態內對抗對齊與多模態自監督對齊結合,用于MMDA。多模態測試時適應(Multimodal Test-Time Adaptation, MMTTA)[18] 是一種特殊形式的MMDA,旨在通過在線適應預訓練的源多模態模型到目標領域,而無需訪問源領域數據。大規模多模態基礎模型(Multimodal Foundation Models, MFMs)的出現,如對比語言-圖像預訓練(CLIP)[14] 和穩定擴散 [19],為DA和DG開辟了新的研究方向。這些研究致力于利用MFMs增強泛化能力,或將MFMs適應到下游任務中。例如,Dunlap等人 [20] 通過語言擴展圖像嵌入到未見領域,而Huang等人 [21] 將CLIP的知識蒸餾到一個更小的學生模型中,用于領域泛化。此外,Zhou等人 [22] 通過建模可學習向量的提示上下文詞語,適應CLIP-like視覺-語言模型(VLMs)到下游圖像識別任務中。盡管該領域近期取得了顯著進展,但目前尚無全面的綜述文章總結多模態適應與泛化的主要思想。本文旨在提供過去十年中發展出的算法的詳細文獻回顧,并為未來的研究方向提供洞察。本論文涵蓋了五種適應場景(見圖2和圖3),結構安排如下:第2節討論相關研究領域;第3節介紹多模態領域適應問題,并重點回顧在動作識別和語義分割中的主要解決方案;第4節和第5節分別呈現多模態測試時適應和領域泛化的代表性方法;第6節探討如何利用多模態基礎模型改善DA和DG;第7節回顧了將MFMs適應到下游任務的流行方法;第8節總結了主要的應用和數據集;最后,在第9節概述了未來研究方向,第10節總結了全文。與之前綜述的比較。盡管我們的綜述貢獻于DA和DG的更廣泛領域,這些領域在之前的文獻中已有回顧 [1], [2],但我們的重點是多模態適應與泛化,即涉及多個模態的方法。Zhang等人 [23] 的綜述僅涵蓋了2023年前VLMs適應的概述,而我們則統一討論了傳統方法在MMDA、MMTTA和MMDG中的應用、先進MFMs在提升DA和DG中的作用,以及最近將MFMs適應到下游任務的方法。
2. 相關研究主題2.1 領域適應領域適應旨在通過利用標記的源數據和未標記的目標數據來增強模型在目標域中的性能 [1]。傳統的DA方法主要關注以圖像為主要輸入的單模態場景。常見的方法包括使用差異度量對齊特征分布 [8]、在輸入或特征空間中使用對抗學習 [130, 131]、以及使用基于重建的方法 [132]。此外,數據增強 [11] 和自訓練 [133] 等技術也得到了廣泛探索。根據源域和目標域之間標簽集關系的假設,DA進一步分為部分集 [134]、開放集 [135] 和通用DA [136]。2.2 領域泛化領域泛化旨在將模型泛化到未見過的目標域,而無需在訓練期間訪問目標數據。DG方法可以大致分為數據操作、表示學習和學習策略 [2]。數據操作方法(如 [137])增強了數據的多樣性,而表示學習方法 [138] 則專注于提取領域不變特征。此外,元學習 [12] 和自監督學習 [139] 等學習策略也展示了跨領域的泛化性能提升。Shu等人 [140] 還解決了目標域具有私有類的開放集DG問題。2.3 測試時適應測試時適應(TTA)旨在在線適應預訓練的源域模型,以應對分布偏移,而無需訪問源數據或目標標簽。在線TTA方法 [141, 142] 使用無監督目標(如熵最小化和偽標簽)更新特定模型參數。魯棒TTA方法 [143, 144] 解決了更復雜和實際的場景,包括標簽偏移、單樣本適應和混合域偏移。持續TTA方法 [145, 146] 針對測試時遇到的持續和演化的分布偏移。有關TTA的更多信息,請參閱 [147, 148]。2.4 多模態學習多模態學習利用不同模態的互補優勢來增強表示學習和上下文理解。主要的多模態學習方向包括多模態表示學習 [149, 150]、融合方法 [151, 152]、對齊 [153, 154] 等。有關多模態學習的更多信息,請參閱 [155, 156]。2.5 自監督學習自監督學習(SSL)旨在通過從預訓練任務中獲得監督信號來從未標記數據中學習,例如預測變換 [157, 158]、重建缺失組件 [159, 160] 或優化對比目標 [161, 162]。通過捕捉內在數據結構,SSL能夠學習魯棒和領域不變的表示,使其成為DA和DG的重要組成部分。在多模態背景下,SSL也通過多模態對齊 [163]、跨模態翻譯 [164] 和相對范數對齊 [165] 等任務得到應用。這些預訓練任務已有效集成到MMDA和MMDG框架中,包括最近的方法如 [16, 29]。有關SSL的更多信息,請參閱現有文獻 [166, 167]。2.6 基礎模型基礎模型是在大量數據集上預訓練的大規模模型,可作為廣泛下游任務的通用起點。這些模型表現出強大的泛化能力,使其能夠以最小的微調適應各種應用。著名的例子包括語言模型如GPT [168]、視覺模型如SAM [169] 和DINO [170]、視覺-語言模型如CLIP [14] 和Flamingo [171]、以及生成模型如穩定擴散 [19]。有關基礎模型的更多信息,請參閱 [172]。3. 多模態領域適應多模態領域適應(MMDA)旨在將模型從源域適應到目標域,同時利用多模態數據(如視頻、音頻和光流)。MMDA在適應過程中同時使用來自源域的標記數據和來自目標域的未標記數據。
3.1 問題定義
其中 EE 表示期望,?(?,?)?(?,?) 是損失函數。現有的MMDA研究主要集中在兩個任務上——使用視頻、音頻和光流模態的動作識別任務,以及使用LiDAR點云和RGB圖像的語義分割任務。我們將在以下章節中分別討論它們。3.2 動作識別的MMDA在本節中,我們詳細介紹現有的動作識別MMDA方法,并將其分為領域對抗學習、對比學習和跨模態交互。
3.2.1 領域對抗學習
其中 CC 是自監督對應分類頭,cc 是定義模態是否對應的二元標簽。Zhang等人 [25] 通過對抗學習和語義保留策略生成缺失的模態,從而在目標模態缺失的情況下選擇可靠的偽標簽目標樣本。Yin等人 [26] 利用混合樣本對抗學習捕捉領域不變的時間特征,并通過動態模態知識蒸餾提高跨模態適應性。3.2.2 對比學習對比學習 [174] 通過將正樣本對拉近、負樣本對推遠來訓練模型區分正負樣本。它用于學習有效的特征表示,從而實現更好的遷移性能。例如,Song等人 [27] 使用自監督對比學習聯合對齊剪輯和視頻級特征,同時最小化視頻級領域差異,增強類別感知對齊和跨領域泛化。Kim等人 [28] 利用模態和領域特定的采樣策略進行對比學習,聯合正則化跨模態和跨領域特征表示。3.2.3 跨模態交互跨模態交互方法通過在適應過程中促進模態之間的信息交換來增強多模態特征學習,使模型能夠捕捉跨模態的互補和相互依賴關系。例如,Lv等人 [30] 將模態特定分類器建模為教師-學生子模型,使用基于原型的可靠性測量進行自適應教學和異步課程學習,并采用可靠性感知融合進行魯棒的最終決策。Huang等人 [31] 通過自熵引導的Mixup [11] 生成合成樣本,并使用多模態和時間相對對齊將其與假設的源類樣本對齊。Zhang等人 [32] 提出了音頻自適應編碼器和音頻注入識別器,以應對跨場景、視角和演員的動作識別領域偏移。通過利用領域不變的音頻活動信息,他們通過缺失活動學習細化視覺表示,并通過視覺線索增強無聲任務識別。Yang等人 [175] 表明,在跨領域對齊之前通過跨模態交互增強每個模態的可遷移性比直接對齊多模態輸入更有效。最近,Dong等人 [29] 通過設計兩個自監督任務——掩碼跨模態翻譯和多模態拼圖——來解決多模態開放集領域適應問題,以學習魯棒的多模態特征進行泛化和開放類檢測,并通過熵加權機制平衡模態特定損失。3.3 語義分割的MMDA在本節中,我們詳細介紹現有的語義分割MMDA方法,并將其分為xMUDA及其擴展、領域對抗學習和跨模態交互。3.3.1 xMUDA及其擴展
通過數據增強擴展。 數據增強技術已被探索用于增強xMUDA中的跨模態對齊。例如,Li等人 [33] 提出了一種多模態風格遷移策略和目標感知教師框架,以在源和合成的目標風格數據上進行跨領域和跨模態知識蒸餾。Chen等人 [34] 使用CutMix [179] 和Mix3D [180] 增強2D和3D訓練數據,促進2D-3D交互和域內跨模態學習。最近,Cao等人 [35] 將xMUDA的多模態學習管道與從現實場景中收集的3D稀有對象和來自SAM [169] 模型的像素級監督相結合,解決了不平衡監督問題,并顯著提高了稀有對象分割。通過融合擴展。 Wu等人 [181] 通過使用融合的跨模態表示進行知識蒸餾,執行跨模態和跨領域對齊,最大化異構模態之間的相關性和互補性以減輕領域偏移。Cardace等人 [36] 通過將深度特征輸入到2D分支并動態豐富3D網絡的RGB特征來擴展xMUDA。通過兩個分支的中間融合,有效利用了內在的跨模態互補性。Simons等人 [37] 通過動態選擇融合和未融合的校正偽標簽進行自訓練,增強了xMUDA,以解決3DSS的無源MMDA。通過跨模態交互擴展。 Zhang等人 [38] 提出了平面到空間和離散到紋理的自監督任務,以在混合領域設置下訓練模型,增強模態特定學習并減輕領域偏移。Xing等人 [39] 通過跨模態對比學習和鄰域特征聚合模塊增強了xMUDA,加強了跨領域的2D-3D一致性,同時捕捉了更豐富的上下文信息。Zhang等人 [40] 通過引入掩碼跨模態建模來減輕大領域差距,并引入動態跨模態濾波器進行特征匹配,使方法能夠動態利用更合適的2D-3D互補性并提高整體適應性。3.3.2 領域對抗學習Peng等人 [41] 引入了稀疏到密集特征對齊,用于域內點-像素對應,并在跨領域和跨模態上進行對抗學習以實現跨領域對齊,使其成為第一個在兩級上解決跨模態學習的方法。相比之下,Liu等人 [42] 將對抗學習集中在圖像模態上,并提出了一種閾值移動策略以減輕推理期間的數據不平衡。Man等人 [43] 引入了一種蒸餾框架,通過深度估計和BEV嵌入的特征監督將知識從LiDAR教師模型轉移到相機學生模型。多階段對抗學習進一步對齊跨領域的特征空間,使單目3D感知在顯著領域偏移下保持準確。3.3.3 跨模態交互Vobecky等人 [44] 引入了一種跨模態無監督方法,用于2D語義分割(2DSS),使用未注釋的配對LiDAR和相機數據。它首先基于幾何特性提取3D一致的對象段,并應用投影和聚類生成2D偽地面實況,從而實現跨模態空間約束的知識蒸餾。Yin等人 [45] 通過集成多模態輔助網絡解決了2DSS的無源MMDA。該方法采用中間融合,并強制增強的深度-RGB對之間的預測一致性,以實現跨模態學習。Rizzoli等人 [46] 將深度數據集成到視覺變換器的輸入、特征和輸出階段。顏色和深度風格轉移實現了早期領域對齊,而跨模態自注意力生成混合特征以更好地進行語義提取。Bultmann等人 [182] 實現了LiDAR、RGB和熱傳感器模態的實時語義推理和融合,用于語義分割和對象檢測,使用后期融合方法和標簽傳播以適應跨傳感器和領域。3.4 其他任務的MMDA除了動作識別和語義分割,MMDA還在其他任務中得到了探索。Ma等人 [47] 通過使用堆疊注意力學習語義表示并應用多通道約束增強類別區分,解決了跨領域對象和事件識別任務的MMDA。Liu等人 [48] 使用基于張量的對齊模塊探索領域和模態之間的關系,并使用動態領域生成器創建過渡樣本,在多模態情感分析和視頻文本分類任務中實現了卓越性能。最近,Zhang等人 [49] 通過獨立學習每個模態的最佳表示并通過動態加權自適應平衡跨模態領域對齊,解決了情感識別的MMDA。
與多模態領域適應(MMDA)不同,多模態測試時適應(Multimodal Test-Time Adaptation, MMTTA)旨在在線適應預訓練的源模型到目標域,而無需訪問源域數據。MMTTA的核心挑戰在于如何在測試時動態調整模型參數,以應對目標域的分布偏移。
與多模態領域適應和多模態測試時適應不同,多模態領域泛化(Multimodal Domain Generalization, MMDG)提出了更具挑戰性的問題設置。在MMDG中,模型僅在具有多個模態的源域上訓練,以泛化到未見過的域,而無需在訓練期間暴露目標域數據。
隨著大規模預訓練多模態基礎模型(MFMs)的出現,如CLIP [14]、穩定擴散 [19] 和Segment Anything Model (SAM) [169],許多研究探索了利用這些模型來增強泛化能力。這些方法可以分為三個主要方向:數據增強、知識蒸餾和學習策略。 7 多模態基礎模型的適應
盡管多模態基礎模型(MFMs)表現出強大的零-shot預測能力,但圖像和文本分布之間的差異,以及訓練目標的局限性,仍然制約著它們的泛化能力。為了解決這些問題,已經提出了多種遷移學習策略,如提示調優(prompt tuning)和特征適配器(feature adapters),以便將MFMs適應到下游任務中。圖8展示了基于提示和基于適配器的適應之間的區別。
8 數據集與應用 多模態適應與泛化已在多個應用領域中進行研究,包括動作識別、語義分割、圖像分類、情感分析、行人重識別、深度補全等。常見數據集的概述見表1,圖9展示了來自三個動作識別數據集的領域偏移示例。
結論
在分布偏移下,將預訓練的多模態模型適應到目標領域是機器學習中的一個新興且關鍵的挑戰。本綜述全面概述了多模態領域適應、多模態測試時適應和多模態領域泛化的最新進展,重點突出推動該領域發展的關鍵挑戰、方法論和應用。此外,我們強調了多模態基礎模型在提升領域適應與泛化任務中的關鍵作用,突出了它們在解決跨模態的現實世界挑戰中的潛力。通過回顧現有方法、數據集和應用,我們識別出未來研究的幾個關鍵方向,包括開發更好的基準和數據集、處理動態環境中的標簽偏移問題,以及進一步探索理論分析。隨著該領域的不斷發展,這些見解為推動多模態模型在現實場景中的魯棒性和效率提供了寶貴的基礎。
摘要——本綜述深入探討了在基礎模型(Foundation Models, FMs)背景下的高效參數微調(Parameter-Efficient Fine-Tuning, PEFT)。PEFT是一種具有成本效益的微調技術,旨在通過最小化參數和計算復雜度,同時追求下游任務的最佳性能。基礎模型,如ChatGPT、DALL-E和LLaVA,專注于語言理解、生成任務和多模態任務,訓練數據集涵蓋文本、圖像和視頻等多種形式。基礎模型的多樣性引導了多種PEFT適配策略。因此,本綜述旨在提供一個全面的PEFT技術概述,應用于不同的基礎模型,并解決在理解這些技術、趨勢和應用方面的關鍵空白。我們首先詳細介紹基礎模型和PEFT的發展,隨后系統地回顧了在不同基礎模型中PEFT的主要類別和核心機制,以提供對趨勢的全面理解。我們還探討了PEFT在各種基礎模型中的最新應用,展示了其多樣性,揭示了系統化PEFT方法與多種基礎模型集成的可能性。此外,我們還指出了未來改進PEFT的潛在研究與發展方向。本綜述為初學者和專家提供了一個寶貴的資源,幫助他們理解和使用PEFT在不同基礎模型中的強大能力。所有綜述中的論文可在//github.com/THUDM/Awesome-Parameter-Efficient-Fine-Tuning-for-Foundation-Models找到。 關鍵詞——高效參數微調,基礎模型,大型語言模型,視覺基礎模型,多模態基礎模型
I. 引言
基礎模型(Foundation Models, FMs)通過在大規模數據集上進行預訓練[1, 2, 3, 4, 5, 6](通常涵蓋文本、圖像、視頻等多種類型),以應對多種任務,如語言理解[7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]、代碼生成[18, 19]、圖像或視頻理解[20]、視覺內容生成[21, 22, 23],如圖2(左)所示。目前,各種基礎模型在不同領域占據主導地位,例如,語言相關任務由ChatGPT [4]、ChatGLM [24, 25]和Qwen [26]支持,而視覺語言任務則由ChatGPT-4V [27]應對。DALL-E [28]、Sora [29]和Veo21專注于生成任務,LLaVA [30]和NExT-GPT [31]則擅長多模態任務,如圖2(中)所示。在實際應用中,通常需要在未見過的下游數據集上微調這些基礎模型,以達到特定任務的最佳性能。 高效參數微調(Parameter-Efficient Fine-Tuning, PEFT)技術[32, 33, 34, 35],作為一個高度活躍的研究主題,在微調過程中展示了顯著的成本效益,如圖1和圖2(右)所示。這項技術通過最小化可訓練參數和計算開銷,同時力求在下游任務中達到接近完全微調的性能。以GPT-3 [3]為例,完全微調需要訓練所有的1750億個參數,而LoRA [36]只需訓練470萬或3770萬個參數,節省了超過99.97%的參數,且結果在性能上比完全微調提高了0.1%到0.5%。這種特性為社區和實際應用帶來了顯著的實踐價值。然而,基礎模型的多樣性推動了不同PEFT適配策略的發展。例如,在提示微調方法中,可訓練提示模塊的設計通常根據基礎模型的類型(例如,大型語言模型(LLMs)的文本提示[37],和視覺語言模型(VLMs)的視覺提示[38])有所不同。類似地,LoRA [36]根據基礎模型的架構(例如,大型語言模型的變換器塊[39]或視覺內容生成模型的去噪U-Net[40])集成到不同的組件中。因此,全面綜述PEFT技術如何在不同基礎模型中進行適配,對于推動該領域的發展至關重要。這一理解將為PEFT在多種任務和領域中的更系統和有效應用鋪平道路。 正如上文所強調,基礎模型在結構、方法和應用方面正以前所未有的速度迭代。這種快速演化促使PEFT領域同樣變得動態活躍。因此,跟蹤PEFT在基礎模型中的技術趨勢勢在必行。如圖1所示,我們統計了過去五年中PEFT方法在不同基礎模型中的引用總數,并根據這一趨勢指標得出以下三大趨勢:
趨勢一:PEFT領域正在經歷顯著增長,涵蓋了包括語言、視覺和多模態領域在內的多種任務和基礎模型。 趨勢二:大型語言模型(LLMs)和視覺基礎模型(VFMs)主導了當前的研究格局,研究活動呈現快速且顯著的增長,而視覺語言模型(VLMs)和視覺內容生成模型(VGMs)作為次要研究方向也在逐漸獲得關注。 趨勢三:相比之下,多模態基礎模型(MFMs)仍然相對較少被研究,表明這一領域在未來具有顯著的研究和創新潛力。 在本綜述中,我們旨在探索將PEFT與不同基礎模型集成以提升可擴展性的潛力。此外,鑒于這兩個領域的相互動態發展,近年來出現了幾篇概述綜述文章,如表I所示。例如,Xin等人[32]系統性地回顧了視覺PEFT(涵蓋常見數據集和應用),并識別了未來的研究方向。Zhou等人[34]將范圍擴展到多模態大型語言模型,并呈現了幾種主流PEFT方法的實證研究。他們的研究結果強調了適配器微調的優越性,以及連接層在微調多模態基礎模型中的積極作用。Wang等人[35]則專注于各種PEFT算法的核心思想和原則,為快速理解提供了理論指導。值得注意的是,Han等人[33]從算法角度深入分析了大型語言模型的PEFT,提出了在實際場景中系統設計的建議。這些有價值的綜述為PEFT的某些方面提供了深入的見解。然而,這些見解分散在不同的研究中,且側重于一般化的基礎模型。其次,當前缺乏對PEFT在不同基礎模型中的發展脈絡以及更直觀、統一的示意圖的關注。因此,結構化且全面的綜述變得愈加必要。 因此,我們首先回顧了基礎模型的發展趨勢和PEFT的分類(第二部分)。隨后,我們深入探討了五種模型結構下的PEFT設計(第三部分),包括選擇性PEFT、加法性PEFT、提示PEFT、重參數化PEFT和混合PEFT,并在表II中提供了相應的特征總結。我們還探索了PEFT在不同下游任務中的應用及其相應的場景(LLMs的第四部分,VFMs的第五部分,MFMs的第六部分)。最后,我們在第七部分提供了關于當前研究趨勢和未來研究方向的觀察,以促進PEFT在各個領域的發展。 通過本綜述,我們為廣泛的基礎模型與系統化PEFT方法的整合提供了更深入的理解。
****二、背景
基礎模型概述 基礎模型主要在大規模數據集上進行預訓練,并可以通過微調適應各種下游任務。根據輸入模態和功能的不同,我們將其大致分為五類: 大型語言模型(LLM):設計用于理解、生成和操作文本。這些模型在大量文本語料庫上進行訓練,能夠執行廣泛的語言相關任務,如翻譯、摘要、文本生成和問答。例如BERT、LLaMA、GPT-4和ChatGPT。 視覺基礎模型(VFM):專注于從視覺數據(如圖像)中理解和生成洞察。它們可以處理圖像分類、目標檢測、分割等任務。這些模型在大規模圖像數據集上進行預訓練,使其能夠很好地泛化到各種視覺相關任務。例如Grounding DINO和SAM。 視覺語言模型(VLM):整合了視覺和文本模態,能夠處理需要理解圖像和語言之間關系的任務。它們用于應用如接地、圖像字幕和視覺問答。例如CLIP、BLIP、GPT-4V和GLM-4V。 視覺內容生成模型(VGM):專注于從各種輸入(文本、草圖或其他視覺提示)生成高質量的視覺內容,如圖像、視頻或3D模型。它們用于藝術生成、視頻合成,甚至為其他AI模型創建合成訓練數據。例如Stable Diffusion、DALL-E、Zero-1-to-3和CogVideo-X。 多模態基礎模型(MFM):擴展了LLM的能力,能夠處理多種模態,如文本、圖像和音頻。這些模型可以同時處理和生成文本、圖像和音頻等,從而實現多模態任務中更豐富的交互。例如LLaVA-1.5、Gemini 1.5 Pro、CoDi、SEED-X和NEXT-GPT。
參數高效微調的發展 PEFT已成為微調基礎模型(如BERT和GPT-3)的重要方法,旨在減少微調過程中需要更新的參數數量,從而降低計算和存儲成本。以下是PEFT關鍵發展和相關方法的總結: 選擇性PEFT:這類方法專注于僅微調模型參數的一個子集,而不是所有參數。其基本假設是,在大型預訓練模型中,某些參數對特定任務尤為重要,調整這些關鍵參數可以獲得滿意的結果。早期方法如逐層凍結在微調過程中逐漸解凍模型的層。更多部分策略也出現了,通過經驗方法或學習過程識別哪些層應該解凍和調整。 加法PEFT:加法方法涉及在基礎模型的層之間插入小型適配器網絡(也稱為瓶頸適配器),以實現微調。最早的適配器方法在模型層之間插入瓶頸層,更新這些瓶頸參數,同時保持原始模型基本不變。適配器顯著減少了需要更新的參數數量。 提示PEFT:這類方法涉及學習軟命令(即嵌入向量的序列),以指導模型有效執行任務。 重參數化PEFT:這些方法提出重新表示或分解現有模型參數,以便在微調過程中僅調整部分參數,從而保留大部分未更改的參數。 混合PEFT:這些方法結合了多種PEFT策略,以實現最佳結果,結合了適配器、提示和參數化等技術。最近的方法專注于為不同任務和場景找到這些策略的最佳配置。 三、方法論
本節將描述PEFT方法的幾個重要類別,涵蓋LLM、VFM、VLM、MFM和VGM中的PEFT分類。我們還將分析每個類別的優缺點,以便更深入地理解。 1. 選擇性PEFT
這類方法指的是選擇性地微調原始模型參數的一個子集,同時保持其余參數凍結,或者引入最少數量的額外參數進行訓練,而不改變原始參數。 1.1 選擇性PEFT的基礎 在這組中,包括兩種核心類型:特定選擇和自動選擇。特定選擇是指預先確定要選擇的參數,而自動選擇是指模型自動決定要調整的參數。 特定選擇:這類方法旨在選擇特定的層或神經元進行微調。常用的方法包括凍結層、BitFit和PASTA。 自動選擇:這類方法旨在利用各種算法自動確定要訓練的參數,如Masking、Diff-Pruning、FISH、AutoFreeze Layers和CHILD-TUNING。 1.2 選擇性PEFT在更多基礎模型中的應用 線性探針(Linear Probe)展示了CLIP模型,該模型聯合訓練文本編碼器和圖像編碼器,以在測試時進行零樣本預測。FC-CLIP使用共享的凍結卷積CLIP骨干構建了一個單階段系統,用于開放詞匯分割。Tune-A-Video提出了一種文本-視頻對微調方法,并提出了針對文本到視頻生成的定制時空注意力機制。LayerNorm Tuning僅調整注意力塊中的歸一化層權重,展示了在GPU內存使用和可訓練參數方面的顯著減少。 2. 加法PEFT 如圖3所示,適配器的核心思想是學習一組參數,可以將一層的輸出轉換為下一層的輸入,以適應特定任務。適配器是小型參數集,可以插入基礎模型的層之間。它們允許網絡在不修改其原始參數的情況下對新任務進行微調。 2.1 加法PEFT的基礎 對于這組,包括三種關鍵類型:瓶頸適配器、多適配器和適配器稀疏性。 瓶頸適配器:這類方法在NLP領域提出,靈感來自跨域圖像分類任務中的殘差適配器和ResNet。適配器層具有簡單的結構:它被下投影到較小的維度,通過非線性激活函數,然后上投影回原始維度,類似于瓶頸。此外,整個適配器層的輸入和輸出之間存在殘差連接。 多適配器:這類方法指的是向模型添加更多適配器模塊,以增強其可轉移性。這些方法作為專門的知識插件提出,以整合各種任務的知識,而不會忘記先前任務的知識,并提高瓶頸適配器的性能。 適配器稀疏性:這類方法旨在根據適配器的內部結構充分利用參數效率。如AdapterDrop、LST和Convpass。
2.2 加法PEFT在更多基礎模型中的應用 LST在T5和CLIP-T5模型上進行了評估,揭示了當微調整個網絡時,LST減少了69%的內存成本,而其他方法在類似參數使用情況下僅實現了26%的減少。Convpass通過在ViT中引入卷積旁路作為視覺Transformer適配器,引入了不到0.5%的可訓練參數來適應視覺模型。AdaptFormer引入了一個輕量級模塊,參數少于ViT的2%,以提高識別性能。ViT-Adapter通過集成圖像特定的歸納偏差增強了標準ViT骨干的內在表示能力。SAN將掩碼提議生成和類別識別任務分離,以實現開放詞匯語義分割。通過將輕量級側網絡附加到固定的CLIP模型,預測掩碼提議和注意力偏差,以指導CLIP識別掩碼的類別。CSN(DTL)通過緊湊的側網絡從骨干中解耦權重更新以識別對象。T2I-Adapter學習輕量級適配器模式以在不更新文本到圖像模型固有框架的情況下提高文本到圖像模型的性能。IP-Adapter使用圖像提示并引入交叉注意力機制以有效學習圖像嵌入。I2V-adapter僅需微調基礎擴散模型的1%參數。ControlNet添加了空間局部化條件。隨后,ControlNeXt引入了一個輕量級條件控制模塊,進一步將可學習參數減少到ControlNet的不到10%,擴展到視頻生成和超分辨率。LLaMA Adapter V2通過解鎖更多可學習參數有效增強了LLaMA-Adapter。CLIP-Adapter和Tip-Adapter等建議插入可訓練適配器以將VLM微調執行到固定的CLIP模型中。 3. 提示PEFT
提示微調幾乎是基礎模型中最常見的PEFT方法,如圖4所示。這類方法涉及將精心設計的提示納入輸入或Transformer的層中,旨在將輸入分布與原始訓練數據對齊,并引導模型生成所需的輸出。 3.1 提示PEFT的基礎 這里討論三種類型:硬提示、自動提示和軟提示。 硬提示:這類方法意味著提示的初始形式涉及手動指定模板并將其與輸入連接以生成所需輸出,而不修改原始模型參數。 自動提示:這類方法提出了一種自動提示搜索方法,使用探索性搜索自動生成提示,以解決硬提示手動設計的挑戰。 軟提示:這類方法進一步擴展了范圍,超越了詞匯表中人類可理解的單詞。這些提示稱為連續或軟提示。在這個高級進展中,生成過程從離散的、人類驅動的轉變為連續的、機器驅動的。代表方法包括Prefix Tuning、Prompt Tuning、P-Tuning、PPT等。 3.2 提示PEFT在更多基礎模型中的應用 VP通過向圖像的像素空間添加提示(如沿圖像邊緣填充像素)來適應基礎模型到新任務,而不改變模型的參數。VPT在輸入空間中引入了一些可學習參數,這些參數少于原始模型參數的1%。DAM-VP通過自適應選擇和優化不同圖像子集的視覺提示,提高了預訓練模型在具有高多樣性和大數據集的下游任務上的性能。ILM-VP通過引入基于迭代標簽映射的框架,顯著提高了目標任務的精度,并優于現有方法。EVP通過將提示視為可學習實體并應用輸入多樣性和梯度歸一化,顯著提高了各種數據集的分類準確率。LION是一種輕量級且有效的視覺提示微調方法,利用隱式平衡層以最小的計算成本將預訓練模型適應下游任務。Textual Inversion找到了一種在CLIP的文本編碼器中描述新概念的方法,以微調擴散模型(使用少于20k參數)生成特定風格的內容。CoOp使用可學習向量對提示的上下文詞進行建模,以實現PEFT以識別或檢測對象。OVSeg結合了掩碼和彩色提示,顯著提高了VFM的微調性能。Q-Former使用輕量級投影橋接模態差距,大大減少了可訓練參數。 4. 重參數化PEFT 雖然加法PEFT通過采用下投影和上投影技術減少了可調參數的數量,但其合成結構可能會對模型的推理速度產生負面影響。同樣,訓練提示在提示微調中可能不穩定,因為它依賴于人類輸入,這通常是主觀的。此外,在輸入序列中包含提示標記可能會減少有效序列長度,可能導致次優性能。為了解決這些限制,我們引入了另一種PEFT技術,即重參數化,如圖5和表VI所示。該技術對初始模型參數的低維表示進行重參數化以進行訓練,同時在推理時將權重轉換回來。 4.1 重參數化PEFT的基礎 重參數化主要包括兩組:LoRA及其變體和MPO。 LoRA及其變體:LoRA利用了許多機器學習問題中固有的低秩結構作為基本重參數化技術。Aghajanyan等人深入研究了內在維度,并證明自然語言任務可以用非常少的參數解決,有時只有幾百個。這一發現意味著基礎模型的預訓練可以被視為一種知識壓縮形式,其中每個任務對應于模型子空間中的唯一內在維度。實證研究表明,較大的模型往往比其基線對應物具有更低的內在維度。 MPO:矩陣乘積算子是張量網絡的表示,其特征是隨著輸入維度的增加,參數和計算復雜度增長緩慢,使其適合壓縮基礎模型。MPO分解參數矩陣并定義中心張量和輔助張量。鑒于MPO分解的性質,中心張量包含的參數明顯多于輔助張量,表明它封裝了基礎模型的基本語言信息。對于下游任務適應,僅需要訓練低參數的輔助張量。 4.2 重參數化PEFT在更多基礎模型中的應用 LoRand利用低秩分解創建緊湊的適配器進行微調,僅使用原始模型參數的1-3%即可實現競爭性能,顯著減少了計算開銷。LyCORIS提供了一套先進的工具,用于微調Stable Diffusion模型,增強了其文本到圖像生成的能力,具有改進的控制和質量。DiffuseKronA采用Kronecker積分解來最小化擴散模型注意力層中的參數,在不影響圖像生成質量的情況下實現了顯著的效率提升。Mix-of-Show提出了嵌入分解的LoRA(ED-LoRA)來訓練單個概念,梯度融合用于中心節點概念融合,以及區域可控采樣用于擴散模型。LoRA-Sparse開發了低秩線性投影層用于稀疏注意力,以增強LLaVA-1.5的性能。 5. 混合PEFT PEFT領域中一個獨特且有前途的方法圍繞多種方法的集成。這種戰略組合將幾種獨特的PEFT技術(如LoRA、BitFit、P-Tuning等)結合到一個單一的戰略框架中。這種集成方法允許模型借鑒每種方法的優勢和見解,從而建立一個全面而強大的框架。通過這種融合,模型能夠更有效地優化參數,減少計算負擔,并可能提高性能,為PEFT提供了一個有趣且有前途的途徑,如表VII所示。 5.1 混合PEFT的基礎 主要的混合技術包括UniPELT、COMPACTER、S4、NOAH和DiffFit。 UniPELT:這是一個統一的框架,集成了適配器、前綴微調和LoRA的核心方面,并采用門控機制來調節這些模塊。線性層門控機制本質上決定了每個模塊的貢獻和操作。實驗結果表明,與集成的獨立PELT方法相比,UniPELT始終顯示出1%到4%的性能提升。總的來說,UniPELT支持了集成方法在進一步提高基礎模型適應特定任務的效率和有效性方面的承諾。 COMPACTER:通過創新放置和訓練方法擴展了基本適配器的概念,引入了一種基于低秩矩陣Kronecker積的新型輕量級適配器結構。這一進步僅需添加原始模型參數的0.05%到0.2%,但在GLUE和SuperGLUE等基準測試中表現出色。 MAM適配器:進行了深入研究,重點關注適配器的排列和軟提示的使用,以呈現參數高效遷移學習的統一視角。他們得出了幾個啟示和關鍵結論,包括:1)縮放并行適配器在修改FFN方面脫穎而出。2)并行放置的適配器明顯優于順序放置的適配器。此外,直接比較多頭注意力和FFN并行放置顯示出優越的結果。3)在受限參數預算的情況下,對注意力頭的修改導致最佳結果。相反,當允許更大的容量設置時,FFN受益最多。4)實施軟提示(如前綴微調)通過調整極小比例的參數(0.1%)帶來了顯著的性能提升。基于這些見解,MAM適配器引入了多頭注意力適配器,該模型代表了FFN層的并行適配器和軟提示的集成。該模型結合了在注意力子層中實現的前綴修改(較小的瓶頸維度為l=30)和用于修改FFN表示的縮放并行適配器(瓶頸維度為r=512)。盡管僅使用了6.7%的參數數量,MAM適配器展示了獨特的效率和性能組合。此外,與BitFit和提示微調等方法相比,它顯著領先,始終超越LoRA、適配器和前綴微調等核心方法。 S4:探索了各種以較少參數微調模型的方法。它研究了將層分為四組、調整可訓練參數、選擇要微調的組以及應用特定技術。它引入了一種名為S4的創新方法,將層分為G1、G2、G3和G4,類似于紡錘形狀。中間組有更多層,而頂部和底部有較少層。所有組保持可訓練,參數均勻分布在層中,并應用不同的PEFT技術。G1使用適配器,G2受益于適配器和前綴微調,G3使用適配器、前綴微調和BitFit進行微調,G4則進行前綴微調、BitFit和LoRA。實驗表明,僅使用0.5%參數的S4方法在不同模型、大小和任務中始終優于單個技術。 5.2 混合PEFT在更多基礎模型中的應用 NOAH(神經提示搜索)實現了神經架構搜索以設計提示模塊,并將適配器、LoRA和VPT集成到每個Transformer塊中。DiffFit僅微調偏置項并引入縮放因子以實現訓練效率和存儲減少。V-PEFT通過研究微調位置,提出了基于視頻任務的PEFT方法的統一分析。DreamBooth利用少量個體圖像并引入了一種新的自生類特定先驗保留損失,以將獨特標識符與主題關聯,同時保持類變化。 四、大型語言模型的PEFT
因果語言模型的PEFT 因果LLM在LLM社區中非常流行,作為一種基礎語言模型,也稱為自回歸LLM,例如GPT-3、BLOOM、Falcon和LLaMA系列。這里我們簡要回顧了因果LLM中PEFT的進展。例如,LLaMA-adapter在凍結的LLaMA-7B的Transformer層之后注入了一組可學習的適應提示,僅需1.2M可訓練參數即可擴展語言指令。類似地,串行適配器微調和并行適配器微調有效地微調了GPT-J-6B和BLOOM-7.1B,并在數學推理上優于GPT-3.5。此外,LoRA系列經常用于這組LLM,例如QLoRA引入了一系列內存節省技術來微調LLaMA,而不會犧牲性能。LoRA-Sparse基于LLaMA減少了超過一半的自注意力計算,同時增強了NLP任務性能。MoSLoRA融合了MoE和LoRA來微調LLaMA,提高了常識推理。此外,Prefix tuning、P-Tuning和Prompt tuning也支持各種因果LLM,請參閱開源庫以獲取詳細信息。
前綴語言模型的PEFT 前綴LLM,也稱為非因果LLM,是LLM社區中的另一個主流,主要由ChatGPT系列代表。回顧一下,P-tuning系列利用提示標記僅使用0.1-0.3%的可訓練參數微調ChatGPT,作為跨各種模型規模和語言理解任務的通用解決方案。OrehMoE利用多適配器模塊化技能架構微調ChatGPT,從而推進了PEFT中的前向轉移。同時,FATE-LLM利用LoRA和P-Tuning v2調整ChatGPT-6B,以評估聯邦場景中的語言能力,分別僅需0.06%和0.048%的可訓練參數。類似的工作包括DP-LoRA,而CPMI-ChatGLM應用P-Tuning v2和LoRA微調ChatGPT-6B,以更好地理解現實場景。MoELoRA通過使用任務驅動的門函數控制每個LoRA的貢獻,有效地微調了ChatGPT-6B。 總的來說,我們回顧了PEFT方法在兩種代表性基礎語言模型中的進展:因果LLM和前綴LLM。在實踐中,編碼器-解碼器LLM如T5也是流行的之一,上述大多數PEFT方法同樣適用于它們。例如,LLaMAFactory靈活定制了各種PEFT方案以增強語言建模,如LoRA、DoRA、rsLoRA、PiSSA等。該存儲庫還涵蓋了多種類型的LLM,包括但不限于我們討論的兩種類型。 五、視覺基礎模型的PEFT
基礎視覺模型的PEFT ViT是VFM的主流和基礎骨干。因此,本小節關注ViT中PEFT的最新進展。廣義上講,該類別的VFM僅考慮圖像作為輸入。具體來說,一系列PEFT方法已被考慮用于VFM,如適配器微調(AdaptFormer、Conypass、AIM、ST-Adapter、Rob-Adapter、LoRand、SCT、Polyhistor、VMT-Adapter)、提示微調(VPT、CVP、LPT、IDPT、Pro-tuning、LION、ViPT、VP、EVP、DAM-VP、EVP-L、ProSFDA、P2P、ILM-VP)、前綴微調(Prefix-tuning、PATT、eTT、LAM、VQT)、側微調(Side-Tuning、SAN、ViT-Adapter、LST、SAM-LST、E3VA、CSN (DTL))、規格微調(Linear Probe、BitFit、DP-BiTFiT、DiffFit、LN-TUNE)和重參數微調(LoRA、KAdaptation、FacT、EFFT、SSF、RepAdapter、ATTNSCALE、PHNNs、DnA)等。 如上所述,各種PEFT方法廣泛出現在VFM的下游任務中。例如,i)圖像識別是PEFT的主要場景,如AdaptFormer、VPT、CSN (DTL)。Rob-Adapter提出了無損適應,以實現操作任務中的最佳性能。此外,相當多的工作也在圖像相關場景中取得了成功,如LPT、FacT、LoRA、NOAH、MONA等。ii)PEFT在視頻理解中也具有影響力。其中,AdaptFormer、VPT和LoRA在視頻相關任務中非常受歡迎。ST-adapter僅需少量(~8%)的每任務參數成本即可理解視頻。AIM提出了空間、時間和聯合適應,具有顯著較少的可調參數,以實現高效的視頻理解。APT涉及注意力提示微調,參數少于1%,以減少視頻識別中的延遲和FLOPs。此外,LoSA、RaSTFormer等也在時間動作定位和短視頻中做出了努力。
提示視覺語言模型的PEFT 本小節關注提示VLM中PEFT的最新進展。一般來說,該類別的VFM考慮視覺和文本信息作為輸入。具體來說,一系列PEFT方法已應用于提示VLM,如視覺接地(CoOp、CoCoOp、ProGrad、MaPLe、TPT、CPT、DiffTPT、CLIP-Adapter、Tip-Adapter、PromptSRC、BadCLIP、MePT、NODE-Adapter、AAPL、CoPL、Any-Shift Prompting、PIN、CLAP、TCP、DePT)、語義分割(SAN、LLM-Former、FC-CLIP、MasQ-Tuning、Test Time Prompt Tuning (TTPT from FreeSeg)、mask prompt tuning、EVP、ETRIS)、視頻理解(Vita-CLIP、MA-CLIP、DualPath、Text-Adapter (M2-CLIP)、TDS-CLIP、Omni-CLIP、EVL、Side4Video、EZ-CLIP、ActPrompt、MV-Adapter)、點云分割(PointCLIP v2、P2P、CLIP2Point、EPCL、IDPT、DAPT)等。 根據輸入到模型的提示類型,現有工作大致分為文本提示和視覺提示VLM。i)文本提示:一系列工作(如CoOp、KgCoOp)使用提示微調方法對文本輸入執行PEFT以進行視覺任務。TCP使用基于文本的類感知提示來解鎖文本標記對未見域的有限泛化。請注意,該組中的一些方法最初是為文本提示VLM提出的,盡管它們也常用于更廣義的VLM。ii)視覺提示:這類PEFT方法(如OVSeg和CPT)需要圖像和視覺或文本提示來執行微調,這些通常包括視覺提示(點、邊界框、掩碼、顏色)、文本提示、參考提示、組合等。GP-SAM和VRP-SAM等將各種視覺參考和幾何提示(點、框、涂鴉、掩碼)編碼為提示嵌入作為輸入以分割任何內容。PIN提出了一種視覺提示方法,即輸入不可知的位置插入,以探索視覺接地的定位能力。簡而言之,這類PEFT方法遵循定制不同視覺任務和提示的原則。
視覺內容生成模型的PEFT 最近,擴散模型作為視覺內容生成的基礎模型趨勢。在本小節中,我們回顧了擴散模型中PEFT方法的最新進展,如圖6所示。具體來說,一系列PEFT方法在各種擴散模型場景中實施。例如,圖像生成(Textual Inversion、T2I-Adapter、DreamBooth、ControlNet、GLIGEN、Uni-ControlNet、ControlNeXt、CCM、IP-Adapter、CTRL-Adapter、X-Adapter、LoRA-Composer、DiffuseKronA、SVDiff、SODA)、視頻生成(SimDA、StyleCrafter、I2V-Adapter、Still-Moving、Tune-A-Video、CTRL-Adapter、Customize-A-Video、ControlNeXt)、編輯(Concept Sliders、PTI、CCEdit、SVDiff、DiffMorpher)、超分辨率(ResAdapter、DiffFit、ControlNeXt)、3D生成(IPDreamer)等。在這些方法中,LoRA、ControlNet和Adapter相關方法在各種擴散模型中經常使用。而PEFT在各種場景中的趨勢分析,圖像生成和視頻生成顯然更受青睞。 具體來說,ControlNet系列調整可訓練副本以學習各種可控條件,例如Openpose、Depth、Canny、Lineart、Animel_lineart、Mlsd、Scribble、Hed、Pidi、Teed、Segment、Norma及其排列。LoRA相關技術在圖像或視頻生成、編輯等方面得到了應用,如Smooth Diffusion、STAMIlNA、DreamSync、StyleAdapter、Mix-of-Show和DragVideo。廣義上講,LoRA通常配置在注意力模塊中,而在穩定視頻擴散中,更多努力用于時間跨幀注意力,如Customize-A-Video中的T-LoRA。Adapter相關技術傾向于引入各種單一或組合的輕量級適配器模塊,以微調擴散模型以實現各種條件的精確控制。 六、多模態基礎模型的PEFT
廣義多模態基礎模型的PEFT 狹義上講,前一小節中提到的一些VLM包含了多模態模型的范圍,因為它們涉及文本和視覺。然而,上述模型更強調視覺任務的個別技能,例如接地和分割。因此,我們在視覺范圍內回顧它們。在這里,我們調查了廣義MFM中的PEFT方法,這些模型不僅限于單一語言或視覺技能,而是更廣泛的多模態理解。例如,PEFT-MLLMs對LLaVA-1.5、ShareGPT4V、Qwen-VL_Chat執行了適配器、LoRA、前綴微調、IA3的實證探索。LLaMA-Adapter V2通過解鎖更多可學習參數有效增強了LLaMA-Adapter,從而通過僅在LLaMA上插入14M參數(0.04%)執行開放式多模態指令。LayerNorm Tuning僅調整每個注意力塊中的LayerNorm,足以提高多模態性能。LoRA-Sparse引入了用于稀疏注意力的低秩線性投影層,以提升LLaVA-1.5的多模態性能。此外,LoRA和Q-Former在Monkey、mPLUG-Owl、CogVLM和GLM-4V等中盛行,以增強不同的多模態能力。
下一代多模態基礎模型的PEFT 下一代MFM不僅限于少數模態,它們可以感知輸入并生成任何組合的文本、圖像、視頻和音頻輸出,如CoDi系列、HuggingGPT、Visual-ChatGPT、SEED-X、Gemini 1.5 Pro、Show-o和NExT-GPT。在這里,我們調查了這類模型中PEFT的最新進展。例如,SEED-X首先在Llama2-chat-13B上進行預訓練,然后在大量多模態數據上使用LoRA。Anole利用數據高效(約6000個樣本)和參數高效(少于40M參數)的微調策略,促進了視覺和多模態生成。NExT-GPT同樣使用LoRA調整相當少的參數(1%)以更新特定投影層,從而增強多模態能力。 七、討論與未來方向
當前趨勢的觀察 可靠性:PEFT方法對超參數敏感,例如瓶頸維度、秩和層順序。此外,由于PEFT中使用的結構或網絡顯著小于基礎模型本身,最佳超參數通常與全微調使用的超參數大不相同。例如,PEFT的最佳學習率通常比全微調的學習率高得多。因此,開發簡單且高效的低敏感性超參數解決方案至關重要。 可解釋性:理解PEFT方法的內部機制仍然是一個挑戰。在LLM中,提示可以以相對直觀的方式解釋。然而,在基礎模型中,主要挑戰是各種提示作為無序的基于標記的提示學習,難以轉化為可理解的格式。此外,不同的PEFT方法面臨特定的可解釋性挑戰。例如,理解適配器中學習到的參數與層之間的關系是一個重要課題。 統一基準:盡管有Hugging Face的PEFT和AdapterHub等庫,但PEFT仍然缺乏全面的基準。不同的研究使用不同的評估數據集和任務設置,導致性能評估標準不一致,從而影響用戶評估不同PEFT方法的優缺點。為了解決這個問題,當前的趨勢是建立標準化的基線,以便更公平地比較不同方法。
未來方向 跨學科:PEFT的未來進展可能來自跨學科的見解,特別是隨著基礎模型應用于從醫學和自然科學到社會科學的各個領域。特別是,將領域特定的約束集成到PEFT框架中可能會導致更量身定制的微調方法。例如,在醫學成像中,結合醫學領域知識和低維先驗或因果關系可以增強模型性能,即使只有最少的參數更新。 持續PEFT:PEFT為在特定任務上微調基礎模型提供了一個表現良好的解決方案。然而,當這些方法適應一系列任務或動態數據流時,模型可能會干擾或覆蓋已學習的知識。相比之下,持續學習專注于開發可以持續學習新任務同時保留已學習任務記憶和性能的系統。PEFT和持續學習的結合將使PEFT在動態變化的任務或環境中更加穩健。因此,開發用于持續學習的PEFT可能有助于在現實世界中構建更智能的學習系統。 PEFT的架構:了解特定架構對PEFT的適用性和優勢,并探索如何為特定架構設計更有效的PEFT方案。例如,分析Transformer架構中不同層和組件對PEFT的響應特性,為架構優化和定制PEFT方法提供基礎。 PEFT的縮放定律:當前的努力揭示了在可訓練參數超過某個閾值后收益遞減,表明參數選擇的最佳范圍。對于PEFT方法,理解這些縮放行為對于優化效率和指導未來研究至關重要。例如,當增加或減少PEFT方法(如LoRA、適配器或前綴微調)中的可訓練參數數量時,性能如何縮放?這可以為未來的模型設計和微調策略提供指導。 分層抽象:PEFT中的分層抽象類似于人類大腦如何分層處理和存儲信息。在大腦中,感官輸入通過從低級感官神經元到高級認知區域的層層復雜性進行處理。這種分層方法使大腦能夠創建抽象表示并理解復雜信息。類似地,PEFT通常通過調整模型不同層次的參數(如早期層用于一般特征,后期層用于任務特定適應)來工作。通過微調特定層或添加模塊化結構,PEFT促進了任務的分層適應——反映了大腦從簡單到復雜表示的能力。這種分層設計不僅提高了模型的靈活性,還允許跨任務有效重用現有知識。 腦啟發的PEFT:有趣的是,PEFT與神經科學中的原則一致,特別是高效編碼和突觸可塑性理論。在大腦中,適應和學習通過優先考慮能量效率同時保持靈活性和穩健性的機制發生——這一概念與PEFT的目標產生了共鳴。例如,在人類大腦中,當我們學習新事物時,不是調整所有神經連接,而是僅修改特定的突觸通路。這種選擇性調整有助于在不顯著破壞現有知識的情況下有效整合新信息。類似地,PEFT允許模型通過更新最少數量的參數來專門化和適應新任務,這與大腦中的神經回路為新技能或經驗重組的方式一致。這種相似性為結合生物啟發的機制提供了有趣的機會,這可能會導致更符合生物學和高效的微調過程。 八、結論
總之,PEFT與基礎模型的集成展示了跨各種任務和領域高效模型適應的一個有前途的途徑。正如本報告所強調的,基礎模型的快速發展和活躍的PEFT社區強調了跟上技術趨勢以實現最佳性能的重要性。通過探索適應策略(如選擇性、加法、提示、重參數化和混合PEFT)以及跨不同模型結構(如LLM、VFM、VLM、MFM和VGM),本報告提供了關于提高效率和有效性的見解。報告強調了在多樣化基礎模型背景下系統理解PEFT技術的必要性,為該領域的未來進展和應用鋪平了道路。
摘要——基礎模型的快速發展——在多樣化、廣泛的數據集上訓練的大規模神經網絡——已經徹底改變了人工智能,推動了自然語言處理、計算機視覺和科學發現等領域的前所未有的進展。然而,這些模型龐大的參數量,往往達到數十億甚至數萬億,給將其適應于特定下游任務帶來了顯著挑戰。低秩適應(LoRA)作為一種非常有前景的方法,已成為緩解這些挑戰的有效手段,提供了一種參數高效的機制,能夠以最小的計算開銷微調基礎模型。本綜述首次全面回顧了低秩適應技術,除了對大規模語言模型的研究,還包括了其在基礎模型中的應用,涵蓋了低秩適應在多個領域的技術基礎、前沿進展及應用。最后,本文討論了理論理解、可擴展性和魯棒性等方面的關鍵挑戰及未來研究方向。本綜述為從事高效基礎模型適應研究和實踐的學者與從業者提供了寶貴的資源。
關鍵詞——基礎模型、大規模語言模型、低秩適應、參數高效微調、多任務學習
1 引言基礎模型代表了人工智能中的一種范式轉變,其中在廣泛和多樣化的數據集上預訓練的大規模神經網絡架構,建立了可泛化的表示框架,可以適應廣泛的下游應用[1],[2]。這些模型跨越多個領域,包括自然語言處理(如 GPT-3.5 [3]、LLaMA [4])、計算機視覺(如 Swin Transformer [5]、MAE [6]、SAM [7])、語音處理(如 Wav2vec2 [8]、Whisper [9])、多模態學習(如 Stable Diffusion [10]、DALL·E 2 [11])和科學應用(如 AlphaFold [12]、ChemBERTa [13]、ESM-2 [14])。基礎模型的特點是其前所未有的規模,參數數量達到數十億甚至數萬億,并且表現出涌現性質——即在沒有明確訓練的情況下自發產生的能力[1]。這些架構已成為現代人工智能系統的基礎構件,推動了多個領域的突破性進展[1],[2]。盡管這些模型展現了廣泛的能力,但通過微調進行任務特定優化仍然是提升模型泛化能力[15]、促進算法公平性[16]、實現定制化[17]以及符合倫理和社會標準[18],[19]的必要手段。然而,它們的規模帶來了顯著的計算挑戰,特別是在訓練和微調所需的計算資源方面[20]。盡管傳統的微調方法(涉及對全部參數進行更新)在各種任務中已證明有效[21],[22],但其計算需求通常使得在基礎模型中應用變得不切實際[23],[24]。因此,參數高效微調(PEFT)方法應運而生,作為應對這些計算挑戰的解決方案[17],[24],[25],[26],[27],[28]。這些方法通過最小化可訓練參數的數量,使得模型適應能夠顯著降低計算需求,而不會影響任務性能。在這些方法中,低秩適應(LoRA)[17]及其變種因其簡便性、實證效果以及在各種模型架構和領域中的廣泛適用性而受到廣泛關注,如圖1所示。LoRA基于兩個關鍵見解:在微調過程中,權重更新通常位于低維子空間中[29],[30],并且任務特定的適應可以通過低秩矩陣有效捕捉[17]。通過在凍結原始模型參數的同時優化這些低秩矩陣,LoRA實現了高效的適應,并能夠在不增加推理延遲的情況下組合多個任務特定的適應[17],[31]。貢獻。本綜述提供了迄今為止,超越大規模語言模型(LLMs)領域[32],針對LoRA技術的首個全面回顧,擴展分析至基礎模型的更廣泛領域。我們的主要貢獻包括: 1. 技術基礎的系統分析:我們提供了對LoRA近期技術進展的結構化分析,包括參數高效策略、秩適應機制、訓練過程改進以及新興的理論視角。 1. 新興前沿的廣泛調查:我們探討了新興的研究前沿,包括融合多個LoRA組成部分和專家混合方法的先進架構,以及持續學習、遺忘、聯邦學習、長序列建模和高效服務基礎設施的方法。 1. 應用的綜合回顧:我們呈現了在多個領域的實際應用綜述,包括自然語言處理、計算機視覺、語音識別、科學發現,以及在代碼工程、推薦系統、圖學習和時空預測等專門應用中的使用。 本綜述通過圖3組織了現有的LoRA研究,識別了第六節中的關鍵挑戰和未來研究方向,為該領域的研究人員和從業者提供了寶貴的資源。
2 基礎知識LoRA [17] 是參數高效微調(PEFT)領域的重要進展。盡管最初是為大規模語言模型(LLMs)開發的,但后續研究已證明它在各種基礎模型中都表現出色。LoRA的數學公式核心思想是在微調過程中將更新矩陣 ?W 限制為低秩,如圖2所示,這一過程通過矩陣分解實現:
參數初始化策略
LoRA采用特定的初始化策略以確保訓練的穩定性和高效性。矩陣A通常使用從隨機高斯分布中抽取的值進行初始化,而矩陣B則初始化為零,這確保在訓練開始時,?W = BA 實際上是一個零矩陣。微調過程
在LoRA中,微調過程遵循以下關鍵原則: * 原始預訓練權重 W? 被保持凍結,在訓練過程中不接受梯度更新。 * 低秩矩陣 A 和 B 是唯一可訓練的參數,用于捕捉任務特定的調整。 * W? 和 ?W 分別作用于輸入向量 x,并將它們的輸出結合起來。 * 輸出 ?W x 被 α/r 縮放。 * 最終輸出向量逐元素相加:
其中 α/r 是一個縮放因子,用于控制低秩更新的幅度。在使用 Adam [33] 優化時,調節縮放因子 α 大致相當于調整學習率 [17],前提是初始化時進行適當的縮放。在實際操作中,α 的值可以根據秩 r 設置,從而消除廣泛的超參數調優需求。LoRA 相比全量微調的優勢
LoRA 在應用于大規模基礎模型時,相比全量微調提供了幾個關鍵優勢: 1. 參數效率:LoRA 通過低秩分解引入了最小的一組可訓練參數,通常將任務特定的參數數量降低幾個數量級。這種方法在資源受限的環境和多任務場景中尤為有利,其中需要對基礎模型進行多次適配。 1. 增強的訓練效率:與更新所有模型參數的傳統全量微調不同,LoRA 僅優化低秩適應矩陣。這大大減少了計算成本和內存需求,尤其是在具有數十億參數的模型中。減少的參數空間通常會導致訓練過程中的更快收斂。 1. 無延遲推理:LoRA 不會引入額外的推理延遲,因為更新矩陣 ?W 可以顯式地與原始凍結權重 W 結合使用。這種集成確保了適應后的模型在部署和推理時保持高效。 1. 靈活的模塊化適應:LoRA 使得創建輕量級的、任務特定的適配器成為可能,這些適配器可以在不修改基礎模型架構的情況下進行互換。這種模塊化有助于高效的多任務學習和任務切換,同時相比為每個任務維護獨立的模型實例,顯著減少了存儲需求。 1. 強大的知識保留能力:通過保留預訓練權重,LoRA 有效地緩解了災難性遺忘問題,這是傳統微調中常見的挑戰。這種方法在獲取任務特定能力的同時,保持了模型的基礎知識。 1. 多樣的部署方式:LoRA 適應的緊湊性有助于高效的部署和系統集成。多個適應器可以方便地組合或在不同任務或領域之間切換,與傳統微調方法相比,提供了更大的靈活性。
3 基礎在本節中,我們將從四個關鍵維度探討LoRA的基本技術方面:參數效率提升、秩適應策略、訓練過程改進和理論基礎。這些組件構成了LoRA有效性的技術基礎。3.1 參數效率提升盡管通過LoRA及其投影矩陣 A(project-down)和 B(project-up)實現了參數效率的提升,但該方法仍然需要大量的可訓練參數。例如,將LoRA應用于LLaMA-2-70B模型 [4] 時,需要更新超過1600萬個參數 [34],這一數字超過了一些BERT架構的總參數數量 [35]。當前的研究通過四種主要方法來應對這一挑戰:參數分解、剪枝、凍結與共享以及量化。圖4展示了這些技術的示例。
3.2 秩適應秩是LoRA中的一個關鍵參數,直接影響模型的適應性和可訓練參數的數量。原始的LoRA方法在所有層中使用固定的低秩,這對于不同的下游任務和模型架構可能并非最優。為了解決這些局限性,近期的研究提出了多種優化LoRA中秩分配的方法,這些方法可以大致分為兩個主要方面:秩細化和秩增強。圖5展示了這兩種方法的示意圖。
3.3 訓練過程改進盡管LoRA在參數高效微調方面已經取得了顯著成功,但優化其訓練動態仍然是最大化適應性能的關鍵。在本節中,我們將討論旨在改進訓練過程的最新進展,特別是學習率、丟棄策略和縮放因子。 4 前沿發展在上述技術基礎的基礎上,本節探討了擴展LoRA能力的新方向的前沿發展。這些前沿發展利用并結合LoRA的基本原理,以實現新的功能、處理更復雜的任務,并解決模型適應中的挑戰。4.1 高級架構盡管原始的LoRA方法顯著提高了微調的效率,并且展示了與全量微調相當的性能,但在靈活性、泛化能力和同時處理多個多樣化任務方面存在局限性。為了解決這些局限性,研究人員開發了先進的LoRA架構,以進一步提高性能、參數效率和泛化能力。4.2 LoRA 在持續學習中的應用LoRA 的參數高效特性使得在新任務上逐步更新模型成為可能,同時可以有效緩解災難性遺忘問題 [98],[99]。使用 LoRA 進行持續學習(CL)有幾個關鍵優勢:(1)與全量微調相比,計算成本降低;(2)自然地將任務特定知識隔離;(3)靈活地組合任務特定的適應。基于 LoRA 的現有持續學習方法大致可以分為三種方法:正則化方法、任務算術方法和集成方法。
LoRA 使得從基礎模型中有針對性地移除特定知識成為可能,而無需進行大規模的重新訓練。以下是利用 LoRA 實現遺忘的三種主要方法分類:
4.4 LoRA 在聯邦學習中的應用在數據隱私問題日益嚴重的時代,聯邦學習(Federated Learning, FL)提供了一種有前景的方式,可以在保護個人數據隱私的同時,利用集體知識。LoRA 與聯邦基礎模型(Federated Foundation Models, FFM)的結合,使得基礎模型在資源受限的設備上變得更加可訪問,尤其是在邊緣計算場景下,有望徹底改變物聯網(IoT)和移動應用領域。
處理長序列的能力對于許多由基礎模型處理的任務至關重要【125】【126】【127】。然而,標準的基礎模型通常受到最大上下文長度的限制,這是由于自注意力機制相對于序列長度的二次計算復雜度。為了應對這一局限性,已經提出了幾種基于 LoRA 的方法,用于擴展基礎模型的上下文窗口。
4.6 LoRA服務系統
高效地提供多個LoRA模型的服務同樣至關重要。近期的進展包括改進的GPU內存管理 [129],高效的批處理技術 [130],用于緩解冷啟動延遲的CPU輔助策略 [131],以及針對資源受限的個人設備的適應性方法 [132]。
5 應用
LoRA在微調基礎模型方面的有效性和高效性,促使其在多個領域得到廣泛應用,包括語言處理、計算機視覺、語音識別、多模態、代碼工程、科學發現、推薦系統、圖學習、時空預測等。
6 結論 在本次綜述中,我們對LoRA進行了系統分析,探討了其理論基礎、技術進展以及在適應基礎模型方面的多種應用。LoRA在多個領域的廣泛應用——從自然語言處理和計算機視覺到語音識別和科學計算——突顯了其多功能性和有效性。LoRA能夠在顯著減少計算和存儲需求的同時保持模型性能,這使得它在資源受限的環境和特定領域的適配中尤為寶貴。盡管取得了這些成就,但仍然存在若干關鍵挑戰。LoRA有效性的理論框架需要進一步發展,特別是在理解低秩適配與模型能力之間的相互作用方面。此外,關于可擴展性、魯棒性和在生產環境中安全部署的問題,仍然是當前研究的重要方向。
摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。
關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述
1 引言
技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。
例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。
第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。
圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。
本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。
本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。
2 為什么需要對齊與融合
對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。
2.1 提升全面性與魯棒性
對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題
在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性
對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用
對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊
多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊
顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。
DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊
隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法
圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。
這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法
近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。
多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。
編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。
在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。
這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。
模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。
基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。
圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。
自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。
在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。
例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。
持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。
在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。
摘要——根據規模預測,大型模型在許多領域取得了突破性進展,特別是在自然語言生成任務中,它們的表現已接近甚至超越人類水平。然而,前所未有的參數規模帶來了顯著的計算和存儲成本。這些大型模型需要大量的計算資源和GPU內存來運行。在將大型模型適應于特定下游任務時,其龐大的參數規模在計算能力和GPU內存有限的硬件平臺上微調時面臨重大挑戰。為了解決這個問題,參數高效微調(PEFT)通過有效調整大型預訓練模型的參數以適應各種下游任務,提供了一種實用的解決方案。具體而言,PEFT調整預訓練大型模型的參數,以適應特定任務或領域,最小化額外參數的引入和所需的計算資源。本文主要介紹PEFT的基礎知識、各種PEFT算法的核心思想和原理、PEFT的應用以及未來研究方向。通過閱讀本綜述,我們相信感興趣的讀者能夠迅速掌握PEFT方法論,從而加速其發展和創新。 關鍵詞——微調、參數高效、大型語言模型、深度學習、人工智能。
最近幾年,大型預訓練模型(通常稱為“大模型”)作為人工智能領域的一項重要進展,逐漸受到廣泛關注。由于其在各種應用場景中的卓越表現和多樣性,這些模型引發了大量討論。這些模型具有強大的計算能力和豐富的數據資源,使其能夠在處理復雜任務時表現出色。在自然語言處理(NLP)領域,大型語言模型(LLMs)備受關注。這些模型在文本生成、機器翻譯、個性化聊天機器人、文本摘要、情感分析和問答系統等任務中展現出卓越的創造力。 然而,大模型的發展面臨著重大挑戰和爭議。這些模型需要大量的計算資源和數據支持,這可能對環境造成威脅并影響隱私保護。盡管在特定任務中表現出色,但這些模型仍然存在局限性和錯誤率,需要不斷優化和改進。在直接使用大模型處理特定任務時,其性能往往低于預期。因此,微調大模型已成為提高模型性能的關鍵方法。 PEFT(參數高效微調)是一種轉移學習方法,專門用于調整大型預訓練模型的參數,以適應新的任務和場景。這種方法涉及動態調整模型,以增強其在執行特定任務時的有效性,考慮到目標任務的獨特特征和要求。微調過程通常包括改進模型架構、優化參數和調整學習策略等多個方面,以在新任務中實現更好的性能。隨著深度學習領域的不斷發展,優化和微調大模型的技術也取得了顯著進展。值得注意的PEFT方法包括LoRA、適配器調優、前綴調優、提示調優、P-tuning、BitFit等。 然而,盡管在多個領域中,大模型微調技術取得了顯著成就,但仍然存在許多需要解決的挑戰和困難。例如,過擬合的緩解、微調效率的優化,以及在預訓練與微調任務之間找到學習平衡等問題都需要更多的研究。 近年來,關于PEFT的文章層出不窮,其中一些研究提供了對最流行方法的有益概述。以下是對這些研究的比較分析。丁寧等人引入了一種理論抽象,用于Delta Tuning,從優化和最優控制的角度進行分析。這一抽象提供了一種統一的方法,描述當前的參數高效微調方法,為未來的研究提供了獨特的視角。然而,盡管該研究主要集中在NLP應用上,但這些方法在不同領域的通用性和有效性仍需進一步探討。Lialin等人提供了全面的分析和分類,涵蓋了廣泛的方法,并比較了約30種方法在存儲效率、內存效率、計算效率、準確性和推理開銷等五個維度上的表現。然而,雖然文章主要關注于對數十億參數規模語言模型進行有效微調的詳細方法,但對真實應用場景的探討相對有限。徐玲玲等人對當前PEFT方法進行了全面的評估和分析,評估了它們在一系列NLP任務中的性能、參數效率和內存利用率。然而,該論文并未充分闡述這些方法在實際操作環境中的應用,也未深入探討它們的適應性及可能遇到的領域特定挑戰。辛怡等人提供了視覺PEFT的全面概述和未來方向,系統地回顧了最新的進展。盡管文章涵蓋了多種視覺任務,但實驗主要集中在幾個常見任務上,并未完全涵蓋更廣泛的潛在應用場景。韓澤宇等人詳細分類了PEFT方法,探討了PEFT技術在各種模型架構和下游任務中的應用,以及參數高效微調方法的系統設計挑戰。該研究為研究人員和工程師提供了PEFT方法的全面概述,但在實際應用覆蓋方面仍有改進空間。 我們的貢獻如下:
本調查旨在全面回顧大模型微調技術的最新進展。通過對現有研究的深入審查,我們的目標是識別并填補當前知識體系中的空白,從而開發出一個全面和系統的知識框架,為研究人員提供清晰的視角,并指導他們未來的研究。總之,我們的工作為相關領域提供了有價值的資源和視角,供學術和實踐用途。調查的剩余部分結構如下: 在第二部分中,我們提供大型語言模型基本組成部分的簡要總結,包括其過去的發展、新興能力以及支配其規模的擴展規律。隨后,我們簡要概述了全面語言模型的主要分類,并介紹了多模態綜合模型的基本原理和框架。此外,我們還探討了在大型語言模型微調領域采用的主要方法,包括指令微調、對齊和基于人類反饋的強化學習(RLHF)。最后,我們簡要總結了在大模型微調領域最常用的基準和評估數據集。 在第三部分中,我們提供了對PEFT方法的全面分析和總結,展示了當前PEFT方法的分類框架,涵蓋了2019年6月至2024年7月發布的100多篇研究文章。我們在傳統的加法、重新參數化和減法PEFT分類基礎上,納入了混合、量化和多任務分類PEFT方法的總結。 在第四部分中,我們對多模態、視覺和擴散模型領域的PEFT方法進行全面分析和描述。我們的目標是提供深刻的理解和針對不同應用場景的PEFT選擇和改進建議。 在第五部分中,我們總結了我們的廣泛調查,并提出了多個有前景的未來發展方向,包括算法改進和任務場景,旨在為這一蓬勃發展的領域的進一步研究和發展提供有價值的見解。
摘要
大型語言模型(LLMs)的成功本質上與海量、多樣化和高質量的訓練和評估數據的可用性密切相關。然而,高質量數據的增長速度遠遠落后于訓練數據集的擴展,導致了潛在的數據枯竭危機。這凸顯了提高數據效率和探索新數據源的緊迫性。在此背景下,合成數據作為一種有前景的解決方案出現。目前,數據生成主要包括兩大方法:數據增強和數據合成。本文全面回顧并總結了貫穿LLM生命周期的數據生成技術,包括數據準備、預訓練、微調、指令調整、偏好對齊及其應用。此外,我們討論了這些方法當前面臨的限制,并探討了未來發展的潛在途徑。我們的目標是為研究人員提供對這些方法論的清晰理解,幫助他們在構建LLM時快速識別合適的數據生成策略,并為未來的探索提供寶貴的見解。
近年來,大型語言模型(LLMs)在廣泛的任務中展現了無與倫比的能力【9, 68, 166】,牢固地確立了它們作為通用人工智能(AI)系統支柱的地位。這些模型在自然語言處理【234, 262, 264】、計算機視覺【100, 207, 239】和其他研究領域【36, 163, 229】中取得了顯著的進展,不斷推動AI所能實現的邊界。LLMs的成功很大程度上歸功于它們能夠從大量數據中捕捉復雜的模式和關系,使其能夠高效執行復雜任務,例如自然語言推理【39, 134】、視覺問答【151, 158】和視覺與語言導航【125, 178】。 然而,LLMs的性能高度依賴于訓練數據的質量和數量【2, 57, 58】。隨著模型規模的指數級增長——現在達到數十億甚至數萬億個參數【105, 168, 268】——對于大規模、多樣化和高質量數據的需求日益增加,以確保模型在各種任務和領域中的穩健泛化。獲取此類數據帶來了巨大的挑戰,因為數據收集成本高昂,同時還面臨隱私問題。此外,高質量數據的增長速度遠遠落后于訓練數據集規模的快速擴展。如果這一趨勢繼續下去,現有的數據將最終耗盡,意味著如果不能顯著提高數據效率或發現新的數據源,LLMs的增長可能會顯著放緩。
面對這些迫在眉睫的限制,數據合成和增強技術對于延長LLMs的生命周期和提升其泛化能力至關重要。傳統的數據合成和增強技術【34, 98, 135, 194】,如圖像旋轉、裁剪、翻轉以及基于規則的自然語言生成,已被廣泛應用于解決這些數據限制。盡管這些方法在一定程度上改善了數據多樣性并緩解了數據匱乏問題,但它們仍難以充分捕捉真實世界數據的復雜性【55】,難以大規模生成數據【233】,并且難以抵御對抗性樣本【162】,這限制了它們在LLM訓練中的有效性。
為了克服這些挑戰,研究人員越來越多地轉向面向LLM的數據合成和增強技術,認識到LLM能夠從大型數據集中建模復雜模式,并生成與真實世界分布高度相似的合成數據,同時引入有價值的變異【37, 175, 260】。這些研究減少了對人工策劃數據集的依賴,并能夠生成高質量、多樣化的數據,以滿足LLMs在其生命周期和功能中的不斷演進需求。為了捕捉這些努力的廣度,我們通過在Google Scholar中使用“數據合成”、“數據增強”和“大模型”等關鍵詞收集了與LLM數據合成和增強相關的論文。圖1展示了按年份和發布平臺劃分的出版趨勢,反映了該領域日益增長的興趣。截至2024年10月,我們識別出了250篇涵蓋不同研究主題和發布平臺的獨特出版物。總結這些努力為我們提供了對進展和剩余挑戰的關鍵見解,并為未來的研究奠定了基礎。 盡管取得了這些進展,但在LLM數據合成和增強方面仍然存在一些關鍵挑戰。合成數據的濫用帶來了風險,特別是在傳播錯誤信息和引發操縱公眾輿論的倫理問題時。此外,合成數據在將AI模型與人類價值對齊時經常引入歧義,可能導致偏見結果。評估訓練于合成數據上的模型也很復雜,因為傳統的基準測試可能無法完全捕捉這些數據的細微差別。確保可靠性也是另一個問題,因為原始數據集中的偏見和不準確性可能在合成數據中持續存在,限制了它的跨領域泛化能力。此外,LLM的計算需求,以及處理不常見語言或新穎指令的挑戰,也使得其更廣泛的應用變得復雜。最后,缺乏統一的框架來組織和比較學術界和工業界提出的方法,這也是研究人員在應對這一快速發展的領域時面臨的障礙。
本綜述旨在通過提供LLM數據合成和增強技術的全面概述來解決這些差距。如圖2所示,與先前的綜述【43, 140, 147, 214, 271】主要集中在支持特定下游任務或LLM某些階段的方法不同,我們的工作強調了LLM數據合成技術在提升其生命周期各個階段和核心功能整體性能中的直接作用。與【137】的工作不同,該工作主要關注解決數據匱乏和隱私問題的合成數據生成實踐,我們的綜述不僅提供了實際指導,還通過分類方法全方位提升LLM性能。我們不僅探討了數據生成方法,還研究了這些技術如何在LLM的各個階段和功能中發揮作用,提供了一種更綜合、以數據為中心的框架來推進LLM的發展。具體而言,我們從兩個關鍵角度系統回顧和分類了現有研究:LLM生命周期(從預訓練到微調和應用)及其核心功能(理解、邏輯、記憶和生成)。通過圍繞這兩個角度展開討論,我們為不同方法的發展、相互聯系及實際應用提供了更清晰的見解。此外,我們還識別了關鍵挑戰,探索了新興的研究方向,并突出了可能進一步推動通過數據為中心的方法提升LLM性能的潛在突破。
本綜述的貢獻總結如下:
通過提供LLM數據合成和增強方法的全面概述,本綜述旨在闡明該領域的現狀,并激發未來的研究方向,以通過數據合成和增強方法進一步提升LLM的能力。
我們對本綜述的其余部分進行如下組織:第2節對LLM數據合成和增強的主要領域進行了分類,概述了基礎技術。第3節從LLM生命周期的角度討論了當前的LLM數據合成和增強方法,詳細說明了這些技術如何在模型開發的不同階段使用。在第4節中,我們從LLM核心功能的角度回顧了這些方法,探討了數據合成和增強如何提升關鍵能力,如理解、邏輯、記憶和生成。第5節探討了LLM數據合成和增強的評估策略,涵蓋了評估基準、評估指標和排行榜,用于評估和比較現有方法的有效性。最后,第6節深入研究了LLM數據合成和增強中的挑戰和新興趨勢,并提出了未來的研究建議,以促進LLM通過數據合成和增強方法的持續進步。
數據生成方法在解決數據稀缺性和不平衡問題方面起著關鍵作用,從而提升模型性能和泛化能力。如圖4所示,我們總結了近年來數據增強和合成技術的發展和演變。本節主要介紹當前數據生成方法的分類,區分了數據增強和數據合成。數據增強通過對現有數據樣本的轉換來增強其多樣性,而數據合成則是從頭或基于生成模型創建全新的樣本。兩者在獲取數據的方式上有所不同,但目標都是擴展數據集。此外,數據增強和合成方法可以從多個維度進行細分。每種方法都有其獨特的優勢和應用,使研究人員能夠根據特定需求和目標定制其數據生成策略。
數據增強是一種從數據到數據的生成方法,通常涉及對原始數據進行操作,以增加其多樣性和數量,而不會顯著改變其本質特征。數據增強技術通過轉換或擾動現有數據樣本,旨在提高其豐富性。在不同的模態中,數據增強技術往往具有相似性。例如,在圖像數據中,增強操作包括拼貼【90】、翻轉【184】、復制粘貼【61】、加噪聲【149】、配對【84】等。類似地,在文本數據中,增強操作包括同義詞替換【95】、復制粘貼【185】等。此外,為滿足多模態學習的需求,現有研究已在數據增強過程中解決了跨模態信息對齊問題。MixGen【75】通過線性插值圖像和拼接來自兩個現有圖文對的文本序列生成新的訓練樣本,所生成的圖文對中的語義關系保持一致并匹配。近年來,在快速發展的LLM領域,數據增強已成為通過多樣化訓練示例來提升模型性能的基石,從而避免了大量額外數據收集的必要性。從數據中心的角度來看,我們系統地將現有的數據增強研究分為三類:數據標注【3, 63, 94, 136, 198, 275】、數據重組【45, 51, 143, 237】和協同標注【11, 43, 116】。
2.1.1 數據標注
數據標注旨在利用LLM廣泛的語言理解能力來為大量未標注數據集提供注釋。這種方法在擁有大量未標注數據的領域(如跨語言處理和多模態學習【3, 63, 275】)中特別有用,在這些領域中,自動化標注可以顯著加快數據準備過程。最近的研究探索了LLM的零樣本標注能力,例如GPT-4對政治推特的標注【198】。此外,Khan等人【94】通過使用SelTDA框架從未標注的圖像中生成偽標簽數據,專注于視覺問答(VQA)任務。
2.1.2 數據重組
數據重組涉及將現有數據轉化并重組為更多樣化的變體,從而實現更精細的數據增強【45, 51】。這種方法旨在通過引入多樣而相關的示例來豐富訓練環境,增強模型的魯棒性和泛化能力。旋轉【92】、顏色通道轉換【64】和同義詞替換【95】等經典方法經常使用。近年來,利用LLM的策略也開始出現。例如,Chen等人【27】提出了Disco方法,該方法利用LLM生成大規模、高質量的反事實數據。2.1.3 協同標注 協同標注指的是人類標注者與LLM在標注過程中的協作【11】。通過整合兩種標注方法的優勢,協同標注不僅降低了標注成本,還同時提升了標注性能,從而促進了更高效和有效的數據標注方法。Li等人【116】提出了CoAnnotating框架,通過評估LLM的標注不確定性,策略性地分配數據點給人類或LLM進行標注。
另一方面,數據合成旨在從頭或基于生成模型創建全新的數據,這些數據與真實數據的分布相似。近年來,隨著生成式AI【13, 41, 42, 78, 139, 161, 169】的爆發和進步,合成數據的質量和生成效率取得了顯著進展。根據LLM的需求,本文將數據合成方法分為三大類:通用模型蒸餾【22, 53, 120, 263, 266】、領域模型蒸餾【108, 145, 146, 215】和模型自我改進【54, 150, 210, 248】。2.2.1 通用模型蒸餾 通用模型蒸餾涉及利用功能強大的通用模型,通常具有更多參數和更優性能,如StableVicuna、ChatGPT和GPT-4,來生成數據集以增強較弱模型的能力。使用這些強大模型的方式有多種,例如使用預定義的模板生成小故事【53】或利用LLM自身評估生成數據的質量。Phi-1及其系列【67, 120】表明,通過利用GPT-3.5生成教科書和習題的全面內容,一小部分高質量數據也可以訓練出強大的模型。其他一些方法通過生成指令數據集并在改進這些數據集的質量后微調模型,也取得了性能提升【22, 80, 196】。2.2.2 領域模型蒸餾 領域模型蒸餾是指利用特定領域內的模型生成數據。這種方法通常在通用模型無法滿足行業應用的特定需求時使用。例如,在代碼編程領域,領域模型蒸餾可以用于生成針對特定編程任務的指令數據【146, 215】。在數學領域,Minerva【108】和DeepSeekMath【220】等方法旨在生成數學問題的解答,同時確保其準確性和多樣性。此外,行業數據往往面臨規模有限和數據無法在特定企業中獲取等障礙。這些因素需要采用能夠有效解決這些特定場景中挑戰的領域專用模型。
2.2.3 模型自我改進
模型自我改進是指模型生成更高質量的數據以提升其能力。例如,利用現有指令調整模型,并促使其以特定風格(如維基百科風格或問答風格)改寫網絡上的文檔,可以聯合預訓練LLM進行真實和合成的釋義任務【150】。Self-Instruct【210】通過自動生成和改進指令數據來增強LLM自身的性能,極少需要人工干預。
數據合成和增強對于推動LLMs的發展至關重要,特別是在滿足LLMs對大規模和高質量數據需求方面。本綜述全面回顧了面向LLM的數據合成和增強技術,系統地探討了這些技術在LLM整個生命周期及核心功能中的應用,并構建了一個連接現有研究的框架,突出關鍵方法,闡明其優勢與局限性。我們相信,面向LLM的數據合成和增強方法的進步將開辟新的可能性,以提升數據效率、改善任務間的泛化能力,并推動以數據為中心的AI的演變。我們希望本綜述能為未來的研究奠定基礎,激發該領域的數據合成和增強的創新與進步。
摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來,基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法,導致了相關文獻的爆炸式增長。然而,擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性,為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中,我們根據條件如何融入擴散模型的兩個基本組件(即去噪網絡和采樣過程)對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時,各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后,我們指出了一些關鍵但仍未解決的未來問題,并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。
關鍵詞——生成模型,擴散模型,條件圖像生成,條件集成。
I. 引言
圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時,它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破,如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而,早期基于深度學習的生成模型(如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200])在條件圖像生成中的表現并不令人滿意,這是由于它們的內在局限性:GANs 容易出現模式崩潰和訓練不穩定的問題 [49];VAEs 通常生成模糊的圖像 [81];而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。
近年來,擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角,憑借其強大的生成能力和多功能性,得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中,圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能,表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外,與一步生成模型相比,擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具,近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。
隨著相關研究的快速擴展,模型架構、訓練方法和采樣技術的眾多變化,以及潛在的條件生成任務的廣泛性,研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述,提供對這一快速發展的研究領域的全面且結構化的概述。
已有一些關于特定條件圖像生成任務的綜述,如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64],或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解,但它們并未涵蓋不同條件生成任務在模型框架中的共同特征,特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述,但它們的范圍有限,主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作,忽略了早期將條件集成到無條件去噪網絡中的工作,或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎,并且在低級任務如圖像修復中仍然廣泛應用。此外,[182] 主要關注基于擴散模型的圖像編輯框架,缺乏對該領域其他任務統一框架的系統分析,而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此,它們的分類方法缺乏系統性,并遺漏了 DCIS 領域中的一些關鍵相關工作。
相較之下,本綜述旨在提供一個全面且結構化的框架,涵蓋當前廣泛的 DCIS 研究工作,基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說,我們通過審查和總結現有的 DCIS 方法,探討條件如何集成到擴散建模的兩個基本組件中:去噪網絡和采樣過程。在去噪網絡方面,我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中,我們將六種主流的采樣中條件機制進行分類,詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述,使他們能夠設計適用于其所需任務的條件生成框架,包括尚未探索的新任務。
本綜述的其余部分組織如下:首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來,我們在第三部分總結去噪網絡中的條件集成方法,并在第四部分總結采樣過程中的方法。最后,我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。
摘要——在數據爆炸性增長和技術快速發展的時代,多模態大型語言模型(MLLMs)處于人工智能(AI)系統的前沿。MLLMs旨在無縫集成包括文本、圖像、視頻、音頻和生理序列在內的多種數據類型,解決遠遠超出單一模態系統能力范圍的復雜現實應用問題。在本文中,我們系統地梳理了MLLM在自然語言、視覺和音頻等多模態任務中的應用。我們還對不同MLLM在任務中的關注點進行了對比分析,并深入探討了當前MLLMs的不足之處,并提出了未來研究的潛在方向。通過這些討論,本文希望為MLLM的進一步發展和應用提供寶貴的見解。關鍵詞——MLLMs, 任務, AI應用, 融合技術。多模態大型語言模型(MLLMs)是設計用來處理和集成各種類型數據的復雜人工智能(AI)系統,包括文本、圖像、視頻、音頻和生理序列數據[1],[2],[3]。隨著我們進入多模態數據融合的時代,信息技術的快速進步和數據量的爆炸性增長,單一模態系統的能力已不足以應對復雜的現實任務[4],[5],[6]。因此,MLLMs的發展不僅是技術進化的必然趨勢,也是提高AI應用有效性的關鍵改進。通過融合來自多個數據源的信息,MLLMs培育了更全面和準確的信息表示,這種能力不僅釋放了巨大的潛力,還展示了在各個領域的顯著實際應用價值。多樣化數據集的整合使得MLLMs能夠更有效地執行任務,確立其作為下一代技術的不可或缺地位,致力于充分發揮AI技術的潛力[7],[8],[9]。值得注意的是,MLLMs在語言、圖像、視頻和音頻處理等多種多模態任務中表現出了顯著的性能。這些模型在集成多模態信息以增強多模態任務的有效性方面表現出色。在自然語言處理(NLP)任務中,如文本生成和機器翻譯,MLLMs利用圖像、視頻和音頻提供上下文支持,增強生成文本的準確性和表達力[10],[11],[12]。這些模型在情感分析和對話系統中也表現出色,通過整合多模態信息來提高理解和生成能力。特別是,MLLMs通過結合視覺和聽覺數據,豐富了文本生成和機器翻譯[13],[14],[15]。這些模型提高了生成文本的準確性和表達力,提供了傳統模型無法實現的細膩上下文支持。在情感分析和對話系統中,MLLMs能夠整合多模態信息,進一步加深系統的理解和響應能力,展示了在人機交互方面的重大進步[16],[17]。此外,在視覺任務中,MLLMs顯著提升了任務的理解、分析和生成能力。整合文本描述和圖像指令使得圖像分類、目標檢測和圖像注釋等任務更加準確。例如,像GPT-4V[13]和Gemini[18]這樣的MLLMs結合圖像內容和自然語言描述,產生更生動和精確的注釋結果。這些模型在圖像生成方面也取得了進展,可以從文本描述生成圖像或實現跨模態圖像風格遷移,從而拓寬了該領域的可能性。同時,由于視頻處理的復雜性,它提出了獨特的挑戰。然而,MLLMs的出現推動了語言模型在這一領域的能力發展。像NExT-GPT[19]和Sora[20]這樣的模型在多模態視頻生成方面處于領先地位,通過學習多模態數據生成更豐富和逼真的視頻內容。此外,智能視頻理解技術的進步,如VideoChat[21]和Video-LLaVA[22],顯著增強了分析和處理視頻內容的能力。這些發展在虛擬現實、電子游戲和教育應用中承諾了增強的用戶體驗。在音頻任務中,MLLMs為音頻處理任務帶來了新的技術變革。傳統的音頻處理通常依賴于單一模態的信號處理方法,如語音識別[23]或音頻分類[24],這些方法在處理復雜的多模態數據時存在局限性。MLLMs通過結合音頻信號、文本和視覺信息,能夠更好地理解和生成音頻相關內容。例如,在語音生成任務中,MLLMs可以利用文本和視覺信息生成更自然和上下文相關的語音輸出[25],[26]。在音頻理解任務中,這些模型可以結合視覺線索和文本描述,更準確地執行情感識別、音頻分類或音頻事件檢測。此外,MLLMs在跨模態音頻文本翻譯、音頻配樂生成和多模態情感分析等任務中顯示出強大的潛力[27],[18]。這些技術進步不僅提高了音頻處理的有效性,還擴展了其在智能家居、虛擬助手、影視制作等現實應用中的場景。本文回顧了MLLM應用的最新進展,在第二節介紹了MLLMs的基本概念和主要架構,第三節描述了它們在不同領域的表現,以識別其優缺點,第四節通過比較分析突出MLLMs的變革性影響,并在第五節提供了未來研究的路線圖。我們的討論旨在激勵持續創新,確保MLLMs在AI技術發展的前沿位置。通過對當前實施和進展的全面回顧,本文旨在總結研究成果,提供有價值的參考,并為MLLM領域的未來研究提供指導。我們的目標是激發新思想和新方向,以確保MLLMs在AI技術發展中保持領先地位。
總體而言,MLLMs 代表了人工智能和機器學習領域的重大進展,具備處理和解釋多種數據類型(包括文本、圖像、音頻和視頻)的能力[28], [29], [30]。通過整合和合成這些不同模態的數據,MLLMs 實現了對信息更全面和精確的理解和生成[3]。
特別是,MLLMs 是專門設計用來同時處理和解碼多模態數據的復雜系統。MLLMs 的核心原理在于不同模態的整合和交互,這顯著增強了模型的有效性。這種多模態方法不僅提升了對單一數據類型的理解,還促進了它們之間的更細致的互動,從而擴展了 AI 應用的范圍和準確性。例如,在圖像描述任務中,MLLMs 利用文本和視覺數據生成準確且上下文相關的圖像描述。這種協同作用使模型能夠超越單一模態系統的限制,提供更豐富和詳細的輸出。此外,音頻和視覺數據的結合可以大大提高視頻理解和注釋任務的性能,使 MLLMs 成為需要詳細多媒體分析的應用中的寶貴工具。
通過利用各種數據類型的集體優勢,MLLMs 不僅增強了 AI 解釋和與世界互動的能力,還為機器理解復雜、多方面的信息開辟了新的發展方向。
MLLM 通過多個關鍵組件有效地處理和整合來自不同模態的數據。這些組件設計用于將各種來源的原始輸入轉化為可操作的見解,使這些模型非常通用和有效。這些模型的架構大致可以分為三個主要組件:多模態輸入編碼器、特征融合機制和多模態輸出解碼器。
多模態輸入編碼器:多模態輸入編碼器是 MLLMs 中的關鍵組件,設計用于將來自不同模態的原始輸入數據轉化為模型可以有效處理的結構化格式。這個重要模塊專門處理不同類型的數據,確保每種數據形式都能被優化編碼,從而有效地貢獻于模型的整體功能。以下是編碼器如何處理每種數據類型的細節:
文本:對于文本數據,編碼器利用嵌入層技術,將詞匯映射到連續數字向量中,以及多層感知器(MLP)或更高級的 Transformer 來管理文本中的長程依賴和上下文。
圖像:視覺數據通過最先進的架構如 Vision Transformer (ViT) [31] 處理,ViT 將圖像部分視為序列以更好地捕捉關系,或通過殘差網絡(ResNet)[32] 處理,ResNet 幫助在各層中學習更深的特征而不丟失上下文。
音頻:音頻數據使用 C-Former [33]、HuBERT [34]、BEATs [35] 或 Whisper [36] 等模型進行分析。這些模型專門捕捉聲音的獨特特性,從基本音調到復雜的語言,增強了模型準確解釋聽覺信息的能力。
序列數據:對于如腦電圖(EEG)和心跳等序列數據,編碼器采用 1D 卷積神經網絡(1D-CNN)和長短期記憶網絡(LSTM)單元的組合。該設置特別有效于捕捉數據中的時間和空間模式,這對于醫療應用中的早期診斷至關重要。
通用編碼器:一種較新的創新是通用編碼器,旨在標準化處理各種高度多樣化的數據類型,包括音頻、視頻和功能性磁共振成像(fMRI)。該編碼器利用一種通用方法來處理和整合多種形式的數據,促進數據處理的一致性和效率。這些編碼器將原始輸入轉換為特征向量,然后轉化為固定長度的特征序列。這種標準化對于進一步處理數據至關重要,確保模型的后續層可以有效地執行特征融合和解碼。
通過適應和優化各種數據類型的初始處理,多模態輸入編碼器不僅提升了模型的性能,還擴展了其在不同領域的適用性。無論是提高圖像描述的準確性,豐富機器翻譯的上下文,還是推進醫療診斷工具的精度,這個編碼器在使 AI 模型能夠執行復雜任務方面發揮了基礎性作用。 特征融合機制:多模態模型的核心在于整合不同模態的特征。這個整合可以在不同階段進行[37],[38]:
早期融合:在初始階段結合輸入數據,利用不同模態的原始互聯性。
中期融合:在特征提取階段融合特征,使每種模態都能為統一表示做出獨特貢獻。
晚期融合:在決策階段整合單獨模態路徑的最終輸出,通常用于需要多種數據類型綜合判斷的任務。
聯合融合:一種混合方法,結合早期、中期和晚期融合,最大化各階段的數據利用。這些融合過程通常利用預訓練的大型語言模型(LLM),這些模型雖然最初設計用于文本數據,但通過高級特征投影和序列化技術適應處理和綜合多模態輸入。
多模態輸出解碼器:最后,多模態輸出解碼器將融合、綜合的多模態信息重新轉換為特定任務所需的可用形式。比如在圖像描述任務中,解碼器可能基于視覺輸入生成描述性文本。在視頻理解任務中,它可能生成結合視覺和聽覺數據的注釋或摘要。每個解碼器都經過精心設計以優化準確性和質量,確保輸出精確反映從綜合模態中獲得的見解。
總之,多模態大型語言模型的復雜架構使其能夠通過整合和合成文本、圖像和音頻數據來處理復雜任務。這種能力不僅提升了 AI 應用的性能,還為我們理解和互動技術開辟了新的創新途徑。
在融合多模態特征時,通常不會從零開始訓練新模型,而是利用現有的預訓練大型模型,如 LLMs。盡管預訓練的 LLMs 主要設計用于處理文本輸入,但可以通過各種技術使這些模型適應處理多模態數據。我們將在本節介紹一個具體示例,以詳細說明融合過程并進行理解。
首先,需要將每種模態的數據編碼并投影到統一的特征空間中。例如,可以使用預訓練模型如 ResNet 或 Vision Transformer 將圖像數據轉換為特征向量 Vimage。文本數據可以使用預訓練文本編碼器如 BERT [39] 轉換為特征向量 Vtext,音頻數據可以通過預訓練音頻編碼器如 wav2vec [40] 轉換為特征向量 Vaudio。然后,通過線性變換或其他投影方法將不同模態的特征向量映射到共享特征空間中。為了將這些多模態特征輸入到預訓練的 LLM 中,需要將來自不同模態的特征組織成一個序列。可以簡單地通過連接來自不同模態的特征(如 [Vimage, Vtext, ..., Vaudio, Vtext])來形成多模態特征序列。
接下來,將構建的多模態特征序列輸入到預訓練的 LLM 中進行處理。Transformer 模型通過多層自注意力機制和前饋神經網絡處理輸入特征序列。每一層包含自注意力和前饋網絡模塊,更新和整合特征表示,逐步提取更高層次的特征。經過多層 Transformer 處理后,模型生成一個包含綜合信息的特征表示序列。根據任務需求,可以通過特定的輸出層生成最終結果。例如,如果任務是生成文本描述,可以將綜合特征表示輸入到文本生成器中以生成描述性文本。
通過遵循這些步驟,可以有效地由 LLM 處理多模態特征。盡管預訓練語言模型如 GPT 和 LLAMA 主要設計用于文本輸入,但其能力可以通過特征投影和序列化方法擴展,以處理和整合多模態數據,從而執行復雜的多模態任務。
近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。
近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?
為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。
組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。
摘要 —— 隨著ChatGPT的興起,大型模型的使用顯著增加,迅速在整個行業中脫穎而出,并在互聯網上廣泛傳播。本文是對大型模型微調方法的全面綜述。本文研究了最新的技術進展以及在諸如任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調和動態微調等方面應用先進方法。 索引術語 —— 大型語言模型(LLMs)、任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調、動態微調 I. 引言 變換器(Transformer)模型的出現標志著自然語言處理(NLP)領域的一個重要里程碑。變換器架構最初是為了解決循環神經網絡(RNNs [143])和卷積神經網絡(CNNs [55])在處理長距離依賴關系中的局限而設計的,該架構由Vaswani等人在2017年引入[126],徹底改變了我們處理語言理解和生成任務的方式。 變換器架構背景:變換器模型源于對比傳統模型更有效處理序列數據的需求。其獨特的架構,不依賴遞歸和卷積,利用注意力機制來抽取輸入與輸出之間的全局依賴關系,顯著提高了處理效率和模型性能。 編碼器[19]、解碼器[95] [96] [13]以及編解碼器[100]架構:變換器架構主要由其編碼器和解碼器組成。編碼器處理輸入序列,創建每個詞的豐富上下文表征。相比之下,解碼器通常在語言翻譯任務中生成輸出序列,使用編碼信息。 兩者的區別在于它們的角色:編碼器是輸入的上下文感知處理器,而解碼器基于編碼輸入生成預測。編解碼器架構常用于序列到序列的任務,結合這兩個組件,便于處理復雜任務,如機器翻譯,編碼器處理源語言,解碼器生成目標語言。 大型模型中的微調興起:微調大型語言模型的概念源于將這些模型從訓練于龐大、多樣的數據集適應到特定任務或領域的挑戰。微調調整模型的權重,針對特定任務,增強其從廣泛語言模式到特定應用需求的泛化能力。隨著模型規模和復雜性的增長,這種方法變得越來越重要,需要更精細的適應技術來充分發揮其潛力。 本文的結構旨在提供關于微調大型語言模型的方法論和進展的全面概覽。后續部分的組織如下: 文獻回顧:審視語言模型的發展,突出變換器架構的關鍵發展和基礎概念。 理論基礎:深入探討變換器模型的理論基礎,包括注意力機制、編碼器和解碼器的機制。 微調策略:討論各種微調方法,如任務特定、領域特定的適應和高級技術,如小樣本學習和動態微調。 挑戰與未來方向:識別微調方法中的當前挑戰,并探索這一迅速發展領域的潛在未來研究方向。 本文介紹了基于變換器架構的大型語言模型的范式,并提供了常用的大模型微調方法的詳細概述。文章以一個比較實驗結束,聚焦于六個文本分類數據集上的模型大小和LoRA微調范式。實驗代碼已在GitHub上提供。
如何讓模型適配專業領域?這篇文章夠了
大型語言模型(LLMs)顯著推進了自然語言處理(NLP)領域的發展,為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展,遠超“聊天機器人”,并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而,直接應用LLMs解決特定領域的復雜問題會遇到許多難題,這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性,以及領域應用中的各種限制(例如,各種社會規范、文化一致性、宗教信仰和道德標準)所引起。為了填補這種空白,在最近幾年中,對LLMs領域專化的研究和實踐已經爆炸式增長,然而,這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中,首先,我們提出了一個系統的分類法,該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類,并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法,這些領域可以從專業化的LLMs中受益,討論了它們的實際意義和開放的挑戰。此外,我們還提供了關于該領域當前研究狀態和未來趨勢的見解。
//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414
1. 引言
自然語言處理(NLP)和人工智能(AI)模型的演變經歷了顯著的軌跡,始于1950年和1960年的基于規則的系統,轉變為1990年的統計模型,然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功,預訓練語言模型(PLMs)在2010年后期出現并迅速流行,這得益于它們能以無監督的方式從大規模數據中學習通用語言表示,這對許多下游NLP任務如常識推理[270],多選題回答[206]和故事生成[30]都有益處,同時避免了從頭開始訓練新模型。在過去的幾年中,隨著大規模語料庫和硬件容量的快速增長,研究人員發現,通過擴大模型和訓練數據可以持續提高模型的容量,遵循擴展規則[99],最終導致了大型語言模型(LLMs)[259]的出現,如GPT-3[28](175B參數),PaLM[39](540B參數),和LLaMA[235](65B參數)。LLMs在理解和生成類人文本方面明顯優于較小的模型,已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋,對改變自然和社會科學的潛力,可能會加速研究、提高發現過程并促進跨學科合作。
大型語言模型(LLMs)作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展,遠超過僅作為“聊天機器人”[173],而是將其用作特定領域如健康保健、金融和教育的助手,甚至替代人工或現有的事實上的工具。然而,直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先,不同領域、角色和任務的對話和語言風格存在顯著差異,范圍從醫療處方,到法律句子,到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練,其中很多都是實踐性的和專有的。此外,不同的領域、機構和團隊有自己的“商業模式”,關于哪種回應將最大化他們自己的效用函數以完成他們的任務,這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是,專業級使用的領域知識要求也需要非常深入,實時且準確,這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力,絕不能泄露給通用的LLMs。最后但并非最不重要的一點,語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束,所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數,這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性,即將通用的LLMs定制到領域的上下文數據,增強領域知識,優化領域目標,并受到領域限制的調控。為了實現這個目標,這個主題目前正在經歷極其快速的增長。
LMs領域專業化是一個關鍵且具有挑戰性的問題,需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰,包括:1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而,這也意味著LLMs往往有一個知識斷層(即,LLMs無法獲取最新的信息、事件或發現)。在許多專業領域,新的發現、規定和最佳實踐不斷出現,這使得LLMs難以保持最新。例如,每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查,LLMs可能無法處理它們,因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而,確保模型的新鮮度可能需要大量的資源,因為它需要連續的高質量和最新的數據收集、處理,以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下,LLMs具有廣泛主題的通用知識,并可能已經看到并獲得了大部分領域的特定知識。然而,更受歡迎或廣泛討論的話題可能被過度代表,而一些領域特定的話題可能被低估,這使得它們難以被有效地提取用于領域特定的任務。此外,領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導,LLMs可能會生成聽起來合理但對類似查詢(即,LLM的幻覺)或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列,而不是基于結構化知識庫提供確定的答案。研究人員發現,通過為LLMs提供一些任務特定的演示,用戶可以指導模型生成更相關、準確和任務特定的回應,從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口,通常由它們可以處理的最大令牌長度決定(例如,ChatGPT只能處理4097個令牌)。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用,微調歷史上是專門化語言模型的常用做法。然而,與傳統的語言模型不同,微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外,LLM的復雜性使得確定最適當的微調策略變得具有挑戰性,因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘,因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識,并過度適應目標領域。除了數據需求和復雜模型架構之外,LLM通常由數十億的參數組成,例如,生成預訓練Transformer 3(GPT-3)[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數,這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件,如TPU,這可能會很昂貴,尤其是對于個人研究者或小型組織來說,獲取這些資源可能會非常困難。
在過去的幾年中,對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻,只需進行少量修改并獲取領域特定信息,就可以適應特定領域。然而,將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰,同樣的,缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙,并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙,更有效地利用人工智能完成各種領域的任務,這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括:
? 對LLMs領域專業化技術的系統分類和分類法:我們基于對LLM的不同級別(即,黑箱、灰箱和白箱)的可訪問性,全面地分類了現有的方法,并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。
? 對主要應用領域的全面分類和總結:我們首次提出了代表性應用領域的分類法,LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明,便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域,以評估他們新提出的方法,同時擴大他們的先進技術以包含新的應用領域。
? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解,以及可能的未來方向的討論來結束。
2. 領域專業化的分類法
大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明,擴展預訓練語言模型,如增加模型大小或數據大小,常常能提升模型在下游任務中的處理能力。在本節中,我們首先回顧了PLMs的基本概念,然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。
根據對大型語言模型(LLMs)的可訪問性級別,將專門化LLMs進入領域的方法分為三類,即無訪問權限(黑箱),部分訪問權限(灰箱)和全訪問權限(白箱)。黑箱通常表示我們只能訪問模型API(例如,ChatGPT和GPT4),而不知道除生成的輸出外的任何信息;灰箱表示我們有限的信息(例如,GPT-3 API中生成的令牌的概率),這樣的信息可以指導我們設計并微調適當的提示,以更好地引出領域知識;白箱則表示我們可以全面訪問LLM(例如,LLaMA及其變種),包括參數設置,訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說,
1)外部增強(黑箱)并不需要訪問LLM的內部參數空間,使其對資源有限的用戶(例如,計算資源,特定領域的數據)最為可接觸。如圖2(b)所示,通過使用外部資源或工具,將領域特定知識融入輸入提示,生成的輸出,或兩者,有效地改進了LLM的性能,而無需修改其內部結構。
2)提示制作(灰箱)涉及訪問LLM的梯度或損失值來設計各種類型的提示,允許更精細地控制模型的行為。
3)模型微調(白箱)需要最多的訪問權限和資源,因為它涉及更新LLM的參數,將領域特定知識直接融入模型。(圖2(d))。
3 LLM領域專業化的應用
在這篇綜述性的論文中,我們探索了LLMs在一系列特定領域任務中的應用,這些領域包括社會科學(如教育,金融,法律),自然科學(如生物醫學,地球科學),以及應用科學(如人機交互,軟件工程和網絡安全)。為了在這些多元化領域實現LLMs的領域專業化,讀者可以采用各種技術,如外部增強,指示制作,和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰,從而使得應用更準確,相關和有效。雖然每個領域都有其獨特的挑戰和需求,但在這些領域中,專門化的LLMs有幾個共同的應用:
? 高級信息提取:它們可以從特定領域的文本中識別實體,關系和事件,如從生物醫學文獻中識別基因,或在合同中檢測法律條款。 ? 文本生成和摘要:它們可以生成高質量的,特定領域的內容,并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦:它們可以分析特定領域的數據進行預測和提供推薦,如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統:它們可以被融入到對話代理或專家系統中,提供特定領域的指導,如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析:在軟件工程中,它們可以基于自然語言描述生成或分析代碼,識別錯誤,或提出改進建議。
4. 結論
總的來說,大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然,社會和應用科學領域中的特定領域任務的極大興趣。然而,若干挑戰,如特定領域的專業知識有限,知識誘導和模型復雜性,阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結,并提供了一個全面的應用領域分類,這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點,缺點和關系的詳細分析,這份調查旨在幫助領域專家確定適合他們目標問題設置的技術,同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外,該文還強調了這一領域研究的當前狀態,揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展,這份調查為研究人員和從業人員提供了寶貴的資源,進一步推動了人工智能在多個領域應用的進步和創新。