多模態大型語言模型(Multimodal Large Language Models,MLLMs)已迅速發展,超越了文本生成的范疇,如今能夠覆蓋圖像、音樂、視頻、人類動作以及三維物體等多種輸出模態。它們通過在統一架構下將語言與其他感知模態整合,實現了跨模態的生成能力。本文綜述將六大主要生成模態進行分類,并探討了若干核心技術——包括自監督學習(Self-Supervised Learning, SSL)、專家混合機制(Mixture of Experts, MoE)、基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)以及思維鏈提示(Chain-of-Thought, CoT)——如何賦能跨模態能力。我們分析了關鍵模型、架構趨勢及其涌現的跨模態協同效應,并重點指出了可遷移的技術路徑與尚未解決的挑戰。諸如 Transformer 和擴散模型等架構創新為這種融合奠定了基礎,使得跨模態遷移與模塊化專精成為可能。本文還總結了跨模態協同的最新發展趨勢,并指出了評估方式、模塊化設計及結構化推理等方面的開放性難題。該綜述旨在提供一個關于 MLLM 發展的統一視角,并指明實現更通用、可適應、可解釋的多模態系統的關鍵路徑。
自 2022 年底首次亮相以來,基于文本的大型語言模型(Large Language Models,LLMs)已成為人工智能領域的基礎支柱。這些模型不僅重塑了人工智能的格局,也深刻融入了我們的日常生活。它們的演進推動了自然語言處理、人機交互以及多模態應用等方面的創新,為各個領域的無縫集成鋪平了道路。隨著發展,LLMs 已從最初的簡單文本生成模型,演進為支持上下文學習(in-context learning)【16, 109, 149, 51】、指令跟隨(instruction following)【110, 147, 146】以及多步推理(multi-step reasoning)【33】的復雜系統,正在重塑我們與計算機交互、完成任務和創造數字內容的方式。
然而,智能并不局限于語言本身。人類通過豐富的模態——文本、視覺、音頻、動作等——來感知和理解世界。硬件的進步使得機器具備了處理、解釋和生成這些多樣化數據流的能力。這一技術趨勢正推動研究社區邁向更加整體化的多模態方法,促使人工智能與人類復雜的感知方式更緊密對齊。因此,先進模型不僅擅長理解和生成文本,還能將文本與視覺結合【123】,或與音頻整合【40】。這種演進也體現在輸出形式上,它們正日益呈現出多模態和通用化的特征,突破了傳統單一模態的響應模式。如今的模型常常以混合類型的數據作為輸入【109, 147】,這一多模態集成正在推動人工智能系統逐步理解現實世界的復雜性【1】,不斷逼近人類通用理解的能力。
雖然文本依然是這些模型處理的核心要素,但其生成能力已擴展至多個輸出模態。為更好地理解這種多樣性,本文提出了一個全新的分類方式,將多模態大型語言模型(Multimodal Large Language Models,MLLMs)的主要生成輸出劃分為六大關鍵類別:
文本生成文本(Text-to-Text, T2T):為所有語言類任務及自然語言處理的基礎,支撐著信息檢索、摘要生成、翻譯與對話系統。
文本生成圖像(Text-to-Image, T2I):用于視覺內容的生成與分析,是各類視覺生成任務的核心。 * 文本生成音樂(Text-to-Music, T2M):音樂是一種復雜的聽覺媒介,包含多種樂器與情感表達,其建模難度高于一般音頻。 * 文本生成視頻(Text-to-Video, T2V):結合時間與視覺信息以生成動態場景,涉及現實物理規律,類似一個世界模型。 * 文本生成人類動作(Text-to-Human-Motion, T2HM):廣泛應用于動畫、機器人與虛擬人等場景,是實現直觀人機交互的重要方式。 * 文本生成三維物體(Text-to-3D-Objects, T2-3D):對虛擬現實、游戲與設計等應用至關重要,有助于在沉浸式環境中實現想象與交互。
這六大類別代表了當前生成模型所涉及的主要模態,每種模態對應一種獨特的數據輸出形式與應用場景。本文將音樂單獨歸為 Text-to-Music(T2M),而非更廣義的 Text-to-Audio,這是因為語音與文本關系密切,本質上是一種可直接相互轉換的形式;而音樂則擁有與語言截然不同的結構、節奏、和聲與創作元素,建模復雜性更高,因此值得單獨對待。通過明確劃分這些能力,我們希望強調生成模型所能覆蓋的廣泛輸出范式,每種模式既有獨特的應用場景,也伴隨著專屬的技術挑戰。
支撐這些多模態生成能力的,是一系列基礎性的架構創新,主要包括 Transformer【152】及其核心的注意力機制【5】,以及在眾多視覺生成任務中表現突出的擴散模型(diffusion models)【106】。隨著模態復雜度的不斷提升,人工智能系統所需應對的問題日益復雜,模型結構與訓練方法也在不斷演進。這種演進往往是解鎖模型涌現能力的關鍵【165】。其中有四項技術在提升模型推理能力方面起到了決定性作用:三項主要用于訓練階段,分別是自監督學習(Self-Supervised Learning,SSL)【121】、專家混合機制(Mixture of Experts,MoE)【62】以及基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)【26】;第四項是用于推理階段的思維鏈提示(Chain-of-Thought,CoT)【164】。
自監督學習(SSL):在訓練階段使模型從海量未標注數據中學習,通過預測輸入中被遮蔽的信息,建立起對語言、模式與世界知識的基礎理解,為復雜推理提供必需支持。 * 專家混合機制(MoE):通過選擇性激活不同“專家”子網絡,以較低的計算開銷顯著提升模型容量,能更高效地學習多樣知識與復雜模式,是增強高級推理能力的關鍵手段。 * 基于人類反饋的強化學習(RLHF):一種訓練階段的微調方法,使模型更符合人類偏好與行為預期。通過人類排名數據訓練,RLHF 能提升模型輸出的一致性、可靠性與指令理解能力。 * 思維鏈提示(CoT):在推理階段引導模型生成一系列中間步驟,以增強多步推理能力。這種顯式的思維過程有助于更準確且透明地處理復雜問題。
已有的綜述文獻也為理解 MLLMs 的發展提供了重要參考。[8] 提出了多模態學習的核心框架,并總結了代表性挑戰,包括表示學習、模態翻譯、模態對齊、模態融合與協同學習,奠定了 MLLM 研究的基礎。[17] 評述了以視覺為中心的 MLLMs,涵蓋其架構、模態對齊策略以及視覺定位、圖像生成等應用。[183] 關注多模態模型中的人類偏好對齊機制,[30] 則深入探討了模型的可解釋性與可理解性,是可信 AI 的關鍵因素。[182] 詳盡梳理了 MLLMs 在粒度、多模態與多語言覆蓋及應用場景上的演進,并進一步推進了如多模態上下文學習、思維鏈推理、LLM 輔助視覺理解等新方法。[95] 系統地回顧了 MLLMs 在多種模態下的應用與安全性問題,[158] 則深入探討了多模態思維鏈推理(Multimodal Chain-of-Thought, MCoT)在不同任務中的潛力。
為全面理解這一不斷演化的研究圖景,本文結構如下:第 2 節介紹背景知識與基本概念,并定義本文的綜述范圍與方法論;第 3 節對前述六大生成模態(T2T, T2I, T2M, T2V, T2HM, T2-3D)的歷史發展進行梳理;第 4 節討論四項核心技術(SSL, MoE, RLHF, CoT)的發展過程與關鍵作用;第 5 節綜合分析跨模態的趨勢、面臨的挑戰以及架構層面的共性,探索模態與技術之間的協同效應;第 6 節展望未來研究方向,如擴展 SSL 至新模態、模塊化專家機制、以及非文本模態的思維鏈推理等;第 7 節總結全文核心觀點,并探討通向統一多模態系統的發展路徑。
將強化學習(Reinforcement Learning,RL)融入多模態大語言模型(Multimodal Large Language Models,MLLMs)推理能力的研究方向正迅速發展,成為一項具有變革性的前沿課題。盡管多模態大語言模型在傳統大語言模型(LLMs)的基礎上顯著擴展,能夠處理圖像、音頻和視頻等多種模態,但在多模態輸入下實現穩健推理仍面臨重大挑戰。本文系統回顧了基于強化學習的多模態推理研究進展,涵蓋核心算法設計、獎勵機制創新以及實際應用案例。我們重點分析了兩大類強化學習范式——無價值函數方法(value-free)和基于價值函數方法(value-based),并探討了RL如何通過優化推理軌跡與對齊多模態信息來增強推理能力。此外,本文還全面梳理了主流基準數據集、評估方法以及當前研究的局限性,并提出了未來可能的研究方向,以應對稀疏獎勵、低效的跨模態推理以及真實場景部署等關鍵瓶頸。我們的目標是為有志于推進多模態時代RL推理研究的學者提供一個系統而全面的參考指南。
大型語言模型(Large Language Models,LLMs)的興起 [2, 35, 36, 94, 130] 為人工智能領域帶來了前所未有的新紀元,展現出卓越的指令遵循能力和少樣本學習能力 [10]。然而,實現類人智能不僅需要超越基礎感知能力,更需要發展出能夠通過上下文理解和自我糾錯進行迭代推理的復雜認知能力。受此啟發,情境學習(In-context Learning,ICL)技術 [112, 113, 121] 賦予了LLMs逐步推理的能力,這種機制通常被稱為“思維鏈條”(Chain-of-Thought,CoT)推理機制 [9, 109, 114, 146]。OpenAI 的 o1 模型 [45] 在解決推理任務方面表現出色,引發了各領域對推理能力推理時間擴展(test-time scaling)研究的廣泛關注。通過在推理過程中引入額外計算以實現“慢思考” [49],該模型進一步提高了對復雜問題的回答準確性。
在LLMs中廣泛開展的CoT研究啟發下,多模態大語言模型(Multimodal Large Language Models,MLLMs)中的推理任務 [6, 69, 96, 105, 119] 也迅速取得進展。典型的方法包括 Best-of-N、Beam Search 以及蒙特卡洛樹搜索(Monte Carlo Tree Search)[13, 99, 108, 125, 132]。這些方法依賴復雜的搜索機制生成大量推理數據,并通過監督微調使模型學習自主推理能力。
隨著強化學習(Reinforcement Learning,RL)理論和技術的進步,DeepSeek R1 [37] 展示了大語言模型如何通過基于規則的簡單激勵機制和輕量級強化學習算法(如GRPO [85])自主學習復雜推理能力。這種方法使LLMs在無明確監督的情況下自然產生“靈光一現”(Aha Moment),表現為訓練過程中模型自我反思并自主延長回答長度。近期研究 [43, 63, 76, 150] 將該方法擴展至MLLMs,并應用于目標識別 [63]、語義分割 [60] 和視頻分析 [91] 等領域。這些方法在訓練數據有限的情況下顯著提升了MLLMs的性能,在域內測試中可媲美監督微調(SFT)方法,在分布外(OOD)評估中更是超越了SFT模型。
然而,正如圖1所示,這一迅速發展的趨勢也為研究人員帶來了諸多挑戰。盡管基于RL的方法有效,但大多數仍延續文本思維范式,忽視了在多模態場景中其他模態所扮演的關鍵角色。此外,當前的RL推理方法主要依賴基于規則的獎勵函數與可驗證答案,未能覆蓋更廣泛的泛化場景問題,如無明確答案的問題。 盡管已有多項綜述聚焦于MLLMs的推理能力 [54, 110],但尚無文獻專門針對MLLMs中基于RL的推理方法進行系統探討。為填補這一空白,本文系統綜述了基于RL的MLLMs推理方法,全面梳理技術發展、方法體系、實際應用與未來方向,旨在為快速演進的MLLM推理研究提供系統化的參考與指導,從而推動該領域的持續創新。
我們首先在第2節介紹MLLMs、思維鏈條推理機制和強化學習的相關背景。接著在第3節回顧LLMs和MLLMs中RL算法設計及其優化策略;第4至第6節詳述RL在MLLMs中推理方法的算法設計、獎勵機制與基準評估;最后,第7節探討當前限制與未來研究方向。 本文從以下四個關鍵視角出發,系統分析MLLMs中基于強化學習的推理方法: * 探索RL在LLMs與MLLMs中的關鍵設計與優化策略:重點分析無價值函數方法(value-free)與基于價值函數方法(value-based)的核心理念與改進方向,探討其在提升訓練效率、穩定性與推理性能方面的創新方案,比較各方法優劣與未來優化潛力。 * 分析現有基于RL的推理方法的算法框架、獎勵函數設計及模態融合策略:從所使用的強化學習算法、獎勵機制(以準確性或結構為導向)及多模態輸入整合(包括視覺、音頻與時序信息)等維度,對代表性方法進行系統分類。 * 調研評估MLLM推理能力的基準數據集與評估協議:分析數據集的構建流程,包括數據來源、模型輸出收集及偏好標注方法,涵蓋數學、科學、空間、交互等多種類型的推理任務,并按領域特異性與泛化能力進行組織。 * 識別當前局限并提出未來研究方向:討論當前面臨的挑戰,如稀疏與靜態的獎勵反饋、低效的推理路徑與薄弱的跨模態協同等問題,探討包括層級化獎勵建模、視覺引導的CoT生成以及適用于真實多模態智能體的輕量級RL框架等前景方向。
基礎模型的崛起已經改變了機器學習研究,推動了揭示其內部機制的努力,并開發出更高效、更可靠的應用以實現更好的控制。盡管在解釋大規模語言模型(LLMs)方面已取得顯著進展,但多模態基礎模型(MMFMs)——如對比視覺-語言模型、生成視覺-語言模型和文本到圖像模型——在可解釋性上提出了超越單模態框架的獨特挑戰。盡管已有初步研究,但LLMs與MMFMs的可解釋性之間仍存在顯著差距。本綜述探索了兩個關鍵方面:(1)將LLM可解釋性方法適應到多模態模型;(2)理解單模態語言模型與跨模態系統之間的機制差異。通過系統回顧當前的MMFM分析技術,我們提出了一種結構化的可解釋性方法分類法,比較了單模態與多模態架構中的洞察,并突出了關鍵的研究空白。
1. 引言
多模態基礎模型(MMFMs)的快速發展與廣泛應用——尤其是圖像和文本模態的融合——已經推動了眾多實際應用的實現。例如,文本到圖像模型(Rombach等,2022;Ramesh等,2022;Podell等,2023)促進了圖像生成和編輯,生成式視覺-語言模型(VLMs)(Zhu等,2023;Agrawal等,2024)支持視覺問答(VQA)或圖像描述等任務,而對比(即非生成式)VLMs,如CLIP(Radford等,2021),則廣泛用于圖像檢索。隨著多模態模型的不斷進步,人們對理解其內部機制和決策過程的需求也日益增加(Basu等,2024a)。機制可解釋性不僅對解釋模型行為至關重要,還對啟用下游應用(如模型編輯(Basu等,2024a)、減少虛假相關(Balasubramanian等,2024)、以及提高組合泛化能力(Zarei等,2024))具有重要意義。 機器學習中的可解釋性,LLMs和多模態模型的可解釋性是一個廣泛且依賴上下文的概念,因任務、目標和利益相關者需求的不同而有所變化。在本綜述中,我們采用Murdoch等(2019)提出的定義:“提取并闡明模型所學習的相關知識、機制、特征和關系的過程,無論這些知識是編碼在其參數中還是通過輸入模式表現出來,從而解釋模型是如何以及為什么生成輸出的。”該定義強調了提取和理解模型知識,但“相關知識”的定義取決于應用的背景。例如,在記憶編輯應用中,可解釋性使得可以精確地修改內部表示而不會干擾模型的其他功能;而在安全性場景中,它有助于突出信號對抗性輸入的輸入特征和激活。通過這種視角,本綜述探討了可解釋性方法,研究它們如何揭示模型機制、促進實際應用并揭示關鍵的研究挑戰。 盡管在單模態大規模語言模型(LLMs)(Meng等,2022a;Marks等,2024)方面,關于可解釋性的研究取得了顯著進展,但對MMFMs的研究仍然相對滯后。鑒于大多數多模態模型都是基于變換器(Transformer)的,出現了幾個關鍵問題:LLM的可解釋性方法能否適應多模態模型?如果能,它們是否能提供類似的見解?多模態模型與單模態語言模型在機制上是否存在根本的差異?此外,分析跨模態交互等多模態特有過程時,是否需要全新的方法?最后,我們還探討了可解釋性的實際影響,提出問題——多模態可解釋性方法如何增強下游應用? 為了解答這些問題,我們進行了一項全面的綜述,并引入了一個三維的多模態模型機制可解釋性分類法:(1)模型家族——涵蓋文本到圖像擴散模型、生成式VLMs和非生成式VLMs;(2)可解釋性技術——區分從單模態LLM研究中適應的技術與專門為多模態模型設計的方法;(3)應用——分類多模態機制見解增強的實際任務。 我們的綜述綜合了現有的研究,并揭示了以下見解:(i)基于LLM的可解釋性方法可以通過適度調整擴展到MMFMs,特別是在將視覺和文本輸入類似對待時。(ii)出現了新的多模態挑戰,如如何將視覺嵌入轉化為人類可理解的形式,這需要全新的專門分析方法。(iii)盡管可解釋性有助于下游任務,但在多模態模型中,像幻覺緩解和模型編輯這樣的應用相比語言模型仍然較為欠缺。這些發現可以為未來多模態機制可解釋性研究提供指導。 最近,Dang等(2024)提供了一個關于MMFMs的可解釋性方法的廣泛概述,涵蓋了數據、模型架構和訓練范式。另一項并行工作(Sun等,2024)從歷史視角回顧了多模態可解釋性方法,涵蓋了2000年至2025年的研究。盡管具有啟發性,我們的工作在重點和范圍上有所不同。具體來說,我們的工作考察了現有的LLM可解釋性技術如何適應不同的多模態模型,分析了單模態和多模態系統在技術、應用和研究發現上的關鍵差異。 我們的貢獻總結如下:
2. 分類法
在我們的綜述中,我們提出了一個易于理解的分類法,用于從三個維度對機制可解釋性技術進行分類:(i)維度1提供了對各種多模態模型家族的機制見解,包括非生成式VLMs(例如CLIP)、文本到圖像模型(例如Stable-Diffusion)和多模態語言模型(例如LLaVa)。我們在第3節描述了本文研究的架構;(ii)維度2分類了技術是否用于語言模型(第4節)或是專門為多模態模型設計的(第5節);(iii)維度3將這些機制方法的見解與下游實際應用(第6節)相鏈接。分類法在圖1中進行了可視化。特別是,見解和應用的分布與第4、5、6節相對應。 我們相信這種簡單的分類將有助于讀者:(i)理解語言模型與多模態模型在機制見解和應用方面的差距,以及(ii)識別機制可解釋性(及其應用)尚未充分探索的多模態模型。 3 模型架構細節
在本節中,我們介紹了本綜述涵蓋的多模態模型的三個主要類別,包括(i)對比(即非生成)視覺-語言模型,(ii)生成視覺-語言模型,以及(iii)文本到圖像擴散模型。我們選擇這三個家族,因為它們涵蓋了當前社區使用的大多數最先進的架構。 非生成視覺-語言模型 非生成視覺-語言模型(如CLIP,Radford等,2021;ALIGN,Jia等,2021;FILIP,Yao等,2021;SigCLIP,Zhai等,2023;DeCLIP,Li等,2022;LLIP,Lavoie等,2024)通常包含一個基于語言模型的文本編碼器和一個基于視覺模型的視覺編碼器。這些模型特別適用于現實世界的應用,如文本引導的圖像檢索、圖像引導的文本檢索和零樣本圖像分類。 文本到圖像擴散模型 最先進的文本引導圖像生成模型主要基于擴散目標(Rombach等,2022;Ho等,2020),該目標預測在前向擴散過程中添加的噪聲,使其能夠在反向擴散過程中逐漸將隨機高斯噪聲去噪為干凈的圖像。一個擴散模型通常包含一個文本編碼器(如CLIP)和一個基于CNN的U-Net(Ronneberger等,2015)用于去噪以生成圖像。具有此目標的早期文本到圖像生成模型變體包括Stable-Diffusion-1(Rombach等,2022)(在壓縮的潛在空間中執行擴散過程)和Dalle-2(Ramesh等,2022)(在圖像空間中執行擴散過程,而不是在壓縮的潛在空間中)。最近,SD-XL(Podell等,2023)通過使用更大的去噪UNet和改進的條件(如文本或圖像)機制,改進了早期的Stable-Diffusion變體。最近的模型如Stable-Diffusion-3(Esser等,2024)通過(i)使用修正流公式,(ii)可擴展的Transformer架構作為擴散骨干,以及(iii)使用強大的文本編碼器集合(如T5,Raffel等,2020;Chung等,2022),獲得了比以前的Stable-Diffusion變體更強的圖像生成結果。除了圖像生成,文本到圖像模型還可以應用于圖像編輯(Hertz等,2022)和風格遷移(Zhang等,2023)。 生成視覺-語言模型 在我們的論文中,我們研究了最常見的生成VLMs,這些模型通過橋接模塊將視覺編碼器(如CLIP)連接到大型語言模型。這個橋接模塊(如幾個MLP層,Liu等,2023a;或Q-former,Li等,2023b)然后在大規模圖像-文本對上進行訓練。Frozen(Tsimpoukelli等,2021)是最早利用大型語言模型進行圖像理解任務(如少樣本學習)的工作之一。后續工作如MiniGpt(Zhu等,2023)、BLIP變體(Li等,2023b)和LLava(Liu等,2023a)通過修改訓練數據的規模和類型以及底層架構,改進了Frozen。最近,許多工作集中在策劃高質量圖像-文本對,涵蓋各種視覺-語言任務。Owen(Yang等,2024a)、Pixtral(Agrawal等,2024)和Molmo(Deitke等,2024)是一些最近的多模態語言模型,專注于高質量的圖像-文本策劃數據。多模態語言模型具有各種現實世界的應用,如VQA和圖像字幕。 注意。我們承認能夠同時進行圖像生成和多模態理解的統一Transformer多模態模型的出現,如Xie等(2024a);Team(2024);Dong等(2024)。然而,由于缺乏對這些模型的機制可解釋性研究,我們將它們排除在討論之外。此外,另一種模型架構變體,旨在生成交錯的圖像和文本,如GILL(Koh等,2024),將MLLM和擴散模型結合到一個系統中。我們將根據其分析的組件對此類模型進行分類。
4 多模態模型的LLM可解釋性方法
我們首先研究了最初為大型語言模型開發的機制可解釋性方法及其對多模態模型的適應性,重點關注現有LLM可解釋性技術如何為多模態模型提供有價值的機制見解。 具體來說,我們首先討論診斷工具(線性探測,第4.1節;Logit Lens,第4.2節),這些工具被動地映射模型表示中編碼的知識及其在層中的分布。然后,我們介紹因果干預方法(因果追蹤和電路分析,第4.3節),這些方法主動擾動模型狀態,以揭示知識存儲的位置以及多模態模型中特定預測的產生方式。這些見解隨后啟發了以表示為中心的表示分解方法(第4.4節),通過數學方法將激活分解為可解釋的組件,揭示模型知識的構建塊。這種結構理解直接為行為控制范式提供了信息:通用任務向量(第4.5節)利用顯式的任務驅動算術來編輯模型輸出,而稀疏自編碼器(作為其無監督對應物,第4.6節)提供了機器發現的特征基礎,用于細粒度操作,將分析與應用聯系起來。最后,神經元級描述(第4.7節)將這些解釋錨定在經驗現實中,通過微觀激活模式(如概念特定神經元)驗證宏觀假設,并確保機制保真度。 線性探測
探測通過在凍結的LLM表示上訓練輕量級分類器(通常是線性探測器)來評估它們是否編碼語言屬性,如語法、語義和事實知識(Hao等,2021;Liu等,2023b;Zhang等,2023a;Liu等,2023c;Beigi等,2024)。線性探測的圖示如圖2(a)所示。這種方法已擴展到多模態模型,引入了新的挑戰,如解耦每個模態(即視覺或文本)的相對貢獻。為了解決這些挑戰,Salin等(2022)開發了探測方法,專門評估視覺-語言模型如何合成和合并視覺輸入與文本數據以增強理解,而Dahlgren Lindstrom等(2020)研究了圖像-字幕配對中視覺-語義嵌入中語言特征的處理。與LLMs中上層主要編碼抽象語義(Jawahar等,2019;Tenney等,2019)不同,多模態探測研究(Tao等,2024;Salin等,2022)表明,多模態模型中的中間層更有效地捕捉全局跨模態交互,而上層通常強調局部細節或文本偏差。此外,盡管LLMs中的探測應用集中在特定語言分析上,但多模態模型中的探測范圍擴展到更多樣化的方面。例如,Dai等(2023)研究了視覺-語言模型中的對象幻覺,分析了圖像編碼如何影響文本生成準確性和令牌對齊。 主要發現和差距。線性探測的主要缺點是需要監督探測數據和訓練單獨的分類器來理解層中的概念編碼。因此,通過多模態探測數據策劃和訓練跨不同多模態模型的單獨分類器進行擴展是一個挑戰。 Logit Lens
Logit Lens是一種無監督的可解釋性方法,用于通過檢查輸出的logits值來理解LLMs的內部工作原理。如圖2(b)所示,該方法進行逐層分析,通過使用解嵌入投影矩陣將中間表示投影到詞匯空間,跟蹤每層的logits,以觀察預測如何在網絡中演變。通過將中間表示解碼為輸出詞匯上的分布,它揭示了網絡在每個階段的“思考”內容(Belrose等,2023)。在多模態模型的背景下,研究表明,與最終層相比,早期層的預測通常對誤導性輸入表現出更強的魯棒性(Halawi等,2024)。研究還表明,異常輸入會改變預測軌跡,使該方法成為異常檢測的有用工具(Halawi等,2024;Belrose等,2023)。此外,對于簡單示例——模型可以從初始層自信地預測結果的情況——正確答案通常出現在早期層,從而通過自適應早期退出實現計算效率(Schuster等,2022;Xin等,2020)。此外,Logit Lens已擴展到分析多個輸入。Huo等(2024)將其應用于研究前饋網絡(FFN)層中的神經元激活,識別專門用于不同領域的神經元以增強模型訓練。進一步的研究整合了上下文嵌入以改進幻覺檢測(Phukan等,2024;Zhao等,2024a)。此外,“注意力透鏡”(Jiang等,2024b)引入了研究視覺信息處理的方法,揭示了幻覺令牌在關鍵層中表現出較弱的注意力模式。 主要發現和差距。除了多模態語言模型,logit-lens還可以潛在地用于機制性地理解現代模型,如統一理解和生成模型(Xie等,2024a;Team,2024)。 因果追蹤
與被動診斷工具不同,因果追蹤分析(Pearl,2014)植根于因果推理,研究在對中間變量(中介)進行主動干預后響應變量的變化。圖2(c)展示了因果追蹤應用于基于Transformer的生成VLM的示例。該方法已廣泛應用于語言模型,以精確定位負責特定任務的網絡組件——如FFN層。例如,Meng等(2022a)證明了LLMs中的中層MLPs對于事實回憶至關重要,而Stolfo等(2023)識別了數學推理的重要層。基于此技術并使用監督探測數據集,Basu等(2023)發現,與LLMs不同,視覺概念(如風格、受版權保護的對象)在擴散模型的噪聲模型中分布在各個層中,但可以在條件文本編碼器中定位。此外,Basu等(2024b)識別了編碼藝術風格和一般事實等概念的關鍵交叉注意力層。最近的工作還將因果追蹤擴展到機制性地理解生成VLMs的VQA任務(Basu等,2024a;Palit等,2023;Yu和Ananiadou,2024c),揭示了在VQA任務中指導模型決策的關鍵層。 擴展到電路分析。雖然因果追蹤有助于識別特定任務的單個“因果”組件,但它不會自動導致提取模型的底層計算圖的子圖,該子圖對任務具有“因果”性。在這方面,語言建模中有許多工作致力于提取任務特定電路(Syed等,2023;Wang等,2024a;Conmy等,2023a)。然而,將這些方法擴展到獲取任務特定電路仍然是MMFMs的一個開放問題。 主要發現和差距。盡管因果追蹤已廣泛用于分析LLMs中的事實性和推理,但其在多模態模型中的應用仍然相對有限。將該方法擴展到更新、更復雜的多模態架構和多樣化任務仍然是一個重要的挑戰。 表示分解
在基于Transformer的LLMs中,如圖3所示,表示分解的概念涉及分析模型的內部機制,特別是將單個Transformer層分解為核心有意義的組件,旨在理解Transformer的內部過程。在單模態LLMs中,研究主要將模型的架構和表示分解為兩個主要組件:注意力機制和多層感知器(MLP)層。大量研究工作集中在分析這些組件,以了解它們對模型決策過程的個體貢獻。研究發現,雖然注意力不應直接等同于解釋(Pruthi等,2019;Jain和Wallace,2019;Wiegreffe和Pinter,2019),但它提供了對模型操作行為的重要見解,并有助于錯誤診斷和假設開發(Park等,2019;Voita等,2019;Vig,2019;Hoover等,2020;Vashishth等,2019)。此外,研究表明,Transformer MLP層中的前饋網絡(FFNs)作為鍵值存儲器,編碼和檢索事實和語義知識(Geva等,2021)。實驗研究建立了FFN輸出分布修改與后續令牌概率之間的直接相關性,表明模型的輸出是通過每層的累積更新精心制作的(Geva等,2022a)。這一核心特性是識別與特定任務相關的語言模型電路的基礎(Syed等,2023;Wang等,2024a;Conmy等,2023a)。 在多模態模型中,表示分解在分析模態處理和各層特定屬性方面發揮了重要作用。Gandelsman等(2024a);Balasubramanian等(2024)利用監督探測數據集,提出了一種分層分解方法——跨越層、注意力頭和令牌——以提供對模型行為的細粒度見解。
5. 專門針對多模態模型的可解釋性方法
許多近期的研究提出了針對多模態模型的內部機制解釋分析方法。與第4節中介紹的基于LLM(大型語言模型)的方法不同,這些方法僅為多模態基礎模型設計和應用。這些方法包括:用于用人類可理解的語言注釋嵌入或神經元的技術(第5.1節和第5.2節);利用跨注意力層等獨特的多模態架構組件以獲得更深層的見解(第5.3節);開發量身定制的多模態模型數據歸因方法,例如文本到圖像擴散模型(第5.4節);以及特定的可視化方法(第5.5節)。
6. 基于機制見解的多模態模型應用
在本節中,我們重點介紹受第4節和第5節中可解釋性分析方法啟發的下游應用。首先,我們在6.1節介紹上下文學習,接著是模型編輯(6.2節)和幻覺檢測(6.3節)。然后,我們在6.4節總結了在多模態基礎模型中提高安全性和隱私的應用,并在6.5節討論了提高組合能力的應用。最后,我們在6.6節列出了其他幾種應用類型。 7. 工具和基準
在LLMs領域,已有許多可解釋性工具涵蓋了注意力分析(Nanda 和 Bloom,2022;Fiotto-Kaufman等,2024)、SEA分析(Joseph Bloom 和 Chanin,2024)、電路發現(Conmy等,2023a)、因果追蹤(Wu等,2024)、向量控制(Vogel,2024;Zou等,2023)、logit鏡頭(Belrose等,2023)和token重要性(Lundberg 和 Lee,2017)等。然而,針對MMFMs的可解釋性工具較為狹窄。Yu和Ananiadou(2024d);Stan等(2024)主要聚焦于生成式VLMs中的注意力機制。Aflalo等(2022)提出了一種工具,用于可視化生成式VLMs的注意力和隱藏狀態。Joseph(2023)提出了一種針對視覺變換器(Vision Transformers)的工具,主要集中于注意力圖、激活補丁和logit鏡頭。此外,對于擴散模型,Lages(2022)提供了一種可視化生成圖像過程中的內部擴散步驟的工具。 統一的可解釋性基準也是一個非常重要的研究方向。在LLMs中,Huang等(2024b)提出了一個基準,用于評估可解釋性方法在解耦LLMs表示方面的效果。Thurnherr和Scheurer(2024)提出了一種新方法,用于生成LLMs的可解釋性測試平臺,節省了手動設計實驗數據的時間。Nauta等(2023);Schwettmann等(2024)也提供了LLMs可解釋性的基準。然而,目前尚未有針對多模態模型的基準,這是未來的重要研究方向。 總體來說,與LLMs領域中的全面工具和基準相比,多模態基礎模型的工具和基準相對較少。提供一個全面、統一的評估基準和工具是未來的研究方向。
8. 主要開放挑戰
盡管機制可解釋性是語言模型中一個成熟且廣泛的研究領域,但對于多模態模型而言,它仍處于早期階段。本節總結了該領域中的關鍵開放挑戰,重點關注利用機制見解的下游應用。這些挑戰包括解釋擴散變換器(Diffusion Transformers)的內部層次,用于諸如模型編輯等任務;將機制見解擴展到超出視覺問答(VQA)或簡單圖像生成的任務;開發多模態模型的順序批次模型編輯技術——包括擴散模型和多模態語言模型;探索稀疏自編碼器及其變體在控制和引導多模態模型中的有效性;設計基于機制見解的透明數據歸因方法;以及通過更深的機制理解改進多模態上下文學習。此外,擴展機制可解釋性技術以分析統一的視覺-文本理解和生成模型(例如Xie等,2024a)也是一個開放的研究方向。
9. 結論
我們的綜述回顧了多模態基礎模型(MMFMs)中的機制理解方法,包括對比性VLMs、生成式VLMs和文本到圖像擴散模型,重點關注下游應用。我們引入了一種新穎的分類法,區分了從語言模型適應過來的可解釋性方法和為多模態模型設計的可解釋性方法。此外,我們還比較了語言模型和多模態模型的機制見解,識別了理解上的差距及其對下游應用的影響。
隨著大語言模型(LLMs)的最新進展,代理式人工智能(Agentic AI)在現實應用中取得了顯著進展,朝著基于多個大語言模型的智能體邁進,實現感知、學習、推理和協同行動。這些基于大語言模型的多智能體系統(MASs)使得一組智能體能夠協作解決復雜任務,并以大規模方式實現集體行動,從孤立的模型轉向以協作為核心的方法。
本文提供了關于多智能體系統協作方面的廣泛綜述,并提出了一個可擴展的框架來指導未來的研究。我們的框架根據關鍵維度對協作機制進行表征:參與者(涉及的智能體)、類型(例如,合作、競爭或合作競爭)、結構(例如,點對點、集中式或分布式)、策略(例如,基于角色或基于模型)以及協調協議。通過對現有方法的回顧,我們的研究成果為揭示和推動基于大語言模型的多智能體系統向更加智能和協作的解決方案發展,特別是在復雜的現實應用中,提供了基礎。
此外,本文還探討了多智能體系統在不同領域的各種應用,包括5G/6G網絡、工業5.0、問答系統、以及社會文化環境,展示了它們的廣泛應用和更深遠的影響。最后,我們總結了關鍵經驗教訓,分析了多智能體系統面臨的開放挑戰,并指出了朝著人工集體智能發展的潛在研究方向。
CCS概念:
? 一般和參考 → 綜述與概覽; ? 計算方法 → 多智能體系統;自然語言生成;神經網絡。 附加關鍵詞: 人工智能,大語言模型,多智能體協作
1 引言
1.1 動機
大語言模型(LLMs)的最新進展已徹底改變了人工智能(AI),使其能夠執行復雜的任務,如創造性寫作、推理和決策,堪比人類水平 [156]。盡管這些模型在單獨使用時展現了顯著的能力,但它們仍然存在一些內在的局限性,如幻覺問題 [57]、自回歸特性(例如,無法進行深思熟慮的推理 [49])和擴展法則 [55, 69]。為了應對這些挑戰,代理式人工智能(Agentic AI)利用LLM作為大腦或協調者,將它們與外部工具和任務(如規劃)結合,使基于LLM的智能體能夠采取行動、解決復雜問題,并與外部環境進行交互。 此外,研究者們越來越多地探索橫向擴展——利用多個基于LLM的智能體協作實現集體智能。這種方法與多智能體系統(MASs)和協作AI的研究方向一致,后者專注于使一組智能體能夠協調、共享知識并共同解決問題。這些領域的融合催生了基于LLM的多智能體系統,利用多個LLM的集體智能來應對復雜的多步挑戰 [118]。MAS的靈感不僅來自技術進展,還源于人類集體智能(例如,心智社會 [87],心智理論 [45])。人類社會擅長通過團隊合作和專業化實現共享目標,從日常任務到科學發現都可以體現這一點。同樣,MAS旨在模擬這些原則,使AI智能體能夠通過結合各自的優勢和視角有效協作。
基于LLM的MAS可以通過不同的協作渠道進行協作,這些渠道具有不同的特征,如圖1所示。MAS在各個領域取得了顯著成功,通過讓智能體之間進行協作和協調,增強了單個LLM的能力。這些系統將任務分配給智能體,允許智能體共享知識、執行子任務,并將其努力與共享目標對齊。MAS的潛在優勢是變革性的。它們擅長知識記憶,使得分布式智能體能夠保持并共享多樣的知識庫,而不會使單一系統過載 [51, 154]。它們通過將任務分配給不同的智能體來增強長期規劃,支持在延續的交互中持續解決問題 [58]。此外,MAS通過匯聚來自多個模型的專業知識和提示/角色,能夠實現更有效的泛化,比單一模型更有效地解決各種問題。最后,MAS通過通過專業智能體同時管理子任務,提高了交互效率,加速了解決復雜的多步任務。MAS力求實現集體智能,其中多個智能體的綜合能力超過了它們單個貢獻的總和 [24]。
有效的MASs的一個主要關注點是協作機制 [33, 74, 75, 97, 132],它們促使從傳統的孤立模型向強調互動的方法過渡,使得智能體能夠連接、協商、做決策、規劃并共同執行任務,從而推動集體環境中AI能力的發展。深入理解MAS中的協作機制是解鎖其全部潛力的關鍵。
1.2 現狀與貢獻
由于基于LLM的多智能體協作系統的重要性和迫切需求,已有一些綜述文章討論了這一主題。然而,這些工作往往未能充分探討基于LLM的MAS的協作方面和機制,而這些方面對實現智能體朝著共享目標高效協作至關重要,具體總結見表1。例如,[47, 107, 136] 主要關注單智能體系統,僅在表面層次上提及多智能體協作。 [136] 通過提出一個框架為LLM智能體奠定了基礎,框架由三部分組成:大腦、感知和行動。該工作強調了使用LLM作為智能體的大腦,利用輸入模態整合、提示、檢索和工具使用等技術。然而,他們對多智能體協作的討論僅限于智能體行為和個性,未深入探討使智能體協同工作的機制。[47] 綜述了基于LLM的MAS成功應用的領域和場景,概述了這些系統的通信結構(分層、去中心化、集中式和共享消息池),但沒有涉及協作的其他特征,如類型、策略或協調架構。
其他一些工作,如 [82],關注協作策略,將其分類為合并、集成和合作。盡管他們的綜述討論了這些策略如何應用于LLM,并將合作擴展到傳統的融合技術之外,但忽略了競爭與合作競爭等其他重要的協作機制,以及超越流行的協作類型的維度。與此不同,[120] 提出了一個增強LLM能力的通用框架,展示了Auto-GPT等工具如何與該框架對接。然而,協作機制仍然停留在概念層面,缺乏詳細的實現和表征。[50] 的研究重點是配置LLM以利用多樣的能力和角色,如集成記憶和信息檢索組件。他們對多智能體協作的探索主要集中在規劃和協調架構上,強調基于智能體角色和專業化的全局與局部任務規劃。同時,[46] 的工作將焦點縮小到基于LLM的MAS在基于智能體的建模與仿真中的應用,討論了環境感知、人類對齊、行動生成和評估等挑戰。盡管這些工作對于仿真特定應用有啟發性,但缺乏對深入協作機制的廣泛視角。同樣,[68] 綜述了這些系統在數字孿生應用中的應用,[52, 70] 聚焦于軟件工程領域。
從上述總結和說明中可以看出,在充分探索基于LLM的MAS的協作方面和機制上存在明顯的不足,這對于使智能體朝著共享目標有效協作至關重要。本工作旨在提供基于LLM的多智能體協作系統中智能體間協作基礎的全面視角。以協作為主要焦點,我們的研究將基于LLM的智能體間協作表征為:參與者(涉及的智能體)、類型(如合作、競爭或合作競爭)、結構(如點對點、集中式或分布式)、策略(如基于角色、基于規則或基于模型)和協調層。我們強調促進有效協作的機制和“訣竅”,識別MAS設計中的關鍵特征和趨勢。通過綜述現有方法并識別開放挑戰,我們將這些發現綜合成一個連貫的框架。該框架為未來研究提供基礎,推動LLM在MAS中的集成,為更具適應性、智能性和合作性的AI系統鋪平道路,使其能夠應對復雜的現實應用。 我們的主要貢獻如下:
本文組織結構如下。第2節提供了理解本研究所需的背景信息,包括LLM、MAS和協作AI的概述。第3節介紹了基于LLM的多智能體協作系統的基礎概念,通過數學符號強調協作的關鍵作用。接著,第4節對基于LLM的多智能體協作系統進行了廣泛的綜述,按協作的關鍵特征進行分類,包括類型、策略、結構和協調與 orchestration。第5節回顧了基于LLM的多智能體協作系統在工業和學術領域中的關鍵應用。第6節討論了這一新興研究領域中的開放問題和潛在的未來研究方向。最后,第7節對本文進行了總結。
多智能體系統(MAS)是由多個相互作用的智能體組成的計算機化系統。這些智能體具有自主性,能夠感知環境、與其他智能體交互,并通過協作解決復雜的任務。MAS 的關鍵組成部分包括:
MAS 的顯著特征包括靈活性、可靠性、自組織和實時操作,使其成為解決復雜任務的有效解決方案。通過將復雜任務分解為多個子任務,每個子任務由不同的智能體處理,MAS 能夠以較低的成本和較高的可靠性完成任務。
大語言模型(LLMs)是基于 Transformer 架構的深度學習模型,如 OpenAI 的 GPT、Meta 的 LLaMA 和 Google 的 Gemini 系列。這些模型通過在大規模文本語料庫上進行訓練,具備了強大的語言理解和生成能力。LLMs 的規模使其能夠解決未經過明確訓練的任務,如類比推理和零樣本學習。 盡管 LLMs 在單智能體任務中表現出色,但在多智能體環境中,協調、通信和決策制定的復雜性增加,LLMs 的局限性變得更加明顯。例如,級聯幻覺(cascading hallucinations)問題在多智能體交互中尤為突出,即一個錯誤的輸出可能導致連鎖的錯誤反應。然而,通過引入結構化工作流和共識機制,研究人員正在探索如何克服這些挑戰,使 LLMs 在多智能體環境中發揮更大的作用。
協作式人工智能(Collaborative AI)是指設計用于與其他 AI 智能體或人類協作的 AI 系統。協作式 AI 的研究方向包括多智能體系統、人機交互、博弈論和自然語言處理。通過集成這些技術,協作式 AI 有潛力推動具有深遠經濟和社會影響的新型應用。 協作是使 AI 智能體能夠相互交互和合作的關鍵。協作機制不僅限于簡單的合作,還包括競爭和競合等高級機制。協作式 AI 推動了從傳統的孤立模型向強調協作的方法的轉變,新的方法使智能體能夠交互、協商、決策、規劃和共同行動,從而推動 AI 在集體環境中的能力。
在 LLM 多智能體協作系統中,智能體可以數學表示為 a={m,o,e,x,y},其中:
在 LLM 驅動的 MAS 中,智能體之間的協作至關重要。每個協作都有一個通信通道 cc,協作包括:
協作通道通過特定的屬性進行表征,包括參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)和策略(如基于角色、基于規則或基于模型)。任何屬性的差異都會導致不同的協作通道。
合作是 LLM 多智能體系統中最常見的協作類型。當智能體將其個體目標 oi與共享的集體目標 Ocollab對齊時,它們會共同努力實現互利的結果。合作在需要協作問題解決、集體決策和互補技能的任務中尤為重要。
競爭發生在智能體的個體目標 oi與其他智能體的目標沖突或資源有限的情況下。競爭可以推動智能體發展更高級的推理能力和創造性問題解決能力,增強系統的適應性。
競合是合作與競爭的結合,智能體在某些任務上合作,而在其他任務上競爭。競合機制在需要權衡和妥協的場景中尤為有效。
基于規則的協議通過預定義的規則嚴格控制智能體之間的交互,確保智能體按照系統范圍內的約束協調行動。這種策略在任務程序明確且變化有限的情況下非常有效,但在面對意外情況時缺乏適應性。
基于角色的協議通過為每個智能體分配特定的角色或分工,使智能體能夠專注于其專業領域內的子任務。這種策略提高了系統的效率和結構,但在角色定義不明確時可能導致沖突或功能缺陷。
基于模型的協議在輸入感知存在不確定性的環境中提供了決策制定的靈活性。智能體根據對環境的感知、共同目標和固有的不確定性做出概率性決策。這種策略在動態環境中表現出色,但設計和部署復雜,計算成本較高。
集中式結構中,所有智能體都連接到一個中央智能體,中央智能體負責管理和協調智能體之間的交互。集中式結構在資源分配和任務協調方面具有優勢,但中央節點的故障可能導致整個系統崩潰。
分布式結構中,控制權和決策權分布在多個智能體之間,每個智能體基于本地信息和有限的通信進行操作。分布式結構在系統容錯性和可擴展性方面具有優勢,但資源分配效率較低,通信開銷較大。
分層結構中,智能體按層次組織,每個層次的智能體具有不同的功能和權限。分層結構在任務分配和資源管理方面具有優勢,但邊緣設備的故障可能導致系統失效。
靜態架構依賴于領域知識和預定義的規則來建立協作通道。這種架構在任務執行一致性和利用領域知識方面具有優勢,但在面對動態環境時缺乏靈活性。
動態架構能夠適應變化的環境和任務需求,通過管理智能體或自適應機制實時分配角色和定義協作通道。動態架構在處理復雜和動態任務時表現出色,但資源使用較高,動態調整可能失敗。
LLMs 在 5G/6G 網絡和工業 5.0 中的應用顯著提升了邊緣網絡的性能。例如,LLM-SC 框架利用 LLMs 建模文本的語義信息,設計基于 LLMs 的語義通信系統,實現了語義級和技術級性能的平衡。
LLMs 在問答和自然語言生成任務中的應用顯著提升了系統的能力。例如,OpenAI 的 Swarm 框架通過引入“交接”機制,使多個智能體能夠無縫協作,提升系統的效率和適應性。
LLMs 和 MASs 在社會和文化領域的應用展示了這些系統在模擬人類行為、社會動態和文化互動方面的潛力。例如,CulturePark 框架通過模擬跨文化互動,促進了跨文化理解和減少偏見。
實現集體智能需要解決多個開放挑戰,包括統一治理、共享決策制定、智能體作為數字物種的設計、可擴展性和資源管理,以及發現和探索意外的泛化能力。
評估 MASs 的性能和行為比評估單個 LLMs 更為復雜。需要建立統一的、廣泛的基準測試框架,以確保評估結果的可重復性和一致性。
LLMs 在多智能體系統中的部署可能放大幻覺和對抗性攻擊的風險。確保智能體在倫理邊界內操作,并防止有害行為的發生,是確保系統安全性和可靠性的關鍵。
通過對 LLM 多智能體協作機制的全面綜述,我們提出了一個結構化和可擴展的框架,以指導未來的研究。我們的框架基于參與者、類型、結構、策略和協調機制五個關鍵維度,提供了分析和設計 LLM 多智能體協作交互的系統方法。我們相信,這項工作將為未來的研究提供靈感,并推動 MASs 向更智能和協作的解決方案邁進。
隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。
隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類別包含不同的方法,旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。 內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中,包括持續預訓練和持續微調等策略。例如,在工業應用中,常采用持續垂直領域預訓練,公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能,但也有可能削弱模型的廣泛知識基礎,說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法,如文本分類、命名實體識別、關系抽取和機器翻譯等,以及任務無關的方法,如指令微調、對齊和知識編輯。此外,在持續對齊中使用了人類反饋的強化學習,以確保LLM遵守人類價值觀,如安全和禮貌,突顯了所謂的“對齊稅”,即過于專注于特定價值觀可能會導致模型的通用能力下降。
外部知識類通過將新知識作為外部資源(如維基百科或API)引入,而不更新模型參數,包括基于檢索和工具的終身學習,利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略,如檢索增強生成,通過提供上下文相關、準確和最新的外部數據庫(如維基百科)信息來增強文本生成,確保模型輸出隨時間保持相關性。同時,工具學習類借鑒人類工具使用的類比,模型學習使用外部計算工具,從而無需直接修改其核心知識庫,拓寬了其問題解決能力。
通過對這些組及其各自類別的詳細檢查,本文旨在強調將終身學習能力整合到LLM中,從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新,本綜述旨在為開發更強大和多功能的LLM做出貢獻,使其能夠在不斷變化的數字環境中蓬勃發展。
本綜述與現有綜述的差異。近年來,終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡(CNN)的終身學習,探討了CNN的各種終身學習情景,包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外,一些綜述探討了圖神經網絡的終身學習。然而,只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理(NLP)中終身學習的早期綜述,但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景,包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧,包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向(或垂直持續學習)和水平方向(或水平持續學習)兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式,包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻,但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景,并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知,我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。
本綜述的貢獻。我們的綜述的主要貢獻包括:
-** 常見技術**:我們在所有終身學習情景中識別了常見技術,并將現有文獻分類到每個情景內的各種技術組中。
本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向,并總結了本綜述。
與只考慮文本的傳統情感分析相比,多模態情感分析需要同時考慮來自多模態來源的情感信號,因此更符合人類在現實場景中處理情感的方式。它涉及處理來自各種來源的情感信息,如自然語言、圖像、視頻、音頻、生理信號等。然而,盡管其他模態也包含多樣的情感線索,自然語言通常包含更豐富的上下文信息,因此在多模態情感分析中總是占據關鍵位置。ChatGPT的出現為將大型語言模型(LLMs)應用于文本中心的多模態任務打開了巨大的潛力。然而,目前尚不清楚現有的LLMs如何能更好地適應文本中心的多模態情感分析任務。本綜述旨在:(1)全面回顧文本中心的多模態情感分析任務的最新研究,(2)探討LLMs在文本中心的多模態情感分析中的潛力,概述其方法、優勢和局限性,(3)總結基于LLM的多模態情感分析技術的應用場景,以及(4)探索未來多模態情感分析的挑戰和潛在研究方向。
基于文本的情感分析是自然語言處理領域中的一項關鍵研究任務,旨在自動揭示我們對文本內容持有的潛在態度。然而,人類往往在多模態環境中處理情感,這與基于文本的情感分析在以下幾個方面有所不同:
人類能夠獲取并整合多模態細粒度信號。人類經常處于多模態情境中,通過語言、圖像、聲音和生理信號的綜合效果,能夠無縫理解他人的意圖和情感。當處理情感時,人類能夠敏銳地捕捉并整合來自多種模態的細粒度情感信號,并將其關聯起來進行情感推理。
多模態表達能力。人類表達情感的方式包括語言、面部表情、身體動作、語音等。例如,在日常對話中,我們的自然語言表達可能是模糊的(如某人說“好吧”),但當結合其他模態信息(如視覺模態中的快樂面部表情或音頻模態中的拉長語調)時,表達的情感是不同的。
顯然,在多模態環境中研究情感分析使我們更接近于人類真實的情感處理。對具有類人情感處理能力的多模態情感分析技術的研究將為現實世界中的應用提供技術支持,如高質量智能伴侶、客戶服務、電子商務和抑郁癥檢測。
近年來,大型語言模型(LLMs)展示了令人驚嘆的人機對話能力,并在廣泛的自然語言處理任務中表現出色,表明它們具有豐富的知識和強大的推理能力。同時,增強理解圖像等模態能力的大型多模態模型(LMMs)也為多模態相關任務提供了新的思路。它們可以直接進行零樣本或少樣本上下文學習,無需監督訓練。雖然已經有一些嘗試將LLMs應用于基于文本的情感分析,但對于LLMs和LMMs在多模態情感分析中的應用缺乏系統和全面的分析。因此,目前尚不清楚現有的LLMs和LMMs在多模態情感分析中的適用程度。 鑒于自然語言在多模態情感分析中的關鍵作用及其作為當前LLMs和LMMs的重要輸入,我們集中于可以利用LLMs提升性能的文本中心的多模態情感分析任務,如圖文情感分類、圖文情緒分類、音頻-圖像-文本(視頻)情感分類等。在這項工作中,我們旨在全面回顧基于LLMs和LMMs的文本中心的多模態情感分析方法的當前狀態。具體而言,我們關注以下問題:
LLMs和LMMs在各種多模態情感分析任務中的表現如何?
在各種多模態情感分析任務中,利用LLMs和LMMs的方法有什么不同,它們各自的優勢和局限性是什么?
多模態情感分析的未來應用場景是什么? 為此,我們首先介紹文本中心的多模態情感分析任務及其最新進展。我們還概述了當前技術面臨的主要挑戰,并提出潛在解決方案。我們分析了總共14個多模態情感分析任務,這些任務傳統上是獨立研究的。我們分析了每個任務的獨特特征和共性。綜述研究的結構如圖1所示。由于LMMs也是基于LLMs的,為了方便表述,下面基于LLMs的方法包括基于LMMs的方法。
本文的其余部分組織如下。第2節介紹LLMs和LMMs的背景知識。第3節對廣泛的文本中心多模態情感分析任務進行了廣泛的綜述,詳細描述了任務定義、相關數據集和最新方法。我們還總結了LLM在多模態情感分析任務中相比于以前技術的優勢和進展,以及仍然面臨的挑戰。第4節介紹了基于LLMs的文本中心多模態情感分析方法的提示設置、評估指標和參考結果。第5節展望了多模態情感分析的未來應用場景,并在第6節做出總結性評論。
一般來說,大型語言模型(LLMs)指的是具有數百億甚至更多參數的Transformer模型,這些模型通過在大量文本數據上進行高成本訓練,如GPT-3 [2]、PaLM [22]、Galactica [23] 和 LLaMA2 [24]。LLMs通常具備廣泛的知識,并展示出在理解和生成自然語言以及解決實際復雜任務方面的強大能力。LLMs展示了一些小模型所不具備的能力,這是LLMs與以往預訓練語言模型(PLMs)的最顯著區別,例如上下文學習(ICL)能力。
假設語言模型已獲得自然語言指令和幾個任務演示,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而無需額外的訓練或梯度更新;指令跟隨。通過對通過自然語言描述格式化的多任務數據集進行微調(稱為指令適配),LLMs在未見過的任務上表現出色。這種通過微調指令,使得LLMs能夠在不使用明確示例的情況下遵循新任務的任務指令,從而提高泛化能力。逐步推理。對于小型語言模型(SLMs),通常難以解決涉及多步推理的復雜任務,例如數學詞題。相反,通過使用連鎖思維(CoT)提示策略[25–27],LLMs可以利用涉及中間推理步驟的提示機制來解決此類任務并得出最終答案。
已經有一些初步嘗試評估LLMs在文本情感分析任務中的表現。在[7]中,作者觀察到LLMs的零樣本性能可以與微調的BERT模型[105]相媲美。此外,在[8]中,作者對ChatGPT在一些情感分析任務中的能力進行了初步研究,特別研究了其處理極性變化、開放域場景和情感推理問題的能力。在[9]中,作者全面測試了LLMs在文本情感分析數據集中的有效性。在[28]中,作者測試了商用LLMs在基于視頻的多模態情感分析數據集上的有效性。盡管已有的努力,范圍通常僅限于部分任務,并涉及不同的數據集和實驗設計。我們的目標是全面總結LLMs在多模態情感分析領域的表現。
大型多模態模型(LMMs)旨在處理和整合各種數據類型,如文本、圖像、音頻和視頻。LMMs通過引入額外的模態擴展了LLMs的能力,從而更全面地理解和生成多樣化的內容。LMMs的發展是為了更準確地反映人類交流和感知的多模態性質。雖然傳統的LLMs如GPT-4主要是基于文本的,LMMs能夠處理和生成跨各種數據類型的輸出。例如,它們可以解釋視覺輸入、生成圖像的文本描述,甚至處理音頻數據,從而彌合不同信息形式之間的差距。
LMMs的關鍵進展之一是創建統一的多模態嵌入空間。這涉及為每種模態使用單獨的編碼器生成特定數據的表示,然后將這些表示對齊到一個一致的多模態空間。這種統一的方法允許模型無縫整合和關聯來自不同來源的信息。著名的例子包括Gemini [111]、GPT-4V和ImageBind [110]。這些模型展示了處理文本、圖像、音頻和視頻的能力,增強了翻譯、圖像識別等功能。
除了這些知名模型,其他新興模型也取得了顯著進展:BLIP-2 [112]引入了一種新的方法,通過Q-former模塊將凍結的預訓練視覺編碼器與凍結的大型語言模型集成。這個模塊使用可學習的輸入查詢與圖像特征和LLM交互,允許有效的跨模態學習。這種設置在保持LLM的多功能性的同時,能夠有效地結合視覺信息。LLava [113]是一種集成預訓練的CLIP [116]視覺編碼器(ViT-L/14)、Vicuna [115]語言模型和一個簡單的線性投影層的大型多模態模型。其訓練分為兩個階段:特征對齊預訓練,僅使用595K圖文對照對來自Conceptual Captions數據集[118]訓練投影層;以及端到端微調,使用158K指令跟隨數據和ScienceQA數據集[117]微調投影層和LLM。這種設置確保了視覺和文本信息的有效整合,使LLava在圖像字幕生成、視覺問答和視覺推理任務中表現出色。Qwen-VL [114]在多模態領域表現出色。Qwen-VL在零樣本圖像字幕生成和視覺問答任務中表現突出,支持中英文文本識別。Qwen-VL-Chat增強了多圖像輸入和多輪問答的交互能力,在理解和生成多模態內容方面展示了顯著改進。
參數凍結應用:這種范式直接在LLMs上應用提示方法,而不需要對模型參數進行調整。根據是否需要少樣本演示,參數凍結應用包括零樣本學習和少樣本學習。
參數調優應用:這種范式需要對LLMs的參數進行調整。根據是否需要對所有模型參數進行微調,參數調優應用包括全參數調優和參數高效調優。
以文本為中心的多模態情感分析主要包括圖文情感分析和音頻-圖像-文本(視頻)情感分析。其中,根據不同的情感注釋,最常見的任務是情感分類任務(如最常見的三分類任務:積極、中立和消極)和情緒分類任務(包括快樂、悲傷、憤怒等情緒標簽)。與基于文本的情感分類類似,以文本為中心的多模態情感分析也可以根據觀點目標的粒度分為粗粒度多模態情感分析(如句子級別)和細粒度多模態情感分析(如方面級別)。 現有的細粒度多模態情感分析通常集中在圖文配對數據上,包括多模態方面術語抽取(MATE)、多模態基于方面的情感分類(MASC)以及聯合多模態方面-情感分析(JMASA)。此外,多模態諷刺檢測近年來也成為一個廣泛討論的任務。由于需要分析不同模態情感之間的沖突,它突顯了非文本模態在現實場景中情感判斷中的重要性。我們將在以下小節中介紹這些任務,并在表1中對它們進行總結。
近年來,基礎語言模型(LMs)在自然語言處理(NLP)和計算機視覺(CV)領域取得了顯著成就。與傳統神經網絡模型不同,基礎語言模型通過在大量無監督數據集上進行預訓練,獲得了豐富的常識知識,并且具有強大的遷移學習能力。然而,由于災難性遺忘,基礎語言模型仍然無法模擬人類的持續學習能力。因此,各種基于持續學習(CL)的方法被開發出來,以改進語言模型,使其能夠在適應新任務的同時不遺忘以前的知識。然而,現有方法的系統分類和性能比較仍然缺乏,這正是本綜述旨在填補的空白。我們深入綜述、總結并分類了現有文獻中應用于基礎語言模型的持續學習方法,如預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)。我們將這些研究分為離線持續學習和在線持續學習,其中包括傳統方法、基于參數高效的方法、基于提示調優的方法和持續預訓練方法。離線持續學習包括領域增量學習、任務增量學習和類別增量學習,而在線持續學習則細分為硬任務邊界和模糊任務邊界設置。此外,我們概述了持續學習研究中使用的典型數據集和指標,并詳細分析了基于語言模型的持續學習所面臨的挑戰和未來工作。
** 1 引言**
近年來,基礎語言模型(LMs)在自然語言處理(NLP)[136, 226, 232]和計算機視覺(CV)[188]領域設立了新的基準。基礎語言模型主要包括三大類:預訓練語言模型(PLMs)[136]、大語言模型(LLMs)[226]和視覺-語言模型(VLMs)[42]。PLMs如BERT [88]、RoBERTa [120]和BART [102]專注于文本任務,通過利用掩碼語言建模等任務進行預訓練,對于理解和生成語言至關重要。LLMs如GPT-4 [1]和LLaMA [173]通過擴大模型架構和訓練數據的規模,擴展了PLMs的能力,從而增強了它們在更廣泛任務中的普適性和適應性。VLMs如VisualBERT [106]、CLIP [154]、LLaVA [113]和DALL-E [156]集成了文本和圖像模態,使視覺和文本信息之間能夠進行復雜交互。這些模型的基本范式是通過在廣泛的、通常是無標簽的數據集上進行預訓練來捕獲豐富的語義信息,然后針對具體任務或領域進行微調。這種方法不僅提升了各類應用的性能,還顯著增強了模型的靈活性和任務適應性 。 然而,這些基礎模型在具有一系列任務的動態環境中往往表現出局限性,主要原因是訓練完成后參數固定。這些模型通常缺乏在不進行重新訓練的情況下整合新數據或概念的能力。一個重要挑戰是“災難性遺忘”[92],即模型在學習新信息時會喪失先前獲得的知識。這與人類的持續學習過程形成鮮明對比,人類學習過程本質上是連續且適應性的。盡管多任務學習(MTL)和遷移學習(TL)在某些應用中取得了成功,但它們在現實場景中有其局限性。MTL需要在開始時就提供所有任務及其數據,這在推出新服務時構成挑戰,因為模型必須重新訓練所有數據。此外,TL通常只涉及兩個任務,即源任務和目標任務,這對于擁有多個目標任務的現實在線平臺來說是不切實際的。為了解決這些挑戰,模型需要處理和學習不斷擴展和多樣化的數據集。這需要允許模型在適應新語言現象和趨勢的同時,不影響對歷史數據的準確性和敏感性的機制。
因此,持續學習(CL)[175, 186],也被稱為終身學習[145]或增量學習[230],是人工智能中的一個關鍵領域,旨在開發能夠持續更新自身并獲取新知識的系統,而不遺忘先前學到的信息,類似于人類學習[34]。這一范式在基礎語言模型(LMs)的背景下尤為重要,因為它們面臨災難性遺忘(CF)和跨任務知識轉移(KT)等特定問題。災難性遺忘是一個顯著挑戰,模型在學習新信息時傾向于喪失先前獲得的知識。為了解決這一問題,語言模型必須在適應新的語言趨勢的同時,保持對過去語言數據的穩固掌握。此外,跨任務知識轉移對于增強持續學習過程至關重要。有效的知識轉移不僅加速新任務的學習曲線(前向轉移),還通過新知識的反饋提高模型在先前任務上的性能(反向轉移)。
持續學習方法的最新進展大大提升了基礎語言模型(LMs)的適應性和知識保留能力。這些進展對于解決CL中先前觀察到的復雜挑戰至關重要。研究人員制定了創新策略來減輕這些挑戰,從而使LMs能夠在各種任務中保持高性能,同時持續整合新知識[30, 99, 134]。在不同的下游任務中記錄了顯著的成功,例如基于方面的情感分析,其中持續學習使動態適應不斷變化的方面和情感成為可能[84]。同樣,在對話生成中,新技術通過持續交互幫助模型改進和擴展其對話能力[164]。在文本分類中,持續學習促進了新類別的整合和對文本分布變化的調整,而無需完全重新訓練[158]。此外,在視覺問答領域,持續學習對于更新模型處理和響應新類型視覺內容和查詢的能力至關重要[148, 220]。上述工作強調了持續學習對提升基礎語言模型性能的潛力。
在持續學習領域,傳統方法向整合基礎語言模型的方法發生了顯著的范式轉變(見圖1)。首先,基礎語言模型由于在大規模數據集上的廣泛預訓練,展示了增強的泛化和遷移學習能力。模型具有快速適應下游任務的專門遷移能力,只需少量樣本。因此,在促進新技能獲取的同時,減輕零樣本遷移和歷史任務能力的退化至關重要。其次,由于基礎語言模型中大量的參數,采用參數高效技術[59]如提示調優[119]和適配器[140],無需全面重新訓練即可更新參數。第三,基礎語言模型具備通過指令學習[39, 144]進行動態和上下文感知交互的能力。
本綜述系統地將這些策略和技術分類為兩個核心領域:離線持續學習和在線持續學習(圖2)。我們首先給出離線和在線CL的詳細定義和場景,其中離線CL包括領域增量、任務增量和類別增量CL,而在線CL包括硬任務邊界和模糊任務邊界。這些學習策略進一步細分為基于預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)的方法。然后,我們總結了與傳統方法、持續預訓練方法、參數高效調優方法和基于指令方法相關的論文。最后,我們從多個角度統計了主要數據集,并回顧了評估模型遺忘和知識轉移的關鍵指標。
本綜述論文的主要貢獻如下:
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
檢索增強型生成(Retrieval-Augmented Generation, RAG) 將檢索方法與深度學習的進展結合起來,旨在解決大型語言模型(LLMs)的靜態限制,通過動態整合最新的外部信息。這種方法主要關注文本領域,提供了一個成本效益高的解決方案,用以改進LLMs生成的可能正確但實際錯誤的回答,從而通過使用真實世界數據提高其輸出的準確性和可靠性。隨著RAG在復雜性上的增長,并融入多個可能影響其性能的概念,本文將RAG范式組織為四個類別:預檢索(pre-retrieval)、檢索(retrieval)、后檢索(post-retrieval)和生成(generation),從檢索的視角提供了詳細的觀點。文中概述了RAG的發展,并通過分析重要研究討論了該領域的進展。此外,本文還介紹了對RAG的評估方法,討論了所面臨的挑戰,并提出了未來的研究方向。通過提供一個有組織的框架和分類,該研究旨在整合現有關于RAG的研究,闡明其技術基礎,并強調其擴展LLMs的適應性和應用潛力。
//www.zhuanzhi.ai/paper/64e819fddc014c8a615b8e9beb7c5deb
ChatGPT的出現因其交互能力和廣泛的應用而顯著影響了學術界和工業界,已成為領先的人工智能工具(Laskar等人,2023年;Jahan等人,2023年;Huang與Huang,2024年)。ChatGPT的核心是大型語言模型(LLM)GPT-4,正如(OpenAI等人,2023年)所詳述,它在其前身的基礎上進行了多項增強,展示了在各種自然語言處理(NLP)任務中的卓越能力(Laskar等人,2020年)。盡管有這些進步,LLMs的采用突顯了幾個關鍵問題,主要是由于它們依賴于大量數據集。這種依賴限制了它們在訓練后納入新信息的能力,導致三個主要挑戰。首先,側重于廣泛和通用數據以最大化可訪問性和適用性,結果在專業領域的性能不佳。其次,網絡數據的快速創建,加上數據注釋和模型訓練所需的大量資源,阻礙了LLMs的更新能力。第三,LLMs易于生成令人信服但不準確的回答,這種情況被稱為“幻覺”,可能會誤導用戶。 解決這些挑戰對于LLMs在各個領域的有效利用至關重要。一個有前景的解決方案是整合檢索增強型生成(Retrieval-Augmented Generation,RAG)技術,該技術通過在回應查詢時獲取外部數據來補充模型,從而確保輸出更準確、更及時。圖1演示了RAG如何使ChatGPT能夠提供超出其初始訓練數據的精確答案。自從Lewis等人(Lewis等人,2020b)在2020年引入RAG技術以來,特別是受到ChatGPT成功的影響,RAG技術已經取得了重大進展。然而,在文獻中關于RAG機制的徹底分析以及后續研究所取得的進展方面存在明顯的差距。此外,該領域的研究重點多樣,對類似方法使用的術語含糊其辭,導致混淆。本文旨在通過提供RAG的結構化概述、分類各種方法,并對這一研究領域提供深入理解,以闡明這些方面。本綜述主要關注RAG的文本應用,反映了當前這一領域研究工作的重點. RAG結合檢索方法和先進的深度學習來解決兩個主要問題:有效檢索相關信息和生成準確的回應。RAG的工作流程在第2節中概述,將方法分類為預檢索、檢索、后檢索和生成階段。從第3節到第6節,對這些階段內的技術進行了深入分析。第7節提供了所審查研究的總結,以及使用的檢索器和生成器。第8節詳述了RAG的評估方法。第9節探討未來研究方向,專注于基于文本的研究,并擴展到圖像和多模態數據的考慮。結論在第10節提出。 本文的貢獻有三個方面:本文為理解RAG領域提供了一個全面的框架,確定了改進的領域和未來研究的挑戰。它對RAG的核心技術進行了詳細分析,考察了它們在解決檢索和生成問題上的優勢。此外,它介紹了RAG研究中使用的評估方法,突出了當前的挑戰,并提出了未來研究的有希望的方向。 2 RAG框架
幻覺問題主要歸因于LLMs無法獲取最新信息的問題。這一限制源自模型依賴其訓練數據集。RAG通過利用檢索模型補充LLM的訓練數據與外部來源的當前信息,提出了解決這一問題的方案,從而使生成的回答更準確。RAG提供了一個成本效率更高的選擇,相比通常需要的大量訓練和微調過程而言。它允許通過傳統的檢索方法或預訓練的語言模型(LMs),動態地合并新鮮信息,無需直接將這些新數據整合到LLM中。這一特性使RAG具有靈活性和可擴展性,便于在不同的LLM上針對各種目的進行應用。通過RAG檢索的信息來自實際的人類編寫的數據,這不僅簡化了生成過程,還提高了生成回答的可靠性。圖2展示了統一的RAG框架以及基本工作流程和范式。 Khandelwal等人的研究(Khandelwal等人,2020年)表明,從訓練數據集本身獲取相關信息可以顯著提高LLM的性能,凸顯了RAG的有效性。隨著時間的推移,RAG已從提供補充信息的手段發展成為使檢索和生成組件之間進行多次交互的工具。這涉及進行多輪檢索以提煉檢索信息的準確性,并迭代提高生成輸出的質量。如LangChain1和LlamaIndex2等平臺已將RAG方法模塊化,增強了其適應性并擴展了應用范圍。盡管這些平臺采用多種方法解決RAG的不同方面——從多次搜索迭代到迭代生成——它們保持對基本RAG工作流程的遵守。這種一致性對于理解它們的操作和指明進一步發展的機會至關重要。
2.1 基本RAG工作流程RAG的基本工作流程從創建一個包含外部資源的索引開始。這個索引是基于特定查詢通過檢索模型檢索相關信息的基礎。最終步驟涉及一個生成模型,該模型將檢索到的信息與查詢結合,以產生所需的輸出。 2.1.1 索引高效的檢索始于全面的索引,其中數據準備是關鍵。這一階段涉及文本規范化過程,如分詞、詞干提取和停用詞移除,以增強文本的索引適用性(Manning等人,2008年)。然后,文本段落被組織成句子或段落,以便進行更有針對性的搜索,允許精確定位包含相關關鍵詞的段落。深度學習的整合通過使用預訓練的語言模型為文本生成語義向量表示,徹底革新了索引技術。這些向量被存儲,使從龐大的數據集中快速且精確地檢索成為可能,顯著提高了檢索效率。
2.1.2 檢索傳統的檢索方法,如BM25算法(Hancock-Beaulieu等人,1996年),側重于文檔排名的術語頻率和存在性,但通常忽視了查詢的語義信息。當前策略利用像BERT(Devlin等人,2019年)這樣的預訓練語言模型,更有效地捕捉查詢的語義本質。這些模型通過考慮同義詞和短語結構,提高搜索精度,通過檢測語義相似性來精細化文檔排名。這通常是通過測量文檔和查詢之間的向量距離實現的,將傳統檢索指標與語義理解結合,以產生既相關又符合用戶意圖的搜索結果。
2.1.3 生成生成階段的任務是產生既與查詢相關又反映檢索文檔中信息的文本。常用方法包括將查詢與檢索信息連接起來,然后輸入到一個LLM中進行文本生成(Li等人,2022年)。盡管確保生成文本的一致性和準確性面臨挑戰,但在嚴格遵循源材料和注入輸出創造性之間找到平衡也是必要的。生成的文本應準確傳達檢索文檔的信息并與查詢意圖一致,同時也提供引入未在檢索數據中明確包含的新見解或視角的靈活性。 2.2 RAG范式RAG范式在領域內組織研究,提供一個簡單而強大的框架以增強LLM的性能。RAG的核心是其搜索機制,對生成高質量結果至關重要。因此,從檢索角度看,這一范式被結構化為四個主要階段:預檢索、檢索、后檢索和生成。單跳和多跳檢索方法,包括迭代檢索-生成周期,遵循這四個階段的結構。圖3是RAG核心技術的分類樹。
2.2.1 預檢索檢索增強生成的預檢索階段為成功的數據和查詢準備奠定基礎,確保信息檢索的效率。這一階段包括準備有效數據訪問的必要任務。索引:過程從索引開始,建立一個有組織的系統,以實現信息的快速和準確檢索。索引的具體性取決于任務和數據類型。例如,針對問答系統,句子級索引有助于精確定位答案,而文檔級索引更適合于總結文檔以理解其主要概念和思想。查詢操作:索引后,進行查詢操作以更好地匹配索引數據。這涉及查詢重構(Jansen等人,2009年;Yu等人,2020年),它重寫查詢以更緊密地符合用戶意圖;查詢擴展(Huang等人,2013年),通過同義詞或相關術語擴展查詢以捕獲更相關的結果;以及查詢規范化,解決拼寫或術語上的差異以實現一致的查詢匹配。數據修改:數據修改在提高檢索效率方面也至關重要。這一步包括預處理技術,如移除無關或冗余信息以提高結果質量,并通過如元數據等附加信息豐富數據,以增強檢索內容的相關性和多樣性(Bevilacqua等人,2022a)。
2.2.2 檢索搜索與排名:檢索階段是搜索與排名的結合。它專注于從數據集中選擇和優先考慮文檔,以提高生成模型輸出的質量。這一階段使用搜索算法來導航索引數據,查找與用戶查詢匹配的文檔。識別相關文檔后,開始對這些文檔進行初步排名,按其與查詢的相關性進行排序。
2.2.3 后檢索后檢索階段旨在完善最初檢索的文檔,提高文本生成的質量。這一階段包括重新排序和過濾,每項都旨在優化文檔選擇以完成最終的生成任務。重新排序:在重新排序步驟中,之前檢索的文檔被重新評估、評分并重新組織。其目標是更準確地突出與查詢最相關的文檔,并降低不太相關文檔的重要性。這一步涉及結合額外的度量和外部知識源以提高精確性。在這種情況下,可以有效地使用精確度更高但效率較低的預訓練模型,因為可用的候選文檔集有限(Huang和Hu,2009年)。過濾:過濾旨在移除未達到特定質量或相關性標準的文檔。這可以通過幾種方法完成,例如設定最低相關性分數閾值以排除低于某一相關性級別的文檔。此外,使用用戶或先前相關性評估的反饋有助于調整過濾過程,確保只保留用于文本生成的最相關文檔(Khattab和Zaharia,2020年;Huang和Huang,2023年)。
2.2.4 生成生成階段是RAG流程的關鍵組成部分,負責利用檢索到的信息增強生成響應的質量。這一階段包括幾個旨在產生可讀、吸引人及富有信息量的內容的子步驟。增強:生成階段的核心是增強步驟,其目標是將檢索到的信息與用戶的查詢合并,創建一個連貫且相關的響應。這包括闡述過程,向檢索內容添加額外的細節以豐富它。努力專注于通過重述和重組等方法提高輸出的質量,增加其清晰度、連貫性和風格吸引力。將來自各種來源的信息結合在一起,提供全面的視角,并進行驗證,以確保內容的準確性和相關性。定制:定制是一個可選步驟,涉及調整內容以符合用戶的特定偏好或請求的上下文。這種調整包括根據目標觀眾的需求或內容呈現的格式調整內容,并壓縮信息以簡潔地傳達內容的本質。這個過程還包括創建強調關鍵點或論點的摘要或概要,確保輸出既信息豐富又簡潔。
將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧。我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。
//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074
注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。
賦予大型語言模型多模態能力
** 前言**
大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。
視覺到語言的適配器
來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。
多模態訓練
從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。
兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。
另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。
訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。
為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。
用多模態大型語言模型處理視覺任務
標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。
結論與未來方向
在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。
傳統的自然語言處理方法具有可解釋性,這些自然語言處理方法包括基于規則的方法、決策樹模型、隱馬爾可夫模型、邏輯回歸等,也被稱為白盒技術。近年來,以語言嵌入作為特征的深度學習模型(黑盒技術)不斷涌現,雖然這些方法在許多情況下顯著提高了模型的性能,但在另一方面這些方法使模型變得難以解釋。用戶難以了解數據經過怎樣的過程得到所期望的結果,進而產生許多問題,比如削弱了用戶與系統之間的交互(如聊天機器人、推薦系統等)。機器學習社區對可解釋性重要程度的認識日益增強,并創造了一個新興的領域,稱為可解釋人工智能(XAI)。而關于可解釋性有多種定義,大部分相關文章的論證也因此有所差異。這里我們關注的是可解釋人工智能給用戶提供關于模型如何得出結果的可解釋,也稱為結果解釋問題(outcome explanation problem)[1]。在可解釋人工智能中,解釋可以幫助用戶建立對基于NLP的人工智能系統的信任。本文依據前人的綜述[2]討論了可解釋的分類方式,介紹了能夠給出可解釋的技術及其具體操作,并簡要地描述了每一種技術及其代表性論文。