摘要—視覺—語言模型(Vision-Language Models, VLMs)在廣泛任務中展現出卓越的泛化能力。然而,當直接應用于特定下游場景且未經過任務特定的適配時,其性能往往并不理想。為了在保持數據高效性的同時提升其實用性,近年來的研究日益聚焦于不依賴標注數據的無監督適配方法。盡管這一方向的關注度不斷上升,但仍缺乏一個面向任務的、專門針對無監督 VLM 適配的統一綜述。為彌補這一空白,本文對該領域進行了全面且結構化的梳理。我們提出了一種基于無標注視覺數據可得性及其性質的分類方法,將現有方法劃分為四種核心范式:無數據遷移(Data-Free Transfer,無數據)、無監督領域遷移(Unsupervised Domain Transfer,充足數據)、情景式測試時適配(Episodic Test-Time Adaptation,批量數據)和在線測試時適配(Online Test-Time Adaptation,流式數據)。在這一框架下,我們分析了各范式對應的核心方法與適配策略,旨在構建對該領域的系統化理解。此外,我們還回顧了多種應用場景下的代表性基準,并指出了開放挑戰與未來研究的潛在方向。相關文獻的持續更新倉庫可訪問://github.com/tim-learn/Awesome-LabelFree-VLMs。 關鍵詞—無監督學習,測試時適配,多模態學習,視覺—語言模型。 I. 引言
視覺—語言模型(Vision-Language Models, VLMs),如 CLIP [1]、ALIGN [2]、Flamingo [3] 和 LLaVA [4],憑借強大的跨模態推理能力,已在學術界和工業界引起了廣泛關注。這類模型通過大規模數據集 [5] 學習圖像—文本的聯合表示,并在多種任務中展現出令人印象深刻的零樣本(zero-shot)性能與泛化能力。VLMs 已成功應用于多個領域,包括自動駕駛 [6]、機器人技術 [7]、異常檢測 [8] 以及跨模態檢索 [9]。 然而,由于預訓練階段無法覆蓋下游任務與環境的全部多樣性,將 VLMs 適配于特定應用仍是一項核心挑戰。早期的研究主要依賴有監督微調 [10]–[13],利用帶標注樣本挖掘更多知識。盡管該方法在性能上有效,但依然面臨高標注成本,以及在訓練與測試數據存在分布偏移(distribution shift)[14] 時的性能下降問題。為應對這些局限,越來越多的研究開始探索無監督適配技術 [15]–[20]。這些方法——通常被稱為零樣本推理 [21]–[23]、測試時方法(test-time methods)[18], [24], [25],或無監督調優 [17], [26], [27]——旨在無需昂貴標注即可提升 VLMs 在下游任務中的表現。實踐表明,這類方法在圖像分類 [15], [17], [18]、圖像分割 [16], [28], [29]、醫學影像診斷 [30], [31] 以及動作識別 [32], [33] 等任務中均取得了顯著成效。 鑒于該研究領域的快速發展,本文旨在對現有 VLM 無監督適配方法進行全面且結構化的綜述。據我們所知,這是首個圍繞無標注視覺數據可得性提出分類體系的工作——這一因素在實際部署中至關重要,卻往往被忽視。如圖 1 所示,我們將現有方法劃分為四種范式: 1. 無數據遷移(Data-Free Transfer)[15], [16], [21]:僅利用文本類別名稱來適配模型; 1. 無監督領域遷移(Unsupervised Domain Transfer)[17], [34], [35]:利用來自下游任務的充足無標注數據; 1. 情景式測試時適配(Episodic Test-Time Adaptation)[18], [24], [36]:針對一批測試樣本進行適配; 1. 在線測試時適配(Online Test-Time Adaptation)[19], [23], [25]:應對流式到達的測試數據。
這一分類體系為理解 VLM 無監督適配的研究版圖提供了系統化框架,有助于實踐者選擇合適的技術路徑,同時也有助于未來在同一范式下進行公平比較。 本文的組織結構如圖 2 所示:第 II 節概述了與 VLM 無監督學習相關的研究主題;第 III 節介紹了 VLM 的零樣本推理,并提出基于無標注視覺數據可得性的分類體系;第 IV–VII 節為本文核心內容,分別分析無數據遷移、無監督領域遷移、情景式測試時適配以及在線測試時適配中的現有方法;第 VIII 節探討無監督技術在多種應用場景中的實踐及相關基準,擴展對其實際意義和應用價值的認識;第 IX 節總結該領域的新興趨勢,并指出可能激發未來研究的關鍵科學問題。 與已有綜述的對比。 近年來,一些綜述性工作 [37]–[40] 涉及了無監督適配與 VLM 微調的不同方面。現有研究 [40]–[42] 多聚焦于單模態模型遷移,雖然對該領域進行了深入分析,但對 VLM 的覆蓋較為有限。較早的工作 [37] 討論了 VLM 的預訓練階段,并簡要分析了其在視覺任務上的微調方法;另一篇綜述 [38] 涉及多模態模型的適配與泛化,但粒度較為粗略;近期工作 [39] 從參數空間視角審視 VLM 下游任務的泛化,并回顧了相關方法。盡管這些綜述提供了有價值的見解,但本文首次基于無標注視覺數據可得性提出了分類體系,并在每個范式下深入分析前沿技術,我們認為這是對該領域的一個新穎且關鍵的補充,尤其對 VLM 的實際部署具有重要意義。
摘要—— 作為機器人學和具身智能的關鍵前沿,機器人操作需要精確的運動控制,以及在動態環境中對視覺與語義線索的綜合理解。傳統方法依賴預定義的任務規范和僵化的控制策略,往往難以在非結構化、全新場景下擴展或泛化。近年來,基于大規模視覺-語言模型(VLMs)的視覺-語言-動作(VLA)模型逐漸成為一種變革性的范式。這類模型利用大規模 VLMs 在開放世界泛化、層級任務規劃、知識增強推理以及多模態融合方面的能力,使機器人能夠理解高層指令、識別未知環境并執行復雜的操作任務。本綜述首次從系統化、面向分類法的角度,對用于機器人操作的大規模 VLM 驅動 VLA 模型進行全面回顧。我們首先明確界定大規模 VLM 驅動的 VLA 模型,并劃分出兩類核心體系結構范式:(1)單體式模型,涵蓋單系統與雙系統設計,二者在集成程度上有所差異;(2)分層式模型,顯式地通過可解釋的中間表示將規劃與執行解耦。在此基礎上,我們深入探討大規模 VLM 驅動的 VLA 模型:(1)其與強化學習、免訓練優化、人類視頻學習以及世界模型集成等前沿領域的結合;(2)其獨特特征的綜合,包括體系結構特點、操作優勢,以及支撐其發展的數據集和基準;(3)未來的研究方向,包括記憶機制、四維感知、高效適應、多智能體協作以及其他新興能力。本綜述整合了近期進展,旨在彌合現有分類法的不一致性,緩解研究碎片化,并通過系統性地整合大規模 VLM 與機器人操作交叉領域的研究,填補關鍵空白。我們提供了一個定期更新的項目主頁以記錄最新進展://github.com/JiuTian-VL/Large VLM-based VLA for Robotic Manipulation。 關鍵詞—— 視覺-語言-動作模型,機器人操作,具身智能,大規模視覺-語言模型
機器人操作(Robotic Manipulation)處于機器人學與具身人工智能交匯處的關鍵挑戰 [1]–[5]。其實現不僅需要精確的運動控制,還需要對復雜動態環境中的多樣化視覺與語義線索具備深刻理解。機器人操作在諸多領域展現出廣泛應用價值,包括先進制造、高效物流、精準醫療和多樣化的家庭服務 [6]–[8]。傳統的操作方法 [9]–[16] 主要依賴精心設計的控制策略和嚴格預定義的任務規范。然而,這些方法在非結構化的真實世界場景中往往表現不佳——尤其是在面對新穎物體、模糊的自然語言指令或此前未見的環境配置時,暴露出其在可擴展性與泛化能力方面的固有限制。 近年來,大規模視覺-語言模型(Vision-Language Models, VLMs)[17]–[25] 崛起為一種變革性范式。基于大規模網頁級圖文數據集的預訓練,大規模 VLM 展現出卓越的能力,能夠彌合視覺感知與自然語言理解之間的語義鴻溝。這種創新能力使 VLM 不僅能結合文本描述理解復雜視覺場景,還能超越單純的目標識別,形成整體的上下文理解。大規模 VLM 與機器人系統的結合催生了一類新模型:基于大規模 VLM 的視覺-語言-動作(Vision-Language-Action, VLA)模型 [26]–[32]。如圖 1 所示,這一新興范式展現出克服傳統機器人流水線根本局限的巨大潛力。它使機器人能夠理解高層次的人類指令、泛化至未知物體與場景、推理復雜的空間關系,并在動態、非結構化環境中執行復雜的操作任務。例如,一個 VLA 模型可以完成如下指令:“把紅色的杯子從筆記本電腦旁邊放到最上層的架子上”,這一任務需要視覺定位、空間推理與序列動作規劃的復雜融合。 在本研究中,基于對近期工作的廣泛回顧 [26]–[37] 及對該領域的深入理解 [38]–[43],我們提出了一個一致性的定義:大規模 VLM 驅動的 VLA 模型是指能夠(1)利用大規模 VLM 理解視覺觀測和自然語言指令;并且(2)通過推理過程直接或間接地服務于機器人動作生成的模型。我們進一步將其劃分為兩大類(見圖 2 與圖 3): * 單體式模型(Monolithic Models)(圖 3 左):包括單系統與雙系統實現。
單系統模型 [26], [27], [44], [45] 在統一架構中集成了環境理解(包括視覺感知、語言理解與機器人狀態感知)與動作生成。 * 雙系統模型 [29]–[32] 則采用 VLM 作為場景解釋的骨干網絡,并由一個動作專家負責動作生成,二者通過潛在表示的傳播進行信息交互。 * 分層式模型(Hierarchical Models)(圖 3 右)[46]–[50] 明確將規劃與策略執行解耦。它們區別于雙系統的端到端方法,具有以下特征:
結構化的中間輸出:規劃模塊生成可解釋的表示(如關鍵點檢測、可供性圖、軌跡提案),隨后由策略模塊處理以生成可執行的動作。 1. 解耦的訓練范式:通過專門的損失函數或 API 驅動的交互,實現對層級模塊的獨立優化。
這種分類法凸顯了 VLA 模型開發中的關鍵設計維度,尤其是系統集成的粒度與認知分解的顯式程度,同時保持與現代表征學習范式的緊密聯系。 在上述定義與分類的框架下,我們的全面綜述揭示了新興 VLA 領域中的若干關鍵缺口,其整體組織結構如圖 2 所示。首先,該領域的術語與建模假設尚不一致,研究工作分散在機器人學、計算機視覺與自然語言處理等學科。其次,已有綜述往往僅聚焦于 VLMs [51]–[55] 或機器人操作 [2], [56]–[59],缺乏對二者交叉所帶來的獨特挑戰與進展的綜合分析。因此,亟需一份系統性和原則性的綜述,以闡明大規模 VLM 驅動 VLA 模型的基礎,組織相關方法的空間,并勾勒該融合范式的未來方向。本綜述旨在填補這一空白。我們提供了結構化且深入的回顧,以全景視角推動學界更深刻的理解并激發未來的突破。
本文的主要貢獻總結如下: * 縱向綜述: 我們系統回顧了 VLM 的演化軌跡、操作學習的技術進展,以及大規模 VLM 驅動 VLA 范式的興起。同時,分析了單體式模型與分層式模型的發展,識別關鍵挑戰并展望未來方向。 * 橫向綜述: 我們提供了單體式與分層式模型更精細的比較性分類法,從結構與功能兩個維度展開分析。進一步探討了大規模 VLM 驅動 VLA 模型的前沿研究方向,強調其獨特特征與支撐發展的數據集。該綜述為理解該領域的發展與結構組織提供了概念性路線圖。
本文余下部分的組織結構如圖 2 所示:第二節介紹 VLM 演化與機器人操作基礎知識;第三節分析單體式模型,包括單系統與雙系統架構的優劣與權衡;第四節探討分層式模型,將其分為僅規劃器與規劃-策略框架,并進一步根據中間表示類型(子任務、關鍵點、程序等)細分;第五節討論其他前沿方法,包括基于強化學習的優化、免訓練方法、從人類視頻學習以及基于世界模型的方法;第六節分析大規模 VLM 驅動 VLA 模型的核心特征,涵蓋多模態融合、指令跟隨和多維泛化;第七節分類與分析相關數據集與基準,涵蓋模擬、真實世界與人類交互數據;第八節探討關鍵開放挑戰與未來研究方向;第九節給出結論。
摘要——擴散語言模型(Diffusion Language Models,DLMs)正迅速崛起,成為主流自回歸(autoregressive, AR)范式的一種強大且極具潛力的替代方案。通過在迭代去噪過程中并行生成 token,DLMs 在降低推理延遲和捕獲雙向上下文方面具有天然優勢,從而能夠對生成過程進行細粒度控制。在實現數倍推理加速的同時,近期的研究進展已使 DLMs 的性能可與自回歸模型相媲美,使其在多種自然語言處理任務中成為具有吸引力的選擇。盡管 DLMs 的應用日益普及,但其仍存在需要進一步探索的挑戰與機遇,這需要對其原理、技術與局限性進行系統且深入的理解。在本綜述中,我們對當前 DLM 領域進行了整體性梳理。我們追溯了其演化歷程以及與其他范式(如自回歸模型和掩碼語言模型)的關系,涵蓋了基礎原理與最新前沿模型。本研究還提供了最新、全面的分類體系,并深入分析了當前技術,從預訓練策略到先進的后訓練方法。另一項貢獻是全面回顧了 DLM 的推理策略與優化方法,包括解碼并行化、緩存機制以及生成質量提升等方面的改進。我們還重點介紹了 DLM 在多模態擴展上的最新方法,并闡述了其在多種實際場景中的應用。此外,我們討論了 DLM 的局限與挑戰,包括效率、長序列處理以及基礎設施需求,并展望了支撐該快速發展領域持續進步的未來研究方向。項目 GitHub 地址://github.com/VILA-Lab/Awesome-DLMs。
關鍵詞——擴散語言模型,大語言模型,擴散模型,擴散式大語言模型,語言建模,多模態語言模型
近期在通用人工智能(AGI)方面的進展,主要得益于自回歸大型語言模型(autoregressive large language models,LLMs)[1]–[7] 的出現,以及面向圖像與視頻生成的擴散模型(diffusion models)[8]–[12] 的興起。這些模型在跨多種模態的理解與生成任務中展現出了非凡能力,達到了過去難以想象的性能水平。它們在參數規模、數據集體量、訓練投入以及推理階段的計算開銷等方面的前所未有的規模,推動了人工智能達到新的高度,使得這些模型具備廣泛的通用知識以及對語言與真實世界的深刻理解。 GPT 系列 [1], [13], [14] 的崛起,尤其是 ChatGPT [2] 的公開發布,使得自回歸(AR)語言模型在自然語言處理領域占據了主導地位。AR 模型通過因果注意力(causal attention)與教師強制(teacher forcing)來預測下一個 token [4], [15], [16],能夠高效擴展至大規模數據集和模型規模。在推理時,AR 模型以逐 token 順序生成文本,在支持從簡單問答到復雜推理與創意寫作的廣泛任務中表現出色。然而,這種順序生成的特性在推理速度上形成了主要瓶頸——AR 模型一次僅能生成一個 token,天生缺乏并行性,從而顯著限制了計算效率與吞吐量。
擴散模型則是另一種極具潛力的生成范式。它們通過迭代去噪(denoising)過程,從逐步加噪的數據中恢復原始數據,并在生成階段以相反順序逆轉這一隨機擾動過程。在復雜數據分布建模方面,擴散模型已在圖像與視頻合成中實現了最新的性能記錄 [17]。擴散建模的學術突破 [18]–[21] 為訓練與推理奠定了堅實的理論基礎;同時,大規模實用模型如 Stable Diffusion [8], [10], [11]、Imagen [9] 與 Sora [12] 展現了擴散范式在可擴展性與泛化能力上的非凡表現——只需幾行文本提示,即可生成高保真、藝術級別的圖像與視頻。除對復雜數據分布的強大建模能力外,擴散模型還具有并行性的天然優勢:通過迭代去噪,它們可以一次性生成多個 token,甚至整個序列,從而在推理吞吐與現代并行計算硬件利用率上具備潛在優勢。盡管在建模離散數據和處理動態序列長度方面仍存在挑戰,擴散語言模型(Diffusion Language Models, DLMs)已逐漸成為在生成質量與速度權衡上頗具吸引力的替代方案。
為了將擴散方法適配于離散語言數據,已有多種關鍵方法被提出。早期 DLMs 的發展主要受益于擴散模型在連續域(如圖像生成)的成功。連續型 DLMs 會將 token 映射到嵌入向量,在連續空間中進行去噪,如 Diffusion-LM [22] 與 SED [23]。離散型 DLMs 則直接在 token 空間定義擴散過程,早期方法如 D3PM [24] 引入了帶有吸收態(absorbing states)的結構化轉移矩陣,實現了 token 級的擾動與迭代去噪;后續工作如 DiffusionBERT [25] 則結合了預訓練掩碼語言模型(如 BERT)以提升去噪質量,并提出了定制化的噪聲調度策略(如 spindle schedule)以更好地匹配 token 擾動與詞頻分布。這些早期模型證明了將迭代去噪應用于非自回歸文本生成的可行性,并帶來了可控性與并行性,但其性能仍落后于強大的自回歸基線。隨著 DLMs 核心挑戰的逐步解決與范式的成熟,更大規模的 DLMs 得以構建。例如,通過從自回歸模型初始化,Dream [26] 與 DiffuLLaMA [27] 等 70 億參數級模型證明了 DLMs 可在利用已有模型的同時實現具競爭力的性能;LLaDA-8B [28] 更進一步展示了從零訓練 DLMs 的潛力,其性能可與同規模的 LLaMA3-8B 相媲美。多模態 DLMs(又稱擴散多模態大語言模型,dMLLMs)也展現了在混合數據(如文本與圖像)建模上的前景,基于開源 DLMs 的 LLaDA-V [29]、Dimple [30] 與 MMaDA [31] 等模型,將跨模態推理與生成融入擴散框架中。同時,業界也開始展現出對 DLMs 的濃厚興趣,如 Mercury 系列 [32] 與 Gemini Diffusion [33] 在報告中不僅取得了出色性能,還實現了每秒生成數千 token 的推理速度。這些進展凸顯了 DLMs 日益增長的實用性與商業潛力。
DLMs 在訓練與推理階段也呈現出獨特的挑戰與機遇。預訓練通常借鑒自回歸語言模型或圖像擴散模型的策略 [26], [30], [31];為加快訓練并復用已有成果,許多 DLMs 直接從預訓練的自回歸模型權重初始化 [26], [27]。在監督微調(SFT)階段,DLMs 與 AR 模型類似,通過干凈的提示數據學習生成目標補全。強化學習(RL)也被用于 DLMs 的后訓練階段,以提升復雜任務性能;在 GRPO [41] 算法基礎上,diffu-GRPO [42] 與 UniGRPO [31] 等變體被提出,以增強大規模 DLMs 的推理能力與對齊效果。在推理階段,連續型 DLMs 可利用 ODE/SDE 求解器或少步生成技術來加速迭代去噪過程 [43];針對離散型 DLMs 在并行生成方面的更多挑戰,已有專門的并行解碼策略 [30], [44], [45],以在單步中接受多個 token,克服并行瓶頸;解掩碼與再掩碼(unmasking/remasking)策略 [28], [46] 則通過有選擇地揭示低置信度 token 來提升生成質量;而緩存技術 [47], [48] 則可顯著減少計算量并提升推理速度,這對兩類 DLMs 都適用。 相較于自回歸模型,擴散語言模型普遍被認為具有以下優勢: * 并行生成:DLMs 可通過迭代去噪過程并行生成多個 token,大幅提升推理速度與吞吐量。 * 雙向上下文:DLMs 自然融合雙向上下文,能夠進行更細膩的語言理解與生成,并產生更豐富的上下文嵌入,這對于跨模態生成任務尤為有益,也支持對生成過程的精細化控制。 * 迭代精煉:迭代去噪過程允許 DLMs 在多個步驟中不斷更新生成結果。通過提前接受高置信度 token、保留低置信度區域為掩碼,掩碼式 DLMs 可逐步改進不確定部分,從而生成更連貫、更高質量的文本。 * 可控性:DLMs 可在特定 token 位置或結構上進行條件生成,適用于填空(infilling)和結構化生成等任務;此外,分類器自由引導(classifier-free guidance)等技術還能更好地控制生成風格與語義相關性。 * 跨模態統一建模:基于統一的去噪建模框架,DLMs 天然支持文本與視覺的聯合生成任務,這使其在需要生成與理解能力一體化的多模態應用中具有獨特潛力。
盡管近年來 DLMs 熱度迅速攀升,但尚缺乏一篇系統覆蓋整個 DLM 生態的全面綜述。我們在本綜述的結構安排如下:第 2 節對現代語言建模范式進行全面回顧,包括自回歸、掩碼式與基于擴散的方法;第 3 節深入探討 DLMs 的訓練方法,包括預訓練、監督微調(SFT)與強化學習(RL)對齊等技術;第 4 節介紹多種推理策略與優化方法,重點關注適用于連續與離散空間模型的技術;第 5 節探討擴散模型在多模態場景下的拓展,綜述 LLaDA-V [29]、MMaDA [31]、Dimple [30] 等前沿架構;第 6 節呈現并可視化 DLMs 的性能對比;第 7 節展示 DLMs 在文本生成、代碼生成、計算生物學等多種任務中的應用;第 8 節則討論 DLMs 面臨的挑戰與局限,包括效率、推理能力、智能體能力及基礎設施等問題,并展望未來的研究方向。為提供整體性概覽,我們在圖 3 中給出了 DLMs 的分類體系。
近期在通用人工智能(AGI)方面的進展,主要得益于自回歸大型語言模型(autoregressive large language models,LLMs)[1]–[7] 的出現,以及面向圖像與視頻生成的擴散模型(diffusion models)[8]–[12] 的興起。這些模型在跨多種模態的理解與生成任務中展現出了非凡能力,達到了過去難以想象的性能水平。它們在參數規模、數據集體量、訓練投入以及推理階段的計算開銷等方面的前所未有的規模,推動了人工智能達到新的高度,使得這些模型具備廣泛的通用知識以及對語言與真實世界的深刻理解。 GPT 系列 [1], [13], [14] 的崛起,尤其是 ChatGPT [2] 的公開發布,使得自回歸(AR)語言模型在自然語言處理領域占據了主導地位。AR 模型通過因果注意力(causal attention)與教師強制(teacher forcing)來預測下一個 token [4], [15], [16],能夠高效擴展至大規模數據集和模型規模。在推理時,AR 模型以逐 token 順序生成文本,在支持從簡單問答到復雜推理與創意寫作的廣泛任務中表現出色。然而,這種順序生成的特性在推理速度上形成了主要瓶頸——AR 模型一次僅能生成一個 token,天生缺乏并行性,從而顯著限制了計算效率與吞吐量。 擴散模型則是另一種極具潛力的生成范式。它們通過迭代去噪(denoising)過程,從逐步加噪的數據中恢復原始數據,并在生成階段以相反順序逆轉這一隨機擾動過程。在復雜數據分布建模方面,擴散模型已在圖像與視頻合成中實現了最新的性能記錄 [17]。擴散建模的學術突破 [18]–[21] 為訓練與推理奠定了堅實的理論基礎;同時,大規模實用模型如 Stable Diffusion [8], [10], [11]、Imagen [9] 與 Sora [12] 展現了擴散范式在可擴展性與泛化能力上的非凡表現——只需幾行文本提示,即可生成高保真、藝術級別的圖像與視頻。除對復雜數據分布的強大建模能力外,擴散模型還具有并行性的天然優勢:通過迭代去噪,它們可以一次性生成多個 token,甚至整個序列,從而在推理吞吐與現代并行計算硬件利用率上具備潛在優勢。盡管在建模離散數據和處理動態序列長度方面仍存在挑戰,擴散語言模型(Diffusion Language Models, DLMs)已逐漸成為在生成質量與速度權衡上頗具吸引力的替代方案。 為了將擴散方法適配于離散語言數據,已有多種關鍵方法被提出。早期 DLMs 的發展主要受益于擴散模型在連續域(如圖像生成)的成功。連續型 DLMs 會將 token 映射到嵌入向量,在連續空間中進行去噪,如 Diffusion-LM [22] 與 SED [23]。離散型 DLMs 則直接在 token 空間定義擴散過程,早期方法如 D3PM [24] 引入了帶有吸收態(absorbing states)的結構化轉移矩陣,實現了 token 級的擾動與迭代去噪;后續工作如 DiffusionBERT [25] 則結合了預訓練掩碼語言模型(如 BERT)以提升去噪質量,并提出了定制化的噪聲調度策略(如 spindle schedule)以更好地匹配 token 擾動與詞頻分布。這些早期模型證明了將迭代去噪應用于非自回歸文本生成的可行性,并帶來了可控性與并行性,但其性能仍落后于強大的自回歸基線。隨著 DLMs 核心挑戰的逐步解決與范式的成熟,更大規模的 DLMs 得以構建。例如,通過從自回歸模型初始化,Dream [26] 與 DiffuLLaMA [27] 等 70 億參數級模型證明了 DLMs 可在利用已有模型的同時實現具競爭力的性能;LLaDA-8B [28] 更進一步展示了從零訓練 DLMs 的潛力,其性能可與同規模的 LLaMA3-8B 相媲美。多模態 DLMs(又稱擴散多模態大語言模型,dMLLMs)也展現了在混合數據(如文本與圖像)建模上的前景,基于開源 DLMs 的 LLaDA-V [29]、Dimple [30] 與 MMaDA [31] 等模型,將跨模態推理與生成融入擴散框架中。同時,業界也開始展現出對 DLMs 的濃厚興趣,如 Mercury 系列 [32] 與 Gemini Diffusion [33] 在報告中不僅取得了出色性能,還實現了每秒生成數千 token 的推理速度。這些進展凸顯了 DLMs 日益增長的實用性與商業潛力。
DLMs 在訓練與推理階段也呈現出獨特的挑戰與機遇。預訓練通常借鑒自回歸語言模型或圖像擴散模型的策略 [26], [30], [31];為加快訓練并復用已有成果,許多 DLMs 直接從預訓練的自回歸模型權重初始化 [26], [27]。在監督微調(SFT)階段,DLMs 與 AR 模型類似,通過干凈的提示數據學習生成目標補全。強化學習(RL)也被用于 DLMs 的后訓練階段,以提升復雜任務性能;在 GRPO [41] 算法基礎上,diffu-GRPO [42] 與 UniGRPO [31] 等變體被提出,以增強大規模 DLMs 的推理能力與對齊效果。在推理階段,連續型 DLMs 可利用 ODE/SDE 求解器或少步生成技術來加速迭代去噪過程 [43];針對離散型 DLMs 在并行生成方面的更多挑戰,已有專門的并行解碼策略 [30], [44], [45],以在單步中接受多個 token,克服并行瓶頸;解掩碼與再掩碼(unmasking/remasking)策略 [28], [46] 則通過有選擇地揭示低置信度 token 來提升生成質量;而緩存技術 [47], [48] 則可顯著減少計算量并提升推理速度,這對兩類 DLMs 都適用。 相較于自回歸模型,擴散語言模型普遍被認為具有以下優勢: * 并行生成:DLMs 可通過迭代去噪過程并行生成多個 token,大幅提升推理速度與吞吐量。 * 雙向上下文:DLMs 自然融合雙向上下文,能夠進行更細膩的語言理解與生成,并產生更豐富的上下文嵌入,這對于跨模態生成任務尤為有益,也支持對生成過程的精細化控制。 * 迭代精煉:迭代去噪過程允許 DLMs 在多個步驟中不斷更新生成結果。通過提前接受高置信度 token、保留低置信度區域為掩碼,掩碼式 DLMs 可逐步改進不確定部分,從而生成更連貫、更高質量的文本。 * 可控性:DLMs 可在特定 token 位置或結構上進行條件生成,適用于填空(infilling)和結構化生成等任務;此外,分類器自由引導(classifier-free guidance)等技術還能更好地控制生成風格與語義相關性。 * 跨模態統一建模:基于統一的去噪建模框架,DLMs 天然支持文本與視覺的聯合生成任務,這使其在需要生成與理解能力一體化的多模態應用中具有獨特潛力。
盡管近年來 DLMs 熱度迅速攀升,但尚缺乏一篇系統覆蓋整個 DLM 生態的全面綜述。我們在本綜述的結構安排如下:第 2 節對現代語言建模范式進行全面回顧,包括自回歸、掩碼式與基于擴散的方法;第 3 節深入探討 DLMs 的訓練方法,包括預訓練、監督微調(SFT)與強化學習(RL)對齊等技術;第 4 節介紹多種推理策略與優化方法,重點關注適用于連續與離散空間模型的技術;第 5 節探討擴散模型在多模態場景下的拓展,綜述 LLaDA-V [29]、MMaDA [31]、Dimple [30] 等前沿架構;第 6 節呈現并可視化 DLMs 的性能對比;第 7 節展示 DLMs 在文本生成、代碼生成、計算生物學等多種任務中的應用;第 8 節則討論 DLMs 面臨的挑戰與局限,包括效率、推理能力、智能體能力及基礎設施等問題,并展望未來的研究方向。為提供整體性概覽,我們在圖 3 中給出了 DLMs 的分類體系。
摘要——近年來,視覺-語言預訓練(Vision-Language Pretraining)作為一項融合視覺與文本模態優勢的變革性技術,催生了強大的視覺-語言模型(VLMs)。依托于網絡規模的預訓練數據,這些模型展現出卓越的零樣本推理能力。然而,在面對特定領域或專業任務時,其性能常常出現顯著下降。為解決該問題,研究社區日益關注如何將 VLM 中蘊含的豐富知識遷移或泛化到多樣的下游應用中。 本文旨在全面梳理 VLM 泛化的研究設定、方法體系、評測基準與實驗結果。我們首先分析典型的 VLM 架構,并依據遷移模塊的不同,將現有文獻劃分為基于 Prompt(提示)、基于參數、以及基于特征的方法三大類。隨后,結合經典遷移學習(Transfer Learning, TL)設定,進一步總結與探討各類方法的差異與特點,提出 VLM 時代下遷移學習的新解讀。此外,本文還系統介紹了主流 VLM 泛化評測基準,并對各類方法在不同任務中的表現進行了詳盡對比。
隨著大規模通用預訓練的不斷演進,本文也探討了視覺-語言模型與最新多模態大語言模型(Multimodal Large Language Models, MLLMs,如 DeepSeek-VL)之間的關聯與差異。通過從“泛化”這一全新且實用的視角系統梳理視覺-語言研究的快速進展,本文有助于清晰描繪當前與未來多模態研究的整體格局。 關鍵詞——視覺-語言模型,遷移學習,提示調優,魯棒微調,領域泛化,測試時自適應,無監督領域適應,多模態大語言模型
1 引言
深度神經網絡已在眾多實際應用中取得顯著成果。以視覺模型為例,從 AlexNet【1】到 ResNet【2】再到 Vision Transformer【3】,模型規模與表示能力都得到了極大提升。然而,高效訓練這些大規模模型往往需要大量標注數據與巨大的計算資源。為了解決這一問題,“基礎模型”(foundation model)的概念應運而生——即在大規模數據集上預訓練通用模型,以便將其知識遷移到各種下游任務中【4】。例如,預訓練于 ImageNet【5】上的 ResNet 系列已成為圖像分類【2】、目標識別【6】等視覺任務的重要基石。 自然語言處理領域也經歷了類似的發展,從 Transformer【7】、BERT【8】到 GPT-2【9】與 GPT-3【10】,均在各自的單模態任務中取得卓越表現,但它們本質上缺乏對多模態信息的感知與推理能力。 如圖 1 所示,對比式語言-圖像預訓練(contrastive language-image pretraining)范式的出現【11】徹底重塑了視覺-語言學習格局。Radford 等人提出的 CLIP【11】模型利用 4 億網頁爬取的圖文對進行對比學習:將語義匹配的圖文拉近、不匹配的拉遠,從而實現了跨任務的強大零樣本泛化能力,覆蓋圖像分類【11】、目標檢測【12】、視頻檢索【13】等任務。后續研究通過擴大與去噪預訓練數據集【14】【15】【16】、探索多樣的預訓練策略【17】【18】、引入多語言數據【19】【20】【21】,進一步增強了 VLM 的能力。 盡管 VLM 在通用任務上表現出色,但其預訓練知識在特定領域的下游任務上泛化能力有限。若無合適的遷移方式,預訓練的 VLM 往往難以處理分布外(OOD)數據,如遙感圖像【22】或精細類別圖像【23】【24】。傳統的“預訓練-微調”范式仍適用,但在 VLM 中直接微調可能破壞其對齊的視覺-語言表示,導致性能下降【25】【26】【27】。 因此,如何以盡可能低的計算與標注成本將 VLM 中的知識優雅地泛化至下游任務,已成為研究熱點。考慮到 VLM 的多模態特性,研究者們嘗試將單模態領域成熟的遷移策略,如 Prompt Tuning【28】、Adapter 插件【29】、知識蒸餾【30】,擴展應用于 VLM【26】【31】【32】【33】。借助其龐大的通識知識,VLM 正逐步成為“任務無關型”求解器,在無監督領域適應(UDA)【34】【35】【36】、領域泛化(DG)【37】【38】【39】、測試時自適應(TTA)【40】【41】【42】等遷移學習場景中設立了新基線。 面對這種趨勢,我們提出了關鍵問題:在 VLM 時代,知識遷移有何不同?
為此,本文對 VLM 的泛化能力展開系統文獻綜述。
研究動機與貢獻
現有綜述多聚焦于 VLM 的預訓練階段,如模型結構、預訓練目標與數據集【43】【44】【45】。雖然部分工作提及了遷移學習【43】,但其覆蓋面有限,尤其缺乏對不同遷移設定之間差異的探討。本文是首個專注于 VLM 遷移與泛化能力 的系統綜述。我們以主流的雙分支架構(如 CLIP【11】)為基礎,識別并歸類遷移的關鍵模塊,具體如下: 1. Prompt-based 方法:僅調節文本提示嵌入以控制模型行為【31】【32】【40】; 1. Parameter-based 方法:有策略地更新預訓練參數【46】【47】【48】,或通過知識蒸餾引入新參數【33】【38】【39】; 1. Feature-based 方法:對提取到的特征進行后處理,如引入可學習模塊【26】【35】或構建免訓練緩存機制【27】【41】【49】。
我們結合遷移學習研究中的經典設定【4】【50】【51】,重新審視這些 VLM 方法,并分析其在不同遷移設定中的特性差異。隨后,我們系統匯總了適用于各類遷移任務的主流基準數據集,并提供基于模型結構與方法設計的性能比較。
同時,本文還涵蓋了 VLM 與多模態大語言模型(MLLM)之間的融合。近年來,大語言模型(LLM)取得突破性進展【52】【53】【54】【55】,將對齊語言的視覺編碼器(如 CLIP)與 LLM 相連接,并以大規模多模態指令數據進行訓練,構建出視覺-語言大模型(MLLM)。這些模型在視頻理解、視覺問答、圖像字幕、分割與識別等任務中展現出強大的泛化能力【18】【56】【57】【58】。 作為另一類通用視覺-語言模型,本文對 MLLM 的基本構建框架、模型類型、使用的預訓練數據與目標,以及其在多任務中的表現進行全面總結,并呈現當前該領域的研究圖譜(如圖 3 所示)。
綜述貢獻總結如下:
系統回顧 VLM 泛化研究進展:涵蓋無監督領域適應、領域泛化、小樣本適應、測試時自適應等遷移學習任務;據我們所知,這是首個專注于 VLM 泛化的綜述工作。 1. 提出三類關鍵遷移方法分類:Prompt-based、Parameter-based 與 Feature-based,并在各類遷移設定下深入分析其技術細節與適用場景。 1. 收集主流評測基準并對比方法性能:從泛化設定、模型結構與設計角度出發,提供公平、系統的性能評估。 1. 引入并分析 MLLM 的發展與代表模型:總結其結構、組成模塊、泛化能力、訓練數據與目標,為理解視覺-語言研究的前沿進展提供參考。 1. 提出當前挑戰與未來方向:識別現階段研究瓶頸,并展望可行的研究路徑與潛力。
文章結構如下:
第 2 節介紹 VLM 相關基礎知識及所涉及的遷移學習設定; * 第 3 節討論 Prompt-based 方法,分為訓練時提示(3.1)與測試時提示(3.2); * 第 4 節介紹 Parameter-based 方法,包括參數微調(4.1)與知識蒸餾(4.2); * 第 5 節探討 Feature-based 方法,包括可學習適配器(5.1)與免訓練緩存機制(5.2); * 第 6 節總結主流基準與方法性能評估; * 第 7 節介紹現代 LLM 如何增強與泛化 VLM,構成 MLLM; * 第 8 節總結當前進展并討論未來的研究方向。
摘要
近年來,我們見證了通用模型在自然語言處理領域的巨大成功。通用模型是一種以海量數據進行訓練的通用框架,能夠同時處理多種下游任務。在其卓越性能的激勵下,越來越多的研究者開始探索將這類模型應用于計算機視覺任務。然而,視覺任務的輸入與輸出形式更加多樣化,難以將其歸納為統一的表示形式。本文對視覺通用模型進行了全面綜述,深入探討了其在該領域中的特性與能力。我們首先回顧了相關背景,包括數據集、任務類型以及評測基準。隨后,我們梳理了現有研究中提出的模型框架設計,并介紹了用于提升模型性能的關鍵技術。為了幫助研究者更好地理解該領域,我們還簡要探討了相關研究方向,揭示了它們之間的關聯性與潛在協同作用。最后,我們列舉了一些真實世界的應用場景,深入分析了當前尚存的挑戰,并對未來的研究方向提出了有益的見解。
關鍵詞:基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 1 引言
作為一種智能系統,人類大腦能夠從不同的輸入模態中感知信息,并能同時處理多種任務。類似于人類,在深度學習領域中,通用模型(generalist model)【Bae et al. (2022); Huang et al. (2023b); Jaegle et al. (2021a); Shukor et al. (2023)】是一種能夠在無需為特定任務進行定制設計的前提下處理多種任務的通用框架。近年來,得益于大數據的強大驅動,大語言模型(LLMs)【Devlin et al. (2018); Ouyang et al. (2022); Peters et al. (2018)】在自然語言處理(NLP)領域中展現了通用模型的巨大成功。 然而,與 NLP 不同,視覺任務的輸出格式更加多樣且復雜。例如,傳統的分類方法【He et al. (2016a); Russakovsky et al. (2015)】只需輸出圖像或點云的類別,而目標檢測模型則需進一步定位目標,其輸出為邊界框(bounding boxes)。分割模型則需生成像素級的語義掩碼。因此,對于視覺通用模型(Vision Generalist Models, VGM)【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】而言,設計一個能夠適配廣泛視覺下游任務的系統至關重要。 與傳統神經網絡相比,通用模型通常擁有數十億個參數,并以海量數據進行訓練,因而具備傳統方法所不具備的諸多優秀特性。具體而言,視覺通用模型具備以下優勢: 1)零樣本多任務遷移能力(Zero-shot Multi-task Transfer)
傳統方法往往為不同任務采用各自的任務特定框架,而多任務學習方法【Sener and Koltun (2018); Yu et al. (2020); Zhang and Yang (2021)】雖能同時處理多個任務,卻難以在未經微調的情況下泛化到新的數據集。而通用模型在以任務無關的大規模數據預訓練后,能夠學習到通用表征,可直接擴展至多種下游任務,并具備零樣本遷移能力,無需額外適配器進行微調,從而實現真正的通用感知(general perception)。 2)多模態輸入(Multimodality Inputs)
通用模型的一大特性是能夠接收來自不同模態的數據作為輸入。由于各模態間存在巨大差異,統一編碼為特征表示極具挑戰。例如,圖像為規則的二維矩陣,而點云則是無序的三維向量。這兩類數據所使用的編碼器也不同:分別為二維卷積與三維稀疏卷積【Graham et al. (2018); Yan et al. (2018)】。除了視覺信號,還需考慮文本、音頻等其他模態,這進一步增加了處理難度。得益于 Transformer 架構【Vaswani et al. (2017b)】,部分工作將多模態輸入統一為一系列 token 表示。 3)強大的表征能力(Great Representation Ability)
現有的通用模型往往擁有數十億個參數。盡管計算代價高昂,但龐大的參數規模顯著提升了模型的表征能力。多任務和多模態輸入之間能夠相互促進,進一步增強模型性能。 4)大數據的賦能(Power of Big Data)
大數據為模型訓練提供了豐富的知識。例如,ChatGPT【Ouyang et al. (2022)】使用約 45TB 的文本數據進行訓練。從不同模態和領域采集的大規模數據提升了樣本多樣性,從而增強了模型的泛化能力。大規模數據集【Chen et al. (2015); Krizhevsky et al. (2012)】涵蓋了眾多極端情況,有助于模型在復雜場景中穩定工作。 盡管視覺通用模型優勢顯著,但仍面臨若干挑戰: 1)框架設計(Framework Design)
通用模型的核心技術在于如何設計一個能夠統一處理多種下游任務的框架。雖然已有一些工作【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】嘗試解決這一問題,但目前尚未形成標準化的流程。因此,建立統一的視覺通用模型范式仍是當前最亟需解決的挑戰。 2)數據獲取(Data Acquisition)
通用模型的訓練依賴于海量數據。在 NLP 領域,大量帶標簽的文本數據可從網頁中獲取;而在計算機視覺中,網絡上的大多數視覺數據并未標注,獲取標簽代價高昂且耗時。有些研究【Kirillov et al. (2023b); Ouyang et al. (2022)】提出了針對特定任務的數據自動標注方法,但如何針對不同任務與模態實現自動化標注仍是一個尚未深入探索的問題。 3)倫理風險(Ethical Risks)
與大語言模型類似,視覺通用模型也面臨倫理風險。在生成任務中,模型可能產生包含個人或敏感信息的內容,例如深度偽造視頻【Güera and Delp (2018); Westerlund (2019)】;在判別任務中,訓練數據中的無意識偏見可能會影響模型判斷;此外,不當或非法數據的使用還可能引發法律問題。 在過去兩年中,我們已見證通用模型在多個深度學習方向中的成功。隨著神經網絡架構的不斷發展,越來越多的研究致力于構建能夠實現通用感知的模型。盡管通用模型已引發廣泛關注,但尚缺乏一篇系統性綜述來全面總結這一熱門方向,因此我們撰寫了本文。 本綜述的主要目的包括: 1. 對相關研究文獻進行系統梳理,幫助研究者快速入門; 1. 總結現有方法的局限與挑戰,并指出未來可能的研究方向; 1. 理清視覺通用模型與其他相關領域的聯系與差異。
在相關工作方面,Awais 等人(2023)提供了一份關于視覺基礎模型的綜述。盡管視覺基礎模型與通用模型同樣是在大規模數據上進行訓練,并能接收多模態輸入,但通用模型還具備處理多任務的強泛化能力,而基礎模型在適應下游任務時通常需要針對特定數據集進行微調,限制了其實用性。因此,我們的綜述與 Awais 等人的工作在概念上存在顯著差異,我們更加專注于總結通用模態感知與通用任務處理能力。 相比之下,另一篇綜述【Li et al. (2023b)】從更宏觀的視角出發,探討了多模態基礎模型的分類與演進,包括統一視覺模型、大語言模型及其在多模態智能體中的應用。而本文則更聚焦于視覺通用模型(VGM)這一子領域,深入剖析其框架設計與關鍵技術。 我們將本文組織為六個部分,以系統梳理視覺通用模型的發展,如圖 1 所示: * 第2節:介紹 VGM 常用的任務類型、數據集與評測基準; * 第3節:深入分析 VGM 的框架設計,包括編碼器驅動方法與序列到序列框架; * 第4節:總結應對多領域輸入、模型設計和多任務輸出的關鍵技術; * 第5節:探討 VGM 與相關領域的聯系,尤其是多任務學習、視覺-語言學習與開放詞表學習; * 第6節:展示 VGM 的真實應用場景,并討論其面臨的挑戰與未來發展方向。
我們希望本綜述能為研究者和從業者提供一份關于視覺通用模型的系統性參考資料,助力其在這一快速發展的研究領域中取得突破。
摘要 — 多模態大型語言模型(MLLMs)近年來已成為人工智能研究領域的熱點。依托大型語言模型(LLMs)的強大能力,MLLMs 在處理復雜的多模態任務方面展現出卓越性能。隨著 GPT-4 的發布,MLLMs 引發了來自多個領域的廣泛關注。研究人員已開始探索 MLLMs 在醫學與醫療健康領域的潛力。本文首先介紹了與 LLMs 和 MLLMs 相關的背景與基本概念,重點闡述了 MLLMs 的工作原理。隨后,我們總結了 MLLMs 在醫療健康中的三大主要應用方向:醫學報告生成、疾病診斷與醫療治療。我們的研究基于對該領域 330 篇最新文獻的系統性回顧,并通過具體示例展示了 MLLMs 在上述領域中的強大能力。在數據方面,我們總結了六種主流數據模態及其相應的評估基準。最后,本文討論了 MLLMs 在醫學與醫療健康領域面臨的主要挑戰,并提出了相應的緩解策略與解決方法。 關鍵詞 — 綜述,大型語言模型,多模態大型語言模型,醫學,醫療健康,臨床應用
語言模型在自然語言處理(NLP)任務中發揮著重要作用。通過理解和生成文本,這些模型能夠執行多種語言相關任務,如文本抽取、情感分析等。在語言模型的發展過程中,谷歌于2017年提出的 Transformer 架構是一個重要的里程碑 [1]。該架構是一種依賴于自注意力機制的深度學習模型,通過并行計算提升了處理效率。模型為輸入的不同部分分配不同的注意力權重,從而增強了其對文本語義的理解能力。隨著 Transformer 的發布,模型的規模和參數數量不斷擴大,標志著大型語言模型(LLMs)時代的到來。 在此背景下,一系列 LLMs 被相繼提出。其中,基于 Transformer 構建的 BERT 模型 [2],通過掩碼語言建模(Masked Language Modeling)和下一句預測(Next Sentence Prediction)等預訓練任務,能夠有效理解上下文語義。此外,一些開源的 LLMs,如 Flan-T5 [3]、Vicuna [4] 和 LLaMA [5],也在該領域取得了顯著進展,推動了 LLMs 的發展。 在醫學健康領域,LLMs 被應用于提升醫療工作的質量。它們在生成基于電子健康記錄(EHR)、病程記錄、醫患對話等醫療文本的簡潔準確報告等特定任務中發揮了關鍵作用。盡管醫學領域涉及文本、圖像、視頻、音頻、組學數據等多種模態,如何高效利用并恰當地融合這些多模態數據,已成為應對復雜醫療任務的發展趨勢。 近年來,基于 LLMs 并能夠處理多模態任務的多模態大型語言模型(MLLMs)進入公眾視野。目前大多數 MLLMs 擁有相似的結構,它們以 LLMs 為核心,在輸入端引入編碼器,在輸出端結合擴散生成模型。為了解決多模態任務而設計的某些模塊也不斷被優化,例如 CLIP [6]、BLIP [7]、BLIP-2 [8],以及適用于少樣本學習的 Flamingo [9]。為了處理多模態醫學數據,MLLMs 被逐步引入醫學領域。例如,MLLMs 主要被應用于醫學圖文任務,如基于圖像數據(如 CT 掃描)和文本知識生成診斷報告等。 然而,由于準確性不穩定以及專業性存疑,醫學界仍對 MLLMs 是否能夠勝任臨床應用持保留態度。我們認為,為了在臨床醫療中實現 MLLMs 的有效部署,這些模型應滿足專業化需求。通過我們的調研,我們總結了 MLLMs 在醫學應用中需要滿足的一些基本要求,包括但不限于專業性、準確性、幻覺(hallucination)控制、公平性等多個方面,同時也介紹了相應的評估基準。 基于醫學界的關注點與上述要求,我們進一步總結了 MLLMs 在醫療健康背景下面臨的一系列挑戰。為應對這些問題,已有部分可行性研究成果被提出。通過優化評估基準、持續攻克挑戰,我們對 MLLMs 在臨床場景中的應用前景持樂觀態度。
語言模型能夠理解并生成自然語言。其發展大致可分為四個階段:統計語言模型(SLM)、神經語言模型(NLM)、預訓練語言模型(PLM)以及大型語言模型(LLM)。各階段的代表性模型如圖 1 所示。 大型語言模型依托大規模數據集的預訓練和 Transformer 架構,在多個任務中表現出色。以 GPT 系列和 LLaMA 為代表的模型,都采用 Transformer 作為核心結構。Transformer 中的自注意力機制和并行計算能力,使其能高效處理長文本序列,從而支持對大規模數據的處理,并實現模型參數的大幅擴展。這種結構化的模型設計不僅促進了模型的深度學習能力,也顯著提升了其在文本生成、翻譯、復雜問答等多種任務中的適用性。
為應對不斷擴展的數據模態(如文本、圖像、音頻等),多模態大型語言模型(MLLMs)成為人工智能研究的熱點。借助多模態數據,模型可以更全面地理解并完成任務。MLLMs 主要由處理文本數據的大型語言模型(LLM)和處理其他模態數據的編碼器組成。在 LLM 的編碼器與其他模態之間,通常設置一個對齊模塊,用于將文本輸入與其他模態輸入對齊至統一的特征空間。 根據具體任務需求,靈活選取合適的預訓練 LLM 和模態編碼器,MLLMs 已在多個領域取得顯著突破。本節將介紹 MLLMs 的主要組成部分,以及一些經典的預訓練任務。 在構建應用模型時,通常可根據特定需求靈活組合多種預訓練任務。例如,在醫療健康領域,Med-MLLM [25] 是一個面向未來疫情的醫學多模態大型語言模型,旨在實現 COVID-19 的報告、診斷和預后分析。該模型在預訓練階段采用了三層級的任務設計。 首先,在圖像模塊的訓練中,模型采用了對比學習方法。具體做法包括對來自同一患者的不同類型醫學影像(如胸部 X 光和 CT 圖像)進行對比訓練,結合圖像增強和正則化技術,最小化來自同一患者的圖像之間的損失,從而提升模型對個體生理特征的理解能力。 其次,在語言模塊方面,模型采用了典型的文本預訓練任務,如掩碼語言建模(MLM)、句子重構、以及結果-印象對齊任務,以增強模型在文本理解和生成方面的能力。 最后,在圖文多模態預訓練方面,方法借鑒了類似于 CLIP 的圖文對比學習策略,并進一步融合 UMLS [26] 知識庫和預設目標,從而提升模型對醫學知識的整合能力。 通過上述三個方面的預訓練,Med-MLLM 能夠有效應對多種任務,包括 COVID-19 報告生成(即醫學報告生成)、疾病診斷(即疾病分類)及預后預測(即結果預測)。
通過利用醫學圖像、文本病歷、醫學教材和音頻等多種模態的醫療數據,多模態大型語言模型(MLLMs)能夠全面理解任務需求,從而高效執行醫學任務,如圖 2 所示。 本章將介紹 MLLMs 在醫療健康領域的主要應用,包括醫學報告生成、臨床溝通與指導、以及手術輔助等方面。
醫學報告有助于醫生進行診斷和制定治療方案,同時也是傳遞醫療信息的重要載體,使醫護人員能夠追蹤疾病進展。每天都需要有經驗的放射科醫生或專家撰寫大量醫學報告,這不僅耗費大量時間和人力資源,還容易因人為失誤而出現報告內容錯誤,從而導致誤診或治療延誤。因此,借助人工智能技術高效生成準確的醫學報告成為一個具有前景的研究方向。 大量研究表明,通過在醫療數據上微調訓練,LLMs 在處理醫學文本方面表現出強大能力 [27], [28], [29]。借助該能力,LLMs 可以與多模態模塊協同,根據不同模態的數據生成醫學報告。 目前的主流方法是使用 MLLMs 生成醫學報告。其基本思路是以醫學圖像(如 X 光 [30]、CT [31], [32]、MRI [33],甚至三維掃描圖像 [34])為輸入,并結合對應的圖像描述文本,構建圖文對,作為訓練 MLLMs 的輸入。例如,X-ray GPT 將 X 光圖像輸入一個凍結的視覺編碼器以提取圖像特征,隨后通過可學習的線性轉換層進行對齊,將圖像特征與文本對齊,再輸入基于 Vicuna 且在醫學數據上微調過的 LLM。最后,通過如“請說明該 X 光片的主要發現與印象”等提示語引導模型生成文本描述,從而實現有效的圖文理解與文本生成。 預訓練階段對于醫學報告生成模型至關重要,其效果決定了模型對圖像和文本數據的利用效率。研究表明,盡管臨床報告通常遵循“發現-印象”格式,但其結構混亂、不規范 [35],且包含大量冗余信息,不利于模型訓練。當前一些研究提出了通過標準化或重構文本格式來幫助模型聚焦核心內容的方法 [19], [35]。例如,MedKLIP [36] 使用三元組提取模塊將圖像描述壓縮為“外觀-位置-存在”三要素,減少理解負擔。 目前 MLLMs 生成報告時大多偏重“印象”部分,缺乏深度推理能力,導致部分模型雖在基準測試上表現優異,但在真實臨床應用中表現較差 [37]。為提升模型推理能力,有研究提出應使用包含完整推理過程的文本進行訓練 [38], [39],如符合“發現-印象”結構的報告。 應注意,醫學報告不同于一般文本生成任務,其具備嚴格的邏輯結構,通常由詳細觀察與對應總結組成 [40],并需滿足醫學術語的標準化要求。可通過引入句子重構(SR)[25]、掩碼語言建模(MLM)等任務,使模型學習專家書寫風格。此外,為處理如“cardiomegaly”被錯誤拆分為“card-io-me-gal-y”等問題,可構建特定醫學詞典并定期更新 [42]。 MLLMs 也可輔助完成前置任務,如記錄與總結醫生的口述內容 [43], [44],從而減輕工作壓力。在醫學影像方面,MLLMs 可應用于圖像分割,聚焦關鍵區域并執行基于弱監督的操作指令 [45], [46]。
近年來,聊天機器人在多個領域獲得廣泛關注,尤其在醫療健康領域展現出廣闊前景。早期研究主要基于單一模態(如文本)訓練聊天模型,借助醫生-患者對話數據 [18], [80] 和醫學 VQA 數據 [17] 微調模型,取得了良好效果。 隨著具備多模態能力的 MLLMs 的快速發展,聊天機器人能夠處理圖像、視頻等模態輸入。例如,SkinGPT4 [24] 在大量皮膚數據上微調后,可提供專業皮膚病建議;LLaVA-Med [22] 可處理醫學圖像,執行 X 光、CT、MRI 等影像的 VQA 任務,并在多個閉源醫學 VQA 數據集上實現 SOTA 性能。 盡管這些模型在數據集和評估基準上表現優異,但對“印象”的依賴可能削弱其推理能力,導致臨床表現不佳 [81]。 此外,研究表明,人們仍傾向于從人類那里獲得醫療服務,主要原因是互動性與親和力 [82], [83]。對患者而言,被理解和共情與診斷準確性同樣重要。現代快節奏生活和社交媒體的普及也使心理服務需求顯著上升 [84], [85]。在心理治療中,專家與患者之間的交流具有重要療效 [86]。基于此,聊天機器人在心理咨詢中表現出潛力 [87], [88],有助于緩解醫療資源壓力、降低成本。由于患者在無羞恥感的環境中更易表達,機器人在某些場景下甚至優于人類 [89], [90]。 已有多個基于 LLM 的心理咨詢機器人被提出 [91], [92], [93],其主要關注患者話語中的情緒、合作程度、溝通習慣等特征,使模型能通過提問、安慰、肯定、傾聽、信任等方式展現同理心,并結合相關基準進行評估與優化 [94], [95]。然而,僅依賴文本仍有局限。例如,“That’s great”一句在不同面部表情或語調下可傳達完全不同的情緒,如翻白眼或諷刺語調。因此,MLLMs 被引入以提取面部動作、肢體語言、眼動、語音節奏與語調,全面分析患者狀態 [96], [97],實現類面對面的診療效果,從而緩解“缺乏共情”的問題 [91]。 醫療健康領域的聊天機器人具備及時性、低成本、高效率等特性,符合現代醫療體系的追求。在相關立法與質量監管完善后,其普及前景廣闊 [98]。
由于患者缺乏醫學知識,往往需要醫生或專家進行手術說明和分析。即使是經驗不足的醫生,也需咨詢資深專家。但高級專家每日任務繁重,難以面面俱到。為緩解這一問題,計算機技術已被引入手術輔助中 [99], [100],但仍需專家解答臨床問題。 近年來,部分 MLLMs 被提出用于手術場景中,輔助甚至替代專家工作。例如,通過引入 Surgery VQA 數據 [101] 并在手術視頻數據上訓練 MLLMs,使模型能回答手術相關問題 [74], [102]。SurgicalGPT [103] 將 GPT 與視覺編碼器結合,在腎臟內窺鏡圖像上微調,在多個手術 VQA 數據集(EndoVis18-VQA、Cholec80-VQA、PSI-AVA-VQA)上取得 SOTA 性能。 現有手術 VQA MLLMs 多聚焦于病灶相關區域,常忽略背景信息,導致對手術流程理解片面,進而引發誤判 [104]。考慮到手術動作、工具使用等因素可能蘊含背景知識,引導模型全面理解手術過程是提升模型準確性的關鍵 [105], [106]。未來可進一步擴展手術模型使用的數據種類,如種族、地域、EHR 與病史等,以提升模型泛化能力。 此外,借助醫學報告生成的成果(見 3.1 節),MLLMs 也被用于生成手術過程分析與總結報告 [107], [108],為后續手術提供決策支持。 由于臨床手術容不得錯誤,模型的響應與建議必須達到極高水準。盡管部分模型在封閉數據集上表現出色,距離真正的臨床部署仍有較長距離。同時應明確立法責任。目前除內窺鏡數據外,其他手術數據尚不足,擴展數據種類是實現手術 MLLMs 廣泛應用的前提。
在本章中,我們將探討醫療健康領域中多模態數據的多種類型,如圖 3 所示。我們將分析不同結構、類型與類別的數據如何增強模型執行多樣任務的能力,并促進其在專業層面的表現。我們在表 2 和表 3 中整理了跨模態醫學數據集的多種形式,用于訓練目的。此外,我們還將在表 4 中列舉并介紹用于訓練多模態大型語言模型的現有數據集,以及在表 5 中列出用于訓練傳統大型語言模型的數據集。 然而,出于對隱私與安全的擔憂,數據采集過程面臨諸多挑戰,導致醫學多模態大型語言模型所需的數據相對匱乏。為應對這一問題,我們將從兩個角度探討有效的解決方案:模型優化 和 數據增強。
與常規的 MLLMs 不同,醫學領域的 MLLMs 被要求具備嚴格的專業性。簡而言之,醫學 MLLMs 應當擁有與專業醫生相當的領域知識。目前仍可明顯觀察到,AI 的專業化程度尚不及人類專家 [147], [148]。為了滿足臨床應用與專業標準,將模型性能對齊至真實專家的能力是一種可行路徑。 掌握精準的醫學知識是提供醫療服務的基礎。醫學知識通常以文本為載體,通過使用特定的醫學文本與多模態數據對模型進行微調,MLLMs 能夠有效學習并應用這些知識。 在第 3 章中,我們已介紹幫助模型獲取醫學能力的常規方法。除了使用合適的數據格式和內容外,從臨床記錄與報告中構建專業醫學詞典,也有助于模型識別罕見醫學術語,提取關鍵醫學信息 [149], [150],這一點在處理罕見疾病時尤為重要 [151]。 評估方法: 可從多個維度評估 MLLMs 的專業性。通常,模型生成的醫學報告或對話響應能提供有價值的反饋。 從表達形式來看,模型的語言應接近醫學專家的表達方式。通過將模型生成的文本與臨床文本比較,評估其在詞匯、語義、結構和信息突顯度方面的相似度,常用自然語言生成的評估指標 [152–155] 可用于衡量這些維度。通過優化這些評估指標,模型的表達可更符合專業化標準。 除了語言表達,還需關注內容的邏輯性與精確性,這是衡量專業性的核心。評估需涵蓋準確性、細節、特征、邏輯等多個方面,通常通過人工或 AI 方式進行。 * 人工評估: 由專家根據多個維度(如描述準確性、細節豐富性、整體特征考慮、實際應用價值)打分 [19], [156], [157]。 * 自動評估: 包括兩類:① 模型直接執行具有評估屬性的任務;② 使用 AI 模擬專家對模型輸出進行打分 [38], [161]。
例如,美國醫學執照考試(USMLE)常用于評估 GPT 系列、Med-PaLM 等模型 [158–160]。盡管 GPT-4 和 Med-PaLM 準確率已超 86%,接近人類專家水平 [158],但在臨床場景中表現仍不穩定,因其推理能力薄弱、過度依賴記憶 [38]。 使用 AI 進行自動評分的方法類似于人工評估,例如讓 Gemini-Pro 與 GPT-4 扮演醫學專家角色,對模型輸出進行維度化評分 [161],如圖 9 所示。
醫學 MLLMs 的輸出仍受到醫療領域的質疑。除了準確性外,生成信息的可信度是評估模型的關鍵。幻覺(hallucination)指模型生成看似合理但實際上錯誤或虛假的內容 [162–165],這在醫學中可能導致嚴重后果。 造成幻覺的原因包括:指令質量差、訓練數據不足,或醫療數據更新太快,模型依賴記憶而非推理 [166–167]。 解決方案包括:
利用高質量的醫學數據; * 采用專業教材作為唯一生成來源 [168]; * 設計自檢結構,自我糾錯 [169–170]。
在 MLLMs 中,幻覺問題更復雜:
數據不足會導致多模態信息無法正確對齊,產生誤解; * 錯誤識別圖像對象是常見誘因 [173–174]; * 模型過度依賴語言模型固有知識,忽視圖像信息 [175]。
研究歸納出三類圖像幻覺:
類型幻覺; 屬性幻覺; 關系幻覺(如共現、反事實、虛構關系)[175–176]。
原因包括:視覺編碼器參數不足、圖像分辨率不夠、模型未能聚焦關鍵區域 [177–179]。可以通過圖像分割、邊界引導等方式提升模型對圖像細節的關注度 [175]。 評估方法:
將幻覺相關問題轉化為二值判定任務,通過分析模型回答判斷是否存在幻覺 [182–184]。 盡管 MLLMs 具有作為醫學教育與研究信息源的潛力,但其發揮作用的前提是:高質量監督與嚴格質量控制。
模型的準確性和專業性也會受到偏見問題的威脅,包括種族、社會角色、地域等方面。MLLMs 多基于網絡數據訓練,這些數據中可能包含主流偏見。 例如,[185] 指出模型對白人群體預測更高治療費用與住院時間。在高預期生存率的醫療情境中,模型會表現出過于樂觀的預估。研究發現模型可能因刻板印象降低少數族群的治療比例 [186]。 數據集中長期聚焦特定人群會導致數據不穩定,產生偏見。例如,未被醫保覆蓋的弱勢群體在模型預測中效果極差 [188],[25] 也指出不同地區族群在交叉驗證中表現不佳。 解決方法包括:
數據層面:過濾與均衡主導類別樣本,或通過反事實數據與欠采樣重構數據分布 [180, 189]; * 訓練策略:使用 RLHF(基于人類反饋的強化學習)提升模型對人類價值的對齊程度 [190]; * 增強同理心,使模型更具人文關懷 [191]。
評估方法:
構建結合患者信息與經典任務(如問答、報告生成)的評估體系。例如: * Harvard-FairVLMed [192]:將種族、性別等元數據整合進問答任務; * FMBench:基于 Harvard-FairVLMed 擴展,加入多種人口特征,評估模型在多樣化人群下的響應表現。
摘要——理解和復現真實世界是人工通用智能(AGI)研究中的關鍵挑戰。為實現這一目標,許多現有方法(如世界模型)試圖捕捉物理世界的基本規律,以實現更精確的模擬和更有意義的交互。然而,當前的方法通常將不同模態(包括2D圖像、視頻、3D和4D表示)視為獨立的領域,而忽略了它們之間的相互關聯。此外,這些方法通常僅關注現實世界的某個孤立維度,而未能系統性地整合它們的聯系。因此,在本綜述中,我們提出了一個統一的多模態生成模型綜述,研究數據維度在真實世界模擬中的演進過程。具體而言,我們從2D生成(外觀)出發,擴展到視頻生成(外觀+動態)和3D生成(外觀+幾何),最終達到整合所有維度的4D生成。據我們所知,這是首次嘗試在單一框架內系統性地統一2D、視頻、3D和4D生成的研究。為引導未來研究,我們提供了對數據集、評測指標和未來方向的全面回顧,并為初學者提供深入見解。本綜述旨在作為一座橋梁,推動多模態生成模型與真實世界模擬在統一框架下的發展。 索引詞——生成模型,圖像生成,視頻生成,3D生成,4D生成,深度學習,文獻綜述
【2 基礎知識】 本部分對深度生成模型的基本原理做了簡要回顧。論文中介紹的各類生成模型都旨在通過深度神經網絡近似真實數據的分布。文中詳細討論了幾種主流模型:
──────────────────────────── 【3 各范式下的真實世界模擬】 論文按照數據維度的增長,系統地將真實世界模擬劃分為四個層次,即二維生成、視頻生成、三維生成和四維生成,每個層次均著眼于不同的屬性建模。 【3.1 二維生成】 在二維生成部分,重點討論了文本到圖像的生成技術。利用擴散模型、預訓練語言模型及自編碼器等技術,現有方法已能夠從文本描述中生成高質量、語義準確的圖像。論文中詳細介紹了Imagen、DALL-E、DeepFloyd IF、Stable Diffusion及其擴展版本(如SDXL和FLUX.1)等模型,這些模型通過多階段生成、跨模態編碼以及高效的降噪技術,在圖像外觀建模方面取得了顯著成效。
【3.2 視頻生成】 視頻生成技術在二維圖像生成的基礎上增加了時間維度,面臨更高的時空一致性要求。論文將當前視頻生成方法歸納為基于變分自編碼器與對抗生成網絡、基于擴散模型以及自回歸模型三大類:
【3.3 三維生成】 三維生成部分主要關注對物體幾何和外觀信息的全面建模。論文首先討論了三維數據表示方式,分為明確表示(如點云、體素網格、網格模型和三維高斯分布)、隱式表示(通過連續函數描述物體表面,如符號距離函數與神經輻射場)以及混合表示(結合前兩者優點,通過混合體素或基于四面體網格等方法實現高效表達)。在算法層面,論文介紹了文本到三維生成、圖像到三維生成以及視頻到三維生成三種任務。 (1)在文本到三維生成中,有兩大類方法:一種是前向傳播方法,直接從文本編碼中得到緊湊的三維表示;另一類是基于優化的方法,通過利用文本到圖像的預訓練模型產生中間視角,再借助擴散模型或其他損失函數進行三維結構的精細化優化。 (2)圖像到三維生成主要利用已有圖像數據,通過編碼壓縮網絡和生成模型得到符合輸入圖像特征的三維資產; (3)視頻到三維生成則利用視頻中的多視角信息,通過時空一致性訓練,生成既具有細節又滿足多視角約束的三維結構。論文中對各類方法的優缺點進行了詳細比較,并討論了如何利用大規模三維數據集以及多視角預訓練模型來提高三維生成的精度和一致性。
【3.4 四維生成】 四維生成則是在三維生成的基礎上進一步引入時間維度,用以描述動態場景的演變。此部分面臨空間連續性和時間一致性的雙重挑戰。論文介紹了四維數據表示方法,包括基于靜態三維表示擴展時間信息、采用時空分解與哈希映射等技術以降低重建單個場景的計算成本。當前,四維生成主要分為兩類方法:
──────────────────────────── 【4 數據集與評測指標】 論文還對真實世界模擬中常用的數據集與評測指標做了綜述。針對二維、視頻、三維和四維生成,不同任務所采用的數據集具有各自特點,如大規模圖文數據集、視頻編輯數據集以及用于三維重建和視角合成的專用數據集。同時,評測指標不僅包括圖像質量、視頻時空連貫性,還涵蓋三維模型的幾何精度、表面細節以及多視角一致性等多個方面。對這些指標的詳細比較和應用場景的討論為后續研究提供了重要參考。 ──────────────────────────── 【5 未來方向與挑戰】 盡管當前多模態生成模型在模擬真實世界方面已取得顯著進展,但論文仍指出存在若干開放性挑戰: 一是如何在保證生成內容高保真和細節豐富的前提下進一步提高生成速度與計算效率; 二是如何在多模態、多維度之間建立更加緊密的聯系,克服單一維度模型帶來的局限; 三是如何借助更大規模、更高質量的數據集,推動文本、圖像、視頻到三維乃至四維生成方法的統一與協同; 此外,在應用層面,如虛擬現實、自動駕駛、機器人等場景中對生成模型的魯棒性、實時性以及交互性提出了更高要求,這些均為未來研究的重要方向。 ──────────────────────────── 【6 結論】 本文系統性地綜述了多模態生成模型在真實世界模擬中的研究進展,詳細討論了從二維到四維生成的各個技術范式。通過對比傳統圖形學方法與基于深度學習的生成模型,論文不僅明確了當前各類方法的優勢和局限,也為未來研究指明了方向。總體來說,本綜述為研究人員提供了一個統一的視角,幫助大家在跨模態、跨維度的真實世界模擬領域進行更深入的探討和創新。
摘要—大型語言模型(LLMs)在廣泛的任務中展現出了卓越的能力,但在專業領域的應用仍面臨挑戰,主要原因在于需要深厚的領域專業知識。檢索增強生成(RAG)作為一種有前景的解決方案,通過無縫集成外部知識庫,使大型語言模型能夠在推理過程中實時訪問領域特定的專業知識,從而實現定制化。然而,傳統基于平面文本檢索的RAG系統面臨三個關鍵挑戰:(i)專業領域中復雜的查詢理解,(ii)跨分布式源的知識整合困難,和(iii)大規模下的系統效率瓶頸。本綜述提出了一種系統性的分析,重點討論了基于圖的檢索增強生成(GraphRAG),這是一種通過圖結構革命性地改變領域特定大型語言模型應用的新范式。GraphRAG通過三項關鍵創新解決了傳統RAG的局限性:(i)圖結構的知識表示,顯式捕捉實體關系和領域層次,(ii)高效的基于圖的檢索技術,支持多跳推理的上下文保持型知識檢索,和(iii)結構感知的知識整合算法,通過利用檢索到的知識進行準確且邏輯連貫的LLM生成。本文對GraphRAG的技術基礎進行了系統分析,并考察了在多個專業領域中的現有實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在//github.com/DEEP-PolyU/Awesome-GraphRAG供社區使用。
關鍵詞—檢索增強生成,知識圖譜,大型語言模型,GraphRAG
I. 引言
大型語言模型(LLMs),如GPT系列 [1],憑借其在廣泛任務中的卓越能力,令世界為之一驚,在文本理解 [2]、問答 [3] 和內容生成 [4]–[6] 等領域取得了突破性進展。然而,盡管LLMs在許多任務上表現出色,它們在處理需要領域專業知識的知識密集型任務時仍面臨批評 [7]。具體而言,LLMs在專業領域中的應用仍然面臨三大挑戰: ? 知識局限性:LLMs的預訓練知識廣泛,但在專業領域中較為淺薄。它們的訓練數據主要來自通用領域內容,導致在專業領域的知識深度不足,并且可能與當前的領域特定標準和實踐存在不一致。 ? 推理復雜性:專業領域要求精確的多步驟推理,涉及領域特定的規則和約束。LLMs往往難以在擴展的推理鏈中保持邏輯一致性和專業準確性,尤其是在處理技術約束或領域特定協議時。 ? 上下文敏感性:專業領域通常涉及依賴于上下文的解釋,相同的術語或概念在特定情況下可能具有不同的含義或影響。LLMs往往無法捕捉這些細微的上下文差異,導致潛在的誤解或不當概括。 為了將LLMs適配到特定或私有領域,最初的策略是通過使用專業數據集對LLMs進行微調 [8]。這種方法通過增加有限的參數并固定預訓練中學習到的參數來提高性能 [9]。然而,領域特定數據集與預訓練語料庫之間的顯著分布差距使得LLMs在不妥協現有理解的情況下整合新知識變得困難 [10]。谷歌研究的一項最新研究進一步突出了使用監督微調更新知識的風險,特別是在新知識與已有信息沖突時;通過監督微調獲取新知識可能導致模型生成新的幻覺,甚至遭遇嚴重的災難性遺忘 [11]。 檢索增強生成(RAG) 提供了一個有前景的解決方案來定制LLMs以適應特定領域 [12]。RAG并不是通過重新訓練LLMs來整合更新,而是通過利用外部知識庫增強這些模型,無需修改其架構或參數。這種方法使LLMs不僅能利用其預訓練知識,還能實時檢索領域特定信息,從而生成更加準確和可靠的回答。傳統的RAG系統通過三個關鍵步驟進行操作:知識準備、檢索和整合。在知識準備階段,外部資源(如文檔、數據庫或網頁)被分割成可管理的文本塊,并轉換為向量表示以便高效索引。在檢索階段,當用戶提交查詢時,系統通過關鍵詞匹配或向量相似度度量來搜索相關的文本塊。整合階段將這些檢索到的文本塊與原始查詢結合,以生成用于LLM響應的知情提示。近年來,一些先進的RAG系統已經超越了簡單的文本塊檢索,提供了更為復雜的知識增強方法。這些方法包括:通過多級檢索保持文檔結構的層次化RAG [13][14],實施兩階段檢索以提高召回率和精確度的重排序系統 [15][16],自動分解復雜查詢的自查詢RAG [17],以及根據查詢類型動態調整檢索策略的自適應RAG [18][19]。這些先進的RAG系統通過提升上下文感知能力、檢索準確性,并更有效地處理復雜查詢,旨在克服傳統RAG方法的局限性。 RAG的出現為定制LLMs提供了一個有前景的方法,但盡管如此,RAG仍面臨若干關鍵限制,影響其在實際應用中的效果。這些限制可大致分為四個主要挑戰,顯著影響RAG增強的LLMs的性能和實用性。主要挑戰在于復雜查詢理解。專業領域通常涉及復雜的術語和行業特定的行話,需要精確的解釋 [20]。這些領域中的用戶查詢通常包含大量技術性術語和行業特有的表達,解決方案往往需要跨多個相關概念進行推理。傳統的RAG方法依賴于簡單的關鍵詞匹配和向量相似度技術,這些方法無法有效捕捉準確和全面的深層語義差異和多步驟推理過程 [21]。例如,當詢問概念A與概念D之間的關系時,這些系統通常只檢索直接相關的信息,而忽略了可能橋接這一關系的關鍵中介概念,如B和C。這種狹隘的檢索范圍限制了RAG對廣泛上下文理解和復雜推理的能力。 另一個關鍵挑戰是從分布式來源整合領域知識。領域知識通常來自不同的資源,如教科書、研究論文、行業報告、技術手冊和維護日志。這些文本文檔可能具有不同的質量、準確性和完整性。檢索到的知識通常是平坦的、廣泛的且復雜的,而領域概念通常分散在多個文檔中,且不同概念之間缺乏清晰的層次關系 [7][22][23]。盡管RAG系統通過將文檔分割成較小的塊以便高效索引來管理這種復雜性,但這種方法不經意間犧牲了重要的上下文信息,顯著妥協了檢索準確性和上下文理解能力。這一限制妨礙了在相關知識點之間建立穩固聯系,導致理解片面,進而降低了領域專業知識的利用效果。 第三個限制來自LLMs固有的限制。盡管RAG系統可以從龐大的知識庫中檢索相關信息,但LLM處理這些信息的能力受限于其固定的上下文窗口(通常為2K-32K個token) [1][24]。復雜文檔中的長程依賴關系無法完全捕捉,因為超出上下文窗口的內容必須被截斷或總結,這會打斷自然的語義單元和邏輯流程。在專業領域中,保持跨廣泛知識背景的一致性變得更加棘手,因為在上下文窗口截斷過程中,關鍵信息可能會丟失。這一固有限制直接影響了系統從大規模知識庫中處理和綜合信息的能力。 最后的挑戰與系統效率和可擴展性有關。整個RAG管道——從初步的語料預處理和索引到實時檢索和生成——面臨顯著的效率瓶頸 [25][26]。外部知識庫中包含大量與領域無關的信息,而領域特定的術語通常在這些文檔中分布稀疏。RAG系統計算成本高且耗時 [25],特別是在處理大規模知識源時,因為模型需要搜索大量未結構化的文本以尋找相關信息。此外,實時檢索和跨文檔推理可能引入相當大的延遲,影響用戶體驗。隨著知識庫規模的增長,RAG的可擴展性受到檢索質量和準確性的下降限制 [26],這進一步限制了其在廣泛且動態的專業環境中的實際部署。 為了應對這些限制,圖檢索增強生成(GraphRAG)作為一種新范式應運而生,旨在通過組織良好的背景知識和改進的上下文推理定制LLMs [25][27]–[29]。基于圖結構,現有的GraphRAG模型可分為三大類:? 基于知識的GraphRAG,將圖作為知識載體;? 基于索引的GraphRAG,使用圖作為索引工具,從語料庫中檢索相關的原始文本;? 混合型GraphRAG,結合了基于知識和基于索引框架的優勢,為復雜推理任務提供了更先進的解決方案。基于知識的GraphRAG和基于索引的GraphRAG代表了兩種不同的增強LLMs的圖結構方法。基于知識的GraphRAG側重于將非結構化文本文檔轉化為明確且結構化的知識圖譜,其中節點表示領域概念,邊表示它們之間的語義關系,從而更好地表示層次關系和復雜的知識依賴性。相比之下,基于索引的GraphRAG保持原始文本形式,同時主要利用圖結構作為索引機制來高效地組織和檢索相關文本塊。通過將圖結構融入文本索引,基于索引的GraphRAG方法在文本塊之間建立語義連接,便于高效的查找操作和檢索。雖然基于知識的GraphRAG強調通過圖轉換明確建模領域知識和語義關系,而基于索引的GraphRAG則優先優化信息檢索和通過圖形索引策略提升文本信息的可訪問性。這兩種方法在目的上有所不同:基于知識的GraphRAG旨在通過圖結構推理能力創建結構化的知識表示,幫助更好地理解復雜關系;而基于索引的GraphRAG則側重于通過圖結構索引策略優化相關文本信息的檢索和可達性。 在本文中,我們系統地分析了GraphRAG的技術基礎,并考察了在各個專業領域中的當前實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在
本綜述對GraphRAG進行了全面分析,詳細介紹了其分類、機制、挑戰和未來的研究方向,并將內容組織為七個主要部分,逐步從基礎概念到實際應用展開。具體來說,我們在第二部分(Section 2 II)首先建立了基礎框架,追溯了GraphRAG從傳統RAG系統的演變,探討了RAG在處理結構化知識時的局限性,并介紹了GraphRAG在復雜推理任務中的核心概念和優勢。接下來的三部分系統地探討了GraphRAG系統的關鍵組件:包括知識承載圖和索引圖(第三部分Section 3 IV)兩種主要的結構化知識組織范式;從結構化知識庫中提取與查詢相關的事實信息的檢索技術(第四部分Section 4 V);以及有效地將檢索到的知識整合到LLM中的知識集成方法(第五部分Section 5 VI)。隨著向實際應用的推進,第六部分(Section 6 VIII)通過提供詳細的實施指南、回顧開源項目,并呈現由全面數據集和評估基準支持的領域特定案例研究,討論了GraphRAG的實施方面。最后,第七部分(Section 7 VII)通過識別未來的研究方向,并討論知識質量、檢索效率、系統泛化能力和安全性等潛在挑戰,結合實踐指導,總結了構建領域特定GraphRAG系統的建議。 本綜述在現有的綜述 [28]–[30] 基礎上進行了進一步擴展,采用了更加系統和全面的方法分析GraphRAG系統。盡管之前的綜述提供了Graph基索引、圖引導檢索和圖增強生成的基本工作流描述,我們引入了一個更為復雜且全面的分類法,將GraphRAG方法清晰地分為三類(基于知識的、基于索引的和混合型GraphRAG),從而提供了對該領域更加細致的理解。我們的綜述采用了更為系統的六部分結構,邏輯地從理論基礎到實踐應用展開,詳細探討了每個組成部分,包括知識組織范式、檢索技術和集成方法。
與之前的綜述不同,我們通過詳細回顧開源項目、領域特定案例研究以及提供全面的數據集和評估基準,提供了豐富的實踐指導。我們還對多個維度的挑戰和解決方案進行了更為深入的分析,包括知識質量、檢索效率、系統泛化能力和安全性問題。最后,盡管現有綜述廣泛討論了潛在應用,我們提供了更多基于實證證據和實施示例的可操作性見解,使我們的綜述成為在生產環境中部署GraphRAG系統的實踐者更具價值的資源。
大規模語言模型(LLM)的個性化近年來變得越來越重要,擁有廣泛的應用前景。盡管這一領域重要且取得了進展,大多數現有的個性化 LLM 研究主要集中于 (a) 個性化文本生成,或 (b) 利用 LLM 用于與個性化相關的下游應用(如推薦系統)。在本研究中,我們首次彌合了這兩大研究方向之間的差距,通過引入個性化 LLM 使用的分類體系,概述了關鍵差異與挑戰。我們正式化了個性化 LLM 的基礎,整合并拓展了 LLM 個性化的概念,定義并討論了個性化、使用方法和個性化 LLM 的理想特性等新穎方面。接著,我們通過提出系統的分類方法,將這些多樣化的研究領域和使用場景統一起來,包括個性化的粒度、個性化技術、數據集、評估方法和個性化 LLM 的應用。最后,我們指出了尚需解決的挑戰和重要的開放性問題。通過使用所提出的分類體系統一并綜述近期研究,我們旨在為現有文獻和 LLM 個性化的不同方面提供清晰的指導,助力研究人員和實踐者。
大規模語言模型(LLM)已成為能夠執行廣泛自然語言處理(NLP)任務的強大工具,并展現了出色的能力(例如,Radford 等,2018;Devlin 等,2019;Lewis 等,2019;Radford 等,2019;Brown 等,2020;Raffel 等,2020;Achiam 等,2023;Touvron 等,2023;Groeneveld 等,2024)。實證上,這些模型已展示出作為通用模型的能力,使其能夠準確地完成諸如文本生成、翻譯、摘要和問答等多種任務。值得注意的是,LLM 在零樣本或少樣本環境中也能有效工作,即使沒有任務特定的訓練數據,它們也能夠理解并執行復雜的指令(Bommasani 等,2021;Liu 等,2023c)。這一能力消除了對模型參數進行廣泛微調的需求,使人與機器的交互通過簡單的輸入提示大大簡化。例如,用戶可以以對話形式與 LLM 互動,使交互更加直觀易用。LLM 的這種強大且多才多藝的能力已催生了諸多應用,包括通用人工智能助手(AutoGPT,2024)、協同工具(微軟,2024)以及基于個人的 LLM 代理(Li 等,2024f)。這些應用可以幫助用戶執行寫郵件、生成代碼、撰寫報告等各種任務。
LLM 的個性化近來獲得了大量關注(Salemi 等,2023;Tseng 等,2024)。然而,現有的個性化 LLM 研究通常分為兩個類別:(a) 個性化文本生成,主要關注在個性化上下文中生成單輪或多輪文本,以及 (b) 在下游個性化任務(如推薦系統)中應用 LLM。這兩個領域的大量研究往往獨立發展,缺乏一個統一的視角。此外,現有綜述(Chen,2023;Chen 等,2024b;2024c)通常僅聚焦于其中一個方面,缺乏系統定義關鍵組成部分并整合兩個個性化 LLM 維度洞見的綜合視角。盡管這兩個領域在特征和目標上有所不同,但統一的視角對于彌合這些研究社區之間的差距至關重要,以促進協作和知識共享,從而開發出更具通用性和多功能性的系統。例如,用戶特定文本生成的進展可以通過對話互動為推薦系統提供更個性化和可解釋的建議。通過整合這兩個領域的洞見,研究人員可以開發不僅能夠生成符合個體偏好的文本,還能在各種應用中提升用戶滿意度的 LLM。此跨學科方法可促進更全面的解決方案,以互補方式兼顧個性化和性能。 在本研究中,我們通過為個性化 LLM 的個性化粒度、技術、評估、數據集和使用場景提出直觀的分類體系,統一了來自不同領域的文獻。本文的關鍵貢獻如下:
在本文的剩余部分,我們首先提出個性化 LLM 使用的統一視角和分類體系(第二節),然后深入探討個性化 LLM 的理論基礎(第三節)。接著,探討 LLM 個性化的粒度(第四節),并對個性化 LLM 技術進行全面的綜述與分類(第五節)。然后,我們對個性化 LLM 的評估指標和方法進行分類(第六節),并對個性化 LLM 的數據集進行詳細的分類(第七節)
盡管先前的研究(Yang & Flek,2021;Chen 等,2024c;b)探討了個性化 LLM 的定義并分析了其各個方面,但仍缺乏一個全面的理論框架來理解和形式化這些模型中的個性化。在本節中,我們旨在填補這一空白,通過建立基礎原則、定義和形式結構來形式化 LLM 中的個性化問題。我們系統地發展必要的符號和概念框架,以形式化該問題和評估,為深入理解個性化如何在 LLM 中有效實施和分析奠定基礎。以下小節結構如下: §LLM 的一般原則:我們首先概述構成 LLM 基礎的核心原則。這為理解這些模型的功能及其能力驅動的基本機制提供了重要背景。 §LLM 中個性化的定義:我們在 LLM 的特定上下文中定義“個性化”這一術語,為后續討論奠定明確的理解基礎。 §個性化數據概述:我們提供當前用于個性化的數據概述,強調數據源的不同格式。 §個性化生成的形式化:我們形式化個性化生成的概念空間,為理解如何實現個性化提供結構化框架。 §個性化標準的分類體系:我們引入一個全面的個性化標準分類體系,分類影響個性化輸出的各種因素。
摘要. 自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到越來越多的關注,但許多關鍵的研究問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務的研究?如何為臨床決策選擇合適的LLM技術和評估方法?為解答這些問題,我們對基于LLM的疾病診斷方法進行了全面分析。本次范圍綜述審查了現有研究中報告的疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和診斷任務的評估策略提供了指南。我們還評估了當前研究的局限性,并劃定了該研究領域的挑戰與未來方向。總之,我們的綜述為基于LLM的疾病診斷勾勒了藍圖,幫助簡化并指導未來的研究工作。
引言
自動疾病診斷通過將臨床數據輸入算法,分析數據模式并生成診斷結果,幾乎無需或完全不需要人工干預。其在臨床場景中的重要性是多方面的。首先,它提高了診斷的準確性,支持醫生的臨床決策,并通過提供更多高質量的診斷服務,解決了醫療資源獲取不平等的問題。其次,它提高了診斷效率,尤其是在人口老齡化和臨床醫生短缺的情況下,診斷的復雜性即便對經驗豐富的醫生來說也需要花費大量時間。最后,它通過在線診斷服務為患者提供了更大的便利,促進了早期診斷并減少了傳統臨床就診所帶來的延誤。 人工智能的進步推動了自動診斷系統的發展,經歷了兩個階段。最初,采用支持向量機(SVM)和決策樹等機器學習技術進行疾病分類1,2,通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集規模的擴大和計算能力的提升,深度學習方法后來在診斷任務中占據主導地位3,4。這些方法利用深度神經網絡(DNN),包括卷積神經網絡(CNN)5、循環神經網絡(RNN)6和生成對抗網絡(GAN)7,實現了端到端的特征提取和模型訓練。例如,具有34層的卷積神經網絡在心律失常診斷中達到了心臟病專家級別的表現8。然而,這些模型需要大量標注數據進行訓練,且通常針對特定任務,限制了它們在其他任務中的適應性5,8。 近年來,人工智能的范式從傳統的深度學習轉向了大型語言模型(LLM)的興起。與監督學習不同,LLM如生成式預訓練轉換器(GPT)和LLaMA9,是通過自監督學習在大量未標注數據上預訓練的生成模型。這些模型通常包含數十億個參數,擅長處理語言,并能夠適應多種任務。迄今為止,LLM在臨床場景中展示了卓越的性能,包括問答10、信息檢索11和臨床報告生成12,13。
最近,越來越多的研究驗證了LLM在診斷任務中的有效性。例如,PathChat14,一個經過數十萬條指令微調的視覺語言通用LLM,在人類病理學中取得了最先進的性能。Med-MLLM13,一個在廣泛的醫學數據(包括胸部X光片、CT掃描和臨床筆記)上預訓練和微調的多模態LLM,在COVID-19診斷中表現出了顯著的準確性。此外,Kim等人15使用GPT-4結合提示工程,發現它在識別強迫癥方面超越了心理健康專家。 盡管該研究領域備受關注,但許多關鍵問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務?研究人員如何利用LLM分析各種類型的醫學數據進行疾病診斷?哪些評估方法適合評估模型性能?盡管已有大量關于LLM在醫學中應用的綜述論文16,17,18,19,20,它們通常提供了對各種臨床應用的廣泛概述,但并未特別強調疾病診斷。例如,Pressman等人21提供了LLM在臨床中的潛在應用的綜合總結,包括術前咨詢、治療、術后管理、出院和患者教育。然而,這些調查并未涉及LLM在疾病診斷中的細微差別和挑戰,未能回答上述問題,凸顯了研究中的一個關鍵空白。 本綜述的主要目的是對LLM在疾病診斷中的應用進行全面分析。我們審查了現有研究中涉及的各種疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和采用合適的評估策略提供了指南。我們還分析了當前研究的局限性,全面呈現了該領域的挑戰和未來方向。總之,本綜述為基于LLM的疾病診斷勾勒了藍圖,并幫助啟發和簡化未來的研究工作。
研究范圍概述
本節概述了本研究中涉及的疾病、臨床數據和LLM。圖2展示了疾病相關的器官系統、臨床數據、所研究的LLM數據模式和相關LLM技術。值得注意的是,LLM涵蓋了多種數據模式,包括文本、圖像、視頻、音頻、表格數據和時間序列。圖3展示了隨時間變化的出版趨勢以及本綜述中數據隱私和評估方法的統計。表1總結了用于疾病診斷的主流LLM技術分類,而表2則展示了常用的評估指標。
摘要
預訓練語言模型(Pretrained Language Models, PLM)通過在大規模文本語料庫上學習信息語境化表示,建立了一種新的范式。這種新的范式已經徹底改變了整個自然語言處理領域,并為各種NLP任務設置了新的最先進的性能。然而,盡管PLM可以從訓練語料庫中存儲一定的知識/事實,但它們的知識意識還遠遠不能令人滿意。為了解決這個問題,將知識集成到PLM中已經成為一個非常活躍的研究領域,并且已經開發了各種各樣的方法。在本文中,我們對這一新興和快速發展的領域-知識增強的預訓練語言模型(KE-PLMs)提供了一個全面的文獻綜述。我們引入三種分類法來對現有工作進行分類。此外,我們還調研了各種NLU和NLG應用,在這些應用上,KE-PLM表現出了優于普通PLM的性能。最后,討論了KE-PLMs面臨的挑戰和未來的研究方向。
引言
近年來,大規模預訓練語言模型(大規模預訓練語言模型,簡稱PLM)給自然語言處理領域帶來了革命性的變化。預先訓練的模型如BERT [16], RoBERTa [50], GPT2/3[68][7]和T5[69]獲得了巨大的成功,極大地提升了各種NLP應用的最先進性能[67]。前訓練在NLP中的廣泛成功也啟發了自我監督前訓練在其他領域的應用,如圖表示學習[30][31]和推薦系統[81][98]。對大量文本數據的訓練也使這些plm能夠記住訓練語料庫中包含的某些事實和知識。最近的研究表明,這些經過訓練的語言模型可以擁有相當數量的詞匯知識[48][92]和事實知識[63][71][95]。然而,進一步的研究發現,PLM在知識意識方面也存在以下局限性:
對于NLU來說,最近的研究發現PLM傾向于依賴于表面信號/統計線索[62][55][58],并且很容易被否定的信息(例如,“Birds can [MASK]”vs .“Birds cannot [MASK]”)和錯誤啟動的探針[35]所愚弄。此外,已有研究發現,PLM在推理任務中往往會失敗[84]。
對于NLG,盡管PLM能夠生成語法正確的句子,但生成的文本可能不符合邏輯或不合理。例如,在[46]中提到,給定一組概念{dog, frisbee, catch, throw}, GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”,這兩者都不符合人類的常識。
這些觀察結果促使人們設計更有知識意識的預訓練模型。最近,越來越多的研究致力于明確地將知識納入PLMs[100][108][61][90][96][49][33]。他們利用百科知識、常識知識和語言知識等多種來源,采用不同的注入策略。這種知識集成機制成功地增強了現有PLM的知識意識,提高了包括但不限于實體輸入[100]、問題回答[101][45]、故事生成[22]和知識圖完成[102]在內的各種任務的性能。
本文旨在對這一新興領域的知識增強預訓練語言模型(KE-PLMs)進行全面綜述。現有的KE-PLMs工作已經開發了一套不同的技術,用于在不同的知識來源上進行知識集成。為了深入了解這些模型并促進未來的研究,我們構建了三種分類法來對現有的KE-PLMs進行分類。圖1說明了我們提出的關于知識增強預訓練語言模型(KE-PLMs)的分類法。在現有的KE-PLMs中,已經探索了不同類型的知識來源(如語言學、常識、百科全書、特定應用),以增強PLMs在不同方面的能力。第一種分類法幫助我們理解在構建KE-PLMs時考慮了哪些知識來源。在第二種分類法中,我們認識到一個知識源可以被不同程度地利用,并基于知識粒度對已有的工作進行分類: 基于文本塊、基于實體、基于關系三元和基于子圖。最后,我們介紹了第三種分類法,它根據方法的應用領域對它們進行分組。這種分類法展示了現有的KE-PLMs在知識集成的幫助下旨在改進的一系列應用。通過認識到哪些應用領域已經被KE-PLMs很好地解決了,我們相信這將為未來將KE-PLMs應用于未解決領域的研究機會提供支持。