亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要 — 多模態大型語言模型(MLLMs)近年來已成為人工智能研究領域的熱點。依托大型語言模型(LLMs)的強大能力,MLLMs 在處理復雜的多模態任務方面展現出卓越性能。隨著 GPT-4 的發布,MLLMs 引發了來自多個領域的廣泛關注。研究人員已開始探索 MLLMs 在醫學與醫療健康領域的潛力。本文首先介紹了與 LLMs 和 MLLMs 相關的背景與基本概念,重點闡述了 MLLMs 的工作原理。隨后,我們總結了 MLLMs 在醫療健康中的三大主要應用方向:醫學報告生成、疾病診斷與醫療治療。我們的研究基于對該領域 330 篇最新文獻的系統性回顧,并通過具體示例展示了 MLLMs 在上述領域中的強大能力。在數據方面,我們總結了六種主流數據模態及其相應的評估基準。最后,本文討論了 MLLMs 在醫學與醫療健康領域面臨的主要挑戰,并提出了相應的緩解策略與解決方法。 關鍵詞 — 綜述,大型語言模型,多模態大型語言模型,醫學,醫療健康,臨床應用

1 引言

語言模型在自然語言處理(NLP)任務中發揮著重要作用。通過理解和生成文本,這些模型能夠執行多種語言相關任務,如文本抽取、情感分析等。在語言模型的發展過程中,谷歌于2017年提出的 Transformer 架構是一個重要的里程碑 [1]。該架構是一種依賴于自注意力機制的深度學習模型,通過并行計算提升了處理效率。模型為輸入的不同部分分配不同的注意力權重,從而增強了其對文本語義的理解能力。隨著 Transformer 的發布,模型的規模和參數數量不斷擴大,標志著大型語言模型(LLMs)時代的到來。 在此背景下,一系列 LLMs 被相繼提出。其中,基于 Transformer 構建的 BERT 模型 [2],通過掩碼語言建模(Masked Language Modeling)和下一句預測(Next Sentence Prediction)等預訓練任務,能夠有效理解上下文語義。此外,一些開源的 LLMs,如 Flan-T5 [3]、Vicuna [4] 和 LLaMA [5],也在該領域取得了顯著進展,推動了 LLMs 的發展。 在醫學健康領域,LLMs 被應用于提升醫療工作的質量。它們在生成基于電子健康記錄(EHR)、病程記錄、醫患對話等醫療文本的簡潔準確報告等特定任務中發揮了關鍵作用。盡管醫學領域涉及文本、圖像、視頻、音頻、組學數據等多種模態,如何高效利用并恰當地融合這些多模態數據,已成為應對復雜醫療任務的發展趨勢。 近年來,基于 LLMs 并能夠處理多模態任務的多模態大型語言模型(MLLMs)進入公眾視野。目前大多數 MLLMs 擁有相似的結構,它們以 LLMs 為核心,在輸入端引入編碼器,在輸出端結合擴散生成模型。為了解決多模態任務而設計的某些模塊也不斷被優化,例如 CLIP [6]、BLIP [7]、BLIP-2 [8],以及適用于少樣本學習的 Flamingo [9]。為了處理多模態醫學數據,MLLMs 被逐步引入醫學領域。例如,MLLMs 主要被應用于醫學圖文任務,如基于圖像數據(如 CT 掃描)和文本知識生成診斷報告等。 然而,由于準確性不穩定以及專業性存疑,醫學界仍對 MLLMs 是否能夠勝任臨床應用持保留態度。我們認為,為了在臨床醫療中實現 MLLMs 的有效部署,這些模型應滿足專業化需求。通過我們的調研,我們總結了 MLLMs 在醫學應用中需要滿足的一些基本要求,包括但不限于專業性、準確性、幻覺(hallucination)控制、公平性等多個方面,同時也介紹了相應的評估基準。 基于醫學界的關注點與上述要求,我們進一步總結了 MLLMs 在醫療健康背景下面臨的一系列挑戰。為應對這些問題,已有部分可行性研究成果被提出。通過優化評估基準、持續攻克挑戰,我們對 MLLMs 在臨床場景中的應用前景持樂觀態度。

2 基礎知識

**2.1 大型語言模型(LLMs)

語言模型能夠理解并生成自然語言。其發展大致可分為四個階段:統計語言模型(SLM)、神經語言模型(NLM)、預訓練語言模型(PLM)以及大型語言模型(LLM)。各階段的代表性模型如圖 1 所示。 大型語言模型依托大規模數據集的預訓練和 Transformer 架構,在多個任務中表現出色。以 GPT 系列和 LLaMA 為代表的模型,都采用 Transformer 作為核心結構。Transformer 中的自注意力機制和并行計算能力,使其能高效處理長文本序列,從而支持對大規模數據的處理,并實現模型參數的大幅擴展。這種結構化的模型設計不僅促進了模型的深度學習能力,也顯著提升了其在文本生成、翻譯、復雜問答等多種任務中的適用性。

**2.2 多模態大型語言模型(MLLMs)

為應對不斷擴展的數據模態(如文本、圖像、音頻等),多模態大型語言模型(MLLMs)成為人工智能研究的熱點。借助多模態數據,模型可以更全面地理解并完成任務。MLLMs 主要由處理文本數據的大型語言模型(LLM)和處理其他模態數據的編碼器組成。在 LLM 的編碼器與其他模態之間,通常設置一個對齊模塊,用于將文本輸入與其他模態輸入對齊至統一的特征空間。 根據具體任務需求,靈活選取合適的預訓練 LLM 和模態編碼器,MLLMs 已在多個領域取得顯著突破。本節將介紹 MLLMs 的主要組成部分,以及一些經典的預訓練任務。 在構建應用模型時,通常可根據特定需求靈活組合多種預訓練任務。例如,在醫療健康領域,Med-MLLM [25] 是一個面向未來疫情的醫學多模態大型語言模型,旨在實現 COVID-19 的報告、診斷和預后分析。該模型在預訓練階段采用了三層級的任務設計。 首先,在圖像模塊的訓練中,模型采用了對比學習方法。具體做法包括對來自同一患者的不同類型醫學影像(如胸部 X 光和 CT 圖像)進行對比訓練,結合圖像增強和正則化技術,最小化來自同一患者的圖像之間的損失,從而提升模型對個體生理特征的理解能力。 其次,在語言模塊方面,模型采用了典型的文本預訓練任務,如掩碼語言建模(MLM)、句子重構、以及結果-印象對齊任務,以增強模型在文本理解和生成方面的能力。 最后,在圖文多模態預訓練方面,方法借鑒了類似于 CLIP 的圖文對比學習策略,并進一步融合 UMLS [26] 知識庫和預設目標,從而提升模型對醫學知識的整合能力。 通過上述三個方面的預訓練,Med-MLLM 能夠有效應對多種任務,包括 COVID-19 報告生成(即醫學報告生成)、疾病診斷(即疾病分類)及預后預測(即結果預測)。

3 應用

通過利用醫學圖像、文本病歷、醫學教材和音頻等多種模態的醫療數據,多模態大型語言模型(MLLMs)能夠全面理解任務需求,從而高效執行醫學任務,如圖 2 所示。 本章將介紹 MLLMs 在醫療健康領域的主要應用,包括醫學報告生成、臨床溝通與指導、以及手術輔助等方面。


**3.1 醫學報告生成

醫學報告有助于醫生進行診斷和制定治療方案,同時也是傳遞醫療信息的重要載體,使醫護人員能夠追蹤疾病進展。每天都需要有經驗的放射科醫生或專家撰寫大量醫學報告,這不僅耗費大量時間和人力資源,還容易因人為失誤而出現報告內容錯誤,從而導致誤診或治療延誤。因此,借助人工智能技術高效生成準確的醫學報告成為一個具有前景的研究方向。 大量研究表明,通過在醫療數據上微調訓練,LLMs 在處理醫學文本方面表現出強大能力 [27], [28], [29]。借助該能力,LLMs 可以與多模態模塊協同,根據不同模態的數據生成醫學報告。 目前的主流方法是使用 MLLMs 生成醫學報告。其基本思路是以醫學圖像(如 X 光 [30]、CT [31], [32]、MRI [33],甚至三維掃描圖像 [34])為輸入,并結合對應的圖像描述文本,構建圖文對,作為訓練 MLLMs 的輸入。例如,X-ray GPT 將 X 光圖像輸入一個凍結的視覺編碼器以提取圖像特征,隨后通過可學習的線性轉換層進行對齊,將圖像特征與文本對齊,再輸入基于 Vicuna 且在醫學數據上微調過的 LLM。最后,通過如“請說明該 X 光片的主要發現與印象”等提示語引導模型生成文本描述,從而實現有效的圖文理解與文本生成。 預訓練階段對于醫學報告生成模型至關重要,其效果決定了模型對圖像和文本數據的利用效率。研究表明,盡管臨床報告通常遵循“發現-印象”格式,但其結構混亂、不規范 [35],且包含大量冗余信息,不利于模型訓練。當前一些研究提出了通過標準化或重構文本格式來幫助模型聚焦核心內容的方法 [19], [35]。例如,MedKLIP [36] 使用三元組提取模塊將圖像描述壓縮為“外觀-位置-存在”三要素,減少理解負擔。 目前 MLLMs 生成報告時大多偏重“印象”部分,缺乏深度推理能力,導致部分模型雖在基準測試上表現優異,但在真實臨床應用中表現較差 [37]。為提升模型推理能力,有研究提出應使用包含完整推理過程的文本進行訓練 [38], [39],如符合“發現-印象”結構的報告。 應注意,醫學報告不同于一般文本生成任務,其具備嚴格的邏輯結構,通常由詳細觀察與對應總結組成 [40],并需滿足醫學術語的標準化要求。可通過引入句子重構(SR)[25]、掩碼語言建模(MLM)等任務,使模型學習專家書寫風格。此外,為處理如“cardiomegaly”被錯誤拆分為“card-io-me-gal-y”等問題,可構建特定醫學詞典并定期更新 [42]。 MLLMs 也可輔助完成前置任務,如記錄與總結醫生的口述內容 [43], [44],從而減輕工作壓力。在醫學影像方面,MLLMs 可應用于圖像分割,聚焦關鍵區域并執行基于弱監督的操作指令 [45], [46]。


**3.2 專業且富有同理心的醫學溝通

近年來,聊天機器人在多個領域獲得廣泛關注,尤其在醫療健康領域展現出廣闊前景。早期研究主要基于單一模態(如文本)訓練聊天模型,借助醫生-患者對話數據 [18], [80] 和醫學 VQA 數據 [17] 微調模型,取得了良好效果。 隨著具備多模態能力的 MLLMs 的快速發展,聊天機器人能夠處理圖像、視頻等模態輸入。例如,SkinGPT4 [24] 在大量皮膚數據上微調后,可提供專業皮膚病建議;LLaVA-Med [22] 可處理醫學圖像,執行 X 光、CT、MRI 等影像的 VQA 任務,并在多個閉源醫學 VQA 數據集上實現 SOTA 性能。 盡管這些模型在數據集和評估基準上表現優異,但對“印象”的依賴可能削弱其推理能力,導致臨床表現不佳 [81]。 此外,研究表明,人們仍傾向于從人類那里獲得醫療服務,主要原因是互動性與親和力 [82], [83]。對患者而言,被理解和共情與診斷準確性同樣重要。現代快節奏生活和社交媒體的普及也使心理服務需求顯著上升 [84], [85]。在心理治療中,專家與患者之間的交流具有重要療效 [86]。基于此,聊天機器人在心理咨詢中表現出潛力 [87], [88],有助于緩解醫療資源壓力、降低成本。由于患者在無羞恥感的環境中更易表達,機器人在某些場景下甚至優于人類 [89], [90]。 已有多個基于 LLM 的心理咨詢機器人被提出 [91], [92], [93],其主要關注患者話語中的情緒、合作程度、溝通習慣等特征,使模型能通過提問、安慰、肯定、傾聽、信任等方式展現同理心,并結合相關基準進行評估與優化 [94], [95]。然而,僅依賴文本仍有局限。例如,“That’s great”一句在不同面部表情或語調下可傳達完全不同的情緒,如翻白眼或諷刺語調。因此,MLLMs 被引入以提取面部動作、肢體語言、眼動、語音節奏與語調,全面分析患者狀態 [96], [97],實現類面對面的診療效果,從而緩解“缺乏共情”的問題 [91]。 醫療健康領域的聊天機器人具備及時性、低成本、高效率等特性,符合現代醫療體系的追求。在相關立法與質量監管完善后,其普及前景廣闊 [98]。


**3.3 臨床手術輔助

由于患者缺乏醫學知識,往往需要醫生或專家進行手術說明和分析。即使是經驗不足的醫生,也需咨詢資深專家。但高級專家每日任務繁重,難以面面俱到。為緩解這一問題,計算機技術已被引入手術輔助中 [99], [100],但仍需專家解答臨床問題。 近年來,部分 MLLMs 被提出用于手術場景中,輔助甚至替代專家工作。例如,通過引入 Surgery VQA 數據 [101] 并在手術視頻數據上訓練 MLLMs,使模型能回答手術相關問題 [74], [102]。SurgicalGPT [103] 將 GPT 與視覺編碼器結合,在腎臟內窺鏡圖像上微調,在多個手術 VQA 數據集(EndoVis18-VQA、Cholec80-VQA、PSI-AVA-VQA)上取得 SOTA 性能。 現有手術 VQA MLLMs 多聚焦于病灶相關區域,常忽略背景信息,導致對手術流程理解片面,進而引發誤判 [104]。考慮到手術動作、工具使用等因素可能蘊含背景知識,引導模型全面理解手術過程是提升模型準確性的關鍵 [105], [106]。未來可進一步擴展手術模型使用的數據種類,如種族、地域、EHR 與病史等,以提升模型泛化能力。 此外,借助醫學報告生成的成果(見 3.1 節),MLLMs 也被用于生成手術過程分析與總結報告 [107], [108],為后續手術提供決策支持。 由于臨床手術容不得錯誤,模型的響應與建議必須達到極高水準。盡管部分模型在封閉數據集上表現出色,距離真正的臨床部署仍有較長距離。同時應明確立法責任。目前除內窺鏡數據外,其他手術數據尚不足,擴展數據種類是實現手術 MLLMs 廣泛應用的前提。

4 數據

在本章中,我們將探討醫療健康領域中多模態數據的多種類型,如圖 3 所示。我們將分析不同結構、類型與類別的數據如何增強模型執行多樣任務的能力,并促進其在專業層面的表現。我們在表 2 和表 3 中整理了跨模態醫學數據集的多種形式,用于訓練目的。此外,我們還將在表 4 中列舉并介紹用于訓練多模態大型語言模型的現有數據集,以及在表 5 中列出用于訓練傳統大型語言模型的數據集。 然而,出于對隱私與安全的擔憂,數據采集過程面臨諸多挑戰,導致醫學多模態大型語言模型所需的數據相對匱乏。為應對這一問題,我們將從兩個角度探討有效的解決方案:模型優化數據增強

5 模型特性

**5.1 專業性(Professionalism)

與常規的 MLLMs 不同,醫學領域的 MLLMs 被要求具備嚴格的專業性。簡而言之,醫學 MLLMs 應當擁有與專業醫生相當的領域知識。目前仍可明顯觀察到,AI 的專業化程度尚不及人類專家 [147], [148]。為了滿足臨床應用與專業標準,將模型性能對齊至真實專家的能力是一種可行路徑。 掌握精準的醫學知識是提供醫療服務的基礎。醫學知識通常以文本為載體,通過使用特定的醫學文本與多模態數據對模型進行微調,MLLMs 能夠有效學習并應用這些知識。 在第 3 章中,我們已介紹幫助模型獲取醫學能力的常規方法。除了使用合適的數據格式和內容外,從臨床記錄與報告中構建專業醫學詞典,也有助于模型識別罕見醫學術語,提取關鍵醫學信息 [149], [150],這一點在處理罕見疾病時尤為重要 [151]。 評估方法: 可從多個維度評估 MLLMs 的專業性。通常,模型生成的醫學報告或對話響應能提供有價值的反饋。 從表達形式來看,模型的語言應接近醫學專家的表達方式。通過將模型生成的文本與臨床文本比較,評估其在詞匯、語義、結構和信息突顯度方面的相似度,常用自然語言生成的評估指標 [152–155] 可用于衡量這些維度。通過優化這些評估指標,模型的表達可更符合專業化標準。 除了語言表達,還需關注內容的邏輯性與精確性,這是衡量專業性的核心。評估需涵蓋準確性、細節、特征、邏輯等多個方面,通常通過人工或 AI 方式進行。 * 人工評估: 由專家根據多個維度(如描述準確性、細節豐富性、整體特征考慮、實際應用價值)打分 [19], [156], [157]。 * 自動評估: 包括兩類:① 模型直接執行具有評估屬性的任務;② 使用 AI 模擬專家對模型輸出進行打分 [38], [161]。

例如,美國醫學執照考試(USMLE)常用于評估 GPT 系列、Med-PaLM 等模型 [158–160]。盡管 GPT-4 和 Med-PaLM 準確率已超 86%,接近人類專家水平 [158],但在臨床場景中表現仍不穩定,因其推理能力薄弱、過度依賴記憶 [38]。 使用 AI 進行自動評分的方法類似于人工評估,例如讓 Gemini-Pro 與 GPT-4 扮演醫學專家角色,對模型輸出進行維度化評分 [161],如圖 9 所示。


**5.2 幻覺問題(Hallucination)

醫學 MLLMs 的輸出仍受到醫療領域的質疑。除了準確性外,生成信息的可信度是評估模型的關鍵。幻覺(hallucination)指模型生成看似合理但實際上錯誤或虛假的內容 [162–165],這在醫學中可能導致嚴重后果。 造成幻覺的原因包括:指令質量差、訓練數據不足,或醫療數據更新太快,模型依賴記憶而非推理 [166–167]。 解決方案包括:

利用高質量的醫學數據; * 采用專業教材作為唯一生成來源 [168]; * 設計自檢結構,自我糾錯 [169–170]。

在 MLLMs 中,幻覺問題更復雜:

數據不足會導致多模態信息無法正確對齊,產生誤解; * 錯誤識別圖像對象是常見誘因 [173–174]; * 模型過度依賴語言模型固有知識,忽視圖像信息 [175]。

研究歸納出三類圖像幻覺:

類型幻覺; 屬性幻覺; 關系幻覺(如共現、反事實、虛構關系)[175–176]。

原因包括:視覺編碼器參數不足、圖像分辨率不夠、模型未能聚焦關鍵區域 [177–179]。可以通過圖像分割、邊界引導等方式提升模型對圖像細節的關注度 [175]。 評估方法:

將幻覺相關問題轉化為二值判定任務,通過分析模型回答判斷是否存在幻覺 [182–184]。 盡管 MLLMs 具有作為醫學教育與研究信息源的潛力,但其發揮作用的前提是:高質量監督與嚴格質量控制。


**5.3 公平性與偏見(Fairness and Bias)

模型的準確性和專業性也會受到偏見問題的威脅,包括種族、社會角色、地域等方面。MLLMs 多基于網絡數據訓練,這些數據中可能包含主流偏見。 例如,[185] 指出模型對白人群體預測更高治療費用與住院時間。在高預期生存率的醫療情境中,模型會表現出過于樂觀的預估。研究發現模型可能因刻板印象降低少數族群的治療比例 [186]。 數據集中長期聚焦特定人群會導致數據不穩定,產生偏見。例如,未被醫保覆蓋的弱勢群體在模型預測中效果極差 [188],[25] 也指出不同地區族群在交叉驗證中表現不佳。 解決方法包括:

數據層面:過濾與均衡主導類別樣本,或通過反事實數據與欠采樣重構數據分布 [180, 189]; * 訓練策略:使用 RLHF(基于人類反饋的強化學習)提升模型對人類價值的對齊程度 [190]; * 增強同理心,使模型更具人文關懷 [191]。

評估方法:

構建結合患者信息與經典任務(如問答、報告生成)的評估體系。例如: * Harvard-FairVLMed [192]:將種族、性別等元數據整合進問答任務; * FMBench:基于 Harvard-FairVLMed 擴展,加入多種人口特征,評估模型在多樣化人群下的響應表現。

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

摘要— 人工智能(AI)在醫學影像領域展現出巨大的潛力。然而,高性能 AI 模型的開發通常需要在大規模的集中式數據集上進行訓練。這種方式由于嚴格的患者隱私保護法規以及數據共享與使用的法律限制而面臨嚴峻挑戰。這些限制阻礙了醫學領域大規模模型的開發,并妨礙了其在新數據上的持續更新與訓練。聯邦學習(Federated Learning,FL)作為一種保護隱私的分布式訓練框架,提供了一種新方案,使得跨分散的醫學數據集協作開發模型成為可能。在本綜述中,我們回顧了 FL 在醫學影像全棧分析流程中兩個階段的貢獻。首先,在上游任務(如 CT 或 MRI 重建)中,FL 能夠在多機構、多樣化的數據集上聯合訓練魯棒的重建網絡,從而在保持數據機密性的同時緩解數據稀缺問題。其次,在下游臨床任務(如腫瘤診斷與分割)中,FL 通過允許在本地對新數據進行微調而無需集中敏感影像,從而支持模型的持續更新。我們全面分析了 FL 在醫學影像處理流程中的實現方式,從基于物理知識的重建網絡到診斷 AI 系統,并重點介紹了提升通信效率、對齊異構數據以及確保參數安全聚合的創新方法。同時,本文還展望了未來的研究方向,旨在為該領域的發展提供有價值的參考。

關鍵詞— 聯邦學習,醫學影像,醫學影像分析,大模型

I. 引言 近年來,人工智能(AI)的快速發展在諸多領域展現出了巨大的潛力 [1]–[3]。圖 1 展示了醫學影像分析與重建的發展演變,突出了該領域的關鍵進展。在醫學影像中,AI 技術正日益重塑現代影像分析與處理方法 [4]。然而,大多數現有 AI 方法仍然依賴于數據驅動,并需要大規模、高質量且具備良好標注的數據集進行訓練 [5], [6]。醫學影像標注通常需要由放射科醫師或病理學家等領域專家手工完成,這一過程不僅耗費巨大成本,而且極其耗時 [7]。

與醫學影像不同,自然圖像的標注可以由非專家完成:眾包工作者能夠處理如目標檢測、分類和分割等常規任務。這種標注的便利性使得可以通過眾包平臺快速構建大規模數據集。相比之下,醫學影像必須依賴訓練有素的放射科醫師或臨床醫生,從而在速度與規模上天然受到限制。更為復雜的是,醫學影像中包含的敏感患者信息受隱私法律、存儲限制以及機構數據治理政策的約束 [8]。因此,那些推動通用計算機視覺領域大模型成功的關鍵因素——豐富的數據與開放共享——在醫學領域幾乎完全缺失。因此,在保護患者隱私的同時緩解數據稀缺問題,成為亟需解決的核心瓶頸,也是重要的創新方向。

跨多個數據持有者的協作式機器學習,以數據隱私保護為重點,已經引起學術界與產業界的廣泛關注。為實現隱私保護的機器學習,McMahan [9] 提出了聯邦學習(Federated Learning,FL),即分布式學習框架 FedAvg。由于其內在的隱私保護特性,FL 已在多個場景中得到廣泛應用 [10]。在 FL 中,各客戶端使用本地數據獨立訓練模型,并將模型參數或梯度上傳至中心服務器。服務器聚合這些更新以優化全局模型,然后將其分發回客戶端,進入后續訓練迭代。在整個過程中,客戶端數據始終保留在本地,僅有模型參數或梯度更新會被傳輸到中心服務器。該機制有效緩解了數據泄露風險,并增強了隱私保護能力 [11]。

在智能醫療系統中,工作流程通常包括上游的醫學影像重建與下游的影像分析任務 [12]。然而,數據異質性的性質與影響在這兩類任務中存在顯著差異。醫學影像重建主要關注從低質量或不完整的影像數據中恢復高質量圖像 [13]。例如,由于 X 射線輻射可能造成的危害,臨床協議往往要求在檢查中降低輻射劑量,但這種降低不可避免地導致影像質量下降。

在低劑量(LD)計算機斷層掃描(CT)中,不同醫療機構可能使用不同的掃描儀型號或低劑量協議(如掃描角度、X 射線光子強度),從而產生不同的噪聲分布模式 [14]。這種數據分布不一致性阻礙了傳統深度學習模型在不同臨床環境中的泛化能力,從而影響重建的穩定性與精度。

相較之下,磁共振成像(MRI)通常采用加速采集協議以縮短掃描時間并提升患者舒適度。然而,MRI 掃描儀硬件配置(如磁場強度、信號采集協議)的差異,以及不同機構所使用的重建算法,共同導致了 MRI 數據的異質性 [15]。

醫學影像分析中的數據異質性主要來源于三個基本因素:(1) 醫院人群在人口學分布上的差異 [16];(2) 組織病理學數據處理協議的差異 [17];(3) 疾病流行率比例的不平衡 [18]。具體而言,個體因素(如年齡、性別和種族)會造成解剖學變異及病灶特征的多樣性;同時,不同的組織病理學制備方法(包括染色協議與數字掃描設備)會進一步導致數據分布的偏移。此外,疾病在不同機構間的流行率差異顯著:專科醫院通常聚焦于特定疾病群體,而綜合性醫院則服務于更為多樣化的人群,且不同醫療中心的疾病嚴重程度也各不相同。

因此,在影像重建與分析任務中應對數據異質性 [19] 已成為醫學影像分析的關鍵研究前沿。主要挑戰在于如何在 FL 過程中同時緩解因優化軌跡差異導致的模型漂移,并提升 AI 模型跨機構的泛化能力。為應對這些挑戰,本綜述從技術角度分析了針對成像導向型與分析驅動型 FL 框架的最新解決方案。

近年來,已有若干關于醫學影像中 FL 的綜合性綜述。例如,Guan 等 [20] 提供了一份系統綜述,將醫學影像分析中的 FL 方法劃分為客戶端、服務器端與通信技術三類。Hernandez-Cruz 等 [21] 同樣綜述了醫學影像中的 FL 研究,強調了其在心臟病學、皮膚病學和腫瘤學等領域的應用,以及如非獨立同分布(non-IID)數據和隱私保護等反復出現的挑戰。Silva 等 [22] 針對醫學影像模態(MRI、CT、X 射線、組織學)提供了一份系統綜述,討論了 FL 在這些領域的應用、貢獻、局限性與挑戰。Wang 等 [23] 專門研究了 FL 在罕見疾病檢測中的應用,總結了該細分方向中的現有 AI 技術與可用數據集。在相關領域,Shi 等 [24] 探討了醫學影像分析中基礎模型的可信性問題,這一主題通過關注隱私、魯棒性與公平性,與 FL 綜述形成互補。最后,Raza 等 [25] 基于 PRISMA 方法對放射組學中的 FL 進行了元綜述,匯總了腫瘤檢測、器官分割與疾病分類任務中的研究趨勢。

盡管這些綜述提供了寶貴的見解,但其覆蓋范圍往往未能涵蓋整個影像處理流程。現有綜述通常將圖像重建、分割與診斷作為相互獨立的主題進行考察,而非作為聯邦學習工作流中相互關聯的階段。此外,在整個影像鏈條中,關于新興大規模醫學基礎模型與先進數據壓縮技術如何與 FL 融合的系統性研究仍然有限。本文旨在彌補這些空白。我們聚焦于在端到端醫學影像流程中引入 FL,從物理驅動的圖像重建到下游分析任務。同時,我們探索將大規模視覺模型與高效數據壓縮技術納入適配 FL 框架的機會,從而支撐這一完整工作流。表 I 總結了與以往綜述的對比,凸顯了本文綜述的廣闊覆蓋范圍。

本文其余部分組織如下:第二節介紹 FL 工作流并概述相關挑戰;第三節回顧醫學影像重建中的 FL 研究;第四節分析醫學影像分析中的 FL 應用;第五節闡述持續存在的技術瓶頸與臨床實施挑戰,并提出未來研究方向;最后,總結本文的關鍵發現與貢獻。

付費5元查看完整內容

專門化大型語言模型(LLMs)的快速發展已經從單純的領域自適應演進到更為復雜的原生架構設計,標志著人工智能發展范式的轉變。本文系統性地回顧了這一進程,涵蓋醫療、金融、法律和技術等領域。除了專門化LLMs的廣泛應用外,近期在LLM智能體中也出現了一系列技術突破,例如:超越微調的領域原生設計、通過稀疏計算與量化提升參數效率、以及日益增強的多模態能力集成等。我們的分析揭示了這些創新如何解決通用LLMs在專業應用中的根本局限性,并顯示專門化模型在特定領域基準測試上持續取得性能提升。此外,本綜述還強調了其在電子商務領域的應用潛力,以彌補該領域的研究空白。

1 引言

大型語言模型(Large Language Models, LLMs)的快速發展開啟了人工智能的新紀元,正在深刻改變我們處理信息、解決問題以及與技術交互的方式。雖然通用型LLM(如GPT-4)在廣泛任務上展現了卓越的能力,但在面對專業化、領域特定的挑戰時,其性能往往會顯著下降。這一局限催生了一種重要的范式轉變——專門化LLM的興起,它們旨在滿足醫學、法律、金融和工程等專業領域的嚴格需求。 領域專門化的需求源于多個關鍵因素,而這些往往是通用模型難以充分應對的。首先,專業領域通常需要對技術術語和概念框架進行精確理解,而這些內容遠超日常語言的使用范圍。例如,在醫療領域,模型必須能夠準確解讀臨床術語、診斷編碼以及復雜的醫學關系,才能具有臨床實用價值。其次,專業領域涉及的推理模式和知識結構常常與日常語言使用存在顯著差異。金融分析依賴于對市場趨勢的時間序列推理,法律實踐要求對法規條文進行精確解釋,而醫學診斷則取決于概率性的臨床推理——所有這些方面都是通用LLM存在明顯缺陷的地方。 專門化LLM的發展經歷了若干階段,每一階段都伴隨著針對既有局限性的技術創新。早期方法主要集中于在通用模型的基礎上繼續進行領域特定語料的預訓練,例如BioGPT將GPT-2改造為適應生物醫學應用(Luo et al., 2022)。隨后,出現了引入領域感知組件的架構創新,例如BloombergGPT引入金融時間序列嵌入,Med-PaLM 2則集成了臨床推理模塊(Singhal et al., 2023)。最近,又出現了結合LLM與符號知識庫及動態適應機制的混合系統,如BLADE的知識注入框架(Xu et al., 2024b)和Self-MoE的專家路由機制(Yang et al., 2024)。 當前的專門化LLM格局呈現出幾個重要趨勢。首先,研究界日益認識到模型規模本身并不能保證領域能力——一些較小但經過精心設計的模型(如BioMedLM,參數規模2.7B)(Bolton et al., 2024),在專門任務中甚至能夠超越規模更大的通用模型。其次,評估方法更加嚴格,逐漸引入專家評估和領域特定基準,而不僅僅依賴于通用語言理解指標。例如,一項牙科種植學研究采用了由資深專家進行的多維度評估,涵蓋40個專業問題和5個復雜案例(Zhang et al., 2025)。第三,越來越強調真實場景的適用性,模型不僅需要在靜態問答中表現良好,還需要能夠應對動態、交互式的場景,以更好地模擬專業實踐。 然而,專門化LLM的發展與部署仍面臨重大挑戰。知識時效性是一個長期問題,尤其在醫學和金融等快速演化的領域中,過時的信息可能帶來嚴重后果。評估方法仍難以全面捕捉專業判斷的細微差別,往往依賴于代理指標而非直接衡量真實世界的有效性。偏見、責任與適當使用等倫理問題也持續使其在高風險領域的部署更加復雜。或許最根本的挑戰在于:當前LLM的靜態特性限制了其適應新信息和不斷演化的專業標準的能力,這也推動了對自進化架構(self-evolving architectures)的日益濃厚興趣(Yao et al., 2023)。 本綜述旨在對專門化LLM的發展格局進行全面梳理,分析其架構創新、應用成效及持續存在的挑戰(Chen et al., 2023; Wu et al., 2023)。我們系統性地考察了2022年至2025年間提出的48個前沿模型,識別其關鍵技術趨勢與性能特征。我們的分析揭示了不同專門化策略(從持續預訓練到混合增強)如何影響模型在各專業領域的能力。同時,我們還探討了專門化LLM發展的新興方向,包括自進化架構、多模態集成以及輕量化部署策略。

付費5元查看完整內容

摘要—— 作為機器人學和具身智能的關鍵前沿,機器人操作需要精確的運動控制,以及在動態環境中對視覺與語義線索的綜合理解。傳統方法依賴預定義的任務規范和僵化的控制策略,往往難以在非結構化、全新場景下擴展或泛化。近年來,基于大規模視覺-語言模型(VLMs)的視覺-語言-動作(VLA)模型逐漸成為一種變革性的范式。這類模型利用大規模 VLMs 在開放世界泛化、層級任務規劃、知識增強推理以及多模態融合方面的能力,使機器人能夠理解高層指令、識別未知環境并執行復雜的操作任務。本綜述首次從系統化、面向分類法的角度,對用于機器人操作的大規模 VLM 驅動 VLA 模型進行全面回顧。我們首先明確界定大規模 VLM 驅動的 VLA 模型,并劃分出兩類核心體系結構范式:(1)單體式模型,涵蓋單系統與雙系統設計,二者在集成程度上有所差異;(2)分層式模型,顯式地通過可解釋的中間表示將規劃與執行解耦。在此基礎上,我們深入探討大規模 VLM 驅動的 VLA 模型:(1)其與強化學習、免訓練優化、人類視頻學習以及世界模型集成等前沿領域的結合;(2)其獨特特征的綜合,包括體系結構特點、操作優勢,以及支撐其發展的數據集和基準;(3)未來的研究方向,包括記憶機制、四維感知、高效適應、多智能體協作以及其他新興能力。本綜述整合了近期進展,旨在彌合現有分類法的不一致性,緩解研究碎片化,并通過系統性地整合大規模 VLM 與機器人操作交叉領域的研究,填補關鍵空白。我們提供了一個定期更新的項目主頁以記錄最新進展://github.com/JiuTian-VL/Large VLM-based VLA for Robotic Manipulation。 關鍵詞—— 視覺-語言-動作模型,機器人操作,具身智能,大規模視覺-語言模型

1 引言

機器人操作(Robotic Manipulation)處于機器人學與具身人工智能交匯處的關鍵挑戰 [1]–[5]。其實現不僅需要精確的運動控制,還需要對復雜動態環境中的多樣化視覺與語義線索具備深刻理解。機器人操作在諸多領域展現出廣泛應用價值,包括先進制造、高效物流、精準醫療和多樣化的家庭服務 [6]–[8]。傳統的操作方法 [9]–[16] 主要依賴精心設計的控制策略和嚴格預定義的任務規范。然而,這些方法在非結構化的真實世界場景中往往表現不佳——尤其是在面對新穎物體、模糊的自然語言指令或此前未見的環境配置時,暴露出其在可擴展性與泛化能力方面的固有限制。 近年來,大規模視覺-語言模型(Vision-Language Models, VLMs)[17]–[25] 崛起為一種變革性范式。基于大規模網頁級圖文數據集的預訓練,大規模 VLM 展現出卓越的能力,能夠彌合視覺感知與自然語言理解之間的語義鴻溝。這種創新能力使 VLM 不僅能結合文本描述理解復雜視覺場景,還能超越單純的目標識別,形成整體的上下文理解。大規模 VLM 與機器人系統的結合催生了一類新模型:基于大規模 VLM 的視覺-語言-動作(Vision-Language-Action, VLA)模型 [26]–[32]。如圖 1 所示,這一新興范式展現出克服傳統機器人流水線根本局限的巨大潛力。它使機器人能夠理解高層次的人類指令、泛化至未知物體與場景、推理復雜的空間關系,并在動態、非結構化環境中執行復雜的操作任務。例如,一個 VLA 模型可以完成如下指令:“把紅色的杯子從筆記本電腦旁邊放到最上層的架子上”,這一任務需要視覺定位、空間推理與序列動作規劃的復雜融合。 在本研究中,基于對近期工作的廣泛回顧 [26]–[37] 及對該領域的深入理解 [38]–[43],我們提出了一個一致性的定義:大規模 VLM 驅動的 VLA 模型是指能夠(1)利用大規模 VLM 理解視覺觀測和自然語言指令;并且(2)通過推理過程直接或間接地服務于機器人動作生成的模型。我們進一步將其劃分為兩大類(見圖 2 與圖 3): * 單體式模型(Monolithic Models)(圖 3 左):包括單系統與雙系統實現。

單系統模型 [26], [27], [44], [45] 在統一架構中集成了環境理解(包括視覺感知、語言理解與機器人狀態感知)與動作生成。 * 雙系統模型 [29]–[32] 則采用 VLM 作為場景解釋的骨干網絡,并由一個動作專家負責動作生成,二者通過潛在表示的傳播進行信息交互。 * 分層式模型(Hierarchical Models)(圖 3 右)[46]–[50] 明確將規劃與策略執行解耦。它們區別于雙系統的端到端方法,具有以下特征:

結構化的中間輸出:規劃模塊生成可解釋的表示(如關鍵點檢測、可供性圖、軌跡提案),隨后由策略模塊處理以生成可執行的動作。 1. 解耦的訓練范式:通過專門的損失函數或 API 驅動的交互,實現對層級模塊的獨立優化。

這種分類法凸顯了 VLA 模型開發中的關鍵設計維度,尤其是系統集成的粒度與認知分解的顯式程度,同時保持與現代表征學習范式的緊密聯系。 在上述定義與分類的框架下,我們的全面綜述揭示了新興 VLA 領域中的若干關鍵缺口,其整體組織結構如圖 2 所示。首先,該領域的術語與建模假設尚不一致,研究工作分散在機器人學、計算機視覺與自然語言處理等學科。其次,已有綜述往往僅聚焦于 VLMs [51]–[55] 或機器人操作 [2], [56]–[59],缺乏對二者交叉所帶來的獨特挑戰與進展的綜合分析。因此,亟需一份系統性和原則性的綜述,以闡明大規模 VLM 驅動 VLA 模型的基礎,組織相關方法的空間,并勾勒該融合范式的未來方向。本綜述旨在填補這一空白。我們提供了結構化且深入的回顧,以全景視角推動學界更深刻的理解并激發未來的突破。

本文的主要貢獻總結如下: * 縱向綜述: 我們系統回顧了 VLM 的演化軌跡、操作學習的技術進展,以及大規模 VLM 驅動 VLA 范式的興起。同時,分析了單體式模型與分層式模型的發展,識別關鍵挑戰并展望未來方向。 * 橫向綜述: 我們提供了單體式與分層式模型更精細的比較性分類法,從結構與功能兩個維度展開分析。進一步探討了大規模 VLM 驅動 VLA 模型的前沿研究方向,強調其獨特特征與支撐發展的數據集。該綜述為理解該領域的發展與結構組織提供了概念性路線圖。

本文余下部分的組織結構如圖 2 所示:第二節介紹 VLM 演化與機器人操作基礎知識;第三節分析單體式模型,包括單系統與雙系統架構的優劣與權衡;第四節探討分層式模型,將其分為僅規劃器與規劃-策略框架,并進一步根據中間表示類型(子任務、關鍵點、程序等)細分;第五節討論其他前沿方法,包括基于強化學習的優化、免訓練方法、從人類視頻學習以及基于世界模型的方法;第六節分析大規模 VLM 驅動 VLA 模型的核心特征,涵蓋多模態融合、指令跟隨和多維泛化;第七節分類與分析相關數據集與基準,涵蓋模擬、真實世界與人類交互數據;第八節探討關鍵開放挑戰與未來研究方向;第九節給出結論。

付費5元查看完整內容

摘要—視覺—語言模型(Vision-Language Models, VLMs)在廣泛任務中展現出卓越的泛化能力。然而,當直接應用于特定下游場景且未經過任務特定的適配時,其性能往往并不理想。為了在保持數據高效性的同時提升其實用性,近年來的研究日益聚焦于不依賴標注數據的無監督適配方法。盡管這一方向的關注度不斷上升,但仍缺乏一個面向任務的、專門針對無監督 VLM 適配的統一綜述。為彌補這一空白,本文對該領域進行了全面且結構化的梳理。我們提出了一種基于無標注視覺數據可得性及其性質的分類方法,將現有方法劃分為四種核心范式:無數據遷移(Data-Free Transfer,無數據)、無監督領域遷移(Unsupervised Domain Transfer,充足數據)、情景式測試時適配(Episodic Test-Time Adaptation,批量數據)和在線測試時適配(Online Test-Time Adaptation,流式數據)。在這一框架下,我們分析了各范式對應的核心方法與適配策略,旨在構建對該領域的系統化理解。此外,我們還回顧了多種應用場景下的代表性基準,并指出了開放挑戰與未來研究的潛在方向。相關文獻的持續更新倉庫可訪問://github.com/tim-learn/Awesome-LabelFree-VLMs。 關鍵詞—無監督學習,測試時適配,多模態學習,視覺—語言模型。 I. 引言

視覺—語言模型(Vision-Language Models, VLMs),如 CLIP [1]、ALIGN [2]、Flamingo [3] 和 LLaVA [4],憑借強大的跨模態推理能力,已在學術界和工業界引起了廣泛關注。這類模型通過大規模數據集 [5] 學習圖像—文本的聯合表示,并在多種任務中展現出令人印象深刻的零樣本(zero-shot)性能與泛化能力。VLMs 已成功應用于多個領域,包括自動駕駛 [6]、機器人技術 [7]、異常檢測 [8] 以及跨模態檢索 [9]。 然而,由于預訓練階段無法覆蓋下游任務與環境的全部多樣性,將 VLMs 適配于特定應用仍是一項核心挑戰。早期的研究主要依賴有監督微調 [10]–[13],利用帶標注樣本挖掘更多知識。盡管該方法在性能上有效,但依然面臨高標注成本,以及在訓練與測試數據存在分布偏移(distribution shift)[14] 時的性能下降問題。為應對這些局限,越來越多的研究開始探索無監督適配技術 [15]–[20]。這些方法——通常被稱為零樣本推理 [21]–[23]、測試時方法(test-time methods)[18], [24], [25],或無監督調優 [17], [26], [27]——旨在無需昂貴標注即可提升 VLMs 在下游任務中的表現。實踐表明,這類方法在圖像分類 [15], [17], [18]、圖像分割 [16], [28], [29]、醫學影像診斷 [30], [31] 以及動作識別 [32], [33] 等任務中均取得了顯著成效。 鑒于該研究領域的快速發展,本文旨在對現有 VLM 無監督適配方法進行全面且結構化的綜述。據我們所知,這是首個圍繞無標注視覺數據可得性提出分類體系的工作——這一因素在實際部署中至關重要,卻往往被忽視。如圖 1 所示,我們將現有方法劃分為四種范式: 1. 無數據遷移(Data-Free Transfer)[15], [16], [21]:僅利用文本類別名稱來適配模型; 1. 無監督領域遷移(Unsupervised Domain Transfer)[17], [34], [35]:利用來自下游任務的充足無標注數據; 1. 情景式測試時適配(Episodic Test-Time Adaptation)[18], [24], [36]:針對一批測試樣本進行適配; 1. 在線測試時適配(Online Test-Time Adaptation)[19], [23], [25]:應對流式到達的測試數據。

這一分類體系為理解 VLM 無監督適配的研究版圖提供了系統化框架,有助于實踐者選擇合適的技術路徑,同時也有助于未來在同一范式下進行公平比較。 本文的組織結構如圖 2 所示:第 II 節概述了與 VLM 無監督學習相關的研究主題;第 III 節介紹了 VLM 的零樣本推理,并提出基于無標注視覺數據可得性的分類體系;第 IV–VII 節為本文核心內容,分別分析無數據遷移、無監督領域遷移、情景式測試時適配以及在線測試時適配中的現有方法;第 VIII 節探討無監督技術在多種應用場景中的實踐及相關基準,擴展對其實際意義和應用價值的認識;第 IX 節總結該領域的新興趨勢,并指出可能激發未來研究的關鍵科學問題。 與已有綜述的對比。 近年來,一些綜述性工作 [37]–[40] 涉及了無監督適配與 VLM 微調的不同方面。現有研究 [40]–[42] 多聚焦于單模態模型遷移,雖然對該領域進行了深入分析,但對 VLM 的覆蓋較為有限。較早的工作 [37] 討論了 VLM 的預訓練階段,并簡要分析了其在視覺任務上的微調方法;另一篇綜述 [38] 涉及多模態模型的適配與泛化,但粒度較為粗略;近期工作 [39] 從參數空間視角審視 VLM 下游任務的泛化,并回顧了相關方法。盡管這些綜述提供了有價值的見解,但本文首次基于無標注視覺數據可得性提出了分類體系,并在每個范式下深入分析前沿技術,我們認為這是對該領域的一個新穎且關鍵的補充,尤其對 VLM 的實際部署具有重要意義。

付費5元查看完整內容

摘要——隨著大型模型的迅速發展,得益于它們通過大規模預訓練在學習和泛化方面的卓越能力,人工智能(AI)領域的格局發生了巨大變化。這些模型現在已經成為多種應用的基礎,包括對話式AI、推薦系統、自動駕駛、內容生成、醫學診斷和科學發現。然而,它們的廣泛部署也使其面臨顯著的安全風險,引發了關于模型的魯棒性、可靠性和倫理問題的擔憂。本文對當前的大型模型安全研究進行了系統性綜述,涵蓋了視覺基礎模型(VFMs)、大型語言模型(LLMs)、視覺-語言預訓練模型(VLP)、視覺-語言模型(VLMs)、擴散模型(DMs)和基于大型模型的智能體等領域。我們的貢獻總結如下:(1)我們提出了一個關于這些模型安全威脅的全面分類,包括對抗性攻擊、數據投毒、后門攻擊、越獄和提示注入攻擊、能耗-延遲攻擊、數據與模型提取攻擊,以及新興的智能體特定威脅。(2)我們回顧了針對各類攻擊提出的防御策略(如果有),并總結了用于安全研究的常用數據集和基準。(3)在此基礎上,我們識別并討論了大型模型安全面臨的開放性挑戰,強調了對全面安全評估、可擴展且有效的防御機制以及可持續數據實踐的需求。更重要的是,我們突出了研究社區和國際合作的共同努力的必要性。我們的工作可為研究人員和從業者提供有價值的參考,促進全面防御系統和平臺的持續發展,以保障AI模型的安全。

關鍵詞——大型模型安全,人工智能安全,攻擊與防御  1 引言人工智能(AI)已經進入大型模型的時代,典型的代表包括視覺基礎模型(VFMs)、大型語言模型(LLMs)、視覺-語言預訓練模型(VLP)、視覺-語言模型(VLMs)以及圖像/視頻生成擴散模型(DMs)。通過在大規模數據集上進行預訓練,這些模型在從語言理解和圖像生成到復雜問題解決和決策制定等任務中,展現出了前所未有的能力。它們在理解和生成類人內容(例如文本、圖像、音頻和視頻)方面的能力,使得它們在客戶服務、內容創作、醫療保健、教育等領域得到了廣泛應用,突顯了它們在商業和社會領域的變革潛力。然而,大型模型的部署也帶來了顯著的挑戰和風險。隨著這些模型越來越多地應用于關鍵領域,關于它們在面對對抗性攻擊、越獄攻擊、后門攻擊、數據隱私泄露及生成有害或誤導性內容等方面的脆弱性,已經引發了廣泛的關注。這些問題構成了重大威脅,包括系統行為異常、隱私泄露以及有害信息的傳播。確保這些模型的安全至關重要,以防止此類不良后果,保持公眾信任并促進負責任的AI使用。為了應對這些挑戰,AI安全研究領域得到了擴展,涵蓋了多種攻擊方法、防御策略和評估基準,旨在識別和緩解大型模型的脆弱性。鑒于各種大型模型的安全相關技術迅速發展,我們的目標是提供一項全面的調查,重點介紹這些技術的優勢、劣勢和空白,同時推動研究和促進合作。鑒于我們調查的廣泛范圍,本文的結構考慮了以下幾個方面,以增強清晰度和組織性:模型:我們聚焦于六類廣泛研究的模型,包括VFMs、LLMs、VLPs、VLMs、DMs和智能體,分別審查每類模型的攻擊與防御方法。這些模型代表了各領域最受關注的大型模型。組織結構:對于每類模型,我們將回顧的工作分為攻擊與防御兩部分,并識別10種攻擊類型:對抗攻擊、后門攻擊、數據投毒、越獄攻擊、提示注入攻擊、能耗-延遲攻擊、成員推斷攻擊、模型提取攻擊、數據提取攻擊和智能體攻擊。當某一模型類別同時存在后門攻擊和數據投毒攻擊時,我們將其歸為“后門與數據投毒”類別,因這兩種攻擊具有相似性。我們在介紹每種攻擊類型后,緊接著回顧對應的防御策略。分類法:對于每種攻擊或防御,我們采用兩級分類法:類別 → 子類別。類別根據威脅模型(如白盒、灰盒、黑盒)或特定子任務(如檢測、凈化、魯棒訓練/調優和魯棒推理)進行區分。子類別則基于技術手段提供更詳細的分類。粒度:為了確保清晰度,我們簡化了每篇文獻的介紹,僅突出其核心觀點。我們的調查方法結構如下。首先,我們進行了基于關鍵詞的搜索,針對特定模型類型和威脅類型,篩選出相關論文。接著,我們手動剔除了與安全無關或非技術性的論文。對于每篇剩余的論文,我們通過分析其設置和攻擊/防御類型,將其提出的方法或框架分類,并分配到合適的類別和子類別中。最終,我們共收集了390篇技術論文,并通過圖1展示了它們在年份、模型類型和攻擊/防御策略上的分布。正如所示,自2023年ChatGPT發布以來,大型模型的安全研究顯著增加。在模型類型中,LLMs和DMs受到了最多關注,占據了被調查論文的60%以上。關于攻擊類型,越獄攻擊、對抗攻擊和后門攻擊是研究最廣泛的。在防御方面,越獄攻擊的防御受到了最多關注,其次是對抗攻擊的防御。圖2呈現了模型類型和攻擊/防御類別的時間趨勢,詳細分解了所回顧的工作。值得注意的是,攻擊研究占據了研究總量的60%。在防御方面,盡管防御研究只占40%,這一顯著差距突顯了防御策略亟待更多關注的必要性。本文的總體結構如圖3所示。與現有綜述的區別:大型模型安全是一個迅速發展的領域,已有多篇綜述文獻推動了該領域的研究。近期,Slattery等人[406]提出了一個AI風險框架,系統性地涵蓋了所有類型的風險。相比之下,我們的重點是技術層面,特別是文獻中提出的攻擊和防御技術。表1列出了我們所識別的技術性綜述,它們分別聚焦于特定類型的模型或威脅(例如LLMs、VLMs或越獄攻擊/防御)。與這些工作相比,我們的綜述提供了更廣泛的范圍——涵蓋了更多的模型類型和威脅,并且從更高層次的角度,專注于整體方法論,而非具體的技術細節。

付費5元查看完整內容

摘要—大型語言模型(LLMs)在廣泛的任務中展現出了卓越的能力,但在專業領域的應用仍面臨挑戰,主要原因在于需要深厚的領域專業知識。檢索增強生成(RAG)作為一種有前景的解決方案,通過無縫集成外部知識庫,使大型語言模型能夠在推理過程中實時訪問領域特定的專業知識,從而實現定制化。然而,傳統基于平面文本檢索的RAG系統面臨三個關鍵挑戰:(i)專業領域中復雜的查詢理解,(ii)跨分布式源的知識整合困難,和(iii)大規模下的系統效率瓶頸。本綜述提出了一種系統性的分析,重點討論了基于圖的檢索增強生成(GraphRAG),這是一種通過圖結構革命性地改變領域特定大型語言模型應用的新范式。GraphRAG通過三項關鍵創新解決了傳統RAG的局限性:(i)圖結構的知識表示,顯式捕捉實體關系和領域層次,(ii)高效的基于圖的檢索技術,支持多跳推理的上下文保持型知識檢索,和(iii)結構感知的知識整合算法,通過利用檢索到的知識進行準確且邏輯連貫的LLM生成。本文對GraphRAG的技術基礎進行了系統分析,并考察了在多個專業領域中的現有實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在//github.com/DEEP-PolyU/Awesome-GraphRAG供社區使用。

關鍵詞—檢索增強生成,知識圖譜,大型語言模型,GraphRAG

I. 引言

大型語言模型(LLMs),如GPT系列 [1],憑借其在廣泛任務中的卓越能力,令世界為之一驚,在文本理解 [2]、問答 [3] 和內容生成 [4]–[6] 等領域取得了突破性進展。然而,盡管LLMs在許多任務上表現出色,它們在處理需要領域專業知識的知識密集型任務時仍面臨批評 [7]。具體而言,LLMs在專業領域中的應用仍然面臨三大挑戰: ? 知識局限性:LLMs的預訓練知識廣泛,但在專業領域中較為淺薄。它們的訓練數據主要來自通用領域內容,導致在專業領域的知識深度不足,并且可能與當前的領域特定標準和實踐存在不一致。 ? 推理復雜性:專業領域要求精確的多步驟推理,涉及領域特定的規則和約束。LLMs往往難以在擴展的推理鏈中保持邏輯一致性和專業準確性,尤其是在處理技術約束或領域特定協議時。 ? 上下文敏感性:專業領域通常涉及依賴于上下文的解釋,相同的術語或概念在特定情況下可能具有不同的含義或影響。LLMs往往無法捕捉這些細微的上下文差異,導致潛在的誤解或不當概括。 為了將LLMs適配到特定或私有領域,最初的策略是通過使用專業數據集對LLMs進行微調 [8]。這種方法通過增加有限的參數并固定預訓練中學習到的參數來提高性能 [9]。然而,領域特定數據集與預訓練語料庫之間的顯著分布差距使得LLMs在不妥協現有理解的情況下整合新知識變得困難 [10]。谷歌研究的一項最新研究進一步突出了使用監督微調更新知識的風險,特別是在新知識與已有信息沖突時;通過監督微調獲取新知識可能導致模型生成新的幻覺,甚至遭遇嚴重的災難性遺忘 [11]。 檢索增強生成(RAG) 提供了一個有前景的解決方案來定制LLMs以適應特定領域 [12]。RAG并不是通過重新訓練LLMs來整合更新,而是通過利用外部知識庫增強這些模型,無需修改其架構或參數。這種方法使LLMs不僅能利用其預訓練知識,還能實時檢索領域特定信息,從而生成更加準確和可靠的回答。傳統的RAG系統通過三個關鍵步驟進行操作:知識準備、檢索和整合。在知識準備階段,外部資源(如文檔、數據庫或網頁)被分割成可管理的文本塊,并轉換為向量表示以便高效索引。在檢索階段,當用戶提交查詢時,系統通過關鍵詞匹配或向量相似度度量來搜索相關的文本塊。整合階段將這些檢索到的文本塊與原始查詢結合,以生成用于LLM響應的知情提示。近年來,一些先進的RAG系統已經超越了簡單的文本塊檢索,提供了更為復雜的知識增強方法。這些方法包括:通過多級檢索保持文檔結構的層次化RAG [13][14],實施兩階段檢索以提高召回率和精確度的重排序系統 [15][16],自動分解復雜查詢的自查詢RAG [17],以及根據查詢類型動態調整檢索策略的自適應RAG [18][19]。這些先進的RAG系統通過提升上下文感知能力、檢索準確性,并更有效地處理復雜查詢,旨在克服傳統RAG方法的局限性。 RAG的出現為定制LLMs提供了一個有前景的方法,但盡管如此,RAG仍面臨若干關鍵限制,影響其在實際應用中的效果。這些限制可大致分為四個主要挑戰,顯著影響RAG增強的LLMs的性能和實用性。主要挑戰在于復雜查詢理解。專業領域通常涉及復雜的術語和行業特定的行話,需要精確的解釋 [20]。這些領域中的用戶查詢通常包含大量技術性術語和行業特有的表達,解決方案往往需要跨多個相關概念進行推理。傳統的RAG方法依賴于簡單的關鍵詞匹配和向量相似度技術,這些方法無法有效捕捉準確和全面的深層語義差異和多步驟推理過程 [21]。例如,當詢問概念A與概念D之間的關系時,這些系統通常只檢索直接相關的信息,而忽略了可能橋接這一關系的關鍵中介概念,如B和C。這種狹隘的檢索范圍限制了RAG對廣泛上下文理解和復雜推理的能力。 另一個關鍵挑戰是從分布式來源整合領域知識。領域知識通常來自不同的資源,如教科書、研究論文、行業報告、技術手冊和維護日志。這些文本文檔可能具有不同的質量、準確性和完整性。檢索到的知識通常是平坦的、廣泛的且復雜的,而領域概念通常分散在多個文檔中,且不同概念之間缺乏清晰的層次關系 [7][22][23]。盡管RAG系統通過將文檔分割成較小的塊以便高效索引來管理這種復雜性,但這種方法不經意間犧牲了重要的上下文信息,顯著妥協了檢索準確性和上下文理解能力。這一限制妨礙了在相關知識點之間建立穩固聯系,導致理解片面,進而降低了領域專業知識的利用效果。 第三個限制來自LLMs固有的限制。盡管RAG系統可以從龐大的知識庫中檢索相關信息,但LLM處理這些信息的能力受限于其固定的上下文窗口(通常為2K-32K個token) [1][24]。復雜文檔中的長程依賴關系無法完全捕捉,因為超出上下文窗口的內容必須被截斷或總結,這會打斷自然的語義單元和邏輯流程。在專業領域中,保持跨廣泛知識背景的一致性變得更加棘手,因為在上下文窗口截斷過程中,關鍵信息可能會丟失。這一固有限制直接影響了系統從大規模知識庫中處理和綜合信息的能力。 最后的挑戰與系統效率和可擴展性有關。整個RAG管道——從初步的語料預處理和索引到實時檢索和生成——面臨顯著的效率瓶頸 [25][26]。外部知識庫中包含大量與領域無關的信息,而領域特定的術語通常在這些文檔中分布稀疏。RAG系統計算成本高且耗時 [25],特別是在處理大規模知識源時,因為模型需要搜索大量未結構化的文本以尋找相關信息。此外,實時檢索和跨文檔推理可能引入相當大的延遲,影響用戶體驗。隨著知識庫規模的增長,RAG的可擴展性受到檢索質量和準確性的下降限制 [26],這進一步限制了其在廣泛且動態的專業環境中的實際部署。 為了應對這些限制,圖檢索增強生成(GraphRAG)作為一種新范式應運而生,旨在通過組織良好的背景知識和改進的上下文推理定制LLMs [25][27]–[29]。基于圖結構,現有的GraphRAG模型可分為三大類:? 基于知識的GraphRAG,將圖作為知識載體;? 基于索引的GraphRAG,使用圖作為索引工具,從語料庫中檢索相關的原始文本;? 混合型GraphRAG,結合了基于知識和基于索引框架的優勢,為復雜推理任務提供了更先進的解決方案。基于知識的GraphRAG和基于索引的GraphRAG代表了兩種不同的增強LLMs的圖結構方法。基于知識的GraphRAG側重于將非結構化文本文檔轉化為明確且結構化的知識圖譜,其中節點表示領域概念,邊表示它們之間的語義關系,從而更好地表示層次關系和復雜的知識依賴性。相比之下,基于索引的GraphRAG保持原始文本形式,同時主要利用圖結構作為索引機制來高效地組織和檢索相關文本塊。通過將圖結構融入文本索引,基于索引的GraphRAG方法在文本塊之間建立語義連接,便于高效的查找操作和檢索。雖然基于知識的GraphRAG強調通過圖轉換明確建模領域知識和語義關系,而基于索引的GraphRAG則優先優化信息檢索和通過圖形索引策略提升文本信息的可訪問性。這兩種方法在目的上有所不同:基于知識的GraphRAG旨在通過圖結構推理能力創建結構化的知識表示,幫助更好地理解復雜關系;而基于索引的GraphRAG則側重于通過圖結構索引策略優化相關文本信息的檢索和可達性。 在本文中,我們系統地分析了GraphRAG的技術基礎,并考察了在各個專業領域中的當前實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在

本綜述對GraphRAG進行了全面分析,詳細介紹了其分類、機制、挑戰和未來的研究方向,并將內容組織為七個主要部分,逐步從基礎概念到實際應用展開。具體來說,我們在第二部分(Section 2 II)首先建立了基礎框架,追溯了GraphRAG從傳統RAG系統的演變,探討了RAG在處理結構化知識時的局限性,并介紹了GraphRAG在復雜推理任務中的核心概念和優勢。接下來的三部分系統地探討了GraphRAG系統的關鍵組件:包括知識承載圖和索引圖(第三部分Section 3 IV)兩種主要的結構化知識組織范式;從結構化知識庫中提取與查詢相關的事實信息的檢索技術(第四部分Section 4 V);以及有效地將檢索到的知識整合到LLM中的知識集成方法(第五部分Section 5 VI)。隨著向實際應用的推進,第六部分(Section 6 VIII)通過提供詳細的實施指南、回顧開源項目,并呈現由全面數據集和評估基準支持的領域特定案例研究,討論了GraphRAG的實施方面。最后,第七部分(Section 7 VII)通過識別未來的研究方向,并討論知識質量、檢索效率、系統泛化能力和安全性等潛在挑戰,結合實踐指導,總結了構建領域特定GraphRAG系統的建議。 本綜述在現有的綜述 [28]–[30] 基礎上進行了進一步擴展,采用了更加系統和全面的方法分析GraphRAG系統。盡管之前的綜述提供了Graph基索引、圖引導檢索和圖增強生成的基本工作流描述,我們引入了一個更為復雜且全面的分類法,將GraphRAG方法清晰地分為三類(基于知識的、基于索引的和混合型GraphRAG),從而提供了對該領域更加細致的理解。我們的綜述采用了更為系統的六部分結構,邏輯地從理論基礎到實踐應用展開,詳細探討了每個組成部分,包括知識組織范式、檢索技術和集成方法。

與之前的綜述不同,我們通過詳細回顧開源項目、領域特定案例研究以及提供全面的數據集和評估基準,提供了豐富的實踐指導。我們還對多個維度的挑戰和解決方案進行了更為深入的分析,包括知識質量、檢索效率、系統泛化能力和安全性問題。最后,盡管現有綜述廣泛討論了潛在應用,我們提供了更多基于實證證據和實施示例的可操作性見解,使我們的綜述成為在生產環境中部署GraphRAG系統的實踐者更具價值的資源。

付費5元查看完整內容

摘要—人工智能(AI)的快速發展已徹底改變了眾多領域,尤其是大規模語言模型(LLMs)和計算機視覺(CV)系統,分別推動了自然語言理解和視覺處理的進步。這些技術的融合催生了多模態人工智能,能夠實現跨文本、視覺、音頻和視頻等模態的更豐富的跨模態理解。尤其是多模態大規模語言模型(MLLMs)作為一種強大的框架,展現了在圖像-文本生成、視覺問答和跨模態檢索等任務中的卓越能力。盡管取得了這些進展,MLLMs的復雜性和規模也帶來了可解釋性和可解釋性方面的重大挑戰,而這些挑戰對于在高風險應用中建立透明性、可信度和可靠性至關重要。本文提供了關于MLLMs可解釋性和可解釋性的全面綜述,提出了一個新穎的框架,將現有研究從以下三個角度進行分類:(I) 數據,(II) 模型,(III) 訓練與推理。我們系統地分析了從詞匯級到嵌入級表示的可解釋性,評估了與架構分析和設計相關的方法,并探討了增強透明度的訓練和推理策略。通過比較各種方法論,我們識別了它們的優缺點,并提出了未來研究方向,以解決多模態可解釋性中尚未解決的挑戰。本文綜述為推動MLLMs的可解釋性和透明度提供了基礎資源,旨在引導研究人員和實踐者開發更加負責任和穩健的多模態人工智能系統。

關鍵詞—多模態大規模語言模型、可解釋性、可解釋性、綜述

引言 人工智能(AI)的快速發展已經顯著改變了眾多領域。最近,AI領域最具影響力的進展之一是大規模語言模型(LLMs)的發展,這些模型在文本生成、翻譯和對話式AI等一系列自然語言任務中表現出卓越的語言理解和生成能力[1]。同樣,計算機視覺(CV)的進展使得系統能夠有效處理和解釋復雜的視覺數據,推動了物體檢測、動作識別和語義分割等任務的高精度實現[2]。最近,這些技術的融合激發了對多模態人工智能的興趣,它旨在整合文本、視覺、音頻和視頻等多種模態,實現更加豐富和全面的多模態理解[3, 4, 5, 6, 7, 8, 9, 10, 11]。多模態大規模語言模型(MLLMs)在深度學習技術的重大進展推動下,經歷了快速的發展[12, 13, 14, 15, 16, 17]。通過整合多種數據源,MLLMs在一系列多模態任務中展示了先進的理解、推理和生成能力,包括圖像-文本生成[18, 19, 20]、視覺問答[21, 22, 23, 24, 25, 26, 27, 28]、跨模態檢索[29, 30, 31]、視頻理解[32, 33, 34, 35, 36, 37, 38]。因此,MLLMs在多個領域找到了廣泛的應用[39, 40, 41],包括自然語言處理(NLP)[42, 43]、計算機視覺(CV)[44, 45]、視頻[15, 46, 47]、自動駕駛[3, 48, 49]、醫學[50, 51, 52]和機器人技術[53, 54, 55, 56, 57, 58]。然而,隨著MLLMs的復雜性和規模的增長,出現了一個關鍵挑戰:解碼MLLMs的決策過程[6, 59, 60]。 可解釋人工智能(XAI)領域已經成為使復雜AI系統的決策過程更加透明和易于理解的關鍵[61, 62, 63]。可解釋性和可解釋性被定義為能夠以人類可理解的方式解釋或呈現[64, 65]。盡管在單模態的可解釋性和可解釋性方面已經取得了顯著進展,例如在卷積神經網絡(CNN)[66, 67]和變換器(transformers)[68]在圖像上的應用,以及LLMs[69]在文本中的應用,但多模態領域存在獨特的挑戰,如不同模態的對齊和分解。此外,MLLMs的可解釋性和可解釋性對于確保透明性和可信度至關重要,特別是在人工智能決策對人類產生重大影響的高風險應用中,這涉及如何在模型中結合不同的數據類型,以及它們的相互作用如何影響輸出。根據近期的研究[64, 70, 71],本文定義了在MLLMs中,可解釋性指的是那些本質上易于理解的內部結構,使得輸入如何轉化為輸出能夠直觀地理解。另一方面,MLLMs的可解釋性涉及提供關于模型決策背后的外部分析的后置技術。 本文提出了一種新的視角來分類MLLMs的可解釋性和可解釋性,通過整合數據、模型、訓練與推理的視角。正如圖1所示,我們從三個角度考察MLLMs的可解釋性和可解釋性:數據(第III節)、模型(第IV節)、訓練與推理(第V節)。繼數據驅動的可解釋性研究[72, 73, 74, 75]之后,我們探討了數據視角(第III節),分析輸入和輸出數據如何歸因于模型的決策。我們還分析了基準和應用,以評估各種任務中的可信度和可靠性,從而確保其在現實場景中的魯棒性和適用性[76, 77]。在模型的可解釋性和可解釋性方面[78, 79, 80, 81, 82, 83, 84],從模型視角(第IV節),我們深入分析了從詞匯級、嵌入級、神經元級、層級到架構級的各個層面。在詞匯級[85, 86, 87, 88, 89],我們研究了單個詞匯對模型輸出的影響,并探索了增強可解釋性的方法。在嵌入級[90],我們評估了多模態嵌入如何影響MLLMs的性能和可解釋性,提供了對底層表示機制的更深刻理解。對于神經元級[91, 92, 93],我們分析了單個單元和特定神經元組的作用,以理解它們對整體模型行為的貢獻。在層級級[67, 78, 94],我們研究了不同層次如何影響模型內的決策過程。在架構方面,我們區分了架構分析和架構設計[95, 96, 97, 98]的可解釋性方法,強調了促進透明性和更好理解模型操作的策略。 此外,我們還探討了增強模型透明性和可解釋性的訓練與推理策略(第V節)。在訓練階段[79],我們總結了各種訓練機制和權重調整如何影響MLLMs的可解釋性。我們討論了旨在改善對齊、減少幻覺并促進核心知識和泛化能力獲取的技術。在推理階段,我們研究了如何在不需要重新訓練的情況下,緩解諸如幻覺等問題,包括過度信任懲罰機制和鏈式推理技術。 通過整合這些視角[3, 99, 100],我們的綜述提供了對MLLMs可解釋性和可解釋性挑戰與進展的全面理解。我們相信,這一全面分析將為致力于開發更透明、可靠和可信的多模態模型的研究人員和實踐者提供寶貴的資源。本研究的主要貢獻總結如下: * 我們首次提供了對現有多模態大規模語言模型(MLLMs)可解釋性和可解釋性的深入和全面回顧。 * 我們展示了當前多模態大規模語言模型可解釋性和可解釋性方法的結構化和比較分析,提出了一種新穎的分類方法,將這些方法組織為數據、模型、訓練與推理視角。 * 我們突出顯示了可能推動該領域發展的研究方向,為研究人員進一步發展MLLMs的可解釋性和可解釋性方法提供了有價值的指導。

II. 綜述框架

A. 綜述范圍 近年來,多模態模型和可解釋人工智能(XAI)取得了顯著進展,許多研究探索了使這些復雜模型更加透明和可解釋的方法[72, 73, 74]。為了將本綜述的范圍縮小到一個可管理的范圍,我們聚焦于多模態大規模語言模型(MLLMs)的可解釋性和可解釋性。MLLMs的可解釋性指的是那些本質上易于理解的內部結構,能夠為輸入如何被處理并轉化為輸出提供直觀的洞察[78, 79]。可解釋的MLLMs使研究人員和實踐者能夠深入理解這些跨模態的動態,澄清每個模態如何影響和塑造模型的決策過程[90]。可解釋性涉及使用外部技術來闡明模型決策背后的原因,這在MLLMs中對于理解多模態間復雜的交互作用至關重要[95]。這種重點不僅增強了我們對多模態集成的理解,也回應了對復雜AI系統透明度日益增長的需求[79]。 在本綜述中,我們集中探討MLLMs中四個主要維度的可解釋性和可解釋性: * 數據可解釋性 —— 探討來自不同模態的輸入數據如何預處理、對齊和表示,以支持跨模態的可解釋性,以及如何應用因果歸因方法來增強對模型決策的理解[72, 75]。 * 模型可解釋性 —— 闡明多模態模型本身的結構和功能,提供關于神經元、層次和架構如何貢獻于可解釋性的洞察[67, 78, 79, 80, 85, 86, 87, 90, 91, 95]。 * 訓練與推理可解釋性 —— 理解MLLMs的訓練和推理過程如何影響可解釋性,這對于在學習階段和實際應用中提升透明度至關重要。

為了保持焦點,我們將單一模態的可解釋性方法排除在本綜述的主要范圍之外,如變換器(Transformer)的可解釋性、卷積神經網絡(CNN)的可解釋性或LLMs的可解釋性,僅作為簡要的背景信息進行介紹。類似地,一些不涉及多模態交互獨特挑戰的通用可解釋性方法也不在本綜述的主要范圍之內。相反,我們將重點放在那些專門設計用于解釋和闡明多模態之間交互作用的方法和模型上。 B. 綜述方法論 為了提供對MLLMs可解釋性和可解釋性的全面概述,我們進行了廣泛的文獻回顧,涵蓋了機器學習、自然語言處理(NLP)、計算機視覺(CV)和多模態系統等領域的研究論文。我們重點審查了過去十年(2010–2024)間發表的論文,特別是研究這些領域中可解釋性和可解釋性的不斷增長的文獻。我們的研究方法包括幾個關鍵步驟。首先,我們使用“多模態大模型”、“可解釋性”和“可解釋性”等關鍵詞,在Google Scholar等數據庫中搜索相關論文,具體細節見表I。為了進一步確保綜述的完整性,我們還審查了關鍵論文的參考文獻,并包括了對該領域具有影響力的早期工作。 在收集候選論文后,我們進行了多步驟的篩選過程。首先通過標題篩選潛在相關的論文,然后進行摘要篩查以確認相關性。如果標題和摘要不足以做出決策,我們會進一步查閱完整的文本。如圖2所示,最終選擇的文獻涵蓋了應用于MLLMs的各種可解釋性和可解釋性技術,包括輸入輸出分析、模型組件和訓練動態等。

結論

本綜述系統地探討了多模態大規模語言模型(MLLMs)的可解釋性和可解釋性,強調了決策過程透明性的重要性。我們將可解釋性方法分為三個主要領域——數據、模型和訓練與推理——提供了一個結構化框架來組織研究并指導未來的研究工作。盡管已經取得了顯著進展,但在可解釋性方法和確保廣泛適用性方面仍然存在挑戰。未來的努力應著眼于填補這些空白,構建對MLLMs的統一理解,推動創新,使多模態系統變得更加可靠和可信。

付費5元查看完整內容

摘要—持續學習(CL)旨在使機器學習模型能夠從新數據中不斷學習,同時在不遺忘已獲得知識的基礎上進行擴展。隨著機器學習模型從小規模到大規模預訓練架構的演變,以及從支持單一模態數據到支持多模態數據,多模態持續學習(MMCL)方法最近開始出現。MMCL的主要挑戰在于,它超越了簡單的單模態持續學習方法的疊加,因為這種直接的方法通常會產生不理想的效果。在本研究中,我們首次對MMCL進行了全面綜述。我們提供了MMCL的基本背景知識和設定,并提出了結構化的MMCL方法分類法。我們將現有的MMCL方法分為四類,即基于正則化、基于架構、基于重放和基于提示的方法,闡述它們的方法論并強調其關鍵創新。此外,為了激發該領域的進一步研究,我們總結了開放的MMCL數據集和基準,并討論了若干未來有前景的研究和發展方向。我們還創建了一個GitHub倉庫,用于索引相關的MMCL論文和開放資源,網址為://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning。

關鍵詞—多模態持續學習,多模態數據,終身學習,增量學習

1 引言近年來,機器學習(ML)取得了顯著的進展,為解決各種實際問題作出了重要貢獻。在傳統設置中,大多數ML模型在所謂的“單一階段”范式下運行,即在靜態和單一數據集上進行訓練,并在獨立同分布(i.i.d.)假設下進行評估【1】。然而,這種“單一階段”范式無法賦予訓練模型適應新數據或執行新任務的能力,因此難以滿足開發能夠應對動態變化環境的智能體的需求。為解決這一問題,ML社區致力于發展持續學習(CL),也稱為終身學習或增量學習,它通過在新任務上逐步訓練模型并保留早期知識,無需對完整數據進行重新訓練【2-5】。 CL的主要挑戰是災難性遺忘:當任務按順序進行訓練時,針對新任務的訓練會嚴重影響之前已學習任務的性能【6, 7】,這是因為不受約束的微調會使參數遠離舊的最優狀態【8】。CL的目標是開發能夠持續獲取知識并保留已學習信息的學習系統。這一過程本質上模仿了生物大腦的認知靈活性,生物大腦在整個生命過程中不斷學習各種技能【9】。通過使模型能夠在不遺忘的情況下適應新任務,CL在資源和時間效率方面相較于傳統的模型全數據重新訓練方法具有顯著優勢。此外,由于存儲限制、隱私問題等原因,歷史訓練數據可能無法訪問,這使得全數據訓練變得不可行,進一步突顯了CL在記憶舊知識并從動態環境中獲取最新知識方面的效率和有效性。盡管CL取得了顯著進展,大多數研究仍集中在單一數據模態上,如視覺【10-13】、語言【14-16】、圖【17, 18】或音頻【19】。這種單模態的關注忽略了真實世界環境的多模態特性,這些環境本質上是復雜的,由多種數據模態組成而非單一模態。隨著多模態數據的快速增長,例如Meta和TikTok等平臺上圖像、文本和視頻數據的激增,開發能夠從多模態源中持續學習的AI系統變得至關重要,因此出現了多模態持續學習(MMCL)設置。這些MMCL系統需要有效地整合和處理多模態數據流【20, 21】,同時還要能夠保留先前獲取的知識。更重要的是,這種MMCL設置更接近于人類生物系統在應對現實世界復雜性時跨模態學習和整合信息的過程【22, 23】。MMCL的挑戰。盡管傳統單模態CL與MMCL之間存在聯系,MMCL的挑戰遠不止是簡單地將CL方法疊加在多模態數據上。事實證明,這種直接的嘗試通常會產生次優性能【31-33】。具體來說,如圖2所示,除CL中已有的災難性遺忘問題外,MMCL的多模態特性還引入了以下四個挑戰。這些挑戰不僅獨立存在,還可能加劇災難性遺忘問題:

  • 挑戰1(模態不平衡)。模態不平衡指的是在多模態系統中對不同模態進行不均衡處理或表示,這種不平衡在數據和參數層面上都有體現。在數據層面,不同模態的數據可用性在CL過程中可能顯著不同,可能出現極端不平衡的情況,如某些模態的缺失【28】。在參數層面,不同模態特定組件的學習速率可能有所不同,導致跨所有模態的整體不平衡學習過程【34】。因此,MMCL模型可能會遭受性能下降,甚至在某些情況下其表現可能比單模態模型還要差【32, 36】。
  • 挑戰2(復雜模態交互)。模態交互發生在模型組件中,即多模態輸入信息的表示之間進行顯式交互。這一交互在MMCL中引入了獨特的挑戰,主要體現在兩個交互過程中:模態對齊和模態融合【37】。在模態對齊中,不同模態的單一數據樣本的特征在持續學習過程中往往會發生偏離,這種現象被稱為MMCL中的空間紊亂【38】。在模態融合中,傳統的多模態融合方法在非CL環境中效果良好,但在MMCL環境中可能表現較差,因為不同的融合技術對解決遺忘問題的影響各不相同【36, 39】。
  • 挑戰3(高計算成本)。MMCL中的多模態整合顯著增加了模型和任務特定層面的計算成本。在模型層面,增加模態不可避免地增加了可訓練參數的數量。許多MMCL方法利用預訓練的多模態模型作為基礎,但持續地微調這些大規模模型會導致沉重的計算負擔【42, 43】。這些不斷增加的計算需求對MMCL方法的實際部署提出了嚴格的可擴展性要求。
  • 挑戰4(預訓練零樣本能力的退化)。隨著預訓練模型的進步,MMCL方法可以借助這些強大的基礎模型。預訓練的多模態模型通常具有在未見過的任務上實現零樣本能力的優勢【44, 45】。然而,在MMCL的連續微調過程中,預訓練基礎模型的一些初始能力可能會下降,這種退化風險可能導致未來任務的性能嚴重下降【45】。 貢獻。為了應對這些挑戰,研究人員正日益關注MMCL方法。我們首次提供了MMCL的全面綜述。我們總結了當前的數據集和基準測試,以促進研究和實驗,并在快速發展的MMCL領域內討論了未來的研究方向。總之,我們的綜述有以下主要貢獻:
  1. 我們提供了第一個全面的MMCL綜述。我們詳細介紹了MMCL的背景知識,包括基本的設定、不同的MMCL場景和常用評估指標。
  2. 在我們的MMCL方法分類體系中,我們將現有的MMCL工作分為四個類別,并提供了詳細的子類別解釋。
  3. 我們總結了當前的數據集和基準,并討論了未來的研究方向,旨在激發創新性研究,從而促進更有效的MMCL方法的發展。

多模態持續學習根據輸入模態的不同,多模態持續學習可以分為五種主要場景:

  • 類增量學習(Class-incremental Learning, CIL):不同任務間的數據分布和標簽空間不同,且測試階段不提供任務ID。模型需能在所有已學類別間進行分類。
  • 領域增量學習(Domain-incremental Learning, DIL):不同任務間的數據分布不同,但共享相同的標簽空間。測試階段不需要任務ID。
  • 任務增量學習(Task-incremental Learning, TIL):不同任務的數據分布和標簽空間均不同,且測試階段提供任務ID,模型知道執行的是哪個任務。 此外,為了適應多模態數據,定義了兩種新的場景:
  • 生成式領域增量學習(Generative Domain-incremental Learning, GDIL):此場景用于生成式任務,例如視覺問答。與CIL不同,GDIL中的模型輸出來自一個較大的詞匯集。
  • 模態動態任務增量學習(Modality-dynamic Task-incremental Learning, MDTIL):任務序列中的模態可能變化,模型在測試階段獲得任務ID,并適應不同的模態組合。

3 方法學

在多模態持續學習(MMCL)中,有多種方法學策略。本文將MMCL方法分為四大類:基于正則化、基于架構、基于重放以及基于提示的方法。圖5對這些方法進行了分類,并在后續的小節中詳細說明。表2總結了各類MMCL方法的具體特性,而圖6展示了代表性架構,主要以視覺和語言模態為主。對于其他模態的方法,在表3中進行了匯總。在正式介紹MMCL方法之前,我們將首先介紹一些經典的單模態持續學習(CL)方法,因為它們既是MMCL方法的前身,也在MMCL研究中被廣泛用作對比。

**3.1 基于正則化的方法

基于正則化的方法旨在通過對參數施加約束來減少災難性遺忘現象【8】。這類方法根據約束方式的不同,分為顯式正則化和隱式正則化兩種。下圖(圖6a)總結了顯式和隱式正則化方法的代表性架構。3.1.1 顯式正則化顯式正則化方法通過直接為參數賦予重要性權重來抑制模型的參數變化。它通過懲罰那些偏離先前最優狀態的參數,以減緩模型的遺忘。其關鍵思想是對模型的參數偏移施加顯式約束,以保護模型在先前任務中的知識。在這種方法中,常用的技術包括:

  • 彈性權重保持(Elastic Weight Consolidation, EWC):通過利用Fisher信息矩陣對參數賦予權重,從而實現參數保護,避免重要參數發生顯著改變。EWC的變種方法例如EWCH和在線EWC通過單一正則化項的方式進一步提高了效率。
  • 任務相關性調節(Task Importance Regularization, TIR):這是MMCL中的一種方法,基于BLIP2等多模態模型。它通過計算新舊任務之間的相似性來動態調整正則化權重,以適應長期持續學習的需求。 3.1.2 隱式正則化隱式正則化方法主要關注于在訓練新任務時盡量保持模型對舊任務輸出的一致性,從而減少遺忘風險。與顯式正則化不同,隱式正則化方法僅在參數變化導致模型輸出改變時才施加懲罰,因此允許參數更自由地調整。隱式正則化常見的方式是知識蒸餾(KD),通常包括以下幾種策略:
  • 基于logits的蒸餾(Logits-based KD):通過對比新模型和舊模型在最后一層輸出的logits,盡量讓新模型在訓練新任務時保持與舊任務相似的輸出分布。
  • 基于特征的蒸餾(Feature-based KD):不僅關注最終輸出,還在中間層的特征上進行對比,從而保留中間表征。
  • 基于關系的蒸餾(Relation-based KD):使用樣本間的關系信息進行對比,如在視覺-語言模型中,可以利用圖像和文本之間的相似度來進行知識轉移。 典型的單模態模型中,LwF(Learning without Forgetting)是一種經典的隱式正則化方法,它在訓練新任務前使用當前數據生成舊任務的輸出,并在訓練時通過KD損失來最小化新任務下的輸出變化。LwF因其無需顯式存儲舊任務數據的特性,被廣泛應用于多模態和單模態CL模型中。在多模態模型中,隱式正則化方法進一步擴展并改進了KD策略以適應不同的模態。例如,ZSCL(Zero-Shot Continual Learning)和Mod-X都使用CLIP作為基礎模型,通過KD技術保留零樣本能力。此外,Mod-X還關注空間無序(Spatial Disorder)問題,以解決視覺和語言表征在持續訓練過程中逐漸偏離的問題。

3.2 基于架構的方法

架構方法通過引入任務特定組件來減少不同任務之間的干擾,通常分為固定架構和動態架構兩種。

**3.2.1 固定架構

固定架構方法在整個任務序列中保持相同的模型結構,通過任務掩碼選擇性地激活或抑制特定參數,從而使各個任務使用不同的參數組合。這種方式通過分配任務特定的參數部分來減輕遺忘現象。單模態模型中,HAT(Hard Attention to the Task)通過學習接近于二值的注意力向量,在模型層次上選擇性激活或抑制參數。它通過掩碼來固定特定參數,以保留早期任務的知識。在多模態模型中,RATT(Recurrent Attention Task Transformer)使用固定架構進行圖像描述生成。它結合了卷積神經網絡(CNN)和長短時記憶網絡(LSTM),并通過注意力掩碼實現特定任務的激活,以便針對不同任務分配不同的模型層激活狀態。

**3.2.2 動態架構

動態架構方法則允許模型結構隨著任務的引入而動態擴展,通常通過添加新模塊來增加模型容量。與固定架構不同,動態架構可以在新任務到來時擴展新的任務特定模塊,因此性能不會受到初始容量的限制。在單模態模型中,進步網絡(Progressive Network)是一種早期的動態架構,它通過為每個新任務初始化一個新網絡來避免遺忘。這種方法使用橫向連接來支持特征共享和知識轉移。多模態模型中的動態架構方法則可以通過任務特定、模態特定等多種策略來決定如何擴展網絡結構。例如,MoE-Adapters4CL在多模態模型CLIP的基礎上為每個新任務添加模塊,減少了新任務對已有知識的干擾。此外,ODU和CMR-MFN都設計了模態融合模塊,以應對多模態數據中模態組合多變的特性。

3.3 基于重放的方法

重放方法使用一個記憶緩沖區來存儲歷史實例,以幫助在學習新任務時維護早期任務的知識。這些方法無需動態調整網絡架構,也不需約束參數自由度。基于獲取重放數據的不同方式,重放方法可以分為直接重放和偽重放兩種。

**3.3.1 直接重放

直接重放方法通過將舊任務中的少量樣本存儲在記憶緩沖區中,以在新任務訓練時進行重放。此類方法的關鍵在于如何選擇代表性樣本以充分利用有限的記憶空間。在多模態模型中,例如VQACL和SAMM采用隨機選擇策略直接重放多模態樣本。實驗表明,與單模態重放相比,多模態重放能顯著提升模型的穩定性和靈活性。此外,KDR通過在跨模態相似度矩陣上引入KD,以確保模型更新前后的交互一致性,從而進一步鞏固知識。

**3.3.2 偽重放

偽重放方法利用生成模型學習舊任務的數據分布,從而在當前階段生成偽造數據,避免了直接重放方法的存儲需求和隱私問題。例如,單模態模型中DGR(Deep Generative Replay)通過訓練生成對抗網絡(GAN)來生成數據樣本以進行重放。后續研究擴展了偽重放策略,包括在特征層面進行偽重放,以強化特征表示,減少遺忘現象。在多模態模型中,SGP通過保存場景圖和語言模型生成偽造數據以進行偽重放。此外,AID通過偽原型重放策略處理模態不平衡問題,從而提升分類器的區分能力。這些方法解決了多模態學習環境中數據類型多樣性和平衡性的問題。

3.4 基于提示的方法

基于提示的方法利用預訓練大模型,通過修改輸入而非調整模型結構來保留原始知識并學習新任務。此類方法減少了大規模微調的需求,并能夠更好地保留預訓練模型的零樣本能力。在多模態模型中,例如Fwd-Prompt和S-liPrompts分別采用共享提示和任務特定提示策略,增強了視覺-語言模型在跨模態信息融合中的表現。CPE-CLIP通過將視覺提示設計為語言提示的函數來連接多模態信息,使模型在新任務中具備更好的適應性。

4 數據集和基準

本節對當前多模態持續學習(MMCL)領域的主要數據集和基準進行了綜述。MMCL中的大多數數據集都是從最初為非持續學習(CL)任務設計的知名數據集中改編而來,研究人員常常利用多個數據集或將單一數據集劃分為多個子集,以便在MMCL設置中模擬任務【39】。此外,也存在一些專門為MMCL構建的數據集,例如P9D【68】和UESTC-MMEA-CL【39】。表4匯總了涵蓋各種CL場景、模態和任務類型的MMCL基準。以下將具體介紹這些基準,若數據集和代碼為公開可訪問,將在相應位置標明。

**4.1 基于原始數據集的基準

這一部分總結了兩個專門為MMCL構建的數據集:

  • P9D:Zhu等人【68】利用電商數據構建了首個視覺-語言持續預訓練數據集P9D,并建立了跨模態檢索與多模態檢索的VLCP基準。P9D包含超過一百萬對真實產品的圖像和文本數據,并根據行業類別劃分為9個任務。該數據集旨在支持多模態任務中不同類別的持續學習。
  • UESTC-MMEA-CL:Xu等人【39】收集了來自佩戴智能眼鏡的10位參與者的視頻和傳感器數據,構建了包含視覺、加速度和陀螺儀模態的UESTC-MMEA-CL數據集,這是第一個用于持續自我活動識別的多模態數據集。作者還建立了CEAR基準,并使用了三種基礎CL方法:EWC【11】、LwF【10】和iCaRL【12】。研究結果顯示,與其他方法相比,iCaRL在重放基礎上能更有效地減輕遺忘問題。 這兩個數據集通過與常用CL方法的結合驗證了MMCL方法在不同模態組合上的有效性,也進一步揭示了多模態數據融合的挑戰及潛在研究方向。

**4.2 基于多個數據集的基準

除了專門的數據集外,也有一些基準通過使用多個數據集來模擬MMCL任務。以下是一些此類基準的簡要介紹:

  • CLiMB【31】:該基準包括四個視覺-語言任務(VQAv2、NLVR2、SNLI-VE和VCR)、五個僅語言任務(IMDb、SST-2、HellaSwag、CommonsenseQA和PIQA)以及四個僅視覺任務(ImageNet-1000、iNaturalist2019、Places365和MS-COCO目標檢測)。CLiMB采用分類任務來評估模型在不同模態任務中的表現。
  • CLOVE【63】:專注于生成任務,適用于不同模態的生成式任務,利用多個數據集進行評估。
  • MTIL【45】:該基準在視覺-語言領域內使用了多個數據集進行任務增量學習,驗證模型在多任務設置中的表現。
  • CEAR【39】:基準測試多模態數據集(視頻、加速度和陀螺儀)上的持續學習性能,評估模型對復雜運動數據的持續識別能力。 這些基準提供了多種任務和模態組合,用以驗證模型在各種復雜多模態環境中的持續學習能力。通過這些基準,研究人員可以深入探討MMCL方法在不同任務類型下的適用性和性能表現。

5 未來研究方向

隨著多模態模型的快速發展,多模態持續學習(MMCL)已成為一個活躍且前景廣闊的研究課題。在本節中,我們提出了幾個值得進一步探索和研究的未來方向。

**5.1 提升模態數量與質量

當前的MMCL研究中,多模態數據的數量和質量直接影響模型的性能。然而,由于不同模態的數據特性和收集難度,提升模態數量和質量仍面臨諸多挑戰:

  1. 豐富模態種類:許多現有研究主要集中在視覺、語言和音頻模態上,但實際應用中往往需要結合更多模態,如生物信號、環境數據等。因此,未來研究可以探索如何將更多元的模態引入MMCL系統,以提高模型對復雜環境的適應性和泛化能力。
  2. 提高數據質量:不同模態數據的噪聲和不完整性可能導致信息缺失或誤導模型學習。提高數據采集和預處理的質量,以及開發具有魯棒性的數據增強方法,將有助于改善模型對多模態數據的學習效果。
  3. 模態互補性研究:多模態數據之間的互補性在MMCL中發揮著重要作用。研究如何更好地利用不同模態之間的相互補充來增強學習效果,例如通過模態間對齊和融合方法,以更好地利用數據多樣性,提升模型的整體性能。

**5.2 更高效的計算資源利用

MMCL中的模型往往依賴大規模預訓練模型,并在多個模態和任務上進行持續訓練,這對計算資源提出了更高要求。為提高資源利用效率,未來可以在以下幾個方面展開研究:

  1. 參數高效的微調方法:開發參數高效的微調策略(如適配器模塊、低秩近似等),以減少訓練過程中對計算資源的需求。這類方法能夠使模型在進行任務增量學習時僅調整少量參數,從而減輕計算負擔。
  2. 模型壓縮和加速:探索模型壓縮(如量化、剪枝)和加速(如蒸餾、混合精度訓練)技術,以降低MMCL模型的內存和計算成本,使其更適合實際部署。
  3. 分布式與異構計算:結合分布式計算和異構計算設備(如GPU和TPU),分擔大規模多模態數據的處理任務,以應對計算負載挑戰。這可以使得MMCL模型在多任務和大數據量場景下保持較高的性能表現。

**5.3 增強零樣本能力和泛化性能

MMCL中的一個關鍵挑戰是如何在不忘舊任務的同時提升對新任務的零樣本適應能力及泛化性能:

  1. 保持預訓練模型能力:隨著持續微調的進行,MMCL模型可能逐漸喪失預訓練模型的零樣本能力。研究如何在保持先前知識的基礎上,繼續增強模型對新任務的適應性,將是未來的重要方向。
  2. 增強跨任務泛化:MMCL模型往往面對跨任務的知識遷移和適應性問題。如何設計有效的跨任務知識遷移機制,以增強模型在不同任務間的泛化能力,將有助于提高模型在多變環境下的實用性。
  3. 任務間關系學習:許多現實任務之間存在一定的關聯性,未來可以探索如何利用任務間的關系信息(如標簽關系、特征共現)來更好地指導模型學習,從而提升模型對新任務的預測準確性。

**5.4 應對多模態數據中的模態失衡

在多模態環境下,模態數據的分布和數量可能存在不平衡,這會影響MMCL的表現。未來的研究可以關注以下方面:

  1. 模態優先級與加權機制:不同模態對任務完成的重要性可能不同,因此可以研究如何為不同模態分配合適的權重和優先級,以提高模型在模態不平衡情況下的魯棒性。
  2. 動態模態選擇與融合:設計動態的模態選擇策略,使模型能夠在缺少某些模態數據時,靈活地進行模態融合和任務處理。這種動態融合策略將提高模型在不同模態條件下的適應性。
  3. 模態數據重采樣與合成:在模態不平衡的情況下,可以研究如何通過重采樣或合成方法生成缺少的模態數據,以保持模態之間的平衡性,提高模型的整體學習效果。

5.5 提高模型對隱私與數據安全的適應性

隨著隱私和數據安全需求的增加,未來MMCL研究需要更好地應對這些問題:

  1. 隱私保護技術:研究如何在MMCL模型中引入隱私保護技術,如聯邦學習和差分隱私,以在多模態數據環境中保護用戶隱私。
  2. 安全模型更新與遷移:開發安全的模型更新和遷移機制,以防止敏感數據泄露,同時保證模型在不同平臺或設備上的適應性和性能。
  3. 數據合成與偽重放:為減輕隱私風險,可以利用數據合成與偽重放技術,在不依賴真實用戶數據的情況下,重建訓練數據分布,從而提高模型的隱私適應性。

結論

以上是未來研究方向的詳盡討論,為進一步發展多模態持續學習(MMCL)領域提供了切實可行的建議和探索路徑。通過提升模態數量與質量、提高計算資源效率、增強零樣本能力與泛化性能、應對模態失衡問題,以及加強隱私與數據安全的適應性,研究人員可以應對MMCL的挑戰,推動模型更好地適應現實環境的需求。這些方向的研究不僅能解決當前的技術難題,還將推動更為廣泛和深入的實際應用,從而實現更加智能化和多樣化的學習系統。

付費5元查看完整內容

摘要自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到了越來越多的關注,但仍然缺乏整體視角。許多關鍵方面仍不清楚,例如LLMs已應用于哪些疾病和臨床數據、使用了哪些LLM技術以及采用了哪些評估方法。在本文中,我們對基于LLM的疾病診斷方法進行了綜合評述。我們的評審從多個維度考察了現有文獻,包括疾病類型及其相關的臨床專科、臨床數據、LLM技術和評估方法。此外,我們還提出了關于LLMs在診斷任務中應用與評估的建議。我們進一步評估了當前研究的局限性,并討論了未來的研究方向。據我們所知,這是首個關于基于LLM的疾病診斷的綜合評述。

引言

自動疾病診斷是臨床場景中的一項關鍵任務,它以臨床數據為輸入,分析模式,并生成潛在的診斷,幾乎無需或完全無需人為干預。這在醫療保健中的重要性是多方面的。首先,它提高了診斷的準確性,支持臨床醫生的決策,并通過提供更多高質量的診斷服務來解決醫療保健中的不平等問題。其次,自動診斷提高了醫療專業人員的效率,這對于管理老齡化患者和多病患者群體的臨床醫生來說尤為寶貴。例如,DXplain是一個診斷系統,它利用患者的體征、癥狀和實驗室數據生成潛在診斷列表,并提供每種病癥應被考慮的理由。此外,在線服務進一步促進了某些疾病的早期診斷或大規模篩查,例如心理健康障礙,通過早期階段提高意識,幫助預防潛在的風險。例如,幾項研究探討了使用社交媒體帖子進行大規模抑郁癥識別和自殺風險預測。

人工智能(AI)的最新進展推動了自動診斷系統的發展,經歷了兩個階段。最初,機器學習技術如支持向量機和決策樹被用于疾病分類,這通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集的增大和計算能力的提升,深度學習方法逐漸主導了診斷任務的發展。這些方法利用了深度神經網絡(DNNs),包括卷積神經網絡(CNN)、循環神經網絡(RNN)和生成對抗網絡(GAN),實現了端到端的特征提取和模型訓練。例如,一個擁有34層的卷積DNN在心律失常診斷中達到了與心臟病專家相當的水平。然而,這些模型通常需要大量標注數據進行監督學習,并且通常是任務特定的,限制了它們對其他任務或新需求的適應性。 近年來,人工智能的范式已經從傳統的深度學習轉向了大型語言模型(LLMs)的出現。與監督學習不同,LLMs(如生成式預訓練變換器(GPT)和LLaMA)是通過自監督學習在大量未標記數據上進行預訓練的生成模型。這些模型通常包含數十億個參數,擅長語言處理,并能適應各種任務。迄今為止,LLMs在臨床場景中展現了卓越的表現,包括問答(QA)、信息檢索和臨床報告生成等任務。最近,越來越多的研究驗證了LLMs在診斷任務中的有效性。例如,PathChat是一個經過數十萬條指令微調的視覺-語言通用LLM,在人體病理學中達到了最先進的表現。Med-MLLM是一個基于多模態的LLM,經過在包括胸部X光、CT掃描和臨床筆記在內的廣泛醫療數據上的預訓練和微調,在COVID-19診斷中展示了顯著的準確性。此外,Kim等人通過提示工程使用GPT-4,發現其在識別強迫癥方面超越了心理健康專家,這突顯了LLMs在心理健康診斷中的潛力。 盡管該研究領域引起了廣泛關注,但許多關鍵問題仍未得到充分探索。例如,在基于LLMs的診斷任務中,哪些疾病和醫療數據被調查過(Q1)?LLMs技術在疾病診斷中是如何應用的,以及如何選擇合適的技術(Q2)?評估診斷性能的合適方法是什么(Q3)?盡管已有眾多綜述文章探討了LLMs在醫學領域的應用研究,這些研究通常提供了廣泛的臨床應用概述,但并未特別強調疾病診斷。例如,Pressman等人對LLMs在預咨詢、治療、術后管理、出院和患者教育等方面的潛在臨床應用進行了全面總結。此外,這些綜述文章均未探討將LLMs應用于疾病診斷的細節與挑戰,或回答上述關鍵問題,突顯了這一領域的重要研究空白。 本綜述的主要目的是提供關于利用LLMs進行疾病診斷研究的概述。綜述介紹了現有研究中的各種疾病類型、與疾病相關的臨床專科、臨床數據、LLM技術和評估方法。此外,我們為數據準備、選擇合適的LLM技術以及為診斷任務采用適當的評估策略提供了建議。進一步地,我們還分析了當前研究的局限性,并深入探討了這一領域的挑戰和未來研究方向。據我們所知,這是首個專注于LLMs疾病診斷的綜述,并全面概述了這一領域。總結來說,這篇綜述為基于LLM的疾病診斷提供了一個藍圖,旨在激發和引導未來的研究工作。


結果****研究范圍概述

本節介紹了我們綜述的范圍。圖2不僅展示了疾病類型、相關的臨床專科、臨床數據類型和數據模態(Q1),還介紹了應用的LLM技術(Q2)和評估方法(Q3),回答了前述問題。具體來說,我們調查了19個臨床專科和超過15種類型的臨床數據用于疾病診斷。這些臨床數據涵蓋了多種數據模態,包括文本、圖像、視頻、音頻、時間序列和多模態案例。此外,我們根據所應用的LLM技術對現有的疾病診斷工作進行了分類,例如提示(零樣本)、檢索增強生成(RAG)和預訓練。表1總結了主流LLM技術的分類。圖4展示了臨床專科、數據模態和所應用的LLM技術之間的關系。這些圖表全面揭示了基于LLM的疾病診斷的當前發展狀況。此外,圖3展示了我們綜述中的元信息分析,涉及不同地區的出版趨勢、廣泛用于訓練和推理的LLMs總結,以及數據來源、評估方法和數據隱私狀態的統計信息。

付費5元查看完整內容

摘要. 自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到越來越多的關注,但許多關鍵的研究問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務的研究?如何為臨床決策選擇合適的LLM技術和評估方法?為解答這些問題,我們對基于LLM的疾病診斷方法進行了全面分析。本次范圍綜述審查了現有研究中報告的疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和診斷任務的評估策略提供了指南。我們還評估了當前研究的局限性,并劃定了該研究領域的挑戰與未來方向。總之,我們的綜述為基于LLM的疾病診斷勾勒了藍圖,幫助簡化并指導未來的研究工作。

引言

自動疾病診斷通過將臨床數據輸入算法,分析數據模式并生成診斷結果,幾乎無需或完全不需要人工干預。其在臨床場景中的重要性是多方面的。首先,它提高了診斷的準確性,支持醫生的臨床決策,并通過提供更多高質量的診斷服務,解決了醫療資源獲取不平等的問題。其次,它提高了診斷效率,尤其是在人口老齡化和臨床醫生短缺的情況下,診斷的復雜性即便對經驗豐富的醫生來說也需要花費大量時間。最后,它通過在線診斷服務為患者提供了更大的便利,促進了早期診斷并減少了傳統臨床就診所帶來的延誤。 人工智能的進步推動了自動診斷系統的發展,經歷了兩個階段。最初,采用支持向量機(SVM)和決策樹等機器學習技術進行疾病分類1,2,通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集規模的擴大和計算能力的提升,深度學習方法后來在診斷任務中占據主導地位3,4。這些方法利用深度神經網絡(DNN),包括卷積神經網絡(CNN)5、循環神經網絡(RNN)6和生成對抗網絡(GAN)7,實現了端到端的特征提取和模型訓練。例如,具有34層的卷積神經網絡在心律失常診斷中達到了心臟病專家級別的表現8。然而,這些模型需要大量標注數據進行訓練,且通常針對特定任務,限制了它們在其他任務中的適應性5,8。 近年來,人工智能的范式從傳統的深度學習轉向了大型語言模型(LLM)的興起。與監督學習不同,LLM如生成式預訓練轉換器(GPT)和LLaMA9,是通過自監督學習在大量未標注數據上預訓練的生成模型。這些模型通常包含數十億個參數,擅長處理語言,并能夠適應多種任務。迄今為止,LLM在臨床場景中展示了卓越的性能,包括問答10、信息檢索11和臨床報告生成12,13。

最近,越來越多的研究驗證了LLM在診斷任務中的有效性。例如,PathChat14,一個經過數十萬條指令微調的視覺語言通用LLM,在人類病理學中取得了最先進的性能。Med-MLLM13,一個在廣泛的醫學數據(包括胸部X光片、CT掃描和臨床筆記)上預訓練和微調的多模態LLM,在COVID-19診斷中表現出了顯著的準確性。此外,Kim等人15使用GPT-4結合提示工程,發現它在識別強迫癥方面超越了心理健康專家。 盡管該研究領域備受關注,但許多關鍵問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務?研究人員如何利用LLM分析各種類型的醫學數據進行疾病診斷?哪些評估方法適合評估模型性能?盡管已有大量關于LLM在醫學中應用的綜述論文16,17,18,19,20,它們通常提供了對各種臨床應用的廣泛概述,但并未特別強調疾病診斷。例如,Pressman等人21提供了LLM在臨床中的潛在應用的綜合總結,包括術前咨詢、治療、術后管理、出院和患者教育。然而,這些調查并未涉及LLM在疾病診斷中的細微差別和挑戰,未能回答上述問題,凸顯了研究中的一個關鍵空白。 本綜述的主要目的是對LLM在疾病診斷中的應用進行全面分析。我們審查了現有研究中涉及的各種疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和采用合適的評估策略提供了指南。我們還分析了當前研究的局限性,全面呈現了該領域的挑戰和未來方向。總之,本綜述為基于LLM的疾病診斷勾勒了藍圖,并幫助啟發和簡化未來的研究工作。

研究范圍概述

本節概述了本研究中涉及的疾病、臨床數據和LLM。圖2展示了疾病相關的器官系統、臨床數據、所研究的LLM數據模式和相關LLM技術。值得注意的是,LLM涵蓋了多種數據模式,包括文本、圖像、視頻、音頻、表格數據和時間序列。圖3展示了隨時間變化的出版趨勢以及本綜述中數據隱私和評估方法的統計。表1總結了用于疾病診斷的主流LLM技術分類,而表2則展示了常用的評估指標。

付費5元查看完整內容
北京阿比特科技有限公司