摘要— 人工智能(AI)在醫學影像領域展現出巨大的潛力。然而,高性能 AI 模型的開發通常需要在大規模的集中式數據集上進行訓練。這種方式由于嚴格的患者隱私保護法規以及數據共享與使用的法律限制而面臨嚴峻挑戰。這些限制阻礙了醫學領域大規模模型的開發,并妨礙了其在新數據上的持續更新與訓練。聯邦學習(Federated Learning,FL)作為一種保護隱私的分布式訓練框架,提供了一種新方案,使得跨分散的醫學數據集協作開發模型成為可能。在本綜述中,我們回顧了 FL 在醫學影像全棧分析流程中兩個階段的貢獻。首先,在上游任務(如 CT 或 MRI 重建)中,FL 能夠在多機構、多樣化的數據集上聯合訓練魯棒的重建網絡,從而在保持數據機密性的同時緩解數據稀缺問題。其次,在下游臨床任務(如腫瘤診斷與分割)中,FL 通過允許在本地對新數據進行微調而無需集中敏感影像,從而支持模型的持續更新。我們全面分析了 FL 在醫學影像處理流程中的實現方式,從基于物理知識的重建網絡到診斷 AI 系統,并重點介紹了提升通信效率、對齊異構數據以及確保參數安全聚合的創新方法。同時,本文還展望了未來的研究方向,旨在為該領域的發展提供有價值的參考。
關鍵詞— 聯邦學習,醫學影像,醫學影像分析,大模型
I. 引言 近年來,人工智能(AI)的快速發展在諸多領域展現出了巨大的潛力 [1]–[3]。圖 1 展示了醫學影像分析與重建的發展演變,突出了該領域的關鍵進展。在醫學影像中,AI 技術正日益重塑現代影像分析與處理方法 [4]。然而,大多數現有 AI 方法仍然依賴于數據驅動,并需要大規模、高質量且具備良好標注的數據集進行訓練 [5], [6]。醫學影像標注通常需要由放射科醫師或病理學家等領域專家手工完成,這一過程不僅耗費巨大成本,而且極其耗時 [7]。
與醫學影像不同,自然圖像的標注可以由非專家完成:眾包工作者能夠處理如目標檢測、分類和分割等常規任務。這種標注的便利性使得可以通過眾包平臺快速構建大規模數據集。相比之下,醫學影像必須依賴訓練有素的放射科醫師或臨床醫生,從而在速度與規模上天然受到限制。更為復雜的是,醫學影像中包含的敏感患者信息受隱私法律、存儲限制以及機構數據治理政策的約束 [8]。因此,那些推動通用計算機視覺領域大模型成功的關鍵因素——豐富的數據與開放共享——在醫學領域幾乎完全缺失。因此,在保護患者隱私的同時緩解數據稀缺問題,成為亟需解決的核心瓶頸,也是重要的創新方向。
跨多個數據持有者的協作式機器學習,以數據隱私保護為重點,已經引起學術界與產業界的廣泛關注。為實現隱私保護的機器學習,McMahan [9] 提出了聯邦學習(Federated Learning,FL),即分布式學習框架 FedAvg。由于其內在的隱私保護特性,FL 已在多個場景中得到廣泛應用 [10]。在 FL 中,各客戶端使用本地數據獨立訓練模型,并將模型參數或梯度上傳至中心服務器。服務器聚合這些更新以優化全局模型,然后將其分發回客戶端,進入后續訓練迭代。在整個過程中,客戶端數據始終保留在本地,僅有模型參數或梯度更新會被傳輸到中心服務器。該機制有效緩解了數據泄露風險,并增強了隱私保護能力 [11]。
在智能醫療系統中,工作流程通常包括上游的醫學影像重建與下游的影像分析任務 [12]。然而,數據異質性的性質與影響在這兩類任務中存在顯著差異。醫學影像重建主要關注從低質量或不完整的影像數據中恢復高質量圖像 [13]。例如,由于 X 射線輻射可能造成的危害,臨床協議往往要求在檢查中降低輻射劑量,但這種降低不可避免地導致影像質量下降。
在低劑量(LD)計算機斷層掃描(CT)中,不同醫療機構可能使用不同的掃描儀型號或低劑量協議(如掃描角度、X 射線光子強度),從而產生不同的噪聲分布模式 [14]。這種數據分布不一致性阻礙了傳統深度學習模型在不同臨床環境中的泛化能力,從而影響重建的穩定性與精度。
相較之下,磁共振成像(MRI)通常采用加速采集協議以縮短掃描時間并提升患者舒適度。然而,MRI 掃描儀硬件配置(如磁場強度、信號采集協議)的差異,以及不同機構所使用的重建算法,共同導致了 MRI 數據的異質性 [15]。
醫學影像分析中的數據異質性主要來源于三個基本因素:(1) 醫院人群在人口學分布上的差異 [16];(2) 組織病理學數據處理協議的差異 [17];(3) 疾病流行率比例的不平衡 [18]。具體而言,個體因素(如年齡、性別和種族)會造成解剖學變異及病灶特征的多樣性;同時,不同的組織病理學制備方法(包括染色協議與數字掃描設備)會進一步導致數據分布的偏移。此外,疾病在不同機構間的流行率差異顯著:專科醫院通常聚焦于特定疾病群體,而綜合性醫院則服務于更為多樣化的人群,且不同醫療中心的疾病嚴重程度也各不相同。
因此,在影像重建與分析任務中應對數據異質性 [19] 已成為醫學影像分析的關鍵研究前沿。主要挑戰在于如何在 FL 過程中同時緩解因優化軌跡差異導致的模型漂移,并提升 AI 模型跨機構的泛化能力。為應對這些挑戰,本綜述從技術角度分析了針對成像導向型與分析驅動型 FL 框架的最新解決方案。
近年來,已有若干關于醫學影像中 FL 的綜合性綜述。例如,Guan 等 [20] 提供了一份系統綜述,將醫學影像分析中的 FL 方法劃分為客戶端、服務器端與通信技術三類。Hernandez-Cruz 等 [21] 同樣綜述了醫學影像中的 FL 研究,強調了其在心臟病學、皮膚病學和腫瘤學等領域的應用,以及如非獨立同分布(non-IID)數據和隱私保護等反復出現的挑戰。Silva 等 [22] 針對醫學影像模態(MRI、CT、X 射線、組織學)提供了一份系統綜述,討論了 FL 在這些領域的應用、貢獻、局限性與挑戰。Wang 等 [23] 專門研究了 FL 在罕見疾病檢測中的應用,總結了該細分方向中的現有 AI 技術與可用數據集。在相關領域,Shi 等 [24] 探討了醫學影像分析中基礎模型的可信性問題,這一主題通過關注隱私、魯棒性與公平性,與 FL 綜述形成互補。最后,Raza 等 [25] 基于 PRISMA 方法對放射組學中的 FL 進行了元綜述,匯總了腫瘤檢測、器官分割與疾病分類任務中的研究趨勢。
盡管這些綜述提供了寶貴的見解,但其覆蓋范圍往往未能涵蓋整個影像處理流程。現有綜述通常將圖像重建、分割與診斷作為相互獨立的主題進行考察,而非作為聯邦學習工作流中相互關聯的階段。此外,在整個影像鏈條中,關于新興大規模醫學基礎模型與先進數據壓縮技術如何與 FL 融合的系統性研究仍然有限。本文旨在彌補這些空白。我們聚焦于在端到端醫學影像流程中引入 FL,從物理驅動的圖像重建到下游分析任務。同時,我們探索將大規模視覺模型與高效數據壓縮技術納入適配 FL 框架的機會,從而支撐這一完整工作流。表 I 總結了與以往綜述的對比,凸顯了本文綜述的廣闊覆蓋范圍。
本文其余部分組織如下:第二節介紹 FL 工作流并概述相關挑戰;第三節回顧醫學影像重建中的 FL 研究;第四節分析醫學影像分析中的 FL 應用;第五節闡述持續存在的技術瓶頸與臨床實施挑戰,并提出未來研究方向;最后,總結本文的關鍵發現與貢獻。
摘要—— 作為機器人學和具身智能的關鍵前沿,機器人操作需要精確的運動控制,以及在動態環境中對視覺與語義線索的綜合理解。傳統方法依賴預定義的任務規范和僵化的控制策略,往往難以在非結構化、全新場景下擴展或泛化。近年來,基于大規模視覺-語言模型(VLMs)的視覺-語言-動作(VLA)模型逐漸成為一種變革性的范式。這類模型利用大規模 VLMs 在開放世界泛化、層級任務規劃、知識增強推理以及多模態融合方面的能力,使機器人能夠理解高層指令、識別未知環境并執行復雜的操作任務。本綜述首次從系統化、面向分類法的角度,對用于機器人操作的大規模 VLM 驅動 VLA 模型進行全面回顧。我們首先明確界定大規模 VLM 驅動的 VLA 模型,并劃分出兩類核心體系結構范式:(1)單體式模型,涵蓋單系統與雙系統設計,二者在集成程度上有所差異;(2)分層式模型,顯式地通過可解釋的中間表示將規劃與執行解耦。在此基礎上,我們深入探討大規模 VLM 驅動的 VLA 模型:(1)其與強化學習、免訓練優化、人類視頻學習以及世界模型集成等前沿領域的結合;(2)其獨特特征的綜合,包括體系結構特點、操作優勢,以及支撐其發展的數據集和基準;(3)未來的研究方向,包括記憶機制、四維感知、高效適應、多智能體協作以及其他新興能力。本綜述整合了近期進展,旨在彌合現有分類法的不一致性,緩解研究碎片化,并通過系統性地整合大規模 VLM 與機器人操作交叉領域的研究,填補關鍵空白。我們提供了一個定期更新的項目主頁以記錄最新進展://github.com/JiuTian-VL/Large VLM-based VLA for Robotic Manipulation。 關鍵詞—— 視覺-語言-動作模型,機器人操作,具身智能,大規模視覺-語言模型
機器人操作(Robotic Manipulation)處于機器人學與具身人工智能交匯處的關鍵挑戰 [1]–[5]。其實現不僅需要精確的運動控制,還需要對復雜動態環境中的多樣化視覺與語義線索具備深刻理解。機器人操作在諸多領域展現出廣泛應用價值,包括先進制造、高效物流、精準醫療和多樣化的家庭服務 [6]–[8]。傳統的操作方法 [9]–[16] 主要依賴精心設計的控制策略和嚴格預定義的任務規范。然而,這些方法在非結構化的真實世界場景中往往表現不佳——尤其是在面對新穎物體、模糊的自然語言指令或此前未見的環境配置時,暴露出其在可擴展性與泛化能力方面的固有限制。 近年來,大規模視覺-語言模型(Vision-Language Models, VLMs)[17]–[25] 崛起為一種變革性范式。基于大規模網頁級圖文數據集的預訓練,大規模 VLM 展現出卓越的能力,能夠彌合視覺感知與自然語言理解之間的語義鴻溝。這種創新能力使 VLM 不僅能結合文本描述理解復雜視覺場景,還能超越單純的目標識別,形成整體的上下文理解。大規模 VLM 與機器人系統的結合催生了一類新模型:基于大規模 VLM 的視覺-語言-動作(Vision-Language-Action, VLA)模型 [26]–[32]。如圖 1 所示,這一新興范式展現出克服傳統機器人流水線根本局限的巨大潛力。它使機器人能夠理解高層次的人類指令、泛化至未知物體與場景、推理復雜的空間關系,并在動態、非結構化環境中執行復雜的操作任務。例如,一個 VLA 模型可以完成如下指令:“把紅色的杯子從筆記本電腦旁邊放到最上層的架子上”,這一任務需要視覺定位、空間推理與序列動作規劃的復雜融合。 在本研究中,基于對近期工作的廣泛回顧 [26]–[37] 及對該領域的深入理解 [38]–[43],我們提出了一個一致性的定義:大規模 VLM 驅動的 VLA 模型是指能夠(1)利用大規模 VLM 理解視覺觀測和自然語言指令;并且(2)通過推理過程直接或間接地服務于機器人動作生成的模型。我們進一步將其劃分為兩大類(見圖 2 與圖 3): * 單體式模型(Monolithic Models)(圖 3 左):包括單系統與雙系統實現。
單系統模型 [26], [27], [44], [45] 在統一架構中集成了環境理解(包括視覺感知、語言理解與機器人狀態感知)與動作生成。 * 雙系統模型 [29]–[32] 則采用 VLM 作為場景解釋的骨干網絡,并由一個動作專家負責動作生成,二者通過潛在表示的傳播進行信息交互。 * 分層式模型(Hierarchical Models)(圖 3 右)[46]–[50] 明確將規劃與策略執行解耦。它們區別于雙系統的端到端方法,具有以下特征:
結構化的中間輸出:規劃模塊生成可解釋的表示(如關鍵點檢測、可供性圖、軌跡提案),隨后由策略模塊處理以生成可執行的動作。 1. 解耦的訓練范式:通過專門的損失函數或 API 驅動的交互,實現對層級模塊的獨立優化。
這種分類法凸顯了 VLA 模型開發中的關鍵設計維度,尤其是系統集成的粒度與認知分解的顯式程度,同時保持與現代表征學習范式的緊密聯系。 在上述定義與分類的框架下,我們的全面綜述揭示了新興 VLA 領域中的若干關鍵缺口,其整體組織結構如圖 2 所示。首先,該領域的術語與建模假設尚不一致,研究工作分散在機器人學、計算機視覺與自然語言處理等學科。其次,已有綜述往往僅聚焦于 VLMs [51]–[55] 或機器人操作 [2], [56]–[59],缺乏對二者交叉所帶來的獨特挑戰與進展的綜合分析。因此,亟需一份系統性和原則性的綜述,以闡明大規模 VLM 驅動 VLA 模型的基礎,組織相關方法的空間,并勾勒該融合范式的未來方向。本綜述旨在填補這一空白。我們提供了結構化且深入的回顧,以全景視角推動學界更深刻的理解并激發未來的突破。
本文的主要貢獻總結如下: * 縱向綜述: 我們系統回顧了 VLM 的演化軌跡、操作學習的技術進展,以及大規模 VLM 驅動 VLA 范式的興起。同時,分析了單體式模型與分層式模型的發展,識別關鍵挑戰并展望未來方向。 * 橫向綜述: 我們提供了單體式與分層式模型更精細的比較性分類法,從結構與功能兩個維度展開分析。進一步探討了大規模 VLM 驅動 VLA 模型的前沿研究方向,強調其獨特特征與支撐發展的數據集。該綜述為理解該領域的發展與結構組織提供了概念性路線圖。
本文余下部分的組織結構如圖 2 所示:第二節介紹 VLM 演化與機器人操作基礎知識;第三節分析單體式模型,包括單系統與雙系統架構的優劣與權衡;第四節探討分層式模型,將其分為僅規劃器與規劃-策略框架,并進一步根據中間表示類型(子任務、關鍵點、程序等)細分;第五節討論其他前沿方法,包括基于強化學習的優化、免訓練方法、從人類視頻學習以及基于世界模型的方法;第六節分析大規模 VLM 驅動 VLA 模型的核心特征,涵蓋多模態融合、指令跟隨和多維泛化;第七節分類與分析相關數據集與基準,涵蓋模擬、真實世界與人類交互數據;第八節探討關鍵開放挑戰與未來研究方向;第九節給出結論。
摘要——在大數據應用時代,聯邦圖學習(Federated Graph Learning, FGL)作為一種新興的解決方案,正在逐步成為協調分布式數據持有者之間集體智能優化與最大限度保護敏感信息之間權衡的關鍵技術。已有的 FGL 綜述雖具有重要價值,但主要集中于聯邦學習(Federated Learning, FL)與圖機器學習(Graph Machine Learning, GML)的集成,進而形成了一些以方法學和模擬場景為核心的早期分類體系。值得注意的是,從“數據中心化”視角出發,對 FGL 方法進行系統性梳理的嘗試尚屬空白,而這一視角對于評估 FGL 研究如何應對數據相關限制、進而提升模型性能至關重要。為此,本文提出了一種雙層次的數據中心化分類框架:(1)數據特征,根據 FGL 所使用數據的結構性和分布性特征對相關研究進行歸類;(2)數據利用,分析訓練過程中應對關鍵數據難題所采用的策略與技術。每一層次的分類框架均由三個正交維度構成,分別對應不同的數據中心化配置。除分類框架外,本文還探討了 FGL 與預訓練大模型的集成應用,展示了其在現實世界中的典型應用案例,并總結了與 GML 發展趨勢相契合的未來研究方向。 關鍵詞:聯邦圖學習,機器學習
圖數據集以非歐幾里得結構形式表示,形式上被定義為由節點(實體)和邊(關系)組成的元組,用以嚴謹地建模復雜的現實世界系統。圖數據集的一個核心優勢在于其能夠顯式地編碼拓撲連接關系,從而突破獨立同分布(i.i.d.)數據的傳統約束,直接捕捉實體之間的交互依賴關系 [1]。與像素化圖像或文本等傳統數據格式不同,圖結構具備獨特的理論優勢,而圖神經網絡(Graph Neural Networks, GNNs)的引入使得機器學習(Machine Learning, ML)算法可以基于傳播機制挖掘隱藏在拓撲結構中的隱式信息結構。由于其顯著的有效性,GNNs 促成了諸如 AlphaFold [2] 等突破性成果,該方法通過氨基酸序列預測蛋白質結構,推動了疫苗和抗體的開發。 鑒于 GNNs 所展現出的卓越性能,眾多開創性模型相繼被提出,例如 GCN [3] 和 GAT [4]。這些方法大多采用以模型為中心的研究視角,強調通過創新的結構設計在給定數據集上實現最優性能 [5]。然而,這類方法的成功往往隱含著一個前提假設:所使用的數據集已經經過充分清洗與處理,性能提升主要歸因于模型結構的日益復雜。但現實世界中的數據常常存在顯著的不確定性,如噪聲干擾或對實體描述的不完整性,這些因素違背了上述假設。當低質量數據被輸入 GNNs 時,模型難以有效提取可靠知識,從而暴露出模型中心范式在實際應用中的脆弱性。 為應對上述局限,數據中心化的圖機器學習(Graph Machine Learning, GML)已逐漸發展為一種更具現實意義的研究范式,專注于解決實際數據問題。相應地,數據中心化 GML 正受到越來越多研究者的關注。然而,大多數現有研究仍假設數據處于集中式存儲環境中,即數據被統一保存在單一位置。與之相比,去中心化的數據中心化 GML 仍屬研究空白,盡管現實中數據往往分散在多個獨立持有者手中。與此同時,對去中心化數據的處理還需滿足隱私保護的嚴格法規要求。對此,聯邦學習(Federated Learning, FL)因其能夠在保障隱私的前提下實現分布式數據協同訓練而備受關注 [6]。 隨著 FL 向圖數據的擴展,聯邦圖學習(Federated Graph Learning, FGL)迅速發展為一個專門的去中心化圖學習框架。現有 FGL 研究普遍基于擬合真實場景的研究問題展開,在此基礎上,已有綜述提出了以“場景挑戰”為導向的分類框架。這些工作為該領域的發展作出了積極貢獻,但其范式主要源自模型中心視角,強調機制創新,卻較少關注數據集本身的特征差異,也未充分討論其數據中心化動因。 本文的動機:本綜述旨在從數據中心化角度出發審視 FGL,源于對以下事實的清晰認知:當前大多數 FGL 面臨的核心挑戰均與數據緊密相關,如統計異質性與拓撲異質性。此外,若要深入理解這些挑戰,就需要關注 FGL 所使用數據的特性,因為現有文獻中已涉及多樣的數據格式與去中心化配置。這種機制本質上是數據中心化 GML 在分布式環境下的延伸。為了幫助研究者從解決數據相關問題的角度更好地理解 FGL,本文致力于提供一個通用且系統化的指南。 具體而言,本文提出一個雙層次的數據中心化分類框架,每一層均由三個正交維度組成,這些組合構成了對現有研究的全面理解: * 數據特征維度:包括(i)區分不同類型的圖數據集(如同質圖、異質圖、知識圖與二分圖);(ii)突出數據在客戶端間的分布形式;(iii)揭示每個客戶端的數據可見性水平,即客戶端是否可以訪問完整全局圖,或僅能訪問部分子圖。這些標準共同構成了對 FGL 研究中所處理數據結構與分布特征的全面刻畫。 * 數據利用維度:探討 FGL 方法如何以及何時將針對數據問題的機制納入訓練過程,具體包括:(i)明確關鍵數據挑戰,如數據質量欠佳、客戶端數據類別分布不均、大規模圖訓練過程中的收斂速度緩慢、以及數據隱私保護的增強;(ii)指出主要創新是集中在客戶端側,還是服務器端的操作流程中;(iii)進一步將訓練過程細化為四個執行階段(初始化、本地訓練、全局聚合與后聚合),并總結典型 FGL 方法中所采用的技術細節。
作為首個聚焦于數據中心化視角的 FGL 綜述,本文的貢獻體現在以下三個方面: * (a)新視角:首次從數據中心化角度系統整理 FGL 研究,厘清不同類型數據在現有工作中的定義與使用方式。該視角契合大數據時代的研究重點,在此背景下,數據屬性正在日益決定機器學習技術的選擇與效果。 * (b)雙層分類體系:提出基于數據中心化視角的雙層次分類框架,每層均由三個正交標準構成,從細粒度上劃分現有重要 FGL 研究,有助于研究者迅速定位與特定數據問題相關的研究成果。 * (c)擴展影響——生成式人工智能:首次探討 FGL 與預訓練大模型(Pre-trained Large Models, PLMs)的整合潛力,以加速圖機器學習研究的進展。未來研究方向部分還指出了多個尚未被充分探索的數據中心化議題,強調其在 FGL 背景下的重要性與研究價值。
本文結構安排如下:第二節介紹 FL 與 FGL 的基本概念及其通用訓練流程;第四節呈現基于數據特性的第一層分類,從本地與全局視角展開;第五節構建第二層分類,具體分析數據中心化挑戰及代表性 FGL 方法的應對策略;第六節討論客戶端處理非圖結構數據的研究;第七節評估 FGL 在解決現實世界數據問題中的適用性;第八節探討 FGL 與 PLMs 的雙向融合;第九節展望未來研究方向,包括 FGL 與 GML 熱點議題的融合,以及向更復雜圖結構類型的拓展。
摘要——強化學習(Reinforcement Learning, RL)是解決序列決策問題的重要機器學習范式。近年來,得益于深度神經網絡的快速發展,該領域取得了顯著進展。然而,當前RL的成功依賴于大量訓練數據和計算資源,且其跨任務泛化能力有限,制約了其在動態現實環境中的應用。隨著持續學習(Continual Learning, CL)的興起,持續強化學習(Continual Reinforcement Learning, CRL)通過使智能體持續學習、適應新任務并保留既有知識,成為解決上述局限性的重要研究方向。本文對CRL進行了系統梳理,圍繞其核心概念、挑戰和方法展開論述:首先,詳細回顧現有研究,對其評估指標、任務設定、基準測試和場景配置進行歸納分析;其次,從知識存儲/遷移視角提出新的CRL方法分類體系,將現有方法劃分為四種類型;最后,剖析CRL的特有挑戰,并為未來研究方向提供實踐性見解。 關鍵詞——持續強化學習,深度強化學習,持續學習,遷移學習
強化學習(Reinforcement Learning, RL)已成為機器學習中的一種強大范式,使智能體能夠通過與環境的交互學習最優的決策策略 [1]。當強化學習與深度神經網絡的表示學習能力相結合時,便產生了深度強化學習(Deep Reinforcement Learning, DRL),其在多個領域取得了顯著的成功 [2]。DRL 展現了在解決高維復雜決策問題方面的巨大潛力,從精通國際象棋、日本將棋和圍棋等棋類游戲 [3],到推動科學發現,如蛋白質結構預測 [4]、量子計算誤差校正 [5],以及大型語言模型的訓練 [6],[7]。此外,DRL 也被廣泛應用于現實世界中的控制任務,如熱電聯產系統優化 [8]、托卡馬克核聚變反應堆中等離子體配置控制 [9],以及實現安全的自動駕駛 [10]。 盡管 DRL 已取得諸多成就,但其當前的成功主要歸因于在特定任務上學習固定策略的能力,通常需要大量的訓練數據和計算資源 [11]。這為 DRL 在現實應用中的部署帶來了重大挑戰。具體來說,現有的 DRL 算法普遍缺乏跨任務高效遷移知識或適應新環境的能力。面對新任務時,這些算法通常需要從頭開始學習,導致樣本效率低下以及泛化能力差 [12]–[14]。 為應對上述挑戰,研究人員開始探索如何使 RL 智能體避免災難性遺忘并有效遷移知識,其最終目標是推動該領域向更具類人智能的方向發展。人類在解決新任務時,能夠靈活地利用已有知識,同時不會顯著遺忘已掌握的技能 [15]。受到這一能力的啟發,持續學習(Continual Learning, CL),又稱終身學習或增量學習,旨在構建能夠適應新任務并保留過往知識的學習系統 [16]–[19]。CL 面臨的核心挑戰在于穩定性與可塑性的平衡——即在維持已學知識穩定性的同時,又具備足夠的靈活性來適應新任務。其總體目標是構建能在整個生命周期內持續學習和適應的智能系統,而不是每次面對新任務時都從零開始。當前 CL 的研究主要聚焦于兩個方面:災難性遺忘的緩解以及知識遷移的實現。災難性遺忘指的是學習新任務會導致模型覆蓋并遺失先前已學任務的知識;而知識遷移則是指利用過往任務中積累的知識來提升新任務(甚至是已見任務)的學習效率與表現。成功解決這兩個問題對于構建穩健的持續學習系統至關重要。 持續強化學習(Continual Reinforcement Learning, CRL),又稱終身強化學習(Lifelong Reinforcement Learning, LRL),是 RL 與 CL 的交叉領域,旨在突破當前 RL 算法的多種局限,構建能夠持續學習并適應一系列復雜任務的智能體 [20],[21]。圖 1 展示了 CRL 的基本設置。與傳統 DRL 主要聚焦于單一任務性能最優化不同,CRL 更強調在任務序列中保持并增強泛化能力。這種焦點的轉變對于將 RL 智能體部署于動態、非平穩環境中尤為關鍵。 需要指出的是,“lifelong” 與 “continual” 兩個術語在 RL 文獻中常被交替使用,但不同研究中的定義與使用方式可能存在顯著差異,從而引發混淆 [22]。一般而言,大多數 LRL 研究更強調對新任務的快速適應,而 CRL 研究更關注避免災難性遺忘。本文采用更廣義的 CRL 作為統一術語,呼應當前 CL 研究中同時兼顧這兩個方面的趨勢。 CRL 智能體需實現兩個核心目標:(1)最小化對先前任務知識的遺忘;(2)利用已有經驗高效學習新任務。達成這兩個目標將有助于克服 DRL 當前的局限,推動 RL 技術向更廣泛、更復雜的應用場景拓展。最終,CRL 旨在實現類人的終身學習能力,使其成為推動 RL 研究的重要方向。 目前,關于 CRL 的綜述工作仍相對較少。部分綜述文獻 [18],[23] 對 CL 領域進行了全面回顧,包括監督學習與強化學習。值得注意的是,Khetarpal 等人 [21] 從非平穩 RL 的視角對 CRL 進行了綜述,首先對通用 CRL 問題進行了定義,并通過數學刻畫提出了不同 CRL 形式的分類體系,強調了非平穩性所涉及的兩個關鍵屬性。然而,該綜述在 CRL 中的一些重要方面——如挑戰、基準測試與場景設置等——缺乏詳細的對比與討論,而這些因素對于指導實際研究至關重要。此外,過去五年中 CRL 方法數量快速增長。鑒于此,本文旨在系統回顧近年來關于 CRL 的研究工作,重點提出一種新的 CRL 方法分類體系,并深入探討知識在 CRL 中的存儲與遷移機制。 本綜述深入探討了 CRL 這一不斷發展的研究領域,旨在彌合傳統 RL 與現實動態環境需求之間的差距。我們全面審視了 CRL 的基本概念、面臨的挑戰與關鍵方法,系統性地回顧了當前 CRL 的研究現狀,并提出了一套將現有方法劃分為不同類別的新分類體系。該結構化方法不僅清晰地描繪了 CRL 研究的整體圖景,也突出了當前的研究趨勢與未來的潛在方向。我們還從策略、經驗、動態與獎勵等多個角度審視方法間的聯系,為優化 CRL 的學習效率與泛化能力提供了細致的理解。此外,我們也關注推動 CRL 邊界的新興研究領域,并探討這些創新如何助力構建更復雜的人工智能系統。 本綜述的主要貢獻體現在以下幾個方面: 1. 挑戰分析:我們強調了 CRL 所面臨的獨特挑戰,提出其需要在可塑性、穩定性與可擴展性三者之間實現平衡; 1. 場景設定:我們將 CRL 場景劃分為終身適應、非平穩學習、任務增量學習與任務無關學習,為不同方法提供了統一的對比框架; 1. 方法分類:我們提出了一種基于知識存儲與遷移方式的新 CRL 方法分類體系,涵蓋策略導向、經驗導向、動態導向與獎勵導向方法,幫助讀者結構性地理解 CRL 策略; 1. 方法綜述:我們對現有 CRL 方法進行了最全面的文獻回顧,包括開創性工作、最新發表的研究成果以及有前景的預印本; 1. 開放問題:我們討論了 CRL 當前的開放問題與未來研究方向,如任務無關的 CRL、評估與基準建設、可解釋知識建模以及大模型的集成使用。
表 I 展示了本文的結構安排。接下來的內容如下:第二節介紹 RL 與 CL 的基礎背景,有助于理解 CRL 的核心理念;第三節概述 CRL 的研究范疇,包括定義、挑戰、評價指標、任務設置、基準與場景分類;第四節詳細介紹我們提出的 CRL 方法分類體系,并回顧現有方法,按知識類型劃分為策略導向(第四節 B)、經驗導向(第四節 C)、動態導向(第四節 D)與獎勵導向(第四節 E)四類;第五節探討 CRL 的開放問題與未來發展方向;第六節為本文的總結與展望。
摘要 — 多模態大型語言模型(MLLMs)近年來已成為人工智能研究領域的熱點。依托大型語言模型(LLMs)的強大能力,MLLMs 在處理復雜的多模態任務方面展現出卓越性能。隨著 GPT-4 的發布,MLLMs 引發了來自多個領域的廣泛關注。研究人員已開始探索 MLLMs 在醫學與醫療健康領域的潛力。本文首先介紹了與 LLMs 和 MLLMs 相關的背景與基本概念,重點闡述了 MLLMs 的工作原理。隨后,我們總結了 MLLMs 在醫療健康中的三大主要應用方向:醫學報告生成、疾病診斷與醫療治療。我們的研究基于對該領域 330 篇最新文獻的系統性回顧,并通過具體示例展示了 MLLMs 在上述領域中的強大能力。在數據方面,我們總結了六種主流數據模態及其相應的評估基準。最后,本文討論了 MLLMs 在醫學與醫療健康領域面臨的主要挑戰,并提出了相應的緩解策略與解決方法。 關鍵詞 — 綜述,大型語言模型,多模態大型語言模型,醫學,醫療健康,臨床應用
語言模型在自然語言處理(NLP)任務中發揮著重要作用。通過理解和生成文本,這些模型能夠執行多種語言相關任務,如文本抽取、情感分析等。在語言模型的發展過程中,谷歌于2017年提出的 Transformer 架構是一個重要的里程碑 [1]。該架構是一種依賴于自注意力機制的深度學習模型,通過并行計算提升了處理效率。模型為輸入的不同部分分配不同的注意力權重,從而增強了其對文本語義的理解能力。隨著 Transformer 的發布,模型的規模和參數數量不斷擴大,標志著大型語言模型(LLMs)時代的到來。 在此背景下,一系列 LLMs 被相繼提出。其中,基于 Transformer 構建的 BERT 模型 [2],通過掩碼語言建模(Masked Language Modeling)和下一句預測(Next Sentence Prediction)等預訓練任務,能夠有效理解上下文語義。此外,一些開源的 LLMs,如 Flan-T5 [3]、Vicuna [4] 和 LLaMA [5],也在該領域取得了顯著進展,推動了 LLMs 的發展。 在醫學健康領域,LLMs 被應用于提升醫療工作的質量。它們在生成基于電子健康記錄(EHR)、病程記錄、醫患對話等醫療文本的簡潔準確報告等特定任務中發揮了關鍵作用。盡管醫學領域涉及文本、圖像、視頻、音頻、組學數據等多種模態,如何高效利用并恰當地融合這些多模態數據,已成為應對復雜醫療任務的發展趨勢。 近年來,基于 LLMs 并能夠處理多模態任務的多模態大型語言模型(MLLMs)進入公眾視野。目前大多數 MLLMs 擁有相似的結構,它們以 LLMs 為核心,在輸入端引入編碼器,在輸出端結合擴散生成模型。為了解決多模態任務而設計的某些模塊也不斷被優化,例如 CLIP [6]、BLIP [7]、BLIP-2 [8],以及適用于少樣本學習的 Flamingo [9]。為了處理多模態醫學數據,MLLMs 被逐步引入醫學領域。例如,MLLMs 主要被應用于醫學圖文任務,如基于圖像數據(如 CT 掃描)和文本知識生成診斷報告等。 然而,由于準確性不穩定以及專業性存疑,醫學界仍對 MLLMs 是否能夠勝任臨床應用持保留態度。我們認為,為了在臨床醫療中實現 MLLMs 的有效部署,這些模型應滿足專業化需求。通過我們的調研,我們總結了 MLLMs 在醫學應用中需要滿足的一些基本要求,包括但不限于專業性、準確性、幻覺(hallucination)控制、公平性等多個方面,同時也介紹了相應的評估基準。 基于醫學界的關注點與上述要求,我們進一步總結了 MLLMs 在醫療健康背景下面臨的一系列挑戰。為應對這些問題,已有部分可行性研究成果被提出。通過優化評估基準、持續攻克挑戰,我們對 MLLMs 在臨床場景中的應用前景持樂觀態度。
語言模型能夠理解并生成自然語言。其發展大致可分為四個階段:統計語言模型(SLM)、神經語言模型(NLM)、預訓練語言模型(PLM)以及大型語言模型(LLM)。各階段的代表性模型如圖 1 所示。 大型語言模型依托大規模數據集的預訓練和 Transformer 架構,在多個任務中表現出色。以 GPT 系列和 LLaMA 為代表的模型,都采用 Transformer 作為核心結構。Transformer 中的自注意力機制和并行計算能力,使其能高效處理長文本序列,從而支持對大規模數據的處理,并實現模型參數的大幅擴展。這種結構化的模型設計不僅促進了模型的深度學習能力,也顯著提升了其在文本生成、翻譯、復雜問答等多種任務中的適用性。
為應對不斷擴展的數據模態(如文本、圖像、音頻等),多模態大型語言模型(MLLMs)成為人工智能研究的熱點。借助多模態數據,模型可以更全面地理解并完成任務。MLLMs 主要由處理文本數據的大型語言模型(LLM)和處理其他模態數據的編碼器組成。在 LLM 的編碼器與其他模態之間,通常設置一個對齊模塊,用于將文本輸入與其他模態輸入對齊至統一的特征空間。 根據具體任務需求,靈活選取合適的預訓練 LLM 和模態編碼器,MLLMs 已在多個領域取得顯著突破。本節將介紹 MLLMs 的主要組成部分,以及一些經典的預訓練任務。 在構建應用模型時,通常可根據特定需求靈活組合多種預訓練任務。例如,在醫療健康領域,Med-MLLM [25] 是一個面向未來疫情的醫學多模態大型語言模型,旨在實現 COVID-19 的報告、診斷和預后分析。該模型在預訓練階段采用了三層級的任務設計。 首先,在圖像模塊的訓練中,模型采用了對比學習方法。具體做法包括對來自同一患者的不同類型醫學影像(如胸部 X 光和 CT 圖像)進行對比訓練,結合圖像增強和正則化技術,最小化來自同一患者的圖像之間的損失,從而提升模型對個體生理特征的理解能力。 其次,在語言模塊方面,模型采用了典型的文本預訓練任務,如掩碼語言建模(MLM)、句子重構、以及結果-印象對齊任務,以增強模型在文本理解和生成方面的能力。 最后,在圖文多模態預訓練方面,方法借鑒了類似于 CLIP 的圖文對比學習策略,并進一步融合 UMLS [26] 知識庫和預設目標,從而提升模型對醫學知識的整合能力。 通過上述三個方面的預訓練,Med-MLLM 能夠有效應對多種任務,包括 COVID-19 報告生成(即醫學報告生成)、疾病診斷(即疾病分類)及預后預測(即結果預測)。
通過利用醫學圖像、文本病歷、醫學教材和音頻等多種模態的醫療數據,多模態大型語言模型(MLLMs)能夠全面理解任務需求,從而高效執行醫學任務,如圖 2 所示。 本章將介紹 MLLMs 在醫療健康領域的主要應用,包括醫學報告生成、臨床溝通與指導、以及手術輔助等方面。
醫學報告有助于醫生進行診斷和制定治療方案,同時也是傳遞醫療信息的重要載體,使醫護人員能夠追蹤疾病進展。每天都需要有經驗的放射科醫生或專家撰寫大量醫學報告,這不僅耗費大量時間和人力資源,還容易因人為失誤而出現報告內容錯誤,從而導致誤診或治療延誤。因此,借助人工智能技術高效生成準確的醫學報告成為一個具有前景的研究方向。 大量研究表明,通過在醫療數據上微調訓練,LLMs 在處理醫學文本方面表現出強大能力 [27], [28], [29]。借助該能力,LLMs 可以與多模態模塊協同,根據不同模態的數據生成醫學報告。 目前的主流方法是使用 MLLMs 生成醫學報告。其基本思路是以醫學圖像(如 X 光 [30]、CT [31], [32]、MRI [33],甚至三維掃描圖像 [34])為輸入,并結合對應的圖像描述文本,構建圖文對,作為訓練 MLLMs 的輸入。例如,X-ray GPT 將 X 光圖像輸入一個凍結的視覺編碼器以提取圖像特征,隨后通過可學習的線性轉換層進行對齊,將圖像特征與文本對齊,再輸入基于 Vicuna 且在醫學數據上微調過的 LLM。最后,通過如“請說明該 X 光片的主要發現與印象”等提示語引導模型生成文本描述,從而實現有效的圖文理解與文本生成。 預訓練階段對于醫學報告生成模型至關重要,其效果決定了模型對圖像和文本數據的利用效率。研究表明,盡管臨床報告通常遵循“發現-印象”格式,但其結構混亂、不規范 [35],且包含大量冗余信息,不利于模型訓練。當前一些研究提出了通過標準化或重構文本格式來幫助模型聚焦核心內容的方法 [19], [35]。例如,MedKLIP [36] 使用三元組提取模塊將圖像描述壓縮為“外觀-位置-存在”三要素,減少理解負擔。 目前 MLLMs 生成報告時大多偏重“印象”部分,缺乏深度推理能力,導致部分模型雖在基準測試上表現優異,但在真實臨床應用中表現較差 [37]。為提升模型推理能力,有研究提出應使用包含完整推理過程的文本進行訓練 [38], [39],如符合“發現-印象”結構的報告。 應注意,醫學報告不同于一般文本生成任務,其具備嚴格的邏輯結構,通常由詳細觀察與對應總結組成 [40],并需滿足醫學術語的標準化要求。可通過引入句子重構(SR)[25]、掩碼語言建模(MLM)等任務,使模型學習專家書寫風格。此外,為處理如“cardiomegaly”被錯誤拆分為“card-io-me-gal-y”等問題,可構建特定醫學詞典并定期更新 [42]。 MLLMs 也可輔助完成前置任務,如記錄與總結醫生的口述內容 [43], [44],從而減輕工作壓力。在醫學影像方面,MLLMs 可應用于圖像分割,聚焦關鍵區域并執行基于弱監督的操作指令 [45], [46]。
近年來,聊天機器人在多個領域獲得廣泛關注,尤其在醫療健康領域展現出廣闊前景。早期研究主要基于單一模態(如文本)訓練聊天模型,借助醫生-患者對話數據 [18], [80] 和醫學 VQA 數據 [17] 微調模型,取得了良好效果。 隨著具備多模態能力的 MLLMs 的快速發展,聊天機器人能夠處理圖像、視頻等模態輸入。例如,SkinGPT4 [24] 在大量皮膚數據上微調后,可提供專業皮膚病建議;LLaVA-Med [22] 可處理醫學圖像,執行 X 光、CT、MRI 等影像的 VQA 任務,并在多個閉源醫學 VQA 數據集上實現 SOTA 性能。 盡管這些模型在數據集和評估基準上表現優異,但對“印象”的依賴可能削弱其推理能力,導致臨床表現不佳 [81]。 此外,研究表明,人們仍傾向于從人類那里獲得醫療服務,主要原因是互動性與親和力 [82], [83]。對患者而言,被理解和共情與診斷準確性同樣重要。現代快節奏生活和社交媒體的普及也使心理服務需求顯著上升 [84], [85]。在心理治療中,專家與患者之間的交流具有重要療效 [86]。基于此,聊天機器人在心理咨詢中表現出潛力 [87], [88],有助于緩解醫療資源壓力、降低成本。由于患者在無羞恥感的環境中更易表達,機器人在某些場景下甚至優于人類 [89], [90]。 已有多個基于 LLM 的心理咨詢機器人被提出 [91], [92], [93],其主要關注患者話語中的情緒、合作程度、溝通習慣等特征,使模型能通過提問、安慰、肯定、傾聽、信任等方式展現同理心,并結合相關基準進行評估與優化 [94], [95]。然而,僅依賴文本仍有局限。例如,“That’s great”一句在不同面部表情或語調下可傳達完全不同的情緒,如翻白眼或諷刺語調。因此,MLLMs 被引入以提取面部動作、肢體語言、眼動、語音節奏與語調,全面分析患者狀態 [96], [97],實現類面對面的診療效果,從而緩解“缺乏共情”的問題 [91]。 醫療健康領域的聊天機器人具備及時性、低成本、高效率等特性,符合現代醫療體系的追求。在相關立法與質量監管完善后,其普及前景廣闊 [98]。
由于患者缺乏醫學知識,往往需要醫生或專家進行手術說明和分析。即使是經驗不足的醫生,也需咨詢資深專家。但高級專家每日任務繁重,難以面面俱到。為緩解這一問題,計算機技術已被引入手術輔助中 [99], [100],但仍需專家解答臨床問題。 近年來,部分 MLLMs 被提出用于手術場景中,輔助甚至替代專家工作。例如,通過引入 Surgery VQA 數據 [101] 并在手術視頻數據上訓練 MLLMs,使模型能回答手術相關問題 [74], [102]。SurgicalGPT [103] 將 GPT 與視覺編碼器結合,在腎臟內窺鏡圖像上微調,在多個手術 VQA 數據集(EndoVis18-VQA、Cholec80-VQA、PSI-AVA-VQA)上取得 SOTA 性能。 現有手術 VQA MLLMs 多聚焦于病灶相關區域,常忽略背景信息,導致對手術流程理解片面,進而引發誤判 [104]。考慮到手術動作、工具使用等因素可能蘊含背景知識,引導模型全面理解手術過程是提升模型準確性的關鍵 [105], [106]。未來可進一步擴展手術模型使用的數據種類,如種族、地域、EHR 與病史等,以提升模型泛化能力。 此外,借助醫學報告生成的成果(見 3.1 節),MLLMs 也被用于生成手術過程分析與總結報告 [107], [108],為后續手術提供決策支持。 由于臨床手術容不得錯誤,模型的響應與建議必須達到極高水準。盡管部分模型在封閉數據集上表現出色,距離真正的臨床部署仍有較長距離。同時應明確立法責任。目前除內窺鏡數據外,其他手術數據尚不足,擴展數據種類是實現手術 MLLMs 廣泛應用的前提。
在本章中,我們將探討醫療健康領域中多模態數據的多種類型,如圖 3 所示。我們將分析不同結構、類型與類別的數據如何增強模型執行多樣任務的能力,并促進其在專業層面的表現。我們在表 2 和表 3 中整理了跨模態醫學數據集的多種形式,用于訓練目的。此外,我們還將在表 4 中列舉并介紹用于訓練多模態大型語言模型的現有數據集,以及在表 5 中列出用于訓練傳統大型語言模型的數據集。 然而,出于對隱私與安全的擔憂,數據采集過程面臨諸多挑戰,導致醫學多模態大型語言模型所需的數據相對匱乏。為應對這一問題,我們將從兩個角度探討有效的解決方案:模型優化 和 數據增強。
與常規的 MLLMs 不同,醫學領域的 MLLMs 被要求具備嚴格的專業性。簡而言之,醫學 MLLMs 應當擁有與專業醫生相當的領域知識。目前仍可明顯觀察到,AI 的專業化程度尚不及人類專家 [147], [148]。為了滿足臨床應用與專業標準,將模型性能對齊至真實專家的能力是一種可行路徑。 掌握精準的醫學知識是提供醫療服務的基礎。醫學知識通常以文本為載體,通過使用特定的醫學文本與多模態數據對模型進行微調,MLLMs 能夠有效學習并應用這些知識。 在第 3 章中,我們已介紹幫助模型獲取醫學能力的常規方法。除了使用合適的數據格式和內容外,從臨床記錄與報告中構建專業醫學詞典,也有助于模型識別罕見醫學術語,提取關鍵醫學信息 [149], [150],這一點在處理罕見疾病時尤為重要 [151]。 評估方法: 可從多個維度評估 MLLMs 的專業性。通常,模型生成的醫學報告或對話響應能提供有價值的反饋。 從表達形式來看,模型的語言應接近醫學專家的表達方式。通過將模型生成的文本與臨床文本比較,評估其在詞匯、語義、結構和信息突顯度方面的相似度,常用自然語言生成的評估指標 [152–155] 可用于衡量這些維度。通過優化這些評估指標,模型的表達可更符合專業化標準。 除了語言表達,還需關注內容的邏輯性與精確性,這是衡量專業性的核心。評估需涵蓋準確性、細節、特征、邏輯等多個方面,通常通過人工或 AI 方式進行。 * 人工評估: 由專家根據多個維度(如描述準確性、細節豐富性、整體特征考慮、實際應用價值)打分 [19], [156], [157]。 * 自動評估: 包括兩類:① 模型直接執行具有評估屬性的任務;② 使用 AI 模擬專家對模型輸出進行打分 [38], [161]。
例如,美國醫學執照考試(USMLE)常用于評估 GPT 系列、Med-PaLM 等模型 [158–160]。盡管 GPT-4 和 Med-PaLM 準確率已超 86%,接近人類專家水平 [158],但在臨床場景中表現仍不穩定,因其推理能力薄弱、過度依賴記憶 [38]。 使用 AI 進行自動評分的方法類似于人工評估,例如讓 Gemini-Pro 與 GPT-4 扮演醫學專家角色,對模型輸出進行維度化評分 [161],如圖 9 所示。
醫學 MLLMs 的輸出仍受到醫療領域的質疑。除了準確性外,生成信息的可信度是評估模型的關鍵。幻覺(hallucination)指模型生成看似合理但實際上錯誤或虛假的內容 [162–165],這在醫學中可能導致嚴重后果。 造成幻覺的原因包括:指令質量差、訓練數據不足,或醫療數據更新太快,模型依賴記憶而非推理 [166–167]。 解決方案包括:
利用高質量的醫學數據; * 采用專業教材作為唯一生成來源 [168]; * 設計自檢結構,自我糾錯 [169–170]。
在 MLLMs 中,幻覺問題更復雜:
數據不足會導致多模態信息無法正確對齊,產生誤解; * 錯誤識別圖像對象是常見誘因 [173–174]; * 模型過度依賴語言模型固有知識,忽視圖像信息 [175]。
研究歸納出三類圖像幻覺:
類型幻覺; 屬性幻覺; 關系幻覺(如共現、反事實、虛構關系)[175–176]。
原因包括:視覺編碼器參數不足、圖像分辨率不夠、模型未能聚焦關鍵區域 [177–179]。可以通過圖像分割、邊界引導等方式提升模型對圖像細節的關注度 [175]。 評估方法:
將幻覺相關問題轉化為二值判定任務,通過分析模型回答判斷是否存在幻覺 [182–184]。 盡管 MLLMs 具有作為醫學教育與研究信息源的潛力,但其發揮作用的前提是:高質量監督與嚴格質量控制。
模型的準確性和專業性也會受到偏見問題的威脅,包括種族、社會角色、地域等方面。MLLMs 多基于網絡數據訓練,這些數據中可能包含主流偏見。 例如,[185] 指出模型對白人群體預測更高治療費用與住院時間。在高預期生存率的醫療情境中,模型會表現出過于樂觀的預估。研究發現模型可能因刻板印象降低少數族群的治療比例 [186]。 數據集中長期聚焦特定人群會導致數據不穩定,產生偏見。例如,未被醫保覆蓋的弱勢群體在模型預測中效果極差 [188],[25] 也指出不同地區族群在交叉驗證中表現不佳。 解決方法包括:
數據層面:過濾與均衡主導類別樣本,或通過反事實數據與欠采樣重構數據分布 [180, 189]; * 訓練策略:使用 RLHF(基于人類反饋的強化學習)提升模型對人類價值的對齊程度 [190]; * 增強同理心,使模型更具人文關懷 [191]。
評估方法:
構建結合患者信息與經典任務(如問答、報告生成)的評估體系。例如: * Harvard-FairVLMed [192]:將種族、性別等元數據整合進問答任務; * FMBench:基于 Harvard-FairVLMed 擴展,加入多種人口特征,評估模型在多樣化人群下的響應表現。
摘要——理解和復現真實世界是人工通用智能(AGI)研究中的關鍵挑戰。為實現這一目標,許多現有方法(如世界模型)試圖捕捉物理世界的基本規律,以實現更精確的模擬和更有意義的交互。然而,當前的方法通常將不同模態(包括2D圖像、視頻、3D和4D表示)視為獨立的領域,而忽略了它們之間的相互關聯。此外,這些方法通常僅關注現實世界的某個孤立維度,而未能系統性地整合它們的聯系。因此,在本綜述中,我們提出了一個統一的多模態生成模型綜述,研究數據維度在真實世界模擬中的演進過程。具體而言,我們從2D生成(外觀)出發,擴展到視頻生成(外觀+動態)和3D生成(外觀+幾何),最終達到整合所有維度的4D生成。據我們所知,這是首次嘗試在單一框架內系統性地統一2D、視頻、3D和4D生成的研究。為引導未來研究,我們提供了對數據集、評測指標和未來方向的全面回顧,并為初學者提供深入見解。本綜述旨在作為一座橋梁,推動多模態生成模型與真實世界模擬在統一框架下的發展。 索引詞——生成模型,圖像生成,視頻生成,3D生成,4D生成,深度學習,文獻綜述
【2 基礎知識】 本部分對深度生成模型的基本原理做了簡要回顧。論文中介紹的各類生成模型都旨在通過深度神經網絡近似真實數據的分布。文中詳細討論了幾種主流模型:
──────────────────────────── 【3 各范式下的真實世界模擬】 論文按照數據維度的增長,系統地將真實世界模擬劃分為四個層次,即二維生成、視頻生成、三維生成和四維生成,每個層次均著眼于不同的屬性建模。 【3.1 二維生成】 在二維生成部分,重點討論了文本到圖像的生成技術。利用擴散模型、預訓練語言模型及自編碼器等技術,現有方法已能夠從文本描述中生成高質量、語義準確的圖像。論文中詳細介紹了Imagen、DALL-E、DeepFloyd IF、Stable Diffusion及其擴展版本(如SDXL和FLUX.1)等模型,這些模型通過多階段生成、跨模態編碼以及高效的降噪技術,在圖像外觀建模方面取得了顯著成效。
【3.2 視頻生成】 視頻生成技術在二維圖像生成的基礎上增加了時間維度,面臨更高的時空一致性要求。論文將當前視頻生成方法歸納為基于變分自編碼器與對抗生成網絡、基于擴散模型以及自回歸模型三大類:
【3.3 三維生成】 三維生成部分主要關注對物體幾何和外觀信息的全面建模。論文首先討論了三維數據表示方式,分為明確表示(如點云、體素網格、網格模型和三維高斯分布)、隱式表示(通過連續函數描述物體表面,如符號距離函數與神經輻射場)以及混合表示(結合前兩者優點,通過混合體素或基于四面體網格等方法實現高效表達)。在算法層面,論文介紹了文本到三維生成、圖像到三維生成以及視頻到三維生成三種任務。 (1)在文本到三維生成中,有兩大類方法:一種是前向傳播方法,直接從文本編碼中得到緊湊的三維表示;另一類是基于優化的方法,通過利用文本到圖像的預訓練模型產生中間視角,再借助擴散模型或其他損失函數進行三維結構的精細化優化。 (2)圖像到三維生成主要利用已有圖像數據,通過編碼壓縮網絡和生成模型得到符合輸入圖像特征的三維資產; (3)視頻到三維生成則利用視頻中的多視角信息,通過時空一致性訓練,生成既具有細節又滿足多視角約束的三維結構。論文中對各類方法的優缺點進行了詳細比較,并討論了如何利用大規模三維數據集以及多視角預訓練模型來提高三維生成的精度和一致性。
【3.4 四維生成】 四維生成則是在三維生成的基礎上進一步引入時間維度,用以描述動態場景的演變。此部分面臨空間連續性和時間一致性的雙重挑戰。論文介紹了四維數據表示方法,包括基于靜態三維表示擴展時間信息、采用時空分解與哈希映射等技術以降低重建單個場景的計算成本。當前,四維生成主要分為兩類方法:
──────────────────────────── 【4 數據集與評測指標】 論文還對真實世界模擬中常用的數據集與評測指標做了綜述。針對二維、視頻、三維和四維生成,不同任務所采用的數據集具有各自特點,如大規模圖文數據集、視頻編輯數據集以及用于三維重建和視角合成的專用數據集。同時,評測指標不僅包括圖像質量、視頻時空連貫性,還涵蓋三維模型的幾何精度、表面細節以及多視角一致性等多個方面。對這些指標的詳細比較和應用場景的討論為后續研究提供了重要參考。 ──────────────────────────── 【5 未來方向與挑戰】 盡管當前多模態生成模型在模擬真實世界方面已取得顯著進展,但論文仍指出存在若干開放性挑戰: 一是如何在保證生成內容高保真和細節豐富的前提下進一步提高生成速度與計算效率; 二是如何在多模態、多維度之間建立更加緊密的聯系,克服單一維度模型帶來的局限; 三是如何借助更大規模、更高質量的數據集,推動文本、圖像、視頻到三維乃至四維生成方法的統一與協同; 此外,在應用層面,如虛擬現實、自動駕駛、機器人等場景中對生成模型的魯棒性、實時性以及交互性提出了更高要求,這些均為未來研究的重要方向。 ──────────────────────────── 【6 結論】 本文系統性地綜述了多模態生成模型在真實世界模擬中的研究進展,詳細討論了從二維到四維生成的各個技術范式。通過對比傳統圖形學方法與基于深度學習的生成模型,論文不僅明確了當前各類方法的優勢和局限,也為未來研究指明了方向。總體來說,本綜述為研究人員提供了一個統一的視角,幫助大家在跨模態、跨維度的真實世界模擬領域進行更深入的探討和創新。
摘要—譜聚類是一種強大的高維數據聚類技術,利用基于圖的表示來檢測復雜的非線性結構和非凸聚類。構建相似度圖對于確保準確有效的聚類至關重要,因此圖結構學習(GSL)在應對日益增長的可擴展解決方案需求中,成為提升譜聚類性能的核心。盡管在GSL方面取得了一定的進展,但目前缺乏專門針對其在譜聚類中的作用的全面調查。為填補這一空白,本調查提供了關于譜聚類方法的全面綜述,重點討論了GSL的關鍵作用。我們探討了多種圖構建技術,包括成對、錨點以及基于超圖的方法,涵蓋固定和自適應設置。此外,我們將譜聚類方法分類為單視角和多視角框架,研究它們在單步和兩步聚類過程中的應用。我們還討論了多視角信息融合技術及其對聚類數據的影響。通過解決當前的挑戰并提出未來的研究方向,本綜述為推動譜聚類方法的發展提供了有價值的見解,并強調了GSL在處理大規模高維數據聚類任務中的關鍵作用。關鍵詞—譜聚類,圖結構學習,譜嵌入,多視角聚類
I. 引言
聚類(Clustering)是無監督學習中的一種基礎技術,旨在將數據點劃分為不同的組或簇,使得簇內的點彼此相似,而與其他簇中的點差異較大【1】–【3】。與監督學習不同,聚類在沒有預定義標簽或類別的情況下運行,而是通過識別數據中的內在模式和結構來實現目標。這使得聚類在探索性數據分析中尤為重要,在此過程中,目標是揭示隱藏的模式,而不依賴于數據結構的先驗假設【4】。聚類被廣泛應用于各個領域,包括市場營銷【5】、社交網絡分析【6】、圖像分割【7】、生物信息學【8】、異常檢測【9】和文檔分類【10】。它簡化了復雜的數據,增強了理解,且常常作為其他機器學習任務(如分類)的預處理步驟。
聚類方法可以大致分為傳統方法和基于降維的聚類方法,如圖1所示。傳統方法包括基于劃分的方法【11】、層次聚類方法【12】、基于密度的方法【13】和概率算法【14】,每種方法都采用不同的策略來對數據進行分組。基于劃分的方法(如K-means)將數據劃分為固定數量的簇,每個簇由一個質心表示【11】。層次方法,如凝聚型和分裂型聚類,通過合并較小的簇(凝聚型)或拆分較大的簇(分裂型)來構建聚類層次【15】【16】。基于密度的方法,如DBSCAN,通過基于高密度區域對數據點進行分組,能夠識別形狀各異的簇【17】。概率方法,如高斯混合模型(GMM),使用概率模型來表示數據分布和聚類【14】。
盡管傳統方法對于低維且結構良好的數據集有效,但當應用于高維或復雜數據時,往往面臨局限性。在高維空間中,點與點之間的距離度量變得困難,通常會導致聚類性能不佳。此外,傳統方法常常無法捕捉非凸形狀和復雜的數據結構。為了應對這些局限性,基于降維的聚類方法應運而生,通過減少特征或維度的數量,使得在較低維度空間中進行聚類,同時保留必要的結構信息。基于降維的聚類方法包括非負矩陣分解(NMF)【18】、譜聚類【19】【20】、核聚類【21】和深度聚類【22】。NMF是一種有效的降維技術,用于將數據矩陣分解為兩個低維的非負矩陣【18】。然而,當處理更加復雜或非線性的數據結構時,可能面臨一定的挑戰。核聚類(包括核K-means和核主成分分析(PCA)等方法)通過應用核函數來處理數據中的非線性關系【21】。譜聚類利用圖論,將數據點表示為圖中的節點,節點之間的相似度則通過邊來表示,并采用如Ratio-cut【23】和Normalized-cut【24】等方法。深度聚類將深度學習與聚類結合,通過神經網絡學習低維表示【22】。盡管深度聚類對于大規模、高維數據非常強大,但它需要大量的計算資源,并且需要細致的超參數調優。在降維技術中,譜聚類因其能夠通過圖結構方法識別非凸簇并捕捉非線性結構,而在處理復雜數據時表現尤為突出。譜聚類通過將數據點表示為圖中的節點,并使用基于圖的嵌入方法,根據數據點之間的連通性和關系來劃分數據。這種靈活性使得譜聚類能夠應用于各種領域中的問題,特別是在結合有效的圖構建技術時。譜聚類尤其適用于高維數據,在這種情況下,譜嵌入通過降低維度同時保留必要的結構信息,從而緩解了“維度災難”問題,并使得非線性模式的聚類變得可靠。對于大規模數據集,基于錨點圖的譜聚類通過使用一部分代表性點(或稱為錨點)來高效近似數據點之間的關系,從而提供了一種可擴展的解決方案,既節省了計算資源,又保證了聚類質量。因此,譜聚類具有很強的靈活性和可擴展性,能夠適應高維和大規模數據的應用,是進行復雜聚類任務的強大工具【21】【25】。譜聚類成功的關鍵因素之一是相似度圖的構建,圖結構是整個過程的基礎。這個圖表示了數據點之間的關系,節點對應數據點,邊表示它們之間的成對相似度。圖的質量顯著影響譜嵌入和聚類結果,因為它直接決定了數據底層結構的捕捉精度【25】。在譜聚類中,常用的圖類型包括成對圖【26】、錨點圖【27】【28】和超圖【29】【30】。不同類型的圖在數據的性質不同的情況下提供了各自的優勢。這些圖可以是固定的,即結構在整個聚類過程中保持不變,也可以是自適應的,即在聚類過程中動態學習并更新圖的結構。盡管在譜聚類,尤其是在圖像分割【31】、文本分類【32】和工業設計【33】等領域取得了進展,但仍缺乏一篇全面的綜述,專門探討圖結構學習(GSL)在譜聚類中的作用。為填補這一空白,本調查提供了關于譜聚類的廣泛綜述,特別強調了圖結構在提升聚類準確性方面的關鍵作用。雖然先前的綜述【34】提供了關于譜聚類的概述,重點討論了圖切割、拉普拉斯矩陣和聚類過程,但我們的綜述深入探討了更為具體且至關重要的GSL方面。先前的綜述側重于譜聚類的數學基礎和應用,但沒有廣泛探討圖的構建方式及其對聚類性能的影響。相較之下,我們的綜述突出了圖構建技術的作用,包括成對、錨點和超圖方法,并探討了固定和自適應形式下的應用。此外,我們將譜聚類方法分類為單視角和多視角方法,分析它們在單步和兩步框架中的應用。這些框架的區別在于聚類是否作為獨立步驟,在譜嵌入之后進行,還是與譜嵌入一起聯合優化。我們還對多視角譜聚類中的信息融合技術進行了更深入的探討,這一領域在先前的綜述中沒有涉及,提供了關于如何通過整合來自多個來源的數據來增強聚類性能的新見解。這對于處理復雜、異構和高維數據尤為重要,是推動多視角譜聚類發展的重要貢獻。
本綜述的貢獻如下:
摘要—終身學習,也稱為持續學習或增量學習,是推進人工通用智能(AGI)的關鍵組成部分,通過使系統在動態環境中持續適應。盡管大規模語言模型(LLM)在自然語言處理領域展現了出色的能力,但現有的LLM智能體通常是為靜態系統設計的,缺乏根據新挑戰隨時間適應的能力。本調查是首個系統總結將終身學習納入基于LLM的智能體的潛在技術的文獻。我們將這些智能體的核心組件分為三個模塊:感知模塊,用于多模態輸入的集成;記憶模塊,用于存儲和檢索不斷發展的知識;以及行動模塊,用于與動態環境的實際互動。我們強調這三個支柱如何共同實現持續適應,緩解災難性遺忘,并提高長期性能。本調查為從事基于LLM智能體的終身學習能力開發的研究人員和從業人員提供了一條發展路線圖,提供了關于新興趨勢、評估指標和應用場景的見解。相關文獻和資源可通過以下鏈接獲取:
//github.com/qianlima-lab/awesome-lifelong-llm-agent.
關鍵詞—終身學習,持續學習,增量學習,大規模語言模型,智能體,人工通用智能(AGI)
1 引言
“智慧是適應變化的能力。” ——斯蒂芬·霍金
終身學習[1],[2],也稱為持續學習或增量學習[3],[4],已成為智能系統發展的關鍵焦點。如圖1所示,終身學習近年來吸引了越來越多的研究關注,它在使這些系統能夠持續適應并不斷改進方面起著至關重要的作用。正如Legg等人[5]所指出的,人的智能本質上是快速適應廣泛環境的能力,這突顯了人工智能系統展現同樣適應性的需求。終身學習指的是系統在避免遺忘已學知識的同時,獲取、整合和保持新知識的能力。對于那些在動態復雜環境中運行的系統,尤其重要,因為這些環境中常常出現新的任務和挑戰。與傳統的機器學習模型不同,后者通常在固定數據集上進行訓練并優化以執行特定任務,終身學習系統則被設計為能夠不斷演變。它們隨著遇到新情境而積累新知識并持續完善其能力。 盡管終身學習具有潛力,但目前人工智能的進展與終身學習的實際應用之間仍存在顯著的差距。雖然人類能夠自然地整合新知識并保留舊知識,但當前的人工智能系統在終身學習方面面臨兩大挑戰:災難性遺忘[6]和可塑性喪失[7],[8]。這些挑戰形成了穩定性與可塑性困境[9]。一方面,災難性遺忘指的是當系統學習新任務時,會忘記之前學到的信息,特別是在環境發生變化時尤為突出。另一方面,可塑性喪失則指系統無法適應新任務或新環境。這兩者代表了學習譜系的兩個對立端:靜態系統避免遺忘,但缺乏適應能力;而注重適應的系統則面臨遺忘過去知識的風險。克服這一困境是推動人工智能發展的關鍵,也是實現人工通用智能(AGI)[5]的基礎性挑戰。
近年來,大規模語言模型(LLM)[11],[12]的進展顯著改變了自然語言處理領域。像GPT-4[12]這樣的模型通過學習海量的文本數據,能夠處理并生成類人文本。它們在文本生成、機器翻譯和問答等任務中表現出色,得益于其理解復雜語言模式的能力。然而,傳統的LLM[11],[12]在訓練完成后是靜態的,這意味著它們無法在部署后適應新任務或環境。它們的知識是固定的,且無法在不重新訓練的情況下整合新信息,這限制了它們在動態現實場景中的應用。與此相比,LLM智能體代表了更高級的人工智能形式。不同于標準的LLM,這些智能體[13],[14]是能夠與環境互動的自治實體。LLM智能體能夠感知多模態數據(例如文本、圖像、傳感數據),將這些信息存儲在記憶中,并采取行動影響或響應其周圍環境[15]–[17]。它們被設計為不斷適應新情境,隨著與環境的互動和經驗的積累,智能體的決策能力得以不斷提高。圖2和圖3提供了相關示意圖。
將終身學習融入LLM智能體的動機源于開發能夠不僅適應新任務,還能在廣泛的動態環境中保留并應用先前知識的智能系統的需求,這與Legg等人[5]將智能定義為快速適應廣泛環境的觀點相契合。目前,現有的LLM智能體通常被開發為靜態系統,限制了它們在面對新挑戰時的演變能力。此外,大多數關于LLM的終身學習研究[1],[4]集中于處理不斷變化的數據分布,而非與環境進行互動。例如,通過持續微調LLM以適應特定領域的指令[1]。然而,這些方法仍將LLM視為靜態黑箱系統,并未解決LLM在真實世界環境中進行互動學習的實際需求。圖2比較了傳統的終身學習范式與本調查中討論的、LLM智能體與動態環境互動的新范式。 在現實世界的應用中,LLM智能體需要適應多樣的環境,如游戲、網頁瀏覽、購物、家庭任務和操作系統,而無需為每個新情境設計單獨的智能體。通過引入終身學習能力,這些智能體可以克服這一局限性。它們能夠持續學習并存儲來自多種模態(如視覺、文本、傳感數據)的知識,使其在環境變化時能夠進行實時適應和決策[18]–[21]。將終身學習融入LLM智能體,可以釋放它們在動態現實應用中的全部潛力[22],[23]。因此,這些智能體能夠不斷演變、獲得新知識,并保持關鍵信息,從而增強其適應性和多功能性。這個持續學習的過程對那些挑戰不斷出現的環境尤為重要,如自主機器人、互動助手和自適應決策支持系統[14]。圖4展示了一個終身學習的LLM智能體示意圖。
本調查提供了關于基于LLM的智能體終身學習系統的關鍵概念、技術和挑戰的全面概述。作為首個系統總結將終身學習納入LLM智能體的潛在技術的文獻,本調查將重點回答以下研究問題(RQ): RQ1:為終身學習設計的LLM智能體的核心概念、開發流程和基本架構是什么?(第3節) RQ2:LLM智能體如何持續感知和處理單模態和多模態數據,以適應新環境和任務?(第4、5節) RQ3:什么策略可以減輕災難性遺忘并保留已學知識?(第6、7、8、9節) RQ4:LLM智能體如何在動態環境中執行各種動作,如扎根、檢索和推理?(第10、11、12節) RQ5:評估終身學習在LLM智能體中表現的評估指標和基準是什么?(第13節) RQ6:終身學習LLM智能體的現實應用和使用案例是什么?它們如何從持續適應中受益?(第14節) RQ7:開發LLM智能體終身學習面臨的關鍵挑戰、局限性和未解問題是什么?(第15節) 通過回答這些研究問題,本調查作為理解LLM智能體中終身學習的設計、挑戰和應用的逐步指南。它回顧了最前沿的技術,并突出了新興趨勢和未來的研究方向。
據我們所知,這是首個系統回顧終身學習與LLM智能體交叉領域最新進展的調查。本調查的主要貢獻如下:
本調查的結構如下:第2節回顧了關于LLM智能體和終身學習的相關調查和文獻;第3節介紹了為終身學習設計的LLM智能體的基礎概念、開發流程和整體架構;第4和第5節從感知角度討論了終身學習LLM智能體的設計,分別聚焦于單模態和多模態方法;第6、7、8和9節從記憶角度探討了LLM智能體的設計,涉及工作記憶、情節記憶、語義記憶和參數記憶;第10、11和12節從行動角度探討了LLM智能體的設計,包括扎根動作、檢索動作和推理動作;第13節介紹了評估終身學習LLM智能體表現的評估指標和基準;第14節深入討論了終身學習LLM智能體的現實應用和使用案例;第15節提供了實踐洞察并概述了未來的研究方向;最后,第16節總結了本調查。
終身學習,也稱為持續學習或增量學習,基于這樣一個理念:智能系統應該像人類一樣,持續地獲取、完善和保留知識,貫穿整個生命周期。與傳統的機器學習方法不同,傳統方法假設數據集是固定的、靜態的,而終身學習框架則面臨數據和任務隨時間演變的現實,模型必須在不遺忘已掌握技能的前提下進行適應。圖5展示了終身學習發展的示意圖。
終身學習的基于LLM的智能體架構旨在持續適應、整合并優化其在一系列任務和環境中的行為。在本小節中,我們識別了三個關鍵模塊——感知、記憶和行動——它們共同支持終身學習。這個劃分遵循了先前工作中提出的框架[14],但有一個顯著的不同:我們沒有保留“腦”模塊,而是采用了[14]中提出的“記憶”模塊,具有更清晰的功能性和改進的模塊化結構。 每個模塊相互作用,確保智能體能夠處理新信息、保留有價值的知識并選擇適應當前情境的合適行動。這三個模塊的設計理念來源于智能體的需求:(i) 感知和解讀不斷變化的數據,(ii) 存儲和管理來自過去經驗的知識,(iii) 執行適應變化環境的任務。 這三個模塊構成了一個動態反饋回路:感知模塊將新信息傳遞給記憶模塊,在記憶模塊中進行存儲和處理。記憶模塊隨后引導行動模塊,影響環境并為未來的感知提供信息。通過這一持續循環,智能體不斷完善其知識,提升適應性,最終提高其在復雜動態環境中的表現。
接下來,我們將詳細描述每個模塊,分析其設計如何貢獻于智能體的終身學習能力。圖6展示了整體架構的示意圖,圖7總結了后續章節的組織結構。
摘要自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到了越來越多的關注,但仍然缺乏整體視角。許多關鍵方面仍不清楚,例如LLMs已應用于哪些疾病和臨床數據、使用了哪些LLM技術以及采用了哪些評估方法。在本文中,我們對基于LLM的疾病診斷方法進行了綜合評述。我們的評審從多個維度考察了現有文獻,包括疾病類型及其相關的臨床專科、臨床數據、LLM技術和評估方法。此外,我們還提出了關于LLMs在診斷任務中應用與評估的建議。我們進一步評估了當前研究的局限性,并討論了未來的研究方向。據我們所知,這是首個關于基于LLM的疾病診斷的綜合評述。
引言
自動疾病診斷是臨床場景中的一項關鍵任務,它以臨床數據為輸入,分析模式,并生成潛在的診斷,幾乎無需或完全無需人為干預。這在醫療保健中的重要性是多方面的。首先,它提高了診斷的準確性,支持臨床醫生的決策,并通過提供更多高質量的診斷服務來解決醫療保健中的不平等問題。其次,自動診斷提高了醫療專業人員的效率,這對于管理老齡化患者和多病患者群體的臨床醫生來說尤為寶貴。例如,DXplain是一個診斷系統,它利用患者的體征、癥狀和實驗室數據生成潛在診斷列表,并提供每種病癥應被考慮的理由。此外,在線服務進一步促進了某些疾病的早期診斷或大規模篩查,例如心理健康障礙,通過早期階段提高意識,幫助預防潛在的風險。例如,幾項研究探討了使用社交媒體帖子進行大規模抑郁癥識別和自殺風險預測。
人工智能(AI)的最新進展推動了自動診斷系統的發展,經歷了兩個階段。最初,機器學習技術如支持向量機和決策樹被用于疾病分類,這通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集的增大和計算能力的提升,深度學習方法逐漸主導了診斷任務的發展。這些方法利用了深度神經網絡(DNNs),包括卷積神經網絡(CNN)、循環神經網絡(RNN)和生成對抗網絡(GAN),實現了端到端的特征提取和模型訓練。例如,一個擁有34層的卷積DNN在心律失常診斷中達到了與心臟病專家相當的水平。然而,這些模型通常需要大量標注數據進行監督學習,并且通常是任務特定的,限制了它們對其他任務或新需求的適應性。 近年來,人工智能的范式已經從傳統的深度學習轉向了大型語言模型(LLMs)的出現。與監督學習不同,LLMs(如生成式預訓練變換器(GPT)和LLaMA)是通過自監督學習在大量未標記數據上進行預訓練的生成模型。這些模型通常包含數十億個參數,擅長語言處理,并能適應各種任務。迄今為止,LLMs在臨床場景中展現了卓越的表現,包括問答(QA)、信息檢索和臨床報告生成等任務。最近,越來越多的研究驗證了LLMs在診斷任務中的有效性。例如,PathChat是一個經過數十萬條指令微調的視覺-語言通用LLM,在人體病理學中達到了最先進的表現。Med-MLLM是一個基于多模態的LLM,經過在包括胸部X光、CT掃描和臨床筆記在內的廣泛醫療數據上的預訓練和微調,在COVID-19診斷中展示了顯著的準確性。此外,Kim等人通過提示工程使用GPT-4,發現其在識別強迫癥方面超越了心理健康專家,這突顯了LLMs在心理健康診斷中的潛力。 盡管該研究領域引起了廣泛關注,但許多關鍵問題仍未得到充分探索。例如,在基于LLMs的診斷任務中,哪些疾病和醫療數據被調查過(Q1)?LLMs技術在疾病診斷中是如何應用的,以及如何選擇合適的技術(Q2)?評估診斷性能的合適方法是什么(Q3)?盡管已有眾多綜述文章探討了LLMs在醫學領域的應用研究,這些研究通常提供了廣泛的臨床應用概述,但并未特別強調疾病診斷。例如,Pressman等人對LLMs在預咨詢、治療、術后管理、出院和患者教育等方面的潛在臨床應用進行了全面總結。此外,這些綜述文章均未探討將LLMs應用于疾病診斷的細節與挑戰,或回答上述關鍵問題,突顯了這一領域的重要研究空白。 本綜述的主要目的是提供關于利用LLMs進行疾病診斷研究的概述。綜述介紹了現有研究中的各種疾病類型、與疾病相關的臨床專科、臨床數據、LLM技術和評估方法。此外,我們為數據準備、選擇合適的LLM技術以及為診斷任務采用適當的評估策略提供了建議。進一步地,我們還分析了當前研究的局限性,并深入探討了這一領域的挑戰和未來研究方向。據我們所知,這是首個專注于LLMs疾病診斷的綜述,并全面概述了這一領域。總結來說,這篇綜述為基于LLM的疾病診斷提供了一個藍圖,旨在激發和引導未來的研究工作。
結果****研究范圍概述
本節介紹了我們綜述的范圍。圖2不僅展示了疾病類型、相關的臨床專科、臨床數據類型和數據模態(Q1),還介紹了應用的LLM技術(Q2)和評估方法(Q3),回答了前述問題。具體來說,我們調查了19個臨床專科和超過15種類型的臨床數據用于疾病診斷。這些臨床數據涵蓋了多種數據模態,包括文本、圖像、視頻、音頻、時間序列和多模態案例。此外,我們根據所應用的LLM技術對現有的疾病診斷工作進行了分類,例如提示(零樣本)、檢索增強生成(RAG)和預訓練。表1總結了主流LLM技術的分類。圖4展示了臨床專科、數據模態和所應用的LLM技術之間的關系。這些圖表全面揭示了基于LLM的疾病診斷的當前發展狀況。此外,圖3展示了我們綜述中的元信息分析,涉及不同地區的出版趨勢、廣泛用于訓練和推理的LLMs總結,以及數據來源、評估方法和數據隱私狀態的統計信息。
摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。
工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。
在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。
為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。
本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:
本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。
近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。
如表I所示,本文通過以下幾個關鍵貢獻來區分自身:
新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。
跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。
持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。
隨著醫學影像設施的最新發展,每天都會產生大量的醫學影像數據。這種不斷增加的數據量為研究人員提供了開發數據驅動方法和提供更好醫療服務的機會。然而,數據驅動的模型需要大量的數據來進行充分的訓練。此外,每個數據中心的可用數據量總是有限的。因此,在本地數據中心訓練的深度學習模型可能無法達到其總的性能能力。一個解決方案可以是將不同中心的所有數據積累到一個中心。然而,數據隱私法規不允許醫療機構輕易合并他們的數據,當涉及到來自多個國家的機構時,這就變得越來越困難。另一個解決方案是使用保護隱私的算法,它可以利用多個中心的所有數據,同時保持敏感數據的隱私。聯邦學習(FL)就是這樣一種機制,它能夠在不共享敏感數據的情況下部署在不同數據中心訓練的大規模機器學習模型。在聯邦學習中,不是傳輸數據,而是在本地數據集上訓練一個通用模型,并在數據中心之間傳輸。FL已被確定為一個有前途的研究領域,在醫學研究和實踐中可能有廣泛的用途。本文介紹了FL,全面探討了它的概念和最近在醫學影像方面的研究趨勢。
聯邦學習;保護隱私的機器學習;醫學影像
深度學習在放射學領域顯示出巨大的前景。它已被廣泛用于各種醫學成像領域,并已在許多方面幫助了臨床醫生和放射學專家。放射學領域已經極大地受益于深度學習研究。事實證明,深度學習可以改善現有的腫瘤檢測模型,從早期處理階段,如MRI和CT的圖像增強、降噪、病變檢測和分割以及疾病監測。所有這些領域都顯示出人工智能(AI)在臨床上的應用前景廣闊。
深度神經網絡由許多層組成,有數十億個參數,它們通過訓練來學習從原始輸入數據到所需標簽的復雜、高維的映射[1]。在現實世界的醫療實踐中,訓練深度神經網絡的主要問題是需要大量的不同數據。在單一機構的單一數據集上訓練的神經網絡可能很容易被過度擬合,從而導致對該機構的強烈偏見和糟糕的概括性。此外,一個客戶的影像數據中的潛在模式可能會影響神經網絡的性能,而與圖像中的實際生物方式無關。例如,只包含一種模式或在特定圖譜上注冊的圖像的數據集可能會使深度學習模型偏向于該模式或圖譜,將不相關的數據捕捉為重要的預測因素。一個機構的數據質量取決于多種因素,如病人的數量、可用的影像機器的類型或數量,以及該機構可用的專家數量。并非所有的醫療機構都有大量不同的影像數據,因此深度學習模型通常在有限的數據集上進行訓練。這使得在病例數量少的情況下,臨床決策的負擔很重,這在罕見疾病中更經常發生。
解決這種數據短缺的一個潛在辦法是,從不同的客戶那里獲得影像數據集。這種方法有可能增加收集的數據的數量和多樣性。建立這種合作的最常見的方法是集中來自多個機構的大量不同的數據集,并在位于中央樞紐的累積數據集上訓練一個深度神經網絡,如圖1所示。然而,這種技術充滿了困難;嚴格的國家或地區隱私規則,如歐洲的通用數據保護條例或美國的HIPAA,使各機構不能輕易分享他們的病人數據。其他障礙可能來自于多個利益相關者,包括醫院、病人、研究人員、醫生和工業企業,他們都在追求自己的利益。一個機構為收集和清理數據所花費的大量時間和精力(也就是金錢)使其對與其他機構共享數據猶豫不決。
圖1.集中式數據共享。
最近在保護隱私的人工智能算法方面的進展在解決這個問題上起到了至關重要的作用。它們使研究人員和機構能夠在來自多個機構的不同影像數據上訓練他們的網絡,同時確保數據將被保存在本地,從而避免了與建立和維護一個廣泛的中央數據庫有關的許多問題。深度學習的一個一般性方法是分散或分布式學習。分布式學習可以被定義為一組算法,其中多個客戶端完成部分計算或數據存儲任務。數據分布允許眾多客戶參與到學習過程中,并在輸入數據量較大的情況下實現更高的性能。它一般涉及多個節點和客戶端做部分計算,每個節點和客戶端都在自己的本地數據庫上。分布式學習是出于各種原因,包括性能提升和大規模計算。聯邦學習(FL)是分布式學習的一個版本,為數據隱私至關重要的任務量身定做,這樣研究人員可以在進行分布式學習時保護隱私。這一功能使醫療保健中心能夠在不損害其本地數據隱私的情況下訓練深度學習模型。
深度學習模型是一種基于人工神經網絡的算法形式。它使用大量的數據來從中提取模式。人工神經網絡一般由數以百萬計的參數組成,稱為模型權重。訓練一個模型是調整神經網絡的參數以執行任務的過程(例如,在成像領域的檢測、分類或分割)。訓練過程是通過將模型暴露在一個特定的數據集上幾輪來完成的。更多輪次和更廣泛的訓練數據通常會導致更準確的參數調整和更好的模型性能。一般來說,模型的大小取決于它們的復雜性和參數的數量,而不考慮它們被訓練的數據有多少。流行的深度學習模型的大小不超過大約150MB[2]。
因此,巨大的影像數據集的復雜模式可以在尺寸更小的模型中進行編碼。這一特點帶來的一個直接優勢是在分布式環境中。在這些情況下,共享模型比共享數據要實際得多。因此,在涉及大量數據(如高分辨率圖像或多層磁共振和CT掃描)的分布式環境中,共享模型是感興趣的主題。
FL是一種分布式學習方法,其中多個參與者在他們的數據上訓練(或更新)一個本地模型,而不需要實際發送數據到中心節點。一個全局模型根據從參與者那里收到的更新模型進行更新。這種訓練方式允許研究人員確保模型的私密性,并分散了繁重的計算過程。FL在通信方面也很有效,因為在這種情況下,通常只有模型的權重會被通信。在這方面,它解決了大量數據從一個機構轉移到另一個機構的基礎設施障礙。各種協調全局和局部模型更新的方法導致FL的多個版本。一般來說,聯邦網絡需要多個持有數據并進行本地訓練的客戶端和一個管理整個過程的中央可信服務器。
每個客戶端在其本地數據上訓練它從中央服務器得到的模型。為了獲得模型,客戶端向云服務器發送一個請求,通知服務器客戶端準備開始本地訓練會話。然后,請求被處理,最新的全局模型被發回給客戶端。接下來,訓練課程開始使用收到的模型和本地數據。本地訓練會話結束后,模型被返回,中心積累收到的更新。最后,全局模型由服務器根據收到的模型進行更新,并通知客戶,一個訓練輪成功完成。這些步驟的示意圖可以在圖2中找到。需要注意的是,醫院里用于訓練的模型必須與中央服務器使用的模型是同一類型。例如,兩者都必須使用相同編程語言的格式。因此,實際上,任何保留了本地模型類型和信息的傳輸形式都可以使用。對通信技術沒有一定的要求。信息可以使用任何形式的文件傳輸(例如,文件傳輸協議、安全殼協議文件傳輸協議、超文本傳輸協議和超文本傳輸協議安全)或使用這些協議的第三方軟件來傳遞。有幾個基于Python的軟件包被設計用于在聯盟環境中傳輸模型[3]。像 Jupyter notebook 這樣的開源 Python 包是運行 FL 應用的首選。然而,一些模型支持其他平臺,如網絡、移動和Broadcoms的Raspberry-pi[4]。
圖2.客戶端和服務器之間的通信,交換模型。
對于一家醫院來說,要加入FL網絡,可能需要來自不同領域的不同專家的合作。機構審查委員會或倫理委員會決定醫院如何參與聯合網絡以及對其他參與方的信任程度。這個委員會通常會建議準備數據的步驟,以便醫院能與其他醫院連接。PACS經理和醫院的技術員根據審查委員會準備的指南訪問、準備、標準化和去識別數據。數據標準化一般遵循FAIR原則。FAIR原則包括可查找、可訪問、可互操作和可重復使用的數據收集[5]。由于數據類型的不同而無法使用不同站點的數據的FL算法可以很容易地讀取和分析以FAIR方式收集的數據,這有助于在網絡上增加更多的客戶。一個例子是各站點的語言協議差異。統一資源標識符可以代表臨床數據,使自動化算法能夠讀取以FAIR原則為標準的臨床文本查詢[6]。整合FAIR數據收集,并將其作為建立FL網絡的第一步,可以加強FL網絡,并吸引更多機構加入網絡。然后將FAIR化的數據交給數據科學家和機器學習工程師,以建立一個FL框架。臨床醫生通過提供注釋的數據和專家支持來參與。他們也可以參與評估模型并提供專家反饋。
盡管FL在大規模使用前仍需改進,但它在實際的醫學影像背景下,在醫學影像中的一些實現中顯示出了前景,導致了病人護理的改善。FL可以幫助小型診所中代表不足的病人,在這些診所中,他們是少數,可能會被忽視,并將他們帶入與許多其他類似病人的集合。FL在2019年冠狀病毒病(COVID-19)患者的研究中顯示出巨大的前景;據調查和報道,在一項針對五大洲20個中心的COVID-19患者的大規模研究中,FL對患者護理有明顯影響[7]。這些中心除了使用臨床數據外,還使用胸部X射線成像數據來確定醫院對COVID-19患者的護理級別和氧氣需求的分流。他們證明,FL模型對數據集有限的客戶效果最好。與在其本地數據上進行訓練時相比,這些客戶的模型性能明顯提高,從而改變了病人的情況。
另一個發現是,擁有不平衡數據的醫療中心有一些類別的樣本很少,導致類別的代表性不足。這些客戶看到這些病人類別的預測有了明顯的改善,這一點尤其重要,因為在COVID-19中,癥狀嚴重的病人一般屬于樣本較少的類別,而中度癥狀的病人較多。然而,他們的護理更關鍵,需要更多關注。在放射學的應用FL領域,有許多項目。作為腦瘤分割(BraTS)挑戰的額外努力,英特爾和賓夕法尼亞大學發起了一項廣泛的努力。這項挑戰是基于賓夕法尼亞大學生物醫學影像分析科提供的數據集[8]。
2018年BraTS挑戰賽的BraTS數據集已向公眾開放。該數據集由膠質瘤患者大腦的MRI影像組成,收集自不同機構的多項研究。四位放射學家手動注釋了MRI影像,將其歸入各種腫瘤類別。腫瘤被分為四種類型。U-Net是用于分割腫瘤的深度學習模型,FL網絡由一個主節點和許多客戶組成,每個客戶都有自己的數據。開發了兩個假想的客戶端,并將數據集分配給它們來評估FL模型。為了研究不同的數據分配算法,他們首先將數據隨機地劃分為筒倉。他們還根據數據的獲得地點分配數據,從而產生了非同質化的數據。在完成本地訓練后,許多客戶交付了一個模型。中央服務器收到來自各方的更新模型,選擇最佳模型,并將匯總的模型返回給客戶。這種訓練策略使服務器和客戶都能提高其性能。在收到中心節點的更新模型后,客戶每一輪都在更好的模型上工作。作為他們實驗的結果,他們得出結論,在語義分割的任務中,聯合訓練可以產生MRI分割掩碼,這些掩碼比在前提下訓練的模型更好或更有可比性。
Sheller等人[9]提出了一個使用FL進行腦腫瘤分割的項目,并取得了與集中式數據共享相當的準確性。他們證明,增加合作者的數量可以提高FL算法的性能和通用性。另一項研究提出了一個病人相似性分析,以尋找不同醫院內可能的類似治療的可比模式[10]。這項研究的目標是在保護病人的隱私和個人信息的同時,識別具有類似特征的病人。他們創建了代表病人的哈希代碼和一個控制整個過程的聯盟環境來實現這一目標。散列數據的優點是可以抵御逆向工程或對抗性模型攻擊。他們可以獨立預測五種疾病,使用平衡和不平衡的數據來評估他們提出的算法。
另一項努力是在不透露任何數據的情況下探索大腦的結構關系。作者使用主成分分析來發現不同數據集在聯合設置中的解剖學關系[11]。聯合主成分分析可以從幾個醫療機構的MRI影像中提取特征。他們的技術在幾個數據庫中得到了驗證,包括阿爾茨海默病神經影像倡議帕金森病進展標志物倡議、阿爾茨海默病最小間隔共振成像和英國生物庫[12]。
Balachandar等人[13]使用FL來解決不同機構的數據差異性問題。他們使用胸部X射線數據集對胸部掃描進行分類。同時,他們用自己提出的方法對視網膜治療數據進行分類。
一些研究趨勢表明,FL研究正在增長。FL的未來方向是將其與大數據技術相結合。在建立FL網絡后,可以將數據實時添加到現有網絡中。允許訓練和推理階段實時工作是FL網絡的一個潛在的未來方向。這可以是簡化預處理、訓練和數據處理。
預計FL網絡包括醫學影像數據,并在所有其他類型的醫學數據上工作。最近的FL實現大多利用了影像數據和專門為圖像處理設計的神經網絡。然而,其他格式的數據,特別是電子健康記錄(EHRs),開始被添加到目前的網絡中,并且是一個當代的發展主題。EHR數據除了醫學影像數據外,還包括從治療史到過去用藥的各種信息;EHR數據一般可以是文本、醫學字母、分類數據、定量數字和二進制數據[14]。將這些信息納入成像數據,可以幫助開發更好的模型。例如,將各種治療方案作為深度學習模型的輸入變量,可以幫助放射科醫生在治療方案中進行選擇。使用EHR數據也可以幫助確定疾病的類型或階段,因為研究人員最近使用EHR來檢測阿爾茨海默病[15]。
目前仍在研究將EHR數據格式轉換為深度神經網絡可使用的格式。使用自然語言處理使文本記錄可用于深度學習已經取得了一些進展[16]。為此,研究人員開發了一個數據標準化框架,從文本數據中提取有意義的特征,并使其在機器學習管道中可用。醫學圖像與基因組學數據的結合也可以成為一個研究方向。因為基因組學數據不像影像數據那樣普遍和容易獲得,基因組學中的數據限制問題比醫學影像問題大得多。因此,FL可以在將基因組學數據引入醫學影像領域方面發揮舉足輕重的作用。醫療中心在未來可以通過FL與他們的各種類型的數據進行交流,所以合作水平有望擴大。
FL是一項正在發展和成長的技術,已經影響到多個領域的各個方面。醫院轉向FL技術的主要原因是,隱私和安全是他們的主要優先事項,而且對病人數據的隱私有嚴格的規定。FL為機構提供了直接和安全的數據訪問,并利用幾個機構的能力來加強放射學研究,同時克服了隱私和數據共享法律法規的限制。建立一個聯盟環境有助于實現與集中式環境相當的性能。它可以促進幾個機構之間的全球合作,因此重新定義了放射學中的人工智能范式。這篇文章對想要了解FL理念及其在放射學中的應用的放射科醫生和數據科學家應該是有幫助的。
有了FL,建立多中心醫學影像處理網絡比以往更順暢。在過去的幾年里,多機構網絡中的數據隱私一直是一個嚴重的問題。這個問題可以通過共享模型而不是數據來成功解決。FL探索了將敏感數據保存在私人孤島中,并只通過使用模型來訓練深度學習算法的方法。
聯邦網絡的基礎設施要求包括數據存儲技術、標準化管道、數據去識別器和強大的處理單元。擁有可靠的網絡接入對建立大規模鏈接也至關重要。因此,可能需要PACS管理者、臨床醫生、數據科學家和臨床技術專家之間的合作來建立這整個管道。
在CT掃描和MRI圖像上用FL進行了一些放射學任務。這些算法在COVID-19檢測、腦瘤分割和視網膜治療方面取得了可喜的成果。
FL的一個未來發展可能是它與大數據技術的整合。此外,另一個研究方向是使算法更加通用,以便EHR數據也能被使用。自然語言處理是一個活躍的研究方向,以實現文本和影像數據的結合。這種結合已被證明可以改善阿爾茨海默氏病患者的診斷。
本研究得到KWF Kankerbestrijding和荷蘭科學研究組織AES的支持,項目編號為17924,AI在醫學成像中對癌癥用戶的支持,作為他們聯合戰略研究計劃的一部分。腫瘤學的技術IL。該合作項目是由荷蘭衛生署提供的PPP津貼共同資助的,以刺激公私伙伴關系。