專門化大型語言模型(LLMs)的快速發展已經從單純的領域自適應演進到更為復雜的原生架構設計,標志著人工智能發展范式的轉變。本文系統性地回顧了這一進程,涵蓋醫療、金融、法律和技術等領域。除了專門化LLMs的廣泛應用外,近期在LLM智能體中也出現了一系列技術突破,例如:超越微調的領域原生設計、通過稀疏計算與量化提升參數效率、以及日益增強的多模態能力集成等。我們的分析揭示了這些創新如何解決通用LLMs在專業應用中的根本局限性,并顯示專門化模型在特定領域基準測試上持續取得性能提升。此外,本綜述還強調了其在電子商務領域的應用潛力,以彌補該領域的研究空白。
大型語言模型(Large Language Models, LLMs)的快速發展開啟了人工智能的新紀元,正在深刻改變我們處理信息、解決問題以及與技術交互的方式。雖然通用型LLM(如GPT-4)在廣泛任務上展現了卓越的能力,但在面對專業化、領域特定的挑戰時,其性能往往會顯著下降。這一局限催生了一種重要的范式轉變——專門化LLM的興起,它們旨在滿足醫學、法律、金融和工程等專業領域的嚴格需求。 領域專門化的需求源于多個關鍵因素,而這些往往是通用模型難以充分應對的。首先,專業領域通常需要對技術術語和概念框架進行精確理解,而這些內容遠超日常語言的使用范圍。例如,在醫療領域,模型必須能夠準確解讀臨床術語、診斷編碼以及復雜的醫學關系,才能具有臨床實用價值。其次,專業領域涉及的推理模式和知識結構常常與日常語言使用存在顯著差異。金融分析依賴于對市場趨勢的時間序列推理,法律實踐要求對法規條文進行精確解釋,而醫學診斷則取決于概率性的臨床推理——所有這些方面都是通用LLM存在明顯缺陷的地方。 專門化LLM的發展經歷了若干階段,每一階段都伴隨著針對既有局限性的技術創新。早期方法主要集中于在通用模型的基礎上繼續進行領域特定語料的預訓練,例如BioGPT將GPT-2改造為適應生物醫學應用(Luo et al., 2022)。隨后,出現了引入領域感知組件的架構創新,例如BloombergGPT引入金融時間序列嵌入,Med-PaLM 2則集成了臨床推理模塊(Singhal et al., 2023)。最近,又出現了結合LLM與符號知識庫及動態適應機制的混合系統,如BLADE的知識注入框架(Xu et al., 2024b)和Self-MoE的專家路由機制(Yang et al., 2024)。 當前的專門化LLM格局呈現出幾個重要趨勢。首先,研究界日益認識到模型規模本身并不能保證領域能力——一些較小但經過精心設計的模型(如BioMedLM,參數規模2.7B)(Bolton et al., 2024),在專門任務中甚至能夠超越規模更大的通用模型。其次,評估方法更加嚴格,逐漸引入專家評估和領域特定基準,而不僅僅依賴于通用語言理解指標。例如,一項牙科種植學研究采用了由資深專家進行的多維度評估,涵蓋40個專業問題和5個復雜案例(Zhang et al., 2025)。第三,越來越強調真實場景的適用性,模型不僅需要在靜態問答中表現良好,還需要能夠應對動態、交互式的場景,以更好地模擬專業實踐。 然而,專門化LLM的發展與部署仍面臨重大挑戰。知識時效性是一個長期問題,尤其在醫學和金融等快速演化的領域中,過時的信息可能帶來嚴重后果。評估方法仍難以全面捕捉專業判斷的細微差別,往往依賴于代理指標而非直接衡量真實世界的有效性。偏見、責任與適當使用等倫理問題也持續使其在高風險領域的部署更加復雜。或許最根本的挑戰在于:當前LLM的靜態特性限制了其適應新信息和不斷演化的專業標準的能力,這也推動了對自進化架構(self-evolving architectures)的日益濃厚興趣(Yao et al., 2023)。 本綜述旨在對專門化LLM的發展格局進行全面梳理,分析其架構創新、應用成效及持續存在的挑戰(Chen et al., 2023; Wu et al., 2023)。我們系統性地考察了2022年至2025年間提出的48個前沿模型,識別其關鍵技術趨勢與性能特征。我們的分析揭示了不同專門化策略(從持續預訓練到混合增強)如何影響模型在各專業領域的能力。同時,我們還探討了專門化LLM發展的新興方向,包括自進化架構、多模態集成以及輕量化部署策略。
摘要
近年來,隨著 ChatGPT 等服務推動大語言模型(LLM)的快速普及,一批專門面向 LLM 推理的系統相繼涌現,如 vLLM、SGLang、Mooncake 和 DeepFlow。這些系統設計工作的核心動因是 LLM 請求處理過程中所特有的自回歸特性,該特性促使研究者提出多種新技術,以在應對高吞吐量與高并發負載的同時,兼顧推理性能與結果質量。盡管相關技術在文獻中已有廣泛討論,但尚未在完整推理系統的框架下進行系統性分析,現有系統之間也缺乏深入的對比與評估。 本綜述系統梳理了上述技術,內容涵蓋從請求處理所涉及的算子與算法出發,逐步延伸至模型優化與執行相關技術(包括算子內核設計、批處理機制與調度策略),最后探討內存管理方面的方法,例如分頁內存、淘汰與卸載策略、量化和緩存持久化。通過上述分析,我們指出這些技術在本質上依賴于負載預測、自適應機制與成本優化,以克服自回歸生成所帶來的挑戰,并實現系統設計目標。隨后,我們進一步探討了如何將這些技術組合構建單副本與多副本推理系統,其中包括資源解耦型推理系統(disaggregated inference systems),它們可實現更靈活的資源分配,以及可部署于共享硬件基礎設施上的無服務器系統(serverless systems)。最后,我們討論了該領域仍然面臨的若干關鍵挑戰。
1 引言
自從序列生成任務從循環神經網絡(RNN)轉向 Transformer 架構以來 [97],大語言模型(LLM)的質量已顯著提升,使其能夠勝任各類任務,包括通用交互式問答 [9]、文檔摘要與分類 [96]、語言翻譯 [27]、代碼生成 [16]、數據整理 [72] 以及非結構化數據分析 [100]。這一技術突破推動了 LLM 在工業界和消費市場的指數級增長,ChatGPT、Gemini、Claude、Grok、Kimi 和 DeepSeek 等服務的迅速普及也對高性能模型服務系統提出了更高要求。 為了滿足這一需求,研究者開發了專門的 LLM 推理系統,用于管理模型執行的各個方面。這不僅包括基本的 LLM 推理流程,還涵蓋系統層面的負載均衡、任務批處理、調度策略以及內存管理等,借鑒了早期高吞吐量、高速數據處理系統的設計經驗。然而,由于基于 Transformer 的 LLM 推理具有自回歸生成這一獨特特性,導致上述各方面均需采用新技術進行改造。 與傳統數據處理系統通過單次執行一系列算子完成請求處理不同,LLM 推理通常需要多輪執行,次數與輸出長度成正比。每個請求的輸入形式都是文本字符串,輸出長度則以非確定性的方式依賴于文本內容。由于用戶可以輸入任意內容,幾乎無法定義“典型”的輸出長度,因此請求處理成本(尤其是內存成本)在不同請求之間可能出現極大差異,即使它們的輸入表面上相似1。 這種輸出的根本非確定性為 LLM 推理系統帶來了三大關鍵挑戰:(1)盡管近期取得了顯著進展,但模型輸出的質量(即輸出是否滿足請求表達的任務目標)仍無法保證,因為其生成過程基于隨機采樣而非確定性數據構建;(2)執行輪數的不確定性使得每個請求的最終內存使用量難以預估,給多請求并發處理帶來分配難題;(3)同樣地,請求處理所需時間也不可預知,因此在設計批處理與調度策略時,必須考慮如何避免“拖后腿請求”(straggler)與“隊頭阻塞”(head-of-line blocking)等問題。 為應對上述挑戰,LLM 推理系統采用了一系列貫穿前端與運行時的技術策略,如圖 1 所示。為了提升推理質量,系統支持包括 beam search、思維樹(Tree-of-Thoughts)、思維圖(Graph-of-Thoughts)與自一致性(self-consistency)等多種序列生成方法(圖 1(c)),還結合多種提示工程技巧。同時,前端設計也趨于多樣化,以簡化用戶交互流程(圖 1(a)),支持如自動提示優化與受控輸出生成(圖 1(b))等功能,從而減輕提示設計與流程協調的負擔。 為了適應動態內存需求,推理系統使用基于頁的塊式內存分配策略,輔以緩存持久化與量化技術,以降低整體內存消耗(圖 1(g))。而面對動態請求生命周期,系統依賴基于負載預測機制的動態任務調度、動態批處理與靈活負載均衡策略(圖 1(d, e)),并通過專用算子與高效內核實現來降低總體推理成本(圖 1(f, h))。 本綜述將在一個完整推理系統的框架下系統性地討論這些技術。在第 2 節中,我們介紹實現高質量 LLM 推理所需的基本算子與序列生成算法;第 3 節聚焦批處理與調度技術,以及面向專用硬件的高效內核設計;第 4 節則討論內存管理策略,包括頁式內存、支持請求搶占與長上下文的淘汰與卸載機制、量化方法,以及緩存持久化與重建技術。隨后在第 5 節,我們探討如何將上述技術整合,構建當前主流的 LLM 推理系統,包括部署單個模型副本的系統與支持多副本請求調度的系統,后者特別適用于構建具備資源解耦能力的系統架構,可更靈活地進行硬件資源分配。
相關綜述工作
雖然已有一些綜述涵蓋文中提及的部分技術,但多數研究是在缺乏完整系統框架的前提下對這些技術進行孤立討論。例如,[47, 54, 116, 139] 涉及稀疏注意力、專家混合(MoE)、解碼策略、KV 緩存管理和量化技術等,但均未將其置于系統整體架構中加以討論。[55] 從 KV 緩存管理的角度對若干技術進行了分類總結。[15] 等則主要關注模型架構方面,如模型剪枝、知識蒸餾與量化等優化技術。[48] 更專注于提升推理質量的方法。因此,本文的獨特貢獻在于將這些技術系統化地整合進完整推理系統設計中,并探討它們在實際部署中的協同作用。
摘要 — 多模態大型語言模型(MLLMs)近年來已成為人工智能研究領域的熱點。依托大型語言模型(LLMs)的強大能力,MLLMs 在處理復雜的多模態任務方面展現出卓越性能。隨著 GPT-4 的發布,MLLMs 引發了來自多個領域的廣泛關注。研究人員已開始探索 MLLMs 在醫學與醫療健康領域的潛力。本文首先介紹了與 LLMs 和 MLLMs 相關的背景與基本概念,重點闡述了 MLLMs 的工作原理。隨后,我們總結了 MLLMs 在醫療健康中的三大主要應用方向:醫學報告生成、疾病診斷與醫療治療。我們的研究基于對該領域 330 篇最新文獻的系統性回顧,并通過具體示例展示了 MLLMs 在上述領域中的強大能力。在數據方面,我們總結了六種主流數據模態及其相應的評估基準。最后,本文討論了 MLLMs 在醫學與醫療健康領域面臨的主要挑戰,并提出了相應的緩解策略與解決方法。 關鍵詞 — 綜述,大型語言模型,多模態大型語言模型,醫學,醫療健康,臨床應用
語言模型在自然語言處理(NLP)任務中發揮著重要作用。通過理解和生成文本,這些模型能夠執行多種語言相關任務,如文本抽取、情感分析等。在語言模型的發展過程中,谷歌于2017年提出的 Transformer 架構是一個重要的里程碑 [1]。該架構是一種依賴于自注意力機制的深度學習模型,通過并行計算提升了處理效率。模型為輸入的不同部分分配不同的注意力權重,從而增強了其對文本語義的理解能力。隨著 Transformer 的發布,模型的規模和參數數量不斷擴大,標志著大型語言模型(LLMs)時代的到來。 在此背景下,一系列 LLMs 被相繼提出。其中,基于 Transformer 構建的 BERT 模型 [2],通過掩碼語言建模(Masked Language Modeling)和下一句預測(Next Sentence Prediction)等預訓練任務,能夠有效理解上下文語義。此外,一些開源的 LLMs,如 Flan-T5 [3]、Vicuna [4] 和 LLaMA [5],也在該領域取得了顯著進展,推動了 LLMs 的發展。 在醫學健康領域,LLMs 被應用于提升醫療工作的質量。它們在生成基于電子健康記錄(EHR)、病程記錄、醫患對話等醫療文本的簡潔準確報告等特定任務中發揮了關鍵作用。盡管醫學領域涉及文本、圖像、視頻、音頻、組學數據等多種模態,如何高效利用并恰當地融合這些多模態數據,已成為應對復雜醫療任務的發展趨勢。 近年來,基于 LLMs 并能夠處理多模態任務的多模態大型語言模型(MLLMs)進入公眾視野。目前大多數 MLLMs 擁有相似的結構,它們以 LLMs 為核心,在輸入端引入編碼器,在輸出端結合擴散生成模型。為了解決多模態任務而設計的某些模塊也不斷被優化,例如 CLIP [6]、BLIP [7]、BLIP-2 [8],以及適用于少樣本學習的 Flamingo [9]。為了處理多模態醫學數據,MLLMs 被逐步引入醫學領域。例如,MLLMs 主要被應用于醫學圖文任務,如基于圖像數據(如 CT 掃描)和文本知識生成診斷報告等。 然而,由于準確性不穩定以及專業性存疑,醫學界仍對 MLLMs 是否能夠勝任臨床應用持保留態度。我們認為,為了在臨床醫療中實現 MLLMs 的有效部署,這些模型應滿足專業化需求。通過我們的調研,我們總結了 MLLMs 在醫學應用中需要滿足的一些基本要求,包括但不限于專業性、準確性、幻覺(hallucination)控制、公平性等多個方面,同時也介紹了相應的評估基準。 基于醫學界的關注點與上述要求,我們進一步總結了 MLLMs 在醫療健康背景下面臨的一系列挑戰。為應對這些問題,已有部分可行性研究成果被提出。通過優化評估基準、持續攻克挑戰,我們對 MLLMs 在臨床場景中的應用前景持樂觀態度。
語言模型能夠理解并生成自然語言。其發展大致可分為四個階段:統計語言模型(SLM)、神經語言模型(NLM)、預訓練語言模型(PLM)以及大型語言模型(LLM)。各階段的代表性模型如圖 1 所示。 大型語言模型依托大規模數據集的預訓練和 Transformer 架構,在多個任務中表現出色。以 GPT 系列和 LLaMA 為代表的模型,都采用 Transformer 作為核心結構。Transformer 中的自注意力機制和并行計算能力,使其能高效處理長文本序列,從而支持對大規模數據的處理,并實現模型參數的大幅擴展。這種結構化的模型設計不僅促進了模型的深度學習能力,也顯著提升了其在文本生成、翻譯、復雜問答等多種任務中的適用性。
為應對不斷擴展的數據模態(如文本、圖像、音頻等),多模態大型語言模型(MLLMs)成為人工智能研究的熱點。借助多模態數據,模型可以更全面地理解并完成任務。MLLMs 主要由處理文本數據的大型語言模型(LLM)和處理其他模態數據的編碼器組成。在 LLM 的編碼器與其他模態之間,通常設置一個對齊模塊,用于將文本輸入與其他模態輸入對齊至統一的特征空間。 根據具體任務需求,靈活選取合適的預訓練 LLM 和模態編碼器,MLLMs 已在多個領域取得顯著突破。本節將介紹 MLLMs 的主要組成部分,以及一些經典的預訓練任務。 在構建應用模型時,通常可根據特定需求靈活組合多種預訓練任務。例如,在醫療健康領域,Med-MLLM [25] 是一個面向未來疫情的醫學多模態大型語言模型,旨在實現 COVID-19 的報告、診斷和預后分析。該模型在預訓練階段采用了三層級的任務設計。 首先,在圖像模塊的訓練中,模型采用了對比學習方法。具體做法包括對來自同一患者的不同類型醫學影像(如胸部 X 光和 CT 圖像)進行對比訓練,結合圖像增強和正則化技術,最小化來自同一患者的圖像之間的損失,從而提升模型對個體生理特征的理解能力。 其次,在語言模塊方面,模型采用了典型的文本預訓練任務,如掩碼語言建模(MLM)、句子重構、以及結果-印象對齊任務,以增強模型在文本理解和生成方面的能力。 最后,在圖文多模態預訓練方面,方法借鑒了類似于 CLIP 的圖文對比學習策略,并進一步融合 UMLS [26] 知識庫和預設目標,從而提升模型對醫學知識的整合能力。 通過上述三個方面的預訓練,Med-MLLM 能夠有效應對多種任務,包括 COVID-19 報告生成(即醫學報告生成)、疾病診斷(即疾病分類)及預后預測(即結果預測)。
通過利用醫學圖像、文本病歷、醫學教材和音頻等多種模態的醫療數據,多模態大型語言模型(MLLMs)能夠全面理解任務需求,從而高效執行醫學任務,如圖 2 所示。 本章將介紹 MLLMs 在醫療健康領域的主要應用,包括醫學報告生成、臨床溝通與指導、以及手術輔助等方面。
醫學報告有助于醫生進行診斷和制定治療方案,同時也是傳遞醫療信息的重要載體,使醫護人員能夠追蹤疾病進展。每天都需要有經驗的放射科醫生或專家撰寫大量醫學報告,這不僅耗費大量時間和人力資源,還容易因人為失誤而出現報告內容錯誤,從而導致誤診或治療延誤。因此,借助人工智能技術高效生成準確的醫學報告成為一個具有前景的研究方向。 大量研究表明,通過在醫療數據上微調訓練,LLMs 在處理醫學文本方面表現出強大能力 [27], [28], [29]。借助該能力,LLMs 可以與多模態模塊協同,根據不同模態的數據生成醫學報告。 目前的主流方法是使用 MLLMs 生成醫學報告。其基本思路是以醫學圖像(如 X 光 [30]、CT [31], [32]、MRI [33],甚至三維掃描圖像 [34])為輸入,并結合對應的圖像描述文本,構建圖文對,作為訓練 MLLMs 的輸入。例如,X-ray GPT 將 X 光圖像輸入一個凍結的視覺編碼器以提取圖像特征,隨后通過可學習的線性轉換層進行對齊,將圖像特征與文本對齊,再輸入基于 Vicuna 且在醫學數據上微調過的 LLM。最后,通過如“請說明該 X 光片的主要發現與印象”等提示語引導模型生成文本描述,從而實現有效的圖文理解與文本生成。 預訓練階段對于醫學報告生成模型至關重要,其效果決定了模型對圖像和文本數據的利用效率。研究表明,盡管臨床報告通常遵循“發現-印象”格式,但其結構混亂、不規范 [35],且包含大量冗余信息,不利于模型訓練。當前一些研究提出了通過標準化或重構文本格式來幫助模型聚焦核心內容的方法 [19], [35]。例如,MedKLIP [36] 使用三元組提取模塊將圖像描述壓縮為“外觀-位置-存在”三要素,減少理解負擔。 目前 MLLMs 生成報告時大多偏重“印象”部分,缺乏深度推理能力,導致部分模型雖在基準測試上表現優異,但在真實臨床應用中表現較差 [37]。為提升模型推理能力,有研究提出應使用包含完整推理過程的文本進行訓練 [38], [39],如符合“發現-印象”結構的報告。 應注意,醫學報告不同于一般文本生成任務,其具備嚴格的邏輯結構,通常由詳細觀察與對應總結組成 [40],并需滿足醫學術語的標準化要求。可通過引入句子重構(SR)[25]、掩碼語言建模(MLM)等任務,使模型學習專家書寫風格。此外,為處理如“cardiomegaly”被錯誤拆分為“card-io-me-gal-y”等問題,可構建特定醫學詞典并定期更新 [42]。 MLLMs 也可輔助完成前置任務,如記錄與總結醫生的口述內容 [43], [44],從而減輕工作壓力。在醫學影像方面,MLLMs 可應用于圖像分割,聚焦關鍵區域并執行基于弱監督的操作指令 [45], [46]。
近年來,聊天機器人在多個領域獲得廣泛關注,尤其在醫療健康領域展現出廣闊前景。早期研究主要基于單一模態(如文本)訓練聊天模型,借助醫生-患者對話數據 [18], [80] 和醫學 VQA 數據 [17] 微調模型,取得了良好效果。 隨著具備多模態能力的 MLLMs 的快速發展,聊天機器人能夠處理圖像、視頻等模態輸入。例如,SkinGPT4 [24] 在大量皮膚數據上微調后,可提供專業皮膚病建議;LLaVA-Med [22] 可處理醫學圖像,執行 X 光、CT、MRI 等影像的 VQA 任務,并在多個閉源醫學 VQA 數據集上實現 SOTA 性能。 盡管這些模型在數據集和評估基準上表現優異,但對“印象”的依賴可能削弱其推理能力,導致臨床表現不佳 [81]。 此外,研究表明,人們仍傾向于從人類那里獲得醫療服務,主要原因是互動性與親和力 [82], [83]。對患者而言,被理解和共情與診斷準確性同樣重要。現代快節奏生活和社交媒體的普及也使心理服務需求顯著上升 [84], [85]。在心理治療中,專家與患者之間的交流具有重要療效 [86]。基于此,聊天機器人在心理咨詢中表現出潛力 [87], [88],有助于緩解醫療資源壓力、降低成本。由于患者在無羞恥感的環境中更易表達,機器人在某些場景下甚至優于人類 [89], [90]。 已有多個基于 LLM 的心理咨詢機器人被提出 [91], [92], [93],其主要關注患者話語中的情緒、合作程度、溝通習慣等特征,使模型能通過提問、安慰、肯定、傾聽、信任等方式展現同理心,并結合相關基準進行評估與優化 [94], [95]。然而,僅依賴文本仍有局限。例如,“That’s great”一句在不同面部表情或語調下可傳達完全不同的情緒,如翻白眼或諷刺語調。因此,MLLMs 被引入以提取面部動作、肢體語言、眼動、語音節奏與語調,全面分析患者狀態 [96], [97],實現類面對面的診療效果,從而緩解“缺乏共情”的問題 [91]。 醫療健康領域的聊天機器人具備及時性、低成本、高效率等特性,符合現代醫療體系的追求。在相關立法與質量監管完善后,其普及前景廣闊 [98]。
由于患者缺乏醫學知識,往往需要醫生或專家進行手術說明和分析。即使是經驗不足的醫生,也需咨詢資深專家。但高級專家每日任務繁重,難以面面俱到。為緩解這一問題,計算機技術已被引入手術輔助中 [99], [100],但仍需專家解答臨床問題。 近年來,部分 MLLMs 被提出用于手術場景中,輔助甚至替代專家工作。例如,通過引入 Surgery VQA 數據 [101] 并在手術視頻數據上訓練 MLLMs,使模型能回答手術相關問題 [74], [102]。SurgicalGPT [103] 將 GPT 與視覺編碼器結合,在腎臟內窺鏡圖像上微調,在多個手術 VQA 數據集(EndoVis18-VQA、Cholec80-VQA、PSI-AVA-VQA)上取得 SOTA 性能。 現有手術 VQA MLLMs 多聚焦于病灶相關區域,常忽略背景信息,導致對手術流程理解片面,進而引發誤判 [104]。考慮到手術動作、工具使用等因素可能蘊含背景知識,引導模型全面理解手術過程是提升模型準確性的關鍵 [105], [106]。未來可進一步擴展手術模型使用的數據種類,如種族、地域、EHR 與病史等,以提升模型泛化能力。 此外,借助醫學報告生成的成果(見 3.1 節),MLLMs 也被用于生成手術過程分析與總結報告 [107], [108],為后續手術提供決策支持。 由于臨床手術容不得錯誤,模型的響應與建議必須達到極高水準。盡管部分模型在封閉數據集上表現出色,距離真正的臨床部署仍有較長距離。同時應明確立法責任。目前除內窺鏡數據外,其他手術數據尚不足,擴展數據種類是實現手術 MLLMs 廣泛應用的前提。
在本章中,我們將探討醫療健康領域中多模態數據的多種類型,如圖 3 所示。我們將分析不同結構、類型與類別的數據如何增強模型執行多樣任務的能力,并促進其在專業層面的表現。我們在表 2 和表 3 中整理了跨模態醫學數據集的多種形式,用于訓練目的。此外,我們還將在表 4 中列舉并介紹用于訓練多模態大型語言模型的現有數據集,以及在表 5 中列出用于訓練傳統大型語言模型的數據集。 然而,出于對隱私與安全的擔憂,數據采集過程面臨諸多挑戰,導致醫學多模態大型語言模型所需的數據相對匱乏。為應對這一問題,我們將從兩個角度探討有效的解決方案:模型優化 和 數據增強。
與常規的 MLLMs 不同,醫學領域的 MLLMs 被要求具備嚴格的專業性。簡而言之,醫學 MLLMs 應當擁有與專業醫生相當的領域知識。目前仍可明顯觀察到,AI 的專業化程度尚不及人類專家 [147], [148]。為了滿足臨床應用與專業標準,將模型性能對齊至真實專家的能力是一種可行路徑。 掌握精準的醫學知識是提供醫療服務的基礎。醫學知識通常以文本為載體,通過使用特定的醫學文本與多模態數據對模型進行微調,MLLMs 能夠有效學習并應用這些知識。 在第 3 章中,我們已介紹幫助模型獲取醫學能力的常規方法。除了使用合適的數據格式和內容外,從臨床記錄與報告中構建專業醫學詞典,也有助于模型識別罕見醫學術語,提取關鍵醫學信息 [149], [150],這一點在處理罕見疾病時尤為重要 [151]。 評估方法: 可從多個維度評估 MLLMs 的專業性。通常,模型生成的醫學報告或對話響應能提供有價值的反饋。 從表達形式來看,模型的語言應接近醫學專家的表達方式。通過將模型生成的文本與臨床文本比較,評估其在詞匯、語義、結構和信息突顯度方面的相似度,常用自然語言生成的評估指標 [152–155] 可用于衡量這些維度。通過優化這些評估指標,模型的表達可更符合專業化標準。 除了語言表達,還需關注內容的邏輯性與精確性,這是衡量專業性的核心。評估需涵蓋準確性、細節、特征、邏輯等多個方面,通常通過人工或 AI 方式進行。 * 人工評估: 由專家根據多個維度(如描述準確性、細節豐富性、整體特征考慮、實際應用價值)打分 [19], [156], [157]。 * 自動評估: 包括兩類:① 模型直接執行具有評估屬性的任務;② 使用 AI 模擬專家對模型輸出進行打分 [38], [161]。
例如,美國醫學執照考試(USMLE)常用于評估 GPT 系列、Med-PaLM 等模型 [158–160]。盡管 GPT-4 和 Med-PaLM 準確率已超 86%,接近人類專家水平 [158],但在臨床場景中表現仍不穩定,因其推理能力薄弱、過度依賴記憶 [38]。 使用 AI 進行自動評分的方法類似于人工評估,例如讓 Gemini-Pro 與 GPT-4 扮演醫學專家角色,對模型輸出進行維度化評分 [161],如圖 9 所示。
醫學 MLLMs 的輸出仍受到醫療領域的質疑。除了準確性外,生成信息的可信度是評估模型的關鍵。幻覺(hallucination)指模型生成看似合理但實際上錯誤或虛假的內容 [162–165],這在醫學中可能導致嚴重后果。 造成幻覺的原因包括:指令質量差、訓練數據不足,或醫療數據更新太快,模型依賴記憶而非推理 [166–167]。 解決方案包括:
利用高質量的醫學數據; * 采用專業教材作為唯一生成來源 [168]; * 設計自檢結構,自我糾錯 [169–170]。
在 MLLMs 中,幻覺問題更復雜:
數據不足會導致多模態信息無法正確對齊,產生誤解; * 錯誤識別圖像對象是常見誘因 [173–174]; * 模型過度依賴語言模型固有知識,忽視圖像信息 [175]。
研究歸納出三類圖像幻覺:
類型幻覺; 屬性幻覺; 關系幻覺(如共現、反事實、虛構關系)[175–176]。
原因包括:視覺編碼器參數不足、圖像分辨率不夠、模型未能聚焦關鍵區域 [177–179]。可以通過圖像分割、邊界引導等方式提升模型對圖像細節的關注度 [175]。 評估方法:
將幻覺相關問題轉化為二值判定任務,通過分析模型回答判斷是否存在幻覺 [182–184]。 盡管 MLLMs 具有作為醫學教育與研究信息源的潛力,但其發揮作用的前提是:高質量監督與嚴格質量控制。
模型的準確性和專業性也會受到偏見問題的威脅,包括種族、社會角色、地域等方面。MLLMs 多基于網絡數據訓練,這些數據中可能包含主流偏見。 例如,[185] 指出模型對白人群體預測更高治療費用與住院時間。在高預期生存率的醫療情境中,模型會表現出過于樂觀的預估。研究發現模型可能因刻板印象降低少數族群的治療比例 [186]。 數據集中長期聚焦特定人群會導致數據不穩定,產生偏見。例如,未被醫保覆蓋的弱勢群體在模型預測中效果極差 [188],[25] 也指出不同地區族群在交叉驗證中表現不佳。 解決方法包括:
數據層面:過濾與均衡主導類別樣本,或通過反事實數據與欠采樣重構數據分布 [180, 189]; * 訓練策略:使用 RLHF(基于人類反饋的強化學習)提升模型對人類價值的對齊程度 [190]; * 增強同理心,使模型更具人文關懷 [191]。
評估方法:
構建結合患者信息與經典任務(如問答、報告生成)的評估體系。例如: * Harvard-FairVLMed [192]:將種族、性別等元數據整合進問答任務; * FMBench:基于 Harvard-FairVLMed 擴展,加入多種人口特征,評估模型在多樣化人群下的響應表現。
2022年,隨著ChatGPT的發布,大規模語言模型受到了廣泛關注。ChatGPT不僅在參數量和預訓練語料庫規模上遠超前代模型,還通過大量高質量的人工標注數據進行微調,實現了革命性的性能突破。此類進展促使得企業和研究機構認識到,構建更智能、更強大的模型依賴于豐富且高質量的數據集。因此,數據集的建設與優化成為了人工智能領域的關鍵方向。本文對訓練大規模語言模型所需的預訓練數據和微調數據的現狀進行了總結,涵蓋了數據規模、搜集方式、數據類型及其特點、處理流程等,并對當前可用的開源數據集進行了梳理和介紹。
1 引言
在人工智能領域,語言模型的發展一直是推動技術進步的核心動力之一。語言模型的目標是通過模擬文本數據的生成概率,來實現對自然語言的理解和生成。最初的模型,如n-gram,依賴于統計分析來預測詞語序列,但這些模型難以捕捉復雜的語本依賴性,因此在處理復雜任務時表現有限。隨著深度學習技術的發展,特別是AlexNet在視覺識別領域的突破,神經網絡被引入到自然語言處理中。循環神經網絡(RNN)及其衍生的LSTM和GRU顯著提高了模型對序列數據的建模能力,使其能夠更好地建模語言中的時序特征和文本關系。然而,這些方法仍然依賴于傳統的監督學習范式,訓練數據規模普遍較小,大部分數據集的規模以MB為量級。 真正的革命來自于以Transformer為基礎的預訓練語言模型的推出。Transformer架構通過自注意力機制(Self-Attention)有效地捕捉長距離依賴關系,并且由于其高并行化特性,極大地提高了語言模型的訓練效率。這使得以大規模無標記文本作為訓練語料成為可能。GPT和BERT等模型以Transformer為基礎,加速了語言模型的迭代性能,將語言模型的“深度”推向了一個新的高度。 預訓練語言模型之所以強大,是因為它們能夠在未經過人工標注的大規模集群中自動學習豐富的特征。這些模型在預訓練階段以無監督大數據集發現和生成規律,并將其廣泛的預測能力擴展到眾多任務的表征能力。然而,預訓練模型的強大性能離不開高質量大數據的支持,微調階段在特定任務完成精調工作。因此,隨著各個領域的數據集進一步微調,模型模型的更好地適應特定應用需求。 2022年,隨著ChatGPT的發布,大規模語言模型受到了廣泛關注。ChatGPT不僅擁有遠超之前模型的參數量,且使用大規模高質量的人類標注數據對模型進行微調。ChatGPT革命性的性能突破讓企業和研究機構認識到,構建更智能、更強大的模型依賴于豐富且高質量的數據集。自此,數據集的建設和優化成為了人工智能領域未來發展的方向。在這個背景下,許多公司和組織參與到訓練數據的構建和優化工作中,而許多大規模模型語言集(如Baichuan、Qwen、Chatglm等)已經相繼開源,但其訓練數據幾乎完全保密。 模型訓練所涉及的語料的廣度和質量是其核心競爭力。當然,也有非常多的公司和組織把投入大量資源構建的數據集進行開源,為社區的發展做出貢獻。比如Together AI的RedPajama數據集或Hugging Face的Common Crawl數據。這些數據集中不僅標了降噪和不相關內容,還進行了結構化和標準化處理,使其適用于訓練所需高質量數據。 與此同時,盡管許多商業組織的預訓練數據與訓練語料已被開源,其他在語音和世界的被公開總量并不理想。此外,數據的提升和可視化。隨著模型的不斷增大。 未來的數據建設成為一種非常核心的關鍵要求。當前對前沿問題和數據資源的需求是快速且不斷增長的挑戰之一,而隨著對隱私問題和標準化的處理未來更需要建設和高質量基礎來推動數據。
2 預訓練數據
預訓練任務通過讓模型基于已有文本預測未知的Token,以此來學習語言結構和語義規則。自編碼訓練任務(如BERT)和自回歸訓練任務(如GPT)分別代表了兩種主要的方法。在ChatGPT發布后,自回歸訓練任務逐漸成為訓練大規模語言模型的主流方法。在預訓練過程中,模型通過估計預測Token的原始概率,逐步掌握文本的語法和語義,從而積累大量語言知識,提升文本理解和生成能力。核心機制在于,模型能夠通過預測文本的一部分,逐漸建立對整個文本結構的理解。此外,模型不僅能記住具體的單詞和短語,還能學習更高層次的語言結構和語義關系。這種能力對于生成連貫且有意義的文本至關重要,使得模型在實際應用中能夠提供更恰當的回答,上一文一致的回答。 預訓練數據集對于訓練模型理解和生成能力至關重要,是大規模語言模型開發的基礎。預訓練數據集通常來自人工標記,含有豐富的語言元素和復雜的結構。這種標注數據為模型提供了真實、自然的語言使用場景,使得模型學習到語言的本質特征和標準規則。預訓練語料的背景特征就是規模龐大。大規模的數據集能夠提供豐富的語言現象和多樣的上下文場景,使模型在訓練過程中接觸到各種語言結構、詞匯用法和語法規則。這種規模保證了模型可以捕捉到更廣泛的語言模式和關系,從而在多種任務中表現出色。 除了規模龐大,其第二個重要特性就是來源廣泛。預訓練語料涵蓋了從日常通信到專業學術的各種文本類型。這包括新聞報道、科學論文、文學作品等。這種多樣化的文本來源確保了模型能夠在不同的語境中靈活應用,既能理解口語的表達,也能處理學術術語和復雜的學術論述。模型通過在這些不同類型的文本中學習,可以獲得更全面的語言知識和更強的適應能力。 通過預訓練,模型能夠積累大量的背景知識,這使得它在面對新的任務時,能夠迅速適應并表現出色。預訓練就像是讓模型“打下上萬本書,見多識廣”,積累了豐富的知識儲備,而微調過程則是讓模型在特定領域進行專門訓練,以便更好地完成特定任務。此外,預訓練數據的多樣性和復雜性也意味著在預訓練過程中對數據的處理需要結合高度清洗和精細的標注。盡管如此,其中一些噪音可能是模型成長的營養劑,而非阻礙。例如別字、模棱兩可的語言、復雜的語音環境中學習,模型能夠得到更加健壯和靈活,能夠更好地處理實際應用中遇到的各種問題。
3 微調數據
微調過程是訓練語言模型不可或缺的一環,其目的是在于將模型從面向語言知識的通用訓練轉向面向具體任務的針對訓練。在預訓練階段,模型通過預測被掩碼的Token任務學習了大量的語言知識,使其具備理解和生成文本的能力。然而,這些知識是通用的,無法被直接應用于具體任務的實現。微調階段旨在針對特定任務的語料庫上進行訓練,使模型能夠學習到具體任務的需求和規則,從而將所學的語言知識和生成能力在應用任務中按特定任務。與預訓練階段相比,微調數據集通常是經過人工標記和精心設計的,記錄了特定任務中的輸入輸出對應關系或其他更精細的上下文標記,從而更有針對性和強關聯性。對不同讀懂程度任務,微調數據包括任務參考文本、問題和問題的答案。通過這個訓練,模型能夠學習到解決特定任務的特征和模式,從而將訓練階段學到的通用知識應用到特定任務中。 微調數據集在分布式配置中包含:命令類問題、機器翻譯、文本分類、自動問答等。這些任務需要語言模型學習更具體的問題解答能力,自動語言掌握模型的各種領域,知識儲備和生成能力的需求。然而,隨著ChatGPT的發布,人們發現,機器人語言模型在預訓練階段學到了更多的語言知識,獲得了更強的語言能力,便能設計話和領域解決語用中所有高表達意圖任務的各種應用任務。這些數據集使得模型在解決復雜多種問題中優化。 傳統微調數據有可能有各種形式,如文本大小(機器翻譯或其他文本類)等。但在傳統微調數據集基礎上強調對更高的基準結構變化而構建大規模系統。對于優化微調數據庫。
結尾:
主要任務包括指令集跟隨,日常對話、數學推理、代碼生成、醫療問答等。構建微調數據集的主要問題分為兩個方面,問題的收集和答案獲取。其構建方式大致可以分為以下幾種:人工撰寫、真實用戶對話、基于已有數據集的擴充、利用語言模型直接生成以及基于傳統數據集的改寫。下面介紹這幾種基本的數據構建方式。 4 總結 本論文概述了大語言模型在預訓練和微調階段的數據構建要點。在預訓練數據方面,英文數據在 數量和質量上優于中文數據,成為訓練英文大語言模型的有力資源,而中文數據因網頁資源有限、學 術數據匱乏、社交媒體平臺閉源等因素受限。中文領域開源數據集的缺乏,也阻礙了中文大語言模型 的發展,盡管模型可以通過英文數據學習多語言能力,但中文特有的知識和文本風格仍難以完全涵 蓋。此外,數據隱私與開放性之間的平衡成為關注點,語料枯竭也帶來新的挑戰,促使研究者探索合 成數據等新來源。 在微調數據方面,構建方法多樣,包括人工撰寫、真實用戶數據擴充等。多樣性、質量和安全性 是微調數據的重要目標,實際應用中常融合多種數據來源以取得最佳效果,并在不同領域數據配比上 進行優化。總體而言,預訓練與微調數據的高質量構建對于提升大語言模型的性能至關重要。特別在 中文領域,各方需協力推動數據來源的拓展與技術改進,使中文大語言模型在各類應用中更具競爭 力。
小型語言模型(SLMs)因其高效性和在執行各種語言任務時所需的計算資源較少,變得越來越重要,使它們非常適合于包括設備端、移動設備、邊緣設備等多種場景。在本文中,我們對小型語言模型進行了全面的綜述,重點介紹了它們的架構、訓練技術和模型壓縮技術。
我們提出了一種新的分類法,用于歸類優化SLMs的方法,包括模型壓縮、剪枝和量化技術。我們總結了適用于小型語言模型基準測試的標準數據集,以及常用的評估指標。此外,我們還強調了尚待解決的關鍵開放性挑戰。
本綜述旨在為有興趣開發和部署小型高效語言模型的研究人員和從業者提供寶貴的資源。
盡管大型語言模型(LLMs)在廣泛的基準測試和現實場景中展示了出色的性能,它們的成功卻伴隨著顯著的成本。LLMs 的訓練和運行資源密集,需耗費大量計算和數據資源。這通常意味著它們的訓練和推理都需要在集中化和專業化的硬件上進行。
為了應對這些挑戰,越來越多的研究開始關注小型語言模型(SLMs)。小型語言模型的目標是保持大型語言模型的準確性和/或適應性,同時受到某些約束條件的限制,如訓練或推理硬件、數據可用性、帶寬或生成時間。提升模型在這些約束條件下的性能,可以幫助實現隱私保護、成本節約或在消費級設備上運行的目標。 對小型語言模型進行綜述的難點在于,“小型”和“大型”的定義是隨時間和上下文變化的。例如,GPT-2 在2019年作為一個擁有15億參數的“大型語言模型”,如今已經比本文綜述中許多所謂的“小型”語言模型要小。然而,雖然模型規模在變化,小型語言模型的訓練目標相對穩定。
在本綜述中,我們將探討支持構建和推理小型語言模型的架構、訓練和模型壓縮技術。此外,我們還總結了用于評估小型語言模型性能的基準數據集和常用的評估指標。為此,我們提出了一個新的分類法,用于沿著兩條主軸組織這些方法:
表1(技術)和表2(約束條件)展示了這些主軸的概覽。
需要注意的是,在任何一個目標上的進展不一定意味著在其他目標上也有進展。事實上,往往存在權衡。例如,量化感知訓練等內存高效的訓練方法(Dettmers等人,2022a,2024)通常比全精度方法更慢。然而,通過使用混合精度表示權重和梯度,它們允許使用更少的內存來進行訓練或微調。最后,雖然最近已經有幾篇關于大型語言模型及其學習方法的綜述(Rogers等,2020;Min等,2021;Zhu等,2023;Shen等,2023),但據我們所知,這是首篇專注于小型語言模型的綜述。
本綜述分為三個主要部分,每個部分都涵蓋了優化小型語言模型的關鍵方面。第2節關注模型架構,包括輕量化設計、高效的自注意力近似以及神經架構搜索以高效構建更小的模型。第3節涵蓋高效的預訓練和微調技術,以在資源受限的情況下提升小型語言模型的性能。第4節探討了模型壓縮技術,如剪枝、量化和知識蒸餾,它們可以在不顯著犧牲精度的情況下減少模型的大小和延遲。第5節提供了基準數據集和評估指標的概述,提供了評估這些方法有效性的綜合框架。第6節討論了小型語言模型所啟用的應用,按照約束條件進行分類。最后,第7節提出了針對小型語言模型的開放性挑戰討論。
本文的主要貢獻如下:
本節討論了開發小型語言模型(SLMs)的架構設計。具體而言,我們涵蓋了輕量化架構(第2.1節)、高效自注意力近似(第2.2節)以及神經架構搜索(第2.3節)。
輕量化語言模型架構旨在通過減少參數量和計算開銷,實現高效性能,這對于在資源受限的設備(如手機、邊緣設備和嵌入式系統)上部署非常理想。代表性輕量化模型通常采用編碼器或解碼器的架構。 輕量化編碼器架構大多是BERT(Devlin等人,2019)的優化版本。例如,MobileBERT(Sun等人,2020)引入了一種倒瓶頸結構,以在自注意力和前饋網絡之間保持平衡,與基礎版BERT相比,實現了4.3倍的尺寸縮減和5.5倍的速度提升。DistilBERT(Sanh,2019)和TinyBERT(Jiao等人,2019)也分別實現了相似的優化。 輕量化解碼器架構遵循自回歸語言模型的結構,如GPT(Radford等人,2018,2019)和LLaMA系列(Touvron等人,2023b)。這些模型強調知識蒸餾、內存開銷優化、參數共享和嵌入共享,以增強效率和可擴展性。BabyLLaMA(Timiryasov和Tastet,2023a)和BabyLLaMA-2(Tastet和Timiryasov,2024)分別將多位教師模型的知識蒸餾到58M參數和345M參數的模型中,證明了在數據受限的情況下,蒸餾技術可以超越教師模型的性能。TinyLLaMA(Zhang等人,2024)僅有1.1B參數,通過優化內存開銷(例如使用FlashAttention,Dao等人,2022)實現了高效,同時在多種下游任務中保持了競爭力。MobilLLaMA(Thawakar等人,2024)應用了參數共享方案,減少了預訓練和部署成本,提出了一個適合資源受限設備的0.5B參數模型。MobileLLM(Liu等人,2024e)進一步引入嵌入共享和分組查詢注意機制,并通過分塊式權重共享降低了延遲。
部署大型語言模型的挑戰之一是自注意力層中的龐大參數量以及自注意力帶來的計算成本。本節討論了降低計算成本的策略,這些策略對于構建小型語言模型非常有用。 Reformer(Kitaev等人,2020)通過將點積注意力替換為使用局部敏感哈希的注意力,將自注意力的復雜度從O(N2)降低到O(N log N)。Roy等人(2021)使用了基于在線k-means聚類的稀疏路由模塊,減少了注意力計算的復雜性。 為進一步將自注意力層的計算復雜度從O(N2)降低到O(N),多項研究(Wang等人,2020a;Katharopoulos等人,2020;Xiong等人,2021;Beltagy等人,2020)提出了線性注意力機制。特別是,Katharopoulos等人(2020)將自注意力表示為核特征映射的線性點積,從而降低了二次復雜度。作者還展示了采用這種線性注意力機制的Transformer可以被視為一種遞歸神經網絡,從而實現更快的推理。在這些基礎上,近期的進展引入了更為先進的架構。值得注意的例子包括Mamba(Gu和Dao,2023;Dao和Gu,2024),該模型引入了具有輸入依賴轉換的選擇性狀態空間模型,以及RWKV(Peng等人,2023),它結合了Transformer和RNN的元素與線性注意力機制。這些模型不僅實現了線性時間和空間復雜度,還在各種任務中表現出競爭力。 我們還注意到一些先前用于處理長文檔的編碼器架構的工作。Longformer(Beltagy等人,2020)使用了局部窗口注意力和任務特定的全局注意力相結合的機制,隨著輸入長度的增加,能夠線性擴展,因此具有內存效率。Wang等人(2020a)通過使用低秩矩陣來近似自注意力機制,將復雜度降低到O(N)。這些研究表明,帶有線性自注意力的Transformer在多種下游任務中的表現與原始自注意力機制相匹配。類似地,Xiong等人(2021)使用了流行的Nystrom方法(Nystr?m,1930)來近似自注意力操作,在與傳統Transformer的比較中顯示出強大的實驗性能。
本節討論了用于發現最適合特定任務和硬件約束的高效模型架構的自動化方法。 先前的研究主要集中在用于視覺任務的神經架構搜索(NAS)(Tan和Le,2019;Zoph和Le,2016;Wu等人,2019;Guo等人,2020)和BERT模型(Xu等人,2021;Jawahar等人,2023;Ganesan等人,2021),這些模型的參數相對較少,減少了高效架構搜索過程的成本。然而,具有超過十億參數的大型語言模型在尋找更小、更高效的模型時面臨著顯著挑戰。其龐大的規模使搜索過程計算密集且昂貴。最近,MobileLLM(Liu等人,2024e)研究了模型深度(即層數)和寬度(即頭數)對性能的影響,有效地在數百萬參數范圍內進行了針對性架構搜索。與此同時,Shen等人(2024c)通過探索合適的初始化來減少搜索空間,從而加快了搜索過程的收斂。
近年來,大型多模態模型(LMMs)在顯著減少參數量的同時,達到了與前代模型相當甚至更優的性能。值得注意的例子包括LLaVA-Next(Liu等人,2024a)、Idefics2(Lauren?on等人,2024)和InternVL2(Chen等人,2023)系列。這一進展部分歸功于更多高效的小型語言模型,如Gemma(Team等人,2024)和phi-3-mini(Abdin等人,2024),并強調了精心策劃的數據集的重要性。
此外,人們還努力在多模態融合過程中縮減視覺編碼器的規模。例如,InternVL2利用大規模視覺編碼器的中間層輸出,同時丟棄后續模塊。更小的模型,如PaliGemma(Beyer等人,2024)和Mini-Gemini(Li等人,2024c),采用了輕量級的視覺編碼器。單體多模態模型進一步推進了這一點,完全消除了視覺編碼器,轉而使用輕量級架構生成視覺token。例如,Chameleon(Team,2024a)采用VQ-VAE模型將圖像編碼并解碼為離散token,而Mono-InternVL(Luo等人,2024a)則使用MLP生成圖像塊的視覺token,結合了一種名為多模態專家混合的特定模態前饋網絡,以區分不同的模態。
本節回顧了用于語言模型預訓練和微調的關鍵訓練技術。雖然小型語言模型(SLMs)與大型語言模型(LLMs)采用類似的訓練方法,但我們將重點介紹在有限資源情況下促進SLMs學習的高效技術。
混合精度訓練是提升SLMs和LLMs預訓練效率的關鍵技術。該方法利用低精度表示進行前向和后向傳播,同時保持高精度的權重更新。例如,Micikevicius等人(2018)引入了自動混合精度(AMP),該方法初始時使用32位浮點(FP32)精度保存權重的主副本,而在進行算術運算時使用16位浮點(FP16)精度。然而,近期的研究(Rae等人,2021)觀察到,由于FP16的數值范圍有限,AMP在某些情況下會導致精度損失。為了解決這一問題,Burgess等人(2019)提出了大腦浮點(BFLOAT16),該格式具有比FP16更多的指數位,提供了更大的動態范圍。BFLOAT16在訓練性能和表示精度方面優于FP16。
現代GPU架構進一步通過專用的Tensor Cores增強了混合精度功能。例如,早期的架構支持FP16和BFLOAT16,而NVIDIA的最新Hopper架構引入了對8位浮點(FP8)精度的支持(Luo等人),從而為大規模語言模型帶來了更高的計算效率。
為了進一步提升訓練效率并防止模型崩潰,采用了各種優化和穩定技術。雖然Adam(Diederik,2014)和AdamW(Loshchilov和Hutter,2019)優化器廣泛使用,但內存高效的變體如Adafactor(Shazeer和Stern,2018)和Sophia(Liu等人,2024b)被引入以提高訓練速度和效率。為進一步穩定訓練,梯度裁剪(Zhang等人,2020)被廣泛應用,以防止梯度爆炸。此外,仔細的初始化策略可以為模型訓練提供良好的起點。這些結合技術旨在實現最佳的訓練效率,保持數值穩定性,并生成更穩健和強大的語言模型。
為了應對預訓練階段的計算需求,語言模型通常在多個計算節點上進行預訓練,利用分布式計算資源實現高效訓練。為此,開發了多種系統級優化技術。零冗余數據并行(ZeRO)(Rajbhandari等人,2020)提供了三種漸進式的優化階段,每個階段都將更多的訓練狀態分布到設備上:ZeRO-1劃分優化器狀態,ZeRO-2增加梯度劃分,ZeRO-3進一步劃分模型參數。PyTorch的全分片數據并行(FSDP)(Zhao等人,2023b)也實現了類似的概念。這些并行技術允許使用更大的批量尺寸進行訓練,大大提高了SLMs和LLMs的效率和可擴展性。
在較小的特定任務數據集上進行微調,允許LLMs利用預訓練中獲得的知識,從而在特定任務或領域中表現出色。微調技術旨在解決諸如計算資源有限、數據質量、可用性和魯棒性等挑戰,確保能夠有效地適應新任務而無需進行廣泛的再訓練。
3.2.1 參數高效微調
參數高效微調(PEFT)僅更新一小部分參數或添加輕量級模塊,同時保持大部分預訓練模型的參數不變。這種方法減少了SLM微調時的計算成本,保留了模型的知識,減少了過擬合,并提高了靈活性。LoRA(Hu等人,2021)使用低秩分解,Prompt Tuning(Lester等人,2021)在輸入中插入可學習的提示,而Llama-Adapter(Zhang等人,2023b;Gao等人,2023)將提示添加到LLaMA的注意力塊中。動態適配器(Kong等人,2024;Feng等人,2024;Gou等人,2023;Liu等人,2023b;Luo等人,2024b)自動將多個適配器組合為專家混合模型,支持多任務處理并防止遺忘(Han等人,2024;Yang等人,2024)。
3.2.2 數據增強 數據增強通過增加訓練數據的復雜性、多樣性和質量,提升模型在下游任務中的泛化能力和性能。AugGPT(Dai等人,2023)使用ChatGPT對訓練樣本進行改寫,Evol-Instruct(Xu等人,2023)通過多步修訂生成復雜度更高的多樣化開放域指令。Reflection-tuning(Li等人,2023a,2024a)通過基于預定義標準使用GPT-4對指令和響應進行優化,提升了數據質量和指令響應一致性。FANNO(Zhu等人,2024)通過檢索增強生成技術引入外部知識源,以增強指令并生成響應。LLM2LLM(Lee等人,2024b)在訓練過程中基于模型預測生成更難的樣本。
數據增強在訓練數據有限的情況下也非常有效,例如用于低資源語言(Whitehouse等人,2023)、醫療和臨床應用(Chintagunta等人,2021)以及隱私敏感數據(Song等人,2024),從而使模型能夠在受限場景下更好地泛化并表現出更強的魯棒性。
通過使用f散度(f-divergences)的廣義版本,序列級蒸餾損失可以得到改進,如Wen等人(2023)所示。Liang等人(2023)通過使用任務感知濾波器擴展了針對語言模型的逐層蒸餾策略,該濾波器僅蒸餾來自教師模型的特定任務知識。最近的研究(Wan等人,2024a,b)表明,通過戰略性地融合多個語言模型的輸出概率分布,可以將多個語言模型融合為教師模型,以蒸餾知識到小型語言模型中。
語言模型的知識蒸餾面臨的一個問題是,當(1)教師和學生語言模型共享相同的分詞器,且(2)教師模型的預訓練數據可用時,蒸餾策略效果最佳。Boizard等人(2024)通過引入一種受最優傳輸理論啟發的通用logit蒸餾損失,解決了這一問題。蒸餾常常還與剪枝技術相結合,以創建更小的語言模型。例如,Sreenivas等人(2024)和Muralidharan等人(2024)展示了通過對大型語言模型進行剪枝并結合蒸餾損失進行重訓練的迭代步驟,可以生成性能強大的小型模型。
最新的進展探索了超越傳統標簽蒸餾的方法,通過在蒸餾過程中加入額外的監督來創建小型語言模型。Hsieh等人(2023)發現,在蒸餾過程中使用“推理依據”(rationales)作為額外的監督來源,使得蒸餾過程更加樣本高效。此外,作者發現蒸餾后的模型在常用的自然語言推理(NLI)、常識問答和算術推理基準測試上超越了大型語言模型。同樣地,Dai等人(2024)、Magister等人(2023)、Ho等人(2023)和Fu等人(2023)將從大型語言模型中提取的推理鏈與標簽信息一起蒸餾到小型語言模型中。研究表明,這些蒸餾后的模型在算術、多步數學、符號推理和常識推理能力上有顯著提升。
鑒于小型語言模型(SLMs)因其高效性和在廣泛設備與環境中的應用而變得愈發重要,本文綜述了SLMs,包括其模型架構、訓練技術以及用于優化SLMs的模型壓縮技術。我們還提出了一個直觀的SLM評估指標分類法,并總結了SLMs在各種設置和應用中的重要性。此外,我們總結了用于SLMs的訓練和基準數據集。最后,我們強調了SLMs領域中亟待解決的基本挑戰和開放性問題。我們希望這篇綜述能成為研究人員和從業者的寶貴資源,推動小型但功能強大的語言模型的進一步發展。
摘要自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到了越來越多的關注,但仍然缺乏整體視角。許多關鍵方面仍不清楚,例如LLMs已應用于哪些疾病和臨床數據、使用了哪些LLM技術以及采用了哪些評估方法。在本文中,我們對基于LLM的疾病診斷方法進行了綜合評述。我們的評審從多個維度考察了現有文獻,包括疾病類型及其相關的臨床專科、臨床數據、LLM技術和評估方法。此外,我們還提出了關于LLMs在診斷任務中應用與評估的建議。我們進一步評估了當前研究的局限性,并討論了未來的研究方向。據我們所知,這是首個關于基于LLM的疾病診斷的綜合評述。
引言
自動疾病診斷是臨床場景中的一項關鍵任務,它以臨床數據為輸入,分析模式,并生成潛在的診斷,幾乎無需或完全無需人為干預。這在醫療保健中的重要性是多方面的。首先,它提高了診斷的準確性,支持臨床醫生的決策,并通過提供更多高質量的診斷服務來解決醫療保健中的不平等問題。其次,自動診斷提高了醫療專業人員的效率,這對于管理老齡化患者和多病患者群體的臨床醫生來說尤為寶貴。例如,DXplain是一個診斷系統,它利用患者的體征、癥狀和實驗室數據生成潛在診斷列表,并提供每種病癥應被考慮的理由。此外,在線服務進一步促進了某些疾病的早期診斷或大規模篩查,例如心理健康障礙,通過早期階段提高意識,幫助預防潛在的風險。例如,幾項研究探討了使用社交媒體帖子進行大規模抑郁癥識別和自殺風險預測。
人工智能(AI)的最新進展推動了自動診斷系統的發展,經歷了兩個階段。最初,機器學習技術如支持向量機和決策樹被用于疾病分類,這通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集的增大和計算能力的提升,深度學習方法逐漸主導了診斷任務的發展。這些方法利用了深度神經網絡(DNNs),包括卷積神經網絡(CNN)、循環神經網絡(RNN)和生成對抗網絡(GAN),實現了端到端的特征提取和模型訓練。例如,一個擁有34層的卷積DNN在心律失常診斷中達到了與心臟病專家相當的水平。然而,這些模型通常需要大量標注數據進行監督學習,并且通常是任務特定的,限制了它們對其他任務或新需求的適應性。 近年來,人工智能的范式已經從傳統的深度學習轉向了大型語言模型(LLMs)的出現。與監督學習不同,LLMs(如生成式預訓練變換器(GPT)和LLaMA)是通過自監督學習在大量未標記數據上進行預訓練的生成模型。這些模型通常包含數十億個參數,擅長語言處理,并能適應各種任務。迄今為止,LLMs在臨床場景中展現了卓越的表現,包括問答(QA)、信息檢索和臨床報告生成等任務。最近,越來越多的研究驗證了LLMs在診斷任務中的有效性。例如,PathChat是一個經過數十萬條指令微調的視覺-語言通用LLM,在人體病理學中達到了最先進的表現。Med-MLLM是一個基于多模態的LLM,經過在包括胸部X光、CT掃描和臨床筆記在內的廣泛醫療數據上的預訓練和微調,在COVID-19診斷中展示了顯著的準確性。此外,Kim等人通過提示工程使用GPT-4,發現其在識別強迫癥方面超越了心理健康專家,這突顯了LLMs在心理健康診斷中的潛力。 盡管該研究領域引起了廣泛關注,但許多關鍵問題仍未得到充分探索。例如,在基于LLMs的診斷任務中,哪些疾病和醫療數據被調查過(Q1)?LLMs技術在疾病診斷中是如何應用的,以及如何選擇合適的技術(Q2)?評估診斷性能的合適方法是什么(Q3)?盡管已有眾多綜述文章探討了LLMs在醫學領域的應用研究,這些研究通常提供了廣泛的臨床應用概述,但并未特別強調疾病診斷。例如,Pressman等人對LLMs在預咨詢、治療、術后管理、出院和患者教育等方面的潛在臨床應用進行了全面總結。此外,這些綜述文章均未探討將LLMs應用于疾病診斷的細節與挑戰,或回答上述關鍵問題,突顯了這一領域的重要研究空白。 本綜述的主要目的是提供關于利用LLMs進行疾病診斷研究的概述。綜述介紹了現有研究中的各種疾病類型、與疾病相關的臨床專科、臨床數據、LLM技術和評估方法。此外,我們為數據準備、選擇合適的LLM技術以及為診斷任務采用適當的評估策略提供了建議。進一步地,我們還分析了當前研究的局限性,并深入探討了這一領域的挑戰和未來研究方向。據我們所知,這是首個專注于LLMs疾病診斷的綜述,并全面概述了這一領域。總結來說,這篇綜述為基于LLM的疾病診斷提供了一個藍圖,旨在激發和引導未來的研究工作。
結果****研究范圍概述
本節介紹了我們綜述的范圍。圖2不僅展示了疾病類型、相關的臨床專科、臨床數據類型和數據模態(Q1),還介紹了應用的LLM技術(Q2)和評估方法(Q3),回答了前述問題。具體來說,我們調查了19個臨床專科和超過15種類型的臨床數據用于疾病診斷。這些臨床數據涵蓋了多種數據模態,包括文本、圖像、視頻、音頻、時間序列和多模態案例。此外,我們根據所應用的LLM技術對現有的疾病診斷工作進行了分類,例如提示(零樣本)、檢索增強生成(RAG)和預訓練。表1總結了主流LLM技術的分類。圖4展示了臨床專科、數據模態和所應用的LLM技術之間的關系。這些圖表全面揭示了基于LLM的疾病診斷的當前發展狀況。此外,圖3展示了我們綜述中的元信息分析,涉及不同地區的出版趨勢、廣泛用于訓練和推理的LLMs總結,以及數據來源、評估方法和數據隱私狀態的統計信息。
近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。
近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?
為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。
組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。
大語言模型(LLMs)與知識表示學習(KRL)的整合,標志著人工智能領域的重要進展,增強了捕捉和利用復雜知識結構的能力。這種協同作用利用了LLMs的高級語言和語境理解能力,以提升KRL的準確性、適應性和效能,從而擴展其應用和潛力。盡管有越來越多的研究集中在將LLMs嵌入到知識表示領域,但關于這些增強模型基本組件和過程的徹底審查明顯缺乏。我們的綜述通過基于三種不同的Transformer架構對這些模型進行分類,并分析來自各種KRL下游任務的實驗數據,以評估每種方法的優勢和劣勢。最后,我們確定并探討了這一新興但尚未深入探討的領域的潛在未來研究方向,提出了持續進展的路徑。
介紹
大語言模型(LLMs)(例如,BERT [18],LLaMA [59]),代表了一個不斷增長模型大小的方向,這些模型在更大的語料庫上進行預訓練,已經展示出在解決自然語言處理(NLP)任務中的強大能力,包括問答 [99],文本生成 [100] 和文檔理解 [101]。關于模型大小,沒有明確和靜態的閾值。早期的LLMs(例如BERT,RoBERTa)采用了編碼器架構,并展示了在文本表示學習和自然語言理解方面的能力。近年來,更多的關注點轉向了更大的編碼器-解碼器 [102] 或僅解碼器 [103] 架構。隨著模型大小的增加,這些LLMs還展示了推理能力甚至更高級的新興能力 [104],展示出對人工通用智能(AGI)的強大潛力。
這個拐點,隨著LLMs的到來,標志著從顯式知識表示向重新關注顯式知識和參數化知識混合表示的范式轉變。作為顯式知識表示的一種流行方法,知識圖譜(KGs)現在被廣泛研究,用于與基于Transformer的LLMs結合,包括預訓練的掩蔽語言模型(PLMs)如BERT和RoBERTa,以及更近期的生成式LLMs如GPT系列和LLaMA。一些工作利用LLMs來增強知識圖譜表示學習。在這篇綜述中,考慮到三個方向,即基于編碼器的方法、基于編碼器-解碼器的方法和基于解碼器的方法。我們對從顯式知識表示向重新關注顯式知識和參數化知識混合表示的轉變有了更深入的理解。
Cao等人 [22] 和Biswas等人 [40] 討論了知識圖譜表示學習的最新進展,但他們對與大型模型整合相關的方面處理不足。Pan等人 [42] 和Pan等人 [43] 探討了知識圖譜與大型模型的結合,特別是LLM4KG和KG4LLM;然而,他們在表示學習方面的覆蓋有限。因此,目前還沒有專門概述知識圖譜表示學習領域最新發展的綜述文章。
貢獻 本綜述的顯著貢獻總結如下:
組織結構 本綜述的結構如下:
自動程序修復(APR)試圖修補軟件缺陷并減少手動調試的工作。最近,隨著大型語言模型(LLMs)的進步,提出了越來越多的APR技術,顯著地促進了軟件開發和維護,并展示了卓越的性能。然而,由于基于LLM的APR領域的持續探索,研究人員很難理解當前的成就、挑戰以及潛在的機會。本項工作提供了第一個系統的文獻綜述,總結了2020年至2024年間LLMs在APR中的應用。我們分析了127篇關于LLMs、APR及其整合視角的相關論文。首先,我們分類了現有的流行LLMs,這些模型被應用于支持APR,并概述了三種部署策略。此外,我們詳細描述了一些從LLMs受益的特定修復場景,例如,語義錯誤和安全漏洞。進一步地,我們討論了幾個將LLMs整合到APR研究中的關鍵方面,例如,輸入形式和開放科學。最后,我們強調了仍需研究的一系列挑戰和未來研究的潛在指南。總體而言,我們的論文為APR社區提供了一個系統的研究概覽,幫助研究者全面理解成就并推動未來的研究。我們的工具在GitHub倉庫公開可用://github.com/iSEngLab/AwesomeLLM4APR。
軟件缺陷被公認為不可避免且具有破壞性,為全球用戶帶來安全問題,并每年造成數十億美元的經濟損失【11, 156】。對開發者而言,手動修復檢測到的軟件缺陷既非小事也耗時【13】。自動程序修復(APR)在軟件開發和維護中扮演著至關重要的角色,旨在無需人工干預下修復軟件缺陷。自2009年基礎工作GenProg【80, 155】以來,過去幾十年中APR已被廣泛研究【43, 105】,研究者們提出了多種APR技術,包括基于啟發式的【64, 80, 98, 177】、基于約束的【31, 99, 169, 171】以及基于模式的【76, 91, 92】。最近,受到深度學習(DL)進步的啟發,越來越多基于學習的APR技術被提出,這些技術利用神經網絡模型自動學習修復缺陷的模式【18, 66, 84, 85, 96, 142, 174, 175, 199, 200】。得益于DL模型從大量代碼庫中學習隱藏修復模式的強大能力,基于學習的APR在過去幾年中取得了顯著的表現【182】,吸引了學術界和工業界的廣泛關注【69, 70, 73】。 最近,大型語言模型(LLMs)已成功應用于廣泛的源代碼相關任務【147, 184】,如代碼生成【82, 148, 150, 201】、代碼總結【132, 133, 146】和測試生成【4, 24, 57, 108, 128】。得益于龐大的模型參數和廣闊的訓練數據,LLMs展示了令人印象深刻的性能,并從根本上改變了軟件工程(SE)社區的研究范式。在APR領域,從先驅研究開始,例如TFix【7】、CIRCLE【176】和AlphaRepair【163】,社區已經見證了利用LLMs的修復研究的爆炸性增長,已經取得了相當的優勢,并進一步顯示了未來研究的重大潛力。然而,LLMs在APR中的整合是一個相當復雜的任務,使得有興趣的研究者難以理解現有工作。例如,現有基于LLM的APR研究涵蓋了不同的研究視角(例如,經驗性【162】、技術性【163】和基準研究【187】)、修復階段(例如,補丁生成【186】和正確性評估【183】)、修復場景(例如,靜態警告【69】和語法錯誤【70】)、模型架構(例如,僅編碼器【185】和僅解碼器【100】)以及模型使用范式(例如,微調【176】、少量樣本【108】和零樣本【186】)。盡管該領域的探索仍在進行中,目前的文獻中缺乏關于LLMs在APR中應用的詳盡和系統的綜述,這使得研究人員難以理解現有工作的多樣化設計選擇和進行后續研究。 本文。為了彌補這一差距,我們的工作提供了第一個系統的文獻綜述,關于迅速出現的基于LLM的APR研究的部署。基于此,社區可以全面了解現有基于LLM的APR技術的優勢、劣勢和空白。我們討論了在最先進的APR研究中廣泛采用的LLMs是哪些,以及它們如何被整合到修復工作流中。我們收集了127篇相關論文,并從LLMs、APR和整合視角進行了系統分析。通過我們的分析,我們揭示了當前的挑戰,并指出了基于LLM的APR研究可能的未來方向。總體來說,這項工作為LLM基于APR社區正在進行的進展提供了一個徹底的概覽,幫助研究者在這個迅速發展的領域中導航,并推動創新實踐。 貢獻。總結來說,本工作做出了以下貢獻: * 調查方法論。我們進行了第一個系統的文獻綜述,涵蓋了127篇高質量的APR論文,這些論文利用近期的LLMs應對2020年至2024年4月的修復挑戰。 * 趨勢分析。我們就發布趨勢、出版地點分布和貢獻類型對選定的APR研究進行了詳細分析。 * LLMs視角。我們總結了46種用于支持程序修復的LLMs,并提供了APR領域不同LLM類別的典型使用和趨勢的概述。 * APR視角。我們描述了LLMs應用的常見修復場景,涵蓋了18種錯誤類型,如安全漏洞和編程問題。 * 整合視角。我們討論了一些關鍵因素,包括數據集、輸入表現形式和開放科學,這些因素影響LLMs整合到APR中的性能。 * 挑戰與機遇。我們總結了在APR領域應用LLMs的一些關鍵挑戰,并指出了未來基于LLM的APR研究的一些潛在指南。
論文組織。第2節介紹了關于APR和LLMs的一些基本概念。然后,根據上述貢獻,第3節列出了我們的研究問題(RQs)和收集與我們工作相關論文的研究方法。第4節調查了基于LLM的APR研究的趨勢和分布。第5節總結了現有APR研究所使用的LLMs。第6節闡述了LLMs應用的主要修復場景,并對每項工作進行了簡要描述。第7節討論了LLMs與APR整合過程中的一些關鍵因素,包括數據集、輸入表現形式、補丁正確性和開放科學。第8節討論了一些挑戰和實用指南。第9節得出結論。 我們試圖通過總結相關研究并進一步提供后續研究的指南,提供近期LLMs在APR應用的全面概覽。為了實現這一點,這個系統的文獻綜述回答了以下研究問題(RQs): * RQ1:利用LLMs的APR研究的趨勢是什么?
(1) LLMs在修復軟件缺陷方面顯示出蓬勃的發展趨勢,從2020年到2024年間共有127篇論文。 (2) 在APR中使用LLMs的會議論文數量顯著超過期刊論文,其中ICSE和TOSEM分別是最受歡迎的會議和期刊場所。 (3) 基于LLM的APR論文發表在不同的研究領域,包括軟件工程(SE)、人工智能(AI)和安全性。 (4) 有18種編程語言已被基于LLM的APR應用,其中Java、Python、C和C++是最常被目標的。 (5) LLMs已被應用于一些代表性較低的編程語言,如Verilog和Rust。 (6) 收集的大多數研究主要集中于引入新技術和進行實證研究,而有兩篇論文執行了用戶研究,以了解從業者對利用各種LLMs解決修復缺陷任務的態度和經驗。 * RQ2:哪些受歡迎的LLMs已被應用于支持APR?
(1) 我們總結了46種不同的LLMs,這些模型已被用于修復缺陷,并且可以根據模型架構分為三類,即僅編碼器、編碼器-解碼器和僅解碼器。 (2) 僅解碼器的LLMs是最常使用的模型架構,其中四種最受歡迎的LLMs均為僅解碼器模型。 (3) ChatGPT、GPT-4、CodeT5和Codex是現有基于LLM的APR研究中最受歡迎的LLMs,分別被使用了37次、25次、23次和21次。 (4) 我們總結了三種典型的利用LLMs中封裝的廣泛知識來處理特定程序修復任務的方法,即微調、少量樣本和零樣本。 * RQ3:哪些修復場景已由LLMs促進?
總體來看,我們觀察到LLMs已在文獻中的廣泛修復場景中得到應用,涉及18種錯誤類型。在一些由傳統APR主導的常見場景中,例如語義錯誤,研究者繼續投入大量努力研究LLMs的應用。此外,由于LLMs從所有可能的互聯網數據中學到的通用知識,基于LLM的APR已擴展到一些以前未探索的罕見場景,如硬件缺陷和Web UI。 * RQ4:哪些關鍵因素有助于LLMs在APR中的整合?
(1) 我們總結了78種不同的數據集,這些數據集被用來基準測試LLMs在修復缺陷中的應用。 (2) 在基于LLM的APR中,Defects4J、QuixBugs、BFP、CVEfixes和Big-Vul是最常使用的。 (3) 我們將所有收集的論文中的輸入形式分類為五組:原始修復輸入、提示輸入、掩碼輸入、對話式輸入和結構感知輸入。 (4) 提示輸入是在應用LLMs進行程序修復時最常用的形式,這表明設計有效的提示對于利用LLMs的自然語言處理能力尤為重要。 (5) 我們總結了一些利用LLMs預測補丁正確性的研究。 (6) 所有收集的論文中有62.99%已經開源了其工具,而在頂級SE出版物中,這一比例增加到了86.84%。
預訓練的大型語言模型(LLM)和大型多模態模型(LMM)的迅速發展開啟了智能應用的新時代,從自然語言處理到內容生成等領域都發生了變革。LLM供應鏈代表了當代人工智能領域的一個關鍵方面。它包括預訓練模型的整個生命周期,從最初的開發和訓練到最終的部署和在各個領域的應用。本文提供了LLM供應鏈的全面概述,突出了其三個核心元素:1)模型基礎設施,包括用于訓練、優化和部署的數據集和工具鏈;2)模型生命周期,涵蓋訓練、測試、發布和持續維護;3)下游應用生態系統,使預訓練模型能夠集成到各種智能應用中。然而,這個快速發展的領域在這些關鍵組成部分中面臨著許多挑戰,包括數據隱私和安全、模型可解釋性和公平性、基礎設施的可擴展性,以及監管合規性。解決這些挑戰對于充分發揮LLM的潛力并確保其道德和負責任的使用至關重要。本文為LLM供應鏈提供了未來的研究議程,旨在推動這些變革性LLM的持續進步和負責任的部署。
預訓練的大型語言模型(LLM)和大型多模態模型(LMM),如GPT4 [2]、Gemini [183]和LLaMA [187]的快速進步,已經徹底改變了人工智能(AI)領域,開啟了智能應用的新時代。這些強大的模型,經過大量數據的訓練,已在從自然語言處理到多模態內容生成的廣泛任務中展示了卓越的能力。 隨著LLM的不斷普及,支持其開發、部署和維護的強大且高效的供應鏈的需求變得越來越明顯。LLM供應鏈涵蓋了從模型訓練到測試、發布及持續維護的整個生命周期。這一復雜的生態系統涉及多種利益相關者,包括模型開發者、數據提供者和終端用戶,他們都必須應對一系列獨特的挑戰,以釋放這些變革性技術的全部潛力。 在本文中,我們將全面概述LLM供應鏈,強調必須解決的關鍵組成部分和關鍵挑戰,以確保LLM的安全、可靠和公平部署。我們將探索這一供應鏈的技術、倫理和操作方面,借鑒軟件工程、系統架構、安全和數據治理領域的見解。我們的目標是全面理解LLM供應鏈,并識別可以推動這一快速發展領域未來的最有前景的研究和開發機會。 LLM供應鏈的定義類似于開源軟件(OSS)供應鏈[93, 164, 204],LLM供應鏈指的是圍繞模型的開發、分發和部署的關系網絡。這一供應鏈包括上游的模型開發社區、模型倉庫、分發平臺和應用市場,以及數據提供者、工具鏈/模型開發者、維護者和終端用戶。如圖1所示,這一供應鏈可以進一步分為三個關鍵組成部分:
基礎設施基礎:LLM供應鏈的基礎是堅實的模型基礎設施,包括多樣化數據集的策劃和管理,以及支持模型高效訓練、優化和部署的工具鏈(如PyTorch [158]、TensorFlow [184]和LangChain [94]);
模型生命周期:模型生命周期是復雜LLM供應鏈生態系統中的關鍵節點。這一全面的生命周期,覆蓋了模型從概念到退役的整個過程,是供應鏈復雜相互依存關系的匯聚點。它不僅涵蓋了模型重用引入的依賴關系,而且與基礎設施層的數據集和開發工具供應鏈緊密交織;
本文的其余部分安排如下。我們將在第3、第4和第5節分別深入討論模型基礎設施、模型生命周期和下游應用生態系統。每一節的結構依次為愿景、挑戰和機會。最后,在第6節中我們將結束本文。
在本文中,我們對LLM供應鏈進行了全面探討,深入研究了模型基礎設施、生命周期和下游應用生態系統的復雜階段。我們在每個階段都確定了關鍵挑戰,突出了未來研究的機會。在基礎設施領域,我們強調了高質量數據集和魯棒安全的工具鏈的至關重要性。LLM的生命周期,通過開發、測試、發布和維護階段,顯示出持續創新和警惕的需要,以確保模型保持有效、安全,并符合道德標準。對下游應用生態系統的探索,包括LLM應用市場、設備上的LLM和DSM,打開了一個窗口,展示了LLM在各行各業和各種應用中的未來潛力。總之,我們認為LLM供應鏈代表了一個充滿活力和復雜的生態系統,希望本文能為未來研究提供一個議程。
開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為
//github.com/HITsz-TMG/awesome-llm-attributions。
自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。
幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):
考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型:
超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。
歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。
直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。
**檢索后回答 **
多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。
生成后歸因
為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。