在多模態模型訓練和推理過程中,由于傳感器限制、成本約束、隱私問題、數據丟失以及時間和空間因素,數據樣本可能會缺失某些模態,導致模型性能下降。本綜述概述了在缺失模態的多模態學習(MLMM)領域的最新進展,重點關注深度學習技術。這是第一個全面的綜述,涵蓋了MLMM的歷史背景以及其與標準多模態學習設置的區別,隨后詳細分析了當前的MLMM方法、應用和數據集,并討論了該領域面臨的挑戰和未來可能的發展方向。
多模態學習已成為人工智能(AI)領域的關鍵領域,專注于整合和分析各種數據類型,包括視覺、文本、聽覺和傳感器信息(圖1a)。這種方法反映了人類通過結合多種感官來更好地理解和與環境互動的能力。現代多模態模型利用深度學習的強大泛化能力,揭示單模態系統可能無法檢測到的復雜模式和關系。這種能力推動了多個領域的工作進展,包括計算機視覺。最近在這些領域的調查顯示,多模態方法的顯著影響,證明了它們能夠提高性能并實現更復雜的AI應用【7,224】。
然而,多模態系統在實際應用中往往面臨數據缺失或不完整的問題。這種情況的發生可能是由于傳感器故障、硬件限制、隱私問題、環境干擾和數據傳輸問題等多種因素造成的。如圖1b所示,在三模態的情況下,數據樣本可以分為全模態(包含所有三種模態的信息)或缺失模態(完全缺失一種或多種模態的數據)。這些問題可能在數據收集到部署的任何階段發生,顯著影響模型性能。現實世界中此類問題在多個領域廣泛存在。在情感計算領域,研究人員【31,150】發現,由于相機遮擋或麥克風噪聲過大,樣本中僅包含可用的圖像或音頻。同樣,在太空探索中,NASA的“機智號”火星直升機【36】由于火星上的極端溫度循環導致其傾角儀失效,面臨缺失模態的挑戰。為了解決這一問題,NASA應用了一項軟件補丁,修改了導航算法的初始化【169】。在醫療AI領域,由于隱私問題,某些數據樣本中某些模態可能不可用,導致多模態數據集中固有的模態缺失【222】。現實場景的不可預測性和數據來源的多樣性進一步加劇了這一挑戰。因此,開發能夠在模態缺失情況下有效運行的多模態系統,已成為該領域的關鍵研究方向。
在本綜述中,我們將處理缺失模態的挑戰稱為“缺失模態問題”。我們將解決該問題的方法稱為“缺失模態的多模態學習”(MLMM)。這一方法與傳統的全模態多模態學習(MLFM)形成對比。具體而言,在MLFM任務中,給定一個包含HHH模態的數據集,通常要求訓練模型能夠處理和融合所有HHH種模態的信息以進行預測。在訓練和測試過程中,使用來自所有HHH種模態的完整信息樣本。而在MLMM任務中,由于數據收集限制或部署環境中的約束,在訓練或測試時使用少于HHH種模態的數據。MLMM的主要挑戰在于在訓練和測試過程中動態且穩健地處理和融合任意數量的可用模態信息,同時保持與全模態樣本相當的性能。
本綜述涵蓋了MLMM的最新進展及其在信息檢索、遙感和機器人視覺等多個領域的應用。我們提供了對MLMM方法論、應用場景和相關數據集的細致分類。我們的工作擴展了現有專注于特定領域(如醫學診斷【5,151,235】、情感分析【179】和多視圖聚類【17】)的MLMM綜述。通過提供對當前研究的全面概述并識別未來工作的有前景方向,本綜述旨在為開發更穩健且適應性強的多模態學習系統做出貢獻。這些進展對于將智能系統部署在從行星探索的惡劣條件到日常生活中的動態和不可預測環境中至關重要。
本綜述的主要貢獻有三點:
我們根據四個主要維度的分類框架對現有的深度缺失模態多模態學習(MLMM)方法進行分類和討論:模態增強、特征空間工程、架構工程和模型選擇。
我們將解決缺失模態問題的模態增強方法分為兩類,針對模態層次上的原始數據。第一類是模態組成方法,該方法使用零值/隨機值、從相似實例中直接復制的數據,或通過檢索算法獲得的匹配樣本,與缺失模態樣本組合形成全模態樣本。第二類是模態生成方法,它使用生成模型(如自動編碼器(AEs)[55],生成對抗網絡(GANs)[42],或擴散模型[56])生成缺失模態的原始數據。
2.1.1 模態組成方法 當數據集中缺失模態樣本較少時,刪除這些樣本是多模態數據集預處理中的常見方法。但這種方法會減少數據集的規模,并在數據集中包含許多缺失模態樣本時導致一些稀有樣本消失。模態組成方法因其簡單有效而廣泛使用,且可以保持數據集的規模。典型方法之一是零值/隨機值組成方法,用零值/隨機值替換缺失模態數據,如圖3所示。在最近的研究中[28, 102, 114, 163],這些方法經常作為基線與提出的方法進行比較。針對缺失序列數據問題,例如視頻中的缺失幀,提出了類似的幀-零值方法[135],用零幀替換缺失幀并與可用幀組合。這些方法在典型的多模態學習訓練過程中非常常見。通過這些方法,多模態模型可以在預測時平衡和整合來自不同模態的信息,從而避免模型過度依賴一個或幾個模態,增強其魯棒性。然而,當數據集中大多數樣本都是缺失模態樣本時,這些方法難以很好地泛化。另一種組成方法基于檢索算法(圖3),通過從具有相同模態和類別的檢索樣本中復制/平均原始數據來填充缺失模態數據。一些簡便的方法會隨機選擇一個具有相同類別和所需模態的樣本,并與輸入的缺失模態組合,形成用于訓練的全模態樣本。例如,研究人員[204]提出了Modal-mixup,隨機補充缺失模態樣本來完成訓練數據集。然而,這類方法在測試階段無法解決缺失模態問題。針對視頻等流數據中的缺失幀問題,研究人員提出了使用幀重復法[135],通過使用過去的幀來補足缺失幀。一些工作[14, 41, 204]嘗試使用K近鄰(KNN)或其變體來檢索最佳匹配樣本進行組合。實驗表明,基于KNN的方法在處理測試階段的缺失模態問題時,表現優于隨機選擇等方法。但簡單的聚類方法往往存在高計算復雜度、對不平衡數據敏感及高內存開銷等問題。此外,基于檢索的模態組合方法不適用于像素級任務(如分割),僅適用于簡單任務(如分類),因為它們可能導致模型混淆。此外,上述所有方法雖然能夠完成缺失模態的數據集,但它們會降低數據集的多樣性。這對于高模態缺失率(大部分樣本都是缺失模態樣本)的數據集尤其成問題,因為這增加了過擬合到某些少量全模態樣本類別的風險。
2.1.2 模態生成方法 在缺失數據研究中,提出了各種矩陣填充方法[41],利用矩陣元素之間的潛在相關性。然而,在多模態數據集中,缺失數據通常以大塊形式出現,使得傳統方法在大規模處理和高維計算中效率低下。隨著深度學習的發展,生成缺失模態變得更加高效。當前生成缺失模態原始數據的方法分為單模態生成方法和統一模態生成方法。單模態生成方法為每個模態訓練單獨的生成模型,以應對任意缺失模態的情況,如圖5a所示。早期工作使用高斯過程[117]或玻爾茲曼機[159]從可用輸入生成缺失模態數據。隨著深度學習的發展,諸如AEs和U-Net[147]等方法被用于生成原始模態數據。Li等人[87]使用3D-CNN從磁共振成像(MRI)數據生成正電子發射斷層掃描(PET)數據。Chen等人[24]通過訓練U-Net模型,從MRI數據中生成其他兩種模態以解決MRI分割中的缺失模態問題。最近的工作[113]將AEs作為基線方法之一,通過為每個模態訓練一個AE來完成數據集。在領域自適應中,Zhang等人[220]提出了一個多模態數據生成模塊,通過領域對抗學習生成每個缺失模態,學習領域不變特征。GANs通過使用生成器創建逼真的數據,并讓鑒別器區分其與真實數據,顯著提高了圖像生成的質量。研究人員開始用GANs代替AEs和U-Nets生成缺失模態。例如,GANs通過現有模態的潛在表示生成缺失模態的原始數據,在乳腺癌預測中得到了應用[3],而WGANs則應用于情感分析[184]。在遙感領域,Bischke等人[8]使用GANs生成深度數據,改善了RGB模型的分割性能。GANs還用于機器人識別中生成RGB和深度圖像[45]。最近的研究[113]表明,GANs在生成更真實的缺失模態時表現優于AEs,并能帶來更好的下游任務模型性能。最近,擴散模型的引入進一步提高了圖像生成質量。Wang等人提出了IMDer方法[190],利用可用模態作為條件,幫助擴散模型生成缺失模態。實驗表明,擴散模型減少了恢復模態與缺失模態之間的語義模糊性,并且在泛化性能方面優于以往的方法。然而,為每個模態訓練一個單獨的生成器效率低下,且無法捕捉模態之間的潛在相關性。研究人員開發了另一種生成方法,即統一模態生成方法,訓練一個統一模型可以同時生成所有模態(圖5b)。代表性模型之一是Cascade AE[174],通過堆疊AEs來捕捉缺失模態與現有模態之間的差異,從而生成所有缺失模態。最近的研究人員,如Zhang等人[221],嘗試使用注意力機制和最大池化層來整合現有模態的特征,使得模態特定的解碼器能夠生成每個缺失模態。實驗表明,該方法比僅使用最大池化[19]來整合多個模態特征生成缺失模態更加有效。盡管上述方法在一定程度上能夠緩解性能下降的問題,但訓練能夠生成高質量、類似真實世界分布的缺失模態的生成器仍然具有挑戰性,尤其是在訓練數據集中包含較少全模態樣本的情況下。此外,模態生成模型顯著增加了存儲需求。隨著模態數量的增加,這些生成模型的復雜性也隨之增加,進一步增加了訓練過程和資源需求的復雜性。
以下介紹在特征空間層次解決缺失模態問題的方法。首先,我們介紹兩種基于約束的方法,通過施加特定約束來增強更具辨別力和魯棒性的表示學習(圖6)。一種方法是通過正則化來提高學習表示的有效性和泛化能力。另一種方法側重于最大化相關性,使用特定的度量來加強特征之間的關系。接下來,表示組成方法可以借鑒2.1.1節討論的解決方案,在模態的特征層次上操作,或使用算術運算來處理動態數量的模態。最后,我們介紹表示生成方法,該方法能夠生成缺失模態的特征表示。
與上述生成模態或模態表示的方法不同,一些研究人員通過調整模型架構來適應缺失模態的情況。根據其在處理缺失模態中的核心貢獻,我們將其分為四類:基于注意力的方法、基于蒸餾的方法、基于圖學習的方法和多模態大語言模型(MLLMs)。
模型選擇方法旨在使用一個或多個選定的模型進行下游任務,同時增強其魯棒性和性能。這些方法可以分為集成方法、專用方法和離散調度方法。集成方法通過投票、加權平均等方式組合多個選定模型的預測結果,以提高最終決策的準確性和穩定性。專用方法則為不同的子任務(如不同的缺失模態情況)分配專門的個體模型,專注于特定的子任務或子數據集。在離散調度方法中,用戶可以使用自然語言指令讓大型語言模型(LLMs)根據模態類型和下游任務自主選擇合適的模型。
在過去十年中,基于深度學習的多模態學習經歷了爆炸式增長,在學術界和工業界得到了廣泛應用。與這些應用相伴的是各種形式的多模態數據集的出現。然而,此類數據集的收集往往需要大量人力和成本。在某些特定的應用方向上,諸如用戶隱私問題、數據收集設備的傳感器故障等因素,可能導致數據集中存在缺失模態。在嚴重的情況下,多達90%的樣本可能存在缺失模態問題,使得傳統的全模態多模態學習(MLFM)在模型訓練時難以取得良好的性能。這催生了缺失模態多模態學習(MLMM)的任務。由于導致數據集不完整的因素通常來自不同的應用方向,下面我們根據這些應用方向介紹相應的數據集:情感分析、醫療診斷、檢索/描述、遙感、機器人視覺等。我們還根據應用和數據類型在表3中對這些數據集進行了分類。
在本綜述中,我們首次對缺失模態的深度多模態學習進行了全面回顧。我們首先簡要介紹了缺失模態問題的歷史發展及其在現實世界中的重要性原因。隨后,我們從兩個角度對該領域的當前進展進行了細致的分類和總結:方法論、應用與數據集。最后,我們討論了該領域現存的挑戰和未來可能的發展方向。盡管越來越多的研究人員參與到缺失模態問題的研究中,我們也關注到一些亟待解決的緊迫問題,例如統一的測試基準(如多模態大語言模型)以及更廣泛的應用需求(如自然科學)。通過我們的全面且詳細的綜述,我們希望能夠激勵更多的研究人員探索缺失模態的深度多模態學習技術,最終為開發出魯棒且高性能的AI系統做出貢獻。
偏好調整是將深度生成模型與人類偏好對齊的關鍵過程。本文對偏好調整及其與人類反饋的整合的最新進展進行了全面綜述。文章分為三個主要部分:
介紹和預備知識:介紹強化學習框架、偏好調整任務、模型和跨不同模態(語言、語音、視覺)的數據集,以及不同的策略方法;
深入分析每種偏好調整方法:詳細分析偏好調整中使用的方法;
應用、討論與未來方向:探討偏好調整在下游任務中的應用,包括不同模態的評估方法,以及未來研究方向的展望。
我們的目標是展示偏好調整與模型對齊的最新方法,提升研究人員和從業者對該領域的理解。我們希望能夠激勵更多人參與并推動這一領域的創新。 關鍵詞:偏好調整、人類偏好、強化學習、多模態、多語言、大型語言模型、視覺語言模型、語音語言模型、生成模型、綜述、DPO、RLHF。
1 引言
從人類反饋中學習是將生成模型與人類偏好對齊的重要步驟,旨在生成與人類語言和寫作相似的輸出。盡管生成模型在自監督學習中的學習能力強大,但這些模型經常誤解指令,導致生成出現幻覺 (Ji 等, 2023a; Yao 等, 2023a)。此外,確保生成內容的安全性仍是這些模型面臨的重大挑戰。關于使用人類反饋進行偏好調整的廣泛研究表明,對抗樣本可以用來破解系統 (Rando 和 Tram`er, 2023; Wei 等, 2024)。理想情況下,生成模型需要受到控制,以確保其輸出是安全的并且不會造成傷害。模型通常會表現出意外行為,例如編造事實 (Chen 和 Shu, 2023; Sun 等, 2024),生成帶有偏見或有害的文本 (Hartvigsen 等, 2022),或未能遵循用戶指令 (Ji 等, 2023b; Tonmoy 等, 2024)。此外,數據隱私的保護至關重要,以確保模型的安全運行并保護用戶隱私 (Brown 等, 2022)。在文本到圖像生成任務中,大規模模型常常難以生成與文本提示緊密對齊的圖像 (Feng 等, 2022),尤其是在組合圖像生成 (Liu 等, 2022; Lee 等, 2023) 和連貫生成方面 (Liu 等, 2023a)。同樣,在文本到語音任務中,Zhang 等 (2024a) 和 Chen 等 (2024a) 將主觀人類評價整合到訓練循環中,以更好地使合成語音符合人類偏好。 偏好調整已廣泛應用于語言任務,通過訓練指令調整的大型語言模型(LLM)來實現,例如 Llama (Touvron 等, 2023b; Dubey 等, 2024),Phi (Abdin 等, 2024),Mistral (Jiang 等, 2023a),Nemotron (Parmar 等, 2024; Adler 等, 2024),Gemma (Team 等, 2024)。諸如 GPT-4 (Achiam 等, 2023),Gemini (Team 等, 2023; Reid 等, 2024),Claude (Anthropic, 2024),Command-R 和 Reka (Ormazabal 等, 2024) 等商業模型也利用了人類偏好對齊來提升其性能。LLM 的對齊提高了任務特定技能、連貫性、流暢性,并有助于避免不期望的輸出。此外,多語言 LLM 的對齊研究也有所裨益,例如 Aya (Aryabumi 等, 2024; Ust¨un 等, 2024),BLOOMZ 和 mT0 (Muennighoff 等, 2023),以及區域性 LLM 如 Cendol (Cahyawijaya 等, 2024) 和 SEALLM (Nguyen 等, 2023)。實現 LLM 對齊的常見方法包括使用強化學習技術,通過最大化獎勵來引導語言模型遵循偏好樣本。通過人類反饋的強化學習(RLHF)(Christiano 等, 2017) 是最早用于使模型與人類偏好對齊的方法,進一步應用于深度學習領域,并通過其在 LLM 中的成功(Ouyang 等, 2022;Bai 等, 2022a)得到普及,采用了 PPO (Schulman 等, 2017),REINFORCE (Kool 等, 2019),在線定向偏好優化 (Guo 等, 2024a) 和監督微調 (SFT)-類方法 (Dong 等, 2023)。它通常包括三個關鍵方面:人類反饋收集、獎勵建模和在線 RL 進行策略優化。然而,最近的方法允許在離線方式下與策略模型一起訓練獎勵模型,正如 DPO (Rafailov 等, 2024) 所展示的那樣,并通過離線和在線策略的聯合訓練 (Zhao 等, 2023) 進行優化。此外,偏好調整還應用于視覺文本任務,已被證明能夠通過圖像和文本嵌入的對齊分數(使用預訓練的視覺文本模型,如 CLIP (Radford 等, 2021) 和 CoCa (Yu 等, 2022a) 進行衡量)來改善圖像和文本的表示 (Ramesh 等, 2022;Saharia 等, 2022;Yu 等, 2022b)。Wu 等 (2023c) 使用 LoRA (Hu 等, 2021) 對齊 Stable Diffusion (Lee 等, 2023),這是一種視覺文本預訓練模型。關于語音的應用尚未被廣泛探索,相關文獻中僅有少量工作。Zhang 等 (2024a) 研究了代碼與文本之間的對齊。
本文對不同模態下的人類反饋偏好調整的最新進展進行了綜述。它不僅提供了一個全面的介紹,包括相關基礎知識以幫助讀者熟悉這一主題,還對最新提出的方法進行了深入回顧和討論。總結來說,本文包括以下貢獻: * 我們對語言、語音和視覺任務等不同模態的模型的偏好調整進行了全面概述,并擴展到所有現有的偏好調整方法,包括強化學習(RL)方法。 * 我們從現有文獻中整理并系統化了偏好調整的框架和分類。 * 我們展示了偏好調整在使用人類反饋改善生成方面的各種應用,并描述了用于評估深度生成模型質量的自動和基于人類的評估方法。 * 我們討論了偏好調整的機會和未來研究方向。
通過這篇綜述,我們旨在展示偏好調整和生成模型對齊的最新方法,使研究人員和從業者能夠更好地理解這一主題并進一步創新。
分類法
我們為所有偏好調整方法定義了以下類別,如表 2 所示。圖 1 展示了我們在本綜述文章中研究的五個類別,并描述如下:
采樣
類似于強化學習(RL)文獻,我們根據如何采樣數據并使用它們進行訓練或獲取獎勵對方法進行分類:離線和在線的人類對齊。這一分類與我們如何計算獎勵并將其用于策略模型有關。在在線人類對齊設置中,智能體通過與環境交互收集一批樣本,并使用它們更新策略。這些樣本的獎勵可以通過獎勵模型收集,或由策略模型生成的樣本獲得。而在離線人類對齊設置中,數據來自于離線的人類演示。對于在線方法,我們還將這些方法分類為同策略(行為策略與優化策略相同)或異策略(行為策略與優化策略不同)。
模態
我們研究了偏好調整在不同模態中的使用,例如文本、語音、視覺、運動覺等。如果我們無法對其進行分類,則歸為“其他”。在自然語言處理(NLP)的最新進展中,強化學習的理念已進一步擴展到語言和語音任務,甚至跨模態任務(如視覺-文本)。因此,按研究的模態(例如文本、語音、視覺、視覺-文本)對論文進行分類是非常重要的。
語言
我們探索了偏好調整在不同語言中的應用。在這種情況下,我們將方法分類為英語、非英語和多語言。
獎勵粒度
在偏好調整中,獎勵可以在不同的粒度水平上計算。粒度水平可擴展為兩類:樣本級和標記級。每種模態的標記級可能不同,例如在文本任務中,我們可以使用詞匯中的子詞作為標記;在視覺任務中,圖像的片段可以作為標記。
偏好調整
在本節中,我們介紹了用于訓練偏好調整生成模型的通用框架。如表 3 所示,偏好調整的訓練框架通常從**監督微調(SFT)**階段開始,在此期間,生成模型通過下一個標記預測任務進行訓練,或者使用經過指令微調的模型作為基礎初始化模型。SFT 的重點在于提升模型生成標記的能力,因為它引導模型如何響應輸入提示。當模型能夠正確生成流暢的文本序列后,通過強化學習(RL)進一步進行策略優化,使模型與偏好目標對齊。對齊的目的是引導模型根據偏好目標以適當的方式回答問題。這一步是確保模型生成與人類偏好一致的必要訓練階段,因此模型的行為會更接近人類的表現。值得注意的是,人類對齊階段也可以與 SFT 進行聯合訓練。
近年來,大型語言模型(LLM)的突破性進展提供了前所未有的自然語言理解和生成能力。然而,現有關于生物醫學領域LLM的綜述通常側重于特定應用或模型架構,缺乏對跨越多個生物醫學領域的最新進展的綜合分析。本綜述基于對來自PubMed、Web of Science和arXiv等數據庫的484篇文獻的分析,深入探討了LLM在生物醫學中的現狀、應用、挑戰及未來前景,其獨特之處在于關注這些模型在實際生物醫學環境中的應用效果。
首先,我們探討了LLM在廣泛的生物醫學任務中的零樣本學習能力,包括診斷輔助、藥物發現和個性化醫療等領域,并結合137項關鍵研究提供了深入見解。接著,我們討論了LLM的適應策略,包括通過微調方法增強單模態和多模態LLM在特定生物醫學背景下的表現,特別是在零樣本學習效果不佳的領域,如醫學問答和生物醫學文獻的高效處理。最后,我們分析了LLM在生物醫學領域面臨的挑戰,包括數據隱私問題、模型可解釋性有限、數據集質量問題,以及由于生物醫學數據的敏感性而帶來的倫理問題、對高度可靠模型輸出的需求,以及將人工智能應用于醫療領域的倫理影響。
為應對這些挑戰,我們還提出了LLM在生物醫學領域未來的研究方向,包括通過聯邦學習方法來保護數據隱私,以及整合可解釋的AI方法來提高LLM的透明度。隨著LLM領域的快速發展,持續的研究與開發對于充分利用LLM在生物醫學中的能力,同時確保其負責任且有效的部署至關重要。
通用大型語言模型(LLM),如PaLM [1]、LLaMA [2, 3]以及GPT系列[4, 5],展示了其在廣泛任務中的多功能性。這些模型在復雜的語言理解和生成任務中表現出色,包括翻譯、摘要和細致的問題回答[6]。LLM能力的進步主要得益于深度學習算法的演進,特別是Transformer架構的引入及其后續優化[7]。隨著LLM的不斷成熟,其在各個領域的潛在應用日益顯現,生物醫學領域成為一個特別有前途的影響領域。圖1展示了從2019年到2024年LLM及其變體在生物醫學應用中的時間線,這一時間線說明了單模態和多模態LLM的快速發展。 生物醫學LLM的顯著成就展示了其廣泛和深遠的影響。例如,MedPaLM [8]在提供詳細的醫學答案和達成科學共識方面與臨床專家達到了92.9%的一致性。在基因組學領域,scBERT [9]通過改進的Performer架構為每個基因生成嵌入,增強了單細胞基因組數據的分析。像HuatuoGPT [10]、ChatDoctor [11]和BenTsao [12]這樣的領域特定LLM的開發展示了其在可靠醫學對話中的能力,顯示了LLM在臨床交流和決策支持中的潛力。從主要以單模態LLM為主的進展到越來越多的多模態LLM方法,反映了LLM在解決復雜生物醫學挑戰中的日益適應性。這種轉變使得不同數據類型(如文本、圖像和結構化臨床數據)的整合成為可能。 大型語言模型(LLM)在生物醫學領域研究的快速增長和多樣化進一步通過圖2中的趨勢得到了證實。對2018年至2024年生物醫學領域LLM研究論文的時間分析表明,相關文獻的數量逐年增加,并在2021年開始激增(圖2a)。這一趨勢表明人們對將LLM應用于生物醫學挑戰的興趣和投入正在不斷增加,反映了技術進步以及LLM在滿足醫療保健和科研需求方面潛力的認可。這些研究論文在不同生物醫學領域的分布顯示,“醫學”和“神經科學”是主要的研究重點領域(圖2b)。這一分布表明LLM在不同醫學專業和研究領域的廣泛適用性,同時也指出了未來擴展和發展的潛在領域。
生物醫學領域涵蓋了從基礎生物學研究到復雜臨床應用的廣泛學科,每個學科都有其專業術語和不斷發展的知識體系[13]。這一廣度和深度為LLM在生物醫學中的應用帶來了挑戰。新研究成果、治療方式和藥物發展的不斷涌現要求模型能夠快速適應和整合新信息[14]。此外,生物醫學應用的高風險性質要求LLM在準確性和可靠性方面達到極高標準,而這一標準目前的模型尚未始終如一地滿足[15, 16]。這一缺陷源于許多LLM的通用特性,當面對生物醫學文本中復雜且依賴于上下文的語言時,模型可能會產生誤解和推斷偏差[17]。同時,生物醫學領域對敏感患者數據的依賴增加了實施難度,要求嚴格遵守數據保護和隱私法規,這給技術和倫理帶來了雙重挑戰[18]。
盡管面臨這些障礙,LLM在生物醫學領域的應用潛力仍然值得期待。像BioMedLM [19]這樣的模型展示了加速科學洞察獲取的能力,而BianQue [20]和DISC-MedLLM [21]等方法在患者咨詢過程中提供醫學建議,可能有助于減輕臨床工作負擔。然而,這些應用的廣泛采用依賴于LLM的專門訓練和優化,以提高其在生物醫學背景下的可靠性和專業性。
雖然已有若干綜述探討了LLM在生物醫學中的應用,但我們的綜述因其全面性和跨學科方法而與眾不同。與以往通常專注于特定應用或模型架構的綜述不同,我們深入分析了LLM在各個生物醫學領域的應用,從基因組學到臨床實踐。涵蓋2019年至2024年的發展,我們提供了對最新進展和未來趨勢的洞察,包括單模態和多模態LLM方法。本綜述基于對來自多個數據庫的484篇文獻的分析,全面考察了LLM在生物醫學領域的現狀、應用、挑戰及前景。我們評估了LLM在不同生物醫學任務中的零樣本性能,分析了單模態和多模態方法的適應策略,并指出了LLM在生物醫學應用中面臨的具體挑戰,提出了潛在的解決方案。通過探索LLM對醫療實踐、生物醫學研究和醫療系統的潛在影響,我們的目標是為研究人員、醫療專業人員和政策制定者提供清晰的路線圖,以便理解和利用LLM在生物醫學中的應用,促進明智決策并指導未來的研究工作。
通過廣泛的預訓練和微調,LLM能夠學習并捕捉語言中的復雜模式和語義關系。在以下章節中,我們將詳細介紹LLM的核心結構、常見的模型架構以及微調技術。LLM的設計通常依賴于Transformer架構,并可分為三種主要類型:僅編碼器、僅解碼器和編碼器-解碼器[22]。每種架構都有其獨特的優勢,適用于不同類型的任務。
僅編碼器模型側重于理解和表示輸入文本[23]。這些模型特別擅長需要深度上下文理解的任務,如文本分類、命名實體識別和情感分析。雙向編碼器表示(BERT)[23]是該架構的一個例子。BERT的關鍵創新在于其雙向特性,能夠捕捉句子中每個詞的左側和右側上下文。這種雙向編碼相比于以前的單向模型提供了更豐富的文本表示。BERT通過“掩碼語言模型”的預訓練目標實現這一點,模型學習預測句子中隨機掩碼的詞,從而迫使其考慮完整的上下文。另一個值得注意的僅編碼器模型是對比語言-圖像預訓練(CLIP)模型[24]。CLIP擴展了編碼器架構到多模態學習,整合了文本和圖像輸入。通過使用對比學習,CLIP學習在共享的嵌入空間中對齊文本和視覺表示。僅編碼器模型在專業科學領域,尤其是生物醫學領域,取得了顯著的進展。值得注意的例子包括scBERT[9],它生成精細的基因嵌入以處理生物醫學數據,在基因組分析中表現出色。另一個重要的模型是專為生物醫學文本挖掘設計的BioBERT[25],增強了科學文獻中的命名實體識別和關系抽取任務。這些專門的適應性展示了僅編碼器模型在應對復雜生物醫學挑戰中的多樣性。
僅解碼器模型用于生成任務,按從左到右的順序生成輸出序列。這些模型在文本生成、對話系統和創意寫作應用中表現出色。生成式預訓練Transformer(GPT)系列,以最新的GPT-4為代表,展示了這種架構[4, 5],它通過單向解碼器結構,根據前面的上下文預測每個詞元。此方法允許生成連貫且上下文相關的文本。GPT模型在龐大的文本語料庫上進行訓練,使其能夠捕捉復雜的語言模式并在各個領域生成類似人類的文本。其他值得注意的僅解碼器模型包括LLaMA[2]和PaLM[1]。這些模型優化了解碼器架構以提高效率和可擴展性。例如,LLaMA以更少的參數表現出強大的性能,而PaLM則展示了在各種自然語言處理基準上改進的多任務學習能力。僅解碼器架構也被擴展到多模態應用。例如,DALL·E[26]使用解碼器根據文本描述生成圖像。在生物醫學領域,僅解碼器模型已顯示出有希望的應用。例如,它們已被用于醫學報告生成和藥物發現任務,如BioGPT[27]、CancerGPT[28]和Med-PaLM[29]。
編碼器-解碼器架構,也稱為序列到序列(seq2seq)模型,結合了編碼器和解碼器組件的優勢。該設計適用于將一個序列轉換為另一個序列的任務,如機器翻譯、文本摘要和問答。在這種架構中,編碼器處理輸入序列并將其壓縮為潛在表示。解碼器則利用這種表示生成目標序列[30]。這種編碼與解碼的分離使模型能夠有效處理長度和結構不同的輸入和輸出序列。編碼器-解碼器模型的兩個例子是文本到文本轉換Transformer(T5)[31]和雙向自回歸Transformer(BART)[32]。T5采用了統一的方法,將所有NLP任務框定為文本到文本問題,展示了出色的多任務處理能力。而BART則將BERT編碼器的雙向特性與GPT解碼器的自回歸生成結合起來,使其在文本生成和修復任務中表現尤為出色。在生物醫學應用中,編碼器-解碼器模型顯示了巨大的潛力。例如,BioBART[33]被用于生物醫學文本生成和摘要任務。另一個顯著的例子是GeneCompass[34],一個用于解讀基因調控機制的跨物種大型語言模型。這些應用展示了該架構在應對復雜生物醫學挑戰中的多功能性,從文本處理到解開不同物種間基因調控的復雜性。
通用LLM的潛力引起了生物醫學領域的廣泛興趣。圖3a展示了評估不同LLM在零樣本生物醫學任務中的研究分布。GPT-4和GPT-3.5是研究最多的模型,分別有36篇和35篇研究,其次是ChatGPT,共有19篇研究。這一分布表明了當前生物醫學研究對OpenAI模型的關注,且不同模型之間的重疊研究趨勢表明對比分析的傾向。盡管這些LLM在各個領域表現出色,但它們在解決生物醫學領域獨特挑戰方面的有效性仍不確定。生物醫學術語的專業性和整合特定臨床背景的必要性為這些LLM提出了挑戰。為了解決這一問題,許多研究直接探討了通用LLM在生物醫學各學科中的應用,重點研究了它們在臨床診斷、決策支持、藥物開發、基因組學、個性化醫學和生物醫學文獻分析等領域的表現[15, 35, 36]。
診斷輔助是一項涵蓋臨床診斷和決策支持的生物醫學技術[37]。它分析患者的臨床數據和癥狀,結合醫學知識與算法處理,提供幫助醫生進行疾病診斷和治療決策的建議[38]。其目標是提高診斷的準確性和效率,幫助醫生更好地了解患者的情況并制定個性化的治療計劃。為了評估通用LLM在生物醫學診斷中的零樣本能力,研究人員設計了一系列跨多個專業的問題。研究評估了LLM在腫瘤學[39, 40]、急診醫學[41]、眼科[42, 43]和護理學[44]等領域的表現,結果表明LLM在這些領域的診斷任務中可以達到與人類專家相當的準確度。Ward等人[45]對LLM在神經外科情景中的表現進行了對比研究。他們創建了30個具有共識要點的臨床情景,邀請不同經驗水平的醫生對診斷問題作答。結果顯示,GPT-4在分診和診斷方面達到了100%的準確率,而GPT-3.5的準確率為92.59%。這些結果突顯了GPT-4的卓越診斷準確性,表明其在臨床決策中具有作為可靠工具的潛力。在腫瘤學領域,Deng等人[46]發現GPT-4在乳腺癌臨床情景中的分診和診斷中達到了100%的準確率,與高級醫學專家的表現高度一致。同樣,Haver等人[39]展示了GPT-4在神經外科中的有效性,診斷和分診神經外科病例的準確率為100%,并且敏感性和特異性都達到了完美水平。這些發現表明,GPT-4在多個醫學領域中作為可靠臨床決策工具的潛力日益增長。
生物醫學科學是一個跨學科領域,涵蓋了藥物開發、基因組學和蛋白質研究等多個領域[47, 48]。它結合了工程學、生物學和醫學,利用先進的生物技術手段研究疾病的預防、診斷和治療[49]。通過探索生命過程的分子機制,該領域旨在開發新的生物醫學方法和藥物,以提高人類健康和疾病管理。例如,一項研究利用LLM進行候選基因優先排序和選擇,顯著提高了識別潛在基因-疾病關聯的效率。該方法利用先進的自然語言處理技術分析大量基因和生物醫學數據,最終優先選擇了與特定疾病高度相關的基因[50]。在另一項研究中,BERT被用于識別整個PubMed數據庫中的藥物-靶點相互作用,達到了99%的準確率,并識別出60萬篇包含相關數據的新文章[51]。此外,Hou等人[52]利用GPT-4對單細胞RNA-seq分析中的細胞類型進行注釋,結果顯示GPT-4能夠使用標記基因信息準確注釋細胞類型。在大多數研究和組織中,該方法與人工注釋的符合率超過了75%,展示了其減少細胞類型注釋所需的人力和專業知識的潛力。這些進展總體上表明,AI驅動的模型具有改變生物醫學研究的潛力,提供了更精確和高效的工具來理解疾病并開發治療方法。
LLM在通過在線醫學咨詢普及醫學知識方面也展示了潛力[40, 53-55]。這一能力確保了生物醫學信息的廣泛獲取,并允許根據個人狀況進行個性化定制,這對遠程醫療有著深遠的影響[15, 56]。然而,使用LLM開發個性化治療方案需要嚴格遵守醫學倫理和患者隱私的規定。確保所有數據的收集、存儲和使用符合法律法規和倫理標準是至關重要的。Ferrario等人[57]評估了GPT-4在應對各種醫學倫理案例中的表現。研究結果表明,雖然GPT-4能夠識別和表達復雜的醫學倫理問題,但它在更深入編碼現實倫理困境方面仍需改進。Sandmann等人[58]對LLM在臨床決策中的表現進行了評估。他們使用ChatGPT、LLaMA和一個樸素基線模型,對不同臨床學科的110個病例的初步診斷、檢查步驟和治療進行了臨床準確性評估。結果表明,GPT-4在測試模型中表現最佳。更重要的是,這項研究表明,開源LLM可能是解決個性化醫學應用中數據隱私問題的可行方案。
LLM與生物醫學研究和寫作的結合提高了研究效率、公正性和可訪問性[59]。這種協同作用使專家和研究人員能夠更有效地獲取、理解和應用最新的生物醫學信息,從而提高研究生產力。LLM已在生物醫學文獻的多個關鍵領域展示了效用,包括文獻檢索、大綱準備、摘要寫作和翻譯任務。Mojadeddi等人[60]評估了ChatGPT在文章寫作中的表現。研究結果表明,雖然ChatGPT可以加快寫作過程,但尚未達到專業生物醫學寫作者的水平,仍存在一定的局限性。這凸顯了進一步研究AI在科學寫作能力方面的必要性。Huespe[61]評估了GPT-3.5撰寫重癥監護臨床研究問題背景部分的能力。在這項研究中,邀請了80位研究人員區分人工撰寫內容與LLM生成內容。結果表明,GPT-3.5在這一特定任務中的寫作能力與生物醫學研究人員相當。
在評估LLM對生物醫學問題的表現時,使用了多種基準數據集。表1展示了近期研究中使用的基準數據集。這些數據集涵蓋了從基本文本響應到復雜多模態數據的廣泛任務。文本數據集如MedSTS[62]、PubMedQA[63]和MedQA[64]專注于評估LLM在語義相似性、問答和內容摘要等生物醫學任務中的表現。專門的數據集如GenBank[65]測試LLM處理基因組序列的能力,這對于基因組學和個性化醫學中的應用至關重要。多模態基準如MultiMedBench[66]挑戰LLM整合和解釋來自多個來源的數據,如醫學圖像和隨附的文本描述,反映了醫學診斷的復雜性。用于評估模型在不同任務中表現的常用指標包括準確率、BLEU-1、F1評分和ROUGE-L[65, 67, 68]。在評估LLM在生物醫學對話場景中的表現時,開發了專業性、流暢性和安全性等特定指標,以捕捉生物醫學交流的細微要求[69-71]。
我們的分析表明,未經專門訓練的LLM在沒有太多上下文提示的情況下,可以展示對生物醫學術語和概念的基本理解。然而,它們在不同生物醫學學科和任務中的表現有所不同。圖3b提供了LLM在不同生物醫學專業水平中的相對表現的寶貴見解。小提琴圖表明,雖然LLM在所有專業水平上總體表現高于基線,但其表現最為一致的是中級水平。在高級和專家級水平上,表現的波動性更大,表明LLM在處理需要高級專業知識的復雜任務時可能會遇到困難[59]。不同生物醫學學科的評估結果突顯了LLM在零樣本生物醫學應用中的潛力和局限性[45, 77, 78]。在某些特定的生物醫學領域,LLM的表現可與經驗豐富的醫生相媲美。然而,在需要深入生物醫學知識和臨床推理的更專業的上下文或復雜任務中,LLM可能表現出不足或完全失效。在大多數生物醫學應用場景中,LLM的零樣本表現尚不足以滿足直接臨床應用的要求,尤其是在罕見病診斷或復雜外科規劃等極具挑戰性的任務中[79, 80]。這些發現強調了在將LLM直接應用于復雜的生物醫學任務時需要謹慎,除非進行微調或重新訓練。盡管LLM在生物醫學領域的前景令人期待,但在生物醫學應用中的局限性必須得到考慮,并謹慎定義其在倫理和臨床決策過程中的角色。
當通用大型語言模型(LLM)以零樣本方式應用于生物醫學領域時,往往會遇到各種挑戰,主要原因在于該領域的高度專業化。生物醫學領域使用獨特的詞匯、命名法和概念框架,通用LLM可能無法理解這些內容[113]。這種特異性不僅限于術語,還包括生物實體之間的復雜關系、復雜的疾病機制以及細微的臨床背景。此外,生物醫學領域涵蓋了多樣化的任務,從文獻分析和臨床筆記解讀到支持診斷決策和藥物發現過程。這種多樣性要求LLM能夠執行廣泛的專業功能,每項任務都需要領域特定的知識和推理能力[114, 115]。此外,生物醫學研究越來越依賴多模態數據的整合,這些數據類型包括文本、圖像(如放射學掃描、組織學切片)和分子序列(如DNA、蛋白質結構)[116, 117]。有效處理和綜合這些不同來源的信息對LLM提出了額外的挑戰。為了應對這些挑戰并提高通用LLM在生物醫學應用中的適用性,已經開發了幾種適應策略。這些策略包括領域特定的微調、架構修改以及從頭開始創建專門的生物醫學LLM。圖4展示了適應或創建LLM用于生物醫學應用的過程,概述了從數據預處理和整理到模型訓練、微調和評估的關鍵階段。適應過程涉及整理高質量的、領域特定的數據集,以捕捉生物醫學語言和知識的細微差別。然后,使用這些數據集對現有LLM進行微調或訓練新模型,結合在生物醫學語料庫上繼續預訓練、任務特定微調和多任務學習等技術,以提高在各種生物醫學任務中的表現[12, 88]。通過這些努力,出現了多種專門針對生物醫學研究和臨床實踐的LLM模型。表2提供了這些微調和定制模型的概述,展示了它們在生物醫學領域內的多樣性和專業性。
為了將通用LLM適應生物醫學領域,微調可以使模型深入理解該領域的專業術語、復雜概念和語言習慣。這增強了它們在處理生物醫學文本等專業數據時提供更準確和深入分析與生成的能力。微調方法包括全參數微調、指令微調、參數高效微調和混合微調。
全參數微調
全參數微調涉及使用領域特定的數據更新預訓練LLM的所有參數。與傳統的微調方法(如僅微調頂層)不同,全參數微調允許模型的每一層都學習任務特定的知識。例如,GatorTron[81]是一種在臨床數據上微調的模型,在醫學問答中達到了93.01%的F1分數,超過了之前的基準7.77%。盡管全參數微調通常可以帶來最佳表現,但它也伴隨著高昂的計算成本。例如,微調GatorTronGPT-20M[17]耗費了超過268,800 GPU小時(使用A100 GPU),這使得資源受限的環境難以承擔。
指令微調
指令微調(IFT)是一種通過修改預訓練模型的基礎指令來優化其在生物醫學領域特定任務或領域中的適應性的技術[118]。這一方法在提高模型在專門醫學任務上的表現方面顯示出了良好的效果。例如,MEDITRON[96]是一種在LLaMA-2上使用IFT微調的模型,在多個醫學基準測試中平均表現提高了1.8%。同樣,AlpaCare[100]利用了精心整理的52,000條醫學指令,在HeadQA基準測試中實現了30.4%的性能提升,展示了精心設計的指令集在提升模型能力方面的潛力。IFT的主要優勢在于,它能夠使用相對較少的數據將模型適應特定的生物醫學領域。然而,IFT的有效性在很大程度上依賴于所用指令的質量和多樣性。設計不良或有偏見的指令可能導致模型行為不一致或不可靠,從而在關鍵的醫學應用中削弱模型的實用性。
參數高效微調
參數高效微調(PEFT)包括一組旨在通過調整模型的少部分參數來提高LLM性能和訓練效率的技術[119]。兩個顯著的PEFT方法是LoRA(低秩適應)[120]和QLoRA(量化LoRA)[121],通過向模型添加可訓練的小矩陣來實現任務特定的適應,而不修改整個模型架構。PEFT方法的效率令人矚目,通常可以減少99%以上的可訓練參數,同時保持與全微調相當的性能。例如,MMedLM 2[68]使用LoRA在多語言醫學問答任務中取得了競爭性的表現,同時只微調了模型參數的一小部分。這種方法減少了計算需求,使得在資源有限的環境(如小型醫院或研究實驗室)中部署定制的醫療AI模型成為可能。然而,當任務需要對基礎模型知識進行大量修改時,PEFT方法可能會面臨局限,因為它們主要側重于適應現有知識,而不是引入全新的信息。這一限制可能會影響其在高度專業化或快速發展的生物醫學領域中的有效性。
混合微調
混合微調是一種結合多種參數高效調優技術以提高模型性能和訓練效率,同時盡量減少額外參數引入的方法。例如,HuatuoGPT[10]通過監督微調和RLAIF[122],在GPT-4評估、人類評估和醫學基準數據集上表現出了在開源LLM中執行醫療咨詢的最新成果。混合微調策略在性能和效率之間提供了平衡,解決了單一技術的一些局限性。它們允許模型更靈活地適應醫療AI的獨特挑戰,如既需要廣泛的醫學知識,又需要專業的醫學知識。然而,這些方法通常需要更復雜的實現和多個組件的精細調優。
多模態LLM可以整合不同的數據類型,從而提供全面的見解。該模型的核心優勢在于能夠融合來自不同模態的信息,包括文本、圖像、基因序列和蛋白質結構。這種融合不僅彌合了跨學科的差距,還反映了醫療診斷和研究的多面性[123]。在臨床環境中,患者評估通常涉及多種數據類型,包括文本信息(如醫療報告)、視覺數據(如X光和MRI)以及數值測量(如實驗室結果和生命體征)。多模態LLM旨在整合這些不同來源的數據,以提供更準確和全面的生物醫學見解。例如,通過將醫學影像與臨床文本報告和其他相關數據結合,這些模型可以提高診斷的準確性和穩健性[124]。此外,多模態模型還可以促進基因組數據與表型信息的整合,從而更全面地研究疾病機制并發現新藥物[112]。 微調策略在生物醫學多模態模型的應用中發揮了關鍵作用,確保這些模型能夠充分理解和處理跨模態數據。這些策略包括通過LoRA[120]和層歸一化[125]技術優化視覺編碼器。此類優化旨在增強模型解讀醫學圖像中關鍵特征的能力。同時,這些策略整合了視覺和文本輸入,利用注意力機制和多層感知器(MLP)層增強模型在生成放射學報告中的能力,例如ClinicalBLIP[110]模型。具體而言,ClinicalBLIP在使用MIMIC-CXR[126]數據集的放射學報告生成任務中表現優異,通過這些微調策略獲得了0.534的METEOR評分[127],顯著超越了其他模型的表現,突出展示了ClinicalBLIP在處理復雜多模態數據方面的卓越能力。同樣,Med-Gemini[111]采用了構建聯合嵌入空間的策略,能夠在統一的潛在空間內直接比較和整合來自不同模態的數據。這一策略在復雜的醫療任務中表現出色,特別是在癌癥診斷方面,整合基因組數據和病理圖像顯著提高了診斷準確性。這些微調策略通過優化模型在生物醫學多模態任務中的表現,展示了多模態模型在醫學領域應用的巨大潛力。此外,它們強調了微調在提高模型泛化能力和任務適應性中的關鍵作用。
將通用LLM適應生物醫學領域的關鍵在于數據的質量、多樣性和處理方式。本小節將探討開發和改進生物醫學LLM時使用的關鍵數據集和有效策略。 4.3.1 數據集概述
用于LLM訓練和評估的生物醫學數據集主要分為三類:基于文本、基于圖像和多模態。表3總結了最近研究中使用的數據集。基于文本的數據集如PubMed,在訓練模型如BioGPT[27]中起到了重要作用。同樣,包含超過40,000名患者去識別健康記錄的MIMIC-III數據集為GatorTron[81]等模型提供了學習真實世界臨床數據的機會。多模態數據集整合了各種數據類型,促進了更全面的模型訓練。MultiMedBench[66]數據集通過將臨床筆記與醫學測量和影像數據對齊,體現了這一方法。基于這些數據集訓練的模型如Med-PaLM M[66]在需要整合異質數據類型的任務中表現出色,彌合了文本和視覺醫學信息之間的差距。 4.3.2 數據處理策略
為了最大限度地利用這些數據集,研究人員采用了多種數據處理技術。 數據增強
數據增強旨在增加數據集的大小和多樣性,從而提高模型的穩健性和泛化能力。Chen等人[20]在開發BianQue時結合了自動數據清理和基于ChatGPT的數據優化。這一方法不僅提高了訓練數據的質量,還使模型在醫療咨詢任務中的表現提高了15%。 數據混合
整合多樣化的數據源也能增強模型能力。Bao等人[21]在DISC-MedLLM中展示了這一點,采用了數據融合策略。通過結合來自醫學知識圖譜的結構化信息與人工篩選的樣本,他們在處理醫療查詢方面相比于僅在單一數據源上訓練的模型提升了20%。 4.3.3 LLM中的聯邦學習
在生物醫學LLM領域,由于嚴格的醫療法規,直接的數據共享通常不可行。聯邦學習(FL)[128]作為一種變革性解決方案,可能會重新塑造未來的LLM訓練方式。與在單一專有數據中心訓練的傳統LLM不同,生物醫學LLM需要通過FL有效訪問多樣化的數據集。OpenFedLLM框架[129]促進了跨地理分布數據集的聯邦學習,同時推動了倫理對齊。對此,Wu等人[130]提出了專門設計用于增強醫學語言建模的FedMed框架,以緩解聯邦學習環境中的性能下降。Zhang等人[131]進一步推進了這一領域,展示了將聯邦學習與基于提示的方法結合用于臨床應用的有效性,增強了模型的適應性,同時保護了患者隱私。Nagy等人[132]探討了用于訓練大型語言模型(如BERT和GPT-3)的隱私保護技術,提供了在不影響性能的情況下保持隱私的見解。為應對多語言挑戰,Weller等人[133]研究了在多個語言環境中使用預訓練語言模型進行聯邦學習的方法,重點關注醫學領域的各種NLP任務。最后,Kim等人[134]提出通過在預訓練的LLM中集成適配器機制來提高聯邦學習中的計算效率,展示了使用較小的Transformer模型來降低計算需求的好處。
本節探討了將通用LLM適應生物醫學領域的過程,重點介紹了數據質量、處理策略與模型適應技術之間的重要關系。我們回顧了多樣化數據集和先進數據處理方法在開發穩健的生物醫學LLM中的基礎作用,并考察了從全參數微調到更高效的指令微調和參數高效技術的各種適應方法。盡管取得了這些進展,數據隱私、模型可解釋性和公平性方面的挑戰仍然存在。未來的研究可以著眼于開發更高效、可解釋且符合倫理的適應技術。重點領域包括提高模型透明性、解決公平性問題,以及探索高級聯邦學習方法,以在保護患者隱私的同時利用分散的醫療數據。多模態方法的整合也為更全面的醫療解決方案提供了有希望的途徑。隨著生物醫學LLM的持續發展,在平衡技術創新與倫理考量方面將變得尤為重要。通過解決當前的挑戰并抓住新興的機遇,這些模型有望徹底改變醫療保健,從提高臨床決策支持到加速生物醫學研究,最終實現更有效和更公平的醫療服務提供。
在本研究中,我們探討了通用大型語言模型(LLM)在生物醫學領域的潛力和應用。通過評估單模態和多模態LLM在處理醫學文本、圖像以及綜合數據方面的表現,我們驗證了這些LLM在提高醫學研究效率和準確性方面的潛力。我們的研究首先概述了LLM在生物醫學領域的現狀,指出了直接應用通用LLM的局限性,并強調了微調策略的重要性。盡管LLM具有廣泛的應用前景,但其在生物醫學領域的應用仍面臨諸多挑戰,包括數據隱私和安全問題、模型可解釋性、數據集的質量和多樣性以及高計算資源需求。這些挑戰限制了LLM的廣泛應用。為應對這些挑戰,我們提出了未來的研究方向,包括提高數據質量和多樣性、增強模型可解釋性、開發高效且經濟的微調方法、探索多模態數據融合技術以及促進跨學科合作。這些措施將進一步推動LLM在生物醫學領域的應用和發展。
最近的技術進步增強了我們收集和分析豐富多模態數據(如語音、視頻和眼動)的能力,以更好地改進學習和訓練體驗。盡管之前的綜述已經關注了多模態處理流程的部分內容(如概念模型和數據融合),但尚未有關于多模態學習和訓練環境方法的全面文獻綜述。本文提供了對這些環境中的研究方法的深入分析,提出了一個涵蓋該領域最新方法進展的分類法和框架,并根據五個模態組對多模態領域進行了描述:自然語言、視頻、傳感器、人本中心和環境日志。我們引入了一種新的數據融合類別——中級融合(mid fusion),以及一種用于優化文獻綜述的基于圖的技術,稱為引文圖剪枝。我們的分析表明,利用多種模態可以更全面地理解學習者和受訓者的行為和結果。即使多模態未能提高預測準確性,它通常也能揭示模式,以情境化和解釋單模態數據,揭示單一模態可能遺漏的細微差別。然而,仍需進一步研究以彌合多模態學習和訓練研究與基礎AI研究之間的差距。
1 引言與背景
1.1 簡史
隨著技術進步推動學習科學的發展,教育和訓練課程的個性化正在不斷推進,以滿足學習者和受訓者的獨特需求。這種轉變由數據驅動的方法支撐,這些方法已被整合到學習分析領域[61]。學習分析專注于收集和評估學習者和受訓者的行為數據——特別是他們在學習和訓練任務中的表現[94, 166]。例如,智能輔導系統如Practical Algebra Tutor [78]專注于診斷學生錯誤,開放式環境如Betty’s Brain [84]自適應地支架學習,而教師反饋工具(如[72, 124])則通過提供學生行為的洞察來幫助教育者改進教學。 學習分析中的一個核心研究問題是,哪些類型的數據對于深入了解學習者的行為和表現,以及在不同情境下促進學生學習和訓練提供有意義的支持是必要的?[108, 151]。最初,數據收集和分析的范圍受到教育環境中可用技術和計算方法的限制。早期的學習分析主要分析基于計算機環境的日志數據,將學生的行為與其數字交互建立關聯,從而為該領域的許多現代理論和方法奠定了基礎[71, 108]。 傳感器和數據收集技術的進步正將學習分析擴展到傳統的基于日志的分析之外[108]。在實際的學習空間中,日志數據不足以捕捉所有學習者的行為、情感狀態和協作行為。研究人員現在整合了額外的數據收集設備,如用于捕捉物理互動的視頻、用于記錄對話的麥克風、用于檢測壓力水平的生物傳感器和用于跟蹤注意力的眼動儀[151]。這種豐富的數據收集提供了對學生情感、認知、心理運動和元認知狀態的更全面理解,推進了多模態學習分析(MMLA)[12, 13, 158]。經過十年的研究,MMLA已經成熟,并通過期刊專題[52, 96, 109]、會議[60]、編輯書籍[64]和系統綜述[4, 22, 39, 50, 100, 130, 158]得到了廣泛傳播。本文基于這一堅實的基礎,重點關注MMLA中的應用研究方法。1.2 相關工作最近的MMLA研究、調查和綜述通過不同的視角探索了MMLA的全貌:多模態數據融合[22]、概念模型和分類法[50]、統計和定性評估[121, 131]、虛擬現實[118]、技術和數據工程[26]以及倫理考量[4]。我們的綜述集中在多模態學習和訓練環境中支持數據收集和分析的應用方法,特別關注使用學習理論收集、融合、分析和解釋多模態數據的方法。我們擴展和修改了現有的分類法,以反映MMLA的最新進展。 Di Mitri等人[50]提出了多模態學習分析模型(MLeAM),這是一個概念框架,概述了MMLA中行為、數據、機器學習和反饋之間的關系。該框架提供了一種分類法,并引入了數據可觀測性(data observability)的概念,將可量化的輸入證據與推斷的注釋(如情感、認知)區分開來。可觀測性線劃分了這些領域,對于MMLA研究中從輸入到假設的AI介導轉化至關重要。Chango等人[22]調查了MMLA中的融合方法,將研究按融合類型和在多模態管道中的應用階段進行分類。他們提出了三種融合類型:早期融合(特征級整合)、后期融合(決策級整合)和混合融合(兩者的結合)。這一分類澄清了融合方法及其在教育數據挖掘中的相關性。 整合了這兩項調查的見解后,我們提出了一種聚焦于特征可觀測性的分類法,區分感官數據和人類推斷的注釋。這一改進的分類方案精煉了我們對MMLA中數據融合的理解,并在第2節中展示了一個精細的分類法。
1.3 本綜述的范圍
在本文中,我們將數據收集媒介定義為一種獨特的原始數據流(如視頻、音頻、光體積描記(PPG)傳感器)。模態是從一個或多個數據流中派生出的獨特屬性,每個流傳達不同的信息,即使來自相同的媒介[108]。模態組是通過歸納編碼派生出的傳達相似信息的模態的獨立集合(見圖1)。多模態是多種模態或多種數據流的組合。例如,同一視頻數據流可以用來派生情感和姿勢模態,情感模態可以從音頻和視頻流中派生。這兩個例子都被認為是多模態的。我們在文中將“論文”和“作品”交替使用,包括會議和期刊之外的出版物(如書籍和書籍章節)。我們的定義旨在描述我們綜述的范圍,而不是建立“通用”的多模態和多模態分析的定義。 我們的綜述包括所有未被排除標準(見附錄B.2.2)排除的文獻搜索結果中的論文。這包括“順帶”進行的多模態學習和訓練分析。例如,一篇專注于多模態創作環境的論文,如果在此過程中進行了多模態學習分析,也會被納入。我們感興趣的是多模態分析所使用的方法,而不僅僅是其作為主要研究焦點的研究。我們審查了跨越多種媒介和模態的數據收集和分析的研究,包括完全物理環境(如物理治療)、混合現實環境(如基于假人的護理模擬)以及在線教育平臺(如基于計算機的物理教學)。值得注意的是,由于當前虛擬現實環境在教育環境中的可擴展性挑戰[37],我們的綜述排除了虛擬現實環境。
1.4 貢獻本文對多模態學習和訓練環境的方法進行了系統的文獻綜述,并做出了以下幾個新穎的貢獻:
模型融合是機器學習社區中的一種高效賦能技術,它不需要收集原始訓練數據,也不需要昂貴的計算。隨著模型融合在各個領域中變得越來越普遍,全面了解現有的模型融合技術變得至關重要。然而,文獻中在系統且深入地審視這些技術方面存在顯著的空白。本綜述提供了對模型融合方法和理論的全面概述,涵蓋了它們在各個領域和場景中的應用,以及未來的研究方向。具體而言,我們首先提出了一種新的分類方法,對現有的模型融合方法進行了詳盡的討論。其次,我們討論了模型融合技術在大語言模型、多模態大語言模型以及10多個機器學習子領域中的應用,包括持續學習、多任務學習、少樣本學習等。最后,我們強調了模型融合的剩余挑戰,并討論了未來的研究方向。關于模型融合的論文完整列表請參見\url{this https URL}。
模型融合,也稱為模型合并,是一種有效的技術,通過融合多個具有不同能力的獨立模型的參數,構建一個通用模型,而無需訪問原始訓練數據或進行昂貴的計算。與模型融合最相關的概念是集成學習 [33, 109, 142, 180],因為它們都促進了知識的融合與傳遞。如圖1所示,它們之間的主要區別在于,集成學習必須保存所有的單個模型,并在推理階段融合多個模型的預測(或輸出),而模型融合則直接在參數層面進行合并,并且在推理時只有一個最終模型。這使得模型融合具備了更為吸引人的特性。盡管模型融合是一個相對年輕的課題,但它正在快速發展,并且已經在多個領域中找到了應用。例如,在基礎模型中,由不同下游任務微調的模型被合并,以增強大語言模型的能力,而具有不同風格的圖像生成模型被合并,以創建具有混合風格能力的新模型。特別是,近年來機器學習社區中的預訓練和微調檢查點數量呈指數級增長,包括開源庫如Huggingface [182]、torchvision [111]和timm [181],這使得用戶可以輕松獲取各種能力的訓練良好的專家模型。這些豐富的模型庫進一步推動了模型融合方向的快速發展。隨著模型融合在機器學習社區的各個領域中變得越來越流行,全面了解現有模型融合技術的優勢和局限性及其在不同領域的應用變得至關重要。盡管社區已經做出了一些努力 [48, 96, 157, 214],但仍有許多空白需要填補。更具體地說,MergeKit [48]和FusionBench [157]是技術報告,MergeKit中僅討論了七種代表性方法,FusionBench中討論了八種合并方法。此外,Zheng等人 [214] 討論了“從模型中學習”的話題,并且僅在整個論文中以一個子節(一頁)提到了模型融合。與“模型融合”主題最相關的工作是 [96],但在應用方面,它只討論了模型融合在聯邦學習、微調和蒸餾三種場景中的應用。由于模型融合方向的快速發展,它也忽略了許多最近發表的文章。為了解決這些空白,本綜述旨在闡明模型融合方向中的方法、理論、應用和未來趨勢,提供相關方法的全面分類。特別是,本文通過涵蓋三個主要方面來增強對模型融合的全面理解:
**首先,現有的模型融合方法是如何分類的?**我們首先在圖2(上半部分)中提出了一個新的分類法,將現有的模型融合方法分為兩個階段(§2):預融合和融合過程中。(i)預融合方法旨在為融合創造更好的條件。它進一步分為使用線性微調實現權重空間和輸入空間的解耦,執行架構轉換以將異構模型轉換為同質模型,以及對齊權重以將它們置于同一盆地。(ii)融合過程中的方法側重于設計復雜的技術,將多個模型融合為一個。這些方法解決了在融合模型時的任務沖突和干擾問題。它們可以進一步分為基本融合方法,即執行最簡單的參數融合策略;加權融合方法,即根據特定規則計算的重要性來融合多個模型;子空間融合方法,即將多個模型投影到稀疏子空間進行融合;基于路由的方法,即在推理過程中根據輸入樣本動態融合模型;以及基于后校準的方法,即對融合后的模型進行校正。除了這些方法外,我們還討論了模型融合的理論或實證分析。
**其次,哪些應用可以從模型融合中受益?**我們詳細討論了模型融合在基礎模型(§3)和機器學習的十多個子領域(§4)中的各種用例。如圖2(下半部分)所示,模型融合可以應用于多種基礎模型,包括大語言模型、多模態大語言模型和圖像生成模型。例如,模型融合在大語言模型中可以幫助減輕不真實和有害輸出,實現知識去學習,并加速訓練。此外,模型融合還出現在不同的機器學習子領域,如持續學習、多任務/多域學習、少樣本學習和其他子領域,以解決各種挑戰。例如,在持續學習中,模型融合可以減輕舊任務的災難性遺忘。在多任務學習、多目標學習和多域學習中,它促進了知識傳遞。此外,在對抗性學習中,模型融合可以用于攻擊和防御策略。**第三,模型融合的剩余挑戰和未來研究機遇是什么?**盡管融合方法取得了進展并且應用已經得到了充分發展,但該領域仍存在許多未解決的挑戰和未來的研究方向(§5)。例如,隨著任務數量的增加,現有方法與獨立專家模型之間的性能差距顯著擴大。此外,當前的模型融合方法在融合過程中產生了巨大的內存成本,并且缺乏信任保證以及深入的理論分析。解決這些空白需要研究人員做出大量努力,以進一步推動該領域的蓬勃發展。
總而言之,本文的主要貢獻包括以下三個方面: ? 方法概述:我們提供了對模型融合技術方面的全面總結。具體而言,我們提出了一個新的分類法,將現有的模型融合方法分為兩個階段,并根據關鍵技術進一步細分每個階段的方法。此外,我們還討論了與模型融合相關的理論分析工作。 ? 應用概述:我們提供了對模型融合應用方面的全面總結。具體而言,我們探索了模型融合在基礎模型和10多個機器學習子領域中的應用,展示了模型融合如何解決這些領域中的現有挑戰。 ? 未來方向:我們概述了模型融合的幾個剩余挑戰和未來方向。我們認為,未來需要從性能差距、理論分析、信任保證、跨學科應用等方面進一步探索模型融合。 本文的主要結構如下:§1是介紹,§2從技術角度對高級模型融合方法進行了全面討論。在§3和§4中,我們分別總結了模型融合在各種基礎模型和機器學習不同子領域中的應用。剩余的挑戰和未來的研究方向在§5中討論。最后,我們在§6中對本文進行了總結。
高級模型融合方法
在本節中,我們首先在§2.1中介紹模型融合的符號表示和問題定義。然后,我們詳細闡述了高級模型融合方法(表1總結了每類方法的主要目的)。現有的模型融合技術大致可以分為以下兩類: (i) 融合前方法 在§2.2中:為模型融合提供更好的先驗知識。 (ii) 融合過程中方法 在§2.3中:通過各種策略解決任務沖突/干擾,然后執行參數融合操作。最后,我們在§2.4中總結了模型融合有效性的理論或解釋。
模型融合在基礎模型中的應用
基礎模型的出現,包括大語言模型(LLM)、多模態大語言模型(MLLM)和圖像生成模型,是近年來人工智能領域技術進步的重要標志。然而,盡管這些大型模型取得了顯著進展,但它們仍面臨諸多挑戰,如LLM生成有害內容、MLLM在融合不同模態信息時的困難,以及圖像生成模型在生成混合風格圖像時的難度。最新研究表明,模型融合技術為這些基礎模型中固有的挑戰提供了一個有前景的解決方案。表2首先簡要總結了模型融合在基礎模型中的應用。然后,§3.1、§3.2和§3.3分別詳細討論了LLM、MLLM和圖像生成模型如何從模型融合中受益。
模型融合在不同機器學習子領域的應用
模型融合是一種簡單而有效的技術,廣泛應用于機器學習的各個子領域,如持續學習、多任務學習、領域泛化、聯邦學習、少樣本學習和對抗性防御等。在本節中,我們將全面討論模型融合在不同機器學習子領域中的應用。表3提供了簡要總結,§4.1至§4.6中詳細介紹了每個應用案例。
結論
模型融合是一種簡單而有效的模型增強技術,通過結合多個模型來實現多樣化的能力。在本綜述中,我們首先全面概述了當前在模型融合領域可用的高級方法和理論。接下來,我們討論了模型融合技術在各種基礎模型(如LLM、MLLM)和機器學習的十多個子領域中的應用,強調了它們在解決各種挑戰和困難中的作用。最后,我們識別了模型融合領域中尚存的問題,并提出了六個值得進一步探索的研究方向。我們相信,作為一種高效且模塊化的模型賦能解決方案,模型融合技術將在未來的更多實際場景中發揮重要作用。
像GPT和LLaMA這樣的大型語言模型(LLM)以其復雜的能力正在革新AI行業。訓練這些模型需要龐大的GPU集群和大量的計算時間,在可擴展性、效率和可靠性方面帶來了重大挑戰。本綜述探討了LLM訓練系統的最新進展,包括在訓練基礎設施中使用AI加速器、網絡、存儲和調度的創新。此外,綜述還涵蓋了并行策略以及在分布式LLM訓練中針對計算、通信和內存的優化。它還包括在長時間訓練期間保持系統可靠性的方法。通過審視當前的創新和未來的方向,本綜述旨在為改進LLM訓練系統和應對持續的挑戰提供寶貴的見解。此外,基于傳統數字電路的計算系統在滿足LLM的計算需求方面面臨重大限制,突顯出諸如光學計算和光網絡等創新解決方案的必要性。
大型語言模型(LLM)正在變革AI行業,在個人助手[1]、代碼輔助[2]、芯片設計[3]和科學發現[4]等廣泛任務和應用中展示了卓越的能力。這場革命的成功建立在以GPT[5]、LLaMA[6]、Gemini[7]等為代表的前所未有規模的基于變壓器的LLM之上。此外,證據表明LLM的規模化尚未達到瓶頸[8]。這種趨勢顯著改變了基礎訓練系統和基礎設施的設計,因為LLM通常遵循相對固定的架構,其訓練獨占了龐大的GPU集群長達數月。例如,LLaMA-3的預訓練在Meta的生產集群上使用16K H100-80GB GPU耗時約54天[9]。
LLM訓練在可擴展性、效率和可靠性(“SER”)方面對當今的訓練系統和基礎設施提出了重大挑戰。可擴展性要求基礎設施和系統能夠無縫適應成千上萬的GPU或AI加速器的大型集群,同時保持訓練正確性和模型精度。這需要在硬件配置、網絡和訓練框架方面的創新解決方案。效率關注于最大化整個集群的資源利用率,通常以模型浮點運算(MFU)來衡量。實現高MFU涉及優化計算、最小化通信開銷以及在前所未有的規模上高效管理內存。可靠性對于LLM訓練至關重要,通常訓練持續數周到數月。系統必須保持一致的性能,并對各種類型的故障具有彈性,包括硬件故障、網絡問題和軟件錯誤。它應能快速檢測并從這些故障中恢復,而不會顯著喪失進度或訓練質量。這些相互關聯的挑戰需要系統和基礎設施設計的整體方法,推動大規模分布式計算的邊界,并為高性能機器學習系統的研究和創新開辟新途徑。
本綜述論文旨在全面概述LLM訓練系統和基礎設施的進展,解決上述挑戰。本綜述從分布式訓練基礎設施到訓練系統,涵蓋了GPU集群、高性能網絡和為LLM工作負載量身定制的分布式存儲系統的創新方法。我們還探討了分布式訓練系統的關鍵方面,包括提高可擴展性和效率的并行策略、計算、通信和內存優化。我們深入研究了提高訓練可靠性的容錯機制。通過綜合最近的進展并確定未來的研究方向,本綜述旨在為研究人員和實踐者提供對改進LLM訓練系統最有前景途徑的見解。我們的目標是提供一個有價值的資源,不僅解決當前的挑戰,還為大規模機器學習基礎設施的未來創新鋪平道路。
組織結構。圖1展示了本綜述的組織結構。第2節討論LLM架構、LLM訓練的特點和挑戰的背景信息。在第3節中,我們總結了訓練基礎設施的關鍵方面,包括AI加速器、網絡基礎設施和存儲系統。在第4節中,我們研究了分布式LLM訓練的并行方案。在第5節中,我們討論了利用前所未有的計算能力的計算優化。在第6節中,我們討論了LLM訓練中優化內存占用的技術。在第7節中,我們介紹了最小化通信開銷的通信優化。在第8節中,我們首先進行故障分析,然后介紹快速故障檢測和恢復的方法。最后,我們在第9節總結了本綜述。
因果推斷在提高自然語言處理(NLP)模型的預測準確性、公平性、魯棒性和可解釋性方面顯示出潛力,它通過捕捉變量間的因果關系來實現這一點。生成式大型語言模型(LLMs)的出現顯著影響了各種NLP領域,特別是通過它們先進的推理能力。本綜述集中于從因果視角評估和改進LLMs,在以下幾個方面:理解和提升LLMs的推理能力,解決LLMs中的公平性和安全性問題,為LLMs提供解釋,以及處理多模態問題。同時,LLMs的強大推理能力反過來也可以通過幫助發現因果關系和估計因果效應來促進因果推斷領域的發展。本文探討了因果推斷框架與LLMs之間的相互作用,從兩個角度強調它們共同的潛力,以進一步發展更高級和更公平的人工智能系統。 //www.zhuanzhi.ai/paper/a6cd1586ee23edc1bc238d9cfa310439
近年來,大型語言模型(LLMs)在一系列關鍵任務中展現出了非凡的多功能性。LLM擅長的任務包括文案創作、用其獨特的風格和聲音增強原始句子、響應知識庫查詢、生成代碼、解決數學問題以及根據用戶需求執行分類或生成任務。此外,最近還擴展到了多模態變體,如大型視覺語言模型(LVLMs)或大型多模態語言模型,這些變體擴大了它們的輸入/輸出能力,以涵蓋各種模態。這種演變顯著提高了這些模型的潛力和應用范圍。 在本綜述中,我們主要關注基于變換器(Transformers)的大型語言模型(LLMs)。LLMs的能力根本上源于它們的推理能力,這決定了它們在理解、處理和提供各種查詢的解決方案方面的熟練程度,以及它們適應對社會有影響的領域的能力。因此,大量研究工作致力于測量和增強這些能力,范圍從評估LLMs的推理能力到審查它們的決策過程,并解決概念在不同模態間對齊以及減少幻覺等挑戰。此外,由于LLMs在數十億參數的基礎上訓練了大量人類知識,它們有時面臨在不同場景下適當優先級或淡化所學的挑戰。這可能導致領域偏移,即模型在與訓練集不同的數據上的性能下降,以及長尾偏差,即不常見的示例處理不夠有效。 在許多情況下,語言任務不僅需要基于數據中的模式預測或生成文本,還需要理解驅動這些模式的潛在因果機制。因果推斷在提高自然語言處理(NLP)模型的預測準確性、公平性、魯棒性和可解釋性方面顯示出了巨大的潛力。隨著生成式LLMs的出現,各個NLP領域發生了重大變革,吸引了越來越多的研究興趣,應用因果推斷來解決與LLM相關的挑戰并增強其功能。這種轉變也激勵了本綜述概述因果方法及其在LLMs中的實施,強調它們在豐富我們對語言模型的理解和應用中的作用。 同時,本綜述還旨在探索LLMs如何幫助因果推斷框架。因果推斷正式定義為一個智力學科,它考慮了允許研究者基于數據得出因果結論的假設、研究設計和估計策略。因果推斷有三個主要來源:潛在結果、圖表和結構方程,每個來源都有獨特的用途。潛在結果框架側重于通過統計推斷和治療比較來估計因果效應。圖形模型則擅長繪制因果路徑和可視化關系,節點代表變量,邊表示方向性影響。在本綜述中,我們主要討論Pearl對因果圖的公式化,它用有向無環圖(DAGs)形式化了表示隨機變量間條件獨立關系的因果圖形模型。 我們總結了LLMs如何在其兩個重要組成部分中幫助因果推斷,即因果關系發現和治療效果估計。確定變量間的因果關系是因果推斷框架的一個基本步驟,因為估計變量A對變量B的因果效應需要對與A和B相關的其他變量的因果關系進行因果假設。傳統上,研究人員依靠具有主題知識的專家為這些因果關系奠定基礎。因果發現方法為從觀察數據中發現因果圖提供了一種替代方法。LLMs已經展示了根據預訓練知識或給定文本確定這種因果關系的能力。它們也可以與因果發現方法結合,進一步提高結果的可靠性。估計治療效果是因果推斷的核心,但在許多情況下由于缺乏反事實數據而受阻。利用LLMs強大的反事實推理能力,研究人員開發了各種方法來生成高質量的反事實,以實現治療效果估計。 本綜述的結構如圖1所示。我們從第2節開始介紹大型語言模型的最新進展。然后我們在第3節提供了用于改進LLMs的因果推斷方法概述。在論文的前半部分,我們討論了這些方法在LLM社區的各種問題中的應用:第4.1節概述了因果方法用于衡量和改進LLM的推理能力,第4.2節和第4.3節關注公平性和安全性問題,而第4.4節介紹了因果推斷方法如何處理LLM的可解釋性。我們還在第4.5節討論了構建和開發多模態大型模型的擴展。最后,我們在第4.6節列出了從因果視角對LLMs進行評估和基準測試的現有工作。在綜述的后半部分,我們轉向LLMs如何擴展因果推斷的邊界。第5.1節解釋了因果推斷的當前假設、限制和瓶頸。第5.3節和第5.2節陳述了改進治療效果估計和因果發現的當前工作。我們在第6節突出了幾個未來方向。 LLMs可以顯著受益于因果推斷,因為它增強了它們理解和推理數據內因果關系的能力。在本節中,我們回顧LLMs如何從以下幾個角度受益于因果視角,包括理解和提升LLMs的推理能力(第4.1節)、解決LLMs中的公平性問題(第4.2節)和安全性問題(第4.3節)、用解釋補充LLMs(第4.4節)以及處理多模態問題(第4.5節)。然后我們在第4.6節中從這些角度組織基準數據集。 大型語言模型用于因果推斷
因果推斷作為解決LLMs挑戰的有力工具,重度依賴于世界知識。如前所述,因果推斷有三個主要來源:潛在結果框架、基于圖的因果方法和結構方程社區。潛在結果框架在很大程度上依賴于幾個假設,以促進對群體/個體之間治療效果的比較。應用潛在結果框架的最具挑戰性的方面之一在于確保這些假設在現實中成立。在本節中,我們首先審查這些假設,隨后說明現有文獻是如何放寬這些假設的。基于圖的因果方法和結構方程模型也需要對潛在的因果圖有一定水平的理解。例如,有向無環圖(DAGs)作為一個基本假設,許多結構方程模型假設一定程度的線性或者輸入分布遵循特定的概率分布。在我們的回顧中,我們還探索了現有方法如何驗證輸入數據中的分布,并在LLMs的幫助下擴展當前方法以容納更復雜的分布。 結論 在其核心,一個大型語言模型(LLM)就像一個龐大的知識庫。一個持續的挑戰是如何有效地提取和使用這些知識。改進LLM的關鍵在于增強它們理解因果關系的能力——本質上,理解事物之間是如何連接的。因果推理對于讓LLM更智能至關重要。從因果推斷的角度來看,我們發現了一個寶貴的框架,有助于提高LLM的效果。同時,作為人類知識的保管者,LLM甚至可以通過提供超越現有限制的廣泛專業知識,幫助克服因果推斷中的局限性,重新塑造我們在這一重要領域的理解,并為該領域帶來新的活力。 在這篇綜述中,我們提供了一個徹底的考察,探索了大型語言模型(LLM)與因果推斷交匯處的當前景觀。我們深入探討了因果推斷如何對LLM做出貢獻,增強了推理、公平性、安全性以及LLM的可解釋性等方面。此外,我們探索了LLM反過來如何拓寬因果推斷的視野。跨越這些類別,我們的綜述提供了深入的討論、比較和對審視方法的簡潔總結,提供了一個全面的研究現狀概覽。可用的基準數據集和這些方法的開源代碼也被列出。 對因果推斷和大型語言模型當前進展的考察服務于雙重目的。首先,它增強了我們對這兩個領域如何相互受益的理解。其次,它催生了新的問題,推動我們更接近于實現人工通用智能。此外,這一探索有潛力擴展到多個領域,并在現實世界場景中找到應用,展示了因果推斷與LLM之間協同作用的深遠影響。
這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。
**1 引言 **
在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。
2 概述
大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。
3 大型語言模型的解釋性
3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。
3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。
4 利用解釋性
在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。
4.1 模型編輯
盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。
4.2 增強模型能力
雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。
4.3 可控生成
盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。
5 評估
近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。
6 結論
在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。
大模型如何落地?
在快速發展的人工智能(AI)領域中,生成型大型語言模型(LLMs)站在前沿,徹底改變了我們與數據的互動方式。然而,部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰,特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統(MLSys)研究的角度出發,應對高效LLM服務方法論的緊迫需求,站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析,涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解,為研究人員和實踐者提供寶貴的見解,幫助他們克服有效LLM部署的障礙,從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117
生成型大型語言模型(LLMs)已成為推動人工智能(AI)重大進展的驅動力,并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成,這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構,如GPT系列(Generative Pre-trained Transformer)[195]、LLaMA系列[247]以及其他最新的公開LLMs(例如,OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290])在這種范式轉變中發揮了關鍵作用,徹底改變了自然語言處理(NLP)任務的處理方式。除了NLP,這些模型還在更廣泛的應用領域中實現了轉型,包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197],展現了它們的多功能性和在各個行業的深遠影響。
然而,LLMs的空前成功也帶來了幾個挑戰,最值得注意的是,在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性,加上對廣泛計算資源的需求,已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂,阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。
這篇綜述旨在解決高效LLM服務的關鍵需求,并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍,所有這些都旨在優化大型語言模型的推理過程。
目標 這項綜述的主要目標是提供一個全面的概述,關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術,基于它們的底層方法,突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論,包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。
** 結構 本文的結構如下**:第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類,從兩個方面重新審視這些相關工作:算法創新(§ 3.1)和系統優化(§ 3.2)。之后,我們在第4節列出了一些代表性的LLM服務框架,并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后,在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向,以激發未來的研究。
分類法
目前提高LLM服務效率的努力大致可分為兩類,包括算法創新和系統優化,這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析,這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。
** 解碼算法**。在這一部分中,我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度,并提高語言模型推理在生成任務中的總體效率。
非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制,它逐個順序生成輸出標記。為解決這一問題,一種代表性的工作方向是放棄自回歸生成范式,并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出,通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低,一些后續研究如半自回歸解碼[98],通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152],進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層,以并行預測多個未來位置,然后退回到基模型驗證的最長前綴。然而,這些方法需要昂貴地重建一個新的LLM以及新的依賴,或調整原始LLM的部分層,這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記,無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統,利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出,以總結這一方向的最新進展。到目前為止,由于不了解輸出標記之間的條件依賴性,盡管解碼速度有所提高,但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。
投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性,解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行,例如決定接下來生成哪個標記。已提出投機解碼[51, 155],首先以高效的方式(例如,使用較小的草稿模型,模型參數較少)進行多步解碼預測,并與LLM同時驗證這些預測。然而,將投機解碼應用于LLMs時仍然存在一些實際挑戰,例如,如何使解碼預測足夠輕量且準確,以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制(被[48, 118, 168, 185, 229, 236, 274, 310]直接采用),提出了一個低延遲LLM服務系統實現(§ 4)。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證,并且當預測出錯時,回退機制[145]生效。
提前退出。其他一些研究試圖利用現有LLMs的深層多層架構,并利用提前退出機制[243]加速解碼過程。直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量以攤銷總推理成本,即對更容易的推理請求采取較少的計算。廣泛來說,這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。由于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型(即非生成型LLMs)進行了優化,但采取了類似的方法,結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說,級聯推理是提高推理效率的有希望的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。
配置縮小:為了減少LLM推理的計算成本,一種直接的方法是縮小模型配置,例如使用淺層編碼器[101, 183]或解碼器[137],權重共享和詞匯表縮減[225]。然而,減少模型參數的數量也會影響下游任務的性能。
注意力簡化:與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2),它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案,用于非常長的序列任務,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。
提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構,并利用提前退出[243]機制來加速解碼過程。其直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量,以攤銷總推理成本,即對更容易的推理請求采取較少的計算。然而,由于這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。鑒于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢,CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型(即非生成型LLMs)進行了優化,但采用了類似的方法,將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務,以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言,級聯推理是提高推理效率的一個有前景的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。 * 注意力簡化:自注意力計算的一個突出挑戰是計算復雜度O(??^2),隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。
模型壓縮。在這里,我們深入探討了模型壓縮技術,旨在通過創建更高效、更緊湊的模型,減少LLMs的內存占用和計算需求,同時不會對性能造成顯著損失。
知識蒸餾:一種方法是知識蒸餾,它訓練一個小型的學生模型,以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255],需要訪問整個教師模型的參數。由于基于API的LLM服務(例如,ChatGPT)的出現,一些黑盒蒸餾模型吸引了很多關注,例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數,但與原始LLMs(例如,GPT-4[195])相比,在各種下游任務上表現出了有前景的性能。
網絡剪枝:過去幾年中,網絡剪枝方法[180, 215, 215]已被廣泛研究,但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面,這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs,刪除整個結構化LLM組件,促進GPU加速。例如,Deja Vu[172]在不修改預訓練模型的情況下,根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276],通常實現LLM壓縮的50-60%稀疏性。值得注意的是,它們可以進一步概括為半結構化N:M稀疏性(即2:4和4:8)[182],通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問,并提出了一個GPU-CPU混合推理引擎,讓GPU和CPU處理不同的神經元。
系統優化本節研究LLM推理系統優化技術,以加速LLM推理,而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架,提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術,這些技術能夠高效地表示模型權重和激活。通過使用更少的比特(即少于32比特)來表示數值,這些方法顯著減少了內存消耗,并加速了硬件平臺上的推理。一種方法是量化LLM,這些量化方法大致可以分為兩個方向:量化感知訓練(QAT)和訓練后量化(PTQ)[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4,通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率,例如W8A16(即INT8僅權重量化和FP16或BF16激活),GPTQ中的W4A16[88],SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是,NVIDIA的最新架構,如Turing和Ampere已經包含了INT8和INT4張量核心,最新的Hopper架構雖然取消了INT4支持,但引入了FP8張量核心以獲得更好的數值精度(例如,H100 GPU的FP8與FP32相比可達60倍TFLOPS)。現有方法通常采用各種量化函數,包括均勻方法(即最近舍入)和非均勻方法[143]。為了緩解低精度帶來的性能損失,QAT在模型訓練期間集成了量化[70, 171]。值得注意的是,由于底層系統實現的挑戰,低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求,但也有研究表明,量化方法由于存在比例定律,可能對模型的推理性能產生顯著影響[72]。此外,量化還被應用于上下文壓縮(例如,CacheGen[169])和內存高效微調(例如,QLoRA[70],PEQA[142]),結果導致LLM推理的內存消耗降低。
并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力,這些方法將計算分布在多個核心或設備上,從而在推理期間顯著加速。
內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一,特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長,與模型權重和其他激活所需工作空間相比,KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小,簡單的方法(例如,FasterTransformer)是預先分配一塊連續的內存,假設最大序列長度。這對于1)請求長度不同的輸入批次和2)并行生成多個輸出序列的復雜解碼場景(例如,波束搜索、并行解碼)來說,嚴重浪費了內存。vLLM[150]提出了分頁注意力,將KV緩存劃分為非連續的內存塊,顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷,以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制,進一步減少了內存使用。然而,這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下,這些細粒度內存管理方法可能只提供邊際吞吐量收益,同時大幅增加了推理延遲。顯然,LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好,但它們可能相互抵消,導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。
請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標(SLO)內的響應時間,并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處,因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而,由于其獨特的特性,如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理,LLM服務也帶來了獨特的挑戰。
早期的LLM服務系統(例如,NVIDIA Triton上的FasterTransformer)僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度,它在迭代粒度上調度引擎執行,并以先來先服務(FCFS)的順序,使得選定的操作集批處理,以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略,例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外,SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證,擴展到了投機解碼。FastServe[261]關注作業完成時間(JCT),涉及迭代級搶占,以優先處理輸入長度較短的請求,而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算,它將輸入提示劃分為均勻塊,并在可能的情況下,將塊插槽與其他請求的解碼迭代結合起來,這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器,并幫助在GPU內存限制內安排更多并發請求,以實現更大的批量大小和更高的推理吞吐量。
內核優化。在本小節中,我們深入探討了針對特定操作的內核級優化,這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。
軟件框架
生成型LLM服務需要一系列優化,許多最新工作已經開始開發軟件框架,以提供高效的LLM推理部署服務。下面,我們將重新審視這些系統,并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析,如表2所示。這些分析不包括一些流行的相關項目,包括1) 專門針對其他硬件的解決方案(例如,PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14])和2) 構建在其他系統之上的部署解決方案,如OpenLLM[26](vLLM)、xinference[30](ggml + vLLM + xFormers)、LMDeploy[20](FasterTransformer)、gpt-fast[15](PyTorch)、DeepSpeed-MII和DeepSpeed-FastGen[11](DeepSpeed-Inference)以及RayLLM和RayServe[27](vLLM)。
我們比較了這些最先進的LLM服務系統,并在幾個方面總結了它們的差異。首先,大多數系統支持張量并行性,以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載,以分別支持多節點或資源受限環境下的推理。其次,部分系統從Orca學習,并實現了迭代級調度。第三,我們調查了這些系統的注意力內核,并分別介紹了它們在初始和增量階段的實現。對于初始階段,它們通常采用批量通用矩陣乘法(GEMM)方法(例如,cuBLAS、torch、Relay),有些利用在線softmax技巧減少HBM訪問(例如,Flash-attention、xFormers)。增量階段更具挑戰性,因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率,FasterTransformer手動融合了注意力計算(例如,線性投影、位置偏差、點積、softmax等)到一個高性能的內核模板中,并涉及多種內核優化技術,例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加(HMMA)以及多精度支持。FlexFlow-Serve啟用了投機解碼,并提供了一個基于樹的并行解碼內核,以零內存冗余和最大線程并行性驗證來自多個序列(即來自多個小型模型或不同波束或并行采樣)的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力(MHA)內核,通過將KV緩存分割成頁面來消除冗余內存使用,特別適用于并行采樣場景。LightLLM采用后續方法,將KV緩存劃分為更細粒度的標記級片段。
值得注意的是,上述討論并未涵蓋其他一些值得注意的方面。例如,即使對于最受歡迎的Flash和Paged注意力內核,它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫,LightLLM采用了OpenAI Triton實現的內核,MLC-LLM通過TVM生成內核,TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段,TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外,對于線性投影運算符,最近有一種趨勢是用通用矩陣-向量乘積(GEMV)替換GEMM,以更有效地處理小批量大小(即1)的情況。這些系統還具有許多其他不同的特性,如編程語言(即C++、Python)、低精度支持(即FP16、INT8)、支持的硬件和模型。總之,這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如,vLLM提出分頁注意力以提高批量大小,從而實現更高的吞吐量(??????),而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲(??????)。基本上,低延遲和高吞吐量是LLM服務系統的雙重優化目標,代表了互補但往往相互沖突的目標,需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度,其中TTFT代表首個標記的時間,TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動,而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益,導致不同的系統設計選擇和用戶體驗(例如,更快的應用響應性[169],更長的提示[9])。此外,降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案,但我們相信未來的LLM服務系統將繼續整合這些不同的特性,從而不斷提高系統效率和硬件利用率。
結論
高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解,使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果,本文希望加速進步,并在追求高效LLM服務解決方案的過程中促進創新。
擴散模型已經成為一種突出的生成模型,在樣本質量和訓練穩定性方面超過了之前的方法。最近的工作顯示了擴散模型在改進強化學習(RL)解決方案方面的優勢,包括作為軌跡規劃器、表達性策略類、數據合成器等。本綜述旨在概述這一新興領域的進展,并希望激發新的研究途徑。首先,研究了當前強化學習算法遇到的幾個挑戰。根據擴散模型在強化學習中發揮的作用,對現有方法進行了分類,并探索了如何解決現有挑戰。進一步概述了擴散模型在各種強化學習相關任務中的成功應用,同時討論了當前方法的局限性。最后,總結了綜述,并對未來的研究方向提出了見解,重點是提高模型性能和將擴散模型應用于更廣泛的任務。我們正在積極維護一個GitHub存儲庫,用于存儲在RL中應用擴散模型的論文和其他相關資源。
//www.zhuanzhi.ai/paper/5b2f904982b924f5734c5543cb19945c
擴散模型已成為一類強大的生成模型,近年來引起了廣泛關注。這些模型采用了一種去噪框架,可以有效地逆轉多步去噪過程以生成新數據[Song等人,2021]。與早期的生成模型如變分自編碼器(VAE) [Kingma和Welling, 2013]和生成對抗網絡(GAN) [Goodfellow等人,2014]相比,擴散模型在生成高質量樣本方面表現出優越的能力,并顯示出增強的訓練穩定性。因此,他們在包括計算機視覺在內的不同領域取得了顯著的進步并取得了實質性的成功[Ho等人,2020;Lugmayr等人,2022;,自然語言處理[Austin等人,2021;Li等人,2022],音頻生成[Lee和Han, 2021;Kong等人,2020]和藥物發現[Xu等人,2022;Schneuing等人,2022]等。
強化學習(RL) [Sutton和Barto, 2018]專注于通過最大化累積獎勵來訓練智能體來解決連續決策任務。雖然RL在各個領域取得了顯著的成功[Kober等人,2013;Kiran等人,2021],有一些長期的挑戰。具體來說,盡管離線強化學習因克服在線強化學習中的低樣本效率問題而獲得了相當大的關注[Kumar等人,2020;Fujimoto and Gu, 2021],傳統的高斯策略可能無法擬合具有復雜分布的數據集,因為它們的表達能力有限。同時,雖然利用經驗回放來提高樣本效率[Mnih et al., 2013],但在高維狀態空間和復雜交互模式的環境中仍然存在數據稀缺問題。在基于模型的強化學習中,學習到的動態模型的一個常見用法是規劃[Nagabandi等人,2018;Schrittwieser等人,2020;Zhu et al., 2021],但perstep自回歸規劃方法受到復合誤差問題的影響[Xiao et al., 2019]。一個理想的強化學習算法應該能夠學習單個策略來執行多個任務,并泛化到新環境中[Vithayathil Varghese和Mahmoud, 2020;Beck等,2023]。然而,現有工作在多任務泛化方面仍然很困難。
近年來,已有一系列將擴散模型應用于序列決策任務的研究,其中尤以離線決策學習為著。作為一項代表性工作,Diffuser [Janner等人,2022]擬合了用于離線數據集上軌跡生成的擴散模型,并通過引導采樣規劃所需的未來軌跡。已經有許多后續工作,其中擴散模型在強化學習管道中表現為不同的模塊,例如取代傳統的高斯策略[Wang等人,2023],增強經驗數據集[Lu等人,2023b],提取潛在技能[Venkatraman等人,2023]等。我們還觀察到,由擴散模型促進的規劃和決策算法在更廣泛的應用中表現良好,如多任務強化學習[He等人,2023a]、模仿學習[Hegde等人,2023]和軌跡生成[Zhang等人,2022]。更重要的是,擴散模型由于其強大而靈活的分布建模能力,已經為解決強化學習中長期存在的挑戰提供了思路。
本文關注于擴散模型在強化學習中的應用,并額外考慮了將擴散模型納入軌跡生成和模仿學習背景中的方法,主要是因為這些領域之間存在明顯的相互關系。第2節闡述了上述RL挑戰,并討論了擴散模型如何幫助解決每個挑戰。第3節提供了擴散模型基礎的背景知識,還涵蓋了在強化學習相關應用中特別重要的兩類方法:引導采樣和快速采樣。第4節說明了擴散模型在強化學習中在現有工作中發揮的作用。第5節討論了擴散模型在不同RL相關應用中的貢獻。在第6節中,指出了應用擴散模型時的局限性,并將其與基于transformer的方法進行了比較。第7節總結了調查與討論新興的新主題。
擴散模型的基礎
本節提供擴散模型的基礎。提出了兩個著名的表述:去噪擴散概率模型(DDPM) [Ho等人,2020]和基于分數的生成模型[Song等人,2021]。DDPM由于其簡單性而被廣泛使用,而基于分數的公式將其擴展到包含連續時間擴散過程。此外,引導采樣方法在將擴散模型集成到RL框架中起著關鍵作用。根據指導采樣過程的方法,這些方法可以分為兩大類:分類器指導[Dhariwal和Nichol, 2021],這需要一個額外的分類器,以及無分類器指導[Ho和Salimans, 2022],這將指導條件作為模型輸入的一部分。此外,為了提高采樣速度,特別是在在線交互過程中,在強化學習相關任務中使用擴散模型時采用了快速采樣技術[Kang等人,2023;王志軍,2023。簡要介紹了在擴散模型的禁食采樣研究方面的一些代表性工作,包括基于學習的方法和無學習的方法。
**在RL中擴散模型的角色 **
擴散模型已證明了其生成多樣化數據和建模多模態分布的能力。考慮到第2節中介紹的長期存在的挑戰,使用擴散模型改善RL算法的性能和樣本效率是足夠的。在圖1中,我們說明了擴散模型在RL中與以前的解決方案相比扮演的不同角色。當前應用擴散模型于RL的工作主要分為四個類別:使用擴散模型作為規劃器,作為策略,用于數據增強,以及在潛在表示上。以下小節將為每個類別說明整體框架和代表性的論文。
規劃器
在RL中的規劃指的是在一個假想的環境中決策應采取的行動的過程,然后選擇最佳行動以最大化累積獎勵信號。這個過程通常模擬或探索不同的行動和狀態序列,預測其決策的結果,從而從更長時間范圍的角度產生更好的行動。因此,規劃通常應用于MBRL框架中。然而,用于規劃的決策序列是自回歸生成的,這可能導致嚴重的累積誤差,尤其是在離線設置中,由于數據支持有限。擴散模型提供了一個可能的解決方案,因為它們可以同時生成整個序列。擴散模型作為規劃器的一般框架顯示在圖2(a)中。
策略
與傳統的RL分類相比,傳統分類大致將RL算法分為MBRL和無模型RL,使用擴散模型作為規劃器類似于MBRL,并專注于捕捉環境動態。相反,將擴散模型視為策略遵循無模型RL的框架。第2.1節闡述了離線策略學習框架的主要缺點:過于保守和在多樣化數據集上的能力較差。憑借其對多模態分布的出色表達能力,許多工作利用擴散模型作為策略來解決這些問題。
**數據合成器 **
除了適應多模態分布外,擴散模型的一個簡單且常見的用途是生成更多的訓練樣本,這在計算機視覺中得到了廣泛應用并得到了驗證。因此,將擴散模型作為RL數據集上的數據合成器是自然的,因為如第2.2節所述,數據稀缺是RL的實際挑戰。為了保證合成數據與環境動態的一致性,RL中的先前數據增強方法通常在現有狀態和動作中添加小的擾動 [Sinha等,2021]。相比之下,圖2(c)說明擴散模型從整個數據集D學習數據分布,并能在保持一致性的同時生成高度多樣化的數據。Lu等[2023b]研究了擴散模型作為數據合成器在離線和在線設置中的能力。它直接從離線數據集或在線回放緩沖區訓練擴散模型,然后生成更多的樣本以改進策略。分析顯示,擴散模型生成的數據質量在多樣性和準確性上高于明確數據增強生成的數據。有了合成數據,離線策略的性能和在線策略的樣本效率都得到了顯著提高。He等[2023a]部署擴散模型來增強多任務離線數據集的數據,并獲得了比單任務數據集更好的性能。它聲稱在多個任務上進行擬合可能會實現任務之間的隱式知識共享,這也受益于擴散模型的多模態特性。
結論
本綜述提供了一個全面的概述,關于擴散模型在RL領域的應用的現代研究努力。根據擴散模型所扮演的角色,我們將現有的方法分類為使用擴散模型作為規劃器、策略、數據合成器,以及其他不太受歡迎的角色,如價值函數、潛在表示模型等。通過與傳統解決方案進行比較,我們可以看到擴散模型是如何解決RL中一些長期存在的挑戰,即,受限的表達性、數據稀缺、累積誤差和多任務泛化。盡管有這些優點,但必須承認在RL中使用擴散模型存在不容忽視的局限性,這是由于擴散模型的訓練和采樣中的一些固有屬性。值得強調的是,將擴散模型融入RL仍然是一個新興領域,還有很多研究課題值得探索。在這里,我們概述了四個前景研究方向,即結合Transformer、增強生成的檢索、整合安全約束和組合不同的技能。
**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。
//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a
1. 引言
一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。
最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型
本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架
GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。
Imagen:用預訓練語言模型編碼文本。
繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。
隱空間框架
穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。
3. 文本到圖像擴散模型的改進
3.1改進模型架構
關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖
盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。
3.3 面向概念控制的文本反轉
文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。
3.4 分布外檢索
SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。