摘要——擴散語言模型(Diffusion Language Models,DLMs)正迅速崛起,成為主流自回歸(autoregressive, AR)范式的一種強大且極具潛力的替代方案。通過在迭代去噪過程中并行生成 token,DLMs 在降低推理延遲和捕獲雙向上下文方面具有天然優勢,從而能夠對生成過程進行細粒度控制。在實現數倍推理加速的同時,近期的研究進展已使 DLMs 的性能可與自回歸模型相媲美,使其在多種自然語言處理任務中成為具有吸引力的選擇。盡管 DLMs 的應用日益普及,但其仍存在需要進一步探索的挑戰與機遇,這需要對其原理、技術與局限性進行系統且深入的理解。在本綜述中,我們對當前 DLM 領域進行了整體性梳理。我們追溯了其演化歷程以及與其他范式(如自回歸模型和掩碼語言模型)的關系,涵蓋了基礎原理與最新前沿模型。本研究還提供了最新、全面的分類體系,并深入分析了當前技術,從預訓練策略到先進的后訓練方法。另一項貢獻是全面回顧了 DLM 的推理策略與優化方法,包括解碼并行化、緩存機制以及生成質量提升等方面的改進。我們還重點介紹了 DLM 在多模態擴展上的最新方法,并闡述了其在多種實際場景中的應用。此外,我們討論了 DLM 的局限與挑戰,包括效率、長序列處理以及基礎設施需求,并展望了支撐該快速發展領域持續進步的未來研究方向。項目 GitHub 地址://github.com/VILA-Lab/Awesome-DLMs。
關鍵詞——擴散語言模型,大語言模型,擴散模型,擴散式大語言模型,語言建模,多模態語言模型
近期在通用人工智能(AGI)方面的進展,主要得益于自回歸大型語言模型(autoregressive large language models,LLMs)[1]–[7] 的出現,以及面向圖像與視頻生成的擴散模型(diffusion models)[8]–[12] 的興起。這些模型在跨多種模態的理解與生成任務中展現出了非凡能力,達到了過去難以想象的性能水平。它們在參數規模、數據集體量、訓練投入以及推理階段的計算開銷等方面的前所未有的規模,推動了人工智能達到新的高度,使得這些模型具備廣泛的通用知識以及對語言與真實世界的深刻理解。 GPT 系列 [1], [13], [14] 的崛起,尤其是 ChatGPT [2] 的公開發布,使得自回歸(AR)語言模型在自然語言處理領域占據了主導地位。AR 模型通過因果注意力(causal attention)與教師強制(teacher forcing)來預測下一個 token [4], [15], [16],能夠高效擴展至大規模數據集和模型規模。在推理時,AR 模型以逐 token 順序生成文本,在支持從簡單問答到復雜推理與創意寫作的廣泛任務中表現出色。然而,這種順序生成的特性在推理速度上形成了主要瓶頸——AR 模型一次僅能生成一個 token,天生缺乏并行性,從而顯著限制了計算效率與吞吐量。
擴散模型則是另一種極具潛力的生成范式。它們通過迭代去噪(denoising)過程,從逐步加噪的數據中恢復原始數據,并在生成階段以相反順序逆轉這一隨機擾動過程。在復雜數據分布建模方面,擴散模型已在圖像與視頻合成中實現了最新的性能記錄 [17]。擴散建模的學術突破 [18]–[21] 為訓練與推理奠定了堅實的理論基礎;同時,大規模實用模型如 Stable Diffusion [8], [10], [11]、Imagen [9] 與 Sora [12] 展現了擴散范式在可擴展性與泛化能力上的非凡表現——只需幾行文本提示,即可生成高保真、藝術級別的圖像與視頻。除對復雜數據分布的強大建模能力外,擴散模型還具有并行性的天然優勢:通過迭代去噪,它們可以一次性生成多個 token,甚至整個序列,從而在推理吞吐與現代并行計算硬件利用率上具備潛在優勢。盡管在建模離散數據和處理動態序列長度方面仍存在挑戰,擴散語言模型(Diffusion Language Models, DLMs)已逐漸成為在生成質量與速度權衡上頗具吸引力的替代方案。
為了將擴散方法適配于離散語言數據,已有多種關鍵方法被提出。早期 DLMs 的發展主要受益于擴散模型在連續域(如圖像生成)的成功。連續型 DLMs 會將 token 映射到嵌入向量,在連續空間中進行去噪,如 Diffusion-LM [22] 與 SED [23]。離散型 DLMs 則直接在 token 空間定義擴散過程,早期方法如 D3PM [24] 引入了帶有吸收態(absorbing states)的結構化轉移矩陣,實現了 token 級的擾動與迭代去噪;后續工作如 DiffusionBERT [25] 則結合了預訓練掩碼語言模型(如 BERT)以提升去噪質量,并提出了定制化的噪聲調度策略(如 spindle schedule)以更好地匹配 token 擾動與詞頻分布。這些早期模型證明了將迭代去噪應用于非自回歸文本生成的可行性,并帶來了可控性與并行性,但其性能仍落后于強大的自回歸基線。隨著 DLMs 核心挑戰的逐步解決與范式的成熟,更大規模的 DLMs 得以構建。例如,通過從自回歸模型初始化,Dream [26] 與 DiffuLLaMA [27] 等 70 億參數級模型證明了 DLMs 可在利用已有模型的同時實現具競爭力的性能;LLaDA-8B [28] 更進一步展示了從零訓練 DLMs 的潛力,其性能可與同規模的 LLaMA3-8B 相媲美。多模態 DLMs(又稱擴散多模態大語言模型,dMLLMs)也展現了在混合數據(如文本與圖像)建模上的前景,基于開源 DLMs 的 LLaDA-V [29]、Dimple [30] 與 MMaDA [31] 等模型,將跨模態推理與生成融入擴散框架中。同時,業界也開始展現出對 DLMs 的濃厚興趣,如 Mercury 系列 [32] 與 Gemini Diffusion [33] 在報告中不僅取得了出色性能,還實現了每秒生成數千 token 的推理速度。這些進展凸顯了 DLMs 日益增長的實用性與商業潛力。
DLMs 在訓練與推理階段也呈現出獨特的挑戰與機遇。預訓練通常借鑒自回歸語言模型或圖像擴散模型的策略 [26], [30], [31];為加快訓練并復用已有成果,許多 DLMs 直接從預訓練的自回歸模型權重初始化 [26], [27]。在監督微調(SFT)階段,DLMs 與 AR 模型類似,通過干凈的提示數據學習生成目標補全。強化學習(RL)也被用于 DLMs 的后訓練階段,以提升復雜任務性能;在 GRPO [41] 算法基礎上,diffu-GRPO [42] 與 UniGRPO [31] 等變體被提出,以增強大規模 DLMs 的推理能力與對齊效果。在推理階段,連續型 DLMs 可利用 ODE/SDE 求解器或少步生成技術來加速迭代去噪過程 [43];針對離散型 DLMs 在并行生成方面的更多挑戰,已有專門的并行解碼策略 [30], [44], [45],以在單步中接受多個 token,克服并行瓶頸;解掩碼與再掩碼(unmasking/remasking)策略 [28], [46] 則通過有選擇地揭示低置信度 token 來提升生成質量;而緩存技術 [47], [48] 則可顯著減少計算量并提升推理速度,這對兩類 DLMs 都適用。 相較于自回歸模型,擴散語言模型普遍被認為具有以下優勢: * 并行生成:DLMs 可通過迭代去噪過程并行生成多個 token,大幅提升推理速度與吞吐量。 * 雙向上下文:DLMs 自然融合雙向上下文,能夠進行更細膩的語言理解與生成,并產生更豐富的上下文嵌入,這對于跨模態生成任務尤為有益,也支持對生成過程的精細化控制。 * 迭代精煉:迭代去噪過程允許 DLMs 在多個步驟中不斷更新生成結果。通過提前接受高置信度 token、保留低置信度區域為掩碼,掩碼式 DLMs 可逐步改進不確定部分,從而生成更連貫、更高質量的文本。 * 可控性:DLMs 可在特定 token 位置或結構上進行條件生成,適用于填空(infilling)和結構化生成等任務;此外,分類器自由引導(classifier-free guidance)等技術還能更好地控制生成風格與語義相關性。 * 跨模態統一建模:基于統一的去噪建模框架,DLMs 天然支持文本與視覺的聯合生成任務,這使其在需要生成與理解能力一體化的多模態應用中具有獨特潛力。
盡管近年來 DLMs 熱度迅速攀升,但尚缺乏一篇系統覆蓋整個 DLM 生態的全面綜述。我們在本綜述的結構安排如下:第 2 節對現代語言建模范式進行全面回顧,包括自回歸、掩碼式與基于擴散的方法;第 3 節深入探討 DLMs 的訓練方法,包括預訓練、監督微調(SFT)與強化學習(RL)對齊等技術;第 4 節介紹多種推理策略與優化方法,重點關注適用于連續與離散空間模型的技術;第 5 節探討擴散模型在多模態場景下的拓展,綜述 LLaDA-V [29]、MMaDA [31]、Dimple [30] 等前沿架構;第 6 節呈現并可視化 DLMs 的性能對比;第 7 節展示 DLMs 在文本生成、代碼生成、計算生物學等多種任務中的應用;第 8 節則討論 DLMs 面臨的挑戰與局限,包括效率、推理能力、智能體能力及基礎設施等問題,并展望未來的研究方向。為提供整體性概覽,我們在圖 3 中給出了 DLMs 的分類體系。
近期在通用人工智能(AGI)方面的進展,主要得益于自回歸大型語言模型(autoregressive large language models,LLMs)[1]–[7] 的出現,以及面向圖像與視頻生成的擴散模型(diffusion models)[8]–[12] 的興起。這些模型在跨多種模態的理解與生成任務中展現出了非凡能力,達到了過去難以想象的性能水平。它們在參數規模、數據集體量、訓練投入以及推理階段的計算開銷等方面的前所未有的規模,推動了人工智能達到新的高度,使得這些模型具備廣泛的通用知識以及對語言與真實世界的深刻理解。 GPT 系列 [1], [13], [14] 的崛起,尤其是 ChatGPT [2] 的公開發布,使得自回歸(AR)語言模型在自然語言處理領域占據了主導地位。AR 模型通過因果注意力(causal attention)與教師強制(teacher forcing)來預測下一個 token [4], [15], [16],能夠高效擴展至大規模數據集和模型規模。在推理時,AR 模型以逐 token 順序生成文本,在支持從簡單問答到復雜推理與創意寫作的廣泛任務中表現出色。然而,這種順序生成的特性在推理速度上形成了主要瓶頸——AR 模型一次僅能生成一個 token,天生缺乏并行性,從而顯著限制了計算效率與吞吐量。 擴散模型則是另一種極具潛力的生成范式。它們通過迭代去噪(denoising)過程,從逐步加噪的數據中恢復原始數據,并在生成階段以相反順序逆轉這一隨機擾動過程。在復雜數據分布建模方面,擴散模型已在圖像與視頻合成中實現了最新的性能記錄 [17]。擴散建模的學術突破 [18]–[21] 為訓練與推理奠定了堅實的理論基礎;同時,大規模實用模型如 Stable Diffusion [8], [10], [11]、Imagen [9] 與 Sora [12] 展現了擴散范式在可擴展性與泛化能力上的非凡表現——只需幾行文本提示,即可生成高保真、藝術級別的圖像與視頻。除對復雜數據分布的強大建模能力外,擴散模型還具有并行性的天然優勢:通過迭代去噪,它們可以一次性生成多個 token,甚至整個序列,從而在推理吞吐與現代并行計算硬件利用率上具備潛在優勢。盡管在建模離散數據和處理動態序列長度方面仍存在挑戰,擴散語言模型(Diffusion Language Models, DLMs)已逐漸成為在生成質量與速度權衡上頗具吸引力的替代方案。 為了將擴散方法適配于離散語言數據,已有多種關鍵方法被提出。早期 DLMs 的發展主要受益于擴散模型在連續域(如圖像生成)的成功。連續型 DLMs 會將 token 映射到嵌入向量,在連續空間中進行去噪,如 Diffusion-LM [22] 與 SED [23]。離散型 DLMs 則直接在 token 空間定義擴散過程,早期方法如 D3PM [24] 引入了帶有吸收態(absorbing states)的結構化轉移矩陣,實現了 token 級的擾動與迭代去噪;后續工作如 DiffusionBERT [25] 則結合了預訓練掩碼語言模型(如 BERT)以提升去噪質量,并提出了定制化的噪聲調度策略(如 spindle schedule)以更好地匹配 token 擾動與詞頻分布。這些早期模型證明了將迭代去噪應用于非自回歸文本生成的可行性,并帶來了可控性與并行性,但其性能仍落后于強大的自回歸基線。隨著 DLMs 核心挑戰的逐步解決與范式的成熟,更大規模的 DLMs 得以構建。例如,通過從自回歸模型初始化,Dream [26] 與 DiffuLLaMA [27] 等 70 億參數級模型證明了 DLMs 可在利用已有模型的同時實現具競爭力的性能;LLaDA-8B [28] 更進一步展示了從零訓練 DLMs 的潛力,其性能可與同規模的 LLaMA3-8B 相媲美。多模態 DLMs(又稱擴散多模態大語言模型,dMLLMs)也展現了在混合數據(如文本與圖像)建模上的前景,基于開源 DLMs 的 LLaDA-V [29]、Dimple [30] 與 MMaDA [31] 等模型,將跨模態推理與生成融入擴散框架中。同時,業界也開始展現出對 DLMs 的濃厚興趣,如 Mercury 系列 [32] 與 Gemini Diffusion [33] 在報告中不僅取得了出色性能,還實現了每秒生成數千 token 的推理速度。這些進展凸顯了 DLMs 日益增長的實用性與商業潛力。
DLMs 在訓練與推理階段也呈現出獨特的挑戰與機遇。預訓練通常借鑒自回歸語言模型或圖像擴散模型的策略 [26], [30], [31];為加快訓練并復用已有成果,許多 DLMs 直接從預訓練的自回歸模型權重初始化 [26], [27]。在監督微調(SFT)階段,DLMs 與 AR 模型類似,通過干凈的提示數據學習生成目標補全。強化學習(RL)也被用于 DLMs 的后訓練階段,以提升復雜任務性能;在 GRPO [41] 算法基礎上,diffu-GRPO [42] 與 UniGRPO [31] 等變體被提出,以增強大規模 DLMs 的推理能力與對齊效果。在推理階段,連續型 DLMs 可利用 ODE/SDE 求解器或少步生成技術來加速迭代去噪過程 [43];針對離散型 DLMs 在并行生成方面的更多挑戰,已有專門的并行解碼策略 [30], [44], [45],以在單步中接受多個 token,克服并行瓶頸;解掩碼與再掩碼(unmasking/remasking)策略 [28], [46] 則通過有選擇地揭示低置信度 token 來提升生成質量;而緩存技術 [47], [48] 則可顯著減少計算量并提升推理速度,這對兩類 DLMs 都適用。 相較于自回歸模型,擴散語言模型普遍被認為具有以下優勢: * 并行生成:DLMs 可通過迭代去噪過程并行生成多個 token,大幅提升推理速度與吞吐量。 * 雙向上下文:DLMs 自然融合雙向上下文,能夠進行更細膩的語言理解與生成,并產生更豐富的上下文嵌入,這對于跨模態生成任務尤為有益,也支持對生成過程的精細化控制。 * 迭代精煉:迭代去噪過程允許 DLMs 在多個步驟中不斷更新生成結果。通過提前接受高置信度 token、保留低置信度區域為掩碼,掩碼式 DLMs 可逐步改進不確定部分,從而生成更連貫、更高質量的文本。 * 可控性:DLMs 可在特定 token 位置或結構上進行條件生成,適用于填空(infilling)和結構化生成等任務;此外,分類器自由引導(classifier-free guidance)等技術還能更好地控制生成風格與語義相關性。 * 跨模態統一建模:基于統一的去噪建模框架,DLMs 天然支持文本與視覺的聯合生成任務,這使其在需要生成與理解能力一體化的多模態應用中具有獨特潛力。
盡管近年來 DLMs 熱度迅速攀升,但尚缺乏一篇系統覆蓋整個 DLM 生態的全面綜述。我們在本綜述的結構安排如下:第 2 節對現代語言建模范式進行全面回顧,包括自回歸、掩碼式與基于擴散的方法;第 3 節深入探討 DLMs 的訓練方法,包括預訓練、監督微調(SFT)與強化學習(RL)對齊等技術;第 4 節介紹多種推理策略與優化方法,重點關注適用于連續與離散空間模型的技術;第 5 節探討擴散模型在多模態場景下的拓展,綜述 LLaDA-V [29]、MMaDA [31]、Dimple [30] 等前沿架構;第 6 節呈現并可視化 DLMs 的性能對比;第 7 節展示 DLMs 在文本生成、代碼生成、計算生物學等多種任務中的應用;第 8 節則討論 DLMs 面臨的挑戰與局限,包括效率、推理能力、智能體能力及基礎設施等問題,并展望未來的研究方向。為提供整體性概覽,我們在圖 3 中給出了 DLMs 的分類體系。
專門化大型語言模型(LLMs)的快速發展已經從單純的領域自適應演進到更為復雜的原生架構設計,標志著人工智能發展范式的轉變。本文系統性地回顧了這一進程,涵蓋醫療、金融、法律和技術等領域。除了專門化LLMs的廣泛應用外,近期在LLM智能體中也出現了一系列技術突破,例如:超越微調的領域原生設計、通過稀疏計算與量化提升參數效率、以及日益增強的多模態能力集成等。我們的分析揭示了這些創新如何解決通用LLMs在專業應用中的根本局限性,并顯示專門化模型在特定領域基準測試上持續取得性能提升。此外,本綜述還強調了其在電子商務領域的應用潛力,以彌補該領域的研究空白。
大型語言模型(Large Language Models, LLMs)的快速發展開啟了人工智能的新紀元,正在深刻改變我們處理信息、解決問題以及與技術交互的方式。雖然通用型LLM(如GPT-4)在廣泛任務上展現了卓越的能力,但在面對專業化、領域特定的挑戰時,其性能往往會顯著下降。這一局限催生了一種重要的范式轉變——專門化LLM的興起,它們旨在滿足醫學、法律、金融和工程等專業領域的嚴格需求。 領域專門化的需求源于多個關鍵因素,而這些往往是通用模型難以充分應對的。首先,專業領域通常需要對技術術語和概念框架進行精確理解,而這些內容遠超日常語言的使用范圍。例如,在醫療領域,模型必須能夠準確解讀臨床術語、診斷編碼以及復雜的醫學關系,才能具有臨床實用價值。其次,專業領域涉及的推理模式和知識結構常常與日常語言使用存在顯著差異。金融分析依賴于對市場趨勢的時間序列推理,法律實踐要求對法規條文進行精確解釋,而醫學診斷則取決于概率性的臨床推理——所有這些方面都是通用LLM存在明顯缺陷的地方。 專門化LLM的發展經歷了若干階段,每一階段都伴隨著針對既有局限性的技術創新。早期方法主要集中于在通用模型的基礎上繼續進行領域特定語料的預訓練,例如BioGPT將GPT-2改造為適應生物醫學應用(Luo et al., 2022)。隨后,出現了引入領域感知組件的架構創新,例如BloombergGPT引入金融時間序列嵌入,Med-PaLM 2則集成了臨床推理模塊(Singhal et al., 2023)。最近,又出現了結合LLM與符號知識庫及動態適應機制的混合系統,如BLADE的知識注入框架(Xu et al., 2024b)和Self-MoE的專家路由機制(Yang et al., 2024)。 當前的專門化LLM格局呈現出幾個重要趨勢。首先,研究界日益認識到模型規模本身并不能保證領域能力——一些較小但經過精心設計的模型(如BioMedLM,參數規模2.7B)(Bolton et al., 2024),在專門任務中甚至能夠超越規模更大的通用模型。其次,評估方法更加嚴格,逐漸引入專家評估和領域特定基準,而不僅僅依賴于通用語言理解指標。例如,一項牙科種植學研究采用了由資深專家進行的多維度評估,涵蓋40個專業問題和5個復雜案例(Zhang et al., 2025)。第三,越來越強調真實場景的適用性,模型不僅需要在靜態問答中表現良好,還需要能夠應對動態、交互式的場景,以更好地模擬專業實踐。 然而,專門化LLM的發展與部署仍面臨重大挑戰。知識時效性是一個長期問題,尤其在醫學和金融等快速演化的領域中,過時的信息可能帶來嚴重后果。評估方法仍難以全面捕捉專業判斷的細微差別,往往依賴于代理指標而非直接衡量真實世界的有效性。偏見、責任與適當使用等倫理問題也持續使其在高風險領域的部署更加復雜。或許最根本的挑戰在于:當前LLM的靜態特性限制了其適應新信息和不斷演化的專業標準的能力,這也推動了對自進化架構(self-evolving architectures)的日益濃厚興趣(Yao et al., 2023)。 本綜述旨在對專門化LLM的發展格局進行全面梳理,分析其架構創新、應用成效及持續存在的挑戰(Chen et al., 2023; Wu et al., 2023)。我們系統性地考察了2022年至2025年間提出的48個前沿模型,識別其關鍵技術趨勢與性能特征。我們的分析揭示了不同專門化策略(從持續預訓練到混合增強)如何影響模型在各專業領域的能力。同時,我們還探討了專門化LLM發展的新興方向,包括自進化架構、多模態集成以及輕量化部署策略。
摘要—視覺—語言模型(Vision-Language Models, VLMs)在廣泛任務中展現出卓越的泛化能力。然而,當直接應用于特定下游場景且未經過任務特定的適配時,其性能往往并不理想。為了在保持數據高效性的同時提升其實用性,近年來的研究日益聚焦于不依賴標注數據的無監督適配方法。盡管這一方向的關注度不斷上升,但仍缺乏一個面向任務的、專門針對無監督 VLM 適配的統一綜述。為彌補這一空白,本文對該領域進行了全面且結構化的梳理。我們提出了一種基于無標注視覺數據可得性及其性質的分類方法,將現有方法劃分為四種核心范式:無數據遷移(Data-Free Transfer,無數據)、無監督領域遷移(Unsupervised Domain Transfer,充足數據)、情景式測試時適配(Episodic Test-Time Adaptation,批量數據)和在線測試時適配(Online Test-Time Adaptation,流式數據)。在這一框架下,我們分析了各范式對應的核心方法與適配策略,旨在構建對該領域的系統化理解。此外,我們還回顧了多種應用場景下的代表性基準,并指出了開放挑戰與未來研究的潛在方向。相關文獻的持續更新倉庫可訪問://github.com/tim-learn/Awesome-LabelFree-VLMs。 關鍵詞—無監督學習,測試時適配,多模態學習,視覺—語言模型。 I. 引言
視覺—語言模型(Vision-Language Models, VLMs),如 CLIP [1]、ALIGN [2]、Flamingo [3] 和 LLaVA [4],憑借強大的跨模態推理能力,已在學術界和工業界引起了廣泛關注。這類模型通過大規模數據集 [5] 學習圖像—文本的聯合表示,并在多種任務中展現出令人印象深刻的零樣本(zero-shot)性能與泛化能力。VLMs 已成功應用于多個領域,包括自動駕駛 [6]、機器人技術 [7]、異常檢測 [8] 以及跨模態檢索 [9]。 然而,由于預訓練階段無法覆蓋下游任務與環境的全部多樣性,將 VLMs 適配于特定應用仍是一項核心挑戰。早期的研究主要依賴有監督微調 [10]–[13],利用帶標注樣本挖掘更多知識。盡管該方法在性能上有效,但依然面臨高標注成本,以及在訓練與測試數據存在分布偏移(distribution shift)[14] 時的性能下降問題。為應對這些局限,越來越多的研究開始探索無監督適配技術 [15]–[20]。這些方法——通常被稱為零樣本推理 [21]–[23]、測試時方法(test-time methods)[18], [24], [25],或無監督調優 [17], [26], [27]——旨在無需昂貴標注即可提升 VLMs 在下游任務中的表現。實踐表明,這類方法在圖像分類 [15], [17], [18]、圖像分割 [16], [28], [29]、醫學影像診斷 [30], [31] 以及動作識別 [32], [33] 等任務中均取得了顯著成效。 鑒于該研究領域的快速發展,本文旨在對現有 VLM 無監督適配方法進行全面且結構化的綜述。據我們所知,這是首個圍繞無標注視覺數據可得性提出分類體系的工作——這一因素在實際部署中至關重要,卻往往被忽視。如圖 1 所示,我們將現有方法劃分為四種范式: 1. 無數據遷移(Data-Free Transfer)[15], [16], [21]:僅利用文本類別名稱來適配模型; 1. 無監督領域遷移(Unsupervised Domain Transfer)[17], [34], [35]:利用來自下游任務的充足無標注數據; 1. 情景式測試時適配(Episodic Test-Time Adaptation)[18], [24], [36]:針對一批測試樣本進行適配; 1. 在線測試時適配(Online Test-Time Adaptation)[19], [23], [25]:應對流式到達的測試數據。
這一分類體系為理解 VLM 無監督適配的研究版圖提供了系統化框架,有助于實踐者選擇合適的技術路徑,同時也有助于未來在同一范式下進行公平比較。 本文的組織結構如圖 2 所示:第 II 節概述了與 VLM 無監督學習相關的研究主題;第 III 節介紹了 VLM 的零樣本推理,并提出基于無標注視覺數據可得性的分類體系;第 IV–VII 節為本文核心內容,分別分析無數據遷移、無監督領域遷移、情景式測試時適配以及在線測試時適配中的現有方法;第 VIII 節探討無監督技術在多種應用場景中的實踐及相關基準,擴展對其實際意義和應用價值的認識;第 IX 節總結該領域的新興趨勢,并指出可能激發未來研究的關鍵科學問題。 與已有綜述的對比。 近年來,一些綜述性工作 [37]–[40] 涉及了無監督適配與 VLM 微調的不同方面。現有研究 [40]–[42] 多聚焦于單模態模型遷移,雖然對該領域進行了深入分析,但對 VLM 的覆蓋較為有限。較早的工作 [37] 討論了 VLM 的預訓練階段,并簡要分析了其在視覺任務上的微調方法;另一篇綜述 [38] 涉及多模態模型的適配與泛化,但粒度較為粗略;近期工作 [39] 從參數空間視角審視 VLM 下游任務的泛化,并回顧了相關方法。盡管這些綜述提供了有價值的見解,但本文首次基于無標注視覺數據可得性提出了分類體系,并在每個范式下深入分析前沿技術,我們認為這是對該領域的一個新穎且關鍵的補充,尤其對 VLM 的實際部署具有重要意義。
摘要——多模態指代分割旨在根據文本或語音格式的指代表達,在圖像、視頻和三維場景等視覺場景中分割目標物體。這一任務在需要根據用戶指令進行精準目標感知的實際應用中發揮著關鍵作用。過去十年間,得益于卷積神經網絡、Transformer 以及大語言模型的快速發展,該任務在多模態領域受到廣泛關注,極大推動了多模態感知能力的提升。本文對多模態指代分割進行了全面綜述。我們首先介紹該領域的背景,包括問題定義和常用數據集。隨后,總結了一種統一的指代分割元架構,并系統回顧了在圖像、視頻和三維場景三類主要視覺場景中的代表性方法。我們還進一步探討了解決真實世界復雜性挑戰的廣義指代表達(GREx)方法,以及相關任務與實際應用。此外,文中還在標準基準上提供了廣泛的性能對比。我們持續維護相關工作的追蹤鏈接://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation。 關鍵詞——綜述,多模態指代分割,指代表達分割,指代視頻目標分割,指代視聽分割,三維指代表達分割,多模態學習,視覺-語言
1 引言
多模態指代分割(Multimodal Referring Segmentation)[1]–[7] 旨在根據指代表達(referring expression),如自由文本或音頻,對圖像 [2][3]、視頻 [1][8] 或三維場景 [7][9] 中的目標對象進行分割。例如,如圖 1(b) 所示,給定文本指代表達 “The bird flying away”,模型應能在視頻中分割并跟蹤所描述的目標對象。該任務是多模態理解中的一個基礎且具有挑戰性的問題,支持廣泛的實際應用,如圖像/視頻編輯 [10][11]、機器人 [12]、自動駕駛 [13] 等。由于其在實際中的巨大應用潛力,多模態指代分割在近年來引起了越來越多的關注,如圖 3 所示。 分割(Segmentation)[14]–[16] 是計算機視覺中的基本任務之一,構成了許多視覺理解任務和應用的基礎 [17]。傳統的分割方法,如語義分割(semantic segmentation)[14] 和實例分割(instance segmentation)[15],通常將視覺場景劃分為一組預定義類別。盡管開放詞匯分割(open-vocabulary segmentation)[18] 擴展了類別覆蓋范圍,但其仍依賴于顯式的類別名稱(如“人”、“車”等)。與這些經典分割任務不同,指代分割通過利用自由形式的指代表達,實現了更靈活、以用戶為中心的分割,能夠識別場景中的特定目標對象。 所謂指代表達,是一種人類可理解的語言表達方式,用于以任何能夠唯一、明確指代對象的方式對其進行描述。這類表達不局限于類別命名,還可以涉及目標對象的位置、視覺屬性、運動狀態或與其他對象的關系。只要表達能夠實現對目標的唯一識別,其描述策略均被視為有效。這種高度表達自由性帶來了對細粒度多模態理解與對齊的重大挑戰,也對模型在應對多樣表達風格與語言-視覺變異方面的魯棒性提出了更高要求。 根據指代表達的模態(如文本或音頻)和視覺場景的類型(如圖像、視頻、視聽視頻或三維場景),指代分割任務可進一步細分,如圖 1 所示。
盡管不同指代分割任務之間具有一定的共性,但現有綜述文獻 [24]–[28] 大多局限于特定模態或任務類型。例如,近期一篇綜述 [29] 僅關注二維圖像上的指代表達分割,忽略了對視頻和三維場景的擴展。因此,當前文獻仍存在關鍵空白,缺乏系統覆蓋多樣任務形式、輸入模態與挑戰的綜合性綜述。填補這一空白對于加深該領域理解、推動通用化和多模態方法的發展至關重要。 為此,我們對多模態指代分割領域中 600 多篇論文進行了全面回顧。本文旨在統一不同視覺場景下的多樣指代模態,為該領域提供連貫、結構化的理解,以提升其可接近性并促進跨任務洞察。此外,我們也強調了指代表達技術在實際應用中的潛力,特別是在具身智能(Embodied AI)等新興領域中的變革性作用。
綜述范圍:本文聚焦于圖像、視頻(包括顯著性視頻與視聽視頻)和三維場景三大類視覺場景中的指代分割研究,以及文本、音頻與全模態(omnimodal)三種主要指代模態,如圖 4 所示。我們主要回顧基于深度學習的方法,重點介紹發表于頂級會議和期刊的代表性研究成果,并納入具有前瞻性的近期預印本,以反映新興趨勢與未來方向。 * 文章結構:如圖 2 所示,本文結構如下:第 2 節介紹任務定義與常用數據集;第 3 節提出統一的指代分割元架構;在該架構下,第 4 至第 7 節系統回顧圖像、視頻與三維場景中的代表性方法。第 8 節討論面向真實復雜場景的廣義指代表達(GREx)方法;第 9 節探討相關任務與應用;第 10 節為總結與未來討論。附錄中還提供了基準性能對比結果。
摘要
近年來,隨著 ChatGPT 等服務推動大語言模型(LLM)的快速普及,一批專門面向 LLM 推理的系統相繼涌現,如 vLLM、SGLang、Mooncake 和 DeepFlow。這些系統設計工作的核心動因是 LLM 請求處理過程中所特有的自回歸特性,該特性促使研究者提出多種新技術,以在應對高吞吐量與高并發負載的同時,兼顧推理性能與結果質量。盡管相關技術在文獻中已有廣泛討論,但尚未在完整推理系統的框架下進行系統性分析,現有系統之間也缺乏深入的對比與評估。 本綜述系統梳理了上述技術,內容涵蓋從請求處理所涉及的算子與算法出發,逐步延伸至模型優化與執行相關技術(包括算子內核設計、批處理機制與調度策略),最后探討內存管理方面的方法,例如分頁內存、淘汰與卸載策略、量化和緩存持久化。通過上述分析,我們指出這些技術在本質上依賴于負載預測、自適應機制與成本優化,以克服自回歸生成所帶來的挑戰,并實現系統設計目標。隨后,我們進一步探討了如何將這些技術組合構建單副本與多副本推理系統,其中包括資源解耦型推理系統(disaggregated inference systems),它們可實現更靈活的資源分配,以及可部署于共享硬件基礎設施上的無服務器系統(serverless systems)。最后,我們討論了該領域仍然面臨的若干關鍵挑戰。
1 引言
自從序列生成任務從循環神經網絡(RNN)轉向 Transformer 架構以來 [97],大語言模型(LLM)的質量已顯著提升,使其能夠勝任各類任務,包括通用交互式問答 [9]、文檔摘要與分類 [96]、語言翻譯 [27]、代碼生成 [16]、數據整理 [72] 以及非結構化數據分析 [100]。這一技術突破推動了 LLM 在工業界和消費市場的指數級增長,ChatGPT、Gemini、Claude、Grok、Kimi 和 DeepSeek 等服務的迅速普及也對高性能模型服務系統提出了更高要求。 為了滿足這一需求,研究者開發了專門的 LLM 推理系統,用于管理模型執行的各個方面。這不僅包括基本的 LLM 推理流程,還涵蓋系統層面的負載均衡、任務批處理、調度策略以及內存管理等,借鑒了早期高吞吐量、高速數據處理系統的設計經驗。然而,由于基于 Transformer 的 LLM 推理具有自回歸生成這一獨特特性,導致上述各方面均需采用新技術進行改造。 與傳統數據處理系統通過單次執行一系列算子完成請求處理不同,LLM 推理通常需要多輪執行,次數與輸出長度成正比。每個請求的輸入形式都是文本字符串,輸出長度則以非確定性的方式依賴于文本內容。由于用戶可以輸入任意內容,幾乎無法定義“典型”的輸出長度,因此請求處理成本(尤其是內存成本)在不同請求之間可能出現極大差異,即使它們的輸入表面上相似1。 這種輸出的根本非確定性為 LLM 推理系統帶來了三大關鍵挑戰:(1)盡管近期取得了顯著進展,但模型輸出的質量(即輸出是否滿足請求表達的任務目標)仍無法保證,因為其生成過程基于隨機采樣而非確定性數據構建;(2)執行輪數的不確定性使得每個請求的最終內存使用量難以預估,給多請求并發處理帶來分配難題;(3)同樣地,請求處理所需時間也不可預知,因此在設計批處理與調度策略時,必須考慮如何避免“拖后腿請求”(straggler)與“隊頭阻塞”(head-of-line blocking)等問題。 為應對上述挑戰,LLM 推理系統采用了一系列貫穿前端與運行時的技術策略,如圖 1 所示。為了提升推理質量,系統支持包括 beam search、思維樹(Tree-of-Thoughts)、思維圖(Graph-of-Thoughts)與自一致性(self-consistency)等多種序列生成方法(圖 1(c)),還結合多種提示工程技巧。同時,前端設計也趨于多樣化,以簡化用戶交互流程(圖 1(a)),支持如自動提示優化與受控輸出生成(圖 1(b))等功能,從而減輕提示設計與流程協調的負擔。 為了適應動態內存需求,推理系統使用基于頁的塊式內存分配策略,輔以緩存持久化與量化技術,以降低整體內存消耗(圖 1(g))。而面對動態請求生命周期,系統依賴基于負載預測機制的動態任務調度、動態批處理與靈活負載均衡策略(圖 1(d, e)),并通過專用算子與高效內核實現來降低總體推理成本(圖 1(f, h))。 本綜述將在一個完整推理系統的框架下系統性地討論這些技術。在第 2 節中,我們介紹實現高質量 LLM 推理所需的基本算子與序列生成算法;第 3 節聚焦批處理與調度技術,以及面向專用硬件的高效內核設計;第 4 節則討論內存管理策略,包括頁式內存、支持請求搶占與長上下文的淘汰與卸載機制、量化方法,以及緩存持久化與重建技術。隨后在第 5 節,我們探討如何將上述技術整合,構建當前主流的 LLM 推理系統,包括部署單個模型副本的系統與支持多副本請求調度的系統,后者特別適用于構建具備資源解耦能力的系統架構,可更靈活地進行硬件資源分配。
相關綜述工作
雖然已有一些綜述涵蓋文中提及的部分技術,但多數研究是在缺乏完整系統框架的前提下對這些技術進行孤立討論。例如,[47, 54, 116, 139] 涉及稀疏注意力、專家混合(MoE)、解碼策略、KV 緩存管理和量化技術等,但均未將其置于系統整體架構中加以討論。[55] 從 KV 緩存管理的角度對若干技術進行了分類總結。[15] 等則主要關注模型架構方面,如模型剪枝、知識蒸餾與量化等優化技術。[48] 更專注于提升推理質量的方法。因此,本文的獨特貢獻在于將這些技術系統化地整合進完整推理系統設計中,并探討它們在實際部署中的協同作用。
摘要—大型語言模型(LLMs)在廣泛的任務中展現出了卓越的能力,但在專業領域的應用仍面臨挑戰,主要原因在于需要深厚的領域專業知識。檢索增強生成(RAG)作為一種有前景的解決方案,通過無縫集成外部知識庫,使大型語言模型能夠在推理過程中實時訪問領域特定的專業知識,從而實現定制化。然而,傳統基于平面文本檢索的RAG系統面臨三個關鍵挑戰:(i)專業領域中復雜的查詢理解,(ii)跨分布式源的知識整合困難,和(iii)大規模下的系統效率瓶頸。本綜述提出了一種系統性的分析,重點討論了基于圖的檢索增強生成(GraphRAG),這是一種通過圖結構革命性地改變領域特定大型語言模型應用的新范式。GraphRAG通過三項關鍵創新解決了傳統RAG的局限性:(i)圖結構的知識表示,顯式捕捉實體關系和領域層次,(ii)高效的基于圖的檢索技術,支持多跳推理的上下文保持型知識檢索,和(iii)結構感知的知識整合算法,通過利用檢索到的知識進行準確且邏輯連貫的LLM生成。本文對GraphRAG的技術基礎進行了系統分析,并考察了在多個專業領域中的現有實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在//github.com/DEEP-PolyU/Awesome-GraphRAG供社區使用。
關鍵詞—檢索增強生成,知識圖譜,大型語言模型,GraphRAG
I. 引言
大型語言模型(LLMs),如GPT系列 [1],憑借其在廣泛任務中的卓越能力,令世界為之一驚,在文本理解 [2]、問答 [3] 和內容生成 [4]–[6] 等領域取得了突破性進展。然而,盡管LLMs在許多任務上表現出色,它們在處理需要領域專業知識的知識密集型任務時仍面臨批評 [7]。具體而言,LLMs在專業領域中的應用仍然面臨三大挑戰: ? 知識局限性:LLMs的預訓練知識廣泛,但在專業領域中較為淺薄。它們的訓練數據主要來自通用領域內容,導致在專業領域的知識深度不足,并且可能與當前的領域特定標準和實踐存在不一致。 ? 推理復雜性:專業領域要求精確的多步驟推理,涉及領域特定的規則和約束。LLMs往往難以在擴展的推理鏈中保持邏輯一致性和專業準確性,尤其是在處理技術約束或領域特定協議時。 ? 上下文敏感性:專業領域通常涉及依賴于上下文的解釋,相同的術語或概念在特定情況下可能具有不同的含義或影響。LLMs往往無法捕捉這些細微的上下文差異,導致潛在的誤解或不當概括。 為了將LLMs適配到特定或私有領域,最初的策略是通過使用專業數據集對LLMs進行微調 [8]。這種方法通過增加有限的參數并固定預訓練中學習到的參數來提高性能 [9]。然而,領域特定數據集與預訓練語料庫之間的顯著分布差距使得LLMs在不妥協現有理解的情況下整合新知識變得困難 [10]。谷歌研究的一項最新研究進一步突出了使用監督微調更新知識的風險,特別是在新知識與已有信息沖突時;通過監督微調獲取新知識可能導致模型生成新的幻覺,甚至遭遇嚴重的災難性遺忘 [11]。 檢索增強生成(RAG) 提供了一個有前景的解決方案來定制LLMs以適應特定領域 [12]。RAG并不是通過重新訓練LLMs來整合更新,而是通過利用外部知識庫增強這些模型,無需修改其架構或參數。這種方法使LLMs不僅能利用其預訓練知識,還能實時檢索領域特定信息,從而生成更加準確和可靠的回答。傳統的RAG系統通過三個關鍵步驟進行操作:知識準備、檢索和整合。在知識準備階段,外部資源(如文檔、數據庫或網頁)被分割成可管理的文本塊,并轉換為向量表示以便高效索引。在檢索階段,當用戶提交查詢時,系統通過關鍵詞匹配或向量相似度度量來搜索相關的文本塊。整合階段將這些檢索到的文本塊與原始查詢結合,以生成用于LLM響應的知情提示。近年來,一些先進的RAG系統已經超越了簡單的文本塊檢索,提供了更為復雜的知識增強方法。這些方法包括:通過多級檢索保持文檔結構的層次化RAG [13][14],實施兩階段檢索以提高召回率和精確度的重排序系統 [15][16],自動分解復雜查詢的自查詢RAG [17],以及根據查詢類型動態調整檢索策略的自適應RAG [18][19]。這些先進的RAG系統通過提升上下文感知能力、檢索準確性,并更有效地處理復雜查詢,旨在克服傳統RAG方法的局限性。 RAG的出現為定制LLMs提供了一個有前景的方法,但盡管如此,RAG仍面臨若干關鍵限制,影響其在實際應用中的效果。這些限制可大致分為四個主要挑戰,顯著影響RAG增強的LLMs的性能和實用性。主要挑戰在于復雜查詢理解。專業領域通常涉及復雜的術語和行業特定的行話,需要精確的解釋 [20]。這些領域中的用戶查詢通常包含大量技術性術語和行業特有的表達,解決方案往往需要跨多個相關概念進行推理。傳統的RAG方法依賴于簡單的關鍵詞匹配和向量相似度技術,這些方法無法有效捕捉準確和全面的深層語義差異和多步驟推理過程 [21]。例如,當詢問概念A與概念D之間的關系時,這些系統通常只檢索直接相關的信息,而忽略了可能橋接這一關系的關鍵中介概念,如B和C。這種狹隘的檢索范圍限制了RAG對廣泛上下文理解和復雜推理的能力。 另一個關鍵挑戰是從分布式來源整合領域知識。領域知識通常來自不同的資源,如教科書、研究論文、行業報告、技術手冊和維護日志。這些文本文檔可能具有不同的質量、準確性和完整性。檢索到的知識通常是平坦的、廣泛的且復雜的,而領域概念通常分散在多個文檔中,且不同概念之間缺乏清晰的層次關系 [7][22][23]。盡管RAG系統通過將文檔分割成較小的塊以便高效索引來管理這種復雜性,但這種方法不經意間犧牲了重要的上下文信息,顯著妥協了檢索準確性和上下文理解能力。這一限制妨礙了在相關知識點之間建立穩固聯系,導致理解片面,進而降低了領域專業知識的利用效果。 第三個限制來自LLMs固有的限制。盡管RAG系統可以從龐大的知識庫中檢索相關信息,但LLM處理這些信息的能力受限于其固定的上下文窗口(通常為2K-32K個token) [1][24]。復雜文檔中的長程依賴關系無法完全捕捉,因為超出上下文窗口的內容必須被截斷或總結,這會打斷自然的語義單元和邏輯流程。在專業領域中,保持跨廣泛知識背景的一致性變得更加棘手,因為在上下文窗口截斷過程中,關鍵信息可能會丟失。這一固有限制直接影響了系統從大規模知識庫中處理和綜合信息的能力。 最后的挑戰與系統效率和可擴展性有關。整個RAG管道——從初步的語料預處理和索引到實時檢索和生成——面臨顯著的效率瓶頸 [25][26]。外部知識庫中包含大量與領域無關的信息,而領域特定的術語通常在這些文檔中分布稀疏。RAG系統計算成本高且耗時 [25],特別是在處理大規模知識源時,因為模型需要搜索大量未結構化的文本以尋找相關信息。此外,實時檢索和跨文檔推理可能引入相當大的延遲,影響用戶體驗。隨著知識庫規模的增長,RAG的可擴展性受到檢索質量和準確性的下降限制 [26],這進一步限制了其在廣泛且動態的專業環境中的實際部署。 為了應對這些限制,圖檢索增強生成(GraphRAG)作為一種新范式應運而生,旨在通過組織良好的背景知識和改進的上下文推理定制LLMs [25][27]–[29]。基于圖結構,現有的GraphRAG模型可分為三大類:? 基于知識的GraphRAG,將圖作為知識載體;? 基于索引的GraphRAG,使用圖作為索引工具,從語料庫中檢索相關的原始文本;? 混合型GraphRAG,結合了基于知識和基于索引框架的優勢,為復雜推理任務提供了更先進的解決方案。基于知識的GraphRAG和基于索引的GraphRAG代表了兩種不同的增強LLMs的圖結構方法。基于知識的GraphRAG側重于將非結構化文本文檔轉化為明確且結構化的知識圖譜,其中節點表示領域概念,邊表示它們之間的語義關系,從而更好地表示層次關系和復雜的知識依賴性。相比之下,基于索引的GraphRAG保持原始文本形式,同時主要利用圖結構作為索引機制來高效地組織和檢索相關文本塊。通過將圖結構融入文本索引,基于索引的GraphRAG方法在文本塊之間建立語義連接,便于高效的查找操作和檢索。雖然基于知識的GraphRAG強調通過圖轉換明確建模領域知識和語義關系,而基于索引的GraphRAG則優先優化信息檢索和通過圖形索引策略提升文本信息的可訪問性。這兩種方法在目的上有所不同:基于知識的GraphRAG旨在通過圖結構推理能力創建結構化的知識表示,幫助更好地理解復雜關系;而基于索引的GraphRAG則側重于通過圖結構索引策略優化相關文本信息的檢索和可達性。 在本文中,我們系統地分析了GraphRAG的技術基礎,并考察了在各個專業領域中的當前實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在
本綜述對GraphRAG進行了全面分析,詳細介紹了其分類、機制、挑戰和未來的研究方向,并將內容組織為七個主要部分,逐步從基礎概念到實際應用展開。具體來說,我們在第二部分(Section 2 II)首先建立了基礎框架,追溯了GraphRAG從傳統RAG系統的演變,探討了RAG在處理結構化知識時的局限性,并介紹了GraphRAG在復雜推理任務中的核心概念和優勢。接下來的三部分系統地探討了GraphRAG系統的關鍵組件:包括知識承載圖和索引圖(第三部分Section 3 IV)兩種主要的結構化知識組織范式;從結構化知識庫中提取與查詢相關的事實信息的檢索技術(第四部分Section 4 V);以及有效地將檢索到的知識整合到LLM中的知識集成方法(第五部分Section 5 VI)。隨著向實際應用的推進,第六部分(Section 6 VIII)通過提供詳細的實施指南、回顧開源項目,并呈現由全面數據集和評估基準支持的領域特定案例研究,討論了GraphRAG的實施方面。最后,第七部分(Section 7 VII)通過識別未來的研究方向,并討論知識質量、檢索效率、系統泛化能力和安全性等潛在挑戰,結合實踐指導,總結了構建領域特定GraphRAG系統的建議。 本綜述在現有的綜述 [28]–[30] 基礎上進行了進一步擴展,采用了更加系統和全面的方法分析GraphRAG系統。盡管之前的綜述提供了Graph基索引、圖引導檢索和圖增強生成的基本工作流描述,我們引入了一個更為復雜且全面的分類法,將GraphRAG方法清晰地分為三類(基于知識的、基于索引的和混合型GraphRAG),從而提供了對該領域更加細致的理解。我們的綜述采用了更為系統的六部分結構,邏輯地從理論基礎到實踐應用展開,詳細探討了每個組成部分,包括知識組織范式、檢索技術和集成方法。
與之前的綜述不同,我們通過詳細回顧開源項目、領域特定案例研究以及提供全面的數據集和評估基準,提供了豐富的實踐指導。我們還對多個維度的挑戰和解決方案進行了更為深入的分析,包括知識質量、檢索效率、系統泛化能力和安全性問題。最后,盡管現有綜述廣泛討論了潛在應用,我們提供了更多基于實證證據和實施示例的可操作性見解,使我們的綜述成為在生產環境中部署GraphRAG系統的實踐者更具價值的資源。
小型語言模型(SLMs)因其高效性和在執行各種語言任務時所需的計算資源較少,變得越來越重要,使它們非常適合于包括設備端、移動設備、邊緣設備等多種場景。在本文中,我們對小型語言模型進行了全面的綜述,重點介紹了它們的架構、訓練技術和模型壓縮技術。
我們提出了一種新的分類法,用于歸類優化SLMs的方法,包括模型壓縮、剪枝和量化技術。我們總結了適用于小型語言模型基準測試的標準數據集,以及常用的評估指標。此外,我們還強調了尚待解決的關鍵開放性挑戰。
本綜述旨在為有興趣開發和部署小型高效語言模型的研究人員和從業者提供寶貴的資源。
盡管大型語言模型(LLMs)在廣泛的基準測試和現實場景中展示了出色的性能,它們的成功卻伴隨著顯著的成本。LLMs 的訓練和運行資源密集,需耗費大量計算和數據資源。這通常意味著它們的訓練和推理都需要在集中化和專業化的硬件上進行。
為了應對這些挑戰,越來越多的研究開始關注小型語言模型(SLMs)。小型語言模型的目標是保持大型語言模型的準確性和/或適應性,同時受到某些約束條件的限制,如訓練或推理硬件、數據可用性、帶寬或生成時間。提升模型在這些約束條件下的性能,可以幫助實現隱私保護、成本節約或在消費級設備上運行的目標。 對小型語言模型進行綜述的難點在于,“小型”和“大型”的定義是隨時間和上下文變化的。例如,GPT-2 在2019年作為一個擁有15億參數的“大型語言模型”,如今已經比本文綜述中許多所謂的“小型”語言模型要小。然而,雖然模型規模在變化,小型語言模型的訓練目標相對穩定。
在本綜述中,我們將探討支持構建和推理小型語言模型的架構、訓練和模型壓縮技術。此外,我們還總結了用于評估小型語言模型性能的基準數據集和常用的評估指標。為此,我們提出了一個新的分類法,用于沿著兩條主軸組織這些方法:
表1(技術)和表2(約束條件)展示了這些主軸的概覽。
需要注意的是,在任何一個目標上的進展不一定意味著在其他目標上也有進展。事實上,往往存在權衡。例如,量化感知訓練等內存高效的訓練方法(Dettmers等人,2022a,2024)通常比全精度方法更慢。然而,通過使用混合精度表示權重和梯度,它們允許使用更少的內存來進行訓練或微調。最后,雖然最近已經有幾篇關于大型語言模型及其學習方法的綜述(Rogers等,2020;Min等,2021;Zhu等,2023;Shen等,2023),但據我們所知,這是首篇專注于小型語言模型的綜述。
本綜述分為三個主要部分,每個部分都涵蓋了優化小型語言模型的關鍵方面。第2節關注模型架構,包括輕量化設計、高效的自注意力近似以及神經架構搜索以高效構建更小的模型。第3節涵蓋高效的預訓練和微調技術,以在資源受限的情況下提升小型語言模型的性能。第4節探討了模型壓縮技術,如剪枝、量化和知識蒸餾,它們可以在不顯著犧牲精度的情況下減少模型的大小和延遲。第5節提供了基準數據集和評估指標的概述,提供了評估這些方法有效性的綜合框架。第6節討論了小型語言模型所啟用的應用,按照約束條件進行分類。最后,第7節提出了針對小型語言模型的開放性挑戰討論。
本文的主要貢獻如下:
本節討論了開發小型語言模型(SLMs)的架構設計。具體而言,我們涵蓋了輕量化架構(第2.1節)、高效自注意力近似(第2.2節)以及神經架構搜索(第2.3節)。
輕量化語言模型架構旨在通過減少參數量和計算開銷,實現高效性能,這對于在資源受限的設備(如手機、邊緣設備和嵌入式系統)上部署非常理想。代表性輕量化模型通常采用編碼器或解碼器的架構。 輕量化編碼器架構大多是BERT(Devlin等人,2019)的優化版本。例如,MobileBERT(Sun等人,2020)引入了一種倒瓶頸結構,以在自注意力和前饋網絡之間保持平衡,與基礎版BERT相比,實現了4.3倍的尺寸縮減和5.5倍的速度提升。DistilBERT(Sanh,2019)和TinyBERT(Jiao等人,2019)也分別實現了相似的優化。 輕量化解碼器架構遵循自回歸語言模型的結構,如GPT(Radford等人,2018,2019)和LLaMA系列(Touvron等人,2023b)。這些模型強調知識蒸餾、內存開銷優化、參數共享和嵌入共享,以增強效率和可擴展性。BabyLLaMA(Timiryasov和Tastet,2023a)和BabyLLaMA-2(Tastet和Timiryasov,2024)分別將多位教師模型的知識蒸餾到58M參數和345M參數的模型中,證明了在數據受限的情況下,蒸餾技術可以超越教師模型的性能。TinyLLaMA(Zhang等人,2024)僅有1.1B參數,通過優化內存開銷(例如使用FlashAttention,Dao等人,2022)實現了高效,同時在多種下游任務中保持了競爭力。MobilLLaMA(Thawakar等人,2024)應用了參數共享方案,減少了預訓練和部署成本,提出了一個適合資源受限設備的0.5B參數模型。MobileLLM(Liu等人,2024e)進一步引入嵌入共享和分組查詢注意機制,并通過分塊式權重共享降低了延遲。
部署大型語言模型的挑戰之一是自注意力層中的龐大參數量以及自注意力帶來的計算成本。本節討論了降低計算成本的策略,這些策略對于構建小型語言模型非常有用。 Reformer(Kitaev等人,2020)通過將點積注意力替換為使用局部敏感哈希的注意力,將自注意力的復雜度從O(N2)降低到O(N log N)。Roy等人(2021)使用了基于在線k-means聚類的稀疏路由模塊,減少了注意力計算的復雜性。 為進一步將自注意力層的計算復雜度從O(N2)降低到O(N),多項研究(Wang等人,2020a;Katharopoulos等人,2020;Xiong等人,2021;Beltagy等人,2020)提出了線性注意力機制。特別是,Katharopoulos等人(2020)將自注意力表示為核特征映射的線性點積,從而降低了二次復雜度。作者還展示了采用這種線性注意力機制的Transformer可以被視為一種遞歸神經網絡,從而實現更快的推理。在這些基礎上,近期的進展引入了更為先進的架構。值得注意的例子包括Mamba(Gu和Dao,2023;Dao和Gu,2024),該模型引入了具有輸入依賴轉換的選擇性狀態空間模型,以及RWKV(Peng等人,2023),它結合了Transformer和RNN的元素與線性注意力機制。這些模型不僅實現了線性時間和空間復雜度,還在各種任務中表現出競爭力。 我們還注意到一些先前用于處理長文檔的編碼器架構的工作。Longformer(Beltagy等人,2020)使用了局部窗口注意力和任務特定的全局注意力相結合的機制,隨著輸入長度的增加,能夠線性擴展,因此具有內存效率。Wang等人(2020a)通過使用低秩矩陣來近似自注意力機制,將復雜度降低到O(N)。這些研究表明,帶有線性自注意力的Transformer在多種下游任務中的表現與原始自注意力機制相匹配。類似地,Xiong等人(2021)使用了流行的Nystrom方法(Nystr?m,1930)來近似自注意力操作,在與傳統Transformer的比較中顯示出強大的實驗性能。
本節討論了用于發現最適合特定任務和硬件約束的高效模型架構的自動化方法。 先前的研究主要集中在用于視覺任務的神經架構搜索(NAS)(Tan和Le,2019;Zoph和Le,2016;Wu等人,2019;Guo等人,2020)和BERT模型(Xu等人,2021;Jawahar等人,2023;Ganesan等人,2021),這些模型的參數相對較少,減少了高效架構搜索過程的成本。然而,具有超過十億參數的大型語言模型在尋找更小、更高效的模型時面臨著顯著挑戰。其龐大的規模使搜索過程計算密集且昂貴。最近,MobileLLM(Liu等人,2024e)研究了模型深度(即層數)和寬度(即頭數)對性能的影響,有效地在數百萬參數范圍內進行了針對性架構搜索。與此同時,Shen等人(2024c)通過探索合適的初始化來減少搜索空間,從而加快了搜索過程的收斂。
近年來,大型多模態模型(LMMs)在顯著減少參數量的同時,達到了與前代模型相當甚至更優的性能。值得注意的例子包括LLaVA-Next(Liu等人,2024a)、Idefics2(Lauren?on等人,2024)和InternVL2(Chen等人,2023)系列。這一進展部分歸功于更多高效的小型語言模型,如Gemma(Team等人,2024)和phi-3-mini(Abdin等人,2024),并強調了精心策劃的數據集的重要性。
此外,人們還努力在多模態融合過程中縮減視覺編碼器的規模。例如,InternVL2利用大規模視覺編碼器的中間層輸出,同時丟棄后續模塊。更小的模型,如PaliGemma(Beyer等人,2024)和Mini-Gemini(Li等人,2024c),采用了輕量級的視覺編碼器。單體多模態模型進一步推進了這一點,完全消除了視覺編碼器,轉而使用輕量級架構生成視覺token。例如,Chameleon(Team,2024a)采用VQ-VAE模型將圖像編碼并解碼為離散token,而Mono-InternVL(Luo等人,2024a)則使用MLP生成圖像塊的視覺token,結合了一種名為多模態專家混合的特定模態前饋網絡,以區分不同的模態。
本節回顧了用于語言模型預訓練和微調的關鍵訓練技術。雖然小型語言模型(SLMs)與大型語言模型(LLMs)采用類似的訓練方法,但我們將重點介紹在有限資源情況下促進SLMs學習的高效技術。
混合精度訓練是提升SLMs和LLMs預訓練效率的關鍵技術。該方法利用低精度表示進行前向和后向傳播,同時保持高精度的權重更新。例如,Micikevicius等人(2018)引入了自動混合精度(AMP),該方法初始時使用32位浮點(FP32)精度保存權重的主副本,而在進行算術運算時使用16位浮點(FP16)精度。然而,近期的研究(Rae等人,2021)觀察到,由于FP16的數值范圍有限,AMP在某些情況下會導致精度損失。為了解決這一問題,Burgess等人(2019)提出了大腦浮點(BFLOAT16),該格式具有比FP16更多的指數位,提供了更大的動態范圍。BFLOAT16在訓練性能和表示精度方面優于FP16。
現代GPU架構進一步通過專用的Tensor Cores增強了混合精度功能。例如,早期的架構支持FP16和BFLOAT16,而NVIDIA的最新Hopper架構引入了對8位浮點(FP8)精度的支持(Luo等人),從而為大規模語言模型帶來了更高的計算效率。
為了進一步提升訓練效率并防止模型崩潰,采用了各種優化和穩定技術。雖然Adam(Diederik,2014)和AdamW(Loshchilov和Hutter,2019)優化器廣泛使用,但內存高效的變體如Adafactor(Shazeer和Stern,2018)和Sophia(Liu等人,2024b)被引入以提高訓練速度和效率。為進一步穩定訓練,梯度裁剪(Zhang等人,2020)被廣泛應用,以防止梯度爆炸。此外,仔細的初始化策略可以為模型訓練提供良好的起點。這些結合技術旨在實現最佳的訓練效率,保持數值穩定性,并生成更穩健和強大的語言模型。
為了應對預訓練階段的計算需求,語言模型通常在多個計算節點上進行預訓練,利用分布式計算資源實現高效訓練。為此,開發了多種系統級優化技術。零冗余數據并行(ZeRO)(Rajbhandari等人,2020)提供了三種漸進式的優化階段,每個階段都將更多的訓練狀態分布到設備上:ZeRO-1劃分優化器狀態,ZeRO-2增加梯度劃分,ZeRO-3進一步劃分模型參數。PyTorch的全分片數據并行(FSDP)(Zhao等人,2023b)也實現了類似的概念。這些并行技術允許使用更大的批量尺寸進行訓練,大大提高了SLMs和LLMs的效率和可擴展性。
在較小的特定任務數據集上進行微調,允許LLMs利用預訓練中獲得的知識,從而在特定任務或領域中表現出色。微調技術旨在解決諸如計算資源有限、數據質量、可用性和魯棒性等挑戰,確保能夠有效地適應新任務而無需進行廣泛的再訓練。
3.2.1 參數高效微調
參數高效微調(PEFT)僅更新一小部分參數或添加輕量級模塊,同時保持大部分預訓練模型的參數不變。這種方法減少了SLM微調時的計算成本,保留了模型的知識,減少了過擬合,并提高了靈活性。LoRA(Hu等人,2021)使用低秩分解,Prompt Tuning(Lester等人,2021)在輸入中插入可學習的提示,而Llama-Adapter(Zhang等人,2023b;Gao等人,2023)將提示添加到LLaMA的注意力塊中。動態適配器(Kong等人,2024;Feng等人,2024;Gou等人,2023;Liu等人,2023b;Luo等人,2024b)自動將多個適配器組合為專家混合模型,支持多任務處理并防止遺忘(Han等人,2024;Yang等人,2024)。
3.2.2 數據增強 數據增強通過增加訓練數據的復雜性、多樣性和質量,提升模型在下游任務中的泛化能力和性能。AugGPT(Dai等人,2023)使用ChatGPT對訓練樣本進行改寫,Evol-Instruct(Xu等人,2023)通過多步修訂生成復雜度更高的多樣化開放域指令。Reflection-tuning(Li等人,2023a,2024a)通過基于預定義標準使用GPT-4對指令和響應進行優化,提升了數據質量和指令響應一致性。FANNO(Zhu等人,2024)通過檢索增強生成技術引入外部知識源,以增強指令并生成響應。LLM2LLM(Lee等人,2024b)在訓練過程中基于模型預測生成更難的樣本。
數據增強在訓練數據有限的情況下也非常有效,例如用于低資源語言(Whitehouse等人,2023)、醫療和臨床應用(Chintagunta等人,2021)以及隱私敏感數據(Song等人,2024),從而使模型能夠在受限場景下更好地泛化并表現出更強的魯棒性。
通過使用f散度(f-divergences)的廣義版本,序列級蒸餾損失可以得到改進,如Wen等人(2023)所示。Liang等人(2023)通過使用任務感知濾波器擴展了針對語言模型的逐層蒸餾策略,該濾波器僅蒸餾來自教師模型的特定任務知識。最近的研究(Wan等人,2024a,b)表明,通過戰略性地融合多個語言模型的輸出概率分布,可以將多個語言模型融合為教師模型,以蒸餾知識到小型語言模型中。
語言模型的知識蒸餾面臨的一個問題是,當(1)教師和學生語言模型共享相同的分詞器,且(2)教師模型的預訓練數據可用時,蒸餾策略效果最佳。Boizard等人(2024)通過引入一種受最優傳輸理論啟發的通用logit蒸餾損失,解決了這一問題。蒸餾常常還與剪枝技術相結合,以創建更小的語言模型。例如,Sreenivas等人(2024)和Muralidharan等人(2024)展示了通過對大型語言模型進行剪枝并結合蒸餾損失進行重訓練的迭代步驟,可以生成性能強大的小型模型。
最新的進展探索了超越傳統標簽蒸餾的方法,通過在蒸餾過程中加入額外的監督來創建小型語言模型。Hsieh等人(2023)發現,在蒸餾過程中使用“推理依據”(rationales)作為額外的監督來源,使得蒸餾過程更加樣本高效。此外,作者發現蒸餾后的模型在常用的自然語言推理(NLI)、常識問答和算術推理基準測試上超越了大型語言模型。同樣地,Dai等人(2024)、Magister等人(2023)、Ho等人(2023)和Fu等人(2023)將從大型語言模型中提取的推理鏈與標簽信息一起蒸餾到小型語言模型中。研究表明,這些蒸餾后的模型在算術、多步數學、符號推理和常識推理能力上有顯著提升。
鑒于小型語言模型(SLMs)因其高效性和在廣泛設備與環境中的應用而變得愈發重要,本文綜述了SLMs,包括其模型架構、訓練技術以及用于優化SLMs的模型壓縮技術。我們還提出了一個直觀的SLM評估指標分類法,并總結了SLMs在各種設置和應用中的重要性。此外,我們總結了用于SLMs的訓練和基準數據集。最后,我們強調了SLMs領域中亟待解決的基本挑戰和開放性問題。我們希望這篇綜述能成為研究人員和從業者的寶貴資源,推動小型但功能強大的語言模型的進一步發展。
近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。
近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?
為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。
組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。
最近,我在IndabaX Rwanda和卡內基梅隆大學(學號為18-661)的“工程師機器學習導論”課程中的學生研究講座上進行了關于多模態大語言模型(LLM)的演講。在演講中,我們詳細剖析了多模態LLM、多模態任務以及一般的多模態LLM架構。大多數多模態LLM幾乎都有非常相似的架構:視覺編碼器用于獲取圖像嵌入(如CLIP-ViT或SigLIP),連接器/投影器用于將圖像標記映射到LLM維度空間(例如:線性層/MLP/注意力層),以及用于生成的底層LLM(通常是解碼器類型的語言模型)。我們還介紹了一些代表性模型:CLIP為基礎奠定了基礎,Flamingo啟發了圖像-文本交錯和視覺語言模型中的上下文學習,LLaVA引入了視覺指令調優,在許多多模態基準測試中實現了最先進的性能。最后,我們討論了基準測試、開源模型與閉源模型的對比、當前的挑戰以及我對多模態LLM的期望清單。
開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為
//github.com/HITsz-TMG/awesome-llm-attributions。
自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。
幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):
考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型:
超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。
歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。
直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。
**檢索后回答 **
多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。
生成后歸因
為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。
摘要
預訓練語言模型(Pretrained Language Models, PLM)通過在大規模文本語料庫上學習信息語境化表示,建立了一種新的范式。這種新的范式已經徹底改變了整個自然語言處理領域,并為各種NLP任務設置了新的最先進的性能。然而,盡管PLM可以從訓練語料庫中存儲一定的知識/事實,但它們的知識意識還遠遠不能令人滿意。為了解決這個問題,將知識集成到PLM中已經成為一個非常活躍的研究領域,并且已經開發了各種各樣的方法。在本文中,我們對這一新興和快速發展的領域-知識增強的預訓練語言模型(KE-PLMs)提供了一個全面的文獻綜述。我們引入三種分類法來對現有工作進行分類。此外,我們還調研了各種NLU和NLG應用,在這些應用上,KE-PLM表現出了優于普通PLM的性能。最后,討論了KE-PLMs面臨的挑戰和未來的研究方向。
引言
近年來,大規模預訓練語言模型(大規模預訓練語言模型,簡稱PLM)給自然語言處理領域帶來了革命性的變化。預先訓練的模型如BERT [16], RoBERTa [50], GPT2/3[68][7]和T5[69]獲得了巨大的成功,極大地提升了各種NLP應用的最先進性能[67]。前訓練在NLP中的廣泛成功也啟發了自我監督前訓練在其他領域的應用,如圖表示學習[30][31]和推薦系統[81][98]。對大量文本數據的訓練也使這些plm能夠記住訓練語料庫中包含的某些事實和知識。最近的研究表明,這些經過訓練的語言模型可以擁有相當數量的詞匯知識[48][92]和事實知識[63][71][95]。然而,進一步的研究發現,PLM在知識意識方面也存在以下局限性:
對于NLU來說,最近的研究發現PLM傾向于依賴于表面信號/統計線索[62][55][58],并且很容易被否定的信息(例如,“Birds can [MASK]”vs .“Birds cannot [MASK]”)和錯誤啟動的探針[35]所愚弄。此外,已有研究發現,PLM在推理任務中往往會失敗[84]。
對于NLG,盡管PLM能夠生成語法正確的句子,但生成的文本可能不符合邏輯或不合理。例如,在[46]中提到,給定一組概念{dog, frisbee, catch, throw}, GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”,這兩者都不符合人類的常識。
這些觀察結果促使人們設計更有知識意識的預訓練模型。最近,越來越多的研究致力于明確地將知識納入PLMs[100][108][61][90][96][49][33]。他們利用百科知識、常識知識和語言知識等多種來源,采用不同的注入策略。這種知識集成機制成功地增強了現有PLM的知識意識,提高了包括但不限于實體輸入[100]、問題回答[101][45]、故事生成[22]和知識圖完成[102]在內的各種任務的性能。
本文旨在對這一新興領域的知識增強預訓練語言模型(KE-PLMs)進行全面綜述。現有的KE-PLMs工作已經開發了一套不同的技術,用于在不同的知識來源上進行知識集成。為了深入了解這些模型并促進未來的研究,我們構建了三種分類法來對現有的KE-PLMs進行分類。圖1說明了我們提出的關于知識增強預訓練語言模型(KE-PLMs)的分類法。在現有的KE-PLMs中,已經探索了不同類型的知識來源(如語言學、常識、百科全書、特定應用),以增強PLMs在不同方面的能力。第一種分類法幫助我們理解在構建KE-PLMs時考慮了哪些知識來源。在第二種分類法中,我們認識到一個知識源可以被不同程度地利用,并基于知識粒度對已有的工作進行分類: 基于文本塊、基于實體、基于關系三元和基于子圖。最后,我們介紹了第三種分類法,它根據方法的應用領域對它們進行分組。這種分類法展示了現有的KE-PLMs在知識集成的幫助下旨在改進的一系列應用。通過認識到哪些應用領域已經被KE-PLMs很好地解決了,我們相信這將為未來將KE-PLMs應用于未解決領域的研究機會提供支持。