近年來,多模態大語言模型(MLLMs)的出現為文本豐富圖像理解(TIU)領域引入了新的維度,這些模型展示了令人印象深刻且鼓舞人心的性能。然而,它們的快速發展和廣泛應用使得跟上最新進展變得越來越具有挑戰性。為了解決這一問題,我們提出了一項系統且全面的綜述,以促進TIU MLLMs的進一步研究。 首先,我們概述了幾乎所有TIU MLLMs的時間線、架構和流程。接著,我們回顧了選定模型在主流基準測試中的表現。最后,我們探討了該領域內有前景的方向、挑戰和局限性。
文本豐富圖像在現實場景中通過高效傳遞復雜信息和提升可訪問性發揮著關鍵作用(Biten等,2019)。準確解讀這些圖像對于自動化信息提取、推進AI系統以及優化用戶交互至關重要。為了規范這一研究領域,我們將其稱為文本豐富圖像理解(TIU),它涵蓋兩個核心能力:感知和理解。感知維度側重于視覺識別任務,例如文本檢測(Liao等,2022)、文本識別(Guan等,2025)、公式識別(Truong等,2024;Guan等,2024a)和文檔布局分析(Yupan等,2022)。理解維度則需要對語義進行推理,應用于關鍵信息提取和基于文檔的視覺問答(例如DocVQA(Mathew等,2021b)、ChartQA(Masry等,2022)和TextVQA(Singh等,2019)等任務。
歷史上,感知和理解任務通過專用模型或多階段流程分別處理。最近,視覺-語言模型的進展將這些任務統一在視覺問答(VQA)范式中,推動了端到端通用模型的開發。 圖1展示了一個進化時間線,描繪了統一文本豐富圖像理解模型的關鍵里程碑。這一軌跡揭示了兩個不同的時代:
前LLM時期(2019-2022):以LayoutLM(Xu等,2019)和Donut(Kim等,2021)等專用架構為特征,這些模型采用模態特定的預訓練目標(如掩碼語言建模、掩碼圖像建模等)并結合OCR衍生的監督(如文本識別、空間順序恢復等)。盡管在受控環境中有效,這些模型由于需要任務特定的微調和受限的跨模態交互機制,在開放域場景中的適應性有限。
后LLM時代(2023年至今):以LLM的日益普及為標志。一些研究提出了多模態大語言模型(MLLMs),將LLM與視覺編碼器結合,通過統一的注意力機制聯合處理視覺標記和語言元素,實現端到端的序列建模。
這一范式演進解決了早期方法的兩個關鍵局限性。首先,新興的MLLM框架通過同質化標記表示消除了模態特定的歸納偏差,實現了無縫的多任務集成。其次,LLM中編碼的語言先驗賦予了前所未有的零樣本泛化能力,并允許直接應用于多樣化任務而無需任務特定的調優。
盡管這些MLLMs展示了令人印象深刻且鼓舞人心的結果,但其快速發展和廣泛應用使得跟蹤前沿進展變得越來越具有挑戰性。因此,迫切需要一項針對文檔的系統綜述來總結和分析這些方法。然而,現有的文本豐富圖像理解綜述往往范圍狹窄:它們要么分析特定領域的場景(例如表格和圖表(Huang等,2024a)、圖表(Huang等,2024b;Al-Shetairy等,2024)、表單(Abdallah等,2024)),要么強調統一的深度學習框架(Subramani等;Ding等,2024)。我們的系統綜述填補了這一空白,首次從四個維度對幾乎所有TIU MLLMs進行了全面分析:模型架構(第2節)、訓練流程(第3節)、數據集和基準測試(第4節)以及挑戰與趨勢(第5節)。這對推動該領域的發展具有重要的學術和實際意義。
2 模型架構
在多模態大語言模型的設計中,模型架構通常可以劃分為三個核心模塊:視覺編碼器、模態連接器和LLM解碼器。下面對每個模塊進行詳細論述。 2.1 視覺編碼器 視覺編碼器的主要任務是將輸入圖像 I 轉換為特征表示 V,即 V = F(I)。這一模塊在TIU任務中至關重要,其設計方案主要分為以下三類: OCR-free 編碼器:直接提取圖像的高層語義特征,如CLIP、ConvNeXt、SAM、DINOv2、Swin-T、InternViT等,這類編碼器能夠捕捉圖像中的物體、場景和紋理信息,適合處理圖像整體內容。 OCR-based 編碼器:借助OCR引擎提取圖像中的文本內容與布局信息,主要采用直接輸入、交叉注意力等策略。直接輸入方式雖然能完整保留文本信息,但在長序列處理上存在效率問題;交叉注意力方式則通過動態選擇關鍵文本信息實現更高效的信息融合。 混合編碼器:結合了OCR-free和OCR-based兩種策略,如CLIP與LayoutLMv3的結合,既保留視覺語義信息,又兼顧文本與布局特征,適用于文檔級任務的多模態理解。 2.2 模態連接器 由于視覺特征 V 與語言特征 T 屬于不同模態,模態連接器的設計旨在將視覺特征轉換為與語言模型語義空間一致的視覺令牌,從而實現跨模態信息的無縫融合。常用的實現方法包括: 線性映射或多層感知機(MLP):這種方法簡單高效,但在擴展性和效率上可能存在局限; 令牌壓縮與令牌冗余削減技術:例如利用 Pixel shuffle 方法進行令牌壓縮,或采用交叉注意力、H-Reducer 以及基于相似度的注意力池化方法來減少冗余令牌,從而在不損失關鍵信息的前提下降低計算成本。 2.3 LLM 解碼器 模態連接器輸出的統一序列化特征與語言嵌入一起送入LLM解碼器。常見的LLM包括LLaMA系列、Qwen系列、Vicuna系列以及InternLM系列等。LLM解碼器借助強大的語言建模和推理能力,實現跨模態信息的語義融合和最終回答的生成。通過這種端到端的序列建模方法,MLLMs 能夠直接應用于諸如文檔問答、關鍵信息提取、圖表解析等多種任務。 3 訓練流程
MLLM 在訓練過程中通常遵循三個主要階段:模態對齊、指令對齊以及偏好對齊,每個階段均對模型的最終表現起到關鍵作用。 3.1 模態對齊 模態對齊階段的目標在于彌合視覺與文本模態間的差異,使得模型在預訓練階段就能夠學到視覺與文本間的對應關系。常見方法包括: 識別、定位與解析任務:利用OCR數據進行預訓練,設計全局閱讀、局部閱讀和文本位置預測等任務,迫使模型學習圖像中文本的順序、位置與結構。部分方法甚至引入圖像markdown預測任務,而非簡單的文本轉錄,以更好地保留文檔布局信息。 3.2 指令對齊 經過模態對齊后,模型具備了基礎的視覺識別和對話能力,但為了實現與人類意圖更為一致的智能交互,指令對齊階段采用了監督微調(SFT)的方法。此階段的核心在于: 視覺語義錨定:設計出要求答案直接出現在圖像中的任務和需要通過外部知識進行復雜推理的問題,從而提升模型的精確性和推理能力; 提示多樣化增強:通過對問題進行多種重構,使模型在面對不同提問形式時依然能夠準確響應,增強了模型的魯棒性; 零樣本泛化能力提升:利用鏈式思考(CoT)和檢索增強生成(RAG)等策略,讓模型在未見任務上也能給出合理的回答。 3.3 偏好對齊 由于在推理過程中模型可能因錯誤反饋而出現分布偏移,偏好對齊技術旨在通過人類反饋和錯誤糾正機制優化生成輸出。借鑒自然語言處理領域的相關經驗,當前多模態領域也開始采用如Dropout Next Token Prediction等策略來確保模型輸出更加符合人類期望和實際任務需求。 4 數據集與基準測試
TIU 任務的發展離不開大量專門構建的數據集和標準化的基準測試。這些數據集大致可以分為領域特定數據集和綜合場景數據集兩類: 領域特定數據集:包括文檔類(如 DocVQA、Docmatix)、圖表類(ChartQA、PlotQA、FigureQA)、場景文本(TextCaps、TextVQA、ST-VQA)以及表格類數據集(TableQA、WikiTableQuestions)等。這類數據集通常由傳統任務數據轉換而來,并在預訓練階段用于模態對齊,同時也作為后續指令對齊的標準評測數據。 綜合場景數據集:例如 OCRBench、Seed-bench-2-plus 和 MMDocBench 等,專門設計用來評估模型在長文檔、多任務、多語言等復雜場景下的綜合表現,為后續研究提供了標準化的評價體系。 通過對比各主流模型在這些基準數據集上的表現,可以直觀地了解當前 MLLM 的優勢與不足,從而推動更高效、更魯棒的模型設計。 5 挑戰與趨勢 盡管近年來 MLLM 在TIU任務上取得了顯著進展,但依然面臨一系列挑戰,這也是當前學術界和工業界亟待解決的問題。主要挑戰包括: 計算效率與模型壓縮:當前大多數 SOTA 模型參數規模在數十億級別,盡管性能優異,但高昂的計算成本和部署延遲嚴重制約了其實際應用。近年來,Mini-Monkey 等模型通過在參數量上大幅削減(例如僅使用2B參數達到接近7B模型的效果)展示了輕量化設計的巨大潛力。 視覺特征表示優化:圖像令牌數量通常遠超文本令牌,直接導致計算復雜度急劇增加。如何在壓縮令牌數量的同時保持關鍵信息不丟失,是未來需要重點研究的方向。近期一些模型(如 mPLUG-DocOwl2)在視覺令牌壓縮方面取得了較好效果,為更大輸入圖像的高效處理提供了新思路。 長文檔理解能力:雖然現有 MLLM 在單頁文檔理解上表現出色,但在多頁或長文檔的場景下,模型往往難以捕捉長距離依賴和跨頁上下文信息,亟需設計新的長文本建模方法或引入專門的長文檔基準測試數據集。 多語言文檔理解:目前大多數模型主要針對英語和少數高資源語言,對于多語言、低資源語言場景存在明顯短板。未來需要構建更全面的多語言數據集,并借助跨語言遷移學習技術提高模型在全球不同文化和語言環境下的適用性。 6 局限性
盡管本文對TIU領域的多模態大語言模型進行了全面綜述,但仍存在一些不足之處。首先,由于文獻檢索和整合時間的限制,部分較新或較邊緣的研究成果可能未能覆蓋。其次,由于篇幅和格式要求,本文在描述具體算法實現和實驗參數配置時采取了簡潔表達,讀者如需深入細節,建議參閱原論文和相關文獻。最后,部分模型的實驗結果因采用不同測試集和評測方法,存在一定的可比性問題,這也為未來研究提出了標準化評測的需求。 7 總結與展望
本文系統性地回顧了近年來多模態大語言模型在文本豐富圖像理解領域的研究進展,涵蓋了模型架構、訓練流程、數據集與基準測試、以及面臨的主要挑戰和發展趨勢。可以看出,通過將視覺編碼器與預訓練語言模型相結合,MLLMs 在打破傳統任務壁壘、實現端到端統一建模方面展現了巨大優勢,但同時在計算效率、長文檔理解、多語言適用性等方面仍有進一步提升空間。未來的研究可以在以下幾個方向展開: 繼續探索輕量化設計與模型壓縮技術,平衡性能與計算資源之間的矛盾; 開發更高效的視覺令牌壓縮與跨模態融合方法,優化長文檔及復雜場景的建模能力; 構建多語言、多場景下的綜合數據集,推動全球化應用場景的覆蓋; 借助人機交互和反饋機制,完善偏好對齊技術,使模型輸出更貼合實際需求。 總體來看,多模態大語言模型為文本豐富圖像理解領域帶來了全新的解決思路和應用前景,其不斷進化與融合正驅動著人工智能技術向更高水平邁進
本系統綜述探討了大語言模型(LLMs)在組合優化(CO)中的應用。我們遵循系統綜述與元分析的首選報告項目(PRISMA)指南報告我們的研究發現。我們通過Scopus和Google Scholar進行了文獻檢索,檢查了超過2,000篇文獻。我們根據四項納入標準和四項排除標準對文獻進行了評估,這些標準涉及語言、研究重點、出版年份和類型。最終,我們選擇了103篇研究。我們將這些研究按語義類別和主題進行分類,以提供該領域的全面概述,包括LLMs執行的任務、LLMs的架構、專門為評估LLMs在CO中應用設計的數據集以及應用領域。最后,我們確定了利用LLMs在該領域的未來發展方向。
關鍵詞:系統綜述 · 大語言模型 · 組合優化
1 引言
組合優化問題(COPs)是一類優化問題,其特點是離散的變量域和有限的搜索空間。組合優化(CO)在許多需要復雜決策能力的領域中發揮著至關重要的作用,如工業調度[219]、員工排班[25, 102]、設施選址[27, 64]和時間表安排[199, 254]等。傳統上,這類問題通過線性規劃(LP)、整數線性規劃(ILP)、混合整數線性規劃(MILP)和約束規劃(CP)等技術進行建模,并通過商業求解器,如IBM ILOG CPLEX [88]或Gurobi [70],以及啟發式和元啟發式(MH)算法[194]來求解。 盡管許多成功的CO應用已被開發出來,但優化任務的設計和工程仍主要由人工驅動。用戶必須通過定義一組變量、約束和一個或多個目標函數,將問題轉化為優化模型,然后編寫代碼并運行軟件求解器或算法來尋找解決方案。這些活動并非簡單,需要一定的專業知識。 受最近大語言模型(LLMs)在執行廣泛復雜任務中的應用進展的啟發,越來越多的興趣集中在將LLMs集成到CO中,以減輕優化過程中的人工密集型環節[53, 84, 145, 236]。LLMs處理、解釋和生成自然語言的能力使其特別適合解決CO中的活動,包括將自然語言描述轉化為數學模型等形式化表達[74, 89]以及代碼生成[111, 214]。 人工智能(AI)特別是自然語言處理(NLP)的快速發展,使得LLMs的能力和應用大幅提升,導致了大量學術研究和模型的開發。盡管這個領域的活動日益增多,但這大量的研究成果也形成了一個復雜的知識體系,難以輕松掌握。特別是針對LLMs在CO中的應用,現有的學術文獻較為有限且零散,現有的研究工作在方法學、應用領域和研究發現上存在較大差異。因此,本系統綜述旨在整合當前LLMs應用于CO的最先進成果。我們通過篩選、分析和系統地組織文獻,以澄清該主題并確定當前和未來研究的戰略方向。我們遵循系統綜述和元分析首選報告項目(PRISMA)指南進行報告。通過這一研究,我們旨在了解LLMs在解決復雜優化任務中的能力,并探索該領域中不斷發展的趨勢和方向。通過系統地綜合和分析現有研究,本綜述旨在提供一個結構化的理解,幫助理解LLMs如何在CO中應用,并為未來研究提供啟示。
本綜述的結構如下:第2節討論了驅動我們工作的目標和動機;第3節探討了與相關工作的關系和區別;第4節提供了理解LLMs與CO之間相互關系所需的背景;第5節詳細介紹了我們遵循的方法論;第6節對我們綜述中納入的研究進行了分類和討論;第7節概述了未來的研究方向;第8節討論了我們方法的局限性;最后,第9節給出了結論并提出了未來的研究工作。
大規模語言模型(LLM)的個性化近年來變得越來越重要,擁有廣泛的應用前景。盡管這一領域重要且取得了進展,大多數現有的個性化 LLM 研究主要集中于 (a) 個性化文本生成,或 (b) 利用 LLM 用于與個性化相關的下游應用(如推薦系統)。在本研究中,我們首次彌合了這兩大研究方向之間的差距,通過引入個性化 LLM 使用的分類體系,概述了關鍵差異與挑戰。我們正式化了個性化 LLM 的基礎,整合并拓展了 LLM 個性化的概念,定義并討論了個性化、使用方法和個性化 LLM 的理想特性等新穎方面。接著,我們通過提出系統的分類方法,將這些多樣化的研究領域和使用場景統一起來,包括個性化的粒度、個性化技術、數據集、評估方法和個性化 LLM 的應用。最后,我們指出了尚需解決的挑戰和重要的開放性問題。通過使用所提出的分類體系統一并綜述近期研究,我們旨在為現有文獻和 LLM 個性化的不同方面提供清晰的指導,助力研究人員和實踐者。
大規模語言模型(LLM)已成為能夠執行廣泛自然語言處理(NLP)任務的強大工具,并展現了出色的能力(例如,Radford 等,2018;Devlin 等,2019;Lewis 等,2019;Radford 等,2019;Brown 等,2020;Raffel 等,2020;Achiam 等,2023;Touvron 等,2023;Groeneveld 等,2024)。實證上,這些模型已展示出作為通用模型的能力,使其能夠準確地完成諸如文本生成、翻譯、摘要和問答等多種任務。值得注意的是,LLM 在零樣本或少樣本環境中也能有效工作,即使沒有任務特定的訓練數據,它們也能夠理解并執行復雜的指令(Bommasani 等,2021;Liu 等,2023c)。這一能力消除了對模型參數進行廣泛微調的需求,使人與機器的交互通過簡單的輸入提示大大簡化。例如,用戶可以以對話形式與 LLM 互動,使交互更加直觀易用。LLM 的這種強大且多才多藝的能力已催生了諸多應用,包括通用人工智能助手(AutoGPT,2024)、協同工具(微軟,2024)以及基于個人的 LLM 代理(Li 等,2024f)。這些應用可以幫助用戶執行寫郵件、生成代碼、撰寫報告等各種任務。
LLM 的個性化近來獲得了大量關注(Salemi 等,2023;Tseng 等,2024)。然而,現有的個性化 LLM 研究通常分為兩個類別:(a) 個性化文本生成,主要關注在個性化上下文中生成單輪或多輪文本,以及 (b) 在下游個性化任務(如推薦系統)中應用 LLM。這兩個領域的大量研究往往獨立發展,缺乏一個統一的視角。此外,現有綜述(Chen,2023;Chen 等,2024b;2024c)通常僅聚焦于其中一個方面,缺乏系統定義關鍵組成部分并整合兩個個性化 LLM 維度洞見的綜合視角。盡管這兩個領域在特征和目標上有所不同,但統一的視角對于彌合這些研究社區之間的差距至關重要,以促進協作和知識共享,從而開發出更具通用性和多功能性的系統。例如,用戶特定文本生成的進展可以通過對話互動為推薦系統提供更個性化和可解釋的建議。通過整合這兩個領域的洞見,研究人員可以開發不僅能夠生成符合個體偏好的文本,還能在各種應用中提升用戶滿意度的 LLM。此跨學科方法可促進更全面的解決方案,以互補方式兼顧個性化和性能。 在本研究中,我們通過為個性化 LLM 的個性化粒度、技術、評估、數據集和使用場景提出直觀的分類體系,統一了來自不同領域的文獻。本文的關鍵貢獻如下:
在本文的剩余部分,我們首先提出個性化 LLM 使用的統一視角和分類體系(第二節),然后深入探討個性化 LLM 的理論基礎(第三節)。接著,探討 LLM 個性化的粒度(第四節),并對個性化 LLM 技術進行全面的綜述與分類(第五節)。然后,我們對個性化 LLM 的評估指標和方法進行分類(第六節),并對個性化 LLM 的數據集進行詳細的分類(第七節)
盡管先前的研究(Yang & Flek,2021;Chen 等,2024c;b)探討了個性化 LLM 的定義并分析了其各個方面,但仍缺乏一個全面的理論框架來理解和形式化這些模型中的個性化。在本節中,我們旨在填補這一空白,通過建立基礎原則、定義和形式結構來形式化 LLM 中的個性化問題。我們系統地發展必要的符號和概念框架,以形式化該問題和評估,為深入理解個性化如何在 LLM 中有效實施和分析奠定基礎。以下小節結構如下: §LLM 的一般原則:我們首先概述構成 LLM 基礎的核心原則。這為理解這些模型的功能及其能力驅動的基本機制提供了重要背景。 §LLM 中個性化的定義:我們在 LLM 的特定上下文中定義“個性化”這一術語,為后續討論奠定明確的理解基礎。 §個性化數據概述:我們提供當前用于個性化的數據概述,強調數據源的不同格式。 §個性化生成的形式化:我們形式化個性化生成的概念空間,為理解如何實現個性化提供結構化框架。 §個性化標準的分類體系:我們引入一個全面的個性化標準分類體系,分類影響個性化輸出的各種因素。
小型語言模型(SLMs)因其高效性和在執行各種語言任務時所需的計算資源較少,變得越來越重要,使它們非常適合于包括設備端、移動設備、邊緣設備等多種場景。在本文中,我們對小型語言模型進行了全面的綜述,重點介紹了它們的架構、訓練技術和模型壓縮技術。
我們提出了一種新的分類法,用于歸類優化SLMs的方法,包括模型壓縮、剪枝和量化技術。我們總結了適用于小型語言模型基準測試的標準數據集,以及常用的評估指標。此外,我們還強調了尚待解決的關鍵開放性挑戰。
本綜述旨在為有興趣開發和部署小型高效語言模型的研究人員和從業者提供寶貴的資源。
盡管大型語言模型(LLMs)在廣泛的基準測試和現實場景中展示了出色的性能,它們的成功卻伴隨著顯著的成本。LLMs 的訓練和運行資源密集,需耗費大量計算和數據資源。這通常意味著它們的訓練和推理都需要在集中化和專業化的硬件上進行。
為了應對這些挑戰,越來越多的研究開始關注小型語言模型(SLMs)。小型語言模型的目標是保持大型語言模型的準確性和/或適應性,同時受到某些約束條件的限制,如訓練或推理硬件、數據可用性、帶寬或生成時間。提升模型在這些約束條件下的性能,可以幫助實現隱私保護、成本節約或在消費級設備上運行的目標。 對小型語言模型進行綜述的難點在于,“小型”和“大型”的定義是隨時間和上下文變化的。例如,GPT-2 在2019年作為一個擁有15億參數的“大型語言模型”,如今已經比本文綜述中許多所謂的“小型”語言模型要小。然而,雖然模型規模在變化,小型語言模型的訓練目標相對穩定。
在本綜述中,我們將探討支持構建和推理小型語言模型的架構、訓練和模型壓縮技術。此外,我們還總結了用于評估小型語言模型性能的基準數據集和常用的評估指標。為此,我們提出了一個新的分類法,用于沿著兩條主軸組織這些方法:
表1(技術)和表2(約束條件)展示了這些主軸的概覽。
需要注意的是,在任何一個目標上的進展不一定意味著在其他目標上也有進展。事實上,往往存在權衡。例如,量化感知訓練等內存高效的訓練方法(Dettmers等人,2022a,2024)通常比全精度方法更慢。然而,通過使用混合精度表示權重和梯度,它們允許使用更少的內存來進行訓練或微調。最后,雖然最近已經有幾篇關于大型語言模型及其學習方法的綜述(Rogers等,2020;Min等,2021;Zhu等,2023;Shen等,2023),但據我們所知,這是首篇專注于小型語言模型的綜述。
本綜述分為三個主要部分,每個部分都涵蓋了優化小型語言模型的關鍵方面。第2節關注模型架構,包括輕量化設計、高效的自注意力近似以及神經架構搜索以高效構建更小的模型。第3節涵蓋高效的預訓練和微調技術,以在資源受限的情況下提升小型語言模型的性能。第4節探討了模型壓縮技術,如剪枝、量化和知識蒸餾,它們可以在不顯著犧牲精度的情況下減少模型的大小和延遲。第5節提供了基準數據集和評估指標的概述,提供了評估這些方法有效性的綜合框架。第6節討論了小型語言模型所啟用的應用,按照約束條件進行分類。最后,第7節提出了針對小型語言模型的開放性挑戰討論。
本文的主要貢獻如下:
本節討論了開發小型語言模型(SLMs)的架構設計。具體而言,我們涵蓋了輕量化架構(第2.1節)、高效自注意力近似(第2.2節)以及神經架構搜索(第2.3節)。
輕量化語言模型架構旨在通過減少參數量和計算開銷,實現高效性能,這對于在資源受限的設備(如手機、邊緣設備和嵌入式系統)上部署非常理想。代表性輕量化模型通常采用編碼器或解碼器的架構。 輕量化編碼器架構大多是BERT(Devlin等人,2019)的優化版本。例如,MobileBERT(Sun等人,2020)引入了一種倒瓶頸結構,以在自注意力和前饋網絡之間保持平衡,與基礎版BERT相比,實現了4.3倍的尺寸縮減和5.5倍的速度提升。DistilBERT(Sanh,2019)和TinyBERT(Jiao等人,2019)也分別實現了相似的優化。 輕量化解碼器架構遵循自回歸語言模型的結構,如GPT(Radford等人,2018,2019)和LLaMA系列(Touvron等人,2023b)。這些模型強調知識蒸餾、內存開銷優化、參數共享和嵌入共享,以增強效率和可擴展性。BabyLLaMA(Timiryasov和Tastet,2023a)和BabyLLaMA-2(Tastet和Timiryasov,2024)分別將多位教師模型的知識蒸餾到58M參數和345M參數的模型中,證明了在數據受限的情況下,蒸餾技術可以超越教師模型的性能。TinyLLaMA(Zhang等人,2024)僅有1.1B參數,通過優化內存開銷(例如使用FlashAttention,Dao等人,2022)實現了高效,同時在多種下游任務中保持了競爭力。MobilLLaMA(Thawakar等人,2024)應用了參數共享方案,減少了預訓練和部署成本,提出了一個適合資源受限設備的0.5B參數模型。MobileLLM(Liu等人,2024e)進一步引入嵌入共享和分組查詢注意機制,并通過分塊式權重共享降低了延遲。
部署大型語言模型的挑戰之一是自注意力層中的龐大參數量以及自注意力帶來的計算成本。本節討論了降低計算成本的策略,這些策略對于構建小型語言模型非常有用。 Reformer(Kitaev等人,2020)通過將點積注意力替換為使用局部敏感哈希的注意力,將自注意力的復雜度從O(N2)降低到O(N log N)。Roy等人(2021)使用了基于在線k-means聚類的稀疏路由模塊,減少了注意力計算的復雜性。 為進一步將自注意力層的計算復雜度從O(N2)降低到O(N),多項研究(Wang等人,2020a;Katharopoulos等人,2020;Xiong等人,2021;Beltagy等人,2020)提出了線性注意力機制。特別是,Katharopoulos等人(2020)將自注意力表示為核特征映射的線性點積,從而降低了二次復雜度。作者還展示了采用這種線性注意力機制的Transformer可以被視為一種遞歸神經網絡,從而實現更快的推理。在這些基礎上,近期的進展引入了更為先進的架構。值得注意的例子包括Mamba(Gu和Dao,2023;Dao和Gu,2024),該模型引入了具有輸入依賴轉換的選擇性狀態空間模型,以及RWKV(Peng等人,2023),它結合了Transformer和RNN的元素與線性注意力機制。這些模型不僅實現了線性時間和空間復雜度,還在各種任務中表現出競爭力。 我們還注意到一些先前用于處理長文檔的編碼器架構的工作。Longformer(Beltagy等人,2020)使用了局部窗口注意力和任務特定的全局注意力相結合的機制,隨著輸入長度的增加,能夠線性擴展,因此具有內存效率。Wang等人(2020a)通過使用低秩矩陣來近似自注意力機制,將復雜度降低到O(N)。這些研究表明,帶有線性自注意力的Transformer在多種下游任務中的表現與原始自注意力機制相匹配。類似地,Xiong等人(2021)使用了流行的Nystrom方法(Nystr?m,1930)來近似自注意力操作,在與傳統Transformer的比較中顯示出強大的實驗性能。
本節討論了用于發現最適合特定任務和硬件約束的高效模型架構的自動化方法。 先前的研究主要集中在用于視覺任務的神經架構搜索(NAS)(Tan和Le,2019;Zoph和Le,2016;Wu等人,2019;Guo等人,2020)和BERT模型(Xu等人,2021;Jawahar等人,2023;Ganesan等人,2021),這些模型的參數相對較少,減少了高效架構搜索過程的成本。然而,具有超過十億參數的大型語言模型在尋找更小、更高效的模型時面臨著顯著挑戰。其龐大的規模使搜索過程計算密集且昂貴。最近,MobileLLM(Liu等人,2024e)研究了模型深度(即層數)和寬度(即頭數)對性能的影響,有效地在數百萬參數范圍內進行了針對性架構搜索。與此同時,Shen等人(2024c)通過探索合適的初始化來減少搜索空間,從而加快了搜索過程的收斂。
近年來,大型多模態模型(LMMs)在顯著減少參數量的同時,達到了與前代模型相當甚至更優的性能。值得注意的例子包括LLaVA-Next(Liu等人,2024a)、Idefics2(Lauren?on等人,2024)和InternVL2(Chen等人,2023)系列。這一進展部分歸功于更多高效的小型語言模型,如Gemma(Team等人,2024)和phi-3-mini(Abdin等人,2024),并強調了精心策劃的數據集的重要性。
此外,人們還努力在多模態融合過程中縮減視覺編碼器的規模。例如,InternVL2利用大規模視覺編碼器的中間層輸出,同時丟棄后續模塊。更小的模型,如PaliGemma(Beyer等人,2024)和Mini-Gemini(Li等人,2024c),采用了輕量級的視覺編碼器。單體多模態模型進一步推進了這一點,完全消除了視覺編碼器,轉而使用輕量級架構生成視覺token。例如,Chameleon(Team,2024a)采用VQ-VAE模型將圖像編碼并解碼為離散token,而Mono-InternVL(Luo等人,2024a)則使用MLP生成圖像塊的視覺token,結合了一種名為多模態專家混合的特定模態前饋網絡,以區分不同的模態。
本節回顧了用于語言模型預訓練和微調的關鍵訓練技術。雖然小型語言模型(SLMs)與大型語言模型(LLMs)采用類似的訓練方法,但我們將重點介紹在有限資源情況下促進SLMs學習的高效技術。
混合精度訓練是提升SLMs和LLMs預訓練效率的關鍵技術。該方法利用低精度表示進行前向和后向傳播,同時保持高精度的權重更新。例如,Micikevicius等人(2018)引入了自動混合精度(AMP),該方法初始時使用32位浮點(FP32)精度保存權重的主副本,而在進行算術運算時使用16位浮點(FP16)精度。然而,近期的研究(Rae等人,2021)觀察到,由于FP16的數值范圍有限,AMP在某些情況下會導致精度損失。為了解決這一問題,Burgess等人(2019)提出了大腦浮點(BFLOAT16),該格式具有比FP16更多的指數位,提供了更大的動態范圍。BFLOAT16在訓練性能和表示精度方面優于FP16。
現代GPU架構進一步通過專用的Tensor Cores增強了混合精度功能。例如,早期的架構支持FP16和BFLOAT16,而NVIDIA的最新Hopper架構引入了對8位浮點(FP8)精度的支持(Luo等人),從而為大規模語言模型帶來了更高的計算效率。
為了進一步提升訓練效率并防止模型崩潰,采用了各種優化和穩定技術。雖然Adam(Diederik,2014)和AdamW(Loshchilov和Hutter,2019)優化器廣泛使用,但內存高效的變體如Adafactor(Shazeer和Stern,2018)和Sophia(Liu等人,2024b)被引入以提高訓練速度和效率。為進一步穩定訓練,梯度裁剪(Zhang等人,2020)被廣泛應用,以防止梯度爆炸。此外,仔細的初始化策略可以為模型訓練提供良好的起點。這些結合技術旨在實現最佳的訓練效率,保持數值穩定性,并生成更穩健和強大的語言模型。
為了應對預訓練階段的計算需求,語言模型通常在多個計算節點上進行預訓練,利用分布式計算資源實現高效訓練。為此,開發了多種系統級優化技術。零冗余數據并行(ZeRO)(Rajbhandari等人,2020)提供了三種漸進式的優化階段,每個階段都將更多的訓練狀態分布到設備上:ZeRO-1劃分優化器狀態,ZeRO-2增加梯度劃分,ZeRO-3進一步劃分模型參數。PyTorch的全分片數據并行(FSDP)(Zhao等人,2023b)也實現了類似的概念。這些并行技術允許使用更大的批量尺寸進行訓練,大大提高了SLMs和LLMs的效率和可擴展性。
在較小的特定任務數據集上進行微調,允許LLMs利用預訓練中獲得的知識,從而在特定任務或領域中表現出色。微調技術旨在解決諸如計算資源有限、數據質量、可用性和魯棒性等挑戰,確保能夠有效地適應新任務而無需進行廣泛的再訓練。
3.2.1 參數高效微調
參數高效微調(PEFT)僅更新一小部分參數或添加輕量級模塊,同時保持大部分預訓練模型的參數不變。這種方法減少了SLM微調時的計算成本,保留了模型的知識,減少了過擬合,并提高了靈活性。LoRA(Hu等人,2021)使用低秩分解,Prompt Tuning(Lester等人,2021)在輸入中插入可學習的提示,而Llama-Adapter(Zhang等人,2023b;Gao等人,2023)將提示添加到LLaMA的注意力塊中。動態適配器(Kong等人,2024;Feng等人,2024;Gou等人,2023;Liu等人,2023b;Luo等人,2024b)自動將多個適配器組合為專家混合模型,支持多任務處理并防止遺忘(Han等人,2024;Yang等人,2024)。
3.2.2 數據增強 數據增強通過增加訓練數據的復雜性、多樣性和質量,提升模型在下游任務中的泛化能力和性能。AugGPT(Dai等人,2023)使用ChatGPT對訓練樣本進行改寫,Evol-Instruct(Xu等人,2023)通過多步修訂生成復雜度更高的多樣化開放域指令。Reflection-tuning(Li等人,2023a,2024a)通過基于預定義標準使用GPT-4對指令和響應進行優化,提升了數據質量和指令響應一致性。FANNO(Zhu等人,2024)通過檢索增強生成技術引入外部知識源,以增強指令并生成響應。LLM2LLM(Lee等人,2024b)在訓練過程中基于模型預測生成更難的樣本。
數據增強在訓練數據有限的情況下也非常有效,例如用于低資源語言(Whitehouse等人,2023)、醫療和臨床應用(Chintagunta等人,2021)以及隱私敏感數據(Song等人,2024),從而使模型能夠在受限場景下更好地泛化并表現出更強的魯棒性。
通過使用f散度(f-divergences)的廣義版本,序列級蒸餾損失可以得到改進,如Wen等人(2023)所示。Liang等人(2023)通過使用任務感知濾波器擴展了針對語言模型的逐層蒸餾策略,該濾波器僅蒸餾來自教師模型的特定任務知識。最近的研究(Wan等人,2024a,b)表明,通過戰略性地融合多個語言模型的輸出概率分布,可以將多個語言模型融合為教師模型,以蒸餾知識到小型語言模型中。
語言模型的知識蒸餾面臨的一個問題是,當(1)教師和學生語言模型共享相同的分詞器,且(2)教師模型的預訓練數據可用時,蒸餾策略效果最佳。Boizard等人(2024)通過引入一種受最優傳輸理論啟發的通用logit蒸餾損失,解決了這一問題。蒸餾常常還與剪枝技術相結合,以創建更小的語言模型。例如,Sreenivas等人(2024)和Muralidharan等人(2024)展示了通過對大型語言模型進行剪枝并結合蒸餾損失進行重訓練的迭代步驟,可以生成性能強大的小型模型。
最新的進展探索了超越傳統標簽蒸餾的方法,通過在蒸餾過程中加入額外的監督來創建小型語言模型。Hsieh等人(2023)發現,在蒸餾過程中使用“推理依據”(rationales)作為額外的監督來源,使得蒸餾過程更加樣本高效。此外,作者發現蒸餾后的模型在常用的自然語言推理(NLI)、常識問答和算術推理基準測試上超越了大型語言模型。同樣地,Dai等人(2024)、Magister等人(2023)、Ho等人(2023)和Fu等人(2023)將從大型語言模型中提取的推理鏈與標簽信息一起蒸餾到小型語言模型中。研究表明,這些蒸餾后的模型在算術、多步數學、符號推理和常識推理能力上有顯著提升。
鑒于小型語言模型(SLMs)因其高效性和在廣泛設備與環境中的應用而變得愈發重要,本文綜述了SLMs,包括其模型架構、訓練技術以及用于優化SLMs的模型壓縮技術。我們還提出了一個直觀的SLM評估指標分類法,并總結了SLMs在各種設置和應用中的重要性。此外,我們總結了用于SLMs的訓練和基準數據集。最后,我們強調了SLMs領域中亟待解決的基本挑戰和開放性問題。我們希望這篇綜述能成為研究人員和從業者的寶貴資源,推動小型但功能強大的語言模型的進一步發展。
模型融合是機器學習社區中的一種高效賦能技術,它不需要收集原始訓練數據,也不需要昂貴的計算。隨著模型融合在各個領域中變得越來越普遍,全面了解現有的模型融合技術變得至關重要。然而,文獻中在系統且深入地審視這些技術方面存在顯著的空白。本綜述提供了對模型融合方法和理論的全面概述,涵蓋了它們在各個領域和場景中的應用,以及未來的研究方向。具體而言,我們首先提出了一種新的分類方法,對現有的模型融合方法進行了詳盡的討論。其次,我們討論了模型融合技術在大語言模型、多模態大語言模型以及10多個機器學習子領域中的應用,包括持續學習、多任務學習、少樣本學習等。最后,我們強調了模型融合的剩余挑戰,并討論了未來的研究方向。關于模型融合的論文完整列表請參見\url{this https URL}。
模型融合,也稱為模型合并,是一種有效的技術,通過融合多個具有不同能力的獨立模型的參數,構建一個通用模型,而無需訪問原始訓練數據或進行昂貴的計算。與模型融合最相關的概念是集成學習 [33, 109, 142, 180],因為它們都促進了知識的融合與傳遞。如圖1所示,它們之間的主要區別在于,集成學習必須保存所有的單個模型,并在推理階段融合多個模型的預測(或輸出),而模型融合則直接在參數層面進行合并,并且在推理時只有一個最終模型。這使得模型融合具備了更為吸引人的特性。盡管模型融合是一個相對年輕的課題,但它正在快速發展,并且已經在多個領域中找到了應用。例如,在基礎模型中,由不同下游任務微調的模型被合并,以增強大語言模型的能力,而具有不同風格的圖像生成模型被合并,以創建具有混合風格能力的新模型。特別是,近年來機器學習社區中的預訓練和微調檢查點數量呈指數級增長,包括開源庫如Huggingface [182]、torchvision [111]和timm [181],這使得用戶可以輕松獲取各種能力的訓練良好的專家模型。這些豐富的模型庫進一步推動了模型融合方向的快速發展。隨著模型融合在機器學習社區的各個領域中變得越來越流行,全面了解現有模型融合技術的優勢和局限性及其在不同領域的應用變得至關重要。盡管社區已經做出了一些努力 [48, 96, 157, 214],但仍有許多空白需要填補。更具體地說,MergeKit [48]和FusionBench [157]是技術報告,MergeKit中僅討論了七種代表性方法,FusionBench中討論了八種合并方法。此外,Zheng等人 [214] 討論了“從模型中學習”的話題,并且僅在整個論文中以一個子節(一頁)提到了模型融合。與“模型融合”主題最相關的工作是 [96],但在應用方面,它只討論了模型融合在聯邦學習、微調和蒸餾三種場景中的應用。由于模型融合方向的快速發展,它也忽略了許多最近發表的文章。為了解決這些空白,本綜述旨在闡明模型融合方向中的方法、理論、應用和未來趨勢,提供相關方法的全面分類。特別是,本文通過涵蓋三個主要方面來增強對模型融合的全面理解:
**首先,現有的模型融合方法是如何分類的?**我們首先在圖2(上半部分)中提出了一個新的分類法,將現有的模型融合方法分為兩個階段(§2):預融合和融合過程中。(i)預融合方法旨在為融合創造更好的條件。它進一步分為使用線性微調實現權重空間和輸入空間的解耦,執行架構轉換以將異構模型轉換為同質模型,以及對齊權重以將它們置于同一盆地。(ii)融合過程中的方法側重于設計復雜的技術,將多個模型融合為一個。這些方法解決了在融合模型時的任務沖突和干擾問題。它們可以進一步分為基本融合方法,即執行最簡單的參數融合策略;加權融合方法,即根據特定規則計算的重要性來融合多個模型;子空間融合方法,即將多個模型投影到稀疏子空間進行融合;基于路由的方法,即在推理過程中根據輸入樣本動態融合模型;以及基于后校準的方法,即對融合后的模型進行校正。除了這些方法外,我們還討論了模型融合的理論或實證分析。
**其次,哪些應用可以從模型融合中受益?**我們詳細討論了模型融合在基礎模型(§3)和機器學習的十多個子領域(§4)中的各種用例。如圖2(下半部分)所示,模型融合可以應用于多種基礎模型,包括大語言模型、多模態大語言模型和圖像生成模型。例如,模型融合在大語言模型中可以幫助減輕不真實和有害輸出,實現知識去學習,并加速訓練。此外,模型融合還出現在不同的機器學習子領域,如持續學習、多任務/多域學習、少樣本學習和其他子領域,以解決各種挑戰。例如,在持續學習中,模型融合可以減輕舊任務的災難性遺忘。在多任務學習、多目標學習和多域學習中,它促進了知識傳遞。此外,在對抗性學習中,模型融合可以用于攻擊和防御策略。**第三,模型融合的剩余挑戰和未來研究機遇是什么?**盡管融合方法取得了進展并且應用已經得到了充分發展,但該領域仍存在許多未解決的挑戰和未來的研究方向(§5)。例如,隨著任務數量的增加,現有方法與獨立專家模型之間的性能差距顯著擴大。此外,當前的模型融合方法在融合過程中產生了巨大的內存成本,并且缺乏信任保證以及深入的理論分析。解決這些空白需要研究人員做出大量努力,以進一步推動該領域的蓬勃發展。
總而言之,本文的主要貢獻包括以下三個方面: ? 方法概述:我們提供了對模型融合技術方面的全面總結。具體而言,我們提出了一個新的分類法,將現有的模型融合方法分為兩個階段,并根據關鍵技術進一步細分每個階段的方法。此外,我們還討論了與模型融合相關的理論分析工作。 ? 應用概述:我們提供了對模型融合應用方面的全面總結。具體而言,我們探索了模型融合在基礎模型和10多個機器學習子領域中的應用,展示了模型融合如何解決這些領域中的現有挑戰。 ? 未來方向:我們概述了模型融合的幾個剩余挑戰和未來方向。我們認為,未來需要從性能差距、理論分析、信任保證、跨學科應用等方面進一步探索模型融合。 本文的主要結構如下:§1是介紹,§2從技術角度對高級模型融合方法進行了全面討論。在§3和§4中,我們分別總結了模型融合在各種基礎模型和機器學習不同子領域中的應用。剩余的挑戰和未來的研究方向在§5中討論。最后,我們在§6中對本文進行了總結。
高級模型融合方法
在本節中,我們首先在§2.1中介紹模型融合的符號表示和問題定義。然后,我們詳細闡述了高級模型融合方法(表1總結了每類方法的主要目的)。現有的模型融合技術大致可以分為以下兩類: (i) 融合前方法 在§2.2中:為模型融合提供更好的先驗知識。 (ii) 融合過程中方法 在§2.3中:通過各種策略解決任務沖突/干擾,然后執行參數融合操作。最后,我們在§2.4中總結了模型融合有效性的理論或解釋。
模型融合在基礎模型中的應用
基礎模型的出現,包括大語言模型(LLM)、多模態大語言模型(MLLM)和圖像生成模型,是近年來人工智能領域技術進步的重要標志。然而,盡管這些大型模型取得了顯著進展,但它們仍面臨諸多挑戰,如LLM生成有害內容、MLLM在融合不同模態信息時的困難,以及圖像生成模型在生成混合風格圖像時的難度。最新研究表明,模型融合技術為這些基礎模型中固有的挑戰提供了一個有前景的解決方案。表2首先簡要總結了模型融合在基礎模型中的應用。然后,§3.1、§3.2和§3.3分別詳細討論了LLM、MLLM和圖像生成模型如何從模型融合中受益。
模型融合在不同機器學習子領域的應用
模型融合是一種簡單而有效的技術,廣泛應用于機器學習的各個子領域,如持續學習、多任務學習、領域泛化、聯邦學習、少樣本學習和對抗性防御等。在本節中,我們將全面討論模型融合在不同機器學習子領域中的應用。表3提供了簡要總結,§4.1至§4.6中詳細介紹了每個應用案例。
結論
模型融合是一種簡單而有效的模型增強技術,通過結合多個模型來實現多樣化的能力。在本綜述中,我們首先全面概述了當前在模型融合領域可用的高級方法和理論。接下來,我們討論了模型融合技術在各種基礎模型(如LLM、MLLM)和機器學習的十多個子領域中的應用,強調了它們在解決各種挑戰和困難中的作用。最后,我們識別了模型融合領域中尚存的問題,并提出了六個值得進一步探索的研究方向。我們相信,作為一種高效且模塊化的模型賦能解決方案,模型融合技術將在未來的更多實際場景中發揮重要作用。
近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。
近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?
為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。
組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。
根據最近大語言模型(LLMs)的流行,已經有多次嘗試將其擴展到視覺領域。從擁有可以引導我們穿越陌生環境的視覺助手到僅使用高級文本描述生成圖像的生成模型,視覺-語言模型(VLM)的應用將極大地影響我們與技術的關系。然而,為了提高這些模型的可靠性,還有許多挑戰需要解決。雖然語言是離散的,但視覺在更高維的空間中演變,其中的概念并不總是容易離散化。為了更好地理解將視覺映射到語言的機制,我們介紹了這篇關于VLMs的綜述,希望能幫助任何希望進入該領域的人。首先,我們介紹了什么是VLMs,它們是如何工作的,以及如何訓練它們。然后,我們展示并討論了評估VLMs的方法。盡管這項工作主要關注將圖像映射到語言,但我們也討論了將VLMs擴展到視頻的可能性。
近年來,我們在語言建模方面看到了令人印象深刻的發展。許多大型語言模型(LLMs),如Llama或ChatGPT,現在能夠解決各種各樣的任務,其使用也越來越普及。這些模型主要局限于文本輸入,現在已經擴展到包含視覺輸入。將視覺與語言連接將開啟幾個在當前基于AI的技術革命中關鍵的應用。盡管已經有多項工作將大型語言模型擴展到視覺領域,但語言與視覺的連接并未完全解決。例如,大多數模型在沒有復雜的工程開銷和額外數據標注的情況下,難以理解空間關系或進行計數。許多視覺語言模型(VLMs)也缺乏對屬性和順序的理解。它們經常忽略輸入提示的一部分,導致需要進行大量的提示工程才能得到所需結果。其中一些還會產生幻覺,生成不必要或不相關的內容。因此,開發可靠的模型仍然是一個非常活躍的研究領域。 在這項工作中,我們介紹了視覺語言模型(VLMs)的入門知識。我們解釋了什么是VLMs,它們是如何訓練的,以及如何根據不同的研究目標有效評估VLMs。本工作不應被視為關于VLMs的綜述或完整指南。因此,我們并不打算引用VLM研究領域的每一項工作;也不涵蓋該領域的所有最佳實踐。相反,我們旨在提供一個清晰且易于理解的VLM研究介紹,并強調在該領域進行研究的有效實踐。該介紹特別適合希望進入該領域的學生或其他領域的研究人員。
我們首先介紹不同的VLM訓練范式。我們討論了對比方法如何改變了該領域。接著,我們介紹利用掩碼策略或生成組件的方法。最后,我們介紹使用預訓練骨干(如LLMs)的VLMs。將VLMs分類成不同的家族并不是一項容易的任務,因為它們中的大多數都有重疊的組件。然而,我們希望我們的分類能幫助新研究人員導航該領域,并揭示VLMs背后的內在機制。
接下來,我們介紹訓練VLMs的典型方法。例如,我們涵蓋了:根據不同的研究目標,哪些數據集是合適的?哪種數據策展策略?我們是否需要訓練一個文本編碼器,還是可以利用一個預訓練的LLM?對比損失對于理解視覺是否足夠,還是生成組件是關鍵?我們還介紹了用于提高模型性能以及更好地對齊和錨定的常見技術。 提供訓練模型的方法是更好地理解VLM需求的關鍵步驟,而提供對這些模型的穩健和可靠的評估同樣重要。許多用于評估VLMs的基準最近已經被引入。然而,其中一些基準有重要的局限性,研究人員應當注意。通過討論VLM基準的優缺點,我們希望揭示改善我們對VLMs理解的挑戰。我們首先討論評估VLMs視覺語言能力的基準,然后介紹如何衡量偏見。
下一代VLMs將能夠通過將視頻映射到語言來理解視頻。然而,視頻面臨的挑戰與圖像不同。計算成本當然更高,但也有其他關于如何通過文本映射時間維度的考慮。通過揭示當前從視頻中學習的方法,我們希望強調需要解決的當前研究挑戰。
通過降低進入VLM研究的門檻,我們希望為更負責任的發展VLMs提供基礎,同時推動視覺理解的邊界。
鑒于深度學習在計算機視覺和自然語言處理領域的顯著進展,已經有多項將這兩個領域橋接起來的倡議。在本文中,我們重點介紹基于Transformers [Vaswani et al., 2017] 的最新技術。我們將這些最新的技術分為四種不同的訓練范式(圖1)。
第一種是對比訓練,這是一個常用的策略,它利用正負樣本對。VLM通過訓練,使其能夠為正樣本對預測相似的表示,而為負樣本對預測不同的表示。
第二種是掩碼策略,通過給定一些未掩碼的文本來重建被掩碼的圖像塊。同樣,通過掩碼標題中的詞語,可以訓練VLM在給定未掩碼圖像的情況下重建這些詞語。
基于預訓練骨干的VLMs通常利用開源的LLMs,如Llama [Touvron et al., 2023],以學習圖像編碼器(也可以是預訓練的)和LLM之間的映射。與從頭訓練文本和圖像編碼器相比,學習預訓練模型之間的映射通常計算成本較低。
雖然大多數方法利用中間表示或部分重建,生成式VLMs則以能夠生成圖像或標題的方式進行訓練。鑒于這些模型的性質,它們往往是訓練成本最高的。 我們強調,這些范式并不是互斥的;許多方法依賴于對比、掩碼和生成標準的混合。對于每種范式,我們僅介紹一到兩個模型,以便讀者對這些模型的設計有一些高層次的見解。
多項研究 [Henighan et al., 2020b,a] 強調了擴展深度神經網絡規模以提升其性能的重要性。受到這些擴展規律的啟發,最近的工作主要集中在增加計算能力和模型規模以學習更好的模型。這導致了諸如CLIP [Radford et al., 2021] 這樣的模型的出現,該模型使用了400M張圖像進行訓練,計算預算非常高。即使是相應的開源實現OpenCLIP [Ilharco et al., 2021] 也使用了256到600個GPU,訓練時間長達數天或數周,具體取決于模型規模。然而,最近的研究 [Sorscher et al., 2022] 表明,通過數據策展流水線,可以超越擴展定律。在本節中,我們首先討論訓練模型時數據的重要性,并介紹一些用于創建訓練VLMs數據集的方法。接著,我們討論從業者可能用來更高效地訓練VLMs的常用軟件、工具和技巧。由于訓練VLMs的方法不同,我們還討論了在特定情況下選擇哪種類型的模型。最后,我們介紹了一些提高錨定(正確將文本與視覺線索匹配)的技巧。我們還介紹了使用人類偏好改進對齊的方法。由于VLMs經常用于讀取和翻譯文本,我們也介紹了一些可以進一步提升VLMs OCR能力的技術。最后,我們討論了常見的微調方法。
由于VLMs的主要能力是將文本與圖像進行映射,因此測量視覺-語言能力至關重要,以確保文字確實與視覺線索相匹配。早期用于評估VLMs的任務是圖像描述和視覺問答(VQA)[Antol et al., 2015]。在本節中,我們還討論了評估模型從圖像中理解和讀取文本能力的文本中心VQA任務。另一個由Radford等人 [2021] 引入的常見評估方法基于零樣本預測,例如ImageNet [Deng et al., 2009] 分類任務。這類分類任務對于評估VLM是否具備足夠的世界知識非常重要。更近期的基準如Winoground [Thrush et al., 2022] 測量視覺-語言組合推理。由于VLM模型已知會表現出偏見或幻覺,因此評估這兩個組成部分也很重要。
我們迄今為止的重點是訓練和評估基于靜態視覺數據(即圖像)的VLMs。然而,視頻數據為模型帶來了新的挑戰和潛在的新功能,例如理解物體的運動和動態,或在空間和時間中定位物體和動作。文本到視頻的檢索、視頻問答和生成迅速成為計算機視覺的基本任務 [Xu et al., 2015, Tapaswi et al., 2016, Brooks et al., 2024]。視頻的時間維度對存儲、GPU內存和訓練提出了新的挑戰,例如,24幀每秒的視頻需要24倍的存儲和處理,如果每幀都被視為圖像。這需要在視頻VLMs中進行權衡,例如使用壓縮形式的視頻(例如,H.264編碼)并在數據加載器中即時解碼視頻;從圖像編碼器初始化視頻編碼器;視頻編碼器具有空間/時間池化/掩碼機制 [Fan et al., 2021, Feichtenhofer et al., 2022];非端到端VLMs(離線提取視頻特征并訓練模型,這些模型采用視頻特征而不是長視頻的像素幀)。與圖像-文本模型類似,早期的視頻-文本模型從頭開始訓練視覺和文本組件,并采用自監督標準 [Alayrac et al., 2016]。但與圖像模型不同的是,對比視頻-文本模型并不是首選方法,視頻和文本的早期融合和時間對齊更受青睞 [Sun et al., 2019],因為與計算視頻的全局表示相比,表示中的時間粒度更為有趣。最近,視頻-語言模型中也出現了類似于圖像-語言模型的趨勢:預訓練的LLMs被用于與視頻編碼器對齊,增強LLMs的視頻理解能力。現代技術如視覺指令微調也被廣泛使用并適應于視頻。
將視覺映射到語言仍然是一個活躍的研究領域。從對比方法到生成方法,有許多訓練VLMs的方法。然而,高計算和數據成本常常成為大多數研究人員的障礙。這主要激勵了使用預訓練的LLMs或圖像編碼器,僅學習模態之間的映射。無論訓練VLMs的方法是什么,都有一些普遍的考慮需要記住。大規模高質量的圖像和標題是提升模型性能的重要因素。改進模型的錨定能力和與人類偏好的對齊也是提高模型可靠性的重要步驟。 為了評估性能,已經引入了多個基準來測量視覺語言和推理能力;然而,其中許多基準有嚴重的局限性,如僅使用語言先驗就能解決。將圖像與文本綁定并不是VLMs的唯一目標;視頻也是一種可以用來學習表示的重要模態。然而,在學習良好的視頻表示之前,還有許多挑戰需要克服。VLMs的研究仍然非常活躍,因為要使這些模型更可靠,還需要很多缺失的組件。
多語言大型語言模型利用強大的大型語言模型處理和響應多種語言的查詢,這在多語言自然語言處理任務中取得了顯著的成功。盡管取得了這些突破,但在這一領域仍缺乏一個全面的綜述來總結現有方法和最近的發展。為此,在本文中,我們提出了一個徹底的審查,并提供了一個統一的視角來總結多語言大型語言模型(MLLMs)文獻中的最新進展和新興趨勢。本文的貢獻可以總結如下:(1)第一份綜述:據我們所知,我們采取了第一步,在多語言對齊的基礎上對MLLMs研究領域進行了徹底的審查;(2)新分類法:我們提出了一個新的統一視角來總結MLLMs的當前進展;(3)新前沿:我們突出了幾個新興的前沿并討論了相應的挑戰;(4)豐富資源:我們收集了大量的開源資源,包括相關論文、數據語料庫和排行榜。我們希望我們的工作能為社區提供快速訪問并推動MLLMs的突破性研究。
近年來,大型語言模型(LLMs)在各種自然語言處理任務上取得了優異的表現(Brown et al., 2020; Touvron et al., 2023a; Bang et al., 2023; Zhao et al., 2023b; Pan et al., 2023; Nguyen et al., 2023a; Trivedi et al., 2023),并展示出了令人驚訝的突發能力,包括上下文學習(Min et al., 2022; Dong et al., 2022)、思維鏈推理(Wei et al., 2022; Huang et al., 2023a; Qin et al., 2023a)以及規劃(Driess et al., 2023; Hu et al., 2023b)。然而,大多數LLMs主要關注英語任務(Held et al., 2023; Zhang et al., 2023i),使其在多語言環境,尤其是低資源環境下表現不足。
實際上,全球有超過7000種語言。隨著全球化的加速,大型語言模型的成功應考慮服務于不同國家和語言。為此,多語言大型語言模型(MLLMs)具有全面處理多種語言的優勢,越來越受到關注。具體來說,現有的MLLMs可以根據不同階段大致分為兩組。第一系列工作(Xue et al., 2020; Workshop et al., 2022; Zhang et al., 2023g; Muennighoff et al., 2022)利用多語言數據調整參數以提升整體多語言性能。第二系列工作(Shi et al., 2022a; Qin et al., 2023b; Huang et al., 2023a)還采用先進的提示策略,在參數凍結推理階段挖掘MLLMs的更深層次多語言潛力。
盡管在MLLMs上取得了顯著成功,但仍缺乏對最近努力的全面回顧和分析,這阻礙了MLLMs的發展。為了彌補這一差距,我們首次嘗試對MLLMs進行全面而詳盡的分析。具體來說,我們首先介紹廣泛使用的數據資源(§3)。此外,由于跨語言對齊的關鍵挑戰,我們根據對齊策略引入了新的分類法(§4),旨在提供文獻中的統一視角,包括參數調整對齊和參數凍結對齊(如圖1所示)。具體來說,參數調整對齊需要在預訓練、監督微調、人類反饋學習和下游微調過程中調整模型參數以增強英語和目標語言之間的對齊。參數凍結對齊指的是通過跨語言提示實現的對齊,無需調整參數。最后,我們指出了一些潛在的前沿領域以及MLLMs面臨的相應挑戰,希望激發后續研究(§5)。
本工作的貢獻可以總結如下:(1)首次綜述:據我們所知,我們是第一個根據多語言對齊在MLLMs文獻中提出全面綜述的;(2)新分類法:我們引入了將MLLMs分類為參數凍結和參數調整兩種對齊類型的新分類法,為理解MLLMs文獻提供了統一視角;(3)新前沿:我們討論了一些新興的前沿,并突出了它們的挑戰和機遇,希望為未來研究的發展鋪路;(4)詳盡資源:我們首次嘗試組織MLLMs資源,包括開源軟件、多樣的語料庫和相關出版物的精選列表,可在//multilingual-llm.net訪問。 我們希望這項工作能成為研究者的寶貴資源,并激發未來研究的更多突破。
如圖4所示,我們引入了一種新的分類法,包括參數調整對齊(§4.1)和參數凍結對齊(§4.2),旨在為研究人員提供一個統一的視角,以理解MLLMs文獻。具體來說,參數調整對齊(PTA)包括一系列逐步進階的訓練和對齊策略,包括預訓練對齊、監督微調(SFT)對齊、人類反饋學習(RLHF)對齊,以及最終的下游微調對齊。這些階段的共同目標是系統地優化模型參數,以對齊多語言性能。相反,參數凍結對齊(PFA)側重于基于PTA的四種提示策略:直接提示、代碼切換提示、翻譯對齊提示和檢索增強對齊。這種方法保持原始模型參數,以實現預期結果。
憑借廣泛的預訓練知識和高級通用能力,大型語言模型(LLMs)作為增強強化學習(RL)的一個有希望的途徑出現,在多任務學習、樣本效率和任務規劃等方面顯示出其潛力。在這篇綜述中,我們提供了一個關于LLM增強RL現有文獻的全面回顧,并總結了與傳統RL方法相比的特點,旨在明確研究范圍和未來研究的方向。利用經典的智能體-環境交互范式,我們提出了一個結構化的分類法,以系統地分類LLMs在RL中的功能,包括四個角色:信息處理器、獎勵設計師、決策者和生成器。另外,對于每個角色,我們總結了方法論,分析了被緩解的具體RL挑戰,并提供了對未來方向的洞見。最后,討論了LLM增強RL的潛在應用、前瞻性機會和挑戰。
強化學習(RL)是一種強大的學習范式,專注于控制和決策制定,其中智能體通過與環境的嘗試和錯誤交互學習優化指定目標。深度學習在自然語言處理(NLP)[1] 和計算機視覺(CV)[2] 等經典領域的最近成功,促成了深度強化學習的興起,深度強化學習將RL與高容量深度神經網絡近似器結合起來,使智能體能夠在復雜環境中做出決策。在游戲領域,深度強化學習算法在多種街機[3]、[4]、實時策略[5]、[6]、棋盤[7]、[8]以及非完全信息游戲[9]、[10]中實現了超越人類的決策能力。目前,強化學習的應用已擴展到機器人[11]、自動駕駛車輛[12]、醫療保健[13]和對話系統[14]等領域的現實世界任務中。
然而,當在涉及語言和視覺信息的現實世界應用中應用深度強化學習算法時,面臨著重大挑戰,因為智能體必須同時學習特征和控制策略。為了減輕視覺特征學習的負擔,參考文獻[15]將表示學習與強化學習解耦。為了處理涉及語言的任務,一項綜述[16]呼吁在RL中潛在使用NLP技術。盡管如此,當時語言模型的能力有限,以下四個挑戰仍未得到解決:1)樣本效率低:深度強化學習智能體需要與環境進行大量交互才能學習有效策略,這在數據收集昂貴或風險較高的場景中變得不切實際[17]、[18]、[19]。2)獎勵函數設計:策略學習的性能在很大程度上取決于獎勵函數的設計[20]。盡管獎勵函數的基礎性重要,但它們被認為難以設計[21]、[22],因為它們需要對任務有深入了解,且經常需要手動嘗試和錯誤[23]。3)泛化:深度強化學習智能體的泛化仍然令人望而卻步,因為它們經常難以適應新的、未見過的環境,限制了智能體在動態真實世界設置中的適用性[24]、[25]。4)自然語言理解:深度強化學習在自然語言處理和理解場景中面臨困難,人類語言的細微差別和復雜性帶來了獨特的挑戰,這些挑戰未被當前的RL方法充分解決[26]。
大型語言模型(LLMs)的近期出現標志著自然語言處理領域的重要里程碑,并在許多實際應用中展現了強大的能力,如醫藥[27]、化學[28]以及機器人的體現控制[29]。與小型語言模型相比,LLMs擁有小型語言模型所不具備的突現能力[30],例如上下文學習[31]、推理能力[32]等。此外,借助龐大的訓練數據,預訓練的LLMs裝備了廣泛的世界知識[33]。利用這些能力,語言模型的應用已從語言建模轉變為任務解決,范圍從基本的文本分類和情感分析到復雜的高級任務規劃[34]和決策制定[35]、[36]、[37]。
隨著LLMs的突現能力,最近LLMs解決RL固有挑戰的潛力開始受到關注[38]、[39]。LLMs尤其在自然語言理解、推理和任務規劃方面的能力,提供了解決上述RL問題的獨特方法。對于樣本效率低的問題,參考文獻[40]提出了一個框架,其中LLMs可以用來通過提供豐富、上下文信息豐富的預測或建議來提高RL智能體的樣本效率,從而減少對廣泛環境交互的需求。對于獎勵函數設計,LLMs可以幫助構建更細致和有效的獎勵函數,通過提供對復雜場景更深入的理解來增強學習過程[41]。對于泛化,參考文獻[42]提出了一個框架,該框架利用基于語言的反饋來提高RL策略在未見環境中的泛化。對于自然語言理解,Pang等[43]使用LLMs將復雜的基于自然語言的指令翻譯為簡單的任務指定語言以供RL智能體使用。這些工作表明,LLM是一個有前途和強大的角色,可以為長期存在的RL挑戰做出貢獻。
盡管將LLMs整合到RL范式中的領域取得了進步,但在這一迅速發展的領域目前顯著缺乏全面綜述。此外,盡管提出了各種方法將LLMs整合到RL范式中,但還沒有統一的框架進行這種整合。我們的綜述旨在填補這些空白,通過提供相關文獻的廣泛回顧,定義名為LLM增強RL的新范式的范圍,并進一步提出一個分類法來對LLMs在所提范式中的功能進行分類。
A. 貢獻
本綜述做出以下貢獻:
LLM增強RL范式:本文在整合LLM到RL范式的新興領域中提出了第一個全面綜述。為了明確研究范圍和未來工作的方向,我們定義了LLM增強RL這一術語來概括這類方法論,總結了特征并提供了一個相應的框架,清晰地說明了1)如何將LLMs整合到經典的智能體-環境互動中以及2)LLMs為傳統RL范式提供的多方面增強。
統一的分類法:進一步對LLM增強RL范式中LLMs的功能進行分類,我們提出了一個結構化的分類法,系統地將LLMs分類為信息處理器、獎勵設計者、決策者和生成器。通過這樣的分類,提供了一個清晰的視角,展示了LLMs如何整合到經典RL范式中。
算法回顧:對于LLM的每個角色,我們回顧了這一方向上的新興工作,并從能力的角度討論了不同的算法特性。基于這一基礎,分析了LLM增強RL的未來應用、機會和挑戰,以提供推進這一跨學科領域的潛在路線圖。
B. 文本組織余下的部分按以下方式組織。第二節提供了RL和LLM的基礎知識。第三節介紹了LLM增強RL的概念并提供了其整體框架。繼續,第四、五、六和七節深入分析了LLMs在RL上下文中的角色,探討了它們作為信息處理器、獎勵設計者、決策者和生成器的作用。最后,第八節討論了LLM增強RL的應用、機會和挑戰。最后,第九節總結了綜述。
大模型增強強化學習
強化學習(RL)智能體經常在實際應用中被賦予使用多模態信息做出穩健和深思熟慮決策的任務,無論是在馬爾可夫決策過程(MDP)設置中還是在特定任務描述的上下文中。例子包括設計用于在導航物理環境時遵循自然語言指令的機器人,或者具有用自然語言描述的任務的視覺游戲[68]、[69]、[70]。然而,對于傳統的RL方法來說,這是一個挑戰,因為智能體需要同時解釋復雜的多模態數據并在不斷變化的環境中優化控制策略[71]。這些挑戰還包括樣本效率低、制定能準確反映多模態輸入的獎勵函數的難度,以及在不同任務和設置中需要穩健泛化的需求。
大型語言模型(LLMs)的快速進步為這些挑戰提供了一個可行的解決方案,這得益于它們強大的自然語言理解和推理能力,以及最近在整合視覺數據處理方面的進展[72]。這種雙重能力使LLMs能夠有效地解釋和處理復雜的多模態信息,作為增強RL范式以適用于實際應用的強大助手。
然而,盡管LLMs具有強大的功能,當前的研究多種多樣,缺乏正確指定系統方法論的標準概念,這阻礙了這一領域研究的進步。因此,我們介紹了以下所謂的LLM增強RL的概念: LLM增強RL指的是利用預訓練、內含知識的AI模型的多模態信息處理、生成、推理等能力來協助RL范式的方法。
與傳統的基于模型的強化學習不同,LLM增強RL的一個關鍵特點是它利用了具有通用知識的模型,這意味著模型在學習過程開始時就具有相當水平的能力,并且與其他數據驅動模型相比具有更好的泛化能力。此外,LLM增強RL仍然使用AI模型,并且可以通過RL交互數據持續學習以提高其能力。
B. 框架
LLM增強RL的框架如圖2的中心所示,它建立在經典的智能體-環境互動范式之上。伴隨著嘗試和錯誤的學習過程,LLM處理狀態信息,重新設計獎勵,協助選擇行動,并在選擇行動后解釋策略。 具體來說,一方面,當智能體從環境接收狀態和獎勵信息時,LLM能夠處理或修改信息,以過濾不必要的基于自然語言的信息或設計適當的獎勵以加速學習過程,基于自然語言理解和推理能力。另一方面,當智能體基于觀察即將選擇一個行動時,LLM可以通過模擬世界模型或充當策略網絡來協助選擇行動過程,以基于建模能力和常識知識生成合理的行動。 此外,在選擇行動過程之后,綜合狀態、獎勵和行動信息,LLM可以解釋策略選擇背后的潛在可能原因,這有助于人類監督者理解進一步系統優化的場景。 基于LLM在框架中的功能,我們提取LLM增強RL的特性,并進一步將LLM在LLM增強RL中的四種不同角色細分為信息處理器、獎勵設計師、生成器和決策者,這將在下一小節中詳細闡述。
C. 特性
LLM增強RL范式增強了原始RL范式,具有以下特性:
多模態信息理解:LLMs增強了RL智能體對涉及多模態信息場景的理解,使它們能夠更有效地從用自然語言和視覺數據描述的任務或環境中學習。
多任務學習和泛化:受益于多學科預訓練知識,LLMs通過設計獎勵或生成參考行動,賦予RL智能體多任務學習和泛化的能力。
改善樣本效率:鑒于其固有的探索性質,RL范式需要大量樣本來學習。預訓練的LLM可以通過模擬增強數據生成或利用先驗知識來提高RL的樣本效率。
長期規劃處理:隨著軌跡長度的增加,由于信用分配問題,RL變得更具挑戰性。LLMs可以將復雜任務分解為子任務,協助RL智能體在更長的時間范圍內進行規劃,幫助在復雜的多步驟任務(如Minecraft游戲)中進行決策過程。
獎勵信號生成:基于上下文理解和領域知識,LLMs有助于獎勵塑形和獎勵函數設計,這有助于引導RL向有效的策略學習在稀疏獎勵環境中。
D. 分類 在本小節中,我們通過詳細說明它們的功能和它們解決的RL相應問題,展示LLMs在上述框架內的不同角色:
信息處理器:當觀察或任務描述涉及語言或視覺特征時,智能體同時理解復雜信息和優化控制策略變得具有挑戰。為了減輕智能體理解多模態數據的負擔,LLM可以作為環境信息或任務指令信息的信息處理器,通過1)提取有意義的特征表示以加速網絡學習;2)將基于自然語言的環境信息或任務指令信息翻譯為形式化的特定任務語言以降低學習復雜性。
獎勵設計師:在獎勵稀疏或難以定義高性能獎勵函數的復雜任務環境中,使用先驗世界知識、推理能力和代碼生成能力,LLM可以擔任兩種角色:1)隱式獎勵模型,根據環境信息提供獎勵值,通過訓練或提示;2)顯式獎勵模型,生成獎勵函數的可執行代碼,透明地指定基于環境規范和基于語言的指令或目標的獎勵標量的邏輯計算過程。
決策者:RL在探索長期環境時面臨樣本效率低和規劃的挑戰。通過擔任決策者,預訓練的LLMs可以執行:1)直接決策:使用強大的序列建模能力和常識知識來提高離線RL的樣本效率;2)間接決策:充當專家指導者,生成行動候選(高級任務規劃)以縮小行動選擇范圍或輸出參考策略以間接指導RL策略的更新方向。
生成器:基于模型的RL依賴于精確的世界模型來學習準確的環境動態并模擬高保真軌跡。此外,解釋性在RL中仍然是另一個重要問題。使用多模態信息理解能力和先驗常識推理能力,LLMs可以1)作為生成器在基于模型的RL中生成準確軌跡;2)在可解釋的RL中使用相關信息的提示生成策略解釋。
在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。
自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。
傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。
大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。
鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。
本綜述的組織:我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。
在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。
當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。
本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。
基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。
結論
在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。
在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。
大型語言模型(LLMs)在自然語言處理方面展示了令人印象深刻的能力。然而,它們的內部機制仍然不清楚,這種不透明性對下游應用帶來了不希望的風險。因此,理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中,我們引入了可解釋性技術的分類體系,并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類:傳統的微調范式和基于提示的范式。對于每個范式,我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準,并討論了如何利用解釋來調試模型和提高性能。最后,我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。
大型語言模型(LLMs),如BERT(Devlin等,2019a)、GPT-3(Brown等,2020)、GPT-4(Bubeck等,2023)、LLaMA-2(Touvron等,2023b)和Claude(AnthropicAI,2023),在各種自然語言處理(NLP)任務中展示出了令人印象深刻的性能。主要科技公司,如微軟、谷歌和百度,已在其商業產品和服務中部署了LLMs以增強功能。例如,微軟利用GPT-3.5來改善新Bing的搜索相關性排名(Mehdi,2023)。由于LLMs通常是復雜的“黑盒子”系統,其內部工作機制是不透明的,高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生(Weidinger等,2021)。因此,開發解釋能力以揭示這些強大模型的工作方式至關重要。
可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力(Doshi-Velez和Kim,2017;Du等,2019a)。提高LLMs的可解釋性至關重要,有兩個關鍵原因。首先,對于一般終端用戶,可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任,無需技術專業知識。通過這種方式,終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次,對于研究人員和開發人員,解釋模型行為提供了洞察力,以識別意外偏見、風險和性能改進的領域。換句話說,可解釋性充當了一個調試輔助工具,可以快速提高下游任務上的模型性能(Strobelt等,2018;Bastings等,2022;Yuksekgonul等,2023)。它有助于追蹤模型能力隨時間的變化,進行不同模型之間的比較,并開發可靠、道德和安全的模型,以供實際部署使用。 由于LLMs的獨特屬性,其可解釋性技術與傳統機器學習(ML)模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看,ML模型以監督方式依賴人工構建的特征,而LLMs旨在自動從原始輸入數據中學習特征(Chai和Li,2019)。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看,傳統ML模型通常是針對具體任務設計的,具有不同的模型架構(Liu和Sun,2023)。相比之下,經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務(Yang等,2023)。此外,LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性(Hu,2020)。由于注意力權重中編碼的知識和模式可能提示了模型的理解,注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外,由于LLMs的性能更好,還應進一步研究transformer的組件,包括神經元、層和模塊,學到了什么以及它們是否有不同的功能。從應用的角度來看,傳統ML模型專注于低級模式識別任務,如解析和形態分析,而LLMs可以處理高級推理任務,如回答問題和常識推理(Lauriola等,2022)。特別是,理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs,有必要回顧和總結專為LLMs定制的解釋技術。 在本文中,我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中,我們介紹了應用LLMs的兩個主要范式:1)傳統的下游微調范式和2)提示范式。基于這一分類,我們在第3節中回顧了適用于微調LLMs的解釋方法,并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中,我們討論了解釋方法的評估。最后,在第6節中,我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰,并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式
LLMs的訓練可以基本分為兩個范式,傳統微調和提示,根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別,因此分別提出了各種類型的解釋(如圖1所示)。 傳統微調范式
在這個范式中,首先對語言模型進行了大規模無標簽文本數據的預訓練,然后在特定下游領域的一組標記數據上進行微調,例如GLUE基準測試中的SST-2、MNLI和QQP(Wang等人,2019)。在微調過程中,很容易在語言模型的最終編碼器層上方添加完全連接的層,使其適應各種下游任務(Rogers等人,2021)。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如,包括BERT(Devlin等人,2019a)、RoBERTa(Liu等人,2019)、ELECTRA(Clark等人,2020)、DeBERTa(He等人,2021)等。對于這個范式的解釋重點在于兩個關鍵領域:1)理解自監督預訓練如何使模型獲得語言的基礎理解(例如句法、語義和上下文關系);以及2)分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。
**提示范式 **
提示范式涉及使用提示,例如自然語言句子中的空白,以便模型填充,實現零樣本學習或少樣本學習,而無需額外的訓練數據。根據其開發階段,這個范式下的模型可以分為兩種類型: 基礎模型:隨著LLMs的規模和訓練數據的增加,它們展示了令人印象深刻的新能力,無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型(擁有數十億參數)(例如GPT-3(Brown等人,2020)、OPT(Zhang等人,2022b)、LLaMA-1(Touvron等人,2023a)、LLaMA-2(Touvron等人,2023b)、Falcon(Almazrouei等人,2023))。這些模型被稱為基礎模型或基礎模型,它們可以與用戶進行對話,無需進一步與人類喜好對齊。大規模模型通常適用于這種范式,規模超過10億。例如,LLaMA-2(Touvron等人,2023b)擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型:基礎模型存在兩個主要限制:1)它們不能按照用戶的指令進行操作,因為預訓練數據包含少量指令-響應示例,2)它們傾向于生成有偏見和有毒的內容(Carlini等人,2023)。為了解決這些限制,基礎模型通過監督微調進一步進行微調(見圖2),以實現人類級別的能力,例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過(提示,響應)演示對和來自人類反饋的強化學習(RLHF)進行指導調整。模型通過自然語言反饋進行訓練,以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4(Bubeck等人,2023)、Anthropic的Claude(AnthropicAI,2023)以及一些開源模型,如Meta的LLaMA-2-Chat(Touvron等人,2023b)、Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。
**傳統微調范式的解釋 **
在本節中,我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先,我們介紹了提供局部解釋(第3.1節)和全局解釋(第3.2節)的方法。在這里,局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解,而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來,我們討論了如何利用解釋來調試和改進模型(第3.3節)。
局部解釋
解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景,我們有一個語言模型,并將特定文本輸入模型。模型隨后產生分類輸出,例如情感分類或下一個標記的預測。在這種情景下,解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測,我們將其稱為局部解釋。這個類別包括四個主要方法流,包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。
**全局解釋 **
不同于旨在解釋模型的個體預測的局部解釋,全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件(神經元、隱藏層和較大模塊)編碼了什么,以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法:探測方法,用于分析模型表示和參數;神經元激活分析,用于確定模型對輸入的響應性;以及基于概念的方法。
**提示范式的解釋 **
在本節中,我們介紹了解釋屬于提示范式的模型的技術,包括1)解釋基礎模型,如LLaMA-2(第4.1節),2)解釋助手模型,如LLaMA-2-Chat(第4.2節),以及3)如何利用LLMs的推理和解釋能力生成用戶友好的解釋(第4.3節)。
基礎模型解釋
隨著語言模型的規模增大,它們展示出了新的能力,如少樣本學習,即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈(CoT)提示能力。鑒于這些新興屬性,解釋性研究有三個主要目標:1)研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務,2)理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務,從而幫助終端用戶解釋模型的推理,以及3)解釋思維鏈提示。
**助手模型解釋 **
由于大規模無監督預訓練和有監督對齊微調,屬于這一范式的LLMs具有強大的推理能力。然而,它們的巨大規模也使它們容易生成問題輸出,如幻覺。解釋性研究旨在:1)闡明對齊微調的作用,2)分析幻覺產生的原因。
結論
在本文中,我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性,以及提高人類可解釋性。隨著LLMs的不斷進步,可解釋性將變得極其重要,以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織,同時突顯了未來工作的開放性問題。