本系統綜述探討了大語言模型(LLMs)在組合優化(CO)中的應用。我們遵循系統綜述與元分析的首選報告項目(PRISMA)指南報告我們的研究發現。我們通過Scopus和Google Scholar進行了文獻檢索,檢查了超過2,000篇文獻。我們根據四項納入標準和四項排除標準對文獻進行了評估,這些標準涉及語言、研究重點、出版年份和類型。最終,我們選擇了103篇研究。我們將這些研究按語義類別和主題進行分類,以提供該領域的全面概述,包括LLMs執行的任務、LLMs的架構、專門為評估LLMs在CO中應用設計的數據集以及應用領域。最后,我們確定了利用LLMs在該領域的未來發展方向。
關鍵詞:系統綜述 · 大語言模型 · 組合優化
1 引言
組合優化問題(COPs)是一類優化問題,其特點是離散的變量域和有限的搜索空間。組合優化(CO)在許多需要復雜決策能力的領域中發揮著至關重要的作用,如工業調度[219]、員工排班[25, 102]、設施選址[27, 64]和時間表安排[199, 254]等。傳統上,這類問題通過線性規劃(LP)、整數線性規劃(ILP)、混合整數線性規劃(MILP)和約束規劃(CP)等技術進行建模,并通過商業求解器,如IBM ILOG CPLEX [88]或Gurobi [70],以及啟發式和元啟發式(MH)算法[194]來求解。 盡管許多成功的CO應用已被開發出來,但優化任務的設計和工程仍主要由人工驅動。用戶必須通過定義一組變量、約束和一個或多個目標函數,將問題轉化為優化模型,然后編寫代碼并運行軟件求解器或算法來尋找解決方案。這些活動并非簡單,需要一定的專業知識。 受最近大語言模型(LLMs)在執行廣泛復雜任務中的應用進展的啟發,越來越多的興趣集中在將LLMs集成到CO中,以減輕優化過程中的人工密集型環節[53, 84, 145, 236]。LLMs處理、解釋和生成自然語言的能力使其特別適合解決CO中的活動,包括將自然語言描述轉化為數學模型等形式化表達[74, 89]以及代碼生成[111, 214]。 人工智能(AI)特別是自然語言處理(NLP)的快速發展,使得LLMs的能力和應用大幅提升,導致了大量學術研究和模型的開發。盡管這個領域的活動日益增多,但這大量的研究成果也形成了一個復雜的知識體系,難以輕松掌握。特別是針對LLMs在CO中的應用,現有的學術文獻較為有限且零散,現有的研究工作在方法學、應用領域和研究發現上存在較大差異。因此,本系統綜述旨在整合當前LLMs應用于CO的最先進成果。我們通過篩選、分析和系統地組織文獻,以澄清該主題并確定當前和未來研究的戰略方向。我們遵循系統綜述和元分析首選報告項目(PRISMA)指南進行報告。通過這一研究,我們旨在了解LLMs在解決復雜優化任務中的能力,并探索該領域中不斷發展的趨勢和方向。通過系統地綜合和分析現有研究,本綜述旨在提供一個結構化的理解,幫助理解LLMs如何在CO中應用,并為未來研究提供啟示。
本綜述的結構如下:第2節討論了驅動我們工作的目標和動機;第3節探討了與相關工作的關系和區別;第4節提供了理解LLMs與CO之間相互關系所需的背景;第5節詳細介紹了我們遵循的方法論;第6節對我們綜述中納入的研究進行了分類和討論;第7節概述了未來的研究方向;第8節討論了我們方法的局限性;最后,第9節給出了結論并提出了未來的研究工作。
大型語言模型(LLMs)正在徹底改變生物信息學領域,為 DNA、RNA、蛋白質和單細胞數據的高級分析提供了強大支持。本綜述系統回顧了最新進展,重點關注基因組序列建模、RNA 結構預測、蛋白質功能推斷和單細胞轉錄組學。同時,我們還討論了數據稀缺性、計算復雜性和跨組學整合等關鍵挑戰,并探索了未來方向,如多模態學習、混合人工智能模型和臨床應用。通過提供全面的視角,本文強調了大型語言模型在推動生物信息學和精準醫學創新方面的變革潛力。1 引言生物信息學是一個跨學科領域,結合了生物學、計算機科學和信息技術,用于分析和解釋復雜的生物數據(Abdi 等,2024)。近年來,大型語言模型(LLMs)在自然語言處理(NLP)領域取得了顯著進展,其應用涵蓋了廣泛的任務(Min 等,2023;Raiaan 等,2024)。然而,生物數據的性質及相關任務與文本數據存在顯著差異,帶來了獨特的挑戰。如何準確且精確地處理生物醫學數據,以有效構建適合 LLMs 的特征和嵌入,是一個持續存在的挑戰,需要創新的解決方案。在生物學領域,任務具有高度的多樣性和特異性。這些任務包括 DNA 序列的功能預測與生成、RNA 結構與功能的預測、蛋白質結構的預測與設計,以及單細胞數據的分析(涵蓋降維、聚類、細胞注釋和發育軌跡分析等)。研究人員對利用 LLMs 推動生物信息學和計算生物學的發展越來越感興趣,并取得了顯著成果。如圖 1 所示,生物信息學中大型模型的開發、訓練和應用正在快速增長。盡管如此,針對這些多樣化任務的不同方法尚未得到系統總結和分析,這為全面回顧和綜合提供了機會。本綜述的組織結構:本文回顧了 LLMs 在生物信息學中的最新進展。我們首先介紹基本概念(§2),涵蓋關鍵架構及其與生物數據的相關性。接下來,表 1 展示了生物信息學中具有代表性的 LLMs。隨后,我們探討了 LLMs 在 DNA 與基因組學(§3)、RNA(§4)、蛋白質(§5)和單細胞分析(§6)中的創新應用。最后,我們討論了關鍵挑戰(§7.1)并提出了未來方向(§7.2),強調多模態學習、混合人工智能模型和臨床應用。總結部分,我們分析了本綜述的局限性,指出了需要進一步探索的領域,以全面把握 LLMs 在生物信息學中的發展動態。
近年來,多模態大語言模型(MLLMs)的出現為文本豐富圖像理解(TIU)領域引入了新的維度,這些模型展示了令人印象深刻且鼓舞人心的性能。然而,它們的快速發展和廣泛應用使得跟上最新進展變得越來越具有挑戰性。為了解決這一問題,我們提出了一項系統且全面的綜述,以促進TIU MLLMs的進一步研究。 首先,我們概述了幾乎所有TIU MLLMs的時間線、架構和流程。接著,我們回顧了選定模型在主流基準測試中的表現。最后,我們探討了該領域內有前景的方向、挑戰和局限性。
文本豐富圖像在現實場景中通過高效傳遞復雜信息和提升可訪問性發揮著關鍵作用(Biten等,2019)。準確解讀這些圖像對于自動化信息提取、推進AI系統以及優化用戶交互至關重要。為了規范這一研究領域,我們將其稱為文本豐富圖像理解(TIU),它涵蓋兩個核心能力:感知和理解。感知維度側重于視覺識別任務,例如文本檢測(Liao等,2022)、文本識別(Guan等,2025)、公式識別(Truong等,2024;Guan等,2024a)和文檔布局分析(Yupan等,2022)。理解維度則需要對語義進行推理,應用于關鍵信息提取和基于文檔的視覺問答(例如DocVQA(Mathew等,2021b)、ChartQA(Masry等,2022)和TextVQA(Singh等,2019)等任務。
歷史上,感知和理解任務通過專用模型或多階段流程分別處理。最近,視覺-語言模型的進展將這些任務統一在視覺問答(VQA)范式中,推動了端到端通用模型的開發。 圖1展示了一個進化時間線,描繪了統一文本豐富圖像理解模型的關鍵里程碑。這一軌跡揭示了兩個不同的時代:
前LLM時期(2019-2022):以LayoutLM(Xu等,2019)和Donut(Kim等,2021)等專用架構為特征,這些模型采用模態特定的預訓練目標(如掩碼語言建模、掩碼圖像建模等)并結合OCR衍生的監督(如文本識別、空間順序恢復等)。盡管在受控環境中有效,這些模型由于需要任務特定的微調和受限的跨模態交互機制,在開放域場景中的適應性有限。
后LLM時代(2023年至今):以LLM的日益普及為標志。一些研究提出了多模態大語言模型(MLLMs),將LLM與視覺編碼器結合,通過統一的注意力機制聯合處理視覺標記和語言元素,實現端到端的序列建模。
這一范式演進解決了早期方法的兩個關鍵局限性。首先,新興的MLLM框架通過同質化標記表示消除了模態特定的歸納偏差,實現了無縫的多任務集成。其次,LLM中編碼的語言先驗賦予了前所未有的零樣本泛化能力,并允許直接應用于多樣化任務而無需任務特定的調優。
盡管這些MLLMs展示了令人印象深刻且鼓舞人心的結果,但其快速發展和廣泛應用使得跟蹤前沿進展變得越來越具有挑戰性。因此,迫切需要一項針對文檔的系統綜述來總結和分析這些方法。然而,現有的文本豐富圖像理解綜述往往范圍狹窄:它們要么分析特定領域的場景(例如表格和圖表(Huang等,2024a)、圖表(Huang等,2024b;Al-Shetairy等,2024)、表單(Abdallah等,2024)),要么強調統一的深度學習框架(Subramani等;Ding等,2024)。我們的系統綜述填補了這一空白,首次從四個維度對幾乎所有TIU MLLMs進行了全面分析:模型架構(第2節)、訓練流程(第3節)、數據集和基準測試(第4節)以及挑戰與趨勢(第5節)。這對推動該領域的發展具有重要的學術和實際意義。
2 模型架構
在多模態大語言模型的設計中,模型架構通常可以劃分為三個核心模塊:視覺編碼器、模態連接器和LLM解碼器。下面對每個模塊進行詳細論述。 2.1 視覺編碼器 視覺編碼器的主要任務是將輸入圖像 I 轉換為特征表示 V,即 V = F(I)。這一模塊在TIU任務中至關重要,其設計方案主要分為以下三類: OCR-free 編碼器:直接提取圖像的高層語義特征,如CLIP、ConvNeXt、SAM、DINOv2、Swin-T、InternViT等,這類編碼器能夠捕捉圖像中的物體、場景和紋理信息,適合處理圖像整體內容。 OCR-based 編碼器:借助OCR引擎提取圖像中的文本內容與布局信息,主要采用直接輸入、交叉注意力等策略。直接輸入方式雖然能完整保留文本信息,但在長序列處理上存在效率問題;交叉注意力方式則通過動態選擇關鍵文本信息實現更高效的信息融合。 混合編碼器:結合了OCR-free和OCR-based兩種策略,如CLIP與LayoutLMv3的結合,既保留視覺語義信息,又兼顧文本與布局特征,適用于文檔級任務的多模態理解。 2.2 模態連接器 由于視覺特征 V 與語言特征 T 屬于不同模態,模態連接器的設計旨在將視覺特征轉換為與語言模型語義空間一致的視覺令牌,從而實現跨模態信息的無縫融合。常用的實現方法包括: 線性映射或多層感知機(MLP):這種方法簡單高效,但在擴展性和效率上可能存在局限; 令牌壓縮與令牌冗余削減技術:例如利用 Pixel shuffle 方法進行令牌壓縮,或采用交叉注意力、H-Reducer 以及基于相似度的注意力池化方法來減少冗余令牌,從而在不損失關鍵信息的前提下降低計算成本。 2.3 LLM 解碼器 模態連接器輸出的統一序列化特征與語言嵌入一起送入LLM解碼器。常見的LLM包括LLaMA系列、Qwen系列、Vicuna系列以及InternLM系列等。LLM解碼器借助強大的語言建模和推理能力,實現跨模態信息的語義融合和最終回答的生成。通過這種端到端的序列建模方法,MLLMs 能夠直接應用于諸如文檔問答、關鍵信息提取、圖表解析等多種任務。 3 訓練流程
MLLM 在訓練過程中通常遵循三個主要階段:模態對齊、指令對齊以及偏好對齊,每個階段均對模型的最終表現起到關鍵作用。 3.1 模態對齊 模態對齊階段的目標在于彌合視覺與文本模態間的差異,使得模型在預訓練階段就能夠學到視覺與文本間的對應關系。常見方法包括: 識別、定位與解析任務:利用OCR數據進行預訓練,設計全局閱讀、局部閱讀和文本位置預測等任務,迫使模型學習圖像中文本的順序、位置與結構。部分方法甚至引入圖像markdown預測任務,而非簡單的文本轉錄,以更好地保留文檔布局信息。 3.2 指令對齊 經過模態對齊后,模型具備了基礎的視覺識別和對話能力,但為了實現與人類意圖更為一致的智能交互,指令對齊階段采用了監督微調(SFT)的方法。此階段的核心在于: 視覺語義錨定:設計出要求答案直接出現在圖像中的任務和需要通過外部知識進行復雜推理的問題,從而提升模型的精確性和推理能力; 提示多樣化增強:通過對問題進行多種重構,使模型在面對不同提問形式時依然能夠準確響應,增強了模型的魯棒性; 零樣本泛化能力提升:利用鏈式思考(CoT)和檢索增強生成(RAG)等策略,讓模型在未見任務上也能給出合理的回答。 3.3 偏好對齊 由于在推理過程中模型可能因錯誤反饋而出現分布偏移,偏好對齊技術旨在通過人類反饋和錯誤糾正機制優化生成輸出。借鑒自然語言處理領域的相關經驗,當前多模態領域也開始采用如Dropout Next Token Prediction等策略來確保模型輸出更加符合人類期望和實際任務需求。 4 數據集與基準測試
TIU 任務的發展離不開大量專門構建的數據集和標準化的基準測試。這些數據集大致可以分為領域特定數據集和綜合場景數據集兩類: 領域特定數據集:包括文檔類(如 DocVQA、Docmatix)、圖表類(ChartQA、PlotQA、FigureQA)、場景文本(TextCaps、TextVQA、ST-VQA)以及表格類數據集(TableQA、WikiTableQuestions)等。這類數據集通常由傳統任務數據轉換而來,并在預訓練階段用于模態對齊,同時也作為后續指令對齊的標準評測數據。 綜合場景數據集:例如 OCRBench、Seed-bench-2-plus 和 MMDocBench 等,專門設計用來評估模型在長文檔、多任務、多語言等復雜場景下的綜合表現,為后續研究提供了標準化的評價體系。 通過對比各主流模型在這些基準數據集上的表現,可以直觀地了解當前 MLLM 的優勢與不足,從而推動更高效、更魯棒的模型設計。 5 挑戰與趨勢 盡管近年來 MLLM 在TIU任務上取得了顯著進展,但依然面臨一系列挑戰,這也是當前學術界和工業界亟待解決的問題。主要挑戰包括: 計算效率與模型壓縮:當前大多數 SOTA 模型參數規模在數十億級別,盡管性能優異,但高昂的計算成本和部署延遲嚴重制約了其實際應用。近年來,Mini-Monkey 等模型通過在參數量上大幅削減(例如僅使用2B參數達到接近7B模型的效果)展示了輕量化設計的巨大潛力。 視覺特征表示優化:圖像令牌數量通常遠超文本令牌,直接導致計算復雜度急劇增加。如何在壓縮令牌數量的同時保持關鍵信息不丟失,是未來需要重點研究的方向。近期一些模型(如 mPLUG-DocOwl2)在視覺令牌壓縮方面取得了較好效果,為更大輸入圖像的高效處理提供了新思路。 長文檔理解能力:雖然現有 MLLM 在單頁文檔理解上表現出色,但在多頁或長文檔的場景下,模型往往難以捕捉長距離依賴和跨頁上下文信息,亟需設計新的長文本建模方法或引入專門的長文檔基準測試數據集。 多語言文檔理解:目前大多數模型主要針對英語和少數高資源語言,對于多語言、低資源語言場景存在明顯短板。未來需要構建更全面的多語言數據集,并借助跨語言遷移學習技術提高模型在全球不同文化和語言環境下的適用性。 6 局限性
盡管本文對TIU領域的多模態大語言模型進行了全面綜述,但仍存在一些不足之處。首先,由于文獻檢索和整合時間的限制,部分較新或較邊緣的研究成果可能未能覆蓋。其次,由于篇幅和格式要求,本文在描述具體算法實現和實驗參數配置時采取了簡潔表達,讀者如需深入細節,建議參閱原論文和相關文獻。最后,部分模型的實驗結果因采用不同測試集和評測方法,存在一定的可比性問題,這也為未來研究提出了標準化評測的需求。 7 總結與展望
本文系統性地回顧了近年來多模態大語言模型在文本豐富圖像理解領域的研究進展,涵蓋了模型架構、訓練流程、數據集與基準測試、以及面臨的主要挑戰和發展趨勢。可以看出,通過將視覺編碼器與預訓練語言模型相結合,MLLMs 在打破傳統任務壁壘、實現端到端統一建模方面展現了巨大優勢,但同時在計算效率、長文檔理解、多語言適用性等方面仍有進一步提升空間。未來的研究可以在以下幾個方向展開: 繼續探索輕量化設計與模型壓縮技術,平衡性能與計算資源之間的矛盾; 開發更高效的視覺令牌壓縮與跨模態融合方法,優化長文檔及復雜場景的建模能力; 構建多語言、多場景下的綜合數據集,推動全球化應用場景的覆蓋; 借助人機交互和反饋機制,完善偏好對齊技術,使模型輸出更貼合實際需求。 總體來看,多模態大語言模型為文本豐富圖像理解領域帶來了全新的解決思路和應用前景,其不斷進化與融合正驅動著人工智能技術向更高水平邁進
推薦系統是許多在線平臺的核心組成部分,但傳統方法在理解復雜用戶偏好和提供可解釋推薦方面仍然面臨困難。大型語言模型(LLM)驅動的智能體的出現為此提供了一種有前景的方法,通過實現自然語言交互和可解釋推理,可能會徹底改變推薦系統領域的研究。本文綜述系統地回顧了LLM驅動的智能體在推薦系統中日益增長的應用。我們識別并分析了當前研究中的三種關鍵范式:(1)面向推薦的方式,利用智能體增強基礎推薦機制;(2)面向交互的方式,通過自然對話和可解釋建議促進動態用戶參與;(3)面向仿真的方式,采用多智能體框架來模擬復雜的用戶-物品交互和系統動態。除了范式分類之外,我們還分析了LLM驅動的推薦智能體的架構基礎,研究其核心組成部分:個人資料構建、記憶管理、戰略規劃和行動執行。我們的研究還擴展到對該領域基準數據集和評估框架的全面分析。這一系統性研究不僅闡明了LLM驅動的推薦系統智能體的當前狀態,還為該變革性領域中的關鍵挑戰和有前景的研究方向提供了指引。
在信息爆炸的時代,推薦系統[Wu et al., 2022] 已成為數字平臺中不可或缺的組成部分,幫助用戶在電子商務、社交媒體和娛樂領域中瀏覽海量內容。盡管傳統的推薦方法[He et al., 2017]通過分析用戶偏好和歷史行為,成功地提供了個性化建議,但在實際應用中仍面臨諸多挑戰,如對復雜用戶意圖的理解不足、交互能力有限以及無法提供可解釋的推薦[Zhu et al., 2024b]。 近期,大型語言模型(LLM)的進展[Achiam et al., 2023]激發了越來越多的研究興趣,旨在利用LLM驅動的智能體[Wang et al., 2024a]來解決推薦系統中的上述挑戰。將LLM驅動的智能體融入推薦系統,相比傳統方法,具有若干顯著優勢[Zhu et al., 2024b]。首先,LLM智能體能夠理解復雜的用戶偏好,并通過其精密的推理能力生成上下文推薦,從而使得決策過程更加細致,超越簡單的特征匹配。其次,它們的自然語言交互能力促進了多輪對話,能夠主動探索用戶興趣并提供可解釋的解釋,增強了推薦準確性和用戶體驗。第三,這些智能體通過生成更加真實的用戶畫像,結合情感狀態和時間動態,徹底改變了用戶行為模擬,從而提高了系統評估的有效性。此外,LLM的預訓練知識和強大的泛化能力促進了跨領域的知識轉移,能夠以最少的額外訓練應對冷啟動等長期存在的挑戰[Shu et al., 2024]。 在本綜述中,我們全面回顧了LLM驅動的智能體在推薦系統中的應用。首先,我們介紹了傳統推薦系統的背景,并討論了它們在理解復雜用戶意圖、交互能力和可解釋性方面的局限性。接著,我們系統地審視了LLM驅動的智能體如何通過三種主要范式解決這些挑戰:面向推薦的(如[Wang et al., 2024b; Wang et al., 2024c])、面向交互的(如[Zeng et al., 2024; Friedman et al., 2023])和面向仿真的(如[Yoon et al., 2024; Guo et al., 2024])方法。然后,我們提出了一種統一的智能體架構,包含四個核心模塊(個人資料[ Cai et al., 2024; Zhang et al., 2024c]、記憶[ Shi et al., 2024; Fang et al., 2024]、規劃[ Wang et al., 2023b; Shi et al., 2024]、行動[ Zhu et al., 2024a; Zhao et al., 2024]),并分析了現有方法如何實現這些模塊。進一步地,我們編制了現有基準數據集(包括Amazon系列、MovieLens、Steam等)和評估方法的全面比較,涵蓋了傳統推薦指標和新興的評估方法。最后,我們探討了該領域幾個有前景的未來研究方向。
大規模語言模型(LLM)的個性化近年來變得越來越重要,擁有廣泛的應用前景。盡管這一領域重要且取得了進展,大多數現有的個性化 LLM 研究主要集中于 (a) 個性化文本生成,或 (b) 利用 LLM 用于與個性化相關的下游應用(如推薦系統)。在本研究中,我們首次彌合了這兩大研究方向之間的差距,通過引入個性化 LLM 使用的分類體系,概述了關鍵差異與挑戰。我們正式化了個性化 LLM 的基礎,整合并拓展了 LLM 個性化的概念,定義并討論了個性化、使用方法和個性化 LLM 的理想特性等新穎方面。接著,我們通過提出系統的分類方法,將這些多樣化的研究領域和使用場景統一起來,包括個性化的粒度、個性化技術、數據集、評估方法和個性化 LLM 的應用。最后,我們指出了尚需解決的挑戰和重要的開放性問題。通過使用所提出的分類體系統一并綜述近期研究,我們旨在為現有文獻和 LLM 個性化的不同方面提供清晰的指導,助力研究人員和實踐者。
大規模語言模型(LLM)已成為能夠執行廣泛自然語言處理(NLP)任務的強大工具,并展現了出色的能力(例如,Radford 等,2018;Devlin 等,2019;Lewis 等,2019;Radford 等,2019;Brown 等,2020;Raffel 等,2020;Achiam 等,2023;Touvron 等,2023;Groeneveld 等,2024)。實證上,這些模型已展示出作為通用模型的能力,使其能夠準確地完成諸如文本生成、翻譯、摘要和問答等多種任務。值得注意的是,LLM 在零樣本或少樣本環境中也能有效工作,即使沒有任務特定的訓練數據,它們也能夠理解并執行復雜的指令(Bommasani 等,2021;Liu 等,2023c)。這一能力消除了對模型參數進行廣泛微調的需求,使人與機器的交互通過簡單的輸入提示大大簡化。例如,用戶可以以對話形式與 LLM 互動,使交互更加直觀易用。LLM 的這種強大且多才多藝的能力已催生了諸多應用,包括通用人工智能助手(AutoGPT,2024)、協同工具(微軟,2024)以及基于個人的 LLM 代理(Li 等,2024f)。這些應用可以幫助用戶執行寫郵件、生成代碼、撰寫報告等各種任務。
LLM 的個性化近來獲得了大量關注(Salemi 等,2023;Tseng 等,2024)。然而,現有的個性化 LLM 研究通常分為兩個類別:(a) 個性化文本生成,主要關注在個性化上下文中生成單輪或多輪文本,以及 (b) 在下游個性化任務(如推薦系統)中應用 LLM。這兩個領域的大量研究往往獨立發展,缺乏一個統一的視角。此外,現有綜述(Chen,2023;Chen 等,2024b;2024c)通常僅聚焦于其中一個方面,缺乏系統定義關鍵組成部分并整合兩個個性化 LLM 維度洞見的綜合視角。盡管這兩個領域在特征和目標上有所不同,但統一的視角對于彌合這些研究社區之間的差距至關重要,以促進協作和知識共享,從而開發出更具通用性和多功能性的系統。例如,用戶特定文本生成的進展可以通過對話互動為推薦系統提供更個性化和可解釋的建議。通過整合這兩個領域的洞見,研究人員可以開發不僅能夠生成符合個體偏好的文本,還能在各種應用中提升用戶滿意度的 LLM。此跨學科方法可促進更全面的解決方案,以互補方式兼顧個性化和性能。 在本研究中,我們通過為個性化 LLM 的個性化粒度、技術、評估、數據集和使用場景提出直觀的分類體系,統一了來自不同領域的文獻。本文的關鍵貢獻如下:
在本文的剩余部分,我們首先提出個性化 LLM 使用的統一視角和分類體系(第二節),然后深入探討個性化 LLM 的理論基礎(第三節)。接著,探討 LLM 個性化的粒度(第四節),并對個性化 LLM 技術進行全面的綜述與分類(第五節)。然后,我們對個性化 LLM 的評估指標和方法進行分類(第六節),并對個性化 LLM 的數據集進行詳細的分類(第七節)
盡管先前的研究(Yang & Flek,2021;Chen 等,2024c;b)探討了個性化 LLM 的定義并分析了其各個方面,但仍缺乏一個全面的理論框架來理解和形式化這些模型中的個性化。在本節中,我們旨在填補這一空白,通過建立基礎原則、定義和形式結構來形式化 LLM 中的個性化問題。我們系統地發展必要的符號和概念框架,以形式化該問題和評估,為深入理解個性化如何在 LLM 中有效實施和分析奠定基礎。以下小節結構如下: §LLM 的一般原則:我們首先概述構成 LLM 基礎的核心原則。這為理解這些模型的功能及其能力驅動的基本機制提供了重要背景。 §LLM 中個性化的定義:我們在 LLM 的特定上下文中定義“個性化”這一術語,為后續討論奠定明確的理解基礎。 §個性化數據概述:我們提供當前用于個性化的數據概述,強調數據源的不同格式。 §個性化生成的形式化:我們形式化個性化生成的概念空間,為理解如何實現個性化提供結構化框架。 §個性化標準的分類體系:我們引入一個全面的個性化標準分類體系,分類影響個性化輸出的各種因素。
近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。
近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?
為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。
組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。
人類通過多種感官,如視覺、嗅覺、聽覺和觸覺來感知世界。同樣,多模態大型語言模型(MLLMs)通過整合和處理包括文本、視覺、音頻、視頻和3D環境在內的多種模態數據,增強了傳統大型語言模型的能力。數據在這些模型的發展和優化中起到了關鍵作用。在這篇綜述中,我們從數據中心視角全面回顧了MLLMs的相關文獻。具體而言,我們探討了在MLLMs預訓練和適應階段準備多模態數據的方法。此外,我們還分析了數據集的評估方法,并回顧了評估MLLMs的基準測試。我們的綜述還概述了未來潛在的研究方向。本研究旨在為研究人員提供關于MLLMs數據驅動方面的詳細理解,促進該領域的進一步探索和創新。
近年來,我們見證了大型語言模型(LLMs)和多模態大型語言模型(MLLMs)的快速發展[280, 324]。諸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等MLLMs整合了多模態信息,展示了令人印象深刻的理解和生成能力。這些模型在傳統的多模態任務中取得了競爭性表現,如視覺識別[320]、視頻理解[258, 289]、語音識別[200]和3D理解[89, 100]。此外,它們卓越的語言理解能力使其在文本豐富的任務中表現出色,如問答[104]、多輪對話和邏輯推理[156, 296]。
大多數現有的MLLMs主要關注修改模型架構以探索多模態信息的使用[121, 178, 246, 286, 287, 304]。盡管模型的有效性至關重要,數據也顯著影響了MLLMs的成功。例如,Hoffmann等人[99]展示了為了擴展模型,有必要增加訓練數據的規模。除了數據數量外,數據質量同樣重要。先前的研究[251]表明,精心策劃的數據集可以使較小的模型達到與較大模型相當的性能。然而,關于MLLMs數據策劃和利用的綜合研究仍然缺乏。因此,本研究旨在從數據中心視角提供對MLLMs的全面理解。
與優先考慮架構增強而依賴固定數據集的模型中心方法相比,數據中心視角強調對數據集的迭代改進以提高性能。在數據中心MLLMs的范圍內,我們關注利用數據模態的異質性、增強數據結構、增加數據數量和提高數據質量以改進MLLMs [316]。我們的討論從不同階段的MLLMs數據中心視角回答了三個關鍵問題:
Q1:如何收集、選擇和管理MLLMs的數據?大量的數據需求和多模態數據的異質性在收集、選擇和有效管理模型訓練數據方面帶來了挑戰。MLLMs的不同訓練階段也導致了不同的數據類型需求。
Q2:數據如何影響MLLMs的性能?理解數據特性與MLLMs性能之間的關系對于優化數據集和增強模型能力至關重要。
Q3:如何評估MLLMs的數據?有必要開發全面的評估基準,以評估MLLMs在各種任務中的性能和魯棒性。 本綜述與現有綜述的區別。在模型中心視角下,已有若干綜述聚焦于LLMs [93, 203, 324]和MLLMs [280, 318],但缺乏對數據中心方面的深入分析。最近,一些綜述開始關注LLMs的數據準備,如數據管理方法[274]、數據選擇方法[5]和LLM數據集的綜合綜述[174]。然而,這些綜述主要集中于僅文本LLMs的數據管理和選擇方法,沒有對MLLMs的數據處理管道進行徹底分析。盡管Zhang等人[318]總結了MLLMs的數據集,但未能提供對這些數據集的全面分析。與我們最相關的工作是數據中心人工智能(DCAI)[109, 111, 220, 279, 316],它也關注AI研究的數據中心視角,但未具體分析LLMs和MLLMs。
隨著MLLMs的快速增長以及數據在這個大型模型時代越來越重要的角色,我們認為提供一個全面的MLLMs數據中心方法綜述是至關重要的。本綜述旨在從數據中心視角全面回顧MLLMs的進展文獻,并討論該領域的開放問題或未來方向。
貢獻。在這篇綜述中,我們從數據中心視角回顧了MLLMs的進展文獻。我們為研究人員和開發者提供了對MLLMs數據方面最新發展的總體和全面的理解。本綜述的主要貢獻總結如下:
本文的其余部分安排如下:第2節介紹LLMs和MLLMs的預備知識,并討論從數據中心視角分析它們的動機。第3至第5節總結了MLLMs訓練數據的收集、處理和選擇的主要階段。第6節總結了MLLMs的評估方法和現有的評估數據集。第7節討論了開放問題并強調了該領域的若干未來研究方向。最后,我們在第8節對本綜述進行了總結。我們的Github倉庫可以在//github.com/beccabai/Data-centric_multimodal_LLM找到。
文本生成已經變得比以往任何時候都更容易接觸,并且對這些系統,特別是使用大型語言模型的系統的興趣日益增加,這也促使了相關出版物數量的不斷增加。我們提供了一份系統文獻綜述,涵蓋了2017年至2024年間精選的244篇論文。該綜述將文本生成的研究工作分為五個主要任務:開放式文本生成、摘要、翻譯、改寫和問答。對于每個任務,我們回顧了其相關特性、子任務和具體挑戰(例如,多文檔摘要的缺失數據集、故事生成中的連貫性以及問答中的復雜推理)。此外,我們評估了當前用于評估文本生成系統的方法,并確定了現有指標的問題。我們的研究表明,最近文本生成出版物中所有任務和子任務普遍存在的九個主要挑戰:偏見、推理、幻覺、誤用、隱私、可解釋性、透明度、數據集和計算。我們對這些挑戰、潛在解決方案以及仍需社區進一步參與的空白進行了詳細分析。該系統文獻綜述面向兩個主要受眾:希望了解該領域概況和有前景的研究方向的初級自然語言處理研究人員,以及尋求任務、評估方法、開放挑戰和最新緩解策略的詳細視圖的資深研究人員。
當模型具備了對自然語言進行建模的能力,特別是使用大型語言模型生成與人類寫作水平相當的文本時,AI領域取得了重大突破【38, 186, 197】。結合先進的深度學習架構、大規模數據和日益廉價的計算基礎設施,這揭示了大規模訓練AI助手的新范式。現在,任何人只要能夠訪問互聯網,就可以擁有自己的AI助手,以自動化諸如起草電子郵件、填寫表格或開發軟件等繁瑣且耗時的任務。雖然這種烏托邦式的情景會讓大多數人感到意外,但這不過是多年來來自AI、工程、統計、語言學和自然語言處理(NLP)等領域的研究人員和實踐者之間不斷、協作和逐步努力的結果。
從早期的分布式語義學【71】、基于規則的問答系統【130】、第一個神經概率語言模型(LM)【16】到GPT-4【3】、LLaMA【185】和Gemini【182】,NLP一直是推動AI快速進步的關鍵角色。如今,語言模型以文本到文本的方式解決問題,以可信且令人信服的自然語言進行接收和回應。這種問題解決方法的靈感來自于人類通過將答案表述為一系列具有特定意義的詞來解決各種問題的方式,這一過程被稱為文本生成。一般而言,文本生成是創建自然語言文本的過程。在文本生成的早期階段,模型會使用結構化數據、語法規則和模板來構建文本【130, 209】。如今,大多數方法使用神經網絡來估計詞序列中下一個詞的概率【16】。
文本生成解決方案高度多樣且強大,能夠執行多種任務,例如生成故事【19】或執行類似人類的推理【99】。廣泛的應用范圍和顯著的研究與開發興趣使得那些參與資金、研究和產品開發的人們對其全面理解有所減弱,這些人直接或間接地影響社會。對提出的研究模型、任務、數據集和開放挑戰的持續反思和評估是實現可持續發展和負責任地造福人類的方法的關鍵。因此,系統文獻綜述和綜述對于根據特殊興趣濃縮和組織現有相關工作,回顧性地討論這些機會和風險,并為未來研究提出建議至關重要。
在本文中,我們概述了2017年1月至2023年8月期間的最新文本生成研究,因為它滲透了NLP中與文本生產相關的大多數活動(例如翻譯【92】、摘要【108】)。我們的系統文獻綜述主要關注三個方面:任務和子任務(第3節)、評估指標(第4節)和挑戰(第5節)。具體而言,我們提出了以下關鍵問題來組織我們的研究:
1. 什么構成了文本生成任務?主要的子任務是什么?
2. 如何評估文本生成系統?其伴隨的局限性是什么?
3. 文本生成中有哪些開放挑戰?
4. 文本生成中的重要研究方向是什么?
圖1概述了文本生成中最突出的任務及相關挑戰。我們確定了五個主要任務:開放式文本生成、摘要、翻譯、改寫和問答(第3節)。對于每個任務,我們回顧了其相關特性、子任務和具體挑戰。接下來,我們評估了該領域中常用的評估方法(即無模型和基于模型的指標),并討論了它們的局限性(第4節)。此外,我們還識別了最近文本生成出版物中所有任務和子任務共有的九個突出挑戰:偏見、推理、幻覺、誤用、隱私、可解釋性、透明度、數據集和計算(第5節)。最后,我們重新審視、總結并回答了我們的研究問題(第6節)。為了重現性,我們公開分享我們方法的詳細信息(例如,關鍵詞、主觀決策、排除標準、代碼)以及在開放獲取倉庫中所考慮出版物的元數據。
多語言大型語言模型利用強大的大型語言模型處理和響應多種語言的查詢,這在多語言自然語言處理任務中取得了顯著的成功。盡管取得了這些突破,但在這一領域仍缺乏一個全面的綜述來總結現有方法和最近的發展。為此,在本文中,我們提出了一個徹底的審查,并提供了一個統一的視角來總結多語言大型語言模型(MLLMs)文獻中的最新進展和新興趨勢。本文的貢獻可以總結如下:(1)第一份綜述:據我們所知,我們采取了第一步,在多語言對齊的基礎上對MLLMs研究領域進行了徹底的審查;(2)新分類法:我們提出了一個新的統一視角來總結MLLMs的當前進展;(3)新前沿:我們突出了幾個新興的前沿并討論了相應的挑戰;(4)豐富資源:我們收集了大量的開源資源,包括相關論文、數據語料庫和排行榜。我們希望我們的工作能為社區提供快速訪問并推動MLLMs的突破性研究。
近年來,大型語言模型(LLMs)在各種自然語言處理任務上取得了優異的表現(Brown et al., 2020; Touvron et al., 2023a; Bang et al., 2023; Zhao et al., 2023b; Pan et al., 2023; Nguyen et al., 2023a; Trivedi et al., 2023),并展示出了令人驚訝的突發能力,包括上下文學習(Min et al., 2022; Dong et al., 2022)、思維鏈推理(Wei et al., 2022; Huang et al., 2023a; Qin et al., 2023a)以及規劃(Driess et al., 2023; Hu et al., 2023b)。然而,大多數LLMs主要關注英語任務(Held et al., 2023; Zhang et al., 2023i),使其在多語言環境,尤其是低資源環境下表現不足。
實際上,全球有超過7000種語言。隨著全球化的加速,大型語言模型的成功應考慮服務于不同國家和語言。為此,多語言大型語言模型(MLLMs)具有全面處理多種語言的優勢,越來越受到關注。具體來說,現有的MLLMs可以根據不同階段大致分為兩組。第一系列工作(Xue et al., 2020; Workshop et al., 2022; Zhang et al., 2023g; Muennighoff et al., 2022)利用多語言數據調整參數以提升整體多語言性能。第二系列工作(Shi et al., 2022a; Qin et al., 2023b; Huang et al., 2023a)還采用先進的提示策略,在參數凍結推理階段挖掘MLLMs的更深層次多語言潛力。
盡管在MLLMs上取得了顯著成功,但仍缺乏對最近努力的全面回顧和分析,這阻礙了MLLMs的發展。為了彌補這一差距,我們首次嘗試對MLLMs進行全面而詳盡的分析。具體來說,我們首先介紹廣泛使用的數據資源(§3)。此外,由于跨語言對齊的關鍵挑戰,我們根據對齊策略引入了新的分類法(§4),旨在提供文獻中的統一視角,包括參數調整對齊和參數凍結對齊(如圖1所示)。具體來說,參數調整對齊需要在預訓練、監督微調、人類反饋學習和下游微調過程中調整模型參數以增強英語和目標語言之間的對齊。參數凍結對齊指的是通過跨語言提示實現的對齊,無需調整參數。最后,我們指出了一些潛在的前沿領域以及MLLMs面臨的相應挑戰,希望激發后續研究(§5)。
本工作的貢獻可以總結如下:(1)首次綜述:據我們所知,我們是第一個根據多語言對齊在MLLMs文獻中提出全面綜述的;(2)新分類法:我們引入了將MLLMs分類為參數凍結和參數調整兩種對齊類型的新分類法,為理解MLLMs文獻提供了統一視角;(3)新前沿:我們討論了一些新興的前沿,并突出了它們的挑戰和機遇,希望為未來研究的發展鋪路;(4)詳盡資源:我們首次嘗試組織MLLMs資源,包括開源軟件、多樣的語料庫和相關出版物的精選列表,可在//multilingual-llm.net訪問。 我們希望這項工作能成為研究者的寶貴資源,并激發未來研究的更多突破。
如圖4所示,我們引入了一種新的分類法,包括參數調整對齊(§4.1)和參數凍結對齊(§4.2),旨在為研究人員提供一個統一的視角,以理解MLLMs文獻。具體來說,參數調整對齊(PTA)包括一系列逐步進階的訓練和對齊策略,包括預訓練對齊、監督微調(SFT)對齊、人類反饋學習(RLHF)對齊,以及最終的下游微調對齊。這些階段的共同目標是系統地優化模型參數,以對齊多語言性能。相反,參數凍結對齊(PFA)側重于基于PTA的四種提示策略:直接提示、代碼切換提示、翻譯對齊提示和檢索增強對齊。這種方法保持原始模型參數,以實現預期結果。
這篇系統性文獻綜述全面檢視了大型語言模型(LLMs)在預測和異常檢測中的應用,突出了當前研究的現狀、固有挑戰和未來的潛在方向。LLMs在解析和分析大規模數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,本綜述識別了幾個關鍵挑戰,阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界內的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括推向實時處理、可持續建模實踐的重要性,以及跨學科合作的價值。最后,本綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
這項系統性文獻綜述全面考察了大型語言模型(LLMs)在預測和異常檢測應用中的使用,強調了研究的當前狀態、固有挑戰和未來的潛在方向。LLMs在解析和分析大量數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,這項綜述識別了幾個關鍵挑戰,這些挑戰阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,例如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括向實時處理的推進、可持續建模實踐的重要性,以及跨學科合作的價值。總之,這項綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
預測和異常檢測在數據科學領域是至關重要的組成部分,為從網絡安全到金融市場的多個領域提供了基本見解。這些技術在預測即將到來的趨勢和識別偏離規范預期的非典型模式方面起著核心作用,這些能力在廣泛的應用中促進了預防性策略的發展。預測利用歷史數據來對未來事件或趨勢進行知情預測。它涉及對正在分析的情況進行假設選擇,選擇適當的數據集,分析數據,并確定預測。預測是多個行業戰略規劃和決策制定的基石,使組織和政策制定者能夠預測變化,管理風險,并有效分配資源。異常檢測,也稱為離群點檢測,是旨在識別與典型模式或規范顯著偏離的數據點、實體或事件的分析過程。這種方法在自動監控系統中發揮著關鍵作用,特別是在識別潛在有害的離群點,從而保護數據完整性和安全。
預測和異常檢測是分析過程,天生非常適合時間序列或帶時間戳的數據,因為它們尋求理解和利用的信息具有時間性質。時間序列數據是在時間間隔內收集或記錄的數據點序列,通常展示出趨勢、季節性變化和周期性,這是預測技術旨在捕捉并推測到未來的特征。帶時間戳的數據特別有助于異常檢測,因為它允許識別與建立的時間模式的偏差。例如,在網絡安全中,異常檢測系統可以識別可能表明安全漏洞的不尋常訪問模式。在工業環境中,它可能會標記傳感器讀數的意外下降或飆升,從而可能防止設備故障。
本研究著手全面探索LLMs在預測和異常檢測領域的整合和潛力,這些領域傳統上由定量數據分析主導。LLMs在自然語言處理(NLP)中的迅速發展提供了一個前所未有的機會來增強甚至可能革新這些領域。本文旨在彌合LLMs先進的語言處理能力與預測分析和檢測離群點中涉及的預測分析之間的差距。我們深入探討了從LLMs中獲得的定性見解如何補充傳統的定量方法,從而豐富了在包括金融、網絡安全和醫療保健在內的各個領域的分析深度和準確性。此外,這項調查還討論了在LLMs與這些關鍵數據科學應用交叉點的挑戰、倫理考慮和未來研究方向。我們的目標是提供一個全面的視角,不僅闡明了LLMs在這些領域的應用現狀,還激發了跨學科的對話和研究,導航現代數據環境的復雜性,并為預測分析鋪平了創新解決方案的道路。
貢獻概述如下:
這是第一篇全面的系統性文獻綜述(SLR),專門研究LLMs在預測和異常檢測領域的應用。通過這項綜述,我們闡明了LLMs對這些特定任務中的數值和文本數據的獨特影響。
本研究編制了一套指導方針,概述了LLMs在各種任務中的最佳利用方式,為該領域提供了一種結構化的方法來在實際場景中使用這些先進模型。
這項文獻綜述提供了盡可能深入的理論洞察,特別是LLMs處理復雜模式和傳統模型可能忽略的數據細微差別的能力。
本工作為未來圍繞預測和異常檢測建模的研究開辟了新的路徑。
論文接下來的結構安排如下:第2節概述了進行系統性文獻綜述的方法論。第3節提供了LLMs在預測和異常檢測研究當前狀態的概覽。第4節討論了將LLMs應用于這些領域的挑戰和限制。第5節探討了在基于LLM的預測和異常檢測中使用的數據集和數據預處理技術。第6節介紹了評估LLMs在這些任務中表現的評估指標和方法。第7節深入探討了LLMs在預測中的應用,而第8節專注于它們在異常檢測中的應用。第9節討論了使用LLMs在這些領域中可能面臨的潛在威脅和風險。第10節概述了LLMs在預測和異常檢測應用中的未來方向和潛在研究途徑。第11節提供了相關工作的概覽,第12節總結了本文。
大型語言模型(LLMs)的廣闊領域帶來了前所未有的自然語言處理進步,顯著影響了包括預測和異常檢測在內的各種任務。本節提供了LLMs當前狀態和演化的全面概覽,概述了它們的基礎結構、發展軌跡,以及它們在轉換數據分析和預測建模中所扮演的關鍵角色。從LLMs的背景開始,我們追溯了從初期階段到作為當代應用支柱的復雜預訓練基礎模型的語言模型的演化過程。然后,我們分類了LLMs顯示出顯著效果的任務,特別關注預測和異常檢測,以說明它們適用性的廣度。進一步的探索致力于利用LLMs的力量所采用的多樣化方法,包括基于提示的技術、微調機制、零樣本、少樣本學習的利用、重編程策略,以及結合多種方法以提高性能的混合方法。本節旨在讓讀者全面了解LLMs的復雜景觀,為后續部分更深入探索它們的能力和應用奠定基礎。
大型語言模型(LLMs)的出現顯著擴展了異常檢測的視野,為識別多樣化數據集和領域中的不規則性提供了復雜的解決方案。本節全面檢查了LLMs如何被利用來精確指出可能表明錯誤、欺詐、系統故障或網絡威脅的偏離。這一探索從時間序列異常檢測開始,其中LLMs分析順序數據以偵測不尋常模式,造福于依賴持續監控的行業,如金融、制造和能源。接下來,討論轉向異常日志分析,突出LLMs篩查大量日志數據以識別和分類異常的能力,從而提高IT安全和運營效率。關于微服務異常檢測的部分展示了LLMs在云計算和分布式系統這一日益復雜的領域中的應用,它們通過在微服務級別檢測異常,在維護系統健康和安全方面發揮著關鍵作用。這一詳盡的探索旨在闡明LLMs在異常檢測中的前沿方法論和有影響的應用,強調它們在保護和優化現代數字基礎設施中的關鍵作用。
這篇系統性文獻綜述探索了在預測和異常檢測背景下迅速發展的大型語言模型(LLMs)領域,提供了當前方法論、挑戰和未來方向的全面概覽。正如我們所見,LLMs擁有巨大的潛力來轉變這些領域,提供了能夠解析龐大數據集以預測未來事件和以顯著準確性識別偏離常規的復雜工具。然而,這一旅程充滿挑戰,包括依賴廣泛的歷史數據集、泛化問題、幻覺現象、知識邊界,以及對計算效率的需求。
盡管存在這些障礙,前進的道路被有希望的解決方案和創新所照亮。多模態數據源的整合、轉移和元學習的進步、對可解釋性和可信度的關注、推向實時處理和邊緣計算的推動、跨學科合作,以及對可持續建模實踐的承諾,都代表了將塑造LLMs在預測和異常檢測未來的關鍵趨勢。
本綜述強調了在這一領域繼續研究和發展的重要性,突出了對不僅強大和準確,而且透明、適應性強和易于獲取的模型的需求。隨著技術的進步,我們對倫理考慮的方法也必須進步,確保LLMs的部署對社會產生積極貢獻,并且不會加劇現有的不平等或環境問題。
總之,LLMs革新預測和異常檢測的潛力是明確的,但實現這一潛力需要科學界、行業利益相關者和政策制定者的共同努力。通過解決本綜述中概述的挑戰并利用新興趨勢所提供的機會,我們可以期待一個LLMs在引導我們理解現代世界的復雜性、推動對全社會有益的見解和創新中發揮關鍵作用的未來。
在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。
自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。
傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。
大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。
鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。
本綜述的組織:我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。
在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。
當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。
本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。
基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。
結論
在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。
在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。