亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

 大型語言模型(LLMs)正在徹底改變生物信息學領域,為 DNA、RNA、蛋白質和單細胞數據的高級分析提供了強大支持。本綜述系統回顧了最新進展,重點關注基因組序列建模、RNA 結構預測、蛋白質功能推斷和單細胞轉錄組學。同時,我們還討論了數據稀缺性、計算復雜性和跨組學整合等關鍵挑戰,并探索了未來方向,如多模態學習、混合人工智能模型和臨床應用。通過提供全面的視角,本文強調了大型語言模型在推動生物信息學和精準醫學創新方面的變革潛力。1 引言生物信息學是一個跨學科領域,結合了生物學、計算機科學和信息技術,用于分析和解釋復雜的生物數據(Abdi 等,2024)。近年來,大型語言模型(LLMs)在自然語言處理(NLP)領域取得了顯著進展,其應用涵蓋了廣泛的任務(Min 等,2023;Raiaan 等,2024)。然而,生物數據的性質及相關任務與文本數據存在顯著差異,帶來了獨特的挑戰。如何準確且精確地處理生物醫學數據,以有效構建適合 LLMs 的特征和嵌入,是一個持續存在的挑戰,需要創新的解決方案。在生物學領域,任務具有高度的多樣性和特異性。這些任務包括 DNA 序列的功能預測與生成、RNA 結構與功能的預測、蛋白質結構的預測與設計,以及單細胞數據的分析(涵蓋降維、聚類、細胞注釋和發育軌跡分析等)。研究人員對利用 LLMs 推動生物信息學和計算生物學的發展越來越感興趣,并取得了顯著成果。如圖 1 所示,生物信息學中大型模型的開發、訓練和應用正在快速增長。盡管如此,針對這些多樣化任務的不同方法尚未得到系統總結和分析,這為全面回顧和綜合提供了機會。本綜述的組織結構:本文回顧了 LLMs 在生物信息學中的最新進展。我們首先介紹基本概念(§2),涵蓋關鍵架構及其與生物數據的相關性。接下來,表 1 展示了生物信息學中具有代表性的 LLMs。隨后,我們探討了 LLMs 在 DNA 與基因組學(§3)、RNA(§4)、蛋白質(§5)和單細胞分析(§6)中的創新應用。最后,我們討論了關鍵挑戰(§7.1)并提出了未來方向(§7.2),強調多模態學習、混合人工智能模型和臨床應用。總結部分,我們分析了本綜述的局限性,指出了需要進一步探索的領域,以全面把握 LLMs 在生物信息學中的發展動態。

付費5元查看完整內容

相關內容

本系統綜述探討了大語言模型(LLMs)在組合優化(CO)中的應用。我們遵循系統綜述與元分析的首選報告項目(PRISMA)指南報告我們的研究發現。我們通過Scopus和Google Scholar進行了文獻檢索,檢查了超過2,000篇文獻。我們根據四項納入標準和四項排除標準對文獻進行了評估,這些標準涉及語言、研究重點、出版年份和類型。最終,我們選擇了103篇研究。我們將這些研究按語義類別和主題進行分類,以提供該領域的全面概述,包括LLMs執行的任務、LLMs的架構、專門為評估LLMs在CO中應用設計的數據集以及應用領域。最后,我們確定了利用LLMs在該領域的未來發展方向。

關鍵詞:系統綜述 · 大語言模型 · 組合優化

1 引言

組合優化問題(COPs)是一類優化問題,其特點是離散的變量域和有限的搜索空間。組合優化(CO)在許多需要復雜決策能力的領域中發揮著至關重要的作用,如工業調度[219]、員工排班[25, 102]、設施選址[27, 64]和時間表安排[199, 254]等。傳統上,這類問題通過線性規劃(LP)、整數線性規劃(ILP)、混合整數線性規劃(MILP)和約束規劃(CP)等技術進行建模,并通過商業求解器,如IBM ILOG CPLEX [88]或Gurobi [70],以及啟發式和元啟發式(MH)算法[194]來求解。 盡管許多成功的CO應用已被開發出來,但優化任務的設計和工程仍主要由人工驅動。用戶必須通過定義一組變量、約束和一個或多個目標函數,將問題轉化為優化模型,然后編寫代碼并運行軟件求解器或算法來尋找解決方案。這些活動并非簡單,需要一定的專業知識。 受最近大語言模型(LLMs)在執行廣泛復雜任務中的應用進展的啟發,越來越多的興趣集中在將LLMs集成到CO中,以減輕優化過程中的人工密集型環節[53, 84, 145, 236]。LLMs處理、解釋和生成自然語言的能力使其特別適合解決CO中的活動,包括將自然語言描述轉化為數學模型等形式化表達[74, 89]以及代碼生成[111, 214]。 人工智能(AI)特別是自然語言處理(NLP)的快速發展,使得LLMs的能力和應用大幅提升,導致了大量學術研究和模型的開發。盡管這個領域的活動日益增多,但這大量的研究成果也形成了一個復雜的知識體系,難以輕松掌握。特別是針對LLMs在CO中的應用,現有的學術文獻較為有限且零散,現有的研究工作在方法學、應用領域和研究發現上存在較大差異。因此,本系統綜述旨在整合當前LLMs應用于CO的最先進成果。我們通過篩選、分析和系統地組織文獻,以澄清該主題并確定當前和未來研究的戰略方向。我們遵循系統綜述和元分析首選報告項目(PRISMA)指南進行報告。通過這一研究,我們旨在了解LLMs在解決復雜優化任務中的能力,并探索該領域中不斷發展的趨勢和方向。通過系統地綜合和分析現有研究,本綜述旨在提供一個結構化的理解,幫助理解LLMs如何在CO中應用,并為未來研究提供啟示。

本綜述的結構如下:第2節討論了驅動我們工作的目標和動機;第3節探討了與相關工作的關系和區別;第4節提供了理解LLMs與CO之間相互關系所需的背景;第5節詳細介紹了我們遵循的方法論;第6節對我們綜述中納入的研究進行了分類和討論;第7節概述了未來的研究方向;第8節討論了我們方法的局限性;最后,第9節給出了結論并提出了未來的研究工作。

付費5元查看完整內容

 大型語言模型(LLMs)正在推動科學發現范式的轉變,從面向特定任務的自動化工具演變為日益自主的智能體,根本性地重塑了科研流程與人機協作模式。本文系統性地梳理了這一快速發展的研究領域,重點關注LLMs在科學中的角色變遷與能力提升。我們以科學方法為框架,提出了一個基礎的三層級分類體系——工具(Tool)、分析者(Analyst)與科學家(Scientist),以刻畫其自主性遞增及其在科研生命周期中職責的演變。此外,我們還識別了若干關鍵挑戰與未來研究方向,如機器人自動化、自我改進以及倫理治理等。總體而言,本文旨在提供一個概念性架構與戰略性前瞻,以助力AI驅動下的科學發現,實現快速創新與負責任的發展并重。

1 引言

大型語言模型(LLMs)的持續進步催生出一系列新興能力,如規劃(Huang 等,2024b)、復雜推理(Huang 和 Chang,2023)以及指令遵循(Qin 等,2024)。此外,將代理型工作流(agentic workflows)整合進來,使得基于LLM的系統能夠執行更高級的功能,包括網頁導航(He 等,2024)、工具使用(Qu 等,2025)、代碼執行(Jiang 等,2024a)和數據分析(Sun 等,2024)。在科學發現領域,這種高級LLM能力與代理機制的融合正推動一場深刻的范式轉變。該轉變不僅有望加速科研生命周期,還將從根本上改變人類研究者與人工智能在知識探索中的協作關系。 然而,LLM應用的迅猛擴展及其在科學發現中所引發的范式變化,也帶來了諸多挑戰。LLM演化速度之快,以及其與復雜科研流程的深度融合,使得系統性的評估愈發困難,因此亟需結構化的概念框架來整理當前認知,并指引未來發展方向。盡管現有綜述已對LLM在多個科學領域的應用進行了有價值的概覽(Zhang 等,2024, 2025),或對科學中的特定AI技術進行了分類(Luo 等,2025;Reddy 和 Shojaee,2025),但它們往往聚焦于特定學科的應用,或僅呈現LLM能力的靜態快照。因此,這些綜述可能忽略了LLM自主性不斷增強的關鍵趨勢,以及其在整個科學方法流程中角色的動態演變,從而未能充分揭示其影響力的廣度與未來向更高獨立性演進的潛力。 為系統描繪這一演進圖景,并彌補上述空白,本文的分析框架以經典科學方法的六個階段(見圖1)為基礎(Popper,1935;Kuhn,1962):(1)觀察與問題定義,(2)假設提出,(3)實驗與數據收集,(4)數據分析與解釋,(5)得出結論,(6)迭代與優化。我們對LLM在這些階段中的應用進行分析,發現一個顯著趨勢:LLM正從在單一階段執行離散的、面向任務的功能,逐步發展為能貫穿多個階段的復雜代理型系統。值得注意的是,最新研究(Schmidgall 等,2025;Yamada 等,2025)正在探索幾乎能夠自主完成整個科學流程的LLM系統。 為了更有效地捕捉與描述LLM能力與獨立性日益增強的演化路徑,本文提出一個基礎性的三層級分類框架(見表1),用于定義LLM在科學發現中的不同角色:(i)工具型LLM(LLM as Tool):模型在直接監督下完成具體、明確的任務,輔助人類研究者;(ii)分析者型LLM(LLM as Analyst):模型具備更高的自主性,能夠處理復雜信息、執行分析并提供洞見,減少人工干預;(iii)科學家型LLM(LLM as Scientist):代表更高級階段的系統,能夠自主執行從假設構建到結果解釋及提出后續研究方向等主要科研流程。 在此分類體系基礎上,我們進一步識別出當前研究格局中的關鍵空白,并提出未來發展的核心挑戰與方向,包括:(1)實現無需人工干預的全自主科學發現流程;(2)將機器人自動化引入實驗室,實現物理世界的交互與操作;(3)基于以往研究經驗實現持續的自我改進與適應;(4)提升LLM主導科研的透明度與可解釋性;(5)建立符合倫理與社會價值的治理機制。解決上述多維挑戰,將是實現AI作為科學探索變革性合作伙伴的關鍵。

本文聚焦于LLM系統在科學發現中的應用,特別是其不同層級的自主性。雖然我們承認LLM在科學中的廣泛影響,但本文有意縮小研究范圍,不涵蓋通用科學LLM或面向特定領域的知識獲取與推理模型——這類內容已在現有綜述中有較充分的探討(Zhang 等,2024, 2025)。本文其余部分結構如下:第2節介紹我們的分類框架及其與科學方法的對應關系;第3節分析“工具型LLM”的應用,按科學方法各階段分類;第4節探討“分析者型LLM”的應用,按科學領域劃分;第5節聚焦于“科學家型LLM”的研究,分析其創意生成與優化機制;第6節討論未來面臨的挑戰與發展方向。

付費5元查看完整內容

近年來,多模態大語言模型(MLLMs)的出現為文本豐富圖像理解(TIU)領域引入了新的維度,這些模型展示了令人印象深刻且鼓舞人心的性能。然而,它們的快速發展和廣泛應用使得跟上最新進展變得越來越具有挑戰性。為了解決這一問題,我們提出了一項系統且全面的綜述,以促進TIU MLLMs的進一步研究。 首先,我們概述了幾乎所有TIU MLLMs的時間線、架構和流程。接著,我們回顧了選定模型在主流基準測試中的表現。最后,我們探討了該領域內有前景的方向、挑戰和局限性。

1 引言

文本豐富圖像在現實場景中通過高效傳遞復雜信息和提升可訪問性發揮著關鍵作用(Biten等,2019)。準確解讀這些圖像對于自動化信息提取、推進AI系統以及優化用戶交互至關重要。為了規范這一研究領域,我們將其稱為文本豐富圖像理解(TIU),它涵蓋兩個核心能力:感知和理解。感知維度側重于視覺識別任務,例如文本檢測(Liao等,2022)、文本識別(Guan等,2025)、公式識別(Truong等,2024;Guan等,2024a)和文檔布局分析(Yupan等,2022)。理解維度則需要對語義進行推理,應用于關鍵信息提取和基于文檔的視覺問答(例如DocVQA(Mathew等,2021b)、ChartQA(Masry等,2022)和TextVQA(Singh等,2019)等任務。

歷史上,感知和理解任務通過專用模型或多階段流程分別處理。最近,視覺-語言模型的進展將這些任務統一在視覺問答(VQA)范式中,推動了端到端通用模型的開發。 圖1展示了一個進化時間線,描繪了統一文本豐富圖像理解模型的關鍵里程碑。這一軌跡揭示了兩個不同的時代:

  1. 前LLM時期(2019-2022):以LayoutLM(Xu等,2019)和Donut(Kim等,2021)等專用架構為特征,這些模型采用模態特定的預訓練目標(如掩碼語言建模、掩碼圖像建模等)并結合OCR衍生的監督(如文本識別、空間順序恢復等)。盡管在受控環境中有效,這些模型由于需要任務特定的微調和受限的跨模態交互機制,在開放域場景中的適應性有限。

  2. 后LLM時代(2023年至今):以LLM的日益普及為標志。一些研究提出了多模態大語言模型(MLLMs),將LLM與視覺編碼器結合,通過統一的注意力機制聯合處理視覺標記和語言元素,實現端到端的序列建模。

這一范式演進解決了早期方法的兩個關鍵局限性。首先,新興的MLLM框架通過同質化標記表示消除了模態特定的歸納偏差,實現了無縫的多任務集成。其次,LLM中編碼的語言先驗賦予了前所未有的零樣本泛化能力,并允許直接應用于多樣化任務而無需任務特定的調優。

盡管這些MLLMs展示了令人印象深刻且鼓舞人心的結果,但其快速發展和廣泛應用使得跟蹤前沿進展變得越來越具有挑戰性。因此,迫切需要一項針對文檔的系統綜述來總結和分析這些方法。然而,現有的文本豐富圖像理解綜述往往范圍狹窄:它們要么分析特定領域的場景(例如表格和圖表(Huang等,2024a)、圖表(Huang等,2024b;Al-Shetairy等,2024)、表單(Abdallah等,2024)),要么強調統一的深度學習框架(Subramani等;Ding等,2024)。我們的系統綜述填補了這一空白,首次從四個維度對幾乎所有TIU MLLMs進行了全面分析:模型架構(第2節)訓練流程(第3節)數據集和基準測試(第4節)以及挑戰與趨勢(第5節)。這對推動該領域的發展具有重要的學術和實際意義。

2 模型架構

在多模態大語言模型的設計中,模型架構通常可以劃分為三個核心模塊:視覺編碼器、模態連接器和LLM解碼器。下面對每個模塊進行詳細論述。 2.1 視覺編碼器 視覺編碼器的主要任務是將輸入圖像 I 轉換為特征表示 V,即 V = F(I)。這一模塊在TIU任務中至關重要,其設計方案主要分為以下三類: OCR-free 編碼器:直接提取圖像的高層語義特征,如CLIP、ConvNeXt、SAM、DINOv2、Swin-T、InternViT等,這類編碼器能夠捕捉圖像中的物體、場景和紋理信息,適合處理圖像整體內容。 OCR-based 編碼器:借助OCR引擎提取圖像中的文本內容與布局信息,主要采用直接輸入、交叉注意力等策略。直接輸入方式雖然能完整保留文本信息,但在長序列處理上存在效率問題;交叉注意力方式則通過動態選擇關鍵文本信息實現更高效的信息融合。 混合編碼器:結合了OCR-free和OCR-based兩種策略,如CLIP與LayoutLMv3的結合,既保留視覺語義信息,又兼顧文本與布局特征,適用于文檔級任務的多模態理解。 2.2 模態連接器 由于視覺特征 V 與語言特征 T 屬于不同模態,模態連接器的設計旨在將視覺特征轉換為與語言模型語義空間一致的視覺令牌,從而實現跨模態信息的無縫融合。常用的實現方法包括: 線性映射或多層感知機(MLP):這種方法簡單高效,但在擴展性和效率上可能存在局限; 令牌壓縮與令牌冗余削減技術:例如利用 Pixel shuffle 方法進行令牌壓縮,或采用交叉注意力、H-Reducer 以及基于相似度的注意力池化方法來減少冗余令牌,從而在不損失關鍵信息的前提下降低計算成本。 2.3 LLM 解碼器 模態連接器輸出的統一序列化特征與語言嵌入一起送入LLM解碼器。常見的LLM包括LLaMA系列、Qwen系列、Vicuna系列以及InternLM系列等。LLM解碼器借助強大的語言建模和推理能力,實現跨模態信息的語義融合和最終回答的生成。通過這種端到端的序列建模方法,MLLMs 能夠直接應用于諸如文檔問答、關鍵信息提取、圖表解析等多種任務。 3 訓練流程

MLLM 在訓練過程中通常遵循三個主要階段:模態對齊、指令對齊以及偏好對齊,每個階段均對模型的最終表現起到關鍵作用。 3.1 模態對齊 模態對齊階段的目標在于彌合視覺與文本模態間的差異,使得模型在預訓練階段就能夠學到視覺與文本間的對應關系。常見方法包括: 識別、定位與解析任務:利用OCR數據進行預訓練,設計全局閱讀、局部閱讀和文本位置預測等任務,迫使模型學習圖像中文本的順序、位置與結構。部分方法甚至引入圖像markdown預測任務,而非簡單的文本轉錄,以更好地保留文檔布局信息。 3.2 指令對齊 經過模態對齊后,模型具備了基礎的視覺識別和對話能力,但為了實現與人類意圖更為一致的智能交互,指令對齊階段采用了監督微調(SFT)的方法。此階段的核心在于: 視覺語義錨定:設計出要求答案直接出現在圖像中的任務和需要通過外部知識進行復雜推理的問題,從而提升模型的精確性和推理能力; 提示多樣化增強:通過對問題進行多種重構,使模型在面對不同提問形式時依然能夠準確響應,增強了模型的魯棒性; 零樣本泛化能力提升:利用鏈式思考(CoT)和檢索增強生成(RAG)等策略,讓模型在未見任務上也能給出合理的回答。 3.3 偏好對齊 由于在推理過程中模型可能因錯誤反饋而出現分布偏移,偏好對齊技術旨在通過人類反饋和錯誤糾正機制優化生成輸出。借鑒自然語言處理領域的相關經驗,當前多模態領域也開始采用如Dropout Next Token Prediction等策略來確保模型輸出更加符合人類期望和實際任務需求。 4 數據集與基準測試

TIU 任務的發展離不開大量專門構建的數據集和標準化的基準測試。這些數據集大致可以分為領域特定數據集和綜合場景數據集兩類: 領域特定數據集:包括文檔類(如 DocVQA、Docmatix)、圖表類(ChartQA、PlotQA、FigureQA)、場景文本(TextCaps、TextVQA、ST-VQA)以及表格類數據集(TableQA、WikiTableQuestions)等。這類數據集通常由傳統任務數據轉換而來,并在預訓練階段用于模態對齊,同時也作為后續指令對齊的標準評測數據。 綜合場景數據集:例如 OCRBench、Seed-bench-2-plus 和 MMDocBench 等,專門設計用來評估模型在長文檔、多任務、多語言等復雜場景下的綜合表現,為后續研究提供了標準化的評價體系。 通過對比各主流模型在這些基準數據集上的表現,可以直觀地了解當前 MLLM 的優勢與不足,從而推動更高效、更魯棒的模型設計。 5 挑戰與趨勢 盡管近年來 MLLM 在TIU任務上取得了顯著進展,但依然面臨一系列挑戰,這也是當前學術界和工業界亟待解決的問題。主要挑戰包括: 計算效率與模型壓縮:當前大多數 SOTA 模型參數規模在數十億級別,盡管性能優異,但高昂的計算成本和部署延遲嚴重制約了其實際應用。近年來,Mini-Monkey 等模型通過在參數量上大幅削減(例如僅使用2B參數達到接近7B模型的效果)展示了輕量化設計的巨大潛力。 視覺特征表示優化:圖像令牌數量通常遠超文本令牌,直接導致計算復雜度急劇增加。如何在壓縮令牌數量的同時保持關鍵信息不丟失,是未來需要重點研究的方向。近期一些模型(如 mPLUG-DocOwl2)在視覺令牌壓縮方面取得了較好效果,為更大輸入圖像的高效處理提供了新思路。 長文檔理解能力:雖然現有 MLLM 在單頁文檔理解上表現出色,但在多頁或長文檔的場景下,模型往往難以捕捉長距離依賴和跨頁上下文信息,亟需設計新的長文本建模方法或引入專門的長文檔基準測試數據集。 多語言文檔理解:目前大多數模型主要針對英語和少數高資源語言,對于多語言、低資源語言場景存在明顯短板。未來需要構建更全面的多語言數據集,并借助跨語言遷移學習技術提高模型在全球不同文化和語言環境下的適用性。 6 局限性

盡管本文對TIU領域的多模態大語言模型進行了全面綜述,但仍存在一些不足之處。首先,由于文獻檢索和整合時間的限制,部分較新或較邊緣的研究成果可能未能覆蓋。其次,由于篇幅和格式要求,本文在描述具體算法實現和實驗參數配置時采取了簡潔表達,讀者如需深入細節,建議參閱原論文和相關文獻。最后,部分模型的實驗結果因采用不同測試集和評測方法,存在一定的可比性問題,這也為未來研究提出了標準化評測的需求。 7 總結與展望

本文系統性地回顧了近年來多模態大語言模型在文本豐富圖像理解領域的研究進展,涵蓋了模型架構、訓練流程、數據集與基準測試、以及面臨的主要挑戰和發展趨勢。可以看出,通過將視覺編碼器與預訓練語言模型相結合,MLLMs 在打破傳統任務壁壘、實現端到端統一建模方面展現了巨大優勢,但同時在計算效率、長文檔理解、多語言適用性等方面仍有進一步提升空間。未來的研究可以在以下幾個方向展開: 繼續探索輕量化設計與模型壓縮技術,平衡性能與計算資源之間的矛盾; 開發更高效的視覺令牌壓縮與跨模態融合方法,優化長文檔及復雜場景的建模能力; 構建多語言、多場景下的綜合數據集,推動全球化應用場景的覆蓋; 借助人機交互和反饋機制,完善偏好對齊技術,使模型輸出更貼合實際需求。 總體來看,多模態大語言模型為文本豐富圖像理解領域帶來了全新的解決思路和應用前景,其不斷進化與融合正驅動著人工智能技術向更高水平邁進

付費5元查看完整內容

具身多智能體系統(EMAS)因其在物流、機器人等領域解決復雜現實問題的潛力,吸引了越來越多的關注。近期基礎模型的進展為生成型智能體提供了更豐富的溝通能力和自適應問題解決能力,開辟了新的方向。本綜述系統性地探討了EMAS如何從這些生成型能力中受益。我們提出了一個分類法,通過系統架構和具身方式對EMAS進行分類,重點強調協作如何跨越物理和虛擬環境。接著,我們分析了感知、規劃、溝通和反饋等核心構件,展示了生成技術如何增強系統的魯棒性和靈活性。通過具體實例,我們展示了將基礎模型集成到具身多智能體框架中的變革性影響。最后,我們討論了挑戰和未來發展方向,強調了EMAS在重塑人工智能驅動協作領域的巨大潛力。

1 引言

具身多智能體系統(EMAS)因其在智能交通、物流和制造等領域的巨大潛力,吸引了越來越多的關注 [YJ+13, IS+18]。通過將物理具身(從自動駕駛車輛到機器人操作臂)與多智能體系統(MAS)[DKJ18] 集成,EMAS 提供了一種去中心化、協作的方法,能夠高效地處理復雜任務。盡管這些優勢顯而易見,但設計和實現有效的 EMAS 仍然是一項非凡的挑戰,通常需要對控制論的專業知識、廣泛的訓練數據以及精心設計的強化學習范式 [LB08, OD23]。 在傳統的 MAS 中,智能體通過分配責任、共享狀態信息并共同適應動態環境來協作 [DKJ18]。雖然這些原則在某些特定領域取得了顯著成功,但傳統方法在以下方面面臨關鍵的局限性:難以推廣到新任務 [MS+22],難以擴展到大規模的智能體群體 [CTE+22],以及應對突發環境變化 [WR04]。這些方法通常依賴于狹窄訓練的模型,可能表現脆弱或僅限于特定領域 [YZ+23]。這些不足凸顯了需要更加靈活和穩健的解決方案的緊迫性,這些解決方案能夠在開放式和快速變化的具身場景中蓬勃發展。 近期基礎模型(FMs,例如大型語言模型、大型模型或視覺語言模型(VLMs))[ZLL+24] 的突破為推進 MAS 向更加自適應和生成行為的發展開辟了新的途徑。通過為智能體提供自然語言能力、情境推理以及生成新解決方案的能力,基于基礎模型的 MAS 超越了純信號驅動或強化學習框架中固有的局限性 [GCW+24, CLH+24, LP+24]。這些“生成型智能體”能夠以語義豐富的方式進行溝通,與人類級別的流暢度協作,并能夠迅速應對突發挑戰,調整策略。因此,基于 FM 的智能體可能會徹底改變多智能體協作的方式——無論是在由具身設備組成的物理空間,還是在智能體共享抽象知識和任務的虛擬空間中。 在此背景下,EMAS 領域將能夠從這些 FM 方面的最新進展中獲益。通過將物理具身與生成型多模態智能結合,未來的系統可能會采用更廣泛的設計空間,整合復雜的感知、高級語言和視覺推理能力,以及自適應決策能力。然而,現有文獻中關于具身 AI 和多智能體系統的綜述通常將這些領域視為孤立的,未能在它們的交集處進行系統性的探討 [IS+18, DYT+22, GCW+24, MS+24, HRS24]。基于 FM 的生成型智能體如何最好地融入 EMAS 的系統化視角仍在不斷發展中。 本綜述旨在提供對生成型多智能體協作在具身 AI 中現狀的全面和結構化的分析,如圖 1 所示。首先,在第 2 節中,我們提出了一種分類法,根據模型數量和具身類型對現有的 EMAS 解決方案進行分類,強調協作如何在物理智能體和純粹虛擬語義環境中產生。接下來,在第 3 節中,我們探討了多智能體協作的主要構建塊——系統感知、規劃、溝通和反饋,并分析了如何設計這些組件以利用基于 FM 的生成能力。超越理論視角,在第 4 節中,我們深入探討了實踐應用,展示了生成型多智能體協作如何增強不同具身場景中的功能。根據我們的了解,這是首次系統性地探討 MAS、具身 AI 和基礎模型的融合。最后,在第 5 節中,我們總結了開放的研究挑戰,勾畫了關鍵的未來發展方向,并討論了 EMAS 對更廣泛的 AI 和機器人領域的潛在影響。我們的目標是通過呈現這個迅速發展的領域的整體概述,來為研究人員、從業人員和利益相關者提供信息并激發靈感。

2 協作架構

在前一節中概述的關鍵挑戰和機遇的基礎上,本節介紹了具身多智能體系統(EMAS)中的協作架構,如圖 2 所示。特別地,我們探討了生成型多智能體系統如何利用外部協作(跨多個具身實體)或內部協作(在單一具身實體內多個基礎模型之間)。我們還涵蓋了結合這些策略的混合方法,以滿足多樣化的系統需求。我們的目標是提供一種結構化的理解,說明如何協調多智能體協作,以最大化適應性、可擴展性和任務一致性,尤其是在與基礎模型(FM)集成時。

**2.1 外部協作

在多個具身實體之間展開的協作場景中,我們稱之為外部協作,智能體在物理或虛擬環境中互動,以實現共享的目標。借鑒長期以來的多機器人和傳統多智能體系統(MAS)文獻,外部協作可以通過集中式或去中心化策略組織。這些方法在可擴展性、通信開銷以及全局控制與局部控制之間存在不同的權衡。集中式架構 在集中式策略框架中,單一的統一模型控制多個機器人或智能體,提供集中式的任務分配和決策制定。該集中模型根據智能體的能力和系統目標分配任務,通過提供全局視角確保智能體之間的協調。已有研究探索了基于語言的任務分配方法 [LTW+24, OA+24, CYZ+24] 和基于代碼的任務分配方法 [KVM24, ZQW+24]。 集中式模型還在決策制定中發揮關鍵作用,通過整合來自所有智能體的信息來做出最終決策,確保一致性。例如,[YKC23] 使用集中式模型來確定導航目標,[TXL+20] 使用它來進行基于 3D-CNN-LSTM 的互動問答,[GAZ+24] 使用它在多機器人系統中通過引導領導機器人行動來解決死鎖問題。 集中控制策略通過使用單一模型進行任務分配和決策制定來確保協調。其優勢包括任務的最優分配和一致的決策。然而,它可能受到系統復雜性、高計算需求以及在大規模或動態環境中的可擴展性問題的限制。

去中心化架構

在去中心化策略中,每個模型獨立控制其相應的具身實體,從而提供更大的靈活性和可擴展性。早期的研究使用強化學習進行去中心化控制,但基礎模型(FM)的興起使得智能體能夠自主處理多樣化的任務 [CJ+24],形成了更為先進的去中心化系統。 基礎模型通過利用推理能力來增強去中心化系統,基于局部部分觀察來改善個體決策。例如,[ZWL+24] 利用世界模型來輔助多智能體規劃,在該模型中,每個個體通過世界模型預測其他智能體的行為,并推斷自己的計劃。類似地,[AF+23] 引入了一個輔助的心智理論推理基礎模型來解釋合作伙伴智能體的行動和需求,從而支持個體決策。 此外,憑借基礎模型的推理和通信能力,基于FM的智能體表現出涌現的社交性。[CJ+23] 發現,當沒有明確指導采用哪種策略時,FM驅動的智能體主要遵循平均策略,這代表了智能體之間的一種平等主義組織結構。其他研究 [GHL+24, CJ+24] 強調了團隊中更為結構化角色的潛在好處。這表明,類似于人類的社會結構,FM智能體可以表現出涌現行為,通過適應組織框架來優化協作,從而增強它們在處理復雜任務時的集體能力。

2.2 內在協作

外在協作涉及多個機器人和具身實體之間的合作,而內在協作則發生在單一系統的內部結構中,該系統可能包含多個基礎模型(FM)。這一概念與最近推動的各個FM模塊之間的協作工作流程密切相關,這些模塊各自專注于不同的角色,共同處理日益復雜的任務。這樣的內部協調擴展了傳統的多智能體協調概念,側重于在單一具身體內進行集中的決策。 在這一工作流程中,每個FM承擔特定的功能或角色,共同完成任務。研究已將這一范式應用于具身學習系統,例如 [QZL+24],該系統使用規劃者、部分處理器和執行者等模塊來解決Minecraft沙盒中的任務,和 [SSY+24],它將任務分解為觀察者、規劃者和執行者角色。LLaMAR [NO+24] 還采用了計劃-行動-糾正-驗證框架進行自我修正,無需預言機或模擬器。 內在協作可以通過提高規劃準確性、安全性和適應性來提升系統功能。例如,[LY+23] 使用基于FM的快思維和慢思維進行協作計劃生成和評估,而LLaMAC [ZMR+23] 則采用多個批評者和評估者來提供反饋并提高魯棒性。

2.3 混合協作架構

在許多現實世界的應用中,嚴格區分外在協作和內在協作既不現實也沒有優勢。因此,混合協作架構結合了這些策略,利用了集中式、去中心化和內部FM工作流程的優勢。 隨著具身任務復雜性的增加,混合不同協作層次的靈活性——無論是在機器人之間,還是在智能體的內部結構中——變得越來越有價值。 內在協作通過模塊化FM增強模型能力,并且可以應用于集中式和去中心化系統。例如,CoELA [ZDS+24] 使用五個模塊——感知、記憶、通信、規劃和執行——而 [YPY+24] 為去中心化機器人協作構建了具有觀察、記憶和規劃模塊的智能體。集中式模型也可以使用模塊化FM,例如 [WTL+24],它使用任務和行動FM進行任務分配。 集中式和去中心化策略可以結合使用,不同階段的任務可以采用不同的方法。受到多智能體強化學習(MARL)中的集中訓練與去中心化執行(CTDE)框架的啟發,[CYZ+24] 和 [ZC+24] 提出了集中規劃與去中心化執行的方案,其中全球規劃指導任務執行,最大化全球監督與地方自治之間的協同效應。 通過展示這些不同的架構,我們闡明了實踐者如何在不同粒度和控制層級上有效地協調EMAS中的多智能體協作。下一節將基于這一架構視角,探討如何設計關鍵的系統組件——感知、規劃、通信和反饋——以利用基于FM的生成能力,進一步提升多智能體協作的魯棒性和適應性。

3 推進協作功能

在第二節中,我們從結構層面探討了如何協調多智能體協作,接下來我們將轉向推動具身智能體之間有效團隊合作的功能性構建模塊。具體來說,我們重點介紹感知、規劃、通信和反饋機制如何被設計來利用基礎模型(FM)的生成能力。通過聚焦于這些關鍵模塊,我們展示了EMAS解決方案如何更加穩健地解讀物理環境、制定并適應計劃、交換信息,并從自身行為以及環境中迭代學習。這種方法補充了前述的協作架構,提供了一個更細化的視角,以促進具身智能體之間的動態和上下文感知協作。

3.1 感知

盡管生成模型可以從文本和視覺中獲取語義知識,但具身智能體必須主動感知并解讀物理世界。這需要處理三維結構、動態條件和實時互動 [LCB+24]。因此,感知模塊至關重要,它將環境的詳細特征傳遞給后續的模型,確保生成能力植根于具體的上下文中 [PH+24]。

**基于FM的物理感知

向FM提供物理上下文的最簡單方法是提供環境的口頭描述。盡管這些提示可以手動編寫,但許多方法使用自動化工具增強語言描述。例如,一些研究 [MJ+24, CZR+23] 使用視覺模型來檢測和描述物體,而其他研究 [BCF+23, HW+23] 則利用可操作性學習來豐富FM對物體在物理環境中如何被操作的理解。除了被動接收信息,最近的工作使智能體能夠決定何時以及觀察何種類型的信息,從而促進主動感知。例如,[QZL+24] 允許FM查詢經過微調的模型,獲取環境細節;這些響應逐步構建場景描述。

**協作感知

在多智能體系統中,協作感知旨在融合來自不同智能體的互補傳感輸入,從而提升整體性能 [YYZ+23]。在自動駕駛或無人機編隊中,這通常通過傳感器級的數據共享或輸出級融合實現 [SRC24]。在基于FM的系統中,協作智能體可以通過聚合每個智能體的本地地圖或視覺數據,共同構建環境的全局記憶。例如,[YKC23] 融合了來自多個智能體RGBD輸入的語義地圖,[TXL+20] 使用每個智能體觀察的3D重建形成共享環境的整體3D狀態和語義記憶。

3.2 規劃

規劃是多智能體具身系統的核心模塊,使得智能體能夠基于狀態、目標和個體能力進行戰略部署。有效的規劃對于任務分配、協調以及無縫整合生成FM的能力至關重要。

**規劃格式

規劃方法通常采用基于語言或基于代碼的格式。基于語言的規劃使用自然語言引導任務流,具有直觀性和易適應性,尤其是在先進FM的出現之后 [MJ+24, YKC23]。相比之下,基于代碼的方法利用結構化編程或領域特定符號(例如PDDL)來實現更高的精確度。[KVM24] 使用Python代碼框架來描述整體任務流程,[ZQW+24] 將任務轉換為PDDL問題,以便分配給多個機器人。

**規劃過程

除了個體決策外,多智能體協作還要求達成共識、解決沖突和共享資源。在集中式系統中,單一模型通常負責分配子任務。例如,[LTW+24] 根據每個智能體的能力生成行動列表,[OA+24] 集成FM和線性規劃來解決任務劃分,[CYZ+24] 則利用“機器人簡歷”來進行FM驅動的任務分配討論。在去中心化系統中,智能體直接溝通以優化集體計劃,并通過強大的信息交換得到支持,這將在下一小節中進一步探討。

3.3 通信

通信是MAS的核心,使得智能體能夠共享情況更新、協調任務并達成共識。與傳統方法需要繁瑣的通信協議設計不同,生成智能體可以利用FM的零-shot語言生成能力,降低了構建高效通信接口的復雜度。 參考 [SWJ+22],我們將具身AI中的多生成智能體通信模式分為三種主要結構:

  • 星型結構:一個虛擬的中央智能體控制消息流動,向其他智能體廣播計劃或指令。許多集中式架構的工作都探索了這種方法 [KVM24, YKC23]。
  • 完全連接(FC):每個智能體與其他所有智能體自由通信,利用FM驅動的消息。例如,[MJ+24] 使用兩個機器人臂之間的FM對話來協調操作任務。在CoELA [ZDS+24] 中,每個智能體通過記憶檢索當前狀態信息,并通過FM生成通信內容。
  • 層次結構:通過建立領導結構來提升可擴展性并減少通信開銷。[CJ+24, LYZ+24, GHL+24] 顯示了如何通過領導角色來引導或過濾通信,從而提高效率和結果。

3.4 反饋

具身任務復雜且不確定,因此反饋機制對智能體改進至關重要。反饋使智能體能夠調整和優化行為,允許它們根據當前狀態、環境變化或外部指導進行持續學習。

**系統反饋

系統反饋是指在采取行動之前由系統內部生成的信息。這涉及到智能體或集中模型重新審視其初始計劃,以識別缺陷或潛在改進之處。多個研究 [LZD+24, CYZ+24, ZMR+23] 實現了任務生成后的多智能體討論階段,通過同行反饋完善行動列表。[CAD+24] 和 [ZQW+24] 使用FM檢查器來驗證基于代碼的計劃,確保語法正確性。同時,[ZYB+24] 提出了優勢函數來評估并迭代優化計劃,[LY+23] 使用FM來預測計劃結果,隨后通過另一個FM評估計劃質量,從而推動迭代改進。

**環境反饋

環境反饋發生在執行物理(或模擬)世界中的行動后。許多研究記錄現實世界的結果以指導未來決策。例如,[LTW+24] 和 [YPY+24] 將行動結果存儲在記憶中,以便未來規劃參考,而 [QZL+24] 和 [NO+24] 則評估失敗的根本原因并相應調整行動計劃。此外,多智能體的組織結構可以在任務執行過程中根據環境信號重新配置。[CSZ+23] 動態更新角色,[GHL+24] 使用FM批評者來評估智能體表現,甚至重新組織領導角色。

**人類反饋

外部人類指導可以提供細致的干預和戰略方向,這是純自動化系統無法實現的。例如,[PL+23] 識別模糊或不可行的任務指令,要求人類提供幫助,而 [WHK24] 和 [RDB+23] 則結合了符合預測來衡量任務的不確定性并觸發人類幫助請求。除了請求幫助,[CK+23] 和 [SH+24] 允許人類操作者通過口頭指令實時調整機器人的動作,從而提高任務成功率。 總之,感知、規劃、通信和反饋成為將高層次協作架構轉化為實際生成多智能體解決方案的基礎支柱。無論智能體是通過分布式配置進行外在協作,還是通過單一具身內部的多個FM進行內在協作,強大的支持模塊都確保了在現實環境中的適應性和魯棒性。 下一節將深入探討具體的應用領域,展示這些功能模塊如何協同工作以應對多樣的具身任務。通過將架構原理(第2節)與模塊化功能結合,并將其植根于實際場景,我們旨在提供一個全面的視角,展示如何在EMAS中有效實現生成多智能體協作。

4 下游任務:從仿真到現實世界部署

在前面的架構和功能模塊的基礎上,本節探討了生成式多智能體協作如何從受控的仿真環境過渡到現實世界應用。盡管許多進展是在虛擬平臺上驗證的,但這些仿真洞察為解決智能交通、家庭機器人學和具身問答等復雜問題奠定了基礎。

**4.1 仿真平臺

前面的部分介紹了多智能體協作如何在結構和功能上得到啟用。現在,仿真環境作為一個關鍵層次,用于測試這些設計,使研究人員能夠系統地改進智能體交互,而無需承擔現實世界操作的成本或風險。網格世界范式 網格世界具有基于單元格的結構,重點是決策制定和路徑規劃,同時抽象掉了物理細節。通過采用基于FM的翻譯和檢查框架,[CAD+24] 改進了多智能體在網格任務中的表現,[ZMR+23] 引入了反饋機制來增強網格運輸任務的表現。[CAZ+24] 進一步評估了在網格設置中各種基于FM的多機器人架構,強調了這些簡化的世界如何幫助快速驗證協作設計。基于游戲的協作場景 像《Overcooked》這樣的基于游戲的平臺提供了明確的規則、時間限制和智能體間強制協調的任務 [YJ+24, AF+23, ZYB+24]。FM協調還擴展到其他結構化游戲,如《Hanabi》和《Collab Games》,展示了生成式方法如何適應不同的基于團隊的挑戰。對于更具開放性的任務,《Minecraft》 [WXJ+23, PC+24] 推動了更大環境和無盡目標的應用。最近的研究 [PC+24, ZC+24, QZL+24] 聚焦于協作探索,而其他研究 [CJ+24, CSZ+23, ZMC+24] 則解決了資源收集或結構構建的問題。高級3D環境與機器人仿真 現實感仿真器旨在更緊密地模仿現實生活中的復雜性。AI2-THOR [KM+17] 提供了精細渲染的室內場景,并用于多智能體家庭任務 [KVM24, WHK24, LLG+22, SSY+24]。類似地,VirtualHomeSocial [GHL+24]、BEHAVIOR-1K [LTW+24] 和基于Habitat的基準平臺 [CYZ+24] 使智能體能夠在物體操作和導航中發展協作策略。這些平臺幫助架起了算法開發與物理部署之間的橋梁。

**4.2 新興應用

憑借驗證過的架構和強大的功能模塊,研究人員已開始面臨終極挑戰:將仿真學習轉化為可行的物理部署。從智能交通到家庭機器人學,以下小節展示了生成式多智能體協作如何適應現實世界的需求,突顯了這些系統的成熟度和面臨的挑戰。智能交通與配送 智能交通中的多智能體協作涵蓋了無人機/地面無人車(UAV/UGV)的協調任務,如貨物配送和環境監測。早期的研究主要利用多智能體強化學習(MARL),但現在基于FM的解決方案開始出現。[GW+24] 探討了基于FM的初步任務分配用于監視任務,[WTL+24] 將生成模型應用于跟蹤目標分配,表明基于語言的策略能夠迅速適應動態場景。家庭輔助機器人 許多3D仿真基準平臺,包括AI2-THOR和Habitat,最初是為了模擬家庭環境而設計的。家庭任務,如“清理桌子”或執行指令“打開書桌和地板燈并看電視”,要求具備強大的感知、規劃和通信能力。研究 [KVM24, WHK24, LGZL24, MJ+24, ZYB+24] 展示了多個智能體如何共享角色、解讀指令并劃分復雜任務。生成模型進一步簡化了協調,使得任務分配更具適應性,并豐富了人機交互。超越探索:具身問答(EQA) 具身問答(EQA)涉及在3D空間中的主動探索和推理。與強調物理交互的任務不同,EQA側重于信息的收集與解讀,通常需要對空間布局、物體關系或事件歷史有深刻的理解。多智能體版本通常利用基于團隊的感知來建立全局記憶和達成共識 [TGG+23, TXL+20, PD+24]。[CZR+23] 將專職功能的智能體定位在關鍵位置進行信息貢獻,展示了如何通過FM驅動的協作將觀察結果整合成連貫的答案。 本節通過強調這些仿真基準平臺和現實世界應用,突出了EMAS中的一個關鍵發展軌跡:首先通過結構化的測試平臺進行概念驗證,然后將解決方案過渡到高風險領域。既然已經明確了生成式多智能體協作可以部署的場所和方式,接下來的部分將討論剩余的挑戰,并勾畫出EMAS研究的前景。

5 開放挑戰與未來趨勢

隨著具身人工智能(AI)系統中多智能體協作領域的不斷發展,仍然存在一些開放的挑戰和有前景的未來方向。盡管取得了不少進展,但仍然存在諸多現實世界的障礙,限制了具身系統的應用。本節識別了關鍵挑戰,并概述了潛在的探索和創新領域,以應對這些問題。

**基準測試與評估

一個主要的挑戰是缺乏標準化的評估標準。盡管在單一智能體系統和個體代理的基準測試方面取得了顯著進展,但對于具身多智能體協作的評估仍存在明顯的空白。現有的基準測試通常專注于特定任務的度量,未能充分考慮多智能體環境中互動、協調和涌現行為的復雜性。因此,亟需建立統一的評估標準來全面評估多智能體系統的性能,包括可擴展性、適應性、魯棒性和集體智能等因素。基準測試的發展對于確保不同領域的一致性至關重要,并能夠實現不同多智能體框架之間的有意義比較。

**數據收集與異質性

多智能體協作的另一個挑戰是數據稀缺性和異質性。收集具有不同物理特性和能力的多種系統的大規模、高質量數據是一項艱巨的任務。硬件、傳感器和環境交互的差異導致了數據的不一致性,這使得跨系統和任務的泛化變得困難。現實世界中可用的數據可能有限,阻礙了有效的訓練和評估。此外,由于實際限制,多數多智能體協作的研究是在仿真環境中進行的,只有少數研究采用了現實世界數據。因此,亟需建立標準化的數據收集方法,并且需要創新的方法來彌合仿真與現實應用之間的差距,連接理論與現實。

**具身AI的基礎模型

基礎模型的發展,尤其是面向具身智能體的基礎模型,預計將成為多智能體協作領域的一項突破性進展。目前,生成式智能體主要依賴FM來執行復雜任務,下一步自然是構建專門為具身系統設計的基礎模型。這些模型將作為多智能體協作的核心框架,整合感知、決策和行動。近期的工作,如RT-1 [BB+22] 和RDT [LW+24],在適應性和可擴展性系統的機器人基礎模型方面取得了顯著進展。基礎模型的演進將為更無縫的多智能體協作奠定基礎,使得智能體能夠在動態環境中進行全面的協作和工作。然而,將單智能體FM擴展到多智能體系統仍然面臨挑戰,這需要新的架構和方法。

**智能體的可擴展性

目前,參與協作的智能體數量較少。隨著智能體數量的增加,計算、通信、協調、任務分配和資源管理的復雜性和難度也將增加。此外,在大規模多智能體系統中保持穩定性和魯棒性需要復雜的協調與調度技術。針對可擴展架構、有效的通信協議和協作策略的研究將是解鎖大規模具身系統全部潛力的關鍵。優化智能體工作流程和模式的發展對于在資源意識下擴展這些系統至關重要。

**以人為中心的協作

將機器人集成到以人為中心的環境中仍然是一個重要話題。在許多應用中,多智能體系統不僅需要相互協作,還需要與人類協作。確保機器人能夠在動態和非結構化的環境中與人類無縫合作,需要開發考慮人類認知能力、偏好和局限性的機器人-人類交互(HRI)協議。人機協作引入了額外的挑戰,如安全性、適應性和信任性。在人機團隊合作、共享自主性和直觀接口方面的研究將對促進機器人與人類之間的安全、富有成效的協作至關重要,特別是在醫療保健、工業自動化和服務機器人領域。

**理論基礎與可解釋性

當前的具身多智能體協作方法,尤其是涉及FM的系統,通常缺乏堅實的理論基礎。盡管在開發實際系統方面取得了重大進展,但關于支配智能體交互的潛在原理和集體智能的理解仍然非常有限。對動態協作的深入理論探索,包括通信、協調和共識的作用,是推動該領域發展的關鍵。此外,具身多智能體系統和模型的可靠性與可解釋性在安全關鍵型環境中尤為重要,如自動駕駛和智能鐵路等應用場景。 6 結論

本綜述調查了一個具有潛力的研究領域——具身系統中的多智能體協作,重點探討了如何將生成式基礎模型(FM)集成到具身多智能體系統中。我們強調了基于FM的生成式智能體如何促進動態協作和涌現智能,并從內在和外在兩個角度系統地探索了多智能體協作架構,重點關注感知、規劃、通信和反饋機制等關鍵技術。通過研究從網格世界探索到家庭助理等多種應用場景,展示了基于FM的具身多智能體系統(EMAS)解決復雜問題的潛力,并討論了該領域快速發展過程中所面臨的挑戰和機遇。我們希望本綜述能為研究人員、從業者和相關方提供寶貴的參考,幫助他們全面了解當前的研究現狀,并激發更多先進且可擴展的解決方案,以實現具身多智能體AI的動態無縫協作。

付費5元查看完整內容

推薦系統是許多在線平臺的核心組成部分,但傳統方法在理解復雜用戶偏好和提供可解釋推薦方面仍然面臨困難。大型語言模型(LLM)驅動的智能體的出現為此提供了一種有前景的方法,通過實現自然語言交互和可解釋推理,可能會徹底改變推薦系統領域的研究。本文綜述系統地回顧了LLM驅動的智能體在推薦系統中日益增長的應用。我們識別并分析了當前研究中的三種關鍵范式:(1)面向推薦的方式,利用智能體增強基礎推薦機制;(2)面向交互的方式,通過自然對話和可解釋建議促進動態用戶參與;(3)面向仿真的方式,采用多智能體框架來模擬復雜的用戶-物品交互和系統動態。除了范式分類之外,我們還分析了LLM驅動的推薦智能體的架構基礎,研究其核心組成部分:個人資料構建、記憶管理、戰略規劃和行動執行。我們的研究還擴展到對該領域基準數據集和評估框架的全面分析。這一系統性研究不僅闡明了LLM驅動的推薦系統智能體的當前狀態,還為該變革性領域中的關鍵挑戰和有前景的研究方向提供了指引。

1 引言

在信息爆炸的時代,推薦系統[Wu et al., 2022] 已成為數字平臺中不可或缺的組成部分,幫助用戶在電子商務、社交媒體和娛樂領域中瀏覽海量內容。盡管傳統的推薦方法[He et al., 2017]通過分析用戶偏好和歷史行為,成功地提供了個性化建議,但在實際應用中仍面臨諸多挑戰,如對復雜用戶意圖的理解不足、交互能力有限以及無法提供可解釋的推薦[Zhu et al., 2024b]。 近期,大型語言模型(LLM)的進展[Achiam et al., 2023]激發了越來越多的研究興趣,旨在利用LLM驅動的智能體[Wang et al., 2024a]來解決推薦系統中的上述挑戰。將LLM驅動的智能體融入推薦系統,相比傳統方法,具有若干顯著優勢[Zhu et al., 2024b]。首先,LLM智能體能夠理解復雜的用戶偏好,并通過其精密的推理能力生成上下文推薦,從而使得決策過程更加細致,超越簡單的特征匹配。其次,它們的自然語言交互能力促進了多輪對話,能夠主動探索用戶興趣并提供可解釋的解釋,增強了推薦準確性和用戶體驗。第三,這些智能體通過生成更加真實的用戶畫像,結合情感狀態和時間動態,徹底改變了用戶行為模擬,從而提高了系統評估的有效性。此外,LLM的預訓練知識和強大的泛化能力促進了跨領域的知識轉移,能夠以最少的額外訓練應對冷啟動等長期存在的挑戰[Shu et al., 2024]。 在本綜述中,我們全面回顧了LLM驅動的智能體在推薦系統中的應用。首先,我們介紹了傳統推薦系統的背景,并討論了它們在理解復雜用戶意圖、交互能力和可解釋性方面的局限性。接著,我們系統地審視了LLM驅動的智能體如何通過三種主要范式解決這些挑戰:面向推薦的(如[Wang et al., 2024b; Wang et al., 2024c])、面向交互的(如[Zeng et al., 2024; Friedman et al., 2023])和面向仿真的(如[Yoon et al., 2024; Guo et al., 2024])方法。然后,我們提出了一種統一的智能體架構,包含四個核心模塊(個人資料[ Cai et al., 2024; Zhang et al., 2024c]、記憶[ Shi et al., 2024; Fang et al., 2024]、規劃[ Wang et al., 2023b; Shi et al., 2024]、行動[ Zhu et al., 2024a; Zhao et al., 2024]),并分析了現有方法如何實現這些模塊。進一步地,我們編制了現有基準數據集(包括Amazon系列、MovieLens、Steam等)和評估方法的全面比較,涵蓋了傳統推薦指標和新興的評估方法。最后,我們探討了該領域幾個有前景的未來研究方向。

  • 我們提出了一個系統的LLM驅動推薦智能體分類,識別出三種基本范式:面向推薦的、面向交互的和面向仿真的方法。這個分類框架為理解當前的研究提供了結構化的視角。
  • 我們使用統一的架構框架分析LLM驅動的推薦智能體,將其分解為四個核心模塊:個人資料構建、記憶管理、戰略規劃和行動執行。通過這一框架,我們系統地審視了現有方法如何集成和實現這些組件。
  • 我們提供了現有方法、基準數據集和評估方法的全面比較分析,涵蓋了傳統推薦指標和專為LLM驅動推薦智能體設計的新興評估方法。

付費5元查看完整內容

隨著大規模語言模型(LLM)技術的快速發展以及生物信息學特定語言模型(BioLMs)的出現,對當前領域的綜合分析、計算特性和多樣化應用的需求日益增加。本綜述旨在通過對BioLMs進行全面回顧來滿足這一需求,重點介紹其演變、分類及其獨特特征,同時詳細考察訓練方法、數據集和評估框架。我們探討了BioLMs在疾病診斷、藥物發現和疫苗開發等關鍵領域的廣泛應用,突出了它們在生物信息學中的影響力和變革潛力。我們識別了BioLMs中固有的關鍵挑戰和局限性,包括數據隱私和安全問題、可解釋性問題、訓練數據和模型輸出中的偏差以及領域適應的復雜性。最后,我們強調了新興趨勢和未來發展方向,提供了有價值的見解,以指導研究人員和臨床醫生推動BioLMs在日益復雜的生物學和臨床應用中的進步。

1. 引言

大規模語言模型(LLM)的快速發展,如BERT [1]、GPT [2]及其專門化的對應物,已經徹底改變了自然語言處理(NLP)領域。它們能夠建模上下文、解讀復雜數據模式,并生成類人反應,這使得它們自然地延伸到生物信息學領域,在這個領域中,生物序列往往與人類語言的結構和復雜性相似 [3]。LLM已成功應用于多個生物信息學領域,包括基因組學、蛋白質組學和藥物發現,提供了以前通過傳統計算方法無法獲得的見解 [4]。 盡管取得了顯著進展,但在系統地分類和全面評估這些模型在生物信息學問題上的應用方面仍然存在挑戰。考慮到生物信息學數據的多樣性以及生命活動的復雜性,導航這一領域常常充滿挑戰,因為現有研究通常集中在有限的應用范圍內。這導致了對LLM在多個生物信息學子領域中更廣泛應用的理解存在空白 [5]。 本綜述旨在通過提供LLM在生物信息學中的應用的全面概述,來解決這些挑戰。文章通過關注不同層次的生命活動,從兩個主要視角收集并展示相關工作:生命科學和生物醫學應用。我們與領域專家合作,編寫了跨越這些視角中的關鍵領域的深入分析,如核體分析、蛋白質結構與功能預測、基因組學、藥物發現和疾病建模,包括腦部疾病、癌癥以及疫苗開發中的應用。 此外,我們提出了“生命活性因子”(Life Active Factors,LAFs)這一新術語,用以描述作為生命科學研究目標候選分子和細胞成分的因素,這不僅包括具體實體(DNA、RNA、蛋白質、基因、藥物),還包括抽象組件(生物通路、調節因子、基因網絡、蛋白質相互作用)以及生物學測量(表型、疾病生物標志物)。LAFs是一個全面的術語,能夠調和各個生物信息學子領域研究中產生的概念差異,有助于對LAFs及其在復雜生物系統中相互作用的多模態數據的理解。LAFs的引入與基礎模型的精神高度契合,強調了在尊重每個LAF作為生物網絡節點的相互關系的同時,統一了LAFs的序列、結構和功能。 通過彌合現有的知識空白,本工作旨在為生物信息學家、生物學家、臨床醫生和計算研究人員提供如何有效利用LLM來解決生物信息學中迫切問題的理解。我們的綜述不僅突出了近期的進展,還識別了開放性挑戰和機遇,為未來跨學科合作和創新奠定基礎(圖1)。

付費5元查看完整內容

本文提供了對去噪擴散概率模型(DDPMs)的數學嚴謹介紹,DDPMs 有時也被稱為擴散概率模型或擴散模型,主要用于生成式人工智能。我們提供了 DDPMs 的基本數學框架,并解釋了訓練和生成過程背后的主要思想。本文還回顧了文獻中一些選定的擴展和改進,如改進版 DDPMs、去噪擴散隱式模型、無分類器擴散引導模型以及潛在擴散模型。

1 引言

生成模型的目標是基于從未知潛在分布中采樣得到的數據集,生成新的數據樣本。為了實現這一目標,已經提出了許多不同的機器學習方法,例如生成對抗網絡(GANs)[12]、變分自編碼器(VAEs)[22]、自回歸模型[47]、歸一化流[37]和能量基模型[25]。本文將介紹去噪擴散概率模型(DDPMs),這是一類生成方法(有時也被稱為擴散模型或擴散概率模型),其基于重建一個擴散過程的思想,擴散過程從潛在分布開始,逐漸向其狀態添加噪聲,直到最終狀態完全是噪聲,然后反向重建。通過這種反向重建,純噪聲轉變為有意義的數據,因此 DDPMs 提供了一種自然的生成框架。我們旨在提供對 DDPMs 背后動機思想的基本但嚴謹的理解,并對文獻中一些最具影響力的基于 DDPM 的方法進行精確描述。

DDPMs 最初在 [44] 中提出,并在 [15] 中進一步推廣,已經能夠在圖像合成和編輯 [31,35,36,38,40]、視頻生成 [17,53]、自然語言處理 [3,26] 和異常檢測 [50,52] 等許多領域取得最先進的成果。在經典的形式中,DDPM 是一個由兩個隨機過程組成的框架,即正向過程和反向過程。正向過程——擴散過程——從初始時間步驟的(近似)潛在分布開始(例如,它的初始狀態可以是數據集中的隨機樣本),然后逐漸向其狀態添加噪聲,直到其終止時間步驟的狀態(近似)完全是噪聲。反向過程——去噪過程——是一個參數化過程,從(終止時間步驟)完全噪聲的狀態開始。在 DDPM 的背景下,關鍵思想是學習反向過程的參數,使得反向過程每個時間步驟的分布近似與正向過程對應時間步驟的分布相同。如果這一目標得以實現,反向過程可以解釋為逐漸去除噪聲,直到恢復到正向過程的初始分布。從這個意義上講,反向過程逐漸去噪其完全噪聲的初始狀態。一旦找到合適的反向過程參數,生成過程便是從反向過程采樣生成的。 在第2節中,我們將為 DDPMs 構建一個一般的數學框架,并解釋反向過程的訓練和生成樣本的基本思想。接著,在第3節中,我們將考慮該框架的最常見特例,即噪聲為高斯噪聲,反向過程由去噪人工神經網絡(ANN)控制的情況。在第4節,我們將討論文獻中用于評估生成樣本質量的一些指標。最后,在第5節中,我們將討論一些文獻中提出的最流行的基于 DDPM 的方法,如改進版 DDPMs(見 [15])、去噪擴散隱式模型(DDIMs)(見 [45])、無分類器擴散引導模型(見 [16])以及潛在擴散模型(見 [38])。特別是,無分類器擴散引導模型和潛在擴散模型展示了如何引導反向過程生成來自不同類別的數據以及基于給定文本生成數據。 本文的支持代碼可在 //github.com/deeplearningmethods/diffusion_model 獲得。

2 去噪擴散概率模型(DDPMs)

在本節中,我們將介紹去噪擴散概率模型(DDPMs)的主要思想。具體來說,我們將首先介紹并討論DDPMs的一般數學框架,并在2.1小節中詳細闡述其一些基本性質;接著,我們將在2.2小節中討論DDPMs的訓練目標,分析其如何實現生成建模的目標;最后,在2.3小節中,我們將基于這一訓練目標,提出一種簡化的DDPM方法。

3 帶有高斯噪聲的DDPMs

在本節中,我們考慮在轉移核由高斯分布給出時,帶有馬爾可夫假設的DDPMs。本節中考慮的設置和方法基本上與[15]中提出的相對應。直觀而言,在這個設置中,我們認為正向過程逐漸向訓練樣本添加高斯噪聲,反向過程則旨在逐漸去除噪聲,從而恢復原始的訓練樣本。 我們首先在3.1小節中討論高斯分布的一些基本性質。然后,在3.2小節中,我們介紹并描述一個涉及高斯分布作為轉移核的DDPM框架。接著,在3.3小節中,我們討論這種轉移核選擇對正向過程分布的影響,并在3.4小節中探討此選擇對上述引理2.9中訓練目標的上界的影響。受到前述章節啟發,我們在3.5小節中描述了帶有高斯噪聲的DDPM的訓練和生成方案。最后,在3.6小節中,我們指出了一些可能的人工神經網絡(ANNs)架構選擇,這些架構出現在3.5小節方法描述中。

4 生成模型的評估

在生成建模的背景下,特別是在擴散模型中,評估生成數據的質量和性能是至關重要的。因此,找到穩健的評估指標對于確保模型能夠生成期望的結果至關重要。在本節中,我們考慮了用于這一目的的兩類指標:內容變異指標和內容不變指標。這些指標提供了對模型在不同方面能力的理解。在4.1小節中,我們詳細解釋了兩種內容不變指標:生成模型評估指標(Inception Score,IS)和Fréchet生成模型距離(Fréchet Inception Distance,FID);在4.2小節中,我們概述了最常用的內容不變評估指標。

付費5元查看完整內容

人類通過多種感官,如視覺、嗅覺、聽覺和觸覺來感知世界。同樣,多模態大型語言模型(MLLMs)通過整合和處理包括文本、視覺、音頻、視頻和3D環境在內的多種模態數據,增強了傳統大型語言模型的能力。數據在這些模型的發展和優化中起到了關鍵作用。在這篇綜述中,我們從數據中心視角全面回顧了MLLMs的相關文獻。具體而言,我們探討了在MLLMs預訓練和適應階段準備多模態數據的方法。此外,我們還分析了數據集的評估方法,并回顧了評估MLLMs的基準測試。我們的綜述還概述了未來潛在的研究方向。本研究旨在為研究人員提供關于MLLMs數據驅動方面的詳細理解,促進該領域的進一步探索和創新。

近年來,我們見證了大型語言模型(LLMs)和多模態大型語言模型(MLLMs)的快速發展[280, 324]。諸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等MLLMs整合了多模態信息,展示了令人印象深刻的理解和生成能力。這些模型在傳統的多模態任務中取得了競爭性表現,如視覺識別[320]、視頻理解[258, 289]、語音識別[200]和3D理解[89, 100]。此外,它們卓越的語言理解能力使其在文本豐富的任務中表現出色,如問答[104]、多輪對話和邏輯推理[156, 296]。

大多數現有的MLLMs主要關注修改模型架構以探索多模態信息的使用[121, 178, 246, 286, 287, 304]。盡管模型的有效性至關重要,數據也顯著影響了MLLMs的成功。例如,Hoffmann等人[99]展示了為了擴展模型,有必要增加訓練數據的規模。除了數據數量外,數據質量同樣重要。先前的研究[251]表明,精心策劃的數據集可以使較小的模型達到與較大模型相當的性能。然而,關于MLLMs數據策劃和利用的綜合研究仍然缺乏。因此,本研究旨在從數據中心視角提供對MLLMs的全面理解。

與優先考慮架構增強而依賴固定數據集的模型中心方法相比,數據中心視角強調對數據集的迭代改進以提高性能。在數據中心MLLMs的范圍內,我們關注利用數據模態的異質性、增強數據結構、增加數據數量和提高數據質量以改進MLLMs [316]。我們的討論從不同階段的MLLMs數據中心視角回答了三個關鍵問題:

  • Q1:如何收集、選擇和管理MLLMs的數據?大量的數據需求和多模態數據的異質性在收集、選擇和有效管理模型訓練數據方面帶來了挑戰。MLLMs的不同訓練階段也導致了不同的數據類型需求。

  • Q2:數據如何影響MLLMs的性能?理解數據特性與MLLMs性能之間的關系對于優化數據集和增強模型能力至關重要。

  • Q3:如何評估MLLMs的數據?有必要開發全面的評估基準,以評估MLLMs在各種任務中的性能和魯棒性。 本綜述與現有綜述的區別。在模型中心視角下,已有若干綜述聚焦于LLMs [93, 203, 324]和MLLMs [280, 318],但缺乏對數據中心方面的深入分析。最近,一些綜述開始關注LLMs的數據準備,如數據管理方法[274]、數據選擇方法[5]和LLM數據集的綜合綜述[174]。然而,這些綜述主要集中于僅文本LLMs的數據管理和選擇方法,沒有對MLLMs的數據處理管道進行徹底分析。盡管Zhang等人[318]總結了MLLMs的數據集,但未能提供對這些數據集的全面分析。與我們最相關的工作是數據中心人工智能(DCAI)[109, 111, 220, 279, 316],它也關注AI研究的數據中心視角,但未具體分析LLMs和MLLMs。

隨著MLLMs的快速增長以及數據在這個大型模型時代越來越重要的角色,我們認為提供一個全面的MLLMs數據中心方法綜述是至關重要的。本綜述旨在從數據中心視角全面回顧MLLMs的進展文獻,并討論該領域的開放問題或未來方向。

貢獻。在這篇綜述中,我們從數據中心視角回顧了MLLMs的進展文獻。我們為研究人員和開發者提供了對MLLMs數據方面最新發展的總體和全面的理解。本綜述的主要貢獻總結如下:

  • 新的數據中心視角。我們從數據中心視角提供了對MLLMs的全面綜述,考慮了文本、圖像、視頻和音頻等模態。
  • 數據準備和管理管道。我們總結了在預訓練和適應階段MLLMs的數據準備和管理管道。
  • 數據評估基準。我們概述了常用的從數據中心視角出發的評估基準。
  • 開放問題和未來方向。我們討論了當前數據中心LLMs研究中的開放問題,并提出了若干未來研究方向。

本文的其余部分安排如下:第2節介紹LLMs和MLLMs的預備知識,并討論從數據中心視角分析它們的動機。第3至第5節總結了MLLMs訓練數據的收集、處理和選擇的主要階段。第6節總結了MLLMs的評估方法和現有的評估數據集。第7節討論了開放問題并強調了該領域的若干未來研究方向。最后,我們在第8節對本綜述進行了總結。我們的Github倉庫可以在//github.com/beccabai/Data-centric_multimodal_LLM找到。

付費5元查看完整內容

本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。

影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。

近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。

視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。

此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。

鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。

我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。

A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。

付費5元查看完整內容

這篇系統性文獻綜述全面檢視了大型語言模型(LLMs)在預測和異常檢測中的應用,突出了當前研究的現狀、固有挑戰和未來的潛在方向。LLMs在解析和分析大規模數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,本綜述識別了幾個關鍵挑戰,阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界內的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括推向實時處理、可持續建模實踐的重要性,以及跨學科合作的價值。最后,本綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。

這項系統性文獻綜述全面考察了大型語言模型(LLMs)在預測和異常檢測應用中的使用,強調了研究的當前狀態、固有挑戰和未來的潛在方向。LLMs在解析和分析大量數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,這項綜述識別了幾個關鍵挑戰,這些挑戰阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,例如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括向實時處理的推進、可持續建模實踐的重要性,以及跨學科合作的價值。總之,這項綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。

預測和異常檢測在數據科學領域是至關重要的組成部分,為從網絡安全到金融市場的多個領域提供了基本見解。這些技術在預測即將到來的趨勢和識別偏離規范預期的非典型模式方面起著核心作用,這些能力在廣泛的應用中促進了預防性策略的發展。預測利用歷史數據來對未來事件或趨勢進行知情預測。它涉及對正在分析的情況進行假設選擇,選擇適當的數據集,分析數據,并確定預測。預測是多個行業戰略規劃和決策制定的基石,使組織和政策制定者能夠預測變化,管理風險,并有效分配資源。異常檢測,也稱為離群點檢測,是旨在識別與典型模式或規范顯著偏離的數據點、實體或事件的分析過程。這種方法在自動監控系統中發揮著關鍵作用,特別是在識別潛在有害的離群點,從而保護數據完整性和安全。

預測和異常檢測是分析過程,天生非常適合時間序列或帶時間戳的數據,因為它們尋求理解和利用的信息具有時間性質。時間序列數據是在時間間隔內收集或記錄的數據點序列,通常展示出趨勢、季節性變化和周期性,這是預測技術旨在捕捉并推測到未來的特征。帶時間戳的數據特別有助于異常檢測,因為它允許識別與建立的時間模式的偏差。例如,在網絡安全中,異常檢測系統可以識別可能表明安全漏洞的不尋常訪問模式。在工業環境中,它可能會標記傳感器讀數的意外下降或飆升,從而可能防止設備故障。

本研究著手全面探索LLMs在預測和異常檢測領域的整合和潛力,這些領域傳統上由定量數據分析主導。LLMs在自然語言處理(NLP)中的迅速發展提供了一個前所未有的機會來增強甚至可能革新這些領域。本文旨在彌合LLMs先進的語言處理能力與預測分析和檢測離群點中涉及的預測分析之間的差距。我們深入探討了從LLMs中獲得的定性見解如何補充傳統的定量方法,從而豐富了在包括金融、網絡安全和醫療保健在內的各個領域的分析深度和準確性。此外,這項調查還討論了在LLMs與這些關鍵數據科學應用交叉點的挑戰、倫理考慮和未來研究方向。我們的目標是提供一個全面的視角,不僅闡明了LLMs在這些領域的應用現狀,還激發了跨學科的對話和研究,導航現代數據環境的復雜性,并為預測分析鋪平了創新解決方案的道路。

貢獻概述如下

這是第一篇全面的系統性文獻綜述(SLR),專門研究LLMs在預測和異常檢測領域的應用。通過這項綜述,我們闡明了LLMs對這些特定任務中的數值和文本數據的獨特影響。

本研究編制了一套指導方針,概述了LLMs在各種任務中的最佳利用方式,為該領域提供了一種結構化的方法來在實際場景中使用這些先進模型。

這項文獻綜述提供了盡可能深入的理論洞察,特別是LLMs處理復雜模式和傳統模型可能忽略的數據細微差別的能力。

本工作為未來圍繞預測和異常檢測建模的研究開辟了新的路徑。

論文接下來的結構安排如下:第2節概述了進行系統性文獻綜述的方法論。第3節提供了LLMs在預測和異常檢測研究當前狀態的概覽。第4節討論了將LLMs應用于這些領域的挑戰和限制。第5節探討了在基于LLM的預測和異常檢測中使用的數據集和數據預處理技術。第6節介紹了評估LLMs在這些任務中表現的評估指標和方法。第7節深入探討了LLMs在預測中的應用,而第8節專注于它們在異常檢測中的應用。第9節討論了使用LLMs在這些領域中可能面臨的潛在威脅和風險。第10節概述了LLMs在預測和異常檢測應用中的未來方向和潛在研究途徑。第11節提供了相關工作的概覽,第12節總結了本文。

大型語言模型(LLMs)的廣闊領域帶來了前所未有的自然語言處理進步,顯著影響了包括預測和異常檢測在內的各種任務。本節提供了LLMs當前狀態和演化的全面概覽,概述了它們的基礎結構、發展軌跡,以及它們在轉換數據分析和預測建模中所扮演的關鍵角色。從LLMs的背景開始,我們追溯了從初期階段到作為當代應用支柱的復雜預訓練基礎模型的語言模型的演化過程。然后,我們分類了LLMs顯示出顯著效果的任務,特別關注預測和異常檢測,以說明它們適用性的廣度。進一步的探索致力于利用LLMs的力量所采用的多樣化方法,包括基于提示的技術、微調機制、零樣本、少樣本學習的利用、重編程策略,以及結合多種方法以提高性能的混合方法。本節旨在讓讀者全面了解LLMs的復雜景觀,為后續部分更深入探索它們的能力和應用奠定基礎。

大型語言模型(LLMs)的出現顯著擴展了異常檢測的視野,為識別多樣化數據集和領域中的不規則性提供了復雜的解決方案。本節全面檢查了LLMs如何被利用來精確指出可能表明錯誤、欺詐、系統故障或網絡威脅的偏離。這一探索從時間序列異常檢測開始,其中LLMs分析順序數據以偵測不尋常模式,造福于依賴持續監控的行業,如金融、制造和能源。接下來,討論轉向異常日志分析,突出LLMs篩查大量日志數據以識別和分類異常的能力,從而提高IT安全和運營效率。關于微服務異常檢測的部分展示了LLMs在云計算和分布式系統這一日益復雜的領域中的應用,它們通過在微服務級別檢測異常,在維護系統健康和安全方面發揮著關鍵作用。這一詳盡的探索旨在闡明LLMs在異常檢測中的前沿方法論和有影響的應用,強調它們在保護和優化現代數字基礎設施中的關鍵作用。

這篇系統性文獻綜述探索了在預測和異常檢測背景下迅速發展的大型語言模型(LLMs)領域,提供了當前方法論、挑戰和未來方向的全面概覽。正如我們所見,LLMs擁有巨大的潛力來轉變這些領域,提供了能夠解析龐大數據集以預測未來事件和以顯著準確性識別偏離常規的復雜工具。然而,這一旅程充滿挑戰,包括依賴廣泛的歷史數據集、泛化問題、幻覺現象、知識邊界,以及對計算效率的需求。

盡管存在這些障礙,前進的道路被有希望的解決方案和創新所照亮。多模態數據源的整合、轉移和元學習的進步、對可解釋性和可信度的關注、推向實時處理和邊緣計算的推動、跨學科合作,以及對可持續建模實踐的承諾,都代表了將塑造LLMs在預測和異常檢測未來的關鍵趨勢。

本綜述強調了在這一領域繼續研究和發展的重要性,突出了對不僅強大和準確,而且透明、適應性強和易于獲取的模型的需求。隨著技術的進步,我們對倫理考慮的方法也必須進步,確保LLMs的部署對社會產生積極貢獻,并且不會加劇現有的不平等或環境問題。

總之,LLMs革新預測和異常檢測的潛力是明確的,但實現這一潛力需要科學界、行業利益相關者和政策制定者的共同努力。通過解決本綜述中概述的挑戰并利用新興趨勢所提供的機會,我們可以期待一個LLMs在引導我們理解現代世界的復雜性、推動對全社會有益的見解和創新中發揮關鍵作用的未來。

付費5元查看完整內容
北京阿比特科技有限公司