亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——智能體時代已然來臨,而這一變革的驅動力正是大語言模型的突破性進展。大語言模型(LLM)智能體憑借其目標驅動行為與動態適應能力,很可能成為通往通用人工智能的關鍵路徑。本文通過方法論導向的體系化分類,系統解構LLM智能體系統,揭示其架構基礎、協作機制與進化路徑之間的深層關聯。我們整合了當前零散的研究脈絡,闡明智能體設計原則與其在復雜環境中涌現行為之間的本質聯系。本研究提供了一種統一的架構視角,涵蓋智能體的構建方式、協作機制與演化過程,同時探討了評估方法、工具應用、現實挑戰及多樣化應用場景。通過梳理這一快速發展領域的最新進展,我們為研究者提供了理解LLM智能體的結構化分類體系,并指明了未來研究的潛在方向。本文集可通過

//github.com/luo-junyu/Awesome-Agent-Papers獲取。 **

**關鍵詞——大語言模型,LLM智能體,AI智能體,智能代理,多智能體系統,LLM,文獻綜述 1 引言人工智能正邁入一個關鍵時代,其標志是**大語言模型智能體(LLM Agent)**的崛起——這些由大語言模型(LLMs)驅動的智能實體能夠感知環境、推理目標并執行行動[1]。與傳統AI系統僅被動響應用戶輸入不同,現代LLM智能體通過持續學習、推理和適應,主動與環境交互。這一轉變不僅是技術升級,更是對人機關系的根本性重構。商用LLM智能體系統(如DeepResearch、DeepSearch和Manus)印證了此范式變革:它們能自主完成從深度研究到計算機操作等曾需人類專業知識的復雜任務,同時適配用戶個性化需求。相較于傳統智能體系統[2],基于LLM的智能體在知識來源[3]、泛化能力[4]和交互模式[5]等維度實現了代際跨越。當今智能體的質變源于三大關鍵進展的融合:? LLMs前所未有的推理能力[6],? 工具操控與環境交互技術的進步[7],以及? 支持長期經驗積累的精密記憶架構[8][9]。這種融合將理論構想轉化為實用系統,日益模糊"助手"與"協作者"的界限。其本質在于LLMs作為通用任務處理器,通過生成式架構在語義空間內統一感知、決策與行動,從而形成類人認知閉環[10]。本研究通過構建-協作-演化的統一分類框架,首次系統解構智能體系統。我們提供全景視角,追溯智能體的定義方式、獨立/協同運作機制及長期進化路徑。除厘清現狀外,更揭示了預示未來發展的新興范式。智能體技術的快速演進亟需及時綜述,為研究者提供理解這一動態領域的最新分類體系。圖1展示了我們設計的LLM智能體生態框架:以方法論為核心,我們從三個互相關聯的維度分析智能體技術基礎:構建(定義與實現方式)協作(交互與協同機制)演化(學習與優化路徑)此三維基礎輔以實踐考量,包括評估方法、開發工具、安全與倫理等現實挑戰,以及多樣化應用場景。該框架貫穿全文,實現對每個維度的系統性探索及其關聯性的強調。與既有綜述的差異盡管近年有多篇AI智能體綜述,本研究通過方法論聚焦與LLM智能體架構的全面分析做出獨特貢獻。既往研究或局限于特定應用(如游戲[11][12])、部署環境[13][14]、多模態[15]或安全[16],或僅提供寬泛概述而缺乏方法論分類[1][17]。近期工作雖對比了LLM與傳統AI智能體[9]、多智能體交互[18]、工作流[19]及協作決策機制[20],但本研究的特色在于:方法論導向的分類體系:提出系統化分類法,從角色定義、記憶機制、規劃能力到行動執行[21]解構LLM智能體核心組件。構建-協作-演化框架:通過三維度聯動分析(構建/協作/演化),提供比既往研究[22][23]更整體的認知,凸顯個體設計與協作系統的連續性——而前人常割裂討論這些方面[22][24]。前沿應用與現實聚焦:除理論探討外,深入剖析LLM智能體的尖端工具、通信協議及跨領域應用,并對安全、隱私與倫理等現實挑戰進行全面分析。在智能體技術從研究邁向大規模落地的關鍵階段,這一前瞻視角尤為重要。本綜述為研究者和從業者提供結構化分類體系,助力從多視角理解、比較和推進LLM智能體研究。隨著LLM智能體日益深入各關鍵領域,理解其架構基礎不僅對學術界,對政策制定者、產業界乃至全社會都至關重要。本文旨在奠定這一基礎,同時為這一快速演進領域指明發展方向。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

當前假新聞已成為全球性嚴峻挑戰,社交媒體快速傳播錯誤信息的能力加劇了這一問題。本文提出基于大語言模型(LLM)能力的新型特征計算流程構建方法,應對假新聞檢測的緊迫挑戰。核心目標在于優化可疑文本屬性轉化為分類適用數值向量的過程,從而填補系統整合語言線索與深度上下文嵌入的研究空白。在英語(FakeNewsNet)和烏克蘭語(真假新聞)數據集上的實驗表明:該方法以88.5%(英語)和86.7%(烏克蘭語)準確率超越四個基線模型。關鍵發現顯示:將復述比率、情感比率等數值指標與LLM嵌入結合,可提升欺詐文章檢測召回率,較標準技術平均提高2-3個百分點。這些結果表明所提特征計算流程在保持模型決策透明度的同時顯著提升檢測精度。研究最終強調:系統化設計的數值特征對LLM嵌入的補充至關重要,為構建更可靠、適應性強且可解釋的假新聞檢測系統指明路徑。

假新聞——偽裝成可信新聞的虛假或誤導性內容——在數字時代已發展為全球性重大威脅[1,2]。超過36億社交媒體用戶使未經核實信息突破傳統編輯監管快速傳播,加速虛假敘事擴散[2]。2016年美國總統大選[3]與2019年印度大選[4]等事件印證了錯誤信息影響輿論的速度。例如新冠疫情期間,關于病毒及疫苗的有害謠言在網絡蔓延,削弱公共衛生信息公信力。研究表明假新聞比真實新聞傳播更快更廣[5],可能加劇社會極化、侵蝕主流媒體信任[6]甚至煽動暴力[7,8]。過去十年研究者聚焦機器學習(ML)與自然語言處理(NLP)方法實現大規模虛假信息識別[9]。早期嘗試將假新聞檢測形式化為二分類問題——僅通過文本分析區分真假新聞[2]。傳統方法采用樸素貝葉斯、支持向量機(SVM)或隨機森林等算法,結合n元語法或專業詞典等特征工程,有時取得較好效果[10]。然而假新聞制造者適應偽裝能力意味著捕捉深層語義線索仍是開放挑戰[7,11,12]。

深度神經網絡(特別是卷積神經網絡CNN與長短期記憶網絡LSTM)被提出用于自動學習潛在文本表征。盡管LSTM在某些基準任務中準確率超99%[10],但綜合實驗證實:除非融入更豐富上下文理解,高度復雜或領域特定的假新聞仍能規避這些模型[7,8]。同時詞嵌入技術(如TF-IDF、Word2Vec和FastText)通過將單詞映射為稠密向量改進了詞袋模型[13]。盡管能捕獲語義關系,這些靜態嵌入仍難以應對多義詞與語境變化[1]。基于Transformer的模型開創了上下文嵌入新范式:雙向Transformer編碼器(BERT)[14]可捕捉微妙語言線索,尤其在領域特定任務微調后。研究證實BERT在包括虛假信息檢測的多個NLP任務中顯著超越傳統基線[15]。但在實際假新聞場景(尤其多語言環境)部署BERT仍受限于領域數據匱乏與資源開銷[16]。

大語言模型(LLM)如OpenAI的GPT-4[17]與Meta的LLaMA[18]的興起,為利用海量預訓練語料獲取高級文本表征提供機遇。初步研究表明LLM嵌入能識別小模型無法察覺的微妙虛假信息線索[19]。然而高計算需求與LLM決策解釋難題仍未解決[20,21]。對此可解釋人工智能(XAI)領域研究提出將深度學習預測能力與可解釋機制結合以闡明分類結果[22]。但多數文本分類XAI方法仍難將內在特征映射為終端用戶可理解的文本線索。基于這些挑戰,本研究引入新型特征計算流程構建方法,借鑒可解釋LLM流程的洞見:將檢測分解為合成可疑特征→數值化計算特征→構建魯棒模型→生成透明結論的鏈式任務。

本研究目標是通過整合LLM驅動的特征提取選擇框架與闡明特征重要性的可解釋策略,增強假新聞檢測能力。旨在證明該流程能提升多語言文本數據的準確性與可解釋性。主要貢獻如下:
? 受可解釋AI研究啟發,提出假新聞檢測特征計算流程構建方法
? 在傳統LLM對比(TF-IDF/Word2Vec/BERT)基礎上,新增使用大語言模型計算解釋特征的顯式步驟,彌合原始嵌入與透明決策的鴻溝
 ? 在雙數據集驗證LLM驅動特征實現最高精度(英語88.5%/烏克蘭語86.7%),并闡釋框架如何揭示文本被判定虛假的原因

本文結構如下:第2章精煉相關工作,闡明方法如何融合現有特征提取技術與可解釋性;第3章詳述新提出的任務分解架構、數據流及特征計算優化機制;第4章報告實驗結果(含現有方法定量對比);第5章探討優勢缺陷與開放性問題;第6章展望未來(聚焦數值結果、現存挑戰及研究方向)。

圖1:本方案整體工作流程
融合基于LLM的嵌入表示、數值化特征計算及最終專家結論模板。圖示闡明本方法的四大核心任務:
(i) 特征合成 → (ii) 特征計算流程構建 → (iii) 機器學習模型建立 → (iv) 專家結論模板生成
展示原始文本與衍生特征在各階段的流向。

付費5元查看完整內容

摘要:

本綜述研究了經典軟件設計模式如何提升大型語言模型(LLM)驅動的代理型人工智能系統中通信的可靠性與可擴展性,重點聚焦于模型上下文協議(Model Context Protocol,簡稱 MCP)。文章考察了基于 LLM 的代理的基礎架構及其從孤立運行向復雜多代理協作演進的過程,分析了在這一轉變中出現的關鍵通信難題。 本研究重新審視了多個成熟的軟件設計模式,包括中介者(Mediator)、觀察者(Observer)、發布-訂閱(Publish-Subscribe)和代理(Broker)模式,并分析了它們在構建符合 MCP 框架的代理交互結構中的適用性。為闡明這些交互機制,文中提供了概念圖示與形式模型,以描繪通信路徑并優化數據流動。 此外,文章還探討了適應不同代理自主性與系統復雜度的架構變體,并通過實時金融處理與投資銀行等領域的實際應用,展示了這些設計模式與 MCP 如何滿足特定的運行需求。最后,文章總結了當前尚待解決的挑戰、潛在的安全風險,以及推動強健、可互操作且具備可擴展性的大型語言模型多代理生態系統發展的未來方向。

1. 引言

**1.1 基于 LLM 的智能體式 AI 與多智能體系統的興起

大型語言模型(Large Language Models,LLMs)正經歷一次范式轉變——從作為靜態的信息提供者(通常嵌入于對話型智能體中)演化為具備自主決策與任務執行能力的計算型智能體,即所謂的智能體式人工智能(agentic AI)[1]。這一轉變標志著智能體式 AI 的興起,LLM 被賦予了與外部系統交互、隨時間存儲與提取信息,以及執行可操作行為的能力[2]。

這些增強后的智能體專為完成那些需要迭代推理、規劃、記憶與工具使用的任務而設計——這些能力是傳統 LLM 因上下文窗口受限、易產生幻覺以及難以處理復雜行為序列等限制所無法勝任的[3]。 隨著任務需求超出單一智能體的能力范圍,**由多個 LLM 智能體組成的多智能體系統(LLM-MAS)**應運而生。這類系統通過在多個智能體之間分配認知任務,實現協作式問題求解與專業化分工[4]。這一演進趨勢背后的動因在于:許多現實世界任務過于復雜,單一智能體難以勝任,需要通過有組織的交互實現智能的擴展[5]。關鍵在于,LLM-MAS 的整體表現不僅取決于個體模型的性能,而更取決于這些智能體在架構上如何實現通信、協調與知識共享[6]。

盡管早期的 LLM 在單智能體場景中表現強勁,但在涉及長期依賴、上下文連續性和工具使用策略的任務中卻表現不足。智能體式 AI 通過將 LLM 嵌入具備規劃、記憶和模塊化推理功能的框架中來填補這些能力空缺[4]。然而,即便具備這些增強功能,孤立運行的智能體仍然存在局限。向多智能體協作的轉變,反映出人們認識到:結構化的智能體間通信所產生的分布式智能[7],是應對高復雜度場景的關鍵。最終,LLM-MAS 所展現的智能,更源自系統層級的整體設計,而非任何單一智能體[8]。


**1.2 智能體間通信在復雜 AI 工作流中的關鍵作用

在多智能體系統中,尤其是由大型語言模型(LLM)驅動的系統中,智能體之間的通信是協調與共享目標的基石。正是通過通信,智能體才能對齊任務目標、共享上下文理解,并協同規劃行動[5]。 然而,這種依賴通信的方式本身也帶來了巨大的挑戰。在多智能體系統中,相比于單個智能體自身的能力局限,智能體之間交互的復雜性更容易成為導致系統性失敗的根源。常見的問題包括目標不一致、任務驗證機制薄弱、系統擴展性受限、面臨安全攻擊威脅,以及缺乏被廣泛接受的健壯通信協議架構標準。 在基于 LLM 的多智能體系統中,通信不僅僅是信息的傳遞媒介,它更是群體推理的基礎機制。然而,正是這種優勢也成為潛在的弱點:支持智能體協同工作的通信通道,同樣也可能傳播錯誤、放大設計缺陷,甚至暴露系統于諸如“中間人智能體攻擊”(Agent-in-the-Middle, AiTM)等對抗性攻擊之下。因此,LLM-MAS 中的通信存在一個核心張力:它既是智能涌現的關鍵媒介,又是潛在的系統脆弱點——如果設計不當,可能削弱整個系統的安全性與可靠性。 因此,構建具有韌性、語義一致性和結構良好的通信架構不是可選項,而是打造可信、穩健且可持續發展的下一代智能體式 AI 系統的核心前提[11]。


**1.3 模型上下文協議(MCP):一種通用互操作性標準

模型上下文協議(Model Context Protocol,MCP)由 Anthropic 于 2024 年底提出,是一種開放的互操作性標準,旨在簡化并統一 AI 模型與外部工具、系統及結構化數據之間的連接方式。MCP 常被稱為“AI 應用領域的 USB-C”,目標是成為通用的接口層,大幅降低在多平臺間集成的復雜性。 MCP 的核心目標是解決長期存在的“N × M”集成瓶頸問題:即每一個 LLM 都需為每種數據源或工具單獨編寫對接代碼,造成工程重復、系統脆弱且維護困難。MCP 提供了一種統一協議,使任意 AI 助手都可以與任何兼容的服務、工具或數據集交互,從而極大簡化集成流程[14]。 MCP 采用客戶端–主機–服務器的架構模式,使用 JSON-RPC 實現通信,支持持久化、具備狀態感知的通信會話。它還定義了嚴格的數據攝取格式、元數據注釋規則、平臺無關的模型協調方式,以及安全的雙向連接機制。這種結構化方法不僅提升了互操作性,也增強了系統的可追蹤性與可管理性。 MCP 更深遠的影響在于推動 AI 基礎設施朝著模塊化、可組合的方向演進。與其構建大量定制化連接導致系統混亂,不如通過 MCP 實現組件之間的清晰解耦,使工具、模型與數據層能夠獨立替換與升級。這種模塊化架構大幅減少工程負擔、加快創新速度,同時為可擴展、可審計且面向未來的 AI 部署奠定基礎。 此外,MCP 還提供了明確的消息結構與通信生命周期定義,支持關鍵的合規性與監控功能——這是在企業級與監管密集型場景中不可或缺的能力。


**1.4 綜述范圍與貢獻:連接設計模式、LLM 智能體與 MCP

本綜述融合了大型語言模型(LLM)驅動的智能體式 AI、經典軟件設計方法論,以及新興的模型上下文協議(MCP)三方面的研究進展,目標是為構建魯棒、可擴展的智能體間通信框架提供系統性指導。 本文探討了如何將久經驗證的軟件架構設計模式,適配到以 LLM 為基礎的現代多智能體系統中,并將 MCP 定位為推動互操作性與結構化協作的核心支柱。 通過理論模型與概念圖示,本文分析了通信動態、系統復雜度與數據交換效率。同時,本文還評估了這些設計策略如何在面對智能體自主性提升與系統復雜化時保持可擴展性。 文章還結合實時金融系統與投資平臺等現實應用場景,展示在這些關鍵領域中,強健的智能體協同架構如何滿足運行需求。最終,本文旨在為開發者與系統架構師提供一個切實可行的框架,用于構建安全、高效、可維護的基于 LLM 的多智能體生態系統。

付費5元查看完整內容

將智能體人工智能(Agentic AI)融入科學發現標志著研究自動化的新前沿。這些具備推理、規劃和自主決策能力的AI系統正在改變科學家進行文獻綜述、提出假設、開展實驗和分析結果的方式。本文全面綜述了智能體人工智能在科學發現中的應用,對現有系統和工具進行了分類,并重點介紹了在化學、生物學和材料科學等領域的最新進展。我們討論了關鍵評估指標、實施框架和常用數據集,以提供對該領域現狀的詳細理解。最后,我們探討了文獻綜述自動化、系統可靠性和倫理問題等關鍵挑戰,同時展望了未來研究方向,強調人機協作和系統校準的增強。

付費5元查看完整內容

摘要—近年來,生成模型在生成任務中的卓越表現激發了人們對其在決策過程中應用的濃厚興趣。由于其處理復雜數據分布的能力和強大的模型能力,生成模型可以通過生成軌跡,有效地融入決策系統,引導智能體朝向高回報的狀態-動作區域或中間子目標。本文全面回顧了生成模型在決策任務中的應用。我們對七種基礎生成模型進行了分類:能量模型、生成對抗網絡、變分自編碼器、標準化流、擴散模型、生成流網絡和自回歸模型。關于它們的應用,我們將其功能分為三個主要角色:控制器、建模器和優化器,并討論每個角色如何為決策提供貢獻。此外,我們還探討了這些模型在五個關鍵實際決策場景中的部署情況。最后,我們總結了當前方法的優缺點,并提出了三條推進下一代生成決策模型的關鍵方向:高性能算法、大規模通用決策模型以及自我進化與自適應模型。 關鍵詞—生成模型、決策制定、生成決策制定

1 引言

生成模型已成為學術界和工業界的熱門話題,主要由于它們能夠生成大量高質量和多樣性的合成數據。從早期的系統如 DALL-E [1](用于圖像生成)和 GPT-3 [2](用于文本生成)到最近的進展,如 DALL-E3 [3]、ChatGPT 和 GPT-4 [4],生成模型在其輸出的質量和規模上迅速發展。 內容生成旨在創造與訓練樣本相似的連貫材料,而決策制定則專注于生成能夠實現最佳結果的行動序列。與內容生成不同,決策制定涉及復雜、動態的環境和長期的決策。因此,盡管生成模型在內容生成方面取得了成功,將它們應用于決策制定仍面臨諸多挑戰。這些挑戰包括:1)如何通過與環境的交互來學習策略,而不僅僅是模仿專家行為;2)如何基于學習到的行為生成新策略,從策略學習過渡到策略生成;3)如何建立一個能夠在各種環境中適應的穩健基礎決策生成模型,且只需最少的調優工作;4)如何構建策略的多步推理和長期演化能力。這些挑戰強調了生成模型不僅僅是生成數據的需要。

在實際應用中,決策制定通常被稱為序列決策制定,其中決策者隨著時間推移做出一系列觀察,每個決策都會影響隨后的選擇。目標是識別一個策略,以優化期望的回報或最小化跨越序列行動的成本。經典算法,如動態規劃(DP)和強化學習(RL),廣泛應用于解決建模為馬爾可夫決策過程(MDPs)的問題。這些方法通過基于觀察到的回報和狀態轉移來更新策略,而不是生成新策略,來優化決策制定。盡管這些傳統方法在許多應用中取得了成功,但它們通常依賴于試錯或預定義的狀態和轉移,這限制了探索,并可能錯過更好的解決方案。此外,它們需要大量的計算和優化,這在高維或大規模問題中可能不切實際。傳統方法還需要在面對新環境時進行大規模的重新配置或再訓練,從而降低了靈活性。

另一方面,生成模型被設計為對數據分布進行建模,而不僅僅是擬合標簽。一旦訓練完成,它們可以生成與原始數據相似的新樣本,從而能夠探索不同的場景和結果。這一能力使得在傳統方法可能難以立即顯現的情況下,發現新的策略成為可能。在復雜或標簽不明確的數據場景中,生成模型提供了對可能決策路徑的更深入理解,有時能引導出更符合高回報或期望目標的策略。然而,傳統方法如優化或強化學習在決策空間較清晰、目標更直接的簡單環境中仍然有效。選擇這些方法之間的差異,取決于任務的復雜性和環境的特點。 認識到這些優勢,近年來,開發新的生成模型并將其應用于決策制定的研究工作大幅增加。圖 1 展示了生成模型及其在決策制定中的應用的研究趨勢,進一步強調了這些方法在解決此類挑戰中的重要性。然而,目前缺乏全面的綜述,能夠總結過去的工作并為新的研究方向鋪平道路。這個空白促使我們撰寫本文綜述。該綜述的三大貢獻包括:1)提出了一個全面的分類法,用于分類當前的生成決策制定方法。我們識別了七種用于決策制定的生成模型,并將其功能分類為三個關鍵角色:控制器、建模器和優化器;2)我們回顧了生成模型在決策制定中的多樣化實際應用,重點討論了機器人控制、結構生成、游戲、自動駕駛和優化任務;3)最后,我們總結了現有工作的優缺點,并討論了未來在決策制定任務中開發高性能生成模型的前景。 本文其余部分的組織結構如下(參見圖 2 了解總體大綱):第二部分作為引言,介紹了序列決策制定的基本公式,并提供了所有研究方法的基礎知識。具體而言,我們詳細介紹了七種生成模型,并將它們與傳統方法進行對比。第三部分提出了用于分類生成決策制定方法的分類法。第四部分根據介紹的分類法回顧并分析現有文獻。第五部分展示了生成模型在決策制定中的實際應用。最后,第六部分討論了生成模型在決策制定中的未來發展方向,第七部分總結了本文的整體內容。

付費5元查看完整內容

摘要

全球醫療系統面臨效率、可及性和個性化方面的持續挑戰。現代人工智能(AI)在通過精確的預測建模解決這些問題方面展現了潛力,但其影響仍受到臨床工作流集成有限的制約。得益于現代AI技術,如多模態大語言模型和世界模型,具身人工智能(EmAI)代表了一種變革性的前沿,提供了增強的自主性和與物理世界互動的能力,以應對這些挑戰。作為一個跨學科且快速發展的研究領域,“醫療領域中的具身人工智能”涵蓋了算法、機器人技術和生物醫學等多個領域。這一復雜性凸顯了及時綜述和分析的重要性,幫助追蹤進展、解決挑戰并促進跨學科合作。 本文提供了關于醫療領域中具身人工智能“核心”的全面概述,其中我們介紹了感知、執行、規劃和記憶等基礎AI算法,并重點介紹了涵蓋臨床干預、日常護理與陪伴、基礎設施支持以及生物醫學研究等方面的醫療應用。這些重要進展有望推動個性化護理、提高診斷準確性并優化治療效果。盡管具身人工智能在醫療領域展現了巨大的潛力,但其發展仍面臨諸如安全性問題、仿真平臺與實際應用之間的差距、缺乏標準化基準以及跨學科領域進展不均等關鍵挑戰。我們討論了技術障礙并探索了倫理考慮,提供了對未來醫療領域中具身人工智能的前瞻性視角。本文還提出了一個用于具身人工智能系統的智能層次框架,以指導進一步發展。通過提供系統化的見解,本研究旨在激發創新和實際應用,為智能化、以患者為中心的醫療新時代鋪平道路。

關鍵詞 — 具身人工智能;多模態;醫療保健;大語言模型;世界模型

I. 引言

醫療服務在促進人類福祉方面發揮著基礎性作用,但仍面臨著持續的挑戰,包括獲取不平等 [1]、護理交付的低效率 [2],以及日益增長的個性化解決方案需求以應對復雜的醫療問題 [3], [4]。這些問題主要源于醫療資源的有限性和不均衡分布 [5],以及治療方法的不夠先進 [6],常常導致治療延誤、治療不充分,或甚至過度治療,從而加劇患者的病情 [7]。在當前的臨床工作流中——主要依賴有限的臨床基礎設施、醫護人員和護理人員——這些挑戰仍然難以徹底克服。為了解決這些問題,已經實施了多種舉措,例如遠程醫療服務 [8], [9]、自動分診系統 [10], [11]、AI輔助的健康監測 [12]、以及醫學影像分析 [13], [14],這些舉措提高了醫療獲取的精確性和效率,同時推動了醫療領域的持續變革。然而,它們仍未能在現有的臨床工作流中提供直接支持。 人工智能(AI)技術,特別是深度學習方法,正在為醫療實踐引入新的“勞動力”,推動著醫療領域的持續變革 [15]–[21]。這些方法從多個中心、設備、場景、患者和時間點收集的廣泛醫療數據中學習醫學和診斷知識,利用電子健康記錄(EHRs)、基因組序列、健康監測信號和醫學影像等數據執行高級臨床預測建模 [22], [23]。這使得早期診斷成為可能 [24],促進個性化治療建議的形成 [25],發現人類難以察覺的細微病癥 [26],并推動生物醫學研究的進展 [27],共同提高了醫療服務的效率和質量。 然而,現代AI技術向實際臨床利益的轉化仍面臨至少四個根本性挑戰:(I)多模態處理不足。當前的AI系統主要依賴于視覺、語言和音頻等常見模態,但通常缺乏處理觸覺感知和嗅覺信號的能力,這兩者在醫療中既復雜又至關重要。缺乏對這些較少探索模態的整合,限制了AI在應對臨床任務和患者護理多方面問題中的有效性。(II)開發與部署的分離。當前的深度學習框架通常在開發和推理階段之間有明顯的分離,這阻礙了它們在實際臨床環境中的持續演變。這種僵化的分離延遲了適應動態臨床需求和不斷變化環境的進程,最終限制了系統的持續自我改進能力。(III)人機交互功能不足。與患者和醫護人員的有效互動對于提升患者體驗甚至改善治療結果至關重要。雖然先進的對話AI系統,如ChatGPT和GPT-4,展示了出色的互動能力,但它們通常未能與治療目標對接,也沒有擴展到行為互動層面。此類互動需要高級推理、強大的記憶保持能力和基于經驗的適應能力。盡管近期研究已強調語言在治療中的變革潛力 [28],但AI系統的語言和互動行為如何在臨床結果上產生積極影響——特別是在心理健康治療領域——仍未得到充分探索 [29], [30]。(IV)從決策到行動執行的路徑缺失。沒有具身于機器人或輔助設備中的AI系統,無法直接減輕醫護人員和護理人員的工作負擔。雖然當前的深度學習模型能夠提供準確的診斷和決策支持,但很少將這些洞察轉化為可執行的診斷或治療干預措施。此外,在執行這些干預時確保安全,并保持與既定臨床工作流的無縫整合,依然是需要緊急解決的關鍵挑戰。 具身人工智能(EmAI)作為一種應對這些醫療挑戰的有前景的方法正在嶄露頭角 [31]–[36]。通過將AI算法,尤其是多模態大語言模型(MLLMs)和世界模型,與機器人技術、機電一體化、人機交互和傳感技術的創新結合,EmAI為AI算法提供了一個物理“身體”或有形介質,使其能夠與世界直接互動 [37]。AI算法負責執行感知、行動控制、決策制定和記憶處理,確保EmAI系統的無縫運行。近年來,AI算法的若干突破顯著推動了EmAI的發展。例如,無監督學習使得AI能夠從海量數據中提取基礎知識,而無需人工監督 [38]–[42];互動感知學習 [43] 使得EmAI系統能夠理解物體的因果關系,并評估與不同物體互動的可能性和可行性 [44];跨模態融合技術已經廣泛發展,能夠整合并利用來自不同源的信息 [45], [46];深度強化學習使得AI系統能夠通過環境反饋學習最優行為 [47]–[52];大語言模型(LLMs) [53]–[57]、多模態大語言模型(MLLMs) [58]–[63]、視覺-語言-行動(VLA)模型 [64]–[67],甚至世界模型 [68]–[70] 的進展,使得AI系統在溝通能力、推理能力和行動規劃能力上得到了顯著提升,尤其是在導航和操控等任務中 [71], [72]。得益于這些成就,“EmAI大腦”的發展和可用性得到了顯著提升,使得在動態醫療環境中發揮作用的EmAI系統變得更加復雜、適應性強和具備上下文感知能力。 EmAI的進展正在推動各個領域的變革性應用,其中醫療保健作為領先領域,占據了該領域約35%的研究工作量 [27], [74],如圖1(a)所示。顯著的例子包括外科機器人 [75] 和陪伴機器人 [76],這些技術正在變得越來越普及。圖1(b)展示了EmAI在醫療關鍵領域的顯著增長,包括生物醫學研究、基礎設施支持、日常護理與陪伴以及臨床干預。值得注意的是,2024年的總發表數量是2019年的近七倍,臨床干預研究在這些領域中顯示出了最快的增長,同時保持了較大的份額。這些成就得益于來自多個學科的知識融合。如圖1(c)所示,關鍵詞共現網絡展示了各領域之間密集的相互聯系,強調了跨學科合作在革命化醫療保健中的關鍵作用。來自基礎模型、大語言模型、計算機視覺、認知科學、社會學和機器人技術的突破性貢獻共同塑造了EmAI在醫療領域應用的未來。基于這些研究成果,EmAI正在通過提升患者護理和操作效率,深刻地改變醫療保健。它使得機器人診斷 [77]、精確外科干預 [78] 和個性化康復治療 [79] 成為可能,不僅簡化了醫療工作流程,還提高了健康結果和減少了恢復時間 [80]。除了臨床應用,EmAI還為脆弱群體如兒童、老年人以及慢性病患者提供了有意義的陪伴 [81] 和情感支持 [82],從而減輕了醫療提供者的負擔。此外,EmAI通過自動化實驗過程和分析大規模數據集,重新定義了生物醫學研究,使研究人員能夠以前所未有的速度生成洞察和進行實驗。這些進展加速了醫學機制 [83]–[85]、治療靶點 [86], [87] 和疾病預防策略 [88], [89] 的發現,推動了生物醫學領域的創新。 盡管EmAI在醫療領域取得了顯著進展 [35], [90]–[96],但其發展仍處于初期階段,并面臨多個挑戰。目前的研究通常集中在EmAI的孤立組件上 [80], [97], [98],如開發先進的算法 [99], [100]、改進工作流程 [101], [102] 或整理數據集 [103], [104],卻未能將其整合為完整的系統。要實現EmAI的全部潛力,跨學科的合作至關重要,能夠彌合這些碎片化的貢獻,構建起一個完整的端到端解決方案。此外,研究大多集中在外科機器人等高調應用上 [77], [78], [105]–[110],而其他有前景的領域,如心理健康干預 [91], [92],仍然未得到充分探索。這種關注的不平衡限制了EmAI在滿足不同醫療需求方面的廣泛影響。此外,盡管陪伴機器人顯示出潛力,但大多數仍為反應型而非主動型 [81],限制了它們自主預測并滿足患者需求的能力 [111], [112]。同樣,生物醫學研究機器人在保持精度和可靠性方面面臨困難,特別是在醫學研究的復雜動態環境中。 此外,EmAI在醫療領域的開發仍面臨顯著的技術挑戰。首先,EmAI的開發通常在仿真平臺上進行,但這些平臺往往未能準確復制現實世界的環境。這一差異使得彌合仿真與現實應用之間的差距成為重大挑戰。此外,由于EmAI系統可能直接與現實世界互動,確保安全變得尤為重要,尤其是在醫療任務中 [113]–[115]。其次,盡管EmAI系統依賴于大規模數據集,但獲取大量、符合倫理、特定領域的現實世界醫療數據受隱私法規和復雜臨床工作流的限制,成為了開發醫療特定EmAI的重大障礙。其他挑戰,如倫理問題 [116]–[119] 和經濟社會影響 [120], [121],也亟待解決。 鑒于EmAI對患者和醫療專業人員的巨大潛力和諸多好處,以及存在的挑戰,及時總結這些方面對于推動該領域發展和促進跨學科合作至關重要。在本綜述中,我們總結并討論了EmAI在醫療保健中的最新應用,突出可能顯著影響患者結果和醫療實踐的關鍵因素。第二部分簡要概述了支撐“EmAI大腦”的技術,涵蓋四項基本能力:感知、執行、規劃和記憶。盡管我們并不深入探討EmAI的技術基礎(有關技術綜述,請參見 [65], [122], [123])或其在機器人學中的一般應用(參見 [37], [124], [125]),我們首次提供了以醫療應用為中心的EmAI綜述,特別是臨床干預、日常護理與陪伴、基礎設施支持和生物醫學研究(在第三部分討論)。我們還總結了這些應用的進展和局限,并通過來自各醫療領域的實例,將EmAI劃分為五個智能水平(見第四部分)。該框架旨在幫助研究人員和從業人員理解EmAI在醫療中的演變和發展階段。第五部分總結了不同醫療場景的數據集和基準,挑戰和機遇則在第六部分進一步討論,旨在引導研究人員探索未來相關領域、應用和數據基礎。

付費5元查看完整內容

摘要

數學推理作為人類認知的核心方面,在許多領域中至關重要,從教育問題解決到科學進展都離不開它。隨著人工通用智能(AGI)的發展,將大語言模型(LLMs)與數學推理任務相結合變得愈發重要。本研究是對多模態大語言模型(MLLMs)時代數學推理的首次全面分析。我們回顧了自2021年以來發布的200多篇相關研究,重點分析了數學-大語言模型(Math-LLMs)領域的最新進展,特別是在多模態設置下的應用。我們將該領域劃分為三個維度:基準、方法論和挑戰。特別地,我們探討了多模態數學推理流程,及其中文化的(M)LLMs和相關方法論的角色。最后,我們識別出五個主要挑戰,這些挑戰阻礙了該領域AGI的實現,并為提升多模態推理能力提供了見解。本綜述為研究界提供了重要資源,助力大語言模型在處理復雜多模態推理任務時的能力提升。

1 引言

數學推理是人類認知能力的關鍵方面,涉及通過邏輯和系統化思維從一組前提推導結論的過程(Jonsson et al., 2022;Yu et al., 2024b)。它在許多應用領域中發揮著重要作用,從教育中的問題解決到科學發現的突破。隨著人工通用智能(AGI)的不斷發展(Zhong et al., 2024),將大語言模型(LLMs)與數學推理任務相結合變得愈加重要。這些模型在語言理解方面具有卓越的能力,能夠模擬曾被認為是人類特有的復雜推理過程。近年來,學術界和工業界都日益關注這一方向(Wang et al., 2024d;Xu et al., 2024a;Lu et al., 2022b)。

數學推理任務的輸入是多樣化的,不僅限于傳統的文本輸入,還擴展到多模態設置,如圖1所示。數學問題通常不僅涉及文本信息,還包括視覺元素,如圖表、圖形或方程式,它們為解決問題提供了必要的背景(Wang et al., 2024e;Yin et al., 2024)。在過去的一年中,多模態數學推理已成為多模態大語言模型(MLLMs)的研究重點(Zhang et al., 2024c;Bai et al., 2024;Wu et al., 2023a)。這一轉變源于認識到,像數學這樣的推理任務需要能夠同時整合和處理多種模態的模型,才能實現類似人類的推理表現。然而,多模態數學推理面臨著顯著的挑戰,包括不同模態之間的復雜交互、對深層語義理解的需求,以及跨模態背景信息保持的重要性(Liang et al., 2024a;Song et al., 2023;Fu et al., 2024b)。這些挑戰是實現AGI的核心問題,模型必須能夠無縫地整合多種知識形式,執行復雜的推理任務。

Math-LLM進展

圖2展示了自2021年以來,隨著LLM的快速發展,數學特定的大語言模型(Math-LLMs)數量穩步增長,并且支持多語言和多模態能力的水平也有所提升(更多細節見附錄A)。這一領域的標志性進展包括GPT-f(Polu和Sutskever,2021)和Minerva(Lewkowycz等,2022)的推出,以及Hypertree Proof Search(Lample等,2022)和Jiuzhang 1.0(Zhao等,2022),前者突出了定理證明能力的進展,后者則展示了數學問題理解的提升。2023年,隨著SkyworkMath(Zeng等,2024)等模型的推出,出現了多樣化和專業化的趨勢,并且增強了多模態支持。在2024年,數學指導(如Qwen2.5-Math(Yang等,2024a))和證明(如DeepSeek-Proof(Xin等,2024a))能力得到了顯著提升。此外,本年度還涌現出一些帶有視覺組件的Math-LLM,如MathGLM-Vision(Yang等,2024b)。

研究范圍

以往的綜述未能全面捕捉到多模態大語言模型時代數學推理的進展與挑戰。如表1所示,一些研究集中于深度學習技術在數學推理中的應用(Lu et al., 2022b)或特定領域,如定理證明(Li et al., 2024f),但忽視了LLM崛起所帶來的快速進展。另一些則擴展了范圍,討論了LLM在教育(Wang et al., 2024d;Xu et al., 2024a;Li et al., 2023a)或數學領域(Ahn et al., 2024;Liu et al., 2023b)中的作用,但未深入探討多模態設置下數學推理的發展和挑戰。因此,本綜述旨在填補這一空白,首次全面分析多模態大語言模型時代數學推理的現狀,重點關注三個關鍵維度:基準、方法論和挑戰。

結構

本文回顧了自2021年以來,AI領域關于基于(M)LLM的數學推理的200多篇相關文獻,并總結了Math-LLM的進展。我們首先從基準的角度分析該領域,討論LLM-based數學推理任務的三個關鍵方面:數據集、任務和評估(第2節)。接下來,我們探討(M)LLM在數學推理中的作用,并將其分類為推理者、增強者和規劃者(第3節)。最后,我們識別出多模態大語言模型時代數學推理面臨的五大核心挑戰(第4節)。本綜述旨在為學術界提供全面的見解,推動LLM在處理復雜多模態推理任務方面的能力提升。

基準測試在數學推理中的作用

基準測試在推動大語言模型(LLM)研究方面發揮著至關重要的作用,因為它為評估推理任務的表現提供了標準化、可復現的流程。雖然像GSM8K(Cobbe et al., 2021)和MathQA(Amini et al., 2019)這樣的先前基準在LLM出現之前發揮了重要作用,但我們關注的重點是與(M)LLM相關的基準。在本節中,我們將對近年來在(M)LLM背景下的數學推理基準進行全面分析(見表2)。本節分為三個子節:數據集(第2.2節)、任務(第2.3節)和評估(第2.4節)。

**方法論視角 **概述與發現 多模態大語言模型(MLLMs)已被應用于多種方式,以解決廣泛的數學推理任務。根據我們對近期方法論的全面回顧(總結見表3),我們將相關研究分類為三種不同的范式:LLM作為推理者(第3.2節)、LLM作為增強者(第3.3節)和LLM作為規劃者(第3.4節)。

研究發現 首先,當前以方法為導向的研究主要集中在單一模態設置上,大多數研究僅關注代數任務。然而,自2024年以來,越來越多的多模態方法被引入,將數學推理的范圍擴展到幾何、圖形,甚至更廣泛的數學概念。這一轉變標志著通過多模態學習增強模型魯棒性的興趣日益增長,因為它能夠應對數學問題的多樣性。其次,關于評估任務,問題求解和定理證明正逐漸成為研究的重點,而部分研究也集中在錯誤檢測或其他任務上(例如,RefAug將錯誤修正和后續問答作為評估任務(Zhang et al., 2024i))。最后,關于LLM的角色,推理者(Reasoner)是最常見的角色,其次是增強者(Enhancer),而規劃者(Planner)仍然是較少研究的領域,但由于多智能體智能的最新進展,它具有很大的潛力。

**結論

**在本綜述中,我們全面回顧了多模態大語言模型(MLLMs)背景下數學推理的進展與挑戰。我們強調了Math-LLMs發展的重要進展,以及多模態集成在解決復雜推理任務中的日益重要性。我們識別出了五個關鍵挑戰,這些挑戰對繼續發展能夠執行復雜數學推理任務的AGI系統至關重要。隨著研究的持續推進,解決這些挑戰對于釋放LLM在多模態設置中的全部潛力至關重要。我們希望本綜述為未來的LLM研究提供有價值的見解,最終推動AI系統在數學推理方面達到更高的效能和更接近人類的能力。

付費5元查看完整內容

摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。

關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述

1 引言

技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。

例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。

第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。

圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。

本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。

本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。

2 為什么需要對齊與融合

對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。

2.1 提升全面性與魯棒性

對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題

在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性

對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用

對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊

多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊

顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。

DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊

隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法

圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。

這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法

近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。

4 多模態融合

多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。

4.1 編碼器-解碼器融合

編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。

4.1.1 數據級融合

在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。

4.1.2 特征級融合

這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。

4.1.3 模型級融合

模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。

4.2 基于注意力機制的融合

基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。

4.3 圖神經網絡(GNN)在多模態融合中的應用

圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。

4.4 自監督學習與多模態融合

自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。

在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。

例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。

4.5 持續學習與多模態融合

持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。

在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。

付費5元查看完整內容

摘要

大型語言模型(LLMs)的成功本質上與海量、多樣化和高質量的訓練和評估數據的可用性密切相關。然而,高質量數據的增長速度遠遠落后于訓練數據集的擴展,導致了潛在的數據枯竭危機。這凸顯了提高數據效率和探索新數據源的緊迫性。在此背景下,合成數據作為一種有前景的解決方案出現。目前,數據生成主要包括兩大方法:數據增強和數據合成。本文全面回顧并總結了貫穿LLM生命周期的數據生成技術,包括數據準備、預訓練、微調、指令調整、偏好對齊及其應用。此外,我們討論了這些方法當前面臨的限制,并探討了未來發展的潛在途徑。我們的目標是為研究人員提供對這些方法論的清晰理解,幫助他們在構建LLM時快速識別合適的數據生成策略,并為未來的探索提供寶貴的見解。

1 引言

近年來,大型語言模型(LLMs)在廣泛的任務中展現了無與倫比的能力【9, 68, 166】,牢固地確立了它們作為通用人工智能(AI)系統支柱的地位。這些模型在自然語言處理【234, 262, 264】、計算機視覺【100, 207, 239】和其他研究領域【36, 163, 229】中取得了顯著的進展,不斷推動AI所能實現的邊界。LLMs的成功很大程度上歸功于它們能夠從大量數據中捕捉復雜的模式和關系,使其能夠高效執行復雜任務,例如自然語言推理【39, 134】、視覺問答【151, 158】和視覺與語言導航【125, 178】。 然而,LLMs的性能高度依賴于訓練數據的質量和數量【2, 57, 58】。隨著模型規模的指數級增長——現在達到數十億甚至數萬億個參數【105, 168, 268】——對于大規模、多樣化和高質量數據的需求日益增加,以確保模型在各種任務和領域中的穩健泛化。獲取此類數據帶來了巨大的挑戰,因為數據收集成本高昂,同時還面臨隱私問題。此外,高質量數據的增長速度遠遠落后于訓練數據集規模的快速擴展。如果這一趨勢繼續下去,現有的數據將最終耗盡,意味著如果不能顯著提高數據效率或發現新的數據源,LLMs的增長可能會顯著放緩。

面對這些迫在眉睫的限制,數據合成和增強技術對于延長LLMs的生命周期和提升其泛化能力至關重要。傳統的數據合成和增強技術【34, 98, 135, 194】,如圖像旋轉、裁剪、翻轉以及基于規則的自然語言生成,已被廣泛應用于解決這些數據限制。盡管這些方法在一定程度上改善了數據多樣性并緩解了數據匱乏問題,但它們仍難以充分捕捉真實世界數據的復雜性【55】,難以大規模生成數據【233】,并且難以抵御對抗性樣本【162】,這限制了它們在LLM訓練中的有效性。

為了克服這些挑戰,研究人員越來越多地轉向面向LLM的數據合成和增強技術,認識到LLM能夠從大型數據集中建模復雜模式,并生成與真實世界分布高度相似的合成數據,同時引入有價值的變異【37, 175, 260】。這些研究減少了對人工策劃數據集的依賴,并能夠生成高質量、多樣化的數據,以滿足LLMs在其生命周期和功能中的不斷演進需求。為了捕捉這些努力的廣度,我們通過在Google Scholar中使用“數據合成”、“數據增強”和“大模型”等關鍵詞收集了與LLM數據合成和增強相關的論文。圖1展示了按年份和發布平臺劃分的出版趨勢,反映了該領域日益增長的興趣。截至2024年10月,我們識別出了250篇涵蓋不同研究主題和發布平臺的獨特出版物。總結這些努力為我們提供了對進展和剩余挑戰的關鍵見解,并為未來的研究奠定了基礎。 盡管取得了這些進展,但在LLM數據合成和增強方面仍然存在一些關鍵挑戰。合成數據的濫用帶來了風險,特別是在傳播錯誤信息和引發操縱公眾輿論的倫理問題時。此外,合成數據在將AI模型與人類價值對齊時經常引入歧義,可能導致偏見結果。評估訓練于合成數據上的模型也很復雜,因為傳統的基準測試可能無法完全捕捉這些數據的細微差別。確保可靠性也是另一個問題,因為原始數據集中的偏見和不準確性可能在合成數據中持續存在,限制了它的跨領域泛化能力。此外,LLM的計算需求,以及處理不常見語言或新穎指令的挑戰,也使得其更廣泛的應用變得復雜。最后,缺乏統一的框架來組織和比較學術界和工業界提出的方法,這也是研究人員在應對這一快速發展的領域時面臨的障礙。

本綜述旨在通過提供LLM數據合成和增強技術的全面概述來解決這些差距。如圖2所示,與先前的綜述【43, 140, 147, 214, 271】主要集中在支持特定下游任務或LLM某些階段的方法不同,我們的工作強調了LLM數據合成技術在提升其生命周期各個階段和核心功能整體性能中的直接作用。與【137】的工作不同,該工作主要關注解決數據匱乏和隱私問題的合成數據生成實踐,我們的綜述不僅提供了實際指導,還通過分類方法全方位提升LLM性能。我們不僅探討了數據生成方法,還研究了這些技術如何在LLM的各個階段和功能中發揮作用,提供了一種更綜合、以數據為中心的框架來推進LLM的發展。具體而言,我們從兩個關鍵角度系統回顧和分類了現有研究:LLM生命周期(從預訓練到微調和應用)及其核心功能(理解、邏輯、記憶和生成)。通過圍繞這兩個角度展開討論,我們為不同方法的發展、相互聯系及實際應用提供了更清晰的見解。此外,我們還識別了關鍵挑戰,探索了新興的研究方向,并突出了可能進一步推動通過數據為中心的方法提升LLM性能的潛在突破。

本綜述的貢獻總結如下

  • 首個綜述:據我們所知,我們提供了首個專注于通過數據合成和增強推進LLMs的全面綜述,系統涵蓋了LLM生命周期各個階段和核心功能。該綜述提供了對現有方法的深入分析,并突出了各階段的獨特挑戰。
  • 新的分類法:我們引入了創新的組織框架,從兩個關鍵角度對現有研究進行分類:LLM的生命周期階段及其核心功能。此分類法更清晰地理解了不同方法的進展、相互聯系和應用性,為LLM數據合成和增強的開發和功能方面提供了寶貴的見解。
  • 新的前沿:我們識別了關鍵挑戰,探索了新興研究方向和潛在突破。這一討論旨在激發未來的研究并指導數據為中心的LLM改進技術的發展。
  • 豐富的資源:我們組織并維護了一個專門的資源庫,以支持LLM數據合成和增強的持續研究和協作。此資源包括相關論文的精選集合、跟蹤最新進展的多個排行榜,并定期更新以促進創新、引導未來的研究方向,并加速該領域的突破。

通過提供LLM數據合成和增強方法的全面概述,本綜述旨在闡明該領域的現狀,并激發未來的研究方向,以通過數據合成和增強方法進一步提升LLM的能力。

我們對本綜述的其余部分進行如下組織:第2節對LLM數據合成和增強的主要領域進行了分類,概述了基礎技術。第3節從LLM生命周期的角度討論了當前的LLM數據合成和增強方法,詳細說明了這些技術如何在模型開發的不同階段使用。在第4節中,我們從LLM核心功能的角度回顧了這些方法,探討了數據合成和增強如何提升關鍵能力,如理解、邏輯、記憶和生成。第5節探討了LLM數據合成和增強的評估策略,涵蓋了評估基準、評估指標和排行榜,用于評估和比較現有方法的有效性。最后,第6節深入研究了LLM數據合成和增強中的挑戰和新興趨勢,并提出了未來的研究建議,以促進LLM通過數據合成和增強方法的持續進步。

2 分類

數據生成方法在解決數據稀缺性和不平衡問題方面起著關鍵作用,從而提升模型性能和泛化能力。如圖4所示,我們總結了近年來數據增強和合成技術的發展和演變。本節主要介紹當前數據生成方法的分類,區分了數據增強和數據合成。數據增強通過對現有數據樣本的轉換來增強其多樣性,而數據合成則是從頭或基于生成模型創建全新的樣本。兩者在獲取數據的方式上有所不同,但目標都是擴展數據集。此外,數據增強和合成方法可以從多個維度進行細分。每種方法都有其獨特的優勢和應用,使研究人員能夠根據特定需求和目標定制其數據生成策略。

**2.1 數據增強

數據增強是一種從數據到數據的生成方法,通常涉及對原始數據進行操作,以增加其多樣性和數量,而不會顯著改變其本質特征。數據增強技術通過轉換或擾動現有數據樣本,旨在提高其豐富性。在不同的模態中,數據增強技術往往具有相似性。例如,在圖像數據中,增強操作包括拼貼【90】、翻轉【184】、復制粘貼【61】、加噪聲【149】、配對【84】等。類似地,在文本數據中,增強操作包括同義詞替換【95】、復制粘貼【185】等。此外,為滿足多模態學習的需求,現有研究已在數據增強過程中解決了跨模態信息對齊問題。MixGen【75】通過線性插值圖像和拼接來自兩個現有圖文對的文本序列生成新的訓練樣本,所生成的圖文對中的語義關系保持一致并匹配。近年來,在快速發展的LLM領域,數據增強已成為通過多樣化訓練示例來提升模型性能的基石,從而避免了大量額外數據收集的必要性。從數據中心的角度來看,我們系統地將現有的數據增強研究分為三類:數據標注【3, 63, 94, 136, 198, 275】、數據重組【45, 51, 143, 237】和協同標注【11, 43, 116】。

2.1.1 數據標注

數據標注旨在利用LLM廣泛的語言理解能力來為大量未標注數據集提供注釋。這種方法在擁有大量未標注數據的領域(如跨語言處理和多模態學習【3, 63, 275】)中特別有用,在這些領域中,自動化標注可以顯著加快數據準備過程。最近的研究探索了LLM的零樣本標注能力,例如GPT-4對政治推特的標注【198】。此外,Khan等人【94】通過使用SelTDA框架從未標注的圖像中生成偽標簽數據,專注于視覺問答(VQA)任務。

2.1.2 數據重組

數據重組涉及將現有數據轉化并重組為更多樣化的變體,從而實現更精細的數據增強【45, 51】。這種方法旨在通過引入多樣而相關的示例來豐富訓練環境,增強模型的魯棒性和泛化能力。旋轉【92】、顏色通道轉換【64】和同義詞替換【95】等經典方法經常使用。近年來,利用LLM的策略也開始出現。例如,Chen等人【27】提出了Disco方法,該方法利用LLM生成大規模、高質量的反事實數據。2.1.3 協同標注 協同標注指的是人類標注者與LLM在標注過程中的協作【11】。通過整合兩種標注方法的優勢,協同標注不僅降低了標注成本,還同時提升了標注性能,從而促進了更高效和有效的數據標注方法。Li等人【116】提出了CoAnnotating框架,通過評估LLM的標注不確定性,策略性地分配數據點給人類或LLM進行標注。

**2.2 數據合成

另一方面,數據合成旨在從頭或基于生成模型創建全新的數據,這些數據與真實數據的分布相似。近年來,隨著生成式AI【13, 41, 42, 78, 139, 161, 169】的爆發和進步,合成數據的質量和生成效率取得了顯著進展。根據LLM的需求,本文將數據合成方法分為三大類:通用模型蒸餾【22, 53, 120, 263, 266】、領域模型蒸餾【108, 145, 146, 215】和模型自我改進【54, 150, 210, 248】。2.2.1 通用模型蒸餾 通用模型蒸餾涉及利用功能強大的通用模型,通常具有更多參數和更優性能,如StableVicuna、ChatGPT和GPT-4,來生成數據集以增強較弱模型的能力。使用這些強大模型的方式有多種,例如使用預定義的模板生成小故事【53】或利用LLM自身評估生成數據的質量。Phi-1及其系列【67, 120】表明,通過利用GPT-3.5生成教科書和習題的全面內容,一小部分高質量數據也可以訓練出強大的模型。其他一些方法通過生成指令數據集并在改進這些數據集的質量后微調模型,也取得了性能提升【22, 80, 196】。2.2.2 領域模型蒸餾 領域模型蒸餾是指利用特定領域內的模型生成數據。這種方法通常在通用模型無法滿足行業應用的特定需求時使用。例如,在代碼編程領域,領域模型蒸餾可以用于生成針對特定編程任務的指令數據【146, 215】。在數學領域,Minerva【108】和DeepSeekMath【220】等方法旨在生成數學問題的解答,同時確保其準確性和多樣性。此外,行業數據往往面臨規模有限和數據無法在特定企業中獲取等障礙。這些因素需要采用能夠有效解決這些特定場景中挑戰的領域專用模型。

2.2.3 模型自我改進

模型自我改進是指模型生成更高質量的數據以提升其能力。例如,利用現有指令調整模型,并促使其以特定風格(如維基百科風格或問答風格)改寫網絡上的文檔,可以聯合預訓練LLM進行真實和合成的釋義任務【150】。Self-Instruct【210】通過自動生成和改進指令數據來增強LLM自身的性能,極少需要人工干預。

結論

數據合成和增強對于推動LLMs的發展至關重要,特別是在滿足LLMs對大規模和高質量數據需求方面。本綜述全面回顧了面向LLM的數據合成和增強技術,系統地探討了這些技術在LLM整個生命周期及核心功能中的應用,并構建了一個連接現有研究的框架,突出關鍵方法,闡明其優勢與局限性。我們相信,面向LLM的數據合成和增強方法的進步將開辟新的可能性,以提升數據效率、改善任務間的泛化能力,并推動以數據為中心的AI的演變。我們希望本綜述能為未來的研究奠定基礎,激發該領域的數據合成和增強的創新與進步。

付費5元查看完整內容

人工智能能否解決戰爭中的倫理、道德和政治困境?人工智能(AI)驅動的戰爭如何改變我們思考戰爭倫理-政治困境和實踐的方式?本文探討了現代數字化戰爭中人機互動的倫理、道德和政治困境的關鍵因素。有觀點認為,人工智能的 “理性 ”效率可以同時為人類在戰斗中的心理和生理缺陷提供可行的解決方案,同時保留人類對戰爭機器的 “有意義的 ”控制,本文對這一觀點提出了反駁。這種龐洛士式的假設忽視了人機互動的心理特征、未來人工智能沖突的速度以及現代戰爭復雜而混亂的本質。文章闡述了人機互動的關鍵心理學見解,以闡明人工智能如何塑造我們思考未來戰爭的政治和倫理困境的能力。文章認為,通過人機融合的心理過程,人工智能將不僅僅是現有先進武器的武力倍增,而將成為戰爭中事實上的戰略行動者--“人工智能指揮官問題”。

文章分為三個部分。第一部分通過對人類與技術以及人機互動的更廣泛對接進行背景分析,為論點提供框架。文章探討了人類為何以及如何與機器和新出現的復雜社會技術系統糾纏在一起、軍事技術倫理的根源以及無風險、無摩擦戰爭的概念。報告將人工智能技術描述為這一社會技術趨勢的新表現形式。它認為,在戰爭決策中外包人類良知--幻想解決戰爭的倫理、道德和政治困境--有可能侵蝕人類與戰爭之間的重要聯系。本節還討論了質疑 “用機器取代人類一定是個壞主意 ”這一觀點的各種反駁意見(“人工智能樂觀主義者”)。例如,人類會犯錯誤,經常做出非理性的行為,而且容易產生暴力、不道德和非人化等原始本能(Haslam,2006 年;Brough,2007 年)。

第二部分探討了人機互動的心理特征。具體地說,本節分析了人類的幾種偏差--控制幻覺、啟發式捷徑(Einstellung效應、存在偏差)和自動化偏差--這些偏差會使指揮官容易濫用或過度使用軍事力量以達到不公正的目的。報告還討論了這些偏差在更廣泛的政治驅動力中的潛在影響,這種政治驅動力就是通過技術神器來實現戰爭的可預測性和集中控制。

最后,第三部分探討了利用人工智能等技術完善無風險、無摩擦戰爭的手段對軍事倫理和戰爭中的道德責任的潛在影響。它將圍繞人工智能技術將人類倫理編碼到機器中的爭論背景化。它還探討了人類情感的作用,人類情感賦予我們理性和深思熟慮的感覺,影響我們的決策,并塑造我們對倫理和道德困境--沒有明顯理想結果的情況--的反應。人類的倫理道德能否被編程到算法中?如果可以,那么如果道德責任外包給人工智能,人類又該如何保留自己的倫理和價值觀?

付費5元查看完整內容

摘要 —— 隨著ChatGPT的興起,大型模型的使用顯著增加,迅速在整個行業中脫穎而出,并在互聯網上廣泛傳播。本文是對大型模型微調方法的全面綜述。本文研究了最新的技術進展以及在諸如任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調和動態微調等方面應用先進方法。 索引術語 —— 大型語言模型(LLMs)、任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調、動態微調 I. 引言 變換器(Transformer)模型的出現標志著自然語言處理(NLP)領域的一個重要里程碑。變換器架構最初是為了解決循環神經網絡(RNNs [143])和卷積神經網絡(CNNs [55])在處理長距離依賴關系中的局限而設計的,該架構由Vaswani等人在2017年引入[126],徹底改變了我們處理語言理解和生成任務的方式。 變換器架構背景:變換器模型源于對比傳統模型更有效處理序列數據的需求。其獨特的架構,不依賴遞歸和卷積,利用注意力機制來抽取輸入與輸出之間的全局依賴關系,顯著提高了處理效率和模型性能。 編碼器[19]、解碼器[95] [96] [13]以及編解碼器[100]架構:變換器架構主要由其編碼器和解碼器組成。編碼器處理輸入序列,創建每個詞的豐富上下文表征。相比之下,解碼器通常在語言翻譯任務中生成輸出序列,使用編碼信息。 兩者的區別在于它們的角色:編碼器是輸入的上下文感知處理器,而解碼器基于編碼輸入生成預測。編解碼器架構常用于序列到序列的任務,結合這兩個組件,便于處理復雜任務,如機器翻譯,編碼器處理源語言,解碼器生成目標語言。 大型模型中的微調興起:微調大型語言模型的概念源于將這些模型從訓練于龐大、多樣的數據集適應到特定任務或領域的挑戰。微調調整模型的權重,針對特定任務,增強其從廣泛語言模式到特定應用需求的泛化能力。隨著模型規模和復雜性的增長,這種方法變得越來越重要,需要更精細的適應技術來充分發揮其潛力。 本文的結構旨在提供關于微調大型語言模型的方法論和進展的全面概覽。后續部分的組織如下: 文獻回顧:審視語言模型的發展,突出變換器架構的關鍵發展和基礎概念。 理論基礎:深入探討變換器模型的理論基礎,包括注意力機制、編碼器和解碼器的機制。 微調策略:討論各種微調方法,如任務特定、領域特定的適應和高級技術,如小樣本學習和動態微調。 挑戰與未來方向:識別微調方法中的當前挑戰,并探索這一迅速發展領域的潛在未來研究方向。 本文介紹了基于變換器架構的大型語言模型的范式,并提供了常用的大模型微調方法的詳細概述。文章以一個比較實驗結束,聚焦于六個文本分類數據集上的模型大小和LoRA微調范式。實驗代碼已在GitHub上提供。

付費5元查看完整內容
北京阿比特科技有限公司