摘要—近年來,生成模型在生成任務中的卓越表現激發了人們對其在決策過程中應用的濃厚興趣。由于其處理復雜數據分布的能力和強大的模型能力,生成模型可以通過生成軌跡,有效地融入決策系統,引導智能體朝向高回報的狀態-動作區域或中間子目標。本文全面回顧了生成模型在決策任務中的應用。我們對七種基礎生成模型進行了分類:能量模型、生成對抗網絡、變分自編碼器、標準化流、擴散模型、生成流網絡和自回歸模型。關于它們的應用,我們將其功能分為三個主要角色:控制器、建模器和優化器,并討論每個角色如何為決策提供貢獻。此外,我們還探討了這些模型在五個關鍵實際決策場景中的部署情況。最后,我們總結了當前方法的優缺點,并提出了三條推進下一代生成決策模型的關鍵方向:高性能算法、大規模通用決策模型以及自我進化與自適應模型。 關鍵詞—生成模型、決策制定、生成決策制定
生成模型已成為學術界和工業界的熱門話題,主要由于它們能夠生成大量高質量和多樣性的合成數據。從早期的系統如 DALL-E [1](用于圖像生成)和 GPT-3 [2](用于文本生成)到最近的進展,如 DALL-E3 [3]、ChatGPT 和 GPT-4 [4],生成模型在其輸出的質量和規模上迅速發展。 內容生成旨在創造與訓練樣本相似的連貫材料,而決策制定則專注于生成能夠實現最佳結果的行動序列。與內容生成不同,決策制定涉及復雜、動態的環境和長期的決策。因此,盡管生成模型在內容生成方面取得了成功,將它們應用于決策制定仍面臨諸多挑戰。這些挑戰包括:1)如何通過與環境的交互來學習策略,而不僅僅是模仿專家行為;2)如何基于學習到的行為生成新策略,從策略學習過渡到策略生成;3)如何建立一個能夠在各種環境中適應的穩健基礎決策生成模型,且只需最少的調優工作;4)如何構建策略的多步推理和長期演化能力。這些挑戰強調了生成模型不僅僅是生成數據的需要。
在實際應用中,決策制定通常被稱為序列決策制定,其中決策者隨著時間推移做出一系列觀察,每個決策都會影響隨后的選擇。目標是識別一個策略,以優化期望的回報或最小化跨越序列行動的成本。經典算法,如動態規劃(DP)和強化學習(RL),廣泛應用于解決建模為馬爾可夫決策過程(MDPs)的問題。這些方法通過基于觀察到的回報和狀態轉移來更新策略,而不是生成新策略,來優化決策制定。盡管這些傳統方法在許多應用中取得了成功,但它們通常依賴于試錯或預定義的狀態和轉移,這限制了探索,并可能錯過更好的解決方案。此外,它們需要大量的計算和優化,這在高維或大規模問題中可能不切實際。傳統方法還需要在面對新環境時進行大規模的重新配置或再訓練,從而降低了靈活性。
另一方面,生成模型被設計為對數據分布進行建模,而不僅僅是擬合標簽。一旦訓練完成,它們可以生成與原始數據相似的新樣本,從而能夠探索不同的場景和結果。這一能力使得在傳統方法可能難以立即顯現的情況下,發現新的策略成為可能。在復雜或標簽不明確的數據場景中,生成模型提供了對可能決策路徑的更深入理解,有時能引導出更符合高回報或期望目標的策略。然而,傳統方法如優化或強化學習在決策空間較清晰、目標更直接的簡單環境中仍然有效。選擇這些方法之間的差異,取決于任務的復雜性和環境的特點。 認識到這些優勢,近年來,開發新的生成模型并將其應用于決策制定的研究工作大幅增加。圖 1 展示了生成模型及其在決策制定中的應用的研究趨勢,進一步強調了這些方法在解決此類挑戰中的重要性。然而,目前缺乏全面的綜述,能夠總結過去的工作并為新的研究方向鋪平道路。這個空白促使我們撰寫本文綜述。該綜述的三大貢獻包括:1)提出了一個全面的分類法,用于分類當前的生成決策制定方法。我們識別了七種用于決策制定的生成模型,并將其功能分類為三個關鍵角色:控制器、建模器和優化器;2)我們回顧了生成模型在決策制定中的多樣化實際應用,重點討論了機器人控制、結構生成、游戲、自動駕駛和優化任務;3)最后,我們總結了現有工作的優缺點,并討論了未來在決策制定任務中開發高性能生成模型的前景。 本文其余部分的組織結構如下(參見圖 2 了解總體大綱):第二部分作為引言,介紹了序列決策制定的基本公式,并提供了所有研究方法的基礎知識。具體而言,我們詳細介紹了七種生成模型,并將它們與傳統方法進行對比。第三部分提出了用于分類生成決策制定方法的分類法。第四部分根據介紹的分類法回顧并分析現有文獻。第五部分展示了生成模型在決策制定中的實際應用。最后,第六部分討論了生成模型在決策制定中的未來發展方向,第七部分總結了本文的整體內容。
摘要:
本綜述研究了經典軟件設計模式如何提升大型語言模型(LLM)驅動的代理型人工智能系統中通信的可靠性與可擴展性,重點聚焦于模型上下文協議(Model Context Protocol,簡稱 MCP)。文章考察了基于 LLM 的代理的基礎架構及其從孤立運行向復雜多代理協作演進的過程,分析了在這一轉變中出現的關鍵通信難題。 本研究重新審視了多個成熟的軟件設計模式,包括中介者(Mediator)、觀察者(Observer)、發布-訂閱(Publish-Subscribe)和代理(Broker)模式,并分析了它們在構建符合 MCP 框架的代理交互結構中的適用性。為闡明這些交互機制,文中提供了概念圖示與形式模型,以描繪通信路徑并優化數據流動。 此外,文章還探討了適應不同代理自主性與系統復雜度的架構變體,并通過實時金融處理與投資銀行等領域的實際應用,展示了這些設計模式與 MCP 如何滿足特定的運行需求。最后,文章總結了當前尚待解決的挑戰、潛在的安全風險,以及推動強健、可互操作且具備可擴展性的大型語言模型多代理生態系統發展的未來方向。
大型語言模型(Large Language Models,LLMs)正經歷一次范式轉變——從作為靜態的信息提供者(通常嵌入于對話型智能體中)演化為具備自主決策與任務執行能力的計算型智能體,即所謂的智能體式人工智能(agentic AI)[1]。這一轉變標志著智能體式 AI 的興起,LLM 被賦予了與外部系統交互、隨時間存儲與提取信息,以及執行可操作行為的能力[2]。
這些增強后的智能體專為完成那些需要迭代推理、規劃、記憶與工具使用的任務而設計——這些能力是傳統 LLM 因上下文窗口受限、易產生幻覺以及難以處理復雜行為序列等限制所無法勝任的[3]。 隨著任務需求超出單一智能體的能力范圍,**由多個 LLM 智能體組成的多智能體系統(LLM-MAS)**應運而生。這類系統通過在多個智能體之間分配認知任務,實現協作式問題求解與專業化分工[4]。這一演進趨勢背后的動因在于:許多現實世界任務過于復雜,單一智能體難以勝任,需要通過有組織的交互實現智能的擴展[5]。關鍵在于,LLM-MAS 的整體表現不僅取決于個體模型的性能,而更取決于這些智能體在架構上如何實現通信、協調與知識共享[6]。
盡管早期的 LLM 在單智能體場景中表現強勁,但在涉及長期依賴、上下文連續性和工具使用策略的任務中卻表現不足。智能體式 AI 通過將 LLM 嵌入具備規劃、記憶和模塊化推理功能的框架中來填補這些能力空缺[4]。然而,即便具備這些增強功能,孤立運行的智能體仍然存在局限。向多智能體協作的轉變,反映出人們認識到:結構化的智能體間通信所產生的分布式智能[7],是應對高復雜度場景的關鍵。最終,LLM-MAS 所展現的智能,更源自系統層級的整體設計,而非任何單一智能體[8]。
在多智能體系統中,尤其是由大型語言模型(LLM)驅動的系統中,智能體之間的通信是協調與共享目標的基石。正是通過通信,智能體才能對齊任務目標、共享上下文理解,并協同規劃行動[5]。 然而,這種依賴通信的方式本身也帶來了巨大的挑戰。在多智能體系統中,相比于單個智能體自身的能力局限,智能體之間交互的復雜性更容易成為導致系統性失敗的根源。常見的問題包括目標不一致、任務驗證機制薄弱、系統擴展性受限、面臨安全攻擊威脅,以及缺乏被廣泛接受的健壯通信協議架構標準。 在基于 LLM 的多智能體系統中,通信不僅僅是信息的傳遞媒介,它更是群體推理的基礎機制。然而,正是這種優勢也成為潛在的弱點:支持智能體協同工作的通信通道,同樣也可能傳播錯誤、放大設計缺陷,甚至暴露系統于諸如“中間人智能體攻擊”(Agent-in-the-Middle, AiTM)等對抗性攻擊之下。因此,LLM-MAS 中的通信存在一個核心張力:它既是智能涌現的關鍵媒介,又是潛在的系統脆弱點——如果設計不當,可能削弱整個系統的安全性與可靠性。 因此,構建具有韌性、語義一致性和結構良好的通信架構不是可選項,而是打造可信、穩健且可持續發展的下一代智能體式 AI 系統的核心前提[11]。
模型上下文協議(Model Context Protocol,MCP)由 Anthropic 于 2024 年底提出,是一種開放的互操作性標準,旨在簡化并統一 AI 模型與外部工具、系統及結構化數據之間的連接方式。MCP 常被稱為“AI 應用領域的 USB-C”,目標是成為通用的接口層,大幅降低在多平臺間集成的復雜性。 MCP 的核心目標是解決長期存在的“N × M”集成瓶頸問題:即每一個 LLM 都需為每種數據源或工具單獨編寫對接代碼,造成工程重復、系統脆弱且維護困難。MCP 提供了一種統一協議,使任意 AI 助手都可以與任何兼容的服務、工具或數據集交互,從而極大簡化集成流程[14]。 MCP 采用客戶端–主機–服務器的架構模式,使用 JSON-RPC 實現通信,支持持久化、具備狀態感知的通信會話。它還定義了嚴格的數據攝取格式、元數據注釋規則、平臺無關的模型協調方式,以及安全的雙向連接機制。這種結構化方法不僅提升了互操作性,也增強了系統的可追蹤性與可管理性。 MCP 更深遠的影響在于推動 AI 基礎設施朝著模塊化、可組合的方向演進。與其構建大量定制化連接導致系統混亂,不如通過 MCP 實現組件之間的清晰解耦,使工具、模型與數據層能夠獨立替換與升級。這種模塊化架構大幅減少工程負擔、加快創新速度,同時為可擴展、可審計且面向未來的 AI 部署奠定基礎。 此外,MCP 還提供了明確的消息結構與通信生命周期定義,支持關鍵的合規性與監控功能——這是在企業級與監管密集型場景中不可或缺的能力。
本綜述融合了大型語言模型(LLM)驅動的智能體式 AI、經典軟件設計方法論,以及新興的模型上下文協議(MCP)三方面的研究進展,目標是為構建魯棒、可擴展的智能體間通信框架提供系統性指導。 本文探討了如何將久經驗證的軟件架構設計模式,適配到以 LLM 為基礎的現代多智能體系統中,并將 MCP 定位為推動互操作性與結構化協作的核心支柱。 通過理論模型與概念圖示,本文分析了通信動態、系統復雜度與數據交換效率。同時,本文還評估了這些設計策略如何在面對智能體自主性提升與系統復雜化時保持可擴展性。 文章還結合實時金融系統與投資平臺等現實應用場景,展示在這些關鍵領域中,強健的智能體協同架構如何滿足運行需求。最終,本文旨在為開發者與系統架構師提供一個切實可行的框架,用于構建安全、高效、可維護的基于 LLM 的多智能體生態系統。
摘要——智能體時代已然來臨,而這一變革的驅動力正是大語言模型的突破性進展。大語言模型(LLM)智能體憑借其目標驅動行為與動態適應能力,很可能成為通往通用人工智能的關鍵路徑。本文通過方法論導向的體系化分類,系統解構LLM智能體系統,揭示其架構基礎、協作機制與進化路徑之間的深層關聯。我們整合了當前零散的研究脈絡,闡明智能體設計原則與其在復雜環境中涌現行為之間的本質聯系。本研究提供了一種統一的架構視角,涵蓋智能體的構建方式、協作機制與演化過程,同時探討了評估方法、工具應用、現實挑戰及多樣化應用場景。通過梳理這一快速發展領域的最新進展,我們為研究者提供了理解LLM智能體的結構化分類體系,并指明了未來研究的潛在方向。本文集可通過
//github.com/luo-junyu/Awesome-Agent-Papers獲取。 **
**關鍵詞——大語言模型,LLM智能體,AI智能體,智能代理,多智能體系統,LLM,文獻綜述 1 引言人工智能正邁入一個關鍵時代,其標志是**大語言模型智能體(LLM Agent)**的崛起——這些由大語言模型(LLMs)驅動的智能實體能夠感知環境、推理目標并執行行動[1]。與傳統AI系統僅被動響應用戶輸入不同,現代LLM智能體通過持續學習、推理和適應,主動與環境交互。這一轉變不僅是技術升級,更是對人機關系的根本性重構。商用LLM智能體系統(如DeepResearch、DeepSearch和Manus)印證了此范式變革:它們能自主完成從深度研究到計算機操作等曾需人類專業知識的復雜任務,同時適配用戶個性化需求。相較于傳統智能體系統[2],基于LLM的智能體在知識來源[3]、泛化能力[4]和交互模式[5]等維度實現了代際跨越。當今智能體的質變源于三大關鍵進展的融合:? LLMs前所未有的推理能力[6],? 工具操控與環境交互技術的進步[7],以及? 支持長期經驗積累的精密記憶架構[8][9]。這種融合將理論構想轉化為實用系統,日益模糊"助手"與"協作者"的界限。其本質在于LLMs作為通用任務處理器,通過生成式架構在語義空間內統一感知、決策與行動,從而形成類人認知閉環[10]。本研究通過構建-協作-演化的統一分類框架,首次系統解構智能體系統。我們提供全景視角,追溯智能體的定義方式、獨立/協同運作機制及長期進化路徑。除厘清現狀外,更揭示了預示未來發展的新興范式。智能體技術的快速演進亟需及時綜述,為研究者提供理解這一動態領域的最新分類體系。圖1展示了我們設計的LLM智能體生態框架:以方法論為核心,我們從三個互相關聯的維度分析智能體技術基礎:構建(定義與實現方式)協作(交互與協同機制)演化(學習與優化路徑)此三維基礎輔以實踐考量,包括評估方法、開發工具、安全與倫理等現實挑戰,以及多樣化應用場景。該框架貫穿全文,實現對每個維度的系統性探索及其關聯性的強調。與既有綜述的差異盡管近年有多篇AI智能體綜述,本研究通過方法論聚焦與LLM智能體架構的全面分析做出獨特貢獻。既往研究或局限于特定應用(如游戲[11][12])、部署環境[13][14]、多模態[15]或安全[16],或僅提供寬泛概述而缺乏方法論分類[1][17]。近期工作雖對比了LLM與傳統AI智能體[9]、多智能體交互[18]、工作流[19]及協作決策機制[20],但本研究的特色在于:方法論導向的分類體系:提出系統化分類法,從角色定義、記憶機制、規劃能力到行動執行[21]解構LLM智能體核心組件。構建-協作-演化框架:通過三維度聯動分析(構建/協作/演化),提供比既往研究[22][23]更整體的認知,凸顯個體設計與協作系統的連續性——而前人常割裂討論這些方面[22][24]。前沿應用與現實聚焦:除理論探討外,深入剖析LLM智能體的尖端工具、通信協議及跨領域應用,并對安全、隱私與倫理等現實挑戰進行全面分析。在智能體技術從研究邁向大規模落地的關鍵階段,這一前瞻視角尤為重要。本綜述為研究者和從業者提供結構化分類體系,助力從多視角理解、比較和推進LLM智能體研究。隨著LLM智能體日益深入各關鍵領域,理解其架構基礎不僅對學術界,對政策制定者、產業界乃至全社會都至關重要。本文旨在奠定這一基礎,同時為這一快速演進領域指明發展方向。
摘要
本綜述全面回顧了生成式學習模型在機器人操作中的最新進展,并探討了該領域的關鍵挑戰。機器人操作面臨的主要瓶頸包括數據不足和數據獲取效率低下、長時程和復雜任務規劃,以及跨多樣化環境下的多模態推理能力以提升策略學習的魯棒性。為解決這些挑戰,本文介紹了幾種生成模型范式,包括生成對抗網絡(GANs)、變分自編碼器(VAEs)、擴散模型、概率流模型和自回歸模型,并分析了它們的優勢和局限性。這些模型的應用分為三個層次:基礎層(專注于數據生成和獎勵生成)、中間層(涵蓋語言、代碼、視覺和狀態生成)以及策略層(強調抓取生成和軌跡生成)。每一層次均被詳細探討,并列舉了推動領域發展的代表性工作。最后,本文展望了未來的研究方向和挑戰,強調提高數據利用效率、更好地處理長時程任務以及增強跨多樣化機器人場景的泛化能力的重要性。所有相關資源,包括研究論文、開源數據和項目,均已匯總至以下鏈接供社區參考://github.com/GAI4Manipulation/AwesomeGAIManipulation。
I. 引言 機器人操作在賦予機器與周圍環境進行物理交互和修改的能力方面至關重要,這是實現智能自主性的基礎步驟。從工廠中組裝精密的電子設備到家庭中的輔助護理,機器人操作在顯著影響社會的應用中發揮著關鍵作用[1, 2]。作為機器人學中最重要的問題之一,操作在復雜環境中長期面臨重大挑戰,尤其是在涉及非平凡交互和復雜長時程決策與規劃的場景中[1, 3]。這些挑戰阻礙了機器人系統在不同場景中執行可靠且魯棒的操作任務,留下了巨大的空白。
近年來,數據驅動方法在機器人操作中日益受到重視,這些方法利用大規模數據和機器學習技術,使機器人能夠更好地感知、適應和與多樣化環境交互。得益于這些爆炸性進展,上述空白已大幅縮小。特別是通過利用生成式學習模型在場景理解、推理、任務規劃和策略合成方面的卓越能力,包括操作可變形材料和執行長時程任務序列在內的操作技能已得到展示,而這些技能在之前被認為極其困難。
生成式學習模型作為現代人工智能中最重要的學習模型類別之一,解決了機器人操作中一些先前未解決的挑戰,尤其是在抓取任務中。首先,它們生成多樣化和高質量數據的能力顯著減少了對大量真實世界數據的依賴。通過生成合成的抓取場景和物體變體,這些模型使機器人能夠在數據稀缺的環境中高效訓練并處理更廣泛的物體[4, 5]。其次,它們對高維動作和物體空間的建模能力使機器人能夠預測復雜或未見物體的可行抓取配置和軌跡[6, 7, 8],從而提高了機器人適應新任務和環境的能力,增強了抓取規劃的魯棒性。第三,它們在捕捉物體結構和交互動態的潛在表示學習方面的優勢使機器人能夠泛化到不同形狀、紋理和物理屬性的物體[9, 10],從而在需要精確操作的任務中實現更可靠的性能,即使在非結構化或動態環境中也是如此。這些突破凸顯了生成式模型在推動機器人抓取和操作方面的變革潛力。
在本綜述中,我們重點關注生成式模型,因為它們有潛力解決操作中長期存在的挑戰。生成式模型提供了有前景的解決方案,例如改進場景理解、推理和任務規劃,從而有效緩解這些問題。在以下段落中,我們列舉了操作中的關鍵挑戰,并討論了生成式模型克服這些障礙的潛在機制。
A. 現代操作中的主要挑戰 首先,數據不足和數據獲取效率低下仍然是關鍵瓶頸。數據驅動方法逐漸成為解決操作問題的主導方法之一。眾所周知,諸如強化學習(RL)和模仿學習(IL)等數據驅動方法對數據需求極高,需要大量高質量數據來訓練有效模型[11, 12]。收集高質量數據通常需要人工干預或大量的真實世界機器人實驗,這些過程耗時且難以大規模擴展[13]。為簡化數據生成問題,一些研究者探索了從其他任務或領域遷移學習[14, 15, 16],以及領域隨機化等技術以緩解數據稀缺問題[4]。然而,對高質量、任務特定數據的依賴仍然阻礙了性能和可擴展性。解決這些問題對于釋放數據驅動機器人操作的全部潛力至關重要。
生成式模型如Stable Diffusion[17]和大規模預訓練語言模型[18]在生成高質量合成圖像、視頻、注釋和獎勵信號方面展示了顯著能力。這些模型能夠創建豐富且多樣化的數據集,通過提供可擴展且高效的數據生成管道,顯著緩解數據不足問題。合成數據可用于訓練和驗證機器人操作模型,提升其性能和泛化能力。此外,生成豐富獎勵函數的能力通過提供詳細反饋并支持復雜環境中的探索,促進了更有效的強化學習。這種對數據和獎勵生成的關注為克服數據稀缺和低效數據獲取問題奠定了基礎,從而推動了機器人操作領域的發展。
其次,長時程任務和復雜任務規劃提出了重大挑戰。復雜任務,如多步裝配操作、雜亂環境中的物體重新排列以及與人類的協作任務[19],要求機器人規劃并執行一系列相互依賴的動作。有效的規劃需要復雜的建模技術,并通常假設環境的完全可觀測性[20]。然而,在現實場景中,完全觀測很少可行,因此需要代理對任務有內在理解,包括因果關系及其動作對環境的影響[9, 21]。傳統的確定性模型由于無法充分表示長時程任務中的不確定性和動態交互,難以捕捉這種復雜性[22]。 生成式模型通過將復雜任務分解為可管理的子目標(如鏈式思維推理[23]),在解決長時程任務規劃方面做出了重要貢獻。利用語言生成和代碼生成的能力,大規模生成式模型幫助機器人通過將復雜動作序列分解為更簡單的步驟來規劃任務[24, 25]。這種方法使代理能夠生成明確的思維鏈和動作計劃,增強其對復雜任務的理解和執行能力。通過結合這些生成技術,機器人能夠更好地處理長時程任務中的不確定性和動態交互,從而提高其在操作場景中的整體性能。 此外,生成式模型通過開發世界模型和促進動態學習,增強了機器人對物理世界的理解。通過生成中間狀態(如顯式的視覺表示[26, 27]或隱式的潛在狀態[28]),這些模型使機器人能夠預測和規劃環境中的未來事件。生成潛在未來狀態的視覺能力改進了操作任務中的規劃和決策過程。狀態生成捕捉了準確執行任務所需的基本動態,解決了復雜環境中的不確定性和變異性。這使機器人能夠在操作任務中預測并適應變化,從而提升其在動態環境中的表現。 第三,策略學習需要多模態推理能力。在機器人操作中,當前狀態可能對應多個有效動作和結果,這是由于任務復雜性和環境變異性所致。例如,杯子可以通過把手或杯身抓取,最佳選擇取決于后續任務:為杯子加水時抓取把手更合適,而將杯子遞給他人時抓取杯身更佳。確定性模型通常將輸入觀測映射到單一輸出,無法捕捉許多操作任務中固有的多模態特性。這種限制降低了適應性,并阻礙了在多樣化情境中的表現。通過依賴一對一的映射,這些模型難以表示全部可能的動作范圍,從而阻礙了更靈活和可泛化的機器人系統的開發。 生成式模型在策略學習方面展示了顯著潛力,特別是在機器人操作任務中的抓取生成和軌跡生成方面[6, 29, 30, 31]。通過對整個軌跡的動作序列建模,生成式模型實現了控制策略的聯合優化。例如,擴散模型已被應用于策略學習,能夠生成平滑且可行的運動軌跡[29]。這些模型可以結合機器人操作空間中的固有約束,如生成三維空間中有效抓取姿態的SE(3)約束[8]。這種能力通過生成高效且物理上可行的策略,增強了機器人執行精確和復雜操作任務的能力。此外,它們對多模態分布的建模能力使其能夠捕捉復雜操作任務中所需的多樣化抓取姿態和運動軌跡。 B. 綜述的結構概述 總之,生成式模型在機器人操作的多個層次上提供了解決方案:從基礎的數據和獎勵生成到高級的任務規劃和策略建模。通過解決數據不足、復雜任務規劃、低級控制和表示學習等關鍵挑戰,生成式模型為更自主、高效和強大的機器人系統鋪平了道路。已有一些綜述探討了與機器人和生成式模型相關的主題[3, 32, 33]。這些工作研究了機器人中的基礎模型以及向通用人工智能的進展。然而,尚未有綜述專門關注生成式模型如何解決機器人操作中的關鍵挑戰。本綜述聚焦于生成式模型在操作任務中的應用,試圖提供一個統一且具體的視角,闡明生成式模型在不同層次上對機器人操作的作用。通過強調生成式模型在這些特定領域中的優勢,我們旨在填補現有文獻中的空白。圖1展示了本綜述所探討方法的整體結構。 為系統理解生成式模型在機器人操作中的作用,我們將其應用分為三個層次:基礎層、中間層和策略層。這一結構反映了從基礎數據合成到高級決策再到低級控制的漸進流程。基礎層專注于生成關鍵資源,如合成數據以擴充有限數據集和獎勵信號以指導強化學習,構成模型訓練和評估的支柱。在此基礎上,中間層涵蓋語言、代碼、視覺和狀態生成等任務,使機器人能夠解釋指令、處理感知數據并推理其環境,從而連接感知與動作。最后,策略層直接解決機器人操作的核心問題,包括抓取生成和軌跡規劃,將較低層次的洞察轉化為可操作的控制策略。這一分層框架突出了這些組件的相互依賴性,確保了機器人學習和控制的全面且可擴展的方法。
摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。
I. 引言
隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:
本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。
摘要——本綜述深入探討了在基礎模型(Foundation Models, FMs)背景下的高效參數微調(Parameter-Efficient Fine-Tuning, PEFT)。PEFT是一種具有成本效益的微調技術,旨在通過最小化參數和計算復雜度,同時追求下游任務的最佳性能。基礎模型,如ChatGPT、DALL-E和LLaVA,專注于語言理解、生成任務和多模態任務,訓練數據集涵蓋文本、圖像和視頻等多種形式。基礎模型的多樣性引導了多種PEFT適配策略。因此,本綜述旨在提供一個全面的PEFT技術概述,應用于不同的基礎模型,并解決在理解這些技術、趨勢和應用方面的關鍵空白。我們首先詳細介紹基礎模型和PEFT的發展,隨后系統地回顧了在不同基礎模型中PEFT的主要類別和核心機制,以提供對趨勢的全面理解。我們還探討了PEFT在各種基礎模型中的最新應用,展示了其多樣性,揭示了系統化PEFT方法與多種基礎模型集成的可能性。此外,我們還指出了未來改進PEFT的潛在研究與發展方向。本綜述為初學者和專家提供了一個寶貴的資源,幫助他們理解和使用PEFT在不同基礎模型中的強大能力。所有綜述中的論文可在//github.com/THUDM/Awesome-Parameter-Efficient-Fine-Tuning-for-Foundation-Models找到。 關鍵詞——高效參數微調,基礎模型,大型語言模型,視覺基礎模型,多模態基礎模型
I. 引言
基礎模型(Foundation Models, FMs)通過在大規模數據集上進行預訓練[1, 2, 3, 4, 5, 6](通常涵蓋文本、圖像、視頻等多種類型),以應對多種任務,如語言理解[7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]、代碼生成[18, 19]、圖像或視頻理解[20]、視覺內容生成[21, 22, 23],如圖2(左)所示。目前,各種基礎模型在不同領域占據主導地位,例如,語言相關任務由ChatGPT [4]、ChatGLM [24, 25]和Qwen [26]支持,而視覺語言任務則由ChatGPT-4V [27]應對。DALL-E [28]、Sora [29]和Veo21專注于生成任務,LLaVA [30]和NExT-GPT [31]則擅長多模態任務,如圖2(中)所示。在實際應用中,通常需要在未見過的下游數據集上微調這些基礎模型,以達到特定任務的最佳性能。 高效參數微調(Parameter-Efficient Fine-Tuning, PEFT)技術[32, 33, 34, 35],作為一個高度活躍的研究主題,在微調過程中展示了顯著的成本效益,如圖1和圖2(右)所示。這項技術通過最小化可訓練參數和計算開銷,同時力求在下游任務中達到接近完全微調的性能。以GPT-3 [3]為例,完全微調需要訓練所有的1750億個參數,而LoRA [36]只需訓練470萬或3770萬個參數,節省了超過99.97%的參數,且結果在性能上比完全微調提高了0.1%到0.5%。這種特性為社區和實際應用帶來了顯著的實踐價值。然而,基礎模型的多樣性推動了不同PEFT適配策略的發展。例如,在提示微調方法中,可訓練提示模塊的設計通常根據基礎模型的類型(例如,大型語言模型(LLMs)的文本提示[37],和視覺語言模型(VLMs)的視覺提示[38])有所不同。類似地,LoRA [36]根據基礎模型的架構(例如,大型語言模型的變換器塊[39]或視覺內容生成模型的去噪U-Net[40])集成到不同的組件中。因此,全面綜述PEFT技術如何在不同基礎模型中進行適配,對于推動該領域的發展至關重要。這一理解將為PEFT在多種任務和領域中的更系統和有效應用鋪平道路。 正如上文所強調,基礎模型在結構、方法和應用方面正以前所未有的速度迭代。這種快速演化促使PEFT領域同樣變得動態活躍。因此,跟蹤PEFT在基礎模型中的技術趨勢勢在必行。如圖1所示,我們統計了過去五年中PEFT方法在不同基礎模型中的引用總數,并根據這一趨勢指標得出以下三大趨勢:
趨勢一:PEFT領域正在經歷顯著增長,涵蓋了包括語言、視覺和多模態領域在內的多種任務和基礎模型。 趨勢二:大型語言模型(LLMs)和視覺基礎模型(VFMs)主導了當前的研究格局,研究活動呈現快速且顯著的增長,而視覺語言模型(VLMs)和視覺內容生成模型(VGMs)作為次要研究方向也在逐漸獲得關注。 趨勢三:相比之下,多模態基礎模型(MFMs)仍然相對較少被研究,表明這一領域在未來具有顯著的研究和創新潛力。 在本綜述中,我們旨在探索將PEFT與不同基礎模型集成以提升可擴展性的潛力。此外,鑒于這兩個領域的相互動態發展,近年來出現了幾篇概述綜述文章,如表I所示。例如,Xin等人[32]系統性地回顧了視覺PEFT(涵蓋常見數據集和應用),并識別了未來的研究方向。Zhou等人[34]將范圍擴展到多模態大型語言模型,并呈現了幾種主流PEFT方法的實證研究。他們的研究結果強調了適配器微調的優越性,以及連接層在微調多模態基礎模型中的積極作用。Wang等人[35]則專注于各種PEFT算法的核心思想和原則,為快速理解提供了理論指導。值得注意的是,Han等人[33]從算法角度深入分析了大型語言模型的PEFT,提出了在實際場景中系統設計的建議。這些有價值的綜述為PEFT的某些方面提供了深入的見解。然而,這些見解分散在不同的研究中,且側重于一般化的基礎模型。其次,當前缺乏對PEFT在不同基礎模型中的發展脈絡以及更直觀、統一的示意圖的關注。因此,結構化且全面的綜述變得愈加必要。 因此,我們首先回顧了基礎模型的發展趨勢和PEFT的分類(第二部分)。隨后,我們深入探討了五種模型結構下的PEFT設計(第三部分),包括選擇性PEFT、加法性PEFT、提示PEFT、重參數化PEFT和混合PEFT,并在表II中提供了相應的特征總結。我們還探索了PEFT在不同下游任務中的應用及其相應的場景(LLMs的第四部分,VFMs的第五部分,MFMs的第六部分)。最后,我們在第七部分提供了關于當前研究趨勢和未來研究方向的觀察,以促進PEFT在各個領域的發展。 通過本綜述,我們為廣泛的基礎模型與系統化PEFT方法的整合提供了更深入的理解。
****二、背景
基礎模型概述 基礎模型主要在大規模數據集上進行預訓練,并可以通過微調適應各種下游任務。根據輸入模態和功能的不同,我們將其大致分為五類: 大型語言模型(LLM):設計用于理解、生成和操作文本。這些模型在大量文本語料庫上進行訓練,能夠執行廣泛的語言相關任務,如翻譯、摘要、文本生成和問答。例如BERT、LLaMA、GPT-4和ChatGPT。 視覺基礎模型(VFM):專注于從視覺數據(如圖像)中理解和生成洞察。它們可以處理圖像分類、目標檢測、分割等任務。這些模型在大規模圖像數據集上進行預訓練,使其能夠很好地泛化到各種視覺相關任務。例如Grounding DINO和SAM。 視覺語言模型(VLM):整合了視覺和文本模態,能夠處理需要理解圖像和語言之間關系的任務。它們用于應用如接地、圖像字幕和視覺問答。例如CLIP、BLIP、GPT-4V和GLM-4V。 視覺內容生成模型(VGM):專注于從各種輸入(文本、草圖或其他視覺提示)生成高質量的視覺內容,如圖像、視頻或3D模型。它們用于藝術生成、視頻合成,甚至為其他AI模型創建合成訓練數據。例如Stable Diffusion、DALL-E、Zero-1-to-3和CogVideo-X。 多模態基礎模型(MFM):擴展了LLM的能力,能夠處理多種模態,如文本、圖像和音頻。這些模型可以同時處理和生成文本、圖像和音頻等,從而實現多模態任務中更豐富的交互。例如LLaVA-1.5、Gemini 1.5 Pro、CoDi、SEED-X和NEXT-GPT。
參數高效微調的發展 PEFT已成為微調基礎模型(如BERT和GPT-3)的重要方法,旨在減少微調過程中需要更新的參數數量,從而降低計算和存儲成本。以下是PEFT關鍵發展和相關方法的總結: 選擇性PEFT:這類方法專注于僅微調模型參數的一個子集,而不是所有參數。其基本假設是,在大型預訓練模型中,某些參數對特定任務尤為重要,調整這些關鍵參數可以獲得滿意的結果。早期方法如逐層凍結在微調過程中逐漸解凍模型的層。更多部分策略也出現了,通過經驗方法或學習過程識別哪些層應該解凍和調整。 加法PEFT:加法方法涉及在基礎模型的層之間插入小型適配器網絡(也稱為瓶頸適配器),以實現微調。最早的適配器方法在模型層之間插入瓶頸層,更新這些瓶頸參數,同時保持原始模型基本不變。適配器顯著減少了需要更新的參數數量。 提示PEFT:這類方法涉及學習軟命令(即嵌入向量的序列),以指導模型有效執行任務。 重參數化PEFT:這些方法提出重新表示或分解現有模型參數,以便在微調過程中僅調整部分參數,從而保留大部分未更改的參數。 混合PEFT:這些方法結合了多種PEFT策略,以實現最佳結果,結合了適配器、提示和參數化等技術。最近的方法專注于為不同任務和場景找到這些策略的最佳配置。 三、方法論
本節將描述PEFT方法的幾個重要類別,涵蓋LLM、VFM、VLM、MFM和VGM中的PEFT分類。我們還將分析每個類別的優缺點,以便更深入地理解。 1. 選擇性PEFT
這類方法指的是選擇性地微調原始模型參數的一個子集,同時保持其余參數凍結,或者引入最少數量的額外參數進行訓練,而不改變原始參數。 1.1 選擇性PEFT的基礎 在這組中,包括兩種核心類型:特定選擇和自動選擇。特定選擇是指預先確定要選擇的參數,而自動選擇是指模型自動決定要調整的參數。 特定選擇:這類方法旨在選擇特定的層或神經元進行微調。常用的方法包括凍結層、BitFit和PASTA。 自動選擇:這類方法旨在利用各種算法自動確定要訓練的參數,如Masking、Diff-Pruning、FISH、AutoFreeze Layers和CHILD-TUNING。 1.2 選擇性PEFT在更多基礎模型中的應用 線性探針(Linear Probe)展示了CLIP模型,該模型聯合訓練文本編碼器和圖像編碼器,以在測試時進行零樣本預測。FC-CLIP使用共享的凍結卷積CLIP骨干構建了一個單階段系統,用于開放詞匯分割。Tune-A-Video提出了一種文本-視頻對微調方法,并提出了針對文本到視頻生成的定制時空注意力機制。LayerNorm Tuning僅調整注意力塊中的歸一化層權重,展示了在GPU內存使用和可訓練參數方面的顯著減少。 2. 加法PEFT 如圖3所示,適配器的核心思想是學習一組參數,可以將一層的輸出轉換為下一層的輸入,以適應特定任務。適配器是小型參數集,可以插入基礎模型的層之間。它們允許網絡在不修改其原始參數的情況下對新任務進行微調。 2.1 加法PEFT的基礎 對于這組,包括三種關鍵類型:瓶頸適配器、多適配器和適配器稀疏性。 瓶頸適配器:這類方法在NLP領域提出,靈感來自跨域圖像分類任務中的殘差適配器和ResNet。適配器層具有簡單的結構:它被下投影到較小的維度,通過非線性激活函數,然后上投影回原始維度,類似于瓶頸。此外,整個適配器層的輸入和輸出之間存在殘差連接。 多適配器:這類方法指的是向模型添加更多適配器模塊,以增強其可轉移性。這些方法作為專門的知識插件提出,以整合各種任務的知識,而不會忘記先前任務的知識,并提高瓶頸適配器的性能。 適配器稀疏性:這類方法旨在根據適配器的內部結構充分利用參數效率。如AdapterDrop、LST和Convpass。
2.2 加法PEFT在更多基礎模型中的應用 LST在T5和CLIP-T5模型上進行了評估,揭示了當微調整個網絡時,LST減少了69%的內存成本,而其他方法在類似參數使用情況下僅實現了26%的減少。Convpass通過在ViT中引入卷積旁路作為視覺Transformer適配器,引入了不到0.5%的可訓練參數來適應視覺模型。AdaptFormer引入了一個輕量級模塊,參數少于ViT的2%,以提高識別性能。ViT-Adapter通過集成圖像特定的歸納偏差增強了標準ViT骨干的內在表示能力。SAN將掩碼提議生成和類別識別任務分離,以實現開放詞匯語義分割。通過將輕量級側網絡附加到固定的CLIP模型,預測掩碼提議和注意力偏差,以指導CLIP識別掩碼的類別。CSN(DTL)通過緊湊的側網絡從骨干中解耦權重更新以識別對象。T2I-Adapter學習輕量級適配器模式以在不更新文本到圖像模型固有框架的情況下提高文本到圖像模型的性能。IP-Adapter使用圖像提示并引入交叉注意力機制以有效學習圖像嵌入。I2V-adapter僅需微調基礎擴散模型的1%參數。ControlNet添加了空間局部化條件。隨后,ControlNeXt引入了一個輕量級條件控制模塊,進一步將可學習參數減少到ControlNet的不到10%,擴展到視頻生成和超分辨率。LLaMA Adapter V2通過解鎖更多可學習參數有效增強了LLaMA-Adapter。CLIP-Adapter和Tip-Adapter等建議插入可訓練適配器以將VLM微調執行到固定的CLIP模型中。 3. 提示PEFT
提示微調幾乎是基礎模型中最常見的PEFT方法,如圖4所示。這類方法涉及將精心設計的提示納入輸入或Transformer的層中,旨在將輸入分布與原始訓練數據對齊,并引導模型生成所需的輸出。 3.1 提示PEFT的基礎 這里討論三種類型:硬提示、自動提示和軟提示。 硬提示:這類方法意味著提示的初始形式涉及手動指定模板并將其與輸入連接以生成所需輸出,而不修改原始模型參數。 自動提示:這類方法提出了一種自動提示搜索方法,使用探索性搜索自動生成提示,以解決硬提示手動設計的挑戰。 軟提示:這類方法進一步擴展了范圍,超越了詞匯表中人類可理解的單詞。這些提示稱為連續或軟提示。在這個高級進展中,生成過程從離散的、人類驅動的轉變為連續的、機器驅動的。代表方法包括Prefix Tuning、Prompt Tuning、P-Tuning、PPT等。 3.2 提示PEFT在更多基礎模型中的應用 VP通過向圖像的像素空間添加提示(如沿圖像邊緣填充像素)來適應基礎模型到新任務,而不改變模型的參數。VPT在輸入空間中引入了一些可學習參數,這些參數少于原始模型參數的1%。DAM-VP通過自適應選擇和優化不同圖像子集的視覺提示,提高了預訓練模型在具有高多樣性和大數據集的下游任務上的性能。ILM-VP通過引入基于迭代標簽映射的框架,顯著提高了目標任務的精度,并優于現有方法。EVP通過將提示視為可學習實體并應用輸入多樣性和梯度歸一化,顯著提高了各種數據集的分類準確率。LION是一種輕量級且有效的視覺提示微調方法,利用隱式平衡層以最小的計算成本將預訓練模型適應下游任務。Textual Inversion找到了一種在CLIP的文本編碼器中描述新概念的方法,以微調擴散模型(使用少于20k參數)生成特定風格的內容。CoOp使用可學習向量對提示的上下文詞進行建模,以實現PEFT以識別或檢測對象。OVSeg結合了掩碼和彩色提示,顯著提高了VFM的微調性能。Q-Former使用輕量級投影橋接模態差距,大大減少了可訓練參數。 4. 重參數化PEFT 雖然加法PEFT通過采用下投影和上投影技術減少了可調參數的數量,但其合成結構可能會對模型的推理速度產生負面影響。同樣,訓練提示在提示微調中可能不穩定,因為它依賴于人類輸入,這通常是主觀的。此外,在輸入序列中包含提示標記可能會減少有效序列長度,可能導致次優性能。為了解決這些限制,我們引入了另一種PEFT技術,即重參數化,如圖5和表VI所示。該技術對初始模型參數的低維表示進行重參數化以進行訓練,同時在推理時將權重轉換回來。 4.1 重參數化PEFT的基礎 重參數化主要包括兩組:LoRA及其變體和MPO。 LoRA及其變體:LoRA利用了許多機器學習問題中固有的低秩結構作為基本重參數化技術。Aghajanyan等人深入研究了內在維度,并證明自然語言任務可以用非常少的參數解決,有時只有幾百個。這一發現意味著基礎模型的預訓練可以被視為一種知識壓縮形式,其中每個任務對應于模型子空間中的唯一內在維度。實證研究表明,較大的模型往往比其基線對應物具有更低的內在維度。 MPO:矩陣乘積算子是張量網絡的表示,其特征是隨著輸入維度的增加,參數和計算復雜度增長緩慢,使其適合壓縮基礎模型。MPO分解參數矩陣并定義中心張量和輔助張量。鑒于MPO分解的性質,中心張量包含的參數明顯多于輔助張量,表明它封裝了基礎模型的基本語言信息。對于下游任務適應,僅需要訓練低參數的輔助張量。 4.2 重參數化PEFT在更多基礎模型中的應用 LoRand利用低秩分解創建緊湊的適配器進行微調,僅使用原始模型參數的1-3%即可實現競爭性能,顯著減少了計算開銷。LyCORIS提供了一套先進的工具,用于微調Stable Diffusion模型,增強了其文本到圖像生成的能力,具有改進的控制和質量。DiffuseKronA采用Kronecker積分解來最小化擴散模型注意力層中的參數,在不影響圖像生成質量的情況下實現了顯著的效率提升。Mix-of-Show提出了嵌入分解的LoRA(ED-LoRA)來訓練單個概念,梯度融合用于中心節點概念融合,以及區域可控采樣用于擴散模型。LoRA-Sparse開發了低秩線性投影層用于稀疏注意力,以增強LLaVA-1.5的性能。 5. 混合PEFT PEFT領域中一個獨特且有前途的方法圍繞多種方法的集成。這種戰略組合將幾種獨特的PEFT技術(如LoRA、BitFit、P-Tuning等)結合到一個單一的戰略框架中。這種集成方法允許模型借鑒每種方法的優勢和見解,從而建立一個全面而強大的框架。通過這種融合,模型能夠更有效地優化參數,減少計算負擔,并可能提高性能,為PEFT提供了一個有趣且有前途的途徑,如表VII所示。 5.1 混合PEFT的基礎 主要的混合技術包括UniPELT、COMPACTER、S4、NOAH和DiffFit。 UniPELT:這是一個統一的框架,集成了適配器、前綴微調和LoRA的核心方面,并采用門控機制來調節這些模塊。線性層門控機制本質上決定了每個模塊的貢獻和操作。實驗結果表明,與集成的獨立PELT方法相比,UniPELT始終顯示出1%到4%的性能提升。總的來說,UniPELT支持了集成方法在進一步提高基礎模型適應特定任務的效率和有效性方面的承諾。 COMPACTER:通過創新放置和訓練方法擴展了基本適配器的概念,引入了一種基于低秩矩陣Kronecker積的新型輕量級適配器結構。這一進步僅需添加原始模型參數的0.05%到0.2%,但在GLUE和SuperGLUE等基準測試中表現出色。 MAM適配器:進行了深入研究,重點關注適配器的排列和軟提示的使用,以呈現參數高效遷移學習的統一視角。他們得出了幾個啟示和關鍵結論,包括:1)縮放并行適配器在修改FFN方面脫穎而出。2)并行放置的適配器明顯優于順序放置的適配器。此外,直接比較多頭注意力和FFN并行放置顯示出優越的結果。3)在受限參數預算的情況下,對注意力頭的修改導致最佳結果。相反,當允許更大的容量設置時,FFN受益最多。4)實施軟提示(如前綴微調)通過調整極小比例的參數(0.1%)帶來了顯著的性能提升。基于這些見解,MAM適配器引入了多頭注意力適配器,該模型代表了FFN層的并行適配器和軟提示的集成。該模型結合了在注意力子層中實現的前綴修改(較小的瓶頸維度為l=30)和用于修改FFN表示的縮放并行適配器(瓶頸維度為r=512)。盡管僅使用了6.7%的參數數量,MAM適配器展示了獨特的效率和性能組合。此外,與BitFit和提示微調等方法相比,它顯著領先,始終超越LoRA、適配器和前綴微調等核心方法。 S4:探索了各種以較少參數微調模型的方法。它研究了將層分為四組、調整可訓練參數、選擇要微調的組以及應用特定技術。它引入了一種名為S4的創新方法,將層分為G1、G2、G3和G4,類似于紡錘形狀。中間組有更多層,而頂部和底部有較少層。所有組保持可訓練,參數均勻分布在層中,并應用不同的PEFT技術。G1使用適配器,G2受益于適配器和前綴微調,G3使用適配器、前綴微調和BitFit進行微調,G4則進行前綴微調、BitFit和LoRA。實驗表明,僅使用0.5%參數的S4方法在不同模型、大小和任務中始終優于單個技術。 5.2 混合PEFT在更多基礎模型中的應用 NOAH(神經提示搜索)實現了神經架構搜索以設計提示模塊,并將適配器、LoRA和VPT集成到每個Transformer塊中。DiffFit僅微調偏置項并引入縮放因子以實現訓練效率和存儲減少。V-PEFT通過研究微調位置,提出了基于視頻任務的PEFT方法的統一分析。DreamBooth利用少量個體圖像并引入了一種新的自生類特定先驗保留損失,以將獨特標識符與主題關聯,同時保持類變化。 四、大型語言模型的PEFT
因果語言模型的PEFT 因果LLM在LLM社區中非常流行,作為一種基礎語言模型,也稱為自回歸LLM,例如GPT-3、BLOOM、Falcon和LLaMA系列。這里我們簡要回顧了因果LLM中PEFT的進展。例如,LLaMA-adapter在凍結的LLaMA-7B的Transformer層之后注入了一組可學習的適應提示,僅需1.2M可訓練參數即可擴展語言指令。類似地,串行適配器微調和并行適配器微調有效地微調了GPT-J-6B和BLOOM-7.1B,并在數學推理上優于GPT-3.5。此外,LoRA系列經常用于這組LLM,例如QLoRA引入了一系列內存節省技術來微調LLaMA,而不會犧牲性能。LoRA-Sparse基于LLaMA減少了超過一半的自注意力計算,同時增強了NLP任務性能。MoSLoRA融合了MoE和LoRA來微調LLaMA,提高了常識推理。此外,Prefix tuning、P-Tuning和Prompt tuning也支持各種因果LLM,請參閱開源庫以獲取詳細信息。
前綴語言模型的PEFT 前綴LLM,也稱為非因果LLM,是LLM社區中的另一個主流,主要由ChatGPT系列代表。回顧一下,P-tuning系列利用提示標記僅使用0.1-0.3%的可訓練參數微調ChatGPT,作為跨各種模型規模和語言理解任務的通用解決方案。OrehMoE利用多適配器模塊化技能架構微調ChatGPT,從而推進了PEFT中的前向轉移。同時,FATE-LLM利用LoRA和P-Tuning v2調整ChatGPT-6B,以評估聯邦場景中的語言能力,分別僅需0.06%和0.048%的可訓練參數。類似的工作包括DP-LoRA,而CPMI-ChatGLM應用P-Tuning v2和LoRA微調ChatGPT-6B,以更好地理解現實場景。MoELoRA通過使用任務驅動的門函數控制每個LoRA的貢獻,有效地微調了ChatGPT-6B。 總的來說,我們回顧了PEFT方法在兩種代表性基礎語言模型中的進展:因果LLM和前綴LLM。在實踐中,編碼器-解碼器LLM如T5也是流行的之一,上述大多數PEFT方法同樣適用于它們。例如,LLaMAFactory靈活定制了各種PEFT方案以增強語言建模,如LoRA、DoRA、rsLoRA、PiSSA等。該存儲庫還涵蓋了多種類型的LLM,包括但不限于我們討論的兩種類型。 五、視覺基礎模型的PEFT
基礎視覺模型的PEFT ViT是VFM的主流和基礎骨干。因此,本小節關注ViT中PEFT的最新進展。廣義上講,該類別的VFM僅考慮圖像作為輸入。具體來說,一系列PEFT方法已被考慮用于VFM,如適配器微調(AdaptFormer、Conypass、AIM、ST-Adapter、Rob-Adapter、LoRand、SCT、Polyhistor、VMT-Adapter)、提示微調(VPT、CVP、LPT、IDPT、Pro-tuning、LION、ViPT、VP、EVP、DAM-VP、EVP-L、ProSFDA、P2P、ILM-VP)、前綴微調(Prefix-tuning、PATT、eTT、LAM、VQT)、側微調(Side-Tuning、SAN、ViT-Adapter、LST、SAM-LST、E3VA、CSN (DTL))、規格微調(Linear Probe、BitFit、DP-BiTFiT、DiffFit、LN-TUNE)和重參數微調(LoRA、KAdaptation、FacT、EFFT、SSF、RepAdapter、ATTNSCALE、PHNNs、DnA)等。 如上所述,各種PEFT方法廣泛出現在VFM的下游任務中。例如,i)圖像識別是PEFT的主要場景,如AdaptFormer、VPT、CSN (DTL)。Rob-Adapter提出了無損適應,以實現操作任務中的最佳性能。此外,相當多的工作也在圖像相關場景中取得了成功,如LPT、FacT、LoRA、NOAH、MONA等。ii)PEFT在視頻理解中也具有影響力。其中,AdaptFormer、VPT和LoRA在視頻相關任務中非常受歡迎。ST-adapter僅需少量(~8%)的每任務參數成本即可理解視頻。AIM提出了空間、時間和聯合適應,具有顯著較少的可調參數,以實現高效的視頻理解。APT涉及注意力提示微調,參數少于1%,以減少視頻識別中的延遲和FLOPs。此外,LoSA、RaSTFormer等也在時間動作定位和短視頻中做出了努力。
提示視覺語言模型的PEFT 本小節關注提示VLM中PEFT的最新進展。一般來說,該類別的VFM考慮視覺和文本信息作為輸入。具體來說,一系列PEFT方法已應用于提示VLM,如視覺接地(CoOp、CoCoOp、ProGrad、MaPLe、TPT、CPT、DiffTPT、CLIP-Adapter、Tip-Adapter、PromptSRC、BadCLIP、MePT、NODE-Adapter、AAPL、CoPL、Any-Shift Prompting、PIN、CLAP、TCP、DePT)、語義分割(SAN、LLM-Former、FC-CLIP、MasQ-Tuning、Test Time Prompt Tuning (TTPT from FreeSeg)、mask prompt tuning、EVP、ETRIS)、視頻理解(Vita-CLIP、MA-CLIP、DualPath、Text-Adapter (M2-CLIP)、TDS-CLIP、Omni-CLIP、EVL、Side4Video、EZ-CLIP、ActPrompt、MV-Adapter)、點云分割(PointCLIP v2、P2P、CLIP2Point、EPCL、IDPT、DAPT)等。 根據輸入到模型的提示類型,現有工作大致分為文本提示和視覺提示VLM。i)文本提示:一系列工作(如CoOp、KgCoOp)使用提示微調方法對文本輸入執行PEFT以進行視覺任務。TCP使用基于文本的類感知提示來解鎖文本標記對未見域的有限泛化。請注意,該組中的一些方法最初是為文本提示VLM提出的,盡管它們也常用于更廣義的VLM。ii)視覺提示:這類PEFT方法(如OVSeg和CPT)需要圖像和視覺或文本提示來執行微調,這些通常包括視覺提示(點、邊界框、掩碼、顏色)、文本提示、參考提示、組合等。GP-SAM和VRP-SAM等將各種視覺參考和幾何提示(點、框、涂鴉、掩碼)編碼為提示嵌入作為輸入以分割任何內容。PIN提出了一種視覺提示方法,即輸入不可知的位置插入,以探索視覺接地的定位能力。簡而言之,這類PEFT方法遵循定制不同視覺任務和提示的原則。
視覺內容生成模型的PEFT 最近,擴散模型作為視覺內容生成的基礎模型趨勢。在本小節中,我們回顧了擴散模型中PEFT方法的最新進展,如圖6所示。具體來說,一系列PEFT方法在各種擴散模型場景中實施。例如,圖像生成(Textual Inversion、T2I-Adapter、DreamBooth、ControlNet、GLIGEN、Uni-ControlNet、ControlNeXt、CCM、IP-Adapter、CTRL-Adapter、X-Adapter、LoRA-Composer、DiffuseKronA、SVDiff、SODA)、視頻生成(SimDA、StyleCrafter、I2V-Adapter、Still-Moving、Tune-A-Video、CTRL-Adapter、Customize-A-Video、ControlNeXt)、編輯(Concept Sliders、PTI、CCEdit、SVDiff、DiffMorpher)、超分辨率(ResAdapter、DiffFit、ControlNeXt)、3D生成(IPDreamer)等。在這些方法中,LoRA、ControlNet和Adapter相關方法在各種擴散模型中經常使用。而PEFT在各種場景中的趨勢分析,圖像生成和視頻生成顯然更受青睞。 具體來說,ControlNet系列調整可訓練副本以學習各種可控條件,例如Openpose、Depth、Canny、Lineart、Animel_lineart、Mlsd、Scribble、Hed、Pidi、Teed、Segment、Norma及其排列。LoRA相關技術在圖像或視頻生成、編輯等方面得到了應用,如Smooth Diffusion、STAMIlNA、DreamSync、StyleAdapter、Mix-of-Show和DragVideo。廣義上講,LoRA通常配置在注意力模塊中,而在穩定視頻擴散中,更多努力用于時間跨幀注意力,如Customize-A-Video中的T-LoRA。Adapter相關技術傾向于引入各種單一或組合的輕量級適配器模塊,以微調擴散模型以實現各種條件的精確控制。 六、多模態基礎模型的PEFT
廣義多模態基礎模型的PEFT 狹義上講,前一小節中提到的一些VLM包含了多模態模型的范圍,因為它們涉及文本和視覺。然而,上述模型更強調視覺任務的個別技能,例如接地和分割。因此,我們在視覺范圍內回顧它們。在這里,我們調查了廣義MFM中的PEFT方法,這些模型不僅限于單一語言或視覺技能,而是更廣泛的多模態理解。例如,PEFT-MLLMs對LLaVA-1.5、ShareGPT4V、Qwen-VL_Chat執行了適配器、LoRA、前綴微調、IA3的實證探索。LLaMA-Adapter V2通過解鎖更多可學習參數有效增強了LLaMA-Adapter,從而通過僅在LLaMA上插入14M參數(0.04%)執行開放式多模態指令。LayerNorm Tuning僅調整每個注意力塊中的LayerNorm,足以提高多模態性能。LoRA-Sparse引入了用于稀疏注意力的低秩線性投影層,以提升LLaVA-1.5的多模態性能。此外,LoRA和Q-Former在Monkey、mPLUG-Owl、CogVLM和GLM-4V等中盛行,以增強不同的多模態能力。
下一代多模態基礎模型的PEFT 下一代MFM不僅限于少數模態,它們可以感知輸入并生成任何組合的文本、圖像、視頻和音頻輸出,如CoDi系列、HuggingGPT、Visual-ChatGPT、SEED-X、Gemini 1.5 Pro、Show-o和NExT-GPT。在這里,我們調查了這類模型中PEFT的最新進展。例如,SEED-X首先在Llama2-chat-13B上進行預訓練,然后在大量多模態數據上使用LoRA。Anole利用數據高效(約6000個樣本)和參數高效(少于40M參數)的微調策略,促進了視覺和多模態生成。NExT-GPT同樣使用LoRA調整相當少的參數(1%)以更新特定投影層,從而增強多模態能力。 七、討論與未來方向
當前趨勢的觀察 可靠性:PEFT方法對超參數敏感,例如瓶頸維度、秩和層順序。此外,由于PEFT中使用的結構或網絡顯著小于基礎模型本身,最佳超參數通常與全微調使用的超參數大不相同。例如,PEFT的最佳學習率通常比全微調的學習率高得多。因此,開發簡單且高效的低敏感性超參數解決方案至關重要。 可解釋性:理解PEFT方法的內部機制仍然是一個挑戰。在LLM中,提示可以以相對直觀的方式解釋。然而,在基礎模型中,主要挑戰是各種提示作為無序的基于標記的提示學習,難以轉化為可理解的格式。此外,不同的PEFT方法面臨特定的可解釋性挑戰。例如,理解適配器中學習到的參數與層之間的關系是一個重要課題。 統一基準:盡管有Hugging Face的PEFT和AdapterHub等庫,但PEFT仍然缺乏全面的基準。不同的研究使用不同的評估數據集和任務設置,導致性能評估標準不一致,從而影響用戶評估不同PEFT方法的優缺點。為了解決這個問題,當前的趨勢是建立標準化的基線,以便更公平地比較不同方法。
未來方向 跨學科:PEFT的未來進展可能來自跨學科的見解,特別是隨著基礎模型應用于從醫學和自然科學到社會科學的各個領域。特別是,將領域特定的約束集成到PEFT框架中可能會導致更量身定制的微調方法。例如,在醫學成像中,結合醫學領域知識和低維先驗或因果關系可以增強模型性能,即使只有最少的參數更新。 持續PEFT:PEFT為在特定任務上微調基礎模型提供了一個表現良好的解決方案。然而,當這些方法適應一系列任務或動態數據流時,模型可能會干擾或覆蓋已學習的知識。相比之下,持續學習專注于開發可以持續學習新任務同時保留已學習任務記憶和性能的系統。PEFT和持續學習的結合將使PEFT在動態變化的任務或環境中更加穩健。因此,開發用于持續學習的PEFT可能有助于在現實世界中構建更智能的學習系統。 PEFT的架構:了解特定架構對PEFT的適用性和優勢,并探索如何為特定架構設計更有效的PEFT方案。例如,分析Transformer架構中不同層和組件對PEFT的響應特性,為架構優化和定制PEFT方法提供基礎。 PEFT的縮放定律:當前的努力揭示了在可訓練參數超過某個閾值后收益遞減,表明參數選擇的最佳范圍。對于PEFT方法,理解這些縮放行為對于優化效率和指導未來研究至關重要。例如,當增加或減少PEFT方法(如LoRA、適配器或前綴微調)中的可訓練參數數量時,性能如何縮放?這可以為未來的模型設計和微調策略提供指導。 分層抽象:PEFT中的分層抽象類似于人類大腦如何分層處理和存儲信息。在大腦中,感官輸入通過從低級感官神經元到高級認知區域的層層復雜性進行處理。這種分層方法使大腦能夠創建抽象表示并理解復雜信息。類似地,PEFT通常通過調整模型不同層次的參數(如早期層用于一般特征,后期層用于任務特定適應)來工作。通過微調特定層或添加模塊化結構,PEFT促進了任務的分層適應——反映了大腦從簡單到復雜表示的能力。這種分層設計不僅提高了模型的靈活性,還允許跨任務有效重用現有知識。 腦啟發的PEFT:有趣的是,PEFT與神經科學中的原則一致,特別是高效編碼和突觸可塑性理論。在大腦中,適應和學習通過優先考慮能量效率同時保持靈活性和穩健性的機制發生——這一概念與PEFT的目標產生了共鳴。例如,在人類大腦中,當我們學習新事物時,不是調整所有神經連接,而是僅修改特定的突觸通路。這種選擇性調整有助于在不顯著破壞現有知識的情況下有效整合新信息。類似地,PEFT允許模型通過更新最少數量的參數來專門化和適應新任務,這與大腦中的神經回路為新技能或經驗重組的方式一致。這種相似性為結合生物啟發的機制提供了有趣的機會,這可能會導致更符合生物學和高效的微調過程。 八、結論
總之,PEFT與基礎模型的集成展示了跨各種任務和領域高效模型適應的一個有前途的途徑。正如本報告所強調的,基礎模型的快速發展和活躍的PEFT社區強調了跟上技術趨勢以實現最佳性能的重要性。通過探索適應策略(如選擇性、加法、提示、重參數化和混合PEFT)以及跨不同模型結構(如LLM、VFM、VLM、MFM和VGM),本報告提供了關于提高效率和有效性的見解。報告強調了在多樣化基礎模型背景下系統理解PEFT技術的必要性,為該領域的未來進展和應用鋪平了道路。
大規模混合專家(MoE)模型的出現標志著人工智能領域的一項重大進展,通過條件計算提供了更強的模型容量和計算效率。然而,這些模型的部署和推理在計算資源、延遲和能效方面提出了顯著的挑戰。本綜述系統地分析了當前混合專家模型推理優化技術的全貌,涵蓋了整個系統堆棧。我們首先建立了一個分類框架,將優化方法分為模型級、系統級和硬件級優化。 在模型級別,我們考察了包括高效專家設計、注意力機制、修剪、量化、知識蒸餾等各種壓縮技術,以及動態路由策略和專家合并方法等算法改進的架構創新。系統級別上,我們研究了分布式計算方法、負載平衡機制和高效調度算法,這些方法使得可擴展部署成為可能。此外,我們還深入探討了硬件特定的優化和協同設計策略,以最大化吞吐量和能效。 本綜述不僅提供了現有解決方案的結構化概述,還識別了混合專家推理優化中的關鍵挑戰和有前景的研究方向。我們的全面分析為研究人員和從事大規模 MoE 模型資源受限環境部署的實踐者提供了寶貴的資源。為了便于后續更新和分享 MoE 推理優化研究的最新進展,我們已建立了一個公開的資源庫,網址為://github.com/MoE-Inf/awesome-moe-inference/
大規模語言模型(LLM)已經徹底改變了人工智能領域,展示了在多個領域,包括自然語言處理[20, 115, 157]、計算機視覺[31, 33, 194]以及多模態任務[86, 123, 162]中的前所未有的能力。像GPT-4[2]、Claude[8]和Gemini[151]這樣的模型,在從自然語言理解到復雜推理和代碼生成等任務上,取得了顯著的成績。這些模型的出色能力主要歸功于其龐大的規模,包括模型參數的數量和訓練過程中投入的計算資源。實踐中,越來越多的實證研究表明,隨著模型規模的增大,性能不斷提高,這一現象在語言建模和其他領域的多種擴展規律中得到了體現[5, 19, 74]。然而,這一發展趨勢在推理階段(尤其是實際部署中)面臨著巨大的計算效率和資源利用挑戰[10, 173, 187, 199]。 混合專家(MoE)模型作為一種有前景的架構解決方案,已經出現并在一定程度上解決了機器學習中的擴展性問題[137]。最早由Jacobs等人[68]于1990年代初提出,作為一種在神經網絡中學習子任務的方法,許多基于MoE的模型[37, 53, 155]也在多年的發展中相繼問世。在大規模語言模型的時代,MoE再次迎來了復興[1, 29, 70, 148]。MoE的核心原則是通過一個學習的門控機制將模型的容量分配到多個專門化的子網絡或專家上,每次僅激活與當前輸入相關的專家。這種方法允許模型保持較大的參數規模,同時通過稀疏激活保持計算開銷的可控性。近期的實現,如Mixtral 8x7B[70]、Switch Transformers[42]和GShard[82]等,已經證明了這一策略在將語言模型擴展到萬億級參數的同時,仍能保持合理的計算需求。 MoE在擴展模型方面的成功,使其被廣泛應用于各種前沿系統中。例如,谷歌的GLaM[35]在推理時使用顯著更少的計算資源就超過了GPT-3的表現。類似地,最近的開源MoE模型Mixtral 8x7B[70],盡管模型規模遠小于密集型模型,但仍表現出與更大模型相媲美的競爭性能,并保持了高效的推理特性。表1總結了近年來備受關注的前沿開源MoE模型,進一步突顯了MoE架構的巨大潛力。這些成功的案例引發了學術界和工業界對MoE的廣泛關注,促使了模型設計[22, 164, 192]、訓練技術[34, 47, 101]以及部署策略[15, 16, 183]等方面的創新。 然而,MoE模型在推理中的高效部署仍然面臨獨特而嚴峻的挑戰[65, 150, 181, 196]。專家激活模式的動態性引入了資源管理和調度的復雜性,這是傳統密集型模型所沒有的。這些挑戰涵蓋了多個層面:在模型級別,專家架構和路由機制的設計直接影響推理性能;在系統級別,分布式計算和負載平衡的管理變得日益復雜;而在硬件級別,需要專門的加速技術來處理稀疏計算模式。 為了解決MoE部署和推理中的這些挑戰,已經提出了許多方法[72, 125, 133, 170]。盡管這一領域的研究快速增長并顯示出其重要性,但也使得識別關鍵趨勢和最佳實踐變得困難。現有文獻中的一個關鍵空白是缺乏一個系統化的框架,用于分析和開發綜合性的MoE推理優化解決方案。 為了彌補這一空白,本文提供了一個關于MoE模型推理優化技術的全面綜述。我們提出了一個分類框架,將優化方法分為模型級、系統級和硬件級優化,如圖1所示。這個框架提供了一個結構化的方法來理解和比較不同的優化技術。盡管已有關于大規模語言模型效率[10, 84, 90, 156, 159, 173, 187, 199]和MoE架構[13, 41, 158]的相關綜述,但我們的工作是首個專門聚焦于MoE模型推理優化技術的綜述。我們系統地分析了從模型架構到硬件加速的不同抽象層級的優化方法,為研究人員和實踐者提供了一個寶貴的資源,幫助他們將MoE模型部署到不同的實際應用中。
本綜述的其余部分組織如下:第2節介紹了MoE模型及其推理特性;第3至第5節分別詳細介紹了模型級、系統級和硬件級的優化技術;第6節討論了未來的挑戰和機遇;第7節對綜述進行了總結。 混合專家(MoE)的基本原理
模型層級優化旨在通過架構、參數優化和算法設計的系統性改進,增強MoE模型的固有結構和效率。這些優化可以大致分為三個主要領域:高效的模型架構設計、模型壓縮技術和算法改進。架構設計側重于開發更高效的專家和注意力結構,壓縮技術則通過剪枝、量化和知識蒸餾等方法,減少模型大小和內存占用。算法改進則集中在提升MoE模型的動態特性,包括路由機制和專家組合策略。圖3展示了本節的詳細結構。
由于MoE架構的獨特結構,許多研究集中在通過利用該架構固有的稀疏激活模式來加速推理過程,尤其是在系統層級。通常,MoE模型在兩種場景下部署:云環境中的多個服務器和邊緣環境中的單個設備。在云集群中,MoE模型分布在多個設備上,以實現并行執行。除了傳統的并行化技術,如數據并行、張量并行和流水線并行[69, 110, 126],專家并行是專門為MoE模型量身定制的特殊方法。在邊緣設備上,受限于GPU內存,往往無法容納MoE模型的所有參數,因此需要將部分參數卸載到CPU內存或SSD存儲中。為了解決這一問題,專家卸載技術被開發出來,以充分利用專家的稀疏激活模式,實現高效執行。圖6展示了本節的詳細結構。
最近針對MoE推理的硬件優化通過新穎的架構和共設計方法解決了關鍵挑戰。這些優化主要針對每字節操作數(Op/B)效率、異構計算單元和內存訪問模式等關鍵問題。以下討論了硬件層級解決方案中的一些重要進展。 MoNDE [76] 引入了一種近數據處理(NDP)解決方案,旨在解決稀疏激活和專家參數傳輸開銷的問題(圖8)。該架構將基于CXL(計算擴展鏈接)的NDP控制器與專用的NDP核心結合,用于內存中的計算,利用LPDDR SDRAM(低功耗雙倍數據速率同步動態隨機存儲器)提供高帶寬和能效。系統實現了一種混合計算策略,其中GPU處理頻繁訪問的“熱”專家,而NDP單元處理“冷”專家,通過激活移動范式而非傳統的參數移動來實現并行執行。 FLAME [97] 是第一個完全利用MoE稀疏性加速變換器在FPGA上的框架。在模型的參數級別,FLAME采用M:N剪枝來減少不必要的計算,這可以在列平衡結構剪枝和無結構剪枝之間取得平衡;在專家級別,通過CEPR(循環專家預測)進行稀疏激活預測。通過改變專家激活路徑的模式,可以有效提高專家預測的準確性。然后,使用雙緩沖機制在計算前一個專家的同時加載預測的專家,以提高專家部署效率。 M3ViT [40] 和 Edge-MoE [133] 基于多任務場景中的注意力計算重排序構建了它們的FPGA架構。對于推理,M3ViT 只激活與任務相關的稀疏“專家”路徑,以提高效率,并通過硬件級共設計實現任務之間的零開銷切換。Edge-MoE 是首個用于多任務ViT的端到端FPGA實現,提出了一些激進的技術,包括一種近似方法來解決FPGA上GELU函數計算的復雜性,以及一個統一的線性層模塊,以實現硬件資源的高效重用。 Duplex [188] 為每個層級執行選擇適合的目標設備,該設備結合了xPU和邏輯PIM(內存中處理)。這意味著它可以集成兩種類型的處理單元,共享設備內存。由于這兩種處理單元之間在計算和內存訪問方面的瓶頸,能夠在同一設備上同時實現高計算和內存訪問利用率。此外,它還引入了一種替代PIM微架構。邏輯PIM通過邏輯芯片上的強大處理單元以及更多的硅通孔(TSVs)優化了低Op/B操作,從而實現了DRAM芯片和邏輯芯片之間的高帶寬通信。此外,它可以并行執行專家和注意力階段,以最大化推理效率。 Space-mate [119] 提供了其在移動設備上用于SLAM(同時定位與建圖)任務的加速器設計。主要包括一個無序(OoO)SMoE路由器,用于緩解低延遲的數據傳輸,以及單跳(SS)和雙跳(DS)異構核心架構,利用相同專家中相似零模式導致的粗粒度稀疏性,以實現高吞吐量和能效。
摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。
關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述
1 引言
技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。
例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。
第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。
圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。
本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。
本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。
2 為什么需要對齊與融合
對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。
2.1 提升全面性與魯棒性
對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題
在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性
對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用
對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊
多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊
顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。
DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊
隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法
圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。
這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法
近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。
多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。
編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。
在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。
這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。
模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。
基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。
圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。
自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。
在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。
例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。
持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。
在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。
摘要
大型語言模型(LLMs)的成功本質上與海量、多樣化和高質量的訓練和評估數據的可用性密切相關。然而,高質量數據的增長速度遠遠落后于訓練數據集的擴展,導致了潛在的數據枯竭危機。這凸顯了提高數據效率和探索新數據源的緊迫性。在此背景下,合成數據作為一種有前景的解決方案出現。目前,數據生成主要包括兩大方法:數據增強和數據合成。本文全面回顧并總結了貫穿LLM生命周期的數據生成技術,包括數據準備、預訓練、微調、指令調整、偏好對齊及其應用。此外,我們討論了這些方法當前面臨的限制,并探討了未來發展的潛在途徑。我們的目標是為研究人員提供對這些方法論的清晰理解,幫助他們在構建LLM時快速識別合適的數據生成策略,并為未來的探索提供寶貴的見解。
近年來,大型語言模型(LLMs)在廣泛的任務中展現了無與倫比的能力【9, 68, 166】,牢固地確立了它們作為通用人工智能(AI)系統支柱的地位。這些模型在自然語言處理【234, 262, 264】、計算機視覺【100, 207, 239】和其他研究領域【36, 163, 229】中取得了顯著的進展,不斷推動AI所能實現的邊界。LLMs的成功很大程度上歸功于它們能夠從大量數據中捕捉復雜的模式和關系,使其能夠高效執行復雜任務,例如自然語言推理【39, 134】、視覺問答【151, 158】和視覺與語言導航【125, 178】。 然而,LLMs的性能高度依賴于訓練數據的質量和數量【2, 57, 58】。隨著模型規模的指數級增長——現在達到數十億甚至數萬億個參數【105, 168, 268】——對于大規模、多樣化和高質量數據的需求日益增加,以確保模型在各種任務和領域中的穩健泛化。獲取此類數據帶來了巨大的挑戰,因為數據收集成本高昂,同時還面臨隱私問題。此外,高質量數據的增長速度遠遠落后于訓練數據集規模的快速擴展。如果這一趨勢繼續下去,現有的數據將最終耗盡,意味著如果不能顯著提高數據效率或發現新的數據源,LLMs的增長可能會顯著放緩。
面對這些迫在眉睫的限制,數據合成和增強技術對于延長LLMs的生命周期和提升其泛化能力至關重要。傳統的數據合成和增強技術【34, 98, 135, 194】,如圖像旋轉、裁剪、翻轉以及基于規則的自然語言生成,已被廣泛應用于解決這些數據限制。盡管這些方法在一定程度上改善了數據多樣性并緩解了數據匱乏問題,但它們仍難以充分捕捉真實世界數據的復雜性【55】,難以大規模生成數據【233】,并且難以抵御對抗性樣本【162】,這限制了它們在LLM訓練中的有效性。
為了克服這些挑戰,研究人員越來越多地轉向面向LLM的數據合成和增強技術,認識到LLM能夠從大型數據集中建模復雜模式,并生成與真實世界分布高度相似的合成數據,同時引入有價值的變異【37, 175, 260】。這些研究減少了對人工策劃數據集的依賴,并能夠生成高質量、多樣化的數據,以滿足LLMs在其生命周期和功能中的不斷演進需求。為了捕捉這些努力的廣度,我們通過在Google Scholar中使用“數據合成”、“數據增強”和“大模型”等關鍵詞收集了與LLM數據合成和增強相關的論文。圖1展示了按年份和發布平臺劃分的出版趨勢,反映了該領域日益增長的興趣。截至2024年10月,我們識別出了250篇涵蓋不同研究主題和發布平臺的獨特出版物。總結這些努力為我們提供了對進展和剩余挑戰的關鍵見解,并為未來的研究奠定了基礎。 盡管取得了這些進展,但在LLM數據合成和增強方面仍然存在一些關鍵挑戰。合成數據的濫用帶來了風險,特別是在傳播錯誤信息和引發操縱公眾輿論的倫理問題時。此外,合成數據在將AI模型與人類價值對齊時經常引入歧義,可能導致偏見結果。評估訓練于合成數據上的模型也很復雜,因為傳統的基準測試可能無法完全捕捉這些數據的細微差別。確保可靠性也是另一個問題,因為原始數據集中的偏見和不準確性可能在合成數據中持續存在,限制了它的跨領域泛化能力。此外,LLM的計算需求,以及處理不常見語言或新穎指令的挑戰,也使得其更廣泛的應用變得復雜。最后,缺乏統一的框架來組織和比較學術界和工業界提出的方法,這也是研究人員在應對這一快速發展的領域時面臨的障礙。
本綜述旨在通過提供LLM數據合成和增強技術的全面概述來解決這些差距。如圖2所示,與先前的綜述【43, 140, 147, 214, 271】主要集中在支持特定下游任務或LLM某些階段的方法不同,我們的工作強調了LLM數據合成技術在提升其生命周期各個階段和核心功能整體性能中的直接作用。與【137】的工作不同,該工作主要關注解決數據匱乏和隱私問題的合成數據生成實踐,我們的綜述不僅提供了實際指導,還通過分類方法全方位提升LLM性能。我們不僅探討了數據生成方法,還研究了這些技術如何在LLM的各個階段和功能中發揮作用,提供了一種更綜合、以數據為中心的框架來推進LLM的發展。具體而言,我們從兩個關鍵角度系統回顧和分類了現有研究:LLM生命周期(從預訓練到微調和應用)及其核心功能(理解、邏輯、記憶和生成)。通過圍繞這兩個角度展開討論,我們為不同方法的發展、相互聯系及實際應用提供了更清晰的見解。此外,我們還識別了關鍵挑戰,探索了新興的研究方向,并突出了可能進一步推動通過數據為中心的方法提升LLM性能的潛在突破。
本綜述的貢獻總結如下:
通過提供LLM數據合成和增強方法的全面概述,本綜述旨在闡明該領域的現狀,并激發未來的研究方向,以通過數據合成和增強方法進一步提升LLM的能力。
我們對本綜述的其余部分進行如下組織:第2節對LLM數據合成和增強的主要領域進行了分類,概述了基礎技術。第3節從LLM生命周期的角度討論了當前的LLM數據合成和增強方法,詳細說明了這些技術如何在模型開發的不同階段使用。在第4節中,我們從LLM核心功能的角度回顧了這些方法,探討了數據合成和增強如何提升關鍵能力,如理解、邏輯、記憶和生成。第5節探討了LLM數據合成和增強的評估策略,涵蓋了評估基準、評估指標和排行榜,用于評估和比較現有方法的有效性。最后,第6節深入研究了LLM數據合成和增強中的挑戰和新興趨勢,并提出了未來的研究建議,以促進LLM通過數據合成和增強方法的持續進步。
數據生成方法在解決數據稀缺性和不平衡問題方面起著關鍵作用,從而提升模型性能和泛化能力。如圖4所示,我們總結了近年來數據增強和合成技術的發展和演變。本節主要介紹當前數據生成方法的分類,區分了數據增強和數據合成。數據增強通過對現有數據樣本的轉換來增強其多樣性,而數據合成則是從頭或基于生成模型創建全新的樣本。兩者在獲取數據的方式上有所不同,但目標都是擴展數據集。此外,數據增強和合成方法可以從多個維度進行細分。每種方法都有其獨特的優勢和應用,使研究人員能夠根據特定需求和目標定制其數據生成策略。
數據增強是一種從數據到數據的生成方法,通常涉及對原始數據進行操作,以增加其多樣性和數量,而不會顯著改變其本質特征。數據增強技術通過轉換或擾動現有數據樣本,旨在提高其豐富性。在不同的模態中,數據增強技術往往具有相似性。例如,在圖像數據中,增強操作包括拼貼【90】、翻轉【184】、復制粘貼【61】、加噪聲【149】、配對【84】等。類似地,在文本數據中,增強操作包括同義詞替換【95】、復制粘貼【185】等。此外,為滿足多模態學習的需求,現有研究已在數據增強過程中解決了跨模態信息對齊問題。MixGen【75】通過線性插值圖像和拼接來自兩個現有圖文對的文本序列生成新的訓練樣本,所生成的圖文對中的語義關系保持一致并匹配。近年來,在快速發展的LLM領域,數據增強已成為通過多樣化訓練示例來提升模型性能的基石,從而避免了大量額外數據收集的必要性。從數據中心的角度來看,我們系統地將現有的數據增強研究分為三類:數據標注【3, 63, 94, 136, 198, 275】、數據重組【45, 51, 143, 237】和協同標注【11, 43, 116】。
2.1.1 數據標注
數據標注旨在利用LLM廣泛的語言理解能力來為大量未標注數據集提供注釋。這種方法在擁有大量未標注數據的領域(如跨語言處理和多模態學習【3, 63, 275】)中特別有用,在這些領域中,自動化標注可以顯著加快數據準備過程。最近的研究探索了LLM的零樣本標注能力,例如GPT-4對政治推特的標注【198】。此外,Khan等人【94】通過使用SelTDA框架從未標注的圖像中生成偽標簽數據,專注于視覺問答(VQA)任務。
2.1.2 數據重組
數據重組涉及將現有數據轉化并重組為更多樣化的變體,從而實現更精細的數據增強【45, 51】。這種方法旨在通過引入多樣而相關的示例來豐富訓練環境,增強模型的魯棒性和泛化能力。旋轉【92】、顏色通道轉換【64】和同義詞替換【95】等經典方法經常使用。近年來,利用LLM的策略也開始出現。例如,Chen等人【27】提出了Disco方法,該方法利用LLM生成大規模、高質量的反事實數據。2.1.3 協同標注 協同標注指的是人類標注者與LLM在標注過程中的協作【11】。通過整合兩種標注方法的優勢,協同標注不僅降低了標注成本,還同時提升了標注性能,從而促進了更高效和有效的數據標注方法。Li等人【116】提出了CoAnnotating框架,通過評估LLM的標注不確定性,策略性地分配數據點給人類或LLM進行標注。
另一方面,數據合成旨在從頭或基于生成模型創建全新的數據,這些數據與真實數據的分布相似。近年來,隨著生成式AI【13, 41, 42, 78, 139, 161, 169】的爆發和進步,合成數據的質量和生成效率取得了顯著進展。根據LLM的需求,本文將數據合成方法分為三大類:通用模型蒸餾【22, 53, 120, 263, 266】、領域模型蒸餾【108, 145, 146, 215】和模型自我改進【54, 150, 210, 248】。2.2.1 通用模型蒸餾 通用模型蒸餾涉及利用功能強大的通用模型,通常具有更多參數和更優性能,如StableVicuna、ChatGPT和GPT-4,來生成數據集以增強較弱模型的能力。使用這些強大模型的方式有多種,例如使用預定義的模板生成小故事【53】或利用LLM自身評估生成數據的質量。Phi-1及其系列【67, 120】表明,通過利用GPT-3.5生成教科書和習題的全面內容,一小部分高質量數據也可以訓練出強大的模型。其他一些方法通過生成指令數據集并在改進這些數據集的質量后微調模型,也取得了性能提升【22, 80, 196】。2.2.2 領域模型蒸餾 領域模型蒸餾是指利用特定領域內的模型生成數據。這種方法通常在通用模型無法滿足行業應用的特定需求時使用。例如,在代碼編程領域,領域模型蒸餾可以用于生成針對特定編程任務的指令數據【146, 215】。在數學領域,Minerva【108】和DeepSeekMath【220】等方法旨在生成數學問題的解答,同時確保其準確性和多樣性。此外,行業數據往往面臨規模有限和數據無法在特定企業中獲取等障礙。這些因素需要采用能夠有效解決這些特定場景中挑戰的領域專用模型。
2.2.3 模型自我改進
模型自我改進是指模型生成更高質量的數據以提升其能力。例如,利用現有指令調整模型,并促使其以特定風格(如維基百科風格或問答風格)改寫網絡上的文檔,可以聯合預訓練LLM進行真實和合成的釋義任務【150】。Self-Instruct【210】通過自動生成和改進指令數據來增強LLM自身的性能,極少需要人工干預。
數據合成和增強對于推動LLMs的發展至關重要,特別是在滿足LLMs對大規模和高質量數據需求方面。本綜述全面回顧了面向LLM的數據合成和增強技術,系統地探討了這些技術在LLM整個生命周期及核心功能中的應用,并構建了一個連接現有研究的框架,突出關鍵方法,闡明其優勢與局限性。我們相信,面向LLM的數據合成和增強方法的進步將開辟新的可能性,以提升數據效率、改善任務間的泛化能力,并推動以數據為中心的AI的演變。我們希望本綜述能為未來的研究奠定基礎,激發該領域的數據合成和增強的創新與進步。
摘要 —— 隨著ChatGPT的興起,大型模型的使用顯著增加,迅速在整個行業中脫穎而出,并在互聯網上廣泛傳播。本文是對大型模型微調方法的全面綜述。本文研究了最新的技術進展以及在諸如任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調和動態微調等方面應用先進方法。 索引術語 —— 大型語言模型(LLMs)、任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調、動態微調 I. 引言 變換器(Transformer)模型的出現標志著自然語言處理(NLP)領域的一個重要里程碑。變換器架構最初是為了解決循環神經網絡(RNNs [143])和卷積神經網絡(CNNs [55])在處理長距離依賴關系中的局限而設計的,該架構由Vaswani等人在2017年引入[126],徹底改變了我們處理語言理解和生成任務的方式。 變換器架構背景:變換器模型源于對比傳統模型更有效處理序列數據的需求。其獨特的架構,不依賴遞歸和卷積,利用注意力機制來抽取輸入與輸出之間的全局依賴關系,顯著提高了處理效率和模型性能。 編碼器[19]、解碼器[95] [96] [13]以及編解碼器[100]架構:變換器架構主要由其編碼器和解碼器組成。編碼器處理輸入序列,創建每個詞的豐富上下文表征。相比之下,解碼器通常在語言翻譯任務中生成輸出序列,使用編碼信息。 兩者的區別在于它們的角色:編碼器是輸入的上下文感知處理器,而解碼器基于編碼輸入生成預測。編解碼器架構常用于序列到序列的任務,結合這兩個組件,便于處理復雜任務,如機器翻譯,編碼器處理源語言,解碼器生成目標語言。 大型模型中的微調興起:微調大型語言模型的概念源于將這些模型從訓練于龐大、多樣的數據集適應到特定任務或領域的挑戰。微調調整模型的權重,針對特定任務,增強其從廣泛語言模式到特定應用需求的泛化能力。隨著模型規模和復雜性的增長,這種方法變得越來越重要,需要更精細的適應技術來充分發揮其潛力。 本文的結構旨在提供關于微調大型語言模型的方法論和進展的全面概覽。后續部分的組織如下: 文獻回顧:審視語言模型的發展,突出變換器架構的關鍵發展和基礎概念。 理論基礎:深入探討變換器模型的理論基礎,包括注意力機制、編碼器和解碼器的機制。 微調策略:討論各種微調方法,如任務特定、領域特定的適應和高級技術,如小樣本學習和動態微調。 挑戰與未來方向:識別微調方法中的當前挑戰,并探索這一迅速發展領域的潛在未來研究方向。 本文介紹了基于變換器架構的大型語言模型的范式,并提供了常用的大模型微調方法的詳細概述。文章以一個比較實驗結束,聚焦于六個文本分類數據集上的模型大小和LoRA微調范式。實驗代碼已在GitHub上提供。
摘要
多任務學習(Multi-Task Learning, MTL)是機器學習中的一種學習范式,其目的是利用多個相關任務中包含的有用信息來幫助提高所有任務的泛化性能。
本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,給出了MTL的定義,并將不同的MTL算法分為特征學習、低秩、任務聚類、任務關系學習和分解五類,并討論了每種方法的特點。
為了進一步提高學習任務的性能,MTL可以與半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型等學習范式相結合。當任務數量較大或數據維數較高時,我們回顧了在線、并行和分布式的MTL模型,以及維數降維和特征哈希,揭示了它們在計算和存儲方面的優勢。
許多現實世界的應用程序使用MTL來提高它們的性能,我們在本文中回顧了代表性的工作。最后,我們對MTL進行了理論分析,并討論了MTL的未來發展方向。
引言
人類可以同時學習多個任務,在這個學習過程中,人類可以使用在一個任務中學習到的知識來幫助學習另一個任務。例如,根據我們學習打網球和壁球的經驗,我們發現打網球的技巧可以幫助學習打壁球,反之亦然。多任務學習(Multi-Task learning, MTL)[1]是機器學習的一種學習范式,受人類這種學習能力的啟發,它的目標是共同學習多個相關的任務,使一個任務中包含的知識能夠被其他任務利用,從而提高手頭所有任務的泛化性能。
在其早期階段,MTL的一個重要動機是緩解數據稀疏問題,即每個任務都有有限數量的標記數據。在數據稀疏性問題中,每個任務中標記數據的數量不足以訓練出一個準確的學習器,而MTL則以數據增強的方式將所有任務中的標記數據進行聚合,從而為每個任務獲得更準確的學習器。從這個角度來看,MTL可以幫助重用已有的知識,降低學習任務的手工標注成本。當“大數據”時代在計算機視覺和自然語言處理(NLP)等領域到來時,人們發現,深度MTL模型比單任務模型具有更好的性能。MTL有效的一個原因是與單任務學習相比,它利用了更多來自不同學習任務的數據。有了更多的數據,MTL可以為多個任務學習到更健壯、更通用的表示形式和更強大的模型,從而更好地實現任務間的知識共享,提高每個任務的性能,降低每個任務的過擬合風險。
MTL與機器學習中的其他學習范式有關,包括遷移學習[2]、多標簽學習[3]和多輸出回歸。MTL的設置與遷移學習相似,但存在顯著差異。在MTL中,不同任務之間沒有區別,目標是提高所有任務的性能。而遷移學習是借助源任務來提高目標任務的性能,因此目標任務比源任務起著更重要的作用。總之,MTL對所有的任務一視同仁,但在遷移學習中目標任務最受關注。從知識流的角度來看,遷移學習中的知識轉移流是從源任務到目標任務,而在多任務學習中,任何一對任務之間都存在知識共享流,如圖1(a)所示。持續學習[4]是一個一個地學習任務,任務是有順序的,而MTL是將多個任務一起學習。在多標簽學習和多輸出回歸中,每個數據點都與多個標簽相關聯,這些標簽可以是分類的或數字的。如果我們把所有可能的標簽都當作一個任務,那么多標簽學習和多輸出回歸在某種意義上可以看作是多任務學習的一種特殊情況,不同的任務在訓練和測試階段總是共享相同的數據。一方面,這種多標簽學習和多輸出回歸的特點導致了與MTL不同的研究問題。例如,排名損失使得與數據點相關的標簽的分數(例如分類概率)大于沒有標簽的分數,可以用于多標簽學習,但它不適合MTL,因為不同的任務擁有不同的數據。另一方面,這種在多標簽學習和多輸出回歸中的特性在MTL問題中是無效的。例如,在2.7節中討論的一個MTL問題中,每個任務都是根據19個生物醫學特征預測患者帕金森病的癥狀評分,不同的患者/任務不應該共享生物醫學數據。總之,多標簽學習和多輸出回歸與圖1(b)所示的多任務學習是不同的,因此我們不會對多標簽學習和多輸出回歸的文獻進行綜述。此外,多視圖學習是機器學習的另一種學習范式,每個數據點與多個視圖相關聯,每個視圖由一組特征組成。雖然不同的視圖有不同的特征集,但是所有的視圖是一起學習同一個任務的,因此多視圖學習屬于具有多組特征的單任務學習,這與圖1(c)所示的MTL是不同的。
在過去的幾十年里,MTL在人工智能和機器學習領域引起了廣泛的關注。許多MTL模型已經被設計出來,并在其他領域得到了廣泛的應用。此外,對MTL的理論問題也進行了大量的分析。本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,首先給出了MTL的定義,然后將不同的MTL算法分為5類: 特征學習方法,又可分為特征轉換與特征選擇方法、低秩方法、任務聚類方法、任務關系學習方法和分解方法。然后,我們討論了MTL與其他學習范式的結合,包括半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型。為了處理大量的任務,我們回顧了在線、并行和分布式的MTL模型。對于高維空間中的數據,引入特征選擇、降維和特征哈希作為處理這些數據的重要工具。MTL作為一種很有前途的學習范式,在計算機視覺、生物信息學、健康信息學、語音、自然語言處理、web等領域有著廣泛的應用。從理論分析的角度,對MTL的相關工作進行回顧。最后,討論了MTL的未來發展方向。