亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要 —— 強化學習(Reinforcement Learning, RL)已成為對齊與增強大語言模型(Large Language Models, LLMs)的一種變革性方法,能夠應對指令遵循、倫理對齊以及推理能力等方面的關鍵挑戰。本文綜述了強化學習與語言模型結合的全面基礎,重點介紹了如近端策略優化(Proximal Policy Optimization, PPO)、Q學習(Q-Learning)和演員-評論家(Actor-Critic)等主流算法。此外,文章系統回顧了專為LLM定制的強化學習技術,包括基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)和基于AI反饋的強化學習(Reinforcement Learning from AI Feedback, RLAIF)等基礎方法,以及偏好直接優化(Direct Preference Optimization, DPO)和群體相對策略優化(Group Relative Policy Optimization, GRPO)等先進策略。我們系統性地分析了這些技術在各領域的應用,從代碼生成到工具增強推理不等。本文還基于獎勵建模、反饋機制與優化策略提出了一套對比性分類體系。評估結果揭示了一些關鍵趨勢:RLHF 仍然是主導性的對齊技術,而基于結果的強化學習(如 RL with Verified Rewards, RLVR)顯著提升了逐步推理能力。然而,獎勵欺騙、計算成本高昂以及反饋收集的可擴展性等持續性挑戰,凸顯了持續創新的必要性。我們進一步探討了若干新興方向,包括混合RL算法、驗證器引導訓練,以及多目標對齊框架。本綜述可為研究人員提供一份關于RL驅動的大語言模型開發的路線圖,致力于在提升能力的同時兼

性與可擴展性。

關鍵詞 —— 強化學習、大語言模型、RLHF、對齊、推理、自然語言處理、人工智能 **

**

一、引言

大語言模型(Large Language Models, LLMs)已成為人工智能領域的變革性技術,在理解和生成自然語言方面展現出卓越能力。從 GPT-3 擁有的 1750 億參數 [1],到近年來如 LLaMA 3.1 的 4050 億參數 [2],以及 DeepSeek-V3 的 6710 億參數 [3],這些模型在規模和能力上持續擴展。盡管它們在多種任務中表現出色,LLMs 仍然面臨“對齊”(alignment)問題,即確保模型輸出始終反映人類的價值觀、偏好與意圖,仍是一項重大挑戰。LLMs 往往會產生“幻覺”(hallucination)[4],存在生成有害內容的風險 [5]–[7],并且在執行復雜指令方面常常表現不佳 [8]。

強化學習(Reinforcement Learning, RL)是一種智能體通過與環境交互中的試錯過程進行學習的范式,近年來成為應對對齊挑戰的強有力框架。與傳統依賴標注樣本的監督學習方法不同,強化學習能夠引入不可微分的反饋信號,并優化多目標的復雜任務。在 LLM 中引入強化學習,標志著人工智能對齊研究的一項重大進展,使模型能夠學習人類偏好、提升推理能力,并更好地遵循倫理規范。本文旨在全面審視應用于 LLM 的強化學習技術,聚焦于模型在“對齊人類價值”與“增強推理能力”兩方面的提升。

將強化學習應用于 LLM 面臨一系列區別于傳統 RL 場景的獨特挑戰。在 LLM 中,狀態空間通常由輸入提示或對話歷史構成,而動作空間則涵蓋模型完整的詞匯表,形成了一個極其龐大且離散的動作集合。這種高維動作空間對算法設計提出了更高要求,與機器人控制或游戲等傳統 RL 應用場景有顯著不同。此外,LLM 中的獎勵信號通常來自于人類對文本質量、有用性、無害性和誠實性等復雜維度的主觀判斷,這些屬性本質上難以量化。

基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)[9] 已成為對齊 LLM 與人類偏好的事實標準。該方法通常包含三個階段:首先基于高質量示范數據進行有監督微調,其次利用人類偏好數據訓練獎勵模型,最后使用如近端策略優化(PPO)[10]等算法對策略進行優化。RLHF 在提升指令遵循能力、減少有害輸出方面取得了顯著成效,OpenAI 的 InstructGPT 即為代表性成果 [9]。

然而,人類標注的可擴展性問題推動了替代方案的發展。基于 AI 反饋的強化學習(Reinforcement Learning from AI Feedback, RLAIF)[11] 用其他 AI 系統的評估結果來替代或增強人類反饋,在維持相近性能的同時大幅降低了標注成本。憲法 AI(Constitutional AI)[12] 是 RLAIF 的一種特化形式,模型根據預定義的原則對自身輸出進行批判與修正,尤其適用于無害性對齊。近期的研究進一步致力于簡化 RLHF 流程,例如偏好直接優化(Direct Preference Optimization, DPO)[13],跳過顯式獎勵建模,直接通過偏好對進行策略優化,在計算效率和訓練穩定性方面具有優勢。實證研究顯示,DPO 在情感控制與摘要等任務中的表現可與基于 PPO 的 RLHF 相媲美甚至超越,同時大大降低了系統復雜度。

除了人類偏好對齊之外,RL 技術也越來越多地用于提升 LLM 的推理能力。基于結果的強化學習(Outcome-Based Reinforcement Learning)[14] 關注最終答案的正確性,即使中間推理步驟未被監督也可進行優化。更先進的方法如帶可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Rewards, RLVR)[15],能為推理過程中的每一步提供反饋,顯著提升模型在數學與邏輯推理任務上的表現。例如,RLVR 將 GPT-3.5 在數學推理基準 GSM8K 上的準確率從 56.8% 提升至 72.5%,且僅需少量訓練樣本。盡管已有顯著進展,將 RL 應用于 LLM 仍存在諸多挑戰,例如獎勵函數被模型“鉆空子”的獎勵欺騙現象(reward hacking)[16], [17];以及 RL 訓練所需的龐大計算成本,尤其是在參數量級為數十億的模型上,給實際部署帶來困難。此外,不論是來自人類還是 AI 系統,確保反饋的質量與代表性 [18], [19] 仍是一個復雜難解的問題。

本文在該領域的貢獻包括以下幾點:第一,我們提供了一份關于 RL 技術在 LLM 中應用的全面技術綜述,涵蓋了如 RLHF 與 RLAIF 等基礎方法,以及 DPO 和群體相對策略優化(Group Relative Policy Optimization, GRPO)等前沿方法。第二,我們系統分析了 RL 技術在多個領域的應用,如代碼生成與工具增強推理,展現其廣泛適應性與有效性。第三,我們提出了一個基于獎勵建模、反饋機制與優化策略的對比分類體系,為理解 RL 在 LLM 中的技術生態提供結構化框架。最后,我們還討論了若干新興研究方向,包括混合 RL 算法、驗證器引導訓練,以及多目標對齊框架。

本文其余部分安排如下:第二節介紹 LLM 與強化學習的基礎概念;第三節詳細講解為 LLM 改編的具體 RL 算法;第四節探討用于對齊與推理增強的 RL 技術;第五節展示 RL 在各類應用場景中的實踐;第六節提供一套比較分析與評估;第七節討論現有挑戰與局限;第八節展望未來研究方向;第九節總結全文。我們希望通過本綜述為研究者與實踐者提供一份推動 RL 驅動 LLM 發展的技術路線圖,在提升模型能力的同時兼顧安全性與可擴展性。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。

I. 引言

隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:

  • 我們提供了關于不平衡數據學習的全面文獻綜述,系統地概述了基于機器學習基礎過程的方法。
  • 我們對不平衡在各種數據格式中的表現進行了深入分析,包括圖像、文本和圖形,提供了每種格式特有的挑戰和方法的詳細探索。
  • 我們突出了可用于解決不平衡數據問題的資源,并探討了當前面臨的挑戰和未來的研究方向。這一討論旨在幫助那些在應對不平衡問題時掙扎的研究人員,幫助他們有效和高效地開發策略。

本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。

付費5元查看完整內容

摘要——本綜述深入探討了在基礎模型(Foundation Models, FMs)背景下的高效參數微調(Parameter-Efficient Fine-Tuning, PEFT)。PEFT是一種具有成本效益的微調技術,旨在通過最小化參數和計算復雜度,同時追求下游任務的最佳性能。基礎模型,如ChatGPT、DALL-E和LLaVA,專注于語言理解、生成任務和多模態任務,訓練數據集涵蓋文本、圖像和視頻等多種形式。基礎模型的多樣性引導了多種PEFT適配策略。因此,本綜述旨在提供一個全面的PEFT技術概述,應用于不同的基礎模型,并解決在理解這些技術、趨勢和應用方面的關鍵空白。我們首先詳細介紹基礎模型和PEFT的發展,隨后系統地回顧了在不同基礎模型中PEFT的主要類別和核心機制,以提供對趨勢的全面理解。我們還探討了PEFT在各種基礎模型中的最新應用,展示了其多樣性,揭示了系統化PEFT方法與多種基礎模型集成的可能性。此外,我們還指出了未來改進PEFT的潛在研究與發展方向。本綜述為初學者和專家提供了一個寶貴的資源,幫助他們理解和使用PEFT在不同基礎模型中的強大能力。所有綜述中的論文可在//github.com/THUDM/Awesome-Parameter-Efficient-Fine-Tuning-for-Foundation-Models找到。 關鍵詞——高效參數微調,基礎模型,大型語言模型,視覺基礎模型,多模態基礎模型

I. 引言

基礎模型(Foundation Models, FMs)通過在大規模數據集上進行預訓練[1, 2, 3, 4, 5, 6](通常涵蓋文本、圖像、視頻等多種類型),以應對多種任務,如語言理解[7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]、代碼生成[18, 19]、圖像或視頻理解[20]、視覺內容生成[21, 22, 23],如圖2(左)所示。目前,各種基礎模型在不同領域占據主導地位,例如,語言相關任務由ChatGPT [4]、ChatGLM [24, 25]和Qwen [26]支持,而視覺語言任務則由ChatGPT-4V [27]應對。DALL-E [28]、Sora [29]和Veo21專注于生成任務,LLaVA [30]和NExT-GPT [31]則擅長多模態任務,如圖2(中)所示。在實際應用中,通常需要在未見過的下游數據集上微調這些基礎模型,以達到特定任務的最佳性能。 高效參數微調(Parameter-Efficient Fine-Tuning, PEFT)技術[32, 33, 34, 35],作為一個高度活躍的研究主題,在微調過程中展示了顯著的成本效益,如圖1和圖2(右)所示。這項技術通過最小化可訓練參數和計算開銷,同時力求在下游任務中達到接近完全微調的性能。以GPT-3 [3]為例,完全微調需要訓練所有的1750億個參數,而LoRA [36]只需訓練470萬或3770萬個參數,節省了超過99.97%的參數,且結果在性能上比完全微調提高了0.1%到0.5%。這種特性為社區和實際應用帶來了顯著的實踐價值。然而,基礎模型的多樣性推動了不同PEFT適配策略的發展。例如,在提示微調方法中,可訓練提示模塊的設計通常根據基礎模型的類型(例如,大型語言模型(LLMs)的文本提示[37],和視覺語言模型(VLMs)的視覺提示[38])有所不同。類似地,LoRA [36]根據基礎模型的架構(例如,大型語言模型的變換器塊[39]或視覺內容生成模型的去噪U-Net[40])集成到不同的組件中。因此,全面綜述PEFT技術如何在不同基礎模型中進行適配,對于推動該領域的發展至關重要。這一理解將為PEFT在多種任務和領域中的更系統和有效應用鋪平道路。 正如上文所強調,基礎模型在結構、方法和應用方面正以前所未有的速度迭代。這種快速演化促使PEFT領域同樣變得動態活躍。因此,跟蹤PEFT在基礎模型中的技術趨勢勢在必行。如圖1所示,我們統計了過去五年中PEFT方法在不同基礎模型中的引用總數,并根據這一趨勢指標得出以下三大趨勢:

趨勢一:PEFT領域正在經歷顯著增長,涵蓋了包括語言、視覺和多模態領域在內的多種任務和基礎模型。 趨勢二:大型語言模型(LLMs)和視覺基礎模型(VFMs)主導了當前的研究格局,研究活動呈現快速且顯著的增長,而視覺語言模型(VLMs)和視覺內容生成模型(VGMs)作為次要研究方向也在逐漸獲得關注。 趨勢三:相比之下,多模態基礎模型(MFMs)仍然相對較少被研究,表明這一領域在未來具有顯著的研究和創新潛力。 在本綜述中,我們旨在探索將PEFT與不同基礎模型集成以提升可擴展性的潛力。此外,鑒于這兩個領域的相互動態發展,近年來出現了幾篇概述綜述文章,如表I所示。例如,Xin等人[32]系統性地回顧了視覺PEFT(涵蓋常見數據集和應用),并識別了未來的研究方向。Zhou等人[34]將范圍擴展到多模態大型語言模型,并呈現了幾種主流PEFT方法的實證研究。他們的研究結果強調了適配器微調的優越性,以及連接層在微調多模態基礎模型中的積極作用。Wang等人[35]則專注于各種PEFT算法的核心思想和原則,為快速理解提供了理論指導。值得注意的是,Han等人[33]從算法角度深入分析了大型語言模型的PEFT,提出了在實際場景中系統設計的建議。這些有價值的綜述為PEFT的某些方面提供了深入的見解。然而,這些見解分散在不同的研究中,且側重于一般化的基礎模型。其次,當前缺乏對PEFT在不同基礎模型中的發展脈絡以及更直觀、統一的示意圖的關注。因此,結構化且全面的綜述變得愈加必要。 因此,我們首先回顧了基礎模型的發展趨勢和PEFT的分類(第二部分)。隨后,我們深入探討了五種模型結構下的PEFT設計(第三部分),包括選擇性PEFT、加法性PEFT、提示PEFT、重參數化PEFT和混合PEFT,并在表II中提供了相應的特征總結。我們還探索了PEFT在不同下游任務中的應用及其相應的場景(LLMs的第四部分,VFMs的第五部分,MFMs的第六部分)。最后,我們在第七部分提供了關于當前研究趨勢和未來研究方向的觀察,以促進PEFT在各個領域的發展。 通過本綜述,我們為廣泛的基礎模型與系統化PEFT方法的整合提供了更深入的理解。

****二、背景

  1. 基礎模型概述 基礎模型主要在大規模數據集上進行預訓練,并可以通過微調適應各種下游任務。根據輸入模態和功能的不同,我們將其大致分為五類: 大型語言模型(LLM):設計用于理解、生成和操作文本。這些模型在大量文本語料庫上進行訓練,能夠執行廣泛的語言相關任務,如翻譯、摘要、文本生成和問答。例如BERT、LLaMA、GPT-4和ChatGPT。 視覺基礎模型(VFM):專注于從視覺數據(如圖像)中理解和生成洞察。它們可以處理圖像分類、目標檢測、分割等任務。這些模型在大規模圖像數據集上進行預訓練,使其能夠很好地泛化到各種視覺相關任務。例如Grounding DINO和SAM。 視覺語言模型(VLM):整合了視覺和文本模態,能夠處理需要理解圖像和語言之間關系的任務。它們用于應用如接地、圖像字幕和視覺問答。例如CLIP、BLIP、GPT-4V和GLM-4V。 視覺內容生成模型(VGM):專注于從各種輸入(文本、草圖或其他視覺提示)生成高質量的視覺內容,如圖像、視頻或3D模型。它們用于藝術生成、視頻合成,甚至為其他AI模型創建合成訓練數據。例如Stable Diffusion、DALL-E、Zero-1-to-3和CogVideo-X。 多模態基礎模型(MFM):擴展了LLM的能力,能夠處理多種模態,如文本、圖像和音頻。這些模型可以同時處理和生成文本、圖像和音頻等,從而實現多模態任務中更豐富的交互。例如LLaVA-1.5、Gemini 1.5 Pro、CoDi、SEED-X和NEXT-GPT。

  2. 參數高效微調的發展 PEFT已成為微調基礎模型(如BERT和GPT-3)的重要方法,旨在減少微調過程中需要更新的參數數量,從而降低計算和存儲成本。以下是PEFT關鍵發展和相關方法的總結: 選擇性PEFT:這類方法專注于僅微調模型參數的一個子集,而不是所有參數。其基本假設是,在大型預訓練模型中,某些參數對特定任務尤為重要,調整這些關鍵參數可以獲得滿意的結果。早期方法如逐層凍結在微調過程中逐漸解凍模型的層。更多部分策略也出現了,通過經驗方法或學習過程識別哪些層應該解凍和調整。 加法PEFT:加法方法涉及在基礎模型的層之間插入小型適配器網絡(也稱為瓶頸適配器),以實現微調。最早的適配器方法在模型層之間插入瓶頸層,更新這些瓶頸參數,同時保持原始模型基本不變。適配器顯著減少了需要更新的參數數量。 提示PEFT:這類方法涉及學習軟命令(即嵌入向量的序列),以指導模型有效執行任務。 重參數化PEFT:這些方法提出重新表示或分解現有模型參數,以便在微調過程中僅調整部分參數,從而保留大部分未更改的參數。 混合PEFT:這些方法結合了多種PEFT策略,以實現最佳結果,結合了適配器、提示和參數化等技術。最近的方法專注于為不同任務和場景找到這些策略的最佳配置。 三、方法論

本節將描述PEFT方法的幾個重要類別,涵蓋LLM、VFM、VLM、MFM和VGM中的PEFT分類。我們還將分析每個類別的優缺點,以便更深入地理解。 1. 選擇性PEFT

這類方法指的是選擇性地微調原始模型參數的一個子集,同時保持其余參數凍結,或者引入最少數量的額外參數進行訓練,而不改變原始參數。 1.1 選擇性PEFT的基礎 在這組中,包括兩種核心類型:特定選擇和自動選擇。特定選擇是指預先確定要選擇的參數,而自動選擇是指模型自動決定要調整的參數。 特定選擇:這類方法旨在選擇特定的層或神經元進行微調。常用的方法包括凍結層、BitFit和PASTA。 自動選擇:這類方法旨在利用各種算法自動確定要訓練的參數,如Masking、Diff-Pruning、FISH、AutoFreeze Layers和CHILD-TUNING。 1.2 選擇性PEFT在更多基礎模型中的應用 線性探針(Linear Probe)展示了CLIP模型,該模型聯合訓練文本編碼器和圖像編碼器,以在測試時進行零樣本預測。FC-CLIP使用共享的凍結卷積CLIP骨干構建了一個單階段系統,用于開放詞匯分割。Tune-A-Video提出了一種文本-視頻對微調方法,并提出了針對文本到視頻生成的定制時空注意力機制。LayerNorm Tuning僅調整注意力塊中的歸一化層權重,展示了在GPU內存使用和可訓練參數方面的顯著減少。 2. 加法PEFT 如圖3所示,適配器的核心思想是學習一組參數,可以將一層的輸出轉換為下一層的輸入,以適應特定任務。適配器是小型參數集,可以插入基礎模型的層之間。它們允許網絡在不修改其原始參數的情況下對新任務進行微調。 2.1 加法PEFT的基礎 對于這組,包括三種關鍵類型:瓶頸適配器、多適配器和適配器稀疏性。 瓶頸適配器:這類方法在NLP領域提出,靈感來自跨域圖像分類任務中的殘差適配器和ResNet。適配器層具有簡單的結構:它被下投影到較小的維度,通過非線性激活函數,然后上投影回原始維度,類似于瓶頸。此外,整個適配器層的輸入和輸出之間存在殘差連接。 多適配器:這類方法指的是向模型添加更多適配器模塊,以增強其可轉移性。這些方法作為專門的知識插件提出,以整合各種任務的知識,而不會忘記先前任務的知識,并提高瓶頸適配器的性能。 適配器稀疏性:這類方法旨在根據適配器的內部結構充分利用參數效率。如AdapterDrop、LST和Convpass。

2.2 加法PEFT在更多基礎模型中的應用 LST在T5和CLIP-T5模型上進行了評估,揭示了當微調整個網絡時,LST減少了69%的內存成本,而其他方法在類似參數使用情況下僅實現了26%的減少。Convpass通過在ViT中引入卷積旁路作為視覺Transformer適配器,引入了不到0.5%的可訓練參數來適應視覺模型。AdaptFormer引入了一個輕量級模塊,參數少于ViT的2%,以提高識別性能。ViT-Adapter通過集成圖像特定的歸納偏差增強了標準ViT骨干的內在表示能力。SAN將掩碼提議生成和類別識別任務分離,以實現開放詞匯語義分割。通過將輕量級側網絡附加到固定的CLIP模型,預測掩碼提議和注意力偏差,以指導CLIP識別掩碼的類別。CSN(DTL)通過緊湊的側網絡從骨干中解耦權重更新以識別對象。T2I-Adapter學習輕量級適配器模式以在不更新文本到圖像模型固有框架的情況下提高文本到圖像模型的性能。IP-Adapter使用圖像提示并引入交叉注意力機制以有效學習圖像嵌入。I2V-adapter僅需微調基礎擴散模型的1%參數。ControlNet添加了空間局部化條件。隨后,ControlNeXt引入了一個輕量級條件控制模塊,進一步將可學習參數減少到ControlNet的不到10%,擴展到視頻生成和超分辨率。LLaMA Adapter V2通過解鎖更多可學習參數有效增強了LLaMA-Adapter。CLIP-Adapter和Tip-Adapter等建議插入可訓練適配器以將VLM微調執行到固定的CLIP模型中。 3. 提示PEFT

提示微調幾乎是基礎模型中最常見的PEFT方法,如圖4所示。這類方法涉及將精心設計的提示納入輸入或Transformer的層中,旨在將輸入分布與原始訓練數據對齊,并引導模型生成所需的輸出。 3.1 提示PEFT的基礎 這里討論三種類型:硬提示、自動提示和軟提示。 硬提示:這類方法意味著提示的初始形式涉及手動指定模板并將其與輸入連接以生成所需輸出,而不修改原始模型參數。 自動提示:這類方法提出了一種自動提示搜索方法,使用探索性搜索自動生成提示,以解決硬提示手動設計的挑戰。 軟提示:這類方法進一步擴展了范圍,超越了詞匯表中人類可理解的單詞。這些提示稱為連續或軟提示。在這個高級進展中,生成過程從離散的、人類驅動的轉變為連續的、機器驅動的。代表方法包括Prefix Tuning、Prompt Tuning、P-Tuning、PPT等。 3.2 提示PEFT在更多基礎模型中的應用 VP通過向圖像的像素空間添加提示(如沿圖像邊緣填充像素)來適應基礎模型到新任務,而不改變模型的參數。VPT在輸入空間中引入了一些可學習參數,這些參數少于原始模型參數的1%。DAM-VP通過自適應選擇和優化不同圖像子集的視覺提示,提高了預訓練模型在具有高多樣性和大數據集的下游任務上的性能。ILM-VP通過引入基于迭代標簽映射的框架,顯著提高了目標任務的精度,并優于現有方法。EVP通過將提示視為可學習實體并應用輸入多樣性和梯度歸一化,顯著提高了各種數據集的分類準確率。LION是一種輕量級且有效的視覺提示微調方法,利用隱式平衡層以最小的計算成本將預訓練模型適應下游任務。Textual Inversion找到了一種在CLIP的文本編碼器中描述新概念的方法,以微調擴散模型(使用少于20k參數)生成特定風格的內容。CoOp使用可學習向量對提示的上下文詞進行建模,以實現PEFT以識別或檢測對象。OVSeg結合了掩碼和彩色提示,顯著提高了VFM的微調性能。Q-Former使用輕量級投影橋接模態差距,大大減少了可訓練參數。 4. 重參數化PEFT 雖然加法PEFT通過采用下投影和上投影技術減少了可調參數的數量,但其合成結構可能會對模型的推理速度產生負面影響。同樣,訓練提示在提示微調中可能不穩定,因為它依賴于人類輸入,這通常是主觀的。此外,在輸入序列中包含提示標記可能會減少有效序列長度,可能導致次優性能。為了解決這些限制,我們引入了另一種PEFT技術,即重參數化,如圖5和表VI所示。該技術對初始模型參數的低維表示進行重參數化以進行訓練,同時在推理時將權重轉換回來。 4.1 重參數化PEFT的基礎 重參數化主要包括兩組:LoRA及其變體和MPO。 LoRA及其變體:LoRA利用了許多機器學習問題中固有的低秩結構作為基本重參數化技術。Aghajanyan等人深入研究了內在維度,并證明自然語言任務可以用非常少的參數解決,有時只有幾百個。這一發現意味著基礎模型的預訓練可以被視為一種知識壓縮形式,其中每個任務對應于模型子空間中的唯一內在維度。實證研究表明,較大的模型往往比其基線對應物具有更低的內在維度。 MPO:矩陣乘積算子是張量網絡的表示,其特征是隨著輸入維度的增加,參數和計算復雜度增長緩慢,使其適合壓縮基礎模型。MPO分解參數矩陣并定義中心張量和輔助張量。鑒于MPO分解的性質,中心張量包含的參數明顯多于輔助張量,表明它封裝了基礎模型的基本語言信息。對于下游任務適應,僅需要訓練低參數的輔助張量。 4.2 重參數化PEFT在更多基礎模型中的應用 LoRand利用低秩分解創建緊湊的適配器進行微調,僅使用原始模型參數的1-3%即可實現競爭性能,顯著減少了計算開銷。LyCORIS提供了一套先進的工具,用于微調Stable Diffusion模型,增強了其文本到圖像生成的能力,具有改進的控制和質量。DiffuseKronA采用Kronecker積分解來最小化擴散模型注意力層中的參數,在不影響圖像生成質量的情況下實現了顯著的效率提升。Mix-of-Show提出了嵌入分解的LoRA(ED-LoRA)來訓練單個概念,梯度融合用于中心節點概念融合,以及區域可控采樣用于擴散模型。LoRA-Sparse開發了低秩線性投影層用于稀疏注意力,以增強LLaVA-1.5的性能。 5. 混合PEFT PEFT領域中一個獨特且有前途的方法圍繞多種方法的集成。這種戰略組合將幾種獨特的PEFT技術(如LoRA、BitFit、P-Tuning等)結合到一個單一的戰略框架中。這種集成方法允許模型借鑒每種方法的優勢和見解,從而建立一個全面而強大的框架。通過這種融合,模型能夠更有效地優化參數,減少計算負擔,并可能提高性能,為PEFT提供了一個有趣且有前途的途徑,如表VII所示。 5.1 混合PEFT的基礎 主要的混合技術包括UniPELT、COMPACTER、S4、NOAH和DiffFit。 UniPELT:這是一個統一的框架,集成了適配器、前綴微調和LoRA的核心方面,并采用門控機制來調節這些模塊。線性層門控機制本質上決定了每個模塊的貢獻和操作。實驗結果表明,與集成的獨立PELT方法相比,UniPELT始終顯示出1%到4%的性能提升。總的來說,UniPELT支持了集成方法在進一步提高基礎模型適應特定任務的效率和有效性方面的承諾。 COMPACTER:通過創新放置和訓練方法擴展了基本適配器的概念,引入了一種基于低秩矩陣Kronecker積的新型輕量級適配器結構。這一進步僅需添加原始模型參數的0.05%到0.2%,但在GLUE和SuperGLUE等基準測試中表現出色。 MAM適配器:進行了深入研究,重點關注適配器的排列和軟提示的使用,以呈現參數高效遷移學習的統一視角。他們得出了幾個啟示和關鍵結論,包括:1)縮放并行適配器在修改FFN方面脫穎而出。2)并行放置的適配器明顯優于順序放置的適配器。此外,直接比較多頭注意力和FFN并行放置顯示出優越的結果。3)在受限參數預算的情況下,對注意力頭的修改導致最佳結果。相反,當允許更大的容量設置時,FFN受益最多。4)實施軟提示(如前綴微調)通過調整極小比例的參數(0.1%)帶來了顯著的性能提升。基于這些見解,MAM適配器引入了多頭注意力適配器,該模型代表了FFN層的并行適配器和軟提示的集成。該模型結合了在注意力子層中實現的前綴修改(較小的瓶頸維度為l=30)和用于修改FFN表示的縮放并行適配器(瓶頸維度為r=512)。盡管僅使用了6.7%的參數數量,MAM適配器展示了獨特的效率和性能組合。此外,與BitFit和提示微調等方法相比,它顯著領先,始終超越LoRA、適配器和前綴微調等核心方法。 S4:探索了各種以較少參數微調模型的方法。它研究了將層分為四組、調整可訓練參數、選擇要微調的組以及應用特定技術。它引入了一種名為S4的創新方法,將層分為G1、G2、G3和G4,類似于紡錘形狀。中間組有更多層,而頂部和底部有較少層。所有組保持可訓練,參數均勻分布在層中,并應用不同的PEFT技術。G1使用適配器,G2受益于適配器和前綴微調,G3使用適配器、前綴微調和BitFit進行微調,G4則進行前綴微調、BitFit和LoRA。實驗表明,僅使用0.5%參數的S4方法在不同模型、大小和任務中始終優于單個技術。 5.2 混合PEFT在更多基礎模型中的應用 NOAH(神經提示搜索)實現了神經架構搜索以設計提示模塊,并將適配器、LoRA和VPT集成到每個Transformer塊中。DiffFit僅微調偏置項并引入縮放因子以實現訓練效率和存儲減少。V-PEFT通過研究微調位置,提出了基于視頻任務的PEFT方法的統一分析。DreamBooth利用少量個體圖像并引入了一種新的自生類特定先驗保留損失,以將獨特標識符與主題關聯,同時保持類變化。 四、大型語言模型的PEFT

  1. 因果語言模型的PEFT 因果LLM在LLM社區中非常流行,作為一種基礎語言模型,也稱為自回歸LLM,例如GPT-3、BLOOM、Falcon和LLaMA系列。這里我們簡要回顧了因果LLM中PEFT的進展。例如,LLaMA-adapter在凍結的LLaMA-7B的Transformer層之后注入了一組可學習的適應提示,僅需1.2M可訓練參數即可擴展語言指令。類似地,串行適配器微調和并行適配器微調有效地微調了GPT-J-6B和BLOOM-7.1B,并在數學推理上優于GPT-3.5。此外,LoRA系列經常用于這組LLM,例如QLoRA引入了一系列內存節省技術來微調LLaMA,而不會犧牲性能。LoRA-Sparse基于LLaMA減少了超過一半的自注意力計算,同時增強了NLP任務性能。MoSLoRA融合了MoE和LoRA來微調LLaMA,提高了常識推理。此外,Prefix tuning、P-Tuning和Prompt tuning也支持各種因果LLM,請參閱開源庫以獲取詳細信息。

  2. 前綴語言模型的PEFT 前綴LLM,也稱為非因果LLM,是LLM社區中的另一個主流,主要由ChatGPT系列代表。回顧一下,P-tuning系列利用提示標記僅使用0.1-0.3%的可訓練參數微調ChatGPT,作為跨各種模型規模和語言理解任務的通用解決方案。OrehMoE利用多適配器模塊化技能架構微調ChatGPT,從而推進了PEFT中的前向轉移。同時,FATE-LLM利用LoRA和P-Tuning v2調整ChatGPT-6B,以評估聯邦場景中的語言能力,分別僅需0.06%和0.048%的可訓練參數。類似的工作包括DP-LoRA,而CPMI-ChatGLM應用P-Tuning v2和LoRA微調ChatGPT-6B,以更好地理解現實場景。MoELoRA通過使用任務驅動的門函數控制每個LoRA的貢獻,有效地微調了ChatGPT-6B。 總的來說,我們回顧了PEFT方法在兩種代表性基礎語言模型中的進展:因果LLM和前綴LLM。在實踐中,編碼器-解碼器LLM如T5也是流行的之一,上述大多數PEFT方法同樣適用于它們。例如,LLaMAFactory靈活定制了各種PEFT方案以增強語言建模,如LoRA、DoRA、rsLoRA、PiSSA等。該存儲庫還涵蓋了多種類型的LLM,包括但不限于我們討論的兩種類型。 五、視覺基礎模型的PEFT

  3. 基礎視覺模型的PEFT ViT是VFM的主流和基礎骨干。因此,本小節關注ViT中PEFT的最新進展。廣義上講,該類別的VFM僅考慮圖像作為輸入。具體來說,一系列PEFT方法已被考慮用于VFM,如適配器微調(AdaptFormer、Conypass、AIM、ST-Adapter、Rob-Adapter、LoRand、SCT、Polyhistor、VMT-Adapter)、提示微調(VPT、CVP、LPT、IDPT、Pro-tuning、LION、ViPT、VP、EVP、DAM-VP、EVP-L、ProSFDA、P2P、ILM-VP)、前綴微調(Prefix-tuning、PATT、eTT、LAM、VQT)、側微調(Side-Tuning、SAN、ViT-Adapter、LST、SAM-LST、E3VA、CSN (DTL))、規格微調(Linear Probe、BitFit、DP-BiTFiT、DiffFit、LN-TUNE)和重參數微調(LoRA、KAdaptation、FacT、EFFT、SSF、RepAdapter、ATTNSCALE、PHNNs、DnA)等。 如上所述,各種PEFT方法廣泛出現在VFM的下游任務中。例如,i)圖像識別是PEFT的主要場景,如AdaptFormer、VPT、CSN (DTL)。Rob-Adapter提出了無損適應,以實現操作任務中的最佳性能。此外,相當多的工作也在圖像相關場景中取得了成功,如LPT、FacT、LoRA、NOAH、MONA等。ii)PEFT在視頻理解中也具有影響力。其中,AdaptFormer、VPT和LoRA在視頻相關任務中非常受歡迎。ST-adapter僅需少量(~8%)的每任務參數成本即可理解視頻。AIM提出了空間、時間和聯合適應,具有顯著較少的可調參數,以實現高效的視頻理解。APT涉及注意力提示微調,參數少于1%,以減少視頻識別中的延遲和FLOPs。此外,LoSA、RaSTFormer等也在時間動作定位和短視頻中做出了努力。

  4. 提示視覺語言模型的PEFT 本小節關注提示VLM中PEFT的最新進展。一般來說,該類別的VFM考慮視覺和文本信息作為輸入。具體來說,一系列PEFT方法已應用于提示VLM,如視覺接地(CoOp、CoCoOp、ProGrad、MaPLe、TPT、CPT、DiffTPT、CLIP-Adapter、Tip-Adapter、PromptSRC、BadCLIP、MePT、NODE-Adapter、AAPL、CoPL、Any-Shift Prompting、PIN、CLAP、TCP、DePT)、語義分割(SAN、LLM-Former、FC-CLIP、MasQ-Tuning、Test Time Prompt Tuning (TTPT from FreeSeg)、mask prompt tuning、EVP、ETRIS)、視頻理解(Vita-CLIP、MA-CLIP、DualPath、Text-Adapter (M2-CLIP)、TDS-CLIP、Omni-CLIP、EVL、Side4Video、EZ-CLIP、ActPrompt、MV-Adapter)、點云分割(PointCLIP v2、P2P、CLIP2Point、EPCL、IDPT、DAPT)等。 根據輸入到模型的提示類型,現有工作大致分為文本提示和視覺提示VLM。i)文本提示:一系列工作(如CoOp、KgCoOp)使用提示微調方法對文本輸入執行PEFT以進行視覺任務。TCP使用基于文本的類感知提示來解鎖文本標記對未見域的有限泛化。請注意,該組中的一些方法最初是為文本提示VLM提出的,盡管它們也常用于更廣義的VLM。ii)視覺提示:這類PEFT方法(如OVSeg和CPT)需要圖像和視覺或文本提示來執行微調,這些通常包括視覺提示(點、邊界框、掩碼、顏色)、文本提示、參考提示、組合等。GP-SAM和VRP-SAM等將各種視覺參考和幾何提示(點、框、涂鴉、掩碼)編碼為提示嵌入作為輸入以分割任何內容。PIN提出了一種視覺提示方法,即輸入不可知的位置插入,以探索視覺接地的定位能力。簡而言之,這類PEFT方法遵循定制不同視覺任務和提示的原則。

  5. 視覺內容生成模型的PEFT 最近,擴散模型作為視覺內容生成的基礎模型趨勢。在本小節中,我們回顧了擴散模型中PEFT方法的最新進展,如圖6所示。具體來說,一系列PEFT方法在各種擴散模型場景中實施。例如,圖像生成(Textual Inversion、T2I-Adapter、DreamBooth、ControlNet、GLIGEN、Uni-ControlNet、ControlNeXt、CCM、IP-Adapter、CTRL-Adapter、X-Adapter、LoRA-Composer、DiffuseKronA、SVDiff、SODA)、視頻生成(SimDA、StyleCrafter、I2V-Adapter、Still-Moving、Tune-A-Video、CTRL-Adapter、Customize-A-Video、ControlNeXt)、編輯(Concept Sliders、PTI、CCEdit、SVDiff、DiffMorpher)、超分辨率(ResAdapter、DiffFit、ControlNeXt)、3D生成(IPDreamer)等。在這些方法中,LoRA、ControlNet和Adapter相關方法在各種擴散模型中經常使用。而PEFT在各種場景中的趨勢分析,圖像生成和視頻生成顯然更受青睞。 具體來說,ControlNet系列調整可訓練副本以學習各種可控條件,例如Openpose、Depth、Canny、Lineart、Animel_lineart、Mlsd、Scribble、Hed、Pidi、Teed、Segment、Norma及其排列。LoRA相關技術在圖像或視頻生成、編輯等方面得到了應用,如Smooth Diffusion、STAMIlNA、DreamSync、StyleAdapter、Mix-of-Show和DragVideo。廣義上講,LoRA通常配置在注意力模塊中,而在穩定視頻擴散中,更多努力用于時間跨幀注意力,如Customize-A-Video中的T-LoRA。Adapter相關技術傾向于引入各種單一或組合的輕量級適配器模塊,以微調擴散模型以實現各種條件的精確控制。 六、多模態基礎模型的PEFT

  6. 廣義多模態基礎模型的PEFT 狹義上講,前一小節中提到的一些VLM包含了多模態模型的范圍,因為它們涉及文本和視覺。然而,上述模型更強調視覺任務的個別技能,例如接地和分割。因此,我們在視覺范圍內回顧它們。在這里,我們調查了廣義MFM中的PEFT方法,這些模型不僅限于單一語言或視覺技能,而是更廣泛的多模態理解。例如,PEFT-MLLMs對LLaVA-1.5、ShareGPT4V、Qwen-VL_Chat執行了適配器、LoRA、前綴微調、IA3的實證探索。LLaMA-Adapter V2通過解鎖更多可學習參數有效增強了LLaMA-Adapter,從而通過僅在LLaMA上插入14M參數(0.04%)執行開放式多模態指令。LayerNorm Tuning僅調整每個注意力塊中的LayerNorm,足以提高多模態性能。LoRA-Sparse引入了用于稀疏注意力的低秩線性投影層,以提升LLaVA-1.5的多模態性能。此外,LoRA和Q-Former在Monkey、mPLUG-Owl、CogVLM和GLM-4V等中盛行,以增強不同的多模態能力。

  7. 下一代多模態基礎模型的PEFT 下一代MFM不僅限于少數模態,它們可以感知輸入并生成任何組合的文本、圖像、視頻和音頻輸出,如CoDi系列、HuggingGPT、Visual-ChatGPT、SEED-X、Gemini 1.5 Pro、Show-o和NExT-GPT。在這里,我們調查了這類模型中PEFT的最新進展。例如,SEED-X首先在Llama2-chat-13B上進行預訓練,然后在大量多模態數據上使用LoRA。Anole利用數據高效(約6000個樣本)和參數高效(少于40M參數)的微調策略,促進了視覺和多模態生成。NExT-GPT同樣使用LoRA調整相當少的參數(1%)以更新特定投影層,從而增強多模態能力。 七、討論與未來方向

  8. 當前趨勢的觀察 可靠性:PEFT方法對超參數敏感,例如瓶頸維度、秩和層順序。此外,由于PEFT中使用的結構或網絡顯著小于基礎模型本身,最佳超參數通常與全微調使用的超參數大不相同。例如,PEFT的最佳學習率通常比全微調的學習率高得多。因此,開發簡單且高效的低敏感性超參數解決方案至關重要。 可解釋性:理解PEFT方法的內部機制仍然是一個挑戰。在LLM中,提示可以以相對直觀的方式解釋。然而,在基礎模型中,主要挑戰是各種提示作為無序的基于標記的提示學習,難以轉化為可理解的格式。此外,不同的PEFT方法面臨特定的可解釋性挑戰。例如,理解適配器中學習到的參數與層之間的關系是一個重要課題。 統一基準:盡管有Hugging Face的PEFT和AdapterHub等庫,但PEFT仍然缺乏全面的基準。不同的研究使用不同的評估數據集和任務設置,導致性能評估標準不一致,從而影響用戶評估不同PEFT方法的優缺點。為了解決這個問題,當前的趨勢是建立標準化的基線,以便更公平地比較不同方法。

  9. 未來方向 跨學科:PEFT的未來進展可能來自跨學科的見解,特別是隨著基礎模型應用于從醫學和自然科學到社會科學的各個領域。特別是,將領域特定的約束集成到PEFT框架中可能會導致更量身定制的微調方法。例如,在醫學成像中,結合醫學領域知識和低維先驗或因果關系可以增強模型性能,即使只有最少的參數更新。 持續PEFT:PEFT為在特定任務上微調基礎模型提供了一個表現良好的解決方案。然而,當這些方法適應一系列任務或動態數據流時,模型可能會干擾或覆蓋已學習的知識。相比之下,持續學習專注于開發可以持續學習新任務同時保留已學習任務記憶和性能的系統。PEFT和持續學習的結合將使PEFT在動態變化的任務或環境中更加穩健。因此,開發用于持續學習的PEFT可能有助于在現實世界中構建更智能的學習系統。 PEFT的架構:了解特定架構對PEFT的適用性和優勢,并探索如何為特定架構設計更有效的PEFT方案。例如,分析Transformer架構中不同層和組件對PEFT的響應特性,為架構優化和定制PEFT方法提供基礎。 PEFT的縮放定律:當前的努力揭示了在可訓練參數超過某個閾值后收益遞減,表明參數選擇的最佳范圍。對于PEFT方法,理解這些縮放行為對于優化效率和指導未來研究至關重要。例如,當增加或減少PEFT方法(如LoRA、適配器或前綴微調)中的可訓練參數數量時,性能如何縮放?這可以為未來的模型設計和微調策略提供指導。 分層抽象:PEFT中的分層抽象類似于人類大腦如何分層處理和存儲信息。在大腦中,感官輸入通過從低級感官神經元到高級認知區域的層層復雜性進行處理。這種分層方法使大腦能夠創建抽象表示并理解復雜信息。類似地,PEFT通常通過調整模型不同層次的參數(如早期層用于一般特征,后期層用于任務特定適應)來工作。通過微調特定層或添加模塊化結構,PEFT促進了任務的分層適應——反映了大腦從簡單到復雜表示的能力。這種分層設計不僅提高了模型的靈活性,還允許跨任務有效重用現有知識。 腦啟發的PEFT:有趣的是,PEFT與神經科學中的原則一致,特別是高效編碼和突觸可塑性理論。在大腦中,適應和學習通過優先考慮能量效率同時保持靈活性和穩健性的機制發生——這一概念與PEFT的目標產生了共鳴。例如,在人類大腦中,當我們學習新事物時,不是調整所有神經連接,而是僅修改特定的突觸通路。這種選擇性調整有助于在不顯著破壞現有知識的情況下有效整合新信息。類似地,PEFT允許模型通過更新最少數量的參數來專門化和適應新任務,這與大腦中的神經回路為新技能或經驗重組的方式一致。這種相似性為結合生物啟發的機制提供了有趣的機會,這可能會導致更符合生物學和高效的微調過程。 八、結論

總之,PEFT與基礎模型的集成展示了跨各種任務和領域高效模型適應的一個有前途的途徑。正如本報告所強調的,基礎模型的快速發展和活躍的PEFT社區強調了跟上技術趨勢以實現最佳性能的重要性。通過探索適應策略(如選擇性、加法、提示、重參數化和混合PEFT)以及跨不同模型結構(如LLM、VFM、VLM、MFM和VGM),本報告提供了關于提高效率和有效性的見解。報告強調了在多樣化基礎模型背景下系統理解PEFT技術的必要性,為該領域的未來進展和應用鋪平了道路。

付費5元查看完整內容

多模態學習是人工智能領域中一個快速發展的方向,旨在通過整合和分析多種類型的數據(包括文本、圖像、音頻和視頻),構建更具多樣性和魯棒性的系統。受到人類通過多感官獲取信息能力的啟發,這種方法使得文本到視頻轉換、視覺問答和圖像描述等應用成為可能。本文綜述了支持多模態語言模型(MLLM)的數據集的最新發展。大規模多模態數據集至關重要,因為它們為這些模型提供了全面的測試和訓練。本文重點討論了多個數據集的貢獻,包括用于訓練、領域特定任務和現實世界應用的數據集。還強調了基準數據集在評估模型在不同場景中的表現、可擴展性和適用性方面的重要性。由于多模態學習始終在不斷發展,克服這些挑戰將有助于推動人工智能研究和應用達到新的高度。

關鍵詞:多模態 · LMM · LLM · 視頻 · 音頻 · VLM

1 多模態學習與大語言模型概述

多模態學習是人工智能領域一個不斷發展的方向,旨在整合和處理多種數據類型,如文本、圖像和音頻,目標是模仿人類認知,后者自然地將感官輸入結合起來。這種方法相比單模態方法,可以構建出更具魯棒性和智能性的系統。 大語言模型(LLMs),如GPT-3、BERT和T5,在文本相關任務中表現出色,如問答和摘要[36]。然而,它們在處理非文本數據時面臨挑戰,這也推動了多模態大語言模型(MLLMs)的研究,后者將LLM的語言能力與計算機視覺的優勢結合起來。MLLMs在圖像描述和視覺問答等任務中取得了最先進的成果[18]。然而,仍然存在一些挑戰,包括高質量數據集的匱乏、高計算成本以及偏見和隱私等倫理問題[28]。盡管如此,MLLMs在醫療、教育和研究等領域具有變革潛力,成為推動人工智能發展的關鍵焦點。

1.1 多模態學習:基礎與概念

1 多模態學習與大語言模型概述

多模態學習是人工智能領域一個不斷發展的方向,旨在構建能夠處理和結合多種數據模態(如文本、圖像、音頻和視頻)的模型。這是因為現實世界的經驗本質上是多模態的,不同模態所攜帶的信息提供了一種更加全面地理解復雜環境的方式[28]。 多模態學習結合了多種數據類型:文本、圖像、音頻和視頻。這些數據創建了每種模態獨特的表示。鑒于各種數據類型的多樣性,傳統上使用不同的方法來捕捉它們的特征。例如,文本通常通過詞嵌入來表示,重點強調意義和結構[3],而圖像數據則通常依賴于卷積神經網絡(CNN)來提取視覺場景中的細節。同樣,音頻數據通常被轉化為聲譜圖或梅爾頻率倒譜系數(MFCC)以捕捉時間和頻率上的模式[41]。一個典型的大型多模態模型(MLLM)處理管道如圖1所示,首先通過模態編碼器處理輸入,統一其表示。然后通過輸入投影器進行細化,并傳入大語言模型(LLM)進行更深入的對齊和理解。最后,輸出投影器和模態生成器將模型的結果轉化為有意義的輸出,支持諸如生成多模態內容或在不同數據類型之間進行轉換的任務。

模態表示的融合是多模態學習中的關鍵焦點。常用的方法包括早期融合,在處理的初期階段通過連接或組合表示[38],以及晚期融合,其中模態特定的表示在過程的后期結合,通常通過注意力機制或門控機制進行[38]。

除了表示和融合之外,多模態學習還面臨更多挑戰,如對齊、翻譯和共學習。對齊使得跨模態的時間或語義同步成為可能,這是視頻理解或視聽語音識別等任務的基本任務[5]。翻譯幫助實現模態轉換,例如從文本生成圖像[57]。共學習則允許在某些數據模態不可用或損壞的情況下學習,通過從可用模態轉移知識[41]。 最近,LLM的進展,如BERT、GPT和DALL-E,顯著加速了多模態學習的進展。這些模型在理解和生成文本方面表現出色,它們擴展到多種數據類型,使得回答圖像相關問題、創建圖像描述甚至基于文本生成圖像成為可能[32]。

簡而言之,多模態學習在發展能夠有效處理和整合來自不同來源的信息的智能系統中扮演著至關重要的角色。多模態的互補優勢確保了這一領域在自然語言處理(NLP)、計算機視覺和機器人等領域不斷創造創新,應用和研究方向也在不斷擴展。

1.2 多模態大語言模型:機遇與挑戰

最近在LLM方面的進展為多模態大語言模型(MLLMs)鋪平了道路,這些模型結合了跨模態的數據,如文本、圖像、音頻和視頻[59]。MLLMs通過結合不同模態的數據,提升理解和表示能力,具有改變多個領域的潛力。 MLLMs將LLM的能力擴展到傳統文本模型之外的任務。這類模型在圖像描述、視覺問答和文本到視頻生成等任務中表現出色——這些任務都需要深入理解語言與視覺的關系[63]。多模態數據的整合為科學研究和領域特定應用提供了更大的空間,通過推動邊界的擴展,開辟了更多可能性。一些關鍵領域,如醫學影像、自動駕駛和地理空間智能,結合了文本、視覺和傳感器數據,從而實現了更現實的決策過程。 盡管MLLMs具有巨大的潛力,但它們的開發仍面臨重要挑戰。其中主要問題之一是缺乏大規模高質量的多模態數據集[49]。覆蓋現實復雜性的無偏數據是訓練強大MLLMs的必要條件[28]。 另一個挑戰是集成這些不同模態所帶來的計算需求和復雜性。訓練和部署MLLMs需要大量資源,因此需要開發新的模型架構、高效的訓練策略和硬件能力[28]。 最后,確保MLLMs的可靠性、可解釋性和倫理對齊性至關重要。隨著這些模型的日益復雜化,越來越需要提供其決策過程的見解,以減少偏見并使其與人類價值觀更緊密地對齊。開發強大的評估框架和可解釋性工具是建立對MLLMs信任的必要條件[45]。 盡管如此,MLLMs的前景仍然廣闊。通過融合多模態數據,這些模型為更好地理解復雜場景開辟了道路,從而誕生了新的應用并推動了相關科學研究。此外,未來的跨學科合作和對倫理問題的關注將是推動MLLMs轉型的關鍵因素[28]。 在接下來的章節中,我們將對MLLMs所需的關鍵數據集進行分類,分為三大類:訓練特定數據集、任務特定數據集和領域特定數據集,如圖2所示。 **

付費5元查看完整內容

摘要

本文綜述了在快速發展的領域中,如何通過強化學習(RL)增強大型語言模型(LLMs)的研究。強化學習是一種使LLMs能夠通過基于輸出質量的獎勵反饋來提高其性能的技術,從而生成更準確、一致、并在語境上更合適的回應。本文系統回顧了最新的強化學習增強LLMs的研究,試圖整合并分析這一快速發展的領域的研究成果,幫助研究人員理解當前的挑戰和進展。具體來說,我們:(1)詳細介紹了強化學習的基本原理;(2)介紹了流行的強化學習增強的大型語言模型;(3)回顧了基于獎勵模型的兩種廣泛使用的強化學習技術:來自人類反饋的強化學習(RLHF)和來自AI反饋的強化學習(RLAIF);(4)探索了直接偏好優化(DPO)方法,這是一組繞過獎勵模型、直接使用人類偏好數據來調整LLM輸出以符合人類期望的方法。我們還將指出現有方法的挑戰和不足,并提出一些進一步改進的方向。

1. 引言

大型語言模型(Jiang et al., 2023; OpenAI, 2023; Dubey et al., 2024)是經過大規模文本數據預訓練的復雜語言模型,使其能夠對多種輸入生成連貫流暢的回應。然而,這些預訓練的大型語言模型的互動能力可能不一致,有時會產生雖然技術上正確,但可能有害、偏見、誤導或與用戶需求無關的回應。因此,在將其應用于各種自然語言任務之前,將預訓練大型語言模型的輸出與人類偏好對齊至關重要(Wang et al., 2023b; Wan et al., 2023; Sun et al., 2023c,b; Giray, 2023; Zhang, 2023; Long, 2023; Sun, 2023; Gao et al., 2023; Paranjape et al., 2023; Sun et al., 2023a; Diao et al., 2023; Wang et al., 2023a; Zhang et al., 2023b; Sun et al., 2023d; Liu et al., 2024d; Yao et al., 2024; Liu et al., 2024c; Lee et al., 2024; Kambhampati, 2024; Wang et al., 2024c)。 此前,將預訓練的大型語言模型的輸出與人類偏好對齊的廣泛采用的方法是監督微調(SFT)(Hu et al., 2021; Mishra et al., 2021; Wang et al., 2022; Du et al., 2022; Dettmers et al., 2023; Taori et al., 2023; Zhang et al., 2023a; Chiang et al., 2023; Xu et al., 2023; Peng et al., 2023; Mukherjee et al., 2023; Li et al., 2023; Ding et al., 2023; Luo et al., 2023; Wang et al., 2024d; Zhou et al., 2024)。這種方法通過(指令,答案)對進一步訓練LLMs,其中“指令”代表給模型的提示,“答案”是符合指令的目標輸出。SFT有助于引導LLMs生成符合特定特征或領域知識的回應,使得人類能夠與LLMs進行交互。盡管SFT有效,但它也有局限性:在訓練過程中,模型被限制為學習我們提供的特定答案,并且使用困惑度(PPL)等指標來懲罰同義詞的使用。一方面,這可能阻礙LLM的泛化能力,因為任務如寫作和總結有多種有效的表述方式。另一方面,它可能導致在與人類偏好對齊時表現不佳,因為訓練過程中沒有直接融入人類反饋。 為了緩解上述問題,采用了強化學習(RL)來將LLM的輸出與人類偏好對齊,強化學習過程可分為三個步驟:(1)首先,在微調之前,訓練一個獎勵模型(或獎勵函數),以近似人類偏好并為不同的LLM輸出評分;(2)然后,在每次微調迭代中,給定一個指令,LLM生成多個回應,每個回應都由訓練好的獎勵模型評分;(3)最后,使用強化學習的優化技術——策略優化,基于這些偏好評分更新LLM的權重,以改進預測。用強化學習微調LLM可以同時解決上述問題。一方面,強化學習不再限制模型僅學習一個特定答案,而是根據各種偏好評分調整LLM,獎勵任何有效且措辭恰當的回應。另一方面,獎勵模型被設計為近似人類偏好,從而使得可以直接在人工偏好上訓練,并增強LLM的創造力。 本文將整合強化學習(RL)在大型語言模型(LLMs)中的最新研究成果,試圖分析并總結這一快速發展的領域,幫助研究人員理解當前的研究進展、挑戰和前景。具體來說:

  • 第二部分介紹強化學習(RL)的基本原理及關鍵術語,并概述強化學習如何適應LLM的管道。
  • 第三部分介紹了強化學習增強的流行且強大的大型語言模型。
  • 第四部分概述了基于人類反饋的強化學習(RLHF)的過程,這是一種將強化學習與人類反饋結合的訓練方法,用以將LLMs與人類的價值觀、偏好和期望對齊。
  • 第五部分回顧了基于AI反饋的強化學習(RLAIF)的研究,RLAIF作為RLHF的有力補充,利用AI系統提供反饋,提供了可擴展性、一致性和成本效益的優勢。
  • 第六部分分析了RLHF和RLAIF所面臨的挑戰。
  • 第七部分討論了直接偏好優化(DPO)研究,這是一系列繞過獎勵模型、直接利用人類偏好數據將LLM輸出與人類期望對齊的方法。
  • 第八部分總結了當前的挑戰,并討論了進一步改進的機會。

強化學習在大型語言模型中的應用

我們已經概述了強化學習(RL)的基本框架;現在,我們將深入探討如何使用RL微調大型語言模型(LLMs)的過程。此方法旨在將LLM與期望的行為對齊,提升其性能,并確保其輸出既有效又可靠。

在強化學習(RL)中,有六個關鍵組件:代理(Agent)、環境(Environment)、狀態(State)、動作(Action)、獎勵(Reward)和策略(Policy)。要將RL應用于微調大型語言模型(LLMs),第一步是將這些組件映射到LLM框架中。 LLMs在預測下一個詞元(next-token prediction)方面非常高效,它們將一系列詞元作為輸入,并根據給定的上下文預測下一個詞元。從RL的角度來看,我們可以將LLM本身視為策略(Policy)。當前的文本序列代表狀態(State),根據這個狀態,LLM生成一個動作(Action)——即下一個詞元。這個動作會更新狀態,形成一個新的狀態,其中包含新增的詞元。在生成完整的文本序列后,使用預訓練的獎勵模型來評估LLM輸出的質量,從而決定獎勵(Reward)。 圖2 展示了Ouyang等人(2022)提出的LLM強化學習框架。Ouyang等人(2022)首先使用通過監督學習訓練的指令微調模型,使其能夠生成結構化的響應。接著,Ouyang等人(2022)應用了以下兩個步驟: 步驟1:收集比較數據并訓練獎勵模型

Ouyang等人(2022)收集了一個數據集,包含指令微調模型輸出之間的比較,標注者指出對于給定輸入,他們更喜歡哪個輸出。然后,收集到的數據集用于訓練一個獎勵模型(Reward Model, RM),以預測人類偏好的輸出。 步驟2:使用PPO優化策略對抗獎勵模型

Ouyang等人(2022)將獎勵模型的輸出作為標量獎勵,并通過PPO算法(Schulman等人,2017)對指令微調模型進行微調,優化該獎勵。

強化學習增強的流行大型語言模型

近期流行的強大功能的大型語言模型(LLMs)幾乎都利用強化學習(RL)來進一步增強其在后期訓練過程中的表現。這些模型所采用的強化學習方法通常可以分為兩大類: 1. 傳統的RL方法,如基于人類反饋的強化學習(RLHF)基于AI反饋的強化學習(RLAIF)。這些方法需要訓練一個獎勵模型,并且涉及復雜且通常不穩定的過程,使用如近端策略優化(PPO)(Schulman 等人,2017)等算法來優化策略模型。像InstructGPT(Ouyang 等人,2022)、GPT-4(OpenAI,2023)和Claude 3(Anthropic,2024)等模型都采用了這一方法。 1. 簡化的方法,如直接偏好優化(DPO)(Rafailov 等人,2024)和獎勵感知偏好優化(RPO)(Adler 等人,2024)。這些方法摒棄了獎勵模型,提供了一種穩定、性能強大且計算效率高的解決方案。像Llama 3(Dubey 等人,2024)、Qwen 2(Yang 等人,2024a)和Nemotron-4 340B(Adler 等人,2024)等模型都采用了這一方法。

在這一部分,我們將詳細描述每個模型,首先簡要概述這些強化學習增強的大型語言模型,并解釋強化學習如何在它們的后期訓練過程中應用。有關這些強化學習增強的LLMs的概覽見表1

RLHF:基于人類反饋的強化學習

基于人類反饋的強化學習(RLHF)是一種訓練方法,它將強化學習(RL)與人類反饋相結合,以將大型語言模型(LLMs)與人類的價值觀、偏好和期望對齊。RLHF包含兩個主要組件: 1. 收集人類反饋以訓練獎勵模型:在人類評估者提供反饋時,他們通過根據質量、相關性等因素對LLM的輸出進行評分或排名。這些反饋隨后用于訓練一個獎勵模型,該模型用于預測輸出的質量,并作為RL過程中的獎勵函數。 1. 使用人類反饋進行偏好優化:訓練好的獎勵模型指導LLM輸出的優化,以最大化預測獎勵,從而使LLM的行為與人類的偏好對齊。

接下來,我們將通過近期的研究來闡述這兩個組件。

付費5元查看完整內容

摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。

關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述

1 引言

技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。

例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。

第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。

圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。

本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。

本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。

2 為什么需要對齊與融合

對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。

2.1 提升全面性與魯棒性

對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題

在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性

對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用

對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊

多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊

顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。

DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊

隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法

圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。

這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法

近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。

4 多模態融合

多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。

4.1 編碼器-解碼器融合

編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。

4.1.1 數據級融合

在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。

4.1.2 特征級融合

這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。

4.1.3 模型級融合

模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。

4.2 基于注意力機制的融合

基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。

4.3 圖神經網絡(GNN)在多模態融合中的應用

圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。

4.4 自監督學習與多模態融合

自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。

在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。

例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。

4.5 持續學習與多模態融合

持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。

在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。

付費5元查看完整內容

摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。

情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。

多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。

多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。

多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。

本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。


綜述的結構

第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。

多模態情感計算中的多模態學習

多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。

A. 初步概述

隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。

B. 多模態融合

多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。

**1) 跨模態學習

跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。

在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。

**2) 模態一致性與差異性

模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。

**3) 多階段模態融合

多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。

C. 多模態對齊

多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。

**1) 缺失模態的對齊

在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。

第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。

**2) 跨模態語義對齊

語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。

多模態情感計算中的模型

在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。

A. 多任務學習

多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。

**1) 多模態情感分析

在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。

**2) 多模態對話情感識別

在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。

**3) 多模態基于方面的情感分析

Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。

**4) 多模態多標簽情感識別

對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。

B. 預訓練模型

近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。

**1) 多模態情感分析

在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。

**2) 多模態對話情感識別

在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。

**4) 多模態多標簽情感識別

一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。

C. 增強知識

在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。

**1) 多模態情感分析

在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。

**2) 多模態對話情感識別

在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。

**4) 多模態多標簽情感識別

在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。

D. 上下文信息

上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。

**1) 多模態情感分析

在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。

**2) 多模態對話情感識別

在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。

**4) 多模態多標簽情感識別

MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論

多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。

付費5元查看完整內容

摘要——大型語言模型(LLMs)的快速進展有潛力革新各個領域,但其迅猛發展在監督、倫理開發和建立用戶信任方面帶來了顯著挑戰。本綜述全面調研了LLMs中的關鍵信任問題,重點關注意外傷害、缺乏透明性、易受攻擊、人類價值觀對齊和環境影響等問題。我們強調了可能破壞用戶信任的諸多障礙,包括社會偏見、決策過程中的不透明性、潛在的濫用以及技術快速演變帶來的挑戰。隨著LLMs在金融、醫療、教育和政策等敏感領域的普及,解決這些信任差距至關重要。 為了解決這些問題,我們建議采用綜合方法,包括倫理監督、行業問責、監管和公眾參與。我們主張重塑AI開發規范、對齊激勵措施,并在整個機器學習過程中整合倫理考量,這需要技術、倫理、法律和政策等不同領域專業人士的密切合作。我們的綜述通過提供一個評估LLMs信任的強大框架和對復雜信任動態的深入分析,為該領域作出了貢獻。我們提供了上下文化的指南和標準,旨在負責任地開發和部署這些強大的AI系統。 本綜述識別了在開發可信AI過程中面臨的關鍵限制和挑戰。通過應對這些問題,我們的目標是創建一個透明、負責的AI生態系統,在帶來社會利益的同時將風險降至最低。我們的研究成果為研究人員、政策制定者和行業領導者提供了寶貴的指導,幫助他們在各類應用中建立對LLMs的信任,并確保其負責任地使用造福社會。 關鍵詞——AI治理、算法偏見、可解釋的AI、大型語言模型、可信的AI。

人工智能(AI)的發展顯著受到了作出基礎性貢獻的關鍵人物的影響。AI的創始人約翰·麥卡錫提出了“人工智能”一詞,并倡導使用數學邏輯來表示知識,開創了知識表示領域。他還開發了LISP,這是一種對AI進展至關重要的編程語言[1]。麻省理工學院計算機科學與人工智能實驗室的聯合創始人馬文·明斯基通過理論AI研究推動了對機器智能和推理的理解[2]。由麥卡錫、明斯基、內森尼爾·羅切斯特和克勞德·香農提出的1956年達特茅斯會議是AI歷史上的一個關鍵時刻,將該領域從理論概念轉向實際應用[3]。這一時期見證了啟發式搜索技術和早期機器學習模型的進步,展示了AI向實際應用的轉變。

1970年代后期,AI進展放緩,被稱為“第一次AI寒冬”。這是由于未能達到預期和計算能力有限導致資金和興趣的減少。1980年代見證了向實際AI應用的轉變,如專家系統和自然語言處理,為大型語言模型(LLMs)奠定了基礎,推進了AI對語言理解和生成的能力。盡管在AI寒冬期間面臨挑戰,早期的專家系統在AI商業化方面起到了關鍵作用[4]。

最近的AI進展歸因于廣泛的數據集和日益增加的計算能力,特別是GPU的使用。這些因素在推動深度學習技術的發展中起到了關鍵作用,顯著影響了計算機視覺和語音識別[5],[6]。另一個重要的里程碑是語言模型的創建,這些模型能夠處理和生成類人文本,從而擴展了AI的能力。深度神經網絡(DNNs)和LLMs的有效性導致了AI在醫療、金融、交通和零售等各個行業的廣泛采用,提高了效率和數據處理能力[8]-[10]。神經網絡(NNs)用于分析大量數據集并識別模式,而LLMs則用于為自動化客戶服務的聊天機器人提供動力[11]-[14]。這些技術革新了不同領域的技術互動,凸顯了深度學習和語言模型對AI進展的重大影響[9]。 DNN架構,包括LLMs,導致了“黑箱”問題,使得理解其工作原理及其結果變得困難[15]。雖然像決策樹這樣的簡單AI模型是透明的,但LLMs缺乏透明性,這在用于決策時引發了倫理問題。挑戰在于使這些系統更透明和可理解,同時考慮到潛在的偏見和錯誤。解決這些問題的努力包括開發使算法過程更透明的方法,但這在AI倫理和治理中仍然是一個重大挑戰[16]。要更好地理解這一點,請參見圖1,它展示了AI的演變和信任挑戰。

時間軸展示了AI在醫療、金融、交通、零售和電子商務領域的日益擴大影響。LLMs在利用先進的語言生成技術變革內容創建方面處于領先地位。時間軸強調了AI中的信任和監督挑戰以及建立信任策略的重要性[17],[18]。它揭示了AI進展與政策和治理發展之間的差距。

LLMs的最新進展改善了其語言生成能力,但其復雜性阻礙了我們對其決策過程的理解。黃和王在2023年的調查[19]強調了解釋性對LLMs的重要性,特別是在需要透明度和信任的關鍵行業。主要發現包括:a)用于基于神經網絡的NLP模型的事后解釋工具如InSeq工具包;b)模型校準和不確定性估計技術;c)用于擴展和推理的指令微調LLMs研究,問題回答中的元推理;d)LLMs的數學推理能力,語義解析魯棒性研究,減少LLM使用危害的舉措,Aug-imodels等框架[19]用于高效和可解釋的模型,評估代碼訓練的LLMs,以及e)改進LLM推理性能的Chain-of-Thought樞紐措施。他們的研究強調了解釋性對LLMs的倫理和實際重要性。在LLMs被集成到多種應用中時,提供可理解和可解釋的響應是重要的。增強模型設計和交互、提高魯棒性和效率、指導訓練技術都是理解LLM操作的好處。他們的調查是揭開LLM復雜性的一個重要貢獻,為在醫療、金融和法律領域透明和倫理部署LLM奠定了基礎。它為未來研究奠定了基礎,以彌合原始LLM輸出與人類可理解解釋之間的差距。持續開發LLM解釋性對推進AI技術的可信性和可及性至關重要。

A. 構建大型語言模型的信任

黃和王的調查工作[19]及更廣泛的解決“黑箱”問題的努力指明了清晰的前進方向。然而,我們需要一種綜合方法,考慮倫理、技術和政策,以構建AI系統的信任,尤其是像LLMs這樣復雜的模型。 1)LLMs的倫理問題:LLMs在醫療、金融、政策制定和法律系統等領域的日益使用引發了關于隱私、偏見、公平和問責的倫理問題,原因是它們具有先進的自然語言能力。 LLMs可能會因為訓練文本數據中包含敏感信息而損害隱私。這可能導致隱私泄露,例如暴露醫療保健中的機密患者數據或在數據分析中泄露敏感的客戶記錄。為減少這些風險,有必要避免將個人可識別信息納入模型,并評估其隱私影響。確保LLM系統中的透明性和用戶對其數據的控制至關重要。明確的數據隱私指南和法規對于與用戶建立信任至關重要[20]-[30]。 偏見是LLMs的另一個倫理問題。它指的是LLMs在訓練數據中反映和延續的偏見,這可能導致偏見輸出或決策,損害邊緣化群體。性別、種族或文化偏見可能影響LLM模型,導致不公平或刻板印象的輸出和歧視性決策。例如,一個以人力資源為重點的LLM助手可能會對某些群體不利。為解決這一問題,公司應建立多元化的審查委員會,并定期使用偏見檢測工具審核LLM輸出[31]-[33]。 LLMs的另一個倫理問題是公平性,指的是公正待遇。LLM系統必須避免偏見并確保公平,通過公正對待每個人來實現。不公平的LLM模型可能會加劇不平等并造成傷害。例如,在公共政策中使用LLMs評估貸款或抵押申請可能會加劇經濟不平等。實現LLMs的公平性需要防止數據和算法中的偏見,使用對抗性去偏技術,并使用明確定義的指標持續評估公平性[34]-[37]。 問責在LLM系統中至關重要[38]-[40]。由于其復雜的推理過程,LLMs在醫療、司法和就業等影響人們生活的領域中尤其難以追究責任。用戶和利益相關者應知道誰對開發、部署和維護負責。他們應有錯誤、偏見或傷害的申訴機制。組織應建立明確的責任制和透明的治理,包括AI倫理委員會、模型性能的詳細記錄和跟蹤,以及關于LLM系統開發和部署的全面報告。 訓練和運行如GPT-3之類的LLMs需要大量的計算資源,導致高能耗和碳排放[41]。例如,GPT-3的訓練消耗了大約1287 MWh的電力,產生了502公噸的CO2排放,相當于112輛燃油車一年的排放。推理過程可能比訓練消耗更多的能量,估計約60%的AI能量用于推理,40%用于訓練[42]。一次ChatGPT請求的能耗可能是一次谷歌搜索的100倍。盡管LLMs目前對整個ICT行業的排放貢獻不到0.5%,對全球總排放的貢獻不到0.01%,但其影響正在迅速增加[43],[44]。為了促進AI的可持續性,行業應優先透明測量能耗和排放,利用可再生能源數據中心,開發更高效的AI硬件和算法,啟用排放跟蹤功能,并考慮轉向較小的專用模型而非大型通用LLMs。盡管LLMs目前對全球排放的貢獻很小,但其日益廣泛的使用需要積極努力減輕其環境影響,確保AI發展惠及世界而不加劇氣候變化。AI社區、政府和科技公司之間的合作對于實現更可持續的AI未來至關重要[45],[46]。

2)信任基礎上的LLMs技術進步:LLM系統需要解決技術挑戰以建立信任,例如解釋性。解釋性指的是理解和解釋LLM系統的決策過程。透明性通過使用戶理解系統的推理并識別潛在的偏見或錯誤來建立信任。可解釋的LLM系統可以幫助識別倫理問題并提供決策見解[20],[47],[48]。 可解釋AI(XAI)技術對于理解LLMs及建立其復雜系統的信任至關重要。注意力機制提供了對模型預測的見解[49],但其解釋可能存在爭議[50]。更可靠的方法如綜合梯度[51]和代理模型[52]提供了特征相關性的量化指標,增強了我們對模型決策的理解。最新進展應用電路分析[53]來分解復雜的黑箱LLMs為可解釋的元素,提供了模型操作的詳細見解。使用提示技術生成的模型解釋允許全面的因果敘述[54]。然而,重要的是嚴格評估這些解釋的準確性和有用性[55]。使用各種XAI方法對于LLM的負責任使用至關重要。清晰的解釋通過描述模型的能力、局限性和風險來幫助建立終端用戶的信任[56]。它們對于調試[57]、識別偏見[58]和促進倫理使用至關重要。隨著LLMs的進步,開發可解釋的LLMs至關重要。這在技術上具有挑戰性,但在倫理和研究上必不可少。定制的XAI技術需要在各個層次提供解釋,反映模型的邏輯以增強用戶信心、確保安全并指導AI的倫理使用。

另一個技術挑戰是數據偏見。數據偏見指的是LLM訓練數據中的不公平偏向或歧視。它可能導致有偏見的結果并延續社會不平等。解決數據偏見需要采取措施,如數據審計、預處理以減輕偏見以及多樣化訓練數據集以實現代表性和包容性。明確定義的指標可以幫助評估LLM系統的公平性、準確性、可靠性和透明性,提供其倫理表現的量化指標[20],[37],[47],[48]。

最新研究探索了通過解決幻覺和缺乏可解釋性等問題來提高LLMs可信度的技術[59]。他們提出了一種稱為圖上的推理(RoG)的方法,通過知識圖譜與LLMs協同進行真實和可解釋的推理。在其檢索-推理優化方法中,RoG使用知識圖譜檢索推理路徑,以便LLMs生成答案。RoG中的推理模塊使LLMs能夠識別重要的推理路徑并提供可解釋的解釋,增強了AI系統的可信度。通過專注于知識圖譜中的推理過程并提供透明的解釋,像RoG這樣的方法展示了建立LLMs信任的有希望的方向[59]。

具有可靠日志記錄的可解釋系統增強了透明性、審計和問責制[60]。文檔和日志記錄提供了對決策過程的見解,支持錯誤解決,并確保遵守倫理和法規標準,從而建立用戶信任。這些機制使技術和非技術利益相關者能夠理解AI系統的內部運作,并確定影響其輸出的因素。

3)用戶信任的心理因素:用戶對LLMs的信任在很大程度上取決于心理因素,而不僅僅是技術的可靠性[61]-[65]。用戶必須對LLM系統的可靠性、準確性和可信度有信心。通過有效的溝通和透明性可以實現這一點。組織應清楚地傳達LLM系統的能力和局限性,提供有關系統工作原理和決策方式的信息。此外,組織應對其數據收集和使用實踐保持透明,讓用戶了解他們的數據如何被使用和保護。

4)信任基礎上的LLMs政策與治理:有效的治理對于管理部署LLM系統相關的倫理、技術和問責問題至關重要[36],[40],[47],[61],[66]-[69]。應建立結構和流程,以確保LLM系統的倫理和負責任開發、部署和監控。涉及關鍵利益相關者,如AI倫理委員會、監管機構和行業專家,可以提供指導和監督。為了確保公平和無偏見的決策,必須包括用戶反饋和多樣化的觀點。為了建立對LLMs的信任,我們必須解決解釋性和數據偏見等技術問題,同時建立強有力的治理框架。

5)社會經濟影響:必須評估LLMs的社會經濟影響,以了解其對勞動力和社會的影響。LLMs可能會取代人類工人,導致失業和社會動蕩。需要投資于技能發展,以幫助工人適應變化。再培訓計劃和其他培訓可以使工人能夠與LLMs協同工作或從事新角色。應實施優先考慮工作保障和社會支持的政策,以減輕影響。探索LLMs的潛在社會福利,如增加信息獲取,可以促進更包容的社會。在設計和實施LLMs時,倫理考量和負責任的部署至關重要。應建立促進透明、問責和公平的政策和法規。對LLMs影響的仔細考慮、技能發展的投資和負責任的部署對于對社會產生積極影響至關重要[70]-[72]。

B. 本綜述的主要貢獻

本綜述對AI系統的信任進行了全面分析,重點關注LLMs。通過審查倫理、技術和社會因素,我們為負責任的AI開發討論作出了貢獻。我們的綜述提供了應對構建AI系統信任挑戰的見解和建議,特別是LLMs。主要貢獻如下所述。

? 綜合評估框架:本綜述提供了一個用于分析高級AI系統,特別是LLMs中的算法偏見和漏洞的分類法。該框架由八個視角組成,涵蓋透明性、魯棒性、人類價值對齊和環境影響等方面。此方法使得能夠對LLMs的信任進行徹底評估,解決其開發和部署中的問題。通過整合多種視角,該框架提供了LLM可信度的全貌,對負責任的AI作出了重要貢獻。 ?** 綜合信任動態分析**:本綜述審查了影響用戶對AI系統信任的因素,包括心理、倫理、技術和政策方面。通過分析AI能力、法規和社會接受度的交叉點,識別了實現可信AI的障礙。此研究揭示了信任動態,為從事負責任的AI開發和實施的研究人員、政策制定者和行業專業人士提供了指導。 ? 針對LLMs的上下文化指南和標準:本綜述審查了現代AI系統,特別是不透明模型如LLMs的倫理指南和政策標準的應用。倫理指南在確保AI使用的責任方面發揮重要作用。然而,LLMs由于其類人文本生成和缺乏透明性,面臨獨特的挑戰,這使得理解和解釋其行為變得困難。本綜述探討了在實際LLM部署中實施倫理原則的實際意義,考慮了技術限制、社會影響和潛在風險。它識別了局限性并提供了解釋和操作化LLM開發和部署倫理指南的見解。目標是通過突出差距并倡導完善LLM特定指南來促進AI治理,促進AI使用的透明性、公平性和問責制。

C. 本綜述的局限性

本綜述對AI信任進行了全面審查,特別關注LLMs。然而,重要的是要承認我們研究的局限性。我們的分析基于現有的AI倫理和信任領域的文獻和研究,包括專門針對LLMs的相關工作。因此,本綜述可能無法完全捕捉這些快速發展的領域中最新的想法或進展。

我們的分析范圍限于學術出版物和行業報告,這限制了所考慮的觀點范圍。對于LLMs,這尤為相關,因為本綜述可能未包括未出版的研究或不太知名的觀點,這些觀點可能提供寶貴的見解。此外,鑒于AI技術發展和LLMs倫理考慮不斷演變的速度,本綜述中提出的一些討論和結論可能會隨著時間的推移而變得不再相關。盡管我們的綜述旨在涵蓋AI,包括LLMs,越來越多部署在高風險領域中的情況,但它并未詳盡地解決所有與LLMs相關的信任方面或行業特定挑戰。本綜述中提出的解釋和分析基于撰寫時可獲得的最佳數據和研究。讀者在評估這些發現和建議時應考慮這些局限性。

需要強調的是,本綜述的目標是對AI和LLMs的信任進行全面審查,同時保持對分析范圍的透明度。我們旨在通過探索現有的指南和框架、討論構建LLMs信任的方法和挑戰以及提出未來研究方向,為AI信任和倫理的持續對話作出貢獻。我們鼓勵在可能探索較少或快速發展的領域進行進一步研究和對話,因為這些討論對于AI系統負責任的開發和部署至關重要。在本綜述中,我們創建了一個敘述,捕捉了AI信任的當前狀態及其領域中的潛在發展。然而,AI倫理和信任的領域是復雜和多面的,我們的綜述可能未涵蓋每一個細微差別或觀點。盡管如此,我們希望這項工作能為研究人員、政策制定者和從業人員在應對與AI和LLMs信任相關的挑戰和機遇時,提供有價值的資源。

付費5元查看完整內容

**引言

擴散模型(Diffusion Models)是近年來在各種視覺任務中廣受關注的生成建模方法。由于這些模型不依賴標簽注釋,因此可以被視為一種獨特的自監督學習方法。本文綜述了擴散模型與表示學習之間的相互關系,概述了擴散模型的基本方面,包括數學基礎、流行的去噪網絡架構和指導方法。此外,本文還詳細介紹了與擴散模型和表示學習相關的各種方法,包括利用預訓練擴散模型學習的表示進行后續識別任務的框架,以及利用表示學習和自監督學習進展來增強擴散模型的方法。本文旨在提供擴散模型與表示學習之間分類法的全面概述,識別現有問題和潛在探索的關鍵領域。

擴散模型(Diffusion Models)最近在生成建模領域中脫穎而出,展示了在圖像合成、自然語言處理、計算化學和音頻合成等領域的非凡成果。擴散模型的卓越生成能力表明,它們不僅可以學習輸入數據的低層次特征,還可以學習高層次特征,使其成為通用表示學習的理想候選者。與生成對抗網絡(GANs)和變分自編碼器(VAEs)等其他生成模型不同,擴散模型沒有固定的架構組件來捕獲數據表示,這使得基于擴散模型的表示學習具有挑戰性。然而,利用擴散模型進行表示學習的方法受到了越來越多的關注,同時也得益于擴散模型在訓練和采樣方面的進展。

目前最先進的自監督表示學習方法展示了良好的可擴展性,因此,擴散模型也可能表現出類似的擴展特性。用于獲得最先進的生成結果的控制生成方法(如分類器指導和無分類器指導)依賴于帶注釋的數據,這成為擴展擴散模型的瓶頸。利用表示學習的指導方法無需注釋,提供了一種解決方案,可能使擴散模型能夠在更大的、無注釋的數據集上進行訓練。

本文旨在闡明擴散模型與表示學習之間的關系和相互作用。我們重點介紹兩個核心觀點:利用擴散模型本身進行表示學習,以及利用表示學習來改進擴散模型。我們介紹了當前方法的分類,并總結了展示當前方法共性的通用框架。

自Ho等人、Sohl-Dickstein等人和Song等人最初提出擴散模型以來,對探索擴散模型表示學習能力的興趣不斷增加。正如圖1所示,我們預計這一趨勢將在今年繼續。擴散模型和表示學習方面發表的作品數量增加,使得研究人員更難識別最先進的方法并跟上當前的發展。這可能會阻礙這一領域的進展,這也是為什么我們認為需要對這一領域進行全面概述和分類。

擴散模型和表示學習的研究還處于初期階段。許多當前的方法僅依賴于為生成合成訓練的擴散模型進行表示學習。因此,我們假設未來在這一領域有顯著的進步機會,擴散模型可以越來越多地挑戰當前表示學習的最先進水平。圖2展示了現有方法的定性結果。我們希望這份綜述可以通過澄清當前方法的共性和差異,促進基于擴散的表示學習的進展。總結而言,本文的主要貢獻如下:

全面概述:提供擴散模型與表示學習相互作用的全面綜述,澄清如何利用擴散模型進行表示學習,反之亦然。

方法分類:我們引入了基于擴散表示學習的當前方法的分類,突出它們之間的共性和差異。

通用框架:本文為擴散模型特征提取和基于分配的指導提出了通用框架,提供了對大量擴散模型和表示學習作品的結構化視角。

未來方向:我們確定了這一領域進一步發展的關鍵機會,鼓勵探索擴散模型和流匹配作為表示學習的新前沿。

付費5元查看完整內容

摘要:隨著自然語言處理(NLP)領域中預訓練技術的快速發展,將外部知識引入到預訓練語言模型的知識驅動方法在NLP任務中表現優異,知識表示學習和預訓練技術為知識融合的預訓練方法提供了理論依據。概述目前經典預訓練方法的相關研究成果,分析在新興預訓練技術支持下具有代表性的知識感知的預訓練語言模型,分別介紹引入不同外部知識的預訓練語言模型,并結合相關實驗數據評估知識感知的預訓練語言模型在NLP各個下游任務中的性能表現。在此基礎上,分析當前預訓練語言模型發展過程中所面臨的問題和挑戰,并對領域發展前景進行展望。

//www.ecice06.com/CN/10.19678/j.issn.1000-3428.0060823

付費5元查看完整內容
北京阿比特科技有限公司