亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。

I. 引言

隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:

  • 我們提供了關于不平衡數據學習的全面文獻綜述,系統地概述了基于機器學習基礎過程的方法。
  • 我們對不平衡在各種數據格式中的表現進行了深入分析,包括圖像、文本和圖形,提供了每種格式特有的挑戰和方法的詳細探索。
  • 我們突出了可用于解決不平衡數據問題的資源,并探討了當前面臨的挑戰和未來的研究方向。這一討論旨在幫助那些在應對不平衡問題時掙扎的研究人員,幫助他們有效和高效地開發策略。

本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。

付費5元查看完整內容

相關內容

 摘要—生成性人工智能(AI)通過使機器能夠以空前的復雜性創建和解釋視覺數據,迅速推動了計算機視覺領域的發展。這一變革建立在生成模型的基礎上,能夠生成逼真的圖像、視頻以及3D/4D內容。傳統上,生成模型主要關注視覺逼真度,而往往忽視了生成內容的物理合理性。這一差距限制了其在需要遵守現實世界物理法則的應用中的效果,如機器人技術、自動化系統和科學模擬。隨著生成性人工智能不斷融入物理現實和動態仿真,其作為“世界模擬器”的潛力不斷擴大——能夠模擬由物理法則主導的交互,架起虛擬與物理現實之間的橋梁。本綜述系統地回顧了這一新興領域——計算機視覺中的物理感知生成性AI,按其如何融入物理知識對方法進行了分類——無論是通過顯式仿真還是隱式學習。我們分析了關鍵范式,討論了評估協議,并指出了未來的研究方向。通過提供全面的概述,本綜述旨在幫助未來在視覺領域的物理基礎生成方面的發展。綜述中提到的論文匯總在

//github.com/BestJunYu/Awesome-Physics-aware-Generation

1 引言生成學習一直是現代計算機視覺的基礎支柱,解決了理解、合成和操作視覺數據中的關鍵挑戰。在過去的十年里,該領域見證了多種生成模型的快速發展,包括變分自編碼器(VAE)[1]、生成對抗網絡(GAN)[3]、擴散模型(DM)[4]、[5]、[6]、神經輻射場(NeRF)[7]、高斯濺射(GS)[8] 和視覺自回歸模型(VAR)[9]。這些模型不斷推動生成學習的邊界,利用越來越強大的架構來捕捉視覺數據的潛在分布。其目標是使機器能夠以類似人類的創造性和理解方式推理視覺世界,通過在未見過的場景中想象新的視覺內容實例。在這些進展中,擴散模型因其能夠生成高度逼真的輸出而成為特別值得注意的技術。通過通過學習到的去噪過程迭代地精煉隨機噪聲,擴散模型展現出卓越的魯棒性和多功能性,成為近期生成方法學的基石。生成模型的應用跨越了多種視覺內容的模態,包括具有語義理解的圖像生成、具有動態時間理解的視頻生成、具有增強空間理解的3D內容生成[10]、[11]、[12]以及具有更復雜和綜合理解的4D內容[13]、[14]、[15]、[16]、[17]、[18]、[19]。這些進展突顯了生成學習在日益復雜的視覺任務中的巨大潛力。在這些不同的視覺模態中,視頻生成最近在生成學習領域獲得了顯著關注,它為擴展大型生成模型處理更高維數據提供了一個更加具有挑戰性的試驗平臺。這一復雜性不僅源于單個幀的空間復雜性,還來自于跨序列所需的時間一致性。許多商業視頻生成模型已被開發并引起了廣泛的公眾關注,如OpenAI的Sora [20]、Google的Veo2 [21]、騰訊的Hunyuan [22]和快手的Kling [23]。視頻生成已在多種形式和設置中得到深入研究,從最基本的無條件生成[24]、[25]到圖像到視頻生成[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、文本到視頻生成[24]、[25]、[26]、[29]、[30]、[30]、[34]、[35]、[36]、[37]、視頻到視頻生成[38]、[39]、以及視頻編輯或定制[40]、[41]、[42]、[43]。這些設置各自解決了獨特的挑戰,從保持時間連續性到結合來自文本或視覺輸入的語義引導。更重要的是,視頻在生成AI視覺的未來中占據了關鍵地位。互聯網上可用的大量視頻數據封裝了關于現實世界的豐富信息,使視頻成為生成AI可以學習建模復雜現實世界現象的媒介。在這個背景下,視頻可以被視為現實世界決策的“語言”,具有彌合數字和物理領域的潛力[44]。視頻生成有望提供一個統一的接口作為“世界模型”[45],處理物理知識,類似于文本大語言模型(LLM)處理抽象知識的方式。這種模型可以促進大量下游任務的執行,包括自動駕駛、科學仿真、機器人[46]、[47]、[48]、[49]、[50]以及其他形式的具身智能。為了實現這一潛力,生成過程應能夠與人類或其他系統的外部控制進行交互。這種互動性促進了動態決策制定和基于互動優化結果的能力,催生了可以描述為生成交互環境的概念[44]、[51]、[52]、[53]。視頻生成已經與多種交互控制信號相結合,如運動向量或軌跡[54]、[55]、[56]、[57]、[58]、手部掩碼[59]、潛在動作[53]、[60]、機器人操作[47]、相機運動[61]、演示[62]和自然語言描述[63]、[64]、[65]。這些互動元素突顯了生成視頻模型的多功能性和適應性,為其演變為世界模型鋪平了道路。然而,從生成到穩健世界建模的過渡仍然存在一個關鍵差距:真實世界物理的忠實理解和復制能力[66](見圖1)。當前的最先進模型主要針對像素空間中的視覺真實感進行優化,而非在實體或概念空間中的物理合理性。為了使生成模型能夠作為物理世界的模擬器,它們必須融入對物理法則的深刻理解,如動力學、因果關系和材料屬性。這種物理意識對于超越僅生成視覺上吸引人的輸出至關重要,以確保內容與物理世界的約束和行為一致。因此,我們提供本綜述,作為對現有文獻的及時而全面的回顧,旨在將物理感知嵌入生成模型。通過審視這些努力,我們希望突出至今所取得的進展,提供清晰的范式結構,并識別未來的潛在研究方向。綜述范圍:本綜述的范圍是關于增強生成輸出物理感知的計算機視覺生成模型。因此,我們不包括將物理原理作為先驗知識或歸納偏置融入模型或神經架構設計的文獻,例如物理信息神經網絡(PINN)[67]、[68],即使任務與生成學習相關,例如[69]、[70]、[71]。我們專注于生成任務,因此不包括圖像處理任務,如去模糊、去霧和增強,盡管我們注意到這些工作中有大量的物理相關內容。為了專注于計算機視覺,我們還排除了純圖形和渲染研究與物理仿真相結合的文獻。與其他綜述的比較:如同在我們的范圍中所述,本綜述與現有的關于物理信息機器學習[72]、物理信息計算機視覺[73]和物理信息人工智能[74]的綜述不同,因為它們強調的是在物理先驗知識下的模型設計方面。我們的綜述專注于具有物理感知的生成,因此與現有的關于生成模型[75]、擴散模型[76]、[77]、視頻擴散模型[78]、基于擴散的視頻編輯[79]的綜述有所不同。與專注于特定領域的綜述,如人類視頻或運動生成[80]、[81]、[82]相比,我們的綜述也有不同的范圍。

付費5元查看完整內容

摘要

本文綜述了在快速發展的領域中,如何通過強化學習(RL)增強大型語言模型(LLMs)的研究。強化學習是一種使LLMs能夠通過基于輸出質量的獎勵反饋來提高其性能的技術,從而生成更準確、一致、并在語境上更合適的回應。本文系統回顧了最新的強化學習增強LLMs的研究,試圖整合并分析這一快速發展的領域的研究成果,幫助研究人員理解當前的挑戰和進展。具體來說,我們:(1)詳細介紹了強化學習的基本原理;(2)介紹了流行的強化學習增強的大型語言模型;(3)回顧了基于獎勵模型的兩種廣泛使用的強化學習技術:來自人類反饋的強化學習(RLHF)和來自AI反饋的強化學習(RLAIF);(4)探索了直接偏好優化(DPO)方法,這是一組繞過獎勵模型、直接使用人類偏好數據來調整LLM輸出以符合人類期望的方法。我們還將指出現有方法的挑戰和不足,并提出一些進一步改進的方向。

1. 引言

大型語言模型(Jiang et al., 2023; OpenAI, 2023; Dubey et al., 2024)是經過大規模文本數據預訓練的復雜語言模型,使其能夠對多種輸入生成連貫流暢的回應。然而,這些預訓練的大型語言模型的互動能力可能不一致,有時會產生雖然技術上正確,但可能有害、偏見、誤導或與用戶需求無關的回應。因此,在將其應用于各種自然語言任務之前,將預訓練大型語言模型的輸出與人類偏好對齊至關重要(Wang et al., 2023b; Wan et al., 2023; Sun et al., 2023c,b; Giray, 2023; Zhang, 2023; Long, 2023; Sun, 2023; Gao et al., 2023; Paranjape et al., 2023; Sun et al., 2023a; Diao et al., 2023; Wang et al., 2023a; Zhang et al., 2023b; Sun et al., 2023d; Liu et al., 2024d; Yao et al., 2024; Liu et al., 2024c; Lee et al., 2024; Kambhampati, 2024; Wang et al., 2024c)。 此前,將預訓練的大型語言模型的輸出與人類偏好對齊的廣泛采用的方法是監督微調(SFT)(Hu et al., 2021; Mishra et al., 2021; Wang et al., 2022; Du et al., 2022; Dettmers et al., 2023; Taori et al., 2023; Zhang et al., 2023a; Chiang et al., 2023; Xu et al., 2023; Peng et al., 2023; Mukherjee et al., 2023; Li et al., 2023; Ding et al., 2023; Luo et al., 2023; Wang et al., 2024d; Zhou et al., 2024)。這種方法通過(指令,答案)對進一步訓練LLMs,其中“指令”代表給模型的提示,“答案”是符合指令的目標輸出。SFT有助于引導LLMs生成符合特定特征或領域知識的回應,使得人類能夠與LLMs進行交互。盡管SFT有效,但它也有局限性:在訓練過程中,模型被限制為學習我們提供的特定答案,并且使用困惑度(PPL)等指標來懲罰同義詞的使用。一方面,這可能阻礙LLM的泛化能力,因為任務如寫作和總結有多種有效的表述方式。另一方面,它可能導致在與人類偏好對齊時表現不佳,因為訓練過程中沒有直接融入人類反饋。 為了緩解上述問題,采用了強化學習(RL)來將LLM的輸出與人類偏好對齊,強化學習過程可分為三個步驟:(1)首先,在微調之前,訓練一個獎勵模型(或獎勵函數),以近似人類偏好并為不同的LLM輸出評分;(2)然后,在每次微調迭代中,給定一個指令,LLM生成多個回應,每個回應都由訓練好的獎勵模型評分;(3)最后,使用強化學習的優化技術——策略優化,基于這些偏好評分更新LLM的權重,以改進預測。用強化學習微調LLM可以同時解決上述問題。一方面,強化學習不再限制模型僅學習一個特定答案,而是根據各種偏好評分調整LLM,獎勵任何有效且措辭恰當的回應。另一方面,獎勵模型被設計為近似人類偏好,從而使得可以直接在人工偏好上訓練,并增強LLM的創造力。 本文將整合強化學習(RL)在大型語言模型(LLMs)中的最新研究成果,試圖分析并總結這一快速發展的領域,幫助研究人員理解當前的研究進展、挑戰和前景。具體來說:

  • 第二部分介紹強化學習(RL)的基本原理及關鍵術語,并概述強化學習如何適應LLM的管道。
  • 第三部分介紹了強化學習增強的流行且強大的大型語言模型。
  • 第四部分概述了基于人類反饋的強化學習(RLHF)的過程,這是一種將強化學習與人類反饋結合的訓練方法,用以將LLMs與人類的價值觀、偏好和期望對齊。
  • 第五部分回顧了基于AI反饋的強化學習(RLAIF)的研究,RLAIF作為RLHF的有力補充,利用AI系統提供反饋,提供了可擴展性、一致性和成本效益的優勢。
  • 第六部分分析了RLHF和RLAIF所面臨的挑戰。
  • 第七部分討論了直接偏好優化(DPO)研究,這是一系列繞過獎勵模型、直接利用人類偏好數據將LLM輸出與人類期望對齊的方法。
  • 第八部分總結了當前的挑戰,并討論了進一步改進的機會。

強化學習在大型語言模型中的應用

我們已經概述了強化學習(RL)的基本框架;現在,我們將深入探討如何使用RL微調大型語言模型(LLMs)的過程。此方法旨在將LLM與期望的行為對齊,提升其性能,并確保其輸出既有效又可靠。

在強化學習(RL)中,有六個關鍵組件:代理(Agent)、環境(Environment)、狀態(State)、動作(Action)、獎勵(Reward)和策略(Policy)。要將RL應用于微調大型語言模型(LLMs),第一步是將這些組件映射到LLM框架中。 LLMs在預測下一個詞元(next-token prediction)方面非常高效,它們將一系列詞元作為輸入,并根據給定的上下文預測下一個詞元。從RL的角度來看,我們可以將LLM本身視為策略(Policy)。當前的文本序列代表狀態(State),根據這個狀態,LLM生成一個動作(Action)——即下一個詞元。這個動作會更新狀態,形成一個新的狀態,其中包含新增的詞元。在生成完整的文本序列后,使用預訓練的獎勵模型來評估LLM輸出的質量,從而決定獎勵(Reward)。 圖2 展示了Ouyang等人(2022)提出的LLM強化學習框架。Ouyang等人(2022)首先使用通過監督學習訓練的指令微調模型,使其能夠生成結構化的響應。接著,Ouyang等人(2022)應用了以下兩個步驟: 步驟1:收集比較數據并訓練獎勵模型

Ouyang等人(2022)收集了一個數據集,包含指令微調模型輸出之間的比較,標注者指出對于給定輸入,他們更喜歡哪個輸出。然后,收集到的數據集用于訓練一個獎勵模型(Reward Model, RM),以預測人類偏好的輸出。 步驟2:使用PPO優化策略對抗獎勵模型

Ouyang等人(2022)將獎勵模型的輸出作為標量獎勵,并通過PPO算法(Schulman等人,2017)對指令微調模型進行微調,優化該獎勵。

強化學習增強的流行大型語言模型

近期流行的強大功能的大型語言模型(LLMs)幾乎都利用強化學習(RL)來進一步增強其在后期訓練過程中的表現。這些模型所采用的強化學習方法通常可以分為兩大類: 1. 傳統的RL方法,如基于人類反饋的強化學習(RLHF)基于AI反饋的強化學習(RLAIF)。這些方法需要訓練一個獎勵模型,并且涉及復雜且通常不穩定的過程,使用如近端策略優化(PPO)(Schulman 等人,2017)等算法來優化策略模型。像InstructGPT(Ouyang 等人,2022)、GPT-4(OpenAI,2023)和Claude 3(Anthropic,2024)等模型都采用了這一方法。 1. 簡化的方法,如直接偏好優化(DPO)(Rafailov 等人,2024)和獎勵感知偏好優化(RPO)(Adler 等人,2024)。這些方法摒棄了獎勵模型,提供了一種穩定、性能強大且計算效率高的解決方案。像Llama 3(Dubey 等人,2024)、Qwen 2(Yang 等人,2024a)和Nemotron-4 340B(Adler 等人,2024)等模型都采用了這一方法。

在這一部分,我們將詳細描述每個模型,首先簡要概述這些強化學習增強的大型語言模型,并解釋強化學習如何在它們的后期訓練過程中應用。有關這些強化學習增強的LLMs的概覽見表1

RLHF:基于人類反饋的強化學習

基于人類反饋的強化學習(RLHF)是一種訓練方法,它將強化學習(RL)與人類反饋相結合,以將大型語言模型(LLMs)與人類的價值觀、偏好和期望對齊。RLHF包含兩個主要組件: 1. 收集人類反饋以訓練獎勵模型:在人類評估者提供反饋時,他們通過根據質量、相關性等因素對LLM的輸出進行評分或排名。這些反饋隨后用于訓練一個獎勵模型,該模型用于預測輸出的質量,并作為RL過程中的獎勵函數。 1. 使用人類反饋進行偏好優化:訓練好的獎勵模型指導LLM輸出的優化,以最大化預測獎勵,從而使LLM的行為與人類的偏好對齊。

接下來,我們將通過近期的研究來闡述這兩個組件。

付費5元查看完整內容

摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。

關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述

1 引言

技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。

例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。

第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。

圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。

本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。

本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。

2 為什么需要對齊與融合

對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。

2.1 提升全面性與魯棒性

對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題

在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性

對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用

對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊

多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊

顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。

DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊

隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法

圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。

這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法

近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。

4 多模態融合

多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。

4.1 編碼器-解碼器融合

編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。

4.1.1 數據級融合

在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。

4.1.2 特征級融合

這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。

4.1.3 模型級融合

模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。

4.2 基于注意力機制的融合

基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。

4.3 圖神經網絡(GNN)在多模態融合中的應用

圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。

4.4 自監督學習與多模態融合

自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。

在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。

例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。

4.5 持續學習與多模態融合

持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。

在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。

付費5元查看完整內容

摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。

情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。

多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。

多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。

多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。

本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。


綜述的結構

第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。

多模態情感計算中的多模態學習

多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。

A. 初步概述

隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。

B. 多模態融合

多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。

**1) 跨模態學習

跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。

在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。

**2) 模態一致性與差異性

模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。

**3) 多階段模態融合

多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。

C. 多模態對齊

多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。

**1) 缺失模態的對齊

在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。

第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。

**2) 跨模態語義對齊

語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。

多模態情感計算中的模型

在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。

A. 多任務學習

多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。

**1) 多模態情感分析

在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。

**2) 多模態對話情感識別

在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。

**3) 多模態基于方面的情感分析

Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。

**4) 多模態多標簽情感識別

對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。

B. 預訓練模型

近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。

**1) 多模態情感分析

在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。

**2) 多模態對話情感識別

在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。

**4) 多模態多標簽情感識別

一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。

C. 增強知識

在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。

**1) 多模態情感分析

在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。

**2) 多模態對話情感識別

在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。

**4) 多模態多標簽情感識別

在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。

D. 上下文信息

上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。

**1) 多模態情感分析

在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。

**2) 多模態對話情感識別

在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。

**4) 多模態多標簽情感識別

MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論

多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。

付費5元查看完整內容

多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。

//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習

在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。

不完整多模態學習

在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習

不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合

當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。

付費5元查看完整內容

摘要 —— 隨著ChatGPT的興起,大型模型的使用顯著增加,迅速在整個行業中脫穎而出,并在互聯網上廣泛傳播。本文是對大型模型微調方法的全面綜述。本文研究了最新的技術進展以及在諸如任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調和動態微調等方面應用先進方法。 索引術語 —— 大型語言模型(LLMs)、任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調、動態微調 I. 引言 變換器(Transformer)模型的出現標志著自然語言處理(NLP)領域的一個重要里程碑。變換器架構最初是為了解決循環神經網絡(RNNs [143])和卷積神經網絡(CNNs [55])在處理長距離依賴關系中的局限而設計的,該架構由Vaswani等人在2017年引入[126],徹底改變了我們處理語言理解和生成任務的方式。 變換器架構背景:變換器模型源于對比傳統模型更有效處理序列數據的需求。其獨特的架構,不依賴遞歸和卷積,利用注意力機制來抽取輸入與輸出之間的全局依賴關系,顯著提高了處理效率和模型性能。 編碼器[19]、解碼器[95] [96] [13]以及編解碼器[100]架構:變換器架構主要由其編碼器和解碼器組成。編碼器處理輸入序列,創建每個詞的豐富上下文表征。相比之下,解碼器通常在語言翻譯任務中生成輸出序列,使用編碼信息。 兩者的區別在于它們的角色:編碼器是輸入的上下文感知處理器,而解碼器基于編碼輸入生成預測。編解碼器架構常用于序列到序列的任務,結合這兩個組件,便于處理復雜任務,如機器翻譯,編碼器處理源語言,解碼器生成目標語言。 大型模型中的微調興起:微調大型語言模型的概念源于將這些模型從訓練于龐大、多樣的數據集適應到特定任務或領域的挑戰。微調調整模型的權重,針對特定任務,增強其從廣泛語言模式到特定應用需求的泛化能力。隨著模型規模和復雜性的增長,這種方法變得越來越重要,需要更精細的適應技術來充分發揮其潛力。 本文的結構旨在提供關于微調大型語言模型的方法論和進展的全面概覽。后續部分的組織如下: 文獻回顧:審視語言模型的發展,突出變換器架構的關鍵發展和基礎概念。 理論基礎:深入探討變換器模型的理論基礎,包括注意力機制、編碼器和解碼器的機制。 微調策略:討論各種微調方法,如任務特定、領域特定的適應和高級技術,如小樣本學習和動態微調。 挑戰與未來方向:識別微調方法中的當前挑戰,并探索這一迅速發展領域的潛在未來研究方向。 本文介紹了基于變換器架構的大型語言模型的范式,并提供了常用的大模型微調方法的詳細概述。文章以一個比較實驗結束,聚焦于六個文本分類數據集上的模型大小和LoRA微調范式。實驗代碼已在GitHub上提供。

付費5元查看完整內容

摘要: 隨著人工智能的快速發展,從可行的算法中選擇滿足應用需求的算法已經成為各領域亟待解決的關鍵問題,即算法選擇問題。基于元學習的方法是解決算法選擇問題的重要途徑,被廣泛應用于算法選擇研究并取得了良好成果。方法通過構建問題特征到候選算法性能的映射模型來選擇合適的算法,主要包括提取元特征、計算候選算法性能、構建元數據集以及訓練元模型等步驟。首先,闡述基于元學習的算法選擇概念和框架,回顧簡述相關綜述工作;其次,從元特征、元算法和元模型性能指標三方面總結研究進展,對其中典型的方法進行介紹并比較不同類型方法的優缺點和適用范圍;然后,概述基于元學習的算法選擇在不同學習任務中的應用情況;繼而,使用140個分類數據集、9種候選分類算法和5種性能指標開展算法選擇實驗,對比不同算法選擇方法的性能;最后,分析目前存在的挑戰和問題,探討未來的發展方向。 //fcst.ceaj.org/CN/abstract/abstract3212.shtml

人工智能是數據處理與分析的重要技術,為人 們利用數據進行決策和研究提供了有力支撐。在人 工智能的不同領域中,研究人員提出了大量算法,然 而,不同算法在有限數量的問題上具備優越性能,不 存在一個適用于所有問題的可行算法,該現象被稱 為算法的性能互補性(performance complementarity) 現象[1] ,與“沒有免費午餐”(no free lunch)定理相印 證[2] 。算法的性能互補性現象普遍存在于不同領域, 如何為給定問題從大量可行算法中選擇滿足應用需 求的算法成為了各領域面臨的重要挑戰,即算法選 擇問題(algorithm selection problem)[3] 。算法選擇問 題通常采用人工選擇或自動選擇的方法解決。人工 選擇方法通過實驗試錯或依賴專家選擇合適的算 法,然而實驗試錯方法成本較高,專家選擇與專家的 經驗知識相關且靈活性較低[4] 。自動選擇方法通過 設計算法和模型,根據問題的特點自動選擇滿足應 用需求的算法,包括活躍測試(active test)方法、推薦 系統方法以及基于元學習(meta-learning)的方法[5-7] 。 其中基于元學習的方法研究基礎較為深厚,具備開 銷低和靈活度高等優點,成為了解決算法選擇問題 的主要方法[8-9] 。 本文對基于元學習的算法選擇進行綜述總結, 為研究人員了解相關領域的發展現狀提供參考。

付費5元查看完整內容

摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。

付費5元查看完整內容

摘要:近年來,深度學習模型在圖像、語音、文本識別等領域內取得了顯著成就。然而,深度學習模型嚴重依賴于大量標簽數據,使得其在數據缺乏的特殊領域內應用嚴重受限。面對數據缺乏等現實挑戰,很多學者針對數據依賴小的弱監督機器學習方法開展研究,出現了很多典型研究方向,如小樣本學習、零樣本學習等。針對弱監督機器學習方法,系統闡述了小樣本學習、零樣本學習、零—小樣本學習的問題定義、當前主要方法以及主流實驗設計,最后基于當前研究中出現的問題,對下一階段研究方向進行了總結展望。

付費5元查看完整內容
北京阿比特科技有限公司