亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

本綜述全面回顧了生成式學習模型在機器人操作中的最新進展,并探討了該領域的關鍵挑戰。機器人操作面臨的主要瓶頸包括數據不足和數據獲取效率低下、長時程和復雜任務規劃,以及跨多樣化環境下的多模態推理能力以提升策略學習的魯棒性。為解決這些挑戰,本文介紹了幾種生成模型范式,包括生成對抗網絡(GANs)、變分自編碼器(VAEs)、擴散模型、概率流模型和自回歸模型,并分析了它們的優勢和局限性。這些模型的應用分為三個層次:基礎層(專注于數據生成和獎勵生成)、中間層(涵蓋語言、代碼、視覺和狀態生成)以及策略層(強調抓取生成和軌跡生成)。每一層次均被詳細探討,并列舉了推動領域發展的代表性工作。最后,本文展望了未來的研究方向和挑戰,強調提高數據利用效率、更好地處理長時程任務以及增強跨多樣化機器人場景的泛化能力的重要性。所有相關資源,包括研究論文、開源數據和項目,均已匯總至以下鏈接供社區參考://github.com/GAI4Manipulation/AwesomeGAIManipulation。

I. 引言 機器人操作在賦予機器與周圍環境進行物理交互和修改的能力方面至關重要,這是實現智能自主性的基礎步驟。從工廠中組裝精密的電子設備到家庭中的輔助護理,機器人操作在顯著影響社會的應用中發揮著關鍵作用[1, 2]。作為機器人學中最重要的問題之一,操作在復雜環境中長期面臨重大挑戰,尤其是在涉及非平凡交互和復雜長時程決策與規劃的場景中[1, 3]。這些挑戰阻礙了機器人系統在不同場景中執行可靠且魯棒的操作任務,留下了巨大的空白。

近年來,數據驅動方法在機器人操作中日益受到重視,這些方法利用大規模數據和機器學習技術,使機器人能夠更好地感知、適應和與多樣化環境交互。得益于這些爆炸性進展,上述空白已大幅縮小。特別是通過利用生成式學習模型在場景理解、推理、任務規劃和策略合成方面的卓越能力,包括操作可變形材料和執行長時程任務序列在內的操作技能已得到展示,而這些技能在之前被認為極其困難。

生成式學習模型作為現代人工智能中最重要的學習模型類別之一,解決了機器人操作中一些先前未解決的挑戰,尤其是在抓取任務中。首先,它們生成多樣化和高質量數據的能力顯著減少了對大量真實世界數據的依賴。通過生成合成的抓取場景和物體變體,這些模型使機器人能夠在數據稀缺的環境中高效訓練并處理更廣泛的物體[4, 5]。其次,它們對高維動作和物體空間的建模能力使機器人能夠預測復雜或未見物體的可行抓取配置和軌跡[6, 7, 8],從而提高了機器人適應新任務和環境的能力,增強了抓取規劃的魯棒性。第三,它們在捕捉物體結構和交互動態的潛在表示學習方面的優勢使機器人能夠泛化到不同形狀、紋理和物理屬性的物體[9, 10],從而在需要精確操作的任務中實現更可靠的性能,即使在非結構化或動態環境中也是如此。這些突破凸顯了生成式模型在推動機器人抓取和操作方面的變革潛力。

在本綜述中,我們重點關注生成式模型,因為它們有潛力解決操作中長期存在的挑戰。生成式模型提供了有前景的解決方案,例如改進場景理解、推理和任務規劃,從而有效緩解這些問題。在以下段落中,我們列舉了操作中的關鍵挑戰,并討論了生成式模型克服這些障礙的潛在機制。

A. 現代操作中的主要挑戰 首先,數據不足和數據獲取效率低下仍然是關鍵瓶頸。數據驅動方法逐漸成為解決操作問題的主導方法之一。眾所周知,諸如強化學習(RL)和模仿學習(IL)等數據驅動方法對數據需求極高,需要大量高質量數據來訓練有效模型[11, 12]。收集高質量數據通常需要人工干預或大量的真實世界機器人實驗,這些過程耗時且難以大規模擴展[13]。為簡化數據生成問題,一些研究者探索了從其他任務或領域遷移學習[14, 15, 16],以及領域隨機化等技術以緩解數據稀缺問題[4]。然而,對高質量、任務特定數據的依賴仍然阻礙了性能和可擴展性。解決這些問題對于釋放數據驅動機器人操作的全部潛力至關重要。

生成式模型如Stable Diffusion[17]和大規模預訓練語言模型[18]在生成高質量合成圖像、視頻、注釋和獎勵信號方面展示了顯著能力。這些模型能夠創建豐富且多樣化的數據集,通過提供可擴展且高效的數據生成管道,顯著緩解數據不足問題。合成數據可用于訓練和驗證機器人操作模型,提升其性能和泛化能力。此外,生成豐富獎勵函數的能力通過提供詳細反饋并支持復雜環境中的探索,促進了更有效的強化學習。這種對數據和獎勵生成的關注為克服數據稀缺和低效數據獲取問題奠定了基礎,從而推動了機器人操作領域的發展。

其次,長時程任務和復雜任務規劃提出了重大挑戰。復雜任務,如多步裝配操作、雜亂環境中的物體重新排列以及與人類的協作任務[19],要求機器人規劃并執行一系列相互依賴的動作。有效的規劃需要復雜的建模技術,并通常假設環境的完全可觀測性[20]。然而,在現實場景中,完全觀測很少可行,因此需要代理對任務有內在理解,包括因果關系及其動作對環境的影響[9, 21]。傳統的確定性模型由于無法充分表示長時程任務中的不確定性和動態交互,難以捕捉這種復雜性[22]。 生成式模型通過將復雜任務分解為可管理的子目標(如鏈式思維推理[23]),在解決長時程任務規劃方面做出了重要貢獻。利用語言生成和代碼生成的能力,大規模生成式模型幫助機器人通過將復雜動作序列分解為更簡單的步驟來規劃任務[24, 25]。這種方法使代理能夠生成明確的思維鏈和動作計劃,增強其對復雜任務的理解和執行能力。通過結合這些生成技術,機器人能夠更好地處理長時程任務中的不確定性和動態交互,從而提高其在操作場景中的整體性能。 此外,生成式模型通過開發世界模型和促進動態學習,增強了機器人對物理世界的理解。通過生成中間狀態(如顯式的視覺表示[26, 27]或隱式的潛在狀態[28]),這些模型使機器人能夠預測和規劃環境中的未來事件。生成潛在未來狀態的視覺能力改進了操作任務中的規劃和決策過程。狀態生成捕捉了準確執行任務所需的基本動態,解決了復雜環境中的不確定性和變異性。這使機器人能夠在操作任務中預測并適應變化,從而提升其在動態環境中的表現。 第三,策略學習需要多模態推理能力。在機器人操作中,當前狀態可能對應多個有效動作和結果,這是由于任務復雜性和環境變異性所致。例如,杯子可以通過把手或杯身抓取,最佳選擇取決于后續任務:為杯子加水時抓取把手更合適,而將杯子遞給他人時抓取杯身更佳。確定性模型通常將輸入觀測映射到單一輸出,無法捕捉許多操作任務中固有的多模態特性。這種限制降低了適應性,并阻礙了在多樣化情境中的表現。通過依賴一對一的映射,這些模型難以表示全部可能的動作范圍,從而阻礙了更靈活和可泛化的機器人系統的開發。 生成式模型在策略學習方面展示了顯著潛力,特別是在機器人操作任務中的抓取生成和軌跡生成方面[6, 29, 30, 31]。通過對整個軌跡的動作序列建模,生成式模型實現了控制策略的聯合優化。例如,擴散模型已被應用于策略學習,能夠生成平滑且可行的運動軌跡[29]。這些模型可以結合機器人操作空間中的固有約束,如生成三維空間中有效抓取姿態的SE(3)約束[8]。這種能力通過生成高效且物理上可行的策略,增強了機器人執行精確和復雜操作任務的能力。此外,它們對多模態分布的建模能力使其能夠捕捉復雜操作任務中所需的多樣化抓取姿態和運動軌跡。 B. 綜述的結構概述 總之,生成式模型在機器人操作的多個層次上提供了解決方案:從基礎的數據和獎勵生成到高級的任務規劃和策略建模。通過解決數據不足、復雜任務規劃、低級控制和表示學習等關鍵挑戰,生成式模型為更自主、高效和強大的機器人系統鋪平了道路。已有一些綜述探討了與機器人和生成式模型相關的主題[3, 32, 33]。這些工作研究了機器人中的基礎模型以及向通用人工智能的進展。然而,尚未有綜述專門關注生成式模型如何解決機器人操作中的關鍵挑戰。本綜述聚焦于生成式模型在操作任務中的應用,試圖提供一個統一且具體的視角,闡明生成式模型在不同層次上對機器人操作的作用。通過強調生成式模型在這些特定領域中的優勢,我們旨在填補現有文獻中的空白。圖1展示了本綜述所探討方法的整體結構。 為系統理解生成式模型在機器人操作中的作用,我們將其應用分為三個層次:基礎層、中間層和策略層。這一結構反映了從基礎數據合成到高級決策再到低級控制的漸進流程。基礎層專注于生成關鍵資源,如合成數據以擴充有限數據集和獎勵信號以指導強化學習,構成模型訓練和評估的支柱。在此基礎上,中間層涵蓋語言、代碼、視覺和狀態生成等任務,使機器人能夠解釋指令、處理感知數據并推理其環境,從而連接感知與動作。最后,策略層直接解決機器人操作的核心問題,包括抓取生成和軌跡規劃,將較低層次的洞察轉化為可操作的控制策略。這一分層框架突出了這些組件的相互依賴性,確保了機器人學習和控制的全面且可擴展的方法。

付費5元查看完整內容

相關內容

生成式人工智能是利用復雜的算法、模型和規則,從大規模數據集中學習,以創造新的原創內容的人工智能技術。這項技術能夠創造文本、圖片、聲音、視頻和代碼等多種類型的內容,全面超越了傳統軟件的數據處理和分析能力。2022年末,OpenAI推出的ChatGPT標志著這一技術在文本生成領域取得了顯著進展,2023年被稱為生成式人工智能的突破之年。這項技術從單一的語言生成逐步向多模態、具身化快速發展。在圖像生成方面,生成系統在解釋提示和生成逼真輸出方面取得了顯著的進步。同時,視頻和音頻的生成技術也在迅速發展,這為虛擬現實和元宇宙的實現提供了新的途徑。生成式人工智能技術在各行業、各領域都具有廣泛的應用前景。

摘要—近年來,視覺識別方法取得了顯著進展,廣泛應用于各個領域。在研究者們探索這些模型成功背后的機制時,越來越多的動力推動著它們在關鍵領域,如自動駕駛和醫療診斷中的應用,以便更好地診斷故障,這促進了可解釋性研究的發展。本文系統回顧了現有的視覺識別模型可解釋性研究,并從以人為中心的視角提出了一種方法分類法。該分類法基于意圖、對象、展示和方法學,將可解釋的識別方法進行分類,從而為這些XAI方法建立了一套系統且連貫的分組標準。此外,我們總結了評估指標的需求,并探討了近期技術(如大規模多模態模型)帶來的新機遇。我們旨在組織現有領域的研究,并激發未來對視覺識別模型可解釋性進行的深入探索。

關鍵詞—XAI,解釋性人工智能,可解釋性,視覺識別。

1 引言

視覺識別方法經歷了廣泛的發展,并已成功應用于多個領域。此外,研究人員越來越多地探討這些系統有效性的潛在機制,這一領域被稱為可解釋性研究。本文系統回顧了可解釋視覺識別方法,旨在幫助研究人員和開發者,甚至是那些沒有可解釋性領域背景的人,直觀地理解各種可解釋視覺識別方法的特點。

1.1 背景

視覺識別模型的快速發展和應用徹底改變了多個領域,如醫療診斷、自動駕駛和監控系統。然而,盡管這些模型在實踐中取得了成功,它們通常作為“黑箱”運行,幾乎沒有提供任何關于如何從輸入推導出具體輸出的洞察。隨著這些模型在決策過程中扮演著越來越重要的角色,理解它們預測背后機制的需求變得至關重要。 這一需求促使了解釋性人工智能(XAI)這一領域的興起,XAI致力于解釋和闡明AI算法的內部工作機制,特別是那些驅動視覺識別技術的復雜深度學習模型。XAI通過揭示模型行為和決策邊界的可視化方法,旨在減少這些模型的“黑箱”效應。以往的研究表明,除了直接幫助診斷模型故障外,可解釋性顯著增強了終端用戶對AI模型的信任,并促進了更有效的人機交互。

具體而言,視覺識別是多模態系統中視覺組件的基礎任務,其準確性和魯棒性對于后續更高層任務的性能至關重要。如圖1所示,視覺識別模型采用相對標準化的處理流程,這使得它們與其他AI模型有所區別:它們接受視覺信號作為輸入,并生成概念或類別標簽作為輸出。在當今的應用中,開放詞匯識別已成為主流需求,這突顯了視覺識別與文本模態的結合,后者是主流人機交互的主要模態。輸入和輸出的多樣性顯著增加了視覺識別領域中XAI研究的復雜性。

例如,在圖1中,現有技術如激活映射、神經元可視化和概念瓶頸分別提供了區域、特征和語義重要性的分析,從而為用戶提供了一個可以理解的預測依據。然而,以前的研究指出,無論是提供解釋,還是提供何種解釋,都可能對人類信任產生正面或負面的影響。視覺識別模型中的可解釋性復雜性給研究人員帶來了巨大的挑戰,使他們難以全面理解這一領域的發展,這促使本文系統回顧了視覺識別的XAI的最新進展和持續研究。

1.2 術語和范圍

XAI是“解釋性人工智能”(eXplainable Artificial Intelligence)的常用縮寫,指的是一組用于使AI模型的輸出和操作對人類可理解的過程和方法。目前,研究XAI的動機在于,大多數未專門設計為具備可解釋性的AI模型都是黑箱模型;這些模型的結構過于復雜,使得人類難以理解它們的工作機制。因此,可解釋性研究可以分為兩種方法:一種是通過可視化、探測和擾動等技術,理解已訓練的黑箱模型的工作細節,而不對其進行修改;另一種是在模型架構設計中引入可解釋模塊,從而實現內在可解釋性。在一些研究中,前者被稱為“可解釋性”,后者被稱為“可解釋性”。然而,大多數XAI研究并未區分這兩個術語;因此,本文也將它們視為等同的。在強調它們的差異時,會使用更明確的術語,如前者的后驗方法和后者的自解釋模型。 本文主要研究視覺識別模型,特別是那些用于識別或理解圖像中的物體的AI模型。通常,這些模型接受圖像 x 作為輸入,通過骨干特征提取器 f 提取圖像特征 z,并使用分類器頭 g 生成識別結果 y?。目前,主流的視覺識別模型可解釋性研究主要集中在圖像特征 z 和分類器 g 上,而關于骨干 f 的研究仍處于早期階段,主要聚焦于其頂層,因為這些層更可能包含語義信息。對于后驗方法和自解釋模型,提供給研究人員、開發者或用戶的解釋通常呈現在識別流程之外,并且種類繁多。由于視覺任務之間的耦合性,基于定位的可解釋性研究經常擴展到檢測和分割領域,而面向語義和自然語言交互的目標本質上與多模態技術緊密相關。因此,本文也將簡要討論這些領域中的少數相關工作。

1.3 貢獻與局限性

本文與以往的工作相比,有兩個主要的不同點:它專注于針對視覺識別模型的XAI研究,并從多維、以人為中心的視角系統地組織相關的XAI方法。由于XAI是一個廣泛的研究領域,過于寬泛的綜述可能缺乏聚焦性和實際應用性。通過集中于視覺識別任務,本文以更詳細且面向任務的方式對相關方法進行分類,從而增加了綜述的實用性。此外,由于可解釋性本質上是為了服務于人類用戶,因此從人的角度組織方法既自然又合適。 本文提出的多維框架使得用戶能夠高效理解視覺識別XAI的最新進展,并能迅速定位適合特定應用的方法。然而,將這一分類法擴展到涵蓋更廣泛的視覺任務仍面臨若干挑戰,包括需要適應不同模態和多變的背景。解決這些復雜性需要進一步的研究,以有效地調整和擴展所提出的分類法。

付費5元查看完整內容

摘要 — 基礎模型的迅速出現,特別是大規模語言模型(LLMs)和視覺-語言模型(VLMs),為機器人技術帶來了變革性的范式。這些模型在語義理解、高級推理和跨模態泛化方面提供了強大的能力,推動了感知、規劃、控制和人機交互的重大進展。本綜述文章提供了近期發展的系統性總結,按仿真驅動設計、開放世界執行、模擬到現實遷移和適應性機器人等應用進行分類。與現有的側重于孤立能力的綜述不同,本工作強調了集成化、系統級的策略,并評估了它們在現實環境中的實際可行性。文中討論了諸如過程場景生成、策略泛化和多模態推理等關鍵推動趨勢,同時也分析了核心瓶頸,包括有限的體現性、缺乏多模態數據、安全風險和計算約束。從這一視角出發,本文揭示了基于基礎模型的機器人技術的架構優勢與關鍵局限,突出了實時操作、基礎性推理、魯棒性和信任等方面的開放挑戰。最后,本綜述提出了未來研究的路線圖,旨在通過更加穩健、可解釋和具體現化的模型,彌合語義推理和物理智能之間的鴻溝。 關鍵詞 — 機器人技術、大規模語言模型、視覺-語言模型、基礎模型。

I. 引言

大規模語言模型(LLMs)及一般基礎模型的迅速發展,標志著人工智能(AI)領域的重要里程碑,尤其是在自然語言理解和推理方面。這些模型基于具有數十億參數的變換器架構[1],在海量的互聯網規模語料庫上進行預訓練,使其具備了廣泛的世界知識和超越小型模型的新興能力[2]。特別是,像GPT-3[3]這樣的LLM展示了令人印象深刻的少樣本學習能力,無需微調[4],[5],而更近期的模型如GPT-4[6]則展示了先進的推理能力,并支持多模態功能,在多個基準測試中達到了人類水平的表現。

與此同時,機器人技術的快速進展,特別是在感知、學習、控制和規劃方面,為智能物理系統創造了新的機會[7],[8]。盡管如此,機器人系統仍未達到人類級別的智能,特別是在現實世界應用所需的靈活性、適應性和泛化能力方面[9]。它們通常難以跨任務轉移知識、適應不可預見的場景,或展示人類行為特征的細致決策能力。傳統上,機器人的自主性基于顯式編程或特定任務的狹窄學習[10]。這些方法在受限環境中有效,但在復雜、動態的環境中卻限制了可擴展性,并帶來了顯著的挑戰。

為了應對這些局限,LLM與機器人技術的最近集成引入了一種新范式,利用它們豐富的語義知識和推理能力來改善機器人智能體的溝通、規劃和適應性[2]。LLM能夠解讀高級人類指令、推理目標與行動,甚至生成低級控制代碼[11],[12]。這使得機器人能夠應對更廣泛的任務和環境,借助從語言中學習到的廣泛先驗知識。 然而,LLM本身與物理上下文無關。它們缺乏體現性,無法理解度量、傳感器數據或動態物理[13]。因此,將LLM與機器人系統集成帶來了幾個關鍵挑戰。這些挑戰包括將語言融入感知與行動、實現實時響應性以及確保安全可靠的行為。早期的研究通過將LLM與視覺系統[14]、反饋機制[15]和外部知識源[16]結合,已顯示出有希望的結果。然而,如何在多變和不可預測的場景中可靠地將基于語言的智能與物理系統連接,仍是一個未解的問題。

這些挑戰突顯了對當前LLM驅動機器人技術狀態的全面且廣泛綜述的需求。現有的關鍵綜述[2],[13],[17],[18]集中在感知和規劃等傳統子領域,或強調特定方法,往往忽略了在實際環境中這些組件的集成。需要一個更廣泛的視角,系統地審視高級推理與低級控制之間的關系,考慮語言先驗在塑造行為中的作用,并探索將通用LLM適應領域特定約束的可能性。

為了應對這些挑戰,本綜述提供了關于基礎模型及其多模態擴展如何轉變機器人技術的整體綜合。本文回顧了LLM和視覺-語言模型(VLM)的應用,重點討論它們在語義感知、自適應規劃、目標導向交互和自主控制中的應用。本文強調了集成策略,而非孤立地看待這些能力,聚焦于如何滿足實際環境中如基礎性、實時響應和安全等需求。通過模擬到開放世界等多樣環境中的進展,揭示了LLM驅動機器人技術的潛力與當前的局限。討論了關鍵瓶頸,如語義基礎和實時性能,并提出了有助于彌合語言理解與物理執行之間差距的新興解決方案。最后,本文概述了主要的趨勢和開放的研究問題,旨在將語言建模的進展與復雜、現實世界應用中具體現化智能的實際需求連接起來。

付費5元查看完整內容

摘 要 不同場景下時序數據的異質性極大地影響了智能決策中時序預測算法的泛化性和有效性,對其應用構成了重要阻礙。 時序預測大模型是解決這一挑戰的重要技術。綜合了時序預測領域的最新研究動態,從模態視角自上而下地探討了時序預測大 模型的4種實現思路:基于提示的方法、基于微調的方法、基于對齊的方法以及時序預測基礎模型。梳理了時序預測大模型構 建過程中的核心要素和可用技術。探討了未來的重要挑戰和研究方向。 關鍵詞 時間序列,大語言模型,基礎模型,預測時序預測技術在智能決策中扮演著重要角色: 通過分析和學習歷史數據的模式,準確預測時空系 統的未來態勢,可以為復雜系統調度優化和智能決 策提供關鍵支持。時間序列數據廣泛分布于交通、 電力、氣象等多種時空系統中,記錄了關鍵觀測點 或指標的狀態變化,是反映這些系統演變趨勢的關 鍵數據資源。時間序列預測技術致力于通過分析和 學習歷史數據的模式,準確預測未來趨勢。這種技 術在智能決策中扮演著至關重要的角色:能夠準確 預測時空系統的未來態勢,從而為有效的調度優化 和智能決策提供關鍵支持。因此,深入研究時序預 測技術對于戰場態勢感知、武器系統維護、戰場環 境監測等領域至關重要,可以顯著提高決策的準確 性和效率,為軍事行動提供精確而有力的支持。 長期以來,基于統計模型的時間序列預測算法, 如自回歸積分滑動平均(autoregressive integrated mov? ing average,ARIMA)[1] 和指數平滑狀態空間模型(ex? ponential smoothing state space model,ETS)[2] ,被廣泛 認為是可靠的工具,并在實際應用中得到了認可。 隨著深度學習技術的發展,研究者們開發了更為靈 活和強大的模型,這些模型能夠挖掘時間序列數據 中的深層價值模式,從而顯著提升預測的準確性, 成為學術研究的新趨勢。然而,基于深度學習的時 序預測模型通常要求訓練和推理階段使用相同的數 據集[3] ,這限制了它們的泛化能力。一方面,不同領 域的時序數據常常展現出不同的模式,導致模型難以 廣泛泛化;另一方面,不同領域數據的質量參差不 齊,如信噪比、歷史數據長度以及預測數據長度等, 進一步削弱了模型的跨領域可用性。在軍事領域,這 些問題尤為顯著,因為軍事應用涉及的場景多樣(例 如電力、氣象、交通等),且具有高對抗性,數據分布 漂移嚴重,這使得現有的時序預測算法面臨挑戰。 受到計算機視覺和自然語言處理領域中諸如視 覺 Transformer(vision Transformer,ViT)[4] 、雙向編碼器 表 示 Transformer(bidirectional encoder representa? tions from Transformers,BERT)[5] 、生成式預訓練Trans? former(generative pre-trained Transformer,GPT)[6] 等 預訓練大型模型的啟發,時序預測大模型日益受到 學術界的關注,并被認為是一個充滿潛力的研究方 向[7] 。這些模型的設計目標是解決數據模式異質、數 據質量不一等核心挑戰,從而開發出適用于所有領 域的時間序列預測任務的通用模型,處理零樣本或 少樣本情況下的預測,推動時序預測技術的更廣泛 應用和實踐。然而,作為一個新興領域,目前還缺 乏針對時序預測大模型研究思路和可用技術的系統 性分析。大多數現有的綜述[8-11] 主要關注于預訓練的 大語言模型(例如 GPT[6] 、LLaMA[12)] 在時序預測中的 應用。在其他研究中,文獻[13]通過“數據視角”對相 關工作進行了分類和梳理,而文獻[7]則通過“方法視 角”對相關工作進行了區分。此外,先前的研究通常 同時概述時間序列、空間數據(如軌跡)等多種類型 的數據,而沒有對時序預測任務進行深入挖掘。 本文專注于時序預測任務,全面分析了大量相 關研究,采用自上而下和自下而上兩種視角詳盡地 綜述了時序預測大模型的設計思路和具體技術:1) 自上而下的視角:采用“模態視角”來區分不同的研 究思路,即根據對自然語言和時間序列模態的利用方 式的不同對相關工作進行分類。2)自下而上的視 角:梳理了時序預測大模型構建流程中的共性關鍵技 術。兩個視角結合,既給出了實現時序預測大模型的 多種思路,也梳理了可選擇的具體技術。此外,本研 究還探討了未來可能的重要研究方向。

付費5元查看完整內容

擴散生成模型已在圖像和視頻生成等視覺領域取得了顯著成功。近年來,它們也逐漸在機器人領域中嶄露頭角,尤其是在機器人操作任務中展現出廣闊前景。擴散模型基于概率框架,具備建模多模態分布的能力,并且在處理高維輸入輸出空間時表現出強大的魯棒性。

本文綜述了擴散模型在機器人操作中的最新研究進展,涵蓋了抓取學習、軌跡規劃和數據增強等關鍵應用。用于場景與圖像增強的擴散模型位于機器人與計算機視覺交叉領域的核心位置,尤其在提升基于視覺的任務的泛化能力與緩解數據稀缺性方面具有重要意義。

此外,本文介紹了擴散模型的兩種主要框架及其與模仿學習和強化學習的融合方式,探討了主流架構與評估基準,并指出了當前最先進擴散方法的挑戰與優勢。

關鍵詞:擴散模型 · 機器人操作學習 · 生成模型 · 模仿學習 · 抓取學習

//arxiv.org/pdf/2504.08438

1 引言

擴散模型(Diffusion Models, DMs)作為深度生成模型,在多個領域中展現出極大的發展潛力,包括計算機視覺(Ho 等, 2020;Song 等, 2021a;Nichol 和 Dhariwal, 2021;Ramesh 等, 2022;Rombach 等, 2022a)、自然語言處理(Li 等, 2022;Zhang 等, 2023;Yu 等, 2022)以及機器人學(Chi 等, 2023;Urain 等, 2023)。DMs 天生具備建模任意分布的能力,特別是在處理來自高維和視覺數據的復雜多模態分布時,其性能和穩定性已超越傳統的高斯混合模型(GMMs)和基于能量的模型(EBMs),如隱式行為克隆(Implicit Behavior Cloning, IBC)(Chi 等, 2023)。雖然 GMM 和 IBC 都能建模多模態分布,且 IBC 甚至能學習復雜的不連續分布(Florence 等, 2022),但實驗結果(Chi 等, 2023)顯示,這些方法在實際中往往偏向特定模式。 總體來看,DMs 的性能也已超過過去被認為是生成模型主流方法的生成對抗網絡(GANs)(Krichen, 2023)。相比之下,GANs 通常需要對抗訓練,容易出現模式崩潰以及訓練不穩定等問題(Krichen, 2023),且對超參數較為敏感(Lucic 等, 2018)。 自 2022 年以來,擴散概率模型在機器人操作領域中的應用顯著增長,涵蓋了軌跡規劃(如 Chi 等, 2023)和抓取預測(如 Urain 等, 2023)等多項任務。DMs 能夠有效建模多模態分布,這在諸如軌跡規劃與抓取等機器人操作任務中具有巨大優勢,因為這些任務往往存在多個同樣合理的冗余解。捕捉這些多種可行解不僅提升了模型的泛化能力,也增強了機器人在不同物體擺放或推理約束下的適應性。 盡管在軌跡規劃任務中,DMs 主要結合模仿學習進行應用,但也已有方法將其與強化學習(Reinforcement Learning, RL)相結合,例如 Geng 等(2023)。當前的研究工作正集中于根據具體任務需求調整擴散過程中的各個組成部分。 一些研究架構整合了不同甚至多種輸入模態,例如點云(Ze 等, 2024;Ke 等, 2024),通過深度信息提升模型對復雜任務中的三維場景理解能力。另一個輸入模態的例子是自然語言(Ke 等, 2024;Du 等, 2023;Li 等, 2025),這也使得基礎模型(如大型語言模型)能夠融入機器人操作流程。在 Ze 等(2024)中,同時使用了點云與語言任務指令作為多模態輸入。 還有研究將 DMs 融入分層規劃(Ma 等, 2024b;Du 等, 2023)或技能學習(Liang 等, 2024;Mishra 等, 2023),以充分發揮其在建模高維數據和多模態分布方面的最前沿能力,適用于長時序與多任務的設置。許多方法(如 Kasahara 等, 2024;Chen 等, 2023b)也在基于視覺的操作任務中,利用擴散模型進行數據增強,以擴展數據集并重建場景。 值得注意的是,DMs 的一個主要挑戰是其采樣速度較慢。對此,已有多種方法進行改進(Song 等, 2021a;Chen 等, 2024;Zhou 等, 2024a),部分方法已實現了實時預測能力。 據我們所知,這是首篇聚焦于機器人操作領域的擴散模型綜述文章。本文系統地對該領域中與 DMs 相關的多種方法進行了分類,涵蓋了網絡架構、學習框架、應用場景與評估方法等方面。除全面的描述外,我們還提供了直觀的分類圖譜。 為幫助讀者理解 DMs 的基本原理,本文首先在第2節介紹其數學基礎(非特指機器人應用)。第3節將討論 DMs 在機器人操作中常見的網絡架構。隨后,第4節介紹 DMs 在機器人操作中的三大核心應用方向:軌跡生成(4.1節)、抓取合成(4.2節)以及視覺數據增強(4.3節)。第5節對常用基準測試與對比方法進行總結,最后第6節給出結論、指出當前局限,并展望未來的研究方向。

**

**

付費5元查看完整內容

摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。

I. 引言

隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:

  • 我們提供了關于不平衡數據學習的全面文獻綜述,系統地概述了基于機器學習基礎過程的方法。
  • 我們對不平衡在各種數據格式中的表現進行了深入分析,包括圖像、文本和圖形,提供了每種格式特有的挑戰和方法的詳細探索。
  • 我們突出了可用于解決不平衡數據問題的資源,并探討了當前面臨的挑戰和未來的研究方向。這一討論旨在幫助那些在應對不平衡問題時掙扎的研究人員,幫助他們有效和高效地開發策略。

本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。

付費5元查看完整內容

摘要

本文綜述了在快速發展的領域中,如何通過強化學習(RL)增強大型語言模型(LLMs)的研究。強化學習是一種使LLMs能夠通過基于輸出質量的獎勵反饋來提高其性能的技術,從而生成更準確、一致、并在語境上更合適的回應。本文系統回顧了最新的強化學習增強LLMs的研究,試圖整合并分析這一快速發展的領域的研究成果,幫助研究人員理解當前的挑戰和進展。具體來說,我們:(1)詳細介紹了強化學習的基本原理;(2)介紹了流行的強化學習增強的大型語言模型;(3)回顧了基于獎勵模型的兩種廣泛使用的強化學習技術:來自人類反饋的強化學習(RLHF)和來自AI反饋的強化學習(RLAIF);(4)探索了直接偏好優化(DPO)方法,這是一組繞過獎勵模型、直接使用人類偏好數據來調整LLM輸出以符合人類期望的方法。我們還將指出現有方法的挑戰和不足,并提出一些進一步改進的方向。

1. 引言

大型語言模型(Jiang et al., 2023; OpenAI, 2023; Dubey et al., 2024)是經過大規模文本數據預訓練的復雜語言模型,使其能夠對多種輸入生成連貫流暢的回應。然而,這些預訓練的大型語言模型的互動能力可能不一致,有時會產生雖然技術上正確,但可能有害、偏見、誤導或與用戶需求無關的回應。因此,在將其應用于各種自然語言任務之前,將預訓練大型語言模型的輸出與人類偏好對齊至關重要(Wang et al., 2023b; Wan et al., 2023; Sun et al., 2023c,b; Giray, 2023; Zhang, 2023; Long, 2023; Sun, 2023; Gao et al., 2023; Paranjape et al., 2023; Sun et al., 2023a; Diao et al., 2023; Wang et al., 2023a; Zhang et al., 2023b; Sun et al., 2023d; Liu et al., 2024d; Yao et al., 2024; Liu et al., 2024c; Lee et al., 2024; Kambhampati, 2024; Wang et al., 2024c)。 此前,將預訓練的大型語言模型的輸出與人類偏好對齊的廣泛采用的方法是監督微調(SFT)(Hu et al., 2021; Mishra et al., 2021; Wang et al., 2022; Du et al., 2022; Dettmers et al., 2023; Taori et al., 2023; Zhang et al., 2023a; Chiang et al., 2023; Xu et al., 2023; Peng et al., 2023; Mukherjee et al., 2023; Li et al., 2023; Ding et al., 2023; Luo et al., 2023; Wang et al., 2024d; Zhou et al., 2024)。這種方法通過(指令,答案)對進一步訓練LLMs,其中“指令”代表給模型的提示,“答案”是符合指令的目標輸出。SFT有助于引導LLMs生成符合特定特征或領域知識的回應,使得人類能夠與LLMs進行交互。盡管SFT有效,但它也有局限性:在訓練過程中,模型被限制為學習我們提供的特定答案,并且使用困惑度(PPL)等指標來懲罰同義詞的使用。一方面,這可能阻礙LLM的泛化能力,因為任務如寫作和總結有多種有效的表述方式。另一方面,它可能導致在與人類偏好對齊時表現不佳,因為訓練過程中沒有直接融入人類反饋。 為了緩解上述問題,采用了強化學習(RL)來將LLM的輸出與人類偏好對齊,強化學習過程可分為三個步驟:(1)首先,在微調之前,訓練一個獎勵模型(或獎勵函數),以近似人類偏好并為不同的LLM輸出評分;(2)然后,在每次微調迭代中,給定一個指令,LLM生成多個回應,每個回應都由訓練好的獎勵模型評分;(3)最后,使用強化學習的優化技術——策略優化,基于這些偏好評分更新LLM的權重,以改進預測。用強化學習微調LLM可以同時解決上述問題。一方面,強化學習不再限制模型僅學習一個特定答案,而是根據各種偏好評分調整LLM,獎勵任何有效且措辭恰當的回應。另一方面,獎勵模型被設計為近似人類偏好,從而使得可以直接在人工偏好上訓練,并增強LLM的創造力。 本文將整合強化學習(RL)在大型語言模型(LLMs)中的最新研究成果,試圖分析并總結這一快速發展的領域,幫助研究人員理解當前的研究進展、挑戰和前景。具體來說:

  • 第二部分介紹強化學習(RL)的基本原理及關鍵術語,并概述強化學習如何適應LLM的管道。
  • 第三部分介紹了強化學習增強的流行且強大的大型語言模型。
  • 第四部分概述了基于人類反饋的強化學習(RLHF)的過程,這是一種將強化學習與人類反饋結合的訓練方法,用以將LLMs與人類的價值觀、偏好和期望對齊。
  • 第五部分回顧了基于AI反饋的強化學習(RLAIF)的研究,RLAIF作為RLHF的有力補充,利用AI系統提供反饋,提供了可擴展性、一致性和成本效益的優勢。
  • 第六部分分析了RLHF和RLAIF所面臨的挑戰。
  • 第七部分討論了直接偏好優化(DPO)研究,這是一系列繞過獎勵模型、直接利用人類偏好數據將LLM輸出與人類期望對齊的方法。
  • 第八部分總結了當前的挑戰,并討論了進一步改進的機會。

強化學習在大型語言模型中的應用

我們已經概述了強化學習(RL)的基本框架;現在,我們將深入探討如何使用RL微調大型語言模型(LLMs)的過程。此方法旨在將LLM與期望的行為對齊,提升其性能,并確保其輸出既有效又可靠。

在強化學習(RL)中,有六個關鍵組件:代理(Agent)、環境(Environment)、狀態(State)、動作(Action)、獎勵(Reward)和策略(Policy)。要將RL應用于微調大型語言模型(LLMs),第一步是將這些組件映射到LLM框架中。 LLMs在預測下一個詞元(next-token prediction)方面非常高效,它們將一系列詞元作為輸入,并根據給定的上下文預測下一個詞元。從RL的角度來看,我們可以將LLM本身視為策略(Policy)。當前的文本序列代表狀態(State),根據這個狀態,LLM生成一個動作(Action)——即下一個詞元。這個動作會更新狀態,形成一個新的狀態,其中包含新增的詞元。在生成完整的文本序列后,使用預訓練的獎勵模型來評估LLM輸出的質量,從而決定獎勵(Reward)。 圖2 展示了Ouyang等人(2022)提出的LLM強化學習框架。Ouyang等人(2022)首先使用通過監督學習訓練的指令微調模型,使其能夠生成結構化的響應。接著,Ouyang等人(2022)應用了以下兩個步驟: 步驟1:收集比較數據并訓練獎勵模型

Ouyang等人(2022)收集了一個數據集,包含指令微調模型輸出之間的比較,標注者指出對于給定輸入,他們更喜歡哪個輸出。然后,收集到的數據集用于訓練一個獎勵模型(Reward Model, RM),以預測人類偏好的輸出。 步驟2:使用PPO優化策略對抗獎勵模型

Ouyang等人(2022)將獎勵模型的輸出作為標量獎勵,并通過PPO算法(Schulman等人,2017)對指令微調模型進行微調,優化該獎勵。

強化學習增強的流行大型語言模型

近期流行的強大功能的大型語言模型(LLMs)幾乎都利用強化學習(RL)來進一步增強其在后期訓練過程中的表現。這些模型所采用的強化學習方法通常可以分為兩大類: 1. 傳統的RL方法,如基于人類反饋的強化學習(RLHF)基于AI反饋的強化學習(RLAIF)。這些方法需要訓練一個獎勵模型,并且涉及復雜且通常不穩定的過程,使用如近端策略優化(PPO)(Schulman 等人,2017)等算法來優化策略模型。像InstructGPT(Ouyang 等人,2022)、GPT-4(OpenAI,2023)和Claude 3(Anthropic,2024)等模型都采用了這一方法。 1. 簡化的方法,如直接偏好優化(DPO)(Rafailov 等人,2024)和獎勵感知偏好優化(RPO)(Adler 等人,2024)。這些方法摒棄了獎勵模型,提供了一種穩定、性能強大且計算效率高的解決方案。像Llama 3(Dubey 等人,2024)、Qwen 2(Yang 等人,2024a)和Nemotron-4 340B(Adler 等人,2024)等模型都采用了這一方法。

在這一部分,我們將詳細描述每個模型,首先簡要概述這些強化學習增強的大型語言模型,并解釋強化學習如何在它們的后期訓練過程中應用。有關這些強化學習增強的LLMs的概覽見表1

RLHF:基于人類反饋的強化學習

基于人類反饋的強化學習(RLHF)是一種訓練方法,它將強化學習(RL)與人類反饋相結合,以將大型語言模型(LLMs)與人類的價值觀、偏好和期望對齊。RLHF包含兩個主要組件: 1. 收集人類反饋以訓練獎勵模型:在人類評估者提供反饋時,他們通過根據質量、相關性等因素對LLM的輸出進行評分或排名。這些反饋隨后用于訓練一個獎勵模型,該模型用于預測輸出的質量,并作為RL過程中的獎勵函數。 1. 使用人類反饋進行偏好優化:訓練好的獎勵模型指導LLM輸出的優化,以最大化預測獎勵,從而使LLM的行為與人類的偏好對齊。

接下來,我們將通過近期的研究來闡述這兩個組件。

付費5元查看完整內容

摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。

情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。

多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。

多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。

多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。

本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。


綜述的結構

第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。

多模態情感計算中的多模態學習

多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。

A. 初步概述

隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。

B. 多模態融合

多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。

**1) 跨模態學習

跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。

在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。

**2) 模態一致性與差異性

模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。

**3) 多階段模態融合

多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。

C. 多模態對齊

多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。

**1) 缺失模態的對齊

在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。

第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。

**2) 跨模態語義對齊

語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。

多模態情感計算中的模型

在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。

A. 多任務學習

多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。

**1) 多模態情感分析

在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。

**2) 多模態對話情感識別

在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。

**3) 多模態基于方面的情感分析

Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。

**4) 多模態多標簽情感識別

對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。

B. 預訓練模型

近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。

**1) 多模態情感分析

在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。

**2) 多模態對話情感識別

在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。

**4) 多模態多標簽情感識別

一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。

C. 增強知識

在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。

**1) 多模態情感分析

在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。

**2) 多模態對話情感識別

在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。

**4) 多模態多標簽情感識別

在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。

D. 上下文信息

上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。

**1) 多模態情感分析

在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。

**2) 多模態對話情感識別

在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。

**4) 多模態多標簽情感識別

MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論

多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。

付費5元查看完整內容

摘要: 手語識別涉及計算機視覺、模式識別、人機交互等領域,具有重要的研究意義與應用價值。深度學習技術的蓬勃發展為更加精準、實時的手語識別帶來了新的機遇。該文綜述了近年來基于深度學習的手語識別技術,從孤立詞與連續語句兩個分支展開詳細的算法闡述與分析。孤立詞識別技術劃分為基于卷積神經網絡(CNN)、3維卷積神經網絡(3D-CNN)和循環神經網絡(RNN) 3種架構的方法;連續語句識別所用模型復雜度更高,通常需要輔助某種長時時序建模算法,按其主體結構分為雙向長短時記憶網絡模型、3維卷積網絡模型和混合模型。歸納總結了目前國內外常用手語數據集,探討了手語識別技術的研究挑戰與發展趨勢,高精度前提下的魯棒性和實用化仍有待于推進。

付費5元查看完整內容

摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。

付費5元查看完整內容
北京阿比特科技有限公司