摘要
大型語言模型(LLMs)的出現為自然科學與社會科學研究帶來了變革性機遇,其通過提供理解復雜系統的新范式,正重塑相關領域的研究進程。尤其是生成式智能體模擬(GABMs)——通過整合LLMs模擬人類行為,因其能在多樣化人工環境中建模復雜交互而日益受到關注。本文綜述了LLMs在網絡科學、演化博弈論、社會動力學及流行病建模等領域的顛覆性作用,評估了其在社會行為預測、博弈合作增強、疾病傳播模擬等方面的最新進展。研究發現,LLMs不僅能復現人類典型行為(如公平偏好、合作傾向、社會規范遵循),還具有成本效益、可擴展性和倫理簡化等獨特優勢;但同時也存在因提示詞敏感性、幻覺問題甚至模型特性導致的行為不一致性,這為控制此類AI驅動的智能體帶來了挑戰。盡管潛力巨大,若要將LLMs有效整合至政府、社會或個人決策流程中,仍需解決數據偏見、提示詞設計難題及人機交互動力學理解等關鍵問題。未來研究需優化模型架構、標準化方法論,并探索LLMs與人類及彼此交互中可能涌現的新型合作行為,這些進展或將徹底改變各類系統的決策模式。
關鍵詞:大語言模型(LLMs),生成式智能體模擬(GABMs),復雜系統,網絡科學,合作博弈,社會動力學,流行病建模********************************
彭晨丨作者
論文題目:LLMs and generative agent-based models for complex systems research 發表時間:2024年10月28日 論文地址://doi.org/10.1016/j.plrev.2024.10.013 會議名稱:Physics of Life Reviews **
**
近年來,大語言模型(LLMs)的突破性進展正在重塑自然科學與社會科學的研究范式。近期,發表在 Physics of Life Reviews 的綜述文章系統梳理了LLMs與生成式智能體模擬(Generative Agent-Based Models, GABMs)在復雜系統研究中的前沿應用。這類模型通過將LLMs嵌入智能體決策核心,能夠實現人類在復雜環境中的互動行為的模擬,為網絡演化、群體合作、社會動態傳播等經典問題提供了全新研究路徑。LLMs不僅能復現人類的公平性、合作傾向等社會規范,還展現出成本效益、可擴展性和倫理簡化等獨特優勢。然而,其行為的不一致性、提示敏感性以及“幻覺”問題也揭示了AI智能體控制的技術挑戰。
**
復雜網絡:LLM驅動的自組織網絡演化
在復雜網絡領域,傳統模型依賴固定規則生成節點連接,而GABMs首次實現了基于語義理解的網絡自組織。一項研究通過GPT-3.5模擬在線社交網絡生長:每個新加入的智能體(節點)在接收到包含現有成員好友數的提示后,自主決定連接對象。有趣的是,初始實驗發現網絡呈現獨特的**“中心-輻條”結構**,與傳統偏好連接模型(preferential attachment)的冪律分布明顯不同。深入分析揭示,這種偏差源于LLM對節點名稱的隱性偏好——當研究者將節點名稱隨機化后,網絡結構立即趨近經典模型。這種**“名稱偏見”**現象凸顯了LLMs在模擬人類行為時可能引入的隱性認知偏差。
圖 1. 生成式智能體模型(GABMs)。智能體并不根據一組固定的規則來決定它們之間的相互作用。相反,會向LLM發送包含所需詳細信息的提示,并返回智能體應該做出的決策。
**
博弈論:AI智能體的合作悖論
博弈論實驗成為檢驗LLMs社會認知能力的試金石。一項獨裁者博弈(Dictator Game)中發現,GPT-3.5智能體的平均分配公平性顯著高于人類,且從未選擇“獨占全部資源”的理性策略。
在一項囚徒困境(Prisoner's Dilemma)的單次博弈中,LLMs的合作率高達65.4%,遠超人類37%的歷史數據。這種超理性行為在另一團隊的迭代實驗中發生反轉:**當GPT-4智能體相互博弈時,表現出“一次背叛終身不合作”**的極端懲罰策略,揭示了模型版本更新帶來的行為變化。
這些矛盾結果暗示,LLMs的合作傾向高度依賴提示框架和模型微調策略,其“價值觀”本質上是開發者預設與社會訓練數據共同作用的產物。
圖3. 提示一個LLM參與獨裁者博弈。將Brookins等人提供的指令復制到使用GPT-3.5的LLM智能體中。雖然指令沒有明確提到公平,但LLM表現出公平分配的傾向,超過人類參與者。
**
社會動力學:人機混合決策的曙光
社會動態模擬方面,LLMs正在突破傳統智能體模型的局限。一項研究在流行病建模中構建了三層提示框架:基礎場景智能體僅考慮工作收入;健康反饋層加入個體癥狀感知;完整反饋層進一步引入社區感染數據。結果顯示,獲取群體信息的智能體自發產生居家隔離行為,使疫情傳播規模下降80%。這種無需預設規則的適應性決策,為公共衛生干預模擬提供了動態響應基礎。
圖5. LLM驅動智能體的疫情傳播模型。Williams等人提出一種模型,其中個體每天通過LLM決策是否外出互動或居家隔離。在基準場景中,LLM僅被告知個體需要工作賺錢;在健康狀態反饋場景中,提示詞額外包含個體的健康狀況;最終,完整反饋場景還會提供社區病毒傳播信息(研究者將其命名為"Catasat病毒")及前一階段同區域(名為"Dewberry Hollow")的感染人數數據。
而在群體決策領域,另一項研究證實GPT-3能精準模擬特定亞文化群體(如美國福音派基督徒)的政治傾向,其預測結果與真實民調誤差小于2%。這種細粒度的人群建模能力,使政策仿真可以觸及傳統問卷調查難以覆蓋的微觀社會結構。
**
挑戰與未來:人機共生的決策新生態
盡管前景廣闊,LLMs在復雜系統中的應用仍面臨三重挑戰。首先是提示工程的脆弱性:在最后通牒博弈(Ultimatum Game)中,同一LLM作為提議者與響應者時行為一致性僅50%,而雙智能體架構則提升至88%,顯示決策角色的語義隔離至關重要。
其次是價值觀的隱形編碼,在一項政治傾向量表檢測中發現,早期模型(如BERT)呈現保守傾向,而GPT-4則更趨自由主義,這種偏差可能扭曲社會模擬的客觀性。
**最后是群體涌現的不確定性,**在多智能體公共品博弈中發現,惡意節點的存在會使相鄰個體貢獻率下降40%,但另一團隊觀察到補償性合作增強,這種矛盾可能源于不同LLM版本的風險評估機制差異。
圖6. LLM在社會決策中的整合應用。左圖:智能體為政府或第三方組織提供決策支持,右圖:智能體輔助個人決策的過程。此類智能元素的整合機制,在概念上類似于領域專家委員會模式,但其規模可擴展至前所未有的水平。
因此,未來的研究需建立標準化的提示詞協議、開發偏差檢測工具,并深入探索人機混合群體中新型合作機制的涌現規律。當數十億LLM智能體在數字空間持續交互,可能催生超越人類經驗的社會動力學新模式。這場始于語言理解的革命,未來可能將重塑我們理解復雜性的方式。
參考文獻 [1] De Marzo, G., Pietronero, L., & Garcia, D. (2023). Emergence of scale-free networks in social interactions among large language models. arXiv preprint arXiv:2312.06619. [2] Guo, F. (2023). GPT in game theory experiments. arXiv preprint arXiv:2305.05516. [3] Williams, R., Hosseinichimeh, N., Majumdar, A., & Ghaffarzadegan, N. (2023). Epidemic modeling with generative agents. arXiv preprint arXiv:2307.04986. [4] Argyle, L. P., Busby, E. C., Fulda, N., Gubler, J. R., Rytting, C., & Wingate, D. (2023). Out of one, many: Using language models to simulate human samples. Political Analysis, 31(3), 337-351.**
**
摘要——視覺語言建模(Vision-Language Modeling, VLM)旨在彌合圖像與自然語言之間的信息鴻溝。在先進行大規模圖文對預訓練、再在任務數據上進行微調的全新范式下,遙感領域中的VLM取得了顯著進展。所產生的模型得益于廣泛通用知識的融入,在多種遙感數據分析任務中展現出強大的性能。此外,這些模型還具備與用戶進行對話式交互的能力。
本文旨在為遙感領域的研究者提供一份及時且全面的綜述,系統回顧基于該兩階段范式的VLM研究進展。具體而言,我們首先對遙感中的VLM進行分類梳理,包括對比學習、視覺指令微調以及文本條件圖像生成。針對每一類方法,我們詳細介紹了常用的網絡結構與預訓練目標。 其次,我們對現有研究進行深入評述,涵蓋對比學習類VLM中的基礎模型與任務適配方法,指令微調類VLM中的架構改進、訓練策略與模型能力,以及生成式基礎模型及其代表性的下游應用。 第三,我們總結了用于VLM預訓練、微調與評估的數據集,分析其構建方法(包括圖像來源與描述生成方式)與關鍵屬性,如數據規模與任務適應性。 最后,本文對未來研究方向提出若干思考與展望,包括跨模態表示對齊、模糊需求理解、基于解釋的模型可靠性、持續擴展的模型能力,以及具備更豐富模態與更大挑戰的大規模數據集。 關鍵詞——遙感,視覺語言建模,對比學習,視覺指令微調,擴散模型
遙感中的視覺語言建模(Vision-Language Modeling, VLM)旨在彌合遙感圖像與自然語言之間的信息鴻溝,促進對遙感場景語義(如地物屬性及其關系)的深入理解,并實現與智能遙感數據分析模型或方法的更自然交互方式 [17],[164]。自從遙感領域引入圖像描述 [62]、視覺問答 [54]、文本-圖像(或圖像-文本)檢索 [166] 以及基于文本的圖像生成 [165] 等任務以來,受益于深度學習的發展,VLM在遙感領域取得了顯著成果。 早期的VLM研究主要強調模型結構的精心設計,并通過從零開始在小規模數據集上進行監督訓練。例如,在圖像描述任務中,許多研究 [167]–[170] 試圖將卷積神經網絡(如VGG [171]和ResNet [172])與序列模型(如LSTM [173]和Transformer [174])有效結合,并在UCM-captions [62]與Sydney-captions [62]等數據集上進行訓練。在這一經典的構建范式下,深度模型通常在測試集上表現良好,但在大規模部署中效果欠佳。此外,盡管這些模型能夠描述圖像內容,但在處理圖像相關問答等任務時能力不足,限制了其在多樣化場景中的應用。 近年來,預訓練-微調的新范式為上述挑戰提供了有前景的解決方案。其核心思想是,首先在大規模圖文數據上進行預訓練,使模型能夠學習涵蓋廣泛視覺與文本概念及其對應關系的通用知識,然后在特定任務數據上進行微調。已有研究表明,通用知識的融入不僅提升了模型在單一任務中的泛化能力 [7],[8],還增強了模型在多種下游任務中的適應性與多樣性 [1],[3]。因此,該新范式下的視覺語言建模已成為遙感領域的研究熱點。迄今為止,相關研究取得了顯著進展,如圖1所示,主要體現在以下幾個方面:
基于對比學習的方法(如GeoRSCLIP [7]、SkyCLIP [8]和RemoteCLIP [2]),在跨模態任務與零樣本圖像理解任務中取得了重要突破;
學習圖文間隱式聯合分布的方法(如RS-SD [7]、DiffusionSat [38]和CRSDiff [39]),支持通過文本提示生成圖像;
視覺指令微調方法(如GeoChat [3]、LHRSBot [9]和SkySenseGPT [11]),在遙感數據分析中表現出更強的性能、多樣化的能力與對話交互能力。
盡管已有諸多成果,但VLM仍被公認為一個尚未完全解決的研究難題。目前的模型仍無法達到遙感專家在遙感數據處理方面的水平。為推動該領域進一步發展,已有若干綜述論文試圖系統梳理遙感中的視覺語言建模。例如,Li等人 [17] 從應用視角出發總結了相關模型,并提出潛在研究方向,但其主要聚焦于視覺基礎模型和早期工作;Zhou等人 [16] 則回顧了近期研究進展,但缺乏對關鍵設計的深入剖析,而這些設計對于未來研究的啟發具有重要意義。此外,作為VLM研究的前提條件,相關數據集在現有綜述中也未受到充分關注。 因此,本文旨在針對遙感領域中的預訓練-微調范式,提供一份及時且全面的文獻綜述,重點包括:
對遙感VLM方法的分類,詳細介紹各類方法中常用的網絡結構與預訓練目標;
對基于對比、指令與生成三類VLM方法的最新進展進行總結,重點分析其關鍵設計與下游應用;
對用于預訓練、微調與評估的數據集進行梳理,分析其構建方法與關鍵特性;
討論當前挑戰與未來可能的研究方向。
圖2展示了本文的整體框架。
摘要 — 大型語言模型(LLMs)正在以驚人的速度發展,并已成為學術界、工業界和日常應用中不可或缺的一部分。為了跟上當前的發展態勢,本調查深入探討了LLMs崛起對評估所帶來的核心挑戰。我們識別并分析了兩個關鍵的轉變:(i)從任務特定的評估到基于能力的評估,這一轉變圍繞知識、推理、指令跟隨、多模態理解和安全性等核心能力重組基準;(ii)從手動評估到自動化評估,包括動態數據集創建和“LLM作為評審員”的評分。然而,即使在這些轉變之后,仍然存在一個關鍵的障礙:評估泛化問題。有限的測試集無法與能力似乎無限增長的模型相匹配。我們將從方法、數據集、評估者和度量標準的角度,剖析這一問題以及上述兩個轉變的核心挑戰。鑒于這一領域的快速發展,我們將維護一個持續更新的GitHub存儲庫(每個章節中都有鏈接)來眾包更新和修正,熱忱歡迎貢獻者和合作者參與。 關鍵詞 — 大型語言模型、評估、基準、調查
大型語言模型(LLMs)在學術界和工業界取得了前所未有的成功,這在很大程度上歸功于訓練和評估技術的快速進展。作為“質量控制系統”,評估不僅指導技術進步的軌跡,還充當潛在風險的預警機制。最近的推理型LLMs,如OpenAI的o1或DeepSeek-R1,進一步強調了評估的重要性——通過將推理、評估和隨后的再推理(即細化或修正)整合到一個單一的思維鏈(CoT)中,它們的推理質量得到了極大提升。這些進展為評估領域注入了新的活力,產生了越來越多的基準和評估研究。為了跟上這一快速增長的步伐,我們的調查不僅僅是列出或針對特定方面的回顧。相反,我們深入探討了基礎挑戰,通過考察LLMs的出現如何重塑評估領域,我們稱之為評估泛化問題。
在回顧當前該領域的研究時,我們識別出兩個關鍵轉變。如圖1所示,評估中的一個轉變是從任務特定到基于能力的轉變。傳統的評估方法專注于特定任務(例如,文本分類、信息抽取)。隨著LLMs將各種NLP任務統一為自然語言生成的形式,每個任務的定義及其之間的邊界變得越來越模糊。在這一新范式下,每個指令或提示都可以視為一個獨立的任務,從而將注意力轉向評估解決現實世界需求所需的核心能力。在本調查中,我們識別出五個關鍵能力:知識、推理、指令跟隨、多模態理解和安全性。在第二部分,我們回顧現有的基準并將其歸類于這一能力框架中,進一步細分為更詳細的子類別。此外,我們討論了綜合評估,評估不同能力之間的相互作用及當前的實時排行榜。這種從基于任務的評估到基于能力的評估的轉變使得對模型真實潛力的全面理解成為可能,超越了其在預定義任務中的表現。 評估中的另一個轉變是從手動方法到自動化方法,包括數據創建和判斷。在數據方面,模型性能的快速發展要求基準更新的頻率不斷增加,而手動創建過程已變得不可持續,這一點在GSM8K(Grade School Math 8K)上準確率從74%到95%在兩年內的飆升中得到了體現。自動化管道可以解決數據集創建中固有的成本和效率挑戰。自動化的另一個好處是能夠減少數據污染的風險,即測試數據在預訓練或后訓練過程中不小心暴露,導致性能被高估。為應對這一問題,自動化方法可以成為解決方案之一,它不斷更新或細化測試集,被稱為動態基準,確保測試數據在前期沒有暴露。
在判斷方面,如上所述,轉向用戶提示帶來了更多開放式的響應,這提出了更多復雜性:人工判斷成本高昂。自動評估器(即“LLM作為評審員”)不僅在提供可靠、高效的評估方面展現出潛力,而且還能生成更詳細、更細致的人類響應評估。在第三部分,我們對這些自動化方法進行了全面回顧。
盡管研究人員在上述兩個轉變中取得了顯著進展,但我們認為一個根本的矛盾依然存在:即通過規模法則暗示的訓練范式與有限評估實踐之間的矛盾。隨著模型參數、訓練FLOPs和數據量的增加,性能似乎可以無限提升。然而,考慮到效率,評估數據集在實踐中無法無限擴展或多樣化。也就是說,當前的評估管道無法與模型能力同步擴展。結果是,模型能做什么與我們的測試能覆蓋什么之間的差距日益增大。這種緊張關系是LLM評估中的許多已知挑戰的根源。例如,以數據污染為例,由于有限的測試數據集只能覆蓋模型能力的一個子集,不同模型在評估中可能會獲得異質的優勢,導致不公平的比較。也就是說,如果模型在訓練期間已經遇到并記住了測試樣本,它的測量能力將與數據集評估的內容完全對齊,從而給予它一個不一定反映更強實際能力的過度優勢。
我們將上述問題——如何利用有限的評估管道來評估一個無限的模型能力——稱為評估泛化問題。換句話說,現有的評估往往集中于模型已經展現的能力或能夠通過固定的測試集表達的能力,固有地限制了評估范圍。因此,在LLM時代,評估的核心挑戰是開發能夠預測未來或尚未表達的能力的可泛化評估方法。在本調查中,我們從數據集、評估者和度量標準等不同角度,探討這一挑戰并探索潛在的解決方案。例如,一些工作專注于預測性評估,精心創建各種任務以根據小規模模型的表現來估計大規模模型的表現[1]。或者,Cao等[2]提出結合表現和基于新解釋性的度量——模型利用指數(MUI),用于評估LLMs在給定數據集之外的潛力。其基本思想類似于人類評估實踐:在判斷一個人的整體能力時,我們既考慮結果,也考慮所需的努力(即MUI)——相同表現所需的努力較少,表示更高的熟練度。
值得注意的是,LLM評估是一個快速發展的領域。雖然我們已經盡力列出最新的文本中心評估工作,但許多研究仍處于預印本階段。因此,我們在這里強調的是前瞻性的見解和研究方向。不可避免地,可能會出現一些遺漏或不準確的地方。我們計劃維護一個專門的GitHub存儲庫,并邀請社區幫助我們進行改進;主要貢獻者將得到感謝或被邀請作為合作者。
摘要——視覺-語言模型(VLM)在開放詞匯(OV)物體檢測和分割任務中得到了廣泛應用。盡管在與開放詞匯相關的任務中展現了潛力,但它們在傳統視覺任務中的有效性尚未得到評估。本研究對基于VLM的檢測與分割進行了系統綜述,將VLM視為基礎模型,并首次對多個下游任務進行了全面評估: 1)評估涵蓋了八個檢測場景(閉集檢測、領域適應、擁擠物體等)和八個分割場景(少樣本、開放世界、小物體等),揭示了各種VLM架構在不同任務中的性能優勢與局限性。 2)在檢測任務中,我們在三種微調粒度下評估了VLM:零預測、視覺微調和文本提示,并進一步分析了不同微調策略如何在不同任務下影響性能。 3)基于實證研究結果,我們深入分析了任務特征、模型架構和訓練方法之間的關聯,為未來VLM設計提供了洞見。 4)我們相信,本工作將對從事計算機視覺、多模態學習和視覺基礎模型研究的模式識別專家具有價值,幫助他們了解該問題并熟悉當前進展,同時為未來的研究提供有前景的方向。與本綜述和評估相關的項目已創建于//github.com/better-chao/perceptual-abilities-evaluation。
關鍵詞——視覺-語言模型,物體檢測,物體分割,視覺感知評估。
I. 引言
隨著人工智能技術的快速發展,視覺-語言模型(VLM)已經成為多模態學習中的一個重要成果,成為計算機視覺和自然語言處理領域研究的焦點。這一演變的推動因素有幾個:首先,模型架構的迭代發展,從傳統的卷積神經網絡(CNN)[1]–[4]到基于變換器的架構[5]–[8],再到大規模預訓練模型[9]、[10],為提高VLM性能奠定了堅實的基礎。其次,計算能力的顯著進步,特別是GPU和TPU的快速發展,使得大規模數據和復雜模型的處理成為可能。此外,數據可用性的指數增長為VLM的發展提供了支持,數據集從有限規模擴展到大規模的視覺-語言數據集,為模型訓練提供了大量的圖像-文本對。此外,對復雜現實任務的需求日益增加,尤其是從傳統的閉集檢測到開放集場景的轉變,這些任務需要多樣化的能力,進一步推動了學術研究向多模態模型的方向發展。在這種背景下,VLM從單一模態方法發展到先進的多模態融合框架,展現出了顯著的優勢。通過對視覺和文本特征的對齊,VLM能夠有效利用不同的數據形式,增強新類別的泛化能力,并在物體檢測和分割任務中取得出色的表現。
視覺作為理解環境信息的核心感知通道,迫切需要系統地評估VLM在通過多模態理解提升傳統視覺任務中的效果。物體檢測[11]和分割[12]是計算機視覺中的基礎任務,是感知和場景理解的重要組成部分。這些技術構成了多個領域中各種實際應用的基礎,包括自動駕駛[13]、醫學影像[14][15][16]、智能機器人[14]等。
當前的VLM基本上通過對齊視覺和文本特征來實現其廣泛且強大的能力。在物體檢測任務中,基于VLM的檢測通過對比學習方法將視覺特征與文本描述對齊,典型例子包括GLIP[17]和GroundingDINO[18],通過在大規模數據集(如CC12M(Conceptual 12M [19])、YFCC1M(YFCC100M的子集[20]))上的預訓練,實現了對未見類別的泛化。在分割任務方面,近期的研究集中于將VLM的全局多模態對齊能力轉移到細粒度的對齊任務,特別是區域-文本[21]和像素-文本對齊[22]。這些進展利用了多種監督策略,促進了像素級分割任務中的密集預測。
這些模型的核心延伸了如CLIP[10]等預訓練方法的概念;然而,盡管CLIP作為分類模型工作,但不同VLM的對齊機制和原理有所不同。例如,一些模型利用對比學習進行特征對齊,而另一些則采用跨注意力機制進行特征融合。值得注意的是,當前的VLM主要在開放詞匯(OV)任務上表現出色,但它們在向其他具體任務泛化的能力上仍然是一個需要進一步探索的領域。
鑒于VLM的潛力和強大能力,許多研究已開始探索如何將VLM應用于下游任務,包括物體檢測、語義分割等。例如,DA-Pro[23]基于RegionCLIP[24],通過為每個目標類別動態生成與領域相關和領域無關的提示前綴,從而顯著提高跨領域檢測性能。COUNTGD[25]通過在GroundingDINO[18]中增加目標類別的視覺示例來增強文本提示,形成增強的文本描述,以檢測輸入圖像中的目標物體,成為第一個開放世界計數模型。然而,現有的研究和相關綜述主要集中在開放詞匯設置中的檢測和分割任務,往往忽視了現實世界場景的復雜性和挑戰。因此,在廣泛的視覺下游任務中的全面評估尚未開展。如圖1所示,為了全面評估VLM模型在不同場景中的表現,我們設計了8種不同的檢測任務設置,涵蓋了傳統的閉集檢測任務、開放詞匯相關任務、領域適應場景以及更為現實的密集物體場景。對于分割任務,我們設置了8種不同的設置,包括零樣本評估、開放世界語義分割任務、以及小物體和密集分割任務。 在基于VLM的檢測任務中,如圖2所示,我們采用了三種粒度級別的微調策略來評估模型性能:零預測、視覺微調和文本提示。這三種方式在計算成本和性能之間存在權衡,使得它們適用于不同的下游任務。 零預測:這種方法涉及直接將預訓練的VLM模型應用于下游數據集,而不進行任何微調。它利用模型固有的泛化能力,特別適用于需要快速部署的場景。正式地,對于一個預訓練的模型fθ(x, t),其中x代表圖像,t代表文本提示,零預測直接將fθ(x, t)應用于下游數據集。 視覺微調:這種方法涉及對VLM的視覺分支進行微調,而固定文本分支。通過將模型適應下游數據的分布,它使得VLM能夠快速對齊特定任務。然而,這種方法需要較高的微調成本。正式地,如果模型由視覺編碼器Ev和文本編碼器Et組成,視覺微調在固定Et的同時修改Ev。 文本提示:這種方法專注于微調文本提示,僅通過最小的調整將其適應下游任務。具體而言,它引入了可學習的參數到文本編碼過程中,通過低計算開銷實現任務特定的調整。在某些情況下,這種方法甚至可以超越視覺微調,在特定的下游任務中取得更好的性能。正式地,對于一個文本提示t = [t1, t2, . . . , tn],文本提示引入可學習的參數?t,結果是調整后的提示t′ = t + ?t。 與傳統的語義分割模型(通常局限于一組預定義的類別[26])不同,基于VLM的分割方法[22]提供了對任意類別進行開放詞匯分割的潛力。然而,根本問題仍然是:當前的模型是否真正實現了分割任何事物的承諾?在本研究中,我們通過多種基準數據集,對其在多個領域的能力進行了全面評估。通過廣泛的實證研究和深入分析,我們系統地探討了最先進的基于VLM的分割模型[22]、[27]、[28]的優點和局限性。我們的研究結果提供了寶貴的見解,并為推動更強大且多用途的基于VLM的分割模型的發展奠定了基礎。
在本研究中,我們呈現了對視覺-語言模型(VLM)在密集預測視覺任務中的全面調研,并總結了我們的三大主要貢獻如下:
? 開創性的評估:本文首次將VLM作為“基礎模型”進行全面評估,涵蓋了廣泛的下游視覺任務。通過這一獨特的視角,我們系統地展示了VLM在不同視覺任務中的表現,為理解其潛力和局限性提供了寶貴的基準。 ? 微調策略的細粒度分析:我們系統地研究了三種微調方法——零預測、視覺微調和文本提示——在下游任務中的影響,特別關注分割任務。通過深入分析,揭示了各種微調策略在實際應用中的優缺點,為模型優化提供了關鍵見解。
? 機制深入分析:從訓練方法和模型架構的角度出發,我們探討了這些因素如何影響模型在下游任務中的表現。本研究不僅關注表面應用,還深入探討了VLM的內在機制,為未來模型設計和改進提供了支持。
總之,我們的研究不僅提供了對VLM的全面評估和深入分析,還為推動該領域的進展奠定了堅實的基礎,促進了物體檢測和分割任務的進一步突破和進展。本文的剩余部分結構如下:第二節回顧了基于VLM的檢測和分割相關工作;第三節和第四節展示了檢測和分割評估結果及相應的任務分析;第五節概述了VLM發展的潛在未來方向;最后,第六節總結了本文并概括了工作的重要貢獻。
摘要——在現實場景中,實現領域適應和泛化面臨著重大挑戰,因為模型必須適應或在未知目標分布之間進行泛化。將這些能力擴展到看不見的多模態分布,即多模態領域適應與泛化,因不同模態的特性差異而變得更加困難。多年來,在這一領域取得了顯著進展,應用范圍涵蓋從動作識別到語義分割等多個領域。此外,近期大型預訓練多模態基礎模型(如CLIP)的出現,激發了利用這些模型來增強適應性和泛化性能,或將其應用于下游任務的研究工作。本綜述首次全面回顧了從傳統方法到基礎模型的最新進展,涵蓋以下內容:(1)多模態領域適應;(2)多模態測試時適應;(3)多模態領域泛化;(4)借助多模態基礎模型進行領域適應和泛化;(5)多模態基礎模型的適應。對于每個主題,我們正式定義問題并全面回顧現有方法。此外,我們還分析了相關的數據集和應用,突出了開放挑戰和未來可能的研究方向。我們維護一個活躍的資源庫,包含最新的文獻,網址://github.com/donghao51/Awesome-Multimodal-Adaptation。關鍵詞——領域泛化,領域適應,多模態學習,基礎模型,測試時適應
1 引言領域適應(Domain Adaptation, DA)和領域泛化(Domain Generalization, DG)已在研究領域中引起了廣泛關注 [1], [2]。在機器人學 [3], [4]、動作識別 [5] 和異常檢測 [6], [7] 等現實應用中,訓練于有限源領域的模型必須在新的目標領域上表現良好。為了解決分布偏移問題,已經提出了眾多DA和DG算法,包括分布對齊 [8]、領域不變特征學習 [9]、特征解耦 [10]、數據增強 [11] 和元學習 [12] 等。然而,這些算法大多是為單模態數據(如圖像或時間序列數據)設計的。隨著大規模多模態數據集的出現,解決多模態領域適應(Multimodal Domain Adaptation, MMDA)和多模態領域泛化(Multimodal Domain Generalization, MMDG)的問題變得尤為重要,這些數據集跨越了多個模態,包括音頻-視頻 [13]、圖像-語言 [14] 和激光雷達-相機 [15]。圖1展示了單模態和多模態DA/DG之間的區別,其中MMDA和MMDG通過整合來自多個模態的信息,增強了泛化能力。近年來,MMDA和MMDG在動作識別 [16] 和語義分割 [17] 等領域取得了顯著進展。MMDA和MMDG的一個核心挑戰是如何有效利用來自不同模態的互補信息來提升泛化性能——這是單模態DA和DG方法往往無法做到的。例如,Munro和Damen [16] 提出的方案將模態內對抗對齊與多模態自監督對齊結合,用于MMDA。多模態測試時適應(Multimodal Test-Time Adaptation, MMTTA)[18] 是一種特殊形式的MMDA,旨在通過在線適應預訓練的源多模態模型到目標領域,而無需訪問源領域數據。大規模多模態基礎模型(Multimodal Foundation Models, MFMs)的出現,如對比語言-圖像預訓練(CLIP)[14] 和穩定擴散 [19],為DA和DG開辟了新的研究方向。這些研究致力于利用MFMs增強泛化能力,或將MFMs適應到下游任務中。例如,Dunlap等人 [20] 通過語言擴展圖像嵌入到未見領域,而Huang等人 [21] 將CLIP的知識蒸餾到一個更小的學生模型中,用于領域泛化。此外,Zhou等人 [22] 通過建模可學習向量的提示上下文詞語,適應CLIP-like視覺-語言模型(VLMs)到下游圖像識別任務中。盡管該領域近期取得了顯著進展,但目前尚無全面的綜述文章總結多模態適應與泛化的主要思想。本文旨在提供過去十年中發展出的算法的詳細文獻回顧,并為未來的研究方向提供洞察。本論文涵蓋了五種適應場景(見圖2和圖3),結構安排如下:第2節討論相關研究領域;第3節介紹多模態領域適應問題,并重點回顧在動作識別和語義分割中的主要解決方案;第4節和第5節分別呈現多模態測試時適應和領域泛化的代表性方法;第6節探討如何利用多模態基礎模型改善DA和DG;第7節回顧了將MFMs適應到下游任務的流行方法;第8節總結了主要的應用和數據集;最后,在第9節概述了未來研究方向,第10節總結了全文。與之前綜述的比較。盡管我們的綜述貢獻于DA和DG的更廣泛領域,這些領域在之前的文獻中已有回顧 [1], [2],但我們的重點是多模態適應與泛化,即涉及多個模態的方法。Zhang等人 [23] 的綜述僅涵蓋了2023年前VLMs適應的概述,而我們則統一討論了傳統方法在MMDA、MMTTA和MMDG中的應用、先進MFMs在提升DA和DG中的作用,以及最近將MFMs適應到下游任務的方法。
2. 相關研究主題2.1 領域適應領域適應旨在通過利用標記的源數據和未標記的目標數據來增強模型在目標域中的性能 [1]。傳統的DA方法主要關注以圖像為主要輸入的單模態場景。常見的方法包括使用差異度量對齊特征分布 [8]、在輸入或特征空間中使用對抗學習 [130, 131]、以及使用基于重建的方法 [132]。此外,數據增強 [11] 和自訓練 [133] 等技術也得到了廣泛探索。根據源域和目標域之間標簽集關系的假設,DA進一步分為部分集 [134]、開放集 [135] 和通用DA [136]。2.2 領域泛化領域泛化旨在將模型泛化到未見過的目標域,而無需在訓練期間訪問目標數據。DG方法可以大致分為數據操作、表示學習和學習策略 [2]。數據操作方法(如 [137])增強了數據的多樣性,而表示學習方法 [138] 則專注于提取領域不變特征。此外,元學習 [12] 和自監督學習 [139] 等學習策略也展示了跨領域的泛化性能提升。Shu等人 [140] 還解決了目標域具有私有類的開放集DG問題。2.3 測試時適應測試時適應(TTA)旨在在線適應預訓練的源域模型,以應對分布偏移,而無需訪問源數據或目標標簽。在線TTA方法 [141, 142] 使用無監督目標(如熵最小化和偽標簽)更新特定模型參數。魯棒TTA方法 [143, 144] 解決了更復雜和實際的場景,包括標簽偏移、單樣本適應和混合域偏移。持續TTA方法 [145, 146] 針對測試時遇到的持續和演化的分布偏移。有關TTA的更多信息,請參閱 [147, 148]。2.4 多模態學習多模態學習利用不同模態的互補優勢來增強表示學習和上下文理解。主要的多模態學習方向包括多模態表示學習 [149, 150]、融合方法 [151, 152]、對齊 [153, 154] 等。有關多模態學習的更多信息,請參閱 [155, 156]。2.5 自監督學習自監督學習(SSL)旨在通過從預訓練任務中獲得監督信號來從未標記數據中學習,例如預測變換 [157, 158]、重建缺失組件 [159, 160] 或優化對比目標 [161, 162]。通過捕捉內在數據結構,SSL能夠學習魯棒和領域不變的表示,使其成為DA和DG的重要組成部分。在多模態背景下,SSL也通過多模態對齊 [163]、跨模態翻譯 [164] 和相對范數對齊 [165] 等任務得到應用。這些預訓練任務已有效集成到MMDA和MMDG框架中,包括最近的方法如 [16, 29]。有關SSL的更多信息,請參閱現有文獻 [166, 167]。2.6 基礎模型基礎模型是在大量數據集上預訓練的大規模模型,可作為廣泛下游任務的通用起點。這些模型表現出強大的泛化能力,使其能夠以最小的微調適應各種應用。著名的例子包括語言模型如GPT [168]、視覺模型如SAM [169] 和DINO [170]、視覺-語言模型如CLIP [14] 和Flamingo [171]、以及生成模型如穩定擴散 [19]。有關基礎模型的更多信息,請參閱 [172]。3. 多模態領域適應多模態領域適應(MMDA)旨在將模型從源域適應到目標域,同時利用多模態數據(如視頻、音頻和光流)。MMDA在適應過程中同時使用來自源域的標記數據和來自目標域的未標記數據。
3.1 問題定義
其中 EE 表示期望,?(?,?)?(?,?) 是損失函數。現有的MMDA研究主要集中在兩個任務上——使用視頻、音頻和光流模態的動作識別任務,以及使用LiDAR點云和RGB圖像的語義分割任務。我們將在以下章節中分別討論它們。3.2 動作識別的MMDA在本節中,我們詳細介紹現有的動作識別MMDA方法,并將其分為領域對抗學習、對比學習和跨模態交互。
3.2.1 領域對抗學習
其中 CC 是自監督對應分類頭,cc 是定義模態是否對應的二元標簽。Zhang等人 [25] 通過對抗學習和語義保留策略生成缺失的模態,從而在目標模態缺失的情況下選擇可靠的偽標簽目標樣本。Yin等人 [26] 利用混合樣本對抗學習捕捉領域不變的時間特征,并通過動態模態知識蒸餾提高跨模態適應性。3.2.2 對比學習對比學習 [174] 通過將正樣本對拉近、負樣本對推遠來訓練模型區分正負樣本。它用于學習有效的特征表示,從而實現更好的遷移性能。例如,Song等人 [27] 使用自監督對比學習聯合對齊剪輯和視頻級特征,同時最小化視頻級領域差異,增強類別感知對齊和跨領域泛化。Kim等人 [28] 利用模態和領域特定的采樣策略進行對比學習,聯合正則化跨模態和跨領域特征表示。3.2.3 跨模態交互跨模態交互方法通過在適應過程中促進模態之間的信息交換來增強多模態特征學習,使模型能夠捕捉跨模態的互補和相互依賴關系。例如,Lv等人 [30] 將模態特定分類器建模為教師-學生子模型,使用基于原型的可靠性測量進行自適應教學和異步課程學習,并采用可靠性感知融合進行魯棒的最終決策。Huang等人 [31] 通過自熵引導的Mixup [11] 生成合成樣本,并使用多模態和時間相對對齊將其與假設的源類樣本對齊。Zhang等人 [32] 提出了音頻自適應編碼器和音頻注入識別器,以應對跨場景、視角和演員的動作識別領域偏移。通過利用領域不變的音頻活動信息,他們通過缺失活動學習細化視覺表示,并通過視覺線索增強無聲任務識別。Yang等人 [175] 表明,在跨領域對齊之前通過跨模態交互增強每個模態的可遷移性比直接對齊多模態輸入更有效。最近,Dong等人 [29] 通過設計兩個自監督任務——掩碼跨模態翻譯和多模態拼圖——來解決多模態開放集領域適應問題,以學習魯棒的多模態特征進行泛化和開放類檢測,并通過熵加權機制平衡模態特定損失。3.3 語義分割的MMDA在本節中,我們詳細介紹現有的語義分割MMDA方法,并將其分為xMUDA及其擴展、領域對抗學習和跨模態交互。3.3.1 xMUDA及其擴展
通過數據增強擴展。 數據增強技術已被探索用于增強xMUDA中的跨模態對齊。例如,Li等人 [33] 提出了一種多模態風格遷移策略和目標感知教師框架,以在源和合成的目標風格數據上進行跨領域和跨模態知識蒸餾。Chen等人 [34] 使用CutMix [179] 和Mix3D [180] 增強2D和3D訓練數據,促進2D-3D交互和域內跨模態學習。最近,Cao等人 [35] 將xMUDA的多模態學習管道與從現實場景中收集的3D稀有對象和來自SAM [169] 模型的像素級監督相結合,解決了不平衡監督問題,并顯著提高了稀有對象分割。通過融合擴展。 Wu等人 [181] 通過使用融合的跨模態表示進行知識蒸餾,執行跨模態和跨領域對齊,最大化異構模態之間的相關性和互補性以減輕領域偏移。Cardace等人 [36] 通過將深度特征輸入到2D分支并動態豐富3D網絡的RGB特征來擴展xMUDA。通過兩個分支的中間融合,有效利用了內在的跨模態互補性。Simons等人 [37] 通過動態選擇融合和未融合的校正偽標簽進行自訓練,增強了xMUDA,以解決3DSS的無源MMDA。通過跨模態交互擴展。 Zhang等人 [38] 提出了平面到空間和離散到紋理的自監督任務,以在混合領域設置下訓練模型,增強模態特定學習并減輕領域偏移。Xing等人 [39] 通過跨模態對比學習和鄰域特征聚合模塊增強了xMUDA,加強了跨領域的2D-3D一致性,同時捕捉了更豐富的上下文信息。Zhang等人 [40] 通過引入掩碼跨模態建模來減輕大領域差距,并引入動態跨模態濾波器進行特征匹配,使方法能夠動態利用更合適的2D-3D互補性并提高整體適應性。3.3.2 領域對抗學習Peng等人 [41] 引入了稀疏到密集特征對齊,用于域內點-像素對應,并在跨領域和跨模態上進行對抗學習以實現跨領域對齊,使其成為第一個在兩級上解決跨模態學習的方法。相比之下,Liu等人 [42] 將對抗學習集中在圖像模態上,并提出了一種閾值移動策略以減輕推理期間的數據不平衡。Man等人 [43] 引入了一種蒸餾框架,通過深度估計和BEV嵌入的特征監督將知識從LiDAR教師模型轉移到相機學生模型。多階段對抗學習進一步對齊跨領域的特征空間,使單目3D感知在顯著領域偏移下保持準確。3.3.3 跨模態交互Vobecky等人 [44] 引入了一種跨模態無監督方法,用于2D語義分割(2DSS),使用未注釋的配對LiDAR和相機數據。它首先基于幾何特性提取3D一致的對象段,并應用投影和聚類生成2D偽地面實況,從而實現跨模態空間約束的知識蒸餾。Yin等人 [45] 通過集成多模態輔助網絡解決了2DSS的無源MMDA。該方法采用中間融合,并強制增強的深度-RGB對之間的預測一致性,以實現跨模態學習。Rizzoli等人 [46] 將深度數據集成到視覺變換器的輸入、特征和輸出階段。顏色和深度風格轉移實現了早期領域對齊,而跨模態自注意力生成混合特征以更好地進行語義提取。Bultmann等人 [182] 實現了LiDAR、RGB和熱傳感器模態的實時語義推理和融合,用于語義分割和對象檢測,使用后期融合方法和標簽傳播以適應跨傳感器和領域。3.4 其他任務的MMDA除了動作識別和語義分割,MMDA還在其他任務中得到了探索。Ma等人 [47] 通過使用堆疊注意力學習語義表示并應用多通道約束增強類別區分,解決了跨領域對象和事件識別任務的MMDA。Liu等人 [48] 使用基于張量的對齊模塊探索領域和模態之間的關系,并使用動態領域生成器創建過渡樣本,在多模態情感分析和視頻文本分類任務中實現了卓越性能。最近,Zhang等人 [49] 通過獨立學習每個模態的最佳表示并通過動態加權自適應平衡跨模態領域對齊,解決了情感識別的MMDA。
與多模態領域適應(MMDA)不同,多模態測試時適應(Multimodal Test-Time Adaptation, MMTTA)旨在在線適應預訓練的源模型到目標域,而無需訪問源域數據。MMTTA的核心挑戰在于如何在測試時動態調整模型參數,以應對目標域的分布偏移。
與多模態領域適應和多模態測試時適應不同,多模態領域泛化(Multimodal Domain Generalization, MMDG)提出了更具挑戰性的問題設置。在MMDG中,模型僅在具有多個模態的源域上訓練,以泛化到未見過的域,而無需在訓練期間暴露目標域數據。
隨著大規模預訓練多模態基礎模型(MFMs)的出現,如CLIP [14]、穩定擴散 [19] 和Segment Anything Model (SAM) [169],許多研究探索了利用這些模型來增強泛化能力。這些方法可以分為三個主要方向:數據增強、知識蒸餾和學習策略。 7 多模態基礎模型的適應
盡管多模態基礎模型(MFMs)表現出強大的零-shot預測能力,但圖像和文本分布之間的差異,以及訓練目標的局限性,仍然制約著它們的泛化能力。為了解決這些問題,已經提出了多種遷移學習策略,如提示調優(prompt tuning)和特征適配器(feature adapters),以便將MFMs適應到下游任務中。圖8展示了基于提示和基于適配器的適應之間的區別。
8 數據集與應用 多模態適應與泛化已在多個應用領域中進行研究,包括動作識別、語義分割、圖像分類、情感分析、行人重識別、深度補全等。常見數據集的概述見表1,圖9展示了來自三個動作識別數據集的領域偏移示例。
結論
在分布偏移下,將預訓練的多模態模型適應到目標領域是機器學習中的一個新興且關鍵的挑戰。本綜述全面概述了多模態領域適應、多模態測試時適應和多模態領域泛化的最新進展,重點突出推動該領域發展的關鍵挑戰、方法論和應用。此外,我們強調了多模態基礎模型在提升領域適應與泛化任務中的關鍵作用,突出了它們在解決跨模態的現實世界挑戰中的潛力。通過回顧現有方法、數據集和應用,我們識別出未來研究的幾個關鍵方向,包括開發更好的基準和數據集、處理動態環境中的標簽偏移問題,以及進一步探索理論分析。隨著該領域的不斷發展,這些見解為推動多模態模型在現實場景中的魯棒性和效率提供了寶貴的基礎。
摘要—譜聚類是一種強大的高維數據聚類技術,利用基于圖的表示來檢測復雜的非線性結構和非凸聚類。構建相似度圖對于確保準確有效的聚類至關重要,因此圖結構學習(GSL)在應對日益增長的可擴展解決方案需求中,成為提升譜聚類性能的核心。盡管在GSL方面取得了一定的進展,但目前缺乏專門針對其在譜聚類中的作用的全面調查。為填補這一空白,本調查提供了關于譜聚類方法的全面綜述,重點討論了GSL的關鍵作用。我們探討了多種圖構建技術,包括成對、錨點以及基于超圖的方法,涵蓋固定和自適應設置。此外,我們將譜聚類方法分類為單視角和多視角框架,研究它們在單步和兩步聚類過程中的應用。我們還討論了多視角信息融合技術及其對聚類數據的影響。通過解決當前的挑戰并提出未來的研究方向,本綜述為推動譜聚類方法的發展提供了有價值的見解,并強調了GSL在處理大規模高維數據聚類任務中的關鍵作用。關鍵詞—譜聚類,圖結構學習,譜嵌入,多視角聚類
I. 引言
聚類(Clustering)是無監督學習中的一種基礎技術,旨在將數據點劃分為不同的組或簇,使得簇內的點彼此相似,而與其他簇中的點差異較大【1】–【3】。與監督學習不同,聚類在沒有預定義標簽或類別的情況下運行,而是通過識別數據中的內在模式和結構來實現目標。這使得聚類在探索性數據分析中尤為重要,在此過程中,目標是揭示隱藏的模式,而不依賴于數據結構的先驗假設【4】。聚類被廣泛應用于各個領域,包括市場營銷【5】、社交網絡分析【6】、圖像分割【7】、生物信息學【8】、異常檢測【9】和文檔分類【10】。它簡化了復雜的數據,增強了理解,且常常作為其他機器學習任務(如分類)的預處理步驟。
聚類方法可以大致分為傳統方法和基于降維的聚類方法,如圖1所示。傳統方法包括基于劃分的方法【11】、層次聚類方法【12】、基于密度的方法【13】和概率算法【14】,每種方法都采用不同的策略來對數據進行分組。基于劃分的方法(如K-means)將數據劃分為固定數量的簇,每個簇由一個質心表示【11】。層次方法,如凝聚型和分裂型聚類,通過合并較小的簇(凝聚型)或拆分較大的簇(分裂型)來構建聚類層次【15】【16】。基于密度的方法,如DBSCAN,通過基于高密度區域對數據點進行分組,能夠識別形狀各異的簇【17】。概率方法,如高斯混合模型(GMM),使用概率模型來表示數據分布和聚類【14】。
盡管傳統方法對于低維且結構良好的數據集有效,但當應用于高維或復雜數據時,往往面臨局限性。在高維空間中,點與點之間的距離度量變得困難,通常會導致聚類性能不佳。此外,傳統方法常常無法捕捉非凸形狀和復雜的數據結構。為了應對這些局限性,基于降維的聚類方法應運而生,通過減少特征或維度的數量,使得在較低維度空間中進行聚類,同時保留必要的結構信息。基于降維的聚類方法包括非負矩陣分解(NMF)【18】、譜聚類【19】【20】、核聚類【21】和深度聚類【22】。NMF是一種有效的降維技術,用于將數據矩陣分解為兩個低維的非負矩陣【18】。然而,當處理更加復雜或非線性的數據結構時,可能面臨一定的挑戰。核聚類(包括核K-means和核主成分分析(PCA)等方法)通過應用核函數來處理數據中的非線性關系【21】。譜聚類利用圖論,將數據點表示為圖中的節點,節點之間的相似度則通過邊來表示,并采用如Ratio-cut【23】和Normalized-cut【24】等方法。深度聚類將深度學習與聚類結合,通過神經網絡學習低維表示【22】。盡管深度聚類對于大規模、高維數據非常強大,但它需要大量的計算資源,并且需要細致的超參數調優。在降維技術中,譜聚類因其能夠通過圖結構方法識別非凸簇并捕捉非線性結構,而在處理復雜數據時表現尤為突出。譜聚類通過將數據點表示為圖中的節點,并使用基于圖的嵌入方法,根據數據點之間的連通性和關系來劃分數據。這種靈活性使得譜聚類能夠應用于各種領域中的問題,特別是在結合有效的圖構建技術時。譜聚類尤其適用于高維數據,在這種情況下,譜嵌入通過降低維度同時保留必要的結構信息,從而緩解了“維度災難”問題,并使得非線性模式的聚類變得可靠。對于大規模數據集,基于錨點圖的譜聚類通過使用一部分代表性點(或稱為錨點)來高效近似數據點之間的關系,從而提供了一種可擴展的解決方案,既節省了計算資源,又保證了聚類質量。因此,譜聚類具有很強的靈活性和可擴展性,能夠適應高維和大規模數據的應用,是進行復雜聚類任務的強大工具【21】【25】。譜聚類成功的關鍵因素之一是相似度圖的構建,圖結構是整個過程的基礎。這個圖表示了數據點之間的關系,節點對應數據點,邊表示它們之間的成對相似度。圖的質量顯著影響譜嵌入和聚類結果,因為它直接決定了數據底層結構的捕捉精度【25】。在譜聚類中,常用的圖類型包括成對圖【26】、錨點圖【27】【28】和超圖【29】【30】。不同類型的圖在數據的性質不同的情況下提供了各自的優勢。這些圖可以是固定的,即結構在整個聚類過程中保持不變,也可以是自適應的,即在聚類過程中動態學習并更新圖的結構。盡管在譜聚類,尤其是在圖像分割【31】、文本分類【32】和工業設計【33】等領域取得了進展,但仍缺乏一篇全面的綜述,專門探討圖結構學習(GSL)在譜聚類中的作用。為填補這一空白,本調查提供了關于譜聚類的廣泛綜述,特別強調了圖結構在提升聚類準確性方面的關鍵作用。雖然先前的綜述【34】提供了關于譜聚類的概述,重點討論了圖切割、拉普拉斯矩陣和聚類過程,但我們的綜述深入探討了更為具體且至關重要的GSL方面。先前的綜述側重于譜聚類的數學基礎和應用,但沒有廣泛探討圖的構建方式及其對聚類性能的影響。相較之下,我們的綜述突出了圖構建技術的作用,包括成對、錨點和超圖方法,并探討了固定和自適應形式下的應用。此外,我們將譜聚類方法分類為單視角和多視角方法,分析它們在單步和兩步框架中的應用。這些框架的區別在于聚類是否作為獨立步驟,在譜嵌入之后進行,還是與譜嵌入一起聯合優化。我們還對多視角譜聚類中的信息融合技術進行了更深入的探討,這一領域在先前的綜述中沒有涉及,提供了關于如何通過整合來自多個來源的數據來增強聚類性能的新見解。這對于處理復雜、異構和高維數據尤為重要,是推動多視角譜聚類發展的重要貢獻。
本綜述的貢獻如下:
摘要—終身學習,也稱為持續學習或增量學習,是推進人工通用智能(AGI)的關鍵組成部分,通過使系統在動態環境中持續適應。盡管大規模語言模型(LLM)在自然語言處理領域展現了出色的能力,但現有的LLM智能體通常是為靜態系統設計的,缺乏根據新挑戰隨時間適應的能力。本調查是首個系統總結將終身學習納入基于LLM的智能體的潛在技術的文獻。我們將這些智能體的核心組件分為三個模塊:感知模塊,用于多模態輸入的集成;記憶模塊,用于存儲和檢索不斷發展的知識;以及行動模塊,用于與動態環境的實際互動。我們強調這三個支柱如何共同實現持續適應,緩解災難性遺忘,并提高長期性能。本調查為從事基于LLM智能體的終身學習能力開發的研究人員和從業人員提供了一條發展路線圖,提供了關于新興趨勢、評估指標和應用場景的見解。相關文獻和資源可通過以下鏈接獲取:
//github.com/qianlima-lab/awesome-lifelong-llm-agent.
關鍵詞—終身學習,持續學習,增量學習,大規模語言模型,智能體,人工通用智能(AGI)
1 引言
“智慧是適應變化的能力。” ——斯蒂芬·霍金
終身學習[1],[2],也稱為持續學習或增量學習[3],[4],已成為智能系統發展的關鍵焦點。如圖1所示,終身學習近年來吸引了越來越多的研究關注,它在使這些系統能夠持續適應并不斷改進方面起著至關重要的作用。正如Legg等人[5]所指出的,人的智能本質上是快速適應廣泛環境的能力,這突顯了人工智能系統展現同樣適應性的需求。終身學習指的是系統在避免遺忘已學知識的同時,獲取、整合和保持新知識的能力。對于那些在動態復雜環境中運行的系統,尤其重要,因為這些環境中常常出現新的任務和挑戰。與傳統的機器學習模型不同,后者通常在固定數據集上進行訓練并優化以執行特定任務,終身學習系統則被設計為能夠不斷演變。它們隨著遇到新情境而積累新知識并持續完善其能力。 盡管終身學習具有潛力,但目前人工智能的進展與終身學習的實際應用之間仍存在顯著的差距。雖然人類能夠自然地整合新知識并保留舊知識,但當前的人工智能系統在終身學習方面面臨兩大挑戰:災難性遺忘[6]和可塑性喪失[7],[8]。這些挑戰形成了穩定性與可塑性困境[9]。一方面,災難性遺忘指的是當系統學習新任務時,會忘記之前學到的信息,特別是在環境發生變化時尤為突出。另一方面,可塑性喪失則指系統無法適應新任務或新環境。這兩者代表了學習譜系的兩個對立端:靜態系統避免遺忘,但缺乏適應能力;而注重適應的系統則面臨遺忘過去知識的風險。克服這一困境是推動人工智能發展的關鍵,也是實現人工通用智能(AGI)[5]的基礎性挑戰。
近年來,大規模語言模型(LLM)[11],[12]的進展顯著改變了自然語言處理領域。像GPT-4[12]這樣的模型通過學習海量的文本數據,能夠處理并生成類人文本。它們在文本生成、機器翻譯和問答等任務中表現出色,得益于其理解復雜語言模式的能力。然而,傳統的LLM[11],[12]在訓練完成后是靜態的,這意味著它們無法在部署后適應新任務或環境。它們的知識是固定的,且無法在不重新訓練的情況下整合新信息,這限制了它們在動態現實場景中的應用。與此相比,LLM智能體代表了更高級的人工智能形式。不同于標準的LLM,這些智能體[13],[14]是能夠與環境互動的自治實體。LLM智能體能夠感知多模態數據(例如文本、圖像、傳感數據),將這些信息存儲在記憶中,并采取行動影響或響應其周圍環境[15]–[17]。它們被設計為不斷適應新情境,隨著與環境的互動和經驗的積累,智能體的決策能力得以不斷提高。圖2和圖3提供了相關示意圖。
將終身學習融入LLM智能體的動機源于開發能夠不僅適應新任務,還能在廣泛的動態環境中保留并應用先前知識的智能系統的需求,這與Legg等人[5]將智能定義為快速適應廣泛環境的觀點相契合。目前,現有的LLM智能體通常被開發為靜態系統,限制了它們在面對新挑戰時的演變能力。此外,大多數關于LLM的終身學習研究[1],[4]集中于處理不斷變化的數據分布,而非與環境進行互動。例如,通過持續微調LLM以適應特定領域的指令[1]。然而,這些方法仍將LLM視為靜態黑箱系統,并未解決LLM在真實世界環境中進行互動學習的實際需求。圖2比較了傳統的終身學習范式與本調查中討論的、LLM智能體與動態環境互動的新范式。 在現實世界的應用中,LLM智能體需要適應多樣的環境,如游戲、網頁瀏覽、購物、家庭任務和操作系統,而無需為每個新情境設計單獨的智能體。通過引入終身學習能力,這些智能體可以克服這一局限性。它們能夠持續學習并存儲來自多種模態(如視覺、文本、傳感數據)的知識,使其在環境變化時能夠進行實時適應和決策[18]–[21]。將終身學習融入LLM智能體,可以釋放它們在動態現實應用中的全部潛力[22],[23]。因此,這些智能體能夠不斷演變、獲得新知識,并保持關鍵信息,從而增強其適應性和多功能性。這個持續學習的過程對那些挑戰不斷出現的環境尤為重要,如自主機器人、互動助手和自適應決策支持系統[14]。圖4展示了一個終身學習的LLM智能體示意圖。
本調查提供了關于基于LLM的智能體終身學習系統的關鍵概念、技術和挑戰的全面概述。作為首個系統總結將終身學習納入LLM智能體的潛在技術的文獻,本調查將重點回答以下研究問題(RQ): RQ1:為終身學習設計的LLM智能體的核心概念、開發流程和基本架構是什么?(第3節) RQ2:LLM智能體如何持續感知和處理單模態和多模態數據,以適應新環境和任務?(第4、5節) RQ3:什么策略可以減輕災難性遺忘并保留已學知識?(第6、7、8、9節) RQ4:LLM智能體如何在動態環境中執行各種動作,如扎根、檢索和推理?(第10、11、12節) RQ5:評估終身學習在LLM智能體中表現的評估指標和基準是什么?(第13節) RQ6:終身學習LLM智能體的現實應用和使用案例是什么?它們如何從持續適應中受益?(第14節) RQ7:開發LLM智能體終身學習面臨的關鍵挑戰、局限性和未解問題是什么?(第15節) 通過回答這些研究問題,本調查作為理解LLM智能體中終身學習的設計、挑戰和應用的逐步指南。它回顧了最前沿的技術,并突出了新興趨勢和未來的研究方向。
據我們所知,這是首個系統回顧終身學習與LLM智能體交叉領域最新進展的調查。本調查的主要貢獻如下:
本調查的結構如下:第2節回顧了關于LLM智能體和終身學習的相關調查和文獻;第3節介紹了為終身學習設計的LLM智能體的基礎概念、開發流程和整體架構;第4和第5節從感知角度討論了終身學習LLM智能體的設計,分別聚焦于單模態和多模態方法;第6、7、8和9節從記憶角度探討了LLM智能體的設計,涉及工作記憶、情節記憶、語義記憶和參數記憶;第10、11和12節從行動角度探討了LLM智能體的設計,包括扎根動作、檢索動作和推理動作;第13節介紹了評估終身學習LLM智能體表現的評估指標和基準;第14節深入討論了終身學習LLM智能體的現實應用和使用案例;第15節提供了實踐洞察并概述了未來的研究方向;最后,第16節總結了本調查。
終身學習,也稱為持續學習或增量學習,基于這樣一個理念:智能系統應該像人類一樣,持續地獲取、完善和保留知識,貫穿整個生命周期。與傳統的機器學習方法不同,傳統方法假設數據集是固定的、靜態的,而終身學習框架則面臨數據和任務隨時間演變的現實,模型必須在不遺忘已掌握技能的前提下進行適應。圖5展示了終身學習發展的示意圖。
終身學習的基于LLM的智能體架構旨在持續適應、整合并優化其在一系列任務和環境中的行為。在本小節中,我們識別了三個關鍵模塊——感知、記憶和行動——它們共同支持終身學習。這個劃分遵循了先前工作中提出的框架[14],但有一個顯著的不同:我們沒有保留“腦”模塊,而是采用了[14]中提出的“記憶”模塊,具有更清晰的功能性和改進的模塊化結構。 每個模塊相互作用,確保智能體能夠處理新信息、保留有價值的知識并選擇適應當前情境的合適行動。這三個模塊的設計理念來源于智能體的需求:(i) 感知和解讀不斷變化的數據,(ii) 存儲和管理來自過去經驗的知識,(iii) 執行適應變化環境的任務。 這三個模塊構成了一個動態反饋回路:感知模塊將新信息傳遞給記憶模塊,在記憶模塊中進行存儲和處理。記憶模塊隨后引導行動模塊,影響環境并為未來的感知提供信息。通過這一持續循環,智能體不斷完善其知識,提升適應性,最終提高其在復雜動態環境中的表現。
接下來,我們將詳細描述每個模塊,分析其設計如何貢獻于智能體的終身學習能力。圖6展示了整體架構的示意圖,圖7總結了后續章節的組織結構。
摘要—人工智能(AI)通過計算能力的提升和海量數據集的增長迅速發展。然而,這一進展也加劇了對AI模型“黑箱”性質的解釋挑戰。為了解決這些問題,可解釋人工智能(XAI)應運而生,重點關注透明性和可解釋性,以增強人類對AI決策過程的理解和信任。在多模態數據融合和復雜推理場景中,多模態可解釋人工智能(MXAI)的提出將多種模態整合用于預測和解釋任務。同時,大型語言模型(LLMs)的出現推動了自然語言處理領域的顯著突破,但它們的復雜性進一步加劇了MXAI問題。為了深入了解MXAI方法的發展,并為構建更加透明、公平和可信的AI系統提供重要指導,我們從歷史的角度回顧了MXAI方法,并將其劃分為四個發展階段:傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型。我們還回顧了MXAI研究中使用的評估指標和數據集,最后討論了未來的挑戰和發展方向。與此綜述相關的項目已創建在 //github.com/ShilinSun/mxai_review。
關鍵詞—大型語言模型(LLMs)、多模態可解釋人工智能(MXAI)、歷史視角、生成式。
人工智能(AI)的進展對計算機科學產生了重大影響,如Transformer [1]、BLIP-2 [2] 和 ChatGPT [3] 在自然語言處理(NLP)、計算機視覺和多模態任務中表現出色,通過集成多種數據類型。這些相關技術的發展推動了具體應用的進步。例如,在自動駕駛中,系統需要整合來自不同傳感器的數據,包括視覺、雷達和激光雷達(LiDAR),以確保在復雜道路環境中的安全運行 [4]。類似地,健康助手需要具備透明性和可信度,以便醫生和患者都能輕松理解和驗證 [5]。理解這些模型如何結合和解釋不同模態對于提升模型可信度和用戶信任至關重要。此外,模型規模的不斷增大帶來了計算成本、可解釋性和公平性等挑戰,推動了可解釋人工智能(XAI)的需求 [6]。隨著包括生成式大型語言模型(LLMs)在內的模型變得越來越復雜,數據模態也更加多樣化,單一模態的XAI方法已無法滿足用戶需求。因此,多模態可解釋人工智能(MXAI)通過在模型的預測或解釋任務中利用多模態數據來解決這些挑戰,如圖1所示。我們根據數據處理順序將MXAI分為三種類型:數據可解釋性(預模型)、模型可解釋性(模型內)和事后可解釋性(模型后)。在多模態預測任務中,模型處理多個數據模態,如文本、圖像和音頻;在多模態解釋任務中,利用多種模態來解釋結果,從而提供更全面的最終輸出解釋。
為了回顧MXAI的歷史并預測其發展,我們首先將不同階段進行分類,并從歷史角度回顧了各種模型(如圖2所示)。在傳統機器學習時代(2000-2009年),有限的結構化數據的可用性促進了像決策樹這樣的可解釋模型的出現。在深度學習時代(2010-2016年),隨著大型標注數據集(如ImageNet [7])的出現以及計算能力的提升,復雜模型和可解釋性研究嶄露頭角,包括神經網絡核的可視化 [8]。在判別式基礎模型時代(2017-2021年),Transformer模型的出現,利用大規模文本數據和自監督學習,徹底改變了自然語言處理(NLP)。這一轉變引發了對注意力機制的解釋研究 [1],[9]–[11]。在生成式大型語言模型時代(2022-2024年),大量多模態數據的集成推動了生成式大型語言模型(LLMs)的發展,如ChatGPT [3],以及多模態融合技術。這些進展提供了全面的解釋,增強了模型的透明性和可信度。這一演變導致了對MXAI的關注,它解釋了處理多樣數據類型的模型 [6]。
然而,最近的XAI綜述通常忽視了歷史發展,主要集中在單模態方法上。例如,盡管[6]將MXAI方法按模態數、解釋階段和方法類型進行了分類,但忽略了LLMs的可解釋性技術。雖然Ali等人 [12] 提出了一個全面的四軸分類法,但缺少關于多模態和LLMs的總結。然而,像[13]、[14]和[15]這樣的綜述僅關注LLMs的可解釋性。我們的研究解決了這些不足,通過提供MXAI的歷史視角,分類了MXAI方法的四個時代(傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型),并將每個時代分為三個類別(數據、模型和事后可解釋性)。本文的主要創新貢獻總結如下:
這一時代的重點是通過判別模型(2017-2021年)奠定的基礎來推進生成任務。與前輩不同,這些模型,如GPT-4 [240]、BLIP-2 [2] 及其繼任者,通過生成連貫且語境相關的文本來增強可解釋性,為輸出提供自然語言解釋。這一進展彌合了人類理解和機器決策之間的鴻溝,使得與模型的互動更加細致,并為模型行為提供了更多的洞察。我們在表V中總結了相關工作。
本文將多模態可解釋人工智能(MXAI)方法按歷史發展分為四個時代:傳統機器學習、深度學習、判別基礎模型和生成式大型語言模型。我們從數據、模型和后驗可解釋性三個方面分析了MXAI的演變,并回顧了相關的評估指標和數據集。展望未來,主要挑戰包括可解釋性技術的規模化、平衡模型的準確性與可解釋性以及解決倫理問題。MXAI的持續進展對于確保AI系統的透明性、公正性和可信性至關重要。
摘要
自2017年引入以來,物理信息神經網絡(PINNs)已成為科學機器學習中的關鍵工具,使得利用稀疏測量高效求解常微分方程和偏微分方程成為可能。近年來,PINNs在訓練和優化方面取得了顯著進展,包括網絡架構、自適應細化、域分解,以及自適應權重和激活函數的使用。一個顯著的近期發展是物理信息Kolmogorov–Arnold網絡(PIKANs),該網絡利用了Kolmogorov在1957年提出的表示模型,為傳統PINNs提供了一種有前景的替代方案。在本綜述中,我們全面介紹了PINNs的最新進展,重點關注網絡設計、特征擴展、優化技術、不確定性量化以及理論見解的改進。我們還概述了其在多個領域中的關鍵應用,包括生物醫學、流體和固體力學、地球物理學、動力系統、熱傳導、化學工程等。最后,我們回顧了由學術界和工業界開發的支持PINN研究和應用的計算框架和軟件工具。
關鍵詞:物理信息神經網絡;Kolmogorov-Arnold網絡;優化算法;可分解的PINNs;自適應權重;不確定性量化
1. 引言
有限元方法(FEM)在過去幾十年里一直是計算科學與工程(CSE)的基石,但在20世紀60年代初期首次發表相關研究時曾受到質疑。盡管FEM在學術研究和工業應用中取得了成功,但除非使用復雜的數據同化方法,否則FEM無法輕易整合測量數據,使得大規模計算成本高昂。FEM和其他傳統數值方法在解決已知邊界和初始條件以及所有材料參數的良定問題上效果顯著。然而,在實際應用中,這些條件往往存在缺漏,因此需要做出任意假設。例如,在功率電子冷卻應用中,需要假設墻壁的熱邊界條件。這可能導致錯誤的結果,因為在此類問題中,關注點通常是位于表面的最高溫度或最高熱流,而錯誤的假設恰恰應用于此類區域。相反,可用的可能只是一些稀疏的測溫數據,無論是在表面上還是在感興趣區域內部。不幸的是,當前的數值方法(如FEM)無法有效利用這些測量數據,從而導致系統的關鍵實驗信息丟失。另一方面,神經網絡基于任何精度或模式的數據進行訓練,因此數據同化在此設置中是一個自然過程。
物理信息神經網絡(PINNs)正是為了滿足這一需求而開發的,考慮了模擬場景中的部分已知物理定律,但并非完整知識,且對某些狀態變量存在稀疏測量,而非全部。因此,PINNs為將物理定律編碼到神經網絡中提供了一個框架【1】,并彌合了傳統物理模型和現代純數據驅動方法之間的脫節。具體而言,PINNs通過在目標函數中加入一個額外的“殘差”損失項,將底層偏微分方程(PDE)作為軟約束納入其中。PINNs在所有科學領域中都能夠有效解決正向和反向問題。它們可以結合稀疏和噪聲數據,因此在獲取準確測量結果困難或昂貴的情況下尤為有效。PINNs的一項關鍵創新是基于計算圖的自動微分的使用,使其能夠精確處理守恒定律中的微分算子,并且消除了耗時且限制解精度的網格生成需求。
自2017年在arXiv上出現的兩篇原創論文【2, 3】以及2019年隨后的聯合出版論文【1】以來,CSE社區充滿了興奮,來自全球各科學領域的研究團隊提出了許多關于該方法不同方面的重要改進。在撰寫本文時,論文【1】的引用量已超過11000次,許多研究探討了PINNs在不同科學領域的適用性,同時提出了算法改進以應對原始設計的局限性。在本綜述中,我們匯編了大多數主要的算法開發成果,并列出PINNs在不同學科領域的廣泛應用。附錄中展示了一些關于PINNs的重要文獻時間線,從PINNs【2】到PIKANs【4】。
現有的綜述,如【5-8】,總結了PINNs的關鍵方面,而本文的不同之處在于我們對最新的算法進展進行了更廣泛的概述,并涵蓋了PINNs在更多科學學科中的應用。綜述【5】和【6】主要關注PINNs在各領域的方法和應用,較少強調最近的算法改進。綜述【8】簡要概述了PINNs及其擴展,并以數據驅動的方程發現為例,但并未深入探討PINNs的應用。綜述【7】則包括了算法發展的討論,但其應用范圍局限于熱管理和計算流體力學。此外,一些綜述聚焦于特定應用領域。例如,【9】和【10】回顧了PINNs在流體動力學中的應用,而【11】則專注于電力系統的應用。相較之下,【12】進行了120篇研究論文的文獻計量分析,突出了PINNs研究中的主要出版趨勢、高被引作者和主要國家。
本文的結構如圖1所示。在第2節中,我們概述了物理信息機器學習的一般框架。第3節對旨在改進PINNs的主要技術進行了全面總結。第4節概述了PINNs的多樣化應用。第5節重點介紹了PINNs中的不確定性量化方法。第6節總結了PINNs背后的理論發展。第7節回顧了各種計算框架和軟件。最后,在第8節中,我們提供了討論和未來展望。
2. 物理信息機器學習(PIML)
物理信息機器學習(PIML)已成為求解正問題和逆問題中偏微分方程(PDEs)的傳統數值方法的強大替代方案。PIML最早由Raissi、Perdikaris和Karniadakis在一系列論文中提出【13】,基于高斯過程回歸(GPR);另見同一作者的專利【14】。然而,本文將回顧PIML利用神經網絡和自動微分的后續發展,起始于2017年在arXiv上的兩篇論文【2, 3】,隨后于2019年合并為一篇論文【1】。值得注意的是,早期論文【15, 16】嘗試求解PDE(正問題),但未進行數據融合或自動微分。本文介紹的PIML采用表示模型,如多層感知器(MLP)或Kolmogorov-Arnold網絡(KAN)【4】,以最小化包含多項的損失函數來逼近常微分方程(ODEs)或偏微分方程(PDEs)的解,并符合給定的數據和約束條件。特別地,該損失函數旨在擬合可觀測數據或其他物理或數學約束,同時滿足底層物理定律,例如守恒定律【1, 17】。
與傳統數值方法不同,大多數PIML模型不依賴于預定義的網格或網格劃分,從而能夠高效處理復雜幾何和高維問題。通過自動微分,PIML模型無需離散化即可準確計算導數,將物理定律與數據無縫整合。這種靈活性使PIML模型能夠利用部分信息來逼近解,非常適合揭示隱藏參數【1】,以及從現實世界數據中重建【18】或推斷隱藏場【19】。此外,PIML模型在處理高維PDE【20】、耦合系統【21, 22】、隨機微分方程【23】和分數階PDE【24】方面表現出色,同時通過在現代硬件(如GPU)上的并行化實現了可擴展性【25】。這使得PIML模型能夠以較低的計算開銷高效處理多物理問題和大規模模擬,相比傳統方法更為高效。PIML對特定的控制方程無偏見,因此在此我們考慮以下非線性ODE/PDE:
其中,u是表示模型,θ為其可學習參數。由于u是連續且可微的,因此可以通過自動微分計算源項和邊界項f和b,表示為Fτ [u]和Bτ [u]【1】。PIML訓練的目標是找到最優的可學習參數,以最小化逼近解與真解的已知組成部分之間的累積誤差,如控制方程、邊界條件或數據殘差。該框架還可以通過為每個逼近解疊加約束,輕松擴展到ODE/PDE系統【19】。
一般來說,當方程參數τ已知且邊界條件已規定時,稱為正問題,此時不需要域內的觀測數據【1, 27】。相反,當ODE/PDE系統中的τ、邊界條件或隱藏場等部分信息未知時,稱為逆問題,目標是從現有數據或觀測中同時推斷未知信息和解【19】。整個PIML框架的示意圖如圖2所示。
PIML的算法發展
根據第2節概述的PIML框架,可以確定其三個關鍵組成部分:(1) 一個用于逼近解的表示模型,(2) 控制方程(例如ODE或PDE),以及(3) 一個優化過程,通過最小化多目標損失函數以找到最優的可學習參數(見圖2)。當前研究通過針對這三方面的多種方法顯著提升了PIML的基礎性能,即對表示模型的改進、控制方程處理的進步,以及優化過程的改善。
PIML的應用
大量研究表明,PIML在廣泛的領域中取得了成功。本文對PIML在生物醫學、力學、地球物理學、動力系統、控制與自主性、傳熱學、物理學、化學工程及其他相關領域的應用進行了精選而全面的回顧。
摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。
情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。
多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。
多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。
多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。
本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。
綜述的結構
第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。
多模態情感計算中的多模態學習
多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。
隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。
多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。
跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。
在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。
模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。
多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。
多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。
在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。
第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。
語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。
多模態情感計算中的模型
在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。
多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。
在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。
在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。
Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。
對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。
近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。
在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。
在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。
在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。
一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。
在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。
在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。
在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。
在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。
在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。
上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。
在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。
在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。
在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。
MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論
多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。
摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習
I. 引言**
從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。
近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。
A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。
B. 相關綜述
LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。