亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多模態學習是人工智能領域中一個快速發展的方向,旨在通過整合和分析多種類型的數據(包括文本、圖像、音頻和視頻),構建更具多樣性和魯棒性的系統。受到人類通過多感官獲取信息能力的啟發,這種方法使得文本到視頻轉換、視覺問答和圖像描述等應用成為可能。本文綜述了支持多模態語言模型(MLLM)的數據集的最新發展。大規模多模態數據集至關重要,因為它們為這些模型提供了全面的測試和訓練。本文重點討論了多個數據集的貢獻,包括用于訓練、領域特定任務和現實世界應用的數據集。還強調了基準數據集在評估模型在不同場景中的表現、可擴展性和適用性方面的重要性。由于多模態學習始終在不斷發展,克服這些挑戰將有助于推動人工智能研究和應用達到新的高度。

關鍵詞:多模態 · LMM · LLM · 視頻 · 音頻 · VLM

1 多模態學習與大語言模型概述

多模態學習是人工智能領域一個不斷發展的方向,旨在整合和處理多種數據類型,如文本、圖像和音頻,目標是模仿人類認知,后者自然地將感官輸入結合起來。這種方法相比單模態方法,可以構建出更具魯棒性和智能性的系統。 大語言模型(LLMs),如GPT-3、BERT和T5,在文本相關任務中表現出色,如問答和摘要[36]。然而,它們在處理非文本數據時面臨挑戰,這也推動了多模態大語言模型(MLLMs)的研究,后者將LLM的語言能力與計算機視覺的優勢結合起來。MLLMs在圖像描述和視覺問答等任務中取得了最先進的成果[18]。然而,仍然存在一些挑戰,包括高質量數據集的匱乏、高計算成本以及偏見和隱私等倫理問題[28]。盡管如此,MLLMs在醫療、教育和研究等領域具有變革潛力,成為推動人工智能發展的關鍵焦點。

1.1 多模態學習:基礎與概念

1 多模態學習與大語言模型概述

多模態學習是人工智能領域一個不斷發展的方向,旨在構建能夠處理和結合多種數據模態(如文本、圖像、音頻和視頻)的模型。這是因為現實世界的經驗本質上是多模態的,不同模態所攜帶的信息提供了一種更加全面地理解復雜環境的方式[28]。 多模態學習結合了多種數據類型:文本、圖像、音頻和視頻。這些數據創建了每種模態獨特的表示。鑒于各種數據類型的多樣性,傳統上使用不同的方法來捕捉它們的特征。例如,文本通常通過詞嵌入來表示,重點強調意義和結構[3],而圖像數據則通常依賴于卷積神經網絡(CNN)來提取視覺場景中的細節。同樣,音頻數據通常被轉化為聲譜圖或梅爾頻率倒譜系數(MFCC)以捕捉時間和頻率上的模式[41]。一個典型的大型多模態模型(MLLM)處理管道如圖1所示,首先通過模態編碼器處理輸入,統一其表示。然后通過輸入投影器進行細化,并傳入大語言模型(LLM)進行更深入的對齊和理解。最后,輸出投影器和模態生成器將模型的結果轉化為有意義的輸出,支持諸如生成多模態內容或在不同數據類型之間進行轉換的任務。

模態表示的融合是多模態學習中的關鍵焦點。常用的方法包括早期融合,在處理的初期階段通過連接或組合表示[38],以及晚期融合,其中模態特定的表示在過程的后期結合,通常通過注意力機制或門控機制進行[38]。

除了表示和融合之外,多模態學習還面臨更多挑戰,如對齊、翻譯和共學習。對齊使得跨模態的時間或語義同步成為可能,這是視頻理解或視聽語音識別等任務的基本任務[5]。翻譯幫助實現模態轉換,例如從文本生成圖像[57]。共學習則允許在某些數據模態不可用或損壞的情況下學習,通過從可用模態轉移知識[41]。 最近,LLM的進展,如BERT、GPT和DALL-E,顯著加速了多模態學習的進展。這些模型在理解和生成文本方面表現出色,它們擴展到多種數據類型,使得回答圖像相關問題、創建圖像描述甚至基于文本生成圖像成為可能[32]。

簡而言之,多模態學習在發展能夠有效處理和整合來自不同來源的信息的智能系統中扮演著至關重要的角色。多模態的互補優勢確保了這一領域在自然語言處理(NLP)、計算機視覺和機器人等領域不斷創造創新,應用和研究方向也在不斷擴展。

1.2 多模態大語言模型:機遇與挑戰

最近在LLM方面的進展為多模態大語言模型(MLLMs)鋪平了道路,這些模型結合了跨模態的數據,如文本、圖像、音頻和視頻[59]。MLLMs通過結合不同模態的數據,提升理解和表示能力,具有改變多個領域的潛力。 MLLMs將LLM的能力擴展到傳統文本模型之外的任務。這類模型在圖像描述、視覺問答和文本到視頻生成等任務中表現出色——這些任務都需要深入理解語言與視覺的關系[63]。多模態數據的整合為科學研究和領域特定應用提供了更大的空間,通過推動邊界的擴展,開辟了更多可能性。一些關鍵領域,如醫學影像、自動駕駛和地理空間智能,結合了文本、視覺和傳感器數據,從而實現了更現實的決策過程。 盡管MLLMs具有巨大的潛力,但它們的開發仍面臨重要挑戰。其中主要問題之一是缺乏大規模高質量的多模態數據集[49]。覆蓋現實復雜性的無偏數據是訓練強大MLLMs的必要條件[28]。 另一個挑戰是集成這些不同模態所帶來的計算需求和復雜性。訓練和部署MLLMs需要大量資源,因此需要開發新的模型架構、高效的訓練策略和硬件能力[28]。 最后,確保MLLMs的可靠性、可解釋性和倫理對齊性至關重要。隨著這些模型的日益復雜化,越來越需要提供其決策過程的見解,以減少偏見并使其與人類價值觀更緊密地對齊。開發強大的評估框架和可解釋性工具是建立對MLLMs信任的必要條件[45]。 盡管如此,MLLMs的前景仍然廣闊。通過融合多模態數據,這些模型為更好地理解復雜場景開辟了道路,從而誕生了新的應用并推動了相關科學研究。此外,未來的跨學科合作和對倫理問題的關注將是推動MLLMs轉型的關鍵因素[28]。 在接下來的章節中,我們將對MLLMs所需的關鍵數據集進行分類,分為三大類:訓練特定數據集、任務特定數據集和領域特定數據集,如圖2所示。 **

付費5元查看完整內容

相關內容

推薦系統是許多在線平臺的核心組成部分,但傳統方法在理解復雜用戶偏好和提供可解釋推薦方面仍然面臨困難。大型語言模型(LLM)驅動的智能體的出現為此提供了一種有前景的方法,通過實現自然語言交互和可解釋推理,可能會徹底改變推薦系統領域的研究。本文綜述系統地回顧了LLM驅動的智能體在推薦系統中日益增長的應用。我們識別并分析了當前研究中的三種關鍵范式:(1)面向推薦的方式,利用智能體增強基礎推薦機制;(2)面向交互的方式,通過自然對話和可解釋建議促進動態用戶參與;(3)面向仿真的方式,采用多智能體框架來模擬復雜的用戶-物品交互和系統動態。除了范式分類之外,我們還分析了LLM驅動的推薦智能體的架構基礎,研究其核心組成部分:個人資料構建、記憶管理、戰略規劃和行動執行。我們的研究還擴展到對該領域基準數據集和評估框架的全面分析。這一系統性研究不僅闡明了LLM驅動的推薦系統智能體的當前狀態,還為該變革性領域中的關鍵挑戰和有前景的研究方向提供了指引。

1 引言

在信息爆炸的時代,推薦系統[Wu et al., 2022] 已成為數字平臺中不可或缺的組成部分,幫助用戶在電子商務、社交媒體和娛樂領域中瀏覽海量內容。盡管傳統的推薦方法[He et al., 2017]通過分析用戶偏好和歷史行為,成功地提供了個性化建議,但在實際應用中仍面臨諸多挑戰,如對復雜用戶意圖的理解不足、交互能力有限以及無法提供可解釋的推薦[Zhu et al., 2024b]。 近期,大型語言模型(LLM)的進展[Achiam et al., 2023]激發了越來越多的研究興趣,旨在利用LLM驅動的智能體[Wang et al., 2024a]來解決推薦系統中的上述挑戰。將LLM驅動的智能體融入推薦系統,相比傳統方法,具有若干顯著優勢[Zhu et al., 2024b]。首先,LLM智能體能夠理解復雜的用戶偏好,并通過其精密的推理能力生成上下文推薦,從而使得決策過程更加細致,超越簡單的特征匹配。其次,它們的自然語言交互能力促進了多輪對話,能夠主動探索用戶興趣并提供可解釋的解釋,增強了推薦準確性和用戶體驗。第三,這些智能體通過生成更加真實的用戶畫像,結合情感狀態和時間動態,徹底改變了用戶行為模擬,從而提高了系統評估的有效性。此外,LLM的預訓練知識和強大的泛化能力促進了跨領域的知識轉移,能夠以最少的額外訓練應對冷啟動等長期存在的挑戰[Shu et al., 2024]。 在本綜述中,我們全面回顧了LLM驅動的智能體在推薦系統中的應用。首先,我們介紹了傳統推薦系統的背景,并討論了它們在理解復雜用戶意圖、交互能力和可解釋性方面的局限性。接著,我們系統地審視了LLM驅動的智能體如何通過三種主要范式解決這些挑戰:面向推薦的(如[Wang et al., 2024b; Wang et al., 2024c])、面向交互的(如[Zeng et al., 2024; Friedman et al., 2023])和面向仿真的(如[Yoon et al., 2024; Guo et al., 2024])方法。然后,我們提出了一種統一的智能體架構,包含四個核心模塊(個人資料[ Cai et al., 2024; Zhang et al., 2024c]、記憶[ Shi et al., 2024; Fang et al., 2024]、規劃[ Wang et al., 2023b; Shi et al., 2024]、行動[ Zhu et al., 2024a; Zhao et al., 2024]),并分析了現有方法如何實現這些模塊。進一步地,我們編制了現有基準數據集(包括Amazon系列、MovieLens、Steam等)和評估方法的全面比較,涵蓋了傳統推薦指標和新興的評估方法。最后,我們探討了該領域幾個有前景的未來研究方向。

  • 我們提出了一個系統的LLM驅動推薦智能體分類,識別出三種基本范式:面向推薦的、面向交互的和面向仿真的方法。這個分類框架為理解當前的研究提供了結構化的視角。
  • 我們使用統一的架構框架分析LLM驅動的推薦智能體,將其分解為四個核心模塊:個人資料構建、記憶管理、戰略規劃和行動執行。通過這一框架,我們系統地審視了現有方法如何集成和實現這些組件。
  • 我們提供了現有方法、基準數據集和評估方法的全面比較分析,涵蓋了傳統推薦指標和專為LLM驅動推薦智能體設計的新興評估方法。

付費5元查看完整內容

在現實世界中,信息跨越不同模態且種類繁多,理解并利用多種數據類型來改進檢索系統是研究的關鍵重點之一。多模態復合檢索集成了文本、圖像、音頻等多種模態,以提供更精準、個性化和上下文相關的結果。為了促進對這一有前景方向的深入理解,本綜述深入探討了多模態復合編輯與檢索,涵蓋了圖文復合編輯、圖文復合檢索及其他多模態復合檢索。本文系統整理了應用場景、方法、基準、實驗以及未來方向。在大模型時代,多模態學習是一個熱門話題,同時也見證了《PAMI》期刊上關于多模態學習和視覺-語言模型與Transformers的若干綜述的發表。據我們所知,本綜述是首個關于多模態復合檢索的全面文獻回顧,是對現有多模態融合綜述的及時補充。為了幫助讀者快速跟蹤這一領域的進展,我們為本綜述建立了項目頁面,訪問地址為://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrieval。 關鍵詞——多模態復合檢索,多模態融合,圖像檢索,圖像編輯。

引言

在當今的數字化環境中,信息通過文本、圖像、音頻和雷達等多種渠道傳遞,導致數據量和復雜性的顯著增加。隨著數據呈指數級擴展,處理和整合多樣化信息的挑戰變得至關重要。高效檢索個性化且相關的信息變得越來越具有挑戰性。

傳統的單模態檢索方法[37], [49], [55], [83], [86], [87], [226]–[228], [237], [239]依賴于單一模態,如圖像或文本,作為查詢。然而,這些方法往往難以充分捕捉真實世界信息檢索場景的復雜性和細微差別。這一局限性促使多模態復合圖像檢索[11], [21], [28], [88], [106], [172], [190]的出現,這是一個超越單一模態邊界的有前途的框架。通過利用各種數據類型的互補優勢,多模態復合檢索系統增強了對用戶查詢和上下文的理解,從而提高了檢索性能和用戶滿意度。 如圖1所示,多模態復合檢索涉及將文本、圖像、音頻等多樣化的數據形式進行復雜的融合與分析,以實現信息檢索。這種方法在多個現實場景中具有重要價值,包括多媒體內容[80]、社交媒體平臺和電子商務[59], [70], [150], [194], [203]。此外,它的應用還涉及一些專門領域,如醫學圖像檢索[19], [65], [144]、文檔檢索[72], [80]和新聞檢索[178]。通過采用多樣的多模態查詢,這些技術能夠提供靈活且準確的結果,從而提升用戶體驗,幫助做出更明智的決策。因此,多模態復合檢索在信息科學、人工智能以及跨學科應用中具有重要的潛力和研究價值。 大多數現有的多模態復合檢索方法[4], [11], [27], [28], [77], [85], [88], [106], [115], [132], [190]主要集中在集成圖像和文本以實現預期結果。早期方法采用卷積神經網絡(CNN)進行圖像編碼,并使用長短期記憶(LSTM)網絡[108]進行文本編碼。隨著強大Transformer模型的興起,如Vision Transformer (ViT) [186]、Swin Transformer (Swin) [128]和BERT [102],提出了眾多基于Transformer的多模態復合檢索方法[184], [208],以提高圖像檢索性能。此外,視覺-語言預訓練(VLP)[94], [120], [121], [158]通過彌合文本描述和視覺內容之間的語義差距,改變了與圖像理解和檢索相關的任務。多種基于VLP的多模態復合圖像檢索方法[11], [85], [132]顯示出有前景的結果。此外,圖文復合編輯方法[31], [39], [46], [71], [118], [119], [126], [152], [232]使用戶能夠通過自然語言指令直接修改圖像或生成新內容,從而實現與用戶意圖高度一致的精確檢索。對音頻[2]和動作[215]等其他模態的探索也正在加速進行。

動機

盡管在多模態復合檢索模型上已有廣泛研究,但新的挑戰不斷涌現,仍有待解決。在這一快速發展的領域中,迫切需要進行全面、系統的分析。本綜述旨在通過系統地組織應用場景、方法、基準、實驗以及未來方向,促進對多模態復合編輯與檢索的深入理解。我們回顧并分類了130多種先進的多模態復合檢索方法,為進一步研究奠定了堅實的基礎。

文獻收集策略

為了確保對多模態復合檢索的全面概述,我們采用了一種系統的搜索策略,涵蓋了廣泛的相關文獻。我們的重點包括多模態檢索系統中的創新方法、應用和進展。我們選擇了諸如“多模態復合檢索”、“多模態學習”、“圖像檢索”、“圖像編輯”和“特征融合”等關鍵詞,涵蓋了這一領域的各個方面。這些術語反映了多模態研究中常見的基礎概念、具體技術和新興趨勢。我們在知名學術數據庫中進行了搜索,包括Google Scholar、DBLP、ArXiv、ACM和IEEE Xplore。通過這些探索,我們收集了多種來源,包括期刊文章、會議論文和預印本。為了精煉我們的選擇,我們排除了主要專注于單模態方法或不相關模態的研究,并手動審核了剩余文獻的相關性和質量。最終選擇過程中,我們基于每篇論文的貢獻和影響進行了評估,以便為深入分析策劃關鍵研究。通過應用這些標準,我們力圖為多模態復合檢索的當前形勢和未來方向提供全面的視角。

分類

為了澄清與多模態復合編輯和檢索相關的討論,我們將其按應用場景分為三類,即1) 圖文復合編輯,2) 圖文復合檢索和3) 其他多模態復合檢索,如圖2所示。具體來說,圖文復合編輯涉及通過自然語言指令修改圖像或創建全新內容,用戶可以清晰直觀地傳達其意圖。圖文復合檢索則通過輸入文本和圖像信息來搜索個性化結果,從而通過文本描述定位相關圖像或根據圖像生成描述性文本,提升搜索體驗。其他多模態復合檢索任務則將音頻、動作等不同模態的組合作為輸入,提供更豐富和靈活的上下文感知檢索體驗。

貢獻

總而言之,我們的貢獻如下: * 據我們所知,本文是首個關于多模態復合檢索的全面綜述,旨在為這一快速發展的領域提供及時的概覽和寶貴的見解,為未來的研究提供參考。 * 我們系統地組織了研究成果、技術方法、基準和實驗,幫助理解這一主題,并通過多層次的分類為現有研究提供廣泛的覆蓋,滿足讀者的多樣化需求。 * 我們解決了多模態復合檢索中的挑戰和未解問題,識別了新興趨勢并提出了可行的未來研究方向,以推動該領域的創新。

論文組織

本文其余部分的結構如下。第二部分介紹了與多模態復合檢索相關的基礎概念和應用,并為討論的方法奠定了背景。第三部分深入探討了該領域使用的各種方法,并根據其基本原理進行分類,分析其優缺點。第四部分概述了用于評估這些方法的基準和實驗設置,并展示了最新研究的結果。第五部分討論了多模態復合檢索的現狀,指出了挑戰并提出了未來研究方向。最后,第六部分總結了關鍵發現并強調了這一領域對未來研究的重要性。

付費5元查看完整內容

在不斷發展的深度學習領域,數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型(LLMs)的出現為合成數據生成提供了一種以數據為中心的解決方案,緩解了現實世界數據的限制。然而,目前對這一領域的研究缺乏統一的框架,大多停留在表面。因此,本文基于合成數據生成的一般工作流程,整理了相關研究。通過這樣做,我們突出了現有研究中的空白,并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。

在深度學習領域不斷演變的背景下,數據數量和質量的問題一直是一個長期存在的困境。大語言模型(LLMs)的革命性出現引發了深度學習領域的顯著范式轉變(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。盡管有這些進展,大量高質量數據仍然是構建穩健自然語言處理(NLP)模型的基礎(Gandhi et al., 2024)。具體來說,這里的高質量數據通常指的是包含豐富監督信號(通常以標簽形式)并與人類意圖緊密對齊的多樣化數據。然而,由于高成本、數據稀缺、隱私問題等原因,依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的(Kurakin et al., 2023)。此外,多項研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人類生成的數據由于其固有的偏見和錯誤,可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題:是否有其他更有效和可擴展的數據收集方法可以克服當前的限制?

鑒于LLMs的最新進展,它們展示了生成與人類輸出相當的流暢文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說,合成數據旨在模仿真實世界數據的特征和模式(Liu et al., 2024)。一方面,LLMs通過廣泛的預訓練,積累了豐富的知識庫,并展現出卓越的語言理解能力(Kim et al., 2022; Ding et al., 2023a),這為生成真實的數據奠定了基礎。另一方面,LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性,從而能夠為特定應用創建定制的數據集,并設計更靈活的流程(Eldan and Li, 2023)。這兩個優勢使LLMs成為極具前景的合成數據生成器。

作為LLMs的一項關鍵應用,合成數據生成對于深度學習的發展具有重要意義。如圖1所示,LLMs驅動的合成數據生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整個模型訓練和評估過程實現自動化,最小化了人類參與的需求(Huang et al., 2023),從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外,LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的見解強調了數據質量對于有效模型學習的重要性,而LLMs賦予我們主動“設計”模型學習內容的能力,通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月,Hugging Face上已有超過300個被標記為“合成”的數據集,許多主流LLMs利用高質量的合成數據進行訓練,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。

盡管看似簡單,但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程,并涉及許多技巧(Gandhi et al., 2024),使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務(如預訓練(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微調(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、評估(Feng et al., 2023; Wei et al., 2024))和不同領域(如數學(Yu et al., 2023a; Luo et al., 2023a)、代碼(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))進行數據生成,但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題,并開發通用工作流程,本綜述調查了最近的研究,并根據生成、策展和評估三個密切相關的主題進行組織,如圖2所示。我們的主要目的是提供該領域的全面概述,確定關鍵關注領域,并突出需要解決的空白。我們希望為學術界和工業界帶來見解,并推動LLMs驅動的合成數據生成的進一步發展。

付費5元查看完整內容

人類通過多種感官,如視覺、嗅覺、聽覺和觸覺來感知世界。同樣,多模態大型語言模型(MLLMs)通過整合和處理包括文本、視覺、音頻、視頻和3D環境在內的多種模態數據,增強了傳統大型語言模型的能力。數據在這些模型的發展和優化中起到了關鍵作用。在這篇綜述中,我們從數據中心視角全面回顧了MLLMs的相關文獻。具體而言,我們探討了在MLLMs預訓練和適應階段準備多模態數據的方法。此外,我們還分析了數據集的評估方法,并回顧了評估MLLMs的基準測試。我們的綜述還概述了未來潛在的研究方向。本研究旨在為研究人員提供關于MLLMs數據驅動方面的詳細理解,促進該領域的進一步探索和創新。

近年來,我們見證了大型語言模型(LLMs)和多模態大型語言模型(MLLMs)的快速發展[280, 324]。諸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等MLLMs整合了多模態信息,展示了令人印象深刻的理解和生成能力。這些模型在傳統的多模態任務中取得了競爭性表現,如視覺識別[320]、視頻理解[258, 289]、語音識別[200]和3D理解[89, 100]。此外,它們卓越的語言理解能力使其在文本豐富的任務中表現出色,如問答[104]、多輪對話和邏輯推理[156, 296]。

大多數現有的MLLMs主要關注修改模型架構以探索多模態信息的使用[121, 178, 246, 286, 287, 304]。盡管模型的有效性至關重要,數據也顯著影響了MLLMs的成功。例如,Hoffmann等人[99]展示了為了擴展模型,有必要增加訓練數據的規模。除了數據數量外,數據質量同樣重要。先前的研究[251]表明,精心策劃的數據集可以使較小的模型達到與較大模型相當的性能。然而,關于MLLMs數據策劃和利用的綜合研究仍然缺乏。因此,本研究旨在從數據中心視角提供對MLLMs的全面理解。

與優先考慮架構增強而依賴固定數據集的模型中心方法相比,數據中心視角強調對數據集的迭代改進以提高性能。在數據中心MLLMs的范圍內,我們關注利用數據模態的異質性、增強數據結構、增加數據數量和提高數據質量以改進MLLMs [316]。我們的討論從不同階段的MLLMs數據中心視角回答了三個關鍵問題:

  • Q1:如何收集、選擇和管理MLLMs的數據?大量的數據需求和多模態數據的異質性在收集、選擇和有效管理模型訓練數據方面帶來了挑戰。MLLMs的不同訓練階段也導致了不同的數據類型需求。

  • Q2:數據如何影響MLLMs的性能?理解數據特性與MLLMs性能之間的關系對于優化數據集和增強模型能力至關重要。

  • Q3:如何評估MLLMs的數據?有必要開發全面的評估基準,以評估MLLMs在各種任務中的性能和魯棒性。 本綜述與現有綜述的區別。在模型中心視角下,已有若干綜述聚焦于LLMs [93, 203, 324]和MLLMs [280, 318],但缺乏對數據中心方面的深入分析。最近,一些綜述開始關注LLMs的數據準備,如數據管理方法[274]、數據選擇方法[5]和LLM數據集的綜合綜述[174]。然而,這些綜述主要集中于僅文本LLMs的數據管理和選擇方法,沒有對MLLMs的數據處理管道進行徹底分析。盡管Zhang等人[318]總結了MLLMs的數據集,但未能提供對這些數據集的全面分析。與我們最相關的工作是數據中心人工智能(DCAI)[109, 111, 220, 279, 316],它也關注AI研究的數據中心視角,但未具體分析LLMs和MLLMs。

隨著MLLMs的快速增長以及數據在這個大型模型時代越來越重要的角色,我們認為提供一個全面的MLLMs數據中心方法綜述是至關重要的。本綜述旨在從數據中心視角全面回顧MLLMs的進展文獻,并討論該領域的開放問題或未來方向。

貢獻。在這篇綜述中,我們從數據中心視角回顧了MLLMs的進展文獻。我們為研究人員和開發者提供了對MLLMs數據方面最新發展的總體和全面的理解。本綜述的主要貢獻總結如下:

  • 新的數據中心視角。我們從數據中心視角提供了對MLLMs的全面綜述,考慮了文本、圖像、視頻和音頻等模態。
  • 數據準備和管理管道。我們總結了在預訓練和適應階段MLLMs的數據準備和管理管道。
  • 數據評估基準。我們概述了常用的從數據中心視角出發的評估基準。
  • 開放問題和未來方向。我們討論了當前數據中心LLMs研究中的開放問題,并提出了若干未來研究方向。

本文的其余部分安排如下:第2節介紹LLMs和MLLMs的預備知識,并討論從數據中心視角分析它們的動機。第3至第5節總結了MLLMs訓練數據的收集、處理和選擇的主要階段。第6節總結了MLLMs的評估方法和現有的評估數據集。第7節討論了開放問題并強調了該領域的若干未來研究方向。最后,我們在第8節對本綜述進行了總結。我們的Github倉庫可以在//github.com/beccabai/Data-centric_multimodal_LLM找到。

付費5元查看完整內容

多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。

//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習

在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。

不完整多模態學習

在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習

不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合

當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。

付費5元查看完整內容

本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。

影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。

近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。

視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。

此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。

鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。

我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。

A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。

付費5元查看完整內容

智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。

付費5元查看完整內容

行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1

付費5元查看完整內容

數據融合是最大程度發揮大數據價值的關鍵,深度學習是挖掘數據深層特征信息的技術利器,基于深度學習的數據融合能夠充分挖掘大數據潛在價值,從新的深度和廣度拓展對世界的探索和認識。本文綜述了近幾年基于深度學習的數據融合方法的相關文獻,以此了解深度學習在數據融合中應用所具有的優勢。首先,分類闡述常見的數據融合方法,同時指出這些方法的優點和不足;接著,從基于深度學習特征提取的數據融合方法、基于深度學習融合的數據融合方法、基于深度學習全過程的數據融合方法三個方面對基于深度學習的數據融合方法進行分析,并做了對比研究與總結;最后,總結全文,討論了深度學習在數據融合中應用的難點和未來需要進一步研究的問題。

//kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=JSGG20201119008&v=UVJbamaWiqPhx%25mmd2F%25mmd2BOu5dHCwhPPmxv19yW5mC2ZX1%25mmd2Bqh0bZ9gpg2gmEH78ZzOsc7eT

付費5元查看完整內容

摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。

付費5元查看完整內容
北京阿比特科技有限公司