亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在現實世界中,信息跨越不同模態且種類繁多,理解并利用多種數據類型來改進檢索系統是研究的關鍵重點之一。多模態復合檢索集成了文本、圖像、音頻等多種模態,以提供更精準、個性化和上下文相關的結果。為了促進對這一有前景方向的深入理解,本綜述深入探討了多模態復合編輯與檢索,涵蓋了圖文復合編輯、圖文復合檢索及其他多模態復合檢索。本文系統整理了應用場景、方法、基準、實驗以及未來方向。在大模型時代,多模態學習是一個熱門話題,同時也見證了《PAMI》期刊上關于多模態學習和視覺-語言模型與Transformers的若干綜述的發表。據我們所知,本綜述是首個關于多模態復合檢索的全面文獻回顧,是對現有多模態融合綜述的及時補充。為了幫助讀者快速跟蹤這一領域的進展,我們為本綜述建立了項目頁面,訪問地址為://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrieval。 關鍵詞——多模態復合檢索,多模態融合,圖像檢索,圖像編輯。

引言

在當今的數字化環境中,信息通過文本、圖像、音頻和雷達等多種渠道傳遞,導致數據量和復雜性的顯著增加。隨著數據呈指數級擴展,處理和整合多樣化信息的挑戰變得至關重要。高效檢索個性化且相關的信息變得越來越具有挑戰性。

傳統的單模態檢索方法[37], [49], [55], [83], [86], [87], [226]–[228], [237], [239]依賴于單一模態,如圖像或文本,作為查詢。然而,這些方法往往難以充分捕捉真實世界信息檢索場景的復雜性和細微差別。這一局限性促使多模態復合圖像檢索[11], [21], [28], [88], [106], [172], [190]的出現,這是一個超越單一模態邊界的有前途的框架。通過利用各種數據類型的互補優勢,多模態復合檢索系統增強了對用戶查詢和上下文的理解,從而提高了檢索性能和用戶滿意度。 如圖1所示,多模態復合檢索涉及將文本、圖像、音頻等多樣化的數據形式進行復雜的融合與分析,以實現信息檢索。這種方法在多個現實場景中具有重要價值,包括多媒體內容[80]、社交媒體平臺和電子商務[59], [70], [150], [194], [203]。此外,它的應用還涉及一些專門領域,如醫學圖像檢索[19], [65], [144]、文檔檢索[72], [80]和新聞檢索[178]。通過采用多樣的多模態查詢,這些技術能夠提供靈活且準確的結果,從而提升用戶體驗,幫助做出更明智的決策。因此,多模態復合檢索在信息科學、人工智能以及跨學科應用中具有重要的潛力和研究價值。 大多數現有的多模態復合檢索方法[4], [11], [27], [28], [77], [85], [88], [106], [115], [132], [190]主要集中在集成圖像和文本以實現預期結果。早期方法采用卷積神經網絡(CNN)進行圖像編碼,并使用長短期記憶(LSTM)網絡[108]進行文本編碼。隨著強大Transformer模型的興起,如Vision Transformer (ViT) [186]、Swin Transformer (Swin) [128]和BERT [102],提出了眾多基于Transformer的多模態復合檢索方法[184], [208],以提高圖像檢索性能。此外,視覺-語言預訓練(VLP)[94], [120], [121], [158]通過彌合文本描述和視覺內容之間的語義差距,改變了與圖像理解和檢索相關的任務。多種基于VLP的多模態復合圖像檢索方法[11], [85], [132]顯示出有前景的結果。此外,圖文復合編輯方法[31], [39], [46], [71], [118], [119], [126], [152], [232]使用戶能夠通過自然語言指令直接修改圖像或生成新內容,從而實現與用戶意圖高度一致的精確檢索。對音頻[2]和動作[215]等其他模態的探索也正在加速進行。

動機

盡管在多模態復合檢索模型上已有廣泛研究,但新的挑戰不斷涌現,仍有待解決。在這一快速發展的領域中,迫切需要進行全面、系統的分析。本綜述旨在通過系統地組織應用場景、方法、基準、實驗以及未來方向,促進對多模態復合編輯與檢索的深入理解。我們回顧并分類了130多種先進的多模態復合檢索方法,為進一步研究奠定了堅實的基礎。

文獻收集策略

為了確保對多模態復合檢索的全面概述,我們采用了一種系統的搜索策略,涵蓋了廣泛的相關文獻。我們的重點包括多模態檢索系統中的創新方法、應用和進展。我們選擇了諸如“多模態復合檢索”、“多模態學習”、“圖像檢索”、“圖像編輯”和“特征融合”等關鍵詞,涵蓋了這一領域的各個方面。這些術語反映了多模態研究中常見的基礎概念、具體技術和新興趨勢。我們在知名學術數據庫中進行了搜索,包括Google Scholar、DBLP、ArXiv、ACM和IEEE Xplore。通過這些探索,我們收集了多種來源,包括期刊文章、會議論文和預印本。為了精煉我們的選擇,我們排除了主要專注于單模態方法或不相關模態的研究,并手動審核了剩余文獻的相關性和質量。最終選擇過程中,我們基于每篇論文的貢獻和影響進行了評估,以便為深入分析策劃關鍵研究。通過應用這些標準,我們力圖為多模態復合檢索的當前形勢和未來方向提供全面的視角。

分類

為了澄清與多模態復合編輯和檢索相關的討論,我們將其按應用場景分為三類,即1) 圖文復合編輯,2) 圖文復合檢索和3) 其他多模態復合檢索,如圖2所示。具體來說,圖文復合編輯涉及通過自然語言指令修改圖像或創建全新內容,用戶可以清晰直觀地傳達其意圖。圖文復合檢索則通過輸入文本和圖像信息來搜索個性化結果,從而通過文本描述定位相關圖像或根據圖像生成描述性文本,提升搜索體驗。其他多模態復合檢索任務則將音頻、動作等不同模態的組合作為輸入,提供更豐富和靈活的上下文感知檢索體驗。

貢獻

總而言之,我們的貢獻如下: * 據我們所知,本文是首個關于多模態復合檢索的全面綜述,旨在為這一快速發展的領域提供及時的概覽和寶貴的見解,為未來的研究提供參考。 * 我們系統地組織了研究成果、技術方法、基準和實驗,幫助理解這一主題,并通過多層次的分類為現有研究提供廣泛的覆蓋,滿足讀者的多樣化需求。 * 我們解決了多模態復合檢索中的挑戰和未解問題,識別了新興趨勢并提出了可行的未來研究方向,以推動該領域的創新。

論文組織

本文其余部分的結構如下。第二部分介紹了與多模態復合檢索相關的基礎概念和應用,并為討論的方法奠定了背景。第三部分深入探討了該領域使用的各種方法,并根據其基本原理進行分類,分析其優缺點。第四部分概述了用于評估這些方法的基準和實驗設置,并展示了最新研究的結果。第五部分討論了多模態復合檢索的現狀,指出了挑戰并提出了未來研究方向。最后,第六部分總結了關鍵發現并強調了這一領域對未來研究的重要性。

付費5元查看完整內容

相關內容

在不斷發展的深度學習領域,數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型(LLMs)的出現為合成數據生成提供了一種以數據為中心的解決方案,緩解了現實世界數據的限制。然而,目前對這一領域的研究缺乏統一的框架,大多停留在表面。因此,本文基于合成數據生成的一般工作流程,整理了相關研究。通過這樣做,我們突出了現有研究中的空白,并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。

在深度學習領域不斷演變的背景下,數據數量和質量的問題一直是一個長期存在的困境。大語言模型(LLMs)的革命性出現引發了深度學習領域的顯著范式轉變(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。盡管有這些進展,大量高質量數據仍然是構建穩健自然語言處理(NLP)模型的基礎(Gandhi et al., 2024)。具體來說,這里的高質量數據通常指的是包含豐富監督信號(通常以標簽形式)并與人類意圖緊密對齊的多樣化數據。然而,由于高成本、數據稀缺、隱私問題等原因,依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的(Kurakin et al., 2023)。此外,多項研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人類生成的數據由于其固有的偏見和錯誤,可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題:是否有其他更有效和可擴展的數據收集方法可以克服當前的限制?

鑒于LLMs的最新進展,它們展示了生成與人類輸出相當的流暢文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說,合成數據旨在模仿真實世界數據的特征和模式(Liu et al., 2024)。一方面,LLMs通過廣泛的預訓練,積累了豐富的知識庫,并展現出卓越的語言理解能力(Kim et al., 2022; Ding et al., 2023a),這為生成真實的數據奠定了基礎。另一方面,LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性,從而能夠為特定應用創建定制的數據集,并設計更靈活的流程(Eldan and Li, 2023)。這兩個優勢使LLMs成為極具前景的合成數據生成器。

作為LLMs的一項關鍵應用,合成數據生成對于深度學習的發展具有重要意義。如圖1所示,LLMs驅動的合成數據生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整個模型訓練和評估過程實現自動化,最小化了人類參與的需求(Huang et al., 2023),從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外,LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的見解強調了數據質量對于有效模型學習的重要性,而LLMs賦予我們主動“設計”模型學習內容的能力,通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月,Hugging Face上已有超過300個被標記為“合成”的數據集,許多主流LLMs利用高質量的合成數據進行訓練,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。

盡管看似簡單,但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程,并涉及許多技巧(Gandhi et al., 2024),使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務(如預訓練(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微調(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、評估(Feng et al., 2023; Wei et al., 2024))和不同領域(如數學(Yu et al., 2023a; Luo et al., 2023a)、代碼(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))進行數據生成,但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題,并開發通用工作流程,本綜述調查了最近的研究,并根據生成、策展和評估三個密切相關的主題進行組織,如圖2所示。我們的主要目的是提供該領域的全面概述,確定關鍵關注領域,并突出需要解決的空白。我們希望為學術界和工業界帶來見解,并推動LLMs驅動的合成數據生成的進一步發展。

付費5元查看完整內容

生成式檢索(GR)是一種新興的信息檢索范式,利用生成模型直接將查詢映射到相關的文檔標識符(DocIDs),無需傳統的查詢處理或文檔重排序。本綜述提供了對GR的全面概述,重點介紹了關鍵發展、索引和檢索策略以及面臨的挑戰。我們討論了各種文檔標識符策略,包括數字和基于字符串的標識符,并探索了不同的文檔表示方法。我們的主要貢獻在于概述未來可能對該領域產生深遠影響的研究方向:改進查詢生成的質量、探索可學習的文檔標識符、增強可擴展性以及將GR與多任務學習框架集成。通過研究最先進的GR技術及其應用,本綜述旨在提供對GR的基礎性理解,并激發在這種變革性信息檢索方法上的進一步創新。我們還將諸如論文集等補充材料公開。

信息檢索(IR)的歷史經歷了顯著的演變,從基于統計詞關系的初步方法發展到利用先進深度學習技術的復雜系統。這一進程主要圍繞兩個主要訓練目標,如圖1所示:

目標1:向量相似度

最初,IR系統依賴于稀疏檢索技術,通過諸如詞袋模型和向量空間模型(VSM)(Salton, 1983)等方法利用詞之間的統計關系。在這些模型中,文檔被表示為稀疏向量,每個維度指示詞的存在或頻率。二元獨立模型(BIM)(Robertson和Jones, 1976)的發展和詞頻-逆文檔頻率(TF-IDF)的實現是這種方法的典型代表,強調了詞出現的獨立性和頻率。

隨著技術進步,重點轉向了稠密檢索。在這一階段,詞嵌入將詞轉化為稠密向量表示,捕捉到比單純關鍵詞匹配更深層次的語義相似性和上下文關系。在這一領域的重要發展包括Word2Vec(Mikolov et al., 2013)、GloVe(Pennington et al., 2014)以及變壓器網絡的進步如BERT(Devlin et al., 2018)。這些創新最終催生了如DPR(Dense Passage Retrieval)(Karpukhin et al., 2020)等復雜模型,通過采用稠密向量嵌入來理解復雜的查詢和文檔,顯著提高了信息檢索的精度和有效性。在DPR的基礎上,REALM(Guu et al., 2020)和RAG(Lewis et al., 2020)等模型將檢索與語言模型集成,進一步優化了相關性。ColBERT-QA(Khattab et al., 2021)通過上下文化嵌入進行精確答案檢索,提升了問答能力。

目標2:直接文檔映射

隨著信息檢索從向量相似度方法轉變,它采用了生成式檢索,這是一種利用生成模型直接生成與用戶查詢相關的文本響應或文檔標識符的方法。這標志著從匹配預先存在的向量表示到動態生成直接滿足用戶需求的文本輸出的重大轉變。在預檢索階段,生成模型通過諸如Xiao等人(2022)所示的使用掩碼自編碼器(MAE)的檢索導向預訓練范式等創新方法來提高稠密檢索的效率。該模型訓練從嵌入和掩碼輸入中重建句子,在各種基準測試中表現優異。在檢索階段,Lewis等人(2020)的檢索增強生成模型通過稠密段落檢索器選擇文檔并為復雜的自然語言處理任務生成答案,取得了頂級性能。此外,Tay等人(2022)的可微搜索索引(DSI)通過將查詢直接映射到相關文檔,顯著超越了傳統方法,并在零樣本設置中表現出強大的泛化能力。在后檢索階段,深度學習技術被應用于重新排序檢索到的文檔,如Guo等人(2016)通過分析查詢和文檔之間的復雜匹配模式來優化文檔排名。類似地,Mitra等人(2017)通過融合局部和分布式文本表示,利用局部和全局上下文來提高搜索結果質量,增強了網頁搜索重排序。通過這些創新,包括雙塔模型架構和可微搜索索引(DSI)(Tay等人,2022),生成式檢索不僅有效地響應查詢,還能在語料庫中識別相關信息,利用端到端訓練架構整合深度學習過程來簡化檢索體驗。

## 2 生成式檢索簡介

### 2.1 生成式檢索的定義

前一節展示了在各種信息檢索階段應用生成模型以促進任務執行。在本綜述論文中,我們旨在定義“生成式檢索”(GR),其背景是在Tay等人(2022)的可微搜索索引架構中,其中查詢通過seq2seq模型直接映射到相關文檔,無需預檢索查詢處理或后檢索文檔重排序。本質上,端到端架構足以完成信息檢索任務。我們正式定義GR為一個系統,其中,給定用戶查詢q作為輸入,seq2seq學習模型直接輸出若干文檔標識符(docids)。每個標識符j對應于語料庫D中的特定文檔dj,表明該文檔與查詢q相關(見圖2)。要實現這一點,GR需要兩個關鍵組件:索引和檢索。

#### 2.1.1 索引

在GR索引策略中,關鍵考慮因素是索引方法和索引目標。索引方法研究的是將文檔內容與其唯一標識符建立聯系的技術,基本上掌握了將每個文檔的文本與一個獨特的docid相關聯的過程。相反,索引目標關注文檔表示策略。這涉及有關索引細節級別的決策、索引特定文檔部分的重要性、處理重復信息的方式,以及語義理解在描繪文檔內容本質中的重要性。 在GR的索引方法中,重點是簡化將文檔內容與其唯一標識符連接的過程。我們可以將索引方法的過程公式化為對兩種類型的示例進行訓練。第一個是(dj, j),其中dj ∈ D表示語料庫D中的第j個文檔,j表示對應的標識符。構建索引時,對文檔-docid配對進行訓練是至關重要的。這種配對過程是創建每個文檔內容與其在數據庫中的位置之間的可檢索鏈接的第一步,從而實現高效的存儲和檢索。 第二個訓練示例是(qi, j),在這里我們將查詢qi與其相關的docid j鏈接。通過將查詢與相關的docid配對,系統學習定義用戶搜索意圖(通過查詢表達)和文檔內容(通過docid表示)之間相關性的上下文細微差別。這種訓練有助于模型理解哪些文檔與給定查詢最相關,這種理解僅通過索引是無法實現的。這些方法包括序列到序列轉換和雙向訓練的創新方法,以及基于跨度的去噪高級技術。第二個訓練示例的詳細信息將在第3節中討論。 對于索引目標,重點轉向系統中文檔的表示方式。由于模型容量和計算資源的限制,生成式檢索模型通常不可能以整個文檔作為直接輸入進行訓練。因此,有必要考慮其他有效表示文檔的方法,包括:

  1. 直接索引:取文檔的前L個標記。
  2. 集合索引:取前L個不重復的標記。
  3. 倒排索引:從文檔中隨機開始取連續的k個標記。
  4. 查詢作為表示:Zhuang等人(2022)提出了一種方法,使用生成的查詢來表示文檔,同時以DocID進行訓練。他們建議在訓練中使用查詢而不是整個文檔更符合檢索過程,因為檢索通常涉及使用查詢來查找相關文檔。 通過采用這些多樣化的索引方法,我們旨在提高生成式檢索系統的效率和準確性。直接索引和集合索引提供了簡單但有效的手段來捕獲重要的文檔內容,同時減少冗余。倒排索引提供了一種隨機但系統的方法來表示文檔,確保內容覆蓋多樣化。同時,利用查詢作為文檔表示將訓練階段與檢索階段對齊,促進更直觀和上下文感知的檢索過程。 最終,這些索引策略趨向于一個統一的目標:優化生成式檢索系統理解、索引和檢索文檔的能力,以高精度響應用戶查詢。通過平衡細節、相關性和全面性,我們可以確保系統不僅高效地存儲文檔內容,還能在用戶查詢時準確地檢索最相關的信息。這種平衡對于開發一個能夠處理多樣化和復雜信息需求的強大和可擴展的生成式檢索框架至關重要。

#### 2.1.2 檢索

完成索引階段后,我們將注意力轉向檢索階段。經典的GR模型采用seq2seq方法自回歸地解碼候選docids,其中這些docids的表示選擇對檢索效率至關重要。 在生成式檢索的開創性工作中,Tay等人(2022)引入了非結構化原子標識符方法,為每個文檔分配唯一整數。這一基礎方法得到了結構化標識符方法的補充,包括簡單結構的字符串標識符和語義結構的標識符,為細致的文檔表示鋪平了道路。隨著該領域的發展,后續工作在標識符表示上進行了多樣化探索,探索了字符串子集、文章標題等替代方案。第3節將詳細探討和比較這些擴展及其系列中的更廣泛工作,突出它們在生成式檢索背景下的貢獻和創新。

本文對生成式檢索(GR)進行了全面的綜述和分析,探討了其發展歷史、關鍵技術、挑戰和未來方向。以下是對信息檢索領域的五項重要貢獻

  • 信息檢索的發展歷程從稀疏檢索方法到稠密檢索技術,最終發展到生成式檢索,其中查詢通過seq2seq模型直接映射到相關文檔,無需預檢索查詢處理或后檢索文檔重排序。
  • 解釋了GR的核心概念,詳細說明了端到端的檢索過程、索引和檢索技術,包括文檔標識符策略和seq2seq模型。
  • 比較了各種文檔標識符類型,顯示具有語義信息的標識符通常表現更好,并探討了創建這些標識符的不同方法。
  • 討論了GR中的評估指標和常用數據集,強調它們在評估檢索性能和比較不同標識符策略中的作用。
  • 識別了諸如可擴展性和動態語料庫管理等挑戰。提出了未來的研究方向,如優化訓練方法、提高系統可擴展性以及整合多任務學習技術。

總之,這項研究提供了一個詳細的綜述,幫助讀者深入了解生成式檢索技術。它旨在激發該領域的進一步研究,并推動信息檢索技術的發展。

付費5元查看完整內容

多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。

//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習

在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。

不完整多模態學習

在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習

不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合

當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。

付費5元查看完整內容

行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1

付費5元查看完整內容

顯著性目標檢測旨在對圖像中最顯著的對象進行檢測和分割,是計算機視覺任務中重要的預處理步驟之一,且在信息檢索、公共安全等領域均有廣泛的應用.本文對近期基于深度學習的顯著性目標檢測模型進行了系統綜述,從檢測粒度的角度出發,綜述了將深度學習引入顯著性目標檢測領域之后的研究成果.首先,從三個方面對顯著性目標檢測方法進行了論述:稀疏檢測方法,密集檢測方法以及弱監督學習下的顯著性目標檢測方法.然后,簡要介紹了用于顯著性目標檢測研究的主流數據集和常用性能評價指標,并對各類主流模型在三個使用最廣泛的數據集上進行了性能比較分析.最后,本文分析了顯著性目標檢測領域目前存在的問題,并對今后可能的研究趨勢進行了展望.

付費5元查看完整內容

小目標檢測長期以來是計算機視覺中的一個難點和研究熱點。在深度學習的驅動下,小目標 檢測已取得了重大突破,并成功應用于國防安全、智能交通和工業自動化等領域。為了進一步促進小 目標檢測的發展,本文對小目標檢測算法進行了全面的總結,并對已有算法進行了歸類、分析和比較。首先,對小目標進行了定義,并概述小目標檢測所面臨的挑戰。然后,重點闡述從數據增強、多尺度學 習、上下文學習、生成對抗學習以及無錨機制等方面來提升小目標檢測性能的方法,并分析了這些方法 的優缺點和關聯性。之后,全面介紹小目標數據集,并在一些常用的公共數據集上對已有算法進行了 性能評估。最后本文對小目標檢測技術的未來發展方向進行了展望。

目標檢測是計算機視覺領域中的一個重要研究方向,也是其他復雜視覺任務的基礎。作為圖像理 解和計算機視覺的基石,目標檢測是解決分割、場景理解、目標跟蹤、圖像描述和事件檢測等更高層次 視覺任務的基礎。小目標檢測長期以來是目標檢測中的一個難點,其旨在精準檢測出圖像中可視化特 征極少的小目標(32 像素×32 像素以下的目標)。在現實場景中,由于小目標是的大量存在,因此小目 標檢測具有廣泛的應用前景,在自動駕駛、智慧醫療、缺陷檢測和航拍圖像分析等諸多領域發揮著重要 作用。近年來,深度學習技術的快速發展為小目標檢測注入了新鮮血液,使其成為研究熱點。然而,相 對于常規尺寸的目標,小目標通常缺乏充足的外觀信息,因此難以將它們與背景或相似的目標區分開 來。在深度學習的驅動下,盡管目標檢測算法已取得了重大突破,但是對于小目標的檢測仍然是不盡 人意的。在目標檢測公共數據集 MS COCO[1]上,小目標和大目標在檢測性能上存在顯著差距,小目標 的檢測性能通常只有大目標的一半。由此可見,小目標檢測仍然是充滿挑戰的。此外,真實場景是錯 綜復雜的,通常會存在光照劇烈變化、目標遮擋、目標稠密相連和目標尺度變化等問題,而這些因素對 小目標特征的影響是更加劇烈的,進一步加大了小目標檢測的難度。事實上,小目標檢測具有重要的 研究意義和應用價值。對于機場跑道,路面上會存在微小物體,如螺帽、螺釘、墊圈、釘子和保險絲等, 精準地檢測出跑道的這些小異物將避免重大的航空事故和經濟損失。對于自動駕駛,從汽車的高分辨 率場景照片中準確地檢測出可能引起交通事故的小物體是非常有必要的。對于工業自動化,同樣需要 小目標檢測來定位材料表面可見的小缺陷。對于衛星遙感圖像,圖像中的目標,例如車、船,可能只有 幾十甚至幾個像素。精確地檢測出衛星遙感圖像中的微小目標將有助于政府機構遏制毒品和人口販 運,尋找非法漁船并執行禁止非法轉運貨物的規定。

綜上所述,小目標檢測具有廣泛的應用價值和重 要的研究意義。對小目標檢測展開研究將有助于推動目標檢測領域的發展,擴寬目標檢測在現實世界 的應用場景,提高中國的科技創新水平和加快中國全面步入智能化時代的步伐。目標檢測作為計算機視覺的基礎研究,已有許多優秀的綜述發表。Zou 等[2]梳理了 400 多篇關于目 標檢測技術發展的論文,包括歷史上的里程碑檢測器、檢測框架、評價指標、數據集、加速技術和檢測應 用等諸多內容,系統而全面地展現了目標檢測這個領域的現狀。Oksuz 等[3]則從目標檢測中存在的類 別不平衡、尺度不平衡、空間不平衡以及多任務損失優化之間的不平衡等四大不平衡問題出發,對現有 的目標檢測算法進行了深入的總結。Zhao 等[4]在對比總結目標檢測中提及了小目標檢測所面臨的挑 戰。Agawal 等[5]則在目標檢測任務的主要挑戰中簡要介紹了幾種常用的小目標檢測方法。Chen 等[6] 立意于小目標檢測的 4 大支柱性方法,詳細描述了多尺度表示、上下文信息、超分辨率、區域建議以及其 他方法等 5 類具代表性的網絡,并介紹了部分小目標數據集。Tong 等[7]從多尺度學習、數據增強、訓練 策略、基于上下文的檢測和基于生成對抗網絡的檢測等 5 個維度全面回顧了基于深度學習的小目標檢 測方法,并在一些流行的小目標檢測數據集上,對當前經典的小目標檢測算法進行了比較分析。Liu 等[8]在總結對比最近用于小目標檢測的深度學習方法的基礎上,還簡單闡述了常規目標檢測、人臉檢 測、航空圖像目標檢測以及圖像分割等 4 個研究領域的相關技術。此外,還有文獻[9?10]等中文綜述中 對小目標檢測這一領域做了一定的總結工作。然而,文獻[2]主要對一般目標檢測算法進行了回顧,而 對小目標檢測方法的介紹甚少。文獻[3]則主要關注于目標檢測領域中存在的不平衡問題。文獻[4?5] 對目標檢測領域進行了全面的綜述總結,雖然有所涉及小目標檢測問題,但是并沒有進行全面的總結 和深入的分析。文獻[6?8]是針對小目標這一問題的綜述,對小目標檢測方法與性能評估進行了較為全 面的總結,但是在對小目標的定義、難點分析和性能評估等方面仍有所欠缺。文獻[9?10]作為中文的小 目標檢測綜述,分別對小目標檢測這一領域進行了總結綜述,但是對于小目標檢測方法的歸類與分析仍不夠深入。

與以往將小目標與常規目標等同對待或只關注特定應用場景下的目標檢測綜述不同,本文對小目 標檢測這一不可或缺且極具挑戰性的研究領域進行了系統且深入的分析與總結。本文不僅對小目標 的定義進行了解釋,也對小目標檢測領域存在的挑戰進行了詳細地分析和總結,同時重點闡述了小目 標檢測優化思路,包括數據增強、多尺度學習、上下文學習、生成對抗學習以及無錨機制以及其他優化 策略等。此外,本文還在常用的小目標數據集上分析對比了現有算法的檢測性能。最后,對本文內容 進行了簡要的總結,并討論了小目標檢測未來可能的研究方向和發展趨勢。

付費5元查看完整內容

在計算機視覺領域,全景分割是一個新穎且重要的研究問題,它是機器感知、自動駕駛等新興前沿技術的基石,有著十分重要的研究意義. 本文綜述了基于深度學習的全景分割研究的最新進展,總結了全景分割任務的基本處理流程,并對已發表的全景分割工作基于其網絡結構特點進行分類,并作了全面的介紹與分析,最后對全景分割任務目前面臨的問題以及未來的發展趨勢做出了分析,并針對所面臨的問題提出了一些切實可行的解決思路.

全景分割[1]是將圖像劃分為語義區域(stuff)和 對象實例(things)的任務,是近年來新興起的一個研 究方向,也是計算機視覺中一個重要的研究問題. 隨著圖像處理技術的發展,數字圖像已經成為日常 生活中不可缺少的媒介,每時每刻都在產生圖像數 據. 對圖像中的物體進行快速準確的分割變得愈發重要.

全景分割包含語義分割和實例分割兩大任務. 語義分割是將類別標簽按圖像中物體類別分配給 每個像素,即將輸入圖像中的像素分為不同的語義 類別. 傳統的語義分割方法多數基于模型驅動,模 型驅動方法可分為生成式和判別式[2] . 生成式模型 首先學習圖像的特征和標簽概率,然后計算輸入圖 像特征時各個標簽的后驗概率,依據此概率對圖像 進行標注. 馬爾科夫隨機場(Markov Random Field, MRF)是一種應用廣泛的生成式模型[3],它利用先驗上下文信息和訓練得到的結果,提高分割性能. 但 是當圖像較大時,分割速度和精度會大幅下降. 判 別式模型假設圖像特征與標簽之間存在某種映射 關系,然后從歷史數據學習該映射關系的相關參數 [2] . 典型的判別式模型包括支持向量機(Support Vector Machine, SVM)、條件隨機場(Conditional Random Field, CRF)等. SVM 因其可處理非線性且 具有良好的泛化能力,在語義分割研究中得到了廣 泛應用[3]. CRF 不僅可以利用圖像上下文信息,還 可學習從局部到全局的上下文信息,已經成功應用 于圖像標記[4] . 然而,判別式模型存在收斂速度慢無法解決存在隱變量的情況等不容忽視的問題.

近年來,隨著硬件計算能力的提高,語義分割 得到快速發展. 隨著全卷積網絡(fully convolutional network, FCN)的出現[5],深度學習推動語義分割任 務快速發展,并且在自動駕駛、人臉識別等領域得 到應用.

實例分割實質上是目標檢測和語義分割的結合,目的是將輸入圖像中的目標檢測出來,并且對 每個像素分配類別標簽. 實例分割能夠對前景語義 類別相同的不同實例進行區分,這是它與語義分割 的最大區別. 相比語義分割,實例分割發展較晚, 因此實例分割模型主要基于深度學習技術,但它也 是圖像分割一個重要的組成部分. 隨著深度學習的 發展,實例分割相繼出現了 SDS [6]、DeepMask [7]、 MultiPath Network [8]等方法,分割精度和效率逐漸 得到提升.

全景分割是語義分割和實例分割的綜合. 全景 分割任務不僅要求區分輸入圖像中的背景語義類 別和前景語義類別,還要將同一類別前景語義中的 不同實例分割出來,因此全景分割任務比語義分 割、實例分割任務的難度更高. 全景分割由 Kirillov 等人[1]于 2018 年提出,已經得到計算機視覺學界的 高度重視,涌現出 JSIS-Net[9]、TASCNet[10]、AUNet[11] 等方法,顯著推動了全景分割的發展. 但是在真實 環境下,全景分割經常遇到以下挑戰:

(1) 分支融合沖突 全景分割任務是語義分割與實例分割兩個任務的綜合,在網絡結構方面,現有大部分方法將輸 入圖像的特征輸入到語義分支與實例分支,然后融 合兩個分支的輸出,得到全景輸出. 但是在融合時 會出現像素分配沖突,影響全景預測質量.

(2) 小物體檢測分割 數據集中的圖像會出現大小、距離不一的許多 物體,對于大物體,諸多全景分割方法能夠對其進 行準確分割,當小物體出現時,經常伴隨被忽略或 者分割不準確的問題,這導致全景分割精度較低, 直接增加了全景分割的難度.

(3) 分割對象交疊 在圖像采集過程中,會因為季節、天氣、光照、 距離等條件的變化,出現不同的場景,圖像中物體 會出現遮擋交疊等情況,這使得分割方法無法準確 判斷像素的歸屬,導致分割不精確. 為了克服上述挑戰,已經出現了一些全景分割 方法,它們在分支融合、小物體檢測、遮擋處理方 面提出了不同的應對策略,在一定程度上解決了這 些問題.

本文首先介紹全景分割的流程,然后重點 介紹深度學習在全景分割領域的研究進展. 本文內容安排如下:第 1 節介紹全景分割的基 本流程;第 2 節對語義分割、實例分割等相關知識 以及全景分割數據集進行介紹;第 3 節介紹深度學 習在全景分割領域的研究進展;第 4 節討論全景分 割研究面臨的挑戰,并對今后的發展趨勢進行展 望;第 5 節對本文進行總結.

付費5元查看完整內容

數據融合是最大程度發揮大數據價值的關鍵,深度學習是挖掘數據深層特征信息的技術利器,基于深度學習的數據融合能夠充分挖掘大數據潛在價值,從新的深度和廣度拓展對世界的探索和認識。本文綜述了近幾年基于深度學習的數據融合方法的相關文獻,以此了解深度學習在數據融合中應用所具有的優勢。首先,分類闡述常見的數據融合方法,同時指出這些方法的優點和不足;接著,從基于深度學習特征提取的數據融合方法、基于深度學習融合的數據融合方法、基于深度學習全過程的數據融合方法三個方面對基于深度學習的數據融合方法進行分析,并做了對比研究與總結;最后,總結全文,討論了深度學習在數據融合中應用的難點和未來需要進一步研究的問題。

//kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=JSGG20201119008&v=UVJbamaWiqPhx%25mmd2F%25mmd2BOu5dHCwhPPmxv19yW5mC2ZX1%25mmd2Bqh0bZ9gpg2gmEH78ZzOsc7eT

付費5元查看完整內容

我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1

付費5元查看完整內容

摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。

付費5元查看完整內容
北京阿比特科技有限公司