亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

特征匹配是計算機視覺中的一項基礎性任務,對于圖像檢索、立體匹配、三維重建和SLAM 等應用至關重要。本文對基于模態的特征匹配進行了全面綜述,涵蓋了傳統的手工方法,并重點探討了適用于多種模態(包括 RGB 圖像、深度圖像、三維點云、激光雷達掃描、醫學圖像以及視覺-語言交互)的現代深度學習方法。 傳統方法依賴于諸如 Harris 角點等檢測器,以及如 SIFT 和 ORB 等描述子,在面對中等程度的同模態變換時表現出良好的魯棒性,但在存在顯著模態差異時則面臨挑戰。現代基于深度學習的方法(如基于 CNN 的 SuperPoint 和基于 Transformer 的 LoFTR)摒棄了顯式檢測器,在跨模態場景中顯著提升了魯棒性與適應性。

我們重點梳理了模態感知的最新進展,例如針對深度圖像的幾何與深度特定描述子、用于三維點云的稀疏與密集學習方法、面向激光雷達掃描的注意力增強神經網絡,以及如 MIND 描述子等面向復雜醫學圖像匹配的專用方案。跨模態應用,尤其是在醫學圖像配準與視覺-語言任務中的應用,進一步彰顯了特征匹配技術應對多樣化數據交互的演進趨勢。

//arxiv.org/abs/2507.22791

1 引言

特征匹配是計算機視覺中的一項基礎性任務,對于圖像檢索、立體匹配、三維重建以及同時定位與建圖(SLAM)等諸多關鍵應用至關重要。為系統性地分析該研究領域,本文按照具體的數據模態對特征匹配方法進行了歸類綜述,涵蓋了單一模態(如 RGB 圖像、三維數據、醫學圖像)和跨模態(如醫學圖像配準與視覺-語言)兩個層面的研究場景。 我們首先介紹了用于 RGB 圖像與三維數據的單模態特征匹配方法,重點梳理了從早期手工設計的檢測器與描述子,到現代基于深度學習方法的演進過程。隨后,我們深入探討了醫學影像這一特殊領域,它兼具單模態與跨模態匹配的特點,因而需要采用專門的圖像配準策略來應對不同醫學成像模態之間的差異。接著,我們介紹了視覺-語言特征匹配,重點討論跨模態對齊技術如何在視覺與文本數據之間建立聯系。最后,我們展望了未來的研究方向,反映出多模態與通用特征匹配方法的最新趨勢與潛力。 在 RGB 圖像匹配方面,相關技術從早期的手工方法(例如 Harris 角點檢測器 [74]、穩健的局部描述子如 SIFT [120] 和 SURF [15],以及高效的二值描述子如 ORB [153])顯著演進。盡管這些基于模型的方法在視角變化和光照變化不大的同模態匹配中表現出色,但在面對不同模態之間更大的域差異和感知差異時,往往難以適應。近年來,基于學習的方法被提出以克服這些局限,例如 SuperPoint [47] 采用自監督的 CNN 檢測-描述一體化架構,在合成數據上訓練以實現魯棒的特征對應;LoFTR [176] 則通過基于 Transformer 的匹配結構進一步推動了該領域的發展,摒棄了顯式的關鍵點檢測。 在三維數據領域(包括 RGB-D 圖像、激光雷達點云、三維網格,以及多視圖 2D 到 3D 點集等),早期的特征匹配方法依賴于幾何描述子,如 Spin Images [88] 和 Fast Point Feature Histograms(FPFH)[154],這些方法專為應對剛體變換與稀疏數據結構而設計。近年來,越來越多的方法引入了深度學習策略,例如 3DMatch [216]、FCGF [38]、D3Feat [8] 以及基于 Transformer 的架構 Predator [82],顯著提升了匹配精度與魯棒性。 在醫學圖像領域,由于不同成像模態(如 MRI、CT、PET、超聲)之間存在固有的強度變化和解剖結構形變,特征匹配通常需要采用專門的策略。傳統方法如互信息(MI)[190] 和歸一化互信息(NMI)[174] 為多模態配準奠定了基礎。近年來,深度學習驅動的方法(如 VoxelMorph [9] 和 DiffuseMorph [96])引入了強大的無監督學習策略,有效應對形變與強度差異帶來的匹配挑戰。 在視覺-語言特征匹配中,研究聚焦于將視覺信息與文本信息結合,用于圖像字幕生成 [188]、視覺問答 [4] 和跨模態檢索 [93] 等任務。該方向的關鍵進展包括對比學習訓練的雙編碼器模型,如 CLIP [148] 和 ALIGN [84],實現了可擴展的開放詞匯檢索與分類;此外,以 MDETR [92] 和 GLIP [111] 為代表的基于 Transformer 的視覺指代模型,顯著提升了語言與圖像區域之間的精確對齊能力。開放詞匯方法也將分類、檢測與分割能力擴展至超出訓練標簽的范疇,借助于大規模預訓練模型中的語義嵌入 [63, 106, 223]。然而,該領域仍面臨諸如組合推理、魯棒性、偏差緩解與大規模評估等挑戰 [7, 89, 220],未來研究將進一步朝向更具交互性、具身智能以及持續學習的視覺-語言系統發展。 與已有綜述相比,例如 Xu 等人于《Information Fusion, 2024》發表的工作 [199] 從基于檢測器與非檢測器視角出發探討特征匹配,Huang 等人于《IET Image Processing, 2024》發表的分析 [81] 區分了傳統方法與深度學習方法在檢測、描述與匹配方面的不同,以及 Ma 于《IJCV, 2021》發表的綜述 [128] 側重對比經典方法與深度學習方法的圖像匹配研究,本文的主要貢獻體現在以下幾個方面: (1) 相比于以往綜述主要按算法框架(如手工 vs. 學習,基于檢測器 vs. 無檢測器)進行分類,本文系統性地按照不同數據模態組織特征匹配技術,具體涵蓋 RGB 圖像、深度數據、激光雷達掃描、三維點云、醫學影像模態(如 X 光、CT、MRI)以及視覺-語言應用等。 (2) 現有綜述均未充分討論視覺-語言匹配這一迅速發展的關鍵領域,而該領域對圖像字幕生成、視覺問答與跨模態檢索等應用至關重要。本文專門介紹了該方向的最新進展、挑戰與相關方法。 (3) 我們在不同模態內部以及模態之間進行了深入的比較分析,強調了從傳統手工技術向先進深度學習解決方案的演進過程。

在本綜述中,我們將圍繞單模態特征匹配(如 RGB、深度圖像、醫學圖像)與跨模態場景(如醫學圖像配準與視覺-語言集成)展開討論,系統分析各類方法所面臨的獨特挑戰與核心技術,并梳理了從傳統基于檢測器的管線向現代無檢測器解決方案的轉變路徑。圖 1 展示了本綜述的整體技術路線圖,清晰地描繪了特征匹配方法在多種數據模態上的演進過程;圖 2 則提供了具有代表性的模態感知特征匹配結果示例。

付費5元查看完整內容

相關內容

摘 要:擴散模型是一種新型生成式人工智能模型,相比生成對抗網絡、變分自編碼網絡、流模型等傳統網絡,具 有訓練穩健、生成保真性與多樣性高、數學可解釋性強等特點,在計算機視覺、信號處理、多模態學習等領域應用廣泛。 擴散模型能夠充分學習挖掘訓練圖像的深度生成先驗,為解決圖像處理逆問題提供了一類全新解決范式。為了系統性梳 理擴散模型發展現狀,特別是其解決圖像處理逆問題的最新進展,對面向圖像處理逆問題的擴散模型研究進行了綜述, 闡述了擴散模型的基本原理及其發展現狀,重點介紹了利用擴散模型解決圖像處理逆問題的主要技術路線,以及在該方 向的具體應用成果,并展望了未來研究方向。 關鍵詞:擴散模型;生成式人工智能;圖像處理;逆問題;深度生成先驗

付費5元查看完整內容

機器人視覺正持續受益于多模態融合技術視覺-語言模型(Vision-Language Models, VLMs)的迅速發展。本文系統回顧了多模態融合技術在一系列關鍵機器人視覺任務中的應用,包括語義場景理解同步定位與地圖構建(SLAM)三維目標檢測導航與定位以及機器人操作控制。 我們將基于大型語言模型(LLMs)的視覺-語言模型與傳統多模態融合方法進行了對比,分析了它們在性能、適用性、限制及協同潛力等方面的優劣。與此同時,本文深入剖析了當前常用的數據集,評估其在現實機器人場景中的適用性與挑戰。 我們進一步識別出該領域面臨的若干關鍵研究難題,如跨模態對齊高效融合策略實時部署能力以及領域自適應問題。為推動研究發展,本文提出若干未來研究方向,包括:用于魯棒多模態表示的自監督學習基于Transformer的融合架構以及可擴展的多模態感知框架。 通過全面的文獻回顧、系統對比分析與前瞻性探討,本文為推動機器人視覺領域中的多模態感知與交互提供了有價值的參考。 完整論文列表可訪問://github.com/Xiaofeng-Han-Res/MF-RV

付費5元查看完整內容

圖像反演是生成模型中的一個基礎任務,旨在將圖像映射回其潛在表示,以支持下游應用,如圖像編輯、修復和風格遷移。本文全面綜述了圖像反演技術的最新進展,重點討論了兩種主要范式:生成對抗網絡(GAN)反演和擴散模型反演。我們根據優化方法對這些技術進行分類。對于GAN反演,我們系統地將現有方法分為基于編碼器的方法、潛在優化方法和混合方法,分析其理論基礎、技術創新和實際權衡。對于擴散模型反演,我們探討了無訓練策略、微調方法以及附加可訓練模塊的設計,重點討論它們的獨特優勢和局限性。此外,我們討論了幾種流行的下游應用以及超越圖像任務的新興應用,識別了當前的挑戰和未來的研究方向。通過整合最新的研究成果,本文旨在為研究人員和實踐者提供一個有價值的參考資源,推動圖像反演領域的進一步發展。我們將持續跟蹤最新的研究工作,

網址://github.com/RyanChenYN/ImageInversion。

 引言圖像反演是指將給定圖像映射回預訓練生成模型的潛在表示的任務。這一任務在圖像編輯、風格遷移、圖像修復等應用中具有重要意義 [Xia 等,2022;Shuai 等,2024]。通過反演技術,用戶可以有效利用生成模型的豐富語義信息,實現對真實圖像的高效控制和修改,成為一個日益獨立且活躍的研究方向。早期的圖像反演研究始于生成對抗網絡(GAN)的興起 [Zhu 等,2016],主要集中于如何將圖像投影到GAN的潛在空間中,以便于后續的圖像編輯和生成任務。StyleGAN系列的問世 [Karras 等,2019;Karras 等,2020] 顯著提高了圖像反演技術的準確性和效率。然而,這些方法存在一定的局限性 [Tov 等,2021;Roich 等,2023;Zhang 等,2024c]:基于編碼器的前向方法仍然會導致次優結果,而基于優化的方法則需要大量時間,且未能滿足一般圖像編輯和高精度應用的需求,例如肖像攝影。近年來,擴散模型憑借其強大的生成能力和穩定的訓練過程,逐漸成為生成模型領域的新寵。從DDPM [Ho 等,2020] / DDIM [Song 等,2020] 到LDM [Rombach 等,2022],像Stable Diffusion系列這樣的開源模型顯著增強了圖像編輯的可控性和有效性,推動了許多優秀的無訓練和微調解決方案的出現 [Miyake 等,2023;Chung 等,2024;Mo 等,2024]。最近的突破性進展,如DiT [Peebles 和 Xie,2023] 框架和流匹配技術,為圖像反演提供了新的思路和方法。GAN到擴散模型的多樣化發展,也為高保真度圖像反演任務和復雜場景中的可控編輯應用奠定了基礎。本文系統地回顧并總結了這些技術的發展軌跡,從公式化的角度抽象定義了問題,深入探討了不同類別方法的原理和實際問題。全面覆蓋了圖像反演及相關子領域,并提供了深入的討論。范圍本文重點討論了兩種主要的圖像反演框架:GAN反演和擴散模型反演。對于GAN反演,我們從三個角度進行全面分析與比較:基于編碼器的方法、潛在優化方法和混合方法。對于擴散模型反演,我們從訓練角度將方法分為無訓練方法、微調方法和額外可訓練模塊方法,并討論每種方法的優缺點。此外,我們還分析了最新的技術趨勢,如基于DiT的反演方法 [Feng 等,2024],并探討了反演技術在圖像及更廣泛領域(如視頻 [Fan 等,2024] 和音頻 [Manor 和 Michaeli,2024])中的應用。本文主要分析了2021年以后的研究,以確保其相關性和前瞻性。由于篇幅限制,本文僅討論了具有代表性的工作,最新的、持續更新的研究成果可通過該項目頁面獲取。與相關綜述的討論與現有的綜述文章相比,例如專注于早期基于GAN的方法 [Xia 等,2022],以及近期專注于基于擴散的方法的工作 [Shuai 等,2024],本文將GAN反演和擴散模型反演整合到一個統一框架中進行系統比較,填補了該領域的研究空白。并且,本文將反演討論擴展到非圖像應用,為讀者提供了更全面的視角。貢獻首先,本文提供了對圖像反演領域最新進展的全面回顧,涵蓋了兩種主要生成模型(GAN和擴散模型)的關鍵反演技術。通過系統地分類這些方法,我們揭示了內在的聯系和技術差異,為研究人員提供了清晰的理論指導。其次,本文從圖像級別的角度討論了主要應用及相關領域的進展。最后,我們總結了當前研究中的主要挑戰,并提出了一系列潛在的未來研究方向,為圖像反演領域的進一步發展提供了重要參考。

付費5元查看完整內容

行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1

付費5元查看完整內容

顯著性目標檢測旨在對圖像中最顯著的對象進行檢測和分割,是計算機視覺任務中重要的預處理步驟之一,且在信息檢索、公共安全等領域均有廣泛的應用.本文對近期基于深度學習的顯著性目標檢測模型進行了系統綜述,從檢測粒度的角度出發,綜述了將深度學習引入顯著性目標檢測領域之后的研究成果.首先,從三個方面對顯著性目標檢測方法進行了論述:稀疏檢測方法,密集檢測方法以及弱監督學習下的顯著性目標檢測方法.然后,簡要介紹了用于顯著性目標檢測研究的主流數據集和常用性能評價指標,并對各類主流模型在三個使用最廣泛的數據集上進行了性能比較分析.最后,本文分析了顯著性目標檢測領域目前存在的問題,并對今后可能的研究趨勢進行了展望.

付費5元查看完整內容

小目標檢測長期以來是計算機視覺中的一個難點和研究熱點。在深度學習的驅動下,小目標 檢測已取得了重大突破,并成功應用于國防安全、智能交通和工業自動化等領域。為了進一步促進小 目標檢測的發展,本文對小目標檢測算法進行了全面的總結,并對已有算法進行了歸類、分析和比較。首先,對小目標進行了定義,并概述小目標檢測所面臨的挑戰。然后,重點闡述從數據增強、多尺度學 習、上下文學習、生成對抗學習以及無錨機制等方面來提升小目標檢測性能的方法,并分析了這些方法 的優缺點和關聯性。之后,全面介紹小目標數據集,并在一些常用的公共數據集上對已有算法進行了 性能評估。最后本文對小目標檢測技術的未來發展方向進行了展望。

目標檢測是計算機視覺領域中的一個重要研究方向,也是其他復雜視覺任務的基礎。作為圖像理 解和計算機視覺的基石,目標檢測是解決分割、場景理解、目標跟蹤、圖像描述和事件檢測等更高層次 視覺任務的基礎。小目標檢測長期以來是目標檢測中的一個難點,其旨在精準檢測出圖像中可視化特 征極少的小目標(32 像素×32 像素以下的目標)。在現實場景中,由于小目標是的大量存在,因此小目 標檢測具有廣泛的應用前景,在自動駕駛、智慧醫療、缺陷檢測和航拍圖像分析等諸多領域發揮著重要 作用。近年來,深度學習技術的快速發展為小目標檢測注入了新鮮血液,使其成為研究熱點。然而,相 對于常規尺寸的目標,小目標通常缺乏充足的外觀信息,因此難以將它們與背景或相似的目標區分開 來。在深度學習的驅動下,盡管目標檢測算法已取得了重大突破,但是對于小目標的檢測仍然是不盡 人意的。在目標檢測公共數據集 MS COCO[1]上,小目標和大目標在檢測性能上存在顯著差距,小目標 的檢測性能通常只有大目標的一半。由此可見,小目標檢測仍然是充滿挑戰的。此外,真實場景是錯 綜復雜的,通常會存在光照劇烈變化、目標遮擋、目標稠密相連和目標尺度變化等問題,而這些因素對 小目標特征的影響是更加劇烈的,進一步加大了小目標檢測的難度。事實上,小目標檢測具有重要的 研究意義和應用價值。對于機場跑道,路面上會存在微小物體,如螺帽、螺釘、墊圈、釘子和保險絲等, 精準地檢測出跑道的這些小異物將避免重大的航空事故和經濟損失。對于自動駕駛,從汽車的高分辨 率場景照片中準確地檢測出可能引起交通事故的小物體是非常有必要的。對于工業自動化,同樣需要 小目標檢測來定位材料表面可見的小缺陷。對于衛星遙感圖像,圖像中的目標,例如車、船,可能只有 幾十甚至幾個像素。精確地檢測出衛星遙感圖像中的微小目標將有助于政府機構遏制毒品和人口販 運,尋找非法漁船并執行禁止非法轉運貨物的規定。

綜上所述,小目標檢測具有廣泛的應用價值和重 要的研究意義。對小目標檢測展開研究將有助于推動目標檢測領域的發展,擴寬目標檢測在現實世界 的應用場景,提高中國的科技創新水平和加快中國全面步入智能化時代的步伐。目標檢測作為計算機視覺的基礎研究,已有許多優秀的綜述發表。Zou 等[2]梳理了 400 多篇關于目 標檢測技術發展的論文,包括歷史上的里程碑檢測器、檢測框架、評價指標、數據集、加速技術和檢測應 用等諸多內容,系統而全面地展現了目標檢測這個領域的現狀。Oksuz 等[3]則從目標檢測中存在的類 別不平衡、尺度不平衡、空間不平衡以及多任務損失優化之間的不平衡等四大不平衡問題出發,對現有 的目標檢測算法進行了深入的總結。Zhao 等[4]在對比總結目標檢測中提及了小目標檢測所面臨的挑 戰。Agawal 等[5]則在目標檢測任務的主要挑戰中簡要介紹了幾種常用的小目標檢測方法。Chen 等[6] 立意于小目標檢測的 4 大支柱性方法,詳細描述了多尺度表示、上下文信息、超分辨率、區域建議以及其 他方法等 5 類具代表性的網絡,并介紹了部分小目標數據集。Tong 等[7]從多尺度學習、數據增強、訓練 策略、基于上下文的檢測和基于生成對抗網絡的檢測等 5 個維度全面回顧了基于深度學習的小目標檢 測方法,并在一些流行的小目標檢測數據集上,對當前經典的小目標檢測算法進行了比較分析。Liu 等[8]在總結對比最近用于小目標檢測的深度學習方法的基礎上,還簡單闡述了常規目標檢測、人臉檢 測、航空圖像目標檢測以及圖像分割等 4 個研究領域的相關技術。此外,還有文獻[9?10]等中文綜述中 對小目標檢測這一領域做了一定的總結工作。然而,文獻[2]主要對一般目標檢測算法進行了回顧,而 對小目標檢測方法的介紹甚少。文獻[3]則主要關注于目標檢測領域中存在的不平衡問題。文獻[4?5] 對目標檢測領域進行了全面的綜述總結,雖然有所涉及小目標檢測問題,但是并沒有進行全面的總結 和深入的分析。文獻[6?8]是針對小目標這一問題的綜述,對小目標檢測方法與性能評估進行了較為全 面的總結,但是在對小目標的定義、難點分析和性能評估等方面仍有所欠缺。文獻[9?10]作為中文的小 目標檢測綜述,分別對小目標檢測這一領域進行了總結綜述,但是對于小目標檢測方法的歸類與分析仍不夠深入。

與以往將小目標與常規目標等同對待或只關注特定應用場景下的目標檢測綜述不同,本文對小目 標檢測這一不可或缺且極具挑戰性的研究領域進行了系統且深入的分析與總結。本文不僅對小目標 的定義進行了解釋,也對小目標檢測領域存在的挑戰進行了詳細地分析和總結,同時重點闡述了小目 標檢測優化思路,包括數據增強、多尺度學習、上下文學習、生成對抗學習以及無錨機制以及其他優化 策略等。此外,本文還在常用的小目標數據集上分析對比了現有算法的檢測性能。最后,對本文內容 進行了簡要的總結,并討論了小目標檢測未來可能的研究方向和發展趨勢。

付費5元查看完整內容

信道建模是設計無線通信系統的基礎,傳統的信道建模方法無法自動學習特定類型信道的規律,特別是在針對特殊應用場景,如物聯網、毫米波通信、車聯網等,存在一定的局限性。此外,機器學習具有有效處理大數據、創建模型的能力,基于此,探討了機器學習如何與信道建模進行有機融合,分別從信道多徑分簇、參數估計、模型的構造及信道的場景識別展開了討論,對當前該領域的重要研究成果進行了闡述,并對未來發展提出了展望。

//www.infocomm-journal.com/txxb/CN/10.11959/j.issn.1000-436x.2021001

付費5元查看完整內容
北京阿比特科技有限公司