日韩在线精品小视频,久久久久精品一区二区三区,一区二区三区无码免费网站,欧美在线观看免费看大片

摘要：圖像描述生成結合了計算機視覺和自然語言處理2個研究領域，不僅要求完備的圖像語義理解，還要求復雜的自然語言表達，是進一步研究符合人類感知的視覺智能的關鍵任務．對圖像描述生成的研究進展做了回顧．首先，歸納分析了當前基于深度學習的圖像描述生成方法涉及的5個關鍵技術，包括整體架構、學習策略、特征映射、語言模型和注意機制．然后，按照發展進程將現有的圖像描述生成方法分為4大類，即基于模板的方法、基于檢索的方法、基于編碼器-解碼器架構的方法和基于復合架構的方法，并闡述了各類方法的基本概念、代表性方法和研究現狀，重點討論了基于編碼器-解碼器架構的各種方法及其創新思路，如多模態空間、視覺空間、語義空間、注意機制、模型優化等．接著，從實驗的角度給出圖像描述生成的常用數據集和評估措施，并在2個基準數據集上比較了一些典型方法的性能．最后，以提升圖像描述的準確性、完整性、新穎性、多樣性為依據，展示了圖像描述生成的未來發展趨勢.

隨著互聯網與信息技術的發展，多媒體數據呈現爆炸性增長的趨勢，從各種信息源（如網絡、新聞、相機等）上可獲得的圖像數據越來越多．由于圖像數據具有海量特性和非結構化特性，如何快速有效的組織、存儲和檢索圖像，成為重要的研究課題，而完備的圖像語義理解則是其中的關鍵問題[1]．盡管從信息源上獲取的大多數圖像并沒有對應的語義描述，但人類仍然能夠在很大程度上理解它們．也就是說，人類很容易就能完成涉及復雜視覺識別以及場景理解的各種任務、涉及自然語言交流的各種任務以及 2 種模態之間的轉換任務．例如，只需快速瀏覽圖像就足以讓人指出并描述關于視覺場景的大量細節，而這對于機器來說目前仍然是難以完成的任務．為了實現圖像數據的結構化和半結構化，從語義上更完備地理解圖像數據，從而進一步研究更符合人類感知的視覺智能，迫切需要機器能夠為給定圖像自動地生成自然語言描述．

計算機視覺研究如何理解圖像和視頻，而自然語言處理研究如何分析和生成文本．盡管這 2 個領域的研究都采用類似的人工智能和機器學習方法，但在很長一段時間里它們都是各自發展而很少交叉．近幾年，結合視覺和語言的跨模態問題受到了廣泛關注．事實上，許多日常生活中的任務都具有這種跨模態的特性．例如，看報紙時解釋圖片的上下文信息，聽報告時為理解講話而搭配圖表，網頁上提供大量結合視覺信息和自然語言的數據（帶標簽的照片、新聞里的圖片視頻、具有多模態性質的社交媒體）等．為完成結合視覺和語言的任務并充分利用多模態數據，計算機視覺和自然語言處理 2 個領域的聯系越來越緊密．在這個新的視覺和語言交叉的研究領域中，圖像描述生成是個重要的任務，該任務包括獲取圖像信息、分析其視覺內容、生成文本描述以說明圖像中的顯著物體和行為等步驟[2-5]．圖 1 給出了幾個根據圖像內容生成描述語句的實例．

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

立體匹配 · 單目深度估計 · 視覺定位 · 同步定位與地圖估計 · 三維幾何建模 ·

2021 年 5 月 21 日

[付費5元查看完整內容]三維視覺前沿進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在自動駕駛、機器人、數字城市、以及虛擬/混合現實等應用的驅動下，三維視覺在近年來得到了廣泛的關注。三維視覺研究主要圍繞深度圖像獲取、視覺定位與制圖、三維建模及三維理解等任務而展開。本文圍繞上述三維視覺任務，對國內外研究進展進行了詳細地綜合評述和對比分析。首先，針對深度圖像獲取任務，本文從非端到端立體匹配、端到端立體匹配及無監督立體匹配三個方面對立體匹配研究進展進行了回顧，從深度回歸網絡和深度補全網絡兩個方面對單目深度估計研究進展進行了回顧。其次，針對視覺定位與制圖任務，本文從端到端視覺定位和非端到端視覺定位兩個方面對大場景下的視覺定位研究進展進行了回顧，并從視覺同步定位與地圖構建和融合其它傳感器的同步定位與地圖構建兩個方面對同步定位與地圖構建的研究進展進行了回顧。再次，針對三維建模任務，本文從深度三維表征學習、深度三維生成模型、結構化表征學習與生成模型、以及基于深度學習的三維重建等四個方面對三維幾何建模研究進展進行了回顧，并從多視RGB重建、單深度相機和多深度相機方法、以及單視圖RGB方法等三個方面對人體動態建模研究進展進行了回顧。最后，針對三維理解任務，本文從點云語義分割和點云實例分割兩個方面對點云語義理解研究進展進行了回顧。在此基礎上，本文給出了三維視覺研究的未來發展趨勢，旨在為相關研究者提供參考。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2022&journal_id=jig

付費5元查看完整內容

視頻描述 · 卷積神經網絡 · 循環神經網絡 · 語段生成 · 情感表達 ·

2021 年 1 月 21 日

[付費5元查看完整內容]從視頻到語言: 視頻標題生成與描述研究綜述論文(中文版)，23頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

視頻標題生成與描述是使用自然語言對視頻進行總結與重新表達. 由于視頻與語言之間存在異構特性, 其數據處理過程較為復雜. 本文主要對基于“編碼-解碼”架構的模型做了詳細闡述, 以視頻特征編碼與使用方式為依據, 將其分為基于視覺特征均值/最大值的方法、基于視頻序列記憶建模的方法、基于三維卷積特征的方法及混合方法, 并對各類模型進行了歸納與總結. 最后, 對當前存在的問題及可能趨勢進行了總結與展望, 指出需要生成融合情感、邏輯等信息的結構化語段, 并在模型優化、數據集構建、評價指標等方面進行更為深入的研究.

付費5元查看完整內容

圖像描述生成（Image Caption） · 跨模態特征對齊 · 文獻綜述 ·

2020 年 12 月 24 日

[付費5元查看完整內容]從視覺到文本: 圖像描述生成的研究進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。

//jcip.cipsc.org.cn/CN/abstract/abstract2995.shtml

付費5元查看完整內容

表征學習 · 多模態視覺語言表征學習 ·

2020 年 12 月 3 日

[付費5元查看完整內容]多模態視覺語言表征學習研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

我們生活在一個由大量不同模態內容構建而成的多媒體世界中，不同模態信息之間具有高度的相關性和互補性，多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性，產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作，包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征，其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1

付費5元查看完整內容

圖像描述生成（Image Caption） ·

2020 年 9 月 10 日

[付費5元查看完整內容]【復旦大學】從視覺到文本: 圖像描述生成的研究進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。

//jcip.cipsc.org.cn/CN/abstract/abstract2995.shtml

付費5元查看完整內容

深度學習 · 自然語言處理 ·

2020 年 3 月 6 日

[付費5元查看完整內容]深度學習自然語言處理進展綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自然語言處理(NLP)幫助智能機器更好地理解人類語言，實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現，增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別，特別是NLP等領域的應用取得了顯著的進步，數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用，并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。

付費5元查看完整內容

深度學習 · 計算機視覺 · 注意力機制 · 人工智能 · 自然語言處理 ·

2019 年 11 月 17 日

[付費5元查看完整內容] 圖像內容自動描述技術綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要： 圖像內容自動描述是計算機視覺和自然語言處理領域的一個重要任務，在生活娛樂、智慧交通以及幫助視覺障礙者理解視覺內容等領域有著廣泛而重要的應用價值.相比于圖像分類和目標檢測等感知任務，圖像內容自動描述是一種更高級別、更復雜的認知任務，對幫助分析和理解圖像有著重要的意義.旨在對現有的圖像自動描述技術進行全面的綜述.討論圖像內容自動描述中常用的數據集和評價指標，以及現有圖像自動描述技術的性能、優點和局限性。

關鍵詞： 圖像內容描述;卷積神經網絡;循環神經網絡;注意力機制;深度學習

付費5元查看完整內容