摘要: 基于視覺和語言的跨媒體問答與推理是人工智能領域的研究熱點之一,其目的是基于給定的視覺內容和相關問題,模型能夠返回正確的答案。隨著深度學習的飛速發展及其在計算機視覺和自然語言處理領域的廣泛應用,基于視覺和語言的跨媒體問答與推理也取得了較快的發展。文中首先系統地梳理了當前基于視覺和語言的跨媒體問答與推理的相關工作,具體介紹了基于圖像的視覺問答與推理、基于視頻的視覺問答與推理以及基于視覺常識推理模型與算法的研究進展,并將基于圖像的視覺問答與推理細分為基于多模態融合、基于注意力機制和基于推理3類,將基于視覺常識推理細分為基于推理和基于預訓練2類;然后總結了目前常用的問答與推理數據集,以及代表性的問答與推理模型在這些數據集上的實驗結果;最后展望了基于視覺和語言的跨媒體問答與推理的未來發展方向。
摘要: 圖像描述生成結合了計算機視覺和自然語言處理2個研究領域,不僅要求完備的圖像語義理解,還要求復雜的自然語言表達,是進一步研究符合人類感知的視覺智能的關鍵任務.對圖像描述生成的研究進展做了回顧.首先,歸納分析了當前基于深度學習的圖像描述生成方法涉及的5個關鍵技術,包括整體架構、學習策略、特征映射、語言模型和注意機制.然后,按照發展進程將現有的圖像描述生成方法分為4大類,即基于模板的方法、基于檢索的方法、基于編碼器-解碼器架構的方法和基于復合架構的方法,并闡述了各類方法的基本概念、代表性方法和研究現狀,重點討論了基于編碼器-解碼器架構的各種方法及其創新思路,如多模態空間、視覺空間、語義空間、注意機制、模型優化等.接著,從實驗的角度給出圖像描述生成的常用數據集和評估措施,并在2個基準數據集上比較了一些典型方法的性能.最后,以提升圖像描述的準確性、完整性、新穎性、多樣性為依據,展示了圖像描述生成的未來發展趨勢.
隨著互聯網與信息技術的發展,多媒體數據呈現 爆炸性增長的趨勢,從各種信息源(如網絡、新聞、 相機等)上可獲得的圖像數據越來越多.由于圖像數 據具有海量特性和非結構化特性,如何快速有效的組 織、存儲和檢索圖像,成為重要的研究課題,而完備 的圖像語義理解則是其中的關鍵問題[1].盡管從信息 源上獲取的大多數圖像并沒有對應的語義描述,但人 類仍然能夠在很大程度上理解它們.也就是說,人類 很容易就能完成涉及復雜視覺識別以及場景理解的 各種任務、涉及自然語言交流的各種任務以及 2 種模 態之間的轉換任務.例如,只需快速瀏覽圖像就足以 讓人指出并描述關于視覺場景的大量細節,而這對于 機器來說目前仍然是難以完成的任務.為了實現圖像 數據的結構化和半結構化,從語義上更完備地理解圖 像數據,從而進一步研究更符合人類感知的視覺智 能,迫切需要機器能夠為給定圖像自動地生成自然語 言描述.
計算機視覺研究如何理解圖像和視頻,而自然語 言處理研究如何分析和生成文本.盡管這 2 個領域的 研究都采用類似的人工智能和機器學習方法,但在很 長一段時間里它們都是各自發展而很少交叉.近幾 年,結合視覺和語言的跨模態問題受到了廣泛關 注.事實上,許多日常生活中的任務都具有這種跨模 態的特性.例如,看報紙時解釋圖片的上下文信息, 聽報告時為理解講話而搭配圖表,網頁上提供大量結 合視覺信息和自然語言的數據(帶標簽的照片、新聞 里的圖片視頻、具有多模態性質的社交媒體)等.為 完成結合視覺和語言的任務并充分利用多模態數據, 計算機視覺和自然語言處理 2 個領域的聯系越來越 緊密. 在這個新的視覺和語言交叉的研究領域中,圖像 描述生成是個重要的任務,該任務包括獲取圖像信 息、分析其視覺內容、生成文本描述以說明圖像中的 顯著物體和行為等步驟[2-5].圖 1 給出了幾個根據圖 像內容生成描述語句的實例.
摘要: 當前,以網絡數據為代表的跨媒體數據呈現爆炸式增長的趨勢,呈現出了跨模態、跨數據源的復雜關聯及動態演化特性,跨媒體分析與推理技術針對多模態信息理解、交互、內容管理等需求,通過構建跨模態、跨平臺的語義貫通與統一表征機制,進一步實現分析和推理以及對復雜認知目標的不斷逼近,建立語義層級的邏輯推理機制,最終實現跨媒體類人智能推理。文中對跨媒體分析推理技術的研究背景和發展歷史進行概述,歸納總結視覺-語言關聯等任務的關鍵技術,并對研究應用進行舉例。基于已有結論,分析目前跨媒體分析領域所面臨的關鍵問題,最后探討未來的發展趨勢。
摘要: 圖像修復是計算機視覺領域中極具挑戰性的研究課題。近年來,深度學習技術的發展推動了圖像修復性能的顯著提升,使得圖像修復這一傳統課題再次引起了學者們的廣泛關注。文章致力于綜述圖像修復研究的關鍵技術。由于深度學習技術在解決“大面積缺失圖像修復”問題時具有重要作用并帶來了深遠影響,文中在簡要介紹傳統圖像修復方法的基礎上,重點介紹了基于深度學習的修復模型,主要包括模型分類、優缺點對比、適用范圍和在常用數據集上的性能對比等,最后對圖像修復潛在的研究方向和發展動態進行了分析和展望。
對流體圖像序列進行運動分析一直是流體力學、醫學和計算機視覺等領域的重要研究課題。從圖像對中提取的密集精確的速度矢量場能夠為許多領域提供有價值的信息,基于光流法的流體運動估計技術因其獨特的優勢成為一個有前途的方向。光流法可以獲得具有較高分辨率的密集速度矢量場,在小尺度精細結構的測量上有所改進,彌補了基于相關分析法的粒子圖像測速技術的不足。此外,光流方法還可以方便的引入各種物理約束,獲得較為符合流體運動特性的運動估計結果。為了全面反映基于光流法的流體運動估計算法的研究進展,本文在廣泛調研相關文獻的基礎上,對國內外具有代表性的論文進行了系統闡述。首先介紹了光流法的基本原理,然后將現有算法按照要解決的突出問題進行分類:結合流體力學知識的能量最小化函數,提高對光照變化的魯棒性,大位移估計和消除異常值。對每類方法,從問題解決過程的角度予以介紹,分析了各類突出問題中現有算法的特點和局限性。最后,總結分析了流體運動估計技術當前面臨的問題和挑戰,并對未來基于光流法的運動估計算法的研究方向和研究重點進行了展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210209&flag=1
摘要 近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。
摘要: 圖像補全是圖像處理的一個研究領域,為有物體遮擋以及圖像關鍵部分缺失狀況下的圖像識別提供了解決方案,應用領域非常廣泛,受到了人們的關注。經深度學習方法補全的圖像具有更高的圖像分辨率和可靠性,逐漸成為圖像補全的主流方法之一。文中針對圖像補全領域的主要問題,介紹了相關深度學習方法的基本原理和經典算法,系統而漸進地剖析了2010年以來有代表性的圖像補全方法,探討了基于深度學習的圖像補全在不同領域的具體應用,并列舉了該研究領域目前面臨的幾個問題。
我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1
摘要: 作為目前主流翻譯方法的神經網絡機器翻譯已經取得了很大突破, 在很多具有豐富數據資源的語言上的翻譯質量也不斷得到改善, 但對于稀缺資源語言的翻譯效果卻仍然并不理想. 稀缺資源語言機器翻譯是目前機器翻譯領域的重要研究熱點之一, 近幾年來吸引了國內外的廣泛關注. 本文對稀缺資源語言機器翻譯的研究進行比較全面的回顧, 首先簡要介紹了與稀缺資源語言翻譯相關的學術活動和數據集, 然后重點梳理了目前主要的研究方法和一些研究結論, 總結了每類方法的特點, 在此基礎上總結了不同方法之間的關系并分析了目前的研究現狀. 最后, 對稀缺資源語言機器翻譯未來可能的研究趨勢和發展方向進行了展望,并給出了相關建議.
摘要:近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。
摘要 : 零樣本圖像分類指訓練集和測試集在數據的類別上沒有交集的情況下進行圖像分類 . 該技術 是解決類別標簽缺失問題的一種有效手段 , 因此受到了日益廣泛的關注 . 自提出此問題至今 , 零樣本 圖像分類的研究已經大致有十年時間 . 本文系統地對過去十年中零樣本圖像分類技術的研究進展進行 了綜述 , 主要包括以下 4 個方面 . 首先介紹零樣本圖像分類技術的研究意義及其應用價值 , 然后重點 總結和歸納零樣本圖像分類的發展過程和研究現狀 , 接下來介紹常用的數據集和評價準則 , 以及與零 樣本學習相關的技術的區別和聯系 , 最后分析有待深入研究的熱點與難點問題 , 并對未來的發展趨勢 進行了展望 .
關鍵詞: 零樣本圖像分類 , 屬性 , 詞向量 , 跨模態映射 , 領域適應學習