對于一張包含了許多文字信息的圖片,不同的人感興趣的文字信息可能是不同的。然而目前對于圖片文字敏感的圖像描述模型并不能根據不同的信息需求生成個性化的描述。為了研究如何生成個性化的關于圖片文字的描述,我們定義了一個新的具有挑戰的任務,名為“問題控制的圖片文字敏感的圖像描述”(Qc-TextCap)。這個任務采用問題作為控制信號,要求模型首先理解問題,然后找到對應的圖片文字,最后結合圖像中的對象用流利的人類語言描述出來。我們基于已有的兩個“圖片文字敏感的圖像描述”數據集自動構建了兩個適合Qc-TextCap的數據集:ControlTextCaps和ControlVizWiz。我們進一步提出了一個新穎的對空間位置和問題敏感的模型(GQAM),可以逐步地編碼相關的視覺特征和文本特征以支持最后的描述生成。考慮到圖像中對象區域和文字區域的空間關系,GQAM首先應用一個空間視覺編碼器去融合相關的視覺特征。然后我們使用一個問題導向的編碼器去為每個問題挑選最相關的視覺特征。最后,GQAM使用一個多模態解碼器生成圖像描述。我們的模型在兩個數據集上的效果都超過了基準模型。通過問題作為控制信號,我們的模型可以得到更加多樣,更有信息量的圖像描述。
摘要
視覺和語言在生成智能中起著至關重要的作用。因此,在過去的幾年中,大量的研究致力于圖像描述,即用句法和語義上有意義的句子描述圖像的任務。從2015年開始,該任務通常使用由可視化編碼步驟和用于文本生成的語言模型組成的流程來解決。在這些年里,這兩個組件通過開發對象區域、屬性和關系以及引入多模態連接、充分關注的方法和類似BERT的早期融合策略得到了相當大的發展。然而,盡管已經取得了令人印象深刻的成果,但關于圖像描述的研究還沒有得出一個結論性的答案。這項工作旨在提供圖像描述方法的全面概述和分類,從視覺編碼和文本生成到訓練策略,使用的數據集和評估指標。在這方面,我們定量比較了許多相關的最先進的方法,以確定在圖像描述架構和訓練策略中最具影響力的技術創新。此外,本文還分析和討論了該問題的許多變體及其面臨的挑戰。這項工作的最終目標是作為一個工具來理解現有的最先進的技術,并強調計算機視覺和自然語言處理可以找到最佳協同的未來研究方向。
引言
圖像描述(Image Captioning)生成有意義的、語法正確的句子。神經科學研究在最近幾年才闡明了人類視覺和語言生成之間的聯系。類似地,在人工智能中,能夠處理圖像和生成語言的架構設計是一個非常新問題。這些研究工作的目標是找到最有效的管道來處理輸入圖像,表示其內容,并通過在保持語言流暢的同時產生視覺和文本元素之間的聯系,將其轉換為一系列單詞。在其標準配置中,圖像描述是一個圖像到序列的問題,其輸入是像素。在視覺編碼步驟中,這些特征被編碼為一個或多個特征向量,為第二個生成步驟(稱為語言模型)準備輸入。這將產生一個根據給定詞匯表解碼的單詞或子單詞序列。在這幾年里,研究人員對模型進行了很大的改進:從第一個基于深度學習的模型,采用循環神經網絡(RNNs),并通過卷積神經網絡(CNN)提取全局圖像描述子,方法已經被注意力方法和強化學習豐富,直到突破變體和自注意力到單流BERT-like方法。與此同時,計算機視覺和自然語言處理(NLP)社區已經解決了建立適當的評估協議和評估指標的挑戰,以將結果與人工生成的標準進行比較。此外,還研究了該任務的幾個特定領域的場景和變體。然而,取得的成果還遠未確定最終的解決方案。在本文中,我們追溯了過去幾年發展起來的模型的整體概述。
根據描述模型固有的雙重性,我們提出開發了視覺編碼和語言建模方法的分類,重點關注它們的關鍵方面和限制。我們還關注了過去幾年文獻中遵循的訓練策略,從交叉熵損失到強化學習,以及預訓練范式獲得的最新進展。此外,我們回顧了用于探索圖像描述的主要數據集,從領域通用基準到收集來調查問題的特定方面的領域特定數據集,并分析用于性能評估的標準和非標準指標,這些指標捕獲產生描述質量的不同方面。這項工作的另一個貢獻是對主要圖像描述方法進行定量比較,其中考慮了標準和非標準指標,并討論了它們之間的關系,闡明了最重要模型的性能、差異和特征。最后,我們概述了該問題的許多變體,并討論了一些開放的挑戰和未來的方向。
摘要: 圖像描述生成結合了計算機視覺和自然語言處理2個研究領域,不僅要求完備的圖像語義理解,還要求復雜的自然語言表達,是進一步研究符合人類感知的視覺智能的關鍵任務.對圖像描述生成的研究進展做了回顧.首先,歸納分析了當前基于深度學習的圖像描述生成方法涉及的5個關鍵技術,包括整體架構、學習策略、特征映射、語言模型和注意機制.然后,按照發展進程將現有的圖像描述生成方法分為4大類,即基于模板的方法、基于檢索的方法、基于編碼器-解碼器架構的方法和基于復合架構的方法,并闡述了各類方法的基本概念、代表性方法和研究現狀,重點討論了基于編碼器-解碼器架構的各種方法及其創新思路,如多模態空間、視覺空間、語義空間、注意機制、模型優化等.接著,從實驗的角度給出圖像描述生成的常用數據集和評估措施,并在2個基準數據集上比較了一些典型方法的性能.最后,以提升圖像描述的準確性、完整性、新穎性、多樣性為依據,展示了圖像描述生成的未來發展趨勢.
隨著互聯網與信息技術的發展,多媒體數據呈現 爆炸性增長的趨勢,從各種信息源(如網絡、新聞、 相機等)上可獲得的圖像數據越來越多.由于圖像數 據具有海量特性和非結構化特性,如何快速有效的組 織、存儲和檢索圖像,成為重要的研究課題,而完備 的圖像語義理解則是其中的關鍵問題[1].盡管從信息 源上獲取的大多數圖像并沒有對應的語義描述,但人 類仍然能夠在很大程度上理解它們.也就是說,人類 很容易就能完成涉及復雜視覺識別以及場景理解的 各種任務、涉及自然語言交流的各種任務以及 2 種模 態之間的轉換任務.例如,只需快速瀏覽圖像就足以 讓人指出并描述關于視覺場景的大量細節,而這對于 機器來說目前仍然是難以完成的任務.為了實現圖像 數據的結構化和半結構化,從語義上更完備地理解圖 像數據,從而進一步研究更符合人類感知的視覺智 能,迫切需要機器能夠為給定圖像自動地生成自然語 言描述.
計算機視覺研究如何理解圖像和視頻,而自然語 言處理研究如何分析和生成文本.盡管這 2 個領域的 研究都采用類似的人工智能和機器學習方法,但在很 長一段時間里它們都是各自發展而很少交叉.近幾 年,結合視覺和語言的跨模態問題受到了廣泛關 注.事實上,許多日常生活中的任務都具有這種跨模 態的特性.例如,看報紙時解釋圖片的上下文信息, 聽報告時為理解講話而搭配圖表,網頁上提供大量結 合視覺信息和自然語言的數據(帶標簽的照片、新聞 里的圖片視頻、具有多模態性質的社交媒體)等.為 完成結合視覺和語言的任務并充分利用多模態數據, 計算機視覺和自然語言處理 2 個領域的聯系越來越 緊密. 在這個新的視覺和語言交叉的研究領域中,圖像 描述生成是個重要的任務,該任務包括獲取圖像信 息、分析其視覺內容、生成文本描述以說明圖像中的 顯著物體和行為等步驟[2-5].圖 1 給出了幾個根據圖 像內容生成描述語句的實例.
本文提出了一個雙層級特征協作的Transformer結構,以實現區域特征和網格特征兩者的優勢互補,并在其中提出了特征幾何對齊圖來指導特征間的信息交互,從而解決多路特征直接融合帶來的語義噪聲問題,最終在該任務的線上線下常用公開數據集上均證明了此模型的優勢。
摘要 近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。
摘要:近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。