基于場景圖分解的自然語言描述生成 Comprehensive Image Captioning via Scene Graph Decomposition
本文由騰訊 AI Lab 主導,與威斯康星大學麥迪遜分校合作完成,提出了一種基于場景圖分解的自然語言描述生成方法。
使用自然語言來描述圖像是一項頗具挑戰性的任務,本文通過重新回顧圖像場景圖表達,提出了一種基于場景圖分解的圖像自然語言描述生成方法。該方法的核心是把一張圖片對應的場景圖分解成多個子圖,其中每個子圖對應描述圖像的一部分內容或一部分區域。通過神經網絡選擇重要的子圖來生成一個描述圖像的完整句子,該方法可以生成準確、多樣化、可控的自然語言描述。研究者也進行了廣泛的實驗,實驗結果展現了這一新模型的優勢。
如圖所示,新方法從輸入圖像生成場景圖,并且分解為一系列子圖。本文設計了一個子圖生成網絡(sGPN),用于學習識別有意義的子圖,這些子圖基于注意力的 LSTM 可以進一步解碼生成句子,并且將短語匹配到圖節點對應的圖像區域。通過利用子圖,模型可實現準確、多樣化且可控制的圖像描述生成。
盡管近年來計算機視覺技術已經取得了長足的進步,但是對于復雜視覺場景 的感知和理解,目前的計算機模型表現還遠遠沒有達到大規模普及和落地應用的 水平。為了充分地利用日常生活中海量的視覺媒體數據,復雜視覺場景的感知和理 解已經逐漸成為計算機視覺領域的一個研究熱點。
本文將針對四個不同層次的視覺場景理解(物體級別識別、場景級別識別、場 景級別理解和場景級別推理),逐步地對復雜視覺場景中視覺內容的識別、檢測和 推理進行研究。本文的關鍵技術線路主要聚焦于零樣本物體分類、圖像場景圖生 成、圖像描述生成、視頻片段檢索和視覺問答等具體視覺場景理解任務。在此研究 技術路線下,本文主要的研究內容和貢獻如下:
1)針對零樣本物體分類模型中普遍存在的語義丟失問題,本文提出一種全新 的零樣本學習網絡。該網絡首次引入兩個相互獨立的映射網絡分支,將圖像分類和 圖像重建兩個原本相互沖突的任務分離出來。同時借助對抗學習,實現重建網絡分 支和分類網絡分支之間的屬性遷移。
2)針對圖像場景圖生成模型中優化目標通常忽略不同物體的重要性差異的問 題,本文提出一種全新的訓練框架,首次將圖像場景圖生成任務轉化成一個多智能 體協同決策問題,從而可以直接將整個圖像場景圖質量作為模型的優化目標。同 時,本文還提出了一個反事實基準模型,可以有效地計算出每個物體類別預測對整 體場景圖生成質量的局部貢獻。
3)參考現有的空間注意力機制,本文首次提出通道注意力機制。同時,通過 充分挖掘卷積神經網絡的特征圖的三個不同維度(空間、通道和層級)之間的聯系, 提出一種全新的空間和通道注意力網絡。在圖像描述生成任務中,該網絡不僅極大 地提升了描述語句的生成質量,同時幫助人們理解在語句生成過程中特征圖的變 化過程。
4)針對目前視頻片段檢索任務中兩種主流框架(自頂向下和稀疏型自底向上) 的設計缺陷,本文提出了一種全新的密集型自底向上的框架。通過將動作邊界定位問題分解成相關性預測和邊界回歸兩個子問題,顯著地降低了動作邊界定位的難 度。同時,本文提出一個基于圖卷積的特征金字塔層,來進一步增強骨干網絡編碼 能力。
5)針對目前視覺問答模型忽略的兩個重要特性(視覺可解釋性和問題敏感性), 本文提出了一種通用的反事實樣本生成機制。通過遮蓋圖像中的重要區域或問題 中的重要單詞,同時更改標準答案,來合成全新的反事實訓練樣本。通過使用原始 訓練樣本和反事實訓練樣本一起對模型進行訓練,迫使視覺問答模型關注被遮蓋 的重要內容,提升模型的視覺可解釋性和問題敏感性。
地址:
互聯網上短視頻的快速涌現為視頻內容的精準檢索帶來了前所未有的挑戰。使用自然語言文本描述對視頻進行跨模態檢索(Cross-modal Video-Text Retrieval)是最符合自然人機交互的方式之一,能更加全面細粒度地表達用戶檢索需求,得到了越來越多的研究關注。
當前跨模態檢索的主要方法將視頻和文本模態映射到聯合視覺語義空間以計算跨模態相似度。大部分工作[1,2]使用全局特征向量分別表示視頻和文本信息,但是文本和視頻中包含了豐富復雜的元素,例如圖1中的事件檢索涉及了不同的動作、實體、以及動作實體之間的關系等等,使用單一的特征表示很難捕獲細粒度的語義信息。少量工作[3]提出細粒度的密集匹配,將視頻和文本表示為序列化特征,對每一序列元素進行局部對齊匹配,融合得到全局跨模態相似度,然而僅使用序列化表示忽略了文本或視頻內部復雜的拓撲結構,不能準確地表示事件中不同元素之間的關系,使得局部對齊匹配的語義表達能力下降。
視頻文本匹配被分解包括事件(Event)、動作(Action)和實體(Entities)的三個層次,形成整體到局部的結構。一方面,模型可借助局部語義元素增強全局語義匹配;另一方面,全局語義信息也能幫助局部元素的語義理解,增強局部信息的跨模態匹配。
因此,我們提出了層次化圖推理模型(Hierarchical Graph Reasoning model, HGR),更好地結合全局和局部密集匹配的優點,并彌補其不足。如圖1所示,我們將視頻文本匹配分解為三層的語義級別,分別負責刻畫全局事件(Event)以及局部的動作(Action)和實體(Entities),以涵蓋整體到局部的語義信息。首先對于文本編碼,全局事件由整個句子表示,動作由動詞表示,實體則由名詞短語表示。不同語義級別不是獨立的,它們之間的交互反映了它們在事件中扮演的語義角色(Semantic Role),因此我們建立三層語義級別的語義角色圖(Semantic Role Graph),提出利用基于注意力的圖推理方法來捕捉圖中的交互信息。然后,不同層次的文本特征用于指導多樣化的視頻編碼,視頻也被編碼為與事件、動作和實體相關的層次化表示。每一層次級通過注意力機制進行跨模態匹配,最后進行不同層次的融合。
我們在三個視頻描述數據集上進行實驗,從3個方面證明了所提出模型的有效性: 1) HGR模型在多個數據集中取得更好的跨模態檢索結果;2) 在跨數據集實驗中,HGR模型具有更強泛化性能;3) 提出了一個新的細粒度二元選擇任務,HGR模型更能區分細粒度語義變化和選擇更加全面的檢索結果。