即使有可靠的OCR模型,要回答需要在圖片中閱讀文字的問題,也對現有模型構成了一個挑戰。其中最困難的是圖片中經常有罕見字,多義字,比如地名,產品名,球隊名。
為了克服這個困難,我們的模型利用了圖片中多個模態的豐富信息來推測圖片中文字的語義,例如酒瓶上顯眼位置的字樣很可能是酒名。
有了這樣的直觀感受,我們設計了一個新的VQA模型---多模態圖神經網絡(MM-GNN)。它會首先構建一個具有三個子圖的特征節點圖,分別描述視覺,文字,和數字模態。此后,我們設計了三個融合子,在子圖間或子圖內進行信息傳遞。增強過后的節點特征被證明可以很好地幫助下游任務,我們在ST-VQA和Facebook的Text-VQA上都取得了SOTA的成績。
使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務,從機器人技術到計算機圖形再到醫學成像。然而,現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中,我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀,只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布,我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明,在這個過程中學習到的特征使整個類對象的三維語義分割成為可能,只訓練了30個帶標記的例子,證明了三維形狀、外觀和語義分割之間的緊密聯系。最后,我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用,并討論了未來工作的前景。
圖像分類和自然語言處理的最新發展,加上社交媒體使用的快速增長,使得實時檢測世界各地突發事件的技術取得了根本性的進步。應急響應就是這樣一個可以從這些進展中獲益的領域。通過每分鐘處理數十億的文本和圖像,可以自動檢測事件,從而使應急響應人員能夠更好地評估快速發展的情況并相應地部署資源。到目前為止,該領域的大多數事件檢測技術都集中在圖像或文本方法上,這限制了檢測性能并影響了向危機響應團隊傳遞信息的質量。在本文中,我們提出了一種新的多模態融合方法,利用圖像和文本作為輸入。特別地,我們介紹了一個交叉注意力模塊,它可以在一個樣本的基礎上從弱模態中過濾沒有信息和誤導的成分。此外,我們采用了一種基于多模態圖的方法,在訓練過程中隨機轉換不同多模態對的嵌入,以更好地規范學習過程,并通過從不同的樣本構造新的匹配對來處理有限的訓練數據。結果表明,我們的方法在三個與危機相關的任務上比單模態方法和強多模態基線有較大的優勢。
互聯網上短視頻的快速涌現為視頻內容的精準檢索帶來了前所未有的挑戰。使用自然語言文本描述對視頻進行跨模態檢索(Cross-modal Video-Text Retrieval)是最符合自然人機交互的方式之一,能更加全面細粒度地表達用戶檢索需求,得到了越來越多的研究關注。
當前跨模態檢索的主要方法將視頻和文本模態映射到聯合視覺語義空間以計算跨模態相似度。大部分工作[1,2]使用全局特征向量分別表示視頻和文本信息,但是文本和視頻中包含了豐富復雜的元素,例如圖1中的事件檢索涉及了不同的動作、實體、以及動作實體之間的關系等等,使用單一的特征表示很難捕獲細粒度的語義信息。少量工作[3]提出細粒度的密集匹配,將視頻和文本表示為序列化特征,對每一序列元素進行局部對齊匹配,融合得到全局跨模態相似度,然而僅使用序列化表示忽略了文本或視頻內部復雜的拓撲結構,不能準確地表示事件中不同元素之間的關系,使得局部對齊匹配的語義表達能力下降。
視頻文本匹配被分解包括事件(Event)、動作(Action)和實體(Entities)的三個層次,形成整體到局部的結構。一方面,模型可借助局部語義元素增強全局語義匹配;另一方面,全局語義信息也能幫助局部元素的語義理解,增強局部信息的跨模態匹配。
因此,我們提出了層次化圖推理模型(Hierarchical Graph Reasoning model, HGR),更好地結合全局和局部密集匹配的優點,并彌補其不足。如圖1所示,我們將視頻文本匹配分解為三層的語義級別,分別負責刻畫全局事件(Event)以及局部的動作(Action)和實體(Entities),以涵蓋整體到局部的語義信息。首先對于文本編碼,全局事件由整個句子表示,動作由動詞表示,實體則由名詞短語表示。不同語義級別不是獨立的,它們之間的交互反映了它們在事件中扮演的語義角色(Semantic Role),因此我們建立三層語義級別的語義角色圖(Semantic Role Graph),提出利用基于注意力的圖推理方法來捕捉圖中的交互信息。然后,不同層次的文本特征用于指導多樣化的視頻編碼,視頻也被編碼為與事件、動作和實體相關的層次化表示。每一層次級通過注意力機制進行跨模態匹配,最后進行不同層次的融合。
我們在三個視頻描述數據集上進行實驗,從3個方面證明了所提出模型的有效性: 1) HGR模型在多個數據集中取得更好的跨模態檢索結果;2) 在跨數據集實驗中,HGR模型具有更強泛化性能;3) 提出了一個新的細粒度二元選擇任務,HGR模型更能區分細粒度語義變化和選擇更加全面的檢索結果。
簡介: 計算機視覺研究大多都集中在不重疊的目標對象上,然而,目標對象卻不足以描述豐富的視覺知識,于是,研究者就通過語言特征來獲取更多的信息。通過圖片與文字敘述相結合的多模態信息融合來獲取一個場景圖譜。
場景要旨的吸引人的想法的困難在于,關于“要旨”的內容尚無共識。 場景中某些對象應至少是要點的一部分。必須將對象之間的某些關系編碼為要點。 即使將所有物體都相同,所要表達的含義卻不同。
圖表示學習無處不在:
對具有獨立對象和關系的特征進行學習,將獲得一個場景圖譜: