Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution
近年來,視覺信息提取技術因其在文檔理解、自動標注、智能教育等方面的先進應用而備受關注。現有的研究大多將這一問題解耦為文本點識別(text detection and recognition)和信息提取幾個獨立的子任務,在優化過程中完全忽略了它們之間的高相關性。在本文中,我們提出了一個面向真實場景的魯棒視覺信息提取系統(VIES),它是一個統一的端到端可訓練的框架,以單個文檔圖像作為輸入和輸出結構化信息,同時進行文本檢測、識別和信息提取。信息提取分支從文本點識別中收集豐富的視覺和語義表征,進行多模態特征融合,提供更高層次的語義線索,有助于文本點識別的優化。此外,針對公共基準的不足,我們構建了一個全注釋數據集EPHOIE (//github.com/HCIILAB/EPHOIE),該數據集是第一個同時用于文本識別和視覺信息提取的中文基準。EPHOIE包含1,494張復雜布局和背景的試卷頭圖像,包括15,771個中文手寫或打印文本實例。與最先進的方法相比,我們的VIES在EPHOIE數據集中顯示了顯著的優越性能,并且在端到端場景下,在廣泛使用的SROIE數據集上獲得9.01%的F-score增益。
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。
人類有一種辨別環境中未知物體的本能。當最終獲得相應的知識時,對這些未知實例的內在好奇心有助于了解它們。這激勵我們提出一種新穎的計算機視覺問題稱:“開放世界目標檢測”,在一個模型的任務是:1) 識別的對象沒有被介紹,成為“未知”,沒有明確的監督,和 2)增量學習這些識別未知類別。本文提出了一種基于對比聚類和基于能量的未知識別的開放世界目標檢測方案。我們的實驗評價和消融研究分析了ORE 在實現開放世界目標的有效性。作為一個有趣的副產品,我們發現識別和描述未知實例有助于減少增量對象檢測設置中的混亂,在增量對象檢測設置中,我們實現了最先進的性能,而不需要額外的方法努力。我們希望我們的工作將吸引對這一新確定的關鍵研究方向的進一步研究。
自然語言推理(NLI)是自然語言處理的一項基本任務,主要研究兩個文本之間的蘊含關系。流行的NLI數據集是對該任務句子級別的研究。它們可以用來探討語義表示,但并未涉及基于長文本的上下文推理,而這是人類推理過程的自然組成部分。我們提出了ConTRoL數據集來用于研究長文本的上下文推理。ConTRoL由8,325個專家設計的帶有高質量標簽的“上下文-假設”對組成,是一個段落級別的NLI數據集,重點關注復雜的上下文推理類型,例如邏輯推理。它是從競爭性甄選和招聘測試(推理測試)衍生而來的,具有很高的質量。與以前的NLI基準相比,ConTRoL中的材料更具挑戰性,涉及多種推理類型。
實證結果表明,最先進的語言模型在ConTRoL上的性能表現遠不如受過良好教育的人類。我們的數據集還可以用作下游任務(如檢查摘要的事實正確性)的測試集。
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa
通過最小化逆動力學分歧來實現從觀察中模仿學習 Consensus-Aware Visual-Semantic Embedding for Image-Text Matching
本文由騰訊 AI Lab 主導,與天津大學合作完成,提出了一種新的視覺-文本匹配模型。
當今互聯網中存在海量的多媒體數據,其中最廣泛存在的分別是圖像和語言數據。圖像-文本匹配任務的核心目的是跨越視覺和語言間的語義鴻溝,進而實現更精準的語義理解。現有的方法只依賴于成對的圖像-文本示例來學習跨模態表征,進而利用它們的匹配關系并進行語義對齊。這些方法只利用示例級別的數據中存在的表層關聯,而忽略了常識知識的價值,這會限制其對于圖像與文本間更高層次語義關系的推理能力。
本論文提出將兩種模態間共享的常識知識注入到視覺語義嵌入模型中,進而用于圖像文本匹配。具體來說,首先基于圖像描述語料庫中概念間的統計共生關系構造了語義關系圖,并在此基礎上利用圖卷積得到共識知識驅動的概念表征。通過共識知識和示例級表征的聯合利用,能夠學習到圖像和文本間的高層次語義關聯并進行語義對齊。
模型的不同模塊的結構
給定輸入的圖像區域特征和文本單詞特征,本文提出的 CVSE 模型不僅可以學習示例級別特征,還挖掘共識知識來學習更高層次的語義關聯,從而實現更加準確的文本圖像匹配。
在兩個公共數據集上的大量實驗表明,使用共識知識可以大幅增強視覺語義嵌入模型的表征能力,使其在圖像-文本雙向檢索任務上的表現顯著優于現有方法。
基于場景圖分解的自然語言描述生成 Comprehensive Image Captioning via Scene Graph Decomposition
本文由騰訊 AI Lab 主導,與威斯康星大學麥迪遜分校合作完成,提出了一種基于場景圖分解的自然語言描述生成方法。
使用自然語言來描述圖像是一項頗具挑戰性的任務,本文通過重新回顧圖像場景圖表達,提出了一種基于場景圖分解的圖像自然語言描述生成方法。該方法的核心是把一張圖片對應的場景圖分解成多個子圖,其中每個子圖對應描述圖像的一部分內容或一部分區域。通過神經網絡選擇重要的子圖來生成一個描述圖像的完整句子,該方法可以生成準確、多樣化、可控的自然語言描述。研究者也進行了廣泛的實驗,實驗結果展現了這一新模型的優勢。
如圖所示,新方法從輸入圖像生成場景圖,并且分解為一系列子圖。本文設計了一個子圖生成網絡(sGPN),用于學習識別有意義的子圖,這些子圖基于注意力的 LSTM 可以進一步解碼生成句子,并且將短語匹配到圖節點對應的圖像區域。通過利用子圖,模型可實現準確、多樣化且可控制的圖像描述生成。
在各種在線應用中,推薦系統在解決信息爆炸問題、增強用戶體驗方面顯示出了巨大的潛力。為了解決推薦系統中的數據稀疏性和冷啟動問題,研究人員提出了基于知識圖譜的推薦,利用有價值的外部知識作為輔助信息。然而,這些研究大多忽略了多模態知識圖譜(MMKGs)中數據類型的多樣性(如文本和圖像)。為了更好地利用多模態知識,提出了一種多模態知識圖譜注意力網絡(MKGAT)。具體地說,我們提出了一種多模態圖注意力技術,在MMKGs上進行信息傳播,然后使用所得到的聚合嵌入表示進行推薦。據我們所知,這是第一個將多模態知識圖譜引入推薦系統的工作。我們在來自不同領域的兩個真實數據集上進行了大量的實驗,實驗結果表明我們的模型MKGAT能夠成功地應用MMKGs來提高推薦系統的質量。
題目: Semantic Graphs for Generating Deep Questions
摘要:
本文提出了深度問題生成(Deep Question Generation, DQG)問題,其目的是生成需要對輸入通道的多條信息進行推理的復雜問題。為了捕獲文檔的全局結構并便于推理,我們提出了一個新的框架,該框架首先為輸入文檔構造一個語義級圖,然后通過引入一個基于注意的GGNN (Att-GGNN)對語義圖進行編碼。然后,我們融合文檔級和圖形級的表示來執行內容選擇和問題解碼的聯合訓練。在HotpotQA以深度問題為中心的數據集上,我們的模型大大改善了需要對多個事實進行推理的問題的性能,從而實現了最先進的性能。