視覺信息提取(VIE)在文檔智能領域中扮演著重要角色。通常,它可以分為兩個任務:語義實體識別(SER)和關系抽取(RE)。最近,針對文檔的預訓練模型在 VIE 方面取得了顯著進展,特別是在 SER 領域。然而,大多數現有模型以隱式方式學習幾何表示,這對 RE 任務來說被認為是不夠的,因為幾何信息對 RE 尤為關鍵。此外,我們發現限制 RE 性能的另一個因素在于預訓練階段與 RE 微調階段之間的目標差距。為了解決這些問題,我們在本文中提出了一種用于 VIE 的多模態框架,名為 GeoLayoutLM。GeoLayoutLM 在預訓練階段顯式地對幾何關系進行建模,我們稱之為幾何預訓練。幾何預訓練通過三個專門設計的與幾何相關的預訓練任務來實現。此外,我們精心設計了新穎的關系頭,這些關系頭通過幾何預訓練任務進行預訓練,并針對 RE 進行微調,以豐富和增強特征表示。根據對標準 VIE 基準的廣泛實驗,GeoLayoutLM 在 SER 任務中獲得了非常具有競爭力的分數,并在 RE 任務中顯著優于先前的最先進方法(例如,RE 在 FUNSD 上的 F1 分數從 80.35% 提高到 89.45%)。
//www.zhuanzhi.ai/paper/ae145d71d4b8a928e02dd161f0f851db
自監督學習(SSL)在視覺表示學習方面取得了顯著進展。一些研究將SSL與知識蒸餾(SSL- KD)相結合,以提高小型模型的表示學習性能。本文提出一種多模態在線知識蒸餾方法(MOKD)來增強自監督視覺表示學習。與現有的SSL-KD方法將知識從靜態的預訓練教師遷移到學生不同,在MOKD中,兩個不同的模型以自監督方式進行協作學習。具體而言,MOKD由兩種蒸餾模式組成:自蒸餾模式和交叉蒸餾模式。其中,自蒸餾獨立地對每個模型進行自監督學習,而交叉蒸餾實現不同模型之間的知識交互。在交叉蒸餾中,提出一種交叉注意力特征搜索策略,以增強不同模型之間的語義特征對齊。因此,兩個模型可以相互吸收知識以提高其表示學習性能。在不同的主干和數據集上的廣泛實驗結果表明,兩個異構模型可以從MOKD中受益,并優于其獨立訓練的基線。此外,MOKD也優于現有的SSL-KD方法在學生模型和教師模型。
//www.zhuanzhi.ai/paper/6589b817e4f5f6365ba27bc85aac2ae4
將CLIP等對比圖像-文本預訓練模型用于視頻分類,因其成本效益和具有競爭力的性能而受到關注。然而,最近在這一領域的工作面臨一個權衡。對預訓練模型進行微調以實現強監督性能,會導致低零樣本泛化。類似地,凍結主干以保留零樣本能力會導致監督精度的顯著下降。因此,最近的文獻工作通常為監督和零樣本行為識別訓練單獨的模型。本文提出一種多模態提示學習方案,在單一統一訓練下平衡有監督和零樣本的性能。視覺方面的提示方法滿足了三個方面的需求:1)全局視頻級提示對數據分布進行建模;2)局部幀級提示,為每幀提供判別式條件;以及3)用于提取濃縮視頻表示的摘要提示。此外,在文本端定義了一個提示方案,以增強文本上下文。通過這種激勵方案,可以在Kinetics-600、HMDB51和UCF101上實現最先進的零樣本性能,同時在有監督的環境中保持競爭力。通過保持預訓練主干凍結,優化了更少的參數數量,并保留了現有的通用表示,這有助于實現強大的零樣本性能。我們的代碼/模型發布在//github.com/TalalWasim/Vita-CLIP.
我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。
//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4
視覺語言表征學習在很大程度上受益于圖像-文本的對比損失(例如InfoNCE損失)。這種對齊策略的成功是由于它能夠最大化圖像與匹配文本之間的互信息(MI)。然而,簡單地執行跨模態對齊(CMA)忽略了每個模態中的數據潛力,這可能導致表示的退化。例如,盡管基于CMA的模型能夠將圖像-文本對在嵌入空間中緊密地映射在一起,但它們不能確保來自相同模態的相似輸入保持在一起。當訓練前的數據有噪聲時,這個問題會變得更糟。在本文中,我們提出了利用跨模態和內模態自監督的三重對比學習(TCL)來進行視覺語言預訓練。除了CMA之外,TCL還引入了一個模態內對比目標,以在表示學習中提供互補的好處。為了利用來自圖像和文本輸入的局部和結構信息,TCL進一步最大化了圖像/文本局部區域和它們的全局摘要之間的平均MI。據我們所知,我們的工作是第一個考慮到局部結構信息的多模態表示學習。實驗評估表明,我們的方法在各種常見的下游視覺語言任務,如圖像-文本檢索和視覺問題回答上具有競爭力,達到了最新的技術水平。
//www.zhuanzhi.ai/paper/12af4807da28b56ef7ef66423f27cce9
論文鏈接: //www.zhuanzhi.ai/paper/ccffad6c8b192de0cd9569ea05d05019
圖像差異描述生成(Image Difference Captioning,簡稱IDC) 的目標是對比兩張相似圖片、捕捉它們之間的視覺差異,然后用自然語言將這些差異描述出來,如圖1所示。相比于經典的圖像描述生成任務(Image Captioning, 為一張圖片生成內容描述),它涉及兩張相似圖片的內容理解與對比,更富有挑戰性。這個任務在現實生活中有廣泛的應用,比如協助鳥類學家區分并記錄相似的鳥類品種,自動檢測和描述監控視頻中的場景變化等等。
圖1 圖像差異描述任務的兩個例子
IDC任務主要有兩方面的挑戰:
· 一方面,相似圖片之間的差異是非常細粒度的,捕捉并描述出這種細粒度差異,需要建立(圖片1,圖片2,文本)三者之間更強的聯系;
· 另一方面,該任務所需的三元組數據,人工標注的成本非常高,導致已有數據集的規模都較小,且不同數據集之間domain差異較大。
受到近期視覺-語言預訓練(VLP)工作的啟發,我們為IDC任務提出了一種預訓練-微調的新范式。
對于IDC的第一個挑戰,我們結合對比學習設計了三個自監督任務,在細粒度層面對視覺和語言的特征表示進行了對齊。對于第二個挑戰,我們額外使用了來自其他任務的同域數據,來緩解標注數據較少的問題。我們的框架能靈活地處理這些形式不一的額外數據。實驗表明,我們的模型在CLEVR-Change和Birds-to-words兩個數據集上都取得了最佳效果。
最近一年以來蓬勃發展的自然語言處理新范式“提示學習”(Prompt Learning),通過構造提示模板和標簽映射,顯著提升了模型的少樣本、跨領域、多任務等能力。在提示學習中,如何針對具體任務,構建出最合適的模板提示和標簽映射組合,是提升任務性能的關鍵。因此,通過植入相關的任務和領域知識來構建提示模板,以“知識提示”指導預訓練語言模型,可以提升模型對任務和領域的感知,充分的激發預訓練語言模型的潛力,提升任務性能。本文梳理了有關“知識提示”的學習方法,并介紹了被TheWebConf(WWW)2022錄用的兩個新工作:OntoPrompt和KnowPrompt。其中, KnowPrompt在提示學習框架中引入實體關系約束,將知識圖譜中的實體關系植入到提示學習中;OntoPrompt則實現了將本體知識(Ontology)選擇性植入提示學習中來解決少樣本學習問題。
近年來,圍繞著圖卷積網絡(GCN)這一主題的文獻大量涌現。如何有效地利用復雜圖(如具有異構實體和關系類型的知識圖譜)中豐富的結構信息是該領域面臨的主要挑戰。大多數GCN方法要么局限于具有同質邊類型的圖(例如,僅引用鏈接),要么只專注于節點的表示學習,而不是針對目標驅動的目標共同傳播和更新節點和邊的嵌入。本文提出了一種新的框架,即基于知識嵌入的圖卷積網絡(KE-GCN),該框架結合了基于圖的信念傳播中知識嵌入的能力和高級知識嵌入(又稱知識圖嵌入)方法的優勢,從而解決了這些局限性。我們的理論分析表明,KE-GCN作為具體案例提供了幾種著名的GCN方法的優雅統一,并提供了圖卷積的新視角。在基準數據集上的實驗結果表明,與強基線方法相比,KE-GCN方法在知識圖譜對齊和實體分類等任務中具有明顯的優勢。
Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution
近年來,視覺信息提取技術因其在文檔理解、自動標注、智能教育等方面的先進應用而備受關注。現有的研究大多將這一問題解耦為文本點識別(text detection and recognition)和信息提取幾個獨立的子任務,在優化過程中完全忽略了它們之間的高相關性。在本文中,我們提出了一個面向真實場景的魯棒視覺信息提取系統(VIES),它是一個統一的端到端可訓練的框架,以單個文檔圖像作為輸入和輸出結構化信息,同時進行文本檢測、識別和信息提取。信息提取分支從文本點識別中收集豐富的視覺和語義表征,進行多模態特征融合,提供更高層次的語義線索,有助于文本點識別的優化。此外,針對公共基準的不足,我們構建了一個全注釋數據集EPHOIE (//github.com/HCIILAB/EPHOIE),該數據集是第一個同時用于文本識別和視覺信息提取的中文基準。EPHOIE包含1,494張復雜布局和背景的試卷頭圖像,包括15,771個中文手寫或打印文本實例。與最先進的方法相比,我們的VIES在EPHOIE數據集中顯示了顯著的優越性能,并且在端到端場景下,在廣泛使用的SROIE數據集上獲得9.01%的F-score增益。