現有的語義分割模型嚴重依賴于密集的像素級標注。為了減少標注的壓力,我們專注于一項具有挑戰性的任務,即零標注語義分割,它的目標是用零標注分割不可見的對象。這一任務可以通過語義詞嵌入在類別間傳遞知識來完成。在本文中,我們提出了一種新的基于上下文的零樣本分割特征生成方法——CaGNet。特別是在觀察到像素級特征高度依賴上下文信息的情況下,我們在分割網絡中插入上下文模塊來捕獲像素級特征的上下文信息,從而指導語義詞嵌入生成更加多樣化和上下文感知的特征的過程。我們的方法在三個基準數據集上實現了最先進的零樣本分割結果。代碼可在:this https URL獲得。
醫學視覺問答(Medical visual question answer, Med-VQA)的目的是準確回答醫學圖像所呈現的臨床問題。盡管該技術在醫療保健行業和服務領域有著巨大的潛力,但它仍處于起步階段,遠未得到實際應用。由于臨床問題的多樣性以及不同類型問題所需的視覺推理技能的差異,Med-VQA任務具有很高的挑戰性。本文提出了一種新的Med-VQA的條件推理框架,旨在自動學習各種Med-VQA任務的有效推理技巧。特別地,我們開發了一個問題條件推理模塊來指導多模態融合特征的重要性選擇。針對封閉式和開放式的Med-VQA任務的不同性質,我們進一步提出了一種類型條件推理模塊,分別針對兩種類型的任務學習不同的推理技能。我們的條件推理框架可以很容易地應用到現有的Med-VQA系統中,從而提高性能。在實驗中,我們在最近最先進的Med-VQA模型上建立我們的系統,并在VQA-RAD基準[23]上評估它。值得注意的是,我們的系統在預測封閉式和開放式問題的答案方面都取得了顯著的提高,特別是對于開放式問題,其絕對準確率提高了10.8%。源代碼可以從//github.com/awenbocc/med-vqa下載。
情感自動識別是一個活躍的研究課題,具有廣泛的應用前景。由于人工標注成本高和標簽不可避免的模糊性,情感識別數據集的發展在規模和質量上都受到了限制。因此,如何在有限的數據資源下建立有效的模型是關鍵挑戰之一。之前的研究已經探索了不同的方法來應對這一挑戰,包括數據增強、遷移學習和半監督學習等。然而,這些現有方法的缺點包括:訓練不穩定、遷移過程中的性能損失大、或改進幅度小。
在本研究中,我們提出了一種基于跨模態分布匹配的半監督多模態情感識別模型,該模型在假設跨模態內部情緒狀態在話語層面一致的前提下,利用大量的未標記數據來增強模型訓練。
我們在兩個基準數據集IEMOCAP和MELD上進行了廣泛的實驗來評估所提出的模型。實驗結果表明,該半監督學習模型能夠有效地利用未標記數據,并結合多種模態來提高情緒識別性能,在相同條件下優于其他先進的方法。與現有方法相比,該模型還利用了說話者和交互上下文等附加的輔助信息,從而達到了競爭能力。
食品與人類的行為、健康和文化等密切相關。來自社交網絡、移動網絡和物聯網等泛在網絡產生的食品大數據及人工智能尤其是深度學習技術的快速發展催生了新的交叉研究領域食品計算[Min2019-ACM CSUR]。作為食品計算的核心任務之一,食品圖像識別同時是計算機視覺領域中細粒度視覺識別的重要分支,因而具有重要的理論研究意義,并在智慧健康、食品智能裝備、智慧餐飲、智能零售及智能家居等方面有著廣泛的應用前景。本文在項目組前期食品識別(Food Recognition:[Jiang2020-IEEE TIP][Min2019-ACMMM])的研究基礎上,提出了一個新的食品數據集ISIA Food-500。該數據集包含500個類別,大約40萬張圖像,在類別量和圖片數據量方面都超過了現有的基準數據集。在此基礎上我們提出了一個新的網絡SGLANet聯合學習食品圖像的全局和局部視覺特征以進行食品識別,在ISIA Food-500和現有的基準數據集上進行了實驗分析與驗證。
從語義描述中識別視覺類別是一種很有前途的方法,它可以擴展視覺分類器的能力,使其超越訓練數據中所表示的概念(即看到的類別)。這個問題是由(廣義的)零樣本學習方法(GZSL)解決的,它利用語義描述將它們連接到所看到的類別(例如,標簽嵌入,屬性)。傳統的GZSL主要是為了目標識別而設計的。在本文中,我們關注于零樣本場景識別,這是一個更具挑戰性的設置,有數百個類別,它們的差異可能是微妙的,通常在特定的物體或區域。傳統的GZSL表示不夠豐富,無法捕獲這些局部差別。針對這些限制,我們提出了一個具有兩個新組件的特征生成框架:1)多源語義信息(即屬性、單詞嵌入和描述),2)可以增強場景識別的區域描述。為了生成綜合的視覺特征,我們提出了兩步生成方法,其中局部描述采樣和使用作為條件來生成視覺特征。生成的特征被聚合并與真實的特征一起用來訓練一個聯合分類器。為了對該方法進行評價,我們引入了一種新的具有多語義標注的零樣本場景識別數據集。在該數據集和SUN屬性數據集上的實驗結果表明了該方法的有效性。
//vipl.ict.ac.cn/homepage/jsq/publication/2020-Song-ACMMM.html
在本文中,我們關注的是語義圖像合成任務,目的是將語義標記映射遷移到逼真的圖像。現有的方法在保留語義信息方面缺乏有效的語義約束,忽略了空間維度和通道維度上的結構相關性,導致結果模糊且容易產生假象。為了解決這些限制,我們提出了一種新的對偶注意力GAN (DAGAN),它可以合成具有輸入布局細節的真實照片和語義一致的圖像,而不增加額外的訓練開銷或修改現有方法的網絡結構。我們還提出了兩個新的模塊,即位置-方向的空間注意力模塊和尺度-方向的通道注意模塊,分別用于捕獲空間和通道維度上的語義結構注意力。具體來說,SAM通過空間注意力圖選擇性地將每個位置的像素關聯起來,從而使得具有相同語義標簽的像素無論在空間上的距離如何都相互關聯起來。同時,CAM通過通道注意力圖選擇性地強調每個通道上的標度特征,從而在所有的通道圖中集成相關的特征,而不管它們的標度如何。最后對SAM和CAM的結果進行求和,進一步改進特征表示。在四個具有挑戰性的數據集上進行的廣泛實驗表明,DAGAN取得了比最先進的方法顯著更好的結果,同時使用更少的模型參數。源代碼和經過訓練的模型可以在這個https URL中獲得。
視覺對話是一項具有挑戰性的任務,它需要從視覺(圖像)和文本(對話歷史)上下文中提取隱含信息。經典的方法更多地關注當前問題、視覺知識和文本知識的整合,忽略了跨模態信息之間的異構語義鴻溝。同時,連接操作已成為跨模式信息融合的事實標準,其信息檢索能力有限。本文提出了一種新的知識橋接圖網絡模型,利用圖在細粒度上橋接視覺知識和文本知識之間的跨模式語義關系,并通過自適應的信息選擇模式檢索所需的知識。此外,視覺對話的推理線索可以清晰地從模態內實體和模態間橋梁中提取出來。VisDial v1.0和VisDial- q數據集上的實驗結果表明,我們的模型優于現有的模型,取得了最新的結果。
//www.zhuanzhi.ai/paper/6a3e359d8827752a98f2e5daa7079d2a
論文題目: Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event Detection
摘要: 事件檢測(Event detection, ED)是事件抽取的一個子任務,包括識別觸發器和對事件提及進行分類。現有的方法主要依賴于監督學習,并且需要大規模的帶標記的事件數據集,不幸的是,這些數據集在許多實際的應用場景中并不容易獲得。在本文中,我們將在有限標記數據條件下的ED任務考慮為一個小概率學習問題。提出了一種基于動態記憶的原型網絡(DMB-PN),該網絡利用動態記憶網絡(DMN)不僅能更好地學習事件類型的原型,而且能對事件提及產生更健壯的句子編碼。與傳統的通過平均計算事件原型的網絡不同,我們的模型更健壯,并且由于DMNs的多跳機制,能夠多次從事件提及中提取上下文信息。實驗結果表明,DMB-PN不僅比一系列基線模型更能有效地處理樣本稀缺問題,而且在事件類型變化較大、實例數量極少時表現得更為穩健。
作者: Shumin Deng, Ningyu Zhang, Jiaojian Kang, Yichi Zhang, Wei Zhang, Huajun Chen