視覺對話是一項具有挑戰性的任務,它需要從視覺(圖像)和文本(對話歷史)上下文中提取隱含信息。經典的方法更多地關注當前問題、視覺知識和文本知識的整合,忽略了跨模態信息之間的異構語義鴻溝。同時,連接操作已成為跨模式信息融合的事實標準,其信息檢索能力有限。本文提出了一種新的知識橋接圖網絡模型,利用圖在細粒度上橋接視覺知識和文本知識之間的跨模式語義關系,并通過自適應的信息選擇模式檢索所需的知識。此外,視覺對話的推理線索可以清晰地從模態內實體和模態間橋梁中提取出來。VisDial v1.0和VisDial- q數據集上的實驗結果表明,我們的模型優于現有的模型,取得了最新的結果。
//www.zhuanzhi.ai/paper/6a3e359d8827752a98f2e5daa7079d2a
面向目標的視覺對話包括兩個代理者,提問者和Oracle之間的多回合交互。在此期間,Oracle給出的答案是非常重要的,因為它為提問者所關心的問題提供了黃金回答。在回答的基礎上,提問者更新了對目標視覺內容的信念,進而提出了另一個問題。值得注意的是,不同的答案會導致不同的視覺信念和未來問題。但是,現有的方法往往是在問題長得多的情況下對答案進行不加區分的編碼,導致對答案的利用率較低。在本文中,我們提出了一個答案驅動的視覺狀態估計器(ADVSE),以施加不同的答案對視覺狀態的影響。首先,我們提出了一種基于回答驅動的聚焦注意力(ADFA),通過在每個回合強化與問題相關的注意力并通過基于回答的邏輯操作來調整注意力,來捕捉對視覺注意力的回答驅動效應。然后在聚焦注意力的基礎上,通過條件視覺信息融合(CVIF)對問題-應答狀態進行融合,得到整體信息和差異信息的視覺狀態估計。
小規模行人的檢測是行人檢測中最具挑戰性的問題之一。由于缺乏視覺細節,小規模行人的表征往往難以從雜亂的背景中分辨出來。在本文中,我們對小規模行人檢測問題進行了深入的分析,發現小規模行人的弱表征是導致分類器漏檢的主要原因。為了解決這一問題,我們提出了一種新的自模擬學習(SML)方法來提高對小規模行人的檢測性能。我們通過模仿大規模行人的豐富表現來增強小規模行人的表現。具體來說,我們設計了一個模擬損失,迫使小規模行人的特征表征接近大規模行人的特征表征。所提議的SML是一個通用組件,可以很容易地合并到單級和兩級檢測器中,不需要額外的網絡層,在推理期間不需要額外的計算成本。在cityperson和Caltech數據集上進行的廣泛實驗表明,經過模擬損失訓練的檢測器對小規模行人檢測非常有效,并分別在cityperson和Caltech上取得了最好的結果。
//cse.buffalo.edu/~jsyuan/papers/2020/SML.pdf
醫學視覺問答(Medical visual question answer, Med-VQA)的目的是準確回答醫學圖像所呈現的臨床問題。盡管該技術在醫療保健行業和服務領域有著巨大的潛力,但它仍處于起步階段,遠未得到實際應用。由于臨床問題的多樣性以及不同類型問題所需的視覺推理技能的差異,Med-VQA任務具有很高的挑戰性。本文提出了一種新的Med-VQA的條件推理框架,旨在自動學習各種Med-VQA任務的有效推理技巧。特別地,我們開發了一個問題條件推理模塊來指導多模態融合特征的重要性選擇。針對封閉式和開放式的Med-VQA任務的不同性質,我們進一步提出了一種類型條件推理模塊,分別針對兩種類型的任務學習不同的推理技能。我們的條件推理框架可以很容易地應用到現有的Med-VQA系統中,從而提高性能。在實驗中,我們在最近最先進的Med-VQA模型上建立我們的系統,并在VQA-RAD基準[23]上評估它。值得注意的是,我們的系統在預測封閉式和開放式問題的答案方面都取得了顯著的提高,特別是對于開放式問題,其絕對準確率提高了10.8%。源代碼可以從//github.com/awenbocc/med-vqa下載。
食品與人類的行為、健康和文化等密切相關。來自社交網絡、移動網絡和物聯網等泛在網絡產生的食品大數據及人工智能尤其是深度學習技術的快速發展催生了新的交叉研究領域食品計算[Min2019-ACM CSUR]。作為食品計算的核心任務之一,食品圖像識別同時是計算機視覺領域中細粒度視覺識別的重要分支,因而具有重要的理論研究意義,并在智慧健康、食品智能裝備、智慧餐飲、智能零售及智能家居等方面有著廣泛的應用前景。本文在項目組前期食品識別(Food Recognition:[Jiang2020-IEEE TIP][Min2019-ACMMM])的研究基礎上,提出了一個新的食品數據集ISIA Food-500。該數據集包含500個類別,大約40萬張圖像,在類別量和圖片數據量方面都超過了現有的基準數據集。在此基礎上我們提出了一個新的網絡SGLANet聯合學習食品圖像的全局和局部視覺特征以進行食品識別,在ISIA Food-500和現有的基準數據集上進行了實驗分析與驗證。
從語義描述中識別視覺類別是一種很有前途的方法,它可以擴展視覺分類器的能力,使其超越訓練數據中所表示的概念(即看到的類別)。這個問題是由(廣義的)零樣本學習方法(GZSL)解決的,它利用語義描述將它們連接到所看到的類別(例如,標簽嵌入,屬性)。傳統的GZSL主要是為了目標識別而設計的。在本文中,我們關注于零樣本場景識別,這是一個更具挑戰性的設置,有數百個類別,它們的差異可能是微妙的,通常在特定的物體或區域。傳統的GZSL表示不夠豐富,無法捕獲這些局部差別。針對這些限制,我們提出了一個具有兩個新組件的特征生成框架:1)多源語義信息(即屬性、單詞嵌入和描述),2)可以增強場景識別的區域描述。為了生成綜合的視覺特征,我們提出了兩步生成方法,其中局部描述采樣和使用作為條件來生成視覺特征。生成的特征被聚合并與真實的特征一起用來訓練一個聯合分類器。為了對該方法進行評價,我們引入了一種新的具有多語義標注的零樣本場景識別數據集。在該數據集和SUN屬性數據集上的實驗結果表明了該方法的有效性。
//vipl.ict.ac.cn/homepage/jsq/publication/2020-Song-ACMMM.html
現有的語義分割模型嚴重依賴于密集的像素級標注。為了減少標注的壓力,我們專注于一項具有挑戰性的任務,即零標注語義分割,它的目標是用零標注分割不可見的對象。這一任務可以通過語義詞嵌入在類別間傳遞知識來完成。在本文中,我們提出了一種新的基于上下文的零樣本分割特征生成方法——CaGNet。特別是在觀察到像素級特征高度依賴上下文信息的情況下,我們在分割網絡中插入上下文模塊來捕獲像素級特征的上下文信息,從而指導語義詞嵌入生成更加多樣化和上下文感知的特征的過程。我們的方法在三個基準數據集上實現了最先進的零樣本分割結果。代碼可在:this https URL獲得。
對于有足夠標記樣本的基類,小樣本分類的目標是在只有少量標記樣本的情況下識別新類的未標記樣本。現有的方法大多只關注新類的標記樣本和未標記樣本之間的關系,沒有充分利用基類內部的信息。在本文中,我們為研究小樣本分類問題做了兩個貢獻。首先,我們提出了一個簡單而有效的基線,通過傳統的監督學習的方式在基類上訓練,可以取得與目前水平相當的結果。其次,在基線的基礎上,我們提出了一個協作的雙路徑分類度量,它利用基類和新類之間的相關性來進一步提高分類的準確性。在兩個廣泛使用的基準上的實驗表明,該方法是一種簡單有效的分類方法,在小樣本分類領域開創了一種新局面。
領域適應(DA)提供了重用數據和模型用于新問題領域的有價值的方法。然而,對于具有不同數據可用性的時間序列數據,還沒有考慮到健壯的技術。在本文中,我們做出了三個主要貢獻來填補這一空白。我們提出了一種新的時間序列數據卷積深度域自適應模型(CoDATS),該模型在現實傳感器數據基準上顯著提高了最先進的DA策略的準確性和訓練時間。通過利用來自多個源域的數據,我們增加了CoDATS的有用性,從而進一步提高了與以前的單源方法相比的準確性,特別是在域之間具有高度可變性的復雜時間序列數據集上。其次,我們提出了一種新的弱監督域自適應(DA-WS)方法,利用目標域標簽分布形式的弱監督,這可能比其他數據標簽更容易收集。第三,我們對不同的真實數據集進行了綜合實驗,以評估我們的域適應和弱監督方法的有效性。結果表明,用于單源DA的CoDATS比最先進的方法有了顯著的改進,并且我們使用來自多個源域和弱監督信號的數據實現了額外的準確性改進。
簡介:
回答需要針對文本進行推理的多個步驟的構想問題具有挑戰性,尤其是當它們涉及離散的象征性操作時。神經模塊網絡(NMN)學習解析諸如由可學習模塊組成的可執行程序之類的問題,它們在合成視覺質量檢查域中表現良好。但是,我們發現在開放域文本中針對非合成問題學習這些模型具有挑戰性,在這種模型中,模型需要處理自然語言的多樣性并進行更廣泛的推理。我們通過以下方式擴展NMN:(a)引入對一段文本進行推理的模塊,以概率和可微分的方式對數字和日期執行符號推理(例如算術,排序,計數); (b)提出無監督的損失,以幫助提取與文本中的事件相關的參數。此外,我們顯示出有限的啟發式獲得的問題程序和中間模塊輸出監督為準確學習提供了足夠的歸納偏差。我們提出的模型大大優于DROP數據集的子集上的最新模型,后者構成了我們模塊所涵蓋的各種推理挑戰。