如何在具有多種聲源的『雞尾酒會』中區分不同的聲音對象,這對人類來說是一項基本能力,但對當前的機器而言卻仍然極具挑戰!為此,本文提出一種基于課程學習策略的兩階段框架,實現了自監督下不同發聲物體的判別性感知與定位。首先,我們提出在單聲源場景中聚合候選聲音定位結果以學習魯棒的物體表征。進而在雞尾酒會情景中,參考先期課程學習到的物體知識以生成不同物體的語義判別性定位圖,通過將視音一致性視為自監督信息,匹配視音類別分布以濾除無聲物體和選擇發聲對象。大量基于合成和真實多聲源場景的實驗表明,本文所提模型能夠實現在無語義類別標注情形下,同時濾除無聲物體和指出發聲物體的明確位置并判定其類別屬性,這在視覺多聲源定位上尚屬首次。
我們提出了VILLA,這是已知的第一個針對視覺和語言(V+L)表征學習的大規模對抗訓練。VILLA由兩個訓練階段組成: (一)任務不可知的對抗性預訓練; 其次(二)針對具體任務進行對抗性微調。為了避免在圖像像素和文本標記上增加對抗性擾動,我們建議在每個模態的嵌入空間中進行對抗性訓練。為了實現大規模訓練,我們采用了“free”對抗式訓練策略,并與基于KL發散的正則化相結合,提高了嵌入空間的高不變性。我們將VILLA應用到目前表現最好的V+L模型中,并在廣泛的任務中達到了新的水平,包括視覺問題回答、視覺常識推理、圖像-文本檢索、參考表達理解、視覺隱含和NLVR2。
GPNet: 一種端到端全自由度抓取姿態估計網絡簡介
摘要 機器人抓取物體是機器人模仿人類行為的一項基本功能。機器人從視覺觀測中學習如何合理地抓取場景中的物體,是一項具有實際應用但又具有挑戰性的任務。例如物品的分揀、家庭智能機器人與人的交互等場景中,都會涉及到機器人抓取任務。這個任務的挑戰在于:1)視覺感知具有一定的不精確性和噪聲,2)機器人在規劃抓取路徑和執行抓取時可能有一定的系統誤差,3)單從視覺觀測中,機器人無法獲取被抓取物體的物理屬性,例如物體的重心、材質、摩擦系數等等。
近期的一些工作[1], [2]表明了利用大規模的合成數據來訓練深度學習模型,可以在真實場景中達到很好的魯棒性和泛化能力,即使合成數據與真實數據有一定的域間差異。但現在的這些工作主要集中于解決基于四自由度(4-DOF)的平面抓取,即機器人的爪子是垂直于桌面從上往下抓取物體的,這大大限制了機器人抓取的靈活性。因此,本文提出了一個合成的六自由度(6-DOF)的數據集,同時提出了生成六自由度抓取的神經網絡結構Grasp Proposal Network(GPNet)。我們的方法相對于現有的6-DOF抓取方案[3], [4],在抓取成功率和抓取多樣性兩個標準上都有很大的提升。
語義分割(Semantic Segmentation)任務需要對輸入圖像中的每一個像素都進行類別預測。因此想要訓練一個全監督的segmentation模型,則首先需要消耗大量的人力、財力對訓練圖像進行逐像素的標注。為緩解這個問題,人們利用一些較容易獲取的弱標簽(Weak Label)作為圖像的監督信息來訓練segmentation模型。比如,常見的弱標簽有Bounding Box、Scribble、Point以及Image-level class label。我們的研究內容是基于image-level class label的,其是這些弱標簽中是容易獲取但也是最難處理的,因為image-level class label本身只提供了圖像的類別信息而沒有目標在圖像中的位置信息。目前流行的基于image-level class label的弱監督segmentation模型主要分為以下三個步驟進行,如圖1所示:1)首先通過multi-label image classification模型獲取圖像的類響應激活圖(Class Activation Map)作為種子區域(Seed Area);2)在種子區域的基礎上,通過計算像素之間的語義相似性對種子區域進行擴張(Exoansion)得到圖像的偽標簽(Pseudo-Mask);3)使用偽標簽作為Ground-Truth訓練一個全監督的語義分割模型,并在訓練好的模型上對val/test集合進行預測。
我們提出的基于因果干預的Context Adjustment (CONTA)模型主要有以下幾個優勢:
CONTA是第一個使用因果圖來分析弱監督語義分割模型中各component之間的關系,從而找出了造成現有的pseudo-mask不準確的本質原因是因為數據集中的上下文先驗是混淆因子。在此基礎上,我們又進一步提出了使用因果干預切斷上下文先驗和圖像之間的關聯,從而提升pseudo-mask的質量。
不同于以往的基于graph neural network或復雜的attention機制的弱監督語義分割模型,CONTA的設計簡潔,并沒有很復雜的操作和訓練步驟在其中。
我們在4種不同的弱監督語義分割模型上都進行了實驗,結果表明CONTA可以提升模型CAM、pseuso-mask和segmentation mask的質量,從而驗證了CONTA的通用性和有效性。我們相信CONTA在將來也可以被應用到其他的弱監督語義分割模型上。
參考鏈接:
在觀看視頻時,視覺事件的發生往往伴隨著聲音事件,如唇動的聲音,樂器演奏的音樂。視聽事件之間存在著一種潛在的相關性,通過解決視聽同步的代理任務,可以將其作為自監督信息來訓練神經網絡。在本文中,我們提出了一種新的帶有共同注意力機制的自監督框架來學習無標記視頻中的通用跨模態表示,并進一步使下游任務受益。具體而言,我們探討了三個不同的共注意模塊,以關注與聲音相關的區分視覺區域,并介紹它們之間的相互作用。實驗表明,與現有方法相比,我們的模型在參數較少的情況下,取得了較好的效果。為了進一步評估我們方法的可推廣性和可遷移性,我們將預訓練的模型應用于兩個下游任務,即聲源定位和動作識別。大量的實驗表明,我們的模型可以提供與其他自監督方法競爭的結果,也表明我們的方法可以處理具有挑戰性的場景包含多個聲源。
題目: Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation
摘要: 圖像級弱監督語義分割是近年來深入研究的一個具有挑戰性的問題。大多數高級解決方案都利用類激活映射(CAM)。然而,由于監督的充分性和弱監督的差距,CAMs很難作為目標掩模。在這篇論文中,我們提出了一個自我監督的等變注意機制(SEAM)來發現額外的監督并縮小差距。我們的方法是基于等方差是完全監督語義分割的一個隱含約束,其像素級標簽在數據擴充過程中與輸入圖像進行相同的空間變換。然而,這種約束在圖像級監控訓練的凸輪上丟失了。因此,我們提出了對不同變換圖像的預測凸輪進行一致性正則化,為網絡學習提供自監督。此外,我們提出了一個像素相關模塊(PCM),它利用上下文外觀信息,并改進當前像素的預測由其相似的鄰居,從而進一步提高CAMs的一致性。在PASCAL VOC 2012數據集上進行的大量實驗表明,我們的方法在同等監督水平下表現優于最先進的方法。