論文標題:Capsule Network is Not More Robust than Convolutional Network 論文鏈接://www.zhuanzhi.ai/paper/0dc0a5b70e66bc27bb194fd8eeb1f072
作者單位:慕尼黑大學 & 微軟亞洲研究院
研究表明,一些對CapsNet至關重要的設計實際上會損害其魯棒性,即動態路由層和transformation過程!具有動態路由的CapsNet并不比ConvNets更為健壯!
人們普遍認為,膠囊網絡比卷積網絡更魯棒。但是,這兩個網絡之間沒有全面的比較,并且還不清楚CapsNet中的哪些組件會影響其魯棒性。在本文中,我們首先仔細檢查CapsNet中的特殊設計,這些特殊設計與通常用于圖像分類的ConvNet有所不同。該檢查揭示了CapsNet中的五個主要的新/不同組成部分:轉換過程,動態路由層,squashing function,除交叉熵損失之外的邊際損失以及用于正則化的附加類條件重建損失。除了這些主要差異外,我們還對仿射變換,數字重疊和語義表示三種魯棒性進行了全面的消融研究。研究表明,一些對CapsNet至關重要的設計實際上會損害其魯棒性,即動態路由層和轉換過程,而其他設計則有益于魯棒性。基于這些發現,我們僅通過介紹CapsNet成功背后的基本要素,便提出了增強的ConvNets。與CapsNet相比,所提出的簡單ConvNets可以實現更好的魯棒性。
由于物體的真實輪廓和遮擋邊界之間通常沒有區別,對高度重疊的對象進行分割是非常具有挑戰性的。與之前的自頂向下的實例分割方法不同,本文提出遮擋感知下的雙圖層實例分割網絡BCNet,將圖像中的感興趣區域(Region of Interest,RoI)建模為兩個重疊圖層,其中頂部圖層檢測遮擋對象,而底圖層推理被部分遮擋的目標物體。雙圖層結構的顯式建模自然地將遮擋和被遮擋物體的邊界解耦,并在Mask預測的同時考慮遮擋關系的相互影響。作者在具有不同主干和網絡層選擇的One-stage和Two-stage目標檢測器上驗證了雙層解耦的效果,顯著改善了現有圖像實例分割模型在處理復雜遮擋物體的表現,并在COCO和KINS數據集上均取得總體性能的大幅提升。
本文首次在全卷積目標檢測器上去除了NMS(非極大值抑制)后處理,做到了端到端訓練。我們分析了主流一階段目標檢測方法,并發現傳統的一對多標簽分配策略是這些方法依賴NMS的關鍵,并由此提出了預測感知的一對一標簽分配策略。此外,為了提升一對一標簽分配的性能,我們提出了增強特征表征能力的模塊,和加速模型收斂的輔助損失函數。我們的方法在無NMS的情況下達到了與主流一階段目標檢測方法相當的性能。在密集場景上,我們的方法的召回率超過了依賴NMS的目標檢測方法的理論上限。
自監督學習已被廣泛應用于從未標記圖像中獲取可轉移的表示。特別是,最近的對比學習方法在下游圖像分類任務中表現出了令人印象深刻的性能。這些對比方法主要集中在語義保留變換下的圖像級上生成不變的全局表示,容易忽略局部表示的空間一致性,因此在目標檢測和實例分割等本地化任務的預處理中存在一定的局限性。此外,在現有的對比方法中使用的積極裁剪視圖可以最小化單個圖像中語義不同區域之間的表示距離。
在本文中,我們提出了一種用于多目標和特定位置任務的空間一致表示學習算法(SCRL)。特別地,我們設計了一個新的自監督目標,試圖根據幾何平移和縮放操作產生隨機裁剪局部區域的連貫空間表示。在使用基準數據集的各種下游定位任務上,提出的SCRL顯示了相對于圖像級監督前訓練和最先進的自監督學習方法的顯著性能改進。代碼將會被發布。
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。
論文題目:Counterfactual VQA: A Cause-Effect Look at Language Bias
作者:牛玉磊,湯凱華,張含望,盧志武,華先勝,文繼榮
論文概述:近期研究發現,視覺問答模型在訓練過程中會傾向于探索數據中的語言偏差,并依賴語言偏差進行推理和作答。這一傾向使得視覺問答模型未能充分地從視覺和語言兩個模態中學習多模態知識,進而做出錯誤的回答。本文研究如何將視覺問答任務中的語言偏差進行捕獲并去除。本文從因果推理的視角出發,提出了一種全新的基于反事實推斷的視覺問答框架。反事實推斷框架將語言偏差建模為問題對答案的直接因果效應,并通過從總體因果效應中減去語言的直接效應的方式去除語言偏差。實驗證明反事實推斷框架能夠有效地克服語言偏差的影響,并具有良好的泛化性和魯棒性。此外,本文從因果推理的角度為部分相關工作提供了理論解釋。
盡管健壯的深度學習中的現有工作都集中在基于像素級別的小型規范擾動,但這可能無法解決在多個實際設置中遇到的擾動。在許多此類情況下,盡管可能無法獲得測試數據,但可能知道有關擾動類型(例如未知的旋轉度)的廣泛規范。我們考慮一種在看不見的測試域中預期具有魯棒性的設置。但偏離了訓練領域。雖然可能無法確切知道此偏差,但根據屬性先驗地指定了其廣泛的特征。我們提出了一種對抗訓練方法,該方法學習如何生成新樣本,從而最大程度地將分類器暴露于屬性空間,而無需訪問來自測試域的數據。我們的對抗訓練解決了最小-最大優化問題,通過優化內部最大化產生的對抗性擾動的損失,使內部最大化產生對抗性擾動,而外部最小化找到模型參數。我們證明了我們的方法在三種類型的自然擾動上的適用性-與對象相關的移動,幾何變換和常見的圖像破壞。我們的方法使深度神經網絡能夠抵抗各種自然擾動。我們通過展示在MNIST,CIFAR-10和CLEVR數據集的新變體上進行對抗訓練而獲得的深度神經網絡的魯棒性收益,從而證明了所提出方法的有效性。
膠囊網絡(Capsule Networks),作為卷積神經網絡的替代品,已被提出用于從圖像中識別物體。目前的文獻證明了CapsNets相對于CNN的許多優勢。然而,如何為CapsNets的各個分類建立解釋還沒有被探索清晰。目前,廣泛使用的顯著性方法主要是為了解釋基于CNN的分類而提出的,它們通過結合激活值和相應梯度來創建顯著性圖解釋,例如Grad-CAM。這些顯著性方法需要底層分類器的特定架構,由于CapsNets的迭代路由機制,它們無法平凡地應用于其中。為了克服可解釋性的不足,作者認為可以為CapsNets提出新的事后解釋方法,或修改模型,使其具有內置的解釋。在這項工作中,作者主要研究后者。具體來說,作者提出了可解釋的Graph Capsule Networks(GraCapsNets),用基于多頭關注的Graph Pooling方法替換了路由部分。該模型能夠有效且高效地創建單個分類的解釋。同時,盡管取代了CapsNets的基本部分,該模型還展示了一些意想不到的好處。與CapsNets相比,GraCapsNets以更少的參數實現了更好的分類性能,并且具有更好的對抗性魯棒性。此外,GraCapsNets還保留了CapsNets的其他優點,即分離式表征示(disentangled representations)和仿射變換魯棒性(affine transformation robustness)。
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa
圖神經網絡(GNN)已經在許多具有挑戰性的應用中展示了優越的性能,包括小樣本學習任務。盡管GNN具有強大的從少量樣本中學習和歸納的能力,但隨著模型的深入,GNN通常會出現嚴重的過擬合和過平滑問題,這限制了模型的可擴展性。在這項工作中,我們提出了一個新的注意力GNN來解決這些挑戰,通過合并三重注意機制,即節點自我注意,鄰居注意和層記憶注意力。我們通過理論分析和實例說明了所提出的注意模塊可以改善小樣本學習的GNN的原因。廣泛的實驗表明,在mini-ImageNet 和Tiered-ImageNet數據集上,通過誘導和直推設置,提出的注意力GNN在小樣本學習方面優于基于最先進的GNN方法。