CausalVAE是一個解耦表征學習方法,其旨在發現物理世界中各種概念之間的因果關系并生成其低維表征。該工作首次采用因果關系對表征建模,并可以通過表征的結構因果模型生成反事實圖片。 該工作可應用在圖像理解上,并幫助計算機更好的發現圖片中穩定的因果表示,其可應用在下游分類,識別任務當中。另外由于該工作重建了物理世界的因果模型,可以用來對觀察數據構建模擬器,通過該模擬器可以做滿足因果的數據增強以及圖像去噪。比如在自動駕駛中,可以通過該模型的因果干預直接去除影子而不影響別的因素,從而提升自動駕駛的安全性。 在理論層面上,該文章建立了一套識別性理論,證明了CausalVAE建立了首個可以識別的,具有可解釋性的因果解耦低維表征。
//www.zhuanzhi.ai/paper/9b63efa3a0b56cd27d64b6c7bb327471
論文標題:Capsule Network is Not More Robust than Convolutional Network 論文鏈接://www.zhuanzhi.ai/paper/0dc0a5b70e66bc27bb194fd8eeb1f072
作者單位:慕尼黑大學 & 微軟亞洲研究院
研究表明,一些對CapsNet至關重要的設計實際上會損害其魯棒性,即動態路由層和transformation過程!具有動態路由的CapsNet并不比ConvNets更為健壯!
人們普遍認為,膠囊網絡比卷積網絡更魯棒。但是,這兩個網絡之間沒有全面的比較,并且還不清楚CapsNet中的哪些組件會影響其魯棒性。在本文中,我們首先仔細檢查CapsNet中的特殊設計,這些特殊設計與通常用于圖像分類的ConvNet有所不同。該檢查揭示了CapsNet中的五個主要的新/不同組成部分:轉換過程,動態路由層,squashing function,除交叉熵損失之外的邊際損失以及用于正則化的附加類條件重建損失。除了這些主要差異外,我們還對仿射變換,數字重疊和語義表示三種魯棒性進行了全面的消融研究。研究表明,一些對CapsNet至關重要的設計實際上會損害其魯棒性,即動態路由層和轉換過程,而其他設計則有益于魯棒性。基于這些發現,我們僅通過介紹CapsNet成功背后的基本要素,便提出了增強的ConvNets。與CapsNet相比,所提出的簡單ConvNets可以實現更好的魯棒性。
背景:實際應用中,由于數據采集和傳輸過程的復雜性,數據可能會丟失部分視圖,這就導致了信息不完備下的視圖缺失問題(Incomplete Multi-view Problem, IMP)。例如在線會議中,一些視頻幀可能由于傳感器故障而丟失了視覺或音頻信號。針對該問題,過去十多年已提出了一些不完全多視圖聚類方法(Incomplete Multi-view Clustering, IMC)并取得了顯著效果。但IMP仍面臨兩個主要挑戰:1)如何在不利用標簽信息的情況下學習一致的多視圖公共表示;2)如何從部分缺失的數據中還原完整的數據。
//pengxi.me/wp-content/uploads/2021/03/2021CVPR-completer.pdf
創新:針對上述挑戰,受近期Tsai等在ICLR2021上發表的工作所啟發,本文提供了一個新的不完全多視圖聚類見解,即不完全多視圖聚類中的數據恢復和一致性學習是一體兩面的,兩者可統一到信息論的框架中。這樣的觀察和理論結果與現有的將一致性學習和數據恢復視為兩個獨立問題的工作有很大的不同。簡要地,從信息論角度出發,互信息能用于量化跨視圖表示間的一致性,而條件熵可用于量化跨視圖的可恢復性。因此,一方面,最大化互信息與最小化條件熵將分別增加共享的信息量與數據的可恢復性。另一方面,同時最大化互信息與最小化條件熵兩個目標又互為補充,相互促進。與Tsai等人的工作的不同之處在于,他們主要是在信息論框架下利用預測學習改進對比學習的性能,沒有如本文一樣考慮到缺失視圖下的一致性和可恢復性的學習。
方法:基于上述觀察,論文提出了對偶預測范式并將其與對比學習結合,通過一個新的損失函數實現了跨視圖一致性與可恢復性的聯合優化。提出的損失函數包括三部分:1)視圖內重構損失,主要用于學習各個視圖數據的視圖特殊表示,由一系列獨自的自編碼器重構損失組成;2)跨視圖對比學習損失,通過最大化不同視圖間的互信息學習多視圖一致性;3)跨視圖對偶預測損失,通過最小化視圖表示的條件熵進而實現視圖數據恢復。
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。
我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。
論文題目:Counterfactual VQA: A Cause-Effect Look at Language Bias
作者:牛玉磊,湯凱華,張含望,盧志武,華先勝,文繼榮
論文概述:近期研究發現,視覺問答模型在訓練過程中會傾向于探索數據中的語言偏差,并依賴語言偏差進行推理和作答。這一傾向使得視覺問答模型未能充分地從視覺和語言兩個模態中學習多模態知識,進而做出錯誤的回答。本文研究如何將視覺問答任務中的語言偏差進行捕獲并去除。本文從因果推理的視角出發,提出了一種全新的基于反事實推斷的視覺問答框架。反事實推斷框架將語言偏差建模為問題對答案的直接因果效應,并通過從總體因果效應中減去語言的直接效應的方式去除語言偏差。實驗證明反事實推斷框架能夠有效地克服語言偏差的影響,并具有良好的泛化性和魯棒性。此外,本文從因果推理的角度為部分相關工作提供了理論解釋。
題目: Causal Relational Learning
摘要:
因果推理是自然科學和社會科學實證研究的核心,對科學發現和知情決策至關重要。因果推理的黃金標準是進行隨機對照試驗;不幸的是,由于倫理、法律或成本的限制,這些方法并不總是可行的。作為一種替代方法,從觀察數據中進行因果推斷的方法已經在統計研究和社會科學中得到發展。然而,現有的方法嚴重依賴于限制性的假設,例如由同質元素組成的研究總體,這些同質元素可以在一個單平表中表示,其中每一行都被稱為一個單元。相反,在許多實際環境中,研究領域自然地由具有復雜關系結構的異構元素組成,其中數據自然地表示為多個相關表。在本文中,從關系數據中提出了一個正式的因果推理框架。我們提出了一種稱為CaRL的聲明性語言,用于捕獲因果背景知識和假設,并使用簡單的Datalog類規則指定因果查詢。CaRL為在關系領域中推斷復雜干預的影響的因果關系和推理提供了基礎。我們對真實的關系數據進行了廣泛的實驗評估,以說明CaRL理論在社會科學和醫療保健領域的適用性。