反事實解釋和對抗性攻擊有一個相關的目標:不管輸出標簽的特征如何,用最小的擾動翻轉輸出標簽。然而,對抗性攻擊不能直接用于反事實解釋的角度,因為這種擾動被視為噪聲,而不是可操作和可理解的圖像修改。**在魯棒學習文獻的基礎上,提出了一種優雅的方法,將對抗性攻擊轉化為有語義意義的擾動,而不需要修改分類器來解釋。**所提出的方法假設,去噪擴散概率模型是優秀的正則化方法,可以在生成對抗攻擊時避免高頻和分布外的擾動。這篇論文的核心思想是通過擴散模型來構建攻擊來完善它們。這允許研究目標模型,而不管其魯棒性水平。廣泛的實驗表明,所提出的反事實解釋方法在多個測試平臺上比當前最先進的方法具有優勢。
深度學習模型的預測容易受到數據擾動、對抗性攻擊和分布外輸入的影響。為了構建可信的人工智能系統,準確量化預測的不確定性至關重要。雖然目前的工作側重于提高不確定性量化的準確性和效率,但有必要確定不確定性的來源,并采取行動減輕其對預測的影響。因此,本文提出開發可解釋和可操作的貝葉斯深度學習方法,不僅可以進行準確的不確定性量化,還可以解釋不確定性,識別其來源,并提出策略來減輕不確定性的影響。提出了一種基于梯度的不確定性歸因方法,以識別導致預測不確定性的輸入中問題最嚴重的區域。與現有方法相比,UABackprop具有具有競爭力的精度、寬松的假設和高效的性能。提出了一種不確定性緩解策略,利用歸因結果作為注意力,進一步提高模型性能。通過定性和定量的實驗驗證了所提方法的有效性。
當涉及到部署深度視覺模型時,這些系統的行為必須是可解釋的,以確保對其可靠性和公平性的信心。評估深度學習模型的一種常見方法是用感興趣的屬性構建一個標記的測試集,并評估它的表現如何。然而,創建一個平衡的測試集(即對所有重要特征進行均勻采樣的測試集)通常是耗時、昂貴且容易出錯的。我們試圖解決的問題是:在沒有標注測試集的情況下,我們能否評估深度學習模型對任意視覺屬性的敏感性?** 本文認為,零樣本模型診斷(ZOOM)是可能的,而不需要測試集或標記。**為了避免對測試集的需要,系統依賴于生成模型和CLIP。其關鍵思想是使用戶能夠選擇一組提示(與問題相關),系統將使用生成模型自動搜索語義反事實圖像(即在二進制分類器的情況下翻轉預測的合成圖像)。評估了多個視覺領域的幾個視覺任務(分類、關鍵點檢測和分割),以證明所提出方法的可行性。廣泛的實驗表明,所提出方法能夠產生反事實圖像,并在不需要測試集的情況下為模型診斷提供靈敏度分析。
//www.zhuanzhi.ai/paper/92ba5a252cdba0c1fcee262c68baad9a
對比學習是遠程學習的一種形式,旨在從兩種相關表示中學習不變特征。在本文中,我們探索了一個大膽的假設,即圖像及其標題可以被簡單地視為潛在相互信息的兩種不同視圖,并訓練一個模型學習統一的視覺-語言表示空間,該空間以模態不可知的方式對兩種模態進行編碼。我們首先確定了學習視覺語言預訓練(VLP)的通用單塔模型的困難,并提出OneR作為實現我們目標的一個簡單而有效的框架。發現了一些有趣的特性,將OneR與之前學習特定模態表示空間的工作區分開,如零樣本物體定位、文本引導的視覺推理和多模態檢索,并提出了分析,以提供對這種新的多模態表示學習形式的見解。本文全面的評估證明了一個統一的模式不可知VLP框架的潛力。
視覺反事實解釋(VCEs)是理解圖像分類器決策的重要工具。它們是“小”但“現實”的圖像語義變化,改變了分類器的決策。當前生成VCEs的方法局限于對抗魯棒模型,通常包含非現實的人工制品,或者局限于類別較少的圖像分類問題。在本文中,我們通過擴散過程為任意ImageNet分類器生成擴散視覺反事實解釋(DVCEs)來克服這一問題。對擴散過程的兩個修改是我們的DVCEs的關鍵:首先,自適應參數化,其超參數在所有圖像和模型中都具有泛化性,再加上距離正則化和擴散過程的后期開始,使我們能夠生成對原始圖像具有最小語義變化但分類不同的圖像。其次,我們通過對抗魯棒模型的錐正則化確保擴散過程不會收斂到瑣細的非語義變化,而是生成目標類的真實圖像,分類器獲得了高可信度。代碼可在//github.com/valentyn1boreiko/DVCEs下獲得。
我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。
//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4
部分監督實例分割是一種通過學習有限的可見類別并使用帶注釋的遮罩將對象從新的不可見類別中分割出來的任務,從而消除了繁重的注釋負擔。解決這一問題的關鍵是建立一個有效的類不可知掩碼分割模型。與以往只在可見類別上學習此類模型的方法不同,在本文中,我們提出了一種新的方法,名為ContrastMask,它在統一的像素級對比學習框架下,對可見和不可見類別學習掩碼分割模型。這個框架,帶注釋的可見類別的遮罩和不可見類別的偽遮罩作為對比學習的前提,來自掩膜區域(前景)的特征被拉到一起,并與來自背景的特征進行對比,反之亦然。通過該框架,大大提高了前景和背景的特征識別能力,便于學習與類別無關的遮罩分割模型。在COCO數據集上的詳盡實驗證明了我們的方法的優越性,它優于以前的技術水平。
//www.zhuanzhi.ai/paper/53d464cd084b1713b9d2377fb1ea5703
對于圖像分割,目前的標準是通過線性超平面在歐幾里德輸出嵌入空間中進行像素級優化和推理。**在這項工作中,我們表明雙曲流形為圖像分割提供了一個有價值的替代方案,并提出了一個易于處理的公式,層次像素級分類在雙曲空間。**雙曲圖像分割為分割開辟了新的可能性和實際的好處,如自由不確定性估計和邊界信息,零標簽泛化,提高了低維輸出嵌入的性能。
我們根據預測中包含的信息而不是訓練算法的輸出來推導有監督學習算法的信息理論泛化邊界。這些邊界改進了現有的信息理論界限,適用于更廣泛的算法,并解決了兩個關鍵的挑戰: (a)它們為確定性算法提供了有意義的結果;(b)它們明顯更容易估計。我們通過實驗證明,在深度學習的實際場景中,所提出的邊界與泛化差距密切相關。
零次學習是指讓機器分類沒見過的對象類別,開集識別要求讓機器把沒見過的對象類別標成“不認識”,兩個任務都依賴想象能力。《反事實的零次和開集識別》提出了一種基于反事實的算法框架,通過解耦樣本特征(比如對象的姿勢)和類別特征(比如是否有羽毛),再基于樣本特征進行反事實生成。在常用數據集上,該算法的準確率超出現有頂尖方法 2.2% 到 4.3%。論文作者岳中琪指出,AI 認知智能的進化剛剛開始,業界的探索仍處在早期階段,今后他們將不斷提升和優化相關算法。
//www.zhuanzhi.ai/paper/70853146dd56cd4468837754a1478949
膠囊網絡(Capsule Networks),作為卷積神經網絡的替代品,已被提出用于從圖像中識別物體。目前的文獻證明了CapsNets相對于CNN的許多優勢。然而,如何為CapsNets的各個分類建立解釋還沒有被探索清晰。目前,廣泛使用的顯著性方法主要是為了解釋基于CNN的分類而提出的,它們通過結合激活值和相應梯度來創建顯著性圖解釋,例如Grad-CAM。這些顯著性方法需要底層分類器的特定架構,由于CapsNets的迭代路由機制,它們無法平凡地應用于其中。為了克服可解釋性的不足,作者認為可以為CapsNets提出新的事后解釋方法,或修改模型,使其具有內置的解釋。在這項工作中,作者主要研究后者。具體來說,作者提出了可解釋的Graph Capsule Networks(GraCapsNets),用基于多頭關注的Graph Pooling方法替換了路由部分。該模型能夠有效且高效地創建單個分類的解釋。同時,盡管取代了CapsNets的基本部分,該模型還展示了一些意想不到的好處。與CapsNets相比,GraCapsNets以更少的參數實現了更好的分類性能,并且具有更好的對抗性魯棒性。此外,GraCapsNets還保留了CapsNets的其他優點,即分離式表征示(disentangled representations)和仿射變換魯棒性(affine transformation robustness)。