當涉及到部署深度視覺模型時,這些系統的行為必須是可解釋的,以確保對其可靠性和公平性的信心。評估深度學習模型的一種常見方法是用感興趣的屬性構建一個標記的測試集,并評估它的表現如何。然而,創建一個平衡的測試集(即對所有重要特征進行均勻采樣的測試集)通常是耗時、昂貴且容易出錯的。我們試圖解決的問題是:在沒有標注測試集的情況下,我們能否評估深度學習模型對任意視覺屬性的敏感性?** 本文認為,零樣本模型診斷(ZOOM)是可能的,而不需要測試集或標記。**為了避免對測試集的需要,系統依賴于生成模型和CLIP。其關鍵思想是使用戶能夠選擇一組提示(與問題相關),系統將使用生成模型自動搜索語義反事實圖像(即在二進制分類器的情況下翻轉預測的合成圖像)。評估了多個視覺領域的幾個視覺任務(分類、關鍵點檢測和分割),以證明所提出方法的可行性。廣泛的實驗表明,所提出方法能夠產生反事實圖像,并在不需要測試集的情況下為模型診斷提供靈敏度分析。
//www.zhuanzhi.ai/paper/92ba5a252cdba0c1fcee262c68baad9a
將CLIP等對比圖像-文本預訓練模型用于視頻分類,因其成本效益和具有競爭力的性能而受到關注。然而,最近在這一領域的工作面臨一個權衡。對預訓練模型進行微調以實現強監督性能,會導致低零樣本泛化。類似地,凍結主干以保留零樣本能力會導致監督精度的顯著下降。因此,最近的文獻工作通常為監督和零樣本行為識別訓練單獨的模型。本文提出一種多模態提示學習方案,在單一統一訓練下平衡有監督和零樣本的性能。視覺方面的提示方法滿足了三個方面的需求:1)全局視頻級提示對數據分布進行建模;2)局部幀級提示,為每幀提供判別式條件;以及3)用于提取濃縮視頻表示的摘要提示。此外,在文本端定義了一個提示方案,以增強文本上下文。通過這種激勵方案,可以在Kinetics-600、HMDB51和UCF101上實現最先進的零樣本性能,同時在有監督的環境中保持競爭力。通過保持預訓練主干凍結,優化了更少的參數數量,并保留了現有的通用表示,這有助于實現強大的零樣本性能。我們的代碼/模型發布在//github.com/TalalWasim/Vita-CLIP.
反事實解釋和對抗性攻擊有一個相關的目標:不管輸出標簽的特征如何,用最小的擾動翻轉輸出標簽。然而,對抗性攻擊不能直接用于反事實解釋的角度,因為這種擾動被視為噪聲,而不是可操作和可理解的圖像修改。**在魯棒學習文獻的基礎上,提出了一種優雅的方法,將對抗性攻擊轉化為有語義意義的擾動,而不需要修改分類器來解釋。**所提出的方法假設,去噪擴散概率模型是優秀的正則化方法,可以在生成對抗攻擊時避免高頻和分布外的擾動。這篇論文的核心思想是通過擴散模型來構建攻擊來完善它們。這允許研究目標模型,而不管其魯棒性水平。廣泛的實驗表明,所提出的反事實解釋方法在多個測試平臺上比當前最先進的方法具有優勢。
對比損失被越來越多地用于學習來自多種模態的表示。在極限情況下,對比損失的性質鼓勵模態在潛空間中精確匹配。然而,模態對齊如何影響下游任務性能仍然是一個開放問題。本文基于信息論論點,首先證明了精確的模態對齊通常對于下游預測任務是次優的。本文認為,更好性能的關鍵在于有意義的潛在模態結構,而不是完美的模態對齊。本文提出了三種通用的方法來構建潛在模態結構。設計了1)用于模態內正則化的深度特征分離損失;2)模態間正則化的Brownian損失;以及3)模態內和模態間正則化的幾何一致性損失。在兩種流行的多模態表示學習框架上進行了廣泛的實驗:基于CLIP的雙塔模型和基于ALBEF的融合模型。在各種任務上測試了該模型,包括零樣本/少樣本圖像分類、圖像-文本檢索、視覺問答、視覺推理和視覺蘊含。該方法比現有方法取得了一致的改進,證明了所提出方法在潛模態結構正則化上的有效性和泛化性。
基于知識的視覺問答(VQA)需要圖像以外的外部知識來回答問題。早期的研究從顯式知識庫(KBs)中檢索所需的知識,但這些知識往往會引入與問題無關的信息,從而限制了模型的性能。最近的工作試圖使用大型語言模型(即GPT-3[3])作為隱式知識引擎,以獲取必要的知識進行回答。盡管這些方法取得了令人鼓舞的結果,但由于提供的輸入信息不足,它們并沒有充分激活GPT-3的能力。**本文提出prophet——一個概念簡單的框架,旨在用答案啟發式方法提示GPT-3進行基于知識的VQA。**首先,在沒有外部知識的情況下,在特定的基于知識的VQA數據集上訓練了一個普通的VQA模型。然后,從模型中抽取兩類互補答案啟發:答案候選和答案感知示例。最后,將兩類答案啟發編碼到提示信息中,使GPT-3能夠更好地理解任務,從而提高其能力。Prophet在兩個具有挑戰性的基于知識的VQA數據集OK-VQA和A-OKVQA上明顯優于所有現有的最先進方法,在它們的測試集上分別取得了61.1%和55.7%的準確率。
現代語義分割增量學習方法通常基于密集標注來學習新的類別。盡管取得了很好的結果,但逐像素標記是昂貴和耗時的。弱增量語義分割學習(WILSS)是一項新穎而吸引人的任務,旨在從廉價且廣泛可用的圖像級標簽中學習分割出新的類別。盡管效果相當,但圖像級標簽無法提供定位每個分割的細節,這限制了WILSS的性能。這啟發我們思考如何改進和有效利用給定圖像級標簽的新類的監督,同時避免忘記舊類。本文提出一種新的數據高效的WILSS框架FMWISS。本文提出基于預訓練的協同分割,以提取互補的基礎模型的知識,以生成密集的偽標簽。用師生架構進一步優化了有噪聲的偽掩碼,其中插件式教師用提出的密集對比損失進行了優化。提出了基于內存的復制粘貼增強,以改善舊類的災難性遺忘問題。在Pascal VOC和COCO數據集上的實驗結果表明,FMWISS在15-5 VOC的數據集上取得了70.7%和73.3%的性能提升,分別比當前最好的方法提升了3.4%和6.1%。 //antoyang.github.io/vid2seq.html
當在非結構化和半結構化環境(如倉庫、住宅和零售中心)中操作時,機器人經常需要從雜亂的箱子、貨架或桌子中交互式地搜索和檢索特定的對象,這些對象可能部分或完全隱藏在其他對象后面。我們將此任務定義為機械搜索,其目標是在盡可能少的操作中檢索到目標對象。在這些場景中,由于傳感器噪聲、遮擋和未知物體特性的存在,魯棒地感知和操作目標具有挑戰性。由于這些感知和操作挑戰,從數據中學習端到端的機械搜索策略變得非常困難。相反,我們將機械搜索策略分成三個模塊,一個感知模塊從輸入觀察中創建一個中間表示,一組低級操作原語,以及一個高級操作選擇策略,該策略根據感知模塊的輸出迭代選擇要執行的低級原語。我們探索了在操作原語方面取得的進展,如推和抓取,帶有未知對象的場景分割和占用分布預測,以推斷目標對象的可能位置。此外,我們證明了使用模擬的深度圖像或點云可以為感知網絡快速生成大規模的訓練數據集,同時允許它們泛化到真實世界的對象和場景。結果表明,在模擬和物理實驗中,與基準策略相比,集成這些組件可以產生一個高效的機械搜索策略,提高15%的成功率,并減少提取目標對象所需的操作次數。
我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。
//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4
我們介紹了一種具有挑戰性的條件GAN訓練方案,稱為開放集半監督圖像生成,其中訓練數據集由兩部分組成: (i) 標記數據和(ii)未標記數據,其樣本屬于標記數據類中的一個,即一個封閉集,以及不屬于任何標記數據類的樣本,即一個開放集。與現有的半監督圖像生成任務(未標記數據只包含封閉集樣本)不同,我們的任務更加一般化,允許出現開放集樣本,從而在實踐中降低了數據收集成本。由于熵正則化,在標記數據上訓練的分類器能夠將cGAN訓練的樣本明智重要性量化為置信度,允許我們使用未標記數據中的所有樣本。我們設計了OSSGAN,它根據未標記圖像是否屬于感興趣的類別,為鑒別器提供決策線索,在訓練過程中平滑地集成了標記數據和未標記數據。在Tiny ImageNet和ImageNet上的實驗結果表明,與有監督的BigGAN和半監督方法相比,有顯著的改進。我們的代碼可以在//github.com/raven38/OSSGAN上找到。
視覺語言表征學習在很大程度上受益于圖像-文本的對比損失(例如InfoNCE損失)。這種對齊策略的成功是由于它能夠最大化圖像與匹配文本之間的互信息(MI)。然而,簡單地執行跨模態對齊(CMA)忽略了每個模態中的數據潛力,這可能導致表示的退化。例如,盡管基于CMA的模型能夠將圖像-文本對在嵌入空間中緊密地映射在一起,但它們不能確保來自相同模態的相似輸入保持在一起。當訓練前的數據有噪聲時,這個問題會變得更糟。在本文中,我們提出了利用跨模態和內模態自監督的三重對比學習(TCL)來進行視覺語言預訓練。除了CMA之外,TCL還引入了一個模態內對比目標,以在表示學習中提供互補的好處。為了利用來自圖像和文本輸入的局部和結構信息,TCL進一步最大化了圖像/文本局部區域和它們的全局摘要之間的平均MI。據我們所知,我們的工作是第一個考慮到局部結構信息的多模態表示學習。實驗評估表明,我們的方法在各種常見的下游視覺語言任務,如圖像-文本檢索和視覺問題回答上具有競爭力,達到了最新的技術水平。
//www.zhuanzhi.ai/paper/12af4807da28b56ef7ef66423f27cce9
當測試數據和訓練數據的分布相似時,基于深度神經網絡的方法已經取得了驚人的性能,但如果沒有相似的分布,則性能可能表現很差。因此,消除訓練和測試數據之間分布變化的影響對于構建具有良好性能的深度模型至關重要。傳統的方法要么假設訓練數據已知的異質性(例如域標簽),要么假設不同域的容量近似相等。在本文中,我們考慮一個更具有挑戰性的情況,即上述兩種假設都不成立。為了解決這一問題,我們提出通過學習訓練樣本的權重來消除特征之間的依賴關系,這有助于深度模型擺脫虛假的相關性,從而更加關注區分性特征和標簽之間的真實聯系。大量的實驗清楚地證明了我們的方法在多個分布泛化基準上的有效性,與最先進的同行相比。通過大量的分布泛化基準實驗,包括PACS、VLCS、mist - m和NICO,我們證明了該方法的有效性,并與最新的同類方法進行了比較。