現有的開放集動作識別方法主要集中在新奇度檢測上,假設視頻片段顯示單個動作,這在現實世界中是不現實的。本文提出一種基于多標簽證據學習(MULE)的開放集動作識別和新奇檢測的新方法,通過解決同一場景中單個或多個參與者同時進行動作的更一般的問題,超越了之前的新動作檢測方法。Beta證據神經網絡基于actorcontext-object關系表示,用Beta密度估計多動作的不確定性。在目標函數中添加了證據去偏約束進行優化,以減少視頻表示的靜態偏差,這可能會錯誤地將預測和靜態線索關聯起來。我們開發了一種基于原始對偶平均方案更新的學習算法來優化所提出的問題。優化算法的理論分析證明了原始解序列的收斂性以及損失函數和去偏約束的界。提出了基于不確定性和信念的新奇度估計機制來檢測新動作。在兩個真實的視頻數據集上的廣泛實驗表明,所提出的方法在單/多角色、單/多動作設置中取得了很好的性能。
在源領域的帶標簽數據集上訓練的模型向無標簽目標領域的遷移通過無監督領域自適應(UDA)實現。然而,在處理復雜的時間序列模型時,由于不同領域間存在動態時間結構差異,導致特征偏移和時間頻率表示的空缺,使得遷移能力變得具有挑戰性。此外,源領域和目標領域的任務可能具有截然不同的標簽分布,這使得 UDA 很難緩解標簽偏移和識別僅存在于目標領域的標簽。我們提出了 RAINCOAT,這是第一個用于復雜時間序列的封閉集和通用 DA 的模型。RAINCOAT 通過考慮時間和頻率特征,跨領域對齊它們,并糾正不對齊來解決特征和標簽偏移問題,從而有助于檢測私有標簽。此外,RAINCOAT 通過識別目標領域的標簽偏移來提高遷移能力。我們在5個數據集和13個最先進的 UDA 方法上的實驗表明,RAINCOAT 可以實現最高達 16.33% 的性能改進,并且可以有效處理封閉集和通用自適應。
//www.zhuanzhi.ai/paper/5a24ce01774105793faf536c6b26090c
對比損失被越來越多地用于學習來自多種模態的表示。在極限情況下,對比損失的性質鼓勵模態在潛空間中精確匹配。然而,模態對齊如何影響下游任務性能仍然是一個開放問題。本文基于信息論論點,首先證明了精確的模態對齊通常對于下游預測任務是次優的。本文認為,更好性能的關鍵在于有意義的潛在模態結構,而不是完美的模態對齊。本文提出了三種通用的方法來構建潛在模態結構。設計了1)用于模態內正則化的深度特征分離損失;2)模態間正則化的Brownian損失;以及3)模態內和模態間正則化的幾何一致性損失。在兩種流行的多模態表示學習框架上進行了廣泛的實驗:基于CLIP的雙塔模型和基于ALBEF的融合模型。在各種任務上測試了該模型,包括零樣本/少樣本圖像分類、圖像-文本檢索、視覺問答、視覺推理和視覺蘊含。該方法比現有方法取得了一致的改進,證明了所提出方法在潛模態結構正則化上的有效性和泛化性。
我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。
//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4
我們介紹了一種具有挑戰性的條件GAN訓練方案,稱為開放集半監督圖像生成,其中訓練數據集由兩部分組成: (i) 標記數據和(ii)未標記數據,其樣本屬于標記數據類中的一個,即一個封閉集,以及不屬于任何標記數據類的樣本,即一個開放集。與現有的半監督圖像生成任務(未標記數據只包含封閉集樣本)不同,我們的任務更加一般化,允許出現開放集樣本,從而在實踐中降低了數據收集成本。由于熵正則化,在標記數據上訓練的分類器能夠將cGAN訓練的樣本明智重要性量化為置信度,允許我們使用未標記數據中的所有樣本。我們設計了OSSGAN,它根據未標記圖像是否屬于感興趣的類別,為鑒別器提供決策線索,在訓練過程中平滑地集成了標記數據和未標記數據。在Tiny ImageNet和ImageNet上的實驗結果表明,與有監督的BigGAN和半監督方法相比,有顯著的改進。我們的代碼可以在//github.com/raven38/OSSGAN上找到。
論文標題:UniVIP: A Unified Framework for Self-Supervised Visual Pre-training
論文鏈接://arxiv.org/abs/2203.06965 作者單位:中國科學院自動化研究所 & 商湯科技 & 南洋理工大學
自監督學習 (SSL) 有望利用大量未標記的數據。然而,流行的 SSL 方法的成功僅限于像 ImageNet 中的單中心對象圖像,并且忽略了場景和實例之間的相關性,以及場景中實例的語義差異。為了解決上述問題,我們提出了統一自監督視覺預訓練(UniVIP),這是一種新穎的自監督框架,用于在單中心對象或非標志性數據集上學習通用視覺表示。該框架考慮了三個層次的表示學習:1)場景-場景的相似性,2)場景-實例的相關性,3)實例的判別。在學習過程中,我們采用最優傳輸算法來自動測量實例的區分度。大量實驗表明,在非標志性 COCO 上預訓練的 UniVIP 在圖像分類、半監督學習、對象檢測和分割等各種下游任務上實現了最先進的傳輸性能。此外,我們的方法還可以利用 ImageNet 等單中心對象數據集,并且在線性探測中使用相同的預訓練 epoch 時比 BYOL 高 2.5%,并且在 COCO 數據集上超越了當前的自監督對象檢測方法,證明了它的普遍性和潛在性能。
當測試數據和訓練數據的分布相似時,基于深度神經網絡的方法已經取得了驚人的性能,但如果沒有相似的分布,則性能可能表現很差。因此,消除訓練和測試數據之間分布變化的影響對于構建具有良好性能的深度模型至關重要。傳統的方法要么假設訓練數據已知的異質性(例如域標簽),要么假設不同域的容量近似相等。在本文中,我們考慮一個更具有挑戰性的情況,即上述兩種假設都不成立。為了解決這一問題,我們提出通過學習訓練樣本的權重來消除特征之間的依賴關系,這有助于深度模型擺脫虛假的相關性,從而更加關注區分性特征和標簽之間的真實聯系。大量的實驗清楚地證明了我們的方法在多個分布泛化基準上的有效性,與最先進的同行相比。通過大量的分布泛化基準實驗,包括PACS、VLCS、mist - m和NICO,我們證明了該方法的有效性,并與最新的同類方法進行了比較。
本文首次在全卷積目標檢測器上去除了NMS(非極大值抑制)后處理,做到了端到端訓練。我們分析了主流一階段目標檢測方法,并發現傳統的一對多標簽分配策略是這些方法依賴NMS的關鍵,并由此提出了預測感知的一對一標簽分配策略。此外,為了提升一對一標簽分配的性能,我們提出了增強特征表征能力的模塊,和加速模型收斂的輔助損失函數。我們的方法在無NMS的情況下達到了與主流一階段目標檢測方法相當的性能。在密集場景上,我們的方法的召回率超過了依賴NMS的目標檢測方法的理論上限。
Neural Architecture Search with Random Labels 現有的主流NAS算法通過子網絡在驗證集上的預測性能來進行模型搜索,但是在參數共享機制下,驗證集上的預測性能和模型真實性能存在較大的差異。我們首次打破了這種基于預測性能進行模型評估的范式,從模型收斂速度的角度來進行子網絡評估并假設:模型收斂速度越快,其對應的預測性能越高。
基于模型收斂性框架,我們發現模型收斂性與圖像真實標簽無關,便進一步提出使用隨機標簽進行超網絡訓練的新NAS范式-RLNAS。RLNAS在多個數據集(NAS-Bench-201,ImageNet)以及多個搜索空間(DARTS,MobileNet-like)進行了驗證,實驗結果表明RLNAS僅使用隨機標簽搜索出來的結構便能達到現有的NAS SOTA的水平。RLNAS初聽比較反直覺,但其出乎意料的好結果為NAS社區提出了一組更強的基線,同時也進一步啟發了對NAS本質的思考。 //www.zhuanzhi.ai/paper/73ff2aa2c413ba1035d0c205173ca72a
我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。
在場景圖分類的一個主要挑戰是,物體的外觀和關系可以明顯不同于另一幅圖像。以前的工作通過對圖像中所有物體的關系推理,或將先驗知識納入分類來解決這個問題。與之前的工作不同,我們不考慮感知和先驗知識的分離模型。相反,我們采用多任務學習方法,其中分類被實現為一個注意力層。這允許先驗知識在感知模型中出現和傳播。通過使模型也代表先驗,我們實現了歸納偏差。我們表明,我們的模型可以準確地生成常識性知識,并且將這些知識迭代注入到場景表示中可以顯著提高分類性能。此外,我們的模型可以根據作為三元組的外部知識進行微調。當與自監督學習相結合時,這將獲得僅對1%的帶注釋的圖像進行準確的預測。