低數據環境下的視覺識別需要深度神經網絡從有限的訓練樣本中學習廣義表示。最近,基于CLIP的方法顯示出有希望的少樣本性能,得益于對比性語言-圖像預訓練。提出問題,是否可以通過級聯更多樣化的預訓練知識來進一步輔助少樣本表示學習。本文提出CaFo,一種級聯的基礎模型,融合了各種預訓練范式的各種先驗知識,以實現更好的少樣本學習。CaFo融合了CLIP的語言對比知識、DINO的視覺對比知識、DALL-E的視覺生成知識和GPT-3的語言生成知識。具體來說,CaFo的工作原理是“提示,生成,然后緩存”。首先,利用GPT-3為具有豐富下游語言語義的提示片段產生文本輸入。然后,通過DALL-E生成合成圖像,以在不需要任何人工的情況下擴展少樣本訓練數據。最后,提出一種可學習的緩存模型來自適應地融合CLIP和DINO的預測結果。通過這種合作,CaFo可以充分釋放不同預訓練方法的潛力,并將它們統一起來,以執行最先進的少樣本分類。代碼可以在//github.com/ZrrSkywalker/CaFo上找到。
**本文提出ODISE:基于開放詞匯擴散的全景分割,將預訓練的文本-圖像擴散和判別模型統一起來,以執行開放詞匯全景分割。**文本到圖像擴散模型已經顯示出了生成具有多種開放詞匯語言描述的高質量圖像的顯著能力。這表明它們的內部表示空間與現實世界中的開放概念高度相關。另一方面,像CLIP這樣的文本-圖像判別模型擅長將圖像分類為開放詞匯表標簽。本文建議利用這兩個模型的凍結表示來對實際環境中的任何類別進行全景分割。所提出方法在開放詞匯表全景任務和語義分割任務上都明顯優于之前的技術水平。特別是,在僅進行COCO訓練的情況下,所提出方法在ADE20K數據集上達到了23.4 PQ和30.0 mIoU,比之前的最先進水平有8.3 PQ和7.9 mIoU的絕對提升。項目頁面可以在這個https URL中找到。
基于知識的視覺問答(VQA)需要圖像以外的外部知識來回答問題。早期的研究從顯式知識庫(KBs)中檢索所需的知識,但這些知識往往會引入與問題無關的信息,從而限制了模型的性能。最近的工作試圖使用大型語言模型(即GPT-3[3])作為隱式知識引擎,以獲取必要的知識進行回答。盡管這些方法取得了令人鼓舞的結果,但由于提供的輸入信息不足,它們并沒有充分激活GPT-3的能力。**本文提出prophet——一個概念簡單的框架,旨在用答案啟發式方法提示GPT-3進行基于知識的VQA。**首先,在沒有外部知識的情況下,在特定的基于知識的VQA數據集上訓練了一個普通的VQA模型。然后,從模型中抽取兩類互補答案啟發:答案候選和答案感知示例。最后,將兩類答案啟發編碼到提示信息中,使GPT-3能夠更好地理解任務,從而提高其能力。Prophet在兩個具有挑戰性的基于知識的VQA數據集OK-VQA和A-OKVQA上明顯優于所有現有的最先進方法,在它們的測試集上分別取得了61.1%和55.7%的準確率。
擴散模型(DMs)在高質量圖像合成中顯示出巨大的潛力。然而,在制作復雜場景的圖像時,如何正確地描述圖像的全局結構和對象細節仍然是一個具有挑戰性的任務。在這篇論文中,我們提出了Frido,一個特征金字塔擴散模型執行多尺度粗-細去噪過程的圖像合成。我們的模型將輸入圖像分解為尺度相關的矢量量化特征,然后進行從粗到細的調制生成圖像輸出。在上述多尺度表示學習階段,可以進一步利用文本、場景圖或圖像布局等附加輸入條件。因此,Frido也可以用于條件或交叉模態圖像合成。我們在各種無條件和有條件的圖像生成任務上進行了廣泛的實驗,從文本到圖像合成,從布局到圖像,從場景到圖像,到標簽到圖像。更具體地說,我們在五個基準上獲得了最先進的FID得分,分別是COCO和OpenImages上的布局到圖像,COCO和Visual Genome上的場景到圖像,以及COCO上的標簽到圖像。
//www.zhuanzhi.ai/paper/d6197fd1315f12b3d3cd40944d4d9272
我們介紹了一種具有挑戰性的條件GAN訓練方案,稱為開放集半監督圖像生成,其中訓練數據集由兩部分組成: (i) 標記數據和(ii)未標記數據,其樣本屬于標記數據類中的一個,即一個封閉集,以及不屬于任何標記數據類的樣本,即一個開放集。與現有的半監督圖像生成任務(未標記數據只包含封閉集樣本)不同,我們的任務更加一般化,允許出現開放集樣本,從而在實踐中降低了數據收集成本。由于熵正則化,在標記數據上訓練的分類器能夠將cGAN訓練的樣本明智重要性量化為置信度,允許我們使用未標記數據中的所有樣本。我們設計了OSSGAN,它根據未標記圖像是否屬于感興趣的類別,為鑒別器提供決策線索,在訓練過程中平滑地集成了標記數據和未標記數據。在Tiny ImageNet和ImageNet上的實驗結果表明,與有監督的BigGAN和半監督方法相比,有顯著的改進。我們的代碼可以在//github.com/raven38/OSSGAN上找到。
在對新類進行訓練時,少樣本學習(FSL)方法通常假設具有準確標記樣本的干凈支持集。這種假設通常是不現實的: 支持集,無論多小,仍然可能包括錯誤標記的樣本。因此,對標簽噪聲的魯棒性對于FSL方法的實用性是至關重要的,但令人驚訝的是,這個問題在很大程度上仍然沒有被探索。為了解決FSL設置中標簽錯誤的樣品,我們做了一些技術貢獻。(1)我們提供簡單而有效的特征聚合方法,改進了ProtoNet(一種流行的FSL技術)所使用的原型。(2)我們描述了一種新的Transformer 模型用于有噪聲的少樣本學習(TraNFS)。TraNFS利用Transformer的注意力機制來權衡標簽錯誤和正確的樣本。(3)最后,我們在噪聲版本的MiniImageNet和TieredImageNet上對這些方法進行了廣泛的測試。我們的結果表明,在干凈的支持集上,TraNFS與領先的FSL方法相當,但到目前為止,在存在標簽噪聲的情況下,TraNFS的性能優于FSL方法。
//www.zhuanzhi.ai/paper/3344a6f7145677357d0fa217987a4502
隨著功能強大的預訓練視覺語言模型(如CLIP)的興起,研究如何使這些模型適應下游數據集變得非常必要。最近提出的一種名為上下文優化(CoOp)的方法將提示學習的概念引入視覺領域,以適應預訓練的視覺語言模型。具體來說,CoOp將提示中的上下文單詞轉換為一組可學習的向量,并且僅使用少量標記的圖像進行學習,可以在經過大量調整的手動提示中實現巨大的改進。在我們的研究中,我們確定了CoOp的一個關鍵問題: 學習的上下文不能泛化到同一數據集內更廣泛的不可見類,這表明在訓練期間觀察到的CoOp基類過擬合。 為了解決這個問題,我們提出了條件上下文優化(CoCoOp),它通過進一步學習一個輕量級神經網絡來為每幅圖像生成一個輸入條件標記(向量)來擴展CoCoOp。與CoOp的靜態提示相比,我們的動態提示適應每個實例,因此對類遷移不那么敏感。大量的實驗表明,對于不可見的類,CoCoOp的泛化效果要比CoOp好得多,甚至在單個數據集之外還顯示出很好的可遷移性; 具有較強的域泛化性能。代碼可在//github.com/ KaiyangZhou/CoOp
最近的GPT-3模型僅利用自然語言提示和一些任務演示作為輸入上下文,就實現了顯著的少樣本學習性能。受該工作的發現啟發,作者在一個更實際的場景中研究了少次學習,我們使用更小的語言模型,以便在微調時更具有計算效率。我們提出了LM-BFF——更好的面向語言模型的少樣本微調,這是一套簡單且互補的技術,用于在少量帶注釋的示例上微調語言模型。我們的方法包括:(1)基于提示的微調,以及一個自動化提示生成的新管道;(2)動態和有選擇地將演示整合到每個上下文中的精煉策略。最后,我們提出了一個系統的評價,以分析在一系列的自然語言處理任務的少數射擊性能,包括分類和回歸。我們的實驗表明,在這種低資源設置下,我們的方法結合起來顯著優于標準微調程序,實現了高達30%的絕對改進,在所有任務中平均達到11%。我們的方法對任務資源和領域專家知識做了最小的假設,因此構成了一個強大的任務不可知的方法,用于少樣本學習。