最近,CLIP引導的圖像合成在將預訓練的源域生成器適應于未見過的目標域方面表現出了誘人的性能。它不需要任何目標域樣本,只需要文本域標簽。訓練是非常高效的,例如,幾分鐘。然而,現有方法在生成圖像的質量方面仍然存在一定的局限性,并且可能會出現模式崩潰的問題。一個關鍵的原因是對所有的跨域圖像對應用固定的自適應方向,從而導致相同的監督信號。為了解決這個問題,本文提出了一種圖像特定提示學習(image -specific Prompt Learning, IPL)方法,為每個源域圖像學習特定的提示向量。為每個跨域圖像對生成一個更精確的自適應方向,使目標域生成器具有更大的靈活性。不同領域的定性和定量評估表明,IPL有效地提高了合成圖像的質量和多樣性,緩解了模式崩潰。此外,IPL獨立于生成模型的結構,如生成對抗網絡或擴散模型。代碼可以在//github.com/Picsart-AI-Research/IPLZero-Shot-Generative-Model-Adaptation上找到。
低數據環境下的視覺識別需要深度神經網絡從有限的訓練樣本中學習廣義表示。最近,基于CLIP的方法顯示出有希望的少樣本性能,得益于對比性語言-圖像預訓練。提出問題,是否可以通過級聯更多樣化的預訓練知識來進一步輔助少樣本表示學習。本文提出CaFo,一種級聯的基礎模型,融合了各種預訓練范式的各種先驗知識,以實現更好的少樣本學習。CaFo融合了CLIP的語言對比知識、DINO的視覺對比知識、DALL-E的視覺生成知識和GPT-3的語言生成知識。具體來說,CaFo的工作原理是“提示,生成,然后緩存”。首先,利用GPT-3為具有豐富下游語言語義的提示片段產生文本輸入。然后,通過DALL-E生成合成圖像,以在不需要任何人工的情況下擴展少樣本訓練數據。最后,提出一種可學習的緩存模型來自適應地融合CLIP和DINO的預測結果。通過這種合作,CaFo可以充分釋放不同預訓練方法的潛力,并將它們統一起來,以執行最先進的少樣本分類。代碼可以在//github.com/ZrrSkywalker/CaFo上找到。
回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。
少樣本數據集泛化是研究良好的少樣本分類問題的一種具有挑戰性的變體,其中給出了多個數據集的不同訓練集,目的是訓練一個可適應的模型,然后可以通過僅使用幾個例子從新數據集學習類。為此,我們提出利用不同的訓練集來構建一個通用模板:通過插入適當的組件,可以定義廣泛的數據集專用模型的部分模型。因此,對于每個新的幾桿分類問題,我們的方法只需要推斷少量參數插入到通用模板中。我們設計了一個單獨的網絡,為每個給定的任務生成這些參數的初始化,然后我們通過梯度下降的幾個步驟來微調其提出的初始化。與以前的方法相比,我們的方法參數效率更高,可擴展性更強,適應性更強,并在具有挑戰性的Meta-Dataset基準測試上達到了最好的性能。
在半監督領域自適應問題的目標域數據中對每個類別賦予少量有標簽樣本可引導其余的無標簽目標域樣本的特征聚集在它們周圍。但是,如此經過訓練后的模型無法為目標域生成具有高度區分性的特征表示,因為訓練過程主要由來自源域的有標簽樣本主導。這就可能導致有標簽和無標簽的目標域樣本之間的特征缺乏連結以及目標域和源域樣本之間的特征進行錯位對齊。在本文中,作者們提出了一種新的被稱為跨域自適應聚類的算法來解決這個問題。為了同時實現不同領域間和同一領域內的自適應,我們首先引入了一個對抗性自適應聚類損失函數來對無標簽目標域樣本的特征進行分組聚類,并在源域和目標域之間以聚類簇的形式進行跨域特征對齊。另外,我們進一步將“Pseudo labeling”技術應用于目標域中無標簽樣本,并對具有較高的置信度的樣本賦予“偽標簽”。該技術擴充了目標域中每個類別的“有標簽樣本”的數量使得每個類別可以產生了更加魯棒、強大的聚類簇中心,從而促進對抗學習過程。我們在包括DomainNet、Office-Home和Office在內的基準數據集上進行的大量實驗,結果表明我們所提出的方法能夠在半監督域自適應中實現最優性能。
論文鏈接://www.zhuanzhi.ai/paper/bca546caa350082ff63382cc18636077
代碼鏈接:
華為諾亞方舟實驗室網絡大腦團隊聯合天津大學提出一種采用雙向對抗訓練生成中間域樣本提升半監督域自適應效果的方法,該工作《Bidirectional Adversarial Training for Semi-Supervised Domain Adaptation》已發表于IJCAI 2020。 論文地址://www.ijcai.org/Proceedings/2020/130
領域自適應(domain adaptation)是遷移學習中的一個重要問題,目的是減小分布不同的源域 (source domain) 和目標域(target domain)的數據差距。從而可以把在源域上訓練的模型遷移到目標域上。無監督領域自適應和半監督領域自適應是其中的兩個重要的子問題。通常情況下,無監督領域自適應不需要目標域中的任何標注,而半監督領域自適應往往需要目標域的少量標注。本文解決的是半監督的領域自適應(Semi-Supervised Domain Adaptation,SSDA)問題。這個問題的一個主要挑戰是如何有效的利用這些目標域的少量標注信息來縮小源域和目標域的領域鴻溝(Domain Gap)。
經典的方法主要還是基于無監督領域自適應的思想去學習一個領域不變的分類模型。然而,這種方法主要是采用對抗學習來學習這種不變性,并沒有很好的利用目標域的標注信息。
本文采用了生成對抗樣本的思路在源域和目標域之間建立聯系。簡單來說,我們采用一些樣本生成的策略,在Domain Gap內部生成新的樣本點,如下圖中黃色樣本所示。然后利用這些生成樣本訓練網絡,達到領域自適應的目的。
為了實現上述目的,我們希望生成的樣本點能盡可能地具備方向性,即從源域到目標域,以及從目標域到源域雙向地生成對抗樣本。為此,本文借鑒對抗防御中的對抗訓練策略,在真實樣本上疊加有向的噪聲擾動,提出一種雙向對抗訓練(Bidirectional Adversarial Training)的方法一定程度上解決SSDA問題。
題目: Diverse Image Generation via Self-Conditioned GANs
摘要:
本文介紹了一個簡單但有效的無監督方法,以產生現實和多樣化的圖像,并且訓練了一個類條件GAN模型,而不使用手動注釋的類標簽。相反,模型的條件是標簽自動聚類在鑒別器的特征空間。集群步驟自動發現不同的模式,并顯式地要求生成器覆蓋它們。在標準模式基準測試上的實驗表明,該方法在尋址模式崩潰時優于其他幾種競爭的方法。并且該方法在ImageNet和Places365這樣的大規模數據集上也有很好的表現,與以前的方法相比,提高了圖像多樣性和標準質量指標。
在這篇論文中,我們提出了一個框架,能夠生成與給定的一次性樣例相同分布的人臉圖像。我們利用一個預先訓練的StyleGAN模型,它已經學會了一般的面部分布。針對這一一次性目標,我們提出了一種快速調整模型權值的迭代優化方案,以使輸出的高階分布適應目標的高階分布。為了生成相同分布的圖像,我們引入了一種風格混合技術,將低水平的統計信息從目標傳輸到模型隨機生成的人臉。這樣,我們就能夠生成無限數量的面孔,這些面孔既繼承了一般人臉的分布,也繼承了一次性人臉的分布。新生成的人臉可以作為其他下游任務的增強訓練數據。這樣的設置很有吸引力,因為它需要在目標域中標記很少的標記,甚至只需要一個示例,而在現實世界中,人臉操作通常是由各種未知的和獨特的分布導致的。結果表明,本文提出的單樣本自適應方法是一種有效的人臉操作檢測方法,并與其他多鏡頭自適應方法進行了定性和定量的比較。