通過提示,大規模預訓練模型變得更具表達力和威力,在近年來受到了顯著的關注。盡管這些大型模型具有零射擊能力,但總的來說,仍需要標簽數據來使它們適應下游任務。為了克服這個關鍵的限制,我們提出了一個無監督的微調框架,直接在未標記的目標數據上微調模型或提示。我們演示了如何通過對齊從提示和目標數據中提取的離散分布,將我們的方法應用于語言增強視覺和掩蔽語言模型。為了驗證我們的方法的適用性,我們在圖像分類、情感分析和自然語言推理任務上進行了大量實驗。在13個與圖像相關的任務和15個與語言相關的任務中,我們的方法都取得了比基線更好的一致性改善。PyTorch的代碼可以在//github.com/korawat-tanwisuth/POUF上找到。
視覺提示調優(VPT)是一種有效的調整方法,用于將預訓練的Vision Transformers (ViTs)適應到下游任務。它利用額外的可學習的標記,稱為提示,來引導凍結的預訓練的ViTs。盡管VPT已經證明了其在監督視覺變換器中的應用性,但在自我監督的視覺變換器中常常表現不佳。通過實證觀察,我們推斷出VPT的有效性在很大程度上取決于提示標記與之交互的ViT塊。具體來說,當提示標記插入到后面的塊而不是第一個塊時,VPT在圖像分類任務中的性能有所提高,例如MAE和MoCo v3。這些觀察表明,存在一個插入提示標記的塊的最優位置。不幸的是,確定每個自我監督ViT中提示的最佳塊以適應多樣的未來場景是一個成本高昂的過程。為了緩解這個問題,我們提出了一種簡單而有效的方法,該方法學習每個ViT塊的一個門,以調整其對提示標記的干預。通過我們的方法,提示標記被選擇性地受到需要進行任務適應的塊的影響。我們的方法在FGVC和VTAB圖像分類以及ADE20K語義分割中優于VPT變體。代碼可在
//github.com/ryongithub/GatedPromptTuning 獲取。
近期在離線強化學習(RL)的研究中,我們發現基于回報的監督學習是解決決策問題的強大范式。然而,盡管有前景,但基于回報的方法僅限于使用標注有獎勵的訓練數據,因此在從無監督數據中學習時面臨挑戰。在這項工作中,我們旨在利用泛化的未來條件,以實現從無獎勵和次優離線數據中進行有效的無監督預訓練。我們提出了預訓練決策變換器(PDT),這是一種在概念上簡單的無監督RL預訓練方法。PDT利用未來軌跡信息作為特權上下文在訓練期間預測動作。能夠根據當前和未來因素做出決策,增強了PDT的泛化能力。此外,這個特性可以很容易地融入到基于回報的框架中進行在線微調,通過為可能的未來分配回報值并根據各自的值采樣未來嵌入。從實證上看,PDT的表現優于或與其監督預訓練的對手相當,特別是在處理次優數據時。進一步分析表明,PDT能夠從離線數據中提取出多樣的行為,并通過在線微調可控地采樣高回報行為。代碼可在此處獲取。
由于大規模模型的端到端訓練,視覺和語言預訓練的成本變得越來越令人望而卻步。本文提出BLIP-2,一種通用而有效的預訓練策略,從現成的凍結預訓練圖像編碼器和凍結的大型語言模型中引導視覺-語言預訓練。BLIP-2通過一個輕量級的查詢Transformer彌合了模式差距,該Transformer分兩個階段進行預訓練。第一階段從凍結的圖像編碼器中引導視覺-語言表示學習。第二階段從一個凍結的語言模型中引導視覺到語言的生成學習。BLIP-2在各種視覺語言任務上取得了最先進的性能,盡管可訓練參數比現有方法少得多。例如,所提出模型在零樣本VQAv2上的表現比Flamingo80B高出8.7%,可訓練參數減少了54倍。還展示了該模型的零樣本圖像到文本生成的新興能力,可以遵循自然語言指令。
//www.zhuanzhi.ai/paper/07f6ce13e18cd1dc714cf3d3f88d1e56
**近年來,隨著用戶生成的多模態數據的爆炸式增長,學習多模態表示已經使許多新穎的視覺語言應用成為可能。**雖然全球大約有6500種語言,但大多數視覺語言模型及其數據集都是基于英語的。不幸的是,這種限制阻礙了當前的模型造福于更廣泛的非英語社區。因此,開發基于英語的視覺語言模型泛化到非英語語言的方法是迫切而有益的。我的論文工作在這一挑戰的多個方面取得了進展,通過探索學習多語言多模態表示的新興趨勢,促進了對各種語言的圖像、視頻和文本等異構內容的建模和推理。在本文的第一部分中,我指出了現有英語圖像表示學習的局限性,為廣義多語言多模態表示學習鋪平了道路。雖然之前的工作主要是將整個圖像與相應的英文標題相關聯,但我認為這種對應應該更加精細,甚至是多語言的。結果表明,基于注意力和面向對象的多語言多模態表示學習方法可以有效地改進跨模態搜索和多模態機器翻譯等終端任務。**本文的第二部分研究了視覺-語言模型的跨語言泛化。本文解決了大規模任務無關的多語言多模態預訓練中的可擴展性挑戰,以及在對最終任務進行微調時缺乏注釋的挑戰。**為了用有噪聲的百萬規模的未經整理的教學視頻及其各種語言的轉錄進行學習,我分析了多模態自監督學習中理想的支持集大小,并提出了一個重建目標來緩解這種瓶頸。此外,我探索了多語言多模態預訓練并構建了Multi-HowTo100M數據集,該數據集由1.2億個視頻片段及其在9種語言中的轉錄組成,以改善視覺-語言模型的零樣本跨語言遷移。最后,在特定任務的微調中,利用自動視覺語義來學習稀疏的英語視覺注釋。當非英語標注稀缺或不可用時,本文研究了視覺旋轉監督和無監督多模態機器翻譯,將英語視覺數據翻譯為非英語視覺數據,以進行多語言多模態微調。本文的工作為增強視覺-語言模型的跨語言泛化能力帶來了顯著的突破。我相信所提出的方法和釋放的資源將是邁向多語言視覺-語言模型的關鍵一步。
現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。
多任務學習(Multi-task learning, MTL)旨在通過對多個相關任務的聯合學習來提高任務的泛化能力。作為對比,除了聯合訓練方案,現代元學習允許在測試階段進行一些不可見的、標簽有限的任務,希望能夠快速適應它們。盡管MTL和元學習在問題表述上存在細微的差異,但兩種學習范式都認為,現有訓練任務之間的共享結構可以導致更好的泛化和適應性。本文通過理論分析和實證調查,進一步了解了這兩種學習模式之間的密切聯系。理論上,我們首先證明了MTL與一類基于梯度的元學習(GBML)算法具有相同的優化公式。然后我們證明了對于具有足夠深度的過參數化神經網絡,MTL和GBML學習到的預測函數是接近的。特別是,這一結果表明,這兩個模型給出的預測是相似的,在相同的看不見的任務。通過實證,我們證實了我們的理論發現,通過適當的實現,MTL可以在一組少樣本分類基準上與先進的GBML算法相媲美。由于現有的GBML算法經常涉及代價高昂的二階兩級優化,我們的一階MTL方法在大型數據集(如微型imagenet)上快了一個數量級。我們相信,這項工作可以幫助彌合這兩種學習模式之間的差距,并提供一個計算效率高的替代GBML,也支持快速任務適應。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。
論文:Adaptive Consistency Regularization for Semi-Supervised Transfer Learning 鏈接: //www.zhuanzhi.ai/paper/43d085f2c66d68b77584edcb0ee36ba0 代碼:
盡管最近半監督學習的研究在利用標記和未標記數據方面有顯著進步,但大多數假設模型的基本設置是隨機初始化的。
因此本文將半監督學習和遷移學習相結合提出了一種半監督的轉移學習框架,該方法不僅能利用目標域(目標任務數據集)中的標記/未標記數據,還能利用源域(具有不同語義的通用數據集,如:ImageNet)中的預訓練模型。為了更好地利用預訓練權重和未標記目標數據,我們引入了自適應一致性正則化,它由兩個互補組件組成:源模型和目標模型之間的示例上的自適應知識一致性(AKC),以及自適應表示一致性(ARC) ),在目標模型上標記和未標記的示例之間,根據它們對目標任務的潛在貢獻,自適應地選擇一致性正則化中涉及的示例。
通過微調ImageNet預訓練的ResNet-50模型,我們在幾個流行的基準上進行了廣泛的實驗,包括CUB-200-2011,MIT Indoor-67,MURA。結果表明,我們提出的自適應一致性正則化性能優于最新的半監督學習技術,例如Pseudo Label,Mean Teacher和MixMatch。此外,我們的算法能與現有方法共同使用,因此能夠在MixMatch和FixMatch之上獲得其他改進。
本文的主要貢獻包含以下三點:
1、第一個提出用于深度神經網絡的半監督轉移學習框架 2、利用半監督學習和轉移學習的特性引入自適應一致性正則化來改善半監督轉移學習 3、實驗結果表明所提出的自適應一致性正則化性能優于最新的半監督學習技術
在充分利用大量未標記數據的同時,從少量帶標記的樣例中學習的一種模式是,先進行無監督的預訓練,然后進行有監督的微調。盡管與計算機視覺半監督學習的常見方法相比,這種范式以任務無關的方式使用未標記數據,但我們證明它對于ImageNet上的半監督學習非常有效。我們方法的一個關鍵要素是在訓練前和微調期間使用大的(深度和廣度的)網絡。我們發現,標簽越少,這種方法(使用未標記數據的任務無關性)從更大的網絡中獲益越多。經過微調后,通過第二次使用未標記的例子,將大的網絡進一步改進,并以特定任務的方式將其精簡為分類精度損失很小的小網絡。本文提出的半監督學習算法可歸納為三個步驟: 使用SimCLRv2對一個大的ResNet模型進行無監督的預訓練,對少量帶標記的樣例進行有監督的微調,以及對未帶標記的樣例進行精化和傳遞特定任務的知識。使用ResNet-50,該程序僅使用1%的標簽(每個類別≤13張標記圖像),就實現了73.9%的ImageNet top-1精度,比以前的最先進的標簽效率提高了10倍。對于10%的標簽,ResNet-50用我們的方法訓練達到77.5%的top-1準確性,優于所有標簽的標準監督訓練。
//www.zhuanzhi.ai/paper/0c81b63b2aaae1ae2cc1a9b0fbb382b2
我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。