在測試時使用預訓練的視覺-語言模型進行適應性調整已經吸引了越來越多的關注,以解決測試時的分布偏移問題。盡管之前的研究已經取得了非常有希望的表現,但它們涉及到的計算量非常大,這與測試時間的適應性調整嚴重不符。我們設計了TDA,一個無需訓練的動態適配器,使視覺-語言模型能夠有效且高效地進行測試時間的適應性調整。TDA利用輕量級的鍵-值緩存,維護一個動態隊列,隊列中的值為少量樣本的偽標簽,對應的測試樣本特征作為鍵。利用鍵-值緩存,TDA允許通過逐步精煉偽標簽來逐漸適應測試數據,這種方式超級高效,不需要任何反向傳播。此外,我們引入了負偽標簽,通過為某些負類分配偽標簽來減輕偽標簽噪聲的不利影響,當模型對其偽標簽預測不確定時采用。在兩個基準測試上的廣泛實驗表明,與最先進的方法相比,TDA展示出了更高的有效性和效率。代碼已在//kdiaaa.github.io/tda/ 發布。
預訓練的對比視覺-語言模型在廣泛的任務中展示了卓越的性能。然而,它們經常在未在預訓練期間充分表示的類別上的微調數據集上遇到困難,這使得適應變得必要。近期的研究通過使用來自網絡規模數據庫的樣本進行檢索增強適應,顯示了在低數據環境下的有希望的結果。盡管經驗上取得了成功,理解檢索如何影響視覺-語言模型的適應仍是一個開放的研究問題。在這項工作中,我們通過呈現一個系統研究來采用反思性視角,理解檢索增強適應中關鍵組件的角色。我們揭示了關于單模態和跨模態檢索的新見解,并強調了對有效適應至關重要的邏輯集合的作用。我們進一步提出了直接支持我們經驗觀察的理論基礎。
預訓練的對比視覺-語言模型在廣泛的任務中展示了卓越的性能。然而,它們經常在未在預訓練期間充分代表的類別上的微調數據集中遇到困難,這使得適應變得必要。近期的研究通過使用來自網絡規模數據庫的樣本進行檢索增強適應,尤其在數據稀缺的情況下,顯示了有希望的結果。盡管經驗上取得了成功,理解檢索如何影響視覺-語言模型的適應仍然是一個開放的研究問題。在這項工作中,我們通過呈現一個系統研究來采用反思性視角,以理解檢索增強適應中關鍵組件的角色。我們揭示了關于單模態和跨模態檢索的新見解,并強調了對有效適應至關重要的邏輯整合的關鍵作用。我們進一步提出了直接支持我們經驗觀察的理論基礎。 //www.zhuanzhi.ai/paper/115cd78619f4df0ed80226da85a630f3
盡管多模態大型語言模型(MLLMs)展示了有希望的多功能能力,它們在下游任務上的表現仍然不如專門的模型,這使得調整它們以增強其實用性變得必要。然而,微調方法需要對每個模型進行獨立訓練,導致巨大的計算和內存開銷。在本文中,我們提出了一個新的設置,旨在通過一組為下游任務優化的共享參數來提高不同MLLMs的性能。為此,我們提出了可轉移視覺提示(Transferable Visual Prompting,TVP),一種簡單而有效的方法,用于生成可以轉移到不同模型并在僅在一個模型上訓練后提高其在下游任務上的表現的視覺提示。我們引入兩種策略來解決現有視覺提示方法的跨模型特征污染問題,并增強學到的提示的可轉移性,包括1) 特征一致性對齊:對提示的特征變化施加約束,以保持與任務無關的知識;2) 任務語義豐富:鼓勵提示圖像在語言指導下包含更豐富的任務特定語義。我們通過與6種現代MLLMs在從對象識別和計數到多模態推理和幻覺校正等廣泛任務上的大量實驗,驗證了TVP的有效性。
我們考慮的任務是在廣泛的語義類別中,由自然音頻樣本引導生成多樣化且真實的視頻。對于這個任務,視頻需要在全局和時間上與輸入音頻對齊:在全局上,輸入音頻與整個輸出視頻在語義上相關聯;在時間上,輸入音頻的每個片段與該視頻的相應片段相關聯。我們利用了現有的基于文本條件的視頻生成模型和一個預訓練的音頻編碼器模型。所提出的方法基于一個輕量級適配器網絡,它學習將基于音頻的表示映射到文本到視頻生成模型所期望的輸入表示。因此,它也能實現基于文本、音頻,以及我們所能確定的首次,基于文本和音頻的視頻生成。我們在三個數據集上廣泛驗證了我們的方法,這些數據集展示了音頻視頻樣本的顯著語義多樣性,并進一步提出了一個新的評估指標(AV-Align),以評估生成視頻與輸入音頻樣本的對齊程度。AV-Align基于在兩種模態中檢測和比較能量峰值。與最近的最先進方法相比,我們的方法生成的視頻與輸入聲音在內容和時間軸上更好地對齊。我們還展示了我們的方法生成的視頻具有更高的視覺質量和更多樣化。代碼和樣本可在以下網址獲取://pages.cs.huji.ac.il/adiyoss-lab/TempoTokens。
高容量預訓練模型的出現已經徹底改變了計算機視覺中的問題解決方式,從訓練特定任務的模型轉變為調整預訓練的模型。因此,有效地將大型預訓練模型適應到下游任務中已經成為一個突出的研究領域。現有的解決方案主要集中在設計輕量級的適配器以及它們與預訓練模型的交互上,目的是最小化需要更新的參數數量。在本研究中,我們提出了一種新穎的適配器重組 (ARC) 策略,從一個全新的角度解決有效地預訓練模型的適應問題。我們的方法考慮了適應參數的可重用性,并引入了一個參數共享方案。具體來說,我們利用對稱的下/上投影來構建瓶頸操作,這些操作在各個層之間共享。通過學習低維度的重新縮放系數,我們可以有效地重新組合層適應的適配器。這種在適配器設計中的參數共享策略允許我們在保持滿意的性能的同時顯著減少新參數的數量,從而為壓縮適應成本提供了一個有前景的方法。我們使用各種視覺變壓器變體,在24個下游的圖像分類任務上進行了實驗來評估我們的方法。結果表明,我們的方法在減少參數數量的同時,實現了引人注目的遷移學習性能。
我們的代碼可在以下地址找到://github.com/DavidYanAnDe/ARC。
基于擴散的生成性圖模型已被證明在生成高質量的小圖上非常有效。然而,他們需要更具可擴展性才能生成包含數千個節點并期望圖統計的大圖。在這項工作中,我們提出了EDGE,一種新的基于擴散的生成性圖模型,用于處理大圖的生成任務。為了提高計算效率,我們通過使用一種離散擴散過程鼓勵圖的稀疏性,該過程在每個時間步隨機刪除邊,最終得到一個空圖。EDGE在每個去噪步驟中只關注圖中的一部分節點。它比以前的基于擴散的模型做出更少的邊預測。此外,EDGE允許顯式地模擬圖的節點度,進一步提高模型的性能。實證研究顯示,EDGE比競爭方法更高效,能夠生成包含數千個節點的大圖。它在生成質量上也超過了基線模型:我們方法生成的圖的圖統計數據與訓練圖的更相似。
//www.zhuanzhi.ai/paper/cc59405ca6fa98d54ead7fd468e1015e
可控生成是深度生成模型在現實應用中成功應用的關鍵要求之一,但它仍然是一個巨大的挑戰。特別是,生成新概念組合的組合能力是目前大多數模型所無法達到的。在這項工作中,我們使用基于能量的模型(EBMs)來處理一組屬性的組成生成。為了使它們可擴展到高分辨率圖像生成,我們在StyleGAN等預訓練生成模型的潛在空間中引入了EBM。我們提出了一種新的EBM公式來表示數據和屬性的聯合分布,并且我們展示了如何將它的抽樣表示為求解常微分方程(ODE)。給定一個預訓練的生成器,我們所需要的可控生成就是訓練一個屬性分類器。利用ODE進行采樣是有效的,并且對超參數具有魯棒性。因此,該方法簡單、訓練快、采樣效率高。實驗結果表明,該方法在條件采樣和順序編輯方面都優于現有的方法。在成分生成中,我們的方法優于零樣本生成未見的屬性組合。此外,通過將能量函數與邏輯運算符組合在一起,這項工作首次實現了這種組合,從而生成分辨率為1024x1024的逼真圖像。
現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。
最近的GPT-3模型僅利用自然語言提示和一些任務演示作為輸入上下文,就實現了顯著的少樣本學習性能。受該工作的發現啟發,作者在一個更實際的場景中研究了少次學習,我們使用更小的語言模型,以便在微調時更具有計算效率。我們提出了LM-BFF——更好的面向語言模型的少樣本微調,這是一套簡單且互補的技術,用于在少量帶注釋的示例上微調語言模型。我們的方法包括:(1)基于提示的微調,以及一個自動化提示生成的新管道;(2)動態和有選擇地將演示整合到每個上下文中的精煉策略。最后,我們提出了一個系統的評價,以分析在一系列的自然語言處理任務的少數射擊性能,包括分類和回歸。我們的實驗表明,在這種低資源設置下,我們的方法結合起來顯著優于標準微調程序,實現了高達30%的絕對改進,在所有任務中平均達到11%。我們的方法對任務資源和領域專家知識做了最小的假設,因此構成了一個強大的任務不可知的方法,用于少樣本學習。
在充分利用大量未標記數據的同時,從少量帶標記的樣例中學習的一種模式是,先進行無監督的預訓練,然后進行有監督的微調。盡管與計算機視覺半監督學習的常見方法相比,這種范式以任務無關的方式使用未標記數據,但我們證明它對于ImageNet上的半監督學習非常有效。我們方法的一個關鍵要素是在訓練前和微調期間使用大的(深度和廣度的)網絡。我們發現,標簽越少,這種方法(使用未標記數據的任務無關性)從更大的網絡中獲益越多。經過微調后,通過第二次使用未標記的例子,將大的網絡進一步改進,并以特定任務的方式將其精簡為分類精度損失很小的小網絡。本文提出的半監督學習算法可歸納為三個步驟: 使用SimCLRv2對一個大的ResNet模型進行無監督的預訓練,對少量帶標記的樣例進行有監督的微調,以及對未帶標記的樣例進行精化和傳遞特定任務的知識。使用ResNet-50,該程序僅使用1%的標簽(每個類別≤13張標記圖像),就實現了73.9%的ImageNet top-1精度,比以前的最先進的標簽效率提高了10倍。對于10%的標簽,ResNet-50用我們的方法訓練達到77.5%的top-1準確性,優于所有標簽的標準監督訓練。
//www.zhuanzhi.ai/paper/0c81b63b2aaae1ae2cc1a9b0fbb382b2