預訓練的對比視覺-語言模型在廣泛的任務中展示了卓越的性能。然而,它們經常在未在預訓練期間充分代表的類別上的微調數據集中遇到困難,這使得適應變得必要。近期的研究通過使用來自網絡規模數據庫的樣本進行檢索增強適應,尤其在數據稀缺的情況下,顯示了有希望的結果。盡管經驗上取得了成功,理解檢索如何影響視覺-語言模型的適應仍然是一個開放的研究問題。在這項工作中,我們通過呈現一個系統研究來采用反思性視角,以理解檢索增強適應中關鍵組件的角色。我們揭示了關于單模態和跨模態檢索的新見解,并強調了對有效適應至關重要的邏輯整合的關鍵作用。我們進一步提出了直接支持我們經驗觀察的理論基礎。 //www.zhuanzhi.ai/paper/115cd78619f4df0ed80226da85a630f3
預訓練的對比視覺-語言模型在廣泛的任務中展示了卓越的性能。然而,它們經常在未在預訓練期間充分表示的類別上的微調數據集上遇到困難,這使得適應變得必要。近期的研究通過使用來自網絡規模數據庫的樣本進行檢索增強適應,顯示了在低數據環境下的有希望的結果。盡管經驗上取得了成功,理解檢索如何影響視覺-語言模型的適應仍是一個開放的研究問題。在這項工作中,我們通過呈現一個系統研究來采用反思性視角,理解檢索增強適應中關鍵組件的角色。我們揭示了關于單模態和跨模態檢索的新見解,并強調了對有效適應至關重要的邏輯集合的作用。我們進一步提出了直接支持我們經驗觀察的理論基礎。
在測試時使用預訓練的視覺-語言模型進行適應性調整已經吸引了越來越多的關注,以解決測試時的分布偏移問題。盡管之前的研究已經取得了非常有希望的表現,但它們涉及到的計算量非常大,這與測試時間的適應性調整嚴重不符。我們設計了TDA,一個無需訓練的動態適配器,使視覺-語言模型能夠有效且高效地進行測試時間的適應性調整。TDA利用輕量級的鍵-值緩存,維護一個動態隊列,隊列中的值為少量樣本的偽標簽,對應的測試樣本特征作為鍵。利用鍵-值緩存,TDA允許通過逐步精煉偽標簽來逐漸適應測試數據,這種方式超級高效,不需要任何反向傳播。此外,我們引入了負偽標簽,通過為某些負類分配偽標簽來減輕偽標簽噪聲的不利影響,當模型對其偽標簽預測不確定時采用。在兩個基準測試上的廣泛實驗表明,與最先進的方法相比,TDA展示出了更高的有效性和效率。代碼已在//kdiaaa.github.io/tda/ 發布。
對比視覺-語言預訓練,即CLIP,展現了在感知開放世界視覺概念方面的顯著潛力,實現了有效的零樣本圖像識別。然而,基于CLIP的小樣本學習方法通常需要在少量樣本上進行離線微調參數,這導致了更長的推理時間和在某些領域過擬合的風險。為了應對這些挑戰,我們提出了Meta-Adapter,一種輕量級的殘差風格適配器,用以指導少樣本在線細化CLIP特征。通過少量的訓練樣本,我們的方法可以實現有效的小樣本學習能力,并且在沒有額外微調的情況下泛化到未見過的數據或任務,達到了具有競爭力的性能和高效率。我們的方法不需要復雜的附加功能,就在八個圖像分類數據集上平均超過了最新的在線小樣本學習方法3.6%的性能,并且具有更高的推理速度。此外,我們的模型簡單靈活,可作為直接適用于下游任務的即插即用模塊。在無需進一步微調的情況下,Meta-Adapter在開放詞匯的對象檢測和分割任務中取得了顯著的性能提升。
高容量預訓練模型的出現已經徹底改變了計算機視覺中的問題解決方式,從訓練特定任務的模型轉變為調整預訓練的模型。因此,有效地將大型預訓練模型適應到下游任務中已經成為一個突出的研究領域。現有的解決方案主要集中在設計輕量級的適配器以及它們與預訓練模型的交互上,目的是最小化需要更新的參數數量。在本研究中,我們提出了一種新穎的適配器重組 (ARC) 策略,從一個全新的角度解決有效地預訓練模型的適應問題。我們的方法考慮了適應參數的可重用性,并引入了一個參數共享方案。具體來說,我們利用對稱的下/上投影來構建瓶頸操作,這些操作在各個層之間共享。通過學習低維度的重新縮放系數,我們可以有效地重新組合層適應的適配器。這種在適配器設計中的參數共享策略允許我們在保持滿意的性能的同時顯著減少新參數的數量,從而為壓縮適應成本提供了一個有前景的方法。我們使用各種視覺變壓器變體,在24個下游的圖像分類任務上進行了實驗來評估我們的方法。結果表明,我們的方法在減少參數數量的同時,實現了引人注目的遷移學習性能。
我們的代碼可在以下地址找到://github.com/DavidYanAnDe/ARC。
最近的研究揭示了預訓練語言模型(PLMs)的有趣的少樣本學習能力:他們可以在微調了少量標記數據后快速適應新任務,這些數據被構造成提示,無需大量的任務特定注解。盡管他們的表現很有希望,但大多數只從小型訓練集中學習的少樣本方法的表現仍然遠低于完全監督的訓練。在這項工作中,我們從不同的角度研究了PLMs的少樣本學習:我們首先調整一個自回歸PLM在少樣本樣本上,然后用它作為生成器來生成大量的新的訓練樣本,這些樣本增加了原始的訓練集。為了鼓勵生成器產生標簽判別樣本,我們通過加權最大似然訓練它,其中每個token的權重根據判別元學習目標自動調整。然后,一個分類PLM可以在少樣本和合成樣本上進行微調,并進行正則化以獲得更好的泛化和穩定性。我們的方法FewGen在GLUE基準測試的七個分類任務中,比現有的少樣本學習方法取得了更好的整體結果,平均提高了無增強方法5+個百分點,超過了增強方法3+個百分點。Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning
最近,CLIP引導的圖像合成在將預訓練的源域生成器適應于未見過的目標域方面表現出了誘人的性能。它不需要任何目標域樣本,只需要文本域標簽。訓練是非常高效的,例如,幾分鐘。然而,現有方法在生成圖像的質量方面仍然存在一定的局限性,并且可能會出現模式崩潰的問題。一個關鍵的原因是對所有的跨域圖像對應用固定的自適應方向,從而導致相同的監督信號。為了解決這個問題,本文提出了一種圖像特定提示學習(image -specific Prompt Learning, IPL)方法,為每個源域圖像學習特定的提示向量。為每個跨域圖像對生成一個更精確的自適應方向,使目標域生成器具有更大的靈活性。不同領域的定性和定量評估表明,IPL有效地提高了合成圖像的質量和多樣性,緩解了模式崩潰。此外,IPL獨立于生成模型的結構,如生成對抗網絡或擴散模型。代碼可以在//github.com/Picsart-AI-Research/IPLZero-Shot-Generative-Model-Adaptation上找到。
對于一張包含了許多文字信息的圖片,不同的人感興趣的文字信息可能是不同的。然而目前對于圖片文字敏感的圖像描述模型并不能根據不同的信息需求生成個性化的描述。為了研究如何生成個性化的關于圖片文字的描述,我們定義了一個新的具有挑戰的任務,名為“問題控制的圖片文字敏感的圖像描述”(Qc-TextCap)。這個任務采用問題作為控制信號,要求模型首先理解問題,然后找到對應的圖片文字,最后結合圖像中的對象用流利的人類語言描述出來。我們基于已有的兩個“圖片文字敏感的圖像描述”數據集自動構建了兩個適合Qc-TextCap的數據集:ControlTextCaps和ControlVizWiz。我們進一步提出了一個新穎的對空間位置和問題敏感的模型(GQAM),可以逐步地編碼相關的視覺特征和文本特征以支持最后的描述生成。考慮到圖像中對象區域和文字區域的空間關系,GQAM首先應用一個空間視覺編碼器去融合相關的視覺特征。然后我們使用一個問題導向的編碼器去為每個問題挑選最相關的視覺特征。最后,GQAM使用一個多模態解碼器生成圖像描述。我們的模型在兩個數據集上的效果都超過了基準模型。通過問題作為控制信號,我們的模型可以得到更加多樣,更有信息量的圖像描述。
檢測語義異常具有挑戰性,因為它們可能以無數種方式出現在真實數據中。雖然增強網絡的健壯性可能足以對簡單異常進行建模,但沒有一種已知的好方法來準備模型,以應對可能發生的所有潛在的、看不見的異常,比如出現新的對象類。在本文中,我們展示了一個以前被忽視的異常檢測(AD)策略,即對從一些大型和多樣的語義任務轉移過來的表示引入一個顯式的歸納偏差。我們在使用干預的對照試驗中嚴格驗證了我們的假設,并表明它產生了出乎意料的有效輔助目標,優于以往的AD范式。
盡管深度神經網絡(DNNs)取得了巨大的成功,但最近的研究表明,它們在對抗式樣例面前是脆弱的,這些樣例的目的是通過添加小的對抗式擾動來誤導DNNs。針對這類攻擊,人們提出了幾種防御方法,其中許多方法被自適應攻擊。在這項工作中,我們旨在通過利用領域知識從不同的角度增強ML魯棒性: 我們提出了一個知識增強機器學習管道(KEMLP),通過一階邏輯規則將領域知識(即不同預測之間的邏輯關系)集成到一個概率圖模型中。特別是,我們開發KEMLP的方法是,根據執行目標任務的主要DNN模型的邏輯關系,集成一組不同的弱輔助模型。在理論上,我們給出了收斂結果,并證明了在適當條件下,KEMLP的預測比主DNN模型的預測更具有魯棒性。實證研究以路標識別為例,利用路標與形狀、內容之間的關系作為領域知識。我們表明,與對抗訓練和其他基線相比,在白盒和黑盒設置下,KEMLP對物理攻擊、L_p有界攻擊、不可預見的攻擊和自然破壞都實現了更高的魯棒性,同時仍然保持較高的準確性。
最近,終身學習在構建不斷積累和轉移知識以幫助未來學習的機器學習系統方面引起了關注。無監督主題建模廣泛用于從文檔集合中發現主題。然而,由于數據稀疏性,例如,在一個小的(短)文檔集合中,會產生不連貫的主題和次優的文檔表示,主題建模的應用具有挑戰性。為了解決這個問題,我們提出了一個神經主題建模的終身學習框架,它可以連續處理文檔集流,積累主題,并通過從多個來源的知識轉移來指導未來的主題建模任務,以更好地處理稀疏的數據。在終身學習過程中,我們特別共同研究:(1)終生共享生成同源性(潛在話題)以轉移先驗知識,(2)通過新穎的選擇性數據增強、聯合訓練和話題正則化方法最小化保留過去學習的災難性遺忘。在給定一個文檔集合流的情況下,我們應用所提出的終身神經主題建模(LNTM)框架,將三個稀疏文檔集合建模為未來任務,并通過perplexity、Topic coherence和information retrieval task量化,證明了性能的提高。