在類增量學習(CIL)場景中,分類器對當前任務的偏好引起的災難性遺忘現象長期以來一直是一個重大挑戰。這主要是由判別模型的特性所引起的。隨著生成式多模態模型的日益流行,我們將探索用生成模型替換判別模型以用于CIL。然而,從判別模型轉向生成模型需要解決兩個關鍵挑戰。主要挑戰在于將生成的文本信息轉換為不同類別的分類。此外,它還需要在生成框架內制定CIL的任務。為此,我們提出了一種新穎的生成式多模態模型(GMM)框架用于類增量學習。我們的方法直接使用適配的生成模型為圖像生成標簽。獲取詳細文本后,我們使用文本編碼器提取文本特征,并采用特征匹配來確定最相似的標簽作為分類預測。在傳統的CIL設置中,我們在長序列任務場景中取得了顯著更好的結果。在少量樣本CIL設置下,我們的準確度至少提高了14%,相比所有當前最先進的方法有顯著更少的遺忘。我們的代碼可在 //github.com/DoubleClass/GMM 獲取。
網絡修剪是解決大型語言模型(LLMs)部署和推理中巨大計算資源需求的有前景的方法。對于LLMs的修剪方法來說,無需重新訓練是重要的。然而,幾乎所有現有的LLMs無需重新訓練的修剪方法都集中在非結構化修剪上,這需要特定硬件支持才能加速。在本文中,我們提出了一種新穎的針對LLMs的無需重新訓練的結構化修剪框架,命名為FLAP(基于波動的自適應結構化修剪)。它通過有效減少存儲和提高推理速度,對硬件友好。為了有效地對LLMs進行結構化修剪,我們強調了三個需高度關注的關鍵要素:制定結構化重要性指標、自適應搜索全局壓縮模型和實施補償機制以減輕性能損失。首先,FLAP基于波動修剪指標判斷移除權重列時輸出特征圖是否容易恢復。然后它標準化重要性分數以自適應地確定全局壓縮模型結構。最后,FLAP添加額外的偏置項使用基線值來恢復輸出特征圖。我們在各種語言基準上全面評估了我們的方法。在無需任何重新訓練的情況下,我們的方法顯著優于包括LLM-Pruner和Wanda在內的結構化修剪領域的最新方法。代碼發布在//github.com/CASIA-IVA-Lab/FLAP。
在現實世界的場景中,實現領域泛化 (DG) 面臨著重大挑戰,因為模型需要泛化到未知的目標分布。對于未見過的多模態分布進行泛化更是困難,因為不同的模態顯示出不同的屬性。為了克服在多模態場景中實現領域泛化的挑戰,我們提出了 SimMMDG,一個簡單而有效的多模態 DG 框架。我們認為將不同模態的特征映射到同一嵌入空間會妨礙模型的泛化。為了解決這個問題,我們建議將每種模態中的特征分為模態特定和模態共享的組件。我們對模態共享的特征進行有監督的對比學習,確保它們具有聯合屬性,并對模態特定的特征施加距離約束以促進多樣性。此外,我們引入了一個跨模態轉換模塊來規范學到的特征,也可以用于缺失模態的泛化。我們證明了我們的框架在理論上得到了很好的支持,并在 EPIC-Kitchens 數據集和本文中介紹的新的 Human-Animal-Cartoon (HAC) 數據集上展示了其在多模態 DG 上的強大性能。我們的源代碼和 HAC 數據集可以在 //github.com/donghao51/SimMMDG 上找到。
在這項工作中,我們旨在在兩大重要的機器學習研究領域之間建立緊密聯系:持續學習和序列建模。也就是說,我們建議將持續學習表述為一個序列建模問題,從而允許使用先進的序列模型來進行持續學習。在此表述下,持續學習過程變成了序列模型的前向傳遞。通過采用元持續學習(MCL)框架,我們可以在元級上訓練序列模型,處理多個持續學習情節。作為我們新表述的一個具體示例,我們展示了Transformers及其高效變體作為MCL方法的應用。我們在七個基準測試上的實驗,涵蓋了分類和回歸,顯示序列模型可以成為一般MCL的有吸引力的解決方案。
通過將時間序列編碼為一串數字字符,我們可以將時間序列預測視為文本中的下一個標記預測。發展這種方法,我們發現大型語言模型 (LLMs) 如 GPT-3 和 LLaMA-2 可以令人驚訝地零次推斷時間序列,其水平與或超過專門為下游任務訓練的時間序列模型的性能。為了促進這種性能,我們提出了有效標記化時間序列數據的程序,并將標記上的離散分布轉化為連續值上的高度靈活密度。我們認為LLMs在時間序列中的成功來源于它們能夠自然地表示多模態分布,與簡單性、重復性的偏見相結合,這與許多時間序列中的突出特征,如重復的季節性趨勢,是一致的。我們還展示了LLMs如何能夠通過非數字文本自然處理缺失數據而不需要估計,適應文本的邊際信息,并回答問題以幫助解釋預測。雖然我們發現增加模型大小通常會提高時間序列的性能,但我們顯示GPT-4在如何標記數字和較差的不確定性校準方面可能比GPT-3表現得更差,這可能是對齊干預如RLHF的結果。
低數據環境下的視覺識別需要深度神經網絡從有限的訓練樣本中學習廣義表示。最近,基于CLIP的方法顯示出有希望的少樣本性能,得益于對比性語言-圖像預訓練。提出問題,是否可以通過級聯更多樣化的預訓練知識來進一步輔助少樣本表示學習。本文提出CaFo,一種級聯的基礎模型,融合了各種預訓練范式的各種先驗知識,以實現更好的少樣本學習。CaFo融合了CLIP的語言對比知識、DINO的視覺對比知識、DALL-E的視覺生成知識和GPT-3的語言生成知識。具體來說,CaFo的工作原理是“提示,生成,然后緩存”。首先,利用GPT-3為具有豐富下游語言語義的提示片段產生文本輸入。然后,通過DALL-E生成合成圖像,以在不需要任何人工的情況下擴展少樣本訓練數據。最后,提出一種可學習的緩存模型來自適應地融合CLIP和DINO的預測結果。通過這種合作,CaFo可以充分釋放不同預訓練方法的潛力,并將它們統一起來,以執行最先進的少樣本分類。代碼可以在//github.com/ZrrSkywalker/CaFo上找到。
在不斷增長的分析服務領域上運行的生產系統通常需要為具有有限數據的新任務生成熱啟動解決方案模型。解決這一暖啟動挑戰的一個潛在方法是采用元學習來生成一個基礎模型,該模型可以通過最小的微調來解決看不見的任務。然而,這需要同步現有任務的以前解決方案模型的訓練過程。如果這些模型在不同實體擁有的私有數據上分別進行預訓練,并且不能同步地重新訓練,那么就不可能做到這一點。為了適應這種情況,我們開發了一種新的個性化學習框架,通過融合相關任務的獨立預訓練模型,為未見任務綜合定制模型。我們建立了該框架的性能保證,并在合成和真實數據集上證明了其有效性。
從合成生物學到計算機架構,計算設計問題出現在許多環境中。在本文中,我們的目標是解決基于數據驅動模型的優化(MBO)問題,其中的目標是找到一個設計輸入,使一個未知的目標函數最大化,只提供訪問先前實驗的靜態數據集。這種數據驅動的優化過程是許多現實領域中唯一實用的方法,在這些領域中,主動數據收集是昂貴的(如優化蛋白質)或危險的(如優化飛機設計)。針對已知模型優化設計的典型MBO方法遭遇了分布轉移:很容易找到一種設計,它“愚弄”了模型,使其預測出高價值。為了克服這一點,我們提出了保守目標模型(COMs),一種學習目標函數模型的方法,該模型下界的真實目標的實際值在非分布輸入外,并使用它進行優化。在結構上,COMs類似于用來克服對抗性例子的對抗性訓練方法。COM易于實現,并且在許多MBO問題上優于現有的一些方法,包括優化蛋白質序列、機器人形態、神經網絡權值和超導材料。
少樣本數據集泛化是研究良好的少樣本分類問題的一種具有挑戰性的變體,其中給出了多個數據集的不同訓練集,目的是訓練一個可適應的模型,然后可以通過僅使用幾個例子從新數據集學習類。為此,我們提出利用不同的訓練集來構建一個通用模板:通過插入適當的組件,可以定義廣泛的數據集專用模型的部分模型。因此,對于每個新的幾桿分類問題,我們的方法只需要推斷少量參數插入到通用模板中。我們設計了一個單獨的網絡,為每個給定的任務生成這些參數的初始化,然后我們通過梯度下降的幾個步驟來微調其提出的初始化。與以前的方法相比,我們的方法參數效率更高,可擴展性更強,適應性更強,并在具有挑戰性的Meta-Dataset基準測試上達到了最好的性能。
編碼器-解碼器模型是功能強大的工具,已在許多NLP任務中獲得成功,但是現有方法仍然存在兩個關鍵問題。首先,由于遞歸神經網絡(RNN)的固有缺陷,它們無法捕獲長期依賴關系,從而導致重要信息的丟失,否則將在句子中反映出來,從而導致模型無法應用更長的文本。第二,缺乏工作致力于生成忠實的三元組,序列到序列的體系結構會產生不忠實的序列,從而產生意義上的矛盾。例如,給定句子“美國總統特朗普在紐約市皇后區長大,并居住在那里直到13歲”,該模型可以生成事實“(特朗普出生于皇后區)”。盡管從邏輯上講是正確的,但我們無法從給定的句子中找到直接的證據來支持它。
為了解決這些問題,我們引入了帶有生成變換器(CGT)的對比學習三元組提取框架,該框架是一個共享的Transformer模塊,支持編碼器-解碼器的生成式三元組對比學習多任務學習。首先,我們使用分隔符和部分因果掩碼機制將輸入序列與目標序列連接起來,以區分編碼器-解碼器表示形式。除了預先訓練的模型之外,我們的模型不需要任何其他參數。然后,我們介紹了一種新穎的三元組對比學習對象,該對象利用真實的三元組作為正實例,并利用隨機令牌采樣將損壞的三元組構造為負實例。為了共同優化三元組生成對象和對比學習對象,我們引入了分批動態注意掩碼機制,該機制允許我們動態選擇不同的對象并共同優化任務。最后,我們介紹了一種新穎的三元組校準算法,以在推理階段濾除虛假三元組。
在充分利用大量未標記數據的同時,從少量帶標記的樣例中學習的一種模式是,先進行無監督的預訓練,然后進行有監督的微調。盡管與計算機視覺半監督學習的常見方法相比,這種范式以任務無關的方式使用未標記數據,但我們證明它對于ImageNet上的半監督學習非常有效。我們方法的一個關鍵要素是在訓練前和微調期間使用大的(深度和廣度的)網絡。我們發現,標簽越少,這種方法(使用未標記數據的任務無關性)從更大的網絡中獲益越多。經過微調后,通過第二次使用未標記的例子,將大的網絡進一步改進,并以特定任務的方式將其精簡為分類精度損失很小的小網絡。本文提出的半監督學習算法可歸納為三個步驟: 使用SimCLRv2對一個大的ResNet模型進行無監督的預訓練,對少量帶標記的樣例進行有監督的微調,以及對未帶標記的樣例進行精化和傳遞特定任務的知識。使用ResNet-50,該程序僅使用1%的標簽(每個類別≤13張標記圖像),就實現了73.9%的ImageNet top-1精度,比以前的最先進的標簽效率提高了10倍。對于10%的標簽,ResNet-50用我們的方法訓練達到77.5%的top-1準確性,優于所有標簽的標準監督訓練。
//www.zhuanzhi.ai/paper/0c81b63b2aaae1ae2cc1a9b0fbb382b2