隨著CLIP等預訓練視覺-語言(VL)模型在視覺表示任務中的成功,將預訓練模型遷移到下游任務已成為一個關鍵范式。最近,源自自然語言處理(NLP)的提示調整范式在VL領域取得了顯著進展。然而,早期方法主要集中于為文本和視覺輸入構建提示模板,忽略了VL模型與下游任務之間類別標簽表示的差距。為了應對這一挑戰,我們引入了一種名為LAMM的創新標簽對齊方法,可以通過端到端訓練動態調整下游數據集的類別嵌入。此外,為了實現更合適的標簽分布,我們提出了一個分層損失,包括參數空間、特征空間和邏輯空間的對齊。我們在11個下游視覺數據集上進行了實驗,并證明了我們的方法顯著提高了現有多模態提示學習模型在小樣本場景中的性能,與最先進方法相比,在16次射擊上平均準確率提高了2.31(%)。此外,我們的方法在持續學習方面與其他提示調整方法相比顯示出了優勢。重要的是,我們的方法與現有的提示調整方法是協同的,并可以在它們的基礎上提高性能。我們的代碼和數據集將在//github.com/gaojingsheng/LAMM上公開。
學習適用于各種下游任務的通用時間序列表征是具有挑戰性但在實際應用中極具價值的。最近,研究人員嘗試利用自監著學習(SSCL)在計算機視覺(CV)和自然語言處理(NLP)中的成功來解決時間序列表征的問題。然而,由于時間序列的特殊時序特性,僅依賴于其他領域的經驗指導可能對時間序列無效,且難以適應多個下游任務。為此,我們審查了SSCL涉及的三個部分,包括1)設計正樣本對的增強方法,2)構建(困難的)負樣本對,以及3)設計SSCL損失函數。對于1)和2),我們發現不合適的正、負樣本對構建可能引入不適當的歸納偏見,既不能保留時序屬性,也不能提供足夠的判別特征。對于3),僅探索片段級或實例級的語義信息對于學習通用表征是不夠的。為解決上述問題,我們提出了一種名為TimesURL的新型自監著框架。具體來說,我們首先引入一種基于頻率-時序的增強方法,以保持時序屬性不變。然后,我們構建雙重“Universum”作為一種特殊的困難負樣本,以指導更好的對比學習。此外,我們引入時間重構作為與對比學習的聯合優化目標,以捕獲片段級和實例級信息。結果表明,TimesURL能夠學習高質量的通用表征,并在6種不同的下游任務中實現最先進的性能,包括短期和長期預測、插值、分類、異常檢測和遷移學習。
視覺信息提取(VIE)在文檔智能領域中扮演著重要角色。通常,它可以分為兩個任務:語義實體識別(SER)和關系抽取(RE)。最近,針對文檔的預訓練模型在 VIE 方面取得了顯著進展,特別是在 SER 領域。然而,大多數現有模型以隱式方式學習幾何表示,這對 RE 任務來說被認為是不夠的,因為幾何信息對 RE 尤為關鍵。此外,我們發現限制 RE 性能的另一個因素在于預訓練階段與 RE 微調階段之間的目標差距。為了解決這些問題,我們在本文中提出了一種用于 VIE 的多模態框架,名為 GeoLayoutLM。GeoLayoutLM 在預訓練階段顯式地對幾何關系進行建模,我們稱之為幾何預訓練。幾何預訓練通過三個專門設計的與幾何相關的預訓練任務來實現。此外,我們精心設計了新穎的關系頭,這些關系頭通過幾何預訓練任務進行預訓練,并針對 RE 進行微調,以豐富和增強特征表示。根據對標準 VIE 基準的廣泛實驗,GeoLayoutLM 在 SER 任務中獲得了非常具有競爭力的分數,并在 RE 任務中顯著優于先前的最先進方法(例如,RE 在 FUNSD 上的 F1 分數從 80.35% 提高到 89.45%)。
//www.zhuanzhi.ai/paper/ae145d71d4b8a928e02dd161f0f851db
Transformer在學習視覺和語言表示方面取得了巨大的成功,這在各種下游任務中都是通用的。在視覺控制中,學習可在不同控制任務間遷移的可遷移狀態表示對于減少訓練樣本的大小具有重要意義。然而,將Transformer移植到采樣高效的視覺控制仍然是一個具有挑戰性和未解決的問題。為此,我們提出了一種新穎的控制Transformer(CtrlFormer),它具有許多現有技術所沒有的吸引人的優點。首先,CtrlFormer在不同控制任務之間聯合學習視覺令牌和策略令牌之間的自注意力機制,可以在不發生災難性遺忘的情況下學習和遷移多任務表示。其次,我們精心設計了一個對比強化學習范式來訓練CtrlFormer,使其能夠達到較高的樣本效率,這在控制問題中是非常重要的。例如,在DMControl基準測試中,不像最近的先進方法在使用100k樣本遷移學習后在“Cartpole”任務中產生零分而失敗,CtrlFormer可以在僅使用100k樣本的情況下獲得769±34的最先進的分數,同時保持之前任務的性能。代碼和模型發布在我們的項目主頁上。
//www.zhuanzhi.ai/paper/9692ae63f6623f9fc8ad4d18583f4002
在預訓練和微調范式下,預訓練語言模型(PLMs)在各種自然語言處理(NLP)任務中取得了巨大的成功。由于具有大量的參數,PLM需要大量的計算和資源。因此,模型剪枝被引入到大規模PLM的壓縮中。然而,以往的方法大多只考慮下游任務的特定知識,而忽略了修剪過程中基本的任務不可知知識,這可能會導致災難性遺忘問題,導致泛化能力較差。為了在我們的剪枝模型中保持任務不可知論和任務特定的知識,我們提出了對比剪枝(CAP)在預訓練和微調范式下。它被設計成一個通用框架,兼容結構化和非結構化剪枝。CAP統一于對比學習,使得經過修剪的模型能夠從預訓練的任務不可知知識模型和精細調整的任務特定知識模型中學習。此外,為了更好地保留剪枝模型的性能,快照(即每次剪枝迭代時的中間模型)也可以作為剪枝的有效監督。我們大量的實驗表明,采用CAP能夠持續地產生顯著的改進,特別是在非常高的稀疏性場景中。在只保留3%模型參數(即97%稀疏度)的情況下,CAP在QQP和MNLI任務中分別成功地實現了原BERT算法的99.2%和96.3%的性能。此外,我們的探索性實驗表明,經過CAP修剪的模型具有較好的泛化能力。
在不依賴下游任務的情況下評估已學習表示的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出了幾何成分分析(GeomCA)算法,基于其幾何和拓撲性質評估表示空間。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表示,如對比學習模型、生成模型和監督學習模型,證明了它的適用性。
目前的圖表示(GR)算法在超參數調優方面需要大量的人工專家,這極大地限制了其實際應用,促使人們迫切需要無需人工干預的自動圖表示。雖然自動機器學習(AutoML)是自動超參數調優的一個很好的候選對象,但關于自動圖表示學習的文獻報道很少,現有的工作只有使用黑盒策略,缺乏解釋不同超參數的相對重要性的見解。為了解決這一問題,本文研究了具有超參數重要性的可解釋自動圖表示。我們提出了一種可解釋的AutoML圖表示方法(e-AutoGR),該方法在性能估計過程中利用可解釋的圖特征,并通過非線性去相關加權回歸學習不同超參數的去相關重要權重,以影響模型性能。這些學習到的重要權重在超參數搜索過程中可以反過來幫助提供更多的洞察力。我們從理論上證明了去相關加權算法的正確性。在真實數據集上的大量實驗表明,我們提出的e-AutoGR模型在模型性能和超參數重要性解釋方面優于最新方法。
自監督學習已被廣泛應用于從未標記圖像中獲取可轉移的表示。特別是,最近的對比學習方法在下游圖像分類任務中表現出了令人印象深刻的性能。這些對比方法主要集中在語義保留變換下的圖像級上生成不變的全局表示,容易忽略局部表示的空間一致性,因此在目標檢測和實例分割等本地化任務的預處理中存在一定的局限性。此外,在現有的對比方法中使用的積極裁剪視圖可以最小化單個圖像中語義不同區域之間的表示距離。
在本文中,我們提出了一種用于多目標和特定位置任務的空間一致表示學習算法(SCRL)。特別地,我們設計了一個新的自監督目標,試圖根據幾何平移和縮放操作產生隨機裁剪局部區域的連貫空間表示。在使用基準數據集的各種下游定位任務上,提出的SCRL顯示了相對于圖像級監督前訓練和最先進的自監督學習方法的顯著性能改進。代碼將會被發布。
Transformer 模型的自監督預訓練已經徹底改變了NLP的應用。這種語言建模目標的預訓練為參數提供了一個有用的初始化,這些參數可以很好地推廣到新的任務中。然而,微調仍然是數據效率低下的——當有標記的例子很少時,準確性可能會很低。數據效率可以通過優化預訓練;這可以看作是一個元學習問題。然而,標準的元學習技術需要許多訓練任務才能泛化;不幸的是,找到一組不同的這樣的監督任務通常是困難的。本文提出了一種自監督的方法,從無標記文本生成一個龐大的,豐富的元學習任務分布。這是使用closize風格的目標實現的,但是通過從少數詞匯表術語中收集待刪除的標記來創建單獨的多類分類任務。這產生的唯一元訓練任務與詞匯術語子集的數量一樣多。我們使用最近的元學習框架對任務分配的transformer模型進行元訓練。在17個NLP任務中,我們表明,這種元訓練比語言模型前訓練后的精細化能產生更好的少樣本泛化效果。此外,我們還展示了如何將自監督任務與監督任務結合起來進行元學習,從而比之前的監督元學習獲得了更大的準確性。
近年來,卷積神經網絡(ConvNets)在大量計算機視覺任務中的應用出現了戲劇性的增長。卷積結構在許多任務中都是非常強大的,它可以從圖像像素中提取相關性和抽象概念。然而,當面對一些更困難的計算機視覺任務時,ConvNets在建模中也有相當多的屬性方面存在缺陷。這些屬性包括成對關系、全局上下文和處理超越空間網格的不規則數據的能力。
一個有效的方向是根據手頭的任務重新組織要用圖處理的數據,同時構建網絡模塊,在圖內的視覺元素之間關聯和傳播信息。我們將這種具有傳播模塊的網絡稱為圖網絡結構。在本教程中,我們將介紹一系列有效的圖網絡結構,包括非局部神經網絡、空間廣義傳播網絡、面向對象和多主體行為建模的關系網絡、面向3D領域的視頻和數據的圖網絡。我們還將討論如何利用圖神經網絡結構來研究連接模式。最后,我們將討論在許多視覺問題中仍然存在的相關開放挑戰。