在資源受限的場景中,部署像BERT這樣的預訓練Transformer模型到下游任務上是具有挑戰性的,因為它們的推理成本很高,并且隨著輸入序列長度的增加而迅速增加。在這項工作中,我們提出了一種約束意識的并且使用排名提煉的令牌剪枝方法ToP,它在輸入序列通過各層時選擇性地移除不必要的令牌,使模型在保持準確性的同時提高在線推理速度。ToP通過一種排名提煉的令牌提煉技術克服了傳統自注意力機制中令牌重要性排名不準確的限制,該技術從未剪枝模型的最后一層提煉有效的令牌排名到剪枝模型的早期層。然后,ToP引入了一種從粗糙到精細的剪枝方法,它自動選擇Transformer層的最佳子集,并通過改進的??0正則化在這些層內優化token剪枝決策。在GLUE基準測試和SQuAD任務上的大量實驗表明,ToP在準確性和加速方面超越了最先進的令牌剪枝和模型壓縮方法。ToP將BERT的平均FLOPs降低了8.1倍,同時在GLUE上實現了具有競爭力的準確性,并在Intel CPU上提供了最高7.4倍的實際延遲加速。
//www.zhuanzhi.ai/paper/052ae1af5bdb61e9121ba73b5ab31c1c
在資源受限的情況下,在下游任務上部署像BERT這樣的預訓練transformer模型是具有挑戰性的,因為它們的推斷成本很高,并且隨著輸入序列長度的增加而迅速增長。在這項工作中,我們提出了一個考慮約束的、排序蒸餾的令牌修剪方法ToP,該方法在輸入序列通過各層時有選擇性地移除不必要的令牌,使模型在保持準確性的同時提高在線推斷速度。ToP通過一個排序蒸餾的令牌提取技術克服了傳統自注意力機制中令牌重要性排序不準確的限制,該技術從未修剪的模型的最后一層提取有效的令牌排序,應用到被修剪模型的早期層。接著,ToP引入了一種粗到細的修剪方法,自動選擇transformer層的最佳子集,并通過改進的??0正則化在這些層內優化令牌修剪決策。在GLUE基準測試和SQuAD任務上的大量實驗表明,ToP在準確性和速度上都超過了最先進的令牌修剪和模型壓縮方法。ToP使BERT的平均FLOPs減少了8.1倍,同時在GLUE上達到了競爭性的準確率,并在Intel CPU上提供了高達7.4倍的實際延遲加速。
在資源受限的環境下,將像BERT這樣的預訓練Transformer模型部署在下游任務上是具有挑戰性的,因為它們的推理成本會隨著輸入序列長度的增加而迅速增加。在這項研究中,我們提出了一種基于約束感知和排序蒸餾的令牌修剪方法ToP,該方法在輸入序列通過各層時選擇性地刪除不必要的令牌,允許模型在保持精度的同時提高在線推理速度。ToP通過一種排序蒸餾令牌提煉技術克服了傳統自注意力機制中令牌重要性排名不準確的限制,該技術將有效的令牌排名從未修剪模型的最后一層蒸餾到修剪模型的早期層。接下來,ToP引入了一種粗糙到精細的修剪方法,這種方法自動選擇Transformer層的最佳子集,并通過改進的L0正則化在這些層中優化令牌修剪決策。在GLUE基準測試和SQuAD任務上的大量實驗顯示,ToP在保持精度的同時,提高了速度,超越了現有最先進的令牌修剪和模型壓縮方法。ToP將BERT的平均FLOPs減少了8.1倍,同時在GLUE上保持了競爭性的準確度,并在Intel CPU上提供了高達7.4倍的真實延遲加速。代碼在這里可用。
最近的一些研究闡明了為什么知識蒸餾(KD)可以提高模型性能。然而,KD算法除了能提高模型性能外,還具有其他優點,目前研究較少。在這項研究中,我們試圖表明KD增強了模型的可解釋性和準確性。我們測量了網絡解剖中識別的概念檢測器的數量,以定量比較模型的可解釋性。我們將可解釋性的提高歸因于從教師模型傳遞到學生模型的類相似度信息。首先,通過logit蒸餾確定類相似度信息從教師模型向學生模型的遷移;然后,從類相似信息的存在與否和相似信息的程度兩個方面分析了類相似信息對模型可解釋性的影響;我們進行了各種定量和定性的實驗,并根據不同的數據集、不同的KD方法和不同的可解釋性度量檢查了結果。我們的研究表明,由大型模型組成的KD模型可以更可靠地應用于各種領域。
在預訓練和微調范式下,預訓練語言模型(PLMs)在各種自然語言處理(NLP)任務中取得了巨大的成功。由于具有大量的參數,PLM需要大量的計算和資源。因此,模型剪枝被引入到大規模PLM的壓縮中。然而,以往的方法大多只考慮下游任務的特定知識,而忽略了修剪過程中基本的任務不可知知識,這可能會導致災難性遺忘問題,導致泛化能力較差。為了在我們的剪枝模型中保持任務不可知論和任務特定的知識,我們提出了對比剪枝(CAP)在預訓練和微調范式下。它被設計成一個通用框架,兼容結構化和非結構化剪枝。CAP統一于對比學習,使得經過修剪的模型能夠從預訓練的任務不可知知識模型和精細調整的任務特定知識模型中學習。此外,為了更好地保留剪枝模型的性能,快照(即每次剪枝迭代時的中間模型)也可以作為剪枝的有效監督。我們大量的實驗表明,采用CAP能夠持續地產生顯著的改進,特別是在非常高的稀疏性場景中。在只保留3%模型參數(即97%稀疏度)的情況下,CAP在QQP和MNLI任務中分別成功地實現了原BERT算法的99.2%和96.3%的性能。此外,我們的探索性實驗表明,經過CAP修剪的模型具有較好的泛化能力。
在不依賴下游任務的情況下評估學習表征的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出幾何成分分析(GeomCA)算法,評估表示空間的幾何和拓撲性質。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表征來證明其適用性,如對比學習模型、生成模型和監督學習模型。
遷移學習技術在難以獲得大量高質量注釋數據的NLP任務中特別有用。目前的方法在對下游任務進行微調之前,直接對域內文本采用預先訓練好的語言模型(LM)。我們展示了使用特定于領域的術語擴展LM的詞匯表會帶來進一步的收獲。在更大的效果上,我們利用未標記數據中的結構創建輔助合成任務,這有助于LM向下游任務轉移。在事先訓練好的Roberta-large LM系統上逐步應用這些方法,并在IT領域的三個任務上顯示出可觀的性能提升:閱讀理解、文檔排序和重復問題檢測。
現有的語義分割模型嚴重依賴于密集的像素級標注。為了減少標注的壓力,我們專注于一項具有挑戰性的任務,即零標注語義分割,它的目標是用零標注分割不可見的對象。這一任務可以通過語義詞嵌入在類別間傳遞知識來完成。在本文中,我們提出了一種新的基于上下文的零樣本分割特征生成方法——CaGNet。特別是在觀察到像素級特征高度依賴上下文信息的情況下,我們在分割網絡中插入上下文模塊來捕獲像素級特征的上下文信息,從而指導語義詞嵌入生成更加多樣化和上下文感知的特征的過程。我們的方法在三個基準數據集上實現了最先進的零樣本分割結果。代碼可在:this https URL獲得。
在最大化源與目標之間的互信息方面的最新進展已經證明了它在文本生成方面的有效性。然而,以往的工作對MI(即MI)的后向網絡建模關注較少。這對于變分信息最大化下界的緊密性至關重要。在本文中,我們提出了一個對抗互信息(AMI):一個文本生成框架,它是一個新的鞍點(min-max)優化,旨在識別源與目標之間的聯合交互。在這個框架中,通過比較真實和合成的數據分布,前向網絡和后向網絡能夠迭代地提升或降級彼此生成的實例。我們還開發了一個潛在噪聲采樣策略,利用高級語義空間的隨機變化來增強生成過程中的長期依賴性。基于不同文本生成任務的大量實驗表明,所提出的AMI框架能夠顯著優于多個強基線,我們還表明,AMI有可能為變分信息最大化問題帶來更緊密的互信息上限。
//www.zhuanzhi.ai/paper/ccd8403755c153d155bec032656f8c49
圖神經網絡(GNNs)最近被成功地用于節點和圖的分類任務中,但GNNs對鄰近節點屬性之間的依賴關系建模,而不是對觀察到的節點標簽之間的依賴關系建模。在這項工作中,我們考慮了在監督和半監督設置中使用GNNs進行歸納節點分類的任務,其目標是合并標簽依賴項。因為當前的GNN不是通用的。為了提高現有GNN的表達能力,我們提出了一種通用的集體學習方法。我們的框架結合了集體分類和自監督學習的思想,并使用蒙特卡羅方法來采樣嵌入圖的歸納學習。我們評估了5個真實網絡數據集的性能,并證明了在各種最先進的GNN中,節點分類精度的一致性和顯著提高。
GPT-2和BERT證明了在各種自然語言處理任務中使用預訓練語言模型(LMs)的有效性。然而,LM調優在應用于資源豐富的任務時常常會出現災難性的遺忘。在這項工作中,我們介紹了一個協調的訓練框架(\方法),這是把預訓練的LMs集成到神經機器翻譯(NMT)的關鍵。我們提出的Cnmt包括三種技術: a)漸近精餾,以確保NMT模型能夠保留預先訓練好的知識; b)動態切換門,避免對預先訓練知識的災難性遺忘 ;c)根據預定策略調整學習進度的策略。我們在機器翻譯方面的實驗表明,WMT14的英德語言對中,“方法”最多可獲得3個BLEU分數,甚至超過了之前最先進的訓練前輔助NMT的1.4個BLEU分數。而對于包含4000萬對句子的大型WMT14英法任務,我們的基本模型仍然比最先進的Transformer大模型提高了1個以上的BLEU分數。