在資源受限的情況下,在下游任務上部署像BERT這樣的預訓練transformer模型是具有挑戰性的,因為它們的推斷成本很高,并且隨著輸入序列長度的增加而迅速增長。在這項工作中,我們提出了一個考慮約束的、排序蒸餾的令牌修剪方法ToP,該方法在輸入序列通過各層時有選擇性地移除不必要的令牌,使模型在保持準確性的同時提高在線推斷速度。ToP通過一個排序蒸餾的令牌提取技術克服了傳統自注意力機制中令牌重要性排序不準確的限制,該技術從未修剪的模型的最后一層提取有效的令牌排序,應用到被修剪模型的早期層。接著,ToP引入了一種粗到細的修剪方法,自動選擇transformer層的最佳子集,并通過改進的??0正則化在這些層內優化令牌修剪決策。在GLUE基準測試和SQuAD任務上的大量實驗表明,ToP在準確性和速度上都超過了最先進的令牌修剪和模型壓縮方法。ToP使BERT的平均FLOPs減少了8.1倍,同時在GLUE上達到了競爭性的準確率,并在Intel CPU上提供了高達7.4倍的實際延遲加速。
在資源受限的環境下,將像BERT這樣的預訓練Transformer模型部署在下游任務上是具有挑戰性的,因為它們的推理成本會隨著輸入序列長度的增加而迅速增加。在這項研究中,我們提出了一種基于約束感知和排序蒸餾的令牌修剪方法ToP,該方法在輸入序列通過各層時選擇性地刪除不必要的令牌,允許模型在保持精度的同時提高在線推理速度。ToP通過一種排序蒸餾令牌提煉技術克服了傳統自注意力機制中令牌重要性排名不準確的限制,該技術將有效的令牌排名從未修剪模型的最后一層蒸餾到修剪模型的早期層。接下來,ToP引入了一種粗糙到精細的修剪方法,這種方法自動選擇Transformer層的最佳子集,并通過改進的L0正則化在這些層中優化令牌修剪決策。在GLUE基準測試和SQuAD任務上的大量實驗顯示,ToP在保持精度的同時,提高了速度,超越了現有最先進的令牌修剪和模型壓縮方法。ToP將BERT的平均FLOPs減少了8.1倍,同時在GLUE上保持了競爭性的準確度,并在Intel CPU上提供了高達7.4倍的真實延遲加速。代碼在這里可用。
在資源受限的場景中,部署像BERT這樣的預訓練Transformer模型到下游任務上是具有挑戰性的,因為它們的推理成本很高,并且隨著輸入序列長度的增加而迅速增加。在這項工作中,我們提出了一種約束意識的并且使用排名提煉的令牌剪枝方法ToP,它在輸入序列通過各層時選擇性地移除不必要的令牌,使模型在保持準確性的同時提高在線推理速度。ToP通過一種排名提煉的令牌提煉技術克服了傳統自注意力機制中令牌重要性排名不準確的限制,該技術從未剪枝模型的最后一層提煉有效的令牌排名到剪枝模型的早期層。然后,ToP引入了一種從粗糙到精細的剪枝方法,它自動選擇Transformer層的最佳子集,并通過改進的??0正則化在這些層內優化token剪枝決策。在GLUE基準測試和SQuAD任務上的大量實驗表明,ToP在準確性和加速方面超越了最先進的令牌剪枝和模型壓縮方法。ToP將BERT的平均FLOPs降低了8.1倍,同時在GLUE上實現了具有競爭力的準確性,并在Intel CPU上提供了最高7.4倍的實際延遲加速。
//www.zhuanzhi.ai/paper/052ae1af5bdb61e9121ba73b5ab31c1c
大型語言模型可以生成流暢的文本,并可以按照自然語言指令解決各種任務,而無需特定任務的訓練。然而,要控制它們的生成以滿足不同應用所需的各種約束條件是非常困難的。在這項工作中,我們提出了INSTRUCTCTG,這是一個受控文本生成框架,它通過依據約束條件的自然語言描述和演示來結合不同的約束條件。特別地,我們首先通過一組現成的自然語言處理工具和簡單的啟發式方法來提取自然文本中的潛在約束條件。然后,我們將這些約束條件轉化為自然語言指令,以形成弱監督的訓練數據。通過在輸入之前添加約束條件的自然語言描述和一些演示,我們微調了一個預訓練的語言模型,以包括各種類型的約束條件。與現有的基于搜索或基于評分的方法相比,INSTRUCTCTG 對不同類型的約束條件更加靈活,并且對生成質量和速度的影響要小得多,因為它不修改解碼過程。此外,INSTRUCTCTG 還允許模型通過使用指令調整的語言模型的少量樣本任務泛化和上下文學習能力來適應新的約束條件而無需重新訓練。代碼將在 //github. com/MichaelZhouwang/InstructCTG 上提供。
人們可以利用以前的經驗,并從少量的演示中學習新的任務。與旨在通過更好的算法設計實現快速適應的離線元強化學習相比,我們研究了架構誘導偏差對少樣本學習能力的影響。我們提出了一種基于提示的決策Transformer (Prompt- DT),它利用了Transformer體系結構和提示框架的順序建模能力,實現離線RL中的少樣本適應。我們設計了軌跡提示,其中包含了幾個樣本的演示片段,并編碼了特定任務的信息來指導策略的生成。我們在5個MuJoCo控制基準測試中的實驗表明,Prompt-DT是一個強大的少樣本學習器,無需對看不見的目標任務進行任何額外的微調。Prompt-D比它的變體和強元離線RL基線有很大的優勢,它的軌跡提示只包含幾個時間步。Prompt-D對于提示長度的更改也很穩健,并且可以泛化到分布外(OOD)環境。項目頁面://mxu34.github.io/PromptDT/。
在預訓練和微調范式下,預訓練語言模型(PLMs)在各種自然語言處理(NLP)任務中取得了巨大的成功。由于具有大量的參數,PLM需要大量的計算和資源。因此,模型剪枝被引入到大規模PLM的壓縮中。然而,以往的方法大多只考慮下游任務的特定知識,而忽略了修剪過程中基本的任務不可知知識,這可能會導致災難性遺忘問題,導致泛化能力較差。為了在我們的剪枝模型中保持任務不可知論和任務特定的知識,我們提出了對比剪枝(CAP)在預訓練和微調范式下。它被設計成一個通用框架,兼容結構化和非結構化剪枝。CAP統一于對比學習,使得經過修剪的模型能夠從預訓練的任務不可知知識模型和精細調整的任務特定知識模型中學習。此外,為了更好地保留剪枝模型的性能,快照(即每次剪枝迭代時的中間模型)也可以作為剪枝的有效監督。我們大量的實驗表明,采用CAP能夠持續地產生顯著的改進,特別是在非常高的稀疏性場景中。在只保留3%模型參數(即97%稀疏度)的情況下,CAP在QQP和MNLI任務中分別成功地實現了原BERT算法的99.2%和96.3%的性能。此外,我們的探索性實驗表明,經過CAP修剪的模型具有較好的泛化能力。
最近提出了一些查詢和評分來解釋ML模型上的個人預測。考慮到ML模型需要靈活、可靠和易于應用的可解釋性方法,我們預計需要開發聲明性語言來自然地指定不同的可解釋性查詢。我們以一種有原則的方式來實現這一點,將這種語言根植于一個名為FOIL的邏輯中,該邏輯允許表達許多簡單但重要的可解釋性查詢,并可能作為更具表現力的可解釋性語言的核心。我們研究了FOIL查詢在兩類ML模型上的計算復雜性,這兩類模型通常被認為是容易解釋的: 策樹和OBDDs。由于ML模型的可能輸入的數量在其維數上是指數級的,因此FOIL評估問題的可處理性是微妙的,但可以通過限制模型的結構或被評估的FOIL片段來實現。我們還提出了一個用高級聲明性語言包裝的FOIL的原型實現,并進行了實驗,表明這種語言可以在實踐中使用。
在不斷增長的分析服務領域上運行的生產系統通常需要為具有有限數據的新任務生成熱啟動解決方案模型。解決這一暖啟動挑戰的一個潛在方法是采用元學習來生成一個基礎模型,該模型可以通過最小的微調來解決看不見的任務。然而,這需要同步現有任務的以前解決方案模型的訓練過程。如果這些模型在不同實體擁有的私有數據上分別進行預訓練,并且不能同步地重新訓練,那么就不可能做到這一點。為了適應這種情況,我們開發了一種新的個性化學習框架,通過融合相關任務的獨立預訓練模型,為未見任務綜合定制模型。我們建立了該框架的性能保證,并在合成和真實數據集上證明了其有效性。
在不依賴下游任務的情況下評估已學習表示的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出了幾何成分分析(GeomCA)算法,基于其幾何和拓撲性質評估表示空間。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表示,如對比學習模型、生成模型和監督學習模型,證明了它的適用性。
在不依賴下游任務的情況下評估學習表征的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出幾何成分分析(GeomCA)算法,評估表示空間的幾何和拓撲性質。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表征來證明其適用性,如對比學習模型、生成模型和監督學習模型。
掩蔽語言建模(MLM)的預訓練方法,如BERT,通過用[掩碼]替換一些token來破壞輸入,然后訓練一個模型來重建原始token。雖然它們在遷移到下游的NLP任務時會產生良好的結果,但它們通常需要大量的計算才能有效。作為一種替代方案,我們提出了一種更具樣本效率的預訓練任務,稱為替換token檢測。我們的方法不是屏蔽輸入,而是用從小型生成器網絡中取樣的可信替代方案替換一些令牌,從而破壞了輸入。然后,我們不是訓練一個模型來預測損壞的令牌的原始身份,而是訓練一個判別模型來預測損壞的輸入中的每個令牌是否被生成器樣本替換。深入的實驗表明,這種新的訓練前任務比MLM更有效,因為該任務是在所有的輸入標記上定義的,而不僅僅是被屏蔽的小子集。結果,在相同的模型大小、數據和計算條件下,通過我們的方法學習的上下文表示大大優于BERT學習的上下文表示。小型模型的收益尤其出色勁; 例如,我們在一個GPU上訓練一個模型4天,該模型在GLUE自然語言理解基準上的性能優于GPT(使用30倍以上的計算進行訓練)。我們的方法在規模上也運行良好,它的性能與RoBERTa和XLNet相當,但使用的計算不到它們的1/4,并且在使用相同數量的計算時性能優于它們。