在資源受限的環境下,將像BERT這樣的預訓練Transformer模型部署在下游任務上是具有挑戰性的,因為它們的推理成本會隨著輸入序列長度的增加而迅速增加。在這項研究中,我們提出了一種基于約束感知和排序蒸餾的令牌修剪方法ToP,該方法在輸入序列通過各層時選擇性地刪除不必要的令牌,允許模型在保持精度的同時提高在線推理速度。ToP通過一種排序蒸餾令牌提煉技術克服了傳統自注意力機制中令牌重要性排名不準確的限制,該技術將有效的令牌排名從未修剪模型的最后一層蒸餾到修剪模型的早期層。接下來,ToP引入了一種粗糙到精細的修剪方法,這種方法自動選擇Transformer層的最佳子集,并通過改進的L0正則化在這些層中優化令牌修剪決策。在GLUE基準測試和SQuAD任務上的大量實驗顯示,ToP在保持精度的同時,提高了速度,超越了現有最先進的令牌修剪和模型壓縮方法。ToP將BERT的平均FLOPs減少了8.1倍,同時在GLUE上保持了競爭性的準確度,并在Intel CPU上提供了高達7.4倍的真實延遲加速。代碼在這里可用。
在資源受限的情況下,在下游任務上部署像BERT這樣的預訓練transformer模型是具有挑戰性的,因為它們的推斷成本很高,并且隨著輸入序列長度的增加而迅速增長。在這項工作中,我們提出了一個考慮約束的、排序蒸餾的令牌修剪方法ToP,該方法在輸入序列通過各層時有選擇性地移除不必要的令牌,使模型在保持準確性的同時提高在線推斷速度。ToP通過一個排序蒸餾的令牌提取技術克服了傳統自注意力機制中令牌重要性排序不準確的限制,該技術從未修剪的模型的最后一層提取有效的令牌排序,應用到被修剪模型的早期層。接著,ToP引入了一種粗到細的修剪方法,自動選擇transformer層的最佳子集,并通過改進的??0正則化在這些層內優化令牌修剪決策。在GLUE基準測試和SQuAD任務上的大量實驗表明,ToP在準確性和速度上都超過了最先進的令牌修剪和模型壓縮方法。ToP使BERT的平均FLOPs減少了8.1倍,同時在GLUE上達到了競爭性的準確率,并在Intel CPU上提供了高達7.4倍的實際延遲加速。
在資源受限的場景中,部署像BERT這樣的預訓練Transformer模型到下游任務上是具有挑戰性的,因為它們的推理成本很高,并且隨著輸入序列長度的增加而迅速增加。在這項工作中,我們提出了一種約束意識的并且使用排名提煉的令牌剪枝方法ToP,它在輸入序列通過各層時選擇性地移除不必要的令牌,使模型在保持準確性的同時提高在線推理速度。ToP通過一種排名提煉的令牌提煉技術克服了傳統自注意力機制中令牌重要性排名不準確的限制,該技術從未剪枝模型的最后一層提煉有效的令牌排名到剪枝模型的早期層。然后,ToP引入了一種從粗糙到精細的剪枝方法,它自動選擇Transformer層的最佳子集,并通過改進的??0正則化在這些層內優化token剪枝決策。在GLUE基準測試和SQuAD任務上的大量實驗表明,ToP在準確性和加速方面超越了最先進的令牌剪枝和模型壓縮方法。ToP將BERT的平均FLOPs降低了8.1倍,同時在GLUE上實現了具有競爭力的準確性,并在Intel CPU上提供了最高7.4倍的實際延遲加速。
//www.zhuanzhi.ai/paper/052ae1af5bdb61e9121ba73b5ab31c1c
最近的一些研究闡明了為什么知識蒸餾(KD)可以提高模型性能。然而,KD算法除了能提高模型性能外,還具有其他優點,目前研究較少。在這項研究中,我們試圖表明KD增強了模型的可解釋性和準確性。我們測量了網絡解剖中識別的概念檢測器的數量,以定量比較模型的可解釋性。我們將可解釋性的提高歸因于從教師模型傳遞到學生模型的類相似度信息。首先,通過logit蒸餾確定類相似度信息從教師模型向學生模型的遷移;然后,從類相似信息的存在與否和相似信息的程度兩個方面分析了類相似信息對模型可解釋性的影響;我們進行了各種定量和定性的實驗,并根據不同的數據集、不同的KD方法和不同的可解釋性度量檢查了結果。我們的研究表明,由大型模型組成的KD模型可以更可靠地應用于各種領域。
基于擴散的生成性圖模型已被證明在生成高質量的小圖上非常有效。然而,他們需要更具可擴展性才能生成包含數千個節點并期望圖統計的大圖。在這項工作中,我們提出了EDGE,一種新的基于擴散的生成性圖模型,用于處理大圖的生成任務。為了提高計算效率,我們通過使用一種離散擴散過程鼓勵圖的稀疏性,該過程在每個時間步隨機刪除邊,最終得到一個空圖。EDGE在每個去噪步驟中只關注圖中的一部分節點。它比以前的基于擴散的模型做出更少的邊預測。此外,EDGE允許顯式地模擬圖的節點度,進一步提高模型的性能。實證研究顯示,EDGE比競爭方法更高效,能夠生成包含數千個節點的大圖。它在生成質量上也超過了基線模型:我們方法生成的圖的圖統計數據與訓練圖的更相似。
//www.zhuanzhi.ai/paper/cc59405ca6fa98d54ead7fd468e1015e
深度度量學習(Deep Metric Learning, DML)提出學習度量空間,將語義相似性編碼為嵌入空間距離。這些空間應該可以轉移到訓練期間看到的類別之外。通常,DML方法使用任務網絡來解決在二元類分配上定義的對比排序任務。然而,這種方法忽略了實際類之間的高級語義關系。這導致學習后的嵌入空間編碼不完整的語義上下文,并歪曲類之間的語義關系,影響了學習后的度量空間的泛化性。為了解決這一問題**,我們提出了一種視覺相似度學習的語言指導目標**。利用專家類名和偽類名的語言嵌入,我們根據有意義的語言語義對視覺表示空間進行上下文化和重新對齊,以獲得更好的語義一致性。大量的實驗和消融為我們提出的方法提供了強大的動力,并顯示語言指導為DML提供了顯著的、模型無關的改進,在所有基準上實現了具有競爭力的和最先進的結果。代碼可在//github.com/ExplainableML/LanguageGuidance_for_DML獲得。
在預訓練和微調范式下,預訓練語言模型(PLMs)在各種自然語言處理(NLP)任務中取得了巨大的成功。由于具有大量的參數,PLM需要大量的計算和資源。因此,模型剪枝被引入到大規模PLM的壓縮中。然而,以往的方法大多只考慮下游任務的特定知識,而忽略了修剪過程中基本的任務不可知知識,這可能會導致災難性遺忘問題,導致泛化能力較差。為了在我們的剪枝模型中保持任務不可知論和任務特定的知識,我們提出了對比剪枝(CAP)在預訓練和微調范式下。它被設計成一個通用框架,兼容結構化和非結構化剪枝。CAP統一于對比學習,使得經過修剪的模型能夠從預訓練的任務不可知知識模型和精細調整的任務特定知識模型中學習。此外,為了更好地保留剪枝模型的性能,快照(即每次剪枝迭代時的中間模型)也可以作為剪枝的有效監督。我們大量的實驗表明,采用CAP能夠持續地產生顯著的改進,特別是在非常高的稀疏性場景中。在只保留3%模型參數(即97%稀疏度)的情況下,CAP在QQP和MNLI任務中分別成功地實現了原BERT算法的99.2%和96.3%的性能。此外,我們的探索性實驗表明,經過CAP修剪的模型具有較好的泛化能力。
最近提出了一些查詢和評分來解釋ML模型上的個人預測。考慮到ML模型需要靈活、可靠和易于應用的可解釋性方法,我們預計需要開發聲明性語言來自然地指定不同的可解釋性查詢。我們以一種有原則的方式來實現這一點,將這種語言根植于一個名為FOIL的邏輯中,該邏輯允許表達許多簡單但重要的可解釋性查詢,并可能作為更具表現力的可解釋性語言的核心。我們研究了FOIL查詢在兩類ML模型上的計算復雜性,這兩類模型通常被認為是容易解釋的: 策樹和OBDDs。由于ML模型的可能輸入的數量在其維數上是指數級的,因此FOIL評估問題的可處理性是微妙的,但可以通過限制模型的結構或被評估的FOIL片段來實現。我們還提出了一個用高級聲明性語言包裝的FOIL的原型實現,并進行了實驗,表明這種語言可以在實踐中使用。
在不依賴下游任務的情況下評估學習表征的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出幾何成分分析(GeomCA)算法,評估表示空間的幾何和拓撲性質。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表征來證明其適用性,如對比學習模型、生成模型和監督學習模型。
時序知識圖譜推理是信息檢索和語義搜索的關鍵任務。當TKG頻繁更新時,這是特別具有挑戰性的。該模型必須適應TKG的變化,以便進行有效的訓練和推理,同時保持其對歷史知識的表現。最近的工作通過增加一個時間感知編碼函數來實現TKG補全(TKGC)。然而,使用這些方法在每個時間步驟中直接微調模型并不能解決以下問題:1)災難性遺忘;2)模型不能識別事實的變化(例如,政治派別的變化和婚姻的結束);3)缺乏訓練效率。為了解決這些挑戰,我們提出了時間感知增量嵌入(TIE)框架,該框架結合了TKG表示學習、經驗回放和時間正則化。我們引入一組度量標準來描述模型的不妥協性,并提出一個約束,將刪除的事實與負面標簽相關聯。在Wikidata12k和YAGO11k數據集上的實驗結果表明,本文提出的TIE框架減少了大約10倍的訓練時間,并在提出的指標上有所改進。對于任何傳統的度量方法,它都不會造成性能上的重大損失。廣泛的消融研究揭示了不同評估指標之間的性能權衡,這對于真實世界的TKG應用的決策是至關重要的。
圖神經網絡通過聚合和結合鄰居信息來學習節點特征,在許多圖的任務中取得了良好的性能。然而,GNN大多被視為黑盒,缺乏人類可理解的解釋。因此,如果不能解釋GNN模型,就不能完全信任它們并在某些應用程序域中使用它們。在這項工作中,我們提出了一種新的方法,稱為XGNN,在模型級別上解釋GNN。我們的方法可以為GNNs的工作方式提供高層次的見解和一般性的理解。特別地,我們提出通過訓練一個圖生成器來解釋GNN,使生成的圖模式最大化模型的某種預測。我們將圖形生成表述為一個強化學習任務,其中對于每一步,圖形生成器預測如何向當前圖形中添加一條邊。基于訓練后的GNN信息,采用策略梯度方法對圖生成器進行訓練。此外,我們還加入了一些圖規則,以促使生成的圖是有效的。在合成和真實數據集上的實驗結果表明,我們提出的方法有助于理解和驗證訓練過的GNN。此外,我們的實驗結果表明,所生成的圖可以為如何改進訓練的神經網絡提供指導。
概述
圖神經網絡(GNNs)在不同的圖任務(如節點分類[11,37]、圖分類[39,47]和鏈接預測[46])上顯示了其有效性并取得了最新的性能。此外,對不同的圖運算進行了大量的研究,如圖卷積[13,16,19]、圖池化[20,44]、圖注意力[10,36,37]。由于圖數據廣泛存在于不同的真實世界應用程序中,如社交網絡、化學和生物學,GNN變得越來越重要和有用。盡管它們的性能很好,GNNs也有和其他深度學習模型一樣的缺點;也就是說,它們通常被視為黑盒子,缺乏人類理解的解釋。如果不理解和驗證內部工作機制,就不能完全信任GNNs,這就阻礙了它們在涉及公平、隱私和安全的關鍵應用程序中的使用[7,40]。例如,我們可以訓練一個GNN模型來預測藥物的效果,我們將每種藥物視為一個分子圖。如果不探索其工作機理,我們就不知道分子圖中是什么化學基團導致了這些預測。那么我們就無法驗證GNN模型的規則是否與真實世界的化學規則一致,因此我們不能完全信任GNN模型。這就增加了開發GNN解釋技術的需要。
最近,人們提出了幾種解釋技術來解釋圖像和文本數據的深度學習模型。根據所提供的解釋的類型,現有的技術可以歸類為實例級[5,9,29,31,32,43,45,48]或模型級[8,24,25]方法。實例級解釋通過模型確定輸入中的重要特征或該輸入的決策過程來解釋對給定輸入示例的預測。這類常用技術包括基于梯度的方法[31,32,43]、中間特征圖可視化[29,48]和基于遮擋的方法[5,9,45]。與提供依賴于輸入的解釋不同,模型級別的解釋旨在通過研究哪些輸入模式可以導致某種預測來解釋模型的一般行為,而不考慮任何特定的輸入示例。輸入優化[8,24 - 26]是最常用的模型級解釋方法。這兩類解釋方法旨在從不同的角度解釋深層模型。由于解釋的最終目的是驗證和理解深度模型,我們需要手動檢查解釋結果,并得出深度模型是否按我們預期的方式工作的結論。對于示例級方法,我們可能需要探究大量示例的解釋,然后才能相信模型。然而,這需要時間和專家的廣泛努力。對于模型級方法,其解釋更加普遍和高級,因此需要較少的人力監督。然而,與實例級的解釋相比,模型級方法的解釋不那么精確。總的來說,模型級和實例級方法對于解釋和理解深度模型都很重要。
在圖數據上解釋深度學習模型變得越來越重要,但仍缺乏探索。就我們所知,目前還沒有在模型級解釋GNN的研究。現有研究[4,40]僅對圖模型提供了實例層次的解釋。作為對現有工作的徹底背離,我們提出了一種新的解釋技術,稱為XGNN,用于在模型級別上解釋深層圖模型。我們提出研究什么樣的圖模式可以最大化某個預測。具體地說,我們提出訓練一個圖生成器,以便生成的圖模式可以用來解釋深度圖模型。我們把它表示為一個強化學習問題,在每一步,圖生成器預測如何添加一條邊到給定的圖和形成一個新的圖。然后根據已訓練圖模型的反饋,使用策略梯度[35]對生成器進行訓練。我們還加入了一些圖規則,以鼓勵生成的圖是有效的。注意,XGNN框架中的圖生成部分可以推廣到任何合適的圖生成方法,這些方法由手邊的數據集和要解釋的GNN決定。最后,我們在真實數據集和合成數據集上訓練了GNN模型,取得了良好的性能。然后我們使用我們提出的XGNN來解釋這些訓練過的模型。實驗結果表明,我們提出的XGNN可以找到所需的圖模式,并解釋了這些模型。通過生成的圖形模式,我們可以驗證、理解甚至改進經過訓練的GNN模型。