內容與風格(C-S)的解耦是風格轉移中的基本問題和關鍵挑戰。基于明確的定義(例如,Gram矩陣)或隱式學習(例如,GANs)的現有方法既不可解釋也不易于控制,導致了交織的表示和不太令人滿意的結果。在這篇論文中,我們提出了一種新的C-S解耦風格轉移框架,不使用之前的假設。關鍵的洞見是明確地提取內容信息并隱式地學習互補的風格信息,從而產生可解釋和可控的C-S解耦和風格轉移。我們引入了一個簡單而有效的基于CLIP的風格解耦損失,與風格重建先驗協同工作,以在CLIP圖像空間中解耦C-S。通過進一步利用擴散模型的強大風格去除和生成能力,我們的框架比現有的技術獲得了更好的結果,并具有靈活的C-S解耦和權衡控制。我們的工作為風格轉移中的C-S解耦提供了新的洞見,并展示了擴散模型在學習良好解耦的C-S特征方面的潛力。
視覺變換器(ViT)的不斷擴展使得這些大型模型的高效微調用于滿足特定需求在各種應用中變得極為困難。這個問題起源于ViT中線性層的反向傳播過程中所需的計算密集的矩陣乘法。在本文中,我們通過提出一種新的低秩反向傳播通過沃爾什-哈達瑪變換(LBP-WHT)方法來解決這個問題。直觀地說,LBP-WHT將梯度投影到一個低秩空間并執行反向傳播。這種方法大大減少了適應ViT所需的計算,因為在低秩空間中的矩陣乘法遠少資源密集。我們對多個數據集中的不同模型(ViT,混合卷積-ViT模型)進行了廣泛的實驗,以展示我們方法的有效性。例如,在CIFAR100上調整一個EfficientFormer-L1模型時,我們的LBP-WHT比最先進的基線高出10.4%的準確性,同時需要較少的9 MFLOPs計算。作為第一個使用低秩反向傳播加速ViT適應的工作,我們的LBP-WHT方法與許多先前的努力相輔相成,可以與它們結合以獲得更好的性能。
近期,使用掩碼自編碼器的自監督學習因其能有效產生圖像或文本表示而日益受到歡迎,這些表示可以應用于多種下游任務,無需重新訓練。然而,我們觀察到當前的掩碼自編碼器模型在圖數據上缺乏良好的泛化能力。為了解決這一問題,我們提出了一個名為GiGaMAE的新型圖掩碼自編碼器框架。與現有的掩碼自編碼器不同,這些編碼器通過顯式重構原始圖組件(例如,特征或邊)來學習節點表示,在本文中,我們提議協同重構有信息性和整合性的潛在嵌入。通過考慮 encompassing 圖的拓撲結構和屬性信息的嵌入作為重建目標,我們的模型可以捕獲更為泛化和全面的知識。此外,我們引入了一個基于互信息的重建損失,該損失可以有效地重建多個目標。這個學習目標使我們能夠區分從單一目標中學到的獨有知識和多個目標共享的常見知識。我們在三個下游任務上評估了我們的方法,使用了七個數據集作為基準。大量實驗顯示,GiGaMAE相對于最先進的基線表現出色。我們希望我們的結果將為圖結構數據上的基礎模型設計提供啟示。我們的代碼可在以下網址找到: //github.com/sycny/GiGaMAE。
基礎模型在多任務學習方面取得了很大的進展,實現了統一的單模態和多模態任務接口。然而,在遷移學習過程中,這類多任務學習器的潛力尚未得到充分利用。在這項工作中,我們提出了一種通用的參數高效遷移學習方法,稱為預測-插值調優(π-調優),適用于視覺、語言和視覺-語言任務。它匯集了從類似任務中學到的輕量級任務特定專家的參數,以幫助目標下游任務。任務相似性在統一的模態無關空間中進行預測,形成一個可擴展的圖表來展示任務之間的關系。π-調優具有幾個吸引人的優點。首先,它靈活地探索了相似任務之間的內部和跨模態可轉移性,以提高遷移學習的準確性和魯棒性,特別是在數據稀缺的情況下。其次,它為遷移學習提供了一種系統性解決方案,通過多任務預測-然后插值,兼容各種類型的參數高效專家,如提示和適配器。第三,對14個單模態和6個多模態數據集的任務級別相互利益的廣泛研究表明,π-調優在全射擊和低射擊條件下均優于微調和其他參數高效遷移學習方法。任務圖還使得跨模態任務可轉移性的深入可解釋分析成為可能。相關代碼將在//github.com/TencentARC/pi-Tuning 上提供。
最近提出了一些查詢和評分來解釋ML模型上的個人預測。考慮到ML模型需要靈活、可靠和易于應用的可解釋性方法,我們預計需要開發聲明性語言來自然地指定不同的可解釋性查詢。我們以一種有原則的方式來實現這一點,將這種語言根植于一個名為FOIL的邏輯中,該邏輯允許表達許多簡單但重要的可解釋性查詢,并可能作為更具表現力的可解釋性語言的核心。我們研究了FOIL查詢在兩類ML模型上的計算復雜性,這兩類模型通常被認為是容易解釋的: 策樹和OBDDs。由于ML模型的可能輸入的數量在其維數上是指數級的,因此FOIL評估問題的可處理性是微妙的,但可以通過限制模型的結構或被評估的FOIL片段來實現。我們還提出了一個用高級聲明性語言包裝的FOIL的原型實現,并進行了實驗,表明這種語言可以在實踐中使用。
在不依賴下游任務的情況下評估已學習表示的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出了幾何成分分析(GeomCA)算法,基于其幾何和拓撲性質評估表示空間。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表示,如對比學習模型、生成模型和監督學習模型,證明了它的適用性。
我們提出了GNNAutoScale (GAS),一個擴展任意消息傳遞GNN到大型圖的框架。GAS通過利用之前的訓練迭代的歷史嵌入來修剪計算圖的整個子樹,從而在不丟失任何數據的情況下,使輸入節點大小的GPU內存消耗保持不變。雖然現有的解決方案由于邊緣的子采樣或不可訓練的傳播而削弱了消息傳遞的表達能力,但我們的方法被證明能夠保持原始GNN的表達能力。我們通過提供歷史嵌入的近似誤差邊界來實現這一點,并展示了如何在實踐中加強它們。經驗表明,我們的框架PyGAS (PYTORCH geometry 的一個易于使用的擴展)的實際實現是既快速又內存效率高的,學習表現性節點表示,其性能與非擴展對應的性能非常相似,并在大規模圖上達到了最先進的性能。
跨模態檢索方法為來自多種模態的樣本建立了一個共同的表示空間,尤其是來自視覺和語言領域的樣本。對于圖像和它們的說明文字,對應的多樣性使得這項任務特別具有挑戰性。給定一個圖像(分別是一個標題),有多個同樣有意義的標題(分別是圖像)。在本文中,我們認為確定性函數不足以捕獲這種一對多對應。相反,我們提出使用概率交叉模態嵌入(PCME),來自不同模態的樣本在公共嵌入空間中表示為概率分布。由于諸如COCO這樣的通用基準測試在跨模態匹配時存在非詳盡注釋的問題,我們建議額外評估CUB數據集上的檢索,這是一個更小但更干凈的數據庫,其中所有可能的圖像標題對都被注釋。我們廣泛地ablate PCME,并證明它不僅提高了檢索性能,其確定性對等物,但也提供不確定性估計,使嵌入更可解釋。
圖神經網絡通過聚合和結合鄰居信息來學習節點特征,在許多圖的任務中取得了良好的性能。然而,GNN大多被視為黑盒,缺乏人類可理解的解釋。因此,如果不能解釋GNN模型,就不能完全信任它們并在某些應用程序域中使用它們。在這項工作中,我們提出了一種新的方法,稱為XGNN,在模型級別上解釋GNN。我們的方法可以為GNNs的工作方式提供高層次的見解和一般性的理解。特別地,我們提出通過訓練一個圖生成器來解釋GNN,使生成的圖模式最大化模型的某種預測。我們將圖形生成表述為一個強化學習任務,其中對于每一步,圖形生成器預測如何向當前圖形中添加一條邊。基于訓練后的GNN信息,采用策略梯度方法對圖生成器進行訓練。此外,我們還加入了一些圖規則,以促使生成的圖是有效的。在合成和真實數據集上的實驗結果表明,我們提出的方法有助于理解和驗證訓練過的GNN。此外,我們的實驗結果表明,所生成的圖可以為如何改進訓練的神經網絡提供指導。
概述
圖神經網絡(GNNs)在不同的圖任務(如節點分類[11,37]、圖分類[39,47]和鏈接預測[46])上顯示了其有效性并取得了最新的性能。此外,對不同的圖運算進行了大量的研究,如圖卷積[13,16,19]、圖池化[20,44]、圖注意力[10,36,37]。由于圖數據廣泛存在于不同的真實世界應用程序中,如社交網絡、化學和生物學,GNN變得越來越重要和有用。盡管它們的性能很好,GNNs也有和其他深度學習模型一樣的缺點;也就是說,它們通常被視為黑盒子,缺乏人類理解的解釋。如果不理解和驗證內部工作機制,就不能完全信任GNNs,這就阻礙了它們在涉及公平、隱私和安全的關鍵應用程序中的使用[7,40]。例如,我們可以訓練一個GNN模型來預測藥物的效果,我們將每種藥物視為一個分子圖。如果不探索其工作機理,我們就不知道分子圖中是什么化學基團導致了這些預測。那么我們就無法驗證GNN模型的規則是否與真實世界的化學規則一致,因此我們不能完全信任GNN模型。這就增加了開發GNN解釋技術的需要。
最近,人們提出了幾種解釋技術來解釋圖像和文本數據的深度學習模型。根據所提供的解釋的類型,現有的技術可以歸類為實例級[5,9,29,31,32,43,45,48]或模型級[8,24,25]方法。實例級解釋通過模型確定輸入中的重要特征或該輸入的決策過程來解釋對給定輸入示例的預測。這類常用技術包括基于梯度的方法[31,32,43]、中間特征圖可視化[29,48]和基于遮擋的方法[5,9,45]。與提供依賴于輸入的解釋不同,模型級別的解釋旨在通過研究哪些輸入模式可以導致某種預測來解釋模型的一般行為,而不考慮任何特定的輸入示例。輸入優化[8,24 - 26]是最常用的模型級解釋方法。這兩類解釋方法旨在從不同的角度解釋深層模型。由于解釋的最終目的是驗證和理解深度模型,我們需要手動檢查解釋結果,并得出深度模型是否按我們預期的方式工作的結論。對于示例級方法,我們可能需要探究大量示例的解釋,然后才能相信模型。然而,這需要時間和專家的廣泛努力。對于模型級方法,其解釋更加普遍和高級,因此需要較少的人力監督。然而,與實例級的解釋相比,模型級方法的解釋不那么精確。總的來說,模型級和實例級方法對于解釋和理解深度模型都很重要。
在圖數據上解釋深度學習模型變得越來越重要,但仍缺乏探索。就我們所知,目前還沒有在模型級解釋GNN的研究。現有研究[4,40]僅對圖模型提供了實例層次的解釋。作為對現有工作的徹底背離,我們提出了一種新的解釋技術,稱為XGNN,用于在模型級別上解釋深層圖模型。我們提出研究什么樣的圖模式可以最大化某個預測。具體地說,我們提出訓練一個圖生成器,以便生成的圖模式可以用來解釋深度圖模型。我們把它表示為一個強化學習問題,在每一步,圖生成器預測如何添加一條邊到給定的圖和形成一個新的圖。然后根據已訓練圖模型的反饋,使用策略梯度[35]對生成器進行訓練。我們還加入了一些圖規則,以鼓勵生成的圖是有效的。注意,XGNN框架中的圖生成部分可以推廣到任何合適的圖生成方法,這些方法由手邊的數據集和要解釋的GNN決定。最后,我們在真實數據集和合成數據集上訓練了GNN模型,取得了良好的性能。然后我們使用我們提出的XGNN來解釋這些訓練過的模型。實驗結果表明,我們提出的XGNN可以找到所需的圖模式,并解釋了這些模型。通過生成的圖形模式,我們可以驗證、理解甚至改進經過訓練的GNN模型。
領域適應(DA)提供了重用數據和模型用于新問題領域的有價值的方法。然而,對于具有不同數據可用性的時間序列數據,還沒有考慮到健壯的技術。在本文中,我們做出了三個主要貢獻來填補這一空白。我們提出了一種新的時間序列數據卷積深度域自適應模型(CoDATS),該模型在現實傳感器數據基準上顯著提高了最先進的DA策略的準確性和訓練時間。通過利用來自多個源域的數據,我們增加了CoDATS的有用性,從而進一步提高了與以前的單源方法相比的準確性,特別是在域之間具有高度可變性的復雜時間序列數據集上。其次,我們提出了一種新的弱監督域自適應(DA-WS)方法,利用目標域標簽分布形式的弱監督,這可能比其他數據標簽更容易收集。第三,我們對不同的真實數據集進行了綜合實驗,以評估我們的域適應和弱監督方法的有效性。結果表明,用于單源DA的CoDATS比最先進的方法有了顯著的改進,并且我們使用來自多個源域和弱監督信號的數據實現了額外的準確性改進。