盡管深度神經網絡(DNNs)在許多領域已經顯示出解決大規模問題的強大能力,但由于其龐大的參數,這些DNNs很難在實際系統中部署。
為了解決這個問題,提出了教師-學生架構,其中參數較少的簡單學生網絡可以達到與參數眾多的深度教師網絡相當的性能。最近,教師-學生架構在各種知識蒸餾(KD)目標上得到了有效且廣泛的應用,包括知識壓縮、知識擴展、知識適應和知識增強。
在教師-學生架構的幫助下,當前的研究能夠通過輕量級和泛化的學生網絡實現多種蒸餾目標。
與主要關注知識壓縮的現有KD綜述不同,本綜述首先探討了在多種蒸餾目標下的教師-學生架構。本綜述介紹了各種知識表示及其相應的優化目標。此外,我們提供了教師-學生架構的系統概述,包括代表性的學習算法和有效的蒸餾方案。此外,本綜述還總結了教師-學生架構在多種目的上的最近應用,包括分類、識別、生成、排名和回歸。
最后,本綜述探討了KD的潛在研究方向,重點是架構設計、知識質量,以及基于回歸的學習的理論研究。通過這個全面的綜述,工業界從業者和學術界可以獲得寶貴的見解和指導方針,有效地設計、學習和應用教師-學生架構在各種蒸餾目標上。
知識蒸餾的教師-學生架構
深度神經網絡(DNNs)在多個領域取得了很大的成功,如計算機視覺[1](CV)、通信系統[2]和自然語言處理(NLP)[3]等。特別地,為了滿足大規模任務的穩健性能,DNNs通常具有復雜的架構,并進行了過度參數化。然而,這種繁重的模型同時需要大量的訓練時間并帶來巨大的計算成本,這給這些模型在邊緣設備上的部署以及在實時系統中的應用帶來了重大挑戰。
為了加速訓練過程,Hinton等人[4]首次提出了知識蒸餾(KD)技術,用于訓練輕量級模型以達到與深度模型相當的性能。這是通過將一個大型且計算昂貴的模型(即教師模型)的有用知識壓縮到一個小型且計算高效的模型(即學生模型)來實現的。有了這樣的教師-學生架構,學生模型可以在教師模型的監督下進行訓練。在學生模型的訓練過程中,學生模型不僅應盡可能接近地預測出真實的標簽,還應匹配教師模型的軟化標簽分布。因此,壓縮后的學生模型能夠獲得與笨重的教師模型相當的性能,并且可以高效地部署在實時應用和邊緣設備中。
除了知識壓縮外,教師-學生架構同時也在其他的KD目標上得到了有效且廣泛的應用,包括知識擴展、知識適應和知識增強。在教師-學生架構的幫助下,我們能夠通過有效且泛化的學生網絡實現多種蒸餾目標。 在知識擴展中,由于模型的強大容量和復雜的學習任務,學生網絡可以從教師網絡中學習擴展的知識,這樣學生在更復雜的任務中能夠展現出比教師更好的性能和泛化能力[5, 6, 7]。為了實現知識適應的目標,學生網絡可以在一個或多個目標域上進行訓練,其中教師網絡的適應知識是基于源域構建的[8, 9]。在知識增強中,學生網絡可以在專門的教師網絡的監督下學習更通用的特征表示,這樣的通用學生網絡可以在多個任務中有效地泛化[10, 11]。
隨著教師-學生架構的最近進展,一些研究已經總結了教師-學生架構下各種蒸餾技術的最近進展。具體來說,Gou等人[12]主要從以下幾個角度提供了一個全面的KD綜述:知識表示、蒸餾方案和算法。Wang等人[13]為視覺領域的教師-學生架構中的模型壓縮提供了一個系統的概述和深入的見解。Alkhulaifi等人[14]總結了多種度量標準,以評估蒸餾方法在模型大小減少和性能方面的效果。
然而,現有的KD綜述[12, 13, 14]主要關注于知識壓縮目標的教師-學生架構,因此需要對所有的蒸餾目標進行全面的綜述。此外,知識類型可以歸納為三個類別:基于響應的、中間的、基于關系的和基于互信息的表示。知識優化目標可能會根據具體的知識表示而有所不同。然而,現有的綜述[12, 13, 14]最多只提供了三種知識表示的審查,缺乏對不同表示下的知識優化的全面介紹。此外,現有的工作[12, 13, 14]主要解釋了在視覺識別和NLP領域的教師-學生架構的應用,這表明其他任務(如生成、排名和回歸)也在被討論。
然而,現有的KD綜述[12, 13, 14]主要關注于知識壓縮目標的教師-學生架構,因此需要對所有的蒸餾目標進行全面的綜述。此外,知識類型可以歸納為三個類別:基于響應的、中間的、基于關系的和基于互信息的表示。知識優化目標可能會根據具體的知識表示而有所不同。然而,現有的綜述[12, 13, 14]最多只提供了三種知識表示的審查,缺乏對不同表示下的知識優化的全面介紹。此外,現有的工作[12, 13, 14]主要解釋了在視覺識別和NLP領域的教師-學生架構的應用,這表明其他任務(如生成、排名和回歸)也在被討論。
為此,這篇綜述為KD的教師-學生架構提供了一個全面而深入的指南。如圖1所示,我們綜述的一般分類框架,首先討論了基于多個KD目標的教師-學生架構,包括知識壓縮、知識擴展、知識適應和知識增強。本綜述為多種知識表示(即基于響應的、中間的、基于關系的和基于互信息的表示)提供了詳細的概述,并探討了與每種特定表示相關的知識優化目標。此外,我們系統地總結了具有多種代表性學習算法的教師-學生架構(例如,多教師、基于圖的、聯邦的和跨模態蒸餾),同時在教師-學生架構的框架下介紹在線蒸餾和自蒸餾方案。還介紹了教師-學生架構的最新應用,從各種角度提供了見解:分類、識別、生成、排名和回歸目的。最后,我們分別研究了基于教師-學生架構設計、知識質量和基于回歸的學習理論研究的KD的潛在研究方向。
表1與我們的調查對比了之前的作品[12, 13, 14],總結了此調查的主要貢獻: ? 我們為多個蒸餾目標介紹了教師-學生架構的全面審查,包括知識壓縮、知識擴展、知識適應和知識增強。 ? 我們為多種知識表示提供了深入的審查,并探討了與每種特定表示相關的優化目標。 ? 我們總結了跨多種目的的教師-學生架構的最近應用,包括分類、識別、生成、排名和回歸。 ? 我們討論了關于KD的有前景的研究方向,包括教師-學生架構設計、知識質量和基于回歸的學習的理論研究。
本調查的其余部分組織如下:第2節描述了跨多個蒸餾目標的教師-學生架構。第3節介紹了知識表示和優化目標。第4節和第5節分別討論了具有代表性學習算法和蒸餾方案的教師-學生架構。第6節總結了跨多種目的的教師-學生架構的最近應用。未來的工作和結論分別在第7節和第8節中得出。
如何結合物理信息到強化學習是一個重要的問題。來自昆士蘭科技大學、美國科羅拉多大學博爾德分校等學者撰寫的《物理信息強化學習》綜述,詳述進展。
將物理信息納入機器學習框架已經在許多應用領域引起了革命。這涉及通過整合物理約束并遵守物理定律來增強學習過程。在這項工作中,我們探討了物理信息在強化學習應用中的實用性。我們對將物理信息納入強化學習方法的文獻進行了徹底的綜述,通常稱為物理信息強化學習(PIRL)。 我們引入了一種新的分類法,以強化學習流程作為骨干,用于分類現有工作、進行比較和對比,并得出關鍵見解。我們對現有工作進行了分析,涉及了為整合而建模的主導物理的表示/形式,它們對典型強化學習體系結構的具體貢獻,以及它們與底層強化學習流程階段的關系。我們還確定了現有PIRL方法的核心學習架構和物理整合偏見(即觀測、歸納和學習),并將它們進一步分類以獲得更好的理解和適應。 通過全面展示物理信息能力的實施,這一分類法提供了PIRL的一種連貫方法。它確定了已應用這種方法的領域,以及存在的差距和機會。此外,該分類法還揭示了未解決的問題和挑戰,可以指導未來的研究。這個新興領域具有巨大潛力,可以通過增加其物理合理性、精度、數據效率和在實際場景中的適用性來增強強化學習算法。 //arxiv.org/abs/2309.01909通過與環境的反復嘗試性互動,強化學習(Reinforcement Learning,RL)為解決決策和優化問題提供了有前途的方法。在過去的幾年里,RL在處理困難任務方面取得了令人印象深刻的成就,涉及領域包括自動駕駛[119, 16]、運動控制[99, 129]、機器人學[71, 94]、連續控制[5, 6, 7]以及多智能體系統和控制[39, 15]。這些成功的方法中,大部分都是純粹基于數據驅動的,并利用反復試驗來自由探索搜索空間。RL方法在模擬中表現良好,但在真實世界數據中遇到困難,因為模擬設置與真實世界系統的復雜性存在斷裂。主要的RL挑戰[33],這些挑戰一直在最新的研究中得到持續解決,包括樣本效率[91, 9]、高維連續狀態和動作空間[34, 118]、安全探索[41, 48]、多目標和明確定義的獎勵函數[65, 10]、完美的模擬器和學習模型[27, 96]以及來自離線預訓練的策略遷移[72, 131]。在機器學習領域,將數學物理融入模型可以導致更有意義的解決方案。這種方法被稱為物理信息機器學習,有助于神經網絡更有效地從不完整的物理信息和不完美的數據中學習,從而實現更快的訓練時間和更好的泛化性能。此外,它還可以幫助應對高維度應用,并確保生成的解決方案在物理上合理并遵循基本的物理定律[60, 8, 52]。在各種機器學習子領域中,強化學習(RL)是自然的候選者,因為大多數基于RL的解決方案涉及實際問題,并具有可解釋的物理結構。最近的研究在解決RL挑戰方面取得了顯著的進展,通過在訓練流程中融入物理信息。例如,PIRL方法旨在利用物理減少高維連續狀態的復雜性,并提供直觀的表示和更好的模擬。在[45]中,學習了符合物理模型PDEs的低維表示,而[12]則使用了來自監督替代模型的特征。學習一個良好的世界模型是訓練RL代理在現實世界中的一種更快速且更安全的替代方法。[103]將物理信息融入網絡以獲得更好的世界模型,而[128]則利用高級規范的機器人形態和物理信息進行快速模型識別。一個明確定義的獎勵函數對于成功的強化學習至關重要,物理信息機器學習方法也尋求將物理約束融入設計中,以實現安全學習和更高效的獎勵函數。例如,在[68]中,設計的獎勵函數包含了IMU傳感器數據,吸收了慣性約束,而在[75]中,物理信息獎勵被設計用于滿足明確的操作目標。為了確保在訓練和部署期間進行安全探索,像[133, 141]這樣的工作學習了基于物理屬性損失和一組不安全狀態向量的數據驅動屏障證明。有幾條物理信息機器學習(PIRL)研究線致力于探索更高效的搜索空間探索和實際系統有效策略部署。一些方法旨在改進模擬器以提高樣本效率和更好地將模擬結果轉化為實際情況[1, 81]。精心選擇任務特定的狀態表示[59, 51]、獎勵函數[13, 14]和動作空間[124, 141]已經被證明可以改善收斂時間和性能。總之,整合關于學習任務結構的基本物理信息已經被發現可以提高性能并加速收斂。物理信息強化學習(PIRL)已成為文獻中的一個增長趨勢,如圖1所示,過去六年來在這一領域發表的論文數量逐漸增加。柱狀圖表明這一領域正在受到越來越多的關注,我們可以預期未來會有更多研究涌現。
本文的貢獻總結如下:
分類法:我們提出了一個統一的分類法,用于研究建模了哪些物理知識/過程,它們如何表示以及將它們納入強化學習方法的策略。
算法綜述:我們使用統一的符號、簡化的功能圖和對最新文獻的討論,展示了物理信息引導/物理信息強化強化學習方法的最新進展。
訓練和評估基準綜述:我們分析了已審查文獻中使用的評估基準,從而呈現出用于理解流行趨勢以及便于參考的流行評估和基準平臺/套件。
分析:我們深入研究了各種基于模型和無模型的強化學習應用領域。我們詳細分析了物理信息如何集成到特定的強化學習方法中,建模了哪些物理過程并將其納入,以及使用了什么網絡架構或網絡增強來融合物理信息。
開放問題:我們總結了對挑戰、開放性研究問題以及未來研究方向的看法。
物理信息機器學習(PIML):概述
PIML的目標是將數學物理模型與觀測數據無縫融合在學習過程中。這有助于引導過程朝著在部分觀測、不確定和高維度的復雜場景中找到物理一致解的方向前進[62, 52, 26]。將物理知識融入機器學習模型具有許多優點,如[62, 89]中所討論的,這些信息捕捉了被建模過程的重要物理原理,帶來以下優勢:1) 確保ML模型在物理和科學上都是一致的。 2) 增加了模型訓練的數據效率,意味著可以用更少的數據輸入來訓練模型。 3) 加快了模型訓練過程,使模型更快地收斂到最優解。 4) 增加了訓練模型的泛化能力,使其能夠更好地對未在訓練階段看到的情景進行預測。 5) 提高了模型的透明度和可解釋性,使其更值得信賴和可解釋。根據文獻,將物理知識或先驗融入機器學習模型有三種策略:觀測偏差、學習偏差和歸納偏差。觀測偏差:這種方法使用反映其生成過程的物理原則的多模態數據[82, 61, 77, 132]。深度神經網絡(DNN)直接在觀測數據上進行訓練,旨在捕捉潛在的物理過程。訓練數據可以來自各種來源,如直接觀測、模擬或物理方程生成的數據、地圖或提取的物理數據。 學習偏差:通過軟懲罰約束來強化物理先驗知識是鞏固物理先驗知識的一種方式。這種方法涉及將基于過程物理的額外項添加到損失函數中,如動量或質量守恒。其中一個例子是物理信息神經網絡(PINN),它通過將PDE嵌入到神經網絡的損失函數中,使用自動微分來結合測量和偏微分方程(PDE)的信息[60]。一些突出的基于軟懲罰的方法包括統計約束的GAN [127]、物理信息自動編碼器[37]以及在損失函數中通過軟約束編碼不變性的InvNet [110]。
歸納偏差:自定義的神經網絡引入的'硬'約束可以將先驗知識納入模型中。例如,Hamiltonian NN [47]受到哈密頓力學的啟發,訓練模型遵循精確的守恒定律,從而得到更好的歸納偏差。由Cranmer等人引入的Lagrangian神經網絡(LNNs)[25]可以使用神經網絡參數化任意Lagrangian,即使規范動量未知或難以計算。 Meng等人[90]使用貝葉斯框架從數據和物理中學習功能先驗,使用Hamiltonian Monte Carlo(HMC)方法估算后驗PI-GAN的潛在空間。此外,DeepONets [82]網絡用于PDE不可知的物理問題。
物理信息強化學習:基礎、分類和示例
物理信息強化學習的概念涉及將物理結構、先驗和現實世界的物理變量納入策略學習或優化過程中。物理歸納有助于提高強化學習算法/方法的效力、樣本效率和加速訓練,用于復雜問題求解和實際部署。根據具體問題或情景,可以在強化學習框架的不同階段使用不同的強化學習方法來集成不同的物理先驗,參見圖4。
安全過濾器:該類別包括具有基于PI的模塊的方法,該模塊調節代理的探索以確保安全約束,詳情請參見圖8(a)。在此典型架構中,安全過濾器模塊接受來自RL代理πφ的動作和狀態信息(st),并優化動作,得到a?t。
PI獎勵:此類別包括使用物理信息修改獎勵函數的方法,詳情請參見圖8(b)。在這里,PI獎勵模塊將代理的外部獎勵(rt)與基于物理信息的內在成分相結合,得到r?t。
殘差學習:殘差RL是一種架構,通常由兩個控制器組成:一個由人設計的控制器和一個學習的策略[58]。在PIRL設置中,該架構由具有物理信息的控制器πψ和基于數據驅動的DNN策略πφ組成,稱為殘差RL代理,詳情請參見圖8(c)。
物理嵌入網絡:在這個類別中,物理信息,例如系統動力學,直接嵌入到策略或值函數網絡中,詳情請參見圖8(d)。
可微分模擬器:這里的方法使用可微分物理模擬器,這些模擬器是非傳統的/或適應的模擬器,并明確提供了模擬結果相對于控制動作的損失梯度,詳情請參見圖8(e)。
從模擬到實際:在模擬到實際的架構中,代理首先在模擬器或源領域上進行訓練,然后在目標領域上進行部署。在某些情況下,轉移后會在目標領域進行微調,詳情請參見圖8(f)。
物理變量:此架構包括所有那些引入物理參數、變量或基元以增強RL框架的組件(例如狀態和獎勵)的方法。詳情請參見圖8(g)。
分層RL:此類別包括基于分層和課程學習的方法,詳情請參見圖8(h)。在分層RL(HRL)設置中,長期決策任務被自動分解為更簡單的子任務。在課程學習中,通過學習解決一系列逐漸困難的任務來解決復雜任務。在HRL和CRL中,物理通常被納入所有策略(包括元策略和子策略)和值網絡中。這些方法大多是物理嵌入網絡(圖8(d))的擴展,如非HRL/CRL設置中使用的方式。
數據增強:此類別包括將輸入狀態替換為不同或增強形式的方法,例如低維表示,以從中提取特殊和與物理相關的特征。詳情請參見圖8(i)。在這種典型架構中,狀態向量st+1被轉換為增強表示zt+1。然后從中提取與物理相關的特征,并由RL代理(πφ)使用。
PI模型識別:此架構代表那些PIRL方法,特別是在數據驅動的MBRL設置中,其中物理信息直接納入模型識別過程中。詳情請參見圖8(j)。
結論
本論文介紹了一種先進的強化學習范式,稱為物理信息強化學習(PIRL)。通過充分利用數據驅動技術和對基礎物理原理的知識,PIRL能夠改善RL算法/方法的效能、樣本效率和訓練加速,用于復雜問題求解和實際部署。我們創建了兩個分類法,根據物理先驗/信息類型和物理先驗歸納(RL方法)對傳統PIRL方法進行分類,為理解這一方法提供了一個框架。為了幫助讀者理解解決RL任務涉及的物理知識,我們在文中包含了來自近期論文的各種解釋性圖像,并在表2和表3中總結了它們的特點。此外,我們還提供了一個詳細列出PIRL評估所使用的訓練和評估基準的基準總結表4。我們的目標是簡化現有PIRL方法的復雜概念,使其更容易在各個領域中使用。最后,我們討論了當前PIRL工作的局限性和未解決的問題,鼓勵在這一領域進行進一步研究。
視覺分割旨在將圖像、視頻幀或點云劃分為多個片段或組。這項技術在諸如自動駕駛、圖像編輯、機器人感知和醫學分析等眾多實際應用中具有重要意義。在過去的十年里,基于深度學習的方法在這個領域取得了顯著進展。最近,一種最初為自然語言處理設計的基于自注意力的神經網絡Transformer,在各種視覺處理任務中大大超越了之前的卷積或循環方法。具體來說,視覺Transformer為各種分割任務提供了強大、統一且更簡單的解決方案。本綜述為基于Transformer的視覺分割提供了一個詳盡的概述,總結了近期的進展。我們首先回顧背景,包括問題定義、數據集和先前的卷積方法。接下來,我們總結了一個統一所有最近基于變換器的方法的元架構。基于這個元架構,我們檢查各種方法設計,包括對元架構的修改和相關應用。我們還介紹了幾個密切相關的設置,包括3D點云分割、基礎模型調優、領域感知分割、高效分割和醫學分割。此外,我們匯編并重新評估了在一些公認的數據集上的所審查方法。最后,我們確定了這個領域的開放性挑戰,并提出了未來研究的方向。項目頁面可以在//github.com/lxtGH/Awesome-Segmenation-With-Transformer找到。我們還將持續關注這個快速發展領域的動態。1. 引言****視覺分割旨在將給定圖像或視頻的像素分組為一組語義區域。這是計算機視覺中的一個基本問題,涉及到諸多實際應用,如機器人技術、自動監控、圖像/視頻編輯、社交媒體、自動駕駛等。從手工特征提取方法[1]、[2]和經典機器學習模型[3]、[4]、[5]開始,分割問題已經得到了大量的研究關注。在過去的十年里,深度神經網絡,如卷積神經網絡(CNNs)[6]、[7]、[8],例如全卷積網絡(FCNs)[9]、[10]、[11]、[12]在不同的分割任務中取得了顯著成功,并帶來了更好的結果。與傳統分割方法相比,基于CNN的方法具有更好的泛化能力。由于它們的卓越性能,CNN和FCN架構一直是分割研究工作的基本組成部分。
最近,隨著自然語言處理(NLP)的成功,變換器(Transformer)[13]被引入作為循環神經網絡(RNNs)[14]的替代品。Transformer包含一個新穎的自注意力設計,并可以并行處理各種標記。然后,基于Transformer設計,BERT [15]和GPT-3 [16]將模型參數擴展并使用大量未標記的文本信息進行預訓練。它們在許多NLP任務上取得了強大的性能,加速了變換器進入視覺領域的發展。最近,研究人員將變換器應用于計算機視覺(CV)任務。早期方法[17]、[18]將自注意力層與CNN相結合。同時,一些工作[19]、[20]使用純自注意力層替換卷積層。之后,兩種顯著的方法推動了CV任務的發展。一種是視覺Transformer(ViT)[21],它是一種純粹的Transformer,直接接收圖像塊序列來對整個圖像進行分類。它在多個圖像識別數據集上實現了最先進的性能。另一種是檢測Transformer(DETR)[22],它引入了對象查詢的概念。每個對象查詢表示一個實例。對象查詢取代了之前檢測框架中復雜的錨點設計,簡化了檢測和分割的流程。然后,隨后的工作在各種視覺任務上采用改進的設計,包括表示學習[23]、[24],對象檢測[25],分割[26],低級圖像處理[27],視頻理解[28],3D場景理解[29]以及圖像/視頻生成[30]。在視覺分割方面,最近的最先進方法都是基于變換器架構的。與基于CNN的方法相比,大多數基于變換器的方法具有更簡單的流程但更強大的性能。由于基于變換器的視覺模型的迅速興起,有關視覺變換器的調查有很多[31]、[32]、[33]。然而,其中大多數主要關注通用變換器設計及其在幾個特定視覺任務上的應用[34]、[35]、[36]。同時,還有關于基于深度學習的分割的先前調查[37]、[38]、[39]。然而,在我們所知范圍內,尚無專門針對使用視覺變換器進行視覺分割或基于查詢的對象檢測的調查。我們相信,總結這些工作并持續關注這個不斷發展的領域將對社區有益。貢獻。在本綜述中,我們系統地介紹了基于變換器的視覺分割方法的最近進展。我們從定義任務、數據集和基于CNN的方法開始,然后轉向基于Transformer的方法,涵蓋現有方法和未來工作方向。我們的調查從方法細節的更技術性的角度對現有的代表性工作進行了歸類。特別是,對于主要的綜述部分,我們首先在第3.1節中將現有方法的核心框架總結為一個元架構,這是DETR的擴展。通過改變元架構的組件,我們將現有方法分為六類,包括表示學習、解碼器中的交互設計、優化對象查詢、使用查詢進行關聯以及條件查詢生成。此外,我們還研究了密切相關的具體設置,包括點云分割、基礎模型調優、領域感知分割、數據/模型高效分割、類別不可知分割和跟蹤以及醫療分割。還評估了在頂級會議和期刊上發表的有影響力的作品在幾個廣泛使用的細分基準上的表現。此外,還提供了以前基于CNN的模型和其他領域的相關文獻的概述,如目標檢測,目標跟蹤,以及背景部分中的參考分割。范圍。本綜述將涵蓋幾個主流的分割任務,包括語義分割、實例分割、全景分割及其變體,如視頻和點云分割。此外,我們在第4節中介紹了相關的下游設置。本文專注于基于transformer的方法,只回顧了一些與cnn密切相關的方法,以供參考。雖然有很多預印本或已出版的作品,但我們只收錄最具代表性的作品。組織。調研的其余部分組織如下。總的來說,圖1顯示了我們調查的流程。在第2節中,首先介紹了問題定義、數據集和基于CNN的方法的背景知識。然后,回顧了第3節和第4節中關于基于transformer的分割方法的代表性論文。第5節對實驗結果進行了比較。最后,我們在第六節提出了未來的研究方向,并在第七節總結了本文的研究。2. 方法綜述****在本節中,基于類似DETR的元架構,回顧了基于transformer的分割的關鍵技術。如圖3所示,元架構包含一個特征提取器、對象查詢和transformer解碼器。然后,以元體系結構為主線,綜述了第3.2.1、3.2.2和3.2.3節中對元體系結構各個組成部分的修改或改進;最后,在3.2.4節和3.2.5節給出了基于這種元體系結構的幾個具體應用。
在本節中,我們從五個方面回顧了基于transformer的分割方法。我們的目標是提取文獻中使用的基本和常見的技術,而不是根據任務設置對文獻進行分類。我們在表3中總結了研究方法、技術、相關任務和相關文獻。大多數方法都基于3.1節中描述的元體系結構。我們將代表性作品的對比列于表4。
2.1 強表征
學習強大的特征表示總是可以得到更好的分割結果。以SS任務為例,SETR[202]是第一個用ViT骨干替換CNN骨干的。它在ADE20k數據集上取得了最先進的結果,沒有花哨的東西。在vit之后,研究人員開始設計更好的視覺transformer。將相關工作分為3個方面:更好的視覺transformer設計、混合cnn /transformers/MLPs和自監督學習。
2.2 解碼器中的交互設計
本節將回顧transformer解碼器的設計。將解碼器設計分為兩組:一組用于改進圖像分割中的交叉注意力設計,另一組用于視頻分割中的時空交叉注意力設計。前者側重于在原始的DETR中設計一個更好的解碼器來改進原始的解碼器。后者將基于查詢的目標檢測器和分割器擴展到視頻領域,用于VOD、VIS和VPS,重點是建模時間一致性和關聯。
3 優化對象查詢
與Faster-RCNN[111]相比,DETR[22]需要更長的收斂時間。由于對象查詢的重要作用,已有多種方法在加速訓練計劃和提高性能方面展開研究。根據對象查詢的方法,將以下文獻分為兩方面:添加位置信息和采用額外監督。位置信息提供了對查詢特征進行采樣的線索,以加快訓練速度。額外監督的重點是在DETR中設計特定的損失函數之外的默認損失函數。
使用查詢進行關聯
得益于查詢表示的簡單性,最近的一些工作將其作為關聯工具來解決下游任務。主要有兩種用法:一種用于實例級關聯,另一種用于任務級關聯。前者采用實例判別的思想,解決視頻中的實例匹配問題,如聯合分割和跟蹤。后者采用查詢鏈接特征的方式進行多任務學習。
條件返回查詢融合
除了使用對象查詢進行多任務預測外,一些工作還采用了跨模態和跨圖像任務的條件查詢設計。查詢是基于任務輸入的條件查詢,解碼器頭使用這樣的條件查詢來獲得相應的分割掩碼。根據不同輸入的來源,將這些工作分為兩方面:語言特征和圖像特征
4 相關的領域
在本節中,我們會回顧幾個采用視覺transformer進行分割任務的相關領域。這些領域包括點云分割、域感知分割、標簽和模型高效分割、類無關分割、跟蹤和醫療分割。我們在表5中列出了一些有代表性的作品進行比較。
點云分割
包括語義級點云分割,實例級點云分割
調優基礎模型
我們將這一部分分為兩個方面:視覺適配器設計和開放式詞匯學習。前者引入了新的方法,使預訓練的大規模基礎模型適應下游任務。后者試圖借助預訓練的視覺語言模型和在未見過的分割數據集上的零樣本知識遷移來檢測和分割未知物體。視覺適配器設計的核心思想是提取基礎模型的知識,并設計更好的方法來適應下游設置。對于開放詞匯表學習,核心思想是將預訓練的VLM特征與當前檢測器對齊,以實現新的類別分類。
領域感知分割
領域適應。無監督域適應(UDA)旨在在不獲取目標標簽的情況下,將用源(合成)域訓練的網絡適應到目標(真實)域[45][290]。UDA有兩種不同的設置,包括語義分割和目標檢測。在vit之前,之前的工作[291],[292]主要設計域不變的表示學習策略。DAFormer[250]用先進的transformer骨干[128]取代了過時的骨干,并提出了三種訓練策略,包括稀有類采樣、物類ImageNet特征損失和學習率預熱方法。它取得了新的最先進的結果,是UDA分割的強大基線。然后,HRDA[293]通過多分辨率訓練方法改進了DAFormer,并使用各種作物來保留精細的分割細節和長程上下文。受MIM[24]啟發,MIC[294]提出了掩碼圖像一致性,以學習目標域的空間上下文關系作為額外的線索。MIC通過一個師生框架來加強掩碼目標圖像和偽標簽預測之間的一致性。它是一個插件模塊,在各種UDA設置中進行驗證。對于UDA上的檢測transformer, SFA[251]發現CNN上的特征分布對齊帶來的改進有限。相反,它提出了一個基于域查詢的特征對齊和一個基于token的特征對齊模塊來增強。特別是,通過引入領域查詢來實現對齊,并在解碼器上執行領域分類。同時,DA-DETR[295]提出了一種混合注意力模塊(HAM),其中包含一個坐標注意力模塊和一個水平注意力模塊以及transformer編碼器。一個單一的域感知鑒別器監督HAM的輸出。MTTrans[296]提出了一個教師-學生框架和一個共享對象查詢策略。源域和目標域之間的圖像和對象特征在局部、全局和實例級別進行對齊。
Multi-Dataset分割。多數據集分割的目標是學習不同領域上通用的分割模型。MSeg[297]通過重新標記幾個現有的語義分割基準重新定義分類并對齊像素級注釋。然后,接下來的工作試圖通過各種方法來避免分類沖突。例如,Sentence-Seg[298]用向量值嵌入替換每個類標簽。嵌入由語言模型[15]生成。為了進一步處理不靈活的one-hot通用分類法,LMSeg[252]使用可學習標記[268]擴展了這種嵌入,并為每個數據集提出了特定于數據集的增強。它將MaskFormer[154]中的段查詢與SS和PS任務的類別嵌入動態對齊。同時,也有一些關于多數據集目標檢測[299]、[300]和多數據集全景分割[301]的工作。特別是,Detection-Hub[300]建議根據每個數據集類別的語言嵌入調整對象查詢。與之前對所有數據集的共享嵌入不同,它基于公共語言嵌入來學習每個數據集的語義偏差,以避免領域鴻溝。最近,TarVIS[302]為跨越多個基準的不同任務聯合預訓練一個視頻分割模型,其中將Mask2Former擴展到視頻領域,并采用統一的圖像數據集預訓練和視頻微調。
標簽和模型高效分割
類無關的分割和跟蹤
醫學圖像分割
CNN在醫學圖像分析方面取得了里程碑式的進展。特別是U型架構和跳躍連接[335],[336]被廣泛應用于各種醫學圖像分割任務。隨著ViTs的成功,最近的代表工作[260],[337]將視覺transformer納入U-Net架構并取得了更好的效果。TransUNet[260]合并了transformer和U-Net,其中transformer對標記化的圖像塊進行編碼以構建全局上下文。然后解碼器對編碼后的特征進行上采樣,再將其與高分辨率CNN特征圖相結合以實現精確定位。Swin-Unet[337]設計了一個對稱的Swin-like[23]解碼器來恢復精細的細節。TransFuse[261]以并行的方式結合transformer和CNN,其中可以有效地聯合捕獲全局依賴關系和低級空間細節。UNETR[338]專注于3D輸入醫學圖像,并設計了類似U-Net的架構。提取transformer中不同層的編碼表示,并通過跳躍連接與解碼器合并,以獲得最終的3D掩碼輸出。
5 基準測試結果
在本節中,我們報告了最近基于transformer的視覺分割,并列出了之前討論的算法的性能。對于每個審閱的領域,第5.1節和第5.3節選擇了使用最廣泛的數據集作為性能基準。我們使用相同的數據增強和特征提取器進一步對第5.2節中的幾個代表性作品進行了基準測試。請注意,我們僅列出已發表的工作供參考。為簡單起見,我們排除了一些關于表示學習的工作,只介紹了特定的分割方法。關于全面的方法比較,請參閱補充資料,提供了更詳細的分析。
6 未來方向
通用統一的圖像/視頻分割。使用Transformer來統一不同的分割任務是一種趨勢。最近的工作[26],[153],[162],[163],[246]使用基于查詢的transformer使用一個架構執行不同的分割任務。一個可能的研究方向是在各種分割數據集上僅通過一個模型來統一圖像和視頻分割任務。這些通用模型可以在各種場景中實現通用的、魯棒的分割,例如在各種場景中檢測和分割稀有類有助于機器人做出更好的決策。這些將在一些應用中更加實用和強大,包括機器人導航和自動駕駛汽車。
多模態聯合學習。由于缺乏歸納偏差,transformer在處理任何模式方面都是通用的。因此,使用Transformer來統一視覺和語言任務是一個大趨勢。分割任務提供像素級線索,這也可能有利于相關的視覺語言任務,包括文本-圖像檢索和標題生成[343]。最近的工作[224],[344]在一個通用的transformer架構中共同學習分割和視覺語言任務,這為結合跨多模態的分割學習提供了一個方向。
終身學習分割。現有的分割方法通常以具有一組預定義類別的封閉世界數據集為基準,即假設訓練和測試樣本具有相同的類別和事先已知的特征空間。然而,現實的場景通常是開放世界和非平穩的,其中新的類別可能連續出現[249],[345]。例如,在自動駕駛汽車和醫療診斷中,可能會意外地發生未見過的情況。現有方法在現實和封閉世界場景中的性能和能力之間存在明顯差距。因此,我們希望逐步不斷地將新穎的概念融入到現有的分割模型知識庫中,使模型具有終身學習的能力。
動態場景中的長視頻分割。長視頻帶來了幾個挑戰。現有的視頻分割方法旨在處理短視頻輸入,可能難以關聯較長時間的實例。因此,新的方法必須納入長期記憶設計,并在更長的時期內考慮實例的關聯。其次,在長時間內保持分割掩碼的一致性可能是困難的,特別是當實例在場景中移動時。這需要新的方法來合并時間一致性約束并隨時間更新分割掩碼。第三,長視頻中可能會出現嚴重的遮擋,使準確分割所有實例具有挑戰性。新的方法應該結合遮擋推理和檢測來提高分割精度。最后,長視頻輸入往往涉及多種場景輸入,給視頻分割模型帶來域魯棒性挑戰。新的方法必須結合域適應技術,以確保模型可以處理不同的場景輸入。簡而言之,解決這些挑戰需要開發新的長視頻分割模型,該模型結合了先進的內存設計、時間一致性約束、遮擋推理和檢測技術。
生成式分割。隨著更強大的生成模型的興起,最近的工作[346],[347]受擴散模型中更強的transformer解碼器和高分辨率表示的啟發,通過生成建模解決了圖像分割問題[348]。采用生成式設計,避免了transformer解碼器和對象查詢設計,使整個框架更加簡單。然而,這些生成模型通常會引入一個復雜訓練管道。進一步的研究需要更簡單的訓練管道。
使用視覺推理進行分割。視覺推理[349],[350]要求機器人理解場景中物體之間的聯系,這種理解在運動規劃中起著至關重要的作用。之前的研究探索了將分割結果作為視覺推理模型的輸入,用于各種應用,如目標跟蹤和場景理解。聯合分割和視覺推理可能是一個很有前途的方向,在分割和關系分類方面都有可能實現互利。通過將視覺推理融入分割過程,研究人員可以利用推理的力量來提高分割精度,而分割可以為視覺推理提供更好的輸入
7 結論
本綜述對基于Transformer的視覺分割的最新進展進行了全面的回顧,據我們所知,這是第一次。這篇論文涵蓋了基本的背景知識和transformer之前的工作概述,并總結了用于各種分割任務的120多個深度學習模型。最近的工作根據分割器的元架構分為六類。此外,回顧了5個密切相關的領域,并報告了幾種代表性的分割方法在廣泛使用的數據集上的結果。為了確保公平的比較,我們還在相同的設置下對幾個代表性作品進行了重新基準測試。最后,指出了基于transformer的視覺分割的未來研究方向。
知識增強的神經機器推理是一個前沿但具有挑戰性的研究領域,具有廣泛的實際應用。近年來,大量研究利用各種形式的外部知識來增強深度模型的推理能力,以應對有效的知識整合、隱式知識挖掘、可處理性和優化問題等挑戰。然而,缺乏對現有的跨不同應用領域的知識增強推理技術的全面技術綜述。**本文對該領域的最新進展進行了深入研究,提出了一種新的分類法,將現有的知識增強方法分為兩個主要類別和四個子類。**系統地討論了這些方法,并強調了它們的相關性、優勢和局限性。最后,闡述了當前的應用領域,并對未來的研究前景進行了展望。
//www.zhuanzhi.ai/paper/ae0d72adc5ba3100bd3bfbb71e244e2c
引言
**人工智能(AI)一詞誕生于上個世紀,其最終研究目標是制造一個能像人類一樣推理的智能系統,即感知現有證據,綜合與問題相關的信息,并推斷出新的知識來解決看不清的任務。**早期的人工智能研究以手工制作和邏輯規則為主,推理能力較強,但系統的可擴展性和泛化性較差。隨著深度神經網絡的發展,最先進的深度學習模型擅長從大量數據中提取特定任務的預測模式。為了進一步向人工通用智能(AGI)邁進,我們意識到當前的學習系統需要能夠在不同的任務中進行更深入和適應性的思考。具體而言,近年來人工智能研究出現了兩個主要趨勢: 1)超越模式識別,轉向邏輯推理,這與人類的互補學習策略(即思維系統I和II[25])相呼應; 2)從特定任務模型轉向通用智能,這需要利用外部知識13的能力。 **事實上,類人智能確實需要上述兩種趨勢之間的協同作用。為了獲得更強的決策和邏輯推理能力,人類需要理解和嵌入現有證據的邏輯過程。**另一方面,人類在現有知識的幫助下對任意(看不見的)任務做出預測或構建方法也是必不可少的。盡管有上述強烈的動機,但直到最近,由于近年來幾個關鍵領域的進步,在協同深度推理和知識增強方面的努力才出現爆炸式的快速增長。具體來說,快速發展的高性能計算基礎設施能夠構建超大型神經網絡(例如具有1750億個參數的GPT-3[6]),通過存儲在參數中的隱含知識固有地表現出推理能力。此外,最近發展的各種有組織和結構化的知識庫也可以提供豐富的外部信息,包括推理所需的一般知識和特定領域的知識。
**賦予深度模型推理能力具有挑戰性,但外部知識可能會提供一個良好的開端。然而,使用外部知識進行艱難的邏輯推理會使系統變得脆弱,因為它只依賴于演繹。另一方面,歸納推理是傳統深度學習的核心焦點。**因此,為這兩種方法開發一種“協同工作”技術是一個開放的研究問題,它帶來了幾個挑戰,包括但不限于:1)知識集成的困難。顯式知識,尤其是基于規則的知識,很難泛化,因為它可以是手工制作的或非常特定于某個領域。另一方面,規則結構的形成需要不同類型的集成(例如幾何嵌入)。從結構化的外部知識(如知識圖譜)中收集的事實可能是稀疏的,這可能會降低推理性能。此外,每個領域數據都有自己的隱藏特征。因此,外部知識需要具有領域自適應,才能進行適當的整合。在集成過程中,確定外部知識的權重會引發非常特定于任務的問題。由于有效邏輯不足、語義不佳、標記實例不足等原因,外部知識面臨稀缺問題。它也可以用隱藏的錯誤信息加以修飾,阻礙提取知識的過程。此外,廣義的外部知識給系統檢測和全面理解主觀知識和領域知識帶來了挑戰。2)外部知識與深度模型的銜接問題。為了將外部知識和深度模型結合起來,我們必須填補知識規則的離散性和深度模型的連續性之間的空白。這激發了兩個潛在的策略方向:一是使深度模型能夠查詢外部知識。但它會遇到檢索的挑戰。為了減少工作量和計算資源,會出現處理并行性、小批訓練性能差、內存重用等問題。另一種方法是將知識表示為嵌入參數或模型參數。然而,挑戰在于預訓練的參數模型可能會由于用于訓練這些模型的數據而引入偏差。此外,使用更大的模型需要大量的計算機能力。3)可處理性和優化方面的挑戰。深度學習中的邏輯推理涉及常見的方法,如使用規則作為額外的約束。但是使用規則作為約束會導致面向參數模型的非線性和非凸約束問題。另一種常用的方法是使用概率模型。但是采樣規則(例如學習廣義多跳規則集)是所有方法的共同特征。由于現實世界中的所有基本規則都是難以處理的,可處理性問題是每個問題表述的共同困難。此外,開發端到端可微框架是一項非常具有挑戰性的任務,這進一步導致了優化的挑戰。 **最近,大量的研究[34,15,64,73,63]致力于在各種知識來源的幫助下開發推理技術,以解決上述挑戰。**有大量的研究領域可以受益于知識增強的推理技術,從會話式AI開發中的常識推理到構建邏輯編程系統中的神經符號推理。然而,大多數現有的方法都是為特定的應用程序領域量身定制的,但它們的方法可能足夠通用,可以處理其他應用程序中的類似推理問題。此外,為一個實際應用開發的技術可能會使另一個應用的技術發展受益。然而,在服務于完全不同社區的不同應用程序領域之間交叉引用這些技術是具有挑戰性的。到目前為止,我們已經看到了一些研究[22,18,8]討論了特定應用領域的深度推理技術。不幸的是,我們仍然錯過了最新的知識增強深度推理技術的技術概述,這些技術跨越不同的知識來源和廣闊的應用領域。在知識增強的深度推理技術中,缺乏系統的總結和分類,這使得相關研究人員很難對現有的研究挑戰、尚未解決的問題和廣闊的未來研究方向有明確的信息。
為克服這些障礙并促進AGI的發展,本文對這個快速發展的主題——知識增強神經機器推理——的當前工作(2020年以后發表)進行了首次全面概述。本調查的主要貢獻總結如下:
對現有知識的第一個系統分類增強深度推理技術。根據外部知識的類型對現有技術進行了分類,并闡述了它們的形式化問題定義。總結了不同方法之間的關系和優缺點,以及每個子類別下的技術細節。
**對主要應用領域進行全面的分類和總結。**總結了現有知識增強神經機器推理技術的廣泛應用領域。應用領域的分類可以很容易地映射到所提出的技術分類,以便研究人員交叉引用不同的應用領域。
**對知識增強深度推理的現狀及其未來趨勢進行了深刻的討論。**在總結現有利用外部知識輔助深度推理技術的基礎上,概述了當前知識增強深度推理的研究前沿。最后討論了未來可能取得豐碩成果的研究方向。
我們提出了一種分類法來顯示不同推理技術中的知識利用,如圖1所示。對于基于知識的推理技術,重點研究了**1)數據中存儲的知識類型,2)知識的形成,3)知識的利用。**基于這三個標準,我們構建了分類法的三個層次
知識的顯性取決于組織、結構、解釋、可訪問性和現實世界的表示。這些屬性可以極大地有益于用于推理任務的技術。外部知識的種類繁多,促使我們將其主要分為兩類:顯性知識和隱性知識。我們分別在第3節和第4節詳細討論了這兩組技術。
基于隱性知識的推理
本節回顧了利用隱式知識解決推理任務的最新進展,其中相關知識以基本兩種形式隱式表示:大規模預訓練模型和記憶增強神經網絡。這兩種形式都依賴于潛在知識的參數。由于預訓練模型具有唯一的參數依賴性,因此必須全部導入,而記憶增強神經網絡中的半參數記憶可以從編碼的知識索引中進行操作。
基于顯性知識的推理
顯性或表達性知識是可以毫不費力地記錄、訪問和解釋的信息。顯性知識的本質是邏輯的、客觀的和結構化的。在過去的幾十年里,人們廣泛地從顯性知識庫中挖掘結構化知識以支持各種與推理相關的任務,包括知識圖譜和知識規則。這兩類知識清晰定義不同實體之間關系的能力引起了越來越多的共同興趣。圖被大量用于模型的輸入層,或者用于從原始數據中收集概念。但該規則具有靈活性,可以在表示層或推理層使用。在本節中,我們回顧了利用不同顯性知識形式的最新技術。
能夠可靠地執行算法計算的神經網絡可能對機器學習和理論計算機科學具有革命性的潛力。一方面,它們可以實現在深度學習模型中很少看到的那種外推泛化。另一方面,它們可以在以前認為不可訪問的輸入上運行經典算法。這兩個承諾都由神經算法推理藍圖指導,該藍圖最近在Petar Velickovic和Charles Blundell的立場論文中提出。理論上,這是一個非常優雅的對自然輸入進行推理的流程,它仔細地利用了深度神經網絡作為特征提取器的久經考驗的能力。實際上,我們到底走了多遠?在本教程中,我們旨在提供回答神經算法推理的三個關鍵問題所需的基礎:如何開發執行算法計算的神經網絡,如何在現實問題中部署這種神經網絡,以及如何深化其與經典算法的理論聯系。我們的教程將從頭開始,以一種具有基本計算機科學背景的任何人都可以訪問的方式。還將提供動手編碼片段,展示與會者如何在相關算法推理數據集(如CLRS)上直接發展他們在圖表示學習中的想法,然后在下游智能體中部署它們(如強化學習)。
參考文獻
Harris, TE. and Ross, FS. Fundamentals of a Method for Evaluating Rail Net Capacities. Project RAND Research Memorandum * Vlastelica, M., Paulus, A., Musil, V., Martius, G. and Rolínek, M. Differentiation of Blackbox Combinatorial Solvers. ICLR’20 * Hamrick, JB., Allen, KR., Bapst, V., Zhu, T., McKee, KR., Tenenbaum, JB. and Battaglia, PW. Relational inductive bias for physical construction in humans and machines. CogSci’18
在過去的幾年中,強化學習(RL)與深度學習的結合取得了快速的進展。從游戲到機器人的各種突破都激發了人們對設計復雜的RL算法和系統的興趣。然而,RL中普遍采用的工作流程是學習tabula rasa,這可能導致計算效率低下。這就妨礙了RL算法的持續部署,并可能排除沒有大規模計算資源的研究人員。在機器學習的許多其他領域,預訓練范式已被證明在獲取可遷移知識方面是有效的,可用于各種下游任務。最近,我們看到了對深度RL預訓練的興趣激增,結果很有希望。然而,許多研究都是基于不同的實驗設置。由于強化學習的性質,該領域的預訓練面臨著獨特的挑戰,因此需要新的設計原則。本文系統地回顧了深度強化學習預訓練方面的現有工作,對這些方法進行了分類,討論了每個子領域,并對開放問題和未來方向提出了關注。
//www.zhuanzhi.ai/paper/aad5ecc8e9b3ee704395b5de4af297d2
1. 概述
強化學習(RL)為順序決策提供了一種通用的數學形式主義(Sutton & Barto, 2018)。通過利用RL算法和深度神經網絡,不同領域的各種里程碑通過數據驅動的方式優化用戶指定的獎勵函數實現了超人的性能(Silver et al., 2016; Akkaya et al., 2019; Vinyals et al., 2019; Ye et al., 2020, 2020, 2022; Chen et al., 2021b)。正因為如此,我們最近看到了對這一研究方向越來越多的興趣。
然而,盡管RL已被證明在解決指定良好的任務時是有效的,但樣本效率(Jin et al.,2021)和泛化(Kirk et al.,2021)的問題仍然阻礙了它在現實世界問題中的應用。在強化學習研究中,一個標準的范式是讓智能體從自己或他人收集的經驗中學習,通常是在單個任務上,并通過隨機初始化tabula - rasa優化神經網絡。相比之下,對人類來說,關于世界的先驗知識對決策過程有很大幫助。如果任務與之前看到的任務相關,那么人類傾向于重用已經學習到的東西來快速適應新任務,而不需要從頭開始從詳盡的交互中學習。因此,與人類相比,RL智能體通常存在數據效率低下的問題(Kapturowski et al.,2022),并且容易出現過擬合(Zhang et al.,2018)。
然而,其他機器學習領域的最新進展積極倡導利用從大規模預訓練中構建的先驗知識。大型通用模型,也被稱為基礎模型(Bommasani et al., 2021),通過在大范圍數據上進行訓練,可以快速適應各種下游任務。這種訓練前-微調范式已被證明在計算機視覺等領域有效(Chen et al., 2020; He et al., 2020; Grill et al., 2020)和自然語言處理(Devlin et al., 2019; Brown et al., 2020)。然而,預訓練還沒有對RL領域產生顯著影響。盡管如此,大規模RL前訓練的設計原則面臨著來自多方面的挑戰: 1) 領域和任務的多樣性; 2)數據來源有限; 3) 快速適應解決下游任務的難度大。這些因素源于RL的性質,不可避免地需要加以考慮。
本研究旨在對當前深度強化學習預訓練的研究現狀進行概覽。在RL中有原則的預訓練有多種潛在的好處。首先,RL訓練產生的大量計算成本仍然是工業應用的障礙。例如,復現AlphaStar的結果(Vinyals等人,2019年)大約需要數百萬美元(Agarwal等人,2022年)。預訓練可以通過預訓練的世界模型(Sekar et al., 2020)或預訓練的表示(Schwarzer et al., 2021b)來改善這一問題,通過支持快速適應以零次或少次的方式解決任務。此外,眾所周知,RL是特定于任務和領域的。已有研究表明,使用大量任務無關數據進行預訓練可以增強這些類型的泛化(Lee et al.,2022)。最后,我們相信用適當的架構進行預訓練可以釋放擴展定律的力量(Kaplan等人,2020年),正如最近在游戲中的成功所顯示的那樣(Schwarzer et al., 2021b; Lee et al., 2022)。通過增加計算量,擴大通用模型的規模,我們能夠進一步取得超人的結果,正如“痛苦的教訓”(Sutton, 2019)所教導的那樣。
近年來,深度RL的預訓練取得了一些突破。在著名的AlphaGo中,通過專家演示,使用監督學習來預測專家采取的行動,進行了樸素的預訓練(Silver et al., 2016)。為了在較少的監督下進行大規模的預訓練,無監督強化學習領域近年來發展迅速(Burda等人,2019a;Laskin等人,2021),使智能體能夠在沒有獎勵信號的情況下從與環境的交互中學習。根據離線RL的最新進展(Levine等人,2020年),研究人員進一步考慮如何利用未標記和次優離線數據進行預訓練(Stooke等人,2021年;Schwarzer等人,2021b),我們稱之為離線預訓練。與任務無關的數據的離線范式進一步為通用預訓練鋪平了道路,其中來自不同任務和模式的不同數據集以及具有良好擴展特性的通用模型被組合起來構建通用模型(Reed et al., 2022; Lee et al., 2022)。預訓練有可能在強化學習中發揮重要作用,這項綜述可以作為對該方向感興趣的人的起點。在這篇論文中,我們試圖提供一個系統的回顧,現有的工作在深度強化學習的預訓練。據我們所知,這是系統研究深度RL預訓練的先驅努力之一。
本文根據RL預訓練的發展趨勢,對本文進行了如下組織。在學習了強化學習和預訓練(第2節)的初步內容之后,我們從在線預訓練開始,在在線預訓練中,智能體通過與沒有獎勵信號的環境的交互進行學習(第3節)。然后,我們考慮離線預訓練,即使用任何策略收集一次無標記訓練數據的場景(第4節)。在第5節中,我們討論了針對各種正交任務開發通才智能體的最新進展。我們進一步討論了如何適應下游RL任務(第6節)。最后,我們總結了本次綜述和一些展望(第7節)。
2. 在線預訓練
在RL之前的大多數成功都是基于密集且設計良好的獎勵功能。盡管傳統的RL范式在為特定任務提供優異表現方面發揮著首要作用,但在將其擴展到大規模的預訓練時,它面臨著兩個關鍵的挑戰。首先,眾所周知,RL智能體很容易過擬合(Zhang et al., 2018)。因此,用復雜的任務獎勵訓練的預訓練智能體很難泛化到未見過的任務規范。此外,設計獎勵函數仍然是一個實際的挑戰,這通常是昂貴的和需要專業知識。
沒有這些獎勵信號的在線預訓練可能是學習通用技能的一個很好的解決方案,并消除了監督要求。在線預訓練的目的是在沒有人為監督的情況下,通過與環境的交互獲得先驗知識。在預訓練階段,允許代理與環境進行長時間的交互,而不獲得外部獎勵。當環境是可訪問的,使用它可以促進技能學習,當任務被分配給智能體時,這些技能將非常有用。這種解決方案,也被稱為無監督RL,近年來得到了積極的研究(Burda等人,2019a;Srinivas & Abbeel, 2021年)。
為了鼓勵智能體在沒有任何監督的情況下建立自己的知識,我們需要有原則的機制為智能體提供內在動力。心理學家發現,嬰兒可以通過與環境的互動發現需要學習的任務以及這些任務的解決方案(Smith & Gasser, 2005)。隨著經驗的積累,他們能夠在以后完成更困難的任務。這激發了大量研究,研究如何建立具有內在獎勵的自學智能體(Schmidhuber, 1991;Singh等人,2004;Oudeyer等人,2007)。內在獎勵,與指定任務的外在獎勵相比,是指鼓勵智能體收集多樣化經驗或開發有用技能的一般學習信號。研究表明,一旦給出下游任務,用內在獎勵和標準強化學習算法對智能體進行預訓練,可以導致快速適應(Laskin等人,2021)。
3. 離線預訓練
盡管在線預訓練在沒有人工監督的情況下具有很好的學習效果,但在大規模應用中仍有局限性。最終,很難將在線交互與在大型和多樣化的數據集上進行訓練的需求協調起來(Levine, 2021)。為了解決這個問題,人們希望將數據收集和預訓練解耦,并直接利用從其他智能體或人類收集的歷史數據。一個可行的解決方案是離線強化學習(Lange et al., 2012;Levine et al., 2020),最近受到了關注。離線RL的目的是單純從離線數據中獲得一個最大化的策略。離線RL的一個基本挑戰是分布轉移,它指的是訓練數據和測試中看到的數據之間的分布差異。現有的離線RL方法主要關注如何在使用函數逼近時解決這一挑戰。例如,策略約束方法(Kumar等人,2019年;Siegel等人,2020)明確要求學習策略避免在數據集中采取看不見的操作。值正則化方法(Kumar et al., 2020)通過將值函數擬合到某些形式的下界,緩解了值函數的過高估計問題。然而,離線訓練的策略是否可以泛化到離線數據集中看不到的新上下文仍有待深入研究(Kirk等人,2021年)。
圖神經網絡(GNNs)是一種基于圖的深度學習模型,已成功應用于許多領域。盡管GNN具有一定的有效性,但GNN要有效地擴展到大型圖仍然是一個挑戰。作為一種補救措施,分布式計算能夠提供豐富的計算資源,成為訓練大規模GNN的一種很有前途的解決方案。然而,圖結構的依賴性增加了實現高效分布式GNN訓練的難度,這將受到海量通信和工作量不平衡的影響。近年來,人們在分布式GNN訓練方面做了很多工作,提出了一系列的訓練算法和系統。然而,從圖處理到分布式執行的優化技術還缺乏系統的綜述。本文分析了分布式GNN訓練中的三個主要挑戰,即大量特征通信、模型精度損失和工作負載不平衡。然后,我們介紹了分布式GNN訓練優化技術的一種新的分類法,以解決上述挑戰。新的分類法將現有技術分為四類:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。我們仔細討論了每個類別中的技術。最后,我們分別總結了現有的多GPU、GPU集群和CPU集群分布式GNN系統,并對可擴展GNN的未來發展方向進行了討論。
//www.zhuanzhi.ai/paper/f714e263f8583bad283b4dcbc85a2aa5
1. 概述
圖神經網絡(GNN)是處理圖建模問題的強大工具,已被廣泛應用于各種應用中,包括社交網絡(如社交垃圾郵件檢測[87,112],社會網絡分析[91]),生物信息學(如蛋白質界面預測[35],疾病-基因關聯[83]),藥物發現[11,66],流量預測[61],醫療保健[2,21],推薦[32,49,55,111],自然語言處理[134,145]和其他[26,85,133,141,144]。通過將圖結構信息融入到深度學習模型中,GNNs可以取得明顯優于傳統機器學習和數據挖掘方法的效果。GNN模型通常包含多圖卷積層,其中每個頂點聚合其鄰居的最新狀態,更新頂點的狀態,并對更新的頂點狀態應用神經網絡(即轉換)。以傳統的圖卷積網絡(GCN)為例,在每一層中,頂點使用求和函數聚合相鄰的狀態和自己的狀態,然后應用單層MLP轉換新狀態。如果層數為??,這樣的過程重復??次。在??th層中生成的頂點狀態供下游任務使用,如節點分類、鏈接預測等。近年來,許多研究工作在圖神經網絡模型的設計方面取得了顯著進展。著名的模型包括GCN[108]、GraphSAGE[46]、GAT[95]、GIN[118]和許多其他特定于應用程序的GNN模型[128,130]。到目前為止,已有數十篇綜述綜述了GNN模型[114,116,135,147]。另一方面,為了高效地開發不同的GNN模型,基于各種深度學習庫提出了許多面向GNN的框架[8,14,34,44,68,104]。許多新的優化被提出來加速GNN訓練,包括GNN計算內核[19,38,52,53,81,93,129],高效的編程模型[51,113,117],以及充分利用新硬件[18,42,124,148]。然而,這些框架和優化主要集中在單個機器上訓練GNN,而沒有過多關注輸入圖的可擴展性。
如今,大規模圖神經網絡[62,70]由于大規模大圖數據的普遍存在而成為一個熱門話題。擁有數十億個頂點和數萬億條邊的圖形是很常見的,比如新浪微博、微信、Twitter和Facebook等社交網絡。然而,現有的大多數GNN模型只在小圖數據集上進行測試,無法處理大圖數據集[50]或效率低下。這是因為之前的GNN模型比較復雜,在處理大型圖時需要大量的計算資源。通過設計可擴展的GNN模型,實現了大規模的圖神經網絡。他們使用簡化[36,47,110],量化[4,33,54,71,90,100,101,107,139],取樣[20,123,125]和蒸餾[24,121,131]來設計高效的模型。另一種方法是將分布式計算應用于GNN訓練。因為在處理大型圖形時,單個設備(如GPU)有限的內存和計算資源成為大規模GNN訓練的瓶頸,而分布式計算提供更多的計算資源(如多GPU、CPU集群等)來提高訓練效率。在設計高效的分布式GNN訓練框架(如PipeGCN [99], BNS-GCN[98])和分布式GNN訓練系統(如AliGraph [150], DistDGL [142], ROC[58])方面已經做出了許多努力。在這個調查中,我們關注的工作與分布式計算的大圖神經網絡,又稱分布式GNN訓練。它將整個模型訓練的工作量分配給一組工人,所有工人并行處理工作量。然而,由于GNN的數據依賴性,將現有的分布式機器學習方法[96,103]應用于GNN并非易事,許多新的技術被提出來優化分布式GNN的訓練管道。盡管有很多關于GNN模型的調查[114,135,147],但據我們所知,很少有人系統地回顧分布式GNN訓練的技術。最近,Besta等[9]只回顧了GNN的并行計算范式,Abadal[1]從算法到硬件加速器考察了GNN計算。
為了清晰地組織分布式GNN訓練的技術,我們介紹了一種通用的分布式GNN訓練管道,該管道由數據劃分、GNN模型優化和梯度聚合三個階段組成。前兩個階段涉及GNN特定的執行邏輯,包括圖處理和圖聚合。最后一個階段與傳統的分布式機器學習相同。在這個通用分布式GNN訓練管道的背景下,我們討論了分布式GNN訓練的三個主要挑戰,這些挑戰是由圖數據中的數據依賴性引起的,需要新的分布式GNN特定技術。為了幫助讀者更好地理解解決上述挑戰的各種優化技術,我們介紹了一種新的分類法,將這些技術分為四個正交的類別:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。該分類法不僅涵蓋了小批分布式GNN訓練和全圖分布式GNN訓練中使用的優化技術,而且還討論了從圖處理到模型執行的技術。我們仔細回顧了每個類別中的現有技術,然后描述了23個來自業界或學術界的代表性分布式GNN系統和框架。最后,簡要討論了分布式GNN訓練的未來發展方向。
這項綜述的貢獻如下:
這是第一個專注于高效分布式GNN訓練優化技術的綜述,它幫助研究人員快速了解分布式GNN訓練的現狀。
通過考慮端到端分布式GNN訓練的生命周期,我們引入了分布式GNN訓練技術的一種新的分類法。在高層次上,新的分類法由四個正交類別組成,分別是GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。
我們為新分類法中的每個類別提供了詳細和全面的技術總結。
我們回顧了23個具有代表性的分布式GNN訓練系統和框架,從工業界到學術界。
討論分布式GNN訓練的未來發展方向。
2. 分布式GNN訓練和挑戰
為了更好地理解端到端分布式GNN訓練的一般工作流程,我們將訓練管道分為數據劃分、GNN模型優化和梯度聚合三個階段。圖1可視化了端到端分布式GNN訓練工作流的高級抽象。
數據分區。這是一個支持分布式訓練的預處理階段。它將輸入數據(即圖和特征)分布到一組工作者中。考慮到GNN訓練數據的依賴性,數據劃分階段比傳統分布式機器學習中的數據劃分階段更加復雜。如圖1所示,分區數據(即子圖)之間的跨工作者邊暗示了數據依賴性。如果我們承認分區之間的數據依賴性,分布式訓練效率會因通信而降低;如果我們簡單地忽略數據依賴性,模型的準確性就會被破壞。因此,數據分區是端到端分布式GNN訓練效率的關鍵階段。
GNN模型優化。這是分布式GNN訓練的核心階段,執行GNN模型的訓練邏輯(即前向計算和后向計算)。我們進一步將這一階段分為計算圖生成、執行模型和通信協議。首先,每個worker根據分塊的輸入圖和特征生成計算圖,然后用計算圖執行GNN模型,計算損失和梯度。但由于數據的依賴性,計算圖的生成和GNN模型的執行與傳統的深度學習模型有很大的不同。在不訪問遠程輸入數據的情況下,小批量訓練策略的計算圖可能無法正確生成。執行模型涉及GNN模型的??-layer圖聚合,聚合呈現不規則的數據訪問模式。在分布式全圖訓練中,每一層的圖聚合需要通過通信協議訪問頂點遠程鄰居的隱藏特征,還需要考慮層與層之間的同步模式。因此,與傳統的分布式機器學習相比,由于GNN的數據依賴性,計算圖的生成和模型的執行變得更加復雜。
梯度聚合。該階段負責聚合最新的局部梯度,獲得全局梯度,更新模型參數。在GNN環境下,模型規模通常較小,模型更新邏輯與其他機器學習模型相同。經典分布式機器學習中已有的梯度聚合技術可以直接應用于分布式GNN訓練。
為了解決上述問題,實現分布式GNN訓練并優化訓練效率,近年來提出了許多新的技術。大多數現有的工作都是從系統或框架的角度來展示他們自己的技術貢獻,而沒有從技術的角度來很好地回顧相關的工作。本文介紹了一種新的分類法,以端到端分布式訓練管道中的階段為基礎,組織分布式gnn特定技術。通過這樣的設計,我們將分布式GNN訓練管道中相同階段的相似技術組織在一起,幫助讀者充分理解分布式GNN訓練中不同階段的現有解決方案。根據以往的實證研究,由于數據依賴性,分布式GNN訓練的瓶頸一般出現在數據分區和在建的GNN模型優化階段,而針對GNN的新技術就在這兩個階段。此外,不同的訓練策略(如小批量訓練、全圖訓練)帶來不同的工作負載模式,導致模型優化中使用不同的優化技術。例如,模型優化階段的計算圖生成對于小批訓練很重要,而通信協議對于全圖訓練很重要。因此,我們的新分類法將特定于分布式GNN的技術分為四類(即GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議),如圖2所示。下面,我們將介紹每個類別的概述。
3. GNN數據分區****
在本節中,我們回顧了分布式GNN訓練中現有的GNN數據分區技術。圖3描述了這些技術的概述。考慮到圖和特征是GNN中兩種典型的數據類型,我們將劃分方法分為圖劃分和特征劃分。優化目標是工作量平衡、通信和計算最小化,旨在解決挑戰#1和#3。此外,成本模型是捕獲GNN工作負載特征的另一個關鍵組件。在下面,我們首先提出了代價模型,然后分別討論了圖劃分和特征劃分。
4 GNN批量生成
小批GNN訓練是將GNN擴展為大型圖的常用方法。圖采樣實際上是在獨立模式下生成小批量的工具。到目前為止,已經提出了許多基于采樣的圖神經網絡[17,23,46,56,125,151],根據采樣方法的不同類型,可以分為頂點采樣、層采樣和子圖采樣。不同的批生成方法會影響訓練效率和訓練精度。為了避免圖采樣成為瓶頸,人們對高效GNN數據加載器進行了一些探索[5,25,27,76]。在小批分布式GNN訓練中,數據依賴性為批生成過程帶來了大量的通信。為了提高分布式環境下的訓練效率,針對分布式訓練提出了幾種新的GNN批生成技術,并解決了挑戰#1和挑戰#2。如圖4所示,一種解決方案是通過分布式抽樣生成小批處理,另一種是直接使用本地分區(或子圖)作為小批處理。
5. GNN執行模型
圖1中的GNN模型優化階段包括計算圖生成和計算圖執行兩個子階段。執行模型負責對子階段的操作進行調度,以達到較高的訓練效率。這兩個子階段針對不同的訓練范式有不同的運算符。在分布式小批訓練中,采樣和特征提取操作影響訓練效率,計算圖生成成本高。而對于分布式全圖訓練,由于工作者之間的數據依賴性,計算圖的執行比較復雜。下面,我們分別討論了計算圖生成和計算圖執行的執行模型。
6 結論
分布式GNN訓練是將GNN模型擴展到大圖的成功方法之一。在本綜述中,我們系統地回顧了現有的分布式GNN訓練技術,從圖數據處理到分布式模型執行,涵蓋了端到端分布式GNN訓練的生命周期。我們將分布式GNN訓練管道分為三個階段,其中數據劃分階段和GNN模型優化階段是影響GNN訓練效率的兩個關鍵階段。為了清晰地組織優化這兩個關鍵階段的新技術貢獻,我們提出了一個新的分類法,由四個正交的類別組成:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。在GNN數據分區類別中,我們描述了用于分布式GNN訓練的數據分區技術;在GNN批生成類中,我們提出了用于小批分布式GNN訓練的快速GNN批生成技術;在GNN執行模型方面,討論了計算圖生成和計算圖執行所使用的執行模型;在GNN通信協議類別中,我們討論了分布式GNN訓練的同步和異步協議。在仔細回顧了這四類技術之后,我們分別總結了現有代表性的多GPU分布式GNN系統、GPU集群分布式GNN系統和CPU集群分布式GNN系統,并對未來優化大規模GNN訓練的方向進行了討論。
盡管深度神經網絡(DNNs)在許多領域都表現出了強大的解決大規模問題的能力,但這種具有大量參數的DNNs很難部署在實時系統中。為了解決這個問題,教師-學生體系結構首先被用于知識蒸餾,其中簡單的學生網絡可以實現與深度教師網絡相當的性能。近年來,師生體系結構在各種知識學習目標上得到了有效和廣泛的應用,包括知識蒸餾、知識擴展、知識適應和多任務學習。在師生體系結構的幫助下,目前的研究能夠通過輕量級和有效的學生網絡實現多種知識學習目標。與現有的知識蒸餾綜述不同,該綜述詳細討論了具有多個知識學習目標的師生體系結構。此外,我們系統地介紹了知識學習過程中的知識構建和優化過程,然后分析了各種師生架構和有效的學習方案,以學習具有代表性和魯棒性的知識。本文還總結了基于不同目的(即分類、識別和生成)的師生體系結構的最新應用。最后,分別從師生架構設計、知識質量和回歸學習理論研究三個方面探討了知識學習的潛在研究方向。通過這個全面的綜述,行業從業者和學術界都可以了解到關于多個知識學習目標的師生架構的有見地的指導方針。 //arxiv.org/abs/2210.17332
1. 概述
深度神經網絡(DNNs)在許多領域都取得了成功,如計算機視覺1、通信系統[2]和自然語言處理(NLP)[3]等。具體地說,為了滿足大規模任務中的魯棒性能,dnn通常使用復雜的體系結構進行過度參數化。然而,這種繁瑣的模型同時需要大量的訓練時間和計算成本,這對在邊緣設備和實時系統中部署這些模型提出了重大挑戰。為了加速訓練過程,Hinton等人[4]首先提出了知識蒸餾來訓練輕量級模型,以達到與深度模型相當的性能,這是通過將信息知識從一個計算成本高的大型模型(即教師模型)壓縮到一個計算效率高的小型模型(即學生模型)來實現的。使用這樣的師生體系結構,可以在教師模型的監督下訓練學生模型。在學生模型的訓練過程中,學生模型不僅要盡可能接近地預測ground truth標簽,而且要匹配教師模型的軟化標簽分布。因此,壓縮后的學生模型能夠獲得與繁瑣的教師模型相當的性能,并且可以有效地部署在實時應用程序和邊緣設備中。
師生架構在模型壓縮的知識蒸餾中得到了廣泛的應用,[5],[6],[7]的一些綜述總結了近年來基于師生架構的各種知識蒸餾技術的進展。具體來說,Gou等人從以下角度對知識蒸餾進行了全面調查:知識類型、蒸餾方案和師生架構。Wang等人[6]對CV應用中的師生架構知識蒸餾提供了系統的概述和見解。Alkhulaifi等人[7]總結了多種蒸餾指標來比較不同蒸餾方法的性能。但是,上述綜述并沒有討論在蒸餾過程中的知識構建和優化,知識類型和優化目標是為學生學習提供信息性知識的重要因素。此外,現有的調查也沒有介紹知識蒸餾在各種應用場景下的目的。
與知識蒸餾不同的是,師生體系結構在知識擴展、知識適應、多任務學習等其他知識學習目標上得到了有效和廣泛的應用。在師生體系結構的幫助下,我們能夠通過輕量級和有效的學生網絡實現多種知識學習目標。隨著模型能力的增強和訓練環境的困難,學生網絡可以從教師網絡中學習擴展的知識,使學生能夠在更復雜的任務中取得比教師更好的表現和泛化能力[8]、[9]、[10]。在知識適應中,學生網絡在一個或多個目標域上進行訓練,教師網絡的適應知識在源域[11]、[12]上進行訓練。此外,構建多任務學生網絡,在多個專業教師網絡的監督下學習更多的通用特征表示,使這種通用學生網絡可以有效地應用于多個任務[13]。
因此,本綜述提供了一個全面和深刻的指南,關于知識學習的師生架構。不同于現有的知識蒸餾[5]、[6]、[7]的綜述,本文首先介紹了針對多個知識學習目標(包括知識蒸餾、知識擴展、知識適應和多任務學習)的師生架構,然后討論了知識構建和優化過程。此外,我們系統地總結了各種師生體系結構和學習方案,可用于學習具有代表性和魯棒性的知識。本文還從分類、識別和生成等不同目的的角度討論了師生體系結構的最新應用。最后,分別從師生架構設計、知識質量和基于回歸學習的理論研究三個方面探討了知識學習的潛在研究方向。本次綜述的總體分類框架如圖1所示。這項綜述的主要貢獻可以總結如下。
與現有的知識蒸餾綜述不同,我們介紹了針對多個知識學習目標的師生架構,包括知識蒸餾、知識擴展、知識適應和多任務學習。
我們對知識學習過程中的知識形成進行了詳細的回顧,包括知識的構建和優化。
我們基于不同的目的總結了師生體系結構的最新應用,包括分類、識別和生成。
討論了知識學習的研究方向,包括師生架構設計、知識質量和基于回歸學習的理論研究
第二節描述了針對不同學習目標的師生架構,包括知識蒸餾、知識擴展、知識適應和多任務學習。第三部分介紹了在學習過程中知識是如何構建和優化的。第4節分別討論了單個和多個教師網絡的各種學生網絡;第五部分進一步介紹了師生網絡的在線學習和自學方案。第6節總結了針對不同目的的師生體系結構的最新應用。未來的工作和結論將分別在第7節和第8節中得出。
2. 學習目標
2.1 知識蒸餾
知識蒸餾專注于訓練學生模型,使用來自更大規模的教師模型的預測。知識蒸餾的目的是擁有一個緊湊的學生模型,同時保持與教師模型相當的性能。Hinton等[4]首先提出將知識從多個模型中提取到單個學生模型中,以完成模型壓縮和遷移學習的任務。Tang等[14]將BERT[15]壓縮為非常輕量級的Bi-LSTM[16],用于自然語言處理任務。Romero等人[17]認為,深度神經網絡的成功在很大程度上歸功于深度層次結構。因此,他們建議將寬的(每層有大量的神經元)和深的教師模型壓縮成更窄的(每層神經元更少)和更深的學生模型。Yim等人[18]將學生和教師的體系結構設計為n部分模塊,其中每個模塊包含不同數量的卷積層。學生模型一般有比較簡單的設計,學生的任務是學習老師每一層的輸出。
2.2 知識擴展
知識擴展與知識蒸餾的不同之處在于,它不是將大的教師模型壓縮成一個更小的學生模型,而是側重于訓練一個比教師模型具有更好的泛化性和性能的學生模型。學生模型的容量與教師模型相同或更大。
2.3 知識適應
在[11]中,教師模型監控學生的學習進度,并決定每個學生應該進行哪些任務的訓練。一般來說,學生應該接受訓練,以使他的表現得到最大的提高。但為了防止災難性遺忘[25],應該對學生進行成績下降的任務訓練。
2.4 多任務學習
師生訓練模式在各個領域都得到了驗證。然而,適應多任務環境仍然具有挑戰性。Ghiasi等[13]提出了一種多任務自訓練(MuST)策略,該策略使用多個獨立的教師模型來訓練一個多任務學生模型。特別地,它們采用了四個教師模型,每個模型負責對四個不同的數據集進行分類、檢測、分割和深度估計。經過訓練后,這些教師模型用于為更大的數據集生成四種類型的偽標簽。然后用四種類型的偽標簽在數據集中訓練學生模型。
3 知識形式化
Hinton等人[4]提出了一種方法,通過迫使學生網絡學習產生軟化的softmax輸出以及預測樣本標簽,將集成深度網絡壓縮到具有類似深度的學生網絡中。軟化的softmax引入一個溫度τ來表示來自教師網絡的豐富信息。該方法成功地將復雜教師網絡的泛化能力轉移到小型學生模型上。 在知識優化中,知識蒸餾的優化目標通常由3部分組成:正則交叉熵(regular cross entropy, LCE)項、Kullback-Leibler (Kullback-Leibler, KL)散度(divergence, LKL)項和距離(distance, LD)項。
4 師生架構
5 學習方案****5.1在線學習表3從教師和學生的學習狀態以及各自的角色狀態對不同的學習方案進行了比較。經典的學習方案是離線學習[4],它表示學生網絡從預先訓練好的教師網絡中學習遷移的知識。具體來說,強大的教師網絡首先在大規模數據集上得到完全良好的訓練,然后將知識轉移到指導緊湊學生網絡的訓練。在學生訓練過程中,教師和學生網絡的角色沒有交換。需要注意的是,線下學習不包括在這份調查報告的范圍內,我們建議讀者參考現有的關于線下學習[5]、[7]的全面綜述。
5.2 自主學習
自學方案是在線學習的一種特殊方案。與經典的在線學習方法不同的是,在迭代學習過程中,學生網絡和教師網絡的角色是動態的,這說明在自主學習方案中,學生網絡和教師網絡可以相互交換,或者學生網絡可以從自己身上學習知識(即無教師知識學習)。
6 應用
本節介紹知識學習的應用。知識學習應用于深度學習的各個應用領域,如計算機視覺、自然語言處理、模型壓縮、推薦系統等。我們根據網絡框架對知識學習的應用進行分類,可分為分類、識別和生成體系結構。分類體系結構是指輸出層最常用的直接對圖像進行分類的方法。識別體系結構是指從圖像中提取關鍵信息的基礎。它包括人臉識別、物體檢測、動作識別、醫學圖像識別等。生成體系結構包括文本、語音和圖像合成。
基于神經體系結構的推薦系統近年來取得了巨大的成功。但是,在處理高度稀疏的數據時,仍然達不到預期。自監督學習(Self-supervised learning, SSL)作為一種利用無標記數據進行學習的新興技術,近年來受到了廣泛的關注。也有越來越多的研究將SSL應用到推薦中,以緩解數據稀疏問題。本綜述對自監督推薦(SSR)的研究成果進行了及時、系統的回顧。在此基礎上,我們建立了一個完整的SSR分類體系,將現有的SSR方法分為四大類: 對比型(contrast)、生成型(generative)、預測性(predictive)和混合型(hybrid)。同時,為了促進SSR模型的開發和評估,我們發布了一個開源庫SELFRec,它包含了多個基準數據集和評估指標,并實施了一些最先進的SSR模型進行實證比較。最后,指出了當前研究的局限性,并提出了未來的研究方向。
引言
推薦系統[1]是一個可以發現用戶潛在興趣并簡化決策過程的工具,已經廣泛應用于各種在線電子商務平臺,在創造愉快的用戶體驗的同時增加收入。近年來,現代推薦系統[2]、[3]、[4]在具有高度表達能力的深度神經架構的支持下取得了巨大的成功,并取得了無與倫比的性能。然而,深度推薦模型天生就需要數據。要利用深度架構,需要大量的訓練數據。與眾包的圖像標注不同,推薦系統中的數據獲取成本較高,個性化推薦依賴于用戶自己生成的數據,而大多數用戶通常只能消費/點擊無數項[5]中的一小部分。因此,數據稀疏性問題成為深度推薦模型實現其最大潛力[6]的瓶頸。
自監督學習(Self-supervised learning, SSL)[7]作為一種學習范式,可以減少對手工標簽的依賴,并能對大量未標記數據進行訓練,最近受到了廣泛的關注。SSL的基本思想是通過精心設計的前置任務(即自監督任務)從豐富的無標記數據中提取信息豐富、可轉移的知識,其中監督信號是半自動生成的。由于普遍的能力克服標簽不足問題,SSL已經應用于廣泛的領域包括可視化表示學習[8],[9],[10],語言模型訓練的“[11],[12],音頻學習[13],表示節點/圖分類[14],[15],等等,它已被證明是一個強大的技術。由于SSL的原則與推薦系統對更多注釋數據的需求很好地匹配,受SSL在上述領域的巨大成功的推動,現在有大量且不斷增長的研究正在將SSL應用到推薦中。
自監督推薦(SSR)的早期原型可以追溯到非監督推薦方法,如基于自動編碼器的推薦模型[16]、[17],它們依靠不同的被破壞的數據來重構原始輸入以避免過擬合。隨后出現了基于網絡嵌入的推薦模型[18],[19],其中利用隨機行走接近度作為自監督信號,捕捉用戶與物品之間的相似性。在同一時期,一些基于生成式對抗網絡20的推薦模型[21]、[22]可以看作是SSR的另一種體現,它們增強了用戶-物品交互。2018年,在預訓練語言模型BERT[12]取得巨大突破后,SSL作為一個獨立的概念進入人們的視野。隨后,推薦社區開始接受SSL,隨后的研究[23],[24],[25]將注意力轉移到基于順序數據的Cloze-like任務的預訓練推薦模型上。自2020年以來,SSL經歷了一段繁榮時期,最新的基于SSL的方法在許多CV和NLP任務[9],[26]中幾乎與監督的同行表現相當。特別是,對比學習(CL)[27]的復興顯著地推動了SSL的前沿。與此同時,[28],[29],[30],[31],[32],[33]也掀起了對SSR的狂熱。SSR的模式變得多樣化,場景不再局限于序列推薦。
自監督推薦方法體系
雖然在CV、NLP[34]、[7]和圖學習[35]、[36]、[37]等領域對SSL進行了一些綜述,但在論文數量快速增長的情況下,對SSR的研究還沒有進行系統的綜述。與上述領域不同的是,推薦涉及到大量優化目標不同的場景,并處理多種類型的數據,因此很難將為CV、NLP和圖任務設計的現成SSL方法完美地推廣到推薦中。因此,它為新型SSL提供了土壤。同時,高偏數據分布[38]、廣泛觀察的偏差[39]、推薦系統特有的大詞匯量類別特征[40]等問題也催生了一系列獨特的SSR方法,豐富了SSL族。隨著SSR研究的日益普及,迫切需要對其進行及時、系統的綜述,總結已有的SSR研究成果,探討現有SSR研究成果的優勢和不足,以促進未來SSR研究的發展。為此,我們提出了一個最新的和全面的回顧SSR的前沿。總之,我們的貢獻有四方面:
我們調研了廣泛的SSR方法,以涵蓋盡可能多的相關論文。據我們所知,這是第一次針對這個新話題的綜述。
我們提供了對SSR的獨家定義,并澄清了其與相關概念的聯系。在此基礎上,我們提出了一個綜合的分類方法,將現有的SSR方法分為四大類:對比型、生成型、預測型和雜交型。對于每一個類別,敘述都沿著其概念和提法、涉及的方法及其利弊展開。我們相信,定義和分類為開發和定制新的SSR方法提供了清晰的設計空間。
我們引入了一個開源庫,以促進SSR模型的實現和評估。它整合了多個基準數據集和評估指標,并實現了10+最先進的SSR方法進行實證比較。
我們闡明了現有研究的局限性,并確定了剩余的挑戰和未來發展SSR的方向。