亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在過去的十年中,許多深度學習模型在機器智能的各個領域得到了良好的訓練并取得了巨大的成功,特別是在計算機視覺和自然語言處理方面。為了更好地利用這些訓練有素的模型在域內或跨域遷移學習情況下的潛力,知識蒸餾(KD)和域自適應(DA)被提出并成為研究熱點。它們的目的都是利用原始的訓練數據從訓練有素的模型中傳遞有用的信息。然而,在許多情況下,由于隱私、版權或機密性,原始數據并不總是可用的。最近,無數據知識遷移范式引起了人們的關注,因為它處理的是從訓練有素的模型中提取有價值的知識,而不需要訪問訓練數據。它主要包括無數據知識蒸餾(DFKD)和無源數據領域適應(SFDA)。一方面,DFKD的目標是將原始數據的域內知識從一個繁瑣的教師網絡轉移到一個緊湊的學生網絡中,進行模型壓縮和高效推理。另一方面,SFDA的目標是重用存儲在經過良好訓練的源模型中的跨領域知識,并使其適應于目標領域。本文從知識蒸餾和無監督領域適應的角度對無數據知識遷移的研究進行了全面的綜述,以幫助讀者更好地了解目前的研究現狀和思路。本文將分別簡要回顧這兩個領域的應用和挑戰。在此基礎上,對未來的研究提出了一些看法。

圖1. 知識蒸餾(KD)和無監督領域自適應(UDA)綜述

隨著深度學習的復興,深度神經網絡(DNN)在人工智能的各個領域取得了顯著的進展,包括計算機視覺(CV)[1]和自然語言處理(NLP)[2]。特別是計算機視覺領域已經開發了大量深度卷積神經網絡的應用(如圖像分類[3]、目標檢測[4]、語義分割[5]等),極大地促進了深度學習的繁榮。從LeNet[6]、AlexNet[1]到ResNet[7]和DenseNet[8],深度神經網絡的顯著成功主要依賴于超參數化的架構和大規模標注的訓練數據。在實踐中,DNN的應用可能面臨兩個問題:1)笨重的模型不可能部署在存儲和計算能力有限的移動設備上,如自動駕駛汽車[9]和實時人臉識別系統[10]; 2) 由于標注成本過高,整個標注數據集無法用于訓練,例如用于語義分割的像素級標注。

圖2. 無數據知識蒸餾(DFKD)和無源領域適應(SFDA)概述

為了解決模型的深度部署問題,對[11]模型進行壓縮以降低存儲和計算成本,包括剪枝[12]、量化[13]和知識蒸餾[14]。知識蒸餾(Knowledge精餾,KD)[14]是一種流行的模型壓縮方法,它將有價值的信息從一個繁瑣的教師網絡傳輸到一個緊湊的學生網絡中。作為如圖1(a)所示的通用師生知識傳遞框架,它可以與其他模型壓縮方法相結合,無需進行任何具體設計[15],[16]。學生網絡以訓練數據為輸入,模擬訓練良好的教師網絡,與人類的學習方案非常相似。大多數的蒸餾方法都是從教師網絡的中間特征圖或預測中提取和傳遞知識。在模型壓縮方面,近年來知識蒸餾技術的快速發展對半監督學習[17]、[18]、增量學習[19]、[20]、隱私保護[21]、[22]等產生了巨大的影響。

圖3. 2016 - 2021年無數據知識遷移工作發展

除了繁瑣的網絡架構外,大規模數據集的高成本標注也限制了深度學習的應用。例如,手動注釋cityscape[23]圖像進行語義分割需要大約90分鐘。解決這個問題的一種直觀的方法是,利用來自相關領域(源領域)的特定知識來研究被考慮的目標領域,這是受到人類研究能力的啟發。領域自適應[24]是一種很有前途的遷移學習范式,如圖1(b)所示。它旨在將知識從源領域轉移到目標領域,避免了勞動密集型的數據注釋。根據目標域數據的標注率,可以將域自適應進一步分為無監督域自適應、半監督域自適應和弱監督域自適應。實際上,只有UDA方法完全避免了標注的代價,本文主要考慮的是UDA的設置。

綜上所述,知識蒸餾和領域自適應是將有價值的知識從訓練良好的深度神經網絡遷移到域內或跨域網絡的兩個主要研究課題。上述方法都是基于數據驅動的,并依賴于原始數據或源數據可訪問的前提下進行蒸餾或域適應。然而,由于隱私或版權的原因,在很多實際案例中,原始的訓練數據是不可用的。例如,一些知名社區[26]-[29]發布了大量的預訓練的深度學習模型[4]、[5]、[7]、[25]。但并不是所有的訓練數據都可以用于壓縮或使其適應新的領域。此外,醫療或面部數據是公共或第三方機構無法訪問的,因為它涉及到患者或用戶的隱私。因此,如何利用訓練良好的模型(沒有訓練數據)進行知識遷移成為一個新的研究課題。將其概括為圖2所示的“無數據知識遷移(Data-Free Knowledge Transfer, DFKT)”。特別地,該方法還涉及兩個主要的研究領域:(1)沒有訓練數據的知識蒸餾方法稱為無數據知識蒸餾(data - free knowledge精餾,DFKD);(2)沒有源數據的域適應方法稱為無源數據域適應(source -free domain adaptation, SFDA)。DFKD的目標是將訓練數據集的原始信息提取并轉換為一個緊湊的學生模型,SFDA的目標是通過目標數據查詢和探索跨領域的知識。換句話說,DFKD在兩個模型之間傳遞域內知識,而SFDA通過體系結構共享模型傳遞跨域知識。

近年來,無數據知識轉移范式在深度學習的各個領域引起了人們的關注,特別是計算機視覺(包括圖像分類[30]-[32]、目標檢測[33]-[35]和超分辨率[36])。無數據知識轉移的時間軸如圖3所示。我們分別描述了DFKD和SFDA在上游和下游的發展。Lopes等人[37]在2016年首次提出了DNN的無數據知識蒸餾。它利用網絡激活的摘要來重建其訓練集。隨著生成式對抗網絡的興起,2019年以來,一些生成式DFKD方法如雨后春筍般涌現,試圖合成替代樣本進行知識轉移。還有一些研究是在[37]的基礎上,利用激活狀態總結[41]或批歸一化統計量(BNS)[32]、[42]從噪聲中恢復出原始圖像數據。此外,2021年還發布了兩個知識蒸餾綜述[43]、[44]。SFDA方面,Chidlovskii等人[45]在這方面做了開拓性的工作。2018年至2020年,研究人員主要關注分類[30]、[46]、[47]的無源域自適應。SFDA的語義分割算法[48]、[49]和目標檢測算法[33]、[35]從2020年開始研發。毫無疑問,未來將會有更多關于DFKT的研究發表。

雖然傳統的數據驅動的知識遷移一直是計算機視覺領域的一個長期挑戰,在模型壓縮和數據標注的成本降低方面取得了很大的成功,但大多數工作都忽視了數據隱私和商業版權問題,這些問題越來越受到關注。一些研究人員對傳統的數據驅動知識蒸餾[43]、[44]、[50]和領域適應[24]、[51]-[53]進行了全面、詳細的綜述,其中DFKD或SFDA只是冰山一角。然而,隨著DFKT的不斷成熟,相關的研究也越來越多,這使得研究和產業界都難以跟上新進展的步伐。有鑒于此,我們迫切需要對現有的工作進行調研,這對社區是有益的。在本綜述中,我們重點在一個統一的無數據知識遷移框架下,對現有的DFKD和SFDA方法進行分類和分析。我們分別討論了無數據知識蒸餾和無源領域自適應,并從數據重構算法和知識遷移策略兩個方面對它們進行了連接和比較。為了便于理解,我們根據DFKD和SFDA的實現對它們進行了分層分類,如圖4所示,并展示了我們調研的組織結構。總之,我們的貢獻有三方面:

  • 我們對無數據知識遷移進行了系統的概述,包括分類、定義、兩類方法的DFKD和SFDA以及各種應用。據我們所知,這是第一次對DFKT進行調研。

  • 從領域內和跨領域知識遷移的角度,提出了一種新的分類方法,將無數據的知識提煉和無源的領域適應結合起來。

  • 全面總結了每種方法的優勢或面臨的挑戰,并分析了一些有前景的研究方向。

付費5元查看完整內容

相關內容

華南師范大學等《知識蒸餾》最新綜述論文

高性能的深度學習網絡通常是計算型和參數密集型的,難以應用于資源受限的邊緣設備. 為了能夠在低 資源設備上運行深度學習模型,需要研發高效的小規模網絡. 知識蒸餾是獲取高效小規模網絡的一種新興方法, 其主要思想是將學習能力強的復雜教師模型中的“知識”遷移到簡單的學生模型中. 同時,它通過神經網絡的互 學習、自學習等優化策略和無標簽、跨模態等數據資源對模型的性能增強也具有顯著的效果. 基于在模型壓縮和 模型增強上的優越特性,知識蒸餾已成為深度學習領域的一個研究熱點和重點. 本文從基礎知識,理論方法和應用 等方面對近些年知識蒸餾的研究展開全面的調查,具體包含以下內容:****(1)回顧了知識蒸餾的背景知識,包括它的 由來和核心思想;(2)解釋知識蒸餾的作用機制(3)歸納知識蒸餾中知識的不同形式,分為輸出特征知識、中間特 征知識、關系特征知識和結構特征知識;(4)詳細分析和對比了知識蒸餾的各種關鍵方法,包括知識合并、多教師 學習、教師助理、跨模態蒸餾、相互蒸餾、終身蒸餾以及自蒸餾;(5)介紹知識蒸餾與其它技術融合的相關方法, 包括生成對抗網絡、神經架構搜索、強化學習、圖卷積、其它壓縮技術、自動編碼器、集成學習以及聯邦學習;(6)對知識蒸餾在多個不同領域下的應用場景進行了詳細的闡述(7)討論了知識蒸餾存在的挑戰和未來的研究方向.

1. 引言

深度學習由于對目標多樣性變化具有很好的魯 棒性,近年來得到廣泛的關注并取得快速的發展. 然而性能越好的深度學習模型往往需要越多的資 源,使其在物聯網、移動互聯網等低資源設備的應 用上受到限制. 因此研究人員開始對高效的(Efficient)深度學習模型展開研究,其目的是使具有高性能 的模型能夠滿足低資源設備的低功耗和實時性等要 求,同時盡可能地不降低模型的性能. 當前,主要 有 5 種方法可以獲得高效的深度學習模型**:直接手 工設計輕量級網絡模型、剪枝、量化、基于神經架 構搜索(Neural Architecture Search,NAS)[1]的網絡自 動化設計以及知識蒸餾(Knowledge Distillation,KD)[2]**. 其中,知識蒸餾作為一種新興的模型壓縮方 法,目前已成為深度學習領域的一個研究熱點和重 點. 國內外許多大學和研究機構已經對知識蒸餾展 開了深入研究,并且每年在機器學習和數據挖掘的 國際頂級會議和知名期刊中都有關于知識蒸餾的文 章發表.

知識蒸餾是一種教師-學生(Teacher-Student)訓 練結構,通常是已訓練好的教師模型提供知識,學 生模型通過蒸餾訓練來獲取教師的知識。它可以以 輕微的性能損失為代價將復雜教師模型的知識遷移 到簡單的學生模型中. 在后續的研究中,學術界和 工業界擴展了知識蒸餾的應用范疇,提出了利用知 識蒸餾來實現模型性能的增強. 基于此,本文根據 應用場景劃分出基于知識蒸餾的模型壓縮和模型增 強這兩個技術方向,即獲得的網絡模型是否為了應 用于資源受限的設備. 圖 1 給出了這兩種技術對比 的一個例子,其中的教師模型都是提前訓練好的復 雜網絡. 模型壓縮和模型增強都是將教師模型的知 識遷移到學生模型中. 所不同的是,模型壓縮是教 師網絡在相同的帶標簽的數據集上指導學生網絡的 訓練來獲得簡單而高效的網絡模型,如左圖的學生 是高效的小規模網絡. 模型增強則強調利用其它資 源(如無標簽或跨模態的數據)或知識蒸餾的優化策 略(如相互學習和自學習)來提高一個復雜學生模型 的性能. 如右圖中,一個無標簽的樣本同時作為教 師和學生網絡的輸入,性能強大的教師網絡通常能 預測出該樣本的標簽,然后利用該標簽去指導復雜 的學生網絡訓練.

本文重點收集了近些年在人工智能、機器學習 以及數據挖掘等領域的國際頂級會議(如 ICCV, ICML,EMNLP,KDD)與重要學術期刊(如 PAMI, TOIS,TKDE,TMM)上有關知識蒸餾的論文并加以 整理、歸納和分析. 據我們所知,目前國內沒有知 識蒸餾相關的中文綜述,而先前兩篇英文綜述[3,4] 和我們工作相似,但本文進一步完善了知識蒸餾的 綜述. 具體地,本文與先前的英文綜述[3,4]至少有以 下三點的不同:

  • (1)先前的研究都忽略了知識蒸餾在模型增強 上的應用前景。在本文的研究調查中,知識蒸餾不 僅可以用于模型壓縮,它還能通過互學習和自學習 等優化策略來提高一個復雜模型的性能. 同時,知 識蒸餾可以利用無標簽和跨模態等數據的特征,對 模型增強也具有顯著的提升效果.

  • (2)先前的研究都沒有關注到結構化特征知 識,而它在知識架構中又是不可或缺的。 某個結構 上的知識往往不是單一的,它們是有關聯的、多個 知識形式組合. 充分利用教師網絡中的結構化特征 知識對學生模型的性能提升是有利的,因此它在近 兩年的工作中越發重要[5,6].

  • (3)本文從不同視角給出了基于知識蒸餾的描 述,并提供了更多的知識介紹。 在知識蒸餾的方法 上,本文增加了知識合并和教師助理的介紹;在技 術融合的小節,本文增加了知識蒸餾與自動編碼器、 集成學習和聯邦學習的技術融合;在知識蒸餾的應 用進展中,本文分別介紹了知識蒸餾在模型壓縮和 模型增強的應用,并增加了多模態數據和金融證券 的應用進展;在知識蒸餾的研究趨勢展望中,本文 給出了更多的研究趨勢,特別是介紹了模型增強的 應用前景.

總的來說,本文在文獻[3,4]基礎上,以不同的 視角,提供更加全面的綜述,以便為后續學者了解 或研究知識蒸餾提供參考指導.

本文組織結構如圖 2 所示. 第 2 節回顧了知識 蒸餾的背景知識,包括它的由來;第 3 節解釋知識 蒸餾的作用機制,即為什么知識蒸餾是有效的;第 4 節歸納知識蒸餾中知識的不同形式;第 5 節詳細 分析了知識蒸餾的各種方法,其強調的是知識遷移 的方式;第 6 節介紹知識蒸餾與其它技術融合的相 關方法;第 7 節歸納知識蒸餾的應用進展;第 8 節 給出了知識蒸餾的研究趨勢展望. 最后,第 9 節對 本文工作進行總結.

2. 知識蒸餾的提出

知識蒸餾與較早提出的并被廣泛應用的一種機 器學習方法的思想較為相似,即遷移學習[7]. 知識蒸 餾與遷移學習都涉及到知識的遷移,然而它們有以 下四點的不同: (1) 數據域不同. 知識蒸餾中的知識通常是在同 一個目標數據集上進行遷移,而遷移學習中的知識 往往是在不同目標的數據集上進行轉移. (2) 網絡結構不同. 知識蒸餾的兩個網絡可以是 同構或者異構的,而遷移學習通常是在單個網絡上 利用其它領域的數據知識. (3) 學習方式不同. 遷移學習使用其它領域的豐 富數據的權重來幫助目標數據的學習,而知識蒸餾 不會直接使用學到的權重. (4) 目的不同. 知識蒸餾通常是訓練一個輕量級 的網絡來逼近復雜網絡的性能,而遷移學習是將已 經學習到相關任務模型的權重來解決目標數據集的 樣本不足問題.

3. 知識蒸餾的作用機制

Hinton 等人[2]認為,學生模型在知識蒸餾的過 程中通過模仿教師模型輸出類間相似性的“暗知識” 來提高泛化能力. 軟目標攜帶著比硬目標更多的泛 化信息來防止學生模型過擬合. 雖然知識蒸餾已經 獲得了廣泛的應用,但是學生模型的性能通常是僅接 近于教師模型. 特別地,給定學生和教師模型相同的 大小卻能夠讓學生模型的性能超越教師模型[12],性 能越差的教師模型反倒教出了更好的學生模型[13]. 為了更好地理解知識蒸餾的作用,一些工作從數學 或實驗上對知識蒸餾的作用機制進行了證明和解 釋. 本文歸納為以下幾類:

(1) 軟目標為學生模型提供正則化約束. 這一 結論最早可以追溯到通過貝葉斯優化來控制網絡超 參數的對比試驗[14],其表明了教師模型的軟目標為 學生模型提供了顯著的正則化. 軟目標正則化的作 用是雙向的,即還能將知識從較弱的教師模型遷移 到能力更強大的學生模型中[15,16]. 一方面,軟目標 通過標簽平滑訓練提供了正則化[15,16],標簽平滑是 通過避免了過分相信訓練樣本的真實標簽來防止訓 練的過擬合[15]. 另一方面,軟目標通過置信度懲罰 提供了正則化[12],置信度懲罰讓學生模型獲得更好 的泛化能力,其主要依賴于教師模型對正確預測的 信心. 這兩種正則化的形式已經在數學上得到了證 明. 總的來說,軟目標通過提供標簽平滑和置信度 懲罰來對學生模型施加正則化訓練. 因此,即使沒 有強大的教師模型,學生模型仍然可以通過自己訓 練或手動設計的正則化項得到增強[16].

(2) 軟目標為學生模型提供了“特權信息” (Privileged Information). “特權信息”指教師模型 提供的解釋、評論和比較等信息[17]. 教師模型在訓 練的過程中將軟目標的“暗知識”遷移到學生模型 中,而學生模型在測試的過程中并不能使用“暗知 識”. 從這個角度看,知識蒸餾是通過軟目標來為 學生模型傳遞“特權信息”.

(3) 軟目標引導了學生模型優化的方向. Phuong 等人[18]從模型訓練的角度證明了軟目標能引導學生 模型的優化方向. 同時,Cheng 等人[19]從數學上驗 證了軟目標使學生模型比從原始數據中進行優化學 習具有更高的學習速度和更好的性能.

4 蒸餾的知識形式

原始知識蒸餾(Vanilla Knowledge Distillation)[2] 僅僅是從教師模型輸出的軟目標中學習出輕量級的 學生模型. 然而,當教師模型變得更深時,僅僅學 習軟目標是不夠的. 因此,我們不僅需要獲取教師 模型輸出的知識,還需要學習隱含在教師模型中的 其它知識,比如中間特征知識. 本節總結了可以使 用的知識形式有輸出特征知識、中間特征知識、關 系特征知識和結構特征知識. 知識蒸餾的 4 種知識 形式的關系如圖 5 所示. 從學生解題的角度,這 4 種知識形式可以形象比喻為:輸出特征知識提供了 解題的答案,中間特征知識提供了解題的過程,關 系特征知識提供了解題的方法,結構特征知識則提 供了完整的知識體系.

5 知識蒸餾的方法

本節從知識利用的方式,歸納和分析知識蒸 餾的主要方法,包括知識合并、多教師學習、教 師助理、跨模態蒸餾、相互蒸餾、終身蒸餾以及 自蒸餾.

6 知識蒸餾與其它技術的融合

近幾年,研究人員發現知識蒸餾結合其它主流 技術通常能夠提高其性能. 目前這些主流技術主要 有:生成對抗網絡、神經架構搜索、強化學習、圖 卷積、其它壓縮技術、自動編碼器、集成學習以及 聯邦學習.

7 知識蒸餾的應用進展

知識蒸餾的最初目的是壓縮深度學習網絡模 型,這在資源受限的終端設備上具有廣泛的應用. 但隨著研究的新進展,知識蒸餾不僅可以用于壓縮 模型,還可以通過神經網絡的互學習、自學習等優 化策略和無標簽、跨模態等數據資源對模型的性能 增強也具有顯著的提升效果. 目前知識蒸餾的主要 應用領域有計算機視覺、自然語言處理、語音識別、 推薦系統、信息安全、多模態數據和金融證券. 知 識蒸餾在計算機視覺、自然語言處理、語音識別和 推薦系統上的應用根據其目的的不同,可以分為模 型壓縮和模型增強. 模型壓縮是為了獲得簡單而高 效的網絡模型,以方便部署于資源受限的設備. 而 模型增強通常是利用其它資源(如無標簽或跨模態 的數據)來獲取復雜的高性能網絡.

8 知識蒸餾的研究趨勢展望

知識蒸餾是一個新興的研究領域,它仍有許多 值得深入探索和亟待解決的問題. 在這一節中,我 們提出一些值得進一步深入探討的研究點,也是我 們今后需要解決完善的研究方向.

  • (1) 如何確定何種知識是最佳的。知識蒸餾中 的知識是一個抽象的概念,網絡參數,網絡的輸出 和網絡的中間特征等都可以理解為知識. 但是何種 知識是最佳的,或者哪些知識以互補的方式能成為 最佳的通用知識表示?為了回答這個問題,我們需 要了解每種知識以及不同種類組合知識的作用. 比 如說,基于特征的知識通常用于模仿教師特征產生 的過程,基于關系的知識常用于捕獲不同樣本之間 或網絡層之間特征的關系. 當教師和學生的模型容 量(“代溝”)較小的時候,學生只模仿教師的軟目 標就可以獲得有競爭力的性能. 而當師生的“代溝” 較大時,需要將多種蒸餾的知識形式和方法結合來 表示教師模型. 雖然能明白多種知識的組合方式通 常能提高學生網絡的性能,但是使用哪些知識形式, 方法和技術的組合是最優的,還尚無定論.

  • (2) 如何確定何處的知識是最佳的。一些工作 隨機選擇中間網絡的某層特征作為知識,比如 FitNets[27]將教師前幾層的網絡特征作為特征蒸餾的 位置. 然而他們都沒有提供一個理由,即為什么能 夠成為代表性知識. 這主要是由于教師和學生模型 結構的不一致導致的,即教師模型通常比學生模型 擁有更多的網絡層. 因此,需要篩選教師模型中最 具有代表性的特征. 然而教師模型中哪些特征層是 最具有代表性的?這也是一個未解決的問題. 在基 于關系的知識蒸餾中,也一樣無法解釋該選擇哪些 層的關系知識作為學生模仿的對象. 如 FSP 矩陣[31] 隨機選擇教師模型的兩個網絡層作為關系蒸餾的位 置. 關系知識蒸餾是容量無關的,即關系蒸餾僅僅 需要獲取的是網絡層間或樣本間的關系知識. 因此 這不是師生間的“代溝”問題,而是歸咎于知識其實是一個“黑盒”問題.

  • (3) 如何定義最佳的師生結構。知識蒸餾傳遞 的并不是參數,而是抽取到的知識. 因此知識蒸餾 是網絡架構無關的,即任何學生都可以向任何教師 學習. 通常,容量更大的學生模型可以學習更多的 知識,但復雜度過大會延長推理的時間. 容量更大 的教師模型隱含著較多的知識和更強的能力,但是 并非能力越強的教師就能產生更佳的學生模型[13]. 同時,每一個教師模型都有一個最強學生結構[100]. 因此,我們只能在給定的教師模型的前提下,找到 最佳的學生模型. 然而在未指定教師模型的情況 下,目前還無法確定最佳的學生模型.

  • (4) 如何衡量師生間特征的接近程度。 知識蒸 餾是要將教師網絡中的知識遷移到學生模型中,遷 移效果的好壞最終可以通過學生網絡性能來體現. 然而在網絡訓練的過程中,只能通過損失函數去判 斷教師和學生之間特征的接近程度. 因此需要提前 設計好知識蒸餾的損失函數,如 KL 散度、均方誤 差(Mean Squared Error,MSE)和余弦相似性. 而損 失函數的選取受算法和離群點等因素的影響,并且, 不同損失函數的作用范圍是不一樣的. 例如,通過 KL 散度衡量的兩個隨機分布上的相似度是非對稱 的. 余弦相似性強調兩個向量的特征在方向上的差 異,卻沒有考慮向量大小. MSE 在高維特征中的作 用不明顯,且很容易被隨機特征混淆[4]. 因此,衡量 師生間特征接近程度的方法是多樣化的,我們需要 根據特定的問題和場景選取最合適的損失函數.

  • (5) 蒸餾的知識形式、方法和融合技術還需要 深入探索。 原始知識蒸餾將類間的關系信息作為知 識,但這在“代溝”較大的師生網絡中效果不佳. 為 了解決這一問題,后續的研究者尋找不同形式的“知 識”來充實知識的內涵,如關系知識. 其知識的來 源應該是多樣化的,可以來自于單個或多個的樣本 和網絡本身. 同樣,知識蒸餾的方法和融合技術也 能緩解甚至解決師生間的“代溝”問題,它們強調 充分地利用知識來提高模型的表征能力. 新的知 識形式、方法和融合技術的發現可能會伴隨著新的 應用場景,這將豐富知識蒸餾的理論框架和實踐的 應用.

  • (6) 模型壓縮和模型增強的深度融合. 模型壓 縮是將強大的復雜教師模型中的“知識”遷移到簡 單的學生模型中以滿足低資源設備的應用要求,而 模型增強用于獲取高性能的復雜網絡. 模型壓縮和 模型增強的融合是將教師模型中的“特權信息”遷 移或繼續強化輕量級學生模型的性能. 例如,Liu 等人[206]通過從文本翻譯模型中遷移“特權信息”來改 進輕量級的語音翻譯模型. 在未來的工作中,甚至 能將無標簽或其它領域數據的“特權信息”來繼續 加強一個輕量級學生模型的性能.

  • (7) 知識蒸餾在數據樣本增強上的應用. 深度 學習是數據驅動型的,往往需要大規模的數據集才 能避免過度擬合. 由于隱私和法律等原因,在一些 領域上,通常無法獲取大規模的原始數據集,如醫 療數據. 知識蒸餾需要足夠的數據,才能將教師網 絡中的知識遷移到學生網絡中. 換句話說,數據是 連接教師網絡和學生網絡的橋梁. 先前的研究已經 證明了知識蒸餾在數據樣本增強上的廣闊應用前景, 如通過知識蒸餾產生原始數據集的近似樣本[207]、 使用其它相關數據的知識來減輕對目標數據集的依 賴[208]以及教師和學生間部分網絡的共同訓練來提 高具有小樣本學生網絡的性能[114]. 未來的工作需 要繼續探索知識蒸餾在數據樣本增強上的應用場景 和高效的蒸餾方法來實現小樣本學習(Few-Shot Learning)或零樣本學習(zero-shot learning).

  • (8) 知識蒸餾在數據標簽上的應用. 給數據上 標簽需要特定領域的專業知識、大量的時間和成本. 可以利用知識蒸餾減少標注訓練數據的麻煩,解決 數據標簽的問題. 如果該領域存在著強大的教師網 絡,能通過知識蒸餾給無標簽的數據增加注釋. 具 體地,教師網絡對未標記數據進行預測,并使用它 們的預測信息充當學生模型數據的自動標注[209]. 以無標簽數據作為輸入的教師網絡會產生軟標簽, 這恰好能為學生網絡提供學習的指導信息. 即使該 領域沒有強大的教師網絡,也可以通過跨模態知識 蒸餾,將其它領域的知識充當無標簽數據的監督信 號[66]. 因此,知識蒸餾能夠減少對數據標簽的依賴, 需要繼續研究它在半監督或無監督學習上的應用.

付費5元查看完整內容

【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作,涵蓋了基本概念、分類體系。

引言

基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示,并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識,避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中,我們首先對自監督學習做一個簡要的概述。接下來,我們解釋了各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來,我們介紹了 T-PTLMs的一個新分類,然后簡要概述了各種基準測試,包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后,提出了進一步完善這些模型的研究方向。我們堅信,這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。

摘要

如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因為它們能夠從大量未標記的文本數據中學習通用語言表征,然后將這些知識轉移到下游任務中。在早期,NLP系統大多是基于規則的,后來被機器學習模型所取代。機器學習模型需要特征工程,這需要領域專業知識,也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展,增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型,除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例,生成這些實例的代價是昂貴的。然而,我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用,從而在目標任務中很好地執行。在這里,目標任務應該與源任務類似。基于遷移學習的思想,計算機視覺研究人員使用ImageNet[20],[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務,然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識,他們在許多CV任務[18],[23]中獲得了巨大的成功。

像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外,由于RNN按順序處理輸入,即逐字處理,并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷,Vaswani等人[25]提出了一種完全基于自注意的深度學習模型,稱為Transformer。與RNN相比,自注意允許更多的并行化,并且可以很容易地建模長期上下文,因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下,Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是,很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻,已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。

GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進,而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明,T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后,T-PTLMs也被開發用于其他領域,如金融[31],法律[32],[33],新聞[34],編程[35]-[39],對話[40],網絡[41],學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習,因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為

  • 我們將簡要介紹SSL,它是開發T-PTLMs的支柱(第2節)。

  • 我們解釋了與T-PTLMs相關的各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法(第3節)。

  • 我們提出了一個新的分類方法來分類各種T-PTLMs。這種分類法基于四個視角,即預訓練語料庫、體系結構、SSL類型和擴展(第4節)。

  • 我們提出了一種新的分類法來對各種下游適應方法進行分類,并對每一種方法進行詳細解釋(第5節)。

  • 我們簡要概述了評估T-PTLMs進展的各種基準,包括內在的和外在的(第6節)。

  • 我們簡要概述了各種庫,從Huggingface transformer到Transformer-interpret,這些庫對tptlm的工作很有用(第7節)。

  • 我們簡要討論了一些未來的研究方向,這些方向將推動研究團體進一步改進模型(第8節)。

付費5元查看完整內容

摘要

近年來,深度神經模型在幾乎每個領域都取得了成功,甚至解決了最復雜的問題。然而,這些模型的尺寸非常大,有數百萬(甚至數十億)個參數,需要強大的計算能力,以至于無法部署在邊緣設備上。此外,性能提升高度依賴于大量的標記數據。為了實現更快的速度和處理由于缺乏標記數據而引起的問題,知識蒸餾(KD)被提出,知識蒸餾是將從一個模型學到的信息遷移到另一個模型。KD通常以所謂的“學生-教師”(S-T)學習框架為特征,被廣泛應用于模型壓縮和知識轉移。本文是關于KD和S-T學習的研究,這兩種學習方法是近年來研究比較活躍的。首先,我們旨在解釋KD是什么以及它如何/為什么起作用。然后,我們對KD方法和S-T框架在視覺任務中的最新進展進行了全面的調研。總的來說,我們調研了推動這一研究領域的一些基本問題,并全面概括了研究進展和技術細節。系統分析了KD在視覺應用中的研究現狀。最后,我們討論了現有方法的潛力和開放挑戰,并展望了KD和S-T學習的未來方向。

引言

深度神經網絡(DNNs)的成功與否,通常取決于DNN體系結構的精心設計。在大規模機器學習中,特別是在圖像和語音識別等任務中,大多數基于DNN的模型都被過度參數化,以提取最顯著的特征,確保泛化。這種笨重的模型通常深度和寬度都很大,訓練時需要相當多的計算量,很難實時操作。因此,為了獲得更快的速度,許多研究人員一直試圖利用訓練過的笨重模型來獲得輕量級的DNN模型,這些模型可以部署在邊緣設備上。也就是說,當這個笨重的模型經過訓練后,可以使用它學習一個更適合實時應用或部署[1]的小模型,如圖1(a)所示。

另一方面,DNNs的性能也嚴重依賴于非常大且高質量的標簽來訓練數據集。由于這個原因,許多人都在努力減少標記訓練數據的數量,同時又不太影響DNNs的性能。處理這樣缺乏數據的情況的一種流行方法是從一個源任務轉移知識,以促進對目標任務的學習。一個典型的例子是半監督學習,在這種學習中,一個模型只用一小組有標記的數據和一大組沒有標記的數據來訓練。由于未標記的樣本的監督代價未定義,應用一致性代價或正則化方法來匹配標記和未標記數據的預測是至關重要的。在這種情況下,知識在假定教師和學生[2]雙重角色的模型內轉移。對于未標記的數據,學生照常學習;然而,教師產生目標,然后學生使用這些目標進行學習。如圖1(b)所示,這種學習度量的共同目標是在沒有額外訓練的情況下,從學生身上形成一個更好的教師模型。另一個典型的例子是自監督學習(self-supervised learning),該模型是用輸入轉換(例如,旋轉、翻轉、顏色變化、裁剪)構建的人工標簽來訓練的。在這種情況下,來自輸入轉換的知識被轉移到監督模型本身,以提高其性能,如圖1?所示。

本論文是關于知識蒸餾(KD)和師生學習(S-T)的研究,這是近年來研究的熱點。一般來說,KD被廣泛認為是一種主要的機制,當只給予具有相同或不同類別[3]的小訓練集時,KD可以使人類快速學習新的復雜概念。在深度學習中,KD是一種有效的技術,被廣泛用于在進行建設性訓練的同時將信息從一個網絡轉移到另一個網絡。KD最初由[4]定義,由Hinton等人[1]推廣。KD被廣泛應用于兩個不同的領域:模型壓縮(見圖1(a))和知識轉移(見圖1(b)和?)。對于模型壓縮,一個較小的學生模型被訓練來模擬一個預先訓練過的更大的模型或模型集合。雖然基于目的定義了各種形式的知識,但KD的一個共同特征是通過它的S-T框架來表征的,其中提供知識的模型稱為教師,學習知識的模型稱為學生。

在本研究中,我們重點分析和分類現有的KD方法,并結合不同類型的S-T結構,用于模型壓縮和知識遷移。我們回顧和調研這一迅速發展的領域,并特別強調最近的進展。KD方法在視覺智能、語音識別、自然語言處理(natural language processing, NLP)等各個領域都有應用,但本文主要關注的是視覺領域的KD方法,因為大部分的演示都是在計算機視覺任務上進行的。利用視覺中的KD原型可以方便地解釋用于自然語言處理和語音識別的KD方法。由于目前研究最多的KD方法是用于模型壓縮,我們系統地討論了其技術細節、挑戰和潛力。同時,我們也關注了半監督學習、自我監督學習等知識轉移的KD方法,重點關注了以S-T學習作為學習度量方式的技術。

我們將探索推動這一研究領域發展的一些基本問題。具體來說,KD和S-T學習的理論原理是什么?是什么讓一種蒸餾方法比其他方法更好?使用多個老師比使用一個老師好嗎?更大的模型總是能造就更好的老師和更魯棒的學生嗎?只有在教師模型存在的情況下,學生才能學習知識嗎?學生能自學嗎?離線KD總是比在線學習好嗎?

在討論這些問題的同時,我們結合現有KD方法的潛力,并結合S-T框架展望KD方法的未來發展方向。我們特別強調最近開發的技術的重要性,如神經結構搜索(NAS),圖神經網絡(GNNs),和增強KD的門控機制。此外,我們也強調KD方法的潛力,以解決在特定的領域的挑戰性的問題,如軌道變化是在12個360°的視覺和基于事件的視覺。

本文的主要貢獻有三個方面:

(1)對KD和S-T學習方法進行了全面的概述,包括問題定義、理論分析、一系列具有深度學習的KD方法以及視覺應用。

(2) 對KD方法和S-T框架的最新進展進行了分層、結構化的系統綜述和分析,并對每個類別的潛力和挑戰提出了見解和總結。

(3) 討論問題和開放問題,確定新的趨勢和未來的方向,為該研究領域提供深刻的指導。

本文的組織結構如下。首先,在第二章我們解釋了為什么我們需要關注KD和S-T學習。

請解釋為什么我們需要在第二節中關注KD和S-T學習。第三章對KD進行了理論分析。從第4節到第8節,我們對一些現有的方法進行了分類,從**基于教師數量的KD、基于數據格式的KD、在線/離線KD、基于標簽的KD,到具有新穎學習指標的KD第三章對KD進行了理論分析。從第4節到第8節,我們對一些現有的方法進行了分類,從基于教師數量的KD、基于數據格式的KD、在線/離線KD、基于標簽的KD,到具有新穎學習指標的KD。在討論這些KD方法的技術細節的基礎上,我們也分析了它們的挑戰和潛力。在第9節中,根據分類法,我們將討論第1節中提出的問題的答案。第10節介紹了KD和S-T學習的未來潛力,并在第11節給出了結論。由于篇幅有限,關于KD方法相關的新學習指標和KD應用方法的詳細介紹在suppll材料的第8和9節中給出。這份手稿還包括分類法/比較表和一些插圖的數字,這是不包括在這里由于缺乏空間。

圖2展示了KD和S-T學習的分類圖。

付費5元查看完整內容

本文提出了一種利用“無中生有”的監督方式,用于跨模態哈希編碼。現存的跨模態哈希編碼分為有監督和無監督兩類,前者通常精度更高,但依賴于圖像級標注信息,以生成相似度矩陣。本方法創新性地提出,利用無監督的哈希方法產生圖像特征,并利用圖像特征計算相似度矩陣,從而繞開了對監督信號的需求,在不增加標注代價的情況下,提升了跨模態哈希編碼的精度,超過了所有無監督的編碼方法。本文還分析了圖像特征和文本特征在相似度計算中的作用,并且討論了這種方法在類似場景中的應用。

付費5元查看完整內容

【導讀】知識蒸餾是一種典型的模型壓縮和加速方法,在很多應用場景對此有需求。來自悉尼大學的學者發布了《知識蒸餾》的綜述論文,值的關注。

//arxiv.org/abs/2006.05525

近年來,深度神經網絡在工業和學術界取得了巨大的成功,特別是在視覺識別和神經語言處理方面的應用。深度學習的巨大成功,主要歸功于其巨大的可擴展性,既有大規模的數據樣本,也有數十億的模型參數。然而,在資源有限的設備如移動電話和嵌入式設備上部署這些笨重的深模型也帶來了巨大的挑戰,不僅因為計算量大,而且存儲空間大。為此,開發了各種模型壓縮和加速技術,如剪枝、量化和神經結構搜索。知識蒸餾是一種典型的模型壓縮和加速方法,旨在從大教師模型中學習小學生模型,越來越受到社會的關注。本文從知識分類、訓練方案、知識提取算法以及應用等方面對知識提取進行了綜述。此外,我們簡要回顧了知識提煉的挑戰,并對未來的研究課題提供了一些見解。

概述

在過去的幾年里,深度學習在人工智能領域取得了巨大的成功,包括計算機視覺(Krizhevsky et al., 2012)、強化學習(Silver et al., 2016)和神經語言處理(Devlin et al., 2018)的各種應用。借助最近許多技術,包括殘差連接(He et al., 2016)和批處理歸一化(Ioffe and Szegedy, 2015),我們可以輕松地在強大的GPU或TPU集群上訓練具有數千層的深度模型。例如,只需不到10分鐘就可以在數百萬張圖像的數據集上訓練ResNet模型(Deng et al. , 2009 ; Sun et al. , 2019); 訓練一個強大的BERT模型進行語言理解只需要不到一個半小時 (Devlin et al., 2018; You et al., 2019).。雖然大規模的深度模型帶來了令人難以置信的性能,但其龐大的計算復雜度和海量的存儲需求給實時應用的部署帶來了巨大的挑戰,特別是對于那些資源有限的設備,比如嵌入式人臉識別系統和自動駕駛汽車。

為了開發高效的深度模型,最近的工作通常集中在1)基于深度可分離卷積的高效基本塊,如MobileNets (Howard et al. , 2017 ; Sandler et al. , 2018) 和ShuffleNets (Zhang et al. , 2018a ; Ma et al. , 2018); (2)模型壓縮和加速技術,主要包括以下類別(Cheng et al., 2018)。

  • 參數修剪和共享: 這些方法主要是去除深層神經網絡中不重要的參數,去除的參數對性能影響不大。該類別又分為模型量化(Wu et al., 2016)和二值化(Courbariaux et al., 2015)、參數共享(Han et al., 2015)和結構矩陣(Sindhwani et al., 2015)。

  • 低秩分解: 這些方法通過矩陣/張量分解來探索深度神經網絡參數的冗余性(Denton et al., 2014)。

  • 傳輸/壓縮卷積濾波器: 這些方法通過傳輸/壓縮卷積濾波器來減少不必要的參數(Zhai et al., 2016)。

  • 知識蒸餾(KD): 這些方法通常將知識從一個較大的深度神經網絡提取到一個較小的網絡中(Hinton et al., 2015)。

對模型壓縮和加速的全面回顧超出了本文涵蓋的范圍,而我們關注的是知識蒸餾,這已經得到越來越多的研究社區關注。在實踐中,大型深度模型往往會取得非常好的性能,因為過參數化提高了泛化性能 (Brutzkus and Globerson, 2019; Allen-Zhu et al., 2019; Arora et al., 2018)。知識蒸餾通過在大教師模型的監督下學習小學生模型,從而探究深度模型中參數的冗余性,用于推理(Bucilua et al., 2006; Ba and Caruana, 2014; Hinton et al., 2015; Urban et al., 2016),而知識蒸餾的關鍵問題是如何將知識從大教師模型轉移到小學生模型。一般情況下,知識蒸餾的師生框架如圖1所示。雖然在實踐中取得了巨大的成功,但在理論或經驗上理解知識提煉方法的工作并不多(Cheng et al., 2020; Phuong and Lampert, 2019; Cho and Hariharan, 2019)。具體來說,為了理解知識蒸餾的工作機制,Phuong和Lampert在深度線性分類器的情況下,從理論上證明了學習精餾學生網絡快速收斂的泛化邊界(Phuong和Lampert, 2019)。這一解釋理論上回答了學生學習的內容和速度,并揭示了決定蒸餾成功的因素。蒸餾的成功依賴于數據幾何、蒸餾目標的優化偏差和學生分類器的強單調性。Cheng等人量化了來自深度神經網絡中間層的視覺概念知識,以解釋知識蒸餾(Cheng et al., 2020)。Cho和Hariharan對知識蒸餾的有效性進行了詳細的實證分析(Cho和Hariharan, 2019)。實證分析發現,由于模型容量的差距,較大的模型不一定是更好的老師(Mirzadeh et al., 2019),而精餾會對學生的學習產生不利影響。據我們所知,(Cho and Hariharan, 2019)忽略了對教師和學生之間不同知識、不同蒸餾和相互感情的經驗評價。此外,通過實證分析,從標簽平滑、教師和先驗對最優輸出層幾何形狀的預測置信度等角度探討了對知識蒸餾的理解(Tang et al., 2020)。

模型壓縮的知識蒸餾思想與人類的學習方案非常相似。為此,近年來的知識蒸餾方法不僅擴展到了師生學習(Hinton et al., 2015),還擴展到了相互學習(Zhang et al., 2018b)、自學(Yuan et al., 2019)、輔助教學(Mirzadeh et al., 2019)和終身學習(Zhai et al., 2019)。知識蒸餾的大部分擴展集中于壓縮深度神經網絡,因此輕量級的學生網絡可以很容易地部署在諸如視覺識別、語音識別和自然語言處理(NLP)等應用程序中。此外,知識蒸餾中從一個模型到另一個模型的知識轉移符號也可以擴展到其他任務,如對抗攻擊(Papernot et al., 2016b)、數據增強(Lee et al., 2019a;Gordon和Duh, 2019),數據隱私和安全(Wang等,2019a)。

本文對知識蒸餾的研究進行了綜述。本綜述的主要目的是1) 全面概述知識蒸餾,包括動機的背景,基本符號和公式,以及幾種典型知識,蒸餾和算法; 2) 全面回顧知識蒸餾的最新進展,包括理論、應用和在不同現實場景下的擴展; 3) 從知識遷移的不同角度,包括不同類型的知識、訓練方案、知識提煉算法/結構和應用,闡述知識蒸餾的一些挑戰和見解。本文組織概況如圖2所示。具體地說,本文的其余部分結構如下。第二節給出了知識蒸餾的重要概念和常規模型。知識和蒸餾的種類分別在第3節和第4節中進行了總結。現有的關于知識提煉中的師生結構的研究在第5部分進行了說明。第6節對許多最新的知識蒸餾方法進行了全面的總結和介紹。知識蒸餾的廣泛應用將在第7節的不同方面加以說明。第8節討論了知識蒸餾中具有挑戰性的問題和未來的方向。最后,在第9節給出結論。

付費5元查看完整內容

深度神經網絡最近展示了其解決復雜任務的驚人能力。如今的模型使用功能強大的GPU卡在數百萬個示例上進行訓練,能夠可靠地對圖像進行注釋、翻譯文本、理解口語或玩國際象棋或圍棋等戰略性游戲。此外,深度學習也將成為未來許多技術的組成部分,例如自動駕駛、物聯網(IoT)或5G網絡。特別是隨著物聯網的出現,智能設備的數量在過去幾年里迅速增長。這些設備中有許多都配備了傳感器,使它們能夠以前所未有的規模收集和處理數據。這為深度學習方法提供了獨特的機會。

然而,這些新的應用程序帶有許多附加的約束和要求,這些約束和要求限制了當前模型的開箱即用。

1. 嵌入式設備、物聯網設備和智能手機的內存和存儲容量有限,能源資源有限. 像VGG-16這樣的深度神經網絡需要超過500 MB的內存來存儲參數,執行單次向前傳遞需要15 gb的操作。很明顯,這些模型的當前(未壓縮的)形式不能在設備上使用。

2. 訓練數據通常分布在設備上,由于隱私問題或有限的資源(帶寬),無法簡單地在中央服務器上收集. 由于只有少量數據點的模型的局部訓練通常不太有希望,因此需要新的協作訓練方案來將深度學習的能力引入這些分布式應用程序。

本教程將討論最近提出的解決這兩個問題的技術。我們將首先簡要介紹深度學習,它的當前使用和今天的模型在計算和內存復雜性、能源效率和分布式環境方面的局限性。我們將強調解決這些問題的實際需要,并討論實現這一目標的最新進展,包括ITU ML5G和MPEG AHG CNNMCD正在開展的標準化活動。

然后我們將進入神經網絡壓縮的話題。我們將首先簡要介紹源編碼和信息論的基本概念,包括速率失真理論、量化、熵編碼和最小描述長度原則。這些概念需要形式化的神經網絡壓縮問題。然后我們將繼續討論壓縮DNNs的具體技術。為此,我們將區分壓縮過程的不同步驟,即剪枝和稀疏化、量化和熵編碼。前兩步是有損的,而最后一步是無損的。由于縮小尺寸并不是神經網絡壓縮的唯一目標(例如,快速推理、能源效率是其他目標),我們還將討論有效推理的方法,包括最近提出的神經網絡格式。最后,我們將介紹一個用例,即設備上的語音識別,演示如何在實際應用中使用壓縮方法。

最后我們將介紹分布式學習的最新發展。我們提出了不同的分布式訓練場景,并根據它們的通信特性進行了比較。接下來,我們將重點討論聯邦學習。我們列舉了聯邦學習中存在的挑戰——通信效率、數據異構性、隱私、個性化、健壯性——并提出了解決這些挑戰的方法。我們特別關注為減少分布式學習中的通信開銷而提出的技術,并討論集群化FL,這是一種與模型無關的分布式多任務優化的新方法。這里我們將強調本教程第一部分中介紹的概念的相似性,即稀疏化、量化和編碼。

目錄:

  1. 介紹
  • 目前使用的深度學習
  • 現有模型和新應用的實際局限性
  • 研究、工業和標準化方面的最新發展
  1. 神經網絡壓縮
  • 背景:資料編碼、信息論
  • 修剪和稀疏化方法
  • 量化和定點推理
  • 神經網絡格式
  • 用例研究:設備上的語音識別

3.問題 4. 休息時間 5. 分布式學習

  • 背景:SGD,學習理論
  • 聯邦和分布式學習的基本概念
  • 減少通信開銷和連接到NN壓縮
  • 聯邦學習和差異隱私
  • 集群聯合學習
  1. 問題
付費5元查看完整內容

【簡介】近些年深度神經網絡幾乎在各個領域都取得了巨大的成功。然而,這些深度模型在尺寸上過于巨大,有幾百萬甚至上億的參數,造成了巨大的計算開銷,致使模型難以部署和落地。除此之外,模型的表現還高度依賴于大量的標注數據。為了使模型得到更加高效的訓練和處理標記數據不足的難題,知識蒸餾(KD)被用來遷移從一個模型到另一個模型學習到的知識。這個過程也經常被描述為student-teacher(S-T)學習框架,并且已經被廣泛應用到模型壓縮和知識遷移中。這篇論文主要介紹了知識蒸餾和student-teacher學習模型。首先,我們對于KD是什么,它是如何工作的提供了一個解釋和描述。然后,我們對近些年知識蒸餾方法的研究進展和典型用于視覺任務的S-T學習框架進行了一個全面的調研。最后,我們討論了知識蒸餾和S-T模型未來的發展方向和研究前景,以及目前這些方法所面臨的開放性挑戰。

介紹

深度神經網絡的成功主要依賴于精心設計的DNN架構。在大規模機器學習任務中,尤其是圖像識別和語音識別任務,大多數基于DNN的模型都是憑借大量的參數來提取特征從而保證模型的泛化能力。這種笨重的模型通常都有非常深和非常寬的特點,需要花費大量的時間進行訓練,而且不可能實時操作。所以,為了加速模型訓練,許多研究人員嘗試著利用預訓練的復雜模型來獲得輕量級的DNN模型,從而使得這些模型可以被部署應用。這是一篇關于知識蒸餾(KD)和student-teacher(S-T)學習模型的論文。一般來講,知識蒸餾被視作一種機制:當只給出小型的訓練集,其中包含相同或不同種類的樣本的時候,這種機制能夠使得人類快速學習新的,復雜的概念。在深度學習中,知識蒸餾是一個有效的方法,目前已經被廣泛的應用在了從一個網絡到另一個網絡的信息轉移上。知識蒸餾主要被應用在模型壓縮和知識遷移這兩個領域,對于模型壓縮,一個較小的學生模型被訓練來模仿一個預先訓練好的較大的模型。盡管知識和任務種類多樣,但是S-T框架是他們的一個相同點,其中提供知識的模型被稱作teacher,學習知識的模型被稱作student。我們對現有的知識蒸餾方法進行了重點分析和分類,其中還伴隨著各種類型的S-T結構的模型壓縮和知識轉移。我們回顧和調查了這一迅速發展的領域,強調了該領域的最新進展。雖然知識蒸餾方法已經應用于視覺智能、語音識別、自然語言處理等各個領域,但本文主要關注的是視覺領域的知識蒸餾方法,所以論文中關于知識蒸餾的大多數闡釋都是基于計算機視覺任務。由于知識蒸餾方法研究最多的領域是模型壓縮,所以我們系統地討論了該領域的技術細節、關鍵性挑戰和發展潛力。同時,重點介紹了在半監督學習、自監督學習等領域的知識遷移方法,重點介紹了以S-T學習框架為基礎的技術。

文章結構

section 2:探討知識蒸餾和S-T學習框架為什么會吸引如此多的關注。 section 3:關于知識蒸餾的理論分析。 section 4-section14:對目前的方法進行分類,并且分析了面臨的挑戰以及該領域的發展前景。 section 15:根據上面的分類結果,我們回答了section 2中提出的問題。 section 16:介紹了知識蒸餾和S-T框架的潛力。 section 17:總結。

付費5元查看完整內容

在許多實際應用中,獲取足夠的大規模標記數據以充分訓練深度神經網絡通常是困難和昂貴的。因此,將學習到的知識從一個單獨的、標記過的源域轉移到一個未標記或標記稀疏的目標域成為一種有吸引力的選擇。然而,直接轉移常常由于域轉移而導致顯著的性能下降。域適應(DA)通過最小化源域和目標域之間域轉移的影響來解決這個問題。多源域自適應(Multi-source domain adaptation, MDA)是一種功能強大的擴展,可以從具有不同分布的多個源收集標記數據。由于DA方法的成功和多源數據的流行,MDA在學術界和工業界都受到越來越多的關注。在本次綜述中,我們定義了各種MDA策略,并總結了可供評估的可用數據集。我們還比較了深度學習時代的MDA方法,包括潛在空間轉換和中間域生成。最后,討論了未來MDA的研究方向。

付費5元查看完整內容
北京阿比特科技有限公司