国产欧美日韩综合在线-欧美日韩性爱视频免费观看

華南師范大學等《知識蒸餾》最新綜述論文

高性能的深度學習網絡通常是計算型和參數密集型的，難以應用于資源受限的邊緣設備. 為了能夠在低資源設備上運行深度學習模型，需要研發高效的小規模網絡. 知識蒸餾是獲取高效小規模網絡的一種新興方法，其主要思想是將學習能力強的復雜教師模型中的“知識”遷移到簡單的學生模型中. 同時，它通過神經網絡的互學習、自學習等優化策略和無標簽、跨模態等數據資源對模型的性能增強也具有顯著的效果. 基于在模型壓縮和模型增強上的優越特性，知識蒸餾已成為深度學習領域的一個研究熱點和重點. 本文從基礎知識,理論方法和應用等方面對近些年知識蒸餾的研究展開全面的調查，具體包含以下內容：****(1)回顧了知識蒸餾的背景知識，包括它的由來和核心思想；(2)解釋知識蒸餾的作用機制；(3)歸納知識蒸餾中知識的不同形式，分為輸出特征知識、中間特征知識、關系特征知識和結構特征知識；(4)詳細分析和對比了知識蒸餾的各種關鍵方法，包括知識合并、多教師學習、教師助理、跨模態蒸餾、相互蒸餾、終身蒸餾以及自蒸餾；(5)介紹知識蒸餾與其它技術融合的相關方法，包括生成對抗網絡、神經架構搜索、強化學習、圖卷積、其它壓縮技術、自動編碼器、集成學習以及聯邦學習；(6)對知識蒸餾在多個不同領域下的應用場景進行了詳細的闡述；(7)討論了知識蒸餾存在的挑戰和未來的研究方向.

1. 引言

深度學習由于對目標多樣性變化具有很好的魯棒性，近年來得到廣泛的關注并取得快速的發展. 然而性能越好的深度學習模型往往需要越多的資源，使其在物聯網、移動互聯網等低資源設備的應用上受到限制. 因此研究人員開始對高效的(Efficient)深度學習模型展開研究，其目的是使具有高性能的模型能夠滿足低資源設備的低功耗和實時性等要求，同時盡可能地不降低模型的性能. 當前，主要有 5 種方法可以獲得高效的深度學習模型**：直接手工設計輕量級網絡模型、剪枝、量化、基于神經架構搜索(Neural Architecture Search，NAS)[1]的網絡自動化設計以及知識蒸餾(Knowledge Distillation，KD)[2]**. 其中，知識蒸餾作為一種新興的模型壓縮方法，目前已成為深度學習領域的一個研究熱點和重點. 國內外許多大學和研究機構已經對知識蒸餾展開了深入研究，并且每年在機器學習和數據挖掘的國際頂級會議和知名期刊中都有關于知識蒸餾的文章發表.

知識蒸餾是一種教師-學生(Teacher-Student)訓練結構，通常是已訓練好的教師模型提供知識，學生模型通過蒸餾訓練來獲取教師的知識。它可以以輕微的性能損失為代價將復雜教師模型的知識遷移到簡單的學生模型中. 在后續的研究中，學術界和工業界擴展了知識蒸餾的應用范疇，提出了利用知識蒸餾來實現模型性能的增強. 基于此，本文根據應用場景劃分出基于知識蒸餾的模型壓縮和模型增強這兩個技術方向，即獲得的網絡模型是否為了應用于資源受限的設備. 圖 1 給出了這兩種技術對比的一個例子，其中的教師模型都是提前訓練好的復雜網絡. 模型壓縮和模型增強都是將教師模型的知識遷移到學生模型中. 所不同的是，模型壓縮是教師網絡在相同的帶標簽的數據集上指導學生網絡的訓練來獲得簡單而高效的網絡模型，如左圖的學生是高效的小規模網絡. 模型增強則強調利用其它資源(如無標簽或跨模態的數據)或知識蒸餾的優化策略(如相互學習和自學習)來提高一個復雜學生模型的性能. 如右圖中，一個無標簽的樣本同時作為教師和學生網絡的輸入，性能強大的教師網絡通常能預測出該樣本的標簽，然后利用該標簽去指導復雜的學生網絡訓練.

本文重點收集了近些年在人工智能、機器學習以及數據挖掘等領域的國際頂級會議(如 ICCV， ICML，EMNLP，KDD)與重要學術期刊(如 PAMI， TOIS，TKDE，TMM)上有關知識蒸餾的論文并加以整理、歸納和分析. 據我們所知，目前國內沒有知識蒸餾相關的中文綜述，而先前兩篇英文綜述[3,4] 和我們工作相似，但本文進一步完善了知識蒸餾的綜述. 具體地，本文與先前的英文綜述[3,4]至少有以下三點的不同：

（1）先前的研究都忽略了知識蒸餾在模型增強上的應用前景。在本文的研究調查中，知識蒸餾不僅可以用于模型壓縮，它還能通過互學習和自學習等優化策略來提高一個復雜模型的性能. 同時，知識蒸餾可以利用無標簽和跨模態等數據的特征，對模型增強也具有顯著的提升效果.
（2）先前的研究都沒有關注到結構化特征知識，而它在知識架構中又是不可或缺的。某個結構上的知識往往不是單一的，它們是有關聯的、多個知識形式組合. 充分利用教師網絡中的結構化特征知識對學生模型的性能提升是有利的，因此它在近兩年的工作中越發重要[5,6].
（3）本文從不同視角給出了基于知識蒸餾的描述，并提供了更多的知識介紹。在知識蒸餾的方法上，本文增加了知識合并和教師助理的介紹；在技術融合的小節，本文增加了知識蒸餾與自動編碼器、集成學習和聯邦學習的技術融合；在知識蒸餾的應用進展中，本文分別介紹了知識蒸餾在模型壓縮和模型增強的應用，并增加了多模態數據和金融證券的應用進展；在知識蒸餾的研究趨勢展望中，本文給出了更多的研究趨勢，特別是介紹了模型增強的應用前景.

總的來說，本文在文獻[3,4]基礎上，以不同的視角，提供更加全面的綜述，以便為后續學者了解或研究知識蒸餾提供參考指導.

本文組織結構如圖 2 所示. 第 2 節回顧了知識蒸餾的背景知識，包括它的由來；第 3 節解釋知識蒸餾的作用機制，即為什么知識蒸餾是有效的；第 4 節歸納知識蒸餾中知識的不同形式；第 5 節詳細分析了知識蒸餾的各種方法，其強調的是知識遷移的方式；第 6 節介紹知識蒸餾與其它技術融合的相關方法；第 7 節歸納知識蒸餾的應用進展；第 8 節給出了知識蒸餾的研究趨勢展望. 最后，第 9 節對本文工作進行總結.

2. 知識蒸餾的提出

知識蒸餾與較早提出的并被廣泛應用的一種機器學習方法的思想較為相似，即遷移學習[7]. 知識蒸餾與遷移學習都涉及到知識的遷移，然而它們有以下四點的不同： (1) 數據域不同. 知識蒸餾中的知識通常是在同一個目標數據集上進行遷移，而遷移學習中的知識往往是在不同目標的數據集上進行轉移. (2) 網絡結構不同. 知識蒸餾的兩個網絡可以是同構或者異構的，而遷移學習通常是在單個網絡上利用其它領域的數據知識. (3) 學習方式不同. 遷移學習使用其它領域的豐富數據的權重來幫助目標數據的學習，而知識蒸餾不會直接使用學到的權重. (4) 目的不同. 知識蒸餾通常是訓練一個輕量級的網絡來逼近復雜網絡的性能，而遷移學習是將已經學習到相關任務模型的權重來解決目標數據集的樣本不足問題.

3. 知識蒸餾的作用機制

Hinton 等人[2]認為，學生模型在知識蒸餾的過程中通過模仿教師模型輸出類間相似性的“暗知識” 來提高泛化能力. 軟目標攜帶著比硬目標更多的泛化信息來防止學生模型過擬合. 雖然知識蒸餾已經獲得了廣泛的應用，但是學生模型的性能通常是僅接近于教師模型. 特別地，給定學生和教師模型相同的大小卻能夠讓學生模型的性能超越教師模型[12]，性能越差的教師模型反倒教出了更好的學生模型[13]. 為了更好地理解知識蒸餾的作用，一些工作從數學或實驗上對知識蒸餾的作用機制進行了證明和解釋. 本文歸納為以下幾類：

(1) 軟目標為學生模型提供正則化約束. 這一結論最早可以追溯到通過貝葉斯優化來控制網絡超參數的對比試驗[14]，其表明了教師模型的軟目標為學生模型提供了顯著的正則化. 軟目標正則化的作用是雙向的，即還能將知識從較弱的教師模型遷移到能力更強大的學生模型中[15,16]. 一方面，軟目標通過標簽平滑訓練提供了正則化[15,16]，標簽平滑是通過避免了過分相信訓練樣本的真實標簽來防止訓練的過擬合[15]. 另一方面，軟目標通過置信度懲罰提供了正則化[12]，置信度懲罰讓學生模型獲得更好的泛化能力，其主要依賴于教師模型對正確預測的信心. 這兩種正則化的形式已經在數學上得到了證明. 總的來說，軟目標通過提供標簽平滑和置信度懲罰來對學生模型施加正則化訓練. 因此，即使沒有強大的教師模型，學生模型仍然可以通過自己訓練或手動設計的正則化項得到增強[16].

(2) 軟目標為學生模型提供了“特權信息” (Privileged Information). “特權信息”指教師模型提供的解釋、評論和比較等信息[17]. 教師模型在訓練的過程中將軟目標的“暗知識”遷移到學生模型中，而學生模型在測試的過程中并不能使用“暗知識”. 從這個角度看，知識蒸餾是通過軟目標來為學生模型傳遞“特權信息”.

(3) 軟目標引導了學生模型優化的方向. Phuong 等人[18]從模型訓練的角度證明了軟目標能引導學生模型的優化方向. 同時，Cheng 等人[19]從數學上驗證了軟目標使學生模型比從原始數據中進行優化學習具有更高的學習速度和更好的性能.

4 蒸餾的知識形式

原始知識蒸餾(Vanilla Knowledge Distillation)[2] 僅僅是從教師模型輸出的軟目標中學習出輕量級的學生模型. 然而，當教師模型變得更深時，僅僅學習軟目標是不夠的. 因此，我們不僅需要獲取教師模型輸出的知識，還需要學習隱含在教師模型中的其它知識，比如中間特征知識. 本節總結了可以使用的知識形式有輸出特征知識、中間特征知識、關系特征知識和結構特征知識. 知識蒸餾的 4 種知識形式的關系如圖 5 所示. 從學生解題的角度，這 4 種知識形式可以形象比喻為：輸出特征知識提供了解題的答案，中間特征知識提供了解題的過程，關系特征知識提供了解題的方法，結構特征知識則提供了完整的知識體系.

5 知識蒸餾的方法

本節從知識利用的方式，歸納和分析知識蒸餾的主要方法，包括知識合并、多教師學習、教師助理、跨模態蒸餾、相互蒸餾、終身蒸餾以及自蒸餾.

6 知識蒸餾與其它技術的融合

近幾年，研究人員發現知識蒸餾結合其它主流技術通常能夠提高其性能. 目前這些主流技術主要有：生成對抗網絡、神經架構搜索、強化學習、圖卷積、其它壓縮技術、自動編碼器、集成學習以及聯邦學習.

7 知識蒸餾的應用進展

知識蒸餾的最初目的是壓縮深度學習網絡模型，這在資源受限的終端設備上具有廣泛的應用. 但隨著研究的新進展，知識蒸餾不僅可以用于壓縮模型，還可以通過神經網絡的互學習、自學習等優化策略和無標簽、跨模態等數據資源對模型的性能增強也具有顯著的提升效果. 目前知識蒸餾的主要應用領域有計算機視覺、自然語言處理、語音識別、推薦系統、信息安全、多模態數據和金融證券. 知識蒸餾在計算機視覺、自然語言處理、語音識別和推薦系統上的應用根據其目的的不同，可以分為模型壓縮和模型增強. 模型壓縮是為了獲得簡單而高效的網絡模型，以方便部署于資源受限的設備. 而模型增強通常是利用其它資源(如無標簽或跨模態的數據)來獲取復雜的高性能網絡.

8 知識蒸餾的研究趨勢展望

知識蒸餾是一個新興的研究領域，它仍有許多值得深入探索和亟待解決的問題. 在這一節中，我們提出一些值得進一步深入探討的研究點，也是我們今后需要解決完善的研究方向.

(1) 如何確定何種知識是最佳的。知識蒸餾中的知識是一個抽象的概念，網絡參數，網絡的輸出和網絡的中間特征等都可以理解為知識. 但是何種知識是最佳的，或者哪些知識以互補的方式能成為最佳的通用知識表示？為了回答這個問題，我們需要了解每種知識以及不同種類組合知識的作用. 比如說，基于特征的知識通常用于模仿教師特征產生的過程，基于關系的知識常用于捕獲不同樣本之間或網絡層之間特征的關系. 當教師和學生的模型容量(“代溝”)較小的時候，學生只模仿教師的軟目標就可以獲得有競爭力的性能. 而當師生的“代溝” 較大時，需要將多種蒸餾的知識形式和方法結合來表示教師模型. 雖然能明白多種知識的組合方式通常能提高學生網絡的性能，但是使用哪些知識形式，方法和技術的組合是最優的，還尚無定論.
(2) 如何確定何處的知識是最佳的。一些工作隨機選擇中間網絡的某層特征作為知識，比如 FitNets[27]將教師前幾層的網絡特征作為特征蒸餾的位置. 然而他們都沒有提供一個理由，即為什么能夠成為代表性知識. 這主要是由于教師和學生模型結構的不一致導致的，即教師模型通常比學生模型擁有更多的網絡層. 因此，需要篩選教師模型中最具有代表性的特征. 然而教師模型中哪些特征層是最具有代表性的？這也是一個未解決的問題. 在基于關系的知識蒸餾中，也一樣無法解釋該選擇哪些層的關系知識作為學生模仿的對象. 如 FSP 矩陣[31] 隨機選擇教師模型的兩個網絡層作為關系蒸餾的位置. 關系知識蒸餾是容量無關的，即關系蒸餾僅僅需要獲取的是網絡層間或樣本間的關系知識. 因此這不是師生間的“代溝”問題，而是歸咎于知識其實是一個“黑盒”問題.
(3) 如何定義最佳的師生結構。知識蒸餾傳遞的并不是參數，而是抽取到的知識. 因此知識蒸餾是網絡架構無關的，即任何學生都可以向任何教師學習. 通常，容量更大的學生模型可以學習更多的知識，但復雜度過大會延長推理的時間. 容量更大的教師模型隱含著較多的知識和更強的能力，但是并非能力越強的教師就能產生更佳的學生模型[13]. 同時，每一個教師模型都有一個最強學生結構[100]. 因此，我們只能在給定的教師模型的前提下，找到最佳的學生模型. 然而在未指定教師模型的情況下，目前還無法確定最佳的學生模型.
(4) 如何衡量師生間特征的接近程度。知識蒸餾是要將教師網絡中的知識遷移到學生模型中，遷移效果的好壞最終可以通過學生網絡性能來體現. 然而在網絡訓練的過程中，只能通過損失函數去判斷教師和學生之間特征的接近程度. 因此需要提前設計好知識蒸餾的損失函數，如 KL 散度、均方誤差(Mean Squared Error，MSE)和余弦相似性. 而損失函數的選取受算法和離群點等因素的影響，并且，不同損失函數的作用范圍是不一樣的. 例如，通過 KL 散度衡量的兩個隨機分布上的相似度是非對稱的. 余弦相似性強調兩個向量的特征在方向上的差異，卻沒有考慮向量大小. MSE 在高維特征中的作用不明顯，且很容易被隨機特征混淆[4]. 因此，衡量師生間特征接近程度的方法是多樣化的，我們需要根據特定的問題和場景選取最合適的損失函數.
(5) 蒸餾的知識形式、方法和融合技術還需要深入探索。原始知識蒸餾將類間的關系信息作為知識，但這在“代溝”較大的師生網絡中效果不佳. 為了解決這一問題，后續的研究者尋找不同形式的“知識”來充實知識的內涵，如關系知識. 其知識的來源應該是多樣化的，可以來自于單個或多個的樣本和網絡本身. 同樣，知識蒸餾的方法和融合技術也能緩解甚至解決師生間的“代溝”問題，它們強調充分地利用知識來提高模型的表征能力. 新的知識形式、方法和融合技術的發現可能會伴隨著新的應用場景，這將豐富知識蒸餾的理論框架和實踐的應用.
(6) 模型壓縮和模型增強的深度融合. 模型壓縮是將強大的復雜教師模型中的“知識”遷移到簡單的學生模型中以滿足低資源設備的應用要求，而模型增強用于獲取高性能的復雜網絡. 模型壓縮和模型增強的融合是將教師模型中的“特權信息”遷移或繼續強化輕量級學生模型的性能. 例如，Liu 等人[206]通過從文本翻譯模型中遷移“特權信息”來改進輕量級的語音翻譯模型. 在未來的工作中，甚至能將無標簽或其它領域數據的“特權信息”來繼續加強一個輕量級學生模型的性能.
(7) 知識蒸餾在數據樣本增強上的應用. 深度學習是數據驅動型的，往往需要大規模的數據集才能避免過度擬合. 由于隱私和法律等原因，在一些領域上，通常無法獲取大規模的原始數據集，如醫療數據. 知識蒸餾需要足夠的數據，才能將教師網絡中的知識遷移到學生網絡中. 換句話說，數據是連接教師網絡和學生網絡的橋梁. 先前的研究已經證明了知識蒸餾在數據樣本增強上的廣闊應用前景，如通過知識蒸餾產生原始數據集的近似樣本[207]、使用其它相關數據的知識來減輕對目標數據集的依賴[208]以及教師和學生間部分網絡的共同訓練來提高具有小樣本學生網絡的性能[114]. 未來的工作需要繼續探索知識蒸餾在數據樣本增強上的應用場景和高效的蒸餾方法來實現小樣本學習(Few-Shot Learning)或零樣本學習(zero-shot learning).
(8) 知識蒸餾在數據標簽上的應用. 給數據上標簽需要特定領域的專業知識、大量的時間和成本. 可以利用知識蒸餾減少標注訓練數據的麻煩，解決數據標簽的問題. 如果該領域存在著強大的教師網絡，能通過知識蒸餾給無標簽的數據增加注釋. 具體地，教師網絡對未標記數據進行預測，并使用它們的預測信息充當學生模型數據的自動標注[209]. 以無標簽數據作為輸入的教師網絡會產生軟標簽，這恰好能為學生網絡提供學習的指導信息. 即使該領域沒有強大的教師網絡，也可以通過跨模態知識蒸餾，將其它領域的知識充當無標簽數據的監督信號[66]. 因此，知識蒸餾能夠減少對數據標簽的依賴，需要繼續研究它在半監督或無監督學習上的應用.

付費5元查看完整內容

相關內容

知識蒸餾

關注 22

實體對齊 · 知識圖譜 · 知識圖譜融合 · 綜述論文 ·

2022 年 3 月 15 日

[付費5元查看完整內容]「實體對齊」最新2022綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

東北大學《實體對齊》最新綜述論文

摘要

實體對齊(Entity Alignment)旨在發現不同知識圖譜(Knowledge Graph)中指代相同事物的實體，是知識圖譜融合的關鍵技術，近年來受到了廣泛的關注。早期，研究者們使用字符串的各種特征來進行實體對齊工作。近年來，隨著知識表示學習(Knowledge Representation Learning)技術的不斷發展，研究者們提出了許多基于知識表示學習的實體對齊方法，效果明顯優于傳統方法。然而，實體對齊的研究仍然存在著許多亟待解決的問題與挑戰，比如數據質量、計算效率等。本文從實體對齊的定義、數據集和評價指標出發，詳細深入地綜述和比較了傳統實體對齊方法和基于知識表示學習的實體對齊方法。針對傳統方法，分類介紹了基于相似性計算和基于關系推理的實體對齊方法，并深入研究了每類方法對字符特征、屬性特征、關系特征的利用，同時深入分析了不同方法之間的優勢與不足。針對基于知識表示學習的實體對齊方法，本文進行了重點討論、分析和對比。首先，本文將該類實體對齊方法抽象為由三個模塊(即嵌入模塊、交互模塊和對齊模塊)組成的統一框架，依據三個模塊對每個方法進行了詳細的綜述。進一步地，根據方法所利用的信息種類的不同，將已有方法劃分為基于結構信息、屬性信息、實體名信息、實體描述信息和綜合信息等八類方法，對每一類方法進行了詳細的綜述。然后，對基于知識表示學習的實體對齊方法進行了深入對比分析。最后，討論了實體對齊工作的主要挑戰，包括稀疏知識圖譜的處理、標注數據的缺乏和噪聲問題、方法的效率問題等，并對該工作的未來進行了展望。

//cjc.ict.ac.cn/online/bfpub/zf-202237100856.pdf

1 引言

近幾年，互聯網的快速發展促使各領域建立了越來越多包含互補信息的大規模知識圖譜 (Knowledge Graph)。同時，隨著鏈接數據(Linked Data)1計劃的發展，網絡上語義數據的數量不斷增加，而各應用領域面臨的主要挑戰之一就是集成越來越多獨立設計且存在于不同知識圖譜中的實體，使得大規模的知識圖譜之間可以高效協調。因此，如何發現不同知識圖譜實例之間的鏈接成為各個領域亟待解決的重要問題[1]。

尤其是，隨著近幾年知識圖譜的快速發展，涌現出大量的知識圖譜[2]。然而，目前很多的知識圖譜由不同機構和個人構建，這些知識圖譜的需求特定，設計和構建并不統一，因此互相之間存在異構和冗余問題。知識融合旨在將知識圖譜中的異構和冗余等信息進行對齊和合并，形成全局統一的知識標識和關聯[1]。實體對齊(Entity Alignment，EA) [3], [4] 是知識圖譜融合過程的關鍵技術，主要目的是發現不同知識圖譜之間的等價實體。由于不同知識圖譜的知識內容存在來源各異和人為理解不同，指代同一個事物的文字表達會各有不同。這是不同知識圖譜融合集成的顯著問題，影響共享數據的實現。因此，針對基于知識圖譜的知識融合研究，對后續大數據集成統一的技術探索和發展意義重大[5]。

實體對齊一般可以分為本體對齊和實例對齊，本體對齊重點關注類、屬性和關系，而實例對齊則更加注重真實世界中指代的具體事物[2]。早期的相關工作主要集中在本體對齊方面，近幾年隨著機器學習和深度學習的發展，也逐漸向實例對齊方向發展。本體對齊相對于實例對齊而言更加籠統概括，主要針對包含相似實例的一類實體；而實例對齊對信息的精細程度要求更多，也更加復雜。此外，實體對齊任務與傳統的實體消歧(鏈接)任務存在差異，傳統的實體消歧需要將文本內容中提及的實體，鏈接到知識圖譜或知識圖譜中的實體。然而實體對齊，是將兩個或者多個結構化的知識圖譜或知識圖譜中的實體進行等價對齊[6]。

隨著實體對齊技術的發展，許多學者提出了不同種類的實體對齊方法，涌現出大量的實體對齊研究文獻。早期，研究者們使用字符串的各種特征來進行實體對齊工作。近些年，隨著知識表示學習 (Knowledge Representation Learning)技術的快速發展，研究者們提出了許多基于知識表示學習的實體對齊方法，這些方法取得了比傳統方法更好的效果。然而，截止目前仍然缺少有關實體對齊技術全面而深入的方法綜述。已有的綜述文獻[7]主要概括了傳統實體對齊方法；文獻[8]僅針對基于圖神經網絡(Graph Neural Network，GNN)的實體對齊方法進行了簡略介紹；文獻[5]和[9]從實驗的角度，對部分實體對齊方法在數據集上的性能進行了深入比較分析。與上述已有綜述不同，本文從方法和技術層面，更加全面深入地綜述和比較了傳統實體對齊方法和基于知識表示學習的實體對齊方法，對這些已有方法進行了詳細的劃分與綜述。針對傳統方法，本文深入分析研究了每類方法對字符特征、屬性特征、關系特征的利用，進而對比了不同方法之間的優勢與不足。針對主流的基于知識表示學習的實體對齊方法，本文深入挖掘并研究了每種方法所利用的知識圖譜信息，根據所利用信息種類的不同將已有方法細分為八個類別，同時進行了詳細的綜述和對比分析。

基于以上分析，本文將實體對齊方法分為兩大類，一類是傳統的實體對齊方法，一類是基于知識表示學習的實體對齊方法。在給出實體對齊的問題定義、數據集和評價指標的基礎上，進一步詳細深入地綜述和比較了這兩大類方法。主要貢獻如下：

針對傳統方法，分類介紹了基于相似性計算和基于關系推理的實體對齊方法，并深入研究了每類方法對字符特征、屬性特征、關系特征的利用，同時深入分析了不同方法之間的優勢與不足。
針對基于知識表示學習的實體對齊方法，本文進行了重點討論、分析和對比：（i）本文將該類實體對齊方法抽象為由三個模塊(即嵌入模塊、交互模塊和對齊模塊)組成的統一框架，依據三個模塊對每個方法進行了詳細的綜述；（ii）根據方法所利用的知識圖譜信息種類的不同，將已有方法細分為基于結構信息、屬性信息、實體名信息、實體描述信息和綜合信息等八類方法，并對每類方法進行了詳細介紹和分析；（iii）進一步對基于知識表示學習的實體對齊方法進行了深入對比分析。分析結果表明，科學有效的迭代方法和對多種信息的利用都能夠提升方法的性能等。
討論了實體對齊工作的主要挑戰和未來方向，包括稀疏知識圖譜的處理、標注數據的缺乏和噪聲問題、方法的效率問題等。

本文后續章節安排如下：第 2 節給出實體對齊的問題定義、數據集和評價指標；第 3 節介紹傳統實體對齊方法；第 4 節綜述基于知識表示學習的實體對齊方法；第 5 節概括實體對齊工作的主要挑戰和未來方向；最后給出本文總結。

2 數據

3 傳統實體對齊方法

傳統的實體對齊方法大多數都集中在句法和結構上，尤其是早期的實體對齊和映射技術主要側重于計算實體之間標簽和字符的距離。傳統的實體對齊方法主要從兩個角度解決實體對齊問題：一類是基于相似度計算來比較實體的符號特征[11]，另一類是基于關系推理[32]，最近的研究還使用統計機器學習來提高準確性。本節將詳細綜述已有的傳統實體對齊方法，同時深入研究每類方法對字符特征、屬性特征、關系特征的利用，并進行對比分析。

4 基于知識表示學習的實體對齊方法

表示學習又叫做表征學習 (Representation Learning)，其目的是利用機器學習技術將描述對象表示為低維稠密的向量，兩個向量之間的距離反映的是兩個對象之間的語義關系。將表示學習應用于知識表示中，即知識表示學習 (Knowledge Representation Learning)，目的是實現知識圖譜中實體和實體之間關系的向量表示，通過降低高維實體和關系，得到低維向量的數值表示。基于知識表示學習技術能夠將實體和關系表示為低維向量空間的能力，許多研究者們提出了基于知識表示學習的實體對齊方法，該類方法也成為目前解決實體對齊問題的主要技術。通過深入研究這些方法，本文概括并抽象出一個統一的實體對齊框架，如圖 4 所示。其基本思想就是首先通過知識表示學習技術對知識圖譜進行嵌入，即嵌入模塊；之后根據已對齊的實體對將不同知識圖譜的嵌入空間映射到同一個向量空間中，即交互模塊；最后根據向量空間中實體之間的距離或者相似度得到實體對齊結果，即對齊模塊。此外，大多數方法還引入了迭代機制，將實體對齊結果添加至已經對齊的實體對中。本節接下來將對基于知識表示學習的實體對齊方法進行重點介紹、對比分析和總結。首先，依據圖 4 提到的三個模塊(即嵌入模塊、交互模塊和對齊模塊)對每一種方法進行了詳細介紹。同時，本文通過深入研究，對所有方法根據其利用的知識圖譜信息的不同進行了詳細的分類(見 4.2 節)。然后進一步對該類方法進行了詳細的對比，并對結果進行了深入的分析(見 4.3 節)。下面 4.1 節首先簡單介紹現有的知識表示學習技術，然后后續幾節重點綜述基于知識表示學習的實體對齊方法，并進行深入的對比分析。

4.1 知識表示學習技術 目前主要的知識表示學習技術可以分為三類：翻譯模型、語義匹配模型、深度模型[38], [39]。

**4.2 基于知識表示學習的實體對齊方法 **

基于知識表示學習的實體對齊方法已經成為目前解決實體對齊問題的主要技術，并取得了較好的效果，其中絕大多數方法都使用翻譯模型或圖神經網絡(Graph Neural Network, GNN) [59]進行知識表示學習，因為它們有著較強的魯棒性和泛化能力。

5 展望

從上述已有方法可以看出，目前基于知識表示學習的實體對齊方法主要包括三個模塊，分別是嵌入模塊、交互模塊和對齊模塊。嵌入模塊目前主要有三種方法，一種是利用 TransE 及其改進系列進行關系結構信息嵌入；一種是使用 GNN 構建鄰接關系圖進行嵌入；一種是使用 GNN 的改進模型 GCN 進行結構信息嵌入。嵌入模塊利用的信息主要有兩種，即結構信息和屬性信息。交互模塊的作用主要是將兩個不同的知識圖譜映射到同一向量空間，使得向量的計算在同一空間。目前聯系兩個知識圖譜的橋梁主要是預對齊的實體對，通過預對齊的實體對在不同向量空間的轉換和校準，統一兩個知識圖譜。對齊模塊的作用主要是根據已經嵌入的實體向量來計算距離，此外，還能通過一些推理策略選擇待對齊的實體。 值得注意的是，雖然基于知識表示學習的實體對齊方法取得了較為不錯的效果，但是這并不意味著傳統的實體對齊方法不具有研究價值。正如文獻 [5]也指出這兩類方法是相輔相成的，結合起來考慮會有可能取得更好的效果。 隨著知識圖譜的不斷完善，許多知識圖譜都變得越來越復雜，規模也越來越大，原有的實體對齊算法需要進一步考慮執行效率和準確率。為了解決這個問題，并行處理技術受到了越來越多地關注。目前研究工作將并行處理技術應用到實體對齊任務中的是極少數[7]，有關大規模知識圖譜的實體對齊問題仍然需要進行深入的研究和探索。

通過 4.3 節的對比分析，可以看到針對知識圖譜結構信息的利用還有待于繼續研究探索，無論是鄰接實體還是實體間的關系，均對知識圖譜的更準確表示起著至關重要的作用。使用神經網絡嵌入知識圖譜的結構信息時，如何緩解錯誤信息的傳播至關重要。目前普遍使用高速門機制，使得錯誤傳播的問題得到了一定程度的緩解，但是對于單跳和多跳實體的計算和信息傳播仍需繼續研究。此外，在知識圖譜結構信息嵌入表示方面，大多數實體對齊模型是以實體為中心，多方面信息輔助嵌入，在以后的研究中可以提高關系信息的占比，甚至可以以實體之間關系為中心研究嵌入表示，進而更深入地挖掘知識圖譜的結構信息。除了結構信息，加入原知識圖譜中的實體描述信息使得實體對齊效果顯著提高，如 BERT-INT，甚至可以忽略結構信息。但是在真實大型知識圖譜中，很多實體缺乏具體準確的描述信息，所以對結構信息以及其他未挖掘的信息有待于進一步深入研究。再者，在實體對齊任務中，大多數模型方法在通用數據集 DBP15K 數據集上獲得了不錯的效果。然而在實際大型真實知識圖譜的表現一般，因此如何進一步提出不同種類的數據集也成為實體對齊領域的重要研究問題。

付費5元查看完整內容

卷積神經網絡 · 知識蒸餾 · 神經網絡壓縮 · 輕量化網絡 · 綜述論文 ·

2021 年 10 月 23 日

[付費5元查看完整內容]卷積神經網絡壓縮中的知識蒸餾技術綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，卷積神經網絡（CNN）憑借強大的特征提取和表達能力，在圖像分析領域的諸多應用中取得了令人矚目的成就。但是，CNN性能的不斷提升幾乎完全得益于網絡模型的越來越深和越來越大，在這個情況下，部署完整的CNN往往需要巨大的內存開銷和高性能的計算單元（如GPU）支撐，而在計算資源受限的嵌入式設備以及高實時要求的移動終端上，CNN的廣泛應用存在局限性。因此，CNN迫切需要網絡輕量化。目前解決以上難題的網絡壓縮和加速途徑主要有知識蒸餾、網絡剪枝、參數量化、低秩分解、輕量化網絡設計等。首先介紹了卷積神經網絡的基本結構和發展歷程，簡述和對比了五種典型的網絡壓縮基本方法；然后重點針對知識蒸餾方法進行了詳細的梳理與總結，并在CIFAR數據集上對不同方法進行了實驗對比；其后介紹了知識蒸餾方法目前的評價體系，給出多類型方法的對比分析和評價；最后對該技術未來的拓展研究給出了初步的思考。

//fcst.ceaj.org/CN/abstract/abstract2907.shtml

付費5元查看完整內容

深度神經網絡 · 模型壓縮 ·

2020 年 8 月 22 日

[付費5元查看完整內容]深度神經網絡模型壓縮綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，隨著深度學習的飛速發展，深度神經網絡受到了越來越多的關注，在許多應用領域取得了顯著效果。通常，在較高的計算量下，深度神經網絡的學習能力隨著網絡層深度的增加而不斷提高，因此深度神經網絡在大型數據集上的表現非常卓越。然而，由于其計算量大、存儲成本高、模型復雜等特性，使得深度學習無法有效地應用于輕量級移動便攜設備。因此，壓縮、優化深度學習模型成為目前研究的熱點，當前主要的模型壓縮方法有模型裁剪、輕量級網絡設計、知識蒸餾、量化、體系結構搜索等。通過對以上方法的性能、優缺點和最新研究成果進行分析總結，對未來研究方向進行了展望。

付費5元查看完整內容

知識蒸餾 · 綜述論文 ·

2020 年 6 月 14 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】知識蒸餾是一種典型的模型壓縮和加速方法，在很多應用場景對此有需求。來自悉尼大學的學者發布了《知識蒸餾》的綜述論文，值的關注。

//arxiv.org/abs/2006.05525

近年來，深度神經網絡在工業和學術界取得了巨大的成功，特別是在視覺識別和神經語言處理方面的應用。深度學習的巨大成功，主要歸功于其巨大的可擴展性，既有大規模的數據樣本，也有數十億的模型參數。然而，在資源有限的設備如移動電話和嵌入式設備上部署這些笨重的深模型也帶來了巨大的挑戰，不僅因為計算量大，而且存儲空間大。為此，開發了各種模型壓縮和加速技術，如剪枝、量化和神經結構搜索。知識蒸餾是一種典型的模型壓縮和加速方法，旨在從大教師模型中學習小學生模型，越來越受到社會的關注。本文從知識分類、訓練方案、知識提取算法以及應用等方面對知識提取進行了綜述。此外，我們簡要回顧了知識提煉的挑戰，并對未來的研究課題提供了一些見解。

概述

在過去的幾年里，深度學習在人工智能領域取得了巨大的成功，包括計算機視覺(Krizhevsky et al.， 2012)、強化學習(Silver et al.， 2016)和神經語言處理(Devlin et al.， 2018)的各種應用。借助最近許多技術，包括殘差連接(He et al.， 2016)和批處理歸一化(Ioffe and Szegedy, 2015)，我們可以輕松地在強大的GPU或TPU集群上訓練具有數千層的深度模型。例如，只需不到10分鐘就可以在數百萬張圖像的數據集上訓練ResNet模型(Deng et al. , 2009 ; Sun et al. , 2019); 訓練一個強大的BERT模型進行語言理解只需要不到一個半小時 (Devlin et al., 2018; You et al., 2019).。雖然大規模的深度模型帶來了令人難以置信的性能，但其龐大的計算復雜度和海量的存儲需求給實時應用的部署帶來了巨大的挑戰，特別是對于那些資源有限的設備，比如嵌入式人臉識別系統和自動駕駛汽車。

為了開發高效的深度模型，最近的工作通常集中在1)基于深度可分離卷積的高效基本塊，如MobileNets (Howard et al. , 2017 ; Sandler et al. , 2018) 和ShuffleNets (Zhang et al. , 2018a ; Ma et al. , 2018); (2)模型壓縮和加速技術，主要包括以下類別(Cheng et al.， 2018)。

參數修剪和共享: 這些方法主要是去除深層神經網絡中不重要的參數，去除的參數對性能影響不大。該類別又分為模型量化(Wu et al.， 2016)和二值化(Courbariaux et al.， 2015)、參數共享(Han et al.， 2015)和結構矩陣(Sindhwani et al.， 2015)。
低秩分解: 這些方法通過矩陣/張量分解來探索深度神經網絡參數的冗余性(Denton et al.， 2014)。
傳輸/壓縮卷積濾波器: 這些方法通過傳輸/壓縮卷積濾波器來減少不必要的參數(Zhai et al.， 2016)。
知識蒸餾(KD): 這些方法通常將知識從一個較大的深度神經網絡提取到一個較小的網絡中(Hinton et al.， 2015)。

對模型壓縮和加速的全面回顧超出了本文涵蓋的范圍，而我們關注的是知識蒸餾，這已經得到越來越多的研究社區關注。在實踐中，大型深度模型往往會取得非常好的性能，因為過參數化提高了泛化性能 (Brutzkus and Globerson, 2019; Allen-Zhu et al., 2019; Arora et al., 2018)。知識蒸餾通過在大教師模型的監督下學習小學生模型，從而探究深度模型中參數的冗余性，用于推理(Bucilua et al., 2006; Ba and Caruana, 2014; Hinton et al., 2015; Urban et al., 2016)，而知識蒸餾的關鍵問題是如何將知識從大教師模型轉移到小學生模型。一般情況下，知識蒸餾的師生框架如圖1所示。雖然在實踐中取得了巨大的成功，但在理論或經驗上理解知識提煉方法的工作并不多(Cheng et al., 2020; Phuong and Lampert, 2019; Cho and Hariharan, 2019)。具體來說，為了理解知識蒸餾的工作機制，Phuong和Lampert在深度線性分類器的情況下，從理論上證明了學習精餾學生網絡快速收斂的泛化邊界(Phuong和Lampert, 2019)。這一解釋理論上回答了學生學習的內容和速度，并揭示了決定蒸餾成功的因素。蒸餾的成功依賴于數據幾何、蒸餾目標的優化偏差和學生分類器的強單調性。Cheng等人量化了來自深度神經網絡中間層的視覺概念知識，以解釋知識蒸餾(Cheng et al., 2020）。Cho和Hariharan對知識蒸餾的有效性進行了詳細的實證分析(Cho和Hariharan, 2019)。實證分析發現，由于模型容量的差距，較大的模型不一定是更好的老師(Mirzadeh et al.， 2019)，而精餾會對學生的學習產生不利影響。據我們所知，(Cho and Hariharan, 2019)忽略了對教師和學生之間不同知識、不同蒸餾和相互感情的經驗評價。此外，通過實證分析，從標簽平滑、教師和先驗對最優輸出層幾何形狀的預測置信度等角度探討了對知識蒸餾的理解(Tang et al.， 2020)。

模型壓縮的知識蒸餾思想與人類的學習方案非常相似。為此，近年來的知識蒸餾方法不僅擴展到了師生學習(Hinton et al.， 2015)，還擴展到了相互學習(Zhang et al.， 2018b)、自學(Yuan et al.， 2019)、輔助教學(Mirzadeh et al.， 2019)和終身學習(Zhai et al.， 2019)。知識蒸餾的大部分擴展集中于壓縮深度神經網絡，因此輕量級的學生網絡可以很容易地部署在諸如視覺識別、語音識別和自然語言處理(NLP)等應用程序中。此外，知識蒸餾中從一個模型到另一個模型的知識轉移符號也可以擴展到其他任務，如對抗攻擊(Papernot et al.， 2016b)、數據增強(Lee et al.， 2019a;Gordon和Duh, 2019)，數據隱私和安全(Wang等，2019a)。

本文對知識蒸餾的研究進行了綜述。本綜述的主要目的是1) 全面概述知識蒸餾，包括動機的背景，基本符號和公式，以及幾種典型知識，蒸餾和算法; 2) 全面回顧知識蒸餾的最新進展，包括理論、應用和在不同現實場景下的擴展; 3) 從知識遷移的不同角度，包括不同類型的知識、訓練方案、知識提煉算法/結構和應用，闡述知識蒸餾的一些挑戰和見解。本文組織概況如圖2所示。具體地說，本文的其余部分結構如下。第二節給出了知識蒸餾的重要概念和常規模型。知識和蒸餾的種類分別在第3節和第4節中進行了總結。現有的關于知識提煉中的師生結構的研究在第5部分進行了說明。第6節對許多最新的知識蒸餾方法進行了全面的總結和介紹。知識蒸餾的廣泛應用將在第7節的不同方面加以說明。第8節討論了知識蒸餾中具有挑戰性的問題和未來的方向。最后，在第9節給出結論。

付費5元查看完整內容

知識蒸餾 · Student-Teacher ·

2020 年 4 月 16 日

[付費5元查看完整內容]【綜述】面向視覺智能的知識蒸餾和Student-Teacher方法，附37頁pdf下載

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【簡介】近些年深度神經網絡幾乎在各個領域都取得了巨大的成功。然而，這些深度模型在尺寸上過于巨大，有幾百萬甚至上億的參數，造成了巨大的計算開銷，致使模型難以部署和落地。除此之外，模型的表現還高度依賴于大量的標注數據。為了使模型得到更加高效的訓練和處理標記數據不足的難題，知識蒸餾(KD)被用來遷移從一個模型到另一個模型學習到的知識。這個過程也經常被描述為student-teacher(S-T）學習框架，并且已經被廣泛應用到模型壓縮和知識遷移中。這篇論文主要介紹了知識蒸餾和student-teacher學習模型。首先，我們對于KD是什么，它是如何工作的提供了一個解釋和描述。然后，我們對近些年知識蒸餾方法的研究進展和典型用于視覺任務的S-T學習框架進行了一個全面的調研。最后，我們討論了知識蒸餾和S-T模型未來的發展方向和研究前景，以及目前這些方法所面臨的開放性挑戰。

介紹

深度神經網絡的成功主要依賴于精心設計的DNN架構。在大規模機器學習任務中，尤其是圖像識別和語音識別任務，大多數基于DNN的模型都是憑借大量的參數來提取特征從而保證模型的泛化能力。這種笨重的模型通常都有非常深和非常寬的特點，需要花費大量的時間進行訓練，而且不可能實時操作。所以，為了加速模型訓練，許多研究人員嘗試著利用預訓練的復雜模型來獲得輕量級的DNN模型，從而使得這些模型可以被部署應用。這是一篇關于知識蒸餾(KD)和student-teacher(S-T)學習模型的論文。一般來講，知識蒸餾被視作一種機制：當只給出小型的訓練集，其中包含相同或不同種類的樣本的時候，這種機制能夠使得人類快速學習新的，復雜的概念。在深度學習中，知識蒸餾是一個有效的方法，目前已經被廣泛的應用在了從一個網絡到另一個網絡的信息轉移上。知識蒸餾主要被應用在模型壓縮和知識遷移這兩個領域，對于模型壓縮，一個較小的學生模型被訓練來模仿一個預先訓練好的較大的模型。盡管知識和任務種類多樣，但是S-T框架是他們的一個相同點，其中提供知識的模型被稱作teacher,學習知識的模型被稱作student。我們對現有的知識蒸餾方法進行了重點分析和分類，其中還伴隨著各種類型的S-T結構的模型壓縮和知識轉移。我們回顧和調查了這一迅速發展的領域，強調了該領域的最新進展。雖然知識蒸餾方法已經應用于視覺智能、語音識別、自然語言處理等各個領域，但本文主要關注的是視覺領域的知識蒸餾方法，所以論文中關于知識蒸餾的大多數闡釋都是基于計算機視覺任務。由于知識蒸餾方法研究最多的領域是模型壓縮，所以我們系統地討論了該領域的技術細節、關鍵性挑戰和發展潛力。同時，重點介紹了在半監督學習、自監督學習等領域的知識遷移方法，重點介紹了以S-T學習框架為基礎的技術。

文章結構

section 2:探討知識蒸餾和S-T學習框架為什么會吸引如此多的關注。 section 3:關于知識蒸餾的理論分析。 section 4-section14:對目前的方法進行分類，并且分析了面臨的挑戰以及該領域的發展前景。 section 15：根據上面的分類結果，我們回答了section 2中提出的問題。 section 16:介紹了知識蒸餾和S-T框架的潛力。 section 17:總結。

付費5元查看完整內容