亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

近年來,深度神經模型在幾乎每個領域都取得了成功,甚至解決了最復雜的問題。然而,這些模型的尺寸非常大,有數百萬(甚至數十億)個參數,需要強大的計算能力,以至于無法部署在邊緣設備上。此外,性能提升高度依賴于大量的標記數據。為了實現更快的速度和處理由于缺乏標記數據而引起的問題,知識蒸餾(KD)被提出,知識蒸餾是將從一個模型學到的信息遷移到另一個模型。KD通常以所謂的“學生-教師”(S-T)學習框架為特征,被廣泛應用于模型壓縮和知識轉移。本文是關于KD和S-T學習的研究,這兩種學習方法是近年來研究比較活躍的。首先,我們旨在解釋KD是什么以及它如何/為什么起作用。然后,我們對KD方法和S-T框架在視覺任務中的最新進展進行了全面的調研。總的來說,我們調研了推動這一研究領域的一些基本問題,并全面概括了研究進展和技術細節。系統分析了KD在視覺應用中的研究現狀。最后,我們討論了現有方法的潛力和開放挑戰,并展望了KD和S-T學習的未來方向。

引言

深度神經網絡(DNNs)的成功與否,通常取決于DNN體系結構的精心設計。在大規模機器學習中,特別是在圖像和語音識別等任務中,大多數基于DNN的模型都被過度參數化,以提取最顯著的特征,確保泛化。這種笨重的模型通常深度和寬度都很大,訓練時需要相當多的計算量,很難實時操作。因此,為了獲得更快的速度,許多研究人員一直試圖利用訓練過的笨重模型來獲得輕量級的DNN模型,這些模型可以部署在邊緣設備上。也就是說,當這個笨重的模型經過訓練后,可以使用它學習一個更適合實時應用或部署[1]的小模型,如圖1(a)所示。

另一方面,DNNs的性能也嚴重依賴于非常大且高質量的標簽來訓練數據集。由于這個原因,許多人都在努力減少標記訓練數據的數量,同時又不太影響DNNs的性能。處理這樣缺乏數據的情況的一種流行方法是從一個源任務轉移知識,以促進對目標任務的學習。一個典型的例子是半監督學習,在這種學習中,一個模型只用一小組有標記的數據和一大組沒有標記的數據來訓練。由于未標記的樣本的監督代價未定義,應用一致性代價或正則化方法來匹配標記和未標記數據的預測是至關重要的。在這種情況下,知識在假定教師和學生[2]雙重角色的模型內轉移。對于未標記的數據,學生照常學習;然而,教師產生目標,然后學生使用這些目標進行學習。如圖1(b)所示,這種學習度量的共同目標是在沒有額外訓練的情況下,從學生身上形成一個更好的教師模型。另一個典型的例子是自監督學習(self-supervised learning),該模型是用輸入轉換(例如,旋轉、翻轉、顏色變化、裁剪)構建的人工標簽來訓練的。在這種情況下,來自輸入轉換的知識被轉移到監督模型本身,以提高其性能,如圖1?所示。

本論文是關于知識蒸餾(KD)和師生學習(S-T)的研究,這是近年來研究的熱點。一般來說,KD被廣泛認為是一種主要的機制,當只給予具有相同或不同類別[3]的小訓練集時,KD可以使人類快速學習新的復雜概念。在深度學習中,KD是一種有效的技術,被廣泛用于在進行建設性訓練的同時將信息從一個網絡轉移到另一個網絡。KD最初由[4]定義,由Hinton等人[1]推廣。KD被廣泛應用于兩個不同的領域:模型壓縮(見圖1(a))和知識轉移(見圖1(b)和?)。對于模型壓縮,一個較小的學生模型被訓練來模擬一個預先訓練過的更大的模型或模型集合。雖然基于目的定義了各種形式的知識,但KD的一個共同特征是通過它的S-T框架來表征的,其中提供知識的模型稱為教師,學習知識的模型稱為學生。

在本研究中,我們重點分析和分類現有的KD方法,并結合不同類型的S-T結構,用于模型壓縮和知識遷移。我們回顧和調研這一迅速發展的領域,并特別強調最近的進展。KD方法在視覺智能、語音識別、自然語言處理(natural language processing, NLP)等各個領域都有應用,但本文主要關注的是視覺領域的KD方法,因為大部分的演示都是在計算機視覺任務上進行的。利用視覺中的KD原型可以方便地解釋用于自然語言處理和語音識別的KD方法。由于目前研究最多的KD方法是用于模型壓縮,我們系統地討論了其技術細節、挑戰和潛力。同時,我們也關注了半監督學習、自我監督學習等知識轉移的KD方法,重點關注了以S-T學習作為學習度量方式的技術。

我們將探索推動這一研究領域發展的一些基本問題。具體來說,KD和S-T學習的理論原理是什么?是什么讓一種蒸餾方法比其他方法更好?使用多個老師比使用一個老師好嗎?更大的模型總是能造就更好的老師和更魯棒的學生嗎?只有在教師模型存在的情況下,學生才能學習知識嗎?學生能自學嗎?離線KD總是比在線學習好嗎?

在討論這些問題的同時,我們結合現有KD方法的潛力,并結合S-T框架展望KD方法的未來發展方向。我們特別強調最近開發的技術的重要性,如神經結構搜索(NAS),圖神經網絡(GNNs),和增強KD的門控機制。此外,我們也強調KD方法的潛力,以解決在特定的領域的挑戰性的問題,如軌道變化是在12個360°的視覺和基于事件的視覺。

本文的主要貢獻有三個方面:

(1)對KD和S-T學習方法進行了全面的概述,包括問題定義、理論分析、一系列具有深度學習的KD方法以及視覺應用。

(2) 對KD方法和S-T框架的最新進展進行了分層、結構化的系統綜述和分析,并對每個類別的潛力和挑戰提出了見解和總結。

(3) 討論問題和開放問題,確定新的趨勢和未來的方向,為該研究領域提供深刻的指導。

本文的組織結構如下。首先,在第二章我們解釋了為什么我們需要關注KD和S-T學習。

請解釋為什么我們需要在第二節中關注KD和S-T學習。第三章對KD進行了理論分析。從第4節到第8節,我們對一些現有的方法進行了分類,從**基于教師數量的KD、基于數據格式的KD、在線/離線KD、基于標簽的KD,到具有新穎學習指標的KD第三章對KD進行了理論分析。從第4節到第8節,我們對一些現有的方法進行了分類,從基于教師數量的KD、基于數據格式的KD、在線/離線KD、基于標簽的KD,到具有新穎學習指標的KD。在討論這些KD方法的技術細節的基礎上,我們也分析了它們的挑戰和潛力。在第9節中,根據分類法,我們將討論第1節中提出的問題的答案。第10節介紹了KD和S-T學習的未來潛力,并在第11節給出了結論。由于篇幅有限,關于KD方法相關的新學習指標和KD應用方法的詳細介紹在suppll材料的第8和9節中給出。這份手稿還包括分類法/比較表和一些插圖的數字,這是不包括在這里由于缺乏空間。

圖2展示了KD和S-T學習的分類圖。

付費5元查看完整內容

相關內容

摘要

深度學習(Deep Learning, DL)是當前計算機視覺領域應用最廣泛的工具。它精確解決復雜問題的能力被用于視覺研究,以學習各種任務的深度神經模型,包括安全關鍵應用。然而,現在我們知道,DL很容易受到對抗性攻擊,這些攻擊可以通過在圖像和視頻中引入視覺上難以察覺的擾動來操縱它的預測。自2013年~[1]發現這一現象以來,引起了機器智能多個子領域研究人員的極大關注。在[2]中,我們回顧了計算機視覺社區在深度學習的對抗性攻擊(及其防御)方面所做的貢獻,直到2018年到來。這些貢獻中有許多啟發了這一領域的新方向,自見證了第一代方法以來,這一領域已顯著成熟。因此,作為[2]的后續成果,本文獻綜述主要關注自2018年以來該領域的進展。為了確保文章的真實性,我們主要考慮計算機視覺和機器學習研究的權威文獻。除了全面的文獻綜述外,本文還為非專家提供了該領域技術術語的簡明定義。最后,本文在文獻綜述和[2]的基礎上,討論了該方向面臨的挑戰和未來的展望。

//www.zhuanzhi.ai/paper/884c8b91ceec8cdcd9d3d0cc7bd2cf85

引言

深度學習(DL)[3]是一種數據驅動技術,可以在大數據集上精確建模復雜的數學函數。它最近為科學家在機器智能應用方面提供了許多突破。從DNA[4]的突變分析到腦回路[5]的重建和細胞數據[6]的探索; 目前,深度學習方法正在推進我們對許多前沿科學問題的知識。因此,機器智能的多個當代子領域迅速采用這種技術作為“工具”來解決長期存在的問題也就不足為奇了。隨著語音識別[7]和自然語言處理[8],計算機視覺是目前嚴重依賴深度學習的子領域之一。

計算機視覺中深度學習的興起是由Krizhevsky等人在2012年的開創性工作觸發的,他們報告了使用卷積神經網絡(CNN)[11]在硬圖像識別任務[10]上的記錄性能改善。自[9]以來,計算機視覺社區對深度學習研究做出了重大貢獻,這導致了越來越強大的神經網絡[12]、[13]、[14],可以在其架構中處理大量層——建立了“深度”學習的本質。計算機視覺領域的進步也使深度學習能夠解決人工智能(AI)的復雜問題。例如,現代人工智能的一個最高成就,即tabula-rasa learning[15],很大程度上要歸功于源于計算機視覺領域的殘差學習[12]。

由于深度學習[15]的(明顯)超人類能力,基于計算機視覺的人工智能被認為已經達到部署在安全和安保關鍵系統所需的成熟度。汽車自動駕駛[18],ATM的面部識別[19]和移動設備的面部識別技術[20]都是一些早期的真實世界的例子,描繪了現代社會對計算機視覺解決方案的發展信念。隨著高度活躍的基于深度學習的視覺研究,自動駕駛汽車[21],人臉識別[22],[23],機器人[24]和監控系統[25]等,我們可以預見,深度學習在關鍵安全計算機視覺應用中的無處不在。然而,由于深度學習[1]的對抗漏洞的意外發現,人們對這種前景產生了嚴重的擔憂。

Szegedy等人[1]發現,深度神經網絡預測可以在極低量級輸入擾動下被操縱。對于圖像而言,這些擾動可以限制在人類視覺系統的不可感知范圍內,但它們可以完全改變深度視覺模型的輸出預測(見圖1)。最初,這些操縱信號是在圖像分類任務[1]中發現的。然而,它們的存在現在已被公認為各種主流計算機視覺問題,如語義分割[27],[28];目標檢測[29],[30];目標跟蹤[31],[32]。文獻強調了對抗式干擾的許多特征,這使它們對作為實用技術的深度學習構成了真正的威脅。例如,可以反復觀察到,受攻擊的模型通常對操縱圖像[2],[17]的錯誤預測具有很高的置信度。同樣的微擾常常可以欺騙多個模型[33],[34]。文獻也見證了預先計算的擾動,稱為普遍擾動,可以添加到“任何”圖像,以高概率[35],[36]欺騙給定模型。這些事實對關鍵安全應用有著深遠的影響,特別是當人們普遍認為深度學習解決方案具有超越人類能力[15],[37]的預測能力時。

由于其重要性,對抗性攻擊(及其防御)的話題在過去五年中受到了研究團體的相當大的關注。在[2]中,我們調研了這個方向的貢獻,直到2018年到來。這些工作中的大多數可以被視為第一代技術,探索核心算法和技術,以欺騙深度學習或防御它的對抗性攻擊。其中一些算法激發了后續方法的靈感,進一步改進和適應核心攻擊和防御技術。這些第二代方法也被發現更多地關注其他視覺任務,而不僅僅是分類問題,這是這一方向早期貢獻的主要興趣主題。

自2018年以來,該研究方向的論文發表數量不斷增加(見圖2-a,b)。當然,這些出版物也包括文獻綜述的實例,如[38],[39],[40],[41],[42]。我們在這里提供的文獻綜述在許多方面不同于現有的綜述。這篇文章的獨特之處在于它是2的繼承。隨后的調研,如[41],通常緊跟[2];或者針對特定問題在[2]上建立[42]。近年來,這一方向在計算機視覺領域已經顯著成熟。通過構建[2]和后續文獻的見解,我們能夠為這一快速發展的研究方向提供更精確的技術術語定義。這也導致了本文所回顧的文獻的更連貫的結構,為此我們提供了基于研究團體當前對術語的理解的簡明討論。此外,我們關注出現在著名的計算機視覺和機器學習研究出版刊物的論文。專注于領先的貢獻使我們能夠為計算機視覺和機器學習研究人員提供一個更清晰的方向展望。更不用說,本文回顧了這個快速發展領域的最新貢獻,以提供迄今為止在這個方向上最全面的回顧。

本文的其余部分組織如下。在第二節中,我們提供了本文其余部分中使用的技術術語的定義。在第三節中,我們闡述了對抗性攻擊這一更廣泛的問題。第一代攻擊將在第四節中討論,接下來是第五節中關注分類問題的最近的攻擊。我們在第六節中關注分類問題之外的最近的攻擊,在第七節中關注針對物理世界的量身定制的攻擊。更多側重于存在對抗性例子的理論方面的貢獻將在第九節中討論。最近的防御方法是第十部分的主題。文章對第十一部分的文獻趨勢進行了反思,并對這一研究方向的前景和未來方向進行了討論。最后,我們在第十二節結束。

付費5元查看完整內容

?視覺識別是當前計算機視覺、模式識別乃至人工智能領域最重要、最活躍的研究領域之一。它具有重大的基礎重要性和強烈的工業需求。在大量訓練數據和新的強大計算資源的幫助下,深度神經網絡在許多具體任務上大大提高了其性能。雖然識別精度通常是新進展的首要考慮,但效率實際上是相當重要的,有時對學術研究和工業應用都至關重要。此外,整個社會也高度需要對效率的機遇和挑戰有深刻見解。雖然從不同角度對DNN的效率問題進行了全面的調研,但據我們所知,很少有系統地關注視覺識別,因此不清楚哪些進展適用于視覺識別,還有哪些需要關注。在本文中,我們回顧了近年來的研究進展,并對提高DNN相關視覺識別方法的效率提出了可能的新方向。我們不僅從模型的角度進行調研,而且還從數據的角度進行調研(在現有的調研中并非如此),并關注三種最常被研究的數據類型(圖像、視頻和點)。本文試圖通過全面的調研,對視覺識別問題進行系統的總結,以期對從事視覺識別研究的研究者和實踐者提供有價值的參考。

深度神經網絡(DNNs)在許多視覺識別任務中取得了巨大的成功。它們極大地改善了手寫數字識別[1]、人臉識別[2]、圖像分類[3]等長期存在的問題的性能。他們也使探索新的邊界,包括研究圖像和視頻字幕[4]-[6],身體姿勢估計[7],和許多其他。然而,這種成功通常取決于大量高質量的手標記訓練數據和最近非常先進的計算資源。顯然,在大多數成本敏感的應用程序中,這兩個條件通常過于昂貴而無法滿足。即使由于許多標注者的大量努力,人們確實有了足夠的高質量訓練數據,但要弄清楚如何在有限的資源和可接受的時間內訓練有效的模型,通常也是一個巨大的挑戰。假設模型可以以某種方式得到適當的訓練(無論花費多少努力),在終端用戶的實際應用程序中部署模型仍然不容易,因為運行時推斷必須適合可用的或負擔得起的資源,而且運行速度必須滿足實際需要,可以是實時的,甚至是更高的。因此,除了學術界通常最關注的準確性之外,效率是另一個重要問題,在大多數情況下,是實際應用中不可缺少的需求。

雖然目前使用DNN進行視覺識別任務的研究主要集中在準確性方面,但在效率方面仍有許多可喜的進展,特別是在最近幾年。在過去的兩年中,已經發表了許多關于DNN效率問題的調研論文,詳細內容見下文I-A小節。然而,這些方法都沒有重點關注視覺識別任務,特別是缺少有效處理視覺數據的專項工作,而視覺數據處理有其自身的特點。在實踐中,有效的視覺識別必須是一個系統的解決方案,不僅要考慮到緊湊/壓縮的網絡和硬件加速,而且還要正確處理視覺數據,這些數據可能是各種類型(如圖像、視頻和點),具有相當不同的屬性。這可能是缺乏關于這個主題的調研的一個重要原因。因此,就我們所知,本文首次對基于DNN的高效視覺識別進行了綜述。基于我們在主要視覺數據類型、它們的各種識別模型和網絡壓縮算法方面的專業知識和經驗,本課程旨在從各個方面系統地概述最近的進展和趨勢。

相比之下,本綜述主要關注從原始視覺數據到最終識別結果的生產全局效率,希望能幫助對現代視覺識別任務及其高效的基于DNN的解決方案感興趣的讀者。這篇論文在以下幾個方面也有我們所知的創新之處。1)系統地綜述了神經網絡在視覺識別領域的研究進展,這是我們所知的同類研究的首次。2)第一次總結了有效視覺識別的數據相關問題,包括數據壓縮、數據選擇和數據表示。3)從有利于視覺識別任務的角度研究網絡壓縮模型。4)在高效視覺識別領域,綜述了運行時推理和模型泛化的加速方法。5)對DNN高效視覺識別的挑戰、機遇和新方向進行深入討論。為了清楚地了解這個調研的脈絡,圖1是作為組織的藍圖。具體來說,在第二節中,我們將介紹視覺識別問題中常見的三種主要數據類型,并討論它們的屬性以及與它們相關的挑戰。第三節回顧了在實際識別部分之前的三個方面的工作: 數據壓縮、數據選擇和數據表示。第四節簡要介紹和分析了網絡壓縮在視覺識別領域的廣泛研究方向。第五部分對測試階段的高效模型泛化和快速推理的最新進展進行了總結,這對基于DNN的視覺識別系統的實際部署非常重要。最后,第六節概述了所有努力,以產生一個清晰的總體映射,并討論了一些重要的未發現的方面和新的研究方向。

付費5元查看完整內容

摘要

深度半監督學習是一個快速發展的領域,具有一系列的實際應用。

本文從模型設計和無監督損失函數的角度對深度半監督學習方法的基本原理和最新進展進行了全面的綜述。

我們首先提出了一種深度半監督學習分類法,該分類法對現有方法進行分類,包括深度生成方法、一致性正則化方法、基于圖的方法、偽標記方法和混合方法。然后,我們根據損失類型、貢獻和架構差異對這些方法進行了詳細的比較。

在總結近年來研究進展的基礎上,進一步探討了現有方法的不足之處,并提出了一些探索性的解決方案。

//arxiv.org/pdf/2103.00550.pdf

引言

深度學習一直是一個活躍的研究領域,在模式識別[1]、[2]、數據挖掘[3]、統計學習[4]、計算機視覺[5]、[6]、自然語言處理[7]、[8]等領域有著豐富的應用。它利用了大量高質量的標記數據,在[9]、[10]的理論和實踐中都取得了巨大的成功,特別是在監督學習場景中。然而,標簽樣品通常是困難的,昂貴的,或耗時獲得。標記過程通常需要專家的努力,這是訓練一個優秀的全監督深度神經網絡的主要限制之一。例如,在醫療任務中,測量是用昂貴的機器進行的,標簽是由多個人類專家耗時分析得出的。如果只有少數標記的樣本可用,建立一個成功的學習系統是具有挑戰性的。相比之下,未標記的數據通常是豐富的,可以很容易地或廉價地獲得。因此,它是可取的利用大量的未標記的數據,以改善學習性能給定的少量標記樣本。因此,半監督學習(semi-supervised learning, SSL)一直是近十年來機器學習領域的研究熱點。

SSL是一種學習范式,它與構建使用標記數據和未標記數據的模型有關。與只使用標記數據的監督學習算法相比,SSL方法可以通過使用額外的未標記實例來提高學習性能。通過對監督學習算法和非監督學習算法的擴展,可以很容易地獲得SSL算法。SSL算法提供了一種從未標記的示例中探索潛在模式的方法,減輕了對大量標記[13]的需求。根據系統的關鍵目標函數,可以有半監督分類、半監督聚類或半監督回歸。我們提供的定義如下:

  • 半監督分類。給定一個包含有標記的實例和無標記的實例的訓練數據集,半監督分類的目標是同時從有標記的和無標記的數據訓練分類器,這樣它比只在有標記的數據上訓練的有監督分類器更好。

  • 半監督聚類。假設訓練數據集由未標記的實例和一些關于聚類的監督信息組成,半監督聚類的目標是獲得比單獨從無標記數據聚類更好的聚類。半監督聚類也稱為約束聚類。

  • 半監督回歸。給定一個包含有標記的實例和沒有標記的實例的訓練數據集,半監督回歸的目標是從一個單獨帶有標記數據的回歸算法改進回歸算法的性能,該回歸算法預測一個實值輸出,而不是一個類標簽。

為了更清楚、更具體地解釋SSL,我們重點研究了圖像分類問題。本調查中描述的思想可以毫無困難地適應其他情況,如對象檢測,語義分割,聚類,或回歸。因此,在本研究中,我們主要回顧了利用未標記數據進行圖像分類的方法。

SSL方法有很多種,包括生成模型[14],[15],半監督支持向量機[16],[17],基于圖的方法[18],[19],[20],[21]和聯合訓練[22]。我們向感興趣的讀者推薦[12]、[23],它們提供了傳統SSL方法的全面概述。目前,深度神經網絡已經在許多研究領域占據主導地位。重要的是要采用經典的SSL框架,并為深度學習設置開發新的SSL方法,這將導致深度半監督學習(DSSL)。DSSL研究了如何通過深度神經網絡有效地利用標記數據和未標記數據。已經提出了相當多的DSSL方法。根據半監督損失函數和模型設計最顯著的特征,我們將DSSL分為五類,即生成法、一致性正則化法、基于圖的方法、偽標記方法和混合方法。本文獻使用的總體分類法如圖1所示。

在[12],[23]中有很多具有代表性的作品,但是一些新興的技術并沒有被納入其中,尤其是在深度學習取得巨大成功之后。例如,深度半監督方法提出了新的技術,如使用對抗訓練生成新的訓練數據。另外,[13]側重于統一SSL的評價指標,[24]只回顧了SSL的一部分,沒有對SSL進行全面的概述。最近,Ouali等人的綜述[25]給出了與我們類似的DSSL概念。然而,它不能與現有的方法相比,基于它們的分類,并提供了未來的趨勢和存在的問題的觀點。在前人研究的基礎上,結合最新的研究,我們將對基礎理論進行綜述,并對深度半監督方法進行比較。總結一下,我們的貢獻如下:

我們對DSSL方法進行了詳細的回顧,并介紹了主要DSSL方法的分類、背景知識和變體模型。人們可以很快地掌握DSSL的前沿思想。

我們將DSSL方法分為生成方法、一致性正則化方法、基于圖形的方法、偽標記方法和混合方法,每一種方法都有特定的類型。我們回顧了每一類的變體,并給出了標準化的描述和統一的示意圖。

我們確定了該領域的幾個開放問題,并討論了DSSL的未來方向。

付費5元查看完整內容

近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。

//compstat-lmu.github.io/seminar_nlp_ss20/

在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。

這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。

為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。

遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。

為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。

在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。

本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。

付費5元查看完整內容

自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。

//arxiv.org/abs/2011.00362

概述:

隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。

傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。

監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。

生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。

付費5元查看完整內容

近年來,隨著深度學習的飛速發展,深度神經網絡受到了越來越多的關注,在許多應用領域取得了顯著效果。通常,在較高的計算量下,深度神經網絡的學習能力隨著網絡層深度的增加而不斷提高,因此深度神經網絡在大型數據集上的表現非常卓越。然而,由于其計算量大、存儲成本高、模型復雜等特性,使得深度學習無法有效地應用于輕量級移動便攜設備。因此,壓縮、優化深度學習模型成為目前研究的熱點,當前主要的模型壓縮方法有模型裁剪、輕量級網絡設計、知識蒸餾、量化、體系結構搜索等。通過對以上方法的性能、優缺點和最新研究成果進行分析總結,對未來研究方向進行了展望。

付費5元查看完整內容

【導讀】知識蒸餾是一種典型的模型壓縮和加速方法,在很多應用場景對此有需求。來自悉尼大學的學者發布了《知識蒸餾》的綜述論文,值的關注。

//arxiv.org/abs/2006.05525

近年來,深度神經網絡在工業和學術界取得了巨大的成功,特別是在視覺識別和神經語言處理方面的應用。深度學習的巨大成功,主要歸功于其巨大的可擴展性,既有大規模的數據樣本,也有數十億的模型參數。然而,在資源有限的設備如移動電話和嵌入式設備上部署這些笨重的深模型也帶來了巨大的挑戰,不僅因為計算量大,而且存儲空間大。為此,開發了各種模型壓縮和加速技術,如剪枝、量化和神經結構搜索。知識蒸餾是一種典型的模型壓縮和加速方法,旨在從大教師模型中學習小學生模型,越來越受到社會的關注。本文從知識分類、訓練方案、知識提取算法以及應用等方面對知識提取進行了綜述。此外,我們簡要回顧了知識提煉的挑戰,并對未來的研究課題提供了一些見解。

概述

在過去的幾年里,深度學習在人工智能領域取得了巨大的成功,包括計算機視覺(Krizhevsky et al., 2012)、強化學習(Silver et al., 2016)和神經語言處理(Devlin et al., 2018)的各種應用。借助最近許多技術,包括殘差連接(He et al., 2016)和批處理歸一化(Ioffe and Szegedy, 2015),我們可以輕松地在強大的GPU或TPU集群上訓練具有數千層的深度模型。例如,只需不到10分鐘就可以在數百萬張圖像的數據集上訓練ResNet模型(Deng et al. , 2009 ; Sun et al. , 2019); 訓練一個強大的BERT模型進行語言理解只需要不到一個半小時 (Devlin et al., 2018; You et al., 2019).。雖然大規模的深度模型帶來了令人難以置信的性能,但其龐大的計算復雜度和海量的存儲需求給實時應用的部署帶來了巨大的挑戰,特別是對于那些資源有限的設備,比如嵌入式人臉識別系統和自動駕駛汽車。

為了開發高效的深度模型,最近的工作通常集中在1)基于深度可分離卷積的高效基本塊,如MobileNets (Howard et al. , 2017 ; Sandler et al. , 2018) 和ShuffleNets (Zhang et al. , 2018a ; Ma et al. , 2018); (2)模型壓縮和加速技術,主要包括以下類別(Cheng et al., 2018)。

  • 參數修剪和共享: 這些方法主要是去除深層神經網絡中不重要的參數,去除的參數對性能影響不大。該類別又分為模型量化(Wu et al., 2016)和二值化(Courbariaux et al., 2015)、參數共享(Han et al., 2015)和結構矩陣(Sindhwani et al., 2015)。

  • 低秩分解: 這些方法通過矩陣/張量分解來探索深度神經網絡參數的冗余性(Denton et al., 2014)。

  • 傳輸/壓縮卷積濾波器: 這些方法通過傳輸/壓縮卷積濾波器來減少不必要的參數(Zhai et al., 2016)。

  • 知識蒸餾(KD): 這些方法通常將知識從一個較大的深度神經網絡提取到一個較小的網絡中(Hinton et al., 2015)。

對模型壓縮和加速的全面回顧超出了本文涵蓋的范圍,而我們關注的是知識蒸餾,這已經得到越來越多的研究社區關注。在實踐中,大型深度模型往往會取得非常好的性能,因為過參數化提高了泛化性能 (Brutzkus and Globerson, 2019; Allen-Zhu et al., 2019; Arora et al., 2018)。知識蒸餾通過在大教師模型的監督下學習小學生模型,從而探究深度模型中參數的冗余性,用于推理(Bucilua et al., 2006; Ba and Caruana, 2014; Hinton et al., 2015; Urban et al., 2016),而知識蒸餾的關鍵問題是如何將知識從大教師模型轉移到小學生模型。一般情況下,知識蒸餾的師生框架如圖1所示。雖然在實踐中取得了巨大的成功,但在理論或經驗上理解知識提煉方法的工作并不多(Cheng et al., 2020; Phuong and Lampert, 2019; Cho and Hariharan, 2019)。具體來說,為了理解知識蒸餾的工作機制,Phuong和Lampert在深度線性分類器的情況下,從理論上證明了學習精餾學生網絡快速收斂的泛化邊界(Phuong和Lampert, 2019)。這一解釋理論上回答了學生學習的內容和速度,并揭示了決定蒸餾成功的因素。蒸餾的成功依賴于數據幾何、蒸餾目標的優化偏差和學生分類器的強單調性。Cheng等人量化了來自深度神經網絡中間層的視覺概念知識,以解釋知識蒸餾(Cheng et al., 2020)。Cho和Hariharan對知識蒸餾的有效性進行了詳細的實證分析(Cho和Hariharan, 2019)。實證分析發現,由于模型容量的差距,較大的模型不一定是更好的老師(Mirzadeh et al., 2019),而精餾會對學生的學習產生不利影響。據我們所知,(Cho and Hariharan, 2019)忽略了對教師和學生之間不同知識、不同蒸餾和相互感情的經驗評價。此外,通過實證分析,從標簽平滑、教師和先驗對最優輸出層幾何形狀的預測置信度等角度探討了對知識蒸餾的理解(Tang et al., 2020)。

模型壓縮的知識蒸餾思想與人類的學習方案非常相似。為此,近年來的知識蒸餾方法不僅擴展到了師生學習(Hinton et al., 2015),還擴展到了相互學習(Zhang et al., 2018b)、自學(Yuan et al., 2019)、輔助教學(Mirzadeh et al., 2019)和終身學習(Zhai et al., 2019)。知識蒸餾的大部分擴展集中于壓縮深度神經網絡,因此輕量級的學生網絡可以很容易地部署在諸如視覺識別、語音識別和自然語言處理(NLP)等應用程序中。此外,知識蒸餾中從一個模型到另一個模型的知識轉移符號也可以擴展到其他任務,如對抗攻擊(Papernot et al., 2016b)、數據增強(Lee et al., 2019a;Gordon和Duh, 2019),數據隱私和安全(Wang等,2019a)。

本文對知識蒸餾的研究進行了綜述。本綜述的主要目的是1) 全面概述知識蒸餾,包括動機的背景,基本符號和公式,以及幾種典型知識,蒸餾和算法; 2) 全面回顧知識蒸餾的最新進展,包括理論、應用和在不同現實場景下的擴展; 3) 從知識遷移的不同角度,包括不同類型的知識、訓練方案、知識提煉算法/結構和應用,闡述知識蒸餾的一些挑戰和見解。本文組織概況如圖2所示。具體地說,本文的其余部分結構如下。第二節給出了知識蒸餾的重要概念和常規模型。知識和蒸餾的種類分別在第3節和第4節中進行了總結。現有的關于知識提煉中的師生結構的研究在第5部分進行了說明。第6節對許多最新的知識蒸餾方法進行了全面的總結和介紹。知識蒸餾的廣泛應用將在第7節的不同方面加以說明。第8節討論了知識蒸餾中具有挑戰性的問題和未來的方向。最后,在第9節給出結論。

付費5元查看完整內容

當對大量的標記數據集合(如ImageNet)進行訓練時,深度神經網絡展示了它們在特殊監督學習任務(如圖像分類)上的卓越表現。然而,創建這樣的大型數據集需要大量的資源、時間和精力。這些資源在很多實際案例中可能無法獲得,限制了許多深度學習方法的采用和應用。為了尋找數據效率更高的深度學習方法,以克服對大型標注數據集的需求,近年來,我們對半監督學習應用于深度神經網絡的研究興趣日益濃厚,通過開發新的方法和采用現有的半監督學習框架進行深度學習設置。在本文中,我們從介紹半監督學習開始,對深度半監督學習進行了全面的概述。然后總結了在深度學習中占主導地位的半監督方法。

付費5元查看完整內容

A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷積神經網絡(CNNs)最近在許多視覺識別任務中取得了巨大的成功。然而,現有的深度神經網絡模型在計算上是昂貴的和內存密集型的,這阻礙了它們在低內存資源的設備或有嚴格時間延遲要求的應用程序中的部署。因此,在不顯著降低模型性能的情況下,在深度網絡中進行模型壓縮和加速是一種自然的思路。在過去幾年中,這方面取得了巨大的進展。本文綜述了近年來發展起來的壓縮和加速CNNs模型的先進技術。這些技術大致分為四種方案: 參數剪枝和共享、低秩因子分解、傳輸/緊湊卷積過濾器和知識蒸餾。首先介紹參數修剪和共享的方法,然后介紹其他技術。對于每種方案,我們都提供了關于性能、相關應用程序、優點和缺點等方面的詳細分析。然后我們將討論一些最近比較成功的方法,例如,動態容量網絡和隨機深度網絡。然后,我們調查評估矩陣、用于評估模型性能的主要數據集和最近的基準測試工作。最后,對全文進行總結,并對今后的研究方向進行了展望。

付費5元查看完整內容
北京阿比特科技有限公司