近年來,規模在自然語言處理的快速發展中發揮了核心作用。雖然基準測試被越來越大的模型所主導,但高效的硬件使用對于它們的廣泛采用和該領域的進一步發展至關重要。在這個尖端的教程中,我們將概括自然語言處理的最先進技術。在建立這些基礎之后,我們將介紹廣泛的提高效率的技術,包括知識蒸餾、量化、修剪、更高效的架構,以及案例研究和實際實現技巧。
貝葉斯概率模型為不確定性下的相干推理和預測提供了一個原則框架。近似推理解決了貝葉斯計算的關鍵挑戰,即計算棘手的后驗分布和相關數量,如貝葉斯預測分布。近十年來,貝葉斯建模技術在計算機視覺、自然語言處理、強化學習等領域的機器學習任務中得到了廣泛應用。
本教程對近似推理的最新進展進行了一個連貫的總結。我們將以介紹近似推理的概念和變分推理的基礎知識開始本教程。然后我們將描述現代近似推理的基本方面,包括可擴展推理、蒙特卡洛技術、平攤推理、近似后驗設計和優化目標。這些最新進展之間的聯系也將被討論。最后,我們將在下游不確定性估計和決策任務中的應用實例提供先進的近似推理技術,并對未來的研究方向進行討論。
自然語言處理中的預訓練模型
論文:【復旦大學】最新《預訓練語言模型》2020綜述論文大全,50+PTMs分類體系,25頁pdf205篇參考文獻
目前預訓練模型在自然語言處理領域取得了廣泛的成功。本報告的內容主要涵蓋以下4部分內容:1)預訓練模型的原理介紹,包括模型結構、學習準則、發展歷程等;2)預訓練模型的遷移方法:包括如何通過任務轉換、多步遷移、改進精調等方法來進一步提高預訓練模型在下游任務上的性能;3)預訓練模型的改進模型:包括知識嵌入模型、多模態模型、多語言模型、語言特定模型、領域特定模型和模型壓縮等;4)對預訓練模型及其未來發展趨勢進行展望。
自然語言處理中的預訓練模型
論文:【復旦大學】最新《預訓練語言模型》2020綜述論文大全,50+PTMs分類體系,25頁pdf205篇參考文獻
目前預訓練模型在自然語言處理領域取得了廣泛的成功。本報告的內容主要涵蓋以下4部分內容:1)預訓練模型的原理介紹,包括模型結構、學習準則、發展歷程等;2)預訓練模型的遷移方法:包括如何通過任務轉換、多步遷移、改進精調等方法來進一步提高預訓練模型在下游任務上的性能;3)預訓練模型的改進模型:包括知識嵌入模型、多模態模型、多語言模型、語言特定模型、領域特定模型和模型壓縮等;4)對預訓練模型及其未來發展趨勢進行展望。
自然語言處理中的自注意力模型
目前自注意力模型(比如Transformer)在自然語言處理領域取得了廣泛的成功。本報告主要介紹自注意力模型方面的一些工作,主要涵蓋兩部分內容:1)Transformer及其改進模型:通過分析Transformer的基本原理和優缺點,提出一些改進模型Star-Transformer、Multi-Scale Transformer、BP-Transformer等。2)Transformer模型的應用:將Transformer模型應用在文本分類、實體名識別等自然語言任務上,并通過針對性的改進來進一步提高性能。最后,對Transformer模型及其未來發展趨勢進行展望。
【導讀】DeepMind開設了一系列深度學習課程。本次課講述了深度學習計算機視覺。
繼上一講之后,DeepMind研究科學家Viorica Patraucean介紹了圖像分類之外的經典計算機視覺任務(目標檢測、語義分割、光流估計),并描述了每種任務的最新模型以及標準基準。她討論了視頻處理任務的類似模型,如動作識別、跟蹤和相關挑戰。她特別提到了最近提高視頻處理效率的工作,包括使用強化學習的元素。接下來,她介紹了單模態和多模態(vision+audio, visio+language)自監督學習的各種設置,在這些設置中,大規模學習是有益的。最后,Viorica討論了視覺中的開放問題,以及計算機視覺研究在構建智能代理這一更廣泛目標中的作用。
深度神經網絡最近展示了其解決復雜任務的驚人能力。如今的模型使用功能強大的GPU卡在數百萬個示例上進行訓練,能夠可靠地對圖像進行注釋、翻譯文本、理解口語或玩國際象棋或圍棋等戰略性游戲。此外,深度學習也將成為未來許多技術的組成部分,例如自動駕駛、物聯網(IoT)或5G網絡。特別是隨著物聯網的出現,智能設備的數量在過去幾年里迅速增長。這些設備中有許多都配備了傳感器,使它們能夠以前所未有的規模收集和處理數據。這為深度學習方法提供了獨特的機會。
然而,這些新的應用程序帶有許多附加的約束和要求,這些約束和要求限制了當前模型的開箱即用。
1. 嵌入式設備、物聯網設備和智能手機的內存和存儲容量有限,能源資源有限. 像VGG-16這樣的深度神經網絡需要超過500 MB的內存來存儲參數,執行單次向前傳遞需要15 gb的操作。很明顯,這些模型的當前(未壓縮的)形式不能在設備上使用。
2. 訓練數據通常分布在設備上,由于隱私問題或有限的資源(帶寬),無法簡單地在中央服務器上收集. 由于只有少量數據點的模型的局部訓練通常不太有希望,因此需要新的協作訓練方案來將深度學習的能力引入這些分布式應用程序。
本教程將討論最近提出的解決這兩個問題的技術。我們將首先簡要介紹深度學習,它的當前使用和今天的模型在計算和內存復雜性、能源效率和分布式環境方面的局限性。我們將強調解決這些問題的實際需要,并討論實現這一目標的最新進展,包括ITU ML5G和MPEG AHG CNNMCD正在開展的標準化活動。
然后我們將進入神經網絡壓縮的話題。我們將首先簡要介紹源編碼和信息論的基本概念,包括速率失真理論、量化、熵編碼和最小描述長度原則。這些概念需要形式化的神經網絡壓縮問題。然后我們將繼續討論壓縮DNNs的具體技術。為此,我們將區分壓縮過程的不同步驟,即剪枝和稀疏化、量化和熵編碼。前兩步是有損的,而最后一步是無損的。由于縮小尺寸并不是神經網絡壓縮的唯一目標(例如,快速推理、能源效率是其他目標),我們還將討論有效推理的方法,包括最近提出的神經網絡格式。最后,我們將介紹一個用例,即設備上的語音識別,演示如何在實際應用中使用壓縮方法。
最后我們將介紹分布式學習的最新發展。我們提出了不同的分布式訓練場景,并根據它們的通信特性進行了比較。接下來,我們將重點討論聯邦學習。我們列舉了聯邦學習中存在的挑戰——通信效率、數據異構性、隱私、個性化、健壯性——并提出了解決這些挑戰的方法。我們特別關注為減少分布式學習中的通信開銷而提出的技術,并討論集群化FL,這是一種與模型無關的分布式多任務優化的新方法。這里我們將強調本教程第一部分中介紹的概念的相似性,即稀疏化、量化和編碼。
目錄:
3.問題 4. 休息時間 5. 分布式學習
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。
題目: 自然語言處理中的表示學習進展:從Transfomer到BERT
報告人: 邱錫鵬 博士 復旦大學
摘要: 目前全連接自注意力模型(比如Transformer)在自然語言處理領域取得了廣泛的成功。本報告主要介紹我們在自注意力模型方面的一些工作,主要涵蓋兩部分內容:1)Transformer及其改進模型:通過分析Transformer的基本原理和優缺點,提出一些改進模型Star-Transformer、Multi-Scale Transformer等。2)預訓練的Transformer模型的遷移方法:雖然預訓練的Transformer模型(比如BERT、GPT等)在很多自然語言任務上都取得了非常好的性能,我們通過任務轉換、繼續預訓練、多任務學習等方法來進一步提高其遷移能力。最后,對Transformer模型及其未來發展趨勢進行展望。
在過去的幾年里,自然語言處理領域由于深度學習模型的大量使用而得到了發展。這份綜述提供了一個NLP領域的簡要介紹和一個快速的深度學習架構和方法的概述。然后,篩選了大量最近的研究論文,并總結了大量相關的貢獻。NLP研究領域除了計算語言學的一些應用外,還包括幾個核心的語言處理問題。然后討論了目前的技術水平,并對該領域今后的研究提出了建議。