我們描述了深度學習在數學分析領域的進展。這個研究領域包含一系列的研究問題,這些問題在經典的學習理論框架內是無法回答的。這些問題: 超參數化神經網絡出色的泛化能力,深度在深度架構中的作用,維數災難的明顯缺失,盡管問題是非凸性的驚人成功的優化性能,理解什么特征被學習,為什么深層架構在物理問題上表現得非常好,以及架構的哪些優良方面以何種方式影響學習任務的行為。我們將概述對這些問題提供部分答案的現代方法。對于所選的方法,我們將更詳細地描述主要思想。
//www.zhuanzhi.ai/paper/53cef6ebf707cbf754318f25fd35f88f
引言
深度學習無疑已經成為現在最好的機器學習技術。這一主導地位是通過一系列在不同應用領域取得的壓倒性成功而確立的。也許深度學習最著名的應用,當然也是這些技術最先發展到最先進水平的應用之一是圖像分類[LBBH98, KSH12, SLJ+15, HZRS16]。在這一領域,深度學習是目前唯一被認真考慮的方法。深度學習分類器的能力如此強大,以至于它們在圖像標注任務上常常勝過人類[HZRS15]。
第二個著名的應用領域是訓練基于深度學習的代理玩棋盤游戲或電腦游戲,如雅達利游戲[MKS+13]。在這種情況下,可能最突出的成就是開發了一種算法,在圍棋游戲中擊敗了人類最好的棋手[SHM+16, SSS+17]——由于圍棋的極端復雜性,這在以前是不可想象的壯舉。此外,即使是在不完全信息的多人游戲中,基于深度學習的代理如今也超過了世界級的人類團隊[BBC+19, VBC+19]。除了玩游戲,深度學習也在自然科學領域帶來了令人印象深刻的突破。例如,它被用于藥物的開發[MSL+15],分子動力學[FHH+17],或在高能物理[BSW14]。最近科學應用領域最令人震驚的突破之一是基于深度學習的蛋白質折疊行為預測器的開發[SEJ+20]。這種預測器是第一個與基于實驗室的方法的準確性相匹配的方法。
最后,在包括理解、總結或生成文本等子任務的自然語言處理領域中,基于深度學習的研究取得了令人印象深刻的進展。這里,我們參考[YHPC18]進行概述。最近脫穎而出的一種技術是基于所謂的transformer神經網絡[BCB15, VSP+17]。這種網絡結構催生了令人印象深刻的GPT-3模型[BMR+20],該模型不僅可以生成連貫且引人注目的文本,還可以生成代碼,例如,根據用戶用簡單英語輸入的一些指令來設計網頁布局。transformer 神經網絡也成功地應用于符號數學領域[SGHK18, LC19]。
在本文中,我們將介紹并討論上述成功故事的數學基礎。更準確地說,我們的目標是概述數學分析深度學習這一新興領域。準確地描述這一領域,一個必要的準備步驟是加強我們對“深度學習”一詞的定義。在本文中,我們將從以下狹義上使用這個術語:深度學習是指使用基于梯度的方法訓練深度神經網絡的技術。這個狹義的定義有助于使本文更加簡潔。然而,我們想強調的是,我們并不以任何方式聲稱這是深度學習的最佳或正確定義。
在確定了深度學習的定義后,關于上述數學分析深度學習的新興領域出現了三個問題:在多大程度上需要數學理論?這真的是一個新的領域嗎?這一領域研究的問題有哪些?我們首先解釋對上述工具進行理論分析的必要性。從科學的角度來看,用數學來研究深度學習的主要原因是單純的好奇心。正如我們將在這篇文章中看到的,許多實際觀察到的現象并沒有從理論上解釋。此外,理論見解和全面理論的發展往往是發展新方法和改進方法的動力。具有這種效果的數學理論的突出例子是流體力學理論,它對飛機或汽車的設計是無價的資產,以及影響和塑造所有現代數字通信的信息理論。用Vapnik的話來說:“沒有什么比一個好的理論更實用”,[Vap13,前言]。除了有趣和實用之外,理論洞察力也可能是必要的。事實上,在機器學習的許多應用中,如醫療診斷、自動駕駛汽車和機器人技術,深度學習方法必須具有相當程度的控制和可預測性。此外,在銀行或保險等服務領域,技術應該是可控的,以確保做出公平和可解釋的決策。
接下來,讓我們來談談深度學習的數學分析領域是一個新興領域的說法。事實上,在上述深度學習的定義下,該技術主要有兩個組成部分:深度神經網絡和基于梯度的優化。第一個人工神經元已經在1943年[MP43]被引入。這個神經元沒有被訓練,而是被用來解釋一個生物神經元。這種人工神經元的第一個多層網絡也可以在[Ros58]中找到。從那時起,各種神經網絡體系結構被開發出來。我們將在下面的部分中詳細討論這些體系結構。第二個因素是基于梯度的優化,由于神經網絡的基于圖的結構,可以有效地計算目標函數相對于神經網絡參數的梯度,這使得基于梯度的優化成為可能。這已經通過不同的方式觀察到,見[Kel60, Dre62, Lin70, RHW86]。同樣,這些技術將在接下來的部分中討論。從那時起,技術得到了改進和推廣。其余的手稿都是在回顧這些方法,我們將保持對文獻的簡短討論。相反,我們從不同的角度回顧了深度學習的歷史:[LBH15, Sch15, GBC16, HH19]。
鑒于深度神經網絡的兩大主要組成部分已經存在很長時間,人們可以預期一個全面的數學理論已經發展出來,它描述了為什么以及什么時候基于深度學習的方法會表現良好,什么時候會失敗。統計學習理論[AB99, Vap99, CS02, BBL03, Vap13]描述了一般學習方法的性能的多個方面,特別是深度學習。我們將在下面的第1.2小節中在深度學習的背景下回顧這一理論。因此,我們將重點關注我們認為在機器學習社區中眾所周知的經典、深度學習相關的結果。盡管如此,對這些結果的選擇肯定是主觀的。我們會發現,現有的經典理論過于一般化,無法充分解釋深度學習的性能。在此背景下,我們將確定以下在經典學習理論框架內似乎難以回答的問題: 為什么經過訓練的深度神經網絡沒有對訓練數據過擬合,盡管該體系結構有著巨大參數? 與淺層架構相比,深層架構有什么優勢?為什么這些方法似乎沒有遭受維數災難咒?為什么優化程序經常成功地找到好的解決方案,盡管面臨非凸,非線性,經常非光滑的問題?體系結構的哪些方面影響相關模型的性能,以及如何影響?深度架構學習數據的哪些特征?為什么這些方法在自然科學中表現得和專業的數字工具一樣好,甚至更好?
歸一化方法可以提高深度神經網絡(DNN)的訓練穩定性、優化效率和泛化能力,已成為目前最先進的DNN體系結構的基本組成部分。它們還成功地擴散到深度學習的各個領域,包括但不限于計算機視覺、自然語言處理和語音識別。然而,盡管歸一化技術發揮了豐富和越來越重要的作用,我們注意到沒有一個統一的視角來描述、比較和分析它們。此外,我們對這些方法成功的理論基礎仍然難以理解。
本教程涵蓋了標準化方法、分析和應用程序,并將解決以下問題: (1) DNN中不同規范化方法背后的主要動機是什么?我們如何提出一種分類法來理解各種方法之間的異同? (2) 如何縮小標準化技術的經驗成功與我們對它們的理論理解之間的差距? (3) 針對不同任務設計/裁剪標準化技術的最新進展是什么?它們背后的主要見解是什么?
隨著以自然為靈感的純粹注意力模型,即transformer的出現,以及它們在自然語言處理(NLP)方面的成功,它們對機器視覺(MV)任務的擴展是不可避免的,而且感覺非常強烈。隨后,視覺變換器(ViTs)的引入給現有的基于深度學習的機器視覺技術帶來了挑戰。然而,純粹的基于注意力的模型/架構,如變換器,需要大量的數據、大量的訓練時間和大量的計算資源。最近的一些工作表明,這兩個不同領域的組合可以證明構建具有這兩個領域的優點的系統。據此,這一現狀的綜述論文是介紹,希望將幫助讀者得到有用的信息,這一有趣的和潛在的研究領域。首先介紹了注意力機制,然后討論了流行的基于注意力的深度架構。隨后,我們討論了基于機器視覺的注意機制與深度學習交叉的主要類別。然后,討論了本文研究范圍內的主要算法、問題和發展趨勢。
近年來,深度學習已經成為機器學習和計算機視覺、自然語言處理等相關領域的中心范式。但是對這一努力的許多方面的數學理解仍然缺乏。訓練何時成功,速度有多快? 用了多少例子? 各種架構的優點和局限性是什么? 本書重點研究深度學習的理論方面。
序列標記是一個基礎性研究問題,涉及詞性標記、命名實體識別、文本分塊等多種任務。盡管在許多下游應用(如信息檢索、問題回答和知識圖譜嵌入)中普遍和有效,傳統的序列標記方法嚴重依賴于手工制作或特定語言的特征。最近,深度學習已經被用于序列標記任務,因為它在自動學習實例的復雜特征和有效地產生藝術表現的強大能力。在本文中,我們旨在全面回顧現有的基于深度學習的序列標記模型,這些模型包括三個相關的任務,如詞性標記、命名實體識別和文本組塊。然后,在科學分類的基礎上,結合SL領域中廣泛使用的實驗數據集和常用的評價指標,系統地介紹了現有的方法。此外,我們還對不同的SL模型進行了深入分析,分析了可能影響SL領域性能和未來發展方向的因素。
序列標記是自然語言處理(NLP)中重要的一種模式識別任務。從語言學的角度來看,語言中最小的意義單位通常被認為是語素,因此每句話都可以看作是語素構成的序列。相應的,NLP領域中的序列標記問題可以將其表述為一種任務,目的是為一類在句子語法結構中通常具有相似角色和相似語法屬性的語素分配標簽,所分配標簽的意義通常取決于特定任務的類型,經典任務的例子有詞性標注[71]、命名實體識別(NER)[52]、文本分塊[65]等,在自然語言理解中起著至關重要的作用,有利于各種下游應用,如句法解析[81]、關系提取[64]和實體共指解析[78]等,并因此迅速得到廣泛關注。
通常,傳統的序列標記方法通常基于經典的機器學習技術,如隱馬爾科夫模型(HMM)[3]和條件隨機字段(CRFs)[51],這些技術通常嚴重依賴于手工制作的特征(如一個單詞是否大寫)或特定于語言的資源(如地名詞典)。盡管實現了卓越的性能,但對大量領域知識的需求和對特征工程的努力使得它們極難擴展到新的領域。在過去的十年中,深度學習(DL)由于其在自動學習復雜數據特征方面的強大能力而取得了巨大的成功。因此,對于如何利用深度神經網絡的表示學習能力來增強序列標記任務的研究已經有了很多,其中很多方法已經陸續取得了[8],[1],[19]的先進性能。這一趨勢促使我們對深度學習技術在序列標記領域的現狀進行了全面的綜述。通過比較不同深度學習架構的選擇,我們的目標是識別對模型性能的影響,以便后續研究人員更好地了解這些模型的優缺點。
本綜述的目的是全面回顧深度學習在序列標記(SL)領域的最新應用技術,并提供一個全景,以啟發和指導SL研究社區的研究人員和從業者快速理解和進入該領域。具體來說,我們對基于深度學習的SL技術進行了全面的調研,并按照嵌入模塊、上下文編碼器模塊和推理模塊三個軸進行了科學的分類,系統地總結了目前的研究現狀。此外,我們還概述了序列標記領域中常用任務的實驗設置(即數據集或評價指標)。此外,我們討論和比較了最具代表性的模型給出的結果,以分析不同因素和建筑的影響。最后,我們向讀者展示了當前基于dll的序列標記方法所面臨的挑戰和開放問題,并概述了該領域的未來發展方向。
本綜述旨在全面回顧深度學習技術在序列標注中的應用,并提供一個全景視圖,以便讀者對這一領域有一個全面的了解。我們以科學的分類學對文獻進行了總結。此外,我們提供了一般研究的序列標記問題的數據集和評價指標的概述。此外,我們還討論和比較了不同模型的結果,并分析了影響性能的因素和不同架構。最后,我們向讀者展示了當前方法面臨的挑戰和開放問題,并確定了該領域的未來方向。我們希望這項調查能對序列標記感興趣的研究者、從業者和教育者有所啟發和指導。
文本生成的目標是讓機器用人類語言表達。它是自然語言處理(NLP)中最重要也是最具挑戰性的任務之一。自2014年以來,各種由Seq2Seq首創的神經編解碼器模型被提出,通過學習將輸入文本映射到輸出文本來實現這一目標。然而,僅憑輸入文本往往無法提供有限的知識來生成所需的輸出,因此在許多真實場景中,文本生成的性能仍然遠遠不能令人滿意。為了解決這個問題,研究人員考慮將輸入文本之外的各種形式的知識納入生成模型中。這一研究方向被稱為知識增強文本生成。在這項綜述中,我們提出了一個全面的綜述,在過去的五年里,知識增強文本生成的研究。主要內容包括兩部分:(一)將知識集成到文本生成中的一般方法和體系結構;(二)根據不同形式的知識數據的具體技術和應用。這項綜述在學術界和工業可以有廣泛的受眾,研究人員和實踐者。
通過技術例子從業務角度發現深度學習的潛在應用、挑戰和機會。這些應用包括圖像識別、分割和注釋、視頻處理和注釋、語音識別、智能個人助理、自動翻譯和自動車輛。
面向開發者的深度學習業務應用介紹涵蓋了一些常見的DL算法,比如基于內容的推薦算法和自然語言處理。您將探索一些示例,例如使用全卷積神經網絡(FCNN)和剩余神經網絡(ResNets)進行視頻預測。您還將看到DL用于控制機器人的應用程序,使用蒙特卡羅樹搜索(用于在圍棋游戲中擊敗人類)探索DeepQ學習算法,以及為財務風險評估建模。這里還將提到一組被稱為生成對抗神經網絡(GANs)的強大算法,它可用于圖像著色、圖像補全和樣式轉換。
讀完這本書,你將對深度神經網絡這一令人興奮的領域有一個概述,并對深度學習的大部分主要應用有一個理解。這本書包含了一些代碼示例、技巧和如何使用Keras框架訓練深度學習模型的見解。
你將學到什么
這本書是給誰的
【導讀】深度學習革新了很多應用,但是背后的理論作用機制一直沒有得到統一的解釋。最近來自谷歌大腦和斯坦福的學者共同撰寫了深度學習統計力學的綜述論文《Statistical Mechanics of Deep Learning》,共30頁pdf,從物理學視角闡述了深度學習與各種物理和數學主題之間的聯系。
最近,深度神經網絡在機器學習領域取得了驚人的成功,這對它們成功背后的理論原理提出了深刻的疑問。例如,這樣的深度網絡可以計算什么?我們如何訓練他們?信息是如何通過它們傳播的?為什么他們可以泛化?我們如何教他們想象?我們回顧了最近的工作,其中物理分析方法植根于統計力學已經開始提供這些問題的概念上的見解。這些見解產生了深度學習與各種物理和數學主題之間的聯系,包括隨機景觀、旋轉玻璃、干擾、動態相變、混沌、黎曼幾何、隨機矩陣理論、自由概率和非平衡統計力學。事實上,統計力學和機器學習領域長期以來一直享有強耦合交互作用的豐富歷史,而統計力學和深度學習交叉領域的最新進展表明,這些交互作用只會進一步深化。
概述
具有多層隱含層(1)的深度神經網絡在許多領域都取得了顯著的成功,包括機器視覺(2)、語音識別(3)、自然語言處理(4)、強化學習(5),甚至在神經科學(6、7)、心理學(8、9)和教育(10)中對動物和人類自身的建模。然而,用于獲得成功的深度神經網絡的方法仍然是一門高度熟練的藝術,充滿了許多啟發,而不是一門精確的科學。這為理論科學提出了令人興奮的挑戰和機會,以創建一個成熟的深度神經網絡理論,該理論強大到足以指導在深度學習中廣泛的工程設計選擇。雖然我們目前離這樣成熟的理論還有很長的距離,但是最近在統計力學和深度學習交叉領域出現的一批研究已經開始為深度網絡的學習和計算提供理論上的見解,有時還會提出新的和改進的方法來推動這些理論的深入學習。
在這里,我們回顧了建立在統計力學和機器學習相互作用的悠久而豐富的歷史基礎上的這一工作體系(11-15)。有趣的是,正如我們下面所討論的,這些工作在統計力學和深度學習之間建立了許多新的橋梁。在本介紹的其余部分中,我們將為機器學習的兩個主要分支提供框架。第一個是監督學習,它涉及到從例子中學習輸入-輸出映射的過程。第二種是無監督學習,它涉及到學習和挖掘數據中隱藏的結構模式的過程。有了這兩個框架,我們將在1.3節中介紹本綜述中討論的幾個深度學習的基本理論問題,以及它們與與統計力學相關的各種主題的聯系。
教機器理解人類語言文檔是人工智能中最難以捉摸和長期存在的挑戰之一。本文探討了閱讀理解的問題:如何構建計算機系統來閱讀文章和回答理解問題。一方面,我們認為閱讀理解是評價計算機系統對人類語言理解程度的一項重要任務。另一方面,如果我們能夠構建高性能的閱讀理解系統,那么它將成為問答和對話系統等應用的關鍵技術。本文以神經閱讀理解為研究對象:一種基于深度神經網絡的閱讀理解模型。與傳統的稀疏的、手工設計的基于特征的模型相比,這些端到端神經模型在學習豐富的語言現象方面更加有效,并且在所有現代閱讀理解基準上的表現都有很大的提高。本文由兩部分組成。第一部分是對神經閱讀理解的本質進行概括,介紹我們在構建有效的神經閱讀理解模型方面所做的努力,更重要的是了解神經閱讀理解模型實際學到了什么,以及解決當前任務需要什么樣的語言理解深度。我們還總結了該領域的最新進展,討論了該領域的未來發展方向和有待解決的問題。在本文的第二部分,我們探討了如何在最近神經閱讀理解成功的基礎上建立實際應用。特別是,我們開創了兩個新的研究方向:1)如何將信息檢索技術與神經閱讀理解相結合,解決大規模開放領域的問題;(2)如何從當前的單圈、跨步閱讀理解模式中構建會話問答系統。我們在DrQA和CoQA項目中實現了這些想法,并證明了這些方法的有效性。我們相信他們對推動未來的語言技術有很大幫助。
深度學習(DL)在我們的生活中扮演著越來越重要的角色。它已經在癌癥診斷、精準醫療、自動駕駛汽車、預測預測和語音識別等領域產生了巨大的影響。在傳統的學習、分類和模式識別系統中使用的人工制作的特征提取器對于大型數據集是不可擴展的。在許多情況下,根據問題的復雜性,DL還可以克服早期淺層網絡的限制,這些限制阻礙了有效的訓練和多維培訓數據分層表示的抽象。深度神經網絡(DNN)使用多個(深度)單元層,具有高度優化的算法和體系結構。來自美國AJAY SHRESTHA等學者撰寫了深度學習算法與架構回顧綜述論文,包括深度學習算法類型與訓練方法,深入研究了最近深度網絡中使用的訓練算法背后的數學原理。本文還介紹了深度卷積網絡、深度殘差網絡、遞歸神經網絡、增強學習、變分自編碼器等不同類型的深度結構。