深度學習在實踐中的顯著成功,從理論的角度揭示了一些重大的驚喜。特別是,簡單的梯度方法很容易找到非凸優化問題的接近最優的解決方案,盡管在沒有任何明確的努力控制模型復雜性的情況下,這些方法提供了近乎完美的訓練數據,這些方法顯示了優秀的預測精度。我們推測這些現象背后有特定的原理: 過度參數化允許梯度方法找到插值解,這些方法隱含地施加正則化,過度參數化導致良性過擬合,也就是說,盡管過擬合訓練數據,但仍能準確預測。在這篇文章中,我們調查了統計學習理論的最新進展,它提供了在更簡單的設置中說明這些原則的例子。我們首先回顧經典的一致收斂結果以及為什么它們不能解釋深度學習方法的行為方面。我們在簡單的設置中給出隱式正則化的例子,在這些例子中,梯度方法可以得到完美匹配訓練數據的最小范數函數。然后我們回顧顯示良性過擬合的預測方法,關注二次損失的回歸問題。對于這些方法,我們可以將預測規則分解為一個用于預測的簡單組件和一個用于過擬合的尖狀組件,但在良好的設置下,不會損害預測精度。我們特別關注神經網絡的線性區域,其中網絡可以用一個線性模型來近似。在這種情況下,我們證明了梯度流的成功,并考慮了雙層網絡的良性過擬合,給出了精確的漸近分析,精確地證明了過參數化的影響。最后,我們強調了在將這些見解擴展到現實的深度學習設置中出現的關鍵挑戰。
我們描述了深度學習在數學分析領域的進展。這個研究領域包含一系列的研究問題,這些問題在經典的學習理論框架內是無法回答的。這些問題: 超參數化神經網絡出色的泛化能力,深度在深度架構中的作用,維數災難的明顯缺失,盡管問題是非凸性的驚人成功的優化性能,理解什么特征被學習,為什么深層架構在物理問題上表現得非常好,以及架構的哪些優良方面以何種方式影響學習任務的行為。我們將概述對這些問題提供部分答案的現代方法。對于所選的方法,我們將更詳細地描述主要思想。
//www.zhuanzhi.ai/paper/53cef6ebf707cbf754318f25fd35f88f
引言
深度學習無疑已經成為現在最好的機器學習技術。這一主導地位是通過一系列在不同應用領域取得的壓倒性成功而確立的。也許深度學習最著名的應用,當然也是這些技術最先發展到最先進水平的應用之一是圖像分類[LBBH98, KSH12, SLJ+15, HZRS16]。在這一領域,深度學習是目前唯一被認真考慮的方法。深度學習分類器的能力如此強大,以至于它們在圖像標注任務上常常勝過人類[HZRS15]。
第二個著名的應用領域是訓練基于深度學習的代理玩棋盤游戲或電腦游戲,如雅達利游戲[MKS+13]。在這種情況下,可能最突出的成就是開發了一種算法,在圍棋游戲中擊敗了人類最好的棋手[SHM+16, SSS+17]——由于圍棋的極端復雜性,這在以前是不可想象的壯舉。此外,即使是在不完全信息的多人游戲中,基于深度學習的代理如今也超過了世界級的人類團隊[BBC+19, VBC+19]。除了玩游戲,深度學習也在自然科學領域帶來了令人印象深刻的突破。例如,它被用于藥物的開發[MSL+15],分子動力學[FHH+17],或在高能物理[BSW14]。最近科學應用領域最令人震驚的突破之一是基于深度學習的蛋白質折疊行為預測器的開發[SEJ+20]。這種預測器是第一個與基于實驗室的方法的準確性相匹配的方法。
最后,在包括理解、總結或生成文本等子任務的自然語言處理領域中,基于深度學習的研究取得了令人印象深刻的進展。這里,我們參考[YHPC18]進行概述。最近脫穎而出的一種技術是基于所謂的transformer神經網絡[BCB15, VSP+17]。這種網絡結構催生了令人印象深刻的GPT-3模型[BMR+20],該模型不僅可以生成連貫且引人注目的文本,還可以生成代碼,例如,根據用戶用簡單英語輸入的一些指令來設計網頁布局。transformer 神經網絡也成功地應用于符號數學領域[SGHK18, LC19]。
在本文中,我們將介紹并討論上述成功故事的數學基礎。更準確地說,我們的目標是概述數學分析深度學習這一新興領域。準確地描述這一領域,一個必要的準備步驟是加強我們對“深度學習”一詞的定義。在本文中,我們將從以下狹義上使用這個術語:深度學習是指使用基于梯度的方法訓練深度神經網絡的技術。這個狹義的定義有助于使本文更加簡潔。然而,我們想強調的是,我們并不以任何方式聲稱這是深度學習的最佳或正確定義。
在確定了深度學習的定義后,關于上述數學分析深度學習的新興領域出現了三個問題:在多大程度上需要數學理論?這真的是一個新的領域嗎?這一領域研究的問題有哪些?我們首先解釋對上述工具進行理論分析的必要性。從科學的角度來看,用數學來研究深度學習的主要原因是單純的好奇心。正如我們將在這篇文章中看到的,許多實際觀察到的現象并沒有從理論上解釋。此外,理論見解和全面理論的發展往往是發展新方法和改進方法的動力。具有這種效果的數學理論的突出例子是流體力學理論,它對飛機或汽車的設計是無價的資產,以及影響和塑造所有現代數字通信的信息理論。用Vapnik的話來說:“沒有什么比一個好的理論更實用”,[Vap13,前言]。除了有趣和實用之外,理論洞察力也可能是必要的。事實上,在機器學習的許多應用中,如醫療診斷、自動駕駛汽車和機器人技術,深度學習方法必須具有相當程度的控制和可預測性。此外,在銀行或保險等服務領域,技術應該是可控的,以確保做出公平和可解釋的決策。
接下來,讓我們來談談深度學習的數學分析領域是一個新興領域的說法。事實上,在上述深度學習的定義下,該技術主要有兩個組成部分:深度神經網絡和基于梯度的優化。第一個人工神經元已經在1943年[MP43]被引入。這個神經元沒有被訓練,而是被用來解釋一個生物神經元。這種人工神經元的第一個多層網絡也可以在[Ros58]中找到。從那時起,各種神經網絡體系結構被開發出來。我們將在下面的部分中詳細討論這些體系結構。第二個因素是基于梯度的優化,由于神經網絡的基于圖的結構,可以有效地計算目標函數相對于神經網絡參數的梯度,這使得基于梯度的優化成為可能。這已經通過不同的方式觀察到,見[Kel60, Dre62, Lin70, RHW86]。同樣,這些技術將在接下來的部分中討論。從那時起,技術得到了改進和推廣。其余的手稿都是在回顧這些方法,我們將保持對文獻的簡短討論。相反,我們從不同的角度回顧了深度學習的歷史:[LBH15, Sch15, GBC16, HH19]。
鑒于深度神經網絡的兩大主要組成部分已經存在很長時間,人們可以預期一個全面的數學理論已經發展出來,它描述了為什么以及什么時候基于深度學習的方法會表現良好,什么時候會失敗。統計學習理論[AB99, Vap99, CS02, BBL03, Vap13]描述了一般學習方法的性能的多個方面,特別是深度學習。我們將在下面的第1.2小節中在深度學習的背景下回顧這一理論。因此,我們將重點關注我們認為在機器學習社區中眾所周知的經典、深度學習相關的結果。盡管如此,對這些結果的選擇肯定是主觀的。我們會發現,現有的經典理論過于一般化,無法充分解釋深度學習的性能。在此背景下,我們將確定以下在經典學習理論框架內似乎難以回答的問題: 為什么經過訓練的深度神經網絡沒有對訓練數據過擬合,盡管該體系結構有著巨大參數? 與淺層架構相比,深層架構有什么優勢?為什么這些方法似乎沒有遭受維數災難咒?為什么優化程序經常成功地找到好的解決方案,盡管面臨非凸,非線性,經常非光滑的問題?體系結構的哪些方面影響相關模型的性能,以及如何影響?深度架構學習數據的哪些特征?為什么這些方法在自然科學中表現得和專業的數字工具一樣好,甚至更好?
人體姿態估計的目的是通過圖像、視頻等輸入數據定位人體部位,構建人體表征(如人體骨架)。在過去的十年中,它受到了越來越多的關注,并被廣泛應用于人機交互、運動分析、增強現實和虛擬現實等領域。盡管最近開發的基于深度學習的解決方案在人體姿態估計方面取得了很高的性能,但由于訓練數據不足、深度模糊和遮擋,仍然存在挑戰。本綜述論文的目的是通過對基于輸入數據和推理的解決方案進行系統的分析和比較,對最近基于深度學習的二維和三維姿態估計解決方案進行全面的回顧。這項綜述涵蓋了自2014年以來的240多篇研究論文。此外,還包括了二維和三維人體姿態估計數據集和評估指標。本文總結和討論了現有方法在流行數據集上的定量性能比較。最后,對所涉及的挑戰、應用和未來的研究方向進行了總結。
//www.zhuanzhi.ai/paper/7459265d2fbd81f9b91bf0f7b461bcc7
視頻中的異常檢測是一個研究了十多年的問題。這一領域因其廣泛的適用性而引起了研究者的興趣。正因為如此,多年來出現了一系列廣泛的方法,這些方法從基于統計的方法到基于機器學習的方法。在這一領域已經進行了大量的綜述,但本文著重介紹了使用深度學習進行異常檢測領域的最新進展。深度學習已成功應用于人工智能的許多領域,如計算機視覺、自然語言處理等。然而,這項調查關注的是深度學習是如何改進的,并為視頻異常檢測領域提供了更多的見解。本文針對不同的深度學習方法提供了一個分類。此外,還討論了常用的數據集以及常用的評價指標。然后,對最近的研究方法進行了綜合討論,以提供未來研究的方向和可能的領域。
作為傳統DNNs對圖的推廣,GNN繼承了傳統DNNs的優點和缺點。與傳統的DNNs一樣,GNN在許多圖形相關的任務中被證明是有效的,比如節點聚類和圖聚焦任務。傳統的DNNs已被證明易受專門設計的對抗性攻擊(Goodfellow et al., 2014b;徐等,2019b)。在對抗性的攻擊下,受害樣本會受到干擾,不容易被發現,但會導致錯誤的結果。越來越明顯的是,GNNs也繼承了這個缺點。對手可以通過操縱圖的結構或節點特征來欺騙GNN模型,從而產生圖的對抗性擾動。GNN的這種局限性引起了人們對在諸如金融系統和風險管理等安全關鍵應用程序中采用它們的極大關注。例如,在一個信用評分系統中,欺詐者可以偽造與幾個高信用客戶的關系,以逃避欺詐者檢測模型;垃圾郵件發送者可以很容易地創建虛假關注者,以增加虛假新聞被推薦和傳播的機會。因此,圖形對抗性攻擊及其對策的研究越來越受到人們的關注。在這一章中,我們首先介紹了圖對抗攻擊的概念和定義,并詳細介紹了一些具有代表性的圖對抗攻擊方法。然后,我們討論了針對這些對抗性攻擊的典型防御技術。
神經網絡在諸多應用領域展現了巨大的潛力,成為當前最熱門的研究方向之一。神經網絡的訓練主要通過求解一個優化問題來完成,但這是一個困難的非線性優化問題,傳統的優化理論難以直接應用。在神經網絡和優化的交叉領域,長期以來研究人員積累了大量的理論研究知識,不過這些研究或過于理論而不被大部分實踐者所了解,或過于偏工程而不被理論學者所理解和欣賞。本文的目的是總結目前對于神經網絡優化基本理論和算法的現狀,架起理論和實踐、優化和機器學習界之間的橋梁。
對苦于調參常感到困惑的工程師而言,本文可以提供一些已有的理論理解以供參考,并提供一些思考的方式。對理論學者而言,本文力圖解釋其作為數學問題的困難之所在以及目前的理論進展,以期吸引更多研究者投身神經網絡優化理論和算法研究。
本文概述了神經網絡的算法和優化理論。首先,我們討論梯度爆炸/消失問題和更一般的譜控制問題,然后討論實際中常用的解決方案,包括初始化方法和歸一化方法。其次,我們回顧用于訓練神經網絡的一般優化方法,如SGD、自適應梯度方法和大規模分布式訓練方法,以及這些算法的現有理論結果。第三,我們回顧了最近關于神經網絡訓練的全局問題的研究,包括局部極值、模式連接、彩票假設和無限寬度分析等方面的結果。
深度學習算法已經在圖像分類方面取得了最先進的性能,甚至被用于安全關鍵應用,如生物識別系統和自動駕駛汽車。最近的研究表明,這些算法甚至可以超越人類的能力,很容易受到對抗性例子的攻擊。在計算機視覺中,與之相對的例子是惡意優化算法為欺騙分類器而產生的含有細微擾動的圖像。為了緩解這些漏洞,文獻中不斷提出了許多對策。然而,設計一種有效的防御機制已被證明是一項困難的任務,因為許多方法已經證明對自適應攻擊者無效。因此,這篇自包含的論文旨在為所有的讀者提供一篇關于圖像分類中對抗性機器學習的最新研究進展的綜述。本文介紹了新的對抗性攻擊和防御的分類方法,并討論了對抗性實例的存在性。此外,與現有的調查相比,它還提供了相關的指導,研究人員在設計和評估防御時應該考慮到這些指導。最后,在文獻綜述的基礎上,對未來的研究方向進行了展望。
當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。
//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c
概述:
隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。
盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。
除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。
在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。
在海量大數據的幫助下,深度學習在許多領域都取得了顯著的成功。但是,數據標簽的質量是一個問題,因為在許多現實場景中缺乏高質量的標簽。由于帶噪標簽嚴重降低了深度神經網絡的泛化性能,從帶噪標簽中學習(魯棒訓練)已成為現代深度學習應用的一項重要任務。在這個綜述中,我們首先從監督學習的角度來描述標簽噪聲的學習問題。接下來,我們提供了對46種最先進的魯棒訓練方法的全面回顧,所有這些方法根據其方法上的差異被歸類為7組,然后系統地比較用于評價其優越性的6種屬性。然后,總結了常用的評價方法,包括公共噪聲數據集和評價指標。最后,我們提出了幾個有前景的研究方向,可以作為未來研究的指導。
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。
【導讀】紐約大學的Andrew Gordon Wilson和Pavel Izmailov在論文中從概率角度的泛化性對貝葉斯深度學習進行了探討。貝葉斯方法的關鍵區別在于它是基于邊緣化,而不是基于最優化的,這為它帶來了許多優勢。
貝葉斯方法的關鍵區別是邊緣化,而不是使用單一的權重設置。貝葉斯邊緣化可以特別提高現代深度神經網絡的準確性和校準,這是典型的不由數據完全確定,可以代表許多令人信服的但不同的解決方案。我們證明了深度集成為近似貝葉斯邊緣化提供了一種有效的機制,并提出了一種相關的方法,通過在沒有顯著開銷的情況下,在吸引域邊緣化來進一步改進預測分布。我們還研究了神經網絡權值的模糊分布所隱含的先驗函數,從概率的角度解釋了這些模型的泛化性質。從這個角度出發,我們解釋了那些對于神經網絡泛化來說神秘而獨特的結果,比如用隨機標簽來擬合圖像的能力,并證明了這些結果可以用高斯過程來重現。最后,我們提供了校正預測分布的貝葉斯觀點。