亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

深度學習(DL)已經成為現代人工智能中最成功和最廣泛采用的方法之一。伴隨著這些成功的是越來越復雜和高成本的架構設計,其基礎是一個核心概念:層。本論文對層的這一基本作用提出了挑戰,并深入介紹了一種新的、無層的深度學習范式,該范式將輸出計算為動態系統的固定點:深度均衡(DEQ)模型。

首先,我們介紹了深度均衡模型的一般表述。我們討論了這些模型如何表達 "無限層"的神經網絡,解耦前向和后向通道,但成本和設計復雜度只有一個傳統層--即使在一些最具競爭力的背景中(如語言建模、語義分割等)。

其次,我們進一步討論這種均衡方法帶來的挑戰和機遇。我們表明,DEQ的表述揭示了深度學習的許多新特性,這些特性長期以來被傳統的層堆疊方案所掩蓋。利用它們,我們可以訓練和部署這些新的和輕量級的均衡算法,大大補充了深度學習的現有發展,并使我們能夠在最先進的水平上改善多個方面的結果(例如,光流估計)。

DEQ的方法已經在理論和經驗兩端導致了社區中關于隱性深度學習的新研究領域(例如NeurIPS 2020教程)。因此,在本論文的結尾,我們討論了未來的工作如何進一步利用這種均衡的觀點來建立更多可擴展的、高效的和準確的下一代DL算法,包括對科學計算的算法,其特點是對復雜的、高維的動態系統的解決。

第1章 簡介

在過去的十年里,現代深度學習方法的研究和發展呈現出爆炸式的增長。然而,幾乎所有這些方法(也許是迄今為止的深度學習領域)的核心是一個關鍵的概念和基本單位,沒有一個模型架構師可以避免:層。具體來說,深度模型是通過將許多層堆疊在一起建立的,這就形成了一個巨大的架構,旨在適應一些特定的任務。例如,深度卷積網絡是由幾個卷積層和其他非線性或正則化組件組成的,如ReLU[175]、規范化[13, 110, 246]和dropout[214]。然后,這些組件以多種方式連接起來(如ResNets[96],U-Nets[195]),以提取特征圖,通常遵循一個復雜的時間表(如何時降采樣/升采樣,多少個階段,每個階段的哪些層)。同時,出現了不同種類的圖層設計,如多頭自注意力[233],以及圖層[124, 202]。過去幾年中最著名的人工智能應用,如高分辨率圖像合成[118]、蛋白質結構預測[117]和文本生成[32],都包含了數百、數千或更多的這些基本單元。

在高層次上,這種基于層的觀點將深度網絡視為一個巨大的計算圖,有規定的、詳細的指令,說明我們如何從輸入中計算輸出(就像一個計算器)。然而,這產生了許多挑戰。首先,作為一個超參數,構建深度網絡的深度和連接性往往是模型設計師的責任。這迅速增加了這些模型的設計、使用和測試的復雜性,特別是當它們變得龐大時[96, 220, 233, 250]。其次,這些網絡都依賴于一種叫做梯度反向傳播的算法[89, 197]來訓練。這需要深層網絡在正向傳遞中記憶所有中間層的激活,以反向遍歷計算圖[46]。這經常會造成內存占用的瓶頸,因為內存消耗會隨著架構深度的增加而迅速增長,并達到硬件的極限。第三,這樣的層構成使得深層網絡相當缺乏彈性,因為無論輸入的復雜程度如何,它們都要進行同樣的計算量(例如,見圖1.1)。例如,我們不能簡單地跳過一個層(除非我們添加更多的層來幫助我們控制,比如SkipNet[238]),因為任何這樣的任意移除都會使模型的功能與它的訓練方式不同。

圖1.1: 想象一下,一輛自主車輛。當它接收和處理流式攝像機幀時,每個幀都需要經過完全相同的深度網絡計算圖(比如20層)。然而,輸入是高度相關的,幾乎是相同的。基于層的深度學習導致該模型不斷重復相同的工作量。來自Cityscapes[53]數據集的圖像。

盡管有這些缺點,層還是被深深地堆積起來,并被認為是現代深度學習中不可或缺的,原因如下。

  • 表達性。長期以來,人們認為由許多層組成的模型為復雜的輸入輸出映射(經常是非線性的)奠定了基礎[89, 102]。

  • 特征層次結構。一個常見的觀點是,層代表決議。例如,Lee等人[136]假設,不同的層次提取圖像的不同抽象部分。

  • 可擴展性。為了建立大規模的模型,我們依賴于靈活連接大量圖層的能力;非常深入的訓練已經被證明是可行的,如規范化[13,110],剩余連接[96]等技術。

本論文旨在重新審視層的這個基本概念。我們要解決的一個關鍵問題是:我們到底需不需要層

我們提出了一種新的、隱含的、無層的深度學習方法,被稱為深度均衡(DEQ)模型。通過這種均衡方法,我們基本上提出了一種做深度學習的不同方式,以及如何將這些深度網絡作為算法(而不是計算器)來構建和分析。這些DEQ模型代表了無限深的神經網絡,但只有一個單層是隱式建模的(稍后定義)。我們表明,深度學習中的這種隱含性使我們即使在沒有層的情況下也能保持上述三個特性(表現力、特征層次和現實世界環境中的可擴展性),同時糾正了傳統DL所遭受的主要缺點(例如,內存占用)。

在本章的其余部分,我們首先闡述了 "隱性 "在深度學習背景下的含義,以及與此方向相關的先前工作概述。然后,我們提供了本論文的總體路線圖,我們希望它能作為深度隱含層的過去、現在和未來的藍圖。

1.1 深度學習的隱性觀點

在這一節中,我們將對過去關于深度學習方法的隱性和連續性的相關工作進行簡要的調查。正如將在第二章介紹的那樣,DEQ模型可以被看作是一個無限深的網絡,但也是一個單層網絡,需要注意的是這一層是隱性定義的:給定輸入x和一個(通常是參數化的)函數F,輸出z?被定義為解決一些非線性方程的值,即

特別是,幾十年來,深度學習界一直在探索隱性狀態的隱性建模,尤其是在遞歸網絡背景下。例如,Pineda[186]和Almeida[4]研究了用于訓練遞歸動力學的隱式分化技術,也被稱為遞歸反向傳播(RBP)。在這些情況下,RNN被結構化(例如,通過Lyapunov函數),因此它們的推理階段是一個可證明的收斂動態系統,人們需要解決RNN序列的穩定狀態(它在每個時間步驟吸收相同的輸入)。在這些工作之后,Liao等人[144]還將RBP理論擴展到基于諾伊曼級數和共軛梯度的更穩定和更有效的變體(并主要研究了它們與這些RNN中截斷反向傳播-通過時間(TBPTT)的關系)。Zhang等人[263]同樣也在RNN架構內執行固定點條件。然而,這些RNN只能應用于極其有限的設置,即每個時間步長都有相同的輸入,這在實踐中很少發生(如文本數據、時間序列等)。

網絡設計的隱性方法最近在非常不同的形式和背景下重新引起了人們的興趣。Amos和Kolter[6]、Gould等人[90]、Johnson等人[116]都提議通過優化問題(即arg min算子)進行區分,從而將公式(1.1)視為優化(如KKT)條件。例如,Amos和Kolter[6]提出在深度網絡的每個單獨的層中解決一個二次方程序(QP);例如,給定前一層的隱藏狀態z[i],OptNet[6]的第i+1層計算以下QP:

其中z[i]是優化(隱藏)變量,Q?0,q,A,b,G,h是定義這個QP優化層的參數。通過這個層的微分立即從公式(1.1)(當Q?0時)中得出,因為我們可以通過其KKT方程K(z?, ν?, λ? )=0進行微分,其中ν, λ是對應于約束條件(1.3)和(1.4)的拉格朗日對等變量。本著類似的精神,Wang等人[237]嵌入了一個基于優化的邏輯結構學習層;de Avila BelbutePeres等人[60],Qiao等人[188]使用這些更多的結構層來構建可微分的物理引擎(例如,人們可以將約束的剛體動力學模擬為深度自動編碼器網絡[60]中的線性互補問題(LCP)[52,54]層)。El Ghaoui等人[69]從廣義的well-posed意義上看這種隱含層,并專注于通過拉格朗日方法訓練小模型。這些優化層通常作為一個專門的層嵌入到傳統的深度架構中,為特定的問題領域定制,其強大的結構假設(如QP[6])大大限制了其表達能力和可擴展性。

另一個相關的主線將公式(1.1)制定為微分方程,從而代表一個連續的深度神經網絡。這一觀點首先由LeCun等人[133]進行理論研究,后來的工作提出將ResNet[96]架構解釋為常微分方程(ODE)求解器的離散化,以利用其可逆性和架構變體。最近,這種解釋被神經ODE方法[45]大大推進,它直接使用黑盒ODE求解器和鄰接方法,通過ODE解決方案進行直接微分(因此,與自動微分軟件包集成)。具體來說,神經ODE解決了隱藏狀態z的以下初值問題(IVP):

其中fθ是一個參數化的層,可以采取靈活的形式,(即計算這個連續網絡相當于把這個層從t=0到T進行整合)。等價地,這些ODEs承認一個隱含的一般解決方案F(x, z?, T)=0。這個神經ODE表述后來被改進[67, 121],并成功地應用于許多場合,如流體動力學[35]和連續生成建模[91]。然而,由于解決高維ODEs的固有挑戰,這些方法還不是很有效[67, 77, 121],也不能擴展到更現實的領域(例如,僅CIFAR-10 32×32圖像分類就需要約100次ODE求解器迭代)。

我們在這篇論文中提出的工作對公式(1.1)采取了一種新的方法。雖然將其定性為優化條件會產生基于優化的層;微分方程會產生神經ODE;但我們引入了一個定點方程表述,產生 "無限層"均衡特征狀態;即對于一個層fθ,F(z?,x)=fθ(z?;x)-z?=0,因此我們將由此產生的算法稱為深均衡模型。有了這樣的表述,我們表明,DEQ模型。

1.恰好使用一個這樣的獨立隱含層fθ作為整個架構(與傳統的層堆疊相比)。

2.在眾多現實任務中表現出競爭性,甚至更好,如語言建模、圖像分類、語義分割、隱性神經表征和光流估計。

3.揭示了長期以來被傳統深度學習埋沒的眾多新特性(如定點循環),使我們能夠以內存和計算效率的方式計算深度網絡。

我們表明,深度均衡模型體現了一種完全隱含的深度學習架構,與之前的這些探索不同,整個架構只有一個隱含層,并且在最具競爭力的水平和規模上工作。圖1.2對比了傳統的(顯式)深度學習和隱式的DEQ模型,前者堆積了大量的運算符,后者解決了一個底層動態系統來模擬輸出。

圖1.2:傳統的深度神經網絡與隱式深度均衡(DEQ)模型。深度均衡模型定義了一個底層動態系統,可以采取任何解算器路徑(如牛頓、準牛頓等)導致固定點。

這篇論文首次深入分析了這種新方法的好處、應用、擴展和面臨的挑戰。我們證明了DEQ模型對隱式建模的性能、可擴展性、效率、靈活性、表示能力等方面帶來的重大改進。我們對隱含性的研究為我們提供了一種通過有限的計算對無限復雜的概念(例如,固定點的概念)進行建模的方法,無層的方法提出了一種令人興奮的深度學習計算的新范式。

1.2 我們的貢獻

在本論文的第一部分,我們將討論多種發現和動機,最終形成深度均衡模型的基本原理(即它們的通用公式)。雖然隱含性之前已經在深度學習中被利用為優化驅動的轉化(第1.1節),但我們從現有深度學習的成功(和前提)及其趨勢出發:非常深的--可能是無窮層的--神經網絡。更具體地說。

1.在第二章中,我們將推導出無限深的神經網絡如何能被一個計算層的固定點的均衡網絡所表示。我們將為這種單層方法的普遍性提供論據,(重要的是)這種定點計算如何通過使用隱含函數定理(IFT)直接在最終輸出中進行區分。我們進一步討論這對DL訓練的前向和后向通道的影響(這將在第五章、第六章和第七章中得到大量的利用。

2.鑒于DEQ模型的一般表述,我們將在第2章和第3章中展示它們如何在大規模的現實環境中涵蓋廣泛的現代和復雜的層設計(例如,多頭自我關注[233])。在第三章中,我們將研究如何使放棄了深層序列的均衡網絡能夠代表特征層次結構。我們將在第二章的DEQ構造的基礎上進行大幅擴展,引入同步均衡建模;也就是說,我們直接在所有特征尺度上同時優化穩定的表征,并為輔助損失和復合訓練程序提供自然接口。

因此,本論文的第一部分將大量強調這些均衡方法的表征能力以及它們與傳統深度學習的根本區別。我們希望傳遞的一個強有力的信息是:"你只需要一層"。

在本論文的第二部分,我們將更深入地討論深度學習的這種隱含觀點的含義。由于這些均衡網絡將訓練過程的前向和后向解耦(即,人們甚至可以只用最終的輸出來訓練模型),我們將證明這導致了傳統神經網絡以前沒有面臨的幾個新的挑戰和機會。特別是:

  1. 第四章將首先討論均衡方法引入的一些在傳統深度學習方法中不存在的新問題,如收斂穩定性和求解器的選擇(和成本)。我們將提供一些經驗證據,反映DEQ模型如何隨著訓練的進行而變得越來越不穩定(即越來越 "深"),以及這如何惡化了其他幾個問題,同時概述了一個原則,即根據這些模型的隱含性,通過基于正則化的解決方案穩定DEQ模型的動態系統。

  2. 深度均衡模型的單層結構可以將這些模型從昂貴的鏈式規則反向傳播過程中解放出來,這些過程構成了傳統深度學習的學習開銷。在第五章中,我們介紹了近似梯度的概念(又稱 "幻影 "梯度或不精確梯度),它使我們能夠極其有效地近似上述隱含函數定理(IFT)。我們將從理論上論證這些近似的可行性,這些近似使均衡模型的后向傳遞速度提高了5倍或幾乎是免費的,這是傳統神經網絡完全不具備的特性。

  3. 在并行線程上,這些隱含網絡還能使層fθ的內部結構(控制表征能力)與固定點的實際計算方式(影響推理時間效率)脫鉤,后者通常是通過Broyden方法[34]等經典技術。在第6章中,我們展示了可以利用這種解耦,并使用一個可以以無監督方式進行端到端訓練的定制神經解算器來大幅提高這個固定點的計算。

結合這些關于DEQ模型的討論,在本論文的第三部分,我們將展示這些見解如何轉化為各種應用和擴展(除了第一和第二部分的大規模設置之外)。我們還將在實踐中展示DEQ模型在各種數據模式下的一個關鍵優勢:自適應計算。雖然傳統的深度網絡需要經歷一個規定的計算圖,而不管輸入的復雜性如何,我們表明,均衡方法可以從高度相關的數據中大大受益,并有效地循環計算以攤銷成本。有了上述所有的技術:

  1. 在第七章中,我們將表明,基于DEQ的方法在內存上和計算上的效率比最好的傳統深度網絡在光流估計任務上的SOTA性能要高出數倍,同時提高了SOTA性能。我們提出DEQflow作為一個新的框架,與之前的建模工作兼容,并完全取代了現有的遞歸/滾動程序。

  2. 在第八章中,我們將表明這些隱含模型能更好地學習圖像、音頻、視頻和三維模型的隱含神經表征(INR),同時訓練時間和內存成本也大大降低。

在第九章中,我們對所有這些貢獻進行了總結,同時討論了一些與深度學習這一新范式相關的有趣的 "老問題"。例如,傳統的神經網絡是由人腦中的神經元激發的。DEQ模型在任何意義上都不那么 "生物 "嗎?再比如,這些動態系統視角的深度學習如何能最好地應用于現實生活中的動態系統?我們在最后一章中對這些問題(以及未來的研究)提出一些見解。

通過這些理論和經驗上的探索,我們希望能夠提出一種不同形式的深度學習,就像傳統上對這一主題的研究一樣。層對于深度學習來說是必要的嗎?這篇論文認為答案是否定的。或者說,至少它們不是全貌。我們將表明,這些隱性均衡方法是一個重要的研究議程,因為目前的深度學習有一些必須克服的基本天花板,而且DEQ模型在設計上經常更好。

本論文中包含的這些開創性工作挑戰了長期以來的觀點,即基于層的分層架構是現代深度學習不可或缺的組成部分,并導致了一個新的和快速增長的社區,稱為 "隱式深度學習",以及NeurIPS 2020官方教程 "深度隱式層"[68]。

1.2.1 其他貢獻

我們在此也簡要總結一下研究生學習期間的其他貢獻,這些貢獻在論文中沒有廣泛討論。許多工作(直接或間接)導致了本論文所關注的隱式深度學習的工作。

序列建模[15, 16] 。雖然遞歸網絡長期以來一直是序列任務的主導力量和默認工具包,但我們重新審視了序列建模的卷積方法。我們提出了卷積和遞歸架構在眾多序列任務(從合成任務到極大規模的任務)中最廣泛的系統比較之一[16]。具體來說,我們提煉了現代ConvNets中的最佳實踐,如剩余塊和擴張,以描述一個簡單的時間卷積網絡(TCN)。我們的實驗結果表明:1)TCN模型的性能大大超過了LSTM和GRU等通用的遞歸架構;2)RNN的 "無限序列內存 "優勢在實踐中基本不存在,而TCN表現出比相同容量的遞歸架構更長的內存。自引入以來,所提出的通用TCN模型由于其各種優點(如:并行性、良好的記憶保持),對現代現實時間序列的建模產生了驚人的影響。并行性、良好的記憶保持性),至今仍在許多領域(尤其是存在極長距離信息的領域)保持著最先進的水平,如語音分離[153, 159]、語音識別[51]、語音增強[182]、基因組學建模[71]、文本分類[111]、唇讀[1]、金融時間序列[203, 243]、動態推薦系統[255]、人類軌跡預測[173],以及更多。

深度學習架構[17, 228] 。我們還介紹了對前沿的深度序列模型的架構特性的研究。在Bai等人[17]中,我們提出了trellis網絡(TrellisNet),它是一種特殊的TCN,其特點是權重類型化和直接從輸入層進入深層的剩余連接。但另一方面,我們證明了截斷的遞歸網絡等同于在其權重矩陣中具有特殊稀疏結構的trellis網絡。因此,TrellisNet架構連接了兩個主要的、看似不相容的序列模型家族:遞歸和卷積網絡,并允許我們結合兩個世界的最佳實踐。此外,在Tsai等人的文章[228]中,我們從內核平滑器的角度研究了變形器,并對這些模型的自我注意機制和位置編碼的各個組成部分進行了深入剖析。

不對齊的多模態機器學習[227] 。多模態時間序列建模的一個主要挑戰是融合來自多種模態(如視覺、聲學和文本時間序列)的特征表示,這些特征表示是不同步的,通常需要費力的人工對齊。我們提出了多模態轉換器(MulT)[227],它使用跨模態的注意力來潛移默化地將未對齊的數據流從一種模態調整到另一種模態。這大大降低了對仔細的特征工程的要求(這經常涉及到大量的領域知識),我們表明基于注意力的多模態學習可以比之前的方法持續提高5%-15%。

用于科學計算的深度學習[30, 205] 。我們提出了圖形變換器神經網絡力場(GTFF)[205]作為一種計算算法,用于直接預測材料系統中分子動力學計算機模擬的原子力。盡管存在精確的方法來計算基本的原子力和行為,但它們也是非常昂貴的,因為應用這種方法需要巨大的計算資源(如每個分子需要幾天或幾周)。相比之下,我們的基于圖形變換器的方法可以快幾十萬倍,同時幾乎不損失精度。這一貢獻是作為Kaggle預測分子特性競賽的一部分[30],我們的方法在2,737個參賽隊中贏得第一名。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

深度學習徹底改變了機器學習和人工智能,在幾個標準基準上取得了超人的表現。眾所周知,深度學習模型訓練效率低;它們通過多次處理數以百萬計的訓練數據來學習,并且需要強大的計算資源來同時并行處理大量數據,而不是順序處理。深度學習模型也存在非預期失效模式;他們可能會被愚弄,做出錯誤的預測。

在本文中,我們研究了提高深度學習模型訓練效率和魯棒性的方法。在學習視覺語義嵌入的背景下,我們發現優先學習更多的信息訓練數據可以提高收斂速度和提高測試數據的泛化性能。我們形式化了一個簡單的技巧,稱為硬負挖掘,作為學習目標函數的修改,沒有計算開銷。接下來,我們在深度學習的通用優化方法中尋求優化速度的改進。我們展示了對訓練數據采樣的冗余感知修改提高了訓練速度,并開發了一種檢測訓練信號多樣性的有效方法,即梯度聚類。最后,我們研究了深度學習中的對抗魯棒性,以及在不使用額外數據訓練的情況下實現最大對抗魯棒性的方法。對于線性模型,我們證明保證最大的魯棒性實現只有通過適當的選擇優化器,正則化,或架構。

//arxiv.org/pdf/2112.01423.pdf

付費5元查看完整內容

深度學習(Deep learning, DL)已經成為現代人工智能中最成功和被廣泛采用的方法之一。與這些成功相伴而來的是越來越復雜和昂貴的架構設計,其基礎是一個核心概念:層。本文對層次的這一基本作用提出了挑戰,并深入介紹了一種新的、無層次的深度學習范式,將輸出計算為動態系統的不動點:深度均衡(DEQ)模型。

首先,我們介紹深度均衡模型的一般公式。我們討論了這些模型如何表達“無限級”的神經網絡,向前和向后解耦傳遞,但與傳統層的成本和設計復雜性-即使在一些最具競爭力的設置(例如,語言建模,語義分割等)。

其次,我們進一步討論了這種均衡方式帶來的挑戰和機遇。我們表明,DEQ公式揭示了深度學習的許多新特性,這些特性長期以來被傳統的層-堆疊方案所掩蓋。利用它們,我們可以訓練和部署這些新的輕量級均衡算法,大大補充了深度學習的現有發展,并使我們能夠在最先進的水平上改善多個現有結果(例如,光流估計)。

DEQ方法已經在理論和實證兩方面引領了社區內隱深度學習的新研究領域(例如,NeurIPS 2020教程)。因此,我們通過討論未來的工作如何進一步利用這一平衡視角來構建更可擴展、高效和準確的下一代DL算法,包括科學計算,這通常是復雜的、高維動力系統的解決方案。

付費5元查看完整內容

我們目前正處于一場數據革命之中。在科學、健康甚至日常生活中產生的海量和不斷增長的數據集將影響社會的許多領域。許多這樣的數據集不僅大,而且是高維的,每個數據點可能包含數百萬甚至數十億個數字。以成像為例,一張圖像可能包含數百萬個或更多的像素;一段視頻可能很容易包含10億個“體素”。為什么在高維空間學習具有挑戰性,這是有根本原因的(“維度詛咒”)。跨越信號處理、統計和優化的一個基本挑戰是在高維數據集中利用低維結構。低維信號建模推動了理論和應用領域的發展,從醫學和科學成像,到低功耗傳感器,再到生物信息學數據集的建模和解釋,這只是其中的一小部分。然而,大量的現代數據集帶來了額外的挑戰:隨著數據集的增長,數據收集技術變得越來越不受控制,經常會遇到嚴重錯誤或惡意破壞,以及非線性。傳統的技術在這種情況下完全崩潰,需要新的理論和算法。

為了應對這些挑戰,在過去的二十年里,高維空間中低維結構的研究取得了爆炸性的發展。在很大程度上,代表性低維模型的幾何和統計性質(如稀疏和低秩及其變體和擴展)現在已經被很好地理解。在何種條件下,這些模型可以有效地和高效地從(最小數量的抽樣)數據恢復已經明確的特征。為了從高維數據中恢復這種低維模型,人們開發了許多高效、可擴展的算法。這些算法的工作條件、數據和計算復雜度也得到了全面而精確的刻畫。這些新的理論成果和算法已經徹底改變了數據科學和信號處理的實踐,并對傳感、成像和信息處理產生了重大影響。另一方面,最近深度神經網絡和低維模型之間在學習表示、網絡架構和優化策略等多個層次上出現了強大的聯系。這種連接不僅有助于解釋深度學習中許多有趣的現象,而且為更好的網絡設計、優化、魯棒性和在監督和無監督場景下的深度網絡泛化提供了新的指導原則。

作為這樣的歷史進步的見證人,我們相信這是一個正確的時機,將這個新的知識體系交付給信號處理社區的下一代學生和研究人員。通過過去20年令人振奮的研究進展,信號處理界已經見證了稀疏和低維模型的力量。然而,與此同時,社區仍然處于擁抱現代機器學習的力量的過渡階段,尤其是深度學習,在建模和可解釋性方面面臨前所未有的新挑戰。與過去關于壓縮感知、凸優化和相關主題的教程相比,本教程(以及相關的書籍、練習和課程材料)的獨特之處在于,它將信號處理的基礎數學模型與非凸優化和深度學習的當代主題連接起來。目的是展示(i)這些低維模型和原理如何為制定問題和理解方法的行為提供一個有價值的視角,以及(ii)來自非凸性和深度學習的思想如何幫助這些核心模型實用于具有非線性數據和觀測模型、測量非理想性等的現實問題。

本課程首先介紹基本的線性低維模型(例如,基本的稀疏和低秩模型)和凸松弛方法,以及激勵工程應用,隨后介紹一套可擴展和有效的優化方法。基于此,從對稱和幾何角度介紹了若干基本學習和逆問題(如字典學習和稀疏盲反卷積)的非線性低維模型、非凸方法及其正確性保證和高效的非凸優化方法。在這些結果的基礎上,我們繼續討論低維結構和深度模型之間強大的概念、算法和理論聯系,為理解最先進的深度模型提供了新的視角,并為設計用于學習低維結構的深度網絡提供了新的原則,具有明確的可解釋性和實際效益。

付費5元查看完整內容

引言

機器學習 (ML) 是人工智能 (AI) 的一個分支,它從數據中學習以識別模式、做出預測或做出決策,而人工干預最少。所有的機器學習技術都以數據為輸入,針對不同的任務,即分類、回歸、聚類、降維和排序等。

受益于海量數據和高計算資源,機器學習應用在我們的日常生活中變得無處不在。這些應用程序將人們從重復和復雜的工作中解放出來,并允許他們輕松獲取有用的信息。例如,人臉識別系統可以幫助人類進行識別和授權。搜索引擎通過索引、搜索和匹配來收集和組織與給定查詢相關的信息。導航應用程序為自動駕駛汽車推薦到達目的地的最佳路徑。

計算機視覺 (CV) 研究計算機如何獲取、處理、分析和理解數字圖像。 ML 的進步促進了 CV 的發展,尤其是圖像分類任務。深度學習(DL)是一種強大的機器學習技術。它允許設計可以自動識別圖像視覺內容的深度神經網絡(DNN)。從數千張動物、地點、人、植物等圖像中學習,DNN 能夠以高可信度檢測未知圖像包含的內容。

1.1 深度學習與深度神經網絡

在過去的幾十年中,DNN 在圖像分類領域迅速發展。卷積神經網絡 (CNN) [LBBH98] 獲得有用的語義視覺特征。典型的深度 CNN 具有許多層和復雜的架構,例如 AlexNet [KSH12]、Inception [SVI+16]、ResNet [HZRS16a]、DenseNet [HLVDMW17] 等。這些是少數著名的 DL 或 DNN 示例。這些網絡從圖像的高維表示空間計算梯度,以找到如何分離類別。最近的 DNN 模型以高置信度實現了分類、檢測和分割任務。 DNN 模型在 ImageNet [RDS+15](一個具有挑戰性和現實性的數據集)上的性能接近于人類。

DNN 的性能通常與其深度有關:網絡越深,性能越好。然而,由于大量層的深度堆疊以獲得語義視覺特征,DNN 的高復雜性導致訓練困難。這可能是由于反向傳播期間梯度消失,稱為梯度消失問題。存在許多 DNN 原始架構的變體,試圖規避此類問題。這包括來自 ResNet [HZRS16a] 和Transformer [VSP+17] 的剩余單元。在訓練過程中跳過層的剩余單元有效地簡化了網絡,加快了訓練過程并提供了探索更大的特征空間。然而,它也使 ResNet 更容易受到擾動。 Transformer [VSP+17] 使用自我注意的概念,幫助網絡專注于重要特征。總體而言,DNN 的所有這些進步都增強了分類等任務的性能。 DL 不僅成功地處理了大量圖像數據,而且還設法處理包含噪聲、遮擋或其他視覺偽影的圖像。

1.2 對抗樣本

2013 年,研究人員發現,對圖像進行輕微修改會導致分類器做出錯誤的預測 [SZS+13]。令人驚訝的是,這些修改幅度很小,人眼幾乎察覺不到。這一發現揭示了 DNN 的脆弱性

對抗性現象廣泛影響 ML。這會影響不同的媒體,例如圖像[SZS+13、GSS14、TPG+17]、音頻[CW18、YS18、YLCS18]和文本[RDHC19、ZSAL20、ASE+18]。此外,攻擊者不僅會生成保存為數字數據的對抗性樣本,例如圖像,在計算機中,但也可以在物理世界中創建對抗性樣本,例如對抗性補丁 [TVRG19]。這些是打印的圖片和 3D 對象 [KGB16, SBBR16],由相機等視覺傳感器捕獲,并影響使用它們的 ML 應用程序。

對抗性擾動是一種無形的擾動,它會誤導 DNN 將擾動的輸入分類為不正確的類別。例如,通過對抗性擾動,可以使分類器將貓分類為狗,如圖 1.1 所示。此外,對抗性現象在分類器之間轉移。利用 DNN 的某個漏洞的攻擊可能會欺騙其他 DNN,無論他們使用什么架構或訓練集。

圖 1.1 – 此圖片來自 Nicholas Carlini 的攻擊機器學習演講:關于神經網絡的安全性和隱私。它通過對抗性擾動顯示貓的圖像被歸類為狗。

將一個視覺內容修改為另一個是一個大問題 [EEF+18, TVRG19, TRC19a, YLDT18, GSS14]。攻擊者的目標是欺騙分類器做出不適當決策,可以方便地進行對抗性擾動。這是令人不安和危險的,尤其是當網絡決策危及生命時。例如,將特定形狀和顏色的小紙片放在一些路標上會阻止它們被識別 [BMR+17]。穿著具有特定紋理的徽章裝飾的布會使人對旨在檢測行人存在的算法不可見 [XZL+20]。考慮到所有這些潛在風險,了解對抗樣本的基本問題以確保算法公平、正確地處理內容至關重要。對抗性機器學習的典型研究任務包括攻擊和防御。研究人員研究這兩項任務是為了 i) 做出實際貢獻和 ii) 理解這一現象。

1.2.1 攻擊

攻擊旨在對目標 DNN 產生對抗性擾動。他們將不可見性和錯誤分類形式化為優化問題。攻擊的難度取決于攻擊者是否知道網絡的架構。基本情況是攻擊者可以訪問網絡的架構和參數,即白盒環境。他們受益于這些信息來制造對抗性擾動。

在不知道架構和參數的情況下攻擊網絡,即黑盒設置,是一個更復雜的情況。可遷移性意味著對抗樣本在不同的網絡和不同的機器學習模型[GSS14,TPG+17]中泛化得非常好。這表明為欺騙局部分類器而生成的對抗樣本也有一定的概率欺騙未知分類器。它提供了一種在黑盒環境中攻擊 DNN 的工具。

即使約束很嚴格,現有的攻擊也會成功地產生對抗性擾動。這些非同尋常的對抗性擾動表現出對抗性現象的不同特性和 DNN 的脆弱性。令人驚訝的是,例如,單像素攻擊 [SVS19] 通過僅修改輸入圖像的一個像素來改變網絡的預測。通用擾動 [MFFF17, HD18] 表明,一個特定的擾動足以導致給定數據集中的每張圖像都被錯誤分類。

1.2.2 防御

防御旨在提高 DNN 針對對抗性攻擊的魯棒性。他們要么添加一個額外的組件來幫助網絡抵御對抗性攻擊,要么提高網絡的內在魯棒性。

引入額外組件的防御保持網絡不變。對圖像應用預處理是該類別中的一種特殊防御方法。他們將對抗性擾動視為一種特殊類型的噪聲,并嘗試通過轉換 [MC17, GRCvdM17, STL+19] 將其去除。將對抗樣本視為惡意數據的人使用檢測器來識別對抗樣本并拒絕或糾正它們 [XEQ17, LLS+18]。這些防御很簡單的,很容易適應給定的網絡,但是,在白盒環境下通常很容易受到攻擊 [ACW18]。

提高內在魯棒性的防御嘗試改進訓練方法 [GSS14, MMS+17]、增強架構 [PMW+16] 或高級損失函數 [HXSS15, MMS+17, TKP+17]。對抗性訓練 [GSS14, MMS+17] 作為該類別的典型防御,通過將對抗性樣本作為訓練數據的一部分來改進訓練方法。這種防御背后的假設是,DNN 的脆弱性是由于訓練數據的不足造成的。這些防御措施在魯棒性和準確性方面都表現不錯,但是通常很復雜,因為它們需要從頭開始訓練網絡。

1.2 本論文貢獻

在本論文中,我們試圖理解對抗性現象。我們探討了如何生成對抗樣本以及如何保護它們。通過對對抗性 ML 的多個方面的分析,我們發現要研究的關鍵要素包括:

速度。速度對于對抗性攻擊和防御都很重要。盡管耗時的過程(例如優化創建對抗性擾動和訓練 DNN 模型)會產生高質量的結果,但如果需要很長時間來生成對抗性樣本、驗證輸入或構建魯棒的模型是不可行的。

不可見性。失真的大小被廣泛用于估計擾動的不可見性,但它并不等同于不可見性。不可見性表明從神經學和心理學的角度來看,人類無法察覺這種擾動。在計算機科學中衡量不可見性仍然是一個懸而未決的問題。

失真。作為衡量不可見性質量的替代計劃,許多攻擊估計了失真的程度。當幅度很小時,人類幾乎不會感知到擾動。失真的大小對防御也很重要。通常,對具有較大失真的對抗性擾動的防御對對抗性影響更為穩健。它是對抗性攻擊和防御的重要指標。

可轉移性。可轉移性描述了為欺騙目標網絡而生成的對抗性樣本成功欺騙其他網絡的可能性。可轉移性對于黑盒環境下的攻擊至關重要,即攻擊者只能獲取網絡的輸入輸出。

我們的工作受到速度、失真和不可見性的概念的啟發。我們測試了對抗性擾動的可轉移性。為了提高對抗性擾動的質量,我們在兩個方向上工作,即產生不可見的對抗性擾動和有效地創建低幅度的對抗性擾動。為了防御攻擊,我們提出了一種輕量級算法,該算法在魯棒性和準確性方面都取得了不錯的表現。我們強調速度和性能。

為了讓讀者更好地理解,我們首先在第 2 章中概述了 DL 中的對抗性上下文。這包括 1)理解我們的工作所需的 ML 和 DNN 的最低知識,2)對抗性問題的基本定義和3) 對現有相關工作的高級審查,包括產生對抗性擾動和增強對抗攻擊的魯棒性。

成功攻擊率和失真幅度是衡量對抗性擾動質量的兩個標準。在第 3 章中,我們介紹了對抗性擾動的標準評估,包括數據集、網絡和評估指標。此外,在第 3.3 節中,我們提出了我們的評估指標,允許在有針對性的失真攻擊和有針對性的成功攻擊之間進行公平比較。

我們研究了兩種執行攻擊的算法,以便了解不可見性(見第 4 章)和創造速度(見第 5 章)。

平滑的對抗性擾動。在第 4 章中,我們研究了不可見性的定義,并將其表述為一個約束函數,以便可以直接將其添加到現有攻擊中。我們推測,當擾動像素與其相鄰像素之間的相似性類似于其原始圖像的相似性圖時,對抗性擾動是不可見的。我們成功地產生了平滑的對抗性擾動,并且令人驚訝地產生了少量的失真。這些平滑的對抗性擾動是肉眼看不到的,即使對抗性樣本被人為放大。

快速、低失真的對抗樣本。為了在不降低對抗樣本質量的情況下加速攻擊,我們利用對抗擾動的具體知識改進了優化算法。在第 5 章中,我們提出了邊界投影(BP)攻擊,它根據當前的解決方案改變搜索方向。當當前解決方案不是對抗性的時,BP 攻擊會沿著梯度方向長搜索,以引導當前解決方案跨越網絡邊界。當當前解決方案是對抗性的時,BP 攻擊沿著邊界搜索以引導當前解決方案以減少失真的幅度。與最先進的攻擊相比,BP 攻擊避免了對僅跟隨梯度引起的振蕩計算的浪費。這為 BP 攻擊贏得了速度。實驗表明,BP攻擊成功地產生了幅度很小但攻擊成功率很高的對抗性擾動。

為了更全面地了解對抗性 ML 問題,我們研究了防御策略。第 6 章介紹了補丁替換防御。

補丁更換。與對抗性擾動相比,DNN 對隨機噪聲的魯棒性更強。為了理解它,我們研究了通過 DNN 的失真幅度(隨機噪聲/對抗性擾動)的轉變。受 DNN 內部隨機噪聲和對抗性擾動的不同行為啟發,我們在第 6 章提出了一種名為補丁更換的反應性防御。補丁替換試圖通過用合法訓練數據中最相似的鄰居替換可疑輸入(圖像/特征)的補丁,來消除推理中的對抗性影響。即使攻擊者知道補丁替換防御,訓練數據的使用也會增加攻擊的復雜性。由于我們不僅考慮圖像,還考慮網絡的中間特征,因此補丁替換比其他基于輸入轉換的防御更為穩健。一個缺點是在訓練時毒化數據集會給補丁替換策略帶來麻煩。這連接到對抗性后門。

最后,我們給出了結論,并在第 7 章提出了一些觀點。簡而言之,我們在理解對抗性 ML 問題方面的貢獻是 i)在另一個視圖中定義不可見性,并提出一種在我們的定義下產生平滑對抗性擾動的方法; ii) 提出一種算法,以高成功率和低失真快速生成對抗樣本; iii),我們成功地提出了一種不復雜的反應式防御,并在不嚴重降低網絡準確性的情況下提高了對攻擊的魯棒性。

圖 5.8 – ImageNet 上針對 InceptionV3 的原始(左)、對抗(頂行)和縮放擾動(下)圖像。這五幅圖像是需要最強失真的 BP 最差的 5 幅圖像,但這些圖像小于所有其他方法所需的失真(紅色表示偽造的圖像不是對抗性的)。擾動被反轉(低為白色;高為彩色,每個通道)并以相同的方式縮放以進行公平比較。

付費5元查看完整內容

1 引言

深度學習已被廣泛應用到涉及圖像、視頻、語音等的諸多任務中并取得巨大成功。如 果我們問“深度學習是什么?”很可能會得到這樣的回答:“深度學習就是深度神經網 絡”。至少在目前,當“深度學習”作為一個術語時幾乎就是“深度神經網絡”的同義詞, 而當它指向一個技術領域時則如 SIAM News 頭版文章所稱[1],是“機器學習中使用深度 神經網絡的子領域”。關于深度學習有很多問題還不清楚。例如深度神經網絡為什么要“深”?它成功背 后的關鍵因素是什么?深度學習只能是深度神經網絡嗎?本文將分享一些我們關于深度 學習的粗淺思考。

2 深度神經網絡

神經網絡并不是“新生事物”,它已經被研究了半個多世紀[2]。傳統神經網絡通常包 含一個或兩個隱層,其中每個“神經元”是非常簡單的計算單元。如圖 1 所示,神經元 接收來自其他神經元的輸入信號,這些信號通過連接權放大,到達神經元之后如果其總 量超過某個閾值,則當前神經元就被“激活”并向外傳遞其輸出信號。實際上每個神經 元就是圖 1 中非常簡單的計算式,而所謂神經網絡就是很多這樣的計算式通過嵌套迭代 得到的一個數學系統。

今天的“深度神經網絡”是指什么?簡單來說,就是有很多隱層的神經網絡。例如 2012 年在計算機視覺領域著名的 ImageNet 競賽奪冠的網絡用了 8 層、2015 年是 152 層、 2016 年是 1207 層……這樣的網絡明顯是非常龐大的計算系統,包含了大量參數需要通 過訓練來確定。但有一個好消息:神經網絡的基本計算單元是連續可微的。例如以往常 用圖 2 左邊的 Sigmoid 函數作為神經元模型的激活函數,它是連續可微的;現在深度神 經網絡里常用圖 2 右邊這樣的 ReLU 激活函數,它也是連續可微的。于是,在整個系統 中可以相對容易地計算出“梯度”,進而就能使用著名的 BP 算法通過梯度下降優化來對 神經網絡進行訓練。

有人以為深度神經網絡的成功主要是因為“算力”有了巨大發展,因為神經網絡早 就有了,現在只不過是由于算力強了導致能算得更好了。這是一個誤解。沒有強大的算 力當然難以訓練出很深的網絡,但更重要的是,現在人們懂得如何訓練這樣的模型。事 實上,在 Hinton 等的工作[3]之前,人們一直不知道如何訓練出超過五層的神經網絡;這并不是由于算力不足,而是由于神經網絡在訓練中會遭遇“梯度消失”現象:在 BP算法將神經網絡輸出層誤差通過鏈式反傳到遠離輸出層的部分時,可能會導出“零”調 整量,導致網絡遠離輸出層的部分無法根據輸出誤差進行調整,從而使得訓練失敗。這 是從傳統神經網絡發展到深層神經網絡所遇到的巨大技術障礙。Hinton 等通過“逐層訓 練后聯合微調”來緩解梯度消失,使人們看到訓練深層神經網絡是可能的,由此激發了 后來的研究,使得深度神經網絡得以蓬勃發展。事實上,深度神經網絡研究的主要內容 之一就是設計有效措施來避免/減緩梯度消失。例如該領域一個重要技術進步就是用圖 2 右邊的 ReLU 函數來代替以往常用的 Sigmoid 函數,由于前者在零值附近的導數比后者 更“平緩”,使得梯度不會因下降得太快而導致梯度消失。

顯然,基本計算單元的“可微性”(differentiability)對深度神經網絡模型至關重要, 因為它是梯度計算的基礎,而梯度計算是使用 BP 算法訓練神經網絡的基礎。最近有一 些研究嘗試在深度神經網絡中使用不可微激活函數,但其求解過程是在松弛變換后通過 可微函數逼近,實質上仍依賴于基本計算單元的可微性。

3 為何“深”

雖然深度神經網絡取得了巨大成功,但是“為什么必須使用很深的網絡”一直沒有 清楚的答案。關于這個問題,幾年前我們曾經嘗試從模型復雜度的角度進行解釋。

一般來說,機器學習模型復雜度與其“容量”(capacity)有關,而容量對模型的學 習能力有重大影響,因此,模型的學習能力與其復雜度有關。機器學習界早就知道,如 果能增強一個學習模型的復雜度,那它的學習能力往往能得到提升。怎樣提高復雜度呢?對神經網絡模型來說,很明顯有兩個辦法:把模型加“深”,或把模型加“寬”。從提升 模型復雜度的角度看,“加深”會更有效,因為簡單來說,“加寬”僅是增加了計算單元, 從而增加了基函數的數目;而在“加深”時不僅增加了基函數的數目,還增加了函數嵌 套的層數,于是泛函表達能力會更強。所以,為提升復雜度,應該把網絡“加深”。

有人可能會問,既然機器學習界早就知道能通過把神經網絡模型加深來提升學習能 力,為什么以往不這樣做呢?除了前面提到的“梯度消失”這個技術障礙,這還涉及另外一個問題:因為存在“過 擬合”(overfitting),在機器學習中把模型的學習能力變強未必一定是件好事。過擬合是 機器學習的大敵。簡單來說,給定一個數據集,機器學習希望把數據集里所包含的“一 般規律”學出來用于今后的數據對象,但有時候可能會把當前數據集本身的一些“特性” 學出來卻錯誤地當作一般規律去使用了,這就會犯錯誤,這就是過擬合。產生過擬合的重要因素之一,就是模型的學習能力太強了,把不該學的東西也學到了。所以,以往在 機器學習中都是盡量避免使用太復雜的模型。

現在為什么能使用深度神經網絡這樣的復雜模型了呢?有好幾個重要因素:首先, 現在有大數據了。機器學習中有很多緩解過擬合的策略,例如決策樹剪枝、支持向量機 正則化、神經網絡提早終止訓練等,但最簡單有效的就是使用更多的數據。比方說,數 據集中只有三千個樣本,從它里面學出來的“特性”不太可能是一般規律,但如果有三 千萬,甚至三千萬萬個樣本,那從它里面學出來的“特性”或許就已經是一般規律了。所以,現在有了大數據,我們不必再像以往那樣對復雜模型“敬而遠之”。第二,今天 有 GPU、CPU 集群等強力計算設備,使我們有足夠的算力來訓練復雜模型。第三,經過 機器學習界的努力,現在已經有很多有效訓練深度神經網絡這種復雜模型的技巧(trick), 例如很多緩解神經網絡梯度消失的辦法。

小結一下,這套對“為什么深”的“復雜度解釋”主要強調三點:第一,今天有大 數據;第二,有強力的計算設備;第三,有很多有效的訓練技巧。這三點導致現在能夠 使用高復雜度模型,而深度神經網絡恰是一種便于實現的高復雜度模型。上面這套解釋有一定意義,例如它啟發我們從復雜度的角度來研究深度學習中的一 些機制如 dropout 等[4]。但這套解釋有個重要問題沒解決:為什么扁平的(寬的)網絡不 如深度神經網絡?因為把網絡“加寬”也能增加復雜度,雖然效率不如“加深”高。想 象一下,如果增加無限個隱層神經元,那么即便僅使用一個隱層,網絡的復雜度也可以 提升非常高,甚至超過很多深度神經網絡。然而在實踐中人們發現,“寬”的淺層網絡性 能比不上相對“窄”的深層網絡,這用復雜度難以解釋。因此,我們需要更深入一點的 思考。

我們問一個問題:深度神經網絡最重要的功用是什么?對此,機器學習界目前有一個基本共識,那就是“表示學習”(representation learning)。簡單來說,如圖 3 所示,以往我們拿到一個數據對象,比方說一幅圖像,先 要用很多特征比如說顏色、紋理等把它描述出來,這個步驟稱為“特征工程”(feature engineering),然后我們再進行分類器學習。設計特征是許多應用研究領域的重要內容, 例如計算機視覺與模式識別領域的研究中有相當一部分內容是關于設計視覺特征如 SIFT、HOG 等,而這個部分是機器學習研究所不關心的,后者主要關注相對通用、不依 賴于具體應用域的技術,以往主要是針對表示為“特征向量”的數據去做分析建模。現 在有了深度學習,只需把數據從一端扔進去,從另外一端就能得到模型,中間用到的特 征描述可以通過深度學習自己來解決,這就是所謂的“特征學習”或者表示學習。從某 種角度看,這是機器學習研究的疆域擴展到了一些應用研究領域的傳統范圍。與以往的機器學習技術相比,在應用上來說這是一個很大的進步,因為不再需要完全依賴人類專 家設計特征了,特征本身也可以跟學習器一起進行聯合優化。

進一步我們再問:對表示學習來說最關鍵的是什么?

我們的答案是:逐層加工處理。如圖 4 所示,比方說在輸入一幅圖像時,在神經網 絡最底層看到是一些像素,而一層層往上會逐步出現邊緣、輪廓等抽象級別越來越高的 描述。雖然在真實的神經網絡中未必有這么清晰的分層,但總體上確有自底向上不斷抽 象的趨勢。

事實上淺層神經網絡幾乎能做到深層神經網絡所做的別的任何事(例如提升復雜 度),唯有深度的逐層抽象這件事,它由于層數淺而做不了。我們認為,“逐層加工處理” 正是表示學習的關鍵,也是深度學習成功的關鍵因素之一。

但是在機器學習領域,逐層加工處理并不新鮮,以前已經有很多技術是在進行逐層 加工處理。例如決策樹、Boosting 都是“逐層加工處理”模型,但是與深度神經網絡相 比,它們有兩個弱點:一是模型復雜度不夠。例如決策樹,對給定數據集來說其模型深 度是受限的,假設僅考慮離散特征,則樹的深度不會超過特征的個數,不像深度神經網 絡那樣可以任意提升復雜度;二是在學習過程中缺乏特征變換,學習過程始終在同一個 特征空間中進行。我們認為這兩個因素對深度神經網絡的成功也至關重要。當我們同時考慮“逐層加工處理”和“內置特征變換”時就會發現,深度模型是非 常自然的選擇,因為基于深度模型可以容易地同時做到上面這兩點。在選用深度模型后,由于模型復雜度高、容易過擬合,所以我們要用大數據;它很 難訓練,所以我們要有訓練技巧;計算開銷大,所以我們要使用強力計算設備 …… 我們發現,這些是我們選擇深度模型之后的結果,而不是選用深度模型的原因!這跟以前 的認識不太一樣。以前認為因為具備了這些條件而導致我們能使用深度模型,現在看來 因果關系恰是反過來的。事實上,大訓練數據、訓練技巧,乃至強力計算設備都不僅限 服務于深度模型,同樣可以服務于淺層模型,因此,具備了這些條件并不必然導致深度 模型優于淺層模型。

還有一點值得一提:擁有很大的訓練數據時,需要使用復雜度高的模型,因為低復 雜度模型無法對大數據進行充分利用。比方說僅使用一個簡單的線性模型,那么有兩千 萬樣本還是兩億樣本恐怕沒有多少區別,因為模型已經“學不進去”了。而要模型有足 夠的復雜度,這又給使用深度模型加了一分,因為深度模型可以容易地通過加深層數來 提升復雜度。

小結一下,我們的討論分析導出的結論是,有三個關鍵因素:

?? 逐層加工處理

?? 內置特征變換

?? 模型復雜度夠

這是我們認為深度神經網絡能夠成功的關鍵原因,或者說是我們關于深度神經網絡 成功原因的猜想。有意思的是,這三個因素并沒有“要求”我們必須使用神經網絡模型。只要能同時做到這三點,別的模型應該也能做深度學習。

4 為何有必要探討 DNN 之外的深度模型

沒有任何模型是完美的,深度神經網絡模型也不例外。

首先,凡是用過深度神經網絡的人都知道,需花費大量的精力來調參。這會帶來很 多問題。第一,調參經驗很難共享,例如在圖像任務上調參的經驗很難在做語音任務時 借鑒。第二,今天無論是科學界還是工程技術界都非常關注研究結果的可重復性,而深 度學習恐怕是整個機器學習領域中可重復性問題最嚴重的子領域。常有這樣的情況:一 組研究人員發文章報告的結果,很難被其他研究人員重現,因為即便使用相同的數據、 相同的方法,超參數設置稍有不同就可能使結果有巨大差別。

其次,神經網絡的模型結構需要在訓練前預設。但是在任務完成前,怎么能知道模 型復雜度應該是多大呢?事實上,我們通常是在使用超過必需復雜度的網絡。深度神經 網絡的一些最新研究進展,例如網絡剪枝、權重二值化、模型壓縮等,實質上都是試圖 在訓練過程中適當減小網絡復雜度。顯然,使用過高復雜度的模型必然導致不必要地消 耗了更多計算開銷、導致對訓練樣本量不必要的高需求。有沒有可能先用一個簡單模型, 然后在學習過程中自適應地增加模型復雜度呢?遺憾的是這對神經網絡很困難,因為若 網絡結構未定,梯度求導對象在變化,那 BP 算法可就麻煩了。深度神經網絡的其他缺陷例如小數據上難以使用、黑箱模型、理論分析困難等就不 贅述了。

或許有人會說,學術創新研究可能要考慮上述問題,而對應用實踐來說只要性能好 就行,有深度神經網絡就足夠了……其實即便從應用角度來看,探討神經網絡之外的深 度學習模型也很有必要,因為雖然深度神經網絡現在很流行,但在許多任務上(例如 Kaggle 的很多數據分析競賽中)獲勝的并非深度神經網絡,而是隨機森林、XGBoost 這 些相對比較傳統的機器學習模型。事實上,目前深度神經網絡做得好的幾乎都是涉及圖 像、視頻、語音等的任務,都是典型的數值建模任務,而在其他涉及符號建模、離散建 模、混合建模的任務上,深度神經網絡的性能并沒有那么好。機器學習領域有一個著名的“沒有免費的午餐”定理[2],它告訴我們,沒有任何一 個模型在所有任務上都優于其他模型。實際上,不同模型各有自己的適用任務范疇,深 度神經網絡也不例外。因此,有充分的理由去探討深度神經網絡之外的深度學習模型,因 為這樣的模型或許能讓我們在圖像、視頻、語音之外的更多任務上獲得深度學習的性能 紅利。

小結一下,今天我們談到的深度模型都是深度神經網絡,用技術術語來說,它是多 層可參數化可微分的非線性構件組成的模型,可以用 BP 算法來訓練。這里有兩個問題:一是現實世界中的問題多種多樣,其所涉性質并不都是可微的,或能用可微構件最優建 模的;二是機器學習領域幾十年的積累,有許多構件能作為復雜模型的基礎,其中相當 一部分是不可微的。

能否基于不可微構件來構建新型深度學習模型?這是一個基礎性挑戰問題。一旦得 到答案,就同時回答了其他一些問題,例如深度模型是否只能是深度神經網絡?是否能 不用 BP 算法訓練?有沒有可能讓深度學習在圖像、視頻、語音之外的更多數據分析任 務上發揮作用?……

我們最近在這方面進行了一些初步探索,提出了“深度森林”這種非神經網絡的新型深度學習模型[5,6]。深度森林的基礎構件是不可微的決策樹,其訓練過程不基于 BP 算 法,甚至不依賴于梯度計算。它初步驗證了上一節中關于深度學習奏效原因的猜想,即只要能做到逐層加工處理、內置特征變換、模型復雜度夠,就能構建出有效的深度學習模型,并非必須使用神經網絡。這種技術已經在大規模圖像任務(我們認為此類任務的首選技術是深度神經網絡)之外的許多任務中顯示出優秀性能,包括互聯網支付非法套現檢測等大規模數據分析任務。在一定程度上驗證了,在數值建模之外的任務上,有可能研制出新型深度學習模型來獲得更好的性能。需要注意的是,任何一種新技術要取得廣泛成功都需經過長期探索。以深度神經網 絡中最著名的卷積神經網絡為例,經過了三十來年、成千上萬研究者和工程師探索和改 進,才取得今天的成功。深度森林還在“嬰兒期”,雖然在某些問題上已得以應用,但是 不能期待它在廣泛任務上都能夠立即發揮作用。

實際上,我們以為深度森林探索的主要價值并不在于立即產生一種應用性能優越的 新算法,而是為深度學習的探索提供一個新思路。以往我們以為深度學習就是深度神經 網絡,只能基于可微構件搭建,現在我們知道了這里有更多的可能性。好比說深度學習 是一間黑屋子,里面有什么呢?以前我們都知道有深度神經網絡,并以為僅有深度神經 網絡。現在深度森林把這個屋子打開了一扇門,今后可能會涌現更多的東西。這或許是 這個探索在學科領域發展上更重要的意義。

參考文獻

[1] J. Sirignano. Deep learning models in finance. SIAM News, 2017, 50(5): 1.

[2] 周志華. 機器學習. 北京: 清華大學出版社, 2016.

[3] G. E. Hinton, S. Osindero, and Y.-W. Simon. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554.

[4] W. Gao and Z.-H. Zhou. Dropout Rademacher complexity of deep neural networks. Science China Information Sciences, 2016, 59(7): 072104: 1-072104: 12.

[5] Z.-H. Zhou and J. Feng. Deep forest: Towards an alternative to deep neural networks. In: IJCAI, 2017: 3553-3559.

[6] Z.-H. Zhou and J. Feng. Deep forest. National Science Review, 2019.

付費5元查看完整內容

生成模型是一類機器學習算法,它定義了圖像、序列和圖等復雜高維物體的概率分布。深度神經網絡和優化算法的最新進展顯著地增強了這些模型的能力,并重新激發了對它們的研究興趣。本課程探討深度生成模型的基本概率原理、它們的學習算法和流行的模型族,包括變分自編碼器、生成對抗網絡、自回歸模型和規范化流。本課程還涵蓋了計算機視覺、自然語言處理和生物醫學等領域的應用,并將其與強化學習領域聯系起來。

Introduction and Background Autoregressive Models Variational Autoencoders Normalizing Flow Models Energy-Based Models Generative Adversarial Networks Probabilistic Reasoning, Combining Generative Model Discreteness in Generative Modeling Evaluating Generative Models

付費5元查看完整內容

深度生成建模是一類訓練深度神經網絡對訓練樣本分布進行建模的技術。

研究已經分成了各種相互關聯的方法,每一種方法都進行了權衡,包括運行時、多樣性和體系結構限制。

特別是,本綜述涵蓋了基于能量的模型、變分自編碼器、生成對抗網絡、自回歸模型、規格化流,以及許多混合方法。這些技術是在一個單一的內聚框架下繪制的,比較和對比來解釋每種技術背后的前提,同時回顧當前最先進的進展和實現。

引言

使用神經網絡的生成式建模起源于上世紀80年代,目的是在沒有監督的情況下學習數據,可能為標準分類任務提供好處。這是因為收集無監督學習的訓練數據自然要比收集標記數據花費更少的精力和成本,但仍然有大量可用的信息表明生成模型對于各種各樣的應用是至關重要的。

除此之外,生成模型有很多直接的應用;最近的一些工作包括圖像生成:超分辨率,文本到圖像和圖像到圖像轉換,修復,屬性操作,姿態估計; 視頻:合成與重定向;音頻:語音和音頻合成;文本:生成、翻譯;強化學習;計算機圖形學:快速渲染、紋理生成、人物運動、液體模擬;醫學:藥物合成、方式轉換;密度估計;數據增加;特征生成。

生成模型的核心思想是訓練一個生成模型,其樣本x ~ pθ(x )來自與訓練數據分布相同的分布,x ~ pd(x)。第一個神經生成模型,即基于能量的模型,通過在與似然成比例的數據點上定義能量函數來實現這一點,然而,這些模型難以縮放到復雜的高維數據,如自然圖像,并且在訓練和推理過程中都需要蒙特卡羅馬爾可夫鏈(MCMC)采樣,這是一個緩慢的迭代過程。近年來,人們對生成模型重新產生了興趣,總的來說,這是由于大型免費數據集的出現,以及通用深度學習架構和生成模型的進步,在視覺保真度和采樣速度方面開辟了新領域。在許多情況下,這是通過使用潛在變量z來實現的,這很容易從樣本和/或計算密度,而不是學習p(x, z);這就需要對未觀察到的潛在變量進行邊緣化,然而,一般來說,這很難做到。因此,生成模型通常會在執行時間、架構或優化代理功能方面進行權衡。選擇優化的對象對樣本質量有重要影響,直接優化可能性往往導致樣本質量顯著低于替代函數。

有許多綜述論文關注于特定的生成模型,如歸一化流[108],[157],生成對抗網絡[60],[219]和基于能量的模型[180],然而,這些自然地深入到各自方法的復雜性,而不是與其他方法進行比較;此外,有些人關注的是應用而不是理論。雖然最近有一個關于生成模型作為一個整體的綜述[155],但它深入研究了一些特定的實現,而不是檢查整個領域。

本綜述提供了生成建模趨勢的全面概述,引入新的讀者到該領域,通過在單一統計框架下的方法,比較和對比,以便解釋建模決策背后的每個各自的技術。從理論上講,為了讓讀者了解最新的研究成果,本文對新舊文獻進行了討論。特別地,本調查涵蓋了基于能量的模型(第2節)、典型的單一非歸一化密度模型、變分自編碼器(第3節)、基于潛在模型的后驗的變分近似、生成對抗網絡(第4節)、在最小-最大博弈中設置的兩個模型、自回歸模型(第5節)、將模型數據分解為條件概率的產品,以及歸一化流(第6節)、使用可逆轉換的精確似然模型。這種細分被定義為與研究中的典型劃分緊密匹配,然而,存在著許多模糊這些界限的混合方法,這些將在最相關的章節中討論,或者在合適的情況下兩者都討論。

為了簡單地了解不同架構之間的差異,我們提供了表1,通過容易比較的星級評級對比了各種不同的技術。具體來說,訓練速度是根據報告的總訓練時間來評估的,因此要考慮多種因素,包括架構、每一步的函數評估數量、優化的便捷性和所涉及的隨機性;樣本速度是基于網絡速度和所需評估的數量;參數效率是由訓練數據集所需的參數總數決定的,而功能更強大的模型通常會有更多的參數,在模型類型之間與質量的相關性不強;一星-一些結構/紋理被捕捉,二星-一個場景可識別但缺少全局結構/細節,三星-重要結構被捕捉但場景看起來“怪異”,四星-與真實圖像的差別是可識別的,五星-差別是完全不可察覺的

付費5元查看完整內容

在過去的十年里,神經網絡在視覺、語音、語言理解、醫學、機器人和游戲等領域取得了驚人的成果。人們原本以為,這種成功需要克服理論上存在的重大障礙。畢竟,深度學習優化是非凸的、高度非線性的、高維的,那么我們為什么能夠訓練這些網絡呢?在許多情況下,它們擁有的參數遠遠多于記憶數據所需的參數,那么為什么它們能夠很好地推廣呢?盡管這些主題已經占據了機器學習研究領域的大部分注意力,但當涉及到更簡單的模型時,神經網絡領域的原則是先數據訓練再說。顯然,這招奏效了。

//www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/

結果,神經網絡的實際成功已經超過了我們理解它們如何工作的能力。這門課是關于開發概念工具來理解當神經網絡訓練時會發生什么。其中一些思想早在幾十年前就已經形成了(可能已經被社區的大部分人遺忘了),而另一些思想今天才剛剛開始被理解。我將試圖傳達我們最好的現代理解,盡管它可能不完整。

這門課從優化中汲取靈感,它不是一門優化課。一方面,優化的研究通常是指令性的,從優化問題的信息和明確定義的目標(如在特定規范下快速收斂)開始,并找出保證實現該目標的計劃。對于現代神經網絡來說,分析通常是描述性的: 采用在使用的程序,并找出它們(似乎)有效的原因。希望這種理解能讓我們改進算法。

與優化研究的另一個區別是,目標不是簡單地擬合一個有限的訓練集,而是一般化。盡管神經網絡有巨大的能力,但為什么它能泛化與訓練的動態密切相關。因此,如果我們從優化中引入一個想法,我們不僅需要考慮它是否會更快地最小化成本函數,還需要考慮它是否以一種有利于泛化的方式實現。

這類應用不會為您提供在ImageNet上實現最先進性能的方法。它也不是那種為了證明定理而去證明定理的理論課。相反,我們的目的是為您提供概念性工具,以便您在任何特定情況下推斷出影響訓練的因素。

除了讓你的網絡更好地訓練之外,學習神經網絡訓練動力學的另一個重要原因是,許多現代架構本身就足夠強大,可以進行優化。這可能是因為我們在體系結構中明確地構建了優化,就像在MAML或深度均衡模型中那樣。或者,我們可能只是在大量數據上訓練一個靈活的架構,然后發現它具有驚人的推理能力,就像GPT3一樣。不管怎樣,如果網絡架構本身在優化某些東西,那么外部訓練過程就會與本課程中討論的問題糾纏在一起,不管我們喜歡與否。為了有希望理解它提出的解決方案,我們需要理解問題。因此,本課程將以雙層優化結束,利用課程中涵蓋的所有內容。

目錄內容:

  • 線性回歸

我們將通過分析一個簡單的模型開始這門課,梯度下降動力學可以被精確地確定:線性回歸。盡管線性回歸很簡單,但它提供了對神經網絡訓練驚人的洞察力。我們將使用線性回歸來理解兩種神經網絡訓練現象: 為什么對輸入進行歸一化是一個好策略,以及增加維度可以減少過擬合。

  • 泰勒近似

線性化是我們理解非線性系統最重要的工具之一。我們將涵蓋神經網絡的一階泰勒近似(梯度,方向導數)和二階近似(Hessian)。我們將看到如何用雅可比向量乘積有效地計算它們。我們將使用Hessian診斷緩慢收斂和解釋網絡預測。

  • 度量

度量給出了流形上距離的一個局部概念。在許多情況下,兩個神經網絡之間的距離可以更有效地定義為它們所代表的函數之間的距離,而不是權重向量之間的距離。這就引出了一個重要的優化工具,叫做自然梯度。

  • 二階優化

我們從幾個角度來激勵神經網絡的二階優化:最小化二階泰勒近似、預處理、不變性和近端優化。我們將看到如何使用共軛梯度或克羅內克因子近似來近似二階更新。

  • 自適應梯度法、歸一化和權值衰減

我們看看已經成為神經網絡訓練的主要內容的三個算法特征。我們試圖理解它們對動力學的影響,并找出構建深度學習系統的一些陷阱。

  • 無窮極限與過度參數化
  • Stochastic Optimization and Scaling
  • Bayesian Inference and Implicit Regularization
  • Dynamical Systems and Momentum
  • Differential Games
  • Bilevel Optimization
付費5元查看完整內容

這個半天的教程介紹了各種信息系統的深度貝葉斯學習的基礎知識和進展,這些信息系統包括語音識別、文檔摘要、文本分類、信息提取、圖像標題生成、句子/圖像生成、對話管理、情感分類、推薦系統、問題回答和機器翻譯等等。傳統上,“深度學習”被認為是從源輸入到目標輸出的學習過程,其推理或優化基于實值確定性模型。單詞、句子、實體、圖像、視頻、動作和文檔中的“語義結構”在數學邏輯或計算機程序中可能無法很好地表達或正確地優化。自然句子或圖像的離散或連續潛變量模型中的“分布函數”可能無法得到適當的分解和估計。為了滿足源域和目標域的要求,遷移學習需要系統和精細的遷移學習。本教程介紹了統計模型和神經網絡的基本知識,重點介紹了一系列高級貝葉斯模型和深度模型,包括變分自動編碼器(VAE)、隨機時間卷積網絡、隨機循環神經網絡、序列到序列模型、注意機制、記憶增強神經網絡、跳躍神經網絡、時間差異VAE、預測狀態神經網絡和生成或歸一化流。改進了先驗/后驗表示。我們將介紹這些模型是如何連接的,以及為什么它們在時間和空間數據的符號和復雜模式的信息和知識管理中起作用。為解決復雜模型的優化問題,提出了變分推理和抽樣方法。詞語嵌入、句子嵌入和圖像嵌入在結構或語義約束下合并。針對神經貝葉斯信息處理中的不同問題,提出了一系列的案例研究。最后,提出了今后研究的方向和展望。本教程的目的是向初學者介紹深度貝葉斯學習的主要主題,激發和解釋一個對數據挖掘和信息檢索日益重要的主題,并提出一個新的結合不同的機器學習工作的綜合。

本教程由五個部分組成。首先介紹了統計建模、深度神經網絡、信息處理和數據挖掘等方面的研究現狀,并說明了離散值觀測數據和潛在語義的深度貝葉斯學習的關鍵問題。現代神經信息模型的介紹,以解決數據分析是如何執行從語言處理到記憶網絡,語義理解和知識學習。其次,我們討論了從潛變量模型到變分推理、抽樣方法、深層展開、遷移學習和對抗性學習等現代學習理論。第三部分介紹了記憶網絡、序列到序列學習、卷積網絡、遞歸網絡、注意網絡、Transformer和BERT等一系列深度模型。接下來,第四部分重點介紹了各種高級研究,這些研究說明了如何開發深度貝葉斯學習來推斷復雜的遞歸模型,用于序列信息處理。特別是將貝葉斯遞歸網絡、VAE、神經變分學習、神經離散表示、隨機時間神經網絡、馬爾可夫遞歸神經網絡和時間差神經網絡引入到各種信息系統中,為閱讀理解、句子生成、對話系統、問題回答、機器翻譯和狀態預測等各種實際任務打開了一個窗口。研究了基于歸一化流和后驗變分混合的變分推理方法。補償了變分順序學習中的后塌陷問題。源輸入和目標輸出之間的滿足被追求和優化。在文章的最后,我們重點討論了深入貝葉斯挖掘和理解的一些未來方向,以應對大數據、異構條件和動態系統的挑戰。特別強調了深度學習、結構學習、時空建模、長歷史表征和隨機學習。

付費5元查看完整內容
北京阿比特科技有限公司