亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

盡管在深度學習方面已經取得了巨大的實踐進展,但我們對是什么使深度學習工作得很好以及為什么這樣做缺乏清晰的理論理解。在本文中,我們采用“自然科學”的方法來構建深度學習的理論。我們首先確定在跨越各種不同背景的實際深度網絡中出現的各種經驗屬性。然后,我們討論了這些實證發現可以如何用來通知理論。具體而言,我們證明:(1)與監督學習相比,經過自監督學習訓練的先進深度網絡盡管過度參數化,但在特定條件下仍能實現有限的泛化差距。(2)具有相似性能和架構的模型通常會收斂到相似的內部表示,即使它們的訓練方法有很大的不同(例如:監督學習和自監督學習)(3)插值分類器服從一種分布泛化形式——它們從訓練分布中收斂到一種條件采樣器類型。(4)深度網絡的數據擴展特性對訓練數據集的結構和噪聲水平的變化具有魯棒性。

//dash.harvard.edu/handle/1/37372168

我們的發現強調,盡管缺乏最壞情況的保證,深度網絡隱含地以可預測的、結構化的方式運行,從而為未來的理論分析奠定了基礎。

付費5元查看完整內容

相關內容

 (Harvard University)是一所位于美國馬薩諸塞州劍橋市(波士頓郊外)的私立大學,常春藤盟校成員之一。它的歷史比美國悠久,是北美洲第一所大學,綽號為深紅。哈佛與臨近的麻省理工學院在世界上享有一流大學的聲譽、財富和影響力,在英語系大學中的排名尤其突出。

深度學習為我們提供了越來越復雜的神經網絡,可以通過梯度上升來調整,以最大化某些目標。貝葉斯統計為我們提供了一種原則性和統一的方法來指定統計模型和執行推斷。將這兩種方法配對的一種有效方法產生了深度生成模型(DGM),其中概率模型中統計參數之間的映射本身使用神經網絡進行參數化。在本文中,我們研究了這種方法可以用于解決機器學習中的各種問題的方法,以及由此產生的模型的屬性。在這篇論文中,有三個反復出現的主題,魯棒性,結構和層次,貫穿始終。

首先研究如何構建一個深度生成模型,以在一種稱為半無監督學習的新學習機制中進行學習。這是半監督學習的一個極端情況,對于某些類別的數據,沒有給定的標記示例。在學習將數據劃分為不同的成分,不同的基礎真值類時,模型必須能夠在未標記的類上進行聚類,并在給出了一些標記示例的類上進行半監督學習。本文展示了如何在一系列標準數據集上實現這一點。

從處理一個離散潛變量聚類分配開始,研究具有離散潛變量層次結構的模型。我們提出了一種新的方法來參數化這種類型的模型中的潛在變量,放松的責任向量量化,可以訓練非常深的潛在變量層的層次結構。該方法在一系列標準數據集上,對端到端的分層離散DGM進行訓練,在最大化數據證據(訓練和測試集)的下界方面取得了最先進的結果。在這樣做的過程中,這些模型有助于縮小具有離散潛在的分層DGM和具有連續潛在的分層DGM之間的差距,并提供極其穩定的訓練。

然后我們切換到另一個問題,如何構建一個模型,以有效地從高維數據中學習統計獨立的潛在表示。本文提出一種分層方法,使用雙射函數flow來產生一個中間表示,然后由高度約束的線性獨立成分分析(ICA)模型起作用。與其他方法相比,這導致了在各種玩具和真實數據集上的優越性能。

然后,研究迄今為止未考慮的問題,即如何使DGM對對抗性攻擊具有魯棒性。對這些模型的潛空間進行正則化可以可靠地誘導魯棒性,并通過將這種正則化應用于分層的DGM來獲得更魯棒的模型。最后,從理論角度研究了DGM算法的魯棒性問題。我們定義r-魯棒性,DGM魯棒性的新標準,然后得出該標準上的間隔,在該間隔內的模型可以說是魯棒的。與潛空間被正則化的各種DGM的最佳模型的新理論相結合,這種間隔的形式有助于了解這種正則化如何提高魯棒性。

**本文提出的工作表明,深度學習和貝葉斯統計的結合是多么有效,并提供了對他們的組合所產生的模型本質的見解。**這為這兩個方向開辟了新的研究——為建立在所提出工作之上的新模型,也為研究深度生成模型的理論工作開辟了新途徑。

//ora.ox.ac.uk/objects/uuid:fa76ad20-30bb-48a3-8ae4-56da578a1767

付費5元查看完整內容

在許多現代應用中取得顯著成功的最主要的技術之一是深度學習。對圖像識別、語音處理和文本理解中的海量數據分析的癡迷,促使深度神經網絡在不同研究領域的不同學習任務中取得了顯著進展。深度學習技術聯盟產生了強大的卷積神經網絡和新興的圖神經網絡。圖神經網絡(Graph neural networks),簡稱GNNs,是一種輸入包含內部結構關系的深度神經網絡。圖神經網絡(GNNs)的主流找到了圖的充分數值表示,這對統計或機器學習模型的預測性能至關重要。圖表示學習在現實世界中有許多應用,如藥物再利用、蛋白質分類、流行病傳播控制和社會網絡分析等。在過去五年中,GNN的快速發展過程中,發現了一些設計缺陷,如過度平滑、易受擾動、缺乏表現力和缺乏可解釋性。同時,對該研究領域的持續熱情為解決更復雜的問題積累了經驗,如大小可變圖壓縮和時變圖動態捕獲。

//ses.library.usyd.edu.au/handle/2123/28617

**這篇論文的目標是闡明一些關于數學的概述問題。**其中,圖壓縮的置換不變設計支持流形學習,魯棒的圖平滑依賴于凸優化原理,高效的動態圖表示學習借鑒了信號處理和矩陣分解的隨機冪方法。作者認為,深度學習技術的有效性不應該僅僅取決于在特定數據集上的性能,對黑盒模型的修改應該在皮膚層之下進行,并比超參數調整付出更多的努力。深度神經網絡的可靠性期待著在嚴格的數學支持下設計模型,以便有一天“計算機科學”成為真正的科學。

付費5元查看完整內容

深度學習在經驗上非常有影響力,但在理論理解上滯后。神經網絡在結構和訓練算法上都比傳統的機器學習模型復雜得多,所以傳統的理論直覺可能不適用。本文旨在從理論上更好地理解深度學習中的泛化問題。在論文的第一部分,我們研究了所有數據都有標簽的監督設置下的泛化。我們的主要工具是泛化界:通過推導和研究泛化界,我們可以深入了解深度學習中影響泛化的各種因素。

首先,我們比較了正則化神經網絡和神經正切核(NTK)的統計特性。通過建立神經網絡常見的正則化訓練損失與基于輸出邊際的泛化界之間的聯系,我們證明了正則化神經網絡比NTK解具有更好的泛化效果。其次,我們基于邊緣的新概念——全層邊緣,推導出神經網絡的新泛化邊界。與傳統的基于規范的泛化測度相比,這些邊界更依賴于數據,更具有深度,并突出了數據依賴的Lipschitzness在泛化中的重要作用。我們以經驗證明,這些邊界對于激勵新的訓練目標和理解和解密現有的正則化策略是有用的。

在論文的第二部分,我們把我們的焦點轉向涉及未標記數據的設置。在這些情況下,很難證明為什么許多算法可以工作,盡管它們有廣泛的經驗成功。

首先,我們研究了視覺設置,并提出了一個理論框架來理解最近的半監督學習和領域適應的自訓練算法。通過利用自然圖像的現實結構屬性,我們表明,在未標記數據上的自訓練導致可證明的準確性增益。此外,我們的理論框架和相關假設可以用來表明,自監督對比學習在線性探針評價下獲得了可證明的良好特征。最后,我們研究了為什么預訓練語言模型可以幫助處理NLP設置中的下游任務。我們通過潛在的潛在變量生成模型來考慮預訓練和下游任務相關的設置。我們表明,當這個生成模型是HMM或記憶增強HMM時,預訓練允許解決下游任務的可證明保證。

//searchworks.stanford.edu/view/14230987

付費5元查看完整內容

深度學習徹底改變了機器學習和人工智能,在幾個標準基準上取得了超人的表現。眾所周知,深度學習模型訓練效率低;它們通過多次處理數以百萬計的訓練數據來學習,并且需要強大的計算資源來同時并行處理大量數據,而不是順序處理。深度學習模型也存在非預期失效模式;他們可能會被愚弄,做出錯誤的預測。

在本文中,我們研究了提高深度學習模型訓練效率和魯棒性的方法。在學習視覺語義嵌入的背景下,我們發現優先學習更多的信息訓練數據可以提高收斂速度和提高測試數據的泛化性能。我們形式化了一個簡單的技巧,稱為硬負挖掘,作為學習目標函數的修改,沒有計算開銷。接下來,我們在深度學習的通用優化方法中尋求優化速度的改進。我們展示了對訓練數據采樣的冗余感知修改提高了訓練速度,并開發了一種檢測訓練信號多樣性的有效方法,即梯度聚類。最后,我們研究了深度學習中的對抗魯棒性,以及在不使用額外數據訓練的情況下實現最大對抗魯棒性的方法。對于線性模型,我們證明保證最大的魯棒性實現只有通過適當的選擇優化器,正則化,或架構。

//arxiv.org/pdf/2112.01423.pdf

付費5元查看完整內容

新理論揭開了深度學習的黑匣子。一個被稱為“信息瓶頸”的新想法正在幫助解釋當今人工智能算法令人困惑的成功,也可能解釋人類大腦是如何學習的。

紐約大學數據科學中心的CDS研究員,在那里我主要與Gordon Wilson 和 Yann Lecun合作,研究貝葉斯深度網絡、信息論和自監督學習。

//www.ravid-shwartz-ziv.com/

深度神經網絡信息流

盡管深度神經網絡已經取得了巨大的成功,但對它們如何工作或如何構建的全面的理論理解還不存在。深度網絡通常被視為黑盒,預測的解釋及其可靠性仍不清楚。今天,了解深度神經網絡的突破性性能是科學界面臨的最大挑戰之一。為了更有效地使用這些算法并改進它們,我們需要了解它們的動態行為以及它們學習新表示的能力。

本文通過將信息理論的原理和技術應用到深度學習模型來解決這些問題,以提高我們的理論理解,并使用它來設計更好的算法。本文的主要成果和貢獻分為三個部分,具體如下。

第二章和第三章介紹了深度學習模型的信息理論方法。作為對深度學習系統的解釋,我們提出使用信息瓶頸(IB)理論。這種分析網絡的新范式揭示了網絡的分層結構、泛化能力和學習動態。基于我們的分析,我們發現深度網絡優化了每一層輸入和輸出變量的互信息,導致了每一層壓縮和預測之間的權衡。我們對這些網絡的分析和數值研究表明,隨機梯度下降(SGD)算法遵循IB權衡原則,工作在兩個階段:一個快速經驗誤差最小化階段,然后是一個緩慢的表示壓縮階段。這些相位由每一層不同的信噪比(SNRs)來區分。此外,我們證明了SGD由于壓縮階段而達到了這個最優界,并在表示壓縮上導出了一個新的高斯界,并將其與壓縮時間聯系起來。此外,我們的結果表明,網絡的層收斂于IB的理論邊界,導致編碼器和譯碼器分布之間的自洽關系。

第四章討論了將IB應用到深度神經網絡中最困難的問題之一——在高維空間中估計互信息。盡管互信息在數據科學中是一個重要的數量,但它在歷史上給計算帶來了挑戰。互信息的計算只適用于離散變量或已知概率分布的有限數量的問題。為了更好地估計信息理論量和研究泛化信號,我們研究了幾個框架,并利用了最近的理論發展,如神經切線核(NTK)框架。在我們的研究中,我們發現對于無限寬的神經網絡的無限集合,我們可以得到許多信息理論量及其界的易于處理的計算。網絡的內核可以用一個封閉的形式來描述許多量。通過分析這些推導,我們可以了解網絡的重要信息論量,以及壓縮、泛化和樣本大小之間的關系。

第五章提出了一種新的信息理論框架——雙信息瓶頸(dualIB)。 盡管IB框架有優點,但它也有幾個缺點:IB是完全非參數的,并且只在概率空間上運行。此外,IB公式并不涉及預測看不見的模式的任務,并假定完全訪問聯合概率。因此,我們開發了dualIB,它解決了IB的一些缺點,通過僅僅在失真函數的項之間切換。dualIB可以解釋數據的已知特征,并利用它們對未見過的例子做出更好的預測。我們提供了dualIB自一致方程,使我們能夠得到解析解。局部穩定性分析揭示了解的臨界點的基本結構,得到了最優模式表示的完全分岔圖。我們發現了dualIB目標的幾個有趣的性質。首先,當以參數形式表示時,dualIB保留了它的結構。它還優化了平均預測誤差指數,從而提高了樣本量方面的預測精度。除了dualIB的解析解決方案,我們還提供了一個變分的dualIB框架,該框架使用深度神經網絡優化函數。該框架實現了對真實數據集的dualIB的實際實現。利用它,我們對其動力學進行了經驗評估,并驗證了現代深度神經網絡的理論預測。總之,本文提出了一個新的信息論視角來研究深度神經網絡,它利用了深度學習和IB框架之間的對應關系。我們獨特的視角可以提供許多好處,比如對深度神經網絡有更深入的理解,解釋它們的行為,并改善它們的性能。同時,我們的研究也開拓了新的理論和實踐研究問題。

學習表征是計算機視覺、自然語言處理、認知科學和機器學習中許多問題的核心(Bengio et al.; 2013). 分類和預測需要復雜的數據表示,因為要考慮物理參數,如位置、大小、方向和強度(Salakhutdinov等;2013). 然而,目前還不清楚什么構成了良好的表示,以及它與學習和特定問題類型的關系。

通過組合簡單神經元的多種轉換,深度神經網絡(DNN)可以產生更有用(并且在大多數情況下更抽象)的表示。由于它們的通用性和在各個領域的成功,這些系統在過去幾年中得到了普及。與傳統的機器學習方法相比,DNN的性能在圖像、音頻和文本等多個領域都有很大的改進(Devlin et al.; 2018; He et al.; 2016; Oord et al.; 2016)。最新的深度學習模型更加復雜,它們的架構也越來越復雜,需要優化的參數也越來越多。例如,ResNet-52網絡包含了經過數百萬張圖片優化的2300萬個參數。

然而,從理論的角度來理解這些性能的原因只是部分的,我們只是對它們有一個啟發式的理解。目前還不清楚為什么深度模型在真實世界的數據上表現得如此出色,以及它們的關鍵組件是什么。另外,當前的度量標準并沒有提供對網絡內部結構或網絡層質量的深入了解。因此,即使該模型非常準確,也很難將其作為進一步科學研究的基礎。為了使這些算法更有效并改進它們,我們必須理解它們的潛在動態行為以及它們如何學習表示。在本論文中,我們提出從信息論的角度研究DNN。作為對現代深度學習系統的解釋,我們提出了信息瓶頸(IB)理論。我們希望通過這種分析DNN的創新方法來闡明它們的分層結構、泛化能力和學習動態。為了更好地理解DNN,第一個問題是:如何使用信息論的一般理論,特別是IB框架來更好地理解DNN?

香農發明了信息論來確定在噪聲信道上傳輸信息所需的比特數。 這一理論后來被證明是衡量變量之間影響的無價方法(Shannon; 1948)。給定兩個隨機變量X和Y,它們之間的互信息度量它們的聯合概率分布P(X, Y)與其邊緣P(X)P(Y)的乘積的散度,以確定它們的相依或獨立程度。互信息的概念不同于相關性,它可以捕捉變量之間的非線性統計關系,增強我們分析復雜系統動力學的能力(Kinney and Atwal; 2014)。盡管互信息在數據科學中是一個基本的數量,但它在歷史上一直具有挑戰性的估計(Paninski;2003)。精確計算只適用于有限數量的具有明確定義的概率分布的問題(例如,指數族)。對于有限的數據樣本或一般問題,互信息的計算是不可能的。

這就引出了以下研究問題: 如何計算大規模DNN的互信息?為了得到信息理論量的精確計算和尋找泛化信號,我們研究了幾個框架并利用了當前的理論發展,包括神經切線核(NTK)框架(Lee等人;2019)。我們得到了無限寬神經網絡的無限集合中信息論量及其界的易于處理的計算。我們的分析表明,核以一種封閉的形式描述了許多量。此外,我們發現輸入的壓縮有助于該模型家族的泛化。

雖然IB框架有它的優點,但它也有一些缺點,包括無法保存數據的結構和有限數據的性能不夠理想。最后研究的問題是,我們是否可以推導出一個新的框架來解決這些問題,并將其應用到DNN中。

因此,我們開發了雙IB (DualIB),它在失真函數中的項之間切換,以解決IB的一些問題。局部穩定性分析揭示了其底層結構和最優模式表示。我們發現,當以參數形式表示時,DualIB保留了它的結構。此外,它還優化了平均預測誤差指數,提高了相對于樣本容量的預測精度。DualIB可以在變分框架的幫助下,使用神經網絡應用于真實世界的數據集。利用這個框架,我們評估了DualIB的動力學,并驗證了理論預測。

參考鏈接:

付費5元查看完整內容

在這篇論文中,我們對深度學習理論進行了實證研究。我們將深度學習系統視為黑盒,有我們可以控制的輸入(訓練樣本、架構、模型大小、優化器等)和我們可以觀察的輸出(神經網絡函數、其測試誤差、其參數等)。我們的目標是描述輸入的選擇如何影響輸出。作為一個經驗理論,我們的目標是定量地描述這種行為,如果不是嚴格地證明它。我們希望理論盡可能普適化,應用于廣泛的深度學習設置,包括那些在實踐中。

為此,我們提出了三個經驗理論。(1) Deep Double Descent證明了深度學習的輸入和輸出之間的關系并不總是以自然的方式單調:存在一個可預測的“關鍵機制”,例如,對更多數據的訓練實際上會損害性能,但模型在這個機制之外表現良好。(2) 深度Bootstrap框架表明,要理解輸出網絡的泛化,只要理解我們的輸入選擇的優化方面就足夠了。(3) 分布泛化更深入地研究了輸出網絡,發現經過訓練的模型實際上“泛化”的范圍比我們通常預期的要廣得多。我們引入了一種新的泛化捕捉這些行為。

我們的研究結果揭示了學習理論中已有的主題(特別是泛化、過度參數化、插值化),也揭示了需要新的框架來捕捉的新現象。在某些情況下,我們對深度學習的研究揭示了一些現象,即使是非深度學習方法也適用。因此,我們希望這篇論文的結果將最終編織成一個一般性的深度學習理論。

Preetum Nakkiran 個人主頁://preetum.nakkiran.org/

付費5元查看完整內容

本文研究了深度學習理論中一個基本的開放挑戰: 為什么深度網絡在過度參數化、非正則化和擬合訓練數據為零誤差的情況下仍能很好地泛化? 在論文的第一部分,我們將實證研究如何通過隨機梯度下降訓練深度網絡隱式控制網絡容量。隨后,為了說明這如何導致更好的泛化,我們將推導基于數據的一致收斂的泛化邊界,并改進參數計數的依賴性。由于其簡單性和通用性,一致收斂實際上已經成為深度學習文獻中使用最廣泛的工具。鑒于它的流行,在這篇論文中,我們也將后退一步,確定一致收斂的基本極限,作為解釋泛化的工具。特別地,我們將證明在一些過度參數化的設置的例子中,任何一致收斂界將只提供一個空洞的泛化界。考慮到這一點,在論文的最后一部分,我們將改變航向,并引入一種經驗技術來估計使用未標記數據的泛化。我們的技術不依賴于任何基于一致收斂的復雜性概念,而且非常精確。我們將從理論上說明為什么我們的技術如此精確。最后,我們將討論未來的工作如何探索在泛化邊界中納入分布假設的新方法(例如以未標記數據的形式),并探索其他工具來推導邊界,可能是通過修改統一收斂或開發完全新的工具。

付費5元查看完整內容

機器學習(ML)最近的快速進展提出了一些科學問題,挑戰了該領域長期存在的教條。最重要的謎題之一是過度參數化模型的良好經驗泛化。過度參數化的模型對于訓練數據集的大小來說過于復雜,這導致它們完美地擬合(即插值)訓練數據,而訓練數據通常是有噪聲的。這種對噪聲數據的插值傳統上與有害的過擬合有關,但最近觀察到,從簡單的線性模型到深度神經網絡的各種插值模型在新測試數據上都能很好地泛化。事實上,最近發現的雙下降現象表明,在測試性能上,高度過度參數化的模型往往比最好的欠參數化模型更好。理解這種過度參數化的學習需要新的理論和基礎的實證研究,即使是最簡單的線性模型。這種理解的基礎已經在最近對過度參數化線性回歸和相關統計學習任務的分析中奠定,這導致了雙下降的精確分析特征。本文簡要概述了這一新興的過度參數化ML理論(以下簡稱為TOPML),并從統計信號處理的角度解釋了這些最新發現。我們強調將TOPML研究領域定義為現代ML理論的一個子領域的獨特方面,并概述了仍然存在的有趣的未決問題。

//www.zhuanzhi.ai/paper/182ad6c4b994aa517d10319504e9bb3a

引言

深度學習技術已經徹底改變了許多工程和科學問題的解決方式,使數據驅動方法成為實踐成功的主要選擇。當前的深度學習方法是經典機器學習(ML)設置的極限開發版本,以前這些設置受到有限的計算資源和訓練數據可用性不足的限制。目前已建立的實踐是從一組訓練示例中學習高度復雜的深度神經網絡(DNN),這些示例雖然本身很大,但相對于DNN中的參數數量來說相當小。雖然這種過度參數化的DNN在ML實踐中是最先進的,但這種實際成功的根本原因仍不清楚。特別神秘的是兩個經驗觀察結果: 1) 模型中添加更多參數的明顯益處(在泛化方面),2) 這些模型即使完美地擬合了噪聲訓練數據,也能很好地泛化。這些觀察結果在現代ML的不同結構中都得到了體現——當它們首次被用于復雜的、最先進的DNN時(Neyshabur et al., 2014; Zhang et al., 2017)),它們已經在更簡單的模型家族中出土,包括寬神經網絡、核方法,甚至線性模型(Belkin et al., 2018b; Spigler et al., 2019; Geiger et al., 2020; Belkin et al., 2019a)。

在本文中,我們綜述了最近發展起來的過度參數化機器學習理論(簡稱TOPML),該理論建立了與訓練數據插值(即完美擬合)相關的現象相關的基本數學原理。我們很快將提供一個過度參數化ML的正式定義,但在這里描述一些模型必須滿足的顯著屬性,以合格為過度參數化。首先,這樣的模型必須是高度復雜的,因為它的獨立可調參數的數量要遠遠高于訓練數據集中的示例數量。其次,這樣的模型絕不能以任何方式被明確地規范化。DNN是過度參數化模型的常見實例,這些模型通常沒有明確的正則化訓練(參見,例如,Neyshabur et al., 2014; Zhang et al., 2017)。這種過度參數化和缺乏顯式正則化的組合產生了一個可插值訓練示例的學習模型,因此在任何訓練數據集上都實現了零訓練誤差。訓練數據通常被認為是來自底層數據類(即噪聲數據模型)的噪聲實現。因此,插值模型完美地擬合了基礎數據和訓練示例中的噪聲。傳統的統計學習總是將噪聲的完美擬合與較差的泛化性能聯系在一起(例如,Friedman et al., 2001, p. 194);因此,值得注意的是,這些插值解決方案通常能很好地泛化到訓練數據集以外的新測試數據。

在本文中,我們回顧了TOPML研究的新興領域,主要關注在過去幾年發展的基本原理。與最近的其他綜述相比(Bartlett et al., 2021; Belkin, 2021),我們從更基本的信號處理角度來闡明這些原則。形式上,我們將TOPML研究領域定義為ML理論的子領域,其中1. 明確考慮訓練數據的精確或近似插值 2. 相對于訓練數據集的大小,學習模型的復雜性較高。

本文組織如下。在第2節中,我們介紹了過度參數化學習中插值解的基礎知識,作為一個機器學習領域,它超出了經典偏方差權衡的范圍。在第3節中,我們概述了最近關于過度參數化回歸的結果。在這里,我們從信號處理的角度直觀地解釋了過度參數化學習的基本原理。在第4節中,我們回顧了關于過度參數化分類的最新發現。在第5節中,我們概述了最近關于過度參數化子空間學習的工作。在第6節中,我們考察了最近關于回歸和分類以外的過度參數化學習問題的研究。在第7節中,我們討論了過度參數化ML理論中的主要開放問題。

付費5元查看完整內容
北京阿比特科技有限公司