亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

論文題目

一致收斂可能無法解釋深度學習中的泛化現象,Uniform convergence may be unable to explain generalization in deep learning

論文摘要

我們對基于一致收斂的泛化界的能力表示懷疑,以提供一個完整的圖像,說明為什么過度參數化的深網絡泛化良好。雖然眾所周知,許多現有的邊界是數值大的,通過各種實驗,我們首先揭示了這些界限的另一個關鍵和更關注的方面:在實踐中,這些界限可以{EM增加與數據集的大小。在我們的觀察結果的指導下,我們給出了隨機梯度下降(SGD)訓練的超參數線性分類器和神經網絡的例子,在這些例子中,即使我們盡可能充分地考慮隱式正則化{\em},一致收斂也無法“解釋泛化”。更準確地說,即使我們只考慮SGD輸出的一組測試誤差小于某個小?的分類器,對這組分類器應用(雙邊)一致收斂也會得到一個大于1?的泛化保證,因此幾乎是空的

論文亮點

本文提出了一個反對使用基于一致收斂的泛化界來解釋超參數深網絡泛化良好的理由。它們是通過破壞最緊的(算法,分布相關的)一致收斂界來實現的。

論文結構

  • 作者首先回顧了基于標準一致收斂的邊界是如何工作的
  • 經典的基于一致收斂的方法通過測試誤差來約束測試誤差<=訓練誤差+O(某些復雜項)/SRT(訓練集大小),由于過度的超調,在過參數化設置中失敗。
  • 在現代方法中,我們試圖找到在實際數據上訓練時隱式正則化的權值,然后對它們(更簡單的,范數有界的函數類)應用一致收斂來產生更好的界

論文作者

Vaishnavh Nagarajan, J. Zico Kolte。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

題目:

Con?dence-Aware Learning for Deep Neural Networks

簡介:

盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。

付費5元查看完整內容

Dropout是一種廣泛使用的正則化技術,通常需要為許多體系結構獲得最先進的技術。這項工作表明,dropout引入了兩種截然不同但相互糾纏的正則化效應:由于dropout修改了預期的訓練目標而產生的顯式效應(在之前的工作中也研究過),以及可能令人驚訝的是,dropout訓練更新中的隨機性帶來的另一種隱式效應。這種隱式正則化效應類似于小批量隨機梯度下降中的隨機度效應。我們通過控制實驗把這兩種效應分開。然后,我們推導出分析的簡化,用模型的導數和損失來描述每個影響,對于深度神經網絡。我們證明了這些簡化的、解析的正則化器準確地捕獲了輟學的重要方面,表明它們在實踐中忠實地替代了dropout。

付費5元查看完整內容

【導讀】紐約大學的Andrew Gordon Wilson和Pavel Izmailov在論文中從概率角度的泛化性對貝葉斯深度學習進行了探討。貝葉斯方法的關鍵區別在于它是基于邊緣化,而不是基于最優化的,這為它帶來了許多優勢。

貝葉斯方法的關鍵區別是邊緣化,而不是使用單一的權重設置。貝葉斯邊緣化可以特別提高現代深度神經網絡的準確性和校準,這是典型的不由數據完全確定,可以代表許多令人信服的但不同的解決方案。我們證明了深度集成為近似貝葉斯邊緣化提供了一種有效的機制,并提出了一種相關的方法,通過在沒有顯著開銷的情況下,在吸引域邊緣化來進一步改進預測分布。我們還研究了神經網絡權值的模糊分布所隱含的先驗函數,從概率的角度解釋了這些模型的泛化性質。從這個角度出發,我們解釋了那些對于神經網絡泛化來說神秘而獨特的結果,比如用隨機標簽來擬合圖像的能力,并證明了這些結果可以用高斯過程來重現。最后,我們提供了校正預測分布的貝葉斯觀點。

付費5元查看完整內容

強化學習(RL)研究的是當環境(即動力和回報)最初未知,但可以通過直接交互學習時的順序決策問題。RL算法最近在許多問題上取得了令人印象深刻的成果,包括游戲和機器人。 然而,大多數最新的RL算法需要大量的數據來學習一個令人滿意的策略,并且不能用于樣本昂貴和/或無法進行長時間模擬的領域(例如,人機交互)。朝著更具樣本效率的算法邁進的一個基本步驟是,設計適當平衡環境探索、收集有用信息的方法,以及利用所學策略收集盡可能多的回報的方法。

本教程的目的是讓您認識到探索性開發困境對于提高現代RL算法的樣本效率的重要性。本教程將向觀眾提供主要算法原理(特別是,面對不確定性和后驗抽樣時的樂觀主義)、精確情況下的理論保證(即表格RL)及其在更復雜環境中的應用,包括參數化MDP、線性二次控制,以及它們與深度學習架構的集成。本教程應提供足夠的理論和算法背景,以使AI和RL的研究人員在現有的RL算法中集成探索原理,并設計新穎的樣本高效的RL方法,能夠處理復雜的應用,例如人機交互(例如,會話代理),醫學應用(例如,藥物優化)和廣告(例如,營銷中的終身價值優化)。在整個教程中,我們將討論開放的問題和未來可能的研究方向。

付費5元查看完整內容

題目

修正排序系統中的選擇偏差:Correcting for Selection Bias in Learning-to-rank Systems

類型

推薦系統偏差

關鍵字

推薦系統,學習排名,位置偏差,選擇偏差

簡介

現代推薦系統收集的點擊數據是一個重要的觀測數據來源,可用于訓練學習排名(LTR)系統。然而,這些數據受到許多偏差的影響,這些偏差可能導致LTR系統性能不佳。在這種系統中,最新的偏差校正方法主要集中在位置偏差上,即排名較高的結果(例如,上搜索引擎的結果)更容易被點擊,即使它們不是給出用戶查詢的最相關的結果。很少有人注意到對選擇偏差的糾正,這是因為被選中的文檔首先反映了用戶擁有的文檔。在這里,我們提出了一種新的基于赫克曼兩階段方法的新方法,并對LTR系統中的選擇和位置偏差進行了解釋。通過實例評價表明,與現有的無偏LTR算法相比,所提出的方法對噪聲具有更強的魯棒性和更好的精度,尤其是在沒有位置偏差的情況下。

作者

Zohreh Ovaisi,Ragib Ahsan,伊利諾伊大學芝加哥分校。

Yifan Zhang,中山大學

付費5元查看完整內容

題目: Optimization for deep learning: theory and algorithms

摘要:

什么時候以及為什么能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先,我們討論了梯度爆炸、消失問題,然后討論了實際的解決方案,包括初始化和歸一化方法。其次,我們回顧了用于訓練神經網絡的一般優化方法,如SGD、自適應梯度方法和分布式方法以及這些算法的理論結果。第三,我們回顧了現有的關于神經網絡訓練的全局問題的研究,包括局部極值的結果、模式連接、無限寬度分析。

作者:

Ruoyu Sun是伊利諾伊大學厄本那香檳分校 (UIUC)電子與計算機工程系的助理教授,研究優化和機器學習,尤其是深度學習。最近,一直在研究深度學習中的最優化,例如神經網絡,GANs和Adam。

摘要

什么時候以及為什么能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先,我們討論了梯度爆炸/消失問題和更一般的不期望譜問題,然后討論了實際的解決方案,包括仔細的初始化和歸一化方法。其次,我們回顧了用于訓練神經網絡的一般優化方法,如SGD、自適應梯度方法和分布式方法,以及這些算法的現有理論結果。第三,我們回顧了現有的關于神經網絡訓練的全局問題的研究,包括局部極值的結果、模式連接、彩票假設和無限寬度分析。

  1. 概述

本文的一個主要主題是了解成功訓練神經網絡的實際組成部分,以及可能導致訓練失敗的因素。假設你在1980年試圖用神經網絡解決一個圖像分類問題。如果你想從頭開始訓練一個神經網絡,很可能你最初的幾次嘗試都沒有得到合理的結果。什么本質的變化使算法能有效進行?在高層次上,你需要三樣東西(除了強大的硬件): 合適的神經網絡、合適的訓練算法和合適的訓練技巧。

合適的神經網絡。這包括神經結構和激活功能。對于神經結構,您可能想要用一個至少有5層和足夠神經元的卷積網絡來替換一個完全連接的網絡。為了獲得更好的性能,您可能希望將深度增加到20甚至100,并添加跳躍skip連接。對于激活函數,一個好的起點是ReLU激活,但是使用tanh或swish激活也是合理的。

訓練算法。一個大的選擇是使用隨機版本的梯度下降(SGD)并堅持它。良好調整的步長足夠好,而動量和自適應步長可以提供額外的好處。

訓練技巧。適當的初始化對于算法的訓練是非常重要的。要訓練一個超過10層的網絡,通常需要兩個額外的技巧:添加規范化層和添加跳過連接。

哪些設計選擇是必要的?目前我們已經了解了一些設計選擇,包括初始化策略、規范化方法、跳過連接、參數化(大寬度)和SGD,如圖1所示。我們將優化優勢大致分為三部分: 控制Lipschitz常數、更快的收斂速度和更好的landscape。還有許多其他的設計選擇是很難理解的,尤其是神經架構。無論如何,似乎不可能理解這個復雜系統的每個部分,目前的理解已經可以提供一些有用的見解。

圖1: 成功訓練具有理論理解的神經網絡的幾個主要設計選擇。它們對算法收斂的三個方面有影響:使收斂成為可能、更快的收斂和更好的全局解。這三個方面有一定的聯系,只是一個粗略的分類。請注意,還有其他一些重要的設計選擇,特別是神經體系結構,它們在理論上還沒有被理解,因此在該圖中被省略了。還有其他好處,比如泛化,也被忽略了。

為了使綜述調查簡單,我們將重點研究前饋神經網絡的監督學習問題。我們將不討論更復雜的公式,如GANs(生成對抗網絡)和深度強化學習,也不討論更復雜的體系結構,如RNN(遞歸神經網絡)、attention和Capsule。在更廣泛的背景下,監督學習理論至少包含表示、優化和泛化(參見1.1節),我們不詳細討論表示和泛化。一個主要的目標是理解神經網絡結構(由許多變量連接的參數化)如何影響優化算法的設計和分析,這可能會超越監督學習。

這篇文章是為那些對神經網絡優化的理論理解感興趣的研究人員寫的。關于優化方法和基礎理論的先驗知識將非常有幫助(參見,[24,200,29]的準備)。現有的關于深度學習優化的調查主要針對一般的機器學習受眾,如Goodfellow等[76]的第8章。這些綜述通常不深入討論優化的理論方面。相反,在這篇文章中,我們更多地強調理論結果,同時努力使它對非理論讀者具有可訪問性。如果可能的話,我們將提供一些簡單的例子來說明這種直覺,我們將不解釋定理的細節。

1.1 大景觀:分解理論

分解是發展理論的一個有用且流行的元方法。首先簡要回顧了優化在機器學習中的作用,然后討論了如何分解深度學習的優化理論。

表示、優化和泛化。監督學習的目標是根據觀察到的樣本找到一個近似底層函數的函數。第一步是找到一個豐富的函數家族(如神經網絡),可以代表理想的函數。第二步是通過最小化某個損失函數來識別函數的參數。第三步是使用第二步中找到的函數對不可見的測試數據進行預測,產生的錯誤稱為測試錯誤。測試誤差可以分解為表示誤差、優化誤差和泛化誤差,分別對應這三個步驟引起的誤差。

在機器學習中,表示、優化和泛化這三個學科經常被分開研究。例如,在研究一類函數的表示能力時,我們往往不關心優化問題能否很好地解決。在研究泛化誤差時,我們通常假設已經找到了全局最優值(概化調查見[95])。類似地,在研究優化屬性時,我們通常不明確地考慮泛化誤差(但有時我們假定表示誤差為零)。

優化問題的分解。深度學習的優化問題比較復雜,需要進一步分解。優化的發展可以分為三個步驟。第一步是使算法開始運行,并收斂到一個合理的解,如一個固定點。第二步是使算法盡快收斂。第三步是確保算法收斂到一個低目標值的解(如全局極小值)。要獲得良好的測試精度,還有一個額外的步驟,但是這超出了優化的范圍。簡而言之,我們將優化問題分為三個部分: 收斂性、收斂速度和全局質量。

大部分工作的回顧分為三個部分: 第四部分,第五部分和第六部分。大致說來,每個部分主要是由優化理論的三個部分之一。然而,這種劃分并不精確,因為這三個部分之間的邊界是模糊的。例如,第4節中討論的一些技術也可以提高收斂速度,第6節中的一些結果解決了收斂問題和全局問題。劃分的另一個原因是它們代表了神經網絡優化的三個相當獨立的子領域,并且在一定程度上是獨立發展的。

1.2 文章結構

這篇文章的結構如下。在第二節中,我們提出了一個典型的監督學習神經網絡優化問題。在第三節中,我們提出了反向傳播(BP),并分析了將經典收斂分析應用于神經網絡梯度下降的困難。在第四節中,我們將討論訓練神經網絡的神經網絡特定技巧,以及一些基本理論。這些是神經網絡相關的方法,打開了神經網絡的黑盒子。特別地,我們討論了一個主要的挑戰,稱為梯度爆炸/消失和一個更普遍的挑戰,控制頻譜,并回顧了主要的解決方案,如仔細的初始化和歸一化方法。在第五節中,我們討論了將神經網絡視為一般非凸優化問題的泛型算法設計。特別地,我們回顧了SGD的各種學習速率調度、自適應梯度方法、大規模分布式訓練、二階方法以及現有的收斂和迭代復雜度結果。在第六節中,我們回顧了神經網絡的全局優化研究,包括全局景觀、模式連接、彩票假設和無限寬度分析(如神經正切核)。

?

更多請下載論文查看

便捷下載,請關注專知公眾號(點擊上方藍色專知關注)

后臺回復“

付費5元查看完整內容

論文題目

它是這樣的:用于可解釋圖像識別的深度學習,This Looks Like That: Deep Learning for Interpretable Image Recognition

論文摘要

當我們面對具有挑戰性的圖像分類任務時,我們常常通過剖析圖像并指出一個或另一個類的典型方面來解釋我們的推理。越來越多的證據可以幫助我們做出最后的決定。在這項工作中,我們介紹了一種深度網絡體系結構——原型零件網絡(ProtoPNet),其原因與此類似:網絡通過尋找原型零件來解剖圖像,并結合原型中的證據進行最終分類。因此,該模型的推理方式與鳥類學家、醫生和其他人向人們解釋如何解決具有挑戰性的圖像分類任務的方式在質量上相似。該網絡僅使用圖像級標簽進行訓練,而不對圖像的部分進行任何注釋。我們在CUB-200-2011數據集和Stanford Cars數據集上演示了我們的方法。我們的實驗表明,ProtoPNet可以達到與其類似的不可解釋模型相當的精度,并且當幾個ProtoPNet組合成一個更大的網絡時,它可以達到與一些性能最好的深層模型相當的精度。此外,ProtoPNet提供了其他可解釋的深層模型所不具備的可解釋性。

論文模型

  • 最初我們有VGG-16網絡的前13層,然后是2,1x1 convs
  • 該網絡學習m個原型(pj),每個類有一個預定義數量的原型。
  • 每個prototpye應用于conv輸出的所有面片,并使用L2距離為所有面片的單個原型生成相似度得分,這也可用于制作相似度熱圖。
  • 然后應用全局池將其轉換為一個分數gpj,它代表了圖像中原型的最強相似發現。
  • 然后在FC層反饋m個全局相似性得分進行分類

論文亮點

本文提出了一種新的可解釋性深度學習的思想,它基本上是由圖像本身的一些原型部分,然后利用這些原型進行分類,從而使分類過程具有可解釋性。在NIPS 2019的前3%接受論文中。 論文作者

Chaofan Chen, Oscar Li, Chaofan Tao, Alina Jade Barnett, Jonathan Su, Cynthia Rudin,作者們來自于杜克大學

付費5元查看完整內容

簡介: 為了解釋超參數化深度網絡令人驚訝的良好泛化行為,最近的工作開發了各種泛化邊界學習方法,這些方法都是基于統一收斂的基礎學習理論技術。盡管眾所周知,存在多個邊界的數值很大,但通過大量實驗,我們發現了這些邊界的更多相關方面:在實踐中,這些邊界會隨著訓練數據集的大小而增加。然后,以我們的觀察為指導,我們提供了由梯度下降(GD)訓練的過參數化線性分類器和神經網絡的示例,其中即使證明了最大程度地考慮了GD的隱性偏差,也證明均勻收斂不能“解釋泛化”。更準確地說,即使我們僅考慮GD輸出的分類器集,其測試誤差小于我們的設置中的一些誤差,我們仍然表明,在這組分類器上應用(雙面)均勻收斂只會產生虛無泛化保證大于1?ε。通過這些發現,我們對基于統一收斂的泛化邊界的威力提出了疑問,以提供為什么超參數化的深層網絡能夠很好地泛化的完整情況。

本文提出了本質上是負面的結果,表明許多現有的(基于規范的)深度學習算法的性能邊界無法達到他們要求的結果。作者進一步說,當其他研究者繼續依靠雙邊一致收斂的機制時,他們將無法達到自己宣稱的結果。雖然本文沒有解決(也不假裝解決)深層神經網絡中的泛化問題,但是將該算法“釘死在十字架上”(培根原話“An Instance of the Fingerpost”),指出機器學習領域應該關注另一個不同的地方。

作者介紹: Vaishnavh Nagarajan,卡內基梅隆大學(CMU)計算機科學系五年級的博士生。他的興趣在于機器學習和人工智能的算法和基礎方面。目前,他正在研究如何在有監督和無監督的學習環境中從理論上理解深度學習中的泛化。在過去,他從事過更傳統的學習理論、多智能體系統和強化學習。

Zico Kolter,卡內基梅隆大學計算機科學學院計算機科學系的副教授。 除了在CMU的全職工作之外,還任博世AI中心(BCAI)的AI研究首席科學家,工作重點是機器學習,優化和控制。 具體來說,就是使深度學習算法更安全,更可靠,更易于解釋。個人主頁://www.csd.cs.cmu.edu/people/faculty/zico-kolter

付費5元查看完整內容

題目: Towards Explainable Deep Neural Networks (xDNN)

簡介: 在本文中,我們提出了一種解決方案,該解決方案直接解決了傳統深度學習方法的瓶頸,并提供了一種清晰可解釋的內部架構,該架構可以勝過現有方法,只需要很少的計算資源(不需要GPU)并且訓練時間短(以秒為單位)。提出的方法xDNN原型,原型是實際的訓練數據樣本(圖像),是經驗數據分布的局部峰值(稱為典型性)以及數據密度。這種生成模型以封閉形式識別,但可以自動且完全從訓練數據中得出,而無需用戶或問題特定的閾值,參數或干預。xDNN提供了一種新的深度學習架構,該架構將推理和學習結合在一起。它是非迭代且非參數的,這從時間和計算資源上解釋了其效率。從用戶的角度來看,用戶顯然可以理解所提出的方法。我們在一些著名的基準數據集(例如iRoads和Caltech-256)上對其進行了測試。 xDNN在準確性,訓練時間方面優于其他方法,包括深度學習,并提供了一個清晰可解釋的分類器。

付費5元查看完整內容
北京阿比特科技有限公司