亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

這是一本簡單證明梯度收斂和隨機梯度下降類型方法的手冊。考慮Lipschitz函數、光滑函數、凸函數、強凸函數和/或Polyak- Lojasiewicz函數。我們的重點是簡單的“好的證據”。每個部分可以單獨參考。我們從梯度下降的證明開始,然后是隨機變量,包括minibatching和momentum。然后使用次梯度方法、近端梯度下降法及其隨機變體處理非光滑問題。我們的重點是全局收斂率和復雜度率。這里發現的一些不太常見的證明包括SGD(隨機梯度下降),近端步驟在第11節,動量在第7節,以及mini-batch在第6節。 //arxiv.org/pdf/2301.11235.pdf本文收集了我們最喜歡的基于梯度和隨機梯度方法的收斂性證明。我們的重點是簡單的證明,這些證明易于復制和理解,并且能夠達到最佳的收斂速度。

付費5元查看完整內容

相關內容

隨機(ji)梯(ti)(ti)度(du)下降,按照數據(ju)生成分布抽(chou)取m個樣本,通(tong)過(guo)計(ji)算(suan)他們梯(ti)(ti)度(du)的平(ping)均值(zhi)來更新(xin)梯(ti)(ti)度(du)。

**本(ben)書為學生和(he)研究(jiu)人(ren)員提(ti)供了(le)(le)(le)數(shu)(shu)據(ju)(ju)(ju)(ju)可(ke)視(shi)化(hua)原(yuan)理(li)(li)和(he)實踐的(de)(de)(de)(de)動手介紹(shao)。**它解釋了(le)(le)(le)是(shi)什么讓(rang)一(yi)(yi)些(xie)圖(tu)(tu)(tu)表(biao)成(cheng)功,而另一(yi)(yi)些(xie)則失(shi)敗,如(ru)(ru)何(he)使用強(qiang)大和(he)可(ke)重現(xian)的(de)(de)(de)(de)方(fang)法從(cong)數(shu)(shu)據(ju)(ju)(ju)(ju)中(zhong)制(zhi)(zhi)作高質量(liang)(liang)的(de)(de)(de)(de)圖(tu)(tu)(tu)表(biao),以及如(ru)(ru)何(he)以誠實和(he)有效(xiao)的(de)(de)(de)(de)方(fang)式思考數(shu)(shu)據(ju)(ju)(ju)(ju)可(ke)視(shi)化(hua)。數(shu)(shu)據(ju)(ju)(ju)(ju)可(ke)視(shi)化(hua)建(jian)立了(le)(le)(le)讀者(zhe)對(dui)ggplot2的(de)(de)(de)(de)專業知(zhi)識,ggplot2是(shi)R編程語言的(de)(de)(de)(de)通用可(ke)視(shi)化(hua)庫(ku)。通過一(yi)(yi)系列工作的(de)(de)(de)(de)例子,這個(ge)無障(zhang)礙的(de)(de)(de)(de)入門然后演(yan)示了(le)(le)(le)如(ru)(ru)何(he)創建(jian)一(yi)(yi)個(ge)一(yi)(yi)個(ge)的(de)(de)(de)(de)圖(tu)(tu)(tu)形,從(cong)單個(ge)變(bian)量(liang)(liang)的(de)(de)(de)(de)摘要開始,然后移動到更(geng)復(fu)雜(za)的(de)(de)(de)(de)圖(tu)(tu)(tu)形。主題包括繪制(zhi)(zhi)連續型和(he)類別型變(bian)量(liang)(liang);圖(tu)(tu)(tu)形信息分(fen)(fen)層;產(chan)生有效(xiao)的(de)(de)(de)(de)“小(xiao)倍(bei)數(shu)(shu)”地塊;為繪圖(tu)(tu)(tu)對(dui)數(shu)(shu)據(ju)(ju)(ju)(ju)進(jin)行分(fen)(fen)組、匯總和(he)轉換;創建(jian)地圖(tu)(tu)(tu);處理(li)(li)統(tong)計模型的(de)(de)(de)(de)輸出;并(bing)改進(jin)情節,使其(qi)更(geng)容易理(li)(li)解。 有效(xiao)的(de)(de)(de)(de)圖(tu)(tu)(tu)形是(shi)交流思想的(de)(de)(de)(de)關鍵,也是(shi)更(geng)好(hao)地理(li)(li)解數(shu)(shu)據(ju)(ju)(ju)(ju)的(de)(de)(de)(de)好(hao)方(fang)法。本(ben)書提(ti)供了(le)(le)(le)學生和(he)從(cong)業者(zhe)需要的(de)(de)(de)(de)實用技能,以可(ke)視(shi)化(hua)定量(liang)(liang)數(shu)(shu)據(ju)(ju)(ju)(ju),并(bing)從(cong)他們的(de)(de)(de)(de)研究(jiu)發(fa)現(xian)中(zhong)獲得(de)最(zui)大的(de)(de)(de)(de)收獲。 * 提(ti)供使用R和(he)ggplot2的(de)(de)(de)(de)實踐指導(dao) * 展示了(le)(le)(le)各種數(shu)(shu)據(ju)(ju)(ju)(ju)分(fen)(fen)析工具(ju)如(ru)(ru)何(he)讓(rang)R的(de)(de)(de)(de)使用變(bian)得(de)更(geng)容易、更(geng)一(yi)(yi)致 * 包括一(yi)(yi)個(ge)數(shu)(shu)據(ju)(ju)(ju)(ju)集、代碼和(he)函數(shu)(shu)庫(ku)

//press.princeton.edu/books/hardcover/9780691181615/data-visualization

付費5元查看完整內容

這(zhe)是(shi)一(yi)(yi)(yi)本(ben)(ben)(ben)(ben)關于線(xian)(xian)(xian)性代(dai)數(shu)(shu)(shu)(shu)(shu)和矩陣理(li)(li)論(lun)的(de)(de)(de)(de)(de)書(shu)(shu)。雖然它(ta)(ta)(ta)(ta)是(shi)獨立的(de)(de)(de)(de)(de),但它(ta)(ta)(ta)(ta)最適合那些已(yi)(yi)經(jing)接觸過線(xian)(xian)(xian)性代(dai)數(shu)(shu)(shu)(shu)(shu)的(de)(de)(de)(de)(de)人。我(wo)(wo)們還(huan)假設讀者已(yi)(yi)經(jing)學(xue)(xue)過微(wei)積分(fen)。然而(er),有(you)些可(ke)(ke)選主(zhu)題(ti)(ti)需要(yao)更(geng)多的(de)(de)(de)(de)(de)分(fen)析(xi)。我(wo)(wo)認為線(xian)(xian)(xian)性代(dai)數(shu)(shu)(shu)(shu)(shu)可(ke)(ke)能是(shi)本(ben)(ben)(ben)(ben)科數(shu)(shu)(shu)(shu)(shu)學(xue)(xue)課程中(zhong)(zhong)討(tao)論(lun)的(de)(de)(de)(de)(de)最重要(yao)的(de)(de)(de)(de)(de)主(zhu)題(ti)(ti)。這(zhe)樣(yang)做(zuo)的(de)(de)(de)(de)(de)部分(fen)原(yuan)因(yin)是(shi)它(ta)(ta)(ta)(ta)有(you)助于統一(yi)(yi)(yi)這(zhe)么多不(bu)(bu)同的(de)(de)(de)(de)(de)主(zhu)題(ti)(ti)。線(xian)(xian)(xian)性代(dai)數(shu)(shu)(shu)(shu)(shu)在分(fen)析(xi)、應(ying)(ying)用數(shu)(shu)(shu)(shu)(shu)學(xue)(xue)甚至理(li)(li)論(lun)數(shu)(shu)(shu)(shu)(shu)學(xue)(xue)中(zhong)(zhong)都是(shi)必(bi)不(bu)(bu)可(ke)(ke)少的(de)(de)(de)(de)(de)。這(zhe)是(shi)本(ben)(ben)(ben)(ben)書(shu)(shu)的(de)(de)(de)(de)(de)觀點,而(er)不(bu)(bu)是(shi)單純(chun)地(di)介紹(shao)線(xian)(xian)(xian)性代(dai)數(shu)(shu)(shu)(shu)(shu)。這(zhe)就是(shi)為什么有(you)許多應(ying)(ying)用程序(xu),其中(zhong)(zhong)一(yi)(yi)(yi)些相當(dang)不(bu)(bu)尋(xun)常(chang)。這(zhe)本(ben)(ben)(ben)(ben)書(shu)(shu)的(de)(de)(de)(de)(de)特點是(shi)在書(shu)(shu)的(de)(de)(de)(de)(de)早(zao)期對(dui)決定(ding)(ding)因(yin)素進行了(le)(le)基本(ben)(ben)(ben)(ben)的(de)(de)(de)(de)(de)和完整(zheng)的(de)(de)(de)(de)(de)處理(li)(li)。本(ben)(ben)(ben)(ben)書(shu)(shu)介紹(shao)了(le)(le)線(xian)(xian)(xian)性代(dai)數(shu)(shu)(shu)(shu)(shu)中(zhong)(zhong)使用的(de)(de)(de)(de)(de)各(ge)種(zhong)數(shu)(shu)(shu)(shu)(shu)值方法。這(zhe)樣(yang)做(zuo)是(shi)因(yin)為這(zhe)些方法很有(you)趣。這(zhe)里的(de)(de)(de)(de)(de)演示強調(diao)了(le)(le)它(ta)(ta)(ta)(ta)們工作的(de)(de)(de)(de)(de)原(yuan)因(yin)。它(ta)(ta)(ta)(ta)沒有(you)討(tao)論(lun)有(you)效地(di)使用這(zhe)些方法所必(bi)需的(de)(de)(de)(de)(de)許多重要(yao)的(de)(de)(de)(de)(de)數(shu)(shu)(shu)(shu)(shu)值考慮。這(zhe)些考慮可(ke)(ke)以(yi)在數(shu)(shu)(shu)(shu)(shu)值分(fen)析(xi)文(wen)本(ben)(ben)(ben)(ben)中(zhong)(zhong)找到。在練(lian)(lian)(lian)習(xi)中(zhong)(zhong),你(ni)可(ke)(ke)能偶爾會在開頭看(kan)(kan)到↑。這(zhe)意味(wei)著(zhu)你(ni)應(ying)(ying)該(gai)看(kan)(kan)看(kan)(kan)上(shang)面的(de)(de)(de)(de)(de)練(lian)(lian)(lian)習(xi)。一(yi)(yi)(yi)些練(lian)(lian)(lian)習(xi)循(xun)序(xu)漸進地(di)展開一(yi)(yi)(yi)個(ge)主(zhu)題(ti)(ti)。還(huan)有(you)一(yi)(yi)(yi)些練(lian)(lian)(lian)習(xi)在書(shu)(shu)中(zhong)(zhong)出現了(le)(le)不(bu)(bu)止一(yi)(yi)(yi)次(ci)。我(wo)(wo)故意這(zhe)樣(yang)做(zuo),因(yin)為我(wo)(wo)認為這(zhe)些說(shuo)明了(le)(le)非常(chang)重要(yao)的(de)(de)(de)(de)(de)主(zhu)題(ti)(ti),也(ye)因(yin)為有(you)些人不(bu)(bu)會從頭到尾閱(yue)讀整(zheng)本(ben)(ben)(ben)(ben)書(shu)(shu),而(er)是(shi)直接跳到中(zhong)(zhong)間。有(you)一(yi)(yi)(yi)個(ge)關于Sylvester定(ding)(ding)理(li)(li)的(de)(de)(de)(de)(de)出現不(bu)(bu)少于3次(ci)。文(wen)中(zhong)(zhong)也(ye)對(dui)其進行了(le)(le)證明。Cayley Hamilton定(ding)(ding)理(li)(li)有(you)很多證明,一(yi)(yi)(yi)些在練(lian)(lian)(lian)習(xi)中(zhong)(zhong)。為了(le)(le)強調(diao)前一(yi)(yi)(yi)章已(yi)(yi)經(jing)完成的(de)(de)(de)(de)(de)內容(rong),本(ben)(ben)(ben)(ben)書(shu)(shu)還(huan)包括了(le)(le)一(yi)(yi)(yi)些練(lian)(lian)(lian)習(xi)。

//open.umn.edu/opentextbooks/textbooks/210

付費5元查看完整內容

深度學習已經成為機器學習的核心范式。然而,對數學的理解仍然缺乏。需要多少樣本?訓練多快能成功?為什么卷積神經網絡適合圖像數據?本課程將涵蓋回答這些問題的最新進展。本專著討論了新興的深度學習理論。它以普林斯頓大學2019年秋季的研究生(sheng)研討(tao)會為基礎,同時與高等研究所的優化(hua)、統計(ji)和機(ji)器(qi)學習特別年相結合(he)

優化基礎

本章建立了基于(yu)(yu)梯(ti)度的(de)優化算法的(de)基本分(fen)析框架,并討論了如何(he)將其應(ying)用于(yu)(yu)深度學習。

反向傳播以及變體

在整本書中,我們依靠計算梯度的損失與模型參數。對于深網,這個計算是用反向傳播,一個簡單的算法,使用鏈式法則的微積分。為了方便,我們更一般地描述為一種計算神經網絡輸出對其所有參數靈敏度的方法,即?f /?wi,其中f是輸出,wi是第i個參數。這里的參數可以是與網絡的節點或邊相關的邊權或偏差。從20世紀60年代到80年代,這一基本算法的不同版本在多個領域被明顯地獨立地重新發現了幾次。本章介紹了這些算法以及一些高級的變體,不僅涉及梯度,還涉及Hessian。在這本書的大部分內容中,感興趣的量是訓練損失的梯度。但是上面的表述——計算輸出相對于輸入的梯度——是完全通用的,因為我們可以簡單地在網絡中添加一個新的輸出節點,來計算舊輸出造成的訓練損失。那么感興趣的量確實是這個新輸出相對于網絡參數的梯度。反向傳播的重要性源于它的效率。假設節點的操作時間為單位時間,則運行時間為線性,具體為O(Network Size) = O(V + E),其中V為網絡中節點的數量,E為邊的數量。在計算機科學的許多其他設置中——例如,排序數字——這種樸素的算法將花費二次元的時間,而這將是非常低效的,甚至在今天的大型網絡中是不可行的。

泛化理論基礎

泛化理論給出了訓練樣本數量的估計,足以保證訓練網絡的測試損失幾乎與訓練損失一樣好。本章描述的經典觀點給出了非常松散的估計。本書后面的一章描述了最近對樣本復雜性進行更嚴格估計的嘗試。泛化界在數學理解中很有意義,為什么學習算法要泛化?泛化理論的靈感來自一個古老的哲學原理,叫做奧卡姆剃刀:如果要在一個更簡單的理論和一個更復雜的理論之間做出選擇,這兩個理論都能解釋一些經驗觀察,我們應該相信更簡單的理論。例如,哥白尼的日心說在科學界獲得了青睞,因為它比古代亞里士多德的理論更簡單地解釋了已****知的事實。雖然這很直觀,但奧卡姆的剃刀有點模糊,而且是手搖的。是什么讓一個理論“更簡單”或“更好”?

先進的優化概念

本章將介紹基本的二階方法(牛頓法),然后簡要討論動量,AdaGrad(以及AdaDelta/RMSProp)和Adam。一些關于利用Hessian-vector積的嘗試以及它們為什么沒有幫助的討論。

非凸的可處理景觀

深度學習依賴于優化復雜的非凸損失函數。尋找非凸目標的全局最小值在最壞情況下是NP困難的。然而,在深度學習中,隨機梯度下降等簡單算法往往會將目標值最后趨近于零或接近零。本章重點討論由非凸目標定義的優化景觀,并確定這些景觀的屬性,這些屬性允許簡單的優化算法找到全局最小值(或接近最小值)。迄今為止,這些性質適用于比深度學習更簡單的非非凸問題,如何用這種橫向分析來分析深度學習是開放的。

超寬神經網絡與神經切線核

訓練神經網絡是一個非凸優化問題,在最壞情況下,它是NP-hard [BR89]。另一方面,從經驗來看,隨機梯度下降這樣的簡單梯度算法往往可以達到零訓練損失,即簡單算法可以找到一個適合所有訓練數據的神經網絡。而且,即使將原始標簽替換為隨機標簽[ZBH+16b],仍然可以觀察到這種現象。對于這一令人驚訝的現象,一個被廣泛相信的解釋是神經網絡被過度參數化。例如,Wide ResNet使用的參數是訓練數據數量的100倍。因此,必須存在一種這種結構的神經網絡,可以適合所有的訓練數據。但是,從理論上講,這種存在性并不意味著用隨機初始化梯度法得到的網絡就能擬合所有數據。過度參數化也給泛化帶來了新的理論挑戰。傳統的泛化邊界通常要求參數的數量遠遠小于數據點的數量,而在過度參數化的范圍內,這些邊界變得空洞。本章涉及一種通過隨機初始化梯度下降訓練的神經網絡,該神經網絡使用具有特定核函數的核方法:由Jacot, Gabriel和Hongler [JGH18]首先提出的神經切線核(NTK)。在下面,我們將描述NTK是如何產生的,并使用NTK來解釋過度參數化神經網絡的優化和泛化行為。最后,我們還將討論NTK的一些實際應用。

基于算法正則化的歸納偏差

許多成功的基于深度神經網絡的現代機器學習系統都是過度參數化的,即參數的數量通常比樣本大小大得多。換句話說,經驗風險存在(無限)個(近似的)最小化者,其中許多不能很好地在未見的數據上推廣。要想學習成功,關鍵是要讓學習算法傾向于“更簡單”的假設,方法是用一定的復雜性項來權衡經驗損失,以確保經驗風險和總體風險接近。一些明確的正則化策略在實踐中被用于幫助這些系統的泛化,包括參數的l1和l2正則化[NH92]。

無監督學習:概述

到目前為止,這本書的大部分內容都是關于監督學習的。學習將輸入分類到類中,其中訓練數據由抽樣輸入和它們的正確標簽組成。這一章是無監督學習的介紹,其中一個隨機抽樣的數據點,但沒有標簽或類。

生成對抗網絡

第10章描述了生成模型的一些經典方法,這些方法通常使用對數似然方法進行訓練。我們還看到,對于復雜分布(比如真實圖像的分布)的高保真學習,它們通常是不夠的。生成式對抗網(GANs)是一種生成更真實樣本的方法。在本章中,為了方便起見,我們假設模型試圖生成圖像。下面是對模型生成的分布是否真實的一種標準解釋。

付費5元查看完整內容

本(ben)書(shu)分(fen)為三個部分(fen)。第(di)一部分(fen)介紹(shao)了分(fen)布(bu)式(shi)強(qiang)化學習(xi)(xi)的(de)(de)構建模塊。我們(men)首(shou)先介紹(shao)了我們(men)的(de)(de)基(ji)本(ben)研(yan)究對象,收(shou)益分(fen)布(bu)和分(fen)布(bu)Bellman方程(cheng)(第(di)二(er)章(zhang))。第(di)三章(zhang)介紹(shao)了分(fen)類時間(jian)差分(fen)學習(xi)(xi),一種(zhong)簡(jian)單(dan)的(de)(de)學習(xi)(xi)收(shou)益分(fen)布(bu)的(de)(de)算法。在第(di)三章(zhang)結束時,讀者應該(gai)理解分(fen)布(bu)式(shi)強(qiang)化學習(xi)(xi)的(de)(de)基(ji)本(ben)原則(ze),并且應該(gai)能夠在簡(jian)單(dan)的(de)(de)實際設置中使用它。

第(di)二部分(fen)(fen)(fen)(fen)是對分(fen)(fen)(fen)(fen)布(bu)式(shi)(shi)強化學習(xi)(xi)理論(lun)的(de)(de)(de)(de)發展。第(di)4章(zhang)介紹(shao)了(le)(le)(le)一種用(yong)于測量返回分(fen)(fen)(fen)(fen)布(bu)之(zhi)間距(ju)離的(de)(de)(de)(de)語言,以(yi)及與(yu)這(zhe)些分(fen)(fen)(fen)(fen)布(bu)交互(hu)的(de)(de)(de)(de)操作符(fu)。第(di)5章(zhang)介紹(shao)了(le)(le)(le)實現(xian)分(fen)(fen)(fen)(fen)布(bu)式(shi)(shi)強化學習(xi)(xi)所(suo)需(xu)的(de)(de)(de)(de)概率(lv)表(biao)示的(de)(de)(de)(de)概念;在(zai)此基(ji)礎上,研究了(le)(le)(le)用(yong)這(zhe)種表(biao)示來計算和近似收益分(fen)(fen)(fen)(fen)布(bu)的(de)(de)(de)(de)問題,并引(yin)入(ru)了(le)(le)(le)分(fen)(fen)(fen)(fen)布(bu)動態(tai)規劃的(de)(de)(de)(de)框架。第(di)6章(zhang)研究了(le)(le)(le)如何從樣本中以(yi)增(zeng)量的(de)(de)(de)(de)方式(shi)(shi)學習(xi)(xi)返回分(fen)(fen)(fen)(fen)布(bu),給出(chu)了(le)(le)(le)類別(bie)時(shi)間差(cha)分(fen)(fen)(fen)(fen)學習(xi)(xi)的(de)(de)(de)(de)正式(shi)(shi)結構,以(yi)及其他(ta)算法(fa),如分(fen)(fen)(fen)(fen)位數時(shi)間差(cha)異學習(xi)(xi)。第(di)7章(zhang)將這(zhe)些思(si)想擴展到最(zui)優決(jue)策(ce)的(de)(de)(de)(de)設置(也稱(cheng)為控制設置)。最(zui)后,第(di)8章(zhang)介紹(shao)了(le)(le)(le)基(ji)于統計泛函概念的(de)(de)(de)(de)分(fen)(fen)(fen)(fen)布(bu)強化學習(xi)(xi)的(de)(de)(de)(de)不(bu)同視(shi)角。在(zai)第(di)二部分(fen)(fen)(fen)(fen)結束(shu)時(shi),讀者(zhe)應該(gai)理解在(zai)設計分(fen)(fen)(fen)(fen)布(bu)式(shi)(shi)強化學習(xi)(xi)算法(fa)時(shi)出(chu)現(xian)的(de)(de)(de)(de)挑戰,以(yi)及解決(jue)這(zhe)些挑戰的(de)(de)(de)(de)可(ke)用(yong)工具。

第(di)三部(bu)分和最后一(yi)部(bu)分為(wei)實際場景ios開發了(le)(le)分布式強化學習(xi)。第(di)九章(zhang)回顧了(le)(le)線(xian)性(xing)值函(han)數逼近的原理,并(bing)將這些思想推(tui)廣到分布環境中。第(di)10章(zhang)討(tao)論(lun)了(le)(le)如(ru)何將分布方法(fa)與(yu)深度神(shen)經網絡相(xiang)結合(he)來獲得深度強化學習(xi)的算法(fa),并(bing)提出了(le)(le)一(yi)個(ge)模型來研究(jiu)這種結合(he)所產(chan)生的現象。第(di)11章(zhang)討(tao)論(lun)了(le)(le)分布式強化學習(xi)在兩個(ge)進一(yi)步研究(jiu)領域(多主體學習(xi)和神(shen)經科(ke)學)的新興應用,并(bing)得出結論(lun)。

//www.distributional-rl.org/

付費5元查看完整內容

本書(shu)冊來自Bernd Heidergott 和(he)Felisa J. Vazquez-Abad 撰寫的優(you)化(hua)與學(xue)習(xi)的隨(sui)(sui)機(ji)梯(ti)度(du)技術(shu),涵蓋(gai)隨(sui)(sui)機(ji)優(you)化(hua)與學(xue)習(xi)理(li)論(lun)和(he)梯(ti)度(du)估計技術(shu)。值得關注(zhu)

隨機優化與學習理論

本章對(dui)確定(ding)性優化(hua)的顯著結(jie)果進行了總(zong)結(jie),特(te)別是著重于(yu)(yu)數值方法。對(dui)于(yu)(yu)基本的定(ding)義和結(jie)果,我們參考(kao)標(biao)準教科書。對(dui)于(yu)(yu)基本結(jie)果的簡要回顧,請參閱(yue)附錄

梯度估計

附錄

付費5元查看完整內容

Convex Optimization: Algorithms and Complexity

本專著(zhu)介(jie)紹了凸(tu)(tu)優化(hua)(hua)的(de)(de)(de)主要復雜性(xing)定(ding)理(li)及其相應的(de)(de)(de)算(suan)法。從黑箱(xiang)優化(hua)(hua)的(de)(de)(de)基(ji)本理(li)論出發,對結(jie)構優化(hua)(hua)和(he)隨(sui)(sui)(sui)機優化(hua)(hua)的(de)(de)(de)最(zui)新進展進行了研究。黑盒優化(hua)(hua)的(de)(de)(de)介(jie)紹,受到Nesterov的(de)(de)(de)開創性(xing)著(zhu)作和(he)Nemirovski的(de)(de)(de)課堂講稿的(de)(de)(de)強烈影響,包括(kuo)(kuo)對切割平面方法的(de)(de)(de)分(fen)析,以及(加速)梯度下(xia)(xia)降(jiang)(jiang)(jiang)方案。我(wo)們(men)(men)還特別(bie)關(guan)(guan)注非(fei)歐幾里得設置(相關(guan)(guan)算(suan)法包括(kuo)(kuo)Frank-Wolfe、鏡像下(xia)(xia)降(jiang)(jiang)(jiang)和(he)雙重(zhong)平均(jun)),并(bing)討論它們(men)(men)在機器學習(xi)中的(de)(de)(de)相關(guan)(guan)性(xing)。我(wo)們(men)(men)溫(wen)和(he)地(di)介(jie)紹了結(jie)構優化(hua)(hua)與(yu)FISTA(優化(hua)(hua)光滑(hua)項和(he)簡單非(fei)光滑(hua)項的(de)(de)(de)求(qiu)和(he)),鞍點反射法(Nemirovski的(de)(de)(de)替(ti)代Nesterov平滑(hua)),以及內部點方法的(de)(de)(de)簡明描述。在隨(sui)(sui)(sui)機優化(hua)(hua)中,我(wo)們(men)(men)討論了隨(sui)(sui)(sui)機梯度下(xia)(xia)降(jiang)(jiang)(jiang)、小批量、隨(sui)(sui)(sui)機坐標(biao)下(xia)(xia)降(jiang)(jiang)(jiang)和(he)次線性(xing)算(suan)法。我(wo)們(men)(men)也(ye)簡要地(di)接觸到組合問題的(de)(de)(de)凸(tu)(tu)松(song)弛和(he)使用(yong)隨(sui)(sui)(sui)機的(de)(de)(de)圓解,以及基(ji)于隨(sui)(sui)(sui)機漫(man)步的(de)(de)(de)方法。

//www.nowpublishers.com/article/Details/MAL-050

付費5元查看完整內容

這本(ben)書(shu)的書(shu)名聽起來有點神秘。如果這本(ben)書(shu)以一(yi)種(zhong)錯(cuo)誤的方式呈(cheng)現了這個(ge)主題,人們為什么(me)要(yao)讀它呢(ni)?書(shu)中(zhong)哪(na)些地方做得特別(bie)“不對”?

在回答這(zhe)些問題之前,讓我先描(miao)述一下本文的(de)目標(biao)受(shou)眾(zhong)。這(zhe)本書是(shi)“榮譽線性代(dai)數(shu)”課(ke)(ke)程(cheng)(cheng)(cheng)的(de)課(ke)(ke)堂講(jiang)稿。這(zhe)應該(gai)是(shi)高等數(shu)學(xue)(xue)(xue)學(xue)(xue)(xue)生的(de)第一門線性代(dai)數(shu)課(ke)(ke)程(cheng)(cheng)(cheng)。它(ta)的(de)目標(biao)是(shi)一個學(xue)(xue)(xue)生,雖然還(huan)不(bu)是(shi)非常熟(shu)悉抽象推理,但愿意學(xue)(xue)(xue)習更嚴(yan)格(ge)的(de)數(shu)學(xue)(xue)(xue),在“烹飪書風格(ge)”的(de)微積分類(lei)型課(ke)(ke)程(cheng)(cheng)(cheng)。除了作為線性代(dai)數(shu)的(de)第一門課(ke)(ke)程(cheng)(cheng)(cheng),它(ta)也應該(gai)是(shi)第一門向學(xue)(xue)(xue)生介紹嚴(yan)格(ge)證明、形式定義——簡而言之,現代(dai)理論(抽象)數(shu)學(xue)(xue)(xue)風格(ge)的(de)課(ke)(ke)程(cheng)(cheng)(cheng)。

目標讀者解釋了基(ji)本概念和(he)具體實(shi)例的非常具體的混合,它們通常出現在介紹性(xing)的線性(xing)代數文本中,具有更抽象的定(ding)義和(he)高級書籍的典型構造。

//www.math.brown.edu/streil/papers/LADW/LADW_2017-09-04.pdf

付費5元查看完整內容

基(ji)于最(zui)近關于非凸(tu)優(you)(you)化(hua)算(suan)法(fa)在(zai)訓(xun)練深(shen)度神經網(wang)絡(luo)和數(shu)(shu)據分析(xi)中(zhong)的(de)(de)(de)(de)其他(ta)優(you)(you)化(hua)問題中(zhong)的(de)(de)(de)(de)應用,我(wo)(wo)們對非凸(tu)優(you)(you)化(hua)算(suan)法(fa)全(quan)局(ju)性(xing)(xing)能保(bao)證的(de)(de)(de)(de)最(zui)新理論(lun)成果進行了綜述。我(wo)(wo)們從經典的(de)(de)(de)(de)論(lun)證開始,證明一般(ban)的(de)(de)(de)(de)非凸(tu)問題不可(ke)能在(zai)合理的(de)(de)(de)(de)時間內得到(dao)有效的(de)(de)(de)(de)解決。然(ran)(ran)后,我(wo)(wo)們給出了一個(ge)可(ke)以通過盡可(ke)能多地利用問題的(de)(de)(de)(de)結(jie)構(gou)來尋找全(quan)局(ju)最(zui)優(you)(you)解的(de)(de)(de)(de)問題列(lie)表。處(chu)理非凸(tu)性(xing)(xing)的(de)(de)(de)(de)另一種方法(fa)是(shi)(shi)將尋找全(quan)局(ju)最(zui)小值的(de)(de)(de)(de)目標放(fang)寬到(dao)尋找一個(ge)平穩點或(huo)局(ju)部(bu)最(zui)小值。對于這種設置,我(wo)(wo)們首先給出確定性(xing)(xing)一階方法(fa)收斂速度的(de)(de)(de)(de)已(yi)知結(jie)果,然(ran)(ran)后是(shi)(shi)最(zui)優(you)(you)隨(sui)機(ji)和隨(sui)機(ji)梯度格式的(de)(de)(de)(de)一般(ban)理論(lun)分析(xi),以及隨(sui)機(ji)一階方法(fa)的(de)(de)(de)(de)概述。然(ran)(ran)后,我(wo)(wo)們討(tao)論(lun)了相當一般(ban)的(de)(de)(de)(de)一類(lei)非凸(tu)問題,如α-弱擬凸(tu)函數(shu)(shu)的(de)(de)(de)(de)極(ji)小化(hua)和滿足Polyak- Lojasiewicz條件(jian)的(de)(de)(de)(de)函數(shu)(shu),這些函數(shu)(shu)仍然(ran)(ran)可(ke)以得到(dao)一階方法(fa)的(de)(de)(de)(de)理論(lun)收斂保(bao)證。然(ran)(ran)后我(wo)(wo)們考(kao)慮非凸(tu)優(you)(you)化(hua)問題的(de)(de)(de)(de)高階、零階/無(wu)導(dao)數(shu)(shu)方法(fa)及其收斂速度。

付費5元查看完整內容

機(ji)器學(xue)(xue)習使用來自(zi)各種數(shu)學(xue)(xue)領域的工具。本文件試圖提供一個(ge)概括性的數(shu)學(xue)(xue)背景,需要在入門(men)類的機(ji)器學(xue)(xue)習,這(zhe)是在加(jia)州(zhou)大學(xue)(xue)伯克利分校被稱為CS 189/289A。

//people.eecs.berkeley.edu/~jrs/189/

我(wo)們(men)的(de)(de)(de)假設是(shi)讀(du)者(zhe)已經(jing)熟悉(xi)多(duo)(duo)變量微積分和(he)線(xian)性代數的(de)(de)(de)基本(ben)概念(達到(dao)UCB數學53/54的(de)(de)(de)水平)。我(wo)們(men)強調,本(ben)文(wen)檔不是(shi)對必備(bei)類的(de)(de)(de)替代。這里(li)介紹的(de)(de)(de)大多(duo)(duo)數主題涉及的(de)(de)(de)很少(shao);我(wo)們(men)打算給出一(yi)(yi)個概述,并指(zhi)出感興(xing)趣(qu)的(de)(de)(de)讀(du)者(zhe)更全面的(de)(de)(de)理解進(jin)一(yi)(yi)步的(de)(de)(de)細(xi)節(jie)。

請注意,本文檔關注的(de)是機器(qi)學習的(de)數學背(bei)景,而不是機器(qi)學習本身。我們將(jiang)不討論特(te)定的(de)機器(qi)學習模型或算法,除(chu)非可能順便強調一個數學概念的(de)相關性。

這份文(wen)件的早期版本不包(bao)括校樣。我們已經開始在一些(xie)證據中加入(ru)一些(xie)比較簡短(duan)并且有助于理解的證據。這些(xie)證明不是cs189的必(bi)要背景(jing),但可以用來(lai)加深讀(du)者(zhe)的理解。

付費5元查看完整內容
北京阿比特科技有限公司