亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

**本文概述了我和我的合作者在魯棒估計方面的最新成果。關鍵問題如下:給定一個數據集,其中的一部分由任意離群點組成,我們能從非離群點中了解到什么?**這是一個經典的問題,至少可以追溯到Tukey(1960)。然而,由于種種原因,這個問題最近重新引起了人們的興趣。首先,許多舊的結果在高維中沒有給出有意義的誤差邊界(例如,在d維中誤差通常包含隱式的√d因子)。隨著機器學習越來越多地用于高維模型,這需要重新研究。其次,在Charikar等人(2017)中,我們建立了魯棒估計與其他問題之間的聯系,如聚類和隨機塊模型的學習。目前,聚類高斯混合的最佳已知結果是通過這些魯棒的估計技術(Diakonikolas等人,2018b;Kothari和Steinhardt, 2018;Hopkins and Li, 2018)。最后,具有結構化異常值的高維生物數據集,如批處理效應(Johnson et al., 2007;Leek等人,2010),以及對機器學習系統的安全擔憂(Steinhardt等人,2017),從應用方向促進了對最壞情況異常值的魯棒性研究。//cs.stanford.edu/~jsteinhardt/publications/thesis/paper.pdf最近的研究顯示,在這些問題上取得了令人鼓舞的進展,但快速的進展導致了文獻的不透明。大多數論文單獨來看是復雜的,但實際上是由幾個關鍵主題的變化組成的。這篇論文的目的是提供一個易于理解的介紹,以突出主要技術的領域。在第一章中,我們介紹了魯棒估計的基本問題,給出了在一維情況下的算法,為我們以后在高維情況下的算法做了鋪墊,并解釋了高維設置的基本難點。在第2章和第3章中,我們關注信息理論的魯棒性——什么時候有可能(忽略計算成本)在異常值存在的情況下恢復良好的參數估計?這里的情況簡單得令人愉快,它基于一種稱為彈性的屬性,該屬性度量點的小亞種群的影響。有趣的是,彈性允許我們恢復對均值的估計,即使大多數點都是異常值,假設我們允許輸出多次猜測(所謂的列表可解碼設置,最早由Balcan等人(2008)引入)。這一基本事實是魯棒學習和聚類之間聯系的基礎,因為我們可以將每個單獨的簇視為“好”點的總體,然后將其余簇中的點視為異常值。在第4章中,我們將注意力轉向計算效率算法。假設好的點有有限的協方差,我們可以恢復平均值的估計,誤差只隨著協方差矩陣的最大特征值增長(通常與維數無關)。其基本思想是,均值偏移超過一小部分的離群點,必然會在數據中產生大的變化方向,這可以通過經驗協方差的特征分解來檢測。我們展示了如何將這種均值估計結果推廣到一般的m估計,只要損失函數的梯度具有有界協方差。最后,在第五章中,我們介紹了一種基于對偶性的替代計算方法。使用這種方法,我們可以找到一個大家族鞍點問題的近似最小化存在離群點。這允許我們恢復與第4章相似的平均估計結果,優點是即使大多數點是異常值,結果也保持不變。這將生成目前給出最佳已知邊界的聚類算法。然而,第4章和第5章中的技術都在積極開發中。即使在明年,這兩種技術都可能獲得更強的效果。總之,我們將看到一個相對完整的關于魯棒性的信息論視角,以及設計高效算法的兩種方法。這些方法以一般的方式呈現,以至于該領域的許多關鍵結果都是簡單的推論,通常只需要大約一頁的代數來檢查條件。我們希望通過揭示爭論背后的結構,我們將使新的研究人員能夠應用和擴展這些結果。

付費5元查看完整內容

相關內容

 (StanfordUniversity)位于加利福尼亞州,臨近舊金山,占地35平方公里,是美國面積第二大的大學。它被公認為世界上最杰出的大學之一,相比美國東部的常春藤盟校,特別是哈佛大學、耶魯大學,斯坦福大學雖然歷史較短,但無論是學術水準還是其他方面都能與常春藤名校相抗衡。斯坦福大學企業管理研究所和法學院在美國是數一數二的,美國最高法院的9個大法官,有6個是從斯坦福大學的法學院畢業的。

機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。隨后,我將討論如何使系統按照人的價值觀行動。最后,我將討論如何使ML系統更安全的開放問題。 機器學習(ML)系統越來越多地部署在安全關鍵設置中。與任何強大的技術一樣,這些系統的安全是重中之重。在這項工作中,我們描述了引導機器學習(ML)系統向更安全方向發展的研究。本研究將ML安全分為可靠性和對齊兩個方面進行研究。可靠性可以被認為是降低系統在面對對抗或新事件時無法達到預期目標的傾向。同時,對齊可以被認為是將ML系統引導到特定的期望方向的能力。換句話說,可靠性減少了脆弱性和風險暴露,而對齊減少了來自強大定向ML系統的內在風險。在這里,我們概述了我們在這兩個領域所做的工作

付費5元查看完整內容

在過去的幾十年里,技術的進步導致了許多領域數據的快速增長。如此豐富的數據為數據分析帶來了巨大的機遇,同時也帶來了巨大的挑戰:數據集往往包含數十萬個具有復雜依賴關系的變量,這給統計推斷帶來了困難。例如,在一個社交網絡中,每個人的行為都可能以復雜的方式受到其他許多人的行為的顯著影響。因此,在分析數據時,不能假定數據是獨立的。同樣,在遺傳學中,一個性狀可能與大量的遺傳變異相關,這些變異之間的關系不能用簡單的模型有效地總結出來。在這兩個例子和許多其他現實問題中,數據集具有標準統計方法難以處理的依賴結構。因此,開發工具在這種復雜的依賴結構下進行統計推斷是很有意義的。本論文對復雜統計模型中的因果和選擇性推理的工具箱做出了貢獻。其中一個有趣的主題是,在個體主體相互依存的情況下,開發各種方法來回答各種因果問題。第二章和第三章發展了干擾下治療效果估計的統計理論和方法。另一個有趣的主題是在數據集中許多看起來有前途的依賴結構中識別重要的依賴結構。在特定變量具有科學意義且許多解釋性變量與該變量潛在相關的設置中,目標是構建工具來有把握地選擇哪些變量對于解釋感興趣的變量是重要的。第四章和第五章討論了假發現率控制下的變量選擇問題。

我們生活在大數據時代,數據集往往很大,結構復雜。這些復雜的結構給統計推斷帶來了挑戰,也帶來了機遇。本文從因果推理和選擇推理兩個角度對復雜統計模型中如何進行統計推理進行了研究。經典地說,因果推理通常是在獨立的假設下進行的。然而,現代數據集往往帶有復雜的依賴結構。一個例子是社交網絡數據集:個體的行為以復雜的方式依賴于他人的行為,這意味著獨立假設是無效的。在缺乏獨立性假設的情況下,將需要新的工具來研究具有這種依賴性結構的某些治療的因果關系。關于選擇性推理,科學家測量數千甚至數百萬個變量,并試圖找到感興趣的結果與這些變量之間的有意義的關系。一個重要的問題是有把握地選擇影響利益結果的變量。我將在接下來的章節和接下來的章節中更詳細地討論這兩個視角。

付費5元查看完整內容

在許多問題上,模型誤設定構成了可靠推理的主要障礙。在貝葉斯設置中,模型誤設定會導致不一致,以及對數量相關的后驗分布的過度自信,即對不確定性的漏報。

本論文開發了一個貝葉斯框架,以減少在涉及時間序列數據的推理問題中出現的一種模型誤設定的影響:觀察和建模數據之間未建模的時間扭曲。涉及動態系統、信號處理和更普遍的功能數據的推理問題都會受到這種錯誤設定的影響。地震學中的逆向問題是這類問題的一個重要例子:在描述復雜的、空間異質的地震波傳播速度方面的不準確,會導致其建模的時間演化的錯誤。數據不足以約束這些傳播速度,因此我們尋求對模型誤差的魯棒性。我們的方法是使用傳輸-拉格朗日(TL)距離作為損失/失誤函數:這種距離可以被理解為 "圖空間 "的最優傳輸距離,它們自然忽略了數據中對時間扭曲更敏感的某些特征。我們表明,與標準的失配函數相比,它們產生的后驗分布既不偏頗又不分散。

特別是,我們使用矩張量反演,一個地震反演問題,作為我們的主要激勵性應用,并通過各種統計和物理指標證明TL損失的反演性能得到改善,適用于一系列日益復雜的反演和錯誤規范的情況。同時,我們還解決了幾個更廣泛的方法學問題。首先,在缺乏基于TL的可能性的可操作性表達的情況下,我們使用吉布斯后驗的概念構建了一個一致的先驗-后驗升級版。然后,我們通過幾個統計評分規則和等級統計,以及特定應用的物理標準,更廣泛地探索什么是在錯誤設定的環境中構成 "好的"推理,來比較不同損失函數對吉布斯后驗的影響。為了將我們的廣義(吉布斯)貝葉斯方法與更傳統的貝葉斯設置聯系起來,我們還對隨機噪聲信號之間的傳輸-拉格朗日距離的統計特性進行了分析和數字調查。

作為對貝葉斯反演的補充,我們還證明了最優傳輸距離對頻繁回歸的效用。我們研究了帶有TL損失的線性回歸模型,描述了相關混合整數優化問題的幾何結構,并提出了利用其基本結構的專用算法。然后,我們將TL線性回歸與經典的線性回歸在幾個應用中進行了比較。

最后,我們討論了TL距離的潛在概括,以包括通過時間序列嵌入的 "形狀 "概念,以及所提出的框架對其他形式的模型錯誤規范的可能擴展。

付費5元查看完整內容

新理論揭開了深度學習的黑匣子。一個被稱為“信息瓶頸”的新想法正在幫助解釋當今人工智能算法令人困惑的成功,也可能解釋人類大腦是如何學習的。

紐約大學數據科學中心的CDS研究員,在那里我主要與Gordon Wilson 和 Yann Lecun合作,研究貝葉斯深度網絡、信息論和自監督學習。

//www.ravid-shwartz-ziv.com/

深度神經網絡信息流

盡管深度神經網絡已經取得了巨大的成功,但對它們如何工作或如何構建的全面的理論理解還不存在。深度網絡通常被視為黑盒,預測的解釋及其可靠性仍不清楚。今天,了解深度神經網絡的突破性性能是科學界面臨的最大挑戰之一。為了更有效地使用這些算法并改進它們,我們需要了解它們的動態行為以及它們學習新表示的能力。

本文通過將信息理論的原理和技術應用到深度學習模型來解決這些問題,以提高我們的理論理解,并使用它來設計更好的算法。本文的主要成果和貢獻分為三個部分,具體如下。

第二章和第三章介紹了深度學習模型的信息理論方法。作為對深度學習系統的解釋,我們提出使用信息瓶頸(IB)理論。這種分析網絡的新范式揭示了網絡的分層結構、泛化能力和學習動態。基于我們的分析,我們發現深度網絡優化了每一層輸入和輸出變量的互信息,導致了每一層壓縮和預測之間的權衡。我們對這些網絡的分析和數值研究表明,隨機梯度下降(SGD)算法遵循IB權衡原則,工作在兩個階段:一個快速經驗誤差最小化階段,然后是一個緩慢的表示壓縮階段。這些相位由每一層不同的信噪比(SNRs)來區分。此外,我們證明了SGD由于壓縮階段而達到了這個最優界,并在表示壓縮上導出了一個新的高斯界,并將其與壓縮時間聯系起來。此外,我們的結果表明,網絡的層收斂于IB的理論邊界,導致編碼器和譯碼器分布之間的自洽關系。

第四章討論了將IB應用到深度神經網絡中最困難的問題之一——在高維空間中估計互信息。盡管互信息在數據科學中是一個重要的數量,但它在歷史上給計算帶來了挑戰。互信息的計算只適用于離散變量或已知概率分布的有限數量的問題。為了更好地估計信息理論量和研究泛化信號,我們研究了幾個框架,并利用了最近的理論發展,如神經切線核(NTK)框架。在我們的研究中,我們發現對于無限寬的神經網絡的無限集合,我們可以得到許多信息理論量及其界的易于處理的計算。網絡的內核可以用一個封閉的形式來描述許多量。通過分析這些推導,我們可以了解網絡的重要信息論量,以及壓縮、泛化和樣本大小之間的關系。

第五章提出了一種新的信息理論框架——雙信息瓶頸(dualIB)。 盡管IB框架有優點,但它也有幾個缺點:IB是完全非參數的,并且只在概率空間上運行。此外,IB公式并不涉及預測看不見的模式的任務,并假定完全訪問聯合概率。因此,我們開發了dualIB,它解決了IB的一些缺點,通過僅僅在失真函數的項之間切換。dualIB可以解釋數據的已知特征,并利用它們對未見過的例子做出更好的預測。我們提供了dualIB自一致方程,使我們能夠得到解析解。局部穩定性分析揭示了解的臨界點的基本結構,得到了最優模式表示的完全分岔圖。我們發現了dualIB目標的幾個有趣的性質。首先,當以參數形式表示時,dualIB保留了它的結構。它還優化了平均預測誤差指數,從而提高了樣本量方面的預測精度。除了dualIB的解析解決方案,我們還提供了一個變分的dualIB框架,該框架使用深度神經網絡優化函數。該框架實現了對真實數據集的dualIB的實際實現。利用它,我們對其動力學進行了經驗評估,并驗證了現代深度神經網絡的理論預測。總之,本文提出了一個新的信息論視角來研究深度神經網絡,它利用了深度學習和IB框架之間的對應關系。我們獨特的視角可以提供許多好處,比如對深度神經網絡有更深入的理解,解釋它們的行為,并改善它們的性能。同時,我們的研究也開拓了新的理論和實踐研究問題。

學習表征是計算機視覺、自然語言處理、認知科學和機器學習中許多問題的核心(Bengio et al.; 2013). 分類和預測需要復雜的數據表示,因為要考慮物理參數,如位置、大小、方向和強度(Salakhutdinov等;2013). 然而,目前還不清楚什么構成了良好的表示,以及它與學習和特定問題類型的關系。

通過組合簡單神經元的多種轉換,深度神經網絡(DNN)可以產生更有用(并且在大多數情況下更抽象)的表示。由于它們的通用性和在各個領域的成功,這些系統在過去幾年中得到了普及。與傳統的機器學習方法相比,DNN的性能在圖像、音頻和文本等多個領域都有很大的改進(Devlin et al.; 2018; He et al.; 2016; Oord et al.; 2016)。最新的深度學習模型更加復雜,它們的架構也越來越復雜,需要優化的參數也越來越多。例如,ResNet-52網絡包含了經過數百萬張圖片優化的2300萬個參數。

然而,從理論的角度來理解這些性能的原因只是部分的,我們只是對它們有一個啟發式的理解。目前還不清楚為什么深度模型在真實世界的數據上表現得如此出色,以及它們的關鍵組件是什么。另外,當前的度量標準并沒有提供對網絡內部結構或網絡層質量的深入了解。因此,即使該模型非常準確,也很難將其作為進一步科學研究的基礎。為了使這些算法更有效并改進它們,我們必須理解它們的潛在動態行為以及它們如何學習表示。在本論文中,我們提出從信息論的角度研究DNN。作為對現代深度學習系統的解釋,我們提出了信息瓶頸(IB)理論。我們希望通過這種分析DNN的創新方法來闡明它們的分層結構、泛化能力和學習動態。為了更好地理解DNN,第一個問題是:如何使用信息論的一般理論,特別是IB框架來更好地理解DNN?

香農發明了信息論來確定在噪聲信道上傳輸信息所需的比特數。 這一理論后來被證明是衡量變量之間影響的無價方法(Shannon; 1948)。給定兩個隨機變量X和Y,它們之間的互信息度量它們的聯合概率分布P(X, Y)與其邊緣P(X)P(Y)的乘積的散度,以確定它們的相依或獨立程度。互信息的概念不同于相關性,它可以捕捉變量之間的非線性統計關系,增強我們分析復雜系統動力學的能力(Kinney and Atwal; 2014)。盡管互信息在數據科學中是一個基本的數量,但它在歷史上一直具有挑戰性的估計(Paninski;2003)。精確計算只適用于有限數量的具有明確定義的概率分布的問題(例如,指數族)。對于有限的數據樣本或一般問題,互信息的計算是不可能的。

這就引出了以下研究問題: 如何計算大規模DNN的互信息?為了得到信息理論量的精確計算和尋找泛化信號,我們研究了幾個框架并利用了當前的理論發展,包括神經切線核(NTK)框架(Lee等人;2019)。我們得到了無限寬神經網絡的無限集合中信息論量及其界的易于處理的計算。我們的分析表明,核以一種封閉的形式描述了許多量。此外,我們發現輸入的壓縮有助于該模型家族的泛化。

雖然IB框架有它的優點,但它也有一些缺點,包括無法保存數據的結構和有限數據的性能不夠理想。最后研究的問題是,我們是否可以推導出一個新的框架來解決這些問題,并將其應用到DNN中。

因此,我們開發了雙IB (DualIB),它在失真函數中的項之間切換,以解決IB的一些問題。局部穩定性分析揭示了其底層結構和最優模式表示。我們發現,當以參數形式表示時,DualIB保留了它的結構。此外,它還優化了平均預測誤差指數,提高了相對于樣本容量的預測精度。DualIB可以在變分框架的幫助下,使用神經網絡應用于真實世界的數據集。利用這個框架,我們評估了DualIB的動力學,并驗證了理論預測。

參考鏈接:

付費5元查看完整內容

機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。

//searchworks.stanford.edu/view/14053711

付費5元查看完整內容

這是我2004年,2006年和2009年在斯坦福大學教授的概率理論博士課程的講義。本課程的目標是為斯坦福大學數學和統計學系的博士生做概率論研究做準備。更廣泛地說,文本的目標是幫助讀者掌握概率論的數學基礎和在這一領域中證明定理最常用的技術。然后將此應用于隨機過程的最基本類的嚴格研究。

為此,我們在第一章中介紹了測度與積分理論中的相關元素,即事件的概率空間與格-代數、作為可測函數的隨機變量、它們的期望作為相應的勒貝格積分,以及獨立性的重要概念。

利用這些元素,我們在第二章中研究了隨機變量收斂的各種概念,并推導了大數的弱定律和強定律。

第三章討論了弱收斂的理論、分布函數和特征函數的相關概念以及中心極限定理和泊松近似的兩個重要特例。

基于第一章的框架,我們在第四章討論了條件期望的定義、存在性和性質,以及相關的規則條件概率分布。

第五章討論了過濾、信息在時間上的級數的數學概念以及相應的停止時間。關于后者的結果是作為一組稱為鞅的隨機過程研究的副產品得到的。討論了鞅表示、極大不等式、收斂定理及其各種應用。為了更清晰和更容易的表述,我們在這里集中討論離散時間的設置來推遲與第九章相對應的連續時間。

第六章簡要介紹了馬爾可夫鏈的理論,概率論的核心是一個龐大的主題,許多教科書都致力于此。我們通過研究一些有趣的特殊情況來說明這類過程的一些有趣的數學性質。

在第七章中,我們簡要介紹遍歷理論,將注意力限制在離散時間隨機過程的應用上。我們定義了平穩過程和遍歷過程的概念,推導了Birkhoff和Kingman的經典定理,并強調了該理論的許多有用應用中的少數幾個。

第八章建立了以連續時間參數為指標的右連續隨機過程的研究框架,引入了高斯過程族,并嚴格構造了布朗運動為連續樣本路徑和零均值平穩獨立增量的高斯過程。

第九章將我們先前對鞅和強馬爾可夫過程的處理擴展到連續時間的設定,強調了右連續濾波的作用。然后在布朗運動和馬爾可夫跳躍過程的背景下說明了這類過程的數學結構。

在此基礎上,在第十章中,我們利用不變性原理重新構造了布朗運動作為某些重新標定的隨機游動的極限。進一步研究了其樣本路徑的豐富性質以及布朗運動在clt和迭代對數定律(簡稱lil)中的許多應用。

//statweb.stanford.edu/~adembo/stat-310b/lnotes.pdf

付費5元查看完整內容
北京阿比特科技有限公司