魯棒統計領域研究的一般問題是設計即使在數據顯著偏離理想化建模假設的情況下也能表現良好的估計量。對魯棒統計過程的系統研究可以追溯到20世紀60年代Tukey和Huber的開創性工作。經典統計理論對大多數常見問題的魯棒估計的信息理論極限進行了表征。另一方面,直到最近,人們對這個領域的計算方面知之甚少。計算機科學最近的一項工作為一系列學習任務提供了第一個計算高效的高維魯棒估計器。具體而言,2016年兩項獨立且并行的研究開發了第一個用于基本高維魯棒統計任務的高效算法,包括均值和協方差估計。自這些著作的傳播以來,人們對各種背景下的高維魯棒估計算法進行了大量的研究。本書概述了算法高維魯棒統計的最新發展。
將一個模型與一組觀察結果相匹配是統計學和機器學習中的典型問題之一。典型的假設是,數據是由給定類型的模型生成的(例如,混合模型)。這是一個簡化的假設,僅近似有效,因為真實數據集通常暴露于某些污染源。因此,為特定模型設計的任何估計器在存在損壞/噪聲數據時也必須是魯棒的。經典的魯棒統計研究,從20世紀60年代的Tukey和Huber的開創性工作開始,確定了高維魯棒估計的基本信息理論方面。相比之下,直到最近,人們對計算方面的了解還很少。特別是,即使是對高維數據集均值的魯棒估計這一基本問題,所有已知的魯棒估計量都很難計算。此外,已知的啟發式(如RANSAC)的準確性隨著維數的增加呈多項式遞減。這種情況自然引起了以下問題:
高維估計的魯棒性和計算效率能否協調一致?
理論計算機科學的最近一行工作獲得了第一個計算高效的魯棒估計器,用于一系列高維估計任務。在本教程中,我們將研究這些估計器的算法技術以及它們之間的聯系。我們將針對以下問題和設置說明這些技術:魯棒均值和協方差估計、魯棒隨機優化、稀疏性假設下的魯棒估計、列表可解碼學習和混合模型、高階矩的魯棒估計、計算魯棒權衡。最后,我們將討論未來工作的新方向和機遇。
**本文概述了我和我的合作者在魯棒估計方面的最新成果。關鍵問題如下:給定一個數據集,其中的一部分由任意離群點組成,我們能從非離群點中了解到什么?**這是一個經典的問題,至少可以追溯到Tukey(1960)。然而,由于種種原因,這個問題最近重新引起了人們的興趣。首先,許多舊的結果在高維中沒有給出有意義的誤差邊界(例如,在d維中誤差通常包含隱式的√d因子)。隨著機器學習越來越多地用于高維模型,這需要重新研究。其次,在Charikar等人(2017)中,我們建立了魯棒估計與其他問題之間的聯系,如聚類和隨機塊模型的學習。目前,聚類高斯混合的最佳已知結果是通過這些魯棒的估計技術(Diakonikolas等人,2018b;Kothari和Steinhardt, 2018;Hopkins and Li, 2018)。最后,具有結構化異常值的高維生物數據集,如批處理效應(Johnson et al., 2007;Leek等人,2010),以及對機器學習系統的安全擔憂(Steinhardt等人,2017),從應用方向促進了對最壞情況異常值的魯棒性研究。//cs.stanford.edu/~jsteinhardt/publications/thesis/paper.pdf最近的研究顯示,在這些問題上取得了令人鼓舞的進展,但快速的進展導致了文獻的不透明。大多數論文單獨來看是復雜的,但實際上是由幾個關鍵主題的變化組成的。這篇論文的目的是提供一個易于理解的介紹,以突出主要技術的領域。在第一章中,我們介紹了魯棒估計的基本問題,給出了在一維情況下的算法,為我們以后在高維情況下的算法做了鋪墊,并解釋了高維設置的基本難點。在第2章和第3章中,我們關注信息理論的魯棒性——什么時候有可能(忽略計算成本)在異常值存在的情況下恢復良好的參數估計?這里的情況簡單得令人愉快,它基于一種稱為彈性的屬性,該屬性度量點的小亞種群的影響。有趣的是,彈性允許我們恢復對均值的估計,即使大多數點都是異常值,假設我們允許輸出多次猜測(所謂的列表可解碼設置,最早由Balcan等人(2008)引入)。這一基本事實是魯棒學習和聚類之間聯系的基礎,因為我們可以將每個單獨的簇視為“好”點的總體,然后將其余簇中的點視為異常值。在第4章中,我們將注意力轉向計算效率算法。假設好的點有有限的協方差,我們可以恢復平均值的估計,誤差只隨著協方差矩陣的最大特征值增長(通常與維數無關)。其基本思想是,均值偏移超過一小部分的離群點,必然會在數據中產生大的變化方向,這可以通過經驗協方差的特征分解來檢測。我們展示了如何將這種均值估計結果推廣到一般的m估計,只要損失函數的梯度具有有界協方差。最后,在第五章中,我們介紹了一種基于對偶性的替代計算方法。使用這種方法,我們可以找到一個大家族鞍點問題的近似最小化存在離群點。這允許我們恢復與第4章相似的平均估計結果,優點是即使大多數點是異常值,結果也保持不變。這將生成目前給出最佳已知邊界的聚類算法。然而,第4章和第5章中的技術都在積極開發中。即使在明年,這兩種技術都可能獲得更強的效果。總之,我們將看到一個相對完整的關于魯棒性的信息論視角,以及設計高效算法的兩種方法。這些方法以一般的方式呈現,以至于該領域的許多關鍵結果都是簡單的推論,通常只需要大約一頁的代數來檢查條件。我們希望通過揭示爭論背后的結構,我們將使新的研究人員能夠應用和擴展這些結果。
我們周圍的物質世界極其復雜,幾個世紀以來,我們一直試圖對其運作方式有更深入的了解。因此,建立能夠預測多物理系統(如復雜血流、混沌振蕩器和量子力學系統)長期動力學的模型仍然是科學領域的一個關鍵挑戰。雖然傳統和計算工具在解決這一開放問題方面有了顯著的改進,但它們仍面臨許多挑戰,計算資源仍然密集,而且容易產生嚴重的錯誤積累。現在,現代機器學習技術,加上大量的傳感器數據,正在推動這個方向取得重大進展,幫助我們從潛在的物理過程中發現復雜的關系。該領域的一個新興領域是混合物理信息機器學習,將物理系統的部分先驗知識集成到機器學習管道中,以提高預測性能和數據效率。在這篇論文中,我們研究了如何使用現有的關于物理世界的知識來改進和增強神經網絡的預測性能。首先,我們展示了旨在保持結構、連通性和能量(如圖、積分器和哈密頓量)的學習偏差可以有效地結合起來,從稀疏、噪聲數據中學習復雜多體節能系統的動力學。其次,通過在神經網絡中嵌入廣義的port- hamilton形式,從數據中準確地恢復不可逆物理系統的動力學。此外,我們強調了我們的模型如何通過設計從稀疏數據中發現潛在的力和阻尼項,以及重建混沌系統的Poincaré部分。最后,我們展示了基于物理的神經網絡可以有效地用于高效和準確的遷移學習——在大量研究良好的微分方程上保持高保真的同時,實現數量級的加速。總的來說,這些創新展示了科學機器學習的一個新方向——將現有知識與機器學習方法相結合。由此自然產生了許多好處,包括(1)準確的學習和長期預測(2)數據效率(3)可靠性和(4)可伸縮性。這種混合模型對于開發能夠建模和預測復雜的多保真度、多尺度物理過程的魯棒機器學習方法至關重要。
現代深度學習已經在多個學科中帶來了許多發現:計算機視覺、語音識別、自然語言處理技術以及純粹通過自我游戲學習游戲的能力。這在很大程度上是由獲取大量數據的能力以及與問題域匹配的適當的歸納偏差所驅動的。在本教程中,我們將探討這一新興技術與信息論的相互作用。特別地,我們將討論兩個主題。
(1) 深度學習在信息論中的應用:信息論學界在編碼設計和解碼算法方面率先取得了幾項突破,徹底改變了現代數字通信。在這一主題中,我們將研究是否有可能利用現代深度學習技術來加速這種編碼方案的發現。我們將介紹這一領域的各種發展,展示Viterbi和BCJR算法可以從觀測數據中“學習”,以及如何為高密度編碼學習比消息傳遞更好的算法。此外,經過充分研究的信道編碼設置,我們基本上可以獲得無限數量的訓練數據,并且在一些設置中已經知道了接近最優的編碼策略,可以提供一個視角,通過它可以改進和增強目前的深度學習技術。除了代碼設計,深度學習作為一種通用函數逼近器在信息論中有更廣泛的應用潛力。我們將談到這個大致的概念。事實上,最近的一些研究已經將深度學習用于(條件)獨立檢驗、互信息估計、壓縮感知以及多假設檢驗中的誤發現率控制。
(2)在第二個主題中,我們將對信息論原理在理解和設計深度學習系統中的應用進行調研。這些工作大致可分為三類:(a)代表性(b)可學習性。(A)事實上,深度學習的一個基本結果是緊密逼近任何連續函數的能力。有幾個現代的表示定理的概括理解的數量和深度這樣的網絡需要近似各種函數類,以及一些不變的性質。我們將調研這些結果。(B)有一些新興的工作,包括張量方法,在一些數學假設下為神經網絡和混合專家提供了各種可學習性保證。
科學用實驗來驗證關于世界的假設。統計學提供了量化這一過程的工具,并提供了將數據(實驗)與概率模型(假設)聯系起來的方法。因為世界是復雜的,我們需要復雜的模型和復雜的數據,因此需要多元統計和機器學習。具體來說,多元統計(與單變量統計相反)涉及隨機向量和隨機矩陣的方法和模型,而不僅僅是隨機單變量(標量)變量。因此,在多元統計中,我們經常使用矩陣表示法。與多元統計(傳統統計學的一個分支)密切相關的是機器學習(ML),它傳統上是計算機科學的一個分支。過去機器學習主要集中在算法上,而不是概率建模,但現在大多數機器學習方法都完全基于統計多元方法,因此這兩個領域正在收斂。多變量模型提供了一種方法來學習隨機變量組成部分之間的依賴關系和相互作用,這反過來使我們能夠得出有關興趣的潛在機制的結論(如生物或醫學)。
兩個主要任務: 無監督學習(尋找結構,聚類) 監督學習(從標記數據進行訓練,然后進行預測)
挑戰: 模型的復雜性需要適合問題和可用數據, 高維使估計和推斷困難 計算問題。
在現實世界中,越來越多的客戶在使用人工智能服務時將隱私視為一個問題,尤其是當客戶內容包含敏感數據時。最近的研究表明,像GPT-2這樣的大型語言模型可以記憶內容,這些內容可以被對手提取出來。當模型在客戶數據上接受訓練時,這在部署場景中帶來了很高的隱私風險。由于其數學上的嚴密性,差分隱私被廣泛認為是隱私保護的黃金標準。為了緩解機器學習中對隱私的擔憂,許多研究工作都在研究具有不同隱私保障的機器學習。現在是時候澄清不同隱私下學習的挑戰和機會了。在本教程中,我們首先描述了機器學習模型中潛在的隱私風險,并介紹了差分隱私的背景,然后介紹了在機器學習中保障差分隱私的流行方法。在接下來的教程中,我們強調學習和隱私之間的相互作用。在第二部分中,我們展示了如何利用學習屬性來提高隱私學習的效用,特別是利用數據點之間的相關性和深度學習模型的低秩屬性來解決這些挑戰的最新進展。在第三部分,我們提出了研究的另一個方向,即利用差分隱私的工具來解決經典的泛化問題,并給出了利用差分隱私的思想來抵抗機器學習攻擊的具體場景。
機器學習中復雜的統計數據讓許多開發人員感到擔憂。了解統計學可以幫助你建立強大的機器學習模型,針對給定的問題陳述進行優化。這本書將教你所有需要執行復雜的統計計算所需的機器學習。您將獲得有關監督學習、非監督學習、強化學習等統計信息。了解真實世界的例子,討論機器學習的統計方面,并熟悉它。您還將設計用于執行諸如模型、參數擬合、回歸、分類、密度收集等任務的程序。
到本書結束時,你將掌握機器學習所需的統計數據,并能夠將你的新技能應用于任何類型的行業問題。
在過去的二十年里,機器學習已經成為信息技術的支柱之一,并因此成為我們生活中相當核心(盡管通常是隱藏的)的一部分。隨著可用數據量的不斷增加,我們有充分的理由相信,智能數據分析將變得更加普遍,成為技術進步的必要因素。本章的目的是為讀者提供一個廣泛的應用的概述,這些應用的核心是一個機器學習問題,并給這一大堆問題帶來一定程度的秩序。在那之后,我們將討論一些來自統計和概率論的基本工具,因為它們構成了許多機器學習問題必須被表述成易于解決的語言。最后,我們將概述一套相當基本但有效的算法來解決一個重要的問題,即分類。更復雜的工具,更普遍的問題的討論和詳細的分析將在本書后面的部分。
地址:
本書涵蓋了用于高維數據分析的新的數學原理(統計和幾何)、可擴展(凸和非凸)優化方法,以及重要的應用,如科學成像、寬帶通信、人臉識別、3D視覺和深度網絡。這本書將被用作數據科學、信號處理、優化和機器學習領域的研究生入門教科書。它已被用于課程EECS 290(伯克利)和ELEN 6886(哥倫比亞)。
在過去的二十年里,高維空間中低維結構的研究有了巨大的發展。在很大程度上,具有代表性的低維模型(如稀疏和低秩以及它們的變體和擴展)的幾何和統計特性現在已經很好地理解了。在何種條件下,這些模型可以有效地和高效地從(最小采樣量)數據中恢復,已經清楚地描述了。為了從高維數據中恢復低維模型,已經開發了許多高效和可擴展的算法。對這些算法的工作條件和計算復雜性也進行了詳細的描述。這些新理論結果和算法已經徹底改變了科學和信號處理的實踐數據, 并對傳感、成像和信息處理產生了重要的影響。在科學成像、圖像處理、計算機視覺、生物信息學、信息檢索和機器學習等領域,我們已取得了顯著的技術進步。正如我們將從本書中介紹的應用程序中看到的,其中一些發展似乎違背了傳統智慧。
見證了這一歷史性的進步,我們認為,現在是全面研究這一新知識體系并在統一的理論和計算框架下組織這些豐富成果的時候了。關于壓縮感知和稀疏模型的數學原理,已有許多優秀的書籍。然而,本書的目標是通過真正有效的計算,彌合低維模型在高維數據分析中的原理和應用之間的差距:
本書結構
這本書的主體包括三個相互關聯的部分: 原理、計算和應用(PCA)。本書還對相關的背景知識做了附錄。
第一部分: 原理(2-7章)提出了稀疏、低秩和一般低維模型的基本性質和理論結果。它描述了在保證正確性或精度的情況下,恢復這種低維結構的逆問題變得易于處理并且能夠有效地解決的條件。
第二部分: 計算(第8章和第9章)介紹了凸和非凸優化的方法,以開發用于恢復低維模型的實用算法。這些方法展示了如何系統地提高算法效率和降低整體計算復雜度,從而使生成的算法快速、可擴展到大尺寸和高維數據的強大思想。
第三部分: 應用(10到16章)演示了如何前面兩部分的原理和計算方法可能價格不能提高解決各種現實問題和實踐。這些應用還指導如何適當地定制和擴展本書中介紹的理想化的模型和算法,以包含關于應用的其他領域特定知識(先驗或約束)。
最后的附錄(A-E)在書的最后是為了使這本書很大程度上是獨立的。
在本章中,我們將訪問圖神經網絡(GNNs)的一些理論基礎。GNNs最有趣的方面之一是,它們是根據不同的理論動機獨立開發的。一方面,基于圖信號處理理論開發了GNN,將歐氏卷積推廣到非歐氏圖域[Bruna et al., 2014]。然而,與此同時,神經信息傳遞方法(構成了大多數現代GNN的基礎)被類比提出,用于圖模型中的概率推理的信息傳遞算法[Dai等人,2016]。最后,基于GNN與weisfeler - lehman圖同構檢驗的聯系,許多研究對其進行了激發[Hamilton et al., 2017b]。
將三個不同的領域匯聚成一個單一的算法框架是值得注意的。也就是說,這三種理論動機中的每一種都有其自身的直覺和歷史,而人們所采用的視角可以對模型的發展產生實質性的影響。事實上,我們推遲對這些理論動機的描述直到引入GNN模型本身之后,這并非偶然。在這一章,我們的目標是介紹這些背后的關鍵思想不同理論的動機,這樣一個感興趣的讀者可以自由探索和組合這些直覺和動機,因為他們認為合適的。
本文推薦來自Krikamol Muandet博士講述《概率分布的希爾伯特空間表示》,136頁ppt系統性講述了希爾伯特空間表示基礎知識和最新進展,非常干貨。
概率分布的希爾伯特空間表示的最新進展
概率分布的希爾伯特空間嵌入最近出現了作為一個強大的機器學習和統計推斷工具。在本教程中,我將介紹分布的希爾伯特空間嵌入的概念,以及它在機器學習、統計推理、因果推理和計量經濟學中的最新應用。本教程的第一部分將重點了解可以概括特征圖的數據點分布的概率分布和這個新的表示允許我們建立強大的算法,如最大平均差異(MMD), Hilbert-Schmidt獨立標準(仿人智能控制),和支持測量機(多發性骨髓瘤)。在第二部分,我將解釋如何推廣這個概念來表示條件分布。條件分布的嵌入擴展了希爾伯特空間嵌入建模更復雜的依賴的能力,在各種應用,如動力系統,馬爾可夫決策過程,強化學習,潛在變量模型,核貝葉斯規則,因果推理。在本教程的最后,我將討論這一研究領域的最新進展,并強調未來可能的研究方向。