在過去的十多年里,粗糙路徑理論和機器學習對序列數據的融合一直是人們越來越感興趣的話題。這兩個學科領域的統一是自然的:粗糙路徑理論為我們提供了描述由多維(可能高度不規則)信號驅動的微分方程的解的語言,而機器學習提供了從數據中學習此類解的工具。粗糙路徑理論的中心目標是為回答關于數據流對系統的影響的問題提供一個通用的數學框架。這類數據的一個常見例子是時間序列,它普遍存在于生活的各個領域(這將是我們在本文中最常考慮的流類型);因此,用粗糙路徑的語言構建問題為我們提供了在現實世界中具有真正效用的模型。這篇論文的目的是為機器學習的應用提供粗糙路徑理論領域的一個可訪問的介紹,然后提供一個帳戶,進一步連接這兩個領域的最新和有效的貢獻。**這篇論文涵蓋的主題包括:神經控制微分方程(神經CDEs) **-神經常微分方程的擴展,可以包含外部數據過程的變化;神經粗糙微分方程(neural RDEs)—對神經CDEs的粗糙路徑擴展,對長或高頻時間序列有好處;廣義簽名法——多變量時間序列特征提取技術的集合最后介紹了簽名方法在敗血癥和應激檢測中的實際應用。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
場景表示是將對環境的傳感觀察轉換為緊湊描述的過程。這種智能行為是人工智能的基石。長期以來,科學家們一直試圖重現人類理解物理環境的非凡能力。將對環境的視覺傳感觀察作為輸入,現代智能系統主要致力于學習對基本場景屬性(如幾何和語義)進行編碼的神經表示。這種表示可以用于支持其他下游任務,最終在復雜的3D世界中實現自主感知和交互。近年來,深度神經網絡在神經場景表示中的幾何和語義信息建模方面表現出色。然而,由于不受控制的現實場景的脆弱性,構建健壯的系統仍然具有很高的挑戰性。由于對場景變化的傳感觀察的差異,不同類型的視覺表示之間的領域差距,以及對多類別信息的高效感知的要求,這為場景表示學習帶來了巨大的復雜性。為克服這些挑戰,本文追求魯棒、統一和信息豐富的場景表示,從不同類型的視覺輸入中學習幾何和語義,為自主學習理解周圍世界的智能機器鋪平道路。在此背景下,本文在視覺定位、像素點匹配和語義曲面重建領域做出了三個核心貢獻。
在這篇論文中,我們從單幅圖像開始估計6自由度(DoF)相機姿態。為了學習對環境變化和傳感器操作具有魯棒性的場景表示,提出了一種結合自注意模塊的神經網絡來建模復雜的幾何關系,給定的圖像相對于參考環境進行拍攝。然后,基于極線幾何和立體視覺的內在約束,我們構建了一個更通用的框架,在二維圖像和三維點云之間尋找統一的表示形式。通過引入超寬接收機制和新的損失函數,提出了一種雙全卷積框架,將2D和3D輸入映射到共享的潛表示空間中,以同時描述和檢測關鍵點,彌合2D和3D表示之間的差距。最后,我們將我們的研究擴展到開發信息表示,這通常是智能系統在現實場景中同時用于多個目的的操作所需要的。在借鑒以往基于點的網絡研究成果的基礎上,我們引入了一種全新的端到端神經隱式函數,它可以聯合估計原始和大規模點云的精確三維曲面和語義。
總體而言,本文開發了一系列新穎的深度神經框架,以推動場景表示的機器學習領域向能夠完全感知現實世界3D環境的人工智能發展。
**本文概述了我和我的合作者在魯棒估計方面的最新成果。關鍵問題如下:給定一個數據集,其中的一部分由任意離群點組成,我們能從非離群點中了解到什么?**這是一個經典的問題,至少可以追溯到Tukey(1960)。然而,由于種種原因,這個問題最近重新引起了人們的興趣。首先,許多舊的結果在高維中沒有給出有意義的誤差邊界(例如,在d維中誤差通常包含隱式的√d因子)。隨著機器學習越來越多地用于高維模型,這需要重新研究。其次,在Charikar等人(2017)中,我們建立了魯棒估計與其他問題之間的聯系,如聚類和隨機塊模型的學習。目前,聚類高斯混合的最佳已知結果是通過這些魯棒的估計技術(Diakonikolas等人,2018b;Kothari和Steinhardt, 2018;Hopkins and Li, 2018)。最后,具有結構化異常值的高維生物數據集,如批處理效應(Johnson et al., 2007;Leek等人,2010),以及對機器學習系統的安全擔憂(Steinhardt等人,2017),從應用方向促進了對最壞情況異常值的魯棒性研究。//cs.stanford.edu/~jsteinhardt/publications/thesis/paper.pdf最近的研究顯示,在這些問題上取得了令人鼓舞的進展,但快速的進展導致了文獻的不透明。大多數論文單獨來看是復雜的,但實際上是由幾個關鍵主題的變化組成的。這篇論文的目的是提供一個易于理解的介紹,以突出主要技術的領域。在第一章中,我們介紹了魯棒估計的基本問題,給出了在一維情況下的算法,為我們以后在高維情況下的算法做了鋪墊,并解釋了高維設置的基本難點。在第2章和第3章中,我們關注信息理論的魯棒性——什么時候有可能(忽略計算成本)在異常值存在的情況下恢復良好的參數估計?這里的情況簡單得令人愉快,它基于一種稱為彈性的屬性,該屬性度量點的小亞種群的影響。有趣的是,彈性允許我們恢復對均值的估計,即使大多數點都是異常值,假設我們允許輸出多次猜測(所謂的列表可解碼設置,最早由Balcan等人(2008)引入)。這一基本事實是魯棒學習和聚類之間聯系的基礎,因為我們可以將每個單獨的簇視為“好”點的總體,然后將其余簇中的點視為異常值。在第4章中,我們將注意力轉向計算效率算法。假設好的點有有限的協方差,我們可以恢復平均值的估計,誤差只隨著協方差矩陣的最大特征值增長(通常與維數無關)。其基本思想是,均值偏移超過一小部分的離群點,必然會在數據中產生大的變化方向,這可以通過經驗協方差的特征分解來檢測。我們展示了如何將這種均值估計結果推廣到一般的m估計,只要損失函數的梯度具有有界協方差。最后,在第五章中,我們介紹了一種基于對偶性的替代計算方法。使用這種方法,我們可以找到一個大家族鞍點問題的近似最小化存在離群點。這允許我們恢復與第4章相似的平均估計結果,優點是即使大多數點是異常值,結果也保持不變。這將生成目前給出最佳已知邊界的聚類算法。然而,第4章和第5章中的技術都在積極開發中。即使在明年,這兩種技術都可能獲得更強的效果。總之,我們將看到一個相對完整的關于魯棒性的信息論視角,以及設計高效算法的兩種方法。這些方法以一般的方式呈現,以至于該領域的許多關鍵結果都是簡單的推論,通常只需要大約一頁的代數來檢查條件。我們希望通過揭示爭論背后的結構,我們將使新的研究人員能夠應用和擴展這些結果。
大量大維度數據是現代機器學習(ML)的默認設置。標準的ML算法,從支持向量機這樣的內核方法和基于圖的方法(如PageRank算法)開始,最初的設計是基于小維度的,在處理真實世界的大數據集時,即使不是完全崩潰的話,往往會表現失常。隨機矩陣理論最近提出了一系列廣泛的工具來幫助理解這種新的維數詛咒,幫助修復或完全重建次優算法,最重要的是提供了處理現代數據挖掘的新方向。本編著的主要目的是提供這些直覺,通過提供一個最近的理論和應用突破的隨機矩陣理論到機器學習摘要。針對廣泛的受眾,從對統計學習感興趣的本科生到人工智能工程師和研究人員,這本書的數學先決條件是最小的(概率論、線性代數和真實和復雜分析的基礎是足夠的):與隨機矩陣理論和大維度統計的數學文獻中的介紹性書籍不同,這里的理論重點僅限于機器學習應用的基本要求。這些應用范圍從檢測、統計推斷和估計,到基于圖和核的監督、半監督和非監督分類,以及神經網絡: 為此,本文提供了對算法性能的精確理論預測(在不采用隨機矩陣分析時往往難以實現)、大維度的洞察力、改進方法,以及對這些方法廣泛適用于真實數據的基本論證。該專著中提出的大多數方法、算法和圖形都是用MATLAB和Python編寫的,讀者可以查閱(//github.com/Zhenyu-LIAO/RMT4ML)。本專著也包含一系列練習兩種類型:短的練習與修正附加到書的最后讓讀者熟悉隨機矩陣的基本理論概念和工具分析,以及長期指導練習應用這些工具進一步具體的機器學習應用程序。
數據驅動的發現正在徹底改變復雜系統的建模、預測和控制。這本教科書匯集了機器學習、工程數學和數學物理,將動態系統的建模和控制與現代數據科學方法相結合。它強調了科學計算領域的許多最新進展,使數據驅動的方法能夠應用于各種復雜系統,如湍流、大腦、氣候、流行病學、金融、機器人和自主。旨在在工程和物理科學的高級本科和開始研究生,文本提出了從介紹到藝術的狀態的一系列主題和方法。
主要特點:
深入的工作示例與全面的開源代碼
對復雜概念及其應用的簡明易懂的解釋
廣泛的在線補充包括練習,案例研究,課程視頻,數據和補充代碼
第一部分:降維與變換
盡管測量和計算的分辨率迅速提高,但許多復雜系統在數據中表現出主導的低維模式。模式提取涉及到找到坐標變換,從而簡化系統。的確,數學物理的豐富歷史是以坐標變換為中心的(例如,譜分解、傅里葉變換、廣義函數等),盡管這些技術在很大程度上僅限于簡單的理想化幾何和線性動力學。獲得數據驅動轉換的能力為將這些技術推廣到具有更復雜幾何和邊界條件的新研究問題提供了機會。
這本書的這一部分將調查兩個最強大和普遍的算法轉換和減少數據:奇異值分解(SVD)和傅立葉變換。數據可以在這些轉換后的坐標系統中壓縮,這一事實使建模和控制的高效傳感和緊湊表示成為可能。因此,第三章涉及到利用這種低維結構的稀疏采樣方法。
第二部分:機器學習和數據分析
機器學習是基于數據優化技術的。目標是找到一個低秩子空間來最優地嵌入數據,以及回歸方法來聚類和分類不同的數據類型。因此,機器學習提供了一套有原則的數學方法,用于從數據中提取有意義的特征,即數據挖掘,以及將數據分成不同的有意義的模式,可以用于決策制定、狀態估計和預測。具體來說,它從數據中學習并根據數據做出預測。對于商業應用程序,這通常被稱為預測分析,它處于現代數據驅動決策制定的前沿。在一個集成系統中,如自主機器人,各種機器學習組件(例如,處理視覺和觸覺刺激)可以被集成,形成我們現在所說的人工智能(AI)。明確地說,人工智能建立在集成的機器學習算法之上,而機器學習算法又從根本上植根于優化。
第三部分:動力學和控制
數據驅動的發現正在徹底改變我們建模、預測和控制復雜系統的方式。現代最緊迫的科學和工程問題是不服從經驗模型或基于第一性原理的推導的。研究人員越來越多地轉向數據驅動的方法,用于各種復雜系統,如動蕩、大腦、氣候、流行病學、金融、機器人和自主。這些系統通常是非線性的、動態的、空間和時間的多尺度的、高維的,具有主導的潛在模式,應該為感知、預測、估計和控制的最終目標進行特征化和建模。借助現代數學方法,以及前所未有的可用數據和計算資源,我們現在能夠解決以前無法實現的挑戰問題。
第四部分:簡化訂單模型(ROMs)
適當的正交分解(POD)是應用于偏微分方程(PDEs)的SVD算法。因此,它是研究復雜時空系統最重要的降維技術之一。這樣的系統典型的例子是非線性偏微分方程,它規定了在給定的物理、工程和/或生物系統中感興趣的數量在時間和空間上的進化。POD的成功與一個普遍存在的現象有關:在大多數復雜系統中,有意義的行為被編碼在動態活動的低維模式中。POD技術試圖利用這一事實,以生產能夠精確建模控制復雜系統的完整時空演化的低秩動力系統。具體來說,簡化階模型(ROMs)利用POD模式將PDE動力學投影到低階子空間,在這些子空間中,控制PDE模型的模擬可以更容易地進行評估。重要的是,ROM產生的低秩模型在計算速度方面有了顯著的改進,潛在地使昂貴的PDE系統蒙特卡羅模擬、參數化PDE系統的優化和/或基于PDE的系統的實時控制成為可能。
凸優化作為一個數學問題已經被研究了一個多世紀,并在許多應用領域的實踐中應用了大約半個世紀,包括控制、金融、信號處理、數據挖掘和機器學習。本文主要研究凸優化的幾個問題,以及機器學習的具體應用。
機器學習是計算機科學中增長最快的領域之一,具有深遠的應用。本書的目的是介紹機器學習,以及它所提供的算法范例。本書對機器學習的基本原理和將這些原理轉化為實際算法的數學推導提供了理論解釋。在介紹了基礎知識之后,這本書涵蓋了以前教科書沒有涉及到的一系列廣泛的中心主題。這些包括討論學習的計算復雜性和凸性和穩定性的概念;重要的算法范例包括隨機梯度下降、神經網絡和結構化輸出學習;以及新興的理論概念,如PAC-Bayes方法和基于壓縮的界限。本文面向高級本科生或剛畢業的學生,使統計學、計算機科學、數學和工程學領域的學生和非專業讀者都能接觸到機器學習的基本原理和算法。
//www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/index.html
概述
機器學習是指自動檢測數據中有意義的模式。在過去的幾十年里,它已經成為幾乎所有需要從大數據集中提取信息的任務的通用工具。我們被一種基于機器學習的技術包圍著:搜索引擎學習如何給我們帶來最好的結果(同時投放有利可圖的廣告),反垃圾郵件軟件學習如何過濾我們的電子郵件信息,信用卡交易被一種學習如何偵測欺詐的軟件保護著。數碼相機學會識別人臉,智能手機上的智能個人輔助應用學會識別語音指令。汽車配備了使用機器學習算法構建的事故預防系統。機器學習還廣泛應用于生物信息學、醫學和天文學等科學領域。
所有這些應用程序的一個共同特征是,與計算機的更傳統使用相比,在這些情況下,由于需要檢測的模式的復雜性,人類程序員無法提供關于這些任務應該如何執行的明確、詳細的規范。以智慧生物為例,我們的許多技能都是通過學習我們的經驗(而不是遵循給我們的明確指示)而獲得或改進的。機器學習工具關注的是賦予程序“學習”和適應的能力。
這本書的第一個目標是提供一個嚴格的,但易于遵循,介紹機器學習的主要概念: 什么是機器學習?
本書的第二個目標是介紹幾種關鍵的機器學習算法。我們選擇展示的算法一方面在實踐中得到了成功應用,另一方面提供了廣泛的不同的學習技術。此外,我們特別關注適合大規模學習的算法(又稱“大數據”),因為近年來,我們的世界變得越來越“數字化”,可用于學習的數據量也在急劇增加。因此,在許多應用中數據量大,計算時間是主要瓶頸。因此,我們明確地量化了學習給定概念所需的數據量和計算時間。
目錄:
Part I: Foundations
Part II: From Theory to Algorithms
Part III: Additional Learning Models
Part IV: Advanced Theory
Appendices