柏林AWS AI的一名應用科學家,我在那里研究AutoGluon。目前我的研究方向是時間序列預測和AutoML。 我在慕尼黑工業大學(Technical University of Munich)攻讀機器學習博士學位,導師是Stephan Günnemann。在讀博士期間,我主要研究時間點過程(TPPs)——連續時間事件序列的概率模型,如社交媒體上的用戶活動或地震學中的地震序列。
Modeling Continuous-time Event Data with Neural Temporal Point Processes
事件數據是機器學習許多高影響力應用的核心。電子健康記錄中的醫院訪問,地震學中的地震目錄,以及神經科學中的高峰列車——所有這些都可以用連續時間中可變長度的事件序列來表示。時間點流程(TPPs)為此類數據建模提供了一個自然的框架。然而,傳統的TPP模型缺乏捕捉現實事件數據中呈現的復雜模式的能力。神經TPP旨在通過將神經網絡與點過程文獻中的基本思想相結合來解決這一限制。本論文的兩個主要主題是(1) 設計靈活、可處理和高效的神經TPP模型,(2)它們在現實問題中的應用。我們的第一個貢獻是TPP和神經密度估計領域之間的聯系。這使得我們能夠開發第一個神經TPP模型,其中的可能性計算、采樣和預測都可以以封閉的形式有效地完成。接下來,我們提出了TriTPP——一種新的表達性TPP模型,與現有方法不同,該模型中所有操作都可以并行完成。快速平行采樣為TPP模式開啟了新的應用。我們通過推導連續時間離散狀態系統的變分推斷方案來證明這一點。最后,我們將擬合優度測試方法與神經TPP模型相結合,建立了一種簡單有效的事件序列異常檢測方法。
金融交易、在線交流、神經突列、地震——各種人為和自然現象都可以用連續時間的事件序列來表示。這種事件數據的概率模型被稱為時間點過程(TPP),可以用來進行預測,找到模式,并更好地理解各自的現實世界系統。TPPs理論是在20世紀Feller [56,58], Cox [35,38], Lewis [105,106], Hawkes[79]和Ogata[133,134]的開創性著作中發展起來的。由于事件數據的普遍性,TPPs被廣泛應用于地震[82,135]和神經科學[46,68]等科學領域,以及金融[9,80]和醫療[3,56]等行業。
在過去的幾十年里,在實際應用中遇到的事件數據的規模和復雜性都出現了爆炸式增長。地震學的新技術能夠收集數以百萬計的地震的豐富多樣的數據集[126,192]。像Twitter和Facebook這樣的在線服務以前所未有的規模捕捉社交互動,而AWS這樣的托管提供商每天產生PB級的數據[165]。分析這些數據可以釋放出巨大的價值。然而,傳統的TPP模型,如泊松過程或自激過程,無法捕捉這些數據中呈現的復雜模式。此外,事件序列通常伴隨著與預測任務相關的附加屬性(例如,位置),但將它們納入傳統的TPP需要繁瑣的特征工程。處理這些問題需要開發新的TPP模型,該模型具有表示復雜模式的靈活性,并具有足夠的可擴展性,以處理大型多樣化的數據集。
近年來,被稱為神經TPPs的一類新模型出現,以應對上述挑戰[170]。神經TPP將點過程理論的基本思想與深度學習方法相結合。深度學習方法基于神經網絡——通過可微變換組合定義的表達函數逼近器[72]。基于神經網絡的方法大大提高了計算機視覺[101,186]、自然語言處理[23,48]、圖機器學習[212]和許多其他領域的性能。在本文中,我們研究了深度學習在連續時間事件數據中的應用。
在神經TPPs環境中,神經網絡的靈活性允許我們從數據中自動學習事件發生的不同模式,而不是像傳統模型那樣手動指定它們。例如,在一個自激過程中,觀察到的事件只能增加未來事件的到達率——這是一個相當有限的假設,在許多現實世界的事件數據集中不成立(例如,大腦中的抑制性神經元降低了放電率[46])。相比之下,神經TPP模型可以通過純數據驅動的方式自動學習不同事件類型的抑制和興奮效應。2016年,Du等人[52]和Mei & Eisner[119]的開創性工作首次展示了TPP與神經網絡相結合帶來的新可能性。隨后,許多論文提出了神經TPP的新模型架構和參數估計算法[95,108,181,198-200]。然而,基于深度學習的TPP模式的設計和應用仍存在許多懸而未決的問題。
神經跨TPP模型應該滿足許多要求,以成功地應用于現實世界的任務。此類模型的表達性、可處理性、高效訓練和推理往往相互矛盾,現有的神經TPP架構在這些屬性之間做出了次優權衡。在論文的第一部分,我們關注了TPP模式設計的這些方面,并將其作為我們的第一個研究問題:
研究問題1:我們如何定義靈活的神經TPP模型,同時可處理和高效?
我們首先回顧了概率建模和深度學習的基礎知識,并在第2章中從機器學習的角度對TPP進行了獨立的介紹。在第三章中,我們討論了現有神經TPP模型的局限性,并引入了一類新的模型來解決這些缺點。通過與神經密度估計領域的聯系,我們構建了靈活的神經TPP,其中似然計算和采樣都可以解析地完成。與現有的方法相比,這是一個重大的改進,沒有一種方法同時滿足所有這些標準。接下來,在第4章中,我們將采取不同的路徑,并展示如何通過三角形地圖的視角來看待所有的TPP。基于這一見解,我們提出了TriTPP——一種基于可逆變換組成的靈活高效的TPP參數化方法。現代的TPP架構通常使用自回歸神經網絡(例如,rnn和變壓器),因此具有內在的順序性。相比之下,在TriTPP中,采樣和訓練可以并行進行,這大大提高了效率。此外,重新參數化的高效采樣為TPP提供了新的應用。這就直接引出了我們的第二個研究問題:
研究問題2: 我們如何應用神經TPP來解決現實世界的問題?
在第5章中,我們展示了重新參數化技巧如何讓我們有效地訓練基于抽樣損失的TPP模型。TPP的這種損失函數通常是不連續的,這使得用基于梯度的方法對其進行優化是不可能的。為了解決這一挑戰,我們引入了一個可微松弛的損失,包括變長事件序列。為了展示這種方法的實用性,我們開發了一個連續時間離散狀態系統的變分推斷方案,如馬爾可夫跳躍過程。最后,在第6章中,我們用TPPs處理事件序列的異常檢測。我們演示了如何使用生成模型的擬合優度測試來解決異常檢測問題——針對任意數據類型,而不僅僅是事件序列。我們將該框架與第三章的神經TPP模型相結合,得到了一種簡單有效的異常檢測方法。
一個關于機器學習的教程,以建立缺失值的預測模型。這教程涵蓋了理論結果(統計學習)和實踐建議,重點介紹了使用scikit-learn在Python中的實現
這本書的目的是講述當今世界各地研究人員使用的統計學的故事。這是一個不同的故事,在大多數介紹性的統計書籍,重點教如何使用一套工具,以實現非常具體的目標。這本書的重點在于理解統計思維的基本思想——一種關于我們如何描述世界、如何使用數據做出決定和預測的系統思維方式,所有這些都存在于現實世界的內在不確定性的背景下。它還帶來了當前的方法,這些方法只有在過去幾十年中計算能力的驚人增長才變得可行。在20世紀50年代需要數年時間才能完成的分析,現在在一臺標準的筆記本電腦上只需幾秒鐘就能完成,這種能力釋放了利用計算機模擬以新的、強大的方式提出問題的能力。
這本書也是在2010年以來席卷了許多科學領域的再現危機之后寫成的。這場危機的一個重要根源在于,研究人員一直在使用(和濫用)統計假設檢驗(我將在本書的最后一章詳細說明),這直接與統計教育有關。因此,本書的目標是突出當前統計方法可能存在的問題,并提出替代方案。
概率圖建模(PGM)提供了一個框架,以設計一個可解釋的生成過程的數據和表達不確定性的未知數。這使得PGM對于理解數據背后的現象和決策非常有用。在可解釋推理是關鍵的領域內,PGM取得了巨大的成功,例如市場營銷、醫學、神經科學和社會科學。然而,PGM往往缺乏靈活性,這阻礙了它在建模大規模高維復雜數據和執行需要靈活性的任務(例如在視覺和語言應用程序中)時的使用。
深度學習(DL)是另一個從數據中建模和學習的框架,近年來取得了巨大的成功。DL功能強大,具有很大的靈活性,但缺乏PGM的可解釋性和校準性。
本文研究了深度概率圖建模(DPGM)。DPGM通過利用DL使PGM更加靈活。DPGM帶來了從數據中學習的新方法,這些方法展示了PGM和DL的優點。
我們在PGM中使用DL來構建具有可解釋潛在結構的靈活模型。我們提出一系列模型擴展指數族主成分分析(EF-PCA),使用神經網絡提高預測性能,同時加強潛在因素的可解釋性。我們引入的另一個模型類支持在建模順序數據時考慮長期依賴關系,這在使用純DL或PGM方法時是一個挑戰。該序列數據模型類已成功應用于語言建模、情感分析的無監督文檔表示學習、會話建模和醫院再入院預測的患者表示學習。最后,DPGM成功地解決了概率主題模型的幾個突出問題。
在PGM中利用DL也帶來了學習復雜數據的新算法。例如,我們開發了熵正則化對抗學習,這是一種與PGM中使用的傳統最大似然方法不同的學習范式。從DL的角度來看,熵正則化對抗學習為生成式對抗網絡長期存在的模式崩潰問題提供了一種解決方案。
概率論起源于17世紀的法國,當時兩位偉大的法國數學家,布萊斯·帕斯卡和皮埃爾·德·費馬,對兩個來自機會博弈的問題進行了通信。帕斯卡和費馬解決的問題繼續影響著惠更斯、伯努利和DeMoivre等早期研究者建立數學概率論。今天,概率論是一個建立良好的數學分支,應用于從音樂到物理的學術活動的每一個領域,也應用于日常經驗,從天氣預報到預測新的醫療方法的風險。
本文是為數學、物理和社會科學、工程和計算機科學的二、三、四年級學生開設的概率論入門課程而設計的。它提出了一個徹底的處理概率的想法和技術為一個牢固的理解的主題必要。文本可以用于各種課程長度、水平和重點領域。
在標準的一學期課程中,離散概率和連續概率都包括在內,學生必須先修兩個學期的微積分,包括多重積分的介紹。第11章包含了關于馬爾可夫鏈的材料,為了涵蓋這一章,一些矩陣理論的知識是必要的。
文本也可以用于離散概率課程。材料被組織在這樣一種方式,離散和連續的概率討論是在一個獨立的,但平行的方式,呈現。這種組織驅散了對概率過于嚴格或正式的觀點,并提供了一些強大的教學價值,因為離散的討論有時可以激發更抽象的連續的概率討論。在離散概率課程中,學生應該先修一學期的微積分。
為了充分利用文中的計算材料和例子,假設或必要的計算背景很少。所有在文本中使用的程序都是用TrueBASIC、Maple和Mathematica語言編寫的。
在過去的20年里,基因組學、神經科學、經濟學和互聯網服務等許多領域產生了越來越多的大數據集,這些數據集有高維、大樣本,或者兩者兼之。這為我們從數據中檢索和推斷有價值的信息提供了前所未有的機會。同時,也對統計方法和計算算法提出了新的挑戰。一方面,我們希望建立一個合理的模型來捕獲所需的結構,并提高統計估計和推斷的質量。另一方面,面對越來越大的數據集,計算可能成為一個巨大的障礙,以得出有意義的結論。這篇論文站在兩個主題的交叉點,提出了統計方法來捕獲所需的數據結構,并尋求可擴展的方法來優化計算非常大的數據集。我們提出了一種可擴展的靈活框架,用于利用lasso/elastic-net解決大規模稀疏回歸問題; 提出了一種可伸縮的框架,用于在存在多個相關響應和其他細微差別(如缺失值)的情況下解決稀疏縮減秩回歸問題。分別在snpnet和multiSnpnet R包中以PLINK 2.0格式為基因組數據開發了優化的實現。這兩種方法在超大和超高維的英國生物樣本庫研究中得到了驗證,與傳統的預測建模方法相比有了顯著的改進。此外,我們考慮了一類不同的高維問題,異質因果效應的估計。與監督學習的設置不同,這類問題的主要挑戰在于,在歷史數據中,我們從未觀察到硬幣的另一面,因此我們無法獲得處理之間真正差異的基本真相。我們提出適應非參數統計學習方法,特別是梯度增強和多元自適應回歸樣條,以估計處理效果的預測器可用。實現被打包在一個R包causalLearning中。
高斯過程(GPs)為核機器的學習提供了一種有原則的、實用的、概率的方法。在過去的十年中,GPs在機器學習社區中得到了越來越多的關注,這本書提供了GPs在機器學習中理論和實踐方面長期需要的系統和統一的處理。該書是全面和獨立的,針對研究人員和學生在機器學習和應用統計學。
這本書處理監督學習問題的回歸和分類,并包括詳細的算法。提出了各種協方差(核)函數,并討論了它們的性質。從貝葉斯和經典的角度討論了模型選擇。討論了許多與其他著名技術的聯系,包括支持向量機、神經網絡、正則化網絡、相關向量機等。討論了包括學習曲線和PAC-Bayesian框架在內的理論問題,并討論了幾種用于大數據集學習的近似方法。這本書包含說明性的例子和練習,和代碼和數據集在網上是可得到的。附錄提供了數學背景和高斯馬爾可夫過程的討論。