講座題目
大時間序列預測的理論與實踐:Forecasting Big Time Series: Theory and Practice
講座簡介
時間序列預測是業務流程自動化和優化的一個關鍵組成部分:在零售業,根據對不同地區未來需求的預測來決定要訂購哪些產品以及在哪里存儲這些產品;在云計算中,服務和基礎設施組件的估計未來使用量指導容量規劃;倉庫和工廠的勞動力調度需要對未來的工作量進行預測。近年來,預測技術和應用的范式發生了變化,從基于計算機輔助的模型和假設到數據驅動和全自動化。這種轉變可以歸因于大量、豐富和多樣的時間序列數據源的可用性,并導致一系列需要解決的挑戰,例如:我們如何建立統計模型,以便有效地學習從大量和多樣的數據源進行預測?在觀測有限的情況下,我們如何利用“相似”時間序列的統計能力來改進預測?對于構建能夠處理大量數據的預測系統有什么意義? 本教程的目標是提供解決大規模預測問題的最重要方法和工具的簡明直觀概述。我們回顧了三個相關領域的研究現狀:(1)時間序列的經典建模,(2)包括張量分析和深度學習的現代預測方法。此外,我們還討論了建立大規模預測系統的實際方面,包括數據集成、特征生成、回溯測試框架、誤差跟蹤和分析等。
講座嘉賓
Christos Faloutsos 現任職務于卡內基梅隆大學 (Carnegie Mellon University)電子和計算機工程教授,研究領域:圖和流的數據挖掘,分形、自相似與冪律,視頻、生物和醫學數據庫的索引和數據挖掘,數據庫性能評估(數據放置、工作負載特征)。
為了適應不同領域的時間序列數據集的多樣性,已經開發了大量的深度學習體系結構。本文調查了單步和多水平時間序列預測中常用的編碼器和解碼器設計——描述了時間信息是如何被每個模型納入預測的。接下來,我們將重點介紹混合深度學習模型的最新發展,該模型將經過充分研究的統計模型與神經網絡組件相結合,以改進這兩類中的純方法。最后,我們概述了一些方法,其中,深度學習也可以促進決策支持與時間序列數據。
題目: Time Series Forecasting With Deep Learning: A Survey
摘要:
為了適應不同領域的時間序列數據集的多樣性,已經開發了大量的深度學習體系結構。在這篇文章中,我們調查了常用的編碼器和譯碼器設計,它們都被用于一階前和多視距的時間序列預測——描述了時間信息是如何被每個模型合并到預測中的。接下來,將重點介紹混合深度學習模型的最新發展,該模型將經過充分研究的統計模型與神經網絡組件相結合,以改進這兩類中的純方法。最后,我們概述了一些方法,即深度學習也可以促進決策支持與時間序列數據。
題目: Comprehensive Analysis of Time Series Forecasting Using Neural Networks
摘要: 時間序列預測近年來受到了廣泛的關注,這是因為許多現實世界的現象都可以用時間序列來建模。大量的數據和計算機處理能力的最新進展使研究人員能夠開發出更復雜的機器學習算法,如神經網絡來預測時間序列數據。本文提出了利用動態測量數據進行時間序列預測的各種神經網絡結構,并介紹了如何將靜態和動態測量相結合進行預測的各種結構。我們還研究了異常檢測和聚類等技術對預測精度的重要性。結果表明,聚類可以提高神經網絡的整體預測時間,提高預測性能。此外,我們還發現基于特征的聚類在速度和效率上都優于基于距離的聚類。最后,我們的結果表明,增加更多的預測因子來預測目標變量并不一定會提高預測精度。
【導讀】越來越明顯的是,廣泛采用的機器學習模型可能導致歧視性結果,并可能加劇訓練數據之間的差異。隨著越來越多的機器學習用于現實世界中的決策任務,必須解決機器學習中的偏見和公平問題。我們的動機是,在各種新興方法中,表示學習為評估和潛在地減輕不公平現象提供了獨特的工具集。本教程介紹了現有的研究,并提出了在表示學習和公平的交集中存在的開放性問題。我們將研究學習公平任務不可知表示的可能性(不可能性),公平性和泛化性能之間的聯系,以及利用來自表示形式學習的工具來實現算法上的個人和群體公平性的機會。本教程旨在為廣大的機器學習實踐者提供幫助,并且必要的背景知識是預測性機器學習的工作知識。
作者介紹
Sanmi Koyejo,伊利諾伊大學香檳分校計算機科學系助理教授。
研究綜述: 我們的研究興趣是開發自適應魯棒機器學習的原理和實踐。最近的一些亮點包括:1)可伸縮的、分布式的和容錯的機器學習;2)度量引出;通過人機交互選擇更有效的機器學習指標。我們的應用研究主要集中在認知神經成像和生物醫學成像方面。最近的一些重點包括①生物圖像的生成模型,②時變腦電圖的估計和分析。
講座題目
現代MDL與數據挖掘的結合--洞察力、理論和實踐:Modern MDL meets Data Mining -- Insights, Theory, and Practice
講座簡介
當考慮一個數據集時,通常不知道它是如何的,因此描述或捕獲其主要特征的模型應該有多復雜。通常,這些選擇會被掩蓋、忽略,交給領域專家處理,但在實踐中,這是非常不令人滿意的;領域專家不知道如何設置$k$,在選擇之前選擇什么,或者有多少自由度比我們做的更理想。 最小描述長度(MDL)原理能夠從清晰直觀的角度回答模型選擇問題。簡而言之,它斷言最好的模型是同時壓縮數據和模型的模型。在本教程中,我們不僅介紹了模型選擇的基本知識,展示了基于MDL的建模的重要特性、成功的例子以及如何應用MDL解決數據挖掘問題的陷阱,還介紹了現代MDL中重要新概念的高級主題(例如,歸一化最大似然(NML)、順序NML、分解NML和MDL變化統計)和動態設置中的新興應用。在本教程中,我們的目標是確保讀者不僅掌握基本理論,而且了解如何將其付諸實踐。
講座嘉賓
Jilles Vreeken ,在赫爾姆霍茲信息安全中心領導探索性數據分析研究小組。此外,是馬克斯·普朗克信息學研究所數據庫和信息系統組(D5)的高級研究員,薩爾蘭大學計算機科學系的教授。研究主要涉及數據挖掘和機器學習。特別是,喜歡開發理論和算法來回答關于數據的探索性問題,例如“我的數據中的因果依賴關系是什么”或“這是我的數據,告訴我需要知道什么”。為了確定什么是有價值的結構,經常采用基于信息論的有根據的統計方法。在此基礎上,可以開發出高效的算法,從大量復雜的數據中提取有用的、有見地的結果。
講座題目
假設檢驗與統計聲音模式挖掘:Hypothesis Testing and Statistically-sound Pattern Mining
講座簡介
大量數據集的可用性突出表明,需要計算效率高、統計上可靠的方法來提取模式,同時對結果的質量提供嚴格的保證,特別是在錯誤發現方面。在本教程中,我們將介紹最近的一些方法,這些方法適當地結合了計算和統計方面的考慮,以便有效地從大型數據集中挖掘統計上可靠的模式。我們首先介紹統計假設檢驗中的基本概念,數據挖掘社區中的每個人可能都不熟悉這些概念。然后,我們將解釋如何以不同的方式處理模式挖掘中的計算和統計挑戰。最后,我們描述了這些方法在市場籃分析、子圖挖掘、社會網絡分析和癌癥基因組學等領域的應用。本教程的目的是向觀眾介紹統計假設測試,強調正確平衡模式挖掘的計算和統計方面的重要性,強調這樣做對數據挖掘研究人員的有用性,并鼓勵在這方面的進一步研究。
講座嘉賓
Leonardo Pellegrina是帕多瓦大學信息工程系信息工程專業的博士生,由法比奧·范丁教授和布朗大學客座研究員指導。他的研究活動集中在高效和統計上合理的算法,用于從大數據中發現模式,并應用到計算生物學。
講座題目
時空事件預測與前兆識別:Spatio-temporal event forecasting and precursor identification
講座簡介
由于來自社會媒體、新聞來源、博客、經濟指標和其他元數據來源等開放源代碼指標(OSI)的大數據,傳統上極具挑戰性的時空社會事件預測現在成為可能,并正在經歷快速增長。時空社會事件預測及其前兆發現在政治危機、人道主義危機、大規模暴力、暴亂、大規模移民、疾病爆發、經濟不穩定、資源短缺、應對自然災害等方面都對社會有益。 與傳統的事件檢測不同,事件預測側重于預測未來尚未發生的事件。與傳統的數值指標時空預測不同,時空事件預測需要利用OSI的異構信息來發現預測指標和未來社會事件的映射。在研究大規模社會事件的同時,決策者和實踐者的目標是確定此類事件的前兆,以幫助理解因果屬性并確保問責制。由此產生的問題通常需要能夠聯合處理語義、時間和空間信息的預測建模技術,并且需要設計可擴展到高維大型真實世界數據集的高效可解釋算法。 在本教程中,我們將全面介紹時空社會事件預測的最新方法。首先,我們將對OSI輸入和文獻中普遍研究的預測社會事件進行分類。然后,我們將回顧時間和時空社會事件預測的方法。接下來,我們還將討論前體識別的基礎,引入各種機器學習方法,其目的是在預測事件的同時發現前兆。通過本教程,我們希望說明基本的理論和算法思想,并討論在上述所有設置中的具體應用。
講座嘉賓
Liang Zhao, GMU信息科學與技術系助理教授。趙博士于2016年獲得弗吉尼亞理工大學計算機科學博士學位。他的研究興趣包括數據挖掘和機器學習,特別是在時空數據挖掘、社會事件預測、稀疏特征學習和社會媒體挖掘方面。