講座題目
假設檢驗與統計聲音模式挖掘:Hypothesis Testing and Statistically-sound Pattern Mining
講座簡介
大量數據集的可用性突出表明,需要計算效率高、統計上可靠的方法來提取模式,同時對結果的質量提供嚴格的保證,特別是在錯誤發現方面。在本教程中,我們將介紹最近的一些方法,這些方法適當地結合了計算和統計方面的考慮,以便有效地從大型數據集中挖掘統計上可靠的模式。我們首先介紹統計假設檢驗中的基本概念,數據挖掘社區中的每個人可能都不熟悉這些概念。然后,我們將解釋如何以不同的方式處理模式挖掘中的計算和統計挑戰。最后,我們描述了這些方法在市場籃分析、子圖挖掘、社會網絡分析和癌癥基因組學等領域的應用。本教程的目的是向觀眾介紹統計假設測試,強調正確平衡模式挖掘的計算和統計方面的重要性,強調這樣做對數據挖掘研究人員的有用性,并鼓勵在這方面的進一步研究。
講座嘉賓
Leonardo Pellegrina是帕多瓦大學信息工程系信息工程專業的博士生,由法比奧·范丁教授和布朗大學客座研究員指導。他的研究活動集中在高效和統計上合理的算法,用于從大數據中發現模式,并應用到計算生物學。
題目: Decision-theoretic foundations for statistical causality
摘要:
我們為企業決策理論的統計因果關系(DT)建立了一個數學和解釋基礎,這是一種直接表達和解決因果問題的方法。DT將因果推理重新定義為“輔助決策”,目的是了解何時以及如何利用外部數據(通常是觀察性的)來幫助解決決策問題,利用數據與我的問題之間假定的關系。
因果問題的任何表述中所包含的關系都需要更深層次的證明,這必然取決于上下文。在這里,我們澄清了支持DT方法應用所需要考慮的事項。互換性考慮被用來構建所需的關系,而意圖治療和干預治療之間的區別形成了“可忽略性”啟用條件的基礎。我們還展示了DT的觀點是如何統一和闡明統計因果關系的其他流行形式的,包括潛在的響應和有向無環圖。
題目
【教程推薦】中科大劉淇教授-數據挖掘基礎
關鍵字
數據挖掘,統計學習,機器學習
簡介
數據挖掘是人工智能和數據庫領域研究的熱點問題,所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,高度自動化地分析企業的數據,作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。知識發現過程由以下三個階段組成:①數據準備;②數據挖掘;③結果表達和解釋。數據挖掘可以與用戶或知識庫交互。
作者
劉 淇
【導讀】越來越明顯的是,廣泛采用的機器學習模型可能導致歧視性結果,并可能加劇訓練數據之間的差異。隨著越來越多的機器學習用于現實世界中的決策任務,必須解決機器學習中的偏見和公平問題。我們的動機是,在各種新興方法中,表示學習為評估和潛在地減輕不公平現象提供了獨特的工具集。本教程介紹了現有的研究,并提出了在表示學習和公平的交集中存在的開放性問題。我們將研究學習公平任務不可知表示的可能性(不可能性),公平性和泛化性能之間的聯系,以及利用來自表示形式學習的工具來實現算法上的個人和群體公平性的機會。本教程旨在為廣大的機器學習實踐者提供幫助,并且必要的背景知識是預測性機器學習的工作知識。
作者介紹
Sanmi Koyejo,伊利諾伊大學香檳分校計算機科學系助理教授。
研究綜述: 我們的研究興趣是開發自適應魯棒機器學習的原理和實踐。最近的一些亮點包括:1)可伸縮的、分布式的和容錯的機器學習;2)度量引出;通過人機交互選擇更有效的機器學習指標。我們的應用研究主要集中在認知神經成像和生物醫學成像方面。最近的一些重點包括①生物圖像的生成模型,②時變腦電圖的估計和分析。
講座題目
藥物發現與開發的數據挖掘方法:Data Mining Methods for Drug Discovery and Development
講座簡介
醫學中的硅模型是指直接使用計算方法來支持藥物的發現和開發。機器學習和數據挖掘方法已經成為硅模型的一個組成部分,并且在藥物發現和開發過程的各個階段都顯示出了良好的性能。在本教程中,我們將介紹數據分析方法在藥物研發中的應用。上半年,我們將概述相關數據和分析任務,然后介紹這些任務的啟用數據分析方法。下半部分,我們將描述這些任務的具體應用。本教程將以開放式問題和問答環節結束。
講座嘉賓
Cao (Danica) Xiao 是IQVIA卓越分析中心的機器學習主任。她正帶領IQVIA的北美機器學習團隊推動下一代醫療人工智能。她的團隊致力于各種疾病建模和硅化藥物建模項目(例如,藥物不良反應檢測、藥物重新定位和從頭設計)。她的研究重點是使用機器學習和數據挖掘方法來解決各種現實世界的醫療挑戰。特別是,她對電子健康記錄上的表型、硅化藥物建模中的數據挖掘、生物標記物發現和神經退行性疾病的患者分割感興趣。她的研究成果發表在主要的人工智能會議上,包括KDD、NIPS、ICLR、AAAI、IJCAI、SDM、ICDM、WWW和頂級健康信息學期刊,如《自然科學報告》和JAMIA。在加入IQVIA之前,她曾于2017年至2019年在IBM research擔任AI for Healthcare團隊的研究人員,并于2018年至2019年擔任IBM全球技術展望委員會成員。她于2016年在西雅圖華盛頓大學獲得博士學位。
講座題目
社會用戶興趣挖掘:方法與應用:Social User Interest Mining: Methods and Applications
講座簡介
社交網絡上豐富的用戶生成內容提供了建立模型的機會,這些模型能夠準確有效地提取、挖掘和預測用戶的興趣,希望能夠實現更有效的用戶參與、更好質量地提供適當的服務和更高的用戶滿意度。雖然傳統的建立用戶檔案的方法依賴于基于人工智能的偏好獲取技術,這些技術可能被用戶認為是侵入性的和不受歡迎的,但最近的進展集中在確定用戶興趣和偏好的非侵入性但準確的方法上。在本教程中,我們將介紹與有效挖掘用戶興趣相關的五個重要方面: 1)用于提取用戶興趣的信息源 2)文獻中提出的各類用戶興趣簡介 3)為挖掘用戶利益而采用或提議的技術 4)最新方法的可擴展性和資源需求 5)文獻中采用的評估方法,用于驗證挖掘的用戶興趣概要的適當性。我們還將介紹現有的挑戰、開放的研究問題和激動人心的工作機會。
講座嘉賓
Fattane Zarrinkalam博士是Ryerson大學系統、軟件和語義實驗室(LS3)的博士后研究員,她在那里從事與支持語義的社交網絡分析相關的項目。在博士研究期間,她專注于根據社交網絡(尤其是Twitter)上的個人和集體行為來識別社交媒體用戶的興趣。她在CIKM、ESWC和ECIR等場館發表了自己的作品。此外,她還在包括信息檢索、信息處理和管理在內的頂級期刊上發表期刊論文。此外,在她攻讀博士學位期間,她參與了兩項向美國專利局提出的專利申請。
講座題目
公平意識機器學習:現實挑戰與經驗教訓:Fairness-Aware Machine Learning: Practical Challenges and Lessons Learned
講座簡介
來自不同學科的研究人員和從業人員強調了使用機器學習模型和數據驅動系統所帶來的倫理和法律挑戰,以及由于算法決策系統的偏見,這些系統可能歧視某些群體。本教程概述了過去幾年觀察到的算法偏差/歧視問題,以及在機器學習系統中為實現公平性而吸取的經驗教訓、關鍵法規和法律,以及技術的發展。在為不同的消費者和企業應用開發基于機器學習的模型和系統時,我們將鼓勵采用“按設計公平”的方法(而不是將算法偏差/公平考慮視為事后考慮)。然后,我們將通過展示來自不同技術公司的非專利案例研究,重點關注公平感知機器學習技術在實踐中的應用。最后,根據我們在Facebook、Google、LinkedIn和Microsoft等公司致力于機器學習公平性的經驗,我們將為數據挖掘/機器學習社區提出開放的問題和研究方向。
講座嘉賓
莎拉?伯德(Sarah Bird)領導著人工智能研究與Facebook產品交叉點的戰略項目。她目前的工作集中在人工智能倫理和發展規模負責任人工智能。她還一直致力于開放人工智能系統,是ONNX的共同創造者之一,ONNX是一個用于深度學習模型的開放標準,也是Pythorc1.0項目的領導者。在加入Facebook之前,她曾是微軟紐約研究中心的人工智能系統研究員和微軟數據集團的技術顧問。她是微軟決策服務(Decision Service)背后的研究人員之一,該服務是第一個公開發布的通用強化學習型云系統。她還與人共同創立了微軟人工智能倫理命運研究小組。她擁有加州大學伯克利分校(UC Berkeley)計算機科學博士學位,由戴夫·帕特森(Dave Patterson)、克里斯特·阿薩諾維奇(Krste Asanovic)和伯頓·史密斯(Burton Smith)擔任顧問。Sarah共同組織了多個相關主題的研討會(人工智能、NIPS 2018中的道德、社會和治理問題研討會;NIPS 2018中的機器學習系統研討會;NIPS 2017中的機器學習系統研討會;SOSP 2017中的人工智能系統研討會;NIPS 2016中的機器學習系統研討會),并在2018年伯克利隱私法論壇(Berkeley Privacy Law Forum)上發表了受邀的主題演講(“人工智能與機器學習:Facebook視角”)。
講座題目
現代MDL與數據挖掘的結合--洞察力、理論和實踐:Modern MDL meets Data Mining -- Insights, Theory, and Practice
講座簡介
當考慮一個數據集時,通常不知道它是如何的,因此描述或捕獲其主要特征的模型應該有多復雜。通常,這些選擇會被掩蓋、忽略,交給領域專家處理,但在實踐中,這是非常不令人滿意的;領域專家不知道如何設置$k$,在選擇之前選擇什么,或者有多少自由度比我們做的更理想。 最小描述長度(MDL)原理能夠從清晰直觀的角度回答模型選擇問題。簡而言之,它斷言最好的模型是同時壓縮數據和模型的模型。在本教程中,我們不僅介紹了模型選擇的基本知識,展示了基于MDL的建模的重要特性、成功的例子以及如何應用MDL解決數據挖掘問題的陷阱,還介紹了現代MDL中重要新概念的高級主題(例如,歸一化最大似然(NML)、順序NML、分解NML和MDL變化統計)和動態設置中的新興應用。在本教程中,我們的目標是確保讀者不僅掌握基本理論,而且了解如何將其付諸實踐。
講座嘉賓
Jilles Vreeken ,在赫爾姆霍茲信息安全中心領導探索性數據分析研究小組。此外,是馬克斯·普朗克信息學研究所數據庫和信息系統組(D5)的高級研究員,薩爾蘭大學計算機科學系的教授。研究主要涉及數據挖掘和機器學習。特別是,喜歡開發理論和算法來回答關于數據的探索性問題,例如“我的數據中的因果依賴關系是什么”或“這是我的數據,告訴我需要知道什么”。為了確定什么是有價值的結構,經常采用基于信息論的有根據的統計方法。在此基礎上,可以開發出高效的算法,從大量復雜的數據中提取有用的、有見地的結果。
講座題目
虛假新聞研究:理論、發現策略與開放性問題:Fake News Research: Theories, Detection Strategies, and Open Problems
講座簡介
虛假新聞的爆炸性增長及其對民主、正義和公眾信任的侵蝕,增加了對虛假新聞研究的需求。本教程的目標是 (一)明確介紹虛假新聞的概念和特征,以及如何與其他類似概念如虛假/諷刺新聞、mis-/dis信息等進行形式區分,有助于加深對虛假新聞的認識; (二)對跨學科的基本理論進行全面審查,說明如何利用這些理論進行跨學科的虛假新聞研究,促進計算機與信息科學、政治學、新聞學、社會科學、心理學和經濟學等領域的專家協同努力。這樣的協同工作能夠高效、可解釋地發現虛假新聞; (三)系統地從四個角度(即知識、風格、傳播和可信度)提出虛假新聞檢測策略,以及每一個角度利用數據/圖形挖掘、機器學習、自然語言處理、信息檢索等技術的方法 (四)詳細介紹當前虛假新聞研究中存在的問題,揭示其巨大的潛在研究機會,希望能吸引更廣泛領域的研究人員開展虛假新聞檢測工作,進一步促進其發展。 本教程旨在促進一個公平、健康、安全的網絡信息和新聞傳播生態系統,希望能吸引更多的研究人員、工程師和各種興趣的學生進行虛假新聞研究。
講座嘉賓
Reza Zafarani是錫拉丘茲大學EEC的助理教授。Reza的研究興趣是社交媒體挖掘、數據挖掘、機器學習和社交網絡分析。他的研究重點一直放在應對大規模數據分析的挑戰上,以增強大數據的科學發現過程,特別是在社交媒體中。這些挑戰包括沒有基本事實的評估、快速識別大量數據集中的相關信息、利用有限信息進行學習、大規模用戶行為分析和建模,以及跨多個數據源的信息集成和建模。他的研究成果已在各大學術機構發表,并在多家科學機構得到了強調。雷扎是《社交媒體挖掘:導論》一書的主要作者,該書由劍橋大學出版社和SIGKDD探索與傳播前沿聯合編輯編寫。他是亞利桑那州立大學校長創新獎和優秀教學獎的獲得者。
講座題目
大時間序列預測的理論與實踐:Forecasting Big Time Series: Theory and Practice
講座簡介
時間序列預測是業務流程自動化和優化的一個關鍵組成部分:在零售業,根據對不同地區未來需求的預測來決定要訂購哪些產品以及在哪里存儲這些產品;在云計算中,服務和基礎設施組件的估計未來使用量指導容量規劃;倉庫和工廠的勞動力調度需要對未來的工作量進行預測。近年來,預測技術和應用的范式發生了變化,從基于計算機輔助的模型和假設到數據驅動和全自動化。這種轉變可以歸因于大量、豐富和多樣的時間序列數據源的可用性,并導致一系列需要解決的挑戰,例如:我們如何建立統計模型,以便有效地學習從大量和多樣的數據源進行預測?在觀測有限的情況下,我們如何利用“相似”時間序列的統計能力來改進預測?對于構建能夠處理大量數據的預測系統有什么意義? 本教程的目標是提供解決大規模預測問題的最重要方法和工具的簡明直觀概述。我們回顧了三個相關領域的研究現狀:(1)時間序列的經典建模,(2)包括張量分析和深度學習的現代預測方法。此外,我們還討論了建立大規模預測系統的實際方面,包括數據集成、特征生成、回溯測試框架、誤差跟蹤和分析等。
講座嘉賓
Christos Faloutsos 現任職務于卡內基梅隆大學 (Carnegie Mellon University)電子和計算機工程教授,研究領域:圖和流的數據挖掘,分形、自相似與冪律,視頻、生物和醫學數據庫的索引和數據挖掘,數據庫性能評估(數據放置、工作負載特征)。
簡要介紹: 這本書內容豐富,覆蓋全面,詳細介紹了機器學習的各種技術。本書的目的是提供不同分類方法的最新評論,比較它們在各種具有挑戰性的數據集上的性能,并繪制關于其適用于現實工業問題的結論。在描述內容之前,我們首先需要定義分類的含義,對這項任務的不同觀點給出一些背景知識,并介紹作為本書基礎的EuropeaCommunity StatLog項目。
作者介紹: D. Michie, 奧納德·米奇出生于1923年11月11日。他獲得了牛津大學生物科學研究的碩士、博士和DSc學位。由于對人工智能的貢獻,他被選為美國人工智能協會的創始會員。他對將人類智能編程成機器的興趣,起源于二戰期間他在布萊奇公園(Bletchley Park)加入英國破譯密碼小組(British code breaking group)期間。2007年7月7日,唐納德·米奇教授死于一場車禍。 D.J. Spiegelhalter,劍橋大學統計實驗室公共風險理解溫頓教授,劍橋丘吉爾學院院士。鏡架是一位被ISI高度引用的研究員。他的研究興趣是統計學,包括臨床試驗的貝葉斯方法、專家系統和復雜建模與流行病學、條件獨立的圖形模型、統計軟件、臨床試驗中的一般問題以及公眾對風險的理解。 C.C. Taylor,查爾斯·泰勒是利茲大學統計系的統計學教授。他的研究興趣是統計學習和數據挖掘、空間統計和圖像分析。