題目
【教程推薦】中科大劉淇教授-數據挖掘基礎
關鍵字
數據挖掘,統計學習,機器學習
簡介
數據挖掘是人工智能和數據庫領域研究的熱點問題,所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,高度自動化地分析企業的數據,作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。知識發現過程由以下三個階段組成:①數據準備;②數據挖掘;③結果表達和解釋。數據挖掘可以與用戶或知識庫交互。
作者
劉 淇
使用Microsoft Excel中流行的數據挖掘技術,更好地理解機器學習方法。
軟件工具和編程語言包接受數據輸入并直接交付數據挖掘結果,對工作機制沒有任何見解,并在輸入和輸出之間造成了鴻溝。這就是Excel可以提供幫助的地方。
Excel允許您以透明的方式處理數據。當您打開一個Excel文件時,數據立即可見,您可以直接使用它。在執行挖掘任務時,可以檢查中間結果,從而更深入地理解如何操作數據和獲得結果。這些是隱藏在軟件工具和編程語言包中的模型構建過程的關鍵方面。
這本書教你通過Excel進行數據挖掘。您將了解當數據集不是很大時Excel在數據挖掘方面的優勢。它可以為您提供數據挖掘的可視化表示,在結果中建立信心。您將手動完成每一個步驟,這不僅提供了一個主動學習體驗,而且還告訴您挖掘過程是如何工作的,以及如何發現數據內部隱藏的模式。
你將學到什么
這本書是給誰的
臺灣交通大學的Jen-Tzung Chien教授在WSDN 2020會議上通過教程《Deep Bayesian Data Mining》介紹了深度貝葉斯數據挖掘的相關知識,涵蓋了貝葉斯學習、深度序列學習、深度貝葉斯挖掘和學習等內容。
Jen-Tzung Chien教授在WSDM 2020的教程《Deep Bayesian Data Mining》(《深度貝葉斯數據挖掘》)介紹了面向自然語言的深度貝葉斯挖掘和學習,包括了它的基礎知識和進展,以及它無處不在的應用,這些應用包括語音識別、文檔摘要、文本分類、文本分割、信息抽取、圖像描述生成、句子生成、對話控制、情感分類、推薦系統、自動問答和機器翻譯等。
從傳統上,“深度學習”被認為是一個學習過程,過程中的推斷和優化都使用基于實數的判別模型。然而,從大量語料中提取出的詞匯、句子、實體、行為和文檔的“語義結構”在數學邏輯或計算機程序中可能不能很好地被這種方式表達或正確地優化。自然語言的離散或連續潛在變量模型中的“分布函數”可能不能被正確分解或估計。
該教程介紹了統計模型和神經網絡的基礎,并聚焦于一系列先進的貝葉斯模型和深度模型,包括層次狄利克雷過程、中國餐館過程、遞歸神經網絡、長短期記憶網絡、序列到序列模型、變分自編碼器、生成式對抗網絡、策略神經網絡等。教程還介紹了增強的先驗/后驗表示。教程展示了這些模型是如何連接的,以及它們為什么適用于自然語言中面向符號和復雜模式的各種應用程序。
變分推斷和采樣被提出解決解決復雜模型的優化問題。詞和句子的嵌入、聚類和聯合聚類被語言和語義約束合并。針對深度貝葉斯挖掘、搜索、學習和理解中的不同問題,一系列的案例研究、任務和應用被提出。最后,教程指出一些未來研究的方向和展望。教程旨在向初學者介紹深度貝葉斯學習中的主要主題,激發和解釋它對數據挖掘和自然語言理解正在浮現的重要性,并提出一種結合不同的機器學習工作的新的綜合方法。
教程的內容大致如下:
完整教程下載
請關注專知公眾號(點擊上方藍色專知關注) 后臺回復“DBDM20” 就可以獲取完整教程PDF的下載鏈接~
教程部分內容如下所示:
參考鏈接:
//chien.cm.nctu.edu.tw/home/wsdm-tutorial/
-END- 專 · 知
專知,專業可信的人工智能知識分發,讓認知協作更快更好!歡迎注冊登錄專知www.zhuanzhi.ai,獲取更多AI知識資料!
歡迎微信掃一掃加入專知人工智能知識星球群,獲取最新AI專業干貨知識教程視頻資料和與專家交流咨詢!
請加專知小助手微信(掃一掃如下二維碼添加),獲取專知VIP會員碼,加入專知人工智能主題群,咨詢技術商務合作~
點擊“閱讀原文”,了解注冊使用專知
講座題目
現代MDL與數據挖掘的結合--洞察力、理論和實踐:Modern MDL meets Data Mining -- Insights, Theory, and Practice
講座簡介
當考慮一個數據集時,通常不知道它是如何的,因此描述或捕獲其主要特征的模型應該有多復雜。通常,這些選擇會被掩蓋、忽略,交給領域專家處理,但在實踐中,這是非常不令人滿意的;領域專家不知道如何設置$k$,在選擇之前選擇什么,或者有多少自由度比我們做的更理想。 最小描述長度(MDL)原理能夠從清晰直觀的角度回答模型選擇問題。簡而言之,它斷言最好的模型是同時壓縮數據和模型的模型。在本教程中,我們不僅介紹了模型選擇的基本知識,展示了基于MDL的建模的重要特性、成功的例子以及如何應用MDL解決數據挖掘問題的陷阱,還介紹了現代MDL中重要新概念的高級主題(例如,歸一化最大似然(NML)、順序NML、分解NML和MDL變化統計)和動態設置中的新興應用。在本教程中,我們的目標是確保讀者不僅掌握基本理論,而且了解如何將其付諸實踐。
講座嘉賓
Jilles Vreeken ,在赫爾姆霍茲信息安全中心領導探索性數據分析研究小組。此外,是馬克斯·普朗克信息學研究所數據庫和信息系統組(D5)的高級研究員,薩爾蘭大學計算機科學系的教授。研究主要涉及數據挖掘和機器學習。特別是,喜歡開發理論和算法來回答關于數據的探索性問題,例如“我的數據中的因果依賴關系是什么”或“這是我的數據,告訴我需要知道什么”。為了確定什么是有價值的結構,經常采用基于信息論的有根據的統計方法。在此基礎上,可以開發出高效的算法,從大量復雜的數據中提取有用的、有見地的結果。
講座題目
假設檢驗與統計聲音模式挖掘:Hypothesis Testing and Statistically-sound Pattern Mining
講座簡介
大量數據集的可用性突出表明,需要計算效率高、統計上可靠的方法來提取模式,同時對結果的質量提供嚴格的保證,特別是在錯誤發現方面。在本教程中,我們將介紹最近的一些方法,這些方法適當地結合了計算和統計方面的考慮,以便有效地從大型數據集中挖掘統計上可靠的模式。我們首先介紹統計假設檢驗中的基本概念,數據挖掘社區中的每個人可能都不熟悉這些概念。然后,我們將解釋如何以不同的方式處理模式挖掘中的計算和統計挑戰。最后,我們描述了這些方法在市場籃分析、子圖挖掘、社會網絡分析和癌癥基因組學等領域的應用。本教程的目的是向觀眾介紹統計假設測試,強調正確平衡模式挖掘的計算和統計方面的重要性,強調這樣做對數據挖掘研究人員的有用性,并鼓勵在這方面的進一步研究。
講座嘉賓
Leonardo Pellegrina是帕多瓦大學信息工程系信息工程專業的博士生,由法比奧·范丁教授和布朗大學客座研究員指導。他的研究活動集中在高效和統計上合理的算法,用于從大數據中發現模式,并應用到計算生物學。
題目: 面向智慧教育的學生認知建模與學習路徑推薦
摘要: 如何自動建模和跟蹤學生知識點掌握水平,是提升智慧教育中自適應學習能力的一個重要基礎。報告將介紹從大規模異構學習數據中對學生進行認知診斷和知識跟蹤的機器學習模型,以及基于學習者認知結構的自適應學習路徑推薦方法。
個人簡介: 陳恩紅,中國科技大學教授,博導,國家杰出青年基金獲得者,IEEE 高級會員(Senior Member)。2005年入選教育部新世紀優秀人才支持計劃。現任中國科學技術大學計算機科學與技術學院副院長,語音及語言信息處理國家工程實驗室副主任。教育部計算機類專業教學指導委員會委員,中國計算機學會理事、中國人工智能學會理事,中國計算機學會人工智能與模式識別專委會委員、數據庫專委會委員、大數據專家委員會委員,中國人工智能學會知識工程與分布智能專業委員會副主任委員、機器學習專委會委員。
圖(Graph)是一種重要的數據結構,它由節點V(或稱為頂點,即個體),與邊E(即個體之間的聯系)構成。圖數據的典型例子有網頁鏈接關系、社交網絡、商品推薦等。由于圖的巨大表現能力,在圖上的研究,近年來備受矚目。清華大學的唐杰老師,近日在自己的個人主頁上更新了關于圖表示學習方面的PPT,闡述了他在圖表示學習領域方面的工作進展。
作者簡介:
唐杰,清華大學計算機科學與技術系教授。2006年在清華大學計算機科學與技術系獲得博士學位。研究興趣包括人工智能、數據挖掘、社交網絡、機器學習和知識圖譜,重點是設計挖掘社交和知識網絡的新算法。發表學術論文200余篇,擁有專利20項。曾任CIKM ' 16的PC聯合主席,WSDM ' 15, KDD ' 18的副主席,ACM TKDD的代理主編,IEEE TKDE、IEEE TBD和ACM TIST的編輯。我是AMiner.org學術社交網絡分析與挖掘項目的負責人,該項目已經吸引了來自世界220個國家和地區的1000多萬個獨立IP訪問。