臺灣交通大學的Jen-Tzung Chien教授在WSDN 2020會議上通過教程《Deep Bayesian Data Mining》介紹了深度貝葉斯數據挖掘的相關知識,涵蓋了貝葉斯學習、深度序列學習、深度貝葉斯挖掘和學習等內容。
Jen-Tzung Chien教授在WSDM 2020的教程《Deep Bayesian Data Mining》(《深度貝葉斯數據挖掘》)介紹了面向自然語言的深度貝葉斯挖掘和學習,包括了它的基礎知識和進展,以及它無處不在的應用,這些應用包括語音識別、文檔摘要、文本分類、文本分割、信息抽取、圖像描述生成、句子生成、對話控制、情感分類、推薦系統、自動問答和機器翻譯等。
從傳統上,“深度學習”被認為是一個學習過程,過程中的推斷和優化都使用基于實數的判別模型。然而,從大量語料中提取出的詞匯、句子、實體、行為和文檔的“語義結構”在數學邏輯或計算機程序中可能不能很好地被這種方式表達或正確地優化。自然語言的離散或連續潛在變量模型中的“分布函數”可能不能被正確分解或估計。
該教程介紹了統計模型和神經網絡的基礎,并聚焦于一系列先進的貝葉斯模型和深度模型,包括層次狄利克雷過程、中國餐館過程、遞歸神經網絡、長短期記憶網絡、序列到序列模型、變分自編碼器、生成式對抗網絡、策略神經網絡等。教程還介紹了增強的先驗/后驗表示。教程展示了這些模型是如何連接的,以及它們為什么適用于自然語言中面向符號和復雜模式的各種應用程序。
變分推斷和采樣被提出解決解決復雜模型的優化問題。詞和句子的嵌入、聚類和聯合聚類被語言和語義約束合并。針對深度貝葉斯挖掘、搜索、學習和理解中的不同問題,一系列的案例研究、任務和應用被提出。最后,教程指出一些未來研究的方向和展望。教程旨在向初學者介紹深度貝葉斯學習中的主要主題,激發和解釋它對數據挖掘和自然語言理解正在浮現的重要性,并提出一種結合不同的機器學習工作的新的綜合方法。
教程的內容大致如下:
完整教程下載
請關注專知公眾號(點擊上方藍色專知關注) 后臺回復“DBDM20” 就可以獲取完整教程PDF的下載鏈接~
教程部分內容如下所示:
參考鏈接:
//chien.cm.nctu.edu.tw/home/wsdm-tutorial/
-END- 專 · 知
專知,專業可信的人工智能知識分發,讓認知協作更快更好!歡迎注冊登錄專知www.zhuanzhi.ai,獲取更多AI知識資料!
歡迎微信掃一掃加入專知人工智能知識星球群,獲取最新AI專業干貨知識教程視頻資料和與專家交流咨詢!
請加專知小助手微信(掃一掃如下二維碼添加),獲取專知VIP會員碼,加入專知人工智能主題群,咨詢技術商務合作~
點擊“閱讀原文”,了解注冊使用專知
本書通過提供真實的案例研究和示例,為使用Python庫進行機器學習提供了堅實的基礎。它涵蓋了諸如機器學習基礎、Python入門、描述性分析和預測分析等主題。包括高級機器學習概念,如決策樹學習、隨機森林、增強、推薦系統和文本分析。這本書在理論理解和實際應用之間采取了一種平衡的方法。所有的主題都包括真實世界的例子,并提供如何探索、構建、評估和優化機器學習模型的逐步方法。
題目
【教程推薦】中科大劉淇教授-數據挖掘基礎
關鍵字
數據挖掘,統計學習,機器學習
簡介
數據挖掘是人工智能和數據庫領域研究的熱點問題,所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,高度自動化地分析企業的數據,作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。知識發現過程由以下三個階段組成:①數據準備;②數據挖掘;③結果表達和解釋。數據挖掘可以與用戶或知識庫交互。
作者
劉 淇
【導讀】新加坡國立大學的Xiang Wang、Tat-Seng Chua,以及來自中國科學技術大學的Xiangnan He在WSDM 2020會議上通過教程《Learning and Reasoning on Graph for Recommendation》介紹了基于圖學習和推理的推薦系統,涵蓋了基于隨機游走的推薦系統、基于網絡嵌入的推薦系統,基于圖神經網絡的推薦系統等內容。
Tutorial摘要:
推薦方法構建預測模型來估計用戶-項目交互的可能性。之前的模型在很大程度上遵循了一種通用的監督學習范式——將每個交互視為一個單獨的數據實例,并基于“信息孤島”進行預測。但是,這些方法忽略了數據實例之間的關系,這可能導致性能不佳,特別是在稀疏場景中。此外,建立在單獨數據實例上的模型很難展示推薦背后的原因,這使得推薦過程難以理解。
在本教程中,我們將從圖學習的角度重新討論推薦問題。用于推薦的公共數據源可以組織成圖,例如用戶-項目交互(二部圖)、社交網絡、項目知識圖(異構圖)等。這種基于圖的組織將孤立的數據實例連接起來,為開發高階連接帶來了好處,這些連接為協作過濾、基于內容的過濾、社會影響建模和知識感知推理編碼有意義的模式。隨著最近圖形神經網絡(GNNs)的成功,基于圖形的模型顯示了成為下一代推薦系統技術的潛力。本教程對基于圖的推薦學習方法進行了回顧,重點介紹了GNNs的最新發展和先進的推薦知識。通過在教程中介紹這一新興而有前景的領域,我們希望觀眾能夠對空間有更深刻的理解和準確的洞察,激發更多的想法和討論,促進技術的發展。
Tutorial大綱:
講座題目
深層貝葉斯挖掘、學習與理解:Deep Bayesian Mining, Learning and Understanding
講座簡介
本教程介紹了自然語言的深度貝葉斯學習的進展,其應用廣泛,從語音識別到文檔摘要、文本分類、文本分割、信息提取、圖像字幕生成、句子生成、對話控制、情感分類、推薦系統,問答和機器翻譯,舉幾個例子。傳統上,“深度學習”被認為是一種基于實值確定性模型進行推理或優化的學習過程。從大量詞匯中提取的單詞、句子、實體、動作和文檔中的“語義結構”在數學邏輯或計算機程序中可能沒有得到很好的表達或正確的優化。自然語言離散或連續潛變量模型中的“分布函數”可能無法正確分解或估計。本教程介紹了統計模型和神經網絡的基本原理,重點介紹了一系列先進的貝葉斯模型和深層模型,包括分層Dirichlet過程、中餐館過程、分層Pitman-Yor過程、印度自助餐過程、遞歸神經網絡、長時短期記憶,序列到序列模型,變分自動編碼器,生成對抗網絡,注意機制,記憶增強神經網絡,跳躍神經網絡,隨機神經網絡,預測狀態神經網絡,策略神經網絡。我們將介紹這些模型是如何連接的,以及它們為什么在自然語言中的符號和復雜模式的各種應用中起作用。為了解決復雜模型的優化問題,提出了變分推理和抽樣方法。詞和句子的嵌入、聚類和共聚類與語言和語義約束相結合。本文提出了一系列的案例研究,以解決深度貝葉斯挖掘、學習和理解中的不同問題。最后,我們將指出未來研究的一些方向和展望。
講座嘉賓
Jen-Tzung Chien,詹增建于一九九七年獲中華民國新竹國立清華大學電機工程博士學位。現任臺灣新竹國立交通大學電機與電腦工程系及電腦科學系主任教授。2010年,他在紐約約克敦高地IBM T.J.沃森研究中心擔任客座教授。他的研究興趣包括機器學習、深度學習、自然語言處理和計算機視覺。
主題: An Overview of the International Planning Competition
摘要: 本教程介紹了自然語言的深度貝葉斯和序列學習的進展,其應用廣泛,從語音識別到文檔摘要、文本分類、文本分割、信息提取、圖片標題生成、句子生成、對話控制、情感分類,推薦系統,問答和機器翻譯。傳統上,“深度學習”被認為是一種基于實值確定性模型進行推理或優化的學習過程。從大量詞匯中提取的單詞、句子、實體、動作和文檔中的“語義結構”在數學邏輯或計算機程序中可能沒有得到很好的表達或正確的優化。自然語言離散或連續潛變量模型中的“分布函數”在模型推理中可能無法正確分解或估計。本教程介紹了統計模型和神經網絡的基本原理,重點介紹了一系列先進的貝葉斯模型和深層模型,包括分層Dirichlet過程、Chinese restaurant 過程、分層Pitman-Yor過程、Indian buffet過程、遞歸神經網絡、長時短期記憶,序列到序列模型,變分自動編碼,生成對抗網絡,注意機制,記憶增強神經網絡,隨機神經網絡,預測狀態神經網絡,策略梯度和強化學習。我們將介紹這些模型是如何連接的,以及它們為什么在自然語言中的符號和復雜模式的各種應用中起作用。為了解決復雜模型的優化問題,提出了變分推理和抽樣方法。詞和句子的嵌入、聚類和共聚類與語言和語義約束相結合。本文提出了一系列的個案研究,以解決深度貝葉斯學習與理解中的不同問題。最后,我們將指出未來研究的一些方向和展望。
邀請嘉賓: Jen-Tzung Chien在臺灣新竹國立清華大學取得電機工程博士學位。現任職于臺灣新竹國立交通大學電子及電腦工程學系及電腦科學系講座教授。2010年,他擔任IBM沃森研究中心的客座教授。他的研究興趣包括機器學習、深度學習、自然語言處理和計算機視覺。在2011年獲得了IEEE自動語音識別和理解研討會的最佳論文獎,并在2018年獲得了AAPM Farrington Daniels獎。2015年,劍橋大學出版社出版《貝葉斯語音與語言處理》;2018年,學術出版社出版《源分離與機器學習》。他目前是IEEE信號處理技術委員會機器學習的當選成員。
教程題目:Deep Bayesian Natural Language Processing
教程簡介:
這個教學講座將會介紹用于自然語言處理的深度貝葉斯學習的發展,以及它在語音識別、文本總結、文本分類、文本分割、信息提取、圖像描述生成、句子生成、對話控制、情感分類、推薦系統、問答、機器翻譯等等許多任務中的廣泛應用。傳統上,“深度學習”被認為是一個基于實值確定性模型進行推理或優化的學習過程。從大量詞匯中提取的詞匯、句子、實體、動作和文檔的“語義結構”在數學邏輯或計算機程序中可能不能很好地表達或正確地優化。自然語言的離散或連續潛在變量模型中的“分布函數”可能沒有被正確分解或估計。
本教程介紹了統計模型和神經網絡的基礎知識,并將重點講解一系列高級的貝葉斯模型以及深度模型。這些模型之間的聯系、能在自然語言的許多符號化表示和復雜模式中發揮作用的原因也會得到介紹。我們將介紹這些模型是如何連接的,以及它們為什么適用于自然語言中符號和復雜模式的各種應用程序。
為解決復雜模型的優化問題,提出了變分推理和抽樣方法。詞和句子的嵌入、聚類和共聚被語言和語義約束合并。提出了一系列的案例研究來解決深度貝葉斯學習和理解中的不同問題。最后,指出了一些未來研究的方向和展望。
組織者:
Jen-Tzung Chien在臺灣新竹國立清華大學取得電機工程博士學位。現任職于臺灣新竹國立交通大學電子及電腦工程學系及電腦科學系講座教授。2010年,他擔任IBM沃森研究中心的客座教授。他的研究興趣包括機器學習、深度學習、自然語言處理和計算機視覺。在2011年獲得了IEEE自動語音識別和理解研討會的最佳論文獎,并在2018年獲得了AAPM Farrington Daniels獎。2015年,劍橋大學出版社出版《貝葉斯語音與語言處理》;2018年,學術出版社出版《源分離與機器學習》。他目前是IEEE信號處理技術委員會機器學習的當選成員。