講座題目
從海量文本中構建和挖掘異構信息網絡:Constructing and Mining Heterogeneous Information Networks from Massive Text
講座簡介
真實世界的數據主要以非結構化文本的形式存在。數據挖掘研究的一個重大挑戰是開發有效且可伸縮的方法,將非結構化文本轉換為結構化知識。根據我們的設想,將這些文本轉換成結構化的異構信息網絡是非常有益的,在這種網絡上,可以根據用戶的需要生成可操作的知識。在本教程中,我們將全面概述最近在這方面的研究和發展。首先,我們介紹了一系列有效的方法,從海量的、特定于領域的文本語料庫中構建異構信息網絡。然后討論了基于用戶需求挖掘文本豐富網絡的方法。具體來說,我們關注的是可伸縮的、有效的、弱監督的、與語言無關的方法,這些方法可以處理各種文本。在真實的數據集(包括新聞文章、科學出版物和產品評論)上,我們進一步展示了如何構建信息網絡,以及如何幫助進一步的探索性分析。
講座嘉賓
Jingbo Shang(尚景波),伊利諾伊大學香檳分校計算機科學系博士生。他的研究重點是用最少的人力從大量文本語料庫中挖掘和構建結構化知識。他的研究獲得了多項著名獎項的認可,包括Yelp數據集挑戰大獎(2015)、谷歌結構化數據和數據庫管理博士研究金(2017-2019)。尚先生在大型會議(SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18)上提供教程方面有豐富的經驗。
** 簡介:**
推薦方法構造了預測模型,以估計用戶與項目交互的可能性。先前的模型在很大程度上遵循一般的監督學習范式-將每個交互視為一個單獨的數據實例,并基于“信息孤島”進行預測。但是,此類方法忽略了數據實例之間的關系,這可能導致性能欠佳,尤其是對于稀疏場景。此外,建立在單獨數據實例上的模型幾乎無法顯示出推薦背后的原因,從而使過程難以理解。
在本教程中,我們將從圖學習的角度重新審視推薦問題。可以將用于推薦的通用數據源組織成圖形,例如用戶-項目交互(二分圖),社交網絡,項目知識圖(異構圖)等。這種基于圖的組織將孤立的數據實例連接起來,從而為利用高階連通性帶來了好處,這些高階連通性對有意義的模式進行了編碼,以進行協作過濾,基于內容的過濾,社會影響力建模和知識感知推理。結合圖神經網絡(GNN)的最新成功,基于圖的模型已展現出成為下一代推薦系統技術的潛力。本教程對基于圖的學??習方法進行了回顧,以提出建議,特別關注GNN的最新發展和知識圖譜增強的建議。通過在本教程中介紹這個新興而有前途的領域,我們希望觀眾可以對空間有深入的了解和準確的見解,激發更多的想法和討論,并促進技術的發展。
目錄:
作者簡介:
王翔是新加坡國立大學(NUS)計算機學院的研究員。 他獲得了博士學位。 他于2019年獲得國大計算機科學博士學位。他的研究興趣包括推薦系統,信息檢索和數據挖掘。 在SIGIR,KDD,WWW和AAAI等頂級會議上,他擁有20多種出版物,包括TOIS和TKDE等期刊。 他曾擔任CCIS 2019的本地主席,包括SIGIR,CIKM和MM在內的頂級會議的PC成員以及TKDE和TOIS等著名期刊的定期審稿人。
現實世界的大數據以自然語言文本的形式,在很大程度上是非結構化的、相互關聯的、動態的。將如此龐大的非結構化數據轉換為結構化知識是非常必要的。許多研究人員依賴于勞動密集型的標記和管理來從這些數據中提取知識,這可能是不可擴展的,特別是考慮到許多文本語料庫是高度動態的和特定于域的。我們認為,大量的文本數據本身可能揭示了大量隱藏的模式、結構和知識。基于領域無關和領域相關的知識庫,我們探索海量數據本身將非結構化數據轉化為結構化知識的能力。通過將大量的文本文檔組織成多維文本數據集,可以有效地提取和使用結構化的知識。在這次演講中,我們介紹了一組最近開發的用于這種探索的方法,包括挖掘質量短語、實體識別和鍵入、多面分類構造以及多維文本立方體的構造和探索。結果表明,數據驅動方法是將海量文本數據轉化為結構化知識的一個有前途的方向。
講座題目
現代MDL與數據挖掘的結合--洞察力、理論和實踐:Modern MDL meets Data Mining -- Insights, Theory, and Practice
講座簡介
當考慮一個數據集時,通常不知道它是如何的,因此描述或捕獲其主要特征的模型應該有多復雜。通常,這些選擇會被掩蓋、忽略,交給領域專家處理,但在實踐中,這是非常不令人滿意的;領域專家不知道如何設置$k$,在選擇之前選擇什么,或者有多少自由度比我們做的更理想。 最小描述長度(MDL)原理能夠從清晰直觀的角度回答模型選擇問題。簡而言之,它斷言最好的模型是同時壓縮數據和模型的模型。在本教程中,我們不僅介紹了模型選擇的基本知識,展示了基于MDL的建模的重要特性、成功的例子以及如何應用MDL解決數據挖掘問題的陷阱,還介紹了現代MDL中重要新概念的高級主題(例如,歸一化最大似然(NML)、順序NML、分解NML和MDL變化統計)和動態設置中的新興應用。在本教程中,我們的目標是確保讀者不僅掌握基本理論,而且了解如何將其付諸實踐。
講座嘉賓
Jilles Vreeken ,在赫爾姆霍茲信息安全中心領導探索性數據分析研究小組。此外,是馬克斯·普朗克信息學研究所數據庫和信息系統組(D5)的高級研究員,薩爾蘭大學計算機科學系的教授。研究主要涉及數據挖掘和機器學習。特別是,喜歡開發理論和算法來回答關于數據的探索性問題,例如“我的數據中的因果依賴關系是什么”或“這是我的數據,告訴我需要知道什么”。為了確定什么是有價值的結構,經常采用基于信息論的有根據的統計方法。在此基礎上,可以開發出高效的算法,從大量復雜的數據中提取有用的、有見地的結果。
講座題目
虛假新聞研究:理論、發現策略與開放性問題:Fake News Research: Theories, Detection Strategies, and Open Problems
講座簡介
虛假新聞的爆炸性增長及其對民主、正義和公眾信任的侵蝕,增加了對虛假新聞研究的需求。本教程的目標是 (一)明確介紹虛假新聞的概念和特征,以及如何與其他類似概念如虛假/諷刺新聞、mis-/dis信息等進行形式區分,有助于加深對虛假新聞的認識; (二)對跨學科的基本理論進行全面審查,說明如何利用這些理論進行跨學科的虛假新聞研究,促進計算機與信息科學、政治學、新聞學、社會科學、心理學和經濟學等領域的專家協同努力。這樣的協同工作能夠高效、可解釋地發現虛假新聞; (三)系統地從四個角度(即知識、風格、傳播和可信度)提出虛假新聞檢測策略,以及每一個角度利用數據/圖形挖掘、機器學習、自然語言處理、信息檢索等技術的方法 (四)詳細介紹當前虛假新聞研究中存在的問題,揭示其巨大的潛在研究機會,希望能吸引更廣泛領域的研究人員開展虛假新聞檢測工作,進一步促進其發展。 本教程旨在促進一個公平、健康、安全的網絡信息和新聞傳播生態系統,希望能吸引更多的研究人員、工程師和各種興趣的學生進行虛假新聞研究。
講座嘉賓
Reza Zafarani是錫拉丘茲大學EEC的助理教授。Reza的研究興趣是社交媒體挖掘、數據挖掘、機器學習和社交網絡分析。他的研究重點一直放在應對大規模數據分析的挑戰上,以增強大數據的科學發現過程,特別是在社交媒體中。這些挑戰包括沒有基本事實的評估、快速識別大量數據集中的相關信息、利用有限信息進行學習、大規模用戶行為分析和建模,以及跨多個數據源的信息集成和建模。他的研究成果已在各大學術機構發表,并在多家科學機構得到了強調。雷扎是《社交媒體挖掘:導論》一書的主要作者,該書由劍橋大學出版社和SIGKDD探索與傳播前沿聯合編輯編寫。他是亞利桑那州立大學校長創新獎和優秀教學獎的獲得者。
主題: Storytelling from Structured Data and Knowledge Graphs : An NLG Perspective
摘要: 在本教程中,我們討論將結構化數據(如表格形式的數據)和知識庫(如知識圖譜)翻譯成自然語言論述的基礎、方法和系統開發方面。本教程涵蓋自然語言生成(NLG)的挑戰和方法,主要關注(結構化)數據到文本的范式。我們的與會者將能夠了解以下內容:(1)關于如何應用現代自然語言處理和自然語言處理技術來描述和總結非語言性質或具有某種結構的文本數據的基本觀點和趨勢,以及(2)一些有趣的開放式問題,這將為今后的研究做出重大貢獻。我們將概述各種方法,從數據表示技術到適用于數據的領域解決方案,再到文本問題設置。從傳統的基于規則/啟發式驅動、現代的數據驅動和超現代的深層神經風格體系結構出發,討論了各種解決方案,并簡要討論了評價和質量評估。 由于大規模的領域獨立標記(并行)數據很少用于數據到文本的問題,本教程的很大一部分將致力于無監督、可伸縮和領域適應性的方法。
邀請嘉賓:
Abhijit Mishra,目前是印度班加羅爾IBM Research的一員,擔任人工智能技術系的研究科學家。在加入IBM Research之前,他是孟買IIT計算機科學與工程系(CSE)的博士學者,在Pushpak Bhattacharyya教授的指導下工作。
Anirban Laha,他目前是亞倫·庫爾維爾教授建議的蒙特勒大學(MILA)一年級博士生。他的興趣在于機器學習/深度學習在自然語言處理中的應用。此前,他在IBM Research的自然語言生成(NLG)項目中工作了三年,并在頂級會議和期刊上發表過論文,如NeurIPS、ACL、NAACL-HLT和計算語言學。在IBM,他還為IBM項目辯論會做出了貢獻,該會最近在全球范圍內獲得了廣泛的新聞報道,因為一場現場機器與人類的辯論(更多新聞)。在加入IBM之前,他曾在微軟必應廣告公司(2013-2015)擔任應用科學家,在亞馬遜網站(2010-2011)擔任SDE。
主題:From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction
摘要:從序列標記到關系抽取,再到知識推理,深度神經網絡模型在知識抽取任務中取得了最先進的性能。然而,這些渴求數據的模型嚴重依賴于人工標記的訓練數據,并且經常作為黑箱組件運行,減慢了下游應用程序的開發。在這次演講中,我將介紹我們最近在將結構化先驗知識應用到深度神經網絡模型中進行知識抽取方面的進展,這兩個模型都是在輸入數據級別(即,以及在模型架構級別(即,對模型進行編程)。特別地,我將討論如何在命名實體識別中合并域字典,以及如何在關系提取中建立語義規則,作為輸入級結構化先驗知識的示例。對于模型編程,我將提出一個基于圖神經網絡的框架,用于在涉及常識推理的自然語言推理中捕獲多關系結構化先驗知識作為模型架構的一部分。這些解決方案共同構成了從數據到使用結構化先驗知識進行模型編程的路線圖。
嘉賓簡介:任翔,美國南加州大學計算機科學系助理教授,獲美國南加州大學ISI聘任。他也是智能和知識發現(INK)研究實驗室的主任,ACM SIGKDD和數據挖掘(SIGKDD)的信息主任,以及USC機器學習中心的成員。之前,他是斯坦福大學的研究學者,并在伊利諾伊大學香檳分校獲得了計算機科學博士學位。Ren博士的研究重點是開發標簽高效的計算方法,從自然語言數據中提取機器可操作的知識(例如,組合、圖形結構表示),并對知識結構進行神經推理。他的研究導致一本書和50多個出版物,覆蓋著超過會議教程(KDD、WWW NAACL),并獲得了獎項包括谷歌AI教師獎,摩根大通AI研究獎,亞馬遜研究獎,ACM SIGKDD論文獎(2018),WWW最佳海報亞軍(2018),大衛·j·Kuck優秀論文獎(2017),谷歌博士獎學金(2016),和Yelp數據集挑戰獎(2015)。他是福布斯亞洲30位30歲以下富豪之一。
題目: TextCube: Automated Construction and Multidimensional Exploration
簡介: 當今社會沉浸在大量文本數據中,從新聞文章到社交媒體,研究文獻,病歷和公司報告。數據科學和工程學的一大挑戰是開發有效且可擴展的方法,以從海量文本數據中提取結構和知識,以滿足各種應用的需要,而無需廣泛的人工注釋。在本教程中,我們將展示TextCube提供了一種可以滿足此類信息需求的關鍵信息組織結構。我們概述了一組最近開發的數據驅動方法,這些方法可幫助從大規模的特定于領域的文本語料庫自動構建TextCube,并表明如此構建的TextCube將增強各種應用程序的文本探索和分析。我們專注于可擴展,弱監督,獨立于域,與語言無關且有效的新TextCube構建方法(即從各種領域的大型語料庫生成高質量的TextCube)。我們將用真實的數據集演示如何構造TextCube來協助對大量文本語料庫進行多維分析。
嘉賓介紹: 韓家煒,美國伊利諾伊大學香檳分校計算機系教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報并任主編。在數據挖掘、數據庫和信息網絡領域發表論文600余篇。 韓家煒主頁://hanj.cs.illinois.edu/
Jingbo Shang, 伊利諾伊州香檳分校博士。 他的研究專注于以最少的人力從大量文本語料庫中挖掘和構建結構化知識。 他的研究獲得了多個著名獎項的認可,包括Yelp數據集挑戰賽的大獎(2015年),Google博士在結構化數據和數據庫管理領域的獎學金(2017-2019年)。