現實世界的大數據以自然語言文本的形式,在很大程度上是非結構化的、相互關聯的、動態的。將如此龐大的非結構化數據轉換為結構化知識是非常必要的。許多研究人員依賴于勞動密集型的標記和管理來從這些數據中提取知識,這可能是不可擴展的,特別是考慮到許多文本語料庫是高度動態的和特定于域的。我們認為,大量的文本數據本身可能揭示了大量隱藏的模式、結構和知識。基于領域無關和領域相關的知識庫,我們探索海量數據本身將非結構化數據轉化為結構化知識的能力。通過將大量的文本文檔組織成多維文本數據集,可以有效地提取和使用結構化的知識。在這次演講中,我們介紹了一組最近開發的用于這種探索的方法,包括挖掘質量短語、實體識別和鍵入、多面分類構造以及多維文本立方體的構造和探索。結果表明,數據驅動方法是將海量文本數據轉化為結構化知識的一個有前途的方向。
主題分類法的自動構建可以使許多應用程序受益,包括web搜索、推薦和知識發現。自動分類構建的主要優點之一是能夠捕獲特定于語料庫的信息并適應不同的場景。為了更好地反映語料庫的特點,我們考慮了文檔的元數據,將語料庫看作是一個文本豐富的網絡。在本文中,我們提出了NetTaxo,這是一個新的自動主題分類構建框架,它超越了現有的范式,允許文本數據與網絡結構協作。具體來說,我們從文本和網絡作為上下文學習術語嵌入。采用網絡圖形來捕獲適當的網絡上下文。我們對motifs進行實例級選擇,該選擇根據每個分類節點的粒度和語義進一步細化術語嵌入。然后應用集群來獲得分類法節點下的子主題。在兩個真實數據集上的大量實驗證明了我們的方法優于最先進的,并進一步驗證了實例級基序選擇的有效性和重要性。
講座題目
從海量文本中構建和挖掘異構信息網絡:Constructing and Mining Heterogeneous Information Networks from Massive Text
講座簡介
真實世界的數據主要以非結構化文本的形式存在。數據挖掘研究的一個重大挑戰是開發有效且可伸縮的方法,將非結構化文本轉換為結構化知識。根據我們的設想,將這些文本轉換成結構化的異構信息網絡是非常有益的,在這種網絡上,可以根據用戶的需要生成可操作的知識。在本教程中,我們將全面概述最近在這方面的研究和發展。首先,我們介紹了一系列有效的方法,從海量的、特定于領域的文本語料庫中構建異構信息網絡。然后討論了基于用戶需求挖掘文本豐富網絡的方法。具體來說,我們關注的是可伸縮的、有效的、弱監督的、與語言無關的方法,這些方法可以處理各種文本。在真實的數據集(包括新聞文章、科學出版物和產品評論)上,我們進一步展示了如何構建信息網絡,以及如何幫助進一步的探索性分析。
講座嘉賓
Jingbo Shang(尚景波),伊利諾伊大學香檳分校計算機科學系博士生。他的研究重點是用最少的人力從大量文本語料庫中挖掘和構建結構化知識。他的研究獲得了多項著名獎項的認可,包括Yelp數據集挑戰大獎(2015)、谷歌結構化數據和數據庫管理博士研究金(2017-2019)。尚先生在大型會議(SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18)上提供教程方面有豐富的經驗。
題目: TextCube: Automated Construction and Multidimensional Exploration
簡介: 當今社會沉浸在大量文本數據中,從新聞文章到社交媒體,研究文獻,病歷和公司報告。數據科學和工程學的一大挑戰是開發有效且可擴展的方法,以從海量文本數據中提取結構和知識,以滿足各種應用的需要,而無需廣泛的人工注釋。在本教程中,我們將展示TextCube提供了一種可以滿足此類信息需求的關鍵信息組織結構。我們概述了一組最近開發的數據驅動方法,這些方法可幫助從大規模的特定于領域的文本語料庫自動構建TextCube,并表明如此構建的TextCube將增強各種應用程序的文本探索和分析。我們專注于可擴展,弱監督,獨立于域,與語言無關且有效的新TextCube構建方法(即從各種領域的大型語料庫生成高質量的TextCube)。我們將用真實的數據集演示如何構造TextCube來協助對大量文本語料庫進行多維分析。
嘉賓介紹: 韓家煒,美國伊利諾伊大學香檳分校計算機系教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報并任主編。在數據挖掘、數據庫和信息網絡領域發表論文600余篇。 韓家煒主頁://hanj.cs.illinois.edu/
Jingbo Shang, 伊利諾伊州香檳分校博士。 他的研究專注于以最少的人力從大量文本語料庫中挖掘和構建結構化知識。 他的研究獲得了多個著名獎項的認可,包括Yelp數據集挑戰賽的大獎(2015年),Google博士在結構化數據和數據庫管理領域的獎學金(2017-2019年)。