清纯唯美另类亚洲欧美综合-99久久久无码国产精品69

題目： TextCube: Automated Construction and Multidimensional Exploration

簡介： 當今社會沉浸在大量文本數據中，從新聞文章到社交媒體，研究文獻，病歷和公司報告。數據科學和工程學的一大挑戰是開發有效且可擴展的方法，以從海量文本數據中提取結構和知識，以滿足各種應用的需要，而無需廣泛的人工注釋。在本教程中，我們將展示TextCube提供了一種可以滿足此類信息需求的關鍵信息組織結構。我們概述了一組最近開發的數據驅動方法，這些方法可幫助從大規模的特定于領域的文本語料庫自動構建TextCube，并表明如此構建的TextCube將增強各種應用程序的文本探索和分析。我們專注于可擴展，弱監督，獨立于域，與語言無關且有效的新TextCube構建方法（即從各種領域的大型語料庫生成高質量的TextCube）。我們將用真實的數據集演示如何構造TextCube來協助對大量文本語料庫進行多維分析。

嘉賓介紹： 韓家煒，美國伊利諾伊大學香檳分校計算機系教授，IEEE和ACM院士，美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席，創辦了ACM TKDD學報并任主編。在數據挖掘、數據庫和信息網絡領域發表論文600余篇。韓家煒主頁：//hanj.cs.illinois.edu/

Jingbo Shang，伊利諾伊州香檳分校博士。他的研究專注于以最少的人力從大量文本語料庫中挖掘和構建結構化知識。他的研究獲得了多個著名獎項的認可，包括Yelp數據集挑戰賽的大獎（2015年），Google博士在結構化數據和數據庫管理領域的獎學金（2017-2019年）。

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

Taxonomy · 主題分類法 · WWW2020 ·

2020 年 3 月 22 日

[付費5元查看完整內容]【WWW2020-UIUC】自動主題分類法構建，Automated Topic Taxonomy Construction

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

主題分類法的自動構建可以使許多應用程序受益，包括web搜索、推薦和知識發現。自動分類構建的主要優點之一是能夠捕獲特定于語料庫的信息并適應不同的場景。為了更好地反映語料庫的特點，我們考慮了文檔的元數據，將語料庫看作是一個文本豐富的網絡。在本文中，我們提出了NetTaxo，這是一個新的自動主題分類構建框架，它超越了現有的范式，允許文本數據與網絡結構協作。具體來說，我們從文本和網絡作為上下文學習術語嵌入。采用網絡圖形來捕獲適當的網絡上下文。我們對motifs進行實例級選擇，該選擇根據每個分類節點的粒度和語義進一步細化術語嵌入。然后應用集群來獲得分類法節點下的子主題。在兩個真實數據集上的大量實驗證明了我們的方法優于最先進的，并進一步驗證了實例級基序選擇的有效性和重要性。

付費5元查看完整內容

韓家煒 · 數據挖掘 ·

2019 年 12 月 28 日

[付費5元查看完整內容]數據挖掘大拿韓家煒：從非結構化文本到知識立方TextCube：自動化構建和多維探索

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現實世界的大數據以自然語言文本的形式，在很大程度上是非結構化的、相互關聯的、動態的。將如此龐大的非結構化數據轉換為結構化知識是非常必要的。許多研究人員依賴于勞動密集型的標記和管理來從這些數據中提取知識，這可能是不可擴展的，特別是考慮到許多文本語料庫是高度動態的和特定于域的。我們認為，大量的文本數據本身可能揭示了大量隱藏的模式、結構和知識。基于領域無關和領域相關的知識庫，我們探索海量數據本身將非結構化數據轉化為結構化知識的能力。通過將大量的文本文檔組織成多維文本數據集，可以有效地提取和使用結構化的知識。在這次演講中，我們介紹了一組最近開發的用于這種探索的方法，包括挖掘質量短語、實體識別和鍵入、多面分類構造以及多維文本立方體的構造和探索。結果表明，數據驅動方法是將海量文本數據轉化為結構化知識的一個有前途的方向。

付費5元查看完整內容

數據挖掘 · 異構信息網絡 · 文本分析 · 機器學習 · 自然語言處理 ·

2019 年 12 月 11 日

[付費5元查看完整內容]【KDD2019|講座推薦】從海量文本中構建和挖掘異構信息網絡：Constructing and Mining Heterogeneous Information Networks from Massive Text

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

講座題目

從海量文本中構建和挖掘異構信息網絡：Constructing and Mining Heterogeneous Information Networks from Massive Text

講座簡介

真實世界的數據主要以非結構化文本的形式存在。數據挖掘研究的一個重大挑戰是開發有效且可伸縮的方法，將非結構化文本轉換為結構化知識。根據我們的設想，將這些文本轉換成結構化的異構信息網絡是非常有益的，在這種網絡上，可以根據用戶的需要生成可操作的知識。在本教程中，我們將全面概述最近在這方面的研究和發展。首先，我們介紹了一系列有效的方法，從海量的、特定于領域的文本語料庫中構建異構信息網絡。然后討論了基于用戶需求挖掘文本豐富網絡的方法。具體來說，我們關注的是可伸縮的、有效的、弱監督的、與語言無關的方法，這些方法可以處理各種文本。在真實的數據集（包括新聞文章、科學出版物和產品評論）上，我們進一步展示了如何構建信息網絡，以及如何幫助進一步的探索性分析。

講座嘉賓

Jingbo Shang（尚景波），伊利諾伊大學香檳分校計算機科學系博士生。他的研究重點是用最少的人力從大量文本語料庫中挖掘和構建結構化知識。他的研究獲得了多項著名獎項的認可，包括Yelp數據集挑戰大獎（2015）、谷歌結構化數據和數據庫管理博士研究金（2017-2019）。尚先生在大型會議（SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18）上提供教程方面有豐富的經驗。

付費5元查看完整內容

數據整理 · 陸嘉恒 · Chunbin Lin · Jin Wang · 機器學習 ·

2019 年 11 月 3 日

[付費5元查看完整內容]【CIKM2019 Tutorial】Syn-ergy of Data-base Tech-niques and Ma-chine Learn-ing Mod-els for String Sim-il-ar-ity Search and Join(字符串相似性搜索與連接：數據庫技術與機器學習模型的協同)，附論文免費下載

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

報告主題：Syn-ergy of Data-base Tech-niques and Ma-chine Learn-ing Mod-els for String Sim-il-ar-ity Search and Join

報告摘要：字符串數據無處不在，字符串相似性搜索和連接對于信息檢索，數據集成，數據清理以及大數據分析的應用至關重要。為了支持這些操作，數據庫和機器學習領域中的許多技術已獨立提出。更確切地說，在數據庫研究領域，存在基于過濾和驗證框架的技術，這些技術不僅可以實現高性能，而且還可以為給定的相似度函數提供保證的結果質量。在機器學習研究領域中，字符串相似性處理被建模為識別相似文本記錄的問題。具體來說，深度學習方法使用將文本映射到低維連續向量空間的嵌入技術。在本教程中，我們回顧了大量關于字符串相似性搜索的研究，并加入了這兩個研究領域。我們將每個領域的研究劃分為不同的類別。對于每個類別，我們都會對相關作品進行全面審查，并介紹這些解決方案的詳細信息。在結束本教程時，我們將為未來的工作指明可行的方向，以結合這兩個領域的技術。

邀請嘉賓： Lin Chunbin是Amazon Web Services（AWS）的軟件工程師，正在研究AWS Redshift。于2018年在加利福尼亞大學圣地亞哥分校（UCSD）獲得計算機科學博士學位。研究興趣是數據庫管理和大數據管理。他在SIGMOD，VLDB，VLDB J和TODS等上發表了20多篇期刊和會議論文。

陸嘉恒，芬蘭赫爾辛基大學的副教授。他的主要研究興趣在于大數據管理和數據庫系統，尤其是對來自現實生活中的高效數據處理，海量數據存儲庫和Web的挑戰。他撰寫了四本有關Hadoop和NoSQL數據庫的書，并在SIGMOD，VLDB，TODS和TKDE等上發表了70多篇期刊和會議論文。

Jin Wang是美國加州大學洛杉磯分校的四年級博士生。在加入UCLA之前，他于2015年獲得清華大學計算機科學碩士學位。他的研究興趣主要在于數據管理和文本分析領域。他在頂級會議和期刊（如ICDE，IJCAI，EDBT，TKDE和VLDB Journal）上發表了10多篇論文。

Chen Li，博士，加州大學歐文分校計算機科學系的教授。擁有斯坦福大學計算機科學學位。他的研究興趣是數據管理領域，包括數據密集型計算，查詢處理和優化，可視化以及文本分析。

付費5元查看完整內容

命名實體識別 · 知識抽取 · 深度神經網絡 · 圖神經網絡 · 任翔 ·

2019 年 10 月 25 日

[付費5元查看完整內容]From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大學計算機科學系任翔助理教授，CIPS ATT 16（2019）

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

主題：From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction

摘要：從序列標記到關系抽取，再到知識推理，深度神經網絡模型在知識抽取任務中取得了最先進的性能。然而，這些渴求數據的模型嚴重依賴于人工標記的訓練數據，并且經常作為黑箱組件運行，減慢了下游應用程序的開發。在這次演講中，我將介紹我們最近在將結構化先驗知識應用到深度神經網絡模型中進行知識抽取方面的進展，這兩個模型都是在輸入數據級別(即，以及在模型架構級別(即，對模型進行編程)。特別地，我將討論如何在命名實體識別中合并域字典，以及如何在關系提取中建立語義規則，作為輸入級結構化先驗知識的示例。對于模型編程，我將提出一個基于圖神經網絡的框架，用于在涉及常識推理的自然語言推理中捕獲多關系結構化先驗知識作為模型架構的一部分。這些解決方案共同構成了從數據到使用結構化先驗知識進行模型編程的路線圖。

嘉賓簡介：任翔，美國南加州大學計算機科學系助理教授，獲美國南加州大學ISI聘任。他也是智能和知識發現(INK)研究實驗室的主任，ACM SIGKDD和數據挖掘(SIGKDD)的信息主任，以及USC機器學習中心的成員。之前，他是斯坦福大學的研究學者，并在伊利諾伊大學香檳分校獲得了計算機科學博士學位。Ren博士的研究重點是開發標簽高效的計算方法，從自然語言數據中提取機器可操作的知識(例如，組合、圖形結構表示)，并對知識結構進行神經推理。他的研究導致一本書和50多個出版物,覆蓋著超過會議教程(KDD、WWW NAACL),并獲得了獎項包括谷歌AI教師獎,摩根大通AI研究獎,亞馬遜研究獎,ACM SIGKDD論文獎(2018),WWW最佳海報亞軍(2018),大衛·j·Kuck優秀論文獎(2017),谷歌博士獎學金(2016),和Yelp數據集挑戰獎(2015)。他是福布斯亞洲30位30歲以下富豪之一。

付費5元查看完整內容

Mohamed F.Mokbel · 機器學習 · Ibrahim Sabek · VLDB · 明尼蘇達大學 (University of Minnesota) ·

2019 年 8 月 29 日

[付費5元查看完整內容]【VLDB2019 tutorial】空間數據中的機器學習 Machine Learning Meets Big Spatial Data，明尼蘇達大學|Ibrahim Sabek，卡塔爾計算研究所首席科學家|Mohamed F.Mokbel

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： Machine Learning Meets Big Spatial Data

簡介： 生成數據量的激增推動了可伸縮的機器學習解決方案的興起，從而可以有效地分析此類數據并從中提取有用的見解。同時，近年來，空間數據已經變得無處不在，例如GPS數據。大空間數據的應用涉及廣泛的領域，包括跟蹤傳染病，模擬氣候變化，吸毒成癮等等。因此，通過提供對現有機器學習解決方案的空間擴展或從頭開始構建新的解決方案，人們付出了巨大的努力來支持這些應用程序內部的有效分析和智能。在這個90分鐘的教程中，我們全面回顧了機器學習和大空間數據交匯處的最新技術。我們涵蓋了機器學習三個主要領域中的現有研究工作和挑戰，即數據分析，深度學習和統計推斷，以及兩個高級空間機器學習任務，即空間特征提取和空間采樣。我們還強調了該領域未來研究中存在的開放性問題和挑戰。

嘉賓介紹： Ibrahim Sabek是明尼蘇達大學計算機科學與工程系的博士候選人。他獲得了理學碩士學位。他于2017年在同一部門獲得博士學位。他的研究興趣在于大空間數據管理，空間計算和可伸縮機器學習系統之間的交叉領域。易卜拉欣已獲得ACM SIGSPATIAL 2018最佳論文獎的提名，并獲得了ACM SIGMOD學生研究競賽（SRC）2017決賽階段的資格。在博士期間，他與NEC Labs America和Microsoft Research（MSR）合作）。易卜拉欣在ACM TSAS，IEEE ICDE，ACM SIGSPATIAL，IEEE TMC等頂級研究機構發表了許多論文，并在VLDB和ACM SIGMOD上展示了他的工作。

Mohamed F.Mokbel是卡塔爾計算研究所的首席科學家，也是明尼蘇達大學的教授。他目前的研究興趣集中于大空間數據和應用程序的系統和機器學習技術。他的研究工作已獲得VLDB十年最佳論文獎，四個會議最佳論文獎和NSF職業獎。除了在其他社區的一線場所（包括IEEE ICDM和ACM CCS）的教程之外，穆罕默德還在VLDB / SIGMOD / ICDE / EDBT會議上提供了六篇教程。這些教程都不會與本教程建議重疊。穆罕默德（Mohamed）是ACM SIGPATIAL的當選主席，目前是分布式和并行數據庫期刊的主編，并且是ACM Books，ACM TODS，VLDB Journal，ACM TSAS和GoeInformatica期刊的編輯委員會成員。

付費5元查看完整內容

Michael Simpson · 數據清洗 · Sara Thirumuruganathan · Laks V.S. Lakshmanan · 不列顛哥倫比亞大學 (University of British Columbia) ·

2019 年 8 月 27 日

[付費5元查看完整內容]【VLDB2019 tutorial】Combating Fake News: A Data Management and Mining Perspective，不列顛哥倫比亞大|Laks V.S. Lakshmanan，Michael Simpson，Sara Thirumuruganathan，156頁PDF

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： Combating Fake News: A Data Management and Mining Perspective

簡介： 假新聞是對全球人民的主要威脅，導致人民對政府，新聞和公民社會的信任度下降。社交媒體和社交網絡在公眾中的流行引起了假新聞的蔓延，其中陰謀論，虛假信息和極端觀點盛行。發現假新聞并進行緩解是當今時代的基本問題之一，已引起廣泛關注。盡管事實調查網站（政府網站和大型公司，例如Google，Facebook和Twitter）已經采取了初步措施來解決假新聞，但仍有許多工作要做。本教程的目標是雙重的。首先，我們希望使數據庫社區熟悉其他社區在打擊假新聞方面的工作。我們提供相關領域的最新研究成果，包括檢測，傳播，緩解和干預假新聞。接下來，我們提供數據庫社區研究內容的摘要，并討論如何將其用于抵制假新聞。

嘉賓介紹：

Laks V.S. Lakshmanan是不列顛哥倫比亞大學計算機科學系的教授。他是BC Advanced Systems Institute的研究員，并于2016年11月被任命為ACM杰出科學家。他的研究興趣涵蓋數據庫系統及相關領域的廣泛主題，包括：關系數據庫和面向對象的數據庫，OLAP和數據倉庫，數據庫挖掘，數據集成，半結構化數據和XML，信息和社交網絡及社交媒體，推薦系統和個性化。

Michael Simpson是不列顛哥倫比亞大學計算機科學系的博士后研究員。他從維多利亞大學獲得博士學位。他的研究興趣包括數據挖掘，社交網絡分析以及圖形問題的可伸縮算法設計。

Saravanan（Sara）Thirumuruganathan是HBKU QCRI數據分析小組的科學家。他在德克薩斯大學阿靈頓分校獲得博士學位。他對數據集成/清理和用于數據管理的機器學習廣泛感興趣。 Saravanan的工作已入選VLDB 2018/2012最佳論文，并獲得SIGMOD 2018研究重點獎。

付費5元查看完整內容