主題:From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction
摘要:從序列標記到關系抽取,再到知識推理,深度神經網絡模型在知識抽取任務中取得了最先進的性能。然而,這些渴求數據的模型嚴重依賴于人工標記的訓練數據,并且經常作為黑箱組件運行,減慢了下游應用程序的開發。在這次演講中,我將介紹我們最近在將結構化先驗知識應用到深度神經網絡模型中進行知識抽取方面的進展,這兩個模型都是在輸入數據級別(即,以及在模型架構級別(即,對模型進行編程)。特別地,我將討論如何在命名實體識別中合并域字典,以及如何在關系提取中建立語義規則,作為輸入級結構化先驗知識的示例。對于模型編程,我將提出一個基于圖神經網絡的框架,用于在涉及常識推理的自然語言推理中捕獲多關系結構化先驗知識作為模型架構的一部分。這些解決方案共同構成了從數據到使用結構化先驗知識進行模型編程的路線圖。
嘉賓簡介:任翔,美國南加州大學計算機科學系助理教授,獲美國南加州大學ISI聘任。他也是智能和知識發現(INK)研究實驗室的主任,ACM SIGKDD和數據挖掘(SIGKDD)的信息主任,以及USC機器學習中心的成員。之前,他是斯坦福大學的研究學者,并在伊利諾伊大學香檳分校獲得了計算機科學博士學位。Ren博士的研究重點是開發標簽高效的計算方法,從自然語言數據中提取機器可操作的知識(例如,組合、圖形結構表示),并對知識結構進行神經推理。他的研究導致一本書和50多個出版物,覆蓋著超過會議教程(KDD、WWW NAACL),并獲得了獎項包括谷歌AI教師獎,摩根大通AI研究獎,亞馬遜研究獎,ACM SIGKDD論文獎(2018),WWW最佳海報亞軍(2018),大衛·j·Kuck優秀論文獎(2017),谷歌博士獎學金(2016),和Yelp數據集挑戰獎(2015)。他是福布斯亞洲30位30歲以下富豪之一。
講座題目
從海量文本中構建和挖掘異構信息網絡:Constructing and Mining Heterogeneous Information Networks from Massive Text
講座簡介
真實世界的數據主要以非結構化文本的形式存在。數據挖掘研究的一個重大挑戰是開發有效且可伸縮的方法,將非結構化文本轉換為結構化知識。根據我們的設想,將這些文本轉換成結構化的異構信息網絡是非常有益的,在這種網絡上,可以根據用戶的需要生成可操作的知識。在本教程中,我們將全面概述最近在這方面的研究和發展。首先,我們介紹了一系列有效的方法,從海量的、特定于領域的文本語料庫中構建異構信息網絡。然后討論了基于用戶需求挖掘文本豐富網絡的方法。具體來說,我們關注的是可伸縮的、有效的、弱監督的、與語言無關的方法,這些方法可以處理各種文本。在真實的數據集(包括新聞文章、科學出版物和產品評論)上,我們進一步展示了如何構建信息網絡,以及如何幫助進一步的探索性分析。
講座嘉賓
Jingbo Shang(尚景波),伊利諾伊大學香檳分校計算機科學系博士生。他的研究重點是用最少的人力從大量文本語料庫中挖掘和構建結構化知識。他的研究獲得了多項著名獎項的認可,包括Yelp數據集挑戰大獎(2015)、谷歌結構化數據和數據庫管理博士研究金(2017-2019)。尚先生在大型會議(SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18)上提供教程方面有豐富的經驗。
論文題目: Rule-Guided Compositional Representation Learning on Knowledge Graphs
摘要:
知識圖的表示學習是將知識圖中的實體和關系嵌入到低維連續向量空間中。早期的KG嵌入方法只關注編碼在三元組中的結構化信息,由于KG的結構稀疏性,其性能受到限制。最近的一些嘗試考慮路徑信息來擴展KGs的結構,但是在獲取路徑表示的過程中缺乏可解釋性。本文提出了一種新的基于規則和路徑的聯合嵌入(RPJE)方案,該方案充分利用了邏輯規則的可解釋性和準確性、KG嵌入的泛化性以及路徑的補充語義結構。具體來說,首先從KG中挖掘出不同長度(規則體中的關系數)的Horn子句形式的邏輯規則,并對其進行編碼,用于表示學習。然后,利用長度2的規則來精確地組合路徑,而使用長度1的規則來明確地創建關系之間的語義關聯和約束關系嵌入。優化時還考慮了規則的置信度,保證了規則在表示學習中的可用性。大量的實驗結果表明,RPJE在KG完成任務上的表現優于其他最先進的基線,這也證明了利用邏輯規則和路徑來提高表示學習的準確性和可解釋性的優越性。
論文作者:
張永飛:男,博士,副教授,博士生導師。2005年畢業于北京航空航天大學自動化學院,獲學士學位,免推直博;2011年畢業于北京航空航天大學模式識別與智能系統專業,獲博士學位。2007年至2009年在美國密蘇里大學哥倫比亞分校電氣與工程學院訪問。2011年加入北航計算機學院數字媒體北京市重點實驗室。科研工作:目前主要研究方向包括(1)(視覺)大數據智能分析處理;(2)高性能實時圖像/視頻編解碼與可靠傳輸。主持國家自然科學基金項目面上項目、國家重點研發計劃項目子課題、國家自然科學基金重點項目子課題、863項目子課題、國家重點實驗室自主課題、企業合作預研項目等多項科研任務;作為技術骨干參與國家973計劃、杰出青年基金、國家自然科學基金項目等多項國家級課題的科研工作等。
劉偲,計算機學院副教授、博導。 2012年博士畢業于中科院自動化所,2009-2014年于新加坡國立大學(NUS)任研究助理、博后。2016年在微軟亞洲研究院(MSRA)任鑄星計劃研究員。2014-2018在中國科學院信工所任副研究員。其研究方向是跨模態多媒體智能分析,包括自然語言處理(NLP)和計算機視覺(CV)。共發表了CCF A類論文 40余篇,其研究成果發表于TPAMI、IJCV、TIP、CVPR、ICCV和ACM MM等。 Google Scholar引用4000+次。2017年入選中國科協青年人才托舉工程,2017年獲CCF-騰訊犀牛鳥專利獎。任2017中國計算機大會(CNCC)主論壇特邀講者,2017 CCF青年精英大會“青年技術秀”講者。獲2017 ACM 中國新星提名獎,2017國際計算機學會人工智能專委會中國區(ACM SIGAI China) 新星獎,2018吳文俊人工智能優秀青年獎。 另外,她獲CCF A類會議ACM MM 2012最佳技術演示獎,ACM MM 2013最佳論文獎。指導學生獲得ChinaMM2018 最佳學生論文獎。帶領學生多次獲得國際、國內競賽冠軍: 2016年獲CCF大數據與計算智能大賽(BDCI)綜合特等獎,2017年獲CVPR Look Into Person Challenge Human Parsing Track冠軍,2019年獲得ICCV Youtube-Video Object Segmentation 競賽冠軍。 主辦了ECCV 2018和ICCV 2019‘Person in Context’workshop。擔任中國圖像圖形學學會理事、副秘書長。任ICCV 2019、CVPR 2020 Area chair,AAAI 2019、IJCAI2019、IJCAI 2020 SPC。
主題: Storytelling from Structured Data and Knowledge Graphs : An NLG Perspective
摘要: 在本教程中,我們討論將結構化數據(如表格形式的數據)和知識庫(如知識圖譜)翻譯成自然語言論述的基礎、方法和系統開發方面。本教程涵蓋自然語言生成(NLG)的挑戰和方法,主要關注(結構化)數據到文本的范式。我們的與會者將能夠了解以下內容:(1)關于如何應用現代自然語言處理和自然語言處理技術來描述和總結非語言性質或具有某種結構的文本數據的基本觀點和趨勢,以及(2)一些有趣的開放式問題,這將為今后的研究做出重大貢獻。我們將概述各種方法,從數據表示技術到適用于數據的領域解決方案,再到文本問題設置。從傳統的基于規則/啟發式驅動、現代的數據驅動和超現代的深層神經風格體系結構出發,討論了各種解決方案,并簡要討論了評價和質量評估。 由于大規模的領域獨立標記(并行)數據很少用于數據到文本的問題,本教程的很大一部分將致力于無監督、可伸縮和領域適應性的方法。
邀請嘉賓:
Abhijit Mishra,目前是印度班加羅爾IBM Research的一員,擔任人工智能技術系的研究科學家。在加入IBM Research之前,他是孟買IIT計算機科學與工程系(CSE)的博士學者,在Pushpak Bhattacharyya教授的指導下工作。
Anirban Laha,他目前是亞倫·庫爾維爾教授建議的蒙特勒大學(MILA)一年級博士生。他的興趣在于機器學習/深度學習在自然語言處理中的應用。此前,他在IBM Research的自然語言生成(NLG)項目中工作了三年,并在頂級會議和期刊上發表過論文,如NeurIPS、ACL、NAACL-HLT和計算語言學。在IBM,他還為IBM項目辯論會做出了貢獻,該會最近在全球范圍內獲得了廣泛的新聞報道,因為一場現場機器與人類的辯論(更多新聞)。在加入IBM之前,他曾在微軟必應廣告公司(2013-2015)擔任應用科學家,在亞馬遜網站(2010-2011)擔任SDE。
報告主題: 表示學習--自然語言處理中的圖神經網絡(Graph Neural Networks in NLP)
報告摘要: 圖神經網絡可以通過節點間的信息傳遞有效地捕捉結構信息。自該概念提出以來,圖神經網絡技術已經在自然語言處理、數據挖掘等多個領域得到了廣泛的應用。此次報告講述了自然語言處理中的圖神經網絡,首先介紹了幾種自然語言處理中的圖形結構并提出了一些在自然語言處理中所遇到的圖形問題,然后介紹了圖形表示的三種主要模型以及使用圖形編碼解決問題:神經機器翻譯、文本生成、問題回答、信息提取、情緒、社會分類、語義分析、語義角色標記、單詞嵌入、句子表示。
邀請嘉賓: 張岳,博士,西湖大學長聘副教授。研究領域包括自然語言處理和計算金融。2003年于清華大學獲得計算機科學學士學位,2006年于英國牛津大學獲得計算機科學碩士學位,2009年于英國牛津大學獲得計算機科學博士學位,2010年-2012年在英國劍橋大學從事博士后研究,2012年-2018年在新加坡科技與設計大學擔任助理教授。目前已在國際、國內頂級學術會議上發表論文百余篇,曾獲得IALP 2017和COLING 2018最佳論文獎、NLPCC青年新銳獎,且他的研究成果持續被谷歌、阿里巴巴、美國教育考試服務中心(ETS)等頂尖企業應用于工業生產前線。擔任Transactions of ACL執行主編,ACM Transactions on Asian and Low Resource Language Information Processing副主編,IEEE Transactions on Big Data副主編,以及COLING 2014/18,NAACL 2015/19,EMNLP 2015/17/19,ACL 2017/18/19等國際學會會議的區域主席。
特邀報告4:PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing
Abstract: 這項工作的目標是通過設計一個論文機器人來加速科學發現和生產,它的主要任務如下。
第一個任務是閱讀現有的論文。科學家們現在發現很難跟的上大量的論文,例如,每年發表的生物醫學論文超過50萬篇,但科學家們平均每年只能閱讀264篇論文(5000篇論文中有1篇)。論文機器人基于實體和關系抽取,自動讀取已有的論文,構建背景知識圖譜(KGs)。從科學文獻中構建知識圖譜通常比在一般新聞領域更具挑戰性,因為它需要更廣泛地獲取特定領域的知識和更深入地理解復雜的上下文。為了更好地編碼上下文信息和外部背景知識,我們提出了一個新的知識庫驅動的樹狀結構長短時記憶網絡(Tree-LSTM)框架和一個LSTM模型。加入兩類新功能:(1)捕獲上下文的依賴結構(2)實體屬性(類型和類別描述)通過實體鏈接的外部本體。
第二個任務是自動創造新想法。Foster等人(2015)的研究表明,在生物醫學和化學領域的640萬篇論文中,60%以上是關于增量工作的。這激發了我們通過預測后臺KGs中的新鏈接來自動增量創建新想法,該方法基于結合KG結構和非結構化上下文文本的新實體表示。
最后,我們進入最后一個有趣任務是,寫一篇關于新想法的新論文。最后一步的目標是將新思想清晰地傳達給讀者,這是一件非常困難的事情;事實上,許多科學家都是糟糕的作家(Pinker, 2014)。論文機器人利用一種新穎的記憶-注意網絡結構,自動寫出一篇關于輸入標題和預測相關實體的新論文摘要,然后根據該摘要進一步寫出結論和未來的工作,最后預測未來后續論文的新標題。我們選擇生物醫學作為我們的目標-主要是因為有大量的可用論文。圖靈測試表明,論文機器人生成的輸出字符串有時會比人工編寫的字符串更受歡迎;大多數論文的摘要只需要很少的領域專家的編輯就可以變得信息豐富、條理清晰。
這項工作是基于與Kevin Knight(滴滴實驗室)和韓家煒(UIUC)的合作的。
Bio: Heng Ji,伊利諾伊大學香檳分校計算機科學系教授。她在清華大學獲得了計算語言學的學士和碩士學位,在紐約大學獲得了計算機科學的碩士和博士學位。她的研究興趣主要集中在自然語言處理,特別是信息提取和知識庫填充。2016年和2017年,她被世界經濟論壇選為“青年科學家”和全球未來計算未來理事會成員。2013年獲IEEE智能系統獎“AI’s 10 to Watch”獎,2009年獲NSF終身成就獎,谷歌、IBM、Bosch、騰訊學院獎,PACLIC2012年度最佳論文獎,ACL2019年度最佳演示獎提名,“SDM2013年度最佳論文”,“ICDM2013年度最佳論文”。她從2010年開始協調NIST TAC知識庫人口任務,并擔任NAACL-HLT2018和CCL2019項目委員會聯合主席。她是IEEE/ACM音頻、語音和語言處理事務的副主編。
主題:Deep Learning for Graphs: Models and Applications
摘要:圖提供了多種類型的數據的通用表示,而深度學習在表示學習方面顯示了巨大的能力。因此,用圖連接深度學習提供了機會,使各種現實世界問題的通用解決方案成為可能。然而,傳統的深度學習技術對常規網格數據(如圖像和序列)具有破壞性,因此不能直接應用于圖結構數據。因此,將這兩個領域結合起來面臨著巨大的挑戰。在本教程中,我將全面概述圖深度學習的最新進展,包括模型和應用。特別地,我將介紹一些基本概念,回顧最先進算法,并舉例說明各種重要的應用。最后,我將通過討論開放問題和挑戰來總結本教程。
嘉賓簡介:唐繼良(Jiang Tang)自2016年秋季@起擔任密歇根州立大學計算機科學與工程系的助理教授。在此之前,他是Yahoo Research的研究科學家,并于2015年從亞利桑那州立大學獲得博士學位。他的研究興趣包括社交計算,數據挖掘和機器學習及其在教育中的應用。他曾獲得2019年NSF職業獎,2015年KDD最佳論文亞軍和6項最佳論文獎,包括WSDM2018和KDD2016。他是會議組織者(例如KDD,WSDM和SDM)和期刊編輯(例如TKDD)。他的研究成果發表在高排名的期刊和頂級會議論文集上,獲得了數千篇引文(Google學術搜索)和廣泛的媒體報道。
報告主題:Natural Language Interface to Knowledge Graph (our experience)
報告摘要:世界上大量的數據存儲在關系數據庫和知識圖譜中。必須學習結構化查詢語言(SQL)這樣的編程語言,或者使用固定的查詢表單來查詢數據,即使是非常簡單的查詢。SQL和SPARQL分別是訪問關系數據庫和知識圖譜最常用的接口。但是,這需要用戶對查詢語言、數據模式和數據庫運行環境有很好的理解,這需要很長的訓練時間,對于偶爾查詢數據的用戶來說是不現實的。在本教程中,我將介紹這一領域的研究進展,并討論未來的研究方向。。
嘉賓簡介:嚴錫峰(Xifeng Yan)是加州大學圣塔芭芭拉分校的副教授。他擔任計算機科學Venkatesh Narayanamurti主席。他獲得了博士學位。于2006年獲得伊利諾伊大學香檳分校計算機科學博士學位。2006年至2008年,他是IBM TJ Watson研究中心的研究人員。他一直致力于信息網絡中圖形的建模,管理和挖掘,計算機系統,社交媒體和生物信息學。他的作品得到了廣泛的引用,每個Google Scholar的引用次數超過9000,并且下載了數千次軟件。他獲得了NSF職業獎,IBM發明成就獎,ACM-SIGMOD論文亞軍獎和IEEE ICDM十年最高影響力論文獎。
題目:異質信息網絡的表示學習與應用
摘要:當前的社會網絡分析主要針對同質網絡(即網絡中結點類型相同),但是現實世界中的網絡化數據通常包含不同類型的對象,并且對象之間的關聯表示不同的語義關系。構建異質信息網絡(即包含不同類型的結點或邊的網絡)可以包含更加完整的對象之間的關聯信息,因此分析這類網絡有希望挖掘更加準確的模式。表示學習能夠自動抽取對象的隱含特征,為后續機器學習服務,成為近期的研究熱點。本報告將系統介紹異質信息網絡的表示學習方法,包括隨機游走等淺層模型方法和神經網絡等深層模型方法。報告也將介紹異質網絡表示學習在實際問題上的應用。
個人簡介:北京郵電大學計算機學院教授、博士研究生導師、智能通信軟件與多媒體北京市重點實驗室副主任。主要研究方向: 數據挖掘、機器學習、人工智能和演化計算。近五年來,作為第一作者或通信作者發表高水平學術論文50余篇,英文專著一部,包括數據挖掘領域的頂級期刊和會議IEEE TKDE、ACM TIST、KDD、AAAI、IJCAI、WWW等,相關研究成果應用于阿里巴巴、騰訊、華為等公司。獲得ADMA2011/AMDA2018國際會議最佳論文獎、CCF-騰訊犀牛鳥基金及項目優秀獎,并指導學生獲得頂尖國際數據挖掘競賽IJCAI Contest 2015 全球冠軍。獲得北京市高等學校青年英才和師德先鋒等稱號。
題目: TextCube: Automated Construction and Multidimensional Exploration
簡介: 當今社會沉浸在大量文本數據中,從新聞文章到社交媒體,研究文獻,病歷和公司報告。數據科學和工程學的一大挑戰是開發有效且可擴展的方法,以從海量文本數據中提取結構和知識,以滿足各種應用的需要,而無需廣泛的人工注釋。在本教程中,我們將展示TextCube提供了一種可以滿足此類信息需求的關鍵信息組織結構。我們概述了一組最近開發的數據驅動方法,這些方法可幫助從大規模的特定于領域的文本語料庫自動構建TextCube,并表明如此構建的TextCube將增強各種應用程序的文本探索和分析。我們專注于可擴展,弱監督,獨立于域,與語言無關且有效的新TextCube構建方法(即從各種領域的大型語料庫生成高質量的TextCube)。我們將用真實的數據集演示如何構造TextCube來協助對大量文本語料庫進行多維分析。
嘉賓介紹: 韓家煒,美國伊利諾伊大學香檳分校計算機系教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報并任主編。在數據挖掘、數據庫和信息網絡領域發表論文600余篇。 韓家煒主頁://hanj.cs.illinois.edu/
Jingbo Shang, 伊利諾伊州香檳分校博士。 他的研究專注于以最少的人力從大量文本語料庫中挖掘和構建結構化知識。 他的研究獲得了多個著名獎項的認可,包括Yelp數據集挑戰賽的大獎(2015年),Google博士在結構化數據和數據庫管理領域的獎學金(2017-2019年)。