教程題目:Graph-Based Meaning Representations: Design and Processing
教程簡介:
近年來,人們對以標記有向圖的形式對句子意義進行編碼和處理產生了廣泛的興趣。舉例說明這條研究路線的框架包括:抽象意義表示、基于圖的最小遞歸語義表示、雙向語義依賴圖和通用概念認知注釋。
作為對高級的基于向量的意義表征的補充,對這種層次結構和離散的語義表示的解析,從早期開始就是自然語言理解的基石,并將繼續為理解自然語言做出重要貢獻。本教程將
最終目標是提供不同語義圖庫和相關解析工作的統一視圖,從而減少NLP開發人員和用戶從這個令人興奮的領域最近的成功和最佳實踐中獲益的障礙。
組織者:
Alexander Koller是一名計算語言學教授,哥倫比亞大學和愛丁堡大學的博士后。研究興趣包括為自然語言現象提出簡潔的數學模型和解決自然語言處理中有用問題的有效算法。特別是在計算語義、語法形式和自然語言生成(NLG)方面做了大量的研究。
Stephan Oepen在柏林、伏爾加格勒和薩爾布呂肯學習了語言學、德語和俄語語言學、計算機科學和計算語言學。2011年至2017年,他在奧斯陸大學(University of Oslo)領導語言技術部門。在此之前,他曾在DFKI和Saarland大學(均為德國)、YY技術公司(山景城)和斯坦福大學(均為美國)工作。他的研究圍繞著語言學和計算機技術的結合,在那里他發表了大約90篇經過同行評審的研究論文和會議論文,并與其他人共同創建了全球網絡和北歐語言處理實驗室(NLPL)。Oepen已經指導完成了5個博士項目和12個理學碩士學位。他是計算語言學編輯委員會和歐洲計算語言學協會執行委員會的成員,同時也是ACL自然語言解析特別興趣小組的秘書和計算語言學協會歐洲分會2017年會議和自然語言處理經驗方法2018年會議的區域聯席主席。在2017-18學年,Oepen在挪威科學與文學院高級研究中心聯合指導一個國際研究小組。
孫薇薇,計算語言學家。目前在北京大學王選計算機研究所工作,也是北京大學中國語言學中心的兼職研究員。薩爾大學計算語言學系的博士研究生,導師是Hans Uszkoreit教授。研究集中于應用圖對語法和語義分析進行編碼,以及利用以圖為中心的形式主義和算法來明確地表達語言理論。
** 簡介:**
推薦方法構造了預測模型,以估計用戶與項目交互的可能性。先前的模型在很大程度上遵循一般的監督學習范式-將每個交互視為一個單獨的數據實例,并基于“信息孤島”進行預測。但是,此類方法忽略了數據實例之間的關系,這可能導致性能欠佳,尤其是對于稀疏場景。此外,建立在單獨數據實例上的模型幾乎無法顯示出推薦背后的原因,從而使過程難以理解。
在本教程中,我們將從圖學習的角度重新審視推薦問題。可以將用于推薦的通用數據源組織成圖形,例如用戶-項目交互(二分圖),社交網絡,項目知識圖(異構圖)等。這種基于圖的組織將孤立的數據實例連接起來,從而為利用高階連通性帶來了好處,這些高階連通性對有意義的模式進行了編碼,以進行協作過濾,基于內容的過濾,社會影響力建模和知識感知推理。結合圖神經網絡(GNN)的最新成功,基于圖的模型已展現出成為下一代推薦系統技術的潛力。本教程對基于圖的學??習方法進行了回顧,以提出建議,特別關注GNN的最新發展和知識圖譜增強的建議。通過在本教程中介紹這個新興而有前途的領域,我們希望觀眾可以對空間有深入的了解和準確的見解,激發更多的想法和討論,并促進技術的發展。
目錄:
作者簡介:
王翔是新加坡國立大學(NUS)計算機學院的研究員。 他獲得了博士學位。 他于2019年獲得國大計算機科學博士學位。他的研究興趣包括推薦系統,信息檢索和數據挖掘。 在SIGIR,KDD,WWW和AAAI等頂級會議上,他擁有20多種出版物,包括TOIS和TKDE等期刊。 他曾擔任CCIS 2019的本地主席,包括SIGIR,CIKM和MM在內的頂級會議的PC成員以及TKDE和TOIS等著名期刊的定期審稿人。
題目: Graph Summarization Methods and Applications: A Survey
摘要:
雖然計算資源的進步使處理大量數據成為可能,但人類識別這些數據模式的能力并沒有相應提高。因此,壓縮和簡化數據的高效計算方法對于提取可操作的見解變得至關重要。特別是,雖然對數據摘要技術進行了廣泛的研究,但直到最近才開始流行對相互關聯的數據或圖進行匯總。這項調查是一個結構化的,全面的概述了最先進的方法,以總結圖形數據。我們首先討論了圖形摘要背后的動機和挑戰。然后,我們根據作為輸入的圖形類型對摘要方法進行分類,并根據核心方法進一步組織每個類別。最后,我們討論了總結在真實世界圖上的應用,并通過描述該領域的一些開放問題進行了總結。
作者簡介:
Yike Liu是密西根大學物理系五年級的博士生,也是計算機科學與工程系的一名碩士研究生。我是葉杰平教授的顧問。主要研究方向是深度學習和強化學習,尤其是在交通數據上的應用。在此之前,從事過基于圖形的機器學習和數據挖掘,特別是圖形總結和圖形聚類,在這些工作中,開發了圖形挖掘算法,幫助更好地理解底層的圖形組織并理解它。
Tara Safavi是密西根大學博士研究生,研究重點是知識表示及其在以人為中心的任務中的使用、評估和解釋,還對更廣泛的AI+社會問題感興趣,比如隱私、偏見和環境可持續性。研究目前得到了美國國家科學基金會(NSF)研究生獎學金和谷歌女性科技創造者獎學金的支持。
論文題目: Graph Convolutional Networks with Motif-based Attention
論文摘要:
深度卷積神經網絡在計算機視覺和語音識別領域的成功,使得研究人員開始研究該體系結構對圖結構數據的泛化。最近提出的一種稱為圖卷積網絡的方法能夠在節點分類方面取得最新的成果。然而,由于所提出的方法依賴于spectral圖卷積的局部一階近似,因此無法捕獲圖中節點間的高階相互作用。在這項工作中,我們提出了一個motif-based的圖注意力模型,稱為Motif Convolutional Networks,它通過使用加權多跳motif鄰接矩陣來捕獲高階鄰域,從而泛華了過去的方法。一個新的注意力機制被用來允許每個單獨的節點選擇最相關的鄰居來應用它的過濾器。我們在不同領域(社會網絡和生物信息學)的圖上評估了我們的方法,結果表明它能夠在半監督節點分類任務上勝過一組有競爭力的基準方法。其他結果證明了attention的有用性,表明不同的節點對不同的高階鄰域進行了優先排序。
論文作者:
John Boaz Lee于2015-1019年在伍斯特理工學院計算機科學系的攻讀博士學位。研究領域包括深度學習、數據挖掘、信息與社會網絡分析、強化學習等。2020年1月,將加入Facebook研究的核心數據科學團隊作為研究科學家。
Ryan A. Rossi目前在Adobe Research工作。研究領域是機器學習,從社會和物理現象跨越理論、算法和大型復雜關系(網絡/圖)數據的應用。在普渡大學獲得了計算機科學的博士和碩士學位。Ryan A. Rossi的論文主要研究關系機器學習和動態網絡數據的挖掘,并且獲得了國家科學基金研究生獎學金(NSF GRFP)、國防科學與工程研究生獎學金(NDSEG)、普渡大學弗雷德里克·n·安德魯斯獎學金以及比爾斯蘭博士學位論文獎學金。還是網絡存儲庫項目的聯合創始人,該項目是第一個具有交互式可視圖形分析功能的數據存儲庫,可以幫助研究人員通過web實時查找、探索和理解圖形數據。
孔祥南的研究興趣集中在數據挖掘和機器學習上,重點在于解決生物醫學和社會應用中的數據科學問題。孔博士對設計算法以解決各種研究領域中的數據多樣性問題特別感興趣,這些領域包括生物醫學研究,社會計算,神經科學和商業智能。他一直致力于神經科學,生物醫學信息學和社交網絡領域的圖形數據挖掘,并且在數據挖掘的頂級會議和期刊上發表了論文,包括KDD,ICDM,SDM,WWW,WSDM,CIKM,TKDE。
主題: Storytelling from Structured Data and Knowledge Graphs : An NLG Perspective
摘要: 在本教程中,我們討論將結構化數據(如表格形式的數據)和知識庫(如知識圖譜)翻譯成自然語言論述的基礎、方法和系統開發方面。本教程涵蓋自然語言生成(NLG)的挑戰和方法,主要關注(結構化)數據到文本的范式。我們的與會者將能夠了解以下內容:(1)關于如何應用現代自然語言處理和自然語言處理技術來描述和總結非語言性質或具有某種結構的文本數據的基本觀點和趨勢,以及(2)一些有趣的開放式問題,這將為今后的研究做出重大貢獻。我們將概述各種方法,從數據表示技術到適用于數據的領域解決方案,再到文本問題設置。從傳統的基于規則/啟發式驅動、現代的數據驅動和超現代的深層神經風格體系結構出發,討論了各種解決方案,并簡要討論了評價和質量評估。 由于大規模的領域獨立標記(并行)數據很少用于數據到文本的問題,本教程的很大一部分將致力于無監督、可伸縮和領域適應性的方法。
邀請嘉賓:
Abhijit Mishra,目前是印度班加羅爾IBM Research的一員,擔任人工智能技術系的研究科學家。在加入IBM Research之前,他是孟買IIT計算機科學與工程系(CSE)的博士學者,在Pushpak Bhattacharyya教授的指導下工作。
Anirban Laha,他目前是亞倫·庫爾維爾教授建議的蒙特勒大學(MILA)一年級博士生。他的興趣在于機器學習/深度學習在自然語言處理中的應用。此前,他在IBM Research的自然語言生成(NLG)項目中工作了三年,并在頂級會議和期刊上發表過論文,如NeurIPS、ACL、NAACL-HLT和計算語言學。在IBM,他還為IBM項目辯論會做出了貢獻,該會最近在全球范圍內獲得了廣泛的新聞報道,因為一場現場機器與人類的辯論(更多新聞)。在加入IBM之前,他曾在微軟必應廣告公司(2013-2015)擔任應用科學家,在亞馬遜網站(2010-2011)擔任SDE。
教程題目:Discourse Analysis and Its Applications
教程簡介:
話語處理是從文本中提取多種不同級別的語言學結構的一系列NLP任務,用于從多個層次的文本中發現語言結構,支持多種文本挖掘應用。它包括在一組對話內容中識別話題結構、識別一致性結構、識別互關聯結構以及識別對話結構。總之,這些結構可以用于文本總結、文章評分、情感分析、機器翻譯、信息提取、問題回答和線索重建。
本教程首先介紹論述分析中的基本概念:單向文本&對話,同步&非同步對話,以及論述分析中的關鍵語言學結構。然后將會將會介紹傳統的機器學習方法以及一些最新的基于深度學習的方法,并且在評測數據上比較它們的表現。對于提及的每種話語結構,講座中都會介紹它在下游的文本挖掘任務中的使用,也會詳細介紹評價它們的方式和指標。最后還會討論這個領域未來的挑戰以及發展機遇。
組織者:
Shafiq Joty是新加坡南洋理工大學(NTU)助理教授,新加坡Salesforce AI研究部高級經理,研究興趣是自然語言處理:話語處理、機器翻譯、圖像文字翻譯、問題回答、文字摘要、情緒分析;機器學習、概率圖形模型、深度學習、強化學習、表征學習。
Giuseppe Carenini是不列顛哥倫比亞大學計算機科學系教授、數據科學碩士聯合主任。研究興趣是人工智能:用戶建模、決策理論、機器學習;計算語言學 :自然語言生成、論證、多媒體;HCI:智能接口、信息可視化和交互技術。
Raymond Ng是不列顛哥倫比亞大學的計算機科學教授,數據科學研究所的所長。研究領域是數據挖掘,文本挖掘,健康信息學,傳感器分析和數據庫。
Gabriel Murray是UFV計算機信息系統副教授,UBC計算機科學系副教授,愛丁堡大學博士學位和理學碩士。研究興趣為語音與自然語言處理、計算語言學、多模態交互、情感分析,人工智能,機器學習,信念網絡,馬爾可夫決策過程,馬爾可夫獎勵過程,數據質量,數據挖掘,統計過程控制。
主題: Tractable Probabilistic Models: Representations, Algorithms, Learning, and Applications
摘要: 在本教程中,我們將提供一個豐富的TPM文獻的額外說明,從有關混合和樹模型的開創性工作開始,到最新的表示,如概率電路。在這樣做的同時,我們將強調概率推理和學習中難處理性的來源,回顧不同可處理表示所采用的解決方案來克服它們,并討論它們是如何權衡以保證可處理性的。此外,我們將放大當前最先進的胎壓監測系統,分離并理解填充這一領域的模型(ACs、CNs、DNNFs、d-DNNFs、OBDDs、PSDDs、SDD、SPN等)的“字母湯”。我們將展示如何在一個統一的框架下將這些模型表示為概率電路,討論哪些結構屬性描述了每個模型類并實現了不同類型的可跟蹤性。我們將討論主要的算法范例,從數據中自動學習TPMs的結構和參數。最后,我們將展示幾個成功的應用場景,其中TPMs被用作替代或與難處理模型結合使用,包括圖像分類、完成和生成、場景理解、活動識別、語言和語音建模、生物信息學、協作過濾、驗證和診斷。
邀請嘉賓:
Guy Van den Broeck,是加州大學洛杉磯分校計算機科學系的助理教授和Samueli研究員,負責指導統計和關系人工智能(StarAI)實驗室。他的研究興趣是機器學習(統計關系學習、可處理學習、概率編程),知識表示和推理(概率圖形模型、提升概率推理、知識匯編、概率數據庫)和一般人工智能。蓋伊的作品獲得了UAI、ILP和KR等主要人工智能領域的最佳論文獎,并在AAAI獲得杰出論文榮譽獎。
Nicola Di Mauro,他自2005年起擔任巴里奧爾多莫羅大學計算機科學系助理教授,是拉康實驗室機器學習小組的成員。2005年,他在巴里-奧爾多-莫羅大學獲得博士學位。他的主要研究方向是統計關系學習、概率深度學習和機器學習及其應用。
Antonio Vergari,他目前是加州大學洛杉磯分校(UCLA)StarAI實驗室的博士后研究員,致力于整合可處理的概率推理和深度表示。此前,他是德國圖賓根馬克斯普朗克智能系統研究所的博士后,在那里,他致力于通過可處理的概率模型實現機器學習和數據科學的自動化。
報告主題: 表示學習--自然語言處理中的圖神經網絡(Graph Neural Networks in NLP)
報告摘要: 圖神經網絡可以通過節點間的信息傳遞有效地捕捉結構信息。自該概念提出以來,圖神經網絡技術已經在自然語言處理、數據挖掘等多個領域得到了廣泛的應用。此次報告講述了自然語言處理中的圖神經網絡,首先介紹了幾種自然語言處理中的圖形結構并提出了一些在自然語言處理中所遇到的圖形問題,然后介紹了圖形表示的三種主要模型以及使用圖形編碼解決問題:神經機器翻譯、文本生成、問題回答、信息提取、情緒、社會分類、語義分析、語義角色標記、單詞嵌入、句子表示。
邀請嘉賓: 張岳,博士,西湖大學長聘副教授。研究領域包括自然語言處理和計算金融。2003年于清華大學獲得計算機科學學士學位,2006年于英國牛津大學獲得計算機科學碩士學位,2009年于英國牛津大學獲得計算機科學博士學位,2010年-2012年在英國劍橋大學從事博士后研究,2012年-2018年在新加坡科技與設計大學擔任助理教授。目前已在國際、國內頂級學術會議上發表論文百余篇,曾獲得IALP 2017和COLING 2018最佳論文獎、NLPCC青年新銳獎,且他的研究成果持續被谷歌、阿里巴巴、美國教育考試服務中心(ETS)等頂尖企業應用于工業生產前線。擔任Transactions of ACL執行主編,ACM Transactions on Asian and Low Resource Language Information Processing副主編,IEEE Transactions on Big Data副主編,以及COLING 2014/18,NAACL 2015/19,EMNLP 2015/17/19,ACL 2017/18/19等國際學會會議的區域主席。
主題: Graph-based Methods in Pattern Recognition and Document Image Analysis
簡介: 模式識別和文檔圖像分析中的許多任務被公式化為圖形匹配問題。盡管問題具有NP難性,但快速準確的收斂已在模式識別的廣泛應用中取得了重大進展。因此,學習基于圖的表示形式和相關技術是真正興趣。在本教程中,我們將介紹用于獲得不同應用程序的圖形表示的許多方法。之后,我們將解釋用于在圖域中識別,分類,檢測和許多其他任務的基于圖的不同算法,方法和技術。我們將介紹最近的趨勢,包括圖卷積網絡和圖中的消息傳遞,重點介紹在各種模式識別問題中的應用,例如化學分子分類和網絡圖形表示中的檢測。此外,除了這些算法在文檔圖像分析和識別(尤其是模式識別)領域的不同應用之外,還將提供相關經驗。
嘉賓介紹: DUTTA Anjan是位于巴塞羅那計算機視覺中心的P-SPHERE項目下的Marie-Curie博士后。他于2014年獲得巴塞羅那自治大學(UAB)的計算機科學博士學位。他是IJCV,IEEE TCYB,IEEE TNNLS,PR,PRL等期刊的定期審稿人,并經常擔任BMVC,ICPR,ACPR和ICFHR等各種科學會議的程序委員會委員。他最近的研究興趣圍繞視覺對象的基于圖形的表示和解決計算機視覺,模式識別和機器學習中各種任務的基于圖形的算法。
Luqman Muhammad Muzzamil博士是文檔圖像分析,模式識別和計算機視覺的研究科學家。自2015年11月以來,盧克曼目前在拉羅謝爾大學(法國)的L3i實驗室擔任研究工程師。Luqman曾在波爾多生物信息學中心(波爾多生物信息中心)擔任研究工程師,并在拉羅謝爾大學(法國)的L3i實驗室擔任Jean-Marc Ogier教授的博士后研究員。 Luqman擁有Fran?oisRabelais的圖爾大學(法國)和巴塞羅那的Autonoma大學(西班牙)的計算機科學博士學位。他的博士學位論文由Jean-Yves Ramel教授和Josep Llados教授共同指導。他的研究興趣包括結構模式識別,文檔圖像分析,基于相機的文檔分析和識別,圖形識別,機器學習,計算機視覺,增強現實和仿生學。
主題: Neural Approaches to Conversational AI
摘要: 開發一個智能對話系統,不僅可以模擬人類對話,還可以回答從電影明星的最新消息到愛因斯坦的相對論等各種主題的問題,并完成旅行計劃等復雜任務,一直是人工智能最長的目標之一。這一目標直到最近才實現。隨著大量的會話數據可用于訓練,深度學習(DL)和強化學習(RL)的突破被應用到會話人工智能中,我們在學術界和工業界都看到了有希望的結果。在本教程中,我們首先簡要介紹與對話人工智能相關的DL和RL的最新進展。然后,我們詳細描述了為三種對話系統或機器人開發的最先進的神經方法。第一個是問答機器人。QA bot具有從各種數據源(包括Web文檔和預編譯的知識圖)中提取的豐富知識,可以為用戶查詢提供簡潔直接的答案。第二個是面向任務的對話系統,它可以幫助用戶完成從會議安排到假期計劃等任務。第三種是社交聊天聊天機器人,它能與人進行無縫、恰當的對話,經常扮演聊天伙伴和推薦者的角色。
邀請嘉賓: Michel Galley是微軟研究人工智能的高級研究員。他的研究興趣在自然語言處理和機器學習領域,特別關注會話人工智能、神經生成、統計機器翻譯和總結。他獲得了哥倫比亞大學的碩士和博士學位,并獲得了電子計算機科學學士學位。在加入微軟研究之前,他是斯坦福大學計算機系的研究助理。他還是南加州大學/國際科學院NLP小組和貝爾實驗室口語對話系統小組的定期訪問研究員。他與人合著了50多篇科學論文,其中許多出現在頂級的NLP、AI和ML會議上。其中兩份出版物是最佳論文決賽(NAACL 2010,EMNLP 2013)。他還擔任全國人民解放大會(ACL、NAACL、EMNLP)的地區主席,并在SIGIR和IJCAI擔任高級PC成員。
高劍鋒是微軟人工智能研究院的合作伙伴研究經理。他領導了人工智能系統的開發,用于機器閱讀理解(MRC)、問答(QA)、社交機器人、目標導向對話和商業應用。2014年至2017年,他擔任微軟研究院(Microsoft Research)深度學習技術中心(Deep Learning Technology Center)的合作研究經理,領導文本和圖像處理深度學習研究。從2006年到2014年,他是微軟研究中心(Microsoft Research)自然語言處理組的首席研究員,主要從事網絡搜索、查詢理解和重組、廣告預測和統計機器翻譯。從2005年到2006年,他是微軟自然交互服務部門的一名研究負責人,在那里他參與了ProjectX,這是一項為Windows開發自然用戶界面的工作。2000年至2005年,他在微軟亞洲研究院自然語言計算組擔任研究負責人,與同事們共同開發了微軟Office發布的首個中文語音識別系統,即市場上領先的中文/日文輸入法編輯器(IME),以及微軟Windows的自然語言平臺。