教程題目:Discourse Analysis and Its Applications
教程簡介:
話語處理是從文本中提取多種不同級別的語言學結構的一系列NLP任務,用于從多個層次的文本中發現語言結構,支持多種文本挖掘應用。它包括在一組對話內容中識別話題結構、識別一致性結構、識別互關聯結構以及識別對話結構。總之,這些結構可以用于文本總結、文章評分、情感分析、機器翻譯、信息提取、問題回答和線索重建。
本教程首先介紹論述分析中的基本概念:單向文本&對話,同步&非同步對話,以及論述分析中的關鍵語言學結構。然后將會將會介紹傳統的機器學習方法以及一些最新的基于深度學習的方法,并且在評測數據上比較它們的表現。對于提及的每種話語結構,講座中都會介紹它在下游的文本挖掘任務中的使用,也會詳細介紹評價它們的方式和指標。最后還會討論這個領域未來的挑戰以及發展機遇。
組織者:
Shafiq Joty是新加坡南洋理工大學(NTU)助理教授,新加坡Salesforce AI研究部高級經理,研究興趣是自然語言處理:話語處理、機器翻譯、圖像文字翻譯、問題回答、文字摘要、情緒分析;機器學習、概率圖形模型、深度學習、強化學習、表征學習。
Giuseppe Carenini是不列顛哥倫比亞大學計算機科學系教授、數據科學碩士聯合主任。研究興趣是人工智能:用戶建模、決策理論、機器學習;計算語言學 :自然語言生成、論證、多媒體;HCI:智能接口、信息可視化和交互技術。
Raymond Ng是不列顛哥倫比亞大學的計算機科學教授,數據科學研究所的所長。研究領域是數據挖掘,文本挖掘,健康信息學,傳感器分析和數據庫。
Gabriel Murray是UFV計算機信息系統副教授,UBC計算機科學系副教授,愛丁堡大學博士學位和理學碩士。研究興趣為語音與自然語言處理、計算語言學、多模態交互、情感分析,人工智能,機器學習,信念網絡,馬爾可夫決策過程,馬爾可夫獎勵過程,數據質量,數據挖掘,統計過程控制。
教程題目:Unsupervised Cross-Lingual Representation Learning
教程簡介:
在本教程中,將會對弱監督、無監督跨語言詞表征領域的最新最前沿成果進行一次完整的綜述。在簡要介紹了監督跨語言詞表示的歷史之后,重點介紹以下內容:
組織者:
Sebastian Ruder是倫敦DeepMind的一名研究科學家。在Insight數據分析研究中心完成了自然語言處理和深度學習的博士學位,同時在柏林的文本分析初創公司AYLIEN擔任研究科學家。
Anders S?gaard是哥本哈根大學計算機科學自然語言處理與機器學習教授,同時是柏林谷歌的訪問科學家。
Ivan Vuli?目前擔任劍橋大學詞匯項目(2015-2020年跨語言詞匯習得)的高級研究員。在庫魯汶大學獲得了計算機科學博士學位,研究興趣是自然語言處理、人類語言理解、機器學習理論和應用,信息檢索,主要在多語言/跨語言和多模式設置,包括(但不限于)雙語詞典提取和跨語言語義建模、跨語言和多語言信息檢索,分布語義,跨語言文本挖掘和知識轉移,語言基礎和認知建模的語言,詞匯獲取、文本表示學習、潛在主題模型、文本數據的概率建模、術語挖掘和對齊、機器翻譯、資源稀缺語言的無監督技術、多習慣用法和多模態信息搜索和檢索、多模態和視覺/感知增強語義等。
教程題目:Deep Bayesian Natural Language Processing
教程簡介:
這個教學講座將會介紹用于自然語言處理的深度貝葉斯學習的發展,以及它在語音識別、文本總結、文本分類、文本分割、信息提取、圖像描述生成、句子生成、對話控制、情感分類、推薦系統、問答、機器翻譯等等許多任務中的廣泛應用。傳統上,“深度學習”被認為是一個基于實值確定性模型進行推理或優化的學習過程。從大量詞匯中提取的詞匯、句子、實體、動作和文檔的“語義結構”在數學邏輯或計算機程序中可能不能很好地表達或正確地優化。自然語言的離散或連續潛在變量模型中的“分布函數”可能沒有被正確分解或估計。
本教程介紹了統計模型和神經網絡的基礎知識,并將重點講解一系列高級的貝葉斯模型以及深度模型。這些模型之間的聯系、能在自然語言的許多符號化表示和復雜模式中發揮作用的原因也會得到介紹。我們將介紹這些模型是如何連接的,以及它們為什么適用于自然語言中符號和復雜模式的各種應用程序。
為解決復雜模型的優化問題,提出了變分推理和抽樣方法。詞和句子的嵌入、聚類和共聚被語言和語義約束合并。提出了一系列的案例研究來解決深度貝葉斯學習和理解中的不同問題。最后,指出了一些未來研究的方向和展望。
組織者:
Jen-Tzung Chien在臺灣新竹國立清華大學取得電機工程博士學位。現任職于臺灣新竹國立交通大學電子及電腦工程學系及電腦科學系講座教授。2010年,他擔任IBM沃森研究中心的客座教授。他的研究興趣包括機器學習、深度學習、自然語言處理和計算機視覺。在2011年獲得了IEEE自動語音識別和理解研討會的最佳論文獎,并在2018年獲得了AAPM Farrington Daniels獎。2015年,劍橋大學出版社出版《貝葉斯語音與語言處理》;2018年,學術出版社出版《源分離與機器學習》。他目前是IEEE信號處理技術委員會機器學習的當選成員。
教程題目:Computational Analysis of Political Texts: Bridging Research Efforts Across Communities
教程簡介:
使用計算方法來研究政治文本的范圍急劇擴大,使政治科學中的文本即數據社區得以持續增長。NLP方法已被廣泛用于許多分析和任務,包括從文本記錄中推測某人的政治立場,檢測政治文本中的觀點,以及分析政治溝通中的文體運用(比如制定政治議程過程中語意模糊性起到的作用)。政治學家創建了資源并使用可用的NLP方法來處理文本數據,這在很大程度上與NLP社區隔離。
與此同時,NLP的研究人員處理了密切相關的任務,如選舉預測、意識形態分類和立場檢測。這兩個社區仍然很大程度上彼此不可知,NLP研究人員大多不知道政治科學中有趣的應用程序和用例,而政治科學家在將前沿NLP方法應用到他們的問題上落后。本教程將全面概述政治文本的計算分析工作。首先查看文本數據在政治分析中所扮演的角色,然后繼續研究文本即數據的政治科學社區所處理的具體資源和任務。接下來,介紹NLP社區迄今為止所做的研究工作,重點介紹對政治文本進行專題分析的方法,包括無監督的主題歸納和監督的主題分類研究。最后,以政治文本標度作為本教程的結尾,這是文本數據中意識形態檢測的一個具有挑戰性的任務,它是定量政治學的核心,最近也引起了NLP學者的注意。
組織者:
GoranGlava?是德國曼海姆大學博士教授,跨學科研究文本分析初級教授,研究興趣是詞匯和計算語義,信息提取,多語言和跨語言NLP,NLP在社會科學和人文學科中的應用,信息檢索。
Federico Nanni是艾倫·圖靈研究所的研究數據科學家,是研究工程小組的一員,也是倫敦大學高級研究學院的訪問學者。目前研究人文數字、計算社會科學、互聯網研究和自然語言處理之間的交叉。
Simone Paolo Ponzetto于2013年2月加入數據與網絡科學小組,擔任初級教授,并于2016年2月起擔任曼海姆大學信息系統III講座教授。
教程題目:Graph-Based Meaning Representations: Design and Processing
教程簡介:
近年來,人們對以標記有向圖的形式對句子意義進行編碼和處理產生了廣泛的興趣。舉例說明這條研究路線的框架包括:抽象意義表示、基于圖的最小遞歸語義表示、雙向語義依賴圖和通用概念認知注釋。
作為對高級的基于向量的意義表征的補充,對這種層次結構和離散的語義表示的解析,從早期開始就是自然語言理解的基石,并將繼續為理解自然語言做出重要貢獻。本教程將
最終目標是提供不同語義圖庫和相關解析工作的統一視圖,從而減少NLP開發人員和用戶從這個令人興奮的領域最近的成功和最佳實踐中獲益的障礙。
組織者:
Alexander Koller是一名計算語言學教授,哥倫比亞大學和愛丁堡大學的博士后。研究興趣包括為自然語言現象提出簡潔的數學模型和解決自然語言處理中有用問題的有效算法。特別是在計算語義、語法形式和自然語言生成(NLG)方面做了大量的研究。
Stephan Oepen在柏林、伏爾加格勒和薩爾布呂肯學習了語言學、德語和俄語語言學、計算機科學和計算語言學。2011年至2017年,他在奧斯陸大學(University of Oslo)領導語言技術部門。在此之前,他曾在DFKI和Saarland大學(均為德國)、YY技術公司(山景城)和斯坦福大學(均為美國)工作。他的研究圍繞著語言學和計算機技術的結合,在那里他發表了大約90篇經過同行評審的研究論文和會議論文,并與其他人共同創建了全球網絡和北歐語言處理實驗室(NLPL)。Oepen已經指導完成了5個博士項目和12個理學碩士學位。他是計算語言學編輯委員會和歐洲計算語言學協會執行委員會的成員,同時也是ACL自然語言解析特別興趣小組的秘書和計算語言學協會歐洲分會2017年會議和自然語言處理經驗方法2018年會議的區域聯席主席。在2017-18學年,Oepen在挪威科學與文學院高級研究中心聯合指導一個國際研究小組。
孫薇薇,計算語言學家。目前在北京大學王選計算機研究所工作,也是北京大學中國語言學中心的兼職研究員。薩爾大學計算語言學系的博士研究生,導師是Hans Uszkoreit教授。研究集中于應用圖對語法和語義分析進行編碼,以及利用以圖為中心的形式主義和算法來明確地表達語言理論。
教程題目:Computational Models for Social and Information Network Analysis
教程簡介:
在本教程中,系統地介紹了社會信息網絡的挖掘和學習,涉及的主題從個人到二元交互到群體集體到信息空間。將從微信的真實例子開始教程,解釋在線社交網絡如何影響我們的離線物理世界。然后,我們將全面介紹社會網絡分析的歷史和最新進展,包括用戶分析的方法和算法,用戶行為建模,社會關系和群體建模,影響和信息擴散的結構。并且介紹如何應用計算模型——圖形模型、深度學習和嵌入技術——來挖掘和學習網絡結構。本教程的獨特之處在于,它的目標是向讀者提供以下內容:社會網絡分析中的社會與圖論基礎、將社交網絡研究轉化為在線和移動應用的經驗,包括騰訊微信和游戲、阿里巴巴、XueTangX、AMiner和微軟學術。最后,本教程中介紹的所有工作都保證使用開放代碼,我們還將借此機會發布最大的開放學術圖,其中包含2億個節點和30億個鏈接,用于社會網絡分析。
大綱:
1.社會歷史和信息網絡分析
2.網絡中的社會影響
3.網絡表示學習
4.結論與問答(5分鐘)
組織者:
唐杰,清華大學計算機科學與技術學院教授,康奈爾大學、香港科技大學、南安普頓大學訪問學者。他的興趣包括社會網絡分析、數據挖掘和機器學習。他發表了200多篇期刊/會議論文,擁有20項專利,被引用次數超過1萬次。他是CIKM'16、WSDM'15、ASONAM'15、SocInfo'12的PC聯合主席,是2018年KDD的副主席,ACM TKDD的代理主編,IEEE TKDE/TBD和ACM TKDD/TIST的副主編。他領導的學術社交網絡分析和挖掘項目AMiner.org已經吸引了來自世界220個國家/地區的800多萬個獨立IP訪問。曾獲國家自然科學基金杰出青年學者獎、英國皇家學會-牛頓先進獎學金、牛頓先進獎學金、ACM SIGKDD服務獎。
主題: Tractable Probabilistic Models: Representations, Algorithms, Learning, and Applications
摘要: 在本教程中,我們將提供一個豐富的TPM文獻的額外說明,從有關混合和樹模型的開創性工作開始,到最新的表示,如概率電路。在這樣做的同時,我們將強調概率推理和學習中難處理性的來源,回顧不同可處理表示所采用的解決方案來克服它們,并討論它們是如何權衡以保證可處理性的。此外,我們將放大當前最先進的胎壓監測系統,分離并理解填充這一領域的模型(ACs、CNs、DNNFs、d-DNNFs、OBDDs、PSDDs、SDD、SPN等)的“字母湯”。我們將展示如何在一個統一的框架下將這些模型表示為概率電路,討論哪些結構屬性描述了每個模型類并實現了不同類型的可跟蹤性。我們將討論主要的算法范例,從數據中自動學習TPMs的結構和參數。最后,我們將展示幾個成功的應用場景,其中TPMs被用作替代或與難處理模型結合使用,包括圖像分類、完成和生成、場景理解、活動識別、語言和語音建模、生物信息學、協作過濾、驗證和診斷。
邀請嘉賓:
Guy Van den Broeck,是加州大學洛杉磯分校計算機科學系的助理教授和Samueli研究員,負責指導統計和關系人工智能(StarAI)實驗室。他的研究興趣是機器學習(統計關系學習、可處理學習、概率編程),知識表示和推理(概率圖形模型、提升概率推理、知識匯編、概率數據庫)和一般人工智能。蓋伊的作品獲得了UAI、ILP和KR等主要人工智能領域的最佳論文獎,并在AAAI獲得杰出論文榮譽獎。
Nicola Di Mauro,他自2005年起擔任巴里奧爾多莫羅大學計算機科學系助理教授,是拉康實驗室機器學習小組的成員。2005年,他在巴里-奧爾多-莫羅大學獲得博士學位。他的主要研究方向是統計關系學習、概率深度學習和機器學習及其應用。
Antonio Vergari,他目前是加州大學洛杉磯分校(UCLA)StarAI實驗室的博士后研究員,致力于整合可處理的概率推理和深度表示。此前,他是德國圖賓根馬克斯普朗克智能系統研究所的博士后,在那里,他致力于通過可處理的概率模型實現機器學習和數據科學的自動化。
題目: Multimodal Intelligence: Representation Learning, Information Fusion, and Applications
摘要: 自2010年以來,深度學習已經徹底改變了語音識別、圖像識別和自然語言處理,每一項都涉及到輸入信號中的單一模態。然而,人工智能中的許多應用都涉及到一種以上的模式。因此,研究跨多種模式的建模和學習這一更為困難和復雜的問題具有廣泛的興趣。本文對多模態智能的模型和學習方法進行了技術綜述。視覺與自然語言的結合已成為計算機視覺和自然語言處理研究領域的一個重要課題。本文從學習多模態表示、多模態信號在不同層次的融合以及多模態應用三個新的角度,對多模態深度學習的最新研究成果進行了綜合分析。在多模態表示學習中,我們回顧了嵌入的關鍵概念,它將多模態信號統一到同一向量空間中,從而實現跨模態信號處理。我們還回顧了為一般下游任務構造和學習的許多嵌入類型的特性。關于多模融合,本文著重介紹了用于集成特定任務的單模信號表示的特殊體系結構。在應用程序方面,涵蓋了當前文獻中廣泛關注的選定領域,包括標題生成、文本到圖像生成和可視化問題解答。我們相信,這項檢討有助于社區未來在新興多模態情報領域的研究。
作者簡介:
Zichao Yang (楊子超),他是芝加哥大學計算機科學系的博士生。他對機器學習、深度學習及其在計算機視覺、自然語言處理中的應用感興趣。在到CMU之前,他獲得了香港大學的碩士學位,上海交通大學的學士學位。他之前曾在谷歌DeepMind實習,與Chris Dyer和Phil Blunsom合作,MSR與He Xiaodong、Gao Jianfeng和Li Deng合作。 個人主頁://www.cs.cmu.edu/~zichaoy/
Xiaodong He(何曉東)是華盛頓大學西雅圖分校電氣工程系的副教授。他也是微軟研究中心的首席研究員,華盛頓州雷德蒙德。1996年獲清華大學(北京)學士學位,1999年獲中國科學院(北京)碩士學位,2003年獲密蘇里哥倫比亞大學博士學位。他的研究興趣在于人工智能領域,包括深度學習、語音、自然語言、計算機視覺、信息檢索和知識表示與管理。他撰寫/合著了100多篇論文和一本書,并在ACL、CVPR、SIGIR、WWW、CIKM、NIPS、ICLR、IEEE TASLP、Proc上發表。IEEE、IEEE SPM等場館。他和同事開發了MSR-NRC-SRI條目和MSR條目,分別在2008年NIST機器翻譯評估和2011年IWSLT評估(中英文)中獲得第一名,并開發了MSR圖像字幕系統,在2015年的MS COCO字幕挑戰賽中獲得一等獎。他曾在多家IEEE期刊擔任編輯職務,擔任NAACL-HLT 2015地區主席,并在主要演講和語言處理會議的組織委員會/項目委員會任職。他是IEEESLTC的當選成員,任期2015-2017年。他是IEEE高級成員,2016年IEEE西雅圖分部主席。 個人主頁:
Li Deng是一位經驗豐富的首席執行官,在高科技行業有著豐富的工作經驗。在人工智能、機器學習、數學建模、計算機科學、語音識別、自然語言處理、深度學習、神經網絡、大數據分析、財務和統計建模等方面具有較強的技術、執行管理和業務開發專業技能。等