報告主題: 信息抽取前沿動態
報告摘要: 信息抽取是從自然語言文本中抽取指定類型的實體、關系、事件等事實信息,并形成結構化數據輸出的文本處理技術。本次報告從特征多元化、語料構建(半)自動化、任務聯合學習等方面分析了當前信息提取的任務難點,并提出解決方案。
邀請嘉賓: 陳玉博,博士,中科院自動化所模式識別國家重點實驗室助理研究員,研究方向為信息抽取、知識圖譜和自然語言處理。在ACL、EMNLP、COLING、CIKM、WWW、AAAI等國際重要會議和期刊發表學術論文20余篇,曾獲得NLP-NABD 2016最佳論文獎、CCKS 2017最佳論文獎。主持或參與國家自然科學基金青年基金項目、國家自然科學基金重點項目以及多項企業合作科研項目的研發,合作企業包括:華為、螞蟻金服、騰訊、云知聲等,同時也開發了事件抽取、關系抽取、實體識別和消歧等多項工具和軟件。目前為中國中文信息學會青年工作委員會委員、中國中文信息學會語言與知識計算專委會委員。2018年獲得中國中文信息學會“錢偉長中文信息處理科學技術獎”一等獎。
**報告主題: 做失敗科研的10個方法
**報告摘要: 成功的科研都是相似的,失敗的科研各有各的失敗。成功科研方法讓你仰望星空,失敗科研方法讓你在仰望星空的時候避免掉入水坑。如果成功的科研是可以學習的,那么正例讓你發更多的好論文(Recall),但是我們也需要很多負例讓你用更少的投稿發出更多的好論文(Precision),少走彎路,我們的優化目標是尋找最優的F值。 本報告基于兩位講者在30年(求和得出)科研經歷中遇到過、看到過、聽到過的失敗科研方法,包括失敗科研的哲學、心態、理念、方法、技術和工具。我們試圖包含大量的信息,同時保持有趣。當然,在描述10(也可能不止)個失敗科研方法的最后,我們也給出失敗科研的反面—如何做出成功的科研。
**邀請嘉賓: 劉康 博士,現任中科院自動化所模式識別國家重點實驗室副研究員,西安電子科技大學客座教授。研究領域包括信息抽取、網絡挖掘、問答系統等,同時也涉及模式識別與機器學習方面的基礎研究。在自然語言處理、知識工程等領域國際重要會議和期刊發表論文90余篇(如TKDE、ACL、IJCAI、EMNLP、COLING、CIKM等),獲得KDD CUP 2011 Track2 全球亞軍,COLING 2014最佳論文獎,首屆“CCF-騰訊犀牛鳥基金卓越獎”、2015、2016 Google Focused Research Award。2014年獲得中國中文信息學會“錢偉長中文信息處理科學技術獎-漢王青年創新一等獎”、2018年獲得中國中文信息學會“錢偉長中文信息處理科學技術獎”一等獎(排名第二)等獎項,兼任中國中文信息學會青年工作委員會主任、語言與知識計算專業委員會秘書長等學術職務。韓先培 博士,中國科學院軟件研究所中文信息處理實驗室/計算機科學國家重點實驗室研究員。主要研究方向為信息抽取、知識圖譜、語義解析以及智能問答系統。在ACL、SIGIR、AAAI、EMNLP等重要國際會議發表論文四十余篇。韓先培是中國中文信息學會理事,語言與知識計算專業委員會副主任,中國科學院青促會會員。2016年入選中國科協青年人才托舉計劃,獲得中國中文信息學會漢王青年創新獎。
報告主題: 機器翻譯前沿綜述
報告摘要: 機器翻譯利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程。它是計算語言學的一個分支,是人工智能的終極目標之一,具有重要的科學研究價值。同時,機器翻譯又具有重要的實用價值。隨著經濟全球化及互聯網的飛速發展,機器翻譯技術在促進政治、經濟、文化交流等方面起到越來越重要的作用。
邀請嘉賓: 馮洋,博士,中國科學院計算技術研究所“新百星人才引進計劃”入選者,副研究員、博士生導師,主要研究方向為機器翻譯和人機對話。在中科院計算所獲得博士學位后,先后在謝菲爾德大學和USC/ISI開展研究工作。在ACL、EMNLP、COLING、NAACL等自然語言處理主流學術會議上發表論文40余篇,獲得ACL 2019最佳長文獎,為國內迄今唯一獲獎。多次在NIST、IWSLT、CWMT等國內外權威機器翻譯評測中獲得第一名。擔任COLING 2018領域主席,并擔任CCL 2018、2019學生研討會主席、CCMT 2019研討會主席。
報告主題: 社會媒體處理前沿綜述
報告摘要: 隨著社會媒體類型的不斷增加,與傳統的社會媒體相比,現在社會媒體是大眾參與發布和傳播消息,以社會網絡為基礎,以互聯網用戶創造和傳播信息為主要形式的在線交互媒體。此次報告介紹了社會媒體以及處理研究的發展趨勢和方法論、社會媒體的主客觀信息,最后介紹了社會媒體處理技術發展趨勢。
邀請嘉賓: 丁效,博士,哈爾濱工業大學助理研究員。主要研究方向為人工智能、自然語言處理、社會計算和事理圖譜。2016年獲得哈爾濱工業大學博士學位,已在人工智能領域的頂級國際期刊和會議IJCAI、AAAI、EMNLP等發表相關論文20余篇。承擔國家自然科學基金青年項目等省部級以上項目四項,參與科技創新2030“新一代人工智能”重大項目、國家重大科技基礎設施建設項目、科技部973課題、國家自然科學基金重點項目等。榮獲全國青年人工智能創新創業大會三等獎、第五屆全國青年計算語言學研討會優秀論文獎等榮譽。擔任中國中文信息學會社會媒體處理專委會秘書、委員、智能金融工作組副組長,中國中文信息學會青年工作委員會委員。
報告主題:從知識表示發展歷史理解知識圖譜
報告摘要:語言和知識表達的多樣性使得知識的生產和消費之間存在巨大差異,知識表示通過對知識的解耦和組合銜接不同個體的內在知識。目前,知識圖譜儼然成為學術界和業界的知識表示新寵,它有什么特點?與傳統知識表示有什么關系?本報告將從知識的數據化和數據的知識化兩條知識表示發展脈絡介紹知識圖譜的由來,并介紹知識圖譜在大數據時代描述知識的優缺點,希望能增加大家對知識圖譜的理解。
嘉賓簡介:何世柱,博士,中科院自動化所模式識別國家重點實驗室副研究員,2016年獲得中國科學院大學工學博士學位。研究方向為自然語言處理、知識工程和問答系統。在ACL、EMNLP、CIKM、AAAI、IJCAI等自然語言處理、知識工程和人工智能國際重要會議發表論文20余篇。參與國家自然科學基金重點項目、973計劃、863計劃以及多項企業合作科研項目的研發,合作企業包括:華為、阿里巴巴、騰訊等,同時也開發了知識抽取,知識問答等多項工具和軟件。目前主持國家自然科學基金青年科學基金項目“知識問答中的自然答案生成關鍵技術研究”,2018年獲得中國中文信息學會錢偉長中文信息處理科學技術獎一等獎。
報告主題:任務型對話系統
報告簡介:對話系統一般可以分為兩種,即任務型對話系統(也稱作目標導向型對話系統)和閑聊對話系統。本講習班主要介紹任務型對話系統,其多用于垂直領域業務助理系統,如微軟小娜、百度度秘、阿里小蜜以及我們研發的對話技術平臺(DTP)等。這類系統具有明確需要完成的任務目標,如訂餐、訂票等。我們將首先介紹任務型對話系統的背景和定義,然后依次介紹其中的關鍵技術,包括自然語言理解(包括領域意圖的識別和語義槽的填充)、對話管理(包括對話狀態跟蹤和對話策略優化)以及自然語言生成;接著介紹任務型對話系統的評價方法和國內外相關技術評測任務;最后對任務型對話系統的技術和應用趨勢進行展望。
邀請嘉賓:車萬翔博士,哈爾濱工業大學計算機學院教授,博士生導師,斯坦福大學訪問學者,合作導師Christopher Manning教授。現任中國中文信息學會計算語言學專業委員會委員、青年工作委員會副主任;中國計算機學會高級會員、曾任YOCSEF哈爾濱主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等國內外高水平期刊和會議上發表學術論文50余篇,其中AAAI 2013年的文章獲得了最佳論文提名獎,論文累計被引用2,100余次(Google Scholar數據),H-index值為26。出版教材 2 部,譯著 2 部。承擔國家自然科學基金、973等多項科研項目。負責研發的語言技術平臺(LTP)已被600余家單位共享,提供的在線“語言云”服務已有用戶1萬余人,并授權給百度、騰訊、華為等公司使用。2018年,獲CoNLL多語種句法分析國際評測第1名。2015-16年,連續兩年獲Google Focused Research Award(谷歌專注研究獎);2016年,獲黑龍江省科技進步一等獎(排名第2);2012年,獲黑龍江省技術發明獎二等獎(排名第2);2010年獲中國中文信息學會“錢偉長”中文信息處理科學技術獎一等獎(排名第2)、首屆漢王青年創新獎(個人)等多項獎勵。2017年,所主講的《高級語言程序設計(Python)》課程獲國家精品在線開放課程。
張偉男,哈爾濱工業大學計算機科學與技術學院副教授/博士。研究興趣包括人機對話及自然語言處理。在ACL、AAAI、IJCAI及IEEE TKDE等CCF A類國際會議及國際頂級期刊發表論文多篇,主導研發了人機對話系統“笨笨”。目前為中國中文信息學會(CIPS)信息檢索專委會委員、青年工作委員會委員,中國人工智能學會(CAAI)青年工作委員會委員。曾獲黑龍江省科技進步一等獎、中國人工智能學會最佳青年成果獎、中國人工智能學會“合創杯”第二屆全國青年創新創業大賽三等獎及首屆“百度獎學金”。
題目:異質信息網絡的表示學習與應用
摘要:當前的社會網絡分析主要針對同質網絡(即網絡中結點類型相同),但是現實世界中的網絡化數據通常包含不同類型的對象,并且對象之間的關聯表示不同的語義關系。構建異質信息網絡(即包含不同類型的結點或邊的網絡)可以包含更加完整的對象之間的關聯信息,因此分析這類網絡有希望挖掘更加準確的模式。表示學習能夠自動抽取對象的隱含特征,為后續機器學習服務,成為近期的研究熱點。本報告將系統介紹異質信息網絡的表示學習方法,包括隨機游走等淺層模型方法和神經網絡等深層模型方法。報告也將介紹異質網絡表示學習在實際問題上的應用。
個人簡介:北京郵電大學計算機學院教授、博士研究生導師、智能通信軟件與多媒體北京市重點實驗室副主任。主要研究方向: 數據挖掘、機器學習、人工智能和演化計算。近五年來,作為第一作者或通信作者發表高水平學術論文50余篇,英文專著一部,包括數據挖掘領域的頂級期刊和會議IEEE TKDE、ACM TIST、KDD、AAAI、IJCAI、WWW等,相關研究成果應用于阿里巴巴、騰訊、華為等公司。獲得ADMA2011/AMDA2018國際會議最佳論文獎、CCF-騰訊犀牛鳥基金及項目優秀獎,并指導學生獲得頂尖國際數據挖掘競賽IJCAI Contest 2015 全球冠軍。獲得北京市高等學校青年英才和師德先鋒等稱號。
報告主題:開放語義解析
報告摘要:語義解析(Semantic Parsing)是將自然語言句子轉換為機器可識別的、可計算的語義表示的任務。語義解析是自然語言處理的核心任務之一,在智能問答、語音助手、智能機器人、代碼生成等任務上具有廣泛的應用。本報告將詳細介紹語義解析這項任務,首先介紹語義解析任務、數據集和工具,然后依次介紹基于文法的語義解析方法(CCG,DCS等)、基于語義圖構建的語義解析方法和新興的神經語義解析方法(Seq2Seq, Seq2Act, coarse-to-fine等),最后對語義解析的前沿方向和重要挑戰進行展望,包括上下文有關的語義解析(可用于對話),與周邊環境有交互的語義解析(如用于機器人執行指令)。
報告嘉賓:韓先培,博士,中國科學院軟件研究所中文信息處理實驗室/計算機科學國家重點實驗室研究員。主要研究方向為信息抽取、知識圖譜、語義解析以及智能問答系統。在ACL、SIGIR、AAAI、EMNLP等重要國際會議發表論文四十余篇。韓先培是中國中文信息學會理事,語言與知識計算專業委員會副主任,中國科學院青促會會員,入選中國科協青年人才托舉計劃,獲得中國中文信息學會漢王青年創新獎。 陳波,博士,中國科學院軟件研究所中文信息處理實驗室助理研究員,2018年獲得中國科學院大學博士學位,并獲得優秀畢業生。主要研究方向為語義解析(Semantic Parsing)和自然語言理解。在ACL、COLING、NAACL等自然語言處理國際頂級會議發表學術論文多篇。參與多項國家自然科學基金重點課題以及企業合作科研項目的研發。
報告主題:面向自然語言處理的深度學習基礎
報告摘要:深度學習是人工智能領域的前沿熱點,已在自然語言處理領域取得了令人矚目的成績,本篇報告從自然語言處理著手,以機器學習、網絡模型為基礎,并結合自然語言處理的實例,以及最新研究進展,全方面多層次地進行講解,為感興趣的學者、學生和工程師,提供了一個快速了解相關基礎知識、研究內容、發展趨勢的窗口。
嘉賓介紹:邱錫鵬,男,復旦大學計算機科學技術學院副教授,中國中文信息學會青年工作委員會委員,中國人工智能學會青年工作委員會常務委員,主要從事自然語言處理、深度學習等方向的研究,在 ACL、EMNLP、AAAI、IJCAI 等計算機學會 A/B 類期刊、會議上發表 50 余篇學術論文。開源自然語言處理工具 FudanNLP [GitHub] [Google Code] 項目開發者,FastNLP [GitHub] 項目負責人。 2015 年入選首屆中國科協人才托舉工程,2018 年獲中國中文信息學會 “錢偉長中文信息處理科學技術獎—漢王青年創新獎”