主題: NLPer的核心競爭力是什么?
摘要: 自然語言處理是當前人工智能研究的重要方向之一。那么從事NLP的人員如何能夠不斷升級,構建核心競爭力,請看哈工大SCIR車萬翔教授受邀在學生研討會上作了一場特邀報告,報告題目為《NLPer的核心競爭力是什么?》。在本次報告中,車萬翔教授強調,NLPer需要有發現問題與解決問題的能力,并且需要對基本概念理解得更準確、對研究有更好的品味以及對數據更敏感。此外,車萬翔教授還提到,盡管深度模型的能力越來越強,我們也不能忽視結構的重要性。
作者簡介: 車萬翔, 博士,哈爾濱工業大學計算機學院教授,博士生導師,斯坦福大學訪問學者,合作導師Christopher Manning教授。現任中國中文信息學會計算語言學專業委員會委員、青年工作委員會副主任;中國計算機學會高級會員、曾任YOCSEF哈爾濱主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等國內外高水平期刊和會議上發表學術論文50余篇,其中AAAI 2013年的文章獲得了最佳論文提名獎,論文累計被引用2,100余次(Google Scholar數據),H-index值為26。出版教材 2 部,譯著 2 部。承擔國家自然科學基金、973等多項科研項目。負責研發的語言技術平臺(LTP)已被600余家單位共享,提供的在線“語言云”服務已有用戶1萬余人,并授權給百度、騰訊、華為等公司使用。2018年,獲CoNLL多語種句法分析國際評測第1名。2015-16年,連續兩年獲Google Focused Research Award(谷歌專注研究獎);2016年,獲黑龍江省科技進步一等獎(排名第2);2012年,獲黑龍江省技術發明獎二等獎(排名第2);2010年獲中國中文信息學會“錢偉長”中文信息處理科學技術獎一等獎(排名第2)、首屆漢王青年創新獎(個人)等多項獎勵。2017年,所主講的《高級語言程序設計(Python)》課程獲國家精品在線開放課程。
題目: 自然語言與理解
摘要: 雖然自然語言一直在社會、經濟和國家安全等領域中扮演著重要角色,但是一直以來計算機的自然語言理解能力遠遜于人類。近幾年,隨著移動互聯網的不斷普及,以及云計算、大數據、GPU、深度學習等相關平臺和技術的快速發展,我們越來越感到自然語言處理方面的突破就在眼前。本報告將從自然語言理解層面探討如何提高自然語言處理能力。具體包括:自然語言本質特點、自然語言處理核心任務、篇章理解與知識圖譜。
個人簡介: 周國棟教授,1997年12月畢業于新加坡國立大學獲得博士學位;1998年1月至1999年3月在新加坡國立大學從事博士后研究;1999年4月-2006年8月在新加坡資訊通信研究院分別擔任副研究員、研究員和副主任研究員;2006年8月底加入蘇州大學擔任教授博導,組建自然語言處理實驗室。研究方向:自然語言理解、信息抽取、自然語言認知等。近5年來,發表國際著名SCI期刊論文20多篇和國際頂級會議ACL/EMNLP/COLING/IJCAI/AAAI論文80多篇,主持NSFC項目4個(包括重點項目2個)。據Google Scholar統計,論文引用超過7000次,曾擔任國際自然語言理解領域頂級SCI期刊Computational Linguistics編委,目前擔任ACM TALLIP副主編、《軟件學報》責任編委、CCF中文信息技術專委會副主任委員、蘇州大學學術委員會委員。
報告主題: 表示學習--自然語言處理中的圖神經網絡(Graph Neural Networks in NLP)
報告摘要: 圖神經網絡可以通過節點間的信息傳遞有效地捕捉結構信息。自該概念提出以來,圖神經網絡技術已經在自然語言處理、數據挖掘等多個領域得到了廣泛的應用。此次報告講述了自然語言處理中的圖神經網絡,首先介紹了幾種自然語言處理中的圖形結構并提出了一些在自然語言處理中所遇到的圖形問題,然后介紹了圖形表示的三種主要模型以及使用圖形編碼解決問題:神經機器翻譯、文本生成、問題回答、信息提取、情緒、社會分類、語義分析、語義角色標記、單詞嵌入、句子表示。
邀請嘉賓: 張岳,博士,西湖大學長聘副教授。研究領域包括自然語言處理和計算金融。2003年于清華大學獲得計算機科學學士學位,2006年于英國牛津大學獲得計算機科學碩士學位,2009年于英國牛津大學獲得計算機科學博士學位,2010年-2012年在英國劍橋大學從事博士后研究,2012年-2018年在新加坡科技與設計大學擔任助理教授。目前已在國際、國內頂級學術會議上發表論文百余篇,曾獲得IALP 2017和COLING 2018最佳論文獎、NLPCC青年新銳獎,且他的研究成果持續被谷歌、阿里巴巴、美國教育考試服務中心(ETS)等頂尖企業應用于工業生產前線。擔任Transactions of ACL執行主編,ACM Transactions on Asian and Low Resource Language Information Processing副主編,IEEE Transactions on Big Data副主編,以及COLING 2014/18,NAACL 2015/19,EMNLP 2015/17/19,ACL 2017/18/19等國際學會會議的區域主席。
報告主題: 信息檢索
報告摘要: 信息檢索是用戶進行信息查詢和獲取的主要方式,是查找信息的方法和手段。信息按一定的方式進行加工、整理、組織并存儲起來,再根據信息用戶特定的需要將相關信息準確的查找出來的過程。又稱信息的存儲于檢索。
邀請嘉賓: 任昭春,博士,山東大學教授,博士生導師。2016年10月在荷蘭阿姆斯特丹大學取得博士學位;2016年至2017年在倫敦大學學院工作,2017年至2019年在京東數據科學實驗室擔任算法科學家。任昭春主要從事信息檢索和自然語言處理方面的研究,特別關注于社交媒體內容分析,搜索多樣性,問答和對話系統,以及可解釋性推薦系統等研究問題,目前已在計算機領域各個國際頂級會議和期刊上共發表60余篇論文,獲得信息檢索領域國際頂級會議WSDM2018最佳學生論文獎和CIKM2017最佳長論文提名獎;應邀擔任信息檢索領域和自然語言處理領域多項頂級會議程序委員會委員和頂級期刊審稿人。同時任昭春在信息檢索領域一直擔任多項會議和期刊的組織服務工作。
報告主題: 預訓練模型--自然語言處理的新范式
報告摘要: 傳統的有監督自然語言處理模型依賴大規模的人工標注訓練數據,這些數據標注代價非常高,因此規模有限,這也限制了自然語言處理系統進一步提升精度。以Word2vec,GloVe等為代表的詞向量技術可以視為一種早期的預訓練模型, 從大規模未標注文本中預訓練的詞向量,在一定程度上提高了上層模型的精度。然而,這些模型假設“一個詞由唯一的向量表示”,忽略了它們在不同上下文下的差異。以ELMo為代表的上下文相關詞向量模型取消了以上的假設,在不同的上下文環境下,賦予相 同的詞以不同的詞向量,因此又被稱為“動態”詞向量。BERT等模型進一步使用更深層的網絡進行預訓練,并使用了語言模型之外的預訓練目標,在應用模式上也從簡單的特征提取轉換為精調整個網絡結構。這些新的預訓練模型在眾多自然語言處理任務上取得 了很好的效果,已成為自然語言處理的新范式。本報告首先介紹預訓練模型的演化過程,接著介紹預訓練模型在應用方面的最新研究進展,另外還列舉了一些對預訓練模型進行定性和定量分析的工作,最后對自然語言處理中預訓練模型的發展趨勢進行了展望。
邀請嘉賓: 車萬翔 博士,哈爾濱工業大學計算機學院教授,博士生導師,斯坦福大學訪問學者,合作導師Christopher Manning教授。現任中國中文信息學會計算語言學專業委員會委員、青年工作委員會副主任;中國計算機學會高級會員、曾任 YOCSEF哈爾濱主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等國內外高水平期刊和會議上發表學術論文50余篇,其中AAAI 2013年的文章獲得了最佳論文提名獎,論文累計被引用2,100余次(Google Scholar數據),H-index值為26。出版教材 2 部,譯 著 2 部。承擔國家自然科學基金、973等多項科研項目。負責研發的語言技術平臺(LTP)已被600余家單位共享,提供的在線“語言云”服務已有用戶1萬余人,并授權給百度、騰訊、華為等公司使用。2018年,獲CoNLL多語種句法分析國際評測第1名。2015-16年, 連續兩年獲Google Focused Research Award(谷歌專注研究獎);2016年,獲黑龍江省科技進步一等獎(排名第2);2012年,獲黑龍江省技術發明獎二等獎(排名第2);2010年獲中國中文信息學會“錢偉長”中文信息處理科學技術獎一等獎(排名第2)、首屆 漢王青年創新獎(個人)等多項獎勵。2017年,所主講的《高級語言程序設計(Python)》課程獲國家精品在線開放課程。
報告主題:任務型對話系統
報告簡介:對話系統一般可以分為兩種,即任務型對話系統(也稱作目標導向型對話系統)和閑聊對話系統。本講習班主要介紹任務型對話系統,其多用于垂直領域業務助理系統,如微軟小娜、百度度秘、阿里小蜜以及我們研發的對話技術平臺(DTP)等。這類系統具有明確需要完成的任務目標,如訂餐、訂票等。我們將首先介紹任務型對話系統的背景和定義,然后依次介紹其中的關鍵技術,包括自然語言理解(包括領域意圖的識別和語義槽的填充)、對話管理(包括對話狀態跟蹤和對話策略優化)以及自然語言生成;接著介紹任務型對話系統的評價方法和國內外相關技術評測任務;最后對任務型對話系統的技術和應用趨勢進行展望。
邀請嘉賓:車萬翔博士,哈爾濱工業大學計算機學院教授,博士生導師,斯坦福大學訪問學者,合作導師Christopher Manning教授。現任中國中文信息學會計算語言學專業委員會委員、青年工作委員會副主任;中國計算機學會高級會員、曾任YOCSEF哈爾濱主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等國內外高水平期刊和會議上發表學術論文50余篇,其中AAAI 2013年的文章獲得了最佳論文提名獎,論文累計被引用2,100余次(Google Scholar數據),H-index值為26。出版教材 2 部,譯著 2 部。承擔國家自然科學基金、973等多項科研項目。負責研發的語言技術平臺(LTP)已被600余家單位共享,提供的在線“語言云”服務已有用戶1萬余人,并授權給百度、騰訊、華為等公司使用。2018年,獲CoNLL多語種句法分析國際評測第1名。2015-16年,連續兩年獲Google Focused Research Award(谷歌專注研究獎);2016年,獲黑龍江省科技進步一等獎(排名第2);2012年,獲黑龍江省技術發明獎二等獎(排名第2);2010年獲中國中文信息學會“錢偉長”中文信息處理科學技術獎一等獎(排名第2)、首屆漢王青年創新獎(個人)等多項獎勵。2017年,所主講的《高級語言程序設計(Python)》課程獲國家精品在線開放課程。
張偉男,哈爾濱工業大學計算機科學與技術學院副教授/博士。研究興趣包括人機對話及自然語言處理。在ACL、AAAI、IJCAI及IEEE TKDE等CCF A類國際會議及國際頂級期刊發表論文多篇,主導研發了人機對話系統“笨笨”。目前為中國中文信息學會(CIPS)信息檢索專委會委員、青年工作委員會委員,中國人工智能學會(CAAI)青年工作委員會委員。曾獲黑龍江省科技進步一等獎、中國人工智能學會最佳青年成果獎、中國人工智能學會“合創杯”第二屆全國青年創新創業大賽三等獎及首屆“百度獎學金”。
報告主題:面向自然語言處理的深度學習基礎
報告摘要:深度學習是人工智能領域的前沿熱點,已在自然語言處理領域取得了令人矚目的成績,本篇報告從自然語言處理著手,以機器學習、網絡模型為基礎,并結合自然語言處理的實例,以及最新研究進展,全方面多層次地進行講解,為感興趣的學者、學生和工程師,提供了一個快速了解相關基礎知識、研究內容、發展趨勢的窗口。
嘉賓介紹:邱錫鵬,男,復旦大學計算機科學技術學院副教授,中國中文信息學會青年工作委員會委員,中國人工智能學會青年工作委員會常務委員,主要從事自然語言處理、深度學習等方向的研究,在 ACL、EMNLP、AAAI、IJCAI 等計算機學會 A/B 類期刊、會議上發表 50 余篇學術論文。開源自然語言處理工具 FudanNLP [GitHub] [Google Code] 項目開發者,FastNLP [GitHub] 項目負責人。 2015 年入選首屆中國科協人才托舉工程,2018 年獲中國中文信息學會 “錢偉長中文信息處理科學技術獎—漢王青年創新獎”