報告主題: 機器翻譯前沿綜述
報告摘要: 機器翻譯利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程。它是計算語言學的一個分支,是人工智能的終極目標之一,具有重要的科學研究價值。同時,機器翻譯又具有重要的實用價值。隨著經濟全球化及互聯網的飛速發展,機器翻譯技術在促進政治、經濟、文化交流等方面起到越來越重要的作用。
邀請嘉賓: 馮洋,博士,中國科學院計算技術研究所“新百星人才引進計劃”入選者,副研究員、博士生導師,主要研究方向為機器翻譯和人機對話。在中科院計算所獲得博士學位后,先后在謝菲爾德大學和USC/ISI開展研究工作。在ACL、EMNLP、COLING、NAACL等自然語言處理主流學術會議上發表論文40余篇,獲得ACL 2019最佳長文獎,為國內迄今唯一獲獎。多次在NIST、IWSLT、CWMT等國內外權威機器翻譯評測中獲得第一名。擔任COLING 2018領域主席,并擔任CCL 2018、2019學生研討會主席、CCMT 2019研討會主席。
報告簡介: 自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系,但又有重要的區別。如何用好自然語言處理,讓機器明白文字,讀懂文字,自言語言處理已經應用在不同的領域,如推薦系統、醫療問答、機器翻譯等。
嘉賓介紹: 劉知遠,清華大學計算機系副教授、博士生導師。主要研究方向為表示學習、知識圖譜和社會計算。2011年獲得清華大學博士學位,已在ACL、IJCAI、AAAI等人工智能領域的著名國際期刊和會議發表相關論文60余篇,Google Scholar統計引用超過2700次。承擔多項國家自然科學基金。曾獲清華大學優秀博士學位論文、中國人工智能學會優秀博士學位論文、清華大學優秀博士后、中文信息學會青年創新獎,入選中國科學青年人才托舉工程、CCF-Intel青年學者提升計劃。擔任中文信息學會青年工作委員會執委、副主任,中文信息學會社會媒體處理專委會委員、秘書,SCI期刊Frontiers of Computer Science青年編委,ACL、COLING、IJCNLP領域主席。
**報告主題: 做失敗科研的10個方法
**報告摘要: 成功的科研都是相似的,失敗的科研各有各的失敗。成功科研方法讓你仰望星空,失敗科研方法讓你在仰望星空的時候避免掉入水坑。如果成功的科研是可以學習的,那么正例讓你發更多的好論文(Recall),但是我們也需要很多負例讓你用更少的投稿發出更多的好論文(Precision),少走彎路,我們的優化目標是尋找最優的F值。 本報告基于兩位講者在30年(求和得出)科研經歷中遇到過、看到過、聽到過的失敗科研方法,包括失敗科研的哲學、心態、理念、方法、技術和工具。我們試圖包含大量的信息,同時保持有趣。當然,在描述10(也可能不止)個失敗科研方法的最后,我們也給出失敗科研的反面—如何做出成功的科研。
**邀請嘉賓: 劉康 博士,現任中科院自動化所模式識別國家重點實驗室副研究員,西安電子科技大學客座教授。研究領域包括信息抽取、網絡挖掘、問答系統等,同時也涉及模式識別與機器學習方面的基礎研究。在自然語言處理、知識工程等領域國際重要會議和期刊發表論文90余篇(如TKDE、ACL、IJCAI、EMNLP、COLING、CIKM等),獲得KDD CUP 2011 Track2 全球亞軍,COLING 2014最佳論文獎,首屆“CCF-騰訊犀牛鳥基金卓越獎”、2015、2016 Google Focused Research Award。2014年獲得中國中文信息學會“錢偉長中文信息處理科學技術獎-漢王青年創新一等獎”、2018年獲得中國中文信息學會“錢偉長中文信息處理科學技術獎”一等獎(排名第二)等獎項,兼任中國中文信息學會青年工作委員會主任、語言與知識計算專業委員會秘書長等學術職務。韓先培 博士,中國科學院軟件研究所中文信息處理實驗室/計算機科學國家重點實驗室研究員。主要研究方向為信息抽取、知識圖譜、語義解析以及智能問答系統。在ACL、SIGIR、AAAI、EMNLP等重要國際會議發表論文四十余篇。韓先培是中國中文信息學會理事,語言與知識計算專業委員會副主任,中國科學院青促會會員。2016年入選中國科協青年人才托舉計劃,獲得中國中文信息學會漢王青年創新獎。
報告主題: 信息抽取前沿動態
報告摘要: 信息抽取是從自然語言文本中抽取指定類型的實體、關系、事件等事實信息,并形成結構化數據輸出的文本處理技術。本次報告從特征多元化、語料構建(半)自動化、任務聯合學習等方面分析了當前信息提取的任務難點,并提出解決方案。
邀請嘉賓: 陳玉博,博士,中科院自動化所模式識別國家重點實驗室助理研究員,研究方向為信息抽取、知識圖譜和自然語言處理。在ACL、EMNLP、COLING、CIKM、WWW、AAAI等國際重要會議和期刊發表學術論文20余篇,曾獲得NLP-NABD 2016最佳論文獎、CCKS 2017最佳論文獎。主持或參與國家自然科學基金青年基金項目、國家自然科學基金重點項目以及多項企業合作科研項目的研發,合作企業包括:華為、螞蟻金服、騰訊、云知聲等,同時也開發了事件抽取、關系抽取、實體識別和消歧等多項工具和軟件。目前為中國中文信息學會青年工作委員會委員、中國中文信息學會語言與知識計算專委會委員。2018年獲得中國中文信息學會“錢偉長中文信息處理科學技術獎”一等獎。
報告主題: 句法分析前沿動態綜述
報告摘要: 句法分析是自然語言處理中的基礎性工作,它分析句子的句法結構(主謂賓結構)和詞匯間的依存關系(并列,從屬等)。通過句法分析,可以為語義分析,情感傾向,觀點抽取等NLP應用場景打下堅實的基礎。隨著深度學習在NLP中的使用,特別是本身攜帶句法關系的LSTM模型的應用,句法分析已經變得不是那么必要了。但是,在句法結構十分復雜的長語句,以及標注樣本較少的情況下,句法分析依然可以發揮出很大的作用。因此研究句法分析依然是很有必要的。該報告分為三個部分進行,有監督句法分析、無監督句法分析、跨領域和跨語言句法分析。
邀請嘉賓: 屠可偉,博士,上海科技大學信息科學與技術學院助理教授、研究員、博士生導師。于上海交通大學計算機科學與工程系獲學士和碩士學位;于美國愛荷華州立大學獲計算機科學博士學位;2012至2014年在美國加州大學洛杉磯分校統計系與計算機系從事博士后研究工作。研究方向包括自然語言處理、機器學習、知識表示、計算機視覺等人工智能領域,目前側重于研究文法和句法解析的表示、學習與應用。發表論文數十篇,其中包括ACL、EMNLP、NIPS、IJCAI、AAAI、ICCV等國際頂級會議論文。擔任ACL、EMNLP、NAACL、CVPR等多個國際頂級會議程序委員會委員。
報告主題: 社會媒體處理前沿綜述
報告摘要: 隨著社會媒體類型的不斷增加,與傳統的社會媒體相比,現在社會媒體是大眾參與發布和傳播消息,以社會網絡為基礎,以互聯網用戶創造和傳播信息為主要形式的在線交互媒體。此次報告介紹了社會媒體以及處理研究的發展趨勢和方法論、社會媒體的主客觀信息,最后介紹了社會媒體處理技術發展趨勢。
邀請嘉賓: 丁效,博士,哈爾濱工業大學助理研究員。主要研究方向為人工智能、自然語言處理、社會計算和事理圖譜。2016年獲得哈爾濱工業大學博士學位,已在人工智能領域的頂級國際期刊和會議IJCAI、AAAI、EMNLP等發表相關論文20余篇。承擔國家自然科學基金青年項目等省部級以上項目四項,參與科技創新2030“新一代人工智能”重大項目、國家重大科技基礎設施建設項目、科技部973課題、國家自然科學基金重點項目等。榮獲全國青年人工智能創新創業大會三等獎、第五屆全國青年計算語言學研討會優秀論文獎等榮譽。擔任中國中文信息學會社會媒體處理專委會秘書、委員、智能金融工作組副組長,中國中文信息學會青年工作委員會委員。
報告主題: Text Generation: From the Perspective of Interactive Inference
報告摘要: 機器翻譯、文本摘要和圖片描述等文本生成任務近年來受到越來越多的關注。然而,在文本生成任務中,我們看到幾乎所有方法仍采用自左往右的推斷模式,缺乏與自右往左推斷的交互,限制了其對未來信息的開發和利用;此外, 在多語言翻譯或多語言圖片描述生成中,將同一個文本或圖片自動轉換為不同語言的文本時,不同語言的生成過程是相互獨立的,推斷過程缺乏交互,限制了語言間信息的共享和利用。這個報告首先介紹文本生成的基本范式,然后著重介紹同步雙向交互推斷的思想,并拓展泛化為通用的交互式推斷方法,介紹在(多語言)機器翻譯、文本摘要和圖片描述生成等任務上的應用。最后,展望文本生成中交互式推斷的難點和未來方向。
邀請嘉賓: 張家俊 博士,中科院自動化所模式識別國家重點實驗室副研究員。研究方向為自然語言處理和機器翻譯等。擔任中國中文信息學會機器翻譯專委會副主任等學術職務。在著名期刊與會議發表學術論文70余篇,曾四次獲得自然語言處理學 術會議最佳論文獎。被ACL-IJCNLP-2015、NAACL-2018和IJCAI-2018評為杰出審稿人和杰出高級程序委員會委員。2014年和2018年分別獲中國中文信息學會“錢偉長中文信息處理科學技術獎”一等獎(排名第三)和漢王青年創新獎一等獎。2015年入選首屆中國 科協“青年人才托舉工程”計劃。擔任COLING-2018和EMNLP-2019的領域主席和國際人工智能大會IJCAI (2017-2019)和AAAI (2019-2020)的高級程序委員會委員等。
報告主題: 預訓練模型--自然語言處理的新范式
報告摘要: 傳統的有監督自然語言處理模型依賴大規模的人工標注訓練數據,這些數據標注代價非常高,因此規模有限,這也限制了自然語言處理系統進一步提升精度。以Word2vec,GloVe等為代表的詞向量技術可以視為一種早期的預訓練模型, 從大規模未標注文本中預訓練的詞向量,在一定程度上提高了上層模型的精度。然而,這些模型假設“一個詞由唯一的向量表示”,忽略了它們在不同上下文下的差異。以ELMo為代表的上下文相關詞向量模型取消了以上的假設,在不同的上下文環境下,賦予相 同的詞以不同的詞向量,因此又被稱為“動態”詞向量。BERT等模型進一步使用更深層的網絡進行預訓練,并使用了語言模型之外的預訓練目標,在應用模式上也從簡單的特征提取轉換為精調整個網絡結構。這些新的預訓練模型在眾多自然語言處理任務上取得 了很好的效果,已成為自然語言處理的新范式。本報告首先介紹預訓練模型的演化過程,接著介紹預訓練模型在應用方面的最新研究進展,另外還列舉了一些對預訓練模型進行定性和定量分析的工作,最后對自然語言處理中預訓練模型的發展趨勢進行了展望。
邀請嘉賓: 車萬翔 博士,哈爾濱工業大學計算機學院教授,博士生導師,斯坦福大學訪問學者,合作導師Christopher Manning教授。現任中國中文信息學會計算語言學專業委員會委員、青年工作委員會副主任;中國計算機學會高級會員、曾任 YOCSEF哈爾濱主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等國內外高水平期刊和會議上發表學術論文50余篇,其中AAAI 2013年的文章獲得了最佳論文提名獎,論文累計被引用2,100余次(Google Scholar數據),H-index值為26。出版教材 2 部,譯 著 2 部。承擔國家自然科學基金、973等多項科研項目。負責研發的語言技術平臺(LTP)已被600余家單位共享,提供的在線“語言云”服務已有用戶1萬余人,并授權給百度、騰訊、華為等公司使用。2018年,獲CoNLL多語種句法分析國際評測第1名。2015-16年, 連續兩年獲Google Focused Research Award(谷歌專注研究獎);2016年,獲黑龍江省科技進步一等獎(排名第2);2012年,獲黑龍江省技術發明獎二等獎(排名第2);2010年獲中國中文信息學會“錢偉長”中文信息處理科學技術獎一等獎(排名第2)、首屆 漢王青年創新獎(個人)等多項獎勵。2017年,所主講的《高級語言程序設計(Python)》課程獲國家精品在線開放課程。
報告主題:開放語義解析
報告摘要:語義解析(Semantic Parsing)是將自然語言句子轉換為機器可識別的、可計算的語義表示的任務。語義解析是自然語言處理的核心任務之一,在智能問答、語音助手、智能機器人、代碼生成等任務上具有廣泛的應用。本報告將詳細介紹語義解析這項任務,首先介紹語義解析任務、數據集和工具,然后依次介紹基于文法的語義解析方法(CCG,DCS等)、基于語義圖構建的語義解析方法和新興的神經語義解析方法(Seq2Seq, Seq2Act, coarse-to-fine等),最后對語義解析的前沿方向和重要挑戰進行展望,包括上下文有關的語義解析(可用于對話),與周邊環境有交互的語義解析(如用于機器人執行指令)。
報告嘉賓:韓先培,博士,中國科學院軟件研究所中文信息處理實驗室/計算機科學國家重點實驗室研究員。主要研究方向為信息抽取、知識圖譜、語義解析以及智能問答系統。在ACL、SIGIR、AAAI、EMNLP等重要國際會議發表論文四十余篇。韓先培是中國中文信息學會理事,語言與知識計算專業委員會副主任,中國科學院青促會會員,入選中國科協青年人才托舉計劃,獲得中國中文信息學會漢王青年創新獎。 陳波,博士,中國科學院軟件研究所中文信息處理實驗室助理研究員,2018年獲得中國科學院大學博士學位,并獲得優秀畢業生。主要研究方向為語義解析(Semantic Parsing)和自然語言理解。在ACL、COLING、NAACL等自然語言處理國際頂級會議發表學術論文多篇。參與多項國家自然科學基金重點課題以及企業合作科研項目的研發。