題目: TENER: Adapting Transformer Encoder for Named Entity Recognition
摘要:
雙向長短時記憶網絡(BiLSTM)在解決命名實體識別(NER)任務的模型編碼中得到了廣泛的應用。近年來,轉換器以其并行性和優越的性能被廣泛應用于各種自然語言處理(NLP)任務中。然而,在NER中變壓器的性能不如在其它NLP任務中。在本文中,我們提出了一種采用自適應變壓器編碼器對字符級特征和字級特征進行建模的NER結構TENER。通過結合方向感知、相對距離感知和非尺度感知,證明了該編碼器與其它NLP任務一樣有效。
作者:
邱錫鵬,復旦大學計算機科學技術學院副教授,博士生導師。于復旦大學獲得理學學士和博士學位。主要從事自然語言處理、深度學習等方向的研究,在ACL、EMNLP、AAAI、IJCAI等計算機學會A/B類期刊、會議上發表50余篇學術論文,引用 1900余次。開源中文自然語言處理工具FudanNLP作者,FastNLP項目負責人。2015年入選首屆中國科協人才托舉工程,2017年ACL杰出論文獎,2018年獲中國中文信息學會“錢偉長中文信息處理科學技術獎—漢王青年創新獎”。
題目: Named Entity Recognition as Dependency Parsing
摘要:
命名實體識別(NER)是自然語言處理中的一項基本任務,用于識別表示對實體的引用的文本范圍。NER研究通常只關注平面實體(flat NER),而忽略了實體引用可以嵌套的事實,如[中國銀行](Finkel和Manning, 2009)。在本文中,我們使用基于圖的依賴解析的思想,通過比亞仿射模型為我們的模型提供了輸入的全局視圖(Dozat和Manning, 2017)。biaffine模型對句子中的開始和結束標記對進行評分,我們使用這些標記來探索所有span,因此該模型能夠準確地預測命名實體。通過對8個語料庫的評估和對所有語料庫的SoTA性能的實現,我們表明該模型對嵌套和平面NER都能很好地工作,準確度提高了2.2個百分點。
報告主題: Text Generation: From the Perspective of Interactive Inference
報告摘要: 機器翻譯、文本摘要和圖片描述等文本生成任務近年來受到越來越多的關注。然而,在文本生成任務中,我們看到幾乎所有方法仍采用自左往右的推斷模式,缺乏與自右往左推斷的交互,限制了其對未來信息的開發和利用;此外, 在多語言翻譯或多語言圖片描述生成中,將同一個文本或圖片自動轉換為不同語言的文本時,不同語言的生成過程是相互獨立的,推斷過程缺乏交互,限制了語言間信息的共享和利用。這個報告首先介紹文本生成的基本范式,然后著重介紹同步雙向交互推斷的思想,并拓展泛化為通用的交互式推斷方法,介紹在(多語言)機器翻譯、文本摘要和圖片描述生成等任務上的應用。最后,展望文本生成中交互式推斷的難點和未來方向。
邀請嘉賓: 張家俊 博士,中科院自動化所模式識別國家重點實驗室副研究員。研究方向為自然語言處理和機器翻譯等。擔任中國中文信息學會機器翻譯專委會副主任等學術職務。在著名期刊與會議發表學術論文70余篇,曾四次獲得自然語言處理學 術會議最佳論文獎。被ACL-IJCNLP-2015、NAACL-2018和IJCAI-2018評為杰出審稿人和杰出高級程序委員會委員。2014年和2018年分別獲中國中文信息學會“錢偉長中文信息處理科學技術獎”一等獎(排名第三)和漢王青年創新獎一等獎。2015年入選首屆中國 科協“青年人才托舉工程”計劃。擔任COLING-2018和EMNLP-2019的領域主席和國際人工智能大會IJCAI (2017-2019)和AAAI (2019-2020)的高級程序委員會委員等。
報告主題: 生成對抗網絡
報告摘要: 生成對抗網絡(Generative Adversarial Network,GAN)是非監督式學習的一種生成模型,其由一個生成網絡與一個判別網絡組成,通過讓兩個神經網絡相互博弈的方式進行學習。生成網絡從潛在空間(latent space)中隨機取樣 作為輸入,其輸出結果需要盡量模仿訓練集中的真實樣本。判別網絡的輸入則為真實樣本或生成網絡的輸出,其目的是將生成網絡的輸出從真實樣本中盡可能分辨出來。而生成網絡則要盡可能地欺騙判別網絡。兩個網絡相互對抗、不斷調整參數,最終目的 是使判別網絡無法判斷生成網絡的輸出結果是否真實。雖然生成對抗網絡原先是為了無監督學習提出的,它也被證明對半監督學習、監督學習、強化學習同樣有用。本報告主要講述生成對抗網絡的基本原理和最新研究進展。
邀請嘉賓: 復旦大學計算機科學技術學院副教授,博士生導師。于復旦大學獲得理學學士和博士學位。主要從事自然語言處理、深度學習等方向的研究,在ACL、EMNLP、AAAI、IJCAI等計算機學會A/B類期刊、會議上發表50余篇學術論文,引用 1900余次。開源中文自然語言處理工具FudanNLP作者,FastNLP項目負責人。2015年入選首屆中國科協人才托舉工程,2017年ACL杰出論文獎,2018年獲中國中文信息學會“錢偉長中文信息處理科學技術獎—漢王青年創新獎”。
報告主題:面向自然語言處理的深度學習基礎
報告摘要:深度學習是人工智能領域的前沿熱點,已在自然語言處理領域取得了令人矚目的成績,本篇報告從自然語言處理著手,以機器學習、網絡模型為基礎,并結合自然語言處理的實例,以及最新研究進展,全方面多層次地進行講解,為感興趣的學者、學生和工程師,提供了一個快速了解相關基礎知識、研究內容、發展趨勢的窗口。
嘉賓介紹:邱錫鵬,男,復旦大學計算機科學技術學院副教授,中國中文信息學會青年工作委員會委員,中國人工智能學會青年工作委員會常務委員,主要從事自然語言處理、深度學習等方向的研究,在 ACL、EMNLP、AAAI、IJCAI 等計算機學會 A/B 類期刊、會議上發表 50 余篇學術論文。開源自然語言處理工具 FudanNLP [GitHub] [Google Code] 項目開發者,FastNLP [GitHub] 項目負責人。 2015 年入選首屆中國科協人才托舉工程,2018 年獲中國中文信息學會 “錢偉長中文信息處理科學技術獎—漢王青年創新獎”
論文題目: How to Fine-Tune BERT for Text Classification?
論文摘要: 預訓練語言模型已經在學習通用語言表示上證明了存在的價值。作為一個 SOTA 預訓練語言模型,BERT(基于 Transformer 的雙向編碼表示)在許多語言理解任務上取得了驚人的結果。在本文中,研究者進行了一項費時費力的實驗,用于探索在 BERT 上進行各種微調方法,以使其用于文本分類任務上。最終,研究者提出了一個通用的 BERT 微調方法。論文提出的方法在 8 個常見的文本分類數據集上取得了新的 SOTA 結果。
作者簡介:
邱錫鵬,復旦大學計算機科學技術學院副教授,博士生導師。于復旦大學獲得理學學士和博士學位。主要從事自然語言處理、深度學習等方向的研究,在ACL、EMNLP、AAAI、IJCAI等計算機學會A/B類期刊、會議上發表50余篇學術論文,引用 1900余次。開源中文自然語言處理工具FudanNLP作者,FastNLP項目負責人。2015年入選首屆中國科協人才托舉工程,2017年ACL杰出論文獎,2018年獲中國中文信息學會“錢偉長中文信息處理科學技術獎—漢王青年創新獎”。
黃萱菁,1989~1998年就讀于復旦大學計算機系,先后獲學士、博士學位。1998年留校任教,2006年晉升為教授,博士生導師。2008~2009年在美國麻省大學智能信息檢索中心從事訪問學者研究。現為中國青年科技工作者協會會員,中國中文信息學會理事。等
This paper presents a novel framework, MGNER, for Multi-Grained Named Entity Recognition where multiple entities or entity mentions in a sentence could be non-overlapping or totally nested. Different from traditional approaches regarding NER as a sequential labeling task and annotate entities consecutively, MGNER detects and recognizes entities on multiple granularities: it is able to recognize named entities without explicitly assuming non-overlapping or totally nested structures. MGNER consists of a Detector that examines all possible word segments and a Classifier that categorizes entities. In addition, contextual information and a self-attention mechanism are utilized throughout the framework to improve the NER performance. Experimental results show that MGNER outperforms current state-of-the-art baselines up to 4.4% in terms of the F1 score among nested/non-overlapping NER tasks.
Named entity recognition (NER) in Chinese is essential but difficult because of the lack of natural delimiters. Therefore, Chinese Word Segmentation (CWS) is usually considered as the first step for Chinese NER. However, models based on word-level embeddings and lexicon features often suffer from segmentation errors and out-of-vocabulary (OOV) words. In this paper, we investigate a Convolutional Attention Network called CAN for Chinese NER, which consists of a character-based convolutional neural network (CNN) with local-attention layer and a gated recurrent unit (GRU) with global self-attention layer to capture the information from adjacent characters and sentence contexts. Also, compared to other models, not depending on any external resources like lexicons and employing small size of char embeddings make our model more practical. Extensive experimental results show that our approach outperforms state-of-the-art methods without word embedding and external lexicon resources on different domain datasets including Weibo, MSRA and Chinese Resume NER dataset.
Motivation: Biomedical named entity recognition (BioNER) is the most fundamental task in biomedical text mining. State-of-the-art BioNER systems often require handcrafted features specifically designed for each type of biomedical entities. This feature generation process requires intensive labors from biomedical and linguistic experts, and makes it difficult to adapt these systems to new biomedical entity types. Although recent studies explored using neural network models for BioNER to free experts from manual feature generation, these models still require substantial human efforts to annotate massive training data. Results: We propose a multi-task learning framework for BioNER that is based on neural network models to save human efforts. We build a global model by collectively training multiple models that share parameters, each model capturing the characteristics of a different biomedical entity type. In experiments on five BioNER benchmark datasets covering four major biomedical entity types, our model outperforms state-of-the-art systems and other neural network models by a large margin, even when only limited training data are available. Further analysis shows that the large performance gains come from sharing character- and word-level information between different biomedical entities. The approach creates new opportunities for text-mining approaches to help biomedical scientists better exploit knowledge in biomedical literature.