命名實體識別(Named Entity Recognition,NER)作為自然語言處理領域經典的研究主題,是智能問答、知識圖譜等任務的基礎技術。領域命名實體識別(Domain Named Entity Recognition,DNER)是面向特定領域的NER方案。在深度學習技術的推動下,中文DNER取得了突破性進展。概括了中文DNER的研究框架,從領域數據源的確定、領域實體類型及規范制定、領域數據集的標注規范、中文DNER評估指標四個角度對國內外已有研究成果進行了綜合評述;總結了目前常見的中文DNER的技術框架,介紹了基于詞典和規則的模式匹配方法、統計機器學習方法、基于深度學習的方法、多方融合的深度學習方法,并重點分析了基于詞向量表征和深度學習的中文DNER方法;討論了中文DNER的典型應用場景,對未來發展方向進行了展望。
自然語言生成(NLG)技術利用人工智能和語言學的方法來自動地生成可理解的自然語言文本。NLG降低了人類和計算機之間溝通的難度,被廣泛應用于機器新聞寫作、聊天機器人等領域,已經成為人工智能的研究熱點之一。首先,列舉了當前主流的NLG的方法和模型,并詳細對比了這些方法和模型的優缺點;然后,分別針對文本到文本、數據到文本和圖像到文本等三種NLG技術,總結并分析了應用領域、存在的問題和當前的研究進展;進而,闡述了上述生成技術的常用評價方法及其適用范圍;最后,給出了當前NLG技術的發展趨勢和研究難點。
對話系統作為人機交互的重要方式,有著廣泛的應用前景。現有的對話系統專注于解決語義一致性和內容豐富性等問題,對于提高人機交互以及產生人機共鳴方向的研究關注度不高。如何讓生成的語句在具有語義相關性的基礎上更自然地與用戶交流是當前對話系統面臨的主要問題之一。首先對對話系統進行了整體情況的概括。接著介紹了情感對話系統中的對話情緒感知和情感對話生成兩大任務,并分別調研歸納了相關方法。對話情緒感知任務大致分為基于上下文和基于用戶信息兩類方法。情感對話生成的方法包括規則匹配算法、指定情感回復的生成模型和不指定情感回復的生成模型,并從情緒數據類別和模型方法等方面進行了對比分析。然后總結整理了兩大任務下數據集的特點和鏈接便于后續的研究,并歸納了當前情感對話系統中不同的評估方法。最后對情感對話系統的工作進行了總結和展望。
//cea.ceaj.org/CN/abstract/abstract39198.shtml
近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。
題目: 基于深度學習的主題模型研究
摘要: 主題模型作為一個發展二十余年的研究問題,一直是篇章級別文本語義理解的重要工具.主題模型善于從一組文檔中抽取出若干組關鍵詞來表達該文檔集的核心思想,因而也為文本分類、信息檢索、自動摘要、文本生成、情感分析等其他文本分析任務提供重要支撐.雖然基于三層貝葉斯網絡的傳統概率主題模型在過去十余年已被充分研究,但隨著深度學習技術在自然語言處理領域的廣泛應用,結合深度學習思想與方法的主題模型煥發出新的生機.研究如何整合深度學習的先進技術,構建更加準確高效的文本生成模型成為基于深度學習主題建模的主要任務.本文首先概述并對比了傳統主題模型中四個經典的概率主題模型與兩個稀疏約束的主題模型.接著對近幾年基于深度學習的主題模型研究進展進行綜述,分析其與傳統模型的聯系、區別與優勢,并對其中的主要研究方向和進展進行歸納、分析與比較.此外,本文還介紹了主題模型常用公開數據集及評測指標.最后,總結了主題模型現有技術的特點,并分析與展望了基于深度學習的主題模型的未來發展趨勢。
摘要:命名實體識別是自然語言處理中的熱點研究方向之一,目的是識別文本中的命名實體并將其歸納到相應的實體類型中。首先闡述了命名實體識別任務的定義、目標和意義,分析提出了命名實體識別的主要難點在于領域命名實體識別局限性、命名實體表述多樣性和歧義性、命名實體的復雜性和開放性;然后介紹了命名實體識別研究的發展進程,從最初的規則和字典方法到傳統的統計學習方法再到現在的深度學習方法,不斷地將新技術應用到命名實體識別研究中以提高性能;接著系統梳理了當下命名實體識別任務中的若干熱門研究點,分別是匱乏資源下的命名實體識別、細粒度命名實體識別、嵌套命名實體識別以及命名實體鏈接;最后針對評判命名實體識別模型的好壞,總結了常用的若干數據集和實驗測評指標,并給出了未來的研究建議。