機器閱讀理解(MRC)是一個受數據集推動的研究領域,其目標是讓機器在理解文章內容的基礎上能夠正確回答相關問題。早期受數據集限制,機器閱讀理解任務大多局限于單輪問答,問答對之間缺少依賴關系。而會話問答(ConvQA)是使機器在幫助人類獲取信息時可以進行連續主題的人機交互過程。近年來,隨著機器閱讀理解數據集和深度神經網絡的發展,研究人員將機器閱讀理解與會話問答結合,形成更為復雜真實的會話式機器閱讀理解(CMC),這極大地推動了機器閱讀理解領域的發展。對近幾年會話式機器閱讀理解相關最新研究進展從三方面歸納總結:首先闡述該任務的定義、所面臨的挑戰以及相關數據集的特性;然后歸納總結當前最新模型的架構及其研究進展,著重介紹會話歷史嵌入表示以及會話推理所使用的相關技術方法;最后梳理分析當前會話式機器閱讀理解模型,并對未來研究重點和研究方法進行展望。
知識圖譜問答是通過處理用戶提出的自然語言問題,基于知識圖譜的某種形式,從中獲取相關答案的過程。由于知識規模、計算能力及自然語言處理能力的制約,早期知識庫問答系統被應用于限定領域。近年來,隨著知識圖譜的發展,以及開放領域問答數據集的陸續提出,知識圖譜已用于開放領域問答研究與實踐。以技術發展為主線,對開放領域知識圖譜問答進行綜述。首先,介紹五種基于規則模板的開放領域知識圖譜問答方法:傳統語義解析、傳統信息檢索、三元組匹配、話語模板和查詢模板,這類方法主要依賴人工定義的規則模板完成問答工作。其次,描述五種基于深度學習的方法,這類方法采用神經網絡模型完成問答過程的各類子任務,包括知識圖譜嵌入、記憶網絡、基于神經網絡的語義解析、基于神經網絡的查詢圖、基于神經網絡的信息檢索。接著,介紹開放領域知識圖譜問答常用的4個通用領域知識圖譜和11個開放領域問答數據集。隨后,按照問題的難易程度選擇3個經典問答數據集比較各問答系統的性能指標,對比不同方法間的性能差異并進行分析。最后,展望開放領域知識圖譜問答的未來研究方向。
摘要:隨著自然語言處理(NLP)領域中預訓練技術的快速發展,將外部知識引入到預訓練語言模型的知識驅動方法在NLP任務中表現優異,知識表示學習和預訓練技術為知識融合的預訓練方法提供了理論依據。概述目前經典預訓練方法的相關研究成果,分析在新興預訓練技術支持下具有代表性的知識感知的預訓練語言模型,分別介紹引入不同外部知識的預訓練語言模型,并結合相關實驗數據評估知識感知的預訓練語言模型在NLP各個下游任務中的性能表現。在此基礎上,分析當前預訓練語言模型發展過程中所面臨的問題和挑戰,并對領域發展前景進行展望。
在目前已發表的自然語言處理預訓練技術綜述中,大多數文章僅介紹神經網絡預訓練技術或者極簡單介紹傳統預訓練技術,存在人為割裂自然語言預訓練發展歷程。為此,以自然語言預訓練發展歷程為主線,從以下四方面展開工作:首先,依據預訓練技術更新路線,介紹了傳統自然語言預訓練技術與神經網絡預訓練技術,并對相關技術特點進行分析、比較,從中歸納出自然語言處理技術的發展脈絡與趨勢;其次,主要從兩方面介紹了基于BERT改進的自然語言處理模型,并對這些模型從預訓練機制、優缺點、性能等方面進行總結;再者,對自然語言處理的主要應用領域發展進行了介紹,并闡述了自然語言處理目前面臨的挑戰與相應解決辦法;最后,總結工作,預測了自然語言處理的未來發展方向。旨在幫助科研工作者更全面地了解自然語言預訓練技術發展歷程,繼而為新模型、新預訓練方法的提出提供一定思路。
摘要: 問題生成是指機器主動對一段文本進行提問,生成一個自然語言的問題。神經問題生成則是完全采用端到端的訓練方式,使用神經網絡完成文檔和答案到問題的轉換,是自然語言處理中一個新興而又重要的研究方向。文中首先對神經問題生成進行了簡單介紹,包括基本概念、主流框架和評價方法。接著介紹了該研究方向的關鍵問題,包括輸入建模、長文本處理、多任務學習、機器學習方法的應用、其他研究問題和改進點。最后,介紹了問題生成和問答系統的關系,以及問題生成的未來研究方向。
近年來,深度學習技術得到了快速發展。在自然語言處理(NLP)任務中,隨著文本表征技術從詞級上升到了文檔級,利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先,根據文本特征提取技術的發展,從詞級和文檔級對典型的模型進行了分析;其次,從預訓練目標任務和下游應用兩個階段,分析了當前預訓練模型的研究現狀,并對代表性的模型特點進行了梳理和歸納;最后,總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。
對話系統作為人機交互的重要方式,有著廣泛的應用前景。現有的對話系統專注于解決語義一致性和內容豐富性等問題,對于提高人機交互以及產生人機共鳴方向的研究關注度不高。如何讓生成的語句在具有語義相關性的基礎上更自然地與用戶交流是當前對話系統面臨的主要問題之一。首先對對話系統進行了整體情況的概括。接著介紹了情感對話系統中的對話情緒感知和情感對話生成兩大任務,并分別調研歸納了相關方法。對話情緒感知任務大致分為基于上下文和基于用戶信息兩類方法。情感對話生成的方法包括規則匹配算法、指定情感回復的生成模型和不指定情感回復的生成模型,并從情緒數據類別和模型方法等方面進行了對比分析。然后總結整理了兩大任務下數據集的特點和鏈接便于后續的研究,并歸納了當前情感對話系統中不同的評估方法。最后對情感對話系統的工作進行了總結和展望。
面對人工標注大量樣本費時費力,一些稀有類別樣本難于獲取等問題,零樣本圖像分類成為計算機視覺領域的一個研究熱點。首先,對零樣本學習,包括直推式零樣本學習和歸納式零樣本學習進行了簡單介紹;其次,重點介紹了基于空間嵌入零樣本圖像分類方法和基于生成模型零樣本圖像分類方法以及它們的子類方法,并對這些方法的機制、優缺點和適用場景等進行了分析和總結;然后,簡單介紹了零樣本圖像分類常用數據集和評估方法,并對典型零樣本圖像分類方法進行了性能比較;接著,指出了現有零樣本圖像分類中存在的領域漂移、樞紐點和語義鴻溝等問題及相應的解決思路;最后,對零樣本圖像分類未來發展趨勢和研究熱點,如判別性區域的準確定位、生成高質量不可見類視覺特征、廣義零樣本圖像分類等進行了探討。
本文從互補學習系統理論的角度提出了一種新的閱讀理解雙向認知知識框架(BCKF)。它旨在模擬大腦中兩種回答問題的思維方式,包括逆向思維和慣性思維。為了驗證該框架的有效性,我們設計了一個相應的雙向認知思維網絡(BCTN),對文章進行編碼,生成一個給定答案(問題)的問題(答案),并對雙向知識進行解耦。該模型具有逆向推理的能力,有助于慣性思維產生更準確的答案。在DuReader數據集中觀察到有效地改善,證實了我們的假設,即雙向知識有助于QA任務。同時,這個新穎的框架也展示了機器閱讀理解和認知科學的一個有趣的視角。
//cea.ceaj.org/CN/abstract/abstract39198.shtml
近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。