知識圖譜問答是通過處理用戶提出的自然語言問題,基于知識圖譜的某種形式,從中獲取相關答案的過程。由于知識規模、計算能力及自然語言處理能力的制約,早期知識庫問答系統被應用于限定領域。近年來,隨著知識圖譜的發展,以及開放領域問答數據集的陸續提出,知識圖譜已用于開放領域問答研究與實踐。以技術發展為主線,對開放領域知識圖譜問答進行綜述。首先,介紹五種基于規則模板的開放領域知識圖譜問答方法:傳統語義解析、傳統信息檢索、三元組匹配、話語模板和查詢模板,這類方法主要依賴人工定義的規則模板完成問答工作。其次,描述五種基于深度學習的方法,這類方法采用神經網絡模型完成問答過程的各類子任務,包括知識圖譜嵌入、記憶網絡、基于神經網絡的語義解析、基于神經網絡的查詢圖、基于神經網絡的信息檢索。接著,介紹開放領域知識圖譜問答常用的4個通用領域知識圖譜和11個開放領域問答數據集。隨后,按照問題的難易程度選擇3個經典問答數據集比較各問答系統的性能指標,對比不同方法間的性能差異并進行分析。最后,展望開放領域知識圖譜問答的未來研究方向。
摘要 近年來,涌現了很多高質量大規模的知識庫,基于知識庫的問答系統(Knowledge Base Question Answering,KBQA)隨著知識庫的發展而得到了快速發展.知識庫問答系統通過對自然語言問句進行理解和解析,進而利用知識庫中的事實來回答自然語言問題,使用戶在不了解知識庫數據結構的情況下快速、精準的得到有價值的知識或答案.本文對知識庫問答系統的研究方法進行了詳細介紹并對目前的研究進展進行了總結,包括基于模板的方法、基于語義解析的方法和基于深度學習的方法.通過對這些研究方法進行對比,指出了各方法中存在的問題和不足,進而對知識庫問答系統所面臨的問題和挑戰進行了總結.
機器閱讀理解(MRC)是一個受數據集推動的研究領域,其目標是讓機器在理解文章內容的基礎上能夠正確回答相關問題。早期受數據集限制,機器閱讀理解任務大多局限于單輪問答,問答對之間缺少依賴關系。而會話問答(ConvQA)是使機器在幫助人類獲取信息時可以進行連續主題的人機交互過程。近年來,隨著機器閱讀理解數據集和深度神經網絡的發展,研究人員將機器閱讀理解與會話問答結合,形成更為復雜真實的會話式機器閱讀理解(CMC),這極大地推動了機器閱讀理解領域的發展。對近幾年會話式機器閱讀理解相關最新研究進展從三方面歸納總結:首先闡述該任務的定義、所面臨的挑戰以及相關數據集的特性;然后歸納總結當前最新模型的架構及其研究進展,著重介紹會話歷史嵌入表示以及會話推理所使用的相關技術方法;最后梳理分析當前會話式機器閱讀理解模型,并對未來研究重點和研究方法進行展望。
自然語言生成(NLG)技術利用人工智能和語言學的方法來自動地生成可理解的自然語言文本。NLG降低了人類和計算機之間溝通的難度,被廣泛應用于機器新聞寫作、聊天機器人等領域,已經成為人工智能的研究熱點之一。首先,列舉了當前主流的NLG的方法和模型,并詳細對比了這些方法和模型的優缺點;然后,分別針對文本到文本、數據到文本和圖像到文本等三種NLG技術,總結并分析了應用領域、存在的問題和當前的研究進展;進而,闡述了上述生成技術的常用評價方法及其適用范圍;最后,給出了當前NLG技術的發展趨勢和研究難點。
對話系統作為人機交互的重要方式,有著廣泛的應用前景。現有的對話系統專注于解決語義一致性和內容豐富性等問題,對于提高人機交互以及產生人機共鳴方向的研究關注度不高。如何讓生成的語句在具有語義相關性的基礎上更自然地與用戶交流是當前對話系統面臨的主要問題之一。首先對對話系統進行了整體情況的概括。接著介紹了情感對話系統中的對話情緒感知和情感對話生成兩大任務,并分別調研歸納了相關方法。對話情緒感知任務大致分為基于上下文和基于用戶信息兩類方法。情感對話生成的方法包括規則匹配算法、指定情感回復的生成模型和不指定情感回復的生成模型,并從情緒數據類別和模型方法等方面進行了對比分析。然后總結整理了兩大任務下數據集的特點和鏈接便于后續的研究,并歸納了當前情感對話系統中不同的評估方法。最后對情感對話系統的工作進行了總結和展望。
//cea.ceaj.org/CN/abstract/abstract39198.shtml
近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。
摘要:知識圖譜由Google公司提出, 作為增強其搜索功能的知識庫, 在近幾年得到了迅速發展. 隨著知識圖譜價值不斷地被發掘, 各類領域知識圖譜也迅速建設起來. 本文通過領域知識圖譜和通用知識圖譜的對比來清晰化領域知識圖譜的定義, 介紹了領域知識圖譜的架構, 并以醫學知識圖譜為例講解了領域知識圖譜的構建技術. 最后, 本文介紹了當前熱門的領域知識圖譜的發展狀況和應用, 對當前領域知識圖譜狀況進行了較為全面的總結.
摘要: 在自然語言處理領域,信息抽取一直以來受到人們的關注.信息抽取主要包括3項子任務:實體抽取、關系抽取和事件抽取,而關系抽取是信息抽取領域的核心任務和重要環節.實體關系抽取的主要目標是從自然語言文本中識別并判定實體對之間存在的特定關系,這為智能檢索、語義分析等提供了基礎支持,有助于提高搜索效率,促進知識庫的自動構建.綜合闡述了實體關系抽取的發展歷史,介紹了常用的中文和英文關系抽取工具和評價體系.主要從4個方面展開介紹了實體關系抽取方法,包括:早期的傳統關系抽取方法、基于傳統機器學習、基于深度學習和基于開放領域的關系抽取方法,總結了在不同歷史階段的主流研究方法以及相應的代表性成果,并對各種實體關系抽取技術進行對比分析.最后,對實體關系抽取的未來重點研究內容和發展趨勢進行了總結和展望.
//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2020.20190358#1
人機對話系統能夠讓機器通過人類語言與人進行交互,是人工智能領域的一項重要工作。因其在虛擬助手和社交聊天機器人等領域的商業價值而廣受工業界和學術界的關注。近年來,互聯網社交數據快速增長促進了數據驅動的開放領域對話系統研究,尤其是將深度學習技術應用到其中取得了突破性進展。基于深度學習的開放領域對話系統使用海量社交對話數據,通過檢索或者生成的方法建立對話模型學習對話模式。將深度學習融入檢索式系統中研究提高對話匹配模型的效果,將深度學習融入生成式系統中構建更高質量的生成模型,成為了基于深度學習的開放領域對話系統的主要任務。本文對近幾年基于深度學習的開放領域對話系統研究進展進行綜述,梳理、比較和分析主要方法,整理其中的關鍵問題和已有解決方案,總結評測指標,展望未來研究趨勢。