基于模式的事件提取是及時理解事件本質內容的關鍵技術。隨著深度學習技術的快速發展,基于深度學習的事件提取技術成為研究熱點。文獻中提出了大量的方法、數據集和評價指標,因此需要進行全面和更新的調研。本文通過回顧最新的方法填補了這一空白,重點關注基于深度學習的模型。我們總結了基于模式的事件提取的任務定義、范式和模型,然后詳細討論每一個。我們引入了支持預測和評估指標測試的基準數據集。本綜述還提供了不同技術之間的綜合比較。最后,總結了今后的研究方向。
引言
事件抽取(EE)是信息抽取研究中的一個重要而富有挑戰性的課題。事件作為一種特殊的信息形式,是指在特定時間、特定地點發生的涉及一個或多個參與者的特定事件,通常可以描述為狀態的變化。事件提取任務旨在將此類事件信息從非結構化的純文本中提取為結構化的形式,主要描述現實世界中事件發生的“誰、何時、何地、什么、為什么”和“如何”。在應用方面,該任務便于人們檢索事件信息,分析人們的行為,促進信息檢索、智能問答、知識圖譜構建等實際應用。
事件提取可分為兩個層次:基于模式的事件提取[17,62]和基于開放域的事件提取[3,42]。在基于模式的事件抽取任務中,事件被認為是特定的人和對象在特定的時間和地點進行交互的客觀事實。基于模式的事件提取[25]是尋找屬于特定事件模式的單詞,即發生的動作或狀態變化,其提取目標包括時間、地點、人、動作等。在開放域事件提取任務[44]中,事件被認為是一組主題的相關描述,可以通過分類或聚類形成。基于開放領域的事件提取是指獲取與特定主題相關的一系列事件,通常由多個事件組成。無論是基于模式還是開放域事件提取任務,事件提取的目的是從大量文本中捕獲我們感興趣的事件類型,并以結構化的形式顯示事件的基本參數。
我們主要關注基于模式的事件抽取,它已經有了大量的工作,是一種比較成熟的研究分類。基于模式的事件提取從文本中發現事件提到,并提取包含事件觸發器和事件參數的事件。事件提到是包含一個或多個觸發器和參數的句子。事件提取需要識別事件、分類事件類型、識別參數并判斷參數角色。觸發器識別和事件分類可分為事件檢測任務。參數識別和參數角色分類可以定義為參數提取任務。事件分類是一個多標簽文本分類任務,用于對每個事件的類型進行分類。角色分類任務是一種基于詞對的多分類任務,確定句子中任意一對觸發器和實體之間的角色關系。因此,事件提取可以依賴于一些NLP任務的結果,如命名實體識別(NER)、語義解析和關系提取。
我們給出了事件抽取流程圖,如圖1所示。首先,對于給定的文本,有必要區分文本中的事件類型。對于不同的事件類型,設計了不同的事件模式。目前,事件模式的設計主要包括手工設計和模型生成兩種方式。然后,根據模式提取事件參數。在早期階段,將元素提取作為一個詞分類任務,對文本中的每個詞進行分類。此外,還有序列標記和機器閱讀理解(MRC)方法。最后,由于事件抽取任務的復雜性,研究者考慮引入外部知識來提高模型性能。
近年來,深度學習方法在很多領域得到了應用,深度學習模型能夠自動有效地提取句子中的重要特征。與傳統的特征提取方法相比,深度學習方法可以自動提取特征。它可以對語義信息進行建模,并在更高的層次上自動組合和匹配觸發特征。這些方法的有效性在自然語言處理中得到了驗證,并取得了許多突破。在事件提取任務中使用深度學習可以使許多研究人員消除特征提取工作。
大多數基于深度學習的事件提取方法通常采用監督學習,這意味著需要高質量的大數據集。ACE 2005[13]是少數可用的標記事件數據之一,手動標記新聞,博客,采訪和其他數據。ACE數據規模小是影響事件提取任務發展的主要因素。依賴人工標注語料庫數據耗時耗力,導致現有事件語料庫數據規模小、類型少、分布不均勻。事件提取任務可能非常復雜。一個句子中可能有多個事件類型,不同的事件類型將共享一個事件參數。同樣的論點在不同事件中的作用也是不同的。根據抽取范式,基于模式的抽取方法可分為基于管道的抽取方法和基于聯合的抽取方法。對基于管道的模型學習事件檢測模型,然后學習參數抽取模型。聯合事件提取方法避免了觸發器識別錯誤對參數提取的影響,但不能充分利用事件觸發器的信息。到目前為止,最好的事件提取方法是基于聯合的事件提取范例。
對于傳統的事件提取方法,需要進行特征設計,而對于深度學習事件提取方法,可以通過深度學習模型進行端到端的特征提取。綜合分析了現有的基于深度學習的事件提取方法,并對未來的研究工作進行了展望。本文的主要貢獻如下:
介紹了事件提取技術,回顧了事件提取方法的發展歷史,指出基于深度學習的事件提取方法已成為主流。我們根據表1中發表年份總結了深度學習模型的必要信息,包括模型、領域、場所、數據集和子任務。
我們詳細分析了各種基于深度學習的提取范式和模型,包括它們的優缺點。我們介紹了現有的數據集,并給出了主要評價指標的制定。我們在表3中總結了主要數據集的必要信息,如類別的數量,語言和數據地址。
我們在表5中總結了ACE 2005數據集上的事件提取準確度得分,并討論了事件提取面臨的未來研究趨勢,從而總結了綜述。
命名實體識別(Named Entity Recognition,NER)作為自然語言處理領域經典的研究主題,是智能問答、知識圖譜等任務的基礎技術。領域命名實體識別(Domain Named Entity Recognition,DNER)是面向特定領域的NER方案。在深度學習技術的推動下,中文DNER取得了突破性進展。概括了中文DNER的研究框架,從領域數據源的確定、領域實體類型及規范制定、領域數據集的標注規范、中文DNER評估指標四個角度對國內外已有研究成果進行了綜合評述;總結了目前常見的中文DNER的技術框架,介紹了基于詞典和規則的模式匹配方法、統計機器學習方法、基于深度學習的方法、多方融合的深度學習方法,并重點分析了基于詞向量表征和深度學習的中文DNER方法;討論了中文DNER的典型應用場景,對未來發展方向進行了展望。
摘要: Web 2.0時代,消費者在在線購物、學習和娛樂時越來越多地依賴在線評論信息,而虛假的評論會誤導消費者的決策,影響商家的真實信用,因此有效識別虛假評論具有重要意義。文中首先對虛假評論的范圍進行了界定,并從虛假評論識別、形成動機、對消費者的影響以及治理策略4個方面歸納了虛假評論的研究內容,給出了虛假評論研究框架和一般識別方法的工作流程。然后從評論文本內容和評論者及其群組行為兩個角度,對近十年來國內外的相關研究成果進行了綜述,介紹了虛假評論效果評估的相關數據集和評價指標,統計分析了在公開數據集上實現的虛假評論有效識別方法,并從特征選取、模型方法、訓練數據集、評價指標值等方面進行了對比分析。最后對虛假評論識別領域的有標注語料規模限制等未來研究方向進行了探討。
雖然像CNNs這樣的深度學習模型在醫學圖像分析方面取得了很大的成功,但是小型的醫學數據集仍然是這一領域的主要瓶頸。為了解決這個問題,研究人員開始尋找現有醫療數據集之外的外部信息。傳統的方法通常利用來自自然圖像的信息。最近的研究利用了來自醫生的領域知識,通過讓網絡模仿他們如何被訓練,模仿他們的診斷模式,或者專注于他們特別關注的特征或領域。本文綜述了將醫學領域知識引入疾病診斷、病變、器官及異常檢測、病變及器官分割等深度學習模型的研究進展。針對不同類型的任務,我們系統地對所使用的不同類型的醫學領域知識進行了分類,并給出了相應的整合方法。最后,我們總結了挑戰、未解決的問題和未來研究的方向。
摘要:命名實體識別是自然語言處理中的熱點研究方向之一,目的是識別文本中的命名實體并將其歸納到相應的實體類型中。首先闡述了命名實體識別任務的定義、目標和意義,分析提出了命名實體識別的主要難點在于領域命名實體識別局限性、命名實體表述多樣性和歧義性、命名實體的復雜性和開放性;然后介紹了命名實體識別研究的發展進程,從最初的規則和字典方法到傳統的統計學習方法再到現在的深度學習方法,不斷地將新技術應用到命名實體識別研究中以提高性能;接著系統梳理了當下命名實體識別任務中的若干熱門研究點,分別是匱乏資源下的命名實體識別、細粒度命名實體識別、嵌套命名實體識別以及命名實體鏈接;最后針對評判命名實體識別模型的好壞,總結了常用的若干數據集和實驗測評指標,并給出了未來的研究建議。
人機對話系統能夠讓機器通過人類語言與人進行交互,是人工智能領域的一項重要工作。因其在虛擬助手和社交聊天機器人等領域的商業價值而廣受工業界和學術界的關注。近年來,互聯網社交數據快速增長促進了數據驅動的開放領域對話系統研究,尤其是將深度學習技術應用到其中取得了突破性進展。基于深度學習的開放領域對話系統使用海量社交對話數據,通過檢索或者生成的方法建立對話模型學習對話模式。將深度學習融入檢索式系統中研究提高對話匹配模型的效果,將深度學習融入生成式系統中構建更高質量的生成模型,成為了基于深度學習的開放領域對話系統的主要任務。本文對近幾年基于深度學習的開放領域對話系統研究進展進行綜述,梳理、比較和分析主要方法,整理其中的關鍵問題和已有解決方案,總結評測指標,展望未來研究趨勢。