作為信息抽取的一項核心子任務,實體關系抽取對于知識圖譜、智能問答、語義搜索等自然語言處理應用都十分重要。關系抽取在于從非結構化文本中自動地識別實體之間具有的某種語義關系。該文聚焦句子級別的關系抽取研究,介紹用于關系抽取的主要數據集并對現有的技術作了闡述,主要分為:有監督的關系抽取、遠程監督的關系抽取和實體關系聯合抽取。我們對比用于該任務的各種模型,分析它們的貢獻與缺陷。最后介紹中文實體關系抽取的研究現狀和方法。
//www.aclweb.org/anthology/2020.ccl-1.33.pdf
我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1
句法分析的目標是分析輸入句子并得到其句法結構,是自然語言處理領域的經典任務之一。目前針對該任務的研究主要集中于如何通過從數據中自動學習來提升句法分析器的精度。該文對句法分析方向的前沿動態進行了調研,分別從有監督句法分析、無監督句法分析和跨領域跨語言句法分析三個子方向梳理和介紹了2018—2019年發表的新方法和新發現,并對句法分析子方向的研究前景進行了分析和展望。
摘要: 在自然語言處理領域,信息抽取一直以來受到人們的關注.信息抽取主要包括3項子任務:實體抽取、關系抽取和事件抽取,而關系抽取是信息抽取領域的核心任務和重要環節.實體關系抽取的主要目標是從自然語言文本中識別并判定實體對之間存在的特定關系,這為智能檢索、語義分析等提供了基礎支持,有助于提高搜索效率,促進知識庫的自動構建.綜合闡述了實體關系抽取的發展歷史,介紹了常用的中文和英文關系抽取工具和評價體系.主要從4個方面展開介紹了實體關系抽取方法,包括:早期的傳統關系抽取方法、基于傳統機器學習、基于深度學習和基于開放領域的關系抽取方法,總結了在不同歷史階段的主流研究方法以及相應的代表性成果,并對各種實體關系抽取技術進行對比分析.最后,對實體關系抽取的未來重點研究內容和發展趨勢進行了總結和展望.
//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2020.20190358#1
摘要:近年來,基于深度學習的表面缺陷檢測技術廣泛應用在各種工業場景中.本文對近年來基于深度學習的表面缺陷檢測方法進行了梳理,根據數據標簽的不同將其分為全監督學習模型方法、無監督學習模型方法和其他方法三大類,并對各種典型方法進一步細分歸類和對比分析,總結了每種方法的優缺點和應用場景.本文探討了表面缺陷檢測中三個關鍵問題,介紹了工業表面缺陷常用數據集.最后,對表面缺陷檢測的未來發展趨勢進行了展望.
題目: 基于深度學習的主題模型研究
摘要: 主題模型作為一個發展二十余年的研究問題,一直是篇章級別文本語義理解的重要工具.主題模型善于從一組文檔中抽取出若干組關鍵詞來表達該文檔集的核心思想,因而也為文本分類、信息檢索、自動摘要、文本生成、情感分析等其他文本分析任務提供重要支撐.雖然基于三層貝葉斯網絡的傳統概率主題模型在過去十余年已被充分研究,但隨著深度學習技術在自然語言處理領域的廣泛應用,結合深度學習思想與方法的主題模型煥發出新的生機.研究如何整合深度學習的先進技術,構建更加準確高效的文本生成模型成為基于深度學習主題建模的主要任務.本文首先概述并對比了傳統主題模型中四個經典的概率主題模型與兩個稀疏約束的主題模型.接著對近幾年基于深度學習的主題模型研究進展進行綜述,分析其與傳統模型的聯系、區別與優勢,并對其中的主要研究方向和進展進行歸納、分析與比較.此外,本文還介紹了主題模型常用公開數據集及評測指標.最后,總結了主題模型現有技術的特點,并分析與展望了基于深度學習的主題模型的未來發展趨勢。
摘要: 手語識別涉及計算機視覺、模式識別、人機交互等領域,具有重要的研究意義與應用價值。深度學習技術的蓬勃發展為更加精準、實時的手語識別帶來了新的機遇。該文綜述了近年來基于深度學習的手語識別技術,從孤立詞與連續語句兩個分支展開詳細的算法闡述與分析。孤立詞識別技術劃分為基于卷積神經網絡(CNN)、3維卷積神經網絡(3D-CNN)和循環神經網絡(RNN) 3種架構的方法;連續語句識別所用模型復雜度更高,通常需要輔助某種長時時序建模算法,按其主體結構分為雙向長短時記憶網絡模型、3維卷積網絡模型和混合模型。歸納總結了目前國內外常用手語數據集,探討了手語識別技術的研究挑戰與發展趨勢,高精度前提下的魯棒性和實用化仍有待于推進。
摘要:命名實體識別是自然語言處理中的熱點研究方向之一,目的是識別文本中的命名實體并將其歸納到相應的實體類型中。首先闡述了命名實體識別任務的定義、目標和意義,分析提出了命名實體識別的主要難點在于領域命名實體識別局限性、命名實體表述多樣性和歧義性、命名實體的復雜性和開放性;然后介紹了命名實體識別研究的發展進程,從最初的規則和字典方法到傳統的統計學習方法再到現在的深度學習方法,不斷地將新技術應用到命名實體識別研究中以提高性能;接著系統梳理了當下命名實體識別任務中的若干熱門研究點,分別是匱乏資源下的命名實體識別、細粒度命名實體識別、嵌套命名實體識別以及命名實體鏈接;最后針對評判命名實體識別模型的好壞,總結了常用的若干數據集和實驗測評指標,并給出了未來的研究建議。
人機對話系統能夠讓機器通過人類語言與人進行交互,是人工智能領域的一項重要工作。因其在虛擬助手和社交聊天機器人等領域的商業價值而廣受工業界和學術界的關注。近年來,互聯網社交數據快速增長促進了數據驅動的開放領域對話系統研究,尤其是將深度學習技術應用到其中取得了突破性進展。基于深度學習的開放領域對話系統使用海量社交對話數據,通過檢索或者生成的方法建立對話模型學習對話模式。將深度學習融入檢索式系統中研究提高對話匹配模型的效果,將深度學習融入生成式系統中構建更高質量的生成模型,成為了基于深度學習的開放領域對話系統的主要任務。本文對近幾年基于深度學習的開放領域對話系統研究進展進行綜述,梳理、比較和分析主要方法,整理其中的關鍵問題和已有解決方案,總結評測指標,展望未來研究趨勢。