摘要: 在自然語言處理領域,信息抽取一直以來受到人們的關注.信息抽取主要包括3項子任務:實體抽取、關系抽取和事件抽取,而關系抽取是信息抽取領域的核心任務和重要環節.實體關系抽取的主要目標是從自然語言文本中識別并判定實體對之間存在的特定關系,這為智能檢索、語義分析等提供了基礎支持,有助于提高搜索效率,促進知識庫的自動構建.綜合闡述了實體關系抽取的發展歷史,介紹了常用的中文和英文關系抽取工具和評價體系.主要從4個方面展開介紹了實體關系抽取方法,包括:早期的傳統關系抽取方法、基于傳統機器學習、基于深度學習和基于開放領域的關系抽取方法,總結了在不同歷史階段的主流研究方法以及相應的代表性成果,并對各種實體關系抽取技術進行對比分析.最后,對實體關系抽取的未來重點研究內容和發展趨勢進行了總結和展望.
//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2020.20190358#1
以研究科學創新與演化規律為目的的科學學近年來迎來了進一步的發展, 科技大數據領域知識圖譜在其中發揮了重大的作用. 本文將從科技大數據知識圖譜構建及應用研究角度, 對科學學研究過程中發揮重大推動作用的科技領域知識圖譜技術進行系統、深入的綜述, 闡述科技大數據知識圖譜構建過程中涉及的科技實體抽取、科技實體消歧、科技關系抽取、科技關系推斷等問題, 對科技實體推薦、科技社區發現、科技實體評價、學科交叉以及學科演化等科技大數據知識圖譜分析挖掘方法進行系統梳理, 并給出科技大數據知識圖譜未來的研究及應用方向.
//engine.scichina.com/publisher/scp/journal/SSI/50/7/10.1360/SSI-2019-0271?slug=abstract
推薦系統旨在為用戶推薦個性化的在線商品或信息, 其廣泛應用于眾多Web場景之中, 來處理海量信息數據所導致的信息過載問題, 以此提升用戶體驗. 鑒于推薦系統強大的實用性, 自20世紀90年代中期以來, 研究者針對其方法與應用兩方面, 進行了大量廣泛的研究. 近年來, 很多工作發現知識圖譜中所蘊含的豐富信息可以有效地解決推薦系統中存在的一系列關鍵問題, 例如數據稀疏、冷啟動、推薦多樣性等. 因此, 本文 針對基于知識圖譜的推薦系統這一領域進行了全面的綜述. 具體地, 首先簡單介紹推薦系統與知識圖譜中的一些基本概念. 隨后, 詳細介紹現有方法如何挖掘知識圖譜不同種類的信息并應用于推薦系統. 此外, 總結了相關的一系列推薦應用場景. 最后, 提出了對基于知識圖譜的推薦系統前景的看法, 并展望了該領域未來的研究方向.
摘要:近年來,基于深度學習的表面缺陷檢測技術廣泛應用在各種工業場景中.本文對近年來基于深度學習的表面缺陷檢測方法進行了梳理,根據數據標簽的不同將其分為全監督學習模型方法、無監督學習模型方法和其他方法三大類,并對各種典型方法進一步細分歸類和對比分析,總結了每種方法的優缺點和應用場景.本文探討了表面缺陷檢測中三個關鍵問題,介紹了工業表面缺陷常用數據集.最后,對表面缺陷檢測的未來發展趨勢進行了展望.
題目: 基于深度學習的主題模型研究
摘要: 主題模型作為一個發展二十余年的研究問題,一直是篇章級別文本語義理解的重要工具.主題模型善于從一組文檔中抽取出若干組關鍵詞來表達該文檔集的核心思想,因而也為文本分類、信息檢索、自動摘要、文本生成、情感分析等其他文本分析任務提供重要支撐.雖然基于三層貝葉斯網絡的傳統概率主題模型在過去十余年已被充分研究,但隨著深度學習技術在自然語言處理領域的廣泛應用,結合深度學習思想與方法的主題模型煥發出新的生機.研究如何整合深度學習的先進技術,構建更加準確高效的文本生成模型成為基于深度學習主題建模的主要任務.本文首先概述并對比了傳統主題模型中四個經典的概率主題模型與兩個稀疏約束的主題模型.接著對近幾年基于深度學習的主題模型研究進展進行綜述,分析其與傳統模型的聯系、區別與優勢,并對其中的主要研究方向和進展進行歸納、分析與比較.此外,本文還介紹了主題模型常用公開數據集及評測指標.最后,總結了主題模型現有技術的特點,并分析與展望了基于深度學習的主題模型的未來發展趨勢。
摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。
摘要:命名實體識別是自然語言處理中的熱點研究方向之一,目的是識別文本中的命名實體并將其歸納到相應的實體類型中。首先闡述了命名實體識別任務的定義、目標和意義,分析提出了命名實體識別的主要難點在于領域命名實體識別局限性、命名實體表述多樣性和歧義性、命名實體的復雜性和開放性;然后介紹了命名實體識別研究的發展進程,從最初的規則和字典方法到傳統的統計學習方法再到現在的深度學習方法,不斷地將新技術應用到命名實體識別研究中以提高性能;接著系統梳理了當下命名實體識別任務中的若干熱門研究點,分別是匱乏資源下的命名實體識別、細粒度命名實體識別、嵌套命名實體識別以及命名實體鏈接;最后針對評判命名實體識別模型的好壞,總結了常用的若干數據集和實驗測評指標,并給出了未來的研究建議。
人機對話系統能夠讓機器通過人類語言與人進行交互,是人工智能領域的一項重要工作。因其在虛擬助手和社交聊天機器人等領域的商業價值而廣受工業界和學術界的關注。近年來,互聯網社交數據快速增長促進了數據驅動的開放領域對話系統研究,尤其是將深度學習技術應用到其中取得了突破性進展。基于深度學習的開放領域對話系統使用海量社交對話數據,通過檢索或者生成的方法建立對話模型學習對話模式。將深度學習融入檢索式系統中研究提高對話匹配模型的效果,將深度學習融入生成式系統中構建更高質量的生成模型,成為了基于深度學習的開放領域對話系統的主要任務。本文對近幾年基于深度學習的開放領域對話系統研究進展進行綜述,梳理、比較和分析主要方法,整理其中的關鍵問題和已有解決方案,總結評測指標,展望未來研究趨勢。