文本分類作為自然語言處理中一個基本任務,在20世紀50年代就已經對其算法進行了研究,現在單標簽文本分類算法已經趨向成熟,但是對于多標簽文本分類的研究還有很大的提升空間。介紹了多標簽文本分類的基本概念以及基本流程,包括數據集獲取、文本預處理、模型訓練和預測結果。介紹了多標簽文本分類的方法。這些方法主要分為兩大類:傳統機器學習方法和基于深度學習的方法。傳統機器學習方法主要包括問題轉換方法和算法自適應方法。基于深度學習的方法是利用各種神經網絡模型來處理多標簽文本分類問題,根據模型結構,將其分為基于CNN結構、基于RNN結構和基于Transfomer結構的多標簽文本分類方法。對多標簽文本分類常用的數據集進行了梳理總結。對未來的發展趨勢進行了分析與展望。
新聞推薦(NR)可以有效緩解新聞信息過載,是當今人們獲取新聞資訊的重要方式,而深度學習(DL)成為近年來促進新聞推薦發展的主流技術,使新聞推薦的效果得到顯著提升,受到研究者們的廣泛關注。主要對基于深度學習的新聞推薦方法研究現狀進行分類梳理和分析歸納。根據對新聞推薦的核心對象——用戶和新聞的建模思路不同,將基于深度學習的新聞推薦方法分為“兩段式”方法、“融合式”方法和“協同式”方法三類。在每類方法中,根據建模過程中的具體子任務或基于的數據組織結構進行更進一步細分,對代表性模型進行分析介紹,評價其優點和局限性等,并詳細總結每類方法的特點和優缺點。另外還介紹了新聞推薦中常用數據集、基線算法和性能評價指標,最后分析展望了該領域未來可能的研究方向及發展趨勢。
精準地預判網絡流量變化趨勢可以幫助運營商準確預估網絡的使用情況,合理分配并高效利用網絡資源,以滿足日益增長且多樣化的用戶需求。以深度學習算法在網絡流量預測領域的進展為線索,闡述了網絡流量預測的評價指標和目前公開的網絡流量數據集及應用,具體分析了網絡流量預測中常用的深度信念網絡、卷積神經網絡、循環神經網絡和長短時記憶網絡共四種深度學習方法,并重點介紹了近年來針對不同問題所提出的改進神經網絡模型,總結了各模型特點及應用場景。最后對網絡流量預測未來發展進行了展望。
近年來,深度學習技術得到了快速發展。在自然語言處理(NLP)任務中,隨著文本表征技術從詞級上升到了文檔級,利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先,根據文本特征提取技術的發展,從詞級和文檔級對典型的模型進行了分析;其次,從預訓練目標任務和下游應用兩個階段,分析了當前預訓練模型的研究現狀,并對代表性的模型特點進行了梳理和歸納;最后,總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。
對話系統作為人機交互的重要方式,有著廣泛的應用前景。現有的對話系統專注于解決語義一致性和內容豐富性等問題,對于提高人機交互以及產生人機共鳴方向的研究關注度不高。如何讓生成的語句在具有語義相關性的基礎上更自然地與用戶交流是當前對話系統面臨的主要問題之一。首先對對話系統進行了整體情況的概括。接著介紹了情感對話系統中的對話情緒感知和情感對話生成兩大任務,并分別調研歸納了相關方法。對話情緒感知任務大致分為基于上下文和基于用戶信息兩類方法。情感對話生成的方法包括規則匹配算法、指定情感回復的生成模型和不指定情感回復的生成模型,并從情緒數據類別和模型方法等方面進行了對比分析。然后總結整理了兩大任務下數據集的特點和鏈接便于后續的研究,并歸納了當前情感對話系統中不同的評估方法。最后對情感對話系統的工作進行了總結和展望。
摘要: 當前,以網絡數據為代表的跨媒體數據呈現爆炸式增長的趨勢,呈現出了跨模態、跨數據源的復雜關聯及動態演化特性,跨媒體分析與推理技術針對多模態信息理解、交互、內容管理等需求,通過構建跨模態、跨平臺的語義貫通與統一表征機制,進一步實現分析和推理以及對復雜認知目標的不斷逼近,建立語義層級的邏輯推理機制,最終實現跨媒體類人智能推理。文中對跨媒體分析推理技術的研究背景和發展歷史進行概述,歸納總結視覺-語言關聯等任務的關鍵技術,并對研究應用進行舉例。基于已有結論,分析目前跨媒體分析領域所面臨的關鍵問題,最后探討未來的發展趨勢。
摘要:隨著深度學習技術的快速發展,許多研究者嘗試利用深度學習來解決文本分類問題,特別是在卷積神經網絡和循環神經網絡方面,出現了許多新穎且有效的分類方法。對基于深度神經網絡的文本分類問題進行分析,介紹卷積神經網絡、循環神經網絡、注意力機制等方法在文本分類中的應用和發展,分析多種典型分類方法的特點和性能,從準確率和運行時間方面對基礎網絡結構進行比較,表明深度神經網絡較傳統機器學習方法在用于文本分類時更具優勢,其中卷積神經網絡具有優秀的分類性能和泛化能力。在此基礎上,指出當前深度文本分類模型存在的不足,并對未來的研究方向進行展望。
//www.ecice06.com/article/2021/1000-3428/2121.htm
文本分類技術經歷了從專家系統到機器學習再到深度學習的發展過程。在20世紀80年代以前,基于規則系統的文本分類方法需要領域專家定義一系列分類規則,通過規則匹配判斷文本類別。基于規則的分類方法容易理解,但該方法依賴專家知識,系統構建成本高且可移植性差。20世紀90年代,機器學習技術逐漸走向成熟,出現了許多經典的文本分類算法,如決策樹[1]、樸素貝葉斯[2]、支持向量機[3]、最大熵[4]、最近鄰[5]等,這些方法部分克服了上述缺點,一定程度上實現了分類器的自動生成,被廣泛應用于各個領域。然而,機器學習方法在構建分類器之前通常需要繁雜的人工特征工程,這限制了其進一步發展。
2012年之后,深度學習算法引起了研究者的廣泛關注。深度學習為機器學習建模提供了一種直接端到端的解決方案,可避免復雜的特征工程。GolVe[6]和word2vec[7]等詞向量模型的提出,使深度學習算法成功地應用到文本處理領域,隨后出現了各種基于深度神經網絡(Deep Neural Network,DNN)的文本分類方法。這些方法主要采用卷積神經網絡(Convolutional Neural Network,CNN)、循環神經網絡(Recurrent Neural Network,RNN)和注意力機制等深度學習技術,并且取得了比傳統方法更為出色的性能。近年來,圖卷積網絡(Graph Convolutional Network,GCN)、區域嵌入和元學習等一些新的深度學習方法也被應用于文本分類領域。
本文對基于深度神經網絡的文本分類技術進行介紹和分析,闡述卷積神經網絡、循環神經網絡和注意力機制等方法在文本分類中的應用和發展情況,總結各類方法的特點及區別,并對不同方法的性能表現和適用場景進行比較,討論在應用深度學習方法處理文本分類任務時應當注意的問題。在此基礎上,指出針對該技術未來的研究方向。
//cea.ceaj.org/CN/abstract/abstract39198.shtml
近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。
摘要: 隨著深度學習技術的快速發展,許多研究者嘗試利用深度學習來解決文本分類問題,特別在卷積神 經網絡和循環神經網絡方面,出現了許多新穎且富有成效的分類方法。本文對基于深度神經網絡的文本分類問題進行分析。分類介紹基于深度學習的文本分類方法,研究卷積神經網絡、循環神經網絡、注意力機 制等方法在文本分類中的應用和發展,分析不同深度學習文本分類方法的特點和性能,從準確率和運行時 間方面對基礎網絡結構進行比較。已有研究和本文實驗結果表明,深度神經網絡方法的分類性能超過了傳 統的機器學習方法,卷積神經網絡具有良好的分類性能。分析當前深度文本分類模型的不足,并對未來的 研究方向進行展望。
//www.ecice06.com/CN/10.19678/j.issn.1000-3428.0059099
文本分類技術經歷了從專家系統到機器學習再到深度學習的發展過程。上世紀 80 年代 以前,基于規則系統的文本分類方法需要領域專家定義一系列分類規則,通過規則匹配判斷 文本類別。基于規則的分類方法容易理解,但該方法依賴專家知識,構建成本高,系統可移 植性差。到上世紀 90 年代,機器學習技術逐漸走向成熟,出現了許多經典的文本分類算法, 如決策樹[1]、樸素貝葉斯[2]、支持向量機[3]、最大熵[4]、最近鄰方法[5]等,這些方法部分克服 了前述缺點,一定程度上實現了分類器的自動生成,被廣泛應用的各個領域,但其缺點是在 構建分類器之前,通常需要繁雜的人工特征工程。2012 年開始,深度學習算法引起了越來 越多人的關注,深度學習為機器學習建模提供了一種直接端到端的解決方案,避免了復雜的 特征工程。Golve[6]和 word2vec[7]等詞向量模型的提出,為深度學習算法應用到文本處理領域 上鋪平了道路,隨后出現了各種基于深度神經網絡的文本分類方法,這些方法主要采用了卷 積神經網絡(convolutional neural networks,CNN)、循環神經網絡(recurrent neural networks, RNN)、注意力機制(attention mechanism)等深度學習技術,并且取得了比傳統方法更為 出色的性能。近年來,圖卷積網絡(graph convolutional network,GCN)、區域嵌入(region embedding)、元學習(meta-learning)等一些新的深度學習方法也被應用到文本分類領域。本文對基于深度神經網絡的文本分類技術進行了介紹和分析,將詳細介紹卷積神經網 絡、循環神經網絡、組合模型、注意力機制等方法在文本分類中的應用和發展,分析各類方 法的特點以及之間的區別,對不同方法的性能表現和適用場景進行分析比較,討論在應用深度學習方法處理文本分類任務時應當注意的問題,最后指出未來的研究方向。
摘要: 在自然語言處理領域,信息抽取一直以來受到人們的關注.信息抽取主要包括3項子任務:實體抽取、關系抽取和事件抽取,而關系抽取是信息抽取領域的核心任務和重要環節.實體關系抽取的主要目標是從自然語言文本中識別并判定實體對之間存在的特定關系,這為智能檢索、語義分析等提供了基礎支持,有助于提高搜索效率,促進知識庫的自動構建.綜合闡述了實體關系抽取的發展歷史,介紹了常用的中文和英文關系抽取工具和評價體系.主要從4個方面展開介紹了實體關系抽取方法,包括:早期的傳統關系抽取方法、基于傳統機器學習、基于深度學習和基于開放領域的關系抽取方法,總結了在不同歷史階段的主流研究方法以及相應的代表性成果,并對各種實體關系抽取技術進行對比分析.最后,對實體關系抽取的未來重點研究內容和發展趨勢進行了總結和展望.
//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2020.20190358#1
摘要:隨著日益劇增的海量數據信息的產生以及數據挖掘算法的廣泛應用,人們已經進入了大數據時代.在數據規模飛速增長的前提下,如何高效穩定的存取數據信息以及加快數據挖掘算法的執行已經成為學術界和工業界急需解決的關鍵問題.機器學習算法作為數據挖掘應用的核心組成部分,吸引了越來越多研究者的關注,而利用新型的軟硬件手段來加速機器學習算法已經成為了目前的研究熱點之一.本文主要針對基于ASIC和FPGA等硬件平臺設計的機器學習加速器進行了歸納與總結.首先,本文先介紹了機器學習算法,對代表性的算法進行了分析和歸納.接下來對加速器可能的著眼點進行了列舉綜述,以各種機器學習硬件加速器為主要實例介紹了目前主流的加速器設計和實現,并圍繞加速器結構進行簡單分類和總結.最后本文對機器學習算法硬件加速這個領域進行了分析,并對目前的發展趨勢做出了展望.