摘要: 隨著深度學習技術的快速發展,許多研究者嘗試利用深度學習來解決文本分類問題,特別在卷積神 經網絡和循環神經網絡方面,出現了許多新穎且富有成效的分類方法。本文對基于深度神經網絡的文本分類問題進行分析。分類介紹基于深度學習的文本分類方法,研究卷積神經網絡、循環神經網絡、注意力機 制等方法在文本分類中的應用和發展,分析不同深度學習文本分類方法的特點和性能,從準確率和運行時 間方面對基礎網絡結構進行比較。已有研究和本文實驗結果表明,深度神經網絡方法的分類性能超過了傳 統的機器學習方法,卷積神經網絡具有良好的分類性能。分析當前深度文本分類模型的不足,并對未來的 研究方向進行展望。
//www.ecice06.com/CN/10.19678/j.issn.1000-3428.0059099
文本分類技術經歷了從專家系統到機器學習再到深度學習的發展過程。上世紀 80 年代 以前,基于規則系統的文本分類方法需要領域專家定義一系列分類規則,通過規則匹配判斷 文本類別。基于規則的分類方法容易理解,但該方法依賴專家知識,構建成本高,系統可移 植性差。到上世紀 90 年代,機器學習技術逐漸走向成熟,出現了許多經典的文本分類算法, 如決策樹[1]、樸素貝葉斯[2]、支持向量機[3]、最大熵[4]、最近鄰方法[5]等,這些方法部分克服 了前述缺點,一定程度上實現了分類器的自動生成,被廣泛應用的各個領域,但其缺點是在 構建分類器之前,通常需要繁雜的人工特征工程。2012 年開始,深度學習算法引起了越來 越多人的關注,深度學習為機器學習建模提供了一種直接端到端的解決方案,避免了復雜的 特征工程。Golve[6]和 word2vec[7]等詞向量模型的提出,為深度學習算法應用到文本處理領域 上鋪平了道路,隨后出現了各種基于深度神經網絡的文本分類方法,這些方法主要采用了卷 積神經網絡(convolutional neural networks,CNN)、循環神經網絡(recurrent neural networks, RNN)、注意力機制(attention mechanism)等深度學習技術,并且取得了比傳統方法更為 出色的性能。近年來,圖卷積網絡(graph convolutional network,GCN)、區域嵌入(region embedding)、元學習(meta-learning)等一些新的深度學習方法也被應用到文本分類領域。本文對基于深度神經網絡的文本分類技術進行了介紹和分析,將詳細介紹卷積神經網 絡、循環神經網絡、組合模型、注意力機制等方法在文本分類中的應用和發展,分析各類方 法的特點以及之間的區別,對不同方法的性能表現和適用場景進行分析比較,討論在應用深度學習方法處理文本分類任務時應當注意的問題,最后指出未來的研究方向。
摘要
文本分類是自然語言處理中最基本、最基本的任務。過去十年,由于深度學習取得了前所未有的成功,這一領域的研究激增。大量的方法、數據集和評價指標已經在文獻中提出,提高了全面和更新綜述的需要。本文通過回顧1961年到2020年的先進方法的現狀來填補這一空白,側重于從淺到深的模型學習。我們根據所涉及的文本和用于特征提取和分類的模型創建文本分類的分類法。然后我們詳細討論每一個類別,處理支持預測測試的技術發展和基準數據集。本綜述還提供了不同技術之間的綜合比較,以及確定各種評估指標的優缺點。最后,總結了本研究的關鍵意義、未來研究方向和面臨的挑戰。
介紹
在許多自然語言處理(NLP)應用中,文本分類(為文本指定預定義標簽的過程)是一個基本和重要的任務, 如情緒分析[1][2][3],主題標簽[4][5][6],問答[7][8][9]和對話行為分類。在信息爆炸的時代,手工對大量文本數據進行處理和分類是一項耗時且具有挑戰性的工作。此外,手工文本分類的準確性容易受到人為因素的影響,如疲勞、專業知識等。人們希望使用機器學習方法來自動化文本分類過程,以產生更可靠和較少主觀的結果。此外,通過定位所需信息,可以提高信息檢索效率,緩解信息超載的問題。 圖1給出了在淺層和深層分析的基礎上,文本分類所涉及的步驟流程圖。文本數據不同于數字、圖像或信號數據。它需要NLP技術來仔細處理。第一個重要的步驟是對模型的文本數據進行預處理。淺層學習模型通常需要通過人工方法獲得良好的樣本特征,然后用經典的機器學習算法對其進行分類。因此,特征提取在很大程度上制約了該方法的有效性。然而,與淺層模型不同,深度學習通過學習一組直接將特征映射到輸出的非線性轉換,將特征工程集成到模型擬合過程中。
主要文本分類方法的示意圖如圖2所示。從20世紀60年代到21世紀10年代,基于淺層學習的文本分類模型占據了主導地位。淺層學習意味著在樂此不疲的模型,如 Na??ve Bayes(NB)[10], K-近鄰(KNN)[11],和支持向量機(SVM)[12]。與早期基于規則的方法相比,該方法在準確性和穩定性方面具有明顯的優勢。然而,這些方法仍然需要進行特征工程,這是非常耗時和昂貴的。此外,它們往往忽略文本數據中自然的順序結構或上下文信息,使學習詞匯的語義信息變得困難。自2010年代以來,文本分類逐漸從淺層學習模式向深度學習模式轉變。與基于淺層學習的方法相比,深度學習方法避免了人工設計規則和特征,并自動提供文本挖掘的語義意義表示。因此,大部分文本分類研究工作都是基于DNNs的,這是一種計算復雜度很高的數據驅動方法。很少有人關注于用淺層學習模型來解決計算和數據的局限性。
在文獻中,Kowsari等[13]考慮了不同的文本特征提取、降維方法、文本分類的基本模型結構和評價方法。Minaee等人[14]回顧了最近基于深度學習的文本分類方法、基準數據集和評估指標。與現有的文本分類研究不同,我們利用近年來的研究成果對現有的模型進行了從淺到深的總結。淺層學習模型強調特征提取和分類器設計。一旦文本具有精心設計的特征,就可以通過訓練分類器來快速收斂。在不需要領域知識的情況下,DNNs可以自動進行特征提取和學習。然后給出了單標簽和多標簽任務的數據集和評價指標,并從數據、模型和性能的角度總結了未來的研究挑戰。此外,我們在4個表中總結了各種信息,包括經典淺層和深度學習模型的必要信息、DNNs的技術細節、主要數據集的主要信息,以及在不同應用下的最新方法的一般基準。總而言之,本研究的主要貢獻如下:
我們在表1中介紹了文本分類的過程和發展,并總結了經典模式在出版年份方面的必要信息,包括地點、應用、引用和代碼鏈接。
根據模型結構,從淺層學習模型到深度學習模型,對主要模型進行了全面的分析和研究。我們在表2中對經典或更具體的模型進行了總結,并主要從基本模型、度量和實驗數據集方面概述了設計差異。
我們介紹了現有的數據集,并給出了主要的評價指標的制定,包括單標簽和多標簽文本分類任務。我們在表3中總結了基本數據集的必要信息,包括類別的數量,平均句子長度,每個數據集的大小,相關的論文和數據地址。
我們在表5中總結了經典模型在基準數據集上的分類精度得分,并通過討論文本分類面臨的主要挑戰和本研究的關鍵意義來總結綜述結果。
摘要:近年來,基于深度學習的表面缺陷檢測技術廣泛應用在各種工業場景中.本文對近年來基于深度學習的表面缺陷檢測方法進行了梳理,根據數據標簽的不同將其分為全監督學習模型方法、無監督學習模型方法和其他方法三大類,并對各種典型方法進一步細分歸類和對比分析,總結了每種方法的優缺點和應用場景.本文探討了表面缺陷檢測中三個關鍵問題,介紹了工業表面缺陷常用數據集.最后,對表面缺陷檢測的未來發展趨勢進行了展望.
摘要: 大數據時代,數據呈現維度高、數據量大和增長快等特點。如何有效利用其中蘊含的有價值信息,以實現數據的智能化處理,已成為當前理論和應用的研究熱點。針對現實普遍存在的多義性對象,數據多標簽被提出并被廣泛應用于數據智能化組織。近年來,深度學習在數據特征提取方面呈現出高速、高精度等優異性,使基于深度學習的多標簽生成得到廣泛關注。文中分五大類別總結了最新研究成果,并進一步從數據、關系類型、應用場景、適應性及實驗性能方面對其進行對比和分析,最后探討了多標簽生成面臨的挑戰和未來的研究方向。
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。
在過去的幾年里,自然語言處理領域由于深度學習模型的大量使用而得到了發展。這份綜述提供了一個NLP領域的簡要介紹和一個快速的深度學習架構和方法的概述。然后,篩選了大量最近的研究論文,并總結了大量相關的貢獻。NLP研究領域除了計算語言學的一些應用外,還包括幾個核心的語言處理問題。然后討論了目前的技術水平,并對該領域今后的研究提出了建議。