亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

文本分類是自然語言處理中最基本、最基本的任務。過去十年,由于深度學習取得了前所未有的成功,這一領域的研究激增。大量的方法、數據集和評價指標已經在文獻中提出,提高了全面和更新綜述的需要。本文通過回顧1961年到2020年的先進方法的現狀來填補這一空白,側重于從淺到深的模型學習。我們根據所涉及的文本和用于特征提取和分類的模型創建文本分類的分類法。然后我們詳細討論每一個類別,處理支持預測測試的技術發展和基準數據集。本綜述還提供了不同技術之間的綜合比較,以及確定各種評估指標的優缺點。最后,總結了本研究的關鍵意義、未來研究方向和面臨的挑戰。

介紹

在許多自然語言處理(NLP)應用中,文本分類(為文本指定預定義標簽的過程)是一個基本和重要的任務, 如情緒分析[1][2][3],主題標簽[4][5][6],問答[7][8][9]和對話行為分類。在信息爆炸的時代,手工對大量文本數據進行處理和分類是一項耗時且具有挑戰性的工作。此外,手工文本分類的準確性容易受到人為因素的影響,如疲勞、專業知識等。人們希望使用機器學習方法來自動化文本分類過程,以產生更可靠和較少主觀的結果。此外,通過定位所需信息,可以提高信息檢索效率,緩解信息超載的問題。 圖1給出了在淺層和深層分析的基礎上,文本分類所涉及的步驟流程圖。文本數據不同于數字、圖像或信號數據。它需要NLP技術來仔細處理。第一個重要的步驟是對模型的文本數據進行預處理。淺層學習模型通常需要通過人工方法獲得良好的樣本特征,然后用經典的機器學習算法對其進行分類。因此,特征提取在很大程度上制約了該方法的有效性。然而,與淺層模型不同,深度學習通過學習一組直接將特征映射到輸出的非線性轉換,將特征工程集成到模型擬合過程中。

主要文本分類方法的示意圖如圖2所示。從20世紀60年代到21世紀10年代,基于淺層學習的文本分類模型占據了主導地位。淺層學習意味著在樂此不疲的模型,如 Na??ve Bayes(NB)[10], K-近鄰(KNN)[11],和支持向量機(SVM)[12]。與早期基于規則的方法相比,該方法在準確性和穩定性方面具有明顯的優勢。然而,這些方法仍然需要進行特征工程,這是非常耗時和昂貴的。此外,它們往往忽略文本數據中自然的順序結構或上下文信息,使學習詞匯的語義信息變得困難。自2010年代以來,文本分類逐漸從淺層學習模式向深度學習模式轉變。與基于淺層學習的方法相比,深度學習方法避免了人工設計規則和特征,并自動提供文本挖掘的語義意義表示。因此,大部分文本分類研究工作都是基于DNNs的,這是一種計算復雜度很高的數據驅動方法。很少有人關注于用淺層學習模型來解決計算和數據的局限性。

在文獻中,Kowsari等[13]考慮了不同的文本特征提取、降維方法、文本分類的基本模型結構和評價方法。Minaee等人[14]回顧了最近基于深度學習的文本分類方法、基準數據集和評估指標。與現有的文本分類研究不同,我們利用近年來的研究成果對現有的模型進行了從淺到深的總結。淺層學習模型強調特征提取和分類器設計。一旦文本具有精心設計的特征,就可以通過訓練分類器來快速收斂。在不需要領域知識的情況下,DNNs可以自動進行特征提取和學習。然后給出了單標簽和多標簽任務的數據集和評價指標,并從數據、模型和性能的角度總結了未來的研究挑戰。此外,我們在4個表中總結了各種信息,包括經典淺層和深度學習模型的必要信息、DNNs的技術細節、主要數據集的主要信息,以及在不同應用下的最新方法的一般基準。總而言之,本研究的主要貢獻如下:

  • 我們在表1中介紹了文本分類的過程和發展,并總結了經典模式在出版年份方面的必要信息,包括地點、應用、引用和代碼鏈接。

  • 根據模型結構,從淺層學習模型到深度學習模型,對主要模型進行了全面的分析和研究。我們在表2中對經典或更具體的模型進行了總結,并主要從基本模型、度量和實驗數據集方面概述了設計差異。

  • 我們介紹了現有的數據集,并給出了主要的評價指標的制定,包括單標簽和多標簽文本分類任務。我們在表3中總結了基本數據集的必要信息,包括類別的數量,平均句子長度,每個數據集的大小,相關的論文和數據地址。

  • 我們在表5中總結了經典模型在基準數據集上的分類精度得分,并通過討論文本分類面臨的主要挑戰和本研究的關鍵意義來總結綜述結果。

付費5元查看完整內容

相關內容

文本分類(Text Classification)任務是根據給定文檔的內容或主題,自動分配預先定義的類別標簽。

當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在連續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。****

付費5元查看完整內容

在海量大數據的幫助下,深度學習在許多領域都取得了顯著的成功。但是,數據標簽的質量是一個問題,因為在許多現實場景中缺乏高質量的標簽。由于帶噪標簽嚴重降低了深度神經網絡的泛化性能,從帶噪標簽中學習(魯棒訓練)已成為現代深度學習應用的一項重要任務。在這個綜述中,我們首先從監督學習的角度來描述標簽噪聲的學習問題。接下來,我們提供了對46種最先進的魯棒訓練方法的全面回顧,所有這些方法根據其方法上的差異被歸類為7組,然后系統地比較用于評價其優越性的6種屬性。然后,總結了常用的評價方法,包括公共噪聲數據集和評價指標。最后,我們提出了幾個有前景的研究方向,可以作為未來研究的指導。

//arxiv.org/abs/2007.08199

付費5元查看完整內容

隨著圖像處理,語音識別等人工智能技術的發展,很多學習方法尤其是采用深度學習框架的方法取得了優異的性能,在精度和速度方面有了很大的提升,但隨之帶來的問題也很明顯,這些學習方法如果要獲得穩定的學習效果,往往需要使用數量龐大的標注數據進行充分訓練,否則就會出現欠擬合的情況而導致學習性能的下降。因此,隨著任務復雜程度和數據規模的增加,對人工標注數據的數量和質量也提出了更高的要求,造成了標注成本和難度的增大。同時,單一任務的獨立學習往往忽略了來自其他任務的經驗信息,致使訓練冗余重復因而導致了學習資源的浪費,也限制了其性能的提升。為了緩解這些問題,屬于遷移學習范疇的多任務學習方法逐漸引起了研究者的重視。與單任務學習只使用單個任務的樣本信息不同,多任務學習假設不同任務數據分布之間存在一定的相似性,在此基礎上通過共同訓練和優化建立任務之間的聯系。這種訓練模式充分促進任務之間的信息交換并達到了相互學習的目的,尤其是在各自任務樣本容量有限的條件下,各個任務可以從其它任務獲得一定的啟發,借助于學習過程中的信息遷移能間接利用其它任務的數據,從而緩解了對大量標注數據的依賴,也達到了提升各自任務學習性能的目的。在此背景之下,本文首先介紹了相關任務的概念,并按照功能的不同對相關任務的類型進行劃分后再對它們的特點進行逐一描述。然后,本文按照數據處理模式和任務關系建模過程的不同將當前的主流算法劃分為兩大類:結構化多任務學習算法和深度多任務學習算法。其中,結構化多任務學習算法采用線性模型,可以直接針對數據進行結構假設并且使用原有標注特征表述任務關系,同時,又可根據學習對象的不同將其細分為基于任務層面和基于特征層面兩種不同結構,每種結構有判別式方法和生成式方法兩種實現手段。與結構化多任務學習算法的建模過程不同,深度多任務學習算法利用經過多層特征抽象后的深層次信息進行任務關系描述,通過處理特定網絡層中的參數達到信息共享的目的。緊接著,以兩大類算法作為主線,本文詳細分析了不同建模方法中對任務關系的結構假設、實現途徑、各自的優缺點以及方法之間的聯系。最后,本文總結了任務之間相似性及其緊密程度的判別依據,并且分析了多任務作用機制的有效性和內在成因,從歸納偏置和動態求解等角度闡述了多任務信息遷移的特點。 //gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=JSJX20190417000&dbcode=CJFD&dbname=CAPJ2019

付費5元查看完整內容

【導讀】文本分類是自然語言處理匯總的基礎性任務,伴隨機器學習尤其是深度學習模型的發展,文本分類算法也在革新換代。最近,來自Snapchat、Google、NTU、Tabriz、微軟等學者發表了關于《深度學習文本分類》的綜述論文,42頁pdf215篇參考文獻,詳細回顧了近年來發展起來的150多個基于深度學習的文本分類模型,并討論了它們的技術貢獻、相似性和優點。我們還提供了40多個廣泛用于文本分類的流行數據集的摘要。

基于深度學習的模型已經在各種文本分類任務中超越了傳統的基于機器學習的方法,包括情感分析、新聞分類、問題回答和自然語言推理。在這項工作中,我們詳細回顧了近年來發展起來的150多個基于深度學習的文本分類模型,并討論了它們的技術貢獻、相似性和優點。我們還提供了40多個廣泛用于文本分類的流行數據集的摘要。最后,我們對不同深度學習模型在流行基準上的表現進行了定量分析,并討論了未來的研究方向。

//www.arxiv-vanity.com/papers/2004.03705/

1. 概述

文本分類又稱文本歸檔,是自然語言處理(NLP)中的一個經典問題,其目的是將標簽或標記分配給文本單元,如句子、查詢、段落和文檔。它的應用范圍很廣,包括問題回答、垃圾郵件檢測、情緒分析、新聞分類、用戶意圖分類、內容審核等等。文本數據可以來自不同的來源,例如web數據、電子郵件、聊天、社交媒體、機票、保險索賠、用戶評論、客戶服務的問題和答案等等。文本是極其豐富的信息來源,但由于其非結構化的性質,從文本中提取見解可能是具有挑戰性和耗時的。

文本分類可以通過人工標注或自動標注來實現。隨著文本數據在工業應用中的規模越來越大,文本自動分類變得越來越重要。自動文本分類的方法可以分為三類:

  • 基于規則的方法
  • 基于機器學習(數據驅動)的方法
  • 混合的方法

基于規則的方法使用一組預定義的規則將文本分類為不同的類別。例如,任何帶有“足球”、“籃球”或“棒球”字樣的文檔都被指定為“體育”標簽。這些方法需要對領域有深入的了解,并且系統很難維護。另一方面,基于機器學習的方法學習根據過去對數據的觀察進行分類。使用預先標記的示例作為訓練數據,機器學習算法可以了解文本片段與其標記之間的內在關聯。因此,基于機器學習的方法可以檢測數據中的隱藏模式,具有更好的可擴展性,可以應用于各種任務。這與基于規則的方法形成了對比,后者針對不同的任務需要不同的規則集。混合方法,顧名思義,使用基于規則和機器學習方法的組合來進行預測。

近年來,機器學習模型受到了廣泛的關注。大多數經典的基于機器學習的模型遵循流行的兩步過程,在第一步中,從文檔(或任何其他文本單元)中提取一些手工制作的特征,在第二步中,將這些特征提供給分類器進行預測。一些流行的手工制作功能包括單詞包(BoW)及其擴展。常用的分類算法有樸素貝葉斯、支持向量機、隱馬爾可夫模型、梯度增強樹和隨機森林。這兩步方法有幾個局限性。例如,依賴手工制作的特征需要繁瑣的特征工程和分析才能獲得良好的性能。另外,特征設計對領域知識的依賴性強,使得該方法難以推廣到新的任務中。最后,這些模型不能充分利用大量的訓練數據,因為特征(或特征模板)是預先定義的。

在2012年,一種基于深度學習的模型AlexNet (AlexNet,)在ImageNet競賽中獲得了巨大的優勢。從那時起,深度學習模型被應用到計算機視覺和NLP的廣泛任務中,提高了技術水平(vaswani2017attention; he2016deep, devlin2018bert ;yang2019xlnet, )。這些模型嘗試以端到端方式學習特征表示并執行分類(或回歸)。它們不僅能夠發現數據中隱藏的模式,而且更容易從一個應用程序轉移到另一個應用程序。毫不奇怪,這些模型正在成為近年來各種文本分類任務的主流框架。

這個綜述,我們回顧了在過去六年中為不同的文本分類任務開發的150多個深度學習模型,包括情感分析、新聞分類、主題分類、問答(QA)和自然語言推理(NLI)。我們根據這些作品的神經網絡架構將它們分為幾個類別,例如基于遞歸神經網絡(RNNs)、卷積神經網絡(CNNs)、注意力、Transformers、膠囊網等的模型。本文的貢獻總結如下:

  • 我們提出了150多個用于文本分類的深度學習模型的詳細概述。
  • 我們回顧了40多個流行的文本分類數據集。
  • 我們提供了一個定量分析的表現,選定的一套深度學習模型在16個流行的基準。
  • 我們將討論尚存的挑戰和未來的方向。
  1. 深度學習模型文本分類

在本節中,我們將回顧150多個針對各種文本分類問題提出的深度學習框架。為了便于遵循,我們根據這些模型的主要架構貢獻,將它們分為以下幾類:

基于前饋網絡的模型,該模型將文本視為一個單詞包(第2.1節)。

基于RNNs的模型,該模型將文本視為單詞序列,旨在捕獲單詞依賴關系和文本結構(第2.2節)。

基于CNN的模型,它被訓練來識別文本中的模式,例如關鍵短語,用于分類(第2.3節)。

膠囊網絡解決了CNNs的池化操作所帶來的信息丟失問題,最近已被應用于文本分類(第2.4節)。

注意力機制是一種有效識別文本中相關詞的機制,已成為開發深度學習模型的有用工具(第2.5節)。

記憶增強網絡,它將神經網絡與某種形式的外部記憶相結合,模型可以讀寫外部記憶(章節2.6)。

Transformer,它允許比RNNs更多的并行化,使得使用GPU集群有效地(預先)訓練非常大的語言模型成為可能(章節2.7)。

圖神經網絡,用于捕獲自然語言的內部圖結構,如語法和語義解析樹(第2.8節)。

設計用于文本匹配的Siamese神經網絡,文本分類的一個特例(第2.9節)。

混合模型,將注意力、RNNs、CNNs等結合起來,以捕獲句子和文檔的局部和全局特征(第2.10節)。

最后,在第2.11節中,我們回顧了監督學習之外的建模技術,包括使用自動編碼器和對抗性訓練的非監督學習和增強學習。

  1. 文本分類數據集

  1. 結果比較

  1. 未來方向

在基于深度學習模型的幫助下,文本分類在過去幾年里取得了很大的進展。在過去的十年中,人們提出了一些新的思想(如神經嵌入、注意力機制、自注意、Transformer、BERT和XLNet),并取得了快速的進展。盡管取得了所有這些進展,但我們面前仍有幾項挑戰需要解決。本節將介紹其中的一些挑戰,并討論我們認為有助于推進該領域的研究方向。

  • 用于更有挑戰性任務的數據集
  • 對常識進行建模
  • 可解釋的深度學習模型
  • 記憶效率模型
  • 小樣本學習和零樣本學習
付費5元查看完整內容

文本分類,是NLP的基礎任務,旨在對給定文本預測其類別。然而,基礎任務不代表簡單任務:文本來源復雜多樣,文本粒度有大有小,文本標簽之間也有各種關系。面對各種問題,文本分類,仍在飛速發展中。來自美國弗吉尼亞大學的Kamran Kowsari博士等人,用了68頁A4紙的篇幅,從0開始,細致的總結了文本分類近些年的發展,循序漸進,新手友好!

近年來,復雜文檔和文本的數量呈指數級增長,需要對機器學習方法有更深刻的理解,才能在許多應用中準確地對文本進行分類。許多機器學習方法在自然語言處理方面取得了卓越的成績。這些學習算法的成功依賴于它們理解復雜模型和數據中的非線性關系的能力。然而,為文本分類找到合適的結構、體系和技術對研究人員來說是一個挑戰。本文簡要介紹了文本分類算法。本文概述了不同的文本特征提取、降維方法、現有的分類算法和技術以及評估手段。最后,討論了每種技術的局限性及其在實際問題中的應用。

付費5元查看完整內容
北京阿比特科技有限公司