亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

序列標記是一個基礎性研究問題,涉及詞性標記、命名實體識別、文本分塊等多種任務。盡管在許多下游應用(如信息檢索、問題回答和知識圖譜嵌入)中普遍和有效,傳統的序列標記方法嚴重依賴于手工制作或特定語言的特征。最近,深度學習已經被用于序列標記任務,因為它在自動學習實例的復雜特征和有效地產生藝術表現的強大能力。在本文中,我們旨在全面回顧現有的基于深度學習的序列標記模型,這些模型包括三個相關的任務,如詞性標記、命名實體識別和文本組塊。然后,在科學分類的基礎上,結合SL領域中廣泛使用的實驗數據集和常用的評價指標,系統地介紹了現有的方法。此外,我們還對不同的SL模型進行了深入分析,分析了可能影響SL領域性能和未來發展方向的因素。

//arxiv.org/abs/2011.06727

序列標記是自然語言處理(NLP)中重要的一種模式識別任務。從語言學的角度來看,語言中最小的意義單位通常被認為是語素,因此每句話都可以看作是語素構成的序列。相應的,NLP領域中的序列標記問題可以將其表述為一種任務,目的是為一類在句子語法結構中通常具有相似角色和相似語法屬性的語素分配標簽,所分配標簽的意義通常取決于特定任務的類型,經典任務的例子有詞性標注[71]、命名實體識別(NER)[52]、文本分塊[65]等,在自然語言理解中起著至關重要的作用,有利于各種下游應用,如句法解析[81]、關系提取[64]和實體共指解析[78]等,并因此迅速得到廣泛關注。

通常,傳統的序列標記方法通常基于經典的機器學習技術,如隱馬爾科夫模型(HMM)[3]和條件隨機字段(CRFs)[51],這些技術通常嚴重依賴于手工制作的特征(如一個單詞是否大寫)或特定于語言的資源(如地名詞典)。盡管實現了卓越的性能,但對大量領域知識的需求和對特征工程的努力使得它們極難擴展到新的領域。在過去的十年中,深度學習(DL)由于其在自動學習復雜數據特征方面的強大能力而取得了巨大的成功。因此,對于如何利用深度神經網絡的表示學習能力來增強序列標記任務的研究已經有了很多,其中很多方法已經陸續取得了[8],[1],[19]的先進性能。這一趨勢促使我們對深度學習技術在序列標記領域的現狀進行了全面的綜述。通過比較不同深度學習架構的選擇,我們的目標是識別對模型性能的影響,以便后續研究人員更好地了解這些模型的優缺點。

本綜述的目的是全面回顧深度學習在序列標記(SL)領域的最新應用技術,并提供一個全景,以啟發和指導SL研究社區的研究人員和從業者快速理解和進入該領域。具體來說,我們對基于深度學習的SL技術進行了全面的調研,并按照嵌入模塊、上下文編碼器模塊和推理模塊三個軸進行了科學的分類,系統地總結了目前的研究現狀。此外,我們還概述了序列標記領域中常用任務的實驗設置(即數據集或評價指標)。此外,我們討論和比較了最具代表性的模型給出的結果,以分析不同因素和建筑的影響。最后,我們向讀者展示了當前基于dll的序列標記方法所面臨的挑戰和開放問題,并概述了該領域的未來發展方向。

本綜述旨在全面回顧深度學習技術在序列標注中的應用,并提供一個全景視圖,以便讀者對這一領域有一個全面的了解。我們以科學的分類學對文獻進行了總結。此外,我們提供了一般研究的序列標記問題的數據集和評價指標的概述。此外,我們還討論和比較了不同模型的結果,并分析了影響性能的因素和不同架構。最后,我們向讀者展示了當前方法面臨的挑戰和開放問題,并確定了該領域的未來方向。我們希望這項調查能對序列標記感興趣的研究者、從業者和教育者有所啟發和指導。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

【導讀】本文章從深度神經網絡(DNN)入手,對深度學習(DL)領域的研究進展進行了簡要的綜述。內容包括:卷積神經網絡(CNN)、循環神經網絡(RNN)、長時記憶(LSTM)和門控遞歸單元(GRU)、自動編碼器(AE)、深度信念網絡(DBN)、生成對抗性網絡(GAN)和深度強化學習(DRL)。

近年來,深度學習在各個應用領域都取得了巨大的成功。這個機器學習的新領域發展迅速,已經應用于大多數傳統的應用領域,以及一些提供更多機會的新領域。針對不同類型的學習,提出了不同的學習方法,包括監督學習、半監督學習和非監督學習。

實驗結果表明,與傳統機器學習方法相比,深度學習在圖像處理、計算機視覺、語音識別、機器翻譯、藝術、醫學成像、醫學信息處理、機器人與控制、生物信息學、自然語言處理、網絡安全等領域具有最先進的性能。

本研究從深度神經網絡(DNN)入手,對深度學習(DL)領域的研究進展進行了簡要的綜述。研究內容包括:卷積神經網絡(CNN)、循環神經網絡(RNN)、長時記憶(LSTM)和門控遞歸單元(GRU)、自動編碼器(AE)、深度信念網絡(DBN)、生成對抗性網絡(GAN)和深度強化學習(DRL)。

此外,我們還討論了最近的發展,例如基于這些DL方法的高級變體DL技術。這項工作考慮了2012年以后發表的大部分論文,當時深度學習的歷史開始了。此外,本文中還包括了在不同應用領域探索和評價的DL方法。我們還包括最近開發的框架、SDKs和基準數據集,用于實施和評估深度學習方法。目前有一些研究已經發表,例如使用神經網絡和一個關于強化學習(RL)的綜述。然而,這些論文還沒有討論大規模深度學習模型的個別高級訓練技術和最近發展起來的生成模型的方法。

關鍵詞:卷積神經網絡(CNN);循環神經網絡(RNN);自動編碼器(AE);受限Boltzmann機器(RBM);深度信念網絡(DBN);生成對抗性網絡(GAN);深度強化學習(DRL);遷移學習。

付費5元查看完整內容

摘要

文本分類是自然語言處理中最基本、最基本的任務。過去十年,由于深度學習取得了前所未有的成功,這一領域的研究激增。大量的方法、數據集和評價指標已經在文獻中提出,提高了全面和更新綜述的需要。本文通過回顧1961年到2020年的先進方法的現狀來填補這一空白,側重于從淺到深的模型學習。我們根據所涉及的文本和用于特征提取和分類的模型創建文本分類的分類法。然后我們詳細討論每一個類別,處理支持預測測試的技術發展和基準數據集。本綜述還提供了不同技術之間的綜合比較,以及確定各種評估指標的優缺點。最后,總結了本研究的關鍵意義、未來研究方向和面臨的挑戰。

介紹

在許多自然語言處理(NLP)應用中,文本分類(為文本指定預定義標簽的過程)是一個基本和重要的任務, 如情緒分析[1][2][3],主題標簽[4][5][6],問答[7][8][9]和對話行為分類。在信息爆炸的時代,手工對大量文本數據進行處理和分類是一項耗時且具有挑戰性的工作。此外,手工文本分類的準確性容易受到人為因素的影響,如疲勞、專業知識等。人們希望使用機器學習方法來自動化文本分類過程,以產生更可靠和較少主觀的結果。此外,通過定位所需信息,可以提高信息檢索效率,緩解信息超載的問題。 圖1給出了在淺層和深層分析的基礎上,文本分類所涉及的步驟流程圖。文本數據不同于數字、圖像或信號數據。它需要NLP技術來仔細處理。第一個重要的步驟是對模型的文本數據進行預處理。淺層學習模型通常需要通過人工方法獲得良好的樣本特征,然后用經典的機器學習算法對其進行分類。因此,特征提取在很大程度上制約了該方法的有效性。然而,與淺層模型不同,深度學習通過學習一組直接將特征映射到輸出的非線性轉換,將特征工程集成到模型擬合過程中。

主要文本分類方法的示意圖如圖2所示。從20世紀60年代到21世紀10年代,基于淺層學習的文本分類模型占據了主導地位。淺層學習意味著在樂此不疲的模型,如 Na??ve Bayes(NB)[10], K-近鄰(KNN)[11],和支持向量機(SVM)[12]。與早期基于規則的方法相比,該方法在準確性和穩定性方面具有明顯的優勢。然而,這些方法仍然需要進行特征工程,這是非常耗時和昂貴的。此外,它們往往忽略文本數據中自然的順序結構或上下文信息,使學習詞匯的語義信息變得困難。自2010年代以來,文本分類逐漸從淺層學習模式向深度學習模式轉變。與基于淺層學習的方法相比,深度學習方法避免了人工設計規則和特征,并自動提供文本挖掘的語義意義表示。因此,大部分文本分類研究工作都是基于DNNs的,這是一種計算復雜度很高的數據驅動方法。很少有人關注于用淺層學習模型來解決計算和數據的局限性。

在文獻中,Kowsari等[13]考慮了不同的文本特征提取、降維方法、文本分類的基本模型結構和評價方法。Minaee等人[14]回顧了最近基于深度學習的文本分類方法、基準數據集和評估指標。與現有的文本分類研究不同,我們利用近年來的研究成果對現有的模型進行了從淺到深的總結。淺層學習模型強調特征提取和分類器設計。一旦文本具有精心設計的特征,就可以通過訓練分類器來快速收斂。在不需要領域知識的情況下,DNNs可以自動進行特征提取和學習。然后給出了單標簽和多標簽任務的數據集和評價指標,并從數據、模型和性能的角度總結了未來的研究挑戰。此外,我們在4個表中總結了各種信息,包括經典淺層和深度學習模型的必要信息、DNNs的技術細節、主要數據集的主要信息,以及在不同應用下的最新方法的一般基準。總而言之,本研究的主要貢獻如下:

  • 我們在表1中介紹了文本分類的過程和發展,并總結了經典模式在出版年份方面的必要信息,包括地點、應用、引用和代碼鏈接。

  • 根據模型結構,從淺層學習模型到深度學習模型,對主要模型進行了全面的分析和研究。我們在表2中對經典或更具體的模型進行了總結,并主要從基本模型、度量和實驗數據集方面概述了設計差異。

  • 我們介紹了現有的數據集,并給出了主要的評價指標的制定,包括單標簽和多標簽文本分類任務。我們在表3中總結了基本數據集的必要信息,包括類別的數量,平均句子長度,每個數據集的大小,相關的論文和數據地址。

  • 我們在表5中總結了經典模型在基準數據集上的分類精度得分,并通過討論文本分類面臨的主要挑戰和本研究的關鍵意義來總結綜述結果。

付費5元查看完整內容

命名實體識別(NER)的任務是識別提到命名實體的文本范圍,并將它們分類為預定義的類別,如人員、位置、組織等。NER是各種自然語言應用的基礎,如問題回答、文本摘要和機器翻譯。雖然早期的NER系統能夠成功地產生相當高的識別精度,但它們通常需要大量的人力來精心設計規則或特征。近年來,基于連續實值向量表示和通過非線性處理的語義組合的深度學習被應用到NER系統中,產生了最先進的性能。在這篇論文中,我們對現有的深度學習技術進行了全面的回顧。我們首先介紹NER資源,包括標記的NER語料庫和現成的NER工具。然后,我們根據一個分類法沿著三個軸對現有的作品進行了系統的分類:輸入的分布式表示、上下文編碼器和標記解碼器。接下來,我們調查了最近在新的NER問題設置和應用中應用深度學習技術的最有代表性的方法。最后,我們向讀者介紹NER系統所面臨的挑戰,并概述該領域的未來發展方向。

付費5元查看完整內容

自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。

付費5元查看完整內容

異常檢測是一個在各個研究領域和應用領域內得到廣泛研究的重要問題。本研究的目的有兩個方面:首先,我們對基于深度學習的異常檢測的研究方法進行了系統全面的綜述。此外,我們還回顧了這些方法對不同應用領域異常的應用,并評估了它們的有效性。我們根據所采用的基本假設和方法,將最先進的研究技術分為不同的類別。在每一類中,我們概述了基本的異常檢測技術,以及它的變體,并給出了關鍵的假設,以區分正常行為和異常行為。對于我們介紹的每一類技術,我們還介紹了它們的優點和局限性,并討論了這些技術在實際應用領域中的計算復雜性。最后,我們概述了研究中的未決問題和采用這些技術時所面臨的挑戰。

付費5元查看完整內容

在過去的幾年里,自然語言處理領域由于深度學習模型的大量使用而得到了發展。這份綜述提供了一個NLP領域的簡要介紹和一個快速的深度學習架構和方法的概述。然后,篩選了大量最近的研究論文,并總結了大量相關的貢獻。NLP研究領域除了計算語言學的一些應用外,還包括幾個核心的語言處理問題。然后討論了目前的技術水平,并對該領域今后的研究提出了建議。

付費5元查看完整內容
北京阿比特科技有限公司