本論文對大數據時代事件預測方法的現有方法進行了全面的調研。它提供了事件預測的挑戰、技術、應用、評估程序和未來展望的廣泛概述,總結了在超過200篇論文提出的研究,其中大部分是在過去五年內發表的。事件預測的挑戰、機遇和討論了預測事件的元素,包括事件地點,時間,和語義,之后我們接著提出一個系統的分類根據制定的問題。我們還分析了這些技術在不同領域的關系、差異、優勢和劣勢,包括機器學習、數據挖掘、模式識別、自然語言處理、信息檢索、統計和其他計算模型。此外,對流行的事件預測應用進行了全面和層次的分類,涵蓋了從自然科學到社會科學的各個領域。基于本文所討論的眾多歷史和最新研究成果,本文最后討論了這一快速發展領域的開放問題和未來趨勢。
圖在許多應用中被廣泛用于表示復雜數據,如電子商務、社交網絡和生物信息學。高效、有效地分析圖數據對于基于圖的應用程序非常重要。然而,大多數圖分析任務是組合優化(CO)問題,這是NP困難。最近的研究集中在使用機器學習(ML)解決基于圖CO問題的潛力上。使用基于ML的CO方法,一個圖必須用數值向量表示,這被稱為圖嵌入。在這個調查中,我們提供了一個全面的概述,最近的圖嵌入方法已經被用來解決CO問題。大多數圖嵌入方法有兩個階段:圖預處理和ML模型學習。本文從圖預處理任務和ML模型的角度對圖嵌入工作進行分類。此外,本文還總結了利用圖嵌入的基于圖的CO方法。特別是,圖嵌入可以被用作分類技術的一部分,也可以與搜索方法相結合來尋找CO問題的解決方案。最后對未來的研究方向做了一些評論。
摘要
文本分類是自然語言處理中最基本、最基本的任務。過去十年,由于深度學習取得了前所未有的成功,這一領域的研究激增。大量的方法、數據集和評價指標已經在文獻中提出,提高了全面和更新綜述的需要。本文通過回顧1961年到2020年的先進方法的現狀來填補這一空白,側重于從淺到深的模型學習。我們根據所涉及的文本和用于特征提取和分類的模型創建文本分類的分類法。然后我們詳細討論每一個類別,處理支持預測測試的技術發展和基準數據集。本綜述還提供了不同技術之間的綜合比較,以及確定各種評估指標的優缺點。最后,總結了本研究的關鍵意義、未來研究方向和面臨的挑戰。
介紹
在許多自然語言處理(NLP)應用中,文本分類(為文本指定預定義標簽的過程)是一個基本和重要的任務, 如情緒分析[1][2][3],主題標簽[4][5][6],問答[7][8][9]和對話行為分類。在信息爆炸的時代,手工對大量文本數據進行處理和分類是一項耗時且具有挑戰性的工作。此外,手工文本分類的準確性容易受到人為因素的影響,如疲勞、專業知識等。人們希望使用機器學習方法來自動化文本分類過程,以產生更可靠和較少主觀的結果。此外,通過定位所需信息,可以提高信息檢索效率,緩解信息超載的問題。 圖1給出了在淺層和深層分析的基礎上,文本分類所涉及的步驟流程圖。文本數據不同于數字、圖像或信號數據。它需要NLP技術來仔細處理。第一個重要的步驟是對模型的文本數據進行預處理。淺層學習模型通常需要通過人工方法獲得良好的樣本特征,然后用經典的機器學習算法對其進行分類。因此,特征提取在很大程度上制約了該方法的有效性。然而,與淺層模型不同,深度學習通過學習一組直接將特征映射到輸出的非線性轉換,將特征工程集成到模型擬合過程中。
主要文本分類方法的示意圖如圖2所示。從20世紀60年代到21世紀10年代,基于淺層學習的文本分類模型占據了主導地位。淺層學習意味著在樂此不疲的模型,如 Na??ve Bayes(NB)[10], K-近鄰(KNN)[11],和支持向量機(SVM)[12]。與早期基于規則的方法相比,該方法在準確性和穩定性方面具有明顯的優勢。然而,這些方法仍然需要進行特征工程,這是非常耗時和昂貴的。此外,它們往往忽略文本數據中自然的順序結構或上下文信息,使學習詞匯的語義信息變得困難。自2010年代以來,文本分類逐漸從淺層學習模式向深度學習模式轉變。與基于淺層學習的方法相比,深度學習方法避免了人工設計規則和特征,并自動提供文本挖掘的語義意義表示。因此,大部分文本分類研究工作都是基于DNNs的,這是一種計算復雜度很高的數據驅動方法。很少有人關注于用淺層學習模型來解決計算和數據的局限性。
在文獻中,Kowsari等[13]考慮了不同的文本特征提取、降維方法、文本分類的基本模型結構和評價方法。Minaee等人[14]回顧了最近基于深度學習的文本分類方法、基準數據集和評估指標。與現有的文本分類研究不同,我們利用近年來的研究成果對現有的模型進行了從淺到深的總結。淺層學習模型強調特征提取和分類器設計。一旦文本具有精心設計的特征,就可以通過訓練分類器來快速收斂。在不需要領域知識的情況下,DNNs可以自動進行特征提取和學習。然后給出了單標簽和多標簽任務的數據集和評價指標,并從數據、模型和性能的角度總結了未來的研究挑戰。此外,我們在4個表中總結了各種信息,包括經典淺層和深度學習模型的必要信息、DNNs的技術細節、主要數據集的主要信息,以及在不同應用下的最新方法的一般基準。總而言之,本研究的主要貢獻如下:
我們在表1中介紹了文本分類的過程和發展,并總結了經典模式在出版年份方面的必要信息,包括地點、應用、引用和代碼鏈接。
根據模型結構,從淺層學習模型到深度學習模型,對主要模型進行了全面的分析和研究。我們在表2中對經典或更具體的模型進行了總結,并主要從基本模型、度量和實驗數據集方面概述了設計差異。
我們介紹了現有的數據集,并給出了主要的評價指標的制定,包括單標簽和多標簽文本分類任務。我們在表3中總結了基本數據集的必要信息,包括類別的數量,平均句子長度,每個數據集的大小,相關的論文和數據地址。
我們在表5中總結了經典模型在基準數據集上的分類精度得分,并通過討論文本分類面臨的主要挑戰和本研究的關鍵意義來總結綜述結果。
管理統計和數據科學的原理包括:數據可視化;描述性措施;概率;概率分布;數學期望;置信區間;和假設檢驗。方差分析;簡單線性回歸;多元線性回歸也包括在內。另外,本書還提供了列聯表、卡方檢驗、非參數方法和時間序列方法。
教材:
深度學習在人工智能領域已經取得了非常優秀的成就,在有監督識別任務中,使用深度學習算法訓練海量的帶標簽數據,可以達到前所未有的識別精確度。但是,由于對海量數據的標注工作成本昂貴,對罕見類別獲取海量數據難度較大,所以如何識別在訓練過程中少見或從未見過的未知類仍然是一個嚴峻的問題。針對這個問題,該文回顧近年來的零樣本圖像識別技術研究,從研究背景、模型分析、數據集介紹、實驗分析等方面全面闡釋零樣本圖像識別技術。此外,該文還分析了當前研究存在的技術難題,并針對主流問題提出一些解決方案以及對未來研究的展望,為零樣本學習的初學者或研究者提供一些參考。
異常檢測是一個在各個研究領域和應用領域內得到廣泛研究的重要問題。本研究的目的有兩個方面:首先,我們對基于深度學習的異常檢測的研究方法進行了系統全面的綜述。此外,我們還回顧了這些方法對不同應用領域異常的應用,并評估了它們的有效性。我們根據所采用的基本假設和方法,將最先進的研究技術分為不同的類別。在每一類中,我們概述了基本的異常檢測技術,以及它的變體,并給出了關鍵的假設,以區分正常行為和異常行為。對于我們介紹的每一類技術,我們還介紹了它們的優點和局限性,并討論了這些技術在實際應用領域中的計算復雜性。最后,我們概述了研究中的未決問題和采用這些技術時所面臨的挑戰。