**摘要: **傳統的多標簽分類算法大多數采用監督學習的方式,但現實生活中有許多數據沒有被標記。通過人工的方式對需要的全部數據進行標記耗費的成本較高。半監督學習算法可以使用大量未標記數據和標記數據來進行工作,因此受到了人們的重視。文中首次從監督和半監督學習的角度對多標簽分類算法進行闡述,同時全面地對多標簽分類算法的應用領域進行了總結。從決策樹、貝葉斯、支持向量機、神經網絡和集成等多個方向對標簽非相關性和標簽相關性的監督學習算法進行概述,從批處理和在線的方向對半監督學習算法進行綜述,從圖像分類、文本分類和其他等角度對多標簽的實際應用領域進行介紹。文中還簡要分析了多標簽的評估指標,最后給出了關于半監督學習下的復雜概念漂移處理、特征選擇處理、標簽復雜相關性處理和類不平衡處理的研究方向。
隨著大數據技術的快速發展,生活中產生了大量的數據, 這些數據中包含著與人類生活密切相關的許多信息,為了從 中獲得需要 的 數 據,學 者 開 展 了 許 多 與 數 據 挖 掘 有 關 的 研 究[1].傳統的分類方法側重于對單標簽進行分類,然而,許多 現實問題卻需要使用多標簽分類(MultiGlabelClassification, MLC)[2]來解決. 給定一個d維輸入空間X=X1×??×Xd 和一個輸出標 簽Y={λ1,λ2,??,λq},q>1.多標簽實例可以定義為一對(x, y),其中x=(x1,??,xd)∈X 并且y?Y,其中y 被稱為標簽 集.當標簽j和實例x 相關時,λj等于1,否則等于0.MLC 的目標是構建一個預測模型h:X→2Y ,為未知實例提供一組 相關標簽.每個實例可能有幾個與其相關的標簽,這些標簽 來自先前定義的標簽集.因此,對于每個x∈X,有標簽空間 Y 的二分集合(y,y -),其中y 是相關標簽的集合,y - 是不相關 標簽的集合. MLC主要可以應用于文本分類[3]、醫學診斷分類[4]、蛋 白質分類[5]、音樂[6]或視頻分類[7]等.例如,在文本分類中, 關于神州十二號發射的報道可以歸類為社會類別,也可以歸 類為科技類別.類似地,在醫學診斷分類中,一位病人可以同 時患有糖尿病和高血壓疾病. 經典的 MLC方法主要分為問題轉化(ProblemTransforG mation,PT)和算法自適應(Algorithm Adaptation,AA).PT 是將多標簽問題轉化成多個簡單的單標簽分類問題,其中最 常用的是二元相關(BinaryRelevance,BR)方法.BR 方法將 多標簽分類問題轉化為|L|個不同的二元單標簽分類問題, 轉化后,選擇任何現有的二元單標簽分類算法作為基分類器. BR方法未考慮標簽之間的相關性,為了解決這一問題,研究 人員提出了分類器鏈方法(ClassifierChains,CC)[8],它是在 BR算法的基礎上,通過鏈的方法連接由 BR 獲得的二元分類 器.標簽冪集(LabelPowerGSet,LP)方法也是一種 PT 方法, LP是將多標簽問題轉化為具有 2|L| 個類標簽的多 類問題. 隨機子標簽集成算法(Random KGLabelsets,RAkEL)[9]是對 LP方法的一種集成使用,其中每個 LP基分類器都是由隨機 生成的且互不相同的小規模標簽子集訓練而成.AA 是修改 現有的算法以適應需要解決的新問題,具體表現為將現有的 單標簽分類問題調整為 MLC問題.構建 AA的流行模型包括 k近鄰[10]、決策樹[11]、支持向量機[12]、神經網絡[13]等. 近年來,已有一些關于 MLC 的綜述.Zhang等[14]介紹 了多標簽學習的基礎知識,對8種經典的算法進行了分析和 討論,總結了多標簽學習的在線資源等.Tsoumakas等[15]從 PT和 AA 的角度對多標簽進行分類的方法進行了詳細的介 紹,簡單介紹了一些評估指標,最后比較了 MLC方法的實驗 結果.Moyano等[16]對20個數據集上的多標簽集成分類算 法進行了比較,根據數據不平衡、標簽間相關性的特征來評價 它們的性能.Zhou等[17]針對評估措施和標簽相關性問題對 多標簽學習進行了討論,同時講述了4種具有代表性的多標 簽算法的基本思想和技術細節.Zheng等[18]從多標簽數據流 分類的角度介紹了 傳 統 的 MLC 方 法 并 討 論 了 它 們 的 優 缺 點,確定了多標簽數據流分類的挖掘約束.至今為止,還沒有 綜述從監督學習和半監督學習的角度對 MLC 進行介紹,同 時也沒有綜述對多標簽的實際應用進行全面的介紹.本文的 總體框架如圖1所示.
本文的主要貢獻有: (1)首次從監督學習和半監督學習兩個方面對 MLC 算 法進行了綜述,角度更加新穎、全面. (2)首次從實際應用領域對 MLC 算法進行了全面的綜 述,總結了近年來應用領域的先進算法. (3)深入分析了 MLC算法中存在的問題,并提出了未來 的研究方向.
摘要: 圖像分類的應用場景非常廣泛, 很多場景下難以收集到足夠多的數據來訓練模型, 利用小樣本學習進行圖像分類可解決訓練數據量小的問題. 本文對近年來的小樣本圖像分類算法進行了詳細綜述, 根據不同的建模方式, 將現有算法分為卷積神經網絡模型和圖神經網絡模型兩大類, 其中基于卷積神經網絡模型的算法包括四種學習范式: 遷移學習、元學習、對偶學習和貝葉斯學習; 基于圖神經網絡模型的算法原本適用于非歐幾里得結構數據, 但有部分學者將其應用于解決小樣本下歐幾里得數據的圖像分類任務, 有關的研究成果目前相對較少. 此外, 本文匯總了現有文獻中出現的數據集并通過實驗結果對現有算法的性能進行了比較. 最后, 討論了小樣本圖像分類技術的難點及未來研究趨勢.
摘要
文本分類是自然語言處理中最基本、最基本的任務。過去十年,由于深度學習取得了前所未有的成功,這一領域的研究激增。大量的方法、數據集和評價指標已經在文獻中提出,提高了全面和更新綜述的需要。本文通過回顧1961年到2020年的先進方法的現狀來填補這一空白,側重于從淺到深的模型學習。我們根據所涉及的文本和用于特征提取和分類的模型創建文本分類的分類法。然后我們詳細討論每一個類別,處理支持預測測試的技術發展和基準數據集。本綜述還提供了不同技術之間的綜合比較,以及確定各種評估指標的優缺點。最后,總結了本研究的關鍵意義、未來研究方向和面臨的挑戰。
介紹
在許多自然語言處理(NLP)應用中,文本分類(為文本指定預定義標簽的過程)是一個基本和重要的任務, 如情緒分析[1][2][3],主題標簽[4][5][6],問答[7][8][9]和對話行為分類。在信息爆炸的時代,手工對大量文本數據進行處理和分類是一項耗時且具有挑戰性的工作。此外,手工文本分類的準確性容易受到人為因素的影響,如疲勞、專業知識等。人們希望使用機器學習方法來自動化文本分類過程,以產生更可靠和較少主觀的結果。此外,通過定位所需信息,可以提高信息檢索效率,緩解信息超載的問題。 圖1給出了在淺層和深層分析的基礎上,文本分類所涉及的步驟流程圖。文本數據不同于數字、圖像或信號數據。它需要NLP技術來仔細處理。第一個重要的步驟是對模型的文本數據進行預處理。淺層學習模型通常需要通過人工方法獲得良好的樣本特征,然后用經典的機器學習算法對其進行分類。因此,特征提取在很大程度上制約了該方法的有效性。然而,與淺層模型不同,深度學習通過學習一組直接將特征映射到輸出的非線性轉換,將特征工程集成到模型擬合過程中。
主要文本分類方法的示意圖如圖2所示。從20世紀60年代到21世紀10年代,基于淺層學習的文本分類模型占據了主導地位。淺層學習意味著在樂此不疲的模型,如 Na??ve Bayes(NB)[10], K-近鄰(KNN)[11],和支持向量機(SVM)[12]。與早期基于規則的方法相比,該方法在準確性和穩定性方面具有明顯的優勢。然而,這些方法仍然需要進行特征工程,這是非常耗時和昂貴的。此外,它們往往忽略文本數據中自然的順序結構或上下文信息,使學習詞匯的語義信息變得困難。自2010年代以來,文本分類逐漸從淺層學習模式向深度學習模式轉變。與基于淺層學習的方法相比,深度學習方法避免了人工設計規則和特征,并自動提供文本挖掘的語義意義表示。因此,大部分文本分類研究工作都是基于DNNs的,這是一種計算復雜度很高的數據驅動方法。很少有人關注于用淺層學習模型來解決計算和數據的局限性。
在文獻中,Kowsari等[13]考慮了不同的文本特征提取、降維方法、文本分類的基本模型結構和評價方法。Minaee等人[14]回顧了最近基于深度學習的文本分類方法、基準數據集和評估指標。與現有的文本分類研究不同,我們利用近年來的研究成果對現有的模型進行了從淺到深的總結。淺層學習模型強調特征提取和分類器設計。一旦文本具有精心設計的特征,就可以通過訓練分類器來快速收斂。在不需要領域知識的情況下,DNNs可以自動進行特征提取和學習。然后給出了單標簽和多標簽任務的數據集和評價指標,并從數據、模型和性能的角度總結了未來的研究挑戰。此外,我們在4個表中總結了各種信息,包括經典淺層和深度學習模型的必要信息、DNNs的技術細節、主要數據集的主要信息,以及在不同應用下的最新方法的一般基準。總而言之,本研究的主要貢獻如下:
我們在表1中介紹了文本分類的過程和發展,并總結了經典模式在出版年份方面的必要信息,包括地點、應用、引用和代碼鏈接。
根據模型結構,從淺層學習模型到深度學習模型,對主要模型進行了全面的分析和研究。我們在表2中對經典或更具體的模型進行了總結,并主要從基本模型、度量和實驗數據集方面概述了設計差異。
我們介紹了現有的數據集,并給出了主要的評價指標的制定,包括單標簽和多標簽文本分類任務。我們在表3中總結了基本數據集的必要信息,包括類別的數量,平均句子長度,每個數據集的大小,相關的論文和數據地址。
我們在表5中總結了經典模型在基準數據集上的分類精度得分,并通過討論文本分類面臨的主要挑戰和本研究的關鍵意義來總結綜述結果。
隨著圖像處理,語音識別等人工智能技術的發展,很多學習方法尤其是采用深度學習框架的方法取得了優異的性能,在精度和速度方面有了很大的提升,但隨之帶來的問題也很明顯,這些學習方法如果要獲得穩定的學習效果,往往需要使用數量龐大的標注數據進行充分訓練,否則就會出現欠擬合的情況而導致學習性能的下降。因此,隨著任務復雜程度和數據規模的增加,對人工標注數據的數量和質量也提出了更高的要求,造成了標注成本和難度的增大。同時,單一任務的獨立學習往往忽略了來自其他任務的經驗信息,致使訓練冗余重復因而導致了學習資源的浪費,也限制了其性能的提升。為了緩解這些問題,屬于遷移學習范疇的多任務學習方法逐漸引起了研究者的重視。與單任務學習只使用單個任務的樣本信息不同,多任務學習假設不同任務數據分布之間存在一定的相似性,在此基礎上通過共同訓練和優化建立任務之間的聯系。這種訓練模式充分促進任務之間的信息交換并達到了相互學習的目的,尤其是在各自任務樣本容量有限的條件下,各個任務可以從其它任務獲得一定的啟發,借助于學習過程中的信息遷移能間接利用其它任務的數據,從而緩解了對大量標注數據的依賴,也達到了提升各自任務學習性能的目的。在此背景之下,本文首先介紹了相關任務的概念,并按照功能的不同對相關任務的類型進行劃分后再對它們的特點進行逐一描述。然后,本文按照數據處理模式和任務關系建模過程的不同將當前的主流算法劃分為兩大類:結構化多任務學習算法和深度多任務學習算法。其中,結構化多任務學習算法采用線性模型,可以直接針對數據進行結構假設并且使用原有標注特征表述任務關系,同時,又可根據學習對象的不同將其細分為基于任務層面和基于特征層面兩種不同結構,每種結構有判別式方法和生成式方法兩種實現手段。與結構化多任務學習算法的建模過程不同,深度多任務學習算法利用經過多層特征抽象后的深層次信息進行任務關系描述,通過處理特定網絡層中的參數達到信息共享的目的。緊接著,以兩大類算法作為主線,本文詳細分析了不同建模方法中對任務關系的結構假設、實現途徑、各自的優缺點以及方法之間的聯系。最后,本文總結了任務之間相似性及其緊密程度的判別依據,并且分析了多任務作用機制的有效性和內在成因,從歸納偏置和動態求解等角度闡述了多任務信息遷移的特點。 //gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=JSJX20190417000&dbcode=CJFD&dbname=CAPJ2019
摘要:圖像分類的應用場景非常廣泛,很多場景下難以收集到足夠多的數據來訓練模型,利用小樣本學習進行圖像分類可解決訓練數據量小的問題.本文對近年來的小樣本圖像分類算法進行了詳細綜述,根據不同的建模方式,將現有算法分為卷積神經網絡模型和圖神經網絡模型兩大類,其中基于卷積神經網絡模型的算法包括四種學習范式:遷移學習、元學習、對偶學習和貝葉斯學習;基于圖神經網絡模型的算法原本適用于非歐幾里得結構數據,但有部分學者將其應用于解決小樣本下歐幾里得數據的圖像分類任務,有關的研究成果目前相對較少.此外,本文匯總了現有文獻中出現的數據集并通過實驗結果對現有算法的性能進行了比較.最后,討論了小樣本圖像分類技術的難點及未來研究趨勢.
摘要 : 零樣本圖像分類指訓練集和測試集在數據的類別上沒有交集的情況下進行圖像分類 . 該技術 是解決類別標簽缺失問題的一種有效手段 , 因此受到了日益廣泛的關注 . 自提出此問題至今 , 零樣本 圖像分類的研究已經大致有十年時間 . 本文系統地對過去十年中零樣本圖像分類技術的研究進展進行 了綜述 , 主要包括以下 4 個方面 . 首先介紹零樣本圖像分類技術的研究意義及其應用價值 , 然后重點 總結和歸納零樣本圖像分類的發展過程和研究現狀 , 接下來介紹常用的數據集和評價準則 , 以及與零 樣本學習相關的技術的區別和聯系 , 最后分析有待深入研究的熱點與難點問題 , 并對未來的發展趨勢 進行了展望 .
關鍵詞: 零樣本圖像分類 , 屬性 , 詞向量 , 跨模態映射 , 領域適應學習