半監督學習(Semi-supervised learning, SSL)是機器學習的一個分支,其目的是在標簽不足的情況下利用未標記的數據來提高學習性能。最近,具有深度模型的SSL已被證明在標準基準測試任務上是成功的。然而,在現實應用中,它們仍然容易受到各種健壯性威脅,因為這些基準提供了完美的無標簽數據,而在現實場景中,無標簽數據可能被破壞。許多研究人員指出,在利用被破壞的未標記數據后,SSL會遭受嚴重的性能退化問題。因此,迫切需要研發SSL算法,能夠穩健地處理損壞的未標記數據。為了充分理解健壯的SSL,我們進行了一項調查研究。我們首先從機器學習的角度闡明了健壯SSL的正式定義。然后,我們將魯棒性威脅分為三類: i) 分布損壞,即未標記數據分布與標記數據不匹配; ii) 特征損壞,即未標記例子的特征被敵方攻擊; iii) 標簽損壞,即未標簽數據的標簽分布不均衡。在這個統一的分類下,我們提供了一個全面的綜述和討論最近的工作,重點關注這些問題。最后,我們提出了在健壯SSL中可能的有前途的方向,為未來的研究提供了見解。
引言
機器學習,特別是深度學習[1],在圖像分類[2]、物體檢測[3]、語音識別[4]、產品推薦[5]、自然語言處理[6]等任務上取得了令人印象深刻的性能和成功的應用。通常,機器學習模型是從包含大量訓練示例的訓練數據集中學習的。一個訓練示例由兩部分組成:描述示例所對應的事件/對象的特征向量,以及指示ground-truth輸出的標簽。例如,在圖像分類任務中,feature是圖像中的像素,label是圖像所屬的類別。大多數成功的機器學習技術都需要為大規模的訓練數據集提供ground-truth標簽,例如ImageNet數據集,該數據集包含數百萬張標簽圖像,用于圖像分類任務。然而,在許多現實世界的應用中,獲取如此多的帶標簽的數據可能是一個挑戰,因為帶標簽的示例獲取[7],[8],[9],[10]通常是困難的、昂貴的或耗時的。例如,在醫學圖像分析任務中,不可能期望醫學專家為所有醫學圖像標記病變。另一方面,無標簽數據通常是廉價和豐富的,我們可以從醫院收集大量的無標簽醫學圖像。因此,機器學習模型能夠處理無標記數據是非常理想的。
在標注數據不足的情況下,采用學習范式提高學習性能。SSL的研究可以追溯到20世紀90年代,當時在現實世界的應用中,對未標記數據的需求不斷上升,推動了這一領域的發展。據我們所知,SSL跨越了機器學習的兩個重要階段:統計學習(即淺學習)和深度學習。在統計學習階段,SSL方法可以分為四種代表性的學習范式: i)生成式SSL方法[11]、[12]、[13]、半監督支持向量機(S3VM)[14]、[15]、[16]、[17]、基于圖的SSL[18]、[19]、[20]、[21]和基于分歧的SSL[22]。我們推薦感興趣的讀者閱讀[23]和[7],它們提供了統計SSL方法的全面概述。2012年,Geoffrey Hinton的團隊利用深度神經網絡AlexNet[2]在ImageNet的比賽中以顯著優勢獲勝,從此深度學習在機器學習領域占據主導地位。因此,引入了深度模型對經典SSL框架的優勢的深度SSL引起了廣泛的關注,并提出了大量的深度SSL方法。深SSL方法可以分為五類,即一致性正則化方法[24],[25],[26],[27],[28],[29],[30],[31],[32],[33],pseudo-labeling方法[34],[35],[36],[37],[38],[39],[40],[41],[42],[43],[44],整體一致性正則化方法和pseudo-labeling [45], [46], [47], [48], [49],deep生成SSL方法[50]、[51]、[52]、[53]、[54]、[55]和deep graph-based SSL方法[56]、[57]、[58]、[59]、[60]。深度SSL方法已成功應用于圖像分類[49]、目標檢測[61]、語義分割[62]、文本分類[63]、問題回答[64]等任務。據報道,在某些情況下,比如圖像分類[49],深度SSL方法可以實現純監督學習的性能,即使在給定數據集中的大部分標簽已經被丟棄的情況下。
魯棒半監督學習
上述所有積極的結果都是基于一個條件,即無標簽數據是完美的,允許SSL利用它來提高性能。無標記數據的完善在于兩個方面: 首先,對于有標記數據和無標記數據之間的關系,SSL意味著有標記數據集和無標記數據集從同一個分布中獨立抽取,從而利用無標記數據提高學習性能。因此,完美的無標簽數據要求無標簽數據的分布與有標簽數據的分布一致。此外,對于無標簽數據本身,完美的無標簽數據要求數據的兩個基本組成部分——特征分布和標簽分布(未知)不被破壞。然而,在現實世界的應用中,期望一個完美的無標簽數據集是困難的,甚至是不可能的,因為沒有標簽的數據不能被手工驗證,否則它違背了SSL減少人工勞動的目的。因此,不可避免地會遇到不完美(或損壞)的未標記數據,例如對抗的未標記例子、分發外的未標記例子、類別不平衡的未標記數據等。許多研究人員已經指出,SSL的性能容易受到這些損壞的未標記數據[9],[65],[66],[67],[68],[69],[70],[71]的影響。例如,當未標記數據集包含分發外示例時,SSL算法會出現性能下降問題[66],[67];當未標記的例子被敵方攻擊時,SSL模型可能會做出錯誤的預測[63]、[71]、[72];當未標記的數據集是類不平衡時,SSL在少數類上表現很差[69],等等。
為了將SSL技術應用到更廣泛的應用,迫切需要研究健壯的SSL方法,也就是說,當未標記的數據被破壞時,確保SSL算法不會遭受嚴重的性能下降,如圖1所示。如上所述,通常有三種類型的未標記數據損壞。第一種是分布損壞,即,未標記數據的分布與標記數據的分布不同。這種情況發生在各種任務中。例如,在圖像分類中,從互聯網上收集的無標簽圖像通常包含非分布的圖像[66]。第二種是特征損壞,即未標記示例的特征被噪聲惡意干擾。再考慮圖像分類任務,很容易將對抗特征噪聲注入到無標簽圖像中[72],[73]。第三種類型是標簽損壞,即,未標簽數據的標簽分布(未知)是高度傾斜的。這種情況是自然發生的。例如,在圖像分類中,我們日常生活中視覺類目的頻率分布是長尾的[74],常見的標簽很少,罕見的標簽更多。SSL中健壯性威脅的總體分類如圖2所示。
健壯SSL是一個綜合性術語,涵蓋了各種試圖通過學習標記數據和損壞的未標記數據來構建健壯預測模型的研究。在本文中,我們將討論這一研究領域的一些進展,重點是學習分布損壞、特征損壞和標簽損壞的未標簽數據。為了清楚而具體地解釋健壯的SSL,我們將重點討論深層SSL方法。據我們所知,我們是第一個對健壯的深度SSL進行調研的人。目前已有一些關于淺SSL[7]、[23]和深SSL算法的研究[75],但不包括健壯SSL的研究。Li和Liang[76]對安全SSL進行了調研,但他們主要關注的是統計(即淺層)SSL方法。我們的主要貢獻可以總結如下。
我們瞄準了關鍵但卻被忽視的健壯SSL問題。從機器學習的角度,給出了健壯SSL的形式化定義。該定義不僅具有足夠的普遍性,可以包括現有的健壯SSL方法,而且具有足夠的特殊性,可以闡明健壯SSL的目標是什么。
我們指出,無標簽數據損壞是對SSL的健壯性威脅,并提供了一個完整的分類無標簽數據損壞類型,即分布損壞、特征損壞和標簽損壞。我們給出了每個問題的形式化定義和標準化描述。這有助于其他研究人員清楚地理解健壯的SSL。 對于每一種健壯性威脅,我們都對最近構建健壯SSL模型的工作進行了全面的回顧。他們的關系,pros, and cons也被討論。您可以很快掌握健壯SSL的前沿思想。 在現有的健壯SSL研究之外,我們提出了幾個有前景的未來方向,如健壯的通用數據類型,健壯的復合弱監督數據,健壯的SSL與領域知識,在動態環境中學習,以及構建真實的數據集。我們希望它們能夠為健壯的SSL研究提供一些見解
魯棒半監督學習
分布損壞
SSL通常假設所有標記和未標記的示例都是從相同的底層數據分布中采樣的IID。然而,在實際應用中,經常會發現未標記的數據分布與標記的數據分布不同。下圖提供了針對分布不匹配的健壯SSL方法的分類。解決SSL標簽分布不匹配問題的兩種主要策略是: 對未標記樣本分配不同權重的樣例調整權重和開放集檢測評分,旨在設計一種開放集檢測評分機制。樣例重權與開集檢測分值的區別在于,開集檢測分值可以看作是一個僅包含0和1的離散權值,它們簡單地舍棄開集樣本,對所有保留的樣本一視同仁。理想情況下,示例重新加權方法可以導致更好的性能,因為并非所有未標記的示例都是一樣的,即使是所有的內集示例[97]。但在實際中,最優權重的計算較為困難,需要開發高效、準確的優化方法。開放集檢測評分方法的性能取決于評分機制。學習如何設計一個更好的評分函數是提高模型性能的關鍵。
特征損壞 特性損壞是指給定示例的特性被惡意干擾,從而導致學習到的模型對目標示例進行錯誤分類。下圖提供了用于特性損壞的健壯SSL方法的分類。攻擊技術主要有兩種策略:誤導性的序列注入和對抗性的擾動生成。所有這些方法都可以欺騙SSL模型,使其做出任何預期的錯誤預測。不同的是,誤導序列注入在給定的訓練數據中增加了新的訓練樣本,而擾動生成方法直接對給定的訓練樣本進行擾動。在防御技術方面,主要有兩種策略:魯棒正則化和分布魯棒學習。由于魯棒正則化方法直接在原損失函數中加入可微正則化項,因此相對于DRL方法,魯棒正則化方法更易于優化。DRL的優點在于它具有良好的理論性質。
標簽損壞 SSL方法假設無標簽數據(未知)的標簽分布是平衡的,即每個類中的示例數量幾乎相等。然而,在許多現實場景中,訓練數據的底層類分布是高度不平衡的。下圖提供了用于標記損壞的健壯SSL方法的分類。如前所述,SSL中處理標簽損壞問題的策略可以分為偽標簽對齊方法、實例重權方法和實例重權方法。偽標簽對齊方法的優點是,改進后的偽標簽可以匹配到無標簽數據的類分布的ground-真值,缺點是需要知道無標簽數據類分布的ground-真值,這在實際任務中很難獲得。另外,分布估計的精度對方法的性能影響很大。重權法和重抽樣法是處理班級不平衡學習問題的經典方法。然而,在SSL任務中,由于它們不能直接根據標簽重新采樣或重新加權示例,因此它們需要比監督設置中更多的計算成本,原因是它們具有復雜的訓練過程或難以實現的優化目標。
經典的機器學習隱含地假設訓練數據的標簽是從一個干凈的分布中采樣,這對于真實世界的場景來說可能太有限制性了。然而,基于統計學習的方法可能不能在這些嘈雜的標簽下穩健地訓練深度學習模型。因此,設計標簽-噪聲表示學習(Label-Noise Representation Learning, LNRL)方法對具有噪聲標簽的深度模型進行魯棒訓練迫在眉睫。為了充分了解LNRL,我們進行了一項調研研究。我們首先從機器學習的角度闡明了LNRL的形式化定義。然后,通過學習理論和實證研究的視角,我們找出了為什么嘈雜標簽會影響深度模型的性能。在理論指導的基礎上,我們將不同的LNRL方法分為三個方向。在這個統一的分類下,我們對不同類別的利弊進行了全面的討論。更重要的是,我們總結了魯棒LNRL的基本組成部分,可以激發新的方向。最后,我們提出了LNRL可能的研究方向,如新數據集、依賴實例的LNRL和對抗LNRL。我們還展望了LNRL以外的潛在方向,如特征噪聲學習、偏好噪聲學習、域噪聲學習、相似噪聲學習、圖噪聲學習和演示噪聲學習。
標簽-噪聲表示學習
“學習算法如何處理不正確的訓練示例?” 這是Dana Angluin在1988年[1]發表的題為“從嘈雜的例子中學習”的論文中提出的問題。她說,“當教師在對樣本數據進行分類時可能會出現獨立的隨機錯誤時,為樣本選擇最一致的規則的策略就足夠了,通常需要的樣本數量非常少,而且噪聲平均影響不到一半的樣本”。換句話說,她聲稱學習算法可以處理不正確的訓練例子,只要噪聲率小于隨機噪聲模型的一半。在過去30年里,她的開創性研究為機器學習打開了一扇新的大門,因為標準的機器學習假設標簽信息是完全干凈和完整的。更重要的是,她的研究呼應了現實環境,因為標簽或注釋在現實場景中往往是嘈雜和不完美的。
例如,深度學習的熱潮始于2012年,因為Geoffrey Hinton的團隊利用AlexNet(即深度神經網絡)[2],以明顯的優勢贏得了ImageNet挑戰[3]。然而,由于數據量巨大,ImageNet-scale數據集必然是由Amazon Mechanical Turk 1中的分布式工作人員標注的。在有限的知識范圍內,分布式工作人員無法以100%的準確性標注特定的任務,這自然會帶來噪音標簽。另一個生動的例子是在醫療應用中,這里的數據集通常很小。然而,對醫療數據進行標簽需要領域專業知識,而這些數據往往存在觀察者之間和觀察者內部的高度可變性,從而導致標簽的噪聲。我們應該注意到,嘈雜的標簽會導致錯誤的模型預測,這可能會進一步影響對人類健康產生負面影響的決策。最后,噪聲標簽在語音領域中是普遍存在的,例如,互聯網協議語音(VoIP)呼叫[4]。特別是,由于網絡條件不穩定,VoIP呼叫很容易出現各種語音障礙,這需要用戶的反饋來確定原因。這種用戶反饋可以被看作是原因標簽,這是高度嘈雜的,因為大多數用戶缺乏領域專業知識來準確地表達所感知的語言中嘈雜。
以上這些吵鬧的案例都源于我們的日常生活,這是不可避免的。因此,迫切需要建立一種具有理論保證的魯棒學習算法來處理帶噪聲的標簽。在這篇綜述論文中,我們將這種魯棒學習范式稱為標簽噪聲學習(label-noise learning),噪聲訓練數據(x, yˉ)是從一個損壞的分布p(x, yˉ)中采樣的,在那里我們假設特征是完好的,但標簽是損壞的。據我們所知,標簽噪聲學習在機器學習中跨越了兩個重要的階段:統計學習(即淺層學習)和表示學習(即深度學習)。在統計學習時代,標簽噪聲學習專注于設計噪聲耐受損失或無偏風險估計器[5]。然而,在表示學習的時代,標簽噪聲學習有更多的選擇來對抗噪聲標簽,如設計有偏的風險估計器或利用深度網絡[6],[7]的記憶效應。
標簽噪聲表示學習已經成為學術界和工業界非常重要的學習方法。背后有兩個原因。首先,從學習范式的本質來看,深度監督學習需要大量標簽良好的數據,這可能需要太多的成本,特別是對于許多初創企業。然而,深度無監督學習(甚至是自我監督學習)太不成熟,不能很好地在復雜的現實世界場景中工作。因此,作為深度弱監督學習,標簽-噪聲表示學習自然引起了人們的關注,成為研究的熱點。其次,從數據方面來看,許多現實世界的場景都缺乏純粹的注釋,比如金融數據、web數據和生物醫學數據。這些都直接激發了研究人員去探索標簽-噪聲表示學習。
據我們所知,我們確實存在三個關于標簽噪音的先前綜述。Frenay和Verleysen[8]重點討論了標簽噪聲統計學習,而不是標簽噪聲表示學習。雖然Algan et al.[9]和Karimi et al.[10]專注于帶噪聲標簽的深度學習,但他們都只考慮圖像(或醫學圖像)分類任務。此外,他們的調查是從應用的角度寫的,而不是討論方法及其背后的理論。為了彌補它們并超越它們,我們希望對標簽-噪聲表示學習領域做出如下貢獻。
從機器學習的角度,我們給出了標簽噪聲表示學習(LNRL)的形式化定義。這個定義不僅具有足夠的普遍性,可以涵蓋現有的LNRL,而且具有足夠的特殊性,可以明確LNRL的目標是什么以及我們如何解決它。
通過學習理論的視角,我們提供了一個更深入的理解為什么噪聲標簽影響深度模型的性能。同時,我們報告了噪聲標簽下深層模型的概括,這與我們的理論理解一致。
我們進行了廣泛的文獻綜述,從表示學習時代,并在數據、目標和優化方面將它們分類在一個統一的分類法。分析了不同分類的優缺點。我們還對每個類別的見解進行了總結。
基于上述觀察,我們可以在標簽-噪聲表示學習中提出新的方向。除了標簽噪聲表示學習,我們提出了幾個有前途的未來方向,如學習噪聲特征、偏好、領域、相似性、圖形和演示。我們希望他們能提供一些見解。
根據每種方法的重點對LNRL進行分類。對于每個技術分支,我們在這里列出了一些有代表性的工作。
基于上述理論理解,我們將這些作品分為三個大致的視角:
數據:從數據的角度來看,關鍵是建立噪聲轉移矩陣T,探索干凈標簽和有噪標簽之間的數據關系。本節的方法通過估計噪聲轉移矩陣來解決LNRL問題,它建立了潛在的干凈標簽和觀察到的噪聲標簽之間的關系。首先,我們解釋什么是噪聲轉移矩陣和為什么這個矩陣是重要的。然后,我們介紹了利用噪聲轉移矩陣對抗標簽噪聲的三種常用方法。第一種方法是在端到端深度學習系統中利用一個適應層來模擬噪聲轉移矩陣,它橋接了潛在的干凈標簽和觀察到的噪聲標簽。第二種方法是根據經驗估計噪聲轉移矩陣,并利用估計矩陣進一步修正交叉熵損失。最后,第三種方法是利用先驗知識來減輕估計負擔。
目標函數:本節中的方法通過修改(2)中的目標函數()來解決LNRL問題,修改可以通過三種不同的方式來實現。第一種方法是通過顯式正則化或隱式正則化直接增廣目標函數。注意,隱式正則化傾向于在算法層面上進行操作,相當于修改目標函數。第二種方法是對不同的目標子函數賦動態權值,權值越大,對應的子函數的重要性越高。最后一種方法是直接重新設計新的損失函數。
優化策略:本節將通過改變優化策略(如提前停止)來解決LNRL問題。深度神經網絡的記憶效應在一定程度上避免了噪聲標簽的過擬合。使用記憶效果的噪音標簽,還有另外一種可能更好的方法,那就是小損失技巧。本節的結構安排如下: 首先,我們解釋什么是記憶效應以及為什么這種現象很重要。然后,我們介紹幾種常用的方法來利用記憶效果來對抗標簽噪音。第一個常見的方法是通過小損失的技巧自我訓練單一的網絡,這給我們帶來了MentorNet[6]和Learning to Reweight[24]。此外,第二種常用的方法是通過小損失技巧穩健地對兩個網絡進行共訓練,得到Co-teaching[7]和Co-teaching+[87]。最后,有幾種方法可以進一步提高協同教學的性能,如交叉驗證[88]、自動學習[82]和高斯混合模型[37]。
摘要:
為了在計算機視覺應用中學習得到更好的圖像和視頻特征,通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷,作為無監督學習方法的一個子方法——自監督學習方法,可以在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先,描述了該領域的動機和一些專業性術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。
//ieeexplore.ieee.org/document/9086055
引言
由于深度神經網絡具有學習不同層次一般視覺特征的強大能力,它已被作為基本結構應用于許多計算機視覺應用,如目標檢測[1]、[2]、[3]、語義分割[4]、[5]、[6]、圖像描述[7]等。從像ImageNet這樣的大規模圖像數據集訓練出來的模型被廣泛地用作預訓練模型和用于其他任務的微調模型,主要有兩個原因:(2)在大規模數據集上訓練的網絡已經學習了層次特征,有助于減少在訓練其他任務時的過擬合問題;特別是當其他任務的數據集很小或者訓練標簽很少的時候。
深度卷積神經網絡(ConvNets)的性能在很大程度上取決于其能力和訓練數據量。為了增加網絡模型的容量,人們開發了不同類型的網絡架構,收集的數據集也越來越大。各種網絡,包括AlexNet [9], VGG [10], GoogLeNet [11], ResNet [12], DenseNet[13]和大規模數據集,如ImageNet [14], OpenImage[15]已經被提出訓練非常深的ConvNets。通過復雜的架構和大規模的數據集,ConvNets的性能在許多計算機視覺任務[1],[4],[7],[16],[17],[18]方面不斷突破先進水平。
然而,大規模數據集的收集和標注是費時和昂貴的。ImageNet[14]是pre-training very deep 2D convolutional neural networks (2DConvNets)中應用最廣泛的數據集之一,包含約130萬張已標記的圖像,覆蓋1000個類,而每一幅圖像由人工使用一個類標簽進行標記。與圖像數據集相比,視頻數據集由于時間維度的原因,其采集和標注成本較高。Kinetics數據集[19]主要用于訓練ConvNets進行視頻人體動作識別,該數據集由50萬個視頻組成,共600個類別,每個視頻時長約10秒。許多Amazon Turk工作人員花了大量時間來收集和注釋如此大規模的數據集。
為了避免費時和昂貴的數據標注,提出了許多自監督方法來學習大規模無標記圖像或視頻的視覺特征,而不需要任何人工標注。一種流行的解決方案是提出各種各樣的前置任務讓網絡來解決,通過學習前置任務的目標函數來訓練網絡,通過這個過程來學習特征。人們提出了各種各樣的自監督學習任務,包括灰度圖像著色[20]、圖像填充[21]、玩圖像拼圖[22]等。藉口任務有兩個共同的特性:(1)圖像或視頻的視覺特征需要被ConvNets捕捉來解決前置任務;(2)監控信號是利用數據本身的結構(自我監控)產生的。
自監督學習的一般流程如圖1所示。在自監督訓練階段,為ConvNets設計預定義的前置任務,并根據數據的某些屬性自動生成前置任務的偽標簽。然后訓練卷積神經網絡學習任務的目標函數。當使用前置任務進行訓練時,ConvNet的較淺的塊集中于低級的一般特征,如角、邊和紋理,而較深的塊集中于高級任務特定的特征,如對象、場景和對象部分[23]。因此,通過藉由任務訓練的ConvNets可以學習內核來捕獲低級特征和高級特征,這對其他下游任務是有幫助的。在自監督訓練結束后,學習到的視覺特征可以作為預訓練的模型進一步轉移到下游任務中(特別是在數據相對較少的情況下),以提高性能和克服過擬合。通常,在有監督的下游任務訓練階段,僅從前幾層傳遞視覺特征。
摘要
深度半監督學習是一個快速發展的領域,具有一系列的實際應用。
本文從模型設計和無監督損失函數的角度對深度半監督學習方法的基本原理和最新進展進行了全面的綜述。
我們首先提出了一種深度半監督學習分類法,該分類法對現有方法進行分類,包括深度生成方法、一致性正則化方法、基于圖的方法、偽標記方法和混合方法。然后,我們根據損失類型、貢獻和架構差異對這些方法進行了詳細的比較。
在總結近年來研究進展的基礎上,進一步探討了現有方法的不足之處,并提出了一些探索性的解決方案。
//arxiv.org/pdf/2103.00550.pdf
引言
深度學習一直是一個活躍的研究領域,在模式識別[1]、[2]、數據挖掘[3]、統計學習[4]、計算機視覺[5]、[6]、自然語言處理[7]、[8]等領域有著豐富的應用。它利用了大量高質量的標記數據,在[9]、[10]的理論和實踐中都取得了巨大的成功,特別是在監督學習場景中。然而,標簽樣品通常是困難的,昂貴的,或耗時獲得。標記過程通常需要專家的努力,這是訓練一個優秀的全監督深度神經網絡的主要限制之一。例如,在醫療任務中,測量是用昂貴的機器進行的,標簽是由多個人類專家耗時分析得出的。如果只有少數標記的樣本可用,建立一個成功的學習系統是具有挑戰性的。相比之下,未標記的數據通常是豐富的,可以很容易地或廉價地獲得。因此,它是可取的利用大量的未標記的數據,以改善學習性能給定的少量標記樣本。因此,半監督學習(semi-supervised learning, SSL)一直是近十年來機器學習領域的研究熱點。
SSL是一種學習范式,它與構建使用標記數據和未標記數據的模型有關。與只使用標記數據的監督學習算法相比,SSL方法可以通過使用額外的未標記實例來提高學習性能。通過對監督學習算法和非監督學習算法的擴展,可以很容易地獲得SSL算法。SSL算法提供了一種從未標記的示例中探索潛在模式的方法,減輕了對大量標記[13]的需求。根據系統的關鍵目標函數,可以有半監督分類、半監督聚類或半監督回歸。我們提供的定義如下:
半監督分類。給定一個包含有標記的實例和無標記的實例的訓練數據集,半監督分類的目標是同時從有標記的和無標記的數據訓練分類器,這樣它比只在有標記的數據上訓練的有監督分類器更好。
半監督聚類。假設訓練數據集由未標記的實例和一些關于聚類的監督信息組成,半監督聚類的目標是獲得比單獨從無標記數據聚類更好的聚類。半監督聚類也稱為約束聚類。
半監督回歸。給定一個包含有標記的實例和沒有標記的實例的訓練數據集,半監督回歸的目標是從一個單獨帶有標記數據的回歸算法改進回歸算法的性能,該回歸算法預測一個實值輸出,而不是一個類標簽。
為了更清楚、更具體地解釋SSL,我們重點研究了圖像分類問題。本調查中描述的思想可以毫無困難地適應其他情況,如對象檢測,語義分割,聚類,或回歸。因此,在本研究中,我們主要回顧了利用未標記數據進行圖像分類的方法。
SSL方法有很多種,包括生成模型[14],[15],半監督支持向量機[16],[17],基于圖的方法[18],[19],[20],[21]和聯合訓練[22]。我們向感興趣的讀者推薦[12]、[23],它們提供了傳統SSL方法的全面概述。目前,深度神經網絡已經在許多研究領域占據主導地位。重要的是要采用經典的SSL框架,并為深度學習設置開發新的SSL方法,這將導致深度半監督學習(DSSL)。DSSL研究了如何通過深度神經網絡有效地利用標記數據和未標記數據。已經提出了相當多的DSSL方法。根據半監督損失函數和模型設計最顯著的特征,我們將DSSL分為五類,即生成法、一致性正則化法、基于圖的方法、偽標記方法和混合方法。本文獻使用的總體分類法如圖1所示。
在[12],[23]中有很多具有代表性的作品,但是一些新興的技術并沒有被納入其中,尤其是在深度學習取得巨大成功之后。例如,深度半監督方法提出了新的技術,如使用對抗訓練生成新的訓練數據。另外,[13]側重于統一SSL的評價指標,[24]只回顧了SSL的一部分,沒有對SSL進行全面的概述。最近,Ouali等人的綜述[25]給出了與我們類似的DSSL概念。然而,它不能與現有的方法相比,基于它們的分類,并提供了未來的趨勢和存在的問題的觀點。在前人研究的基礎上,結合最新的研究,我們將對基礎理論進行綜述,并對深度半監督方法進行比較。總結一下,我們的貢獻如下:
我們對DSSL方法進行了詳細的回顧,并介紹了主要DSSL方法的分類、背景知識和變體模型。人們可以很快地掌握DSSL的前沿思想。
我們將DSSL方法分為生成方法、一致性正則化方法、基于圖形的方法、偽標記方法和混合方法,每一種方法都有特定的類型。我們回顧了每一類的變體,并給出了標準化的描述和統一的示意圖。
我們確定了該領域的幾個開放問題,并討論了DSSL的未來方向。
機器學習的視覺分析最近已經發展成為可視化領域中最令人興奮的領域之一。為了更好地確定哪些研究課題是有前景的,并學習如何在視覺分析中應用相關技術,我們系統地回顧了近十年來發表的259篇論文以及2010年之前的代表性作品。我們構建一個分類法,其中包括三個第一級類別:構建模型之前的技術、構建建模期間的技術和構建模型之后的技術。每個類別的進一步特征是具有代表性的分析任務,每個任務都以一組最近有影響的著作為例。我們也討論并強調研究的挑戰和對視覺分析研究人員有用的潛在未來研究機會。
最近人工智能應用的成功依賴于機器學習模型[1]的性能和能力。在過去的十年里,各種視覺分析方法被提出,使機器學習更加可解釋、可信和可靠。這些研究努力充分結合交互式可視化和機器學習技術的優勢,便于分析和理解學習過程中的主要組件,以提高性能。例如,用于解釋深度卷積神經網絡內部工作原理的可視化分析研究增加了深度學習模型的透明度,并在最近受到了越來越多的關注[1-4]。
用于機器學習的視覺分析技術的快速發展產生了對這一領域進行全面回顧的需求,以支持理解可視化技術是如何設計并應用于機器學習管道的。已有幾項初步努力從不同的觀點總結這一領域的進展。例如,Liu等人[5]總結了文本分析的可視化技術。Lu等人對預測模型的可視化分析技術進行了調查。最近,Liu等人[1]發表了一篇從視覺分析的角度分析機器學習模型的論文。Sacha等[7]分析了一組示例系統,提出了一種用于視覺分析輔助機器學習的本體。然而,現有的調研要么專注于機器學習的一個特定領域(例如,文本挖掘[5],預測模型[6],模型理解[1]),要么僅基于一組示例技術來勾畫本體[7]。
本文旨在對機器學習的視覺分析技術進行全面的綜述,重點介紹機器學習管道的各個階段。我們主要關注可視化社區中的工作。然而,人工智能社區也對深度學習模型中視覺解釋特征檢測器的研究做出了堅實的貢獻。例如,Selvaraju等人[8]試圖通過計算類激活映射來識別圖像中分類結果敏感的部分。讀者可以參考張、朱[9]和Hohman等人[3]的調查。通過系統的程序,我們在過去的十年中收集了259篇來自相關頂級場所的論文。基于機器學習流水線,我們將這篇文獻分為建模前、建模中、建模后三個階段。我們分析了可視化分析技術在這三個階段的功能,并抽象了典型任務,包括在建模前提高數據質量和特征質量,建模過程中的模型理解、診斷和轉向,以及建模后的數據理解。每個任務都由一組精心挑選的例子來說明。我們強調了機器學習視覺分析領域六個突出的研究方向和開放問題。我們希望這項調查能夠促進機器學習相關視覺分析技術的討論,并為希望開發機器學習的視覺分析工具的從業者和研究人員提供一個起點。
當對大量的標記數據集合(如ImageNet)進行訓練時,深度神經網絡展示了它們在特殊監督學習任務(如圖像分類)上的卓越表現。然而,創建這樣的大型數據集需要大量的資源、時間和精力。這些資源在很多實際案例中可能無法獲得,限制了許多深度學習方法的采用和應用。為了尋找數據效率更高的深度學習方法,以克服對大型標注數據集的需求,近年來,我們對半監督學習應用于深度神經網絡的研究興趣日益濃厚,通過開發新的方法和采用現有的半監督學習框架進行深度學習設置。在本文中,我們從介紹半監督學習開始,對深度半監督學習進行了全面的概述。然后總結了在深度學習中占主導地位的半監督方法。
雖然像CNNs這樣的深度學習模型在醫學圖像分析方面取得了很大的成功,但是小型的醫學數據集仍然是這一領域的主要瓶頸。為了解決這個問題,研究人員開始尋找現有醫療數據集之外的外部信息。傳統的方法通常利用來自自然圖像的信息。最近的研究利用了來自醫生的領域知識,通過讓網絡模仿他們如何被訓練,模仿他們的診斷模式,或者專注于他們特別關注的特征或領域。本文綜述了將醫學領域知識引入疾病診斷、病變、器官及異常檢測、病變及器官分割等深度學習模型的研究進展。針對不同類型的任務,我們系統地對所使用的不同類型的醫學領域知識進行了分類,并給出了相應的整合方法。最后,我們總結了挑戰、未解決的問題和未來研究的方向。
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。
?【導讀】圖像分類是計算機視覺中的基本任務之一,深度學習的出現是的圖像分類技術趨于完善。最近,自監督學習與預訓練技術的發展使得圖像分類技術出現新的變化,這篇論文概述了最新在實際情況中少標簽小樣本等情況下,關于自監督學習、半監督、無監督方法的綜述,值得看!
地址:
//www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132
摘要
雖然深度學習策略在計算機視覺任務中取得了突出的成績,但仍存在一個問題。目前的策略嚴重依賴于大量的標記數據。在許多實際問題中,創建這么多標記的訓練數據是不可行的。因此,研究人員試圖將未標記的數據納入到培訓過程中,以獲得與較少標記相同的結果。由于有許多同時進行的研究,很難掌握最近的發展情況。在這項調查中,我們提供了一個概述,常用的技術和方法,在圖像分類與較少的標簽。我們比較了21種方法。在我們的分析中,我們確定了三個主要趨勢。1. 基于它們的準確性,現有技術的方法可擴展到實際應用中。2. 為了達到與所有標簽的使用相同的結果所需要的監督程度正在降低。3.所有方法都共享公共技術,只有少數方法結合這些技術以獲得更好的性能。基于這三個趨勢,我們發現了未來的研究機會。
1. 概述
深度學習策略在計算機視覺任務中取得了顯著的成功。它們在圖像分類、目標檢測或語義分割等各種任務中表現最佳。
圖1: 這張圖說明并簡化了在深度學習訓練中使用未標記數據的好處。紅色和深藍色的圓圈表示不同類的標記數據點。淺灰色的圓圈表示未標記的數據點。如果我們只有少量的標記數據可用,我們只能對潛在的真實分布(黑線)做出假設(虛線)。只有同時考慮未標記的數據點并明確決策邊界,才能確定這種真實分布。
深度神經網絡的質量受到標記/監督圖像數量的強烈影響。ImageNet[26]是一個巨大的標記數據集,它允許訓練具有令人印象深刻的性能的網絡。最近的研究表明,即使比ImageNet更大的數據集也可以改善這些結果。但是,在許多實際的應用程序中,不可能創建包含數百萬張圖像的標記數據集。處理這個問題的一個常見策略是遷移學習。這種策略甚至可以在小型和專門的數據集(如醫學成像[40])上改進結果。雖然這對于某些應用程序來說可能是一個實際的解決方案,但基本問題仍然存在: 與人類不同,監督學習需要大量的標記數據。
對于給定的問題,我們通常可以訪問大量未標記的數據集。Xie等人是最早研究無監督深度學習策略來利用這些數據[45]的人之一。從那時起,未標記數據的使用被以多種方式研究,并創造了研究領域,如半監督、自我監督、弱監督或度量學習[23]。統一這些方法的想法是,在訓練過程中使用未標記的數據是有益的(參見圖1中的說明)。它要么使很少有標簽的訓練更加健壯,要么在某些不常見的情況下甚至超過了監督情況下的性能[21]。
由于這一優勢,許多研究人員和公司在半監督、自我監督和非監督學習領域工作。其主要目標是縮小半監督學習和監督學習之間的差距,甚至超越這些結果。考慮到現有的方法如[49,46],我們認為研究處于實現這一目標的轉折點。因此,在這個領域有很多正在進行的研究。這項綜述提供了一個概述,以跟蹤最新的在半監督,自監督和非監督學習的方法。
大多數綜述的研究主題在目標、應用上下文和實現細節方面存在差異,但它們共享各種相同的思想。這項調查對這一廣泛的研究課題進行了概述。這次調查的重點是描述這兩種方法的異同。此外,我們還將研究不同技術的組合。
2. 圖像分類技術
在這一節中,我們總結了關于半監督、自監督和非監督學習的一般概念。我們通過自己對某些術語的定義和解釋來擴展這一總結。重點在于區分可能的學習策略和最常見的實現策略的方法。在整個綜述中,我們使用術語學習策略,技術和方法在一個特定的意義。學習策略是算法的一般類型/方法。我們把論文方法中提出的每個算法都稱為獨立算法。方法可以分為學習策略和技術。技術是組成方法/算法的部分或思想。
2.1 分類方法
監督、半監督和自我監督等術語在文獻中經常使用。很少有人給出明確的定義來區分這兩個術語。在大多數情況下,一個粗略的普遍共識的意義是充分的,但我們注意到,在邊界情況下的定義是多種多樣的。為了比較不同的方法,我們需要一個精確的定義來區分它們。我們將總結關于學習策略的共識,并定義我們如何看待某些邊緣案例。一般來說,我們根據使用的標記數據的數量和訓練過程監督的哪個階段來區分方法。綜上所述,我們把半監督策略、自我學習策略和無監督學習策略稱為reduced減約監督學習策略。圖2展示了四種深度學習策略。
圖2: 插圖的四個深學習策略——紅色和深藍色的圓圈表示標記數據點不同的類。淺灰色的圓圈表示未標記的數據點。黑線定義了類之間的基本決策邊界。帶條紋的圓圈表示在訓練過程的不同階段忽略和使用標簽信息的數據點。
監督學習 Supervised Learning
監督學習是深度神經網絡圖像分類中最常用的方法。我們有一組圖像X和對應的標簽或類z。設C為類別數,f(X)為X∈X的某個神經網絡的輸出,目標是使輸出與標簽之間的損失函數最小化。測量f(x)和相應的z之間的差的一個常用的損失函數是交叉熵。
遷移學習
監督學習的一個限制因素是標簽的可用性。創建這些標簽可能很昂貴,因此限制了它們的數量。克服這一局限的一個方法是使用遷移學習。
遷移學習描述了訓練神經網絡的兩個階段的過程。第一個階段是在大型通用數據集(如ImageNet[26])上進行有無監督的訓練。第二步是使用經過訓練的權重并對目標數據集進行微調。大量的文獻表明,即使在小的領域特定數據集[40]上,遷移學習也能改善和穩定訓練。
半監督學習
半監督學習是無監督學習和監督學習的混合.
Self-supervised 自監督學習
自監督使用一個借托pretext任務來學習未標記數據的表示。借托pretext任務是無監督的,但學習表征往往不能直接用于圖像分類,必須進行微調。因此,自監督學習可以被解釋為一種無監督的、半監督的或其自身的一種策略。我們將自我監督學習視為一種特殊的學習策略。在下面,我們將解釋我們是如何得出這個結論的。如果在微調期間需要使用任何標簽,則不能將該策略稱為無監督的。這與半監督方法也有明顯的區別。標簽不能與未標記的數據同時使用,因為借托pretext任務是無監督的,只有微調才使用標簽。對我們來說,將標記數據的使用分離成兩個不同的子任務本身就是一種策略的特征。
2.2 分類技術集合
在減少監督的情況下,可以使用不同的技術來訓練模型。在本節中,我們將介紹一些在文獻中多種方法中使用的技術。
一致性正則化 Consistency regularization
一個主要的研究方向是一致性正則化。在半監督學習過程中,這些正則化被用作數據非監督部分的監督損失的附加損失。這種約束導致了改進的結果,因為在定義決策邊界時可以考慮未標記的數據[42,28,49]。一些自監督或無監督的方法甚至更進一步,在訓練中只使用這種一致性正則化[21,2]。
虛擬對抗性訓練(VAT)
VAT[34]試圖通過最小化圖像與轉換后的圖像之間的距離,使預測不受小轉換的影響。
互信息(MI)
MI定義為聯合分布和邊緣分布[8]之間的Kullback Leiber (KL)散度。
熵最小化(EntMin)
Grandvalet和Bengio提出通過最小化熵[15]來提高半監督學習的輸出預測。
Overclustering
過度聚類在減少監督的情況下是有益的,因為神經網絡可以自行決定如何分割數據。這種分離在有噪聲的數據中或在中間類被隨機分為相鄰類的情況下是有用的。
Pseudo-Labels
一種估計未知數據標簽的簡單方法是偽標簽
3. 圖像分類模型
3.1 半監督學習
四種選擇的半監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的藍色方框中給出。在右側提供了該方法的說明。一般來說,這個過程是自上而下組織的。首先,輸入圖像經過無或兩個不同的隨機變換預處理。自動增廣[9]是一種特殊的增廣技術。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的,但是共享公共部分。所有的方法都使用了標記和預測分布之間的交叉熵(CE)。所有的方法還使用了不同預測輸出分布(Pf(x), Pf(y))之間的一致性正則化。
3.2 自監督學習
四種選擇的自我監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的紅色方框中給出。在右側提供了該方法的說明。微調部分不包括在內。一般來說,這個過程是自上而下組織的。首先,對輸入圖像進行一兩次隨機變換預處理或分割。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的。AMDIM和CPC使用網絡的內部元素來計算損失。DeepCluster和IIC使用預測的輸出分布(Pf(x)、Pf(y))來計算損耗
3.3 21種圖像分類方法比較
21種圖像分類方法及其使用技術的概述——在左側,第3節中回顧的方法按學習策略排序。第一行列出了在2.2小節中討論過的可能的技術。根據是否可以使用帶標簽的數據,將這些技術分為無監督技術和有監督技術。技術的縮寫也在第2.2小節中給出。交叉熵(Cross-entropy, CE)將CE的使用描述為訓練損失的一部分。微調(FT)描述了交叉熵在初始訓練后(例如在一個借口任務中)對新標簽的使用。(X)指該技術不是直接使用,而是間接使用。個別的解釋由所指示的數字給出。1 - MixMatch通過銳化預測[3],隱式地實現了熵最小化。2 - UDA預測用于過濾無監督數據的偽標簽。3 -盡量減少相互信息的目的作為借口任務,例如視圖之間的[2]或層之間的[17]。4 -信息的丟失使相互信息間接[43]最大化。5 - Deep Cluster使用K-Means計算偽標簽,以優化分配為借口任務。6 - DAC使用元素之間的余弦距離來估計相似和不相似的項。可以說DAC為相似性問題創建了偽標簽。
4. 實驗比較結果
報告準確度的概述——第一列說明使用的方法。對于監督基線,我們使用了最好的報告結果,作為其他方法的基線。原始論文在準確度后的括號內。第二列給出了體系結構及其參考。第三列是預印本的出版年份或發行年份。最后四列報告了各自數據集的最高準確度分數%。
5 結論
在本文中,我們概述了半監督、自監督和非監督技術。我們用21種不同的方法分析了它們的異同和組合。這項分析確定了幾個趨勢和可能的研究領域。
我們分析了不同學習策略(半監督學習策略、自監督學習策略和無監督學習策略)的定義,以及這些學習策略中的常用技術。我們展示了這些方法一般是如何工作的,它們使用哪些技術,以及它們可以被歸類為哪種策略。盡管由于不同的體系結構和實現而難以比較這些方法的性能,但我們確定了三個主要趨勢。
ILSVRC-2012的前5名正確率超過90%,只有10%的標簽表明半監督方法適用于現實問題。然而,像類別不平衡這樣的問題并沒有被考慮。未來的研究必須解決這些問題。
監督和半監督或自監督方法之間的性能差距正在縮小。有一個數據集甚至超過了30%。獲得可與全監督學習相比的結果的標簽數量正在減少。未來的研究可以進一步減少所需標簽的數量。我們注意到,隨著時間的推移,非監督方法的使用越來越少。這兩個結論使我們認為,無監督方法在未來的現實世界中對圖像分類將失去意義。
我們的結論是,半監督和自監督學習策略主要使用一套不同的技術。通常,這兩種策略都使用不同技術的組合,但是這些技術中很少有重疊。S4L是目前提出的唯一一種消除這種分離的方法。我們確定了不同技術的組合有利于整體性能的趨勢。結合技術之間的微小重疊,我們確定了未來可能的研究機會。
參考文獻:
[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.
[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.
[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.
[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.
[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.