亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度學習在各個領域的顯著成功依賴于大規模注釋數據集的可用性。然而,使用人工生成的注釋會導致模型有偏差學習、領域泛化能力差和魯棒性差。獲取注釋也很昂貴,需要付出很大的努力,這對視頻來說尤其具有挑戰性。作為另一種選擇,自監督學習提供了一種不需要注釋的表示學習方法,在圖像和視頻領域都顯示出了前景。與圖像域不同,學習視頻表示更具有挑戰性,因為時間維度,引入了運動和其他環境動力學。這也為在視頻和多模態領域推進自監督學習的獨家想法提供了機會**。在這項綜述中,我們提供了一個現有的方法在視頻領域的自監督學習重點。**我們根據它們的學習目標將這些方法總結為三種不同的類別: 1) 文本預置任務,2) 生成式建模,和 3)對比學習。這些方法在使用的方式上也有所不同; 1) video, 2) video-audio, 3) video-text, 4) video-audio-text。我們進一步介紹了常用的數據集、下游評估任務、現有工作的局限性以及該領域未來的潛在方向。

對大規模標記樣本的要求限制了深度網絡在數據有限且標注困難的問題上的使用,例如醫學成像Dargan et al. [2020]。雖然在ImageNet Krizhevsky等人[2012a]和Kinetics Kay等人[2017]的大規模標記數據集上進行預訓練確實能提高性能,但這種方法存在一些缺陷,如注釋成本Yang et al. [2017], Cai et al. [2021],注釋偏差Chen和Joo [2021], Rodrigues和Pereira[2018],缺乏域泛化Wang等人[2021a], Hu等人[2020],Kim等人[2021],以及缺乏魯棒性Hendrycks和Dietterich[2019]。Hendrycks等[2021]。自監督學習(SSL)已經成為預訓練深度模型的一種成功方法,以克服其中一些問題。它是一種很有前途的替代方案,可以在大規模數據集上訓練模型,而不需要標記Jing和Tian[2020],并且具有更好的泛化性。SSL使用一些來自訓練樣本本身的學習目標來訓練模型。然后,這個預訓練的模型被用作目標數據集的初始化,然后使用可用的標記樣本對其進行微調。圖1顯示了這種方法的概覽。

付費5元查看完整內容

相關內容

自然語言處理(NLP)在神經模型的基礎上,在過去的十年中取得了很大的進展,經常利用大量的標記數據來實現最先進的性能。對標記數據的依賴使NLP模型無法應用于低資源設置和語言,因為通常需要時間、金錢和專業知識來標記大量文本數據。因此,在有限的標記數據下學習的能力對于將神經系統部署到真實的NLP應用是至關重要的。近年來,人們已經探索了許多方法來緩解自然語言處理中對標記數據的需求,如數據增強和半監督學習。

本教程旨在提供這些方法的系統和最新的概述,以幫助研究人員和從業人員理解從有限的標記數據中學習的方法和挑戰,這是計算語言學社區的一個新興話題。我們將考慮應用于各種各樣的NLP任務(包括文本分類、生成和結構化預測),并將突出當前的挑戰和未來的方向。

//github.com/diyiy/ACL2022_Limited_Data_Learning_Tutorial

目錄內容:

數據增強

數據增強是一種常用的技術,用于人為地增加給定訓練數據集的大小(即數據點的數量)和多樣性(即偏離真實數據分布)。小標記訓練數據集往往會導致過擬合,數據增強可以通過自動或手動創建增強數據來幫助緩解這個問題。這些技術在計算機視覺(CV)領域中得到了廣泛的探索,包括幾何/顏色空間轉換、混合和隨機擦除等方法。雖然文本數據由于其復雜的句法和語義結構而具有一定的挑戰性,但文本數據的增強方法卻非常廣泛。

NLP中具有代表性的數據增強方法包括: token增強,如隨機刪除或屏蔽令牌(Bowman et al., 2015),用同義詞或相關詞替換單詞(Zhang et al., 2015;Kobayashi, 2018),以及用隨機token插入或替換不重要的token (Xie et al.,2017,2019); 通過釋義提高句子水平(Roy and Grangier, 2019; Edunov et al., 2018)的基礎上,先將句子翻譯成某些中間語言,然后再將它們翻譯回來,生成具有不同詞匯和語言結構(如詞性、句法等)的中間語言的意譯,可以引入一定的方差,即雙向翻譯(Xie et al., 2019; Coulombe, 2018),或根據給定的標簽生成句子;對抗性數據增強,使用受擾動的數據顯著影響模型的預測和信心,而不影響人類判斷(Morris et al., 2020),例如使用梯度在模型的隱藏表示中尋找鄰居(Cheng et al., 2019)或連接分散但無意義的句子作為段落的結尾(Jia和Liang, 2017);隱藏空間增強,通過添加噪聲或對其他數據點進行插值等擾動來操縱隱藏表示(Chen等人,2020a)。

我們將向觀眾介紹最近廣泛使用的數據增強方法,并以NLP應用實例(如無監督翻譯的反向翻譯)為例,演示如何在實踐中利用這些代表性的數據增強技術。

半監督學習

當只有一個小的標簽訓練數據集可用時,數據增強可以應用在監督設置中產生更好的結果,數據增強也常用在半監督學習中。半監督學習在訓練模型時提供了一種利用未標記數據的方法,當只有有限的標記數據可用時,這種方法可以顯著改進模型。這在普通設置中特別有用,因為與有標記的數據相比,未標記的數據更便宜、更容易獲得。在本教程中,我們將使用示例應用程序或任務,簡要討論最近在NLP研究中探索的各種半監督技術。我們根據現有的半監督學習方法如何利用未標記的數據,將它們分成不同的類別:自訓練利用了固有存在或可以從數據集自動生成的監督(McClosky et al.,2006);多任務訓練利用帶有標簽的額外輔助任務,進一步利用與感興趣任務相關的未標記數據;一致性正則化訓練模型,當輸入通過數據增強受到干擾時,輸出相同的預測(Sachan et al., 2019; Xie et al., 2019; Chen et al., 2020a,b)。

低資源語言的有限數據學習與未來工作

解決數據有限的學習問題還有其他相關方向,如其他半監督學習方法,如自訓練(He et al., 2020)、生成模型(Cheng et al., 2016)和協同訓練(Clark et al., 2018)。我們將簡要討論這些方法,更具體地說,我們將通過案例研究向觀眾介紹如何利用上述技術提高低資源語言的性能,包括跨語言遷移學習,它將模型從資源豐富的語言轉移到資源貧乏的語言(Schuster et al., 2019),很少/零樣本學習(Pham et al., 2019; Abad et al., 2020),只使用了來自低資源領域的幾個例子,以適應在另一個領域訓練的模型。盡管近年來在數據有限的情況下取得了成功,但為了更好地學習,仍有一些挑戰需要解決。為此,我們將通過強調一些挑戰來結束我們的教程,包括但不限于數據分布的轉移,量化增強的多樣性和效率,處理域外未標記的數據,學習特定于文本的數據增強策略,并討論未來可能有助于推進該領域的方向。

付費5元查看完整內容

雖然在許多領域生成并提供了大量未標記數據,但對自動理解可視化數據的需求比以往任何時候都要高。大多數現有的機器學習模型通常依賴于大量帶標簽的訓練數據來實現高性能。不幸的是,這樣的需求在真實的應用中無法滿足。標簽的數量是有限的,手動注釋數據是昂貴和耗時的。通常需要將知識從現有的標記領域遷移到新的領域。然而,模型性能會因為域之間的差異而降低(域移位或數據集偏差)。為了克服標注的負擔,領域適應(Domain Adaptation, DA)旨在緩解知識從一個領域轉移到另一個相似但不同的領域時的領域轉移問題。無監督DA (UDA)處理有標記的源域和無標記的目標域。UDA的主要目標是減少帶標簽源數據和未帶標簽目標數據之間的域差異,并在訓練過程中學習跨兩個域的域不變表示。本文首先定義了UDA問題。其次,我們從傳統方法和基于深度學習的方法兩方面概述了用于不同類別UDA的最新方法。最后,我們收集了常用的基準數據集,并報告了UDA在視覺識別問題上的最新方法的結果。

//www.zhuanzhi.ai/paper/a3132aabda946e6540ff6c1a9b745303

在這個大數據時代,產生了大量的文本、圖像、聲音和其他類型的數據。工業和研究團體對多媒體數據的自動分類、分割和回歸有很大的需求[1;2) 1。監督學習是機器學習中最普遍的一種,在不同的應用領域都取得了很大的成功。近年來,我們已經見證了深度神經網絡在一些標準基準如ImageNet[4]和CIFAR-10[5]上取得的巨大成功。然而,在現實世界中,我們經常遇到一個嚴重的問題,即缺乏用于訓練的標記數據。眾所周知,機器學習模型的訓練和更新依賴于數據注釋。此外,機器學習模型的高性能依賴于大量帶標簽的訓練數據的存在。不幸的是,在許多實際場景中,這樣的要求無法滿足,因為收集的數據有限制或沒有標簽。此外,一個主要的假設是訓練和測試數據具有相同的分布。如果背景、質量或形狀變形在不同的域之間是不同的,那么這樣的假設很容易被扭曲。此外,手動注釋數據通常非常耗時且昂貴。這給正確訓練和更新機器學習模型帶來了挑戰。因此,一些應用領域由于沒有足夠的標注數據進行訓練而沒有得到很好的發展。因此,常常需要將知識從一個已有的標簽領域轉移到一個相似但不同的、有限或沒有標簽的領域。

然而,由于數據偏置或區域移位的現象6,機器學習模型并不能很好地從一個現有的域推廣到一個新的無標記域。對于傳統的機器學習方法,我們通常假設訓練數據(源域)和測試數據(目標域)來自相同的分布,并從訓練數據中優化模型,直接應用到測試數據中進行預測。忽略訓練數據和測試數據之間的差異。然而,源域和目標域之間常常存在差異,如果存在域遷移問題,傳統方法的性能較低。因此,減輕領域遷移問題對提高模型跨不同領域的性能非常重要。

域適應(DA)是遷移學習(TL)的一種特殊設置,其目的是利用豐富的帶標簽源域的知識,為標簽有限或無標簽的目標域學習有效的預測器,同時緩解域遷移問題。近年來,DA在計算機視覺領域受到越來越多的關注,如圖1所示。每年與DA相關的論文越來越多,說明了DA應用的重要性。有三種類型的DA(有監督的、半監督的和無監督的DA),它們取決于目標域中的標簽數量。對于監督DA,所有的目標數據標簽都是可用的。對于半監督DA,部分目標數據標簽是可用的。對于無監督域適配(UDA),目標域沒有標簽。為了克服標注不足所帶來的限制,技術將有標記的源域和來自目標域的未標記樣本結合起來。此外,UDA中源域和目標域的類別數量相同,也稱為閉集域適應。

現有的域自適應方法假設源域和目標域的數據分布不同,但共享相同的標簽空間。傳統的DA方法高度依賴于從原始圖像中提取特征。隨著深度神經網絡的發展,研究人員正在利用更高性能的深度特征(如AlexNet [7], ResNet50 [8], Xception [9], InceptionResNetv2[10])來代替較低級別的SURF特征。然而,傳統方法的預測精度受到深度神經網絡[11]特征提取質量的影響。近年來,深度神經網絡方法在領域適應問題上取得了巨大的成功。特別是,對抗學習在嵌入深度神經網絡學習特征表示以最小化源域和目標域之間的差異方面表現出強大的能力[12;13)。但是,它只局限于將現有的解決方案從源域改進到目標域,而目標樣本的結構信息很難保存。此外,很難移除目標域中有噪聲的預測標簽。

本文主要研究了圖像識別中的域自適應問題。本次綜述的貢獻如下。(i)我們提出了一種基于傳統和深度學習的DA分類方法。(ii) 我們是第一個在特征選擇、分布適應和子空間學習三種不同背景下研究傳統技術的人。(iii)我們還討論了基于深度學習的方法,包括基于差異的方法、基于對抗的方法、基于偽標簽的方法、基于重構的方法、基于表征的方法和基于注意力的方法。(4)我們收集了幾個基準數據集,這些數據集在UDA中得到了廣泛的應用,并報告了最新方法的結果。本文的其余部分組織如下:在第2、3節中,我們介紹了DA問題的符號和泛化界。在第四部分,我們回顧了傳統的UDA方法。在第5節中,我們描述了用于圖像識別的深度DA方法。在第6節中,我們列出了DA的基準數據集,并報告了最新方法的準確性。

付費5元查看完整內容

摘要:

為了在計算機視覺應用中學習得到更好的圖像和視頻特征,通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷,作為無監督學習方法的一個子方法——自監督學習方法,可以在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先,描述了該領域的動機和一些專業性術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。

//ieeexplore.ieee.org/document/9086055

引言

由于深度神經網絡具有學習不同層次一般視覺特征的強大能力,它已被作為基本結構應用于許多計算機視覺應用,如目標檢測[1]、[2]、[3]、語義分割[4]、[5]、[6]、圖像描述[7]等。從像ImageNet這樣的大規模圖像數據集訓練出來的模型被廣泛地用作預訓練模型和用于其他任務的微調模型,主要有兩個原因:(2)在大規模數據集上訓練的網絡已經學習了層次特征,有助于減少在訓練其他任務時的過擬合問題;特別是當其他任務的數據集很小或者訓練標簽很少的時候。

深度卷積神經網絡(ConvNets)的性能在很大程度上取決于其能力和訓練數據量。為了增加網絡模型的容量,人們開發了不同類型的網絡架構,收集的數據集也越來越大。各種網絡,包括AlexNet [9], VGG [10], GoogLeNet [11], ResNet [12], DenseNet[13]和大規模數據集,如ImageNet [14], OpenImage[15]已經被提出訓練非常深的ConvNets。通過復雜的架構和大規模的數據集,ConvNets的性能在許多計算機視覺任務[1],[4],[7],[16],[17],[18]方面不斷突破先進水平。

然而,大規模數據集的收集和標注是費時和昂貴的。ImageNet[14]是pre-training very deep 2D convolutional neural networks (2DConvNets)中應用最廣泛的數據集之一,包含約130萬張已標記的圖像,覆蓋1000個類,而每一幅圖像由人工使用一個類標簽進行標記。與圖像數據集相比,視頻數據集由于時間維度的原因,其采集和標注成本較高。Kinetics數據集[19]主要用于訓練ConvNets進行視頻人體動作識別,該數據集由50萬個視頻組成,共600個類別,每個視頻時長約10秒。許多Amazon Turk工作人員花了大量時間來收集和注釋如此大規模的數據集。

為了避免費時和昂貴的數據標注,提出了許多自監督方法來學習大規模無標記圖像或視頻的視覺特征,而不需要任何人工標注。一種流行的解決方案是提出各種各樣的前置任務讓網絡來解決,通過學習前置任務的目標函數來訓練網絡,通過這個過程來學習特征。人們提出了各種各樣的自監督學習任務,包括灰度圖像著色[20]、圖像填充[21]、玩圖像拼圖[22]等。藉口任務有兩個共同的特性:(1)圖像或視頻的視覺特征需要被ConvNets捕捉來解決前置任務;(2)監控信號是利用數據本身的結構(自我監控)產生的。

自監督學習的一般流程如圖1所示。在自監督訓練階段,為ConvNets設計預定義的前置任務,并根據數據的某些屬性自動生成前置任務的偽標簽。然后訓練卷積神經網絡學習任務的目標函數。當使用前置任務進行訓練時,ConvNet的較淺的塊集中于低級的一般特征,如角、邊和紋理,而較深的塊集中于高級任務特定的特征,如對象、場景和對象部分[23]。因此,通過藉由任務訓練的ConvNets可以學習內核來捕獲低級特征和高級特征,這對其他下游任務是有幫助的。在自監督訓練結束后,學習到的視覺特征可以作為預訓練的模型進一步轉移到下游任務中(特別是在數據相對較少的情況下),以提高性能和克服過擬合。通常,在有監督的下游任務訓練階段,僅從前幾層傳遞視覺特征。

付費5元查看完整內容

最近,自監督學習方法在計算機視覺領域獲得了越來越多的關注。在自然語言處理(NLP)中,自監督學習和transformer已經是選擇的方法。最近的文獻表明,transformers或某種協同監督(例如在教師網絡方面)進行預訓練時效果很好。這些監督的預訓練的視覺變換器在下游任務獲得了了非常好的結果,而只需要較小的模型改變。

在本研究中,我們探討了自監督學習在圖像/視覺變換器的預訓練,然后將其用于下游分類任務的優點。我們提出了自監督視覺變形器(SiT),并討論了幾種自監督訓練機制來獲得前置模型。SiT的架構靈活性允許我們將其用作自動編碼器,并無縫地處理多個自監督任務。我們表明,預訓練的SiT可以被微調用于小規模數據集的下游分類任務,這些數據集由幾千張而不是幾百萬張圖像組成。

在通用協議的標準數據集上對所提出的方法進行了評估。實驗結果證明了該方法的有效性和自監督學習的可行性。我們大大超過了現有的自監督學習方法。我們還觀察到,SiT對少樣本學習很好,也表明它通過簡單地在從SiT學習到的特征之上訓練線性分類器來學習有用的表示。預訓練、調優和評估代碼將在以下鏈接中提供: //github.com/Sara-Ahmed/SiT。

引言

最近的趨勢表明,自監督預訓練可以顯著提高下游任務[4]、[5]的表現性能。在語音識別[6]和計算機視覺應用[7]、[8]、[9]、[10]中也觀察到類似的趨勢。如BERT[4]、[5]所示,自監督預訓練,特別是結合transformers [11],是自然語言處理(NLP)的選擇模型。自監督學習的成功是以大量數據集和大容量模型為代價的,例如,基于NLP的變換器是根據數千億單詞組成的帶有數十億參數[5]的模型進行訓練的。最近在圖像分類中取得成功的transformers[1]引起了計算機視覺界的極大興趣。然而,視覺transformer的預訓練主要是針對非常大規模的有監督學習數據集進行研究,例如,由數億個標記樣本[1]組成的數據集。最近,在沒有外部數據[2]的情況下,視覺轉換器在imagenet上表現良好,但是,它們需要CNNs對等體的蒸餾方法和指導。簡而言之,利用大規模監督數據集進行預訓練是計算機視覺中的一種規范,用來訓練深度神經網絡以獲得更好的性能。然而,人工標注訓練數據是相當昂貴的,盡管在眾包創新方面取得了進展。為了解決這一限制,自監督學習方法[7],[9],[10],[12],[13],[14]已被用到從未標記數據構建具有語義意義的圖像表示。

自監督方法大致可以分為生成式和判別性方法。生成式方法[15],[16],[17]學習建模數據的分布。然而,數據建模通常在計算上是昂貴的,并且在所有場景中可能不是表示學習所必需的。另一方面,通常在對比學習框架[8]、[18]、[19]、[20]或使用文本前任務[21]、[22]、[23]中實現的判別方法,證明了在適當的計算需求下獲得更好的泛化表示的能力。

對比學習的主要重點是學習對同一圖像的不同增廣視圖不變的圖像嵌入,同時對不同的圖像進行區分。盡管對比學習方法取得了令人印象深刻的結果,但他們往往忽視了對語境表征的學習,對于這一學習,替代的前置任務,如基于重構的方法,可能更適合。近年來,文獻中提出了一系列新穎的前置任務,包括修復斑塊[24]、著色[21]、[25]、[26]、相對斑塊位置[21]0、拼圖解決[27]、[28]、交叉信道預測[29]、噪聲預測[30]、圖像旋轉預測[22]、斑點偽影預測[23]等。

在這項工作中,我們介紹了一個簡單的自監督學習框架,利用對比學習和前置方法的優勢。本研究的主要貢獻和發現總結如下:

  • 我們提出了一種新的視覺表示的自監督學習方法——自監督視覺Transformer(SiT)。

  • 我們賦予SiT體系結構一個解碼器,并證明,由于Transformer的內在特性,它基本上可以通過使用一個線性層來實現。這種基于Transformer的自動編碼器避免了通常在基于CNN的編碼器-解碼器架構中出現的對整個解碼器塊的需要。

  • 利用自編碼Transformer支持多任務學習的自然能力,我們開發了一個強大的自監督框架,共同優化重建(圖像修復)、旋轉分類和收縮損失。

  • 我們在不同的評估協議(包括線性評估、領域轉移和微調)下,在標準基準上展示了擬議框架的有效性。

  • 在不同的數據集中,我們比并發的最先進的結果表現更好,在很大的間隔達到+13.53%的改進。

付費5元查看完整內容

自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。

//arxiv.org/abs/2011.00362

概述:

隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。

傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。

監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。

生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。

付費5元查看完整內容

題目: A survey on Semi-, Self- and Unsupervised Learning for Image Classification

摘要:

盡管深度學習策略在計算機視覺任務中取得了出色的成績,但仍然存在一個問題:當前的策略嚴重依賴大量的標記數據。在許多實際問題中,創建如此大量的帶標簽的訓練數據是不可行的。因此,通常將未標記的數據合并到訓練過程中,以較少的標記達到相同的結果。由于進行了大量并行研究,因此很難跟蹤最新動態。本文概述了標簽較少的圖像分類中常用的思想和方法。詳細比較了25種方法。在分析中,確定了三個主要趨勢。

  • 最先進的方法基于其準確性可擴展到實際應用。
  • 為獲得與所有標簽的使用效果可比的結果而需要的監督程度正在降低。
  • 所有方法都有共同的想法,而只有少數幾種方法將這些想法結合起來以實現更好的性能。

基于這三個趨勢,發現了未來的研究機會。

付費5元查看完整內容

題目

A survey on Semi-, Self- and Unsupervised Techniques in Image Classification Similarities, Differences & Combinations

關鍵字

深度學習,計算機視覺,監督學習,半監督學習,無監督學習,人工智能,綜述

簡介

雖然深度學習策略在計算機視覺任務中取得了出色的成績,但仍然存在一個問題。當前的策略嚴重依賴大量的標記數據。在許多實際問題中,創建如此大量的帶標簽的訓練數據是不可行的。因此,研究人員嘗試將未標記的數據合并到訓練過程中,以減少標簽數量達到平等的結果。由于大量的并發研究,很難跟蹤最新的發展。在本次調查中,我們概述了標簽較少的圖像分類中常用的技術和方法。我們比較21種方法。在我們的分析中,我們確定了三個主要趨勢。 1.最先進的方法基于其準確性可擴展到現實世界的應用程序。2.達到與所有標簽的使用效果相當的結果所需的超視力水平正在降低。3.所有方法共享共同的技術,而只有很少的方法將這些技術結合起來以實現更好的性能。基于這三個趨勢,我們發現了未來的研究機會。

作者

Lars Schmarje, Monty Santarossa,Simon-Martin Schroder, Reinhard Koch

付費5元查看完整內容

?【導讀】圖像分類是計算機視覺中的基本任務之一,深度學習的出現是的圖像分類技術趨于完善。最近,自監督學習與預訓練技術的發展使得圖像分類技術出現新的變化,這篇論文概述了最新在實際情況中少標簽小樣本等情況下,關于自監督學習、半監督、無監督方法的綜述,值得看!

地址:

//www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132

摘要

雖然深度學習策略在計算機視覺任務中取得了突出的成績,但仍存在一個問題。目前的策略嚴重依賴于大量的標記數據。在許多實際問題中,創建這么多標記的訓練數據是不可行的。因此,研究人員試圖將未標記的數據納入到培訓過程中,以獲得與較少標記相同的結果。由于有許多同時進行的研究,很難掌握最近的發展情況。在這項調查中,我們提供了一個概述,常用的技術和方法,在圖像分類與較少的標簽。我們比較了21種方法。在我們的分析中,我們確定了三個主要趨勢。1. 基于它們的準確性,現有技術的方法可擴展到實際應用中。2. 為了達到與所有標簽的使用相同的結果所需要的監督程度正在降低。3.所有方法都共享公共技術,只有少數方法結合這些技術以獲得更好的性能。基于這三個趨勢,我們發現了未來的研究機會。

1. 概述

深度學習策略在計算機視覺任務中取得了顯著的成功。它們在圖像分類、目標檢測或語義分割等各種任務中表現最佳。

圖1: 這張圖說明并簡化了在深度學習訓練中使用未標記數據的好處。紅色和深藍色的圓圈表示不同類的標記數據點。淺灰色的圓圈表示未標記的數據點。如果我們只有少量的標記數據可用,我們只能對潛在的真實分布(黑線)做出假設(虛線)。只有同時考慮未標記的數據點并明確決策邊界,才能確定這種真實分布。

深度神經網絡的質量受到標記/監督圖像數量的強烈影響。ImageNet[26]是一個巨大的標記數據集,它允許訓練具有令人印象深刻的性能的網絡。最近的研究表明,即使比ImageNet更大的數據集也可以改善這些結果。但是,在許多實際的應用程序中,不可能創建包含數百萬張圖像的標記數據集。處理這個問題的一個常見策略是遷移學習。這種策略甚至可以在小型和專門的數據集(如醫學成像[40])上改進結果。雖然這對于某些應用程序來說可能是一個實際的解決方案,但基本問題仍然存在: 與人類不同,監督學習需要大量的標記數據。

對于給定的問題,我們通常可以訪問大量未標記的數據集。Xie等人是最早研究無監督深度學習策略來利用這些數據[45]的人之一。從那時起,未標記數據的使用被以多種方式研究,并創造了研究領域,如半監督、自我監督、弱監督或度量學習[23]。統一這些方法的想法是,在訓練過程中使用未標記的數據是有益的(參見圖1中的說明)。它要么使很少有標簽的訓練更加健壯,要么在某些不常見的情況下甚至超過了監督情況下的性能[21]。

由于這一優勢,許多研究人員和公司在半監督、自我監督和非監督學習領域工作。其主要目標是縮小半監督學習和監督學習之間的差距,甚至超越這些結果。考慮到現有的方法如[49,46],我們認為研究處于實現這一目標的轉折點。因此,在這個領域有很多正在進行的研究。這項綜述提供了一個概述,以跟蹤最新的在半監督,自監督和非監督學習的方法。

大多數綜述的研究主題在目標、應用上下文和實現細節方面存在差異,但它們共享各種相同的思想。這項調查對這一廣泛的研究課題進行了概述。這次調查的重點是描述這兩種方法的異同。此外,我們還將研究不同技術的組合。

2. 圖像分類技術

在這一節中,我們總結了關于半監督、自監督和非監督學習的一般概念。我們通過自己對某些術語的定義和解釋來擴展這一總結。重點在于區分可能的學習策略和最常見的實現策略的方法。在整個綜述中,我們使用術語學習策略,技術和方法在一個特定的意義。學習策略是算法的一般類型/方法。我們把論文方法中提出的每個算法都稱為獨立算法。方法可以分為學習策略和技術。技術是組成方法/算法的部分或思想。

2.1 分類方法

監督、半監督和自我監督等術語在文獻中經常使用。很少有人給出明確的定義來區分這兩個術語。在大多數情況下,一個粗略的普遍共識的意義是充分的,但我們注意到,在邊界情況下的定義是多種多樣的。為了比較不同的方法,我們需要一個精確的定義來區分它們。我們將總結關于學習策略的共識,并定義我們如何看待某些邊緣案例。一般來說,我們根據使用的標記數據的數量和訓練過程監督的哪個階段來區分方法。綜上所述,我們把半監督策略、自我學習策略和無監督學習策略稱為reduced減約監督學習策略。圖2展示了四種深度學習策略。

圖2: 插圖的四個深學習策略——紅色和深藍色的圓圈表示標記數據點不同的類。淺灰色的圓圈表示未標記的數據點。黑線定義了類之間的基本決策邊界。帶條紋的圓圈表示在訓練過程的不同階段忽略和使用標簽信息的數據點。

監督學習 Supervised Learning

監督學習是深度神經網絡圖像分類中最常用的方法。我們有一組圖像X和對應的標簽或類z。設C為類別數,f(X)為X∈X的某個神經網絡的輸出,目標是使輸出與標簽之間的損失函數最小化。測量f(x)和相應的z之間的差的一個常用的損失函數是交叉熵。

遷移學習

監督學習的一個限制因素是標簽的可用性。創建這些標簽可能很昂貴,因此限制了它們的數量。克服這一局限的一個方法是使用遷移學習。

遷移學習描述了訓練神經網絡的兩個階段的過程。第一個階段是在大型通用數據集(如ImageNet[26])上進行有無監督的訓練。第二步是使用經過訓練的權重并對目標數據集進行微調。大量的文獻表明,即使在小的領域特定數據集[40]上,遷移學習也能改善和穩定訓練。

半監督學習

半監督學習是無監督學習和監督學習的混合.

Self-supervised 自監督學習

自監督使用一個借托pretext任務來學習未標記數據的表示。借托pretext任務是無監督的,但學習表征往往不能直接用于圖像分類,必須進行微調。因此,自監督學習可以被解釋為一種無監督的、半監督的或其自身的一種策略。我們將自我監督學習視為一種特殊的學習策略。在下面,我們將解釋我們是如何得出這個結論的。如果在微調期間需要使用任何標簽,則不能將該策略稱為無監督的。這與半監督方法也有明顯的區別。標簽不能與未標記的數據同時使用,因為借托pretext任務是無監督的,只有微調才使用標簽。對我們來說,將標記數據的使用分離成兩個不同的子任務本身就是一種策略的特征。

2.2 分類技術集合

在減少監督的情況下,可以使用不同的技術來訓練模型。在本節中,我們將介紹一些在文獻中多種方法中使用的技術。

一致性正則化 Consistency regularization

一個主要的研究方向是一致性正則化。在半監督學習過程中,這些正則化被用作數據非監督部分的監督損失的附加損失。這種約束導致了改進的結果,因為在定義決策邊界時可以考慮未標記的數據[42,28,49]。一些自監督或無監督的方法甚至更進一步,在訓練中只使用這種一致性正則化[21,2]。

虛擬對抗性訓練(VAT)

VAT[34]試圖通過最小化圖像與轉換后的圖像之間的距離,使預測不受小轉換的影響。

互信息(MI)

MI定義為聯合分布和邊緣分布[8]之間的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通過最小化熵[15]來提高半監督學習的輸出預測。

Overclustering

過度聚類在減少監督的情況下是有益的,因為神經網絡可以自行決定如何分割數據。這種分離在有噪聲的數據中或在中間類被隨機分為相鄰類的情況下是有用的。

Pseudo-Labels

一種估計未知數據標簽的簡單方法是偽標簽

3. 圖像分類模型

3.1 半監督學習

 四種選擇的半監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的藍色方框中給出。在右側提供了該方法的說明。一般來說,這個過程是自上而下組織的。首先,輸入圖像經過無或兩個不同的隨機變換預處理。自動增廣[9]是一種特殊的增廣技術。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的,但是共享公共部分。所有的方法都使用了標記和預測分布之間的交叉熵(CE)。所有的方法還使用了不同預測輸出分布(Pf(x), Pf(y))之間的一致性正則化。

3.2 自監督學習

四種選擇的自我監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的紅色方框中給出。在右側提供了該方法的說明。微調部分不包括在內。一般來說,這個過程是自上而下組織的。首先,對輸入圖像進行一兩次隨機變換預處理或分割。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的。AMDIM和CPC使用網絡的內部元素來計算損失。DeepCluster和IIC使用預測的輸出分布(Pf(x)、Pf(y))來計算損耗

3.3 21種圖像分類方法比較

21種圖像分類方法及其使用技術的概述——在左側,第3節中回顧的方法按學習策略排序。第一行列出了在2.2小節中討論過的可能的技術。根據是否可以使用帶標簽的數據,將這些技術分為無監督技術和有監督技術。技術的縮寫也在第2.2小節中給出。交叉熵(Cross-entropy, CE)將CE的使用描述為訓練損失的一部分。微調(FT)描述了交叉熵在初始訓練后(例如在一個借口任務中)對新標簽的使用。(X)指該技術不是直接使用,而是間接使用。個別的解釋由所指示的數字給出。1 - MixMatch通過銳化預測[3],隱式地實現了熵最小化。2 - UDA預測用于過濾無監督數據的偽標簽。3 -盡量減少相互信息的目的作為借口任務,例如視圖之間的[2]或層之間的[17]。4 -信息的丟失使相互信息間接[43]最大化。5 - Deep Cluster使用K-Means計算偽標簽,以優化分配為借口任務。6 - DAC使用元素之間的余弦距離來估計相似和不相似的項。可以說DAC為相似性問題創建了偽標簽。

4. 實驗比較結果

報告準確度的概述——第一列說明使用的方法。對于監督基線,我們使用了最好的報告結果,作為其他方法的基線。原始論文在準確度后的括號內。第二列給出了體系結構及其參考。第三列是預印本的出版年份或發行年份。最后四列報告了各自數據集的最高準確度分數%。

5 結論

在本文中,我們概述了半監督、自監督和非監督技術。我們用21種不同的方法分析了它們的異同和組合。這項分析確定了幾個趨勢和可能的研究領域。

我們分析了不同學習策略(半監督學習策略、自監督學習策略和無監督學習策略)的定義,以及這些學習策略中的常用技術。我們展示了這些方法一般是如何工作的,它們使用哪些技術,以及它們可以被歸類為哪種策略。盡管由于不同的體系結構和實現而難以比較這些方法的性能,但我們確定了三個主要趨勢。

ILSVRC-2012的前5名正確率超過90%,只有10%的標簽表明半監督方法適用于現實問題。然而,像類別不平衡這樣的問題并沒有被考慮。未來的研究必須解決這些問題。

監督和半監督或自監督方法之間的性能差距正在縮小。有一個數據集甚至超過了30%。獲得可與全監督學習相比的結果的標簽數量正在減少。未來的研究可以進一步減少所需標簽的數量。我們注意到,隨著時間的推移,非監督方法的使用越來越少。這兩個結論使我們認為,無監督方法在未來的現實世界中對圖像分類將失去意義。

我們的結論是,半監督和自監督學習策略主要使用一套不同的技術。通常,這兩種策略都使用不同技術的組合,但是這些技術中很少有重疊。S4L是目前提出的唯一一種消除這種分離的方法。我們確定了不同技術的組合有利于整體性能的趨勢。結合技術之間的微小重疊,我們確定了未來可能的研究機會。

參考文獻:

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.

[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.

[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.

付費5元查看完整內容
北京阿比特科技有限公司