亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

最近,自監督學習方法在計算機視覺領域獲得了越來越多的關注。在自然語言處理(NLP)中,自監督學習和transformer已經是選擇的方法。最近的文獻表明,transformers或某種協同監督(例如在教師網絡方面)進行預訓練時效果很好。這些監督的預訓練的視覺變換器在下游任務獲得了了非常好的結果,而只需要較小的模型改變。

在本研究中,我們探討了自監督學習在圖像/視覺變換器的預訓練,然后將其用于下游分類任務的優點。我們提出了自監督視覺變形器(SiT),并討論了幾種自監督訓練機制來獲得前置模型。SiT的架構靈活性允許我們將其用作自動編碼器,并無縫地處理多個自監督任務。我們表明,預訓練的SiT可以被微調用于小規模數據集的下游分類任務,這些數據集由幾千張而不是幾百萬張圖像組成。

在通用協議的標準數據集上對所提出的方法進行了評估。實驗結果證明了該方法的有效性和自監督學習的可行性。我們大大超過了現有的自監督學習方法。我們還觀察到,SiT對少樣本學習很好,也表明它通過簡單地在從SiT學習到的特征之上訓練線性分類器來學習有用的表示。預訓練、調優和評估代碼將在以下鏈接中提供: //github.com/Sara-Ahmed/SiT。

引言

最近的趨勢表明,自監督預訓練可以顯著提高下游任務[4]、[5]的表現性能。在語音識別[6]和計算機視覺應用[7]、[8]、[9]、[10]中也觀察到類似的趨勢。如BERT[4]、[5]所示,自監督預訓練,特別是結合transformers [11],是自然語言處理(NLP)的選擇模型。自監督學習的成功是以大量數據集和大容量模型為代價的,例如,基于NLP的變換器是根據數千億單詞組成的帶有數十億參數[5]的模型進行訓練的。最近在圖像分類中取得成功的transformers[1]引起了計算機視覺界的極大興趣。然而,視覺transformer的預訓練主要是針對非常大規模的有監督學習數據集進行研究,例如,由數億個標記樣本[1]組成的數據集。最近,在沒有外部數據[2]的情況下,視覺轉換器在imagenet上表現良好,但是,它們需要CNNs對等體的蒸餾方法和指導。簡而言之,利用大規模監督數據集進行預訓練是計算機視覺中的一種規范,用來訓練深度神經網絡以獲得更好的性能。然而,人工標注訓練數據是相當昂貴的,盡管在眾包創新方面取得了進展。為了解決這一限制,自監督學習方法[7],[9],[10],[12],[13],[14]已被用到從未標記數據構建具有語義意義的圖像表示。

自監督方法大致可以分為生成式和判別性方法。生成式方法[15],[16],[17]學習建模數據的分布。然而,數據建模通常在計算上是昂貴的,并且在所有場景中可能不是表示學習所必需的。另一方面,通常在對比學習框架[8]、[18]、[19]、[20]或使用文本前任務[21]、[22]、[23]中實現的判別方法,證明了在適當的計算需求下獲得更好的泛化表示的能力。

對比學習的主要重點是學習對同一圖像的不同增廣視圖不變的圖像嵌入,同時對不同的圖像進行區分。盡管對比學習方法取得了令人印象深刻的結果,但他們往往忽視了對語境表征的學習,對于這一學習,替代的前置任務,如基于重構的方法,可能更適合。近年來,文獻中提出了一系列新穎的前置任務,包括修復斑塊[24]、著色[21]、[25]、[26]、相對斑塊位置[21]0、拼圖解決[27]、[28]、交叉信道預測[29]、噪聲預測[30]、圖像旋轉預測[22]、斑點偽影預測[23]等。

在這項工作中,我們介紹了一個簡單的自監督學習框架,利用對比學習和前置方法的優勢。本研究的主要貢獻和發現總結如下:

  • 我們提出了一種新的視覺表示的自監督學習方法——自監督視覺Transformer(SiT)。

  • 我們賦予SiT體系結構一個解碼器,并證明,由于Transformer的內在特性,它基本上可以通過使用一個線性層來實現。這種基于Transformer的自動編碼器避免了通常在基于CNN的編碼器-解碼器架構中出現的對整個解碼器塊的需要。

  • 利用自編碼Transformer支持多任務學習的自然能力,我們開發了一個強大的自監督框架,共同優化重建(圖像修復)、旋轉分類和收縮損失。

  • 我們在不同的評估協議(包括線性評估、領域轉移和微調)下,在標準基準上展示了擬議框架的有效性。

  • 在不同的數據集中,我們比并發的最先進的結果表現更好,在很大的間隔達到+13.53%的改進。

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

本文提出了從視頻無監督的時空表示學習的大規模研究。借助對四個基于圖像的最新框架的統一觀點,我們研究了一個簡單的目標,可以輕松地將所有這些方法推廣到時空。我們的目標是鼓勵在同一視頻中使用時間上持久的特征,盡管它簡單易用,但在以下情況下卻表現出色:(i)不同的無監督框架,(ii)預訓練數據集,(iii)下游數據集,以及(iv) 骨干架構。我們從這項研究中得出了一系列有趣的觀察結果,例如,我們發現,即使跨度為60秒,鼓勵長時間跨度的持久性也是有效的。除了在多個基準測試中得到的最新結果之外,我們還報告了一些有希望的案例,其中無監督的預訓練可以勝過其有監督的預訓練。

//www.zhuanzhi.ai/paper/c814846601d2bda3489e56a681716b05

付費5元查看完整內容

本文主要聚焦于小模型(即輕量型模型)的自監督學習問題,作者通過實證發現:對比自監督學習方法在大模型訓練方面表現出了很大進展,然這些方法在小模型上的表現并不好。

為解決上述問題,本文提出了一種新的學習框架:自監督蒸餾(SElf-SupErvised Distillation, SEED),它通過自監督方式(SSL)將老師模型的知識表達能力遷移給學生模型。不同于直接在無監督數據上的直接學習,我們訓練學生模型去模擬老師模型在一組示例上的相似度得分分布。

所提SEED的簡潔性與靈活性不言而喻,包含這樣三點:(1) 無需任何聚類/元計算步驟生成偽標簽/隱類;(2) 老師模型可以通過優秀的自監督學習(比如MoCo-V2、SimCLR、SWAV等)方法進行預訓練;(3)老師模型的知識表達能力可以蒸餾到任意小模型中(比如更淺、更細,甚至可以是完全不同的架構)。

實驗表明:SEED可以提升小模型在下游任務上的性能表現。相比自監督基準MoCo-V2方案,在ImageNet數據集上,SEED可以將EfficientNet-B0的精度從42.2%提升到67.6%,將MobileNetV3-Large的精度從36.3%提升到68.2%,見下圖對比。

//arxiv.org/pdf/2101.04731.pdf

付費5元查看完整內容

該工作針對基于半監督的醫學圖像算法,提出了一種利用雙任務一致性約束的新方法,將同一個分割問題表示成兩個不同的任務,并鼓勵兩個任務在預定義的表示空間內保持一致,進而充分利用未標注的數據提升深度神經網絡的性能,同時大大降低訓練網絡模型所需要的標注成本。圖片

基于深度學習的方法因為在圖像處理上優越表現而受到廣泛的關注,近年來在圖像識別、人工智能領域不斷取得了性能突破。但是由于深度神經網絡需要依賴大量良好標注的數據,在小數據上很難達到比較好的效果。在醫學圖像領域,數據標注通常需要大量的時間,也需要醫學領域的專業知識,但醫生通常很忙,沒有充足的時間來標注大量的數據,因此從少量標注數據和大量未標注數據來學習以獲得高性能模型變得尤為重要。

基于這樣的問題,本文提出了一種基于雙任務一致性的半監督學習算法,在現有全監督醫學圖像分割算法基礎上,該算法可以充分利用沒有標注的數據進行進一步學習,進而大大提高未標注數據的利用率和促進網絡分割性能。實驗表明,通過引入雙任務一致性,網絡能更穩定的從少量標注數據和大量未標注數據中學習,并顯著提高分割結果。同時與最新的半監督分割算法相比,此方法需要的訓練成本更低,所取得的效果也更好,從而降低了深度神經網絡對標注數據的依賴。
付費5元查看完整內容

Transformer是一種主要基于自注意力機制的深度神經網絡,最初應用于自然語言處理領域。受Transformer強大的表征能力的啟發,研究人員提出將Transformer擴展到計算機視覺任務中。與卷積網絡和循環網絡等其他網絡類型相比,基于Transformer的模型在各種視覺基準上都具有競爭力,甚至表現出了更好的性能。在本文中,作者對這些視覺變換器模型進行了文獻綜述,將它們按照不同的任務進行分類,并分析了這些方法的優缺點。具體來說,主要包括基礎圖像分類(basic image classification)、高級視覺(high-level vision)、低級視覺(low-level vision)和視頻處理(video processing)。由于自注意力(self-attention)是變換器中的基礎部件,作者簡要重新審視了自注意力在計算機視覺中的位置。為變換器推向實際應用,本文包含了高效的變換器方法。最后,作者給出了視覺變換器的未來研究方向。

//arxiv.org/abs/2012.12556

深度神經網絡已成為現代人工智能系統的基礎設施。針對不同的任務,已經提出了不同的網絡類型。多層感知(Multi-layer perception, MLP)或稱全連接(full - connected, FC)網絡是由多個線性層和非線性激活疊加而成的經典神經網絡[104,105]。卷積神經網絡(CNNs)引入了卷積層和池化層,用于處理圖像等位移不變數據[68,65]。循環神經網絡(RNNs)利用循環細胞來處理順序數據或時間序列數據[106,49]。Transformer是一種新提出的神經網絡,主要利用自注意力機制[5,90]來提取內在特征[123]。其中轉換器網絡是新近發明的一種神經網絡,在人工智能方面具有廣泛的應用潛力。

Transformer最初應用于自然語言處理(natural language processing, NLP)任務,并帶來了顯著的改進[123,29,10]。例如,Vaswani等人[123]首先提出了完全基于注意力機制的轉換器,用于機器翻譯和英語分析任務。Devlin等人[29]引入了一種新的語言表示模型,稱為BERT,該模型通過聯合調節左右上下文,從未標記的文本中預訓練一個Transformer。BERT在當時的十一個NLP任務中獲得了最先進的結果。Brown等人[10]在45TB壓縮純文本數據上預訓練了一個具有1750億參數的基于巨型Transformer的GPT-3模型,在不進行微調的情況下,在不同類型的下游自然語言任務上實現了強大的性能。這些基于Transformer的模型顯示了較強的表示能力,并在自然語言處理領域取得了突破。

受自然語言處理中transformer 功能的啟發,近年來研究人員將transformer 擴展到計算機視覺任務中。CNN曾經是視覺應用的基礎組件[47,103],但transformer作為CNN的替代品正在表現出它的能力。Chen等人[18]訓練序列轉換器進行自回歸預測像素,實現與CNN在圖像分類任務上的相匹配結果。ViT是Dosovitskiy等人[31]最近提出的一種視覺transformer 模型,它將純transformer 直接應用于圖像貼片序列,在多個圖像識別基準上獲得了最先進的性能。除了基本的圖像分類,transformer還被用于解決更多的計算機視覺問題,如目標檢測[14,155]、語義分割、圖像處理和視頻理解。由于其優異的性能,越來越多的基于transformer的模型被提出用于改進各種視覺任務。

基于transformer的視覺模型如雨后春筍般涌現,這讓我們很難跟上新發展的步伐。因此,對現有工作的調研是有益的,對社區是有益的。在本文中,我們對視覺transformer的最新進展進行了全面的概述,并討論了進一步改進的潛在方向。為了獲得更好的存檔并方便不同主題的研究人員,我們按應用場景對transformer模型進行分類,如表1所示。具體來說,主要內容包括基本圖像分類、高級視覺、低級視覺和視頻處理。高級視覺處理圖像中看到的東西的解釋和使用[121],如對象檢測、分割和車道檢測。已經有許多transformer模型解決這些高級視覺任務,如DETR[14],用于目標檢測的變形DETR[155]和用于分割的Max-DeepLab[126]。低級別圖像處理主要涉及從圖像(通常表示為圖像本身)[35]中提取描述,其典型應用包括超分辨率、圖像去噪和樣式轉換。很少有研究[17,92]在低級視覺中使用transformer,需要更多的研究。除了基于圖像的任務外,視頻處理也是計算機視覺的一個重要部分。由于視頻的時序性,transformer自然可以應用于視頻中[154,144]。與傳統的CNN或RNNs相比,Transformer在這些任務上開始表現出具有競爭力的性能。本文對基于Transformer的可視化模型的研究工作進行了綜述,以跟上這一領域的發展步伐。視覺Transformer的開發時間表如圖所示,我們相信會有越來越多的優秀作品被鐫刻在里程碑上。

本文的其余部分組織如下。第二節首先制定了自注意力機制和標準transformer。我們在第三節中描述了在自然語言處理中transformer的方法,因為研究經驗可能有助于視覺任務。接下來,第四部分是本文的主要部分,總結了圖像分類、高級視覺、低級視覺和視頻任務上的視覺變形模型。我們還簡要回顧了CV的自注意力機制和高效Transformer方法,因為它們與我們的主題密切相關。最后,對全文進行了總結,并對今后的研究方向和面臨的挑戰進行了討論。

與卷積神經網絡相比,Transformer 以其優異的性能和巨大的潛力成為計算機視覺領域的研究熱點。為了發現和利用Transformer的效用,正如在調研中總結的那樣,近年來已經提出了一些解決方案。這些方法在基礎圖像分類、高級視覺、低級視覺和視頻處理等視覺任務中表現出優異的性能。然而,計算機視覺Transformer的潛力還沒有被充分發掘,還有一些挑戰有待解決。

雖然研究者們已經提出了許多基于Transformer的模型來處理計算機視覺任務,但這些工作只是初步的解決方案,還有很大的改進空間。例如,ViT[31]的transformer 架構遵循NLP的標準transformer [123]。針對CV的改進版本還有待探索。除此之外,transformer 還需要應用在更多的任務上。

此外,現有的視覺transformer 模型大多是針對單一任務而設計的。許多NLP模型,如GPT-3[10],都顯示了transformer在一個模型中處理多個任務的能力。在CV區域的IPT[17]還能夠處理多個低分辨率的視覺任務,如超分辨率、圖像去噪和去噪。我們認為,只有一種模式可以涉及更多的任務。最后,開發高效的CV轉換器模型也是一個有待解決的問題。transformer 模型通常是巨大的和計算昂貴的,例如,基本的ViT模型[31]需要180億次浮點運算來處理一個圖像。相比之下,輕量級的CNN模型GhostNet[44,45]只需約6億次FLOPs就能達到類似的性能。雖然有幾種壓縮transformer 的方法,但它們的復雜性仍然很大。而這些最初為自然語言處理設計的方法可能并不適用于CV。

付費5元查看完整內容

自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。

//arxiv.org/abs/2011.00362

概述:

隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。

傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。

監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。

生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。

付費5元查看完整內容

當對大量的標記數據集合(如ImageNet)進行訓練時,深度神經網絡展示了它們在特殊監督學習任務(如圖像分類)上的卓越表現。然而,創建這樣的大型數據集需要大量的資源、時間和精力。這些資源在很多實際案例中可能無法獲得,限制了許多深度學習方法的采用和應用。為了尋找數據效率更高的深度學習方法,以克服對大型標注數據集的需求,近年來,我們對半監督學習應用于深度神經網絡的研究興趣日益濃厚,通過開發新的方法和采用現有的半監督學習框架進行深度學習設置。在本文中,我們從介紹半監督學習開始,對深度半監督學習進行了全面的概述。然后總結了在深度學習中占主導地位的半監督方法。

付費5元查看完整內容

?【導讀】圖像分類是計算機視覺中的基本任務之一,深度學習的出現是的圖像分類技術趨于完善。最近,自監督學習與預訓練技術的發展使得圖像分類技術出現新的變化,這篇論文概述了最新在實際情況中少標簽小樣本等情況下,關于自監督學習、半監督、無監督方法的綜述,值得看!

地址:

//www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132

摘要

雖然深度學習策略在計算機視覺任務中取得了突出的成績,但仍存在一個問題。目前的策略嚴重依賴于大量的標記數據。在許多實際問題中,創建這么多標記的訓練數據是不可行的。因此,研究人員試圖將未標記的數據納入到培訓過程中,以獲得與較少標記相同的結果。由于有許多同時進行的研究,很難掌握最近的發展情況。在這項調查中,我們提供了一個概述,常用的技術和方法,在圖像分類與較少的標簽。我們比較了21種方法。在我們的分析中,我們確定了三個主要趨勢。1. 基于它們的準確性,現有技術的方法可擴展到實際應用中。2. 為了達到與所有標簽的使用相同的結果所需要的監督程度正在降低。3.所有方法都共享公共技術,只有少數方法結合這些技術以獲得更好的性能。基于這三個趨勢,我們發現了未來的研究機會。

1. 概述

深度學習策略在計算機視覺任務中取得了顯著的成功。它們在圖像分類、目標檢測或語義分割等各種任務中表現最佳。

圖1: 這張圖說明并簡化了在深度學習訓練中使用未標記數據的好處。紅色和深藍色的圓圈表示不同類的標記數據點。淺灰色的圓圈表示未標記的數據點。如果我們只有少量的標記數據可用,我們只能對潛在的真實分布(黑線)做出假設(虛線)。只有同時考慮未標記的數據點并明確決策邊界,才能確定這種真實分布。

深度神經網絡的質量受到標記/監督圖像數量的強烈影響。ImageNet[26]是一個巨大的標記數據集,它允許訓練具有令人印象深刻的性能的網絡。最近的研究表明,即使比ImageNet更大的數據集也可以改善這些結果。但是,在許多實際的應用程序中,不可能創建包含數百萬張圖像的標記數據集。處理這個問題的一個常見策略是遷移學習。這種策略甚至可以在小型和專門的數據集(如醫學成像[40])上改進結果。雖然這對于某些應用程序來說可能是一個實際的解決方案,但基本問題仍然存在: 與人類不同,監督學習需要大量的標記數據。

對于給定的問題,我們通常可以訪問大量未標記的數據集。Xie等人是最早研究無監督深度學習策略來利用這些數據[45]的人之一。從那時起,未標記數據的使用被以多種方式研究,并創造了研究領域,如半監督、自我監督、弱監督或度量學習[23]。統一這些方法的想法是,在訓練過程中使用未標記的數據是有益的(參見圖1中的說明)。它要么使很少有標簽的訓練更加健壯,要么在某些不常見的情況下甚至超過了監督情況下的性能[21]。

由于這一優勢,許多研究人員和公司在半監督、自我監督和非監督學習領域工作。其主要目標是縮小半監督學習和監督學習之間的差距,甚至超越這些結果。考慮到現有的方法如[49,46],我們認為研究處于實現這一目標的轉折點。因此,在這個領域有很多正在進行的研究。這項綜述提供了一個概述,以跟蹤最新的在半監督,自監督和非監督學習的方法。

大多數綜述的研究主題在目標、應用上下文和實現細節方面存在差異,但它們共享各種相同的思想。這項調查對這一廣泛的研究課題進行了概述。這次調查的重點是描述這兩種方法的異同。此外,我們還將研究不同技術的組合。

2. 圖像分類技術

在這一節中,我們總結了關于半監督、自監督和非監督學習的一般概念。我們通過自己對某些術語的定義和解釋來擴展這一總結。重點在于區分可能的學習策略和最常見的實現策略的方法。在整個綜述中,我們使用術語學習策略,技術和方法在一個特定的意義。學習策略是算法的一般類型/方法。我們把論文方法中提出的每個算法都稱為獨立算法。方法可以分為學習策略和技術。技術是組成方法/算法的部分或思想。

2.1 分類方法

監督、半監督和自我監督等術語在文獻中經常使用。很少有人給出明確的定義來區分這兩個術語。在大多數情況下,一個粗略的普遍共識的意義是充分的,但我們注意到,在邊界情況下的定義是多種多樣的。為了比較不同的方法,我們需要一個精確的定義來區分它們。我們將總結關于學習策略的共識,并定義我們如何看待某些邊緣案例。一般來說,我們根據使用的標記數據的數量和訓練過程監督的哪個階段來區分方法。綜上所述,我們把半監督策略、自我學習策略和無監督學習策略稱為reduced減約監督學習策略。圖2展示了四種深度學習策略。

圖2: 插圖的四個深學習策略——紅色和深藍色的圓圈表示標記數據點不同的類。淺灰色的圓圈表示未標記的數據點。黑線定義了類之間的基本決策邊界。帶條紋的圓圈表示在訓練過程的不同階段忽略和使用標簽信息的數據點。

監督學習 Supervised Learning

監督學習是深度神經網絡圖像分類中最常用的方法。我們有一組圖像X和對應的標簽或類z。設C為類別數,f(X)為X∈X的某個神經網絡的輸出,目標是使輸出與標簽之間的損失函數最小化。測量f(x)和相應的z之間的差的一個常用的損失函數是交叉熵。

遷移學習

監督學習的一個限制因素是標簽的可用性。創建這些標簽可能很昂貴,因此限制了它們的數量。克服這一局限的一個方法是使用遷移學習。

遷移學習描述了訓練神經網絡的兩個階段的過程。第一個階段是在大型通用數據集(如ImageNet[26])上進行有無監督的訓練。第二步是使用經過訓練的權重并對目標數據集進行微調。大量的文獻表明,即使在小的領域特定數據集[40]上,遷移學習也能改善和穩定訓練。

半監督學習

半監督學習是無監督學習和監督學習的混合.

Self-supervised 自監督學習

自監督使用一個借托pretext任務來學習未標記數據的表示。借托pretext任務是無監督的,但學習表征往往不能直接用于圖像分類,必須進行微調。因此,自監督學習可以被解釋為一種無監督的、半監督的或其自身的一種策略。我們將自我監督學習視為一種特殊的學習策略。在下面,我們將解釋我們是如何得出這個結論的。如果在微調期間需要使用任何標簽,則不能將該策略稱為無監督的。這與半監督方法也有明顯的區別。標簽不能與未標記的數據同時使用,因為借托pretext任務是無監督的,只有微調才使用標簽。對我們來說,將標記數據的使用分離成兩個不同的子任務本身就是一種策略的特征。

2.2 分類技術集合

在減少監督的情況下,可以使用不同的技術來訓練模型。在本節中,我們將介紹一些在文獻中多種方法中使用的技術。

一致性正則化 Consistency regularization

一個主要的研究方向是一致性正則化。在半監督學習過程中,這些正則化被用作數據非監督部分的監督損失的附加損失。這種約束導致了改進的結果,因為在定義決策邊界時可以考慮未標記的數據[42,28,49]。一些自監督或無監督的方法甚至更進一步,在訓練中只使用這種一致性正則化[21,2]。

虛擬對抗性訓練(VAT)

VAT[34]試圖通過最小化圖像與轉換后的圖像之間的距離,使預測不受小轉換的影響。

互信息(MI)

MI定義為聯合分布和邊緣分布[8]之間的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通過最小化熵[15]來提高半監督學習的輸出預測。

Overclustering

過度聚類在減少監督的情況下是有益的,因為神經網絡可以自行決定如何分割數據。這種分離在有噪聲的數據中或在中間類被隨機分為相鄰類的情況下是有用的。

Pseudo-Labels

一種估計未知數據標簽的簡單方法是偽標簽

3. 圖像分類模型

3.1 半監督學習

 四種選擇的半監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的藍色方框中給出。在右側提供了該方法的說明。一般來說,這個過程是自上而下組織的。首先,輸入圖像經過無或兩個不同的隨機變換預處理。自動增廣[9]是一種特殊的增廣技術。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的,但是共享公共部分。所有的方法都使用了標記和預測分布之間的交叉熵(CE)。所有的方法還使用了不同預測輸出分布(Pf(x), Pf(y))之間的一致性正則化。

3.2 自監督學習

四種選擇的自我監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的紅色方框中給出。在右側提供了該方法的說明。微調部分不包括在內。一般來說,這個過程是自上而下組織的。首先,對輸入圖像進行一兩次隨機變換預處理或分割。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的。AMDIM和CPC使用網絡的內部元素來計算損失。DeepCluster和IIC使用預測的輸出分布(Pf(x)、Pf(y))來計算損耗

3.3 21種圖像分類方法比較

21種圖像分類方法及其使用技術的概述——在左側,第3節中回顧的方法按學習策略排序。第一行列出了在2.2小節中討論過的可能的技術。根據是否可以使用帶標簽的數據,將這些技術分為無監督技術和有監督技術。技術的縮寫也在第2.2小節中給出。交叉熵(Cross-entropy, CE)將CE的使用描述為訓練損失的一部分。微調(FT)描述了交叉熵在初始訓練后(例如在一個借口任務中)對新標簽的使用。(X)指該技術不是直接使用,而是間接使用。個別的解釋由所指示的數字給出。1 - MixMatch通過銳化預測[3],隱式地實現了熵最小化。2 - UDA預測用于過濾無監督數據的偽標簽。3 -盡量減少相互信息的目的作為借口任務,例如視圖之間的[2]或層之間的[17]。4 -信息的丟失使相互信息間接[43]最大化。5 - Deep Cluster使用K-Means計算偽標簽,以優化分配為借口任務。6 - DAC使用元素之間的余弦距離來估計相似和不相似的項。可以說DAC為相似性問題創建了偽標簽。

4. 實驗比較結果

報告準確度的概述——第一列說明使用的方法。對于監督基線,我們使用了最好的報告結果,作為其他方法的基線。原始論文在準確度后的括號內。第二列給出了體系結構及其參考。第三列是預印本的出版年份或發行年份。最后四列報告了各自數據集的最高準確度分數%。

5 結論

在本文中,我們概述了半監督、自監督和非監督技術。我們用21種不同的方法分析了它們的異同和組合。這項分析確定了幾個趨勢和可能的研究領域。

我們分析了不同學習策略(半監督學習策略、自監督學習策略和無監督學習策略)的定義,以及這些學習策略中的常用技術。我們展示了這些方法一般是如何工作的,它們使用哪些技術,以及它們可以被歸類為哪種策略。盡管由于不同的體系結構和實現而難以比較這些方法的性能,但我們確定了三個主要趨勢。

ILSVRC-2012的前5名正確率超過90%,只有10%的標簽表明半監督方法適用于現實問題。然而,像類別不平衡這樣的問題并沒有被考慮。未來的研究必須解決這些問題。

監督和半監督或自監督方法之間的性能差距正在縮小。有一個數據集甚至超過了30%。獲得可與全監督學習相比的結果的標簽數量正在減少。未來的研究可以進一步減少所需標簽的數量。我們注意到,隨著時間的推移,非監督方法的使用越來越少。這兩個結論使我們認為,無監督方法在未來的現實世界中對圖像分類將失去意義。

我們的結論是,半監督和自監督學習策略主要使用一套不同的技術。通常,這兩種策略都使用不同技術的組合,但是這些技術中很少有重疊。S4L是目前提出的唯一一種消除這種分離的方法。我們確定了不同技術的組合有利于整體性能的趨勢。結合技術之間的微小重疊,我們確定了未來可能的研究機會。

參考文獻:

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.

[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.

[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.

付費5元查看完整內容
北京阿比特科技有限公司