亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

合成孔徑雷達(SAR)圖像中基于人類的目標檢測是復雜的、技術性的、費力的、緩慢的,但時間很關鍵,是機器學習(ML)的完美應用。訓練一個用于目標檢測的ML網絡需要非常大的圖像數據集,這些數據集中嵌入了準確和精確標記的目標。不幸的是,不存在這樣的SAR數據集。因此,本文提出一種方法,通過結合兩個現有的數據集來合成寬視場(FOV)SAR圖像: SAMPLE,由真實和合成的單物體芯片組成,以及MSTAR雜波,由真實的寬視場SAR圖像組成。合成目標使用基于閾值的分割從SAMPLE中提取,然后再與MSTAR雜波中的斑塊進行α-混合。為了驗證新的合成方法,使用一個簡單的卷積神經網絡(CNN)創建了單個物體芯片并進行了分類;針對測量的SAMPLE子集進行測試。還開發了一種新穎的技術來研究深層的訓練活動。擬議的數據增強技術使測量的SAR圖像分類的準確性增加了17%。這一改進表明,來自分割和混合的任何殘余偽影都不會對ML產生負面影響,這對于未來在廣域SAR合成中的使用是很有希望的。

"在MSTAR數據收集期間拍攝的M1的EO圖像(a,c)和同一車輛的真實CAD模型(b,d)從兩個角度進行了比較。請注意,即使是小的細節,如火炮的位置、艙門和車輛側面的電纜,在兩張圖像之間也很一致。提供CAD模型的顏色是為了識別零件組裝,并不表示任何影響電磁模擬的具體屬性" [10]。

"SAMPLE數據集中每個飛行器的一個圖像的例子。測量的MSTAR圖像在最上面一行,相應的合成圖像在最下面一行....,我們看到諸如陰影、方向和相對回波幅度等細節都很一致"[10]。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

神經網絡(NNs)很容易受到對抗性樣本的影響,大量的研究旨在對其檢測。然而,檢測對抗性樣本并不容易,即使在網絡中構建了新的損失函數。在這項研究中,我們引入了對抗性混合(AdvMix)網絡,這是一個在現有類別基礎上增加一個非上述(NOTA)類別的神經網絡,以隔離存在對抗性樣本的空間。我們研究了AdvMix在提高在深度神經網絡上訓練的模型的魯棒性方面的有效性,通過檢測它們來對抗對抗性攻擊。我們實驗了各種數據增強技術,并訓練了九個不同的模型。我們的研究結果表明,使用AdvMix網絡可以顯著提高模型對抗各種攻擊的性能,同時在良性樣本上取得更好的準確性。我們能夠將香草模型的準確性從91%提高到95%,并提高模型的魯棒性。在許多情況下,我們能夠消除模型對一些流行和有效的攻擊的脆弱性。

付費5元查看完整內容

本文探索了一類新的基于transformer架構的擴散模型。訓練圖像的潛在擴散模型,用一個在潛在塊上操作的transformer取代常用的U-Net骨干。通過Gflops測量的前向傳遞復雜性來分析擴散transformer (DiTs)的可擴展性。具有較高Gflops的DiTs——通過增加transformer深度/寬度或增加輸入tokens 數量——始終具有較低的FID。除了具有良好的可擴展性,最大的DiT-XL/2模型在類條件ImageNet 512x512和256x256基準上的性能優于所有先驗的擴散模型,在后者上實現了最先進的FID 2.27。 //www.wpeebles.com/DiT

1. 引言

在transformers的推動下,機器學習正在復興。在過去的五年中,自然語言處理[8,39]、視覺[10]和其他幾個領域的神經架構在很大程度上被transformer[57]所涵蓋。然而,許多類別的圖像級生成模型仍然堅持這一趨勢,盡管transformer在自回歸模型中被廣泛使用[3,6,40,44],但在其他生成模型框架中被采用的較少。例如,擴散模型一直處于圖像級生成模型最新進展的前沿[9,43];然而,它們都采用卷積U-Net架構作為事實上的骨干選擇。

Ho等人的開創性工作[19]首先為擴散模型引入了U-Net主干。設計選擇繼承自PixelCNN++[49,55],一個自回歸生成模型,有一些架構上的變化。該模型是卷積的,主要由ResNet[15]塊組成。與標準的U-Net[46]相比,額外的空間自注意力塊(transformer中的重要組成部分)在較低的分辨率下穿插。Dhariwal和Nichol[9]消除了U-Net的幾個架構選擇,例如使用自適應歸一化層[37]來注入條件信息和卷積層的通道計數。然而,Ho等人提出的U-Net的高層設計在很大程度上保持不變。

**本文旨在揭開擴散模型中結構選擇的意義,并為未來的生成式建模研究提供經驗基線。**U-Net歸納偏差對擴散模型的性能不是至關重要的,可以很容易地被transformer等標準設計取代。因此,擴散模型很好地從最近的架構統一趨勢中獲益。通過繼承其他領域的最佳實踐和訓練秘訣,以及保留可擴展性、魯棒性和效率等良好特性。標準化的架構也將為跨領域研究開辟新的可能性。

本文關注一類新的基于transformer的擴散模型。我們稱它們為擴散transformer,或簡稱DiTs。DiTs遵循視覺transformer (vit)[10]的最佳實踐,已被證明比傳統卷積網絡(如ResNet[15])更有效地擴展視覺識別。

本文研究了transformer的擴展行為,即網絡復雜性與樣本質量之間的關系。通過在潛擴散模型(LDMs)[45]框架下構建DiT設計空間并對其進行基準測試,其中擴散模型是在VAE的潛空間中訓練的,可以成功地用transformer取代U-Net主干。DiTs是擴散模型的可擴展架構:網絡復雜性(由Gflops衡量)與樣本質量(由FID衡量)之間有很強的相關性。通過簡單地擴大DiT并訓練具有高容量骨干(118.6 Gflops)的LDM,能夠在有類條件的256 × 256 ImageNet生成基準上取得2.27 FID的最新結果。

Diffusion x Transformers

在過去的一年里,擴散模型在圖像生成方面取得了驚人的成果。幾乎所有這些模型都使用卷積U-Net作為骨干。這有點令人驚訝!在過去的幾年里,深度學習的主要故事是transformer在各個領域的主導地位。U-Net或卷積是否有什么特別之處——使它們在擴散模型中工作得如此好?

本文將潛在擴散模型(LDMs)中的U-Net骨干替換為transformer。我們稱這些模型為擴散transformer,或簡稱DiTs。DiT架構非常類似于標準的視覺Transformer (ViT),有一些小但重要的調整。擴散模型需要處理條件輸入,如擴散時間步或類標簽。我們嘗試了一些不同的模塊設計來注入這些輸入。最有效的是具有自適應層norm層(adaLN)的ViT塊。重要的是,這些adaLN層還調制塊內任何殘差連接之前的激活,并被初始化為每個ViT塊都是identity函數。簡單地改變注入條件輸入的機制就會在FID方面產生巨大的差異。這是我們獲得良好性能所需的唯一更改;除此之外,DiT是一個相當標準的transformer模型。

Scaling DiT

可視化放大DiT的效果。我們使用相同的采樣噪聲,在400K訓練步驟中從所有12個DiT模型生成圖像。計算密集型的DiT模型具有更高的樣本質量。 眾所周知,transformer在各種領域都具有良好的擴展性。那么作為擴散模型呢?本文將DiT沿兩個軸進行縮放:模型大小和輸入標記數量。

*擴展模型大小。我們嘗試了四種不同模型深度和寬度的配置:DiT-S、DiT-B、DiT-L和DiT-XL。這些模型配置范圍從33M到675M參數和0.4到119 Gflops。它們是從ViT文獻中借來的,該文獻發現聯合放大深度和寬度效果很好。

擴展標記。DiT中的第一層是patchify層。Patchify將每個patch線性嵌入到輸入圖像(或在我們的例子中,input latent)中,將它們轉換為transformer token。較小的patch大小對應于大量的transformer token。例如,將patch大小減半會使transformer的輸入token數量增加四倍,從而使模型的總Gflops至少增加四倍。盡管它對Gflops有巨大的影響,但請注意,patch大小對模型參數計數沒有意義的影響。

對于我們的四個模型配置中的每一個,我們訓練三個模型,潛塊大小為8、4和2(共12個模型)。Gflop 最高的模型是DiT-XL/2,它使用最大的XL配置,patch大小為2。

通過Fréchet Inception Distance (FID)測量,擴展模型大小和輸入tokens 數量可以大大提高DiT的性能。正如在其他領域觀察到的那樣,計算(而不僅僅是參數)似乎是獲得更好模型的關鍵。例如,雖然DiT-XL/2獲得了優秀的FID值,但XL/8表現不佳。XL/8的參數比XL/2多一些,但Gflops少得多。較大的DiT模型相對于較小的模型是計算效率高的;較大的模型比較小的模型需要更少的訓練計算來達到給定的FID(詳細信息請參見論文)。

根據我們的擴展分析,當訓練時間足夠長時,DiT-XL/2顯然是最佳模型。在本文的其余部分,我們將專注于XL/2。

與最新擴散模型的比較

從我們的DiT-XL/2模型中選擇的樣本,以512x512分辨率(頂部行)和256x256分辨率(底部)進行訓練。在這里,我們使用無分類器指導規模,對512模型使用6.0,對256模型使用4.0。 我們在ImageNet上訓練了兩個版本的DiT-XL/2,分辨率分別為256x256和512x512,步驟分別為7M和3M。當使用無分類器指導時,DiT-XL/2優于所有先驗擴散模型,將LDM (256x256)取得的3.60的之前最好的FID-50K降低到2.27;這是所有生成模型中最先進的。XL/2在512x512分辨率下再次優于所有先前的擴散模型,將ADM-U之前獲得的最佳FID 3.85提高到3.04。

除了獲得良好的FIDs外,DiT模型本身相對于基線仍然是計算高效的。例如,在256x256分辨率下,LDM-4模型是103 Gflops, ADM-U是742 Gflops, DiT-XL/2是119 Gflops。在512x512分辨率下,ADM-U是2813 Gflops,而XL/2只有525 Gflops。

付費5元查看完整內容

計算機視覺中的一項挑戰性任務是尋找技術來提高用于處理移動空中平臺所獲圖像的機器學習(ML)模型的目標檢測和分類能力。目標的檢測和分類通常是通過應用有監督的ML技術完成的,這需要標記的訓練數據集。為這些訓練數據集收集圖像是昂貴而低效的。由于一般不可能從所有可能的仰角、太陽角、距離等方面收集圖像,這就導致了具有最小圖像多樣性的小型訓練數據集。為了提高在這些數據集上訓練的監督性ML模型的準確性,可以采用各種數據增強技術來增加其規模和多樣性。傳統的數據增強技術,如圖像的旋轉和變暗,在修改后的數據集中沒有提供新的實例或多樣性。生成對抗網絡(GAN)是一種ML數據增強技術,它可以從數據集中學習樣本的分布,并產生合成的復制,被稱為 "深度偽造"。這項研究探討了GAN增強的無人駕駛飛行器(UAV)訓練集是否能提高在所述數據上訓練的檢測模型的可推廣性。為了回答這個問題,我們用描述農村環境的航空圖像訓練集來訓練"你只看一次"(YOLOv4-Tiny)目標檢測模型。使用各種GAN架構重新創建幀中的突出目標,并將其放回原始幀中,然后將增強的幀附加到原始訓練集上。對航空圖像訓練集的GAN增強導致YOLOv4-微小目標檢測模型的平均平均精度(mAP)平均增加6.75%,最佳情況下增加15.76%。同樣,在交叉聯合(IoU)率方面,平均增加了4.13%,最佳情況下增加了9.60%。最后,產生了100.00%的真陽性(TP)、4.70%的假陽性(FP)和零的假陰性(FN)檢測率,為支持目標檢測模型訓練集的GAN增強提供了進一步證據。

引言

對從移動平臺上獲得的數據進行圖像和視頻分類技術的調查,目前是計算機視覺領域中一個越來越受關注的領域。由空中飛行器收集的圖像對于收集信息和獲得對環境的洞察力非常重要,否則在地面上的評估是無法實現的。對于訓練目標檢測模型來說,用于創建這些模型的訓練集的一個重要特征是這些訓練集必須在其圖像中包含廣泛的細節多樣性。過去的數據增強技術,例如旋轉、添加噪音和翻轉圖像,被用來增加訓練集的多樣性,但由于它們無法向數據集添加任何新的圖像,所以是弱的方法。研究新的圖像增強和分類方法,其中包括機器學習(ML)技術,有助于提高用于航空圖像分類的模型的性能。

1.1 背景與問題陳述

1.1.1 背景

最近,使用ML算法對圖像進行分類或預測的情況越來越多。雖然ML已經被使用了幾十年,但在圖像上,我們看到合理的進展是在過去的20年里。隨著信息收集和存儲的技術進步及其可及性的擴大,可用于分析的數據量正以指數級的速度增長。計算機的隨機存取存儲器(RAM)和硬件存儲的增加迎合了擁有巨大的數據集來訓練、測試和驗證ML模型以實現較低的偏差和變異的需要。技術上的其他進步來自于計算機圖形處理單元(GPU)的改進,它允許以更快的速度處理大量的數據,這是實時圖像處理的兩個重要能力[2]。

人工神經網絡(ANNs)是ML的一個子集,其靈感來自于大腦中神經元的生物結構,旨在解決復雜的分類和回歸問題[3]。深度學習是ANNs的一個子集,它創建了多個相互連接的層,以努力提供更多的計算優勢[3]。卷積神經網絡(CNN)是ANN的一個子集,它允許自動提取特征并進行統一分類。一般來說,CNN和ANN需要有代表性的數據,以滿足操作上的需要,因此,由于現實世界中的變化,它們往往需要大量的數據。雖然在過去的十年中收集了大量的數據,但微不足道和不平衡的訓練數據集的問題仍然阻礙著ML模型的訓練,導致糟糕的、有偏見的分類和分析。相對較小的數據集導致了ML模型訓練中的過擬合或欠擬合。過度擬合的模型在訓練數據上顯示出良好的性能,但在模型訓練完成后,卻無法推廣到相關的真實世界數據。通過提供更大、更多樣化的訓練數據集,以及降低模型的復雜性和引入正則化,可以避免模型過擬合[4]。

過度擬合的模型不能學習訓練集的特征和模式,并對類似的真實世界數據做出不準確的預測。增加模型的復雜性可以減少欠擬合的影響。另一個克服模型欠擬合的方法是減少施加在模型上的約束數量[4]。有很多原因可以說明為什么大型、多樣的圖像集對訓練模型以檢測視頻幀中捕獲的目標很有用。當視頻取自移動平臺,如無人機或汽車時,存在Bang等人[5]所描述的進一步問題。首先,一天中拍攝圖像的時間以及天氣狀況都會影響亮度和陰影。其次,移動平臺收集的圖像有時會模糊和失真,這是因為所使用的相機類型以及它如何被移動平臺的推進系統投射的物理振動所影響。移動平臺的高度、太陽角度、觀察角度、云層和距離,以及目標的顏色/形狀等,都會進一步導致相機采集的樣本出現扭曲的影響。研究人員忽視這些參數的傾向性會導致模型在面對不同的操作數據時容易崩潰。這些因素使得我們有必要收集大量包含各種特征、圖像不規則性和扭曲的視頻幀,以復制在真實世界的圖像收集中發現的那些特征,從而訓練一個強大的目標檢測和分類模型。

為了增加圖像的多樣性,希望提高在數據上訓練的分類模型的結果準確性,可以使用數據增強技術來扭曲由無人駕駛飛行器(UAV)收集的圖像。目前的一些數據增強技術包括翻轉、旋轉或扭曲圖像的顏色。雖然這些增強技術可以在數據集中引入更多的多樣性,但它們無法為模型的訓練提供全新的框架實例。

生成性對抗網絡(GAN)是一種ML技術,它從數據集的概率分布和特征中學習,以生成數據集的新的合成實例,稱為 "深度假象"。GAN的實現是一種更強大的數據增強技術,因為它為訓練集增加了新的、從未見過的實例,這些實例仍然是可信的,并能代表原生群體。為ML模型提供這種新的訓練實例,可以使模型在實際操作環境中用于檢測時更加強大。

1.1.2 問題說明

圖像采集面臨的一個普遍問題是沒有收集足夠大和多樣化的訓練和測試數據集來產生高效的ML模型。這些微不足道的訓練集所顯示的多樣性的缺乏,使模型在用于實時檢測時表現很差。找到增加這些數據集的方法,無論是通過額外的數據收集還是其他方法,對于創建一個強大的、可歸納的模型都很重要。

計算機視覺中的第二個問題是傳統的數據增強技術所產生的圖像多樣性增加不足。通過旋轉、翻轉或調暗每一個收集到的視頻幀來增強數據集,不能為訓練集增加任何額外的實例,這與上面提到的第一個問題相矛盾。需要找到一種新的數據增強技術,在不需要收集更多數據的情況下提供新的實例,這對于快速訓練檢測模型以便在快速變化的操作環境中部署非常重要。

1.2 研究問題

本研究試圖回答以下問題:

1.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高卷積神經網絡(CNN)目標檢測模型的分類精度和可推廣性?

2.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高CNN目標檢測模型的定位和通用性?

3.從未增強的數據集和增強的數據集中可以得出什么推論,顯示它們的相似性和不相似性?

提供支持第一和第二個問題的證據可以改變數據科學家進行數據收集的方式,并將他們的努力轉向使用GAN的增強技術來創建用于ML研究的數據集。該模型不僅要能夠對目標進行分類,而且要訓練一個強大的目標檢測模型,使其能夠在圖像中找到感興趣的目標,并具有較高的交叉聯合(IoU)值,這就驗證了該模型能夠找到移動的目標,這些目標在捕獲的幀中的位置各不相同。一個模型的泛化是指該模型對網絡從未見過的輸入進行準確預測和分類的能力[6]。增強的數據集必須在質量和數量上與原始數據集相似,以證明模型泛化能力增強的斷言。

對最后一個問題的回答提供了理由,即來自GAN的增強對象在性質上是否與原始樣本相似,并且是對現實世界環境中發現的東西的合理復制。同類目標之間的高相似率可能會使GAN增強變得脆弱,需要進一步研究以用于實際應用。

1.3 研究的局限性

本研究的最大限制之一是能否獲得適當的硬件和軟件來實現不同的ML算法。雖然ML模型可以在中央處理器(CPU)上執行,但本論文中的模型在單個CPU上運行需要幾天,甚至幾周的時間。在運行深度學習模型時,GPU的效率要高得多,尤其是那些為圖像探索設計的模型。在整個研究過程中,GPU的使用非常有限,這給CNN和GAN模型的復雜性增加了限制,也增加了每個模型完成訓練迭代的時間。模型不可能同時運行,大大增加了本論文的完成時間。

另一個限制是本研究過程中可用的內存和硬盤內存的數量。內存不足進一步導致了模型復雜性的下降,以及模型在研究的訓練和測試過程中某一時刻可以利用的數據量的下降。這兩個模型組成部分的減少會導致次優模型。在這項研究中,我們采取了一些措施來減輕這些影響,包括選擇參數較少但性能與較復雜的模型相同的高水平的模型。此外,在訓練和測試過程中,將數據集劃分為多個批次,有助于緩解RAM和硬盤內存問題。

1.4 論文組織

本章討論了本論文將集中研究的ML的一般領域,以及概述了ML研究中出現的好處和限制。第2章提供了一個文獻回顧,研究了CNNs和GANs的理論。此外,它還提供了使用CNNs、GANs和從無人機收集的圖像幀進行的相關研究。第3章詳細介紹了數據集增強前后的CNN檢測模型的訓練過程。第4章提供了用于增強訓練集的合成目標的細節。第5章介紹了在原始和增強的訓練集上訓練的最佳模型的評估結果。第6章概述了在原始測試集訓練結束后進行的三個不同實驗的方法。第7章回顧了這三個不同實驗的結果。最后,第8章討論了從結果中得出的結論,以及對使用生成性對抗網絡(GANs)對移動平臺獲取的圖像進行數據增強領域的未來研究建議。

付費5元查看完整內容

目標檢測是計算機視覺和圖像處理中的一項基本任務。目前,基于深度學習的目標檢測器已經成功地獲得了大量的標記數據。但在現實生活中,并不能保證每個對象類別都有足夠的標記樣本進行訓練。這些大型目標檢測器在訓練數據有限的情況下容易出現過擬合。因此,有必要將少樣本學習和零樣本學習引入目標檢測中,兩者可以統稱為低樣本目標檢測。低樣本目標檢測(Low-Shot Object Detection, LSOD)旨在從少量甚至零標記數據中檢測目標,可分為少樣本目標檢測(few-shot Object Detection, FSOD)和零樣本目標檢測(zero-shot Object Detection, ZSD)。本文對基于FSOD和ZSD的深度學習進行了全面的研究。首先,本綜述將FSOD和ZSD的方法分為不同的類別,并討論了它們的優缺點。其次,本綜述回顧了FSOD和ZSD的數據集設置和評估指標,然后分析了不同方法在這些基準上的性能。最后,本綜述討論了FSOD和ZSD未來面臨的挑戰和發展方向。

引言

目標檢測是計算機視覺中一項基礎而又具有挑戰性的任務,它的目標是在圖像中定位特定類別的目標。目標檢測已廣泛應用于許多計算機視覺任務中,如目標跟蹤[88]、圖像標注[67]、場景圖生成[72]等。目標檢測的一般過程是為一組包圍框(圖像中參考的假想矩形)預測類別。大多數傳統方法通過在整個圖像中滑動一個窗口來生成這些邊界框。Viola-Jones (VJ)檢測器[74]首次采用積分圖像、特征選擇和檢測級聯三種加速技術實現了人臉的實時檢測。隨后提出了直方圖定向梯度(histogram of oriented gradient, HOG)[12],并被許多目標檢測器用于特征描述。在這些方法中,基于變形部件的模型[16]是一種典型的方法。DPM將一個對象檢測任務劃分為多個細粒度的檢測任務,然后使用多個部分過濾器檢測對象部件,并將其聚合起來進行最終預測。雖然人們已經做了很多改進,但傳統的方法受到速度慢、精度低的限制。

與傳統方法相比,深度方法能夠以更有效的圖像特征實現更強的性能。R-CNN[21]是基于深度學習方法的最具代表性的工作之一。它使用選擇性搜索獲得區域建議(即圖像中更可能包含目標的區域),然后使用預訓練好的CNN模型提取其特征,進行進一步的分類和定位。快速R-CNN[20]通過使用感興趣區域(RoI)池化層來從圖像的整個特征圖生成區域建議的特征圖來改進R-CNN。Faster R-CNN[64]進一步提出了一種區域提議網絡(region proposal network, RPN),取代了傳統的通過錨點(即預定義的一定高度和寬度的包圍盒)從整個圖像特征地圖生成區域提議的方法。R-CNN、Fast R-CNN和Faster R-CNN分為兩個階段模型,首先生成區域建議,然后進行預測。為了進一步加速,單階段模型將這兩個過程結合在一起。YOLOstyle目標檢測器[63][3][19]是單級檢測框架的代表模型。根據從原始圖像中提取的特征圖,yolo風格的檢測器直接在圖像的所有位置上預定義多個尺度的錨點,并預測每個錨點的類別概率、位置偏移量和目標置信度。單級檢波器的性能一般不如兩級檢波器,一些方法如焦損耗[47]被提出以減小單級和兩級檢波器之間的性能差距。最近,一種基于transformer的檢測器被提出,命名為DETR[4]。DETR直接將固定數量的目標查詢轉發到transformer中,并對它們進行預測。DETR實現端到端檢測,具有與許多經典探測器相當的性能。為了緩解檢測器收斂緩慢的問題,變形檢測器[103]提出了一個變形注意模塊,它只訪問一個參考點周圍的一小組關鍵采樣點,而UP-DETR[11]提出了一個名為隨機查詢補丁檢測的非監督任務來預訓練檢測器。

然而,這些目標檢測器依賴于大量的訓練數據。在訓練數據不足的情況下,現有的目標檢測器容易過擬合,不能泛化到測試數據。在現實生活中,由于某些目標類別的稀缺或特殊的標簽成本,很難收集到足夠的標簽數據。因此,現代目標檢測器需要具備從少量甚至零標記數據中檢測目標的能力,并將少樣本和零樣本學習引入到目標檢測中。少樣本學習的目的是從少量標記樣本中學習泛化模型。在過去的幾年里,針對少樣本學習提出了很多方法,大致可以分為數據增強方法、元學習方法和遷移學習方法。數據增強方法通過使用傳統的圖像變換方法或基于深度學習的方法(如GAN)生成新樣本,直接解決了數據稀缺問題。元學習方法采用學習到學習的機制,在另一個數據豐富的數據集上定義多個少次任務來訓練模型,使模型能夠快速適應當前的少次任務。與在元學習中使用多個片段進行訓練不同,遷移學習方法的目標是直接學習另一個數據集上的良好圖像表示,并將它們轉移到當前數據集。Work[73]研究了一些用于少量圖像分類的基線遷移學習方法,實驗證明它們優于許多經典的元學習方法。

圖1. 本次綜述的概述。本文對低樣本目標檢測進行了全面的介紹,并將低樣本目標檢測分為單樣本目標檢測、少樣本目標檢測和零樣本目標檢測三個領域。圖中還用三種顏色演示了這三個域的更細粒度的分類,后面的小節將詳細討論這些分類。然后總結了OSOD、FS和ZSD的基準,并比較分析了不同LSOD方法在這些基準上的性能。最后對LSOD的發展方向進行了展望。

以往的少樣本學習方法主要是針對圖像分類的任務進行探索。由于目標檢測需要額外的任務來定位目標,因此,少樣本目標檢測比少樣本圖像分類更具挑戰性。但是FSOD方法繼承了FSL方法的主要思想,FSL方法也可以分為兩種主流方法:元學習方法和遷移學習方法。早期的FSOD方法遵循少樣本學習的元學習方法,主要關注如何結合支持圖像和查詢圖像的特性。這些元學習方法可以分為特征向量聚合方法和特征地圖聚合方法。將遷移學習方法引入到少樣本目標檢測中,在另一個數據集中對檢測器進行預訓練,然后在當前的少樣本數據集中對檢測器進行微調。在遷移學習方法中引入了對比學習、度量學習、正則化等方法。除了原有的標準FSOD設置外,研究者還探索了半監督FSOD、弱監督FSOD和增量FSOD等其他設置。還有一個更有挑戰性的設置,即每個少數樣本類都有零標記樣本,這被稱為零樣本學習(ZSD)。在零概率學習中,每個類都有其語義屬性作為補償。實際上,FSOD和ZSD可以考慮在一個條件下,一些方法[60][33]提出了一個組合模型,同時處理FSOD和ZSD。因此,本次綜述將FSOD和ZSD表示為低樣本目標檢測(LSD)。低樣本目標檢測的層次結構分類法如圖1所示。

本文對現有的少樣本和零樣本目標檢測算法進行了全面的回顧和分析。本文總結了現有的少樣本和零樣本目標檢測算法的性能。本文討論了少樣本和零樣本目標檢測的主要挑戰和未來的發展方向。本文綜述的其余部分組織如下。第二節描述了對少樣本和零樣本目標檢測算法進行更細粒度的分類和分析。第八節描述了常用的少樣本和零樣本目標檢測數據集和評價標準。第九節總結了現有的少樣本和零樣本目標檢測算法的性能。最后,第十一節總結了本次綜述的內容,然后討論了當前方法面臨的主要挑戰和未來的發展方向的少樣本和零樣本目標檢測。

本文對低樣本目標檢測進行了深入的研究,根據每個新類是否使用少量標記樣本或語義屬性,將低樣本目標檢測分為少樣本目標檢測(FSOD)和零樣本目標檢測(ZSD)。首先對低目標檢測方法進行了概括介紹,然后對FSOD和ZSD方法進行了分類和分析。總結了FSOD和ZSD的主要基準,并對不同方法的性能進行了比較。最后討論了FSOD和ZSD的發展方向。

付費5元查看完整內容

預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。

基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。

//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4

該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。

兩種用于表征學習的對比學習范式的概念描述圖。

現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。

具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。

付費5元查看完整內容
北京阿比特科技有限公司