亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

異常檢測最新綜述論文

摘要

異常檢測(AD)問題具有重要的意義,近年來引起了許多研究者的關注。

因此,在這一研究領域提出的方法數量穩步增加。AD與重要的計算機視覺和圖像處理任務(如圖像/視頻異常、不規則和突發事件檢測)密切相關。最近,深度神經網絡(DNNs)提供了一組高性能的解決方案,但代價是高昂的計算成本。然而,在前面提出的方法和可應用的實際方法之間有一個明顯的差距。

考慮到對AD的關注是一個持續的具有挑戰性的問題,尤其是在圖像和視頻中,是時候討論一下試圖處理視覺AD任務的方法的陷阱和前景了。因此,在本次綜述中,我們打算對基于圖像/視頻深度學習的AD方法進行深入調研。并對當前面臨的挑戰和未來的研究方向進行了深入探討。

引言

異常檢測(AD)是指檢測出可用的訓練數據中很少出現甚至不存在的樣本和事件。事實上,AD就是尋找看不見的概念的過程。一般來說,在AD環境中,有大量的數據實例遵循目標類分布,即正常數據。另一方面,屬于分布外類(離群值)的樣本不存在,或者很難訪問,但代價是很高的計算成本。總之,任何未知的分布都可能導致異常,從而導致非常復雜的學習過程。因此,研究人員建議將所有正常數據中的共享概念提取為一個(幾個)參考模型,而不是學習不規則性[Bertini et al., 2012; Sabokrou et al., 2015]。在測試階段,一個實例與該模型的偏差表明它是否是異常。圖1顯示了AD概念的總體草圖。

就數據類型而言,AD任務可能會遇到各種困難。AD算法普遍存在的缺點是: (1)高誤報率: 在大多數AD應用中,檢測異常事件被認為比識別正常數據更為重要和關鍵。例如,在監視系統中,如果只忽略一個異常行為,即將異常檢測為正常事件,就會完全損害監視系統的可靠性和安全性。因此,為了自信地檢測出所有的離群值,容忍更多一點的假陽性率是合理的。然而,高的誤報率帶來了不可靠和無效,(2) 高的計算成本: 以前的大多數工作過于復雜,無法在現實應用中快速而恰當地進行操作,(3) 標準數據集無法用于評估: 可用數據集與現實情況相差甚遠。事實上,為了全面研究該研究領域提出的解決方案,獲得更真實和有代表性的數據集是至關重要的。上述缺點證實AD任務面臨著若干需要有效解決的持續挑戰。此外,最近提出的方法只關注簡單場景中的性能。考慮圖像/視頻AD方法的不同方面是一個關鍵的步驟,以改善目前的尖端技術。

受深度神經網絡(DNNs)在不同研究領域的巨大成功的啟發,一系列基于深度學習的解決方案被提出來處理AD任務。他們中的一些人取得了很大的成績。然而,實現和再現性方面的困難,特別是基于生成對抗網絡(GANs)的困難[Goodfellow等人,2014a],以及高計算開銷仍然被認為是嚴重的挑戰。調查的范圍。到目前為止,已經提供了一些信息豐富和有價值的調查。我們簡要地提一下這一領域的一些最新作品。[Chlapathy and Chawla, 2019]關注深度AD用于不同的任務,如入侵檢測系統、視頻監控、醫療等。[Ruff et al., 2019]提出了深度AD的框架以及一般半監督的深度AD問題的實驗場景。針對視頻AD的不同深度學習檢測技術已由[Suarez and Naval Jr, 2020]涵蓋。

為了彌補現有的差距,我們提出了一種新的基于深度學習的圖像/視頻AD分類方法。我們強調無監督方法,因為他們的普遍性,適用性在現實問題和日益流行。在具體研究了每一種類別和最新的方法之后,我們表達了圖像/視頻AD任務中具有挑戰性的方面、開放的問題和未來工作的有效方向。

付費5元查看完整內容

相關內容

在數據挖掘中,異常檢測(英語:anomaly detection)對不符合預期模式或數據集中其他項目的項目、事件或觀測值的識別。通常異常項目會轉變成銀行欺詐、結構缺陷、醫療問題、文本錯誤等類型的問題。異常也被稱為離群值、新奇、噪聲、偏差和例外。 特別是在檢測濫用與網絡入侵時,有趣性對象往往不是罕見對象,但卻是超出預料的突發活動。這種模式不遵循通常統計定義中把異常點看作是罕見對象,于是許多異常檢測方法(特別是無監督的方法)將對此類數據失效,除非進行了合適的聚集。相反,聚類分析算法可能可以檢測出這些模式形成的微聚類。 有三大類異常檢測方法。[1] 在假設數據集中大多數實例都是正常的前提下,無監督異常檢測方法能通過尋找與其他數據最不匹配的實例來檢測出未標記測試數據的異常。監督式異常檢測方法需要一個已經被標記“正常”與“異常”的數據集,并涉及到訓練分類器(與許多其他的統計分類問題的關鍵區別是異常檢測的內在不均衡性)。半監督式異常檢測方法根據一個給定的正常訓練數據集創建一個表示正常行為的模型,然后檢測由學習模型生成的測試實例的可能性。

近年來,從社交媒體平臺、醫學圖像和機器人等各個領域產生和分享了大量的視覺內容。大量的內容創造和分享帶來了新的挑戰。特別是,對相似內容的數據庫進行搜索,即基于內容的圖像檢索(CBIR),是一個長期存在的研究領域,需要更有效和準確的方法來實現實時檢索。人工智能在CBIR方面取得了很大進展,極大地促進了智能搜索的進程。在本綜述論文中,我們組織和回顧了基于深度學習算法和技術的CBIR研究,包括來自近期論文的見解和技術。我們識別并呈現了該領域常用的數據庫、基準和評估方法。我們收集共同的挑戰,并提出有希望的未來方向。更具體地說,我們關注深度學習的圖像檢索,并根據深度網絡結構的類型、深度特征、特征增強方法和網絡微調策略來組織目前最先進的方法。我們的綜述論文查考慮了各種各樣的最新方法,旨在促進基于類別的信息檢索領域的全部視角。

//www.zhuanzhi.ai/paper/01b0e04eb5d1eeb53be30aa761b7cd12

基于內容的圖像檢索(CBIR)是通過分析大型圖庫中的可視內容來搜索語義匹配或相似圖像的問題,給定描述用戶需求的查詢圖像,如圖1(a)所示。CBIR是計算機視覺和多媒體領域長期存在的研究課題[1,2]。隨著當前圖像和視頻數據的指數級增長,迫切需要開發一種合適的信息系統來有效地管理這樣的大型圖像集合,圖像搜索是與可視化集合交互的最不可或缺的技術之一。因此,CBIR的應用潛力幾乎是無限的,如人員再識別[3]、遙感[4]、醫學圖像搜索[5]、在線市場購物推薦[6]等。

CBIR可以大致分為實例級檢索和類別級檢索,如圖1(b)所示。在實例級圖像檢索中,給定一個特定對象或場景(如埃菲爾鐵塔)的查詢圖像,目標是找到包含相同對象或場景的圖像,這些圖像可能在不同的視點、光照條件或受遮擋情況下捕獲[7,8]。相反,對于類別級別的圖像檢索,目標是找到與查詢相同類的圖像(例如,狗、汽車等)。實例級檢索更有挑戰性,也更有前景,因為它滿足許多應用程序的特定目標。請注意,我們將本文的重點限制在實例級的圖像檢索上,如果沒有進一步指定,則認為“圖像檢索”和“實例檢索”是等價的,可以互換使用。

要找到想要的圖像,可能需要在數千張、數百萬張甚至數十億張圖像中搜索。因此,高效搜索與準確搜索同等重要,并為此不斷付出努力[7,8,9,10,11]。為了實現對海量圖像的準確高效檢索,緊湊而豐富的特征表示是CBIR的核心。

近二十年來,圖像特征表示取得了顯著進展,主要包括兩個重要階段: 特征工程和特征學習(特別是深度學習)。在特征工程時代(即前深度學習時代),該領域被具有里程碑意義的手工工程特征描述符所主導,如尺度不變特征變換(SIFT)[19]。特征學習階段,即自2012年開始的深度學習時代,從人工神經網絡開始,特別是ImageNet和深度卷積神經網絡(DCNN) AlexNet[20]的突破。從那以后,深度學習技術影響了廣泛的研究領域,因為DCNNs可以直接從數據中學習具有多層抽象的強大特征表示,繞過了傳統特征工程中的多個步驟。深度學習技術引起了人們的極大關注,并在許多計算機視覺任務中取得了長足的突破,包括圖像分類[20,21,22]、目標檢測[23]、語義分割[24]、圖像檢索[10,13,14]。

[1, 2, 8]對傳統圖像檢索方法進行了優秀的研究。相比之下,本文側重于基于深度學習的方法,我們的工作與其他發表的綜述[8,14,15,16]比較如表1所示。圖像檢索的深度學習包含了如圖2所示的關鍵階段,為了提高檢索的準確性和效率,已經提出了針對一個或多個階段的多種方法。在本綜述中,我們對這些方法進行了全面的詳細介紹,包括深度網絡的結構、特征融合、特征增強方法和網絡微調策略,動機是以下問題一直在推動這一領域的研究:

1)通過只使用現成的模型,深度特征如何勝過手工制作特征?

2)在跨訓練數據集的領域遷移的情況下,我們如何適應現成的模型來維持甚至提高檢索性能?

3)由于深度特征通常是高維的,我們如何有效地利用它們進行高效的圖像檢索,特別是針對大規模數據集?

在基于AlexNet[20]的圖像檢索實現非常成功之后,對檢索任務的DCNNs進行了重要的探索,大致沿循了上述三個問題。也就是說,DCNN方法被分為(1)現成的模型和(2)經過微調的模型,如圖3所示,并并行處理(3)有效的特征。DCNN是現成的還是微調的,取決于DCNN的參數是[25]更新還是基于參數固定的DCNN[25,26,27]。對于特征圖,研究人員提出了R-MAC[28]、CroW[10]、SPoC[7]等編碼和聚合方法。

最近在改進圖像檢索方面的進展可以分為網絡級和特征級兩類,圖4給出了詳細的分類。這項綜述大致包括以下四個范疇:

(1) 網絡架構的改進 (第2節)

利用堆疊線性濾波器(如卷積)和非線性激活函數(ReLU等),不同深度的深度網絡獲得不同層次的特征。層次越深的網絡能夠提供更強大的學習能力,從而提取高層次的抽象和語義感知特征[21,46]。并行地連接多尺度特性是可能的,例如GoogLeNet [47]中的Inception模塊,我們將其稱為“擴展”。

(2) 深度特征提取(3.1節)

FC層和卷積層的神經元具有不同的接受域,這提供了三種提取特征的方法:卷積層的局部特征[7,59],FC層的全局特征[32,60],以及兩種特征的融合[61,62],融合方案包括層級和模型級方法。深度特征可以從整幅圖像中提取,也可以從圖像小塊中提取,分別對應于單通道和多通道的前饋方案。

(3) 深度特征增強

通過特征增強來提高深度特征的判別能力。直接使用深度網絡[17]同時訓練聚合特征;另外,特征嵌入方法包括BoW[63]、VLAD[64]和FV[65]將局部特征嵌入到全局特征中。這些方法分別使用深度網絡(基于codebook)或聯合(無codebook)進行訓練。另外,采用哈希方法[18]將實值特征編碼為二進制碼,提高檢索效率。特征增強策略會顯著影響圖像檢索的效率。

(4) 學習表示的網絡微調(第4節)

在源數據集上預先訓練的用于圖像分類的深度網絡被轉移到新的數據集上進行檢索任務。然而,檢索性能受到數據集之間的域轉移的影響。因此,有必要對深度網絡進行微調到特定的領域[34,56,66],這可以通過有監督的微調方法來實現。然而,在大多數情況下,圖像標記或標注是耗時和困難的,因此有必要開發無監督的方法進行網絡微調。

本文綜述了近年來用于圖像檢索的深度學習方法的研究進展,并根據深度網絡的參數更新,將其分為現成的深度圖像檢索模型和微調模型。

付費5元查看完整內容

視頻中的異常檢測是一個研究了十多年的問題。這一領域因其廣泛的適用性而引起了研究者的興趣。正因為如此,多年來出現了一系列廣泛的方法,這些方法從基于統計的方法到基于機器學習的方法。在這一領域已經進行了大量的綜述,但本文著重介紹了使用深度學習進行異常檢測領域的最新進展。深度學習已成功應用于人工智能的許多領域,如計算機視覺、自然語言處理等。然而,這項調查關注的是深度學習是如何改進的,并為視頻異常檢測領域提供了更多的見解。本文針對不同的深度學習方法提供了一個分類。此外,還討論了常用的數據集以及常用的評價指標。然后,對最近的研究方法進行了綜合討論,以提供未來研究的方向和可能的領域。

//arxiv.org/abs/2009.14146

付費5元查看完整內容

深度學習算法已經在圖像分類方面取得了最先進的性能,甚至被用于安全關鍵應用,如生物識別系統和自動駕駛汽車。最近的研究表明,這些算法甚至可以超越人類的能力,很容易受到對抗性例子的攻擊。在計算機視覺中,與之相對的例子是惡意優化算法為欺騙分類器而產生的含有細微擾動的圖像。為了緩解這些漏洞,文獻中不斷提出了許多對策。然而,設計一種有效的防御機制已被證明是一項困難的任務,因為許多方法已經證明對自適應攻擊者無效。因此,這篇自包含的論文旨在為所有的讀者提供一篇關于圖像分類中對抗性機器學習的最新研究進展的綜述。本文介紹了新的對抗性攻擊和防御的分類方法,并討論了對抗性實例的存在性。此外,與現有的調查相比,它還提供了相關的指導,研究人員在設計和評估防御時應該考慮到這些指導。最后,在文獻綜述的基礎上,對未來的研究方向進行了展望。

//www.zhuanzhi.ai/paper/396e587564dc2922d222cd3ac7b84288

付費5元查看完整內容

當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在連續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。****

付費5元查看完整內容

隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。

付費5元查看完整內容

生成式深度學習算法已經發展到很難區分什么是真實的,什么是虛假的。在2018年,人們發現利用這項技術進行不道德和惡意的應用是多么容易,例如傳播錯誤信息、冒充政治領導人以及誹謗無辜的個人。從那以后,這些“deepfakes”有了顯著的進步。

在本文中,我們將探討deepfakes的創建和檢測,并對這些架構的工作方式提供深入的了解。本次綜述的目的是讓讀者更深入地了解 (1)deepfakes是如何產生和檢測的,(2) 該領域的當前趨勢和進展,(3) 當前防御解決方案的缺點,(4) 需要進一步研究和關注的領域。

//arxiv.org/abs/2004.11138

付費5元查看完整內容

?【導讀】圖像分類是計算機視覺中的基本任務之一,深度學習的出現是的圖像分類技術趨于完善。最近,自監督學習與預訓練技術的發展使得圖像分類技術出現新的變化,這篇論文概述了最新在實際情況中少標簽小樣本等情況下,關于自監督學習、半監督、無監督方法的綜述,值得看!

地址:

//www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132

摘要

雖然深度學習策略在計算機視覺任務中取得了突出的成績,但仍存在一個問題。目前的策略嚴重依賴于大量的標記數據。在許多實際問題中,創建這么多標記的訓練數據是不可行的。因此,研究人員試圖將未標記的數據納入到培訓過程中,以獲得與較少標記相同的結果。由于有許多同時進行的研究,很難掌握最近的發展情況。在這項調查中,我們提供了一個概述,常用的技術和方法,在圖像分類與較少的標簽。我們比較了21種方法。在我們的分析中,我們確定了三個主要趨勢。1. 基于它們的準確性,現有技術的方法可擴展到實際應用中。2. 為了達到與所有標簽的使用相同的結果所需要的監督程度正在降低。3.所有方法都共享公共技術,只有少數方法結合這些技術以獲得更好的性能。基于這三個趨勢,我們發現了未來的研究機會。

1. 概述

深度學習策略在計算機視覺任務中取得了顯著的成功。它們在圖像分類、目標檢測或語義分割等各種任務中表現最佳。

圖1: 這張圖說明并簡化了在深度學習訓練中使用未標記數據的好處。紅色和深藍色的圓圈表示不同類的標記數據點。淺灰色的圓圈表示未標記的數據點。如果我們只有少量的標記數據可用,我們只能對潛在的真實分布(黑線)做出假設(虛線)。只有同時考慮未標記的數據點并明確決策邊界,才能確定這種真實分布。

深度神經網絡的質量受到標記/監督圖像數量的強烈影響。ImageNet[26]是一個巨大的標記數據集,它允許訓練具有令人印象深刻的性能的網絡。最近的研究表明,即使比ImageNet更大的數據集也可以改善這些結果。但是,在許多實際的應用程序中,不可能創建包含數百萬張圖像的標記數據集。處理這個問題的一個常見策略是遷移學習。這種策略甚至可以在小型和專門的數據集(如醫學成像[40])上改進結果。雖然這對于某些應用程序來說可能是一個實際的解決方案,但基本問題仍然存在: 與人類不同,監督學習需要大量的標記數據。

對于給定的問題,我們通常可以訪問大量未標記的數據集。Xie等人是最早研究無監督深度學習策略來利用這些數據[45]的人之一。從那時起,未標記數據的使用被以多種方式研究,并創造了研究領域,如半監督、自我監督、弱監督或度量學習[23]。統一這些方法的想法是,在訓練過程中使用未標記的數據是有益的(參見圖1中的說明)。它要么使很少有標簽的訓練更加健壯,要么在某些不常見的情況下甚至超過了監督情況下的性能[21]。

由于這一優勢,許多研究人員和公司在半監督、自我監督和非監督學習領域工作。其主要目標是縮小半監督學習和監督學習之間的差距,甚至超越這些結果。考慮到現有的方法如[49,46],我們認為研究處于實現這一目標的轉折點。因此,在這個領域有很多正在進行的研究。這項綜述提供了一個概述,以跟蹤最新的在半監督,自監督和非監督學習的方法。

大多數綜述的研究主題在目標、應用上下文和實現細節方面存在差異,但它們共享各種相同的思想。這項調查對這一廣泛的研究課題進行了概述。這次調查的重點是描述這兩種方法的異同。此外,我們還將研究不同技術的組合。

2. 圖像分類技術

在這一節中,我們總結了關于半監督、自監督和非監督學習的一般概念。我們通過自己對某些術語的定義和解釋來擴展這一總結。重點在于區分可能的學習策略和最常見的實現策略的方法。在整個綜述中,我們使用術語學習策略,技術和方法在一個特定的意義。學習策略是算法的一般類型/方法。我們把論文方法中提出的每個算法都稱為獨立算法。方法可以分為學習策略和技術。技術是組成方法/算法的部分或思想。

2.1 分類方法

監督、半監督和自我監督等術語在文獻中經常使用。很少有人給出明確的定義來區分這兩個術語。在大多數情況下,一個粗略的普遍共識的意義是充分的,但我們注意到,在邊界情況下的定義是多種多樣的。為了比較不同的方法,我們需要一個精確的定義來區分它們。我們將總結關于學習策略的共識,并定義我們如何看待某些邊緣案例。一般來說,我們根據使用的標記數據的數量和訓練過程監督的哪個階段來區分方法。綜上所述,我們把半監督策略、自我學習策略和無監督學習策略稱為reduced減約監督學習策略。圖2展示了四種深度學習策略。

圖2: 插圖的四個深學習策略——紅色和深藍色的圓圈表示標記數據點不同的類。淺灰色的圓圈表示未標記的數據點。黑線定義了類之間的基本決策邊界。帶條紋的圓圈表示在訓練過程的不同階段忽略和使用標簽信息的數據點。

監督學習 Supervised Learning

監督學習是深度神經網絡圖像分類中最常用的方法。我們有一組圖像X和對應的標簽或類z。設C為類別數,f(X)為X∈X的某個神經網絡的輸出,目標是使輸出與標簽之間的損失函數最小化。測量f(x)和相應的z之間的差的一個常用的損失函數是交叉熵。

遷移學習

監督學習的一個限制因素是標簽的可用性。創建這些標簽可能很昂貴,因此限制了它們的數量。克服這一局限的一個方法是使用遷移學習。

遷移學習描述了訓練神經網絡的兩個階段的過程。第一個階段是在大型通用數據集(如ImageNet[26])上進行有無監督的訓練。第二步是使用經過訓練的權重并對目標數據集進行微調。大量的文獻表明,即使在小的領域特定數據集[40]上,遷移學習也能改善和穩定訓練。

半監督學習

半監督學習是無監督學習和監督學習的混合.

Self-supervised 自監督學習

自監督使用一個借托pretext任務來學習未標記數據的表示。借托pretext任務是無監督的,但學習表征往往不能直接用于圖像分類,必須進行微調。因此,自監督學習可以被解釋為一種無監督的、半監督的或其自身的一種策略。我們將自我監督學習視為一種特殊的學習策略。在下面,我們將解釋我們是如何得出這個結論的。如果在微調期間需要使用任何標簽,則不能將該策略稱為無監督的。這與半監督方法也有明顯的區別。標簽不能與未標記的數據同時使用,因為借托pretext任務是無監督的,只有微調才使用標簽。對我們來說,將標記數據的使用分離成兩個不同的子任務本身就是一種策略的特征。

2.2 分類技術集合

在減少監督的情況下,可以使用不同的技術來訓練模型。在本節中,我們將介紹一些在文獻中多種方法中使用的技術。

一致性正則化 Consistency regularization

一個主要的研究方向是一致性正則化。在半監督學習過程中,這些正則化被用作數據非監督部分的監督損失的附加損失。這種約束導致了改進的結果,因為在定義決策邊界時可以考慮未標記的數據[42,28,49]。一些自監督或無監督的方法甚至更進一步,在訓練中只使用這種一致性正則化[21,2]。

虛擬對抗性訓練(VAT)

VAT[34]試圖通過最小化圖像與轉換后的圖像之間的距離,使預測不受小轉換的影響。

互信息(MI)

MI定義為聯合分布和邊緣分布[8]之間的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通過最小化熵[15]來提高半監督學習的輸出預測。

Overclustering

過度聚類在減少監督的情況下是有益的,因為神經網絡可以自行決定如何分割數據。這種分離在有噪聲的數據中或在中間類被隨機分為相鄰類的情況下是有用的。

Pseudo-Labels

一種估計未知數據標簽的簡單方法是偽標簽

3. 圖像分類模型

3.1 半監督學習

 四種選擇的半監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的藍色方框中給出。在右側提供了該方法的說明。一般來說,這個過程是自上而下組織的。首先,輸入圖像經過無或兩個不同的隨機變換預處理。自動增廣[9]是一種特殊的增廣技術。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的,但是共享公共部分。所有的方法都使用了標記和預測分布之間的交叉熵(CE)。所有的方法還使用了不同預測輸出分布(Pf(x), Pf(y))之間的一致性正則化。

3.2 自監督學習

四種選擇的自我監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的紅色方框中給出。在右側提供了該方法的說明。微調部分不包括在內。一般來說,這個過程是自上而下組織的。首先,對輸入圖像進行一兩次隨機變換預處理或分割。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的。AMDIM和CPC使用網絡的內部元素來計算損失。DeepCluster和IIC使用預測的輸出分布(Pf(x)、Pf(y))來計算損耗

3.3 21種圖像分類方法比較

21種圖像分類方法及其使用技術的概述——在左側,第3節中回顧的方法按學習策略排序。第一行列出了在2.2小節中討論過的可能的技術。根據是否可以使用帶標簽的數據,將這些技術分為無監督技術和有監督技術。技術的縮寫也在第2.2小節中給出。交叉熵(Cross-entropy, CE)將CE的使用描述為訓練損失的一部分。微調(FT)描述了交叉熵在初始訓練后(例如在一個借口任務中)對新標簽的使用。(X)指該技術不是直接使用,而是間接使用。個別的解釋由所指示的數字給出。1 - MixMatch通過銳化預測[3],隱式地實現了熵最小化。2 - UDA預測用于過濾無監督數據的偽標簽。3 -盡量減少相互信息的目的作為借口任務,例如視圖之間的[2]或層之間的[17]。4 -信息的丟失使相互信息間接[43]最大化。5 - Deep Cluster使用K-Means計算偽標簽,以優化分配為借口任務。6 - DAC使用元素之間的余弦距離來估計相似和不相似的項。可以說DAC為相似性問題創建了偽標簽。

4. 實驗比較結果

報告準確度的概述——第一列說明使用的方法。對于監督基線,我們使用了最好的報告結果,作為其他方法的基線。原始論文在準確度后的括號內。第二列給出了體系結構及其參考。第三列是預印本的出版年份或發行年份。最后四列報告了各自數據集的最高準確度分數%。

5 結論

在本文中,我們概述了半監督、自監督和非監督技術。我們用21種不同的方法分析了它們的異同和組合。這項分析確定了幾個趨勢和可能的研究領域。

我們分析了不同學習策略(半監督學習策略、自監督學習策略和無監督學習策略)的定義,以及這些學習策略中的常用技術。我們展示了這些方法一般是如何工作的,它們使用哪些技術,以及它們可以被歸類為哪種策略。盡管由于不同的體系結構和實現而難以比較這些方法的性能,但我們確定了三個主要趨勢。

ILSVRC-2012的前5名正確率超過90%,只有10%的標簽表明半監督方法適用于現實問題。然而,像類別不平衡這樣的問題并沒有被考慮。未來的研究必須解決這些問題。

監督和半監督或自監督方法之間的性能差距正在縮小。有一個數據集甚至超過了30%。獲得可與全監督學習相比的結果的標簽數量正在減少。未來的研究可以進一步減少所需標簽的數量。我們注意到,隨著時間的推移,非監督方法的使用越來越少。這兩個結論使我們認為,無監督方法在未來的現實世界中對圖像分類將失去意義。

我們的結論是,半監督和自監督學習策略主要使用一套不同的技術。通常,這兩種策略都使用不同技術的組合,但是這些技術中很少有重疊。S4L是目前提出的唯一一種消除這種分離的方法。我們確定了不同技術的組合有利于整體性能的趨勢。結合技術之間的微小重疊,我們確定了未來可能的研究機會。

參考文獻:

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.

[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.

[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.

付費5元查看完整內容

論文題目: Adversarial Attacks and Defenses in Images, Graphs and Text: A Review

簡介: 深度神經網絡(DNN)在不同領域的大量機器學習任務中取得了前所未有的成功。然而,對抗性例子的存在引起了人們對將深度學習應用于對安全性有嚴苛要求的應用程序的關注。因此,人們對研究不同數據類型(如圖像數據、圖數據和文本數據)上的DNN模型的攻擊和防御機制越來越感興趣。近期,來自密歇根州立大學的老師和同學們,對網絡攻擊的主要威脅及其成功應對措施進行系統全面的綜述。特別的,他們在這篇綜述中,針對性的回顧了三種流行數據類型(即、圖像數據、圖數據和文本數據)。

付費5元查看完整內容

零樣本動作識別是近年來備受關注的研究領域,針對圖像和視頻中物體、事件和動作的識別提出了多種方法。由于收集、注釋和標記視頻是一項困難而費力的任務,因此需要一些方法來將實例從模型訓練中不存在的類中分類,特別是在復雜的自動視頻理解任務中。我們發現在文獻中有許多可用的方法,然而,很難對哪些技術可以被認為是最先進的技術進行分類。盡管有一些關于靜止圖像零樣本動作識別的調研和實驗,但是沒有針對視頻的研究。因此,在這篇文章中,我們提出了一個調查的方法,包括技術進行視覺特征提取和語義特征提取,以及學習這些特征之間的映射,特別是零鏡頭動作識別的視頻。我們還提供了一個完整的數據集,實驗和協議的描述,提出了開放的問題和未來的工作方向,這對計算機視覺研究領域的發展至關重要。

付費5元查看完整內容
北京阿比特科技有限公司