亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,從社交媒體平臺、醫學圖像和機器人等各個領域產生和分享了大量的視覺內容。大量的內容創造和分享帶來了新的挑戰。特別是,對相似內容的數據庫進行搜索,即基于內容的圖像檢索(CBIR),是一個長期存在的研究領域,需要更有效和準確的方法來實現實時檢索。人工智能在CBIR方面取得了很大進展,極大地促進了智能搜索的進程。在本綜述論文中,我們組織和回顧了基于深度學習算法和技術的CBIR研究,包括來自近期論文的見解和技術。我們識別并呈現了該領域常用的數據庫、基準和評估方法。我們收集共同的挑戰,并提出有希望的未來方向。更具體地說,我們關注深度學習的圖像檢索,并根據深度網絡結構的類型、深度特征、特征增強方法和網絡微調策略來組織目前最先進的方法。我們的綜述論文查考慮了各種各樣的最新方法,旨在促進基于類別的信息檢索領域的全部視角。

//www.zhuanzhi.ai/paper/01b0e04eb5d1eeb53be30aa761b7cd12

基于內容的圖像檢索(CBIR)是通過分析大型圖庫中的可視內容來搜索語義匹配或相似圖像的問題,給定描述用戶需求的查詢圖像,如圖1(a)所示。CBIR是計算機視覺和多媒體領域長期存在的研究課題[1,2]。隨著當前圖像和視頻數據的指數級增長,迫切需要開發一種合適的信息系統來有效地管理這樣的大型圖像集合,圖像搜索是與可視化集合交互的最不可或缺的技術之一。因此,CBIR的應用潛力幾乎是無限的,如人員再識別[3]、遙感[4]、醫學圖像搜索[5]、在線市場購物推薦[6]等。

CBIR可以大致分為實例級檢索和類別級檢索,如圖1(b)所示。在實例級圖像檢索中,給定一個特定對象或場景(如埃菲爾鐵塔)的查詢圖像,目標是找到包含相同對象或場景的圖像,這些圖像可能在不同的視點、光照條件或受遮擋情況下捕獲[7,8]。相反,對于類別級別的圖像檢索,目標是找到與查詢相同類的圖像(例如,狗、汽車等)。實例級檢索更有挑戰性,也更有前景,因為它滿足許多應用程序的特定目標。請注意,我們將本文的重點限制在實例級的圖像檢索上,如果沒有進一步指定,則認為“圖像檢索”和“實例檢索”是等價的,可以互換使用。

要找到想要的圖像,可能需要在數千張、數百萬張甚至數十億張圖像中搜索。因此,高效搜索與準確搜索同等重要,并為此不斷付出努力[7,8,9,10,11]。為了實現對海量圖像的準確高效檢索,緊湊而豐富的特征表示是CBIR的核心。

近二十年來,圖像特征表示取得了顯著進展,主要包括兩個重要階段: 特征工程和特征學習(特別是深度學習)。在特征工程時代(即前深度學習時代),該領域被具有里程碑意義的手工工程特征描述符所主導,如尺度不變特征變換(SIFT)[19]。特征學習階段,即自2012年開始的深度學習時代,從人工神經網絡開始,特別是ImageNet和深度卷積神經網絡(DCNN) AlexNet[20]的突破。從那以后,深度學習技術影響了廣泛的研究領域,因為DCNNs可以直接從數據中學習具有多層抽象的強大特征表示,繞過了傳統特征工程中的多個步驟。深度學習技術引起了人們的極大關注,并在許多計算機視覺任務中取得了長足的突破,包括圖像分類[20,21,22]、目標檢測[23]、語義分割[24]、圖像檢索[10,13,14]。

[1, 2, 8]對傳統圖像檢索方法進行了優秀的研究。相比之下,本文側重于基于深度學習的方法,我們的工作與其他發表的綜述[8,14,15,16]比較如表1所示。圖像檢索的深度學習包含了如圖2所示的關鍵階段,為了提高檢索的準確性和效率,已經提出了針對一個或多個階段的多種方法。在本綜述中,我們對這些方法進行了全面的詳細介紹,包括深度網絡的結構、特征融合、特征增強方法和網絡微調策略,動機是以下問題一直在推動這一領域的研究:

1)通過只使用現成的模型,深度特征如何勝過手工制作特征?

2)在跨訓練數據集的領域遷移的情況下,我們如何適應現成的模型來維持甚至提高檢索性能?

3)由于深度特征通常是高維的,我們如何有效地利用它們進行高效的圖像檢索,特別是針對大規模數據集?

在基于AlexNet[20]的圖像檢索實現非常成功之后,對檢索任務的DCNNs進行了重要的探索,大致沿循了上述三個問題。也就是說,DCNN方法被分為(1)現成的模型和(2)經過微調的模型,如圖3所示,并并行處理(3)有效的特征。DCNN是現成的還是微調的,取決于DCNN的參數是[25]更新還是基于參數固定的DCNN[25,26,27]。對于特征圖,研究人員提出了R-MAC[28]、CroW[10]、SPoC[7]等編碼和聚合方法。

最近在改進圖像檢索方面的進展可以分為網絡級和特征級兩類,圖4給出了詳細的分類。這項綜述大致包括以下四個范疇:

(1) 網絡架構的改進 (第2節)

利用堆疊線性濾波器(如卷積)和非線性激活函數(ReLU等),不同深度的深度網絡獲得不同層次的特征。層次越深的網絡能夠提供更強大的學習能力,從而提取高層次的抽象和語義感知特征[21,46]。并行地連接多尺度特性是可能的,例如GoogLeNet [47]中的Inception模塊,我們將其稱為“擴展”。

(2) 深度特征提取(3.1節)

FC層和卷積層的神經元具有不同的接受域,這提供了三種提取特征的方法:卷積層的局部特征[7,59],FC層的全局特征[32,60],以及兩種特征的融合[61,62],融合方案包括層級和模型級方法。深度特征可以從整幅圖像中提取,也可以從圖像小塊中提取,分別對應于單通道和多通道的前饋方案。

(3) 深度特征增強

通過特征增強來提高深度特征的判別能力。直接使用深度網絡[17]同時訓練聚合特征;另外,特征嵌入方法包括BoW[63]、VLAD[64]和FV[65]將局部特征嵌入到全局特征中。這些方法分別使用深度網絡(基于codebook)或聯合(無codebook)進行訓練。另外,采用哈希方法[18]將實值特征編碼為二進制碼,提高檢索效率。特征增強策略會顯著影響圖像檢索的效率。

(4) 學習表示的網絡微調(第4節)

在源數據集上預先訓練的用于圖像分類的深度網絡被轉移到新的數據集上進行檢索任務。然而,檢索性能受到數據集之間的域轉移的影響。因此,有必要對深度網絡進行微調到特定的領域[34,56,66],這可以通過有監督的微調方法來實現。然而,在大多數情況下,圖像標記或標注是耗時和困難的,因此有必要開發無監督的方法進行網絡微調。

本文綜述了近年來用于圖像檢索的深度學習方法的研究進展,并根據深度網絡的參數更新,將其分為現成的深度圖像檢索模型和微調模型。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

圖像到圖像轉換(I2I)的目的是在保留內容表示的同時將圖像從源域傳輸到目標域。I2I由于在圖像合成、分割、風格轉換、復原、姿態估計等計算機視覺和圖像處理問題上的廣泛應用,近年來受到越來越多的關注,并取得了巨大的進展。在本文中,我們對近年來發展起來的I2I工作進行了綜述。我們將分析現有I2I工作的關鍵技術,并闡明社區取得的主要進展。此外,我們將闡述I2I對研究和行業社區的影響,并指出在相關領域仍存在的挑戰。

//www.zhuanzhi.ai/paper/5fe5204f7d9eeb37dc385304f9cb9f62

想象一下,如果你拍了一張自拍照,想讓它更有藝術感,就像漫畫家畫的一樣,你怎么能通過電腦自動實現呢?這類研究工作可以概括為圖像到圖像轉換(I2I)問題。通常,I2I的目標是將輸入圖像x從源域A轉換為目標域B,保留內在源內容并轉移外部目標樣式。例如,可以將自拍圖像作為源域,以一些漫畫作為目標域參考,將其“翻譯”為想要的藝術風格圖像。

從上面I2I的基本定義可以看出,將一幅圖像從一個源域轉換到另一個目標域可以涵蓋圖像處理、計算機圖形學、計算機視覺等方面的許多問題。具體來說,I2I已經廣泛應用于語義圖像合成[3],[4],[5],[6],圖像分割[7],[8],[9],風格轉移[2],[10],[11],[12],[13],圖像修復[14],[15],[16],[17],[18],3 d姿勢估計[19],[20],圖像/視頻彩色化[21], [22]、[23]、[24]、[25]、[26],圖像超分辨率[27]、[28],域適配[29]、[30]、[31],卡通生成[22]0、[22]、[22]、[22]、[22]4、[22]5,圖像注冊[22]。我們將在第五節詳細分析和討論這些相關的應用。

本文就圖像到圖像翻譯的研究進展作一綜述。據我們所知,這是第一個概述了I2I的分析、方法和相關應用的論文。具體來說,我們的論文組織如下:

首先,我們簡要介紹了用于圖像-圖像翻譯的兩種最具代表性和最常用的生成模型,以及一些著名的評價指標,然后分析了這些生成模型如何學習表示和獲得想要的翻譯結果。

其次,我們將I2I問題劃分為兩大類任務,即雙域I2I任務和多域I2I任務,每一組I2I任務都出現了大量的I2I工作,對其他研究領域產生了深遠的影響,如圖2所示。

最后但并非最不重要的是,我們按照相同的I2I方法分類,提供了一個完整的I2I應用程序分類,如表1所示。

付費5元查看完整內容

基于內容的圖像檢索旨在針對查詢圖像從大規模數據集中找到相似的圖像。通常利用查詢圖像的代表性特征與數據集圖像之間的相似性對檢索圖像進行排序。在早期,各種手工設計的特征描述符被研究,基于視覺線索如顏色、紋理、形狀等代表圖像。然而,深度學習在過去的十年里已經成為了手工設計功能工程的替代選擇。它自動從數據中學習特征。本文綜述了近十年來基于深度學習的圖像檢索技術的發展。還從不同的角度對現有的最先進的方法進行分類,以便更好地了解進展情況。本綜述所使用的分類方法包括不同監督、不同的網絡、不同的描述符類型和不同的檢索類型。性能分析也使用最先進的方法進行。提出的見解也有利于研究人員觀察進展和做出最佳選擇。本文的研究將有助于利用深度學習進行圖像檢索的進一步研究。

論文: A Decade Survey of Content Based Image Retrieval using Deep Learning //www.zhuanzhi.ai/paper/11f7f2ea558530e3c96c5d71ab1fd477

概述

圖像檢索是一個被廣泛研究的圖像匹配問題,即從數據庫w.r.t中檢索相似的圖像。基本上,利用查詢圖像與數據庫圖像之間的相似度對數據庫圖像按相似度[3]的降序進行排序。因此,任何圖像檢索方法的性能都依賴于圖像之間的相似度計算。理想情況下,兩幅圖像間相似度評分的計算方法應具有鑒別性、魯棒性和有效性。計算兩幅圖像之間相似度最簡單的方法是求兩幅圖像中對應像素的絕對差的和,即L1距離。這種方法也稱為模板匹配。然而,該方法對圖像幾何和光度變化(如平移、旋轉、視點、光照等)的魯棒性不強。利用Corel數據集[4]中同一類別的兩幅圖片和對應的一個窗口的代表性強度值,如圖1所示。該方法的另一個問題是,由于圖像的高維性,導致查找查詢圖像與數據庫圖像之間的相似性需要很高的計算量,因此效率不高。

1.1 基于手工描述符的圖像檢索

為了使檢索對幾何和光度變化具有魯棒性,基于圖像內容計算圖像之間的相似性。基本上,圖像的顏色、紋理、形狀、梯度等內容(即視覺外觀)都以特征描述符[6]的形式表示。對應圖像特征向量之間的相似性被視為圖像之間的相似性。因此,任何基于內容的圖像檢索(CBIR)方法的性能在很大程度上依賴于圖像的特征描述符表示。任何特征描述符表示方法都希望具有識別能力、魯棒性和低維數。圖2說明了描述符函數在魯棒性方面的效果。旋轉和比例混合描述符(RSHD)函數[7]用于顯示從corell數據集[4]獲取的圖像與其旋轉后的版本之間的旋轉不變性。從圖2中可以看出,基于原始強度值的比較是無效的,但是基于描述符的比較是有效的,因為描述符函數能夠從圖像中捕獲相關信息。在基于內容的圖像檢索中,研究了不同的特征描述符表示方法來計算兩幅圖像之間的相似度。特征描述符表示利用了基于需要[18]1、[18]0、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]手動選擇的圖像的視覺線索。這些方法也被稱為手工設計或手工工程的特性描述。此外,這些方法通常是無監督的,因為它們不需要數據來設計特征表示方法。各種研究也不時地進行,以展示基于內容的圖像檢索的進展,包括2000年的[2],2002年的[20],2004年的[21],2006年的[22],2007年的[23],2008年的[24],2014年的[25],2017年的[26]。圖像檢索的手工特征是一個非常活躍的研究領域。然而,由于人工設計的特征不能準確地表征圖像特征,其性能受到了限制。

1.2 基于距離度量學習的圖像檢索

距離度量學習也被廣泛地用于特征向量表示[27]。在[28]圖像檢索方面也有較好的研究。基于深度度量學習的圖像檢索方法有:上下文約束距離度量學習[29]、基于核的距離度量學習[30]、保持視覺的距離度量學習[31]、基于排序的距離度量學習[32]、半監督距離度量學習[33]等。一般來說,基于深度度量學習的方法與手工制作特征的方法相比,顯示了有前途的檢索性能。然而,現有的基于深度度量學習的圖像檢索方法大多依賴于線性距離函數,這限制了其識別能力和魯棒性,不能代表非線性數據。此外,該算法還不能有效地處理多通道檢索問題。

1.3 基于深度學習的圖像檢索

在十年間,深度學習[34]、[35]出現后,我們觀察到特征表示從手工工程到基于學習的轉變。這種轉變如圖3所示,基于特征學習的卷積神經網絡取代了傳統手工特征表示的最先進的管道。深度學習是一種層次特征表示技術,從數據中學習對數據集和應用[36]非常重要的抽象特征。根據所要處理的數據類型,產生了不同的架構,如:1維數據[37]、[38]、[39]的人工神經網絡(ANN)/多層感知器(multi - layer Perceptron, MLP),圖像數據[40]、[41]、[42]的卷積神經網絡(Convolutional Neural Networks, CNN),時序數據[43]、[44]、[45]的Reurrent神經網絡(RNN)。就[34]的鑒別能力和魯棒性而言,現有的CNN特性在對象識別和檢索任務中表現出了非常有前途的性能。在這十年里,利用深度學習的力量進行基于內容的圖像檢索[46],[47],[48],[49]取得了巨大的進展。因此,本綜述主要關注基于內容的圖像檢索的最先進的基于深度學習的模型和特征的進展。圖4描述了用于圖像檢索的最新深度學習方法的分類。

本綜述論文的主要貢獻w.r.t.現有文獻概述如下:

  1. 這個綜述論文可以被視為首次覆蓋基于深度學習的圖像檢索方法,包括不同的監督類型、網絡類型、描述符類型、檢索類型和其他方面。

  2. 與[47]、[28]、[48]最近的綜述不同,本綜述論文特別涵蓋了2011-2020十年中使用深度學習技術進行圖像檢索的進展。此外,與最近的綜述[49]相比,我們提供了一個非常有用的分類(見圖4),廣泛覆蓋了現有的基于深度學習的圖像檢索方法。

  3. 通過對不同角度的分析,豐富了使用深度學習方法的最新圖像檢索技術。

  4. 本文還介紹了簡要的重點和重要的討論,以及使用最先進的基于深度學習的圖像檢索方法在基準數據集上的綜合比較(見表3、4和5)。

付費5元查看完整內容

自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。

//arxiv.org/abs/2011.00362

概述:

隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。

傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。

監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。

生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。

付費5元查看完整內容

The Elements of End-to-end Deep Face Recognition: A Survey of Recent Advances

人臉識別是計算機視覺領域中最基本、最長期存在的研究課題之一。隨著深度卷積神經網絡和大規模數據集的發展,深度人臉識別取得了顯著的進展,并在實際應用中得到了廣泛的應用。以自然圖像或視頻幀作為輸入,端到端深度人臉識別系統輸出人臉特征進行識別。為了實現這一目標,整個系統通常由三個關鍵要素構建:人臉檢測、人臉預處理和人臉表示。人臉檢測在圖像或幀中定位人臉。然后,對人臉進行預處理,將人臉標定為標準視圖,并將其裁剪為標準化像素大小。最后,在人臉表示階段,從預處理后的人臉中提取識別特征進行識別。深度卷積神經網絡滿足了這三個要素。摘要隨著深度學習技術的蓬勃發展,端到端深度人臉識別技術的能力得到了極大的提高,本文對端到端深度人臉識別技術中各個方面的最新進展進行了綜述。首先,我們介紹端到端深度人臉識別的概述,如前所述,它包括人臉檢測、人臉預處理和人臉表示。然后,我們分別回顧了基于深度學習的每個元素的進展,包括許多方面,如最新的算法設計、評估指標、數據集、性能比較、存在的挑戰和未來的研究方向。我們希望這一調查可以為我們更好地理解端到端人臉識別的大圖和更系統的探索帶來有益的想法。

//arxiv.org/abs/2009.13290

付費5元查看完整內容

當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。

//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c

概述:

隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。

盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。

除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。

在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。

付費5元查看完整內容

【導讀】本文章從深度神經網絡(DNN)入手,對深度學習(DL)領域的研究進展進行了簡要的綜述。內容包括:卷積神經網絡(CNN)、循環神經網絡(RNN)、長時記憶(LSTM)和門控遞歸單元(GRU)、自動編碼器(AE)、深度信念網絡(DBN)、生成對抗性網絡(GAN)和深度強化學習(DRL)。

近年來,深度學習在各個應用領域都取得了巨大的成功。這個機器學習的新領域發展迅速,已經應用于大多數傳統的應用領域,以及一些提供更多機會的新領域。針對不同類型的學習,提出了不同的學習方法,包括監督學習、半監督學習和非監督學習。

實驗結果表明,與傳統機器學習方法相比,深度學習在圖像處理、計算機視覺、語音識別、機器翻譯、藝術、醫學成像、醫學信息處理、機器人與控制、生物信息學、自然語言處理、網絡安全等領域具有最先進的性能。

本研究從深度神經網絡(DNN)入手,對深度學習(DL)領域的研究進展進行了簡要的綜述。研究內容包括:卷積神經網絡(CNN)、循環神經網絡(RNN)、長時記憶(LSTM)和門控遞歸單元(GRU)、自動編碼器(AE)、深度信念網絡(DBN)、生成對抗性網絡(GAN)和深度強化學習(DRL)。

此外,我們還討論了最近的發展,例如基于這些DL方法的高級變體DL技術。這項工作考慮了2012年以后發表的大部分論文,當時深度學習的歷史開始了。此外,本文中還包括了在不同應用領域探索和評價的DL方法。我們還包括最近開發的框架、SDKs和基準數據集,用于實施和評估深度學習方法。目前有一些研究已經發表,例如使用神經網絡和一個關于強化學習(RL)的綜述。然而,這些論文還沒有討論大規模深度學習模型的個別高級訓練技術和最近發展起來的生成模型的方法。

關鍵詞:卷積神經網絡(CNN);循環神經網絡(RNN);自動編碼器(AE);受限Boltzmann機器(RBM);深度信念網絡(DBN);生成對抗性網絡(GAN);深度強化學習(DRL);遷移學習。

付費5元查看完整內容

深度學習利用多個處理層來學習具有多個層次特征的數據表示。自2014年以來,隨著Deepface和DeepID方法的突破,這一新興技術已經重塑了人臉識別的研究領域。從那時起,深度人臉識別(FR)技術,利用層次結構學習區分的人臉表示,已經極大地提高了最先進的性能,并培養了許多成功的現實世界的應用。在這篇論文中,我們提供了一個全面深度學習人臉識別綜述。首先,我們總結了在快速發展的深度FR方法中提出的不同的網絡結構和損耗函數。其次,相關的人臉處理方法被分為兩個類:“一對多增強”和“多對一歸一化”。然后,對常用的模型訓練和評價數據庫進行了總結和比較。第三,對跨因素場景、異質場景、多媒體場景和行業場景進行了深入分析。最后,指出了現有方法的潛在不足和未來的發展方向。

付費5元查看完整內容

多模態表示學習旨在縮小不同模態之間的異質性差距,在利用普遍存在的多模態數據方面起著不可或缺的作用。基于深度學習的多模態表示學習由于具有強大的多層次抽象表示能力,近年來受到了廣泛的關注。在本文中,我們提供了一個全面的深度多模態表示學習的綜述論文。為了便于討論如何縮小異質性差距,根據不同模態集成的底層結構,我們將深度多模態表示學習方法分為三種框架:聯合表示、協調表示和編解碼。此外,我們回顧了該領域的一些典型模型,從傳統模型到新開發的技術。本文強調在新開發的技術的關鍵問題,如encoder-decoder模型,生成對抗的網絡,和注意力機制學習的角度來看,多通道表示,我們所知,從來沒有審核之前,即使他們已經成為當代研究的主要焦點。對于每個框架或模型,我們將討論其基本結構、學習目標、應用場景、關鍵問題、優缺點,以使新研究者和有經驗的研究者都能從中受益。最后,提出了今后工作的一些重要方向。

付費5元查看完整內容

隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。

付費5元查看完整內容

由于計算和存儲效率的提高,哈希被廣泛應用于大規模數據庫檢索中的近似近鄰搜索。深度哈希技術是一種利用卷積神經網絡結構來挖掘和提取圖像語義信息或特征的技術,近年來受到越來越多的關注。在這個綜述中,我們對幾種圖像檢索的深度監督哈希方法進行了評估,總結出深度監督哈希方法的三個主要不同方向。最后提出了幾點意見。此外,為了突破現有哈希方法的瓶頸,我提出了一種影子周期性哈希(SRH)方法作為嘗試。具體來說,我設計了一個CNN架構來提取圖像的語義特征,并設計了一個loss function來鼓勵相似的圖像投影接近。為此,我提出了一個概念: CNN輸出的影子。在優化的過程中,CNN的輸出和它的shadow互相引導,盡可能的達到最優解。在數據集CIFAR-10上的實驗表明,該算法具有良好的性能。

//arxiv.org/abs/2006.05627

付費5元查看完整內容
北京阿比特科技有限公司