99热日韩这里只有国产中文精品,亚洲中文字幕久久久久,99精品国产在热2019一级毛片,国产高潮一区在线流白浆

題目： A survey on Semi-, Self- and Unsupervised Learning for Image Classification

摘要：

盡管深度學習策略在計算機視覺任務中取得了出色的成績，但仍然存在一個問題：當前的策略嚴重依賴大量的標記數據。在許多實際問題中，創建如此大量的帶標簽的訓練數據是不可行的。因此，通常將未標記的數據合并到訓練過程中，以較少的標記達到相同的結果。由于進行了大量并行研究，因此很難跟蹤最新動態。本文概述了標簽較少的圖像分類中常用的思想和方法。詳細比較了25種方法。在分析中，確定了三個主要趨勢。

最先進的方法基于其準確性可擴展到實際應用。
為獲得與所有標簽的使用效果可比的結果而需要的監督程度正在降低。
所有方法都有共同的想法，而只有少數幾種方法將這些想法結合起來以實現更好的性能。

基于這三個趨勢，發現了未來的研究機會。

付費5元查看完整內容

相關內容

圖像分類

關注 24

圖像分類是指給定一組各自被標記為單一類別的圖像，然后對一組新的測試圖像的類別進行預測，并測量預測的準確性結果。

元學習 ·

2020 年 5 月 8 日

[付費5元查看完整內容]元學習(meta learning) 最新進展綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文綜述了元學習在圖像分類、自然語言處理和機器人技術等領域的應用。與深度學習不同，元學習使用較少的樣本數據集，并考慮進一步改進模型泛化以獲得更高的預測精度。我們將元學習模型歸納為三類: 黑箱適應模型、基于相似度的方法模型和元學習過程模型。最近的應用集中在將元學習與貝葉斯深度學習和強化學習相結合，以提供可行的集成問題解決方案。介紹了元學習方法的性能比較，并討論了今后的研究方向。

付費5元查看完整內容

半監督學習 · 圖像分類 · ImageNet (數據集) · 一致性正則化 · ICML2020 ·

2020 年 3 月 27 日

[付費5元查看完整內容]【ICML2020投稿論文】用于半監督圖像分類的CowMask，Milking CowMask for Semi-Supervised Image Classification

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： Milking CowMask for Semi-Supervised Image Classification

摘要：

一致性正則化是一種用于半監督學習的技術，最近被證明可以在標記數據很少的情況下產生強大的分類結果。該方法通過增加或反例擾動輸入數據，并鼓勵所學習的模型對未標記數據的擾動具有魯棒性。在這里，我們評估了一種最近提出的增強方法，稱為CowMasK。在半監督一致性正則化中，使用CowMask作為增強方法，我們在Imagenet上建立了一個新的最優結果，標記數據為10%，前5位誤差為8.76%，前1位誤差為26.06%。此外，我們使用的方法比其他方法簡單得多。我們通過在小型圖像基準SVHN、CIFAR-10和CIFAR-100上運行許多較小規模的實驗，進一步研究了CowMask用于半監督學習的行為，在這些實驗中，我們獲得了與現有水平相當的結果，并且發現了CowMask擾動廣泛適用的證據。

付費5元查看完整內容

自監督學習 · 計算機視覺 · 深度神經網絡 · 無監督學習 · 文獻綜述 ·

2020 年 3 月 1 日

[付費5元查看完整內容]【自監督學習深度神經網絡視覺特征學習綜述論文】Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey

摘要： 為了在計算機視覺應用中從圖像或視頻中獲得更好的視覺特征學習性能，通常需要大規模的標記數據來訓練深度神經網絡。為了避免大規模數據集收集和標注的大量開銷，作為無監督學習方法的一個子集，提出了一種自監督學習方法，在不使用任何人類標注的標簽的情況下，從大規模無標記數據中學習圖像和視頻的一般特征。本文對基于深度學習的自監督一般視覺特征學習方法進行了廣泛的綜述。首先，描述了該領域的動機、通用管道和術語。在此基礎上，總結了常用的用于自監督學習的深度神經網絡體系結構。接下來，回顧了自監督學習方法的模式和評價指標，然后介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后，總結和討論了基于基準數據集的定量性能比較方法在圖像和視頻特征學習中的應用。最后，對本文的研究進行了總結，并提出了一套具有發展前景的自監督視覺特征學習方法。

付費5元查看完整內容

半監督學習 · 聯邦學習 ·

2020 年 2 月 28 日

[付費5元查看完整內容]【香港科技大學】聯邦半監督學習綜述，A Survey on Federated Semi-supervised Learning

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人工智能(AI)的成功應該在很大程度上歸功于豐富數據的可獲得性。然而，實際情況并非如此，行業中的開發人員常常面臨數據不足、不完整和孤立的情況。因此，聯邦學習被提議通過允許多方在不顯式共享數據的情況下協作構建機器學習模型，同時保護數據隱私，來緩解這種挑戰。然而，現有的聯邦學習算法主要集中在數據不需要顯式標記或者所有數據都有標記的情況下。然而在現實中，我們經常會遇到這樣的情況，標簽數據本身是昂貴的，沒有足夠的標簽數據供應。雖然這類問題通常通過半監督學習來解決，但據我們所知，聯邦半監督學習還沒有投入任何努力。在這項調查中，我們簡要地總結了目前流行的半監督算法，并對聯邦半監督學習做了簡要的展望，包括可能的方法、設置和挑戰。

付費5元查看完整內容

深度學習 · 計算機視覺 · 監督學習 · 無監督學習 · 半監督學習 ·

2020 年 2 月 23 日

[付費5元查看完整內容]【綜述】圖像分類中的半監督、自監督和非監督技術綜述相同點，不同點和組合

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目

A survey on Semi-, Self- and Unsupervised Techniques in Image Classification Similarities, Differences & Combinations

關鍵字

深度學習，計算機視覺，監督學習，半監督學習，無監督學習，人工智能，綜述

簡介

雖然深度學習策略在計算機視覺任務中取得了出色的成績，但仍然存在一個問題。當前的策略嚴重依賴大量的標記數據。在許多實際問題中，創建如此大量的帶標簽的訓練數據是不可行的。因此，研究人員嘗試將未標記的數據合并到訓練過程中，以減少標簽數量達到平等的結果。由于大量的并發研究，很難跟蹤最新的發展。在本次調查中，我們概述了標簽較少的圖像分類中常用的技術和方法。我們比較21種方法。在我們的分析中，我們確定了三個主要趨勢。 1.最先進的方法基于其準確性可擴展到現實世界的應用程序。2.達到與所有標簽的使用效果相當的結果所需的超視力水平正在降低。3.所有方法共享共同的技術，而只有很少的方法將這些技術結合起來以實現更好的性能。基于這三個趨勢，我們發現了未來的研究機會。

作者

Lars Schmarje, Monty Santarossa,Simon-Martin Schroder, Reinhard Koch

付費5元查看完整內容

圖像分類 · 自監督學習 · 無監督學習 · 半監督學習 · 文獻綜述 ·

2020 年 2 月 22 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

?【導讀】圖像分類是計算機視覺中的基本任務之一，深度學習的出現是的圖像分類技術趨于完善。最近，自監督學習與預訓練技術的發展使得圖像分類技術出現新的變化，這篇論文概述了最新在實際情況中少標簽小樣本等情況下，關于自監督學習、半監督、無監督方法的綜述，值得看！

地址：

//www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132

摘要

雖然深度學習策略在計算機視覺任務中取得了突出的成績，但仍存在一個問題。目前的策略嚴重依賴于大量的標記數據。在許多實際問題中，創建這么多標記的訓練數據是不可行的。因此，研究人員試圖將未標記的數據納入到培訓過程中，以獲得與較少標記相同的結果。由于有許多同時進行的研究，很難掌握最近的發展情況。在這項調查中，我們提供了一個概述，常用的技術和方法，在圖像分類與較少的標簽。我們比較了21種方法。在我們的分析中，我們確定了三個主要趨勢。1. 基于它們的準確性，現有技術的方法可擴展到實際應用中。2. 為了達到與所有標簽的使用相同的結果所需要的監督程度正在降低。3.所有方法都共享公共技術，只有少數方法結合這些技術以獲得更好的性能。基于這三個趨勢，我們發現了未來的研究機會。

1. 概述

深度學習策略在計算機視覺任務中取得了顯著的成功。它們在圖像分類、目標檢測或語義分割等各種任務中表現最佳。

圖1: 這張圖說明并簡化了在深度學習訓練中使用未標記數據的好處。紅色和深藍色的圓圈表示不同類的標記數據點。淺灰色的圓圈表示未標記的數據點。如果我們只有少量的標記數據可用，我們只能對潛在的真實分布(黑線)做出假設(虛線)。只有同時考慮未標記的數據點并明確決策邊界，才能確定這種真實分布。

深度神經網絡的質量受到標記/監督圖像數量的強烈影響。ImageNet[26]是一個巨大的標記數據集，它允許訓練具有令人印象深刻的性能的網絡。最近的研究表明，即使比ImageNet更大的數據集也可以改善這些結果。但是，在許多實際的應用程序中，不可能創建包含數百萬張圖像的標記數據集。處理這個問題的一個常見策略是遷移學習。這種策略甚至可以在小型和專門的數據集(如醫學成像[40])上改進結果。雖然這對于某些應用程序來說可能是一個實際的解決方案，但基本問題仍然存在: 與人類不同，監督學習需要大量的標記數據。

對于給定的問題，我們通常可以訪問大量未標記的數據集。Xie等人是最早研究無監督深度學習策略來利用這些數據[45]的人之一。從那時起，未標記數據的使用被以多種方式研究，并創造了研究領域，如半監督、自我監督、弱監督或度量學習[23]。統一這些方法的想法是，在訓練過程中使用未標記的數據是有益的(參見圖1中的說明)。它要么使很少有標簽的訓練更加健壯，要么在某些不常見的情況下甚至超過了監督情況下的性能[21]。

由于這一優勢，許多研究人員和公司在半監督、自我監督和非監督學習領域工作。其主要目標是縮小半監督學習和監督學習之間的差距，甚至超越這些結果。考慮到現有的方法如[49,46]，我們認為研究處于實現這一目標的轉折點。因此，在這個領域有很多正在進行的研究。這項綜述提供了一個概述，以跟蹤最新的在半監督，自監督和非監督學習的方法。

大多數綜述的研究主題在目標、應用上下文和實現細節方面存在差異，但它們共享各種相同的思想。這項調查對這一廣泛的研究課題進行了概述。這次調查的重點是描述這兩種方法的異同。此外，我們還將研究不同技術的組合。

2. 圖像分類技術

在這一節中，我們總結了關于半監督、自監督和非監督學習的一般概念。我們通過自己對某些術語的定義和解釋來擴展這一總結。重點在于區分可能的學習策略和最常見的實現策略的方法。在整個綜述中，我們使用術語學習策略，技術和方法在一個特定的意義。學習策略是算法的一般類型/方法。我們把論文方法中提出的每個算法都稱為獨立算法。方法可以分為學習策略和技術。技術是組成方法/算法的部分或思想。

2.1 分類方法

監督、半監督和自我監督等術語在文獻中經常使用。很少有人給出明確的定義來區分這兩個術語。在大多數情況下，一個粗略的普遍共識的意義是充分的，但我們注意到，在邊界情況下的定義是多種多樣的。為了比較不同的方法，我們需要一個精確的定義來區分它們。我們將總結關于學習策略的共識，并定義我們如何看待某些邊緣案例。一般來說，我們根據使用的標記數據的數量和訓練過程監督的哪個階段來區分方法。綜上所述，我們把半監督策略、自我學習策略和無監督學習策略稱為reduced減約監督學習策略。圖2展示了四種深度學習策略。

圖2: 插圖的四個深學習策略——紅色和深藍色的圓圈表示標記數據點不同的類。淺灰色的圓圈表示未標記的數據點。黑線定義了類之間的基本決策邊界。帶條紋的圓圈表示在訓練過程的不同階段忽略和使用標簽信息的數據點。

監督學習 Supervised Learning

監督學習是深度神經網絡圖像分類中最常用的方法。我們有一組圖像X和對應的標簽或類z。設C為類別數，f(X)為X∈X的某個神經網絡的輸出，目標是使輸出與標簽之間的損失函數最小化。測量f(x)和相應的z之間的差的一個常用的損失函數是交叉熵。

遷移學習

監督學習的一個限制因素是標簽的可用性。創建這些標簽可能很昂貴，因此限制了它們的數量。克服這一局限的一個方法是使用遷移學習。

遷移學習描述了訓練神經網絡的兩個階段的過程。第一個階段是在大型通用數據集(如ImageNet[26])上進行有無監督的訓練。第二步是使用經過訓練的權重并對目標數據集進行微調。大量的文獻表明，即使在小的領域特定數據集[40]上，遷移學習也能改善和穩定訓練。

半監督學習

半監督學習是無監督學習和監督學習的混合.

Self-supervised 自監督學習

自監督使用一個借托pretext任務來學習未標記數據的表示。借托pretext任務是無監督的，但學習表征往往不能直接用于圖像分類，必須進行微調。因此，自監督學習可以被解釋為一種無監督的、半監督的或其自身的一種策略。我們將自我監督學習視為一種特殊的學習策略。在下面，我們將解釋我們是如何得出這個結論的。如果在微調期間需要使用任何標簽，則不能將該策略稱為無監督的。這與半監督方法也有明顯的區別。標簽不能與未標記的數據同時使用，因為借托pretext任務是無監督的，只有微調才使用標簽。對我們來說，將標記數據的使用分離成兩個不同的子任務本身就是一種策略的特征。

2.2 分類技術集合

在減少監督的情況下，可以使用不同的技術來訓練模型。在本節中，我們將介紹一些在文獻中多種方法中使用的技術。

一致性正則化 Consistency regularization

一個主要的研究方向是一致性正則化。在半監督學習過程中，這些正則化被用作數據非監督部分的監督損失的附加損失。這種約束導致了改進的結果，因為在定義決策邊界時可以考慮未標記的數據[42,28,49]。一些自監督或無監督的方法甚至更進一步，在訓練中只使用這種一致性正則化[21,2]。

虛擬對抗性訓練(VAT)

VAT[34]試圖通過最小化圖像與轉換后的圖像之間的距離，使預測不受小轉換的影響。

互信息(MI)

MI定義為聯合分布和邊緣分布[8]之間的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通過最小化熵[15]來提高半監督學習的輸出預測。

Overclustering

過度聚類在減少監督的情況下是有益的，因為神經網絡可以自行決定如何分割數據。這種分離在有噪聲的數據中或在中間類被隨機分為相鄰類的情況下是有用的。

Pseudo-Labels

一種估計未知數據標簽的簡單方法是偽標簽

3. 圖像分類模型

3.1 半監督學習

四種選擇的半監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的藍色方框中給出。在右側提供了該方法的說明。一般來說，這個過程是自上而下組織的。首先，輸入圖像經過無或兩個不同的隨機變換預處理。自動增廣[9]是一種特殊的增廣技術。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的，但是共享公共部分。所有的方法都使用了標記和預測分布之間的交叉熵(CE)。所有的方法還使用了不同預測輸出分布(Pf(x)， Pf(y))之間的一致性正則化。

3.2 自監督學習

四種選擇的自我監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的紅色方框中給出。在右側提供了該方法的說明。微調部分不包括在內。一般來說，這個過程是自上而下組織的。首先，對輸入圖像進行一兩次隨機變換預處理或分割。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的。AMDIM和CPC使用網絡的內部元素來計算損失。DeepCluster和IIC使用預測的輸出分布(Pf(x)、Pf(y))來計算損耗

3.3 21種圖像分類方法比較

21種圖像分類方法及其使用技術的概述——在左側，第3節中回顧的方法按學習策略排序。第一行列出了在2.2小節中討論過的可能的技術。根據是否可以使用帶標簽的數據，將這些技術分為無監督技術和有監督技術。技術的縮寫也在第2.2小節中給出。交叉熵(Cross-entropy, CE)將CE的使用描述為訓練損失的一部分。微調(FT)描述了交叉熵在初始訓練后(例如在一個借口任務中)對新標簽的使用。(X)指該技術不是直接使用，而是間接使用。個別的解釋由所指示的數字給出。1 - MixMatch通過銳化預測[3]，隱式地實現了熵最小化。2 - UDA預測用于過濾無監督數據的偽標簽。3 -盡量減少相互信息的目的作為借口任務，例如視圖之間的[2]或層之間的[17]。4 -信息的丟失使相互信息間接[43]最大化。5 - Deep Cluster使用K-Means計算偽標簽，以優化分配為借口任務。6 - DAC使用元素之間的余弦距離來估計相似和不相似的項。可以說DAC為相似性問題創建了偽標簽。

4. 實驗比較結果

報告準確度的概述——第一列說明使用的方法。對于監督基線，我們使用了最好的報告結果，作為其他方法的基線。原始論文在準確度后的括號內。第二列給出了體系結構及其參考。第三列是預印本的出版年份或發行年份。最后四列報告了各自數據集的最高準確度分數%。

5 結論

在本文中，我們概述了半監督、自監督和非監督技術。我們用21種不同的方法分析了它們的異同和組合。這項分析確定了幾個趨勢和可能的研究領域。

我們分析了不同學習策略(半監督學習策略、自監督學習策略和無監督學習策略)的定義，以及這些學習策略中的常用技術。我們展示了這些方法一般是如何工作的，它們使用哪些技術，以及它們可以被歸類為哪種策略。盡管由于不同的體系結構和實現而難以比較這些方法的性能，但我們確定了三個主要趨勢。

ILSVRC-2012的前5名正確率超過90%，只有10%的標簽表明半監督方法適用于現實問題。然而，像類別不平衡這樣的問題并沒有被考慮。未來的研究必須解決這些問題。

監督和半監督或自監督方法之間的性能差距正在縮小。有一個數據集甚至超過了30%。獲得可與全監督學習相比的結果的標簽數量正在減少。未來的研究可以進一步減少所需標簽的數量。我們注意到，隨著時間的推移，非監督方法的使用越來越少。這兩個結論使我們認為，無監督方法在未來的現實世界中對圖像分類將失去意義。

我們的結論是，半監督和自監督學習策略主要使用一套不同的技術。通常，這兩種策略都使用不同技術的組合，但是這些技術中很少有重疊。S4L是目前提出的唯一一種消除這種分離的方法。我們確定了不同技術的組合有利于整體性能的趨勢。結合技術之間的微小重疊，我們確定了未來可能的研究機會。

參考文獻：

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.

[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.

[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.

付費5元查看完整內容

圖片分類 · 可辨認的 · 標注 · 無監督 · Better ·

2020 年 2 月 20 日

A survey on Semi-, Self- and Unsupervised Techniques in Image Classification

Lars Schmarje,Monty Santarossa,Simon-Martin Schr?der,Reinhard Koch

from arxiv, Submitted to IJCV

While deep learning strategies achieve outstanding results in computer vision tasks, one issue remains. The current strategies rely heavily on a huge amount of labeled data. In many real-world problems it is not feasible to create such an amount of labeled training data. Therefore, researchers try to incorporate unlabeled data into the training process to reach equal results with fewer labels. Due to a lot of concurrent research, it is difficult to keep track of recent developments. In this survey we provide an overview of often used techniques and methods in image classification with fewer labels. We compare 21 methods. In our analysis we identify three major trends. 1. State-of-the-art methods are scaleable to real world applications based on their accuracy. 2. The degree of supervision which is needed to achieve comparable results to the usage of all labels is decreasing. 3. All methods share common techniques while only few methods combine these techniques to achieve better performance. Based on all of these three trends we discover future research opportunities.

計算機視覺 · 自監督學習 ·

2020 年 1 月 15 日

[付費5元查看完整內容]基于深度網絡的自監督視覺特征學習綜述，附24頁論文下載

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】由于深度神經網絡具有強大的學習不同層次視覺特征的能力，因此被廣泛應用于目標檢測，語義分割，圖像描述等計算機視覺應用當中。從ImageNet這樣的大型圖像數據集中訓練得到的模型被廣泛地用作其他任務的預訓練模型，主要有兩個原因：(1)從大規模數據集中學習得到的參數能夠為其他模型提供一個良好的訓練起點，在其他任務上模型網絡可以更快地收斂。(2)在大規模數據集上訓練的網絡已經學習到了層次特征，這有助于減少其他任務訓練過程中的過擬合問題，特別是當其他任務的數據集較小或標注數據不足的情況。

介紹

為了在計算機視覺應用中學習得到更好的圖像和視頻特征，通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷，作為無監督學習方法的一個子方法——自監督學習方法，可以在不使用任何人類標注的標簽的情況下，從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先，描述了該領域的動機和一些專業性術語。在此基礎上，總結了常用的用于自監督學習的深度神經網絡體系結構。接下來，回顧了自監督學習方法的模式和評價指標，并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后，總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。

用于圖像特征學習的架構

1.AlexNet:與以往的方法相比，AlexNet極大的提高了在ImageNet數據集上的圖像分類性能。AlexNet架構總共有8層，其中的5層是卷積層，3層是全連接層。ReLU激活函數被運用在每一個卷積層后面。

2.VGG:該模型贏得了ILSVRC2013挑戰賽的第一名。其中的VGG-16由于模型尺寸適中，性能優越，被廣泛使用。

3.ResNet:該網絡闡述了網絡越深越能夠獲得良好的性能。但是由于梯度消失和梯度爆炸，深度神經網絡很難訓練。ResNet使用跳躍連接把前一層的特征直接傳遞到下一個卷積塊來克服梯度消失和梯度爆炸的問題。

4.GoogleNet:22層的深度網絡，以93.3%的準確率贏得了ILSVRC-2014挑戰賽。和之前的網絡相比，它擁有更深的網絡。GoogleNet的基礎模塊inception塊由4個平行的卷積層組成，這4個卷積層的卷積核尺寸不同，每層后面都有一個1x1的卷積操作來降低維度。

5.DenseNet:大多數網絡包括AlexNet, VGG和ResNet都遵循層次結構。圖像被輸入到網絡中，由不同的層提取特征。淺層提取低級的一般性特征，而深層提取特定于任務的高級特征。然而，當一個網絡變得越來越深的時候，更深的網絡層可能會記住完成任務所需的底層特征。為了避免這一問題，DenseNet通過稠密連接將一個卷積塊之前的所有特征作為輸入輸送到神經網絡中的下一個卷積塊。

視頻特征學習架構

Spatiotemporal Convolutional Neural Network

三維卷積運算最早是在3DNet中提出的，用于人類行為識別。與2DConvNets分別提取每一幀的空間信息，然后將它們融合為視頻特征相比，3DConvNets能夠同時從多個幀中同時提取空間和時間特征。

隨著三維卷積在視頻分析任務中的成功應用，出現了3DConvNet的各種變體。比如Hara等人提出了3DResNet，將ResNet中所有的2D卷積層替換為3D卷積層。實驗表明，在多個數據集上，3D卷積層的性能更為優異。

Recurrent Neural Network(RNN)

由于RNN能夠對一個時間序列數據進行動態建模，所以RNN通常被應用于視頻的有序幀序列當中。和標準的RNN相比，LSTM使用內存單元來存儲，修改和訪問內部狀態，從而更好的對視頻幀之間的長時間序列進行建模。基于LSTM的優勢，Donahue提出了long-term recurrent convolutional networks (LRCN)用于人類行為識別。

數據集介紹

1.圖像數據集

2.視頻數據集

YFCC100M:該數據集是從Flicker上收集的多媒體數據集，由1億條多媒體數據組成，其中的99200000條數據是圖片，剩余的800000條數據是視頻。

SceneNet RGB-D:該數據集是一個大型的室內視頻合成數據集。

Moment in Time:該數據集是一個用于視頻內容理解的數據集，內容多樣且分布均衡。

Kinetics:該數據集規模大，質量高，用于人類行為識別。

AudioSet：該數據集由來自YouTube的2084320條人工標記10秒的聲音剪輯組成，這些視頻涵蓋了632個音頻事件。

KITTI:該數據集是在駕駛汽車時收集的，收集數據時的裝備有各種傳感器，包括高分辨率RGB相機、灰度立體聲相機、3D激光掃描儀和高精度GPS測量。

UCF101:該數據集被廣泛使用于人類動作識別。

HMDB51:相比于前面的數據集，該數據集是一個小規模的視頻數據集，用于人流動作識別。

付費5元查看完整內容

無監督學習 · 有監督學習 · 機器學習 · 深度學習 · 圖像處理 ·

2019 年 11 月 16 日

[付費5元查看完整內容]【超分辨率| 2019最新綜述】圖像超分辨率的深度學習，附PDF（Deep Learning for Image Super-resolution: A Survey）

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

論文主題： Deep Learning for Image Super-resolution: A Survey

論文摘要： 圖像超分辨率（SR）是提高圖像分辨率的一類重要的圖像處理技術以及計算機視覺中的視頻。近年來，基于深度學習的圖像超分辨率研究取得了顯著進展技術。在這項調查中，我們旨在介紹利用深度學習的圖像超分辨率技術的最新進展系統的方法。一般來說，我們可以粗略地將現有的SR技術研究分為三大類：監督SR、非監督SR和領域特定SR。此外，我們還討論了一些其他重要問題，如公開可用的基準數據集和性能評估指標。最后，我們通過強調幾個未來來結束這項調查未來社區應進一步解決的方向和公開問題.

付費5元查看完整內容