【導讀】由于深度神經網絡具有強大的學習不同層次視覺特征的能力,因此被廣泛應用于目標檢測,語義分割,圖像描述等計算機視覺應用當中。從ImageNet這樣的大型圖像數據集中訓練得到的模型被廣泛地用作其他任務的預訓練模型,主要有兩個原因:(1)從大規模數據集中學習得到的參數能夠為其他模型提供一個良好的訓練起點,在其他任務上模型網絡可以更快地收斂。(2)在大規模數據集上訓練的網絡已經學習到了層次特征,這有助于減少其他任務訓練過程中的過擬合問題,特別是當其他任務的數據集較小或標注數據不足的情況。
介紹
為了在計算機視覺應用中學習得到更好的圖像和視頻特征,通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷,作為無監督學習方法的一個子方法——自監督學習方法,可以在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先,描述了該領域的動機和一些專業性術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。
用于圖像特征學習的架構
1.AlexNet:與以往的方法相比,AlexNet極大的提高了在ImageNet數據集上的圖像分類性能。AlexNet架構總共有8層,其中的5層是卷積層,3層是全連接層。ReLU激活函數被運用在每一個卷積層后面。
2.VGG:該模型贏得了ILSVRC2013挑戰賽的第一名。其中的VGG-16由于模型尺寸適中,性能優越,被廣泛使用。
3.ResNet:該網絡闡述了網絡越深越能夠獲得良好的性能。但是由于梯度消失和梯度爆炸,深度神經網絡很難訓練。ResNet使用跳躍連接把前一層的特征直接傳遞到下一個卷積塊來克服梯度消失和梯度爆炸的問題。
4.GoogleNet:22層的深度網絡,以93.3%的準確率贏得了ILSVRC-2014挑戰賽。和之前的網絡相比,它擁有更深的網絡。GoogleNet的基礎模塊inception塊由4個平行的卷積層組成,這4個卷積層的卷積核尺寸不同,每層后面都有一個1x1的卷積操作來降低維度。
5.DenseNet:大多數網絡包括AlexNet, VGG和ResNet都遵循層次結構。圖像被輸入到網絡中,由不同的層提取特征。淺層提取低級的一般性特征,而深層提取特定于任務的高級特征。然而,當一個網絡變得越來越深的時候,更深的網絡層可能會記住完成任務所需的底層特征。為了避免這一問題,DenseNet通過稠密連接將一個卷積塊之前的所有特征作為輸入輸送到神經網絡中的下一個卷積塊。
視頻特征學習架構
Spatiotemporal Convolutional Neural Network
三維卷積運算最早是在3DNet中提出的,用于人類行為識別。與2DConvNets分別提取每一幀的空間信息,然后將它們融合為視頻特征相比,3DConvNets能夠同時從多個幀中同時提取空間和時間特征。
隨著三維卷積在視頻分析任務中的成功應用,出現了3DConvNet的各種變體。比如Hara等人提出了3DResNet,將ResNet中所有的2D卷積層替換為3D卷積層。實驗表明,在多個數據集上,3D卷積層的性能更為優異。
Recurrent Neural Network(RNN)
由于RNN能夠對一個時間序列數據進行動態建模,所以RNN通常被應用于視頻的有序幀序列當中。和標準的RNN相比,LSTM使用內存單元來存儲,修改和訪問內部狀態,從而更好的對視頻幀之間的長時間序列進行建模。基于LSTM的優勢,Donahue提出了long-term recurrent convolutional networks (LRCN)用于人類行為識別。
數據集介紹
1.圖像數據集
2.視頻數據集
YFCC100M:該數據集是從Flicker上收集的多媒體數據集,由1億條多媒體數據組成,其中的99200000條數據是圖片,剩余的800000條數據是視頻。
SceneNet RGB-D:該數據集是一個大型的室內視頻合成數據集。
Moment in Time:該數據集是一個用于視頻內容理解的數據集,內容多樣且分布均衡。
Kinetics:該數據集規模大,質量高,用于人類行為識別。
AudioSet:該數據集由來自YouTube的2084320條人工標記10秒的聲音剪輯組成,這些視頻涵蓋了632個音頻事件。
KITTI:該數據集是在駕駛汽車時收集的,收集數據時的裝備有各種傳感器,包括高分辨率RGB相機、灰度立體聲相機、3D激光掃描儀和高精度GPS測量。
UCF101:該數據集被廣泛使用于人類動作識別。
HMDB51:相比于前面的數據集,該數據集是一個小規模的視頻數據集,用于人流動作識別。
【簡介】近些年深度神經網絡幾乎在各個領域都取得了巨大的成功。然而,這些深度模型在尺寸上過于巨大,有幾百萬甚至上億的參數,造成了巨大的計算開銷,致使模型難以部署和落地。除此之外,模型的表現還高度依賴于大量的標注數據。為了使模型得到更加高效的訓練和處理標記數據不足的難題,知識蒸餾(KD)被用來遷移從一個模型到另一個模型學習到的知識。這個過程也經常被描述為student-teacher(S-T)學習框架,并且已經被廣泛應用到模型壓縮和知識遷移中。這篇論文主要介紹了知識蒸餾和student-teacher學習模型。首先,我們對于KD是什么,它是如何工作的提供了一個解釋和描述。然后,我們對近些年知識蒸餾方法的研究進展和典型用于視覺任務的S-T學習框架進行了一個全面的調研。最后,我們討論了知識蒸餾和S-T模型未來的發展方向和研究前景,以及目前這些方法所面臨的開放性挑戰。
介紹
深度神經網絡的成功主要依賴于精心設計的DNN架構。在大規模機器學習任務中,尤其是圖像識別和語音識別任務,大多數基于DNN的模型都是憑借大量的參數來提取特征從而保證模型的泛化能力。這種笨重的模型通常都有非常深和非常寬的特點,需要花費大量的時間進行訓練,而且不可能實時操作。所以,為了加速模型訓練,許多研究人員嘗試著利用預訓練的復雜模型來獲得輕量級的DNN模型,從而使得這些模型可以被部署應用。這是一篇關于知識蒸餾(KD)和student-teacher(S-T)學習模型的論文。一般來講,知識蒸餾被視作一種機制:當只給出小型的訓練集,其中包含相同或不同種類的樣本的時候,這種機制能夠使得人類快速學習新的,復雜的概念。在深度學習中,知識蒸餾是一個有效的方法,目前已經被廣泛的應用在了從一個網絡到另一個網絡的信息轉移上。知識蒸餾主要被應用在模型壓縮和知識遷移這兩個領域,對于模型壓縮,一個較小的學生模型被訓練來模仿一個預先訓練好的較大的模型。盡管知識和任務種類多樣,但是S-T框架是他們的一個相同點,其中提供知識的模型被稱作teacher,學習知識的模型被稱作student。我們對現有的知識蒸餾方法進行了重點分析和分類,其中還伴隨著各種類型的S-T結構的模型壓縮和知識轉移。我們回顧和調查了這一迅速發展的領域,強調了該領域的最新進展。雖然知識蒸餾方法已經應用于視覺智能、語音識別、自然語言處理等各個領域,但本文主要關注的是視覺領域的知識蒸餾方法,所以論文中關于知識蒸餾的大多數闡釋都是基于計算機視覺任務。由于知識蒸餾方法研究最多的領域是模型壓縮,所以我們系統地討論了該領域的技術細節、關鍵性挑戰和發展潛力。同時,重點介紹了在半監督學習、自監督學習等領域的知識遷移方法,重點介紹了以S-T學習框架為基礎的技術。
文章結構
section 2:探討知識蒸餾和S-T學習框架為什么會吸引如此多的關注。 section 3:關于知識蒸餾的理論分析。 section 4-section14:對目前的方法進行分類,并且分析了面臨的挑戰以及該領域的發展前景。 section 15:根據上面的分類結果,我們回答了section 2中提出的問題。 section 16:介紹了知識蒸餾和S-T框架的潛力。 section 17:總結。
題目: Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey
摘要: 為了在計算機視覺應用中從圖像或視頻中獲得更好的視覺特征學習性能,通常需要大規模的標記數據來訓練深度神經網絡。為了避免大規模數據集收集和標注的大量開銷,作為無監督學習方法的一個子集,提出了一種自監督學習方法,在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般特征。本文對基于深度學習的自監督一般視覺特征學習方法進行了廣泛的綜述。首先,描述了該領域的動機、通用管道和術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,然后介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于基準數據集的定量性能比較方法在圖像和視頻特征學習中的應用。最后,對本文的研究進行了總結,并提出了一套具有發展前景的自監督視覺特征學習方法。
【簡介】隨著深度表示學習的發展,強化學習(RL)已經成為了一個強大的學習框架,其可以在高維度空間中學習復雜的規則。這篇綜述總結了深度強化學習(DRL)算法,提供了采用強化學習的自動駕駛任務的分類方法,重點介紹了算法上的關鍵挑戰和在現實世界中將強化學習部署在自動駕駛方面的作用,以及最終評估,測試和加強強化學習和模仿學習健壯性的現有解決方案。
論文鏈接: //arxiv.org/abs/2002.00444
介紹:
自動駕駛(AD)系統由多個感知級任務組成,由于采用了深度學習架構,這些任務現在已經達到了很高的精度。除了感知任務之外,自主駕駛系統還包含多個其他任務,傳統的監督學習方法已經不再適用。首先,當對agent行為的預測發生變化時,從自動駕駛agent所處的環境中接收到的未來傳感器觀察到的結果,例如獲取市區最佳駕駛速度的任務。其次,監督信號(如碰撞時間(TTC),相對于agent最佳軌跡的側向誤差)表示agent的動態變化以及環境中的不確定性。這些問題都需要定義隨機損失函數來使其最大化。最后,agent需要學習當前環境新的配置參數,預測其所處的環境中每一時刻的最優決策。這表明在觀察agent和其所處環境的情況下,一個高維度的空間能夠給出大量唯一的配置參數。在這些場景中,我們的目標是解決一個連續決策的問題。在這篇綜述中,我們將介紹強化學習的概念,強化學習是一種很有前景的解決方案和任務分類方法,特別是在驅動策略、預測感知、路徑規劃以及低層控制器設計等領域。我們還重點回顧了強化學習在自動駕駛領域當中各種現實的應用。最后,我們通過闡述應用當前諸如模仿學習和Q學習等強化學習算法時所面臨的算力挑戰和風險來激勵使用者對強化學習作出改進。
章節目錄:
section2: 介紹一個典型的自動駕駛系統及其各個組件。
section3: 對深度強化學習進行介紹,并簡要討論關鍵概念。
section4: 探討在強化學習基本框架上對其進行更深層次,更加復雜的擴展。
section5: 對強化學習用于自動駕駛領域的所面臨的問題提供一個概述。
section6: 介紹將強化學習部署到真實世界自動駕駛系統中所面臨的挑戰。
section7: 總結