題目: Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey
摘要: 為了在計算機視覺應用中從圖像或視頻中獲得更好的視覺特征學習性能,通常需要大規模的標記數據來訓練深度神經網絡。為了避免大規模數據集收集和標注的大量開銷,作為無監督學習方法的一個子集,提出了一種自監督學習方法,在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般特征。本文對基于深度學習的自監督一般視覺特征學習方法進行了廣泛的綜述。首先,描述了該領域的動機、通用管道和術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,然后介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于基準數據集的定量性能比較方法在圖像和視頻特征學習中的應用。最后,對本文的研究進行了總結,并提出了一套具有發展前景的自監督視覺特征學習方法。
題目:
Con?dence-Aware Learning for Deep Neural Networks
簡介:
盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。
當對大量的標記數據集合(如ImageNet)進行訓練時,深度神經網絡展示了它們在特殊監督學習任務(如圖像分類)上的卓越表現。然而,創建這樣的大型數據集需要大量的資源、時間和精力。這些資源在很多實際案例中可能無法獲得,限制了許多深度學習方法的采用和應用。為了尋找數據效率更高的深度學習方法,以克服對大型標注數據集的需求,近年來,我們對半監督學習應用于深度神經網絡的研究興趣日益濃厚,通過開發新的方法和采用現有的半監督學習框架進行深度學習設置。在本文中,我們從介紹半監督學習開始,對深度半監督學習進行了全面的概述。然后總結了在深度學習中占主導地位的半監督方法。
本文綜述了元學習在圖像分類、自然語言處理和機器人技術等領域的應用。與深度學習不同,元學習使用較少的樣本數據集,并考慮進一步改進模型泛化以獲得更高的預測精度。我們將元學習模型歸納為三類: 黑箱適應模型、基于相似度的方法模型和元學習過程模型。最近的應用集中在將元學習與貝葉斯深度學習和強化學習相結合,以提供可行的集成問題解決方案。介紹了元學習方法的性能比較,并討論了今后的研究方向。
主題: A Review on Deep Learning Techniques for Video Prediction
摘要: 預測,預期和推理未來結果的能力是智能決策系統的關鍵組成部分。鑒于深度學習在計算機視覺中的成功,基于深度學習的視頻預測已成為有前途的研究方向。視頻預測被定義為一種自我監督的學習任務,它代表了一個表示學習的合適框架,因為它展示了提取自然視頻中潛在模式的有意義的表示的潛在能力。視頻序列預測的深度學習方法。我們首先定義視頻預測的基礎知識,以及強制性的背景概念和最常用的數據集。接下來,我們會仔細分析根據擬議的分類法組織的現有視頻預測模型,突出顯示它們的貢獻及其在該領域的意義。數據集和方法的摘要均附有實驗結果,有助于在定量基礎上評估現有技術。通過得出一些一般性結論,確定開放研究挑戰并指出未來的研究方向來對本文進行總結。
【導讀】由于深度神經網絡具有強大的學習不同層次視覺特征的能力,因此被廣泛應用于目標檢測,語義分割,圖像描述等計算機視覺應用當中。從ImageNet這樣的大型圖像數據集中訓練得到的模型被廣泛地用作其他任務的預訓練模型,主要有兩個原因:(1)從大規模數據集中學習得到的參數能夠為其他模型提供一個良好的訓練起點,在其他任務上模型網絡可以更快地收斂。(2)在大規模數據集上訓練的網絡已經學習到了層次特征,這有助于減少其他任務訓練過程中的過擬合問題,特別是當其他任務的數據集較小或標注數據不足的情況。
介紹
為了在計算機視覺應用中學習得到更好的圖像和視頻特征,通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷,作為無監督學習方法的一個子方法——自監督學習方法,可以在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先,描述了該領域的動機和一些專業性術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。
用于圖像特征學習的架構
1.AlexNet:與以往的方法相比,AlexNet極大的提高了在ImageNet數據集上的圖像分類性能。AlexNet架構總共有8層,其中的5層是卷積層,3層是全連接層。ReLU激活函數被運用在每一個卷積層后面。
2.VGG:該模型贏得了ILSVRC2013挑戰賽的第一名。其中的VGG-16由于模型尺寸適中,性能優越,被廣泛使用。
3.ResNet:該網絡闡述了網絡越深越能夠獲得良好的性能。但是由于梯度消失和梯度爆炸,深度神經網絡很難訓練。ResNet使用跳躍連接把前一層的特征直接傳遞到下一個卷積塊來克服梯度消失和梯度爆炸的問題。
4.GoogleNet:22層的深度網絡,以93.3%的準確率贏得了ILSVRC-2014挑戰賽。和之前的網絡相比,它擁有更深的網絡。GoogleNet的基礎模塊inception塊由4個平行的卷積層組成,這4個卷積層的卷積核尺寸不同,每層后面都有一個1x1的卷積操作來降低維度。
5.DenseNet:大多數網絡包括AlexNet, VGG和ResNet都遵循層次結構。圖像被輸入到網絡中,由不同的層提取特征。淺層提取低級的一般性特征,而深層提取特定于任務的高級特征。然而,當一個網絡變得越來越深的時候,更深的網絡層可能會記住完成任務所需的底層特征。為了避免這一問題,DenseNet通過稠密連接將一個卷積塊之前的所有特征作為輸入輸送到神經網絡中的下一個卷積塊。
視頻特征學習架構
Spatiotemporal Convolutional Neural Network
三維卷積運算最早是在3DNet中提出的,用于人類行為識別。與2DConvNets分別提取每一幀的空間信息,然后將它們融合為視頻特征相比,3DConvNets能夠同時從多個幀中同時提取空間和時間特征。
隨著三維卷積在視頻分析任務中的成功應用,出現了3DConvNet的各種變體。比如Hara等人提出了3DResNet,將ResNet中所有的2D卷積層替換為3D卷積層。實驗表明,在多個數據集上,3D卷積層的性能更為優異。
Recurrent Neural Network(RNN)
由于RNN能夠對一個時間序列數據進行動態建模,所以RNN通常被應用于視頻的有序幀序列當中。和標準的RNN相比,LSTM使用內存單元來存儲,修改和訪問內部狀態,從而更好的對視頻幀之間的長時間序列進行建模。基于LSTM的優勢,Donahue提出了long-term recurrent convolutional networks (LRCN)用于人類行為識別。
數據集介紹
1.圖像數據集
2.視頻數據集
YFCC100M:該數據集是從Flicker上收集的多媒體數據集,由1億條多媒體數據組成,其中的99200000條數據是圖片,剩余的800000條數據是視頻。
SceneNet RGB-D:該數據集是一個大型的室內視頻合成數據集。
Moment in Time:該數據集是一個用于視頻內容理解的數據集,內容多樣且分布均衡。
Kinetics:該數據集規模大,質量高,用于人類行為識別。
AudioSet:該數據集由來自YouTube的2084320條人工標記10秒的聲音剪輯組成,這些視頻涵蓋了632個音頻事件。
KITTI:該數據集是在駕駛汽車時收集的,收集數據時的裝備有各種傳感器,包括高分辨率RGB相機、灰度立體聲相機、3D激光掃描儀和高精度GPS測量。
UCF101:該數據集被廣泛使用于人類動作識別。
HMDB51:相比于前面的數據集,該數據集是一個小規模的視頻數據集,用于人流動作識別。
簡介: 在許多將數據表示為圖形的領域中,學習圖形之間的相似性度量標準被認為是一個關鍵問題,它可以進一步促進各種學習任務,例如分類,聚類和相似性搜索。 最近,人們對深度圖相似性學習越來越感興趣,其中的主要思想是學習一種深度學習模型,該模型將輸入圖映射到目標空間,以使目標空間中的距離近似于輸入空間中的結構距離。 在這里,我們提供對深度圖相似性學習的現有文獻的全面回顧。 我們為方法和應用提出了系統的分類法。 最后,我們討論該問題的挑戰和未來方向。
在特征空間上學習足夠的相似性度量可以顯著確定機器學習方法的性能。從數據自動學習此類度量是相似性學習的主要目的。相似度/度量學習是指學習一種功能以測量對象之間的距離或相似度,這是許多機器學習問題(例如分類,聚類,排名等)中的關鍵步驟。例如,在k最近鄰(kNN)中分類[25],需要一個度量來測量數據點之間的距離并識別最近的鄰居;在許多聚類算法中,數據點之間的相似性度量用于確定聚類。盡管有一些通用度量標準(例如歐幾里得距離)可用于獲取表示為矢量的對象之間的相似性度量,但是這些度量標準通常無法捕獲正在研究的數據的特定特征,尤其是對于結構化數據。因此,找到或學習一種度量以測量特定任務中涉及的數據點的相似性至關重要。
題目: Deep Learning for Visual Tracking: A Comprehensive Survey
簡介: 視覺目標跟蹤是計算機視覺領域中最受關注和最具挑戰性的研究課題之一。考慮到這個問題的不適定性質及其在現實世界中廣泛應用的情況,已經建立了大量的大型基準數據集,在這些數據集上已經開發了相當多的方法,并在近年來取得了顯著進展——主要是最近基于深度學習(DL)的方法。這項綜述的目的是系統地調查當前基于深度學習的視覺跟蹤方法、基準數據集和評估指標。它也廣泛地評價和分析領先的視覺跟蹤方法。首先,從網絡體系結構、網絡利用、視覺跟蹤網絡訓練、網絡目標、網絡輸出、相關濾波優勢利用六個關鍵方面,總結了基于dll的方法的基本特征、主要動機和貢獻。其次,比較了常用的視覺跟蹤基準及其各自的性能,總結了它們的評價指標。第三,在OTB2013、OTB2015、VOT2018和LaSOT等一系列成熟的基準上,全面檢查最先進的基于dll的方法。最后,通過對這些最先進的方法進行定量和定性的批判性分析,研究它們在各種常見場景下的優缺點。它可以作為一個溫和的使用指南,讓從業者在什么時候、在什么條件下選擇哪種方法。它還促進了對正在進行的問題的討論,并為有希望的研究方向帶來光明。
論文題目: Unsupervised Pre-training for Natural Language Generation
論文摘要: 最近,由于無監督預訓練在促進自然語言理解(NLU)方面取得了令人驚訝的成功以及有效利用大規模未標記語料庫的潛力,因此在計算語言學領域正變得越來越受歡迎。但是,無論NLU是否成功,當涉及自然語言生成(NLG)時,無監督預訓練的功能只能被部分挖掘。 NLG特質的主要障礙是:文本通常是基于特定的上下文生成的,可能會因目標應用程序而異。結果,像在NLU場景中一樣,設計用于預訓練的通用體系結構是很難的。此外,在目標任務上學習時保留從預訓練中學到的知識也是不容置疑的。這篇綜述總結了近期在無監督的預訓練下增強NLG系統的工作,特別著重于催化將預訓練的模型集成到下游任務中的方法。根據它們處理上述障礙的方式,它們分為基于體系結構的方法和基于策略的方法。還提供了討論,以提供這兩種工作方式之間的進一步相互了解,一些有益的經驗現象以及未來工作可能涉及的一些方向。