亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基于視頻數據的深度預測學習(以下簡稱“深度預測學習”)屬于深度學習、計算機視覺和強化學習的交叉融合研究方向,是氣象預報、自動駕駛、機器人視覺控制等場景下智能預測與決策系統的關鍵組成部分,在近年來成為機器學習的熱點研究領域.深度預測學習遵從自監督學習范式,從無標簽的視頻數據中挖掘自身的監督信息,學習其潛在的時空模式表達.本文對基于深度學習的視頻預測現有研究成果進行了詳細綜述.首先,歸納了深度預測學習的研究范疇和交叉應用領域.其次,總結了視頻預測研究中常用的數據集和評價指標.而后,從基于觀測空間的視頻預測、基于狀態空間的視頻預測、有模型的視覺決策三個角度,分類對比了當前主流的深度預測學習模型.最后,本文分析了深度預測學習領域的熱點問題,并對研究趨勢進行了展望.

近年來,隨著移動互聯網、智能安防監控、時空數據采集與傳感器網絡等技術的迅猛發展,各行業中的視頻數據體量呈指數級增長.運用深度學習方法對海量視頻數據進行建模,在無須額外人工標注的情況下理解其時空結構特性,對氣象預報、自動駕駛、機器人視覺控制等若干場景下智能預測與決策系統具有重要意義,這使得基于無標簽視頻數據的深度預測學習(以下簡稱“深度預測學習”)成了近年來一個備受關注的研究領域.預測學習的交叉應用場景眾多,本文依照近年來國際學術界的主流研究成果,重點討論其在計算機視覺和視覺決策場景下的具體內涵.

首先,在計算機視覺的應用范疇下,預測學習的核心任務是指,基于一段連續的視頻歷史觀測,預測其在未來一段時間范圍內的變化.給定一個幀視頻序列

,預測隨后一段幀視頻序列

.利用深度學習模型,刻畫觀測空間中歷史數據與未來數據之間確定性的映射關系,從而實現對未來時空變化趨勢的高質量、精細化預測,已被成功應用于多種時空大數據平臺中,其中包含短時臨近強對流天氣預報[1]、城市交通狀況預測[2~4]等典型交叉應用場景.例如在氣象短臨預報中,需要根據前一時段內的雷達回波影像序列預測出未來0~2 h內每間隔6 min的雷達回波影像.在圖1所展示的例子中,由清華大學團隊主導研發的“新一代災害性天氣短時臨近預報業務平臺”首次將深度預測學習方法應用于中央氣象臺天氣預報業務系統,表現出了超越傳統數值模型與光流外插模型的預報水平,大幅提升了我國短臨災害性天氣精細化預報能力,證明了深度預測學習具有廣闊的交叉領域應用前景與重要的科學研究價值. 圖1 圖1 深度預測學習在氣象預報領域的應用示例,圖中所示為從過去一小時雷達回波歷史觀測中預測到的未來一小時雷達回波.

此外,在許多基于時空觀測信號的智慧決策系統中,視頻預測模型也有著廣闊的應用前景和商用價值.此類深度預測學習方法主要應用于機器人視覺決策任務[5~8],其具體問題定義為給定幀視頻序列

,以及機器人未來可能選取的動作序列

,以視頻幀

的形式,預測在相應未來時刻執行對應動作所可能產生的后果.此類預測模型的一種典型的應用場景是部分可見的馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP).在該問題中,場景的狀態信息是不完全可知的,即視覺觀測數據無法準確反應全部的物理機理,一些近期研究工作利用深度預測學習方法,在隱狀態空間中融合機器人的動作信息與隱狀態時空深度表征,刻畫動作、狀態、環境三者之間的動態關系.顯然,提升預測模型的精度,可以有效改善下游視覺控制與決策任務的執行效果. 從交叉應用場景看預測學習的本質,視頻數據作為一種典型的具有網格化空間結構的高維時間序列,其最大特點是在時間上具有長時非平穩趨勢與非確定性趨勢,同時在單一時刻又具有高維空間相關性(例如圖1中的雷達回波影像).傳統的機器學習方法大多將時空數據當作多組單變量時間序列進行獨立建模,其最大問題是特征學習能力不足,難以捕獲空間相關性與非線性時空動態,故而難以形成長時、精細化的預測.深度預測學習遵循自監督學習的訓練范式,不需要額外的標注信息,利用上述時空數據特性實現自監督訓練,在無標簽情況下建模數據中緊耦合的時間與空間相關性,從復雜、海量、高維、非線性的時空數據中挖掘重要的空間結構,并刻畫其隨時間的動態變化.預測學習模型與面向視頻數據的生成模型不同.后者更關注生成數據的分布與真實數據分布的統計差異,而不需要嚴格保證生成結果相對觀測數據的合理性;而前者相當于集成了因果推斷模型和條件生成模型,不僅需要關注于觀測空間中的生成質量,而且要盡可能地從歷史觀測中推斷時空狀態信息,因此需要更強的特征提取能力.在本文的后續討論中,我們據此將主流的視頻預測網絡按照在觀測空間或狀態空間中的建模時空動態進行歸納對比.具體分類方式如圖2所示. 圖2 圖2 深度預測學習主流方法的譜系圖。

本文第2節將歸納觀測空間中的視頻預測模型,主要包含基于卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Networks,RNN)的若干神經網絡架構.第3節將總結基于語義狀態空間或隱狀態空間的深度預測網絡,探究低維狀態空間中的時空特征表達與解耦方法,以及基于此的長時預測方法和不確定性預測方法.第4節將歸納基于深度預測模型的視覺決策前沿方法,討論如何結合預測學習提高交互環境中控制和決策水平.第5節將介紹該研究領域內的典型數據集和模型評價指標.最后,第6節將討論深度預測學習的開放問題與未來發展趨勢.

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

圖像缺損修復研究旨在通過計算機自動修復圖像中的缺損內容。近年來,深度神經網絡技術的出現有效 促進了相關研究的發展。本文針對該類研究進行了系統梳理和綜合介紹。依據網絡架構類型,具體將方法分為五 類:Context-Encoder 類、U-Net 類、CGAN 類、DCGAN 類以及 StackGAN 類。我們具體分析了每類方法的思路、 特點、優勢和缺陷,并基于系統性實驗,在公開大規模數據集上客觀對比評價每一類方法的精度和性能。最后對 目前相關工作中存在的問題和挑戰進行了闡述和介紹。

//cjc.ict.ac.cn/online/onlinepaper/10-lyl-y-202.pdf

付費5元查看完整內容

摘要:

為了在計算機視覺應用中學習得到更好的圖像和視頻特征,通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷,作為無監督學習方法的一個子方法——自監督學習方法,可以在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先,描述了該領域的動機和一些專業性術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。

//ieeexplore.ieee.org/document/9086055

引言

由于深度神經網絡具有學習不同層次一般視覺特征的強大能力,它已被作為基本結構應用于許多計算機視覺應用,如目標檢測[1]、[2]、[3]、語義分割[4]、[5]、[6]、圖像描述[7]等。從像ImageNet這樣的大規模圖像數據集訓練出來的模型被廣泛地用作預訓練模型和用于其他任務的微調模型,主要有兩個原因:(2)在大規模數據集上訓練的網絡已經學習了層次特征,有助于減少在訓練其他任務時的過擬合問題;特別是當其他任務的數據集很小或者訓練標簽很少的時候。

深度卷積神經網絡(ConvNets)的性能在很大程度上取決于其能力和訓練數據量。為了增加網絡模型的容量,人們開發了不同類型的網絡架構,收集的數據集也越來越大。各種網絡,包括AlexNet [9], VGG [10], GoogLeNet [11], ResNet [12], DenseNet[13]和大規模數據集,如ImageNet [14], OpenImage[15]已經被提出訓練非常深的ConvNets。通過復雜的架構和大規模的數據集,ConvNets的性能在許多計算機視覺任務[1],[4],[7],[16],[17],[18]方面不斷突破先進水平。

然而,大規模數據集的收集和標注是費時和昂貴的。ImageNet[14]是pre-training very deep 2D convolutional neural networks (2DConvNets)中應用最廣泛的數據集之一,包含約130萬張已標記的圖像,覆蓋1000個類,而每一幅圖像由人工使用一個類標簽進行標記。與圖像數據集相比,視頻數據集由于時間維度的原因,其采集和標注成本較高。Kinetics數據集[19]主要用于訓練ConvNets進行視頻人體動作識別,該數據集由50萬個視頻組成,共600個類別,每個視頻時長約10秒。許多Amazon Turk工作人員花了大量時間來收集和注釋如此大規模的數據集。

為了避免費時和昂貴的數據標注,提出了許多自監督方法來學習大規模無標記圖像或視頻的視覺特征,而不需要任何人工標注。一種流行的解決方案是提出各種各樣的前置任務讓網絡來解決,通過學習前置任務的目標函數來訓練網絡,通過這個過程來學習特征。人們提出了各種各樣的自監督學習任務,包括灰度圖像著色[20]、圖像填充[21]、玩圖像拼圖[22]等。藉口任務有兩個共同的特性:(1)圖像或視頻的視覺特征需要被ConvNets捕捉來解決前置任務;(2)監控信號是利用數據本身的結構(自我監控)產生的。

自監督學習的一般流程如圖1所示。在自監督訓練階段,為ConvNets設計預定義的前置任務,并根據數據的某些屬性自動生成前置任務的偽標簽。然后訓練卷積神經網絡學習任務的目標函數。當使用前置任務進行訓練時,ConvNet的較淺的塊集中于低級的一般特征,如角、邊和紋理,而較深的塊集中于高級任務特定的特征,如對象、場景和對象部分[23]。因此,通過藉由任務訓練的ConvNets可以學習內核來捕獲低級特征和高級特征,這對其他下游任務是有幫助的。在自監督訓練結束后,學習到的視覺特征可以作為預訓練的模型進一步轉移到下游任務中(特別是在數據相對較少的情況下),以提高性能和克服過擬合。通常,在有監督的下游任務訓練階段,僅從前幾層傳遞視覺特征。

付費5元查看完整內容

近年來,由于多模態數據的快速增長,跨模態檢索受到了研究者的廣泛關注,它將一種模態的數據作為查詢去檢索其它模態的數據。例如,用戶可以用文本檢索圖像或/和視頻。由于查詢及其檢索結果模態表征的差異,如何度量不同模態之間的相似性是跨模態檢索的主要挑戰。隨著深度學習技術的推廣以及其在計算機視覺、自然語言處理等領域的顯著成果,研究者提出了一系列以深度學習為基礎的跨模態檢索方法,極大地緩解了不同模態間相似性度量的挑戰,本文稱之為深度跨模態檢索。本文將從以下角度綜述近些年來代表性的深度跨模態檢索論文,基于所提供的跨模態信息將這些方法分為三類:基于跨模態數據間一一對應的、基于跨模態數據間相似度的以及基于跨模態數據語義標注的深度跨模態檢索。一般來說,上述信息呈現遞增的情況,且提供學習的信息越多,跨模態檢索性能越優。在上述不同類別下,涵蓋了七類主流技術,即典型相關分析、一一對應關系保持、度量學習、似然分析、學習排序、語義預測以及對抗學習。不同類別下包含其中部分關鍵技術,其中代表性方法將被具體闡述。同時本文將對比提供不同跨模態數據信息下不同技術的區別,以闡述在提供了不同層次的跨模態數據信息下相關技術的關注點與使用異同。為評估不同的跨模態檢索方法,本文總結了部分代表性的跨模態檢索數據庫。最后本文討論了當前深度跨模態檢索待解決的問題以及未來的研究方向。

付費5元查看完整內容

隨著人臉表情識別任務逐漸從實驗室受控環境轉移至具有挑戰性的真實世界環境,在深度學習技術的迅猛發展下,深度神經網絡能夠學習出具有判別能力的特征,逐漸應用于自動人臉表情識別任務。目前的深度人臉表情識別系統致力于解決以下兩個問題:1)由于缺乏足量訓練數據導致的過擬合問題;2)真實世界環境下其他與表情無關因素變量(例如光照、頭部姿態和身份特征)帶來的干擾問題。本文首先對近十年深度人臉表情識別方法的研究現狀以及相關人臉表情數據庫的發展進行概括。然后,將目前基于深度學習的人臉表情識別方法分為兩類:靜態人臉表情識別和動態人臉表情識別,并對這兩類方法分別進行介紹和綜述。針對目前領域內先進的深度表情識別算法,對其在常見表情數據庫上的性能進行了對比并詳細分析了各類算法的優缺點。最后本文對該領域的未來研究方向和機遇挑戰進行了總結和展望:考慮到表情本質上是面部肌肉運動的動態活動,基于動態序列的深度表情識別網絡往往能夠取得比靜態表情識別網絡更好的識別效果。此外,結合其他表情模型如面部動作單元模型以及其他多媒體模態,如音頻模態和人體生理信息能夠將表情識別拓展到更具有實際應用價值的場景。

付費5元查看完整內容

深度預測學習問題與方法研究

隨著移動互聯網、傳感器網絡、計算機視覺的快速發展,人們獲得了海量的 時空數據。本文面向這類數據的時間與空間結構特性,系統研究基于神經網絡的 深度預測學習方法。該方法旨在學習時空序列背后的演變規律,并對其未來狀態 給出近似估計。本文討論深度預測學習的以下難點問題:(1)如何在對時空相關 性的統一建模中考慮層次化的深度網絡特征;(2)如何緩解循環網絡深度和梯度 消失的矛盾,平衡短期與長期的時空特征;(3)針對各種確定性時空數據,研究 如何建模其復雜的趨勢非平穩過程與季節性變化;(4)針對開放視覺環境中的感 知不確定性和動態不確定性,研究如何解決概率預測模型的可信度問題;(5)如 何促進深度預測學習特征向下游語義級的有監督任務泛化。圍繞這些問題,本文 的研究過程可分為以下三個階段,呈遞進關系,每個階段包含 2-3 個創新點:

第一階段,本文探索深度預測學習的基礎網絡結構。針對難點(1),研究基于 循環網絡的記憶狀態跨層轉移方法,實現了時間記憶狀態與多層空間特征的融合;在此基礎上,針對難點(2),本文研究如何在延長循環網絡的記憶狀態轉移路徑 的同時,延緩該路徑上的反向梯度消失。

第二階段,本文根據傳統時間序列分析中的 Cramér 分解理論[1],分別從時空 信號的非平穩性、季節性和隨機性的角度出發,針對難點(3-4)研究相應的深度 預測學習方法。這些方法依次適用于存在固有動力學模式但趨勢信息相對復雜的 確定性時空數據(如短時雷達回波序列)、季節性時空數據(如交通流量序列)和 從部分可見的環境中采集的時空數據(如帶有噪聲的視頻片段)。

第三階段,本文在數據級的時空序列預測任務的基礎上更進一步,從時序關 系推理的角度出發,再度審視深度預測學習的特征表達。針對難點(5),本文在 循環網絡的狀態轉移方程中分別引入三維卷積算子和可微分的記憶狀態讀寫機制, 旨在同時促進模型對短期時空特征的感知和對長期語義關系的推理。實驗表明,這 些改進對預測模型的任務泛化大有裨益,進而說明了面向時空數據的深度預測學 習是一種有效的無監督表征學習框架。

此外,本文還設計了一套名為 PredLearn 的模型庫,從系統實現的角度對上述 創新性方法及其特點和適用范圍進行了整理、歸納和對比,以便用戶可以根據具 體的場景特性合理選擇模型。最后,本文以災害天氣短時臨近預報作為一種典型 的應用案例,介紹如何實現從本文方法到實際業務平臺的技術轉化。

付費5元查看完整內容

摘要: 行人重識別是近年來計算機視覺領域的熱點問題, 經過多年的發展, 基于可見光圖像的一般行人重識別技術已經趨近成熟. 然而, 目前的研究多基于一個相對理想的假設, 即行人圖像都是在光照充足的條件下拍攝的高分辨率圖像. 因此雖然大多數的研究都能取得較為滿意的效果, 但在實際環境中并不適用. 多源數據行人重識別即利用多種行人信息進行行人匹配的問題. 除了需要解決一般行人重識別所面臨的問題外, 多源數據行人重識別技術還需要解決不同類型行人信息與一般行人圖片相互匹配時的差異問題, 如低分辨率圖像、紅外圖像、深度圖像、文本信息和素描圖像等. 因此, 與一般行人重識別方法相比, 多源數據行人重識別研究更具實用性, 同時也更具有挑戰性. 本文首先介紹了一般行人重識別的發展現狀和所面臨的問題, 然后比較了多源數據行人重識別與一般行人重識別的區別, 并根據不同數據類型總結了5 類多源數據行人重識別問題, 分別從方法、數據集兩個方面對現有工作做了歸納和分析. 與一般行人重識別技術相比, 多源數據行人重識別的優點是可以充分利用各類數據學習跨模態和類型的特征轉換. 最后, 本文討論了多源數據行人重識別未來的發展.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190278

付費5元查看完整內容

近年來,隨著深度學習的飛速發展,深度神經網絡受到了越來越多的關注,在許多應用領域取得了顯著效果。通常,在較高的計算量下,深度神經網絡的學習能力隨著網絡層深度的增加而不斷提高,因此深度神經網絡在大型數據集上的表現非常卓越。然而,由于其計算量大、存儲成本高、模型復雜等特性,使得深度學習無法有效地應用于輕量級移動便攜設備。因此,壓縮、優化深度學習模型成為目前研究的熱點,當前主要的模型壓縮方法有模型裁剪、輕量級網絡設計、知識蒸餾、量化、體系結構搜索等。通過對以上方法的性能、優缺點和最新研究成果進行分析總結,對未來研究方向進行了展望。

付費5元查看完整內容

摘要:近年來,基于深度學習的表面缺陷檢測技術廣泛應用在各種工業場景中.本文對近年來基于深度學習的表面缺陷檢測方法進行了梳理,根據數據標簽的不同將其分為全監督學習模型方法、無監督學習模型方法和其他方法三大類,并對各種典型方法進一步細分歸類和對比分析,總結了每種方法的優缺點和應用場景.本文探討了表面缺陷檢測中三個關鍵問題,介紹了工業表面缺陷常用數據集.最后,對表面缺陷檢測的未來發展趨勢進行了展望.

付費5元查看完整內容
北京阿比特科技有限公司