題目
無人機計算機視覺:過去、現在與未來,Vision Meets Drones: Past, Present and Future
關鍵字
無人機,計算機視覺,航拍,深度學習,目標檢測與跟蹤
簡介
無人機(或稱通用無人機)裝備有攝像頭,在農業、航空攝影、快速投送和監視等領域得到了廣泛的應用。因此,對無人機視覺數據的自動理解要求越來越高,使得計算機視覺與無人機的關系越來越密切。為了促進和跟蹤目標檢測和跟蹤算法的發展,我們結合2018年歐洲計算機視覺會議(ECCV2018)和2019年IEEE國際計算機視覺會議(ICCV2019)組織了兩次挑戰研討會,吸引了全球100多個團隊。我們提供了一個大規模無人機捕獲數據集VisDrone,它包括四個軌跡,即(1)圖像目標檢測,(2)視頻目標檢測,(3)單目標跟蹤,和(4)多目標跟蹤。本文首先回顧了目標檢測與跟蹤數據集和基準,并討論了使用完全手動注釋來收集基于大規模數據集的目標檢測與跟蹤數據集所面臨的挑戰。之后,我們描述了我們的VisDrone數據集,它捕獲了中國從北到南的14個不同城市的不同城市/郊區。VisDrone是發布的最大的此類數據探測器,能夠在無人機平臺上對視覺分析算法進行廣泛的評估和研究。本文詳細分析了無人機大規模目標檢測與跟蹤領域的現狀,總結了其面臨的挑戰,并提出了未來的發展方向和改進方向。我們預計該基準將極大地推動無人機平臺視頻分析的研發。
作者
Pengfei Zhu?, Longyin Wen?, Dawei Du?, Xiao Bian, Qinghua Hu, Haibin Ling
題目: Video Description: A Survey of Methods, Datasets, and Evaluation Metrics
簡介: 視頻描述是對給定視頻內容自動生成描述語言。它在人機交互中具有應用程序,可幫助視障人士和視頻字幕。過去幾年中,由于深度學習在計算機視覺和自然語言處理方面取得了空前的成功,因此該領域的研究激增。文獻中已經提出了許多方法,數據集和評估指標,這要求進行全面調查以將研究工作集中在這個蓬勃發展的新方向上。本文通過重點研究深度學習模型的最新方法來填補這一空白。比較基準數據集的域,類數和存儲庫大小;并確定各種評估指標(例如SPICE,CIDEr,ROUGE,BLEU,METEOR和WMD)的優缺點。經典的視頻描述方法將主語,賓語和動詞檢測與基于模板的語言模型相結合,以生成句子。但是,大型數據集的發布表明,這些方法無法應對不受約束的開放域視頻的多樣性。古典方法之后是很短的統計方法時代,很快就被深度學習所取代,后者是視頻描述中的最新技術。我們的調查顯示,盡管發展迅速,但由于以下原因,視頻描述研究仍處于起步階段:視頻描述模型的分析具有挑戰性,因為難以確定對視覺特征的準確性或誤差的貢獻。最終描述中采用的語言模型。現有的數據集既不包含足夠的視覺多樣性,也不包含語言結構的復雜性。最后,當前的評價指標未能衡量機器生成的描述與人類描述之間的一致性。
摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。
題目
NLP注意力機制綜述論文翻譯,Attention, please! A Critical Review of Neural Attention Models in Natural Language Processing
關鍵詞
注意力機制,自然語言處理,深度學習,人工智能
簡介
注意力是一種廣泛用于神經體系結構的越來越流行的機制。由于該領域的快速發展,仍然缺少對注意力的系統概述。 在本文中,我們為自然語言處理的注意力體系結構定義了一個統一的模型,重點是旨在與文本數據的矢量表示一起工作的體系結構。 我們討論了提案不同的方面,注意力的可能用途,并繪制了該領域的主要研究活動和公開挑戰。
作者
Andrea Galassi
Department of Computer Science and Engineering (DISI),
University of Bologna, Bologna, Italy ;
Marco Lippi
Department of Sciences and Methods for Engineering (DISMI),
University of Modena and Reggio Emilia, Reggio Emilia, Italy ;
Paolo Torroni
Department of Computer Science and Engineering (DISI),
University of Bologna, Bologna, Italy
主題: A Review on Deep Learning Techniques for Video Prediction
摘要: 預測,預期和推理未來結果的能力是智能決策系統的關鍵組成部分。鑒于深度學習在計算機視覺中的成功,基于深度學習的視頻預測已成為有前途的研究方向。視頻預測被定義為一種自我監督的學習任務,它代表了一個表示學習的合適框架,因為它展示了提取自然視頻中潛在模式的有意義的表示的潛在能力。視頻序列預測的深度學習方法。我們首先定義視頻預測的基礎知識,以及強制性的背景概念和最常用的數據集。接下來,我們會仔細分析根據擬議的分類法組織的現有視頻預測模型,突出顯示它們的貢獻及其在該領域的意義。數據集和方法的摘要均附有實驗結果,有助于在定量基礎上評估現有技術。通過得出一些一般性結論,確定開放研究挑戰并指出未來的研究方向來對本文進行總結。
Bahl從一個十多年前就開始研究邊緣計算范式的研究人員的角度來探索邊緣計算范式。他討論了智能邊緣的發展,描述了現實世界的應用和產品;取得的進展和教訓,因為他們開發和部署火箭,一個邊緣云實時視頻分析系統。Rocket是Vision Zero等幾個試點項目的一部分,該項目旨在減少與交通有關的死亡人數,提高城市流動性。Bahl還展望了未來,并預測電信行業將如何將邊緣計算作為其基礎設施的一部分。他列出了大規模采用所面臨的一些技術和業務挑戰以及所創造的機遇。
一個混合的邊緣云實時視頻分析系統,使每個人都能夠建立實際的現實世界的視頻分析應用與前沿的機器學習算法
題目: A Comprehensive Scoping Review of Bayesian Networks in Healthcare: Past, Present and Future
摘要:
過去沒有發表過關于貝葉斯網絡(BNs)在醫療領域的全面綜述,這使得組織當前的研究貢獻和確定未來需要處理的挑戰和被忽視的領域變得困難。這種獨特和新穎的范圍審查BNs在醫療保健方面提供了一個分析框架,全面表征該領域及其現狀。綜述表明:(1)保健領域的BNs沒有充分發揮其潛力;(2)缺乏通用的BN開發流程;(3)文獻中BNs在醫療領域的表述存在局限性,影響了對BNs的理解、對系統方法學的共識、BNs的實踐和應用;(4)準確的BN和影響臨床實踐的有用BN之間存在差距。本綜述為研究人員和臨床醫生提供了一個分析框架和研究結果,使他們能夠理解解決BN限制目標、特別是BN開發方法和實踐中缺乏BN采用等問題的必要性。還展望了未來的研究方向,并對BN的發展方法和在實踐中的應用提出了建議。
【導讀】無人機計算機視覺相關檢測和跟蹤( Vision Meets Drones)作為近年來的研究熱點之一,受到了廣泛關注,這兩年在各大會議上都有相關文章發表,并且也有一些競賽。當前,無人機收集的視覺數據的自動理解變得非常困難,并且其用途廣泛,天津大學的朱鵬飛博士、京東數字科技文瓏銀博士和紐約州立大學奧爾巴尼分校的獨大為博士等新出的這篇論文對近幾年基于無人機視覺檢測和跟蹤方法和數據集進行了全面綜述,總結了當前面臨的挑戰,提出了未來的發展方向和改進方向。作者也提供了一個大規模的無人機捕獲數據集VisDrone,其中包括四個track,即(1)圖像目標檢測,(2)視頻目標檢測,(3)單目標跟蹤,(4)多目標跟蹤。對每一個track進行了詳細得說明,并強調VisDrone是迄今為止發布的最大的此類數據集,可以在無人機平臺上對視覺分析算法進行廣泛的評估和研究。
//github.com/VisDrone/VisDrone-Dataset
【摘要】配備了攝像頭的無人機,或稱通用無人機,已經被快速部署到廣泛的應用領域,包括農業、航空攝影、快速遞送和監控。因此,對無人機收集的視覺數據的自動理解變得非常困難,這使得計算機視覺和無人機之間的聯系越來越緊密。為了促進和跟蹤目標檢測和跟蹤算法的發展,我們與歐洲計算機視覺大會(ECCV) 2018和IEEE計算機視覺國際會議(ICCV) 2019聯合舉辦了兩個挑戰研討會,吸引了全世界100多支團隊。我們提供了一個大規模的無人機捕獲數據集VisDrone,其中包括四個track,即(1)圖像目標檢測,(2)視頻目標檢測,(3)單目標跟蹤,(4)多目標跟蹤。本文首先對目標檢測和跟蹤數據集和基準進行了全面的回顧,并討論了收集具有完全手動標注的大規模基于無人機的目標檢測和跟蹤數據集的挑戰。之后,我們描述了VisDrone數據集,該數據集是從中國北方到南方的14個不同城市的各個城市/郊區捕獲的。VisDrone是迄今為止發布的最大的此類數據集,它可以在無人機平臺上對視覺分析算法進行廣泛的評估和研究。我們詳細分析了無人機大尺度目標檢測與跟蹤領域的現狀,總結了當前面臨的挑戰,提出了未來的發展方向和改進方向。我們預計這一基準將極大地促進無人機平臺視頻分析的研發。可以從以下網站下載所有數據集和實驗結果:
參考鏈接:
引言
近年來,計算機視覺因其在交通監控、智慧城市、人機交互等領域的廣泛應用而受到越來越多的關注。作為計算機視覺的兩個基本問題,目標檢測和跟蹤一直受到廣泛的關注。在導致計算機視覺技術快速發展的眾多因素和努力中,值得注意的貢獻應歸功于眾多基準和挑戰的發明或組織, 如目標檢測的Caltech [1], KITTI [2], ImageNet [3], 和MS COCO [4],目標跟蹤的OTB [5], VOT [6], MOTChallenge [7], UA-DETRAC [8], 和LaSOT [9]。
配備攝像頭的無人機已經被快速部署到廣泛的領域,包括農業、航空攝影、快速投遞和監視。因此,對從這些無人機收集的視覺數據的自動理解變得非常困難,這將計算機視覺越來越緊密地帶入了無人機。盡管一般的計算機視覺算法(如檢測和跟蹤)取得了很大的進步,但這些算法通常不是處理無人機捕獲的序列或圖像的最佳算法。這是由于各種各樣的挑戰,如較大的視點變化和規模。因此,為無人機捕獲的視覺數據開發和評估新的視覺算法至關重要。然而,正如[10]和[11]所指出的,由于缺乏公開的大規模基準或數據集,對這一目標的研究受到嚴重限制。最近,[10]、[11]和[12]致力于構建無人機捕獲的數據集,這些數據集主要用于目標檢測或跟蹤。由于數據收集和標注方面的困難,這些數據集的大小和涉及的場景仍然有限。對現有或新開發的算法進行徹底的評估仍然是一個開放的問題。為了進一步推進無人機平臺視頻分析研究,需要一個更通用、更全面的基準。
因此,作者與歐洲計算機視覺大會(ECCV) 2018和IEEE國際計算機視覺大會(ICCV) 2019聯合舉辦了兩次挑戰研討會,吸引了全世界100多個研究團隊。挑戰集中在目標檢測和跟蹤的四個track。
圖像目標檢測跟蹤(DET)。
視頻目標檢測跟蹤(VID)。
單目標跟蹤(SOT)。
多目標跟蹤(MOT)。
值得注意的是,在研討會挑戰中,本文提供了一個大型數據集,包含179個視頻中263個視頻片段; 10個視頻中的264幀畫面; 209張靜態圖像。數據由不同的無人機相機記錄,包括位置(取自中國14個不同的城市)、環境(城市和農村地區)、物體(如行人、車輛和自行車)和密度(稀疏和擁擠的場景)。作者選擇了10類在無人機應用中最受關注的目標,比如行人和汽車。作者共仔細標注了來自這些類別的超過250萬個目標實例的邊界框。此外,還提供了一些重要的屬性,包括場景的可見性、目標類別和遮擋,以提高數據使用率。表1列出了所提供的無人機數據集與其他相關基準數據集在目標檢測和跟蹤方面的詳細比較。
在這篇論文中,作者重點關注了2018年和2019年的VisDrone挑戰,以及挑戰的方法、結果和評估方案,希望這一挑戰能在很大程度上促進相關領域的研究和發展。
【導讀】隨著近幾年來AI技術的飛速發展,人們將計算機視覺技術應用于自動駕駛,使得自動駕駛的應用變得可行,很大程度地推進了自動駕駛技術的發展。本文介紹一篇關于自動駕駛計算機視覺的全面綜述,覆蓋了該領域相關的問題、數據集和最先進的技術。
近幾年來,我們目睹了AI相關領域取得的巨大的進步,如計算機視覺、機器學習、自動駕駛等。隨著這些領域的飛速發展,初學者很難了解領域最新的進展。在自動駕駛計算機視覺領域,盡管出現了一些關于特定子問題的綜述,但尚未發布關于問題、數據集和方法的全面和綜合的綜述。
綜述《Computer Vision for Autonomous Vehicles: Problems, Datasets and State of the Art》試圖通過提供對目前最先進的相關技術和數據集的調研來縮小人們對該領域的認知鴻溝。綜述既包括了已有的最相關的文獻,也包含了一些特殊主題目前最先進的成果,如識別、重建、運動估計、跟蹤、場景理解和自動駕駛端到端學習。綜述還包含了對最先進技術在KITTI、MOT和Cityscapes等幾個具有挑戰性的基準數據集上的性能的分析。
另外,該綜述還討論了一些開放問題和目前的研究挑戰。綜述還提供了一個網站,方便人們訪問相關的主題,以及提供額外的信息。
綜述首先提供了自動駕駛的簡要歷史,然后介紹了相機模型和校準技術。接著,綜述介紹了與自動駕駛相關的數據集(重點關注與感知相關的數據集)、相關的感知任務和最新的解決方法。尤其是,綜述回顧了目標檢測、目標跟蹤、語義(實體)分割、重建、運動估計和場景理解。每個章節包含了問題定義、重要方法和主要設計選擇、頂尖技術在流行數據集上的定性和定量分析以及關于領域最先進技術的討論。最終,綜述提供了關于最先進端到端自動駕駛模型的概覽。
綜述的目錄大致如下:
論文題目: Salient Object Detection in the Deep Learning Era: An In-Depth Survey
論文摘要: 作為計算機視覺中的一個重要問題,圖像中的顯著目標檢測(SOD)近年來得到了越來越多的研究。最近在超氧化物歧化酶方面的進展主要是基于深度學習的解決方案(稱為深超氧化物歧化酶)。為了便于深入理解深層SODs,本文提供了一個全面的綜述,涵蓋了從算法分類到未解決的開放問題的各個方面。特別是,我們首先從網絡結構、監控級別、學習范式和對象/實例級別檢測等不同角度對深度超氧化物歧化酶算法進行了綜述。在此基礎上,總結了現有的SOD評價數據集和指標體系。然后,在前人工作的基礎上,認真編寫了一個完整的SOD方法的基準測試結果,并對對比結果進行了詳細的分析。另外,通過構造一個新的具有豐富屬性標注的SOD數據集,研究了不同屬性下的SOD算法的性能,這在以前的研究中是很少的。我們首次在現場進一步分析了deep-SOD模型的魯棒性和可轉移性。我們還研究了輸入擾動的影響,以及現有SOD數據集的通用性和硬度。最后,討論了超氧化物歧化酶存在的問題和挑戰,并指出了未來可能的研究方向。
In this paper we present a large-scale visual object detection and tracking benchmark, named VisDrone2018, aiming at advancing visual understanding tasks on the drone platform. The images and video sequences in the benchmark were captured over various urban/suburban areas of 14 different cities across China from north to south. Specifically, VisDrone2018 consists of 263 video clips and 10,209 images (no overlap with video clips) with rich annotations, including object bounding boxes, object categories, occlusion, truncation ratios, etc. With intensive amount of effort, our benchmark has more than 2.5 million annotated instances in 179,264 images/video frames. Being the largest such dataset ever published, the benchmark enables extensive evaluation and investigation of visual analysis algorithms on the drone platform. In particular, we design four popular tasks with the benchmark, including object detection in images, object detection in videos, single object tracking, and multi-object tracking. All these tasks are extremely challenging in the proposed dataset due to factors such as occlusion, large scale and pose variation, and fast motion. We hope the benchmark largely boost the research and development in visual analysis on drone platforms.