亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多目標跟蹤是計算機視覺領域的經典研究方向。最近來自浙江大學等《多目標跟蹤MOT嵌入》綜述論文,對現有的MOT嵌入方法進行了分類和總結,并對其優點和局限性進行了深入全面的分析。總結為未來的算法設計和新課題的探索提供了啟示。

多目標跟蹤(MOT)的目的是將視頻幀內的目標物體進行關聯,從而獲得完整的運動軌跡。隨著深度神經網絡的發展和對智能視頻分析需求的增加,MOT在計算機視覺界得到了越來越多的關注。嵌入方法在目標定位估計和時間身份關聯中起著至關重要的作用。與其他計算機視覺任務如圖像分類、目標檢測、再識別、分割等不同,MOT中的嵌入方法變化很大,從未得到系統的分析和總結。本研究首先從patch級嵌入、單幀嵌入、跨幀聯合嵌入、關聯嵌入、順序嵌入、軌跡嵌入和跨軌關系嵌入7個不同的角度對MOT中的嵌入方法進行了全面的綜述和深入的分析。我們進一步總結了現有的廣泛使用的MOT數據集,并根據其嵌入策略分析了現有的先進方法的優勢。最后,討論了一些有待進一步研究的領域和未來的研究方向。

//arxiv.org/abs/2205.10766

近年來,多目標跟蹤(MULTI-OBJECT tracking, MOT)得到了廣泛的研究,其目的是將被檢測物體跨視頻幀進行關聯,獲得完整的運動軌跡。近年來出現了各種各樣的跟蹤算法,從圖聚類方法[1],[2],[3],[4]到聚合跨幀和對象信息的圖神經網絡[5],[6],[7],[8];從跟蹤檢測模式[9]、[10]、[11],到聯合檢測跟蹤[5]、[12]、[13]、[14]、[15]、[16],提高多幀檢測性能;從卡爾曼濾波[17]到循環神經網絡(RNN)[18]和長短時記憶(LSTM)[19],以提高與運動線索的關聯性能。隨著跟蹤算法的發展,MOT可以應用于許多任務,如交通流分析[1],[20],[21],[22],人類行為預測和姿態估計[23],[24],[25],[26],自動駕駛輔助[27],[28],甚至水下動物豐度估計[29],[30],[31]。

MOT系統的流程主要分為兩部分,即嵌入模型和關聯算法。在輸入多個連續幀的情況下,通過嵌入技術和關聯方法估計目標的位置和軌跡。由于存在光照變化、遮擋、復雜環境、快速相機運動、不可靠檢測、各種低分辨率[32]等問題,MOT具有挑戰性。此外,跟蹤算法的單個步驟,如檢測、特征提取、親和力估計和關聯,也會影響跟蹤性能。這些導致了顯著的變化和不確定性。隨著深度神經網絡表示學習的發展,嵌入方法在MOT中目標位置估計和時間身份關聯中發揮著重要作用。雖然關聯在MOT中也很重要,但在本研究中,我們更多關注的是嵌入學習,而不是關聯。

然而,MOT中的嵌入學習方法還沒有得到系統的分析和總結。不同于其他計算機視覺任務,如圖像分類、目標檢測、再識別(Re-ID)和分割,MOT中的嵌入方法有很大的變化。一些嵌入方法將多任務頭[16]、[33]、[34]、[35]、[36]組合在一起,包括框回歸、對象分類、再識別等。一些嵌入方法考慮了[12],[14],[37],[38],[39]的時空相關性,將外觀信息和運動信息相互協作。一些方法利用目標之間的交互關系,前景和背景,局部和全局信息的相關性和注意,學習軌跡嵌入[40],[41],[42],[43]。嵌入方法的較大偏差促使我們從嵌入的角度進行全面綜述,并討論幾個研究不足的嵌入區域和未來的方向。

圖 1. MOT中嵌入方法的分類。最上面的流程圖是這次調查的大綱。綠色和淺紅色的盒子表示嵌入方法和代表性文獻分別。

近年來已有一些關于MOT的綜述[44],[45],[46],[47],[48]發表。具體來說,[44]總結了一些基于深度學習的跟蹤器和深度神經網絡結構。[45]側重于回顧基于模型的多假設跟蹤與機器學習技術在檢測,過濾和關聯。[46]回顧了深度學習在MOT中的應用,包括檢測、特征提取、親和性計算和關聯。[47]回顧了近幾十年來MOT的發展,重點關注深度學習技術和研究MOT的最新進展。[48]提供了MOT系統的回顧,并從不同的方面討論了方法。與現有研究不同的是,我們關注的是MOT中的嵌入學習,即如何為MOT任務學習面向對象的代表性特征,并根據嵌入策略對最先進的方法進行綜合分析。這項綜述的主要貢獻總結如下:

  • 我們對現有的MOT嵌入方法進行了分類和總結,并對其優點和局限性進行了深入全面的分析。總結為未來的算法設計和新課題的探索提供了啟示。

  • 我們總結了廣泛使用的數據集和基準測試,并根據嵌入方法分析了最先進的方法。

  • 我們試圖討論與嵌入技術相關的幾個重要研究方向和未被充分研究的問題,并對未來的趨勢邁出一步

這次綜述的概要總結如下。我們首先演示了相關的工作,包括在第2節中最相關的MOT任務。第3節提供了嵌入方法的分類和詳細調研。然后,我們總結了現有的廣泛使用的MOT數據集,評估指標,并根據嵌入方法分析了最先進的方法。在第5節中,我們討論了幾個未被研究的問題,并指出了未來的發展趨勢和潛在的研究方向。結論在第6節得出。

MOT嵌入方法體系**

**嵌入方法是目標位置估計和ID關聯的關鍵。我們提出的MOT嵌入方法分類如圖1所示。在本節中,我們將常用的MOT嵌入方法分為七組,包括patch級嵌入、單幀嵌入、跨幀聯合嵌入、基于相關的嵌入、序列嵌入、軌跡嵌入和交叉軌跡關系嵌入。對于每一類方法,我們都介紹了具有代表性的算法,然后討論了它們的優缺點,希望能為研究人員提供對每一類方法的深入分析。

MOT數據集

我們首先回顧了11個廣泛使用的MOT數據集,包括KITTI [177], [211], [212], mo15 [213], DukeMTMCT [117], MOT16-17 [143], PathTrack [124], UA-DETRAC [214], PoseTrack [215], [216], MOTS [37], CityFlow [20], KITTI MOTS [37], MOT20 [32], [144], nuScenes [217], Waymo [218], BDD100K[219],[220],和VisDrone[221],[222],[223],[224]。這些數據集主要集中在人和車輛的跟蹤。一些用于一般的行人跟蹤,一些用于交通流分析和自動駕駛。注釋包括2D和3D邊框、姿勢和關鍵點以及實例蒙版。表2匯總了這些數據集的統計情況。也有其他針對特定任務的跟蹤數據集,如HiEve [225], [226], DanceTrack [227], Omni-MOT [38], [228], Virtual KITTI [229], Apollo MOTS [111], TAO-person [230], WildTrack[231],和GMOT-40[232]。這些數據集的詳細信息可以在參考資料中找到。

未來方向**

沒有得到充分的研究領域

本文從非完全監督學習、泛化和領域自適應、擁擠場景嵌入、多視圖協作和多模態MOT五個方面探討了MOT嵌入方法的發展趨勢和潛在發展方向。

元學習 輔助任務學習 大規模預訓練 從其他跟蹤相關模型中提取知識,用于嵌入學習,如基于圖像的Re-ID模型和檢測模型。 學習跨域嵌入,以彌合訓練和測試分布差異。 挖掘先驗、約束和一致性,如進入-離開一致性(計數一致性)、幾何一致性和自我運動一致性。 估計隱式對象行為狀態以增強嵌入。 目標軌跡估計的推理與因果學習。

付費5元查看完整內容

相關內容

【導讀】聚類是機器學習的一項基本任務。深度學習的發展催生了深度聚類。來自浙江大學等學者發布了關于深度聚類的最新綜述論文,35頁pdf涵蓋246篇文獻概述了深度聚類的概念、方法、體系與應用,值得關注!

聚類是一種基本的機器學習任務,在文獻中得到了廣泛的研究。經典的聚類方法遵循這樣的假設:通過各種表示學習技術,數據被表示為向量化的特征。隨著數據變得越來越復雜和復雜,淺層(傳統)聚類方法不再能夠處理高維數據類型。隨著深度學習,尤其是深度無監督學習的巨大成功,在過去的十年中,許多具有深度架構的表示學習技術被提出。融入深度學習好處的一種直接方法是,在將其輸入淺層聚類方法之前,首先學習深度表示。然而,這是次優的,因為: 1) 表示不是直接學習的聚類,限制了聚類性能;(2)聚類依賴于實例間的復雜關系而非線性關系;3)聚類和表示學習是相互依賴的,應該相互促進。為了應對上述挑戰,深度聚類(Deep Clustering)的概念被提出,即聯合優化表征學習和聚類,因此受到越來越多的關注。基于深度學習在聚類(最基本的機器學習任務之一)中的巨大成功,以及該方向最近的大量進展,本文通過提出不同最新方法的新分類,對深度聚類進行了全面的調研。我們總結了深度聚類的基本組成部分,并通過設計深度表示學習和聚類之間的交互方式對現有方法進行分類。此外,該綜述還提供了流行的基準數據集、評估指標和開源實現,以清楚地說明各種實驗設置。最后,我們討論了深度聚類的實際應用,并提出了值得進一步研究的具有挑戰性的主題作為未來的方向。

//www.zhuanzhi.ai/paper/c46ee4cd4877641a916a18dd389c017e

聚類是機器學習中的一個基本問題,也是許多數據挖掘任務中的一個重要預處理步驟。聚類的主要目的是將實例分配到組中,使相似的樣本屬于同一個集群,而不同的樣本屬于不同的集群。樣本的聚類提供了數據實例的全局表征,可以顯著地促進對整個數據集的進一步分析,如異常檢測[166,201]、域適應[180,240]、社區檢測[121,178]和鑒別表示學習[133,164,214]等。

雖然淺聚類方法已經取得了巨大的成功,但它們假設實例已經在一個具有良好形狀的潛在矢量空間中表示。隨著過去幾十年互聯網和web服務的快速發展,研究人員對發現新的機器學習模型越來越感興趣,這些模型能夠處理沒有明確特征的非結構化數據,如圖像,以及具有數千維的高維數據等。因此,淺聚類方法不能再直接用于處理此類數據。近年來,深度學習的表示學習取得了成功,特別是在非結構化和高維數據中[166,201]。然而,在聚類過程中并沒有探索深度學習技術。由于不能很好地捕捉到實例間復雜的關系,導致聚類結果欠佳。

為了解決這一問題,深度聚類(Deep Clustering)技術應運而生,它旨在將深度表示學習和聚類聯合優化。更具體地說,深度聚類方法關注以下研究挑戰:(1)如何學習能夠產生更好聚類性能的判別表示?(2)如何在一個統一的框架下高效地進行聚類和表示學習?(3)如何打破聚類和表示學習之間的壁壘,使它們以交互迭代的方式相互增強?

為了解決上述挑戰,已經提出了許多具有不同深度架構和數據類型的深度聚類方法。受聚類(最基本的機器學習任務之一)中深度學習的巨大成功以及該方向最近取得的大量進展的激勵,本文通過提出各種最新方法的新分類,對深度聚類進行了全面的調研。

綜上所述,本文旨在從以下幾個方面為潛在讀者理解深度聚類全景圖提供支持:

  • 深度集群的基石。我們總結了深度聚類的兩個基礎模塊,即表示學習模塊和聚類模塊。對于每個模塊,我們強調了從現有方法中總結出的具有代表性和通用性的設計,這些設計很容易推廣到新的模型中。

  • 系統的分類。基于表示學習模塊和聚類模塊之間的交互方式,我們對現有的深度聚類方法進行了系統的分類,提出了四個具有代表性的方法分支。我們還在不同的場景中比較和分析每個分支的屬性。

  • 豐富的資源和參考資料。我們收集了各種類型的基準數據集、評估指標和深度聚類最新論文的開源實現,這些數據與Github (1.8K Star)上的參考文獻一起組織。

  • 未來的發展方向。基于表示學習模塊和聚類模塊的特性及其相互作用,我們討論了現有方法的局限性和挑戰,并對未來值得研究的有前景的研究方向提出了自己的見解和想法。

在這個調研中,我們關注深度學習技術的聚類,特別是深度表示學習和深度神經網絡聚類之間的相互作用。對于其他基礎研究問題,如初始化聚類、自動識別聚類數量等,我們在第8節中進行了討論,并將其留待以后的工作。關于淺聚類、深聚類和表示學習的調研比較見表1。

付費5元查看完整內容

目標檢測是計算機視覺和圖像處理中的一項基本任務。目前,基于深度學習的目標檢測器已經成功地獲得了大量的標記數據。但在現實生活中,并不能保證每個對象類別都有足夠的標記樣本進行訓練。這些大型目標檢測器在訓練數據有限的情況下容易出現過擬合。因此,有必要將少樣本學習和零樣本學習引入目標檢測中,兩者可以統稱為低樣本目標檢測。低樣本目標檢測(Low-Shot Object Detection, LSOD)旨在從少量甚至零標記數據中檢測目標,可分為少樣本目標檢測(few-shot Object Detection, FSOD)和零樣本目標檢測(zero-shot Object Detection, ZSD)。本文對基于FSOD和ZSD的深度學習進行了全面的研究。首先,本綜述將FSOD和ZSD的方法分為不同的類別,并討論了它們的優缺點。其次,本綜述回顧了FSOD和ZSD的數據集設置和評估指標,然后分析了不同方法在這些基準上的性能。最后,本綜述討論了FSOD和ZSD未來面臨的挑戰和發展方向。

引言

目標檢測是計算機視覺中一項基礎而又具有挑戰性的任務,它的目標是在圖像中定位特定類別的目標。目標檢測已廣泛應用于許多計算機視覺任務中,如目標跟蹤[88]、圖像標注[67]、場景圖生成[72]等。目標檢測的一般過程是為一組包圍框(圖像中參考的假想矩形)預測類別。大多數傳統方法通過在整個圖像中滑動一個窗口來生成這些邊界框。Viola-Jones (VJ)檢測器[74]首次采用積分圖像、特征選擇和檢測級聯三種加速技術實現了人臉的實時檢測。隨后提出了直方圖定向梯度(histogram of oriented gradient, HOG)[12],并被許多目標檢測器用于特征描述。在這些方法中,基于變形部件的模型[16]是一種典型的方法。DPM將一個對象檢測任務劃分為多個細粒度的檢測任務,然后使用多個部分過濾器檢測對象部件,并將其聚合起來進行最終預測。雖然人們已經做了很多改進,但傳統的方法受到速度慢、精度低的限制。

與傳統方法相比,深度方法能夠以更有效的圖像特征實現更強的性能。R-CNN[21]是基于深度學習方法的最具代表性的工作之一。它使用選擇性搜索獲得區域建議(即圖像中更可能包含目標的區域),然后使用預訓練好的CNN模型提取其特征,進行進一步的分類和定位。快速R-CNN[20]通過使用感興趣區域(RoI)池化層來從圖像的整個特征圖生成區域建議的特征圖來改進R-CNN。Faster R-CNN[64]進一步提出了一種區域提議網絡(region proposal network, RPN),取代了傳統的通過錨點(即預定義的一定高度和寬度的包圍盒)從整個圖像特征地圖生成區域提議的方法。R-CNN、Fast R-CNN和Faster R-CNN分為兩個階段模型,首先生成區域建議,然后進行預測。為了進一步加速,單階段模型將這兩個過程結合在一起。YOLOstyle目標檢測器[63][3][19]是單級檢測框架的代表模型。根據從原始圖像中提取的特征圖,yolo風格的檢測器直接在圖像的所有位置上預定義多個尺度的錨點,并預測每個錨點的類別概率、位置偏移量和目標置信度。單級檢波器的性能一般不如兩級檢波器,一些方法如焦損耗[47]被提出以減小單級和兩級檢波器之間的性能差距。最近,一種基于transformer的檢測器被提出,命名為DETR[4]。DETR直接將固定數量的目標查詢轉發到transformer中,并對它們進行預測。DETR實現端到端檢測,具有與許多經典探測器相當的性能。為了緩解檢測器收斂緩慢的問題,變形檢測器[103]提出了一個變形注意模塊,它只訪問一個參考點周圍的一小組關鍵采樣點,而UP-DETR[11]提出了一個名為隨機查詢補丁檢測的非監督任務來預訓練檢測器。

然而,這些目標檢測器依賴于大量的訓練數據。在訓練數據不足的情況下,現有的目標檢測器容易過擬合,不能泛化到測試數據。在現實生活中,由于某些目標類別的稀缺或特殊的標簽成本,很難收集到足夠的標簽數據。因此,現代目標檢測器需要具備從少量甚至零標記數據中檢測目標的能力,并將少樣本和零樣本學習引入到目標檢測中。少樣本學習的目的是從少量標記樣本中學習泛化模型。在過去的幾年里,針對少樣本學習提出了很多方法,大致可以分為數據增強方法、元學習方法和遷移學習方法。數據增強方法通過使用傳統的圖像變換方法或基于深度學習的方法(如GAN)生成新樣本,直接解決了數據稀缺問題。元學習方法采用學習到學習的機制,在另一個數據豐富的數據集上定義多個少次任務來訓練模型,使模型能夠快速適應當前的少次任務。與在元學習中使用多個片段進行訓練不同,遷移學習方法的目標是直接學習另一個數據集上的良好圖像表示,并將它們轉移到當前數據集。Work[73]研究了一些用于少量圖像分類的基線遷移學習方法,實驗證明它們優于許多經典的元學習方法。

圖1. 本次綜述的概述。本文對低樣本目標檢測進行了全面的介紹,并將低樣本目標檢測分為單樣本目標檢測、少樣本目標檢測和零樣本目標檢測三個領域。圖中還用三種顏色演示了這三個域的更細粒度的分類,后面的小節將詳細討論這些分類。然后總結了OSOD、FS和ZSD的基準,并比較分析了不同LSOD方法在這些基準上的性能。最后對LSOD的發展方向進行了展望。

以往的少樣本學習方法主要是針對圖像分類的任務進行探索。由于目標檢測需要額外的任務來定位目標,因此,少樣本目標檢測比少樣本圖像分類更具挑戰性。但是FSOD方法繼承了FSL方法的主要思想,FSL方法也可以分為兩種主流方法:元學習方法和遷移學習方法。早期的FSOD方法遵循少樣本學習的元學習方法,主要關注如何結合支持圖像和查詢圖像的特性。這些元學習方法可以分為特征向量聚合方法和特征地圖聚合方法。將遷移學習方法引入到少樣本目標檢測中,在另一個數據集中對檢測器進行預訓練,然后在當前的少樣本數據集中對檢測器進行微調。在遷移學習方法中引入了對比學習、度量學習、正則化等方法。除了原有的標準FSOD設置外,研究者還探索了半監督FSOD、弱監督FSOD和增量FSOD等其他設置。還有一個更有挑戰性的設置,即每個少數樣本類都有零標記樣本,這被稱為零樣本學習(ZSD)。在零概率學習中,每個類都有其語義屬性作為補償。實際上,FSOD和ZSD可以考慮在一個條件下,一些方法[60][33]提出了一個組合模型,同時處理FSOD和ZSD。因此,本次綜述將FSOD和ZSD表示為低樣本目標檢測(LSD)。低樣本目標檢測的層次結構分類法如圖1所示。

本文對現有的少樣本和零樣本目標檢測算法進行了全面的回顧和分析。本文總結了現有的少樣本和零樣本目標檢測算法的性能。本文討論了少樣本和零樣本目標檢測的主要挑戰和未來的發展方向。本文綜述的其余部分組織如下。第二節描述了對少樣本和零樣本目標檢測算法進行更細粒度的分類和分析。第八節描述了常用的少樣本和零樣本目標檢測數據集和評價標準。第九節總結了現有的少樣本和零樣本目標檢測算法的性能。最后,第十一節總結了本次綜述的內容,然后討論了當前方法面臨的主要挑戰和未來的發展方向的少樣本和零樣本目標檢測。

本文對低樣本目標檢測進行了深入的研究,根據每個新類是否使用少量標記樣本或語義屬性,將低樣本目標檢測分為少樣本目標檢測(FSOD)和零樣本目標檢測(ZSD)。首先對低目標檢測方法進行了概括介紹,然后對FSOD和ZSD方法進行了分類和分析。總結了FSOD和ZSD的主要基準,并對不同方法的性能進行了比較。最后討論了FSOD和ZSD的發展方向。

付費5元查看完整內容

摘要

視頻分割,即將視頻幀分割成多個片段或對象,在電影的視覺效果輔助、自動駕駛中的場景理解、視頻會議中的虛擬背景創建等廣泛的實際應用中起著至關重要的作用。最近,由于計算機視覺中的連接主義的復興,出現了大量基于深度學習的方法,這些方法致力于視頻分割,并提供了引人注目的性能。本文通過對視頻中未知類別的一般目標分割和視頻語義分割這兩項研究的任務設置、背景概念、感知需求、發展歷史和主要挑戰的介紹,全面回顧了這兩項研究的基本方向。我們還提供了一個詳細的概述的代表性文獻的方法和數據集。此外,我們在基準數據集上提出了評測方法的量化性能比較。最后,指出了該領域尚未解決的問題,并提出了進一步研究的機會。

引言

視頻分割是機器視覺中一個基本的、具有挑戰性的問題,它是識別視頻場景中具有特定特征屬性或語義值的目標集。由于其在廣泛應用領域(如自動駕駛、機器人技術、自動監控、社交媒體、增強現實、電影產業、視頻會議等)中的重要作用,它長期以來一直受到計算機視覺和圖形界的廣泛關注和積極研究。

視頻分割在過去已經被用來解決各種傳統的計算機視覺和機器學習技術,包括手工特征(例如,顏色,直方圖統計,光流等),啟發式先驗知識(例如,視覺注意力機制[1],運動邊界[2]等),低/中級視覺表示(例如,超級體素[3]、軌跡[4]、對象proposal [5]等),以及經典的機器學習模型(如聚類算法[6]、圖模型[7]、隨機漫步[8]、支持向量機[9]、隨機決策森林[10]、馬爾可夫隨機場[11]、條件隨機場[12]等)。近年來,隨著深度神經網絡的蓬勃發展,特別是全卷積網絡(FCN)[13]的發展,視頻分割取得了顯著的進展。這些基于深度學習的視頻分割算法在準確性和有時甚至效率方面大大超過了其他老方法,并繼續提高技術水平。

隨著這一領域的快速發展,出現了大量的新文獻。然而,現有的綜述大多是過時的(發表在現代深度學習時代之前)[14]、[15],而且往往視野狹窄,即只關注前/背景視頻分割[16]、[17]。該領域的不斷變化和技術發展的快節奏給啟動帶來了困難。因此,由于視頻分割設置的多樣性和概念的模糊性,進行全面深入的綜述是非常困難和費時的,但非常有必要和幫助。

為此,我們首先系統地介紹了視頻分割的最新進展,從任務制定到分類,從算法到數據集,從尚未解決的問題到未來的研究方向。它涵蓋了幾個關鍵方面,包括任務類別(前景/背景分離vs語義分割),處理模式(即自動、半自動和交互式),學習范式(即監督、無監督和弱監督),以及澄清混淆的術語(如背景減法、運動分割,等等)。我們希望這項綜述可以為感興趣的研究者提供一個全面的回顧,并促進對提出的開放問題的研究。

本文主要研究了視頻分割的兩個主要分支,即視頻對象分割(圖1(a-e))和視頻語義分割(圖1(f-h))的最新進展,并進一步劃分為八個子領域。雖然我們將重點局限于基于深度學習的視頻分割解決方案,但在這個快速發展的領域仍有數百篇論文發表,因此不太可能(幸運的是,也沒有必要)對它們全部進行調研。相反,我們選擇在著名期刊和會議上發表的有影響力的論文。因此,我們將引入一些非深度學習的視頻分割模型和其他領域的相關文獻,如視頻對象檢測和視覺跟蹤,以提供必要的背景。

本文的研究進展如下。§2給出了分類學、術語、研究歷史和相關研究領域的簡要背景。§3和§4分別回顧了深度學習算法和視頻分割數據集方面的代表性工作。§5進行性能評估和分析。此外,§6指出了一系列開放式問題和方向。最后,在§7中給出了結論。

付費5元查看完整內容

引言

深度學習已經實現了廣泛的應用,并在近年來變得越來越流行。多模態深度學習的目標是創建可以使用各種模態處理和鏈接信息的模型。單模態學習雖然得到了廣泛的發展,但還不能涵蓋人類學習的所有方面。多模態學習有助于更好地理解和分析不同感官參與信息處理的過程。本文著重于多種模態,即圖像、視頻、文本、音頻、身體手勢、面部表情和生理信號。本文詳細分析了過去和當前的基準方法,并對多模態深度學習應用的最新進展進行了深入研究。提出了多種多模態深度學習應用的細粒度分類,并對不同的應用進行了更深入的闡述。還討論了這些應用中使用的架構和數據集,以及它們的評估指標。最后,分別對各個領域的主要問題和未來可能的研究方向進行了重點分析。

//www.zhuanzhi.ai/paper/eaf89268e664a48119b223b0c86a7ed1

概述

機器學習(ML)是近年來研究的熱點。它已經在圖像識別、多媒體概念檢索、社會網絡分析、視頻推薦、文本挖掘等領域得到了廣泛的應用。深度學習(Deep Learning, DL)在這些應用中得到了廣泛的應用[117]。計算技術的指數級增長、不可思議的發展和數據可用性促成了DL研究的興起。DL的成功已經成為解決更復雜的ML問題的一個激勵因素。此外,DL的主要優點是它以分層的形式表示,即它可以通過一個通用的學習過程有效地學習。各種新的DL方法已經被開發出來,并在多個應用中顯示出令人印象深刻的結果,如視覺數據處理、自然語言處理(NLP)、語音和音頻處理,以及許多其他廣為人知的應用。多模態深度學習(Multimodal Deep learning, MMDL)是近年來隨著深度學習的發展而引起的重要研究方向。

我們對周圍事物的體驗是多模態的;我們能看到、聽到、觸摸、聞到和嘗到東西。捕獲對象的多個方面,以圖像、文本、視頻、圖形、聲音等不同媒體形式傳遞信息。模態指定存儲特定類型信息的表示格式。因此,上面提到的各種媒體形式都與模態有關,而這些多模態的共同表示可以定義為multimodal[47]。然而,對人類的全部方面進行建模是不夠的。單模態工作更好的地方,方法的進展需要在一個模式。多模態學習表明,當多種感官參與信息處理時,我們能更好地理解和分析。本文著重討論了各種各樣的模態,本文從MMDL的角度探討了多種模態,包括圖像、視頻、文本、音頻、肢體動作、面部表情和生理信號。MMDL的主要目標是構建一個能夠處理來自不同模式的信息并將其關聯起來的模型。

人工智能(AI)的未來已經被DL徹底改變。它解決了AI社區中存在多年的幾個復雜問題。對于MMDL,快速設計了各種具有不同學習框架的深度架構。機器開發出來了在其他應用領域,如自動駕駛汽車、圖像處理、醫療診斷和預測預測等,表現得與人類相似,甚至更好[129]。MMDL的最新進展和發展趨勢包括視聽語音識別(AVSR)[173]、多模態情感識別[26]、圖像和視頻字幕[58,89]、視覺問答(VQA)[161]、多媒體檢索[134]等.

在本研究中,我們討論了多模態深度學習的最新進展和趨勢。各種DL模型被劃分為不同的應用程序組,并使用多種媒體進行了詳盡的解釋。本文重點介紹了使用圖像、音頻、視頻、文本、身體姿勢、面部表情和生理信號等多種形式的應用,并與之前的相關調查進行了比較。提出了一種新的多模式DL應用的細粒度分類方法。此外,還提供了在這些MMDL應用中使用的體系結構、數據集和評估指標的簡要討論。最后,針對每一組應用分別提出了有待解決的研究問題,并詳細列出了未來可能的研究方向。我們希望我們提出的分類和研究方向將促進未來多模態深度學習的研究,并有助于更好地理解這一特定領域尚未解決的問題。

付費5元查看完整內容

弱監督目標檢測(WSOD)和定位(WSOL),即使用圖像級標簽檢測圖像中包含邊界框的多個或單個實例,是CV領域中長期存在且具有挑戰性的任務。隨著深度神經網絡在目標檢測中的成功,WSOD和WSOL都受到了前所未有的關注。在深度學習時代,已有數百種WSOD和WSOL方法和大量技術被提出。為此,本文將WSOL視為WSOD的一個子任務,并對近年來WSOD的成就進行了全面的綜述。具體來說,我們首先描述了WSOD的制定和設置,包括產生的背景、面臨的挑戰、基本框架。同時,總結和分析了提高檢測性能的各種先進技術和訓練技巧。然后,介紹了目前廣泛使用的WSOD數據集和評價指標。最后,討論了WSOD的未來發展方向。我們相信這些總結可以為今后的WSOD和WSOL研究鋪平道路。

引言

目標檢測[2]是一項基礎的、具有挑戰性的任務,旨在定位和分類圖像中的對象實例。對象定位是使用邊界框(一個與軸對齊的矩形緊緊包圍對象)在圖像中搜索盡可能多的對象的空間位置和范圍[3],[4]。對象分類是評估圖像中給定一組對象類中是否存在對象。目標檢測作為計算機視覺最基本的任務之一,是許多高級應用不可或缺的技術,如機器人視覺[5]、人臉識別[6]、圖像檢索[7]、[8]、增強現實[9]、自動駕駛[10]、變化檢測[11]等。隨著卷積神經網絡在視覺識別領域[12]-[14]的發展,以及大規模數據集[4]、[15]的發布,當今最先進的目標檢測器在全監督設置下可以達到近乎完美的性能,即全監督目標檢測(FSOD)[16] -[21]。然而,這些完全監督的對象檢測方法存在兩個不可避免的局限性:1)大量實例注釋難以獲取,而且需要大量的人工。2)在標注這些數據時,可能會無意中引入標注噪聲。

為了避免上述問題,社區開始在弱監督設置下解決對象檢測問題,即弱監督對象檢測(WSOD)。與完全監督的設置不同(參見圖1 (a)), WSOD的目的是檢測只有圖像級標簽的實例(例如,實例在整個圖像中的類別)。同時,WSOD也可以從網絡上的大規模數據集中獲益,如Facebook和Twitter。另一個類似的任務是弱監督對象定位(WSOL),它只檢測圖像中的一個實例。由于WSOD和WSOL分別檢測多個實例和單個實例,所以我們認為WSOL是WSOD的一個子任務。在接下來的文章中,我們使用WSOD來表示WSOD和WSOL。

在本文中,我們回顧了所有典型的WSOD方法,并對WSOD的最新進展進行了全面的綜述(參見圖2)。在第二部分,我們介紹了背景、主要挑戰和基本框架。在第三部分中,我們根據WSOD的發展時間表,詳細介紹了幾種現代經典方法。然后,對主要挑戰的所有先進技術和技巧進行了深入分析。在第8節中,我們將演示WSOD的所有流行基準和標準評估指標。在第9節中,我們簡要地討論了未來的方向。

在本文中,我們總結了大量的深度學習 WSOD方法,并給出了大量的解決方案來解決上述挑戰。綜上所述,本文的主要內容如下:

  • 分析了WSOD的背景、主要挑戰和基本框架。此外,我們還詳細介紹了幾種主流方法。
  • 對于主要挑戰,我們分析了2016年以來幾乎所有的WSOD方法,并總結了許多技巧和訓練技巧(參見表V)。
  • 在WSOD任務中引入了當前流行的數據集和重要的評估指標。
  • 總結并討論了關于模型和應用方向未來進展的有價值的見解和指南。
付費5元查看完整內容

社區揭示了不同于網絡中其他社區成員的特征和聯系。社區檢測在網絡分析中具有重要意義。除了經典的譜聚類和統計推理方法,我們注意到近年來用于社區檢測的深度學習技術在處理高維網絡數據方面的優勢有了顯著的發展。因此,通過深度學習對社區檢測的最新進展進行全面概述,對學者和從業者都是及時的。本文設計并提出了一種新的分類方法,包括基于深度神經網絡的深度學習模型、深度非負矩陣分解和深度稀疏濾波。主要的類別,即深度神經網絡,進一步分為卷積網絡,圖注意力網絡,生成對抗網絡和自動編碼器。綜述還總結了流行的基準數據集、模型評估指標和開源實現,以解決實驗設置。然后討論了社區檢測在各個領域的實際應用,并提出了實現方案。最后,通過提出這一快速發展的深度學習領域中具有挑戰性的課題,我們概述了未來的發展方向。

//www.zhuanzhi.ai/paper/eb70a346cb2540dab57be737828445c6

引言

早在20世紀20年代,社會學和社會人類學就對社區進行了研究。然而,直到21世紀之后,研究人員才開始利用強大的數學工具和大規模數據操作來檢測社區,以解決具有挑戰性的問題[2]。自2002年[3]以來,Girvan和Newman將圖劃分問題引起了更廣泛的關注。在過去的10年里,計算機科學研究者廣泛研究了基于網絡拓撲結構[5]-[8]和實體語義信息[9]-[11]、靜態網絡[12]-[14]、小型網絡和大型網絡[15]-[17]的社區檢測問題[4]。越來越多的基于圖的方法被開發出來用于檢測具有復雜數據結構[18],[19]環境中的社區。通過社區檢測,可以詳細分析網絡中社區的動態和影響,如謠言傳播、病毒爆發、腫瘤進化等。

社區的存在推動了社區檢測研究的發展,是一個越來越具有現實意義的研究領域。俗話說,物以類聚,人以群分。根據六度分離理論,世界上任何一個人都可以通過六個熟人認識其他人[21]。事實上,我們的世界是一個由一系列社區組成的巨大網絡。例如,通過檢測社交網絡[22]-[24]中的社區,如圖1所示,平臺贊助商可以向目標用戶推廣他們的產品。在引文網絡[25]中,社區檢測決定了研究主題的重要性、關聯性、演化和識別研究趨勢。在代謝網絡[26]、[27]和蛋白質-蛋白質相互作用(PPI)網絡[28]中,社區檢測揭示了具有相似生物學功能的代謝和蛋白質。同樣,腦網絡[19]、[29]中的社區檢測反映了腦區域的功能和解剖分離。

許多傳統的技術,如譜聚類[30],[31]和統計推理[32]-[35],被用于小型網絡和簡單的場景。然而,由于它們的計算和空間成本巨大,它們無法擴展到大型網絡或具有高維特征的網絡。現實網絡中非線性結構信息豐富,使得傳統模型在實際應用中不太適用。因此,需要更強大的具有良好計算性能的技術。目前,深度學習提供了最靈活的解決方案,因為深度學習模型: (1) 學習非線性網絡屬性,如節點之間的關系,(2) 提供一個低維的網絡表示,保持復雜的網絡結構,(3) 提高了從各種信息中檢測社區的性能。因此,深度學習用于社區檢測是一種新的趨勢,需要及時全面的調查。

據我們所知,本文是第一次全面調研深度學習在社區檢測方面的貢獻。以往的研究主要集中在傳統的社區檢測上,回顧了其在發現網絡固有模式和功能[36]、[37]方面的重要影響。這篇論文綜述了一些具體的技術,但不限于: 基于隨機塊模型(sms)的部分檢測[38],標簽傳播算法(LPAs)[39],[40],以及單目標和多目標優化的進化計算[13],[14]。在網絡類型方面,研究人員綜述了動態網絡[12]、有向網絡[41]和多層網絡[5]中的社區檢測方法。此外,[6],[7]還回顧了一系列關于不相交和重疊的社區缺陷的概述。圍繞應用場景,以往的論文綜述了社交網絡[9]、[42]中的社區檢測技術。

本文旨在幫助研究人員和從業者從以下幾個方面了解社區檢測領域的過去、現在和未來趨勢:

  • 系統性分類和綜合評價。我們為此項綜述提出了一個新的系統分類(見圖3)。對于每個類別,我們回顧、總結和比較代表性的工作。我們還簡要介紹了現實世界中的社區檢測應用。這些場景為未來的社區檢測研究和實踐提供了見解。

  • 豐富的資源和高影響力的參考資料。該綜述不僅是文獻綜述,而且是基準數據集、評估指標、開源實現和實際應用的資源集合。我們在最新的高影響力國際會議和高質量同行評審期刊上廣泛調查社區檢測出版物,涵蓋人工智能、機器學習、數據挖掘和數據發現等領域。

  • 未來的發展方向。由于深度學習是一個新的研究趨勢,我們討論了當前的局限性,關鍵的挑戰和開放的問題,為未來的方向。

社區檢測在網絡分析和數據挖掘中具有重要意義。圖4展示了傳統學習方法和深度學習方法的發展。傳統的方法是在網絡結構上探索社區。這七種方法(圖3左圖)僅以一種簡單的方式捕捉淺連接。傳統方法的檢測結果往往是次優的。我們將在本節簡要回顧它們的代表性方法。深度學習方法(圖3右圖)揭示了深度網絡信息,復雜關系,處理高維數據。

本文提出了一種深度社區檢測的分類方法。分類法將方法歸納為六類: 卷積網絡、圖注意力網絡(GAT)、生成對抗網絡(GAN)、自動編碼器(AE)、深度非負矩陣分解(DNMF)和基于深度稀疏濾波(DSF)的深度社區檢測方法。卷積網絡包括卷積神經網絡(CNN)和圖卷積網絡(GCN)。AE又分為堆疊型AE、稀疏型AE、去噪型AE、圖卷積型AE、圖關注型AE和變分型AE (VAE)。

付費5元查看完整內容

論文題目: Deep Learning in Video Multi-Object Tracking: A Survey

論文摘要: 多目標跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOT數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。

付費5元查看完整內容

多目標跟蹤(MOT)的問題在于在一個序列中跟蹤不同目標的軌跡,通常是視頻。近年來,隨著深度學習的興起,為這一問題提供解決方案的算法受益于深度模型的表示能力。本文對利用深度學習模型解決單攝像機視頻MOT任務的作品進行了全面的綜述。提出了MOT算法的四個主要步驟,并對深度學習在每個階段的應用進行了深入的回顧。本文還對三種MOTChallenge數據集上的現有工作進行了完整的實驗比較,確定了一些最優的方法之間的相似性,并提出了一些可能的未來研究方向。

付費5元查看完整內容

題目: Deep Learning in Video Multi-Object Tracking: A Survey

簡介: 多對象跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOTChallenge數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。

付費5元查看完整內容
北京阿比特科技有限公司