細粒度視覺分析(FGVA)是計算機視覺和模式識別中一個長期存在的基本問題,它支撐著一系列真實世界的應用,如生物多樣性自動監測、氣候變化評估、智能零售、智能交通、在節約資源、促進經濟增長、提高社會運行效率等方面已取得了積極的社會經濟效果。FGVA任務的目標是分析從屬類別的視覺對象,例如鳥類的種類、汽車的模型、產品的庫存單位或體操的動作。由于其非常細粒度的特性,類間小而類內大變化使其成為一個具有挑戰性的問題。借助深度學習的蓬勃發展,近年來使用深度學習技術的FGVA取得了顯著進展。
本教程旨在促進研究基于細粒度可視化分析方法的研究人員之間的討論,并將尖端細粒度可視化技術部署到實際應用程序中。具體來說,我們將促進討論各種基于深度學習的細粒度視覺分析主題的最新進展、正在進行的發展和新應用,例如細粒度圖像檢索、細粒度圖像識別、長尾視覺識別、細粒度視頻理解等。
歸一化方法可以提高深度神經網絡(DNN)的訓練穩定性、優化效率和泛化能力,已成為目前最先進的DNN體系結構的基本組成部分。它們還成功地擴散到深度學習的各個領域,包括但不限于計算機視覺、自然語言處理和語音識別。然而,盡管歸一化技術發揮了豐富和越來越重要的作用,我們注意到沒有一個統一的視角來描述、比較和分析它們。此外,我們對這些方法成功的理論基礎仍然難以理解。
本教程涵蓋了標準化方法、分析和應用程序,并將解決以下問題: (1) DNN中不同規范化方法背后的主要動機是什么?我們如何提出一種分類法來理解各種方法之間的異同? (2) 如何縮小標準化技術的經驗成功與我們對它們的理論理解之間的差距? (3) 針對不同任務設計/裁剪標準化技術的最新進展是什么?它們背后的主要見解是什么?
本文將多源概念引入UDA行人Re-ID任務中,并提出RDSBN歸一化新模塊,并提出基于GCN的多源信息融合模塊,表現SOTA!性能優于MMT、DG-Net++網絡。
用于行為重識別(re-ID)的無監督域自適應(UDA)方法旨在將re-ID知識從已標記的源數據傳輸到未標記的目標數據。盡管取得了巨大的成功,但大多數人僅使用來自單一來源域的有限數據進行模型預訓練,從而使得無法充分利用豐富的標記數據。為了充分利用有價值的標記數據,我們將多源概念引入到UDA行人re-ID中,其中在訓練過程中使用了多個源數據集。但是,由于域的空白,僅組合不同的數據集只會帶來有限的改進。在本文中,我們嘗試從兩個角度(即特定于域的視圖和域融合視圖)解決此問題。提出了兩個建設性的模塊,它們彼此兼容。首先,探索一種整流領域特定的批處理歸一化(RDSBN)模塊,以同時減少領域特定的特征并增加人員特征的獨特性。其次,開發了基于圖卷積網絡(GCN)的多域信息融合(MDIF)模塊,該模塊通過融合不同域的特征來最小化域距離。所提出的方法在很大程度上優于最新的UDA人員re-ID方法,甚至在沒有任何后處理技術的情況下,甚至可以達到與監督方法相當的性能。
本文提出了從視頻無監督的時空表示學習的大規模研究。借助對四個基于圖像的最新框架的統一觀點,我們研究了一個簡單的目標,可以輕松地將所有這些方法推廣到時空。我們的目標是鼓勵在同一視頻中使用時間上持久的特征,盡管它簡單易用,但在以下情況下卻表現出色:(i)不同的無監督框架,(ii)預訓練數據集,(iii)下游數據集,以及(iv) 骨干架構。我們從這項研究中得出了一系列有趣的觀察結果,例如,我們發現,即使跨度為60秒,鼓勵長時間跨度的持久性也是有效的。除了在多個基準測試中得到的最新結果之外,我們還報告了一些有希望的案例,其中無監督的預訓練可以勝過其有監督的預訓練。
內容簡介:考慮到不同類別的表情之間存在著相似性,本文認為人臉表情信息由不同表情之間的共享信息與每個表情的特定信息組成,提出了一種基于特征解構與重構學習的人臉表情識別方法。具體地,首先使用特征分解網絡將基本特征分解為一系列能夠感知面部動作的潛在特征,這些潛在特征有效地建模了表情中的共享信息。然后,特征重構網絡分別對這一系列潛在特征向量進行特征內部和特征之間的相關性建模,從而學習表情的特有信息。實驗結果表明該方法在三個室內數據集(包括 CK+、 MMI 和 OuluCASIA)和兩個室外數據集(包括 RAFDB 和 SFEW)上都有優越的性能表現。
行人檢測技術在智能交通系統,智能安防監控等領域表現出了極高的應用價值,已經成為計算機視覺領域的重要研究方向之一。得益于深度學習的飛速發展,基于深度卷積神經網絡的通用目標檢測模型被不斷擴展應用到行人檢測領域,并取得了良好的性能。但是由于行人目標內在的特殊性、復雜性,特別是考慮到復雜場景下的行人遮擋、尺度變化等問題,深度學習方法也面臨著嚴峻的挑戰。本文針對上述問題,以基于深度學習的行人檢測技術為研究對象,在充分調研文獻的基礎上,分別從基于錨點框、基于無錨點框以及通用技術改進(例如損失函數,非極大值抑制等)三個角度,對各類行人檢測算法進行細分,并選取具有代表性的方法進行詳細介紹和對比分析。此外,本文對行人檢測的通用數據集進行了詳細的介紹,對該領域先進算法的性能進行了對比分析,對行人檢測中待解決的問題與未來的研究方向做出預測和展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2020&journal_id=jig
該工作將度量學中一個重要的屬性“動態范圍”引入到深度度量學習,從而得到一個新的任務叫做“動態度量學習”。我們發現,以往的深度度量其實只蘊含一個刻度,例如僅僅區分人臉、行人是相似還是不相似。這樣的量具無論多精確,在實際使用中都是靈活不足、用途有限的。實際上,我們日常的量具通常具有動態范圍,例如尺子總是有多個刻度(例如1mm、1cm乃至10cm)來測量不同尺度的物體。我們認為,深度度量學習領域已經到了需要引入動態范圍的時候了。因為,視覺概念本身就有著不同的大小,“動物”、“植物”都對應大尺度,而“麋鹿”卻對應相對較小的尺度。在小尺度下,兩只麋鹿可能看上去很不一樣,但是在另一個大尺度下,同樣兩只麋鹿卻應該被認為非常相似。
我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。
人類有一種辨別環境中未知物體的本能。當最終獲得相應的知識時,對這些未知實例的內在好奇心有助于了解它們。這激勵我們提出一種新穎的計算機視覺問題稱:“開放世界目標檢測”,在一個模型的任務是:1) 識別的對象沒有被介紹,成為“未知”,沒有明確的監督,和 2)增量學習這些識別未知類別。本文提出了一種基于對比聚類和基于能量的未知識別的開放世界目標檢測方案。我們的實驗評價和消融研究分析了ORE 在實現開放世界目標的有效性。作為一個有趣的副產品,我們發現識別和描述未知實例有助于減少增量對象檢測設置中的混亂,在增量對象檢測設置中,我們實現了最先進的性能,而不需要額外的方法努力。我們希望我們的工作將吸引對這一新確定的關鍵研究方向的進一步研究。
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。