零樣本動作識別是近年來備受關注的研究領域,針對圖像和視頻中物體、事件和動作的識別提出了多種方法。由于收集、注釋和標記視頻是一項困難而費力的任務,因此需要一些方法來將實例從模型訓練中不存在的類中分類,特別是在復雜的自動視頻理解任務中。我們發現在文獻中有許多可用的方法,然而,很難對哪些技術可以被認為是最先進的技術進行分類。盡管有一些關于靜止圖像零樣本動作識別的調研和實驗,但是沒有針對視頻的研究。因此,在這篇文章中,我們提出了一個調查的方法,包括技術進行視覺特征提取和語義特征提取,以及學習這些特征之間的映射,特別是零鏡頭動作識別的視頻。我們還提供了一個完整的數據集,實驗和協議的描述,提出了開放的問題和未來的工作方向,這對計算機視覺研究領域的發展至關重要。
題目: Text Detection and Recognition in the Wild: A Review
簡介: 自然圖像中文本的檢測和識別是計算機視覺領域中的兩個主要問題,在體育視頻分析,自動駕駛,工業自動化等方面有廣泛的應用。他們面臨著常見的挑戰性問題,這些問題是如何在多種環境條件下表示和影響文本的因素。當前最新的文本檢測和/或識別方法已經利用了深度學習體系結構發展,并報告了基準數據集在以下情況下具有更高的準確性:處理多分辨率和多方位的文本。但是,仍然存在一些影響野生圖像中文本的挑戰,由于現有模型無法歸納為看不見的數據和標記數據的不足,導致現有方法的執行力不行。因此,與該領域的先前調查不同,該調查的目的如下:首先,提供的不僅是對場景文本檢測和識別方面的進展的看法,而且還提出了使用統一評估進行廣泛實驗的結果,該框架評估在挑戰性案例中所選方法的預訓練模型,并對這些技術應用相同的評估標準。其次,確定在檢測或識別野外圖像中存在的幾個挑戰,即平面旋轉,多方向和多分辨率文本,透視變形,照明反射,部分遮擋,復雜字體和特殊字符。最后,論文提供了對該領域潛在研究方向的洞察力,以解決仍面臨場景文本檢測和識別技術的挑戰。
摘要:圖像分類的應用場景非常廣泛,很多場景下難以收集到足夠多的數據來訓練模型,利用小樣本學習進行圖像分類可解決訓練數據量小的問題.本文對近年來的小樣本圖像分類算法進行了詳細綜述,根據不同的建模方式,將現有算法分為卷積神經網絡模型和圖神經網絡模型兩大類,其中基于卷積神經網絡模型的算法包括四種學習范式:遷移學習、元學習、對偶學習和貝葉斯學習;基于圖神經網絡模型的算法原本適用于非歐幾里得結構數據,但有部分學者將其應用于解決小樣本下歐幾里得數據的圖像分類任務,有關的研究成果目前相對較少.此外,本文匯總了現有文獻中出現的數據集并通過實驗結果對現有算法的性能進行了比較.最后,討論了小樣本圖像分類技術的難點及未來研究趨勢.
題目: Knowledge Transfer in Vision Recognition: A Survey
摘要: 在這篇綜述中,我們建議探討視覺識別任務中知識轉移工作背后的一般規律。為了實現這一目標,我們首先討論了視覺識別任務中存在的不同類型的可重用知識,然后根據知識的來源和去向對不同的知識轉移方法進行了分類。與以往基于問題導向或技術導向的知識轉移研究相比,我們的觀點更接近于知識轉移的本質,揭示了不同轉移學習設置和應用背后的共同規律。除了不同的知識轉移類別外,我們也展示了一些研究不同視覺識別任務之間可轉移性的研究工作。并對所介紹的研究工作進行了討論,指出了該領域的一些潛在研究方向。
題目: Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey
摘要: 為了在計算機視覺應用中從圖像或視頻中獲得更好的視覺特征學習性能,通常需要大規模的標記數據來訓練深度神經網絡。為了避免大規模數據集收集和標注的大量開銷,作為無監督學習方法的一個子集,提出了一種自監督學習方法,在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般特征。本文對基于深度學習的自監督一般視覺特征學習方法進行了廣泛的綜述。首先,描述了該領域的動機、通用管道和術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,然后介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于基準數據集的定量性能比較方法在圖像和視頻特征學習中的應用。最后,對本文的研究進行了總結,并提出了一套具有發展前景的自監督視覺特征學習方法。
題目: Adversarial Cross-Domain Action Recognition with Co-Attention
摘要: 動作識別是一個被廣泛研究的課題,其研究重點是有監督的學習,包括足夠多的視頻。然而,跨域動作識別的問題,即訓練和測試視頻是從不同的底層分布中提取出來的,在很大程度上仍然沒有得到充分的研究。以往的方法直接采用跨域圖像識別技術,容易出現嚴重的時間錯位問題。提出了一種時間協同注意網絡(TCoN),該網絡利用一種新的跨域協同注意機制,對源域和目標域之間的時間對準動作特征分布進行了匹配。在三個跨域動作識別數據集上的實驗結果表明,在跨域設置下,TCoN顯著地改進了以往的單域和跨域方法。
作者簡介: Boxiao Pan,斯坦福大學視覺與學習實驗室的碩士。他對構建能夠解釋和理解以人為中心的行為、場景和事件的智能系統非常著迷,尤其是通過視頻輸入。//cs.stanford.edu/~bxpan/
Zhangjie Cao,斯坦福大學計算機科學系的博士。
論文題目
少鏡頭視頻合成,Few-shot Video-to-Video Synthesis
論文簡介
視頻到視頻合成(vid2vid)旨在將輸入的語義視頻(如人體姿勢視頻或分割遮罩視頻)轉換為輸出的真實感視頻。雖然最先進的OFVID2VID有了很大的進步,但現有的方法有兩個主要的局限性。首先,他們渴望數據。訓練需要大量的目標人體或場景圖像。其次,學習模型的泛化能力有限。一個pose-to-humanvid2視頻模型只能合成訓練集中的單個人的姿勢。它并不適用于不在訓練集中的其他人。為了解決這些局限性,我們提出了一個新的shotvid2vidframework,它通過利用目標測試時間的少量示例圖像來學習合成先前未看到的對象或場景的視頻。我們的模型通過使用注意機制的novelnetwork權重生成模塊來實現這種少量的鏡頭泛化能力。我們使用多個大規模視頻數據集(包括人體舞蹈視頻、說話頭部視頻和街道場景視頻)進行了大量的實驗驗證,并與強基線進行了比較。實驗結果驗證了所提出的框架在解決現有VID2VID方法的兩個局限性方面的有效性。代碼可在我們的網站上找到
論文作者
Ting-Chun Wang, Ming-Yu Liu, Andrew Tao, Guilin Liu, Jan Kautz, Bryan Catanzaro 來自 NVIDIA(英偉達)公司
論文題目: Spatio-temporal Action Recognition: A Survey
論文摘要: 動作識別或動作檢測的任務包括分析視頻并確定正在執行的動作或動作。這些視頻的主要主題是人類表演一些動作。然而,這一要求可以放寬,以推廣到其他學科,如動物或機器人。應用范圍從人機交互到自動視頻編輯方案。當我們考慮時空動作識別時,我們處理的是動作定位。此任務不僅涉及確定正在執行的操作,而且還涉及在所述視頻中執行操作的時間和位置。本文旨在綜述解決這一問題的各種方法和算法,對它們進行全面的比較,探索可用于解決這一問題的各種數據集,并確定最有希望的方法。
摘要 : 零樣本圖像分類指訓練集和測試集在數據的類別上沒有交集的情況下進行圖像分類 . 該技術 是解決類別標簽缺失問題的一種有效手段 , 因此受到了日益廣泛的關注 . 自提出此問題至今 , 零樣本 圖像分類的研究已經大致有十年時間 . 本文系統地對過去十年中零樣本圖像分類技術的研究進展進行 了綜述 , 主要包括以下 4 個方面 . 首先介紹零樣本圖像分類技術的研究意義及其應用價值 , 然后重點 總結和歸納零樣本圖像分類的發展過程和研究現狀 , 接下來介紹常用的數據集和評價準則 , 以及與零 樣本學習相關的技術的區別和聯系 , 最后分析有待深入研究的熱點與難點問題 , 并對未來的發展趨勢 進行了展望 .
關鍵詞: 零樣本圖像分類 , 屬性 , 詞向量 , 跨模態映射 , 領域適應學習
論文題目: Deep Learning in Video Multi-Object Tracking: A Survey
論文摘要: 多目標跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOT數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。
論文主題: Recent Advances in Deep Learning for Object Detection
論文摘要: 目標檢測是計算機視覺中的基本視覺識別問題,并且在過去的幾十年中已得到廣泛研究。目標檢測指的是在給定圖像中找到具有精確定位的特定目標,并為每個目標分配一個對應的類標簽。由于基于深度學習的圖像分類取得了巨大的成功,因此近年來已經積極研究了使用深度學習的對象檢測技術。在本文中,我們對深度學習中視覺對象檢測的最新進展進行了全面的調查。通過復習文獻中最近的大量相關工作,我們系統地分析了現有的目標檢測框架并將調查分為三個主要部分:(i)檢測組件,(ii)學習策略(iii)應用程序和基準。在調查中,我們詳細介紹了影響檢測性能的各種因素,例如檢測器體系結構,功能學習,建議生成,采樣策略等。最后,我們討論了一些未來的方向,以促進和刺激未來的視覺對象檢測研究。與深度學習。