題目:
SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
簡介:
場景文本識別是計算機視覺中的一個熱門研究主題。近來,已經提出了許多基于編碼-解碼器框架的識別方法,它們可以處理透視失真和曲線形狀的場景文本。盡管如此,他們仍然面臨許多挑戰,例如圖像模糊,照明不均勻和字符不完整。我們認為,大多數編碼器/解碼器方法都是基于局部視覺特征而沒有明確的全局語義信息。在這項工作中,我們提出了一種語義增強的編碼器-解碼器框架,以可靠地識別低質量的場景文本。語義信息在編碼器模塊中用于監視,在解碼器模塊中用于初始化。特別是,將最新的ASTER方法作為示例集成到所提出的框架中。大量的實驗表明,所提出的框架對于低質量的文本圖像更健壯,并且在多個基準數據集上都達到了最新的結果。
面向對象的映射對于場景理解非常重要,因為它們共同捕獲幾何和語義,允許對對象進行單獨的實例化和有意義的推理。我們介紹了FroDO,這是一種從RGB視頻中精確重建物體實例的方法,它以一種由粗到細的方式推斷出物體的位置、姿態和形狀。FroDO的關鍵是將對象形狀嵌入到一個新的學習空間中,允許在稀疏點云和稠密DeepSDF解碼之間進行無縫切換。給定一個局部的RGB幀的輸入序列,FroDO首先聚合2D檢測,為每個對象實例化一個分類感知的3D包圍框。在利用稀疏和稠密形狀表示進一步優化形狀和姿態之前,使用編碼器網絡對形狀代碼進行回歸。優化使用多視圖幾何,光度和剪影損失。我們對真實世界的數據集進行評估,包括Pix3D、Redwood-OS和ScanNet,用于單視圖、多視圖和多對象重建。
題目: End-to-End Entity Classification on Multimodal Knowledge Graphs
簡介:
知識圖的端到端多模式學習在很大程度上尚未解決。取而代之的是,大多數端到端模型(例如消息傳遞網絡)僅從圖形結構中編碼的關系信息中學習:原始值或文字要么被完全省略,要么從其值中剝離而被視為常規節點。無論哪種情況,我們都會丟失潛在的相關信息,而這些信息本來可以被我們的學習方法所利用。為避免這種情況,我們必須將文字和非文字視為單獨的情況。我們還必須分別并相應地處理每種形式:數字,文本,圖像,幾何形狀等等。我們提出了一種多模態消息傳遞網絡,該網絡不僅可以從圖的結構中端到端學習,而且可以從它們的多模態節點特征集合中學習。我們的模型使用專用的(神經)編碼器來自然學習節點特征的嵌入,這些節點特征屬于五種不同類型的模態,包括圖像和幾何圖形,這些圖像連同其關系信息被投影到聯合表示空間中。我們在節點分類任務上演示我們的模型,并評估每種模式對整體性能的影響。我們的結果支持我們的假設,即包含來自多種模式的信息可以幫助我們的模型獲得更好的整體性能。
題目: Milking CowMask for Semi-Supervised Image Classification
摘要:
一致性正則化是一種用于半監督學習的技術,最近被證明可以在標記數據很少的情況下產生強大的分類結果。該方法通過增加或反例擾動輸入數據,并鼓勵所學習的模型對未標記數據的擾動具有魯棒性。在這里,我們評估了一種最近提出的增強方法,稱為CowMasK。在半監督一致性正則化中,使用CowMask作為增強方法,我們在Imagenet上建立了一個新的最優結果,標記數據為10%,前5位誤差為8.76%,前1位誤差為26.06%。此外,我們使用的方法比其他方法簡單得多。我們通過在小型圖像基準SVHN、CIFAR-10和CIFAR-100上運行許多較小規模的實驗,進一步研究了CowMask用于半監督學習的行為,在這些實驗中,我們獲得了與現有水平相當的結果,并且發現了CowMask擾動廣泛適用的證據。
主題: Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems
摘要: 詞匯不足(OOV)的問題對于任何語音識別系統都是典型的,混合系統通常被構造為識別一組固定的單詞,并且很少包含系統開發過程中會遇到的所有單詞。 覆蓋OOV的一種流行方法是使用子詞單位而不是詞。 如果可以從當前子詞單元構建該詞,則這樣的系統可以潛在地識別任何以前看不見的詞,但是也可以識別不存在的詞。 另一種流行的方法是修改系統的HMM部分,以便可以使用我們要添加到系統中的自定義單詞集輕松有效地擴展它。 在本文中,我們在圖形構造和搜索方法級別上探索了該解決方案的不同現有方法。 我們還提出了一種新穎的詞匯擴展技術,該技術解決了有關識別圖處理的一些常見內部子例程問題。
主題: Weakly-Supervised Salient Object Detection via Scribble Annotations
摘要: 與費力的逐像素密集標記相比,這種方法更容易通過涂抹來標記數據,僅花費1-2秒即可標記一張圖像。然而,尚未有人探索使用可劃線標簽來學習顯著物體檢測。在本文中,我們提出了一種弱監督的顯著物體檢測模型,以從此類注釋中學習顯著性。為此,我們首先使用亂碼對現有的大型顯著物體檢測數據集進行重新標記,即S-DUTS數據集。由于對象的結構和詳細信息不能通過亂寫識別,因此直接訓練帶有亂寫的標簽將導致邊界位置局限性的顯著性圖。為了緩解這個問題,我們提出了一個輔助的邊緣檢測任務來明確地定位對象邊緣,并提出了門控結構感知損失以將約束置于要恢復的結構范圍上。此外,我們設計了一種涂鴉增強方案來迭代地整合我們的涂鴉注釋,然后將其作為監督來學習高質量的顯著性圖。我們提出了一種新的度量標準,稱為顯著性結構測量,用于測量預測顯著性圖的結構對齊方式,這與人類的感知更加一致。在六個基準數據集上進行的大量實驗表明,我們的方法不僅優于現有的弱監督/無監督方法,而且與幾種完全監督的最新模型相提并論。
今天,計算機視覺三大頂會之一CVPR2020接收結果已經公布,一共有1470篇論文被接收,接收率為22%,相比去年降低3個百分點,競爭越來越激烈。
計算機視覺頂會CVPR2020官方今日發布接收論文列表(編號): //cvpr2020.thecvf.com/sites/default/files/2020-02/accepted_list.txt
1.GhostNet: More Features from Cheap Operations(超越Mobilenet v3的架構) 論文鏈接: 模型(在ARM CPU上的表現驚人):
We beat other SOTA lightweight CNNs such as MobileNetV3 and FBNet.
AdderNet: Do We Really Need Multiplications in Deep Learning? (加法神經網絡) 在大規模神經網絡和數據集上取得了非常好的表現 論文鏈接: 論文鏈接:
Frequency Domain Compact 3D Convolutional Neural Networks (3dCNN壓縮) 論文鏈接: 開源代碼:
A Semi-Supervised Assessor of Neural Architectures (神經網絡精度預測器 NAS)
Hit-Detector: Hierarchical Trinity Architecture Search for Object Detection(NAS 檢測) backbone-neck-head一起搜索, 三位一體
CARS: Contunuous Evolution for Efficient Neural Architecture Search (連續進化的NAS) 高效,具備可微和進化的多重優勢 論文鏈接:
On Positive-Unlabeled Classification in GAN (PU+GAN)
Learning multiview 3D point cloud registration(3D點云) 論文鏈接:arxiv.org/abs/2001.05119
Multi-Modal Domain Adaptation for Fine-Grained Action Recognition(細粒度動作識別) 論文鏈接:arxiv.org/abs/2001.09691
Action Modifiers:Learning from Adverbs in Instructional Video 論文鏈接:arxiv.org/abs/1912.06617
PolarMask: Single Shot Instance Segmentation with Polar Representation(實例分割建模) 論文鏈接:arxiv.org/abs/1909.13226 論文解讀: 開源代碼:
Rethinking Performance Estimation in Neural Architecture Search(NAS) 由于block wise neural architecture search中真正消耗時間的是performance estimation部分,本文針對 block wise的NAS找到了最優參數,速度更快,且相關度更高。
Distribution Aware Coordinate Representation for Human Pose Estimation(人體姿態估計)
論文鏈接:arxiv.org/abs/1910.06278 Github: 作者團隊主頁:
題目: Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification
簡介:
多標簽圖像和視頻分類是計算機視覺中最基本也是最具挑戰性的任務。主要的挑戰在于捕獲標簽之間的空間或時間依賴關系,以及發現每個類的區別特征的位置。為了克服這些挑戰,我們提出將語義圖嵌入的跨模態注意用于多標簽分類。基于所構造的標簽圖,我們提出了一種基于鄰接的相似圖嵌入方法來學習語義標簽嵌入,該方法顯式地利用了標簽之間的關系。在學習標簽嵌入的指導下,生成了新的跨模態注意圖。在兩個多標簽圖像分類數據集(MS-COCO和NUS-WIDE)上的實驗表明,我們的方法優于其他現有的方法。此外,我們在一個大的多標簽視頻分類數據集上驗證了我們的方法,評估結果證明了我們的方法的泛化能力。