去柵格化的矢量圖識別
Recognizing Vector Graphics without Rasterization
論文摘要:本文工作關注在一種與以往大多數工作不同的圖像格式:矢量圖。和在圖像識別中常用的位圖不同,由于矢量圖基于解析幾何的表示方式,可以被無損失的縮放到任意分辨率。同時,矢量圖還提供了額外的結構化信息,描述了底層元素是如何構成高層的形狀和結構。現有的識別方法并沒有充分利用這一格式的優點。本文通過目標檢測這一基本的視覺任務來探索這個圖像格式。我們提出了一種無需 CNN 的高效網絡結構,在識別過程中無需將矢量圖渲染為像素圖(即柵格化),直接把矢量圖的文本作為模型輸入,稱為 YOLaT (You Only Look at Text)。YOLaT 將矢量圖的結構和空間信息建模為一個多重圖,并提出一個雙流圖神經網絡基于多重圖來進行目標檢測。實驗證明 YOLaT 通過直接對矢量圖進行處理分析,能夠在計算效率和性能上顯著超過現有的目標檢測方法。
學習用于分布外預測的因果語義表示
Learning Causal Semantic Representation for Out-of-Distribution Prediction 論文摘要:標準的有監督學習方法特別是深度學習方法對分布外樣例的預測表現欠佳,主要由于其學到的表示難免會混淆語義因素和多樣因素,因為兩者在特定環境下具有特定的相關性,但只有語義因素是輸出變量的因。為此,我們通過對變量間因果關系的分析,將這兩個因素分開建模,進而提出了一個因果語義生成模型,并建立了相應的分布外預測方法用于解決常見且有挑戰性的單訓練域的情況。此方法源自因果不變性原理,并基于變分貝葉斯框架實現,其中引入了一個新穎的設計既實現了高效訓練又便于預測。理論上,我們證明了一定條件下,此模型可通過擬合訓練數據來識別語義因素,且這種識別保證了分布外泛化誤差的有界性和成功的領域自適應。實驗結果表明所提方法比主流基線方法具有更好的分布外預測表現。
基于激光雷達的傳感技術驅動著目前的自動駕駛汽車。盡管進展迅速,但目前的激光雷達傳感器在分辨率和成本方面仍落后于傳統彩色相機20年。對于自動駕駛來說,這意味著靠近傳感器的大物體很容易被看到,但遠處或小物體只包含一兩個測量。這是一個問題,尤其是當這些物體被證明是駕駛危險的時候。另一方面,這些相同的物體在機載RGB傳感器中清晰可見。在這項工作中,我們提出了無縫融合RGB傳感器到基于激光雷達的3D識別的方法。我們的方法采用一組二維檢測來生成密集的三維虛擬點,以增強稀疏的三維點云。這些虛擬點自然地集成到任何標準的基于激光雷達的3D探測器以及常規激光雷達測量。由此產生的多模態檢測器簡單而有效。在大規模nuScenes數據集上的實驗結果表明,我們的框架通過顯著的6.6 mAP改善了一個強大的中心點基線,并優于其他融合方法。代碼和更多可視化信息可以在//tianweiy.github.io/mvp/上找到
本文提出了一種基于無監督學習的視頻目標分割方法。與之前的工作不同,我們的公式允許在完全卷積的情況下直接學習密集特征表示。我們依靠統一的網格采樣來提取一組錨點,并訓練我們的模型來在視頻間和視頻內消除它們之間的歧義。然而,訓練這樣一個模型的樸素方案會得到一個退化解。我們提出了一種簡單的正則化方案來防止這種情況,該方案適應了分割任務對相似變換的等方差特性。我們的訓練目標實現高效,并表現出快速的訓練趨同。在已建立的VOS基準上,我們的方法超過了以前工作的分割精度,盡管使用的訓練數據和計算能力明顯更少。
論文題目:Instance-Conditional Knowledge Distillation for Object Detection
中文題目:用于物體檢測的實例條件知識蒸餾
論文鏈接://www.zhuanzhi.ai/paper/8175ccabb0b146d78a42919311b7b072
與分類不同, 檢測圖片散布著各式目標, 而有效的蒸餾區域與實例位置相關又不完全等同. 本文提出實例條件知識蒸餾:
a. 將實例標注編碼的查詢 (query) 表征與教師網絡提取的關鍵 (key) 表征計算關聯系數, 期望高系數處為空間中有效蒸餾區域;
b. 為學習靠譜關聯系數, 引入含定位和識別的輔助任務進行監督;
c. 關聯系數將以掩膜的型態, 在學生和教師網絡的特征蒸餾時使用
實驗表明, 我們的方法能顯著提升學生檢測器的效果, 有時甚至青出于藍 (超越教師)。
人類能夠利用從以往經驗中提取的概念快速理解場景。這些概念是多種多樣的,包括全局場景描述符(如天氣或光照),以及局部場景描述符(如特定對象的顏色或大小)。到目前為止,概念的無監督發現主要集中在建模全局場景級或局部對象級的變化因素,而不是兩者。在這項工作中,我們提出了COMET,它發現并表示概念為獨立的能量函數,使我們能夠在一個統一的框架下表示全局概念和對象。COMET通過重新組合輸入圖像發現能量函數,我們發現該圖像捕獲獨立的因素,而不需要額外的監督。COMET中的示例生成是對底層能量函數的優化過程,使我們能夠生成具有排列和組合概念的圖像。最后,在COMET中發現的可視概念具有很好的通用性,使我們能夠在不同的圖像模式之間組合概念,以及在不同數據集上訓練的單獨COMET實例發現的其他概念。代碼和數據可在//energy-based-model.github.io/comet/。
我們提出了一種新的視頻神經表示(NeRV),它在神經網絡中對視頻進行編碼。與傳統的將視頻表示為幀序列不同,我們將視頻表示為以幀索引為輸入的神經網絡。給定幀索引,NeRV輸出相應的RGB圖像。NeRV中的視頻編碼只是簡單地將神經網絡擬合到視頻幀上,解碼過程是一個簡單的前饋操作。作為一種圖像隱式表示,NeRV輸出整幅圖像,比像素隱式表示效率高,編碼速度提高了25倍至70倍,解碼速度提高了38倍至132倍,同時獲得了更好的視頻質量。有了這樣的表示,我們可以將視頻視為神經網絡,從而簡化了幾個與視頻相關的任務。例如,傳統的視頻壓縮方法受到為任務專門設計的長而復雜的流水線的限制。相比之下,使用NeRV,我們可以使用任何神經網絡壓縮方法作為視頻壓縮的代理,并達到與傳統的基于幀的視頻壓縮方法(H.264, HEVC等)相當的性能。除了壓縮外,我們還展示了NeRV在視頻去噪中的推廣作用。源代碼和預先訓練的模型可以在//github.com/haochen-rye/NeRV.git上找到。
深度學習已經成功地實現了機器學習流程中特征設計的自動化。然而,優化神經網絡參數的算法在很大程度上仍然是手工設計的,計算效率低。我們研究是否可以利用深度學習直接預測這些參數,利用以往訓練其他網絡的知識。我們介紹了一個大型的神經結構計算圖數據集——DeepNets-1M——并利用它來探索CIFAR-10和ImageNet的參數預測。通過利用圖神經網絡的進步,我們提出了一種超網絡,它可以在單次向前傳遞中預測性能參數,即使在CPU上也只需要幾分之一秒。提出的模型在不同的網絡中取得了令人驚訝的良好性能。例如,它能夠預測ResNet-50的所有2400萬個參數,在CIFAR-10上的準確率為60%。在ImageNet上,我們的一些網絡前五名的準確率接近50%。我們的任務以及模型和結果可能會導致一種新的、計算效率更高的訓練網絡范式。我們的模型還學習了神經結構的優異表示,使其分析成為可能。
類不平衡問題作為學習節點表示的一個重要問題,越來越受到社會的關注。盡管現有研究中所考慮的不平衡源于不同類別中標記示例的數量不等(數量不平衡),但我們認為,圖數據暴露了不平衡的唯一來源,即標記節點的不對稱拓撲屬性,即:標記節點在圖中的結構角色不平等(拓撲不平衡)。在本工作中,我們首先探討了之前未知的拓撲不平衡問題,包括其特征、原因和對半監督節點分類學習的威脅。然后通過標簽傳播算法考慮節點影響轉移現象,提供了一個統一的視角來共同分析數量不平衡和拓撲不平衡問題。根據我們的分析,我們設計了一種基于影響沖突檢測——基于度量的Totoro來測量圖拓撲不平衡的程度,并提出了一種模型無關的ReNode方法來解決拓撲不平衡問題,方法是根據標記節點相對于類邊界的相對位置對其影響進行自適應加權。系統實驗證明了該方法在緩解拓撲不平衡問題和促進半監督節點分類方面的有效性和可泛化性。進一步的分析揭示了不同的圖神經網絡對拓撲不平衡的敏感性不同,為評價圖神經網絡體系結構提供了新的視角。
現代神經網絡體系結構可以利用大量的數據來很好地泛化訓練分布。然而,對于從看不見的但相關的分布中提取的數據,它們的系統泛化能力較差,這需要組合推理和知識重用。在這項工作中,我們提出了神經解釋器,這是一種將自注意網絡中的推理分解為一個模塊系統的架構,我們稱之為函數。模型的輸入以端到端學習的方式通過一系列函數進行路由。該體系結構可以靈活地沿寬度和深度組合計算,易于訓練后的能力擴展。為了證明神經解釋器的通用性,我們在兩個不同的環境中評估它: 圖像分類和視覺抽象推理。在前者中,我們證明了神經解釋器在使用更少參數的情況下,與視覺transformer 的表現相當,同時可以以樣本有效的方式轉移到新任務中。在后者中,我們發現神經解釋器在系統概括方面與最先進的技術相比具有競爭力。