我們提出了一種新的視頻神經表示(NeRV),它在神經網絡中對視頻進行編碼。與傳統的將視頻表示為幀序列不同,我們將視頻表示為以幀索引為輸入的神經網絡。給定幀索引,NeRV輸出相應的RGB圖像。NeRV中的視頻編碼只是簡單地將神經網絡擬合到視頻幀上,解碼過程是一個簡單的前饋操作。作為一種圖像隱式表示,NeRV輸出整幅圖像,比像素隱式表示效率高,編碼速度提高了25倍至70倍,解碼速度提高了38倍至132倍,同時獲得了更好的視頻質量。有了這樣的表示,我們可以將視頻視為神經網絡,從而簡化了幾個與視頻相關的任務。例如,傳統的視頻壓縮方法受到為任務專門設計的長而復雜的流水線的限制。相比之下,使用NeRV,我們可以使用任何神經網絡壓縮方法作為視頻壓縮的代理,并達到與傳統的基于幀的視頻壓縮方法(H.264, HEVC等)相當的性能。除了壓縮外,我們還展示了NeRV在視頻去噪中的推廣作用。源代碼和預先訓練的模型可以在//github.com/haochen-rye/NeRV.git上找到。
時空表示學習是視頻自監督表示的關鍵。目前的學習方法主要是對比學習和前置任務。然而,這些方法都是通過潛在空間中的特征相似度來判別采樣實例來學習表征,而忽略了學習表征的中間狀態,從而限制了整體性能。在這項工作中,考慮采樣實例的相似程度作為中間狀態,我們提出了一個新的前置任務-時空重疊率(spatial - temporal overlap rate, STOR)預測。它源于人類能夠分辨視頻在空間和時間上的重疊率。這個任務鼓勵模型區分兩個生成樣本的STOR來學習表示。此外,我們采用結合前置任務和對比學習的聯合優化方法來進一步增強時空表示學習。我們還研究了所提出方案中各組成部分的相互影響。大量實驗表明,本文提出的語料存儲任務對對比學習和托詞學習都有較好的效果。聯合優化方案可以顯著提高視頻理解的時空表征。代碼可以在//github.com/Katou2/CSTP上找到。
用于文本圖表示學習的 GNN 嵌套 Transformer 模型:GraphFormers
GraphFormers: GNN-nested Transformers for Representation Learning on Textual Graph
論文摘要:文本圖的表示學習是基于單個文本特征和鄰域信息為節點生成低維嵌入。現有的工作主要依賴于級聯模型結構:首先通過語言模型對節點的文本特征進行獨立編碼;然后通過圖神經網絡對文本嵌入進行聚合。然而這種文本特征獨立建模的結構限制了模型的效果。故本文提出了 GraphFormers ——將 GNN 組件嵌套在 Transformer 語言模型的一種新架構。在該架構中,文本編碼和圖聚合融合為一個迭代工作流,使得每個節點的語義都能從全局角度準確理解。此外,還引入了一種漸進式學習策略,該策略在操作數據和原始數據上連續訓練模型,以增強其在圖形上整合信息的能力。實驗證明,本文提出的架構在 3 個數據集上都取得了最好結果。
去柵格化的矢量圖識別
Recognizing Vector Graphics without Rasterization
論文摘要:本文工作關注在一種與以往大多數工作不同的圖像格式:矢量圖。和在圖像識別中常用的位圖不同,由于矢量圖基于解析幾何的表示方式,可以被無損失的縮放到任意分辨率。同時,矢量圖還提供了額外的結構化信息,描述了底層元素是如何構成高層的形狀和結構。現有的識別方法并沒有充分利用這一格式的優點。本文通過目標檢測這一基本的視覺任務來探索這個圖像格式。我們提出了一種無需 CNN 的高效網絡結構,在識別過程中無需將矢量圖渲染為像素圖(即柵格化),直接把矢量圖的文本作為模型輸入,稱為 YOLaT (You Only Look at Text)。YOLaT 將矢量圖的結構和空間信息建模為一個多重圖,并提出一個雙流圖神經網絡基于多重圖來進行目標檢測。實驗證明 YOLaT 通過直接對矢量圖進行處理分析,能夠在計算效率和性能上顯著超過現有的目標檢測方法。
現代神經網絡體系結構可以利用大量的數據來很好地泛化訓練分布。然而,對于從看不見的但相關的分布中提取的數據,它們的系統泛化能力較差,這需要組合推理和知識重用。在這項工作中,我們提出了神經解釋器,這是一種將自注意網絡中的推理分解為一個模塊系統的架構,我們稱之為函數。模型的輸入以端到端學習的方式通過一系列函數進行路由。該體系結構可以靈活地沿寬度和深度組合計算,易于訓練后的能力擴展。為了證明神經解釋器的通用性,我們在兩個不同的環境中評估它: 圖像分類和視覺抽象推理。在前者中,我們證明了神經解釋器在使用更少參數的情況下,與視覺transformer 的表現相當,同時可以以樣本有效的方式轉移到新任務中。在后者中,我們發現神經解釋器在系統概括方面與最先進的技術相比具有競爭力。
本文介紹了一種新型高效的變換器模型GANsformer,并將其應用于可視化生成建模。該網絡采用了兩部分結構,使跨圖像的遠距離交互成為可能,同時保持線性效率的計算,可以很容易地擴展到高分辨率合成。它從一組潛在變量迭代地傳播信息到進化的視覺特征,反之亦然,以支持每一個根據另一個來細化,并鼓勵物體和場景的合成表現形式的出現。與經典的變換器架構相比,它利用了乘法積分,允許靈活的基于區域的調制,因此可以被視為成功的StyleGAN網絡的推廣。我們通過對一系列數據集(從模擬的多目標環境到豐富的真實室內和室外場景)的仔細評估,展示了該模型的強度和魯棒性,表明它在圖像質量和多樣性方面達到了最先進的結果,同時擁有快速學習和更好的數據效率。進一步的定性和定量實驗為我們提供了對模型內部工作的深入了解,揭示了改進的可解釋性和更強的解糾纏性,并說明了我們方法的好處和有效性。
如何學習良好的潛在表示是現代機器學習時代的一個重要課題。對于強化學習,使用一個好的表示使決策過程更加有效。本次演講,我將介紹我們的工作,構建基于任務的潛在操作空間,用于基于搜索的黑盒函數優化,尋找策略變更的表示,該表示支持在不完全信息協同博弈中聯合策略搜索,以及不同的表示如何影響RL探索。
視頻:
自監督學習已被廣泛應用于從未標記圖像中獲取可轉移的表示。特別是,最近的對比學習方法在下游圖像分類任務中表現出了令人印象深刻的性能。這些對比方法主要集中在語義保留變換下的圖像級上生成不變的全局表示,容易忽略局部表示的空間一致性,因此在目標檢測和實例分割等本地化任務的預處理中存在一定的局限性。此外,在現有的對比方法中使用的積極裁剪視圖可以最小化單個圖像中語義不同區域之間的表示距離。
在本文中,我們提出了一種用于多目標和特定位置任務的空間一致表示學習算法(SCRL)。特別地,我們設計了一個新的自監督目標,試圖根據幾何平移和縮放操作產生隨機裁剪局部區域的連貫空間表示。在使用基準數據集的各種下游定位任務上,提出的SCRL顯示了相對于圖像級監督前訓練和最先進的自監督學習方法的顯著性能改進。代碼將會被發布。
我們解決了監督學習的特征化和尋找最優表示的問題。傳統上,這個問題通過使用信息瓶頸來解決,即壓縮輸入,同時保留關于目標的信息,這種方式與解碼器無關。然而,在機器學習中,我們的目標不是壓縮而是泛化,這與我們感興趣的預測族或譯碼器(例如線性分類器)密切相關。我們提出了可解碼信息瓶頸(DIB),它從預期預測族的角度考慮信息的保留和壓縮。因此,DIB產生了預期測試性能方面的最優表示,并且可以在保證的情況下進行估計。實驗表明,該框架可以在下游分類器上施加一個小的泛化間隙,并預測神經網絡的泛化能力。
//www.zhuanzhi.ai/paper/89c6cd33631078ee766b8b8dc409a503
圖表示學習
近年來,圖神經網絡(GNNs)在結構化數據建模方面取得了巨大的成功。然而,大多數GNN是為同構網絡設計的,即所有節點或邊具有相同的特征空間和表示分布。這使得它們無法代表真實世界中不斷演化的異構圖,如知識圖譜、物聯網圖、領英經濟圖、開放學術圖和Facebook實體圖。在這次演講中,我將介紹圖神經網絡架構,它可以建模十億年規模的異構圖形與動態。重點將是我們如何設計圖注意力和相對時間編碼機制,以捕獲真實圖異構和動態性質。接下來,我將進一步討論為一般的圖挖掘任務預先訓練這類GNN的策略。最后,為了處理web規模的數據,我將介紹一種異構的小型批處理圖采樣算法,該算法帶有一個歸納的時間戳分配方法,用于高效和可擴展的訓練。大量的實驗顯示了在實踐中對網絡規模圖進行預訓練的GNNs的前景。
//ericdongyx.github.io/papers/slides-Graph-Rep-Learning-GNN-PreTraining-at-CCF-BAAI-2020.pdf
圖神經網絡(GNNs)已被證明是有效的模型,用于對圖結構數據的不同預測任務。最近關于它們表達能力的工作集中在同構任務和可數特征空間。我們對這個理論框架進行了擴展,使其包含連續的特性——在真實世界的輸入域和gnn的隱藏層中定期出現——并演示了在此上下文中對多個聚合函數的需求。為此,我們提出了一種新的聚合器結構——主鄰域聚合(PNA),它將多個聚合器與度標器相結合,從而推廣了總和聚合器。最后,我們通過一個新的基準來比較不同模型捕獲和利用圖結構的能力,該基準包含了來自經典圖理論的多個任務,以及來自現實領域的現有基準,所有這些都證明了我們模型的強大。通過這項工作,我們希望引導一些GNN研究轉向新的聚合方法,我們認為這對于尋找強大和健壯的模型至關重要。
//www.zhuanzhi.ai/paper/bee47b0e291d163fae01c