本文提出了一種高效的多尺度視覺轉換器，稱為ResT，可作為圖像識別的通用骨干。現有的Transformer方法使用標準Transformer塊來處理具有固定分辨率的原始圖像，與之不同的是，我們的ResT有幾個優點:(1)構建高效記憶的多頭自注意，通過簡單的深度卷積壓縮記憶，在保持多頭多樣性的同時，在注意-多頭維度上投射相互作用;(2)將位置編碼構造為空間注意，更加靈活，可以處理任意尺寸的輸入圖像，無需插值或微調;(3)我們沒有在每個階段開始時直接進行標記化，而是將patch嵌入設計為在標記映射上進行跨步重疊卷積操作的堆棧。我們在圖像分類和下游任務上全面驗證了ResT。實驗結果表明，提出的ResT可以在很大程度上超過最新的骨干技術，這表明ResT作為強大骨干的潛力。代碼和模型將在//github.com/wofmanaf/ResT上公開。

付費5元查看完整內容

相關內容

視覺轉換器(Transformer)

關注 0

AAAI 2022 · Transformer · 計算機視覺 · 論文 ·

2021 年 12 月 11 日

[付費5元查看完整內容]【AAAI2022】基于雙流更新的視覺Transformer動態加速方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基于雙流更新的視覺

Transformer動態加速方法

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

視覺Transformer 通過自注意力機制捕獲短程和長程視覺依賴的能力使其在各種計算機視覺任務中顯示出巨大的潛力，但是長程感受野同樣帶來了巨大的計算開銷，特別是對于高分辨率視覺任務。為了能夠在保持原有模型準確率的前提下，降低模型計算復雜度，從而使得視覺 Transformer成為一種更加通用、高效、低廉的解決框架，我們提出了Evo-ViT，基于雙流token更新的視覺transformer動態加速方法。

該方法在保持了完整空間結構的同時給高信息量token和低信息量token分配不同的計算通道。從而在不改變網絡結構的情況下，以極低的精度損失大幅提升直筒狀和金字塔壓縮型的Transformer模型推理性能。

其中，我們提出的基于全局class attention的token選擇策略通過增強層間的通信聯系實現穩定token選擇，相比以往方法，無需依靠外部的可學習網絡來對每一層的token進行選擇，也無需基于訓練好的網絡進行token裁剪。在ImageNet 1K數據集下，Evo-ViT可以提升DeiT-S 60%推理速度的同時僅僅損失0.4%的精度。

//www.zhuanzhi.ai/paper/7a1101e877530fa0dc16f1315fe9c019

付費5元查看完整內容

NeurIPS 2021 · 視覺Transformer · 論文 ·

2021 年 12 月 1 日

[付費5元查看完整內容]【NeurIPS 2021】尋找視覺Transformer的搜索空間

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在識別和檢測等實質性視覺任務中，Vision Transformer顯示了強大的視覺表示能力，因此在手工設計更有效的架構方面吸引了快速增長的努力。在本文中，我們提出使用神經體系結構搜索來自動化這個過程，不僅搜索體系結構，而且搜索搜索空間。其核心思想是通過使用權重共享超級網絡計算出的E-T誤差，逐步演化出不同的搜索維度。根據空間搜索過程，給出了一般視覺變換器的設計指南，并進行了廣泛的分析，促進了對視覺變換器的認識。值得注意的是，在ImageNet上進行評估時，來自搜索空間的搜索模型S3 (Search Space的簡稱)的性能優于最近提出的模型，如Swin、DeiT和ViT。S3在目標檢測、語義分割和視覺問題回答方面的有效性也得到了說明，說明了它對下游視覺和視覺語言任務的通用性。代碼和模型可以在//github.com/microsoft/Cream上找到。

付費5元查看完整內容

矢量圖識別 · 矢量圖 · NeurIPS 2021 · 論文 ·

2021 年 11 月 18 日

[付費5元查看完整內容]【NeurIPS2021】去柵格化的矢量圖識別

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

去柵格化的矢量圖識別

Recognizing Vector Graphics without Rasterization

論文摘要：本文工作關注在一種與以往大多數工作不同的圖像格式：矢量圖。和在圖像識別中常用的位圖不同，由于矢量圖基于解析幾何的表示方式，可以被無損失的縮放到任意分辨率。同時，矢量圖還提供了額外的結構化信息，描述了底層元素是如何構成高層的形狀和結構。現有的識別方法并沒有充分利用這一格式的優點。本文通過目標檢測這一基本的視覺任務來探索這個圖像格式。我們提出了一種無需 CNN 的高效網絡結構，在識別過程中無需將矢量圖渲染為像素圖（即柵格化），直接把矢量圖的文本作為模型輸入，稱為 YOLaT (You Only Look at Text)。YOLaT 將矢量圖的結構和空間信息建模為一個多重圖，并提出一個雙流圖神經網絡基于多重圖來進行目標檢測。實驗證明 YOLaT 通過直接對矢量圖進行處理分析，能夠在計算效率和性能上顯著超過現有的目標檢測方法。

//www.zhuanzhi.ai/paper/8b75d17e2875ed0792f5422150dc1067

付費5元查看完整內容

無監督學習 · NeurIPS 2021 · 視頻分割 · 論文 ·

2021 年 11 月 14 日

[付費5元查看完整內容]【NeurIPS2021】用于視頻分割的密集無監督學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文提出了一種基于無監督學習的視頻目標分割方法。與之前的工作不同，我們的公式允許在完全卷積的情況下直接學習密集特征表示。我們依靠統一的網格采樣來提取一組錨點，并訓練我們的模型來在視頻間和視頻內消除它們之間的歧義。然而，訓練這樣一個模型的樸素方案會得到一個退化解。我們提出了一種簡單的正則化方案來防止這種情況，該方案適應了分割任務對相似變換的等方差特性。我們的訓練目標實現高效，并表現出快速的訓練趨同。在已建立的VOS基準上，我們的方法超過了以前工作的分割精度，盡管使用的訓練數據和計算能力明顯更少。

//www.zhuanzhi.ai/paper/0ef8bdd09f3e46584b83f6236ca799fb

付費5元查看完整內容

神經解釋器 · 動態推理 · NeurIPS 2021 ·

2021 年 10 月 16 日

[付費5元查看完整內容]【NeurIPS2021】神經解釋器的動態推理

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現代神經網絡體系結構可以利用大量的數據來很好地泛化訓練分布。然而，對于從看不見的但相關的分布中提取的數據，它們的系統泛化能力較差，這需要組合推理和知識重用。在這項工作中，我們提出了神經解釋器，這是一種將自注意網絡中的推理分解為一個模塊系統的架構，我們稱之為函數。模型的輸入以端到端學習的方式通過一系列函數進行路由。該體系結構可以靈活地沿寬度和深度組合計算，易于訓練后的能力擴展。為了證明神經解釋器的通用性，我們在兩個不同的環境中評估它: 圖像分類和視覺抽象推理。在前者中，我們證明了神經解釋器在使用更少參數的情況下，與視覺transformer 的表現相當，同時可以以樣本有效的方式轉移到新任務中。在后者中，我們發現神經解釋器在系統概括方面與最先進的技術相比具有競爭力。

//www.zhuanzhi.ai/paper/2bc15eecd32f4070c53c2f1346feaddd

付費5元查看完整內容

NeurIPS 2021 · 多模態融合 · 信息瓶頸 ·

2021 年 10 月 14 日

[付費5元查看完整內容]【NeurIPS2021】多模態融合的注意力瓶頸

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人類通過同時處理和融合來自視覺和音頻等多種模態的高維輸入來感知世界。與之形成鮮明對比的是，機器感知模型通常是特定于模態的，并針對單模態基準進行了優化，因此，從每個模態最終表示或預測的后期融合(“后期融合”)仍然是多模態視頻分類的主導范式。相反，我們引入了一種新的基于transformer的架構，它使用“融合瓶頸”在多個層進行模態融合。與傳統的成對自注意力相比，我們的模型迫使不同模態之間的信息通過少量的瓶頸潛伏，要求模型整理和濃縮每個模態中最相關的信息，只分享必要的信息。我們發現這種策略在提高融合性能的同時，降低了計算成本。我們進行了徹底的消融研究，并在多個視聽分類基準上取得了最先進的結果，包括Audioset、Epic-Kitchens和VGGSound。所有代碼和模型將被發布。

//www.zhuanzhi.ai/paper/dd15123bca04f060baef40fb7620ea27

付費5元查看完整內容

視頻分類 · 卷積神經網絡 · 隱私保護 · ICML 2021 ·

2021 年 9 月 10 日

[付費5元查看完整內容]【ICML2021】基于卷積神經網絡的隱私保護視頻分類

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

許多視頻分類應用需要訪問用戶的個人數據，從而對用戶的隱私構成入侵性安全風險。我們提出了一種基于卷積神經網絡的單幀方法視頻分類的隱私保護實現，該實現允許一方從視頻中推斷出標簽，而無需視頻所有者以非加密的方式向其他實體披露他們的視頻。類似地，我們的方法消除了分類器所有者以明文形式向外部實體透露其模型參數的要求。為此，我們將現有的用于私有圖像分類的安全多方計算(MPC)協議與用于無關單幀選擇和跨幀安全標簽聚合的新MPC協議相結合。結果是一個端到端的隱私保護視頻分類流程。我們在一個私人人類情感識別的應用評估了提出的解決方案。各種安全設置的結果，包括計算各方的誠實和不誠實的大多數配置，以及被動型和主動型對手，表明視頻可以以最先進的精確度分類，而且不會泄露敏感用戶信息。

//www.zhuanzhi.ai/paper/7955a3eed16d1e0663383e2abe84594f

付費5元查看完整內容

CVPR 2021 · 卷積網絡 ·

2021 年 4 月 2 日

[付費5元查看完整內容]【CVPR2021】動態區域注意卷積

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文提出一種新的卷積操作----動態區域注意卷積（DRConv: Dynamic Region-Aware Convolution），該卷積可以根據特征相似度為不同平面區域分配定制的卷積核。這種卷積方式相較于傳統卷積極大地增強了對圖像語義信息多樣性的建模能力。標準卷積層可以增加卷積核的數量以提取更多的視覺元素，但會導致較高的計算成本。DRConv使用可學習的分配器將逐漸增加的卷積核轉移到平面維度，這不僅提高了卷積的表示能力，而且還保持了計算成本和平移不變性。圖片 DRConv是一種用于處理語義信息分布復雜多變的有效而優雅的方法，它可以以其即插即用特性替代任何現有網絡中的標準卷積，且對于輕量級網絡的性能有顯著提升。本文在各種模型（MobileNet系列，ShuffleNetV2等）和任務（分類，面部識別，檢測和分割）上對DRConv進行了評估，在ImageNet分類中，基于DRConv的ShuffleNetV2-0.5×在46M計算量的水平下可實現67.1％的性能，相對基準提升6.3％。

//www.zhuanzhi.ai/paper/5ab3f5fa3690be4e5e52724c176bc252

付費5元查看完整內容

圖神經網絡 · 主鄰域聚合 ·

2020 年 9 月 27 日

[付費5元查看完整內容]【NeurIPS2020】圖網的主鄰域聚合

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖神經網絡(GNNs)已被證明是有效的模型，用于對圖結構數據的不同預測任務。最近關于它們表達能力的工作集中在同構任務和可數特征空間。我們對這個理論框架進行了擴展，使其包含連續的特性——在真實世界的輸入域和gnn的隱藏層中定期出現——并演示了在此上下文中對多個聚合函數的需求。為此，我們提出了一種新的聚合器結構——主鄰域聚合(PNA)，它將多個聚合器與度標器相結合，從而推廣了總和聚合器。最后，我們通過一個新的基準來比較不同模型捕獲和利用圖結構的能力，該基準包含了來自經典圖理論的多個任務，以及來自現實領域的現有基準，所有這些都證明了我們模型的強大。通過這項工作，我們希望引導一些GNN研究轉向新的聚合方法，我們認為這對于尋找強大和健壯的模型至關重要。

//www.zhuanzhi.ai/paper/bee47b0e291d163fae01c

付費5元查看完整內容

圖神經網絡 ·

2020 年 8 月 8 日

[付費5元查看完整內容]系列教程GNN-algorithms之六：《多核卷積拓撲圖—TAGCN》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】 基于譜域的圖卷積網絡用多項式近似卷積核的方式來避免計算的高復雜度，但這會導致模型的性能損失。TAGCN是基于空域方法的圖卷積模型，通過多個固定尺寸的卷積核來學習圖的拓撲結構特征。TAGCN本質上和CNN中的卷積是一致的。本教程將結合TAGCN原理，教你手把手構建基于Tensorflow的TAGCN模型，在Cora數據集上進行節點分類任務。

系列教程《GNN-algorithms》

本文為系列教程《GNN-algorithms》中的內容，該系列教程不僅會深入介紹GNN的理論基礎，還結合了TensorFlow GNN框架tf_geometric對各種GNN模型（GCN、GAT、GIN、SAGPool等）的實現進行了詳細地介紹。本系列教程作者王有澤（//github.com/wangyouze）也是tf_geometric框架的貢獻者之一。

系列教程《GNN-algorithms》Github鏈接： *

TensorFlow GNN框架tf_geometric的Github鏈接： *

前序講解：

前言

在教程第二節介紹了GCN的變體SGC，這一屆我們繼續介紹GCN的另外一個變體TAGCN模型。本教程將教你如何使用Tensorflow構建GCN的變體TAGCN模型進行節點分類任務。完整代碼可在Github中下載:

TAGCN模型簡介

TAGCN是GCN的變體之一，全稱TOPOLOGY ADAPTIVE GRAPH CONVOLUTIONAL NETWORKS（TAGCN)。相比于GCN對卷積核進行Chebyshev多項式近似后取k=1，TAGCN用k個圖卷積核來提取不同尺寸的局部特征，并且將k保留下來作為超參數。其中的K個卷積核的感受野分別為1到K，類似于GoogleNet中每一個卷積層都有大小不同的卷積核提取特征。 TAGCN的卷積過程如下：

添加自環，對鄰接矩陣進行歸一化處理：

是K個圖卷積核，是每個圖卷積核的系數，相比GCN，TAGCN保留了超參數K:

k個卷積核在圖結構數據上提取特征，進行線性組合：
仿照CNN結構，添加非線性操作：

下圖展示了TAGCN在k=3時的卷積過程，類似于CNN中的每一個卷積層由多個卷積核提取feature map后形成多個channel：

將3個卷積核提取的特征進行線性組合：

總結：

TAGCN仿照CNN在每一層使用K個圖卷積核分別提取不同尺寸的局部特征，避免了之前對卷積核進行近似而不能完整，充分的提取圖信息的缺陷，提高了模型的表達能力。 1. TAGCN可以用于無向圖和有向圖，由于只需計算鄰接矩陣的系數，降低了計算復雜度。

教程完整代碼鏈接： * 論文地址：

教程目錄

開發環境 * TAGCN的實現 * 模型構建 * TAGCN訓練 * TAGCN評估

開發環境

操作系統: Windows / Linux / Mac OS

Python 版本: >= 3.5 * 依賴包: * tf_geometric（一個基于Tensorflow的GNN庫）根據你的環境（是否已安裝TensorFlow、是否需要GPU）從下面選擇一條安裝命令即可一鍵安裝所有Python依賴:

        pip install -U tf_geometric # 這會使用你自帶的TensorFlow，注意你需要tensorflow/tensorflow-gpu >= 1.14.0 or >= 2.0.0b1

 pip install -U tf_geometric[tf1-cpu] # 這會自動安裝TensorFlow 1.x CPU版

 pip install -U tf_geometric[tf1-gpu] # 這會自動安裝TensorFlow 1.x GPU版

 pip install -U tf_geometric[tf2-cpu] # 這會自動安裝TensorFlow 2.x CPU版

 pip install -U tf_geometric[tf2-gpu] # 這會自動安裝TensorFlow 2.x GPU版

教程使用的核心庫是tf_geometric，一個基于TensorFlow的GNN庫。tf_geometric的詳細教程可以在其Github主頁上查詢： *

TAGCN的實現

首先我們對圖的鄰接矩陣添加自環，進行歸一化處理：

其中xs用來存儲k個多項式卷積核提取的feature map。``` xs = [x] updated_edge_index, normed_edge_weight = gcn_norm_edge(edge_index, x.shape[0], edge_weight, renorm, improved, cache)


分別計算每個圖卷積核提取圖中節點的鄰域信息，即計算k階多項式，并以此將結果存儲到xs中：

for k in range(K): h = aggregate_neighbors( xs[-1], updated_edge_index, normed_edge_weight, gcn_mapper, sum_reducer, identity_updater )

xs.append(h)



將K個圖卷積核提取的feature_map拼接，然后線性變換輸出結果：```
h = tf.concat(xs, axis=-1)

 out = h @ kernel
 if bias is not None:
 out += bias

 if activation is not None:
 out = activation(out)

 return out

模型構建

導入相關庫本教程使用的核心庫是tf_geometric，我們用它來進行圖數據導入、圖數據預處理及圖神經網絡構建。SGC的具體實現已經在上面詳細介紹，另外我們后面會使用keras.metrics.Accuracy評估模型性能。```

coding=utf-8

import os

os.environ["CUDA_VISIBLE_DEVICES"] = "0" import tensorflow as tf import numpy as np from tensorflow import keras from tf_geometric.layers.conv.tagcn import TAGCN from tf_geometric.datasets.cora import CoraDataset


* 
使用**tf_geometric**自帶的圖結構數據接口加載Cora數據集：```
graph, (train_index, valid_index, test_index) = CoraDataset().load_data()

定義模型，引入keras.layers中的Dropout層隨機關閉神經元緩解過擬合。由于Dropout層在訓練和預測階段的狀態不同，為此，我們通過參數training來決定是否需要Dropout發揮作用。``` tagcn0 = TAGCN(16) tagcn1 = TAGCN(num_classes) dropout = keras.layers.Dropout(0.3)

def forward(graph, training=False): h = tagcn0([graph.x, graph.edge_index, graph.edge_weight], cache=graph.cache) h = dropout(h, training=training) h = tagcn1([h, graph.edge_index, graph.edge_weight], cache=graph.cache)

return h





**TAGCN訓練**

***


模型的訓練與其他基于Tensorflow框架的模型訓練基本一致，主要步驟有定義優化器，計算誤差與梯度，反向傳播等。TAGCN論文用模型在第100輪訓練后的表現來評估模型，因此這里我們設置epoches=100。```
optimizer = tf.keras.optimizers.Adam(learning_rate=0.01)

best_test_acc = tmp_valid_acc = 0
for step in range(1, 101):
 with tf.GradientTape() as tape:
 logits = forward(graph, training=True)
 loss = compute_loss(logits, train_index, tape.watched_variables())

 vars = tape.watched_variables()
 grads = tape.gradient(loss, vars)
 optimizer.apply_gradients(zip(grads, vars))

 valid_acc = evaluate(valid_index)
 test_acc = evaluate(test_index)
 if test_acc > best_test_acc:
 best_test_acc = test_acc
 tmp_valid_acc = valid_acc
 print("step = {}\tloss = {}\tvalid_acc = {}\tbest_test_acc = {}".format(step, loss, tmp_valid_acc, best_test_acc))

用交叉熵損失函數計算模型損失。注意在加載Cora數據集的時候，返回值是整個圖數據以及相應的train_mask,valid_mask,test_mask。TAGCN在訓練的時候的輸入時整個Graph，在計算損失的時候通過train_mask來計算模型在訓練集上的迭代損失。因此，此時傳入的mask_index是train_index。由于是多分類任務，需要將節點的標簽轉換為one-hot向量以便于模型輸出的結果維度對應。由于圖神經模型在小數據集上很容易就會瘋狂擬合數據，所以這里用L2正則化緩解過擬合。``` def compute_loss(logits, mask_index, vars): masked_logits = tf.gather(logits, mask_index) masked_labels = tf.gather(graph.y, mask_index) losses = tf.nn.softmax_cross_entropy_with_logits( logits=masked_logits, labels=tf.one_hot(masked_labels, depth=num_classes) )

kernel_vals = [var for var in vars if "kernel" in var.name] l2_losses = [tf.nn.l2_loss(kernel_var) for kernel_var in kernel_vals]

return tf.reduce_mean(losses) + tf.add_n(l2_losses) * 5e-4




**TAGCN評估**

***


在評估模型性能的時候我們只需傳入valid_mask或者test_mask，通過tf.gather函數就可以拿出驗證集或測試集在模型上的預測結果與真實標簽，用keras自帶的keras.metrics.Accuracy計算準確率。

def evaluate(mask): logits = forward(graph) logits = tf.nn.log_softmax(logits, axis=-1) masked_logits = tf.gather(logits, mask) masked_labels = tf.gather(graph.y, mask)

y_pred = tf.argmax(masked_logits, axis=-1, output_type=tf.int32)

accuracy_m = keras.metrics.Accuracy() accuracy_m.update_state(masked_labels, y_pred) return accuracy_m.result().numpy()




**運行結果**

***


****

    step = 1 loss = 1.9557496309280396 valid_acc = 0.3240000009536743 best_test_acc = 0.3700000047683716

step = 2 loss = 1.69263 valid_acc = 0.45869 best_test_acc = 0.54885 step = 3 loss = 1.3922057151794434 valid_acc = 0.5220000147819519 best_test_acc = 0.5849999785423279 step = 4 loss = 1.8711 valid_acc = 0.6539999842643738 best_test_acc = 0.73694 ... step = 96 loss = 0.03752553462982178 valid_acc = 0.7960000038146973 best_test_acc = 0.8209999799728394 step = 97 loss = 0.03963441401720047 valid_acc = 0.7960000038146973 best_test_acc = 0.8209999799728394 step = 98 loss = 0.048121 valid_acc = 0.7960000038146973 best_test_acc = 0.8209999799728394 step = 99 loss = 0.03467567265033722 valid_acc = 0.7960000038146973 best_test_acc = 0.8209999799728394 step = 100 loss = 0.035629 valid_acc = 0.7960000038146973 best_test_acc = 0.8209999799728394


**完整代碼**


教程中的完整代碼鏈接：
* 
demo_tagcn.py：//github.com/CrawlScript/tf_geometric/blob/master/demo/demo_tagcn.py

**

**

本教程（屬于系列教程**《GNN-algorithms》**）Github鏈接：
* 
//github.com/wangyouze/GNN-algorithms

付費5元查看完整內容