华为智慧视觉怎么关闭(华为技术骨干工资)

机器心灵专栏

机器心编辑部

华为研究所的研究人员提出了新型视觉转换器网络架构转换器，优于谷歌的ViT和脸书的DeiT。论文提出了一种新的TNT模块(Transformer iN Transformer )，目的是将内外两个transformer结合起来提取图像的局部特征和全局特征。通过堆叠TNT模块，研究人员构建了新的纯Transformer网络架构——TNT。值得注意的是，TNT还暗合了Geoffrey Hinton最近提出的part-whole hierarchies思想。在ImageNet图像识别任务中，TNT计算量相似时的Top-1正解率达到了81.3%，超过了DeiT的79.8%和ViT的77.9%。

转换器网络推动了许多自然语言处理任务的进步，最近转换器开始在计算机视觉领域崭露头角。例如，DETR将目标检测视为直接集预测问题，并使用转换器编码器-解码器架构解决该问题。 IPT使用转换器在一个模型中处理多个基本的视觉任务。这些基于转换器的模型与现有的主流CNN模型(如ResNet )相比，在视觉任务方面也表现出了优异的性能。

谷歌视频转换器(vision transformer，Google VIT )模型是用于视觉任务的纯转换器的经典技术方案。将输入图像分割为多个图像块(patch )，用矢量表示patch，用transformer处理图像patch序列，对最终的输出进行图像识别。但是，ViT的缺点也很明显，因为将图像剪切输入到转换器中，将图像块拉伸到矢量上进行处理，所以图像块内部的结构信息被破坏，图像特有的性质被忽视。

图1 :谷歌vit网络体系结构。

在这篇论文中，华为研究所的研究人员提出了基于结构嵌套的Transformer结构，被称为Transformer-in-Transformer(TNT )架构。类似地，TNT剪切图像并组成Patch序列。但是，TNT没有将Patch拉伸到矢量，而是将Patch看作像素(组)的排列。

论文链接： https://Arxiv.org/pdf/2103.00112.pdf

具体而言，新提出的TNT block使用一个外部Transformer block对patch之间的关系进行建模，使用一个内部Transformer block对像素之间的关系进行建模。通过TNT结构，研究者既可以保持patch级的信息提取，也可以保持像素级的信息提取，显著提高模型对局部结构的建模能力，提高模型的识别效果。

ImageNet基准测试和在下游任务中的实验表明了该方法在精度和计算复杂性方面的优越性例如，TNT-S仅用5.2B FLOPs就能达到81.3%的ImageNet top-1正解率，这比计算量接近的DeiT高出1.5个百分点。

方法

图像预处理

图像的预处理主要是将2D图像转换为转换器能够处理的1D序列。在本例中，我们将图像转换为patch embedding和pixel embedding序列。首先，图像被均匀分割为几个面片，每个面片通过im2col操作转换为一系列像素向量，像素向量通过线性层映射到像素嵌入。另一方面，patch embedding (包括类token ) )是一组初始化为零的向量。具体而言，对于一张图像，研究者将其均等分割为n个patch :

其中是patch的大小。

Pixel embedding生成：对于每个面片，进一步通过pytorch unfold操作将其转换为m个像素向量，然后在一个所有合并层上将m个像素向量映射到m个像素嵌入。

其中，c是像素嵌入的长度。 n个修补程序有n个像素嵌入组：

生成Patch embedding :初始化n 1个pa

tch embedding 来存储模型的特征，它们都初始化为零：

其中第一个 patch embedding 又叫 class token。

Position encoding：对每个 patch embedding 加一个 patch position encoding：

对每个 pixel embedding 加一个 pixel position encoding：

两种 Position encoding 在训练过程中都是可学习的参数。

图 2：位置编码。

Transformer in Transformer 架构

TNT 网络主要由若干个 TNT block 堆叠构成，这里首先介绍 TNT block。TNT block 有 2 个输入，一个是 pixel embedding，一个是 patch embedding。对应地， TNT block 包含 2 个标准的 transformer block。

如下图 3 所示，研究者只展示了一个 patch 对应的 TNT block，其他 patch 是一样的操作。首先，该 patch 对应的 m 个 pixel embedding 输入到内 transformer block 进行特征处理，输出处理过的 m 个 pixel embedding。Patch embedding 输入到外 transformer block 进行特征处理。其中，这 m 个 pixel embedding 拼接起来构成一个长向量，通过一个全连接层映射到 patch embedding 所在的空间，加到 patch embedding 上。最终，TNT block 输出处理过后的 pixel embedding 和 patch embedding。

图 3：Transformer in Transformer 架构。

通过堆叠 L 个 TNT block，构成了 TNT 网络结构，如下表 1 所示，其中 depth 是 block 个数，#heads 是 Multi-head attention 的头个数。

表 1：TNT 网络结构参数。

实验

ImageNet 实验

研究者在 ImageNet 2012 数据集上训练和验证 TNT 模型。从下表 2 可以看出，在纯 transformer 的模型中，TNT 优于所有其他的纯 transformer 模型。TNT-S 达到 81.3% 的 top-1 精度，比基线模型 DeiT-S 高 1.5%，这表明引入 TNT 框架有利于在 patch 中保留局部结构信息。通过添加 SE 模块，进一步改进 TNT-S 模型，得到 81.6% 的 top-1 精度。与 CNNs 相比，TNT 的性能优于广泛使用的 ResNet 和 RegNet。不过，所有基于 transformer 的模型仍然低于使用特殊 depthwise 卷积的 EfficientNet，因此如何使用纯 transformer 打败 EfficientNet 仍然是一个挑战。

表 2：TNT 与其他 SOTA 模型在 ImageNet 数据集上的对比。

在精度和 FLOPS、参数量的 trade-off 上，TNT 同样优于纯 transformer 模型 DeiT 和 ViT，并超越了 ResNet 和 RegNet 代表的 CNN 模型。具体表现如下图 4 所示：

图 4：TNT 与其他 SOTA 模型在精度、FLOPS 和参数量指标上的变化曲线。

特征图可视化

研究者将学习到的 DeiT 和 TNT 特征可视化，以进一步探究该方法的工作机制。为了更好地可视化，输入图像的大小被调整为 1024x1024。此外，根据空间位置对 patch embedding 进行重排，形成特征图。第 1、6 和 12 个 block 的特征图如下图 5(a) 所示，其中每个块随机抽取 12 个特征图。与 DeiT 相比，TNT 能更好地保留局部信息。

研究者还使用 t-SNE 对输出特征进行可视化（图 5(b)）。由此可见，TNT 的特征比 DeiT 的特征更为多样，所包含的信息也更为丰富。这要归功于内部 transformer block 的引入，能够建模局部特征。

图 5：DeiT 和 TNT 特征图可视化。

迁移学习实验

为了证明 TNT 具有很强的泛化能力，研究者在 ImageNet 上训练的 TNT-S、TNT-B 模型迁移到其他数据集。更具体地说，他们在 4 个图像分类数据集上评估 TNT 模型，包括 CIFAR-10、CIFAR-100、Oxford IIIT Pets 和 Oxford 102 Flowers。所有模型微调的图像分辨率为 384x384。

下表 3 对比了 TNT 与 ViT、DeiT 和其他网络的迁移学习结果。研究者发现，TNT 在大多数数据集上都优于 DeiT，这表明在获得更好的特征时，对像素级关系进行建模具有优越性。

表 3：TNT 在下游任务的表现。

总结

该研究提出了一种用于视觉任务的 transformer in transformer（TNT）网络结构。TNT 将图像均匀分割为图像块序列，并将每个图像块视为像素序列。本文还提出了一种 TNT block，其中外 transformer block 用于处理 patch embedding，内 transformer block 用于建模像素嵌入之间的关系。在线性层投影后，将像素嵌入信息加入到图像块嵌入向量中。通过堆叠 TNT block，构建全新 TNT 架构。与传统的视觉 transformer（ViT）相比，TNT 能更好地保存和建模局部信息，用于视觉识别。在 ImageNet 和下游任务上的大量实验都证明了所提出的 TNT 架构的优越性。