这篇文章最先在极市平台上发表。作者： @happy，允许转载，必须注明。

来源论文链接： https://arxiv.org/pdf/2110.11945.pdf

代码链接： https://github.com/Fudan-zvg /软件

项目链接： https://Fudan-zvg.github.io /软件/

本文是复旦大学华为坚实的大地对转换器中注意力机制复杂性的深入思考，首次提出了全新的软件最大自由转换器。本文从软最大自证明的局限性出发，分析了其存在的挑战；然后针对提出线性复杂度的SOFT的线性SOFT中存在的训练问题，提出了具有理论保证的近似方案。提出的软件在ImageNet分类任务中获得了比现有的CNN、转换器更好的精度-复杂度平衡。

Abstract

ViT通过图像块序列化自我提醒机制，将不同CV任务的性能推向了前一个阶段。但是，自我注意机制会带来更高的计算复杂度和内存消耗。在NLP领域已经有不同的方案尝试使用线性复杂度来近似自我注意力。然而，本文的深入分析表明，NLP中的近似方案在CV中缺乏理论支持或无效。

并进一步分析了soft max自证明这一局限性的原因。具体来说，以往的自我注意力通过计算token之间的点并进行乘法运算，然后进行正规化来获得自我注意力。 softmax操作给之后的线性近似带来很大的挑战。基于这一发现，本文首次提出了软件最大自由转换器(soft max-free transformer，Soft max-free transformer )。

为了从注意力中去除softmax，使用高斯核函数代替点乘法的相似性，不需要进一步的归一化。据此，可以用低秩矩阵分析近似自我注意矩阵。近似的鲁棒性通过计算其MP逆(Moore-Penrose Inverse )得到。

在ImageNet数据集上的实验结果表明，提出的SOFT大大提高了现有ViT方案的计算效率。更重要的是，SOFT的线性复杂度允许更长的token序列，从而提高精度和复杂度之间的平衡。

Contributation

本论文的贡献主要有以下几点。

提出一种新的线性空间、时间复杂度的软最大自由变换器；被提出的可以通过理论上保证的矩阵分解算法来计算注意力矩阵的近似的软件，在ImageNet图像分类任务中获得了比其他ViT方案更好的精度-复杂度平衡(参照下图a )。

Method

Softmax-free self-attention formulation

。

上图显示了本文中提出的软件体系结构的形象。首先，让我们来看看这个注意力模块的设计。给出了含有n个token的输入序列，其目的是引起所有token对之间的相关性。

具体地说，x首先线性投影到三维查询、关键点和值上。

注意力可以用以下广义形式表示：

注意力的重要函数包括非线性函数和相关函数。注意力的一般构成定义如下

这个softmax自我注意力优先，很少受到质疑，但不适合线性化。为了构建线性自我注意力设计，我们引入了sfotmax-free自我注意力函数：高斯核置换点乘法操作。定义如下。

为了维持注意矩阵的对称性，我们将投影矩阵做成了相同的。注意矩阵的定义如下。为了便于说明，定义为矩阵形式。注意矩阵s有三个重要的属性。

所有具有对称性的元素都在[ 0，1 ]的范围内；所有对角元素都具有最大值1。研究表明，在采用非线性化核自我注意矩阵时，transformer训练难以收敛。这就解释了为什么softmax在转换器上如此受关注。

Low-rank regularization via matrix decomposition with linear complxity

是为了解决收敛

于二次复杂度问题，我们利用了矩阵分解作为带低秩正则的统一解，这就使得模型复杂度大幅下降，且无需计算全部的自注意力矩阵。

作出上述选择因为在于：S为半正定矩阵，且无需后接归一化。我们将S表示为块矩阵形式：

其中，。通过上述分解，注意力矩阵可以近似表示为：

其中，表示A的MP逆。更多关于MP逆的信息建议查看原文，这里略过。

在上述公式，A和B是S通过随机采样m个token得到的子矩阵，可表示为(我们将其称之为bottleneck token )。然而，我们发现：随机采样对于m非常敏感。因此，我们通过利用结构先验探索两种额外的方案：

采用一个核尺寸为k、stride为k的卷积学习；采用一个核尺寸为k、stride为k的均值池化生成。

通过实验对比发现：卷积层学习具有更好的精度。由于K与Q相等，因此。给定m个token，我们计算A和P：最终，我们得到了SOFT的正则化后的自注意力矩阵：

上图Algorithm1给出所提SOFT流程，它涉及到了MP逆计算。一种精确且常用的计算MP逆的方法是SVD，然而SVD对于GPU训练不友好。为解决该问题，我们采用了Newton-Raphson方法，见上图Algorithm2：一种迭代算法。与此同时，作者还给出了上述迭代可以最终收敛到MP逆的证明。对该证明感兴趣的同时强烈建议查看原文公式，哈哈。

Instantiations

上面主要聚焦于softmax-free self-attention 模块的介绍，接下来我们将介绍如何利用SOFT模块构建Transformer模型。我们以图像分类任务为切入点，以PVT作为基础架构并引入所提SOFT模块构建最终的SOFT模型，同时还在stem部分进行了微小改动。下表给出了本文所提方案在不同容量大小下的配置信息。

Experiments

上表对比了所提方案与现有线性Transformer模型的性能，从中可以看到：

相比基线Transformer，线性Transformer能够大幅降低内存占用与FLOPs，同时保持相当参数量；所提SOFT在所有线性方案中取得了最佳分类精度；所提SOFT与其他线性方案的推理速度相当，训练速度稍慢。

上图给出了不同方案的序列长度与内存占用之间的关系，从中可以看到：所提SOFT确实具有线性复杂度的内存占用。

上给出了所提方案与其他CNN、Transformer的性能对比，从中可以看到：

总体来说，ViT及其变种具有比CNN更高的分类精度；相比ViT、DeiT等Transformer方法以及RegNet等CNN方法，所提SOFT取得了最佳性能；相比PVT，所提方案具有更高的分类精度，直接验证了所提SOFT模块的有效性；相比Twins与Swin，所提SOFT具有相当的精度，甚至更优性能。

此外，作者还在NLP任务上进行了对比，见上表，很明显：SOFT又一次胜出。