有关注意力的总结感言,注意力机制和自注意力机制的区别

SEnet

senet (squeeze-and-excitation network )考虑到特征通道之间的关系，在特征通道中添加了注意机制。

SEnet通过学习自动获取各特征通道的重要度，利用获得的重要度提高特征，抑制对当前任务来说不重要的特征。 SEnet通过Squeeze模块和Exciation模块实现了这个功能。

如上图所示，首先，作者通过squeeze操作压缩空间维度，简言之，将各特征图全局地池化，平均为1个实数值。这个实数在一定程度上具有全局感觉野。作者表示，该操作可以使接近数据输入的特征也具有全局感受野，这在许多任务中非常有用。继excitaton操作后，在squeeze操作后，由于网络输出了1*1*C大小的特征图，作者利用权重w学习了c通道的直接相关。在实际应用中，一些框架使用全连接，而另一些框架使用1*1卷积实现。从参数计算的角度来看，更优选使用1*1卷积，即使用以下代码中的fc2操作。在这个过程中，作者首先对c通道进行降维，然后扩展到c通道。优点是在减少网络计算量的同时，提高网络的非线性。在最后的操作中，将exciation的输出视为特征选择后各通道的重要性，通过乘法加权与前面的特征相乘，实现提高重要特征、抑制非重要特征的功能。

# https://github.com/amanbhandula/alpha pose/blob/master/train _ sppe/src/models/layers/se _ module.py clasclase self(_init_ ) self.avg _ pool=nn.adaptiveavgpool 2d ()1) self.avg ) ) pool=nn.adaptiveavgpool 2d channel channel/reduction，1，bias=false (nn.relu (in place=true )，nn.conv2d(Channel，channel/reduction，1，bias ) x ) : b，c，_，_=x.size(y=self.AVG_pool ) x ).view(b，c ) y=self.fc1(y ).view ) b、c、d

联合块感知模块(cbam )结合了特征通道和特征空间的二维注意机制。

与SEnet一样，CBAM通过学习自动获取每个特征通道的重要性。另外，通过同样的学习方式，自动获取各特征空间的重要度。然后，利用得到的重要度提高特征，抑制对当前任务不重要的特征。

CBAM提取特征通道注意力的方式与SEnet基本相似，如下面的ChannelAttention代码所示，在SEnet中添加max_pool的特征提取方式，其馀步骤相同。将渠道注意力提取的厚特征作为空间注意力模块的输入。

基于CBAM的特征空间注意力提取方式：经过ChannelAttention后，最终将经过通道重要性选择的特征图发送到特征空间注意力模块。与信道注意力模块类似，空间注意力以信道为单位进行最大和平均时延，对两者的结果进行concat，然后将另一个卷积降为1*w*h的特征图空间权重，对其权重和输入特征进行积分

# https://github.com/luu yi/cbam.py torch/blob/master/model/resnet _ cbam.pyclasschannelattention (nn.module re self(_init_ ) self.avg _ pool=nn.adaptiveavgpool 2d (1) self.avg _ pool=nn.adaptiveavgpool 2d 652

1, bias=False) self.relu1 = nn.ReLU() self.fc2 = nn.Conv2d(in_planes / 16, in_planes, 1, bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x)))) max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x)))) out = avg_out + max_out return self.sigmoid(out)class SpatialAttention(nn.Module): def __init__(self, kernel_size=7): super(SpatialAttention, self).__init__() assert kernel_size in (3, 7), 'kernel size must be 3 or 7' padding = 3 if kernel_size == 7 else 1 self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): avg_out = torch.mean(x, dim=1, keepdim=True) max_out, _ = torch.max(x, dim=1, keepdim=True) x = torch.cat([avg_out, max_out], dim=1) x = self.conv1(x) return self.sigmoid(x)

③ECAnet

上述提到的所有方法致力于开发更复杂的注意力模块，以获得更好的性能，不可避免地增加了计算负担。为了克服性能与复杂度权衡的悖论，ECANet就是一种用于提高深度CNNs性能的超轻注意模块。ECA模块，它只涉及k (k=9)参数，但带来了明显的性能增益。ECA模块通过分析SEnet的结构了解到降维和跨通道交互的影响，作者通过实验证明了降维是没有作用的（讲道理和我之前想的一样，，），并通过自适应内核大小的一维卷积实现局部跨通道的信息交互。

class eca_layer(nn.Module): """Constructs a ECA module. Args: channel: Number of channels of the input feature map k_size: Adaptive selection of kernel size """ def __init__(self, channel, k_size=3): super(eca_layer, self).__init__() self.avg_pool = nn.AdaptiveAvgPool2d(1) self.conv = nn.Conv1d(1, 1, kernel_size=k_size, padding=(k_size - 1) // 2, bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): # x: input features with shape [b, c, h, w] b, c, h, w = x.size() # feature descriptor on the global spatial information y = self.avg_pool(x) # Two different branches of ECA module y = self.conv(y.squeeze(-1).transpose(-1, -2)) y = y.transpose(-1, -2).unsqueeze(-1) # Multi-scale information fusion y = self.sigmoid(y) return x * y.expand_as(x)

④CASR

进来一个特征 Hi，先经过卷积-ReLU-卷积得到特征 U，卷积核都为 3×3。

CA 单元包含全局空间池化-卷积-ReLU-卷积-Sigmoid，卷积核都为 1×1，第一层卷积通道数变为 C/r，第二层卷积通道数为 C。

SA 单元包含卷积-ReLU-卷积-Sigmoid，卷积核都为 1×1，第一层卷积通道数变为 C*i，第二层卷积通道数为 1。

得到通道和空间的两个 mask 后，分别和特征 U 相乘，然后再将两个结果拼接起来经过一个 1×1 的卷积将通道数变为 C，最后和 Hi 相加得到输出特征 Ho。

在论文中，作者设置 r=16，i=2，CSAR 的一个 TensorFlow 实现如下所示。

def CSAR(input, reduction, increase): """ @Channel-wise and Spatial Feature Modulation Network for Single Image Super-Resolution Channel-wise and spatial attention residual block """ _, width, height, channel = input.get_shape() # (B, W, H, C) u = tf.layers.conv2d(input, channel, 3, padding='same', activation=tf.nn.relu) # (B, W, H, C) u = tf.layers.conv2d(u, channel, 3, padding='same') # (B, W, H, C) # channel attention x = tf.reduce_mean(u, axis=(1, 2), keepdims=True) # (B, 1, 1, C) x = tf.layers.conv2d(x, channel // reduction, 1, activation=tf.nn.relu) # (B, 1, 1, C // r) x = tf.layers.conv2d(x, channel, 1, activation=tf.nn.sigmoid) # (B, 1, 1, C) x = tf.multiply(u, x) # (B, W, H, C) # spatial attention y = tf.layers.conv2d(u, channel * increase, 1, activation=tf.nn.relu) # (B, W, H, C * i) y = tf.layers.conv2d(y, 1, 1, activation=tf.nn.sigmoid) # (B, W, H, 1) y = tf.multiply(u, y) # (B, W, H, C) z = tf.concat([x, y], -1) z = tf.layers.conv2d(z, channel, 1, activation=tf.nn.relu) # (B, W, H, C) z = tf.add(input, z) return z