首页 > 编程知识 正文

有关注意力的总结感言,注意力机制和自注意力机制的区别

时间:2023-05-04 18:23:42 阅读:160135 作者:3471

SEnet

senet (squeeze-and-excitation network )考虑到特征通道之间的关系,在特征通道中添加了注意机制。

SEnet通过学习自动获取各特征通道的重要度,利用获得的重要度提高特征,抑制对当前任务来说不重要的特征。 SEnet通过Squeeze模块和Exciation模块实现了这个功能。

如上图所示,首先,作者通过squeeze操作压缩空间维度,简言之,将各特征图全局地池化,平均为1个实数值。 这个实数在一定程度上具有全局感觉野。 作者表示,该操作可以使接近数据输入的特征也具有全局感受野,这在许多任务中非常有用。 继excitaton操作后,在squeeze操作后,由于网络输出了1*1*C大小的特征图,作者利用权重w学习了c通道的直接相关。 在实际应用中,一些框架使用全连接,而另一些框架使用1*1卷积实现。 从参数计算的角度来看,更优选使用1*1卷积,即使用以下代码中的fc2操作。 在这个过程中,作者首先对c通道进行降维,然后扩展到c通道。 优点是在减少网络计算量的同时,提高网络的非线性。 在最后的操作中,将exciation的输出视为特征选择后各通道的重要性,通过乘法加权与前面的特征相乘,实现提高重要特征、抑制非重要特征的功能。

# https://github.com/amanbhandula/alpha pose/blob/master/train _ sppe/src/models/layers/se _ module.py clasclase self(_init_ ) self.avg _ pool=nn.adaptiveavgpool 2d ()1) self.avg ) ) pool=nn.adaptiveavgpool 2d channel channel/reduction,1,bias=false (nn.relu (in place=true ),nn.conv2d(Channel,channel/reduction,1,bias ) x ) : b,c,_,_=x.size(y=self.AVG_pool ) x ).view(b,c ) y=self.fc1(y ).view ) b、c、d

联合块感知模块(cbam )结合了特征通道和特征空间的二维注意机制。

与SEnet一样,CBAM通过学习自动获取每个特征通道的重要性。 另外,通过同样的学习方式,自动获取各特征空间的重要度。 然后,利用得到的重要度提高特征,抑制对当前任务不重要的特征。

CBAM提取特征通道注意力的方式与SEnet基本相似,如下面的ChannelAttention代码所示,在SEnet中添加max_pool的特征提取方式,其馀步骤相同。 将渠道注意力提取的厚特征作为空间注意力模块的输入。

基于CBAM的特征空间注意力提取方式:经过ChannelAttention后,最终将经过通道重要性选择的特征图发送到特征空间注意力模块。 与信道注意力模块类似,空间注意力以信道为单位进行最大和平均时延,对两者的结果进行concat,然后将另一个卷积降为1*w*h的特征图空间权重,对其权重和输入特征进行积分

# https://github.com/luu yi/cbam.py torch/blob/master/model/resnet _ cbam.pyclasschannelattention (nn.module re self(_init_ ) self.avg _ pool=nn.adaptiveavgpool 2d (1) self.avg _ pool=nn.adaptiveavgpool 2d 652

1, bias=False) self.relu1 = nn.ReLU() self.fc2 = nn.Conv2d(in_planes / 16, in_planes, 1, bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x)))) max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x)))) out = avg_out + max_out return self.sigmoid(out)class SpatialAttention(nn.Module): def __init__(self, kernel_size=7): super(SpatialAttention, self).__init__() assert kernel_size in (3, 7), 'kernel size must be 3 or 7' padding = 3 if kernel_size == 7 else 1 self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): avg_out = torch.mean(x, dim=1, keepdim=True) max_out, _ = torch.max(x, dim=1, keepdim=True) x = torch.cat([avg_out, max_out], dim=1) x = self.conv1(x) return self.sigmoid(x)

③ECAnet

上述提到的所有方法致力于开发更复杂的注意力模块,以获得更好的性能,不可避免地增加了计算负担。为了克服性能与复杂度权衡的悖论,ECANet就是一种用于提高深度CNNs性能的超轻注意模块。ECA模块,它只涉及k (k=9)参数,但带来了明显的性能增益。ECA模块通过分析SEnet的结构了解到降维和跨通道交互的影响,作者通过实验证明了降维是没有作用的(讲道理和我之前想的一样,,),并通过自适应内核大小的一维卷积实现局部跨通道的信息交互。

class eca_layer(nn.Module): """Constructs a ECA module. Args: channel: Number of channels of the input feature map k_size: Adaptive selection of kernel size """ def __init__(self, channel, k_size=3): super(eca_layer, self).__init__() self.avg_pool = nn.AdaptiveAvgPool2d(1) self.conv = nn.Conv1d(1, 1, kernel_size=k_size, padding=(k_size - 1) // 2, bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): # x: input features with shape [b, c, h, w] b, c, h, w = x.size() # feature descriptor on the global spatial information y = self.avg_pool(x) # Two different branches of ECA module y = self.conv(y.squeeze(-1).transpose(-1, -2)) y = y.transpose(-1, -2).unsqueeze(-1) # Multi-scale information fusion y = self.sigmoid(y) return x * y.expand_as(x)

④CASR

进来一个特征 Hi,先经过卷积-ReLU-卷积得到特征 U,卷积核都为 3×3。

CA 单元包含全局空间池化-卷积-ReLU-卷积-Sigmoid,卷积核都为 1×1,第一层卷积通道数变为 C/r,第二层卷积通道数为 C。

SA 单元包含卷积-ReLU-卷积-Sigmoid,卷积核都为 1×1,第一层卷积通道数变为 C*i,第二层卷积通道数为 1。

得到通道和空间的两个 mask 后,分别和特征 U 相乘,然后再将两个结果拼接起来经过一个 1×1 的卷积将通道数变为 C,最后和 Hi 相加得到输出特征 Ho。

在论文中,作者设置 r=16,i=2,CSAR 的一个 TensorFlow 实现如下所示。

def CSAR(input, reduction, increase): """ @Channel-wise and Spatial Feature Modulation Network for Single Image Super-Resolution Channel-wise and spatial attention residual block """ _, width, height, channel = input.get_shape() # (B, W, H, C) u = tf.layers.conv2d(input, channel, 3, padding='same', activation=tf.nn.relu) # (B, W, H, C) u = tf.layers.conv2d(u, channel, 3, padding='same') # (B, W, H, C) # channel attention x = tf.reduce_mean(u, axis=(1, 2), keepdims=True) # (B, 1, 1, C) x = tf.layers.conv2d(x, channel // reduction, 1, activation=tf.nn.relu) # (B, 1, 1, C // r) x = tf.layers.conv2d(x, channel, 1, activation=tf.nn.sigmoid) # (B, 1, 1, C) x = tf.multiply(u, x) # (B, W, H, C) # spatial attention y = tf.layers.conv2d(u, channel * increase, 1, activation=tf.nn.relu) # (B, W, H, C * i) y = tf.layers.conv2d(y, 1, 1, activation=tf.nn.sigmoid) # (B, W, H, 1) y = tf.multiply(u, y) # (B, W, H, C) z = tf.concat([x, y], -1) z = tf.layers.conv2d(z, channel, 1, activation=tf.nn.relu) # (B, W, H, C) z = tf.add(input, z) return z

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。