首页 > 编程知识 正文

卷积神经网络原理,卷积代替全连接层

时间:2023-05-03 14:09:50 阅读:13597 作者:1277

FCN是基于CNN的发展和延申。 CNN的强大之处在于其多层神经网络结构能够自动学习图像的深层特征。 同时CNN的局部感知、权重共享、下采样的特点是学习到的特征具有平移、旋转、缩放不变性,保证了网络结构能够适应不同形态的二维图像,更重要的是,摄影角度不同、尺度不同但是,CNN的降采样会降低图像分辨率,丢失详细信息。 输出的结果通常是属于要分类的图像所在类别的概率向量值,CNN在所有连接层中的向量长度必须是固定的,输入图像的大小也必须是固定的。

针对CNN的缺点,FCN提出了解决图像语义分割问题。 图像语义分割是计算机视觉领域的重要概念,它是根据图像中表示的语义信息的差异对像素进行分组或分割,为图像上的每个像素点实现语义标签。 图像的语义分割是指图像的分类。 因此,FCN能够确定图像中的各像素的类别,不仅能够确定像素“是什么”,还能够确定像素“位于哪里”,从CNN图像级别的分类进一步扩展到了像素级别的分类。

FCN的原理

FCN和CNN在结构上的差异如下图所示。 图a显示了一个CNN结构。 对于一个6分类问题,输入层的图像大小为128*128,它经过两个卷积层和一个池化层,进而连接到两个全连通层。 全连通层将二维特征图映射为定长特征向量,最后输出一个六维向量。 向量中的概率值分别表示输入图像属于各级的概率,概率最大的值是预测的分类结果。 在利用CNN进行图像分类时,通常采用利用滑动窗口扫描分类对象的整个图像,并将得到的小图像块作为输入图像进行训练和预测的想法。 各图像块的中心像素的类别是该图像块的类别,最后综合所有类别的结果,得到整个图像的分类结果图。 这个方法有缺点。 (1)计算效率低,滑动窗口得到的图像块有很多重叠,对每个图像块进行训练得到分类结果,浪费了计算资源,计算慢; )存储量大,每个像素点分类都需要存储一个图像块,存储空间加倍; )3)感知区域有限,图像块大小限制感知区域大小,使CNN学习特征只包含局部特征,影响分类效果。

FCN结构如下图b所示,使用卷积层代替CNN中的全部连接层,并且经过第4个卷积层输出的结果是140维52*52的特征图。 随后,FCN对该特征图进行上采样操作以恢复为原始图128*128的尺寸,最后利用该特征图来进行每像素的分类。 上采样操作不仅可以识别每个像素的“什么”并生成预测,还可以恢复像素在原始图像中的位置,并保持原始输入图像的空间信息(即,“在哪里”像素),从而在FCN中生成图像密集的像素

在FCN中,将特征图恢复为原始图的大小的过程称为上采样,在上采样操作中经常使用解卷积(Deconvolution )、池化等方法。

FCN中的解卷积与数学意义上的解卷积过程不同,实际上采用的是传输卷积过程,目的是恢复特征图的大小。 下图显示了卷积和反卷积的过程。 卷积中输入图像为4*4,通过步长为1、大小为3*3的卷积核,得到2*2尺寸的特征图。 卷积过程想从2*2的输入图像中得到4*4尺寸的输出特性图。

反向池操作是池操作的反向过程。 对于最大池化,需要记录池化中的最大值的位置,并在反向池化中将输入图像中的元素值赋予特征图中的对应位置,其馀位置为0。 下图a。 对于平均池化,反向池化过程给予特征图的每个位置与输入图像的元素相同的值,如下图b所示。

FCN的特点

FCN主要有三个特点,分别是全卷集成化(Fully Convolutional )、上采样(up sampling )、跳跃结构(Skip Architecture )。

全卷积化是把网络结构内的所有连接层都转换成卷积层的。 另一方面,将输出结果从一维向量转换为二维矩阵有利于后续的上采样操作。 另一方面,由于全连通层的神经元节点是固定的,前一层特征图中所有神经元节点之间的权重个数也是固定的,神经网络结构确定后,权重个数不能改变,特征图的大小也不能改变,因此分层求逆CNN的输入图像大小必须固定,但卷积层中的权重参数的数量与特征图的大小无关,因此,全卷积的FCN可以接收任意大小的输入图像,并且GPU (图形处理器)可以重叠

保证上采样预测图和输入图像之间的尺寸相同,实现像素间的映射。 然而,由于FCN中的池操作降低了图像分辨率,从最后一层卷积层输出的特征图丢失了详细信息,并且在上采样过程中只能恢复图像大小,无法恢复图像的原始特征,因此对特征图进行上采样而获得的图像被分割因此提出了跳跃结构。

>

       在神经网络中,浅层网络输出的特征图分辨率高,保留了更多的细节信息,随着层数的加深,深层网络学习的特征更加抽象,保留了更多语义信息,但输出的特征图分辨率低。跳跃结构是指融合不同层次的特征图,将低层网络的细节信息和高层网络的语义信息进行结合,再进行上采样操作,优化输出的结果。如下图所示的FCN结构。 原图经过了5组卷积和池化操作之后,图像尺寸缩小为原图的1/32,再经过两个卷积层后,图像的维度发生变化,但尺寸不变,对conv7得到的特征图进行32倍的上采样得到和原图相同尺寸的预测图FCN-32s,但该结果显然是很粗糙的,它仅仅展示了空间的大致框架,缺少细节信息。对此,采用特征图融合的方法,将conv7的特征图经过2倍的上采样得到原图1/16的尺寸,再与pool4的特征图对应的元素相加,最后再进行16倍的上采样得到预测图FCN-16s。同理,对conv7和pool4的特征图分别进行4倍、2倍的上采样,再与pool3的特征图对应元素相加,最后再进行8倍的上采样得到与原图尺寸一致的预测图FCN-8s。实验结果表明,FCN-8s的预测结果最优,FCN-16s次之,FCN-32s最差。因为FCN-8s充分利用了pool3、pool4和conv7的特征图,结合了三者的细节信息和语义信息,因此结果最好。所以,跳跃结构能够优化输出结果,一定程度上实现识别与定位精度的并存。

 

 

 

 

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。