首页 > 编程知识 正文

统计尺度(具体形象思维向抽象逻辑思维过渡)

时间:2023-05-06 19:33:15 阅读:73659 作者:1663

点击上面的“闪闪发卡学视觉”,选择“星标”或“置顶”重磅硬币,立即送货

作者: Abhinav Sagar

编译:荣辉

导读

用于自动驾驶的全新state of the art网络。

本文提出了一种新的神经网络,利用不同尺度的多尺度特征融合实现了精确有效的语义分割。

重点

我们在下采样部分使用膨胀卷积层,在上采样部分使用倒排卷积层,并在concat层对它们进行了拼接。

备用区块之间有跳跃连接,有助于减少过拟合。

我们对网络训练和优化的细节进行了深入的理论分析。

Camvid数据集使用每类平均精度和IOU作为评估指标来评估网络。

我们的模型在语义分割上优于以前的state of the art网络,在每秒超过100帧的速度下的平均IOU值为74.12。

语义分割

语义分段需要对输入图像的每个像素预测类,而不是对整个输入图像进行分类。 为了预测图像中每个像素的内容,分割不仅需要找到输入图像中的内容,还需要找到其位置。 语义分割应用于自动驾驶、视频监控、医学影像等。 这是一个困难的问题,因为存在准确性和速度之间的权衡。 模型最终需要部署到现实环境中,因此需要高精度和高速度。

数据集

培训和评估使用了CamVid数据集。 数据集提供了ground truth标记,用于将每个像素与32个类之一相关联。 图像大小为360480。 数据集的ground truth示例图像如图1所示:

图1 :来自数据集图像的地面传输将原始图像称为地面传输。 对于任何算法,总是通过与地面传输数据的比较来进行指标的评价。 为数据集和测试集提供地面传输信息,用于培训和测试。 对于语义分割问题,ground truth包括图像、图像中的对象类别以及特定图像中每个对象的分割遮罩。 对于图2中的12个类别,这些图像分别以二进制格式显示。

图2 )将图像转换为二进制类掩码的这些类别包括天空、构建、轮询、加载、性能、树、签名同步、基元、Car、深度、二进制

网络结构

网络结构解释如下。

将原来360480像素的图像调整为224224像素。

将数据集分为两部分,训练集中有85%的图像,测试集中有15%的图像。

使用的损失函数是分类交叉熵。

使用扩展卷积代替下采样层的常规卷积层。 这是为了减少特征图,使用翻转卷积而不是上采样层的常规卷积层来恢复特征。

在图层之间使用concat操作连接不同比例的特征。

对于convolutional layer,我们不使用填充,而是使用3 * 3过滤器,并将relu用作激活函数。 对于最大池化层,使用了22的滤波器和22的步骤。

使用VGG16作为训练模型的预训练主干。

最后一层使用Softmax作为激活函数,输出物体是否存在于特定像素位置的分离

散概率。

我们使用adam作为优化器。

为了避免过拟合,我们使用了我们认为最优的batch size值4。

本工作中使用的网络结构图3所示:

图4:我们的网络结构

优化

假设给定一个局部特征C,我们将其输入一个卷积层,分别生成两个新的特征图B和C。对A与B的转置进行矩阵乘法,应用softmax层计算空间注意力图,定义如下式:

我们在X和A的转置之间进行矩阵乘法并reshape它们的结果。然后将结果乘以一个尺度参数β,并与A进行元素和运算,得到最终的输出结果如下式所示:

由上式可知,得到的各通道特征是各通道特征的加权和,并模拟了各尺度特征图之间的语义依赖关系。主干网络以及子阶段聚合方法可表示为:

这里i指的是stage的索引。

实验

池化层的数量对IOU的影响如表2所示。

模型架构中使用的分支数和融合方法对IOU的影响如表3所示。

模型训练了40个epoch,训练的平均像素精度为93%,验证的平均像素精度为88%。损失和像素级精度(训练和测试)被绘制成epoch的函数,如图4所示:

图4:a) Loss vs epochs b) Accuracy vs epochs

评估指标

对于评价,使用了以下两个指标:

1、每个类的平均精度:这个度量输出每个像素的类预测精度。

2、平均IOU:它是一个分割性能参数,通过计算与ground truth掩模之间的交集和并集的比来度量两个目标之间的重叠率。

按类别计算IOU值的方法如下所示。

其中TP为真阳性,FP为假阳性,FN为假银性,IOU表示交并比。

结果

使用多个block、FLOPS和参数对IOU的影响如表5所示。在这里,FLOPS和参数是我们的模型架构所需要的计算量的度量。

表6中显示了之前的stage和我们的模型结构所实现的FPS和IOU的比较分析。

将预测的分割结果与来自数据集的ground truth图像进行比较,结果如图5所示。

图5:预测图像的结果 —— 第一列来自dataset的原始图像,第二列来自network的预测图像,第三列来自dataset的ground truth图像

总结

本文提出了一种基于多尺度关注特征图的语义分割网络,并对其在Camvid数据集上的性能进行了评价。我们使用了一个下采样和上采样结构,分别使用了扩展卷积和转置卷积层,并结合了相应的池化层和反池化层。我们的网络在语义分割方面的表现超过了以往的技术水平,同时仍能以100帧每秒的速度运行,这在自动驾驶环境中非常重要。

论文地址:https://abhinavsagar.github.io/files/sem_seg.pdf

代码:https://github.com/abhinavsagar/mssa

—END—

英文原文:https://towardsdatascience.com/semantic-segmentation-with-multi-scale-spatial-attention-5442ac808b3e

下载1:OpenCV-Contrib扩展模块中文版教程

在「闪闪的发卡学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目31讲

在「闪闪的发卡学视觉」公众号后台回复:Python视觉实战项目31讲即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「闪闪的发卡学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”xwdgz + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。