首页 > 编程知识 正文

SaP评估分割的应用场景(语义分割和分类)

时间:2023-05-06 20:02:10 阅读:90499 作者:777

通过使用金字塔池化模块(Pyramid Pooling Module ),在整合基于不同地区的上下文后,PSPNet将有效地超过FCN、DeepLab、DilatedNet等当前最佳方法。

原标题| review : PSP net—Winnerinilsvrc 2016 (Semantic Segmentation/Scene Parsing ) ) ) )。

作者| Sik-Ho Tsang

翻译| had_in (电子科技大学),FlyingMoonLF

编辑

这次,由香港中文大学(CUHK )和商汤科技)提出的金字塔场景分析网络) Pyramid Scene Parsing Network,PSPNet )受到了审查。

语义分割的目标只是知道已知对象的各个像素的类标签。

场景分析基于语义分割,目标是了解图像中所有像素的类标签。

场景分析

通过使用金字塔池化模块(Pyramid Pooling Module ),在整合基于不同地区的上下文后,PSPNet将有效地超过FCN、DeepLab、DilatedNet等当前最佳方法。 PSPNet最终:

2016年ImageNet场景分析挑战赛冠军

用PASCAL VOC 2012和Cityscapes数据集取得了当时最好的效果

工作于2017年发表在CVPR上,被引用量超过了600次。 (sh tsang @中值)

本文提纲

1.全球信息的必要性

2 .金字塔池化模块

3 .详细情况

4 .模型简化研究

5 .与目前最佳方法的比较

1. 对全局信息的需要

(c )非传统上下文集成的FCN,) d )上下文集成的PSPNet

失配: FCN根据外观预测黄色框内的船为“汽车”。 但是,按常理,汽车很少出现在河面上。

类别混淆: FCN预测框内对象的一部分为“摩天大楼”,一部分为“建筑物”。 这些结果必须被排除在外,以便整个对象被分为“摩天大楼”或“建筑物”,不被分为两类。

精细对象类别:枕头和床单的外观相似。 如果忽略全局场景类别,则分析可能会失败,如“枕头”。

因此,需要图像的几个全局特征。

2.金字塔池化模块

特征提取后的金字塔池模块(颜色在这张图中很重要! )

请参见和(b )

(c ).1

红色:这是在每个特性map中运行全局平均池的最粗略的层,用于生成单个坦率的链输出。

橙色:这是第二层,将特征地图分割为22的子区域,按每个子区域进行平均池化。

蓝色:这是第3层,将特征地图分割为33的子区域,按每个子区域进行平均池化。

绿色:这是将特征图分割为66子区域的最精细的级别,按子区域执行池化。

(c).2. 11 卷积用于降维

(c).3. 双线性插值用于上采样

(c).4. 连接上下文聚合特征

不同级别的上采样特征贴图都连接到原始特征贴图(黑色)。 这些特征地图是全局预融合的。 这就是金字塔池模块(c )的结束。

(d)

最后,通过卷积层生成最终预测的分割图(d )。

次区域平均池的概念实际上与SPPNet中的空间金字塔池化很相似。 首先使用11卷积,然后连接。 与Xception或MobileNetV1中使用的深度可分离卷积非常类似,不同之处在于使用双线性插值使所有特征贴图的大小相等。

3 .一些培训的细节

中间的辅助损失项

辅助损失项目在训练中使用。 辅助损失项有0.4的权重,用于平衡最终损失和辅助损失。 测试时,放弃辅助损失。 这是一种针对深度网络训练的深度监控训练策略。 这个创意来自谷歌网络/感知- v1的辅助识别器(https://medium.com/coin monks/paper-review-of -谷歌网络感知- v1-win

习代替了“单元”学习。

4. 模型简化测试

ADE2K 数据集是ImageNet场景解析挑战赛2016中的数据集。它是一个更具挑战性的数据集,包含多达150个类和1,038个图像级标签。有20K/2K/3K图像用于训练/验证/测试。

验证集用于模型简化测试。

4.1. 最大值池化vs 平均池化,以及降维(DR)

不同算法在ADE2K验证集上的结果

ResNet50-Baseline: 基于ResNet50的扩张FCN。

‘B1’和‘B1236’: 直率的手链大小分别为{1×1}和{1×1,2×2,3×3,6×6}的池化特征map。

‘MAX’和‘AVE’: 最大池操作和平均池操作

‘DR’: 降维.

平均池始终有更好的结果。使用降维比不使用降维要好。

4.2 辅助损失

辅助损失项的不同权重在ADE2K验证集上的结果

α= 0.4得到最好的性能。因此,使用权重α= 0.4。

4.3. 不同网络层数和不同尺度(MS)的测试

不同层数以及不同尺度的网络在ADE2K验证集上的结果

如我们知道的一样,更深的模型有更好的结果。多尺度测试有助于提高测试结果。

4.4. 数据增强 (DA)以及与其他算法的对比

在ADE2K验证集上与最新的方法的比较结果(除最后一行外,所有方法都是单尺度的)。

ResNet269+DA+AL+PSP: 对于单一尺度的测试,所有的技巧结合在一起的话,这种算法比最先进的方法有很大的优势。

ResNet269+DA+AL+PSP+MS: 同时进行了多尺度测试,取得了较好的效果。

下面是一些例子:

ADE2K中的样例

5. 与最先进方法的比较

5.1. ADE2K - ImageNet场景解析挑战赛2016

ADE2K测试集结果

PSPNet赢得了2016年ImageNet场景解析挑战赛冠军。

5.2. PASCAL VOC 2012

在使用数据增强的情况下,有10582/1449/1456张图像用于训练/验证/测试。

PASCAL VOC 2012测试集结果

“+”表示模型经过MS COCO数据预训练。

同样,PSPNet优于所有最先进的方法,如FCN、DeconvNet、DeepLab和Dilation8。

下面是一些例子:

PASCAL VOC 2012样例

5.3. Cityscapes

这个数据集包含了来自50个不同季节的城市的5000张高质量的像素级精细注释图像。分别有2975/500/1525张图像用于训练/验证/测试。它定义了包含材料和物品的19个类别。此外,我们亦为两种设定提供了20000张粗略注释的图像作比较,即,只使用精细数据以及同时使用精细和粗略标注数据进行训练。两者的训练都用“++”标记。

Cityscapes测试集结果

采用精细标注数据训练,或采用精细数据与粗略标注数据同时训练,PSPNet都取得了较好的效果。

下面是一些例子:

Cityscapes样例

作者还上传了Cityscapes数据集的视频,令人印象非常深刻:

另外两个视频例子:

https://www.youtube.com/watch?v=gdAVqJn_J2M

https://www.youtube.com/watch?v=HYghTzmbv6Q

采用金字塔池化模块,获得了图像的全局信息,提升了结果。

本 期 译 者

had_in

From 电子科技大学

FlyingMoonLF

此人太懒,啥也没填

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。