首页 > 编程知识 正文

psp游戏iso,三国志七psp版手机修改器

时间:2023-05-06 00:37:03 阅读:25345 作者:4401

目标分割PSPNet解说abstract1. introduction2. related work3. pyramidsceneparsingnetwork 3.1.important observations 3.2.pyramidpolingng

译文: PSPNet

收录: cvpr 2017 (ieeeconferenceoncomputervisionandpatternrecognition )。

代码: PSP网络千兆以太网

ABSTRACT

本文通过在http://www.Sina.com/(pyramidpoolingmodule )和http://www.Sina.com/(PSP net )中聚合基于不同地区的上下文信息来实现全局上下文我们的金字塔池化模块在场景分析任务中有很好的效果,同时金字塔场景解析网络为像素级预测提供了很好的框架; 该方法在不同的数据集上提供尖端的性能。 其中,2016年的ImageNet场景分析挑战、PASCAL VOC 2012基准、Cityscapes基准均排名第一。

全局先验表示:场景分析基于图像分割实现:

为了提高全局上下文信息的获取,金字塔池化模块和PSPNet基于不同区域的上下文信息聚合预显示对场景分析任务有很好的效果。

1 .基于1. INTRODUCTION语义分割的场景分析是计算机视觉的基本课题。PSPNet提供对场景的全面理解。 可以预测每个元素的标签、位置和形状。 该技术在自动驾驶、机器人传感等领域有广泛的应用前景。

场景分析的难度与场景和标签的多样性密切相关。

目前,最先进的场景分析框架大多基于全卷积网络(FCN ),但也存在许多短板,稍后将进行详细分析。

论文核心思想

我们基于FCN的像素预测框架,提出了金字塔场景分析网络我们基于深度监测的loss,为深度ResNet开发了有效的优化策略; 我们为最先进的场景分析和语义分割建立了实用的系统,其中包含了所有重要实现的细节。 2 .关系工作

在深度神经网络的驱动下,场景分析和语义分割等像素级预测任务在卷积层替代全连接层分类的启发下取得了很大进展。 为了扩大网络感受区,也有人使用空洞卷积、反卷积的粗至精细等方法。 基于以前的工作,我们选择的baseline是FCN和Dilated Convolutions。

大多数语义分割模型的工作基于两个方面。

场景解析:因为在深层网络中,高层特征包含更多的含义和更少的位置信息。 结合多尺度的特征可以提高性能

主要贡献:例如,利用传统方法的CRF (条件随机场)处理来细化划分结果。

Liu等人证明,使用FCN的全局平均池可以改善语义划分结果,但在我们的实验中,这些全局符号对具有挑战性的ADE20K数据并不足够有效,因此不使用全局池,而是基于不同区域的控制

3.pyramid scene parsing网络

3.1. Important Observations

多尺度特征融合

基于结构预测:语境关系对理解复杂场景普遍重要,一个物体的出现具有一些固定的视觉模式。 例如,飞机很可能出现在跑道上或在空中飞行,不能在路上。 例如,在上图的第一行中,FCN预测黄色方块中的“船”从外观上变成“车”。 但是,河水里几乎没有车出现。 没有收集上下文信息的能力会增加错误分类的可能性。

通过分析FCN baseline的预测结果,我们总结了复杂场景解析中容易出现的几个常见问题:ADE20K数据集有很多非常难区分类型标签。 例如,field和earth、mountain和hill、wall、house、building和skyscraper。 这一组物体的外观很相似。 在上图的第二列中,FCN预测边框中的部分对象为skyscraper,部分对象为building。 我们不期待这种情况。 对象应该是摩天大楼和建筑,但两者不应该各有一点。 这个问题可以通过利用类别之间的关系来解决。

g>Inconspicuous Classes:场景中包含任意大小的对象, 一些小尺寸的,例如街灯和广告牌往往很难找到,但它们可能非常重要 。与之相反,大尺寸的物品可能会超过FCN的感受野,从而导致不连续的预测。如上图第三行所示,枕头的外观与床单相似。不考虑全局场景中的类别的话可能会无法解析枕头。为了提高对于非常小或大的物体的性能,我们应该更加注意包含不显著类别的东西的不同子区域。

综上所述,许多错误 部分或全部与上下文关系和不同感受野的全局信息相关。因此,具有合适全局场景级先验(金字塔池化模块)的深度网络可以大大提高场景解析的性能。
 

3.2. Pyramid Pooling Module

       通过以上分析,金字塔池模块在经验上证明了有效的全局上下文先验。

       在深度神经网络中, 感受野的大小可以大致表示使用上下文信息的程度 。尽管理论上ResNet的感受野已经比输入图像还大,但CNN的实际感受野远小于理论场,尤其是在高层上,这使得 网络许多部分没有充分获得重要的全局先验知识 。
       为了解决上述问题,我们提出有效的全局先验表示。

※全局平均池化

全局平均池化是一个很好的全局上下文先验,是图像分类任务中常用的一种先验,Parsenet将它成功应用到了语义分割中。
                                                                                                                             (Parsenet将全局平均池化应用到语义分割上来)

但对于ADE20K中复杂场景图像,这种方式不足以涵盖必要的信息。这些场景图像中有许多种类的对象。全局平均池化会直接将其融合形成一个单一的矢量可能会使其失去空间相关性,造成模糊。                                   (全局平均池化会造成模糊)

全局上下文和子区域的上下文都有助于区分不同类别。一个更强大的表达应该是能将不同子区域的上下文信息与感受野融合起来。                                                                                                                      (全局上下文和子区域的上下文都有助于区分不同类别)

 
※金字塔池化

       在SPPNet里,最后将金字塔池化生成的不同层次的特征图进行平铺拼接,送入全连通层进行分类,该全局先验(金字塔池化)是为了去除CNN图像分类的固定大小约束而设计的。
 
※金字塔池化模块

       为了进一步减少不同子区域间上下文信息的丢失,我们提出了一个有层次的全局先验结构(金字塔池化模块),包含不同尺度、不同子区域间的信息。                                          (我们的金字塔池化模块是一个四层结构,称心的歌曲大小为1×1、2×2、3×3和6×6)

金字塔池化模块融合四种不同金字塔尺度的特征

红色突出显示的是最粗糙级别的单个全局池化称心的歌曲输出;下面金字塔分支将特征映射划分为不同的子区域,并形成针对不同位置的集合表示,金字塔池模块中不同层次的输出包含不同大小的feature map;为了维护全局特性的权重,如果金字塔共有N个级别,则在每个级别后使用1×1的卷积将对于级别通道降为原本的1/N。再通过双线性插值直接对低维特征图进行上采样,最后,将不同级别的特征concate起来,作为最终的金字塔池化全局特性。

 

PSPNet网络结构详解

输入图像后,使用预训练带空洞卷积的ResNet来提取特征图。最终的特征映射大小是输入图像的1/8,如上图(b)所示。在生成特征图后,我们使用上图©中的金字塔池化模块来收集上下文信息。使用4层金字塔结构,池化内核覆盖了图像的全部、一半和小部分。它们被融合为全局先验信息。在( c )的最后部分上采样,然后将之前的金字塔特征映射与原始特征映射合并起来,再进行卷积,生成(d)中的最终预测图。 4. Deep Supervision for ResNet-Based FCN

在ResNet101的基础上做了改进,除了使用Softmax loss来训练最终分类器的的主分支外,额外的在第四阶段添加了一个辅助的loss;在第四阶段后再使用另一个分类器,即res4b22残差块两个loss同时传播,辅助loss有助于优化学习过程,主loss仍是主要的优化方向,然后使用不同的权重,共同优化参数。后续的实验证明这样做有利于快速收敛。 Reference PSP Net 论文笔记Semantic Segmentation–Pyramid Scene Parsing Network(PSPNet)论文解读

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。