轻量版palipali一整晚,轻量云服务器

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

每天一分钟，带你读遍机器人顶级会议文章

标题：Segmenting 2K-Videos at 36.5 FPS with 24.3 GFLOPs: Accurate and Lightweight Realtime Semantic Segmentation Network

作者：Dokwan Oh, Daehyun Ji, Cheolhun Jang, Yoonsuk Hyun, Hong S. Bae, Sungju Hwang

来源：2020 IEEE International Conference on Robotics and Automation (ICRA)

编译：魏春雨泡泡机器人SLAM

审核：开放的裙子，清新的日记本

摘要

本文提出了一种快速、轻量级的端到端卷积网络体系结构NfS-SegNet，用于高分辨率视频的实时分割，NfS-SegNet可以在24.3GFLOPS的情况下，以36.5FPS的速度分割2K视频。我们将NfS-SegNet的这种速度和计算效率归结为以下原因：1)编码器网络NfS-Net以简单的构建块进行了速度优化，没有进行深度卷积等内存密集型操作，在图像分类上的速度明显高于SqueezeNet[2]、MobileNet v1[3]&v2[4]和ShuffleNet v1[5]&v2[6]等最先进的轻量级CNN体系结构。2)NfS-SegNet是一种非对称结构，具有较深的编码器和较浅的解码器，这种设计是基于我们经验的发现，解码器是计算中的主要瓶颈，对最终性能的贡献相对较小。3)提出了一种新的不确定性感知知识提取方法，引导教师模型将知识传递集中在最困难的图像区域。我们用CITYSCAPE[1]基准测试验证了NfS-SegNet的性能，在该基准上，它在精确度和速度上都达到了轻量级分割模型中最先进的性能。

图1：CITYSCAPES[1]排行榜上不同模型的速度精度(IOU)。与基线实时语义分割方法相比，NfS-SegNet在速度和准确率上都达到了最快的水平。

图2：系统概述：我们的网络由一个快速编码器组成，具有不对称的体系结构，编码器比解码器要“重”，并且通过不确定性感知知识蒸馏进行训练。快速编码器网络(NfS-Net)和实时分段网络(NFS-SegNet)在第III-A节和第III-B节中描述。第IV-A和IV-C部分介绍了我们的不确定性感知知识提炼，以利用更大的教师网络(GD-Net)的知识和来自CITYSCAPES的未标记数据[1]。

表I：2K输入时与浅层分类网络的比较。尽管NfS-Net的GFLOPS略高于最“轻”基线，但它是最快的。运算时间是使用Caffe在GTX 1080Ti和E5-2620CPUs上运行1000次的平均值，该实现利用了Cuda 10.0和Cudnn 7.4.1库。

图3：将每个网络层的运行时间与MobileNet v2和ShffleNet v2在2K输入图像上的运行时间进行比较。

图4：NfS-Seg及其变体在每个网络层的运行时间和GFLOPS的展示。每个图例表示最后一个网络层的过滤器形状。

表II：K.D.的可训练数据集。除了CITYSCAPES中的验证和测试序列[1]。group是为Ch V-B的增量学习场景而定义的。

图5：在图4中的实验中可以看到，解码结构越简单，相对于精度的降低，速度提高的幅度越大。

图6：模型显示了物体边界和难以分类的区域的高度不确定性，我们的U-KD关注于那些具有挑战性的图像区域来执行知识转移。

图7：增量学习的收敛曲线。这种不确定性从看不见的数据中得出有用的信息。

图9：不同教师网络的实验。教师网络：ENet和PSPNet，学生网络：NfS-SegNet。在以ENet为教师网络的情况下，较“轻”的学生网络表现优于较“重”的教师网络。

Abstract

We propose a fast and lightweight end-to-end convolutional network architecture for real-time segmentation of high resolution videos, NfS-SegNet, that can segement 2K-videos at 36.5 FPS with 24.3 GFLOPS. This speed and computation-efficiency is due to following reasons: 1) The encoder network, NfS-Net, is optimized for speed with simple building blocks without memory-heavy operations such as depthwise convolutions, and outperforms state-of-the-art lightweight CNN architectures such as SqueezeNet [2], MobileNet v1 [3] & v2 [4] and ShuffleNet v1 [5] & v2 [6] on image classification with significantly higher speed. 2) The NfS-SegNet has an asymmetric architecture with deeper encoder and shallow decoder, whose design is based on our empirical finding that the decoder is the main bottleneck in computation with relatively small contribution to the final performance.3) Our novel uncertainty-aware knowledge distillation method guides the teacher model to focus its knowledge transfer on the most difficult image regions. We validate the performance of NfS-SegNet with the CITYSCAPE [1] benchmark, on which it achieves state-of-the-art performance among lightweight segementation models in terms of both accuracy and speed.

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的幸福的星月聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~