retinanet网络结构详解,视频实例分割

译文：端到端环境保护服务会话维护窗口

夏初

摘要

视频实例分割(VIS )是一项需要同时分类、分割和跟踪视频中感兴趣的对象实例的任务。最近，研究人员提出了一种新的基于Transformers的视频实例分割框架VisTR，将VIS任务直接视为端到端并行序列的解码/预测问题。将由多个图像帧组成的视频剪辑指定为输入后，VisTR将直接输出视频中每个实例的蒙版序列。其核心是一种新的有效的实例序列匹配和分割策略，在序列级对实例进行整体监测和分割。 VisTR从相似性学习的角度划分和跟踪实例，大大简化了整个过程，与现有方法有很大不同。

VisTR是现有VIS模型中速度最快的，在YouTubeVIS数据集上使用单个模型的方法效果最好。这还是第一次，研究人员发现在Transformer中构建了更简单、更快的视频实例分割框架，实现了竞争的正确性。研究人员希望VisTR能够推动未来更多视频理解任务的研究。

研究贡献：

研究人员提出了一种新的基于Transformers的视频实例划分框架，称为VisTR，将VIS任务直接视为端到端并行序列的解码/预测问题。该框架与现有方法大不相同，大大简化了整个过程。

•VisTR从相似性学习的新角度解决了VIS。事例分割是指学习像素水平的相似度，事例追踪是指学习事例之间的相似度。因此，在相同的实例划分框架下，可以无缝自然地实现实例跟踪。

•VisTR成功的关键是为研究人员框架定制新的实例序列匹配和拆分策略。这两种复杂的策略使研究人员能够在整个序列级别监视和分段实例。

•VisTR在YouTube VIS数据集上取得了良好的效果，在mask mAP中为27.7 FPS (排除数据加载时为57.7 FPS )，达到了35.3%的效果，这是使用单个模型的方法中最好且最快的

研究思路：

研究人员将视频实例分割问题建模为直接的序列预测问题。 VisTR以由多个图像帧组成的视频剪辑为输入，按顺序输出视频中每个实例的蒙版序列。为了实现这个目标，研究人员引入了实例序列匹配和分割策略，在序列级对实例进行了整体监控和分割。

VisTR架构：

上图显示了整个VisTR体系结构。这包括用于提取多帧压缩特性表示的CNN backbone、用于像素级相似性建模的编码-用于解码的传输器、用于监视模型的实例序列匹配模块、以及

1 )背景)背景提取输入视频片段的原始像素级特征序列，提取每一帧的特征并将其与所有特征图相关联。

2 )变换编码器)通过编码器对图像中所有像素级特征的相似性建模，对视频中每个像素之间的相似性建模。首先，维度退化使用1-1的卷积输入的特征量图sydhk。然后将特征图在空间和时间上平面化为一维。

3 ) temporalandspatialpositionalencoding :虽然传输器的结构不变，但是分割任务需要准确的位置信息。为了补偿这一点，研究人员使用固定的位置代码信息来补充特征，这些信息包括三维(时间、水平、垂直)位置信息，它们相关联。

4 )变换解码器：变换解码器的目标是解码表示每帧实例的像素特性。在DETR的启发下，研究者为了从被称为instance queries的像素特性中询问实例特性，引入了固定数量的输入嵌入。这些实例查询是通过模型学习得到的。的输入是默认实例查询和编码器的输出。以此方式，预测的结果按照原始视频帧序列的顺序输出，nT个实例向量，即，作为学习实例查询的输出。

Instance Sequence Matching

VisTR在一次通过解码器的过程中估计n个预测的固定大小序列。该框架的一个主要挑战是保持同一实例在不同的映像(实例序列)中预期的相对位置。为了找到合适的地面路由并对实例序列进行整体监控，我们引入了实例序列匹配策略。

解码器输出的固定数量的预测序列是无序的，并且每个帧包括n个实例序列。本论文与DETR一样，使用匈牙利算法进行匹配。 ViTR采用了与DETR相似的方法，是实例划分，但需要使用目标检测中的边界盒方便地组合优化计算。计算FFN，即通过全连接标准化的边界盒

心，宽和高。通过softmax计算出该bounding box的标签。最后得到n×T个bounding box。利用上述得到label概率分布和bounding box匹配instance sequence和gournd truth。

最后计算匈牙利算法的loss，同时考虑label的概率分布以及bounding box的位置。Loss基本遵循DETR的设计，使用L1 loss和IOU loss。下式为训练用的loss。由label，bounding box，instance sequence三者的loss组成。

Instance Sequence Segmentation：

Instance sequence分割模块的目标是预测每个实例的掩码序列。为了实现这一点，该模型首先对每个实例进行mask features的积累，然后对积累的特征进行掩模序列分割。

通过计算对象预测O和Transformer编码特征E之间的相似度映射得到mask features。为了简化计算，研究人员只对每个对象预测使用其对应帧的特征进行计算。对于每一帧，对象预测O和相应的编码特征映射E被馈送到模块中以获得初始attention maps。然后attention maps将与对应帧的初始backbone的特征B和变换后的编码特征E融合，遵循与DETR类似的实践。融合的最后一层是可变形卷积层。通过这种方式，获得不同帧的每个实例的mask features。

实验：

在本节中，研究人员在YouTubeVIS[30]数据集上进行实验，该数据集包含2238个训练、302个验证和343个测试视频剪辑。数据集的每个视频都用每像素分割掩码、类别和实例标签进行注释。对象类别号为40。当测试集评估结束时，研究人员在验证集中评估研究人员的方法。评价指标为平均精度（AP）和平均召回率（AR），以mask sequences的视频交集为阈值。

在下表中，研究人员将VisTR与一些最新的视频实例分割方法进行了比较。从精度和速度两方面进行了比较。前三行中的方法最初用于跟踪或VOS。研究人员引用了其他研究中针对VIS的重新实现所报告的结果。其他方法包括MaskTrack RCNN、MaskProp和STEmSeg最初是按时间顺序为VIS任务提出的。

下图显示了YouTube VIS验证数据集上VisTR的可视化，每一行包含从同一视频中采样的图像。VisTR可以很好地跟踪和分割具有挑战性的实例，例如：（a）实例重叠，（b）实例之间相对位置的变化，（c）由相近的同类实例引起的混淆和（d）不同姿势的实例。

总结：

本文提出了一种基于Transformers的视频实例分割框架，将VIS任务看作一个直接的端到端并行序列解码/预测问题。VisTR从相似性学习的新角度解决了VIS问题。因此，在相同的实例分割框架下，可以无缝、自然地实现实例跟踪。该框架与现有方法大不相同，也比现有方法简单，大大简化了整个流程。通过大量的实验来研究和验证VisTR的核心因素。在YouTube-VIS数据集上，VisTR在使用单一模型的方法中取得了最好的结果和最高的速度。据研究人员所知，研究人员的工作是第一个将Transformer应用于视频实例分割。研究人员希望类似的方法可以应用到更多的视频理解任务中

备注：作者也是我们「3D视觉从入门到精通」特邀嘉宾：一个超干货的3D视觉学习社区

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复：深度学习，即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复：计算机视觉，即可下载计算机视觉相关17本pdf书籍，包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复：SLAM，即可下载独家SLAM相关视频课程，包含视觉SLAM、激光SLAM精品课程。

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的xxddy聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~