首页 > 编程知识 正文

retinanet网络结构详解,视频实例分割

时间:2023-05-04 00:05:35 阅读:12809 作者:375

译文:端到端环境保护服务会话维护窗口

夏初

摘要

视频实例分割(VIS )是一项需要同时分类、分割和跟踪视频中感兴趣的对象实例的任务。 最近,研究人员提出了一种新的基于Transformers的视频实例分割框架VisTR,将VIS任务直接视为端到端并行序列的解码/预测问题。 将由多个图像帧组成的视频剪辑指定为输入后,VisTR将直接输出视频中每个实例的蒙版序列。 其核心是一种新的有效的实例序列匹配和分割策略,在序列级对实例进行整体监测和分割。 VisTR从相似性学习的角度划分和跟踪实例,大大简化了整个过程,与现有方法有很大不同。

VisTR是现有VIS模型中速度最快的,在YouTubeVIS数据集上使用单个模型的方法效果最好。 这还是第一次,研究人员发现在Transformer中构建了更简单、更快的视频实例分割框架,实现了竞争的正确性。 研究人员希望VisTR能够推动未来更多视频理解任务的研究。

研究贡献:

研究人员提出了一种新的基于Transformers的视频实例划分框架,称为VisTR,将VIS任务直接视为端到端并行序列的解码/预测问题。 该框架与现有方法大不相同,大大简化了整个过程。

•VisTR从相似性学习的新角度解决了VIS。 事例分割是指学习像素水平的相似度,事例追踪是指学习事例之间的相似度。 因此,在相同的实例划分框架下,可以无缝自然地实现实例跟踪。

•VisTR成功的关键是为研究人员框架定制新的实例序列匹配和拆分策略。 这两种复杂的策略使研究人员能够在整个序列级别监视和分段实例。

•VisTR在YouTube VIS数据集上取得了良好的效果,在mask mAP中为27.7 FPS (排除数据加载时为57.7 FPS ),达到了35.3%的效果,这是使用单个模型的方法中最好且最快的

研究思路:

研究人员将视频实例分割问题建模为直接的序列预测问题。 VisTR以由多个图像帧组成的视频剪辑为输入,按顺序输出视频中每个实例的蒙版序列。 为了实现这个目标,研究人员引入了实例序列匹配和分割策略,在序列级对实例进行了整体监控和分割。

VisTR架构:

上图显示了整个VisTR体系结构。 这包括用于提取多帧压缩特性表示的CNN backbone、用于像素级相似性建模的编码-用于解码的传输器、用于监视模型的实例序列匹配模块、以及

1 )背景)背景提取输入视频片段的原始像素级特征序列,提取每一帧的特征并将其与所有特征图相关联。

2 )变换编码器)通过编码器对图像中所有像素级特征的相似性建模,对视频中每个像素之间的相似性建模。 首先,维度退化使用1-1的卷积输入的特征量图sydhk。 然后将特征图在空间和时间上平面化为一维。

3 ) temporalandspatialpositionalencoding :虽然传输器的结构不变,但是分割任务需要准确的位置信息。 为了补偿这一点,研究人员使用固定的位置代码信息来补充特征,这些信息包括三维(时间、水平、垂直)位置信息,它们相关联。

4 )变换解码器:变换解码器的目标是解码表示每帧实例的像素特性。 在DETR的启发下,研究者为了从被称为instance queries的像素特性中询问实例特性,引入了固定数量的输入嵌入。 这些实例查询是通过模型学习得到的。 的输入是默认实例查询和编码器的输出。 以此方式,预测的结果按照原始视频帧序列的顺序输出,nT个实例向量,即,作为学习实例查询的输出。

Instance Sequence Matching

VisTR在一次通过解码器的过程中估计n个预测的固定大小序列。 该框架的一个主要挑战是保持同一实例在不同的映像(实例序列)中预期的相对位置。 为了找到合适的地面路由并对实例序列进行整体监控,我们引入了实例序列匹配策略。

解码器输出的固定数量的预测序列是无序的,并且每个帧包括n个实例序列。 本论文与DETR一样,使用匈牙利算法进行匹配。 ViTR采用了与DETR相似的方法,是实例划分,但需要使用目标检测中的边界盒方便地组合优化计算。 计算FFN,即通过全连接标准化的边界盒

心,宽和高。通过softmax计算出该bounding box的标签。最后得到n×T个bounding box。利用上述得到label概率分布和bounding box匹配instance sequence和gournd truth。

最后计算匈牙利算法的loss,同时考虑label的概率分布以及bounding box的位置。Loss基本遵循DETR的设计,使用L1 loss和IOU loss。下式为训练用的loss。由label,bounding box,instance sequence三者的loss组成。

Instance Sequence Segmentation

Instance sequence分割模块的目标是预测每个实例的掩码序列。为了实现这一点,该模型首先对每个实例进行mask features的积累,然后对积累的特征进行掩模序列分割。

通过计算对象预测O和Transformer编码特征E之间的相似度映射得到mask features。为了简化计算,研究人员只对每个对象预测使用其对应帧的特征进行计算。对于每一帧,对象预测O和相应的编码特征映射E被馈送到模块中以获得初始attention maps。然后attention maps将与对应帧的初始backbone的特征B和变换后的编码特征E融合,遵循与DETR类似的实践。融合的最后一层是可变形卷积层。通过这种方式,获得不同帧的每个实例的mask features。

实验:

在本节中,研究人员在YouTubeVIS[30]数据集上进行实验,该数据集包含2238个训练、302个验证和343个测试视频剪辑。数据集的每个视频都用每像素分割掩码、类别和实例标签进行注释。对象类别号为40。当测试集评估结束时,研究人员在验证集中评估研究人员的方法。评价指标为平均精度(AP)和平均召回率(AR),以mask sequences的视频交集为阈值。

在下表中,研究人员将VisTR与一些最新的视频实例分割方法进行了比较。从精度和速度两方面进行了比较。前三行中的方法最初用于跟踪或VOS。研究人员引用了其他研究中针对VIS的重新实现所报告的结果。其他方法包括MaskTrack RCNN、MaskProp和STEmSeg最初是按时间顺序为VIS任务提出的。

下图显示了YouTube VIS验证数据集上VisTR的可视化,每一行包含从同一视频中采样的图像。VisTR可以很好地跟踪和分割具有挑战性的实例,例如:(a)实例重叠,(b)实例之间相对位置的变化,(c)由相近的同类实例引起的混淆和(d)不同姿势的实例。

总结:

本文提出了一种基于Transformers的视频实例分割框架,将VIS任务看作一个直接的端到端并行序列解码/预测问题。VisTR从相似性学习的新角度解决了VIS问题。因此,在相同的实例分割框架下,可以无缝、自然地实现实例跟踪。该框架与现有方法大不相同,也比现有方法简单,大大简化了整个流程。通过大量的实验来研究和验证VisTR的核心因素。在YouTube-VIS数据集上,VisTR在使用单一模型的方法中取得了最好的结果和最高的速度。据研究人员所知,研究人员的工作是第一个将Transformer应用于视频实例分割。研究人员希望类似的方法可以应用到更多的视频理解任务中

备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的xxddy聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。