医学图像目标检测,遥感图像目标检测

链条(3359 www.zhi Hu.com/question/52185576/answer/155679253

编辑：深度学习与计算机视觉

声明：只做学术分享，入侵删除

http://www.Sina.com/http://www.Sina.com /

作者：

抽出时间简单回答一下这个问题，正好也是我们关注的方向。

简言之，视频检测是具有比单个图像检测更多的时间上下文的信息。想要利用这些上下文解决的问题取决于方法。一种方法是关注如何使用这部分信息加速视频检测。由于相邻的帧之间存在很多冗馀，如果能用一些廉价的方法在不损害性能的情况下进行加速的话，在实用上是有意义的。另一种方法是关注该部分的信息，有效地减轻一帧的图像检测中的运动模糊、物体面积太小而引起的困难，提高性能。当然最理想的方法是快又好： )

当然，这里有一个简单的baseline方法，比如直接使用跟踪相关。这种方法实际上并不深入模型本身，一般只局限于后处理步骤，可以取得一定的结果，但在个人看来并不美观。关注的是来自以下两个小组的工作吧。

1 .叫cuhk :小岗王的我知道的有三篇文章。第一个(TPAMI Short )是通过Motion信息和多个类之间的Correlation对一帧图像检测器的输出进行后处理，这是上述基线方法的一个小改进。后续文章(CVPR 16 )在此基础上引入了一个Temporal CNN对每个Tubelet进行rescore。这样根据Temporal的信息重新评价各proposal的可靠性。最近的工作(CVPR17 )也从静止图像中抽出了生成Proposal的步骤。此外，Tubelet的分类也采用了流行的LSTM。

2 .相对而言，MSRa :吉丰代这项工作更漂亮，思路清晰。我个人更喜欢。这两项工作其实思想相似，正好对应了前述加速和性能提高两个目的。其核心都是通过快速计算光流来捕捉视频中的运动信息，然后通过该流的信息利用Bilinear Sampling对前面的性能图进行Warp，即通过光流现在有了这些信息，如果您想要加速，可以直接使用预测的功能图来输出结果；如果希望获得更好的结果，可以将预测的性能贴图与根据当前帧计算出的性能贴图进行合并，然后输出结果。顺便说一下，后者也是目前唯一的端到端视频检测方法。

另外，虽然有一些细节工作，但基本上是在后处理过程中，处理Seq-NMS等rescore detection问题。

最后，我想抛砖引玉，提出我们在视频检测中观察到的问题。我们也写了paper来谈论这件事。 [ 1611.06467 ] onthestabilityofvideodetectionandtracking。也就是说，在videodection上，请看下面的视频。其实，两个检测器就准确性而言，差别不大，但从人眼来看，谁更好就一目了然了。

视频链接： https://v.youku.com/v _ show/id _ xmjy5mt M4 mt i5 mg==.html？ SPM=a2hzp.8253869.0.0 from=y 1.7-2

这种稳定性问题也给实际应用带来很多烦恼。例如，在自动驾驶中，为了估计车辆的距离和速度，需要稳定的2D检测框。不稳定的检查严重影响后续任务的准确性。因此，我们在文章中首先提出了定量指标来衡量这一稳定性，然后对一些简单的Baseline进行了评价。计算了该Stability指标与常用的Accuracy指标之间的Correlation，发现实际上这两个指标其实相关性不大，也就是说分别捕捉到了视频检测两者的一个质量。希望这项工作能给大家一些启示，除了改善准确性外，还能考虑同等的问题

重要的稳定性如何改进。

综上，Video Detection这个问题，不管是从实用性而言，还是从学术研究的角度来说，都是很不错的题目。在RBG大神和Kaiming大神不断的工作下，Still Image Detection改进空间越来越少。与其拼命在Still Image下拼那么0.x个点的mAP，不如退一步，挖掘一些新的设定，会是一篇海阔天空 :-D

作者：炸炸

https://www.zhihu.com/question/52185576/answer/298921652

Naiyan Wang的答案非常棒，点出了核心的区别是：在Video-based Object Detection中，我们可以利用Temporal Context 消除帧率较高时的信息冗余，还有利用Temporal Context 来补充单帧图像中的信息不足，从而实现更好更快的跟踪。还附带了两个对应的最时髦优美的视频检测算法，感觉受益匪浅。

在这里想从自己的角度解答一下两者的机理与区别。因为是前两年在做基于视频的目标检测和跟踪，所用的方法相对于现行的Long Short-Term Memory (LSTM)可能相对老套，但是我觉得题主该是新手，了解一下过去的经典还是有意义的，可以作为前期补充。

研究问题

无论是基于视频还是图像，我们研究的核心是目标检测问题，即在图像中（或视频的图像中）识别出目标，并且实现定位。

基于单帧图像的目标检测

在静态图像上实现目标检测，本身是一个滑窗＋分类的过程，前者是帮助锁定目标可能存在的局部区域，后者则是通过分类器打分，判断锁定的区域是否有（是）我们要寻找的目标。研究的核心多集中于后者，选什么样的特征表示来描述你锁定的区域（HOG, C-SIFT, Haar, LBP, CNN, Deformable Part Models (DPM) and etc.），将这些特征输入到什么样的分类器（SVM，Adaboost and etc.）进行打分，判断是否是我们要找的目标。

尽管我们要检测的目标可能外形变化多端（由于品种，形变，光照，角度等等），通过大量数据训练CNN得到的特征表示还是能很好地帮助实现识别和判定的过程。但是有些极端情况下，如目标特别小，或者目标和背景太相似，或者在这一帧图像中因为模糊或者其他原因，目标确实扭曲的不成样子，CNN也会觉得力不从心，认不出来它原来是我们要找的目标呢。另外一种情况是拍摄场景混入了其他和目标外观很像的东西 (比如飞机和展翅大鸟)，这时候也可能存在误判。

也就是在这几种情况下，我们可能无法凭借单帧的外观信息，完成对目标鲁棒的检测。

基于视频的目标检测

单帧不够，多帧来凑。在视频中目标往往具有运动特性，这些特性来源有目标本身的形变，目标本身的运动，以及相机的运动。所以引入多帧之后，我们不仅可以获得好多帧目标的外观信息，还能获得目标在帧间的运动信息。于是就有了以下的方法：

第一种：侧重于目标的运动信息。先基于motion segmentation 或是 background extraction（光流法和拼搏的书包分布等）实现对前景和背景的分离，也就是说我们借助运动信息挑出了很有可能是目标的区域；再考虑连续帧里目标的持续性（大小，颜色，轨迹的一致性），可以帮助删去一部分不合格的候选的目标区域；然后对挑出的区域打分做判断，还是利用外观信息（单帧里提到的）。

第二种：动静结合，即在第一种的基础上，加入目标的外观形变。有些目标在视频中会呈现幅度较大的，有一定规律的形变，比如行人和鸟。这时我们可以通过学习形变规律，总结出目标特殊的运动特征和行为范式，然后看待检测的目标是否满足这样的行为变化。常见的行为特征表示有3D descriptors，Markov-based shape dynamics, pose/primtive action-based histogram等等。这种综合目标静态和动态信息来判断是否是特定目标的方法，有些偏向action classification。

第三种：频域特征的利用

在基于视频的目标检测中，除了可以对目标空间和时间信息进行分析外，目标的频域信息在检测过程中也能发挥巨大的作用。比如，在鸟种检测中，我们可以通过分析翅膀扇动频率实现鸟种的判别。

值得注意的是这里基于视频的目标检测（video-based detection）存在两种情况，一种是你只想知道这个场景中有没有这种目标，如果有，它对应的场景位置是哪; 另一种是这个场景有没有这种目标，它在每一帧中的位置是哪。我们这里介绍的方法侧重的是后一种更复杂的。

Deep learning 是钱途无量的，也是横行霸道的。希望视觉特征建模也能继续发展，整个计算机视觉研究领域更加多元化，而非被机器学习边缘化。

作者：亦辰

https://www.zhihu.com/question/52185576/answer/413306776

看到上面这么多大佬的回答，我也来补充一些自己的认识。

首先，从概念上来讲，视频目标检测要解决的问题是对于视频中每一帧目标的正确识别和定位。那么和其他领域如图像目标检测、目标跟踪有什么区别呢？

1.与图像目标检测的区别

如Naiyan Wang 大佬所说，视频中多了时序上下文关系（Temporal Context）。充分利用好时序上下文关系，可以解决视频中连续帧之间的大量冗余的情况，提高检测速度；还可以提高检测质量，解决视频相对于图像存在的运动模糊、视频失焦、部分遮挡以及奇异姿势等问题。

（图片来源于Flow-Guided Feature Aggregation for Video Object Detection）

2. 与目标跟踪的区别

目标跟踪通常可分为单目标跟踪和多目标跟踪两类，解决的任务和视频目标检测相同的点在于都需要对每帧图像中的目标精准定位，不同点在于目标跟踪不考虑目标的识别问题。

3. 视频目标检测进展情况

与光流结合的方法

一直在follow MSRA的Jifeng Dai大佬（大佬主页）的工作。

该工作的优势是利用了连续帧冗余信息减少了大量运算，检测速度很快。

FGFA（Flow Guided Feature Aggregation）出发点主要在于，提高特征质量，改善视频中存在的运动模糊，视频失焦等问题，其方法特点在于更好的融合前后帧的信息。借助于注意力模型的思想，计算当前帧与前后帧之间的每个空间位置余弦相似度作为自适应权重，使通过warp的特征图与当前帧越近的权重越大。

该工作由于对每帧都做了特征提取，计算开支很大，检测速度不高。优势是检测精度得到提升，ImageNet VID 任务冠军方案就使用了上述两种方法。

与目标跟踪结合的方法

链接：https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1710.03958

与RNN结合的方法

链接：[1712.06317] Video Object Detection with an Aligned Spatial-Temporal Memory (arxiv.org)

链接：[1607.04648] Context Matters: Refining Object Detection in Video with Recurrent Neural Networks (arxiv.org)

其他融合方法

链接：[1712.05896] Impression Network for Video Object Detection (arxiv.org)

非端到端方法

链接：[1604.02532v4] T-CNN: Tubelets with Convolutional Neural Networks for Object Detection from Videos (arxiv.org)

链接：[1602.08465v3] Seq-NMS for Video Object Detection (arxiv.org)

综上，当下视频目标检测研究相对于图像领域还不够火热。研究思路多是要么关注利用冗余信息提高检测速度，要么融合连续帧之间上下文信息提高检测质量。减少冗余，提高速度这方面工作不是很多。（也有可能文章看的还不够多，欢迎指正）而融合上下文信息可以考虑借助行为识别常用的3D卷积，RNN，注意力模型等方法。

☆ END ☆

如果看到这里，说明你喜欢这篇文章，请转发、点赞。微信搜索「uncle_pn」，欢迎添加小编微信「 woshicver」，每日朋友圈更新一篇高质量博文。

↓扫描二维码添加小编↓