yolo系列外文翻译_Cascade R-CNN和YOLOv3在导弹目标识别中的应用

1. 引言

随着武器装备的发展日趋智能化，自动目标识别(Automatic target recognition, ATR)成为导弹末制导研究的重要课题 [1]。自20世纪60年代提出ATR概念以来，ATR技术得到迅猛发展，相关学者对不同制导模式提出了算法理论，并伴随技术发展不断提出新算法 [2]。当前，基于可见光、激光和红外图像识别等技术在导弹目标识别中已广泛应用，但识别精度有待进一步提高，迫切需要研究新的方法和技术，提高对打击目标识别的准确性和实时性。

2006年，深度学习被Geoffrey Hinton提出并迅速应用于计算机视觉领域 [3]，其本质是运用分层特征表示方法，对大数据样本进行分析，提取样本中的低级特征，并进一步抽象化实现高级特征表示，具有可靠性高、智能化等特点，被广泛应用于语音识别、图像识别和音频检测等领域 [4]。深度学习为实现导弹打击目标自动识别提供了新的技术途径，其中性能较为优异的算法有Cascade R-CNN和YOLOv3。

2. 基于CNN网络的目标识别算法

深度学习是机器学习的一个重要分支。与传统经典机器学习算法相比，深度学习神经网络模型的中间隐层数量更多，结构更为复杂，可通过逐层训练和迭代循环，实现对复杂函数的逼近。样本数据的高级特征是通过对其低级特征进行抽象运算获取的，具备学习样本数据更为本质特征的能力 [5]。当前具有代表性的网络模型有深度置信网络(deep belief network, DBN)模型、堆叠自动编码机(stacked auto-encoder, SAE)模型、基于循环神经网络(recurrent neural networks, RNN)的深度模型和基于卷积神经网络(convolutional neural network, CNN)的深度模型。

CNN网络是一种适合处理空间数据(如图像、视频)的前馈式神经网络，受视觉神经科学的启发，具备自主分层学习数据的能力 [6]，在计算机视觉领域广泛应用。经典CNN模型结构如图1所示，由输入层、多层卷积及池化层、光栅层、多层感知器及输出层组成，其中卷积层提取局部特征，池化层降低隐藏层维度、减少参量并使特征具有空间不变性，光栅层将多维特征线性化，多层感知器实现分类和预测。

Figure 1. CNN network structure

图1. CNN网络结构

1989年Yann LeCun首次提出CNN模型 [7]。得益于计算机计算能力的提升，2012年Hinton博士提出了深度卷积神经网络AlexNet [8]，该网络在当年图像识别领域竞赛中的top-1的error rates为37.5%，远超第二名的优异性能引起研究者的重视。随着CNN网络的不断深化，网络从大量数据中学习提取目标特征的能力不断增强，针对图像的目标识别算法研究也取得重大进展 [9]。深度CNN目标检测算法分为两类 [10]：双步检测算法，将目标识别分为分类和回归候选框两个问题去考虑，如Fast R-CNN，Faster R-CNN，Cascade R-CNN等，一般该类识别算法具有较高的准确性；单步检测算法，分类和候选框同时完成，如SSD，YOLO，YOLOv2，YOLOv3等，一般该类识别算法具有较高的检测速度。以目标识别平均准确率(mean average precision, mAP)和每秒检测帧数(frames per second, FPS)为指标，各算法在VOC2007/2012和COCO集上的表现如表1所示。

Table 1. Comparison of target detection performance of each algorithm

表1. 各算法目标检测性能比较

由表1可知，在识别平均准确率方面，VOC数据集中SSD500最高达到76.8%，但其在COCO集中仅为31.2%，与YOLOv3的31.0%相当，低于Cascade R-CNN的42.8%；每秒检测帧数方面，VOC数据集中SSD500为19 fps，YOLOv2 (416)最高为67 fps，但在COCO集中YOLOv3 (416)达到35 fps，远高于SSD500的8 fps。基于以上分析，Cascade R-CNN在双步检测算法中识别准确率最高，YOLOv3在兼顾单步检测算法高速检测能力的基础上，识别准确率有较大提升。

3. Cascade R-CNN和YOLOv3

3.1. Cascade R-CNN目标识别算法

Cai Zhaowei [11] 于2018年在CVPR2018会议上提出Cascade R-CNN网络模型，该模型基于Faster R-CNN网络的构建方法，通过多阶段检测架构，每阶段输入不同质量的样本数据，并逐级提高边界框IOU指标阈值，实现级联检测 [12]，有效改善了Faster R-CNN网络检测时难以排除假阳性样本的问题 [13]。

Faster R-CNN目标识别流程如图2所示。首先将图像输入CNN网络进行特征提取，生成特征图；然后利用RPN网络提取出候选区域框，与特征图最后一层合并生成候选区域特征；再利用兴趣区域(ROI)池化层将候选区域特征输入到全连接层；最后利用SoftMax分类器进行分类识别。

Figure 2. Fast R-CNN algorithm target recognition process

图2. Faster R-CNN算法目标识别流程

Cascade R-CNN网络目标识别流程如图3所示。将图片输入CNN网络进行特征提取，生成特征图；然后在Faster R-CNN (红色框内)中进行分类和回归操作；将回归产生的边框1输入RPN网络再次候选区域操作，不同的是IOU指标阈值更高，如此操作两次，得到回归边框2和3；最终将所有分类结果和回归边框输出

Figure 3. Cascade R-CNN algorithm target recognition process

图3. Cascade R-CNN算法目标识别流程

3.2. YOLOv3目标识别算法

2016年，Redmon在CVPR2016会议上提出了一个基于深度卷积神经网络的端到端目标识别模型——YOLO (You only look once)模型 [14]，并在此基础上对模型进行一系列改进，于2017年提出YOLO9000模型，目标识别精度大幅提升 [15]。2018年，Redmon将残差模型和FPN架构引入YOLO提出了YOLOv3模型，在保证运算效率的前提下，进一步提高了检测精度 [16]。

YOLOv3模型的网络结构如图4所示，使用DarkNet53模型作为目标特征提取网络。首先将输入的图像放缩到416 × 416大小，DarkNet53网络将图像按照预先设定的特征图尺度大小(13 × 13, 26 × 26, 52 × 52)划分为S × S个相同尺寸的ygdsb，然后将提取的浅层特征和深度特征融合获得特征金字塔，最后再依据每个ygdsb每种尺度下对应的3个锚框(anchor box)回归预测3个边框(bounding box)。YOLOv3的多尺度融合设计有效改善了YOLO系列算法对小尺度目标识别能力弱的缺点，成为兼顾检测精度和速度的优异算法 [17]。

Figure 4. YOLOv3 algorithm target recognition process

图4. YOLOv3算法目标识别流程

4. 实验结果与分析

基于以上分析，将两类目标识别算法中具有代表性的Cascade R-CNN和YOLOv3应用到导弹目标识别领域中，通过目标检测实验比较不同算法的优劣性。

4.1. Cascade R-CNN和YOLOv3模型训练和识别

值得注意的是，当前算法将目标识别为不同的“种类”，如建筑、车辆、飞机等。而在军事行动中，每一枚导弹所要打击的目标是确定的“个体”，而不是同种类的其他“个体”，如建筑A、车辆A等，这就要求训练样本数据集必须源自单一待打击目标。假定某岛屿为导弹待打击目标，本文通过搜集该岛屿的互联网图集和航拍视频，将视频分解为图像帧，并通过数据增广，构建了一个包含7500张图像的该岛屿样本数据集用于模型的学习和训练。设定训练集和测试集的比例分别为0.8和0.2，实验平台参数为：Intel(R) Core(TM) i5-8400 CPU@2.80GHz处理器，8G内存，4G NVIDIA GeForce GTX 1050 Ti GPU。部分样本数据集如图5所示。

Figure 5. Sample dataset partial image

图5. 样本数据集部分图像

为节省网络的训练时间，加快模型的收敛速度，利用已有权重文件进行预训练。实验中，在Cascade R-CNN模型和YOLOv3模型训练环节，设置循环次数为2000，初始学习率为0.005，利用Adam优化器，根据返回的损失函数实时调整学习率，循环1500次时调整学习率为0.001，避免模型陷入局部最小；在测试环节，分别将测试集输入到Cascade R-CNN模型和YOLOv3模型中，当预测的目标边框与标注的边框IOU > 0.5时认为识别正确, 否则识别错误。识别结果如图6和图7所示，两个模型都能实现对设定岛屿的识别。

Figure 6. Result of island recognition by Cascade R-CNN

图6. Cascade R-CNN算法对设定岛屿识别结果

Figure 7. Result of island recognition by YOLOv3

图7. YOLOv3算法对设定岛屿识别结果

4.2. Cascade R-CNN和YOLOv3识别性能评估

实验以准确率P (Precision)、召回率R (Recall)、平均精确度AP (Average Precision)和每秒检测张数FPS为指标，客观评价两个模型性能。准确率表达了模型“识准”的能力，召回率表达了模型“识全”的能力，二者计算方法如式1~2所示，式中TP表示真正例，即预测结果和实际结果都为正；FP表示假正例，即预测结果为正，实际结果为负；FN表示假负例，即预测结果为负，实际结果为正。

P (1)

N (2)

测试集共含1500张320 × 240的图片，经统计包含设定岛屿目标的图片有1454张。Cascade R-CNN模型正确识别该岛屿目标的个数为1429个，误判为岛屿目标的个数为106个，测试总耗时178.5 s；YOLOv3模型正确识别该岛屿目标的个数为1403个，误判为岛屿目标的个数为311个，测试总耗时40.2 s；传统HOG + SVM目标识别算法正确识别该岛屿目标的个数为979，误判为岛屿目标的个数为358个，测试总耗时超过1小时。两个模型与HOG + SVM的客观指标对比如表2所示，准确率–召回率曲线如图8所示。

Figure 8. Performance of precision and recall

图8. 准确率–召回率曲线

Table 2. Performance comparison of Cascade R-CNN and YOLOv3 in missile target recognition

表2. Cascade R-CNN和YOLOv3算法在导弹目标识别中的性能比较

分析表2和图8可知，针对设定的导弹打击某岛屿目标，与传统机器学习目标识别算法相比，基于Cascade R-CNN和YOLOv3算法的目标识别模型准确性和实时性均有极大提高。其中，Cascade R-CNN算法的目标识别模型准确率、召回率和AP值分别比基于YOLOv3算法的目标识别模型高11.2%、1.8%和6.9%；检测速度方面，YOLOv3模型每秒检测帧数达37.3 fps，是Cascade R-CNN模型(8.4 fps)的4.4倍。Cascade R-CNN算法的准确性更高，YOLOv3算法实时性更好。

5. 总结

针对导弹目标识别技术的现实需求，介绍了近年来深度学习网络模型的发展状况和基于深度卷积神经网络的目标识别算法，将具有代表性的Cascade R-CNN和YOLOv3算法应用到导弹目标识别领域并进行了比较，得出如下结论：

1) 基于深度学习算法的目标识别模型性能远远优于基于传统机器学习的识别算法；

2) 基于Cascade R-CNN算法的目标识别模型的准确率和召回率均比基于YOLOv3算法的目标识别模型高；

3) YOLOv3模型的FPS是Cascade R-CNN模型的4.4倍，检测效率远高于Cascade R-CNN模型。

后续工作将结合Cascade R-CNN算法的准确性和YOLOv3算法的快速性，兼顾检测速度和精度，研究新的目标识别算法，使之更适用于导弹目标识别领域。

tiktok培训中的那些坑！重新渲染过多。React限制了渲染次数以防止无限循环。-反钩