内科学隋准2020百度云，SCI Translate11.0

论文推荐|[TPAMI 2021] PAN :准确高效的任意形状文本端到端检测与识别((有源代码) )原创陈喆，圆满高山CSIG文档图像分析与识别专业委员会今日

本文简要介绍了TPAMI2021招聘论文《pan : towardsefficientandaccurateend-to-endspottingofarbitrarily-shaped text》。本文给出了基于文本内核，即中心区域的任意形状文本的表示方法，能够很好地区分相邻文本，非常方便于实时应用场景。在此基础上，作者构建了一个高效的端到端框架PAN，高效检测和识别自然场景任意形式的文本，同时实现了高推理速度和高精度。论文代码地址： https://github.com/whai 362/pan _ PP.py torch。

图1不同场景文本表示的比较

一、研究背景自然场景文本检测与识别是文本检索、自动化办公、可视化答疑等多种应用的基本任务。近年来，场景文本的检测和识别取得了令人瞩目的进展，但这些方法仍然存在三个主要局限性，限制了其在实际应用中的引入。首先，许多现有的工作将文本检测和识别作为独立的任务来处理，很少有方法来探讨这两个任务之间的互补性。其次，许多现有的端到端文本检测和识别方法通常针对水平或定向文本，但不仅是线性文本，不规则形状的文本在自然场景中也非常常见。最后，现有方法的效率仍然不能满足实用需要。最近的一些方法[1-2]致力于提高端到端任意形状文本检测和识别的精度，但由于模型参数过多和算法流程复杂，推理速度较低。因此，如何对任意形状的文本设计有效准确的端到端检测和识别框架仍然是一个需要解决的问题。

二、原理简述

图2整个pan的体系结构

PAN的整体体系结构如图2所示。为了提高推理速度，作者主要采用轻量级的ResNet18[3]作为主干网。但轻量级网络存在感受域小、表达特征能力弱的缺点，针对这一问题，本文提出利用堆叠的特征金字塔增强模块FPEM对提取的特征进行增强。

图3详细描述了特征金字塔扩展模块(FPEM )的实现

如图3所示，FPEM是基于可分离卷积构建的u形模块，可以用较少的计算开销增强主干网提取的多尺度特征。另外，FPEM可以堆叠，随着堆叠层数的增加，网络的感受范围也增大。

图4磁头安装详情

针对文本检测任务，本论文如图4所示，提出了只包含2层卷积的轻量检测头。该头部同时预测生成文本区域、文本核以及实例矢量，通过PA算法的融合得到最终的检测结果。

图5 PA算法的说明

PA的设计借用聚类的思想，如图5所示。如果将不同的文本视为不同的聚类，则文本内核是聚类的中心，文本区域中的像素是待聚类的样本。

针对文本识别任务，作者提出了一种基于不规则字符特征提取器Masked RoI和注意力机制的轻量级识别头。 Masked RoI是一种RoI提取器，用于为任意形式的文本提取一定大小的特征块，如图6所示。另一方面，轻型识别头只包含两层LSTM和两层多头注意力。

图6识别磁头实现的细节

关于检查部分，本文使用的损失函数如下：

关于识别部分，本文使用的损失函数如下

通过这些设计，PAN实现了较高的推理速度，同时保持了准确性并具有竞争力。 PAN与其他方法的性能比较如图7所示。

图7比较pan和其他方法在总体文本数据集上的性能

三、实验结果与分析表Total-Text和CTW1500数据集的文本检测结果

表Total-Text数据集上的端到端文本识别结果

如表1和表2所示，在没有使用附加数据集的预训练的情况下，PAN在Total-Text[4]和CTW1500[5]中获得了有竞争力的结果。使用SynthText[6]数据集进行预训练后，PAN的精度进一步提高，取得了SOTA的效果。在短边为320像素的输入下，PAN实现了超过84FPS的推理速度，超越了其他具有类似精度的方法。

表2显示了Total-Text数据集上PAN的端到端文本识别结果。这些结果表明，PAN在文本识别任务中获得了SOTA的性能，在推理速度方面优于现有方法。

四、总结文中，作者提出了一种任意形状文本友好的内核表示，并在此基础上开发了一个端到端的文本检测和识别框架PAN，通过设计一系列轻量级模块，实现了高效准确的任意形状文本与其他现有方法相比，PAN在精度和推理速度方面具有显著优势。

五、相关资源PAN论文地址： https://arxiv.org/abs/2105.00405

AN++开源代码：https://github.com/whai362/pan_pp.pytorch

参考文献

[1]Lyu, P., Liao, M., Yao, C., Wu, W., & Bai, X. (2018). Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 67-83).

[2]Qin, S., Bissacco, A., Raptis, M., Fujii, Y., & Xiao, Y. (2019). Towards unconstrained end-to-end text spotting. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 4704-4714).

[3]He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).

[4]Ch'ng, C. K., & Chan, C. S. (2017, November). Total-text: A comprehensive dataset for scene text detection and recognition. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) (Vol. 1, pp. 935-942). IEEE.

[5]Yuliang, L., Lianwen, J., Shuaitao, Z., & Sheng, Z. (2017). Detecting curve text in the wild: New dataset and new solution. arXiv preprint arXiv:1712.02170.

[6]Gupta, A., Vedaldi, A., & Zisserman, A. (2016). Synthetic data for text localisation in natural images. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2315-2324).

原文作者：Wenhai Wang, Enze Xie, Xiang Li, Xuebo Liu, Ding Liang, Zhibo Yang, Tong Lu*, Chunhua Shen

撰稿：陈喆、美满的高山

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

论文推荐| [PR 2021] TextMountain：基于实例分割的精准场景文本检测

论文推荐| [CVPR 2021] MetaHTR：书写风格自适应的手写文本识别

论文推荐|[CVPR 2021] 基于傅里叶轮廓嵌入的任意形状文本检测（有源码）

论文推荐|[CVPR 2021] 融合文本检测与相似度学习的场景文本检索

论文推荐|[ AAAI2021] HiGAN:基于变长文本和解耦风格的手写数据合成方法（有源码）

论文推荐|[CVPR 2021] 序列到序列对比学习的文本识别

论文推荐|[CVPR 2021]重新思考文本分割：新的数据集及一种针对文本特征的改进分割方法

论文推荐|[PR 2021]一种用于惯性信号空中手写无监督域迁移的可视化方法

论文推荐|[ECCV2020] 可以看清吗？使用角度监督进行内容感知纠正

论文推荐| [AAAI 2021]DeepWriteSYN:基于深度短时表征的联机笔迹合成方法