场景文本编辑场景文本编辑(也称为文本图像样式迁移)交换场景图像中的文本,同时保留原始字体、颜色、大小和背景纹理。
比较新的相关研究大概找到了三篇文章
1 .编辑-文本- in-the-wild
有CVPR2019,开放源代码2.scene-text-editor-using-font-adaptive-neural-network
CVPR2020具有开放源代码3.swap text : imagebasedtextstransferinscenes
CVPR2020是目前没有开源代码的本人现在再现了SRNet网络(Editing-Text-in-the-Wild ),同时STEFANN网络) scene-text-editor
关于论文的解读,如果有兴趣的话请仔细看看论文。 下面贴上我做的一些工作。 SRNet网络无效。 下一步计划再现STEFANN网络
outline从以下几个方面进行介绍
1 .网络结构
2 .损失函数
3 .评价指标
4 .数据集
5 .模特培训
6 .模型测试
体系结构
迷失函数
metrics MSEPSNRSSIM Datasets合成数据style image、target image、foreground text、text skeleton、backgroundtext image :将图像缩放到64, 纵横比保持训练集: 50000张图像测试集: 500张图像的实际数据集是ICDAR 2013 (自然场景的文本数据集(主要是英语字符检测和识别训练集) 229张图像测试集) 233张图像裁剪字符区域, 注意,通过将裁剪区域送入训练后的网络,进行文本图像的迁移,在数据集使用中使用合成数据的训练模型,实际数据用于测试模型trrr
SRNet网络代码作者介绍,他训练10小时反复180k-200k次,网络收敛,同时loss收敛值在9.0左右,达到了论文的效果。 我训练了350k次,loss收敛值是14左右。
test 3358 www.Sina.com/http://www.Sina.com /
problems模型收敛的loss值高,要进行优化! 模型训练使用合成的数据,需要使照片背景和文字形态多样化,提高模型中国化能力的模型预测输出的图像尺寸比较小,往往比样式图像小,分辨率低的模型预测输出的中间图像比较混乱,如前向