首页 > 编程知识 正文

汽车车牌数据集

时间:2023-05-05 05:04:11 阅读:188571 作者:3428

转自:https://zhuanlan.zhihu.com/p/213780276?utm_source=wechat_session
一般常见的车牌数据集都是收集于交通监控系统、高速公路收费站和停车场等场景,这就导致很多车牌数据都是在阳光下或辅助光源下等单一光照下收集得到的,比较少有各种各样天气下拍摄得到的数据,其倾斜角度一般也不会超过20度,且拍摄距离都比较近或者单一,最关键的是能开源提供的数据量极少,这些缺失因素都直接影响到了车牌检测识别算法的性能。

好在来自于中科大2018年开源的大型国内停车场车牌数据集CCPD(Chinese City Parking Dataset)弥补了上述车牌数据的缺陷,该车牌数据集图片收集自安徽省合肥市的各种街道路边停车场,每个收集员于各自负责的街道不分天气的从早上07:30一直工作到晚上22:00,每当开停车账单时就需要手持特殊设备根据要求拍摄前后车牌图片并进行车牌信息标注,从而在不可确认的拍摄位置、拍摄角度、拍摄光照、拍摄天气、拍摄背景、拍摄街道等约束条件下保障了所获取车牌数据的多样性,如下是该数据集的缩影。

CCPD车牌数据集数据量约有250k,每张图像分辨率为720 (Width) × 1160 (Height) × 3 (Channels),作者依据图像特性为我们划分了不同的子集数据包,其分布如下图所示:

其中,CCPD-Base是基础数据集,其包含其他子数据集的所有特性,但又是独一无二的,一般用作训练集和验证集,数据量约有200k;而其他子数据集则一般用于测试集,各个子数据集表示意义如下:

CCPD-FN:表示远(Far)近(Near)拍摄的车牌,数据量约20k;

CCPD-DB:表示较暗(Dark)较亮(Bright)的车牌数据,数据量约20k;

CCPD-Rotate:表示水平倾斜角度2050度垂直倾斜角度-1010度的车牌数据,数据量约10k;

CCPD-Tilt:表示水平倾斜角度和垂直倾斜角度都为15~45度的车牌数据,数据量约10k;

CCPD-Weather:表示于雨雪雾天气下拍摄的车牌数据,数据量约10k;

CCPD-Challenge:表示车牌检测或车牌识别任务最具挑战性的车牌数据,数据量约10k;

CCPD-Blur:表示拍摄时手抖所拍摄到的模糊车牌数据,数据量约5k;

CCPD-NP:表示新(New)车无车牌(Plate)号码的数据,数据量约5k。

CCPD后又于2019年进行数据更新,目前数据量超过300k,且更加能保障数据集在车牌检测和车牌识别任务上更具挑战性,标注也更加准确,其每张图片标注信息都包含有车牌号码、车牌标注框、四个关键点信息、垂直或水平方向角度信息,除此以外,还会有车牌地域信息、明亮度及模糊度等额外信息,这些信息都使用文件名进行表示,并以“-”隔开,其一般形式如下:

info1-info2-info3-info4-info5-info6-info7.jpg

info1:地域area

info2:倾斜程度Tilt degree

info3:标注框坐标Bounding box coordinates

info4:四个车牌顶角坐标Four vertices locations

info5:车牌号码License plate number

info6:车牌区域亮度信息Brightness

info7:车牌区域模糊程度Blurriness

值得注意的是,车牌号码是以其在如下定义车牌列表的位置坐标来表示的,从数字坐标到真实车牌号码,我们还需要根据如下定义列表进行映射,此外,标注框和关键点都是先人工标注一部分,然后在依据这些已标注信息训练模型算法进行自动标注后再人工清洗一遍的,因此,CCPD的标注框和关键点坐标多少都有些不准。

provinces = [“皖”, “沪”, “津”, “渝”, “冀”, “晋”, “蒙”, “辽”, “吉”, “黑”, “苏”, “浙”, “京”, “闽”, “赣”, “鲁”, “豫”, “鄂”, “湘”, “粤”, “桂”, “琼”, “川”, “贵”, “云”, “藏”, “陕”, “甘”, “青”, “宁”, “新”, “警”, “学”, “O”]
alphabets = [‘A’, ‘B’, ‘C’, ‘D’, ‘E’, ‘F’, ‘G’, ‘H’, ‘J’, ‘K’, ‘L’, ‘M’, ‘N’, ‘P’, ‘Q’, ‘R’, ‘S’, ‘T’, ‘U’, ‘V’, ‘W’, ‘X’, ‘Y’, ‘Z’, ‘O’]
ads = [‘A’, ‘B’, ‘C’, ‘D’, ‘E’, ‘F’, ‘G’, ‘H’, ‘J’, ‘K’, ‘L’, ‘M’, ‘N’, ‘P’, ‘Q’, ‘R’, ‘S’, ‘T’, ‘U’, ‘V’, ‘W’, ‘X’, ‘Y’, ‘Z’, ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’, ‘O’]
我们以车牌文件名025-95_113-154&383_386&473-386&473_177&454_154&383_363&402-0_0_22_27_27_33_16-37-15.jpg来举例说明一下!

025:区域号码

95_113:水平倾斜角度95度,垂直倾斜角度113度

154&383_386&473:标注框,左上角(154,383),右下角(386,473)

386&473_177&454_154&383_363&402:四个车牌顶角坐标,右下角(386,473),左下角(177,454),左上角(154,383),右上角(363,402)

0_0_22_27_27_33_16:第一个数字表示省份,与provinces列表对应,0表示"皖",第二个数字表示市级所属,与alphabets列表对应,0表示"A",之后的为五个字母数字组合,与ads列表对应,22_27_27_33_16表示Y、3、3、9、S即Y339S,所以,该车牌号码组合后为“皖AY339S”

37:表示亮度37

15:表示模糊度15

CCPD无疑是目前国内已知的最大开源车牌数据集,数据丰富多样,标注信息也是如此,如果大家想要获取CCPD车牌数据集,可在公众号后台发送“ccpd”自动获取下载链接。

CCPD固然是好,但是其也有其局限性,细心的朋友一定有发现,该数据集的车牌数据大部分都是“皖A”的,这就导致如果基于此包数据集进行车牌识别训练,那么其泛化性能就会大打折扣,无法在除安徽省合肥市外应用所训练的算法。此外,该数据集全部都是燃油车牌,没有新能源车牌数据,可是现在随着新能源车越来越受欢迎,车牌识别就不得不考虑兼容新能源车牌。因此,在这里向大家推荐一个私有车牌数据集!

该私有车牌数据集包含蓝牌和绿牌,蓝牌即传统7个字符的燃油车牌,绿牌完全符合如下新能源汽车专用车牌规范特点,分别对应小型或大型纯电动汽车或混动汽车的8个特殊字符车牌。

值得注意的是,该批数据是由完全按照我国燃油和新能源车牌设计规范素材而生成的,但与普通车牌生成器相比,其车牌背景和字符素材完全按照1:1模板特殊设计,不是简单的拿某种字体如宋体或普通背景进行绘画的,特别是在绿牌这块目前还没有如此逼真的字符素材。除此以外,车牌字符间隔和背景铆钉间隔都是完全与真实车牌保持一致,其具有省份市县覆盖全面、字符数量分布均匀、角度多样、距离多样、光照多样及背景多样等等优势特点,具有很高的逼真效果,对于提升车牌检测和车牌识别算法性能非常有帮助,可同时辅助应用于全国各省市的蓝绿车牌检测和识别等交通监控系统,该批私有车牌数据相关样式如下图所示:

最终交付的是已经贴合到车身并且光照亮度尽可能拟合周边背景的图片,数据量约32万张超过25GB,每种背景车牌约8万张,提供车牌号码、车牌检测框坐标及车牌顶角关键点坐标等注释标注信息,帮忙划分为训练集和测试集,可拿到数据后直接用于车牌检测和车牌识别训练任务,该批车牌数据亦可根据需要应用于AI模型训练学习、扩充车牌数据集以及辅助提升车牌相关算法泛化能力等任务!

不过,该批私有车牌数据集是有偿获取的,但如保证自用则仅需半价500¥,有需要的朋友可在公众号后台(人工智能技术干货)发送关键字“lpr-buy”获取电商平台购买链接,如不需要,也可以发送关键字“ccpd”免费获取CCPD车牌数据集。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。