voc数据集怎么用,voc数据集多大

概要

Pascal VOC2012作为一种基准数据，经常用于对象检测、图像分割网络比较实验和模型效果评估，但如果没有创建这种形式的数据集，就会忽略很多细节问题。今天，让我们从头开始梳理Pascal VOC2012数据集的各种细节问题。

Pascal VOC2012数据集主要为视觉任务中的监视学习提供标签数据，有20个类别。

Person:person

Animal:bird，cat，cow，dog，horse，sheep

Vehicle:aeroplane，bicycle，boat，bus，car，motorbike，train

Indoor:bottle，chair，dining table，potted plant，sofa，tv/monitor

主要有4大类，分别是人、常见动物、交通车辆、室内家具用品。主要是图像分类、对象检测识别、图像分割三种任务服务。

图像分类与检测分类：用测试图像预测是否为20个分类之一，并正确分类

检查：在测试图像上预测20个分类对象的有无和位置信息

图像分割拆分：为每个对象和类别生成像素级别的拆分标签，并确保像素是目标20个分类或背景。

Pascal VOC还提供了有趣的标注数据，包括行为识别、人体布局分析等。 1 .行为识别数据：预测图像中人的行为动作

2 .打上人员布局标记，检查人及其各身体的组成部分，如果手、脚、头等

说明数据集结构和Pascal VOC2012的文件结构如下。

Annotations 标注文件XML中有与图像相对应的XML标注信息描述，每个图像都有相应的同名描述XML文件。 XML的前一部分声明图像数据的源、大小等元信息。示例：

上述支持图像的路径为VOC 2012/JPEG images/2007 _ 000033.jpg，来自flickr网站。大小为WxHxC=500x366x3，是3通道的彩色图像。其中，segmented表示1有拆分标记，0表示没有拆分标记。以下是对象检测中每个框标签信息的详细信息。图如下。

其中，每个object标签表示单独的box信息和对象说明，一个图像可以有多个object标签(boxes )。

-name表示对象类别

-pose展示了采用是从什么角度出发的，常见的有左、右、前、后。

-difficult是否被标记为难以识别对称性，0表示不是，1表示是

-truncated是否标记为截断，无0，1是

-Bndbox标记描述框在图像上的位置

ImageSets 不同功能的图像文件名称列表包含注释类别中的每个文件列表信息。 Action包含具有Action注释信息图像文件名的所有txt文件的列表。 Layout的txt文件显示了包含该类别的图像文件名列表。 Main文件夹每20个类别包含一个txt文件，每个txt文件都包含该类别

train.txt表示是培训数据的集合

val.txt表示验证集数据

trainval.txt表示培训和验证集的数据

test.txt表示测试集中的数据

在Pascal VOC2012 Main上统计的培训、验证、验证和培训以及测试图像如下：

可以看出训练图像有5717张，目标数13609个。

每个类别的main都有三个文件：

CLASSNAME_train.txt

CLASSNAME_trainval.txt

CLASSNAME_val.txt

以CLASSNAME=aeroplane为例，main的三个文件分别为：

aeroplane_train.txt

aeroplane_trainval.txt

aeroplane_val.txt

各类txt文件的内容格式如下

为图像文件名添加空格标记，如aeroplane_train.txt示例所示。

2008_000290 0

2008_000291 1

2008_000297 -1

其中，2008_000290、2008_000291、2008_000297表示三个图像文件名

0表示图像中包含aeroplane对象，但难以识别示例

1表示图像中包含aeroplane

-1表示图像中不包含警报

JPEGImages 原始的图像文件所有原始图像文件必须是JPG格式。这一点请特别注意。如果使用VOC2012格式生成数据，请在采样时将原始图像格式保存为JPG格式，以防止后期制作使用tensorflow工具生成时发生错误。

SegmentationClass所有分割的图像标注，分割图像安装各类标注的数据

SegmentationObject所有分割图像标注，分割图像按类别为每个对象安装不同标注的数据

性能评价对象检测类任务的性能评价基于AP/AR根据精度召回曲线计算mAP。相关阅读参考前面的文章即可。

详细解目标检测网络性能评价指标mAP计算

来自图像分割类任务的性能评价是基于图像的平均分割精度，即20个类别和背景类别的拆分计算。

我喜欢的创建VOC2012数据集的标记工具是labelImg

易于使用，自动生成VOC2012 Annotation XML文件。

更多的数据标记和数据集创建工具请参阅以前的文章：

10个最常见的深度学习图像/视频数据注释工具

参考资料

3358 host.robots.ox.AC.uk/Pascal/VOC/VOC 2012/index.html