首页 > 编程知识 正文

mtcars数据集(数据集类型)

时间:2023-05-04 22:07:15 阅读:1065 作者:2243

近日,南京迪法恩科技研究院发布了——RPC,这是目前学术界最大的商品识别数据集,该领域的图像和类别数量最多。同时,该数据集为新零售场景定义了一个新问题,即可视化自动结账(ACO),模拟真实零售结算场景。此外,还提供了一套完整的ACO任务的Baseline Method,以“整单精度”cAcc为代表的一系列评估指标,以及可以直接安装的Python版本评估工具。GitHub项目首页有一个同名的排行榜。欢迎刷榜!

论文:https://arxiv.org/abs/1901.07249

项目链接:https://rpc-dataset.github.io/

零售是一个劳动密集型行业,其中收银结算成本较高。随着深度学习的发展,利用图像识别技术降低零售行业成本、提高效率是大势所趋。自动结账/ACO是核心场景之一,旨在根据收银场景图像生成结算清单,其与计算机视觉技术的融合正在不断深化。

CV场景从来都不是一条平坦的路。从图像识别的角度来看,蚁群算法的落地充满了刺,这不仅是来自数据本身的问题,也是模型训练的因素。最后可以总结为四个方面:1)大规模,2)细粒度,3)少镜头,4)跨域。

尽管存在上述问题,但蚁群算法仍具有潜在的研究和商业价值。如果有一个标记良好的数据集,这个问题可能很容易解决。为此,南京迪法恩科技研究院打造了目前最大的产品识别数据集——RPC(零售产品结账),推动新零售自动结账场景的相关研究和技术进步。它拥有200种产品,83k图像,真实模拟零售场景,保真度超过现有同类数据集,充分体现了ACO问题的细粒度特征。

图2: RPC数据集与相似数据集的比较。

RPC数据集有两种图像:1)样本图像,在受限环境下拍摄,只包含单个产品,对应网购产品图;2)结账图像,包含用户购买场景中的多种商品,有助于研究者解决相关子问题,如检测或计数。

数据集的基准测试仍在进行中。目前最佳基线来自基于Cycle-GAN的数据合成方法。

助理文书主任任务

当顾客走进商店,把他们想买的商品放在收银台上时,一个理想的ACO系统可以自动识别每个产品,并一次性准确给出购物清单,如图1所示。

图1: ACO图。

因此,蚁群算法本质上是一个识别任何商品组合中每种商品的出现并对其进行计数的系统。

一般来说,为了保证性能,训练ACO识别系统的图像应该与实际收银场景完全相同。然而,由于商品类别庞大且不断更新,识别模型穷尽所有商品组合是不现实的。因此,一个可行的解决方案是在特定的环境中收集一类单品图像,并将其重用到实际结算中。

RPC数据集特征

轻视提出的RPC数据集有六个特点。

数量:RPC在图像数量方面是该领域最高的,SKU (SKU):有200个SKU,83,739个图像,包括53,739个单品图纸和30,000个结算图纸。

跨域:RPC中的图像数据可以分为单品图和结算图两种形式。模型需要在单品图上训练,但真正的测试环境是结算图。

图3:单一产品图。

图4:结算图。

现实:构建和采集结算图时,尽量模拟真实零售场景,商品类别、商品数量、摆放角度、遮挡等因素与实际收银场景接近。

层级:200类商品属于17类商品(如方便面、纸巾、饮料等。),这自然构成了一个层次结构,可以作为进一步培训的辅助监督信息。

图6: 17个商品类别。

难度:结算图设计了三种难度:易、中、难,分别包含商品类别的数量和数量:

p>

表 2:结算图的三种难度。

强弱:在监督信息层面,我们为每张 RPC 的结算图均提供了由弱(Shopping List)到中(Point)再到强(Product BBox)的三种强度监督信息。

图 5:结算图的三种强度监督信息。

RPC 数据集基准

ACO 基线方法

旷视在本文提出了 4 个 ACO 基线方法,分别是 1)Single,2)Syn,3)Render 和 4)Syn+Render。

只使用 RPC 数据集单品图的标注信息,且直截了当地把这些单品图用于训练,这种策略即是首个基线方法,称之为 Single。另外,本文使用的检测器是 ResNet101 作为 Backbone 的特征金字塔网络 FPN。

通过把剪裁出来的单品随机粘贴在背景上以合成 10,000 张结算图,接着用其训练检测器,这是第二种基线方法,表示为 Syn。

为把上面合成的结算图渲染的更加逼真,旷视借助 Cycle-GAN 转化合成图,如图 9 所示。接着用这 10,000 张渲染的图像训练检测器,这是第三种基线方法,表示为 Render。

图 9:合成结算图与渲染结算图实例对比。

此外,还可以混合使用合成图与渲染图训练检测器,这是第四种基线方法,表示为 Syn+Render。

针对 ACO 任务提出的整个方法的 pipeline 如图 10 所示:

图 10:基线方法 pipeline。

实验结果

在进入到实验结果之前,需要说明的一点是最优的评测指标并不是传统检测任务中的 mAP50、mmAP 等指标,而是本文提出的 cAcc(Checkout Accuracy),即正确核验一张图像内所有商品的精度,简单来说,就是“整单正确率”。

这里按照上述的 Easy、Medium、Hard 三种 mode 测试了 ACO 任务在 RPC 数据集上的实验结果,如表 3 所示:

表 3:实验结果。

研究展望

虽然 RPC 数据集跨域检测方法适用于解决 ACO 问题,但并非其他方法行不通。其他研究方向也可从 RPC 数据集获得启发:

在线学习解决 ACO 问题。实际的零售场景中,商品种类将会不断翻新。快速迭代模型而无需重新训练成为首要问题,这时在线学习就派上用场了。

ACO 任务的一个潜在解决方案是在不借助商品检测技术的前提下,直接从结算图中获取商品清单。这本质上是把 ACO 问题转化为一个物品计数问题。

利用结算图的监督信息。RPC 数据集有着不同层次的结算图的监督信息,如何将其利用起来更好地完成 ACO 任务仍值得进一步研究。

作为其他计算机视觉任务的补充数据集。虽然 RPC 数据集针对 ACO 问题而设计,但是标注有商品的 ground truth 定位/边界框,也就适用于物体检索、few-shot/弱监督/全监督物体检测等领域的研究。

结论

旷视在本文中发布了目前学术界最大的商品识别数据集 RPC,并定义了 ACO 任务和对应的评测指标。RPC 数据集含 200 个商品类别,83,739 张图像,包含单品图和结算图两种形态,并且配有不同监督强度的标注。借助这一数据集,本文清晰界定了 ACO 问题,并使用 4 种基线方法基准化这一数据集。实验结果表明,在这一数据集上 ACO 仍有较大提升空间。同时,该数据集还适用于多个潜在的研究方向。

点击阅读原文,查看 10篇论文+5项世界第一,记旷视科技ECCV之旅

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。