图像识别的应用场景有(ICPR 2020|大规模商品图像识别挑战赛冠军技术干货分享)

单击上面的“zjdzx学视觉”，选择“星标”或“置顶”重磅硬币，立即送货

来源：新智元

编辑：科幻

【导读】近日，国际模式识别大会(ICPR 2020 )开幕，各workshop也公布了各项挑战的结果，来自中国的DeepBlueAI团队由ICPR 2020、Kaggle、JDAI等共同完成赛题介绍

随着网络技术和电子商务的迅速发展，人们的购物方式已经从传统的实体店购物转变为网络购物。人工智能零售系统需要从图像和视频中快速自动识别产品的库存单元(SKU )级别类别，以充分满足客户庞大而多样化的在线购物需求，但许多SKU级别产品细分，在视觉上相似

JDAI构建了一个名为Products-10K[1]的产品标识数据集。这是迄今为止最大的产品识别数据集，其中包括中国消费者经常购买的约10000种产品，涵盖时尚、3C、食品、保健、家居用品等全部种类。

该竞赛由JDAI和ICPR 2020、Kaggle等联合举办，要求根据提供的产品图像对参数开发算法进行细粒度分类。

评测指标

这次比赛的主题采用了总体加速

团队成绩

DeepBlueAI团队通过数据分析、网络结构设计以及loss改进等分级优化算法，在最高单模公共隐私下的分数分别为0.70918/0.73618，均高于排名第二的最高成绩

赛题分析

该竞赛提供了约150000张图像、10000个细分的SKU级别标签和360个组标签，数据分析结果总结出该数据集具有以下特征：

1) 大尺度，少样本

虽然提供了150000张图像，但由于类别数量多，大多数分类的图像数量小于20张；

2) 类间距离小

大多数类别在视觉上相似；每行很相似，但属于不同的SKU标签，如下图所示。

3) 类内距离大

同一细粒度标签下的照片包括商店场景和消费者场景，商店场景背景比较简单，消费者场景背景比较复杂如下图所示，各列属于同一SKU标签。大多数店铺场景的照片都是白色背景，但消费者拍摄的照片背景多样。

竞赛方案

在本次竞赛方案中，以resnest[2]为基础框架网络进行特征提取，并采用GeM pooling[3]对框架网络的最后一层特征进行池化，根据池化向量进行组和ssp 分类器采用CircleSoftmax[4]调整班级间距，且各级Loss采用FocalLoss[6]和CrossEntropy Loss联合训练方式。

数据增强采用常规翻转、随机擦除、颜色增强、AugMix[7]等

Generalized Mean Pooling (GeM Pooling)

假设这是CNN提取后的第k个特征图，并且第k个特征图是池化的结果。 GeM Pooling[3]的计算过程可用以下公式表示：

gem轮询可视为平均轮询和最大轮询的延申，p=1时gem轮询退化为平均轮询，p无限大时gem轮询等同于最大轮询

分类器

分类器的选择采用全连通层建立基线模型，通过数据分析表明，该数据集具有类内距离大、类间距离小等特点，因此常用于人脸识别的分类器CosFace[8]和circlesoftmation

式，使得测试时的不同类别的特征更容易区分。

如下图，分别是Cosface[8]和CircleSoftmax[4]的训练测试过程。

CosFace训练测试过程

CircleSoftmax训练测试过程

Loss设计

Loss设计上使用了Focal Loss[6]和CrossEntropy Loss联合训练的方案，避免了Focal Loss需要调整超参和过度放大困难样本权重的问题。

以上是DeepBlueAI团队参赛的优化路线图，首先通过水平翻转增强以及resnest50构建了基线模型，取得Public榜单61.26的成绩；通过在池化层后面引入BNNeck，数据增强上引入随机擦除，并把平均池化层替换层GeM Pooling层，取得了Public榜单约68的成绩；通过替换分类器为CircleSoftmax以及联合FocalLoss损失进行训练的策略，取得了Public榜单69的成绩；通过增大分辨率以及增加网络层数，联合组别信息进行训练，取得了单模Public榜单约71的成绩；最后通过模型集成，取得了Public榜单73.01的成绩，并且在该赛题排名第一。

总结

DeepBlueAI团队针对大规模细粒度商品图像识别任务，通过数据分析、数据增强、网络结构设计以及loss改进等设计了一个简单的细粒度图像识别算法。

该算法取得了Public & Private第一名的成绩，领先第2名两个百分点，有望帮助人工智能零售系统快速并准确地从图像和视频中自动识别出产品的存货单元级别的类别，优化消费者的购物体验。

作者介绍

jqdxn，DeepBlue Technology北京AI研发中心负责人，毕业于北京大学，曾任职于微软亚太研发集团。现主要负责公司AI平台相关研发工作，带领团队已在CVPR、ICCV、ECCV、KDD、NeurIPS、SIGIR、AAAI等数十个世界顶级会议挑战赛中获得二十多项冠军，以一作在KDD、WWW等国际顶会上发表论文，具有多年跨领域的人工智能研究和实战经验。

参考文献：

1. Bai Y, Chen Y, Yu W, et al. Products-10K: A Large-scale Product Recognition Dataset[J]. arXiv preprint arXiv:2008.10545, 2020.

2. Zhang H, Wu C, Zhang Z, et al. Resnest: Split-attention networks[J]. arXiv preprint arXiv:2004.08955, 2020.

3. Radenović F, Tolias G, Chum O. Fine-tuning CNN image retrieval with no human annotation[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(7): 1655-1668.

4. Sun Y, Cheng C, Zhang Y, et al. Circle loss: A unified perspective of pair similarity optimization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 6398-6407.

5. Luo, H., Gu, Y., Liao, X., Lai, S., Jiang, W.: Bag of tricks and a strong baseline for deep person re-identification (2019).

6. Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.

7. Hendrycks D, Mu N, Cubuk E D, et al. Augmix: A simple data processing method to improve robustness and uncertainty[J]. arXiv preprint arXiv:1912.02781, 2019.

8. Wang H, Wang Y, Zhou Z, et al. Cosface: Large margin cosine loss for deep face recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5265-5274.

下载1：OpenCV-Contrib扩展模块中文版教程

在「zjdzx学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目31讲

在「zjdzx学视觉」公众号后台回复：Python视觉实战项目31讲，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「zjdzx学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

下载4：leetcode算法开源书

在「zjdzx学视觉」公众号后台回复：leetcode，即可下载。每题都 runtime beats 100% 的开源好书，你值得拥有！

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”gxdfy + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~