ImageNet介绍

time: 2021.01.29 author: Blue e-mail: 2458682080@qq.com

一. 引言

此文为阅读《ImageNet: A Large-Scale Hierarchical Image Database》论文的总结，本文按照原论文的结构进行归纳总结，当然文章也会夹杂个人观点，有误之处请指正！

二. 简介

论文主体共有七大部分组成: 摘要、介绍、ImageNet的特性、ImageNet和相关数据集、构造ImageNet、ImageNet应用、未来工作，分别介绍了ImageNet出现的背景、ImageNet的现状、ImageNet的优势、相关数据集、ImageNet的构建、ImageNet应用以及展望。

三. 论文介绍 1. 摘要:

互联网上图像数据的爆炸式增长有可能训练出更复杂、更健壮的模型和算法，用于索引、检索、组织图像和多媒体数据并与之交互(背景)。文章介绍了ImageNet的现状：12个子树，5247个语法集，共320万幅图像(现状)。论文结果表明 ImageNet 具有更大的规模和多样性，比现有的图像数据集更精确(优势)。通过ImageNet在目标识别、图像分类和自动目标聚类中的三个简单应用，说明了ImageNet的实用性(应用)。

2. 介绍背景: 互联网上有很多数据，可以利用这些数据训练处一个复杂而稳定的算法或模型。但是怎么应用是个问题，因此提出了ImageNet。结构: 使用了WordNet层次结构现状: 报告ImageNet的当前版本，包括12个“子树”：哺乳动物、鸟类、鱼类、爬行动物、两栖动物、交通工具、家具、乐器、地质构造、工具、花卉、水果。这些子树包含5247个语法集，共320万幅图像。 3. 特性（数据集描述） 规模（Scale）：目前的12个子树由320万张清晰标注的图像组成，这些图像分布在5247个类别中。平均每个语义集中超过了600张图片。这已经是视觉研究界可用的最大的干净图像数据集，就图像总数、每个类别的图像数以及类别数而言(规模优势)。层级（Hierarchy）：ImageNet将不同类别的图像组织在一个密集的语义层次结构中。与WordNet类似，ImageNet中图像的语法集通过几种类型的关系相互关联，“IS-A”关系是最全面、最有用的关系。（提出优势）尽管可以使用WordNet将任何带有类别标签的数据集映射到语义层次结构中，但是ImageNet的密度是其他数据集无法比拟的(层级优势)。准确度（Accuracy）：在不同树深度随机采样的80个synset上的标记精度，平均达到99.7%的精度(精度优势)多样性（Diversity）：ImageNet的构建目标是图像中的对象应该具有不同的外观、位置、视点、姿势以及背景杂波和遮挡。为了解决图像多样性量化的难题，我们计算了每个synset的平均图像，并测量了反映图像中信息量的无损JPG文件大小。(希望看到一个更小的jpg文件大小的平均图像更多样化的语法集) 4. ImageNet和相关数据集（数据集比较） 小型图像数据集：随着计算机视觉研究的发展，下一代算法需要更大更具挑战性的数据集。当前的ImageNet提供了20倍于这些数据集的类别数，以及100倍于这些数据集的总图像数。TinyImage：TinyImage是一个拥有8000万32×32低分辨率图像的数据集，数据集中的每个synset平均包含1000个图像，其中10-25%可能是干净的图像。高噪声和低分辨率的图像使得它不太适合于通用算法的开发、训练和评估。与TinyImage数据集相比，ImageNet包含高质量的synset（∼99%精度）和全分辨率图像，平均大小约为400×350。ESP dataset：ESP dataset中数以百万计的图像通过游戏被标记，但它的快速性也构成了一个主要的缺点，即人们倾向于在一个易于接近的语义层次上标记视觉对象，称为“基本层次”（如鸟），而不是更具体的层次（“次坐标层次”，如麻雀），或更一般的层次（“超坐标层次”，如脊椎动物）。然而，ImageNet展示了图像在语义层次结构中更为均衡的分布(优势1: 语义层次更加均衡)。ESP和ImageNet的另一个关键区别是语义消歧。当人类玩家输入“银行”这个词时，不清楚它的意思是“河岸”还是“金融机构”。在如此大规模的情况下，消除歧义就成了一项非常重要的任务，但是ImageNet不存在这个问题(优势2: 不存在语义歧义问题)。最后，大部分ESP数据集都不公开，只能访问60K个图像及其标签(优势3: 公开)。LabelMe and Lotus Hill datasets：LabelMe和Lotus Hill数据集分别提供了30k和50k标记图像和分割图像。两者都只有大约200个类别，但提供了对象的轮廓和位置(劣势: 没有提供对象轮廓和位置)。ImageNet目前的形式并没有提供详细的对象轮廓，但是类别的数量和每个类别的图像数量已经远远超过了这两个数据集(数量优势)。此外，这两个数据集中的图像大部分是由数据集的用户或研究人员上传或提供的，而ImageNet包含从整个互联网上抓取的图像。Lotus Hill数据集只能通过购买获得。 5. 构造ImageNet

收集候选图像：ImageNet构建的第一阶段是为每个synset收集候选图像。互联网上的图像搜索结果平均准确率在10%左右。因此，收集了大量的候选图像。经过内部同步集重复删除后，每个语义集平均有超过10K个图像。

清理候选图像：为了收集一个高度精确的数据集，工作人员依靠人工来验证在前一步中为给定的语法集收集的每个候选图像。这是通过使用Amazon Mechanical Turk（AMT）的服务实现的，AMT是一个在线平台，用户可以在这个平台上完成任务并获得报酬。（其中中间有很多筛选和算法过程，我就不详细介绍了）

6. ImageNet应用

非参数物体识别

NN-voting + noisy ImageNet:为了模拟TinyImage数据集（即从搜索引擎中收集的图像，无需人工清理），使用每个synset的原始候选图像，并将它们降采样到32×32。给定一个查询图像，从哺乳动物子树中提取100个最近邻图像，然后通过聚集目标类别树内的投票（最近邻数）来进行分类。NN-voting + clean ImageNet: 在干净的ImageNet数据集上运行上述相同的NN投票实验。这一结果表明，拥有更准确的数据可以提高分类性能。NBNN：实现了朴素贝叶斯网络中提出的最近邻（NBNN）方法强调全分辨率图像的有用性。NBNN使用一个特征包来表示图像。结果表明，NBNN提供了更好的性能，证明了在全分辨率图像中使用更复杂的特征表示的优势。NBNN-100：运行相同的NBNN实验，但将每个类别的图像数限制为100。结果发现，性能可以通过扩大数据集。值得注意的是，NBNN-100在访问整个数据集方面优于NN投票，再次展示了使用全分辨率图像获得详细特征级别信息的好处。

基于树的图像分类

这个实验使用了一个简单的对象分类方法，我们称之为“tree-max classifier”，来说明ImageNet层次结构的有用性。结果表明，利用ImageNet层次结构的简单方法已经可以在不需要额外训练或模型学习的情况下为图像分类任务提供实质性的改进。

自动目标定位

ImageNet可以扩展以提供有关每个图像的附加信息，其中一个信息是每个图像中对象的空间范围。想到两个应用领域：首先，为了训练一个鲁棒的目标检测算法，通常需要在不同的姿态和不同的视点下对目标进行定位；其次，在杂乱的场景中定位对象，使用户可以使用ImageNet作为对象定位算法的基准数据集。

7. 未来方向 完成ImageNet利用ImageNet