人工智能图像识别技术(人工智能行为包括)

计算机视觉是一门“赋予机器自然视觉能力”的学科，即让机器理解图像内容。

发展历史

自20世纪50年代以来，计算机视觉的发展可以分为四个主要阶段。

发展历史

主要任务

目前，计算机视觉的研究重点是从单个或序列图像中深度学习、提取、分析、分类和理解有用信息。计算机视觉的核心任务是理解图像内容。我们来比较一下看图像的人和看图像的电脑的区别。

人类视觉一眼就能认出字母“A”，但对于计算机视觉来说，字母“A”只是一串数字，需要理解这串数字的特征表达和语义理解。因此，计算机视觉的两个核心问题是如何处理输入图像：特征表达和语义理解。

基于特征表达和语义理解，计算机视觉的常见任务包括图像分类、图像增强、图像生成、目标检测、目标定位、目标跟踪、语义分割、场景文本识别等。这里简单介绍几个。对性感兴趣的读者应该查阅相关文献进行深入研究。

图像分类

图像分类(CIFAR10数据集)

图像分类是对输入图像的内容进行分类和描述。例如，输入一个图像来确定该图像属于集合{猫、狗、帽子、杯子}中每个标签的概率。

图像分类的主要难点：

视点变化：相机可以从多个角度显示同一个物体。

比例变化):对象可见的对象大小通常会发生变化。

变形：同一物体的形状会发生很大变化。

遮挡):对象可能会受到遮挡的影响。

光照条件：在像素级，光照影响很大。

背景杂乱):物体可能混入背景，难以识别。

类内变异：一类客体个体的外观差异很大。

图像分类的常用数据集：

通用图像分类发布的常用标准数据集包括CIFAR10、ImageNet、MNIST、COCO等。根据分类的对象，可以选择相应的数据集进行训练。

CIFAR10是一个更接近通用对象的彩色图像数据集，包含10类RGB彩色图像：飞机、汽车、鸟、猫、鹿、狗、青蛙、马和船。

CIFAR10数据集

t-indent: 2em;">ImageNet是根据WordNet层次结构组织的图像数据集，目前该数据集主要应用于计算机视觉的图像分类(Classification)、目标定位(Object localization)、目标检测(Object detection)、视频目标检测(Object detection from video)、场景分类(Scene classification)、场景解析(Scene parsing)等。

ImageNet数据集

MNIST是一个手写数字数据集，包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。

MNIST数据集

图像分类常用方法：

Network in Network

GoogleNet(Inception v1)

BN-Inception

Inception v2&Inception v3

Inception v4，Inception-ResNet

VGGNet

ResNet

ResNeXt

DenseNet

……

目标检测

目标检测是检测图像内容中特定的物体目标，并获得该目标的类别信息和位置信息。

目标检测

目标检测主要难点：

小目标识别：通常把宽高是原图像1/10以下的可视为小目标物体，由于尺寸小，可利用的有效特征有限，细节信息不全面，导致识别难度大。

检测的实时性：目标检测通常应用在对实时性要求较高的场景中，提高目标检测的实时性和精度至关重点。

小数据量训练的检测精度：目标检测场景中可训练数据集有限，如何在小数据量上对目标检测精度和速度提升也是核心点之一。

目标检测常用数据集：

PASCAL VOC

MS COCO

ImageNet

……

常用的目标检测方法：

R-CNN

Fast R-CNN

Faster R-CNN

FPN

YOLO

SSD

……

语义分割

语义分割是将图像分割成具有一定语义含义的区域块，并识别出每个区域块的语义类别。

视频加载中...

语义分割（来源：Cityscapes数据集）

语义分割的主要难点：

目标识别：同一目标在不同光照、视角、距离的条件下或者静止和运动时，拍摄的图像会明显不同，并且相邻目标之间也可能产生遮挡现象。

类别分类：同类目标之间存在相异性，而不同类目标之间存在相似性的问题。

背景干扰：实际场景中的背景是复杂的，对实现图像的语义分割造成很大的干扰。

语义分割常用数据集：

Pascal VOC：有20类目标，这些目标包括人类、机动车类以及其他类，可用于目标类别或背景的分割。

Cityscapes：50个城市的城市场景语义理解数据集。

Pascal Context：有400多类的室内和室外场景。

Stanford Background Dataset：至少有一个前景物体的一组户外场景。

COCO：包含一个训练数据集，一个验证数据集，一个用于研究者的测试数据集和一个用于挑战的测试数据集。

……

常用的语义分割方法：

FCN

SegNet

Dilated Convolutions

DeepLab (v1 & v2)

RefineNet

PSPNet

Large Kernel Matters

DeepLab v3

……

最后，引用默默的中心的一句话：“博观而约取，厚积而薄发”。