人工智能导论的智能体的特征,人工智能导论课程

文章目录一、概要二、重点内容三、思维导图四、重点知识笔记本电脑视觉关键流程主要计算机视觉技术图像分类(image classification )目标定位(object localization ) )单目标检测) 【多个目标】目标跟踪图像分割(图像生成)；图像生成；面部识别)。

一.概要

计算机视觉是智能感知最重要的技术。

为了便于记忆和回顾，在个人学习的基础上，总结人工智能基础知识和思维导图形成系列。

二、重点内容计算机视觉简介主要计算机视觉技术三、思维导图

四.重点知识笔记本电脑视觉的主要过程人的大脑皮层，几乎70%处理视觉信息，是人类获取信息的最主要渠道。

计算机视觉(Computer Vision，CV )是研究如何使计算机能够像人一样“看”的技术。

机器视觉是面向APP应用的计算机视觉系统的设计与实现技术。机器视觉重点关注产品生产、自动化等行业和工程APP应用

基本流程如下

主要的计算机视觉技术目前计算机视觉主要应用于人脸识别、图像识别方面(包括静态、动态两种信息)

图像分类目标定位多目标跟踪图像分割目标定位：“在哪里？ ’问题是确定这个目标的位置。目标检测：“什么？在哪里？ ”问题是确定这个目标的位置，知道目标物是什么。用方框标记。拆分目标：将实例拆分为“实例拆分”(Instance-level )和“场景拆分”(Scene-level )，以解决“每个像素属于哪个目标或场景”的问题。就像抠图一样。 “图像分类”(image classification )图像分类主要是将给定分类集中的标签分配给图像。也就是说，如果给定一个输入图像，则图像分类能够判断该图像中的物体所属的类别，即是否存在猫，是否存在狗。

图像分类根据分类标准可以分为很多种子方向。例如，根据类别标签，可以分为以下几类：

2分类问题，例如确定图像中是否包括面部的鸟类标识等的许多分类问题多个标签分类，其中每个类别包括多个属性的标签，例如服饰分类可具有衣服的颜色、纹理、袖长等标签。一般分类，例如简单分类为鸟类、车、猫、狗等类别的细粒度分类，在鸟类、花卉、猫狗等目前图像分类较热门的领域中，更精细的分类彼此非常相似，但在同一分类中由于遮挡、角度、光线等原因可能难以分辨现在流行的图像分类架构是卷积神经网络(CNN ) ——将图像发送到网络，网络对图像数据进行分类。

除了目标位置(单目标)图像分类之外，还想知道图像中的目标具体位于图像中的什么位置。

基本思路是多任务学习，网络有两个输出分支。

一个分支用于图像分类，与简单的图像分类不同，需要另一个“背景”类。另一个分支用于判断目标位置，用方形标记。其基本思想是从卷积结果中找出响应性较高的显著区域，认为该区域对应的图像中有目标。

对象检测器(object detection ) (多个对象)可以应用对象的定位和特征点检测来构建对象检测算法。通常可以同时检测多个目标。

对象检测是指识别图像中的对象，往往包括这两项工作

首先是找到目标，然后是识别目标。近年来，主要目标检测算法逐渐转向更快、更高效的检测方法。主要的东西：

快速R-FCN基于区域的R-FCN )算法快速定位(yolo )单目标跟踪(SSD )目标跟踪例如无人驾驶领域的目标跟踪。

观察模型表明，目标跟踪算法可分为生成算法和判别算法两大类。

生成算法利用生成模型描述表观特征，最小化重建误差实现目标，例如主成分分析算法(PCA )；判别算法用于区分物体和背景，其性能更加鲁棒，逐渐成为跟踪对象的主要手段。 (判别算法也成为跟踪检测，深度学习也属于该范畴。 )图像分割图像分割需要基于图像检测，检测目标物体并进行分割。

有三种类型的图像分割：

通常分割：前景区域和背景区域的分割等，分割属于不同物体的像素区域；语义分割：除了普通分割外，像素级分类，属于同一类的像素都必须分类到一个类。例如，不可分割

同类别的物体；实例分割：语义分割的基础上，分割出每个实例物体，比如对图片中的多只狗都分割出来，识别出来它们是不同的个体，不仅仅是属于哪个类别。

典型算法：

U-Net，2015DeepLab，2016FCN，2016

语义分割(semantic segmentation)

语义分割是目标检测更进阶的任务，目标检测只需要框出每个目标的包围盒，语义分割需要进一步判断图像中哪些像素属于哪个目标，相当于达到“抠图”的目的。

基本思路目标检测+语义分割。

先用目标检测方法将图像中的不同实例框出，再用语义分割方法在不同包围盒内进行逐像素标记。

Mask R-CNN 用FPN进行目标检测，并通过添加额外分支进行语义分割(额外分割分支和原检测分支不共享参数)，即Mask R-CNN有三个输出分支(分类、坐标回归、和分割)。

图像生成(Image Generation)

图像生成是根据一张图片生成修改部分区域的图片或者是全新的图片的任务。这个应用最近几年快速发展，主要原因也是由于 GANs 是最近几年非常热门的研究方向，而图像生成就是 GANs 的一大应用。

人脸识别(Face Recognition)

人脸识别的过程中有4个关键的步骤：

人脸检测：寻找图片中人脸的位置。标记并分割出来。人脸对齐：将不同角度的人脸图像对齐成同一种标准的形状。通过几何变换（仿射、旋转、缩放），使各个特征点对齐（将眼睛、嘴等部位移到相同位置）人脸编码：人脸图像的像素值会被转换成紧凑且可判别的特征向量。理想情况下，同一个主体的所有人脸都应该映射到相似的特征向量。人脸匹配：在人脸匹配构建模块中，两个特征向量会进行比较，从而得到一个相似度分数，该分数给出了两者属于同一个主体的可能性。

这应该是计算机视觉方面最热门也是发展最成熟的应用，而且已经比较广泛的应用在各种安全、身份认证等，比如人脸支付、人脸解锁。

个人总结，部分内容进行了简单的处理和归纳，如有谬误，希望大家指出，
持续修订更新中。

修订历史版本见：https://github.com/hustlei/AI_Learning_MindMap