cs231n作业,cs231n计算机视觉课程

图像分类

目标：已有固定的分类标签集合，然后对于输入的图像，从分类标签集合中找出一个分类标签，最后把分类标签分配给该输入图像。

图像分类流程

输入：输入是包含N个图像的集合，每个图像的标签是K种分类标签中的一种。这个集合称为训练集。学习：这一步的任务是使用训练集来学习每个类到底长什么样。一般该步骤叫做训练分类器或者学习一个模型。评价：让分类器来预测它未曾见过的图像的分类标签，把分类器预测的标签和图像真正的分类标签对比，并以此来评价分类器的质量。

Nearest Neighbor分类器

数据集：CIFAR-10。这是一个非常流行的图像分类数据集，包含了60000张32X32的小图像。每张图像都有10种分类标签中的一种。这60000张图像被分为包含50000张图像的训练集和包含10000张图像的测试集。

Nearest Neighbor图像分类思想：拿测试图片和训练集中每一张图片去比较，然后将它认为最相似的那个训练集图片的标签赋给这张测试图片。
如何比较来那个张图片？
在本例中，就是比较32x32x3的像素块。最简单的方法就是逐个像素比较，最后将差异值全部加起来。换句话说，就是将两张图片先转化为两个向量I_1和I_2，然后计算他们的L1距离：

这里的求和是针对所有的像素。下面是整个比较流程的图例：

计算向量间的距离有很多种方法，另一个常用的方法是L2距离，从几何学的角度，可以理解为它在计算两个向量间的欧式距离。L2距离的公式如下：

L1和L2比较：比较这两个度量方式是挺有意思的。在面对两个向量之间的差异时，L2比L1更加不能容忍这些差异。也就是说，相对于1个巨大的差异，L2距离更倾向于接受多个中等程度的差异。L1和L2都是在p-norm常用的特殊形式。

k-Nearest Neighbor分类器(KNN)

KNN图像分类思想：与其只找最相近的那1个图片的标签，我们找最相似的k个图片的标签，然后让他们针对测试图片进行投票，最后把票数最高的标签作为对测试图片的预测。
如何选择k值？
交叉验证：假如有1000张图片，我们将训练集平均分成5份，其中4份用来训练，1份用来验证。然后我们循环着取其中4份来训练，其中1份来验证，最后取所有5次验证结果的平均值作为算法验证结果。

这就是5份交叉验证对k值调优的例子。针对每个k值，得到5个准确率结果，取其平均值，然后对不同k值的平均表现画线连接。本例中，当k=10的时算法表现最好（对应图中的准确率峰值）。如果我们将训练集分成更多份数，直线一般会更加平滑（噪音更少）。

k-Nearest Neighbor分类器的优劣

优点：

思路清晰，易于理解，实现简单；算法的训练不需要花时间，因为其训练过程只是将训练集数据存储起来。

缺点：测试要花费大量时间计算，因为每个测试图像需要和所有存储的训练图像进行比较。

实际应用k-NN

如果你希望将k-NN分类器用到实处（最好别用到图像上，若是仅仅作为练手还可以接受），那么可以按照以下流程：

预处理你的数据：对你数据中的特征进行归一化（normalize），让其具有零平均值（zero mean）和单位方差（unit variance）。在后面的小节我们会讨论这些细节。本小节不讨论，是因为图像中的像素都是同质的，不会表现出较大的差异分布，也就不需要标准化处理了。如果数据是高维数据，考虑使用降维方法，比如PCA(wiki ref, CS229ref, blog ref)或随机投影。将数据随机分入训练集和验证集。按照一般规律，70%-90% 数据作为训练集。这个比例根据算法中有多少超参数，以及这些超参数对于算法的预期影响来决定。如果需要预测的超参数很多，那么就应该使用更大的验证集来有效地估计它们。如果担心验证集数量不够，那么就尝试交叉验证方法。如果计算资源足够，使用交叉验证总是更加安全的（份数越多，效果越好，也更耗费计算资源）。在验证集上调优，尝试足够多的k值，尝试L1和L2两种范数计算方式。如果分类器跑得太慢，尝试使用Approximate Nearest Neighbor库（比如FLANN）来加速这个过程，其代价是降低一些准确率。对最优的超参数做记录。记录最优参数后，是否应该让使用最优参数的算法在完整的训练集上运行并再次训练呢？因为如果把验证集重新放回到训练集中（自然训练集的数据量就又变大了），有可能最优参数又会有所变化。在实践中，不要这样做。千万不要在最终的分类器中使用验证集数据，这样做会破坏对于最优参数的估计。直接使用测试集来测试用最优参数设置好的最优模型，得到测试集数据的分类准确率，并以此作为你的kNN分类器在该数据上的性能表现。

线性分类

　　本节介绍线性分类器，该方法可以自然延伸到神经网络和卷积神经网络中，这类方法主要有两部分组成，一个是评分函数(score function)：是原始数据和类别分值的映射，另一个是损失函数：它是用来衡量预测标签和真是标签的一致性程度。我们将这类问题转化为优化问题，通过修改参数来最小化损失函数。

　　首先定义一个评分函数，这个函数将输入样本映射为各个分类类别的得分，得分的高低代表该样本属于该类别可能性的高低。现在假设有一个训练集，每个样本都有一个对应的分类标签yi，这里i=1,2....N，并且yi ∈ 1…K，这里，N代表样本个数，样本的维度为D，共有K个类别。定义评分函数：，该函数是原始样本到分类分值的一个映射。

　　线性分类器：先介绍最简单的线性映射：，在公式中，每一个输入样本都被拉成一个长度为D的列向量，其中W和b都是参数，参数W被称为权重(weights)大小为K x D 和，参数b为偏置向量(bias vector)大小K x 1，它影响输出结果，但是并不和原始样本产生关联。卷积神经网络样本到分类分值的方法和上面一样，但是映射函数f（x）将更加的复杂，参数也更多。

解释线性分类器

　　线性分类器各维度的值与权重相乘，从而得到分类分值。如下图：首先将这张猫咪的图片拉伸成一个列向量，与矩阵W相乘，然后得到各个分类的值，可以看出得

到的评分中，猫的评分很低，则这个矩阵W并不好。我们还可以将样本看做高维空间中的一个样本点，整个数据集就是一个空间点的集合，每个点都有一个标签，则每个分类类别的分值就是这个空间中一条线性函数的函数值。

偏置和权重的合并技巧：分类的评分函数为，分开处理参数W、b有点麻烦，一般常用方法是将W和b合并到同一个矩阵中，同时xi这个向量要增加一个维度，数值为1。具体见下图：

左边是先做矩阵乘法然后做加法，右边是权重矩阵增加一个偏置列，输入向量维度增加1，然后做矩阵乘法。这样的好处是只用学习到一个权重矩阵。