模式识别理论与技术,模式识别的三种理论模型

文章目录1、反向传播算法训练步骤总结： 1.1步骤： 1.2影响网络性能的因素： 1.3卷积神经网络权重计算2、Adaboost算法设计思想和主要计算步骤： 2.1设计思想： 2.2计算步骤k _均值聚类算法：从3.1混合pbdwd密度函数估计的角度，简述k均值聚类算法的原理： 3.2 k均值聚类算法的计算步骤：3.3聚类频谱聚类算法： 4.1频谱聚类算法原理： 4.2计算步骤(经典算法) 4.3频谱聚类算法的优缺点：5.数据降维： 5.1 PCA主成分分析。 5.2 CCA典型相关分析5.3 LDA线性判别分析5.4 ICA :独立分量分析5.5 PCA与LDA比较5.6非线性数据降维：6 k近邻(KNN )与parzen窗6.1 KNN6.2 parzen窗7结构风险最小化与VC维)8 SVM支持向量机8.6 n SVM类机器) 8.2 Hinge Loss在SVM中的含义8.3内核方法的基本原理9感知基准函数10决策树和随机森林10.1 ID3决策树10.2 C4.5决策树10.3 CART决策树10.4随机森林11自组织地图

1、反向传播算法训练步骤总结： 1.1步骤：在网络训练过程中，梯度计算分为前向计算和反向传播：

1 )随机初始化权重和偏差

2 )在前向传播过程中，输入信息通过输入层经过隐含层，逐层处理，传递到输出层

3 )在输出层得不到期望的输出值的情况下，取输出与期望的误差的平方和作为目标函数，计算输出与期望值之间的误差

4 )转向反向传播，分层求出目标函数相对于各神经元权重的偏导数，构成目标函数相对于权重向量的步长量，作为修正权重的依据，对每个产生误差的神经元，调整适当的权重值以减小误差。网络学习是在权重修正的过程中进行的。

5 )重复迭代，当误差达到期望值时，或得到网络的最佳权值，网络学习结束。

1.2影响网络性能的因素：权重初始化、网络层数选择、各层节点数选择、学习率、激活函数选择都影响网络性能。

网络通常在初始化各网络层的权重中使用小随机数来防止生成惰性神经元，但如果设置得太小，则可能会生成零梯度网络。一般来说，均匀分布的方法是有效的。如果权重设置不正确，BP算法更新只能是局部最优的，而不能是全局最优的；网络层数过少，神经网络表达能力不佳。增加隐含层数加深网络深度会在一定程度上改善网络性能，但也会出现计算量大、无梯度等问题；增加每层网络的结点数量会增加网络的表达能力，但也会增加计算量。学习率主要目的是控制梯度下降的步长，学习率太小，网络收敛速度太慢，反而加快。学习率主要影响网络训练速度的激活函数是非线性的，理论上可以与任何函数拟合模型。通过选择不同的激活函数，网络可以实现不同的功能和效果。 1.3卷积神经网络的权重计算

2，Adaboost算法的设计思想和主要计算步骤： 2.1设计思想：给出训练集，查找比较粗糙的分类规则(弱分类器)比查找精确的分类规则容易得多。改进算法的核心是从弱学习算法出发，反复学习，得到一系列弱分类器，以及组合这些弱分类器，构成一个强分类器

基本做法是改变训练数据的概率(权重)分布，在提高那些被前一轮弱分类器分错的样本的权重，降低已经被正确分类的样本的权重上，对不同训练数据的分布调用弱学习算法来学习一系列分类器。

对于弱分类器的组合，Adaboost的做法是加权(采用多数表决的方法)。具体而言，让加大分类错误率较小的弱分类器的权重在投票中发挥更大的作用。

2.2计算步骤：

3，k _均值聚类算法：从3.1混合pbdwd密度函数估计的角度简述k均值聚类算法的原理。混合pbdwd密度函数的估计是指，对于由多个pbdwd分量构成的分布，使用所给定的数据估计pbdwd分量的参数(平均值、协方差矩阵、先验概率)，并给出分别属于哪个PBD分量

3.2均值聚类算法的计算步骤：

3.3影响聚类性能的因素：影响均值聚类算法性能的因素主要有以下两种：

)1)聚类中心的个数集群中心个数的设定不同，集群结果也不同，如果错误设定集群中心个数的值，集群误差会变大。

)2)均值向量的初始化K-means严重依赖集群中心的初始位置，其中初始选择不同的集群中心可能收敛到局部最小值，也可能收敛到全局最小值。

4、频谱聚类算法： 4.1频谱聚类算法原理：频谱聚类算法的本质是将聚类问题转化为一个图上的关于顶点划分的最优问题。对于个样本点，可以用图表示这些样本点

将聚类问题转换为图分割问题。即找到一种合理的分割图的方法，分割后形成若干子图。连接不同子图的边权重尽可能小，子图内部边权重尽可能大。

4.2 计算步骤（经典算法）：

4.3 谱聚类的优缺点：

谱聚类算法的主要优点有：
　　1）谱聚类只需要数据之间的相似度矩阵，因此对于处理稀疏数据的聚类很有效。这点传统聚类算法比如K-Means很难做到。
　　2）由于使用了降维，因此在处理高维数据聚类时的复杂度比传统聚类算法好。
　谱聚类算法的主要缺点有：
　　1）如果最终聚类的维度非常高，则由于降维的幅度不够，谱聚类的运行速度和最后的聚类效果均不好。
　　2) 聚类效果依赖于相似矩阵，不同的相似矩阵得到的最终聚类效果可能很不同。

5. 数据降维： 5.1 PCA主成分分析。

PCA的思想是将n维特征映射到m维上（m<n），这m维是全新的正交特征，称为主成分，这m维的特征是重新构造出来的，不是简单的从n维特征中减去n-m维特征。
PCA属于无监督（训练样本无标签）的降维方法，是一种正交投影，侧重选择样本点投影方差最大的方向，减少特征相关性。
适用场景：
(1)原始数据特征多而且特征冗余。
(2)需要对样本进行可视化的时候，三维以上的特征无法进行可视化。

5.2 CCA典型相关分析

它选择的投影标准是降维到1维后，两组数据的相关系数最大。
适用场景：侧重于两组数据有相关关系的时候。

5.3 LDA线性判别分析

是从更利于分类的角度的有监督（训练样本有标签）的降维方法。希望数据投影后类内方差最小，类间方差最大。
适用场景：侧重于分类。

1）两类问题的LDA目标函数：

2）最大化下列目标函数：

Sb：类间离散度
Sw：类内离散度
类内方差最小（分母），类间方差最大（分子）来最大化下列目标函数。

3)最大化分子，把分母等于1作为约束条件，写出拉格朗日乘子法求出w的值。

5.4 ICA：独立成分分析

ICA信号需要是非pbdwd的，寻找的是最能使数据的相互独立的方向。
应用场景：盲信号分离。
假设：
每一个类是单模态pbdwd分布 → 多模态LDA
每一个类的协方差矩阵都相同 → 异方差LDA
不足：
类分离问题。
降维维数不能超过C-1，C是类别数

5.5 PCA与LDA比较

LDA用于降维，和PCA有很多相同，也有很多不同的地方，因此值得好好的比较一下两者的降维异同点。
相同点：
　　　　1）两者均可以对数据进行降维。
　　　　2）两者在降维时均使用了矩阵特征分解的思想。
　　　　3）两者都假设数据符合pbdwd分布。
不同点：
　　　　1）LDA是有监督的降维方法，而PCA是无监督的降维方法
　　　　2）LDA降维最多降到类别数c-1的维数，而PCA没有这个限制。
　　　　3）LDA除了可以用于降维，还可以用于分类。
　　　　4）LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。
　　
LDA算法的主要优点有：
　　　　1）在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。
　　　　2）LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。
LDA算法的主要缺点有：
　　　　1）LDA不适合对非pbdwd分布样本进行降维，PCA也有这个问题。
　　　　2）LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
　　　　3）LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好。
　　　　4）LDA可能过度拟合数据。

5.6 非线性数据降维：

核PCA：
1)先通过核方法把低维线性不可分的数据升维到高维空间，得到线性可分的核矩阵
2)对核矩阵进行PCA降维
流形及其流形学习：
流形学习的本质：当样本空间为一个高维光滑流形时，要从样本数据中学习这个高维流形的内在几何结构或内在规律，得到对应的低维数据集，实际也就是非线性降维。
流形学习的主要算法：
（1）基于全局的方法，如等距映射（ISOMAP）
（2）基于局部的方法，如局部线性嵌入算法（LLE）
LLE算法主要分为三步：
（1）求k个近邻的过程，这个过程使用了和KKN算法一样的求最近邻的方法
（2）对每个样本求它在邻域里的k个近邻的线性关系，得到线性关系的权重系数w
（3）利用权重系数在低维里重构样本数据
ISOMAP：
引入图论框架，将数据作为图中的点，点与其邻近点之间使用边来连接，逼近的测地线使用最短路径代替。
步骤1：构建邻接图G
步骤2：计算所有点对之间的最短路径
步骤3：把最短路径输入MDS算法得到输出。

6 k近邻（KNN）和parzen窗

非参数估计：
已知样本所属的类别，但未知总体概率密度函数的形式，要求我们直接推断概率密度函数本身。

6.1 KNN

K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

knn详细内容可参考此文：https://zhuanlan.zhihu.com/p/25994179

6.2 parzen窗

Parzen窗详细内容可参考此文：https://www.cnblogs.com/aminor/p/13851150.html

7 结构风险最小化与VC维：

结构风险最小化指在保证在训练集中的分类精度（经验风险）的同时，降低模型的复杂度，让模型在测试集上也能获得低错误率。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

VC维指分类器能将样本分开的最大数目定义，K维超平面上VC维为K+1。VC维反映了函数集的学习能力，VC维越大则模型越复杂。

8 SVM 支持向量机

8.1 Hard-Margin SVM（二类分类器）

8.2 Hinge Loss在SVM中的意义

Hinge Loss的引入有以下两方面的意义：

(1) 将软约束添加到线性SVM中，让SVM允许少量样本错分，让模型更具有鲁棒性。
(2) 保持了SVM的稀疏性。Hinge Loss的零区域对应的是非支持向量的普通样本，这些样本都不参与最终超平面的决定，从而对训练样本的依赖大大减少，提高了训练效率。

软间隔惩罚参数C会影响决策边界位置：

C在等于合适的值的时候，不是特别大也不是特别小的时候。既保证了分类，而且又最大化magin，避免过拟合现象。
惩罚因子C越大，则SVM会更倾向把所有数据分对，往往出现较小的margin，最终导致过拟合现象，泛化性能不好。
C过于小，则惩罚力度不够，SVM会更倾向实现最大化的margin，而对样本分对分错不关心，不利于分类。

8.3 核方法的基本原理

核方法大致思想为：
将在原始低维空间线性不可分的分类问题通过非线性变换成高维空间线性可分的分类问题，在高维空间学习线性支持向量机。在线性支持向量机学习的对偶问题中，把低维到高维的非线性变换的内积形式用核函数表示。

9 感知准则函数

10 决策树与随机森林 10.1 ID3 决策树

核心是在决策树各个结点上应用信息增益准则选择特征，递归的构建决策树。相当于用极大似然法进行概率模型的选择。
（1）不能对连续数据进行处理，只能通过连续数据离散化进行处理；
（2）采用信息增益进行数据分裂容易偏向取值较多的特征，准确性不如信息增益率；
（3）缺失值不好处理。
（4）没有采用剪枝，决策树的结构可能过于复杂，出现过拟合。

10.2 C4.5 决策树

继承了ID3的优点，并从以下四个方面进行改进。
1)用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足
2)在树构造过程中进行剪枝
3)能够完成对连续属性的离散化处理
4)能够对不完整数据进行处理

10.3 CART 决策树

相比ID3和C4.5，CART既可以用于分类也可以用于回归。 CART 树的生成就是递归地构建二叉决策树的过程。对回归树用
平方误差最小化准则，对分类树用基尼指数最小化准则，进行特征选择，生成二叉树。

10.4 随机森林

该算法用随机的方式建立起一棵棵决策树，然后由这些决策树组成一个森林，其中每棵决策树之间没有关联，当有一个新的样本输入时，就让每棵树独立的做出判断，按照多数原则决定该样本的分类结果。

11 自组织映射