gmm聚类算法基于python,gms算法

本文目录一览：

1、单高斯模型SGM & 高斯混合模型GMM
2、[译] 高斯混合模型 --- python教程
3、高斯混合模型（GMM）及EM算法的初步理解
4、高斯混合模型(GMM)和EM算法
5、如何用高斯混合模型 GMM 做聚类

单高斯模型SGM & 高斯混合模型GMM

在了解高斯混合模型之前，我们先来看看什么是高斯分布，高斯分布大家应该都比较熟悉了，就是我们平时所说的正态分布，也叫高斯分布。正态分布是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。

正态分布的特点

集中性：正态曲线的高峰位于正中央，即均数所在的位置。

对称性：正态曲线以均数为中心，左右对称，曲线两端永远不与横轴相交。

均匀变动性：正态曲线由均数所在处开始，分别向左右两侧逐渐均匀下降。

若随机变量服从一个数学期望为、方差为的正态分布，记为。其中期望值决定了其位置，标准差决定了分布的幅度。当 = 0， = 1时，正态分布是标准正态分布。

正态分布有极其广泛的实际背景，生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如，在生产条件不变的情况下，产品的强力、抗压强度、口径、长度等指标；同一种生物体的身长、体重等指标；同一种种子的重量；测量同一物体的误差；弹着点沿某一方向的偏差；某个地区的年降水量；以及理想气体分子的速度分量，等等。一般来说，如果一个量是由许多微小的独立随机因素影响的结果，那么就可以认为这个量具有正态分布（见中心极限定理）。从理论上看，正态分布具有很多良好的性质，许多概率分布可以用它来近似；还有一些常用的概率分布是由它直接导出的，例如对数正态分布、t分布、F分布等。

高斯模型有单高斯模型（SGM）和混合高斯模型（GMM）两种。

概率密度函数服从上面的正态分布的模型叫做单高斯模型，具体形式如下：

当样本数据是一维数据（Univariate）时，高斯模型的概率密度函数为：

其中：为数据的均值，为数据的标准差。

当样本数据是多维数据（Univariate）时，高斯模型的概率密度函数为：

其中：为数据的均值，为协方差，d为数据维度。

高斯混合模型（GMM）是单高斯概率密度函数的延伸，就是用多个高斯概率密度函数（正态分布曲线）精确地量化变量分布，是将变量分布分解为若干基于高斯概率密度函数（正态分布曲线）分布的统计模型。

用通俗一点的语言解释就是，个单高斯模型混合在一起，生成的模型，就是高斯混合模型。这个子模型是混合模型的隐变量（Hidden variable）。一般来说，一个混合模型可以使用任何概率分布，这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。

GMM是工业界使用最多的一种聚类算法。它本身是一种概率式的聚类方法，假定所有的样本数据X由K个混合多元高斯分布组合成的混合分布生成。

高斯混合模型的概率密度函数可以表示为：

其中：

是观察数据属于第个子模型的概率，；

是第个的单高斯子模型的概率密度函数，或

，具体函数见上方单高斯模型的概率密度函数。

参数估计有多种方法，有矩估计、极大似然法、一致最小方差无偏估计、最小风险估计、同变估计、最小二乘法、贝叶斯估计、极大验后法、最小风险法和极小化极大熵法等。最基本的方法是最小二乘法和极大似然法。

极大似然估计的思想是：随机试验有多个可能的结果，但在一次试验中，有且只有一个结果会出现，如果在某次试验中，结果w出现了，则认为该结果发生的概率最大。

1）写出似然函数：

假设单个样本的概率函数为 ,对每个样本的概率函数连乘，就可以得到样本的似然函数

2）对似然函数取对数：

目的是为了让乘积变成加法，方便后续运算

3）求导数，令导数为0，得到似然方程：

和在同一点取到最大值，所以可以通过对求导，令导数为零，实现同个目的

4）解似然方程，得到的参数即为所求

对于单高斯模型，可以使用极大似然估计（MLE）来求解出参数的值。

单高斯模型的对数似然函数为：

上式分别对和求偏导数，然后令其等于0，可以得到对应的参数估计值：

如果依然按照上面的极大似然估计方法求参数

GMM的对数似然函数为：

对上式求各个参数的偏导数，然后令其等于0，并且还需要附件一个条件：。

我们会发现，直接求导无法计算出参数。所以我们需要用其它方式去解决参数估计问题，一般情况下我们使用的是迭代的方法，用期望最大算法（Expectation Maximization，EM）进行估计。

EM算法的具体原理以及示例见我的另外一篇文章。

[译] 高斯混合模型 --- python教程

本文翻译自

上一节中探讨的k-means聚类模型简单易懂，但其简单性导致其应用中存在实际挑战。具体而言，k-means的非概率特性及简单地计算点与类蔟中心的欧式距离来判定归属，会导致其在许多真实的场景中性能较差。本节，我们将探讨高斯混合模型(GMMs)，其可以看成k-means的延伸，更可以看成一个强有力的估计工具，而不仅仅是聚类。

我们将以一个标准的import开始

我们看下k-means的缺陷，思考下如何提高聚类模型。正如上一节所示，给定简单，易于分类的数据，k-means能找到合适的聚类结果。

举例而言，假设我们有些简单的数据点，k-means算法能以某种方式很快地将它们聚类，跟我们肉眼分辨的结果很接近：

从直观的角度来看，我可能期望聚类分配时，某些点比其他的更确定：举例而言，中间两个聚类之间似乎存在非常轻微的重叠，这样我们可能对这些数据点的分配没有完全的信心。不幸的是，k-means模型没有聚类分配的概率或不确定性的内在度量（尽管可能使用bootstrap 的方式来估计这种不确定性）。为此，我们必须考虑泛化这种模型。

k-means模型的一种理解思路是，它在每个类蔟的中心放置了一个圈（或者，更高维度超球面)，其半径由聚类中最远的点确定。该半径充当训练集中聚类分配的一个硬截断：任何圈外的数据点不被视为该类的成员。我们可以使用以下函数可视化这个聚类模型：

观察k-means的一个重要发现，这些聚类模式必须是圆形的。k-means没有内置的方法来计算椭圆形或椭圆形的簇。因此，举例而言，假设我们将相同的数据点作变换，这种聚类分配方式最终变得混乱：

高斯混合模型（GMM）试图找到一个多维高斯概率分布的混合，以模拟任何输入数据集。在最简单的情况下，GMM可用于以与k-means相同的方式聚类。

但因为GMM包含概率模型，因此可以找到聚类分配的概率方式 - 在Scikit-Learn中，通过调用predict_proba方法实现。它将返回一个大小为[n_samples, n_clusters]的矩阵，用于衡量每个点属于给定类别的概率：

我们可以可视化这种不确定性，比如每个点的大小与预测的确定性成比例；如下图，我们可以看到正是群集之间边界处的点反映了群集分配的不确定性：

本质上说，高斯混合模型与k-means非常相似：它使用期望-最大化的方式，定性地执行以下操作：

有了这个，我们可以看看四成分的GMM为我们的初始数据提供了什么：

同样，我们可以使用GMM方法来拟合我们的拉伸数据集；允许full的协方差，该模型甚至可以适应非常椭圆形，伸展的聚类模式：

这清楚地表明GMM解决了以前遇到的k-means的两个主要实际问题。

如果看了之前拟合的细节，你将看到covariance_type选项在每个中都设置不同。该超参数控制每个类簇的形状的自由度；对于任意给定的问题，必须仔细设置。默认值为covariance_type =“diag”，这意味着可以独立设置沿每个维度的类蔟大小，并将得到的椭圆约束为与轴对齐。一个稍微简单和快速的模型是covariance_type =“spherical”，它约束了类簇的形状，使得所有维度都相等。尽管它并不完全等效，其产生的聚类将具有与k均值相似的特征。更复杂且计算量更大的模型（特别是随着维数的增长）是使用covariance_type =“full”，这允许将每个簇建模为具有任意方向的椭圆。

对于一个类蔟，下图我们可以看到这三个选项的可视化表示：

尽管GMM通常被归类为聚类算法，但从根本上说它是一种密度估算算法。也就是说，GMM适合某些数据的结果在技术上不是聚类模型，而是描述数据分布的生成概率模型。

例如，考虑一下Scikit-Learn的make_moons函数生成的一些数据：

如果我们尝试用视为聚类模型的双成分的GMM模拟数据，则结果不是特别有用：

但是如果我们使用更多成分的GMM模型，并忽视聚类的类别，我们会发现更接近输入数据的拟合：

这里，16个高斯分布的混合不是为了找到分离的数据簇，而是为了对输入数据的整体分布进行建模。这是分布的一个生成模型，这意味着GMM为我们提供了生成与我们的输入类似分布的新随机数据的方法。例如，以下是从这个16分量GMM拟合到我们原始数据的400个新点：

GMM非常方便，可以灵活地建模任意多维数据分布。

GMM是一种生成模型这一事实为我们提供了一种确定给定数据集的最佳组件数的自然方法。生成模型本质上是数据集的概率分布，因此我们可以简单地评估模型下数据的可能性，使用交叉验证来避免过度拟合。校正过度拟合的另一种方法是使用一些分析标准来调整模型可能性，例如 Akaike information criterion (AIC) 或 Bayesian information criterion (BIC) 。Scikit-Learn的GMM估计器实际上包含计算这两者的内置方法，因此在这种方法上操作非常容易。

让我们看看在moon数据集中，使用AIC和BIC函数确定GMM组件数量：

最佳的聚类数目是使得AIC或BIC最小化的值，具体取决于我们希望使用的近似值。 AIC告诉我们，我们上面选择的16个组件可能太多了：大约8-12个组件可能是更好的选择。与此类问题一样，BIC建议使用更简单的模型。

注意重点：这个组件数量的选择衡量GMM作为密度估算器的效果，而不是它作为聚类算法的效果。我鼓励您将GMM主要视为密度估算器，并且只有在简单数据集中保证时才将其用于聚类。

我们刚刚看到了一个使用GMM作为数据生成模型的简单示例，以便根据输入数据定义的分布创建新样本。在这里，我们将运行这个想法，并从我们以前使用过的标准数字语料库中生成新的手写数字。

首先，让我们使用Scikit-Learn的数据工具加载数字数据：

接下来让我们绘制前100个，以准确回忆我们正在看的内容：

我们有64个维度的近1,800位数字，我们可以在这些位置上构建GMM以产生更多。 GMM可能难以在如此高维空间中收敛，因此我们将从数据上的可逆维数减少算法开始。在这里，我们将使用一个简单的PCA，要求它保留99％的预测数据方差：

结果是41个维度，减少了近1/3，几乎没有信息丢失。根据这些预测数据，让我们使用AIC来计算我们应该使用的GMM组件的数量：

似乎大约110个components最小化了AIC；我们将使用这个模型。我们迅速将其与数据拟合并确保它已收敛合：

现在我们可以使用GMM作为生成模型在这个41维投影空间内绘制100个新点的样本：

最后，我们可以使用PCA对象的逆变换来构造新的数字：

大部分结果看起来像数据集中合理的数字！

考虑一下我们在这里做了什么：给定一个手写数字的样本，我们已经模拟了数据的分布，这样我们就可以从数据中生成全新的数字样本：这些是“手写数字”，不是单独的出现在原始数据集中，而是捕获混合模型建模的输入数据的一般特征。这种数字生成模型可以证明作为贝叶斯生成分类器的一个组成部分非常有用，我们将在下一节中看到。

高斯混合模型（GMM）及EM算法的初步理解

高斯混合模型（Gaussian Mixed Model）指的是多个高斯分布函数的线性组合，理论上GMM可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多个不同的分布的情况（或者是同一类分布但参数不一样，或者是不同类型的分布，比如正态分布和伯努利分布）。

如图1，图中的点在我们看来明显分成两个聚类。这两个聚类中的点分别通过两个不同的正态分布随机生成而来。但是如果没有GMM，那么只能用一个的二维高斯分布来描述图1中的数据。图1中的椭圆即为二倍标准差的正态分布椭圆。这显然不太合理，毕竟肉眼一看就觉得应该把它们分成两类。

这时候就可以使用GMM了！如图2，数据在平面上的空间分布和图1一样，这时使用两个二维高斯分布来描述图2中的数据，分别记为N(μ1,Σ1)和N(μ2,Σ2) 。图中的两个椭圆分别是这两个高斯分布的二倍标准差椭圆。可以看到使用两个二维高斯分布来描述图中的数据显然更合理。实际上图中的两个聚类的中的点是通过两个不同的正态分布随机生成而来。如果将两个二维高斯分布N(μ1,Σ1)和N(μ2,Σ2) 合成一个二维的分布，那么就可以用合成后的分布来描述图2中的所有点。最直观的方法就是对这两个二维高斯分布做线性组合，用线性组合后的分布来描述整个集合中的数据。这就是高斯混合模型（GMM）。

高斯混合模型（GMM）的数学表示：

期望极大（Expectation Maximization）算法，也称EM算法，是一种迭代算法，由Dempster et. al 在1977年提出，用于含有隐变量的概率参数模型的极大似然估计。

EM算法作为一种数据添加算法，在近几十年得到迅速的发展，主要源于当前科学研究以及各方面实际应用中数据量越来越大的情况下，经常存在数据缺失或者不可用的的问题，这时候直接处理数据比较困难，而数据添加办法有很多种，常用的有神经网络拟合、添补法、卡尔曼滤波法等，但是EM算法之所以能迅速普及主要源于它算法简单，稳定上升的步骤能相对可靠地找到“最优的收敛值”。

(个人的理解就是用含有隐变量的含参表达式不断拟合，最终能收敛并拟合出不含隐变量的含参表达式)

模型的EM训练过程，直观的来讲是这样：我们通过观察采样的概率值和模型概率值的接近程度，来判断一个模型是否拟合良好。然后我们通过调整模型以让新模型更适配采样的概率值。反复迭代这个过程很多次，直到两个概率值非常接近时，我们停止更新并完成模型训练。现在我们要将这个过程用算法来实现，所使用的方法是模型生成的数据来决定似然值，即通过模型来计算数据的期望值。通过更新参数μ和σ来让期望值最大化。这个过程可以不断迭代直到两次迭代中生成的参数变化非常小为止。该过程和k-means的算法训练过程很相似（k-means不断更新类中心来让结果最大化），只不过在这里的高斯模型中，我们需要同时更新两个参数：分布的均值和标准差.[3]

GMM常用于聚类。如果要从 GMM 的分布中随机地取一个点的话，实际上可以分为两步：首先随机地在这 K 个 Component 之中选一个，每个 Component 被选中的概率实际上就是它的系数Πk ，选中 Component 之后，再单独地考虑从这个 Component 的分布中选取一个点就可以了──这里已经回到了普通的 Gaussian 分布，转化为已知的问题。

根据数据来推算概率密度通常被称作 density estimation 。特别地，当我已知（或假定）概率密度函数的形式，而要估计其中的参数的过程被称作『参数估计』。

（推导和迭代收敛过程这里省略，可参考资料1）

一个实际的例子：用GMM对iris数据集进行聚类，并通过make_ellipses表示出来

make_ellipses方法概念上很简单，它将gmm对象（训练模型）、坐标轴、以及x和y坐标索引作为参数，运行后基于指定的坐标轴绘制出相应的椭圆图形。

在特定条件下，k-means和GMM方法可以互相用对方的思想来表达。在k-means中根据距离每个点最接近的类中心来标记该点的类别，这里存在的假设是每个类簇的尺度接近且特征的分布不存在不均匀性。这也解释了为什么在使用k-means前对数据进行归一会有效果。高斯混合模型则不会受到这个约束，因为它对每个类簇分别考察特征的协方差模型。

K-means算法可以被视为高斯混合模型（GMM）的一种特殊形式。整体上看，高斯混合模型能提供更强的描述能力，因为聚类时数据点的从属关系不仅与近邻相关，还会依赖于类簇的形状。n维高斯分布的形状由每个类簇的协方差来决定。在协方差矩阵上添加特定的约束条件后，可能会通过GMM和k-means得到相同的结果。

在k-means方法中使用EM来训练高斯混合模型时对初始值的设置非常敏感。而对比k-means，GMM方法有更多的初始条件要设置。实践中不仅初始类中心要指定，而且协方差矩阵和混合权重也要设置。可以运行k-means来生成类中心，并以此作为高斯混合模型的初始条件。由此可见并两个算法有相似的处理过程，主要区别在于模型的复杂度不同。

高斯混合模型的基本假设是已知类别的比例和类别的个数，但是不知道每个样例的具体标签，据此用EM的模式为每个样本进行最优的标注。也就是说它适合的是无标签学习的分类问题，并且需要已知基本假设。

整体来看，所有无监督机器学习算法都遵循一条简单的模式：给定一系列数据，训练出一个能描述这些数据规律的模型（并期望潜在过程能生成数据）。训练过程通常要反复迭代，直到无法再优化参数获得更贴合数据的模型为止。

【1】高斯混合模型（GMM）及其EM算法的理解

【2】机器学习中的数学（4）-EM算法与高斯混合模型（GMM）

【3】一文详解高斯混合模型原理

高斯混合模型(GMM)和EM算法

学号：20021110074 电院姓名：梁雪玲

【嵌牛导读】：GMM与EM算法的学习与推导。

【嵌牛鼻子】：GMM EM

【嵌牛提问】：GMM是什么？EM算法是什么？二者之间的关系？算法的推导？如何深入学习？

【嵌牛正文】：

在深度学习的路上，从头开始了解一下各项技术。本人是DL小白，连续记录我自己看的一些东西，大家可以互相交流。

本文参考：

(EM算法)

一、前言

高斯混合模型(Gaussian Mixture Model)简称GMM，是一种业界广泛使用的聚类算法。它是多个高斯分布函数的线性组合，理论上GMM可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多种不同的分布的情况。高斯混合模型使用了期望最大(Expectation Maximization，简称EM)算法进行训练，故此我们在了解GMM之后，也需要了解如何通过EM算法训练(求解)GMM。

二、高斯混合模型(GMM)

在了解高斯混合模型之前，我们先了解一下这种模型的具体参数模型-高斯分布。高斯分布又称正态分布，是一种在自然界中大量存在的，最为常见的分布形式。

如上图，这是一个关于身高的生态分布曲线，关于175-180对称，中间高两边低，相信大家在高中已经很了解了，这里就不再阐述。

现在，我们引用《统计学习方法》-李航书中的定义，如下图：

根据定义，我们可以理解为，GMM是多个高斯分布的加权和，并且权重α之和等于1。这里不难理解，因为GMM最终反映出的是一个概率，而整个模型的概率之和为1，所以权重之和即为1。高斯混合模型实则不难理解，接下来我们介绍GMM的训练(求解)方法。

PS.从数学角度看，对于一个概率模型的求解，即为求其最大值。从深度学习角度看，我们希望降低这个概率模型的损失函数，也就是希望训练模型，获得最大值。训练和求解是不同专业，但相同目标的术语。

三、最大似然估计

想要了解EM算法，我们首先需要了解最大似然估计这个概念。我们通过一个简单的例子来解释一下。

假设，我们需要调查学校男女生的身高分布。我们用抽样的思想，在校园里随机抽取了100男生和100女生，共计200个人(身高样本数据)。我们假设整个学校的身高分布服从于高斯分布。但是这个高斯分布的均值u和方差∂2我们不知道，这两个参数就是我们需要估计的值。记作θ=[u, ∂]T。

由于每个样本都是独立地从p(x|θ)中抽取的，并且所有的样本都服从于同一个高斯分布p(x|θ)。那么我们从整个学校中，那么我抽到男生A（的身高）的概率是p(xA|θ)，抽到男生B的概率是p(xB|θ)。而恰好抽取出这100个男生的概率，就是每个男生的概率乘积。用下式表示：

这个概率反映了，在概率密度函数的参数是θ时，得到X这组样本的概率。在公式中，x已知，而θ是未知，所以它是θ的函数。这个函数放映的是在不同的参数θ取值下，取得当前这个样本集的可能性，因此称为参数θ相对于样本集X的似然函数（likehood function）。记为L(θ)。

我们先穿插一个小例子，来阐述似然的概念。

某位同学与一位猎人一起外出打猎，一只野兔从前方窜过。只听一声枪响，野兔应声到下，如果要你推测，这一发命中的子弹是谁打的？你就会想，只发一枪便打中，由于猎人命中的概率一般大于这位同学命中的概率，看来这一枪是猎人射中的。

这个例子所作的推断就体现了极大似然法的基本思想，我们并不知道具体是谁打的兔子，但是我们可以估计到一个看似正确的参数。回到男生身高的例子中。在整个学校中我们一次抽到这100个男生(样本)，而不是其他的人，那么我们可以认为这100个男生(样本)出现的概率最大，用上面的似然函数L(θ)来表示。

所以，我们就只需要找到一个参数θ，其对应的似然函数L(θ)最大，也就是说抽到这100个男生（的身高）概率最大。这个叫做θ的最大似然估计量，记为：

因为L(θ)是一个连乘函数，我们为了便于分析，可以定义对数似然函数，运用对数的运算规则，把连乘转变为连加：

PS.这种数学方法在MFCC中我们曾经用过，可以回溯一下上一篇文章。

此时，我们要求θ，只需要使θ的似然函数L(θ)极大化，然后极大值对应的θ就是我们的估计。在数学中求一个函数的最值问题，即为求导，使导数为0，解方程式即可(前提是函数L(θ)连续可微)。在深度学习中，θ是包含多个参数的向量，运用高等数学中的求偏导，固定其中一个变量的思想，即可求出极致点，解方程。

总结而言：

最大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

求最大似然函数估计值的一般步骤：

（1）写出似然函数；

（2）对似然函数取对数，并整理；(化乘为加)

（3）求导数，令导数为0，得到似然方程；

（4）解似然方程，得到的参数即为所求。

四、EM算法

期望最大(Expectation Maximization，简称EM)算法，称为机器学习十大算法之一。它是一种从不完全数据或有数据丢失的数据集（存在隐含变量）中求解概率模型参数的最大似然估计方法。

现在，我们重新回到男女生身高分布的例子。我们通过抽取100个男生身高，并假设身高分布服从于高斯分布，我们通过最大化其似然函数，可以求的高斯分布的参数θ=[u, ∂]T了，对女生同理。但是，假如这200人，我们只能统计到其身高数据，但是没有男女信息(其实就是面对200个样本，抽取得到的每个样本都不知道是从哪个分布抽取的，这对于深度学习的样本分类很常见)。这个时候，我们需要对样本进行两个东西的猜测或者估计了。

EM算法就可以解决这个问题。假设我们想估计知道A和B两个参数，在开始状态下二者都是未知的，但如果知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

在男女生身高分布的例子中，我们运用EM算法的思想。首先随便猜一下男生的高斯分布参数:均值和方差。假设均值是1.7米，方差是0.1米，然后计算出每个人更可能属于第一个还是第二个正态分布中。这是第一步，Expectation。在分开了两类之后，我们可以通过之前用的最大似然，通过这两部分，重新估算第一个和第二个分布的高斯分布参数:均值和方差。这是第二步，Maximization。然后更新这两个分布的参数。这是可以根据更新的分布，重新调整E(Expectation)步骤...如此往复，迭代到参数基本不再发生变化。

这里原作者提到了一个数学思维，很受启发，转给大家看一眼(比较鸡汤和啰嗦，大家可以跳过)

这时候你就不服了，说你老迭代迭代的，你咋知道新的参数的估计就比原来的好啊？为什么这种方法行得通呢？有没有失效的时候呢？什么时候失效呢？用到这个方法需要注意什么问题呢？呵呵，一下子抛出那么多问题，搞得我适应不过来了，不过这证明了你有很好的搞研究的潜质啊。呵呵，其实这些问题就是数学家需要解决的问题。在数学上是可以稳当的证明的或者得出结论的。那咱们用数学来把上面的问题重新描述下。（在这里可以知道，不管多么复杂或者简单的物理世界的思想，都需要通过数学工具进行建模抽象才得以使用并发挥其强大的作用，而且，这里面蕴含的数学往往能带给你更多想象不到的东西，这就是数学的精妙所在啊）

五、EM算法的简单理解方式

在提出EM算法的推导过程之前，先提出中形象的理解方式，便于大家理解整个EM算法，如果只是实现深度学习模型，个人认为可以不需要去看后面的算法推导，看这个就足够了。

坐标上升法(Coordinate ascent):

图中的直线式迭代优化的途径，可以看到每一步都会向最优值靠近，而每一步前进的路线都平行于坐标轴。那么我们可以将其理解为两个未知数的方程求解。俩个未知数求解的方式，其实是固定其中一个未知数，求另一个未知数的偏导数，之后再反过来固定后者，求前者的偏导数。EM算法的思想，其实也是如此。使用坐标上升法，一次固定一个变量，对另外的求极值，最后逐步逼近极值。对应到EM上，E步：固定θ，优化Q；M步：固定Q，优化θ；交替将极值推向最大。

六、EM算法推导

现在很多深度学习框架可以简单调用EM算法，实际上这一段大家可以不用看，直接跳过看最后的总结即可。但是如果你希望了解一些内部的逻辑，可以看一下这一段推导过程。

假设我们有一个样本集{x(1),…,x(m)}，包含m个独立的样本(右上角为样本序号)。但每个样本i对应的类别z(i)是未知的（相当于聚类），也即隐含变量。故我们需要估计概率模型p(x,z)的参数θ(在文中可理解为高斯分布)，但是由于里面包含隐含变量z，所以很难用最大似然求解，但如果z知道了，那我们就很容易求解了。

首先放出似然函数公式，我们接下来对公式进行化简：

对于参数估计，我们本质上的思路是想获得一个使似然函数最大化的参数θ，现在多出一个未知变量z，公式(1)。那么我们的目标就转变为：找到适合的θ和z让L(θ)最大。

对于多个未知数的方程分别对未知的θ和z分别求偏导，再设偏导为0，即可解方程。

因为(1)式是和的对数，当我们在求导的时候，形式会很复杂。

这里我们需要做一个数学转化。我们对和的部分，乘以一个相等的函数，得到(2)式，利用Jensen不等式的性质，将(2)式转化为(3)式。(Jensen不等式数学推到比较复杂，知道结果即可)

Note:

Jensen不等式表述如下：

如果f是凸函数，X是随机变量，那么：E[f(X)]=f(E[X])

特别地，如果f是严格凸函数，当且仅当X是常量时，上式取等号。参考链接:

至此，上面的式（2）和式（3）不等式可以写成：似然函数L(θ)=J(z,Q)，那么我们可以通过不断的最大化这个下界J(z,Q)函数，来使得L(θ)不断提高，最终达到它的最大值。

现在，我们推导出了在固定参数θ后，使下界拉升的Q(z)的计算公式就是后验概率，解决了Q(z)如何选择的问题。这一步就是E步，建立L(θ)的下界。接下来的M步，就是在给定Q(z)后，调整θ，去极大化L(θ)的下界J（在固定Q(z)后，下界还可以调整的更大）。

总结而言

EM算法是一种从不完全数据或有数据丢失的数据集(存在隐藏变量)中，求解概率模型参数的最大似然估计方法。

EM的算法流程：

1初始化分布参数θ；

重复2, 3直到收敛:

2E步骤(Expectation):根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率，其实就是隐性变量的期望。作为隐藏变量的现估计值：

3M步骤(Maximization):将似然函数最大化以获得新的参数值：

这个不断迭代的过程，最终会让E、M步骤收敛，得到使似然函数L(θ)最大化的参数θ。

在L(θ)的收敛证明:

如何用高斯混合模型 GMM 做聚类

当我们在做聚类任务时，

如果每一类的分布已知的话，那么要求出每个样本属于哪一类，

只需要计算出它归属于 k 个不同簇的概率，然后选择概率值最高的那个簇作为它最终的归属即可。

但很多时候，样本分布的参数乃至概率密度函数的形式都是未知的

这时，我们通过设定一个目标，在优化目标的时候求出这些未知的参数。

在聚类这个问题中，我们希望达到的目标是：

第 i 个样本 x(i) 之所以被归属到了第 k 个簇，是因为它在这一类的概率是所有类中概率最大的。

所以目标为最大化样本集的集体概率：

这其实是一个似然函数，要优化它，可以用极大化对数似然函数的方法，所以取对数。

这里面的每个 ϕ 都是一个独立的概率密度函数形式，而 θ 是对应的参数集合，

这时 K 个分模型的概率分布都不相同——每个概率密度函数的形式不同，对应参数集合不同，参数本身又都是未知的，如果直接求解就会非常困难，

所以，这时我们可以把所有的 ϕ 都当作高斯分布即可。也就是说这些样本分属的模型对应的概率密度函数形式相同，参数类型也相同，只是参数的具体取值有所差别：

高斯分布（Gaussian Distribution），又名正态分布（Normal distribtion），它的密度函数如上图公式所示。

现实生活中的许多自然现象都被发现近似地符合高斯分布，比如人类的寿命、身高、体重等，在金融、科研、工业等各个领域都有大量现实业务产生的数据被证明是符合高斯分布的。

这时就用到了高斯混合模型（GMM），

就是将若干个概率分布为高斯分布的分模型混合在一起的模型。

之所以可以把所有的 ϕ 都当作高斯分布，

是高斯分布有一个非常重要的性质：中心极限定理

中心极限定理：

在适当的条件下，大量相互独立的随机变量的均值经适当标准化后，依分布收敛于高斯分布，

即无论 xi 的自身分布是什么，随着 n 变大，这些样本平均值经过标准化处理—后的分布，都会逐步接近高斯分布。

有了这个定理，当我们遇到一个问题的时候，如果对某一变量做定量分析时其确定的分布情况未知，只要掌握了大量的观测样本，都可以按照服从高斯分布来处理这些样本。

例如我们要做一个聚类任务，无论原本每一簇自身的分布如何，我们都可以用高斯模型来近似表示它们。这个混合模型，就可以是一个高斯混合模型（GMM）

GMM 的学习目标为：

x(i) 是已经观测到的样本观测数据，是已知的，zik 是未知的。

因为有没被观测到的隐变量存在，这样的对数似然函数需要用 EM 算法来优化。

用 EM 算法学习 GMM 的参数分为4步：

各参数取初始值开始迭代；

E 步；

M 步；

重复 E 步和 M 步，直到收敛

E 步的任务是求 Q

M 步的任务是求 arg max Q

在 E 步，求出了 zik，代入 Q，得到 Q 只和参数 α，μ，σ 有关，

在 M 步，通过分别对各个自变量求偏导，再令导数为0，来求取 α，μ，σ 的极值点，

然后再带回到函数中去求整体 arg max Q 的值。