经验累积分布函数,标准正态分布φ(x)性质

《数据之魅：基于开源工具的数据分析》第二章单一变量：形状和分布，本章论述由单一变量构成的简单数据集(或一次只考虑一个变量)。本节说明累积分布函数。

AD: WOT2014课程推荐：实战MSA :用开源软件构建微服务系统

累积分布函数

直方图和核密度估计的主要优点是直观吸引力，它能告诉我们找到某个特定数据点的可能性有多大。例如，从图2-2可以看出，出现250毫秒左右的值的可能性非常高，超过2000毫秒的值非常罕见。

但是具体有多罕见？这个问题光靠图2-2的直方图很难找到答案。另外，除了尾部所占的比例之外，你可能还想知道哪些部分的请求是在150~350毫秒这样典型的时间段进行的。当然，大多数活动都在这个时间段举行，但如果你想知道具体有多少活动，你需要把该区域内所有矩形框的活动相加。

累积分布函数(Cumulative Distribution Function，CDF )具有这样的功能。点x的CDF会告诉你哪个部分的事件发生在x的“左”。换句话说，CDF是满足xix的所有xi。

图2-7所示的数据集与图2-2相同，但这里的数据不是用直方图而是用KDE (带宽h=30 )表示。此外，此图还包含相应的CDF。 (KDE和CDF都标准化为1。）

你可以直接从CDF上读有趣的东西。例如，可以看到位于此分布末尾的t=1500的CDF仍然小于0.85；这意味着只有15%的请求具有超过1500毫秒的响应时间。相反，约三分之一的请求在典型区域在150~500毫秒内完成。你是怎么知道那个的？ t=150的CDF约为0.05，t=500的CDF约为0.40。这意味着大约40%的请求在500毫秒以下完成，其中只有5%的请求在150毫秒以下完成。因此，大约35%的请求响应时间为150~500毫秒。）

图2-7图2-2所示的服务器响应时间内核密度估计和累积分布函数需要考虑这些新发现。因为它展示了直方图(或KDE )是如何引起误解的。但是，直觉上很有魅力。仅从直方图和KDE判断，绝对有理由假设几乎所有事件都发生在t=300附近的大峰值，t1500的尾部所起的作用非常小。然而，CDE清楚地表明事实并非如此。问题是我们的眼睛善于判断距离而不是面积，所以被误解为直方图峰值附近的大值，与曲线下的总面积相比，dddp下的面积并不大。）

在基本的图形分析中，CDF可能是最不知名、最不受欢迎的工具。与直方图和KDE相比，它没有多少直观吸引力，但可以定量描述数据。这是我们经常需要的，但很难从直方图中得到的。

从这些计算过程中可以得到累积分布函数的重要特性。

由于位置x的CDF值为x左侧数据点的一部分，CDF通常随着x的增加而单调增加。

CDF虽然不像直方图(或KDE )那样抖动很大，但本质上以不太明显的形式包含了相同的信息。

CDF不需要矩形分组，因此不会丢失信息。因此，它表示了比直方图更可靠的数据。

随着x变为负，所有CDF都变为0。由于CDF通常是归一化的，所以随着x变为正无限，它变为1。

CDF对于指定的数据集是唯一的。

如果数学基础扎实，你可能知道CDF是直方图的不定积分，直方图是CDF的微分：

累积分布函数有多种用途。第一个最重要的用途是回答了本节前面提出的问题。有多少比例的积分在某两个值之间呢？答案从图中很容易看出。第二个用途是CDF有助于理解分布不平衡。换句话说，尾部占了整体的多少比重。

如果想比较两个分布，累积分布函数也很有用。用直方图比较两条钟状曲线是非常困难的。比较相应的CDF，通常容易得出结论。

在本节结束之前，我要提到最后一点。在文献中，可以找到这句话。分位图。分位数图是CDF图，在该图中，x轴和y轴互换。图2-8重用服务器响应时间数据集的示例。通过这样绘制，“哪个响应时间与占10%的响应时间相对应？ ”这样可以很容易地回答。请参阅。但是，此图中包含的信息与CDF图中包含的信息完全相同。