离散偏差

。

离散偏差反映了给定一系列数据样本的方差程度。在金融学领域极其重要。例如，要评估投资组合的盈利风险，最好的方法是观察投资组合过去的收益率。

假定收益率始终以固定值为主，为7%，则对未来的预期收益率有充分的信心，认为投资组合中收益风险较小。如果收益率没有规律，正负之间变化剧烈，非常分散，其收益风险会让评估者担忧。

为了简化接下来的演示，让我们先使用Python生成一组随机样本：

样本集

极差与平均绝对偏差

全距离(Range )也称为极差，定义为数据样本中的最大值和最小值之差，对数据样本中的异常值非常敏感。以上生成的样本集x为例，使用Python数据包Numpy中的peak to peak方法) ptp )如下实现。

平均偏差(MAD )是距“观测值”的“平均值”的平均距离。公式如下。

平均偏差公式

dddttt和标准差

dddttt的定义是距离平均偏差平方和的平均水平，即各采样点距离采样平均的距离平方和。在公式中表现如下。

dddttt公式

标准偏差为dddttt的平方根。同样用Numpy的DDDTTT(var )和标准偏差功能) std )进行计算。

也许有些学生看到这里会怀疑。 dddttt和标准偏差都是测量样本集的离散度，他们有什么区别呢？差别主要有两个：

第一个是量纲问题，因为dddttt是平方计算，所以得到的结果与量纲和数据集不一致。例如，该组学生身高数据的标准偏差偏差值为10cm，用dddttt描述的话可以说偏差值为100c。因此，dddttt容易造成理解上的困难，没有标准偏差；二是dddttt的微分可能性。由于dddttt是基于平方的运算，因此在数学上具有微分可能性，在特定的优化算法中，与标准偏差和平均绝对偏差相比，使用ddttt更为合适。

通过xsdmy不等式可以进一步了解标准偏差。这表明，在任意数据集中，其平均m个标准偏差范围内的比例始终至少为1-1/。 (其中，m是大于1的任何正数。

例如，对于m=2，m=3和m=5会得到如下结果。所有数据中，至少3/4的数据平均在两个标准偏差范围内。至少8/9的数据平均在3个标准偏差范围内至少24/25的数据平均在5个标准偏差范围内。这里以m=1.25为例：

虽然xsdmy不等式的边界似乎相当宽，但它很有用，因为它适用于所有数据集和分布。

半dddttt与半标准差

DDDTTT和标准偏差表示数据偏离“中心”的程度，但无法区分是上偏差还是下偏差。在资产收益率等特殊情况下，通常对偏差感兴趣。通过半dddttt和半标准差，测量低于平均值的观测值的偏差程度。其中，半dddttt的公式如下：

半标准偏差同样是半dddttt的二等分根。因为Python没有内置函数，所以用自定义函数实现。

以上是本期的全部。本篇为《数据夕拾》定量化学堂系列专门讲述。喜欢的人请关注~

偏差方差权衡(标准误和标准差的公式)

离散偏差

极差与平均绝对偏差

dddttt和标准差

半dddttt与半标准差