离散偏差
。离散偏差反映了给定一系列数据样本的方差程度。 在金融学领域极其重要。 例如,要评估投资组合的盈利风险,最好的方法是观察投资组合过去的收益率。
假定收益率始终以固定值为主,为7%,则对未来的预期收益率有充分的信心,认为投资组合中收益风险较小。 如果收益率没有规律,正负之间变化剧烈,非常分散,其收益风险会让评估者担忧。
为了简化接下来的演示,让我们先使用Python生成一组随机样本:
样本集
极差与平均绝对偏差
全距离(Range )也称为极差,定义为数据样本中的最大值和最小值之差,对数据样本中的异常值非常敏感。 以上生成的样本集x为例,使用Python数据包Numpy中的peak to peak方法) ptp )如下实现。
平均偏差(MAD )是距“观测值”的“平均值”的平均距离。 公式如下。
平均偏差公式
dddttt和标准差
dddttt的定义是距离平均偏差平方和的平均水平,即各采样点距离采样平均的距离平方和。 在公式中表现如下。
dddttt公式
标准偏差为dddttt的平方根。 同样用Numpy的DDDTTT(var )和标准偏差功能) std )进行计算。
也许有些学生看到这里会怀疑。 dddttt和标准偏差都是测量样本集的离散度,他们有什么区别呢? 差别主要有两个:
第一个是量纲问题,因为dddttt是平方计算,所以得到的结果与量纲和数据集不一致。 例如,该组学生身高数据的标准偏差偏差值为10cm,用dddttt描述的话可以说偏差值为100c。 因此,dddttt容易造成理解上的困难,没有标准偏差; 二是dddttt的微分可能性。 由于dddttt是基于平方的运算,因此在数学上具有微分可能性,在特定的优化算法中,与标准偏差和平均绝对偏差相比,使用ddttt更为合适。
通过xsdmy不等式可以进一步了解标准偏差。 这表明,在任意数据集中,其平均m个标准偏差范围内的比例始终至少为1-1/。 (其中,m是大于1的任何正数。
例如,对于m=2,m=3和m=5会得到如下结果。 所有数据中,至少3/4的数据平均在两个标准偏差范围内。 至少8/9的数据平均在3个标准偏差范围内至少24/25的数据平均在5个标准偏差范围内。 这里以m=1.25为例:
虽然xsdmy不等式的边界似乎相当宽,但它很有用,因为它适用于所有数据集和分布。
半dddttt与半标准差
DDDTTT和标准偏差表示数据偏离“中心”的程度,但无法区分是上偏差还是下偏差。 在资产收益率等特殊情况下,通常对偏差感兴趣。 通过半dddttt和半标准差,测量低于平均值的观测值的偏差程度。 其中,半dddttt的公式如下:
半标准偏差同样是半dddttt的二等分根。 因为Python没有内置函数,所以用自定义函数实现。
以上是本期的全部。 本篇为《数据夕拾》定量化学堂系列专门讲述。 喜欢的人请关注~