很多数学老师教小伙伴。学习机器学习时,他们会对经验分布感到困惑。让xqdds为大家普及体验分发。如果你能理解的话,给我们一个赞美吧!
经验分布函数是与统计中样本的经验度量相关的分布函数。累积分布函数是一个阶跃函数,在所有n个数据点上跳跃1/n。对于测量变量的某个值,该值的分布函数值表示所有观测样本中小于或等于该值的样本比例。
以上是经验分布函数的定义。你瞎了吗?反正我糊涂了,所以你可以往下看:
没有比较理解,就不够深刻,所以首先举一个非经验分布的例子:
现在你有一个六面骰子。这六个面分别是1、2、3、4、5和6。那么,如果掷骰子,数字3朝上的概率是多少?
答案显然是六分之一?那你是怎么得到这六分之一的,因为我们已经知道这六张脸向上的概率是一样的,所以每张脸向上的概率是六分之一。
如果我们不知道骰子每一面朝上的概率都是一样的呢?这就要用经验分配了。
我们掷骰子1000多次,发现每张脸的概率分布如下:
掷骰子概率直方图
从上图可以看出,投掷1000次后,每张脸朝上的概率接近六分之一。这是经验分布,是观测数据的分布。
如果用数学公式表示,它是:
经验分布表达式
如何理解?事实上,这个公式表达了所有样本中测量值等于或小于x的概率。比如我们掷骰子十次,数值从小到大的顺序是,1,1,2,3,3,4,4,5,6,6,那么F(2)=3/10=0.3。