首页 > 编程知识 正文

独立同分布的性质,独立分布和二项分布

时间:2023-05-04 02:15:54 阅读:155037 作者:1156

首先来看看百度百科对独立同分布的解释:

独立同分布independentandidenticallydistributed (I.I.d.) )。

概率统计理论是在随机过程中,任何时间点的随机变量,且只要这些随机变量服从相同的分布且相互独立,这些随机变量是独立的同态分布。 随机变量X1和X2独立意味着X1的取值不影响X2的取值,X2的取值也不影响X1的取值,且随机变量X1和X2遵循相同的分布。 也就是说,X1和X2具有相同的分布形状和相同的分布参数,从随机变量开始具有相同的分布规律,对连续随机变量具有相同的概率密度函数,具有相同的分布函数,具有相同的期望、相同的方差。 如果实验条件一定,一系列掷硬币正反结果是独立同分布的。

关于独立同分布,西瓜的书做了如下说明。

输入空间中所有样本隐含地遵循未知分布,训练数据的所有样本独立地从此分布中采样。

那么,为什么必须做这个假设呢?

据了解,机器学习是一种利用当前获取的信息(或数据)来预测、模拟未来数据的训练学习。 因此,都是建立在历史数据之上,利用模型对未来数据进行拟合。 因此,我们使用的历史数据必须具有整体的代表性。

为什么需要整体的代表性? 我们必须从现有数据(经验)中总结规律,对未知数据做出决策。 在获取训练数据不具有整体代表性是特例的情况下,其规律有时不能很好地归纳,有时则存在错误。 因为,这些规律是通过例子推算出来的,没有普及的效果。

通过独立同分布假设,可以大大减少训练样本中一例的情况。

机器学习并不一定要求数据的同分布。 许多问题要求从同一分布对样本(数据)进行采样,是因为希望将在训练数据集上训练的模型合理应用于测试集中,使用同分布假设可以很好地解释这种方法。

由于目前机器学习方向的内容已经很广泛,许多机器学习问题不要求样本同分布。 例如,在机器学习的发展方向上发表的一些在线算法,对数据分布要求不高,关注的性质也不是通用性的。

参考

链接: https://www.zhi Hu.com/question/41222495/answer/103066614

链接: https://www.zhi Hu.com/question/41222495/answer/103004055

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。