独立同分布的性质,独立分布和二项分布

首先来看看百度百科对独立同分布的解释：

独立同分布independentandidenticallydistributed (I.I.d.) )。

概率统计理论是在随机过程中，任何时间点的随机变量，且只要这些随机变量服从相同的分布且相互独立，这些随机变量是独立的同态分布。随机变量X1和X2独立意味着X1的取值不影响X2的取值，X2的取值也不影响X1的取值，且随机变量X1和X2遵循相同的分布。也就是说，X1和X2具有相同的分布形状和相同的分布参数，从随机变量开始具有相同的分布规律，对连续随机变量具有相同的概率密度函数，具有相同的分布函数，具有相同的期望、相同的方差。如果实验条件一定，一系列掷硬币正反结果是独立同分布的。

关于独立同分布，西瓜的书做了如下说明。

输入空间中所有样本隐含地遵循未知分布，训练数据的所有样本独立地从此分布中采样。

那么，为什么必须做这个假设呢？

据了解，机器学习是一种利用当前获取的信息(或数据)来预测、模拟未来数据的训练学习。因此，都是建立在历史数据之上，利用模型对未来数据进行拟合。因此，我们使用的历史数据必须具有整体的代表性。

为什么需要整体的代表性？我们必须从现有数据(经验)中总结规律，对未知数据做出决策。在获取训练数据不具有整体代表性是特例的情况下，其规律有时不能很好地归纳，有时则存在错误。因为，这些规律是通过例子推算出来的，没有普及的效果。

通过独立同分布假设，可以大大减少训练样本中一例的情况。

机器学习并不一定要求数据的同分布。许多问题要求从同一分布对样本(数据)进行采样，是因为希望将在训练数据集上训练的模型合理应用于测试集中，使用同分布假设可以很好地解释这种方法。

由于目前机器学习方向的内容已经很广泛，许多机器学习问题不要求样本同分布。例如，在机器学习的发展方向上发表的一些在线算法，对数据分布要求不高，关注的性质也不是通用性的。

参考

链接： https://www.zhi Hu.com/question/41222495/answer/103066614

链接： https://www.zhi Hu.com/question/41222495/answer/103004055