首页 > 编程知识 正文

python中去除不合理的数据,python处理异常值的代码

时间:2023-05-04 15:48:19 阅读:195432 作者:1421

MBA智库对3σ原则的描述:

σ代表标准差,μ代表均值

样本数据服从正态分布的情况下

数值分布在(μ-σ,μ+σ)中的概率为0.6826

数值分布在(μ-2σ,μ+2σ)中的概率为0.9544

数值分布在(μ-3σ,μ+3σ)中的概率为0.9974

可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。

在python中实现

#用numpy随机生成100个服从正态分布的随机数num=np.random.randn(100)#随机插入两个异常值进去,此时num.shape[0]==102np.apend(num,[10,20])#设定法则的左右边界left=num.mean()-3*num.std()right=num.mean()+3*num.std()#获取在范围内的数据new_num=num[(left<num)&(num<right)]new_num.shape#结果为100,已经剔除了刚开始插入的两个异常值

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。