首页 > 编程知识 正文

清理大数据是真的吗,大数据平台数据清洗

时间:2023-05-04 10:51:12 阅读:53262 作者:693

十二月

23

2019

大数据清洗的方法和流程

数据清洗的简要概述是提取、转换和加载企业经营过程中产生的复杂数据三个部分。 具体细分过程分为分析数据、缺失值处理、异常值处理、去除处理、噪声数据处理几个部分。 以下对数据清洗的方法、数据清洗的基本流程这两个部分进行说明。

数据清洗方法

1、缺失值处理

数据清洗中缺失值的处理包括删除、平均值填补、热卡填补、回归填补、多重填补、中小学最近邻法、有序最近邻法、贝叶斯等。 以下介绍使用频率高的3种缺损值填补方法。

删除:如果缺失部分在整个数据样本中相对较低,直接删除即可;

平均值填补:根据数据值属性的关联度,将影响最大的组的数据分割为几个部分,计算每个部分的平均值,添加到缺失数据即可;

热填补法:如果缺少的值包含变量,则在数据库中查找并填补一组相似度最高的数据

2、异常值处理

数据清洗异常值的处理有三个原则:箱式图形分析、模型检测、距离、密度、聚类、统计分析等,以下举例介绍常用的三种异常值处理方法。

统计分析:获取数据后,对其进行简要说明性统计。 选择最大最小阈值以确定是否符合常识

模型检查:根据正常状态,建立数据模型。 将数据表示和模型不一致的数据定义为异常值;

3原则:如果数据服从正态分布,则在3原则下,异常值是一组测量中与平均值的偏差超过3倍标准偏差的值。 当数据服从正态分布时,出现平均值3以外的值的概率为p(|x-u|3 )=0.003,是个别概率极低的事件。 如果数据不遵循正态分布,也可以用距离平均值多少倍的标准偏差来描述

3、噪声处理

在数据清洗中,噪声处理的方法是分箱法和回归法; 以下,对处置方法进行简单介绍。

分框法:通过考察比较数据的周边值使数据值有序,这些数值分布在几个框中,通过分框考察比较周边邻近值。 以方框为单位,用平均值或中值替换素质,将方框中的最大值最小值视为边界,用最近的边界值替换方框中的每个值。

回归法:线性回归适合两个属性的最佳直线,以便一个属性可以预测另一个属性。 多元线性回归是线性回归的扩展,涉及将多个属性数据拟合到一个多维面;

数据清洗的基本流程

1、数据预处理

将数据导入处理工具,自动“显示”通过工具收集的元数据信息,然后手动查看数据,汇总工具处理中可能存在的遗漏和偏差,准备下一步数据处理;

2、数据分析处理

缺失值清洗:去噪、缺失值处理,通过其他途径重新获取缺失的重要数据进行数据填充和补充

)2)格式内容的清洗)格式的清洗,必须按日期/数值/半角标识进行小,数据清洗处理,直至有无与数值内容中不应该出现的文字或内容不同的文字。

)3)清除逻辑错误清洗:重复数据、异常数据、属性相关性冲突数据和非需求数据;

3、核对

最后进行数据清洗结论,如格式效应和数据相关性效应;

数据清洗的应用场景

随着企业从传统的人力巡查转向半自动的数据化,越来越多的业务领域参与到数据清洗的业务中。 比如制造业、农业将设备连接到物联网云平台后,每天生成大量数据,通过数据清洗提高生产效率,降低运输成本。

总结:大数据清洗的方法数据清洗的基本流程介绍就此告一段落。 有关详细信息,请单击“行业信息”。 如果您有业务需求,请单击左侧开始实时对话,并咨询适合您的能源管理解决方案。

相关阅读建议:

|中小企业工厂管理软件推荐|物联网应用领域|通用配置软件特点|

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。