首页 > 编程知识 正文

数据挖掘与大数据分析,数据挖掘与数据分析师

时间:2023-05-03 23:01:38 阅读:167267 作者:1958

一.脏数据类型:

缺失数据:可以通过填均值、按比例填随机数等方法处理。 如果有备份数据,直接读取备份数据就可以完成重复数据。 如果去除重复部分,就可以生成错误数据。 1 .通过限定数据区间,排除明显异常的数据

2 .在系统内部逻辑结构中查找不符合格式的数据

3 .通过建立匹配规则,匹配不统一的数据

不可用的数据:正确,但不能直接使用。 可以用文本函数分割(例如日期数据) 2、脏数据的通常的处理方法结构化中,需要削减数据,使其成为可测定且可分析的结构

将用户评论中的好、坏、中等量化后,变为好: 2,中: 1,差: 0

归一化是通过对数据进行归一化,筛选脏数据中的合格部分。 例如,如果将日期数据2020-01-01归一化,则可以筛选年、月、日期

可能关联的数据之间应该是关联的,可以通过相互关联的数据来定位脏数据

例如,如果销售数据中出现了非常大的交易额,想确认它是否正常

交易额必须与客户姓名、购买日期、订单号、单价等相关联。

查找该异常的脏数据,可以充分明确地找到相关信息是否正常。

三.数据处理应遵循的原则限制输入

在用户输入数据时,请仔细设计表单,使其符合一定的规范格式,例如限制必填项、提供下拉列表、格式错误警告等

规格输出

像地名北京一样,要想在所有报告中用同样的指标来表示,一个表必须是北京,另一个表必须是北京

要将各种数据备份到数据库中以确定原始数据的格式是什么样的,请根据备份数据进行更改

备份数据的输出可以通过表格、图表进行查看。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。