一.脏数据类型:
缺失数据:可以通过填均值、按比例填随机数等方法处理。 如果有备份数据,直接读取备份数据就可以完成重复数据。 如果去除重复部分,就可以生成错误数据。 1 .通过限定数据区间,排除明显异常的数据
2 .在系统内部逻辑结构中查找不符合格式的数据
3 .通过建立匹配规则,匹配不统一的数据
不可用的数据:正确,但不能直接使用。 可以用文本函数分割(例如日期数据) 2、脏数据的通常的处理方法结构化中,需要削减数据,使其成为可测定且可分析的结构
将用户评论中的好、坏、中等量化后,变为好: 2,中: 1,差: 0
归一化是通过对数据进行归一化,筛选脏数据中的合格部分。 例如,如果将日期数据2020-01-01归一化,则可以筛选年、月、日期
可能关联的数据之间应该是关联的,可以通过相互关联的数据来定位脏数据
例如,如果销售数据中出现了非常大的交易额,想确认它是否正常
交易额必须与客户姓名、购买日期、订单号、单价等相关联。
查找该异常的脏数据,可以充分明确地找到相关信息是否正常。
三.数据处理应遵循的原则限制输入
在用户输入数据时,请仔细设计表单,使其符合一定的规范格式,例如限制必填项、提供下拉列表、格式错误警告等
规格输出
像地名北京一样,要想在所有报告中用同样的指标来表示,一个表必须是北京,另一个表必须是北京
要将各种数据备份到数据库中以确定原始数据的格式是什么样的,请根据备份数据进行更改
备份数据的输出可以通过表格、图表进行查看。