数据挖掘与大数据分析,数据挖掘与数据分析师

一.脏数据类型：

缺失数据：可以通过填均值、按比例填随机数等方法处理。如果有备份数据，直接读取备份数据就可以完成重复数据。如果去除重复部分，就可以生成错误数据。 1 .通过限定数据区间，排除明显异常的数据

2 .在系统内部逻辑结构中查找不符合格式的数据

3 .通过建立匹配规则，匹配不统一的数据

不可用的数据：正确，但不能直接使用。可以用文本函数分割(例如日期数据) 2、脏数据的通常的处理方法结构化中，需要削减数据，使其成为可测定且可分析的结构

将用户评论中的好、坏、中等量化后，变为好： 2，中： 1，差： 0

归一化是通过对数据进行归一化，筛选脏数据中的合格部分。例如，如果将日期数据2020-01-01归一化，则可以筛选年、月、日期

可能关联的数据之间应该是关联的，可以通过相互关联的数据来定位脏数据

例如，如果销售数据中出现了非常大的交易额，想确认它是否正常

交易额必须与客户姓名、购买日期、订单号、单价等相关联。

查找该异常的脏数据，可以充分明确地找到相关信息是否正常。

三.数据处理应遵循的原则限制输入

在用户输入数据时，请仔细设计表单，使其符合一定的规范格式，例如限制必填项、提供下拉列表、格式错误警告等

规格输出

像地名北京一样，要想在所有报告中用同样的指标来表示，一个表必须是北京，另一个表必须是北京