1.数据清洗
第一步:对异常值进行处理
首先,查看原数据库是否一样;
然后,查询是否信息录入时出现错误;
最后,看看是不是顾客随意填写的信息
第二步:对离群值进行处理
首先,查询是否与原数据库一致;
然后,查询是否信息录入错误;
最后,判断是否符合顾客实际情况
#如果经过以上两步处理,确定数据不存在问题,就要进行下面的操作
第三步:对异常的数据用平均值、中位值进行替代;对离群值进行具体的判断,根据他对最终决策产生的影响考虑是否对他进行删除处理。
2.数据整理
#使用SQL中的inner join……on语句进行表的拼接select s.ID,p.sex,p.agefrom sales s inner join person p on sales_ID=person_ID;#得到的是两个表中都有的信息进行连接,如下图所示 #使用SQL中的left/right join……on语句进行表的拼接select s.ID,p.sex,p.agefrom sales s left/right join person p on sales_ID=person_ID;#得到的是某个表中都有的信息进行连接,如下图所示