1 .缺失值处理
1.1显示缺失值
直接在Python中调用info ()方法将返回每列的缺失。
Python中的缺失值一般用NaN表示,根据使用info ()方法的结果,地区、销售额、销售额这3列为12个非null值,其他为13个非null值,这3列分别表示有1个缺失值
1.2删除缺少的值
Python使用的是dropna ) )方法。 dropna ) )方法默认删除包含缺少值的行。 也就是说,如果某行有缺失值,就删除该行。
要删除空行,只需将参数how='all '传递给dropna (方法)。 这样,全部只删除null值的行。
1.3缺损值填充
用fillna )方法填充数据表中所有缺少的值,输入要填充的值即可。
在Python中,也可以通过在fillna ) )方法的括号中指定列名,按列进行输入。
1.4重复值处理
Python使用drop_duplicates ()方法。 默认情况下,此方法对所有值执行重复值判断,默认情况下保留第一行)中的值。
以上是对所有字段的重复值判断,但您只需通过提供由drop_duplicates )方法判断的列名,就可以判断是否删除了一列或几列的重复值。
也可以自定义删除重复项时要保留的项目。 也可以设置默认保留第一个项目、保留最后一个项目或全部不保留。 传递并设定参数keep。 参数keep的默认值为first。 也就是说,留下第一个东西。 也可以用last留下最后的东西; 也可以删除False或所有重复值。