本文目录介绍了如何定义缺失值处理缺失值可视化缺失值
内容介绍
在日常的数据分析工作中,数据中的缺失值是最头疼的内容。
在日常数据收集过程中,由于各种原因,在数据收集过程中往往会丢失一些数据,以空格、Nan和占位符表示。 但是,在APP应用的机器学习和深度学习模式中,这些内容与算法不兼容。 因为input中的参数必须是具有具体意义的元素。
由于各种原因,现实世界中的许多数据集都包含缺少的数据,这些数据经常编码为空间、nans或其他占位符。 但是,这样的数据集与scikit - learn算法不兼容。 大多数学习算法都默认数组中的元素为数字,因此元素偶中的元素具有自己的代表性意义。
本文介绍了日常工作中对数据丢失值的可视化和处理方法。
数据集使用公开的竞赛案例数据举例,下载地址为Machine Learning Repository 机器学习库