数据预处理1无量纲化especially for Scaler,无量纲化数据挖掘

模块preprocessing：几乎包含数据预处理的所有内容模块Impute：填补缺失值专用模块feature_selection：包含特征选择的各种方法的实践模块decomposition：包含降维算法

preprocessing.MinMaxScaler [0,1]”归一化“
preprocessing.StandardScaler 处理后标准正态分布 “标准化”

会选择StandardScaler来进行特征缩放，因为MinMaxScaler对异常值非常敏感。MinMaxScaler在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛，like Quantifying pixel intensity in digital image processing。可以先使用MinMaxScaler来看看效果。 import numpy as npimport pandas as pdimport matplotlib.pyplot as plt from sklearn.datasets import fetch_california_housing as fchhousevalue = fch()#Use California housing price data as an example for data just for standardization. X = pd.DataFrame(housevalue.data)y = housevalue.targetX.head(3)

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()#from preprocessing import StandardScaler and Instantiate it.X_std = scaler.fit_transform(X)X_std = pd.DataFrame(X_std)X_std.head(3)