数据挖掘基础,数据挖掘项目的生命周期

数据挖掘项目(一) http://www.Sina.com/http://www.Sina.com/http://www.Sina.com /

导入数据importpandasaspdimportnumpyasnpdf=PD.read _ CSV (' data.CSV '，encoding='gbk ' ) df.head )和无关的特征DDD axis=1) data1.info )缺省值处理(以下称为、参考88080917代码) print ) df.isnull ).sum ) ) count=0forIinrange ) 85 ) 3360 ifdf.iinfi 2503360 count=count1print (count ) 除了，填充，data1=in place=true (data _ col=[ ' loans _ latest _ time '，' latest_query_time '， ' reg_preference_for_traace] axis=1) data3=data3.fillna(data3.mode ) ) reg _ data2(' reg _ preference _ for _ trad ' ) data2. drata 2 . labelbinarizer (.fit _ transform (reg _ data ) cityyrm columns=[ '一线城市'、'三线城市'、'二线城市'、'其他城市'、'国外' ]数据inplace=True ) data2. reset inplace=True (citydataframe.reset _ index (drop=true，in place=true ) dataset=PD .

5 .将数据集分成训练集和测试集

train，test=train _ test _ split (数据集，test_size=0.3，random_state=2018 ) ) )。