首页 > 编程知识 正文

数据挖掘基础,数据挖掘项目的生命周期

时间:2023-05-04 19:41:17 阅读:54550 作者:177

数据挖掘项目(一) http://www.Sina.com/http://www.Sina.com/http://www.Sina.com /

导入数据importpandasaspdimportnumpyasnpdf=PD.read _ CSV (' data.CSV ',encoding='gbk ' ) df.head )和无关的特征DDD axis=1) data1.info )缺省值处理(以下称为、 参考88080917代码) print ) df.isnull ).sum ) ) count=0forIinrange ) 85 ) 3360 ifdf.iinfi 2503360 count=count1print (count ) 除了,填充,data1=in place=true (data _ col=[ ' loans _ latest _ time ',' latest_query_time ', ' reg_preference_for_traace] axis=1) data3=data3.fillna(data3.mode ) ) reg _ data2(' reg _ preference _ for _ trad ' ) data2. drata 2 . labelbinarizer (.fit _ transform (reg _ data ) cityyrm columns=[ '一线城市'、'三线城市'、'二线城市'、'其他城市'、'国外' ]数据inplace=True ) data2. reset inplace=True (citydataframe.reset _ index (drop=true,in place=true ) dataset=PD .

5 .将数据集分成训练集和测试集

train,test=train _ test _ split (数据集,test_size=0.3,random_state=2018 ) ) )。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。