导入和处理人力资源分析数据1 .导入数据处理模块进行数据处理(消除重复值和缺少值) ) ) ) ) )。
importpandasaspdimportnumpyasnpdf=PD.read _ CSV (r ' c : (用户(戴尔)桌面(oc-ml )机器学习(人力资源) ag ) )。
#确认有无缺失值
df.any(#any ) )函数确定给定的可重复参数iterable是否全部为False,如果为False,则为False; 如果其中之一为True,则返回True。 元素除0、空、None、False以外均为True。
#具体确认有无缺失值
df.isnull () )
#删除缺少的值
df=df.dropna () df
#删除重复值
df=df.drop_duplicates () df
#将索引名称更改为中文,以便于分析
df=df.rename (columns={ ' enrollee _ id ' : '候选人的唯一id ',' city': '城市代码',' city _ development _ int ) ' enrolled_university': '已注册大学课程类型',' education_level': '候选人教育水平' experience': '多年候选人总经验
2 .根据需求数据选择并处理数据异常
#删除不需要的列
df=df.drop([ '申请人性别','当前员工人数','当前雇主类型','上岗和当前工作年限' ],axis=1) df
#提取一列,为下一个操作做准备
df_1=df[[ '多年候选人总经验' ]]df_1
#去除数值中大于编号的
x='多年候选人总经验' df _1. apply map (lambdax : x.replace (',' ) )
#恢复原始数据
df[[ '多年候选人总经验' ] ]=df _1. apply map (lambdax : x.replace (','') df.head ) )
#写入保存
df.to _ CSV (r ' c :usersDelldesktopoc-ml 机器学习人力资源new.csv ) )。