首页 > 编程知识 正文

计算科学与大数据技术,python计算大数据乘法

时间:2023-05-04 01:57:51 阅读:234229 作者:2132

本篇教程探讨了大数据技术 python计算IV值及使用,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

<

在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,python计算IV值的代码如下:

def CalcIV(Xvar, Yvar):

N_0  = np.sum(Yvar==0)

N_1 = np.sum(Yvar==1)

N_0_group = np.zeros(np.unique(Xvar).shape)

N_1_group = np.zeros(np.unique(Xvar).shape)

for i in range(len(np.unique(Xvar))):

N_0_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 0)].count()

N_1_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 1)].count()

iv = np.sum((N_0_group/N_0 - N_1_group/N_1) * np.log((N_0_group/N_0)/(N_1_group/N_1)))

return  iv

def caliv_batch(df, Kvar, Yvar):

df_Xvar = df.drop([Kvar, Yvar], axis=1)

ivlist = []

for col in df_Xvar.columns:

iv = CalcIV(df[col], df[Yvar])

ivlist.append(iv)

names = list(df_Xvar.columns)

iv_df = pd.DataFrame({‘Var‘: names, ‘Iv‘: ivlist}, columns=[‘Var‘, ‘Iv‘])

return iv_df

其中,df是分箱后的数据集,Kvar是主键,Yvar是y变量(0是好,1是坏)。

本文由职坐标整理发布,学习更多的大数据技术相关知识,请关注职坐标大技术云计算大技术技术频道!

历史中提交的图片或压缩文件

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。