首页 > 编程知识 正文

特征选择iv值

时间:2023-05-04 11:27:49 阅读:234218 作者:2088

一.定义

IV(Infromation Value),信息价值,用来表示特征对目标预测的贡献程度,即特征的预测能力,一般来说,IV值越高,该特征的预测能力越强,信息贡献程度越高。

二.限定条件

IV值的计算有一定的限定条件:

(1)面向的任务必须是有监督的任务;

(2)预测目标必须是二分类的。

三.IV取值区间及常用评价基准

IV值的取值区间为:[0,正无穷)。

IV值取值含义:

(1)IV<0.02:无用特征

(2)0.02<IV<0.1:弱价值特征

(3)0.1<IV<0.3:中价值特征

(4)0.3<IV<0.5:强价值特征

(5)IV>0.5:价值过高,不真实

四.计算方式

由于IV值的计算是以WOE值为基础的,所以计算IV值之前,首先得计算WOE值。

(1)WOE WOE定义:Weight Of Evidence,证据权重,表示描述一个可预测的变量与二分类变量之间的关系。使用:在使用WOE之前,需要对变量进行分箱处理,分箱的操作包括:对于连续型变量可以采用:等距分箱,等频分箱,自定义间隔;对于离散型变量,如分箱太多,可以进行分箱合并。等距分箱:即按照区间距离来划分,不能保证每个分箱中含有相同的变量数;等频分箱:根据频率划分,可以保证每个分箱中含有相同的变量数。计算公式:

公式描述:可以看出WOE是基于每个分箱中的变量进行计算的,对于每个分箱,分别计算清脆的电脑_good(好人数),清脆的电脑_bad(坏人数),分别除以全量数据中的好人总数(total_goods)和坏人总数(total_bads),得到每个分箱内的边际好人占比(margin_good_rate)和边际坏人占比(margin_bad_rate)。故WOE计算方式也可表示为:

公式理解:WOE表示的是当前分箱当中,“坏人数量占所有样本中坏人数量的比例”,与“好人数量占所有样本中坏好人数量的比例”。如果差异越大,那么该分箱响应坏人的可能性就越大;当差异越小时,该分箱响应的坏人的可能性就越小。(2)IV 计算方式:

公式理解:IV值的计算是对WOE值的加权和,是用来衡量WOE表示的变量对二分类变量之间关系的强度。五.一些注意的点 贝叶斯角度理解WOE:引入后验经验的变量后,WOE值是修正先验odds与后验odds之间距离的增量,可理解为对先验的一个增益,这也是WOE称作“证据权重”的一个原因。所以IV值对OWE的加权也是更加计算出来了该特征下对目标变量的一个增益情况。WOE与Odds Ratio(OR):OR的值与逻辑回归具有关联性,即当逻辑回归中的变量变化值为1时,odds的变化是,a是当前特征变量下的权重。WOE的变化趋势是与odds的变化趋势是一致的,WOE单调递增时,odds也是单调递增的;WOE曲线越抖,好人与坏人的区分越明显。

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。