首页 > 编程知识 正文

iv值筛选,iv值计算公式

时间:2023-05-05 12:28:09 阅读:234215 作者:3983

0 引言

在金融场景中,IV值是一个经常用来衡量特征强弱的指标。IV值如果比较大,说明该特征的区分度比较强,如果IV值比较小则说明特征的区分度比较弱。正因为有该性质,所以IV值经常用来进行特征选择。

1.WOE

在介绍IV值之前,需要先介绍一下WOE
WOE, Weight Of Evidence,直译过来就是证据权重。WOE是对原始变量的一种编码方式。计算的具体步骤主要包括两步
1.对变量分组,一般的方式为分箱或者离散化处理。比如常见的分箱方法有等频分箱,等高分箱等。
2.分箱以后,对于第i组,计算该组的woe(i)值。
w o e i = l n ( p y i p n i ) = l n ( y i / y s n i / n s ) woe_i = ln(frac{p_{yi}}{p_{ni}}) = ln(frac{y_i/y_s}{n_i/n_s}) woei​=ln(pni​pyi​​)=ln(ni​/ns​yi​/ys​​)
其中, y i y_i yi​表示分组中的响应用户, y s y_s ys​表示总响应用户。 n i n_i ni​表示分组中的未响应用户, n s n_s ns​表示总未响应用户。

2.IV值计算

IV衡量的是某一个变量的信息量。 对于分组i的IV值,具体的计算公式如下
I V i = ( p y i − p n i ) ∗ w o e i = ( p y i − p n i ) ∗ l n ( p y i p n i ) = ( y i / y s − n i / n s ) ∗ l n ( y i / y s n i / n s ) begin{aligned} IV_i&=(p_{yi} - p_{ni}) * woe_i \ &=(p_{yi} - p_{ni})* ln(frac{p_{yi}}{p_{ni}}) \ & = (y_i/y_s - n_i/n_s) * ln(frac{y_i/y_s}{n_i/n_s}) end{aligned} IVi​​=(pyi​−pni​)∗woei​=(pyi​−pni​)∗ln(pni​pyi​​)=(yi​/ys​−ni​/ns​)∗ln(ni​/ns​yi​/ys​​)​

那么整个变量的IV值为
I V = ∑ i n I V i IV = sum_i^n IV_i IV=i∑n​IVi​

3.为什么使用IV值而不是WOE

WOE 和 IV 都能表达某个分组对目标变量的预测能力。那为什么我们实际使用的都是IV而不是WOE呢?
1.WOE有可能是负值,而IV值永远为正,实际场景中我们不太可能使用一个可能为负值的指标。
2. p y i − p n i p_{yi} - p_{ni} pyi​−pni​这个数值,体现了当前分组样本在整体中的占比,相当于给当前样本的区分能力乘以了一个权重。这个权重越大,对应的区分度也就越高,对整体的贡献也就越突出。

4.需要注意的几个点

1.IV值并不是越大越好。IV过大,很可能是分箱不当所引起的,这个时候需要对数据进行重新分箱操作。
2.如果按照原始的公式进行计算,分箱操作时,某个组的数据不能为0,否则做除法运算时会触发异常。
3.实际项目操作过程中,一般选择0.2作为阈值。如果某个特征的IV值小于0.2,说明区分度不太够,该特征不予采用。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。