倾向得分匹配法适用条件,倾向性匹配评分的样本量

1 .因果估计介绍

当前量化战略实施效果评价越来越重要，数据驱动产品和运营、业务等各方面理念越来越受到重视。目前这方面流行的方法除了实验方法AB测试外，还有各种因果估计的观察研究方法。

认为“统计相关性不意味着因果关系”，数据分析工作中经常遇到原因分析问题，并且由于各种原因无法进行Ab测试直接随机分组实验的比较结果。举几个例子，feeds流程中刷新推荐战略内容的用户留存率更高，他们的高留存率是基于这个推荐战略吗？这个战略对提高整体留存率有多少效果呢？

因为上周发布某个游戏广告的用户的注册率更高，他们的高注册率在多大程度上是广告带来的，在多大程度上他们自己是潜力很大的用户？

在以上情况下，需要分析一种策略(干预策略)对结果的影响情况，探究其因果效应。可以利用现有的用户行为数据进行观察研究分析。观察研究中最重要的理念之一是反事实框架，即与我们可以观测到的现实相反的状态。在反事实的框架下进行因果推测的原理如下。变量x对变量y变化的因果效果可以表现为x成立时的y的结果和x不成立时的y的反事实的结果的差异。如果存在这个差异，并且统计上很明显，就可以说变量x对变量y有因果效应，否则两者之间不存在因果关系。因此，因果推测的难点在于，不能同时对各用户观测两种状态下的结果。

一种粗暴的想法是将实验组和对照组的样品“匹配”。例如，对于实验组的所有样品，我们都去对照组寻找一模一样的样品。如果所有示例属性都是离散的并且属性的维数(个数)小，则可能可以这样做。如果示例属性有几个连续变量，或者示例属性的维很高，这太粗暴了，大多数人找不到匹配对象。因此，“趋势得分匹配”可以用于解决寻找匹配对象的难点。

趋势分数匹配PSM是因果估计的统计学方法之一，用于处理观察研究的数据。在观察研究中，由于各种各样的理由，数据的偏差和混杂变量很多。倾向分数匹配的方法是为了减少这些偏差和混合变量的影响，以便更合理地比较实验组和对照组。 PSM是处理观察性研究(observational study )的典型方法。

2. PSM原理

“倾向性得分”的定义是直观的，即一个用户属于实验组的“倾向性”: e(x )=pr ) t=1|x )=pr ) t=1)。具有不同特征的用户被干预的概率应该相等。直观上，对于倾向性分数相同的组的用户，treatment和特征是独立的，treatment和潜在结果也是独立的。也就是说，实现实验中随机性的要求。理论上，如果对照组中得分相等(要求稍严格)的用户与各实验组的用户一致，就可以得到同质的实验组和对照组，可以假装做了a/b测试，随意进行组间比较倾向得分法(PS )主要有分层、匹配、加权三种方法。这里趋势得分匹配法是一种匹配方法。

以上的话具体实施后，可以分为以下步骤。

1、倾向性分数估计：倾向性分数怎么估计？

2、倾向性得分匹配：如何用得分完成匹配？

3、平衡检查：怎么知道匹配效果？

4、因果效应估计：匹配后如何从匹配后的两组用户那里得到因果效应？

5、灵敏度分析：混淆变量的选择等几个主观分析能得出一致的分析结论吗？

Step 1:倾向性评分估计

这个步骤是直接建模的问题，变量是Treatment，变量是是否进行了干预，自变量是用户特征变量。应用LR或其他更复杂的模型，诸如LR LightGBM的模型来估计趋势得分。

Step 2:倾向性评分匹配

如果有各用户的倾向性评分，则相对于当前实验组用户，匹配接近同一对照组。

1、匹配用得分：原倾向性得分e(x )或得分logit，ln ) e(x )/(1e ) x ) )。

2、筛选出修剪倾向分数“极端”的用户。一般方法是保持[a，b]区间得分的用户。对于区间选择，实验组与对照组用户得分区间的交集仅保持区间中央的90%或95%，取原得分为[ 0.05，0.95 ]的用户。

3、匹配(matching )实验组对对照组按得分进行匹配，比较常见的有以下两种方法： nearest neighbors:进行1对k的有无倒带的匹配。

radius:对各实验组的用户表示，匹配上的所有得分差都小于指定radius的用户。

4、分差上限：要求我们与用户一致时，每对分差不超过指定上限。

Step 3:平衡检查

如何衡量“流平效应”？直观上，观察匹配前后的倾向得分的分布和匹配前后的特征的QQ-Plot。匹配后实验组和对照组的倾向性评分分布更接近，变量分布也更接近。量化标准指数(SMD )。 SMD的计算方式之一是(实验组均值-对照组均值) /实验组标准差。一般来说，如果一个变量的SMD在0.2以下，则认为该变量的流平质量是可以接受的。当某个变量的SMD超过0.2时，需要根据经验确认该变量是否不那么重要。

Step 4:因果效应估计

继续阅读公众h :请转到h:DataGo数据狗