首页 > 编程知识 正文

倾向得分匹配法结果分析,倾向得分匹配结果怎么看

时间:2023-05-06 12:52:01 阅读:11051 作者:740

让我们以1.是否上大学(对http://www.Sina.com/)的影响为例,简要说明一下这个问题。 在此,首先将两者的关系设定为以下线性模型。

显然,在模型(1)的设定中,需要同时影响“说明变量”——65http://www.Sina.com/()和“说明对象变量”——65http://www.Sina.com/) 因为他们既影响被解释变量,也影响解释变量,但往往不可观测,也无法获取数据。

在计量经济学上,模型设定中遗漏的“共同要素”被干扰“跑”。 这些被忽略的“共同要素”往往是相关的,自然会发生,从而导致推测偏差。 为了解决该问题,可以通过多元回归(收入)解决,参见式(2) :

假设智商(如果是影响他是否去大学和收入的唯一因素的话,公式)可以进行无偏估计。 虽然看起来是正确的,但最大的问题是w和x的线性关系不一定成立。 函数形式的错误设置(是否上大学) (误差项) )吸收,关系有偏差。

匹配是解决收入问题的一种方法。 通过匹配进入大学的人(=1)与最近的未进入大学的人(=0),减弱了对函数形式设定的依赖,缓解了函数形式错误设定)MR)带来的内在性问题。 当然,匹配往往基于由多个变量()计算的概率来进行,同时影响和,概率值的计算为式() )3) :

事实上,匹配也是有极限的。 智商) )预测是否去大学)的能力越强,匹配后的样本就越有可能排除去大学(不去)的个体。 换句话说,预测能力越高,匹配的样本越少,质量也越差。

假设条件

2 .错误识别和局限性3358www.Sina.com/在减少处理变量与可观测变量的相关性方面起着重要作用,FFM通过控制被解释变量和与处理变量相关的可观测变量来缓解选择偏差

)1)FFM并不能解决“选择偏差或缺失变量”带来的内在问题。

FFM只是通过匹配在一定程度上避免了PSM的偏差,并没有从根本上解决“选择偏差和变量遗漏”带来的内在问题。

)PSM不称为“准实验”,也不能模拟实验条件。

处理组和对照组的共变量平衡可能与实验条件相似,但PSM缺乏实验的重要特征。

首先,PSM只是缓解了可观测变量的系统性差异,并没有缓解不可观测变量的差异。 实验通过随机分配,可以有效控制可观测变量和不可观测变量的影响。 然后,FFM决定了哪些观测值将进入分析样本。

)3)PSM的外部有效性问题。

PSM的另一个问题是与外部有效性有关。 如果“联合支持假说(Common Support )”不令人满意或强迫,PSM将系统排除缺乏对照组的样本,进而恶化样本的代表性,影响结果的外部有效性

3 .主要设计选择在实践中需要PSM多样化的设计选择。 即使样本和协同变量不变,根据设计的选择也可能会得出不同的结论。

PSM估计趋势得分的主要设计选择:

PSM如果处理变量为二分变量,则处理组合控制组可以直接识别。 处理变量为连续变量时,需要指定边界点识别处理组和控制组。 后者容易将匹配样本限定在边界点附近,降低了检测的显着性,增加了犯第二类错误的概率。

PSM虽然是常见的错误理解,但是选择PSM预测模型变量应该使预测能力最好。 实际上,A. 处理组和控制组的识别预测模型设计主要是为了解决PSM型号错误设置带来的偏差如果理论不支持将一个变量包含在PSM模型中,则不应该将其包含在MR模型中。 否则,就无法避免事后选择的疑问。

PSM创建匹配示例的主要设计选择:

MR通过不重复匹配来控制每个控件

制组只能匹配一次,即使该控制组是多个处理组的最佳匹配,这就使得匹配质量降低和样本变小。相反,重复匹配则可以有效避免这些问题,但是在估计处理效应时,需进行加权和调整标准误,以反映匹配次数的影响。当然,也要注意极端控制组被重复匹配多次对推断结果的影响。

匹配半径的设定。设定一个相对严格的「半径」值一般可以有效避免「糟糕」的匹配和提高协变量的平衡性。

「1 对 1」 和「1 对多」匹配。会计研究中最常见的匹配方法是 1:1 匹配,但是在存在多个合理匹配样本时,「一对多」匹配可以降低抽样方差。与重复匹配一样,在「一对多」匹配时,也需要考虑加权。

C. 评估匹配样本: 

一般通过对处理组和控制组协变量均值或中位数差异检验来评价匹配效果。但是,考虑到匹配后样本减少,犯第二类错误概率增加,差异不显著并不能说明匹配后样本可以有效免 FFM 问题。另一方面,协变量差异显著,而在数值上也可能比未匹配样本小的多,也可以避免 FFM 问题。

D. 估计处理效应: 

样本匹配后,处理效应可以通过简单的 t 检验或者 MR 进行估计。如果协变量实现了真正的平衡,那么简单的 t 检验是可以的。然而,研究者不能接受协变量平衡的零假设,因此推荐使用 MR 来调整协变量剩余的差异。 

4. Stata操作

首先判断简化模型和拓展模型之间系统显著性差异

扩展模型是在简化模型的基础上,加入所有控制变量的二次项和三次项。 Chow 检验显著,说明这里存在 FFM 问题。

-定义全局暂元 global indepvar LNASSET LEV ROA GROWTH BM AGE global fixvar i.indcode i.year *-样本匹配 probit BIG4 $indepvar $fixvar, vce(cluster stkcd) est store Probit predict pscore, p psmatch2 BIG4, pscore(pscore) outcome(ABSACC RESTATE) /// common n(1) norepl cal(0.03) //详见help文件 pstest $indepvar, both graph psgraph *-回归结果 *-Full Sample ABSACC reg ABSACC BIG4 $indepvar $fixvar, cluster(stkcd) est store ABSACC_F *-Matched Sample ABSACC reg ABSACC BIG4 $indepvar $fixvar [fweight=_weight], cluster(stkcd) est store ABSACC_M *-Full Sample RESTATE reg RESTATE BIG4 $indepvar $fixvar, cluster(stkcd) est store RESTATE_F *-Matched Sample RESTATE reg RESTATE BIG4 $indepvar $fixvar [fweight=_weight], cluster(stkcd) est store RESTATE_M*-结果对比 local m "Probit ABSACC_F ABSACC_M RESTATE_F RESTATE_M" esttab `m', mtitle(`m') b(%6.3f) nogap drop(*.indcode *.year) /// order(BIG4) s(N r2_p r2_a) star(* 0.1 ** 0.05 *** 0.01)

 使用 psmatch2 命令后,会自动生成「_weight」变量。该变量代表匹配次数,在 1:1 非重复匹配下,_weight != . 表示匹配成功,且匹配成功时 _weight = 1。在 1:1 可重复匹配下,参与匹配的控制组 _weight 的取值可能为任意整数。

一旦获得了 _weight 变量,就相当于对样本的匹配情况进行了标记,我们可以直接在 regress 命令后附加加 fweight = _weight 进行样本匹配后的回归。其中,fweight 为「frequency weights」的简写,是指观测值重复次数的权重。若是 1:2 重复匹配,成功匹配的处理组 _weight = 2 / 2,成功匹配的控制组 _weight = 参与匹配次数 / 2,即都要除以 2 进行标准化。因此,若想继续使用 fweight 选项,需要 _weight * 2 转化为频数。详细请参考 Propensity Score Matching in Stata using teffects、[psmatch2 and fweight option of regress]。

结果介绍

第一个表列示了匹配前和匹配后处理组和控制组差异及其显著性,以 ABSACC 为例,匹配前处理组和控制组差异为「-.011637968」,并且 t 值为「-6.02」,匹配后处理组和控制组差异「ATT」为「-.006573884」,并且 t 值为「-2.47」。

在第一个表中,Note 显示所汇报的标准误未考虑倾向得分估计的事实 (即假设倾向得分为真实值,然后推导标准误),详情参见:Propensity Score Matching in Stata using teffects。实际上,这里仅对系数的标准误和显著性有影响,而对系数值并不产生影响,也不会对匹配结果产生影响

第二个表列示了处理组合控制组在共同取值范围的情况,其中控制组「17,726」个样本都在共同取值范围内,而处理组有「184」个样本不在共同取值范围内,有「1,163」在共同取值范围内。

 pstest 命令主要考察匹配质量,以检验是否满足「平衡性假设 (balancing assumption)」。从下表可以看出,匹配后大多数变量标准化偏差 (%bias) 都比较小,而且 t 值都不拒绝处理组和控制组无系统性偏差的原假设。从下图也可以看出,所有变量的标准差在匹配后都缩小了。

 6. 使用建议

应该将 PSM 作为解决 FFM 问题的一种方法,而不是更广泛的内生性、自选择、以及遗漏变量的问题。

在使用过程中,应该将 PSM 和 MR 结合对比使用。同时,要对单一 PSM 样本结论保持谨慎态度。

PSM 第一阶段不应该包含 MR 模型排除的变量。在 PSM 模型第二阶段应使用所有控制变量进行 MR 回归 (doubly robust estimation)。

应披露 PSM 的设计选择,提高研究的可复制下和清晰度。具体来看,PSM 第一阶段模型、PSM 第二阶段模型、是否可重复匹配、多少个对照组样本匹配一个处理组样本、匹配半径 (如实施)、以及匹配质量 (协变量平衡性)。

逐年匹配

encode industry,gen(hangye)global psm_var "Size Leverage OCF CAPX NWC Growth Largest SIGMA Div MB_1 hangye"//通常行业匹配用19位代码bysort year: egen quart_ew75=pctile(Ln_geodistance_ew), p(75) gen distance_ew_high=(Ln_geodistance_ew>quart_ew75) if Ln_geodistance_ew!=. forvalue i = 2007(1)2019{preservekeep if year == `i' //esc下的波浪号和单引号set seed 0001gen tmp = runiform()sort tmppsmatch2 distance_ew_high $control, out(ln_Cash_ratio1) logit ate neighbor(2) ties //noreplacement//drop if _weight ==.cap save `i'.dta,replace // cap表示有没有报错都继续执行 restore}use 2007.dta,clearforvalues i =2007(1)2019{cap append using `i'.dta} duplicates drop stkcd year,forcedrop if _weight ==.save 2007_2019_PSM.dta, replace//在新数据上回归xi:reg ln_Cash_ratio1 Ln_geodistance_ew $control i.year i.industry2outreg2 using Table4B,excel drop(_I*) dec(3) tdec(3) bdec(3) alpha(0.01,0.05,0.1) symbol(***,**,*) stats(coef tstat) e(r2_a) pstest $psm_var,both graph

 teffects psmatch (y) (t x1 x2, probit), atet nn(#) caliper(#)

不选probit就默认logit, atet是显示ate on the treated, nn(#)里面的#表示1对#匹配,caliper表示卡尺内匹配#表示水平。teffects psmatcgh比之前的psmatch2的优点是提供了Abadie & Imbens(2012)的稳健标准误,其他的差不多。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。

  • 相关阅读