断点回归分析步骤,拟断点回归

原文发于计量经济学服务中心 2018-12-03

断点回归（RD）学习手册（包含设计前提条件内生分组等显著性检验、精确断点&模糊断点等全套标准操作）

断点回归由Thistlewaite and Campbell(1960)首次使用，但直到1990年代末才引起经济学家的重视。

Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应，在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。由于奖学金由学习成绩决定，故成绩刚好达到获奖标准与差一点达到的学生具有可比性。如果考试分数大于获奖标准分数, 则进入处理组；如果考试分数小于获奖标准分数, 则进入控制组。因此处理变量在获奖标准分数处形成了一个断点，该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。

Angrist and Lavy(1999)在研究班级规模对成绩的影响时，利用以色列教育系统的一项制度进行断点回归；该制度限定班级规模的上限为40名学生，一旦超过40名学生（比如41名学生），则该班级被一分为二。

此后30年, 该方法并未引起学术界的重视，直到1990年以后, 断点回归设计开始被应用于各种领域，并且近年来成为因果分析和政策评估领域最重要的研究方法。

Hahn et al(2001)提供了断点回归在计量经济学理论基础。目前，断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。参见Imbens and Lemieux(2008)，Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。

断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的，因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。一般将该连续变量X称为分组变量 (assignment variable) 。

一．断点回归操作动作建议

在进行断点回归（RD）设计时，一般有如下步骤：

▍ 1、参考变量分布连续性检验/检验内生分组

这里检验内生分组，即主要检验配置变量，其实就是RD中个体是否将自行进入断点两侧，决定是否进入实验的，并是否存在某种跳跃性的变化。如果存在内生分组，个体将自行进入实验，导致在断点两侧的分布不均匀，这样分组变量x的密度函数f（x）在x=c处不连续，出现左右极限不相等的情况。

McCrary（2008）提出了一种核密度函数的检验方法（命令是DCdensity，介绍见下述操作），将参考变量划分成不同的区间并计算各区间中的个体数量，如果个体能够操纵参考变量，我们将能观测到断点左右个体数量有较大差别，比如很多个体通过操纵到了断点的右侧，那么，在断点右侧的区间中个体数量可能将大大超过断点左侧区间中个体的数量，利用带宽选择和曲线拟合方法，可以检验在断点处c是否存在跳跃。

▍ 2、检查为精确断点回归还是模糊断点回归分析

检验处理变量是否完全由“某连续变量是否超过某一断点”所决定，如果个体被处理的概率从0跳跃为1，即为精确断点回归，如果个体被处理的概率从 a跳跃为 b，0

▍ 3、图形分析

画出结果变量与参考变量之间的关系图，如果是模糊断点，再画出原因变量与参考变量的关系图，呈现结果变量和原因变量在断点处行为，为断点回归设计提供理论支撑。

▍ 4、检验结果对不同带宽、不同多项式次数的稳健性

设置不同带宽，通过选择最优带宽，再检验并选择相对应的模型。stata断点回归命令有相关的操作选项。另外还有图形选择（在最优带宽处画线），可以考虑加协变量进行选择。

▍ 5、检验其他影响结果变量的因素（协变量），在断点处是否存在跳跃

检验协变量在断点处是否存在跳跃，若是存在跳跃，说明该协变量的条件密度函数在断点处不是连续的，需要剔除。若将存在跳跃的协变量剔除。则需要重新选择最优带宽再重新进行断点回归分析。

▍ 5、显著性检验

模型估计完成后，可以进行下列模型设定检验，以判断估计结果的稳健性（见漂亮的板凳编著的《基本有用的计量经济学》）

（1）协变量连续性检验，也称为伪结果检验（ pseudo outcome）。以协变量作为伪结果，利用与前面相同的方法，检验相应的RDD估计量是否显著，如果显著说明这些协变量不符合连续性假设，上文的RDD估计量可能存在问题。

（2）参考变量分布连续性检验，如果参考变量分布连续，意味着在断点处个体没有精确操纵参考变量的能力，局部随机化假设成立，从而保证断点附近左右样本能够代表断点处的总体。（此处与检验内生分组一致）

（3）伪断点检验（ pseudo cutoff point）。在参考变量的其他位置，比如断点左右两侧中点位置作为伪断点，利用同样的方法估计RDD估计量，我们知道在伪断点干预效应为零，如果发现伪断点的RDD估计量不为零，则说明我们的RDD设计可能有问题，可能混杂了其他未观测因素的影响，得到的因果效应可能是由其他未观测混杂的跳跃造成的，而不完全是干预的影响

（4）带宽选择的敏感性检验。选择不同的带宽对RDD估计量进行重新估计，检验估计结果是否有较大的变量，如果差异较大，尤其是影响方向有变化说明RDD设计可能有问题。

上述显著性检验其实在前面进行分析时候已经部分有所提及需要进行检验的。

二．断点回归设计前提条件检验：检验内生分组

在进行断点回归（RD）设计时，样本数据需要满足一定的前提条件，比如，断点两侧除断点（Cutoff）处理效应外，其他因素需保持平衡（滑）以及不存在Selective Sorting。

而断点回归的前提假设：Wi的条件密度在X=c0处连续。另外进行断点分析前，需要首先考察变量分组变量是否有内生分组的存在，意思就是样本个体事先知道分组原则等信息，然后通过自身选择来选择是否进入处理组，这样的内生分组将导致断点回归失效。

本文提供一种基于断点两侧样本分布密度来进行检验的方法：McCrary(2008)。它主要通过考察分布变量的密度函数在断点处是否连续进而实现检验样本是否存在选择性偏误，主要分为两步检验：第一步，将分组变量在断点处两侧尽量等距离细分，并计算每组的标准化频率；第二步，使用三角核估计进行局部线性回归，并计算密度函数估计值，然后检验密度函数在断点c处是否连续。

McCrary（2008）可以通过非官方命令DCdensity来实现，其中DC表示Discontinuity，可以来检验分组变量的密度函数在断点处是否连续。依此判断，是否存在内生分组问题。

该命令的下载地址为：https://eml.berkeley.edu/~jmccrary/DCdensity/

然后将该命令的DCdensity.ado下载安装或者复制到C:adoplus，Mac系统的需要自己sysdir查询外部命令安装路径，自行复制下载。命令语法格式为：

DCdensity assign_var,breakpoint(#) generate(Xj Yj r0 fhat se_fhat) graphname(filename)

其中，assign_var 为分组变量，必选项breakpoint(#)用来指定断点位置，generate(Xj Yj r0 fhat se_fhat)用来指定输出变量名，graphname用来命名指定密度函数图。

操作应用如下：

本文使用断点回归命令rd所系统自带的数据进行演示，该案例考察美国国会选区如果有一名民主党众议员对该选区联邦指出的影响。传统上，民主党倾向于大政府，故一个选区如果有民主党众议员，则该议员可能为该选区争取更多的联邦支出。然而，直接对二者进行回归可能存在遗漏变量问题或双向因果问题。为此，使用民主党候选人的得票率作为分组变量，以0.5作为断点（在两党政治中，得票率大于或等于0.5则当选，反之落选），进行断点回归。数据集votex.dta，其中结果变量为lne（选区联邦开支的对数）、分组变量为d（民主党候选人得票率减去0.5）、处理变量win（民主党候选人当选），以及一系列协变量。

数据描述性分析结果如下：

检验分组变量的密度函数是否在断点处不连续。

可以看出断点两侧密度函数估计值的置信区间有很大部分重叠，所以断点两侧的密度函数不存在显著差异，检验结果为不存在内生分组，可以继续进行断点回归分析。

三．断点回归模型选择：精确断点or模糊断点

按照在断点处个体得到处理效应概率的变化特征可以分为两种类型（即断点回归可以分为两种类型）:一种类型是精确断点回归设计 (sharp regression discontinuity design, 以下简称SRD) , 其特征是在断点 (也就是上面所说的临界点) X=c处, 个体接受政策干预的概率从0跳跃到1；另一种是模糊断点回归设计 (fuzzy regression discontinuity, 以下简称FRD) , 其特征是在断点X=c处, 个体接受政策干预的概率从a变为b, 其中a≠b，0