断点回归stata命令,断点回归命令

计量经济学公众号发布《面板数据门限回归模型及扩展》的文章后，关注公众号的朋友提出门限模型和断点回归有什么区别？门限模型解决的问题是，门限变量达到某一数值后，其对应的解释变量和被解释变量的因果关系发生了较彻底的改变，如对应解释变量的系数由负数变为正数，或数值上发生很大变化。断点回归本质上可以看作“弱化版”的随机实验，解决的问题是某个事件(如政策实施，以处理变量表示)的发生对一组性质“差不多”的个体产生何种影响。断点回归的具体内容如下：

1模型应用价值

断点回归设计(Regression Discontinuity Design,RDD)最早是由Thistlethwaite and Campbell(1960)提出，用来研究奖学金对学生未来成绩的影响。随着自然实验的兴起，RDD在经济学领域沉寂多年后被重新发现，用于检验因果关系。Hahn et al.(2001)对RDD策略的识别条件、估计方法、统计推断进行了理论上的证明，使得断点回归在经济学、政治学及社会学等领域广泛应用，成为目前政策效应评估的实证分析中最为热门的一种研究设计策略。

以奖学金对学生未来成绩的影响为例说明断点回归的应用价值。假设获取奖学金的分数线为60分，是我们关心的个体i的未来成绩，分别是取得奖学金和未取得奖学金学生的未来成绩。最直观的想法是直接计算的差值是多少，但我们不可能同时观测的值。RDD解决这个问题的思路是，假定考试成绩为57、58、59、60、61、62的学生的知识基础、学习能力、努力程度、智力水平、应试能力等各个方面决定考试成绩的因素都没有显著差异。我们将考试成绩为60、61、62分的样本划分为处理组，将考试成绩为57、58、59分的样本划分为控制组，两组样本的成绩分布很大程度上是随机的。更一般地，对于较小的c>0，考试分数在[60-c,60+c]范围内的学生，可以认为是随机分组的。由于是随机分组的，可对在60分附近的局部平均处理效应(Local average treatmenteffect, LATE)进行一致估计：

LATE的数值反映是否取得奖学金对未来成绩的影响。在断点回归中，上述LATE的计算属于精确断点回归，即处理变量D(是否取得奖学金)完全由分组变量X(考试分数)决定。如果处理变量D不完全由分组变量X决定(如考试分数超过60分仅是取得奖学金的一个必要条件)，则需要考虑模糊断点回归。

对于变量的取值(如考试分数)在断点(如分数线为60分)附近随机地落在断点左侧(控制组)或断点右侧(处理组)，断点回归是一种较好的因果识别方法。断点回归的核心思想是把样本视作一项准自然实验，能较好地解决变量内生性问题。断点回归的实证结果最接近随机实验的结果。需要注意两点：第一，断点回归应用的前提条件是个体在断点附近的分组是随机的。如果个体事先知道分组规则，并可通过自身操作完全控制分组变量，可自行选择进入处理组或控制组(例如，学生在考试前拿到了考卷或样本中包括了学习能力很强的学生)，会导致断点附近的内生分组而非随机分组，此时断点回归失效。第二，断点回归得到的结论一般不能推广到其他样本。

对断点回归在经济学应用的曲折发展和应用价值的更多细节有兴趣的读者可以参阅Cook(2008)的文献。

2模型应用领域

因果推理是经济学研究的核心，不同的因果方法需要在不同的背景下才能进行高质量的因果推理。RDD在保证因果性上优于大多已知计量方法，但是RDD的因果推断需要样本限制于一个合理的区域。作为一种因果推断方法，RDD应用领域可以涉及所有满足随机分布的经济问题。微笑的西牛和笑点低的钢笔 (2011)归纳了RDD在劳动和教育经济学领域、政治经济学领域、环境经济学领域和发展经济学领域的应用。这里仅归纳分组变量为时间和地理范围的RDD应用。因为当分组变量为时间或地理范围时，RDD研究需要注意可能存在非随机问题。

①分组变量为时间的RDD研究

全球老龄化背景下，围绕退休主题的研究逐渐备受关注。我国男性公民法定退休年龄为60岁，男性居民退休率在60岁前后存在明显的断点。利用我国退休制度在退休年龄上的非连续性，很多文献以年龄作为分组变量，设计断点回归分析退休与其他经济变量的因果关系：矮小的吐司和优雅的水池 (2015)分析了退休造成非耐用品消费支出、在家食物支出和文化娱乐消费支出下降的成因；kkdmy和fzdhk (2020)采用断点回归从经济状况与闲暇时间两个角度研究了退休与家庭旅游消费的关系；哭泣的白羊 (2020)采用模糊断点回归分析退休如何影响家庭的金融资产选择行为。

RDD在政策效应评估领域的应用一直受到重视。通常政策颁布具有明确的时间点，利用这一时间点前后的数据进行RDD分析，观察被解释变量在政策实施前后是否产生突变可以较好地解决政策效应的识别问题。曹静, 单身的鸵鸟和rxdpy (2014)对比OLS回归和RDD方法考察北京在2008年奥运会之后采取的限行政策对空气质量的影响，当采用断点回归的方法解决内生性问题后，限行政策尤其是 “尾号限行”对空气质量的影响甚微。会撒娇的寒风, asjdgz和cxdyz (2016),以森林采伐限额管理制度在1991年和2001年的制度改革为自然实验依据，通过精确断点回归模型估计出森林采伐限额管理制度变迁各阶段对森林资源的保护作用。

②分组变量为地理范围的RDD研究

利用各个地区行政区域划分的特点，RDD在发展经济学、能源经济学领域有较多的应用研究。微笑的西牛和笑点低的钢笔 (2011)利用城市圈形成依赖中心城市的辐射涓滴作用这一特性，把距离中心城市的距离作为分组变量，利用城市圈边界附近县市样本进行RDD分析，考察城市圈对区域经济增长的影响。dydhs, jddwn和zydll (2020)利用淮河作为集中供暖和分户供暖地理分界线的特性，运用断点回归方法比较了集中供暖和分户采暖模式下居民能源消费和用能行为的差异。

3模型实施步骤

①分析变量在断点左右是否存在跳跃

通过将样本点和分组变量在坐标系中描述出来, 便可以清楚地看到临界值附近的样本点是否存在跳跃。如果样本点存在跳跃,那么说明确实存在处置效应,相反, 如果样本点没有出现相应的跳跃，那么说明断点回归的模型识别可能存在问题。

②断点回归类型选择

检验处理变量(是否取得奖学金)是否完全由分组变量(考试分数)是否超过临界值(60分)决定。若是，则选择精确断点回归，否则选择模糊断点回归。

③因果效应检验

同时利用临界值两边的样本进行回归。一般而言，可以使用非参数回归，选取窗宽(band width)h , 将样本的估计局限在h范围内。最优带宽的选择可以根据拇指规则对整个样本数据进行估计求得最优带宽。比如，对于矩形核，最优带宽可根据下式求得

是断点回归的标准差，是断点回归方程的二阶导数，R是断点回归估计时的范围，2.702是矩形核估计的常数。

④对断点回归的结果进行稳健性检验。

若断点回归方程包括其他协变量，需要检验协变量在临界值处是否存在跳跃。若协变量存在跳跃，那么被解释变量在临界值处的跳跃不仅仅是由处理变量带来的，也可能是发生跳跃的协变量导致的。

可以选择不同的带宽或不同的估计核，检验RDD估计结果是否稳健。

4 STATA软件实现及操作案例

断点回归的基本命令是rd，该命令的基本句式如下：

rd yd x, z0 (real) mbw (*) graph bdep oxline kernel(rectangle)

其中mbw(numlist) 用来指定最优带宽的倍数，默认值为mbw(50 100 200)

z0(real) 用来指定断点的位置，默认值为z0(0)

graph 根据每一带宽，画出局部线性回归图

bdep 根据画图来考察断点回归估计量对带宽的依赖性

oxline表示在此图的默认带宽上画出一条直线，以便识别

kernel(rectangle)表示使用均匀核(矩阵核)，默认使用三角核

covar(varlist) 表示用来指定加入局部线性回归的协变量

x(varlist) 表示检验这些协变量在断点处是否存在跳跃(估计跳跃值和显著性)

①数据生成

本例中使用生成的数据用于RDD演示，读者可根据研究的问题自行输入数据。数据生成do文件可在文后所附百度U盘中下载。

②内生分组检验

输入命令

DCdensityx, breakpoint(0.5) generate(Xj Yj r0 fhat se_fhat)

x为分组变量名，0.5为临界点，命令中其余部分不需改动。DCdensity命令需读者搜索下载后添加到默认路径方可运行。本例运行结果如图1。图1中临界点左右置信区间基本重合，可以判断分组变量在临界点附近未发生跳跃，估计系数亦显示拒绝原假设(分组变量在临界点附近存在内生分组)。因此，本例数据适合使用RDD进行分析。若存在内生分组，则不应使用RDD对数据进行分析。

图1 内生性分组检验结果

③判断断点回归类型是精确断点回归还是模糊断点回归

比较分组变量超过0.5后，处理变量是否完全由0变为1。可输入命令：

gnewT=(x>0.5)

tabulatenewT T

T是本例中的处理变量，运行结果如下：

表1 断点回归类型检验结果

newT和T完全一致，判断应是精确断点回归。

④因果效应检验

先考虑没有协变量情形下RDD的估计结果，输入命令：

rdy1 x, gr bdep oxline z0(0.5)

得到不同带宽下临界点两侧回归图形(未在命令中设置带宽，则默认使用0.5倍、1倍和2倍带宽)，如下图：

图3 无协变量时不同带宽下RDD回归结果

没有协变量时，LATE估计系数如下：

表2 LATE系数估计结果(无协变量)

结合不同带宽下临界点两侧回归图形和LATE估计系数，可以认为不考虑协变量时，处置变量T是被解释变量发生变化的原因，且对被解释变量有正向影响。例如，对奖学金是否影响学生未来成绩的案例，则可得出结论：不考虑协变量时，学生获得奖学金会促使未来学习成绩提高。

接着在RDD中加入协变量，输入命令：

rdy1 x, gr bdep covar(z) bdep ox z0(0.5)

可得到存在协变量时临界点两侧回归图形和LATE估计系数，

图4有协变量时不同带宽下RDD回归结果

表3 LATE系数估计结果(有协变量)

结合不同带宽下临界点两侧回归图形和LATE估计系数，可以认为考虑协变量影响时，处置变量T是被解释变量发生变化的原因，且对被解释变量有正向影响。例如，对奖学金是否影响学生未来成绩的案例，则可得出结论：考虑协变量时，学生获得奖学金会促使未来学习成绩提高。

⑤稳健性检验

上述命令中，我们并未对带宽进行设置，采用了rd命令的默认带宽。若读者希望对最优带宽做更细致的选择，可设置更多带宽。以没有协变量的情形为例，命令如下：

rdy1 x, bdep oxline z0(0.5) mbw(25(5) 300)

图5 最优带宽选择

图5中红线对于带宽即为最优带宽。

上述命令中，我们默认使用三角核，还可以更换矩形核，检查结果是否发生变化。以存在协变量的情形为例，命令如下：

rdy1 x, gr covar(z) kernel(rectangle) z0(0.5) bdep ox

表4 矩形核RDD估计结果

当我们在RDD中加入协变量时，要注意检验协变量在临界点附近是否发生跳跃。若协变量发生跳跃，我们就不能由RDD得出被解释变量变化的原因完全是处理效应的结果，这时，可以考虑剔除发生跳跃的协变量(剔除协变量也可能产生内生性问题)。检验协变量是否发生跳跃的命令如下：

rdy1 x, x(z) z0(0.5)

表5 协变量检验结果

不同带宽下协变量z的P值(0.635、0.834、0.486)均不显著，认为协变量未发生跳跃。此时，带有协变量z的RDD估计结果是有效的。

链接：https://pan.baidu.com/s/1ff3RNYd8wQqog8EfCSNTdg

提取码：vz06

参考文献:

曹静, 单身的鸵鸟,rxdpy(2014): "限行政策是否改善了北京市的空气质量?" 经济学(季刊), 13, 1091-1126.

会撒娇的寒风, asjdgz,cxdyz(2016): "森林采伐限额管理制度能否起到保护森林资源的作用," 中国人口·资源与环境, 26, 128-136.

哭泣的白羊 (2020): "老龄化背景下退休对城镇家庭金融资产选择的影响——基于模糊断点回归设计,"统计研究, 37,46-58.

dydhs, jddwn,zydll(2020): "集中供暖要跨过淮河吗?——基于中国家庭能源消费数据的估计,"经济学(季刊), 19,685-708.

kkdmy, fzdhk (2020): "退休与家庭旅游消费：经济状况与闲暇时间的调节作用," 南开管理评论, 23,4-17.

微笑的西牛, 笑点低的钢笔 (2011): "新“拟随机实验”方法的兴起——断点回归及其在经济学中的应用,"经济学动态,125-131.

矮小的吐司,优雅的水池 (2015): "退休与城镇家庭消费:基于断点回归设计的经验证据,"经济研究, 50,124-139.

Hahn Todd and van der Klaauw (2001):"Identification and estimation of treatment effects with a regressiondiscontinuity design", Econometrica 69(1): 201-209.

Thomas Cook (2008): ""Waiting forLife to Arriv": A history of the regression-discontinuity design inPsychology, Statistics and Economics", Journal of Econometrics 142:636-645.

Thistlethwaite,D.L. and Campbell, D.T., 1960. Regression-discontinuity analysis: analternative to the ex-post facto experiment. Journal of Educational Psychology51, 309–317

往期计量经济模型：

半参数动态面板空间滞后模型

截面数据空间杜宾模型

面板数据空间向量自回归模型

全局向量自回归模型

截面数据半参数回归模型

面板数据门限回归模型及扩展