温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
作者:张远远 (北京大学)
E-mail:yyzhangfin@pku.edu.cn
目录
经济学家在评估某项政策或事件的处理效应时,常使用反事实框架,将受到处理 (处理组) 的数据 (实际可观测到),与假如未受到处理的数据 (反事实),之间的差异称为"处理效应"。由于未受到处理的数据是反事实的,并不能被实际观测到,因此常寻找各个方面都与处理组相似的、未受到处理的控制组,作为处理组的反事实的替代,处理组前后变化与控制组前后变化之差为"处理效应"。
在估计处理效应时,如果处理组仅有一个被处理对象,使用 合成控制法 (Synthetic Control Method,简记 SCM)。如果处理组有多个被处理对象,使用倍分法 / 双重差分法 (Difference in differences,简记 DID 或 DD) ,如果被处理时间是同一时间点,使用 传统 DID;如果被处理时间是不同时间点,使用多期 DID。
DID 是估计处理效应中应用最广泛的计量方法。该方法的思想最初是由医学家 John Snow (1855) 年研究伦敦的霍乱流行时提出的,由 Obenauer 和 von der Nienburg (1915) 研究最小工资法的影响效应时引入经济学。为估计处理效果,比较处理后与处理前的差异,利用处理组的前后变化减去控制组的前后变化,就是处理效应,故名"双重差分"。DID 需要满足的前提假设是,处理组与控制组在未受到处理前必须具有相同的变化趋势,这就是"平行趋势"或"共同趋势"假设。
如果检验发现满足共同趋势假设,则可以直接采用 DID 方法;如果检验发现不满足共同趋势假设,需要使用基于倾向得分匹配法的双重差分法 (PSM-DID)。PSM-DID 的基本思想是,在总的控制组中使用 PSM 方法构造出一个与处理组具有共同趋势的控制组,即在总的控制组中选择与处理组具有相同或相似倾向得分值的样本,作为处理组的实际使用的控制组,使得处理组与控制组满足共同趋势假设。
本文主要的关注点是处理时间点不一致的处理效应的估计方法,即多期 DID,主要分三部分内容进行介绍:
DID 使用了面板数据,估计面板数据的最常用的模型是双向固定效应模型,对于面板模型的设定,可以参考连享会之前的推文 Stata: 面板数据模型-一文读懂。在双向固定效应模型的基础上,传统 DID 模型加入了处理组虚拟变量 (
其中,
值得注意的是,模型中不需要加入处理组虚拟变量
交乘项的系数
上式的含义是处理组前后变化与控制组前后变化之差,就是处理效应。
下面通过一个包含3个个体,5期的面板数据,展示一下处理组虚拟变量
id year treati postt treati*postt
--------------------------------------
1 2001 1 0 0
1 2002 1 0 0
1 2003 1 1 1
1 2004 1 1 1
1 2005 1 1 1
--------------------------------------
2 2001 1 0 0
2 2002 1 0 0
2 2003 1 1 1
2 2004 1 1 1
2 2005 1 1 1
--------------------------------------
3 2001 0 0 0
3 2002 0 0 0
3 2003 0 0 0
3 2004 0 0 0
3 2005 0 0 0
传统 DID 假定处理组的所有个体开始受到政策冲击的时间点均完全相同,但是会出现处理组个体接受处理时间点不一致的情况,比如美国银行分支机构的放松管制政策在不同的州推出的时间不一致。多期DID (Time-varying DID),也被称为多时点DID或异时DID,就是描述个体的处理期时间点不完全一致的情况,将上述 (1) 式中的
交乘项的系数
上式的含义是处理组前后变化与控制组前后变化之差,就是平均处理效应。
上述模型中的交乘项
其中,
同样的,虚拟变量
下面仍然通过一个包含3个个体,5期的面板数据,展示一下处理组虚拟变量
id year treati postit treati*postit Dit
----------------------------------------------
1 2001 1 0 0 0
1 2002 1 0 0 0
1 2003 1 1 1 1
1 2004 1 1 1 1
1 2005 1 1 1 1
----------------------------------------------
2 2001 1 0 0 0
2 2002 1 0 0 0
2 2003 1 0 0 0
2 2004 1 1 1 1
2 2005 1 1 1 1
----------------------------------------------
3 2001 0 0 0 0
3 2002 0 0 0 0
3 2003 0 0 0 0
3 2004 0 0 0 0
3 2005 0 0 0 0
上述模型 (2) 和模型 (3) 中的系数
其中,
假设对于每个个体来说,在时间范围
在两个可能的结果值
那么,虚拟变量
而我们关注的平均处理效应 ATT,并不是各期虚拟变量的系数,而是:
而由于政策冲击前总的处理效应为 0,因此有:
因此,