工具变量-IV:排他性约束及经典文献解读

发布时间:2020-08-30 阅读 12652

Stata 连享会   主页 || 视频 || 推文

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 徐云娇 (厦门大学)
邮箱: jilyo@stu.xmu.edu.cn


目录


编者按: 本文部分内容来在于江艇老师在「连享会-2020 暑期论文班」上的讲义,特此致谢!

1. 理论背景

考虑以下实证模型:

Yi 是模型中的被解释变量,Xi 为模型中的内生解释变量,直接运用 OLS 估计 (1) 式得到的系数存在选择性偏误。为此我们寻找 Xi 的工具变量 Zi 进行两阶段最小二乘法 (2SLS)回归:详见「Stata: 工具变量法 (IV) 也不难呀!」

  1. 首先利用 OLS 估计式 (2),相应拟合值记为 X^i
  2. 再使用 X^i 对 Yi 进行回归,得到 λ 的无偏估计。

一般而言,工具变量需要满足三个方面的要求 (Angrist & Pischke, 2014):

  • 相关性:工具变量必须与内生变量相关;
  • 独立性假设:工具变量需要时随机分配的,或者 “和随机分配一样好”;
  • 排他性约束:工具变量只能通过内生变量这一渠道影响被解释变量。

那么,排他性约束指的就是:工具变量 Z 只能通过 ZXY 这一条路径对 Y 产生影响,如下图:

我们可以对这个排他性约束进行检验吗?无法直接进行检验,但是经常出现的情况是,我们可以为这个问题提供一些证据。

2. 检验方法

在阅读 Top 期刊中有关工具变量的文章时,我们可以发现作者花了大量篇幅来论证工具变量排他性约束这一假设的合理性,虽然不能从统计的角度对其进行直接检验,但是存在以下几种方法可以进一步增强我们对于排他性假设成立的信心:

2.1 定性分析

首先,工具变量的选取不是拍脑袋决定的,而是要在大量阅读相关文献并且在对背景知识十分熟悉之后才能确定。

所以,作者往往在引言部分就会对工具变量选取的理由进行一番定性的描述,重点解释为什么文章中选取的工具变量对被解释变量没有直接的影响,其中会涉及许多历史背景知识,并辅以一些简单的数据说明。一篇好的文章,读者往往在读完引言之后,就已经相信了作者的故事。

2.2 加入控制变量

第二种方法是尽可能对工具变量可能影响被解释的变量的其他渠道进行讨论,加入一些可能与工具变量以及被解释变量相关的控制变量。

假若工具变量真的通过这些其他渠道对被解释变量产生了影响,那么我们预期回归系数会发生较大改变;反之,则说明原先基础回归中的结果是稳健的。退一步说,哪怕真的存在工具变量不外生的情况,只要这种疑似的内生性不够大,我们仍然可以使用此工具变量。详见「IV 估计:工具变量不外生时也可以用!」

2.3 过度识别检验

当工具变量个数大于内生解释变量个数时,我们可以利用 Stata 进行「Sargan」检验、「Hansen J」检验,从而判断工具变量的外生性。详见「Stata:过度识别检验一文读懂」

2.4 证伪检验

证伪检验的思想是:假如第一阶段回归中工具变量的估计值等于零,并且工具变量又没有其他渠道可以作用于被解释变量,那么在简约式中其估计值也应该相应为零。

用公式表达以上思想,当排他性约束满足时,简约式的估计值 ρ,第一阶段的估计值 ϕ 与因果效应估计值 λ 之间存在以下关系式:

即:

所以,当第一阶段关系不存在,但简约式关系却在统计上显著时,意味着除了内生变量外,还有另外的作用渠道将工具变量与被解释变量联系起来,这就标志着对排他性约束的违背。

3. 文章实例

3.1 殖民起源 AER (2001)

Acemoglu et al. (2001) 这篇文章研究了制度因素对人均收入的影响,但是国家制度与人均收入之间存在很强的内生性问题:1. 反向因果:更富裕的国家倾向于建立更好的制度;2. 遗漏变量:存在共同影响制度和人均收入的因素;3. 测量误差:对机构变量的测量存在误差。

为解决内生性问题所带来的偏误,作者选取殖民时期欧洲定居者的死亡率作为制度变量的工具变量,对现今人均收入进行 2SLS 回归,其中蕴含的逻辑是:定居者死亡率较高 → 欧洲殖民者不能成功定居,所以他们的目的是尽可能的掠夺财富 → 建立的早期制度也是指向此目的,而不是保护产权 → 这些早期剥夺性的制度延续至今 → 对现今的人均收入产生负面的影响。

2SLS 的回归结果如图:

Source: The Colonial Origins of Comparative Development: An Empirical Investigation.

但是 2SLS 结果的有效性依赖于工具变量的排他性约束——过去的定居者死亡率对现在的人均收入没有直接影响,于是,文章开始论证为什么这个假设是合理的。

3.1.1 定性分析

一般说来,大家会担心欧洲定居者的高死亡率与现今的疾病环境有关联,从而对现在的经济表现有直接影响。但是作者指出,欧洲定居者的死亡病因往往是疟疾和黄热病,这些疾病虽然对欧洲人来说是致命的,但是由于当地成年人早就对这些疾病有了免疫力,当地人受到的影响非常有限,所以这种担心是不必要的。

3.1.2 加入控制变量

进一步地,文章控制了很多可能与定居者死亡率和经济产出二者都相关的变量,并且检验这些新加入的变量是否会影响文章的估计结果。

具体来说,作者首先在表 5 中加入了与制度、经济表现密切相关的控制变量:代表殖民起源的虚拟变量、代表法律起源的虚拟变量和代表宗教的虚拟变量。2SLS 新一轮的估计结果如图:

Source: The Colonial Origins of Comparative Development: An Empirical Investigation.

回归结果显示,在加入这些虚拟变量后,对估计结果几乎没有影响,说明基础回归的结果是稳健的。另外,作者纠正了以往研究中的一个误区,正如我们所看到的,假如遗漏了死亡率对于制度发展的影响,直接探究殖民起源与制度之间的关系,则会高估英属殖民地对制度表现的正向效应。

随后作者又在表 6 中控制了可能与死亡率相关的变量,比如气候和地理特征:

表 6 中还加入了1975 年人口中欧洲后裔的比重以及民族语言的分裂,结果仍然稳健。

Source: The Colonial Origins of Comparative Development: An Empirical Investigation.

需要指出的是,当加入诸如民族语言分裂这类内生变量时,会导致制度变量的系数估计发生向下的偏误。

最后表 7 中,文章又加入了代表疾病环境的控制变量,有疟疾流行度、预期寿命和婴儿死亡率,虽然系数因这些变量的内生性有所下偏,但机构对经济表现的影响仍然显著。

Source: The Colonial Origins of Comparative Development: An Empirical Investigation.

作者在这部分还讨论了「当今世界的贫富差距到底是由什么造成的?」,这是地理学派和制度学派争论不休的话题,显然,文章的实证结果支持的是制度学派的观点:当考虑欧洲定居者死亡率及其带来的后续对制度的影响后,像纬度、平均气温以及距海岸线的距离这些地理因素对现今收入就没有独立影响了。

3.1.3 过度识别检验

由于过度识别检验要求工具变量不止一个,所以作者在此部分又引入了代表欧洲人定居以及早期制度的一些工具变量。检验的步骤是:假设以上某个工具变量是真正外生的,在此基础上再加入定居者死亡率作为额外的工具变量,对这两种情况下 2SLS 的回归系数进行 Hausman 检验,看两组系数是否具有显著差异。

Source: The Colonial Origins of Comparative Development: An Empirical Investigation.

回归结果表明,在 5% 的显著性水平下,均未能拒绝两组系数相同的原假设,所以定居者死亡率除了制度这一渠道外,没有其他渠道可以对人居收入产生影响。

另外,Panel D 中,作者还提供了一个易于理解的过度识别假设:将想检验的工具变量 Z 直接放入因果效应方程,用其他工具变量 Z 作为内生变量的工具变量进行回归,即:

假如定居者死亡率没有其他作用渠道的话,那就可以预期它前面的系数 δ 是不显著的,观察表 8 中的回归结果,确实与这种预期相符合,这又增强了排他性约束成立的可能性。

3.2 奴隶贸易 AER (2011)

Nunn & Wantchekon (2011) 认为非洲历史上的奴隶贸易导致了人际间的不信任并延续至今,那些在奴隶贸易中受迫害越严重的种族的后裔们,越是对身边的亲属、邻居、政府等缺乏信任。

文章中的被解释变量——信任指标:是非洲民意调查中受访者报告的各种信任指标,核心解释变量——奴隶贸易指标:是受访者所在种族历史上奴隶出口的数量。

为解决二者间可能存在选择性偏差,作者选取奴隶贸易时期种族距海岸线的距离作为奴隶贸易指标的工具变量,很容易推知距海岸越近,种族被贩卖的奴隶数量越多。

在论证工具变量排他性约束方面,即距海岸线距离只能通过奴隶贸易这一唯一渠道影响信任,作者同样做出了许多努力,包括:定性分析、加入更多的控制变量以及证伪检验。由于前两个在殖民起源中已有所介绍,这里就主要介绍证伪检验。

3.2.1 证伪检验

文章中证伪检验的思路是:对于世界上其他没有经历过奴隶贸易的国家,由于它们第一阶段的关系不存在,所以简约式中距海岸线距离和信任之间的正向关系也不应该存在。用因果图表示如下:

于是,作者利用了亚洲民意调查和世界价值观调查 (WVS) 的样本对简约式进行了估计,结果呈现在表 7 和表 8 中:

Source: The Slave Trade and the Origins of Mistrust in Africa

Source: The Slave Trade and the Origins of Mistrust in Africa

利用不存在奴隶贸易的样本对简约式式进行估计,得到的估计结果均不显著,这表明我们没有找到距海岸线距离直接影响信任的证据,进一步证明了排他性约束的合理性。

4. 结语

排他性约束在工具变量识别策略中的重要地位不言而喻,甚至可以说一篇有关工具变量的实证文章,其成败的关键就是对排他性约束的论证是否足够充分以及论证过程是否具有说服力。

我们虽然永远不可能在统计意义上去验证这一假设是否成立,但通过以上学习,我们可以利用许多 “旁敲侧击” 的方法对这一假设进行试探,让我们的工具变量估计值更具说服力。

参考文献

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD