工具变量:教育回报IV探讨

发布时间:2022-11-27 阅读 1206

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:王美甜 (东北财经大学)
邮箱17866548843l@163.com


目录


1. 基于 Card (1995) 讨论教育回报的 IV

1.1 描述性统计分析

Card (1995) 使用的数据来源于美国 1966 至 1981 年对青年男性的纵向调查数据 (NLSYM),对调查样本的描述性统计结果见下图所示。

统计结果显示:NLSYM 样本不是随机的对美国人口进行抽样的结果。NLSYM 样本中包含的位于南部地区的男性和黑人男性的比例较大。1976 年的子样本的统计结果显示:

  • 41% 的男性居住在南部地区,64%-65% 的男性居住在标准都市区统计区域 (SMSA),67%-68% 的男性在 1966 年居住在 4 年制大学附近。
  • 在家庭组成方面,78%-79% 的被调查者在 14 岁时与父母同住在一起,10% 仅与母亲住在一起,其余 11%-12% 与亲戚或继父继母同住在一起。
  • 父亲与母亲的平均受教育年限为 10 年 (22% 与 11% 的样本分别缺少父亲与母亲的受教育年限,将缺少的数据用父母受教育水平的平均值进行替代)。
  • 1966 年的访问还调查了世界知识测试得分,这项测试在以前研究教育回报率的文献中被用来度量能力。
  • 被调查者在 1976 年的平均受教育年限是 13.2 年。其中,1/3 的样本报告了 12 年的受教育水平,23% 的样本报告有上大学,27% 的样本报告了大于 16 年的受教育水平。

1.2 使用 OLS 估计的回归结果

作者先使用了 OLS 估计方法研究教育回报率问题。具体建立了线性回归模型,并在所有模型中都包括了线性的受教育水平连续型变量、工作年数及其二次项、种族哑变量、居住在南部地区与大都市区 (SMSA) 地区哑变量。回归结果如下图所示。

OLS 估计结果显示受教育年数的系数相当稳定,每增加一年教育,收入增加 7.3%-7.5%。由于有许多原因会带来受教育年数与随机误差项相关。例如遗漏能力变量、受教育年数存在测量误差,因此上述 OLS 结果可能会导致教育回报率的有偏估计。如果我们找到与受教育年数相关,但不与工资相关的变量作为受教育年数的工具变量,就可以对“真实”的教育回报率进行一致估计。

1.3 使用 2SLS 估计

1.3.1 IV 相关性说明

作者选取了 是否在大学附近成长 作为受教育年数的工具变量。其理由是那些没有在大学附近成长的学生,上大学的成本会很高。这些较高的成本会减少他们上大学,这个情况至少对于家庭收入低的学生是成立的。

为了证明是否在大学附近成长与受教育年数的相关性,作者将整个样本按照受教育年数的预测值分成了四份 (按照四分位数的值进行划分),然后在这四份样本中按照是否在大学附近成长进行分组,并计算这四份样本的受教育年数观察值的平均值。计算结果如下图所示:

从上图的计算结果可以看到,在每一个受教育年数预测值的四分位数上,在大学附近成长的样本的受教育年数都大于未在大学附近成长的样本,可以推测是否在大学附近成长与受教育年数相关。具体来看,

  • 在三个较高的受教育年数预测值分位数上,在是否与大学邻近的样本之间,受教育年数的差别较小,相差 0.2-0.4 年。
  • 在最低的受教育年数预测值分位数上,是否与大学邻近的受教育年数的差值为 1.1 年。
  • 在大学附近成长对那些不倾向于继续上学的男性 (例如单亲家庭、父母受教育年数少、在南部农村地区) 的影响是较大的。

1.3.2 使用 2SLS 法的估计结果

使用 是否在大学附近成长 作为受教育年数的工具变量,并用 2SLS 法建立回归方程。下表中呈现了一系列约减形式的受教育年数和工资方程,以及工资的结构方程。其中,

  • 第 1 列与第 2 列显示了受教育年数对是否与大学邻近的回归结果。
  • 第 3 列与第 4 列显示了去掉受教育年数之后的工资的约减方程的回归结果。
  • 第 5 列与第 6 列报告了使用 IV 的教育回报率的估计值 (可以用是否在大学附近成长在工资约减方程中的系数值除以在受教育年数方程中的系数值计算)。
  • Panel A 部分将工作年数及其平方项视为外生变量,Panel B 中将工作年数及其平方项视为内生变量,认为若受教育年数有测量误差,则工作年数也有测量误差,并使用年龄及其平方项作为工作年数及其平方项的工具变量。

从上表的结果中可以看到,不论模型中是否包括家庭背景方面的变量,不论将工作年数及其平方项视为外生或内生变量,教育回报率的结果是十分相近的,估计值介于 0.12-0.14 之间。这些值比 OLS 估计结果高出 50-60%,与已有的一些文献结果是类似的。但是 IV 估计的标准误较大,我们不能拒绝这个假设:IV 与 OLS 估计值的差别是由抽样误差带来的。

在大学附近成长对受教育年数具有正效应 (增加 0.32-0.38 年),对工资也具有正效应 (增加 4.2%-4.8%),是因为模型 (3) 和 (4) 中没有受教育年数变量。

1.3.3 IV 的外生性证明

从上图中可以看出,是否在大学附近成长对于家庭受教育背景较差的学生的教育回报率的影响是较大的。鉴于此,作者选取 在大学附近成长与家庭受教育背景较差的交乘项 作为受教育年数的工具变量,并检验是否在大学附近成长与工资的相关性,建立受教育年数与工资的约减方程、工资的结构方程进行 OLS 与 IV 估计。其中,家庭受教育背景较差变量的定义是父亲和母亲都没有高中毕业。回归结果如下表所示:

在以上回归结果中,

  • 第 1 列与第 2 列结果显示了在大学附近成长对受教育年数与工资的影响效果,在家庭受教育背景较差的男性的群体中更大。
  • 第 3 列报告了使用在大学附近成长与家庭受教育背景较差的交乘项作为工具变量的估计结果。与表 3 中的结果相比要小一些,并且标准误要略大一些。结果还显示了在大学附近成长对工资的影响很小,并且不显著,表明是否在大学附近成长这个工具变量的外生性。
  • 在第 4 列回归模型中,作者使用 8 类表示家庭受教育背景的哑变量与是否在大学附近成长的交乘项作为工具变量进行 IV 估计,结果显示标准误有所减小,系数值略微增加。

上述结果显示,不论如何将家庭受教育背景进行分类,不论使用交乘项作为工具变量还是仅使用是否在大学附近成长作为工具变量,估计结果是相近的。并且,是否在大学附近成长对工资的影响效果是很小的并且不显著,证明了工具变量的外生性。

1.4 Card (1995) 总结

最后,我们对 Card (2015) 这篇文献在工具变量方面的基本思想进行总结:

  • IV 的选择:作者使用是否在大学附近成长作为受教育年数的工具变量。
  • IV的相关性:在大学附近成长的男性的受教育年数与工资显著高于未在大学附近成长的男性。并且,对于那些家庭教育背景较差的男性来说,在大学附近成长对受教育年数与工资的正效应更大。
  • IV的外生性:作者利用在大学附近成长对那些家庭教育背景较差的男性的正效应更大的特征,使用是否在大学附近成长与家庭教育背景较差的交乘项作为工具变量,这样工资的结构方程中可以直接包括是否在大学附近成长这个变量,以检验它的显著性。使用交乘项作为工具变量的结果与仅使用是否在大学附近成长作为工具变量的估计结果是相近的,并且,是否在大学附近成长对工资的影响很小且不显著。
  • 使用工具变量的 2SLS 与 OLS 结果比较:使用是否在大学附近成长作为 IV、使用 2SLS 法对受教育年数的边际影响的估计结果介于 10-14%,与 OLS 估计结果相比 (7.3%),OLS 估计结果是下偏的。当对模型中变量的设定进行稍微改变时,IV 估计结果是稳健的。这些结果与已有的一些文献的结论是相似的,但却与 OLS会高估受教育年数的边际效应的普遍认知是相反的。

2. 基于 Adams (2021) 讨论教育回报的 IV

2.1 工具变量法估计教育回报

2.1.1 工具变量估计法的特性

如下图所示,我们在运用 IV 估计法时,工具变量 Z 有三个性质:

  • 工具变量 Z 对政策变量 X 有直接影响 (ZX)
  • 工具变量 Z 独立于不可观测因素 U (UZ)
  • 工具变量 Z 对 X 的影响独立于不可观测因素对 X 的影响 (X=dZ+U)

下图中,Z 对 X 的影响为 dZ 对 Y 的影响为 b×d,通过将二者相除,我们可以得到 X 对 Y 的影响为 bd/d=b。在估计方程中可以写为下式:

首先,我们用 OLS 做 yi 对 zi 的无偏估计可得到 b×d;然后再做 xi 对 zi 的无偏估计得到 d,将二者相除即可得到 yi 对 xi 的无偏估计 b

2.1.2 用工具变量法估计教育回报

将教育回报这一案例应用到上图,即可得到如下关系图:

Card (1995) 选用是否在大学附近生长作为教育的工具变量,但是青年男性的不可观测因素可能会同时影响他们的教育年数以及收入。例如,那些来自抚育家庭的青年男性可能更倾向于上大学,因为家庭可以负担他们上大学的成本。而这些人获得高收入可能是由于家庭关系而非教育本身。这种混合影响导致我们得到的 β 是有偏的。

2.2 工具变量的有效性检验

基于以上分析,Adams (2021) 提出两种检验工具变量有效性的方法:第一,将青年男性分为“住在大学附近”和“不住在大学附近”两组,分别对教育、经验等进行回归判断 IV 的有效性。第二,通过对两个工具变量回归结果的比较判断 IV 的有效性。

2.2.1 分组回归

我们将青年男性分为“住在大学附近”和“不住在大学附近”两组,分别进行回归,结果如下表所示。我们可以看出在大学附近成长的青年男性往往具有更多的教育和更少的工作经验,但是他们更可能是非黑人、更可能住在城市,而非黑人和住在市区都与收入存在正相关关系。这说明“距大学的距离”并不是一个好的工具变量。

2.2.2 过度识别检验

假设我们有两个工具变量:是否在大学附近成长 (z1) 和 14 岁时父母是否陪伴 (z2 )。作者认为在 4 年制大学附近成长更有可能上大学,14 岁时父母在身边陪伴更有可能上大学。如果 z1 和 z2 都是有效工具变量,则两个 IV 得到的估计结果应该一致,即:

作者利用矩阵代数方法,在两种不同工具变量下估计教育回报率,结果显示在两种 IV 下估计结果差值均值为 0.68,且在 90% 的置信区间包括 0。因此我们不能拒绝原假设,即不能拒绝“距离 4 年制大学的距离”和“14 岁时父母陪伴”均是有效工具变量的假设。

但是这也不能够说明二者均是有效的工具变量,因为可能存在其他情况证明其中一个或两个工具变量是无效的。

2.3 LATE 估计教育回报

2.3.1 LATE 基本思想

在上一小节我们已经提到,工具变量法要求工具变量对 X 的影响能够独立于不可观测因素 U,在某种情况下我们可以放弃这一条件,重新解释回归结果。作者就这一问题进行讨论并提出解决方案——局部平均处理效应 (LATE)。

就教育回报这一问题,我们假设每个人从政策中获得相同的效应是不合理的,即这种因果识别可能存在异质性。此时工具变量法失效,但我们可以采用局部平均处理效应 (LATE)。如果我们放弃“工具变量对 X 的影响能够独立于不可观测因素 U” 这一条件,即允许 U 和 Z 二者相互作用影响 X,此时我们无法衡量平均处理效应,但在某些情况下,我们可以将估计量解释为样本子集 (局部) 平均处理效应。

假设样本中有四类人群:

  • Compliers:在大学附近成长则上大学,不在大学附近成长则不上大学;
  • Always Takers:无论是否在大学附近成长,均上大学;
  • Never Takers:无论是否在大学附近成长,均不上大学;
  • Defiers:在大学附近成长则不上大学,不在大学附近成长则上大学 (由于单调性假设,我们认为该类型人群不存在)。

居住地距离大学的距离可以视为上大学的成本,当成本发生变化,需求也会变化。在以上四类人群中只有 Compliers 会因上学成本变化而改变需求。

根据总期望法则可以得出每个类型 (C、A、N、D) 的意向分析效应:

基于工具变量和类型我们可以计算出平均产出:

由于 Z 只能通过 X 影响 YZ 与 Y 不相关,即:

基于上式可以得到:

我们可以看出 Always Taker 和 Never Taker 的意向分析回归结果为 0,由于存在单调性假设,故不存在 Defiers。这就将意向分析简化为只包括 Compliers 这一种类型:

将上式转化为 LATE 估计量:

2.3.2 LATE 在教育回报问题中的应用

作者分别将“是否在大学附近成长”和“14 岁时父母是否陪伴”作为工具变量,分别运用 LATE 估计教育对收入的影响。当“是否在大学附近成长”做 IV 时,教育每增加一年,收入会提升 0.32%;当“14 岁时父母是否陪伴” 做 IV 时,教育每增加一年,收入会提升 0.18%。

LATE 的估计结果说明教育回报是具有异质性的。那些因为距离大学近而上大学的人具有更高的教育回报率,而那些因为父母陪伴而上大学的人具有更低的教育回报率。

2.4 Adams (2021) 总结

Adams (2021) 对用 OLS、IV、LATE 三种方法研究教育回报问题做如下总结:

  • 由于有许多原因会带来受教育年数与随机误差项相关,OLS 结果可能会导致教育回报率的有偏估计。
  • Card (1995) 提出将“是否在大学附近成长”作为教育的工具变量会得到教育回报的无偏估计。在大学附近成长会降低人们上大学的成本,进而使得人们更倾向于上大学。IV 估计法得到的结果是 OLS 的 2 倍。
  • IV 估计法需要假定工具变量 Z 对 X 的影响能够独立于不可观测因素 U,而 LATE 允许放松这一假定,得到教育对收入的异质性影响。

3. 基于 Kédagni (2021) 讨论教育回报的 IV

作者认为当利用工具变量处理内生性问题时,如果工具变量无效,可能会导致估计结果偏误。当工具变量与一阶段不可观察的随机干扰项相关时,将会导致工具变量无效。作者提出如果选择一个工具变量的代理变量 (proxy),不仅可以部分识别局部平均处理效应,而且可以识别 complier 的潜在收入分布。作者就 LATE 提出 3 个假设:

  • Selection of Types (ST):假设存在工具变量 Z 以及代理变量 W,则给定样本类型 T,向量 (Z,W) 独立于潜在收入 Yd。样本类型 T 分别为 Always takers、Compliers、Never takers、Defiers。
  • Monotonicity (MON):作者假设距离大学越近,上学成本越低,越容易选择上大学。故不存在距离大学越远越容易上大学的 Defiers。
  • Relevance (REL):对于 d{0,1},存在 w0d 和 w1d 满足αd(w1d)αd(w0d)

3.1 将上大学距离作为工具变量

数据来源:本文使用的数据来源于美国 1966 至 1981 年间对青年男性的纵向调查数据 (NLSYM)。被解释变量 Y 为时薪的对数 (lwage),政策变量 D 为大学学位 (college),工具变量 Z 为是否在 4 年制大学附近成长 (near4),代理变量 W 为 14 岁时父母是否在身边陪伴 (momdad14)。

作者认为该数据满足 LATE 的 REL 相关性假设以及 MON 单调性假设,但是未必满足 ST 假设。为证明 LATE 的 REL 相关性假设,作者就“是否上大学”对“是否在 4 年制大学附近成长”以及“14 岁时父母是否在身边陪伴”做线性回归和 Logit 回归,回归结果如下表所示。从表中可以看出在两种方法下,“在 4 年制大学附近成长”以及“14 岁时父母在身边陪伴”都与上大学显著正相关,相关性成立。

同时,上大学的需求不会随着上大学成本增加而增加,这说明 MON 单调性成立。然而,ST 假设要求 W 和 Z 与 Yd 不相关,换言之, W 和 Z 只能通过影响政策变量 D 来影响潜在收入。作者用 IQ 表示个人能力,而能力是影响收入的重要因素。将 IQ 对 Z 和 W 做回归,回归结果如下表所示,我们可以看出“在 4 年制大学附近成长”以及“14 岁时父母在身边陪伴”都与 IQ 显著正相关,这意味着 LATE 的 ST 假设不成立。

3.2 LATE 实证边界范围

基于以上分析,我们得出“距大学的距离”不是一个有效的工具变量。作者将“14 岁时父母是否在身边陪伴”作为“是否在 4 年制大学附近成长”的代理变量,并进行 2SLS 回归分析,回归结果如下表所示:

从表中我们可以看出两阶段最小二乘估计量为 2.2737,LATE 的置信集为 [0.32,0.58],说明大学对工资的影响不能被简单解释为因果效应。对于 Complier 来说,教育对收入的影响区间为 [0.32,0.58],这意味着对于那些因为住在大学附近而上大学的人来说,大学学位会使这部分人收入增加 32% 至 58%。

3.3 将上大学距离作为代理变量

以上分析将“是否在大学附近成长”作为教育的工具变量,该工具变量是可观测的。在该部分作者将“上大学的成本”作为教育的工具变量 Z。由于上大学成本不能够准确观测到,而距离大学的距离越近,上大学的成本越低。故作者选用“距离大学的距离”作为工具变量的代理变量 W。此时被解释变量 Y 为时薪的对数 (lwage),政策变量 D 为大学学位 (college),工具变量 Z 为上大学的成本,代理变量 W 为距离大学的距离。

从上表我们可以看出,对于那些因为上大学成本低而上大学的人来说,大学学位可以使平均工资增加 15%-30%,这一结果与可以为旨在减少大学教育成本的政策提供支持。

值得注意的是,当我们分别将“距大学距离”以及“上大学成本”作为工具变量时,计算的 LATE 边界是不同的。将“距大学的距离”作为工具变量时,LATE 上确界和下确界分别为 [0.32,0.58];将“上大学成本”作为工具变量时,LATE 上确界和下确界分别为 [0.15,0.30]。这表明当 Complier 样本中包含的个体不同时,大学教育对收入的影响是具有异质性的。

3.4 Kédagni (2021) 总结

作者在本文提出一种新的识别策略——当工具变量与随机干扰项相关,进而与被解释变量 Y 相关时,虽然此时工具变量 IV 是无效的,但是此时可以给工具变量 IV 找一个代理变量 W。这使得研究者能够部分识别 Complier 的潜在产出分布,在许多尾部限制下,该分布是点识别的。另外,当工具变量是不可观测时,比如将上大学成本作为 IV,只要能够找到该工具变量的代理变量 W,该方法也适用。

作者采用 NLSYM 样本数据,将距离大学距离作为上大学成本的代理变量,估计 Compliers 子样本大学教育对于收入的影响。研究发现,大学学位对于收入具有显著正向影响,对于那些仅仅因为上大学成本低而获得大学学位的人来说,大学学位会使他们的小时收入增加 15%-30%。

4. 总结

在解决内生性问题上,工具变量法是一个非常受欢迎的手段。但是正如推文题目所言——找个 IV 不易呀!如果在模型中*引入一个新的工具变量 z,它需要具有以下性质:z 的变化与 x 的变化相关,即相关性;除了 z 会间接的通过影响 x 来影响 y 之外,z 的变化不会导致 y 的变化,即外生性。

相对于相关性来说,工具变量的外生性很难满足。如果外生性难以满足,我们便认为该工具变量为“无效工具变量”。那么,当工具变量无效时,IV 估计法就不能用了吗?显然不是,此时我们无法衡量平均处理效应,但在某些情况下,我们可以将估计量解释为样本子集 (局部) 平均处理效应 (LATE)。LATE 允许放松“Z 对 X 的影响能够独立于不可观测因素 U”这一条件,得到教育对收入的异质性影响。

另外,如果工具变量是一个不可观测变量怎么办?比如上大学成本包括经济成本、机会成本、心理成本等,将上大学的成本作为教育的工具变量,上大学的成本不能被准确观测到。Kédagni (2021) 提出只要能够找到该工具变量的代理变量 W,研究者也能够部分识别 Complier 的潜在产出分布,在许多尾部限制下,该分布是点识别的。

5. 参考文献

  • Card D. Using geographic variation in college proximity to estimate the return to schooling[J]. 1993. -PDF-
  • Kédagni D. Identifying treatment effects in the presence of confounded types[J]. Journal of Econometrics, 2021. -PDF-
  • Adams C P. Learning Microeconometrics with R[M]. Chapman and Hall/CRC, 2020. -PDF-

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh