用FE-固定效应模型能做因果推断吗?

发布时间:2021-02-17 阅读 1096

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者:何屹 (中山大学)
邮箱heyi35@mail2.sysu.edu.cn

编者按:本文摘译自下文,特此致谢!

Source:Imai K, Kim I S. When should we use unit fixed effects regression models for causal inference with longitudinal data?[J]. American Journal of Political Science, 2019, 63(2): 467-490. -PDF-


目录


1. 简介

在大多数理论检验和政策评价中,因果关系推断是极为重要的。许多研究者在使用面板数据进行因果推断时,将个体固定效应模型作为默认方法。那么,什么时候应该用个体固定效应模型来进行面板数据的因果推断呢?

对于上述问题的回答,取决于更加关注不可观测的、不随时间变化的混淆变量还是结果变量与处理变量间的动态因果关系。当我们更关注前者时,个体固定效应模型是调整不可观测的、不随时间变化的混淆变量的有效工具;而当我们更关注后者时,基于边缘结构模型 (MSMs) 的 “按可观测变量选择 (selection-on-observables)” 方法可能更有效地解释了动态因果关系。至于同时调整不可观测的、不随时间变化的混淆变量和动态因果关系,目前并没有方法可以在不增加额外假设的条件下实现。

Imai 和 Kim (2019) 的这篇文章首先对个体固定效应模型的基本因果假设进行分析,接着引入一种新的非参匹配框架,通过建立匹配估计量和加权个体固定效应估计量之间的等价关系,实现了多样的识别策略,在不存在动态因果关系的条件下调整不可观测的因素。

2. 个体固定效应模型的因果识别假设

我们由基本的线性个体固定效应模型开始,拓展至非参框架下个体固定效应模型的因果假设。

2.1 线性个体固定效应模

假设一个均衡的、没有缺失的、包含 N 个个体和 T 期的面板数据集,且个体均从一个总体中随机抽样得到。对于每个在时期 t 的个体 iYit 为结果变量,Xit 为二值处理变量 (也称 “干预变量”)。线性个体固定效应回归模型如下:

在这个模型中,个体固定效应 αi 捕获了一系列无法观测的、不随时间变化的混淆变量 (也称 “混杂因素”)。定义每个固定效应 αi=h(Ui),其中 Ui 代表了一系列无法观测的、不随时间变化的混淆变量,h() 是一个未知的函数。

为了得到 β 的准确估计,通常假设干扰项 ϵit 符合严格的外生性,即:

由于 αi 可以是 Ui 的任何函数,上述外生性假设等同于:

我们称基于 (1) 和 (2) 式的模型为 LIN-FE。通过组内去心,可以得到 β 的最小二乘估计量:

其中,X¯i=t=1TXit/TY¯i=t=1TYit/T。如果面板数据符合 (1) 和 (2),那么 β^LIN-FE  是 β 的无偏估计量。

系数 β 的含义是 Xit 对 Yit 的平均同期效应。设定 Yit(x) 代表个体 i 在 t 时期处理状态为 Xit=x (x=0,1) 时对应的潜在结果。可知,式 (3) 表明了处理变量没有变化的个体对 β 的估计没有影响。因此,在 LIN-FE 下,因果效应的估计是处理状态有变化的个体间的平均处理效应:

在潜在结果的线性假设下,β=τ

2.2 非参框架下的因果识别分析

本部分中,我们在非参固定效应模型 (NP-FE) 的框架下利用有向无环图 (DAGs) 分析个体固定效应模型的基本因果假设。

我们放宽式 (1) 中的线性假设,并将式 (2) 中的均值独立扩大至统计独立,得到如下的非参固定效应模型 (NP-FE):

假设一 (非参固定效应模型):对于每个 i=1,2,,N 和 t=1,2,,T

其中,g() 可以是任何函数。

我们使用有向无环图 (DAGs) 来考察 NP-FE 的因果假设。 DAG 可以用来表示相应的非参结构方程模型,不需要函数形式和变量分布的假设,并且允许个体影响的异质性。简便起见,图 1 的 DAG 展示了三期的因果关系,但我们假设所有时期均存在着相同的因果关系。

图 1:三期的个体固定效应模型有向无环图
图 1:三期的个体固定效应模型有向无环图

在图 1 的 DAG 中,黑色实线箭头表示可能存在的直接因果效应,没有箭头表示不存在直接因果效应的假设。此外,我们假设 DAGs 已包含了所有相关的、能被观测或不可观测的变量。因此,图 1 的 DAG 也假设不存在不可观测的、随时间变化的混淆变量。

通过图 1 的 DAG ,我们可以将 NP-FE 的假设一理解为以下四条假设:

  • 假设 (a):不存在不可观测的、随时间变化的混淆变量;
  • 假设 (b):过去的结果变量不直接影响现在的结果变量;
  • 假设 (c):过去的结果变量不直接影响现在的处理变量;
  • 假设 (d):过去的处理变量不直接影响现在的结果变量。

接着,我们采用潜在结果框架对分配机制的假设进行说明。我们将假设 (d) 称为不存在延滞效应,用数学公式表达如下:

假设二 (无延滞效应):对于每个 i=1,2,,N 和 t=1,2,,T ,潜在结果为:

我们将假设的随机化实验分配机制表达如下:

假设三 (序列可忽略性,非混杂性):对于每个 i=1,2,,N 和 t=1,2,,T

假设三意味着给定历史处理变量和 Ui 的条件下,当期的处理变量独立于任意时期的潜在结果,对应着 NP-FE 的假设 (a) 与 (c) 和 式 (2) 式所示的 LIN-FE 的严格外生性假设。例如,个体不会根据自己任意时期的潜在结果 (在捕鱼或狩猎上的生产率) 决定当期处理变量的取值 (是进行捕鱼还是狩猎) ,即假设 (c)。另一方面,在考察教育对个人收入的影响时,个体的处理变量 (教育水平) 取值是随机化的,与其他未观测因素 ϵit (其他影响收入的因素) 不相关,满足外生性假设。由大数定律可知,随机化的关键作用是可以平衡个体间其他因素的分布,从而消除选择性偏差,使得个体间具有可比性。

2.3 哪些因果识别假设可以被放宽?

在固定效应模型中,不存在不可观测的、随时间变化的混淆变量的假设 (假设 a) 是较难放宽的。因此,我们对其他三项识别假设 (假设 b、c 、d) 进行探讨。

首先,假设 (b) 是可以被放宽的。假设过去的结果变量可以直接影响现在的结果变量,如图 2 (a) 所示,在这种情形下,过去的结果变量通常不会混淆现在的处理变量和现在的结果变量之间的因果关系,因为过去的结果变量没有直接影响现在的处理变量。

接着,我们设想一下过去的处理变量可以直接影响现在的结果变量的情景,即放宽假设 (d) 。通常来说,研究者通过将处理变量的滞后项加入模型来中解决这个问题。图 2 (b) 的 DAG 概括了上述模型:

在这个模型下,假设三依旧成立。图 1 和图 2 (b) 中的 DAG 唯一的差别是,在后者中,我们必须调整过去的处理变量,因为它们混淆了现在的处理变量和结果变量间的因果关系。

但是,我们无法同时非参调整所有过去的处理变量和不可观测的、不随时间变化的混淆变量 Ui 。非参调整即根据混淆变量进行精确匹配,对于处理组个体找到相同特征的控制组个体,匹配后,利用控制组结果作为处理组反事实结果的估计。

为了调整 Ui ,我们需要根据 Ui 进行匹配,这要求我们比较同一组内不同时期的处理组和控制组观测。然而,如式 (8) 所示,同一组内不同时期的观测不具有相同的处理历史。

因此,在实际操作中,研究者通常加入几期滞后项到模型中。然而,加入模型的处理变量滞后项的数量通常是随意选取且很少有实际证据支撑的。

图 2:个体固定效应模型的因果识别假设
图 2:个体固定效应模型的因果识别假设

最后,我们考虑放宽假设 (c) 的情形,即过去的结果变量可以直接影响现在的处理变量。如图 2 (c) 所示,这违背了假设三,因为过去的干扰项和现在的处理变量间存在着相关关系,导致内生性。

为了解决这个问题,通常会在线性个体固定效应模型中加入结果变量的滞后项:

图 2 (d) 中的 DAG 对应着 (8) 式所示的模型。这个模型的识别策略建立在工具变量的基础上。然而,每个工具变量的有效性依赖于其对结果变量没有直接因果效应的假设。在实际操作中,这些假设并没有实际证据的支撑。

总的来说,LIN-FE 和其非参数拓展形式 NP-FE 需要三项核心的因果识别假设:

  • 不存在不可观测的、随时间变化的混淆变量;
  • 过去的处理变量不影响现在的结果变量;
  • 过去的结果变量不影响现在的处理变量。

2.4 加入可观测的、随时间变化的混淆变量

由于固定效应模型只能调整不随时间变化的、不可观测的混淆变量,研究者通常在模型中加入一系列可观测的、随时间变化的混淆变量 Zit 作为协变量来增强假设的可信度。即使在这种情况下,上述因果识别分析仍保持不变。然而,我们必须额外假设结果变量和可观测的、随时间变化的混淆变量之间没有动态因果关系。

假设四 (加入 Zit 的非参固定效应模型):对于每个 i=1,2,,N 和 t=1,2,,T

其中,Zi=(Zi1Zi2Zit)

在这个模型中,只有同期的 Zit 和 Ui 会混淆 Xit 和 Yit 间的同期因果关系。过去的处理变量和过去的随时间变化的混淆变量不需要被调整,因为它们不直接影响现在的结果变量 Yit

图 3:(对应假设四) 三期的个体固定效应模型有向无环图
图 3:(对应假设四) 三期的个体固定效应模型有向无环图

现在,假设 Zit 可以直接影响未来和现在的结果变量 Yit ,其中 tt 。在这种情形下,我们需要通过加入相关的混淆变量滞后项 (Zit , $t^{\prime}

进一步地,与不存在 Zit 的 NP-FE 类似,如果结果变量 Yit 直接或间接通过 Zit 影响未来的处理变量 Xit (t>t),则 ϵit 和 Zit 间存在相关关系,因此违背了假设四。

上述的讨论表明,无论 Zit 是否存在,研究者都面临着相同的权衡:选择调整不可观测的、不随时间变化的混淆变量还是动态因果关系。

3. 新的非参匹配框架

因果推断的重点在于如何通过比较处理组和控制组的观测值,可信地估计反事实结果。对于一个处理组观测,我们实际观测到处理状况下的结果,但是我们需要使用观测到的控制组观测的结果来推断处理组观测的反事实结果。匹配是一种非参数方法,通过找到一组与每个处理组观测相似的控制组观测来估计反事实结果。

本部分中,我们提出了一种组内匹配估计量,放宽了固定效应估计量的线性假设。尽管动态因果关系和不可观测的、不随时间变化的混淆变量间的权衡是不可避免的,放宽线性个体固定效应模型的函数形式假设可以在识别假设满足时得到更稳健的推断。

3.1 组内匹配估计量的一致性

命题 1 (线性固定效应估计量的不一致性):假设 E(Yit2)< 且 E(CiSi2)>0 ,其中 Si2=t=1T(XitX¯i)2/(T1) 。在假设二、三和简单随机抽样的条件下,(3) 式中的线性固定效应估计量不是 (4) 式定义的平均处理效应的一致估计量:

之前的讨论发现,在假设二、三下,即使 Ui 是不可观测的,但我们可以通过比较同一组内不同时期的处理组和控制组观测来非参数地调整它们。这种组内比较的方法促使了以下匹配估计量的产生:

其中,$C_{i}=1\left\{0<\sum_{t=1}^{T} X_{i t}

进一步地,我们定义匹配集合 Mit ,包含与观测 (i,t) 匹配的观测。例如,在 (11) 式的估计量中,每个处理组 (控制组) 观测与同一组内所有的控制组 (处理组) 观测相匹配。此时,匹配集合为:

我们的匹配框架能够通过使用不同的匹配集合来实现多种识别策略。对于任意给定的匹配集合 Mit ,我们可以定义对应的组内匹配估计量 τ^

其中,当 Xit=x 时, Yit(x) 可以被观测;当 Xit=1x 时,我们使用 (i,t) 匹配集合的平均结果来估计 Yit(x)

其中,|Mit| 代表了匹配集合中观测的个数,Dit=1{|Mit|>0} 。在 (12) 式定义的匹配集合中,可以发现对任何 tDit=Ci

3.2 基于组内比较的识别策略

3.2.1 根据协变量进行匹配

正如在回归模型中加入混淆变量作为控制变量可以消除模型的混杂偏差 (confounding bias) ,当根据 Zit 进行匹配可以消除混杂偏差时,组内最近邻匹配估计量是 ATE 的一致估计量。

此时,组内最近邻匹配对应的匹配集合为:

其中,D(,) 是一种距离测度 (如马氏距离) ,并且

有了匹配集合后,组内最近邻匹配估计量可以通过 (13) 式进行计算。

3.2.2 Before-and-After Design

我们设计事前-事后 (Before-and-After, BA ) 比较方法,其中,我们假设平均潜在结果在短时间内没有时间趋势。由于 BA 还需要无延滞效应的假设,对于一个给定的个体,处理状态只变化一次时,BA 可能最为有用。在 BA 下,我们比较处理状态变化前后紧接着的两个结果。无时间趋势的假设表述如下:

假设五 (事前-事后设计):对于 i=1,2,,N 和 t=1,2,,T

其中,x{0,1}

在假设二和假设五下,处理状态变化前后结果的平均差异是局部 ATE 的有效估计量,即 E(Yit(1)Yit(0)XitXi,t1)

为了在我们的匹配框架下实施 BA 设计,我们比较两段紧挨着的有着相反处理状态的时期内的观测。此时,匹配集合如下: