不用太关心控制变量,真的!

发布时间:2020-07-29 阅读 937

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 刘琦(剑桥大学)
邮箱: ql301@cam.ac.uk

[source]: Hünermund P, Louw B. On the Nuisance of Control Variables in Regression Analysis[J]. arXiv preprint arXiv:2005.10314, 2020. -Link-


目录


在回归分析中,我们经常会引入「控制变量」来更好的评估自变量和因变量之间的因果关系。在这篇文章中,我们认为控制变量本身是不具有因果解释的。因此,我们建议在实证研究论文的结果部分「不要讨论其边际效应」。

1. 引言

多元回归分析 (multivariate regression) 是战略管理和经济学实证研究中的重要工具。这种方法通过引入控制变量来缓解混杂变量对因果效应估计的干扰。尽管控制变量在因果推断中处在一个很重要的地位,但在实证研究中,学者经常夸大其作用。

在本文中,我们认为:虽然控制变量对于因果关系的识别至关重要,但其本身通常不具有结构性解释。即使是有效的控制变量,也常常会与其他未观察到 (或不能观测到) 的因素(unobserved factors)关联,从因果推断的角度来看,这使得它们的边际效应无法解释 (Westreich 和 Greenland,2013; Keele等,2020)。因此,研究人员应考虑在解释其分析结果时完全忽略它们。

然而,在研究中,从控制变量中得出实质性结论的现象很普遍,例如,「控制变量的影响符合预期」 、「在结果中,我们的控制变量的结果值得注意」 等表述。具体来看,我们对近五年来在 Strategic Management Journal 上使用参数回归模型的论文进行了分析,发现有近 47% 的文章明确讨论了控制变量的估计效果。

此外,审稿人也经常会以「尽管这些控制变量并不是分析的主要重点,但他们仍然可以提供有价值的信息」为依据,要求论文作者提供控制变量系数的经济解释的情况。

2. 控制变量的结构性解释

Durand 和 Vaara (2009) 在战略管理的文献中,首次引入因果图进行实证研究的逻辑梳理,并且高度评价其作用。考虑到回归中解释变量与控制变量间关系的复杂性,接下来,我们将使用因果图进行描述分析 (Pearl,2000; Hünermund,Bareinboim 2019)。

图 a 给出了一个简单的有关处理变量 X (treatment variable) 和结果变量 Y (outcome variable) 的经济模型,并且两个变量之间的关系被箭头连接,用来表明两个因素之间的因果关系。此外,Z1 和 Z2 是两个可能会影响处理变量和结果变量的混杂因素,是相互关联的 (correlated),并通过图中的虚线双向弧线来表示。同时,Z1 和 Z2 这种相互关联的关系,也给处理变量和结果变量之间的关系提供了一个活动途径 (Pearl,2000)。因此,X 和 Y不仅通过真正的因果路径 XY 连接,而且还通过第二条路径 XZ1 (Z1 对 X 的因果关系)、Z2Y (Z2 对 Y 的因果关系)、以及 Z1Z2 (Z1 和 Z2 有相互关联的作用) 来连接,这会产生虚假的非因果关系。

在回归分析中,控制变量正好可以阻止此类活动 (backdoor) 的路径。故根据图 a,研究人员可以选择控制 Z1 或者 Z2 (两者都可以被用来确定因果关系)以获得 X 对 Y 的无污染影响。

尽管如此,在控制 Z1 的情况下,其边际效应本身将不对应于 Z1 对 Y 的任何因果效应。这主要是因为 Z1 与 Z2 相关,Z1 将部分吸收 Z2 对 Y 的因果影响 (Cinelli and Hazlett,2020)。

图 b 描绘了一个包含几组控制变量的更为复杂的示例,并且每组都足以确定 X 对 Y 的因果关系 (Textor 和 Liśkiewicz,2012)。在这种情况下:一种可能性是仅控制 Z1,从而阻止所有通过后门进入 X 的路径;第二种,控制 Y 的直接影响因素 (Z3Z4 和 Z5),这也将阻止所有后门路径;第三种选择是控制整个混杂因素 (Z1Z2Z3Z4 和 Z5),这将是最耗费数据的策略,并且由于自由度较低,将会导致估算值不精确。这个例子也说明了用于识别因果关系 X 的控制变量组个数 (在此为 Z1),通常小于一个模型中混杂变量的总数。同时,如果 Y 的所有直接影响因素 (此处为 Z3Z4 和 Z5)在回归中都考虑到,则控制变量的估计可以得到一个结构性解释。但这又不太可能实现,因为在许多实际环境中,影响 Y 的因素可能会很多。

3. 对实证研究分析的启示

对有偏差 (biased) 的控制变量系数的边际效应解释是存在问题的,研究人员可能会发现错误的结论,除非可以确定在回归分析中考虑了结果变量的所有相关影响因素 (all-causes regression),否则不建议在实证研究中讨论控制变量的系数。同时,我们也建议仅将控制变量视为识别因果关系的干扰项,并不要在报告结果中展示 (Liang 和 Zeger,1995)。

我们对控制变量系数解释方式的建议也适用于非参数匹配估计 (Heckman 等,1998) 和现代机器学习,特别是高维设置 (Belloni 等,2014)。

简而言之,我们不需要过多的担心「控制变量的系数变化并没有预期的迹象」。因为在实际操作中控制变量的估计总是可能会产生偏差。相反,研究人员应该更加专注于解释主要变量的边际效应。相比之下,控制变量几乎没有实质性意义,我们可以放心地省略或只在附录中讨论。这样不仅会有效阻止研究人员从控制变量中得出错误的因果结论,而且还简化实证研究论文的讨论部分,并节省宝贵的资源用来讨论主要变量的经济效果。

参考文献

  • Hünermund P, Louw B. On the Nuisance of Control Variables in Regression Analysis[J]. arXiv preprint arXiv:2005.10314, 2020. -Link-
  • Westreich D, Greenland S. The table 2 fallacy: presenting and interpreting confounder and modifier coefficients[J]. American journal of epidemiology, 2013, 177(4): 292-298. -Link-
  • Keele L, Stevenson R T, Elwert F. The causal interpretation of estimated associations in regression models[J]. Political Science Research and Methods, 2020, 8(1): 1-13. -Link-
  • Durand R, Vaara E. Causation, counterfactuals, and competitive advantage[J]. Strategic Management Journal, 2009, 30(12): 1245-1264. -Link-
  • Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000. -Link-
  • Hünermund P, Bareinboim E. Causal inference and data-fusion in econometrics[J]. arXiv preprint arXiv:1912.09104, 2019. -Link-
  • Cinelli C, Hazlett C. Making sense of sensitivity: Extending omitted variable bias[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2020, 82(1): 39-67. -Link-
  • Textor J, Liskiewicz M. Adjustment criteria in causal diagrams: An algorithmic perspective[J]. arXiv preprint arXiv:1202.3764, 2012. -Link-
  • Liang K Y, Zeger S L. Inference based on estimating functions in the presence of nuisance parameters[J]. Statistical Science, 1995, 10(2): 158-173. -Link-
  • Heckman J J, Ichimura H, Todd P. Matching as an econometric evaluation estimator[J]. The review of economic studies, 1998, 65(2): 261-294. -Link-
  • Belloni A, Chernozhukov V, Hansen C. High-dimensional methods and inference on structural and treatment effects[J]. Journal of Economic Perspectives, 2014, 28(2): 29-50. -Link-

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD