加入控制变量后结果悲催了!

发布时间:2020-04-25 阅读 754

连玉君 (中山大学, arlionn@163.com)

张静瑶 (浙江海洋大学,1132358871@qq.com)

Stata连享会   主页 || 视频 || 推文

连享会 - Stata 暑期班

线上直播 9 天:2020.7.28-8.7
主讲嘉宾:连玉君 (中山大学) | 江艇 (中国人民大学)
课程主页https://gitee.com/arlionn/PX | 微信版

连享会 - 效率分析专题

已上线:可随时购买学习+全套课件,课程主页 已经放置板书和 FAQs
主讲嘉宾:连玉君 | 鲁晓东 | 张宁
课程主页微信版

连享会-效率分析专题视频
连享会-效率分析专题视频


目录


同主题阅读:


1 背景

1.1 问题的引入

两小儿辩车

王小儿:我发现车越长越贵,比如,奥迪 A6L 就比 A4L 贵多了;

李小儿:那也未必,奥迪 R8 只有 4 米 4,但可以买两辆 A6L了。 还有,我二爸开的那个公交车,12 米,才 30 万!

为什么车长与价格之间的关系并不"固定"?也就是说,如果用价格对车长回归,那么 R8,A6L,公交车会有显著的差异。

在大家做实证分析的最初阶段,经常会有一个困扰:原本主效应很符合预期目标,但加入了一个或几个控制变量后,主效应要么符号变了,要么不显著了。可是,关键控制变量不加入的话,审稿人必然会提出质疑。这是怎么回事了? 要回答这个问题,让我们先从条件期望说起。

1.2 什么是条件期望

教育与收入的关系

春节临近,如何应对亲戚的"问候杀",是一个亟待解决的现实问题。试想,举国欢庆的日子,大家齐坐一堂,面对读硕读博归家的你,七大姑问到:"大闺女,老大不小了,该干点正事谈个对象什么的呢,读那么多书干嘛呀",你咽了咽口水"读书好啊,以后可以多挣钱孝敬您老人家",话音未落,八大姑道:"哎呀瞎说,你看隔壁二狗子,高中没读完去做生意,现在赚老多钱了"….气氛顿时尴尬了,除了咽口水外,该怎么"杠"回去…

那就要了解条件期望的概念了:条件期望函数记为 E(Yi|Xi),是关于 Xi 的函数,考虑到 Xi 是随机的,所以条件期望函数也是随机的。比如给定 X 为受教育水平的一个定值,如 X=12,那么 E(Yi|Xi=12) 就是表示所有读 12 年书的个体,其收入水平的期望值。

  • 用图说明
图片1
图片1

图中,横轴表示受教育水平,纵轴则为收入,在每一个给定的受教育水平下(如:受教育年限 12 年),收入服从一个近似正态的随机分布。可以看到,由于存在着无法忽视的个体差异,使得某些低教育者的收入要高于某些高教育者的收入,但通常而言,教育水平高的人赚的更多。

看到这里,学习过初级计量经济学的同学肯定会想到,对,是"个人能力"的影响,是"个人能力"让二狗子和大闺女产生了收入的差异。确实如此,那么"个人能力"便是一个需要控制的重要变量。

2 Stata 实操

2.1 回到原例

让我们回到"小儿辩车"的引子。调入官方自带的汽车数据,研究汽车长度 length 对汽车价格 price 的影响。在多元回归中,加入的控制变量分别为里程数 mpg 和汽车重量 weight

利用外部命令 reganat (Filoso, 2013) 或 reganat2 对多元回归模型的系数进行图示:

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. sysuse "auto.dta", clear. cap eststo clear. eststo: reg price length. eststo: reg price length mpg weight. esttab, nogap . reganat price length mpg weight, dis(length) ///.              biscat biline scheme(s2color)  
图片2
图片2

虚线拟合线表示了不加入控制变量时 length 的影响,而实线是加入控制变量之后的。由之初的右上倾斜变为右下倾斜,这是一个本质性地改变。

  • 回归结果
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
--------------------------------------------                      (1)             (2)                       price           price   --------------------------------------------length              57.20***       -104.9**                    (4.06)         (-2.64)   mpg                                -86.79                                     (-1.03)   weight                              4.365***                                   (3.74)   _cons             -4584.9*        14542.4**                   (-1.72)          (2.47)   --------------------------------------------N                      74              74   --------------------------------------------t statistics in parentheses* p<0.1, ** p<0.05, *** p<0.01

对比 length 的系数可见,在一元回归时该系数显著为正(57.2),而加入控制变量后,系数为负(-104.9)并在 10% 的水平下显著。

  • 原因分析

若真实的回归模型为 Yi=α1+β1x1+β2x2+ξ1① ,若此时将 x2 的"贡献"剔除掉之后,得到的回归模型是 Yi=α2+θ1x1+ξ2② ,此时的 ξ2=β2x2+ξ1 ,若 x1 与 x2 相关, corr(x1,ξ2)0,出现了内生性问题。若 x1 与 x2 无关,是否加入 x2 并不影响 x1 的系数。

2.2 通过实例演示

先进行正常的多元回归,加入主效应变量 length 和控制变量 mpg weight

  • sysuse auto.dta, clear
  • reg price length mpg weight
  • est store m1

接着,我们利用解构回归(regression anatomy)(参考《基本无害的计量经济学》)来"解读"正常的多元回归:1.先用 length 对控制变量 mpg weight 进行回归,然后可以得到一个残差项。2. 再用被解释变量对上一步的残差项进行回归。

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. reg length mpg weight. predict e, res. reg price e. est store m2. esttab m1 m2 , nogap.  
  • 估计结果
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
--------------------------------------------                      (1)             (2)                       price           price   --------------------------------------------length          -104.9***                        (-2.64)        mpg              -86.79                                   (-1.03)   weight            4.365***                  (3.74)   e                                     -104.9*                                      (-2.22)  _cons           14542.4*              6165.3***                (2.47)                (18.46)   --------------------------------------------N                      74              74   --------------------------------------------t statistics in parentheses* p<0.1, ** p<0.05, *** p<0.01

可以看到,最后得到的主效应估计结果一致,均为 -104.9 。在用 length 对控制变量 mpg weight 回归后得到的残差项,表示 length 剔除了其他解释变量对自己的影响的"结果",将其再与被解释变量的回归就是一个"净"的效应。

3 总结

可见,加入控制变量后,我们关心的估计系数是否会产生变化,取决于与控制变量之间的独立性。

我们列出将会出现的四种情形

  • 与控制变量之间完全独立,则加入控制变量对估计系数无影响(情形 1)
图片3
图片3
  • 与控制变量之间相关,且完全通过控制变量的"途径"来影响被解释变量,则估计系数不显著(情形 2)
图片4
图片4
  • 与控制变量之间高度相关,则加入控制变量后,估计系数都不显著(情形 3)
图片5
图片5
  • 与控制变量之间相关,则加入控制变量后,主要解释变量的估计系数会出现大小和符号变化。具体变化取决于与控制变量间的正负相关性。(情形4)
图片6
图片6

若需进一步分析各个解释变量的相对重要性,可以参考 「R2分解:相对重要性分析 (Dominance Analysis)」 (微信版),以及「连玉君-如何比较解释变量的系数相对大小?」

连享会 - 文本分析与爬虫 - 专题视频

主讲嘉宾:司继春 || 游万海

连享会-文本分析与爬虫-专题视频教程
连享会-文本分析与爬虫-专题视频教程

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
Stata暑期班 连玉君
江艇
线上直播 9 天
2020.7.28-8.7
效率分析-专题 连玉君
鲁晓东
张 宁
视频-TFP-SFA-DEA
已上线,3天
文本分析/爬虫 游万海
司继春
视频-文本分析与爬虫
已上线,4天
空间计量系列 范巧 空间全局模型, 空间权重矩阵
空间动态面板, 空间DID
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:
    • 课程, 直播, 视频, 客服, 模型设定, 研究设计, 暑期班
    • stata, plus,Profile, 手册, SJ, 外部命令, profile, mata, 绘图, 编程, 数据, 可视化
    • DID,RDD, PSM,IV,DID, DDD, 合成控制法,内生性, 事件研究, 交乘, 平方项, 缺失值, 离群值, 缩尾, R2, 乱码, 结果
    • Probit, Logit, tobit, MLE, GMM, DEA, Bootstrap, bs, MC, TFP, 面板, 直击面板数据, 动态面板, VAR, 生存分析, 分位数
    • 空间, 空间计量, 连老师, 直播, 爬虫, 文本, 正则, python
    • Markdown, Markdown幻灯片, marp, 工具, 软件, Sai2, gInk, Annotator, 手写批注, 盈余管理, 特斯拉, 甲壳虫, 论文重现, 易懂教程, 码云, 教程, 知乎

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……


扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD