0.0005:估计系数太小怎么办?

发布时间:2020-11-07 阅读 441

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 刘欣妍(香港中文大学)
邮箱: liuxinyan@link.cuhk.edu.hk


目录


1. 问题背景

在做实证研究时,我们经常会遇到这样的问题,即回归系数非常小,如 0.00000012,若以小数点后三位或四位报告结果,则系数为 0。那么系数小,是不是就代表该变量不重要?答案是否定的。一个变量的重要性与其显著性有关,与回归系数大小无关。至于回归系数过小,往往是由于数据导致。接下来,本文将为大家介绍三种处理回归系数过小的方法。

2. 方法 1:改变数据单位

具体示例:

sysuse auto.dta, clear
reg price mpg, robust noheader 
------------------------------------------------------------------------------
             |               Robust
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         mpg |  -238.8943   57.47701    -4.16   0.000    -353.4727    -124.316
       _cons |   11253.06   1376.393     8.18   0.000     8509.272    13996.85
------------------------------------------------------------------------------

在上例中,我们将 pricempg 进行回归,mpg 系数为 -238.8943。如果将 mpg 放大 100 倍,则估计系数和标准误对应缩小 100 倍,t 值不变。

sysuse auto.dta, clear
gen mpg2 = mpg*100
reg price mpg2, robust noheader 
------------------------------------------------------------------------------
             |               Robust
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        mpg2 |  -2.388943   .5747701    -4.16   0.000    -3.534727    -1.24316
       _cons |   11253.06   1376.393     8.18   0.000     8509.272    13996.85
------------------------------------------------------------------------------

可以看到,由于 t=β^Se(β^),改变量纲后,系数统计推断并不会改变,但系数含义发生了变化,比如之前 mpg 每增加 1 单位,price 降低 238.894 单位, 现在变为 mpg 每增加 0.01 个单位,price 降低 2.389 单位。

3. 方法 2:将变量进行标准化

具体示例:

stasysuse auto.dta, clear
center price mpg, prefix(z_) standardize
reg z_price z_mpg, robust noheaderta
------------------------------------------------------------------------------
             |               Robust
     z_price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       z_mpg |  -.4685967   .1127425    -4.16   0.000    -.6933446   -.2438487
       _cons |   3.24e-08   .1034053     0.00   1.000    -.2061346    .2061347
------------------------------------------------------------------------------

标准化方法有很多,在这里我们以正规化方法进行演示。并且,需要注意的是,标准化之后得到的回归系数被称作为标准化系数,解释为 mpg 每增加 1 个标准差,price 减少 0.469 个标准差。

Note: 更多标准化方法,详见「三种常用数据标准化方法」。当回归中包含交互项或多项式时,最好将相关变量进行标准化,以减轻变量间相关性。关于该问题更多介绍,详见「When Do You Need to Standardize the Variables in a Regression Model?」「如何比较解释变量的系数相对大小?」

温馨提示: 文中链接无法打开,请点击「阅读原文」

4. 方法 3:将变量进行对数转换

具体示例:

sysuse auto.dta,clear
gen log_price = ln(price)
gen log_mpg = ln(mpg)
reg log_price log_mpg, robust noheader
------------------------------------------------------------------------------
             |               Robust
   log_price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     log_mpg |   -.826847   .1498648    -5.52   0.000    -1.125597   -.5280969
       _cons |   11.14146   .4640616    24.01   0.000     10.21637    12.06655
------------------------------------------------------------------------------

在这里,系数解释为弹性,即 mpg 每变动 1%,price 降低 0.83%。不过,也有学者指出对数转换存在一些问题,详见「Log-transformation and its implications for data analysis」

温馨提示: 文中链接无法打开,请点击「阅读原文」

5. 总结

最后,我们对以上三种方法系数解释进行总结。

  • 改变数据单位,如自变量除以 100,则为自变量每变动 0.01 个单位,因变量变动 β1 个单位;
  • 将变量标准化,如自变量标准化,则为自变量每变动 1 个标准差,因变量变动 β1 个单位;
  • 将变量对数化,具体如下表:
模型 因变量 自变量 对 β1 的解释
水平值一水平值 y x Δy=β1Δx
水平值一对数 y log(x) Δy=(β1/100)%Δx
对数一水平值 log(y) x %Δy=(100β1)Δx
对数一对数 log(y) log(x) %Δy=β1%Δx

Note: 关于系数更多解释,请参考「正确姿势:回归系数的解释与评估」「计量经济学导论-现代观点」

温馨提示: 文中链接无法打开,请点击「阅读原文」

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 因果推断, 空间计量,寒暑假班等
数据清洗系列 游万海 直播, 88 元,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD