小样本下OLS估计的纠偏聚类标准误

发布时间:2020-06-03 阅读 190

作者: 曾颖娴 (中山大学)
E-mail: 18819442774@163.com

Stata连享会   主页 || 视频 || 推文

连享会 - Stata 暑期班

线上直播 9 天:2020.7.28-8.7
主讲嘉宾:连玉君 (中山大学) | 江艇 (中国人民大学)
课程主页https://gitee.com/arlionn/PX | 微信版


目录


1. 小样本

小样本是样本的一种,其与"大样本"相对,通常指样本容量小于或等于30的样本(也有规定指样本容量小于50)。在研究分析中,必须使用统计量的精确分布来进行统计推断。当样本容量 n ≤30 的时侯,构造统计量一般不能借助于大样本理论。

随着社会科学的发展,越来越多的研究学科需要用到统计学的概念和分析方法。而由于学科特点的限制,许多学科无法获得大量的统计数据,如农田种植和工业实验等数据。受限于样本容量,这类学科的统计量的分布为与正态分布不同的新分布,此时,这些学科往往无法达到大样本统计方法对样本容量的要求。由此推动了小样本统计理论的诞生。

小样本理论是由英国统计学家威廉.西利.戈塞特( William Sealy Gosset,1876-1937)于19世纪初创立的。为了制造好喝的啤酒,戈赛特在酿酒厂工作时,需要在发酵的大麦中加入数量精确的酵母。然而,由于菌落数目较少,戈赛特难以得到足够的实验数据以使用大样本统计分析方法,这推动其逐步发现了新的统计方法。戈赛特发现使用 t 分布可以对小样本进行分析,并且得到较为精确的分析结果。其中,t 分布也成为了小样本理论中最为常见的分布之一。

由统计学原理可知,只有当样本量足够大时,统计分析中才可将样本标准差视为总体标准差。而当样本量不足时,将样本标准差视为总体标准差则可能导致较大的误差。而戈赛特将样本容量与总体联系了起来,使得小样本的特征也可以反映总体特征。他使用样本标准差 s 作为总体标准差的近似值,对个体进行 t 转换,实现了小样本数据的价值。

2. Stata 处理方式: reg_sandwich 命令

在样本量足够大的时候,标准回归估计量产生的无偏参数估计是有效的,但默认的标准误差估计量没有考虑样本设计,这会导致不一致的标准误差。在线形回归分析中, 当主要样本数量不足时,由于自由度过大,回归结果的标准误的估计值可能将会严重偏低,因此,基于小样本数据进行回归分析的可能会产生过于狭窄的置信区间,从而导致系数的 t 值出现误差,此时测试的第一类错误率将增加。因此,在对小样本数据进行回归分析时有必要进行纠偏处理。

为了提高小样本性能,通常需要在 Stata 的回归分析中进行一些调整。reg_sandwich 是可以对小样本数据进行聚类稳健标准误的纠偏处理的线性回归命令,它提供了聚类稳健标准误估计回归模型。

该命令包括使用聚类稳健方差-协方差矩阵估计线性回归模型的功能,以及基于 Wald 检验统计进行检验单对比和多对比假设的功能,为普通和加权最小二乘线性回归模型提供了聚类稳健方差估计器(即三明治估计器)。使用 reg_sandwich 命令进行回归分析时,其回归结果的系数通常与 regress 命令回归系数一致,但显著性将会有所改变。

通过 Stata 14.2 以上版本可以使用 reg_sandwich 命令对小样本数据进行纠偏调整 。reg_sandwich 命令的语法格式如下:

  • ounter(line
reg_sandwich depvar indepvars, cluster(varname)  

其中,depvar 为因变量,indepvars 为自变量和控制变量,cluster (varname) 是指用于聚类纠偏的变量。

3. Stata 范例

可以通过一个范例来对比分析小样本回归分析进行聚类纠偏处理前后的结果差异。本文使用 Stata 自带数据 nlsw88.dta ,随机抽取50个观察值作为本次范例的小样本,以薪酬 wage 为因变量进行回归,并对行业 industry 进行聚类标准误纠偏,对比分析了纠偏处理前后的回归结果。

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  sysuse "nlsw88.dta", clear	set seed 135	sample 50, count  	tab industry

随机抽取观测值的行业数据如下:

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
               industry |      Freq.     Percent        Cum.------------------------+-----------------------------------          Manufacturing |          7       14.29       14.29 Wholesale/Retail Trade |          9       18.37       32.65Finance/Ins/Real Estate |          8       16.33       48.98    Business/Repair Svc |          1        2.04       51.02      Personal Services |          3        6.12       57.14  Entertainment/Rec Svc |          1        2.04       59.18  Professional Services |         16       32.65       91.84  Public Administration |          4        8.16      100.00------------------------+-----------------------------------                  Total |         49      100.00

首先,使用官方命令,未作小样本纠偏处理,直接对薪酬 wage 进行回归分析,使用命令如下:

  • ounter(line
  • ounter(line
  • ounter(line
global x "hours ttl_exp tenure south collgrad married" reg wage $x, cluster(industry) 	est store m1

得到结果如下:

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. reg wage $x, cluster(industry)  
Linear regression Number of obs = 49 F(6, 7) > 99999.00 Prob > F = 0.0000 R-squared = 0.3160 Root MSE = 7.6605
(Std. Err. adjusted for 8 clusters in industry)------------------------------------------------------------------------------ | Robust wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- hours | .1437333 .0344188 4.18 0.004 .0623457 .2251209 ttl_exp | .0458852 .3175244 0.14 0.889 -.7049409 .7967112 tenure | -.0743905 .1811267 -0.41 0.694 -.502687 .3539061 south | -5.076428 1.555506 -3.26 0.014 -8.754615 -1.398241 collgrad | 3.074361 1.84282 1.67 0.139 -1.283216 7.431939 married | -7.676774 4.282104 -1.79 0.116 -17.80234 2.448793 _cons | 11.10602 4.284817 2.59 0.036 .974035 21.238------------------------------------------------------------------------------

其次,对小样本进行纠偏处理,回归命令如下:

  • ounter(line
  • ounter(line
	reg_sandwich wage $x, cluster(industry) 	est store m2

纠偏处理后得到结果如下:

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
Robust Small Sample Corrected standard error estimation using OLS                                                      Number of obs =       50                                                      R-squared     =   0.3160                                                      Adj R-squared =   0.2183                                                      Root MSE      =   7.6605
(Std. Err. adjusted for 8 clusters in industry)------------------------------------------------------------------------------ | Robust wage | Coef. Std. Err. dfs p-value [95%Conf. Interval]-------------+---------------------------------------------------------------- hours | 0.144 0.04 2.20 0.0507 -0.0010 0.2885 ttl_exp | 0.046 0.35 3.48 0.9039 -0.9965 1.0883 tenure | -0.074 0.19 3.88 0.7191 -0.6149 0.4661 south | -5.076 1.56 3.45 0.0384 -9.6794 -0.4734 collgrad | 3.074 1.89 2.99 0.2018 -2.9386 9.0873 married | -7.677 4.04 3.86 0.1330 -19.0625 3.7090 _cons | 11.106 4.28 3.16 0.0766 -2.1319 24.3439------------------------------------------------------------------------------

可以使用以下命令对比分析纠偏前后的回归结果:

  • ounter(line
  • ounter(line
	esttab m1 m2, mtitle(reg reg_sandwich) nogap se(%6.4f)  ///	       star(* 0.1 ** 0.05 *** 0.01)

得到的结果对比如下:

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
--------------------------------------------                      (1)             (2)                         reg    reg_sandwich   --------------------------------------------hours               0.144***        0.144***                 (0.0344)        (0.0366)   ttl_exp            0.0459          0.0459                    (0.3175)        (0.3534)   tenure            -0.0744         -0.0744                    (0.1811)        (0.1922)   south              -5.076**        -5.076***                 (1.5555)        (1.5555)   collgrad            3.074           3.074                    (1.8428)        (1.8855)   married            -7.677          -7.677*                   (4.2821)        (4.0423)   _cons               11.11**         11.11***                 (4.2848)        (4.2794)   --------------------------------------------N                      49              50   --------------------------------------------Standard errors in parentheses* p<0.1, ** p<0.05, *** p<0.01

根据纠偏前后的结果对比可以发现,纠偏前的 SE 通常偏小,导致 t 值偏大,回归系数的显著性较低。通过 reg_sandwich 命令对回归进行纠偏处理后,回归的系数大小不变,而显著性将提升,降低了假设被错误拒绝的可能性。

参考文献

  • Pustejovsky, James E., and Elizabeth Tipton. 2018. “Small-Sample Methods for Cluster-Robust Variance Estimation and Hypothesis Testing in Fixed Effects Models.” Journal of Business & Economic Statistics 36 (4): 672–83. [PDF]
  • Tipton, Elizabeth, and James E. Pustejovsky. 2015. “Small-Sample Adjustments for Tests of Moderators and Model Fit Using Robust Variance Estimation in Meta-Regression.” Journal of Educational and Behavioral Statistics 40 (6): 604–34. [PDF]
  • McCaffrey, Daniel F, and Robert M Bell. 2003. “Bias Reduction in Standard Errors for Linear Regression with Multi-Stage Samples.” Quality Engineering 48 (6): 677–82. [PDF]

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
Stata暑期班 连玉君
江艇
线上直播 9 天
2020.7.28-8.7
效率分析-专题 连玉君
鲁晓东
张 宁
视频-TFP-SFA-DEA
已上线,3天
文本分析/爬虫 游万海
司继春
视频-文本分析与爬虫
已上线,4天
空间计量系列 范巧 空间全局模型, 空间权重矩阵
空间动态面板, 空间DID
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:
    • 课程, 直播, 视频, 客服, 模型设定, 研究设计, 暑期班
    • stata, plus,Profile, 手册, SJ, 外部命令, profile, mata, 绘图, 编程, 数据, 可视化
    • DID,RDD, PSM,IV,DID, DDD, 合成控制法,内生性, 事件研究, 交乘, 平方项, 缺失值, 离群值, 缩尾, R2, 乱码, 结果
    • Probit, Logit, tobit, MLE, GMM, DEA, Bootstrap, bs, MC, TFP, 面板, 直击面板数据, 动态面板, VAR, 生存分析, 分位数
    • 空间, 空间计量, 连老师, 直播, 爬虫, 文本, 正则, python
    • Markdown, Markdown幻灯片, marp, 工具, 软件, Sai2, gInk, Annotator, 手写批注, 盈余管理, 特斯拉, 甲壳虫, 论文重现, 易懂教程, 码云, 教程, 知乎

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……


扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD