Stata:分位数回归简介

发布时间:2020-10-09 阅读 32

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 武翰涛 (南京邮电大学)
Email: ht_wu@foxmail.com


目录


1. 引言

在多数实证分析中,我们关注的焦点都在于考察解释变量 x 对被解释变量 y 的影响,其思想是从平均数的角度去分析得到参数结果,即均值回归。但均值回归往往会受到极端值的影响,使得参数估计变得很不稳定 (在执行分组回归时这一问题尤其突出)。另一方面,基于 OLS 的线性回归模型只能让我们分析 x 对 y 的平均影响效果。而当,条件分布 y|x 不是对称分布时,条件期望 E(y|x) 很难反映整个条件分布的全貌。如果能估计条件分布 y|x 的若干重要条件分布,就能对条件分布 y|x 有更全面的认识[1]。

2 分位数回归模型

2.1 总体分位数

假设 Y 为连续型随机变量,其累积分布函数为 Fy(),则 Y 的“总体 q 分位数”,记为 yq,满足以下定义式:

即总体 q 分位数yq正好将总体分布分为两部分,其中小于或等于 yq 的概率为q,而大于 yq 的概率为 (1q)。如果 q=1/2 则为中位数,正好将总体分为两个相等的部分,一半在中位数之上,而另一半在中位数之下。如果 Fy() 严格单调递增,则有

其中,Fy1() 为 Fy() 的逆函数。

对于回归模型而言,记条件分布 y|x 的累积分布函数为 Fy|x()。条件分布 y|x 的总体 q 分位数,记为 yq,满足以下定义式:

假设Fy|x()严格单调递增,则有

由于条件累积分布函数 Fy|x() 依赖于 x,故条件分布 y|x 的总体 q 分位数 yq 也依赖于 x,可以明确地写为 yq(x),称为 ”条件分位数函数“。换言之,条件分位数函数 yq(x) 是解释变量 x 的函数。更进一步,对于线性回归模型而言,如果扰动项满足同方差的假定,或扰动项异方差的形式为乘积形式,则 yq(x) 是 x 的线性函数[2]。

2.2 样本分位数

对于随机变量 Y ,如果总体的q分位数 yq 未知,则可以使用样本 q 分位数 y^q 来估计 yq 。通常的做法是,首先将样本数据 {y1,y2,,yn} 按照从小到大的顺序排列为 {y(1),y(2),,y(n)} ,则 y^q 等于第 [nq] 个最小观测值,其中 n 为样本容量, [nq] 表示大于或等于nq并离nq最近的正整数。比如n=95,q=0.5,则 [nq]=[95×0.5]=[47.5]=48 [3]。 但上述样本分位数的计算方法不容易推广到回归模型。因此,一种更方便的等价方法便是将样本分位数看成某个最小化的解。事实上,样本均值也可以看成是最小化残差问题的最优解,即:

类似地,样本中位数可以视为是"最小化残差绝对值之和"问题的最优解,即:

2.3 分位数估计方法

分位数回归方法 (QR) 最早由 Koenker,Bassett 提出,是基于反应变量 Y 的条件分布来估计应变量 X 参数的线性回归方法,即根据不同分位点利用样本含有的不同信息对模型进行回归分析。鉴于最小二乘法的最优估计要求模型的随机扰动项服从独立同分布,而分位数回归不对模型做任何分布假设,且不对矩函数有任何要求,这就非常适合部分不存在阶矩函数的数据,即可能存在的异常数据不会影响到模型的参数估计。因此用分位数回归来研究宏观金融等数据是非常稳健的,且能够较好地捕捉分布的尖峰厚尾特征,从而满足不同条件分析的需求。

设 FyX(y) 在随机变量 X 下 Y 的条件分布函数,则 Y 的第τ(0,1) 个条件分布数为:

式中 inf() 是下确界函数。 对于观测样本 (Xi,Yi)Rp×R1,i=1,2,,n,p 为向量 Xi 的维数。如果在 Xi 下 Yi 的 τ 条件分位数为 Xi 的线性函数,即Qz(Yi|Xi)=XiTβ(τ),这里的 T 表示转置,β(τ)Rp 为系数向量,则系数向量 β(τ) 的分位数估计值为:

式中:

ρτ(u)={τu,u0(τ1)u,u<0

称为线性损失函数。 分位数回归估计式 (2) 等价于下面的式 (3) :

显然,分位点不同时估算出的模型参数也不同,因而可以得到不同的回归方程,决策者可以从中选出最贴近实际问题的回归方程。

连享会计量方法专题……

3 Stata 范例

我们可以使用 qreg 命令来实现分位数回归模型,这里我们使用 Stata 自带的数据 auto.dta

首先进行中位数回归:

. sysuse "auto.dta", clear
(1978 Automobile Data)

. qreg price mpg rep78 headroom trunk weight length
Iteration  1:  WLS sum of weighted deviations =  54582.043
…… (output omitted)
Iteration  6: sum of abs. weighted deviations =  52754.926

Median regression                                   Number of obs =         69
  Raw sum of deviations    65163 (about 5079)
  Min sum of deviations 52754.93                    Pseudo R2     =     0.1904

------------------------------------------------------------------------------
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         mpg |  -20.44398   100.1651    -0.20   0.839    -220.6711    179.7831
       rep78 |   766.3722   380.1109     2.02   0.048     6.541433    1526.203
    headroom |  -527.2818   525.7287    -1.00   0.320    -1578.199     523.635
       trunk |   108.3175   131.2516     0.83   0.412    -154.0507    370.6857
      weight |   4.197336   1.385672     3.03   0.004     1.427417    6.967255
      length |  -88.23944   51.85082    -1.70   0.094    -191.8878    15.40887
       _cons |   7474.973   7400.575     1.01   0.316    -7318.566    22268.51
-----------------------------------------------------------------------------```

有上述结果可知,mpg 每增加一单位,会使价格中位数降低 20.44 个单位,即当汽车每加仑能行走的公里数提高一个单位,中档价位的汽车便会降低20.44个单位,但统计结果上并不显著。

下面使用自助法来计算分位数回归的标准误。为便于复制结果,指定随机数的种子。

. set seed 10000  // 设定种子值
. bsqreg price mpg rep78 headroom trunk weight length, reps(400) q(0.5)
(fitting base model)

Bootstrap replications (400)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5 
..................................................    50
................. (output omitted) 
..................................................   400

Median regression, bootstrap(400) SEs               Number of obs =         69
  Raw sum of deviations    65163 (about 5079)
  Min sum of deviations 52754.93                    Pseudo R2     =     0.1904

------------------------------------------------------------------------------
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         mpg |  -20.44398   87.80782    -0.23   0.817    -195.9693    155.0814
       rep78 |   766.3722   414.1785     1.85   0.069    -61.55878    1594.303
    headroom |  -527.2818   341.1344    -1.55   0.127      -1209.2    154.6362
       trunk |   108.3175   99.74076     1.09   0.282    -91.06144    307.6964
      weight |   4.197336   3.256015     1.29   0.202    -2.311345    10.70602
      length |  -88.23944    90.8892    -0.97   0.335    -269.9244    93.44548
       _cons |   7474.973   8075.536     0.93   0.358    -8667.793    23617.74
-----------------------------------------------------------------------------

进一步地,考察 0.25、0.5、0.75 分位点上的回归结果:

. sqreg price mpg rep78 headroom trunk weight length, q(0.25 0.5 0.75) reps(400)
(fitting base model)

Bootstrap replications (400)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5 
..................................................    50
 (output omitted) 
..................................................   400

Simultaneous quantile regression                    Number of obs =         69
  bootstrap(400) SEs                                .25 Pseudo R2 =     0.1953
                                                    .50 Pseudo R2 =     0.1904
                                                    .75 Pseudo R2 =     0.3665

------------------------------------------------------------------------------
             |              Bootstrap
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
q25          |
         mpg |  -58.85941    60.6889    -0.97   0.336    -180.1748    62.45596
       rep78 |   378.5492   182.5255     2.07   0.042     13.68592    743.4125
    headroom |  -428.4049   177.6041    -2.41   0.019    -783.4304   -73.37946
       trunk |   157.9781   53.96136     2.93   0.005     50.11082    265.8453
      weight |   .8091042   1.739727     0.47   0.644    -2.668561     4.28677
      length |  -24.49825   47.20241    -0.52   0.606    -118.8545    69.85801
       _cons |   5805.491   4010.312     1.45   0.153    -2211.008    13821.99
-------------+----------------------------------------------------------------
q50          |
         mpg |  -20.44398   98.12396    -0.21   0.836     -216.591     175.703
       rep78 |   766.3722   410.5124     1.87   0.067    -54.23035    1586.975
    headroom |  -527.2818   316.1929    -1.67   0.100    -1159.342    104.7788
       trunk |   108.3175   100.5004     1.08   0.285    -92.57998     309.215
      weight |   4.197336   3.346488     1.25   0.214    -2.492198    10.88687
      length |  -88.23944   93.76858    -0.94   0.350    -275.6802    99.20127
       _cons |   7474.973   8158.464     0.92   0.363    -8833.564    23783.51
-------------+----------------------------------------------------------------
q75          |
         mpg |  -158.3163   115.8176    -1.37   0.177    -389.8324    73.19971
       rep78 |   1453.687   447.9351     3.25   0.002     558.2771    2349.096
    headroom |  -837.2497   580.2633    -1.44   0.154     -1997.18    322.6801
       trunk |   90.09523   136.9239     0.66   0.513    -183.6118    363.8023
      weight |   7.364424   2.936931     2.51   0.015     1.493583    13.23527
      length |  -185.4982   95.92216    -1.93   0.058    -377.2439    6.247448
       _cons |   19508.66   10929.18     1.79   0.079    -2338.458    41355.77
-----------------------------------------------------------------------------```

将分位数回归系数随着分位数的变化情形画图表示,则有:

.  qui bsqreg price mpg rep78 headroom trunk weight length,reps(400) q(0.5)
.  qrqreg, cons ci ols olci

参考资料

Source[1]:分位数回归理论及其应用」 「Source[2]:高级计量经济学及Stata应用」 「Source[3]:分位数回归及应用简介

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD