reldist-相对分布:分布差异分析和检验

发布时间:2020-10-14 阅读 104

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 王恩泽 (武汉大学经济与管理学院)
邮箱: enzewang2008@163.com


目录


1. 简介

1.1 什么是相对分布?

相对分布是评估两个分布间关系的一种有效手段,其直接关注于两个分布间的差异而非单个分布的特征。

相对分布可定义为一个分布的结果在另一个分布中呈现的相对等级的分布。具体而言,以参照组为基础,相对分布将实验组的分布映射于基准组不同分位数水平上。例如,女性工资在男性工资分配中的相对地位,即在男性工资级别的某一水平上 (如十分位数工资水平,1000 ~ 2000元) ,女性工资分配情况如何。很明显,相对分布关注的是等级 (rank,工资分位数) 而非绝对水平 (level,工资)。具体来看:

设定 Y0 为基准组连续变量,F0(y) 为其累积分布函数,f0(y) 为其密度函数;设定 Y 为实验组连续变量,F(y) 为其累积分布函数,f(y) 为其密度函数。为了研究 Y 与 Y0 分布的差异,考虑如下以 Y0 为参照的级别转换函数 (grade transformation):

R 为 Y 对 Y0 的相对分布 (relative distribution)。R 的相对累计分布函数为 (relative CDF):

密度函数为:

r 表示值的百分比 (分位数) ,f 与 f0 分别为密度函数。

相对累积分布函数 G(r) 表示实验组人群的比例 G(r) 低于参照组人群比例 r 的水平。相对概率密度函数 g(r) 为在参照组人群的第 r 分位数处,F01(r) 水平时,实验组人群的频率与参照组人群频率之比。

reldist 可用于估计并分析两组或者两个变量间的相对分布。具体而言,其可用来估计和绘制相对概率密度函数 (relative PDF) 或者相对累计分布函数 (relative CDF)。此外,该命令可计算相对极化指数以及相应数据的描述性统计,并且支持通过调整位置、规模、形状或协变量分布差异对相对分布进行分解。在本推文中,笔者主要对相对概率密度函数和相对累积分布函数进行介绍,不涉及极化指数及分解部分,如有兴趣请自行阅读参考文献。

1.2 相对分布的目的与作用

在社会科学研究中,具有组间差异或时间变化特征的数据分布往往无法通过一般的统计量进行准确捕捉与测度。具体而言,该类数据的差异与变化不仅包括均值与方差的变化,也包括其分布的变化 (例如上尾与下尾的变化)。因此,在该情况下,使用相对分布既能对数据特征进行更为全面且准确的刻画,也能提供分布变化原因的相关信息。例如,相对概率密度函数 (relative PDF) 提供了两个分布间的密度比;相对累计分布函数 (relative CDF) 则将一个分布中的数据映射为另一分布的百分比排名。

1.3 论文范例

范例 1:使用相对分布检验工资增长 (Handcock and Morris, 1998)

在该文中,作者使用相对分布对美国工资分布的变化进行检验。具体而言,作者分别选取国家纵向调查数据 (National Longitudinal Survey) 中的两组工资数据作为基准组和实验组,两组数据分别始于 1966 年和 1979 年。

上图展示了基准组和实验组工资增长的相对累计分布函数。图中 45 度线为分布等价线,在该等价线下方表示实验组有更高的工资收益,在该等价线上方表示基准组有更高的工资收益。

首先,在基准组工资收益的中位数处 r=0.5,工资收益可以由上轴读出为 1.1,对其进行乘幂运算可得工资增加的倍数 exp(1.1)=3,即在基准组的样本期间内工资增长了 3 倍。同时,该点处相对 CDF 值为 0.63(G(r)=0.63),实验组中 63% 的个体的工资收益低于基准组的工资收益中位值。

其次,在实验组工资收益的中位数处 G(r)=0.5,工资收益可从右轴读出为 0.85,即在实验组的样本期间内工资增长了 2.3 倍。同时,观察该点对应的下轴数值可知,在实验组工资收益的中位数左侧, 70% 的基准组个体比实验组工资收益更高。

最后,我们还可以发现实验组中 27% 的个体其工资收益处于基准组分布的十分位数处,而两组数据间最大的差异出现于基准组的第三个十分位数处,同时,两组数据间的比例收敛于 90% 以上。

上图展示了基准组和实验组工资增长的相对概率密度函数。当相对密度值大于 1 时,表示在该分位数处实验组中具有更高的频数,小于 1 时,则表示该分位数处实验组具有更小的频数。

观察该图可知,两组数据间差异最大处为分布的最左侧:在基准组的十分位工资收益区间内,实验组的频数约为基准组的三倍。不同的是,在分布的中间位置,实验组的频数约等于基准组的 60% 至 70%。此外,两组数据间差异最小处位于分布最右侧 (即基准组高收入群体处),例如,在基准组工资收益的第八十分位处,相对密度约为 0.8,这意味着实验组中达到该工资收益水平的个体数量约为基准组个体数量的 80%

范例 2:使用相对分布检验体重指数 (Contoyannis and Wildman, 2007)

该文中,作者使用相对分布对英国和加拿大体重指数的分布变化进行了检验。本文仅以加拿大女性体重指数的分布变化为例。

首先,作者选取 1994 年 5 月数据作为基准组,2000 年 1 月数据作为实验组对加拿大女性体重指数的变化进行检验。图三为相对累计分布函数,从图中可以发现,与基准组相比,实验组体重指数略大;同时,只有约 47% 的实验组个体体重指数低于基准组的中位数。

上图为相对累计概率密度函数图。其中,实线为总体相对概率密度函数,而虚线为 95% 的置信区间。当 r 值小于 0.55时,由于相对密度小于 1,所以基准分布中观测值的频率更高。对于更高的 r 值而言,由于相对密度大于 1,我们可以发现实验组的观测值频数更高,这意味着体重增加在主要发生于分布右侧部,即胖的人更胖了。

2. reldist 的安装

reldist 是外部命令,可以使用如下命令安装最新版本:

ssc install reldist, replace 

若想获取附带数据文件和说明文件,可以在命令窗口中输入:

net describe http://repec.org/bocode/r/reldist

需要特别强调的是,reldist 会调用几个外部命令,因此,你需要预先安装:kdens, kmatch, moremata。若需了解这些命令的详情和附带文档,可以在命令窗口输入 net describe cmdName,亦可以直接输入如下命令安装程序文件:

net install kdens
net install kmatch
net install moremate

若需获取程序附带的数据和说明文档等文件 (若有),可以输入 net get cmdName

3. Stata 范例

基本语法格式为:

reldist subcmd varname [if] [in] [weight], by(groupvar) [ options ]
  • subcmd 表示绘图类型,如相对累积分布图 (cdf)、相对概率密度图 (pdf);
  • varname 表示变量名称;
  • groupvar 表示分组变量名称。

在本部分,本文借助于 Stata 提供的默认数据,对工会工人与非工会工人工资分布的差异进行比较。其中,非工会工人为基准组,工会工人为实验组。

范例1:相对累积分布图 (Relative cumulative distribution)

首先,引入数据;其次,借助 reldist 命令计算相对函数;最后,借助 reldist 命令对相对累积分布图进行绘制。

sysuse nlsw88, clear
reldist cdf wage, by(union) 
reldist graph

绘制图形如下所示:

图中 45 度红线为分布等价线,在该等价线下方表示工会工人有更高的工资收益,在该等价线上方表示非工会工人有更高的工资收益。很明显,与非工会工人相比,工会工人的工资水平更高。此外,在基准组 (非工会工人) 工资收益的中位数处 r=0.5,CDF 值约为 0.3,这表明工会工人组中约 30 的个体的工资收益低于非工会工人组的工资收益中位值。

范例2:相对概率密度分布图与直方图 (Relative density and histogram)

首先,引入数据;其次,借助 reldist 命令计算相对函数;最后,借助 reldist 命令绘制相应图形。

sysuse nlsw88, clear
reldist pdf wage, by(union)
reldist graph, ciopts(recast(rline) lp(dash) pstyle(p1))  // recast 调整置信曲线范围内颜色;lp 设定置信曲线种类;pstyle 调整置信曲线颜色

绘制图形如下所示:

当相对密度值 (纵轴) 大于 1 时表示在该分位数处工会工人具有更高的频数,小于 1 时则表示该分位数处工会工人具有更小的频数。从该图中我们可以获取如下信息:第一,两组数据间分布差异最小处越位于分布中间位置,差异最大处约为八十分位数处。第二,在分布左侧,如十分位处,实验组的频数约为基准组的 0.4 倍,这意味着实验组中达到该工资收益水平的个体数量约为基准组个体数量的 40%

若需在相对密度分布图中添加上轴坐标,本例为基准分布各分为点对应的小时工资数,需运行如下命令:

reldist graph, ciopts(recast(rline) lp(dash) pstyle(p1))  olabel(2(1)8 10 12 20) otitle(hourly wage)

绘制图形如下所示:

通过该图纵坐标可以看出基准组不同分位数处所对应的小时工资水平,如基准组第二十分位数处对应的小时工资水平为 4

若需在相对密度分布图中引入直方图,需继续运行如下命令:

reldist pdf wage, by(union) histogram 
reldist graph, ciopts(recast(rline) lp(dash) pstyle(p1))

绘制图形如下所示:

若想只展示直方图,则运行如下命令:

reldist histogram wage, by(union) 
reldist graph

绘制图形如下所示:

4. 结语

本文主要介绍了如何在 Stata 中使用 reldist 命令绘制相对累计分布和相对概率密度分布。相对分布的使用不仅简化了对分布进行比较的过程,更重要的是,与一般的描述性统计相比,相对分布提供了更直观、信息量更丰富的统计结果,这为学者们详细识别两个分布间的差异提供了有效手段。

5. 参考文献

  • Jann, B. (2020). reldist: Stata module for relative distribution analysis. -Link-
  • Handcock, M.S., Morris, M., (1998). Relative Distribution Methods. Sociological Methodology 28, 53–97. -Link-
  • Contoyannis, P., Wildman, J., (2007). Using relative distributions to investigate the body mass index in England and Canada. Health Economics 16, 929–944. -Link-

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD