sumup:快速呈现分组统计量

发布时间:2020-03-10 阅读 790

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

云峰 (华南师范大学)


目录


1. 引言

Stata 中描述性统计的命令琳琅满目,常用的命令包括 sumtabletabulatetabstat等,这些命令都有各自的特点,在不同的情况下选择合适的命令可以起到事半功倍的效果。我们在论文中往往会进行分组描述,但是常用的描述性统计命令中却存在简洁的命令无法进行分组统计,而可以分组统计的代码往往比较复杂的尴尬情况。今天我们就介绍的sumup命令专为快捷分组统计描述量身定做,方便又使用,你值得拥有。

2. 命令代码及实例

2.1 基本代码及实例

  • 语法格式:sumup var1,by(var2)

  • 实例

sysuse nlsw88.dta
sumup wage, by(race)
race   |  Obs    Missing        Mean   Std. Dev.       Min        Max 
-------+-------------------------------------------------------------
white  |  1637          0   8.082999   5.955069   1.004952   40.19808
black  |   583          0   6.844558   5.076187   1.151368   40.74659
other  |    26          0   8.550781    5.20943    1.80602   25.80515
-------+-------------------------------------------------------------
Total  |  2246          0   7.766949   5.755523   1.004952   40.74659
---------------------------------------------------------------------

命令解析

  1. var1 var2 分别为统计变量和分组变量。
  2. 基本代码只会展示样本数、平均值、缺失值、标准差、最大值和最小值。

2.2 展示全部指标分组统计代码及实例

  • 语法格式: sumup var1,by(var2) detail

  • 实例

. sysuse nlsw88.dta
. sumup wage, by(race) detail

 race  |       Obs    Missing       Mean  Std. Dev.   Skewness   Kurtosis 
-------+------------------------------------------------------------------
white  |       1637          0   8.082999   5.955069    3.00474   14.74577
black  |        583          0   6.844558   5.076187   3.516731   21.15914
other  |         26          0   8.550781    5.20943   1.428553   5.799663
-------+------------------------------------------------------------------
Total  |       2246          0   7.766949   5.755523   3.096199   15.85446
--------------------------------------------------------------------------

 race  |       Min         p1         p5        p10        p25        p50 
-------+------------------------------------------------------------------
white  |   1.004952   2.090301   2.875546   3.344482   4.516906   6.545891
black  |   1.151368   1.797659   2.697261   2.884614   3.808373   5.434783
other  |    1.80602    1.80602   2.697261   2.898549   5.016103   7.560383
-------+------------------------------------------------------------------
Total  |   1.004952   1.930993   2.801002   3.220612   4.259257    6.27227
--------------------------------------------------------------------------

 race  |       p50        p75        p90        p95        p99        Max 
-------+------------------------------------------------------------------
white  |   6.545891   9.758451   13.14009   17.34411   38.70926   40.19808
black  |   5.434783   8.518515    11.6103   14.49275   38.70926   40.74659
other  |   7.560383    11.6103   12.77777   17.52817   25.80515   25.80515
-------+------------------------------------------------------------------
Total  |    6.27227   9.597424   12.77777   16.52979   38.70926   40.74659
--------------------------------------------------------------------------

命令解析

  1. var1 var2 分别为统计变量和分组变量。
  2. detail 为显示全部指标命令。
  3. 全部指标除基本指标外还包括峰度、偏度、各分位数等等。

2.3 双限定分组

  • 语法格式: sumup var1,by(var2 var3)

  • 实例

. sysuse nlsw88.dta, clear 
. sumup wage,by(union married)

 union  married |  Obs   Missing       Mean  Std. Dev.        Min        Max 
----------------+------------------------------------------------------------
nonunio single  |   475         0   7.422848   4.496672   1.151368   30.96618
nonunio married |   942         0   7.094653   3.888394   1.344605   30.19324
 union  single  |   181         0   8.973142   4.592883   2.697261   39.23074
 union  married |   280         0    8.48111   3.876535    1.80602   28.45666
----------------+------------------------------------------------------------
 Total          |  1878       368   7.565423   4.168369   1.151368   39.23074
-----------------------------------------------------------------------------

命令解析

  1. var1为统计变量, var2var3为两个分组变量。

2.4 选取特定指标分组统计代码及实例

  • 语法格式: sumup var1,by(var2) statistics()

  • 实例

. sysuse nlsw88.dta, clear 
. sumup wage, by(industry) statistics(mean p80)

    industry     |      Mean        p80 
-----------------+----------------------
Ag/Forestry/Fish |   5.621121    8.05153
     Mining      |   15.34959   40.19808
  Construction   |   7.564934   9.653782
 Manufacturing   |   7.501578   9.895326
Transport/Comm/U |   11.44335   13.92109
Wholesale/Retail |   6.125897   7.525084
Finance/Ins/Real |   9.843174   11.61835
Business/Repair  |    7.51579   10.45088
Personal Service |   4.401093   5.636071
Entertainment/Re |   6.724409   10.32206
Professional Ser |   7.871186   10.45088
Public Administr |   9.148407   11.07085
-----------------+----------------------
     Total       |   7.783463   10.32206
----------------------------------------

命令解析

  1. var1 var2 分别为统计变量和分组变量。
  2. statistics为选定指标命令,括号内选取所需指标。

3. 命令对比

3.1 sum vs sumup

. sysuse "nlsw88.dta", clear

. sum wage

Variable |   Obs        Mean    Std. Dev.       Min        Max
---------+----------------------------------------------------
    wage | 2,246    7.766949    5.755523   1.004952   40.74659

. sumup wage, by(race)

 race  |  Obs    Missing       Mean  Std. Dev.        Min        Max 
-------+-------------------------------------------------------------
white  |  1637          0   8.082999   5.955069   1.004952   40.19808
black  |   583          0   6.844558   5.076187   1.151368   40.74659
other  |    26          0   8.550781    5.20943    1.80602   25.80515
-------+-------------------------------------------------------------
Total  |  2246          0   7.766949   5.755523   1.004952   40.74659
---------------------------------------------------------------------

对比分析

  1. sum命令中没有分组统计选项,但通过对比我们发现,两个命令的统计格式几乎完全相同。
  2. sum命令以其简洁的命令和直观的呈现为亮点,一直是描述性统计中的热门命令,但却没有分组统计的能力。而sumup则像是分组统计中的sum命令,简单又普适。

3.2 sumup vs tabulate

. sysuse "nlsw88.dta", clear

. sumup wage, by(race)

 race  | Obs    Missing       Mean  Std. Dev.        Min        Max 
-------+------------------------------------------------------------
white  | 1637          0   8.082999   5.955069   1.004952   40.19808
black  |  583          0   6.844558   5.076187   1.151368   40.74659
other  |   26          0   8.550781    5.20943    1.80602   25.80515
-------+------------------------------------------------------------
Total  | 2246          0   7.766949   5.755523   1.004952   40.74659
--------------------------------------------------------------------

. tab race,sum(wage)
            |       Summary of hourly wage
   race |        Mean   Std. Dev.       Freq.
--------+------------------------------------
  white |   8.0829994   5.9550691       1,637
  black |   6.8445578   5.0761866         583
  other |   8.5507813   5.2094301          26
--------+------------------------------------
  Total |    7.766949   5.7555229       2,246

对比分析

  1. Stata 官方命令中与sumup最为接近的命令就是tabulate
  2. 对比发现,虽然两个命令都有分组呈现的作用,且命令都比较简洁,但是相较于sumuptabulate只展示了均值、样本数和标准差,比起sumup所能展示的指标还有所欠缺。

3.3 sumup vs tabstat

. sysuse "nlsw88.dta", clear

. sumup wage, by(race)

 race |  Obs  Missing       Mean  Std. Dev.        Min        Max 
------+-----------------------------------------------------------
white |  1637        0   8.082999   5.955069   1.004952   40.19808
black |   583        0   6.844558   5.076187   1.151368   40.74659
other |    26        0   8.550781    5.20943    1.80602   25.80515
------+-----------------------------------------------------------
Total |  2246        0   7.766949   5.755523   1.004952   40.74659
------------------------------------------------------------------

. tabstat wage, by(race) stat(n mean sd min max) ///
          nototal long col(stat)
          
race   variable |    N      mean        sd       min       max
----------------+---------------------------------------------
white      wage | 1637  8.082999  5.955069  1.004952  40.19808
black      wage |  583  6.844558  5.076187  1.151368  40.74659
other      wage |   26  8.550781   5.20943   1.80602  25.80515
--------------------------------------------------------------

对比分析

  1. sumup命令作者表示此命令大量借用了tabstat,是tabstat的改进版本。
  2. 对比发现,虽然两个命令都所展示的功能相差无几,但简洁程度可谓天壤之别,sumup命令的优势不言而喻。

4. 小结

通过与热门描述性统计命令对比发现,sumup命令实质上是分组描述的sum命令,相对于tabstat更为简便快捷、相较于tabulate功能更加全面。是我们进行分组描述的最佳之选,但本命令也是存在着诸如无法调整结果显示格式等缺点,但瑕不掩瑜,大家快快下载使用吧!  

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD