sumup:快速呈现分组统计量

发布时间:2020-03-10 阅读 463

云峰 (华南师范大学)

Stata连享会   主页 || 视频 || 推文

连享会 - Stata 暑期班

线上直播 9 天:2020.7.28-8.7
主讲嘉宾:连玉君 (中山大学) | 江艇 (中国人民大学)
课程主页https://gitee.com/arlionn/PX | 微信版


目录


1. 引言

Stata 中描述性统计的命令琳琅满目,常用的命令包括 sumtabletabulatetabstat等,这些命令都有各自的特点,在不同的情况下选择合适的命令可以起到事半功倍的效果。我们在论文中往往会进行分组描述,但是常用的描述性统计命令中却存在简洁的命令无法进行分组统计,而可以分组统计的代码往往比较复杂的尴尬情况。今天我们就介绍的sumup命令专为快捷分组统计描述量身定做,方便又使用,你值得拥有。

2. 命令代码及实例

2.1 基本代码及实例

  • 语法格式:sumup var1,by(var2)

  • 实例

  • ounter(line
  • ounter(line
sysuse nlsw88.dtasumup wage, by(race)
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
race   |  Obs    Missing        Mean   Std. Dev.       Min        Max -------+-------------------------------------------------------------white  |  1637          0   8.082999   5.955069   1.004952   40.19808black  |   583          0   6.844558   5.076187   1.151368   40.74659other  |    26          0   8.550781    5.20943    1.80602   25.80515-------+-------------------------------------------------------------Total  |  2246          0   7.766949   5.755523   1.004952   40.74659---------------------------------------------------------------------

命令解析

  1. var1 var2 分别为统计变量和分组变量。
  2. 基本代码只会展示样本数、平均值、缺失值、标准差、最大值和最小值。

2.2 展示全部指标分组统计代码及实例

  • 语法格式: sumup var1,by(var2) detail

  • 实例

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. sysuse nlsw88.dta. sumup wage, by(race) detail
race | Obs Missing Mean Std. Dev. Skewness Kurtosis -------+------------------------------------------------------------------white | 1637 0 8.082999 5.955069 3.00474 14.74577black | 583 0 6.844558 5.076187 3.516731 21.15914other | 26 0 8.550781 5.20943 1.428553 5.799663-------+------------------------------------------------------------------Total | 2246 0 7.766949 5.755523 3.096199 15.85446--------------------------------------------------------------------------
race | Min p1 p5 p10 p25 p50 -------+------------------------------------------------------------------white | 1.004952 2.090301 2.875546 3.344482 4.516906 6.545891black | 1.151368 1.797659 2.697261 2.884614 3.808373 5.434783other | 1.80602 1.80602 2.697261 2.898549 5.016103 7.560383-------+------------------------------------------------------------------Total | 1.004952 1.930993 2.801002 3.220612 4.259257 6.27227--------------------------------------------------------------------------
race | p50 p75 p90 p95 p99 Max -------+------------------------------------------------------------------white | 6.545891 9.758451 13.14009 17.34411 38.70926 40.19808black | 5.434783 8.518515 11.6103 14.49275 38.70926 40.74659other | 7.560383 11.6103 12.77777 17.52817 25.80515 25.80515-------+------------------------------------------------------------------Total | 6.27227 9.597424 12.77777 16.52979 38.70926 40.74659--------------------------------------------------------------------------

命令解析

  1. var1 var2 分别为统计变量和分组变量。
  2. detail 为显示全部指标命令。
  3. 全部指标除基本指标外还包括峰度、偏度、各分位数等等。

2.3 双限定分组

  • 语法格式: sumup var1,by(var2 var3)

  • 实例

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. sysuse nlsw88.dta, clear . sumup wage,by(union married)
union married | Obs Missing Mean Std. Dev. Min Max ----------------+------------------------------------------------------------nonunio single | 475 0 7.422848 4.496672 1.151368 30.96618nonunio married | 942 0 7.094653 3.888394 1.344605 30.19324 union single | 181 0 8.973142 4.592883 2.697261 39.23074 union married | 280 0 8.48111 3.876535 1.80602 28.45666----------------+------------------------------------------------------------ Total | 1878 368 7.565423 4.168369 1.151368 39.23074-----------------------------------------------------------------------------

命令解析

  1. var1为统计变量, var2var3为两个分组变量。

2.4 选取特定指标分组统计代码及实例

  • 语法格式: sumup var1,by(var2) statistics()

  • 实例

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. sysuse nlsw88.dta, clear . sumup wage, by(industry) statistics(mean p80)
industry | Mean p80 -----------------+----------------------Ag/Forestry/Fish | 5.621121 8.05153 Mining | 15.34959 40.19808 Construction | 7.564934 9.653782 Manufacturing | 7.501578 9.895326Transport/Comm/U | 11.44335 13.92109Wholesale/Retail | 6.125897 7.525084Finance/Ins/Real | 9.843174 11.61835Business/Repair | 7.51579 10.45088Personal Service | 4.401093 5.636071Entertainment/Re | 6.724409 10.32206Professional Ser | 7.871186 10.45088Public Administr | 9.148407 11.07085-----------------+---------------------- Total | 7.783463 10.32206----------------------------------------

命令解析

  1. var1 var2 分别为统计变量和分组变量。
  2. statistics为选定指标命令,括号内选取所需指标。

连享会 - 效率分析专题

已上线:可随时购买学习+全套课件,课程主页 已经放置板书和 FAQs
主讲嘉宾:连玉君 | 鲁晓东 | 张宁
课程主页微信版https://gitee.com/arlionn/TE

连享会-效率分析专题视频
连享会-效率分析专题视频

3. 命令对比

3.1 sum vs sumup

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. sysuse "nlsw88.dta", clear
. sum wage
Variable | Obs Mean Std. Dev. Min Max---------+---------------------------------------------------- wage | 2,246 7.766949 5.755523 1.004952 40.74659
. sumup wage, by(race)
race | Obs Missing Mean Std. Dev. Min Max -------+-------------------------------------------------------------white | 1637 0 8.082999 5.955069 1.004952 40.19808black | 583 0 6.844558 5.076187 1.151368 40.74659other | 26 0 8.550781 5.20943 1.80602 25.80515-------+-------------------------------------------------------------Total | 2246 0 7.766949 5.755523 1.004952 40.74659---------------------------------------------------------------------

对比分析

  1. sum命令中没有分组统计选项,但通过对比我们发现,两个命令的统计格式几乎完全相同。
  2. sum命令以其简洁的命令和直观的呈现为亮点,一直是描述性统计中的热门命令,但却没有分组统计的能力。而sumup则像是分组统计中的sum命令,简单又普适。

3.2 sumup vs tabulate

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. sysuse "nlsw88.dta", clear
. sumup wage, by(race)
race | Obs Missing Mean Std. Dev. Min Max -------+------------------------------------------------------------white | 1637 0 8.082999 5.955069 1.004952 40.19808black | 583 0 6.844558 5.076187 1.151368 40.74659other | 26 0 8.550781 5.20943 1.80602 25.80515-------+------------------------------------------------------------Total | 2246 0 7.766949 5.755523 1.004952 40.74659--------------------------------------------------------------------
. tab race,sum(wage) | Summary of hourly wage race | Mean Std. Dev. Freq.--------+------------------------------------ white | 8.0829994 5.9550691 1,637 black | 6.8445578 5.0761866 583 other | 8.5507813 5.2094301 26--------+------------------------------------ Total | 7.766949 5.7555229 2,246

对比分析

  1. Stata 官方命令中与sumup最为接近的命令就是tabulate
  2. 对比发现,虽然两个命令都有分组呈现的作用,且命令都比较简洁,但是相较于sumuptabulate只展示了均值、样本数和标准差,比起sumup所能展示的指标还有所欠缺。

3.3 sumup vs tabstat

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. sysuse "nlsw88.dta", clear
. sumup wage, by(race)
race | Obs Missing Mean Std. Dev. Min Max ------+-----------------------------------------------------------white | 1637 0 8.082999 5.955069 1.004952 40.19808black | 583 0 6.844558 5.076187 1.151368 40.74659other | 26 0 8.550781 5.20943 1.80602 25.80515------+-----------------------------------------------------------Total | 2246 0 7.766949 5.755523 1.004952 40.74659------------------------------------------------------------------
. tabstat wage, by(race) stat(n mean sd min max) /// nototal long col(stat) race variable | N mean sd min max----------------+---------------------------------------------white wage | 1637 8.082999 5.955069 1.004952 40.19808black wage | 583 6.844558 5.076187 1.151368 40.74659other wage | 26 8.550781 5.20943 1.80602 25.80515--------------------------------------------------------------

对比分析

  1. sumup命令作者表示此命令大量借用了tabstat,是tabstat的改进版本。
  2. 对比发现,虽然两个命令都所展示的功能相差无几,但简洁程度可谓天壤之别,sumup命令的优势不言而喻。

4. 小结

通过与热门描述性统计命令对比发现,sumup命令实质上是分组描述的sum命令,相对于tabstat更为简便快捷、相较于tabulate功能更加全面。是我们进行分组描述的最佳之选,但本命令也是存在着诸如无法调整结果显示格式等缺点,但瑕不掩瑜,大家快快下载使用吧!

连享会 - 文本分析与爬虫 - 专题视频

主讲嘉宾:司继春 || 游万海

连享会-文本分析与爬虫-专题视频教程
连享会-文本分析与爬虫-专题视频教程

   

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
Stata暑期班 连玉君
江艇
线上直播 9 天
2020.7.28-8.7
效率分析-专题 连玉君
鲁晓东
张 宁
视频-TFP-SFA-DEA
已上线,3天
文本分析/爬虫 游万海
司继春
视频-文本分析与爬虫
已上线,4天
空间计量系列 范巧 空间全局模型, 空间权重矩阵
空间动态面板, 空间DID
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:
    • 课程, 直播, 视频, 客服, 模型设定, 研究设计, 暑期班
    • stata, plus,Profile, 手册, SJ, 外部命令, profile, mata, 绘图, 编程, 数据, 可视化
    • DID,RDD, PSM,IV,DID, DDD, 合成控制法,内生性, 事件研究, 交乘, 平方项, 缺失值, 离群值, 缩尾, R2, 乱码, 结果
    • Probit, Logit, tobit, MLE, GMM, DEA, Bootstrap, bs, MC, TFP, 面板, 直击面板数据, 动态面板, VAR, 生存分析, 分位数
    • 空间, 空间计量, 连老师, 直播, 爬虫, 文本, 正则, python
    • Markdown, Markdown幻灯片, marp, 工具, 软件, Sai2, gInk, Annotator, 手写批注, 盈余管理, 特斯拉, 甲壳虫, 论文重现, 易懂教程, 码云, 教程, 知乎

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……


扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD