性别收入差距=歧视?Oaxaca-Blinder分解方法

发布时间:2020-02-20 阅读 185

作者:胡雨霄 (伦敦政治经济学院)

Stata连享会   主页 || 视频 || 推文

连享会 - Stata 暑期班

线上直播 9 天:2020.7.28-8.7
主讲嘉宾:连玉君 (中山大学) | 江艇 (中国人民大学)
课程主页https://gitee.com/arlionn/PX | 微信版


目录


本推文介绍 Oaxaca - Blinder 分解方法及其 Stata 的实现命令。Oaxaca - Blinder 分解方法由 Oaxaca (1973) , Blinder (1973) 提出。对方法原理的介绍主要基于 Jann(2008)。该方法被劳动经济学家广泛使用。

1. Oaxaca - Blinder 分解方法简介

以性别收入差距的实证例子来说明该方法的用途。事实上,即使观测到性别收入差距的存在,也无法轻易断言劳动市场存在性别歧视。性别收入差距产生的原因多样,有可能是由于性别歧视,也有可能是由于男性和女性的生产力条件不同。例如,假设女性受教育水平更低,那么性别收入差距可能反映的是性别受教育水平差距。因此,若想探究劳动市场是否存在性别歧视,需要构建一个反事实组 (couterfactual group),即 “被视为男性的女性” 。若无歧视存在,那么该反事实组别(couterfactual group) 的收入水平不应显著与女性收入水平不同。这说明劳动市场对男性女性一视同仁。而若收入水平显著不同,那么则可视为与歧视相关。通俗来讲,也就是若女性被视为男性,那么她们会得到更高的劳动市场回报。

需要注意的是,该组别被称为 “反事实 (counterfacutal) ”,是因为在现实中,我们无法观测到这样的组别。而 Oaxaca-blinder 方法的优势就在于可以用简单的方法构建一个反事实组 (couterfactual group),并将不同组别之间的差异分解为 "可解释部分” 以及 “不可解释部分”。“可解释部分” 为与生产力条件不同相关的收入差距,“不可解释部分” 为与生产力条件无关的收入差距,在实证中也常被理解为 “歧视”。

此外,仍需注意的是,通常来说,利用该方法无法进行因果推断 (causal inference)。一般而言,我们 无法 将 “可解释部分” 与 “不可解释部分” 理解为由生产力条件差异和歧视导致的收入差距。下文将进一步阐述。

2. Oaxaca - Blinder 分解方法原理

该部分仍以性别收入差距为例进行原理部分的阐述。女性收入记为 YF,男性收入记为 YM。我们认为,收入是由生产力条件决定的,即

其中,XMXF 分别表示男性和女性与生产力条件有关的因素 (determinant),例如,教育水平,工作年限,工作时间等。βMβF 分别为劳动力市场上对男性和女性的工资回报系数。

我们无法将 lnYMlnYF 直接理解为性别歧视。若想探究性别歧视的存在,要构建反事实组 (couterfactual group),即在劳动市场上 “被视为男性的女性” (C)。该组别收入记为 YC。对于 YC 的基本设定为

即被视为男性的女性在劳动市场上收获的劳动报酬。

基于此,性别收入差距可进行分解。

其中,

  • “可解释部分” 为 lnYMlnYC=βM(XMXF),即生产力条件不同 ( XM 不等于  XF),而产生的收入差距。
  • “不可解释部分” 为 lnYClnYF=(βMβF)XF,即由于男性和女性回报系数不同 (βM 不等于 βF),而产生的收入差距。这部分可以理解为歧视。

上文提到,通常来说,利用该方法无法进行因果推断 (causal inference)。但上一段又使用了 “产生” 这样具有因果推断意义的词汇。此处的矛盾源于,在实证分析中,我们很难找到所有的生产力条件决定因素,或者很难论证已经找到了所有的生产力条件决定因素。

在这种情况下,我们无法保证 “不可解释部分” 真的排除了所有的 “可解释部分”。例如,基因条件也许会对人的劳动市场表现产生影响,但很难找到基因的数据。

因此,大部分使用 Oaxaca - Blinder 的文章旨在论证劳动市场存在歧视,而却谨慎断言歧视就是导致性别收入差距的原因。

3. Oaxaca - Blinder 分解方法 Stata 命令实现

3.1 命令的安装

ssc install oaxaca, replace 

3.2 基本命令

 oaxaca depvar [indepvars] [if] [in] [weight] , by(groupvar) [options ]

其中

  • depvar 为我们关心的结果变量 (outcome variables),比如收入水平。

  • indepvar 为可能会影响结果变量的自变量。比如,教育水平、工作经验、工作时长都有可能会影响收入水平。

  • by(groupvar) 明确被比较的两个组别。

  • [options] 中可以明确分解的方式。weight(1) 表示以组别 1 作为基准组,pooled 则表示以整个样本作为基准组。上文的例子中,因为反事实组假设女性在劳动市场上被视作男性,所以男性为基准组。

3.3 数据导入

use "http://fmwww.bc.edu/RePEc/bocode/o/oaxaca.dta", clear

变量基本特征如下:

. des

Contains data from http://fmwww.bc.edu/RePEc/bocode/o/oaxaca.dta
  obs:         1,647      Excerpt from the Swiss Labor Market Survey 1998
 vars:            15      5 May 2008 08:10
 size:        57,645                          
-------------------------------------------------------------------------
              storage   display 
variable name   type    format    variable label
-------------------------------------------------------------------------
lnwage          float   %9.0g     log hourly wages
educ            float   %9.0g     years of education
exper           float   %9.0g     years of work experience
tenure          float   %9.0g     years of job tenure
isco            byte    %9.0g     occupation (ISCO)
female          byte    %9.0g     sex of respondent (1=female)
lfp             byte    %9.0g     labor force participation
age             byte    %9.0g     age of respondent
agesq           int     %10.0g    age squared
single          byte    %9.0g     single
married         byte    %9.0g     married
divorced        byte    %9.0g     divorced
kids6           byte    %9.0g     number of childern ages 6 and younger
kids714         byte    %9.0g     number of children ages 7 to 14
wt              double  %10.0g    sampling weights
-------------------------------------------------------------------------

3.4 Stata 命令实现

运用 oaxaca 命令对性别收入差距进行分解,结果如下。

. svyset [pw=wt]
. oaxaca lnwage educ exper tenure, by(female) weight(0) svy

Blinder-Oaxaca decomposition

Number of strata   =         1                  Number of obs     =      1,647
Number of PSUs     =     1,647                  Population size   = 1,657.1804
                                                Design df         =      1,646
                                                Model              =    linear
Group 1: female = 0                             N of obs 1         =       751
Group 2: female = 1                             N of obs 2         =       683

------------------------------------------------------------------------------
             |             Linearized
      lnwage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
overall      |
     group_1 |   3.405696   .0226311   150.49   0.000     3.361307    3.450085
     group_2 |   3.193847   .0276463   115.53   0.000     3.139622    3.248073
  difference |   .2118488    .035728     5.93   0.000     .1417718    .2819259
   explained |   .1124494   .0227931     4.93   0.000     .0677429     .157156
 unexplained |   .0993994   .0294441     3.38   0.001     .0416476    .1571512
-------------+----------------------------------------------------------------
explained    |
        educ |   .0563018   .0149668     3.76   0.000     .0269457    .0856578
       exper |   .0441621   .0137384     3.21   0.001     .0172156    .0711086
      tenure |   .0119856   .0087921     1.36   0.173    -.0052592    .0292305
-------------+----------------------------------------------------------------
unexplained  |
        educ |  -.0759137   .1671952    -0.45   0.650    -.4038515    .2520241
       exper |  -.1036479   .0560732    -1.85   0.065    -.2136303    .0063345
      tenure |    .064437   .0353861     1.82   0.069    -.0049696    .1338436
       _cons |    .214524   .1948348     1.10   0.271    -.1676261    .5966742
------------------------------------------------------------------------------

通过设定 weight(0),该命令以男性作为基准组。其中

-------------+----------------------------------------------------------------
overall      |
     group_1 |   3.405696   .0226311   150.49   0.000     3.361307    3.450085
     group_2 |   3.193847   .0276463   115.53   0.000     3.139622    3.248073
  difference |   .2118488    .035728     5.93   0.000     .1417718    .2819259
   explained |   .1124494   .0227931     4.93   0.000     .0677429     .157156
 unexplained |   .0993994   .0294441     3.38   0.001     .0416476    .1571512
-------------+----------------------------------------------------------------

表示,男性 (group_1) 的 logwage 均值为 3.406,女性(group_2)的 logwage 均值为 3.194。二者差距 (difference) 为 0.212。其中,"可解释部分" explained 为 0.112,占 difference 的 52.8%。“不可解释部分” unexplained 为 0.099,占 difference 46.7%。

3.5 经济学含义

首先,男性和女性的收入水平存在差距。男性的收入水平比女性的收入水平高出 21.18%。

其次,该收入差距可以被分解为两部分。一部分为 “可解释部分”。因为男性和女性在教育水平 (educ),工作年限(exper)以及获得 tenure 的年限(tenure)上存在差异,所以即使假设女性在劳动市场上被视为男性,还是会与真正的男性存在收入差距。具体而言,收入差距的 52.8% 与男性和女性在这些方面的生产力条件差异有关。

另一部分为 “不可解释部分”。该部分为被视为男性的女性和真正的女性的收入差距。其比较对象均为女性,差异为劳动市场看待女性的视角,因此无法由男性和女性的生产力条件差异解释。具体而言,收入差距的 46.7% 与女性在劳动力市场的差别待遇或者性别歧视有关。

最后,该结果表明劳动市场可能存在性别歧视。但是由于该分解只涉及教育水平 (educ),工作年限(exper)以及获得 tenure 的年限(tenure),并未穷尽所有收入水平的决定因,因此无法肯定性别歧视是导致劳动市场性别收入差距的原因。

文献来源

  • [1] Blinder, A. S. (1973). Wage discrimination: reduced form and structural estimates. Journal of Human resources, 436-455. [Link]
  • [2] Jann, B. (2008). The Blinder–Oaxaca decomposition for linear regression models. The Stata Journal, 8(4), 453-479. PDF
  • [3] Oaxaca, R. (1973). Male-female wage differentials in urban labor markets. International Economic Review, 693-709. [PDF][Link]
  • [4] [Github 上的一个介绍]

   

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
Stata暑期班 连玉君
江艇
线上直播 9 天
2020.7.28-8.7
效率分析-专题 连玉君
鲁晓东
张 宁
视频-TFP-SFA-DEA
已上线,3天
文本分析/爬虫 游万海
司继春
视频-文本分析与爬虫
已上线,4天
空间计量系列 范巧 空间全局模型, 空间权重矩阵
空间动态面板, 空间DID
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:
    • 课程, 直播, 视频, 客服, 模型设定, 研究设计, 暑期班
    • stata, plus,Profile, 手册, SJ, 外部命令, profile, mata, 绘图, 编程, 数据, 可视化
    • DID,RDD, PSM,IV,DID, DDD, 合成控制法,内生性, 事件研究, 交乘, 平方项, 缺失值, 离群值, 缩尾, R2, 乱码, 结果
    • Probit, Logit, tobit, MLE, GMM, DEA, Bootstrap, bs, MC, TFP, 面板, 直击面板数据, 动态面板, VAR, 生存分析, 分位数
    • 空间, 空间计量, 连老师, 直播, 爬虫, 文本, 正则, python
    • Markdown, Markdown幻灯片, marp, 工具, 软件, Sai2, gInk, Annotator, 手写批注, 盈余管理, 特斯拉, 甲壳虫, 论文重现, 易懂教程, 码云, 教程, 知乎

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……


扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD