样本选择偏误与性别工资差距

卢晶亮, 孙坚栋, 冯帅章

计量经济学报 ›› 2022, Vol. 2 ›› Issue (2) : 341-361.

PDF(877 KB)
PDF(877 KB)
计量经济学报 ›› 2022, Vol. 2 ›› Issue (2) : 341-361. DOI: 10.12012/CJoE2022-0009
 

样本选择偏误与性别工资差距

    卢晶亮1(), 孙坚栋1(), 冯帅章1,2()
作者信息 +

Sample Selection Bias and Gender Wage Gap

    Jingliang LU1(), Jiandong SUN1(), Shuaizhang FENG1,2()
Author information +
文章历史 +

摘要

本文基于2013年和2017年中国家庭金融调查数据,利用Oaxaca-Blinder分解方法结合Heckman样本选择模型对我国25~49岁城镇已婚劳动者的性别工资差距进行了估计和分解.实证研究发现:1)不考虑样本选择偏误的情况下,2013年到2017年性别工资差距有所扩大;2)与以往文献不同,本文在Heckman样本选择模型中明确考察了配偶收入对女性劳动参与的影响,发现已婚女性的就业存在显著的正向选择偏误,即潜在能力越强的女性更倾向于就业;3)正向选择偏误导致已婚群体的性别工资差距明显被低估,2017年性别工资差距的低估范围在42%~62%之间.本文的研究表明,低技能女性劳动参与率过低的现象掩盖了性别工资差距过高的事实,如何通过有关政策提高低技能女性的劳动参与率值得关注.

Abstract

Based on China Household Finance Survey data in year 2013 and 2017, this paper uses the Oaxaca-Blinder decomposition method and the Heckman sample selection model to estimate and decompose the gender wage gap for urban married workers aged 25~49. Empirical results show that: 1) Without correcting sample selection bias, the gender wage gap widened from 2013 to 2017; 2) Unlike previous literature, this paper explicitly examines the impact of spouse income on female labor participation in the Heckman sample selection model and finds that there is a significant positive selection bias among married women, that is, women with stronger potential ability are more likely to choose to be employed; 3) Positive selection bias leads to an obvious underestimation of the gender wage gap of the married workers. In 2017, the underestimation of the gender wage gap ranged from 42% to 62%. The research findings of this paper imply that the relative low labor force participation rate of low-skilled women conceals the fact that the gender wage gap is essentially large. How to increase the labor force participation rate of low-skilled women through relevant policies deserves attention.

关键词

性别工资差距 / 女性劳动参与 / Heckman样本选择模型 / 样本选择偏误

Key words

gender wage gap / female labor force participation / Heckman sample selection model / sample selection bias

引用本文

导出引用
卢晶亮 , 孙坚栋 , 冯帅章. 样本选择偏误与性别工资差距. 计量经济学报, 2022, 2(2): 341-361 https://doi.org/10.12012/CJoE2022-0009
Jingliang LU , Jiandong SUN , Shuaizhang FENG. Sample Selection Bias and Gender Wage Gap. China Journal of Econometrics, 2022, 2(2): 341-361 https://doi.org/10.12012/CJoE2022-0009

1 引言

两性平等是人类社会追求的重要目标之一, 与消除贫困、消除饥饿、减少不平等等目标一起被联合国列为17个可持续发展目标1. 联合国人类发展报告从健康、政治权利、劳动力市场参与三个方面构建性别不平等指数来衡量各国家和地区的性别不平等程度2. 而世界经济论坛从2006年开始推出全球性别差距报告, 报告从经济参与和机会、教育程度、健康和生存、政治权利四个维度构建全球性别差距指数来衡量各国家和地区的性别不平等程度3. 由此可见, 劳动力市场中的性别差异是性别不平等的一个重要组成部分, 受到广泛关注.
1联合国可持续发展目标https://www.un.org/sustainabledevelopment/zh.
2联合国发展报告中的性别不平等指数http://hdr.undp.org/en/content/gender-inequality-index-gii.
3全球性别差距报告2021 https://cn.weforum.org/reports/global-gender-gap-report-2021.
在计划经济时代, 由于制度原因女性拥有相对较高的就业率, 性别工资差距也相对较小. 而改革开放以来, 我国经历了从计划经济向市场经济的转型, 尤其是在20世纪90年代中期的国有企业改革之后, 越来越多的企业拥有了更加自主的雇佣权力. 在这样的市场环境下, 女性因其传统的社会分工角色, 更多承担家庭照料和子女抚养的任务, 往往在劳动力市场中处于不利的地位. 一些研究表明, 我国女性劳动参与率和就业率从20世纪80年代到2010年左右整体上呈不断下降趋势, 并且在2001年之后加速下降(Maurer-Fazio et al. (2011), Chi and Li (2014), Feng et al. (2017)). 此外, 在相同时间段内, 我国城镇地区的性别工资差距也呈现扩大趋势(Chi and Li (2014), 李实等(2014), 何泱泱等(2016), Hare (2019)).
然而, 现有文献较少关注我国性别就业差距对性别工资差距估计的重要影响. 已有大量研究表明, 女性尤其是已婚女性决定是否进入劳动力市场并非随机决定, 女性就业的自选择性(self-selection)会影响到女性工资方程回归系数以及性别工资差距的准确估计(Heckman(1977, 1979), Mulligan and Rubinstein (2008), Bar et al. (2015), Goraus et al. (2017)). Heckman样本选择模型(Heckman(1977, 1979))是文献中应用最为广泛的用来处理样本自选择性的方法. 模型识别的关键是找到只影响女性就业决策, 但不影响女性工资水平的排他性约束(exclusion restriction)条件, 文献中最常用的变量是女性的婚姻状况和低龄子女状况(Mulligan and Rubinstein (2008), Chi and Li (2014)).
Bar et al. (2015)的研究表明, 如果排他性约束条件中遗漏女性配偶的收入会造成模型误设, 进而导致女性工资方程回归系数以及性别工资差距的估计偏误. 具体而言, 就业决定方程的误差项与工资方程的误差项究竟是正相关(正向选择偏误)还是负相关(负向选择偏误), 决定了性别工资差距到底是高估还是低估. 正向选择偏误意味着潜在能力更强的女性也更倾向于就业, 实际观察到的性别工资差距会低估整体的性别工资差距; 反之, 负向选择偏误意味着潜在能力较弱的女性更倾向于就业, 实际观察到的性别工资差距会高估整体的性别工资差距.
在利用Heckman样本选择模型修正我国性别工资差距估计的文献中, Chen and Hamori (2008)利用女性婚姻状况作为排他性约束条件, Heshmati and Su (2017)利用女性婚姻状况和子女状况作为排他性约束条件, 发现我国性别工资差距存在高估; 而Chi and Li (2014)利用子女状况作为排他性约束条件, 却发现性别工资差距存在低估. 我国性别工资差距究竟存在高估还是低估现有文献并未得到一致结论, 并且上述研究都没有考虑女性配偶收入的影响, 可能存在模型误设问题. 厘清性别工资差距估计偏误的方向对于准确估计性别工资差距的大小和制定针对性的公共政策都具有重要意义.
本文基于2013年和2017年的中国家庭金融调查数据, 利用Oaxaca-Blinder分解方法结合Heckman样本选择模型对我国25~49岁城镇已婚劳动者的性别工资差距进行估计和分解, 着重探讨女性就业的自选择问题如何导致性别工资差距的估计偏误. 与现有文献相比, 本文的研究特色体现在: 1)宋锦等(2017)罗楚亮等(2019)研究发现2007–2013年我国城镇性别工资差距有缩小迹象, 但鲜有研究对2013年之后性别工资差距的变动趋势进行考察, 本文的研究是对现有文献的有益补充; 2) 本文重点考察了2013–2017年就业率的性别差异及其变动趋势, 这在以往文献中也较少涉及; 3)在利用Heckman样本选择模型处理女性就业自选择性问题时, 本文明确考察了配偶收入的影响, 详细比较了选择不同排他性约束条件对性别工资差距估计偏误的影响; 4)参照Huber and Mellace (2014)Maasoumi and Wang (2019)的方法, 我们对于子女数量和配偶收入是否满足排他性约束条件进行了统计检验. 本文的剩余部分安排如下, 第2部分为文献回顾, 第3部分为数据说明及描述性统计, 第4部分为实证分析, 最后第5部分为结论及政策建议.

2 文献回顾

一系列的研究利用具有代表性的微观调查数据考察了我国城镇性别工资差距的演进趋势. 早期的研究有Zhang et al. (2008)利用1988–2004年5省份的城镇住户调查(UHS)数据, 研究发现男女劳动者在教育及工作经验回报率方面差距的扩大是性别工资差距扩大的主要原因, 并且低收入人群性别工资差距的扩大幅度尤为明显. 李实等(2014)利用1995年、2002年和2007年的中国家庭住户收入调查(CHIP)数据, 研究发现1995–2007年尤其是2002–2007年期间性别工资差距显著扩大, 并且不能由个人特征解释部分的比例逐渐扩大. 低龄、低技能的蓝领女性与男性相比工资差距尤为明显. 宋锦等(2017)利用最新的CHIP数据研究发现, 2007–2013年25~49岁主要劳动年龄人口的性别工资差距有缩小的迹象, 但是性别工资差距几乎全部来自不可解释的部分.
Liu (2011)利用1989–2004年的中国居民健康与营养调查(CHNS)数据研究发现, 性别工资差距在1989–1997年间呈扩大趋势, 在1997–2004年间趋于平稳. 对于就业影响因素的分析发现, 低学历女性在1997–2004年间退出劳动力市场的概率在增大. Hare (2019)利用后续的CHNS数据研究发现, 2004–2011年间性别工资差距有扩大的趋势. 动态分解结果显示, 潜在工作经验回报的性别差距的扩大是推动性别工资差距扩大的主要因素.
除了刻画性别工资差距的变动趋势, 最近的文献从不同角度切入研究了性别工资差距的影响因素. Xiu and Gunderson (2015)何泱泱等(2016)研究了性别职业隔离对性别工资差距的影响; 罗楚亮等(2019)研究了性别行业隔离对性别工资差距的影响; Chi and Li (2008), Appleton et al. (2014)利用分位数分解方法研究了工资分布不同分位上的性别工资差距. 限于篇幅, 这里不再展开讨论. 不过值得注意的是, 前文提及的文献基本上都是使用回归和基于回归的分解方法来研究性别工资差距, 但是都没有考虑女性就业的自选择问题.
Heckman(1977, 1979)注意到在估计女性的工资回归方程时, 样本并非随机抽样, 即女性是否就业是自选择行为, 如果不考虑样本的非随机性, 对于系数的估计将是有偏的. 他提出了两阶段的样本选择模型来得到工资方程回归系数的一致估计量, 该方法后来得到广泛应用, 在文献中被称为Heckman样本选择模型. Mulligan and Rubinstein (2008)应用Heckman样本选择模型研究了美国20世纪70年代到90年代性别工资差距的变化. 他们发现, 女性的就业决策从70年的负向选择(能力强的女性倾向于选择不就业)转变为90年代的正向选择(能力强的女性倾向于就业), 即性别工资差距在70年代存在高估而90年代存在低估. 因此, 性别工资差距并非如观测数据显示的呈现不断缩小趋势, 在纠正样本选择偏误后基本保持不变. Bar et al. (2015)认为Mulligan and Rubinstein (2008)在女性就业决策方程中遗漏了配偶收入变量, 从而导致模型误设; 如果考虑配偶收入的影响, 美国女性就业无论是20世纪70年代还是90年代都存在正向选择偏误, 性别工资差距都存在低估现象.
在有关我国性别工资差距修正的研究中, Chi and Li (2014)基于城镇住户调查数据, 利用Heckman样本选择模型研究发现2005–2009年城镇性别工资差距低估了12~14%. 但该研究只考虑了子女状况对就业决策的影响, 并且将样本选择模型应用于总体样本而不是女性样本. Chen and Hamori (2008)基于2004年和2006年的中国居民健康与营养调查(CHNS)数据, Heshmati and Su (2017)基于2009年的中国家庭追踪调查(CFPS)数据, 运用Heckman样本选择模型和分解方法却发现我国城镇性别工资差距存在高估, 即女性就业表现为负向选择偏误. 以上两项研究都只将Heckman样本选择模型运用于女性样本, Chen and Hamori (2008)只考虑了婚姻状况对女性就业决策的影响, Heshmati and Su (2017)考虑了婚姻状况和子女状况对女性就业决策的影响.
上述国内外研究在运用Heckman样本选择模型对女性就业的自选择性进行纠正前, 都没有对子女数量或配偶收入是否满足排他性约束条件进行统计检验. Huber and Mellace (2014)给出了检验二元变量是否满足排他性约束条件的统计方法, 并检验了以往6项研究中子女数量或配偶收入(家庭收入)是否满足排他性条件. 他们的研究表明, 绝大多数情况下子女数量可以通过统计检验, 而配偶收入无法通过检验. Maasoumi and Wang (2019)利用上述方法对于美国数据的研究同样发现, 子女数量可以通过统计检验.
部分文献关注女性劳动参与的变动趋势与影响因素. Feng et al. (2017)基于城镇住户调查数据发现, 1988–2009年我国城镇男性和女性的劳动参与率均呈现下降趋势, 但是在2001年之后女性的劳动参与率比男性下降得更快. Maurer-Fazio et al. (2011)基于1982、1990、2000年人口普查数据的研究发现, 20~50岁已婚女性的劳动参与率呈现不断下降的趋势, 虽然学龄前儿童的存在降低了已婚女性劳动参与的可能性, 但与老年人同住增加了已婚女性劳动参与的概率. 沈可等(2012)的研究也表明, 多代同堂的家庭结构有利于提升女性的劳动参与概率, 而对男性则没有影响.
杜凤莲等(2018)基于中国家庭营养健康调查(CHNS)数据的研究发现, 1991–2011年相对于公立幼儿照料机构, 祖父母提供儿童照料的比例稳步上升. Li (2017)基于2008年中国乡城人口流动调查(RUMiC)数据的研究发现祖父母辈提供儿童照料显著提高了已婚女性的劳动参与率. 姚先国和谭岚(2005)基于1988–2002年6省份的城镇住户调查(UHS)数据研究发现, 配偶收入与已婚女性的劳动参与率显著负相关, 已婚女性的受教育程度与劳动参与率显著正相关. 马双等(2017)基于2011–2013年中国家庭金融调查(CHFS) 数据, 研究发现最低工资标准上涨10%, 已婚女性劳动参与概率显著增加1.86个百分点. 而对于工资收入处于最低25%的已婚女性, 劳动参与概率显著增加3.03个百分点.
纵观已有文献, 对于我国2010年之后性别工资差距变动趋势的研究较少. 现有关于性别工资差距分解研究的文献大多数没有考虑女性就业的自选择问题, 没有对性别工资差距的估计进行修正. 少数考虑女性就业自选择问题的研究仅考虑了子女状况对女性就业决策的影响, 忽略了配偶收入的影响, 可能导致模型误设.

3 数据说明及描述性统计

3.1 数据说明

本文使用的数据来自于2013年和2017年中国家庭金融调查(China Household Finance Survey, CHFS)城镇地区具有城镇户籍的样本4. 该调查包含了劳动年龄人口的基本特征(年龄、性别、户籍、教育程度等)、劳动参与和失业状况、就业单位类型、行业、职业、工作时间、工资收入等信息. 2013年的调查覆盖全国29个省(自治区、直辖市)、267个县(区、县级市)、1048个村(居) 委会, 28141户样本, 其中城镇地区样本8932户; 2017年的调查覆盖全国29个省(自治区、直辖市), 355个县(区、县级市), 1428个村(居) 委会, 40011户样本, 其中城镇地区样本12732户.
4由于本文实证分析的重点是利用Heckman样本选择模型纠正女性工资方程估计的样本选择性偏差, 会考察子女、与老人同住、配偶收入等因素对女性就业参与的影响. 由于农村流动人口在城镇地区并非稳定居住, 已婚女性的子女相当一部分是留守儿童, 由老人在老家照顾, 就业决策机制与城镇劳动力不同. 因此本文并未将农村流动人口样本纳入分析范围.
本文聚焦于子女抚养及配偶收入对已婚女性就业选择的影响, 而年轻劳动力多为未婚, 年长劳动力由于退休制度退出劳动力市场, 因此与宋锦等(2017)Mulligan and Rubinstein (2008)的做法类似, 我们将分析样本限定为25~49岁的主要劳动年龄人口. 具体而言, 在分析就业的性别差异时, 我们将劳动年龄人口样本限定为25~49岁的受访者及其配偶, 剔除基本人口特征变量存在缺失的样本5. 就业人口指调查前一周为了取得收入工作过1小时以上, 或由于病事假、产假、休假、在职学习等原因未上班的人员. 未就业人口包括失业人口和非劳动力人口. 失业人口是指调查时没有工作并且在过去一个月中有寻找过工作, 或由于生产淡季放假等原因未工作并在6个月内能够返回工作岗位的人员. 非劳动力人口指既没有就业也没有失业的劳动年龄人口, 包括在校学生、离退休人员、丧失劳动能力者以及没有工作并且在过去一个月中没有寻找工作的人员等. 而在分析性别工资差距时, 我们进一步将样本限定为小时工资大于零的已婚非农受雇劳动者, 剔除了自我雇佣劳动者和其他无法计算小时工资的劳动者6.
5由于2013年的调查仅询问了受访者及配偶有关户籍状况、工作的行业、职业、单位所有制性质等信息, 为了保持样本的可比性, 我们将两年的样本统一限定为受访者及其配偶. 如果利用2017年的全样本进行分析不会改变本文主要结论, 由于篇幅所限, 文中不再给出2017年全样本分析的具体结果.
6Heckman(1977, 1979)在提出样本选择模型时只将该方法运用女性就业和失业人群, 不包括非劳动力人群, 即退出劳动力市场的人群. 但后续的研究表明, 退出劳动力市场的女性在潜在工资超过保留工资时会直接转变为就业状态, 因此样本选择模型应该运用于全体女性劳动年龄人口(Goraus et al. (2017)). 在本文中, 我们选择将样本选择模型运用于25~49岁已婚女性中的受雇劳动者和未就业者(包括失业人口和非劳动力人口). 一方面是因为25~49岁的主要劳动年龄限制已经剔除了在校学生和退休人员, 剩下的未进行工作搜寻的女性在机会适当时会选择就业, 应当包括在样本之中. 另一方面, 25~49岁已婚女性的失业率很低, 仅包括失业人口会导致样本量过小.
本文中工资收入指劳动者过去一年从主要工作中实际获得的税后货币工资、税后奖金收入和税后补贴收入或实物收入之和. 根据劳动者过去一年的工作月数、每月平均工作天数和每天平均工作小时数计算得到小时工资. 工资收入以2012年价格为基准, 根据省级城镇居民消费者价格指数进行调整. 为避免极端值的影响, 我们剔除了每年小时工资小于1%分位点和大于99%分位点的样本. 对于所有就业和未就业的已婚女性, 我们仅保留配偶年工资收入大于0的样本. 此外, 我们删除了主要工作特征变量存在缺失的样本. 最终整理得到的劳动年龄人口样本和受雇劳动者样本的描述性统计详见表 1.
表1 样本描述性统计
劳动年龄人口样本 已婚受雇劳动者样本
2013年 2017年 2013年 2017年
男性 女性 男性 女性 男性 女性 男性 女性
已婚(%) 91.9 92.22 91.79 92.35 100 100 100 100
年龄 39.2 38.69 39.77 39.61 39.27 38.32 39.94 39.42
小学及以下(%) 3.05 5.78 2.99 5.57 1.37 1.67 1.22 1.95
初中(%) 20.15 24.17 17.54 21.03 13.69 11.71 12.59 11.87
高中/中专/职高(%) 26.35 27.5 24.6 24.92 23.43 23.73 21.7 20.41
大专(%) 20.75 19.2 21.77 19.99 23.59 24.97 24.59 23.45
本科及以上(%) 29.7 23.36 33.1 28.49 37.92 37.92 39.9 42.32
样本量 4690 5193 4556 5008 2484 1614 2534 1744
注: 数据来源于2013、2017年中国家庭金融调查, 劳动年龄人口样本限定为25~49岁的受访者及其配偶.已婚受雇劳动者样本进一步限定为小时工资大于零的非农受雇劳动者, 剔除每年小时工资小于1%分位点和大于99%分位点的样本.对于所有已婚女性, 仅保留配偶年工资收入大于0的样本.
表 1显示, 劳动年龄人口样本中92%为已婚, 男女的平均年龄相似, 本科及以上学历占比男性高于女性. 对于已婚受雇劳动者样本, 男性平均年龄略高于女性, 但本科及以上学历占比女性略高于男性. 在后文的实证分析中, 我们将利用分解方法考察男女在教育水平上的差异对性别工资差距的影响.

3.2 就业和工资性别差异的描述性统计

表 2是分性别就业率的描述性统计. 2013—2017年, 25~49岁男性的就业率从90.3% 上升到91.5%, 女性的就业率从71.9%上升到77.4%, 两者之间的差距有所缩小. 分婚姻状况来看, 未婚男性的就业率低于已婚男性, 而未婚女性的就业率高于已婚女性. 但未婚群体就业率的性别差异极小, 不超过2个百分点. 形成鲜明对比的是, 对于已婚群体, 男性的就业率超过90%, 女性的就业率不到80%, 两者之间的差异从2013年的20个百分点下降到2017年的15个百分点. 分年龄组来看, 各年龄组就业率的性别差异都在缩小, 由于45~49岁女性就业率上升幅度最大, 该组别就业率性别差异的缩小幅度最为显著.
表2 就业率的性别差异(单位: %)
2013年 2017年
男性 女性 差异 男性 女性 差异
总体 90.3 71.9 18.4 91.5 77.4 14.1
婚姻状况
未婚 81.6 81.2 0.4 83.4 82.0 1.4
已婚 91.1 71.1 20.0 92.2 77.0 15.2
年龄组
25~29岁 90.7 75.5 15.2 93.0 78.4 14.5
30~34岁 95.2 75.7 19.5 96.3 79.9 16.4
35~39岁 94.0 74.5 19.5 94.3 79.2 15.1
40~44岁 90.4 73.5 16.9 91.5 78.8 12.6
45~49岁 84.1 63.5 20.6 86.6 73.2 13.4
教育程度
小学及以下 74.8 45.0 29.8 73.5 58.8 14.7
初中 80.2 57.5 22.7 83.1 66.3 16.8
高中/中专/职高 88.1 67.2 20.9 89.6 72.5 17.0
大专 95.1 80.9 14.1 95.2 82.5 12.6
本科及以上 97.5 91.5 6.0 96.5 89.8 6.7
样本量 4690 5193 4556 5008
注: 数据来源于2013、2017年中国家庭金融调查, 劳动年龄人口样本限定为25~49岁的受访者及其配偶.
分教育程度来看, 无论男女, 就业率会随着教育水平的上升而上升; 本科及以上学历劳动者的就业率2013–2017年间略有下降, 但性别差异最小, 在10个百分点以内. 简单的分组描述性统计无法控制各种因素的同时变化, 在后文的实证分析中我们将利用线性概率回归模型进一步考察总体就业概率性别差异的变动趋势, 以及不同群体就业概率性别差异的异质性.
表 3是性别工资差距的描述性统计. 2013–2017年, 25~49岁已婚男性和女性的平均小时工资差距从12.9%上升到16.7%, 呈扩大趋势. 分受教育程度看, 性别工资差距随着教育水平的上升而缩小, 初中及以下学历劳动者的性别工资差距最大, 上升幅度也最大. 分所有制部门来看, 无论男女, 私营部门的平均对数小时工资都要低于国有部门, 性别工资差距也明显更大7. 2017年, 国有部门的性别工资差距为8.5%, 而私营部门的性别工资差距达到31.6%. 分行业来看, 初等服务业的性别工资差距最大; 2013到2017年, 第二产业的性别工资差距有所缩小, 高等服务业的性别工资差距有所扩大8. 分职业来看, 低技能职业的性别工资差距显著高于高技能职业, 并且呈扩大趋势, 而高技能职业的性别工资差距极小, 并且呈下降趋势9.
7国有部分包括政府及事业单位、国有及国有控股企业; 私营部门包括集体企业、私营及个体企业、外资及合资企业.
8第二产业包括采矿业、制造业、电力煤气及水的生产和供应业以及建筑业; 高等服务业包括交通运输、仓储及邮政业, 信息传输、软件和信息技术服务业, 金融业, 租赁和商业服务业, 科学研究和技术服务业, 水利、环境和公共设施管理业, 教育, 卫生和社会工作, 公共管理、社会保障和社会组织, 国际组织; 初等服务业包括批发和零售业, 住宿和餐饮业, 房地产业, 居民服务、修理和其他服务业, 文化、体育和娱乐业.
9高技能职业包括标准职业分类中的第一大类和第二大类, 即党的机关、国家机关、群团和社会组织、企事业单位负责人以及专业技术人员. 低技能职业包括办事人员和有关人员、社会生产服务和生活服务人员、生产制造及有关人员.
表3 平均对数小时工资的性别差距
2013年 2017年
男性 女性 差异 男性 女性 差异
总体 3.03 2.91 12.9% 3.22 3.07 16.7%
教育程度
初中及以下 2.48 2.27 23.3% 2.66 2.31 40.6%
高中/中专/职高 2.73 2.59 15.3% 2.92 2.69 25.5%
大专及以上 3.27 3.16 11.9% 3.45 3.34 10.8%
所有制部门
私营部门 3.00 2.74 29.8% 3.15 2.87 31.6%
国有部门 3.04 3.00 4.2% 3.28 3.19 8.5%
行业
第二产业 2.99 2.85 15.6% 3.13 3.08 5.0%
高等服务业 3.08 3.06 2.6% 3.35 3.26 10.3%
初等服务业 2.90 2.59 36.0% 3.00 2.73 31.1%
职业
低技能职业 2.89 2.73 17.3% 3.05 2.87 20.0%
高技能职业 3.13 3.10 3.6% 3.42 3.41 0.7%
样本量 2484 1614 2534 1744
注: 数据来源于2013、2017年中国家庭金融调查, 样本限定为25~49岁, 小时工资大于零的已婚非农受雇劳动者(受访者及其配偶).剔除每年小时工资小于1%分位点和大于99%分位点的样本.对于所有已婚女性, 仅保留配偶年工资收入大于0的样本.工资以2012年价格为基准, 根据省份城镇居民消费者价格指数进行调整.性别工资差距=[exp(男性平均对数工资-女性平均对数工资)-1]*100.
总结而言, 对于已婚群体, 女性的就业率和平均对数工资都要显著低于男性. 这表明已婚女性是否就业并非随机选择, 而是受到家庭分工等因素影响后的自选择行为, 进而影响到性别工资差距. 简单的分组描述性统计无法控制各种因素的同时变化, 在后文的实证分析中, 我们将利用Oaxaca-Blinder分解方法探究性别工资差距的主要影响因素, 并利用Heckman样本选择模型纠正样本选择性偏误对性别工资差距估计的影响.

4 实证分析

4.1 就业概率的性别差异

在实证研究部分, 我们首先利用线性概率模型估计就业概率的性别差异, 回归方程式见(1) 式.
Yit=β0+β1Femaleit+Xitγ+ϵit,
(1)
其中Yit为二元变量, 表示年份t的个体i是否就业, Femaleit为性别虚拟变量. Xit为其他个体特征向量, 包括年龄、年龄的平方、婚姻状况、一组教育水平虚拟变量(高中/中专/职高学历为参照组)、家中是否有0~6岁儿童、家中是否有7~17岁儿童、家中是否有60岁以上老人以及省份固定效应. 根据设定, 系数β1的估计值即代表就业概率的性别差异.
为了考察不同群体就业概率性别差异的不同, 我们进一步进行(2)式的回归.
Yit=β0+jβjFemaleit×Zijt+Xitγ+ϵit.
(2)
在(2)式中, Zijt代表一组虚拟变量, 我们将性别虚拟变量依次与教育水平虚拟变量(小学及以下学历、初中学历、高中/中专/职高学历、大专学历、本科及以上学历)、婚姻状况虚拟变量(已婚、未婚)、儿童抚养虚拟变量(家中无儿童、家中有0~6岁儿童、家中仅有7~17岁儿童)、老年人同住虚拟变量(家中有60岁以上老人、家中无60岁以上老人)进行交互, Xit代表与(1)式中相同的控制变量. 根据设定, 系数βj的估计值代表不同细分群体就业概率的性别差异10. 我们利用各年数据对(1)、(2) 式分别进行回归, 结果见表 4.
10在每组回归中我们没有单独加入性别虚拟变量Femaleit, 因此不存在虚拟变量陷阱问题.
表4 就业概率的性别差异
2013年 2017年
A部分: 基准回归
女性 -0.163*** -0.130***
(0.009) (0.010)
B部分: 性别与教育程度虚拟变量交互
女性*小学及以下学历 -0.307*** -0.157***
(0.044) (0.048)
女性*初中学历 -0.231*** -0.170***
(0.025) (0.023)
女性*高中/中专/职高学历 -0.209*** -0.173***
(0.018) (0.016)
女性*大专学历 -0.139*** -0.129***
(0.013) (0.017)
女性*本科及以上学历 -0.056*** -0.067***
(0.010) (0.013)
C部分: 性别与婚姻状况虚拟变量交互
女性*已婚 -0.180*** -0.142***
(0.009) (0.010)
女性*未婚 0.020 0.004
(0.023) (0.023)
D部分: 性别与子女状况虚拟变量交互
女性*家中无0~17岁儿童 -0.127*** -0.083***
(0.012) (0.010)
女性*家中有0~6岁儿童 -0.251*** -0.228***
(0.018) (0.014)
女性*家中仅有7~17岁儿童 -0.151*** -0.112***
(0.012) (0.012)
E部分: 性别与老人同住状况虚拟变量交互
女性*家中有60岁以上老人 -0.141*** -0.112***
(0.020) (0.023)
女性*家中无60岁以上老人 -0.168*** -0.133***
(0.010) (0.010)
样本量 9883 9564
注: 样本限定为25~49岁的受访者及其配偶. ***、**、* 分别代表系数在1%、5%和10%的显著性水平下显著.标准误为省份聚类标准误.为节省篇幅, 未报告控制变量的回归系数.
表 4的A部分为(1) 式回归的结果, 女性的就业概率显著低于男性, 2013年两者间的差距为16.3个百分点, 2017年为13个百分点. B部分呈现是不同受教育程度人群就业概率的性别差异. 从中我们可以看到, 大体上就业概率的性别差异随着教育水平的上升而下降, 本科及以上学历人群就业概率的性别差异不超过10个百分点, 但略有扩大趋势. C部分的结果显示, 未婚人群就业概率的性别差异要明显小于已婚人群. 未婚人群就业概率的性别差异不超过2个百分点, 并且统计上不显著; 而2017年已婚女性的就业概率要比男性低14.2个百分点. 未婚女性相对于已婚女性年龄更小, 不存在家庭分工, 没有家庭照料的负担, 就业概率与男性极为接近.
D部分展现的是儿童抚养负担对就业概率性别差异的影响. 从中我们可以看出, 对于家中有0~6岁儿童的家庭, 就业概率的性别差异最大, 超过20个百分点, 对于低龄儿童的照顾会显著减少女性的劳动参与. E部分的结果显示, 相对于家中无60岁以上老人的群体, 家中有60岁以上老人群体就业概率的性别差异更小. 一个可能的解释是老人会帮助女性分担子女照料的负担, 从而增加女性的劳动供给(杜凤莲等(2018)).
概括而言, 2013–2017年, 我国25~49岁城镇户籍劳动年龄人口就业概率的性别差异略有缩小. 从不同人群来看, 高学历、未婚女性的就业概率相对更高, 与男性的差距更小. 而低学历、已婚、家中有低龄儿童的女性就业概率相对较低, 与男性的差距较大. 尤其值得注意的是, 已婚女性的就业概率显著低于未婚女性, 表明就业参与决策受到家庭分工的影响. 而这种就业参与的自选择性会影响到性别工资差距的准确估计, 在后文中我们会利用Heckman样本选择模型对样本选择性偏误进行纠正.

4.2 性别工资差距分解

4.2.1 模型设定

在这一小节中, 我们利用Oaxaca-Blinder分解方法(Jann (2008)), 对工资均值的性别差异进行分解, 探究工资差异的影响因素. 同时, 利用Heckman样本选择模型(Heckman(1977, 1979)) 纠正样本选择性偏误对已婚女性工资方程估计的影响. 如果不考虑样本选择性偏误的存在, 男性和女性的工资回归方程如(3) 式和(4) 式. 其中, 下标mf分别代表男性和女性, 因变量W表示对数小时工资, 自变量X表示个体特征, 包括潜在工作经验、潜在工作经验的平方, 教育水平虚拟变量和省份固定效应, β表示回归系数向量. 在稳健性检验部分, 我们会尝试控制更多控制变量, 包括单位所有制、行业和职业虚拟变量11. 按照(5)式, 我们将性别工资差异G分解为可解释部分(禀赋效应)和不可解释部分(价格效应). 可解释部分代表由个体特征(如教育水平、工作经验等) 的性别差异造成的工资差异, 不可解释部分表示由个体特征回报率的性别差异造成的工资差异. 文献中一般认为不可解释部分包含了工资的性别歧视效应, 以及其他不可观测特征的影响. 进一步, 我们可以将可解释部分详细分解为工作经验、教育水平、所有制、行业、职业等每类个体特征性别差异的贡献.
11潜在工作经验=年龄-教育年限-6. 与前文相同, 教育水平虚拟变量以高中/中专/职高为参照组. 所有制性质分为政府部门及事业单位(参照组)、国有企业、集体企业、私营企业、外资与合资企业; 行业分为第二产业(参照组)、高等服务业、初等服务业; 职业分为单位负责人(参照组)、专业技术人员、办事人员和有关人员、社会生产服务和生活服务人员、生产制造及有关人员.
Wm=Xmβm+μm,
(3)
Wf=Xfβf+μf,
(4)
G=W¯mW¯f=(X¯mX¯f)β^m+X¯f(β^mβ^f).
(5)
如果工资样本的观测值为非随机抽样, 那么由于样本选择性偏误的存在, 工资方程系数的估计将是有偏的. 前文描述性统计显示, 已婚女性的就业率和平均工资显著低于男性. 众多文献研究表明女性的就业参与决策会系统性的受到婚姻匹配、子女照顾等家庭分工因素的影响, 因此在估计女性的工资方程时, 需要对样本选择性偏误进行纠正, 而Heckman样本选择模型是最为常用的方法. (6) 式为存在样本自选择情况下的已婚女性工资回归方程, 回归系数向量βa用上标a以示区别. (7) 式为已婚女性的就业决策方程, 只有当个体就业时(Pf=1) 才能观测到其工资水平. 假设工资方程和就业决策方程的误差项μfεf均服从正态分布, 两者的相关系数为ρ. 向量Zf代表影响女性就业决策的变量, 其中包含只影响就业决策但不影响工资决定的变量, 以满足排他性约束条件, 这是模型识别的关键所在.
Heckman样本选择模型的推导证明, 如要得到女性工资方程回归系数的一致估计量, 需按照如下两步进行估计. 第一步如(7) 式所示, 利用Probit回归估计女性就业决策方程的回归系数γf. 接着如(8) 式所示, 利用γf的估计值构造变量逆米尔斯比(inverse Mill's ratio) λ, 其中ϕ()Φ()分别表示标准正态分布的密度函数和累计分布函数. 第二步如(9) 式所示, 将λ作为控制变量加入工资方程, 估计工资方程回归系数. 与(4) 式相比, 如果没有控制λ, 工资方程回归系数β的估计将由于遗漏变量问题导致有偏.
Wf=Xfβfa+μf,μfN(0,σμ2),
(6)
Pf=1[Zfγf+εf>0],εfN(0,1),corr(μf,εf)=ρ,
(7)
λ^=ϕ(zfγ^f)Φ(zfγ^f),
(8)
Wf=Xfβfa+θλ^+v,θ=ρσμ.
(9)
在(9) 式中可以看到, 逆米尔斯比λ的系数θ, 等于工资方程和就业决策方程误差项μfεf的相关系数ρ与工资方程误差项μf的标准差σμ的乘积, 其符号方向由ρ的正负决定. 当ρ>0时, 意味着不可观测能力越强、工资越高(μf越大, Wf越高) 的女性更倾向于就业(εf越大, Pf越高), 我们称之为正向选择偏误(positive selection bias). 反之, 当ρ<0时, 意味着能力越强、工资越高的女性更倾向于选择不就业, 我们称之为负向选择偏误(negative selection bias).
选择偏误的方向决定了实际观测到的性别工资差距对"真实"性别工资差距是高估还是低估. 在考虑女性样本选择偏误的情况下, 如(10) 式所示, 性别工资差距可分解为可解释部分、不可解释部分和选择偏误三个部分. 当θ>0时, 正向选择偏误会缩小性别工资差距; 当θ<0时, 负向选择偏误会扩大性别工资差距. 如(11) 式所示, 我们将纠正样本选择性偏误后的性别工资差距Ga定义为实际观测到的性别工资差距G加上样本选择偏误θλ, 这是我们实际关心的"真实"性别工资差距. 如(12) 式所示, 当存在正向选择偏误时, 能力更强的女性倾向于就业, 实际观测到的性别工资差距低估了"真实"的性别工资差距; 当存在负向选择偏误时, 能力更强的女性倾向于不就业, 实际观测到的性别工资差距就会高估"真实"的性别工资差距. 而G对于Ga高估或低估的程度取决于样本选择偏误θλ的大小.
G=W¯mW¯f=(X¯mX¯f)β^m+X¯f(β^mβ^fa)θ^λ^¯,
(10)
Ga=G+θ^λ^¯=(X¯mX¯f)β^m+X¯f(β^mβ^fa),
(11)
θ^>0,ρ^>0,Ga>G,
(12)
θ^<0,ρ^<0,Ga<G.
(13)
以往文献最常采用的就业决策方程中的排他性约束条件是女性的婚姻状况和家中子女状况(Mulligan and Rubinstein (2008), Chen and Hamori (2008), Chi and Li (2014), Heshmati and Su (2017)). 但Bar et al. (2015)的研究表明, 如果在女性就业决策方程中遗漏了配偶收入变量, 会造成逆米尔斯比变量含有测量误差, 以及工资方程回归系数的估计有偏. 有关我国性别工资差距的研究鲜有考虑配偶收入对于女性就业决策的影响. 在本文中, 我们给出两个样本选择模型的估计结果. 模型1中影响已婚女性就业决策的变量Zf包括教育水平虚拟变量、潜在工作经验、潜在工作经验的平方、家中0~6岁儿童数量、家中7~17岁儿童数量、家中60岁以上老人数量以及省份固定效应12. 模型2在模型1的基础上, 进一步控制已婚女性配偶的年工资收入. 我们根据逆米尔斯比回归系数θ以及配偶收入回归系数估计值的统计显著性来判断模型1和模型2的有效性.
12对于家中子女状况和老人状况, 选择使用人数数量、0-1二元变量、还是占家庭总人数的比例, 并不影响实证结果的稳健性.
在此之前, 参照Huber and Mellace (2014)Maasoumi and Wang (2019)的方法, 我们首先对于上述四个变量是否满足排他性约束条件进行了统计检验, 结果显示所有变量均通过了检验, 因此我们可以将判断模型有效性的重点放在考察逆米尔斯比回归系数的显著性上. 排他性约束条件检验的具体方法和检验结果参见本文附录.

4.2.2 基准结果

表 5显示的是25~49岁已婚群体性别工资差距的分解结果. A部分显示的是未纠正样本选择偏误的分解结果, 2013年和2017年已婚男性与女性平均对数小时工资的差距分别为0.121和0.154, 呈上升趋势, 并且系数均在1% 的显著性水平下显著. 可解释部分缩小了性别工资差距, 但对于总体性别工资差距的解释比例较低, 2013年为18%, 2017年为13%, 性别工资差距的扩大主要由不可解释部分所主导. B部分显示的纠正样本选择偏误后的分解结果. 模型1的结果显示, 纠正样本选择偏误后, 2013年的性别工资差距缩小为0.054, 2017年的性别工资差距上升为0.227, 并且2013年的系数不显著. 但女性工资方程的回归结果显示, 2013年和2017年逆米尔斯比的回归系数均不显著, 表明不存在样本选择问题或是由于模型误设所致. 模型2的结果显示, 纠正样本选择偏误后, 性别工资差距分别提高为0.614和0.379, 并且结果均在1%的水平下显著. 女性工资方程的回归结果显示, 两年逆米尔斯比的回归系数均显著为正, 表明此时存在样本选择问题, 并且表现为正向选择偏误. 模型2中女性就业决策方程的回归结果显示, 与模型1类似, 家中0~6岁儿童数量增加会显著降低女性的就业概率; 其他条件不变, 配偶收入上升也会显著降低女性的就业概率.
表5 已婚群体性别工资差异的均值分解
2013年 2017年 2013年 2017年
A部分: 未纠正样本选择偏误的分解结果
总差异 0.121*** 0.154***
可解释部分 -0.022* -0.020***
教育 -0.007 -0.013*
工作经验 -0.000 0.002
地区 -0.014* -0.009
不可解释部分 0.143*** 0.175***
样本量 4098 4278
B部分: 纠正样本选择偏误的分解结果
模型1 模型2
调整后的总差异 0.054 0.227*** 0.614*** 0.379***
可解释部分 -0.022 -0.020 -0.022 -0.020
不可解释部分 0.076 0.247*** 0.636*** 0.399***
样本量 4098 4278 4098 4278
女性就业的Probit回归
家中0~6岁儿童数量 -0.368*** -0.601*** -0.353*** -0.588***
(0.088) (0.074) (0.089) (0.074)
家中7~17岁儿童数量 0.002 -0.147** 0.003 -0.142**
(0.071) (0.065) (0.071) (0.065)
家中60岁以上老人数量 0.104 -0.000 0.100 -0.004
(0.066) (0.059) (0.066) (0.059)
配偶年工资收入(万元) -0.020*** -0.010**
(0.006) (0.004)
样本量 2286 2343 2286 2343
女性工资回归
逆米尔斯比 -0.164 0.195 1.219*** 0.604***
(0.229) (0.128) (0.335) (0.134)
样本量 1614 1744 1614 1744
注: 样本限定为25~49岁, 小时工资大于零的已婚非农受雇劳动者(受访者及其配偶). 剔除每年小时工资小于1%分位点和大于99%分位点的样本.对于所有已婚女性, 仅保留配偶年工资收入大于0的样本. ***、**、*分别代表系数在1%、5%和10%的显著性水平下显著.限于篇幅, 女性就业决策回归未报告教育水平、工作经验和省份固定效应的回归系数.女性工资回归仅报告逆米尔斯比的回归系数.
总结来看, 模型1中女性就业决策方程的排他性约束条件仅包括子女状况和与老人同住状况, 逆米尔斯比的回归系数均不显著. 表明此时对于样本选择偏误的纠正是无效的, 因而对于性别工资差距的调整结果也是不可靠的. 模型2中女性就业决策方程的排他性约束条件加入配偶年工资收入后, 发现配偶收入会显著影响女性的就业概率, 并且逆米尔斯比的回归系数显著为正. 表明此时对于样本选择偏误的纠正是有效的, 并且样本存在正向选择偏误. 因此, 与以往有关中国的实证研究结果(Chen and Hamori (2008), Heshmati and Su (2015)) 相反, 实际观测到的性别工资差距低估了, 而不是高估了"真实"的性别工资差距. 本文的研究结果与Bar et al. (2015)关于美国的研究结论类似, 配偶收入对女性的就业概率有显著的负向影响, 并且女性就业样本存在正向选择偏误, 即潜在能力更强的女性更倾向于就业. 接下来, 我们通过两组稳健性检验来验证上述结论.

4.2.3 稳健性检验

性别工资差距分解的稳健性检验考虑如下两个方面: 1) 在工资回归中加入更多控制变量; 2) 在样本选择模型中用不包含女性自身工资收入的人均家庭收入替代配偶工资收入. 首先, 所有制、行业和职业等工作特征部分反映了生产率差异的性别差异和歧视效应对性别工资差距的影响, 可能会影响逆米尔斯比系数估计的符号方向和统计显著性, 我们控制上述变量以验证结果的稳健性. 其次, 除了配偶的劳动收入, 家庭其他类型收入也可能会影响女性的就业决策(Goraus et al. (2017)), 我们在样本选择模型中利用人均家庭其他收入替代配偶工资收入以验证结果的稳健性. 稳健性检验的目的一是验证样本选择模型2有效而模型1无效的结论对于不同设定是否稳健, 二是女性就业存在正向选择偏误而不是负向选择偏误的结论对于不同设定是否稳健. 稳健性检验的结果分别见表 6表 7.
表6 已婚群体性别工资差异的均值分解
2013年 2017年 2013年 2017年
A部分: 未纠正样本选择偏误的分解结果
总差异 0.121*** 0.154***
可解释部分 0.024* 0.041***
教育 -0.008 -0.012*
工作经验 0.002 0.002
所有制 0.014*** 0.019***
行业 0.024*** 0.020***
职业 0.005 0.020***
地区 -0.013** -0.008
不可解释部分 0.096*** 0.114***
样本量 4098 4278
B部分: 纠正样本选择偏误的分解结果
模型1 模型2
调整后的总差异 0.091 0.226*** 0.606*** 0.365***
可解释部分 0.024 0.041*** 0.024 0.041***
不可解释部分 0.067 0.185*** 0.582*** 0.324***
样本量 4098 4278 4098 4278
女性工资回归
逆米尔斯比 -0.073 0.191 1.200*** 0.565***
(0.223) (0.123) (0.331) (0.128)
样本量 1614 1744 1614 1744
注: 样本描述见表 5注释. ***、**、*分别代表系数在1%、5%和10%的显著性水平下显著.限于篇幅, 女性就业决策回归未报告教育水平、工作经验和省份固定效应的回归系数.女性工资回归仅报告逆米尔斯比的回归系数.
表7 已婚群体性别工资差异的均值分解: 家庭收入对女性就业选择的影响
2013年 2017年 2013年 2017年
A部分: 未纠正样本选择偏误的分解结果
总差异 0.121*** 0.154***
可解释部分 0.024* 0.041***
不可解释部分 0.096*** 0.114***
样本量 4098 4278
B部分: 纠正样本选择偏误的分解结果
模型1 模型2
调整后的总差异 0.091 0.226*** 0.311*** 0.422***
可解释部分 0.024 0.041*** 0.024 0.041***
不可解释部分 0.067 0.185*** 0.286*** 0.381***
样本量 4098 4278 4098 4278
女性就业的Probit回归
家中0~6岁儿童数量 -0.368*** -0.601*** -0.374*** -0.622***
(0.088) (0.074) (0.088) (0.074)
家中7~17岁儿童数量 0.002 -0.147** -0.005 -0.163**
(0.071) (0.065) (0.071) (0.066)
家中60岁以上老人数量 0.104 -0.000 0.097 -0.014
(0.066) (0.059) (0.066) (0.060)
家庭人均年收入(万元) -0.013** -0.031***
(0.006) (0.008)
样本量 2286 2343 2286 2343
女性工资回归
逆米尔斯比 -0.073 0.191 0.467** 0.723***
(0.223) (0.123) (0.213) (0.136)
样本量 1614 1744 1614 1744
注: 样本描述见表 5注释. ***、**、*分别代表系数在1%、5%和10%的显著性水平下显著.限于篇幅, 女性就业决策回归未报告教育水平、工作经验和省份固定效应的回归系数.女性工资回归仅报告逆米尔斯比的回归系数.人均其他家庭收入指不包括女性自身工资收入的家庭其他收入的人均值.
表 6显示的是在工资回归中加入更多控制变量(所有制、行业、职业) 后的分解结果. A部分未纠正样本选择偏误的分解结果显示, 可解释部分和不可解释部分都为正, 起到扩大总体性别工资差距的作用, 不可解释部分依然占主导地位. 可解释部分中所有制、行业、职业分布的性别差异均起到拉大性别工资差距的作用. 表明男性在高薪行业、职业和所有制部门中的就业比例均高于女性. B部分显示的纠正样本选择偏误后的分解结果. 模型1的结果显示, 调整后2013年的性别工资差距有所下降, 2017年的性别工资差距有所扩大; 但女性工资方程的回归结果显示, 两年逆米尔斯比的回归系数均不显著. 因此与基准分析的结果相同, 模型1对于样本选择偏误的纠正并不可信. 模型2的结果显示, 纠正样本选择偏误后的性别工资差距同样显著上升, 数值略小于基准结果. 女性工资方程的回归结果显示, 两年逆米尔斯比的回归系数都显著为正, 表明此时存在样本选择问题, 并且表现为正向选择偏误, 这与基准分析的结果一致. 不同的是, 逆米尔斯比系数的估计值略有下降, 表明控制更多工作特征变量确实会影响偏误纠正的幅度, 但不影响存在显著正向选择偏误的结论.
表 7显示的是在就业选择方程中用人均家庭其他收入替代配偶工资收入的分解结果. A部分未纠正样本选择偏误的分解结果, 以及B部分中样本选择模型1的结果与表 6相同, 这里不再赘述. 样本选择模型2的结果显示, 纠正样本选择偏误后的性别工资差距有所上升, 上升幅度小于表 6中的结果; 女性工资方程的回归结果显示, 逆米尔斯比的回归系数均显著为正, 表明女性就业存在正向选择偏误, 但数值要小于表 6中配偶收入的系数值. 模型2中女性就业决策方程的回归结果显示, 其他条件不变, 人均家庭其他收入上升会显著降低女性的就业概率, 这与配偶收入的作用相似, 但是边际效应相对更小. 总结而言, 以上结果再次验证了本文结论的稳健性.

4.2.4 正向选择偏误与性别工资差距的低估程度

性别工资差距分解的基准结果和稳健性检验均表明, 已婚女性的就业决策方程如果遗漏配偶收入变量, 会造成模型误设, 导致样本选择偏误纠正无效.在考虑配偶收入对女性就业决策的影响后, 结果显示已婚女性存在正向选择偏误, 即潜在能力越强的女性更倾向于选择就业, 随之而来的后果是实际观测到的性别工资差距会严重低估"真实"的性别工资差距. 女性就业的正向选择偏误意味着低技能(低能力)女性的劳动参与率过低.
正向选择偏误与正向婚姻匹配(positive assortative mating)密切相关. 正向婚姻匹配是指女性(男性)与教育程度(潜在能力) 相似的男性(女性)结婚, 夫妻的教育程度(潜在能力)表现出正向相关, 进而体现在潜在收入水平的正相关. 如果已婚女性的就业参与存在正向选择偏误, 那么配偶收入越高的女性就业率越高.表 8显示, 按照配偶的收入水平五等分组, 已婚女性的就业率会随着配偶收入水平的上升而上升, 这与Chi and Li (2014)的结论一致. 2013年配偶收入处于最低20%组女性的就业率仅为57.1%, 而配偶收入处于最高20%组女性的就业率为78.8%.
表8 配偶收入水平与女性的就业率
低收入 中低收入 中等收入 中高收入 高收入
2013年 57.10% 69.90% 72.20% 76.10% 78.80%
2017年 63.60% 74.60% 74.80% 80.80% 78.40%
注: 样本限定为25~49岁的已婚女性, 包括受雇劳动者和未就业者. 所有女性仅保留配偶年工资收入大于0的样本.
正向选择偏误的存在会导致性别工资差距低估多少呢? 在表 9中, 我们以表 6中模型2的设定为标准, 将对数小时工资、月工资、年工资的性别差距转化为百分比, 并考察实际观测的性别工资差距对"真实"性别工资差距的低估程度. 第(1)列是经过样本选择模型2纠正后的性别工资差距, 第(2)列是实际观测的性别工资差距, 第(3) 列是以百分点衡量的估计偏误, 第(4)列是以百分比衡量的估计偏误. 以2017年的结果为例, 实际观测到的小时工资、月工资、年工资的性别差距分别为16.6%、24.9%和27.1%, 而纠正偏误后的性别工资差距分别高达44.1%、52.3%和47%. 性别工资差距的低估程度在20~28个百分点之间, 或42%~62%之间.低技能女性过低的就业率导致"真实"的性别工资差距被大大低估, 他们的福利状况值得政策制定者密切关注.
表9 基于模型2的性别工资差距的估计偏误
调整后的差距 实际观测的差距 估计偏误(百分点) 估计偏误(百分比)
(1) (2) (2)-(1) (2)/(1)-1
小时工资
2013年 83.30% 12.90% -70.40% -84.60%
2017年 44.10% 16.60% -27.40% -62.20%
月工资
2013年 86.30% 20.40% -65.80% -76.30%
2017年 52.30% 24.90% -27.50% -52.50%
年工资
2013年 83.50% 22.90% -60.60% -72.60%
2017年 47.00% 27.10% -19.80% -42.20%
注: 性别工资差距=[exp(男性平均对数工资-女性平均对数工资)-1]*100.模型设定为在工资回归方程中控制个人特征和工作特征变量, 在女性就业选择方程中控制子女状况、与老人同住状况和配偶收入.

5 结论

本文基于2013年和2017年的中国家庭金融调查(CHFS)数据, 利用Oaxaca-Blinder分解方法结合Heckman样本选择模型对我国25~49岁城镇已婚劳动者的性别工资差距进行了估计和分解, 着重探讨了女性就业的样本自选择问题如何导致性别工资差距的估计偏误. 本文的主要研究发现如下:
首先, 线性概率回归的结果显示, 2013–2017年女性的就业概率显著低于男性, 但两者之间的差距呈缩小趋势. 进一步的研究表明, 高学历、未婚女性的就业概率相对更高, 与男性相比差距较小. 而低学历、已婚、家中有低龄儿童的女性就业概率相对较低, 与男性相比差距较大. 其次, 在不考虑样本自选性的情况下, 2013–2017年已婚劳动力的性别工资差距有所扩大; 分解结果显示, 性别工资差距主要由不可解释部分所主导. 再次, 传统的样本选择模型只考虑子女状况对已婚女性就业决策的影响, 存在模型误设问题, 无法对性别工资差距的估计偏误进行有效纠正. 在进一步考虑配偶收入对已婚女性就业决策的影响后, 我们发现女性就业存在显著的正向选择偏误, 即能力强的女性更倾向于就业, 这会导致性别工资差距明显低估. 最后, 稳健性检验进一步验证了我们的结论, 2017年对已婚劳动力性别工资差距的低估范围在42%~62%之间.
我们的研究结果表明, 如果不考虑已婚女性就业参与的正向选择偏误, 会对总体性别工资差距造成明显低估. 以往的研究忽略配偶收入对女性就业参与的影响, 会导致无法捕捉正向选择偏误. 正向选择偏误表明能力越强的女性更倾向于就业, 而正向婚姻匹配意味着夫妻双方的潜在收入也存在正相关, 两种效应相结合造成的结果是配偶属于高收入群体的女性其自身就业概率也更高, 收入水平也更高. 而低技能女性更倾向于退出劳动力市场, 从而导致实际观测到的性别工资差距严重低估了"真实"的性别工资差距. 换言之, 大量低技能女性退出劳动力市场"掩盖"了性别工资差距高企的事实.
本文结论的政策含义是, 低技能女性过低的劳动参与率须引起重视, 否则会误导对于性别工资差距大小的准确判断. 除了要关注家务劳动和儿童照料负担会降低女性的就业概率之外, 还应该注意到婚姻匹配模式对女性就业决策的影响. 与高技能女性不同, 低技能女性不能够就业的原因可能是家庭经济状况无法负担购买家政服务的支出, 从而被迫而不是主动退出劳动力市场. 政府应该进一步完善学前教育公共服务体系, 加快家政服务业的发展, 缓解女性在生育、子女照料和参与劳动之间的冲突, 降低女性参与市场劳动的机会成本, 从而增加劳动供给. 在我国人口老龄化不断加深和实施三孩生育政策的背景下, 提高女性的就业率, 尤其是低技能女性的就业率对于优化劳动力资源配置, 促进经济增长都具有重要意义. 此外, 本文的分解结果显示, 性别工资差距依然主要由不可解释部分所主导, 除了歧视之外还存在哪些影响因素, 有待后续研究深入探讨. 在纠正样本选择偏误之后, 我国城镇性别工资差距近年来究竟呈现扩大还是缩小的趋势, 也有待更多后续研究来验证.

附录

Heckman样本选择模型中的排他性约束条件要求我们找到某些变量Z只影响样本选择方程但不影响结果方程. 换言之, 给定结果方程中的控制变量X, Z与结果方程中的误差项μ以及样本选择方程中的误差项ε相互独立, Z(μ,ε)X. 在本文中, 我们认为家中子女状况、老人状况、配偶收入这些变量仅影响已婚女性的就业参与, 但不影响女性的工资, 因此需要检验上述变量是否满足排他性约束条件.
基于潜在结果框架(potential outcomes framework), Huber and Mellace (2014)给出了当Z为二元变量时, 检验其是否满足排他性约束条件的方法. 具体而言, 当Z满足排他性约束条件时, 以下一组不等式成立:
H0:(E(WZ=1,P=1,Wwq)E(WZ=0,P=1)E(WZ=0,P=1)E(WZ=1,P=1,Ww1q))(θ1θ2)(00).
其中W表示女性对数小时工资, P=1表示就业, Z为二元变量, 我们分别检验家中是否有0~6岁小孩、家中是否有7~17岁小孩、家中是否有60岁以上老人、配偶收入是否高于中位数、人均家庭收入是否高于中位数五个二元变量是否满足原假设H0. 其中q=Pr(P=1|Z=0)/Pr(P=1|Z=1), wqw1q为相对应的条件分位数. 统计检验的Stata程序来自Maasoumi and Wang (2019), 具体结果见附表 1.
表附表1 排他性约束条件检验结果
变量Z 年份 标准化统计量 p
家中有0~6岁儿童=1 2013 -2.722 1.000
2017 -2.009 1.000
家中有7~17岁儿童=1 2013 0.071 1.000
2017 0.130 1.000
家中有60岁以上老人=1 2013 0.064 0.483
2017 -2.149 0.998
配偶年工资收入大于中位数=1 2013 -0.980 1.000
2017 -1.052 1.000
人均家庭年收入大于中位数=1 2013 -0.914 1.000
2017 -0.984 0.961
附表 1中第三列标准化统计量指θ1θ2中的最大值除以对数小时工资的标准误, 标准化统计量越大表明越有可能违背原假设H0. 而第四列给出的就是统计量所对应的p值, 从中可以看出, 我们所选择的五个变量全部都通过了排他性约束假设的检验.

参考文献

杜凤莲, 张胤钰, 董晓媛, 儿童照料方式对中国城镇女性劳动参与率的影响[J]. 世界经济文汇, 2018, (3): 1- 19.
Du F L , Zhang Y Y , Dong X Y , Grandparents or Kindergartens? The Impacts of Childcare Choices on Labor Force Participation of Mothers with Preschool Children in Urban China[J]. World Economic Papers, 2018, (3): 1- 19.
何泱泱, 刘国恩, 徐程, 中国职业隔离与性别工资差异的变化趋势研究[J]. 经济科学, 2016, (4): 78- 89.
He Y Y , Liu G E , Xu C , Research on the Occupational Segregation and the Evolution of Gender Wage Gap in China[J]. Economic Science, 2016, (4): 78- 89.
李实, 宋锦, 刘小川, 中国城镇职工性别工资差距的演变[J]. 管理世界, 2014, (3): 53- 65.
Li S , Song J , Liu X C , The Evolution of the Gender Wage Gap of the Staff of China's Cities and Towns[J]. Management World, 2014, (3): 53- 65.
罗楚亮, 滕阳川, 李利英, 行业结构、性别歧视与性别工资差距[J]. 管理世界, 2019, (8): 58- 68.
Luo C L , Teng Y C , Li L Y , Sectoral Composition, Gender Discrimination, and Gender Wage Gaps in Urban China[J]. Management World, 2019, (8): 58- 68.
马双, 李雪莲, 蔡栋梁, 最低工资与已婚女性劳动参与[J]. 经济研究, 2017, 52 (6): 153- 168.
Ma S , Li X L , Cai D L , Minimum Wage and Labor Force Participation of Married Women[J]. Economic Research Journal, 2017, 52 (6): 153- 168.
沈可, 章元, 鄢萍, 中国女性劳动参与率下降的新解释: 家庭结构变迁的视角[J]. 人口研究, 2012, 36 (5): 15- 27.
Shen K , Zhang Y , Yan P , Family Structure and Female Labor Force Participation in China[J]. Population Research, 2012, 36 (5): 15- 27.
宋锦, 史泰丽, 古斯塔夫森, (2017). 中国城镇性别工资差距: 新趋势?[M]//李实, 岳希明, 史泰丽, 佐藤宏. 中国收入分配格局的最新变化. 北京: 中国财政经济出版社, 2017: 285-326.
Song J, Sicular T, Gustafsson B, (2017). China's Urban Gender Wage Gap: A New Direction?[M]//Li S, Yue X M, Sicular T, Sato H. Changing Trends in China's Inequality. Beijing: China Financial and Economic Publishing House, 2017: 285-326.
姚先国, 谭岚, 家庭收入与中国城镇已婚妇女劳动参与决策分析[J]. 经济研究, 2005, (7): 18- 27.
Yao X G , Tan L , Family Income and Labor Force Participation of Married Women in Unban China[J]. Economic Research Journal, 2005, (7): 18- 27.
Appleton S , Song L , Xia Q , Understanding Urban Wage Inequality in China 1988-2008:Evidence from Quantile Analysis[J]. World Development, 2014, 62, 1- 13.
Bar M , Kim S , Leukhina O , Gender Wage Gap Accounting: The Role of Selection Bias[J]. Demography, 2015, 52 (5): 1729- 1750.
Chen G , Hamori S , An Empirical Analysis of Gender Wage Differentials in Urban China[J]. Kobe University Economic Review, 2008, 54, 25- 34.
Chi W , Li B , Glass Ceiling or Sticky Floor? Examining the Gender Earnings Differential across the Earnings Distribution in Urban China, 1987-2004[J]. Journal of Comparative Economics, 2008, 36 (2): 243- 263.
Chi W , Li B , Trends in China's Gender Employment and Pay Gap: Estimating Gender Pay Gaps with Employment Selection[J]. Journal of Comparative Economics, 2014, 42 (3): 708- 725.
Feng S , Hu Y , Moffitt R , Long Run Trends in Unemployment and Labor Force Participation in Urban China[J]. Journal of Comparative Economics, 2017, 45 (2): 304- 324.
Hare D , Decomposing Growth in the Gender Wage Gap in Urban China: 1989-2011[J]. Economics of Transition and Institutional Change, 2019, 27 (4): 915- 941.
Heckman J J, (1977). Sample Selection Bias as a Specification Error (with an Application to the Estimation of Labor Supply Functions)[R]. NBER Working Paper.
Heckman J J , Sample Selection Bias as a Specification Error[J]. Econometrica, 1979, 47 (1): 153- 161.
Heshmati A , Su B , Analysis of Gender Wage Differential in China's Urban Labor Market[J]. The Singapore Economic Review, 2017, 62 (2): 423- 445.
Huber M , Mellace G , Testing Exclusion Restrictions and Additive Separability in Sample Selection Models[J]. Empirical Economics, 2014, 47 (1): 75- 92.
Goraus K , Tyrowicz J , Van der Velde L , Which Gender Wage Gap Estimates to Trust? A Comparative Analysis[J]. Review of Income and Wealth, 2017, 63 (1): 118- 146.
Jann B , The Blinder-Oaxaca Decomposition for Linear Regression Models[J]. The Stata Journal, 2008, 8 (4): 453- 479.
Li Y , The Effects of Formal and Informal Child Care on the Mother's Labor Supply-Evidence from Urban China[J]. China Economic Review, 2017, 44, 227- 240.
Liu H , Economic Reforms and Gender Inequality in Urban China[J]. Economic Development and Cultural Change, 2011, 59 (4): 839- 876.
Maasoumi E , Wang L , The Gender Gap between Earnings Distributions[J]. Journal of Political Economy, 2019, 127 (5): 2438- 2504.
Maurer-Fazio M , Connelly R , Chen L , Tang L , Childcare, Eldercare, and Labor Force Participation of Married Women in Urban China, 1982-2000[J]. Journal of Human Resources, 2011, 46 (2): 261- 294.
Mulligan C B , Rubinstein Y , Selection, Investment, and Women's Relative Wages over Time[J]. The Quarterly Journal of Economics, 2008, 123 (3): 1061- 1110.
Xiu L , Gunderson M , Occupational Segregation and the Gender Earnings Gap in China: Devils in the Details[J]. International Journal of Manpower, 2015, 36 (5): 711- 732.
Zhang J , Han J , Liu P W , Zhao Y , Trends in the Gender Earnings Differential in Urban China, 1988-2004[J]. Industrial and Labor Relations Review, 2008, 61 (2): 224- 243.

基金

国家自然科学基金(71603103)
国家自然科学基金(71773037)
国家自然科学基金(72073052)
国家杰出青年科学基金(71425005)

版权

版权所有,未经授权。
PDF(877 KB)

2384

Accesses

0

Citation

Detail

段落导航
相关文章

/