基于分组数据测算不均等与贫困等收入分配指标: 兼顾数据截断问题的方法论评估

doi:10.12012/CJoE2022-0092

基于分组数据测算不均等与贫困等收入分配指标: 兼顾数据截断问题的方法论评估

万广华^,¹, 江葳蕤^,¹, 胡晓珊^,²

1. 复旦大学世界经济研究所, 上海 200433

2. 上海电机学院商学院, 上海 201306

Measuring Income Distribution Indicators such as Inequality and Poverty based on Grouped Data: A Methodological Assessment Considering Data Truncation

WAN Guanghua^,¹, JIANG Weirui^,¹, HU Xiaoshan^,²

1. Institute of World Economy, Fudan University, Shanghai 200433, China

2. School of Business, Shanghai DianJi University, Shanghai 201306, China

通讯作者: 胡晓珊, 上海电机学院商学院讲师, 研究方向: 发展经济学、世界经济, E-mail:coralhu_cn@163.com

收稿日期: 2022-10-14

基金资助:

国家自然科学基金重点项目. 71833003

Received: 2022-10-14

Fund supported:

Naional Natural Science Foundation of China. 71833003

作者简介 About authors

万广华,复旦大学世界经济研究所教授,研究方向:发展经济学、世界经济,E-mail:guanghuawan@yahoo.com

江葳蕤,博士研究生,研究方向:发展经济学、世界经济,E-mail:21110680027@m.fudan.edu.cn

摘要

收入不均等、贫困和中等收入群体占比等指标广受决策界、社会、学术界, 乃至媒体的关注, 也是众多经济社会变量(如增长、消费、投资、教育、健康和犯罪等等)的重要决定因素之一, 但鲜有文献将其纳入到实证模型里, 原因往往在于相关指标或数据的缺失.此外, 家户调查数据顶端和底端的观察值也常常缺失, 给实证估算带来偏差.本文基于2018年的中国家庭追踪调查(CFPS)数据, 评估了由Shorrocks and Wan (2009)提出的基于分组数据“还原”个体观察值, 进而估算不均等和贫困等指标的方法, 并引入条件分布对Shorrocks and Wan (2009)的方法进行拓展, 以便考虑收入分布顶端和底端的数据缺失问题.结果显示, 假设变量服从Dagum分布, 而非Shorrocks and Wan (2009)所使用的对数正态分布, 可以使“还原”偏差保持在可接受的范围内.此外, 本文对Shorrocks and Wan (2009)的方法的拓展, 能够明显降低数据截断所导致的“还原”偏差, 而且在该方法下Dagum分布依然占优.本文的发现表明, 后续研究可在Dagum分布的假设下, 对各省统计年鉴中提供的收入分组数据进行“还原”, 然后测算各省的收入不均等、贫困和中等收入群体占比等等指标, 并据此展开经济学分析, 至少应该将相关指标纳入到实证研究中, 以减少相关指标和模型估算偏误.

关键词： 不均等 ; 贫困 ; 收入分布 ; 分组数据 ; 条件分布

Abstract

Indicators such as income inequality, poverty and the share of middleincome groups are widely concerned by policy makers, society, academia and even the media, and are also important determinants of many economic and social factors (e.g. growth, consumption, investment, education, health, crime, etc.). However, rarely literature included them in empirical models, mainly due to data deficiency. Furthermore, observations at the top and bottom of household survey data are often missing, causing bias in the empirical estimates. Using data from 2018 China Family Panel Studies (CFPS), this paper evaluates the method proposed by Shorrocks and Wan (2009) for "ungrouping" individual observations based on grouped data to estimate indicators of inequality and poverty, then introduces conditional distributions to this method considering the missing data at the top and bottom of the income distribution. The results show that "ungrouping" bias will keep within an acceptable range if assume variables follow Dagum distribution, rather than the lognormal distribution used by Shorrocks and Wan (2009). In addition, this improvement to Shorrocks and Wan's (2009) method significantly reduces the "ungrouping" bias caused by data truncation, and the Dagum distribution still prevails under this method. It is suggested that subsequent research can "ungrouping" the income grouped data from provincial statistical yearbooks under the assumption of the Dagum distribution, and then measure the indicators of income inequality, poverty and middle-income share, etc. before conducting economic analyses. At least relevant indicators should be considered in the empirical study in order to reduce the bias of the relevant models.

Keywords： inequality ; poverty ; income distribution ; grouped data ; conditional distribution

PDF (933KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

万广华, 江葳蕤, 胡晓珊. 基于分组数据测算不均等与贫困等收入分配指标: 兼顾数据截断问题的方法论评估. 计量经济学报[J], 2023, 3(1): 1-29 DOI:10.12012/CJoE2022-0092

WAN Guanghua, JIANG Weirui, HU Xiaoshan. Measuring Income Distribution Indicators such as Inequality and Poverty based on Grouped Data: A Methodological Assessment Considering Data Truncation. China Journal of Econometrics[J], 2023, 3(1): 1-29 DOI:10.12012/CJoE2022-0092

1 引言

贫困和收入不均等以及其他与收入分配相关的议题长期受到国内外政府、社会和学术界的广泛关注. 在国际上, 减贫和缩小贫富差距是由193个国家元首签署、联合国发起和推进的可持续发展目标(SGDs)的核心. 在亚洲, 众多国家包括印度和印度尼西亚等都把反贫困和包容性增长作为重大战略部署. 中国政府更是先后提出了和谐社会、精准扶贫、共同富裕等理念并付诸实践, 创造了人类发展史上的减贫神话(汪晨等(2020)).

显而易见, 不均等和贫困等指标的度量极为重要, 否则将无法监测贫困或收入差距的趋势, 难以科学地制定相关政策, 更不可能开展与收入分配相关(包括政策评估)的研究. 所以, 世界银行建立了知名的Povcal网站, 专门提供国家层面的贫困估算值¹; 联合国发展经济学研究院不断更新世界各国的收入不均等指标²; 世界财富与收入数据库(WID.world)也在持续公布国家内与国家间收入与财富分布历史变化数据³. 这些宝贵的数据被大量运用于不同的场合和研究中. 但是, 现有数据库基本上只能提供国家层面的时间序列, 次国家(sub-national)层面的相关指标往往缺失. 这就是为什么在实证模型中直接加入贫困或不均等变量的学术成果相对较少(跨国回归除外). 特别地, 贫困和收入不均等问题在中国的重要性不言而喻, 但鲜有文献在模型中聚焦或控制这些变量, 尽管它们影响诸多经济社会变量, 如增长、消费、投资、教育、健康和犯罪等等.

¹https://povertydata.worldbank.org/poverty/home/

²https://www.wider.unu.edu/database/world-income-inequality-database-wiid.

³https://wid.world/data/.

面对与收入分配相关的指标的缺失, 大部分研究都选择直接放弃使用相关变量, 另有部分研究则尝试使用城乡收入差距作为总体收入差距的代理变量(陆铭等(2005), 陈春良和易君健(2009)). 然而, 任何一个国家或地区的收入差距都包括三大成分: 城乡收入差距、城市内部收入差距和农村内部收入差距, 因此使用城乡收入差距作为代理变量会带来一定的误差. 当然, 随着微观调查数据如中国家庭追踪调查(CFPS)/中国综合社会调查(CGSS)/中国家庭金融调查(CHFS)等的出现, 学者们可以估算省级层面的贫困和不均等指标. 但这些微观数据库涵盖的年份有限, 部分样本的代表性也受到质疑.

幸运的是, 早在1970年代, 经济学界就提出了基于分组数据还原个体观察值的方法(如Gastwirth (1972), Kakwani and Podder (1973)), 而且我国国家和部分省市统计局在其统计年鉴上常常公布收入分组数据. Shorrocks and Wan (2009)在前人研究的基础上提出了迭代法, 使得还原的数据更为准确. 但是, 现有的方法均未考虑数据截断的问题. 此外, 将分组数据还原为个体观察值都需要假设具体的统计分布函数. 为此, Shorrocks and Wan (2009)进行了有限的蒙特卡罗实验, 试图评估不同假设的可靠性. 然而, 他们只考虑了三种不同的分布函数, 忽略了其他可能更为可靠的、用以刻画收入分布的函数(如Singh and Maddala (1976), Dagum (1977), McDonald and Xu (1995)).

特别重要的是, 国内外微观调查数据都面临相关变量分布底端和顶端观察值缺失, 尤其是高收入家户抽样不足的问题(王小鲁(2007)), 导致相关研究的可靠性被削弱. 举例来说, 低收入群体数据的缺失将导致贫困率的低估, 高收入群体数据的缺失将导致不均等的低估. 鉴于此, 中国家庭金融调查(CHFS)适当增加了富裕地区和富裕家庭的抽样比重, 但针对CHFS的可靠性仍然存在争议⁴. 此外, 也有学者尝试使用税务数据(Piketty (2003))或富豪榜数据进行弥补(李实和罗楚亮(2011), 罗楚亮(2019)). 但这些数据与微观调查数据之间缺乏一致性.

⁴出自甘犁2013年《以公开科学的抽样调查揭示真实的中国》, 是基于李实和岳希明质疑CHFS而发表的《我们更应该相信谁的基尼系数》的回应. 甘文链接: http://www.ciidbnu.org/news/201302/20130223120202706.html. 李和岳文链接: http://www.ciidbnu.org/news/201301/20130123092800706.html.

基于2018年CFPS数据进行蒙特卡罗实验, 本文旨在评估并改进Shorrocks and Wan (2009)提出的基于分组数据的还原方法. 具体而言, 本文首先在Shorrocks and Wan (2009)的基础上考虑了更多的分布函数形式, 评估比较了八种常用的收入分布函数所"还原"的数据的精确度和可靠性. 结果发现, Dagum分布在大多数情况下都有较好的表现. 本文同时评估了Shorrocks and Wan (2009)的迭代调整法的实际效果, 发现该方法在不同状况下都有助于提高"还原"数据的可靠性. 接着, 本文首次引入条件分布法来解决分组数据截断问题, 将无条件分布扩展为双边截断的条件分布来对数据进行"还原", 并评估了其效果. 结果同样表明, Dagum分布能够有效处理顶端和底端收入数据缺失问题.

本文的发现表明, 学术界可以结合使用本文提出的条件分布法和Shorrocks and Wan (2009)的数据还原法, 基于Dagum分布对分组数据进行还原, 从而计算国家或次国家层面的收入不均等、贫困和中等收入群体占比等等指标. 特别需要说明的是, 本文为中国省际贫困与不均等指标的测算提供了重要的方法支持, 这一贡献与张军等(2004)以及郑世林和杨梦俊(2020)类似, 前者将永续盘存法应用于中国早期资本存量的测算, 后者估算了中国无形资本存量.

论文余下的内容安排如下: 第二部分梳理与分组数据处理及数据缺失问题相关的文献; 第三部分讨论分组数据"还原"问题, 并基于蒙特卡罗实验评估八种常见的收入分布函数的还原效果; 第四部分提出条件分布法, 以"还原"两端缺失的数据, 并评估各分布函数的表现; 第五部分结合使用条件分布法和Shorrocks and Wan (2009)的框架, 估算中国历年的基尼系数和中等收入群体占比指标; 第六部分为小结.

2 文献回顾

2.1 收入分组数据的应用

早在20世纪70年代, 基于分组数据测算收入分配指标的研究就开始大量出现(如Gastwirth (1972), Kakwani and Podder (1973), Kakwani (1976)), 相关收入分布函数的设定也随之得到关注(Singh and Maddala (1976), Dagum (1977), McDonald and Xu (1995)). 这些较早的研究大多在参数拟合之后直接生成模拟样本, 而不对还原数据进行调整. Shorrocks and Wan (2009)提出了迭代法, 即根据各组的均值对模拟样本进行迭代法调整, 降低了还原数据与真实数据之间的偏差.

国内也有学者基于收入分组数据, 估算中国的收入分配指标. 如胡志军等(2011)在对数正态分布、威布尔分布和广义贝塔II型(GB2)分布的假设下, 对中国农村和城市居民的收入分组数据进行拟合并据此计算基尼系数. 基于极大似然估计值和各收入区间的人口份额拟合值与样本值的偏差, 胡志军等(2011)发现GB2表现较好, 该发现得到张萌旭等(2013)的证实. 陈建东等(2013)比较了不同分布函数的拟合效果, 发现对数逻辑斯蒂分布占优. 遗憾的是, 现有文献大多没有考虑Shorrocks and Wan (2009)的迭代法, 也没有关注基尼系数之外的其他收入分配指标(祁磊和艾小青(2021)), 更没有考虑数据缺失或截断问题(见下一小节).

2.2 数据缺失问题

影响微观调查数据质量的主要因素有两个: 一是样本代表性; 二是调查个体回复率. 在现实中, 通常会有一定比例的个体拒绝参与调查或者不在家, 导致回复率不足. 该问题又与收入水平相关: 高收入群体所占比例低, 其居住环境更具封闭性, 不容易被抽取; 即便被抽中, 出于隐私或安全考虑, 他们有动机隐瞒真实收入水平或者直接拒绝接受调查(no-response) (Korinek et al.(2006, 2007), Sabelhaus et al. (2012), Burkhauser et al. (2011)). Deaton (2005)发现通过家户调查得出的人均消费远低于国家统计数据, 这在欠发达国家中更加明显, 包括印度(Banerjee and Piketty (2005))和中国(王小鲁(2007)). 低收入群体因无家可归等现象也存在抽样不足或回复率偏低的问题. 这些问题显然会给统计或计量估算带来偏误. 罗楚亮(2019)就发现, 基于住户调查数据所得的基尼系数都存在低估.

为了解决收入数据缺失问题, 王小鲁(2010)使用了社会学中的"滚雪球法", 通过调查亲戚朋友等熟人进行核对调整, 以改善高收入样本的数据真实性. 但王有捐(2010)指出, "滚雪球法"在调查城市和调查样本的选择等方面存在主观性. 李实和罗楚亮(2011), 罗楚亮(2019)使用财富榜和高管薪酬数据弥补高收入样本的缺失. 白重恩等(2015)基于个体消费数据推算了我国居民的隐性收入, 发现不考虑隐性收入使得基尼系数明显低估. 这些尝试都借助于外部数据, 但外部数据的获取和匹配不但存在困难, 而且外部数据与微观调查数据之间一般不具有一致性.

3 分组数据还原

3.1 分组数据还原方法

Shorrocks and Wan (2009)构造了一种将分组数据"还原"为个体观察值的方法, 该方法在某一统计分布(如对数正态分布) 的假设下, 首先用分组数据估算该分布的参数(分布的期望值可以设为1), 并在此基础上产生洛伦兹曲线上的个体观测值. 然后对每组观测值进行调整, 以保证"还原"的数据的平均值与实际观察到的各组平均值相等, 同时保证整个洛伦兹曲线是平滑和单调上升的. 具体地, 将收入分组数据记为从低到高的1到$ k $组, 对应的洛伦兹曲线上的坐标为($ p_{k}^{*} $, $ L_k^* $), 其中$ p_k^* $ ($ k=1, \cdots, m $) 代表包括第$ k $组的累积人口比重, $ L_k^* $为相应的累积收入占比. 第$ k $组包含的观测值个数为$ m_{k}=n(p_{k}^{*}-p_{k-1}^*) $, 其中$ n $是还原的样本观测值的个数. $ x_{ki} $ ($ k=1, \cdots, m; i=1, \cdots, m_k $)代表组$ k $中个体收入观测值. 组$ k $的平均收入可以表达为:

(1) $ \begin{align} {\mu_{k}^{*}=\frac{L_k^*-L_{k-1}^{*}}{p_{k}^{*}-p_{k-1}^{*}}, \quad k=1, \cdots, m.} \end{align} $

现在, 依据(2)式得到$ m-1 $个收入(对数)的标准差估算值:

(2) $ \begin{align} {\sigma_{k}=\sigma^{-1}(p_{k}^{*})-\sigma^{-1}(L_k^*), \quad k=1, \cdots, m-1. } \end{align} $

其中$ \sigma $为标准正态分布函数(Kolenikov and Shorrocks (2005)). 接着求这$ m-1 $个标准差估计值的平均值, 并用以产生个体收入观察值.

最后是分两步调整这些观测值. 首先, 利用(3)和(4)式使得观察到的、真实的组收入均值$ \mu_k^* $落在每个模拟的收入组的取值区间内:

(3) $ \begin{align} {\hat{x}_{j}=\mu_{k}^{*}+\frac{\mu_{k+1}^{*}-\mu_{k}^{*}}{\mu_{k+1}-\mu_{k}}(x_{j}-\mu_{k}) \quad k=1, \cdots, m-1, x_{j}\in [\mu_{k}, \; \; \mu_{k+1})}, \end{align} $

(4) $ \begin{align} {\hat{x}_{j}=\frac{\mu_{1}^{*}}{\mu_{1}}x_{j}\; \; x_j<\mu_1;\; \; \hat{x}_{j}=\frac{\mu_{m}^{*}}{\mu_{m}}x_{j} \; \; x_j\geq \mu_k}. \end{align} $

然后, 利用(5)和(6) 式将每组的均值$ \mu_k $调整为实际的组收入均值$ \mu_k^* $

(5) $ \begin{align} \qquad \quad{x_{ki}^{*}=c_{k+1}-\frac{c_{k+1}-\mu_{k}^{*}}{c_{k+1}-\hat{\mu}_{k}}(c_{k+1}-\hat{x}_{ki}), \mu_{k}^{*}>\hat{\mu}_{k}\; \; \mbox{且}\; \; k<m}, \end{align} $

(6) $ \begin{align} {x_{ki}^{*}=c_{k}-\frac{\mu_{k}^{*}-c_{k}}{\hat{\mu}_{k}-c_{k}}(\hat{x}_{ki}-c_{k}), \mu_{k}^{*}<\hat{\mu}_{k}\; \; \mbox{或}\; \; k=m}, \end{align} $

其中,

(7) $ \begin{align} {c_1=0; c_{k}=\frac{1}{2}(\underset{i}{\max} \hat{x}_{k-1, i}+\underset{i}{{\min}} \hat{x}_{ki}), k>1.} \end{align} $

这些调整过的观测值即可用来估算各种收入分配指标.

但收入变量不一定服从对数正态分布. 本文将评估常见的8种分布函数的"还原"的可靠性和精确度, 其中包括具有两参数的对数正态分布(Lognormal)、Gamma分布(Gamma)、Weibull分布(Weibull)和Pareto分布(Pareto); 也包括具有三参数的Singh-Maddala分布(SM)、Dagum分布(Dagum)和Beta2型分布(Beta2); 最后还包括具有四参数的Generalized Beta Distribution of the Second Kind (GB2)⁵. 其相应的概率密度函数及基尼系数计算公式如表 1所示.

⁵关于Lognormal分布函数参见Smith and Merceret (2000); 关于Gamma分布函数见Salem and Mount (1974); 关于Weibull分布函数见Menon (1963); 关于SM分布函数见Singh and Maddala (1976); Beta2分布函数见Slottje (1984); 关于Dagum分布函数见Dagum (1977); 关于GB2分布函数见McDonald (1984); 关于Pareto分布函数的相关信息可参考Krishnaji (1970).

表1 不同分布概率密度函数和基尼系数

分布类型	概率密度函数	基尼系数
Lognormal	$\begin{aligned}f(x ; \mu, \sigma) & =\frac{1}{\sqrt{2 \pi} \sigma x} \exp \left[-\frac{1}{2 \sigma^2}(\ln x-\mu)^2\right], x>0 \\& =0 \text {, 否则 }\end{aligned} $,	$ 2 \Phi\left(\frac{\sigma}{\sqrt{2}}\right)-1$
Gamma	$f(x ; \alpha, \beta)=\frac{x^{\alpha-1} \exp \left(-\frac{x}{\beta}\right)}{\beta^\alpha \Gamma(\alpha)}, x>0, \alpha>0, \beta>0 $	$\frac{\Gamma(\alpha+0.5)}{\Gamma(\alpha+1) \sqrt{\pi}} $
Weibull	$ f(x ; \alpha, \beta)=\frac{\alpha}{\beta}\left(\frac{x}{\beta}\right)^{\alpha-1} \exp \left(\left(-\frac{x}{\beta}\right)^\alpha\right)$	$1-\left(\frac{1}{2}\right)^\alpha $
SM	$\begin{aligned}f(x ; a, b, q) & =\frac{a x^{a-1}}{b^a B(1, q)\left(1+\left(\frac{x}{b}\right)\right)^{1+q}}, x \geq 0 \\& =0, \text { 否则 }\end{aligned} $	$1-\frac{\Gamma(q) \Gamma\left(2 q-\frac{1}{a}\right)}{\Gamma\left(q-\frac{1}{a}\right) \Gamma(2 q)} $
Beta2	$\begin{aligned}f(x ; b, p, q) & =\frac{x^{p-1}}{b^p B(p, q)\left(1+\left(\frac{x}{b}\right)\right)^{p+q}}, x \geq 0 \\& =0, \text { 否则 }\end{aligned} $	$\frac{2 B(2 p, 2 q-1)}{p B^2(p, q)} $
Dagum	$\begin{aligned}f(x ; a, b, p) & =\frac{a x^{a p-1}}{b^{a p} B(p, 1)\left(1+\left(\frac{x}{b}\right)^a\right)^{p+1}}, x \geq 0 \\& =0, \text { 否则 }\end{aligned} $	$-1+\frac{\Gamma(p) \Gamma\left(2 p+\frac{1}{a}\right)}{\Gamma\left(p+\frac{1}{a}\right) \Gamma(2 p)} $
GB2	$\begin{aligned}f(x ; a, b, p, q) & =\frac{a x^{a p-1}}{b^{a p} B(p, q)\left(1+\left(\frac{x}{b}\right)^a\right)^{p+q}}, x \geq 0 \\& =0, \text { 否则 }\end{aligned} $	$\begin{aligned}& \frac{B\left(2 p-\frac{1}{a}, 2 q+\frac{1}{a}\right)}{B(p, q) B\left(p+\frac{1}{a}, q-\frac{1}{a}\right)}\left\{(\frac { 1 } { p }) _ { 3 } F _ { 2 } \left[1, p+q, 2 q+\frac{1}{a} ;\right.\right. \\& p+1, 2(p+q) ; 1]-\left(\frac{1}{p+\frac{1}{a}}\right)_3 F_2\left[1, p+q, 2 p+\frac{1}{a} ;\right. \\& \left.\left.p+\frac{1}{a}+1, 2(p+q) ; 1\right]\right\}\end{aligned} $
Pareto	$\begin{aligned}f\left(x ; x_{\min }, k\right) & =k \frac{x_{\min }^k}{x^{k+1}}, x \geq x_{\min } \\& =0, \text { 否则 }\end{aligned} $	$\frac{k}{2 k-1} $

新窗口打开| 下载CSV

在表 1中, $ B(p, q) $为Beta函数, $ \Gamma(\alpha) $为Gamma函数, $ {}_p F_q(a, b;c;z) $为广义超几何函数. 在Gamma分布和Weibull分布中, $ \alpha $为规模参数(scale parameter), 起放大或缩小曲线的作用, 不影响分布形状, $ \beta $为形态参数(shape parameter), 影响分布的形态. 在GB2分布、SM分布、Beta2分布和Dagum分布中, $ b $为规模参数, $ a, p, q $为形态参数, $ a $影响两边尾部, $ q $仅影响右边尾部. GB2分布、SM分布、Beta2和Dagum分布之间联系极其密切. 具体而言, 对于GB2分布, 当$ p=1 $时, 它退化为SM分布; 当$ a=1 $时, 变为Beta2分布; 当$ q=1 $时, 便成了Dagum分布.

3.2 蒙特卡罗设计

基于表 1和收入分组数据, 可估算不同分布的参数, 然后生成包含任意个观测值的收入样本. 具体方法如下:

首先, 从CFPS原始样本中随机抽取样本体积为$ N $的收入观测值, 并将观察值从低到高分为$ M $组(每组观察值个数相等), 计算每一组的收入和人口占比, 这就得到了分组数据. 其次, 分别利用表 1的8种分布对分组数据进行拟合, 得到相应的参数估计值, 最后, 生成包含$ N $个收入观测值的模拟或还原样本. 在本文的部分实验中, 还将结合使用Shorrocks and Wan (2009)的迭代法(见上文).

重复以上过程$ T $次. 在本文中, $ N $取10000, $ T $取100或200, $ M $取5或10.

3.3 还原效果评估

参考Shorrocks and Wan (2009)的做法, 本文采用数值和指标比较两种方法对"还原"效果进行评估.

数值比较的具体方法为, 将真实收入数据与还原的收入数据分别从小到大排列, 计算洛伦兹曲线上每个个体所对应的收入份额偏差, 再对这一偏差取绝对值, 然后进行加总得出加总偏差⁶, 最后计算出$ T $次模拟的平均加总偏差. 收入份额的具体计算公式为:

(8) $ \begin{align} {{\rm share}^i=\frac{{\rm income}_i}{\sum\limits_{j=1}^{N}{\rm income}_j}}, \end{align} $

⁶由于观察结果以收入份额表示, 平均绝对百分比偏差的值与样本量$ N $相关, 当样本量加倍时, 平均绝对百分比偏差将减半, 而绝对偏差之和并不会随样本量的改变而变化, 因此此处采用绝对收入份额的偏差总和来度量拟合偏差.

其中$ {\rm income}_i $代表按收入从低到高排序后第$ i $位个体的收入. 在计算偏差时, 可以对不同分位进行加总:

(9) $ \begin{align} {{\rm share}\_{\rm bias_{local}}=\sum\limits_{i=n_{1}}^{n_{2}}\left| {\rm share}_{i}^{{\rm Simulate}}-{\rm share}_{i}^{{\rm Actual}}\right|}, \end{align} $

(10) $ \begin{align} {{\rm share}\_{\rm bias_{global}}=\sum\limits_{i={1}}^{N}\left| {\rm share}_{i}^{{\rm Simulate}}-{\rm share}_{i}^{{\rm Actual}}\right|}, \end{align} $

其中, 上标Actual和Simulate分别表示真实数据和还原出的数据. 本文中的分位加总在十分位内进行. 比如, 当$ n_1=1001 $, $ n_2=2000 $时, 公式(9)表示的就是第二分位内收入份额偏差的加总.

最后, 我们计算多次模拟下的平均总和偏差:

(11) $ \begin{align} {{\rm Mean}\_{\rm share}\_{\rm bias}=\sum\limits_{t=1}^{T}{\rm share}\_{\rm bias}_{t}}. \end{align} $

指标比较方面, 本文考虑收入不均、等贫困发生率和中等收入群体占比三个指标的精确度:

1) 本文采用最常用的度量不均等的指标——基尼系数(Gini).

2) 贫困发生率. 本文采用三条贫困线估算贫困发生率. Poverty2300代表基于中国官方贫困线(以2010年价格计算的、每人每年2300元)计算的贫困发生率. Poverty19和Poverty32分别为世界银行2011年确定的国际极度贫困标准(1.9美元/人/天)和国际贫困标准(3.2美元/人/天)下的贫困发生率.

3) 中等收入群体占比. 中等收入群体的界定可以使用绝对标准或相对标准. 绝对标准方面, 本文根据国家统计局的"以中国典型的三口之家年收入在10万元$ \sim $ 50万元之间⁷"的做法, 将人均年收入介于3.33万与16.7万之间的定义为中等收入群体, 并计算其人口占比(Mid1). 就相对标准而言, 较为常见的做法是使用收入中位数的75%$ \sim $125% (Pressman (2010), 刘志国和马健(2016), 龙莹(2015))或67%$ \sim $200% (Grabka et al. (2016)). 本文选择75%$ \sim $125%作为中等收入的标准, 由此测算中等收入群体占比的另一指标(Mid2).

⁷见国家统计局局长就2018年国民经济运行情况答记者问, 网址: http://www.stats.gov.cn/tjsj/sjjd/201901/t20190121_1645944.html.

使用指标法进行评估, 可以计算多次模拟下的平均绝对百分比误差(mean absolute percentage error, MAPE), 其计算公式如下:

(12) ${\text{MAPE}} = \sum\limits_{t = 1}^T {\frac{{|{\text{Index}}_t^{{\text{Simulate}}} - {\text{Index}}_t^{{\text{Actual}}}|}}{{{\text{Index}}_t^{{\text{Actual}}}}}} *100% , $

其中$ {\rm Index}_{t}^{{\rm Actual}} $为第$ t $次模拟中基于真实收入数据所得的指标, $ {\rm Index}_{t}^{{\rm Simulate}} $则为对应的基于"还原"数据获得的指标.

4 评估结果

4.1 不同分布假设下的还原效果比较

本文首先使用前文提出的方法基于分组数据获得了还原样本, 然后将其与真实样本进行分段比较, 考察每十分位所对应的收入份额的绝对偏差之和, 结果如图 1所示. 图中可以看出还原样本的收入份额绝对偏差大致随着分位的增大而增加. 不管基于何种分布, 还原样本在第1至第8分位内的偏差都较小, 而第9和第10分位内的偏差则明显较大. 总体来说, Dagum分布表现最优, 而Pareto分布、Gamma分布和Weibull分布的整体还原效果欠佳, 无论是在低分位还是高分位上偏差都明显高于其他分布. 在第1至第8分位内Lognormal、Dagum、SM、Beta2、GB2分布的偏差相差很小且都处于较低水平, 而在第9和第10分位内, 不管是五等份分组还是十等份分组数据, 采用Dagum分布所得还原样本的偏差都是最小的, 第10分位内的个人收入份额的绝对偏差小于4个百分点, 总体收入份额的绝对偏差之和也在5个百分点以内.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 不同分布假设下个人收入份额的绝对偏差之和

具体而言, 当收入数据为五等份分组形式时, 基于Dagum分布"还原"出的样本在第9分位内的收入份额的绝对偏差之和仅为0.32个百分点, SM分布和GB2分布的结果次之, 分别为0.47和0.51个百分点, 而Gamma、Weibull和Pareto分布的相应偏差都超过了3个百分点. 第10分位内收入份额的绝对偏差之和的对比更加明显, Dagum分布的偏差低至5.14个百分点, 而Gamma、Weibull和Pareto分布的偏差都在13个百分点以上. 如果计算总体收入份额的绝对偏差之和, 会发现表现较好的依然是Dagum、SM和GB2分布, 其对应的结果分别为4.97、6.10、6.30个百分点. 而当收入数据为十等份分组时, Dagum、SM和GB2分布的收入份额的绝对偏差之和分别为4.76、5.64、6.06个百分点, 总体偏差相较于五等份分组的情况都有一定程度的降低, 但各分布偏差大小的排序均未发生改变.

图 2绘制了基于Dagum分布进行的单次模拟中"还原"的洛伦兹曲线与真实洛伦兹曲线之间的相对偏差. 其中"调整后"表示的是经过迭代法调整后的样本, "调整前"表示未经迭代的样本, 可以看出迭代法调整后总体偏差情况有所改善.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 真实样本与还原样本的洛伦兹曲线之差

图 3报告了指标偏差. 就基尼系数而言, 不论是五等份分组还是十等份分组数据, Dagum分布的表现都是最好的, 两种分组情况下模拟值与实际值的平均绝对百分比偏差分别为0.23%和0.20%. Weibull、Gamma和Pareto分布的表现则较差. 这与图 1所反映的信息是相对应的, 由于基尼系数的偏差与收入份额偏差联系紧密, 因此收入份额绝对偏差越大的分布, 其基尼系数的估算偏差一般也较大.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 不同分布假设下各指标平均绝对百分比偏差

从贫困发生率的偏差来看, 在不同的分组数据、不同贫困标准下, 各分布的平均偏差表现有所不同. 在五等份分组数据中, Gamma、Dagum、SM和GB2分布表现较好, 而对于十等份分组数据来说, Lognormal分布有较为明显的优势. 考虑到十等份分组数据下各分布结果的偏差都偏小, 此处更加关注五等份分组数据的评估结果. 具体到各个贫困发生率的指标上, 在五等份分组数据下, 当以Poverty2300的平均绝对百分比偏差为标准时, Dagum分布的表现最好, 偏差为2.49%, Gamma分布和SM分布的偏差也较低, 分别为2.94%和3.02%; 以Poverty19的平均绝对百分比偏差为标准时, 表现最好的为Gamma分布, 偏差为2.65%, Dagum分布则以3.53%的偏差略次于Gamma分布; 而以Poverty32为标准时, 情况再次发生变化, Beta2分布的偏差变得最小, 仅为0.89%, 明显低于Dagum分布和Gamma分布的偏差. 不论使用哪一个贫困线下的贫困发生率作为评估标准, Pareto分布的平均绝对百分比偏差都是100%, 这是因为Pareto分布对于低收入部分的数据拟合效果较差, 导致通过模拟样本计算出的贫困率为0. 需要说明的是, 由于本文所选取的样本中贫困发生率较低, 因此图中所展示的平均绝对百分比偏差在数值上会比较大, 但其所对应的绝对偏差大多不到一个百分点.

从中等收入群体占比的偏差出发, 依然可以得出Dagum分布的表现较优这一结论. 采用Mid1指标时, Dagum分布的平均绝对百分比偏差是最小的, 五等份分组与十等份分组数据下偏差分别为0.52%和0.46%. 采用Mid2指标时, 除Pareto分布的偏差较大以外, 其他分布的表现都比较接近.

整体来看Dagum分布、SM分布、Beta2分布和GB2分布的差别不大, 且在各评估指标下都有较好的表现, 其中Dagum分布的综合表现最优.

4.2 迭代法的效果评估

表 2上半部分展示了使用迭代法与否所获得的收入份额的绝对偏差之和的均值. 以基于五等份分组数据、重复模拟100次的情况为例, 基于Dagum分布的参数估计生成的样本与真实样本相比, 收入份额的平均绝对偏差之和为5.21个百分点, 而在进行了迭代法调整之后, 这一偏差降低到4.97个百分点. 在十等份分组数据的情况下, 迭代法调整前后的偏差分别为5.23和4.76个百分点. 可以看出, 迭代法整体上可以缩小偏差, 且这一效应在Gamma分布、Weibull分布、Pareto分布的假设下最为明显, 这可能跟这三种分布的直接拟合结果较差有关. 而在Lognormal、Dagum、SM、Beta2、GB2这五种分布下, 迭代法的优势不太明显, 但除五等份分组数据下的GB2略微增大了偏差外, 其余情况下迭代法都能够在一定程度上改善还原样本的表现.

表2 不同模拟次数下迭代法调整前后偏差情况(单位: %)

指标	分组数	模拟次数	是否调整	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
个人收入份额	五等份分组	100	调整后	11.89	20.81	17.53	4.97	6.10	8.56	6.30	19.49
		100	调整前	12.69	26.42	32.51	5.21	6.11	8.77	6.28	37.49
		200	调整后	11.90	20.78	17.49	5.02	6.15	8.60	6.50	19.47
		200	调整前	12.69	26.33	32.61	5.27	6.17	8.80	6.68	37.51
	十等份分组	100	调整后	10.49	17.39	13.77	4.76	5.64	7.66	6.06	13.85
		100	调整前	12.87	27.51	29.13	5.23	5.89	8.66	6.85	41.55
		200	调整后	10.50	17.38	13.76	4.82	5.70	7.69	5.97	13.66
		200	调整前	12.87	27.41	29.14	5.30	5.95	8.69	6.49	40.84
基尼系数	五等份分组	100	调整后	1.41	3.46	2.56	0.23	0.47	0.90	0.52	2.40
		100	调整前	1.14	15.08	20.46	0.49	0.70	0.95	0.72	9.98
		200	调整后	1.40	3.45	2.55	0.22	0.48	0.90	0.55	2.40
		200	调整前	1.13	15.04	20.67	0.49	0.70	0.95	1.11	9.99
	十等份分组	100	调整后	0.75	1.56	1.07	0.20	0.31	0.50	0.36	0.84
		100	调整前	0.86	17.89	15.47	0.43	0.53	0.54	1.52	13.34
		200	调整后	0.75	1.56	1.07	0.20	0.31	0.51	0.34	0.82
		200	调整前	0.85	17.85	15.56	0.43	0.53	0.54	1.02	13.00

新窗口打开| 下载CSV

表 2下半部分展示了不同模拟次数下基尼系数的平均绝对百分比偏差, 同样发现绝大多数情况下迭代法可以明显降低还原样本的偏差. 即使是对于Dagum、SM、GB2分布这样直接拟合效果就已经较好的分布函数, 使用迭代法调整后基尼系数的平均百分比偏差依然降低了0.2个百分点以上.

对比五等份分组与十等份分组的评估结果还可以发现, 十等份分组数据的偏差大多都小于五等份分组数据. 这与直觉相符, 即分组越细, 分组数据能够提供的信息越多, 还原样本与真实样本的偏差就越小.

此外, 前文展示的是100次模拟的结果. 表 2报告了200次模拟与100次模拟结果的对比, 可以看到二者十分接近. 以基于Dagum分布还原五等份分组数据并进行迭代法调整后的结果为例, 100次模拟下个人收入份额的平均绝对偏差之和为4.97个百分点, 而200次模拟下的对应偏差之和为5.02个百分点, 二者相差0.05个百分点. 如果关注于基尼系数的平均百分比偏差, 100次模拟与200次模拟的结果分别为0.23%和0.22%, 仅相差0.01个百分点. 这表明模拟次数达到100时还原偏差已经基本稳定在某一水平. 附录中表A3至表A18详细展示了在不同模拟次数下、迭代法前后的各分位内收入份额的平均绝对偏差和各个指标的平均绝对百分比偏差, 从中也能得到与前文分析一致的结果.

4.3 截断分组数据还原

为弥补数据缺失, 本文引入条件分布法来进行拟合. 具体来说, 设$ F(x;\theta) $为收入$ x $的分布函数, $ f(x;\theta) $为相应的概率密度函数, 其中$ \theta $为需要估计的参数. 令$ l $和$ u $分别为截断样本的最小值和最大值, 或称为截断点(truncation point). 这两个截断点所对应的截断比例分别为$ {\rm tl}=F(l;\theta) $, $ {\rm tu}=1-F(u;\theta) $.

根据数据缺失部位的不同, 可以分成以下三种情况:

1) 高位数据缺失

当仅考虑高收入数据缺失时, 实际观察到的样本中有最大点$ u $, 样本条件分布函数为:

(13) $ \begin{align} F_c (X \leq x;\theta\mid x<u)=\frac{F(x;\theta)}{F(u, \theta)}=\frac{F(x;\theta)}{1-{\rm tu}}. \end{align} $

(13) 式的含义为, 可观测的收入分布(低于$ u $的数据) 是真实分布的一部分, 实际观察到的样本占总样本的比例为$ 1-{\rm tu} $. 此时的条件概率密度为:

(14) $ \begin{align} {f_{c}(X\leq x;\theta\mid x<u)=\frac{f(x;\theta)}{1-{\rm tu}}}. \end{align} $

2) 低位数据缺失

当仅考虑低位数据缺失时, 实际观察到的样本由中有最小点$ l $, 样本条件分布函数为:

(15) $ \begin{align} {F_{c}(X\leq x;\theta \mid x>l)=\frac{F(x;\theta)-F(l;\theta)}{1-F(l;\theta)}=\frac{F(x;\theta)-{\rm tl}}{1-{\rm tl}}}. \end{align} $

实际观察到的样本占总样本比例为$ 1-{\rm tl} $. 对应的条件概率分布函数为:

(16) $ \begin{align} {f_{c}(X\leq x;\theta\mid x>l)=\frac{f(x;\theta)}{1-{\rm tl}}}. \end{align} $

3) 高低位都存在缺失

当高低位数据都存在缺失时, 实际观察到的样本有最小点$ l $和最大点$ u $, 样本条件分布函数为:

(17) $ \begin{align} {F_{c}(X\leq x;\theta\mid l<x<u)=\frac{F(x;\theta)-F(l;\theta)}{F(u;\theta)-F(l;\theta)}=\frac{F(x;\theta)-{\rm tl}}{1-{\rm tu}-{\rm tl}}}. \end{align} $

实际观察到的样本占总样本比例为$ 1-{\rm tu}-{\rm tl} $. 对应的条件概率密度函数为:

(18) $ \begin{align} {f_{c}(X\leq x; \theta\mid l<x<u)=\frac{f(x;\theta)}{1-{\rm tu}-{\rm tl}}}. \end{align} $

以上各式中, $ N $代表实际观察到的样本体积, $ (x_1, \cdots, x_i, \cdots, x_N) $为实际观察到的个体收入. 基于不同的分布函数, 可以通过矩估计或极大似然估计法得到参数$ \theta $, 而后获得没有截断的无条件分布. 根据Hajargasht et al. (2012)的研究, 广义矩估计方法(GMM)比最大似然估计法(MLE)更加适用于分组数据的参数估计. 据此, 本文的分布参数估计全部采用了广义矩估计方法.

具体地说, 假设已知数据高低两端的缺失比例分别为$ {\rm tl} $和$ {\rm tu} $, 可以将分布函数设定为一个截断分布:

(19) $ \begin{align} {F_{c}(X\leq x;\theta \mid l<x<u)=\frac{F(x;\theta)-F(l;\theta)}{F(u;\theta)-F(l;\theta)}=\frac{F(x;\theta)-{\rm tl}}{1-{\rm tu}-{\rm tl}}}. \end{align} $

条件分布拟合相比于无条件分布拟合增加了两个待估参数$ {\rm tu} $和$ {\rm tl} $. 相应地, 在使用迭代法时, 处理方法也要有所变化. 在无条件分布假设下, 分组数据不存在缺失, 因此调整只需保证"还原"的数据的平均值与实际观察到的各组平均值相等. 而在数据存在截断的情况下, 每组的均值实际反映的是截断后的数据均值, 而模拟生成的样本则服从预设的完整的分布, 因此每组均值实际只包含了未被截断部分的信息. 为此本文将该样本分成前、中、后三段, 所占比例分别为$ {\rm tl} $、$ 1-{\rm tl}-{\rm tu} $和$ {\rm tu} $. 中段数据按照每组的实际均值进行调整, 前(后) 段则锚定中段的最小(大) 值进行等比例缩放, 最后将前中后三段"拼接"起来就得到了完整的样本. 这样处理的一个隐含假设是收入数据分布是连续的.

4.4 还原效果评估

同样基于CFPS2018的数据进行蒙特卡罗评估, 但此处要先对样本做不同程度的双边截断处理⁸, 其中截断比例分别设置为0.5%、1%、1.5%、2%、2.5%、3%. 假设两端的截断比例a%未知, 通过前述方法对数据进行还原, 再将还原样本与真实样本进行比较, 评估各分布在此方法下的表现. 根据前面的结果, Pareto分布和Weibull分布的还原表现较差, 故这里不再展示相应结果.

⁸现实中调查数据通常同时存在高低端的缺失, 但两端的缺失比例不一定相同, 为节省篇幅此处仅讨论了双边缺失相同比例的情况.

图 4展示了不同截断比例下, 不同分布函数的还原表现. 当数据为五等份分组数据时, 不论缺失比例为多少, Dagum分布的偏差都最小, 绝对偏差之和介于8$ \sim $9个百分点之间. Lognormal分布的表现次之, 绝对偏差之和在12到15个百分点之间. Gamma分的偏差最大. 十等份分组数据的结果略有不同, 当截断比例为0.5%、1%、1.5%时, Dagum分布的偏差最小, 而当截断比例在2%以上时, SM分布的偏差略小于Dagum分布. 总体来看Dagum分布在绝大多数情况下的绝对偏差之和都小于10个百分点, 还原效果较好. 从基尼系数的绝对百分比偏差来看, 五等份分组数据下的Dagum分布的整体表现也相对较好, 见图 5. 当截断比例不高于1%时, Dagum分布的偏差稍大于Lognormal分布, 但整体偏差依然处于较低水平, 且这一偏差没有随着截断比例的上升而明显增加. 十等份分组数据下, 当截断比例不高于1%时, Dagum分布的表现最好, 而随着截断比例的上升, SM分布展现出了较好的还原效果, Dagum分布略次之. 事实上, 从前文的结果中可以发现, 还原样本所得基尼系数的偏差主要取决于高位的收入份额偏差, 因此以基尼系数为标准的评估结果与以个人收入份额为标准的评估结果是基本一致的. 附录中表A1和A2展示了在不同截断比例下的贫困发生率和中等收入群体占比的平均绝对百分比偏差⁹. 需要注意的是, 由于本文采用了绝对百分比偏差作为评估标准, 而贫困率的绝对数值一般较低, 这会导致偏差的数值看起来较大. 如对于截断比例为0.5%的五等份分组数据, 基于Dagum分布获得的还原样本与真实样本在Poverty2300指标上的平均绝对偏差为1.77个百分点, 其平均绝对百分比偏差的数值则高达39.83%. 这主要是因为真实样本中Poverty2300指标的水平在4.5%左右, 并不代表拟合的绝对偏差过大. 因此, 尽管表A1和表A2中出现了某些较大的数值, 但结合指标的绝对水平来看, 拟合的偏差依然处于合理范围.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 不同截断比例下各分布个人收入份额的绝对偏差之和

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 不同截断比例下各分布基尼系数的平均绝对百分比偏差

⁹本文中贫困发生率和中等收入群体的指标使用了多个标准, 由于篇幅限制将对比结果在附录中展示.

基于表A1和A2很难选出一个最优的分布. 总体来看, 除了Lognormal分布和Gamma分布的偏差明显偏大, Dagum、SM、Beta2、GB2分布的偏差都在可接受范围内.

综合本部分的所有评估结果, 可以发现Dagum分布的总体表现是最好的, 不论怎么评估, 它都具有较小的偏差, 在收入份额占比和基尼系数的还原上具有明显的优势. SM分布总体上略逊于Dagum分布, 但同样有着不错的表现. 而其他分布则总在某些情况下偏差较大, 可能在实际应用中带来较大的误差.

表 3展示了不同情况下收入份额的平均绝对偏差之和. 可以看到, 如果数据存在截断, 但在拟合时不予考虑, 将会造成相当大的偏差. 且截断比例越大, 这一偏差越大. 如果考虑到截断问题, 使用条件分布进行拟合, 还原结果在多数情况下都有明显改善. 在此基础上再应用Shorrocks and Wan (2009)的迭代法, 偏差将进一步降低. 以截断比例为1%的五等份分组数据为例, 不考虑截断时, 收入份额的平均绝对偏差之和为15.35个百分点, 考虑截断后偏差降低到8.46个百分点, 使用迭代法进行调整后偏差进一步降为8.37个百分点. 除了偏差较小之外, 引入条件分布的还原方法还有一个明显的优点——随着截断比例的变化, 偏差的幅度能够保持相对稳定, 而不会出现因截断比例的增加导致偏差大幅升高的情况.

表3 不同模拟次数下迭代法调整前后个人收入份额的平均绝对偏差之和(单位: %)

分组数	处理方法	截断比例	Lognormal	Gamma	Dagum	SM	Beta2	GB2
五等份分组	考虑截断且进行调整	0.50%	12.49	22.29	8.02	14.65	16.19	14.93
		1.00%	12.69	23.28	8.37	16.74	17.88	17.56
		1.50%	13.03	24.13	8.43	17.73	18.03	18.81
		2.00%	13.53	24.91	8.22	17.93	18.06	18.71
		2.50%	14.12	25.66	8.52	17.92	18.11	17.76
		3.00%	14.70	26.42	8.07	17.92	18.28	18.16
	考虑截断但未进行调整	0.50%	12.82	25.34	8.11	14.69	16.33	14.99
		1.00%	12.91	25.65	8.46	16.76	17.88	17.56
		1.50%	13.18	26.03	8.54	17.74	18.03	18.80
		2.00%	13.64	26.46	8.34	17.93	18.05	18.70
		2.50%	14.20	26.94	8.67	17.91	18.09	17.74
		3.00%	14.75	27.45	8.23	17.90	18.25	18.12
	未考虑截断	0.50%	15.47	22.99	11.78	13.96	15.80	16.11
		1.00%	17.76	24.44	15.35	17.40	18.91	19.77
		1.50%	19.55	25.52	17.85	19.67	20.97	21.86
		2.00%	21.12	26.44	19.86	21.45	22.59	23.38
		2.50%	22.60	27.33	21.63	23.04	24.04	24.71
		3.00%	23.99	28.19	23.20	24.46	25.34	25.97
十等份分组	考虑截断且进行调整	0.50%	12.00	20.29	7.09	10.91	15.28	14.41
		1.00%	12.41	22.01	7.90	10.39	16.33	14.85
		1.50%	12.95	23.38	8.79	9.74	16.11	14.59
		2.00%	13.60	24.55	9.84	9.31	15.60	14.81
		2.50%	14.24	25.65	10.44	9.11	14.95	14.26
		3.00%	14.60	26.72	8.87	8.36	14.23	14.35
	考虑截断但未进行调整	0.50%	12.89	25.37	7.13	10.92	15.32	14.44
		1.00%	13.05	25.66	7.92	10.41	16.30	14.83
		1.50%	13.39	26.04	8.78	9.77	16.08	14.57
		2.00%	13.92	26.48	9.82	9.33	15.57	14.79
		2.50%	14.46	26.97	10.45	9.14	14.92	14.24
		3.00%	14.77	27.50	9.11	8.43	14.20	14.32
	未考虑截断	0.50%	16.01	20.59	13.85	14.86	15.92	16.31
		1.00%	19.53	22.76	18.30	19.03	19.68	20.40
		1.50%	22.05	24.37	21.25	21.76	22.20	22.70
		2.00%	23.94	25.70	23.48	23.87	24.18	24.49
		2.50%	25.70	26.96	25.40	25.70	25.92	26.15
		3.00%	27.22	28.15	27.02	27.26	27.43	27.56

新窗口打开| 下载CSV

与本部分第二小节类似, 此处把模拟次数由100次增加到200次, 并观察还原结果是否存在显著差异. 表 4展示了200次模拟下, 依照条件分布法拟合并进行迭代法调整所得到的个人收入份额的平均绝对偏差之和, 结果依然与100次模拟的情况接近.

表4 200次模拟下个人收入份额的平均绝对偏差之和(单位: align="left")

分组数	截断比例	Lognormal	Gamma	Dagum	SM	Beta2	GB2
五等份分组	0.5	12.51	22.25	7.99	14.55	16.15	14.90
	1.0	12.71	23.23	8.56	16.53	17.70	17.39
	1.5	13.04	24.08	8.46	17.55	17.83	18.58
	2.0	13.53	24.85	8.46	17.69	17.83	18.42
	2.5	14.10	25.59	8.58	17.63	17.90	17.47
	3.0	14.64	26.35	8.08	17.60	18.11	17.74
十等份分组	0.5	12.00	20.27	7.08	10.84	15.27	14.63
	1.0	12.41	21.98	8.00	10.28	16.22	14.82
	1.5	12.94	23.34	8.97	9.69	15.98	14.60
	2.0	13.59	24.50	10.02	9.31	15.48	14.76
	2.5	14.21	25.60	10.46	9.07	14.77	14.27
	3.0	14.54	26.66	8.86	8.21	14.05	14.24

新窗口打开| 下载CSV

5 方法应用

图 6展示了采用Dagum分布还原全国居民收入分组数据计算出的基尼系数, 可以看出考虑截断的基尼系数估算值比不考虑截断的估计值要高, 但二者趋势相似. 图中居民收入基尼系数的变化可以划分为三阶段, 其中2013–2015年基尼系数明显下降, 2015–2018年开始提升, 之后又呈缓慢下降趋势. 这与城乡收入倍差的降幅在趋势上基本一致. 城乡收入差距是总体收入差距的重要组成部分(Wan (2007)), 2013年至今城乡收入倍差连年下降, 较高降幅与收入差距缩小的对应在一定程度上体现了基尼系数测算结果的可靠性.

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 全国基尼系数与劳动报酬份额趋势

数据来源: 基尼系数估算值为作者根据国家统计局公布的收入分组数据测算, 劳动报酬份额数据来自张军等(2022).

另外, 劳动报酬份额也是反映收入差距的重要指标. 根据张军等(2022)的测算, 不论是基于《中国统计年鉴》数据(口径1)还是中国投入产出表数据(口径2)算出的2013–2017年的劳动报酬份额均以2015年为转折点先上升后下降, 这与图中所呈现的收入差距变化情况恰好吻合.

图 7则展示了在考虑截断情况下采用Dagum分布还原分组数据计算出的中等收入群体占比, 收入参考标准为国家统计局的"中国典型的三口之家的年收入在10$ \sim $50万元之间". 据测算, 2013–2021年中等收入群体占比以平均每年1.9个百分点的速率不断增加, 到2021年, 中等收入人群已经达到5.4亿人, 占比约为38%¹⁰.

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 全国中等收入群体占比趋势

数据来源: 作者根据国家统计局公布的分组数据测算.

¹⁰各年中等收入群体的标准为以2017年为基期根据居民消费价格指数调整所得.

受篇幅所限, 本文无法对相关实际应用结果进行全面展示. 后续研究可以基于本文的发现, 对中国不同层面的的收入不均等、中等收入群体占比、贫困等收入分配问题进行更为详细的分析, 或者通过控制这些重要变量获得更为可靠的研究发现与结论.

6 小结

不均等、贫困和中等收入群体占比等收入分配指标, 不但自身非常重要, 而且是影响众多经济关系的关键变量之一, 但相关数据的缺失不仅阻碍了收入分配领域的研究进展, 还使得实证研究无法将其纳入相关研究框架. 幸运的是, 不少国家和地区公布收入分组数据, 为通过使用Shorrocks and Wan (2009)的方法还原数据, 然后估算这些指标提供了可能.

但是, Shorrocks and Wan (2009)的方法依赖于预设的统计分布函数, 而且没有考虑数据缺失问题. 基于CFPS2018数据进行蒙特卡罗实验, 本文首先评估了常用分布函数的表现, 结果发现Dagum分布的表现相对较优. 此外, 本文还发现, Shorrocks and Wan (2009)提出的迭代法可以改善还原数据的可靠性. 接着, 本文引入条件分布以填补数据缺失. 蒙特卡罗实验结果显示, 使用条件分布可以在相当程度上解决数据截断问题, 而且Dagum分布的表现最佳. 最后, 本文基于国家统计局公布的收入分组数据估算了中国的基尼系数和中等收入群体占比指标, 并据此进行了简单的分析讨论.

应当说明的是, 本文的研究具有一定的局限性. 一是假定不同收入群体的数据服从同一分布; 二是除截断部分(低收入或高收入部分) 以外, 不存在或少有其他数据问题. 一般来说, 分布函数的参数越多, 其还原效果越好. 但由于分组数据所能提供的信息有限, 过多的参数可能导致拟合结果不稳定, 这一问题在使用条件分布法时尤为突出. 如果能够通过其他途径预先获得数据缺失的比例, 应该可以得到更为可靠的还原数据.

附录

表A1 不同截断比例下贫困率的平均绝对百分比偏差(单位: %)

分组数	指标	截断比例	Lognormal	Gamma	Dagum	SM	Beta2	GB2
五等份分组	Poverty2300	0.50%	28.52	81.89	39.83	21.06	10.37	14.04
		1.00%	35.67	71.19	33.38	22.80	5.67	9.67
		1.50%	42.04	61.22	30.39	22.40	6.91	9.16
		2.00%	47.72	51.78	26.28	19.87	8.01	11.43
		2.50%	52.80	42.69	20.93	16.78	9.87	13.24
		3.00%	56.95	33.85	17.04	13.40	11.69	12.48
	Poverty19	0.50%	22.24	63.72	29.36	14.76	7.75	11.15
		1.00%	29.26	55.43	24.33	16.14	5.46	7.57
		1.50%	35.48	47.60	21.78	16.03	6.97	8.02
		2.00%	41.07	40.09	18.26	13.95	8.30	10.42
		2.50%	46.10	32.82	14.50	11.35	10.15	11.63
		3.00%	50.22	25.67	11.36	8.68	11.80	11.57
	Poverty32	0.50%	2.99	37.39	17.15	10.47	6.22	7.16
		1.00%	8.54	33.11	14.04	11.26	3.51	5.37
		1.50%	13.55	28.91	12.23	10.98	3.31	4.75
		2.00%	18.24	24.76	9.92	9.49	3.29	5.18
		2.50%	22.63	20.73	7.76	7.64	4.22	6.11
		3.00%	26.31	16.79	5.81	5.89	5.34	5.94
十等份分组	Poverty2300	0.50%	17.60	95.63	18.30	8.11	7.99	7.78
		1.00%	29.76	82.29	11.60	5.60	9.69	8.73
		1.50%	39.52	70.21	7.16	5.56	13.66	11.97
		2.00%	47.65	59.02	7.55	8.73	18.84	18.12
		2.50%	54.15	48.32	10.98	13.42	24.42	24.34
		3.00%	57.39	37.73	12.96	17.89	30.12	30.65
	Poverty19	0.50%	12.89	73.76	11.49	4.82	8.32	7.10
		1.00%	23.19	63.93	6.75	4.38	9.84	8.42
		1.50%	32.65	54.39	5.58	6.43	13.68	12.06
		2.00%	40.75	45.38	8.46	10.22	18.31	17.69
		2.50%	47.19	36.75	12.76	14.77	23.19	23.17
		3.00%	50.43	28.21	14.86	18.82	28.21	28.63
	Poverty32	0.50%	5.17	35.09	6.97	3.71	2.00	2.62
		1.00%	9.84	31.29	4.30	2.52	2.86	2.86
		1.50%	14.24	27.59	2.85	2.44	4.62	4.28
		2.00%	18.31	24.05	3.78	4.06	6.97	6.85
		2.50%	22.37	21.33	6.08	6.59	9.82	9.92
		3.00%	24.89	18.03	7.48	9.14	13.13	13.31

新窗口打开| 下载CSV

表A2 不同截断比例下中等收入占比的平均绝对百分比偏差(单位: %)

分组数	指标	截断比例	Lognormal	Gamma	Dagum	SM	Beta2	GB2
五等份分组	Mid1	0.50%	0.80	3.81	1.96	0.66	1.01	1.02
		1.00%	2.90	2.82	1.27	0.63	1.49	1.24
		1.50%	4.42	2.56	0.97	0.58	1.45	1.22
		2.00%	5.53	2.61	0.87	0.59	1.55	1.37
		2.50%	6.46	2.83	1.06	0.63	1.80	1.63
		3.00%	7.14	3.15	1.39	0.63	2.03	1.78
	Mid2	0.50%	1.27	4.80	2.92	1.54	1.23	1.45
		1.00%	1.60	4.04	2.97	1.53	1.14	1.21
		1.50%	1.97	3.22	3.04	1.42	1.19	1.23
		2.00%	2.44	2.42	3.06	1.31	1.23	1.34
		2.50%	2.95	1.71	3.01	1.26	1.28	1.21
		3.00%	3.41	1.24	2.93	1.20	1.34	1.22
十等份分组	Mid1	0.50%	1.12	1.97	0.93	0.65	1.73	1.42
		1.00%	2.87	1.08	0.47	0.88	1.85	1.56
		1.50%	4.19	1.11	0.88	1.35	2.11	1.94
		2.00%	5.19	1.50	1.68	1.94	2.53	2.51
		2.50%	6.02	2.02	2.55	2.69	3.18	3.22
		3.00%	6.69	2.61	2.96	3.35	3.88	3.93
	Mid2	0.50%	0.81	5.92	2.43	1.38	0.73	1.03
		1.00%	1.06	4.97	2.45	1.34	0.69	0.86
		1.50%	0.91	4.02	2.54	1.36	0.72	0.72
		2.00%	0.83	3.05	2.75	1.50	0.78	0.73
		2.50%	1.17	2.07	2.61	1.65	0.86	0.83
		3.00%	1.57	1.20	2.19	1.48	0.94	0.95

新窗口打开| 下载CSV

表A3 调整后各分位内收入份额平均绝对偏差(%) (五等份分组数据, 模拟100次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
1	0.02	0.02	0.03	0.02	0.02	0.02	0.02	0.04
2	0.04	0.03	0.05	0.02	0.02	0.03	0.02	0.08
3	0.05	0.04	0.07	0.03	0.03	0.04	0.03	0.13
4	0.06	0.05	0.09	0.05	0.04	0.04	0.04	0.20
5	0.08	0.07	0.11	0.06	0.06	0.06	0.06	0.26
6	0.10	0.10	0.14	0.07	0.07	0.08	0.07	0.36
7	0.13	0.14	0.20	0.09	0.10	0.10	0.10	0.50
8	0.29	0.43	0.45	0.14	0.15	0.19	0.14	1.04
9	1.44	3.90	3.22	0.32	0.47	0.90	0.51	3.20
10	9.68	16.03	13.18	4.16	5.14	7.10	5.31	13.69
total	11.89	20.81	17.53	4.97	6.10	8.56	6.30	19.49

新窗口打开| 下载CSV

表A4 调整前各分位内收入份额平均绝对偏差(%) (五等份分组数据, 模拟100次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
1	0.04	0.07	0.67	0.03	0.02	0.02	0.02	0.14
2	0.07	0.16	1.10	0.04	0.03	0.04	0.03	0.50
3	0.11	0.44	1.36	0.05	0.04	0.04	0.04	0.86
4	0.13	0.79	1.57	0.07	0.05	0.05	0.05	1.19
5	0.15	1.17	1.77	0.09	0.06	0.07	0.06	1.62
6	0.18	1.58	1.86	0.11	0.08	0.09	0.08	2.11
7	0.22	2.02	1.96	0.14	0.10	0.13	0.10	2.84
8	0.60	2.43	2.10	0.19	0.15	0.31	0.14	3.74
9	1.64	2.72	3.73	0.33	0.49	1.01	0.53	4.49
10	9.57	15.04	16.42	4.16	5.09	7.01	5.25	20.01
total	12.69	26.42	32.51	5.21	6.11	8.77	6.28	37.49

新窗口打开| 下载CSV

表A5 调整后各分位内收入份额平均绝对偏差(%) (十等份分组数据, 模拟100次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
1	0.02	0.02	0.02	0.02	0.02	0.02	0.02	0.03
2	0.02	0.03	0.03	0.02	0.02	0.02	0.02	0.05
3	0.04	0.04	0.04	0.03	0.03	0.03	0.03	0.07
4	0.05	0.05	0.05	0.04	0.04	0.04	0.04	0.10
5	0.06	0.07	0.06	0.06	0.06	0.06	0.06	0.12
6	0.08	0.09	0.08	0.07	0.07	0.07	0.07	0.17
7	0.09	0.12	0.10	0.09	0.09	0.09	0.09	0.22
8	0.12	0.16	0.13	0.12	0.12	0.12	0.12	0.31
9	0.33	0.37	0.39	0.26	0.27	0.29	0.28	0.83
10	9.68	16.46	12.87	4.04	4.92	6.92	5.32	11.95
total	10.49	17.39	13.77	4.76	5.64	7.66	6.06	13.85

新窗口打开| 下载CSV

表A6 调整前各分位内收入份额平均绝对偏差(%) (十等份分组数据, 模拟100次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
1	0.05	0.05	0.31	0.02	0.02	0.03	0.06	0.16
2	0.10	0.30	0.66	0.05	0.03	0.04	0.09	0.53
3	0.12	0.65	1.06	0.06	0.04	0.05	0.11	0.92
4	0.15	0.99	1.24	0.07	0.05	0.06	0.11	1.25
5	0.19	1.35	1.48	0.09	0.06	0.07	0.12	1.69
6	0.22	1.71	1.59	0.12	0.08	0.10	0.14	2.25
7	0.26	2.06	1.68	0.16	0.11	0.15	0.17	3.09
8	0.57	2.34	1.92	0.20	0.17	0.28	0.22	4.02
9	1.64	2.62	4.15	0.35	0.42	0.97	0.47	4.84
10	9.58	15.44	15.04	4.09	4.91	6.90	5.37	22.79
total	12.87	27.51	29.13	5.23	5.89	8.66	6.85	41.55

新窗口打开| 下载CSV

表A7 调整后各指标平均绝对百分比偏差(%) (五等份分组数据, 模拟100次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
Gini	1.41	3.46	2.56	0.23	0.47	0.90	0.52	2.40
Poverty2300	19.65	2.94	20.08	2.49	3.02	8.68	3.49	100.00
Poverty19	13.78	2.65	7.61	3.53	4.91	8.25	5.11	100.00
Poverty32	3.18	3.19	4.80	1.99	1.44	0.89	1.38	27.77
Mid1	2.66	2.88	3.30	0.52	0.80	1.63	0.85	4.93
Mid2	1.22	1.27	1.57	1.12	1.10	1.21	1.10	2.20

新窗口打开| 下载CSV

表A8 调整前各指标平均绝对百分比偏差(%) (五等份分组数据, 模拟100次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
Gini	1.14	15.08	20.46	0.49	0.70	0.95	0.72	9.98
Poverty2300	25.98	24.19	308.54	4.37	2.82	10.68	3.43	100.00
Poverty19	20.14	13.67	243.09	2.30	4.48	10.22	5.11	100.00
Poverty32	1.31	1.35	135.96	2.03	1.69	1.17	1.67	100.00
Mid1	3.07	38.59	17.16	1.51	0.72	1.85	0.61	47.69
Mid2	6.76	5.76	39.26	4.33	1.86	2.83	1.37	70.09

新窗口打开| 下载CSV

表A9 调整后各指标平均绝对百分比偏差(%) (十等份分组数据, 模拟100次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
Gini	0.75	1.56	1.07	0.20	0.31	0.50	0.36	0.84
Poverty2300	2.46	6.67	5.33	5.87	5.44	4.49	5.38	22.75
Poverty19	1.86	9.08	11.47	7.55	7.04	5.22	6.92	22.86
Poverty32	0.98	0.88	0.78	0.96	1.02	1.06	1.13	5.01
Mid1	1.75	3.65	2.57	0.46	0.55	0.91	0.68	3.06
Mid2	0.86	0.71	0.71	0.88	0.94	0.91	0.96	1.99

新窗口打开| 下载CSV

表A10 调整前各指标平均绝对百分比偏差(%) (十等份分组数据, 模拟100次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
Gini	0.86	17.89	15.47	0.43	0.53	0.54	1.52	13.34
Poverty2300	21.84	3.50	335.90	2.18	3.83	9.88	5.44	120.44
Poverty19	16.21	5.19	263.91	4.50	6.19	9.38	7.70	114.48
Poverty32	2.78	12.58	145.05	3.85	2.58	1.16	3.86	106.07
Mid1	2.52	41.02	2.09	2.18	0.89	1.31	2.47	50.07
Mid2	7.54	1.70	41.43	4.96	2.17	2.97	3.70	66.62

新窗口打开| 下载CSV

表A11 调整后各分位内收入份额平均绝对偏差(%) (五等份分组数据, 模拟200次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
1	0.02	0.02	0.03	0.02	0.02	0.02	0.02	0.04
2	0.04	0.02	0.05	0.02	0.02	0.03	0.02	0.08
3	0.05	0.04	0.07	0.03	0.03	0.04	0.03	0.13
4	0.06	0.05	0.09	0.05	0.04	0.04	0.04	0.20
5	0.08	0.07	0.11	0.06	0.06	0.06	0.06	0.26
6	0.10	0.10	0.14	0.07	0.07	0.08	0.07	0.36
7	0.13	0.14	0.20	0.09	0.10	0.10	0.10	0.50
8	0.29	0.44	0.45	0.14	0.15	0.19	0.15	1.04
9	1.44	3.90	3.20	0.31	0.47	0.90	0.54	3.19
10	9.69	16.00	13.15	4.22	5.20	7.14	5.47	13.66
total	11.90	20.78	17.49	5.02	6.15	8.60	6.50	19.47

新窗口打开| 下载CSV

表A12 调整前各分位内收入份额平均绝对偏差(%) (五等份分组数据, 模拟200次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
1	0.04	0.07	0.66	0.03	0.02	0.02	0.05	0.14
2	0.07	0.16	1.08	0.04	0.03	0.04	0.05	0.50
3	0.11	0.44	1.35	0.06	0.04	0.04	0.06	0.86
4	0.13	0.79	1.57	0.07	0.05	0.05	0.07	1.19
5	0.15	1.17	1.78	0.09	0.06	0.07	0.08	1.61
6	0.17	1.58	1.88	0.12	0.08	0.09	0.09	2.12
7	0.22	2.01	1.98	0.14	0.10	0.13	0.11	2.85
8	0.59	2.41	2.11	0.19	0.15	0.30	0.15	3.74
9	1.63	2.71	3.73	0.33	0.48	1.01	0.55	4.49
10	9.58	14.99	16.46	4.22	5.15	7.05	5.47	20.01
total	12.69	26.33	32.61	5.27	6.17	8.80	6.68	37.51

新窗口打开| 下载CSV

表13 调整后各分位内收入份额平均绝对偏差(%) (十等份分组数据, 模拟200次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
1	0.02	0.02	0.02	0.02	0.02	0.02	0.02	0.03
2	0.02	0.03	0.03	0.02	0.02	0.02	0.02	0.05
3	0.04	0.04	0.04	0.03	0.03	0.03	0.03	0.07
4	0.05	0.05	0.05	0.04	0.04	0.04	0.04	0.10
5	0.06	0.07	0.06	0.06	0.06	0.06	0.06	0.12
6	0.08	0.09	0.08	0.07	0.07	0.07	0.07	0.16
7	0.09	0.12	0.10	0.09	0.09	0.09	0.09	0.22
8	0.12	0.16	0.14	0.13	0.12	0.12	0.12	0.32
9	0.32	0.37	0.38	0.25	0.27	0.29	0.27	0.83
10	9.70	16.45	12.87	4.11	4.97	6.96	5.24	11.77
total	10.50	17.38	13.76	4.82	5.70	7.69	5.97	13.66

新窗口打开| 下载CSV

表14 调整前各分位内收入份额平均绝对偏差(%) (十等份分组数据, 模拟200次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
1	0.05	0.05	0.31	0.02	0.02	0.03	0.04	0.15
2	0.10	0.30	0.66	0.05	0.03	0.04	0.06	0.52
3	0.12	0.64	1.06	0.06	0.04	0.05	0.07	0.90
4	0.15	0.99	1.24	0.07	0.05	0.06	0.08	1.23
5	0.18	1.35	1.48	0.09	0.06	0.07	0.09	1.67
6	0.22	1.71	1.59	0.12	0.08	0.10	0.10	2.23
7	0.26	2.05	1.68	0.16	0.11	0.15	0.14	3.06
8	0.56	2.33	1.92	0.20	0.17	0.27	0.19	3.99
9	1.63	2.60	4.14	0.35	0.42	0.97	0.45	4.78
10	9.60	15.40	15.06	4.16	4.97	6.95	5.26	22.31
total	12.87	27.41	29.14	5.30	5.95	8.69	6.49	40.84

新窗口打开| 下载CSV

表A15 调整后各指标平均绝对百分比偏差(%) (五等份分组数据, 模拟200次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
Gini	1.40	3.45	2.55	0.22	0.48	0.90	0.55	2.40
Poverty2300	19.62	2.92	20.46	2.31	2.82	8.51	3.80	100.00
Poverty19	13.82	2.48	7.63	3.43	4.85	8.20	5.30	100.00
Poverty32	3.18	3.22	4.89	2.01	1.46	0.91	1.44	27.80
Mid1	2.70	3.00	3.29	0.58	0.86	1.67	0.95	5.02
Mid2	1.14	1.25	1.52	1.08	1.04	1.13	1.05	2.20

新窗口打开| 下载CSV

表A16 调整前各指标平均绝对百分比偏差(%) (五等份分组数据, 模拟200次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
Gini	1.13	15.04	20.67	0.49	0.70	0.95	1.11	9.99
Poverty2300	25.97	24.65	312.27	4.52	2.63	10.47	3.77	100.00
Poverty19	20.20	13.95	246.07	2.07	4.33	10.14	5.59	100.00
Poverty32	1.39	1.32	137.27	2.03	1.71	1.20	2.17	100.00
Mid1	2.88	38.21	16.80	1.62	0.70	1.70	0.94	47.78
Mid2	6.62	5.65	39.64	4.45	1.90	2.72	2.64	70.30

新窗口打开| 下载CSV

表A17 调整后各指标平均绝对百分比偏差(%) (十等份分组数据, 模拟200次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
Gini	0.75	1.56	1.07	0.20	0.31	0.51	0.34	0.82
Poverty2300	2.49	6.45	5.11	5.70	5.29	4.42	5.22	23.31
Poverty19	1.80	9.07	11.39	7.50	6.99	5.18	6.88	22.98
Poverty32	1.01	0.91	0.77	0.98	1.06	1.10	1.11	5.02
Mid1	1.78	3.89	2.60	0.53	0.63	0.99	0.70	2.68
Mid2	0.89	0.76	0.77	0.87	0.95	0.93	0.96	1.97

新窗口打开| 下载CSV

表A18 调整前各指标平均绝对百分比偏差(%) (十等份分组数据, 模拟200次)

分布	Lognormal	Gamma	Weibull	Dagum	SM	Beta2	GB2	Pareto
Gini	0.85	17.85	15.56	0.43	0.53	0.54	1.02	13.00
Poverty2300	21.80	3.60	338.48	2.01	3.62	9.71	4.66	110.22
Poverty19	16.24	4.89	265.51	4.37	6.08	9.32	7.01	107.24
Poverty32	2.77	12.44	145.79	3.83	2.59	1.17	3.18	103.04
Mid1	2.36	40.64	1.86	2.31	0.99	1.16	1.72	49.91
Mid2	7.41	1.64	41.39	5.09	2.25	2.86	2.79	66.97

新窗口打开| 下载CSV

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[]

白重恩, 唐燕华, 张琼,

中国隐性收入规模估计——基于扩展消费支出模型及数据的解读

[J]. 经济研究, 2015, 50 (6): 4- 18.

URL [本文引用: 1]

Bai

C E

, Tang

Y H

, Zhang

Estimating the Size of Hidden Income in China-An Interpretation Based on the Extended Consumption Expenditure Model and Data

[J]. Economic Research, 2015, 50 (6): 4- 18.

URL [本文引用: 1]

陈春良, 易君健,

收入差距与刑事犯罪: 基于中国省级面板数据的经验研究

[J]. 世界经济, 2009, 32 (1): 13- 25.

URL [本文引用: 1]

Chen

C L

, Yi

J J

Income Disparity and Criminal Crime: An Empirical Study Based on Provincial Panel Data in China

[J]. World Economy, 2009, 32 (1): 13- 25.

URL [本文引用: 1]

陈建东, 罗涛, 赵艾凤,

收入分布函数在收入不平等研究领域的应用

[J]. 统计研究, 2013, 30 (9): 79- 86.

DOI [本文引用: 1]

Chen

J D

, Luo

, Zhao

A F

Application of Income Distribution Function in the Field of Income Inequality Research

[J]. Statistical Research, 2013, 30 (9): 79- 86.

DOI [本文引用: 1]

胡志军, 刘宗明, 龚志民,

中国总体收入基尼系数的估计: 1985-2008

[J]. 经济学(季刊), 2011, 10 (4): 1423- 1436.

URL [本文引用: 2]

Z J

, Liu

Z M

, Gong

Z M

Estimation of the Gini Coeffcient of Overall Income in China: 1985-2008

[J]. Economics (Quarterly), 2011, 10 (4): 1423- 1436.

URL [本文引用: 2]

李实, 罗楚亮,

中国收入差距究竟有多大?——对修正样本结构偏差的尝试

[J]. 经济研究, 2011, 46 (4): 68- 79.

URL [本文引用: 2]

, Luo

C L

How Big is the Income Gap in China?-An Attempt to Correct for Sample Structure Bias

[J]. Economic Research, 2011, 46 (4): 68- 79.

URL [本文引用: 2]

刘志国, 马健,

谁的上升空间受到了挤压: 收入流动性角度的分析

[J]. 经济学动态, 2016, (8): 53- 60.

URL [本文引用: 1]

Liu

Z G

, Ma

Whose Upside is Squeezed: An Analysis from the Perspective of Income Mobility

[J]. Economic Dynamics, 2016, (8): 53- 60.

URL [本文引用: 1]

龙莹,

中等收入群体比重变动的因素分解——基于收入极化指数的经验证据

[J]. 统计研究, 2015, 32 (2): 37- 43.

DOI [本文引用: 1]

Long

Factor Decomposition of the Change in the Share of Middle-income Group-Empirical Evidence Based on Income Polarization Index

[J]. Statistical Research, 2015, 32 (2): 37- 43.

DOI [本文引用: 1]

陆铭, 陈钊, 万广华,

因患寡, 而患不均——中国的收入差距、投资、教育和增长的相互影响

[J]. 经济研究, 2005, (12): 4- 14.

URL [本文引用: 1]

, Chen

, Wan

G H

Unevenness Because of Scarcity-The Interplay of Income Disparity, Investment, Education and Growth in China

[J]. Economic Research, 2005, (12): 4- 14.

URL [本文引用: 1]

罗楚亮,

高收入人群缺失与收入差距低估

[J]. 经济学动态, 2019, (1): 15- 27.

URL [本文引用: 3]

Luo

C L

The Absence of High-income People and the Underestimation of Income Disparity

[J]. Economic Dynamics, 2019, (1): 15- 27.

URL [本文引用: 3]

祁磊, 艾小青,

分组数据下收入基尼系数的计算误差分析

[J]. 统计与决策, 2021, 37 (15): 43- 46.

URL [本文引用: 1]

, Ai

X Q

Error Analysis of the Calculation of Income Gini Coeffcient Under Grouped Data

[J]. Statistics and Decision Making, 2021, 37 (15): 43- 46.

URL [本文引用: 1]

汪晨, 万广华, 吴万宗,

中国减贫战略转型及其面临的挑战

[J]. 中国工业经济, 2020, (1): 5- 23.

URL [本文引用: 1]

Wang

, Wan

G H

, Wu

W Z

China's Poverty Reduction Strategy Transformation and the Challenges it Faces

[J]. China Industrial Econom, 2020, (1): 5- 23.

URL [本文引用: 1]

王小鲁,

灰色收入拉大居民收入差距

[J]. 中国改革, 2007, (7): 8- 12.

URL [本文引用: 2]

Wang

X L

Gray Income Widens the Income Gap Among Residents

[J]. China Reform, 2007, (7): 8- 12.

URL [本文引用: 2]

王小鲁, (2010). 灰色收入与国民收入分配[J]. 比较, 第48辑.

[本文引用: 1]

Wang X L, (2010). Gray Income and National Income Distribution[J]. Comparative, No. 48.

[本文引用: 1]

王有捐, (2010). 也谈城镇居民收入的统计与调查方法——与王小鲁博士及其课题组关于调查推算方法的商榷[C]//中国收入分配: 探究与争论: 284-289.

[本文引用: 1]

Wang Y J, (2010). Also on the Statistics and Survey Methods of Urban Residents' Income-Discussion with Dr. Wang Xiaolu and His Group on the Survey Projection Methods[C]//Income Distribution in China: Exploration and Debate: 284-289.

[本文引用: 1]

张军, 吴桂英, 张吉鹏,

中国省际物质资本存量估算: 1952-2000

[J]. 经济研究, 2004, (10): 35- 44.

URL [本文引用: 1]

Zhang

, Wu

G Y

, Zhang

J P

Estimation of Inter-provincial Physical Capital Stock in China: 1952-2000

[J]. Economic Research, 2004, (10): 35- 44.

URL [本文引用: 1]

张军, 张席斌, 张丽娜,

中国劳动报酬份额变化的动态一般均衡分析

[J]. 经济研究, 2022, 57 (7): 26- 44.

URL [本文引用: 2]

Zhang

, Zhang

X B

, Zhang

L N

Dynamic General Equilibrium Analysis of the Change of Labor Compensation Share in China

[J]. Economic Research, 2022, 57 (7): 26- 44.

URL [本文引用: 2]

张萌旭, 陈建东, 蒲明,

城镇居民收入分布函数的研究

[J]. 数量经济技术经济研究, 2013, 30 (4): 57- 71.

URL [本文引用: 1]

Zhang

M X

, Chen

J D

, Pu

Research on the Distribution Function of Urban Residents' Income

[J]. Quantitative Economics and Technical Economics Research, 2013, 30 (4): 57- 71.

URL [本文引用: 1]

郑世林, 杨梦俊,

中国省际无形资本存量估算: 2000-2016年

[J]. 管理世界, 2020, 36 (9): 67- 81.

URL [本文引用: 1]

Zheng

S L

, Yang

M J

Estimation of Inter-provincial Intangible Capital Stock in China: 2000 to 2016

[J]. Management World, 2020, 36 (9): 67- 81.

URL [本文引用: 1]

Banerjee

, Piketty

Top Indian Incomes, 1922-2000

[J]. The World Bank Economic Review, 2005, 19 (1): 1- 20.

[本文引用: 1]

Burkhauser

R V

, Feng

, Jenkins

S P

, Larrimore

Estimating trends in US income Inequality Using the Current Population Survey: The Importance of Controlling for Censoring

[J]. The Journal of Economic Inequality, 2011, 9 (3): 393- 415.

[本文引用: 1]

Dagum

A New Model of Personal Income Distribution: Specification and Estimation

[J]. Economie Appliquée, 1977, 30, 413- 437.

[本文引用: 3]

Deaton

Measuring Poverty in a Growing World (or Measuring Growth in a Poor World)

[J]. Review of Economics and Statistics, 2005, 87 (1): 1- 19.

[本文引用: 1]

Gastwirth

J L

The Estimation of the Lorenz Curve and Gini Index

[J]. Review of Economics and Statistics, 1972, 54, 306- 316.

[本文引用: 2]

Grabka

, Goebel

, Schröder

, Schupp

Shrinking Share of Middle-income Group in Germany and the US

[J]. DIW Economic Bulletin, 2016, 6 (18): 199- 210.

[本文引用: 1]

Hajargasht

, Griffths

W E

, Brice

, Rao

D S

, Chotikapanich

Inference for Income Distributions Using Grouped Data

[J]. Journal of Business & Economic Statistics, 2012, 30, 563- 575.

[本文引用: 1]

Kakwani

On the Estimation of Income Inequality Measures from Grouped Observations

[J]. Review of Economic Studies, 1976, 43, 483- 492.

[本文引用: 1]

Kakwani

, Podder

On the Estimation of Lorenz Curves from Grouped Observations

[J]. International Economic Review, 1973, 14, 278- 292.

[本文引用: 2]

Kolenikov

, Shorrocks

A F

A Decomposition Analysis of Regional Poverty in Russia

[J]. Review of Development Economics, 2005, 9, 25- 46.

[本文引用: 1]

Korinek

, Mistiaen

J A

, Ravallion

An Econometric Method of Correcting for Unit Nonresponse Bias in Surveys

[J]. Journal of Econometrics, 2007, 136 (1): 213- 235.

[本文引用: 1]

Korinek

, Mistiaen

J A

, Ravallion

Survey Nonresponse and the Distribution of Income

[J]. The Journal of Economic Inequality, 2006, 4 (1): 33- 55.

[本文引用: 1]

Krishnaji

Characterization of the Pareto Distribution Through a Model of Underreported Incomes

[J]. Econometrica, 1970, 38 (2): 251- 255.

[本文引用: 1]

McDonald

J B

Some Generalized Functions for the Size Distribution of Income

[J]. Econometrica, 1984, 52, 647- 663.

[本文引用: 1]

McDonald

J B

, Xu

Y J

A Generalization of the Beta Distribution with Applications

[J]. Journal of Econometrics, 1995, 66 (1-2): 133- 152.

[本文引用: 2]

Menon

M V

Estimation of the Shape and Scale Parameters of the Weibull Distribution

[J]. Technometrics, 1963, 5 (2): 175- 182.

[本文引用: 1]

Piketty

Income Inequality in France, 1901-1998

[J]. Journal of Political Economy, 2003, 111 (5): 1004- 1042.

[本文引用: 1]

Pressman

The Middle Class Throughout the World in the Mid-2000s

[J]. Journal of Economic Issues, 2010, 44 (1): 243- 262.

[本文引用: 1]

Sabelhaus J, Johnson D S, Ash S, Swanson D, Garner T I, et al. (2012). Is the Consumer Expenditure Survey Representative by Income?[R]. FEDS Working Papers, No. 2012/36.

[本文引用: 1]

Salem

A B Z

, Mount

T D

A Convenient Descriptive Model of Income Distribution: The Gamma Density

[J]. Econometrica, 1974, 42 (6): 1115- 1127.

[本文引用: 1]

Shorrocks A, Wan G, (2009). Ungrouping Income Distributions: Synthesising Samples for Inequality and Poverty Analysis[M]//Basu K, Kanbur R. Arguments for a Better World: Essays in Honor of Amartya Sen. Oxford: Oxford University Press: 414-434.

[本文引用: 23]

Singh

S K

, Maddala

G S

A Function for Size Distribution of Incomes

[J]. Econometrica, 1976, 52 (3): 647- 665.

[本文引用: 3]

Slottje

D J

A Measure of Income Inequality in the U.S. for the Years 1952-1980 Based on the Beta Distribution of the Second Kind

[J]. Economics Letters, 1984, 15 (3-4): 369- 375.

[本文引用: 1]

Smith

B E

, Merceret

F J

The Lognormal Distribution

[J]. The College Mathematics Journal, 2000, 31 (4): 259- 261.

[本文引用: 1]

Wan

Understanding Regional Poverty and Inequality Trends in China: Methodological Issues and Empirical Findings

[J]. Review of Income and Wealth, 2007, 53, 25- 34.

[本文引用: 1]

中国隐性收入规模估计——基于扩展消费支出模型及数据的解读

2015

... 为了解决收入数据缺失问题, 王小鲁(2010)使用了社会学中的"滚雪球法", 通过调查亲戚朋友等熟人进行核对调整, 以改善高收入样本的数据真实性. 但王有捐(2010)指出, "滚雪球法"在调查城市和调查样本的选择等方面存在主观性. 李实和罗楚亮(2011), 罗楚亮(2019)使用财富榜和高管薪酬数据弥补高收入样本的缺失. 白重恩等(2015)基于个体消费数据推算了我国居民的隐性收入, 发现不考虑隐性收入使得基尼系数明显低估. 这些尝试都借助于外部数据, 但外部数据的获取和匹配不但存在困难, 而且外部数据与微观调查数据之间一般不具有一致性. ...

中国隐性收入规模估计——基于扩展消费支出模型及数据的解读

2015

收入差距与刑事犯罪: 基于中国省级面板数据的经验研究

2009

... 面对与收入分配相关的指标的缺失, 大部分研究都选择直接放弃使用相关变量, 另有部分研究则尝试使用城乡收入差距作为总体收入差距的代理变量(陆铭等(2005), 陈春良和易君健(2009)). 然而, 任何一个国家或地区的收入差距都包括三大成分: 城乡收入差距、城市内部收入差距和农村内部收入差距, 因此使用城乡收入差距作为代理变量会带来一定的误差. 当然, 随着微观调查数据如中国家庭追踪调查(CFPS)/中国综合社会调查(CGSS)/中国家庭金融调查(CHFS)等的出现, 学者们可以估算省级层面的贫困和不均等指标. 但这些微观数据库涵盖的年份有限, 部分样本的代表性也受到质疑. ...

收入差距与刑事犯罪: 基于中国省级面板数据的经验研究

2009

收入分布函数在收入不平等研究领域的应用

2013

... 国内也有学者基于收入分组数据, 估算中国的收入分配指标. 如胡志军等(2011)在对数正态分布、威布尔分布和广义贝塔II型(GB2)分布的假设下, 对中国农村和城市居民的收入分组数据进行拟合并据此计算基尼系数. 基于极大似然估计值和各收入区间的人口份额拟合值与样本值的偏差, 胡志军等(2011)发现GB2表现较好, 该发现得到张萌旭等(2013)的证实. 陈建东等(2013)比较了不同分布函数的拟合效果, 发现对数逻辑斯蒂分布占优. 遗憾的是, 现有文献大多没有考虑Shorrocks and Wan (2009)的迭代法, 也没有关注基尼系数之外的其他收入分配指标(祁磊和艾小青(2021)), 更没有考虑数据缺失或截断问题(见下一小节). ...

收入分布函数在收入不平等研究领域的应用

2013

中国总体收入基尼系数的估计: 1985-2008

2011

... 在对数正态分布、威布尔分布和广义贝塔II型(GB2)分布的假设下, 对中国农村和城市居民的收入分组数据进行拟合并据此计算基尼系数. 基于极大似然估计值和各收入区间的人口份额拟合值与样本值的偏差, 胡志军等(2011)发现GB2表现较好, 该发现得到张萌旭等(2013)的证实. 陈建东等(2013)比较了不同分布函数的拟合效果, 发现对数逻辑斯蒂分布占优. 遗憾的是, 现有文献大多没有考虑Shorrocks and Wan (2009)的迭代法, 也没有关注基尼系数之外的其他收入分配指标(祁磊和艾小青(2021)), 更没有考虑数据缺失或截断问题(见下一小节). ...

中国总体收入基尼系数的估计: 1985-2008

2011

中国收入差距究竟有多大?——对修正样本结构偏差的尝试

2011

... 特别重要的是, 国内外微观调查数据都面临相关变量分布底端和顶端观察值缺失, 尤其是高收入家户抽样不足的问题(王小鲁(2007)), 导致相关研究的可靠性被削弱. 举例来说, 低收入群体数据的缺失将导致贫困率的低估, 高收入群体数据的缺失将导致不均等的低估. 鉴于此, 中国家庭金融调查(CHFS)适当增加了富裕地区和富裕家庭的抽样比重, 但针对CHFS的可靠性仍然存在争议⁴. 此外, 也有学者尝试使用税务数据(Piketty (2003))或富豪榜数据进行弥补(李实和罗楚亮(2011), 罗楚亮(2019)). 但这些数据与微观调查数据之间缺乏一致性. ...

中国收入差距究竟有多大?——对修正样本结构偏差的尝试

2011

谁的上升空间受到了挤压: 收入流动性角度的分析

2016

... 3) 中等收入群体占比. 中等收入群体的界定可以使用绝对标准或相对标准. 绝对标准方面, 本文根据国家统计局的"以中国典型的三口之家年收入在10万元

$ \sim $

50万元之间⁷"的做法, 将人均年收入介于3.33万与16.7万之间的定义为中等收入群体, 并计算其人口占比(Mid1). 就相对标准而言, 较为常见的做法是使用收入中位数的75%

$ \sim $

125% (Pressman (2010), 刘志国和马健(2016), 龙莹(2015))或67%

$ \sim $

200% (Grabka et al. (2016)). 本文选择75%

$ \sim $

125%作为中等收入的标准, 由此测算中等收入群体占比的另一指标(Mid2). ...

谁的上升空间受到了挤压: 收入流动性角度的分析

2016

$ \sim $

125% (Pressman (2010), 刘志国和马健(2016), 龙莹(2015))或67%

$ \sim $

200% (Grabka et al. (2016)). 本文选择75%

$ \sim $

125%作为中等收入的标准, 由此测算中等收入群体占比的另一指标(Mid2). ...

中等收入群体比重变动的因素分解——基于收入极化指数的经验证据

2015

$ \sim $

125% (Pressman (2010), 刘志国和马健(2016), 龙莹(2015))或67%

$ \sim $

200% (Grabka et al. (2016)). 本文选择75%

$ \sim $

125%作为中等收入的标准, 由此测算中等收入群体占比的另一指标(Mid2). ...

中等收入群体比重变动的因素分解——基于收入极化指数的经验证据

2015

$ \sim $

125% (Pressman (2010), 刘志国和马健(2016), 龙莹(2015))或67%

$ \sim $

200% (Grabka et al. (2016)). 本文选择75%

$ \sim $

125%作为中等收入的标准, 由此测算中等收入群体占比的另一指标(Mid2). ...

因患寡, 而患不均——中国的收入差距、投资、教育和增长的相互影响

2005

因患寡, 而患不均——中国的收入差距、投资、教育和增长的相互影响

2005

高收入人群缺失与收入差距低估

2019

... 影响微观调查数据质量的主要因素有两个: 一是样本代表性; 二是调查个体回复率. 在现实中, 通常会有一定比例的个体拒绝参与调查或者不在家, 导致回复率不足. 该问题又与收入水平相关: 高收入群体所占比例低, 其居住环境更具封闭性, 不容易被抽取; 即便被抽中, 出于隐私或安全考虑, 他们有动机隐瞒真实收入水平或者直接拒绝接受调查(no-response) (Korinek et al.(2006, 2007), Sabelhaus et al. (2012), Burkhauser et al. (2011)). Deaton (2005)发现通过家户调查得出的人均消费远低于国家统计数据, 这在欠发达国家中更加明显, 包括印度(Banerjee and Piketty (2005))和中国(王小鲁(2007)). 低收入群体因无家可归等现象也存在抽样不足或回复率偏低的问题. 这些问题显然会给统计或计量估算带来偏误. 罗楚亮(2019)就发现, 基于住户调查数据所得的基尼系数都存在低估. ...

高收入人群缺失与收入差距低估

2019

分组数据下收入基尼系数的计算误差分析

2021

分组数据下收入基尼系数的计算误差分析

2021

中国减贫战略转型及其面临的挑战

2020

... 贫困和收入不均等以及其他与收入分配相关的议题长期受到国内外政府、社会和学术界的广泛关注. 在国际上, 减贫和缩小贫富差距是由193个国家元首签署、联合国发起和推进的可持续发展目标(SGDs)的核心. 在亚洲, 众多国家包括印度和印度尼西亚等都把反贫困和包容性增长作为重大战略部署. 中国政府更是先后提出了和谐社会、精准扶贫、共同富裕等理念并付诸实践, 创造了人类发展史上的减贫神话(汪晨等(2020)). ...

中国减贫战略转型及其面临的挑战

2020

灰色收入拉大居民收入差距

2007

灰色收入拉大居民收入差距

2007

中国省际物质资本存量估算: 1952-2000

2004

... 本文的发现表明, 学术界可以结合使用本文提出的条件分布法和Shorrocks and Wan (2009)的数据还原法, 基于Dagum分布对分组数据进行还原, 从而计算国家或次国家层面的收入不均等、贫困和中等收入群体占比等等指标. 特别需要说明的是, 本文为中国省际贫困与不均等指标的测算提供了重要的方法支持, 这一贡献与张军等(2004)以及郑世林和杨梦俊(2020)类似, 前者将永续盘存法应用于中国早期资本存量的测算, 后者估算了中国无形资本存量. ...

中国省际物质资本存量估算: 1952-2000

2004

中国劳动报酬份额变化的动态一般均衡分析

2022

... 数据来源: 基尼系数估算值为作者根据国家统计局公布的收入分组数据测算, 劳动报酬份额数据来自张军等(2022). ...

... 另外, 劳动报酬份额也是反映收入差距的重要指标. 根据张军等(2022)的测算, 不论是基于《中国统计年鉴》数据(口径1)还是中国投入产出表数据(口径2)算出的2013–2017年的劳动报酬份额均以2015年为转折点先上升后下降, 这与图中所呈现的收入差距变化情况恰好吻合. ...

中国劳动报酬份额变化的动态一般均衡分析

2022

... 数据来源: 基尼系数估算值为作者根据国家统计局公布的收入分组数据测算, 劳动报酬份额数据来自张军等(2022). ...

城镇居民收入分布函数的研究

2013

城镇居民收入分布函数的研究

2013

中国省际无形资本存量估算: 2000-2016年

2020

中国省际无形资本存量估算: 2000-2016年

2020

Top Indian Incomes, 1922-2000

2005

Estimating trends in US income Inequality Using the Current Population Survey: The Importance of Controlling for Censoring

2011

A New Model of Personal Income Distribution: Specification and Estimation

1977

... 幸运的是, 早在1970年代, 经济学界就提出了基于分组数据还原个体观察值的方法(如Gastwirth (1972), Kakwani and Podder (1973)), 而且我国国家和部分省市统计局在其统计年鉴上常常公布收入分组数据. Shorrocks and Wan (2009)在前人研究的基础上提出了迭代法, 使得还原的数据更为准确. 但是, 现有的方法均未考虑数据截断的问题. 此外, 将分组数据还原为个体观察值都需要假设具体的统计分布函数. 为此, Shorrocks and Wan (2009)进行了有限的蒙特卡罗实验, 试图评估不同假设的可靠性. 然而, 他们只考虑了三种不同的分布函数, 忽略了其他可能更为可靠的、用以刻画收入分布的函数(如Singh and Maddala (1976), Dagum (1977), McDonald and Xu (1995)). ...

... 早在20世纪70年代, 基于分组数据测算收入分配指标的研究就开始大量出现(如Gastwirth (1972), Kakwani and Podder (1973), Kakwani (1976)), 相关收入分布函数的设定也随之得到关注(Singh and Maddala (1976), Dagum (1977), McDonald and Xu (1995)). 这些较早的研究大多在参数拟合之后直接生成模拟样本, 而不对还原数据进行调整. Shorrocks and Wan (2009)提出了迭代法, 即根据各组的均值对模拟样本进行迭代法调整, 降低了还原数据与真实数据之间的偏差. ...

... ⁵关于Lognormal分布函数参见Smith and Merceret (2000); 关于Gamma分布函数见Salem and Mount (1974); 关于Weibull分布函数见Menon (1963); 关于SM分布函数见Singh and Maddala (1976); Beta2分布函数见Slottje (1984); 关于Dagum分布函数见Dagum (1977); 关于GB2分布函数见McDonald (1984); 关于Pareto分布函数的相关信息可参考Krishnaji (1970). ...

Measuring Poverty in a Growing World (or Measuring Growth in a Poor World)

2005

The Estimation of the Lorenz Curve and Gini Index

1972

Shrinking Share of Middle-income Group in Germany and the US

2016

$ \sim $

125% (Pressman (2010), 刘志国和马健(2016), 龙莹(2015))或67%

$ \sim $

200% (Grabka et al. (2016)). 本文选择75%

$ \sim $

125%作为中等收入的标准, 由此测算中等收入群体占比的另一指标(Mid2). ...

Inference for Income Distributions Using Grouped Data

2012

... 以上各式中,

$ N $

代表实际观察到的样本体积,

$ (x_1, \cdots, x_i, \cdots, x_N) $

为实际观察到的个体收入. 基于不同的分布函数, 可以通过矩估计或极大似然估计法得到参数

$ \theta $

, 而后获得没有截断的无条件分布. 根据Hajargasht et al. (2012)的研究, 广义矩估计方法(GMM)比最大似然估计法(MLE)更加适用于分组数据的参数估计. 据此, 本文的分布参数估计全部采用了广义矩估计方法. ...

On the Estimation of Income Inequality Measures from Grouped Observations

1976

On the Estimation of Lorenz Curves from Grouped Observations

1973

A Decomposition Analysis of Regional Poverty in Russia

2005

... 其中

$ \sigma $

为标准正态分布函数(Kolenikov and Shorrocks (2005)). 接着求这

$ m-1 $

个标准差估计值的平均值, 并用以产生个体收入观察值. ...

An Econometric Method of Correcting for Unit Nonresponse Bias in Surveys

2007

Survey Nonresponse and the Distribution of Income

2006

Characterization of the Pareto Distribution Through a Model of Underreported Incomes

1970

Some Generalized Functions for the Size Distribution of Income

1984

A Generalization of the Beta Distribution with Applications

1995

Estimation of the Shape and Scale Parameters of the Weibull Distribution

1963

Income Inequality in France, 1901-1998

2003

The Middle Class Throughout the World in the Mid-2000s

2010

$ \sim $

125% (Pressman (2010), 刘志国和马健(2016), 龙莹(2015))或67%

$ \sim $

200% (Grabka et al. (2016)). 本文选择75%

$ \sim $

125%作为中等收入的标准, 由此测算中等收入群体占比的另一指标(Mid2). ...

A Convenient Descriptive Model of Income Distribution: The Gamma Density

1974

... 收入不均等、贫困和中等收入群体占比等指标广受决策界、社会、学术界, 乃至媒体的关注, 也是众多经济社会变量(如增长、消费、投资、教育、健康和犯罪等等)的重要决定因素之一, 但鲜有文献将其纳入到实证模型里, 原因往往在于相关指标或数据的缺失.此外, 家户调查数据顶端和底端的观察值也常常缺失, 给实证估算带来偏差.本文基于2018年的中国家庭追踪调查(CFPS)数据, 评估了由Shorrocks and Wan (2009)提出的基于分组数据“还原”个体观察值, 进而估算不均等和贫困等指标的方法, 并引入条件分布对Shorrocks and Wan (2009)的方法进行拓展, 以便考虑收入分布顶端和底端的数据缺失问题.结果显示, 假设变量服从Dagum分布, 而非Shorrocks and Wan (2009)所使用的对数正态分布, 可以使“还原”偏差保持在可接受的范围内.此外, 本文对Shorrocks and Wan (2009)的方法的拓展, 能够明显降低数据截断所导致的“还原”偏差, 而且在该方法下Dagum分布依然占优.本文的发现表明, 后续研究可在Dagum分布的假设下, 对各省统计年鉴中提供的收入分组数据进行“还原”, 然后测算各省的收入不均等、贫困和中等收入群体占比等等指标, 并据此展开经济学分析, 至少应该将相关指标纳入到实证研究中, 以减少相关指标和模型估算偏误. ...

... 提出的基于分组数据“还原”个体观察值, 进而估算不均等和贫困等指标的方法, 并引入条件分布对Shorrocks and Wan (2009)的方法进行拓展, 以便考虑收入分布顶端和底端的数据缺失问题.结果显示, 假设变量服从Dagum分布, 而非Shorrocks and Wan (2009)所使用的对数正态分布, 可以使“还原”偏差保持在可接受的范围内.此外, 本文对Shorrocks and Wan (2009)的方法的拓展, 能够明显降低数据截断所导致的“还原”偏差, 而且在该方法下Dagum分布依然占优.本文的发现表明, 后续研究可在Dagum分布的假设下, 对各省统计年鉴中提供的收入分组数据进行“还原”, 然后测算各省的收入不均等、贫困和中等收入群体占比等等指标, 并据此展开经济学分析, 至少应该将相关指标纳入到实证研究中, 以减少相关指标和模型估算偏误. ...

... 的方法进行拓展, 以便考虑收入分布顶端和底端的数据缺失问题.结果显示, 假设变量服从Dagum分布, 而非Shorrocks and Wan (2009)所使用的对数正态分布, 可以使“还原”偏差保持在可接受的范围内.此外, 本文对Shorrocks and Wan (2009)的方法的拓展, 能够明显降低数据截断所导致的“还原”偏差, 而且在该方法下Dagum分布依然占优.本文的发现表明, 后续研究可在Dagum分布的假设下, 对各省统计年鉴中提供的收入分组数据进行“还原”, 然后测算各省的收入不均等、贫困和中等收入群体占比等等指标, 并据此展开经济学分析, 至少应该将相关指标纳入到实证研究中, 以减少相关指标和模型估算偏误. ...

... 所使用的对数正态分布, 可以使“还原”偏差保持在可接受的范围内.此外, 本文对Shorrocks and Wan (2009)的方法的拓展, 能够明显降低数据截断所导致的“还原”偏差, 而且在该方法下Dagum分布依然占优.本文的发现表明, 后续研究可在Dagum分布的假设下, 对各省统计年鉴中提供的收入分组数据进行“还原”, 然后测算各省的收入不均等、贫困和中等收入群体占比等等指标, 并据此展开经济学分析, 至少应该将相关指标纳入到实证研究中, 以减少相关指标和模型估算偏误. ...

... Indicators such as income inequality, poverty and the share of middleincome groups are widely concerned by policy makers, society, academia and even the media, and are also important determinants of many economic and social factors (e.g. growth, consumption, investment, education, health, crime, etc.). However, rarely literature included them in empirical models, mainly due to data deficiency. Furthermore, observations at the top and bottom of household survey data are often missing, causing bias in the empirical estimates. Using data from 2018 China Family Panel Studies (CFPS), this paper evaluates the method proposed by Shorrocks and Wan (2009) for "ungrouping" individual observations based on grouped data to estimate indicators of inequality and poverty, then introduces conditional distributions to this method considering the missing data at the top and bottom of the income distribution. The results show that "ungrouping" bias will keep within an acceptable range if assume variables follow Dagum distribution, rather than the lognormal distribution used by Shorrocks and Wan (2009). In addition, this improvement to Shorrocks and Wan's (2009) method significantly reduces the "ungrouping" bias caused by data truncation, and the Dagum distribution still prevails under this method. It is suggested that subsequent research can "ungrouping" the income grouped data from provincial statistical yearbooks under the assumption of the Dagum distribution, and then measure the indicators of income inequality, poverty and middle-income share, etc. before conducting economic analyses. At least relevant indicators should be considered in the empirical study in order to reduce the bias of the relevant models. ...

... for "ungrouping" individual observations based on grouped data to estimate indicators of inequality and poverty, then introduces conditional distributions to this method considering the missing data at the top and bottom of the income distribution. The results show that "ungrouping" bias will keep within an acceptable range if assume variables follow Dagum distribution, rather than the lognormal distribution used by Shorrocks and Wan (2009). In addition, this improvement to Shorrocks and Wan's (2009) method significantly reduces the "ungrouping" bias caused by data truncation, and the Dagum distribution still prevails under this method. It is suggested that subsequent research can "ungrouping" the income grouped data from provincial statistical yearbooks under the assumption of the Dagum distribution, and then measure the indicators of income inequality, poverty and middle-income share, etc. before conducting economic analyses. At least relevant indicators should be considered in the empirical study in order to reduce the bias of the relevant models. ...

... . In addition, this improvement to Shorrocks and Wan's (2009) method significantly reduces the "ungrouping" bias caused by data truncation, and the Dagum distribution still prevails under this method. It is suggested that subsequent research can "ungrouping" the income grouped data from provincial statistical yearbooks under the assumption of the Dagum distribution, and then measure the indicators of income inequality, poverty and middle-income share, etc. before conducting economic analyses. At least relevant indicators should be considered in the empirical study in order to reduce the bias of the relevant models. ...

... 在前人研究的基础上提出了迭代法, 使得还原的数据更为准确. 但是, 现有的方法均未考虑数据截断的问题. 此外, 将分组数据还原为个体观察值都需要假设具体的统计分布函数. 为此, Shorrocks and Wan (2009)进行了有限的蒙特卡罗实验, 试图评估不同假设的可靠性. 然而, 他们只考虑了三种不同的分布函数, 忽略了其他可能更为可靠的、用以刻画收入分布的函数(如Singh and Maddala (1976), Dagum (1977), McDonald and Xu (1995)). ...

... 基于2018年CFPS数据进行蒙特卡罗实验, 本文旨在评估并改进Shorrocks and Wan (2009)提出的基于分组数据的还原方法. 具体而言, 本文首先在Shorrocks and Wan (2009)的基础上考虑了更多的分布函数形式, 评估比较了八种常用的收入分布函数所"还原"的数据的精确度和可靠性. 结果发现, Dagum分布在大多数情况下都有较好的表现. 本文同时评估了Shorrocks and Wan (2009)的迭代调整法的实际效果, 发现该方法在不同状况下都有助于提高"还原"数据的可靠性. 接着, 本文首次引入条件分布法来解决分组数据截断问题, 将无条件分布扩展为双边截断的条件分布来对数据进行"还原", 并评估了其效果. 结果同样表明, Dagum分布能够有效处理顶端和底端收入数据缺失问题. ...

... 提出的基于分组数据的还原方法. 具体而言, 本文首先在Shorrocks and Wan (2009)的基础上考虑了更多的分布函数形式, 评估比较了八种常用的收入分布函数所"还原"的数据的精确度和可靠性. 结果发现, Dagum分布在大多数情况下都有较好的表现. 本文同时评估了Shorrocks and Wan (2009)的迭代调整法的实际效果, 发现该方法在不同状况下都有助于提高"还原"数据的可靠性. 接着, 本文首次引入条件分布法来解决分组数据截断问题, 将无条件分布扩展为双边截断的条件分布来对数据进行"还原", 并评估了其效果. 结果同样表明, Dagum分布能够有效处理顶端和底端收入数据缺失问题. ...

... 的基础上考虑了更多的分布函数形式, 评估比较了八种常用的收入分布函数所"还原"的数据的精确度和可靠性. 结果发现, Dagum分布在大多数情况下都有较好的表现. 本文同时评估了Shorrocks and Wan (2009)的迭代调整法的实际效果, 发现该方法在不同状况下都有助于提高"还原"数据的可靠性. 接着, 本文首次引入条件分布法来解决分组数据截断问题, 将无条件分布扩展为双边截断的条件分布来对数据进行"还原", 并评估了其效果. 结果同样表明, Dagum分布能够有效处理顶端和底端收入数据缺失问题. ...

... 论文余下的内容安排如下: 第二部分梳理与分组数据处理及数据缺失问题相关的文献; 第三部分讨论分组数据"还原"问题, 并基于蒙特卡罗实验评估八种常见的收入分布函数的还原效果; 第四部分提出条件分布法, 以"还原"两端缺失的数据, 并评估各分布函数的表现; 第五部分结合使用条件分布法和Shorrocks and Wan (2009)的框架, 估算中国历年的基尼系数和中等收入群体占比指标; 第六部分为小结. ...

... Shorrocks and Wan (2009)构造了一种将分组数据"还原"为个体观察值的方法, 该方法在某一统计分布(如对数正态分布) 的假设下, 首先用分组数据估算该分布的参数(分布的期望值可以设为1), 并在此基础上产生洛伦兹曲线上的个体观测值. 然后对每组观测值进行调整, 以保证"还原"的数据的平均值与实际观察到的各组平均值相等, 同时保证整个洛伦兹曲线是平滑和单调上升的. 具体地, 将收入分组数据记为从低到高的1到

$ k $

组, 对应的洛伦兹曲线上的坐标为(

$ p_{k}^{*} $

$ L_k^* $

), 其中

$ p_k^* $

(

$ k=1, \cdots, m $

) 代表包括第

$ k $

组的累积人口比重,

$ L_k^* $

为相应的累积收入占比. 第

$ k $

组包含的观测值个数为

$ m_{k}=n(p_{k}^{*}-p_{k-1}^*) $

, 其中

$ n $

是还原的样本观测值的个数.

$ x_{ki} $

(

$ k=1, \cdots, m; i=1, \cdots, m_k $

)代表组

$ k $

中个体收入观测值. 组

$ k $

的平均收入可以表达为: ...

... 首先, 从CFPS原始样本中随机抽取样本体积为

$ N $

的收入观测值, 并将观察值从低到高分为

$ M $

组(每组观察值个数相等), 计算每一组的收入和人口占比, 这就得到了分组数据. 其次, 分别利用表 1的8种分布对分组数据进行拟合, 得到相应的参数估计值, 最后, 生成包含

$ N $

个收入观测值的模拟或还原样本. 在本文的部分实验中, 还将结合使用Shorrocks and Wan (2009)的迭代法(见上文). ...

... 参考Shorrocks and Wan (2009)的做法, 本文采用数值和指标比较两种方法对"还原"效果进行评估. ...

... 表 3展示了不同情况下收入份额的平均绝对偏差之和. 可以看到, 如果数据存在截断, 但在拟合时不予考虑, 将会造成相当大的偏差. 且截断比例越大, 这一偏差越大. 如果考虑到截断问题, 使用条件分布进行拟合, 还原结果在多数情况下都有明显改善. 在此基础上再应用Shorrocks and Wan (2009)的迭代法, 偏差将进一步降低. 以截断比例为1%的五等份分组数据为例, 不考虑截断时, 收入份额的平均绝对偏差之和为15.35个百分点, 考虑截断后偏差降低到8.46个百分点, 使用迭代法进行调整后偏差进一步降为8.37个百分点. 除了偏差较小之外, 引入条件分布的还原方法还有一个明显的优点——随着截断比例的变化, 偏差的幅度能够保持相对稳定, 而不会出现因截断比例的增加导致偏差大幅升高的情况. ...

... 不均等、贫困和中等收入群体占比等收入分配指标, 不但自身非常重要, 而且是影响众多经济关系的关键变量之一, 但相关数据的缺失不仅阻碍了收入分配领域的研究进展, 还使得实证研究无法将其纳入相关研究框架. 幸运的是, 不少国家和地区公布收入分组数据, 为通过使用Shorrocks and Wan (2009)的方法还原数据, 然后估算这些指标提供了可能. ...

... 但是, Shorrocks and Wan (2009)的方法依赖于预设的统计分布函数, 而且没有考虑数据缺失问题. 基于CFPS2018数据进行蒙特卡罗实验, 本文首先评估了常用分布函数的表现, 结果发现Dagum分布的表现相对较优. 此外, 本文还发现, Shorrocks and Wan (2009)提出的迭代法可以改善还原数据的可靠性. 接着, 本文引入条件分布以填补数据缺失. 蒙特卡罗实验结果显示, 使用条件分布可以在相当程度上解决数据截断问题, 而且Dagum分布的表现最佳. 最后, 本文基于国家统计局公布的收入分组数据估算了中国的基尼系数和中等收入群体占比指标, 并据此进行了简单的分析讨论. ...

... 的方法依赖于预设的统计分布函数, 而且没有考虑数据缺失问题. 基于CFPS2018数据进行蒙特卡罗实验, 本文首先评估了常用分布函数的表现, 结果发现Dagum分布的表现相对较优. 此外, 本文还发现, Shorrocks and Wan (2009)提出的迭代法可以改善还原数据的可靠性. 接着, 本文引入条件分布以填补数据缺失. 蒙特卡罗实验结果显示, 使用条件分布可以在相当程度上解决数据截断问题, 而且Dagum分布的表现最佳. 最后, 本文基于国家统计局公布的收入分组数据估算了中国的基尼系数和中等收入群体占比指标, 并据此进行了简单的分析讨论. ...

A Function for Size Distribution of Incomes

1976

A Measure of Income Inequality in the U.S. for the Years 1952-1980 Based on the Beta Distribution of the Second Kind

1984

The Lognormal Distribution

2000

Understanding Regional Poverty and Inequality Trends in China: Methodological Issues and Empirical Findings

2007

... 图 6展示了采用Dagum分布还原全国居民收入分组数据计算出的基尼系数, 可以看出考虑截断的基尼系数估算值比不考虑截断的估计值要高, 但二者趋势相似. 图中居民收入基尼系数的变化可以划分为三阶段, 其中2013–2015年基尼系数明显下降, 2015–2018年开始提升, 之后又呈缓慢下降趋势. 这与城乡收入倍差的降幅在趋势上基本一致. 城乡收入差距是总体收入差距的重要组成部分(Wan (2007)), 2013年至今城乡收入倍差连年下降, 较高降幅与收入差距缩小的对应在一定程度上体现了基尼系数测算结果的可靠性. ...

〈

〉