张伊娜:收入不平等的阶层测度*(上)

来源: 发布时间:2013-05-15 浏览量:28

来源:上海经济研究

【内容摘要】测量方法本文了基于模型的在分类方法去突测量方法利用中国2005 1%人口北京广州四个特进行分析模型结果,发现异虽模型所得些城存在着显著模型测量方法不是事先选择分类确定群的性,现有收测量方法补充,并研究社会

【关键词】 入;层;等;模型

【中图分类号】 F162. 2            【文献标识码】A          【文章编号】1005 - 1309201305 - 0054 - 009

改革开放以来,中国在收获经济高速增长的同时,收入差距也不断扩大并愈演愈烈作为一个发展中大国,警惕收入分化的巨大负面影响,已然成为政府学者民众共同关注的问题因此合理有效地测度收入差距,尤其是测度收入不平等的阶层分化,可以为更好地调节收入差距提供有力的技术支撑

研究背景

分析国内外文献,在收入差距的实际测度中,大体分为两类路径,一是收入总体不平等的测度,另一类是收入分布的极化测度在收入总体不平等的实际测度过程中,最常用的有变异系数基尼系数和广义熵指数( 熵指三种指标变异系数,又称离散系数,是统计学上用来度量总体分布的变异状况或离散程度的相对指标,它是一组数据的标准差与均值之比基尼系数是研究社会和经济不平等领域中使用最为广泛的指标,它为收入不平等度量提供了较为易懂的两种解释: 一是与基尼平均差一致,表征的收入不平等由个体两两之间的收入差距度量得到,符合人们度量收入不平等的直觉; 二是与洛伦茨曲线紧密联系,借助于洛伦兹曲线,基尼系数能够通过图形得到直观的理解广义熵指数是一般化的平均信息量族,而泰尔指数只是其特殊的形式( Guo2011

我们由一个简单的模拟分布开始,用yi来指定一种随机分配( 例如收入) ,包括yi数据( i= 16假设有如下的初始分布:

分布110001000, 1000, 4000, 4000, 4000

这些数值只是简单的收入分布这列分布的基尼系数为0. 3000,广义熵为0. 205,泰尔熵为0. 193,变异系数为0. 657同时,只要自然的不平等仍然保持不变,系数的值将不受样本大小的影响即,重复很多次1000 4000 会得到一个相同的基尼系数广义熵泰尔熵等,也就是0. 30000

分布210002500, 4000, 5500, 7000, 8500

基尼系数为0. 30702,广义熵为0. 180,泰尔熵为0. 162,变异系数为0. 591在分布中,每个观察值相比前一个都增加了1500,没有显示出清晰的阶层形成模式而仅仅是规模上的一个平均分布这个分布可以被视为所有的值归为一个阶层或者归属于六个独立的阶层

分布310001000, 3000, 3000, 5000, 5000

基尼系数为0. 29630,广义熵为0. 176,泰尔熵为0. 162,变异系数为0. 596在分布中,所有数值可以形成三个不同的阶层

可见,虽然上述三个分布有着几乎相同的基尼系数,分布和分布有着相同的泰尔熵等,不过,这三个分布中不平等的形式却有着很大的不同也就是说,传统的收入总体不平等测度方法研究的是样本中单个数据之间两两差距,所以真正影响的是总的个体平均差,而不是这些个体是否会合成一个阶层或是集群因此这类方法并不能把数据集群的本质还原出来,而数据的集群对于研究社会分层是非常重要的一点

两极分化也是收入不平等的一种表现形式如果说上述收入总体不平等指标,其本质上测度的是一群人收入分布的离散程度,它强调的是所有个体与总体均值的平均偏离程度,那么极化测量指标就是描述个体在局部的聚集程度上世纪七八十年代,以美国为代表的西方国家的居民收入分配出现了中产阶级萎缩现象,学者开始将这一现象与两极分化联系起来,并积极探寻两极分化的测度方法现有的收入两极分化测度方法,基本可以分为两大类,一类方法由Wolfson1994提出,以后Wang Tusi 2000Chakravarty Majumde 2001以及Rodriguez Salas2003等进行了拓展,这一类型的测度指数统称为型指数该类指数是以中位数为界限将所有成员分为高收入和低收入两组,分别测算两组中各成员的收入对中位数收入的偏差,最后将所有偏差加总型指数虽然专门用来测度两极分化,但以中位数为界限分为两组并不总是最恰当的以分布为例,型指数把前三个值归为一组,后三个值归为一组; 在分布中,由于中位数为3000,因此就将前四个值归为一组,后两个值归为一组可见,这类极化测度方法从研究阶层分化的角度来说,也并不合理

另一类方法由Esteban Ray1994提出,称为ER 型指数,是在定义认同感( identification和疏远感( alienation的基础上给出了一个测度方法认同感是组内人数的增函数,对任何组来说,同组的人数越多,他们的认同感就越强烈; 而疏远感表示由于不同组之间收入不同产生的对抗,一个组与其他组的收入差距越大,疏远感就越强烈ER 型指数后经EstebanGradRay1999)DuclosEsteban Ray2003等改进该类方法首先按照一定标准对所有成员进行分组,然后测定组与组之间的差异程度以及各个组内成员的相似程度,最后采用一定的形式构造测算指数( 洪, 2007所以,如果说型指数是专门测度两极分化的,ER 型指数还可以用来测度多极化,看似有点阶层分化的意味在里面

但是ER 型指数能准确测度两极/多级分化的前提是正确的分组,它要求我们对所研究现象进行认真细致地分析,选择最相关的分组标志以更好地体现组间的差异性和组内的同质性,或是通过某些外生变量进行分组,比如性别户籍民族不同地区等洪兴建等( 2007ER 指数EGR指数等对中国1990 ~ 2005 年城乡收入两极分化城镇及农村内部的收入两极分化沿海与内陆的收入两极分化以及行业收入两极分化作了测度,结果表明两极分化程度大多呈现上升趋势罗楚亮( 2010根据DER 指数提出中国居民收入分布具有比较严重的两极分化,城乡合并样本下的极化主要由于城镇内部基尼系数和城乡收入差距所解释可见,目前的方法依旧只能给出总体判断,没能对收入阶层的具体形式作出描述

综上所述,目前收入差距的测量方法,都对阶层不平等与阶层划分的描述缺乏敏感性因此,本文提出了基于模型的潜在分层聚类方法去突破传统测量方法的局限通过贝叶斯后验模型选择,依据组内差距最小,组间差距最大的原则,将收入进行聚类分组并使用中国2005 1%人口抽样调查数据中北京上海重庆广州四个特大城市的收入数据进行实证分析根据模型聚类的结果考察四大城市收入的阶层分布模式每个阶层的占比再借用基尼系数分解为层内和层间的成分,形成一个相对分层指数,用该指数描述收入的阶层不平等占整个收入不平等总量的比重最后提出基于分层聚类模型的收入不平等的阶层测度方法是对目前收入差距测量方法的一个很好的补充,并对研究社会分层有着更深远的意义

二、基于模型的阶层聚类分析

聚类分析可以被看作将相似个体群聚起来的一种方式,但是组的数量和形式都是未知的( Kaufman and Rousseuw 1990这一观点传达了分析社会不平等的要点,即研究者想寻找了解分组或社会阶层划分的方式,通过类似收入的属性数据,将个体进行分组,使其组内个体尽可能相似,组间差异尽可能大而不是事先人为地确定组的数量和组的划分形式

基于模型的聚类分析方就具有以下优势( Vermunt and Magidson 2002) : 聚类标准的选择使群内差别最小化,并且使群间的差别最大化,这点相比传统的聚类分析更加客观; 以模型为基础的聚类是灵活可变的,它允许观测变量以多种简单和复杂的形式分布到聚类中,而不是传统的简单机械分类; 在基于模型的聚类分析中,观测变量没有必要做缩放,而在传统的聚类分析中缩放是必不可少的

基于模型的聚类分析同样允许观测变量是连续的或者是分类变量,因为群可以被看作潜在的阶层,因此这个方法可以被视为潜在阶层的分析本文的着眼点是收入,所以在模型中只考虑连续观测变量,基本的模型聚类分析的公式为:

张伊娜1.png

这里yi代表在一系列观测变量中的一个个体值,代表群的个数,πk表示一个事件属于群( 或者群的大小) 的先验概率,θ 表示模型的参数( Vermunt and Magidson 2002张伊娜18.png是指当特定集群的混合密度θ 作为模型参数时,yi的分布情况同样的,我们可以将式( 1中的模型表现为下述的相似形式( Fraley and Raftery 2002) :

张伊娜2.png

其中,张伊娜18.png符合多元正态( 高斯) 分布张伊娜19.png,参数包括平均值μk和方差矩阵ΣkBanfield Raftery1993提出通过特征值分解来参数化特定集群的协方差矩阵Σk:

张伊娜3.png

Dk为正交矩阵的特征向量,Ak为对角矩阵,其元素与特征值成比例,λk是一个比例的相关标量更具体地说,张伊娜4.png,其中是数量指标,Ak被按比例变化使张伊娜22.png这三个参数提供了一个很好的解释: Dk描述了混合数据中的第个集群的方向,Ak是它的形态,λk是它的容量换句话说,如果一个潜在的类或集群被看作一个在多维空间中的组或点集,那么容量就是集群的大小这些参数格式的组合确定了相适应的具体统计模型例如,像收入分布这样的一维数据,只有两个模型可以估计,等方差( equal variance表示,变方差( varying variance表示估计群的数量以及群中个体的数量是基于模型的聚类分析方法最为主要的目的

三、我国部分特大城市的收入阶层不平等分析

在传统聚类分析中,数据分析者必须选择集群方法并且确定群的数量在基于模型的聚类分析中,这两个问题被归为对于模型的选择Fraley Raftery2002的研究中,采用了贝叶斯后验模型选择软件平台MCLUST 软件包的实际操作过程中,通过贝叶斯信息准则( BIC来计算Fraley and Raftery 1999, 2002

估计群的数量以及群中个体的数量是基于模型的聚类分析方法最为主要的目的同时,还能得到密度估计Roeder Wasserman1997用正态混合模型进行单变量密度估计,用贝叶斯信息准则( BIC确定分层数Fraley Raftery1999, 2002的方法可以被看作是多元扩展,通过最优模型的参数估计描述了数据的多元混合密度

Fraley Raftery1999EM 算法编写了运用模型聚类方法的MCLUST 软件包这个软件同时计算了不确定性不确定性是通过一个数值来表征,这个数值的计算是由减去每个观测值最有可能属于某个组或集群的概率不确定性的计算可以很好地说明观测值分组的好坏程度