|
此文章由 wsfqy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 wsfqy 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 小白猪猪 于 2012-2-27 16:19 发表 
算术平均值不是一个很好的衡量结果。举个例子:最极端的情况:101个人,100个人年收入5万,1个人年收入1亿,如果按算术平均来算,这101个人的平均收入是100万。。。在那个投票中,很多人选了一百万以上,导致统计出现错误(不是误差)。
还有个统计量是收入中位数,也就是50%的人在此收入以下,50%的人在此收入以上。
高斯正态分布的意思是有一个中心值,有一个sigma置信区间,在xc+/- 1 x sigma,xc +/- 2 x sigma, xc +/- 3xsigma的区间分布遵循68-95-99.7
我算了一下,如果用高斯分布拟合,中心值在65k。
谢谢您的回帖和带图说明,很好很专业。中心值也同我在一楼的贴子里给出的60k-65k相符。
这个帖子其实还有几个包袱,你提到的“算术平均值不是一个很好的衡量结果”是其中一个。本来不想那么早说的。既然你提到了,我就提前说一下。
你是对的,做为一个衡量参数,平均值常常不是一个好的选择。比如人均GDP,你不看Gini Coefficient,不看CPI,不看CPI篮子里的构成,你没办法真正知道多数老百姓的生活水平和购买力,光看人均GDP非常片面。
但是平均值依然被广泛使用,为什么?因为它是一个简单直观,而且最易于比较的一个参数。要比较2个类似的网站,比如新足迹和XXX,有时用一个数字就可以有力说明,可能就是这个收入均值。固然,我们可以往深入地分析比较,比如我们可以说在某个收入区间上的会员人数占了总会员人数的多少个percent,在另一个区间上的又是多少。但这些都不如均值来得短平快。
打个不恰当的比方,均值好比一个title,你当然可以说你的title不能体现你的真正实力(龙搁浅滩);反之,你也可以说某人名不符实,秀花枕头一个。但是,这些都无法否认title的重要性。
平均值在多大程度上是一个好的衡量指标,取决于数据是怎样分布的,skewness是多少,Kurtosis又如何,过于学术,我就不讨论了。
一言以蔽之,均值就是个标签。它有多重要?人人心中都有杆称,这些称可能如出一辙,也可能相去万里。
[ 本帖最后由 wsfqy 于 2012-3-1 17:32 编辑 ] |
|