1、第4节 地理数据的统计处理,统计整理几种常用的统计指标与参数应用实例:中国大陆省份人均GDP的变异系数,一、统计整理,统计整理的基本步骤: 统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。 计算各组数据的频数、频率,编制统计分组表。 作分布图。,例:对于黄土高原西部地区某山区县的人工造林地调查数据进行统计整理,步骤如下:,(1)以地块面积作为统计分组标志进行分组; (2)计算各组数据的频数、频率,编制成如下的统计分组表;,表2.4.1 某县人工造林地面积的统计分组数据,(3)做出频数分布的直方图 :,图2.4.1 频数分布柱状图,(4)将上图各组的频数分布从组中值位置用折线
2、连接起来,得到频数分布的曲线图:,图2.4.2 频数分布曲线图,二、几种常用的统计指标与参数,描述地理数据一般水平的指标描述地理数据分布的离散程度的指标描述地理数据分布特征的参数,(一)描述地理数据一般水平的指标,平均值 反映了地理数据一般水平。计算方法: 未分组的地理数据 分组的地理数据,(2.4.1),(2.4.2),中位数 对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。 分组的地理数据,中位数的计算方法: 确定中位数所在的组位置,按下述公式计算中位数,或,(2.4.3),(2.4.4),在式(2
3、.4.3)和 (2.4.4)中:Me代表中位数;L为中位数所在组的下限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距。,众数 众数就是出现频数最多的那个数,计算方法分为以下两种情况: 未分组的地理数据,可以根据每一个数据出现的频数大小直接确定众数。 对于已经分组的地理数据,中位数的计算步骤如下: 确定频数最多的组为众数所在组。 按以下公式计算众数,或,(2.4.5),(2.4.6),在式(2.4.5)和 (2.4.6)中:M0代表众数;L为众数所在组的下限值;U为众数所在组的上限值;1为
4、众数组频数与下一组频数之差;2为众数组频数与上一组频数之差;d为众数所在组的组距。,例1:表2.4.2给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。,应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。,表2.4.2 某农场各农田地块的面积,例2:表2.4.3给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。,表2.4.3 中国西部地区某城市2000年家庭月收入的 抽样调查结果,解题步骤: (1)用公式(2.4.2)计算平均数 (2)计算中位数。先确定中位数所在组的位置,再按照公式(2.4.3)或者(2.4.4)计算中位数
5、Me =3 588.46(元),=3 899.06(元),(3)计算众数,先确定众数所在组,再按照公式(2.4.5)或(2.4.6)计算众数。 显然,众数所在组应该在第二组。 众数M0 =3 476.19 (元)。,(二)描述地理数据分布离散程度的指标,极差 指所有数据中最大值与最小值之差,计算公式为离差 指每一个地理数据与平均值的差,计算公式为离差平方和 它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为,(2.4.9),(2.4.8),(2.4.7),方差与标准差 方差是从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为 标准差为方差的平方根,计算公式为,(2.4.10)
6、,( 2.4.11),如果以样本方差对标准差进行无偏估计,则计算公式为,(2.4.12),变异系数 变异系数表示地理数据的相对变化(波动)程度,其计算公式,(2.4.13),例如:对于表2.4.2中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。,表2.4.2 某农场各农田地块的面积,步骤 : (1)按照公式(2.4.7)计算极差 (2)按照公式(2.4.8)计算离差,结果见表2.4.4。,表2.4.4 地理数据的离差,(3)按照公式(2.4.9)计算离差平方和 (4)按照公式(2.4.10)计算方差 (5)按照公式(2.4.11)计算标准差 (6)按照公
7、式(2.4.12)计算标准差的无偏估计 (7)按照公式(2.4.13)计算变异系数,5 666.25,21.729 9,0.418 4,(三)描述地理数据分布特征的参数,偏度系数 测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为 g10,表示正偏,即均值在峰值的右边;g1=0,表示对称分布(如下图)。,(2.4.14),图2.4.3 偏度系数的三种情形,峰度系数 它测度了地理数据在均值附近的集中程度,其计算公式为标准正态分布的峰度系数 g2 =0;g20,表示地理数据分布的集中程度高于正态分布;g20,表示地理数据分布的集中程度低于正态分布(图2.4.4)。,图2.4.
8、4 标准峰度系数的三种情形,(2.4.15),三、应用实例:中国大陆省份人均GDP的变异系数,我们知道变异系数测度的是地理数据分布的相对差异。 为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把19782002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式(2.4.13)计算变异系数,结果如图2.4.5。,图2.4.5 19782002年中国大陆省份人均GDP的变异系数,从图2.4.5中可以看出,在19782002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在19781990年期间基本上呈现下降趋势,而在19902002年期间则基本上呈现上升趋势。 这说明,在19781990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而19902002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。,