1、第四章 非确定型建模方法,从数学的角度看,地理现象可分为两大类,即确定现象和非确定现象。 确定现象是指事先可以预言的现象,即在准确地重复某些条件下,结果总是肯定的。如,水被加热到100便会沸腾。 非确定现象,又包括随机现象和模糊现象,二者的共同特点是不确定性。,随机现象是指事件的结果不确定,即在相同条件下重复进行试验,每次结果未必相同,或知道事物过去的状况,但未来的发展却不能完全肯定。研究这类现象的数学工具是概率论与数理统计。 模糊现象是指事物本身的含义不确定的现象。如,资源“丰富”与“贫乏”,天气“好”与“坏”等。研究这类现象的数学工具是模糊数学。 本章主要针对非确定现象,结合有关实例,探讨
2、运用统计学和模糊数学等知识建立地理模型的有关方法。,本章内容:,经典统计建模方法 空间统计建模方法 地统计建模方法 模糊数学建模方法,4.1 经典统计建模方法 建立在概率论与数理统计基础上; 适用于对各种随机现象、随机过程和随机事件的处理; 由于所有的地理现象、地理过程和地理事件都具有一定的随机性,故统计分析方法是现代地理学中最基本和不可缺少的一类数学方法。,统计检验法 相关分析法 回归分析法 时间序列分析法 系统聚类分析法 主成分分析法 马尔可夫预测法 趋势面分析法,统计检验法,参数估计与检验 应用实例,参数估计,参数估计的一般问题 一个总体参数的区间估计 两个总体参数的区间估计 样本容量的
3、确定,参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断我们所关心的总体特征。,统计推断的过程,即:参数估计,统计分布,参数估计的一般问题,一、估计量与估计值 二、点估计与区间估计 三、评价估计量的标准,估计量:用于估计总体参数的随机变量。 如样本均值,样本比率、样本方差等 例如: 样本均值就是总体均值的一个估计量。 参数用 表示,估计量用 表示 估计值:估计参数时计算出来的统计量的具体值。 如果样本均值x =80,则80就是的估计值。,一、估计量与估计值,参数估计的方法: 点估计(point estimate) 区间估计(interval estimate)
4、,二、(1)点估计,1、用样本的估计量直接作为总体参数的估计值。例如, 用样本均值直接作为总体均值的估计。 抽查了几块地的有机质含量得其平均含量为2.3%,由此推断该地区土壤有机质含量为2.3%。 2、由于没有给出估计的概率保证程度,故,少用。,点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围 区间估计。,二、(2)区间估计,含义:在点估计的基础上,估计总体参数的区间范围,并给出区间估计成立的概率值。其中: 1-(01)称为置信度或置信水平,即置信概率。它表明将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。 1、2分别为参数的1-下
5、置信限和上置信限。 1, 2 称为舍弃域,如图。 是区间估计的显著性水平; 常用的置信水平值有 99%, 95%, 90% 相应的为0.01,0.05,0.10,1-,/2,/2,0,1,2,置信区间,舍弃域,舍弃域,置信区间,我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解? 错误的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。 正确的理解:如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包括真值。 真值只有一个,一个特定的区间“总是包含”或“绝对不包
6、含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。如果还是不好理解,那最好这样回答有关区间估计的结果:该班同学平均成绩的置信区间是60-80分,置信度为95%。,置信区间与置信水平,区间估计的图示,三、评价估计量的标准,无偏性:估计量抽样分布的数学期望等于被估计的总体参数。 ,称 为的无偏估计量。,偏差,总体,样本,有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效,1(样本1)的方差小于2(样本2)的方差,一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数,一个总体参数的区间估计,一、总体均值的区间估计 二、总体比率的区间
7、估计 三、总体方差的区间估计,一、总体均值的区间估计,1、假设条件: 总体服从正态分布,且 已知; 如果不是正态分布,可由正态分布来近似(大样本,n30)。,当置信度为1-,则的置信区间为:式中 为标准正态分布的右侧临界值(可查表得到)。 通常称 为抽样标准误差(简称抽样误差),称 为误差范围或误差极限()。,例题1: 根据以往的资料,土壤中磷的含量服从正态分布。现对某地土壤进行采样调查,测得9个土壤样品中磷的平均含量为364.3ppm,已知该地土壤中磷含量的总体标准差为99.8ppm,试估计该地区土壤中磷平均含量的95%和99%置信区间。,解:本例题中 =364.3, =99.8, =1.9
8、6, =2.58。 1-=0.95时,的置信区间为 (364.3-1.9699.8/91/2,364.3+1.9699.8/91/2) =(299.1,429.5)。 1-=0.99时,的置信区间为 (364.3-2.5899.8/91/2,364.3+2.5899.8/91/2) =(278.5,450.1)。,即该地区土壤中磷平均含量的95%置信区间为299.1429.5ppm;99%置信区间为278.5450.1ppm。在报告结束时,可将点估计和区间估计同时写出,如本例95%和99%的置信可分别写成364.3(299.1,429.5)ppm、364.3(278.5,450.1)ppm。,
9、在实际应用中,我们可以利用Excel得到总体方差已知的总体均值的置信区间。 方法1:应用Excel的统计函数中的“NORMSINV”(临界值函数)、“AVERAGE”函数分别计算Z/2和 ,然后按前式求出置信区间。注意:利用统计函数NORMSINV(probability)计算临界值时,参数应设为probability=1-/2。 方法2:应用Excel的统计函数中的“AVERAGE”函数和“CONFIDENCE”(信度)函数分别计算和 ,然后按前式求出置信区间。,2、正态总体,且总体方差未知、样本容量较小(n30)时, 置信度1-,则的置信区间为(应用t分布进行区间估计):式中, 为t分布的
10、右侧临界值。 通常称 为抽样标准误差,称 为误差范围。,注意:(1)当总体为正态分布且方差未知,但样本容量很大时(n30),t分布与标准正态分布非常接近,可直接从标准正态分布表查临界值,即用代替 进行简便计算。总体均值的置信区间为:,例题2 对某地土壤酸碱度PH值进行测定,以决定种植作物的种类。共抽取7个地块,其PH值分别为5.4、5.8、6.0、6.2、4.9、5.5、6.3。要求以0.99的概率估计该地区土壤PH值对水稻的适应性。,解:n=730,属于小样本。土壤PH值应为正态分布,因而具有应用小样本估计的条件。,查t分布表,当=1-0.99=0.01,f=7-1=6时,t=3.707,
11、所以,PH值的置信区间为:专业知识告诉我们,水稻生长适宜的土壤PH值为5.06.5之间,由此可以断定从土壤PH值看该地区是适宜种植水稻的。,注意:(2)当总体不是正态分布但样本容量n足够大时,其总体均值的置信区间为:,方差已知,方差未知,在实际应用中,我们可以利用Excel得到总体方差未知的总体均值的置信区间。 方法1:应用Excel的统计函数中的“TINV”(临界值)、“AVERAGE”和“STDVE”(样本标准差)函数分别计算t/2(n-1)、 和S的值,然后按前式求出置信区间。注意:利用统计函数TINV(probability,deg-freedom)计算临界值时,参数应设为probab
12、ility=, deg-freedom=n-1。 方法2:应用Excel的分析工具库中的“描述统计”工具和前式得到置信区间。,注意:“描述统计”结果中的“平均”是指“平均数 ”,“置信度”是指“误差范围 ”,“标准误差”是指“抽样标准误差 ”。,二、总体比例的区间估计,当样本容量n很大(一般要求np5,n(1-p)5)时,总体比例在1-置信水平下的置信区间为:,三、总体方差的区间估计,1.估计一个总体的方差或标准差 2.假设总体服从正态分布 总体方差 2 的点估计量为s2,且,4. 总体方差在1- 置信水平下的置信区间为,式中, 和 分别为 分布的左临界和右临界值。,总体方差的区间估计 (图示
13、), 2, 21- , 2 ,总体方差 1- 的置信区间,自由度为n-1的2分布,f(x), , ,两个总体参数的区间估计,一、两个总体均值之差的区间估计 二、两个总体比例之差的区间估计 三、两个总体方差比的区间估计,两个总体参数的区间估计,一、两个总体均值之差的估计 (大样本),1. 1, 2已知时,两个总体均值之差1-2在1- 置信水平下的置信区间为,1、 2未知时,两个总体均值之差1-2在1- 置信水平下的置信区间为,两个总体均值之差的估计 (小样本: 12= 22 ),1.假定条件 两个总体都服从正态分布 两个总体方差未知但相等:1=2 两个独立的小样本(n130和n230) 2.总体
14、方差的合并估计量,3. 两个总体均值之差1-2在1- 置信水平下的置信区间为:,解 由题设,两个正态总体的方差相等,但 未知, m=10,n=10, =0.05, =0.95, =600, = 570, , , ,查表得 , 因此 , 的置信度为0.95的置信区间为,两个总体均值之差的估计 (小样本: 1222 ),两个总体均值之差1-2在1- 置信水平下的置信区间为,1.假定条件 两个总体服从二项分布 可以用正态分布来近似 两个样本是独立的 2.两个总体比例之差1- 2在1- 置信水平下的置信区间为,二、两个总体比例之差的区间估计,三、两个总体方差比的区间估计,1. 比较两个总体的方差比 2
15、. 用两个样本的方差比来判断 如果S12/ S22接近于1,说明两个总体方差很接近 如果S12/ S22远离1,说明两个总体方差之间存在差异 总体方差比在1-置信水平下的置信区间为,两个总体方差比的区间估计 (图示),在进行参数估计之前,首先应该确定一个适当的样本容量,也就是应该抽取一个多大的样本来估计总体参数。在进行估计时,总是希望提高估计的可靠程度。但在一定的样本容量下,要提高估计的可靠程度(置信水平),就应扩大置信区间,而过宽的置信区间在实际估计中往往是没有意义的。比如,我们要说某一天会下雨,置信区间并不宽,但可靠性相对较低。如果说第三季度会下一场雨,尽管很可靠,但准确性又太差,也就是置
16、信区间太宽了,这样的估计也是没有意义的。,样本容量的确定,如果想要缩小置信区间,又不降低置信程度,就需要增加样本容量,但样本容量的增加也会受到许多限制。比如,会增加调查的费用和工作量。因此,如何制定一个适当的样本容量,也是抽样估计中需要考虑的一个问题。,估计总体均值时样本容量的确定 估计总体比例时样本容量的确定 估计总体均值之差时样本容量的确定 估计总体比率之差时样本容量的确定,1、估计总体均值时样本容量n为2、样本容量n与总体方差 2、希望达到的边际误差E、可靠性系数Z或t之间的关系为: 与总体方差成正比 与允许误差成反比 与可靠性系数成正比,一、估计总体均值时样本容量的确定,其中:,例题4
17、:拥有理学学士学位的大学毕业生年薪的标准差大约为2000元,假定要想估计95%的置信区间,希望边际误差为400元,应取多大的样本容量?,解: 已知=2000,E=400,Z/2=1.96, 根据前式,得:即,应抽取97人作为样本。,1、根据比例区间估计公式可得样本容量n为,二、估计总体比例时样本容量的确定,2、 E的取值一般小于0.1 3、 未知时,可取其最大值0.5,其中:,例题5:根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?,解: 已知: =90%,E=5%,Z/2=1.96。 根据前式,得:即,应抽取139个产品作为样本。,三、估计两个总体均值之差时样本容量的确定,设n1和n2为来自两个总体的样本,并假定n1=n2 根据均值之差的区间估计公式可得两个样本的容量n为,其中:,例题6:要估计两个群落的种群平均数量差值的置信区间。要求置信水平为95%,预先估计两个群落的方差分别是:群落1为90,群落2为120。如果要求估计的误差范围(边际误差)不超过5种,在两个群落中应分别抽取多少个种群进行调查?,解: 已知:解得:,设n1和n2为来自两个总体的样本,并假定n1=n2 根据比例之差的区间估计公式可得两个样本的容量n为,四、估计两个总体比例之差时样本容量的确定,其中:,The end,