1、庖丁巧解牛知识巧学一、样本方差与样本标准差1.极差(全距)是数据组的最大值与最小值的差.它反映了一组数据的变化的最大幅度,它对一组数据中的极端值非常敏感.2.方差是各数据与平均数的差 xi- (i=1,2,n)平方的平均数.它反映了一组数据围绕平均数波动的大小.一般地,设样本数据分别是 x1,x 2,x 3,x n,样本的平均数为 ,则方差 s2=x.nxxn221 )()()( 3.标准差是各个样本数据到平均数的一种平均距离.一般用 s 表示.标准差 s= .xxxn221 )()()(深化升华 标准差越小,表明各个样本数据在样本平均数的周围越集中;反之,标准差越大,表明各个样本数据在样本平
2、均数的两边越分散.在实际应用中,标准差常被理解为稳定性.例如,在比较两人的成绩时,标准差小就意味着成绩稳定;在描述产品的质量时,标准差越小,说明产品的质量越稳定.二、计算标准差的计算步骤(1)算出样本数据的平均数;(2)算出每个样本数据与样本平均数的差 xi-x(i=1,2,n) ;(3)算出(x i- )2(i=1 ,2,n) ;x(4)算出(x i-x)2(i=1 ,2,n)这 n 个数的平均数,即为样本方差s2= ;x21 )()()( (5)算出方差的算术平方根,即为样本标准差 s= .nxxxn2221 )()()( 说明:标准差的大小受样本中每个数据的影响,如数据之间变化大,求得的
3、标准差也大,反之则小.标准差、方差都较好地反映了一组数据的离散程度,标准差、方差越大,数据的离散程度越大,反之,标准差、方差越小,数据的离散程度越小.在计算标准差时,在各数据上加上或减去一个常数,其数值不变.当每个数据乘以或除以一个常数 a,则所得的标准差是原来标准差的 a 倍或 1/a.标准差的大小不会超过极差,其取值范围是0,+) ,若一组数据的值大小相等,没有波动变化,则标准差为 0.若对数据处理时的计算量较大,要借助科学计算器或计算机,一般科学计算器上都设有计算平均数、方差、标准差的按键,使用时要看说明书(不同的计算机,参数可能不同)进入统计状态就可以求值了.因为方差与原始数据的单位不
4、一致,且平方后可能夸大了偏差的程度,所以虽然标准差、方差都较好地反映了一组数据的离散程度,但在解决实际问题时标准差应用广泛.联想发散 (1)若给定一组数据 x1,x 2,x n,方差为 s2,则 ax1+b,ax 2+b,ax n+b 的方差为a2s2;特别地,当 a=1 时,则有 x1+b,x 2+b,x n+b 的方差为 s2,这说明将一组数据的每一个数据都减去相同的一个常数,其方差是不变的,即不影响这组数据的波动性;(2)方差的另一表示形式:s 2= (x12+x22+xn2- ).三、对总体平均数、标准差的估计如何获得总体的平均数与标准差呢?通常的做法是用样本的平均数与标准差去估计总体
5、的平均数与标准差.这与前面用样本的频率分布来近似地代替总体分布是类似的.只要样本的代表性好,只要样本的代表性强就可以用来对总体作出客观的判断.如要考察一批灯泡的质量,我们可以从中随机抽取一部分作为样本;要分析一批钢筋的强度,可以随机抽取一定数目作为样本.误区警示 需要注意的是,同一个总体,抽取的样本可以是不同的.如一个总体包含 6个个体,现在要从中抽出 3 个作为样本,所有可能的样本会有 20 种不同的结果,若总体与样本容量较大,可能性就更多,而只要其中的个体是不完全相同的,这些相应的样本频率分布与平均数、标准差都会有差异.这就会影响到我们对总体情况的估计.典题热题知识点一 方差与标准差的计算
6、例 1 求下列各组数据的方差与标准差(结果保留到小数点后一位):(1)1,2,3,4,5,6,7,8,9;(2)11,12,13,14,15,16,17,18,19;(3)10,20,30,40,50,60,70,80,90.并分析由这些结果可得出什么一般的结论?思路分析:通过三组数据的特点总结出一般规律,利用方差、标准差求解.解:(1) =5,9321xs2= (1-5) 2+(2-5)2+(9-5)2=6.7,9s= =2.6.7.6(2) = =15.x9131s2= (11-15) 2+(12-15) 2+(19-15) 2=6.7,9s= =2.6.7.6(3) =50.90301x
7、s2= (10-50) 2+(20-50)2+(90-50)2=666.7,9s= =25.8.7.6巧妙变式 一组数据加上相同的数后,方差、标准差不变,都乘以相同的倍数 n 后,方差变为原来的 n2 倍,标准差变为原来的 n 倍.即一组数据 x1,x2,xn,方差为 s2,标准差为s,则 x1+a,x2+a, ,xn+a 方差为 s2,标准差为 s;nx 1,nx2,nxn 方差为 n2s2,标准差为 ns.知识点二 利用方差、标准差对样本进行分析例 2 对自行车运动员甲乙在相同条件下进行了 6 次测试,测得他们的最大速度(m/s)的数据如下表:甲 27 38 30 37 35 31乙 33
8、 29 38 34 28 36试判断选谁参加某项重大比赛更合适.思路分析:可以从平均成绩及方差、标准差方面来考察样本数据的水平及稳定性.解:他们的平均速度为:= (27+38+31)=33.甲x61= (33+29+36)=33.乙他们的平均速度相同,再看他们的方差:s 甲 2= (-6) 2+52+(-3 ) 2+42+22+(-2)2= .61347s 乙 2= (-4) 2+52+12+(-5)2+32= .则 s 甲 2s 乙 2,即 s 甲 s 乙 .故乙的成绩比甲稳定.所以选乙参加比赛更合适.标准差、方差是反映数据波动程度的量,它们取值的大小,说明数据的离散程度.即样本数据对于平均
9、数的平均波动幅度.例 3 甲、乙两人数学成绩的茎叶图如图 2-3-1:图 2-3-1(1)求出这两名同学的数学成绩的平均数、标准差;(2)比较两名同学的成绩,谈谈你的看法.思路分析:首先由茎叶图读出数据,再利用科学计算器求出平均数、标准差,依据结果进行比较,并与茎叶图比较统计作用.解:(1)用科学计算器得 =87,s 甲 =12.7, =95,s 乙 =9.7.甲x乙x(2)由 =87 =95,且 s 甲 =12.7s 乙 =9.7,故甲的数学学习状况不如乙的数学学习甲x乙状况.“从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是 99;甲同学的得分情况除一个特殊得分外,也大致对称
10、,中位数是 86.因此乙同学发挥比较稳定,总体得分情况比甲同学好.误区警示 通过以上实例分析,可以看出反映样本数据的基本特征量众数、中位数、平均数、标准差是从不同的方面或角度来“看待”样本数据的,对于不同的样本它们各有优、缺点.在实际问题中平均值使用频率较高,但它受极端值的影响较明显,故容易掩盖实际情况,此时常常用标准差来进一步刻画样本数据的离散程度,以便更准确地反映样本数据的真实情况,在实际生活中,也往往利用这个道理来比较水平的高低、质量好坏等.由于平均数和标准差更容易刻画样本数据的数字特征,所以对求解样本数据的平均数、标准差的运算必须熟练,必要时可使用计算器.例 4 甲、乙两工人同时加工一
11、种圆柱零件,在他们所加工的零件中各抽取 10 个进行直径检测,测得数据如下(单位:mm):甲:19.9,19.7,19.8,20.0,19.9,20.2,20.1,20.3,20.2,20.1;乙:20.0,20.2,19.8,19.9,19.7,20.2,20.1,19.7,20.2,20.4.(1)分别计算上面两个样本的平均数和方差;(2)若零件规定直径为 20.00.5(mm) ,根据两个样本的平均数和方差,说明谁加工的零件的质量较稳定.思路分析:此题数据较大,但发现所有数据都在某个数值上下摆动,可利用 s2= .nxx)(221推导如下:一般地,如果将一组数据 x1,x2,x n 同时
12、减去一个数 a,得到 x1=x1-a,x2=x2-a, ,x n=xn-a, 所以 = (x1+x2+xn)= (x1+x2+xn+na)= +a.得公式 s2= 可使计算简便.x)(解:因为样本数据在 20.0 上下波动,故取 a=20.0,列表如下 .表 1 (甲工人)xi xi(x1-20.0)xi219.919.719.820.019.920.220.120.320.220.1-0.1-0.3-0.20-0.10.20.10.30.20.10.010.090.0400.010.040.010.090.040.01合计 0.2 0.34表 2 (乙工人)xi xi(x 1-20.0) x
13、i220.020.219.819.919.720.220.119.720.220.400.2-0.2-0.1-0.30.20.1-0.30.20.400.040.040.010.090.040.010.090.040.16合计 0.2 0.52=0.02+20.0=20.02(mm) ,甲x=0.0220.0=20.02(mm) ,乙s 甲 2=0.10.34-100.022=0.033 6(mm 2) ,s 乙 2=0.10.52-100.022=0.051 6(mm 2).s 甲 2s 乙 2,甲工人加工零件的质量比较稳定.巧解提示 比较两人加工零件的质量的稳定性,这里通过平均数比较不出来
14、,需要使用方差来比较,方差越大说明波动性较大,质量越不稳定.一般地,方差和标准差通常用来反映一组数据的波动大小,在统计中,样本的方差和标准差通常用来估计总体数据的波动大小.当数据较大且数据都在某个数值上下摆动时可考虑利用 s2= .nxx)(221计算方差可减少数据运算量.问题探究交流讨论探究 问题 估计总体的数字特征过程中,我们经常用到样本均值与样本标准差,这两个有什么差别吗?探究过程:学生甲:我认为它们两个在表达式上就不同,假设经过随机抽样得到样本为x1、x 2, ,xn,则样本均值 .xxn21样本标准差 s= = .2s xn221 )()()( 学生乙:我看出来它们还有一些不同的地方
15、,先来看下面的例子.(1)有两个学生 A 和 B,两个人两次连续考试的平均分都是 60 分,A 是 40 分和 80 分, B 是 65分和 55 分.显然 A 的成绩忽上忽下 ,而 B 的成绩较稳定.(2)有两组学生(每组 3 人),一次数学考试成绩如下(单位:分) :甲组 3 人得分分别为 60 80 100乙组 3 人得分分别为 79 80 81显然,甲组学生和乙组学生的平均分都为 80,但是这两组学生分数有很大的差异,甲组学生的成绩波动较大,相对于平均分数的差异很大,即分散程度(离中趋势) 较大,而乙组学生的成绩波动较小,相对于平均分数的差异较小,即分散程度较小.因此,我们仅用平均值来描述这一组分数的特征是不够的,还要考虑一组分数相对于平均值的差异的大小.在考试研究中,均值反应了考生团体成绩集中的位置,根据以上分析,显然还需有一个刻画考生团体成绩离散程度的量,显然在刚才举的例子(1)中, ,但BAxsA= =20,sB= =5.2)608()40(22)605()6(2在(2)中, = ,甲组学生的 s 甲 = .甲x乙 3803)1()8()0( 2乙组学生的 s 乙 = .3)1()8()079(222 探究结论:明显地发现样本平均数能反映总体的水平,而标准差对于衡量分散程度很有用.