1、2 统计 基本定义 :(1)总体:在统计中,所有考查对象的全体叫做全体.(2) 个体:在所有考查对象中的每一个考查对象都叫做个体.(3) 样本:从总体中抽取的一部分个体叫做总体的样本.(4) 样本容量:样本中个体的数目叫做样本容量. 抽样方法:(1)简单随机抽样(simple random sampling):设一个总体的个数为 N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时每个个体被抽到的概率相等,就称这样的抽样为简单的随机抽样,简单随机抽样常用的方法有抽签法和随机数表法. (关于制签和随机数表的制作,请参照课本第 41 页)(2)系统抽样(systematic sampling)
2、:将总体平均分成几个部分,然后按照一定的规则,从每一部分抽取一个个体作为样本。先用随机的方法将总体进行编号,如果就从中用随机数表法剔除几个个体,使得能整除,然后分组,一般是样本整 除不 能 被 nN容量是多少,就分几组,间隔 ,然后从第一组中用简单实际抽样的方法抽取一个个nNk体,假设编号为 ,然后就可以将编号为l的个体抽出作为样本,实际就是从每一组抽取与第一组相kl1.2,同编号的个体。(3)分层抽样(stratifed sampling):当已知总体是由有差异明显的几部分组成时,常将总体分成几部分,然后按各部分所占的比例进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫做层.样本容量越大
3、,估计越精确!颜老师友情提醒:1. 把每一种抽样的具体步骤看清楚,要求会写过程2. 个体数 N 的总体中抽取一个样本容量为 n 的样本,那么在整个抽样过程中每个个体被抽到的概率都相等,且等于 .其实三种抽样的每一个个体都是等几率的被抽到的n3. 三种抽样都是不放回的抽样4. 在具体问题中对于样本,总体,个体应该时代单位的,如考察一个班级的学生的视力状况,从中抽取 20 个同学,则个体应该是 20 名同学的视力,而不是 20 名同学,样本容量则为 20,同样的总体也是全班级同学的视力 两种抽样方法的区别与联系:类别 共同点 各自特点 相互联系 适用范围简单随机抽样 从总体中逐个抽取 总体中个体数
4、较少分层抽样将总体分成几层进行抽取各层抽样可采用简单随机抽样或系统抽样总体有差异明显的几部分组成系统抽样抽取过程中每个个体被抽取的概率相等 将总体平均分成几部分,按事先确定的规则分别在各部分抽取在起始部分抽样时采用简单随机抽样总体中的个体较多 典型例题剖析:例 1、一个总体含有 6 个个体,从中抽取一个样本容量为 2 的样本,说明为什么在整个抽样过程中每个个体被抽到的概率相等.解:设任意一个个体为 ,那么个体 被抽到分两种情况:(1)第一次被抽到:根据等可能事件概率得 P = ,16(2)第二次被抽到:即是个体 第一次没被抽到、第二次被抽到这两件事都发生.个体 第一次没被抽到的概率是 , 个体
5、 第一次没被抽第二次被抽到的概率是 .65 51根据相互独立事件同时发生的概率公式, 个体 第二次被抽到的概率是 P = =26.(也可这样分析:根据等可能事件的概率求得,一共取了两次,根据分步原理所有可能61结果为 65=30,个体 第一次没被抽到第二次被抽到这个随机事件所含的可能结果为51=5,所以个体 第二次被抽到的概率是 P = = )230561个体 在第一次被抽到与在第二次被抽到是互斥事件,根据互斥事件的概率加法公式,在先后抽取 2 个个体的过程中,个体 被抽到的概率 P= P + P = + = .1231由个体 的任意性,说明在抽样过程中每个个体被抽到的概率都相等(都等于 )点
6、评:注意区分“任一个个体 每次抽取时被抽到的概率”与“任一个个体 在整个抽样过程中个体 被抽到的概率”的区别,一般地,如果用简单随机抽样从个体数为 N 的总体中抽取一个容量为 n 的样本,那么“任一个个体 每次抽取时被抽到的概率”都相等且等于,“任一个个体 在整个抽样过程中被抽到的概率”为 .N1 Nn例 2、 (1)在 120 个零件中,一级品 24 个,二级品 36 个,三级品 60 个,从中抽取一个容量为 20 的一个样本,求 每个个体被抽到的概率, 若有简单随机抽样方法抽取时,其中个体 第 15 次被抽到的的概率, 若用分层抽抽样样方法抽取时其中一级品中的每个个体被抽到的概率.解: 因
7、为总体个数为 120,样本容量为 20,则每个个体被抽到的概率 P = =1206 因为总体个数为 120,则体 第 15 次被抽到的的概率 P =2 用分层抽样方法:按比例 = 分别在一级品、二级品、三级品中抽取 241206=4 个,36 =6 个,60 =10,所以一级品中的每个个体被抽到的概率为 P = =61616 324.注:其实用分层抽样方法抽取时二级品、三级品中每个体被抽到的概率也都为 .61点评:本题说明两种抽样方法都能保证在抽样过程中,每个个体被抽到的概率都相等.且为.Nn例 3、某地区有 3000 人参加今年的高考,现从中抽取一个样本对他们进行分析,每个考生被抽到的概率为
8、 ,求这个样本容量.10解:设样本容量为 n,则 = ,所以 n=300.310点评:“在整个抽样过程中个体 被抽到的概率”为 这一结论的逆用.Nn例 4、下列抽取样本的方式是否属于简单随机抽样?说明理由.(1) 从无限多个个体中抽取 50 个个体作样本.(2) 盒子里共有 100 个零件,从中选出 5 个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.解:(1) 不是简单随机抽样.由于被抽取样本的总体个数是无限的 .(2) 不是简单随机抽样 .由于不符合“逐个抽取”的原则,且抽出的结果可能是只有一个零件重复出现.点评:简单随机抽样的特点:(1) 它要求被抽
9、取样本的总体个数是有限的.(2) 它是从总体中逐个地进行抽取.(3) 它是一种不放回抽样.例 5、 某校有学生 1200 人,为了调查午休对学习成绩的影响情况,计划抽取一个样本容量为 60 的样本,问此样本若采用简单随机抽样将如何进行?解:可用两种方法:方法一:(抽签法)(1)编号: 将 1200 名学生进行随机编号为 1,2, ,1200, (可按学生的学号或按学生的生日进行编号).(2)制签:做 1200 个大小、形状相同的号签,分别写上这 1200 个数,放在个容器里,并进行均匀搅拌.(3)逐个抽取:连续抽取 60 个号签,号签对应的同学即为样本.方法二:(随机数表法)(1)编号: 将
10、1200 名学生进行编号分别为 0000,0001, 1199,(2)选数:在课本附表 1 随机数表中任选一个数作为开始.(如从第 11 行第 7 列的数9 开始) (3) 读数:从选定的数开始向右(或向上、向下、向左)读下去,选取介于范围的号码,直到满 60 个号码为止.(4) 抽取:抽取与读出的号码相对应的学生进行分析 .点评:抽签法和随机数表法是常见的两种简单随机抽样方法,本问题显然用随机数表法更方便一些,因为总体个数较多.另外随机数表法编号时,位数要一样,首数确定后,可向左、向右、向上、向下各个确定的方向进行抽取.例 6、某工厂中共有职工 3000 人,其中,中、青、老职工的比例为 5
11、32,从所有职工中抽取一个样本容量为 400 的样本,应采取哪种抽样方法较合理?且中、青、老年职工应分别抽取多少人?解:采用分层抽抽样样方法较为合理.由样本容量为 400,中、青、老职工的比例为532,所以应抽取中年职工为 400 =200 人, 应抽取青年职工为 400 =120 人,105103应抽取青年职工为 400 =80 人.2例 6. 见课本 例 1.43P点评:因为总体由三类差异较明显的个体构成,所以应采用分层抽抽样样方法进行抽取. 总体分布的估计.频率分布表:见课本第 51 页: 例 1 1. 注意全距,组距的确定。一般是先查出最大值,最小值,其差值取适当的量作为全距,正常情况
12、下分为十组左右, ,也就是合理分组组 数全 距组 距 2. 分组的时候一般取左闭右开区间,最后一个区间取闭区间,然后填写分组、频数、频率、合计3. 如果全距不利于分组(如不能被组数整除)就可适当的增大全距,即在左右两端增加相同的量4.分组过少,总体的特征不明显;分组过多,总体特征不利于比较.频率分布直方图:1.横轴表示数据的内容,每一线段表示一个组的组距,注意横轴要有单位2.纵轴表示的是: 3.每个小矩形的面积都是该组所对应的频率组 距频 率.频率分布折线图: 1. 由频率分布直方图直接得到,取值区间的两端点分别向外延伸半个组距并取此组距上再 x 轴上的点,然后顺次连接直方图中每一个小矩形上底
13、边的中点,形成折线图 2.当样本容量足够大,分组的组距取得足够小时,折线图取与一条平滑的曲线,称这条曲线为总体分布的密度曲线,而且曲线与横轴围成的面积为 1 3. 在总体密度曲线中,总体在区间(a,b)内取值的可能性就是直线 x=a , x=b , y=0 和总体密度曲线围成的面积 4. 累计频率分布曲线 上任意一点 的纵坐标标 b 表示的连续型总体,取小于等于 a 的值的可能性baP. 三者的特点频率分布表:数据翔实、具体、清晰明了,便于查阅频率分布直方图:形象直观,对比效果强烈频率分布折线图:能够反映变化趋势.茎叶图的特点: 优点简单易行,杂乱的数据在用茎叶图表示后能直观地反映出数据的水平
14、状况、稳定程度;所有的数据都可以在茎叶图中找到. 缺点分析只是粗略的,对差异不大的两组数据不易分析,另外,对位数较多的数据不易操作,数据较多时效果不是很好.注意点: 1. 对重复出现的数据要重复记录,不能遗漏 2. 茎要从小到大自上而下的排列,中间用一条竖线隔开 3. 叶也要按照从小到大的顺序排列,对于两组数据的可以用两条竖线把茎和叶隔开,左边的叶最好按照从大到小的顺序排列,右边的叶按照从小到大的顺序排列 4. 茎叶图一般在衡量一位或者两位运动员在比赛时的得分情况( 例题见课本 )58P 总体特征数的估计反映总体某种特征的量较总体特征数,比如平均数、中位数、方差、众数等.平均数(average
15、) 或均值(mean): niana121.其原理:最小二乘法 设与实验数据近似的值为 x 则它与这 n 个实验数据的离差为 由于上面的离差有正有负,故不易直接相加, ., ,321 naxax就考虑离差的平方和 2221. naxf nxnx 2122所以当 时,离差的平方和的函数取得最小,误差也就最iaax121.小,故而用 作为这组数据的理想近似值. n.21.平均数的求法: 题目类型有离散型和连续型两种情况 加权平均数: nixnx121.iinppx121.(其中 为 对应的频率) ,这里也是为我们今后将要学习i21,. , i2x,. ,x的数学期望作铺垫见课本 例 2 注:特别地
16、,对于连续型的随机变量在分好组后,其654P应该取每一组的组中值近似的表示i21x,. ,x.样本方差(variance): 212niixs= 22223()()()()nxx样本标准差(standard deviation): niis1说明:1. 平均数、中位数、众数是描述数据集中趋势的统计量2. 方差、标准差是反映一组数据波动大小或稳定程度或各个数据与平均数的离散程度的统计量,记住它们的表达形式,在选择题中常出现关于它们的判断3. 一个重要结论: 212xnsi4. 方差与越大,稳定性越差5. 关于它们的运算,分连续型和离散型两种情况,见课本 对于离687P散型的随机变量也要注意选择组
17、中值例题:从两块玉米地里各抽取 10 株玉米苗,分别测得它们的株高如下(单位:cm ):甲:25 41 40 37 22 14 19 39 21 42乙:27 16 44 27 44 16 40 40 16 40 根据以上数据回答下面的问题:(1)哪种玉米苗长得高?(2)哪种玉米苗长得齐?分析 :看哪种玉米苗长得高,只要比较甲乙两种玉米苗的平均高度即可;要比较哪种玉米苗长得齐,只要比较哪种玉米苗高的方差即可,方差越小,越整齐,因为方差反映的是一组数据的稳定程度解:(1) cmx 31406401627416270 23935 乙甲乙 种 玉 米 长 得 高乙甲 (2) 2222 2230413
18、091 30147450甲s2.4cm 22222 8.134314031631710 cms 乙 甲 种 玉 米 长 得 齐乙甲 x评: 1. 特别注意本题中的两问的说法的不同,所以算法就不同 2. 一般的说哪组数据齐、稳定、波动情况等都是通过方差来判断.几个重要的结论:对于一组数据 的平均数为 方差为 标准n21 x,. ,xx2s差为 s 若 都增加 ,则平均数为 方差为 标准差为 n,. 21i, xaa2s也可以这样解释:同时增加 ,也就是相当数据平移了,不会改变数据的波动程度,所a以方差和标准差都不会变.若 都递增 %,则平均数为 方差为 标n, 21i, x xa12%1sa准差
19、为 sa若 都变为原来的 倍,则平均数为 方差为 标准差为 ,.i,xax2sas例题: 已知 的方差为 2,则 的标准差为 n21 x,. ,x 32 ,. ,3n21x?解法 1:(公式推导法)xnx.232.21 xnxn 84643261 221 siiii方 差 2标 准 差解法 2:(推理法)因为数据的每一项都是先 2 倍后加上 3,而加上 3 对方差没有影响,2 倍后则方差变为原来的 4 倍,即方差标为 8 ,则标准差为 . 线性回归方程.变量之间的关系: 确定的函数关系 相关关系(有一定的关系,但不能用函数表达出来). 对于一组数据探讨它们满足的关系,可以先画出散点图,看它们的
20、大致趋势,然后选择一种函数进行数据拟合,电脑和计算器一般给出 6 种拟合函数,也就是说对于一组数据可以用各种函数模型来拟合,只不过拟合度不同而已,当拟合度 越接近于 1 则拟合2R得越好,本教材之研究线性拟合,也就是求线性回归方程. 线性回归分析:理论依据最小二乘法 见课本 72P. 设线性回归方程为 ,关键在于求abxyba, niiiiiniiininii iii xyxyxb 12121212 ya. 相关系数: 称为niniiiyxyr1212 的 样 本 相 关 系 数与 xy线 性 相 关 程 度 越 高越 接 近 于并 且负 相 关时当正 相 关时当 1 r, ; ,0 ;,0r r线 性 相 关 程 度 越 低越 接 近 于 r. 颜老师说明:1. 由于公式的复杂,数据有的也较多,所以在具体做题目时可以列出表格来,对应填进去,然后用公式计算,这样就不会产生慌乱的感觉 2.做题目时要细心,不要乱,在我们高一阶段一般只给出 56 组数据,算起来已经不是很难了3. 当然这种拟合(我们主要学习线性拟合就是求线性回归方程)在电脑里都可作出来图像来,而且求出相应的拟合度,有兴趣的同学可以在 Excel 软件里试一试4.表格形式:iixiy2ix2iyiyx12n合计 nix1niy1nix12niy12niiyx1niyx1ni1ni12niy12niix1然后代入公式计算