1、知识内容一随机抽样1随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:简单随机抽样:从元素个数为 的总体中不放回地抽取容量为 的样本,如果每一次抽Nn取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样抽出办法:抽签法:用纸片或小球分别标号后抽签的方法随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表表中每一位置出现各个数字的可能性相同随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法简单随机抽样是最简单、最基本的抽样方法系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从
2、每一部分抽取一个个体,得到所需要的样本的抽样方法抽出办法:从元素个数为 的总体中抽取容量为 的样本,如果总体容量能被样本容量Nn整除,设 ,先对总体进行编号,号码从 到 ,再从数字 到 中随机抽取一个数kn1N1k作为起始数,然后顺次抽取第 个数,这样就得到容量为 的s 2()sks, , , n样本如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在
3、各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛2简单随机抽样必须具备下列特点:简单随机抽样要求被抽取的样本的总体个数 是有限的N简单随机样本数 小于等于样本总体的个数 n简单随机样本是从总体中逐个抽取的简单随机抽样是一种不放回的抽样简单随机抽样的每个个体入样的可能性均为 n3系统抽样时,当总体个数 恰好是样本容量 的整数倍时,取 ;NNkn若 不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容Nn量 整除因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的
4、机会板块二 .频率直方图仍然相等,为 Nn二频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:计算极差:找出数据的最大值与最小值,计算它们的差;决定组距与组数:取组距,用 决定组数;极 差组 距决定分点:决定起点,进行分组;列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率绘制频率分布直方图:以数据的值为横坐标,以 的值为纵坐标绘制直方图,频 率组 距知小长方形的面积组距 频率频 率组 距频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义总体密度曲线
5、:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线 来描绘,这条光滑曲线就叫做总体密度曲线总体()yfx密度曲线精确地反映了一个总体在各个区域内取值的规律三茎叶图制作茎叶图的步骤:将数据分为“ 茎”、 “叶” 两部分;将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线;将各个数据的“ 叶”在分界线的一侧对应茎处同行列出 四统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差数据的离散程序可以用极差、方差或标准差来描述极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度;样本方差描述了一组数据平均数波动
6、的大小,样本的标准差是方差的算术平方根一般地,设样本的元素为 样本的平均数为 ,12nxx, , , x定义样本方差为 ,222()()()ns样本标准差 12n简化公式: 2221()sxxn五独立性检验1两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系2散点图:将样本中的 个数据点 描在平面直角坐标系中,就得到n()12)ixyn, , , ,了散点图散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以
7、直观地判断分析两个变量的关系3如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关此时,散点图中的点在从左上角到右下角的区域散点图可以判断两个变量之间有没有相关关系4统计假设:如果事件 与 独立,这时应该有 ,用字母 表示此式,AB()()PAB0H即 ,称之为统计假设0:()()HPAB5 (读作“卡方” )统计量:2统计学中有一个非常有用的统计量,它的表达式为 ,用它的大小可22121()n以用来决定是否拒绝原来的统计假设 如果 的值较大,就拒绝 ,即认为 与
8、是0H0HAB有关的统计量的两个临界值: 、 ;当 时,有 的把握说事件 与 有23.8416.523.84195%关;当 时,有 的把握说事件 与 有关;当 时,认为事件 与6.59%AB23.841是无关的B独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的1独立性检验的步骤:统计假设: ;列出 联表;计算 统计量;查对临界值表,0H22作出判断2几个临界值: 2().1(3.841)0.5(6.35)0.1PPP .76, , 联表的独立性检验:如果对于某个群体有两种状态,对于每种
9、状态又有两个情况,这样排成一张 的表,如2下:状态 B状态 合计状态 A1n12n状态 21n2n如果有调查得来的四个数据 ,并希望根据这样的 个数据来检验上述的两122n, 4种状态 与 是否有关,就称之为 联表的独立性检验AB六回归分析1回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2最小二乘法:记回归直线方程为: ,称为变量 对变量 的回归直线方程,其中 叫做回归yabxYxab,系数是为了区分 的实际值
10、 ,当 取值 时,变量 的相应观察值为 ,而直线上对应于yYi iy的纵坐标是 ixiiyabx设 的一组观察值为 , ,且回归直线方程为 ,Y, ()iy, 12n, , , yabx当 取值 时, 的相应观察值为 ,差 刻画了实际观察值 与回归i i(12)iiyn, , , iy直线上相应点的纵坐标之间的偏离程度,称这些值为离差我们希望这 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点n记 ,回归直线就是所有直线中 取最小值的那条21()iiiQyabxQ这种使“离差平方和为最小” 的方法,叫做最小二乘法用最小二乘法求回归系数 有如下的公式:, ,其中 上方加“ ”,表示是
11、由观察值按最小二乘法求得的12niixybaybxab, 回归系数3线性回归模型:将用于估计 值的线性函数 作为确定性函数; 的实际值与估计yxy值之间的误差记为 ,称之为随机误差;将 称为线性回归模型yab产生随机误差的主要原因有:所用的确定性函数不恰当即模型近似引起的误差;忽略了某些因素的影响,通常这些影响都比较小;由于测量工具等原因,存在观测误差4线性回归系数的最佳估计值:利用最小二乘法可以得到 的计算公式为ab, ,其中 ,11222()()nniiiii iixyxyb aybx1nix1niy由此得到的直线 就称为回归直线,此直线方程即为线性回归方程其中 , 分yabx ab别为
12、, 的估计值, 称为回归截距, 称为回归系数, 称为回归值abby5相关系数:1 1222221 1()()()()n nii iin nii i iiixyxyr y 6相关系数 的性质:r ;|r 越接近于 1, 的线性相关程度越强;xy, 越接近于 0, 的线性相关程度越弱| ,可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关7转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数8一些备案回归(regression)一词的来历: “回归”这个词英国统计学家 Francils Galton 提出来的188
13、9 年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析回归系数的推导过程: 222 2()iiii i iiQyabxyanbxyaxb,2 2)iiiiinx把上式看成 的二次函数, 的系数 ,20因此当 时取最小值(iiiixyann同理,把 的展开式按 的降幂排列,看成 的二次函数,当 时取最小Qbb2i
14、iixyab值解得: , ,1 22()ni iiixyxybaybx其中 , 是样本平均数iynixn9 对相关系数 进行相关性检验的步骤:r提出统计假设 :变量 不具有线性相关关系;0Hy,如果以 的把握作出推断,那么可以根据 与 ( 是样本容量)在5%10.95.2n相关性检验的临界值表中查出一个 的临界值 (其中 称为检验水平) ;r.r0.5计算样本相关系数 ;r作出统计推断:若 ,则否定 ,表明有 的把握认为变量 与 之间具有线0.5|0H%yx性相关关系;若 ,则没有理由拒绝 ,即就目前数据而言,没有充分理由认为变.|量 与 之间具有线性相关关系yx说明:对相关系数 进行显著性检
15、验,一般取检验水平 ,即可靠程度为 r 0.595%这里的 指的是线性相关系数, 的绝对值很小,只是说明线性相关程度低,不一定不r相关,可能是非线性相关的某种关系这里的 是对抽样数据而言的有时即使 ,两者也不一定是线性相关的故在统计|1r分析时,不能就数据论数据,要结合实际情况进行合理解释典例分析题型一 频率分布直方图【例 1】 (2010 西城二模)某区高二年级的一次数学统考中,随机抽取 名同学的成绩,成绩全部在 分2050至 分之间,将成绩按如下方式分成 组:第一组,成绩大于等于 分且小于05分;第二组,成绩大于等于 分且小于 分;第五组,成绩大于等于6607分且小于等于 分,据此绘制了如
16、图所示的频率分布直方图910则这 名同学中成绩大于等于 分且小于 分的学生有_名208090【例 2】 (2010 东城二模)已知一个样本容量为 的样本数据的频率分布直方图如图所示,样本数据落在10内的样本频数为 ,样本数据落在 内的频率为 6,10) 2,10)【例 3】 (2010 北京)从某小学随机抽取 100 名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图) 由图中数据可知 若要从身高在 ,a120,3, 三组内的学生中,用分层抽样的方法选取 18 人参加一项活10,410,5动,则从身高在 内的学生中选取的人数应为 【例 4】 (2010 江苏高考)某棉纺厂为了了解
17、一批棉花的质量,从中随机抽取了 根棉花纤维的长度(棉10花纤维的 长度是棉花质量的重要指标) ,所得数据都在区间 中,其频率分540,布直方图如图所示,则其抽样的 根中,有_根在棉花纤维的长度小于1020m y510152025303540产(m)0.010.020.030.040.050.06产产【例 5】 (2009 湖北 15)下图是样本容量为 的频率分布直方图20 0.090.080.030.022218141062 产产产产O产产/产产根据样本的频率分布直方图估计,样本数据落在 内的频数为 ,数610,据落在 内的概率约为 ,【例 6】 (2009 福建 3)一个容量为 的样本,其数
18、据的分组与各组的频数如下:10组别 , 2, 03, 40, 5, 06, 70,频数 23415613则样本数据落在 上的频率为( )1,A B C D0. 0.390.5264【例 7】 某校为了了解学生的课外阅读情况,随机调查了 50 名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用下面的条形图表示,根据条形图可得这 50名学生这一天平均每人的课外阅读时间为( )20151052.01.51.00.50 时 间 (h)人 数 (人 )A B C D.6h91.01.5h【例 8】 为了调查某厂工人生产某种产品的能力,随机抽查了 位工人某天生产该产品的2数量产品数量的分组区间为
19、, , , ,45, 65, 7, 58,由此得到频率分布直方图如图 ,则这 名工人中一天生产该产品数量59, 30在 的人数是 7, 产产/产产产产产产0.0400.0350.0300.0250.0200.0150.0100.0050 958575655545【例 9】 (2009 山东 8)某工厂对一批产品进行了抽样检测右图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是 ,样本数据分9610,组为 , , , , 已知样本中产69, 10, 102, 104, ,品净重小于 克的个数是 ,则样本中净重大于或等于 克并且小于 克的3684产品的个数是(
20、)产产/产产产0.1500.1250.1000.0750.0501061041021009896A B C D7545【例 10】 某路段检查站监控录象显示,在某时段内,有 辆汽车通过该站,现在随10机抽取其中的 辆汽车进行车速分析,分析的结果表示为右图的频率分布直方20图,则估计在这一时段内通过该站的汽车中速度不小于 km/h 的车辆数为( 9)产产产产产产0.040.030.020.0111010090807060A B C D253【例 11】 (2006 年全国 II)一个社会调查机构就某地居民的月收入调查了 人,并根据所得数据画了样10本频率分布直方图,为了分析居民的收入与年龄、学历
21、、职业等方面的联系,要从这 人中用分层抽样的方法抽出 人做进一步调查,则在10(元)月收入段应抽出_人253, O 40003500300025001500 200010000.00050.00040.00030.00020.0001产产产产产产产(产)【例 12】 如图为某样本数据的频率分布直方图,则下列说法不正确的是( )181410620.10.080.050.02产产产产OA 的频率为61), .3B若样本容量为 ,则 的频数为), 40C若样本容量为 ,则 的频数为0(1,D由频率分布布直方图可得出结论:估计总体大约有 分布在1%104),【例 13】 (2006 北京模拟)下面是某
22、学校学生日睡眠时间的抽样频率分布表:睡眠时间 人数 频率6.5), 0.57, 17., 3.8), .5, 60.9, 2合计 1画出频率分布直方图,估计该校学生的日平均睡眠时间【例 14】 (2010 崇文一模)为了调查某厂 2000 名工人生产某种产品的能力,随机抽查了 位工人某天生产m该产品的数量,产品数量的分组区间为 ,10,5, , , ,频率分布直方图如图所示已知生产15,20,52,30,的产品数量在 之间的工人有 6 位求 ;m10 15 20 25 30 35 产 品 数 量 0 0.2 0.3 0.4 0.5 0.6 频 率 /组 距 工厂规定从各组中任选 1 人进行再培
23、训,则选取 5 人不在同一组的概率是多少?【例 15】 考查某校高三年级男生的身高,随机抽取 名高三男生,实测身高数据(单40位: )如下:cm 作出频率分布表; 画出频率分布直方图【例 16】 (2010 陕西卷高考)为了解学生身高情况,某校以 的比例对全校 700 名学生按性别进行出样检查,10%测得身高情况的统计图如下:产产产产/cm12512190185180 160165 170 175151050产产/cm 180175170165160 1551503671131442051015产产产产产产17631616816186597957745847590243估计该小男生的人数;估计
24、该校学生身高在 之间的概率;17085cm从样本中身高在 之间的女生中任选 2 人,求至少有 1 人身高在6之间的概率1708cm【例 17】 从某校高一年级的 名新生中用系统抽样的方法抽取一个容量为 的身102 10高样本,如下(单位: ) 作出该样本的频率分布表,画出频率分布直方图及cm折线图,并根据作出的频率分布直方图估计身高不小于 的同学的人数170168 165 171 167 170 165 170 152 175 174165 170 168 169 171 166 164 155 164 158170 155 166 158 155 160 160 164 156 162 16
25、0 170 168 164 174 170 165 179 163 172 180 174 173 159 163 172 167 160 164 169 151 168 158 168 176 155 165 165 169 162 177 158 175 165 169 151 163 166 163 167 178 165 158 170 169 159 155 163 153 155 167 163 164 158 168 167 161 162 167 168 161 165 174 156 167 166 162 161 164 166 【例 18】 为了了解小学生的体能情况,抽取
26、了某小学同年级部分学生进行跳绳测试,将所得的数据整理后画出频率分布直方图(如下图) ,已知图中从左到右的前三个小组的频率分别是 第一小组的频数是 0.13.4, , 5求第四小组的频率和参加这次测试的学生人数;在这次测试中,学生跳绳次数的中位数落在第几小组内?参加这次测试跳绳次数在 次以上为优秀,试估计该校此年级跳绳成绩优秀率是多少?O产产产产产产149.5124.599.574.549.5【例 19】 为了让学生了解环保知识,增强环保意识,某中学举行了一次“环保知识竞赛”,共有 900 名学生参加了这次竞赛 为了解本次竞赛成绩情况,从中抽取了部分学生的成绩(得分均为整数,满分为 100 分)
27、进行统计 请你根据尚未完成并有局部污损的频率分布表和频数分布直方图,解答下列问题: 填充频率分布表的空格(将答案直接填在表格内) ; 补全频数条形图; 若成绩在 755 855 分的学生为二等奖,问获得二等奖的学生约为多少人?【例 20】 (2010 丰台一模)某校高三(1)班的一次数学测试成绩的茎叶图和频率分布直方图都受到不同程度的破坏,但可见部分如下,据此解答如下问题 85 987654322198653328698765产产 109080706050 产产产0.40.280.160.08求全班人数及分数在 之间的频数;0,9估计该班的平均分数,并计算频率分布直方图中 间的矩形的高;,若要从分数在 之间的试卷中任取两份分析学生失分情况,在抽取的试卷中,求8,1至少有一份分数在 之 间的概率【例 21】 某地区为了了解 岁老人的日平均睡眠时间(单位:h) 随机选择了708位老人的进行调查下表是这 位老人日睡眠时间的频率分布表5050序号( )i分组(睡眠时间)组中值( )iG频数(人数) 频率( )iF1 4,5 )4.56 0.122 5,6 103 6,7 6.20 .44 7,8 )7.510 0.25 8,9 84 8在上述统计数据中,一部分计算见算法流程图(其中 可用 代替) , ii 5?S+GiFiS,FiGiii+110SNY产产S产产产产产产则输出的 的值是