1、1概率与统计一、知识回顾:1、总体、个体、样本、样本容量:总体:在统计中,所有考察对象的全体。个体:总体中的每一个考察对象。样本:从总体中抽取的一部分个体叫做这个总体的一个样本。样本容量:样本中个体的数目。2、统计的基本思想:用样本估计总体,即通常不直接去研究总体,而是通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况。3、抽样方法:简单随机抽样、系统抽样、分层抽样。4、简单随机抽样:一般地,从个体为 N 烦人总体中逐个不放回地取出 n 个个体作为样本(nN),如果每个个体都有相同的机会被取到,那么这样的抽样方法称为简单随机抽样。5、抽签法和随机数表法都是简单随机抽样。6、抽签法:(
2、总体个数 N,样本容量 n)(1)将总体中的 N 个个体编号;(2)将这 N 个号码写在形状、大小相同的号签上;(3)将号签放在同一箱中,并搅拌均匀;(4)从箱中每次抽出 1 个号签,连续抽出 n 次;(5)将总体中与抽到的号签编号一致的 n 个个体取出。7、随机数表法:(1)将总体中的个体编号(每位号码位数一致) ;(2)在随机数表内任选一个数作为开始;(3)从选定的数开始按一定的方向读下去,若得到的号码已经在编号中,则取出;若得到的号码不在编号中或前面已经取出,则跳过,如此继续下去,直到取满为止;(4)根据选定的号码抽取样本。注:(1)用随机数表抽取样本,可以任选一个数作为开始,读数的方向
3、可以向左,也可以向右、向上、向下等等。因此样本并不是唯一的.(2)由于随机数表是等概率的,因此利用随机数表抽取样本保证了被抽取个体的概率是相等的(公平性) 。2(3)随机数表是统计工作者用计算机生成的随机数,并保证表中的每个位置上的数字是等可能出现的。8、抽签法编号、制签、搅拌、抽取,关键是“搅拌”后的随机性;随机数表法编号、选数、取号、抽取,其中取号的方向具有任意性。9、简单随机抽样的特点:它的总体个数有限的;它是逐个地进行抽取;它是一种不放回抽样;它是一种等概率抽样10、系统抽样:将总体平均分成几个部分,然后按照一定的规则,从每个部分中抽取一个个体作为样本,这样的抽样方法称为系统抽样。也可
4、称为“等距抽样” 。注:如果个体总数不能被样本容量整除时该怎么办?(1)随机将这 1003 个个体进行编号 1,2,3,1003。(2)利用简单随机抽样,先从总体中剔除 3 个个体(可以随机数表法),剩下的个体数 1000 能被 100 整除,然后按系统抽样的方法进行。11、系统抽样的步骤:(1)采用随机的方式将总体中的 N 个体编号。(2)整个的编号分段(即分成几个部分) ,要确定分段的间隔 k。当 (为总体中的个体的个数,n 为样本容N量)是整数时,取 ;当 不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数 能被nkN N整除,这时取 ,并将剩下的总体重新编号;n(3)在第一段中
5、用简单随机抽样确定起始的个体编号 ;l(4)按照一定的规则抽取样本,通常将编号为 的个体抽出。knlk)1(2个个12、简单随机抽样、系统抽样的特点是什么?简单随机抽样:逐个不放回抽取;等可能入样;总体容量较小。系统抽样:分段,按规定的间隔在各部分抽取;等可能入样;总体容量较大。13、分层抽样:一般地,当总体由差异明显几部分组成时,为了使样本更客观地反映总体情况,我们常常将总体中的个体按不同的特点分成层次比较明显的几部分,然后按照各部分在总体中所占的比实施抽样,这种抽样方法有限性逐个性不回性等率性3叫分层抽样。14、分层抽样的步骤:(1) 将总体按一定的标准分层;(2)计算各层的个体数与总体的
6、个体数的比;(3)按各层个体数占总体的个体数的比确定各层应抽取的样本容量;(4)在每一层进行抽样;(可用简单随机抽样或系统抽样)(5)综合每层抽样,组成样本15、简单随机抽样、系统抽样、分层抽样的比较:类 别 共同点 各自特点 联 系适 用范 围从总体中逐个抽取 总体中个体 较少简 单随 机抽 样 将总体平均分成几部分,按预先制定的规则在各部分抽取在起始部分时采用简单随机抽样总体中个体较多系 统抽 样分 层抽 样(1)抽样过程中每个个体被抽到的可能性相等(2)每次抽出个体后不再将它放回,即不放回抽样 将总体分成几层,分层进行抽取各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成16
7、、频数:频数是指一组数据中,某范围内的数据出现的次数。频率:把频数除以数据的总个数,就得到频率。17、频率分布表:当总体很大或不便于获得时,可以用样本的频率分布估计总体的频率分布。我们把反映总体频率分布的表格称为频率分布表。18、频率分布表的制作:我们将整个取值区间的长度称为全距,即计算数据中最大值与最小值的差,即全距。分成的区间的长度称为组距。编制频率分布表的步骤:(1)求全距,决定组数和组距,组距= ;个(2)分组:通常对组内数值所在区间取左闭右开区间,最后一组取闭区间。(3)登记频数,计算频率,列出频率分布表。19、频率分布直方图的做法:(1)把横轴分成若干段,每一线段对应一个组的组距;
8、4(2)然后以此线段为底作一矩形,它的高等于该组的频率/组距;这样得出一系列的矩形,每个矩形的面积恰好是该组上的频率,这些矩形就构成了频率分布直方图。20、茎叶图:如图:21、平均数 : (或称为均值) 。若取值为 的频率分别为anan21 nxx321个,则其平均数为 。npp个个321 npxp2122、极差:组数据的最大值与最小值的差称为极差。极差越大,数据越分散,极差越小,数据越集中。极差最大值最小值 23、方差:设一组样本数据 ,其平均数为 ,则称 。nxx321个x212)(niixs标准差:方差的算数平方根 ,简称样本方差、样本标准差。21)(iis注:方差越小,数据的波动越小。
9、24、必然事件:在一定条件下必然要发生的事件叫必然事件。25、不可能事件:在一定条件下不可能发生的事件叫不可能事件.26、随机事件:在一定条件下可能发生也可能不发生的事件叫随机事件.27、古典概型的特征:(1)有限性:在随机试验中,其可能出现的结果有有限个,即只有有限个不同的基本事件;012345525497661194083463683891甲 乙第二行表示甲得分为 15 分、12 分,乙得分为 13 分、14 分、16 分,其他各行与此类同5(2)等可能性:每个基本事件发生的机会是均等的.28、古典概型的概率求解步骤:求出总的基本事件数;求出事件 A 所包含的基本事件数,然后利用公式 。个
10、p)(29、几何概型的特点:有一个可度量的几何图形 S;试验 E 看成在 S 中随机地投掷一点;事件 A 就是所投掷的点落在 S 中的可度量图形 A 中 几何概型的概率公式: 个个个p)(30、几何概型与古典概型的区别:相同点:两者基本事件的发生都是等可能的;不同点:古典概型要求基本事件有有限个,几何概型要求基本事件有无限多个. 31、互斥事件:不可能同时发生的两个事件叫做互斥事件.32、对立事件:必有一个发生的互斥事件互称对立事件.33、互斥事件与对立事件的概率:(1)n 个彼此互斥事件的概率公式:。)()()( 32132 nn ApApAAp (2)对立事件的概率之和等于 1,即: 。
11、1。)()(34、回顾小结:(1)有序地写出所有基本事件及某一事件 A 中所包含的基本事件是解古典概型问题的关键!(2)构建恰当的几何模型是解几何概型问题的关键!(3)求某些复杂事件(如“至多、至少”的概率时,通常有两种转化方法:将所求事件的概率化为若干互斥事件的概率的和;求此事件的对立事件的概率6二、例题:1、(1)人们打桥牌时,将洗好的扑克牌(52 张)随机确定一张为起始牌,这时,开始按次序搬牌,对每一家来说,都是从 52 张总体中抽取一个 13 张的样本.则这种抽样方法是_系统抽样_.(2)某单位共有在岗职工人数为 624 人,为了调查工人上班时,从离开家来到单位的路是平均所用时间,决定
12、抽取 10%的工人调查这一情况,如果采用系统抽样方法完成这一抽样,则首先_利用简单随机抽样,剔除 4 人_.(3)某中学有高一学生 400 人,高二学生 320 人,高三学生 280 人,以每人被抽取的概率为 0.2 向该中学抽取一个容量为 n 的样本,则 n=_200_. 2、有一容量为 100 的样本,数据的分组以及各组的频数如下:12.5,15.5),6; 15.5,18.5),16; 18.5,21.5),18; 21.5,24.5),22; 24.5,27.5),20; 27.5,30.5),10; 30.5,33.5),8;(1)列出样本的频率分布表;(2)画出频率分布直方图。3、
13、下表是抽测某校初二女生身高情况所得的部分资料(身高单位:cm,测量时精确到 1cm)已知身高在151cm 以下(含 151cm)的被测女生共 3 人则所有被测女生总数为 分组145.5,148.5)148.5,151.5)151.5,154.5)154.5,157.5)157.5,160.5)160.5,163.5)163.5,166.5)166.5,169.5频率0.02 0.04 0.08 0.12 0.30 0.20 0.18 0.064、甲、乙、丙三名射箭运动员在某次测试中各射箭 20 次,三人的测试成绩如下表:甲的成绩 乙的成绩 丙的成绩环数 7 8 9 10 7 8 9 10 7
14、8 9 10频数 5 5 5 5 6 4 4 6 4 6 6 4s1,s2,s3 分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则 s1, s2, s3 的大小关系为 s2s1s3 (用号连接)5、某单位有 500 名职工,其中不到 35 岁的有 125 人,35 岁49 岁的有 280 人,50 岁以上的有 95 人.为了了解该单位职工与身体状况有关的某项指标,要从中抽取一个容量为 100 的样本,应该用_分层_抽样法.6、某校有学生 l485 人,教师 l32 人,职工 33 人为有效防控甲型 HINl 流感,拟采用分层抽样的方法,从以上人员中抽取 50 人进行相关检测,则在学生中应抽
15、取_45_人7、200 辆汽车经过某一雷达地区,时速频率分布直方图如图所示,则时速超过 60 km/h 的汽车数量为_76_。 78、一栋楼房有 4 个单元, 甲,乙两人住在此楼内 ,则甲,乙两人同住一单元的概率为 . 9、掷两枚骰子,求所得的点数之和为 6 的概率。 536P10、有五根细木棒,长度分别为 1,3,5,7,9(cm).从中任取三根,能搭成三角形的概率是 ?11、甲口袋中有大小相同的白球 3 个,红球 5 个,乙口袋中有大小相同的白球 4 个,黑球 8 个,从两个口袋中各摸出2 个球,求:(1)甲口袋中摸出的 2 个球都是红球的概率,(2)两个口袋中摸出的 4 个球中恰有 2
16、个白球的概率.12、在某次考试中,甲,乙,丙三人合格(互不影响)的概率分别是 2/5,3/4,1/3.考试结束后,最容易出现几人合格的情况? 13、盒中有 10 只晶体管,其中 2 只是次品,每次随机地抽取 1 只,作不放回抽样,连抽两次,试分别求下列事件的概率:(1)2 只都是正品;(2)2 只都是次品;(3)1 只正品,1 只次品;(4)第二次取出的是次品。三、高考真题回顾:1、 (2011 天津理 9)一支田径队有男运动员 48 人,女运动员 36 人,若用分层抽样的方法从该队的全体运动员中抽取一个容量为 21 的样本,则抽取男运动员的人数为_12_。2、 (2011 辽宁理 14)调查
17、了某地若干户家庭的年收入 x(单位:万元)和年饮食支出 y(单位:万元) ,调查显示年收入 x 与年饮食支出 y 具有线性相关关系,并由调查数据得到 y 对 x 的回归直线方程:321.054.y.由回归直线方程可知,家庭年收入每增加 1 万元,年饮食支出平均增加_0.254_万元。3、 (2011 江苏 6)某老师从星期一到星期五收到信件数分别是 10,6,8,5,6,则该组数据的方差 _2s【答案】3.24、 (2011 广东理 13)某数学老师身高 176cm,他爷爷、父亲和儿子的身高分别是 173cm、170cm 和 182cm 因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法
18、预测他孙子的身高为_185_cm5、 (2010 上海文)5.将一个总数为 A、 B 、 C三层,其个体数之比为 5:3:2。若用分层抽样方法抽取容量为100 的样本,则应从 C中抽取 20 个个体。10386、 (2010 天津理)甲、乙两人在 10 天中每天加工零件的个数用茎叶图表示如下图,中间一列的数字表示零件个数的十位数,两边的数字表示零件个数的个位数,则这 10 天甲、乙两人日加工零件的平均数分别为 _24_和_23_。7、 (2011 北京理 17) 以下茎叶图记录了甲、乙两组个四名同学的植树棵树。乙组记录中有一个数据模糊,无法确认,在图中以X 表示。()如果 X=8,求乙组同学植
19、树棵树的平均数和方差;()如果 X=9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵树 Y 的分布列和数学期望。(注:方差 22221 nsxxxn ,其中 为 1x, 2, nx的平均数)解(1)当 X=8 时,由茎叶图可知,乙组同学的植树棵数是:8,8,9,10,所以平均数为 ;43510x方差为 .16)4350()9()8()(4 22222 s()当 X=9 时,由茎叶图可知,甲组同学的植树棵树是:9,9,11,11;乙组同学的植树棵数是:9,8,9,10。分别从甲、乙两组中随机选取一名同学,共有 44=16 种可能的结果,这两名同学植树总棵数 Y 的可能取值为 17,
20、18,19,20,21 事件“Y=17” 等价于“甲组选出的同学植树 9棵,乙组选出的同学植树 8 棵”所以该事件有 2 种可能的结果,因此 P(Y=17)=.162同理可得;41)8(P;41)9(.81)2(;41)0(YYP9所以随机变量 Y 的分布列为:Y 17 18 19 20 21P 8141481EY=17P(Y=17)+18P(Y=18)+19P(Y=19 )+20P (Y=20)+21P(Y=21)=17 81+18 4+19 +20 +21=198、 (辽宁理 19)某农场计划种植某种新作物,为此对这种作物的两个品种(分别称为品种甲和品种乙)进行田间试验选取两大块地,每大块
21、地分成 n 小块地,在总共 2n 小块地中,随机选 n 小块地种植品种甲,另外n 小块地种植品种乙(I)假设 n=4,在第一大块地中,种植品种甲的小块地的数目记为 X,求 X 的分布列和数学期望;(II)试验时每大块地分成 8 小块,即 n=8,试验结束后得到品种甲和品种乙在个小块地上的每公顷产量(单位:kg/hm 2)如下表:品种甲 403 397 390 404 388 400 412 406品种乙 419 403 412 418 408 423 400 413分别求品种甲和品种乙的每公顷产量的样本平均数和样本方差;根据试验结果,你认为应该种植哪一品种?附:样本数据 nx,21的的 样本方
22、差 )()()(12222 xxxns n,其中 为样本平均数解:(I)X 可能的取值为 0,1,2,3,4,且48132483148(),75(),().70PCXPC即 X 的分布列为4 分X 的数学期望为 18181()02342.735570E6 分10(II)品种甲的每公顷产量的样本平均数和样本方差分别为: 222221(4039740380416)40,8)(1)()57.xS甲甲8 分品种乙的每公顷产量的样本平均数和样本方差分别为: 2222221(490314803401),87)6()1(56.xS乙乙10 分由以上结果可以看出,品种乙的样本平均数大于品种甲的样本平均数,且两
23、品种的样本方差差异不大,故应该选择种植品种乙.9、 (2010 浙江文) (11)在如图所示的茎叶图中,甲、乙两组数据的中位数分别是 45、46 10、 (2010 北京理) (11)从某小学随机抽取 100 名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图) 。由图中数据可知 a 0.030 。若要从身高在 120 , 130) ,130 ,140) , 140 , 150三组内的学生中,用分层抽样的方法选取 18 人参加一项活动,则从身高在140 ,150内的学生中选取的人数应为 3 。11、 (2010 福建文)将容量为 n 的样本中的数据分成 6 组,绘制频率分布直方图。若第一组至第六组数据的频率之比为 2:3:4:6:4:1,且前三组数据的频数之和等于 27,则 n 等于 60 。12、 (2010 江苏卷)4、某棉纺厂为了了解一批棉花的质量,从中随机抽取了 100 根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标) ,所得数据都在区间5,40中,其频率分布直方图如图所示,则其抽样的 100 根中,有_根在棉花纤维的长度小于 20mm。