1、1第 40 讲 统计备注:【高三数学一轮复习必备精品共 42 讲 全部免费 欢迎下载】一【课标要求】1统计案例通过典型案例,学习下列一些常见的统计方法,并能初步应用这些方法解决一些实际问题。(1)通过对典型案例(如“肺癌与吸烟有关吗 “等)的探究,了解独立性检验(只要求22 列联表)的基本思想、方法及初步应用;(2)通过对典型案例(如“质量控制 “、“新药是否有效“等)的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用;(3)通过对典型案例(如“昆虫分类 “等)的探究,了解聚类分析的基本思想、方法及初步应用;(4)通过对典型案例(如“人的体重与身高的关系 “等)的探究,进一步了解回归
2、的基本思想、方法及初步应用2随机变量的分布列(1)在对具体问题的分析中,理解取有限值的离散型随机变量及其分布列的概念,认识分布列对于刻画随机现象的重要性;(2)通过实例(如彩票抽奖),理解超几何分布及其导出过程,并能进行简单的应用;(3)在具体情境中,了解条件概率和两个事件相互独立的概念,理解 n 次独立重复试验的模型及二项分布,并能解决一些简单的实际问题;(4)通过实例,理解取有限值的离散型随机变量均值、方差的概念,能计算简单离散型随机变量的均值、方差,并能解决一些实际问题;(5)通过实际问题,借助直观(如实际问题的直方图),认识正态分布曲线的特点及曲线所表示的意义二【命题走向】统计案例本部
3、分内容主要包括回归分析的基本思想及其初步应用和独立性检验的基本思想和初步应用,是教材新增内容,估计高考中比重不会过大预测 2010 年的高考主要有以下几种情况:(1)知识点将会考察回归分析的基本思想方法,用独立性检验判断 A 与 B 间的关系,及 22 列联表;(2)考查的形式主要以选择、填空题为主,但不会涉及很多;随机变量的分布列本部分内容主要包括随机变量的概念及其分布列,离散性随机变量的均值和方差,正态分布,从近几年的高考观察,这部分内容有加强命题的趋势预测 2010 年的高考对本部分内容的考查有以下情况:(1)考查的重点将以随机变量及其分布列的概念和基本计算为主,题型以选择、填空为主,有
4、时也以解答题形式出现;(2)预计 2010 年高考还是实际情景为主,建立合适的分布列,通过均值和方差解释实际问题;三【要点精讲】统计案例21相关系数相关系数是因果统计学家皮尔逊提出的,对于变量 y 与 x 的一组观测值,把叫做变量 y 与 x 之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度相关系数的性质: 1,且 越接近 1,相关程度越大;且 越接近 0,相关程度|r|r |r越小。显著性水平:显著性水平是统计假设检验中的一个概念,它是公认的小概率事件的概率值。它必须在每一次统计检验之前确定。显著性检验:(相关系数检验的步骤)由显著性水平和自由度查表得出临界值,显著性水
5、平一般取 0.01 和 0.05,自由度为,其中是数据的个数 在“相关系数检验的临界值表”查出与显著性水平 0.05 或 0.01 及自由度 n-2(n为观测值组数)相应的相关数临界值 r0 05或 r0 01;例如时, 0.050.754, 0.010.874 求得的相关系数和临界值 0.05比较,若 0.05,上面与是线性相关的,当 r 0.05或 r0.01,认为线性关系不显著。结论:讨论若干变量是否线性相关,必须先进行相关性检验,在确认线性相关后,再求回归直线; 通过两个变量是否线性相关的估计,实际上就是把非确定性问题转化成确定性问题来研究; 我们研究的对象是两个变量的线性相关关系,还
6、可以研究多个变量的相关问题,这在今后的学习中会进一步学到2卡方检验统计中有一个有用的(读做“卡方” )统计量,它的表达式是:,经过对统计量分布的研究,已经得到了两个临界)()(2 dbcadbanK值:3.841 与 6.635。当根据具体的数据算出的 k3.841 时,有 95%的把握说事件 A 与 B 有关;当 k6.635 时,有 99%的把握说事件 A 与 B 有关;当 k 3.841 时,认为事件 A 与 B 是无关的。随机变量1随机变量的概念如果随机试验的结果可以用一个变量来表示,那么这样的变量叫做随机变量。随机变量常用希腊字母 、 等表示。对 于 随 机 变 量 可 能 取 的
7、值 , 我 们 可 以 按 一 定 次 序 一 一 列 出 , 这 样 的 随 机 变 量 叫 做 离散 型 随 机 变 量 。注:随机变量 是关于试验结果的函数,即每一个试验结果对应着一个实数;随机变量 的线性组合 =a+b(a、b 是常数)也是随机变量。2离散性随机变量的分布列一般地,设离散型随机变量 可能取得值为:X1, X2,X3,3取每一个值 Xi(I=1,2,)的概率为 P( ,则称表 xi)X1 X2 xi P P1 P2 Pi 为随机变量 的概率分布,简称 的分布列。两条基本性质: );P 1+P2+=1。,2(0ipi3独立相互独立事件:事件 A(或 B)是否发生对事件 B(
8、或 A)发生的概率没有影响.这样的两个事件叫做相互独立事件。独立重复试验:若 n 次重复试验中,每次试验结果的概率都不依赖于其他各次试验的结果,则称这 n 次试验是独立的公式(1)两个相互独立事件同时发生的概率,等于每个事件发生的概率的积,即 P(AB )=P(A) P(B);推广:若事件 A1,A 2,A n 相互独立,则 P(A1A2An)=P(A1)P(A2)P(n)。(2)如果在一次试验中某事件发生的概率为 P,那么在 n 次独立重复试验中这个事件恰好发生 k 次的概率:P n(k)=C kPk(1P) n-k。4随机变量的均值和方差(1)随机变量的均值;反映随机变量取值的平均水平21
9、pxE(2)离散型随机变量的方差: ;反映随机变量取值的稳2211)()(pEDnnpEx2)(定与波动,集中与离散的程度。基本性质: ; 。baDa5几种特殊的分布列(1)两点分步两点分布:对于一个随机试验,如果它的结果只有两种情况,则我们可用随机变量,来描述这个随机试验的结果。如果甲结果发生的概率为 P,则乙结. 0,乙 结 果 发 生甲 结 果 发 生果发生的概率必定为 1P,所以两点分布的分布列为:1 0P P 1p均值为 E =p,方差为 D =p(1p) 。(2)超几何分布重复进行独立试验,每次试验只有成功、失败两种可能,如果每次试验成功的概率为p,重复试验直到出现一次成功为止,则
10、需要的试验次数是一个随机变量,用 表示,因此事件n表示“第 n 次试验成功且前 n1 次试验均失败” 。所以 ,1npnP其分布列为:4 1 2 n P p p(1p) 1p(3)二项分布如果我们设在每次试验中成功的概率都为 P,则在 n 次重复试验中,试验成功的次数是一个随机变量,用 来表示,则 服从二项分布则在 n 次试验中恰好成功 k 次的概率为:.p1CkPknkn二项分布的分布列为: 0 1 nP nnn knknp1C 0p1C记 是 n 次独立重复试验某事件发生的次数,则 B(n,p);其概率 。期望 E=np,方差 D=npq。,20,()( kpqpCkkn )6正态分布正态
11、分布密度函数: ,均值为 E= ,方差为 。2)(1)(xexf 2正态曲线具有以下性质:(1)曲线在 x 轴的上方,与 x 轴不相交(2)曲线关于直线 x = 对称(3)曲线在 x = 时位于最高点。(4)当 x 时,曲线下降。并且当曲线向左、右两边无限延伸时,以 x 轴为渐近线,向它无限靠近。(5)当 一定时,曲线的形状由 确定。 越大,曲线越“矮胖”,表示总体越分散; 越小,曲线越“瘦高”,表示总体的分布越集中。从理论上讲,服从正态分布的随机变量 的取值范围是 R,但实际上 取区间(-3,+3)外的数值的可能性微乎其微,在实际问题中常常认为它是不会发生的。因此,往往认为它的取值是个有限区
12、间,即区间(-3,+3),这即实用中的三倍标准差规则,也叫 3 规则。在企业管理中,经常应用这个规则进行产品质量检查和工艺生产过程控制。四【典例解析】题型 1:线性相关性检验例 1一个工厂在某年里每月产品的总成本 y(万元)与该月产量 x(万件)之间由如下一组数据:1)画出散点图;2)检验相关系数 r 的显著性水平;3)求月总成本 y 与月产量 x 之间的回归直线方程. 解析:x 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07y 2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.
13、26 3.36 3.50i 1 2 3 4 5 6 7 8 9 10 11 12xi 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07yi 2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26 3.36 3.50xiyi 2.43 2.264 2.856 3.264 3.590 4.07 4.643 5.090 5.652 6.096 6.653 7.24551)画出散点图:2)r=在“相关系数检验的临界值表”查出与显著性水平 0.05 及自由度 12-2=10 相应的相关数临界
14、值 r0.05=0.5766.635,所以我们有469.7283561420)13(9K99%的把握说:50 岁以上的人患慢性气管炎与吸烟习惯有关。例 4(2009 辽宁文)(本小题满分 12 分)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品。从两个分厂生产的零件中个抽出 500 件,量其内径尺寸,的结果如下表:甲厂试分别估计两个分厂生产的零件的优质品率;(1)由于以上统计数据填下面 2列联表,并问是否有 99%的把握认为“两个分厂生产的零件的质量有差异”。甲 厂 乙 厂 合计优质品非优质品合计8附:22121()()0.51,38
15、4npxkx解 (1)甲厂抽查的产品中有 360 件优质品,从而甲厂生产的零件的优质品率估计为36072%5;乙厂抽查的产品中有 320 件优质品,从而乙厂生产的零件的优质品率估计为 32064%5(2)甲厂 乙厂 合计优质品 360 320 680非优质品 140 180 320合计 500 500 10002210(368014)537,x所以有 99%的把握认为“两个分厂生产的零件的质量有差异”。题型 3:独立的概念及应用例 5有三种产品,合格率分别是 0.90,0.95 和 0.95,各抽取一件进行检验(1)求恰有一件不合格的概率;(2)求至少有两件不合格的概率(精确到 0.001);
16、解析:设三种产品各抽取一件,抽到合格产品的事件分别为 A、B 和 C,(1)P(A)=0.90,P(B)=P(C)=0.95 ,则 P( A)=0.10,P( )=P( )=0.05。因为事件 A、B、C 相互独立,恰有一件不合格的概率为:P(AB )+P(A C)+P( BC)=P(A)P(B)P( )+P(A)P( B)P(C)+P( A)P(B)P(C)=20.900.950.05+0.100.950.950.176答:恰有一件不合格的概率为 0.176.(2)解法一:至少有两件不合格的概率为:P(A BC)+P ( ABC)+P( ABC)+P( ABC)=0.900.050.05+2
17、0.100.050.95+0.100.050.050.012.答:至少有两件不合格的概率为 0.012.解法二:三件产品都合格的概率为:9P(ABC)=P(A)P(B )P(C)=0.900.950.950.812.由(1)知,恰有一件不合格的概率为 0.176,所以,至少有两件不合格的概率为 1-P(ABC )+0.176=1-(0.812+0.176)=0.012.答:至少有两件不合格的概率为 0.012.点评:本题主要考查互斥事件有一个发生的概率和相互独立事件概率的计算及运用数学知识解决问题的能力例 6(2009 山东卷理)某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的 产品净重
18、(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是96,106,样本数据分组为96,98),98,100),100,102),102,104),104,106, 已知样本中产品净重小于100 克的个数是 36,则样本中净重大于或等于 98 克并且小于 104 克的产品的个数是 ( ).A.90 B.75 C. 60 D.45答案 A 解析 产品净重小于 100 克的概率为(0.050+0.100)2=0.300, 已知样本中产品净重小于 100 克的个数是 36,设样本容量为 n,则 30.6n,所以 120n,净重大于或等于 98 克并且小于104 克的产品的概率为(0.100+0.
19、150+0.125)2=0.75,所以样本中净重大于或等于 98 克并且小于 104 克的产品的个数是1200.75=90.故选 A.【命题立意】:本题考查了统计与概率的知识 ,读懂频率分布直方图,会计算概率以及样本中有关的数据.题型 4:随机变量的分布列例 7(2009 全国卷理)(本小题满分 12 分)某车间甲组有 10 名工人,其中有 4 名女工人;乙组有 5 名工人,其中有 3 名女工人,现采用分层抽样方法(层内采用不放回简单随机抽样)从甲、乙两组中共抽取 3 名工人进行技术考核(1)求从甲、乙两组各抽取的人数; (I2)求从甲组抽取的工人中恰有 1 名女工人的概率;(3)记 表示抽取
20、的 3 名工人中男工人数,求 的分布列及数学期望。 分析 (1)这一问较简单,关键是把握题意,理解分层抽样的原理即可。另外要注意96 98 100 102 104 106 0.150 0.125 0.100 0.075 0.050 克 频率/组距 第 8 题图 10此分层抽样与性别无关。(2)在第一问的基础上,这一问处理起来也并不困难。从甲组抽取的工人中恰有 1 名女工人的概率1462085CP(3) 的可能取值为 0,1,2,3241056()7CP,1214634205058()7C,26105(3), 31()()()()75PP分布列及期望略.评析:本题较常规,比 08 年的概率统计题
21、要容易。在计算 (2)时,采用分类的方法,用直接法也可,但较繁琐,考生应增强灵活变通的能力。例 8设自动生产线在调整后出现废品的概率为 0.1,而且一旦出现废品就要重新调整,求在两次调整之间所生产的合格品的数目不小于 5 的概率。分析:如果用随机变量 表示两次调整之间生产的产品的个数,而且我们知道一旦出现废品就重新调整生产线,所以两次调整之间所生产的合格品是连续出现的,那么随机变量 的取值就服从几何分布,我们在解题时应先求出 的分布列。然后再计算事件“合格品数不小于 5”即5的概率。解析:设随机变量 表示两次调整之间生产线所生产的产品的个数,则 服从几何分布,事件k就表示生产了 k1 件合格品
22、,且第 k 件产品是废品。容易求得:P(1)0.1,P(2)(10.1)0.10.09,.08013P2写成分布列的形式为:1 2 3 4 5 6 P 0.1 0.09 0.81 0.0729 0.06561 0.059049 题目中要求计算“所生产的合格品数不小于 5”的概率,即 P(5),因为事件5所包含的基本事件为6, 7 ,n ,所以有P(5)P( 6)P(7)P(n) 我们应用分布列的性质计算上式的值因为 P(5)1P(5),所以P(5)1P(1)P(2)P(3) P(4)P(5)1(0.10.090.0810.0729 0.06561) 0.49049,所以事件“两次调整之间所生产
23、的合格品数不小于 5”的概率为 0.49049点评:这是一道综合例题,包括了分列的计算及分布列的应用两个步骤。该题对于我们巩固所学知识,深入了解分布列有很大帮助11题型 5:随机变量的均值例 9(1)(2009 湖南卷文) 一个总体分为 A,B 两层,用分层抽样方法从总体中抽取一个容量为10 的样本.已知 B 层中每个个体被抽到的概率都为 12,则总体中的个体数为 .答案 120解析 设总体中的个体数为 x,则 100.x(2)(2009 四川卷文)设矩形的长为 a,宽为 b,其比满足 a 618.025,这种矩形给人以美感,称为黄金矩形。黄金矩形常应用于工艺品设计中。下面是某工艺品厂随机抽取
24、两个批次的初加工矩形宽度与长度的比值样本:甲批次:0.598 0.625 0.628 0.595 0.639乙批次:0.618 0.613 0.592 0.622 0.620根据上述两个样本来估计两个批次的总体平均数,与标准值 0.618 比较,正确结论是A.甲批次的总体平均数与标准值更接近B.乙批次的总体平均数与标准值更接近C.两个批次总体平均数与标准值接近程度相同D.两个批次总体平均数与标准值接近程度不能确定答案 A解析 甲批次的平均数为 0.617,乙批次的平均数为 0.613例 10设离散型随机变量 可能取的值为1,2,3,4。 ( 1,2,3,4)。又 的数学期望 ,则 ;()Pka
25、bk3Eab解析:设离散性随机变量 可能取的值为 ,所, 1,24Pkab以 ,即 ,()(3)()ab01ab又 的数学期望 ,则 ,即E2()3()4()3ab, , 。30110b10点评:均值计算时要根据公式进行简化计算,从而达到简化运算的目的12题型 6:随机变量的方差例 11甲、乙两名工人加工同一种零件,两人每天加工的零件数相等,所得次品数分别为 、, 和 的分布列如下: 0 1 2 0 1 2P 03P 530试对这两名工人的技术水平进行比较。分析:一是要比较两名工人在加工零件数相等的条件下出次品数的平均值,即期望;二是要看出次品数的波动情况,即方差值的大小解析:工人甲生产出次品
26、数 的期望和方差分别为:,7.0132106E;891.03).2()()7.(2D工人乙生产出次品数 的期望和方差分别为:,7.013105;64.012).(3)()7.(22 由 E=E 知,两人出次品的平均数相同,技术水平相当,但 DD,可见乙的技术比较稳定。点评:期望仅体现了随机变量取值的平均大小,但有时仅知道均值的大小还不够。如果两个随机变量的均值相等,还要看随机变量的取值如何在均值周围变化,即计算方差。方差大说明随机变量取值较分散,方差小说明取值分散性小或者取值比较集中、稳定。 题型 7:正态分布例 122009 全国卷文)(本小题满分 12 分)某车间甲组有 10 名工人,其中
27、有 4 名女工人;乙组有 10 名工人,其中有 6 名女工人。现采用分层抽样(层内采用不放回简单随即抽样)从甲、乙两组中共抽取 4 名工人进行技术考核(1)求从甲、乙两组各抽取的人数;(2)求从甲组抽取的工人中恰有 1 名女工人的概率;(3)求抽取的 4 名工人中恰有 2 名男工人的概率。 解析 本题考查概率统计知识,要求有正确理解分层抽样的方法及利用分类原理处理事件概率的能力,第一问直接利用分层统计原理即可得人数,第二问注意要用组合公式得出概率,第三问关键是理解清楚题意以及恰有 2 名男工人的具体含义,从而正确分类求概率.解 (1)由于甲、乙两组各有 10 名工人,根据分层抽样原理,要从甲、
28、乙两组中共抽13取 4 名工人进行技术考核,则从每组各抽取 2 名工人.(2)记 A表示事件:从甲组抽取的工人中恰有 1 名女工人,则 158)(2064CAP (3) i表示事件:从甲组抽取的 2 名工人中恰有 i名男工人, ,ijB表示事件:从乙组抽取的 2 名工人中恰有 j名男工人, 21j,表示事件:抽取的 4 名工人中恰有 2 名男工人。 iA与 j独立, 10, ji ,且 0210BABA故 )()220BP )()010 PA210628461042104 CC五 【思维总结】1一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验在确认其具有线性相关关系后,再求其回归直线方程;由部分数据得到的回归直线,可以对两个变量间的线性相关关系进行估计,这实际上是将非确定性的相关关系问题转化成确定性的函数关系问题进行研究由于回归直线将部分观测值所反映的规律性进行了延伸,它在情况预报、资料补充等方面有着广泛的应用。2对卡方统计量的表达式的由来,学生只需要了解,作为探究问题可以在课后学习。统计的基本思维模式是归纳的,它的特征之一是通过部分数据来推测全体数据的性质,因此,统计推断可能是错误的,也就是说,我们从数据上体现的只是统计上的关系,而不是因果关系