1、1.组数:一般为 5-152.确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距( 最大值 - 最小值) 组数3.统计出各组的频数并整理成频数分布表 下限(lower limit) :一个组的最小值2. 上限(upper limit) :一个组的最大值3. 组距(class width) :上限与下限之差4. 组中值(class midpoint) :下限与上限之间的中点值封闭式组距数列:a) 组距上限下限 b) 组中值(上限+下限) /2 c) 缺下限开口组组中值上限1/2 邻组组距 d) 缺上限开口组组中值下限+1/2
2、 邻组组距 样本平均数 总体用 nfMxkii1总体方差(标准差),记为 s2(s);根据样本数据计算的,称为样本方差(标准差) ,记为 s2(s)方差未分组 分组 1(22nxsii 1)(22nfxMski ii经验法则表明:当一组数据对称分布时约有 68%的数据在平均数加减 1 个标准差的范围之内约有 95%的数据在平均数加减 2 个标准差的范围之内约有 99%的数据在平均数加减 3 个标准差的范围之内 切比雪夫不等式1.如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2.切比雪夫不等式提供的是“下界”,也就是“ 所占比例至少是多少 ”
3、3.对于任意分布形态的数据,根据切比雪夫不等式,至少有 1-1/k2 的数据落在平均数加减 k 个标准差之内。其中 k是大于 1 的任意值,但不一定是整数对于 k=2,3,4,该不等式的含义是1.至少有 75%的数据落在平均数加减 2 个标准差的范围之内2.至少有 89%的数据落在平均数加减 3 个标准差的范围之内3.至少有 94%的数据落在平均数加减 4 个标准差的范围之内离散系数 标准差与其相应的均值之比 计算公式为 xsv统计量设 X1,X2,Xn 是从总体 X 中抽取的容量为 n 的一个样本,如果由此样本构造一个函数T(X1,X2,Xn),不依赖于任何未知参数,则称函数 T(X1,X2
4、,Xn)是一个统计量样本均)1(ntsxt值、样本比例、样本方差等都是统计量 统计量是样本的一个函数统计量的分布称为抽样分布。1.样本统计量的概率分布,是一种理论分布在重复选取容量为 n 的样本时,由该统计量的所有可能取值形成的相对频数分布 2.随机变量是样本统计量 样本均值, 样本比例,样本方差等3.结果来自容量相同的所有可能样本4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 几种常用的抽样分布:(正态分布中的几种统计量的分布)把 分布(z) , 分2t布, 分布, F点估计用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体
5、均值的估计;区间估计在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到1. 置信水平 表示为 (1-) 为是总体参数未在区间内的比例 3.常用的置信水平值有 99%, 95%, 90%相应的 为 0.01,0.05,0.10假定条件总体服从正态分布,且方差(s) 已知如果不是正态分布,可由正态分布来近似 (n 30)2.使用正态分布统计量 z3.总体均值 m 在 1-a 置信水平下的置信区间为置信水平 a a/2 Za/290% 0.1 0.05 1.64595% 0.05 0.025 1.96假定条件(小样本) 总体服从 正态分布 ,但方差(s )未知 (
6、n ,结论为按 所取水准不显著,不拒绝 H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果 P,结论为按所取 水准显著,拒绝 H0,接受 H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。 1.P 值是一个概率值2.如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积3.被称为观察到的(或实测的)显著性水平H0 能被拒绝的最小值方差分析通过检验各总体均值是否相等来判断分类型自变量对数
7、值型因变量的是否有显著影响用于两个及两个以上样本均数差别的显著性检验。 方差分析的基本假定 1.每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本(1)每个总体都服从正态分布(2)观察值相互独立 (3)各个总体样本方差必须相同1、建立检验假设; H0:多个样本总体均数相等; H1:多个样本总体均数不相等或不全等。 检验水准为 0.05。 2、计算检验统计量 F 值; 3、确定 P 值并作出推断结果。 SST = SSA + SSEkkiikinji nxx211式 中 :),21(1inxinjii kinjiijixSE12kiikinji xnxSA
8、i 1212kinjijixST12 kijiijkiikinjij iix121212),2,1(1. kirxxrjiji ),2,1(1. rjkxxkiijj krxxkijij1SST 的自由度为 n-1,其中 n 为全部观察值的个数SSA 的自由度为 k-1,其中 k 为因素水平( 总体)的个数SSE 的自由度为 n-k组内方差组间方差双因素方差分析 分析两个因素(行因素 Row 和列因素 Column)对试验结果的影响 行平均值 列平均值 总平均值计算平方和( SS)误差来源 平方和(SS) 自由度(df) 均方(MS) F 值 P 值 F 临界值组间(因素影响) SSA 组建平
9、方和 k-1 MSA 组间方差 MSA/MSE 组内(误差) SSE 组内平方和 n-k MSE 组内方差 总和 SST 总平方和 n-1 1kSAMknSEM),1(knFMSEA )(2总 平 方 和组 间 平 方 和STARkirjijxST1 2kirjjxSC12.kirjixSR1 2. kirj jiij xxSE1 21kSRM1rSCM)1)(rkSEMSE)1)(,1R rkFMSEF)1)(,1C rkrS行因素误差平方和 SSR 列因素误差平方和 SSC 随机误差项平方和 SSE 总误差平方和 SSTSST = SSR +SSC+SSE 计算均方( MS)误差平方和除以
10、相应的自由度三个平方和的自由度分别是总误差平方和 SST 的自由度为 kr-1行因素平方和 SSR 的自由度为 k-1列因素平方和 SSC 的自由度为 r-1误差项平方和 SSE 的自由度为 ( k-1)(r-1) 行因素的均方 MSR,列因素的均方 MSC ,误差项的均方 MSE ,将统计量的值 F 与给定的显著性水平 a 的临界值 Fa 进行比较,作出对原假设 H0 的决策根据给定的显著性水平 a 在 F 分布表中查找相应的临界值 Fa 若 FRFa ,拒绝原假设 H0 ,表明均值之间的差异是显著的,即所检验的行因素对观察值有显著影响若 FC Fa ,拒绝原假设 H0 ,表明均值之间有显著
11、差异,即所检验的列因素对观察值有显著影响 行因素的统计量 列因素的统计量 误差来源 平方和(SS) 自由度(df) 均方(MS)=ss/dfF 值 P 值 F 值临界值行因素 SSR k-1 MSR MSR/MSE 于 a=0.05 比较 查表列因素 SSC r-1 MSC MSC/MSE 小于 a 拒绝,大于不拒绝 F 大于 Fa 拒绝 显著小于不拒绝 不显著 误差 SSE (k-1)(r-1) MSE 总和 SST SST = SSR +SSC+SSEkr-1 1.一元线性回归模型描述因变量 y 如何依赖于自变量 x 和误差项 e 的方程称为 回归模型2.一元线性回归模型可表示为y = b
12、0 + b1 x + eny 是 x 的线性函数(部分)加上误差项n 线性部分反映了由于 x 的变化而引起的 y 的变化n 误差项 e 是随机变量l 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响l 是不能由 x 和 y 之间的线性关系所解释的变异性nb0 和 b 1 称为模型的参数误差平方和1.总平方和( SSTtotal sum of squares)n 反映因变量的 n 个观察值与其均值的总误差2.回归平方和( SSRsum of squares of regression)n 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关
13、系引起的 y 的取值变化,也称为可解释的平方和3.残差平方和( SSEsum of squares of error)n 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和1.总平方和( SSTtotal sum of squares)n 反映因变量的 n 个观察值与其均值的总误差2.回归平方和( SSRsum of squares of regression)n 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残差平方和( SSEsum of squares of er
14、ror)n 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和判定系数 R2 回归平方和占总误差平方和的比例2.反映回归直线的拟合程度3.取值范围在 0 , 1 之间4. R2 1,说明回归方程拟合的越好; R20,说明回归方程拟合的越差5.判定系数等于相关系数的平方,即 R2 r21.统计量 P156 根据样本量构造出来的一个函数2.抽样分布 P1603.点估计 P1764.区间估计 P1765.假设检验 P 值的含义 P2146.利用 P 值进行检验 单侧检验 P 不拒绝 H0 P(/2) 不拒绝 H0 P| | 拒绝 Ho. 不符合标准2z711 某企业生产
15、的袋装食品采用自动打包机包装,每袋标准重量为 l00g。现从某天生产的一批产品中按重复抽样随机抽取 50 包进行检查,测得每包重量 (单位:g) 如下:每包重量(g) 包数969898100100102102104104106233474合计 50已知食品包重量服从正态分布,要求: (1)确定该种食品平均重量的 95的置信区间。 解:大样本,总体方差未知,用 z 统计量xzsn0,1N:样本均值=101.4,样本标准差 s=1.829置信区间: 22,ssxzxzn=0.95, = =1.96120.522,ssxzxzn= =(100.89,101.91)1.891.82910.46,0.4
16、6550(2)如果规定食品重量低于 l00g 属于不合格,确定该批食品合格率的 95的置信区间。解:总体比率的估计大样本,总体方差未知,用 z 统计量1pzn0,1N:样本比率=(50-5)/50=0.9置信区间: 2211,ppzznn =0.95, = =1.96120.52211,ppzznn = =(0.8168,0.9832)0.9.0.916,.655 上网的那个,225 个样本,均值=6.5 S=2.5 n=225(这个没抄全)1. 以 95%的置信水平建立样本区间估计2. 20 岁以下 90 个人,20 岁以下上网比例用户区间 同 7.11 第二问大样本,总体方差已知,用 z
17、统计量 1pnp=90/225=0.4=0.95, = =1.9612z0.5置信区间:2211,ppzznn 0.41.96*0.4*(1-0.4)/2250.50.40.064013332(0. 464,0.336)样本 30 个,1. 销售价格2. 各地区年均收入因变量:地区产品销售额线性回归 列出方程 ,解释费用人均收入对费用的影响P 357 判定系数11.9 某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去 12 年的有关数据。通过计算得到下面的有关结果:方差分析表变 差 来 源 df SS MS F SignificanceF回 归 1 1602708.6 1602
18、708.6 399.1000065 2.17E09残 差 10 40158.07 4015.807 总 计 11 1642866.67 参数估计表Coefficients 标 准 误 差 tStat PvalueIntercept 363.6891 62.45529 5.823191 0.000168XVariable1 1.420211 0.071091 19.97749 2.17E09要求: (1)完成上面的方差分析表。(2)汽车销售量的变差中有多少是由于广告费用的变动引起的?(3)销售量与广告费用之间的相关系数是多少?(4)写出估计的回归方程并解释回归系数的实际意义。(5)检验线性关系的
19、显著性(a 0.05) 。解:(2)R 2=0.9756,汽车销售量的变差中有 97.56%是由于广告费用的变动引起的。(3)r=0.9877。 (4)y=363.6891+1.1420211x 回归系数的意义:广告费用每增加一个单位,汽车销量就增加 1.42 个单位。(5)回归系数的检验:p=2 .17E09 , 回 归 系 数 不 等 于 0, 显 著 。回 归 直 线 的 检 验 : p=2.17E09 , 回 归 直 线 显 著 。12.4 一家电器销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估计。下面是近 8 个月的销售额与广告费用数据:月 销
20、 售 收 入 y(万 元 ) 电 视 广 告 费 用 工 : x1 (万 元 ) 报 纸 广 告 费 用 x2(万 元 )96909592959494945 02 04 02 53 03 52 53 01.52 01 52.53 32 34 22 5要求:(1)用电视广告费用作自变量,月销售额作因变量,建立估计的回归方程。(2)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。(3)上述(1)和(2) 所建立的估计方程,电视广告费用的系数是否相同?对其回归系数分别进行解释。(4)根据问题(2) 所建立的估计方程,在销售收入的总变差中,被估计的回归方程所解释的比例是多少
21、?(5)根据问题(2)所建立的估计方程,检验回归系数是否显著(a=0.05)。SUMMARY OUTPUT回归统计Multiple R 0.958663444R Square 0.9190356Adjusted R Square 0.88664984标准误差 0.642587303观测值 8方差分析df SS MS F Significance F回归分析 2 23.43541 11.7177 28.37777 0.00186524残差 5 2.064592 0.412918总计 7 25.5 Coefficients 标准误差 t Stat P-value Lower 95% Upper 9
22、5% 下限 95.0% 上限 95.0%Intercept 83.23009169 1.573869 52.88248 4.57E-08 79.1843394 87.27584 79.18434 87.27584电视广告费用工:x1 (万元) 2.290183621 0.304065 7.531899 0.000653 1.50856207 3.071805 1.508562 3.071805报纸广告费用 x2(万元) 1.300989098 0.320702 4.056697 0.009761 0.47660075 2.125377 0.476601 2.125377解:(1)回归方程为:
23、8.64+1yx(2)回归方程为: 123.2.9.3(3)不相同, (1)中表明电视广告费用增加 1 万元,月销售额增加 1.6 万元;(2)中表明,在报纸广告费用不变的情况下,电视广告费用增加 1 万元,月销售额增加2.29 万元。(4)判定系数 R2= 0.919,调整的 = 0.8866,比例为 88.66%。2aR(5)回归系数的显著性检验:Coefficients 标准误差 t Stat P-value Lower 95%Upper 95%下限 95.0%上限 95.0%Intercept 83.23009 1.57386952.882484.57E-08 79.18433 87.
24、27585 79.18433 87.27585电视广告费用工:x1 (万元) 2.290184 0.3040657.5318990.000653 1.508561 3.071806 1.508561 3.071806报纸广告费用 x2(万元) 1.300989 0.3207024.0566970.009761 0.476599 2.125379 0.476599 2.125379假设:H 0: =0 H1: 01t= = =7.531S2.934=2.57, ,认为 y 与 x1 线性关系显著。0.25tt0.25(3)回归系数的显著性检验:假设:H 0: =0 H1: 022t= = =4.052S1.3=2.57, ,认为 y 与 x2 线性关系显著。0.5tt0.25