数理统计资料.doc-道客多多_道客多多docduoduo.com

资源描述

1、数理统计复习参考资料判断题1. 研究人员测量了 100 例患者外周血的红细胞数，所得资料为计数资料。X2. 统计分析包括统计描述和统计推断。3. 计量资料、计数资料和等级资料可根据分析需要相互转化。4. 均数总是大于中位数。X5. 均数总是比标准差大。X6. 变异系数的量纲和原量纲相同。X7. 样本均数大时，标准差也一定会大。X8. 样本量增大时，极差会增大。9. 若两样本均数比较的假设检验结果 P 值远远小于 0.01，则说明差异非常大。X10. 对同一参数的估计，99%可信区间比 90%可信区间好。 X11. 均数的标准误越小，则对总体均数的估计越精密。 12. 四个样本率做比较，，可

2、认为各总体率均不相等。X2)3(05.13. 统计资料符合参数检验应用条件，但数据量很大，可以采用非参数方法进行初步分析。14. 对同一资料和同一研究目的，应用参数检验方法，所得出的结论更为可靠。X15. 等级资料差别的假设检验只能采用秩和检验，而不能采用列联表 2 检验等检验方法 X。16. 非参数统计方法是用于检验总体中位数、极差等总体参数的方法。X17. 剩余平方和 SS 剩 1=SS 剩 2，则 r1 必然等于 r2。X18. 直线回归反映两变量间的依存关系，而直线相关反映两变量间的相互直线关系。19. 两变量关系越密切 r 值越大。X20. 一个绘制合理的统计图可直观的反映事物间的正

3、确数量关系。21. 在一个统计表中，如果某处数字为“0”，就填“0”，如果数字暂缺则填“”，如果该处没有数字，则不填。X 22. 备注不是统计表的必要组成部分，不必设专栏，必要时，可在表的下方加以说明。 23. 散点图是描写原始观察值在各个对比组分布情况的图形，常用于例数不是很多的间断性分组资料的比较。 24. 百分条图表示事物各组成部分在总体中所占比重，以长条的全长为 100%，按资料的原始顺序依次进行绘制，其他置于最后。X25. 用元参钩藤汤治疗 80 名高血压患者，服用半月后比服用前血压下降了 2.8kPa，故认为该药有效（ X ）。26. 在实验设计中，样本含量越大，越符合其重复原则

4、，越能降低实验误差（X ）。名词解释总体：总体（population）是根据研究目的确定的同质的观察单位的全体，更确切的说，是同质的所有观察单位某种观察值（变量值）的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体，反之为无限总体。样本：从总体中随机抽取部分观察单位，其测量结果的集合称为样本（sample）。样本应具有代表性。所谓有代表性的样本，是指用随机抽样方法获得的样本。变异：个体间测量结果的差异称为变异。变异是生物医学研究领域普遍存在的现象。严格的说，在自然状态下，任何两个患者或研究群体间都存在差异，其表现为各种生理测量值的参差不齐。标准差（standard

5、 deviation）是方差的正平方根，使用的量纲与原量纲相同，适用于近似正态分布的资料，大样本、小样本均可，最为常用。(S: 样本标准差, :总体标准差）标准误：通常将样本统计量的标准差称为标准误。许多样本均数的标准差称为均数的标准误（standard error Xof mean，SEM），它反映了样本均数间的离散程度，也反映了样本均数与总体均数的差异，说明均数抽样误差的大小。( ：率的标准误, ：均数的标准误, ：标准误的点估计值)pXXS中位数：将一组观察值由小到大排列或从大到小排列，位次居中的那个数。四分位数间距（inter-quartile range）是由第 3 四分位数和第

6、 1 四分位数相减计算而得，常与中位数一起使用，描述偏态分布资料的分布特征，较极差稳定。极差（range）亦称全距，即最大值与最小值之差，用于资料的粗略分析，其计算简便但稳定性较差。统计推断：通过样本指标来说明总体特征，这种通过样本获取有关总体信息的过程称为统计推断（statistical inference）。抽样误差（均数/率的误差）：由个体变异产生的，由于抽样造成的样本统计量与总体参数的差异，称为抽样误差（sampling error）。参数估计：指用样本统计量估计总体参数。参数估计有两种方法：点估计和区间估计。可信区间：按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为

7、总体参数的可信区间（CI）。它的确切含义是：可信区间包含总体参数的可能性是 1- ，而不是总体参数落在该范围的可能性为 1- 。 I 型和 II 型错误：I 型错误（type I error），指拒绝了实际上成立的 H0，这类“弃真”的错误称为 I 型错误，其概率大小用表示；II 型错误（type II error），指接受了实际上不成立的 H0，这类“存伪”的错误称为 II 型错误，其概率大小用表示。假设检验中 P 的含义：指从 H0规定的总体随机抽得等于及大于（或等于及小于）现有样本获得的检验统计量值的概率。完全随机设计：只考虑一个处理因素，将全部受试对象随机分配到各处理组，然

8、后观察实验效应，这种设计叫做完全随机设计。随机区组设计：事先将全部受试对象按自然属性分为若干区组，原则是各区组内的受试对象的特征相同或相近，且受试对象数与处理因素的水平数相等。然后再将每个区组内的观察对象随机地分配到各处理组，这种设计叫做随机区组设计。率：又称频率指标，说明一定时期内某现象发生的频率或强度。计算公式为：，表示方式有：百分率（%）、千分率（）等。构成比（proportion）又称构成指标，说明某一事物内部各组成部分所占的比重或分布。计算公式为：，通常以百分数表示。比（ratio ）又称相对比，是 A、B 两个有关指标之比，说明 A 是 B 的若干倍或百分之几。计算公式为：

9、比，表示方式为倍数或分数。二项分布：若一个随机变量 X，它的可能取值是 0,1,n，且相应的取值概率为kknP)1()(则称此随机变量 X 服从以 n、为参数的二项分布（Binomial Distribution ），记为10单位总数可能发生某现象的观察数发生某现象的观察单位率 10观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比XB（n, ）。Poisson 分布：若离散型随机变量 X 的取值为 0,1,n，且相应的取值概率为（ 0）ekP!)(则称随机变量 X 服从以为

10、参数的 Poisson 分布（Poisson Distribution ），记为 XP （）。直线回归（linear regression）建立一个描述应变量依自变量变化而变化的直线方程，并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种，故又称简单回归（simple regression ）。回归系数（regression coefficient ）即直线的斜率(slope) ，在直线回归方程中用 b 表示，b 的统计意义为 X 每增（减）一个单位时，Y 平均改变 b 个单位。直线相关（linear correlation）又称简单相关（ simple

11、 correlation），用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。相关系数又称积差相关系数（coefficient of product-moment correlation），以符号 r 表示样本相关系数，表示总体相关系数。它是说明具有直线关系的两个变量间，相关关系的密切程度与相关方向的指标。方差分析：方差分析（analysis of variance，ANOVA）就是根据资料的设计类型，即变异的不同来源将全部观察值总的离均差平方和与自由度分解为两个或多个部分，除随机误差外，其余每个部分的变异可由某个因素的作用（或某几个因素的交互作

12、用）加以解释。通过各变异来源的均方与误差均方比值的大小，借助 F 分布作出统计推断，判断各因素对观测指标有无影响。配对四格表：配对四格表：为了控制随机误差而采用配对设计方案，将条件相似的两个受试对象配成一对，然后随机地让其中一个接受 A 处理，另一个接受 B 处理，每种处理的反应都按二项分类。全部 n 对实验结果的资料以表 8-12 表示，这样的表称为配对四格表。表 8-12 配对四格表的形式处理A 处理+ + a b c d等级资料：将观察单位按测量结果的某种属性的不同程度分组，所得各组的观察单位数，称为等级资料(ordinal data)。等级资料又称有序资料。如患者的治疗结果可分为治愈、

13、好转、有效、无效、死亡，各种结果既是分类结果，又有顺序和等级差别，但这种差别却不能准确测量。正态分布：若资料的频率曲线对应于数学上的正态曲线，则称该资料服从正态分布。通常用记号表示X ),(2N均数为，标准差为的正态分布。5、简答题1.简述二项分布、Poisson 分布和正态分布间的联系。答：二项分布、Poisson 分布和正态分布间的联系为：（1）在 n 很大，而很小，且 n = 为常数时，二项分布的极限分布为 Poisson 分布；（2）在 n 较大、不接近 0 也不接近 1 时，二项分布 B(n， )近似正态分布，而相应的样本率 P 的分布也近似正态分布。(,1)Nn 2

14、(,)PN（3）当增大时，Poisson 分布渐近正态分布。一般而言， 20 时，Poisson 分布资料可作为正态分布处理。2、假设检验中与 P 的区别何在？答：和 P 均为概率，其中是指拒绝了实际上成立的 H0所犯错误的最大概率，是进行统计推断时预先设定的一个小概率事件标准。 P 值是由实际样本获得的，在 H0成立的前提条件下，出现等于及大于(或/和等于及小于)现有样本获得的检验统计量值的概率。在假设检验中通常是将 P 与对比来得到结论，若 P ，则拒绝 H0，接受 H1，有统计学意义，可以认为不同或不等；否则，若 P，则不拒绝 H0，无统计学意义，还不能可以认为不同或不等。3

15、、均数、几何均数、和中位数的适用范围？均数：适用于对称分布，特别是正态分布资料。几何均数：适用于成等比级数的资料，特别是对数正态分布资料中位数：各种分布类型的资料，特别是偏态分布资料和开囗资料4、均数的可信区间与参考值范围有何不同？答：均数的可信区间与参考值范围的区别主要体现在含义、计算公式和用途三方面的不同，具体如下表所示。区别点均数的可信区间参考值范围意义按预先给定的概率所确定的未知参数的可能范围。实际上一次抽样算得的可信区间要么包含了总体均数，要么不包含。但可以说：该可信区间有多大(如当 =0.05 时为 95%)的可能性包含了总体均数。“正常人 ”的解剖、生理、生化某项指标的波动范

16、围。计算公式未知： *已知： */2,SXtn/2Xun未知但 n60： */2u 正态分布： */2XuS偏态分布：P XP100X用途估计总体均数判断观察对象的某项指标正常与否5、简述回归系数与相关系数的区别与联系。答：二者的联系：（1）对于既可作相关又可作回归分析的同一组数据，计算出的与正负号一致。br（2）相关系数与回归系数的假设检验等价，即对于同一样本，。t（3）同一组数据的相关系数和回归系数可以相互换算：。/YXYrSA（4）用回归解释相关：由于决定系数 =SS 回 /SS 总，当总平方和固定时，回归平方和的大小决定了相关的2r密切程度，回归平方和越接近总平方和，则

17、越接近 1，说明引入相关的效果越好。2r二者的区别：（1）资料要求上：相关要求、服从双变量正态分布，这种资料进行回归分析称为型回归；回归要求XY在给定某个值时服从正态分布，是可以精确测量和严格控制的变量，称为型回归。YX（2）应用上：说明两变量间相互关系用相关，此时两变量的关系是平等的；而说明两变量间依存变化的数量关系用回归，用以说明如何依赖于而变化。（3）意义上：说明具有直线关系的两变量间相互关系的方向与密切程度；表示每变化一个单位所导r bX致的平均变化量。Y（4）计算上：，。YXllr/XYlb/（5）取值范围：，。1（6）单位：没有单位，有单位。r6、

18、为什么假设检验的结论不能绝对化？答：因为通过假设检验推断作出的结论具有概率性，其结论不可能完全正确，有可能发生两类错误。拒绝H0 时，可能犯 I 型错误；“ 接受 ”H0 时可能犯 II 型错误。无论哪类错误，假设检验都不可能将其风险降为 0，因此在结论中使用绝对化的字词如“肯定”， “一定”， “必定”就不恰当。7、在完全随机设计方差分析中 SS 组间、SS 组内各表示什么含义？答：表示组间变异，指各处理组样本均数大小不等，是由处理因素（如果有）和随机误差造成的；S组间表示组内变异，指各处理组内变量值大小不等，是由随机误差造成的。组内8、随机区组设计的方差分析与完全随机设计方差

19、分析在设计和变异分解上有什么不同？答：区别点完全随机设计随机区组设计设计采用完全随机化的分组方法，将全部试验对象分配到 g 个处理组（水平组），各组分别接受不同的处理。随机分配的次数要重复多次，每次随机分配都对同一个区组内的受试对象进行，且各个处理组受试对象数量相同，区组内均衡。变异分解三种变异：SS总组间组内（）处处处四种变异：SS处理区组总误差9、试举例说明均数的标准差与标准误的区别与联系。答：例如某医生从某地 2000 年的正常成年男性中，随机抽取 25 人，算得其血红蛋白的均数为 138.5g/L，X标准差 S 为 5.20g/L，标准误为 1.0

20、4g/L。在本例中标准差就是描述 25 名正常成年男性血红蛋白变异程度的指XS标，它反映了这 25 个数据对其算术均数的离散情况。因此标准差是描述个体值变异程度的指标，为方差的算术平方根，该变异不能通过统计方法来控制。而标准误则是指样本统计量的标准差，均数的标准误实质是样本均数的标准差，它反映了样本均数的离散程度，反映了样本均数与总体均数的差异，说明了均数的抽样误差。本例均数的标准误，此式将标准差和标准误从数学上有机地联系起来了，同时还可以看出：当标5.201.4XSn准差不变时，通过增加样本含量可以减少标准误。10、正态分布与标准正态分布联系与区别?答：二种分布均为连续型随机变量的分布。正

21、态分布、标准正态分布均为对称分布。标准正态分布是一种特殊的正态分布（均数为 0，标准差为 1）。一般正态分布变量经标准化转换后的新变量服从标准正态分布。11、常用的相对数有哪几种？简述各种相对数指标的含义，计算方法及特点。答：有强度相对数（率）、结构相对数（构成比）、相对比三种。率的含义：某现象实际发生的例数与可能发生的总例数之比，说明某现象发生的频率或强度。其特点为：说明某现象发生的强弱。计算公式：某时期内发生某现象的观察单位数率比例基数同期可能发生某现象的观察单位总数构成比的含义：事物内部某一部分的个体数与该事物各部

22、分个体数的总和之比，用来说明各构成部分在总体中所占的比重或分布，通常以 100 为比例基数，又称为百分比。其特点为：一组构成比的总和应等于 100%，即各个分子的总和等于分母；各构成部分之间是相互影响的，某一部分比重的变化受到两方面因素的影响，其一是这个部分自身数值的变化，其二是受其他部分数值变化的影响。计算公式： 10%某一组成部分的观察单位数构成比同一事物各组成部分的观察单位总数相对比的含义：是两个有关指标之比，说明两指标间的比例关系。其特点为：两个指标可以是性质相同，也可以是性质不同；两个指标可以是绝对数、相对数或平均数。计算公式

23、：10%甲指标相对比（）乙指标12、应用相对数时应注意哪些问题？答：（1）算相对数时分母应该有足够数量；（2）分析时不能以构成比代替率；（3）分别将分子和分母合计求合计率或平均率；（4）相对数的比较应该注意其可比性；（5）样本率或构成比比较时应做假设检验13、对于四格表资料，如何正确选用检验方法？答：（1）首先应分清是两样本率比较的四格表资料还是配对设计的四格表资料。（2）对于两样本率比较的四格表资料，应根据各格的理论值 T 和总例数 n 的大小选择不同的计算公式：2 当且所有的时，用检验的基本公式或四格表资料检验的专用公式40n5T222()AT2；当但有时，

24、用四格表资料检验的校正公式22()()adbcd40n512或，或改用四格表资料的 Fisher 确切概率法；当220.5cAT2()(nc|a-bc|=+d+，或时，用四格表资料的 Fisher 确切概率法。4n1若资料满足两样本率检验的条件，也可用检验。uu（3）对于配对设计的四格表资料，若检验两种方法的检测结果有无差别时当时，()40bc；当时，。22()bc()40bccbc22)1(14、什么叫做非参数检验？它和参数检验有什么区别？答：非参数检验对总体分布不作严格假定，不受总体分布的限制，又称任意分布检验，它直接对总体分布（或分布位置）作假设检验。如果总体分布为已知的

25、数学形式，对其总体参数作假设检验则为参数检验。15. I 型错误与 II 型错误有何区别与联系？了解这两类错误有何实际意义？I 型错误是指拒绝了实际上成立的 H0所犯的“弃真”错误，其概率大小用表示。II 型错误则是指“接受”了实际上不成立的 H0所犯的“取伪”错误，其概率大小用表示。当样本含量 n 确定时，愈小，愈大；反之愈大，愈小。了解这两类错误的实际意义在于，若在应用中要重点减少 (如一般的假设检验)，则取 =0.05；若在应用中要重点减少 (如方差齐性检验，正态性检验或想用一种方法代替另一种方法的检验等)，则取 =0.10 或0.20 甚至更高。6、计算题1、某医生随机检测

26、了某地 225 名健康成年男子的血清胆固醇含量，得 =4.0(mmol/L),S=0.6(mmol/L)，X=0.04(mmol/L)。XS（1）、指出本研究的总体、观察单位（或研究单位）和变量。总体：所有成年男子。观察单位: 一名成年男子。变量：一个成年男子的血清胆固醇含量（2）、本研究的抽样误差为多少？0.04（3）、试估计某地健康成年男子的血清胆固醇含量总体均数的 95%的可信区间。4.01.960.04（4）试估计某地健康成年男子的血清胆固醇含量的 95%的医学参考值范围。4.01.960.6（5）已知健康成年男子的血清胆固醇含量的标准值为 4.08(mmol/L),用统计

27、学专业术语回答某地健康成年男子的血清胆固醇含量是否不同于标准值？ (=0.01,u0.05=1.96,u0.01=2.58;采用 t 检验方法，t 值为 2.00。)由 u0.05=1.96,u0.01=2.58; t=2.00得 P0.01，按 =0.01 水准，不拒绝 H0 ，无统计学意义，尚不认为某地健康成年男子的血清胆固醇含量不同于标准值。2某市 20 岁男学生 160 人的脉搏数（次/分钟），经正态性检验服从正态分布。求得 76.10， =9.32。试XS估计脉搏数的 95%、99%参考值范围。解：脉搏数的 95%正常值范围为： =76.10 1.96（9.32）=57.8394

28、.37SX96.1脉搏数的 99%正常值范围为： =76.10 2.58（9.32）=52.05100.375823、某医院现有工作人员 900 人，其中男性 760 人，女性 140 人，在一次流感中发病者有 108 人，其中男性患者 79 人，而女性患者 29 人。试计算：该院总流感发病率？男、女流感发病率？男、女患者占总发病人数的百分比？该院总流感发病率为：（108900）100%12% 男性流感发病率为：（79760）100%10.39% ；女性流感发病率为：（29140）100%20.71% 男性患者占总发病人数的百分比为：（79108）100%73.15% ；女性患者占总发病人数

29、的百分比为：（29108）100%26.85%4、用甲乙两种方法检查已确诊的乳腺癌患者 120 名。甲法的检出率为 60%，乙法的检出率为 50%，甲、乙两法一致的检出率为 35%，问：1、该资料为何种类型的资料？计数资料2、欲比较甲、乙两法何者为优，宜用何种假设检验方法？配对设计 2 检验3、列出计算检验统计量的计算表。乙法甲法+ + a b c d算出 a42 b30 c18 d30 ，；()4022()bc4、若计算得的检验统计量小于相应于 P=0.05 的检验统计量的值时（检验水准 =0.05），应如何下结论？即 P0.05，按 =0.05 水准，不拒绝 H0 ，无统计学意义

30、，尚不认为两种方法有差别。5、据你所作的结论，可能犯何种类型的统计错误？型5、测得 8 名健康人和 8 名期矽肺病人血清粘蛋白含量（毫克/100 亳升）如下所示：健康人期矽肺病人64.26 69.6342.84 69.7352.48 65.6548.19 96.3469.61 95.2048.61 80.4458.90 80.4480.22 74.971、指出该研究的总体、样本含量、变量、和资料类型。总体：所有健康人样本含量： 8 资料类型：计量资料所有期矽肺病人 82、描述健康人（8 名）血清粘蛋白含量的集中趋势，该计算哪种平均数？比较健康人与期矽肺病人血清粘蛋白含量的变异度，该计算哪

31、种统计指标？均数标准差3、欲比较健康人和期矽肺病人血清粘蛋白含量是否有差别，如采用成组 t 检验，请指出其适用条件？各样本来自正态分布各样本均数方差齐性4、若计算得到的检验统计量大于相应于 P=0.01 的检验统计量的值时（检验水准 =0.01），此时如果拒绝 H0，可能犯何种类型的统计错误？犯错误的概率有多大？型 0.015、健康人组的样本含量增加到 16 人，计算的总体参数的 1 可信区间的估计精度该如何变化？为什么？精度提高，样本含量增加，可信区间变窄。6.为了解某一新降血压药物的效果，将 28 名高血压病患者随机分为试验组和对照组，试验组采用新降压药，对照组则用标准药物治疗，测

32、得治疗前后的舒张压(mmHg) 如下表：两种药物治疗前后的舒张压(mmHg)病人号 1 2 3 4 5 6 7 8 9 10 11 12 13 14治疗前 102 100 92 98 118 100 102 116 109 116 92 108 102 100新药治疗后 90 90 85 90 114 95 86 84 98 103 88 100 88 86病人号 1 2 3 4 5 6 7 8 9 10 11 12 13 14治疗前 98 103 110 110 110 94 104 92 108 110 112 92 104 90标准药治疗后 100 94 100 105 110 96 9

33、4 100 104 109 100 95 100 85问：(1) 新药是否有效？（2）新药和标准药的疗效是否不同?（要求：1.写出统计假设检验步骤;2.正确选定假设检验方法公式;）3.不必计算出统计量的精确值,可就假定的统计量的值作出结论.）7、用某中药预防流感，用药组与对照组的流感发病情况如下表：组别观察人数发病人数用药组 100 14 对照组 120 30 （1）每组流感的发病率是多少用药组 14/100*100%=14%对照组 30/120*100%=25%（2）欲比较两组的发病率，可以选用哪些统计方法？2 检验（3）若计算得到的检验统计量小于相应检验水准 =0.05 时该检验统计量的临界值时，你如何作判断？即 P0.05，按 =0.05 水准，不拒绝 H0 ，无统计学意义，尚不认为对照组与用药组的发病率不同。我的感想。现实生活的方方面面，很多简单或复杂的问题都与数理统计或直接或隐晦地相关，学好这门学科并不容易。尤其是把现实事例数学模型化是我学习的难点。认识到自己的不足，更需要努力学习，认真观察。

展开阅读全文