1、一、问答题和简答题1. 常见的三类误差是什么?应采取什么措施和方法加以控制?答:常见的三类误差是:(1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。要尽量查明其原因,必须克服。(2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差。对于这种误差应采取相应的措施加以控制,至少应控制在一定
2、的允许范围内。一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的。(3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与总体均数(或其它参数)之间仍可能有差异。这种差异是由抽样引起的,故这种误差叫做抽样误差,要用统计方法进行正确分析。2. 抽样中要求每一个样本应该具有哪三性?答:从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。(1)代表性: 就是要求样本中的每一个个体必须符合总体的规定。(2)随机性: 就是要保证总体中的每个个体均有相同的几率被抽作样本。(3)可靠性: 即
3、实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度。由于个体之间存在差异, 只有观察一定数量的个体方能体现出其客观规律性。每个样本的含量越多,可靠性会越大,但是例数增加,人力、物力都会发生困难,所以应以“足够”为准。需要作“样本例数估计”。3. 什么是两个样本之间的可比性?答:可比性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对比原则。4. 标准正态分布(u分布)与t分布有何异同?相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时)不同点:t分布
4、是一簇分布曲线,t 分布的曲线的形状是随自由度的变化而变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1。5. 标准差与标准误有何区别和联系?区别:(1)含义不同: s描述个体变量值(x)之间的变异度大小,s越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。标准误是描述样本均数之间的变异度大小,标准误 越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与n的关系不同: n增大时,s(恒定)。标准误减少并趋于0(不存在抽样误差)。(3)用途不同: s:表示x的变异度大小,计算cv,估计正常值范围,计算标准误等:参数
5、估计和假设检验。联系: 二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。6. 应用相对数时的注意事项有哪些?要注意绝对数与相对数结合应用;要注意观察单位样本数不宜过小;要注意分子分母正确选用;要注意率与比的正确应用;要注意平均率的计算方法;要注意资料的可比性;率和构成比比较时作假设检验。7. 简述直线回归与直线相关的区别。(1)资料要求上不同:直线回归分析适用于应变量是服从正态分布的随机变量,自变量是选定变量;直线相关分析适用于服从双变量正态分布的资料。(2) 两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示应变量随自变量变
6、化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大。8. 何谓抽样误差?分别写出均数的抽样误差和率的抽样误差的描述指标及计算公式。答:总体中的个体间存在变异,在进行抽样研究时,样本的统计量不等于总体参数,这种误差称为抽样误差。均数的抽样误差:常用样本均数的标准差 (简称标准误)反映均数抽样误差的大小。 (理论值), (估计值)。率的抽样误差:常用率的标准误反映率的抽样误差的大小。 (理论值), (估计值)。9. 假设检验的理论依据是什么?请简述假设检验的基本步骤。答:假设检验的理论依据是小概率事件原理,步骤为:(1)根据研究目的建立假设,确定检验水准
7、(2)根据样本统计量的抽样分布规律,选择适当的统计方法,计算检验统计量(3)确定P值,做出推断结论10. 方差分析的基本思想是什么?你所知道的其用途有哪些?答:方差分析的基本思想就是按研究目的和设计类型,将总变异的离均差平方和SS和自由度v分别分解成若干部分,并求得各相应部分的变异;其中的组内变异或误差主要反映个体差异或抽样误差,其它部分的变异与之比较得出统计量F值,由F值的大小确定P值,并做出推断。 方差分析应用广泛,可用于:两个或多个样本均数间的比较;分析两个或多个因素间的交互作用;回归方程的线性假设检验;多元线性回归分析中偏回归系数的假设检验等。本章主要介绍完全随机设计资料的方差分析、配
8、伍组设计资料的方差分析及重复测量数据的方差分析。13. 什么是假设检验中的两类错误?什么是检验效能?其大小与哪些因素有关?答:假设检验中的第一类错误是指“拒绝了实际上成立的H0假设”时所犯的错误,当H0成立时犯第一类错误的概率等于检验水准。假设检验中的第二类错误是指“不拒绝实际上不成立的H0假设”时所犯的错误,其概率通常用表示,其大小与抽样误差大小及设定的检验水准有关。 1-为假设检验的检验效能,也就是两个总体确实有差别时检出该差别的能力;14. c2检验的基本思想是什么?其用途主要有哪些?答:c2检验的基本思想:其计算公式为,式中A代表实际频数;T代表理论频数;而c2值反映了实际频数与理论频
9、数的吻合程度,其中反映了某个格子实际频数与理论频数的吻合程度。若检验假设H0成立,实际频数与理论频数的差值会小,则c2值也会小;反之,若检验假设H0不成立,实际频数与理论频数的差值会大,则c2值也会大。c2检验的用途:a、单样本的拟合优度检验;b、比较两个独立样本的频率分布是否不同;c、多个独立样本的频率分布是否不同;d、比较配对样本的频率分布;15. 对两个随机变量进行关联性或相关性分析时,如何正确选择统计分析方法(写出相应的公式)?答:两变量为数值变量时:a、若两变量均为正态随机变量,且其散点图呈直线趋势,则用直线相关分析,计算样本相关系数:然后对其进行假设检验:H0:=0H1:0=0.0
10、5,v=n-2b、若两变量为非正态分布,则用等级相关分析。将两变量各自按由小到大的顺序排秩,编上秩次,求各对数据的秩次之差,记为di。按下式计算Spearman等级相关系数:然后对其进行假设检验:H0:=0H1:0=0.05当n50时,查Spearman等级相关系数界值表;当n50时,按下式计算检验统计量u:,根据标准正态分布的概率函数确定P值,作出推断结论。两变量为分类变量时:a、两变量均为无序多分类变量时:用行列表的c2检验:H0:两变量无关联H1:两变量有关联=0.05,若拒绝H0,接受H1,可计算Pearson关联系数:b、两变量均为有序多分类变量时,可用Spearman等级相关分析,
11、方法同前。16. 简述t检验的具体步骤,如何进行检验结果判断?步骤:(1)建立假设和确定检验水准;(2)计算统计量;(3)确定P值;(4)判断结果。结果的判断:P ,接受H0,差异无显著性,可认为差异是由抽样误差所致。P ,拒绝H0,差异有显著性,可认为样本间存在差异。17. 统计表和统计图的用途是什么?统计工作中,用统计表和统计图的形式说明资料在数量方面的大小,变动趋势,分布情况以及相互关系,以代替冗长的文字叙述,使结果一目了然,便于阅读,便于分析和比较。18. 抽样研究中如何才能控制或减小抽样误差? 答:合理的抽样设计,增大样本含量。 19. 何谓抽样误差?为什么说抽样误差在抽样研究中是不
12、可避免的? 答:由抽样造成的样本统计量与样本统计量,样本统计量与总体参数间的差异 因为个体差异是客观存在的,研究对象又是总体的一部分,因此这部分的结果与总体的结果存在差异彩是不可避免的 20. 能否说假设检验的p值越小,比较的两个总体指标间差异越大?为什么? 答:不能,因为P值的大小与总体指标间差异大小不完全等同。P值的大小除与总体差异大小有关,更与抽样误差大小有关,同样的总体差异,抽样误差大小不同,所得的P也会不一样,抽样误差大小实际工作中主要反映在样本量大小上。21.在秩和检验中,为什么在不同组间出现相同数据要给予“平均秩次”,而在同一组的相同数据不必计算平均秩次? 答:这样编秩不影响两组
13、秩和的计算,或对两组秩和的计算不产生偏性。 22. 某医生用某药治疗10例小儿支气管哮喘,治愈8例,结论为“该药对小儿支气管哮喘的治愈率为80%,值得推广”。 答:一是没有对照组,二是样本例数太少,抽样误差大,可信区间宽。 23. 某地岁婴儿平均血红蛋白95可信区间为116.2130.1(g/L),表示什么意义?该地1岁正常婴儿血红蛋白95的参考值范围为111.2135.1(g/L),又说明了什么含义? 答:表示该地岁婴儿血红蛋白总体平均数在116.2130.1(g/L),估计正确的概率为95% 表示该地有951岁正常婴儿的血红蛋白值在111.2135.1(g/L) 24. 对同一组资料,如果
14、相关分析算出的r越大,则回归分析算出的b也越大。为什么? 答:没有这个规律。相关分析r值大小仅说明变量间联系紧密,而回归分析b的大小说明两者数量关系。25. 某医生用某药治疗10例小儿支气管哮喘,治愈8例,结论为“该药对小儿支气管哮喘的治愈率为80%,值得推广”。 答:一是没有对照组,二是样本例数太少,抽样误差大,可信区间宽。 25. 描述集中趋势的指标有哪些?其适用范围有何异同?(5分) 均数:适用于正态或近似正态分布 几何均数:适用于等比数列或对数正态分布资料 中位数:适用于资料是偏态分布的;分布不规则;一端或两端有不确定数据(开口资料)时。 26. 何谓假设检验?可以举例说明。(5分)
15、首先建立检验假设,然后在该假设下进行随机抽样,计算得到该统计量及其极端情形的概率,如果概率较小,则拒绝该假设,如果概率不是小概率,则接受该假设,这个过程称为假设检验。 27. 请你谈谈对假设检验结论的认识。(5分) 由于假设检验的结论是依据小概率事件一次试验实际不可能发生的原理进行的,因此当拒绝检验假设时可能犯I型错误,当接受检验假设时可能犯II型错误。 28. 请你谈谈标准差和标准误的异同点。(5分) 区别点标准差标准误意义个体差异大小抽样误差大小计算公式总体标准差:样本标准差:或与n的关系n,则Sn,则0用途与均数结合可制定参考值范围与均数结合可计算总体均数的可信区间32. 试述假设检验中
16、 I 型错误与 II 型错误的意义及关系。 答:拒绝了实际上成立的H0,这类“弃真”的错误称为型错误(typeerror)或第一类错误;不拒绝实际上不成立的H0,这类“存伪”的错误称为型错误(typeerror)或第二类错误。型错误的概率用表示,是根据研究者的要求在计算检验统计量之前设定的。型错误的概率用表示,一般地,的大小和样本例数、值、两总体的实际差距有关,它只有与特定的H1结合起来才有意义,而通常的检验假设其总是非特定的,所以值的大小很难确切估计。仅知道样本例数确定时,越小,越大,反之,越大,越小。所以和是相互制约的,可以根据研究要求适当控制。要同时减少及,唯一的方法是增加样本例数,当样
17、本例数确定后,可以通过选定来控制。若重点减少,一般取较小的;若重点减少,一般取=0.05,=0.1或更高,因为虽属未知,但估计比取=0.01时小些。33. 试比较完全随机设计和随机区组设计资料的方差分析基本思想。 (1)完全随机设计资料的方差分析完全随机设计(completely random design):亦称成组设计。该设计仅涉及一个研究因素,k个不同的水平(k个分组)。用单因素方差分析(one-way ANOVA)。三种变异:SS总=SS组间+SS组内(2)随机区组设计资料的方差分析随机区组设计(random block design):又称配伍设计,是配对设计的扩展。四种变异:SS总
18、= SS处理+ SS区组+ SS误差,总=kb-134. 试比较标准差和标准误的关系与意义。 答:标准差是描述个体值变异程度的指标,为方差的算术平方根,该变异不能通过统计方法来控制。而标准误则是指样本统计量的标准差,均数的标准误实质是样本均数的标准差,它反映了样本均数的离散程度,也反映了样本均数与总体均数的差异,说明了均数的抽样误差。35. 简述非参数检验的应用条件和优缺点。 答:应用条件:有序分类资料、偏态分布资料、变异较大或方差不齐的资料、分布型不明的资料及有特大、特小值或数据的一端或两端有不确定数值的资料。主要优点是不受总体分布的限制,适用范围广。主要缺点是符合参数检验的资料(两样本均数
19、比较的t检验),如用非参数检验,因没有充分利用资料提供的信息,检验效率降低。37. 复相关系数与决定系数的定义与意义 答:复相关系数:称为复相关系数。R的意义:Y与多个自变量间的线性相关程度;Y与估计值间的相关程度。确定系数:相关系数的平方称为确定系数,它反映回归贡献的程度。相当于在总离均差平方和中回归能解释的百分比。即说明回归贡献占Y的总变异中的比例。38. 什么是可信区间,可信区间有哪两个要素?答:可信区间:按一定的概率或可信度(1-)用一个区间估计总体参数所在范围,这个范围称作可信度1-的可信区间(confidence interval, CI),又称置信区间。可信区间的两个要素:准确性
20、:又称可靠性,反映为可信度1-的大小,显然可信度愈接近1愈好。精确性:常用可信区间的长度CLCU来衡量。当然长度愈小愈好。精确性与变量的变异程度大小、样本例数和1-取值有关。39. 常用非参数假设检验方法有哪些?答:常用的非参数检验方法有符号检验、秩和检验、等级相关检验及Radit分析等。40. 简述正态分布的应用。答:(1)估计频数分布,(2)制定参考值范围,(3)质量控制:为了控制实验中的检测误差,常以2 s作为上、下警戒值,以3 s作为上、下控制值。(4)统计分析方法的基础。42. 简述秩相关的适用范围。答:秩相关的适用范围:(1)不服从双变量正态分布而不宜作积差相关分析;(2)总体分布
21、类型未知;(3)原始数据用等级表示。43. 简述假设检验的注意事项。答:假设检验的注意事项:假设检验时可能犯两类错误;选择检验方法要注意符合其应用条件;正确理解假设检验的结论;当差别无显著性时,有两种可能;统计学的显著性与否和日常生活中的显著性概念不同;单侧检验与双侧检验。44. 简述正态分布的特征。答:(1)单峰分布;当X=时,f(X)取最大值;总体中位数亦为。(2)以均数为中心,左右完全对称。(3)正态分布取决于两个参数,即均数和标准差。(4)有些指标不服从正态分布,但通过适当的变换(transformation)后服从正态分布(5)正态分布曲线下的面积分布是有规律的。45. 简述频数表的
22、主要用途。答:(1)通过频数表了解数据的分布特征。X值分布情况:偏态或正态分布;取值情况:变量值取值范围;集中趋势:变量值集中位置。(2)便于发现资料中的可疑值。(3)组段的频率作为概率的估计。46. 简述t分布的特征。答:(1)一簇单峰分布曲线;(2)以0为中心,左右对称;(3)与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。47. 简述秩和检验的应用范围。答:秩和检验的适用范围广,特别适用于组间比较:(1)数据分布为偏态分布或不满足参数检验方法(组间方差不齐)的计量资料。(2)有的数据为无确切值,只是某值或值的计量资料。(3)当比较的数据只能用严重程度、优劣等级的半定量(等级)资料组间的比较。秩和检验用于定量资料计量资料中,变量值(x):极度偏态资料,或个别数值偏离过大;各组离散度相差悬殊;资料中含有不确定值, 大于5年 、 0.1;兼有等级和定量性质的资料。48. 什么是百分位数? 答:百分位数(percentile):是一种位置指标,以Px表示,一个百分位数Px将全部观察值分为两个部分,理论上有x%的观察值小于Px小,有(1-x%)的观察值大于Px。计算定义:将一组变量值由小到大依次排列,为第x百分位数的秩次,其对应的变量值(x)为第x百分位数,记为Px。