收藏 分享(赏)

医学统计学方法及试题分析.doc

上传人:hwpkd79526 文档编号:6966833 上传时间:2019-04-28 格式:DOC 页数:20 大小:72.50KB
下载 相关 举报
医学统计学方法及试题分析.doc_第1页
第1页 / 共20页
医学统计学方法及试题分析.doc_第2页
第2页 / 共20页
医学统计学方法及试题分析.doc_第3页
第3页 / 共20页
医学统计学方法及试题分析.doc_第4页
第4页 / 共20页
医学统计学方法及试题分析.doc_第5页
第5页 / 共20页
点击查看更多>>
资源描述

1、新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/第二单元 医学统计学方法第一节 基本概念和基本步骤(一)考什么?基本概念1.总体和样本2.同质和变异3.参数和统计量4.抽样误差5.概率6.变量和变量值基本步骤(二)最重点是什么?基本概念(三)最难点的是什么?抽样误差概率一、统计学中的几个基本概念1.总体:根据研究目的确定的、同质的全部研究对象(严格地讲,是某项观察值的集合)被称作总体。有限总体:总体中的个体数有限,如研究 2008 年中国 60 岁以上的老人血清总胆固醇含量,测定值的全部构成了一个总体。无限总体:总体中的个体数无限(或假设总体,或虚拟总体) 。如研究糖尿

2、病人的空腹血糖测定值,由于对时间和空间未加限制,全部糖尿病人的空腹血糖测定值则是一个无限总体。2.样本:根据随机化的原则从总体中抽出的有代表性的一部分观察单位组成的子集称作样本,如从糖尿病患者中随机抽取的有代表性的一组患者构成样本。3.同质:严格地讲,除了实验因素外,影响被研究指标的非实验因素相同被称为同质。但在人群健康的研究中有些非实验因素是难以控制或未知的,如遗传、营养、心理等。因此,在实际研究工作中,对被观测指标有影响的、主要的、可控制的非实验因素达到相同或基本相同就可以认为是同质。同质是研究的前提。4.变异:在同质的基础上被观察个体之间的差异被称作变异。如同性别、同年龄、同地区、同体重

3、儿童的肺活量有大有小,我们称之为肺活量的变异。这是统计数据的特性:变异性。5.参数:总体的统计指标称为参数,一般用希腊字母表示,如:m、s、。如通过普查得到中国 25 岁以上的成年人高血压患病率为参数。6.统计量:样本的统计指标称为统计量,如: s、 、p。如用随机的方法抽出一部分地区 25 岁以上的人进行体检,计算的患病率则为样本统计量。7.误差:观察值与实际值的差别为误差。观察过程中由于不认真仔细,造成错误地判新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/断、记录或录入计算机所致的观察值与实际值之差为过失误差;仪器若未经校准,使观察值统一的都偏低或偏高则为系统误差

4、;由于偶然的因素使同一个样品的测定值在不同的观察者之间、相同观察者的若干次观察值之间不完全相同。则被称作随机测量误差;从同一总体中抽样,得到某变量值的统计量和总体参数之间有差别,被称为抽样误差。8.概率:描述随机事件(如发病)发生可能性大小的度量为概率,常用 P 表示。P 值的范围在 0 和 1 之间,P0.05 的随机事件,通常称作小概率事件,即事件发生的可能性很小,统计学上可以认为在一次抽样是不可能发生的。9.变量及变量值:观察对象的特征或指标(如身高)称为变量。测量的结果被称为变量值(如身高值) 。数值变量:变量值是定量的,表现为数值的大小,有度量衡单位。 (计量资料)如:身高(cm)

5、、体重(kg)分类变量:变量值是定性的,表现为互不相容的类别或属性。 (计数资料)无序分类变量:各类别间无程度上的差别,如:性别分男女两类有序分类变量:各类别间有程度上的差别,如:临床疗效可分为治愈、显效、好转、无效四级二、统计工作的基本步骤医学统计工作基本步骤有四:设计、搜集资料、整理和分析资料。这四个步骤是相互联系的。1.设计:统计工作最关键的一步,整个研究工作的基础。2.搜集资料:指选择得到资料的最佳途径和获取完整、准确、可靠资料的过程。3.整理资料:资料整理的目的是将搜集到的原始资料系统化、条理化,便于进一步计算统计指标和深入分析。4.分析资料:根据研究设计的目的、要求、资料的类型和分

6、布特征选择正确的统计方法进行分析。常常从两个方面分析,一是进行统计描述,即计算平均值、发病率等;二是进行统计推断,即推断总体的特征,如推断总体均数等。【习题】1.样本是总体的A.有价值的部分B.有意义的部分C.有代表性的部分D.任意一部分E.典型部分答疑编号 500744020101正确答案C2.在统计学中,数值变量构成A.等级资料B.计数资料C.计量资料D.分类变量E.定性因素答疑编号 500744020102正确答案C3.统计学数据具有的特性新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/A.稳定性B.可加性C.主观性D.变异性E.可靠性答疑编号 500744020

7、103正确答案D4.统计工作的步骤不包括A.统计设计B.搜集资料C.分析资料D.整理资料E.题目的制定答疑编号 500744020104正确答案E5.(B1 型题)A.获得原始资料B.统计设计C.统计归纳,进行分组和汇总D.撰写文章E.计算统计指标,选择合适的检验方法并作出恰当的结论(1)收集资料是:答疑编号 500744020105正确答案A(2)整理资料是:答疑编号 500744020106正确答案C(3)分析资料是:答疑编号 500744020107正确答案E第二节 数值变量数据的统计描述(一)考什么?(1)集中趋势指标(2)离散趋势指标(3)正态分布的特点与面积分布规律(二)最重点是什

8、么?正态分布的集中趋势和离散趋势的指标(三)最难点的是什么?正态分布的特点与面积分布规律一、集中趋势指标平均数(average)是一类用于描述数值变量资料集中趋势(或平均水平)的指标。常新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/用的平均数包括:算术平均数、几何平均数与中位数。1.算术平均数:简称均数,它是一组变量值之和除以变量值个数所得的商。总体均数用希腊字母 (读作 mu)表示,样本均数用 表示。适用条件:资料呈正态或近似正态分布。大多数正常生物的生理、生化指标都宜用均数表达集中趋势。算术平均数的计算方法有直接法和加权法。2.几何均数:几何均数用 G 表示,是将

9、 n 个观察值 x 的乘积再开 n 次方的方根(或各观察值 x 对数值均值的反对数) 。适用条件是:当一组观察值为非对称分布、其差距较大时,用均数表示其平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如抗体的平均滴度,药物的平均效价等。3.中位数与百分位数中位数(M)是把一组观察值,按大小顺序排列,位置居中的变量值(n 为奇数)或位置居中的两个变量值的均值(n 为偶数) 。中位数是一个位次上的平均指标,以中位数为界,将观察值分为左右两半。适用情况有:当资料呈明显的偏态分布;资料一端或两端无确定数值(如大于或小于某数值)资料的分布情况不清楚,在这些情况下

10、多选用中位数。例如,某些传染病或食物中毒的潜伏期、人体的某些特殊测定指标(如发汞、尿铅等) ,其集中趋势多用中位数来表示。百分位数(percentile,Px):是把一组数据从小到大排列,分成 100 等份,各等份含 1%的观察值,分割界限上的数值就是百分位数。取任意一个百分位数 Px 可以把全部数值分为左右两半。中位数是第 50 百分位数,用 P50 表示。第 5,第 25,第 75,第 95 百分位数分别记为 P25,P75,P95 ,是统计学上常用的指标。四分位数间距 :P25,P75用于确定非正态分布资料的医学参考值范围。习题:有 8 个某种传染病人,他们的潜伏期分别为:l2 、11、

11、21、8、12、5、4、13,其中位数是:A.12B.11.5C.10D.8E.9.5答疑编号 500744020108正确答案B答案解析从小到大排列:4、 5、 8、 11、 l2、 12、 13 、21位于中间位置的数是:11 和 l2。中位数是 11.5二、离散趋势指标描述资料离散程度的指标 ,用于说明一组同质资料的离散度大小。1.全距用 R 表示,是一组资料的最大与最小值之差。全距越大,说明资料的离散程度越大。全距仅考虑两端数值之间的差异,未考虑其他数据的变异情况,且不稳定易受极端值大小的影响,不能全面反映一组资料的离散程度。2.四分位数间距用 Q 表示,若将一组资料分为四等份,上四分

12、位数 Qu(P75 )和下四分位数新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/QL(P25 )之差就是 Q。Q 值越大,说明资料的离散程度越大。通常用于描述偏态分布资料的离散程度。采用上、下四分位数,未用两端的数值,比全距稳定,但也未考虑每个观察值,也不能全面反应资料的离散趋势。3.方差离均差平方和(Xi 一 )2)的均数。总体方差用 2 表示,样本方差用 S2 表示,度量单位(如 cm,mmHg 等)都变为单位的平方值,公式分别为:4.标准差将方差开平方,取平方根的正值,就是标准差。公式为:n 一 l 和fi 一 1 为自由度。方差和标准差都是说明资料的变异程度,

13、其值越大,说明变异程度越大。标准差与算术均数一起使用,描述正态分布资料的集中趋势和离散趋势。标准差愈小,说明观察值的离散程度愈小,从而也说明用均数反映平均水平的代表性愈好。标准差的用途较广,概括起来有四个方面:反映一组观察值的离散程度,标准差小,离散程度小,均数的代表性好;用于计算变异系数;计算标准误;结合均值与正态分布的规律估计医学参考值的范围。5.变异系数:用 CV 表示,CV 是将标准差转化为算术均数的倍数,以百分数的形式表示。CV 常常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。公式为例:1.全面描述正态分布资料特征的两个指标是A.均数和中位数B.均数和标准差C.

14、均数和极差D.中位数和方差E.几何均数和标准差答疑编号 500744020201正确答案B2. 描述偏态分布资料特征的两个指标是A.均数和中位数B.均数和标准差C.均数和四分位数间距D.中位数和四分位数间距E.几何均数和标准差答疑编号 500744020202正确答案D3.两组呈正态分布的数值变量资料,但均数相差悬殊,若比较离散趋势,最好选用的指标为新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/A.全距B.四分位数间距C.方差D.标准差E.变异系数答疑编号 500744020203正确答案E三、正态分布的特点与面积分布规律1.正态分布及其特点正态分布是一种重要的连续型

15、分布,以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多、两侧逐渐减少、基本对称的分布。正态分布曲线,用 N(, 2)表示。对于任何一个均数和标准差分别为 与 的正态分布,都可以通过变量的标准正态变换( ,称作 正态差) ,使之成为标准正态分布,用 N(0,1)表示,即 值的均数为 0,标准差为 1。正态分布有以下五个特征:正态曲线在横轴上方,且均数所在处最高;正态分布以均数为中心,左右对称;正态分布有两个参数,即均数与标准差( 与 ) ,标准正态分布的均数和标准差分别为 0 和 1;正态曲线在士 l.96,标准正态分布在 1 处各有一个拐点;正态分布的

16、面积分布有一定的规律性。2.面积分布规律正态分布的面积规律见表 9-3表 93 正态分布和标准正态分布曲线下面积分布规律正态分布 标准正态分布 面积(或概率)11 11 68.27%1.961.96 1.961.96 95.00%2.582.58 2.582.58 99.00%例:普查某市 8 岁正常男孩体重,发现 95%的人体重在 18.3929.45 公斤,其标准差是:A.2.14 公斤B.5.14 公斤C.2.82 公斤D.0.95 公斤E.无法计算答疑编号 500744020204正确答案C新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/答案解析m-1.96sm

17、+1.96sm-1.96s=18.39m+1.96s=29.453.92s=11.06s=2.82(公斤)第三节 数值变量数据的统计推断(一)考什么?1.均数的抽样误差和标准误2.总体均数可信区间的估计3.假设检验的基本步骤4.两均数的假设检验(u 检验和 t 检验)5.分类变量资料的统计推断(二)最重点是什么?1.均数的抽样误差和标准误3.假设检验的基本步骤3.两均数的假设检验(u 检验和 t 检验)(三)最难点的是什么?1.均数的抽样误差和标准误2.两均数的假设检验(u 检验和 t 检验)一、均数的抽样误差从同一总体中随机抽取若干个观察单位数相等的样本,由于抽样引起样本均数与总体均数及样本

18、均数之间的差异称作均数的抽样误差,其大小可用均数的标准差描述,样本均数的标准差称为标准误。抽样误差在抽样研究中不可避免。标准误越大,均数的抽样误差就越大,说明样本均数与总体均数的差异越大。标准误计算公式为:公式 12公式中 表示总体标准差,n 为样本例数, 为标准误。实际研究中 是未知的,常以样本标准差 S 作为 的估计值计算标准误。记作为 公式 13由公式 13 可知,当样本例数 n 一定时,标准误与标准差呈正比;当标准差一定时,标准误与样本含量 n 的平方根呈反比。增加样本含量才可减少抽样误差。标准误的用途:一是用来衡量抽样误差大小,标准误越小,样本均数与总体均数越接近,即样本均数的可信度

19、越高;二是结合标准正态分布与 t 分布曲线下的面积规律,估计总体均数的置信区间;三是用于假设检验。例:1.反映均数抽样误差大小的指标是A.标准误B.标准差C.变异系数D.均数新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/E.全距答疑编号 500744020205正确答案A2.从一个呈正态分布的总体中随机抽样, 该差别被称为A.系统误差B.个体差异C.过失误差D.抽样误差E.测量误差答疑编号 500744020206正确答案D二、总体均数可信区间及其估计方法统计学的核心内容,是用样本信息推断总体特征:包括(1)参数估计和(2)假设检验对总体参数估计有点(值)估计和区间估

20、计两种方法。点(值)估计:是用样本统计量(如均数 )作为对总体参数(如均数 )的估计值。总体均数可信区间:是根据选定的可信度(或可靠度,用概率表示)估计的总体均数所在区间,即总体均数可能所在范围。在估计总体均数的可信区间时,可能估计错误,其概率用 表示,估计正确的概率为1-,也称为可信度,常用 95%或 99%。总体均数可信区间估计时根据以下三种情况选用公式:(1) 已知:总体均数 的 95%可信区间为:公式 15(2) 未知,但样本例数足够大,总体均数 95%的可信区间:公式 16(3) 未知、样本例数较小:按 t 分布原理,总体均数 95%的可信区间:公式 17例 7:随机抽取某地健康男子

21、 18 人,测得空腹静脉血的甘油三酯,均数 为1.298mmolL,标准差 S 为 0.663,试估计该地男子空腹静脉血甘油三酯总体均数的 95%可信区间。本例 =l.298,S 为 0.663,自由度 n-1=18-1=17,=0.05,查 t 界值表,双侧 t0.05/2.17=2.110,代入公式 17得(1.298-2.110.1563,1.298 +2.110.1563)=(0.968,1.628) 。该地健康男子甘油三酯总体均数的 95%可信区间为(0.968,1.628)mmol L。总体均数 95%可信区间的涵义是:从总体中随机抽样,理论上讲,进行 100 次抽样,可算得 10

22、0 个可信区间,约有 95 个可信区间包含总体均数,只有 5 个可信区间未包含总体均数。实际工作中仅得到一个样本,根据一个样本估计的总体均值的可信区间,有 95%的可能性包含总体均值。三、假设检验的基本步骤假设检验亦称显著性检验,是统计推断的另一重要内容,其目的是比较总体参数之间有无差别, 具体步骤如下:新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/1.建立检验假设和设定检验水准检验假设有两种:一种是无效假设,或称为零假设,记作 H0,即假设差异是由于抽样误差所致,总体参数相同。另一种是备择假设,记作 H1,即差别不是由于抽样误差所致,总体参数不同(0 或 0 或 0

23、) 。如果根据专业知识。 既可能大于 0。也可能小于 0,则这种检验称为双侧检验(two-sided test) ;若认为 只可能大于或等于 0,而不可能小于 0 时(或相反情况) ,称这种检验为单侧检验。如果根据专业知识不能确定单侧的情况时应采用双侧检验。检验水准亦称显著性水准,用 表示。检验水准的含义就是指无效假设 H0 实际上成立,但样本信息不支持 H0,统计上拒绝无效假设 H0 的可能性大小的度量。 通常取0.05(或 0.01) 。建立检验假设、设定检验水准:双侧检验:H0:0,H1:0,a0.05单侧检验:H0:0,H1:0(或 0),a0.05例:已知一般无肝肾疾患的健康人群尿素

24、氮均值为 4.882(mmolL ) ,16 名脂肪肝患者的尿素氮(mmolL)测定值为5.74,5.75,4.26,6.24,5.36,8.68,6.47,5.24,4.13,11.8,5.57,5.61,4.37,4.59,5.18,6.96。问:脂肪肝患者尿素氮测定值的均数是否高于健康人?H0:脂肪肝患者的尿素氮均值与一般无肝肾疾患的健康人群尿素氮总体均值相同 (0)H1:脂肪肝患者的尿素氮均值高于一般无肝肾疾患的健康人群尿素氮总体均值相同(0)检验水准:0.052.计算统计量根据研究设计类型、资料特征和各方法、公式的适用条件选择和计算检验统计量。3.确定概率和作出统计推断算得的统计量与

25、相应的界值比较,确定 P 值。P 值是从 H0 所规定的总体进行随机抽样,获得等于及大于(或等于及小于)现有样本统计量的概率,即在 H0 成立的条件下,观察到的样本差别是由于机遇所致的概率。因此,P 值越小越有理由拒绝无效假设,认为总体之间有差别的统计学证据越充分。需要注意:不拒绝 H0 不等于支持 H0 成立,仅表示现有样本信息不足以拒绝 H0。根据 P 值作出统计推断。两个均数比较时常用的判断标准如下:U 检验:单侧 u1.645,双侧 u1.96,则 P0.05,差异无统计学意义,不拒绝 H0;单侧 l.645,双侧 1.96,则 P0.05,差异有统计学意义,拒绝 H0。t 检验:单侧

26、 tt0.05。 ,双侧 tt0.05/2,。P0.05 ,差异无统计学意义,不拒绝H0,单侧 tt0.05。双侧 tt0.05/2,。则 P0.05,差异有统计学意义,拒绝 H0。习题:假设检验是为了A.研究总体指标的变化B.研究样本指标的变化新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/C.排除主观因素对抽样的影响D.排除抽样误差的影响E.排除系统误差的影响答疑编号 500744020301正确答案D四、u 检验和 t 检验1.样本均数与总体均数的比较总体均数是指大量观测所得到的稳定值或理论值,记作 0。样本与总体均数比较的目的是推断样本所代表的未知总体均数 与已

27、知总体均数 0 是否相同。(1)用上例:问脂肪肝患者尿素氮测定值的均数是否高于健康人?脂肪肝可能影响尿素氮的代谢,本例属于单侧检验。1)建立假设,确定检验水准。H0:= 0,H1:0,=0.052)选定检验方法,计算检验统计量 t 值:本例于 =5.997,S=1.920,n=l6,3)确定 P 值,判断结果。=n-1=16-1=15 ,查 t 界值表,单侧 t0.05,15=1.725 ,t0.025,15=2.131,t0.01,15=2.602。本例 t0.01,15t (2.32) t0.0025,15,故 0.01P0.025,按照 =0.05 的检验水准,拒绝 H0,接受 H1,认

28、为脂肪肝患者的尿素氮测定值高于健康人。(2)u 检验若此例,已知一般无肝肾疾患的健康人群尿素氮的标准差为 l.900(mmolL) ,问:脂肪肝患者尿素氮测定值的均数是否高于健康人?本例因提供了总体标准差,可以进行 u 检验:2.两个样本均数的比较目的:比较推断两个样本均数所代表的两个总体均数 1 和 2 有无差别。1)建立假设,确定检验水准。H0:l=2 H1:l2 或 12 或 12=0.052)选择检验方法, 两个大样本均数比较的 u 检验当两个样本含量较大(均50)时,自由度足够大,可用 u 检验:公式 19两个小样本均数比较的 t 检验: 3)确定 P 值,判断结果条件:数值变量资料

29、(计量资料)新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/资料服从正态分布目的:比较样本均数所代表的总体均数是否相同习题:正态分布的数值变量,两组资料的比较,检验统计量的计算用A.(X)B.(X 一 )xC.(x 一 )SxD.(d 一 )SdE.( xlx2)Sx1 x2答疑编号 500744020302正确答案E对 l0 名 25 岁以上的山区健康男子测量脉搏次数(次分) ,用 t 检验与全国正常男子资料进行比较。按 =0.05 的检验水准,自由度为A.v=9B.v=19C.v=8D.v=20E.v=18答疑编号 500744020303正确答案A五、假设检验的两

30、类错误及注意事项1.两类错误假设检验帮助回答 H0 是否成立,但它是建立在小概率事件原理上的判断,无论拒绝还是不拒绝 H0,都有可能犯错误。拒绝了实际正确的无效假设 H0 称为犯了第 1 类错误(type I error) ,概率用 表示,通常称之为检验水准(1evel of signifi cance) ,常取 =0.05;不拒绝实际上错误的无效假设 H0 称为犯了第类错误(type II error) 。概率用 表示。1 一 称为检验效能(power of test) ,其意义是当两个总体存在差异时所使用的统计检验按 a 水准能够发现这种差异(拒绝无效假设 H0)的能力。如 :1-b=0.

31、9 的含义是若两总体确有差别,理论上平均每 100 次抽样有 90 次能得出有差别的结论。2.正确理解假设检验的结论。检验水准是 0.05,当 P0.05 时,则拒绝 H0,接受 H0,差异统计学意义。它的含义是,在随机抽样研究中,由样本信息计算检验统计量时,获得这样大或更大的统计量的可能性很小,因而拒绝 H0,但并不是 H0 绝对不成立。更不是两个均数相差很大。当 P0.05 时,则不拒绝 H0,但并不是说 H0 绝对成立。第四节 分类变量资料的统计描述(一)考什么?1.相对数常用指标及其意义2.应用相对数时应的注意事项(二)最重点是什么?新阳光执业医师考试题库 http:/新阳光执业医师考

32、试题库 http:/1.相对数常用指标及其意义(三)最难点的是什么?率和构成比的区别一、相对数常用指标及其意义相对数是两个有关联的数值之比。常用的指标有率(rate) 、构成比(constituent ratio)和相对比(relative ratio) 。1.率某现象在某时期实际发生数与可能发生某现象的总数之比,用以说明某现象发生的频率或强度,又称频率指标,常以百分率、千分率、万分率或十万分率表示。计算公式为:如:发病率、患病率、感染率、有效率、治愈率2.构成比事物内部某一部分的观察单位数与事物内部各部分的观察单位数总和之比,以百分数表示。说明事物内部各部分所占的比重或分布。计算公式为:构成

33、比有两个特点:各部分构成比的合计等于 100%或 l;事物内部某一部分的构成比发生变化,其他部分的构成比也相应地发生变化。3.相对比两个联系指标之比,常以百分数或倍数表示。计算公式为;说明 A 为 B 的若干倍或百分之几A、B 两个指标可以是绝对数,也可以是相对数可以性质相同,也可以性质不同可以是定性资料,也可以是定量资料如:性别比、CV 等都是相对比的指标B1 题型A.表示某病发生严重程度B.反映两个指标的相对关系C.反映某病在各疾病中所占的位次D.反映同种病不同时间动态变化情况E.反映同种病不同地区的严重情况(1)发病率:答疑编号 500744020304正确答案A(2)构成比:答疑编号

34、500744020305正确答案C(3)相对比:答疑编号 500744020306正确答案B新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/二、相对数应用注意事项1.计算相对数时,观察单位数应足够多2.分析时构成比和率不能混淆分析时常见的错误是以构成比代替率来说明问题。构成比说明事物内部各部分所占的比重或分布,不能说明某现象发生的强度或频率大小。频率指标才能说明事物发生的严重程度。3.观察单位数不等的几个率的平均率,不能将这几个率直接相加求其均值应将各个率的分子、分母分别相加后,再求总率即平均率。4.相对数的相互比较应注意可比性(1)所比较资料的内部构成要相同(2)若内

35、部构成不同,则不能直接进行总率比较,只能分性别、分年龄别进行率的比较,或进行率的标准化后再作对比5.样本率或构成比的比较应做假设检验样本率或构成比是由抽样得到的,存在抽样误差,进行比较时须进行假设检验。第五节 分类变量资料的统计推断(一)考什么?1.率的抽样误差2.总体率的估计3.率的 u 检验和 x2 检验(二)最重点是什么?率的抽样误差率的 u 检验和 x2 检验(三)最难点的是什么?率的 u 检验和 x2 检验一、率的抽样误差、总体率的可信区间及其估计方法1.率的抽样误差与标准误从同一总体中随机抽取 n 个观察单位的一组样本,计算得到的各个样本率,不一定都与总体率 完全相同,这种由于抽样

36、而引起的样本率与总体率之间的差别,称为率的抽样误差。率的抽样误差用率的标准误表示,计算公式如下:当总体率 未知时,则用样本率 p 作为 的估计值,率的标准误的估计值表示为:率的标准误越小,说明率的抽样误差越小,用样本推论总体时,可信程度越高。2.总体率的可信区间及其估计方法(1)正态近似法:当样本含量 n 足够大,样本率 p 或(1-p)均不太小时 如 np 和n(1 一 p)均大于 5,样本率的分布近似正态分布,总体率可信区间的估计由下列公式估计:总体率()95%的可信区间: p1.96Sp 公式 28总体率()99%的可信区间: p2.58Sp 公式 29二、U 检验和 x2 检验新阳光执

37、业医师考试题库 http:/新阳光执业医师考试题库 http:/1.率的 检验样本量 n 足够大,样本率 p 或(1- p )均不太小(如 n p 和 n (1- p )均大于 5 时) ,样本率的分布近似服从正态分布,样本率与总体率之间,两个样本率之间的差异可用率的u 检验。(1)样本率与总体率的比较。公式中 P 样本率, 为总体率,p 为根据总体率计算的标准误。(2)两个样本率的比较2. X2 检验X2 检验(卡方检验)是用途:可用于两个及多个样本率或构成比的比较两分类变量间相关关系分析 X2 检验的基本思想:假设比较样本所对应的总体率相等,即两样本率来自总体率相同的总体。若检验假设 H0

38、 成立,根据 X2 统计量值的大小,结合自由度 ,可确定概率 p,并对总体做出推断例:某医生用两种疗法治疗前列腺癌,出院后随访 3 年。甲疗法治疗 86 例,存活 52例,乙疗法治疗 95 例,存活 45 例。问两种疗法治疗前列腺癌患者的 3 年生存率是否相同?表 97 甲乙两种疗法治疗前列腺癌的 3 年生存率比较处理 生存 死亡 合计 生存率(%)甲疗法乙疗法 52(46.09)45(50. 91) 34(39.91)50(44.09) 8695 60.4747.37合计 97 84 181 53.59四个格子的数据 是基本数据,发生与不发生的绝对数,也称为实际数,其余的数据都是从这四个数据

39、计算得来的,因此,该资料称四格表(fourfold table)资料。四格表资料 X2 检验的基本步骤(1)建立检验假设:H0:1=2 (两种疗法治疗前列腺癌患者的 3 年生存率相同)H1:12(两种疗法治疗前列腺癌患者的 3 年生存率不同)=0.05(2)计算统计量 X2:1)基本公式:式中 A 为实际频数,四格表中的基本数据; T 为理论数,是根据无效假设推算出来的。理论频数的计算公式为:公式 34新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/公式中 TRC 为第 R 行第 C 列格子的理论数,nR 为第 R 行的合计数,nC 为第 C 列的合计数,n 为总例数。

40、2)四格表资料专用公式:四格表资料进行 X2 检验还可以选用专用公式,省去计算理论数的过程,使计算简化。公式 35式中 a、b,c 、d 分别为四格表中的四个实际频数,n 为总例数。上述公式的适用条件:n40 且 T5但当 n40 且 1 T 5,用校正公式校正 X2 值的公式为:n40 或 T1,不宜采用 x2 检验 Fisher 精确概率法(3)确定 P 值和判断结果:=(行数一 1) (列数一 1)=(2-1 ) (2-1)=1,根据自由度查 X2 界值表, X20.05(1)=3.84,本例 X2=3.113.84,P0.05,按=0.05 的水准不能拒绝无效假设 H0,故不能认为甲乙

41、两种疗法治疗前列腺癌的 3 年生存率有所不同。行列表资料的 X2 检验:用于多个样本率的比较、两个或多个构成比的比较。其基本数据有以下三种情况: 多个样本率比较时,有 R 行 2 列,称为 R2 表; 两组样本的构成比比较时,有 2 行 C列,称 2C 表; 多个样本的构成比比较,有 R 行 C 列,称 RC 表。专用公式:公式 40公式中 n 为总例数,A 为每个格子里的实际频数, nR 和 nc 分别为与 A 值相应的行和列合计的例数。建立检验假设:H0:1 = 2 = 3 = - = k (k 个总体率相等)H1: k 个总体率不等或不全相等2)行列表资料 X2 检验的注意事项A.如假设

42、检验的结果是拒绝无效假设,只能认为各总体率或构成比之间总的来说有差别,但并不是说它们彼此之间都有差别,如果想进一步了解彼此之间的差别,需将行列表分割,再进行 X2 检验(详见统计学专著) 。B.对行列表资料进行 X2 检验,要求不能有 l5 以上的格子理论数小于 5,或者不能有一个格子的理论数小于 1,否则易导致分析偏性。出现这些情况时可采取以下措施:在可能的情况下再增加样本含量;从专业上如果允许,可将太小的理论数所在的行或列的实际数与性质相近的邻行或邻列中的实际数合并;删去理论数太小的行和列。习题:1.经过统计得到 X2X20.05()结果。正确的结论是A.P=0.05,拒绝 H0,差异有统

43、计学意义B.P 0.05,接受 H0 的可能性较大C.P=0.05,接受 H0 ,差异无统计学意义D.P0.05,拒绝 H0 ,差异有统计学意义E.P0.05,接受 H0 ,差异无统计学意义答疑编号 500744020401正确答案D新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/2.某医院用国产呋喃硝胺治疗十二指肠球部溃疡,用甲氰咪胍为对照,观察 6 周有如下结论:呋喃硝胺治疗 62 人,治愈 44 人,甲氰眯胍治疗 78 人,治愈 38 人。用什么样方法得出两种药物疗效相同或不同的结论A.计算两药物的治愈率直接比较B.进行率的标准化处理C.用四格表的 2 检验D 用

44、四格表的校正 2 检验E.用配对资料的检验答疑编号 500744020402正确答案C 第六节 直线相关和回归(一)考什么?1.直线相关分析的用途,相关系数及其意义2.直线回归分析的作用,回归系数及其意义(二)最重点是什么?相关系数及其意义回归系数及其意义一、直线相关分析的用途,相关系数及其意义1.直线相关分析的用途直线相关又称简单相关,用于研究两个连续性随机变量 和 y 之间的线性关系。如研究血压和血糖之间的线性关系,回答两者之间是否存在线性关系、关系是否密切以及是正相关还是负相关。描述二者之间的线性关系统计指标相关系数 r。2.相关系数及其意义相关系数又称积差相关系数,用符号 r 表示。其

45、计算公式为:公式 41r 是反映两个变量线性关系的方向和密切程度的指标,r 没有单位,其值为-1r1。相关方向用 r 的正负号表示r 值为正,说明变量 z 和 Y 之间为正相关关系,即变量 和 y 的变化趋势是同向的;r 值为负,说明变量 和 Y 为负相关关系,表明 和 y 之间呈反方向变化;r 的绝对值等于 l,为完全相关;r 等于 0, 和 y 之间无线性关系。密切程度用 r 的大小表示r 的绝对值越接近于 l,线性关系越密切;越接近于 0,线性关系越不密切,二、直线回归分析的作用,回归系数及其意义1.直线回归分析的作用直线回归又称简单回归,用于研究两个连续性变量 和 y 之间的线性数量依

46、存关系。 为自变量,y 为依赖于 的变量,称作因变量,也称反应变量,两个变量之间有数量关新阳光执业医师考试题库 http:/新阳光执业医师考试题库 http:/系,直线回归分析的主要任务是:找出最适合的直线回归方程,以确定一条最接近于各实测点的直线,描述两个变量之间的线性回归关系。考察两个随机变量之间有无线性关系,直观的方法是在普通方格纸上绘制散点图。2.直线回归方程、回归系数及其计算直线回归方程的一般表达式为:=a+bk 是给定 X 时 Y 的估计值。a 为回归直线在 Y 轴上的截距, a0 表示直线与纵轴的交点在原点的上方;a 0,则交点在原点的下方;a0,则回归线通过原点。b 为样本回归系数,即回归直线的斜率。表示当 X 变动一个单位时,Y 平均变化多少个单位。b0,表示 Y 随 X 增大而增大;b0,表示 Y 随 X 增大而减少;b0,表示直线与 X 轴平行,即 X 与 Y 无直线关系。截距 a 和斜率 b 的估计通常采用最小二乘原则,即保证各实测点至回归直线的纵向距离平方和为最小。根据最小二乘原则导出 b 和

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报