收藏 分享(赏)

医学统计学中的基本概念ppt课件.ppt

上传人:微传9988 文档编号:2135130 上传时间:2018-09-02 格式:PPT 页数:116 大小:909.50KB
下载 相关 举报
医学统计学中的基本概念ppt课件.ppt_第1页
第1页 / 共116页
医学统计学中的基本概念ppt课件.ppt_第2页
第2页 / 共116页
医学统计学中的基本概念ppt课件.ppt_第3页
第3页 / 共116页
医学统计学中的基本概念ppt课件.ppt_第4页
第4页 / 共116页
医学统计学中的基本概念ppt课件.ppt_第5页
第5页 / 共116页
点击查看更多>>
资源描述

1、第一章 医学统计学中的基本概念,统计学(statistics): 1.Statistics: A science dealing with the collection, analysis, interpretation, and presentation of numerical data. (Websters 国际大辞典) 2.Statistics:The science and art of dealing with variation in data through collection, classification, analysis in such a way as to obt

2、ain reliable results. (John M. Last,流行病学词典) 总之,统计学是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结论,一、绪论,统计学思维和方法已经渗透到医学研究和卫生决策之中,在科研的总体设计、资料的收集、整理、分析直到最后得出结论都与之密切相关。,例: 1.北京某医院某大夫使用“乌贝散”治疗胃溃疡出血107例,有效101例,有效率94.4%,那么别的医生也一定是94.4%吗?那么是多少?高还是低?(求置信区间),2.重庆某医院有位老大夫,用“冠心灵”治疗冠心病,其对照组用西药,观察结果如表,表 冠心灵与单存西药疗效

3、对比,请问:冠心灵是否比单纯西药有效?(涉及统计学中假设检验的问题),二、医学统计工作的内容和资料的类型,1、医学统计工作的内容: design (设计) collection data(收集) sorting data(整理资料) analyzing data (分析资料), design (设计),根据研究目的制定研究方案专业设计:统计设计: 研究对象的选择(纳入与排除标准),样本量和样本取得的方法, 实验组与对照组的分组原则, 观察指标及其精度, 试验过程中的质量控制, 拟采用的统计分析方法等。,collection data(收集),收集准确、完整、充满信息的原始资料 资料的来源:专题

4、试验(实验)研究、流行病学调查等常规登记资料:例如门诊病例、住院登记资料等卫生工作报表,sorting data(整理资料),把收集到的原始资料,有目的地进行加工,使资料系统化、条理化,以便进一步统计分析 归类 核查资料的完整性、可靠性(例如:漏项、逻辑性检查、专业合理性、专业一致性检查),analyzing data (分析资料),统计描述 统计分析统计推断,参数估计,假设检验,把经过整理的资料做一系列的统计描述和统计推断,阐明事物的特征和规律。,2、type of data(资料的类型),两类:定量(计量、数值变量)资料 定性(计数、分类变量)资料,定量(计量、数值变量)资料,每个观察对象

5、通过定量测定的方法都有一个确切的值,通常有单位,但也有例外(例如 淋巴细胞转化率)。医学中:身高、体重、血压、血红蛋白值等, 定性(计数、分类变量)资料,按照研究对象的某个特征进行分组,然后分组计数所获得的资料。 例如:男 25 女35,无序分类资料:分组时表现为互不相容的类别二分类:性别(男25 女35 有效 无效)多分类:血型(A 10 B 5 AB 7 O 3)、职业 有序分类资料(等级资料):按照程度递增或递减例: 癌症分期:早、中、晚。 药物疗效:治愈、好转、无效、死亡。 幽门螺旋杆菌感染程度 (- + + +),判断资料类型的标准:看每个观察对象是否有一个确切的值,有:计量 无:计

6、数资料可以由高级向低级转化(高精度向低精度),如血压值 (正常、异常),观察单位observations 个体individuals,变量variables,Quantitative data 计量资料,Qualitative data 计数资料,Units;elements,三、统计学中的几个基本概念,(一)同质与变异 (二)总体与样本 (三)参数与统计量 (四)误差 (五)频率与概率,(一)同质与变异 homogeneity and variation,1、同质:是指观察单位间被研究指标的影响因素相同。如:研究儿童的生长发育,规定的同性别、同年龄、同地区、同民族、健康的儿童即为同质的儿童。

7、研究目的条件下的性质相同观察单位的研究特征为变量。变量的观察结果为变量值。 2、变异:性质相同的同质对象的某个或某几个特征值不同。,同质与变异的例子,例1 调查2006年重庆7岁男童的身高和体重 同质:2006年、重庆市、7岁男童 变异:身高和体重各不相同 例2 研究某降压药的疗效 同质:高血压患者、用某药治疗 变异:疗效各不相同,(二) 总体与样本 population and sample,总体:根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体,样本:从总体中随机抽取的部分观察单位,代表性的条件,随机抽样 足够数量(样本含量) 样本的分布与总体的分布一致(构成),随机抽样

8、 random sampling,为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。,足够数量:样本含量 样本的结构分布与总体的分布特征一致例如:欲研究重庆市7岁儿童的生长发育情况总体:男107:女100样本:应该接近或近似男107:女100,(三) 参数与统计量 parameter and statistic,参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为、。固定的常数,推断inference,统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 。 参数附近波动的随机变量 。,(四) 误差 error,误差:实际观察值

9、与客观真实值之差,以及统计量与参数之差。,(1)系统误差 (2)随机误差,(1)系统误差 systematic error,在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为偏倚(bias)。特点:观察值有系统性、方向性、周期性的偏离真值。可以通过严格的实验设计和技术措施消除。,(2)随机误差random error,排除上述误差后尚存的误差,受多种无法控制的因素的影响。特点:大小方向不一的随机变化。 随机测量误差(random measurement error) 提高操作者熟练程度可以减少这种误差随机抽样误差( r

10、andom sampling error):由抽样造成的样本统计量和总体参数间的差异。 不可避免,但有一定的分布规律,可估计。,(五) 概率与频率 probability and frequency,确定性现象:在一定条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。,随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。 随机事件的特征:随机性;规律性:每次发生的可能性的大小是确定的。,概率:随机事件发生的可能性大小,用大写的 P 表示,是一个稳定的值;取值0,1。

11、,必然事件 P = 1 不可能事件 P =0 随机事件 0 P 1P 0.05(5)或P 0.01(1)称为小概率事件(习惯),统计学上认为不大可能发生。,小概率事件,样本的实际发生率称为频率,具有波动性。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f / n。频率与概率间的关系:样本频率总是围绕概率上下波动 样本含量n越大,波动幅度越小,频率越接近概率。,频率 frequency,复习: 总体与样本、统计量与参数、系统误差与抽样误差 1、 调查某地某年7岁正常男童的身高 2、 观察某人群脉搏数(次/分) 3、 观察某人群脉搏数,定义脉搏数在60次/分-100次

12、/分为正常,100次/分为异常,按“正常”与“异常”分别清点人数得到的资料,4、某单位职工体检101名正常成年女子的血清总胆固醇(mmol/L) 5、某医院1998年在某城区随机调查了8589例60岁以上老人,体检发现高血压患者为2823例,高血压患病率为2823/8589*100/%=32.87%,资料的统计描述,叶孟良,统计描述的意义,社会活动看似杂乱无章,对个体来说有很多不确定性,但总体上都是服从一些统计规律的。医学工作有很多数据,统计学描述就是对这些数据进行加工和提炼,找出规律、预测未知。统计描述是最简洁有力的语言。,概念:即用少量几个统计指标刻画出原始数据的特征称为统计描述。计量资料

13、的统计描述方法: (单变量)1. 通过频数表描述数据特征2.用统计指标 定量描述数据的特征。,描述计量资料的统计方法有两类:统计图表:主要是频数分布表(图)统计指标:定量描述数据的特征,一、数值变量的频数分布,(一)、频数分布表 频数分布表:将变量值分为不同数量的组段,清点各组段的例数。意义:概括了解变量值在各组段的分布和规律。频数表的编制例:某年某市120名12岁男童的身高(cm)资料如下,作统计描述。,142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5134.5 148.8 134.4 148.8 137.9 151.3

14、140.8 149.8 143.6 149.0 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4134.7 147.3 138.1 140.2 137.4 145.1 145

15、.8 147.9 146.7 143.4150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4129.4 142.5 141.2 148.9 154.0 147.7 152.3 1

16、46.6 139.2 139.9,1、求数据的极差(range):极差是全部数据中的最大值与最小值之差,它描述了数据变异的幅度。本例极差:R=160.9-125.9=35cm,2、划分组段 (1)确定组数:制作频数表是为了简化资料,显示数据的分布规律,因此组数不能太多。也不能太少,太少会掩盖数据分布的规律。适宜的分组数与观察值的个数n的多少有关。n为30时,可分5到6组,随着n的增加,分组适当增加,较大样本时,一般取10组左右。,(2)确定组距一般采取等距分组。组距=极差/组数本例组距=35/10=3.54,(3)确定各组段的上下限:下限(low limit):每个组段的起点上限(upper

17、limit):每个组段的终点上限=下限+组距第一组段必须包含最小值,其下限一般取包含最小值的较为整齐的数值。本例最小值为125.9,取125为第一组段的下限。其上限=125+4=129。各组段不能重叠,每一组段均为半开半闭区间。,3、用手工或电脑编制画记表,3、统计各组段内的数据频数得到频数表,组段 划记 频数 f 频率(%) 累计频数 (1) (2) (3) (4) (5) 125 一 1 0.8 1 129 正 4 3.3 5 133 正 正 9 7.5 14 137 正正正正正正 28 23.3 42 141 正正正正正正正 35 29.2 77 145 正正正正正正 27 22.5 1

18、04 149 正正一 11 9.2 115 153 正 4 3.3 119 157161 一 1 0.8 120 合计 120 100,身高是一个连续变化的量,被称为连续性变量。已婚育龄妇女的现有子女数、幼儿的牙齿数等,其取值是0、1、2等不连续的量,这种变量被称为离散型变量。,4、频率与累计频率 频率:频数表中的各组频数之和等于总例数n,将各组的频数除以n所得的比值被称为频率。 累计频数:某组段及前面各组段的频数之和。 累计频率:累计频数除以总例数。,(二)频数分布图,125 129 133 137 141 145 149 153 157,(三)频数分布特征 从频数表,特别是频数分布图可以看

19、到频数分布有两个特征: 、大多数岁男童的身高向中央集中,为集中趋势; 、少部分男童的身高较低和较高,向两端离散,为离散趋势。,(四)、频数分布的类型 1、对称分布:指集中位置在中间,左右两侧对称。 2、偏态分布:指集中位置偏向一侧,频数分布不对称。正偏态负偏态,(五)频数分布表的用途 1、揭示资料的分布类型及特征 2、便于发现某些特大或特小的可疑值 3、便于进一步计算统计指标和作统计处理 4、 组段的频率作为概率的估计。,125 129 133 137 141 145 149 153 157,对称分布,图2-1 101名正常成年女性血清总胆固醇频数分布,频数,血清总胆固醇,正态分布,对称分布,

20、图2-2 59名链球菌咽喉炎患者潜伏期,正偏态分布,负偏态分布,集中趋势的描述,平均数指标的概念和作用平均数表示一组同质计量数据集中趋势的位置和平均水平。作用:是一组计量数据平均水平的代表值;可作为不同组间的比较值。常用的三种平均数指标有:算术均数、几何均数、中位数,(一)算术均数,简称均数总体均数用 表示样本均数用 表示,公式适用频数为正态或近似正态分布的计量资料.,适用条件,1、直接法(样本例数较少)将所有数据直接相加,再除以总例数n:,例如: 测定了名健康人第一小时末血沉,分别是、10mm,求均数,2、加权法( 样本例数较多,近似计算)用各组段的组中值代替该组段中的任一观察值,该组段的频

21、数是f,即有f个组中值,则有组中值与频数的乘积代替该组段的各个值相加.计算公式:,利用频数表,将每组段的组中值即(下限+上限)/2代替该组段观察值的实际取值,用加权法求算术平均数。在样本例数较多的情况下,加权法与直接法算得的结果相差不大。 见P10,当数据呈单峰对称分布时, 位于分布的中心,它是频数分布最集中的位置。若数据分布不对称,则 不位于分布的中心,也不在分布的集中趋势位置,它不反映数据的一般水平。,二、几何均数(,geometric mean)适用于原始 数据分布不对称,但经对数转换后呈对称分布的资料;滴度资料(等比资料)。如血清滴度资料。 公式:,例2.2 测得10个人的血清滴度的倒

22、数分别为2,2,4,4,8,8,8,8,32,32,求平均滴度。,几何均数是对数转换后的数据的算术均数的反对数。 当资料中出现相同观察值时,也可用加权法计算几何均数:例2.3 (频数表资料)应用:主要用于血清学和微生物学中。,三、中位数(median)中位数是指将一组观察值从小到大排序后居于中间位置的那个数值,全部观察值中,大于和小于中位数的观察值个数相等。任何分布的定量数据均可用中位数描述其分布的集中趋势。,直接法公式:当n为偶数时当n为奇数时,1.原始资料如测得5个人的VLDL中的apo_B的含量(mg/dl)为0.84、 2.85、 5.46、 8.58、 9.60,则 M=5.46(m

23、g/dl)若测量结果:0.84、 2.85、 8.58、 9.6,则 M=(2.85+8.58)/2=5.72(mg/dl),2.频数表资料表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),L、iM、fM分别为M所在组段的下限、组距和频数, fL为M所在组段之前各组段的累积频数。,连续型变量中位数的的计算可用公式: 组距中位数所在组前一组的累计频数中位数所在组下限中位数所在组的频数,四、百分位数(percentile)是一种位置指标,样本的第X百分位数常记为Px,它是指把数据从小到大排列后处于第X百分位置的数值。它将全部数据分成两部分,在不包括Px的全部数据中有X%的数据小于Px,

24、有(100-X)%的数据大于Px。,中位数是特殊的百分位数,第50百分位数,M=P50 。 连续性变量频数表资料百分位数计算公式:,百分位数的应用,、中位数是百分位数的特例。其特点是不易受异常值的影响,适用于描述明显偏态分布、或两端无确定数值数据的平均水平。、多个百分位数相结合可以用来说明一特定的问题:离散程度、参考值范围、把资料划分等级,第三章 变异程度的统计描述,前面一节讲述了一组观察值的集中趋势,但平均数并不能使我们全面地认识事物,试看下例:例: 对甲、乙两名高血压患者连续观察5天,测得的收缩压分别为(mmHg):甲患者 162 145 178 142 186 ( =162.6)乙患者

25、164 160 163 159 166 ( =162.4),平均水平差不多,但甲患者的血液波动较大,第一节 衡量变异程度的指标,分为两类:1、间距计算:极差(R)、四分位数间距 (Q)2、平均差距计算:平均偏差、离均差平方和 、均方差(2 、s2) 、标准差( 、s)和变异系数(cv)等,一、极差和四分位数间距 1、全距(range)极差R=max-min优点: 该法简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等 缺点: 只用到最大、最小值,样本信息没能充分利用。 当资料呈明显偏态时,最大、最小值不稳 样本例数越多,R可能越大,两组观察值例数悬殊时不用R比较。,2、 四分

26、位间距(inter-quartile range)Q,极差不稳定,主要是受两端的数据的影响,所以有人建议将两端数据截去一定比例,如各去掉25%Q=p75-p25=Qu-QL例如:50岁60岁正常女性血清甘油三脂含量的百分位数P75和P25的位置分别为63.2 mg/dl和135.7 mg/dl,则 四分位间距比R稳定,但仍未考虑每个观察值,在统计分析应用得不普遍。,二 、离均差平方和、方差、标准差和变异系数,1、平均偏差(Mean Difference)如对于例3.1: 甲患者: 乙患者:,特点:直观 , 易理解;但由于用了绝对值,不便于数学处理,实际中很少使用。,2、离均差平方和( sum

27、of square,简写为SS ),公式为:通过计算可转化为下式:,总体方差 2= 在样本中,未知,常用下式替代,S2=,3、方差 将离均差平方和再取平均,其结果称作均方差,简称方差。,注意:样本方差的分母 n-1 称为自由度,意在所有的n个离均差平方和中,只有n-1个是独立的,由于样本均数 的限制,在所有离均差平方项中只要有n-1个已知,剩下的一项便自动确定.,n-1,4、 标准差(standard deviation) 表示每一个数对均值的离散程度,是绝对变异指标,总体标准差=未知,样本标准差,例如对于例3.1经计算有 甲患者:同理乙患者:,如果是频数表资料,公式如下:,例140正常成年男

28、子的红细胞的标准差:(见P18 例3.2),标准差的优点: 1、可以求合并标准差 2、与均数结合能完整的概括一个正态分布,标准差的应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围,5. 变异系数(coefficient of variation)C.V.,适用于各组观察值单位不同或单位虽同而平均数相差很大的情况。是相对变异指标 例如 1、同年龄同性别学生的身高和体重两组观察值。 2、同年龄同性别学生的身高和胸围两组观察值。 3、不同年龄儿童的身高的几组观察值。,例3.3 测得某地成年人舒张压的均数为77.5mmHg,标准差为10.7mmHg;收缩压的均数为122.9m

29、mHg,标准差为17.1mmHg.试比较舒张压和收缩压的变异程度。,计算: 舒张压收缩压,第二节 正态分布,(normal distribution),正态分布又称高斯(Gauss分布),是统计学中最重要的分布,医学资料中有许多指标如身高、体重、红细胞数、血红蛋白、收缩压、脉搏数等频数分布都呈正态分布。,一.概念,二 图形,正态分布密度函数 其中是均数,是标准差。记N(,2),正态分布的特殊形式:标准正态分布N(0 ,1);即=0, =1时(z分布、u分布)标准正态变换(变换公式);u=,三 特征,1 是单峰曲线,x=2 以均数为中心左右对称3 有2个参数,:位置参数,:变异度参数越大,数据越

30、分散,曲线越平坦。,4正态曲线下面积的分布规律,横轴上曲线下的面积为1 曲线下,横轴上对称于的左右两边面积相等,通过对密度函数积分我们可以知道正态曲线下,横轴上所夹的面积为1,标准正态分布下-1.961.96部分的面积为0.95 (可以通过积分求得)。也就是说|u|1.96的面积为0.05,对任意的x,-xx区间面积为多少呢?统计学家已将此编制成了正态分布界值表,不过表中的面积是指p(ux), 也记作(x)。,以上讨论的是标准正态分布,对一般的正态分布,某指标xN(,2),则 u=(x-)/N(0,1) 即-1.96u1.96的面积为0.95 -1.96x+1.96的面积为0.95经过标准化转

31、换,就可以利用标准正太分布求出原始变量x有关的概率值,例如成年男子红细胞数近似服从正太分布, 现想知道在4*1012/L以下所占的比例.P(x4)查附表1得:表明成年男子的红细胞数低于4*1012/L的人约占总体的2%.,五 正态分布的应用,1许多医学指标服从正态分布或近似正态分布,如同性别、同年龄儿童的身高,同性别健康成人的红细胞数、血红蛋白量、脉搏数等,及实验中的误差。,2 估计医学正常值范围,例 120名健康成年男性农民舒张压的均数为10.1kPa,标准差为0.93kPa,求舒张压的95%双侧正常值范围。10.11.960.93 即8.2811.92 kPa,注意 95%参考范围(ref

32、erence range)或正常范围(normal range)仅仅告知95%健康者的测定值在此范围之内,并非告知凡在此范围之内皆健康,也非告知凡在此范围之外皆不健康,所以不可将之作为诊断标准。,3 正态分布是许多统计方法的理论基础,如后面要讲的t检验、方差分析、相关回归等,t分布、二项分布、Poisson分布的极限分布也是正态分布。,4估计频数分布,例 出生体重低于2500克为低体重儿。若由某项研究得某地婴儿出生体重均数为3200克,标准差为350克,估计该地当年低体重儿所占的比例。,记x为当年该地婴儿出生体重,则x服从正态分布 N(3200,3502) P(x2500)查标准正态分布界值表

33、 (-2)=0.0228 即估计该地当年低体重儿所占的比例为2.28%,定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。,第三节、医学正常值范围的估计,单双侧: 根据指标的实际用途,有的指标有上下界值,过高过低均属异常;某些指标过高为异常,只需确定上限;某些指标过低为异常,只需确定下限。 估计的方法: 1、正态分布法 2、百分位数法,应用条件:正态分布或近似正态分布资料 计算 95% 正常值(医学参考值)范围公式: 双侧: 即 单下:单上: 例如:某地正常成年男子红细胞数的95%的参考值范围。,1.正态分布法,2.百分位数法, 应

34、用条件 : 偏态分布资料 计算公式: 双侧界值:P 2.5 P 97.5 单侧 上界: P 95 单侧 下界: P 5 P14例题2.4 630名正常女性血清甘油三酯含量的资料,小 结1.描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。2.衡量变异程度大小的指标有多种: 极差、四分位数间距、方差、标准差和变异系数。其中应用最多的是标准差和变异系数。3.标准差与均数结合能够完整地描述一个正态分布。对任何参数的正态分布,都可以通过一个简单的变量变换化成标准正态分布。利用正态分布可以很容易地确定其数值出现在任意指定范围内的概率。,4.医学参考值范围指“正常参照人群”的解剖、生理

35、、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要用作划分正常人与异常人的界线。 5.医学参考值范围的制定需要按照一定步骤进行。实际中最好结合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例,选择一个适当的百分范围,最常用的百分界限是95%。 6.参考值范围估计的方法有多种,其中最基本的有百分位数法和正态分布法。正态法的优点是结果较稳定,但对资料要求严格;百分位数法适合于任何分布类型的资料,但要求大样本。,小结 习题: 1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不变 C.二者均不变 D.均改变2.用均数和标准差可全面描述: A.正偏态资料 B.负偏态资料 C.正态分布和近似正态分布 D.任何分布3.正态分布曲线下,从均数u 到u +1.96的面积为; A.95% B.45% C. 97.5% D.47.5%,例如:N=200, ,求5080之间的理论频数.,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医学治疗 > 医学现状与发展

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报