收藏 分享(赏)

公共卫生学院-康楚云统计2.集中趋势和离散趋势二.ppt

上传人:无敌 文档编号:1111266 上传时间:2018-06-12 格式:PPT 页数:70 大小:872.52KB
下载 相关 举报
公共卫生学院-康楚云统计2.集中趋势和离散趋势二.ppt_第1页
第1页 / 共70页
公共卫生学院-康楚云统计2.集中趋势和离散趋势二.ppt_第2页
第2页 / 共70页
公共卫生学院-康楚云统计2.集中趋势和离散趋势二.ppt_第3页
第3页 / 共70页
公共卫生学院-康楚云统计2.集中趋势和离散趋势二.ppt_第4页
第4页 / 共70页
公共卫生学院-康楚云统计2.集中趋势和离散趋势二.ppt_第5页
第5页 / 共70页
点击查看更多>>
资源描述

1、第二章 集中趋势、离散趋势、 正态分布及其应用,组段,频数 f,一、频数表,100名2岁男童身高的频数表, 组段 是若干个从小到大顺序排列的数据范围,每一个组段包括上限和下限 组距,相邻组段之间的距离称为组距。, 上限和下限,上限指某个组段数据范围的最大值,下限指最小值。相邻后一组的下限即是前一组的上限。,每个组段的数据范围是:包括下限但不包括上限,因此只写出下限的大小。,组距 i =相邻两组段下限之差,最后一组既包括上限也包括下限。,频数是指在所有观察值中,数值大小落在某一组段范围内的数据有多少个。,所有组频数总和是观察值的总个数f = n,100个人中有13个人身高在81 83cm范围内,

2、将原始数据整理成频数表的步骤,1. 找出最大值和最小值,求全距R=Xmax-Xmin,2.确定组数、计算组距、写组段组数 = 815组,第一组段包括数据中的最小值,最后一组段包括数 据中的最大值。,3. 计数频数,完成频数表,所有组的频数之和应该等于总观察值的个数。,由于取整的关系,频数表的组数可以和最初确定的组数不等。,绘制频数表举例,100名18岁健康女大学生身高165.1 165.1 159.5 166.1 0,找出最大值和最小值,求全距 Xmax=173.6 Xmin=154.7 R=Xmax-Xmin=173.6-154.7=18.9,2. 确定组数、计算组距、写组段 组数 = 10

3、组 i=R/n=18.9/10=1.89 取整 i=2 第一组段: 154 (包含数据中的最小值) 第二组段: 156 (每隔组距2写一组段) 最后一组: 172174 (包含数据中的最大值),3. 计数频数,完成频数表,f,身高,100名2岁健康男童身高的频数分布,频数分布的类型,200例正常成人血铅含量,血铅,f,某地健康成人的第一秒肺通气量,f,通气量,频数分布类型分为:,对称分布,偏态分布,正偏态,负偏态,频数分布的特征,1.集中趋势2.离散趋势,集中趋势指计量资料数据的平均水平,统计学上用一系列平均数指标来表示。,二、 数值变量集中趋势的描述指标,常用的集中趋势指标有三个: 算术均数

4、、几何均数、中位数,不同的平均数指标用于表示不同分布类型资料的集中趋势;不同分布类型的资料应该用相应的指标来描述。,(一)均数(算术均数),1. 表示符号:总体 样本,2. 适用资料: 对称分布资料(正态分布资料),3. 计算方法:直接法和加权法,观察值数量较少时用直接法;观察值数量多时用加权法。, 直接法计算均数,例:P11,其中X表示所有观察值之和n表示观察值的个数或样本量, 加权法计算均数 (利用频数表计算均数),X表示频数表各组的组中值。,组中值计算:,或:,f 为各组频数,计算100名2岁男童的平均身高(身高的集中趋势),步骤:求组中值X求各组fXfX 求和代入公式计算均数,=84.

5、84cm,某研究者调查了101名30-49岁正常成年男子血胆固醇含量(mmol/L),整理成如下频数表,请计算其均数。,=4.735mmol/L,(二)几何均数,1. 符号表示 G,2. 适用资料:数据为等比数列,或对数正态分布资料,等比数列:后面数除以前面数总是等于一个常数,如2、4、8、16,3. 计算方法:直接法和加权法,观察值数量较少时用直接法;频数表资料用加权法。, 直接法计算几何均数,例:P12,或, 加权法计算几何均数 (利用频数表计算几何均数),步骤:求lgX求各组flgXflgX 求和代入公式计算均数对数用反对数求几何均数,=4,计算几何均数的注意事项: 观察值中不能有 观察

6、值符号相同,不能同时有正值和负值,(三)中位数,1. 概念把一组变量值按大小顺序排列,位置在最中间的数值称为中位数。,2. 符号:M,3. 适用资料:偏态分布资料、资料一端或两端无确定数值、分布类型未知的资料,4. 计算方法:直接法和频数表法, 直接法计算中位数,根据样本量n不同分成两种情况,n为奇数,n为偶数,求1,2,3,4,5这五个数的中位数,求1,2,3,4,5,6这六个数的中位数, 用频数表计算中位数 (利用频数表计算中位数),累计频数和累计频率,L:中位数所在组段下限i:中位数所在组段的组距fx:中位数所在组段的频数C:中位数所在组段前一组累计频数,关键要先找出中位数位于频数表中哪

7、一组。,方法:累计频率累计频率刚刚等于或大于50%的组 累计频数累计频数刚刚等于或大于n/2的组,计算公式,步骤:求累计频数求累计频率判断中位数所在组段代入公式计算中位数,23.8小时,右表中是300名健康成年人尿汞含量测量的结果,计算其平均尿汞水平。,(1)判断频数分布类型:偏态分布,(2)找出中位数所在组段,中位数在累计频数刚到150(300/2)的组,或累计频率刚达到50的组。,(3)代入公式计算,=16.5ug/L,5. 百分位数,中位数是一个特殊的百分位数,是50百分位数计算方法和中位数相同,用x表示,求P95,95百分位数,57.8小时,三、 离散趋势,离散趋势指计量资料数据距离平

8、均位置的分散程度,统计学上用一系列离散趋势的指标来表示。,4 6 8 10 4 5 6 7 8,数据分散程度大数据分散程度小,表示数据离散趋势(变异程度、离散程度、分散趋势)的指标:,全距,标准差,变异系数,不同的指标用于表示不同分布类型资料的离散趋势;不同分布类型的资料应该用相应的指标来描述。,四分位数间距,方差,(一)全 距(极差) R,R=XmaxXmin, 优点:计算简单、可用于所有类型资料, 缺点:没有将所有数据的分散程度考虑在内,(二)四分位数间距 Q,上四分位数QU:第75百分位数 P75 下四分位数QL:第25百分位数 P25 四分位数间距:上四分位数和下四分位数之差 Q=QU

9、-QL,比全距稳定,但仍然没有考虑到每个观察值的变异度。,P25 M P75,0%,100%,(三)方差,1. 符号:总体 样本S,2. 适用资料:对称分布资料(和均数一样),3. 原理,考虑每个数据和均数间的差,差值可能会有正有负,将所有的差值加起来求平均,校正,S2,(四)标准差,1. 符号:总体 样本S,2. 适用资料:对称分布资料(和均数一样),3. 来源: 标准差是方差的算术平方根,4. 优点:全面考虑了所有数据的变异程度,5. 意义:单位相同,均数相近的情况下,标准差越大,说明数据越分散,离散程度越大;标准差越小,说明数据越集中,离散程度越小。,6. 计算方法:直接法和加权法,观察

10、值数量较少时用直接法;频数表资料用加权法。, 直接法计算标准差,S =,S =,4 6 8 10 4 5 6 7 8,计算以下两组数据的标准差,=3.16,=1.58, 加权法计算标准差(利用频数表计算标准差),S =,f:频数表中的频数,X:频数表各组的组中值,注意:fX2 和 (fX)2,例:100名岁男孩身高,求离散趋势,2. 计算各组fX,1. 求组中值X,3. 计算各组fX2,4. 将fX和fX2代入公式计算,S =,=3.79cm,例2 101名30-49岁正常成年男子血胆固醇(mmol/L),S =,=0.882mmol/L,(四)变异系数, 符号:CV, 计算公式:, 适用情况

11、:当两组计量资料比较离散程度时,- 两组资料度量衡单位不同,- 两组资料均数相差悬殊, 优点:没有单位,可以进行不同指标之间的比较,例 某地2岁男孩100人,身高的均数为84.8cm,标准差为3.8cm;体重均数为13.0kg,标准差为1.43kg。比较身高和体重的变异程度。,身高和体重用不同的度量衡单位,因此不能直接比较标准差。,身高,体重,通过比较CV,结果是体重的变异程度大。,小结:集中趋势指标和离散趋势指标的应用,四、正态分布和医学正常值范围的估计,(一)正态分布,1. 正态图形特点:, 单峰 峰值的位置是均数的位置, 左右对称 以均数位置为对称轴, 向两侧逐渐降低,不会与横轴相交,

12、具有两个参数:, 位置参数 决定曲线在横轴上的相对位置 越大,曲线越向右移, 形状参数 S 决定曲线的形状 S 越大,曲线越矮越宽 (数据 越分散),2. 正态分布的表示方法:如果某变量X的分布服从均数为,标准差为的正态分布,通常记为,X N( , ),例:100名女大学生的身高服从(163.84cm,3.79cm)的正态分布,3. 标准正态分布,标准正态分布又称z分布,是指均数为0,标准差为1的正态分布。,正态分布可以转换成标准正态分布:将所有观察值减均数除以标准差。,标准正态分布表示方法: N (0,1),或,0,S=1,身高,163.84cm,S=3.79cm,4.735mmol/L,胆

13、固醇含量,S=0.882mmol/L,标准正态分布(z分布),4. 正态曲线下面积, 正态曲线以下,横轴以上的面积称为正态曲线下面积,用P表示。, 正态曲线下面积为100%(1),表示所有观察对象都包括在正态曲线的面积内。, 正态曲线下面积左右对称,各占50%。, 当正态分布的参数值固定后,正态曲线固定,正态曲线下面积由横轴上的界值来决定。横轴上X1X2之间的曲线下面积P可表示组段X1X2的频率。,身高,标准正态分布曲线下面积与界值,双侧95%:-1.96 1.96,双侧99%:-2.58 2.58,单侧95%:-1.645 1.645,单侧99%:-2.33 2.33,z值表,双侧95%正态

14、曲线下面积:,双侧99%正态曲线下面积:,常用正态曲线下面积和界值:,估计频率分布:,例1:100名2岁男童平均身高84.84cm,标准差3.79cm。 计算占总人数95%的男童身高范围。,=84.84-1.963.7984.84+1.963.79,=77.4cm92.3cm,身高在77.4cm92.3cm范围内的人占总人数的95%。,77.4 84.84 92.3,例2:身高小于80cm的人占总人数的比例,= -1.27,(1) 正态分布转化为标准正态分布,计算z值,(2) 查z值表,-1.27对应曲线下面积P是0.1020,即- -1.27占总面积的10.2%,故身高不足80cm的人占总人

15、数的10.2%,(二)医学参考值范围,1. 什么是医学参考值范围?,2. 双侧医学参考值范围和单侧医学参考值范围, 有些指标要求有上限和下限,计算双侧参考值范围。 例如:血压、血红蛋白、体重等, 只要求有上限或下限的指标计算单侧参考值范围。其中:, 上限:可以很小,过大不正常 例如:尿蛋白, 下限:可以很大,过小不正常 例如:肺活量,绝大多数正常人某项研究指标数值所在的范围。 常用95%和99%的正常值范围。,3. 计算方法, 正态分布法:要求资料服从正态分布 例:100名2岁男孩身高的均数是84.84cm,标准差是3.79cm,计算100名男孩身高的95%和99%正常值范围,=84.84-1

16、.963.79=77.4cm,=84.84+1.963.79=92.3cm,100名2岁男孩身高95%正常值范围是77.4cm92.3cm,95%正常值范围:,=84.84-2.583.79=75.1cm,=84.84+2.583.79=94.6cm,100名2岁男孩身高99%正常值范围是75.1cm94.6cm,99%正常值范围:,用百分位数法确定正常值范围,双侧95%: P2.5 P97.5,双侧99%:P0.5 P99.5,单侧95%上限:0 P95 单侧95%下限:P5 P100,单侧99%上限:0 P99 单侧99%下限:P1 P100, 百分位数法:资料不服从正态分布时用,练习一:

17、101名正常成年男子血胆固醇平均4.735mmol/L,标准差为0.882mmol/L,求其95%和99%正常值范围。,95%正常值范围:,99%正常值范围:,= 4.7351.960.882,= 3.016.46mmol/L,= 4.7352.580.882,= 2.467.01mmol/L,偏态分布95%单侧正常值范围:0P95,P95:10795%= 101.65 在20组。,P95= 20+4/6(101.65-98)=22.43mg/L,95%正常值范围是22.43mg/L以内。,练习二、调查测定某地107名正常人尿铅含量(mg/l)如下:尿铅含量:0 4 8 12 16 20 24 28 合计例数: 14 22 29 18 15 6 1 2 107,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报