1、第五节正态分布及其应用 正态分布 重要的概率分布 统计分析方法的基础 医学研究中的多数观察指标服从或近似服从正态分布 很多统计方法建立在正态分布的基础之上 很多其他分布的极限为正态分布 一 正态分布的概念和图形 a b c d 正态分布的概率密度函数为 X 式中 有4个常数 为总体均数 为总体标准差 为圆周率 e为自然对数的底 其中 为不确定的常数 e为固定常数 仅X为变量 代表图形上横轴的数值 f X 为纵轴数值 当给定 和 就可绘制出一条正态分布曲线 正态分布曲线是一簇曲线 正态分布图形 对称的钟型 在均数处最高 两侧逐渐下降两端在无穷远处与横轴无限接近 一般情况下 我们用N 2 表示均数
2、为 方差为 2的正态分布 5 4 3 2 1 0 1 2 3 4 5 不同标准差 的正态分布示意 二 正态分布的特征 特征一正态分布是一单峰分布 高峰位置在均数X 处 特征二正态分布以均数为中心 左右完全对称 特征三正态分布取决于两个参数 即均数 和标准差 为位置参数 变大 则曲线沿横轴向右移动 变小 曲线沿横轴向左移动 为形态参数 表示数据的离散程度 若 小 则曲线形态 瘦高 大 则曲线形态 矮胖 特征四有些指标不服从正态分布 但通过适当变换后服从正态分布 如对数正态分布 特征五正态分布曲线下的面积分布是有规律的 用F X 代表横轴自 到X间曲线下面积 即下侧累计面积 概率 曲线下 X1 X
3、2 两个数值之间的面积则可以用与的差值求得 无论 取什么值 正态分布密度曲线下的面积分布有以下几个规律 正态密度函数曲线与横轴间的面积恒等于1或100 正态分布是对称分布 其对称轴为直线X X 与X 范围内曲线下面积相等 各占50 曲线下面积常用规律 在区间 内的曲线下面积为68 27 在区间 1 64 1 64 内的面积为89 90 在区间 1 96 1 96 内的面积为95 00 在区间 2 58 2 58 内的面积为99 00 三 标准正态分布 将正态分布变量作标准化变换 就得到均数为0 标准差为1的标准正态分布 standardnormaldistribution 标准化变换公式 正态
4、分布的概率密度函数方程就简化为标准正态分布的概率密度函数方程 u 对其定积分 式中 u 为标准正态变量u的累计分布函数 反映了横轴自 到u的正态曲线下面积 也就是下侧累计面积 概率 引入标准化变换后 对于其他任何正态分布都可以借助标准正态分布表估计任意 X1 X2 范围内的频数比例 例 已知u1 1 76 u2 0 25 求标准正态曲线下 1 76 0 25 范围内的面积 查附表1 得 1 76 范围内的面积为0 0392 0 25 范围内的面积为0 4013 则 1 76 0 25 范围内的面积D 0 4013 0 0392 0 3621 附表1中只列出了曲线下从 到0范围内的面积对于u 0
5、的范围面积 利用正态分布的对称性 通过 u 1 u 来求曲线下的面积 注意点一 例 已知u1 1 20 u2 1 60 求标准正态曲线下 1 20 1 60 范围内的面积 查附表1 得 1 20 范围内的面积为0 1151 1 60 范围内的面积为0 0548 利用正态分布的对称性 求 1 60 1 1 60 则 1 60 范围内面积为1 0 0548 0 9452 1 20 1 60 范围内的面积D 0 9452 0 1151 0 8301 注意点二 对于非标准正态分布 求曲线下任意 X1 X2 范围内的面积 可先作标准化变换 再借助标准正态分布表求得 例 某市120名12岁男童身高的例子中
6、已求得均数为143 05cm 标准差s 5 82cm 设该资料服从正态分布 试求 该地12岁男童身高在132cm以下者占该地12岁男童总数的比例 分别求 1s 1 96s和 2 58s范围内12岁男童占该组儿童总数的实际百分数 并与理论百分数比较 计算u 132 0 143 05 5 82 1 90查表得 u 1 90 0 0287 四 正态分布的应用 医疗卫生领域中有很多的指标是服从或近似服从正态分布 如 同性别同年龄正常儿童的身高 体重 同性别健康成人的红细胞数以及实验中的随机误差等一般都服从正态分布 有一些指标不服从正态分布 但经过变量变换后 能近似服从正态分布 如 对数正态分布 一 估
7、计频率分布 例 若由某项研究得某地婴儿出生体重为3100g 标准差为300g 试估计该地区当年出生低体重儿 出生体重 2500g 所占比例 认为当年该地区婴儿出生体重近似服从正态分布N 3100 3002 作标准化变换 查附表1 得 2 00 0 0228得出结论 估计该地区当年出生低体重儿所占比例为2 28 例 已知某地健康成年男子的红细胞计数是以 5 00 1012 L 0 25 1012 L的正态分布 试问红细胞计数在4 50 1012 L至5 20 1012 L之间 占该地健康成年男子的百分之几 将变量值标准正态转换为u 当x 4 50时 u1 4 50 5 00 0 25 2 00当
8、x 5 20时 u2 5 20 5 00 0 25 0 80查附表1标准正态曲线下面积得 u1 2 00 0 0228 u2 1 0 80 0 7881D u2 u1 0 7881 0 0228 0 7653所以 该地健康成年男子中 估计有76 53 的人红细胞数在 4 50 5 20 1012 L范围内 二 医学参考值范围的确定 医学参考值 referencevalue 是指包括绝大多数正常人的人体形态 功能和代谢产物等各种生理及生化指标常数 也称正常值 normalvalue 由于个体差异的存在 因此需要确定绝大多数正常人各种指标一定的波动范围 这个范围就叫做参考值范围 reference
9、interval 又称正常值范围 normalrange 1 参考值范围确定的注意点 正常人 的概念样本数据大小的问题检测误差的问题判断是否分组单 双侧的问题 绝大多数 的含义是否需要确定可疑范围变量转换的问题 不管将正常界值定在什么位置 都可能出现假阳性或假阴性 产生这两种误判的根本原因是正常人的分布与病人的分布有重叠 正常人与病人的数据分布重叠示意图 2 参考值范围的估计方法 方法一 正态分布法双侧单侧 高侧 低侧 某些偏态资料经过数据转换后服从正态分布 也可按正态分布规律处理 对于一个指标 随机抽取一个样本含量足够大的样本 一般认为应大于100例 可按下表利用正态分布法制定参考值范围 例
10、 某地调查正常成年男子200人的红细胞数得均数 55 26 1012 L 标准差S 0 38 1012 L 试估计该地区正常成年男子红细胞数的95 参考值范围 红细胞数过多或过少均为异常 故取双侧 该地区正常成年男子红细胞数的95 参考值范围为 下限 上限 例 某地调查了360名成年男子的平均血红蛋白 13 45 g 100ml 标准差s 0 71 g 100ml 试估计该地成年男子血红蛋白95 的参考值范围 根据前表得95 参考值范围 下限 1 96s 13 45 1 96 0 71 12 06 g 100ml 上限 1 96s 13 45 1 96 0 71 14 84 g 100ml 例 某地调查120名健康成年男子的第1秒肺通气量得均数 4 2L 标准差S 0 7L 试估计该地区健康成年男子的第1秒肺通气量的95 参考值范围 解题 由于第1秒肺通气量仅过低属于异常 故取单侧下限 该地区健康成年男子的第1秒肺通气量的95 参考值范围为 下限 方法二 百分位数法双侧P2 5 P97 5单侧 低侧 P5 高侧 P95方法三 对数正态分布法x lnX 经变换后的x分布服从正态分布 按正态分布法算出x值的参考值范围 再计算反对数 即得所求 谢谢