1、正态分布及其应用 Normaldistributionanditsapplications统计学中最重要的理论分布之一 2 主要内容 Content 随机变量的概率分布正态分布的概念及图形正态分布的特征正态分布曲线下面积的规律标准正态分布正态分布的应用总结 3 随机变量 变量和随机变量变量取值的相对频率说明了具有某个性质的观察对象出现的可能性 随机变量离散型 性别 血型 子女数 事故数连续型 身高 体重 4 例 密度函数和分布函数 抛两枚硬币 密度函数 分布函数 5 例 密度函数和分布函数 6 随机变量的概率分布 概率函数 ProbabilityFunction 或者说概率密度函数 Proba
2、bilityDensityFunction 密度函数 在统计学中 我们说变量具有分布函数 DistributionFunction 用此函数的大小来说明变量取某些值的可能性 当变量的取值包括了所有可能的取值时 分布函数为1 当变量具备了以上两个函数之后 称它具有某种分布 Distribution 7 正态分布 Normaldistribution德国数学家Gauss发现最早用于物理学 天文学Gaussiandistribution 8 正态分布的概念及图形 10 正态分布的概率密度函数 如果随机变量X的概率密度函数则称X服从正态分布 记作X N 2 其中 为分布的均数 为分布的标准差 X 11
3、 正态分布图示 X 0 1 2 3 4 f X 12 方差相等 均数不等的正态分布图示 13 均数相等 方差不等的正态分布图示 1 14 正态分布的特征 单峰分布 高峰在均数处 以均数为中心 均数两侧完全对称 正态分布有两个参数 parameter 即位置参数 均数 和变异度参数 标准差 有些指标本身不服从正态分布 但经过变换之后可以服从正态分布 正态曲线下的面积分布有一定的规律 15 正态曲线下某一区域的面积用定积分来求 正态曲线下的面积 16 正态曲线下的面积规律 X轴与正态曲线所夹面积恒等于1 对称区域面积相等 S X S X S X 17 正态曲线下的面积规律 对称区域面积相等 S x
4、1 x2 x1 x2 x2 x1 S x1 x2 S x1 x2 18 正态曲线下的面积规律 4 3 2 101234 3 2 2 3 S 3 0 0013 S 2 0 0228 S 1 0 1587 S 0 5 S 3 0 9987 S 2 0 9772 S 1 0 8413 S 1 19 正态曲线下的面积规律 4 3 2 101234 3 2 2 3 1 S 3 3 0 0026 1 S 2 2 0 0456 1 S 0 3174 20 正态曲线下的面积规律 4 3 2 101234 3 2 2 3 S 3 0 0013 S 2 0 0228 S 1 0 1587 S 0 5 S 3 0
5、9987 S 2 0 9772 S 1 0 6587 S 1 21 正态曲线下的面积规律 3 2 2 3 S 3 0 0013S 2 0 0228S 1 0 1587S 0 0 5 S 3 2 0 0115S 2 1 0 1359S 1 0 3413 4 3 2 101234 22 正态曲线下的面积规律 3 2 2 3 S 3 0 0013S 2 0 0228S 1 0 1587S 0 0 5 S 3 2 0 0115S 2 1 0 1359S 1 0 3413 23 正态曲线下的面积规律 3 3 2 2 S 3 2 0 0115S 2 1 0 1359S 1 0 3413 S 3 0 001
6、3S 2 0 0228S 1 0 1587S 0 0 5 24 正态曲线下的面积规律 1 96 1 96 2 5 2 5 95 25 正态曲线下的面积规律 26 正态曲线下的面积规律 2 58 2 58 0 5 0 5 99 27 正态曲线下的面积规律 正态分布的一个显著特点其曲线下面积完全决定于以标准差为单位从点x到 的离差 28 1 29 正态曲线下的面积规律 正态曲线下面积总和为1 正态曲线关于均数对称 对称的区域内面积相等 对任意正态曲线 按标准差为单位 对应的面积相等 1 64 1 64 内面积为90 1 96 1 96 内面积为95 2 58 2 58 内面积为99 小于 3 的面
7、积为0 13 小于 2 的面积为2 28 小于 的面积为15 87 30 正态分布转换为标准正态分布 若X N 2 作变换 则u服从标准正态分布 u称为标准正态离差 standardnormaldeviate 31 标准正态分布 标准正态分布 standardnormaldistribution 是均数为0 标准差为1的正态分布 记为N 0 1 标准正态分布是一条曲线 概率密度函数 u 32 标准正态分布曲线下面积 u u0 00 0 02 0 04 0 06 0 08 3 00 00130 00130 00120 00110 0010 2 50 00620 00590 00550 00520
8、 0049 2 00 02280 02170 02070 01970 0188 1 90 02870 02740 02620 02500 0239 1 60 05480 05260 05050 04850 0465 1 00 15870 15390 14920 14460 1401 0 50 30850 30150 29460 28770 281000 50000 49200 48400 47610 4681 0 u 33 正态分布的应用 估计频数分布质量控制确定临床参考值范围 34 总结 正态分布是描述个体变异的重要分布之一 也是统计学理论中的重要分布之一 正态分布是一簇分布 由两个参数决定
9、 均数和标准差 正态分布曲线下的面积是有规律的 且与标准正态分布曲线下的面积对应 以标准正态离差为单位 35 需要掌握的内容 正态分布的性质正态曲线下面积的分布规律参考值范围确定的原则和方法 36 Thankyou 37 估计频数分布 某项目研究婴儿的出生体重服从正态分布 其均数为3150g 标准差为350g 若以2500g作为低体重儿 试估计低体重儿的比例 首先计算标准离差 查标准正态分布表 1 86 0 0314结果 估计低体重儿的比例为3 14 38 质量控制 质量控制的意义监控日常工作 科研过程 生产过程中误差的变化 分析变化的趋势是否出现异常 从而引起警觉和注意 以便分析原因 并及时
10、采取措施 39 质量控制图 qualitycontrolchart 40 质量控制图 qualitycontrolchart UCL 上控制限 UWL 上警戒限 CL 中心线 LWL 下警戒限 LCL 下控制限 样本编号 取样时间 M 2 58SDM 1 96SDMM 1 96SDM 2 58SD 41 质量控制图 qualitycontrolchart 123456789101112131415取样时间 M 3SDM 2SDMM 2SDM 3SD 42 参考值范围 referenceinterval 参考值范围又称正常值范围 normalrange 什么是参考值范围 是绝大多数正常人的某观察
11、指标所在的范围 绝大多数 90 95 99 等等 确定参考值范围的意义 用于判断正常与异常 正常人 的定义 排除了影响所研究的指标的疾病和有关因素的同质的人群 43 参考值范围的估计方法 正态分布法 2 5 2 5 95 1 96 1 96 44 参考值范围确定的原则 选定足够例数的同质的正常人作为研究对象控制检测误差判断是否分组 性别 年龄组 单 双侧问题选择百分界值 90 95 确定可疑范围 45 单侧与双侧参考值范围 根据医学专业知识确定 双侧 白细胞计数 血清总胆固醇 单侧 上限 转氨酶 尿铅 发汞 下限 肺活量 IQ 46 正常人 病人 假阳性率 假阴性率 正常人与病人的数据分布重叠
12、示意图 单侧 47 正常人 病人 假阳性率 假阴性率 正常人与病人的数据分布重叠示意图 单侧 48 正常人 病人 假阳性率 假阴性率 病人 正常人与病人的数据分布重叠示意图 双侧 49 参考值范围的估计方法 百分位数法 P2 5 P97 5 50 参考值范围的估计方法 方法双侧单侧下限单侧上限正态分布法百分位数法P2 5 P97 5 P5 P95对数正态分布法转换成正态分布 51 红细胞计数 RBC 参考值范围 成年男性 4 0 5 5 1012 L 成年女性 3 5 5 0 1012 L 新生儿 6 0 7 0 1012 L 52 白细胞计数参考值范围 成年 4 0 10 0 109 L 新
13、生儿 15 0 20 0 109 L 6个月 2岁 11 0 12 0 109 L 53 南通大学附属医院血常规正常值范围 54 南通大学附属医院生化检验参考值范围 55 例 参考值范围的计算 某地调查了200名成年女子的平均血清总蛋白为73 5 g L 标准差3 9 g L 试估计该地成年女子血清总蛋白95 的参考值范围 由得95 参考值范围 下限 1 96s 73 5 1 96 3 9 65 9 g L 上限 1 96s 73 5 1 96 3 9 81 1 g L 此可作为判断该地区成年女子血清总蛋白含量正常与否的参考值 56 参考值范围的特点 与种族有关与年龄 性别有关与环境 气候有关与仪器本身有关不同的医院 参考值范围不同