1、医学统计学,授课教师:殷菲,教学安排,作业 实习:SPSS 考试平时30,期末70(SPSS1020),关于PPT的下载,http:/ 邮箱: PW :huaxilinchuang,绪 论,统计学(Statistics) 生物统计学( Biostatistics ) 医学统计学( Medical Statistics ),医学统计学的概念,医学统计学就是运用统计学的基本原理和方法来研究医学问题的一门学科,它包括了研究设计、数据收集、整理、分析以及分析结果的正确解释和表达。,统计工作的步骤,设计(design) 收集资料(collection of data) 整理资料(sorting data
2、) 分析资料(analysis of data),设 计(Design),对资料收集、整理和分析全过程总的设想和安排 是整个工作中最关键的一环,example,研究魔芋精粉是否可以降低大白鼠血中的胆固醇含量?,方案,选大白鼠若干,在其饲料中添加魔芋精粉,比较试验前后大白鼠血中胆固醇含量,若试验后大白鼠血中胆固醇含量降低,则说明魔芋精粉有降低胆固醇含量的作用。,方案,选大白鼠若干,在其饲料中添加魔芋精粉,比较试验前后大白鼠血中胆固醇含量,若试验后大白鼠血中胆固醇含量降低,则说明魔芋精粉有降低胆固醇含量的作用。,Company Logo,没有科学严谨的统计设计,数据的收集和分析常常是没有价值的。对
3、于不准确或不可靠的数据,试图寻求统计方法加以弥补亦是徒劳无益的,即使再高深的统计方法也一样于事无补。,设 计(Design),对资料搜集、整理和分析全过程总的设想和安排 是整个工作中最关键的一环,统计工作的步骤,设计(design) 收集资料(collection of data) 整理资料(sorting data) 分析资料(analysis of data),收集资料,统计报表。如法定传染病报表,职业病报表,医院工作报表等。 经常性工作记录。如经常性的卫生监测记录、健康检查记录等。 专题调查或实验,收集资料,要求:准确、可靠,统计工作的步骤,设计(design) 收集资料(collect
4、ion of data) 整理资料(sorting data) 分析资料(analysis of data),整理资料,净化原始数据,使其系统化,条理化,便于进一步计算和分析 重点:资料清理(data cleaning),资料清理(data cleaning),录入数据与原始资料一致 逻辑查错,采用Epidata进行双输录入,甲录入 的数据,乙录入 的数据,核查,第24章,资料清理(data cleaning),录入数据与原始资料一致 逻辑查错,统计工作的步骤,设计(design) 收集资料(collection of data) 整理资料(sorting data) 分析资料(analysi
5、s of data),分析资料,统计描述(descriptive statistics):指用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述。 统计推断(inferential statistics):指如何抽样,以及如何由样本信息推断总体特征问题。,几个基本概念,资料(data)和变量(variable) 总体(population)和样本(sample) 参数(parameter)和统计量(statistic) 抽样误差(sampling error) 频率和概率(probability),无论用何种方式搜集资料,都要先确定观察单位(人、家庭、地区、样品、采样点
6、等),然后对每个观察单位的某项特征进行测量和观察。 变量:观察单位的某种特征或属性 Example:你年龄多大?是什么学历?结婚了吗? 对应变量:年龄、学历、婚姻状况,变 量,变量值,变量值:变量的观察结果,可以是定量的,也可以是定性的。 例:年龄学历(文盲、小学、初中、高中、大学、研究生),统计资料类型,定量资料(定量变量)分类资料(分类变量),统计资料的类型,定量资料(quantitative data) 对每一个观察单位用定量的方法测定某项指标数量大小,所得的资料为定量资料,表1 3名学生身高体重测量值,定量资料分类,离散型资料:变量取值可以一一列举的资料例:每个妇女现有的子女数 连续型
7、资料:变量取值不能一一列举的资料(变量取值为一定范围内的任意值)例:人体的身高、体重、总胆固醇,统计资料的类型,分类资料(categorical data) 将观察单位按属性或类别分组计数所得的资料为分类资料 分类资料又可分为无序分类资料和有序分类资料(二项分类、多项分类),分类资料,有序分类资料,无序分类资料,二项分类,多项分类,无序分类资料,二项分类 将观察单位按两种属性分类 如 性别(男/女), 疾病结局(死亡/生存) 治疗效果(有效/无效) 多项分类:互不相容的多类 如:血型,分类资料,有序分类资料,无序分类资料,二项分类,多项分类,有序分类资料,又称等级资料,各类之间有程度的差别,给
8、人“半定量”的概念 如尿蛋白分类: 疗效分类:痊愈 显效 有效 无效,各类变量互相转化,*:1为Hg升高,2为正常,3为贫血;*:0为正常,1为异常,定量,有序,无序,单向!,question,一批病人的血球沉降率(),属于哪种资料?,表2 一批病人的血球沉降率,统计资料的类型,定量资料(quantitative data) 对每一个观察单位用定量的方法测定某项指标数量大小,所得的资料为定量资料,绝对数和相对数均可,几个基本概念,资料(data)和变量(variable) 总体(population)和样本(sample) 参数(parameter)和统计量(statistic) 抽样误差(s
9、ampling error) 频率和概率(probability),总体,定义:同质的所有观察单位某种变量值的集合。 同质:同一总体中各个个体的共性 例:四川省2008年正常成年男子的红细胞数,总体实例,调查四川省2008年正常成年男子的红细胞数: 共性:同一地区、同一年份、同为正常成人,同为男性。,总体实例,调查四川省2008年正常成年男子的红细胞数: 观察对象是四川省2008年的正常成年男子 观察单位是每个人 观察值(变量值)是每人测得的红细胞数 该地2008年全部正常成年男子的红细胞数就构成一个总体。 它的共性是同一地区、同一年份、同为正常成人,同为男性。,总体,分类: 有限总体:有时空
10、限制,知道确切的观察单位数 无限总体:没有时空限制,不知道确切的观察单位数(如某药治疗糖尿病的疗效),样 本,定义:从总体中随机抽部分观察单位,其实测值的集合。 样本含量:样本包含的观察单位数,样本实例,可从四川省2008年的正常成年男子中,随机抽取100人,分别测得其红细胞数,组成样本。,对样本的要求,可靠性:各观察单位具有同质性, 来自同一个总体 代表性:a 抽样遵循随机化原则b 足够的样本含量,样本实例,可从四川省2008年的正常成年男子中,随机抽取100人,分别测得其红细胞数,组成样本。,几个基本概念,资料(data)和变量(variable) 总体(population)和样本(sa
11、mple) 参数(parameter)和统计量(statistic) 抽样误差(sampling error) 频率和概率(probability),参数和统计量,参数:统计学中总体的指标称为参数如总体均数 、总体标准差 、总体率 统计量:样本的指标称为统计量如样本均数 、样本标准差 、样本率,几个基本概念,资料(data)和变量(variable) 总体(population)和样本(sample) 参数(parameter)和统计量(statistic) 抽样误差(sampling error) 频率和概率(probability),抽样误差,由个体之间的变异引起的,抽样造成的,样本的统计
12、量与总体参数的差异,称为抽样误差(说明用样本推断总体的精确度) 不可避免但可控制(增大样本例数可减小抽样误差),几个基本概念,资料(data)和变量(variable) 总体(population)和样本(sample) 参数(parameter)和统计量(statistic) 抽样误差(sampling error) 频率和概率(probability),频 率,某现象发生的频度(频繁程度)或强度,具有回顾性(已发生) A事件发生的频率用 表示 设事件A在n次重复中发生了m次,则 m / n(例:抛硬币),概率,描述某事件发生可能性大小,具有预测性 A事件发生的概率用 表示习惯上把概率 的事
13、件称为小概率事件,小概率事件原理,在一次抽样中,可认为小概率事件不会发生 小概率事件原理是假设检验的基础,概率与频率的关系,实际工作中,当概率不易求得时,只要观察单位数充分多,可以将频率作为概率的估计值。 但在观察单位数较少时,频率的波动性是很大的,用于估计概率是不可靠的。,学习医学统计学应注意的问题,重点掌握:基本概念、方法的使用条件、注意事项 培养统计思维方法:逻辑思维,定量资料的统计描述,资料的两种类型定量资料 分类资料统计分析的内容 统计描述 统计推断,统计分析统计描述:是用统计图(表)、统计指标来描述资料的分布规律及其数量特征。 统计推断:在总体中随机抽取的部分观察单位(样本) ,然
14、后用样本信息推断总体特征,即统计推断 。,第四章 定量资料的统计描述,频数分布表和频数分布图 集中位置的描述 离散程度的描述,频数分布表和频数分布图,为了解数值变量的分布规律,当观察单位较多时,可通过资料整理,编制频数分布表,简称频数表,连续型定量变量的频数表(P40),例4.2 在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。,频数表(frequency table)的编制,1) 求全距(range): 2) 划分组段 3) 统计各组段频数,列出频数表,频数表(frequency table)的编制,1) 求全距(range)
15、:找出观察值中的最大值与最小值,其差值即为全距(或极差),用R表示 本例:R=2.406-0.980=1.417(cm )。,频数表(frequency table)的编制,1) 求全距(range): 2) 划分组段 3) 统计各组段频数,列出频数表,划分组段,根据观察单位数目的多少确定“组段”数,一般设815个组段。 各组段的起点和终点分别称为下限和上限,某组段的组中值为该组段的(下限+上限)/2。,表4.2 2005年某市120名9岁男孩肺活量(L)频数分布,划分组段,相邻两组段的下限之差称组距,组距全距/组数,组距一般取整,以便于汇总和计算(本例1.417/11=0.129,故可取0.
16、130为组距 )。 第一组段应包括全部观察值中的最小值,最末组段应包括全部观察值中的最大值并且同时写出其下限与上限,其余组段只需写出下限。,表4.2 2005年某市120名9岁男孩肺活量(L)频数分布,频数表(frequency table)的编制,1) 求全距(range): 2) 划分组段 3) 统计各组段频数,列出频数表,频数表的用途,揭示资料的分布特征和分布类型 便于发现某些特大或特小的可疑值。,频数分布的特征,集中趋势:高峰组段的位置 离散趋势:观察值的分布范围,频数分布的特征,集中趋势(central tendency) 如表4.2,120名9岁男孩肺活量多集中在1.6301.760组段 离散趋势(dispersion) 如表4.2,观察值分布在0.9802.410,频数分布的类型,对称分布:集中位置在中央,左右两侧频数分布大致对称。偏态分布:偏态分布指频数分布不对称,集中位置偏向一侧。 正偏态分布:集中位置偏向数值小的一侧 负偏态分布:集中位置偏向数值大的一侧,年龄(岁),频数,图2.2 某市某年乙脑患者的年龄分布,作业,P393 四. 综合分析题 (1),