1、统 计 复 习,理论授课内容:,第一章:绪论第二章:概率与常用概率分布第三章:数据特征与统计描述第四章:抽样分布与参数估计第五章:假设检验第六章:方差分析第七章:卡方检验第八章:秩转换的非参数检验,实验课授课内容:,实验一:计量资料频数表的整理与统计描述;实验二:正态分布与总体均数估计实验三:t、Z检验和方差分析,第一章:绪论,第一节 统计与医药统计学统计学:是一门研究数据的收集、整理、分析、表达和解释的方法科学,目的是探索数据的内在数量规律性,以发现事物的必然性。 医药统计学:是运用统计学原理和方法研究生物、医药学问题,以揭示生物、医药学客观总体的内在数量规律的应用科学。,第二节 变量与数据
2、类型,1. 个体:亦称研究单位,是根据研究目的确定的研究中的基本单位。2、变量(观察指标、因素等):表达研究个体某项或某些特征的指标。3、变量值:变量的观察结果,4、变量分类与资料分类定量变量(数值变量) 计量资料定性变量(分类变量) 无序分类变量 计数资料 有序分类变量 等级资料,计量资料:又称定量资料或数值变量资料。为测定每个观察单位某项指标的大小而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。计数资料:又无序分类变量资料。为将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别。等级资料:又称有序分类变量资
3、料。为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。,第三节 统计学的若干概念,一、同质与变异 二、总体与样本 三、统计量与参数 四、误差,一、同质与变异,同质(homogeneity) :根据研究目的给个体确定的相同性质。 变异(variation):同质个体中变量值间的差异。例 调查2003年西安市7岁男童的身高和体重同质:2003年、西安市、7岁男童变异:身高和体重各不相同,二、总体与样本,总体(population):是根据研究目的确定的同质研究单位的全体,更确切地说是同质研究单位某种变量值的集
4、合。样本(sample):从总体中随机抽得的部分观察单位,其实测值的集合。 从总体中抽取样本(sample),根据样本信息推断总体特征的方法,即抽样研究。获取样本信息是手段,推断总体特征是目的。,三、统计量与参数,参数(parameter):反映总体统计学特征的常量称为参数,总体指标,常用希腊字母表示。如总体均数、总体标准差、总体率等。统计量(statistic):根据样本信息计算得出的量称为样本统计量。包括反映样本分布特征的估计统计量如样本均数 、样本标准差s、样本率p等。统计学抽样研究的目的就是: 样本统计量总体参数,四、误差,误差:是指实测值与真值之差,样本指标与总体指标之差。包括系统误
5、差和随机误差两种。系统误差:在实际测量过程中,由于仪器未校正、研究者的感官偏差以及掌握的某一标准偏高或偏低等原因,使观测值造成方向性、系统性的偏大或偏小,可以通过严格的实验设计和技术措施控制或消除。随机误差:是一类不恒定的、由多种尚无法控制的因素引起。随机误差不可避免,有大有小,呈正态分布,包括随机测量误差与抽样误差。抽样误差:由于抽样引起的样本统计量与总体参数之间的差异或样本统计量之间的差异。抽样误差产生的原因是由于总体中的个体间存在变异,抽样误差不可避免,但可用统计方法进行科学分析。,第四节 医药研究的统计过程,1、设计(design):指制定周密的医学研究计划。2、收集资料(collec
6、tion of data):指采取措施使能取得准确可靠的原始数据,即选择得到资料的最佳途径和获取完整、准确、可靠资料的过程。3整理资料(sorting data) :是将原始数据净化、系统化和条理化,以便为下一步计算和分析打好基础的过程。4、分析资料(analysis of data):根据研究设计的目的、要求、资料的类型和分布特征选择正确的统计方法进行统计分析。,第二章:概率与常用概率分布,1、频率f :如果在n 次重复试验中,事件 A发生了m 次,则称比值是事件A在这n 次试验中发生的频率,记为 ,2、概率P :3、小概率事件:特指发生概率P0.05,或者发生概率P0.01的事件。,二项分
7、布是指在只会产生两种可能结果如“阴性”或“阳性”之一的n次独立重复试验中,当每次试验的“阳性”概率 保持不变时,出现“阳性”次数X=0,1,2,n的一种概率分布。如果每个观察对象阳性结果发生的概率均为,阴性结果发生的概率均为(1-),而且各观察对象的结果是相互独立的,那么重复观察n个人,则发生阳性结果的人数X的概率分布呈二项分布,记为XB(n,).,二项分布的适用条件1. 每次试验只会发生两种对立的可能结果之一,即分别发生两种结果的概率之和恒等于1;2. 每次试验产生某种结果(如“阳性”)的概率固定不变;3. 重复试验是相互独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。,Po
8、isson分布(Poisson distribution)作为二项分布的一种极限情况,已发展成为描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生规律性的一种重要分布。除二项分布的三个基本条件外,Poisson分布还要求或(1-)接近于0或1,则有XP( )。,Poisson分布的性质1. 总体均数 与总体方差 相等是Poisson分布的重要特征。2. 当n很大,而很小,且n= 为常数时,二项分布近似Poisson分布。3. 当 增大时,Poisson分布渐近正态分布。一般而言, 20时,Poisson分布资料可作为正态分布处理。,正态分布是最常见、最重要的一种连续型分布,为对称分布
9、。正态分布的特征:一个高峰;对称性;两个参数;正态曲线下的面积分布有一定的规律,(1)正态曲线是一条关于 对称的钟形曲线,并在 处达到最大值,特点是“两头小,中间大,左右对称”;(2)当 时, ,这说明曲线向左右伸展时,越来越贴近 轴,即以 轴为渐近线。 (3) 决定了图形的中心位置, 决定了图形中峰的陡峭程度(4)正态曲线下的面积为1 。,正态分布的图形特性:,另 ,当正态分布中参数 时称为标准正态分布,即 .标准正态分布的特征:一个高峰:位于中央均数(0)处对称性:以0为中心,左右完全对称两个参数 标准正态曲线下的面积分布规律,标准正态分布曲线仅一条=0 ,=1。标准正态分布曲线的面积可通
10、过查 z 值表获得,而且有三个常用的面积规律。普通的正态分布曲线下某区间的面积可通过 z 转换,查 z 值表获得。,二项分布、 Poisson分布和正态分布联系:,正态分布及其应用:一、估计频数分布;二、 医学参考值范围制定。 医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标,也称正常值。,医学参考值范围制定的步骤为:(一)确定研究对象与数量(二)确定单、双侧(三)确定百分比(四)选择计算方法: 正态分布法:资料分布近似正态; 百分位数法:资料分布呈偏态。,第三章 数据特征与统计描述,指标描述 统计描述 图表描述 统计分析 参数估
11、计 统计推断 假设检验,统计描述的定义:采用合适的统计指标、统计图和统计表来表达数据分布的特征和规律。 统计描述的目的:准确、简洁、直观形象地表达数据。,第三章:数据特征与统计描述,计量资料的统计描述1、用频数分布表(图) 2、用统计指标(集中趋势/离散趋势)计数资料的统计描述:比或相对比;比例或比率;速率,频数分布表的编制:1、求全距(极差);2、确定组数; 3、确定组距; 4、确定组限; 5、列表整理、统计各组段的频数,频数分布图:横坐标指标(药片含药量)纵坐标频数密度或频数(等组距频数表) 揭示计量资料的分布特征: (1)对称分布 (2)偏态分布,集中趋势:观察值的平均水平或集 中位置,
12、用平均数反映离散趋势:观察值的变异程度或离 散程度,用变异指标反映,描述集中趋势的特征数:算术均数、几何均数、中位数 描述离散趋势的特征数: 极差、四分位数间距、方差或标准差、变异系数,百分位数:,常用的相对数有:比:任意两个数A与B的比值比率:强度相对数:说明某事物或某现象发生的频率与强度,简称率;结构相对数:说明事物内部各组成部分所占的比重与分布,简称构成比.速率:反映单位时间内某事物出现的可能性,与率相似,但有时间量纲。,统计表:将统计资料及其指标以表格列出,它可代替冗长的文字叙述,便于资料间的对比。统计图:将统计资料以几何图形形象化的表述。表达资料形象,直观,但不如统计表精确。,制表原
13、则:,(1)标题(2)标目:横标目/纵标目(3)线条(4)数字(5)备注,统计图的构成:,(1)标题 (2)图域(3)标目:纵标目和横标目。(4)尺度(5)图例,1、条图:用等宽的直条长度表示事物的数量,用于用于比较相互独立的统计指标;2、圆图:是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例;3、线图:用线段的升降表达一事物(发病率、死亡率或均数)随另一事物(时间、年龄)数量变化的趋势,最常用于描述统计量随时间变化而变化的趋势。,普通线图:横轴和纵轴都是算术尺度。 反映不同指标变化的幅度。 半对数线图:横轴是算术尺度,纵轴 是对数尺度。反映不同指标变化 的速度
14、。,4、直方图:用各矩形的面积表示各组段的频数或频率,用于表示连续变量的频数分布;5、散点图:用点的密集程度和散布趋势表示两指标或两变量间的相关关系。,第四章:抽样分布与参数估计,1、抽样误差:由个体变异产生的、抽样造成的样本统计量与总体参数的差别。均数的抽样误差:由于抽样造成的样本均数之间或样本均数与总体均数的差别。2、标准误:实质上就是样本均数的标准差,它反映了样本均数间的离散程度,也反映了样本均数与相应总体均数间的差异,因而说明了均数抽样误差的大小,表示为,总体标准误计算公式:,若用样本标准差S来估计:,注意:降低抽样误差的途径有: 通过增加样本含量n; 通过设计减少S。,标准误的应用:
15、反映抽样误差的大小,标准误越小,说明抽样误差越小,样本均数与总体均数越接近,用样本均数估计总体均数越可靠,反之亦然。,t分布:,2018/3/21,45,t分布特征:,2018/3/21,46,1、已知自由度和概率p(单侧或双侧), 查表得单侧或双侧t界值 。2、已知自由度和统计量 t 值,查表得 相应的概率 p 的大致范围。,t界值表的用途:,参数估计:用样本统计量推断总体参数的大小。区间估计:按预先给定的概率(1)所确定的包含未知总体参数的一个范围。95%的可信区间的理解:所要估计的总体参数有95%的可能在我们所估计的可信区间内。,计算方法:根据:(1)总体标准差是否已知, (2)样本含量
16、n的大小通常有两类方法:(1)t分布法 (2)Z分布法,(1) 未知时,按 t 分布原理总体均数双侧 1-a 置信区间可简写为:(2) n60时,按 z 分布原理总体均数双侧 1-a 置信区间可简写为:,50,总体均数的可信区间与参考值范围的区别,第五章:假设检验,假设检验的概念:通过样本指标与总体参数的差别,或样本指标之间的差别,来推论总体参数是否不同的方法称为假设检验,也称为显著性检验。,假设检验的基本原理:小概率反证法原理:首先假设两总体无差别(反证法),然后根据样本资料计算获得这样一份样本的概率值,当值是一个小概率时,就拒绝原假设(小概率事件原理),而认为 两总体有差别。否则,就不能下
17、有差别的结论。,假设检验的基本步骤:1)建立检验假设,确定检验水准;2)选择适当的假设检验方法,计算相应的统计量;3)确定P 值,做出统计推断;4)根据统计推断结果,结合相应的专业知识,下结论。,假设检验的两类错误:I 型错误:拒绝正确的零假设H0(弃真)时所犯的错误;“实际无差别,但下了有差别的结论”(假阳性错误)。犯这种错误的概率是(其值等于检验水准 ) II型错误:不拒绝原本不正确的零假设H0(纳伪)时所犯的错误;“实际有差别,但下了无差别的结论”(假阴性错误)。犯这种错误的概率是(其值未知) 。,1- :检验效能(power):当两总体确有差别,按检验水准 所能发现这种差别的能力。,2
18、018/3/21,56,两均数差别检验的比较:,大样本也可用Z检验,单个总体均数的假设检验:推断样本均数所代表的未知总体均数和已知总体均有无差别?n60或已知时,用 z 检验: n60时,用 t 检验:,两个总体均数的假设检验,通过两样本均数的比较,推断两总体均数 有无差别?独立样本成组 t 检验:样本含量较小(如n130或 n230)独立样本成组 z 检验:成组设计两大样本(两样本含量均大于30)均数的比较,配对样本均数的t 检验,配对设计是将受试对象按照某些重要特征(如可疑混杂因素性别等)配成对子,每对中的两个受试对象随机分配到两处理组,其目的是提高组间可比性。配对设计类型: 两同质受试对
19、象分别接受两种不同的处理; 同一受试对象分别接受两种不同处理; 同一受试对象接受一种处理的前后。,第六章:方差分析,目的:推断各处理组即多个总体均数是否有差别。基本思想:根据资料设计的类型及研究目的,可将总变异分解为两个或多个部分,每个部分的变异可由某因素的作用来解释。通过比较可能由某因素所至的变异与随机误差,即可了解该因素对测定结果有无影响。,应用条件:各样本相互独立且来自正态总体;各样本来自的总体方差相等,即方差齐性。 当组数为2时,方差分析与两均数比较的t检验等价,即对同一资料有 。,完全随机设计资料的方差分析,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后
20、比较各组均数之间的差别有无统计学意义,推论处理因素的效应。,2018/3/21,63,变异分解,随机区组设计资料的方差分析,先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组,再分别将各区组内的受试对象随机分配到各处理或对照组。,2018/3/21,65,变异分解,总变异:反映所有观察值之间的变异,记为SS总。,处理间变异:由处理因素的不同水平作用和随机误差产生的变异,记为SS处理。区组间变异:由不同区组作用和随机误差产生的变异,记为SS区组.误差变异:完全由随机误差产生的变异,记为SS误差。,2018/3/21,66,随机区组设计资料的方差分析表,第七章
21、:卡方检验,目的: 推断两个或多个总体率或构成比之间有无差别;多个样本率的多重比较;两个分类变量之间有无关联性;频数分布拟合优度的检验。 检验统计量: 应用:计数资料,完全随机设计四格表资料的x2检验,1、设计:完全随机设计设计2、目的:推断两样本率p1与p2所代表的两总体率是否相等即是否1=2 ? (即成组设计的两样本率的比较),2018/3/21,第七章 卡方检验,69,四格表资料的基本形式,2018/3/21,第七章 卡方检验,70,A:实际频数(实际数):实际观察或抽样所得 T:理论频数(理论数):根据某种假设计算所得,x2 检验的基本公式 :反映实际频数A和理论频数T 的吻合程度。,
22、2018/3/21,第七章 卡方检验,72,四格表资料x2 检验的条件,1、当n40,且所有T5时,用基本公式,2、当n40,但有1T5时,用校正公式,3、当n40或有T1时,用确切概率法,2018/3/21,第七章 卡方检验,73,四格表专用公式,2018/3/21,第七章 卡方检验,74,1、设计:配对设计 2、目的:推断配对设计的两样本率 p1与p2所代表的两总体率是否 相等即是否1=2 ? (即配对设计的两样本率的比较),配对设计四格表资料的x2检验,2018/3/21,第七章 卡方检验,75,配对设计资料的四格表形式,2018/3/21,第七章 卡方检验,76,检验 公式,假设两法总
23、体阳性检出率无差别,即总体B=C=(b+c)/2 ,则,行列表资料的x2检验,目的:可用于多个样本率或构成比的比较设计: R2表(多个率的比较) 2C表(两组内部构成比的比较) RC表(多组内部构成比的比较),2018/3/21,第七章 卡方检验,78,检验统计量,注意:对于比较多组独立样本的2检验, 拒绝H0只能说各组总体概率不全相同,即多组中至少有两组的有效概率是不同的,但并不是多组有效概率彼此之间均不相同。若要明确哪两组间不同,还需进一步作多组间的两两比较.,第八章:秩转换的非参数检验,由于秩统计量的分布与原数据总体分布无关,具有较好的稳健性,可用于任何分布类型的资料。(1)一端或两端有不确定数值(如 15.0)的资料;(2)总体分布为偏态或分布不明的小样本(比如n30)资料;(3)不满足参数检验条件的资料;(4)等级资料。,如果已知其计量资料满足(或近似满足)参数检验条件的,应该选用参数检验的方法,因为此时若选用秩转换的非参数检验的方法,会降低检验效能。,考试题型:,1. 选择题2. 填空题3. 名词解释4. 简答题5. 计算题,谢谢大家!,