1、常用基本统计分析方法 统计分析培训项目,汪涛 复旦大学公共卫生学院卫生统计教研室 ,二项分布资料的统计分析,二项分布 Binomial Distribution,二分类变量:有且只有两种结果的变量,如性别、死亡生存、复发未复发,一般用0和1表示其结果 Bernouli试验:具有两值结果的一次试验。条件:1、互斥的有且只有两种结果;2、独立性;3、每次关心结果的发生概率不变。 二项分布:进行的N次Bernouli试验中,所关心结果按不变概率发生0、1、2、N-1、N次的概率分布练习:4张牌里有一张A,放回抽样抽5次,抽到0,1,2,3,4张A的概率是多少?至少抽到2张A的概率?,二项分布的集中趋
2、势和离散趋势,二项分布的均数 样本计数:X0=np 样本率:p二项分布的方差 样本计数:Var(X)=np(1-p) 样本率:Var(p)=p(1-p)/n,二项分布近似正态分布,理论上 当N和N(1- )均大于5时,或同样的,当X0和N-X0均大于5时,样本计数近似服从均数为N,方差为N(1- )的正态分布,样本率近似服从均数为,方差为(1- )/N的正态分布。实际上 当Np和N(1- p)均大于5时,或同样的,当X0和N-X0均大于5时,样本计数近似服从均数为Np,方差为Np(1- p)的正态分布,样本率近似服从均数为p,方差为p(1- p)/N的正态分布。,二项分布 N人中B型血人数X的
3、概率分布,10人中B型血人数X的概率分布图,100人中B型血人数X的概率分布图,0.08,0.08,举例:二项分布近似正态分布示意图,总体百分构成或总体率的统计推断,点估计 p 百分构成或率:p = X0/N 常规疗法治疗流行性出血热病人50例,死亡8例,病死率为16 区间估计 查表法(基于二项分布的确切概率) 正态近似法 演习:随机抽查某乡村民100人,发现感染血吸虫者21人,该乡血吸虫感染率? 利用可信区间推断样本是否来自于一已知总体 查表法 正态近似法 演习:已知某地区血吸虫感染率为15,现随机抽查某乡村民100人,发现感染血吸虫者21人,问该乡血吸虫感染率是否高于一般?,总体百分构成或
4、总体率的统计推断,利用假设检验推断样本(样本率为p)是否来自于一已知总体(总体率为0) 基本步骤 1、建立无效假设和备择假设H0: = 0; H1: 0 2、确定检验水准 = 0.05 3、在无效假设的前提下直接计算概率或利用正态近似法计算检验统计量后找到p值 a、确切概率法 b、正态近似法 4、根据概率或p值作出推断 演习:已知某地区血吸虫感染率为15,现随机抽查某乡村民100人,发现感染血吸虫者21人,问该乡血吸虫感染率是否高于一般?,两个样本百分构成或两个样本率比较的统计分析,两个率比较的目的是其所代表的总体率相同,即:1 = 2 或 1 - 2 = 0 (无效假设) 两个样本率之差的均
5、数和方差 均数:p1 - p2 方差:S2(p1-p2)=p(1-p)(1/n1+1/n2),p=(X1+X2)/(n1+n2) 利用可信区间 利用假设检验 正态近似法 2检验法 演习:随机抽查A乡村民100人,发现感染血吸虫者21人,随机抽查B乡村民100人,发现感染血吸虫者15人,问AB两乡血吸虫感染率是否相同?,Poisson分布资料的统计分析,Poisson分布,单位时间、面积、空间内所关心事件发生数的概率分布 二项分布数据当N很大X0很小(比例很低)时X的概率分布 例:沪闵高架1天中发生的交通事故数(注:交通事故发生的时间可以短至1秒)。 一个参数(对于样本X0)。 Notation
6、:XP()。 练习:长期统计数据显示:沪闵高架一天发生交通事故5起,问今天发生0,1,2,3,4,5起交通事故的概率?最多(至少)发生3起的概率?,Poisson分布的性质及其集中趋势和离散趋势,Poisson分布资料的性质 平稳性:样本计数大小只与观察单位的大小有关 独立性:各所关心事件的发生与否互不相关 普通性:所关心事件离散发生,无聚集性 Poisson分布的均数 样本计数:X0 Poisson分布的方差 样本计数:X0,Poisson分布的单位问题及正态近似,虽然观察单位不是Poisson分布的参数,但Poisson分布资料的统计分析一定要注意单位的转换 Poisson分布资料的可加性
7、 观察单位的不可扩展性但可缩减性:大观察单位可转换为小观察单位但反之不可 Poisson分布的正态近似 当(样本为X0)大于50时,样本计数X近似服从均数和方差均为 (样本为X0)的正态分布。 当(样本为X0)大于50时,如将大观察单位缩减为1/n的小观察单位,转换后的样本计数X服从均数为/n (样本为X0/n),方差为/n2(样本为X0/n2)的正态分布,Poisson分布资料总体计数的统计推断,点估计 X0 沪闵高架某天发生交通事故6起 区间估计 查表法(基于Poisson分布的确切概率) 正态近似法 演习:沪闵高架上个月发生交通事故60起,沪闵高架一个月发生交通事故数? 利用可信区间推断
8、样本是否来自于一已知总体 查表法 正态近似法 演习:长期观察可知沪闵高架一个月发生交通事故50起,上个月发生60起,问上个月交通事故发生数是否多于往常?,Poisson分布资料总体计数的统计推断,利用假设检验推断样本(样本计数为X0)是否来自于一已知总体(总体计数为) 基本步骤 1、建立无效假设和备择假设H0:0 = ; H1: 0 2、确定检验水准 = 0.05 3、在无效假设的前提下直接计算概率或利用正态近似法计算检验统计量后找到p值 a、确切概率法 b、正态近似法 4、根据概率或p值作出推断 演习:长期观察可知沪闵高架一个月发生交通事故50起,上个月发生60起,问上个月交通事故发生数是否
9、多于往常?,观察单位相同时两个样本计数比较的统计分析,两个样本计数比较的目的是其所代表的总体计数相同,即:1 = 2 或 1 - 2 = 0 (无效假设) 两个样本计数之差的均数和方差 均数:X1 - X2 方差:S2(X1-X2)=X1+X2 利用可信区间(两个样本计数均大于20即可) 利用假设检验 正态近似法 演习:沪闵高架一周发生交通事故30起,南北高架一周发生交通事故40起,问两条高架一周发生交通事故数是否相同?,观察单位不同时两个样本计数比较的统计分析,观察单位不同时,需要先缩减成为观察单位相同的两个样本计数,如果第一个样本的缩减倍率为1/n1,第二个样本的缩减倍率为1/n2,则缩减
10、后的第一个样本计数X1=X1/n1,第二个样本计数X2=X2/n2,这时比较的目的是缩减后的样本所代表的总体计数相同,即:1 = 2 或 1 - 2 = 0 (无效假设) 缩减后的两个样本计数之差的均数和方差 均数:X1 - X2 方差:S2(X1-X2)=X1/n12+X2/n22 利用可信区间(两个样本计数均大于20即可) 利用假设检验 正态近似法 演习:沪闵高架20周发生交通事故300起,南北高架10周发生交通事故200起,问两条高架一周发生交通事故数是否相同?,分类数据的组间比较 2检验,分类数据的表现形式,频数表及交叉频数表cross-tabulation 所关心事件发生百分构成或发
11、生率的组间比较 四格表二分类数据的两组间比较 行列表(RC表、列联表) 分类水平的有序还是无序(对于水平数3的分类变量有意义),2分布,一个标准正态变量X的平方服从自由度为1的2分布 k标准正态变量X1,X2,Xk的平方和服从自由度为k的2分布 G(G2)组间Q(Q2)分类水平百分构成或率的比较,在组间总体率或总体百分构成相同的无效假设前提下:,成组设计两样本率的比较,当G=2,Q=2时(四格表资料),在两组所关心事件发生率相同的无效假设前提下:(无效假设前提下)理论频数(如第一个格子)的计算: E(a)=(a+b)(a+c)/N,成组设计两样本率的比较,假设检验的步骤 建立无效假设和备择假设
12、 确立检验水准 计算检验统计量 作出统计推断,四格表资料2检验的应用条件,四格表资料2检验是利用连续型的2分布应用于分类资料,当样本含量较小时,不能直接应用 当N40且理论频数O均5时,可直接应用; 当N40但有理论频数1O5时,需进行连续性校正(称Yates校正) 当N40,或有理论频数O1时,只能用Fisher确切概率法直接计算概率 注意:无论样本大小,均可用Fisher确切概率法进行假设检验,配对设计两样本率的比较,配对设计:针对可能影响研究结果的因素将研究对象配对后,将每个对子的研究对象随机分配至不同处理组,如同窝别小鼠、同性别病人、同一人的左右手。 数据结构配对四格表当b+c40时,
13、,行列表的分析,行列表又称RC表、列联表 分析前要考虑的问题: 水平数 水平之间是否有序 要回答问题的性质,变量1的水平数变量2的水平数2 2表 (四格表) 2 C表 C无序 2 C表 C有序 R C表 双向无序 R C表 单向有序 R C表 双向有序,成组设计多个样本率或百分构成的比较,检验统计量的计算方法相同 多组间所关心事件发生率的比较 假设不同(与四格表资料的2检验相比): H0:各组所关心事件的发生率相同; H1:各组所关心事件的发生率不全相同 两组间观察指标各水平百分构成的比较 假设 H0:两组间观察指标各水平的百分构成相同; H1:两组间观察指标各水平的百分构成不同 2检验的适用
14、条件 理论频数:80%的格子5和100%的格子1。,行列表的关联性分析,对于双向无序行列表 检验统计量的计算方法相同假设不同(与前相比): H0:行变量与列变量间无关联性; H1:行变量与列变量间有关联性 对于单向有序行列表 行或列平均分差异检验或等级资料的秩和检验 对于双向有序行列表 等级相关分析,非参数统计分析方法 秩和检验法,t检验、方差分析的应用条件,要求数据服从正态分布,两样本或多个样本比较时还要求方差齐性。 当不满足上述条件时, 转换数据对数转换法、平方根转换法、反正弦转换法等使转换后数据满足正态性和方差齐性 秩和检验法,秩和检验,用于计量分类等级资料统计推断的一组方法 非参数方法
15、不要求数据服从正态甚至是任何分布(不用考虑分布中的均数、标准差等参数) 在两组或多组比较时,无需考虑方差是否齐性 相对于t检验、方差分析等参数方法,统计效率较低(不能够充分利用数据信息)但稳健性好(极端值的作用较小),单样本分析One sample analysis,日均能量摄入参考值 7725kJ,配对设计资料的分析 Analysis of Paired Data,问:闭经前 后,日均能 量的摄入是 否有变化?,配对设计资料的秩和检验(1)符号检验Sign test,如果样本观测值与参考值在平均上没有差别的话,那么小于参考值和大于参考值的观测数应大致相等,即:任一观测值在参考值左边或右边的概
16、率相等,均为1/2,配对设计资料的秩和检验(2)符号秩和检验Wilcoxon signed rank sum test,比符号检验进一步,考虑了量的大小。 计算观测值与参考值的差; 无视正负号对差从小到大排序; 对所有正(或负)的顺位求和。,成组设计资料的秩和检验(1)两样本比较问题,成组设计资料的秩和检验(1) 两样本比较问题,混合编秩。遇数据相同时取平均秩。 两样本比较时 分组求秩和 当较小样本的样本量和两样本的样本量差10时,以较小样本的秩和为检验统计量(如样本量相同,则任取),查附表11。 当样本量超范围时,则采用正态近似法。见书p132公式8.3。对同秩的校正见书p132公式8.4。
17、,成组设计资料的秩和检验(2)多个样本比较时,混合编秩。遇数据相同时取平均秩。 Kruskal-Wallis H Test 分组求秩和、平均秩和,求总秩和。 按书p134公式8.5求检验统计量H的值。 对同秩的校正按书p134公式8.6。 当组数为3,每组样本含量均不超过5时,查附表12 当组数或任一组样本含量超范围时,H或校正H服从自由度为组数-1的2分布,查2界值表。,成组设计资料的秩和检验(3)成组等级资料的比较,实质上为一分类数据。 分类水平间有等级关系。 利用等级信息进行编秩。 一般样本量较大,可利用正态近似法(两样本比较时,按书p132公式8.4)或2分布近似法(多个样本比较时,按书p134公式8.5和8.6)。 一般同秩情况较多,需要校正。,书上p132两样本比较例8.3,书上p135多样本比较例8.5,