收藏 分享(赏)

广义估计方程在纵向资料中的应用.ppt

上传人:无敌 文档编号:414654 上传时间:2018-04-05 格式:PPT 页数:50 大小:267KB
下载 相关 举报
广义估计方程在纵向资料中的应用.ppt_第1页
第1页 / 共50页
广义估计方程在纵向资料中的应用.ppt_第2页
第2页 / 共50页
广义估计方程在纵向资料中的应用.ppt_第3页
第3页 / 共50页
广义估计方程在纵向资料中的应用.ppt_第4页
第4页 / 共50页
广义估计方程在纵向资料中的应用.ppt_第5页
第5页 / 共50页
点击查看更多>>
资源描述

1、广义估计方程在纵向资料中的应用,主要内容,一、广义线性模型简介 1)一般线性模型 2)广义线性模型二、广义估计方程 1)纵向资料 2)广义估计方程 3)应用举例,一、广义线性模型简介,1)一般线性模型 一般线性模型(general linear model),简称线性模型(linear model),是数理统计学中发展较早、理论丰富而且应用性很强的一个重要分支。 方差分析 一般线性模型 多元回归模型等,一般线性模型,应用: 用于研究某个指标(应变量,记为Yi)与一组指标(Xi1, Xi2, ,Xij)之间的线性关系。表达式: yi=0+ 1Xi1+ 2Xi2+ jXij+ei,一般线性模型,一

2、般线性模型对于残差分布的三个重要假设: (1)独立 (2)符合正态分布,且均数为0 (3)方差齐性,即ei的方差相等,一般线性模型,局限性: 线性模型只能拟合应变量服从正态分布的资料,如果应变量是分类变量,或不服从正态分布的变量,线性模型则不能适用。,广义线性模型,2)广义线性模型 概念: 很多非线性模型,如指数模型、Logistic回归模型,如对应变量作一定的变量变换可满足或近似满足线性模型分析的要求,能够借助线性模型的分析思路解决模型构造、参数估计和模型评价等一系列问题。这就是广义线性模型(generalized linear model),广义线性模型,模型构造:(1)应变量,相互独立,

3、服从指数分布族,方差能够表达为均数的函数。应变量的期望值记为:E(Yi)=i。(2)线性部分,即自变量的线性组合,为待求的参数向量。 i=0+ 1Xi1+ 2Xi2+ jXij=Xi ,广义线性模型,(3)联接函数(link function),将应变量的期望值和线性预测值i关联起来。 g(i )= i=0+ 1Xi1+ 2Xi2+ jXij g(. )是联接函数,联接函数的作用就是对应变量作变换使之符合正态分布,变量变换的类型依应变量的分布不同而不同。通过指定应变量的分布和联接函数,就可以拟合各种不同的模型。,广义线性模型,表1 常见的概率分布和联接函数分布 联接函数 数学表达式 模型正态分

4、布 恒等函数 = 多元线性回归模型二项分布 Logit函数 Logistic回归模型二项分布 Probit函数 =-1() Probit回归模型Possion分布 对数 =log() Possion回归模型,广义线性模型,优点: 广义线性模型不仅可以用于拟合应变量服从正态分布的模型,还可以拟合应变量服从二项分布、Poisson分布、负二项分布等指数分布族的模型,通过指定不同的联接函数,把指数分布族的众多模型统一到一个模型框架中,具有极大的灵活性,其应用也日趋广泛。,纵向数据,概念: 纵向数据(longitudinal data)是按照时间顺序对个体进行重复测量得到的资料。 比如儿童的生长监测资

5、料,出生后每月测量其体重(Y变量)以及影响体重的因素(X变量,如性别、喂养、疾病等),这样每个儿童的多次测量值称为纵向数据的一个串(cluster),是由一组Y变量(各次测定的体重)和一组相对应的X变量组成。,纵向数据,纵向数据特点 : 同一对象的多次观测之间呈相关倾向 因而,纵向数据与一般的多元应变量的资料不同,因为它的反应变量之间高度相关。也有别于时间序列数据,纵向数据是由每个个体的重复测量数据,按时间顺序组成较短的序列,并由大量这样的序列组成,而时间序列数据是很多各数据组成一个长的序列。,纵向数据,传统的统计方法一般都要求应变量是独立的,因而,由于应变量之间的相关,纵向数据不能用传统的方

6、法来分析。因为如果忽略重复测量间的相关性,将损失数据中的信息,参数估计可能不准确。因此,Liang和Zeger等创立了广义估计方程(generalized estimating equations) 。,广义估计方程,2)广义估计方程 应用: 广义估计方程是在广义线性模型的基础上发展起来的、专用于处理纵向数据的统计模型。广义估计方程可以对符合正态分布、二项分布等多种分布的应变量拟合相应的统计模型,解决了纵向数据中应变量相关的问题,得到稳健的参数估计值。,广义估计方程,一、模型的基本构成 假设Yij为第i个个体的第j次测量的变量(i=1, k,j=1, t),Yi=(Yi1,Yi2 Yij),X

7、ij=(Xij1 Xijp),为对应于Yij的p1维解释变量向量。如果解释变量在各个观察时刻不变(比如性别),则Xi1p=Xi2p =Xijp。如果j时刻没有观测值,则Yij和Xij都缺失。,广义估计方程,模型构成如下:(1) 指定Yij的边际期望(marginal expectation)是协变量Xij线性组合的已知函数。E(Yij)=ij,g(ij)=0+1Xij1+2Xij2+pXijp 式中:g(.)称为联接函数;=(1p)为模型需要估计的参数向量。,广义估计方程,(2) 指定Yij边际方差(marginal variance)是边际期望的已知函数。 Var(Yij)=V(ij) 式中

8、:V(.)为已知函数;为尺度参数(scale parameter),表示Y的方差不能被V(ij)解释的部分。这个参数也是需要模型估计的,对二项分布和Poisson分布而言,=1。,广义估计方程,(3) 指定Yij协方差是边际均数和参数的函数。 Cov(Yis,Yit)=c(is, it;) 式中:c(.)为已知函数;又叫相关参数 (correlation parameter);s和t分别表示第s次和第t次测量。,广义估计方程,构造如下广义估计方程为: 求解方程Var(Yij)=V(ij)可得到的一致性估计。其中Vi表示作业协方差矩阵(working covariance matrix),并有

9、式中:Ri()是Yij的作业相关矩阵(working correlated matrix);Ai是以V(ij)为第i个元素的t维对角矩阵。,广义估计方程,二、作业相关矩阵 作业相关矩阵是广义估计方程中的一个重要概念,表示的是因变量的各次重复测量值两两之间相关性的大小,常用Ri(a)表示,是tt维对角阵,t是总测量次数。其第s行第t列的元素表示Yis和Yit的相关,尽管个体之间的相关性可能不尽相同,Ri(a)近似地表示个体之间平均的相关。,广义估计方程,作业相关矩阵的形式常有以下几种,其中s、t表示测量次数,Rst表示第s次和第t次测量之间的相关系数,如果s=t,则Rst=1。 (1) 独立(i

10、ndependent),即不相关(uncorrelated)。 Rst=0,st 就是假设应变量之间不相关。,广义估计方程,(2) 等相关,或可交换的相关(exchangeable correlation)。 Rst=,st 假设任意两次观测之间的相关是相等的。这种假设常用于不依时间顺序的重复测量资料,比如说测量血压,间隔5分钟连续测3次,3次测量结果有相关,但与时间的先后顺序可能无关。,广义估计方程,(3) 不确定型相关(unstructured correlation)。 即不预先指定相关的形式,让模型根据资料的特征自己估计。 另外,还有两种不太常用的相关形式:稳态相关(stationar

11、y correlation)和自回归过程(autoregressive process),此处不再作介绍。,广义估计方程,作业相关矩阵的使用: 作业相关矩阵的形式在拟合模型之前预先设定好,模型拟合完毕时会计算出具体的相关矩阵。假设等相关的情况下,计算的相关矩阵除了对角线上的元素外,其他的元素都相等,即任两次观测的相关是相同的。如果假设独立,则矩阵对角线以外元素都为0。,广义估计方程,广义估计方程的特性: 只要联接函数正确,总观测次数足够大,即使Ri()指定不完全正确,的可信区间和模型的其他统计量仍然渐近正确。因而作业相关矩阵的选择对参数估计的影响不大。,广义估计方程,三、模型求解过程(1) 假

12、设重复测量值独立,按照广义线性模型计算出,作为的初始值,相当于普通最小二乘法估计。(2) 基于标准化残差gij和假设的相关结构R,计算作业相关矩阵和作业协方差阵。(3) 根据当前的作业协方差阵,修正的估计。(4) 重复(2)、(3)过程直至收敛。,应用举例,为了解某抗癫痫药物的作用,对58名癫痫病人进行临床试验,对照组使用安慰剂。观察病人在连续8周内的发作次数,作为基线发作次数(base)。然后给病人服药,记录服药后每2周的发作次数(visitk1visit4),一共观察了8周,所得资料如表2及表3。请分析该药物是否有抑制癫痫发作的作用。,应用举例,表2 某药物抗癫痫的随机对照临床试验对照组每

13、2周的发作次数 ID Base Visit1 Visit2 Visit3 Visit4 1 11 5 3 3 3 2 11 3 5 3 3 3 6 2 4 0 5 26 9 2 1 2 1 27 10 3 1 4 2 28 47 13 15 13 12,应用举例,表3 某药物抗癫痫的随机对照临床试验试验组每2周的发作次数 ID Base Visit1 Visit2 Visit3 Visit4 29 76 11 14 9 8 30 38 8 7 9 4 31 19 0 4 3 0 56 25 2 3 0 1 57 13 0 0 0 0 58 12 1 4 3 2,应用举例,这种发作次数的资料也叫

14、作计数资料,一般认为服从Poisson分布。不同病人可以认为是独立的,而同一个病人的各次发作次数是前后相关的。应而考虑以发作次数为应变量,指定应变量分布为Poisson分布,联接函数为对数,作业相关矩阵指定为等相关,拟合广义估计方程。,应用举例,基线次数反映了病人严重程度,一般作为协变量加以调整。这里base代表基线发作次数,是以原始形式还是对数形式进入模型还不能确定,因而分别拟合两个模型1和2,根据模型拟合的结果来定。模型1:模型2:,应用举例,在SAS软件中GENMOD过程就可以根据要求设置模型,并得到参数估计和假设检验。这里我们使用SAS9.0进行编程。,应用举例,数据步如下:,应用举例

15、,程序步如下:,应用举例,上面的程序步中: proc genmod data=a;调用genmod过程 class id;用来定义分类变量 model y=base treat time/ dist=p;建立模型指定因变量和自变量。其中dist=p指定因变量的分布为Poisson分布,应用举例,repeated subject=id/ type=exch covb corrw; repeated指明为重复测量分析。subject说明了输入数据集中分析的对象。对象间的反应变量假设为统计独立的,而对象内的则为相关的。 Subject后的变量必须列入class语句中。其中type=exch指定作业相

16、关矩阵为等相关, covb用来显示估计回归参数的协方差阵, corrw显示估计作业相关矩阵,应用举例,拟合结果: 模型1的偏差统计量=973.6568,模型2的偏差统计量=855.8579,自由度为288,可见以基线次数的对数形式拟合的模型2更优。但是两模型的偏差统计量都很大,模型不理想。,应用举例,我们再次考察应变量分布,发现发作次数的变异很大,方差为71.44远大于均数7.10,这种方差大于均数的资料可以作基于负二项分布的负二项回归。指定应变量符合负二项分布,联接函数仍然是对数,采用等相关的相关结构再次拟合模型2。,应用举例,程序步如下:其中dist=nb指定了因变量分布为负二项分布,应用

17、举例,结果:,应用举例,模型的偏差统计量为260.9159,拟合优度还可以,应用举例,广义估计方程模型的信息,应用举例,参数估计值,应用举例,结论: 1)试验组的发作次数低于对照组,并且有统计学意义(P=0.0472),可以认为药物有抑制癫痫发作的作用。 2)基线发作次数多的病人治疗后发作次数也多,两者正相关(P0.0001)。 3)治疗时间延长,则发作次数减少,但P=0.1441,没有统计学意义。,应用举例,作业相关矩阵是等相关,矩阵对角线以外的元素都相等,表示任意两次测量之间的相关系数为0.3662。作业相关矩阵如下:,总结,广义估计方程是在广义线性模型基础上发展起来的,因而具有广义线性模

18、型的优点,可接受多种分布的应变量,通过不同的联接函数拟合多种形式的广义估计方程。同时,广义估计方程很好的解决了纵向数据的相关性问题,因而广泛应用于具有多次重复测量的纵向数据分析。,总结,其特点归纳如下: 1)建模稳健。即使作业相关矩阵指定不正确,只要联接函数正确,仍然可以得到稳定的参数估计值。 2)充分利用资料信息。对多次重复测量的纵向数据,广义估计方程利用了每次测量的结果,较少损失资料的信息。,总结,3)应变量不是连续性变量时,考察应变量之间联合分布和协方差矩阵非常困难,常规的统计模型难以处理这个问题。利用广义估计方程不仅解决了这类资料的建模问题,还可得到相关矩阵以衡量重复测量之间相关性的大小,是一种较好的分析策略。 4)模型可以引入多种形式的自变量,考察分类、等级、连续的或其他形式的自变量对应变量影响的大小。,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报