1、多元多水平模型及其在儿童生长发育研究中的应用?204?中国卫生统计 2004 年 8 月第 2l 卷第 4 期多元多水平模型及其在儿童生长发育研究中的应用*四川大学华西公共卫生院卫生统计学教研室(610044)金芳倪宗瓒李晓松潘晓平张彤【提要】目的传统的统计方法不宜用于分析具有层次结构特征的多反应变量数据,本文探讨了多元多水平模型的原理及应用.方法利用儿童生长发育研究的实例介绍多元多水平模型的构造及其应用.结果获得了解释变量系数的有效估计及身长和体重在各个水平上关系.结论多水平模型可以灵活有效地处理各种具有层次结构的数据.【关键词】多元多水平模型层次结构数据多反应变量生长发育数据的层次结构(h
2、ierarchicalorclusterstructure,或系统结构)现象广泛存在于医学的各个领域【,2】,如生长发育的调查中,按地区,个人进行分层抽样,所得的数据具有地区和个人两个层次.同时,研究者感兴趣的反应变量或结局变量常不止一个,许多健康状态的测量经常是多维的.例如,对同一研究对象同时测量收缩压和舒张压,或对同一个儿童测量其身高和体重.由于同一个体的不同测量指标之间可能存在一定相关性,当对反应变量之间的相关感兴趣,并将这种相关作为一种信息拟合多反应变量的模型,获得它们之间相关程度有效估计时.传统的统计方法不再适宜.本文采用儿童生长发育研究实例阐述多元多水平模型【,3,】的构造及估计实
3、现,为同类研究提供方法参考.模型构造多元多水平模型将每个个体的反应变量(测量指标)设置为水平 1 单位,将数据的层次结构中的儿童设为水平 2 单位.模型基本的解释变量是两个哑变量,分别指示测量反应变量(身高和体重),通过这两个哑变量进一步定义不同水平上的解释变量.故模型中真正的解释变量定义在儿童及其以上的地区水平.不含任何解释变量的二元两水平模型可表示为:YOflOlZio+flo2Z2/j+UIj+U2j(1)z=妻),z:=一 zvar(“1)=2“1var(“2j)=2“2COV(“1,U2j)Oul2可将式(1)扩展为含有多个解释变量的形式,蛳=flo1Z1 毋+flo2Z2 弧+1Z
4、1+,z2+1+2+“1 业+“2 业(2)*本课题是卫生部一 UNICEF 资助项目式(2)中,k 代表村 ,代表儿童,i 表示反应变量(1 为身长 ,2 为体重),z 瞳为协变量,g 和 h 可以相同也可不同,1 和 2 分别为反应变量的协变量的系数估计.模型估计在 MLwiN1.0 软件包(5】中实现.实例分析资料来源于卫生部一联合国儿童基金会(UNICEF)合作项目一农村初级卫生保健一 2001 年四川省调查资料的一部分.该项目采用完全随机抽样法从每个项目县抽取 5 个乡;从抽中的乡中随机抽取 4 个村;各村中抽取 16 户有 3 岁以下儿童的家庭,进行问卷调查和体格发育的测量.共对
5、1494 名儿童进行了体格发育测量,对其母亲进行问卷调查.本资料存在着儿童,村,乡及县四个层次,由于县乡的单位数较少,拟合 4 水平模型时会导致高水平的参数估计不稳定,故将个体设为水平 2 单位,村为水平3 单位,并将县,乡特征赋值给其下属的村,估计其效应的大小和方向,水平 1 为单独定义的虚拟水平,以身高和体重为反应变量拟合二元三水平模型.首先拟合不含解释变量的无效模型(nullmode1),结果见表 1.根据各个水平的随机参数估计值,可计算两个反应变量在不同水平上的两类相关系数,一是在地区和儿童水平上儿童的身长与体重之间的相关,分别用 r3和 r2 表示 ;二是儿童身长,体重在地区内的相关
6、,即单位内相关(intra-unitcorrelation),反映了两个反应变量在地区间变异的大小,分别用,.3()和 r3()表示.r:r3=口 12/2 口 12 口 2=0.797,.:r2=o“u12/2“12“2=0.901r,3(“=21/(1+2.1)=0.168r,3()=22/(2+2)=0.189ChineseJournalofHealthStatistics.Aug2004,Vo1.21,NO.4表 1 多元多水平模型(模型 1)假设是合理的,提示模型假设是正确的.结果显示,在地区和儿童两个水平上,儿童的身长和体重之间存在正相关,分别为 0.797 和 0.901,儿童水
7、平的相关高于地区水平.身长,体重的村内相关分别为 0.168 和 0.189,体重的村间变异大于身长的变异.模型假设检验多水平模型的每个随机系数在相应水平上都有其相应残差,前面的无效模型拟合了截距在各个水平的随机系数,模型的基本假定为各水平的残差服从正态分布,可利用模型残差及其标准误估计对模型进行检验.分别以各水平身长,体重的标准化残差为横轴,以其正态等价分数为纵轴作标化残差正态图,结果见图14图 1 水平 z(JL 童)身长的标准化残差正态图图 2 水平 2(JL,童) 体重的标准化残差正态图图 3 水平 3(村) 身长的标准化残差正态图儿童水平和地区水平的身长,体重的正态分数图近似一条直线
8、,表明水平 2 和水平 3 残差的正态分布?205?图 4 水平 3(村) 体重的标准化残差正态图模型 1 未考虑其他因素与身高和体重之间的关系,为探讨与儿童身高和体重的相关联的因素,在模型1 的基础上进一步引入协变量.通过两个反应变量的指示变量分别设置身长和体重的解释变量:相同的变量为村住院分娩率(百分比),儿童的月龄,性别(1:男,2:女),母亲文化程度(1:文盲,2:小学,3:初中,4:高中及以上),儿童在 4 个月内的喂养方式(1:母乳喂养,2:混合喂养,3:人工喂养)及 48 月是否及时添加辅食(1:是,2:否); 不同的变量为县年平均气温(摄氏度) 和民族(1:汉族,2:藏族,3:
9、羌族,4:其他),结果见表 2.由表 2 可见,引入协变量后,模型 2 随机参数的估计值都有明显减小,说明这些协变量解释了很大一部分的高水平变异.引入解释变量后,在村和儿童两个水平上.身长和体重之间的相关系数较无效模型都有所下降,分别为 0.743 和 0.660,儿童水平降低明显提示协变量的引入解释了部分儿童身长和体重的相关性.表 2 引入多个协变量的二元三水平模型(模型 2)采用似然比检验对固定参数检验.结果表明:除6430340432004?206?羌族和其他民族及混合喂养外,其他协变量对儿童身长和体重都有统计学意义.在村住院分娩率高,及时添加辅食的地区其男童身长和体重的发育好.汉族,母
10、乳喂养的儿童较藏族,人工喂养的儿童身长发育好.县年平均气温高的地区儿童的体重发育水平较低.讨论当数据存在层次结构特征时,资料不再满足单一水平统计模型残差分布独立性的假定,将资料作简单合并分析会引入间杂方差.多水平模型是处理具有层次结构数据的有力工具,它将随机误差分解到数据层次的相应水平上,并将高水平的参数估计作为随机变量,估计其随机效应,提供这些高水平单位所代表的潜在总体持征的信息,从而可将结论推广到更广的人群中.多元多水平模型可同时分析多个反应变量在不同水平上的关系,探讨解释变量是否对这种关系有影响及影响是否相同;当反应变量不止两个时,同样可以进行该类分析.当有些个体没有所有的测量值,如随机
11、地缺失一个身长值,模型会自动将该条记录考虑到分析之中,而不需要特定的步骤处理这种缺失值,多元多水平模型的估计依然是有效的.中国卫生统计 2004 年 8 月第 2l 卷第 4 期MultivariateMultilevelModelsanditsApplicationfortheStudyofChidrenGrowthandDevelopmentJinFang,NZongzan.LiXiaosong,eta1.,DepartmentofHealthStatistics,SichuanUni.versity(610044),CAengdu【Abstract】ObjectiveTraditiona
12、lstatisticalmethodsare 嗽suitabletoanalyzethemultivariateresponsedatawithhierarchicalstrut.ture.MultilevelModelsanditsapplicationwerediscussedinthispaper.MethodsTostudythemodelstructureanditsapplicadonusingchildrenstudyease.ResultsAcquiredtheeffectiveestmationoftheexplanatoryvariablescoefficientandth
13、ecoehtioncoefficienctofheightandweightontheleve1.ConclusionMultilevelmodelCalleffectivelyanalyzehierarehi.cauystructureddata.【Keywords】 Multivariatemultilevelmodel;Hierarchicallystructureddata;MultipleresponsesGrowthanddevelopment参考文献1.GoldsteinH.Multilevelstatisticalmodels.London:EdwardArono1.1995.
14、2.徐勇勇,等.医学与卫生统计资料的系统结构数据.中国卫生统计.1995.12(5):12.3.GoldsteinH 着,李晓松主译.多水平统计模型.第 2 版.成都:四川科学技术出版社.1999,89.8184.4.李晓松.离散型反应变量多水平统计模型在医学现场调查资料中的应用研究.华西医科大学博士学位论文.1997.5:55.61.5.RasbashJ.BrowneW.GoldstelnH.AusersguidetoMlwiN.Version2.1c.CentreforMultileveModellingInstituteofEducationUniversityofLondon.2001
15、.151.160.(上接第 203 页)借助计算机尚能完成;而图示法因其制作简单,直观 .往往能替代数值法,被广泛应用.本研究图示法中危险率图,生存率图和数值法的结果是一致的,故提示神经胶质瘤患者术后生存时间服从威布尔分布,可以应用威布尔参数模型研究患者术后的预后因素.在生存资料的多因素分析中,Cox 模型的应用最为广泛.但 Cox 模型同其他的统计分析方法一样,有其一定的适用范围或理论缺陷,如果应用中只是简单套用 Cox 模型,而不考虑资料是否满足其使用条件,就会导致分析结果不理想或难以解释.如应用 C0模型分析本资料,通过残差分析可见,Cox 模型的估计残差呈“s“形, 不是随机分布的 ,
16、这说明该资料不能满足 Cox 模型的应用条件,导致模型筛选出的“职业“ 这一危险因素难以解释.所以,Cox 模型并非适用于所有的生存资料,在应用 Cox 模型之前应该检验资料是否能够满足其应用条件,或对所拟合的模型进行残差分析,以保证结果的正确性.另外,SAS6.12 提供的参数回归模型分析程序LIFEREG 过程大大的优于用于 C0 模型的 PHREG过程.LIFEREG 过程不仅省去了 PHREG 过程中对分类变量赋哑变量的烦琐,而且所得结果易于解释【5】.因此,建议当资料服从特定分布时应该选用相应的参数回归模型.SomeMethodsofFittingParameterModelofSu
17、rvivalAnalysisanditsuseJiaHongying,WangJiezhen,ZhaoJingiie,eta1.ThesecondhospitalShandongUniversity(250033),Jinan【Abstract】0bjectiveTointroducethreemodel-fitmethodsofsurvivalanalysisanditsuse.MethodsthisresearchappliestWographmethodsandnumericalmethodtofitthetypeofprobabilitydistributionofpatientspo
18、stoperativesurvivaltime;usesCtesttodohypothesistesting.ResultsthreeresultsallshowthatpostoperativesurvivaltimewithgliomafollowsWeibulldistfibution;theresultofC.testalsoshowsWeibullre.gressionmodelCanbeusedtOstudypatientspostoperativeprognosefactors(P0.2).ConclusionAfterfittingdistributionofclinicald
19、ata.weshoulduseitsspecificalparametertoanalyzepatientspostoperativesur.vivatime.【Keywords】 Glioma,Cronessoffit,weibuudistribution参考文献1.叶展,顾杏元.Cox 模型及其讨论.中国卫生统计.1988,5(3):31.34.2.余松林,编着.临床随访资料的统计分析方法.北京:人民卫生出版社.1991.2.3.茆诗松.濮晓龙,刘忠译.寿命数据中的统计模型与方法.北京:中国统计出版社.1998,3.4.陈家鼎.戴中维译.生存效据分析的统计方法.北京:中国统计出版社.1998.5.高惠璇等编译.SAS 系统 SAS/STAT 软件使用手册.北京:中国统计出版社.1997.9.