1、摘 要在生存分析的研究中,经常会遇到几组数据的比较分析例如在药物试验分析中,研究某种药物是否能延长某种疾病的患者寿命,通常采用对照试验分析方法,随机地选取两组试验对象:一组为控制组,一组为处理组。控制组往往服用安慰剂,处理组服用试验药物。经历一段试验观察后,对于两组不同的试验得到了相应的试验数据,希望通过这两组数据的分析,来证明该药物是否有利于延长某种疾病的患者寿命。对于这些数据的分析通常采用两种基本的统计方法,一种是参数模型分析方法,另一种是非参数统计模型的分析方法。本文主要是在前人研究的基础上,对老鼠注射某种药物,然后进行试验观测,共设计了四组试验,观察老鼠的生存时间。利用非参数统计方法一
2、对数秩()检验理论,对观测到的数据进行生存分析。关键词:生存分析;参数模型分析方法;非参数统计方法;对数秩()检验; , , , , , ; , : : ; ; ;期:颦厶日工作单位: 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东北师范大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名: 日期:学位论文版权使用授权书本学位论文作者完全了解东北师范大学有关保留、
3、使用学位论文的规定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名;!:鱼 蓥指导教师签名: 期: 岛学位论文作者毕业后去向:通讯地址:电话: 邮编: 引 言对于许多领域的工作者,尤其是对工程界和生物医学界,各种各样的与寿命、存活时间、或者失效时间有关的数据的统计分析已经发展成一个重要的专题。寿命分析方法,从产品的耐用性研究到涉及人类各种疾病的研究,都有广泛的应用。例
4、如:机械部件或电子元件这样的产品常常要经过寿命试验才能获得有关耐用性信息,这就需要做一些试验,使一些产品处于工作状态,并常常在实验室中进行,然后观测它们直到失效为止。这里通常把寿命称为 “失效时间 ”。在对致命疾病的医疗研究中,我们感兴趣的是从诊断之日或其它某个起始点算起,患有该疾病的个体的生存时间。比如,对患某种疾病的患者采取不同的治疗方案,通过患者的存活时间分布来比较对这种疾病的不同治疗效果。在研究某种有毒物质的试验中,让实验动物接受一定剂量的毒物,观察它们是否长出肿瘤。从动物接受药剂时算起,到其长出肿瘤的时间,或者到该动物死亡的时间。“生存时间 ”一词在这里可以广泛地定义为一个给定的事件
5、出现的时间。这个时间可以是疾病的发生时间,一种处理(治疗)的反应时间,疾病复发或死亡的时间。生存数据可以包括生存时间、对治疗的反应以及与反应、生存及疾病有关的病人特征。在肿瘤治疗过程中,生存时间是指个体发现时间到死亡时的时间段;在可靠性产品分析中,生存时间是表示产品从出厂到实效为止的时间段。生物和人的生存时间的评估和预测是生物学和医学的重要研究对象,这方面的研究涉及基础科学和技术科学等许多领域,其中数学方法特别是统计方法起着重要作用。从数学角度来看,这种研究是对一个或多个非负随机变量(存时间)进行统计分析。这种统计分析已形成现代数理统计学的重要分支一生存分析( )。生存分析就是根据试验或调查得
6、到的数据,对生物或人的生存时间进行分析和推断。过去,生存分析的研究集中在预测反应的概率、生存概率、平均寿命以及比较试验动物的生存分布或比较病人的生存分布。近年来,研究与反应、生存及疾病发生有关的风险和预后()因素的识别已经成为生存分析的重要组成部分。生存分析在生物医学研究、流行病研究、可靠性分析、药物试验分析、保险学、心理和行为科学研究等方面有着广泛的应用背景,可以参考这方面的专著,如()的 生存数据分析的统计方法 (陈家鼎等翻译()。和任何其他数学方法一样,生存分析的方法和理论有广泛的应用,不限于生物学和医学领域,而且可应用于工程科学(如可靠性工程)、社会学、心理学、经济学、保险精算学等等。
7、生存分析含有许多实用的的方法和丰富的理论。随着医疗实践、工程实践及其它领域的推动,不断有新的统计方法出现,应用范围越来越广。统计学灵魂在于其应用价值,如何结合其他学科的相关内容与知识背景,选择合理的统计分析方法,通过对相关数据的分析,得到可靠的统计推断结果一直是统计学家追求的目标。本文拟从如下的几个方面进行初步的探讨。首先总结已有统计分析方法,并且进行一些比较分析。其次与其他学科进行横向联系,如医学、生命科学,做些实际数据分析。本文最关键的部分是统计方法的筛选,一旦统计方法确定了,其他问题便迎刃而解。正 文就数据本身特点而言,生存数据有其自身的特殊性。因为随着观测的时间增加,会投入巨大的人力和
8、物力,对于相对有限的资金来说是不可能的。通常采用定时结尾的方法来解决上述的矛盾,既在试验时间给定的情形下,对试验者进行观测,利用在给定试验时间内所得到的数据进行统计分析。这样得到数据是不完全的,即试验终止时往往存在一些个体观测不到希望出现的结果,如在药物初期试验中,通常的方法是用动物来进行试验,在动物体内注射要试验药物。然后进行一段观测,记录每一个试验个体出现反应的时间,当试验终止时往往会出现一部分个体观测不到出现希望的反应(如死亡等),通常把这样的数据称为删失数据( )。删失数据在生存分析中是普遍存在的,并且造成删失数据的因素多种多样,比如由于试验个体迁移而退出试验方案等因素。其次在生存分析
9、的研究中,经常会遇到几组数据的比较分析。例如在药物试验分析中,研究某种药物是否能延长某种疾病的患者寿命,通常采用对照试验分析方法,随机地选取两组试验对象:一组为控制组,一组为处理组。控制组往往服用安慰剂,处理组服用试验药物。经历一段试验观察后,对于两组不同的试验得到了响应的试验数据,希望通过这两组数据的分析,来证明该药物是否有利于延长某种疾病的患者寿命。对于这些数据的分析通常采用两种基本的统计方法,一种是参数模型分析方法,另一种是非参数统计模型的分析方法。本文主要是在前人研究的基础上,对老鼠注射某种药物,然后进行试验观测,共设计了四组试验,观察老鼠的生存时间。利用非参数统计方法一对数秩( )检
10、验理论,对观测到的数据进行生存分析。所用数据来自科学试验,真实可靠。第一章相关概念一、删失数据生命科学中的生存数据有一个最重要的特点:动物研究通常是以有固定数目的动物接受一种或多种处理()开始。由于时间和费用受到限制,研究者常常不能等到所有动物死亡。一种选择是在一个固定时间周期内观测,在截止时间之后仍可能有些动物活着,但不继续观测了,这些动物的生存时间是不知道的。只知其不小于研究周期的长度,这些称为删失观测值。对于在试验期间死亡的动物,所记录的生存时间是从试验开始到其死亡的时间,这些数据叫做准确的或非删失观测值。某些动物可能意外失踪或死亡,它们的生存时间一从试验开始到意外失踪或死亡一也是删失观
11、测。删失有三种类型:(一)型删失在型删失里,没有意外的失踪,所有的删失观测值均等于研究周期的长度。例如,在六只老鼠脚趾上注入肿瘤细胞,放在致癌物质的环境中,观测肿瘤出现的时间。研究者决定周后停止试验。结果发现,老鼠,净别在第周,第周,第周出现肿瘤;老鼠和研究结束时仍没有肿瘤,它们的无肿瘤时间至少是周;老鼠在周后意外死亡,身上并无肿瘤。这样生存时间(无肿瘤时间)是,(周),这里号表示是删失观测。(二)型删失在动物研究中的另一种选择是试验进行到有一固定数目的动物死亡为止。在这种情况下,如果没有意外失踪,删失观测值等于最大的非删失观测值。例如,在有六只老鼠的试验里,研究者决定有支出现肿瘤就停止试验。
12、结果发现,老鼠,分别在第周,第周,第周,第周出现肿瘤;老鼠到第周仍没有肿瘤;老鼠在周后意外死亡,身上并无肿瘤。那么生存时间(无肿瘤时间)是,(周)。(三)型删失在大多数临床研究中,研究期间是固定的,病人在此期间的不同时间进。 入研究,某些人可能在研究期间结束之前死亡,他们的确切生存时间是知道的,可能有些人在研究结束之前退出研究而不被跟踪观察,还有些人在研究结束时仍活着。对于那些中间退出而失去跟踪的人,生存时间至少是他们进入研究到最后离开那一段时间。对于仍然活着的人,其生存时间至少是从进入研究到研究期间结束那一段时间。这后两种观测乃是删失观测。型删失数据和型删失数据也叫单式删失数据,而型删失数据
13、则是不必同时开始的删失数据,也叫逐次删失,随机删失。所有这几种删失都是右删失或删失于右。如果没有删失观测值,称生存时间的集合是完全的。对完全数据、单式删失数据及逐次删失数据的描述和分析方法包括参数方法和非参数方法。二、生存分布的基本概念嘲(一)连续模型设表示寿命总体,则是一个非负随机变量,假设是一连续性随机变量。令厂(),)分别表示的密度函数、分布函数,则它们都定义在 【 ,)上。生存函数()表示个体在时间仍存活的概率,则() 口)()出()是连续单调递减函数,满足:() (。) ()危险函数)表示个体存活到时间,在时刻瞬间死亡率或失效率。即 )。丛型型型。!垡 竺!二!垡!。 盟血。厶 ()
14、 ()函数,(),(),() 及)在数量上是等价的: ()();(),() ()一 ()()一孚)扛(沁()( 皿)(),) ()(;()(二)离散模型有时候寿命变量需作离散化处理。假设取值,乞, ,:( ,其概率分布为( )一(一), ,一, 其生存函数则为()(苫)一 )危险函数定义为忖( ,)一器从而忖(监笋小谢);()三、参数模型方法嘲当适当的模型或分布可用来拟合数据或者可以假设数据来自某种分布的总体时,用参数模型方法。常用的生存分布有指数分布、分布、伽玛分布、对数正态分布和对数分布。如果某种分布拟合数据是适当的,则生存模式可以用参数简明地描述。统计推断可以基于所选的分布。(一)指数分布指数分布的应用很广,从研究产品的寿命到研究慢性病患者的存活时间都经常用到指数分布作为模型。该分布可用危险函数为常数来刻化,即(),苫,表明时刻瞬间死亡率或失效率可以看作常数。由此式可分别得到密度函数和生存函数()一(一知)和)一(一舡), 当一时,分布称为标准指数分布。含参数的指数分布的均值和方差分别是