1、统计学基本概念与方法, QQ:864575536,2.参数 估计,1.预备知识,3.假设 检验,4.方差 分析,5.回归 分析,统计学 ( Statistics ) 是一门收集与分析数据, 并且根据数据进行推断的艺术与科学。 大英百科全书,(数理) 统计学中的数据都是随机数据。 统计学的任务就是在随机性中去寻找规律。,统计学理论主要包含三个部分: 1.数据收集,2.数据分析,3.由数据做出决策。,(一). 统计学的基本概念,统计学中把所研究的对象全体称为总体,总体中的每一个元素称为一个个体。,总体与个体都用数量指标来表示,1. 总体与个体 (population),即使面临的是一个定性的实际问
2、题, 也必须把有关的资料定量化。,一. 预备知识,但同时在直观上又认为、或者希望做到: 抽取出的每个个体 (样本) 都充分蕴涵总体信息。,从总体中取出一个个体,称为从总体中得到一个样本。,2. 样本 (sample),统计学的目的就是从样本去得出总体的信息。,由于各种原因与实际条件的限制,不可能得到一个总体中所有个体的数据。即样本总是总体的一小部分。,被研究的对象全体,具有代表性的部分个体,总体,样本,独立同分布的样本称为简单随机样本。,总体被认为是一个服从某种概率分布 F 的随机变量。,样本是和总体随机变量有相同分布 F 的随机变量,样本的个数称为样本容量, n 。,总体分布 F 可以是未知
3、的, 非参数统计学,总体分布 F 的类型已知,但是含有 一些未知的参数。 参数估计,(二). 数理统计学的主要内容,1. 抽样理论:介绍如何收集数据。主要抽样方法,样本容量的确定,抽样误差,敏感问题等,2. 参数估计:如何根据数据得到总体参数信息。点估计、区间估计,Bayes 估计等,3. 假设检验: 如何对关于总体的一些假设做出决策。正态总体参数的检验,分布拟合检验,秩检验,列联表,统计决策等理论,4. 方差分析与回归分析:变量之间的效应关系。方差分析 分类变量与数值变量的效应关系回归分析 研究数值变量之间的效应关系,5. 多元分析: 研究若干个变量之间的关系聚类分析、判别分析、主成分分析、
4、因子分析、典型相关分析等等,例1.1 希望了解某所高校学生月消费情况。,解决方法:从这所大学里随机地调查有代表性的一些学生,根据收集到的数据去得出这所大学学生每个月支出费用的有关信息。,1. 如何得到样本 ?,不同家庭背景学生的比例应该各占多少?样本容量应该取多少才合适?被调查者拒绝调查怎么办?,抽样调查,2. 如何确定总体的分布 ?,这里的总体是这所大学的学生月支出费用,我们不妨认为学生月支出费用是一个服从正态分布的随机变量。,根据经验或者是所讨论的问题的实际背景,总体的分布类型一般可以事先确定下来。,( 不同学校对应的这两个参数也就不相同 ),即,总体随机变量 X N (,2 ) ,而这个
5、学校相应的两个参数 与 2 是未知的。,Remark 当不知道或者难以确定总体的分布类型时,在统计学中常常采用下面两种办法来近似得到总体分布的有关信息。,(1). 直方图的方法,只适用连续总体,得到的是总体密度函数近似。,把收集到的 n 个数据 x1,x2 ,xn 从小到大排列: x(1) x(2) x(n) ;其次取 区间 (a,b),包含全部数据 a x(1) ,x(n) b ;,把 (a,b) 等分成 若干小区间,计算 每个小区间中包含 的数据的频率。,x(1) x(n),根据这些频率做出相应的小区间上的矩形,则当 n 充分大时,这些小区间上矩形的面积将近似于总体的概率密度函数下曲边梯形
6、的面积。,(2). 经验分布函数的方法,构造一个分布函数,得到的是总体分布函数 F (x) 的近似。,Fn (x) =,0, x x(1) , x(k) x x(k+1)1, x x(n),这个函数实际上是观察值 x1,xn中 小于 x 的频率,即Fn (x) = x1,xn中小于 x 的个数 / n,kn,O,x,y,x(1),x(2),x(3),1/n,2/n,可以证明,经验分布函数 Fn (x) 将依概率、 甚至是几乎处处收敛到 F (x) 。,3. 如何从样本得出总体的信息 ?,样本是一组与总体独立、同分布的随机变量,我们得到的数据是样本观察值,而不是样本。,调查一个学生得到了一个数据
7、,相当于对总体分布做了一次随机试验而观察到了这个随机变量的具体取值。,一共有 n 个数据,相当于对总体分布做了 n 次独立重复试验,而得到了这个总体随机变量在这些试验中的具体取值。,利用样本观察值去估计出总体的未知参数,直观上可以利用调查到的 n 个学生的月支出x1 ,x2 ,xn 的算术平均 :,去估计这所学校学生的平均月支出费用 。,它的合理性在哪? 还有没有其它的办法?这些不同的方法各有什么样的优缺点?,数理统计学最重要的内容之一,参数估计,事先提出一个假设,利用样本观察值去检验这个假设是否可以被接受,假设检验,假定学校要制定相关一些政策,如奖学金、贷款、勤工俭学等;或者后勤服务、商业经
8、营的价格等等。,共同关心的一些问题,比如说: 0 ?这里 0 是一个已知的常数。,数理统计学最重要的内容之一,应该如何去做这个检验?,一种想法是:既然已经通过参数估计得到了这个学校学生月平均支出 ( 即总体的参数 ) 的估计值,自然就可以用它代替假设里的 去做检验:当估计值比 0 大就接受这个假设,否则就拒绝,但是这样的风险很大:样本总是随机得到的,因此估计值与真实值之间不可避免地存在着随机误差。,传统的方法是:给出一个区域 (拒绝域),如果估计值落在这个区域内,就拒绝原来的假设,否则就接受。,除了对总体参数的检验外,还有一些重要的假设检验问题,例如:,关于总体分布的检验,检验得到的样本数据是
9、不是来自于某个事先给出的总体,独立性的检验,检验一些分类变量之间是否是独立的,例如:抽烟与肺癌,睡觉打鼾与心脏病,分布拟合检验,关于数据差异的检验,主要希望了解两组或多组数据间的差异究竟是来自于随机性,还是总体间的确存在差异?,例如:小儿麻痹症、SARS疫苗的研制,越战期间美国的征兵计划,,以及我们在科学研究、工程实践、 社会调查等等得到的数据,讨论数值变量之间的效应关系问题,比如说,想了解儿子身高与父亲身高之间的关系。在每个被调查的家庭中同时获得这两个变量的 观察值,分析它们是否有某种(函数)关系,,一元线性回归,多元线性回归,例如,钢的去碳量与不同矿石、融化时间、 炼钢炉体积等等是否有关?
10、关系如何?,数理统计学重要应用之一,回归与相关分析,讨论分类变量与数值变量之间的关系,比如说产品质量与不同操作人员之间的关系。是否某些人生产出的产品质量偏高?如果偏高, 这种差异是否是纯属偶然原因,,单因素方差分析,数理统计学重要应用之一,方差分析,双因素方差分析,希望了解操作人员和设备这两个因素联合对质量 的关系。各自单独是否有影响?交互效应如何?,简单的说,从概率论的角度出发,可以把上述数理统计学的过程理解成:,有一个含有未知信息的概率分布 F,针对 F 做了 n 次独立重复的试验与观察, 得到 n 个独立同分布于 F 的随机变量的取值,根据样本的具体观察值,去推断出总体 F 所包含的未知
11、信息,或作出进一步的决策等,例1.2. 如何分析与处理变量的关系?,分类变量:如性别、信仰、职业等等, 顺序变量:如名次(第一、第二,), 数值变量:如收入、比例、产量等等,简单 复杂,Remark可以把复杂的变量简化为简单变量,反之不行数值变量 顺序变量 分类变量,变量组合与相应的统计分析方法,因变量 y,自变量 x分类变量 顺序变量 数值变量 分类变量 卡方分析 回归与相关 顺序变量 秩方法 数值变量 方差分析 回归与相关,把两个变量分别作为横轴和纵轴描出散点,散点图(Scatterplot),散点图在简化数据的同时,能够保留 原始数据的信息。,(三). 变量的统计图表示,例1.3.下面是
12、 24 对夫妻的数据,有两个变量: 结婚时间和一年内的吵架次数。,结婚年数 5 2 4 1 3 6 5 8 3 7 3 9 争吵次数 10 20 16 15 9 6 8 5 10 7 8 6,结婚年数 10 15 13 20 16 25 22 14 15 19 17 20 争吵次数 5 3 4 2 4 1 3 3 4 3 3 2,结婚时间与吵架次数的散点图,(2). 时间序列图,特殊散点图,以时间作为横轴的变量,时间序列图能够反映出一个变量随着 时间而变化的趋势。,总体 X 的分布函数 F 含有未知的参数 , 所有可能的取值范围称为“参数空间”,记为 。从这个总体中抽取了一组样本 X1,Xn
13、, 相应的样本观察值是 x1,xn 。 应该如何估计出 的具体数值?,点估计就是利用样本构造一个合理的统计量:g (X1,Xn ) ;用它的观察值 g(x1,xn ) 去作为作为 的估计值。,二. 参数估计,你可以用这组数据中的任何一个,或者样本 均值,或者是样本中位数等,作为 的估计值。,例2.1 甲同学在一个体重仪上称她的体重,假定这个体重仪没有系统误差,每次称量的结果是真实重量 加上一个随机误差 k 。一般认为k N (0,2 ) ,因此 n 次称量的结果Xk = + k N (,2 ),矩估计: 用样本的有关矩去作为总体有关矩的估计。即样本均值作为总体期望的估计;样本方差作为总体方差的
14、估计;样本中位数(或众数) 作为总体中位数( 或众数 ) 的估计等 。,极大似然估计:所有情况中 “看起来最象” 的那个估计,常用的点估计方法,例2.2. 假定盒子里黑、白球共 5 个,但是不知道黑球具体数目。现在随机有放回抽取3 个小球,发现是两个黑球和一个白球。问盒子里最可能有几个黑球?,解:盒子里黑白球所有的可能有六种:5白,4白1黑、3白2黑,2白3黑,1白4黑,5黑,以 p 记盒子里黑球所占的比例, 则 p 全部可能的值是: 0, , ,1 ,1 2 3 45 5 5 5,定义三个统计量 X1,X2,X3 表示抽样结果: 取到黑球记为 1 ,否则记为 0 。因此 X1,X2,X3独立
15、同分布于参数 p 的两点分布。例题中的三个样本观察值 x1,x2 ,x3 有两个 取值是 1,一个取值为 0。,而样本的联合分布律显然是 L(x, p) = px1+x2+x3 (1 - p )3 - x1 - x2 - x3= p2 (1 - p ),它的含义是:当盒中黑球比例为 p 时, 随机事件“有放回取出的三个小球中有两个 黑球、一个白球”的概率。,对应于参数空间中不同的 p ,样本分布 L(x, p) = p2 (1 - p ) 所对应的这些概率是:,p 0, , , , ,1 L(x, p) 0, , , , ,0,1 2 3 45 5 5 5,4 12 18 16125 125
16、125 125,既然“ 三个小球中包含两个黑球 ” 是已经 发生了的随机事件,因此使得这个事件发生 概率取最大的那个值就是未知参数 p 最有 可能的取值 。即 p 的极大似然估计就是 3/5 。,三. 假设检验,(一). 假设检验的思想,它是如下的一种统计推断:,对于一个统计模型,我们提出一个假设, 根据抽取到的样本,来作出是接受还是拒绝 这个假设。,小概率事件在一次试验中不应该发生。,有一种饮料由 Tea 和 Milk 混合而成,按照顺序的不同,分为 TM、 MT 两种,,有位女士声称她有能力品尝出是 TM 还是MT 。,为了检验她的说法是否可信,准备 8 杯饮料, TM 和 MT 各一半,
17、并且把这一点告诉她。现在随机的让这位女士品尝,指出哪些是 TM ,最终的结果是她全部说对了。,女士品茶,R.A.Fisher 的推理过程如下:,引进一个假设,,H0 :这位女士没有鉴别能力,如果 H0 是正确的,她只能随机从 8 杯饮料中 猜测 4 杯说是 TM 。全部猜对的概率为: = 0.014,现在她正确的说出了全部的 TM,要解释 这种现象,只能有下面两种可能:,1 1C84 70,H0 不成立,即:她的确有鉴别能力; (2) H0 成立,意味着一件概率为 0.014 的随机事件在一次试验中发生了。,Fisher 认为,随机试验的结果(或样本) 构成不利于假设 H0 的显著性证据,因此
18、应该否定H0 。,这种推理过程就称为:显著性检验,显著性是统计意义上的显著,意思是一个小概率事件是否发生。,一个概率不到 2% 的随机事件在一次试验中发生了,这是比较稀奇或者说不太可能的。,思考 假如这位女士只说对了 3 杯 ?,一个人纯粹靠随机的猜测,能够说对至少 3 杯的概率 ( 即 H0 成立的情况下,出现这种试验结果的可能性 ) : = 0.243,显然我们不会对一个概率接近 25% 的随机事件在一次试验中发生而感到惊讶。试验结果并没有提供不利于H0 的显著性证据,因此不能否定零假设 ,而应该接受H0 ,即应该认为这位女士没有鉴别能力 。,1+ C43 C41 17C84 70,(二)
19、. 假设检验的基本过程,例3.2. 当包装机器正常工作时,每袋葡萄糖的重量应该是一个服从均值 0.5 kg,标准差0.015 kg的随机变量。有一天随机地抽取了9 袋包装好的产品,测量出它们的平均重量是 0.511 kg,问这台包装机器是否正常工作?,(假定即使工作异常标准差也不会改变),1. 提出一个统计假设,根据题意每袋产品重量 X N (,0.0152 ) ,如果机器正常工作,应该是 = 0.5 ,反之 应该是 0.5 。,因此首先提出统计假设:,假设检验的任务就是要根据抽取出的样本, 来决定是接受零假设,还是拒绝零假设 ( 接受 对立假设 ) 。,H0: = 0 ( = 0.5 ) H
20、1: 0 ( 0.5 ),2. 选取一个合适的检验统计量,它的分布当零假设成立时应该是已知的, 而且一般是从待检验的总体参数的良好的 点估计中去寻找。,在例题中需要检验的是总体期望 , 因此考虑样本均值,,零假设成立时 ( = 0.5 ) 则有:,3. 利用零假设成立时检验统计量的分布构造出一个小概率事件,这个小概率就是给定的显著性水平(也称 检验水平),而这个小概率事件就是零假设的 拒绝域,并且拒绝域必须和对立假设有关: 零假设的拒绝域相当于对立假设的接受域 。,在例题中由于样本均值是总体期望 的一个 良好的点估计,因此零假设成立( = 0.5 )时, 偏差 应该比较小,不能够太大。,而如果
21、 比较大时,自然我们会 认为零假设不成立,所以应该接受对立假设。 所以零假设 ( = 0.5 ) 的拒绝域的形式就是 :,根据检验统计量的分布, 有:,这个常数 z0 就可以取为 u/2,统计量| z | = 某个常数 z0,4. 代入样本观察值,如果使得这个小概率事件发生,就否定零假设而去接受对立假设。否则说明样本没有提供否定零假设的显著性证据,因此应该接受零假设。,在这个例题里,检验统计量| z | = = 2.2,H0: = 0 ( = 0.5 ) H1: 0 ( 0.5 ) 的显著水平 的拒绝域就是 2.2 u/2 。,30.0110.015,假设检验默认的显著水平是 =0.05,(1
22、) 如果取 = 0.05,则2.2常数 z0 = 1.96 ,说明一个概率为0.05 的随机事件发生了,样本提供了机器异常的显著证据,应该否定零假设; (2) 如果取 =0.01,则2.2常数 z0 = 2.575 ,说明一个概率0.01的随机事件没有发生,样本没有提供机器异常的显著证据,应该接受零假设。,在不同的显著水平下,可以导致最终得出 的检验结论完全不同。这个现象说明了显著 水平 对于 H0的保护: 越小越不容易否定 零假设。,(三). 卡方 检验,如果一组样本 X1,Xn 来自分布 F, 需要检验是如下问题: H0:F = F0 H1:F F0,从理论上来说无论 F 是离散还是连续分
23、布, 卡方检验都可以处理;不过它更适用于离散的 总体,对于连续的总体 F ,采用 Kolmogrov柯莫哥洛夫检验更好。,K.Pearson 的拟合优度检验思想,在实数轴上取 m 个点把 R1 分成 m + 1 个部分,以 vi 表示落在第i 个区间里的样本个数,pi 是总体随机变量 X 在这个区间中的概率:,x,t1 t2 t3 tm,x(1) x(n),当零假设 H0:F = F0 成立时pi 可以计算出:pi = F0(ti ) - F0(ti - 1 ) ,1 i m + 1;这里 F0 (t0 ) = 0,F0(tm +1 ) = 1n 充分大时,频率 vi/n 与概率 pi 应该相
24、当接近,因此如果零假设成立则统计量:,应该偏小,反之则可以否定零假设 H0:F = F0 。1900年K.Pearson 证明了极限分布 K2 2(m),因此 H0 的一个水平 拒绝域近似为 K2 2(m) 。,总体 X 只可能取有限个值ai ,1 i k 。 相应地,样本 X1,Xn中取值为ai 的个数 为vi ,1 i k 。需要检验: H0:P X = ai = pi ,1 i k,取检验统计量:,则H0 的一个水平 检验的 拒绝域为 K2 2(k - 1),例3.3. Mendel (孟德尔)的遗传学例子,Mendel 研究豌豆时发现豌豆有两种特性: 圆与皱、黄与绿,他观察了 556
25、颗豌豆:,圆黄 皱黄 圆绿 皱绿 (总数) 315 101 108 32 (556),而根据他的遗传学理论,Mendel 认为 这些组合关系应该有理论上的概率:,圆黄 皱黄 圆绿 皱绿 (概率) 9/16 3/16 3/16 1/16 (1),解. 总体分布的 k = 4,对应 K2 统计量为:,0.052(3)=7.815,0.902(3)=0.584,0.952(3)=0.352甚至在水平0.90下都可以接受零假设,即 认为Mendel 的遗传学理论是正确的。,从p-值的角度拟合优度 p = P 2(3) 0.47 这个值是0.9254 ,理论分布与实际数据相当吻合。,四. 方差分析,方差
26、分析针对方差相同的多个正态总体, 检验它们的均值是否相同。 即,同时判断多组数据均值之间差异是否显著,方差分析 ( Analysis of Variance,ANOVA ) :研究一个(或多个)分类自变量如何影响一个 数值因变量的统计分析方法。,方差分析的特点 方差分析与一般的假设检验不同要比较均值是否相同,可以使用第三章 假设检验的方法,但是只能处理两个均值。方差分析处理的是多个均值的情况。,方差分析的目的 . 判断某些因素对于我们感兴趣的因变量是否具有“显著”的影响, . 如果因素间有交互效应,寻找最佳搭配方案。,常见的方差分析主要有:单因素方差分析,双因素方差分析,多因素方差分析。, 方
27、差分析与回归、相关分析不同回归与相关处理的是两个数值变量的问题, 相应的散点在 x 轴上具有顺序(从小到大),而 方差分析的数据在 x 轴上可以任意交换位置。,考察小麦产量( y ) 对于品种和施肥量的关系。,Fisher的农业试验,选择了:两个不同的小麦品种,三个不同的施肥等级; 一共 23 = 6 种搭配做试验,建立模型。,y11 = 0 + 1 + 1 + 11 y12 = 0 + 1 + 2 + 12y13 = 0 + 1 + 3 + 13y21 = 0 + 2 + 1 + 21y22 = 0 + 2 + 2 + 22y23 = 0 + 2 + 3 + 23,yij 是小麦产量, 1、
28、2 是品种效应, 1、 2、 3 是施肥等级的效应, 0 是其它因素的平均效应。,ij 是随机误差,i.i.d N (0,2 ),品种是否对产量有影响 H01: 1 = 2 施肥量是否对产量有影响 H02: 1 = 2 = 3,把这个模型写成矩阵的形式:Y = X + ,在方差分析中,同一个因素的不同水平看成是模型里的不同变量,而不能看成是同一个自变量在不同试验里的取值。(否则需要 y 对 x 有线性相依关系),i.i.d independent and identically distributed 独立同分布 i.i.d.r.v independent identically distri
29、buted random variables 独立同分布随机变量,五. 回归与相关分析,回归与相关分析是用于讨论数值变量 之间关系的统计分析方法。,回归分析研究一个(或多个)自变量的变化 如何影响因变量,相关分析研究这两个数值变量的相关程度。,Regression,y = 33.73 + 0.516 x (单位:英寸),直观上在一个总体中 有两个特征( X,Y ),观 察了n 次得到平面上的n 个点 ( x1,y1 ), ( xn,yn ) 。,x,y,o,如果一条曲线 y = f (x) 基本上通过这些点, 或者这些点的大多数与这条曲线偏离很小, 则称曲线是对观察值的拟合曲线,或者称为 是
30、y 对于x 的回归曲线。,“回归”的含义,在理论上,假定( X,Y )有联合分布,二阶矩 存在,则当X 取某个值 x 时Y 有一个确定的条件 分布 F( | x),这个分布的数学期望即条件期望E(Y|x) 存在,E(Y|x) 就称为Y 对于x 的回归(函数),如果X 是一维随机变量,则E (Y|x) 就称为 一元回归函数(主要是回归直线);当 X 是多维随机变量时就是多元回归(曲面),Remark 采用条件期望E(Y|x) 而不是其它的函数 y= g(x) 作为Y 对于 x 的回归,原因是在均方误差的意义下条件期望是最优的。,如果 E(Y|x) 就是 x 的线性函数,即:E(Y|x) = 0
31、+ x11 + xkk , 线性回归模型就定义成:,yi = 0 + 1 xi1 + k xik + i ,1 i n i 独立同分布于 N (0,2 ),y = 0 + x11 + xkk 就称为是回归方程,这时不再把 x 看成是随机变量X 的观察值, 而看成是一般的数量变量,因此线性回归模型 也是一种线性模型:Y = X + ,E = 0,其他统计方法,蒙特卡罗、 概率分布、随机模拟、分布拟合度检验 统计分类 等等,蒙特卡罗方法(Monte-Carlo方法, MC) 该算法又称计算机随机性模拟方法,也称统计试验方法。这一方法源于美国在第一次世界大战进行的研制原子弹的“曼哈顿计划”。该计划的
32、主持人之一、数学家冯诺伊曼用驰名世界的赌城摩纳哥的Monte Carlo来命名这种方法。MC方法是一种基于“随机数”的计算方法,能够比较逼真地描述事物的特点及物理实验过程,解决一些数值方法难以解决的问题。MC方法的雏型可以追溯到十九世纪后期的蒲丰(Buffon) 随机投针试验,即著名的蒲丰问题。MC方法通过计算机仿真(模拟)解决问题,同时也可以通过模拟来检验自己模型的正确性,几乎是比赛时必用的方法。,(2006年B题 ),艾滋病疗法评价及疗效预测,艾滋病是当前人类社会最严重的瘟疫之一,从1981年发现以来的20多年间,它已经吞噬了近3000万人的生命。,艾滋病的医学全名为“获得性免疫缺损综合症
33、”,英文简称AIDS,它是由艾滋病毒(医学全名为“人体免疫缺损病毒”, 英文简称HIV)引起的。这种病毒破坏人的免疫系统,使人体丧失抵抗各种疾病的能力,从而严重危害人的生命。人类免疫系统的CD4细胞在抵御HIV的入侵中起着重要作用,当CD4被HIV感染而裂解时,其数量会急剧减少,HIV将迅速增加,导致AIDS发作。,艾滋病治疗的目的,是尽量减少人体内HIV的数量,同时产生更多的CD4,至少要有效地降低CD4减少的速度,以提高人体免疫能力。,迄今为止人类还没有找到能根治AIDS的疗法,目前的一些AIDS疗法不仅对人体有副作用,而且成本也很高。许多国家和医疗组织都在积极试验、寻找更好的AIDS疗法
34、。,现在得到了美国艾滋病医疗试验机构ACTG公布的两组数据。,ACTG320(见附件1)是同时服用zidovudine(齐多夫定),lamivudine(拉美夫定)和indinavir(茚地那韦)3种药物的300多名病人每隔几周测试的CD4和HIV的浓度(每毫升血液里的数量)。,193A(见附件2)是将1300多名病人随机地分为4组,每组按下述4种疗法中的一种服药,大约每隔8周测试的CD4浓度(这组数据缺HIV浓度,它的测试成本很高)。4种疗法的日用药分别为:600mg zidovudine或400mg didanosine(去羟基苷),这两种药按月轮换使用;600 mg zidovudine
35、加2.25 mg zalcitabine(扎西他滨);600 mg zidovudine加400 mg didanosine;600 mg zidovudine加400 mg didanosine,再加400 mg nevirapine(奈韦拉平)。,请你完成以下问题(附件的数据量很大,不便在此书写,可在相关网站上获取):,(1)利用附件1的数据,预测继续治疗的效果,或者确定最佳治疗终止时间(继续治疗指在测试终止后继续服药,如果认为继续服药效果不好,则可选择提前终止治疗)。,(2)利用附件2的数据,评价4种疗法的优劣(仅以CD4为标准),并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时
36、间。,(3) 艾滋病药品的主要供给商对不发达国家提供的药品价格如下:600mg zidovudine 1.60美元,400mg didanosine 0.85美元,2.25 mg zalcitabine 1.85美元,400 mg nevirapine 1.20美元。如果病人需要考虑4种疗法的费用,对(2)中的评价和预测(或者提前终止)有什么改变。,以下在解决第一个问题时,先对附件1的原始数据分析整合,借助MATLAB软件,拟合出CD4、HIV及CD4与HIV之比随时间 (周次),基本思路,变化的函数关系及图形。,在拟合函数的过程中,考虑到在每个周次上被检测的人数不同,在,拟合关系函数(CD4
37、值和HIV值)时,以每个周次上被检测的人数为权重。,的函数关系 和,、,,再逐次拟合出“修正”函数,以确保拟合获取的函数更符合真实情况.,具体地,先以权重最大的五个点(周次),拟合出CD4、HIV与时间,CD4,HIV,病人经过30周左右的治疗的状况达到最好,如果继续用药,HIV虽然可以维持在较低的水平,但CD4 将缓慢减少,为了防止并发症的出现,可以考虑适当调整治疗方案。,针对第二个问题,首先分别获取四种疗法的CD4值关于治疗时间的函数表达式.为了更具有可比性,把四种疗法中CD4的初始值(即第0周的值)化成同一个值,得到可比的函数关系及图形 。,432 1,从图中可以直观地看到,四种疗法的优
38、劣次序为:4,3,2,1。值得注意的是,虽然第四种疗法明显优于前三种疗法,但是大约在治疗30周之后CD4的下降速度加快。,模型的初步建立,(1)假设在ACTG320和193A治疗中,CD4和HIV不受病人的年龄、性别以及是否有其它疾病的影响;,为讨论问题的方便,根据医疗规律和市场因素,作如下基本假设:,(2)在关于附件2记录4种疗法的评价中,不考虑药品价格对4种疗法优劣评价的影响;,(3)在分析附件2记录4种疗法时,不考虑HIV对人的影响因素;,(4)只针对不发达国家的艾滋病人来分析,当病人需要考虑4种疗法的费用时,对这4种疗法的评价和预测有何改变;,(5)假设题目所提供的4种疗法的药品的价格
39、是不发达国家最近的市场价格。,通过对附件1的观察、分析,可以发现被测试CD4的病人多集中在第0、4、8、24、40、48周。这些检测时间应该是病理(CD4浓度)变化的显著点。其余周次CD4浓度的检测样本小,可以按就近原则分别归到第0、4、8、24、40、48周,具体分法如下:,第02周归为第0周; 第36周归为第4周;,第715周归为第8周; 第1630周归为第24周;,第3145周归为第40周; 第4657周归为第48周。,划分治疗时间段以后,再计算出各测试周次的CD4平均浓度(见下表).,对附件1、2中数据抽查检验及医学知识知,CD4、HIV随时间变化的基本特征符合二次函数,故在以下讨论中
40、,均按二次函数拟合。利用上表的数据进行曲线拟合,得到函数表达式(左图),由上表可知,第48周的测试病人数目仅为23人,人数较少。测试所得的CD4的平均浓度不具有代表性,把这个数据去掉,重新拟合曲线,得到修正后的函数表达式(右图),下面分析HIV浓度的情况。,分析附件1又可以得知,测试HIV的病人多集中在第0、4、8、24、40、45周,依据上述的分析思想,具体划分周次方法仍为:,第02周归为第0周; 第36周归为第4周;,第715周归为第8周; 第1630周归为第24周;,第3141周归为第40周; 第4246周归为第45周。,然后计算各测试周次的HIV平均浓度,并制成下表。,由上表可知,第4
41、0周测试HIV的病人数目比以前减少, 第45周时数目已降至23人,此时HIV值突然变高(按医学常理,应该是疗效好的人,因HIV的含量很低,AIDS症状不明显或消失,已不必再加以检测,而继续检测者则是治疗效果不好者,故HIV值突变)。,第45周测试人数太少,不具有代表性,故可以不予考虑。 根据表中的数据,拟合得到函数表达式,拟合成二次函数得到,与周次,利用以上两表中各周次CD4和HIV的平均浓度,可以计算相应周次的CD4和HIV的比值,见下表。,将表中的CD4 / HIV的值,比值关于时间的函数图象见右图 。,由题目得知,HIV的测试成本很高。因此,在很多情形下可以只检测CD4,再根据关系式,来
42、获得HIV的估算值。,结论:CD4检测函数,的最大值点为,,此时,,HIV检测函数,的最小值点为,,此时,,这说明,第33.0826周时,CD4的平均含量达到最大值191.1431,此后CD4的含量会减少;第25.55周时,HIV的平均含量达到最小值2.4048,此后HIV的平均含量会增加。可以预见,继续治疗的效果将会不尽人意。,从题目和相关资料得知,爱滋病的治疗目的是尽量减少人体内HIV的数量,同时产生更多的CD4,至少要有效地控制CD4减少的速度。因此,最佳的治疗效果出现在第25.5533.0826周中。再由式,计算出CD4 / HIV 的最大值出现在第31.1317周。这也从一个侧面说明
43、着病人经过大约32周的治疗,身体的多种测试指数达到最好水平。,首先,选择5个最具代表性的周次(医学检测规律周次),即第0、4、8、24、40周,求每周次的CD4和HIV的平均含量及相应人数,得到一个最具代表性的CD4和HIV含量与周次的关系并使用计算机,应用Matlab软件拟合得到函数 。,模型的改进和验证,以上采用了将数据集中在几周次上的处理数据方法获得了函数关系及其图象。方法简明,并具有一定说服力。但是,把不在第0、4、8、24、40周的CD4及HIV检测数据就近归在了这些周上,这势必产生一定的偏差。为了更能准确地求出CD4和HIV与时间的函数关系,下面采取不同的数据处理办法重新拟合曲线,
44、以修正原模型的不足,并检验方法一的处理结果。也在一定意义上体现着处理数据的多样性、互补性。,再把已处理的5个测试周的测试人数分别减去这5个测试周中人数最少的一周的人数。得到第0周为33794243人,第4周23194137人,第8周20894114人、第24周1379443人,第40周94940人。,用调整后的数据取代原有数据,重新选出5个最多人数的周次拟合 。,这样反复几次,得到拟合函数,直至剩余的有效数据不足5个为止。最后,令CD4的含量表达式为,其中,分别表示获得该函数关系的每个数据检测人数,如,。,表10-20是先后8次拟合曲线过程中剩余数据的变化情况。每次拟合函数所使用数据以及CD4
45、含量随时间变化关系见表320,每次拟合函数所使用数据以及CD4含量随时间变化关系见下表。,根据上表各组数据,用Matlab进行拟合得到的函数关系分别为,同理,HIV的含量随时间变化关系如下表。,利用Matlab分别拟合上述数据组成的函数关系式5,结果如下.,加权平均可得HIV的含量表达式,。,但是,通过比较运用前后两种数据处理办法所获得的CD4含量表达式 和HIV的含量表达式 ,发现这两组表达式差别不大。这也验证了CD4 / HIV的表达式,结论:可以肯定地说,后一种数据处理方式更加合理,其结果也更加可信。,的可信性。在后面只有CD4检测数据而没有HIV数据的情况下,假如使用HIV函数表达式时
46、,完全可以利用公式,来导出。,附件2所记录四种治疗方案的比较和评价,按照第1、2、3、4种疗法把测试的1300多名病人分成四组(由于是随机分组的,所以不需要考虑一些特殊情况的存在)。再分别将各种疗法的数据按就近原则将周次划分为六个。分别为:0周、8周、16周、24周、32周、40周,求得各周的CD4的平均值,在每一组中,计算出各周次(把相近的周次累加求平均值所得)CD4的平均值,各种疗法相关数据依次见以下四个表。,疗法1,疗法2,疗法4,疗法3,根据各表的数据,拟合出各疗法对应的CD4的含量与时间的函数关系分别为,疗法3,疗法1,疗法2,疗法4,注意到四种疗法第0周的CD4含量平均值各不相同,这不利于对不同疗法的治疗效果进行相对比较。为此,记各种疗法的初始CD4含量平均值分别为,将疗法1、2、3、4各周CD4的平均含量分别减去,得到CD4的差值,所有差值加上 后重新拟合曲线得到对比图。,4321,应用Matlab软件拟合出这四种疗法的CD4含量差值和时间的二次函数图象,再分别加上常数 绘制比较图如下。,由上述4种疗法的各检测周的CD4平均含量变化可知:,总体来说疗法4为最优疗法,其次为疗法3,疗法2,疗法1。,前面已经知道,疗法4在前17.5周的治疗期间疗效显著,但继续治疗的效果不理想。可以考虑从第17.5周以后改用疗法3,以期减少疗效降低的速率。,