收藏 分享(赏)

2012年“高教社杯”全国大学生数学建模竞赛(CUMCM)国家一等奖优秀论文C题目论文.doc

上传人:精品资料 文档编号:9063975 上传时间:2019-07-22 格式:DOC 页数:28 大小:1,003KB
下载 相关 举报
2012年“高教社杯”全国大学生数学建模竞赛(CUMCM)国家一等奖优秀论文C题目论文.doc_第1页
第1页 / 共28页
2012年“高教社杯”全国大学生数学建模竞赛(CUMCM)国家一等奖优秀论文C题目论文.doc_第2页
第2页 / 共28页
2012年“高教社杯”全国大学生数学建模竞赛(CUMCM)国家一等奖优秀论文C题目论文.doc_第3页
第3页 / 共28页
2012年“高教社杯”全国大学生数学建模竞赛(CUMCM)国家一等奖优秀论文C题目论文.doc_第4页
第4页 / 共28页
2012年“高教社杯”全国大学生数学建模竞赛(CUMCM)国家一等奖优秀论文C题目论文.doc_第5页
第5页 / 共28页
点击查看更多>>
资源描述

1、2012 高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料) ,必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公

2、示,在书籍、期刊和其他媒体进行正式或非正式发表等) 。我们参赛选择的题号是(从 A/B/C/D 中选择一项填写): C 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): (隐去论文作者相关信息等)日期: 2012 年 9 月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):2012 高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):1脑卒中发病环境因素分析及干预摘 要:脑卒中逐渐威胁

3、人们的生活,本文主要针对脑卒中发病病例信息和受病环境因素进行统计分析,从实际数据结果加深对脑卒中的认识,旨在对脑卒中加以预防。针对问题一,先主要借助于 EXCEL 编程及筛选功能、MATLAB 辅助编程对附件数据进行错误修复及标准化处理,得到 20072010 年期间有效数据的发病年、月、日,然后在EXCEL 中分别按性别、年龄、职业、时间(包括年、月、日)四个字段对发病人数进行统计,并以图、表的形式予以展示,最后总结出脑卒中患者男女性别比为 1.17:1、集中患病年龄段为 7180 岁、高危职业为农民、存在一定季节性等结论,该问属于一般的数据统计分析模型。针对问题二,先对患者按照天来统计四年

4、每天的发病人数(共 1461 条数据) ,再将气象数据与发病人数按天进行关联构成新的源数据,同时计算每天的气压差、温差,最后以发病率为因变量,以平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差、平均湿度、最低湿度 10 个特征为自变量进行多元线性回归,其步骤是先画因变量与自变量的散点图观测它们的关系,再利用 SPSS 软件统计所有变量之间的相关性,最后进行多元逐步回归分析。结果表明:发病率与这 10 个指标的相关性并不大,但整体上与最低气压、最高温度和温差呈正相关、与平均湿度和气压差成负相关;发病率与平均湿度直接线性相关,逐步回归的模型为 ,且模型检验为3.02.4y

5、xF=7.555、Sig.=0.006,表明该模型通过显著性检验;再次以平均湿度为因变量,以气压和温度为自变量进行逐步回归发现,平均湿度受温差、平均气压影响,这间接地对脑卒中发病率产生影响。针对问题三,通过查阅资料文献得到脑卒中高危人群的重要特征和关键指标、主要诱发因素,并结合问题一和问题二中的相关结论对脑卒中高危人群进行了预警和干预建议。最后,本文对模型进行了检验及评价分析,用 20072010 年的发病数据进行回代检验,两者绝对距离小于 1 的比例为 86%。同时,本文的分析可以推广应用到其它疾病、农作物收成等受环境、气候影响的分析及预警评估中。关键词:脑卒中,环境因素,统计分析,多元线性

6、回归,逐步回归,显著性检验,预警,回代检验2一、 问题重述随着社会的发展,人们生活水平不断提高,但与此同时,伴随着城市化进程加快,人口密度加大,生活节奏加快和膳食结构改变等不良现象,一些严重威胁人们身体健康的疾病发生,心脑血管疾病以其高死亡率而越来越引起人们的关注。其中脑卒中(俗称脑中风,包括脑出血、蛛网膜下腔出血和脑梗塞,脑出血和蛛网膜下腔出血均属心脑血管疾病)是目前威胁人类生命的严重疾病之一,目前对脑卒中尚无特效治疗方法或令人满意的治疗效果,因此积极预防尤为重要。随着人们对预防疾病和保证健康生活方式的重视,气候变化对人类健康的影响也倍受关注,国内外许多研究表明气象要素的变化对心脑血管疾病有

7、着重要影响。因此研究气象要素与心脑血管疾病之间的关系对于防病和治病具有重要的现实意义。脑卒中的发生是一个漫长的过程,一旦得病就很难逆转。对脑卒中的发病环境因素进行分析,其目的是为了进行疾病的风险评估,对脑卒中高危人群能够及时采取干预措施,也让尚未得病的健康人,或者亚健康人了解自己得脑卒中风险程度,进行自我保护。同时,通过数据模型的建立,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义。数据(见 Appendix-C1)来源于中国某城市各家医院 2007 年 1 月至 2010 年 12 月的脑卒中发病病例信息以及相应期

8、间当地的逐日气象资料(Appendix-C2) 。请建立数学模型,解决如下问题:问题一:根据病人基本信息,对发病人群进行统计描述。问题二:建立数学模型研究脑卒中发病率与气温、气压、相对湿度间的关系。问题三:查阅和搜集文献中有关脑卒中高危人群的重要特征和关键指标,结合问题一、问题二中所得结论,对高危人群提出预警和干预的建议方案。二、 问题分析本文主要目标是要分析脑卒中受发病环境因素的影响关系以及对应的预防措施,其总体研究方法是通过对现有数据进行统计规律分析,找出脑卒中的发病率与环境因素(温度、湿度、大气压)的关系描述,并通过查询资料文献了解脑卒中高危人群的重要特征及常见的预防脑卒中的预防措施,最

9、后再结合第一问和第二问分析的结果对高危人群提出预警和干预的建议方案,旨在提高对脑卒中的防护能力。鉴于此目的,针对本文具体 3 个问题,可以进行如下分析:2.1 针对问题一的分析本问题主要根据附件(Appendix-C1) 中四个文件中的脑卒中发病病例信息进行相关统计分析,这些病例信息指标主要有性别、年龄、职业、发病时间、诊断时间,为了对发病人群进行统计描述,本文主要从以下几点进行考虑:1. 按性别统计,包括总人数、主要集中年龄段、高危职业名称、发病与诊断时间的间隔(判断该病的潜伏性) ;32. 按年龄段统计,包括该年龄段内的性别、人数、比例、高危职业、发病与诊断时间的间隔;3. 按职业统计,包

10、括该职业内的发病人的性别、集中年龄段、发病与诊断时间的间隔;4. 分别按发病年、月统计(发病年月和诊断年月基本一致) ,包括性别、年龄段、高危职业等。但是从附件数据中发现,在“Time of incidence (发病时间)”和“Report time (诊断报告时间)”中存在不同的时间格式以及错误( 如: # 或空格),因此在对数据进行统计分析前,需要首先对数据进行修复,根据一定修复原则将一些明显的错误信息(如发病时间为5008/7/31、诊断报告时间为 27/09/2008 情况下,很明显 5008 应该是 2008) 。同时,从附件数据中易发现,部分诊断时间没有数据,而且诊断时间比较混乱

11、,错误比较多,因此本文将不对诊断报告时间进行分析,进而也将不统计发病与诊断时间的间隔。最后在修复完成后的基础上按上述思想进行脑卒中的发病信息统计,其统计的工具主要是 EXCEL,利用 EXCEL 丰富的公式编辑、筛选、绘图、统计等功能进行处理。2.2 针对问题二的分析本问题欲研究脑卒中发病率与气温、气压、相对湿度间的关系,主要需要注意以下几点:1. 在第一问已修复的数据基础上进行发病率统计,主要统计方法是通过 EXCEL 的筛选功能和编写程序统计出在 20072010 年期间每一天的发病人数,进而可以计算出按天及按月的发病率;2. 对附件(Appendix-C2)中数据文件进行整理及统计计算,

12、先按天统计 20072010 年期间每一天的气象信息(温度、湿度、大气压) ,并计算出每一天的温度差、气压差,再按月分别统计这四年中的 8 种指标(平均气压、最高气压、最低气压、平均温度、最高温度、最低温度、平均湿度、最低湿度)每月的各个平均值、最大值、最小值;3. 将 1 和 2 统计或计算的数据进行一一关联,构造后续分析的数组。从上面的统计数据可以看出,该问是一个多元统计问题 1,即分析脑卒中发病率与温度、湿度、大气压的各种指标的关系,主要分析思想如下:1. 先整体按天(20072012 年共 1461 天)分析,分析过程为: 在 EXCEL 中画出发病率与各个统计指标的散点图,从直观上寻

13、求发病率与它们是否有明显的规律(如线性相关) ; 利用 SPSS 统计软件对所有数据进行相关性分析,分析两两之间的相关性; 利用 SPSS 软件进行多元线性回归,分析回归结果是否通过显著性检验; 由于某些变量之间存在非常大的互相关(如温度之间的三个指标互相关系数都比较大) ,因此需要对多个变量进行筛选,可用的方法为多元线性逐步回归法(可以借助于 SPSS 统计软件中的逐步回归选项或 MATLAB 中的stepwise 逐步回归工具箱) ; 如果不存在前面操作没有求出发病率与温度、湿度、大气压的相关表达式,则继续按后续方法进行分析处理;2. 然后按照每月或季节的数据进行类似分析;3. 按照温度、

14、湿度、大气压三类进行单因素相关性分析,先选择其中两个特征变化很小或在一个指定范围内变化的数据,对发病率与第三个指标进行相关性分析,通过此方法进行单因素分析。整个过程需要做大量的统计分析,包括绘图及数据归纳整理,主要工具有4EXCEL、SPSS、MATLAB。2.3 针对问题三的分析本问题首先要通过资料文献了解脑卒中高危人群的重要特征和关键指标、脑卒中的主要诱发因素、常见的预防措施、已有的某些地区对脑卒中发病的统计信息和规律,根据这些信息最大化地提取关于脑卒中发病的指标,再结合问题一、问题二中所得结论,可以根据所查到的关键指标、气象信息、时间序列进行预测模型的建立,如多指标影响因素的多元线性或非

15、线性回归、神经网络预测模型、时间序列预测等等,最后对高危人群提出预警和干预的建议方案。三、 模型假设及符号说明3.1 基本假设1. 假设附件中的数据除空格、R#等本身有误外其它数据是合理可靠的。2. 假设附件数据中每一位病人都属于不同的人。3. 假设除环境因素(温度、湿度、大气压)外,影响脑卒中发病的其他因素保持不变。4. 假设当地人口不发生较大的变动,死亡率与出生率相近。5. 假设 20072010 数据四年间,没有发生重大自然灾害。6. 假设当地医疗环境相当,数据代表整个城市数据,数据具有代表性。3.2 符号说明:某天(月或其它统计范围)的年发病率P:某天(月或其它统计范围)的发病人数N:

16、某年的总发病人数M:自变数个数m:因变数Y :自变数Xi:各个自变数 对依变数 的各自效应;ibixy:自效应的集合y3.3 基本定义发病率: 式(1)NPM5四、 模型建立及求解4.1 针对问题一的模型建立及求解由问题分析可知,这属于多信息变量的统计描述模型,该问题主要是对脑卒中发病者信息进行统计描述,其方法是分别对脑卒中患者病历信息性别、年龄、职业、发病时间进行统计,全部操作在 EXCEL 中进行。4.1.1 附件数据的修复处理由于附件中的患者病例信息有许多格式错误及信息不完整,在进行统计描述前,有必要对数据做修复处理,本文的修复过程及方法如下:1. 年龄(Age)字段中存在大于 110

17、岁(如 799) 、0 岁的信息,本文处理方法为将区间1 110之间的数据作为有效值,其余的全视为该患者年龄信息缺失。2. 职业(Occupation )字段中存在 1-8 之外的数据(如 9、工等异常) ,可能是数据录入错误,也可能是还有其它类的职业没在附件中说明,本文处理方法为将 1-8之外的数据视为其他职业段。3. 发病时间(Time of incidence)字段存在日期格式错误(如 15-06-2008、20080620等)或与 EXCEL 标准时间格式(如 2007/1/1)不统一,需要对时间数据进行修复及标准化处理,处理原则有以下几点: 类似“2009-0-24”的数据丢失了月份

18、信息,此类数据认为是错误数据,不统计在20072010 期间内; 类似“发病时间为 5008/7/31、诊断报告时间为 27/09/2008”存在明显错误的数据,5008 应该修复成 2008; 类似“31/12/2009”的数据不是 EXCEL 标准的时间格式,为了便于在 EXCEL 中快速按年、月、日进行统计分析,有必要对非标准的日期数据进行标准化处理,其方法可以通过在一单元格中进行编写公式进行字符串处理,假设“31/12/2009”所在的单元格为“D2”,则计算标准化的日期格式(2009/12/31)的公式为“=DATE(RIGHT(D2,4),MID(D2,4,2),LEFT(D2,2

19、)”; 类似“发病时间为 20110/05/09、诊断报告时间为 2010-08-08”的数据,直接视为无效数据; 类似“2009/0/24”的数据也视为无效数据。4.1.2 脑卒中患者信息统计分析通过上述数据修复过程后,将得到标准格式的脑卒中患者信息数据,现按照模型分析的思路对脑卒中病例信息进行统计描述,其核心方法是在 EXCEL 中利用“COUNTIF”函数对某条件进行筛选后统计患者人数、及“COUNTIFS”函数对多重条件进行筛选后统计患者人数,具体操作界面截图见附录 B-1。64.1.2.1 按性别统计对男女性别分别进行筛选,以年为单位,将四年的数据信息进行统计,20072010 年按

20、性别的脑卒中发病人数统计如表 1 所示,20072010 年男女患病人数统计图如图 1 所示。表 1 20072010 年按性别的脑卒中发病人数统计表年统计人数性别附件总数据 2007-2010 年总 2007 2008 2009 2010男 33385 33367 7302 10384 5198 10483女 28526 28506 5940 8659 4805 9102丢失信息 12 12 0 12 0 0男女比 1.17:1 1.17:1 1.23:1 1.20:1 1.08:1 1.15:105000100001500020000250003000035000400002007-201

21、0年总 2007年 2008年 2009年 2010年时 间 /年患者人数/人 男女图 1 20072010 年男女患病人数统计图从表 1 及图 1 可以看出,2007 年男女患者之比达 1.23:1,男性比女性更容易患脑卒中这类疾病,可能原因有以下几点:一是男性高血压多于女性;二是男性吸烟与饮酒者多于女性;三是男性从事体力劳动较多,突然用力可能诱发中风。4.1.2.2 按职业统计按职业字段进行筛选得到 20072010 年各职业患病人数统计数据如表 2 所示。表 2 20072010 年各职业患病人数统计表20072010 年按职业统计数据职业 性别编号 名称 发病人数 男 女1 农民 29

22、750 14644 150842 工人 4856 3108 17453 退休人员 6646 4126 25174 教师 216 163 5375 渔民 66 43 236 医务人员 90 65 257 职工 735 513 2208 离退人员 1751 1181 570其它或缺失 其它或缺失 17775 9524 8268从表中看出农民患病人数为 29750,属于较多人群,为高危职业,而医务人员等明显较低,这与工作强度相关。05000100001500020000250003000035000农 民 工 人退 休人 员 教 师 渔 民医 务人 员 职 工离 退人 员其 它或 缺失职 位患病者人

23、数/人总 发 病 人 数 男 女图 2 20072010 年各职业患病人数统计图可以得出结论:经济收入较高的人群较收入低的人群脑卒中发病率低,户外重体力劳动者发病率较高。4.1.2.3 按年龄统计针对职业统计中,退休人员所占比例较大说明与年龄有关,对年龄进行筛选,将年龄分为各个阶段,统计出每年中不同年龄段的患病人数,以 2007-2008 年为例进行如表 3 所示的描述,各年详细数据见附录 A-1。表 3 2007-2008 年各年龄段内患病人数统计表2007 2008患病人数 男 女 患病人数 男 女1-10 17 10 7 50 15 3511-20 7 4 3 14 9 521-30 3

24、5 16 19 57 32 2531-40 155 96 59 235 173 6241-50 614 374 240 865 566 29851-60 1861 1135 726 2547 1514 103361-70 3069 1784 1285 4669 2803 186471-80 4842 2678 2164 6648 3496 314781-90 2309 1051 1258 3549 1609 193691-100 170 57 113 249 82 1678101-110 3 3 0 4 2 2其他 126 76 50 25 12 1307-10各 年 龄 阶 段 的 患 病

25、人 数 图01000200030004000500060007000其 他 1-1011-2021-3031-4041-5051-6061-7071-8081-9091-100101-110年 龄 段患病人数/人 07年 患 病 人 数08年 患 病 人 数09年 患 病 人 数10年 患 病 人 数图 3 20072010 年各年龄阶段的患病人数图由图 3 可见,患病人数随年龄的增加而增加,上升速度以 50 到 60 上升较快,61 岁以上的人群脑卒中的高发群体,集中年龄段在 71-80 岁之间,说明脑卒中以老年人居多,且脑卒中患者呈年轻化的趋势。进一步按照各年龄段,对男女患者发病人数的进行

26、区分,可得图 4 所示。07-10各 年 龄 阶 段 男 女 患 病 人 数 图020004000600080001000012000其 他 1-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100 101-110年 龄 阶 段患病人数/人 男女图 4 20072010 四年期间各年龄阶段男女患病人数图可见,男女高峰年龄段一致;男性在 4171 岁之间,患病人数明显高于女性;71 岁以后患病明显回落,且低于女性发病人数,可知男性发病早于女性,同时这现象可能是由于高龄组死亡率持续增高所致。但无论男女,构成随着年龄增加而增加,这与其在年

27、龄发病相符。94.1.2.4 按时间统计按年份对发病人数进行统计,得到发病人数统计图如图 5 所示。发 病 人 数13242190551000319585380 5000 10000 15000 20000 250002007200820092010其 它发 病 人 数图 5 脑卒中患者按年的统计人数分布从上图可以看出,附件总数据为 61923 条,但 20072010 间有效的数据为 61885 条,本文做的统计描述均是针对 20072010 期间内。按月份对发病人数进行统计,得到发病人数统计表如表 4 所示。表 4 20072010 年各月患病人数统计表月份 07 年发病人数 08 年发病

28、人数 09 年发病人数 10 年发病人数 2007-2010 年总发病人数1 935 1827 872 1760 53942 732 1961 848 1487 50283 1019 1918 830 1724 54914 1069 1758 860 1699 53865 1072 1776 876 1882 56066 1032 1517 793 1610 49527 1014 1500 931 1757 52028 1197 1366 934 1680 51779 1221 1272 829 1632 495410 1374 1461 759 1718 531211 1208 1378 6

29、64 1565 481512 1369 1321 807 1071 4568102007-2010年 总 发 病 人 数01000200030004000500060001 2 3 4 5 6 7 8 9 10 11 12月 份 /月患病人数/人图 6 2007-2010 年总发病人数随月份的变化曲线从 20072010 年逐年脑卒中发病人数的月分布发现,该病以春节多发,高峰出现在35 月,1 月为次高峰,69 月发病较为平缓,12 月出现低谷期。由此可见发病存在一定的季节差异,脑卒中春季高于其他季节,而夏、秋、冬三季发病差异不大。利用 EXCEL 中的“COUNTIFS”函数对脑卒中病例数据

30、进行多重筛选统计患者数量,得到 20072010 四年每天的发病人数,其曲线如图 7 所示。图 7 2007-2010 年总发病人数随天的变化曲线根据式(1)求出 20072010 四年内每天的发病率,其发病率随时间的变化曲线如图 8所示。图 8 2007-2010 年发病率随天的变化曲线从图 7 和图 8 可以看出,20072010 四年内每天发病人数变化不大,每天的发病率基本保持不变。但是如果按天进行统计分析,每天的随机误差容易对结果造成影响,再每月的均值作为统计对象进行分析,四年内每月的发病率百分比曲线如图 9 所示。11图 9 2007-2010 年发病率随月的变化曲线从图 9 可以看

31、出,月发病率随时间呈周期性波动,具有一定的季节性。4.1.2.5 重要结论(1) 脑卒中的发病有年集中趋势,更呈增长趋势;(2) 发病存在时间差异,春节为高发季,1 月为高峰月;(3) 患者人数男性多于女性,性别比重为 1.17:1; (4) 工作性质对脑卒中发病有直接影响,农民为高危职业;(5) 脑卒中发病处于老年阶段,集中年龄段为 7180,且逐年呈年轻化发展。4.2 针对问题二的模型建立及求解由问题分析可知,问题二属于一个多元统计分析模型,目标是研究因变量发病率与自变量温度(包括平均温度、最高温度、最低温度、温度差) 、湿度(包括平均湿度、最低湿度) 、气压(平均气压、最高气压、最低气压

32、、气压差)之间的关系,本文主要从多元线性或非线性回归模型上进行分析。4.2.1 数据归纳与统计附件(Appendix-C2)中的数据已经给出了 2007-2010 年每天对应的气象数据,可以在这基础上对气象数据进行进一步细化:(1)计算每天的气压差与温差,最终得到 20072010 年期间每一天的气象特征信息平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差、平均湿度、最低湿度等 10 个特征变量;(2)按月份统计所有数据中每月的最大值及最小值情况。最后将第一问进行统计出的发病率情况与气象数据信息进行一一关联,得到最终待分析的数据集,其数据形式如表 5 所示。表 5 数

33、据归纳统计形式按天统计时间 发 发病率 发病率千 平均 最高 最低 平 最 最 平 最 气 温12病人数分比 气压 气压 气压 均温度高温度低温度均湿度低湿度压差度差2007/1/1 98 0.007401 7.40069476 1025.1 1028.5 1023.3 8.1 9.9 7.4 86 71 5.2 2.52007/1/2 32 0.002417 2.41655339 1025.2 1026.7 1023.5 6.5 7.4 6 84 73 3.2 1.42007/1/3 33 0.002492 2.49207068 1026.1 1027.8 1025.1 5 6.9 4.2

34、86 77 2.7 2.72007/1/4 36 0.002719 2.71862256 1027.1 1029.2 1025.7 5.9 7.4 4.2 82 78 3.5 3.22007/1/5 34 0.002568 2.56758798 1027.1 1029 1025.2 5 6.5 4.3 84 76 3.8 2.24.2.2 多元回归分析过程多元回归分析包括多元线性回归及多元非线性回归,判断方法主要通过绘制因变量与各个自变量之间的散点图,首先直观分析因变量与自变量的关系,如果从散点图可以看出明显的线性关系,那么可以考虑通过多元线性回归进行分析;如果从散点图并不能发现明显的线性规律

35、,可能是呈非线性,也可能是多个自变量之间的耦合关系的影响,需要进一步分析才能决定。4.2.2.1 多元线性回归数学模型若依变数 Y 同时受到 m 个自变数 X1、X 2、X m的影响,且这 m 个自变数皆与 Y 成线性关系,则这 m+1 个变数的关系就形成 m 元线性回归。因此,一个 m 元线性回归总体的线性模型为:式(2)jjjjj X 210其中, N(0, )。相应的,一个 m 元线性回归的样本观察值组成为:j2式(3)jmjjjj exbxbby210在一个具有 n 组观察值的样本中,第 j 组观察值(j =1,2,n)可表示为(x1j, x2j,x mj,y j),便是 M=(m+1

36、)维空间中的一个点。同理,一个 m 元线性回归方程可给定为:式(4)mxbxbby210式(3)中,b 0 是 x1、x 2、x m都为 0 时 y 的点估计值;b 1 是 by123m的简写,它是在x2,x 3,x m皆保持一定时,x 1 每增加一个单位对 y 的效应,称为 x2,x 3,x m不变(取常量 )时 x1 对 y 的偏回归系数 (partial regression coefficient);b 2 是 by213m的简写,它是在x1,x 3,x m皆保持一定时,x 2 每增加一个单位对 y 的效应,称为 x1,x 3,x m不变(取常量 )时 x2 对 y 的偏回归系数;依此

37、类推,b 3 是 x3 对 y 的偏回归系数;b m是 xm对 y 的偏回归系数。在多元回归系统中,b 0 一般很难确定其专业意义,它仅是调节回归响应面的一个参数;bi(i=1, 2,m)表示了各个自变数 xi对依变数 y 的各自效应,而 则是这些各自效应的y集合,代表着所有自变数对依变数的综合效应。多元线性回归模型的求解可以直接通过 SPSS 软件和 MATLAB 相应的工具求解。4.2.2.2 按天的数据分析显然,本文中的因变量 Y 为脑卒中发病人数或发病率或发病率千分比,自变量 X 有平13均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差、平均湿度、最低湿度等 1

38、0 个变量,首先按照每天的统计数据进行多元线性回归分析。(1)观测发病率与自变量的散点图以平均气压为例,绘制发病率千分比与平均气压的散点图如图 10 所示。图 10 2007-2010 年每天发病率千分比与平均气压间的散点图从该图可以看出发病率与平均气压并没有明显的线性变化关系,可能原因是发病率与平均气压的相关性不强,也可能是受其它自变量耦合关系的影响,因为要分析发病率与平均气压的关系必须要在其它指标保持不变或变化很小范围内研究才具有可靠性,因此需要进一步分析。(2)所有变量两两相关性分析将表 5 所示的数据导入 SPSS 软件中 【1】 ,进行变量之间的相关性分析,所得结果如表6 所示。表

39、6 发病率与 10 个自变量之间的相关性统计发病率千分比Pearson 相关性 -.001显著性(双侧) .965平均气压N 1461Pearson 相关性 -.003显著性(双侧) .910最高气压N 1461Pearson 相关性 .001显著性(双侧) .968最低气压N 1461Pearson 相关性 .006显著性(双侧) .834平均温度N 1461Pearson 相关性 .009显著性(双侧) .742最高温度N 146114Pearson 相关性 .001显著性(双侧) .977最低温度N 1461Pearson 相关性 -.072显著性(双侧) .006平均湿度N 1461P

40、earson 相关性 -.028显著性(双侧) .290最低湿度N 1461Pearson 相关性 -.015显著性(双侧) .554气压差N 1461Pearson 相关性 .024显著性(双侧) .368温度差N 1461从表 6 可以看出,发病率只与平均湿度能通过显著性检验(0.05) ,且相关系数都非常低,但总体上发病率与最低气压呈正相关、与最高温度成正相关、与平均湿度成负相关、与温差呈正相关、与气压差呈负相关。(3)逐步回归分析从(1)和(2)分析可知发病率从单因素上讲,它与其它自变量的相关性非常小,且无规律可行,需要进行多因素分析,可以通过多元线性回归进行尝试。但是,部分自变量之间

41、又存在很强的相关性,如关于温度的四个指标之间的相关系都大于 0.9,因此发病率肯定不是所有这 10 个特征变量的函数表达式,因此本文采用逐步回归法进行分析。逐步回归分析的基本原理为:在建立多元回归方程的过程中,按偏相关系数的大小次序将自变量逐个引入方程,对引入方程中的每个自变量偏相关系数进行统计检验,效应显著的自变量留在回归方程内,循此继续遴选下一个自变量。如果效应不显著,停止引入新自变量。由于新自变量的引入,原已引入方程中的自变量由于变量之间的相互作用其效应有可能变得不显著者,经统计检验确证后要随时从方程中剔除,只保留效应显著的自变量,直至不再引入和剔除自变量为止,从而得到最优的回归方程。对

42、于本文中的逐步回归分析仍借助于 SPSS 软件的“回归”功能进行分析,设定显著性水平为 0.05,逐步回归的模型检验为 F=7.555,Sig.=0.006,具体结果如下:表 7 逐步回归模型结果非标准化系数 标准系数模型B 标准 误差 试用版 t Sig.(常量) 3.022 .105 28.741 .0001平均湿度 -.004 .001 -.072 -2.749 .00615图 11 逐步回归的 Student 化残差图从表 7 可以看出,所计算的参数的显著性水平 Sig.均小于 0.05,表示计算回归模型通过了显著性检验,且标准误差也比较小;从图 11 也可以看出残差图基本落在-2.5

43、 2.5内,表明回归模型较好,该逐步回归的多元线性模型为:式(5)3.02.4yx其中 代表发病率千分比, 代表平均湿度,这也说明发病率与平均湿度条件直接相yx关。(4)气象变量间的相关性分析由于湿度与温度、气压密切相关,脑卒中发病率虽然与温度、气压没有直接关联度,但温度和气压因素却影响湿度参数,因此以平均湿度为因变量,以平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差 8 个特征为自变量进行逐步回归分析,通过已有数据分析平均湿度与温度、气压因素的函数关系。具体分析方法与前面一致,分析结果如下:表 8 平均湿度与温度、气压的逐步回归模型结果非标准化系数 标准系数模型B

44、 标准 误差 试用版 t Sig.(常量) 84.455 .837 100.939 .0001温度差 -1.796 .102 -.419 -17.605 .000(常量) 448.227 35.594 12.593 .000温度差 -1.768 .099 -.412 -17.931 .0002平均气压 -.358 .035 -.235 -10.223 .000从表 8 可以看出湿度与温度、压强的线性关系具有两种模型:模型 1:式(6)1384.5.796yx模型 2:16式(7)1248.27.60.358yx其中, 代表平均湿度, 代表温度差, 代表平均气压,这说明平均湿度与温度差y1x和平

45、均气压相关。4.2.2.3 按月或季度的数据分析根据表 5 所示的数据,很容易统计出每月或季度的数据,其中,每月(季)的发病率=每月(季)的发病总人数/该年的发病总人数,每月的气象数据为该月的平均值或最大最小值,关于发病率与气象环境关系的分析方法与前面所描述的过程基本一致。4.3 针对问题三的求解4.3.1 脑卒中高危人群的重要特征和关键指标4.3.1.1 重要特征根据脑动脉狭窄和闭塞后,神经功能障碍的轻重和症状持续时间,分三种类型:(1)短暂性脑缺血发作颈内动脉缺血表现为,突然肢体运动和感觉障碍、失语,单眼短暂失明等,少有意识障碍。椎动脉缺血表现为,眩晕、耳鸣、听力障碍、复视、步态不稳和吞咽

46、困难等。症状持续时间短,可反复发作,甚至一天数次或数十次。可自行缓解,不留后遗症。脑内无明显梗死灶。(2)可逆性缺血性神经功能障碍(RIND)与 TIA 基本相同,但神经功能障碍持续时间超过 24 小时,有的病人可达数天或数十天,最后逐渐完全恢复。脑部可有小的梗死灶,大部分为可逆性病变。(3)完全性卒中(CS)症状较 TIA 和 RIND 严重,不断恶化,常有意识障碍。脑部出现明显的梗死灶。神经功能障碍长期不能恢复,完全性卒中又可分为轻、中、重三型。4.3.1.2 关键指标脑卒中关键指标主要有:职业为农民或工人,年龄在 71-80 岁之间,并患有基础性疾病(高血压、糖尿病等) 。4.3.2 脑

47、卒中的主要诱发因素脑卒中的主要诱发原因有:(1)具有不良生活方式高危人群的饮食结构不良,多盐、油腻;体力活动不足;爱吸烟饮酒。(2)患有基础性疾病高血压:患高血压史在脑卒中住院病例中,有80%以上的病例有高血压病史,其中脑梗塞82.66%,脑出血80.27%有高血压史17心梗、房颤心梗、房颤是引起脑中风的一个独立的强有力的危险因素,与健康人相比,增加脑中风危险度5倍以上,尤其是老年人房颤相当多。糖尿病明显增加缺血性脑中风发生率,单纯糖尿病者,严格控制血糖可减少微血管病变,减缓动脉硬化,从而减少脑中风。(3)职业性质的影响;文化程度高的病人自我护理能力强,这可能由于文化程度高的病人,具有更好的学

48、习理解能力,能更好地查阅书籍、报纸、文化程度高的病人更容易接受治疗、康复计划。(4)年龄阶段因素中风发生最常见的基本条件就是动脉硬化,随着年龄的增长,生理变化和多种病理性因素相互作用使动脉硬化逐渐产生。(5)男女性别差异一是男性高血压多于女性;二是男性吸烟与饮酒者多于女性;三是男性从事体力劳动较多,突然用力可能诱发中风。(6)季节性差异脑卒中病人因其机体代谢差,肢体功能活动障碍而活动减少,神经传递障碍使温痛觉减弱或消失,患侧血液循环较健侧差,与季节气温相关。4.3.3 对高危人群的预警和干预建议(一)结合问题一:针对 1:高危群众发病有年集中趋势,并逐年增长;建议 1:(1)舒缓压力:随着社会

49、经济快速发展,社会各阶层压力过大,社会经济的发展直接影响人们的心理状态,这便是该病集中年患病的体现;文献报道 【5】 血管疾病的发生与生活事件密切相关,在紧张和过多应激环境中,应激反应可通过垂体引起交感神经兴奋和肾上腺皮质激素增加,使血管强烈收缩血压突然升高而致脑出血。所以减少疾病,应保持身心愉悦,舒缓压力较为重要因素。 (2)合理饮食结构:饮食对身体,当今快节奏的快餐生活方式严重影响了我们的饮食结构,这也是疾病逐年增长的因素。为此建议平日应多摄入低盐低脂类食物,减少油脂摄入,改善血脂异常,改掉不良饮食习惯,因为肥胖与超重均为缺血性中风的危险因素。针对 2:男性比女性更易患病建议 2:(1)戒烟:日常生活中男性一般要吸烟及大量酗酒,而尼古丁可刺激神经系统增快心率及脉率,血管收缩,血压升高长期的血管收缩和血液循环减慢,可使血中胆固醇、低密度脂蛋白沉积于动脉壁,导致动脉硬

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报