ImageVerifierCode 换一换
格式:DOC , 页数:15 ,大小:317KB ,
资源ID:8250605      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-8250605.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据分析建模简介.doc)为本站会员(hwpkd79526)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

数据分析建模简介.doc

1、数据分析建模简介观察和实验是科学家探究自然的主要方法,但如果你有数据,那么如何让这些数据开口说话呢?数据用现代人的话说即信息,信息的挖掘与分析也是建模的一个重要方法。1科学史上最有名的数据分析例子开普勒三定律数据来源:第谷布拉赫(1546-1601,丹麦人) ,观察力极强的天文学家,一辈子(20 年)观察记录了 750 颗行星资料,位置误差不超过 0.67。观测数据可以视为实验模型。数据处理:开普勒(1571-1630,德国人) ,身体瘦弱、近视又散光,不适合观天,但有一个非常聪明的数学头脑、坚韧的性格(甚至有些固执)和坚强的信念(宇宙是一个和谐的整体) ,花了 16 年(1596-1612)

2、研究第谷的观测数据,得到了开普勒三定律。开普勒三定律则为唯象模型。2数据分析法2.1 思想采用数理统计方法(如回归分析、聚类分析等)或插值方法或曲线拟合方法,对已知离散数据建模。适用范围:系统的结构性质不大清楚,无法从理论分析中得到系统的规律,也不便于类比,但有若干能表征系统规律、描述系统状态的数据可利用。2.2 数据分析法2.2.1 基础知识(1)数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出;(2)数据分析(data analysis)是指分析数据的技术和理论;(3)数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规

3、律;(4)作用:在实用中,它可帮助人们作判断,以采取适当行动。(5)实际问题所涉及的数据分为: 受到随机性影响(随机现象)的数据; 不受随机性影响(确定现象)的数据; 难以确定性质的数据(如灰色数据) 。(6)数理统计学是一门以收集和分析随机数据为内容的学科,目的是对数据所来自的总体作出判断,总体有一定的概率模型,推断的结论也往往一概率的形式表达(如产品检验合格率) 。(7)探索性数据分析是在尽量少的先验假定下处理数据,以表格、摘要、图示等直观的手段,探索数据的结构及检测对于某种指定模型是否有重大偏离。它可以作为进一步分析的基础,也可以对数据作出非正式的解释。实验者常常据此扩充或修改其实验方案

4、(作图法也该法的重要方法,如饼图、直方图、条形图、走势图或插值法、曲线(面)拟合法等) 。2.2.2 典型的数据分析工作步骤第一步:探索性数据分析目的:通过作图、造表、用各种形式的方程拟合、计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。第二步:模型选定分析目的:在探索性分析的基础上,提出一类或几类可能的模型(如进一步确定拟合多项式(方程)的次数和各项的系数) 。第三步:推断分析目的:通常用数理统计或其它方法对所选定的模型或估计的可靠程度或精确程度作出推断(如统计学中的假设检验、参数估计、统计推断) 。3建模中的概率统计方法现实世界存在确定性

5、现象和随机现象,研究随机现象主要由随机数学来承担,随机数学包括十几个分支,但主要有概率论、数理统计、试验设计、贝叶斯统计、随机过程、时间序列分析、马尔可夫决策、可靠性理论等。3.1 概率统计建模基本思想面对实际的随机现象,有两类定量方法:(1)方法一:概率统计方法。其思想是从对随机现象的大量观察中提出相应的数学模型(即概率空间) ,用随机变量来描述随机现象,然后再研究这一数学模型的性质、特点(如随机变量及其分布、随机变量的数字特征等) ,由此来阐述随机现象的统计规律性。(2)方法二:数理统计方法。其思想是从对随机现象的观测所得到的资料出发(在概率论的指导下)研究怎样去有效地收集、整理和分析带有

6、随机性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议。(3)概率统计分析方法建模的步骤:【Step1】:模型的选择与建立即确定总体的分布类型(分布函数或密度函数如二项分布、泊松分布、正态分布、 、t、F 分布等) 、回归函数等,其方法为绘制频2数直方图。【Step2】:描述性统计 数据的收集(全面观测、抽样观测和安排特定的实验(实验设计法、正交实验设计、回归设计、抽样检验) ) 数据的整理(数字特征和统计量,如均值、方差等)【Step3】:统计推断据总体模型和由样本描述分析,作出有关总体分布的某种论断,如残次品率为正态分布,常用参数估计和假设检验,或用统计软件

7、做概率值检验。【Step4】:统计预测预测随机变量在未来某个时刻的值,如预测一种产品在未来三年内市场的销售量,常用回归。【Step5】:统计决策就是依据所做的统计推断或预测,并考虑到行动的后果(一经济损失的形式表示) ,而指定的一种行动方案。【注意】:Step4 和 Step5 涉及内容包含:非参数统计、多元统计分析(相关、方差、聚类、判别、因子、主成分、多维标度法、多变量的图表示法、对应分析(列联表对应分析) ) 、序贯分析、时间序列分析和随机过程统计等。(4)熟悉几个重要的分布:二项分布、泊松分布、正态分布、 分布、t2分布、F 分布。在数学软件中包含很多概率分布,例如在 Matlab 的

8、统计工具箱(toolboxstats)中的概率分布共有 20 多种,有 norm-正态分布、chi2- 分布、t-t 分布、fF 分布等。工具箱对每一种分布都提供25 类函数,其命令字为:pdf-概率密度,cdf-概率分布,inv-逆概率分布,stat-均值与方差,rnd-随机数生成(可以通过 help pdf 等查询命令格式)3.2 建模中的实用概率统计方法简单地讲,统计的任务就是从样本推断总体。样本是统计研究的主要对象,对于一次具体的试验,样本是一组数据,但它的取值是随机的,从概率论的观点可以把样本当作随机变量,而且当每个个体都是从总体中独立抽取(即个体被抽取的结果互不影响)时,样本就是一

9、组相互独立、同分布的随机变量,当然总体也可以被视为随机变量,与样本同分布。例如,学校全体学生的身高为总体,其中 100 名学生的身高数据为样本,100 为样本容量。在实际问题的数学建模中,常用的统计方法有数据的统计描述和分析、统计推断、相关性分析、方差分析、回归分析、因子分析、主成分分析、聚类分析和判别分析等。3.2.1 数据的描述性统计针对一组杂乱无章的数据(即样本) ,描述性统计的步骤为: 初步整理和直观描述-作出频数表和直方图 进一步加工,提取有用信息-计算统计量统计量:用来进一步反映数据特征,它是加工出来的,反映样本数据特征的函数,它不含任何未知量,大致可以分三类: 表示位置的统计量-

10、样本均值、中位数、上下 1、4 分位点 表示变异程度的统计量-标准差、方差、极差 表示分布形状的统计量-偏度、峰度3.2.2 统计推断统计推断主要有参数估计和假设检验。 参数估计:点估计、均值的区间估计和方差的区间估计 假设检验:均值检验、方差检验【例】:学校学生的身高构成一个总体,通常认为身高是服从正态分布的(这就是问题的基本假定) ,从这群人中随机抽出 n 人,量得身2(,)N高为 (这就是观测数据) ,它受到随机性的影响。12,nx若要估计这群人的平均身高,即上述正态分布的均值 (这种估计就是一种推断形式,此处估计的对象是总体分布中的未知参数 ,故又称为参数估计) 。若感兴趣的问题是“平

11、均身高是否超过 1.7 米”就需要通过样本检验关于总体分布的命题“ ”是否成立?(这便是假设检验)1.73.2.3 相关性分析在现实问题中,常会遇到没有因果关系的变量 x 与 y(地位对称) ,比如:(1)一个家庭的月收入 x 与这个家庭的孩子数量 y;(2)一个人的身高 x与他的体重 y 等。这里 x 与 y 无因果关系,但它们之间却存在着一定的关系,如(2)中,一般来说个子高的人体重也大一些。因此,人们希望了解这些 x、y 之间关系究竟密切到了什么程度?这变需要统计意义下的相关。相关分析的步骤: 建立样本相关系数 ,这是衡量 x、y 之间关系密切程度的指标。xy12211()cov(,)(

12、)niiixynni ii iyx 主要任务:由 x、y 的一些观测值如 估计 及检验有关 的假(,)ixyxyxy设,如 (一般地,当 时,x、y 不相关;0:xyH0时,x、y 有正(负)相关) 。()xy【例】:从某大学中随机选择 10 名男生,的观测值如表 3。表 3 身高与体重观测值身高(x) 1.71 1.63 1.84 1.90 1.58 1.60 1.75 1.78 1.80 1.64体重(y) 65 63 70 75 60 55 64 69 65 58计算相关系数: ;0.91xy设(x,y)服从正态分布,考虑假设检验问题:H 0:x 与 y 线性不相关,取显著水平 ,查表得

13、.228 ()()0.5)3., .7650.91nn tttc所以拒绝 H0,即 x 与 y 的线性相关性高度显著,即格子高的人一般体重也要大些。3.2.4 方差分析在试验和实践中,影响试验或生产的因素往往很多,我们通常需要分析哪种因素对事情有显著影响,并希望知道起决定影响的因素在什么时候有着最有利的影响。可以分为:单因素多水平方差分析和多因素方差分析。【参见文件】:方差分析.doc3.2.5 回归分析回归分析是研究一个或多个随机变量 与另一些变量12,my之间的关系的统计方法。 “回归”一词首先被英国生物统计学家12,nx高尔顿(Galton)使用。应用回归模型可以进行因果关系分析、预测、

14、优化与控制等多种目的。回归分析分类: 一元回归分析:m=n=1;模型: 2(),(0,)yfxN: 多元回归分析:m=1,n=k1;模型: 21212(,),(0,)kpf N : 多重回归分析:m1,n1;模型: 11(,)mkpYFx 回归分析的方法与步骤: 选定回归函数; 对回归函数中的位置参数 进行估计(最小二乘方法) ;12,p 检验有关参数的假设(假设检验) ; 对 的影响估计; 建立回归方程进行预测和控制。3.2.6 主成分分析在实际问题中,经常需要对多个变量同时进行统计分析。变量个数多了,就不易看清变量之间的相互关系,会给统计分析带来困难。主成分分析的基本思想是:对原来多个变量

15、进行适当的组合,组合成一些综合指标,用较少的综合指标来近似代替原来的多个变量。这种由原来多个变量组合而成的综合指标,成为主成分。主要目的:降维。主成分选取的原则: 主成分是原变量的线性组合; 各个主成分之间互不相关; 如果原来有 m 个变量,则最多可以取到 m 个主成分,这 m 个主成分的变化可以完全反映原来全部 m 个变量的变化;如果选取的主成分少于 m 个,那么这些主成分的变化应该尽可能多地反映原来全部 m 个变量的变化。3.2.8 聚类分析【参见文件】:聚类分析.doc。3.2.9 判别分析判别分析是判别样品所属的类型的一种统计方法,广泛地应用与生成、科研和日常生活中。例如,一位病人肺部

16、有阴影,医生要判断他的病是肺结核、肺部良性肿瘤还是肺癌。这里,肺结核病人、肺部良性肿瘤病人和肺癌病人就组成了三个总体,判别的目的就是根据病人各种症状的指标(如阴影大小、阴影部位、是否有痰、是否有低烧)来判断他属于哪个总体(即判断他所患的病种) ;又如生物品种的鉴别、选矿中矿藏储量的贫富等,它们的共性是根据研究对象的一组标志值(通常为一组观测向量)来判断这个研究的个体来自哪个总体。判别分析的数学模型:设有 k 个总体 ,它们的分布函数分别是12,kG,每个 都是 m 维分布函数,对给定的一个样品12(),()kFyy ()iFyy,问 y 来自哪个母体?判别分析的基本思想:设要研究的对象可分为

17、p 类: 。任取一12,pA个样品,它属于第 i 类 的概率(先验概率)为 。iAi现在有 N 个分类已知的样品,其中属于 的样品分别有12,p个。对每一个样品,都可以得到 m 个变量的观测值,对于 N 个12,p分类已知的样品,共有 N 组、每组 m 个变量的观测值:,i=1,2,N。12(,)iimX现在要从这些分类已知的样品的观测值出发,构造出一种判别方法,对于任何一个分类未知的样品,只要知道它的 m 个变量的观测数据,就可以用这种判别方法,判别出它属于哪一类。数学方法: 距离判别法; Bayes 判别法; Fisher 判别法。【参见文件】:判断分析.doc4简单的灰色预测-GM(1,

18、1)预测数理统计分析方法的局限: 需要大量的数据 要求数据存在统计规律 要求统计规律是典型的(如正态分布、平稳过程) 计算工作量大 信息量不足,结论不直观华中理工大学邓聚龙教授于 1982 年在 Systems (1)(1)(1)2zx累减生成 IAGO: 。(1)(1)(1)(0)xkxkk【例】:已给原始数据列 。(0)5,3761-AGO: (1)5,82xZ: , (赋 )()6.z(1)0xIAGO: 还原。(1),376x注意:(1)一般地 ;(0) ()rAGOrIkxk (2)通过累加可能是离乱的数据中蕴含的积分特性或规律充分显露出来。4.2 简单的灰色预测-GM(1,1)预测

19、4.1 GM(1,1)模型(来自数学建模方法及其应用,韩中庚编著,高等教育出版社)(1)GM(1,1)定义设 , 的 1-AGO 生成数列为(0)()(0)(0)1,2,xxn (0)x,则定义 的灰导数为(1)()()(), (1)(0)()(1)dkxkx令 为数列 的均值数列,即(1)z(1)x()(1)(1)0.5.,23,zkxkkn则 ,于是定义 GM(1,1)的灰微分方程模型为(1)()(1)()2,3,zn (1)dkazb即(4-1)(0)(1)xz其中 称为灰导数,a 称为发展系数, 称为白化背景值,b 称为灰(0)xk ()k作用量。将时刻 k=2,3,n 代入(4-1)

20、,有(0)(1)(0)(1)23xazbxnz 令 ,称 为数据向量,B 为数据矩阵,(0) 1()(1)(0)2233,NxzaYuBbznxn NYu 为参数向量,则 GM(1,1)可以表示为矩阵方程 NYu上述模型参数 u 的确定方法方法:最小二乘法。(2)GM(1,1)的白化型对于 GM(1,1)的灰微分方程(4-1),如果将 的时刻 k=2,3,n 视为(0)xk连续的变量 t,则数列 就可以视为时间 t 的函数,记为 ,并(1)x (1)()xt让灰导数 对应于导数 ,背景值 对应于 。于是得到(0)xk()dt(1)zk(1)tGM(1,1)的灰微分方程对应的白微分方程为(4-2

21、)(1)()dxatbt称之为 GM(1,1)的白化型。【注意】:1) GM(1,1)的白化型本身以及一切从白化型推导出来的结果,只是在不与定义有矛盾的情况下成立,否则无意义;2)GM(1,1)的白化型是一个真正的微分方程,如果白化型模型精确度高,则表明所用数列建立的模型 GM(1,1)与真正的微分方程模型吻合较好。4.2 灰色预测的方法灰色预测是指利用 GM 模型对系统行为特征的发展变化规律进行估计预测,同时也可以对行为特征的异常情况发生的时刻进行估计计算,以及对在特定时区内发生事件的未来时间分布情况做出研究等。它具有广泛的应用。设已知数据列为 ,做 1-AGO 生成数列(0)()(0)(0

22、)1,2,xxn,(1)()(1)(1),2,xxn并求出均值数列 (1)(1)(1)0.5.,23,zkkk于是建立灰微分方程 (0)(1)xazb相应的白化微分方程为 (1)()dxtt求解得到(4-3)(1)(0)1,12,akbxkxen4.3 灰色预测的步骤【Step1】:数据的检验与处理首先,为了保证建模方法的可行性,需要对已知数据列做必要的检验处理。设参考数据为 ,计算数列的级比(0)()(0)(0)1,2,xxn ()01,23,kn如果所有的级比 都落在可容覆盖 内,则数列 可以作()k1(,)nXe(0)x为模型 GM(1,1)和进行数据灰色预测;否则,需要对数列 做必要的

23、变换出来,(0x使其落入可容覆盖内。即取适当的常数 c,作平移变换(0)(0)ykx则使数列 的级比(0)()(0)()1,2,yn (0)1,23,ykXn【Step2】:建立模型 GM(1,1)按照灰色预测方法建立模型 GM(1,1),则可以得到预测值(1)(0)1,12,akbxkxen而且 (0)(1)(1),21knxkxk,【Step3】:检验预测值(1)残差检验:计算残差 (0)(0),12,xkkn如果 ,则可以认为达到一般要求;如果 ,则认为达到较()0.2k ()0.高的要求。(2)级比偏差值检验:首先由参考数据计算级比偏差 ,再由(0)01,2,3xkn发展系数 a,求出相应的级比偏差 01.5()()akk如果 ,则可认为达到一般要求;如果 ,则可认为达到较0.2()0.1k高要求。【Step4】:预测预报由模型 GM(1,1)所得到的指定时区内的预测值,实际问题的需要,给出相应的预测预报。

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报