1、建 模 中 的 统 计 方 法,10年数学建模暑期培训选讲,主讲 彭志捌,参考文献:,1.数学建模方法及其应用解放军信息工 程大学 韩中庚 编著 高等教育出版社,2.数学建模案例精编吴建国 主编 中国水利水电出版社,3.现代数学建模方法王庚 王敏生著 科学出版社,内容要点:,一、几个案例 二、实用的统计方法 三、几种特殊方法 四、常用的统计软件 五、实例分析,案例一:本科生就业影响因素分析,据有关统计表明,具有大学以上学历者占中国全部劳动者的比例非常 低,中国的高等教育也正在处于“精英教育”向大众化的高等教育过渡阶段。社 会对于高学历人才的总体需求大于毕业生的总人数,但最近几年大学毕业生找 工
2、作却有越来越难的趋势。特别自1999年起,中国高校连年大幅扩招。其中, 2000年扩招60.9万人,增幅38.16%;2001年扩招29.4万人,增幅13.3%。目前 中国在校大学生已突破1350万人,这种大力度推进高校扩招的方式对于中国在 21世纪实施人才战略,建设现代化强国,具有极为重要的意义,但随着大幅扩 招,也产生了教育质量滑坡以及就业形式严峻等问题。根据问卷调查的数据,对各种影响因素进行描述,频数分析,并分析影 响就业的显著因素,建立数学模型并给出一些相关的建议,为同学们以后就业 提供一定的参考。,案例二:中国35个主要城市购房能力比较分析,现在,房价越来越成为人们的一个中心议题,上
3、至中央领 导,下至普通民众,可以说,人人谈房价,而住房作为拉动我国 经济的三驾马车之一,对国民经济的作用更是举足轻重。房子, 无论对国家还是个人,其重要性不言而喻,它牵动着绝大多数中 国人的神经,我们中大多数人也面临购房压力。但是,由于中国 幅员辽阔,在各地区由于经济发展水平低于差距等种种因素,各 地区房价不尽相同。根据所给的资料,分析: 各地房价是否合理?各地区之间的居民购房能力有无明显差异? 若有差异,哪些地区购房能力相对较强,哪些地区购房能力相对 较弱?如何建立适当的数学模型进行描述?,案例三:中国35个主要城市经济效益分析,根据35个主要城市某年关于年底总人口、地区生产总值(GDP)、
4、 工业总产值、客运总量、货运总量、地方财政预算内收入、固定 资产投资总额、城乡居民储蓄年末余额、在岗职工平均人数、在 岗职工工资总额10个指标的数据,以期对这些城市的经济效益进 行横向和纵向的比较,找出它们之间的差别并分析原因,同时针 对个别城市分析其自身经济效益的发展趋势。,建模方法,运筹优化,概率方法,统计方法,微分方程,随机分析,数学规划,建模方法,实用的统计方法,数据的描述性统计,统计推断,相关分析,方差分析,回归分析,因子分析,聚类分析,数据的描述性统计,在对数据进行深入加工之前,总应该对数据有所印 象。,可以借助于图形和简单的运算,来了解数据的一些 特征。,由于数据是从总体中产生的
5、,其特征也反映了总体 的特征。对数据的描述也是对其总体的一个近似的 描述。,数据的描述性统计,初步整理和直观描述(频数表和直方图),进一步加工、提取有用信息(计算统计量),位置的统计量:均值和中位数,变异程度的统计量:标准差、方差、极差,分布形态的统计量:偏度、峰度,公交车调度方案的优化模型(2001)文献【2,p6】,对模型I的描述 性分析,通过直方图,得出上行、下行各时间段最大客容量的双峰直 方图,对各时间段的车次给出了一个初步的调度方案。,数据的描述性统计,分布形态的统计量:偏度(skewness)、峰度(kurtosis),偏度:RV标准化的三阶中心距。反映分布的对称性,峰度:随机变量
6、标准化的四阶中心距。,0,右偏态,此时数据位于均值右边的比位于左边多,3,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,偏度为:-1.233,0.左偏态,说明数据位于均值左边的比位于右边多峰度为1.009,3. 细尾分布,92年施肥方案数据分析:,数据的描述性统计,数据的探索性分析,数据的概率分布,三大分布及他们之间的关系。,统计推断,假设检验,参数估计,点估计(估计方法及评判的标准),区间估计,相关分析,但是仅仅有满意顾客的比例是不够的;商家希望了解 什么是影响顾客观点的因素,及这些因素如何起作用,对于现实世界,不仅要知其然,而且要知其所以然。 顾客对商品和服务的反映对于企业是至关
7、重要的,,类似地,医疗卫生部门不能仅仅知道某流行病的发病 率,而且想知道什么变量影响发病率,以及如何影响。,目前的问题是:,如何相关(相关程度多大)?,如何度量他们的相关性?,如何判断这些因素(变量)是否相关?,相关分析,Pearson 相关系数:,Pearson 相关矩阵:,做散点图 初步判断两个变量间是否存在相关趋势,是否为直线趋势,以及数据中是否存在异常点 计算相关系数 R0正相关,R0负相关 R的绝对值越接近1,表示两个变量愈接近线性关系,R绝对值等于1时,两者为完全线性关系 R的绝对值越接近0,表示两个变量愈没有线性关系,R绝对值等于0时,两者为完全没有线性关系 R的绝对值大于0.8
8、时,视为高度相关 R的绝对值介于0.5-0.8时,视为中度相关 R的绝对值小于0.3时,视为不相关,处理方法:,“深发展”和“四川长虹”在中国股市上像一对孪生姐妹,它们的发 展表现出同升、同降的现象。它们是否具有一定的内在联系?如 果存在内在联系,那么根据任一股票的变化能否判断另一股票的 变动趋势?由于两者都是龙头股,根据它们的变动进而能否对大 盘的变动做出推测? X1:“深发展”日收盘价 X2: “四川长虹”日收盘价 X3:“深证指数”日收盘价 X4:“上证指数”日收盘价 分析要求: (1)探求个股与个股、个股与大盘间是否有典型的相关关系 (2)如果有,它们是否服从某种模型? (3)更进一步
9、,如果服从某种模型,能否根据这种模型做一些预测用于支持投资决策?,案例分析:股票分析,“深发展”与深证指数的散点图,“四川长虹”与上证指数的散点图,“深发展”与深证指数的相关系数,“四川长虹”与上证指数的相关系数,相关系数矩阵,“深发展”与“四川长虹”的相关系数,方差分析,单因素方差分析,多因素方差分析,单因素方差分析,一、单因素方差分析的基本思想,单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。主要解决多于两个总体样本或变量间均值的比较问题。是一种对多个总体样本的均值是否存在显著差异的检验方法。,二、应用的条件,服从方差分析的三个假设:1、观测变量各总体服从正态分布
10、。2、观测变量各总体的方差相同。3、观测变量各总体独立的。,三、数学模型,总离差平方和及组内、组间离差平方和,令:总离差平方和:组间离差平方和:组内离差平方和:SST=SSA+SSE,四、基本步骤,五、结果解释,step1:明确观测变量和控制变量。step2:剖析观测变量的方差。step3:通过比较观测变量总离差平方和各部分所占的比例, 推断控制变量是否给观测变量带来了显著影响。,在观测变量总离差平方和中,如果组间离差平方所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方所占比例较小,则说明观测变量的变动
11、不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。,某企业在制定某商品的广告策略时,收集了该商品在不 同地区采用不同广告形式促销后的销售额数据,希望对 广告形式和地区是否对商品销售额产生影响进行分析。,案例分析:广告形式、地区对销售额的影响,F值较大,F值的相伴概率小于或等于用户给定的显著性水平a,则拒绝H0,认为不同水平下各总体均值有显著差异;,F值较小,F值的相伴概率大于用户给定的显著性水平a,则不能拒绝H0,可以认为不同水平下各总体均值无显著差异.,广告形式对销售额的单因素方差分析结果,可以看到:观
12、测变量销售额的离差平方总和为26169.306;如果仅考虑广告形式单个因素的影响,则销售额总变差中,不同广告形式可解释的变差为5866.083,抽样误差引起的变差为20303.222,它们的方差分别为1955.361和145.023,相除所得的F统计量的观测值为13.43,对应的概率P值近似为0。如果显著水平为0.05,由于P值0,则应拒绝原假设,认为不同广告形式销售额产生了显著影响,不同广告形式对销售额的影响效应不全为0。,地区对销售额的单因素方差分析结果,可以看到:观测变量销售额的离差平方总和为26169.306;如果仅考虑地区单个因素的影响,则销售额总变差中,不同地区可解释的变差为926
13、5.306,抽样误差引起的变差为16904.0,它们的方差分别为545.018和134.159,相除所得的F统计量的观测值为4.062,对应的概率P值近似为0。如果显著水平为0.05,由于P值0.05,则应拒绝原假设,认为不同地区销售额产生了显著影响,不同地区对销售额的影响效应不全为0。,作为华夏儿女曾为有着五千年的文化历史而骄傲过,作 为时代青年曾为中国所饱受的欺辱而愤慨过,因为我们 都是炎黄子孙。然而,当代大学生对华夏文明究竟知道 多少呢?针对在校大学生对中国传统文化的了解程度的 调查结果,分析如下问题: (1)不同专业、年级以及性别对传统文化了解有无差异; (2)找出对传统文化影响的因素
14、,并建立适当的数学模型进行描述?,案例分析:大学生对中国传统文化了解程度分析,原因分析: 从大三到大四稍微有上升的趋势,是由于大四为了就业和考研的需要,尽可能多的丰富自己的知识面。 大一总体的均值最高,是因为刚经历高考,对高中所学知识印象比较深刻。 研究生注重学术研究,忽略了人文素质的培养,导致研究生的成绩普遍低下。,电视媒体对传统文化知识的单因素方差分析结果,网络对传统文化知识的单因素方差分析结果,书本对传统文化知识的单因素方差分析结果,结论:通过对电视媒体、网络、以及书本对传统文化知识获得的单因素方差分析,结果表明传统文化知识多数来自书本。网络、电视媒体没有尽到弘扬中华文明的责任。,两类变
15、量关系,确定性关系 :确定的函数关系,相关关系(不确定性关系) :存在相依关系,但未达到相互确定的程度.,不确定性关系,在社会经济与管理中存在更为普遍,例如:商品的销售量与人口的关系、商品销售量与广告费之间的关系、收入与受教育程度之间的关系,他们之间存在着明显的相关关系。,回归分析,回归分析,回归分析:是研究随机变量之间的相关关系的一种统计方法。主要包括:,一元线性回归,多元线性回归,非线性回归,逐步回归,Logistic 回归,这里, 称为偏回归系数。,回归分析的数学模型:,从1978年改革开放以来,中国国民经济一直保持着较高的增长 速度,人民生活水平大幅提高。但近年来由于全球竞争加剧,中国
16、 对外开放程度的加深,国民经济的发展面临着很大的挑战。财政收入水平的高低是反映一国经济实力的重要标志。在一定 时期内,财政收入规模大小受许多因素的影响,如国民生产总值大 小、进出口额、社会从业人员数多少、税收规模大小、税率高低因 素等。 分析要求: (1)分析影响财政收入的有哪些因素,对财政收入影响最大的又是哪些因素。 (2)分析各因素对财政收入的影响程度,说明各个影响因素重要程度不同的原因。 (3)对五各省市的财政收入作单独考察,分析影响各省市财政收入的影响因素。,案例分析:财政收入决定因素分析,财政收入与税收的关系,财政收入与GNP的关系,全国财政收入回归模型的建立,财政收入与进出口额的关
17、系,财政收入与从业人数的关系,建立多元回归模型,四元线性回归模型,结论:从模型上可以看出 (1)其他收入对财政收入增长的直接作用最大,税收形成的作用次之。国民生产总值的作用微弱。 (2)从业人数与财政收入呈负相关关系,说明随着从业人员人数的增多,并没有相应的明显增加财政收入。它实际反映了人均劳动生产率较低,潜在失业现象较为严重,生产方式多为劳动密集型,且劳动者整体素质不高。这与我国实际的就业状况比较吻合。,各地区财政收入多元回归分析(北京市),财政收入与从业人数的散点图(北京市),财政收入与从业人数的散点图(全国),变量剔除后两模型比较分析,主成分分析与因子分析,主成分分析主要是一种降维的思想
18、。原先有几个变量,最多有几个主成分。,因子分析的基本目的在于:用少数几个随机变量刻画较多变量之间的协方差关系。这少数的随机变量是不可观测的,人们称之为“因子(factor)”。,基本思路是:根据相关性大小将变量分组,使得组内的变量之间具有较高的相关性,不同组内的变量之间相关性较低 。,因子分析,而因子分析是事先确定要找几个成分,或叫因子(factor)(比如两个),那就找两个。,主成分分析与因子分析的公式上的区别,主成分分析,因子分析(mp),因子得分,的pp矩阵. 而对于观测值X=(x1, xp), 其中xi =(x1i, xni), i=1,p, 的样本相关阵第(ij)-元素为,X=(X1
19、, Xp)的相关阵为第(ij)-元素为,的pp矩阵,其中sij为第i和第j观测的样本相关系数,关于特征值和特征向量 特征方程|R-lI|=0的解为特征值l, 这里B为一个p维正定方阵. l通常有p个根l1 l2 lp. 满足(R-liI)xi=0的向量xi为li的特征向量. 对任意向量a有性质,前m个主成分的累积贡献率:,这里R为X的样本相关阵,第i个特征值 li=aiRai=V(aix); ai为第i个特征向量. Cov(aix,ajx)=0.,这里aij为第i个特征向量的第j个分量;第i个主成分的载荷平方和为该主成分的方差,等于其特征值li.所选的m个主成分对变量xj的总方差贡献为,主成分
20、负荷(载荷,loading):Yi与Xj的相关系数:,因子分析数学模型,矩阵表示为:,设有n个样本,每个样本由p个指标 来描述,且每个指标都已标准化即每个指标的样本均值为零 ,方差为1。正交因子模型为:,mi=变量i的均值 ei=第i个特殊因子 Fi=第i个公共因子 aij=第i个变量在第j个因子上的载荷 不能观测的值满足下列条件: F和e独立 E(F)=0, Cov(F)=I E(e)=0, Cov(e)=Y, Y是对角矩阵,,,正交因子模型: X-m=AF+e,F为公共因子向量, 每个公共因子(如Fi)是对模型中每个变量都起作用的因子; 而e为特殊因子向量, 每个特殊因子(如ei)只对一个
21、变量(第i个)起作用.,因子分析的方法在于估计S=AA+Y和Y, 再分解以得到A.,X的协方差阵S可以分解成,这里l1 l2 lp为S的特征值;而e1,ep为相应的特征向量(e1,ep为主成分的系数, 因此称为主成分法). 上面分解总是取和数的重要的头几项来近似.,X的协方差阵S可以近似为(如Y忽略),如Y不忽略, S可以近似为,应用中, S可以用样本相关阵R代替.,正交模型X=m+AF+e的协方差结构 根据前面模型,可得出下面结果:,上面sii2= Sjaij2 + yi2中, Sjaij2称为共性方差(公共方差或变量共同度common variance, communalities),而y
22、i2称为特殊方差.变量共同度刻画全部公共因子对变量Xi的总方差所做的贡献.,的统计意义就是第i个变量与第j个公共因子的相关系数, 表示Xi依赖Fj的份量,这里eij是相应于特征值li的特征向量ei的第j个分量. 因子载荷阵中各列元素的平方和Sj= Siaij2称为公共因子Fj对X诸变量的方差贡献之总和,因子载荷,令T为任意m正交方阵(TT=TT=I), 则 X-m=AF+e= ATTF+e=A*F * +e, 这里 A*= AT, F * = TF. 因此 S=AA+Y=ATTA+Y=(A*)(A*)+Y 因此, 因子载荷A只由一个正交阵T决定. 载荷A*= AT与A都给出同一个表示. 由AA
23、= (A*)(A*)对角元给出的共性方差, 也不因T的选择而改变.,正交变换T相当于刚体旋转(或反射), 因子载荷A的正交变换AT称为因子旋转 估计的协方差阵或相关阵, 残差阵, 特殊方差及共性方差都不随旋转而变. 这里“残差阵”为协方差阵或相关阵与估计的AA+Y之差.,因子旋转的一个准则为最大方差准则. 它使旋转后的因子载荷的总方差达到最大. 如,即要选变换T使下式最大(计算机循环算法),需要由X=AF变成F=bX. 或 Fj=bj1X1+ bjpXp j=1,m, 称为因子得分(函数). 这通常用加权最小二乘法或回归法等来求得.,总结 模型X=m+AF+e因子分析的步骤1根据问题选取原始变
24、量; 2求其相关阵R,探讨其相关性; 3从R求解初始公共因子F及因子载荷矩阵A(主成分法或最大似然法) 4因子旋转; 5由X=AF到F=bX(因子得分函数) 6根据因子得分值进行进一步分析.,例题分析以02级信息与计算科学专业45名毕业生的22门课的考试成绩为基本资料,对学生的成绩进行因子分析. 原始数据来自02信息与计算科学学生的学籍管理档案(注:此处没有考虑每门课程的教学时数;考查课的成绩根据正态分布曲线下的面积应用进行了标准化,英语三个学期的成绩之和记为英语成绩;体育成绩取第一学期的成绩;不及格的科目按第一次考试成绩计算)。,表2:检验结果,表2给出了KMO检验和巴特利特球形检验的结果。
25、其 中KMO统计量为0.874接近于1,说明变量间的相关性 极强,因子分析的效果非常好。巴特利特球形检验给 出的相伴概率为0.000小于显著性水平0.05因此拒绝零 假设,认为适合于因子分析。,巴特利特微球度检验以原有变量相关系数矩阵为出发点,其原假设是:相关系数矩阵是单位阵,即相关系数矩阵为对角阵且主对角元素均为1。 巴特利特球度检验的检验统计量根据相关系数矩阵的行列式计算得到,且近似服从卡方分布。如果该统计量的观测值比较大,且对应的概率p-值小于给定的显著性水平,则应拒绝原假设,认为相关系数矩阵不太可能是单位阵,原有变量适合作因子分析;反之,如果检验统计量的观测值比较小且对应的概率p-值大
26、于给定的显著性水平,则不能拒绝原假设,可以认为相关系数矩阵与单位阵无显著差别,原有变量不适合做因子分析。,巴特利(Bartlett)系数,KMO检验统计量是用于比较变量间简单相关系数和偏相关系数的指标,数学定义为:KMO的统计量取值在01之间。当所有变量间的简单相 关系数平方和远远大于偏相关系数平方和时,KMO值接 近1。KMO值越接近1,意味着变量间的相关性越强,原 有变量越适合作因子分析;当所有变量的简单相关系数平 方和越接近0时,KMO值越接近0,KMO值越接近于0,意 味着变量间的相关性越弱,原有变量越不适合作因子分 析。Kaiser 给出了常用的KMO度量标准;0.9以上表示非 常适
27、合;0.8表示适合;0.7表示一般;0.6表示不太适合; 0.5以下表示极不适合。,第一因子变量中数学分析1、数学分析2,高等代 数1、高等代数2、空间解析几何都有较大的载荷,这 些课程大部分是专业基础课,因此第一因子可以定义 为数学专业基础理论因子。在第一因子变量各科载荷 中,数学分析和高等代数较大,说明数学分析和高等 代数对第一因子变量的影响较大。,第二因子变量中C语言程序设计,数据结构与算 法,离散数学都有较大的载荷,这些课程大部分 是计算机专业基础因子。,第三因子变量中概率论与数理统计,复变函数,常微分 方程,哲学原理,运筹学都有较大的载荷,这些大部分 是三年级开设的数学专业课程,因此
28、我们把第三因子变 量定义为数学专业能力因子。(为什么会有哲学原理 呢?因为哲学原理有很强的逻辑相关性,这正好与数学 专业的培养学生逻辑思维能力相吻合)。,第四因子变量中数字信号处理,数字图像处理,面向对 象的程序设计都有较大的载荷,这些课程都是大学三年 级开设的是在计算机基础理论的前提下应用计算机基础 理论解决实际问题的课程,反映了学生解决实际问题的 能力水平,因此定义为计算机能力因子。,第五个因子变量中体育基本上占了全部载荷,这正好和 我们说的德智体全面发展相结合,说明体育也是很重要 的,定义为体育因子。,第六因子变量中大学英语载荷最大,达到了0.825说明英 语在大学生的学习中地位非常重要
29、,定义为英语素质因 子。,第七因子变量中毛泽东思想概论和邓小平理论概论思想 道德教育都有很大的载荷,定义为思想理论素质因子, 这几门课程是学习其它课程的理论指导学科,不论大学 生以后从事哪方面的工作都离不开毛泽东邓小平理论指 导,思想道德理论基础又为大学生的思想素质打下了坚 实的基础。,表6:因子转换矩阵,因子分析和主成分分析的一些注意事项:,可以看出,因子分析和主成分分析都依赖于原始变量, 也只能反映原始变量的信息。所以原始变量的选择很重 要。,另外,如果原始变量都本质上独立,那么降维就可能失 败,这是因为很难把很多独立变量用少数综合的变量概 括。数据越相关,降维效果就越好。,在得到分析的结
30、果时,并不一定会都得到如我们例子那 样清楚的结果。这与问题的性质,选取的原始变量以及 数据的质量等都有关系,应用因子分析法进行分析的步骤如下: 1、根据研究问题选取原始变量; 2、对原始变量进行标准化并求其相关矩阵,分析变量之间的相关性; 3、求解初始公共因子及因子载荷矩阵; 4、因子旋转; 5、因子得分; 6、根据因子得分进行进一步分析,聚类分析,案例分析:中国35个主要城市经济效益分析,根据35个主要城市某年关于年底总人口、地区生产总值(GDP)、 工业总产值、客运总量、货运总量、地方财政预算内收入、固定 资产投资总额、城乡居民储蓄年末余额、在岗职工平均人数、在 岗职工工资总额10个指标的
31、数据,以期对这些城市的经济效益进 行横向和纵向的比较,找出它们之间的差别并分析原因,同时针 对个别城市分析其自身经济效益的发展趋势。,数据来源:中国城市统计年鉴,聚类分析,聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的亲疏程度进行分类。距离的种类很多,其中欧式距离在聚类分析中用得最广,它的表达式如下:其中Xik表示第i个样品的第k个指标的观测值,Xjk表示第j个样品的第k个指标的观测值,dij为第i个样品与第j个样品之间的欧氏距离。若dij越小,那么第i与j两个样品之间的性质就越接近。性质接近的样品就可以划为一类。,当确定了样品之间的距离之后,就要对样品进行分类。分
32、类的方法很多,有系统聚类法、模糊聚类法、有序样品聚类法等。主要研究系统聚类法,它是聚类分析中应用最广泛的一种方法。首先将n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。 应用系统聚类法进行聚类分析的步骤如下: 确定待分类的样品的指标; 收集数据; 对数据进行变换处理(如标准化或规格化); 使各个样品自成一类,即n个样品一共有n类; 计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类; 并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至
33、所有样品归为一类为止; 最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。,几种特殊方法,时间序列分析方法,神经网络方法,灰色预测方法,常用统计软件简介SAS 真正的巨无霸。被誉为国际上的标准统计软件和最权威的组合式优秀统计软件。人机对话界面太不友好1、图形操作界面比较糟糕2、一切围绕编程设计学习起来较困难(编程)说明书非常难懂价格贵的人直跳,常用统计软件简介,S-Plus(Ver6),S语言(AT&T贝尔实验室)的后续发展,极为强大的统计功能和绘图能力,应用上以理论研究、统计建模为主,需要有较好的数理统计背景,对编程能力要求极高,常用统计软件简介,Stata (V
34、er7),软件小巧,绘图美观,统计分析能力极强,数据接口差,不提供对话框界面,命令行方式操作,E-Views,使计量经济学得到长足进步,可以对时间序列 和非时间序列(截面)数据进行分析,常用统计软件简介,SPSS (Ver12) -统计软件中的贵族,操作界面极为友好,所有统计软件中最友好的,精心设计的图形操作界面,美观的结果输出,输出结果与中文WORD尚存在一定兼容问题,在国内深受欢迎,特别是市场调研行业,问题陈述:,实例分析-施肥方案对作物、蔬菜的影响,数据整理:,问题重述:,假设:,原始数据与标准化后的数据(以土豆为例),模型的建立与分析:,原始数据与标准化后的数据(以生菜为例),(3)对所收集的数据利用主成分分析,提取4个主成分,并建立回 归分析模型,对财政收入进行预测。,作业:财政收入预测模型,要求: (1)分析影响财政收入有哪些因素,并收集相关数据。,(2)对所收集的数据,利用回归分析,建立财政收入的预测模型 ,并分析各因素对财政收入的影响程度,说明各个影响因素重要程 度不同的原因。,(4)利用时间序列分析方法建立预测模型(只考虑税收序列)。,(5)利用主成分BP神经网络分析方法建立预测模型(结合问题3)。 并与问题2,3,4所建立的模型进行比较。,数据收集:国家统计局网站,