数据挖掘实验报告(参考).doc-道客多多

资源描述

1、时间序列的模型法和数据挖掘两种方法比较分析研究实验目的: 通过实验能对时间序列的模型法和数据挖掘两种方法的原理和优缺点有更清楚的认识和比较.实验内容: 选用 1952-2006 年的中国 GDP,分别对之用自回归移动平均模型(ARIMA) 和时序模型的数据挖掘方法进行分析和预测,并对两种方法的趋势和预测结果进行比较并给出解释.实验数据: 本文研究选用 1952-2006 年的中国 GDP，其资料如下日期国内生产总值(亿元) 日期国内生产总值(亿元)2006-12-31 209407 1997-12-31 747722005-12-31 183085 1996-12-31 68593.82

2、004-12-31 136515 1995-12-31 58478.12003-12-31 116898.4 1994-12-31 45005.82002-12-31 105172.3 1993-12-31 34634.42001-12-31 97314.8 1992-12-31 26638.12000-12-31 89404 1991-12-31 21617.81999-12-31 82054 1990-12-31 18547.91998-12-31 79553 1989-12-31 16909.21988-12-31 14928.3 1969-12-31 1937.91987-12-31

3、11962.5 1968-12-31 1723.11986-12-31 10202.2 1967-12-31 1773.91985-12-31 8964.4 1966-12-31 18681984-12-31 7171 1965-12-31 1716.11983-12-31 5934.5 1964-12-31 14541982-12-31 5294.7 1963-12-31 1233.31981-12-31 4862.4 1962-12-31 1149.31980-12-31 4517.8 1961-12-31 12201979-12-31 4038.2 1960-12-31 14571978

4、-12-31 3624.1 1959-12-31 14391977-12-31 3201.9 1958-12-31 13071976-12-31 2943.7 1957-12-31 10681975-12-31 2997.3 1956-12-31 10281974-12-31 2789.9 1955-12-31 9101973-12-31 2720.9 1954-12-31 8591972-12-31 2518.1 1953-12-31 8241971-12-31 2426.4 1952-12-31 6791970-12-31 2252.7表一国内生产总值（GDP）是指一个国家或地区所有常住单

5、位在一定时期内生产活动的最终成果。这个指标把国民经济全部活动的产出成果概括在一个极为简明的统计数字之中为评价和衡量国家经济状况、经济增长趋势及社会财富的经济表现提供了一个最为综合的尺度，可以说，它是影响经济生活乃至社会生活的最重要的经济指标。对其进行的分析预测具有重要的理论与现实意义。实验步骤: 1. 选用 1952 年到 2001 年这 50 个数据参与自回归移动平均模型 (ARIMA)建模( 所用的工具是 Eviews). 根据博克斯-詹金斯提出的建模思想,具体步骤为: (1) 对原序列进行平稳性检验。在以年份为横轴，以山东省 GDP 为纵轴的坐标系中作曲线图如图 1 所示。图一从图 1

6、中可以看出全国的 GDP 不具有明显的周期变化和季节波动，但呈现出明显的增长趋势，他的相关系数和偏相关系数如图二所示图二从图二中可以看到，他的自相关系数是拖尾的，而偏相关系数是截尾的。对样本数据用ADF 进行单位根检验的到结果如图三图三这里 ADF 值大于三个不同检验水平下的临界值，故而可以判断出，我国 GDP 序列是非平稳的。这就需要对 GDP 序列进行差分以使序列变得平稳。由图一可以看出，GDP 序列明显带有指数性质，因此现对该序列进行对数变换在 eviews 中输入 genr lngdp=ln(gdp)生成新的序列 lngdp，并对新序列进行平稳性检验。 Lngdp 的相关系数和偏相关系

7、数如图四所示，图四对 lngdp 用 ADF 进行单位根检验的结果如图五图五这里 lngdp 的 ADF 变成了 1.251，依然大于三种不同检验水平下的临界值。从中可以看出，对 GDP 序列进行对数处理后，序列 lngdp 序列依然不平稳。需要再对 lngdp 序列进行差分处理。在 eviews 中输入 genr dlngdp=d(lngdp)生成新序列 dlngdp。并对 dlngdp 进行平稳性分析。其自相关系数和偏自相关系数如图六所示图六其 ADF 检验如图六图六这是 ADF 值为 -3.87 小于在 1%校验水平下的临界值，即可以得出 dlngdp 序列为平稳序列的结论。(2) 通过

8、计算能够描述序列特征的一些统计量（如自相关系数或非自相关系数），来确定ARMA 模型的结束 p 和 q，并初始计算时选择尽可能少的参数。从 dlngdp 序列的自相关系数和偏自相关系数图中可以看出，该序列可以用 ARMA 模型来表示，且由于自相关系数与偏自相关系数都是一阶截尾的，故取 p=1，q=1，采用 ARIMA（1，1）模型。第三步，估计模型的未知参数，并检验参数的显著性，以及模型本身的合理性。在 eviews中输入 ls dlngdp c AR(1) MA(1)得到结构如图七所示图七从图中可以看出，估计出的方程模型 C 值，AR(1)值的可信度较高，而 MA(1)的估计值可信度相对低

9、一些。总体方程具有很高的可信度。对模型进行残差序列分析得到如图八所示图八最右侧 Probe 列中的数字表示相应自由度条件下卡方统计量取值大于相应 Q 值的概率。因为这一列概率值都大于 0.05，说明模型的随机误差序列是一个白噪声序列。模型均值及自相关系数的估计都通过显著性检验，模型本身也通过了残差自相关检验。因此模型可以用来预测。则，该方程的表达式为： 110.358.03.24tt ttra2 用时序算法的数据挖掘方法对数据进行挖掘(选取 1952-2001 年的数据), 得到趋势图.具体步骤为:(1) 创建数据仓库(2)创建数据源和数据视图,搭建挖掘环境(3) 对已经建立的数据仓库进行数据

10、挖掘.在”选择数据挖掘技术” 选择时序模型,在定型数据时,输入和可预测都选择 GDP(4) 得到挖掘结果.切换到”挖掘模型查看器”选项卡,得到挖掘结果.图九 4.用两种方法的结论进行预测根据 ARIMA 估算出的方程进行预测 2000-2008 得到年度实际GDP 预测GDP 误差2000 89404.00 87226.06 2.43606552001 97314.80 97603.14 0.2962961442002 105172.3 107257.4 1.9825562432003 116898.4 116314.4 0.4995791222004 136515.0 129441.1 5

11、.1817748972005 183085.0 151228.8 17.399677752006 209407.0 202850.0 3.131222932007 NA 232026.7 2.4360655表二其预测值与实际值的拟合曲线如图十图十数据挖掘的方法只能预测到紧接着一年即 2002 年的 GDP,值为:106113.85实验结果: 从图十的拟合曲线来看，随着预测期的延长，模型法的到误差可能会出现逐渐增大的情况。用数据挖掘的方法预测到 2002 年 GDP 值为 106113.85,比较表二,可知数据挖掘的方法较模型法更准确一些.实验结论:(1) 两种方法的思路和操作程序有很大不同.前者是一种传统的建模方法,理论基础很强;后者更多的是一种模式识别,操作更简单(2) 虽然由预测结果可知,后者似乎更准确,可是由于后者只能预测一年的数据,且前者所用的自回归移动平均模型(ARIMA)本身并不能很好适用于该问题的研究.因此我们不能妄下结论,认为数据挖掘的方法更好一些.事实上,模型法已被广泛使用,而数据挖掘的方法正处在不断发展和完善的过程中,有待进一步研究.

展开阅读全文