1、1垃圾减量分类活动中社会及个体因素的量化分析摘要问题一要求构建量化模型描述深圳天景花园、阳光家园垃圾减量分类过程,同时对模型提出了在后续的进一步研究过程中通过调整相关系数来修正模型。将题中所给的很多指标进行合理选取,首先进行主成分分析,得出政府教育支出和深圳市发展水平两项之和所占比例达到 98.672%。所以提取主成分,即 =2。通过计算得到的特征向量和标准化数据计算出主成分分析表达式,进而m得出主成分综合模型。为了提高所建立的模型精准度,使用多元回归分析进行建模。对指标建立多元线性回归模型,通过观察各曲线大致呈线性关系。再经过假设检验,所得的 p=0.00030.05,说明因变量与自变量之间
2、存在着显著的线性关系,原模型假设成立,由此建立模型。问题二要求分析试点小区四类垃圾组分本身的数量存在的相关性与各项激励措施与减量分类效果存在的相关性。为了检验四类垃圾分类的相关性,首先检验各类垃圾数量的方差效果,是否存在波动性。对部分数据进行剔除,得到的五条曲线已经基本处于平稳状态,可以对数据进行相关性分析。通过相关性分析得到垃圾总量和有害垃圾与可回收垃圾不相关,而与其他垃圾在 0.05 水平上显著相关,与厨余垃圾在 0.1 水平上显著相关。问题三分为三部分:第一部分要求解答深圳现有垃圾减量分类统计的基础数据分项及颗粒度是否足够,通过附件中国家标准得出答案,深圳市对样品颗粒度的选取为合理,但是
3、在分类统计中存在实际操作的难题,而且没有出台相关的规定;第二部分要求对数据的获取提出相对重要的部分,通过问题二中的相关性分析得出在垃圾种类中,对总量影响最大的是其他垃圾和厨余垃圾,所以在数据获取中,优先选择这两类;第三部分要求在前问的模型基础上,减少抽样数据检测减量分类工作的成效,通过问题二中的相关性分析,垃圾总量与厨余垃圾和其他垃圾的相关性最大,而有害垃圾和可回收垃圾的影响基本不大,所以为了减少抽样数量,应当在抽样中,以厨余垃圾和其他垃圾为主体,同时,结合实际操作,可以适当对政策落实较好的区域减少抽样次数和样本数量。问题四要求利用模型对深圳未来 5 年的减量分类工作进行预测,首先假设政府相关
4、政策和政策推行力度在一定的范围内基本保持不变,利用问题一中的多元线性回归模型,在置信区间为 0.95 时,预测最好和最差情况下的减量分类结果。并通过预测结果,对深圳市政府提供一份建议书,通过模型解析建议政府加强垃圾分类的推力度并增加与垃圾分类宣传推广的投入。关键词:主成分分析 多元线性回归 数据抽样 区间估计2一问题重述城市生活垃圾的数量和构成与城市人口数、经济水平及生活习惯等因素有关。随着城镇化进程加快和人们生活水平提高、生活方式转变,城市生活垃圾处理正在成为一个挑战性的难题。仅靠填埋、焚烧等技术不能持久地解决问题,必须与减量化、无害化、回收利用等措施结合起来,才是标本兼治、经济持久的方法。
5、其中,从源头对垃圾进行减量分类收集是必须且关键的一个环节。垃圾减量分类活动是人类社会对自身垃圾产生系统的一个干预性工程。主要内容是社会通过教育、督导、激励等措施(社会因素)影响个人及家庭的垃圾产生动因(个体因素) ,最终形成减少垃圾总量并分类回收良性结果的控制过程。目前对这一控制过程的研究改良主要依靠的还是经验总结型的定性分析,主要原因是缺少描述“社会因素”和“个体因素”及其相互作用的量化模型,难以开展具有一定精度的量化分析工作。因此,探讨以量化模型描述垃圾减量分类活动“社会因素” 、 “个体因素”及关系,不仅能帮助提升城市生活垃圾产量的预测精度(目前的研究者通常只选取 GDP、城市人口、居民
6、人均可支配收入等内在因素指标对城市生活垃圾产量进行预测研究) ,同时也可能给城市垃圾减量分类工作中的资源投入决策活动提供有益的辅助支持手段。目前深圳市正在进行垃圾减量分类试点工作,附件给出了相关的研究实践资料。其中有深圳在对比我国台湾地区相关情况后的自身问题反思总结,以及采用不同方案的天景花园和阳光家园两个试点小区的实际数据记录。请你基于这些资料和自己收集的其他资料,研究以下几个问题:1、 分析附件有关资料并结合你自己的经历和生活观察,考虑各项教育、督导、激励措施对居民家庭垃圾减量分类结果的影响,构建量化模型描述深圳天景花园、阳光家园垃圾减量分类过程,模型应能以量化参数描述社会因素(如各项教育
7、、督导、激励措施等)以及个体因素(如家庭收入水平、家庭结构、户籍类型、生活习惯等) ,并在后续的进一步研究过程中通过调整相关参数来修正模型。2、 基于你构建的减量分类模型,试分析试点小区四类垃圾组分本身的数量存在什么样的相关性?各项激励措施与减量分类效果存在什么3相关性?原因是什么?3、 根据你构建减量分类模型的研究结果,你认为在深圳现有垃圾减量分类督导过程中,目前统计的基础数据分项及颗粒度是否足够?应该在哪些数据的获取中投放更多的成本和精力?在减量分类模式大面积推广时,如何设置少量抽样数据来检测一定区域内减量分类工作的效果?4、 基于你构建的减量分类模型,指出深圳未来 5 年推进减量分类工作
8、关键措施,并预测措施实施的最好与最坏结果。请根据你们的分析和结论,向深圳市政府提供一份建议书,建议政府加强垃圾分类的推力度并增加与垃圾分类宣传推广的投入。二问题假设1 深圳市统计资料的获得按照其颁布标准执行。2 在一段时间内,深圳市的相关政策不发生改变。3 假设查找的统计数据真实有效,误差忽略不计。4 在现阶段的统计数据中,可以较好的预测未来趋势。三符号说明123456:ijijrXGDPXm与 的 相 关 系 数政 府 教 育 支 出深 圳 市 发 展 水 平人 均人 口 总 数户 籍 人 口 与 非 户 籍 人 口 比每 户 人 口 比: 各 影 响 因 子 的 特 征 值主 因 子 个
9、数四问题分析问题一要求构建量化模型描述深圳天景花园、阳光家园垃圾减量分类,同时对模型提出了在后续的进一步研究过程中通过调整相关系数来修正模型。在体重所给的社会因素和个人因素中包含很多指标,在进行建模时,为了选取合理的指标进行建模,首先进行主成分分析,得出影响因素的重要性排序,得出量化模型描述减量分类过程。为了得出更好模型,同时建立多元线性回归模型,4得出结果。问题二要求分析试点小区四类垃圾组分本身的数量存在的相关性与各项激励措施与减量分类效果存在的相关性。为了检验四类垃圾分类的相关性,首先检验各类垃圾数量的方差效果,是否存在波动性。如果存在波动,剔除差异大的数据后,对相关性进行分析,得出结果。
10、问题三分为三部分:第一部分要求解答深圳现有垃圾减量分类统计的基础数据分项及颗粒度是否足够,可以通过对附件中相关国家政策得到;第二部分要求对数据的获取提出相对重要的部分,通过第一问的主成分分系所得结果可以进行分析;第三部分要求在前问的模型基础上,减少抽样数据检测减量分类工作的成效,为了减少工作量,必须选择相对重要的部分,结合第二部分,通过相关性分析得出结果。问题四要求利用模型对深圳未来 5 年的减量分类工作进行预测,假设政府相关政策和政策推行力度在一定的范围内基本保持不变,利用问题一中的多元线性回归模型,预测最好和最差情况下的减量分类结果。并通过预测结果,对深圳市政府提供一份建议书,通过模型解析
11、建议政府加强垃圾分类的推力度并增加与垃圾分类宣传推广的投入。五模型的建立与求解5.1 问题一的模型的建立与求解5.1.1 主成分综合模型(1)模型准备在对深圳市进行垃圾减量分类工作中,涉及较多较复杂的因素,需要精简指标同时又能较好的全面反映原信息量,用主成分分析得已实现。具体步骤如下: 从社会因素和个人因素中选择政府教育支出深圳市发展水平,人均 GDP,人口总数,户籍人口与非户籍人口比,每户人口数等主要因素。首先查找、选择所代表的量化数据,进行标准化处理,去除量纲的不同,构造相关系数矩阵,求得特征值以及特征向量,以各主成分的方差贡献率为权重,从而得出主成分评价函数。用流程图的形式表现如下:主主
12、主主主 ,主主主主主主主主主主主主主主主主主主主主主主主主主主主主主主主主主主主主主5(2)模型的建立与求解选择数据客观的描述垃圾减量分类工作的现状,是分析其影响因素的前提,本题遵循以下原则构建指标体系。I 科学性原则:指标体系的设立必须建立在科学的基础上,能充分反映垃圾减量分类工作的内在机制,指标的定义明确,统计方法正规科学规范,保证结果的真实客观。II 以人为本原则:垃圾减量分类是一个无限延续的、连续的过程,是多元的,包括回收、教育、督导、检查。互相联系、互相制约,归根到底,一切是为了人,一切为了社会的发展。III 系统性原则:这是关于全社会的一个复杂大系统,在设置指标体系时,应遵守整体优
13、化和整体结构有序原则。IV 动态性原则:这些指标不能仅仅考虑现状,还要注意它们的历史和今后的发展态势,用动态的思想来探索它们的规律。根据以上原则,结合深圳市具体情况,查阅相关资料,选取政府教育力度、深圳市发展水平、人口因素( 包括人口总数,人均 GDP)、家庭结构(包括每户人口和相对比例)为量化指标,查阅相关数据得到下表:年份 政府教育支出 深圳市发展水平(GDP)人均GDP 值人口总数户籍人口/非户籍人口每户人口数2001 223601 2482 34822 724.57 0.222841 3.2095282002 278160 2969 40369 746.62 0.229672 3.11
14、75942003 346031 3585 47029 778.27 0.240587 3.1741322004 430462 4282 54236 800.8 0.259773 3.1731362005 535495 4951 60801 827.75 0.281704 3.1911952006 666156 5814 68441 871.1 0.291916 3.2072672007 828698 6802 76273 912.37 0.303404 3.2734282008 1030900 7787 83431 954.28 0.314055 3.3989572009 1366266 82
15、01 84147 995.01 0.320412 3.4586742010 1595355 9582 94296 1037.2 0.319308 3.5138582011 1967928 11506 110421 1046.74 0.343969 3.594043标准化数据,构造相关系数矩阵利用 SPSS 将数据标准化后,定义 为 与 的相关系数,利用以下公式求得:ijriXj1221()()nkikjjij nkikjjxxr从而构造相关系数矩阵如下表:表一:相关系数矩阵61X23X45X611.000 -0.262 -0.195 -0.265 -0.103 -0.5022-0.262 1.
16、000 0.996 0.985 0.963 0.9473X-0.195 0.996 1.000 0.983 0.981 0.9184-0.265 0.985 0.983 1.000 0.969 0.9365-0.103 0.963 0.981 0.969 1.000 0.8616X-0.502 0.947 0.918 0.936 0.861 1.000从表中可以看出深圳市发展水平、人均 GDP、人口总数、户籍与非户籍人口比极其显著相关,存在信息重叠,可以用主成分分析,提取主成分。求得特征值与特征向量主成分的个数提取原则一般为主成分对应的特征值大于 1 的前 个主成分。m特征值在某种程度上可以被
17、看成是表示主成分影响力度大小的指标,如果特征值小于 1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此,一般可以用特征值大于 1 作为纳入标准。下表为本题方差分解主成分提取分析表:表二:解释的总方差初始特征值 提取平方和载入成份 合计 方差的 % 累积 % 合计 方差的 % 累积 %1 4.906 81.772 81.772 4.906 81.772 81.7722 1.014 16.900 98.672 1.014 16.900 98.6723 .048 .795 99.4674 .018 .307 99.7745 .013 .220 99.9946 .000 .006
18、 100.000从上表中可以看出,前两个主成分的 值累计百分比达到 98.672%,表示提取前两个主成分信息量已经足够,根据上述分析,选择提取两个主成分,即=2。m用 SPSS 求得特征值,将其按大小排序 12n取出 和 所对应的主成分,利用下表主成分载荷矩阵,求得特征向量。12表三:主成份载荷矩阵a成份1 27政府教育支出 -.332 .941深圳市发展水平 .994 .070人均 GDP .987 .143人口总数 .991 .070户籍人口喻非户籍人口比 .960 .238每户人口数 .965 -.204得到主成分评价函数将上述主成分载荷矩阵做标准化处理,得到结果如下:表四:主成分载荷矩
19、阵A1 B1 A2(特征值) B2(特征值) ZA2(标准化数据) ZB2(标准化数据)-0.3321 0.9407 -0.1499 0.9342 -2.0405 1.8874 0.9941 0.0704 0.4488 0.0699 0.4358 -0.3597 0.9869 0.1433 0.4456 0.1423 0.4224 -0.1717 0.9908 0.0699 0.4473 0.0694 0.4297 -0.3610 0.9599 0.2385 0.4334 0.2368 0.3719 0.0742 0.9647 -0.2043 0.4355 -0.2029 0.3808 -1.
20、0691 将所得到的特征向量和标准化数据相乘,得到主成分表达式如下: 11234560.36X.90.18.920.16.FXX27545827然后计算主成分总表达式,以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例所谓权重,即总表达式中的系数为第一表达式中的系数乘以对应贡献率再除以两个主成分的贡献率之和,加上第二表达式中的系数乘以对应贡献率再除以两个主成分的贡献率之和。得到主成分综合模型如下: 1234560.56X.80.15X.0.137X.F5.1.2 多元回归模型一、模型的准备(1)模型的确定本题中社会因素和个人因素中在垃圾减量分类工作中是主导因素,可通过量化指标进行具体
21、分析;对社会因素及个人因素分别进行量化,确定六个量化指标即政府教育支出,深圳 GDP 值,人均 GDP 值,人口总数,户籍人口与非户籍人口比例,家庭平均人口数。通过六个量化指标建立多元线性回归模型。多元线性回归分析的模型为 012(,)nyxxN:式中 都是与 无关的未知参数,其中 称201,m 12m 01,m8为回归系数。现得到 个独立观测数据 ,由上述模型公式得n1(,),iimyxn 02(,),iimiii xN:记 ,11nnmxX 1nyY101,TT 2(,)nYNE:其中 为 阶单位矩阵。nE(2)参数估计上述模型中的参数 用最小二乘法估计,即选取估计值 ,使当01,m j时
22、, 时,误差平方和jj,2 2 20111()nniiimiiQyx达到最小。为此,令 ,得,j01102()0niimiiiiijijyxQx经整理化为一下正规方程组 0121112 11 2011 11nnnniimiiniii iminnnnimiimiixxyxyxxx 正规方程组的矩阵形式为 TTXY9当矩阵 X 列满秩时 为可逆方阵,上式的解为T1()TXY将 带回原模型得到 的估计值y01mx而这组数据的拟合值为 ,拟合误差 称为残差,可作为随机YXeY误差 的估计,而 为残差平方和,即 。2211()nniiiQey()Q(3) 统计分析不加证明地给出以下结果: 是 的线性无偏
23、最小方差估计。指的是 是 的线性函数: 的期望 Y等于 ;在 的线性无偏估计中, 的方差最小。 服从正态分布 21(,)TNX:=1)Tijnc对残差平方和 , = ,且QE2(nm22(1):由此得到的 的无偏估计2221Qsnm对总平方和 进行分解,有21()niiSTy,/1(1)jjjcttnQnm21iiUy其中 是由上式定义的残差平方和,反映随机误差对 的影响, 称为回QyU10归平方和,反映自变量对 的影响。上面的分解中利用了正规方程组。y(4)回归模型的假设检验因变量 与自变量 之间是否存在如模型(20)所示的线性关系就不y1,mx明显,显然,如果所有的 都很小, 与 的线性关
24、系就不(,)j y1,mx明显,所以可令原假设为 0:(,)jH当 成立时由分解式定义的 满足0H,UQ/(,1)(1)mFFnn:在显著性水平 下有上 分位数 ,若 ,,(,1)Fmn接受 ;否则,拒绝。0H注意 接受 只能说明 与 的线性关系不明显,可能存在非线性关0y1,mx系,如平方关系。还有一些衡量 与 的线性关系不明显,如用回归平方和在总平方和1,中的比值定义复判定系数 2URS称为负相关系数, 越大, 与 相关关系越密切,通常2Ry1,mx大于 0.8(或 0.9)才认为相关关系成立(5) 回归系数的假设检验和区间估计当上面的 被拒绝时, 不全为零,但是不排除其中若干个等于零。0Hj所以应进一步作如下 个检验:m0,1.:jjH由于 , 是 中的第 元素,用 代替 ,2,jjjNcj 1TX,j2s2当 成立时0jH/1(1)jjjcttnmQn