1、摘要福建省各县城卷烟潜在购买力的差异分析摘要: 长期以来,烤烟与卷烟一直是福建省的传统支柱产业和支柱税源,为福建省财政收入作出了巨大的贡献。目前福建省内市场面临日益严峻的卷烟消费总量约束及国内外卷烟品牌的冲击,进一步巩固、拓展省产卷烟省内消费市场成为福建省烟草行业持续发展的根本出路和战略选择。因此,对福建省卷烟消费特征的深入研究,将有助于福建省烟草行业上述发展战略的实施,有助于福建省地方经济的持续、健康、协调发展。烟草行业作为一个特殊的行业,其生产、销售和消费都会受到诸多因素的影响和限制,比如国家对烟草的管制政策,税收政策等等。本文主要是利用 spss 统计软件对福建省个县城卷烟在潜在购买力方
2、面进行因子分析,提取影响各个地区卷烟消费的主要因素,结果显示,人口规模、收入和消费水平以及结构因子是影响福建省各个县城卷烟潜在购买力的主要因素,并得到福建省各县城卷烟潜在购买力的因子得分及排序。在此基础上,利用层次聚类算法将 15 个县城按照卷烟潜在购买力的强弱划分为类地区,从而分析了各个地区的卷烟消费结构差异。本文对此进行了一系列分析后所得到的结论与建议旨在为福建省各县城卷烟产销决策方面提供依据。关键词 卷烟消费 潜在购买力 因子分析 聚类分析1AbstractThe Differentiation on the cigarette latent purchasing power in th
3、e countries of fujian provinceAbstract: The flue-cured tobaccos and the cigarettes always are traditional pillars of the source of tax since a long time ago in FuJian province. It contributes a lot to the FuJian fiscal income. The market of tobaccos that produce in FuJian province faces the restrain
4、 on total quantity of tobaccos and the impact on the brands of domestic and foreign at present. Therefore, consolidating and developing the market become the basic outlet and the strategic choice that the tobacco industry continues to develop in FuJian province. The research on the characteristic of
5、 tobacco consumption in FuJian province will be helpful to implement the above developing strategy, the development of economic with constant, health, coordinated.Tobacco industry as one of special industries, its production, sale and consumption may be effected and limited by many factors, such as
6、tobacco control policy, tax policy and so on. This paper mainly is carries on the factor analysis in the latent purchasing power aspect of the countries in FuJian province by spss statistics software, extracting the primary factors that effect the cigarette consumption in various countries. Accordin
7、g to the analytical result, the population scale, the income and the consumption level as well as the structure factor are the primary factors that take effects on the cigarette latent purchasing power of the countries in fujian province., at the same time, it obtains the cigarette latent purchasing
8、 power factor score and sorting of the countries in fujian province. Basing on this foundation, we can divide 15 countries into 4 sorts, according to the cigarette purchasing power by the Hierarchical Cluster Algorithm and thus we can analyze the differences of the cigarette consumption structure in
9、 various areas. The purpose that the conclusions and the advice the paper gets is for supporting the cigarette production and marketing decision-making.Key words cigarette consumption latent purchasing power factor analysis cluster analysis2目录目录摘要 1第一章 绪论 51.1 研究背景及现实意义 . 51.2 研究内容、方法及结构框架 . 6第二章 相关
10、技术和工具 .92.1 相关技术介绍 .92.1.1因子分析 .92.1.2 聚类分析 132.2 相关工具的介绍 172.2.1 Oracle 9i .172.2.2 spss 13.0 for windows .18第三章 理论和文献回顾 213.1 西方消费理论简介 213.2 国内相关文献综述 21第四章 福建省各县城卷烟潜在购买力的因子分析和聚类分析 254.1 数据的处理和分析 254.2 福建省各地区卷烟潜在购买力的因子分析 274.2.1 量的确定及指标的选取 274.2.2 公因子萃取与因子负荷分析 .294.2.3 因子得分及排序 314.3 福建省各县城卷烟潜在购买力的聚
11、类分析. 324.3.1 聚类目的及技术路线的选择 334.3.2 聚类结果 334.3.3 福建省四类地区卷烟消费结构分析 34第五章 结论与建议 375.1 结论 375.2 研究局限及未来研究建议 39致谢语 . 41参考文献 423ContentsContentsAbstract.2Chapter1 introdution .51.1 research background and practical significant 51.2 research content、means and structure frame .6Chapter2 reference technology a
12、nd implement92.1 reference technology introdution .92.1.1 factor analysis92.1.2 cluster analysis 132.2 reference implement introdution 172.2.1 Oracle 9i 172.2.2 spss 13.0 for windows .18Chapter3 theory and the document retrospect213.1 brief introdution of the west comsume thoery213.2 the relevance d
13、ocument sums up in the homeland .21Chpater4 factor and cluster analysis of FuJian cigarette latent purchasing power.254.1 data treatment and analysis.254.2 factor analysis of the cigarette latent purchasing power in the countries of FuJian province274.2.1 amount ascertain and index choice .274.2.2 c
14、ommon factor extraction and component matrix294.2.3 factor score and sort 314.3 cluster analysis in latent pursuing power of countries in FuJian province .324.3.1 arm of cluster analysis and choice of technology334.3.2 cluster analysis result 334.3.3 structure analysis in cigarette comsuption in fou
15、r sorts areas of FuJian province 34Chapter5 conclusion and advice .375.1 conclusion375.2 research limited and the advice of advanced research .39Acknowledgement.41Reference .424第一章 绪论第一章 绪论1.1 研究背景及现实意义我国是全世界最大的烟草生产国与消费国,烤烟种植面积、烤烟产量、烤烟增长速度、卷烟产销量、卷烟增长速度、吸烟人数、吸烟人数增长量及烟税增长速度等均居世界第一。目前,中国约有 3.5 亿烟民,占世界烟
16、民总数的三分之一,烟草生产占全球的 35%,烟草销售占全球的 32%,卷烟年产量达 1.8 兆支,全国卷烟消费量为 3769.14 万箱,其中城市 1374.68 万箱,农村 2821.46 万箱。2006 年我国烟草行业实现税利 2900 多亿元,税收总额连续多年高居国民经济各产业之首,烟草行业产销态势的变化将直接影响到国民经济的发展 1 。福建省沿海东南部,属于多山地带,其部分地区的气候和土壤条件适宜于烟草种植,使得烟草行业成为福建省主要的支柱行业之一。长期以来,“两烟”(即烤烟与卷烟)一直是福建省的传统支柱产业和支柱税源,成为其财政收入的主要来源。2005 年我省卷烟销量继续大幅度增长,
17、全省卷烟总销量 1283564 箱,同比增长 7.02%。其中,低档烟销售完成 37.4 万箱,超额完成国家局下达的 35.5 万箱的计划,全省实现年人均消费卷烟达 9.2 条,比去年 8.6 条增加 0.6 条。去年省产烟品牌整合顺利推进,省外烟品牌规划初显成效,名优品牌集中度进一步提高,全年共销售省产烟 879913 箱,省外烟 399719 箱,其中省产一类烟销售 105739 箱,省产二类烟销售 165965 箱。此外,我省卷烟销售结构继续保持快速提升,批发销售条均价显著提高。05 年全省一类烟销售 160091 箱,同比增长 36.10% ,占总销量的 12.47% ,比全国水平高出
18、 3.9 个百分点。全省二类烟销售 244170 箱,同比增长 11.75% ,占总销量的 19.02% ,较去年提高了 0.81 个百分点,比全国水平高出 3.99 个百分点。全省卷烟批发销售条均价达 49.12 元,比上年增加 4.09 元,提高 9.07%。此外,经营品牌数从 04 年的 99 个减少到 05 年的 78 个,减幅 21%。卷烟商业效益大幅提高,全年实现卷烟商业利润 22.24 亿元,同比增加 3.91 亿元,同比增长 21.34% 2 。“十五”期间福建省烟草行业已经提前实现了恢复性发展的各项指标,通过工业的整合重组、商业的网建推进、品牌的不断集中,极大地提升了全行业的
19、整体竞争力。随着福建省经济的不断增长,卷烟销售数量和结构逐年增加和提高,行业发展前景良好。但我们也应清醒的认识到,无论是长期中、还是短期内,福建省烟草行业均面临诸多的挑战: (1)中国加入了WTO,国内的烟草行业,不论是市场份额还是价格,都将面临着外来的烟草公5福建省各县城卷烟潜在购买力的差异分析司的冲击,因此,在这方面,省内的烟草行业也不可避免地受到一定程度的影响。同时,随着中国经济的高速发展,人们的收入也会随之大幅度的提高,即健康意识也会不断增强,这比会给烟草的消费数量上带来一定程度的影响。(2)目前,省外卷烟在福建省内市场的份额已达 4.16%,随着我国市场化程度的不断提高,烟草行业市场
20、竞争势必加剧,省外卷烟进入福建省内市场并参与市场瓜分的形势会愈加严峻,这将严重威胁到福建省烟草行业的健康发展。此外,中国加入 WTO 后,取消烟叶进口配额限制,关税由入世前的 28%降至 2004 年的 10%,无疑会加速世界烟草进入中国市场的步伐,有关专家预测,2005 年后外国烟草品牌将占中国烟草市场 10-20%份额,即每年 1700 亿到 3400 亿支。外烟介入中国市场,也会逐渐渗透福建省卷烟消费市场,将对省产卷烟的产销带来不利影响。面对日益严峻的卷烟消费总量约束及国内外卷烟品牌对福建省内市场的冲击,进一步巩固、拓展省产卷烟省内消费市场成为福建省烟草行业持续发展的根本出路和战略选择。
21、因此,对福建省卷烟消费特征的深入研究,包括对福建省卷烟消费主要影响因素的分析,对福建省内各地区潜在卷烟购买力的分析,对各类省产卷烟省内消费量及其影响因素的分析,将有助于福建省烟草行业上述发展战略的实施,有助于福建省地方经济的持续、健康、协调发展,同时,可促进我国嗜好品区域消费理论研究的进一步数量化和系统化。1.2 研究内容、方法及结构框架本文首先介绍了福建省烟草行业面临的机遇和挑战,在这个基础之上对福建省卷烟消费特征进行了进一步的探索,具体实现涉及到以下两个步骤:(1)应用因子分析方法对福建省各县城卷烟潜在购买力的众多影响因素进行分析,通过统计因子得分后对地区进行了排序,在此基础上应用层次聚类
22、算法对此进行分析,为福建省各县城卷烟提高营销决策依据。(2)因为涉及到烟草是个特殊行业,所以,文章中将应用西方经济学消费相关的理论,结合我国烟草环境以及福建省的实际情况,对上述实证分析的研究结果进行解释,并且得到相应的一些结论和建议,从而达到真正为决策提供支持。本文的总体构架如图 1-1 所示:6第一章 绪论绪论研究背景及现实意 研究内容、方法及义 结构框架相关技术与工具理论回顾福建省各县城潜在卷烟购买力的因子分析和聚类分析结论与建议图 1-1 论文框架图7福建省各县城卷烟潜在购买力的差异分析8第二章 相关技术与工具第二章 相关技术和工具2.1 相关技术介绍本文这个部分主要是介绍用于福建各县城
23、卷烟潜在购买力分析的相关技术,分成两个小部分:因子分析和聚类分析2.1.1 因子分析因子分析(Factor Analysis)是多元统计分析的一个分支,其主要目的是浓缩数据。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示基本的数据结构。这些假想变量能够反映原来众多的观测变量所代表的主要信息,并且解释这些观测变量之间的相互依存关系,我们把这些假想变量称之为基础变量,也即是因子(Factors)。因子分析就是研究如何以最少的信息丢失把众多的观测变量浓缩为少数的几个因子。因子分析是由心理学家发展起来的,最初心理学家借助因子分析模型来解释人类的行为和能力,1
24、904 年查尔斯斯皮尔曼在美国心理学杂志上发表了第一篇关于因子分析的文章,在以后的三四十年里,因子分析的理论和数学基础逐步得到了发展和完善,它作为一个一般的统计分析工具逐渐被人们所认识和接受。50 年代以来,随着计算机的普及和各种统计软件的出现,因子分析在社会学、经济学、易学、地质学、气象学和市场营销等越来越多的领域得到了应用 3 。因子分析的应用主要有以下两个方面: 寻求基本结构(Summarization)。在多元统计分析中,经常碰到观测变量很多且变量之间存在着较强的相关关系这种情形,这不仅给问题的分析和描述带来一定困难,而且在使用某些统计方法时也会出现问题。例如,在多元回归分析中,当自变
25、量之间高度相关时,会出现多重共线性现象。变量之间高度相关意味着它们所反映的信息高度重合,通过因子分析我们能够找到较少的几个因子,它们代表数据的基本结构,反映了信息的本质特征。 数据简化(Data Reduction)。通过因子分析把一组观测变量化为少数的几个因子后,可以进一步将原始观测变量的信息转换成为这些因子的因子值,然后,用这些因子代替原来的观测变量进行其它的统计软件,如回归分析、路径分析、判别分析和聚类分析等,9福建省各县城卷烟潜在购买力的差异分析利用因子值也可以直接对样本进行分类和综合评价 4 。以上这些应用都需要通过因子分析,首先确定能够解释观测变量之间相关的假想因子的个数。一般来说
26、,要是研究者事先对观测数据背后存在多少个基础变量一无所知,因子分析用来作为探索基础变量的维数,这种类型的应用称为探测性因子分析,因子分析的大部分应用都属于这种类型。有些情况下,研究者根据某些理论或其他先验知识可能对因子的个数或因子的结构作出假设,因子分析也可以用来检验这个假设,作为实证假设的工具,这种类型的应用称为实证性因子分析。接下来介绍一下因子分析的原理,主要从三个方面进行简单的剖析:因子分析模型、因子分析中的相关概念和因子分析步骤。 因子分析模型因为任何一个变量,经过 z = x x 变换( x 为 x 的均值, x 为 x 的标准差)成为标准化变量, x很容易证明,经过这样的标准化变换
27、不改变变量之间的相关系数,因此不失一般性。因子分析模型在形式上和多元回归模型相似,每个观测变量由一组因子的线性组合来表示。设有 k 个观测变量,分别为 x1 ,x 2 ,x k 其中 x i 为具有零均值、单位方差的标准化变量。则因子模型的一般表达形式为:x = a f +a f +a f +u (i = 1,2,k) ( 2-1) 4i i1 1 i 2 2 im m i在该模型中:9 f1 ,f 2 ,f m 叫做公因子(Common factors),它们是各个观测变量所共有的因子,解释了变量之间的相关。9 u i 称之为特殊因子(Unique factor),它是每个观测变量所特有的因
28、子,相当于多元回归中的残差项,表示该变量不能被公因子所解释的部分。9 a iij 称之为因子负载(Factor loadings),它是第 i 个变量在第 j 个因子上的负载,相当于多元回归分析中的标准回归系数(i=1,2,k;j=1,2,m)。因子分析模型也可以用路径分析图表示,如图 2-110第二章 相关技术与工具f1 x1 u1f 2 x 2 u 2.f m x k u k图 2-1 因子分析模型该模型假设 k 个特殊因子之间是彼此独立的,特殊因子和公因子之间也是彼此独的。因子分析模型中,每个观测变量有 m 个公因子和一个特殊因子的线性组合来表示。公因子的个数最多可以等于观测变量数。但是
29、,实际上由于第一个因子代表了所有变量中最多的信息,随后的因子代表性日益衰弱,如果忽略最后几个因子,对原始变量的代表性也不会有什么损失,所以,因子分析模型中,公因子的个数往往远远少于观测变量的个数。 因子分析中的相关概念 9 因子负载因子负载是因子分析模型中最重要的一个统计量,它是连接观测变量和公因子之间的纽带。因子负载不仅表示了观测变量是如何由因子线性表示出的,而且反映了因子和变量之间的相关程度。9 公因子方差公因子方差(Communality)也叫共同度,又称公共方差,指观测变量方差中有公因子决定的比例。变量 x i 的共因子方差记作 h i2 。当公因子之间彼此正交时,公因子方差等于和该变
30、量有关的因子负载的平方和,用公式表示为:h 2 = a 2+a 2+a 2 (2-2)i i1 i 2 im变量的方差由两部分组成,一部分由公因子决定,一部分由特殊因子决定。公因11福建省各县城卷烟潜在购买力的差异分析子方差表示了变量方差中能够被公因子所解释的部分,公因子方差越大,变量能被因子说明的程度越高。9 公因子的贡献每个公因子对数据的解释能力,可以用该因子解释的总方差来衡量,通常称为该因子的贡献(Contributions),记为 V p .它等于和该因子有关的因子负载的平方和,即kV p = aip2 (2-3)i=1所有公因子的总贡献为:mV= Vp (2-4)p=1实际中更常用相
31、对指标,即每个因子所解释的方差占所有变量总方差的比例。相对指标衡量了公因子的相对重要性。设 k 表示观测变量数,V p /k 表示了第 p 个因子所解释的方差的比例,V p /k 表示所有公因子累积解释的方差比例,它可以用来作为因子分析结束的判断指标。 因子分析步骤因子分析通常包含以下四个主要步骤:(1)计算所有变量的相关矩阵。相关矩阵是因子分析直接要用的数据,根据计算出的相关矩阵还应该进一步判断应用因子分析是否合适。(2)提取因子,确定因子的个数和求因子解的方法。(3)进行因子旋转,通过坐标变换使因子解的实际意义更容易解释。(4)计算因子值。因子值是各个因子在每个案例上的得分值 5 。因子分
32、析的目的是简化数据或者找出基本的数据结构,因此使用因子分析的前提条件是观测变量之间有较强的相关关系,否则,不能共享因子。所以,计算出相关矩阵后,在进行判断所观测到的数据是否适合做因子分析。判断的依据主要由以下三个指标:(1)反映象相关矩阵(Anti-image correlation matrix)。其元素等于负的偏相关系数。偏相关是控制其它变量不变,一个自变量对因变量的独特解释作用。如果数据中确实存在公因子,变量之间的偏相关系数应该很少,因为它和其他变量重叠的解释影响被扣除了。所以如果反映象相关矩阵中很多元素的值比较大的话,应该考虑观测数据可能不合适12第二章 相关技术与工具做因子分析。(2
33、)巴特利特球体检验(Bartlett test of sphericity)。该统计量从检验整个相关矩阵出发,其零假设为相关矩阵的单位阵,如果不能拒绝该假设的话,应该重新考虑因子分析的使用。(3)KMO(Kairse-Meyer_Olkin Measure of Sampling Adequacy)测度。该侧度从比较观测变量之间的简单相关系数和偏相关系数的相对大小出发,其值的变化范围从 0 到 1。当所有变量之间的偏相关系数的平方和远远小于简单相关系数的平方何时,KMO 值接近 1,KMO 值较小时,表明观测变量不适合做因子分析。通常按以下标准解释该指标值的大小:0.9 以上,非常好;0.8
34、以上,好;0.7,一般;0.6,差;0.5,很差;0.5 以下,不能接受 4 。2.1.2 聚类分析聚类分析是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。分类问题是各个学科领域都普遍存在的问题,如市场营销学中进行市场分层、确定目标;人口学中研究人口生育分类模式、人口死亡分类模式等等,这些都需要对研究对象进行分类。聚类分析是应用最为广泛的分类技术,它把性质相近的个体归为一类,使得同一类中的个体具有高度的同质性,不同类之间的个体具有高度的异质性。聚类分析的大部分应用属于探测性研究,最终结果是产生研究对象的分类,通过对数据的分类研究还能产生假设。聚类分析也能用于实证性目的,对于通过其他
35、方法确定的数据分类,可以应用聚类分析进行检验。本文这部分主要分成两个小部分:聚类分析的主要步骤和 spss 中聚类方法。 聚类分析的主要步骤一般说来,聚类分析至少都应该包括以下四个步骤:首先,根据研究的目的选择合适的聚类变量;第二步计算相似性侧度;第三步选定聚类方法进行聚类;最后对结果进行解释和验证。以下将具体展开聚类中各个步骤的具体实现。1) 选择变量一般来说,选择哪些变量应该具有一定的理论支持,但实践中往往缺乏这样强有力的理论基础。研究者一般是根据实际工作经验和所研究问题的特征认为选择一些变量。那么,这些变量应该具有以下几个特点:和聚类分析的目标密切相关、反映了要分类对象的特征、在不同研究
36、对象上的值具有明显的差异、变量之间不应该高度相关。13福建省各县城卷烟潜在购买力的差异分析2) 计算相似性选定了聚类变量之后,下一步就是计算研究对象之间的相似性。相似性是聚类分析中的一个基本概念,它反映了研究对象之间的亲疏程度,聚类分析就是根据研究对象之间的相似性来进行分类的。3) 聚类选定了聚类变量、计算出相似性矩阵之后,接着就是要对研究对象进行分类。这时只要涉及到两个问题:选定聚类方法和确定形成的类数。4) 聚类结果的解释与证实得到聚类结果后,最后一步还应该对结果进行验证和解释,以保证聚类解是可信的。 聚类方法通常聚类分析算法可以划分为以下几大类:划分方法、层次方法、基于密度方法和基于网格
37、方法。下面分别介绍简单介绍一下各种聚类算法:1) 划分方法(Partitioning method):给定一个包含 n 个对象或数据行,划分方法将数据集划分为 k 个子集(划分)。其中每个子集均代表一个聚类(k n)。也就是说将数据分为 k 组,这些组满足以下要求:(a)每组至少应包含一个对象;且(b)每个对象必须只能属于某一组。给定需要划分的个数 k,一个划分方法创建一个初始划分;然后利用循环再定位技术,即通过移动不同划分(组)中的对象来改变划分内容。一个好的划分衡量标准通常就是同一个组中的对象“相近”或彼此相关;而不同组中的对象“较远”或彼此不同。为获得基于划分聚类分析的全局最优结果就需要
38、穷举所有可能的对象划分。为此大多数应用采用一至二种常用启发方法:(a)k-means 算法,该算法中的每一个聚类均用相应聚类中对象的均值来表示;和(b)k-medoids 算法,该算法中的每一个聚类均用相应聚类中离聚类中心最近的对象来表示。这些启发聚类方法在分析中小规模数据集以发现圆形或球状聚类时工作的很好。在 spss 13.0 中进行聚类分析时,主要用到的是 k-means 算法,下面就简单介绍一下该算法。算法综述:K-MEANS 算法:输入:聚类个数 k,以及包含 n 个数据对象的数据库。输出:满足方差最小标准的 k 个聚类。处理流程:14第二章 相关技术与工具(1) 从 n 个数据对象
39、任意选择 k 个对象作为初始聚类中心;(2) 循环(3)到(4)直到每个聚类不再发生变化为止(3) 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(4) 重新计算每个(有变化)聚类的均值(中心对象)k-means 算法接受输入量 k ;然后将 n 个数据对象划分为 k 个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的 6 。k-means 算法的工作过程说明如下:首先从 n 个数据对象任意选择 k 个对象作为初始
40、聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2) 层次方法(hierarchical method): 层次方法就是通过分解所给定的数据对象集来创建一个层次。根据层次分解形成的方式,可以将层次方法分为自下而上和自上而下两种类型。自下而上的层次方法从每个对象均为一个(单独的)组开始;逐步将这些(对象
41、)组进行合并,直到组合并在层次顶端或满足终止条件为止。自上而下层次方法从所有均属于一个组开始;每一次循环将其(组)分解为更小的组;直到每个对象构成一组或满足终止条件为止。层次聚类算法的两种方法在 spss 13.0 中主要体现为聚集法(Agglomerative Method)和分解法(Divisive Method)。层次聚类法是聚类分析中应用最广泛的聚类方法,层次聚类法的聚类过程可以用一个树状图来表示出来,根据该树状结构可以进行不同的分类处理。层次聚类法中的一个核心问题是计算类与类之间的距离,有五种常用的方法:(1)最短距离法(Single Linkage);(2)最长距离法(Comple
42、te Linkage);(3)平均联结法(Average Linkage);(4)重心法(Centriod);(4)离差平方和法(Wards Method)。下面逐一加以介绍。(1)最短距离法:把两类之间的距离定义为一个类中的所有安乐与另一类中的所有案例之间的距离的最小者。最短距离法的主要缺点是它有链接聚合的趋势,因为类与类之间的距离为所有距离中最短者,两类合并以后,它与其他类之间的距离缩小了,这样容易形成一个比15福建省各县城卷烟潜在购买力的差异分析较大的类。(2)最长距离法:和最短距离法相反,最长距离法把类和类之间的距离定义为两类中离得最远的两个案例的距离。最长距离法克服了最短距离法链接聚
43、合的缺陷,两类合并后与其他类的距离是原来两个类中的距离最大者。(3)平均联结法:最短距离法和最长距离法都只是用两个案例之间的距离来确定两类之间的距离,没有充分利用所有案例的信息,平均联结法把两类之间的距离定义为两类中所有案例之间距离的平均值,不再依赖于特殊点之间的距离,有把方差小的类聚到一起的趋势。平均联结法是聚类效果较好、应用广泛的一种聚类方法。它有两种形式,一种是组间联结法 (Between-group linkage),另一种是组内联结法(Within-group linkage)。组间联结法在计算距离时只考虑两类之间个案之间的距离平均,组内联结法在计算距离时把两组所有个案之间的距离都考
44、虑在内。(4)重心法:重心法把两类之间的距离定义为两类重心之间的距离,每一类的重心是该类中所有案例在各个变量上的均值所代表的点。和上面三种方法所不同的是,每合并一次泪,都需要重新计算新类的重心。和平均联结法一样,重心法也较少受到特殊点的影响。重心法要求用欧式距离,其主要缺点是在聚类过程中,不能保证合并的类之间的距离呈单调增加的趋势,也基本次合并的两类之间的距离可能小于上一次合并的两类之间的距离,在数状聚类图上出出现图形逆转,这点限制了它的应用。(5)离差平方和法:离差平方和法是沃尔德首先提出的,所以也常称为沃尔德法。其基本思想是同一类内案例的离差平方和应该较小,不同类之间案例的离差平方和应该较
45、大。求解过程是首先使每个案例自成一类,每一步使离差平方增加最小的两类合并为一类,直到所有的案例都归为一类为止。离差平方和法要求案例之间的距离必须采用平方欧式距离,它倾向于把案例数少的类聚到一起,发现规模和形状大致相同的类。离差平方和法和平均联结法一样,是分类效果较好的一种聚类方法 7 。3)基于密度方法:大多数划分方法是基于对象间距离进行聚类的。这类方法仅能发现圆形或球状的聚类而在较难发现具有任何形状的聚类。而基于密度概念的聚类方法实际上就是不断增长所获得的聚类直到“邻近”(数据对象或点)密度超过一定阈值(如:一个聚类中的点数,或一个给定半径内必须包含至少的点数)为止。这种方法可以用于消除数据
46、中的噪声(异常数据),以及帮助发现任意形状的聚类。DBSCAN 就是一个典型的基于密度方法,该方法根据密度阈值不断增长聚类。OPTICS 也是16第二章 相关技术与工具一个基于密度方法,该方法提供聚类增长顺序以便进行自动或交互式数据分析 4 。4)基于网格方法:基于网格方法将对象空间划分为有限数目的单元以形成网格结构。所有聚类操作均是在这一网格结构上进行的。这种方法主要优点就是处理时间由于与数据对象个数无关而仅与划分对象空间的网格数相关,从而显得相对较快 8 。STING 就是一个典型的基于网格的方法。CLIQUE 和 Wave-Cluster 是两个基于网格和基于密度的聚类方法 7 。2.2
47、 相关工具的介绍对福建省各县城卷烟潜在购买力的差异分析中,主要涉及到两个个工具,分别是:Oracle 9i 和 spss 13.0 for windows。2.2.1 Oracle 9iOracle 9i 是在 Oracle 8i 基础上发展起来的,但是, Oracle 9i 并非是单一的数据库产品,它是将 Oracle 9i 数据库、 Oracle 9i 应用服务器和 Oracle 9i Developer Suite 集成在一起的用Internet的新一代智能化的、协同各种应用的软件基础架构。作为长达 10 年的软件技术研发成果,Oracle 9i 数据库在全面继承 Oracle 8i 数
48、据库Internet 技术基础上,进一步增强了 Oracle 8i 数据库在可伸缩性、可用性、Java 与 XML 支持能力等方面的性能。与 Oracle 8i 数据库相比,Oracle 9i 数据库借助突破性的真正应用集群技术提供了无限可能的可伸缩性和总体可用性,具有集成的先进数据分析与数据挖掘功能以及更自动化的系统管理功能,使能够跨越多个计算机集群系统能够,运行SAP、PeopleSoft、Oracle 电子商务套件等主流应用软件的数据库平台。其主要特性有:1) 真正应用集群技术:作为 Oracle 的新一代集群技术,Oracle 9i 真正应用了集群技术基于Oracle 的高速缓存熔合体
49、系结构,它能够迅速、有效地在群集的所有计算机上共向那些经常被访问的数据,以提供透明的应用可伸缩性。这一突破性技术,使 Oracle 9i 真正应用集群能够提供超过四个节点的直线性可伸缩性。另一方面,借助 Cache Fusion 体系结构能够独立处理每个节点的特性。这种集群技术能够使系统的可伸缩性、性能和可靠性获得最大程度的平衡。因此,在用户集群系统中增加计算机时,既不需要重新分配数据,17福建省各县城卷烟潜在购买力的差异分析也不需要重新编写程序,Oracle 9i 真正应用集群能够以透明的方式进行修改,以利用这些新的资源。2) 海量数据管理:Oracle 一直对海量数据的管理非常重视,采用了数据分区的方法。采用数据分区后,海量数据分成很多管理的块,当系统操作或用户会话处理查询时又能透明地将分块的数据组织起来。3) 保密机制:Oracle 的高级保密机制通过各种各样的特权,控制对敏感数据的存取。通过连接不同的数据库赋予用户不同的权限,如查看、修改和创建数据库等等。用这些机制来保证某些用户能查看敏感数据,而有的用户则没有这些权限。4) 备份与恢复:Oracle 提供了高级备份和恢复的子例程。备份创建 Oracle 数据的一个副本,恢复则把备份的数据恢复出来