1、学校代码: 10246学 号: 硕士学位论文 (专 业 学 位)数据挖掘在纺织品配额商品出口管理中的应用院 系:软件学院专 业: 软件工程姓 名:指 导 教 师: 完 成 日 期: 2006-2-15目录摘 要IIIABSTRACTIV第一章 引 言11.1 纺织品服装配额商品出口管理的现状21.2 目前的纺织品服装出口管理存在的问题21.3 本文的主要研究内容41.4 本文的章节安排4第二章 数据挖掘常用方法62.1数据挖掘的定义及其分类62.1.1 什么是数据挖掘62.1.2 数据挖掘模式的分类62.2几种具体的数据挖掘方法82.2.1 关联规则数据挖掘方法82.2.2 聚类分析数据挖掘方
2、法112.2.3 时序规则数据挖掘方法13第三章 数据挖掘在配额管理中的具体应用163.1纺配管理工作需求分析163.1.1 目前管理工作所使用的系统现状163.1.2 纺配管理工作的具体需求183.2应用关联分析挖掘纺织品招标配额资源213.2.1 招标配额类别的基本情况介绍213.2.2 关联挖掘结果初步分析223.2.3 关联挖掘结果的具体应用273.3运用时序分析对关联挖掘结果论证273.3.1 时序挖掘结果初步分析273.3.2 时序分析结果的具体应用333.4应用聚类挖掘分析配额用户的特点333.4.1 聚类挖掘结果初步分析343.4.2 聚类挖掘结果的具体应用38第四章 结 论4
3、14.1应用后的意见反馈414.2不足与展望42参考文献43致 谢45摘 要近年来伴随着中国对外贸易的飞速发展,在纺织品服装类商品这一传统出口优势领域与国外的贸易摩擦日益频繁。作为世界上纺织品第一出口大国,如何积极地引导出口企业将有限的纺织品服装配额资源用足用好,是主管部门面临的一个紧迫的难题。为了实现从事后管理模式向事前预判的模式的转变,就需要将纺织品配额商品出口管理工作与数据挖掘有机结合,帮助管理者透过历年大量的配额商品出口数据,挖掘出隐含的知识,为政策的制定者做出科学的决策提供有力的支持。在分析了外经贸委计划与贸管处对纺织品服装出口管理具体需求的基础上,围绕提高配额使用效率这一管理工作中
4、的核心要素,从挖掘配额资源潜力和甄别配额用户两个方面展开数据挖掘。首先运用关联分析方法了对配额资源进行挖掘,分析了特定配额之间以及配额与非配额商品之间的关联程度,接着选择时序分析对上述挖掘结果从周期性、季节性等角度进行论证,最后运用了聚类分析对不同类型的企业的出口特点进行了挖掘归类。通过对上述几种不同挖掘方法的组合运用,解决了纺织品出口管理工作中的难题,使得管理者可以根据挖掘所得制定出有针对性的管理政策,引导纺织品出口企业在避免贸易摩擦的同时取得利润最大化。关键词:纺织品服装;数据挖掘;配额管理;信息技术ABSTRACTWith the rapid development of foreign
5、 trade recently, the friction between China and other nations on textile and garment exports, which used to be Chinas traditional advantage, is getting more and more frequent. As a leading textile exporting country in the world, its concerned management is facing an urgent problem as how to actively
6、 guide the export enterprises to fully and efficiently use the limited quota. To successfully transfer from a post-judgment style to prejudgment style, the management on the textile quota should work together with the data mining to help the manager to discover the hidden rule and knowledge through
7、the abundant export data in past years and provide the policy-maker with the scientific decision and strong support.Based on the detail request of Shanghai Foreign Economic Relation and Trade Commission (SFERT) Plan and Administrate department on textile and garment exports, and aimed on the key wor
8、k of raising the efficiency on quota, three measures of analysis are taken to discover the quota potential and objective. On quota resources, Association Analysis is introduced to seek the relations among the special quota, quota and non-quota goods; Sequence Analysis is hence introduced to check th
9、e above results from the view of periodicity and seasonal characteristic; Clustering analysis is introduced to classify the exporting features among different exterprises. Combination of three ways of analysis enables the management to solve the tough problems in the work, make the concerned policy
10、to fully and efficiently use the quota and make the maximal profits while avoiding the conflicts.Keywords: Textile and Garment;Data Mining;Quota Management; Information Technology第一章 绪 论我国是世界上纺织品第一出口大国,2004年我国纺织品服装类出口总额为951.3亿美元,与2003年同比增长达20.6%,与2000年相比更是翻了一翻。进入2005年后由于暂时没有了配额数量的限制,1-10月的出口金额便已经突破了
11、950.8亿美元,同比增长22.5% 1。我国的纺织品服装不仅出口金额增幅惊人,高出同期所有商品出口额的增幅22.22个百分点,而且出口金额在各大宗出口商品中的占比也相当高。2004年纺织品服装类商品的出口金额占同期所有商品出口金额的比重为15.5%,纺织业对国民经济的影响力系数,高过全部17个行业的平均值25%。可以说,纺织品服装出口形势的好坏将直接关系到我国国际收支平衡状况。与全国的情况类似,纺织行业一直是上海的传统产业,长期以来在全市的出口创汇中扮演着重要的角色。伴随着将上海建设成为国际经济、金融、贸易、航运中心这一全新的城市定位,上海作为“长三角”地区外贸出口桥头堡的辐射作用日益显现,
12、纺织品服装的出口又焕发了青春,为本市近几年外贸出口连续实现跳跃式地发展做出了相当重要的贡献。上海今年1-10月份纺织品服装出口总金额为111亿美元,同比增长12.2%,占上海同期所有商品出口金额的14.9%2。由于我国的纺织品服装类商品得天独厚的成本优势,所以在国际市场上有着极强的竞争力,为了制衡这种竞争优势,发达国家纷纷通过诸如关税壁垒、配额设限、原产地证明、包装壁垒、环保壁垒等形形色色的方法来限制我国的纺织品服装的出口,其中对我国出口影响最严重的就要数配额设限了。所谓配额,就是一个国家为保护自己的民族工业和经济安全而对有关的进出口货物的数量进行限制的一种措施3。纺织品服装配额属于配额的一种
13、,是由贸易的对象国为保护该国的经济利益,防止我国的纺织服装类商品过多冲击该国的市场而对我国该类产品的出口数量进行限制的一种措施。我国自2001年12月11日加入世贸组织(WTO)后,按照ATC协议的有关规定,在2005年1月1日以后纺织品出口将不再受到配额的数量限制。可是由于我国入世时特保条款的存在(即著名的242条款),情况并没有得到根本性的改善。该条款的最主要内容是:根据中国加入世界贸易组织议定书中纺织品保障条款,从中国加入世界贸易组织之日起,到2008年12月31日止,由于市场扰乱,WTO成员可以对来自中国的纺织品服装实行配额限制4。在2005年1月1日起取消了对我国所有的纺织品配额限制
14、后,输往美国、欧盟等主要传统目标市场的纺织品出口出现了反弹式的激增,美国、欧盟正是根据了242特保条款对我国频繁地展开反倾销调查,给双边纺织品贸易带来了极大的不稳定性,影响了贸易的正常、有序发展。在这种不利的大背景下,我国经过艰苦谈判,最终与欧盟在6月12日签署了中欧纺织品出口协定,与美国在11月8日签署了中美纺织品协议,确定了未来3年内我国的对欧盟、美国的纺织品服装出口限额,从而避免了一场贸易战的爆发5。1.1 纺织品服装配额商品出口管理的现状为了将有限的配额资源用足用好,对相关出口企业的进行正确的引导,加强政府主管部门的管理就显得非常重要。目前纺织品服装配额的管理主要包含如下内容:配额的分
15、配;协调组织纺织品配额招标;各种出口许可证的签证核发;欧盟纺织品原产地证书的申领与签发;清关数据的核对;提供纺织品服装商品出口海关数据查询等等6。配额分配是整个纺织品外贸出口管理工作的核心内容之一。配额分配包括无偿的基数分配和有偿的招标分配两种。配额分配多年来都是按照企业的出口基数进行分配,企业凭借其对设限国家的出口实绩,按照一定比例所获得配额数量。基数一旦确定,则年年都可以使用,数量基本不变。近年来,为了提高配额的使用率,尤其是引导企业提高出口产品的附加值,商务部又对紧俏的配额类别实行了招标分配的方式,即将这些类别数量的30%在全国范围内实施公开招标,由出价高的竞标企业获得这些热点配额数量的
16、使用权7。协调组织纺织品配额招标工作是主管部门的另一项重要工作。外贸主管机关自1998年起对于纺织品配额中比较热门的类别实施了招标有偿使用的方法。由于这种招标是全国性质的,所以不同地区之间就不可避免地产生竞争。为了帮助本地区的企业在竞标过程中能够以尽可能低的中标成本获取尽可能多的数量的配额资源,外贸出口主管部门每次招标之前都要召开招标动员暨投标信息会议,向企业发布有关配额类别的行情信息,分析价格走势,引导、协调企业开展招标工作。外贸出口管理部门除了行使上面提到的配额分配、配额招标两项管理职能之外,平时最主要的事务性工作就要数许可证的申领与签发了。该工作直接面向全市上万家纺织品外贸出口企业,每天
17、要签发近千份的许可证,是外经贸委重要的对外窗口之一。目前主要有纺织品被动配额签证管理系统、纺织品出口临时许可证系统等多个子系统负责具体的功能实现8。1.2 目前的纺织品服装出口管理存在的问题上节介绍了纺织品服装配额的管理主要工作,本节将针对这些工作分析其中存在的问题与不足。在配额分配工作中,传统的基数分配模式存在着不少弊端。如前所述,由于历史的因素,在基数分配的模式下,配额资源大部分由专业外贸公司及大型工业自营企业所垄断,越来越不适应外贸体制改革和外贸经营主体多元化的发展趋势。拥有大量配额资源的大公司由于缺乏成本压力,不思进取,导致配额使用率低下,造成宝贵的配额资源的浪费9。为了打破这种配额分
18、配终身制的弊端,建立奖优罚劣、优胜劣汰的竞争机制,给予有真正经营实力的企业,尤其是那些中小外贸企业、民营私营外贸企业平等获得配额资源的机会,近年已经陆续对21个紧俏的配额类别实行了有偿的招标,用市场的手段来优化配置配额资源,提高配额使用率。这在一定程度上也弥补了传统的基数分配方式的不足。此外,在分配过程中,由于缺乏严密的数据分析支持,往往是凭经验、拍脑袋,分配的结果并不能够真正有效地匹配企业的配额需求。而且这在另一方面也造成了企业为了获得更多的更有价值的配额类别种类,每逢进行配额分配就纷纷进行公关活动,托管系、递条子,间接地为权钱交易、暗箱操作等腐败现象提供了滋生的温床。即便是对部分已经采取了
19、招标分配的类别,在管理中也由于缺乏有效的数据分析,在招标类别的选取、配额招标资格的遴选、投标参考价格的制定等方面也存在着不少的问题。对于日常的签证工作而言,虽然纺织品配额签证管理系统经过7年的升级、改版,已经比较成熟稳定,整个签证系统已经实现了电子化、网络化。但是该系统的应用层次还非常低,仅仅停留在日常事务处理的层面。由于目前我国对欧盟的纺织品出口的监管采取的是自动许可证加欧盟产地证的管理模式,数据是以中国海关以及反馈的欧盟目的国海关的清关数据为准,对于广大企业以及行政管理部门来说该数据明显滞后。要想直接在此基础上动态地跟踪出口清关数据,甚至是对出口动向提前进行预判是非常困难的。更不用说在此基
20、础上进行深层次的数据分析,进行科学的决策了。综上所述,目前纺织品服装出口管理存在的突出问题就是虽然管理者占有大量的数据资源,但是却没有真正拥有这些数据背后隐藏的知识。随着全球一体化进程的不断发展,世界外贸出口市场格局日益复杂,市场竞争越发激烈,各种机遇稍纵即逝。管理部门原来采取的粗放管理模式,已不适应发展需要。改变目前管理工作中所采取的事后管理模式,转而采取更加积极、富有成效地事前预判的模式,在科学分析基础上,及时地制定出能更好的服务外贸企业的政策,引导、协助外贸企业占领国际市场已经成为外贸管理部门非常迫切的要求,而要实现这一目标,引入先进的以数据挖掘技术为代表的商务智能的概念势在必行。1.3
21、 本文的主要内容本文的目标是将纺织品配额商品出口管理工作与数据挖掘有机结合,为政策的制定者做出科学的决策提供有力的支持。经过对纺配管理所涉及的工作进行梳理,发现目前最需要、最有价值进行数据挖掘的主要体现在如下几个方面:配额的分配、招标配额数据分析、许可证数据分析。这些方面的共同特点是都已经积累了相当数量的数据,但是却没有对数据进行深入的挖掘分析,使得大量有用的信息还停留在数据的层面上,并没有在外贸主管部门的政策制定中起到应用的作用。本文在仔细分析上述三个具体应用需求的基础上,发现其核心要素就是提高配额资源的利用率。为了实现这一管理目标,就需要从配额资源和配额用户两个方面展开进一步分析,也就是说
22、,通过对配额资源进行挖掘,充分开发有限配额资源的潜力,通过对配额用户纺织品出口企业进行挖掘,准确把握各类出口企业的特点,确保有限的配额资源能够到最需要、最能体现配额价值的企业手中。具体来说,在挖掘配额资源潜力方面,首先通过应用关联分析展开数据挖掘研究,讨论配额商品之间以及配额商品与非配额商品之间的关联性,尝试找出一条本市重点出口纺织品的关键配额链,同时充分发挥热点招标配额对相关非配额商品的带动效应,进一步增加我市纺织品出口的增长点,接着进一步运用时序分析方法对历年配额出口实际数据展开数据挖掘,通过在季节性、周期性特征等方面的相似性比对,在另一个角度对关联分析得到的关联规则加以验证。在挖掘配额用
23、户特点方面,则采用聚类分析挖掘技术,横向比较各个外贸公司在出口规模、出口单价、配额使用率等方面指标,纵向研究不同类型外贸公司对不同配额的依赖程度,将全市各类外贸企业的出口特点多角度、全方位的呈现在主管部门面前,通过向政策的制定者提供这种全新的“多维立体”的出口数据,推进外贸管理工作决策的科学化,确保合适的配额最终能够分配到合适的企业手中。通过组合运用上述不同的挖掘方法,使管理者能够利用挖掘的到的知识,充分挖掘现有配额资源的潜力,把有限的配额资源有效地向最需要的、最能发挥配额效用的企业倾斜,最终实现提高配额利用率的管理目标。1.4 本文的章节安排本文以数据挖掘在纺织品出口配额管理工作中的应用为背
24、景,针对目前管理模式中的不足,在该领域内引入了数据挖掘,讨论一种比以往更加积极主动的决策管理模式。具体研究内容包括分析纺织品配额管理工作的现状及存在的问题,然后针对上述问题,结合纺织品配额管理工作中的实际需要,建立数据仓库模型,选择关联规则挖掘与关键配额商品关系密切的相关纺织品类别,选择时序数据方法对关联规则挖掘结果在季节性、周期性、相似性等方面进一步印证,选择聚类分析方法挖掘不同出口金额区间内企业构成类型、单价和出口数量特点,通过组合运用上述挖掘方法,最终根据挖掘得到的知识制定出具有针对性的管理政策,引导纺织品出口企业真正把有限的配额资源用在刀刃上,在避免贸易摩擦的同时取得利润最大化。具体来
25、说,本文各章节安排如下: 本章从分析本市纺织品配额管理工作的现状入手,分析了在配额分配、招标配额分析、许可证数据分析等方面的目前管理方式的不足,简单介绍了本文的现实意义。在了解现有管理方式的现状与不足的基础上,第二章简要介绍了作为解决方案所需的数据挖掘方面的基础知识。并重点阐述了关联规则挖掘、时序数据挖掘、聚类分析挖掘几种具体的挖掘方法。第三章在分析了外经贸委计划与贸管处对纺织品配额商品出口管理的具体需求的基础上,运用在第二章中所介绍的数据挖掘的知识及具体挖掘方法,对纺织品配额分配、招标配额数据分析、许可证出口数据分析等管理工作涉及的核心问题提高配额利用率进行了具体挖掘应用,讨论了不同挖掘方法
26、的各自特点以及有机组合运用的优势,给出一套基本涵盖配额商品出口管理工作核心内容的数据挖掘解决方案。最后一章在第三章应用的基础上,总结归纳了数据挖掘在纺织品配额管理工作中应用的特点,同时搜集了采取新的管理政策实施后的具体成效以及外贸公司的反馈意见,最后对目前解决方案中的不足之处进行了分析,并对未来进一步展开数据挖掘的应用方向进行了展望。第二章 数据挖掘常用方法数据挖掘技术近几年来在国内的应用方兴未艾,将该技术应用在纺织品配额管理工作之中是一个全新的、开创性的尝试。在本文展开介绍具体的应用之前,有必要先对什么是数据挖掘技术以及具体的数据挖掘方法进行简单地介绍,并以此作为后面章节的理论基础。2.1
27、数据挖掘的定义及其分类2.1.1 什么是数据挖掘数据挖掘(Data Mining,简记为DM), 又称为数据库中的知识发现(Knowledge Discovery in Database, 简记为KDD),是基于AI、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从关系数据库、数据仓库、WEB数据库以及其他文件系统中提取可信的、新颖的、有效的、人们感兴趣的、能被人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策10。数据挖掘是OLAP(Online Analytical Process
28、ing联机分析处理,简称OLAP)的高级阶段11。数据挖掘的任务是从数据中发现模式,在这里所称的模式,亦即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述12。目前,数据挖掘技术的应用开发在国外已经迅速发展,许多大公司(如Informix, Oracle, IBM等)都投入了巨资对其进行研究,并开发出了一些产品和原型,如DBMiner、Quest、EXPLORA等,数据挖掘目前已经在包括银行、零售行业的应用中取得了丰硕的成果13。与之形成鲜明对比的是,国内在这方面的研究起步比较晚,早期研究的方向多集中于关联规则的挖掘,近来关于时序模式、分类、聚类、WEB数据挖掘等的研究
29、也日益受到重视,并取得了不少可喜的成果,一些原型系统或数据挖掘工具已经研制成功并在不断完善中。2.1.2 数据挖掘模式的分类数据挖掘模式有很多种,按照不同的分类标准,具体的分类也不尽相同。按应用分类则可以分为:预测模型;关联分析;分类分析;聚类分析;序列分析;偏差检测;模式相似性挖掘;Web数据挖掘。囿于篇幅,本节就不做展开,只是简单地解释一下这些应用分类的基础理论知识。1、预测模型所谓预测即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。建立预测模型(Predictive Modeling)的常用方法有回归分析、线性模型、关联规则、决策树预测、遗传算法、神经网络等。2
30、、关联分析关联(Association)规则描述了一组数据项之间的密切度或关系14。关联分析用于发现项目集之间的关联。在关联规则挖掘算法中,通常给出了置信度和支持度两个概念,对于置信度和支持度均大于给定阈值的规则称为强规则,而关联分析主要就是对强规则的挖掘。3、分类分析所谓分类(Classification)是根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。在实际应用过程中,分类规则可以分析分组中数据的各种属性,并找出数据的属性模型,从而确定哪些数据属于哪些组。这样就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。4、聚类分析所谓聚类(Clustering
31、)是指一组彼此间非常“相似”的数据对象的集合。相似的程度可以通过距离函数来表示,由用户或专家指定。聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。每一个分组中的数据相近,不同分组之间的数据相差较大。好的聚类方法可以产生高质量的聚类,保证每一聚类内部的相似性很高,而各聚类之间的相似性很低。5、序列分析序列(Sequence)分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。例如,它可以导出类似“若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的
32、关联模型,它在关联模型中增加了时间属性。6、偏差检测偏差检测(Deviation Detection)用于检测并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。7、模式相似性挖掘用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户定义范围内的对象;或找出所有元素对,元素对中两者的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。8、Web数据挖掘万维网是一个巨大的、分布广泛的和全球性的信息服务中心,其中包含了丰富的超链接信息,为数据挖掘提供了丰富的资源。Web数据挖掘包括:Web使用模式挖
33、掘、Web结构挖掘、Web内容挖掘三种挖掘类型。目前基于Web的研究方向主要集中在搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取、Web上新型应用的研究等方面。2.2 几种具体的数据挖掘方法在本节中,将以前面介绍的理论为基础,再介绍几种具体的数据挖掘方法。2.2.1 关联规则数据挖掘方法关联规则挖掘近几年研究较多。现在,关联规则的挖掘已经从单一概念层次关联规则的发现发展到多概念层次的关联规则的发现,并把研究的重点放在提高算法的效率和规模可收缩性上。它广泛地运用于帮助市场导向、商品目录设计客户关系管理(CRM)和其他各种商业决策过程中。关联(Associations)分析
34、的目的是为了挖掘隐藏在数据间的相互关系,即对于给定的一组项目和一个记录集,通过对记录集的分析,得出项目集中的项目之间的相关性15。项目之间的相关性用关联规则来描述,关联规则反映了一组数据项之间的密切程度或关系。为了使后文的阐述更容易理解,这里先引入几个定义。定义1 令I=i1,i2,,in是项目集,D是全体事务的集合。事务T是I上的一个子集,集合T包含在I中,每个事务用唯一的标志TID来标识。关联规则是形如X =Y的蕴含式,其中X真包含在I中,Y真包含在I中,且X与Y没有非空交集,X称为规则的条件,Y称为规则的结果。定义2 关联规则 X =Y对事务集D的支持度(support)定义为D中包含有
35、事务X和Y的百分比。关联规则X =Y对事务集合D的置信度(confidence)定义为D中包含有X的事务数与同时包含Y的百分比。即:support(X =Y)(包含X和Y的事务数 / 事务总数)100confidence(X =Y)(包含X和Y的事务数 / 包含X的事务数)100定义3 置信度和支持度均大于给定阈值(即最小置信度阈值和最小支持度阈值)。即:support(X =Y) min_supconfidence(X =Y) min_conf 的关联规则称为强规则;否则称为弱规则。在关联规则分析中数据挖掘主要就是对强规则的挖掘。通过设置最小支持度和最小置信度可以了解某些数据之间的关联程度。
36、强规则X =Y对应的项集必定是频繁集。因此,可以把关联规则挖掘划分为以下两个子问题:1、核心问题:根据最小支持度找出事务集D中的所有频繁项集;2、较易解决的问题:根据频繁项集和最小置信度产生关联规则。在了解了有关关联规则的几个定义后,再来理解关联规则挖掘就容易多了,所谓关联规则挖掘就是指给定一组Item和记录集合,挖掘出Item间的相关性,使其置信度和支持度分别大于用户给定的最小置信度和、最小支持度16。根据划分标准的不同,关联规则挖掘的可以有如下几种分类:1、基于规则中处理的变量的类别基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。所谓布尔型关联规则,就是指如果规则考虑的关联是项
37、“在”或“不在”,则关联规则是布尔型的。例如,由购物篮分析得出的关联规则。所谓量化(数值)型关联规则,指的是如果描述的是量化的项或属性之间的关联,则该规则是量化型的关联规则。2、基于规则中数据的抽象层次基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。单层的关联规则指得是所有的变量都不涉及不同抽象层次的项或属性。多层的关联规则指得是变量涉及不同抽象层次的项或属性。3、基于规则中涉及到的数据的维数基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。单维关联规则是指处理单个维中属性间的关系,即在单维的关联规则中,只涉及到数据的一个维。多维关联规则是指处理多个维中属性之间的关系
38、,即在多维的关联规则中,要处理的数据将会涉及多个维。给出了关联规则的分类之后,接下来就可以考虑某个具体的关联规则挖掘算法适用于哪一类规则的挖掘,某类关联规则又可以用哪些不同的方法进行处理。最简单的是单维、单层、布尔型的关联规则。前文已经指出关联规则挖掘即给定一组Item和记录集合,挖掘出Item间的相关性,使其置信度和支持度分别大于用户给定的最小置信度和最小支持度。具体而言,在关联规则挖掘算法中,把项目的集合称为项集(itemset),包含有k个项目的项集称为k-项集。包含项集的事务数称为项集的出现频率,简称为项集的频率或支持度计数。如果项集的出现频率大于或等于最小支持度s与D中事务总数的乘积
39、,则称该项集满足最小支持度s。如果项集满足最小支持度,则称该项集为频繁项集(frequent itemset )。关联规则的挖掘主要被分解为下面两步:1、找出所有的频繁项集,即找出支持度大于或等于给定的最小支持度阈值的所有项集。可以从1到k递归查找k-频繁项集。2、由频繁项集产生强关联规则,即找出满足最小支持度和最小置信度的关联规则。对给定的L,如果其非空子集A真包含于L,sup(L)为L的支持度,sup(A)为A的支持度,则产生形式为A =L-A的规则。下面就根据实际应用重点介绍一下关联规则挖掘的Apriori算法。Apriori算法是一种最有影响的挖掘布尔型关联规则频繁项集的算法。它的各种
40、变形,用于提高算法的效率和可伸缩性。在说明Apriori算法之前,有必要先介绍一下频繁项集的性质,即Apriori性质:频繁项集的所有非空子集都必须是频繁的。Apriori性质基于如下事实:根据定义,如果项集I不满足最小支持度阈值min_sup,则I 不是频繁的,即sup(I) min_sup。如果将项A添加到I, 则结果项集(即IA)不可能比I更频繁出现。因此,IA也不是频繁的,即sup(IA) min_sup。频繁项集的Apriori性质用于压缩搜索空间(剪枝),以提高逐层产生频繁项集的效率。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。它使用一种称作逐层搜索的迭代算法
41、,k-项集用于探索(k+1)-项集。其基本思想是:1、通过扫描数据集,产生一个大的候选数据项集,并计算每个候选数据项发生的次数,然后基于预先给定的最小支持度生成频繁1-项集的集合,该集合记作L1;2、基于L1和数据集中的数据,产生频繁2-项集L2;3、用同样的方法,直到生成频繁n-项集Ln,其中已不再可能生成满足最小支持度的(n+1)项集;4、从频繁项集中导出规则。进一步分析,我们可以看从中看出Apriori算法中的关键步骤是由Lk-1找Lk,该步骤又可分为两步:1、连接为找Lk,通过Lk-1与自己连接产生候选K-项集的集合。将该候选项集的集合记作Ck。设l1和l2是Lk-1中的项集,记号li
42、 j表示li的第j项。执行连接Lk-1和Lk-1,其中Lk-1的元素是可连接,如果它们前(k-2)个项相同而且第(k-2)项不同(为简单计,设l1k-1l2k-1),即:l11= l21 l12=l22l1k-2=l2k-2 l1k-1l2k-1则Lk-1的元素l1和l2是可连接的。连接l1和l2产生的结果的项集是l11l12l1k-1l2k-1。2、剪枝Ck是Lk的超集,即它的成员可以是也可以不是频繁的,但所有的频繁k-项集都包含在Ck中。扫描数据库,确定Ck中每个候选的计数,从而确定Lk。然而,Ck可能很大,这样所涉及的计算量就很大。为压缩Ck,可以用以下办法使用Apriori性质:任何非
43、频繁的(k-1)-项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的,从而可以由Ck中删除。在实际运用中有一点需要注意, 那就是Apriori的候选产生检查方法大幅度压缩了候选项集的大小,并导致很好的性能。然而,它有两种开销可能并非微不足道的。首先,它可能产生大量候选项集。例如,如果有104个频繁1项集,则需要产生107个频繁2项集,并累计和检查其频繁性;为发现长度为100的频繁模式a1,a2,a100,则需产生多达约1030个候选。其次,它可能需要重复的扫描数据库,通过模式匹配检查一个很大的候选集合。为了提高Apriori算
44、法的效率,已经提出了许多Apriori算法的变形,这里囿于篇幅就不再进一步展开了。2.2.2 聚类分析数据挖掘方法聚类(clustering)是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。在许多应用场合,可以将一个蔟中的对象作为一个整体来对待17。聚类与分类不同的是,它要划分的类是未知的。即聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例。由于这个原因,聚类是观察式学习,而不是示例式学习。聚类分析已经广泛的用在许多应用中,包括
45、模式识别、数据分析、图象处理以及市场研究。通过聚类,人能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系。以下是聚类分析的几种典型应用。1、商业帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式描述不同客户群的特征。2、生物学推导植物或动物的分类,对基于进行分类,获得对种群中固有结构的认识。3、WEB文档分类通过对客户浏览行为进行分类,获得不同客户群体的各自的浏览特征。4、其他如地球观测数据库中相似地区的确定;各类保险投保人的分组;一个城市中不同类型、价值、地理位置房子的分组等。5、作为其他数据挖掘算法的预处理即先进行聚类,然后再进行分类等其
46、他的数据挖掘。聚类分析是一种数据简化技术,它把基于相似数据特征的变量或个案组合在一起。聚类分析源于许多研究领域,包括数据挖掘、统计学、生物学以及机器学习。作为统计学的一个分支,聚类分析已经被广泛的研究了许多年,主要集中在基于距离的聚类分析。基于K-means(K-平均值)、K-medoids(K-中心点)和其他一些方法的聚类分析工具已经被加入到许多统计分析包或系统中。在数据挖掘领域,关于聚类分析的研究工作主要集中在为大型数据库寻找适当和有效的聚类分析方法。活跃的研究主题集中在聚类方法的可伸缩性、方法对聚类复杂形状和类型的数据的有效性、高维聚类分析技术以及针对大型数据库中混合数值和分类数据的聚类
47、方法。目前存在很多聚类算法。算法的选择取决于数据的类型、聚类的目的和应用。如果聚类分析被用做描述或探察的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。主要的聚类分析方法有:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法。下面着重介绍一下基于划分的方法。划分方法(partitioning method)的基本思想是对于给定一个n个对象或元组的数据库,用一个划分方法构建数据的k个划分,每个划分表示一个聚簇,并且kn。也就是说,它将数据划分成为k个组,同时满足如下要求:1、每个组至少包括一个对象;2、每个对象必须属于且只属于一个组。为了达到全局最优,基于划分的聚类会要求穷举所有可能的划分。实际上,绝大多数应用采用了以下两个比较流行的启发式方式:1、K-平均算法。在该算法当中,每个簇用该簇中对象的平均值来表示。2、K-中心点算法。在该算法中每个簇用接近聚类中心的一个对象来表示。K-平均算法基于质心的技术,即以k为参数,把n个对象分为k个簇,以使簇内具有较高的相似度,而簇间的相似度较低。相似度的计算根据一个簇中对象的平均值来进行。K-平均算法的处理流程如下:首先随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象,根据