1、图索引图1-1 IPRA 的功能 图 .: .13图1-2论文流程图 16图2-1径向基函数神经网络 .19图3-1金达布业ERP的体系结构图 .34图3-2金达布业ERP系统主界面 .34图3-3 ERP数据挖掘系统功能流程图 36图3-4数据仓库的设计 .38图3-5自上而下和自下而上架构(数据仓库和数据集市的构建方式 ) 39图3-6 ERP系统和数据仓库集成的方式 43图3-7数辦仓库和数据挖掘系统的集成方式 .45图3-8集成的数据挖掘引擎架构 .46图3-9 ERP数据挖掘系统整体架构 46图3-10供应商评价指标 .48图4-1数据挖掘原型系统的环境 .52图4-2 ERP数据挖
2、掘系统架构 .; .54图4-3数据库连接界面 .55图4-4数据读取界面 .56图4-5测试样本期望输出与实际输出比较 .56图4-6改进算法的测试样本期望输出与实际输出比较 .57表索引表1-1国内外ERP厂商产品功能分析 11表3-1 Cluster 的定 义范例 49浙江工业大学学位论文原创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工 作所取得的研究成果。除文中己经加以标注引用的内容外,本论文不包含其他个 人或集体已经发表或撰写过的研究成果,也不含为获得浙江工业大学或其它教育 机构的学位证书而使用过的材料-对本文的研究作出重要贡献的个人和集体,均 己在文中以
3、明确方式标明。本人承担本声明的法律责任。作者签名日期:年P月学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被査阅和借 阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密, 在 _年解密后适用本授权书。2、不保密El 。(请在以上相应方框内打“ J”)作者签名日期:1:年丨月叶日 导师签名日期:年月日曰第一章绪论1.1论文背景与动机自十八世纪工业革命以来,手工业作坊向工厂生产的方向迅速发
4、展,出现了 制造业随之而来的是,所有的企业几乎无一例外地追求着基本相似的运营目标, 即在给定的资金、设备和人才的前提下,追求尽可能大的有效产出,或在市场容 量的限制下,追求尽可能少的人力、物力和财力的投入,或追求最佳的投入、产 出比,其目的就是为了追求企业资源的合理有效配置,提髙企业的利润,增强企 业的竞争力。对这一基本目标的追求使企业管理者面临一系列的挑战:生产计划的合理 性、库存的有效管理、作业的均衡安排、市场的准确预测等等,日趋激烈的市场 竞争使上述挑战对企业具有生死存亡的意义。于是,应对上述挑战的各种理论和 技术也就应运而生了,特别是二十世纪五十年代中期,计算机的商业化应用开辟 了企业
5、管理信息处理的新纪元,对企业管理所采用的方法产生了深远的影响,随 之而来也就出现了 MRP(VIaterial Resource P丨aiming) 和 ERP(Enterprise Resource Planning)等一系列先进的企业资源信息管理系统。成功实施了 ERP系统的企业 的经验表明,ERP能合理调配企业资源,减少库存,提髙生产率,降低成本,增 强竞争力,给企业带来巨大的经济效益。但是,面对越来越错综复杂的市场环境,在决策分析和预测功能方面,传统 的ERP仍然存在着明显的不足,主要表现在:1.传统的ERP系统,主要功能集中在企业生产经营的事务处理上,对人力、 财力和物力的资源分配和
6、运用进行优化。面对ERP系统运作过程中积累 却未能很好利用:2.传统的ERP系统中,管理人员使用模拟数据进行决策分析,这种方法过 于依赖主观经验,不能对市场的变化做出准确和迅速的反应,不能满足 现在的大型企业的需求。在这样的市场环境下,作为我国传统制造型企业的纺织企业,既面临着机遇, 也面临着挑战。紐织企业在我国的国民经济发展中一直占据着重要地位,棉纱、 棉布、呢线、丝织品、服装等产量均占世界第一位,是一个对国民经济有突出贡 献的制造行业。在銷织企业中,“多品种,小匹量”的家坊私营企业又是一个非 常重要的部分。然而随着规模的r大,这些企业都面临着一个同样的问题,以前 的“家长式”管理受到了极大
7、的挑战,从某种程度上已经限制了企业的发展,也 就是说,旧的管理模式已成为它们发展的瓶颈。为了摆脱这种困境,企业家们已 经认识到,企业要发展,必须上信息化系统,来改善对企业的管理。金达布业有限公司,是浙江省杭州市余杭区的一家生产家用纺织品的制造型 企业,本人在参与调研和开发该企业ERP系统的过程中发现,目前我国的家结 企业面临的主要问题有:1) 工厂的生产能力是足够的,可交货期却一拖再拖,不能按期交货;2) 跟客户签订合同时,只是凭经验确定交货期,而没一个更好、更科学的 办法来确定交货期;3) 假设企业每月生产100吨的产品,可原材料的库存往往达500吨之多;4) 不能够准确知道:每一个订单执行
8、到哪一步了?会不会缺料?能不能按 时交货?有多少在制品?每天的投入产出比是多少?各部门、班组、员 工、设备的绩效怎样?5) 每天生产许多产品,需要多种原料,只能靠手工计算原料需求量和需求 时间,况且原料的库存情况都不清楚,.如何能准确计算原料需求量和需 求时间?6) 面对几百台机器,上万种产品,只能够靠手工进行生产雜程,往往造成 生产排程混乱。因此,利用信息技术改造企业的管理,实现管理的创新,加强企业内部管理, 挖掘企业内部潜力,提髙管理效率,实现企业内部管理系统的整合,对于企业的 生存与发展显得尤其必要。在实现企业内部管理系统整合的基础上,进行和外部 供应链的整合,从而实现信息的快速共享,使
9、我国的坊织企业在全球化的大潮中 不但能生存下去,而且能成为赢家。2003年,金达布业有限公司开始实施ERP工程,于2004年ERP系统正式 运行,通过第一年的运行,该公司在经营方面取得显著效果:1) 原料库存下降30%-40%,由一年前的450吨一500吨,下降 为300350 吨:2) 无单库存下降90%,由一年前的20万米下降为5万米;3) 延期交货率下降80%,目前的延期交货率为1514) 采购提前期缩短50%,目前的采购提前期为m5) 停工待料情况减少80%,目前的停工待料为50%;6) 制造成本显著降低,降低了 12%;但是,我们在看到ERP系统为企业带来经济效益的同时,也看到ERP
10、系统 没能解决的问题:1) 延期交货率依然髙达15%:2) 停工待料率依然髙达50%;这两个问题为什么在上了ERP系统之后没有解决呢?究其原因,主要在于传 统ERP系统主要关注的是事务处理,尽管ERP系统中积累了大量的数据,但缺乏 科学有效的数据析取和数据挖掘过程,以及在此基础上的数据智能化处理,因此 数据量虽大但其价值却没有充分发挥出来,对于企业生产和经营的决策支持并无 多大帮助。最突出的原因就是,企业在进行供应链合作伙伴的选择时,一直沿用 传统的手工方式,主要考虑价格因素,没有考虑到相应的供应能力以及合作伙伴 的信用等级和产品的质量等级等因素,这样的选择方式不仅耗时而且效率低下, 所选择的
11、供应链合作伙伴往往不是最佳的,以至于造成延期交货和停工待料等后 果C为了解决金达布业实施ERP系统之后出现的问题,我们将数据挖掘技术引入 该ERP系统,结合数据仓库和OLAP(On-Line Analytical Processing)技术,设计并 实现了一个将家紡企业ERP系统与数据仓库和OLAP技术集成的数据挖掘系统, 充分利用ERP系统中积累的数据,利用数据挖掘技术挖掘出该家结企业潜在的 最佳的供应链合作伙伴,从而提高合作伙伴的选择效率,为企业提供决策支持。 在数据挖掘引擎部分,釆用RBF (Radial Basis Function)神经 网络中最近邻动态聚类的学习算法对供应链合作伙伴
12、进行分类,并结合k.prototype聚类算法中对于 分类型数据的处理方法,对最近邻动态聚类的学习算法进行改进使其更好地处 理ERP系统中的混合型数据(数值型数据和分类型数据 本论文所介绍的就是我们在这方面所做的工作。1.2研究现状1.2.1 ERP系统的发展现状 1.2.1.1 ERP的发展历史20世纪90年代以来,企业信息处理量不断加大,企业资源管理的复杂化也 不断加大,这要求信息的处理有更高的效率,传统的管理方(难以适应,而只能 依靠计算机系统来实现,信息的集成度要求扩大到企业的整个资源的利用和管 理,从而产生了新一代的管理理论与计算机系统一一企业资源计划(ERP)。ERP 的形成主要经
13、历了五个阶段:基本MRP阶段、闭环MRP阶段、MRPII阶段、 ERP阶段以及ERPII 阶段。 一、基本MRP 阶段20世纪60年代,美国IBM公司的管理专家约瑟夫奥列基博士首先提出了 MRP的 维形。基本MRP 的思想是 围绕所要生产的产品,应当在正确的时间和地 点,按照规定的数量得到真正需要的物料;通过按照各种物料真正需耍的时间来 确定订货和生产日期,以避免造成库存积压。基本_阶段解决了库存控制问 题。二、闭环MRP 阶段随着基本MRP 应用的不断扩展,其方法也逐渐显示出它的一 钱不足之处。 基本MRP 能根据有关数据计算出相关物料需求的准确时间与数量 但主要缺陷 是没有考虑到生产企业现
14、有的生产能力和采购的有关条件的约束。因此计算出 来的物料需求的日期有可能因设备和工时的不足而没有能力生产,或者因原料的 不足而无法生产。同时,它也缺乏根据计划实施情况的反馈信息对计划进行调整 的功能。的功能。,正是为了解决以上问题,MRP系统在七十年代发展为闭环MRP系统。闭环 MRP系 统除了物料需求计划外,还将生产能力需求计划、车间 作业计划和釆购 作业计划也全部纳入MRP,形成一个封闭的系统。三、MRPn阶段闭环MRP 系统的出现,使生产活动方面的各种子系统得到了 统一。但这还 不够,因为在企业的管理中,生产管理只是一个方面,它所涉及的仅仅是物流, 而与物流密切相关的还有资金流。这在许多
15、企业是由财务人员另行管理的,这就 造成了数据的重复录入与存储,甚至造成数据的不一致性。于是,在八十年代, 人们把生产、财务、销售、工程技术、采购等各个子系统集成为一个一体化的系 统并称为制造资源计划(Manufacturing Resource Planning)系统,英文缩写为 MRP,为 了区别 物料需求计划而记为MRPII。四、ERP阶段20世纪90年代初,美国的Gartner Group公司首先提出了企业资源计划 (Enterprise Resource Planning,简称 ERP)的概念。ERP 是在 MRP 11 的基础上发展 起来的,最初它是基于企业内部供应链的管理,将企业内
16、部生产经营的所有业务 纳入一条供应链内进行管理。随着市场竞争的加剧和全球经济的一体化,管理专 家发现单个企业不具有竞争优势,必须联合该行业中其他上下游企业,建立一条 经济利益相连的扩展供应链实现优势互补,共同增加市场竞争力丨 2-3 。五、ERpn阶段随着信息技术应用需求的发展,ERP在技术上遇到了若干新问题,促使ERP 的新发展。2000年Gartner Group提出了 ERP丨丨的新概念。ERPII几乎包括了企 业所有的经营流程,有机集成了企业前、后台的全部资源,几乎适用于所有的企 业,而不象ERP对行业具有一定的局限性。ERPII的另一特点是引入了 “协同 商务”的概念,协同商务是指企
17、业可在同一个电子商务平台上与多家合作伙伴共 享、交换信息,它还可帮助企业尽快找到满意的合作伙伴。ERPII是一个开放的 结构,不仅 允许ERP本身不断的扩展新的功 t旨,如 CRMCustonier Relationship Management), SCM(Supply Chain Management),而 且还可以和别的应用软件进行集成。ERPII的出现,是企业 的资源管理和信息管 理更进一步,并促进传统企业向“信息化企业”转换,1.2.1.2国外ERP产品的发展现状目前ERP还在不断地吸收先进的管理思想和计算机技术,处于不停的完善了 发展之中。SAP公司是ERP思想的倡导者,成立于19
18、72年,总部设在德国南部 的沃尔道夫市,SAP的主打产品R/3是用于分布式客户11/服务器环境的标准1? 软件;Oracle公司是全球最大的 应用软件供应商,成立于1977年,总部设在美 国加州,Oracle主打管理软件 产品Oracle Applications Rlli是目前全面集成的电 子商务套件之一,能够使企业经营的各个方面全面自动化。90年代中期出现了 数据仓库DW(Data Warehouse)和联机分折处理OLAP技术,新一代的ERP软件 立即将其综合进去,为用户提供企业级宏观决策的分析工具。Oracle的 Manufacturing SC10 版本的“Application D
19、ata Warehouse 应用数据仓库“模块就 是一个功能强大的基于DW和OLAP技术的决策支持集成环境。SAP利用它的 业务应用程序接口 BAP丨将第三方的DSS (决策支持系统)和OLAP软件集成 进来,Infonnation Builder公司为R/3的用户提供数据仓库软件包,Business Objects与SAP 联 合开发了一个 针对Ry3的集综合查询、报表和OLAP为一体 的DSS版本。1.2.1.3国内ERP的发展现状ERP管理思想和方法从上世纪九十年代初进入中国。十几年来,ERP软件在 国内企业的应用有了较大的发展,但从总体上看,由于国内企业自身发展的周限, 我国企业应用水
20、平比发达国家同类企业差距大,成行业的ERP应用成功的案例 不多,与ERP应用相配套的企业咨询、顾问服务体系刚幵始建立,ERP应用知 识普及不够。至今为止,ERP系统在国内实际上并没有真正得到普及。由于我国大多数企业,特别是国有企业正处在建立现代企业制度的过渡阶 段,管理水平、方法和基础都与发达国家有一定的差距,目前ERP实施成功率 还不高,加上实施ERP需要较大的投入,许多企业还在观望和徘徊。在发达国 家,ERP应用相当普及,效益显著,但在这方面,我国企业与发达国家的企业还 存在差距。国家“十五”规划提出了 “以信息化带动工业 化”的战略决策,加大 了推进企业信息化的力度,许多省市出台了支持企
21、业信息化的优惠政策和措施;ERP软件技术日趋成熟,实施成功的案例增多,企业实施ERP的信心增强;以 上原因正在促成国内ERP市场逐步进入快速发展期。许多经济学家预测中国将 成为二十一世纪全球的制造中心,作为ERP主要应用对象的制造业将会有快速 的发展。因此,在今后相当长的时期内,我国ERP软件市场将持续、高速增长,和国 外相比,国内ERP软件的起步较晚,但是当前中国的企业应用“ERP的成功案例 逐渐多了起来,企业IT应用经验相对成熟,开始考虑将数据 仓库、OLAP 技术 集成到ERP软件中来。我国的ERP软件正在不断增强实现各个业务系统的协同 的能力,最新的决策支持系统DSS、数据念库与联机分
22、析处理OLAP、商务BI 等技术就是要对各个模块进行整合的手段。通过数据大集中,帮助实现协同管理。 用友RTE、浪潮通 软myGS 、金蝶EAS套件等产品正朝着这个方向发展。在结织企业ERP发展方面,国外ERP软件虽然成熟度髙、包含完整的管理 思想、功能齐全、标准化程度高、都已经实现了商品化,象SAP、Oracle等在世 界上拥有较大的用户群,但要适应中国坊织企业的规模、适合行业的应用特点、 满足不同企业的差异性需求、符合国内的管理规范和使用习惯,在本地化方面要 做大量的工作,在成功应用于若干国内试点企业之后才能推广。坊织行业里的种 类很多,针对不同企业的特点,应该有不同的ERP软件来适应它。
23、这就需要ERP 厂商在行业管理部门的协助下,选择龙头企业作为试点,投入力量,在两三年内 开发出符合坊织某些重点行业(如服装、化纤、棉坊、家坊)特点的行业版本, 适合这些行业企业的生产流程、生产类型、制造方式,并结合SCM、CRM 等功 能,构建广义的供应链管理系统和电子商务平台,形成配套的企业管理系歹I软件 产品。只有这样做,才能更好地促进我们妨织行业的信息化发展。1.2.2数据挖掘按术的发展现状 1.2.2.1国外现状虽然数据库中的知识发现术语于80年代末提出,但是知识发现的历史可追 溯到人类的出现,人类社会科学的发展也是发现的过程。在现代计算机问世很早 以前,从发现九大行星及开普勒定律到理
24、想气体定律,从发现欧姆定律到髙分子 材料的分子结构,无一不是一个从长期积累的大量观测实验数据发现新知识的过 程。只不过当时科学家们是依靠自身的智慧,直接对数据进行处理而达到科学发 现的目的。随着社会的发展,各种信息量急剧膨胀,人工处理这些信息资源已不 能跟上需要。计算机的应用,尤其是人工智能技术的研究和相关学科的发展为进 行数据挖掘的研究打下了坚实的基础,数据库技术的出现和发展更为数据挖掘的 发展提供了广阔的研究应用天地。国际上第一次关于数据挖掘与知识发现的专题研讨会Workshop于1989 年8月在美国底特律召开,当时仅有数十人参加,KDD (Knowledge Discovery in
25、Database)词就是在此次学 术 会议上正式提出的。而后由于 KDD在学术界和 工业界的影响越来越大,KDD组委会于1995年把专题研讨会提升为国际学术大 会(International Conference on Data Mining c,到聚类中心V,的距离,J(f/,F) 表示了各类样本至Ij 聚类 中心的距离平方和。聚类准则就是寻找最佳组对使J(J/,r)为最小。 AU,V)的最小优化问题最常用的 箅法如下:231) 确定聚类类别数c ,l ,j =1, 2, ., n, 为隐层节点数,通 过Konhonen自组织映射算法来选取基函数的中心,对于某个隐单元输出的邻E为;V 。,N
26、 c为以节点C为中心的隐单元输出集合,邻区大小在算法中是可变的。 现将Konhonen算法总结如下:6) 如分为,类,则从输入样本中均匀地抽样来初始化V,., j =1,2,6) 对于一个输入样本矢量,确定匹配最佳的隐单元C ,即有(2.6)2425|x-vJHmin|je-vJ|,其中y取遍所有的隐单元;(3)修正匹配最佳隐单元的A e集合中每个隐单元的连接权矢量,从而 进一步 提高匹配程度,迭代式为v/+i)6) 随着迭代次数的增加,逐渐减少修正率a,,邻区集合iV。;6) 以一个合适的矩阵范数比较和v/), 停止, 否则返回(2)。利用上述算法,最终得到的Vy即为输入数据的中心,j =1
27、,2,.,乂)开始,在P上建立一个聚类 中心,令C, =A(l)= y. B(l)=l.这样建立的RBF网络,只有一个隐层单元,该隐 层单元的中心是C,,该隐层单元到输出层的权矢量为=A1)/ B(l)。6) 考虑第二个样本数据对/),求出X 2到这个聚类中心的距离 |丨工2 -cj。 如果丨丨11 S r,则为的最近邻聚类,且令A(l)= y+ / B(l)=2, wl=A(l)/B(l);如果丨丨 r, 则将x作为一个新的聚类中心,并令C广X A(2)= /,B(2)=l 。在上述建立的RBF网络中再添加一个隐层单元,该隐层单元到输出层的权矢量 为 W2 = A(2)/B(2)6) 假设我们考虑第k 个样本数据对(X、/)(k=3, 4, N)时,存在M 个聚类中心,其中心点分别为C ” ., c,在上述简历的RBF 网络中已有M个隐层单元。再分别求出x k到这M个聚类中心的距离II i=l,2 , ., M,设1 1?II为这些距离中的最小距离,即Cy为jct的最近邻聚类,则:如果则将xH乍为一个新聚类中心。令=