收藏 分享(赏)

数学建模之模糊数学(老师推荐).doc

上传人:hskm5268 文档编号:9306826 上传时间:2019-08-01 格式:DOC 页数:6 大小:225.50KB
下载 相关 举报
数学建模之模糊数学(老师推荐).doc_第1页
第1页 / 共6页
数学建模之模糊数学(老师推荐).doc_第2页
第2页 / 共6页
数学建模之模糊数学(老师推荐).doc_第3页
第3页 / 共6页
数学建模之模糊数学(老师推荐).doc_第4页
第4页 / 共6页
数学建模之模糊数学(老师推荐).doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、 1三种典型聚类算法在职员评定中的应用摘要:通过利用三种典型算法:Q型模糊聚类算法、K-Means 算法及 K-medians算法,对公司职员的年终评定进行应用分析,得到了不同的聚类结果,通过对结果的分析比较、探讨,得出针对不同问题,应结合实际,有针对性地用不同算法更适合。并在此基础上,对聚类算法的聚类过程、本文后续工作进行了探讨总结。关键词:数据挖掘,聚类分析,Q-型模糊聚类,K-means算法,K-medians算法中图分类号:O235 文献标识码:A 1 前言随着信息化进程的发展,如何借助计算机的强大处理功能,从海量的繁杂数据中发现对我们有意义的信息并指导我们对研究工作做出更为准确、有效

2、的预测和决策,这正是数据挖掘技术需要解决的问题。其中,聚类分析就是依据数据对象之间的关系及特点,使得同一组内的对象具有较大的相似性,不同组中的对象具有较高的相异性 1 ,解决大量数据间的某种分类关系问题的一种重要方法。2三种典型聚类算法聚类算法有多种,本文选取三种主要的分类算法,从中探讨它们的异同,得出相关主要结论。2.1 Q-型模糊聚类算法聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量指标进行分类处理,Q型是对样品进行分类处理,以下简单对Q型聚类进行阐述。2.1.1 建立模糊关系中的元素 与 的接近程度,称为相似系数 (其中 )。相似系数 构成的Xixj ijr0,1ijijr

3、模糊矩阵 是 上的模糊关系。其中确定相似系数 的方法很多。()ijnr ij在实际的聚类问题中,先通过数据标准化后,通过建立 上的模糊关系或模糊相似X关系,以模糊相似矩阵为基础来讨论分类问题,然后用最大树法进行分类,根据阀值即可得出聚类结果。2.1.2 结果评价准则为了评价聚类结果的好坏,需要定义准则函数,聚类问题转化为使准则函数取极值的优化问题。一般的聚类分析要解决两个问题,一个是如何确定类的个数,即把n个样本聚成多少类才合适,另一个是在给定类的个数c的情况下,如何把n个样本聚成c个类。针对第一种问题,在模糊聚类分析中,对于不同的 ,可以得到不同的分类,从0,12而形成动态模糊聚类图。但许多

4、实际问题中如何根据 的值来确定样本的具体分类。常用的两种方法有 2:(1) 按照实际需要,由专家结合专业知识来确定值 ,得出在水平上的等价分类。(2) 用 F统计量确定最佳值 。设论域 为样本空间(样本总数为 n),而每个样本 由 m 个特征(即12,.nUx ix由试验或观察得到的 m 个数据): 。得到原始数据矩阵,其12,.(1,2.)iiimxx中 称为总体样本的中心向量。1(,.)nkikx设对应于 值的分类数为 r,第 j 类的样本数为 ,第 j 类的样本记为:jn第 j 类的聚类中心为向量 ,其中 为第 k 个特征的()()12,.,jjn ()()()12jjmxx()kjx平

5、均值:()()11,2.)jjjkiknixxm作 F统计量F , (1)2()12()11)()rjjnjrjijxrxnr其中 为类内样本间的距离。(1)()()2 ()()1mj j jjk ixx 为 类 与 类 之 间 的 距 离 ,式遵从自由度为(r1,nr)的 F分布。因此, F 值越大,说明类与类之间的距离越大,表明类与类之间的差异越大,分类就越好。如果 F ,则根据数理统计分析理论知道类与类之间差异是显(1,)0.5rn著的,说明分类比较合理,如果满足不等式 F 的 F值不止一个,(1,)0.5rn则可以进一步考查差(F-F a)的大小,从较大者中找一个满意的 F 值就行了,

6、即就圆满的解决了存在的第一个问题。2.2 k-means聚类算法 K-means即K均值聚类算法。该算法根据聚类中心的均值进行分类划分,其处理过程如下:首先,随机选择k个对象,初始代表一个类的中心值。其次,对剩余的每个对象,根据其与类中心的距离,将它赋予最近的类,然后重新计算每个类的平均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:321ikiiPCEpm impi其中,E 表示所有聚类对象的平方误差的和,p 是聚类对象,m i是类 Ci的各聚类对象的平均值, 表示类 Ci的聚类对象的数目。iC由于该方法对初值敏感,不同的初值、种子点、聚类个数K、初始划分等都可能

7、会导致不同的聚类结果,此外,均值体现的是数据集的整体特征,而掩盖了数据本身的特性,由于目标函数局部极小值点的存在,该算法可能会陷入局部最优,无法达到全局最优,因此应用范围有一定的局限性。2.3 K-medians聚类算法K-medians方法的基本策略是通过避免孤立点,而选择类中最中心的对象作为参照点,然后计算其它点与这些参照点的距离,再按照距离重新聚类,分配给最近的一个簇,直到数据点不再改变所属的类为止,以此改进聚类的质量。聚类结果的质量用一个代价函数来估算,该函数可以度量对象与其参照对象之间的平均相似度。与均值方法比较,这种划分方法,不采用簇中对象的平均值来作为参照点,而是找出簇中位置最中

8、心的对象,即中心点来代表簇,然后通过分组排序。该方法也是基于最小化(最大化)所有对象与其参照点之间的相似度之和的原则来执行的,适用于类数固定,偏好球形的聚类 3。3 三种聚类分析方法在公司职员评定中的分析比较应该三种方法对对公司年终员工进行考核(限于篇幅仅以9名员工,4个指标为例),把客户评价指标量化,根据考核要求用4级评分制,优对应5分,良对应4分,一般对应3分,差对应2分。考核内容及规范化数据后见表1。表1 员工考核表及规范化员工客户数 产品数 其它工作数 客户评价A 300 0.625 30 0 30 03 良 0.67B 360 1 90 0.43 0 0 优 1C 280 0 60

9、0.21 0 0 良 0.67D 220 0.125 80 0.36 100 1 良 0.67E 300 0.625 50 0.14 0 0 一般 0.33F 320 0.75 70 0.29 10 0.1 优 1G 200 0 170 1 20 0.2 优 04H 300 0.625 40 0.07 0 0.3 差 0.33I 260 0.375 120 0.64 10 0.1 良 0.673.1 三种聚类算法的运算结果3.1.1 Q型模糊聚类结果:由表一规范化后的数据,本文按绝对值减数法根据(2)式计算相似系数,取c=0.3。, (2)410.3ij ikjrx,12,.9ij将表中数据代

10、入公式,可以得到模糊相似矩阵,然后用最大树法聚类,做出最大树如图1:ADCEIFHGB0.850.570.770.850.80.840.840.89图 1 最大树法聚类根据模糊统计量的计算以及经验判断结果见下表,表2 Q型模糊聚类结果I类 类 类 IV 类 类0.8 A,C,E,H,I D G B,F0.85 A,C D G B,F E,H I在 0.8时,用F 统计量检验,测得 F5.531 ,且根据实际情况 (3,5)0.分为四类正好符合需要的评测分类数,无需再进行 0.85时的F统计量检验。3.1.2 k-means 和 k-medians 聚类结果依题取k=4,则聚类结果如下(由于篇幅

11、计算过程省略):表3 k-means 和 k-medians 聚类过程迭代次数 K-means 聚类算法 K-medians聚类算法5第0次=(A,B,C)1C=(D,E)2=(F,G)3=(H,I)4=(A,B,C)1C=(D,E)2=(F,G)3=(H,I)4第 1次=(A,E,F,H)1=(C,D)2C=(G,I)3=(B)4=(A,C,E,F,H)1=(D)2C=(G,I)3=(B)4第2次=(A,E,H)1=(C,D)2=(G,I)3C=(B,F)4=(A,C,E,H,I)1=(D)2=(G)3C=(B,F)4第3次=(A,E,H,I)1=(C,D)2=(G)3=(B,F)4Ck-m

12、eans在第三次迭代结束,k-medians在第二次迭代结束,可见通过迭代运算, K-medians聚类算法在迭代步数上少于K-means聚类算法。 3.2.算法比较分析由上表7可知,K-medians聚类算法在迭代速度上优于K-means聚类算法,且K-medians聚类算法和Q型聚类算法对该数据处理的聚类结果相同,但是K-means聚类算法的聚类结果和前两者稍有不同。而K-means聚类算法中存在差异的一项 类:C ,D,结合原始数据分析,我们可以知道,C 相对别人来说差异性不是很大,而D是相对别人在担任其它工作方面相当突出的,因此有必要将D单独列出来,而将C归入相似的一类 I 类。进一步

13、分析发现,K-medians聚类算法和Q型聚类分析算法的聚类结果中反观他们的工作业绩, I类员工为工作水平及客户评价都很好的员工, 类员工为各个方面一般的员工,类为担任其他工作量较多者,类为研发新产品突出的员工,可知以上分析,符合实际情况。4结束语聚类分析是数据挖掘中的一个重要研究方向,本文将其中三种重要的算法用于公司员工年终评定,并对不同的聚类结果进行比较和分析,研究不同聚类算法在特定领域中的可行性和效率的优略。对一个特定的数据集,很难选择一个最合适的聚类算法进行分6析。因此,我们有些时候只能针对具体问题、具体数据提出某种方法。随着研究的深入,针对海量数据,如何构造在计算速度和计算效果即算法

14、性能方面均优于上述的聚类算法也是一个重要的课题,另外,如何结合可视化的计算机技术,来设计专业的应用软件也是一个新的研究热点。聚点选择 初始划分合理初始数据 特征选择数据标准化最终聚类结果不合理图 2 聚类过程图图参考文献1 Jiawei Han.Micheline Kamber.Data mining concepts and techniquesMBeijing:Beijing Higher Education Press,2001:2252 谢季坚,刘承平.模糊数学方法及其应用M.武汉: 华中科技大学出版社,2000:963叶苗群,基于混合中心点的客户聚类,嘉兴学院学报J. 2005,17

15、(3):54Three kinds representative cluster-algorithm application in the clerk appraisingPENG Gao-huia ,GUAN Guo-quanb ,HE Chun-huac(a.Department of Mathematics and Information Science,North China Institute of Water Conservancy and Hydroelectric Power,Zhengzhou 450008,China;b.School of Information Engi

16、neering and Computer, Jiangxi Agricultural University,Nanchang 330045,China; c.College of Information and Management Science,Henan Agricultural University,Zhengzhou 450002,China)Abstract: by discussing three important cluster algorithm : Q-type,K-means、K-medians , then derive some conclusions by app

17、lying them to the staff year-end-assessment in a company. diversity problem should be based on reality, and have the pertinency field to use different algorithm to be more suitable. at the end,discussed the process of the cluster algorithm and the follow-up job .Keyword: Data mining, Clustering analysis, K-means,K-medians, Q-type clustering analysis彭高辉 华北水利水电学院 数学与信息科学学院 0371 6305 5158email

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报