1、Web 网络大数据的聚类中心调度技术研究 肖铮 董祥千 赵文革 成都东软学院 摘 要: 针对传统调度方法一直存在调度精度不准确的问题, 提出一种 Web 网络大数据的聚类中心调度技术的研究方案。针对 Web 网络大数据重新建立调度模型有效的对数据进行识别, 优化聚类中心的 K-means 算法, 解决对大数据调度能力差的问题, 提高聚类中心的大数据调度能力, 最后使用建立调度模型完成在 Web网络大数据环境下的聚类中心数据调度。设计对比仿真试验, 通过实验数据可以有效地证明 Web 网络大数据的聚类中心调度技术的有效性。关键词: Web 网络大数据; 聚类中心; 调度技术; 数据识别; 数据调
2、度; 作者简介:肖铮 (1983) , 男, 辽宁人, 讲师, 硕士。研究方向为数据挖掘、人工智能、软件工程。作者简介:董祥千 (1975) , 男, 重庆人, 讲师, 博士。研究方向为数据挖掘、人工智能、软件工程。作者简介:赵文革 (1966) , 男, 贵州人, 副教授, 硕士。研究方向为数据挖掘、人工智能、软件工程。收稿日期:2017-04-25基金:四川省自然科学基金 (17ZB0005) Research on clustering center scheduling technology for Web network big dataXIAO Zheng DONG Xiangqi
3、an ZHAO Wenge Chengdu Neusoft University; Abstract: In allusion to the problem of the inaccurate scheduling precision of the traditional scheduling method, a research scheme of clustering center scheduling technology for Web network big data is proposed. The Web network big data scheduling model is
4、reconstructed for effective data recognition. The K-means algorithm in clustering center is optimized to resolve the problem of poor big data scheduling capability and improve the big data scheduling capability in clustering center. The constructed scheduling model is employed to accomplish the data
5、 scheduling of clustering center in the Web network big data environment.The contrast simulation experiment was carried out. The experimental data effectively demonstrates the validity of the clustering center scheduling technology for Web network big data.Keyword: Web network big data; clustering c
6、enter; scheduling technology; data identification; data scheduling; Received: 2017-04-250 引言互联网时代的快速崛起, 在网络上信息传递的数量已经出现井喷式的爆发, 许多依附互联网的产业应运而生。聚类中心是对数据进行系统分类以及统计调用网络应用层的关键设置。聚类中心能够在 Web 网络环境中进行数据的系统分析筛选, 通过不同信道将信息划分成若干个簇族, 这样方便对海量信息进行汲取分类, 保证了数据的有效性同时完成了对数据调度任务。传统的聚类中心对大数据进行调度是通过数据属性筛选提取进行调度的, 这样的方法虽
7、然调度准确率极高但是调度时间很长, 在数据量增长以平方计算的今天, 此方法已经不能满足人们的正常需求。针对上述情况, 本文提出一种 Web 网络大数据的聚类中心调度技术研究方案。还设计了对比仿真试验, 通过实验数据的分析有效地证明了本文研究的 Web 网络大数据的聚类中心调度技术的有效性。1 聚类中心调度技术的设计方案本文针对聚类中心数据调度技术进行一定的有效设计, 主要针对调度的数据模型进行有效的研发, 调度数据模型是对大数据进行筛选、分类、簇族选取的关键所在, 其中优化数据调用算法也是节省时间的有效手段。本文在调度数据模型的设计过程中, 对其中的 Kmeans 算法进行了有效的优化, 这样
8、可以提高数据的分配同时加强管理调用的能力。最后通过调用模型完成了在 Web 网络下的大数据调用。其调度数据的流程图如图 1 所示。1.1 大数据调度模型的建立Web 网络环境下的大数据首先需要进行标注筛选, 这样能够有效地提高本文设计调度模型抗数据干扰能力, 但是由于簇族划分过程中会出现数据波动, 还需要对调度模型进行系统条件筛选:式中: m为簇族划分熵函数 ;AK为大数据的可信度;B K为筛选预处理结果;w i为预处理过程系数;R s表示簇族的类比属性集合。图 1 调度数据的流程 下载原图经过筛选过后的大数据需要进行簇族的分类, 分类后的数据才可以进入调度模型中进行系统的调用。过程如下:式中
9、: (s+1, n-s+1) 表示经过分类后的大数据; (1-R) 为簇族分类的路径标注码。经簇族分类的大数据便可进行调度:式中:a i (m) 代表大数据的波动能力;a i (m) min表示大数据的最小波动能力。调度的过程中需要进行一定的条件限制, 限制的目的是保证调度的准确性, 过程如下:式中, e 为大数据属性有效值。经过上述条件的限制能够保证模型的调度准确率, 也进一步完成了调度模型。1.2 优化聚类中心的 Kmeans 算法本文对聚类中心 Kmeans 算法进行了优化, Kmeans 算法是针对独立的大数据进行有效选取计算方法。Kmeans 算法中大数据必须经过预处理才能够进行Km
10、eans 计算, 大数据预处理9公式为:式中:P 为大数据运行参数; i为大数据差值转换属性; 表示大数据差值转换用时。经预处理后大数据便可进行 Kmeans 计算, 如下:式中:W i (m) 表示 Kmeans 算法的调用常数, 一般是在100, 150值域范围内;h (Wi) 表示大数据的极限调用属性;h (a i) 表示能够平复的能力数据属性。通过 Kmeans 计算过后有效地缩短了计算的步骤, 简化了调用时间, 同时避免了数据波动的产生10。2 仿真实验分析2.1 参数设定为了保证设计的 Web 网络大数据的聚类中心调度技术的有效性, 对参数进行设定, W i (m) 调用常数选择在
11、100, 150值域范围之内;设置熵变函数的表达值为 18.5。设置 Ei与 Eij的分类项分别为:设置实验参数如表 1 所示。表 1 实验参数 下载原表 2.2 结果分析实验对比过程中, 主要以基础分析、调度时间及调度准确率为指标进行对比分析。其中基础分析主要通过最大调度距离、平均调度距离为指标对其调度距离进行分析:最大调度距离为:平均调度距离为:式中:|p-p|为两个所需调度数据 p 和 p之间的距离;n i为数据类 Ci中所要调度的数据量;n j为数据类 Cj中所要调度的数据量。实验结果如表 2 所示。表 2 实验结果 下载原表 分析表 2 结果得知, 本文提出的 Web 网络大数据的聚
12、类中心调度技术能够在Web 环境下进行长距离的大数据调度。本文提出的 Web 网络大数据的聚类中心调度技术在最大调度距离上比传统的调度方法增加了 30 m, 同时平均调度距离大于传统调度方法 30 m。上述数据表明本文提出的方法能够进行更快更长距离的大数据调度。调度时间和调度准确率如图 2、图 3 所示。图 2 对比实验结果 (一) 下载原图图 3 对比实验结果 (二) 下载原图分析图 2 结果得知, 传统的调度方法所需的时间明显要多于本文提出的调度方法。分析图 3 结果得知, 本文提出的 Web 网络大数据的聚类中心调度技术能够保证较高的调度准确率, 同时没有随着数据的变化产生浮动。3 结语
13、本文提出一种 Web 网络大数据的聚类中心调度技术的研究方案。针对 Web 网络大数据进行调度模型的建立, 重新建立的调度模型能够有效的对数据进行识别。特别是大数据的识别, 有效地避免了数据干扰、数据混乱的发生, 优化了聚类中心中的 Kmeans 算法, 解决了对大数据调度能力差的问题, 提高了聚类中心的调度能力。最后使用建立的调度模型完成在 Web 网络大数据环境下的聚类中心数据调度。希望通过本文的研究能够提高聚类中心对大数据的调度能力。参考文献1陈珂, 柯文德, 许波.一种基于增量式时间序列和最佳任务调度的 Web 数据聚类算法J.现代电子技术, 2016, 39 (14) :4-8. 2
14、王向华, 陈特放, 张必明, 等.基于时间序列和任务调度的 Web 数据聚类算法J.计算机工程与应用, 2016, 52 (9) :159-163. 3张晓, 王红.一种改进的基于大数据集的混合聚类算法J.计算机工程与科学, 2015, 37 (9) :1621-1626. 4王海巍.我国险企运营中道德风险甄别问题研究:以大数据 Hadoop 聚类分析技术为视角J.保险研究, 2016 (2) :59-67. 5廖律超, 蒋新华, 邹复民, 等.一种支持轨迹大数据潜在语义相关性挖掘的谱聚类方法J.电子学报, 2015 (5) :956-964. 6王晨, 李耀庭.大数据大数据视阈下档案学研究的困境和启示:基于 CNKI 档案类期刊的共词聚类分析J.北京档案, 2016 (6) :14-17. 7高继平, 马峥, 潘云涛, 等.大数据领域代表性专家识别与分析:文献计量学视角J.科技管理研究, 2016, 36 (16) :177-182. 8周润物, 李智勇, 陈少淼, 等.CCF Big Data 2015+063 面向大数据处理的并行优化抽样聚类 K-means 算法J.计算机应用, 2016, 36 (2) :311-315.