收藏 分享(赏)

基于关联规则映射的生物信息网络多维数据挖掘算法.doc

上传人:无敌 文档编号:154659 上传时间:2018-03-22 格式:DOC 页数:8 大小:138KB
下载 相关 举报
基于关联规则映射的生物信息网络多维数据挖掘算法.doc_第1页
第1页 / 共8页
基于关联规则映射的生物信息网络多维数据挖掘算法.doc_第2页
第2页 / 共8页
基于关联规则映射的生物信息网络多维数据挖掘算法.doc_第3页
第3页 / 共8页
基于关联规则映射的生物信息网络多维数据挖掘算法.doc_第4页
第4页 / 共8页
基于关联规则映射的生物信息网络多维数据挖掘算法.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、基于关联规则映射的生物信息网络多维数据挖掘算法 唐晓东 华南师范大学经济与管理学院 摘 要: 针对在生物信息网络中对复杂和大规模的数据集进行挖掘时所出现的算法挖掘精度低、运行速度慢、内存占用大等问题, 提出一种基于关联规则映射的生物信息网络多维数据挖掘算法。该算法结合网络数据集之间的关联映射关系, 从而确定网络数据集的关联规则, 并引入挖掘因子和相对误差来提高算法的挖掘精度;根据多维子空间中数据集之间的关联程度进行子空间区分以及子空间内数据集区分, 从而实现对不同数据集的有效挖掘。在实验中, 对不同数据集数量下的算法内存占用情况、算法挖掘精度、算法运行时间进行仿真, 从实验结果可以看出基于关联

2、规则映射的挖掘算法可以有效地提高挖掘精度, 在减少内存占用和提升计算速度上也具有一定的优势。关键词: 数据挖掘; 关联规则映射; 生物信息网络; 多维数据挖掘; 作者简介:唐晓东 (1968-) , 男, 湖南衡阳人, 副教授, 硕士, 主要研究方向为电子商务、数据挖掘 () .收稿日期:2014-04-15基金:广东省“产学研”资助项目 (2012B091100043) Biological information network multidimensional data mining algorithm based on association rules mappingTang Xia

3、odong Dept. of Ecommerce South China Normal University; Abstract: For the problems such as mining low accuracy of algorithm, low speed and large memory footprint when digging the complex and large-scale data sets in the biological information network, this paper proposed a biological information net

4、work multi-dimensional data mining algorithm that based on association rules mapping. The algorithm combined association mapping relationship between the network dataset to determine the association rules of network dataset, and introduced the mining factor and relative error to improve mining accur

5、acy of the algorithm. According to the multi-dimensional subspace degree of association between the data sets to distinguish the subspace and subspace datasets in order to achieve effective excavation of different data sets. The experiment al results on the memory usage of the algorithm on the numbe

6、r of different sets of data, the accuracy of mining algorithm, the simulation of algorithm running time, show the association rule mining algorithm can effectively improve the mining map accuracy, reduce the memory footprint and enhance the computing speed.Keyword: data mining; association rule mapp

7、ing; biological information network; multidimensional data mining; Received: 2014-04-150 引言数据挖掘是指在大量的数据当中通过搜索算法来寻找隐藏的数据信息, 它是基于机器学习、人工智能、模式识别等技术, 数据挖掘能在大量数据中寻找规律, 寻找出数据集所含规律, 并通过可视化形式表现出来1,2。随着多媒体以及网络技术的不断发展, 图像、音频、视频等多媒体数据在不断增多, 要对这些数据进行有效管理和查询非常困难, 而采用具有学习能力的数据挖掘技术, 可以通过发掘大量数据信息所具有的潜在内容特征而进行多媒体数据的

8、有效聚类, 能够更好地对大量数据进行管理, 方便对数据实行统计查询1,3。生物信息网络是指运用数学方法和图论、网络拓扑学等方法来研究生物信息系统的网络, 它包括生物科学、数学模型、计算机科学等技术, 以网络的思维来研究生物系统各个组成部分的联系以及组织结构等4,5。刘殷雷等人6提出一种不确定性数据流上频繁项集挖掘的有效算法, 该算法通过一个有效的数据结构来对不确定性数据事务流的项集进行存储, 并且在数据结构的基础上设计了一种挖掘算法 SRUF-mine, 通过深度遍历全局树来挖掘数据流。王伟平等人7提出一种有效的挖掘数据流近似频繁项算法, 该算法通过一种确定的 -近似方法来准确挖掘数据流中的频

9、繁项, 并利用概要数据来满足用户的查询, 并且有效地减少算法的空间复杂性和平均处理时间, 得到较小的频率误差。刘大有等人8提出一种基于环路紧密度的复杂网络社区挖掘算法, 该算法通过环路紧密值来实现网络社区的有效聚类, 使用广度优先遍历算法遍历全图, 并取与各个核中最为紧密的核作为归属, 在实验中通过真实网络数据集来对挖掘算法的有效性进行了验证。张鸿等人9提出一种基于关系矩阵融合的多媒体数据聚类方法, 该方法通过对图像以及音/视频数据进行特性矩阵的相关性统计分析, 并进行相关性融合来挖掘数据集的相似语义, 最后采用基于相似度的循环迭代方法来实现数据聚类。Peng 等人10提出一种基于数据集成、数

10、据挖掘和多准则决策的事故信息管理框架, 它可以支持异构的分布式事件数据, 让决策者 (DMS) 决定检测异常并提取有用的知识, 能够协助 DMS 评估风险, 并在事件中选择一个合适的替代方案, 提供差异化服务, 以满足不同事件管理阶段的要求。1 数据集关联规则映射在一个生物信息网络中, 为了能对网络所构建的拓扑结构图进行挖掘, 并减少在搜索生物信息网络的特征数据时所带来的复杂度, 本文结合网络数据的关联映射关系确定网络数据集的关联规则, 提高数据挖掘效率, 并且通过概率估计的方法得到数据挖掘频率, 并引入挖掘因子和相对误差来提高挖掘精度11,12。图 1 为采用关联规则映射方法的数据挖掘结构图

11、。对于生物信息网络的结构拓扑图, 本文定义一个 G= (V, E) 来表示拓扑图。其中:V 表示组成该网络的各个组织结构, E 表示联系各个组织结构的边。在 V= (V1, V2, Vn) 中, V i (0in) 表示数据集, V i= (x1i, x2i, , xmi) , xji (0jm) 表示该数据集的一个有效数据。假设数据集 Vi与数据集 Vk之间的关联程度可以用关联属性组 ( ik, ik, ik) 来表示, ik表示数据集之间的大小关联, ik表示数据集之间的语义关联, ik表示数据集之间的类型关联。对于数据集之间的关联映射关系, 本文进行如下定义:定义 1 对于数据集 Vi与

12、数据集 Vk之间的关联属性组 ( ik, ik, ik) , 都可以表示为这两个数据集中的任意数据之间的关联程度。定义 2 可以采用关联系数矩阵的形式来表示关联属性组。关联系数矩阵是这两个数据集中的所有数据之间关联程度的平均值。定义 3 数据集之间除了具有关联性外, 也具有差异性。差异性系数矩阵用关联属性矩阵的倒数形式表示。根据关联系数矩阵和差异性系数矩阵, 对于数据集 Vi和数据集 Vk之间的关联映射为得到数据集 Vi和数据集 Vk之间的关联映射后, 采用互相关系矩阵得到数据集的关联规则, 来从大多数数据集中区别数据集 Vi和 Vk。从大多数数据集中区别出数据集 Vi和数据集 Vk后, 再通

13、过这两个数据集之间的关联映射就可以把它们分别区分出来。接着本文通过概率估计的方法来得到数据挖掘频率, 采用的概率估计公式为为了提高数据挖掘精度, 本文引入了挖掘因子和相对误差。其中: 表示挖掘因子, 取值为 (0, 1) , 表示预期挖掘概率与实际挖掘情况之间的相对误差。为了取得合适的 值, 使得挖掘频率达到最大, 本文在 (0, 1) 使 取不同的值, 得到了图 2 所示的挖掘频率变化情况。从图 2 中可以看出, 当取值为 =0.7 时, 挖掘频率最大。2 多维数据的数据集特性挖掘本文假设数据样本是分布于多维子空间, 当在同一子空间内两个数据样本的关联程度越大, 则具有强相关性, 关联程度越

14、小, 则具有弱相关性。对同一子空间的数据样本进行区分时, 则需要根据数据样本的关联程度来制定挖掘规则。当数据集是位于不同的子空间, 则只需要根据子空间的关联性质来区分出子空间即可13。假设子空间的维度为 d, 先挖掘处于不同子空间的不同数据集, 其中子空间用矩阵 M 表示, 定义为假设两个数据集 Vi和 Vk分别位于两个不同的子空间 M (id) 和 M (kd) , 其中这两个子空间的欧几里德距离为 D (i, k) , 两个数据集的欧几里德距离为 d (i, k) 。则对于不同子空间的两个数据集的挖掘公式为其中: 表示子空间挖掘因子, P (V i) 、P (V k) 分别表示数据集 Vi

15、和数据集Vk的挖掘频率。对于同一子空间的不同数据集的挖掘, 通过不同数据集之间的关联程度进行区分。先通过式 (1) 和 (2) 求得 K1和 K2, 然后求得在同一空间下数据集 Vi和Vk的关联因子:得到数据集 Vi和 Vk的关联因子 g (i, k) 之后, 可以得到相同子空间下这两个数据集的挖掘公式为假设在同一空间 M 下数据集之间关联程度限定阈值 T (V) , 当数据集之间的关联因子 g (i, k) 大于 T (V) 时, 则这两个数据集具有强相关性, 则两个数据集的区分公式写成当数据集之间的关联因子 g (i, k) 小于 T (V) 时, 则这两个数据集具有弱相关性, 则两个数据

16、集的区分公式写成3 实验分析为了验证本文提出的基于关联规则映射的生物信息网络多维数据挖掘算法, 所采用的实验仿真硬件平台为 IBM 的 PC 机, 主频为 2.3 GHz CPU, 操作系统为Windows XP, 内存为 4 GB。软件仿真平台为 MATLAB 7.0, 在实验中准备了随机真实的数据集, 包括赛车数据集、天气预报数据集、金融走势数据集等 1 000个数据集。在实验中作为对比的算法有两组, 一组为 Sun 等人14提出的一种异构信息网数据挖掘的分析方法, 另一组是 Bal15提出的一种基于粗糙集理论的数据挖掘方法。实验分为三个部分, 包括在不同数据集数量下内存占用情况、在不同数

17、据集数量下的算法挖掘精度以及在不同数据集数量下的算法运行时间。图 3 为在不同数据集数量下内存占用情况, 内存占用越少, 说明该数据挖掘算法的性能情况越好, 越适合于对实际真实的大型数据集进行挖掘。从图中的情况来看, 基于关联规则映射的挖掘算法所占用的内存容量较少, 而基于粗糙集理论和异构信息网的数据挖掘算法所占用的内存容量较多, 因此在对数据集进行挖掘的性能上本文提出算法具有更大的优势。图 4 为在不同数据集数量下的算法挖掘精度情况, 数据集数量越大的情况下能保持较好的挖掘精度, 则说明该挖掘算法在实际应用上的有效性。从图 4 中的情况可以看出, 在挖掘精度上本文算法占据领先优势, 在数据集

18、数量为 1 000的情况下, 挖掘精度达到了 86.7%, 而 Sun 算法的挖掘精度仅为 78.1%, Bal 的算法为 80.2%, 而且从数据集数量不断增加时挖掘精度的变化情况来看, 本文算法的挖掘精度所受到的影响较小。图 5 为在不同数据集数量下的算法运行时间, 算法运行时间都是随着所采用的数据集的数量的增多而增大, 在数据集数量为 1 000 时本文算法的运行时间为16.7 s, Sun 算法的运行时间为 19.7 s, Bal 的算法的运行时间为 21.3 s, 所用运行时间越短, 更能反映算法在计算能力上的优势, 也更加适用于对实际的大规模数据集进行挖掘。4 结束语本文提出了一种

19、基于关联规则映射的生物信息网络多维数据挖掘算法, 该算法针对生物信息网络中复杂的大规模数据信息进行挖掘, 所采用的方法为数据集关联规则映射和多维数据的数据集特性挖掘方法, 前者主要是通过得到数据集之间的关联映射关系来提高数据挖掘频率和数据挖掘精度, 后者则是通过对相同子空间和不同子空间的数据集特性集进行区分, 从而达到有效的数据挖掘效果。实验中通过对挖掘算法进行了三组评估实验来分析算法在挖掘精度、内存占用以及运行时间上的独特优势。参考文献1Low Y, Bickson D, Gonzalez J, et al.Distributed Graph Lab:a framework for mach

20、ine learning and data mining in the cloudJ.Proceedings of the VLDB Endowment, 2012, 5 (8) :716-727. 3赵川源, 何东健, 乔永亮.基于多光谱图像和数据挖掘的多特征杂草识别方法J.农业工程学报, 2013, 29 (2) :192-198. 4宋淑彩, 祁爱华, 王剑雄.面向 Web 的数据挖掘技术在网站优化中的个性化推荐方法的研究与应用J.科技通报, 2012, 28 (2) :117-119. 5Garca S, Fernndez A, Luengo J, et al.Advanced non

21、parametric tests for multiple comparisons in the design of experiments in computational intelligence and data mining:experimental analysis of powerJ.Information Sciences, 2010, 180 (10) :2044-2064. 6刘殷雷, 刘玉葆, 陈程.不确定性数据流上频繁项集挖掘的有效算法J.计算机研究与发展, 2011, 48 (3) :1-7. 7王伟平, 张冬冬.一种有效的挖掘数据流近似频繁项算法J.软件学报, 200

22、7, 18 (4) :884-892. 8刘大有, 杨建宁, 杨博, 等.基于环路紧密度的复杂网络社区挖掘方法J.吉林大学学报:工学版, 2013, 3 (1) :98-105. 9张鸿, 吴飞, 张晓龙.基于关系矩阵融合的多媒体数据聚类J.计算机学报, 2011, 34 (9) :1705-1711. 10Peng Yi, Zhang Yong, Tang Yu, et al.An incident information management framework based on data integration, data mining, and multicriteria decisi

23、on makingJ.Decision Support Systems, 2011, 51 (2) :316-327. 11Ngai E W T, Hu Yong, Wong Y H, et al.The application of data mining techniques in financial fraud detection:a classification framework and an academic review of literatureJ.Decision Support Systems, 2011, 50 (3) :559-569. 12Mohammed N, Ch

24、en Rui, Fung B, et al.Differentially private data release for data miningC/Proc of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press, 2011:493-501. 13Thelwall M, Wilkinson D, Uppal S.Data mining emotion in social network communication:gender diffe

25、rences in MyS paceJ.Journal of the American Society for Information Science and Technology, 2010, 61 (1) :190-199. 14Sun Yizhou, Han Jiawei, Yan Xifeng, et al.Mining knowledge from interconnected data:a heterogeneous information network analysis approachJ.Proceedings of the VLDB Endowment, 2012, 5 (12) :2022-2023. 15Bal M.Rough sets theory as symbolic data mining method:an application on complete decision tableJ.Information Sciences Letters, 2013, 2 (1) :111-116.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报