1、基于数据挖掘的安全管理信息系统研究以某煤炭企业班组安全管理为例 汪莹 周婷 王光岐 张海凤 中国矿业大学(北京)管理学院 摘 要: 构建了基于 7 大功能模块的煤炭班组安全管理信息系统, 给出了应用数据挖掘到该系统开发与设计中的基本流程.以某煤炭企业为例, 采用数据仓库将该企业班组安全管理信息系统中各分立业务数据库以特定主题进行集成, 并利用联机分析处理 (OLAP) 服务器构建了多维星型结构模型.采用模糊聚类算法对该煤炭班组安全监测数据进行了数据挖掘, 划分出安全监测点隶属区域, 不同区域代表不同安全级别.结果表明:采用数据仓库和 OLAP 服务器技术, 实现了系统对煤炭班组安全信息多角度和
2、多方位分析.该数据挖掘算法提高了安全监测区域划分的准确度, 系统界面颜色差异化设计, 使得挖掘结果更加直观明了.关键词: 数据挖掘; 数据仓库; 煤炭企业; 班组安全管理信息系统; 安全监测; 模糊聚类; 作者简介:汪莹 (1973-) , 女, 江苏省徐州市人, 副教授, 博士, 从事煤炭企业信息化方面的研究.E-mail:Tel:13910066992收稿日期:2013-11-01基金:国家自然科学基金项目 (71273118) Safety management information system based on data mining: A case study of team s
3、afety management of a coal mineWANG Ying ZHOU Ting WANG Guangqi ZHANG Haifeng School of Management, China University of Mining Abstract: The coal mine team safety management information system based on seven function modules was constructed, and the basic application process of data mining in the sy
4、stem development and design was given.Taking a coal enterprise as an example, the data warehouse was used to integrate each divided business database of the enterprises team safety management information system at a particular theme.Also, the OLAP server was used to construct multidimensional star s
5、tructure model.Then, the fuzzy clustering algorithm was used to excavate the coal teams safety monitoring data.Thus, the membership areas of safety monitoring points were divided.Different areas represented different environment safety levels.The results show that the data warehouse and OLAP server
6、technology realized the multi-angle and multi-dimensional analysis of coal mine team safety information of the system.The data-mining algorithm improves the accuracy of the division of safety monitoring areas.Further, the color differentiation design of the system interface makes the mining results
7、become more intuitive and clear.Keyword: data mining; data warehouse; coal enterprise; team safety management information system; safety monitoring; fuzzy clustering; Received: 2013-11-01随着煤炭企业的发展和计算机技术的普及, 煤炭班组安全管理信息化建设越来越受到重视.为了实现煤炭班组安全管理信息系统由传统事务处理系统向决策分析系统转变, 引进数据挖掘可以为煤炭班组安全管理决策支持系统的开发提供技术支持.近年来
8、, 对数据挖掘与煤炭安全管理系统领域研究较多, 如文献1提出的面向煤矿绿色开采的集成信息系统;文献2提出的矿山信息系统开放式架构;文献3提出的将空间数据挖掘和地理信息系统 (GIS) 技术应用到煤矿安全监测系统;文献4提出的构建基于粗糙集和径向基神经网络的煤矿瓦斯爆炸预警管理系统数据挖掘模块;文献5 提出的利用可扩展标记语言 (XML) 、ADO.Net 和 Apriori 算法, 设计异构数据源转换、数据仓库和数据挖掘的煤矿安全监控系统模型;文献6-7提出的基于粗糙集与神经网络算法的煤矿安全信息管理模型以及基于 SQL Server 运行环境构建煤矿安全数据挖掘系统原型架构.综上可知, 数据
9、挖掘已被广泛应用于煤矿安全监测、安全预警、安全监控等系统设计与开发中, 但将数据挖掘应用到煤炭班组安全管理信息系统的研究几乎没有, 而煤炭班组安全管理是企业安全管理的关键环节.基于上述研究背景, 本文将对引进数据挖掘技术到煤炭班组安全管理信息系统展开研究.1 系统构成煤炭企业班组安全管理信息系统是建立在计算机技术和网络通讯及专家系统基础上, 将各子系统进行有机结合, 实现信息资源共享, 支持煤炭班组安全运作、安全控制和安全管理决策的集成化人机系统.结合煤炭班组安全管理实际情况, 借鉴文献8研究成果, 从环境安全管理、员工安全管理、 设备安全管理、安全监察管理、隐患管理、应急预案管理和事故统计分
10、析管理构建该系统的 7 大功能模块结构, 如图 1 所示.图 煤炭班组安全管理信息系统的构成 下载原图2 基于数据挖掘的系统分析2.1 数据挖掘基本流程构建煤炭班组安全管理数据挖掘模型, 首先根据煤炭班组安全管理内容确立数据仓库的主题, 然后从煤炭企业各类业务数据库抽取相关数据, 采用 Web Service 和 XML 技术进行数据转换集成, 利用 OLAP 服务器建立多维数据模型构建数据仓库, 进而应用数据挖掘算法发现海量数据隐含的潜在关联、事故隐患等, 最后将挖掘出的安全信息显示在系统相应的子模块上.煤炭班组安全管理数据挖掘设计环境主要基于 SQL Server 2008.利用 SQL
11、Server 2008 建立数据仓库, 采用传输控制协议/因特网互联协议 (TCP/IP 协议) 实现煤炭班组信息网络连接.在系统中应用数据挖掘的基本流程包括数据获取、数据集成、数据存储、数据挖掘和信息服务, 如图 2 所示.图 2 数据挖掘在煤炭班组安全管理信息系统中的基本应用流程 Fig.2 Basic application process of data mining in coal team safety management information system 下载原图2.1.1 数据获取数据获取主要是从源数据库包括瓦斯安全监测、通风网络监测、矿压监测、井下安全考勤等系统获取各类
12、业务数据, 包括瓦斯检测、隐患整改、 员工管理、安全监察管理、伤亡事故等, 外部信息包括煤炭行业标准数据、煤炭法规政策等.根据煤炭班组安全管理问题涉及到的影响因素, 确定从各系统的相关子功能模块获取数据.2.1.2 数据集成数据集成主要采用 Web Service 技术和 XML 合成技术.模型首先利用.NET 使用Web 服务. .NET 是微软的新一代技术平台, 为敏捷商务构建互联互通的应用系统.Web Service 是建立可互操作的分布式应用程序的新平台, 让应用程序在Web 上实现互操作.接着利用 XML 合成技术定义数据结构, 采用 SOAP 通信协议进行信息交换, 实现异构数据库
13、的转换集成.2.1.3 数据存储数据存储主要采用数据仓库技术.在存储前先利用 SQL Server 中的数据转换服务 (DTS) 进行数据提取、转换和加载 (ETL) 预处理.根据煤炭班组安全管理内容确定数据仓库主题, 包括瓦斯、通风、 矿压、人员、设备、安全管理、事故管理、隐患预警等主题.建立数据仓库时将自顶到底和由底到顶相结合.规划期间采用自顶到底, 而实施阶段实行由底到顶.利用数据仓库的 OLAP 工具建立“星型模型”的多维数据模型.采用关系型联机分析处理 (ROLAP) 形式, 基本数据和聚合数据均存放于关系型数据库管理系统 (RDBMS) .2.1.4 数据挖掘数据挖掘建立在数据仓库
14、之上, 可以简化源数据的预处理.利用向导数据接口和开放数据库互联 (ODBC) 功能对数据仓库数据进行挖掘.SQL Server Analysis Services 提供了设计、创建和管理数据挖掘模型的功能.数据挖掘算法按照发现知识的类型分类, 分为:1) 关联分析类, 包括 Apriori, Fg-growth 等算法;2) 异常检测类, 包括基于距离或基于密度的异常检测等;3) 聚类分析类, 包括 k 均值、综合的层次聚类算法、基于密度的聚类算法等;4) 分类与预测类, 包括贝叶斯、神经网络、决策树、回归分析等算法.为了实现煤炭班组灾害防控、预警和治理, 可以联合采用上述类别数据挖掘算法来
15、解决煤炭班组安全管理的如下问题:1) 瓦斯主题.根据对瓦斯涌出量、瓦斯浓度、 风压、风速等数据的挖掘, 分析各区域瓦斯分布状态, 预测高瓦斯、煤与沼气突出区域等;2) 通风主题.根据对通风风速、风量、风压等数据的挖掘, 分析矿井通风动力和风流网络运行状况;3) 矿压主题.根据对矿压相关数据的挖掘, 分析矿山压力显现规律、顶板管理、应力重新分布情况等;4) 人员主题.根据对员工“三违”情况、安全培训考核、日常考勤等数据的挖掘, 分析员工工作、学习和违章记录情况;5) 设备主题.根据对生产、辅助和安全设备的缺陷表、定期检修表等数据的挖掘, 分析设备检修、 折旧和更换等运行情况;6) 安全管理主题.
16、根据对安全管理制度落实情况、质量标准化考评、现场监察等数据的挖掘, 分析班组安全管理效率与质量情况;7) 事故主题.根据对事故时间、事故类别、地点、事故过程、涉及重要人员等数据的挖掘, 分析造成事故诱因等;8) 隐患预警主题.根据对隐患排查情况、班组各项安全检测指标等数据的挖掘, 评估隐患警度级别和信息发布.2.1.5 信息服务建立满意的挖掘模型, 便可在煤炭班组内部部署和应用.另外, 还应采用各种数据库开发和可视化工具包括 JAVA, VB, ASP 等, 将挖掘得到的知识和模式, 通过煤炭班组安全管理信息系统相应的二级子模块展示, 形成良好的人机界面, 为煤炭班组安全监督和管理提供决策服务
17、.2.2 数据挖掘的实现过程下面以数据挖掘在煤炭班组安全监测点隶属区域划分为例, 对数据挖掘在煤炭班组安全管理系统中的实现过程进行说明.2.2.1 数据获取以山西省某重点煤炭企业班组为例, 样本数据来源于该企业班组 2013 年安全监测原始数据, 其中定性类指标由该企业专家评价获得.煤炭班组安全监测影响因素包括环境、人员、 设备和安全管理.环境因素根据煤矿安全规程标准, 选取瓦斯、氧气、温度、风速和粉尘指标, 人员、 设备及安全管理分别选取人员“三违”、设备完好率和质量标准化考评指标.接着, 需从该煤炭企业班组瓦斯安全监测、通风网络监测、员工安全管理、安全监察管理等各子系统中抽取各指标的监测数
18、据.2.2.2 数据集成与合成数据集成采用 Web Service 和 XML 合成技术, 数据存储采用数据仓库方式, 利用数据仓库的 OLAP 服务器建立“星型模型”.1) 确定关键性能指标:煤炭班组安全监测;2) 定义维度:时间维、地点维、传感器类型维和安全管理维;3) 定义类别:时间维设定年、月、日、时、分和秒 6 个类别, 地点维设定煤炭班组名称和监测位置 2 个类别, 传感器类型维设定瓦斯、氧气、温度、风速和粉尘 5 个类别, 安全管理维设定人员“三违”、设备完好率和质量标准化考评 3 个类别.得到星型结构模型, 如图 3 所示.图 煤炭班组安全监测星型结构模型 下载原图2.2.3
19、数据挖掘采用 Web Service 和 XML 合成技术, 有效消除了不同煤炭班组安全信息资源语义和语法上的差异.在数据集成与合成基础上进行数据挖掘, 将极大提高数据挖掘的效率.采用模糊聚类算法进行安全监测点隶属区域划分, 是基于对象间的相似度将监测点聚成不同的类别, 每个类别的安全质量大体相同, 实现班组安全监测区域划分.模糊聚类的数学模型是按照样本间相似性将论域 X 划分成 C , C , , C 个类, 若 C = C , C , , C , 则 C C C =X, 且 C C = (i j;i, j = 1, 2, , s) .样本 x 对子集 C 隶属函数 u (x ) =u 0,
20、 1,且 .模糊聚类安全监测点隶属区域划分的基本思路是首先对原始数据进行正规化处理, 接着应用相似度统计量计算样本间相异度矩阵;再利用平方自合成方法求传递闭包, 得到模糊相似矩阵;最后选择阈值实现安全监测点的划分.通过实地调研获得该煤炭企业班组 2013 年 6 月安全监测中 15 处监测点的瓦斯、氧气、温度、风速、粉尘、人员“三违”、设备完好率、质量标准化考评的月平均数据, 各指标分别为 A , A , A , , A , 如表 1 所示.表 1 煤炭班组安全监测原始数据 Table 1 The raw data of coal team safety monitoring 下载原表 1)
21、数据正规化处理对原始监测数据作正规化处理, 去除量纲因素, 依据如下公式得到数据如表 2所示.表 2 正规化处理后数据 Table 2 The data processed by normalization method 下载原表 2) 计算相异度矩阵设计新的相似度统计量, 将欧式距离和夹角余弦相结合14, 可获得较好的形贴近和值贴近.改进后的相似度为利用 MATLAB 编程可得相异度矩阵为3) 计算模糊相似矩阵模糊相似矩阵 R=rijnn, 其中, r ii=1, rij=rji.若 R 为集合 U 上一个模糊等价关系, 包含模糊矩阵 R 的最小模糊传递矩阵, 叫做 R 的传递闭包, 记作
22、t (R) , 利用平方自合成方法求传递闭包14可得根据煤炭行业常用标准, 可将阈值设定为 =0.71, 运行 MATLAB 程序可将上述15 个监测点分为 3 类, 按照安全级别由高到低排序, 分别为 (1, 3, 5, 9, 10, 13, 15) , (11, 14) , (2, 4, 6, 7, 8, 12) , 同一类别的监测区域内的安全状况大致相似, 这样完成了对煤炭班组安全监测点的初步粗划分.2.2.4 信息服务数据挖掘的结果将以图形和列表方式展现在煤炭班组安全管理信息系统中的安全监测管理子系统界面上, 同一类别的监测区域颜色相同, 安全级别越低颜色越深, 安全状况最差的区域呈现
23、大红色.另外, 系统也以列表方法对同一类别监测区域汇总, 列表分总表和明细表, 总表简单说明各监测点分类情况, 对应的明细表更详细地记录同一类别中各监测点的具体情况.根据上述煤炭班组安全监测点隶属区域划分结果可知, (1, 3, 5, 9, 10, 13, 15) , (11, 14) , (2, 4, 6, 7, 8, 12) 这 3 个类别分别具有不同的颜色, 而 (2, 4, 6, 7, 8, 12) 该区域安全级别相对最低, 颜色也最深. 因此, 矿井监督管理员需要加强对此安全区域的监测和治理.3 结论1) 基于对煤炭班组安全管理的认识, 构建了煤炭班组安全管理信息系统的 7 大功能模
24、块, 采用数据仓库和数据挖掘技术, 运用 OLAP 服务器构建多维数据模型, 实现了系统对煤炭班组安全信息多角度和多方位分析.2) 采用模糊聚类算法对该煤炭班组安全监测点隶属区域进行了划分.该算法提高了安全监测区域划分的效率和准确度.利用系统界面颜色差异化设计, 使得挖掘结果更加直观明了, 有利于提升煤炭班组安全管理决策水平.参考文献 3廖美红.基于空间数据挖掘的煤矿安全监测系统J.制造业自动化, 2012, 34 (12) :63-65.LIAO Meihong.The safety monitoring system of coal mine based on spatial data m
25、iningJ.Manufacturing Automation, 2012, 34 (12) :63-65. 4刘晓宇, 田园.基于数据挖掘的煤矿瓦斯爆炸安全预警管理系统研究J.企业技术开发, 2011, 30 (15) :17-18.LIU Xiaoyu, TIAN Yuan.Analysis on the security warning management system of the gas explosion in coal mine based on data miningJ.Technological Development of Enterprise, 2011, 30 (15
26、) :17-18. 5张彤, 张立恒.数据挖掘技术在煤矿监控中应用研究J.福建电脑, 2013 (2) :127-128.ZHANG Tong, ZHANG Liheng.Application of data mining technology in coal mine monitoringJ.Fujian Computer, 2013 (2) :127-128. 6赵文涛, 杨静.基于数据挖掘的煤矿安全信息管理模型的研究J.工矿自动化, 2009 (7) :36-39.ZHAO Wentao, YANG Jing.Research of safety information managem
27、ent model of coal mine based on data miningJ.Industry and Mine Automation, 2009 (7) :36-39. 7刘红宾, 杨前.煤矿安全数据挖掘模型的构建及应用J.中州煤炭, 2009 (11) :3-5.LIU Hongbin, YANG Qian.Construction and application of coal mine safety data DM modelJ.Zhongzhou Coal, 2009 (11) :3-5. 8汪莹, 刘志华.煤炭企业班组安全管理信息系统建设策略J.煤矿机械, 2013,
28、34 (2) :270-271.WANG Ying, LIU Zhihua.On strategy of building team safety management information system in coal enterprisesJ.Coal Mine Machinery, 2013, 34 (2) :270-271. 9李飒.基于数据仓库的煤矿安全信息管理系统设计J.煤矿安全, 2007 (2) :60-62.LI Sa.Design of safety information management system of coal mine based on data ware
29、houseJ.Safety in Coal Mines, 2007 (2) :60-62. 10赵文涛, 杨静.数据仓库在煤矿信息安全管理模型中的应用J.煤矿安全, 2009 (3) :108-109.ZHAO Wentao, YANG Jing.Application of data warehouse technology in coal mine information safety management modelJ.Safety in Coal Mines, 2009 (3) :108-109. 11温国锋, 陈立文.煤矿安全管理数据仓库的建立与应用研究J.中国矿业, 2009, 1
30、8 (1) :95-97.WEN Guofeng, CHEN Liwen.On building and application of coal mine security management data warehouseJ.China Mining Magazine, 2009, 18 (1) :95-97. 12梁颖锋, 王保民.数据仓库在企业安全管理信息系统中的应用研究J.机械管理开发, 2010, 25 (5) :73-75.LIANG Yingfeng, WANG Baomin.Study of application of data warehouse to enterprisi
31、ng safety management information systemsJ.Mechanical Management and Development, 2010, 25 (5) :73-75. 13岳一领, 李东生.基于数据挖掘技术的煤矿远程监控系统研究J.太原理工大学学报, 2005, 36 (2) :213-214.YUE Yiling, LI Dongsheng.The research on the remote monitoring system of coal mine based on data mining technologyJ.Journal of Taiyuan University of Technology, 2005, 36 (2) :213-214. 14王宏云.基于数据挖掘的煤矿安全监测系统研究D.阜新:辽宁工程技术大学电气与控制工程学院, 2009.