1、 化工工艺数值挖掘之数值预处理技术之分析与应用第一章 绪论1.1 流程工业与 MES本论文涉及的某公司是一家综合性的大型煤化工企业,该企业为其所在城市市最大的煤气生产企业,同时也是冶金、化工、医药、军工等行业重要原料和燃料的供应基地。现拥有年产商品冶金焦 180 万吨、甲醇 20 万吨、煤焦油系列及其它化工产品 20 万吨总计 120 余种)和日产城市煤气 320 万立方米的能力。本课题来源为国家科委 863 重点 MES 示范项目以该公司的煤化工工艺流程生产线为依托,扩建自动化生产线和计算机信息络系统,利用其煤化工装置规模最完备、产品种类最齐全、实施综合自动化信息集成平台基础最好的综合优势,
2、进一步研究开发产业化关键集成技术,开发具有典型示范作用的煤化工综合自动化高技术产业化工程,构建煤化工企业综合自动化信息集成平台,实现企业动态成本控制机制,并以财务成本为核心进行整体资源优化,形成工程化、集成化和商业化整套软件和技术,提高企业管理水平和效率,争取在全国煤化工企业推广应用。本论文的主要是从软件应用研发的角度对化工工艺实时数据进行深入研究,探索各类实时数据数据预处理方法,并用研究所得的方法对该公司基于 MES 数据挖掘系统和其他与实时数据关联的系统中使用的实时数据进行预处理,以所得理论为基础开发出相应的实时数据预处理系统。该系统在采集存储实时数据的同时,实现对错误数据的校正和缺失数据
3、的填补,为数据挖掘工具提供准确可信的数据。最终将该实时数据预处理系统集成应用于数据挖掘系统和其他与实时数据关联的信息集成系统之中。1.2 论文研究内容与主要工作煤化工企业是以煤代替石油高效地、环保地、综合地利用煤炭资源,通过煤气化制造化学品原料,获得清洁能源。煤化工生产过程连续,生产装置复杂,工艺物流循环交叉,关键参数关联强;同时,煤化工企业产品链长,如除生产焦炭、煤气、甲醇、化肥外,还可以生产二甲醚、氢气、CO、醋酸及甲醇系列后加工产品。本文依托目标实施企业现有 MES 信息技术平台,通过对该煤化工公司主要产品的工艺流程和实时数据采集仪表安装情况的深入了解,并针对该公司对实时数据预处理的需求
4、,研究了几类数据预处理方法。得出了基于冗余的预处理方法、基于优化目标值偏差带的预处理方法和基于支持向量机回归的实时数据预处理混合算法。最后开发了实时数据预处理系统,并将该系统集成应用于工艺数据挖掘系统之中,从而改善信息集成平台数据的准确程度,提高企业效益。本文各章节的内容安排如下:第一章 绪论:主要是提出本文的选题背景和研究意义,同时对 MES 在流程工业中的应用做出简要的介绍。第二章 数据挖掘与实时数据预处理相关理论的研究:介绍在 MES 环境下的化工工业数据挖掘的相关理论,对项目实施企业现有数据挖掘系统给与介绍,并对实时数据预处理方法进行探索研究。第三章 实时数据预处理系统算法选择:通过对
5、工艺流程的了解和工艺工程师的要求获取不同用户的需求;将需求分为可预知需求与不可预知需求两种类型,针对二者特点分别选择算法;对所选算法进行介绍,并通过仿真证明算法的有效性。第四章 系统架构设计:根据系统架构设计一般原则,结合项目实施企业的实际业务流程,综合考虑和利用该企业现有的 MES 信息平台和硬件体系,对实施数据预处理系统进行架构设计,将系统分成多个模块,对各模块进行功能性描述。同时也对 DCS 系统和数据库理论进行简要的介绍。第五章 实时数据预处理系统的实现:详细论述实时数据预处理系统的开发过程,分析系统开发环境;设计各个模块的具体实现方式;介绍实时数据库与关系数据库的连接与数据表的设计;
6、对各功能模块进行整合。第六章 数据挖掘中预处理系统的应用:对所开发的实时数据预处理系统的界面和各类功能做全面介绍,并通过对数据挖掘任务计算模块中数据预处理前后任务计算结果对比直观展现该实时数据预处理系统的处理效果。第七章 总结与展望:对本文所述内容的总结以及对本文研究方向的展望。第二章 数据挖掘与实时数据预处理相关理论的研究2.1 数据挖掘理论数据挖掘技术是 20 世纪 90 年代中期兴起的一项新技术,它是知识发现过程中的重要步骤。国内外学术界和企业界,都非常重视对数据挖掘技术和软件工具的研究与开发。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的
7、、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以 tb 计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(knowledge discovery in database)的关键步骤。 1112数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息
8、的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,他们是:海量数据搜集强大的多处理器计算机数据挖掘算法 Friedman 列举了四个主要的技术理由激发了数据挖掘的开发、应用和研究的兴趣:超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;先进的计算机技术,例如更快和更大的计算能力和并行体系结构;对巨大量数据的快速访问;对这些数据应用精深的统计方法计算的能力。2.1.2 数据挖掘的任务数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。1314关联分析(association analysis):关联规
9、则挖掘是由 rakesh apwal 等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。聚类分析(clustering):聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。分类(classification):分类就是找出
10、一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。预测(predication):预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。时序模式(time-series pattern):时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。第三章 实时数据预处理系统算法选择. 27-38
11、3.1 实时数据预处理系统需求分析. 27-283.2 可预知预处理算法选择 .28-293.2.1 班次转化处理. 283.2.2 仪表清零处理. 28-293.3 不可预知预处理算法选择. 29-363.4 基于 SVM 回归的混合预处理算法. 36-373.5 本章小结. 37-38第四章 系统架构设计 .38-494.1 系统架构设计的原则. 38-394.1.1 在通用架构方面.384.1.2 在业务逻辑方面 .384.1.3 在发展趋势方面. 38-394.1.4 在安全性方面. 394.2 项目实施企业配套设施. 39-434.2.1 DCS 系统 .39-404.2.2 数据库
12、系统 .40-434.3 实时数据预处理系统架构. 43-474.4 本章小结 .47-49第五章 实时数据预处理系统的实现. 49-645.1 系统开发平台. 49-505.1.1 操作系统 .495.1.2 开发语言. 49-505.1.3 开发环境 .505.1.4 数据库系统. 505.2 系统各功能模块的具体实现. 50-605.3 数据库中表的设计. 60-625.4 系统各功能模块的整合. 62-635.5 本章小结. 63-64结论随着 MES 的发展,流程工业中的自动化、信息化水平不断提高,工业信息集成度也越来越高。利用 IT 技术,信息技术对这些信息资源进行深入的处理,必将
13、对提高流程工业生产水平有着重要的现实意义。本文以某国有大型化工厂 MES 项目为背景,全面阐述了基于 MES 实时数据预处理技术的研究与应用。在理论上,对预处理算法进行了深入的研究,根据该企业预处理需求结合实际化工流程选择了合适的预处理算法;在应用开发中,实现了预定要求,完成 OPC 连接模块、PI 连接模块、数据库信息设置模块、 Tag 点设置模块、数据存储模块和数据预处理模块的开发,并将各模块整合成为实时数据预处理系统,成功应用于化工工艺数据挖掘系统之中。现将本文主要工作和研究成果总结如下:1) 将实时数据预处理技术应用到流程工业工艺数据挖掘中,为实时数据预处理提供了更多的方法和思路。介绍
14、了一些主要的数据预处理算法,概述了当前实时数据预处理技术在流程工业中的应用情况,为研究流程工业数据预处理技术提供了理论基础。2) 研究了基于支持向量机回归理论的实时数据预处理算法。该算法以滤波算法结合偏差带检验法检测故障信息,对故障点利用大量冗余信息建立支持向量机回归训练模型。算例表明该方法能较有效的检测出故障信息,并且能准确的给出故障点的估计值。3) 通过对执行制造系统的研究,结合项目实施企业信息化程度,对其工艺流程深入分析,提出了适合该项目实施企业的实时数据预处理系统框架。4) 系统开发采用目前较为流行的.NET 开发工具,在 VS2005 环境下进行。开发过程中将系统按功能不同非成多个模
15、块,分模块开发,最后进行系统整合,提高了开发的科学性和开发效率,也使系统更加稳定且便于维护和移植。5) 后台数据库使用 PI 实时数据库和 SQL Server 关系数据库,对关系数据库的访问存储应用了事务功能,既提高了数据存储效率也保证了相同时段数据的一致性。同时使用存储过程实现某些预处理算法并将关系数据库的调度功能应用于实时数据预处理系统之中。6) 将实时数据预处理系统成功整合到数据挖掘之中,提高了挖掘质量。基于流程工业 MES 的实时数据挖掘系统对仪表受干扰产生的噪声和故障时产生的错误数据有着很强的预处理能力,能有效提高实时数据集质量,是流程工业数据挖掘以及其它需要使用实时数据进行分析的操作顺利进行的保障,有着广阔的应用前景。参 考 文 献1王志新 ,金寿松著.制造执行系统 MES 及应用M. 中国电力出版社. 20062荣冈 ,张泉灵. MES 的现状及发展J. 自动化博览. 2008(3): 14183彭瑜 .制造执行系统(MES)的发展和挑战 C.工业仪表与自动化在中国学术会议论文集.2002: 35474MESA International.MES functionalitiesMES