1、学 位 论 文用于加工中心的计算机智能监测控制方法研究指导教师姓名: 申请学位级别: 硕 士 学科、专业名称: 精密仪器及机械论文提交日期: 论文答辩日期:学位授予单位: 河北工业大学答辩委员会主席:评 阅 人:20XX 年 X 月河北工业大学硕士学位论文用于加工中心的计算机智能监测控制方法研究摘 要随着现代工业生产自动化、连续化水平的不断提高,加工中心的占有率也在增大,在生产中已经占有重要地位。加工中心在许多企业中被用于重要的加工环节,如果出现故障后不能及时正确地进行故障诊断和维修,则会带来较大的经济损失。随着粗集理论近年来在智能信息处理研究领域获得了迅速发展,它基于现实的大数据集,从中推理
2、、发现知识和分类系统的某些特点,对于研究不精确知识的表达、学习、归纳方面有其独特之处。本文研究了基于数据挖掘的加工中心故障诊断方法,跟以往的故障诊断方法不同,研究的方向并不是基于机械振动分析,而是采用了粗集理论结合神经网络的方法。论文研究了粗集对故障数据进行约简的可行性,并应用自组织映射神经网络的聚类功能,来实现连续属性值离散化的方法;通过对诊断信息的分析,采取常规约简方法,该方法实现了样本条件属性的约简,可消除样本数据中的冗余信息。采用 MATLAB 神经网络工具箱建立了加工中心故障类型的智能混合诊断系统;研究了智能混合故障诊断系统,并进行了功能模块设计,各功能模块分别为:数据采集模块,数据
3、预处理模块,数据约简模块,神经网络模块,故障诊断模块。在此基础上构建了一个基于粗集神经网络的智能混合故障诊断系统。关键词:粗集,神经网络,故障诊断,虚拟仪器,加工中心i用于加工中心的计算机智能监测控制方法研究RESEARCH ON COMPUTER INTELLIGENT MONITORING AND CONTROLING USED FOR MACHINING CENTERABSTRACTWith the development of automation and the high demand of reliableness, Machining Center has got importa
4、nt status and predomination in manufacturing. Machining Center has grown as key and deciding factor in many plants. Without timely fault diagnosis and service, serious economic loss can be caused. Rough Sets theory has made fast progress in recent years, it has outstanding ability in research of exp
5、ressing, learning , concluding non-precise knowledge. It is based on practical large data sets, and deduces, find the knowledge and key of the classification systems.So this paper studies a method of Machining Center fault diagnosis based on Rough Sets theory, which is one of the latest tools in Dat
6、a Mining area. Not like the usual methods that based on mechanical vibrancy, this method combines the Rough Sets theory with the Artificial Neural Network.The practicality of using rough set to reduce the date was discussed, in this paper, and the interval-valued continuous attribute discretization
7、by applying self-organizing map neural network clustering was proposed, too. This article proposes a normal concision s method, which reduces the examples condition attribute and eliminates the redundant information of the date. Whats more, it provides the methods used to diagnosis Machining Centers
8、 faults based on the intelligence hybrid system by adopting the MATLAB neural network workbox. At last, the functional modules which make up into intelligence hybrid system for fault diagnosis was introduced, including: data acquisition module, date preprocessor module, date reduction module, neural
9、 network module and fault diagnosis module. Herein, intelligence hybrid system based on rough sets and neural network for fault diagnosis is established in this paper.KEY WORDS: rough sets, neutral network, fault diagnosis, virtual instrument, machining centerii河北工业大学硕士学位论文目 录第一章 绪 论 11-1 故障诊断技术的研究现
10、状 .11-1-1 传统故障诊断技术 .11-1-2 人工智能故障诊断技术.11-1-3 数据挖掘在故障诊断中的应用 21-2 数据挖掘技术 31-2-1 数据挖掘基本知识 .31-2-2 数据预处理41-2-3 数据挖掘分类 .51-3 数据挖掘方法和技术 .61-3-1 统计学习方法 .61-3-2 机器学习方法 .71-3-3 生物技术 71-3-4 数据挖掘研究中的技术难题 71-3-5 数据挖掘在故障诊断中的应用 81-4 基于粗集的数据挖掘 .81-5 粗集和神经网络结合的必要性 81-6 本课题研究的意义及内容 .101-6-1 本课题的目的和意义 .101-6-2 主要研究内容
11、 .10第二章 粗集在故障诊断中的应用 112-1 粗集理论的基本概念 .112-1-1 知识与不可辨识关系 .112-1-2 粗集的上近似、下近似及边界 122-1-3 知识的等价与推广 .132-1-4 知识的简化132-1-5 属性的依赖性和重要性.132-2 连续数据的离散化方法 .152-3 粗集数据约简方法 .162-3-1 决策表 162-3-2 决策表的约简 .172-4 本章小结 20第三章 人工神经网络的应用213-1 人工神经网络概述 .213-2 神经网络的特性和学习算法.213-2-1 人工神经网络的基本特性 213-2-2 人工神经网络的主要学习算法 22iii用于
12、加工中心的计算机智能监测控制方法研究3-3 神经网络在本论文中的应用. 223-3-1 神经网络用于连续属性离散化. 223-3-2 神经网络用于故障诊断. 223-4 SOM 网络的原理及算法 233-4-1 SOM 神经网络模型. 233-4-2 SOM 神经网络的组成. 233-4-3 SOM 模型学习算法. 253-5 BP 网络的原理及算法 263-5-1 单隐层 BP 网络的故障诊断方法和特点. 263-5-2 BP 网络学习算法 273-5-3 BP 网络设计 293-5-4 基于 MATLAB 的 BP 神经网络的实现 293-6 本章小结. 31第四章 基于数据挖掘的故障诊断
13、系统. 324-1 监控对象分析. 324-2 诊断信息获取和预处理. 334-2-1 诊断信息获取. 334-2-2 诊断信息处理过程. 334-3 主要功能. 344-4 总体结构与实现步骤概述. 344-5 本章小结. 36第五章 基于虚拟仪器技术的智能故障诊断系统开发. 375-1 虚拟仪器及 LabVIEW. 375-1-1 虚拟仪器概念. 375-1-2 虚拟仪器的特点. 375-1-3 LabVIEW 语言. 385-2 LabVIEW 与 MATLAB 的接口问题 395-3 智能混合故障诊断系统的软件构成. 405-3-1 数据采集模块. 405-3-2 数据预处理模块. 4
14、25-3-3 数据约简模块. 475-3-4 神经网络模块. 505-3-5 故障诊断模块. 515-4 本章小结 54第六章 结论与展望 55参考文献 56致 谢 58iv河北工业大学硕士学位论文第一章 绪 论1-1 故障诊断技术的研究现状故障诊断是根据设备运行状态信息查找故障源,并确定相应决策的一门综合性的新兴科学。故障诊断技术进入二十世纪九十年代以来,以前所未有的势头在国内得到了十分迅速的发展,并在机械、石化、冶金、电力等行业得到了十分广泛的应用。随着现代工业及科学技术的迅速发展,工程系统日趋复杂化和自动化,一旦系统出现故障不仅造成严重的社会影响和巨大的经济损失,而且会危及人身安全,从这
15、个意义上说故障诊断可谓任重而道远。1-1-1 传统故障诊断技术工业生产、加工过程中的控制对象常常是复杂的大系统,具有滞后、强耦合、参数时变等严重的非线性特征,且其数学模型太复杂、噪音统计特性不理想,并存在不确定和外部干扰等因素,因而很难得到较准确的在线状态估计或参数估计,从而难以生成残差;然而,任何一种基于模型的故障诊断方法,都要构造一个与故障有关的残差,通过对残差的分析、评估,以实现故障的分离和补偿,这使得大多数基于系统模型的故障检测与诊断方法在非线性系统中难以实现,或在简化条件下实现也无法实际应用。以传感器技术和动态测试技术为基础,以信息处理技术为手段的现代设备诊断技术经历了三十多年的发展
16、与应用,已经取得了明显的经济效益。但进一步的理论研究与应用结果表明,由于各种信息检测手段和诊断方法都将诊断对象看成是一个有机的整体,大多是利用诊断对象所表现出来的特定信号(特征信号) 来诊断特定类型的故障,对多故障同时发生和各种故障之间可能存在的互相联系及影响难以分析,并做出相应决策 1。1-1-2 人工智能故障诊断技术与传统的基于传感器技术和信号处理技术的故障诊断相比人工智能故障诊断的优越性在于:综合了多个专家的最佳经验,功能水平可以达到甚至超过专家水平,实现了人机联合诊断,能够对多故障、多过程和突发性故障进行快速分类诊断 2。人工智能故障诊断已经在电路与数字电子设备、机电设备等方面得到了应
17、用,但仍存在一些问题 ;领域专家的知识主要依靠知识工程师人工移植,“知识瓶颈”问题难于解决;只能局限在相当窄的领域内,依靠的主要是浅知识,缺乏常识即“知识窄台阶”问题;推理方式与策略不灵活,缺乏适应性,易产生“组合爆炸”、“无穷递归”等问题;智能水平低,缺乏自组织、自学习、联想记忆和类比推理等功能;对结构性很差的知识难以表达和处理;实时在线诊断性能差。上述的缺点已经使人工智能故障诊断的应用和推广受到了一定程度的限制。常用故障诊断技术的分类:按故障诊断技术在各个不同工程领域中的应用,其可按如下方法分类:1. 按诊断环境分有离线人工分析、诊断和在线计算机辅助监视诊断,二者要求有很大差别。1用于加工
18、中心的计算机智能监测控制方法研究2. 按监测手段分:(1)振动监测诊断法以机器振动作为信息源,在机器运行过程中,通过振动参数的变化特征判别机器的运行状态。(2)噪声检测诊断法以机器运行中的噪声作为信息源,在机器运行过程中,通过噪声参数的变化特征判别机器的运行状态。其本质上与振动监测诊断法是一样的,因为噪声主要是由振动产生的。(3)温度检测诊断法以可观测的机械零件的温度作为信息源,在机器运行过程中,通过温度参数的变化特征判别机器的运行状态。(4)压力检测诊断法以机械系统中的气体、液体的压力作为信息源,在机器运行过程中,通过压力参数的变化特征判别机器的运行状态。(5)声发射检测诊断法金属零件在磨损
19、、变形、破裂过程中产生弹性波,以此弹性波为信息源,在机器运行过程中,分析弹性波的频率变化特征判别机器的运行状态。(6)润滑油或冷却液中金属含量分析诊断法在机器运行过程中,以润滑油或冷却液中金属含量的变化,判别机器的运行状态。(7)金相分析诊断法某些运动的零件,通过对其表面层金属显微组织、残余应力、裂纹及物理性质进行检查,研究其变化特征,判别机器设备存在的故障及形成原因。3. 按诊断方法原理分(1)频域诊断法应用频谱分析技术,根据频谱特征变化,判别机器的运行状态及故障形成原因。(2)时域分析法应用时间序列模型及其有关的特性函数,判别机器的工况状态的变化。(3)统计分析法应用概率统计模型及其有关的
20、特性函数,实现工况状态监视与故障诊断。(4)信息理论分析法应用信息理论建立的某些特征函数,在机器运行过程中的变化进行工况状态分析和故障诊断。(5)模式识别法利用检测信号,提取对工况状态反应敏感的特征量构成模式矢量,设计合适的分类器,判别工况状态,它是人工智能的技术之一。(6)专家系统,专家系统是一个人工智能计算机程序,它利用知识和推理过程来解决那些需要大量的人类专家知识才能解决的复杂问题,所用的知识和推理过程可认为是最好的领域专家的专门知识的模型。以此为基础,可把数控机床故障诊断专家系统定义为:能以人类专家水平进行数控机床故障诊断的计算机程序。(7)人工神经网络神经网络是在生物神经研究成果的基
21、础上提出的人工智能概念,是对人脑神经组织结构和行为的模拟。它以神经元为信息处理的基本单元,以神经元间的连接弧为信息传递通道,多个神经元联接而成的网络结构,具有知识的分布式存储和并行处理等特点。1-1-3 数据挖掘在故障诊断中的应用数据挖掘技术是随着人工智能技术和数据库技术的发展而兴起的,能从大量数据中挖掘和发现有价值的、隐含的知识。目前数据挖掘与知识发现己经被广泛应用于市场营销、银行业、电信业、制造业、保险业医药业等各个领域。随着信息技术的进步以及计算机技术和网络技术的发展,故障诊断中采集的数据(包括统计数据、实验数据) 可以方便地被收集和存储在各种数据库中。采用传统的数据分析方法对这些巨量的
22、数据进行分析和处理,不仅耗时而且难以有效地挖掘和发现数据中隐含的知识。另一方面,尽管专家系统、智能诊断等方法在故障诊断中得到了广泛的应用,但专家系统的知识瓶颈以及智能诊断方法所带来的诊断推理过程解释困难等问题仍未得到很好的解决。因而数据挖掘技术能有效地应用于故障诊断中,并且能克服以往存在的知识获取瓶颈。因此,将数据挖掘技术应用于故障诊断中是必要的,也是可行的 3。2河北工业大学硕士学位论文1-2 数据挖掘技术早在 20 世纪 80 年代,人们在“物竞天择,适者生存”的大原则下,就认识到“谁最先从外部世界获得有用信息并加以利用,谁就可能成为赢家”。因此,如何对数据与信息快速有效地进行分析、加工、
23、提炼以获取所需知识,就成为计算机及信息技术领域的重要研究课题。而计算机及信息技术发展的历史,也就是数据和信息加工手段不断更新和改善的历史。随着数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用丰富的数据海洋所蕴含的宝藏为人类服务,人们所依赖的数据分析工具却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种“丰富的数据,贫乏的知识”之独特的现象。为有效解决这一问题,数据挖掘技术逐步发展起来,其迅速发展得益于目前全世界所拥有的巨大数据资源,以及对将这些数据资源转换为信息和知识资源的巨大需求。1-2-1 数据挖掘基本知识数据挖掘(Data Mining,简称 DM)
24、是从数据库中知识发现(Knowledge Discovery from Database,简称 KDD)的一个重要组成步骤,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程 4,如图 1.1 所示:整个知识挖掘过程是由若干挖掘步骤组成,而 DM 仅是其中的一个主要步骤。整个知识挖掘的主要步骤有:数据清洗:其作用就是清除数据噪声和与挖掘主题明显无关的数据:数据集成:其作用是将来自多数据源中的相关数据组合到一起;数据转换:其作用是将数据转换为易于进行数据挖掘的数据存储形式;数据挖掘:它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识;模式评估:其作用就
25、是根据一定评估标准从挖掘结果筛选出有意义的模式知识;知识表示:其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。图 1.1 知识挖掘全过程示意描述Fig. 1.1 Data mining described in the whole course3用于加工中心的计算机智能监测控制方法研究尽管 DM 仅仅是整个知识挖掘过程中的一个重要步骤,但在工业、媒体、数据库研究领域中,“数据挖掘”一词己被广泛使用和普遍接受,不加区分地表示整个知识挖掘过程。DM 就是利用机器学习的方法从数据库中提取有价值知识的过程,它是数据库技术和机器学习两个学科的交叉领域。数据库技术侧重于对数据存储处理的高
26、效率方法的研究,而机器学习则侧重于设计新的方法从数据中提取知识。同时,DM 与其他学科也有很强的联系,如统计学、数学和可视化技术等。另外,在 KDD 过程中要特别注意的是,数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性,二是用于采掘的数据的质量和数量。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的变换,则采掘的结果是不会好的 5。1-2-2 数据预处理由于数据库系统所获数据量的迅速膨胀,导致了现实世界数据库中常常包含许多含有噪声、不完整、甚至是不一致的数据。显然,对数据挖掘所涉及的数据对象必须进行预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知
27、识质量的目的。1. 数据预处理的基本内容数据预处理主要包括:数据清洗、数据集成、数据转换和数据消减。数据清洗是指消除数据中所存在的噪声以及纠正其不一致的错误:数据集成则是指将来自多个数据源的数据合并到一起构成一个完整的数据集:数据转换是指将一种格式的数据转换为另一种格式的数据;最后数据消减是指通过删除冗余特征或聚类消除多余数据。数据清洗通常包括:添补遗漏数据、平滑噪声数据、识别或去除异常值,以及解决不一致问题。有问题的数据将会误导数据挖掘的搜索过程。尽管大多数数据挖掘过程包含有对不完全或噪声数据的处理,但它们并不鲁棒且常常将处理重点放在如何避免挖掘出的模式对数据过分逼近的描述上。数据集成是将来
28、自多个数据源的数据合并到一起。由于描述同一个概念的属性在不同数据库取不同的名字,在进行数据集成时常常会引起数据的不一致或冗余。因此在完成数据集成之后,有时需要进行数据清洗以便消除可能存在的数据冗余 6。数据转换主要是将数据转换以构成一个适合数据挖掘的描述形式。数据转换包含以下处理内容:平滑、合计、泛化、规格化以及属性构造。平滑是一种数据清洗方法,合计和泛化也可以作为数据消减的方法。对于使用基于对象距离的挖掘算法,必须进行数据规格化,将其收缩至特定的范围内。数据消减的目的就是缩小所挖掘数据的规模,但却不会或基本不影响最终的挖掘结果。数据消减的主要策略有以下几种:数据立方合计、维数消减、数据压缩、
29、数据块消减以及离散化与概念层次生成等。数据消减所花费的时间不应该超过由于数据消减而节约的数据挖掘时间。以上所提及的各种数据预处理方法,并不是相互独立的,而是相互关联的。如:消除数据冗余即可以看成是一种形式的数据清洗,又可以认为是一种数据消减。由于现实世界数据常常是含有噪声、不完全和不一致的,数据预处理能够帮助改善数据的质量,进而帮助提高数据挖掘进程的有效性和准确性。高质量的决策来自高质量的数据,因此数据预处理是整个数据挖掘与知识发现过程中的一个重要步骤。2. 数据离散化数据离散化是数据预处理中的一个重要部分,它是一种数据消减方式。所谓离散化就是利用取值范围或更高层次概念来替换初始数据,将连续取
30、值属性的域值范围分为若干区间,帮助消减连续取值属性的取值个数,对于诸如粗集、决策树这种主要是用来学习以离散型变量作为属性类型的学习方法,连续性变量必须被离散化才能够被学习 7。从本质上来看,连续属性的离散化过程就是用一定的阈值对属性空间进行划分的过程。为了提高机器学习算法的聚类能力和识别能力,离散化过程要求在保证离散化结果性能的前提下防止对属性空间的过分细化,用尽可能少的断点将属性空间划分成尽可能少的子空间。有效的离散化会显著地提高系统的聚类能力,增强系统对输入的待识别样本中数据噪音的鲁棒性。4河北工业大学硕士学位论文离散化结果将会减小系统对存储空间的实际需求,加快数据挖掘算法的运行速度,减小
31、计算过程的空间开销。此外,若离散化过程将某一连续属性的所有属性值均映射到同一结果,则该属性存在与否都不会影响系统对样本的分辨能力,因而它可以被删除。从这一角度来说,离散化过程同时也是属性简约的过程。有许多学者提出各种离散化方法,其中较为常用的有:人工划分方法,Bin 方法(包括等距离和等频率离散化)、基于信息嫡的离散化、布尔推理离散化,Kohonen 网络离散化、自然/半自然离散算法以及统计检验方法。1-2-3 数据挖掘分类利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下,用户并不知道数据存在哪些有价值的信息知识,因此对于一个数据挖掘系统而言,应该能够同时搜索发现多种模式的知识以满
32、足用户的期望和实际需要;还应该能够挖掘出多种层次的模式知识;还应允许用户来指导挖掘搜索有价值的模式知识。数据挖掘是一个多学科交叉领域,这些交叉学科包括:数据库系统,机器学习、统计学、可视化和信息科学。此外,因数据挖掘任务不同,数据挖掘系统也可能采用其他学科的一些技术方法,如神经网络、模糊逻辑,Rough 集、知识表示、推理逻辑编程或高性能计算等。根据所挖掘的数据或挖掘应用背景,数据挖掘系统还可能集成其他领域的一些技术方法,其中包括:空间数据分析、信息检索、模式识别、图像分析、信号处理、计算机图形学、互联网技术、经济学、心理学等。正因为数据挖掘技术方法的多样性,也就导致了数据挖掘系统的多样性。而
33、对于数据挖掘系统分类也有多种方式。可以根据所挖掘的数据库进行分类,如按照数据类型或数据模型进行分类;还可以根据所使用的技术进行分类,按照用户交互程度或所使用的数据分析方法进行分类。这里按照所挖掘的知识类型对数据挖掘系统进行分类。因此可以根据概念描述知识、对比概念描述知识、关联知识、分类知识、聚类知识等进行划分。1. 概念描述用户常常需要抽象的有意义的描述。经过归纳的抽象描述能概括大量的关于类的信息。有两种典型的描述:特征描述和判别描述。特征描述是从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征;而判别描述则描述了两个或更多个类之间有何差异8。2. 关联
34、分析关联分析的目的是发现特征之间或数据之间的相互依赖关系。数据相关性关系代表一类重要的可发现的知识。一个依赖关系存在于两个元素之间。如果从一个元素 A 的值可以推出另一个元素 B 的值 ,则称 B 依赖于 A。这里所谓元素可以是字段,也可以是字段间的关系。若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则 9。关联分析的结果有时可以直接提供给最终用户。然而,通常强的关联关系反映的是固有的领域结构而不是什么新的或有兴趣的事物。关联知识可被其他模式抽取算法使用。常用技术有回归分析、机器学习,、信念网络等。结合领域知识或通过进一步分析,可将关联规则直接
35、用于分类与预测。3. 分类与预测分类是数据挖掘中一项非常重要的任务,其目的是提出一个分类函数或分类模型(也常常称作分类器) ,该模型能把数据库中的数据项映射到给定类别中的某一个。一般使用分类来表示对有限离散属性值的预测,而预测表示对连续属性值的预测。分类器的构造方法有统计方法、机器学习方法、仿生学方法等。统计方法包括贝叶斯法和诸如近邻学习、基于范例的学习等非参数法,对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。粗集方法的知识表示即为产生式规则,仿生学方法包括神经网络方法和遗传算法。神经网络方法主要是 BP 算
36、法,5用于加工中心的计算机智能监测控制方法研究它的模型表示是前向反馈神经网络模型,其本质上是一种非线性判别函数 10。4. 聚类分析聚类分析与分类预测方法明显不同之处在于,后者所学习获取分类预测模型所使用的数据是己知类别归属,属于有教师监督学习方法,而聚类分析所分析处理的数据均是无事先确定的类别归属,属于无教师监督学习方法。聚类分析以“各聚集内部数据对象间的相似度最大化和各聚集对象间相似度最小化”作为基本的分析原则,同样包括统计方法、机器学习方法和神经网络方法。统计方法主要研究基于几何距离的聚类,如欧式距离、海明距离等,是一种基于全局比较的聚类,需要考察所有个体才能决定类的划分。基于神经网络的
37、聚类主要是自组织特征映射方法,如 AttT 模型、Kohonen 模型等,当给定距离阈值后 ,各样本按域值进行聚类。而在机器学习领域,距离是根据概念的描述来确定的,概念聚类方法首先发现适当的类,然后再根据每个类形成相应的特征描述 11。5. 数据挖掘结果的评估一个数据挖掘系统在完成一个挖掘算法之后,常常会获得成千上万的模式或规则。在这些规则中,只会有一小部分是有实际应用价值的。需要对数据挖掘步骤所获得的挖掘结果进行有效的评估,以便最终能够获得有实际应用价值的模式或规则知识。这就给数据挖掘提出许多需要解决的问题。首先,使一个模式有价值的因素是什么?对于该问题,评估一个模式是否有意义通常依据以下四
38、条标准:易于用户理解;对新数据或测试数据能够确定有效程度;具有潜在价值;新奇的。此外,还有一些评价模式价值的客观标准,这些标准是基于所挖掘出模式的结构或统计特征。另外,结合一些主观评价措施可有效反映用户的需求和兴趣。许多根据客观评价标准是有价值的模式知识却只是普通的常识知识,而主观评价标准是建立在用户对数据的信念基础上的,这些评估标准基于所发现模式是否是意外的或与用户信念相悖的,或能够提供决策支持而确定的。而意料之中的模式是有价值的则是指它能够帮助确认用户想要认可的一个假设 5。其次,一个数据挖掘算法能否产生所有有价值的模式?这个问题是指数据挖掘算法的完全性。期望数据挖掘算法能够产生所有可能模
39、式是不现实的,实际上一个模式搜索方法可以利用有趣性评价标准来帮助缩小模式的搜索范围。因此通常只需要保证挖掘算法的完全性就可以了。评估所挖掘模式的趣味性标准对于有效挖掘出具有应用价值的模式知识是十分重要的。这些标准可以直接帮助指导挖掘算法及时消除无前途的搜索路径,获取有实际应用价值的模式知识,有效摒弃无意义的模式,提高挖掘的有效性。另外,一个数据挖掘算法能否只产生有价值的模式?这是数据挖掘算法的一个最优化问题。一般当然希望数据挖掘算法仅挖掘有价值的模式,但这是一个较为棘手的最优化高效搜索问题,至今尚未有好的办法。1-3 数据挖掘方法和技术现有的多种数据分析方法从总体上均可归类到统计学习方法、机器
40、学习方法以及仿生物学方法这三大类中的某一种,在应用上这些方法各有利弊,需要针对具体挖掘问题选择合适的技术。对于复杂的数据挖掘系统,还常常采用多种数据挖掘技术或整合多种数据挖掘技术以弥补不同数据挖掘技术所存在的不足。1-3-1 统计学习方法数据处理的最初阶段就是用人工方法进行统计分析,统计学习方法在数据挖掘领域的应用可谓历史悠久。统计方法是从事物的外在数量的表现去推断该事物可能的规律性。传统的统计方法在解决机器学习问题中起着基础性的作用,主要研究渐近理论,即当样本趋向于6河北工业大学硕士学位论文无穷多时的统计性质。它依赖于显示的基本概率模型,常见的方法有回归分析、聚类分析、主元分析以及相关分析等
41、。在传统的统计学习方法基础上,已经形成多种新型的数据分析方法,如基于范例的推理方法直接使用过去的经验或解法来求解给定的问题。范例推理检索范例库,寻找相似范例,并将待解问题添加进范例库以便将来参考。Naive 贝叶斯和贝叶斯网络这两种贝叶斯统计分析方法能够实现预测、分类等数据挖掘任务。新兴的支持向量机技术则是建立在计算学习理沦的结构风险最小化原则之上,主要针对两类分类问题在高维空间中寻找一个超平面作为两类的分割,以保证最小分类错误率,其重要优势在于可处理线性不可分情况 12。1-3-2 机器学习方法机器学习方法是目前研究的重点,研究成果较多。从采用的技术上看,可分为两大类:基于决策树的技术和基于
42、决策规则的方法 13。基于决策树的技术以信息论的原理为基础建立决策树,最后获得的知识表示形式是决策树,最为著名的方法就是 Quinlan 开发的 ID3 方法,利用信息增益寻找数据库中具有最大信息量的字段建立决策树的节点,再根据字段的不同取值建立树的分支,由每个分支的数据子集重复建树的下层节点和分支的过程,这样就建立了决策树。另外,还有一些决策树方法,如 Assistant Professional。 IDL 以及 PRISM 等。基于决策规则的方法又可细分为两类,一种是在决策树基础上加入规则求取步骤获得决策规则的方法,如 CN2 方法、C4.5 方法、AQIS 及其系列版本等;另外一种则是直
43、接具有规则求取能力的方法 ,如 Rough 集、Fuzzy 集。1-3-3 生物技术仿生物技术典型的方法是神经网络方法和遗传算法,这两种方法己经形成了独立的研究体系,在数据挖掘中发挥着巨大作用。神经网络模拟人脑神经元结构,以 MP 和 Hebb 学习规则为基础,建立了前馈式网络、反馈式网络和自组织网络。前馈式网络可用于预测及模式识别,反馈式网络擅长联想记忆和优化计算,而自组织网络极适用于聚类研究 16。遗传算法是按照自然进化原理提出的一种优化策略。在求解过程中,通过最好解的选择和彼此组合,可以期望解的集合将会越来越好。在数据挖掘中,遗传算法能够用来形成变量间依赖关系假设。1-3-4 数据挖掘研
44、究中的技术难题在数据挖掘研究和开发已取得令人瞩目的进展的同时,许多尚待解决和完善的课题也摆在了研究者面前。涉及数据的问题包括噪声数据、缺失数据、冗余数据、海量数据以及动态数据等。噪声数据的属性值是不精确或错误的,从而会影响抽取的模式的准确性,造成最终结果的不确定性。缺失值现象尤其在关系数据库中经常发生,这种情况给发现、评估和解释模式带来了困难,要求知识发现模型应当具有近似决策能力。而与不完整数据相反,给定的数据集中可能含有冗余的或者不重要的属性或对象,从而增加时间空间开销和结果规则的复杂度。数据库中数据量的迅速增长,是促进数据挖掘技术发展的原因之一,也是数据挖掘技术首先要解决的问题。数据库的基
45、本特点是库中的内容是动态改变的,所以知识发现方法应当具有增量式学习的能力。为了能够有效的从数据库大量的数据中抽取模式知识,数据挖掘算法必须是高效的和可扩展的,相应数据挖掘算法的运行时间是可以预测的并可以接受的。已发现的知识应能准确描述数据库中的内容,并能用于实际领域。数据挖掘系统还应能很好地处理和抑制噪声数据和不希望的数据,所以要研7用于加工中心的计算机智能监测控制方法研究究度量知识质量的方法。数据挖掘应该能够用高水平语言、可视化表示或其它表示方式来描述所挖掘出的知识,以使用户更加容易的理解和应用所挖掘出的知识 14。虽然大多数数据库是关系型的,但许多实际应用的关系数据库还可能含有复杂的数据类
46、型,如结构数据和复杂数据对象、超文本和多媒体数据、空间和时态数据、事务数据以及历史数据等,因此一个功能很强的数据挖掘系统应能对各种复杂数据类型进行挖掘 17。鉴于数据类型的差异和不同的数据挖掘目的,针对不同数据挖掘任务应当构造专用的数据挖掘系统。1-3-5 数据挖掘在故障诊断中的应用数据挖掘技术是随着人工智能技术和数据库技术的发展而兴起的,能从大量数据中挖掘和发现有价值的、隐含的知识。目前数据挖掘与知识发现己经被广泛应用于市场营销、银行业、电信业、制造业、保险业、医药业等各个领域 15。随着信息技术的进步以及计算机技术和网络技术的发展,故障诊断中采集的数据( 包括统计数据、实验数据) 可以方便
47、地被收集和存储在各种数据库中。采用传统的数据分析方法对这些巨量的数据进行分析和处理,不仅耗时而且难以有效地挖掘和发现数据中隐含的知识。另一方面,尽管专家系统、智能诊断等方法在故障诊断中得到了广泛的应用,但专家系统的知识瓶颈以及智能诊断方法所带来的诊断推理过程解释困难等问题仍未得到很好的解决。因而数据挖掘技术能有效地应用于故障诊断中,并且能克服以往存在的知识获取瓶颈。因此,将数据挖掘技术应用于故障诊断中是必要的,也是可行的。1-4 基于粗集的数据挖掘智能的、有效的、可扩展的数据挖掘方法的研究是当前研究的热点,涉及数据的问题包括海量数据、缺失数据、冗余数据、噪声数据以及动态数据等。粗集理论从新的视
48、角对知识进行了定义;把知识看作是关于论域的划分,从而认为知识是具有粒度(granularity)的;认为知识的不精确性是由知识粒度太大引起的。为处理数据( 特别是带噪声、不精确或不完备数据) 分类问题提供了一套严密的数学工具,使得对知识能够进行严密的分析和操作。采用粗集理论作为研究知识发现的工具具有许多优点:首先,粗集理论提供了一套数学方法从数学上严格地处理数据分类问题,尤其是当数据具有不完备性或不精确性时;其次,粗集理论仅仅分析隐藏在数据中的事实,并没有校正数据中所表现的不一致性,而是一般将所生成的规则分为确定与可能的规则;第三,粗集理论包含了知识的一种形式模型,这种模型将知识定义为不可区分
49、关系的一个族集,这就使得知识有了一种清晰的数学意义,并且可使用数学方法来分析处理;最后,粗集理论不需要关于数据的任何附加知识 18。粗集理论和粗集分析能够有效地从数据中获取知识,对不一致、不确定和不完整的信息进行推理 ,在保留有用信息的前提下进行数据简约和模式分类,识别以及评估数据之间的依赖关系,并且获得易于理解的规则呈现给使用者。因此本文利用粗集分析,针对数据挖掘领域要处理的不同知识类型,从高效性和可扩展性方面进行了算法研究;面向数据挖掘中的数据预处理问题。1-5 粗集和神经网络结合的必要性人工神经网络是在生物神经研究成果的基础上提出的人工智能概念,是对人脑神经组织结构和行为的模拟。它以神经元为信息处理的基本单元,以神经元间的连接弧为信息传递通道,多个神经元联接而成的网络结构,具有知识的分布式存储和并行处理等特点。但是基于人工神经网络的诊断方法也存在着局限性;神经网络的故障诊断能力是与它的学习样本8河北工业大学硕士学位论文数量成正比关系的,故障训练样本越多,则神经网络的诊断能力越强,能够诊断的故障种类就越多,因此一个好的神经网络故障诊断系统,首先需要较多训练例子用于神经网络学习才能使网络收敛,从而得出稳定的诊断结果;同时神经网