1、粗糙集理论在简化过程建模参数中的应用粗糙集理论在简化过程建模参数中的应用粗糙集理论在简化过程建模参数中的应用摘要利用粗糙集理论知识约简的特点,以连续催化重整反应过程中重整产品辛烷值监控建模参数选择为例,对生产过程工况特征参数建立决策表,计算条件属性的重要性,对决策表进行属性约简,简化过程建模参数.此外还将该方法与主成分分析法作了比较.最后利用选择的建模参数建立起神经网络模型.关键词粗糙集决策表属性约筒0 前言粗糙集理论是一种处理模糊和不确定性知识的数学工具,其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则.目前,粗糙集理论已被成功地应用于机器学习,决策分析,过程
2、控制,模式识别与数据挖掘等领域.在利用神经网络对生产过程特征参数建立模型时,往往由于所选择的特征参数过多,造成所使用的神经网络规模过于庞大以及学习训练时问过长,降低了其实用性.事实上建模参数中存在着冗余的或不相容的知识.本文以连续催化重整反应过程中重整产品辛烷值监控为例,研究将粗糙集理论及方法引入生产过程建模,简化过程建模参数.1 粗糙集理论基本知识在粗糙集理论中,知识是以信息系统的形式来表示的.一个信息系统是用二维表格来表达的数据集,列表示属性,行表示对象.如果将一个新的属性加入信息系统,而这个属性表示对象的分类,这时系统被称为决策系统.决策表是一类特殊而且重要的知识表达系统,它表示当满足某
3、些条件时,决策(行为,操作,控制)应当如何进行.多数涉及决策的问题都可以用决策表的形式来表示.在决策表中,属性分为条件属性和决策属性.不同的属性可能具有不同的重要性,为了找出某些属性(或属性集)的重要性,我们的方法是从决策表中去掉一些30戴鸥孙自强(华东理工大学自动化研究所)属性,再来考察没有该属性后分类会怎样变化.若去掉该属性相应分类变化较大,则说明该属性的强度大,即重要性高;反之,说明该属性的强度小,即重要性低.知识约简,就是在保持知识库分类能力不变的条件下,删除其中不相关或不重要的知识.粗糙集理论是利用约简和核这两个重要的基本概念来进行数据约简的.逐个移去属性并检查决策表是否出现不一致,
4、如果产生不一致决策规则,则该属性是核,不能被约去,否则不是属性集的核,可以被删去.值得注意的是,在运用粗糙集理论处理决策表时,要求决策表中的值用离散(如整型,字符串型,枚举型)数据表达,然而目前许多实际应用中获得的数据大多是连续值(如符点型数), 因此需要首先将连续属性值进行离散化处理,转化为决策表后再进行后续分析.2 工况特征参数属性重要性及属性约简连续催化重整是生产高辛烷值汽油的重要手段.重整反应过程极其复杂,生产过程中需要监控重整产品的辛烷值,而影响辛烷值的因素较多.根据经验,初步选择反应器进料量,反应器进口温度,加权平均床层温度,干点,芳烃潜含量,氢油比和出料量作为特征参数.表 1 给
5、出了不同时问辛烷值与对应各个参数的值,所示的为 39组数据中的前 8 组数据.表 1 各特征参数与辛烷值进料量进口温度加权平均床层温度干点芳烃潜含量氢油比出料量辛烷值55488462.615533.143.545093.1755oo471.7l5330.372.486l94.475495467.7I6I27.483.46739770495466.4l5626-373-396l96.56649l464l5726.374.086296-36549l46516331.994.235896.555490462.915626.433.274399.355490462.5l5926.433.074996.
6、1按照粗糙集理论,我们可以把特征参数看作是决策自动化信囊 AUTOMATIONINFORMATION表中的条件属性,把辛烷值看作是决策表中的决策属性,通过判断条件属性对决策属性的重要性来看各个特征参数对辛烷值影响的大小.在构造决策表之前,首先要对连续属性离散化.离散化的方法有很多,在这里,根据具体情况,我们将辛烷值离散为 1,2,3 三个值,分别代表辛烷值低,正常,高.而对于各个特征参数,我们将其简单的离散为 1,2 两个值,分别代表较差,较好.具体方法如下:对于每一个属性(包括条件属性和决策属性 )来说,它有最大和最小值,设属性为 X,即 XEXmimXtmx.对于条件属性,我们取中位值 X
7、 若 xx,则离散值为 1;若 Xx 则离散值为 2.同理,对于决策属性,把 X 等间距分成 3 部分,每一部分的分割点为 X,X,若 Xminxxl则离散值为 1;Xxx,离散值为 2;xXXrax,离散值为3.对每一个属性都用同样的方法处理,最后用离散属性值代替连续属性值,就得到了决策表.根据这种方法求得决策表后,发现决策表中存在相同的规则,这说明采集进来的原始数据并不是十分理想,存在相似的观察数据,这些数据可认为是多余的,删除表中相同的规则后,变为 20 组数据,表 2 所示的是其中的前 8 组数据.表 2 离散化后的决策表C1C2(CC5C6CCRllll2lll222lll2l222
8、2ll22222lll222ll2l2222ll22212lllllll3lll2lll2注:C1 至 C7 对应表 1 中各个特征参数 ,D 对应辛烷值值得注意的是,连续变量离散化以后,有可能会产生矛盾规则,即在相同的条件属性下,会得出不同的决策属性.在这种情况下,我们应该把相冲突的规则去掉,直到决策表中的规则不相互冲突.运用上面提到的计算方法计算各个条件属性对决策屙生的重要性.得到结果如表 3.表 3 条件属性对决策属性的重要性表 3 说明,c,c 对决策变量辛烷值来说是重要的 .那么,是不是说那些重要性为 0 的条件属性就没有作用了呢?并非如此 .因为我们在计算条件属性重要性的时候,是以
9、一个条件属性为单位,这并不表示它们的组合对决策属性没有重要性.事实上,通过计算条件属性对2004 年 12 月第 8 册总第 44 册粗糙集理论在简化过程建模参数中的应用决策属性的重要性,我们可以发现,c,c 即为该决策表的核.那么,在接下来的条件属性约简中,我们就有的放矢了.从表中去掉一个条件属性,观察决策表中相同的规则是否会导致不同的决策,如相同规则对应着不同的决策,决策表不一致,则该属性不可删除.在表 2 中删除条件属性 c,可见表仍是一致的,即不存在相互矛盾的决策规则.同理,删除 c,c,c 后,决策表仍然保持一致.然后,简化决策规则,即删除分类规则中多余的属性,只保留必要的属性.如有
10、必要,则进一步进行决策算法最小化,从简化的决策表中去除冗余决策项.最后,我们得到经约简后的最小决策表,女口.表 4.表 4 经约简后的最小决策表C2llll22C222lll1C622l1?212D221223这时,如再删除其中任何一个属性,决策表不再保持一致.南此我们得到条件属性数目最少的简化决策表,当然,最小决策表并不是单一的,这只是最小属性约简中的一种.3 与主成分分析方法的比较主成分分析是考察多个数值变量间相关性的一种多元统计方法.它是研究如何通过少数几个主成分(即原始变量的线性组合)来解释多变量的方差一协方差结构.具体地说,是导出少数几个主成分,它们尽可能多的保留了原始变量的信息,且
11、彼此间又不相关.这里,我们运用 SAS/STAT 软件中的 PRINCOMP 过程来进行主成分分析,以催化重整中各特征参数的数值为输人数据.表 5列出了运行程序后的部分结果.表 5 相关阵的特征值特征值相邻特征的差解释方差比例累计比例主成分 14-296786O43.0680l0640.61380.6l38主成分 21.228775390.4l9262080.17550.7894主成分 30.8095l33l0.5O4953l60l1560.9O50主成分 40.3O4560l50.02O482760.O4350.9485主成分 50284077390.223092820.04060.989l
12、主成分 60.O6O984570.045681440o0870.9978主成分 70.0l5303130o0221.OOoo从表 5 中看出前三个主成分累计解释方差占90.5%,可以用于建模.但构造出的主成分是原始变量的线性组合,与粗糙集方法相比,虽然主成分分析尽可能多的保留了原始变量的信息,然而没有直接表现出特征参数对最终生产结果的影响程度,影响了对重要参数的判断,我们也就尢从知道控制哪一个参数相对而言更重要些,而粗糙集方法恰恰克服了这些缺点4 基于属性约简的神经网络建模利用第节的计算结果,我们把 C(加权平均床层SampJeNo图 1 基 J:=【糙集理论的 Bp 网络训练一检验效果担糙集
13、理论在简化过程建模参数中的应用温度),C( 干点),C( 氢油比)作为 BP 神经网络的输入,最后得到的结果如图 1 所示,其中前面 33 组数据用于训练,后面 6 组数据用于检验.训练样本均方根误差为0.07,榆验样本均方根误差为 0.3958.5 结论从以上分析可以看出,原来我们需要用 7 个特征参数建立辛烷值监控模型,在利用粗糙集方法后只需要其中 3 个特征参数即可,简化了过程模型参数.这时再采用人 T 神经网络方法建立模型,可大大简化网络结构 ,降低神经网络构成系统的复杂性,减少了网络训练时间,提高了其实用性.粗糙集理论从提出到现在虽然只有短短 20 多年的时间,但作为一种较有前途的数
14、据处理方法,为处理不确定性信息提供了有力的分析手段,对简化过程建模参数有很大帮助.佳壹简金戴鸥男,生于 1979 年,硕士研究生,研究方向为智能检测与控制:孙自强男,生于 1963 年,副教授,研究方向为过程建模与智能控制(上接 57 页)Acqiris 公司高级营销副总裁 DidierLavanchy 先生认为,PXI 与 GPIB 比较,大多数的用户都会说 GPIB 是低频低速,PXI 则是比较高频高档的应用,可是到了最近两年,很明显 PXI 已经被市场广泛采用了.他说,PXI 技术是从 PCI 上转变过来的 ,本身市场上就有很多应用,因为 PXI 跟 PCI 相关的技术可以让更多的人去参
15、与,所以它的发展速度一定会比 PCI 更快.如果 PXI会创造出更多的应用,用户觉得 PXI 比较适合他就会用它:在多样化的需求中,Acqiris 追求的是高频模块化的产品应对市场需求,根据不同的需求采用不同软件和硬件的组合制造出不同的量测系统.他说,目前市场上总共有 800多种产品可供选择,用户一定可以找到适合的产品:当然,PXI 的市场推进并不是一帆风顺的.要获得更为广泛的应用,PXI 还有一些挑战需要面对.Rigas 先生说 ,PXI 在在市场应用的推广大概受到三个方面的限制,第一个是 PXI 跟传统的 VXI 相比较,如何可把它的功能整合在更小的体积里这是在技术上需要再取得突破的.第二
16、做PXI 设备要和用户形成良好的互动,因为 PXI 本身是没有附加功能的,但是在给用户提供方案的时候,必须考虑到用户的个性化功能需求.第三是要把很多的功能集中到体系很小的 PXI 设备上,这是一个很大的技术挑战,如果不能实现的话,GPIB 等专属架构就会继续得到应用.32在谈到 PXI 和 VXI 等传统产品的关系时,李先生说,PXI 不是用来取代其他任何一个架构的技术,在有些场合,GPIB 和 VXI 还是有很多的应用.但是在一些市场上,比如说在一条生产线中要用到几十台测试测量设备的时候,PXI 的优势就很明显.现在大家普遍认为 PXI 会被接受.对用户而言,不论是选择 PXI 还是 VXI,都是要解决应用的技术问题.实际上,在 VXI 领域,也有很多厂商提供很多的产品.但是在选择的时候,会有一个兼容性的问题.而采用 PXI,则基本上不存在这个问题.在 PXISA 协会的推动下,很多厂商都在相互支持和兼容的基础上生产不同的产品,兼容和扩展不存在问题.PXI 未来获得更多的应用是一个很明显的趋势.测控技术作为信息,产业的基础,对信息产业的发展有着巨大的推动作用.而通过 PICMG 技术年会这样的活动,国内业界将有机会接触到世界最前沿的测控技术和应用,这对于促进国内相关产业的发展,有着积极的推动作用.自动化信息 AUTOMATIONINFORMATION