专家系统评价技术综述.doc-道客多多

资源描述

1、专家系统评价技术综述雷英杰邢清华（空军工程大学导弹学院，713800）摘要: 本文给出了专家系统评价的一个多面方法以及相应的一些准则，评价方法大体上可分为三个阶段，首先是主观评价阶段，使用的是多属性效用评价法；其次是“黑盒”内部的技术评价阶段，针对知识库的一致性、完整性等给出了详细的判别准则；再次是经验性评价阶段。最后给出了综合测试和评估判据的多属性效用分析框架。关键词：专家系统评价知识库完整性知识库一致性中图分类号：TP391 文献标识码 AEstimate technology on expert systemLei Yingjie Xing Qinghua ( Missile

2、Institute of Air Force Engineering University, Shanxi 713800)Abstract This paper gives a multi_side method of expert system estimation and some corresponding rules. The estimation method may be divided into three stages on the whole .First one is subjective estimate stage, uses the multi attribute u

3、tility analysis(MAUA) method, next one is technology estimation stage within the black case, here, the paper gives the particular criterion rule about the consistency and completeness of knowledge base, the last one is empirical estimation stage. Finally ,gives the MAUA frame of the integrated testi

4、ng and evaluating criterion. Keyword estimate on expert system , completeness of knowledge base, consistency of knowledge base 随着专家系统应用的日益广泛以及专家系统原型的日益增多，专家系统评价变得日益重要，这些系统究竟好到什么程度，它们能象宣称的那样称职吗？它们的知识库可信、有效吗？它们能够方便用户使用、维护、修改吗等等这一系列的问题，都需要给出一个回答，本文给出了专家系统评价的一个多面方法以及相应的一些准则，评价方法大体上可分为三个阶段，首先是主观评价阶段，即主观评

5、价方法，其次是“黑盒”内部的技术评价阶段，再次是经验性评价阶段。这些方法一方面可用于专家系统开发过程当中，为开发过程能维持正确的轨迹提供反馈，也可应用于专家系统研制结束后评价系统的整体效能。1 主观评价法11 评价的目标主观评价法是从用户的角度对系统进行评价，评价的目标是系统的可用性。这需要由确定系统的效能量度来完成，效能量度将提供评价系统的可用性所需的信息。效能量度的确定在开发过程开始时特别重要，有很多文章也曾强调过在专家系统早期开发过程中开发专家系统效能量度的重要性。这些量度对于设计者来说也是非常重要的，因为设计者可以从这些量度弄明白专家系统的动机，从而为系统设计或改进提供思路。多属性应用

6、技术为效能量度概念提供了一个正式的体系。多属性应用技术是一种处理那些难于完全用定量方法来分析复杂问题的手段，是一种定性、定量相结合的方法。这里用多属性效能量度评价方法对专家系统进行主观评价。12 多属性效用分析法多属性效用法其基本思想是将全局的效能量度分解成若干层次，在比原有问题简单得多的层次上逐步分析，可以将人的主观评价用数量形式表达，之后，再将它们综合生成一个总评价量度。当多属性效用法应用于专家系统评价时，将系统从概念上分解成不同属性类，该类再进一步分解，依次下去，直到觉得对每一系统属性都能定义并获得精确、可靠、有效的量度（打分）为止，然后通过将属性打分转换成整体量度，来得到对专家系统的主

7、观评价结果。2 技术评价法技术评价方法有三类，一种是评价知识库是否是最小表示、评价知识库逻辑一致性和精确性的静态测试，一种是由领域专家评价知识库的功能完整性和预见准确性以及推理能力；再一种是评价整个系统服务需求的软件测试和检验方法。21 问题最小表示影响问题最小表示的因素有：冗余规则：各规则或规则组基本有相同的结论。比如 pqh 和 pqh； A(2,4)(3,5)g 和 A(2,5)g，这两组规则实际上分别是等价的，故是冗余规则，可以直接从库中删除一个。包含规则：当一个规则或一组规则的含义已在另一个规则中表示出来时，可从类似的但约束条件较少的一个规则中得出结论。规则的简化。实际上，上面

8、主要指的是知识的无效表示，一般来说对系统的正确性没有大的影响，但是它可以降低系统的运行速度，并且在对知识库修改与扩充期间成为问题的根源。冗余规则、包含规则可以被检测出，并被删掉，对系统的逻辑推理没有影响，然而，某些情况下，在库中保留较特殊的包含规则可能是有目的的，它可以影响冲突的解决机制和推理控制策略。规则的简化意味着用等价的单个规则替换原来的两个或多个规则。这样，通过以上异常的清除将得到一个逻辑上等价的知识库，只不过是更精巧、更简洁一些而已。22 逻辑一致性和精确性逻辑一致性是指两种或两种以上的知识形式、规范一致，知识库中的知识不会发生矛盾、冲突等。知识的精确性要求知识确切、无二义性。下面给

9、出适合于静态测试的知识库异常分类，这里的知识库以“IFTHEN. ”的形式生成规则。有了这一分类，我们可以分别对每一异常作出相应的处理，以保证知识库一致、准确。（1）逻辑一致性一致性特殊地指这样一种情况，一致规则的应用导致结果的模糊或非一致性，含糊的结果缺乏确切性。有两个规则可以应用于同一输入，但输出却不同，这种结果也许是无害的，但是在无功效系统中要认真分析。影响逻辑一致性有下列几个因素：冲突规则：那些采用了相同（或非常相似）的条件，但导致不同结论的规则（规则组），或其组合违背了逻辑原理（例递推性等）的规则。圆周规则：那些导致返回初始条件（或中间条件）而非结论的规则。不必要的 IF 条

10、件：在一个条件上的值并不影响任何规则的结论。冲突规则是一种危害的规则，依据预想的解释，同时产生的输出可能不全正确。例如，有些设备可以工作在一个或仅一个状态，而推出的结论是设备同时工作在两种不同的状态，这将导致物理上的不协调。（2）逻辑完整性影响逻辑完整性有下列几个因素：非参考属性值：规则中，条件的值不能导致一个结论。非法性值：规则中条件所能接受的值之外的值。不可得到的结论（或终点）：不能将输入条件和输出结论直接或间接连结起来的规则。对于小且结构良好的知识库，上述异常的静态测试可以由人工来完成，对于中等规模或大规模的数据库，人工完成静态测试需作出很大的努力，所以目前正在实现由人工向自动静态

11、测试仪的转变，这将代表着评价知识库逻辑一致性和完整性的主要发展进程。23 功能完整性和预见准确性一般，知识库的功能完整性和预见准确性要由领域专家参与，要用一些典型的测试用例与专家的诀窍来测试其反映，看能否与专家的看法一致或能否提示专家思考更深入的问题。功能完备性的主要判据包括知识库是否包含了所有希望的输入条件和结论，结论的完整性和知识边界，预见准确性的最终目的是检验知识库能否表现“正确的推理” ，即正确的输入能否得到正确的输出，同样的输入能否得到一致的输出。而“正确的推理”又必须以知识库的准确性为基准，知识库准确性的主要判据包括：事实的准确性、规律的准确性、知识表示的准确性，知识库的可改性（控

12、制可扩充性）。预见准确性用测试器和性能标准来完成，所要求的标准是以事实为根据，预见准确性的测试要通过测试实例来体现。测试时要注意，测试实例的结构是一个重要问题，即问题不是测试实例的个数，而是测试实例的作用范围，也就是反映输入范围的良好程度。测试实例中应包含那些容易导致系统严重故障的实例，也应包含那些模拟系统最普通操作的实例。知识库的完备性也可通过对整个系统完备性的分析和执行来获得，在某些情况下（不是太大的系统）可以由 PROLOG 的执行机制完成，也可以由某些基于规则的验证系统完成，比如 CHECK，可以检测循环规则，而 COVER 可用于检测反向推理系统的缺点。确实，一个系统一旦被证实具有

13、完整性，那么该系统可被认为是可靠的，在将来可以安全使用。相反，对于很多复杂的系统，这种完整性检测是相当不可行的，尤其是系统中掺合了某种语言解释函数，这时可以通过保持执行规则的动态轨迹和在随后阶段获得的结果来验证系统的完整性。24 服务评价上面介绍的两种方法主要是针对知识库而言的，服务评价实际上是对专家系统满足用户需求程度的评价，它包含四个阶段，第一阶段是人工分析，由有经验的软件工程师针对问题分析其需求说明、设计和实现计划，第二阶段是静态分析，可由人工或自动完成，分析设计文档和软件，第三阶段是动态分析，借助一组测试数据，比如随机测试、功能测试，来执行软件，第四阶段是可选的，用来证明程序的正确性。

14、3 经验评价法经验性评价阶段侧重于获得系统性能的主要量度，例如，经验性阶段的主要目的是评估是否人作决策更好，更快，利用或不利用该系统，哪种方式获得的信息更多？从而为系统改进提供好的建议。经验评价首先要有用户参加，有真正的专家和有代表性的用户参于评价，用户给出对系统的主观评价，由专家给出系统的技术评价，以便系统性地评估系统性能是不是用户类型的功能。经验评价方法可分为：实验、准实验、实例仿真研究和历史数据统计分析。下面仅对实验进行介绍。经验评价中考虑最经常和最一般的是实验。当用户想实际使用开发好的专家系统时，实验特别适合，因为实验专门帮助用户或参与实验人员完成从一个采样测试到较大抽样群的测试。典型

15、地要考虑这样两种实验。其一，实验要反映专家系统性能约束的客观基准，如果专家系统通过该实验测试合格，则系统是有效的，否则将其搁置起来。例如，假设用户借助专家系统在 30分钟内可以作出某决策，然而，若用户组织要求一项决策在 15 分钟内作出，那么专家系统的这种辅助是无效的，若要求一项决策在 30 分钟内作出，那么专家系统的这种辅助是有效的。不过这个性能基准对于一些实时的活动是必要的。但对许多专家系统应用，它们是不必要的。其二，反映系统非伸缩判决规则的性能基准，即系统的其它特征对性能基准的失效没有补偿作用。4 综合测试和评估判据的多属性效用分析框架本文所述的不同方法解决不同的评价和测试判据问题，下图

16、 1 所示的框架总结了这些判据，而且试图用多属性效用评价体系将其综合起来。这是系统的最高级。对于开发者来说，其目标当然是创造高可用性的技术。该体系有两个分支，第一个包括技术评价判据，这些包括设计编码标准、能力（即：知识库）和服务（即，方便的软件）要求。第二个分支包括经验的和主观判据，这些按性能和可用性判据分组，性能又分解为以事实（或专家打分）为依据的判据和判断，可用性分解成以与系统一同工作的参加者的观察为基础的判据和用户的反映意见。整体测试评价技术的经验和主观的设计和编码标准知识库及推理机系统服务效用性能硬件设计功能设计知识设计表示结构实现策略内部文档标识符注解视

17、觉组织数据结构说明语句构造输入输出效率异常处理诊断信息嵌入其它语言代码可重用性功能的自行改进功能接口问题最小表示冗余律包含律简化律逻辑一致性不相容律圆周率不必要的条件逻辑完整性非参考性值非法性值不可更改的结论功能完整性所有希望的输入/输出包括应用/结论的完整性知识边界准确性和充分性事实的准确性规律的准确性知识表示源的准确性知识库的可改性控制面可扩充性推理机冲突解决动作匹配终止检测计算机系统设计便携性计算机应用准备时间运行时间空间要求可靠性（硬件）渐衰性输入差错处理系统综合格式日期要求可移植性易维护易改进易用文档系统文档用户文档技巧要求（

18、包括与用户的要求背景相匹配）基本事实速度精度偏爱判断速度响应时间完成任务时间质量响应质量推理质量成本收益可观察的使用范围使用方式采用特征意见可靠性安全性便于使用可接受性吸引性便利置信度可理解性对结果的满意程度应用范围专家系统的透明性对管理机构的影响工作方式/工作量、技能、培训的影响管理方法、结构的影响图 1 综合测试和评估判据的多属性效用分析框架5 总结本文描述了测试和评价专家系统的一个多面方法，该方法由主观的、技术的和经验的评价法组成，这些方法可用于在开发和使用的后期评价系统，在开发过程中，可用于提供反馈，使开发沿正确的轨道进行。其实，评价的目的不完全在于评价出其好或坏，更主要的

19、目的：其一，获得准确的反馈；其二，发现错误，通过测试应该对程序有绝对把握；其三，使误差数目最小，并使确定误差所需的时间、作的努力、和耗资最小，在开发的早期就消除错误或误差。这样使专家系统的生命周期变成“预防性的” ；其四，指导开发向最大限度满足用户需求的方向发展。文章已描述了现有的评价专家系统方法中的每个判据，但是有很多问题仍需进一步研究。比如这些判据是否充分、足够，此外象主观评价法中的多属性效用量度代表着将这些多种多样的判据的单个评价转换成一个整体可用性量度这样一个机理。这些，都有待进一步研究。参考文献1 印鉴刘星成汤庸专家系统原理与编程机械工业出版社，2000 年 5 月 2 C3I 系统分析设计研究与评价机电部五十四研究所， 1993 年 2 月3 Antoni Ligezat，Toward Logical Analysis of Tabular Rule-Based Systems,Institute of Automatics AGH,20004 刘有才刘增良模糊专家系统原理与设计，北京航空航天大学出版社， 1995

展开阅读全文