收藏 分享(赏)

基于multigen 2fvega飞行事故分析三维再现系统的研究.docx

上传人:精品资料 文档编号:7767530 上传时间:2019-05-25 格式:DOCX 页数:69 大小:2.37MB
下载 相关 举报
基于multigen 2fvega飞行事故分析三维再现系统的研究.docx_第1页
第1页 / 共69页
基于multigen 2fvega飞行事故分析三维再现系统的研究.docx_第2页
第2页 / 共69页
基于multigen 2fvega飞行事故分析三维再现系统的研究.docx_第3页
第3页 / 共69页
基于multigen 2fvega飞行事故分析三维再现系统的研究.docx_第4页
第4页 / 共69页
基于multigen 2fvega飞行事故分析三维再现系统的研究.docx_第5页
第5页 / 共69页
点击查看更多>>
资源描述

1、南京航空航天大学硕士学位论文基于MultiGen/Vega飞行事故分析三维再现系统的研究姓名:王蕾蕾申请学位级别:硕士专业:交通信息工程及控制指导教师:韩松臣20080101南京航空航天大学硕士学位论文摘要随着民航飞行频率的不断增加,飞行安全的问题更加突出地摆在各个民航企业面前,航空安全越来越成为公众瞩目的焦点。本文研究的飞行事故分析三维再现系统基于 multigen/vega,是数据分析与图形分析相结合的,包括历史数据分析、飞行数据处理、飞行过程三维再现三部分。对历史数据,将粗糙集理论中粗糙度的概念引入决策树的传统构造算法 ID3 中,构造事故原因决策树,辅助事故原因判断。对实际雷达数据,根

2、据标准传输格式进行分析,解算出目标的位置、速度等数据并对解算出的数据进行坐标转换、参数推算等。对于飞行过程,根据实际高程数据生成三维地形;通过读入飞机的位置、速度等参数,对地形、飞机等物体进行实时驱动,再现飞机的飞行过程。数据分析与图形分析相互对照验证,实现辅助事故分析的功能,为飞机事故的分析提供了新的分析方法和思路。关键词:事故分析,三维地形,飞行仿真,粗糙集,决策树,雷达数据i基于 MultiGen/Vega飞行事故分析三维再现系统的研究AbstractAlong with the Civil Aviation ever-increasing frequency of flights, f

3、light safetyissues play a more prominent role in various civil aviation enterprises, and aviationsecurity is increasingly becoming the focus of public attention. In this paper, the 3Dreappearance system of aviation accident analysis is based on MultiGen/Vega, and is thecombination of the data analys

4、is and the graphical analysis, including three parts:historical data analysis, flight data processing and 3D flying reappearance. For thehistorical data, the concept of roughness from rough set theory is introduced into the ID3algorithm which is a traditional construction algorithm of decision tree;

5、 constructdecision tree of accident causes to support its judgment. For the actual radar data, thelocation, speed and other data of target is calculated in accordance with standardtransmission format for analysis; complete the coordinate transformation and parametersderivation of the calculated data

6、. For the flight process, 3D terrain is generated accordingto the actual elevation data; accomplish real-time driver of the terrain, aircraft and otherobjects for real-time drive through the reading of the aircraft position, speed and otherparameters; reproduce aircraft flying process. The mutual co

7、ntrol verification of dataanalysis and graphical analysis achieves the analysis of the accident auxiliary functionand provides new analytical methods and ideas for the analysis of aircraft accidents.Key Words: accident analysis,3D terrain,flight simulation,rough sets,decision tree,radar dataii南京航空航天

8、大学硕士学位论文图表目录图 2.1 离散化方法分类图 . 7图 2.2 粗糙集概念示意图 . 10图 2.3 决策规则 . 16图 2.4 着陆事故决策输出 . 16图 3.1 HDLC 帧格式 . 20图 3.2 ASTERIX 数据块 . 20图 3.3 对雷达数据的推算过程 . 26图 4.1 三维实时仿真应用程序创建过程 . 29图 4.2 地形建模流程 . 32图 4.3 工程目录中包含的文件 . 34图 4.4 高程数据下载网站 . 36图 4.5 格式转换参数设置 . 36图 4.6 转入转出距离 . 38图 4.7 规则网格算法 . 39图 4.8 不规则网格算法 . 40图

9、4.9 地形创建控制面板 . 42图 4.10 进行处理的地形块 . 43图 4.11 LODs 设置 . 43图 4.12 地图投影方式设置 . 43图 4.13 处理算法设置 . 43图 4.14 最低 LOD 下的地形 . 44图 4.15 低 LOD 下的地形 . 44图 4.16 高 LOD 下的地形 . 44图 4.17 利用等高线设置多边形颜色的效果 . 45图 4.18 对象物设置面板 . 46图 4.19 地形、飞机、飞机倒影对象 . 47图 4.20 场景设置面板 . 48图 4.21 观察者设置面板 . 48图 4.22 运动模型设置面板 . 49图 4.23 环境设置面

10、板 . 50图 4.24 环境效果设置面板 . 50图 4.25 实时读入数据 . 55图 4.26 飞机冲出跑道 . 56图 4.27 两飞机间隔过小 . 57v承诺书本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人享有著作权的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本人授权南京航空航天大学可以有权保留送交论文的复印件,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文。(保密的学

11、位论文在解密后适用本承诺书)作者签名:日期:南京航空航天大学硕士学位论文第一章绪论1.1研究背景在飞机近百年的发展历史中,飞行安全有了很大的提高,飞行事故呈逐渐下降趋势。军用飞机的灾难性事故率从 20年代初期的每 10万飞行小时发生500次左右,减少到 90年代中期的每 10万飞行小时发生 1.5次左右;喷气式民用飞机在 50年代末,每百万次离港发生 47次灾难性事故,到 90年代中期下降到小于 2次。分析军民用飞机事故率演变趋势,寻找发生事故的原因,可为进一步降低事故率,特别是开展飞机的安全性设计提供依据,也可为各航空公司防止飞行事故发生,提高飞行安全性提供参考。在中国,随着经济的飞速发展,

12、航空运输业规模不断扩大,市场稳步增长。与此同时,民航飞行频率的不断增加,飞行安全的问题更加突出地摆在各个民航企业面前,航空安全越来越成为公众瞩目的焦点。航空安全管理工作主要之一是通过对事故进行调查,找出造成事故原因,提出安全建议,防止类似事件再次发生。航空安全技术的发展是保障航空安全的有效手段,航空安全领域的事故预防和事故调查工作将更多地依赖于先进的技术手段及辅助分析工具。安全事故包括一般安全事故和重特大安全事故等,一般安全事故是包括生产人员在生产过程中对飞行器等生产工具是否存在不安全的操作,对人员、飞行器以及其他财产是否造成损害等。如在起飞过程中有没有按规定程序操作也是属于安全事故分析的目的

13、之一。飞行事故往往是一系列因素综合作用的结果,从而使事故很难分析,如何能利用更有效的分析手段,给事故定性,以便为我们尽快采取措施来避免相同事故的再次发生,具有很大的现实意义。飞行事故分析是一项极为复杂的、科学性技术性很强的工作,是一门综合科学,其主要目的是:准确、迅速地查出事故的直接原因,并提出有效的预防措施。然而在实现上述目的的过程中,需要做大量复杂的调查研究工作。而长期以来在飞机事故分析中所应用的各种方法和手段主要局限于专业人员的经验和一般的常规手段,致使结论易受人为因素的影响,具有一定的局限性。计算机在航空界的应用以及在事故分析中的成功应用告诉我们:飞行事故分析只有朝着广泛应用计算机的方

14、向发展,才能将事故分析工作提高到一个新的水平。1基于 MultiGen/Vega飞行事故分析三维再现系统的研究将飞行数据及有关信息的处理及分析与先进的图形技术结合起来,以三维图形动态模拟飞机和仪表的实际飞行及工作状态,建立一个直观形象、方便有效的飞行事故分析三维再现系统势在必行。三维再现系统可以真实再现飞行过程,比文字和曲线图更直观,所提供的信息和结果更易于被人们所理解和接受,因此,在我国航空安全工作中可发挥重要作用。它可以应用于重大事故及事故征候的飞行模拟再现和典型案例的仿真制作,为民航事故调查提供强有力的技术支持和更为直观科学的分析工具,提高航空安全研究的质量和效率。1.2研究现状飞行事故

15、分析三维再现系统以三维视景仿真技术为工具,在计算机上仿真一个真实的飞行过程及环境。视景仿真 (Visual Simulation),习惯上又被称之为图形仿真,它通过计算机根据要求生成一个与真实环境一样或类似的场景,并控制和计算这个场景中各个物体的姿态和位置、然后根据一个虚拟的观察视点计算形成一个个连续的画面、最终显示在诸如显示器或投影这样的显示设备上。目前视景仿真已被应用于许多领域。在航空领域里众所周知的例子就是固定训练器 (ETD)和全任务飞行模拟器 (FFS),尤其是 FFS能够提供逼真的视景、音响和运动感觉,这样在飞行员训练方面,能够提供更加安全和经济的手段。Azuma.R等及 Marc

16、us Lange等分别在 2000年 1和 2003年 2讨论了空中交通管理中及自由飞行的飞行三维虚拟仿真辅助工具。 Carsten Beuthel等在 2002年3 研究了机场中飞机滑行及飞机停机坪操作的三维虚拟仿真。 Kurt Beier等在2004年 4研究了民航飞机在大雾天气能见度低的情况下通过红外线探测,将周围地形三维虚拟重现,辅助飞行。冯杰等在 2003年 5针对飞行器可视化仿真中成本较高、开发周期较长、实时性较差等缺点,针对不同的实体提出了相应的模型优化方法,并自行设计了相应的飞行参数的数据存储结构,进而在 PC平台上实现了对飞行器三维场景的实时渲染,获得了较好的性价比。赵颖等在

17、2005年 6介绍了在 Windows系统平台及 Visual C+6.0的 MFC基础类库环境下,采用 OpenGL技术与串口通信技术实现的飞行仿真系统的设计思想与程序实现方法。程文俊等在 2005年 7使用 Multigen Creator建立了三维模型,通过 Vega创建了仿真的环境,最后采用 Visual+6.0平台,通过网间接收数据,实现了飞机飞行的视景仿真系统。吴晓君等在 2005年 8提出了战场飞行视景系统,由地面仿真场景和飞行平视显示仪模型构成,从空域对整个战场态势实时仿真。许大伟等在 2006年 9分析了三维视景仿真的系统结构,采用 Multigen Creator进行三维场

18、景建模,通过 Vega实现了模型的驱动,建立了立了既有丰富的场景,又能2南京航空航天大学硕士学位论文很好地满足虚拟环境真实沉浸感要求的视景系统,能够满足飞行训练的要求。受到 FFS应用的启发,在一些航空事故的调查中,调查人员试图通过 FFS再现事故过程,从而发现事故原因。但是在事故调查前期,调查人员面对的是FDR的数据表格或各种参数曲线、 CVR的录音等各自独立分散的信息源,因此调查人员更需要的是一种能够将 FDR, CVR以及其他可获得的信息如雷达记录等综合起来的系统,在通用的计算机平台上将 FDR数据、 CVR录音以及其他信惫,如机场灯光、云、能见度等集成在三维场景中,并根据这些信息驱动飞

19、机、仪表、灯光等三维模型来仿真再现事故的发生发展过程,从而直观地为调查人员提供更加明确的与事故相关的各种信息,以便更容易更迅速地发现事故原因。航空发达国家事故调查机构很早就开始使用基于图形工作站的飞行图形仿真系统辅助事故调查。目前,国际市场上主流的飞行图形仿真软件均基于微机平台,主要有美国 Simauthor公司的 FlightViz软件、加拿大 Flightscape公司的 Insight软件、法国 CEFA Aviation公司的 CEFA软件以及美国 Teledyne公司的 VISION软件。S. M. Whayeb, A. C. Walton在 1997年 10研究了空中事故调查中涉及

20、的两个方面:一是根据飞行数据记录仪记录的数据,利用虚拟现实技术三维显示飞机的飞行轨迹;二是基于“ KRASH”机身撞击分析程序的空中事故调查工具,用于仿真飞机碰撞时的行为。而近年国内也有不少人将视景仿真与飞行安全及事故分析相结合进行研究。丁宁,黄圣国在 2000 年 11针对民航飞机飞行过程中起飞进近与着陆是两个事故多发阶段,采用构造 NURBS 曲面的方法,把在 3DS 中产生的飞机模型放入坐标系中,通过飞行记录器中记录的数据确定飞行轨迹与姿态,对飞机的起飞降落进行再现,帮助进行飞机事故原因查找。郭富在 2002年 12设计了飞机飞行姿态三维动态演示系统,既可用飞行数据记录器,也能用雷达所记

21、录的数据来建立飞机运行轨迹与姿态的数据库,为用直观的三维图像来模拟飞机在任一时刻的高度、航向、速度、距离、俯仰、倾斜等姿态和轨迹提供依据,实现虚拟现实的效果。通过对不同的飞行环境的选择,增强临场感。另外能将所需的轨迹打印出来,从而达到帮助事故分析人员更直观地理解飞机飞行过程中的飞行姿态与轨迹目的。陆慧娟等在 2005年 13利用飞行器普遍具有飞行数据记录器和运动的三维空间性等特点,以飞行器为原型开发事故模拟仿真分析系统,该系统是利用 3ds MAX平台,将地理信息技术、三维模拟技术和移动物的移动轨迹数据 (如飞机黑匣子里面的数据 )结合起来,多角度观察事故发生过程,加快事故分析速度,提高事故分

22、析的准确性。赵志昌等在 2006年 14介绍了航空安全技中心在广泛借鉴了国外多家仿真软件的优点后,通过对飞行仿真3基于 MultiGen/Vega飞行事故分析三维再现系统的研究技术的综合研究,自主开发的一套具有自主知识产权、功能完备、符合中国民航行业特点的、具有国际先进水平的航空安全领域微机版三维图形飞行仿真系统。该飞行仿真系统是一个将所记录飞行数据可视化的有效工具,利用计算机以三维图形方式真实再现飞行过程,全面、综合地展现飞行状态及各种综合信息,以一种所有人都易于理解的形式逼真、准确地展现所记录的大量关键飞行参数之间的相关性,图示分析结果,揭示问题所在。以上的研究,为事故调查提供了直观有效的

23、分析手段,但仍存在一些缺陷。它们一般是直接使用已有的飞行数据进行飞行模拟,并没有对数据进行分析总结,而这些数据中蕴含着许多可以利用的规律,通过对这些规律的发现、利用,并与飞行仿真相结合,可以更好的帮助我们分析事故原因,尽快采取措施避免相同事故发生。数据挖掘技术是可以用来挖掘这些规律的一种有效工具。1.3本文主要研究内容基于以上的讨论和分析,本文研究的飞行事故分析方法是数据分析与图形分析相结合的。对事故相关数据进行处理分析,利用挖掘出的规律判断事故原因,并在三维仿真图形环境中,准确逼真地模拟飞机真实飞行时的飞行状态,对事故进行分析,两者分析结论相互对照验证,实现辅助事故分析的功能。具体内容安排如

24、下:第二章将决策树与粗糙集结合,在传统的决策树构造过程中引入粗糙度的概念,建立了数据挖掘的模型,可对历史事故数据进行分析,构造事故原因决策树,辅助事故原因判断。第三章根据标准雷达数据格式 ASTERIX的传输格式,对实际雷达数据进行分析,解算出目标的位置、速度等数据;对解算出的目标位置进行坐标转换,将极坐标转换为经纬度坐标;根据飞机运动方程、标准风轴系运动方程以及飞机本身的一些参数等对缺失数据提出了推导计算公式。第四章根据实际地形的高程数据建立三维地形,在仿真驱动中载入地形;利用第三章整理出来的飞行数据,使飞机按航迹飞行,并对飞机的方位、姿态与行为进行控制,使其表现出与实际过程一致的运动状态。

25、最后,对所做工作进行了总结,并对飞行事故分析技术的进一步研究做出展望。4南京航空航天大学硕士学位论文第二章决策树与粗糙集相结合的事故原因决策2.1引言1989年 8月,在第 11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现 (KDD,Knowledge Discovery Database)技术。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了 1995年,在美国计算机年会 (ACM)上,提出了数据挖掘 (DM, DataMining)的概念。数据挖掘是指从大量的、不完全

26、的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的但又潜在有用的信息和知识的过程,提取的知识表示为概念、规则、模式等形式。模式即描述数据集某个子集的一个表达式。它是数据库技术、人工智能、机器学习和统计学等学科相结合的产物,并最先从商业和企业中发展起来。由于大量数据的出现其中蕴含着许多可以利用的规律,人们迫切希望使用各种技术,从中挖掘出具有价值的规律来,数据挖掘技术是可以用来挖掘这些规律的一种有效工具。数据挖掘技术已在金融投资、信用评估、网络管理销售等多个领域得到令人满意的应用。在交通事故分析方面,也有很多学者研究了数据挖掘在其中的应用。杨进倩,孔令人,夏毓荣等人在 2004

27、年 15为克服事故数据库中多维、稀疏、不全等因素的不利影响,有效地识别和发现事故数据的新模式及其内在规律,对应用数据挖掘技术进行全面整理,分析了道路交通事故的思想,提出了实施数据挖掘的具体步骤,并结合数据挖掘实现的方法,介绍了相关行分析、事故类型聚类分析两种应用实例,以期为道路安全管理提供科学的决策依据。牟军敏,邹早建,齐传新等人在 2004年 16将数据挖掘应用在内河交通事故的分析和预防中。 Huanjing Wang, Allen Parrish, Randy K. Smith等人在 2005年17-18 提出两种数据挖掘分类与预测的新技术,并对汽车交通事故数据进行分析。D.K.Y. Wo

28、ng, D.E. Pitfield, R.E. Caves等人在 2006年 19对空中交通事故的飞行数据进行分析,用以评估不同的可见度、温度、侧风等气象条件对事故的影响,并进行量化。在飞行事故的分析过程中,利用数据挖掘的理论对以往的事故数据进行整理分析,发现数据中蕴含的规律,可以帮助我们更迅速、更科学地找寻出事故5基于 MultiGen/Vega飞行事故分析三维再现系统的研究原因,采取更合理的措施。本章中将粗糙集与决策树理论相结合,在传统的决策树构造过程中引入粗糙度的概念,构造事故原因决策树。2.2基于粗糙集的事故决策树的构建数据挖掘常见的方法有关联规则、决策树、神经网络、粗糙集法、分类、聚

29、类方法、遗传算法和统计分析方法等,数据挖掘技术具有广泛的应用前景。在这些数据挖掘的常用算法中,决策树具有易构造、结构简单、易于理解、分类精度高,且易于转化成 SQL语句有效地存取数据库,易于算法实现等优点,决策树尤其适于数据挖掘。而决策树算法研究的重点是决策树的构造。决策树的表现形式是类似于流程图的树结构,在决策树的内部节点进行属性值测试,并根据属性值判断由该节点引出的分支,在决策树的叶节点得到结论。内部节点是属性或属性的集合,叶节点代表样本所属的类或类分布。基于决策树的学习算法在学习过程中不需要用户了解很多背景知识,只要训练样本能够用属性值的方式表达,就可以使用该算法来学习。Hunt等人于

30、1966年提出的概念学习系统 CLS是最早的决策树算法,以后的许多决策树算法都是对 CLS算法的改进或由 CLS衍生而来。Quinlan于 1979年提出了著名的 ID3方法。以 ID3为蓝本的 C4.5是一个能处理连续属性的算法。其他决策树方法还有 ID3的增量版本 ID4和 ID5等 20。2.2.1利用 ID3算法构造事故决策树2.2.1.1属性离散化在大量的决策问题中,决策信息系统中的属性值往往是连续的,或者是一个真实的数据,在飞行事故的历史数据中,也存有同样的情况,如气温、载重量等。而 ID3 算法只能处理离散型属性,对于连续型属性,在分类前需要对事故历史数据中的对应项进行离散化。连

31、续属性的离散化就是在特定的连续属性的值域范围内设定若干个连散化划分点,将属性的值域范围划分成一些离散化区间。离散化的本质可归结为利用选取的断点来对条件属性构成的空间进行划分的问题,把这个 m(m 为条件属性的个数)维空间划分成有限个区域,使得每个区域中对象的决策值相同。连续属性的离散化方法很多,不同的离散化方法会产生出不同的离散化结果。但任何一种离散化方法的应尽可能满足以下两点:(1)属性离散化后的空间维数应尽量少,也就是经过离散化后的每一个属性都应包含尽量少的属性值种类;6南京航空航天大学硕士学位论文(2)属性值被离散化后丢失的信息尽量少。现有的离散化方法中根据离散过程中是否考虑信息系统具体

32、的属性值,可以分为无监督离散化方法和监督离散化方法。无监督离散化方法在离散过程中很少考虑或不考虑信息系统中具体的属性值,而监督离散化方法是参照信息系统中具体的属性值来进行的。代表性的方法如图 2.1 所示。等宽度离散化方法无监督离散化方法等频率离散化方法单规则离散化方法直接离散化方法离散化方法 监督离散化方法 信息熵离散化方法超平面离散化方法间接离散化方法超曲面离散化方法图 2.1 离散化方法分类图2.2.1.2事故决策树初步构造算法决策树学习的基本算法是贪心算法,采用自顶向下的递归方式构造决策树。一般来说,决策树构造方法是按一定准则选择一个条件属性作为根节点,根据其属性取值将整个例子空间划分

33、为几个子空间,然后递归使用这一准则继续划分,直到所有底层子空间只含有一类例子,决策树构造结束。ID3算法中引入信息论中的信息增益,作为对实体中选择重要特征的度量,以信息增益最大的特征产生决策树的节点,由该节点的不同取值建立树的分枝,然后对各分枝递归使用该方法建立决策树的节点和分枝,一直到某一子集中的例子属于同一类。事故决策树的具体生成过程如下:(1)根据飞行事故分析的需求以及所处理的事故历史数据的特性选择属性,包括类别属性和事故决策树的决策属性集。决策属性集指在候选属性 (除了类别标识属性之外的所有属性 )中选择的属性集。(2)在决策属性集中选择最有分类标识能力的属性作为事故决策树的当前决策节

34、点,即选择信息增益最大的属性。事故决策树生成的第一个决策节点为所有决策属性中最有分类标识能力的属性,称为根节点。(3)根据当前决策节点属性取值的不同,将事故历史数据集划分为若干子集。每个取值形成一个子集,该属性有几个取值则形成几个子集。(4)针对上一步中得到的每一个子集,重复进行上述的 (2)和 (3)两个步骤,直到最后的子集符合下面的三个条件之一:7, ) ps L sE ( A) 1 j mj I (s1 j ,L , smj )i,L , s ) p1基于 MultiGen/Vega飞行事故分析三维再现系统的研究条件一:子集中的所有元组都属于同一类;条件二:该子集是遍历了所有决策属性得到

35、的;条件三:子集中的所有剩余决策属性取值完全相同,已不能根据这些决策属性进一步进行子集划分。(5)生成叶子节点。对满足步骤 (4)中描述的“条件一”所产生的叶子节点,直接根据该子集的元组所属类别进行类别标识。对满足步骤 (4)中描述的“条件二” 或“条件三”所产生的叶子节点,选取子集所含元组的代表性类别特征进行类别表示,一般是以元组个数最多的类别作为代表性类别或类别分布进行类别标识。其中,决策属性信息增益的计算方法如下:设 S是训练样本数据集,S 中类别标识属性有 m个独立的取值,也就是说定义了 m个类 ci, i 1, 2,L , m, Ri为数据集 S中属于 ci类的子集,用 ri表示子集

36、 Ri中元组的数量。集合 S在分类中的期望信息量可以由以下公式给出:mI (r1 2r ,L , rm i log 2 ( pi )i1(式 2-1)其中 pi是表示任意样本属于类 ci的概率, pi r | S |, | S |为训练样本数据集中的元组数量。假设属性 A共有 v个不同的取值 a1, a2 ,L , av ,则通过属性 A的取值将数据集 S划分为 v个子集,其中, S j表示在数据集 S中属性 A的取值为 a j的子集, j 1, 2,L , v。如果 A被选作为决策属性,则这些子集将对应该节点的不同分枝。如果用 sij表示子集 S j中属于类 ci的元组的数量,则属性 A对于

37、分类 ci( i 1, 2,L , m )的熵 (或称为属性 A对于分类 ci的期望信息量 )可由下式计算:v(式 2-2)j1 | S |s L s令 w j 1 j mj则 w j为 S j子集的权重,表示 S j子集在数据集 S中的比| S |重,而属性 A的每个取值对分类 ci的期望信息量 I (s1 j ,L , smj )可由下式给出:mI (s1 j mj ij log 2 ( pij )i1(式 2-3)式中, pij sij | S j |,它表示在 S j子集中属于 ci的比重。通过上述计算准备,可得到对属性 A作为决策分类属性的度量值 (称为信息增益 ),由下式给出:Ga

38、in I (r , r2 ,L , rm ) E( A) (式 2-4)ID3算法具有计算速度较快、算法较简单、容易实现等优点,但是,同时8南京航空航天大学硕士学位论文也存在许多不足之处:1、 ID3算法主要采用信息论中的信息增益进行决策属性的选取,信息增益的特点 (信息增益的主要特点是趋于那些有很多值的属性 ),会直接影响ID3算法的运算效率及计算结果,在很多情况下属性值较多的属性并不总是最优的属性,即按照使信息增益最大的原则被 ID3算法列为应该首先判断的属性在现实情况中却并不那么重要;2、数据质量的好坏 (体现在数据是否存在大量的冗余、数据属性之间的相关性过强以及数据缺损、不完整等 )是

39、影响数据挖掘效率及结果的主要原因,数据源的数据庞杂性会导致生成的决策树过于庞大。因此对 ID3算法作了一些改进,在构造事故决策树之前,利用粗糙集的属性约简对事故历史数据进行处理,可以使数据集中的数据减少,降低了决策树的分枝,从而提高了挖掘效率;在决策属性的选取原则中引入粗糙集中的粗糙度,应用于事故决策树的构造过程中。2.2.2改进的事故决策树构造算法2.2.2.1粗糙集理论基本概念粗糙集理论是波兰 Pawlak教授于 1982年提出的一个研究不精确、不确定性知识的数学工具,用以解决不确定性的数学问题 21。它的最大特点是无需任何先验信息,就能有效地分析和处理不精确、不一致、不完整等各种不完备数

40、据,从中发现隐含的知识 (规则 ),揭示潜在的规律。1992年以后随着 Rough集理论研究的发展和深入,许多学者开始将其引入到应用领域并取得了许多成果。Tsumoto S 等 22-23将 Rough理论引入到医疗诊断领域,利用 Rough集方法根据以往病例归纳出诊断规则,用来指导新的病例,将预测早产的准确率由17%-38%提高到 68%-90%。Golan R 24等利用 Rough集方法分析了十年间股票的历史数据,研究了股票价格与经济指数之间的依赖关系,获得的预测规则得到了华尔街证券交易专家的认可。Jelonek J 25等将 Rough集理论应用在人工神经网络研究领域,利用 Rough

41、集化简神经网络训练样本数据集,在保留重要信息的前提下消除了多余的数据,使训练速度提高了 4.72倍。此外, Rough集理论还广泛应用在商业策划、银行预算、气象预测、模式识别、图像处理、机器学习等领域 26-27。(1)信息系统:信息系统被定义为如下的四元组:S (U , A,V , f )。其中 S为知识表达系统;U x1, x2 ,L , xn为对象的非空有限集合,也称论域; A a1, a2 ,L , am为属性的9基于 MultiGen/Vega飞行事故分析三维再现系统的研究非空有限集合;V为属性值域,V U Va; f : U A V 为一信息函数,表示对aA每一个 a A, xU

42、, f ( x, a)Va。当信息系统中属性 A C U D,其中 C为条件属性集, D为决策属性集时,信息系统也称为决策系统。(2)不可分辨关系:对于信息系统 S (U , A,V , f ), P A且 P, xi , x jU,称二元关系IND(P) ( xi , x j )UU | a P, f ( xi , a) f ( x j , a)为关于属性集合 P的不可分辨关系。由不可分辨关系 IND(P)产生的所有等价类构成的集合用 U / IND(P)表示(简称 U / P )。(3)上、下近似及粗糙度:对于 X U , R A,集合 X关于 R的下近似定义为 R( X ) UY U /

43、 R | Y X ,其含义是指由那些根据已有知识判断肯定属于 X的对象所组成的最大集合。集合 X关于 R的上近似定义为 R( X ) UY U / R | Y I X,其含义是指由那些根据已有知识判断可能属于 X的对象所组成的最小集合。集合 X关于 R的边界域定义为: B R( X ) R( X )集合 X关于 R的近似精度定义为: R ( X ) | R( X ) | R( X ) |集合 X关于 R的粗糙度定义为: R ( X ) 1 R ( X )图 2.2 粗糙集概念示意图2.2.2.2粗糙集属性约简在一个信息系统中,来自于实际系统的信息量常常包含有不确定性、随机性及模糊性。众所周知,

44、所有的信息并不是同等重要的,有些甚至是冗余的。特别当信息系统是随机采集的时候,其冗余性更为普遍。因此去除冗余信息,10南京航空航天大学硕士学位论文获得更为简洁的决策规则,就成为粗糙集理论中的基本问题之一。这就是粗糙集中的属性约简。粗糙集中的属性约简算法有:删除法、基于属性重要性的启发式约简算法、基于差别矩阵的约简算法、基于集合近似质量的属性约简算法等。在以上约简算法中,最常见的方法就是删除法。此方法为依次从数据表中删除属性,将删除属性后的数据表与原数据表的决策类的不可分辨关系进行比较,如果不可分辨关系没有变化,那么可以继续从新生成的数据表中删除属性,继续比较;如果不可分辨关系发生了改变,则恢复

45、到前一个数据表,删除另一属性。具体算法可概括如下:(1)删除重复的行,即删除重复的实例。(2)去除决策表中的某一属性列。(3)如果决策表不可分辨关系未发生变化,则删除该属性;如果决策表中不可分辨关系发生了变化,则保留该属性。2.2.2.3改进后的决策树构造算法首先需采集事故历史数据,然后对数据进行离散化等预处理,生成原始数据表;然后用粗糙集属性约简算法中的删除法对数据表进行约简;在约简后的数据表的基础上生成事故决策树。事故决策树构造算法 Decision_Tree(samples,attribute_list),其中,samples为由离散值属性描述的历史数据集;attribute_list为

46、候选属性集合,描述如下:(1)创建节点 N;(2)if samples都在同一类 C中 then(3) 返回 N作为叶节点,以类 C标记;(4)if attribute_list为空 then(5) 返回 N作为叶节点,以 samples中最普遍的类标记; /多数表决(6)计算 attribute_list中各属性关于出现频率最高的类别属性的粗糙度,选择粗糙度最小的属性 test_attribute;(7)以 test_attribute标记节点 N;(8)for each test_attribute的已知值 v /划分 samples(9)(10)(11)(12)(13)由节点 N分出一个

47、对应 test_attribute=v的分支;令 Sv为 samples中 test_attribute=v的样本集合;if Sv为空 then加上一个叶节点,以 samples中最普遍的类标记;else加入一个由 Decision_Tree(Sv,attribute_list-test_attribute)返回的11编号 风速 天气 能见度 仪表失灵 机组经验 跑道状况 事故1 大 雨 低 是 丰富 湿 打转2 大 雨 低 是 一般 湿 冲出跑道3 微 雾 低 否 一般 干 进场过高/低4 微 雨 中 是 一般 湿 硬着陆5 大 雨 高 是 一般 湿 打转6 微 雾 低 是 丰富 半湿 进场

48、过高/低7 微 雾 低 是 一般 半湿 硬着陆8 大 雨 中 是 一般 湿 冲出跑道9 大 雾 低 是 一般 干 硬着陆10 微 雾 低 是 一般 干 进场过高/低11 大 雾 低 是 一般 半湿 冲出跑道12 中 雾 低 是 丰富 干 进场过高/低13 大 雨 中 否 一般 湿 打转14 微 雾 中 是 丰富 干 进场过高/低15 大 雨 高 否 一般 湿 打转16 微 雾 低 否 一般 湿 进场过高/低17 大 雾 低 否 一般 干 硬着陆编号 风速 天气 能见度 仪表失灵 机组经验 跑道状况 事故1 0 0 0 1 0 1 02 0 0 0 1 1 1 3基于 MultiGen/Vega

49、飞行事故分析三维再现系统的研究节点。2.3事故原因决策实例表 2.1 为部分飞机着陆事故的原始数据。该表的决策属性是风速、天气、能见度、仪表失灵、机组经验、跑道状况,类别属性是事故。表 2.1 原始数据表对该表根据以下规则进行离散化处理:风速=0-大,1-中,2-微 ;天气=0-雨, 1-雾;能见度=0-低,1-中,2-高;仪表失灵 =0-否,1-是;机组经验=0- 丰富, 1-一般 ;跑道状况=0-干,1-湿,2-半湿 ;事故=0-打转,1-进场过高 /低,2- 硬着陆, 3-冲出跑道。离散化的结果如表 2.2 所示。表 2.2 离散化后的数据表123 2 1 0 0 1 0 14 2 0 1 1 1 1 25 0 0 2 1 1 1 06 2 1 0 1 0 2 17 2 1 0 1 1 2 28 0 0 1 1 1 1 39 0 1 0

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报