收藏 分享(赏)

混合多元回归模型比较及贝叶斯网络模型改进.doc

上传人:wo7103235 文档编号:6260705 上传时间:2019-04-03 格式:DOC 页数:51 大小:1,005.50KB
下载 相关 举报
混合多元回归模型比较及贝叶斯网络模型改进.doc_第1页
第1页 / 共51页
混合多元回归模型比较及贝叶斯网络模型改进.doc_第2页
第2页 / 共51页
混合多元回归模型比较及贝叶斯网络模型改进.doc_第3页
第3页 / 共51页
混合多元回归模型比较及贝叶斯网络模型改进.doc_第4页
第4页 / 共51页
混合多元回归模型比较及贝叶斯网络模型改进.doc_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、I本 科 毕 业 论 文混合多元回归模型比较及贝叶斯网络模型改进Comparisons of Combining Multivariate Regression Models and Improvement of Bayesian Network Model姓 名: 学 号:学 院:软件学院系:软件工程专 业:软件工程年 级:指导教师: 年 月II摘 要预测回归问题在数据挖掘、模式识别、机器学习中一直是一个活跃的研究领域。正确有效地预测未知结果是回归预测研究的中心。由于每个目标数据集都有着各自不同的数据特点,单一的学习模型很难给出高效准确的回归表达式和预测结果,故混合学习模型正试图解决此类问题

2、,成为当前数据挖掘和机器学习的研究热点之一。本文首先介绍了已有的多种混合多元回归学习模型,包括 BEM 模型,GEM 模型,LR 及LRC 模型,PCR 模型和 M5P 模型,简要地指明各模型的特点及缺点。接下来介绍贝叶斯网络分类模型。由于 20 世纪 80 年代提出的贝叶斯网络,是一种不确定条件下的知识表达和推理工具,拥有其它数据挖掘工具所不具备的优势。利用贝叶斯网络对于事件或者属性间不确定性关系进行建模和推理,在商业智能、医学诊断、自然语言理解、故障诊断、启发式搜索、图像解释以及目标识别等领域产生了很多成功的应用。为了进一步提高其性能并拓展其应用领域,本论文提出了改进模型基于贝叶斯网络的回

3、归树学习模型。该方法主要思想是:首先根据误差度选择最佳测试;接下来,减小噪声影响,得出因变量 y 的回归估计函数;最终,对离散属性和连续属性采取不同的处理方式,基于分而治之的原则构造决策树,以朴素贝叶斯取代叶节点。随后,在 2 个 UCI 机器学习数据集上对以上模型进行实证对比验证。实验表明改进模型的性能良好,能有效减小预测误差。关键词:混合多元回归;学习模型;贝叶斯IIIAbstractThe problems related to prediction and regression have been being an active research field in data minin

4、g, pattern recognition, machine learning. The point of prediction and regression is to predict unbeknown result effectively and correctly. Since each target data set has its own characteristics of the data, it is difficult for any single learning model to meet the anticipative performance in terms o

5、f accurate expression regression and estimated results. Those combining learning models that have been designed to solve such problems become one of hot spots in the research for data mining and machine learning.A variety of combining multiple regression learning models are to be introduced in the f

6、irst part of this article, including the BEM model, GEM model, LR and LRC model, PCR model and M5P model,then briefly point out the characteristics and shortcomings of each model. Next, the Native Bayesian Network Classifier model is to be taken into discussion. It is a kind of tool proposed in 1980

7、s for knowledge representation and ratiocination under the conditions of uncertainty. And Bayesian network possesses its unique advantages that other data mining tools are not comparable. The modeling and reasoning for uncertain relationship between events or among attributes based on the Bayesian n

8、etwork has been successfully applied in lots of fields, such as business intelligence,medical diagnosis,natural language understanding, fault diagnosis, heuristic search, image interpretation and target identification. In order to improve its performance and expand its application, an improved model

9、-Bayesian-network based Regression Tree Learning Model has been deduced in this paper. The main idea of this model can be summarized as following: Firstly, choose the best test according to error; Next, reduce the impact of noises and educe the estimated regression function with represents the depen

10、dent variable y; At last, consider discrete attributes and continuous attributes with different manners respectively, build tree model by the divide-and-conquer method, and replace leaf nodes by applying Native Bayesian Network for Regression. At last, experiment results on two UCI data sets show th

11、e effect and flexibility of each model. IVThe results of experiments show that the improved model has a good performance, which can effectively reduce the prediction error.Keywords:Combining Multiple Regression; Learning Model; Bayesian.V目 录第 1 章 绪论 .11.1 研究背景及意义 11.2 研究情况及面临问题 .21.2.1 研究情况 21.2.2 面

12、临问题 51.3 文章主要内容 .6第 2 章 混合多元回归学习的几种模型 .72.1 BEM 模型及 GEM 模型 72.2 主成分回归 .82.3 岭估计模型 .92.4 M5 模型树 11第 3 章 贝叶斯网络回归树模型 123.1 朴素贝叶斯分类器 .123.2 贝叶斯网络分类器 123.3 将贝叶斯网络分类模型引入回归 .14第 4 章 实验分析 174.1 数据描述 174.2 实验软件 174.2.1 SPSS174.2.2 Weka184.3 实验过程与结果 194.3.1 实验过程 .194.3.2 实验结果 .25第 5 章 贝叶斯网络回归模型的应用 275.1 上市公司财

13、务危机分析 .27VI5.1.1 样本及财务指标的选取 .275.1.2 实证分析 285.1.3 结论及建议 295.2 成品油价格变动分析 .315.2.1 数据选择 315.2.2 实证分析 315.2.3 结论及建议 32第 6 章 总结与展望 356.1 总结 356.2 展望 35参考文献 37致谢 语 41VIIContentChapter 1 Introduction 11.1 Research Background and Significance11.2 Research Situation and Current Problems .21.2.1 Research Sit

14、uation.21.2.2 Current Problems51.3 Primary Coverage .6Chapter 2 Various Combining Multivariate Regression Learning Models 72.1 BEM Model 系数权重表示这些变量在相关关系中贡献大小,但预报仅为大致的估计值。多元回归分析有着很广泛的应用,例如实验数据的一般处理、经验公式的求得、因素分析、产品质量的控制、气象及地震预报、自动控制中数学模型的制定等。因此,回归分析是模式识别、数据挖掘和经验学习等研究的核心问题之一。在进行多元回归分析时,由于每个目标数据集都有着各自不同

15、的数据特点,单一的学习模型很难给出高效准确的回归表达式和预测结果,混合学习模型正试图解决此类问题,以完善模型预测能力。混合学习模型的预测追求的总体目标是形成一个改进的分析器。混合一组学习模型来改善分类和回归估计已经是机器学习和神经网络大量研究的一个部分。一个学习模型可能是从决策/回归树到神经网络的任何一种。然而,在选择学习模型的混合策略时,既需要决定选择哪些模型,又要很好的处理内部关联,确认每一个单一变量的贡献值。考虑到上述问题,了解已有的方法和这些方法局限性、并试图给予改进是十分必要的。1.1 研究背景及意义半个世纪,随着计算机和网络技术迅猛发展,在支配人类社会的三大要素(能源、材料和信息)

16、中,信息越来越显示出其重要性和支配力,它将人类社会由工业化时代推向信息化时代。活动范围扩展,生活节奏加快,技术不断进步,人们能够以更快速、更容易、更廉价的方式获取和存储数据,这就使得数据及其信息量以指数方式增长。随着利用信息技术收集数据的能力大幅提高,人们深刻地认识到“谁最先从外部世界获得有用的信息并加以利用,谁就有可能成为赢家” 。存储在计算机系统中的各种各样的数据都是宝贵的信息资源,其中有可能蕴藏着许多有用的知识,这些信息或知识,作为创新的原动力,将可能提供或预示无限的商机、关键性的技术改进、乃至重要的科学发现,从而使商家长期持续地保持竞争优势并产生显著的经济、社会效益。但是,面对这极度膨

17、胀的数据信息量,人们受到“信息爆炸”混合多元回归模型比较及贝叶斯网络模型改进2、 “混沌信息空间(Information Chaotic Space)”和“数据过剩(Data Glut)”的巨大压力,又由于人们目前所用工具的局限性而无法将其挖掘出来。因此,如何对数据与信息进行快速有效地分析、加工、提炼,获得实际领域中可利用的、有价值的信息和知识,提高商务管理、生产控制、市场分析和科学研究等方面的效率,成为计算机研究人员面临的具有挑战性的任务,也成为计算机、管理和信息技术领域的重要研究课题。近年来,数据挖掘已经成为集数据库、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信

18、息提取、并行计算等方面的一个交叉性研究领域。人们研究出多种用于知识发现和数据挖掘的方法和技术。主要分为基于统计的方法、基于机器学习的方法、基于数学的方法。预测回归问题在数据挖掘、模式识别、机器学习中一直是一个活跃的研究领域。正确有效地预测未知结果是回归预测研究的中心。由于每个目标数据集都有着各自不同的数据特点,单一的学习模型很难给出高效准确的回归表达式和预测结果,故混合学习模型正试图解决此类问题,成为当前数据挖掘和机器学习的研究热点之一。1.2 研究情况及面临问题1.2.1 研究情况1.国内外对混合学习模型的研究情况从广义上来讲,混合学习模型甚至可以上溯到 1972 年诺贝尔物理奖获得者 Co

19、oper 及其同事在八十年代中后期在 Nestor 系统中的工作。1993 年,Perrone 和 Cooper 证明,在将神经网络集成用于回归估计时,如果采用简单平均,且各网络的误差是期望为 0 且互相独立的随机变量,则集成的泛化误差为各网络泛化误差平均值的 1/N,其中 N 为集成中网络的数目,称为 BEM 模型。如果采用加权平均,通过适当选取各网络的权值,能够得到比采用简单平均法更好的泛化能力,GEM 模型。20 世纪 80 年代以来,研究人员在该领域所取得的成果以树形回归模型最具代表性.Breiman 等于 1984 年提出 CART 算法1,基于预测误差度递归地对连续变量进行局部的二

20、分离散化,形成类似决策树的回归模型。Dougherty 等2以 MDL 标准为停止标准,基于信息嫡对连续变量进行全局的离散化。Quinlancl 提出的 M5 算法以线性回归函数取代 C4.5中的子树,可以分段线性地逼近任何未知变量分布。岭回归(Ridge Regression)是 A.E.Hear 首先提出的,后与 Kennard 合作,对该方法进行了改进.岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重共线性时,它可以提供一个有偏估计量,这个估计量虽有微小偏差,但它的精度却能大大高于无偏估计。混合多元回归模型比较及贝叶斯网络模型改进3目前对岭估计的研究成果最为丰富,但遗留的问题

21、也颇多。主成分回归(Principal Components Regression)是 W.F.Massy 于 1965 年根据主成分分析的思想提出的.主成分估计与岭估计一样是一种有偏估计.主成分分析利用降维的思想,把系统中的多个变量指标转化为少数对系统具有最佳解释能力的新综合变量,又称为成分,从而剔除对系统影响微弱的部分.通过对各个主成分的重点分析,来达到对原始变量进行分析的目的。2.贝叶斯网络的研究历史与现状(1) 国外对贝叶斯网络的研究贝叶斯网络是近 20 年提出和发展起来的,然而,贝叶斯网络的理论基础即贝叶斯定理起源于 18 世纪英国牧师 TomasBayes 一篇论文论机会学说中的一

22、个问题 。在 19 世纪,由于在理论和应用中出现了许多问题,贝叶斯方法没有得到普遍接受。直到 20 世纪 50 年代开始,越来越多的统计学者推崇和研究贝叶斯的观点和思想,在统计学中形成一个影响较大的贝叶斯学派;1955 年,美国统计学家 Rrobins 提出经验贝叶斯方法,受到统计学界的关注和重视。特别是在社会科学和经济活动中,贝叶斯方法得到成功的应用.60 年代初,人们把贝叶斯方法广泛地应用于解决具有不确定性的决策和评估问题,进一步开拓了应用统计决策的研究。基于主观贝叶斯方法,Duba 等人 1976 年研制出用于地质勘探方面的 RPOPSECOTR 专家系统。美国将贝叶斯方法应用在导弹发射

23、的可靠性评估中,极大地节省了研制和实验费用。目前,贝叶斯方法在水利水电、土地资源评价、国防军事、金融保险等各个领域得到广泛应用。20 世纪 80 年代,由 Pearl 提出了基于概率论和图论的贝叶斯网络,并成功地应用于专家系统34。由于贝叶斯网络具备严密的推理过程、清晰的语义表达和灵活的学习机制等特点,引起众多学者的极大兴趣,成为人工智能中一个非常活跃的研究领域,并在学习理论、开发应用和算法研究等几个方面取得了显著的成果。基础理论方面,Pearl 对贝叶斯网络推理、信息传播、网络构建进行了早期的研究3;Dagum 另一类混合多元回归模型比较及贝叶斯网络模型改进4是基于信息论。结构学习最早的研究

24、开始于对树最简单的图类研究。Chow 美国通用公司开发出基于贝叶斯网络的故障诊断系统;美国航空航天局和 Rockwell 公司共同研制的太空船推进器的故障诊断系统,等等。在医学诊断与治疗、金融投资与市场分析、智能决策与管理、故障诊断、电力系统和水资源开发等领域均取得显著的应用效果。开发的软件工具有,微软贝叶斯网络 (MSBNx)、Ergo、HUGIN、JavaBayes 等。智能推理和诊断方面,微软公司在 office 的产品中,将贝叶斯网络用于问题回答向导和打印机故障自动检测。Lewis R W 和 Ransing R S 将贝叶斯网络应用在制造业中压铸过程的检测和诊断9;Mittelsta

25、dt.D 等将其应用在集成电路的检测中10。Nikovski D 讨论了贝叶斯网络在医学诊断中的应用11。(2) 国内对贝叶斯网络的研究国内对于贝叶斯网络的研究起步较晚,但是在近几年兴起了一股研究学习的浪潮。从2001 年开始,国家自然科学基金资助项目中研究贝叶斯方面的项目有 7 项,其中贝叶斯网络方面的研究有 4 项。武汉大学申请的“贝叶斯网络结构学习用于数据挖掘和知识发现” ,复旦大学申请的“面向基因表达数据分析的贝叶斯网络方法研究” ,吉林大学申请的“面向智能信息处理的贝叶斯网络关键理论与方法研究” ,以及云南大学申请的“基于关系数据理论的贝叶斯网络生成方法” 。这些项目的实施与研究将会

26、推动贝叶斯网络构建、学习算法设计和开发应用等方面的发展。清华大学陆玉昌、林士敏等对贝叶斯网络的建造、学习以及应用开展了有益的探索。林士敏等从信息嫡的角度讨论了无信息先验分布的 Bayesina 假设的合理性,分析了贝叶斯方法的计算学习机制,得出贝叶斯定理是将先验分布中的期望值与样本的均值按各自的精度进行加权平均,合理地综合了先验信息和后验信息,同时指出合理地指派先验分布对提高学习的效率和质量具有重要的意义12。林士敏等通过剖析 Bayesian网络的结构和建造步骤,讨论了用 Bayesian 方法从先验信息和样本数据进行学习,从而确定网络结构和概率分布的基本方法13。混合多元回归模型比较及贝叶

27、斯网络模型改进5刘大友教授等设计了结合数学期望的适应度函数,运用遗传算法进行结构学习,大大简化了学习的复杂度,并保证算法能够向好的结构不断进化,但不足的一点是期望统计因子的计算较为复杂14。针对如何获取贝叶斯网络中拓扑结构的问题,王玮和蔡莲红提出一种寻找最有可能的贝叶斯网络模型方法,并用启发式算法进行模型评估,可以达到较好的结果,但对数据库的规模比较敏感15。中国科学院计算技术研究所的宫秀军等将简单贝叶斯方法应用于增量分类中,提出一种增量贝叶斯分类模型,并给出了增量贝叶斯推理过程16。何盈捷和刘惟一提出通过发现 Markov 网得到等价的 Bayesian 网的方法,基于依赖分析的边删除算法发

28、现 Markov 网,然后根据表示的联合概率函数相等,得到与其等价的 Bayesian 网,但选择好的无环序是研究中有待于解决的问题17。羌磊等提出一种新的基于最小描述长度理论的结构学习算法,将独立性测度与预测估计相结合,在学习过程中引用小计算量的独立性测试为 MDL 搜索提供启发性的知识,加速了问题求解过程18。在应用领域,贝叶斯网络己经深入到工业、金融、水利水电、国防军事等各个方面,特别是在分类、预测和可靠性评估等方面更加显示出该技术的优越性。郑肇葆教授将Bayesian 网络应用在影像解译方面,并给出了实施步骤和方案19。傅军等将贝叶斯网络应用于柴油机动力装置的故障诊断中,采用该故障诊断

29、模型,理论上可以表示更加复杂的系统,改善故障诊断结果,并按最优原则充分利用观测信息,进行专家知识的积累20。李伟生和王宝树基于规划识别中的规划分层模型,提出一种规划识别问题中的贝叶斯网络 21。李启青等提出了一种基于贝叶斯网络模型的遥感数据推理和描述技术,利用 2002 年春季中一日亚洲沙尘暴项目的土地利用数据,沙尘监测数据,卫星 AVHRR 时间序列 LST/Albedo 数据,采用贝叶斯网络模型进行了知识描述和信息推理预测实验,取得了较好的效果22。霍利民等根据配电网的实际拓扑结构和元件对系统的影响关系,提出了直接建立贝叶斯网络以实现配电系统可靠性分析的方法。不仅能进行配电网的可靠性指标评

30、估,而且还能方便地得到系统每个元件或几个元件对整个系统可靠性的影响,克服了配电系统传统可靠性评估方法的不足,通过实例说明了应用贝叶斯网络方法的有效性和优越性23。减玉卫等将贝叶斯网络应用在股指期货风险预警中24。欧洁和林守勋研究了用贝叶斯网络模型构建信息检索系统,对贝叶斯网络模型做了若干改进,加入一些新特征,并用实验结果证明通过提高网络模型的质量和调整其中的参数,该方法可以取得较好的检索效果25。1.2.2 面临问题我们知道,对某一数据集,已掌握了几种不同的线性回归方法,神经网络布局或启发式方法,由于每个单一模型都不是万能的,都存在着缺陷,混合这些学习模型可能会得到一个混合多元回归模型比较及贝

31、叶斯网络模型改进6比任何单一模型预测更准确的预测。混合一系列学习模型关键在于以下几点:1) 目前已有的模型主要集中在外特性模型的输人是连续变量的情况,而现实中混合变量的情况更为普遍,既可能是连续随机变量,也可能是离散随机变量,如何针对混合变量构造合理的回归模型具有非常重要的。2) 预测器之间的关联性。由于学习模型预测目标相同,所以有着高度关联性。关联性反映的是,做预测时模型间的线性依赖程度。各模型越相似,关联性就越大,存在的冗余就越多。有些时候,一个(或多个)模型可以和其他模型线性混合。模型间如此高的相关性可能导致一些混合机制得出不真实的预测。统计学中,称其为多重共线性问题。3) 确定每个模型

32、对最终混合型模型的影响程度。例如,一个神经网络可能发现原始变量间存在非线性交互,而一个标准线性回归方法可能发现删除属性的策略用以可以简化预测任务。一个好的混合策略必须要根据每个模型各自的影响因子来给他们赋予权重。4) 在解决上述问题时会存在折中思想。解决多重共线性问题可能会忽略每个模型各自的贡献。另一方面,那些能很好的找出各模型贡献程度的方法却更容易受到多重共线性问题的影响。1.3 文章主要内容文章对于上面提出的问题,进行了初步的探讨。文章共分 4 章:第一章为绪论,介绍了研究背景及意义、该领域研究进展,分析了本论文的研究目的和意义。第二章较具体的地分析了 BEM 模型及 GEM 模型、M5

33、模型树、主成分回归岭估计模型等各自的特点。第三章给出了朴素贝叶斯相关概念,并介绍了本文基于其提出的改进模型基于贝叶斯网络的回归树学习模型。第四章在 2 个 UCI 机器学习数据集上对以上模型进行实证对比验证。第五章给出两个贝叶斯网络回归模型的应用实例,对改进的模型进行实证分析。最后,结束语对本文所做的工作进行小结和进一步的展望。混合多元回归模型比较及贝叶斯网络模型改进7第 2 章 混合多元回归学习的几种模型2.1 BEM 模型及 GEM 模型假定给定两组数据集:训练集:D Train = (x m,y m)测试集:D Test = (x i,y i)现假定由 DTrain来构建一组函数,F =

34、 ,其中每个 都近似于 ,我们要用(x) if(x) if(x) fF 找出 的最近似值。对这个问题,大多数方法都是把 的近似值空间限制在于 F 成员(x) f 的线性组合上26,即:,其中, 代表系数或 的权值。Ni=1(x) (x)iffi(x) if对 F 成员最简单组合方法是未加权平均混合(例: i =1/N) 。Perrone 和 Cooper 命名这种方法为 BEM(Basic Ensemble Method) ,(1)Ni=1/(x)BEMff上述方程也可以以每个 误差函数的形式来表达,这些函数描述了 F 成员和绝对真(x) i值的偏离值,即 (2)()()iixfxm那么, (

35、3)Ni=1()/()BEMfPerrone 和 Cooper 认为,只要 mi(x)相互独立且零均值,对 的估计误差就能随着(x) fF 量的增加而变得任意小。但由于这个假设在实际情况下很难成立,他们又研究了一种“最理想权重,允许 mi(x)之间相关和非零均值27。这种 GEM 方法(Generalized Ensemble 混合多元回归模型比较及贝叶斯网络模型改进8Method)表述如下: (4)1Ni= ()(x)iGEMifxim其中 ; Ci j = Emi(x) mj(x) ;E-是期望函数, C 是误1Nijikk差函数的对称的样本协方差矩阵,这个矩阵的目的是最小化 ,这个方法的

36、,Nijij缺陷在于引入了 C 的转置( C-1) ,而这个转置是不稳定的28。从而,冗余导致了 C 行列线性相关,进而导致 C -1的不真实。为了避免这种敏感冗余,Perrone 和 Cooper 提出了另外一种方法:当 F 的一个成员与另一个成员的相关度超出特定阈值时,舍弃该成员。不幸的是,这种发法只能成对的检测之间的线性依赖(或冗余) 。而事实上, 可能其他几个 F 成员的线性组合,并且,(x) if (x) if这样不稳定性问题将非常明显。还有,这种方法依赖于所设定的阈值,过高的阈值很可能把彼此间还存在一定差异的 F 成员丢弃。对于如何给 F 成员赋权值的理想方法既不是丢弃一些模型也不

37、是包容模型集合中所有的冗余。2.2 主成分回归仅表示 F 中学习模型的线性组合。 = ,其中 是 的系数()fx()fx1()Njjixfj()ixf(权值) 。主成分回归(PCR) 的原理是用主成分分析( PCA)提取的主成分与因变量回归建模29。将原模型分成 N 各独立的部分。定义 AF 是学习模型预测矩阵,则 = ,定义 C 是 AFFijA()ijfx的对称协方差矩阵,即 C = cov(AF),则 C ij = E E E .*,iFj*,i,j主成分分析的输出结果称为“主成分” ,可以写作PC 1,PCN,每一个主成分都是 PC矩阵中的一个列向量,其中 PCi,j = j,1 1(

38、xi) + + j,N N(xi)。每个主成分 j 有一个特征值,ff j, 最大的特征值对应的特征向量即为第一主成分的系数,第二大的特征值对应的特征向量即为第二主成分的系数,依此类推,即: 1 2 N 。取几个主成分取决于主成分对因变量的解释程度。假设取了 K 个主成分,那么用得出的主成分系数分别与标准化了的混合多元回归模型比较及贝叶斯网络模型改进9数据进行向量相乘,可得出相应的主成分 = 1PC1 + + KPCK (5)f其中 =( ) -1 yTKPCTK最终,根据 = k,0 0 + + k,N N ,ff得到 (6),1Kiki显然,相互直交的主成分 PC1,PCK 避免了在参数估

39、计时使用最小二乘法的困难30,然而,PCR 一直存在着大量的失效案例。选取的前 K 个主成分对因变量的解释性不能满足回归建模的需要,相反,后面几个被省略掉的的主成分却有可能与因变量有较高的相关性。这是由于 PCR 的成分提取只在自变量集合中进行,没有考虑主成分是否与因变量存在相关关系,因此可能提取的第一主成分概括了自变量集合中的最多信息,但对 的解释能力却f并不强。2.3 岭估计模型统计学界由.AE.Hoed 在 1962 年提出并和 R.W.Kennard 在 1970 年系统发展的岭回归(Ridge Regression)方法31,可以显著改善设计矩阵列复共线时最小二乘法的均方误差,增强估

40、计的稳定性。这个方法在计算数学称为阻尼最小二乘32,出现的较早一些。岭回归方法主要就是在病态的(XX)中沿主对角线人为地加进正数,从而使 稍大一些33我们知道模型中 的最小二乘估计为 = ( XX )-1 XY2则 的岭估计定义为 (k) = ( XX+kIp ) -1 XY 00,使得岭估计反(k) 在均方误差意义下优于 LS 估计。但选择参数的时候,伴随着均方误差的减少,残差平方和可能会增大,且当设计矩阵 X 呈病态时, X 的列向量之间有较强的线性相关性。2.4 M5 模型树M5 模型树首先用决策树归纳算法创建树,将输入数据逐步分割,集合 T 要么成为叶子,要么会根据一些测试结果将 T

41、分成若干子集。接着,在每个子集上重复上述步骤。不同于在内部各节点最大化信息增益,M5P 的分裂标准是使每个分支的内子集变分最小化。在每个节点,把输出值的标准差看作对这个节点产生的错误的衡量标准。那些预期能最大化降低错混合多元回归模型比较及贝叶斯网络模型改进12误的属性被选作分割点38。标准偏差的减少(Standard Deviation Reduction, SDR)由一下公式计算:SDR = sd(T) - (Ti) T i/T (12)isd其中 T 是当前节点的数据集合,T 1,T 2,是按照选定分割属性分割后的子集。当节点拥有的实例近乎单一类别时或者叶子拥有的实例过少时,将停止分裂。形

42、成基本树后,考虑从每个叶节点往回修剪树,每个节点用一个回归平面来替代。最后,为了避免各子树之间大幅度间断,还需要沿着叶子节点到根结点进行参数平滑过程整合39。M5 模型树是一种有效的基于回归的树模型,它将决策树和用于预测的线性回归相结合,用在连续变量上效果十分显著40。除了模型树,M5P 还可以构建回归树。但由于 M5 算法做的是一系列贪心选择,得到的有可能局部最优解而不是全局最优的。另外,构建 M5 模型树时,随着基本树的增长,对错误的估计、判断分割属性、产生叶节点线性方程、修剪节点和参数平滑等步骤将花费更多时间。混合多元回归模型比较及贝叶斯网络模型改进13第 3 章 贝叶斯网络回归树模型3

43、.1 朴素贝叶斯分类器Duda 和 Hart 于 1973 提出了基于贝叶斯公式的朴素贝叶斯分类器 NBC(Naive Bayes Classifier) 。NBC 是一个简单有效而且在实际使用中比较成功的分类器。其性能可以与神经网络、决策树分类器相当,在某些场合下优于其他分类器。设有属性变量 X1,Xn,它们既可以是离散的也可以是连续的变量,C 是类变量,D 是实例集。由贝叶斯公式可知:P(C|X 1,Xn)= = = 11,.,.()|)()nCCXP1,.()|)nCCXP()P1(|)niiCX通过训练集 D 获得 P(C), , , 的估计值,对给定的属性|2|(|值 , 使 最大的

44、 C 值便是 所属的类。01,.nX()PC1(|)niiX01,.n朴素贝叶斯方法建立网络结构非常简单,实验结果和实践证明,它的分类效果比较好。但在实际的应用领域中,朴素贝叶斯网络分类器具有较强的限定条件即各个属性相互独立的假设很难成立。属性变量之间的条件独立性是指:属性变量之间的依赖相对于属性变量与类变量之间的依赖是可以忽略的,这就是为什么朴素贝叶斯网络分类器应用的最优范围比想象的要大得多的一个主要原因。朴素贝叶斯分类器以简单的结构和良好的性能受到人们的关注,它是最优秀的分类器之一。3.2 贝叶斯网络分类器朴素贝叶斯分类器是贝叶斯网络分类器的特例,构建的方法比较简单,有很强的条件限制,许多

45、学者在此基础上,进行一步研究了从最优属性变量选择、属性依赖扩展及调整训练方式等方面进行扩展学习,产生了一些性能较好的分类器。但在理论上,贝叶斯网络分类器与联合分类器具有相同的分类能力是最优的分类模型。对例子 X1,Xn,使用分类器 F 对类变量 C 进行分类, (X1,Xn) 为分类的结果,F混合多元回归模型比较及贝叶斯网络模型改进14C(X1,Xn) 为真正的结果。定义 1 对分类器 F,称 LR(F)= 为 F 的 0-11,.1(,.)(,.)FnnXnPCX1(,.)nX1 损失率(或风险) ,具有最小 0-1 损失率的分类器称为最优分类器。Judea Pearl 给出并证明了如下的定

46、理:定理*对给定的概率分布 P(X1,Xn),存在 P 的贝叶斯网络 G,使 =1(,.)nPX,其中 是 Xi父节点集 的配置。1(|)mni iPXxixix定理 1 对概率分布 P(X1,Xn,c)存在 P 的属性贝叶斯网络 G,使P(X1,Xn,c)=P(c) ,其中 是 G 中 Xi 父结点集的配置。1(|,nii iPXx ix证明:应用链式规则,可得 P(X1,Xn|c)= ,根据定理*的证明,111(|,.,)niiiPc可知在 X1,Xi-1,C 中存在最小的变量集 使 Xi 和 C外的变量集条件独立,那ixix么,以 为 Xi 的父结点集所构成的有向无环图便是 P 的属性贝

47、叶斯网络,用 表示ixix的配置,可得 P(X1,Xn|c)= ,则i 1(|,)nii iPcxP(X1,Xn,c)=P(c) P(X 1,Xn|c)= P(c) 。1(|,)nii iPcXx定义 2 对概率分布 P(X1,Xn,c),称使用 对 C 进行1(,.)1(|,)argmnii inCcx分类的分类器为贝叶斯网络分类器, 为属性贝叶斯网络中 Xi 父结点集的配置。ix定理 2 对概率分布 P(X1,Xn,c) ,在 0-1 损失率下,贝叶斯网络分类器是最优分类器。证明:设 G 是 P 的属性贝叶斯网络,F 和 F*别为任意的分类器和贝叶斯网络分类器,对任意给定的例子 X1,Xn

48、,类变量 C 的可能取值记为 c1,c t,P j=P(C=c j|x1, x n) ,混合多元回归模型比较及贝叶斯网络模型改进15P*= ,其中 j=1,t。 。根据定理 1,P(X 1,Xn,c)=P(c) ,1maxjjt 1(|,)nii iPcXx则= *11(,.)(,.)nnFCXX*11(,.)|,.)nnFPCX1 11(,.)(|,)|,.argmxni ni iPccXXx1(,.),.|,.nnCX1 11(,.)()|)|rn nP1(,.),.|agxnncjjt*P= = 11(,.)(,.)nnFPCXX11(,.)|,.)nnFCX0jP , ,则 0jt*1,.)(n 11(,.)(,.)nnFCXX*11(,.)(,.)(,.nnF1,.),.,.nP可得 LR(F*)LR(F),定理得证。3.3 将贝叶斯网络分类模型引入回归设 Y 为因变量,X= (X1,Xn)是用来预测 Y 的自变量。其中,n 是最大特征属性数,Y是连续随机变量, Xi (1in)既可能是连续随机变量,也可能是离散随机变量。X 和 Y的取值分别用相应的小写字母 x= (x1,xn)和 y 表示。P()表示概率密度函数

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报