收藏 分享(赏)

信息量准则aic在玉米品种区域试验分析的应用_论文.doc

上传人:无敌 文档编号:603276 上传时间:2018-04-14 格式:DOC 页数:36 大小:691.50KB
下载 相关 举报
信息量准则aic在玉米品种区域试验分析的应用_论文.doc_第1页
第1页 / 共36页
信息量准则aic在玉米品种区域试验分析的应用_论文.doc_第2页
第2页 / 共36页
信息量准则aic在玉米品种区域试验分析的应用_论文.doc_第3页
第3页 / 共36页
信息量准则aic在玉米品种区域试验分析的应用_论文.doc_第4页
第4页 / 共36页
信息量准则aic在玉米品种区域试验分析的应用_论文.doc_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、信息量准则在品种区域试验的应用1信息量准则 AIC在玉米品种区域试验分析的应用孙京波指导教师 胡希远摘 要:作物区域试验对育种和农业生产具有非常重要的意义。关于作物区域试验数据分析的模型和方法在文献中多种多样,对于实际试验分析者,究竟选用什么样的模型和方法分析作物区域试验才合理是目前必须解决的一个重要现实问题。本文通过 SAS 这一国际标准的分析软件,基于混合线性模型拟合的信息量准则(AIC)对玉米区域试验数据资料进行了有关模型的构建、筛选和处理,对各种模型在玉米品种区域试验数据拟合效果和稳定性分析结果进行了比较。结果发现不存在广泛最适的玉米品种稳定性分析模型,对不同的区域试验数据应利用 AI

2、C 准则选用最佳的模型进行稳定性分析。关键词:区域试验,玉米,方差分析,混合模型,信息量准则APPLICATION OF INFORMATION CRITERIA IN THE VARIETY REGIONAL TESTABSTRACTRegional trial production plays an important role in Agriculture, but data analysis methods of the experiment are varied with a bit confusing. In this paper , through SAS the analysi

3、s of the international standard software ,we will analyze the experimental data of corn for the model constructing ,slecting and treating. Meantime , the mixed model analysis is applied under the information criterion (AIC). The results showed that there is no optimal model for stability analysis of

4、 maize varieties, but tests of different varieties of regional stability analysis have the best model. Keywords: Regional Trial,cornvariance, mixed model, Information cretion信息量准则在品种区域试验的应用2目 录第一章 绪论.41.1 研究背景 .41.2 模型选择方法及其研究现状 .41.3 拟研究的内容 .51.3.1 信息量准则在品种稳定性分析模型选择应用研究 .51.4 本研究的创新点 .6第二章 模型和模型选择准

5、则.62.1 模型的概念 .62.2 模型选择的两类标准 .62.2.1 有效准则 .62.2.2 相合准则 .62.3 模型选择的方法 .72.3.1 AIC准则 .72.3.2 Cp统计量 .72.3.3 基于 F 检验的逐步回归法 .72.3.3.1 向前法 .82.3.3.2 向后法 .82.3.3.3 逐步法 .82.3.4 2R准则 .82.3.5 校正 准则 .82.4 准则法和逐步回归法的优缺点 .9第三章 信息量准则在区域试验稳定性分析模型选择应用研究 .93.1 线性混合模型和模型选择应用于区试的必要性 .103.2 区域试验品种稳定性分析的发展 .113.3品种稳定性分析

6、模型 .113.3.1.稳定性方差模型 .123.3.2 Finlay-Wilkinson 回归模型 .123.3.3Eberhart-Russell 回归模型 .123.3.4 AMMI-1 模型 .13信息量准则在品种区域试验的应用33.3.5 环境方差模型 .133.4 稳定性模型分析的程序 .143.5模型评价与选择 .143.6 数据资料 .143.6.1 材料和方法 .143.6.2 试验数据初步分析 .163.6.3不同分析模型的数据拟合效果 .163.6.4不同品种稳定性分析模型对品种稳定性的评判 .18第四章结论 .32参考文献.33致 谢.34附件 1:SAS 程序以 20

7、04年 01组为例.35信息量准则在品种区域试验的应用4第一章 绪论1.1研究背景及其研究现状区域试验布点多、范围广,能在较多样的生态环境和接近大田生产的条件下进行试验,有助于迅速明确新品种的推广价值和适应范围。而与之配套的方差分析却是工农业生产和科学研究中对试验数据进行分析的一种重要的数理统计方法,其应用极其广泛。但是,可供应用统计方法和分析软件等因素的限制,传统上通常是依据一定试验设计中试验因子、环境因子及其之间互作等可能效应的多少来确定 ANOVA 模型,极少考虑针对特定试验数据的最佳 ANOVA 模型选择。因此ANOVA 模型未必就一定能最佳体现所有试验数据的信息;即使偶尔有考虑ANO

8、VA 模型的选择问题,多是采用传统的具有一定局限性的 F 检验结果进行因子选择 1。传统方差分析法分析结果的准确性及其研究结论的可靠性会受到不同程度地限制。由于多环境下品种与环境互作效应形成机理的复杂性,关于区域试验数据的分析目前还没形成一个普遍认可的最佳模型或方法。但是,Akaike 于1973 年从信息论的角度出发提出了 AIC 准则,赤池弘次建议,当要从一组可供选择的模型中选出一个最佳模型时,选择 AIC 为最小的模型是可取的。在理论结构上看,AIC 采用了最小限度的定义,具体化地采用了 “吝啬原理” 。由此看来,数据的拟合既好而又尽可能节省参数数目的模型才是最佳的。SAS 中的 pro

9、c mixed 程序具有广泛的实用性。胡希远已经对多误差试验分析的特点以及利用proc glm 分析的局限性予以探讨,阐述分析利用 PROC MIXED 分析试验数据的原理方法和优点 1。1.2模型选择方法及其研究现状建立模型包括模型选择和参数估计两个方面。参数估计已经发展到相当完满的程度,但是所有参数估计方法都是以给定模型为前提的,并没有考虑到模型本身不确定的问题。模型选择的过程和方法通常包括以下几个步骤 3-5:首先,根据所研究问题的特点和专业知识,以及样本数据提供的明显信息,提出若干可能的候选模型;其次,通过模型对样本数据的拟合从中选出一个或几个模型。为了充分利用样本数据包含的信息,要求

10、模型对数据拟合要好,但是拟合度越好,模型一般越复杂。复杂的模型不仅 计算量大而且不利于运用模型解决实际问题。在进行模型选择时,以下三个方面的问题必须考虑:拟合度,复杂度和泛化能力。信息量准则在品种区域试验的应用5如果样本中所有可以用的信息不足以使模型选择的唯一性 15,那么模型选择就是个不适定问题。为了进行模型选择,人们提出多种准则,如包括向前法,向后法和逐步回归选择法(以F 测验为基础的) ;复相关系数法(R 2);均方误差法(MSE) 、修整的复相关系数准则(R c2);预报平方和准则(交叉验证准则)和Mallows Cp准则等。模型选择的方法很多,最简单的就是比较所有备选模型的 。将 最

11、大的模型作为最优模型,但这种2R2方法的弊端是它往往不考虑变量的模型构造的贡献而导致的模型多余的复杂度,而通常随着变量数目的增加而上升,因此将导致过度拟合的出现。其中F测验在农业2R科学领域最为常用。该准则的缺点是取不同的显著水平和选择方法所得到的模型选择的结果不同,形成最佳模型的非客观性,它最终只能提供一个“最佳” 模型,不能将候选模型按照优劣排序,此外,由于多次测量和变量相关性的问题, 最终得到的模型也不一定是最佳模型 6。马娄斯从预测的观点基于残差平方和准则提出与AIC准则相似的Cp统计量准则。Cp准则是现今在回归模型中用得最普遍的模型选择准则。Cp准则有一个优点就是它不要假定分布类型是

12、已知,然而在计算 Cp统计量时,怎样来估计未知参数误差方差没有十分令人满意的方法,而且误差方差的不同估计值还会影响变量选择的结果。所有这些模型除了各自的不足之外,共同的局限是:不能用于具有方差协方差结构等较复杂模型的选择 6,7。上世纪 70 年代,赤池弘次将 Kullbackleiber 信息量和极大似然理论相结合,并利用似然估计渐进性质,推导了最佳模型选择的信息量准则 8,称作 AIC(Akaike Information Criterion ) 。该准则具有严密的理论依据,使用简单,适用范围广,受到学者们的广泛关注。信息量准则除用于模型均值结构选择外,人们还将其用于模型最佳方差协方差结构

13、的选择 7,9-11。胡希远 27进行的一些研究显示,在田间变异较小或者样本容量较小的条件下,从严格理论上讲,空间协方差为真模型,但实际上,区组设计方差分析模型所得固定效应估计及其差异显著性测定验结果和空间协方差模型的结果几乎无异。这时,如果运用 AIC 进行最佳模型选择,它将较多的选择区组设计方差分析模型,但这无妨有关效应估计和测验结果的有效性。目前关于模型选择的研究多是关于回归模型问题的研究,包括线性多元回归和曲线回归的研究,而关于试验分析,特别是农业试验分析模型选择问题的研究目前仍鲜有研究报道。1.3研究内容1.3.1 信息量准则在品种稳定性分析模型选择应用研究信息量准则在品种区域试验的

14、应用6分析 16 组玉米品种多点试验数据,通过 SAS 中 PROC MIXED 程序并应用信息量准则(AIC)评估以下五种品种稳定性模型:稳定性方差模型、 Finlay-Wilkinson 回归模型、Eberhart-Russell 回归模型、稳定性模型、AMMI-1 模型、环境方差模型。最后分析不同品种的稳定应。1.4 本文创新点应用模型选择信息量准则(AIC)对玉米田间试验品种稳定性模型(或称线性混合模型)进行比较、筛选,证明信息量准则对田间试验模型选择是必要的。第二章 模型和模型选择准则2.1模型的概念模型是对现实世界的一个特定对象,为了特定的目的,根据特有的内在规律,做出一些必要的简

15、要假设,运用适当的数学工具,得到的一个数学结构。一个好的模型,除了能够最大限度地发掘提取先验和测量数据中的信息,还应该有较为简单的形式。一个好的模型,当然要很好的符合观察数据。很明显,模型设置的参数变量个数越多它对样本数据的拟合程度就越好。但是,参数多了在理论上处理就很麻烦。模型是科学研究的基础,参数模型是一种重要的模型类。对参数模型而言,模型选择和参数求解是数据处理中非常关键的问题,而参数模型的选择及评价包括模型类的选择和已知模型的阶数确定 29。好的模型设定大体有三种含义:包含变量不多,不少,函数形式正确。2.2模型选择的两类准则2.2.1 有效准则 当真模型不属于一组候选模型的时候,一种

16、衡量准则所表现的尺度就是测量被选择模型和真模型之间的距离。在一组候选模型中总是存在一个和真模型最近的模型。定义被选择模型和真模型之间的距离与最近模型与真模型之间的距离的比值被称为观测效率。真模型是无限维的模型,或者候选模型集合中不包含真模型是在回归和时间序列中经常出现的假设。前面提过模型选择的目标是从一组有限维的候选模型中选出真模型的最好的近似。与真模型的距离最近的候选模型则是一个合适的选择。所要求的“最近”,需要有个定义好的距离或者信息测度来衡量,比如 AIC 准则中用到的Kullback-Leibler 距离。2.2.2 相合准则信息量准则在品种区域试验的应用7很多研究人员假设真模型是有限

17、维的,而且真模型是被包含在候选模型集合当中的。在这样的假设下,模型选择的目的就是正确的从候选模型中选出真模型。如果一个模型选择准则渐进的以概率 1 选出真模型,则该准则被称为相合的。在这里,研究人员假设所有的变量都是可以测量的,并且假设可以列出的所有重要变量即足以满足所要了解的考察对象的性质。对于统计学家来说,这是一个很强的假设,但是在物理学领域当中他们的确是成立的。2.3 模型选择方法2.3.1 AIC准则AIC = 2 lnL + 2q .2.1lnL 为模型拟合极大似然值的自然对数值;q 为模型中待估计方差协方差参数的数目。这是一个在统计分析特别是在统计模型的选择中有着广泛应用的准则。其

18、显著特点之一就是“ 吝啬原理 (Principle of parsimony)”的具体化。对一组数据,模型的拟和优度是同程度时,采用参数数目最少的模型为最优模型。AIC 最小化模型法表明,由尽可能少的参数来表现模型是重要的。AIC 在数学上并不复杂,但实践表明这一准则能够处理复杂的模型问题。但是 AIC 有一定的缺点,由 AIC 来进行判断的模型其分布类型必须是已知的。1973 年,日本学者赤池 Akaike(Akaike,1973)基于 Fisher 的极大对数似然准则提出 Akaike 信息准则(AIC),成为了 70 年代出现的信息理论方法的里程碑。AIC 是通过真模型与拟合模型之间的

19、Kullbackleiber 距离在大样本条件下导出来的,其复杂度只是考虑了参数个数。宋喜芳等 12证明 AIC 信息量准则方差分析模型选择应用形式的数学推导。2.3.2 Cp统计量由 Mallows 提出的 Cp 统计量近年来受到广泛重视 13-18 ,Cp 统计量准则主要用于多元线性回归分析时回归自变量的筛选。 Cp 统计量与 AIC 准则是相似的,事实上可以证明 Cp 与 AIC 渐进相等。在样本数较少的情况下,Cp 准则可以节省参数。Cp 准则还有一个优点就是它不需要假定分布类型是己知的。然而在计算 Cp 统计量时,怎样来估计未知参数误差方差仍没有十分令人满意的方法,而且误差方差的不同

20、估计值还会影响变量选择的结果,这可以说是 Cp 准则的一个缺点。.2.2NpRSCpp2其中 N 为样本观察数,P 为模型的参数个数, 为 p 个变量的残差平方和,RS为协方差估计 19。22.3.3 基于 F 检验的逐步回归法信息量准则在品种区域试验的应用82.3.3.1 向前法在建立最优回归模型的逐步回归法当中,向前法是从回归方程仅含常数项开始,把自变量逐个引入回归方程。第一步,把与因变量 Y 有最大简单相关系数的变量作回归系数的显著性检验,若它显著的异于零,则把该自变量选入方程。而后在与余下的自变量中,考虑在消除了已选入变量的影响之后,对与 Y 由最大相关系数的变量,作回归系数显著性检验

21、,己决定是否选入。这样做下去,一直到在排除已选入变量 Y 的影响之后,为选入变量对 Y 的回归系数的检验都不显著为止。这一方法有一个明显的缺点,就是由于各自变量之间可能存在着相关关系,此后续变量的选入可能会是前面选入的自变量变得不重要。这样最后得到的“最优 ”回归方程可能会包含一些对 Y 影响不大的自变量。2.3.3.2 向后法向后法与向前法正好相反。它是将全部变量选入回归模型,即从全模型开始,然后逐个剔除对残差平方和贡献较小的变量。若一开始所有自变量的 F 值经检验后都显著,则“最优 ”回归方程就是全模型。不然,如果有若干个 F 值不显著,则剔除具有最小 F 值的变量。然后对剩下的变量建立新

22、的回归方程。重复这个过程,直到剩下的自变量都不能剔除为止。2.3.3.3 逐步法逐步法即通常所称的逐步回归法,本质上是向前法,但吸收了向后法的做法。前面己经指出向前法有一个缺点,就是后续变量的引入会使得一些己在回归方程中的自变量变得不重要。因此在逐步法当中,在每一步增加了对己选变量的显著性检验。也就是在每一步,经 F 检验选择进入方程的变量,而后又作 F 检验,看是否需要剔除某些自变量。这个过程一直进行到既没有变量需要进入也没有变量需要剔除为止。2.3.4 准则2R对一个回归模型的拟合优度的度量指标之一是 ,其定义为:.2.3TSE12其中 ESS 是解释平方和, RSS是残差平方和,TSS是

23、总平方和。如此定义的 介于0和1之间,越接近1,此回归模型拟合得越好。不足之处:首先,2R它是度量的样本数据内拟合优度,即度量了给定样本中所估计的值与实际值有接近程度,并不能保证对样本外也能很好地预测。其次,由于在模型中增加更多的自变量的确使 变大,但同时也使预测误差的方差也变大。22.3.5 校正 准则R作为对增加自变量个数来提高值的一种惩罚,为此亨利泰尔提出校正 。记为2R信息量准则在品种区域试验的应用9.2.4knRnTSkR1)(1)(122相比较而言,校正的 准则是一个比原来的 更加优良些的指标。2 2R2.4 准则法和逐步回归法的优缺点逐步回归方法在应用上面临着一个较大的困难是 F

24、 检验显著水平的选择。若显著水平选得太大则最后得到的方程含较多的自变量;相反,若显著水平选得太小,最后得到的方程所含的自变量则偏少。事实上,每一步是在一组相关的 F 变量中找出最大值或最小值作 F 检验。直观上供选择的自变量越多找出的最大值(或最小值) 也就越大 (或越小 ),也就是出现参数估计不准确的问题。显然除了一些极端情况之外,这些量并不服从 F 分布,因而并不能保证所挑选出的回归方程在某种准则下是好的或是较好。在一个大样本中,如果一个模型选择准则具有最小的均方误差,那么它就是渐近有效的。AIC,CP 都是渐进有效的。因此,模型拟合优劣的比较既要考虑模型拟合效果,又要考虑模型参数数目的影

25、响作用。信息量指标 AIC (Akailes In-formation criterion) 便是符合此要求的模型评价指标。信息量准则 AIC 虽然可以用于最佳模型的选择,但是它是一种描述性统计数,具有不能进行统计显著性测验的特点。第三章 信息量准则在区域试验稳定性分析模型选择应用研究作物品种区域试验(以下简称区试)通过多环境(多地点或多年多点)下的试验来分析和评价新品种的特征特性,以决定其利用价值以及适宜推广区域,是连接作物育种和农业生产的纽带,具有多方面的重要意义。作物品种区域试验是作物品种选育中不可缺少的一个环节,从农业生产的角度看,它有利于农业生产水平的提高和持续稳定发展;从社会效益的

26、角度看,它关系到育种家、种子生产经营者和种子使用者三方面的利益;从种子管理的角度看,它是进行品种审定(或登记)和种植推广的重要依据;从商品市场的角度看,它有利于提高种子在国内和国际市场的竞争能力。培育性状稳定、产量质量水平高的品种是育种者不懈追求的目标。由于我国大部分作物种植区跨度大,生态条件差异也很大,并不是只要一个品种就能同时适合我国作物种植区的各种生态条件,为此用种者需要根据特定地区的生态条件选择适合特定地区种植的作物品种,以求获得最大的经济效益。目前统计分析上主要是统计方法的应用较为混乱,各种分析方法的随意应用乃至错误释义等造成了分析结果的可靠性降低。例如区试中各种方差分析的模型和多重

27、比信息量准则在品种区域试验的应用10较方法不统一;采用回归方法分析品种稳定性而不考虑其模型适合性等。总之,试验和统计分析中存在的问题,最终都会导致品种评价不准确甚至不正确。在作物品种区域试验中,由于作物品种、人工管理或自然灾害等方面的原因,经常会发生个别试验点缺区、缺品种的现象,从而区试试验报告的数据不平衡。各因子主效应及品种-环境互作效应作用在非平衡情况下的分析方法通常是先进行缺区估计,然后进行传统的方差分析,但缺区估计只是一种近似的手段,且在有些复杂的情况下无法使用。线性混合模型 (linear mixed model,)是 Nelder 和 Wedderbum1972 年定义的,于 19

28、89 年由 Mccullaght 和 Nelder 作了详尽的使用说明,其后在医学、经济等领域被广泛应用。作物品种稳定性研究是基因型与环境互作研究中的热点,是对作物品种进行客观而合理评价的理论基础及确定新品种推广价值和适应范围的重要依据。要对品种全面合理的评价,除了需要准确、可靠和有代表性的试验资料外,也离不开合理有效的试验分析模型和方法 20-24。本文通过对10套区域试验数据|(平衡、非平衡数据)资料的分析,比较几种主要稳定性分析模型的数据拟合效果和品种稳定性判定等结果的差异状况。探讨目前比较流行的5种品种稳定性分析模型方法在作物品种稳定性分析中的适用性和对品种特性评价的影响,实现有针对性

29、地选择利用各种稳定性分析模型,从而提高作物品种评价的准确性。3.1 线性混合模型和模型选择应用于区试的必要性作物品种区域试验现行的统计方法是每年对区域试验进行综合分析,以确定该年各参试品种的生产能力的差异及其适应区域 25。由于区域试验实行淘汰制度,每年区试涉及参试品种更换,或者偶尔调整个别试点,加上人为或自然因素影响造成的试点报废或缺区,使得品种区试中经常出现非平衡数据。传统的方差分析(ANOVA) 方法只能对平衡数据进行最佳无偏估算,不能有效地分析有缺失的非平衡数据。方差分析方法(ANOVA) 用于分析平衡数据,具有计算简单,估计值无偏的优点,并通过F检验做统计检验, 迄今为止仍为人们采用

30、。但是,方差分析法不能分析非平衡数据。Handerson方法可用于分析非平衡数据,但可能导致估算的方差分量有偏,仍具有一定的局限性。朱军等将分析混合线性模型的MINQUE 方法,应用于作物品种区域试验非平衡资料的分析,提出了单一性状和综合性状的新思路。由于MINQUE法不需要进行迭代运算 ,对线性模型的没有正态分布的限定,而且方差分量的估计值和随机效应的预测值无偏,因而具有一定的实用价值。可靠公正的区试结果,要靠精确规范的试验和科学合理的统计分析来保证,而我国以往区试在质量和统计分析上都存在一些问题。试验质量方面主要是一些作物的试验精度不足; 试验方案的制定依赖于经验, 缺乏确切的统计学依据; 试点布局经常因经费和人员等因素变动。缺乏严格的生态学依据。 明道绪 69等对我国多年的区试

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 管理论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报