1、1多项式回归、非线性回归模型关键词:回归方程的统计检验、拟合优度检验、回归方程的显著性检验、F 检验、回归系数的显著性检验、残差分析、一元多项式回归模型、一元非线性回归模型1、 回归方程的统计检验1. 拟合优度检验1. 概念介绍SST 总离差平方和 totalSSR 回归平方和 regressionSSE 剩余平方和 error niiiiniiiiyyR12122 )()(2. 例题 1存在四点(-2,-3)、(-1,-1) 、(1,2)、(4,3)求拟合直线与决定系数。2. 回归方程的显著性检验 )2/()2/()(1 nSEAnyFniiii例 6(F 检验)在合金钢强度的例 1 中,我
2、们已求出了回归方程,这里考虑关于回归方程的显著性检验,经计算有:表 5 X 射线照射次数与残留细菌数的方差分析表来源 平方和 自由度 均方 F比 p值回归 34.27RS1Rf 34.27RMS184.94 0.0000残差 1e 0e 1e总计 06.5TTf这里值很小,因此,在显著性水平 0.01 下回归方程是显著的。3. 回归系数的显著性检验4. 残差分析2、 一元多项式回归模型2模型如以下形式的称为一元多项式回归模型: 011axxaynn例 1(多项式回归模型)为了分析 X 射线的杀菌作用,用 200 千伏的 X 射线来照射细菌,每次照射 6 分钟,用平板计数法估计尚存活的细菌数。照
3、射次数记为 ,照射后的细菌数为 见表 1。试求:ty(1 )给出 与 的二次回归模型。yt(2 )在同一坐标系内作出原始数据与拟合结果的散点图。(3 )预测 时残留的细菌数。6t(4 )根据问题的实际意义,你认为选择多项式函数是否合适?表 1 X 射线照射次数与残留细菌数t1 2 3 4 5 6 7 8 9 10 11 12 13 14 15y352 211 197 160 142 106 104 60 56 38 36 32 21 19 15程序 1t=1:15;y=352 211 197 160 142 106 104 60 56 38 36 32 21 19 15;p=polyfit(t
4、,y,2)%作二次多项式回归y1=polyval(p,t);%模型估计与作图plot(t,y,-*,t,y1,-o);%在同一坐标系中做出两个图形legend(原始数据,二次函数)xlabel(t(照射次数)%横坐标名ylabel(y(残留细菌数)%纵坐标名t0=16;yc1=polyconf(p,t0)%预测 t0=16 时残留的细菌数,方法 1yc2=polyval(p,t0)%预测 t0=16 时残留的细菌数,方法 2即二次回归模型为: 8967.34.5987.12tty30 5 10 15050100150200250300350400t(二二二二)y(二二二二二)二二二二二二二二图
5、 1 原始数据与拟合效果的散点图原始数据与拟合结果的散点图如图所示,从图形可知拟合效果较好。照射 16 次后,用二次函数计算出细菌残留数为 39.0396,显然与实际不符。由实际问题的意义可知,尽管二次多项式拟合效果较好,但是用于预测并不理想。因此如何根据原始数据散点图的规律,选择适当的回归曲线是非常重要的,这样就有必要给出非线性回归模型。3、 一元非线性回归模型为了便于正确选择合适的函数进行回归分析建模,我们给出通常选择的 6 类曲线:(1 )双曲线 (如图所示)xbay(2 )幂函数曲线 ,其中 , 0a(如图所示)(3 )指数曲线 bxe,其中参数 (如图所示)(4 )倒指数曲线 ay/
6、,其中 (如图所示)(5 )对数曲线 ln(如图所示)(6 ) 型曲线 ,其中 0ab(如图所示)Sxea1非线性回归建模通常有两种方法:一是通过适当的变换转化为线性回归模型,例如双曲线模型 xby1(如图 1 所示) ,如果作变换 , x1则有 ,此时y xbay就是线性回归模型。如果无法实现线性化,可以利用最小二乘法直接建立非线性回归模型,求解最佳参数。例 2(非线性回归模型、置信区间)炼钢厂出钢时所用盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断增大,我们希望找出使用次数与增大容积之间的函数关系。实验数据见表 2。4(1 )建立非线性回归模型 ;xbay1(2 )预测钢包使用 次后增大
7、的容积 ;70x0y(3 )计算回归模型参数的置信度为 95%的置信区间。表 2 钢包使用次数与增大容积使用次数( x)2 3 4 5 6 7 8 9 10 11 12 13 14 15 16增大容积(y)6.42 8.2 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.6 10.8 10.6 10.9 10.76解:(1)建立非线性回归模型:程序 2x=2:16;y= 6.42 8.2 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.6 10.8 10.6 10.9 10.76;%建立非线性双曲线回归模型b0=0.084,0
8、.1436;%回归系数初值fun=inline(x./(b(1)*x+b(2),b,x);%建立函数beta,r,J=nlinfit(x,y,fun,b0);%非线性拟合命令;其中,beta 表示最佳回归系数的估计值,r 是残差,J 是雅可比矩阵beta%输出最佳参数y1=x./(0.0845*x+0.1152);%拟合曲线plot(x,y,*,x,y1,-or)legend(原始数据,拟合曲线)%legend 为图例命令初始值要先计算后才能得到上面程序中的 b0,选择已知程序中的点(2,6.42)和点(16 ,10.76) ,可选择手工方法解方程,也可利用以下 MATLAB 程序求解。程序
9、3 a,b=solve(1/6.42=a+b/2,1/10.76=a+b/16)%解方程注:当所求解的方程过于复杂时,MATLAB 运行会出现错误,此时需将方程尽量化简后再进行求解,如以下形式:a,b=solve(6.42*(2*a+b)=2,10.76*(16*a+b)=16)运行程序 3 可得到最佳参数为 0845.a、 12.b,求解得到钢包使用次数与增大容积的非线性拟合图,如图 2 所示。52 4 6 8 10 12 14 1666.577.588.599.51010.511 二二二二二二二二图 2 钢包使用次数与增大容积的非线性拟合图(2 ) 预测钢包使用 17 次后增大的容积:程序
10、 4ypred=nlpredci(fun,17,beta,r,J)%预测钢包使用 17 次后增大的容积(3 ) 置信区间:程序 5ci=nlparci(beta,r,J)%置信区间运行后得到ci =0.0814 0.08760.0934 0.1370即回归模型中参数的置信度为的置信区间分别为0.0814,0.0876与0.0934,0.1370。我们求出的最佳参数分别为 0845.a和 12.b,均属于上述置信区间。调用多项式回归的 GUI 界面,可显示出钢包使用次数与增大容积的拟合交互图,见图3。程序 6polytool(x,y,2)6图 3 钢包使用次数与增大容积的拟合交互图图中的星号代表实验的原始数据点,绿色实线是回归模型曲线,两条红色虚线为 95%上下置信区间的曲线,纵向的虚线表示自变量为 9 时,横向虚线对应的预测值为 10.4118。