1、回归分析1回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法相关性问题是日常生活中普遍存在的问题生活中,有些变量之间存在着明显的函数关系,有些变量之间不满足函数关系,但是它们之间又存在着一种明显的依赖关系利用回归分析法对两个具有线性相关关系的变量研究的步骤为:(1)画出这两个变量的散点图;(2)求回归直线方程;(3)利用回归直线方程进行预报2随机误差当样本点散布在某一条直线附近,而不是在一条直线上时,我们不能用一次函数来描述两个具有线性相关关系的变量之间的关系,而是把这两个关系用下面的ybxa线性回归模型来表示: ybxae其中 为模型的未知参数, 称为随机误差,注:线性回归
2、模型 与我们所熟悉的一次函数模型的不同之处是增加了随机误差项 ,因变量 的值由自变量 和随机误差 共同确定,即自变量 只能解释部分eyxex的变化y3样本点中心最小二乘估计 和 就是未知参数 和 的最好估计,abab其计算公式为1122()nniiiii iixyxyaybx其中 , 称为样本点的中心1nix1()niy,注:回归直线过样本点的中心4衡量两个变量之间线性相关关系的方法我们常用相关系数 r 来衡量两个变量之间的线性相关关系,具体计算公式为1221()()iniiiniiixyr当 时,表明两个变量正相关;当 时,表明两个变量负相关 的绝对值越0r0rr接近,表明两个变量的线性相关
3、性越强; 的绝对值接近于时,表明两个变量之间几乎不存在线性相关关系5总偏差平方和、残差平方和、回归平方和在数学上,把每个效应(观测值减去总的平均值)的平方加起来,即用表示总的效应,称为总偏差平方和21()niiy数据点和它在回归直线上相应位置的差异 是随机误差的效应,称()iy为残差,然后分别将所得值的平方后加起来,称为残差平方和,它代表了随机iiey误差的效应,用数学符号表示为 21()niiy回归平方和总偏差平方和残差平方和注:我们可以用相关指数 来刻画回归的效果,其计算公式2R为 221()niiiiyR显然, 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,在线性回2归模型中
4、, 表示解释变量对预报变量变化的贡献率6残差分析在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后,我们可以通过残差 来判断模型123nee, , , ,拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析7建立回归模型的一般步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等) (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程 ) ybxa(4)按一定规则估计回归方程中的参数(如最小二乘
5、法) (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等) ,若存在异常,则检查数据是否有误,或模型是否合适等8比较拟合效果的基本步骤对于给定的样本点 ,两个含有未知参数的模型12()()nxyxy, , , , , ,和 其中 和 都是未知参数,可以按如下的步骤来比较(1)yfxa, (2)gb, ab它们的拟合效果:(1)分别建立对应于两个模型的回归方程 与(1)yfxa,其中 和 分别是参数 和 的估计值;(2)分别计算两个回归方程的(2)ygxb, 残差平方和 与 ;(3)若 ,则(1)(1)2niiQy()(2)1niiQy(1)(2)Q的效果比 的好;反之, 的效果不如(1)yfxa, (2)gxb, (1)fxa,的好(2)gb,