1、残差分析,1 用残差证实模型的假定 2 用残差检测异常值和有影响的观测值,1,残差 (residual),1. 因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示2. 反映了用估计的回归方程去预测而引起的误差 3. 确定有关误差项的假定是否成立 检测有影响的观测值 用残差图诊断回归效果与样本数据的质量,检查模型是否 满足基本假定,以便对模型作进一步的修改,2,用残差证实模型的假定,3,残差图 (residual plot),1. 表示残差的图形 关于x的残差图 关于y的残差图 标准化残差图 2. 用于判断误差的假定是否成立 3. 检测有影响的观测值,4,残差图 (形态及判别),5,6
2、,残差图 (例题分析),7,8,火灾损失数据的残差图,9,标准化残差(standardized residual),标准化残差使残差具有可比性, 的相应观测值即判定为异常值,但没有解 决方差不等的问题。 是回归标准差。,10,学生化残差, 残差除以它的标准差后得到的数值。计算公式为 是第i个残差的标准差,其计算公式为,学生化残差图, 用以直观地判断误差项服从正态分布这一假定是否成立 若假定成立,学生化残差的分布也应服从正态分布 在学生化残差图中,大约有95.45%的学生化残差在-2到+2之间,11,学生化残差图 (例题分析),12,用残差检测异常值和 有影响的观测值,13,异常值 (outli
3、er),1. 如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异常点,或称为野点 如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归的效果 如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型 如果完全是由于随机因素而造成的异常值,则应该保留该数据 2. 在处理异常值时,若一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔除,14,异常值 (识别),1. 异常值也可以通过标准化残差来识别 2. 如果某一个观测值所对应的标准化残差较大,就可以识别为异常值 3. 一般情况下,当一个观测值所对应的标准化残差小于-3或
4、大于+3时,就可以将其视为异常值,15,有影响的观测值,1. 如果某一个或某一些观测值对回归的结果有强烈的影响,那么该观测值或这些观测值就是有影响的观测值 2. 一个有影响的观测值可能是 一个异常值,即有一个值远远偏离了散点图中的趋势线 对应一个远离自变量平均值的观测值 或者是这二者组合而形成的观测值,,16,有影响的观测值(图示),17,不存在影响值的趋势,有影响的观测值,存在影响值的趋势,18,杠杆率点 (leverage point),1. 如果自变量存在一个极端值,该观测值则称为高杠杆率点(high leverage point) 2. 在一元回归中,第i个观测值的杠杆率用 表示,其计算公式为 3. 如果一个观测值的杠杆率 就可以将该观测值识别为有高杠杆率的点 4. 一个有高杠杆率的观测值未必是一个有影响的观测值,它可能对回归直线的斜率没有什么影响,高杠杆率点 (图示),19,高杠杆率点,