SPSS案例分析.docx-道客多多_道客多多docduoduo.com

资源描述

1、某道路弯道处 53 车辆减速前观测到的车辆运行速度，试检验车辆运行速度是否服从正态分布。这道题目的解答可以先通过绘制样本数据的直方图、P-P 图和 Q-Q 图坐车粗略判断，然后利用非参数检验的方法中的单样本 K-S 检验精确实现。一、初步判断1.1 绘制直方图（1）操作步骤在 SPSS 软件中的操作步骤如图所示。（2 ）输出结果通过观察速度的直方图及其与正态曲线的对比，直观上可以看到速度的直方图与正太去线除了最大值外，整体趋势与正态曲线较吻合，说明弯道处车辆减速前的运行速度有可能符合正态分布。1.2 绘制 P-P 图（1）操作步骤在 SPSS 软件中的操作步骤如图所示。（2 ）结果输出根据输出

2、的速度的正态 P-P 图，发现速度均匀分布在正态直线的附近，较多部分与正态直线重合，与直方图的结果一致，说明弯道处车辆减速前的运行速度可能服从正态分布。二、单样本 K-S 检验2.1 单样本 K-S 检验的基本思想K-S 检验能够利用样本数据推断样本来自的总体是否服从某一理论分布，是一种拟合优的检验方法，适用于探索连续型随机变量的分布。单样本 K-S 检验的原假设是：样本来自的总体与指定的理论分布无显著差异，即样本来自的总体服从指定的理论分布。SPSS 的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。单样本 K-S 检验的基本思路是：首先，在原假设成立的前提下，计算各样本观测值在理

3、论分布中出现的累计概率值F(x)，；其次，计算各样本观测值的实际累计概率值 S(x)；再次，计算实际累计概率值与理论累计概率值的差 D(x)；最后，计算差值序列中的最大绝对值差值，即）（）（ iixFSmaxD通常，由于实际累计概率为离散值，因此 D 修正为：）（）（ 1iixFSmaxDD 统计量也称为 K-S 统计量。在小样本下，原假设成立时，D 统计量服从 Kolmogorov 分布。在大样本下，原假设成立时，近似服从 K(x)分布：当 D 小于 0 时，K(x) 为 0；当 D 大于 0 时，n）2-（exp）1（）（ jxKj容易理解，如果样本总体的分布与理论分粗的差异不明显，

4、那么 D 不应较大。如果 D统计量的概率 P 值小于显著性水平，则应拒绝原假设，认为样本来自的总体与指定的分布有显著差异如果 D 统计量的 P 值大于显著性水平，则不能拒绝原假设，认为，样本来自的总体与指定的分布无显著差异。在 SPSS 中，无论是大样本还是小样本，仅给出大样本下的和对应的概率 P 值。n2.2 软件操作步骤单样本 K-S 检验的操作步骤如图所示2.3 输出结果并分析SPSS的输出结果如表所示.单样本 Kolmogorov-Smirnov 检验速度N 98均值 47.988正态参数 a,b标准差 11.6310绝对值 .090正 .050最极端差别负 -.090Kolmo

5、gorov-Smirnov Z .888渐近显著性(双侧) .409a. 检验分布为正态分布。b. 根据数据计算得到。该表表明，速度的均值为47.988，标准差为11.6310。最大绝对差值为0.090，最大正差值为0.050，最大负差值为-0.090 。本例应采用大样本下D统计量的精确概率值，输出了根号nD值0.888和概率P 值0.409 ，如果显著性水平为0.05，由于概率P值大于显著性水平，因此不能拒绝原假设，可以认为弯道处车辆减速前的运行速度服从正态分布。第 13 题表中数据为某条公路上观测到的交通流速度与密度数据，试用一元线性回归模型分析两者的 101 关系。一、一元线性回归的基本

6、原理1.1 一元线性回归模型：01Y2(0,)N上述模型可分为两部分：（1）是非随机部分；（2 ）是随机部分。0和1为回归常熟和回归系数该式被称为估计的一元线性回归方程。1.2 模型参数估计用最小二乘法估计参数，是在关于随机误差的正态性、无偏性、同方差性、独立性这四个假设的基础上进行的。 2 201minii iifxyybx为了求回归系数，，，令一阶导数为0 ，得：1120iiiiinbxyx从中解出： 1201()iiixyb二、一元线性回归分析的假设检验： _222111ST()()()nnni i ii i iyyySRE其中：SST称为总体离差平方和，代表原始数据所反映的总偏

7、差的大小。SSR称为回归离差平方和，它是由变量x引起的偏差，反应x的重要程度SSE称为剩余离差平方和，它是由实验误差以及其它未加控制因素引起的偏差，反映了试验误差及其它随机因素对试验结果的影响。2.1 回归方程优度检验的21SRSET相关系数反映了由于使用Y与X之间的线性回归模型来估计y的均值，而导致总离差平方和减少的程度。它与SSR成正比，R 2 的取值在0-1之间，其值越接近1，说明方程对样本数据点的拟合度越高；反之，其越接近0说明，明模型的拟合度越低。2.2 回归方程的显著性检验假设。01:,H1:0在成立的条件下，有：12/nSRFE12()n上式中，n 1 =1，n 2=n-2，

8、F服从自由度为（1，n-2）的F分布。给定显著水平，若,拒绝原假设，表明回归效果显著。2()F2.3 回归系数的显著性检验在成立的条件下，有：0Ht(2)xLtn:当时，拒绝原假设，回归显著。2()tn注意：注意回归方程的显著性检验与回归系数的显著性检验的的区别：回归系数的显著性检验是用于检验回归方程各个参数是否显著为0的单一检验，回归方程的显著性检验是检验所有解释变量的系数是否同时为0的联合检验，分别为t检验FF检验。对于一元线性回归模型，F检验与t检验是等价的,而对于二元以上的多元回归模型，解释变量的整体对被解释变量的影响是显著的，并不表明每一个解释变量对它的影响都显著,因此在做完

9、F检验后还须进行t检验。2.4 残差均值为零的正态性分析，进行一元线性回归建模的前提是残差 N（0， 2）。而结实变量 x 去某个特定的值是，对应的残差必然有证有负，但总体上应服从已领为君值得正态分布。可以通过绘制残插图对该问题进行分析。残插图是一种散点图，途中横坐标是结实变量，纵坐标为残差。如果残差的均值为零，则残插图中的点应在纵坐标为零的横线上、下随机散落。三、软件操作一元线性回归的软件操作步骤如图所示。四、输出结果SPSS 的输出结果如表所示。模型汇总 b模型 R R 方调整 R 方标准估计的误差1 .972a .944 .941 10.0432a. 预测变量: (常量),

10、密度。b. 因变量: 速度该表中格列数据的含义（从第二列开始）依次是：被解释变量和解释变量的负相关系数、判定系数 R2 、调整的系数 R2 、回归方程的估计标准误差。依据该表可以进行拟合优度检验。由于判定系数 R2 较接近 1，因此认为拟合优度较高，被解释变量可以被模型解释的部分较多，不能被模型解释的部分较少。该表各项数据的含义（从第一列开始）依次为：被解释变量的表差来源，离差平方和。自由度、方程、回归方程显著性检验中 F 检验统计量的观测值和概率 P 值。由表可知，F 检验统计量的观测值为，369.56，对应的概率 P 值为0.000。如果显著性水平取 0.05，由于概率 P 值

11、小于显著性水平，所以应该拒绝原假设，认为，被解释变量与及时变量的线形关系是显著的，可以建立线性模型。系数 a非标准化系数标准系数模型B 标准误差试用版 t Sig.(常量) 153.344 3.987 38.462 .0001密度 -3.893 .202 -.972 -19.224 .000a. 因变量: 速度该表中各列数据的含义（第二列开始）依次为：偏回归系数，偏回归系数的标准误差，标准化偏回归系数、回归系数显著性检验中t检验统计量的观测值、对应的概率P值。从表中可以看出，产量和密度对应的概率P值均为0.000。若取显著性水平为0.05，则应拒绝原假设，认为密度与速度的线性关系显著。残

12、差统计量 aAnovab模型平方和 df 均方 F Sig.回归 37276.268 1 37276.268 369.566 .000a残差 2219.031 22 100.8651总计 39495.298 23a. 预测变量: (常量), 密度。b. 因变量: 速度极小值极大值均值标准偏差 N预测值 2.312 123.371 87.608 40.2580 24残差 -11.8622 21.2178 .0000 9.8224 24标准预测值 -2.119 .888 .000 1.000 24标准残差 -1.181 2.113 .000 .978 24a. 因变量: 速度该表中可

13、以看出，残差和标准残差的均值均为 0，符合残差均值为零的正态性分析。综上，该公路上速度与密度的一元线性回归模型为： 3415398.K.V，其中，V 表示速度，K 表示密度。第 17 题为了分析双车道公路上驾驶人超车行为及其影响因素，应用超车试验研究了超车过程中同向的车流间隙对驾驶人换车道的影响。此次试验共采集到有效样本数据 342 条，表中给出了部分试验数据整理结果。请用 logistic 回归模型标定出换道行为模型。本题可采用二元 logistic 回归分析对换道行为进行标定。一、二元 Logistic 回归基本原理当被解释变量为 0/1 二分类变量时，虽然无法直接采用一般线性回归模型建模

14、，但可充分借鉴其理论模型和分析思路。利用一般线性回归模型对被解释变量取值为 1 的概率进行建模，此时回归方程被解释变量的实际取值范围在 01 之间。回归方程的一般形式为： xPy101现将 P 转换为 p1对对两边取对数，并建立被解释变量与解释变量之间的多元分析模型，即 kixp10）1（ln于是有））（-（110kixexpP该式即被解释变量预测为 1 类的模型。二、软件操作二元 logistic 回归模型的 SPSS 操作如图所示。操作中，对换道行为进行了分类设置：超车成功=1，超车失败=2 。三、结果输出分类表 a,b已预测超车已观测失败成功百分比校正失败 0 4 .0超车成功 0

15、 8 100.0步骤 0总计百分比 66.7a. 模型中包括常量。b. 切割值为 .5该表显示了 logistic 分析初级阶段（第 0 步，方程中只有常数项，其他回归系数约束为0），的混淆矩阵。可以看待，有 4 人超车失败但模型预测错误，正确率为 0%，有 8 人超车成功模型预测正确，正确率为 100%。模型总的预测正确率为 66.7%。方程中的变量B S.E, Wals df Sig. Exp (B)步骤 0 常量 .693 .612 1.281 1 .258 2.000该表为方层中只有常数项时回归系数方面的指标，由于此时模型中未包含任何解释变量，该表并没有实际意义。不在方程中的变量得

16、分 df Sig.速度 10.170 1 .001车头间距 .568 1 .451变量车头时距 3.210 1 .073步骤 0总统计量 10.802 3 .013该表显示了待进入方程的各解释变量的情况。可以看到，下一波速度。车头间距和车头时距进入方程，则 Score 检验统计量的鬼厕纸和概率 P 值分别依次是10.170、0.001，0.568、0.451,3.210,0.073。如果显著性水平为 0.05，则由于车头间距和车头时距的概率 P 值大于显著性水平，所以不能进入方程。分类表 a已预测超车已观测失败成功百分比校正失败 4 0 100.0超车成功 0 8 100.0步骤 1总计百分

17、比 100.0a. 切割值为 .500因此将车头间距和车头时距移除，再看该分类表，模型的预测率为 100%。从而车辆环岛行为模型的标定仅与行车速度有关。方程中的变量B S.E, Wals df Sig. Exp (B) EXP(B) 的 95% C.I.下限上限速度 4.729 1693.794 .000 1 .998 113.156 .000 .步骤 1 a常量 -145.071 53532.647 .000 1 .998 .000a. 在步骤 1 中输入的变量: 速度.从而得到换到行为的 logistic 回归模型标定结果（1）V.p0745-29）1（ln（2））7（ 1exP则式（2）为超车成功的标定模型，其中，V 为行车速度。

展开阅读全文