1、19.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?答:一方面是因为模型假设对每个属性都具有相同的斜率,把所有属性放在一起可以对相同的斜率做出更好的估计;另一方面,采取设虚拟变量的回归模型使得均方误差的自由度增加,从而更加精确地进行其它统计推断。9.5某省统计局1990年9月在全国范围内进行了一次公众安全感问卷调查,参考文献10选取了调查表中的一个问题进行分析。本题对其中的数据作了适当的合并。对1391人填写的问卷统计:“一人在家是否害怕生人来”。因变量 1y 表示害怕, 0y 表示不害怕。2个自变量: 1x 1x 是年龄, 2x 是文
2、化程度。各变量的取值含义如表9.10所示。表9.10是否害怕y 年龄 1x 文化程度 2x害怕 1 1628岁 22 文盲 0不害怕 0 2945岁 37 小学 11 61岁以上68 中专以上 3现在的问题是:公民一人在家害怕生人来这个事件,与公民的年龄 1x 、文化程度 2x 有没有关系呢?调查数据见表9.11。表9.11序号 1x 2x in 1y 0y ip1 22 0 3 0 3 0.125002 22 1 11 3 8 0.291673 22 2 389 146 243 0.375644 22 3 83 26 57 0.315485 37 0 4 3 1 0.700006 37 1
3、27 18 9 0.660717 37 2 487 196 291 0.402668 37 3 103 27 76 0.264429 53 0 9 4 5 0.4500010 53 1 6 3 3 0.5000011 53 2 188 73 115 0.3888912 53 3 47 18 29 0.3854213 68 0 2 0 2 0.1666714 68 1 10 3 7 0.3181815 68 2 18 7 11 0.3947416 68 3 4 0 4 0.100002解:(一)把年龄和文化程度当做数量型变量建立logistic回归模型,R中程序如下care|z|)(Interc
4、ept) 0.1286247 0.3024870 0.425 0.67067x1 0.0009797 0.0046045 0.213 0.83151x2 -0.3136848 0.1123309 -2.793 0.00523*-Signif.codes: 0*0.001*0.01*0.05.0.11(Dispersionparameterforbinomialfamilytakentobe1)Nulldeviance:30.431 on15 degreesoffreedomResidualdeviance:22.303 on13 degreesoffreedomAIC:79.757Number
5、ofFisherScoringiterations:3由结果可知,在0.05显著水平下x1不显著,将其剔除后重新做回归分析logitp0Chi)NULL 15 30.431x2 1 8.0822 14 22.349 0.00447*-Signif.codes: 0*0.001*0.01*0.05.0.11由输出结果可知,回归方程显著。summary(logitp0)利用summary浏览模型输出结果如下Call:glm(formula=yx2,family=binomial,data=care)DevianceResiduals:Min 1Q Median 3Q Max-2.1641 -1.1
6、950 -0.2294 0.3212 2.1303Coefficients:EstimateStd.ErrorzvaluePr(|z|)(Intercept) 0.1678 0.2402 0.698 0.48487x2 -0.3158 0.1119 -2.822 0.00477*-Signif.codes: 0*0.001*0.01*0.05.0.11(Dispersionparameterforbinomialfamilytakentobe1)Nulldeviance:30.431 on15 degreesoffreedomResidualdeviance:22.349 on14 degre
7、esoffreedomAIC:77.802NumberofFisherScoringiterations:3由输出结果可知,在0.05显著水平下模型显著,故logistic回归方程为2 2exp(0.1678 0.3158 ) 1 exp(0.1678 0.3158 )xp x 4模型解释:(1)结果表明其他因素不变时,文化程度每增加一个单位,将导致logitP平均减少0.3158,但是回归系数的含义不直观因此,计算优势比。coef(logitp0)(Intercept) x20.1677597 -0.3158056exp(coef(logitp0)(Intercept) x21.182652
8、4 0.7292012结果表明,当文化程度每增加一个单位时,害怕意向的优势是原来的0.729212(优势比),可见文化程度提高降低了害怕的可能行。(2)作概率p关于 2x 的图:pprepreoWopreoplot(Wo,preo,type=“l“)由图知,概率p随 2x 的增大而减小。xp05ratio05ratio051-0.0789514在 0.5p 处,变化率最大,为-0.07895。表示在 2x =0.5312处, 2x 每增加一个单位,即文化程度上升一个高度,一人在家害怕生人来的概率估计值就减少0.07895。说明文化程度高的人比文化程度低的人,一人在家害怕生人的可能性要小。模型评
9、价:计算伪 2RR2coxcat(“Cox-SnellR2=“,R2cox,“n“)Cox-SnellR2=0.2295011R2nagcat(“NagelkerkeR2=“,R2nag,“n“)NagelkerkeR2=0.3670225由输出结果可知Cox-Snell R2= 0.2295011 ,Cox-Snell R2= 0.2295011 拟合效果并不好。(二)把x2当做定性变量做logistic回归分析,R程序x2anova(logitp1,test=Chisq)AnalysisofDevianceTableModel:binomial,link:logitResponse:yTe
10、rmsaddedsequentially(firsttolast)DfDevianceResid.DfResid.DevPr(Chi)NULL 15 30.431x1 1 0.2103 14 30.221 0.646556x2 3 10.2681 11 19.953 0.01642*-Signif.codes: 0*0.001*0.01*0.05.0.11由输出结果可知,anova(logitp1,test=Chisq)表示依据卡方分布,对回归方程记性显著性检验。可知在0.05的显著性水平下,x1不显著,x2显著,因此应保留x2在回归模型中。利用summary浏览模型Call:glm(form
11、ula=yx1+x2,family=binomial,data=care1)DevianceResiduals:Min 1Q Median 3Q Max-1.7205 -1.3611 -0.1627 0.3954 1.7650Coefficients:EstimateStd.ErrorzvaluePr(|z|)(Intercept)-0.516790 0.528560 -0.978 0.328x1 0.001410 0.004641 0.304 0.761x21 0.458345 0.555261 0.825 0.409x22 0.020327 0.490212 0.041 0.967x23
12、-0.382535 0.506225 -0.756 0.450(Dispersionparameterforbinomialfamilytakentobe1)Nulldeviance:30.431 on15 degreesoffreedomResidualdeviance:19.953 on11 degreesoffreedomAIC:81.406NumberofFisherScoringiterations:4可知在显著性水平为0.05下,所有的变量均不显著。用逐步回归法做回归分析step(logitp1)Start: AIC=81.41yx1+x2DfDeviance AIC-x1 1 2
13、0.04579.499 19.95381.406-x2 3 30.22185.674Step: AIC=79.5yx27DfDeviance AIC 20.04579.499-x2 3 30.43183.885Call: glm(formula=yx2,family=binomial,data=care1)Coefficients:(Intercept) x21 x22 x23-0.451985 0.451985 0.004751 -0.397323DegreesofFreedom:15Total(i.e.Null); 12ResidualNullDeviance: 30.43Residual
14、Deviance:20.04 AIC:79.5因此剔除x1后的AIC最小,然后做回归分析logitp2|z|)(Intercept)-0.451985 0.483494 -0.935 0.350x21 0.451985 0.554834 0.815 0.415x22 0.004751 0.487495 0.010 0.992x23 -0.397323 0.503860 -0.789 0.430(Dispersionparameterforbinomialfamilytakentobe1)Nulldeviance:30.431 on15 degreesoffreedomResidualdevia
15、nce:20.045 on12 degreesoffreedomAIC:79.499NumberofFisherScoringiterations:4由输出结果可知,在显著性水平0.05下,所有的回归系数也均不显著,该模型可能不适合。估计的回归方程为821 22 2321 22 23exp( 0.4520 0.4520 0.0048 0.3973 ) 1 exp( 0.4520 0.4520 0.0048 0.3973 )x x xp x x x 模型评价:计算伪 2RR2coxcat(“Cox-SnellR2=“,R2cox,“n“)Cox-SnellR2= 0.4775037R2nagcat(“NagelkerkeR2=“,R2nag,“n“)Nagelkerke R2= 0.5612932由输出结果可知Cox-SnellR2=0.4775037 ,NagelkerkeR2=0.5612932 近一步说明了模型拟合的效果不好。故该模型不适合。