1、哑变量回归自变量为定性变量的数量化方法设某定性变量有个水平(如 ABO 血型系统有个水平),若分别用、代表个水平的取值,是不够合理的。因为这隐含着承认各等级之间的间隔是相等的,其实质是假定该因素的各水平对因变量的影响作用几乎是相同的。比较妥当的做法是引入个哑变量(Dummy Variables),每个哑变量取值为或。现以 ABO 血型系统为例,说明产生哑变量的具体方法。当某人为 A 型血时,令 X1=1、X 2=X3=0;当某人为 B 型血时,令 X2=1、X 1=X3=0;当某人为 AB 型血时,令 X3=1、X 1=X2=0;当某人为 O 型血时,令 X1=X2=X3=0。这样,当其他自变
2、量取特定值时,X1 的回归系数 b1 度量了E(Y A 型血 )E(Y O 型血)的效应; X2 的回归系数 b2 度量了E(Y B 型血 )E(Y O 型血)的效应; X3 的回归系数 b3 度量了E(Y AB 型血)E(YO 型血) 的效应。相对于 O 型血来说,b1、b 2、b 3 之间的差别就较客观地反映了 A、B、AB 型血之间的差别。说明 E(Y*)代表在“*”所规定的条件下求出因变量 Y 的期望值(即理论均值) 。用 recode 法设置哑变量。我这里以农增收入为例。共 5 个水平,1,2,3,4,5设置 4 个哑变量 x1/x2/x3/x4原来水平 新变量X1 x2 x3 x4 1 1 0 0 0 2 0 1 0 0 4 0 0 0 1 5 0 0 0 13 0 0 0 0采用 recode into different variables 共有 4 部:首先 output variable 填入 x1 ,然后赋值Old new1 12 03 04 05 0 ;Old new1 02 13 04 05 0依次赋值,你对比一下用 compute 和 recode 赋值的区别,看哪种简单,我自己没有折腾了。然后直接回归,你把结果做一下,特别是上次课大家提出结果解释方面,如果有问题打电话或者发邮件给我。好吗?下次课这个问题你们要上来讲清楚地。