1、原数据1.1 样本聚类(Q 聚类)聚类表群集组合 首次出现阶群集阶群集 1 群集 2 系数 群集 1 群集 2 下一阶1 5 7 .855 0 0 32 11 12 1.379 0 0 73 2 5 1.772 0 1 54 10 14 1.776 0 0 75 2 6 2.451 3 0 86 8 13 2.772 0 0 107 10 11 4.322 4 2 128 1 2 4.557 0 5 129 3 4 4.895 0 0 1310 8 15 5.500 6 0 1111 8 9 7.740 10 0 1312 1 10 8.314 8 7 1413 3 8 12.790 9 11
2、 1414 1 3 16.650 12 13 0通过系数做出其散点图群集成员案例 5 群集 4 群集 3 群集1:Case 1 1 1 12:Case 2 1 1 13:Case 3 2 2 24:Case 4 2 2 25:Case 5 1 1 16:Case 6 1 1 17:Case 7 1 1 18:Case 8 3 3 39:Case 9 4 3 310:Case 10 5 4 111:Case 11 5 4 112:Case 12 5 4 113:Case 13 3 3 314:Case 14 5 4 115:Case 15 3 3 31.2 变量聚类(R 聚类)近似矩阵矩阵文件输
3、入案例总人口 从业人员 土地面积 耕地面积 财政收入 粮食产量总人口 1.000 .857 .698 .714 .512 .043从业人员 .857 1.000 .597 .570 .643 .277土地面积 .698 .597 1.000 .856 .044 -.147耕地面积 .714 .570 .856 1.000 -.001 -.335财政收入 .512 .643 .044 -.001 1.000 .342粮食产量 .043 .277 -.147 -.335 .342 1.000聚类表群集组合 首次出现阶群集阶群集 1 群集 2 系数 群集 1 群集 2 下一阶1 1 2 .857 0
4、 0 32 3 4 .856 0 0 33 1 3 .645 1 2 54 5 6 .342 0 0 55 1 5 .129 3 4 0群集成员案例 5 群集 4 群集 3 群集总人口 1 1 1从业人员 1 1 1土地面积 2 2 1耕地面积 3 2 1财政收入 4 3 2粮食产量 5 4 32.K均值聚类原数据描述统计量N 极小值 极大值 均值 标准差身高月平均增长率 19 .34 11.03 1.8842 2.56342体重月平均增长率 19 .49 50.30 5.6363 11.71814胸围月平均增长率 19 .16 11.81 1.4958 2.79339坐高月平均增长率 19
5、.14 11.27 1.7111 2.80709有效的 N (列表状态) 19输出结果:初始聚类中心聚类1 2 3 4 5Zscore(身高月平均增长率) 3.56781 1.39883 .66153 .04907 -.60240Zscore(体重月平均增长率) 3.81150 1.16603 .35959 -.12513 -.43918Zscore(胸围月平均增长率) 3.69236 1.32606 .58861 -.00923 -.47104Zscore(坐高月平均增长率) 3.40529 1.94826 .14212 -.04669 -.55255迭代历史记录 a聚类中心内的更改迭代1
6、2 3 4 51 .000 .000 .000 .208 .1832 .000 .000 .000 .000 .000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 .996。聚类成员案例号 月份 聚类 距离1 1 1 .0002 2 2 .0003 3 3 .0004 4 4 .2085 6 4 .2586 8 4 .3127 10 4 .1948 12 5 .2979 15 5 .24510 18 5 .06511 24 5 .07012 30 5 .11213 36 5 .04514 42 5 .11915
7、 48 5 .05116 54 5 .10317 60 5 .16618 66 5 .07419 72 5 .18320 . . .21 . . .dimension022 . . .23 . . .24 . . .25 . . .最终聚类中心聚类1 2 3 4 5Zscore(身高月平均增长率) 3.56781 1.39883 .66153 .02859 -.47855Zscore(体重月平均增长率) 3.81150 1.16603 .35959 -.19084 -.38115Zscore(胸围月平均增长率) 3.69236 1.32606 .58861 -.20255 -.39974Zsc
8、ore(坐高月平均增长率) 3.40529 1.94826 .14212 -.01106 -.45429最终聚类中心间的距离聚类 1 2 3 4 51 4.407 6.375 7.442 8.0992 4.407 2.236 3.146 3.8303 6.375 2.236 1.163 1.7844 7.442 3.146 1.163 .7275 8.099 3.830 1.784 .727ANOVA聚类 误差均方 df 均方 df F Sig.Zscore(身高月平均增长率) 4.469 4 .009 14 500.431 .000Zscore(体重月平均增长率) 4.476 4 .007
9、14 662.430 .000Zscore(胸围月平均增长率) 4.455 4 .013 14 346.563 .000Zscore(坐高月平均增长率) 4.472 4 .008 14 563.652 .000F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。每个聚类中的案例数1 1.0002 1.0003 1.0004 4.000聚类5 12.000有效 19.000每个聚类中的案例数聚类 1 1.0002 1.0003 1.0004 4.0005 12.000有效 19.0
10、00缺失 6.0003.线性回归研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。根据自变量的个数,分为一元线性回归和多元线性回归。3.1 一元线性回归http:/ b模型 输入的变量 移去的变量 方法1 咖啡类饮料销售量, 固体冲泡饮料销售量, 茶饮料销售量, 碳酸饮料销售量 a. 输入a. 已输入所有请求的变量。b. 因变量: 果汁销售量模型汇总模型R R 方 调整 R 方标准 估计的误差1 .997a .994 .992 .44012a. 预测变量: (常量), 咖啡类饮料销售量, 固体冲泡饮料销售量,茶饮料销售量, 碳酸饮料销售量。Anovab模型 平方和 df
11、均方 F Sig.回归 338.056 4 84.514 436.306 .000a残差 1.937 10 .1941总计 339.993 14a. 预测变量: (常量), 咖啡类饮料销售量, 固体冲泡饮料销售量, 茶饮料销售量, 碳酸饮料销售量。b. 因变量: 果汁销售量系数 a非标准化系数 标准系数模型B 标准 误差 试用版 t Sig.(常量) 17.296 .470 36.830 .000碳酸饮料销售量 .043 .018 .170 2.427 .036茶饮料销售量 .265 .021 .726 12.852 .000固体冲泡饮料销售量 -.004 .034 -.009 -.117 .
12、9091咖啡类饮料销售量 -.238 .013 -.455 -18.640 .000a. 因变量: 果汁销售量3.2 多元线性回归原数据输出结果:输入移去的变量 b模型 输入的变量 移去的变量 方法1 X4, X1, X2, X3a. 输入a. 已输入所有请求的变量。b. 因变量: Y模型汇总 b模型R R 方 调整 R 方标准 估计的误差1 .894a .799 .726 .619a. 预测变量: (常量), X4, X1, X2, X3。b. 因变量: YAnovab模型 平方和 df 均方 F Sig.回归 16.779 4 4.195 10.930 .001a残差 4.221 11 .
13、3841总计 21.000 15a. 预测变量: (常量), X4, X1, X2, X3。b. 因变量: Y系数 a非标准化系数 标准系数 共线性统计量模型B 标准 误差 试用版 t Sig. 容差 VIF(常量) -.182 .442 -.412 .688X1 .142 .158 .133 .900 .387 .834 1.200X2 .245 .213 .258 1.145 .276 .359 2.784X3 .210 .224 .244 .936 .369 .268 3.7291X4 .605 .245 .465 2.473 .031 .516 1.938a. 因变量: Y共线性诊断
14、a方差比例模型 维数特征值 条件索引 (常量) X1 X2 X3 X41 4.538 1.000 .01 .01 .00 .00 .002 .218 4.558 .08 .30 .03 .11 .013 .114 6.304 .12 .22 .19 .00 .394 .092 7.013 .67 .39 .07 .01 .1915 .037 11.020 .12 .08 .71 .87 .41a. 因变量: Y残差统计量 a极小值 极大值 均值 标准 偏差 N预测值 1.02 4.62 2.25 1.058 16残差 -.743 .981 .000 .530 16标准 预测值 -1.164 2.245 .000 1.000 16标准 残差 -1.200 1.583 .000 .856 16a. 因变量: Y