多元统计分析.doc-道客多多_道客多多docduoduo.com

资源描述

1、1多元统计分析一、数据文件 industry.sav 提供了五家大型跨国公司从 1990 年 1 月至 1999 年12 月间的股票月度对数收益率，分别是 V1（国际商业机器公司 IBM）、V2（惠普 HP）、V3（英特尔公司 Intel）、V4（美林资产管理集团 Merrill Lynch）和V5（摩根士丹利 Morgan Stanley）。请进行主成分分析，并解释其经济意义。（本题 20 分）要求至少包含如下方面：1判断该数据集是否适于进行主成分/因子分析2画出碎石图3写出第一个主成分的完整表达式4选取适当个数的主成分并解释其经济意义5 给出每个样品在第一、第二主成分上的得分，每

2、个主成分得分的方差是多少？背景资料：IBM 是世界上最大的信息产业跨国公司，在大型/小型机和便携机(ThinkPad)方面的成就最为瞩目。其创立的个人计算机(PC)标准，至今仍被不断的沿用和发展。惠普公司（Hewlett-Packard，简称 HP）位于美国加州的帕罗奥多，是一家全球性的信息产业公司，主要专注于打印机、数位影像、软件、计算机与资讯服务等业务。英特尔公司( Intel Corporation )是全球最大的半导体芯片制造商。美林资产管理集团（Merrill Lynch），是一家全球化、综合性的金融服务公司，其业务涵盖了投资银行的所有方面，包括债券及股票的承销、二级市场经纪及自

3、营业务、资产管理、投融资咨询及财务顾问，以及宏观经济、行业、公司的调研。摩根士丹利（Morgan Stanley）是一家成立于美国纽约的大型国际金融服务公司，提供包括证券、资产管理、企业合并重组和信用卡等多种金融服务。二、使用上述数据文件 industry.sav，进行因子分析，并解释其经济意义。（本题 20 分）要求至少包含如下方面：1分别给出旋转前、旋转后的因子载荷矩阵，并简要解释这两个矩阵的统计意义；2给出因子得分系数矩阵，并简要解释该矩阵的功能；3计算因子得分；4写出第一个因子的完整表达式；5选取适当个数的因子并解释其经济意义。解答过程：1分别给出旋转前、旋转后的因子载荷矩阵，并简要

4、解释这两个矩阵的统计意义；旋转前的因子载荷矩阵成份矩阵 a成份21 2IBM .536 .561HP .744 .335Intel .607 .433Merrill .788 -.515Mogan Stanley .791 -.514提取方法 :主成分分析法。a. 已提取了 2 个成份。旋转前的因子载荷矩阵统计意义为：原始变量可以写成两个因子的线性组合，如V1=0.536*F1+0.561*F2 。是通过主成分抽取法，抽取出的各变量在两个因子上的各自载荷是多少。旋转后的因子载荷矩阵旋转成份矩阵 a成份1 2IBM .011 .776HP .317 .752Intel .151 .730Merr

5、ill .928 .158Mogan Stanley .930 .161提取方法 :主成分分析法。旋转法 :具有 Kaiser 标准化的正交旋转法。a. 旋转在 3 次迭代后收敛。旋转后的因子载荷矩阵，是将由主成分法得到的因子载荷矩阵，通过空间旋转，使得两个因子各自的解释意义更强。同样矩阵含义为用因子表示原始变量时的系数，如：V1=0.011*F1+0.776*F22给出因子得分系数矩阵，并简要解释该矩阵的功能；成份得分系数矩阵成份1 23IBM -.173 .508HP .023 .421Intel -.076 .445Merrill .541 -.112Mogan Stanley .542

6、 -.110提取方法 :主成分分析法。旋转法 :具有 Kaiser 标准化的正交旋转法。构成得分。因子得分系数矩阵可以直观的观察出不相关的各因子与不同原始变量间的相关程度。在本题中，F1 在Merrill和Mogan Stanley上得分更大，说明F1主要反应“金融股的收益率”，F2在IBM，HP, Intel上得分更大，说明F2 主要反映“信息产业股票收益率”其中因子可以表示成原始变量的线性组合：F1=-0.173V1+0.023*V2-0.076*V3+0.541*V4+0.542*V5F2=0.508*V1+0.421*V2+0.445*V3-0.112*V4-0.110*V53计算

7、因子得分；由 SPSS 得到的各因子得分如下:FAC1_1 FAC2_1-1.56955 0.60023-0.19527 0.03725-0.3881 0.31584-0.26134 -0.506470.77816 1.32378-0.26775 -0.48756-0.67983 -1.0397-0.99233 -2.56144-1.46655 0.08296-0.55811 -1.252780.57612 1.122490.30422 -0.006370.89275 1.688721.47871 0.480561.96775 -1.151080.34903 -0.610190.51428 0

8、.58302-0.81264 -1.608320.9095 0.040340.07533 -0.337010.8145 -0.984730.71645 -0.812144-0.56998 -0.58431.82181 0.56087-1.12461 0.97457-0.29795 0.765-0.14716 -0.61626-1.55899 0.337870.04767 -0.70941-0.3782 0.336650.43369 -0.09268-0.64468 -1.73683-0.31797 -0.200410.80235 -1.297430.579 0.689460.47645 -1.

9、051990.19633 0.74765-0.02993 0.526620.73356 -0.71268-0.37397 -1.288820.43931 1.196020.55002 -0.904270.50223 -1.658791.04088 0.637640.19661 -0.73291-0.84699 0.25048-1.30297 0.77342-0.76179 0.46640.75071 0.08698-1.50032 0.14687-0.93497 -0.38704-0.48256 -0.40513-0.21921 0.29019-0.84083 -0.925560.26498

10、0.131250.87154 1.14857-1.62709 -0.234840.65557 0.4713-0.79042 -0.33131-0.60867 0.199590.04228 -0.037180.825 0.92147-0.193 0.68808-0.07612 1.662050.43813 -0.093790.64875 0.758445-0.04659 0.711720.36955 -0.753681.00629 -0.88016-1.50526 1.21988-0.13494 -1.29382-0.82427 -0.660550.95571 0.41024-0.46719 1

11、.472090.82467 -1.40314-0.42119 0.821970.05566 0.129-0.04688 -1.07344-0.80133 -0.09087-0.40353 0.375490.12515 1.338780.01755 0.058360.96105 2.11042-0.31385 -0.65645-0.22394 1.009681.31396 -1.29655-1.05731 -0.604050.35615 0.823110.6025 -0.106550.64102 -0.089451.2581 2.30558-1.28687 -0.771791.32918 0.2

12、1831-0.92697 -1.736540.32083 0.241650.6134 -0.97143-0.98748 0.019341.22801 0.644650.90444 -1.284690.32199 1.11722-0.13619 -1.463240.79672 -0.58366-0.52229 0.81899-3.92909 -1.61075-3.87985 2.3612.8244 0.633371.09661 0.99657-0.98094 1.291961.44129 0.655060.33686 -2.1097260.9906 -0.19147-0.80826 1.5432

13、8-0.4172 0.62726-0.44087 1.06043-1.70878 0.67729-0.04586 0.41089-0.4465 -1.376712.06646 -2.536670.3783 0.897330.75319 0.861284写出第一个因子的完整表达式；由第 2 问中的“成分得分系数矩阵”可得第一个因子表达式：F1=-0.173V1+0.023*V2-0.076*V3+0.541*V4+0.542*V55选取适当个数的因子并解释其经济意义。成份得分系数矩阵成份1 2IBM -.173 .508HP .023 .421Intel -.076 .445Merrill .5

14、41 -.112Mogan Stanley .542 -.110提取方法 :主成分分析法。旋转法 :具有 Kaiser 标准化的正交旋转法。构成得分。F1在Merrill和Mogan Stanley上得分更大，且两者均是金融股，说明F1主要反应“金融股的收益率”，F2在IBM，HP, Intel上得分更大，且三者都是信息产业股，说明F2主要反映 “信息产业股票收益率 ”三、三个美国制造商生产的早餐方便粥的数据见“soup.sav ”。这三家厂商分别是：通用牛奶（I）、克罗格（II）和夸克（III ）。将早餐方便粥的品牌按厂商分组，每个品牌测试的指标有：卡路里（x1）、蛋白质（x2）

15、、脂肪（x3）、钠（x4）、纤维（x5）、碳水化合物（x6）、糖（x7）和钾（x8）。要求：（1）给出未标准化的费希尔判别式；（2）给出三个厂商的组重心值；（3）将所有品牌的两个费希尔判别式得分画成散点图，用不同的符号表示不同的厂商。7（本题 20 分）解答过程：（1）给出未标准化的费希尔判别式；未标准化的系数矩阵如下：典型判别式函数系数函数1 2卡路里 .022 -.045蛋白质 .369 .332脂肪 -.838 .386钠 .000 .006纤维 1.420 -1.040碳水化合物 .202 .204糖 .195 .235钾 -.031 .027(常量) -6.576 -2.5

16、72非标准化系数费希尔判别式为：F1=-6.576+0.002*X1+0.369*X2-0.838*X3+0*X4+1.420*X5+0.202*X6+0.195*X7-0.031*X8F2=-2.572-0.045*X1+0.332*X2+0.386*X3+0.006*X4-1.040*X5+0.204*X6+0.235*X7+0.027*X8（2）给出三个厂商的组重心值；组质心处的函数函数g 1 21 -.662 .7202 1.194 -.2673 -2.102 -1.150在组均值处评估的非标准化典型判别式函数厂商1组质心（-0.662,0.720）厂商2组质心（1.194，-0.26

17、7）厂商3组质心（-2.102，-1.150）8（3）将所有品牌的两个费希尔判别式得分画成散点图，用不同的符号表示不同的厂商。三厂商费希尔判别式得分散点图四、16 种饮料品牌的热量（卡路里）、咖啡因、钠含量和价格变量数据见“DRINK.sav”。假定这 16 种饮料品牌需分成三类，请利用上述四个变量进行K 均值聚类。要求：（1）请给出“初始类中心值 ”和“最终类中心值” ；（2）请给出每种饮料品牌的类别归属；（3）请在结果中输出四个变量的方差分析表，指出哪些（个）变量是在聚类分析中的效能较好。（本题 20 分）解答过程：（1）请给出“初始类中心值”和“最终类中心值” ；初始聚类中心聚类1

18、2 3卡路里 207.20 .00 107.00咖啡因 3.30 4.20 .00钠 15.50 13.10 8.30价格 2.80 2.20 4.20初始类中心为：第一类（202.20, 3.30, 15.50, 2.80）9第二类（0.00, 4.20, 13.10, 2.20）第三类（107.00, 0.00, 8.30, 4.20）最终聚类中心聚类1 2 3卡路里 203.10 33.71 107.34咖啡因 1.65 4.16 3.49钠 13.05 10.06 8.76价格 3.15 2.69 2.94最终类中心为：第一类（203.10, 1.65, 13.05, 3.15）第二类

19、（33.71，4.16，10.06, 2.69）第三类（107.34, 3.49, 8.76, 2.94）（2）请给出每种饮料品牌的类别归属；聚类结果如下：聚类成员案例号品牌名称聚类距离1 可口可乐 1 5.0652 芬达 2 4.5853 醒目 3 35.3584 露露 2 4.9955 统一 3 14.3886 红牛 3 18.3117 娃哈哈 3 39.3938 百事可乐 2 24.2339 乐百氏 3 12.07710 王老吉 1 5.06511 高乐高 2 16.99012 农夫 2 17.57013 汇源 2 5.39814 三得利 2 33.85515 脉动 3 11.68

20、416 雀巢 3 3.74910（3）请在结果中输出四个变量的方差分析表，指出哪些（个）变量是在聚类分析中的效能较好。方差分析表ANOVA聚类误差均方 df 均方 df F Sig.卡路里 24865.327 2 455.311 13 54.612 .000咖啡因 4.915 2 6.410 13 .767 .484钠 14.569 2 6.312 13 2.308 .139价格 .214 2 1.038 13 .207 .816F 检验应仅用于描述性目的，因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正，因此无法将其解释为是对聚类均值相等这一假设的检

21、验。由方差分析表可知：只有“卡路里”的P值小于0.05，通过显著性检验，即拒绝“各组方差相等”的原假设。因此“卡路里”在分析中效能较好。五、使用第四题数据“DRINK.sav” ，利用上述四个变量对这 16 种饮料品牌进行系统聚类。要求：（1）分别给出分成 2、3、4、5 类时的分类方案；（2）给出树形图或冰柱图（两图选一即可），并作简要解释；（3）说出你进行系统聚类时，分别使用的是哪种“样品间距离测度方法”和“类间距离测度方法” 。（本题 20 分）解答过程：（1）分别给出分成 2、3、4、5 类时的分类方案；用 SPSS 进行聚类给出分类结果如下：11两类时：（可口可乐、王老吉）、

22、（芬达、露露、百事可乐、高乐高、农夫、汇源、三得利、醒目、红牛、乐百氏、统一、哇哈哈、脉动、雀巢）三类时：（可口可乐、王老吉）、（芬达、露露、百事可乐、高乐高、农夫、汇源、三得利）、（醒目、红牛、乐百氏、统一、哇哈哈、脉动、雀巢）四类时：（可口可乐、王老吉）、（芬达、露露、百事可乐、高乐高、汇源、农夫、三得利）、（醒目、红牛、乐百氏）、（统一、哇哈哈、脉动、雀巢）五类时：（可口可乐、王老吉）、（芬达、露露、百事可乐、高乐高、汇源）、（醒目、红牛、乐百氏）、（统一、哇哈哈、脉动、雀巢）、（农夫、三得利）（2）给出树形图或冰柱图（两图选一即可），并作简要解释；冰

23、柱图如下：12冰柱相当于档板：分成两类时，最高的挡板两侧分成两类，即（王老吉、可口可乐）为一类，挡板左边为一类。其他数量的分类以此类推，以挡板为界分成给定类数。（3）说出你进行系统聚类时，分别使用的是哪种“样品间距离测度方法”和“类间距离测度方法” 。答：样品间距离测度方法：平方欧几里得距离；类间距离测度方法：组间连接法提示：如果不能从 SPSS 结果中直接拷贝图形或表格，可以使用“Ctrl”+“Print Screen SysRq”组合键，将显示结果拷贝成图片粘帖至 Word 试卷中。简答题（任选 1 道回答）：六、试述费希尔（Fisher）判别分析法的基本原理。（本题 20 分）七、简

24、述主成分分析与因子分析的区别。（本题 20 分）13答：1. 原理不同。因子分析是把各变量看做一些公共因子（对每一个变量都有作用的因子）和特殊因子（仅对某一个变量有作用的因子）线性组合而成，目的是要从数据中探查出对变量起解释作用的公共因子及其组合系数；主成分分析是对原始变量进行空间旋转得到能反映变量大部分信息的新变量。2. 表达形式不同。因子分析是把变量表示成几个公因子的线性组合；而主成分分析则是把主成分表示成各变量的线性组合。3. 假设不同。主成分分析无须假设。因子假设各个公共因子之间不相关，特殊因子之间不相关，公共因子和特殊因子之间不相关。4. 方法不同。因子分析抽取公共因子方法很多，包括：主成分法，极大似然法，主轴因子法等，方法不同得到的结果也不同；主成分只能用主成分法抽取。5. 唯一性不同。若数据集的协方差矩阵或者相关矩阵的特征值唯一，主成分一般是固定的；而因子分析可以旋转得到不同的多个因子。6. 数量确定机制不同。因子分析中，因子个数需要事先指定，指定的因子数量不同结果也可能不同；在主成分分析中，成分的数量一般和变量个数相等。7. 功能不同。因子分析可以使用旋转技术增强因子表达的含义，在解释方面更加有优势；因子分析能把现有的变量变成少数几个新的综合性的变量，使得分析简化。不过，因子分析也可以实现该目的。

展开阅读全文