1、统计模型,1 统计基本知识(假设检验)SPSS入门聚类分析与判别分析主成分分析与因子分析,描述性统计,中数众数中位数均值方差峰度最值,1 统计基础知识,单样本T检验独立样本T检验配对样本T检验,1.1 单样本T检验,定义:SPSS单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著差异。统计的前提样本总体服从正态分布。也就是说单样本本身无法比较,进行的是其均数与已知总体均数间的比较。,实例1, 研究问题 分析某班级学生的高考数学成绩和全国的平均成绩70之间是否存在显著性差异。数据如表1所示。,1.2 两独立样本T检验,所谓独立样本是指两个样本之间彼此独立没有任何关联,两个独立样本各自
2、接受相同的测量。研究者的主要目的是了解两个样本之间是否有显著差异存在。这个检验的前提如下。 两个样本应是互相独立的,即从一总体中抽取一批样本对从另一总体中抽取一批样本没有任何影响,两组样本个案数目可以不同,个案顺序可以随意调整。 样本来自的两个总体应该服从正态分布。,实例2, 研究问题 分析A、B两所高校大一学生的高考数学成绩之间是否存在显著性差异。,1.3 两配对样本的T检验,定义:两配对样本T检验是根据样本数据对样本来自的两配对总体的均值是否有显著性差异进行推断。一般用于同一研究对象(或两配对对象)分别给予两种不同处理的效果比较,以及同一研究对象(或两配对对象)处理前后的效果比较。,两配对
3、样本T检验的前提要求如下。 两个样本应是配对的。在应用领域中,主要的配对资料包括:具有年龄、性别、体重、病况等非处理因素相同或相似者。首先两个样本的观察数目相同,其次两样本的观察值顺序不能随意改变。 样本来自的两个总体应服从正态分布,实例3, 研究问题 研究一个班同学在参加了暑期数学、化学培训班后,学习成绩是否有显著变化。数据如表3所示。,2 方差分析,2.1 单因素方差分析 定义:单因素方差分析测试某一个控制变量的不同水平是否给观察变量造成了显著差异和变动。 例如,培训是否给学生成绩造成了显著影响;不同地区的考生成绩是否有显著的差异等。,由于方差分析有一个比较严格的前提条件,即不同水平下,各
4、总体均值服从方差相同的正态分布,因此方差分析问题就转换成研究不同水平下各个总体的均值是否有显著差异的问题。,实例4, 研究问题 分析三组学生的成绩是否有显著性差异,表5,2.2 多因素方差分析,定义:多因素方差分析中的控制变量在两个或两个以上,它的研究目的是要分析多个控制变量的作用、多个控制变量的交互作用以及其他随机变量是否对结果产生了显著影响。 例如,在本章开始讲述的例子,在获得教学效果的时候,不仅单纯考虑教学方法,还要考虑不同风格教材的影响,因此这是两个控制变量交互作用的效果检验, 研究问题 组别和性别对数学成绩是否存在显著性的差异,3 相关分析,相关系数的取值范围在1和+1之间,即1r+
5、1。其中: 若0r1,表明变量之间存在正相关关系,即两个变量的相随变动方向相同 若1r0,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;,实例5, 研究问题 某班级学生数学和化学的期末考试成绩如表7所示,现要研究该班学生的数学和化学成绩之间是否具有相关性。,3.2 定序数据的相关分析,定义:定序变量又称为有序(ordinal)变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1小学及以下、2初中、3高中、中专、技校、4大学专科、5大学本科、6研究生以上。由小到大的取值能够代表学历由低到高,实例
6、6, 研究问题 某语文老师先后两次对其班级学生同一篇作文加以评分,两次成绩分别记为变量“作文1”和“作文2”,数据如表6所示。问两次评分的等级相关有多大,是否达到显著水平?,4 聚类分析,聚类分析又称群分析,它是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的集合。那么要将相似元素聚为一类,通常选取元素的许多共同指标,然后通过分析元素的指标值来分辨元素间的差距,从而达到分类的目的。 聚类分析可以分为:Q型(样品分类)分类、R型(指标分类)分类。这里介绍的是Q型(样品分类)分类。,聚类分析的方法,主要有两种,一种是“快速聚类分析方法”(KMeans Cluster Analy-
7、 sis),另一种是“层次聚类分析方法”(Hierarchical Cluster Analysis)。如果观察值的个数多或文件非常庞大(通常观察值在200个以上),则宜采用快速聚类分析方法。因为观察值数目巨大,层次聚类分析的两种判别图形会过于分散,不易解释。,进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生不同的聚类方法。常用的系统聚类方法有8种:最短距离法;最长距离法;中间距离法;重心法;类平均法;可变类平均法;可变法;离差平方和法。,实例7, 研究问题 对一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩和入学考试的成绩。数据如表9所示。,实例8,
8、 研究问题 对一个班同学的各科成绩进行聚类,分析哪些课程是属于一个类的。聚类的依据是4门功课的考试成绩,数据如表8所示。,实例9, 研究问题 为研究不同公司的运营特点,调查了15个公司的组织文化、组织氛围、领导角色和员工发展4方面的内容。现要将这15个公司按照其各自的特点分成4种类型,数据如表8所示。,5 判别分析,判别分析方法最初应用于考古学, 例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等. 近年来, 在生物学分类, 医疗诊断, 地质找矿, 石油钻探, 天气预报等许多领域, 判别分析方法已经成为一种有效的统计推断方法。 判别分析是一种在一些已知研究对象用某种方法已经分成若干类的情
9、况下,确定新的样品的观测数据属于哪一类的统计分析方法。,为了能识别待判断的对象x = (x1, x2, xm)T是属于已知类A1, A2, Ar中的哪一类? 事先必须要有一个一般规则, 一旦知道了x的值, 便能根据这个规则立即作出判断, 称这样的一个规则为判别规则(用于衡量待判对象与各已知类别接近程度的方法准则)。 判别规则往往通过的某个函数来表达, 我们把它称为判别函数, 记作W(i; x). 常用的方法有:距离判别法、Fisher判别法、贝叶斯判别法、逐步判别法。,判别分析的步骤,Step1:进行分类Step2:根据原则建立判别函数Step3:确定判别准则Step4:检验判别效果Step5
10、:将待判样本归类,实例10, 研究问题 调查了15个公司的组织文化、领导角色和员工发展3个方面内容作为预测变量,因变量为公司对员工的吸引力。为符合研究问题,将公司对员工的吸引力根据被测的实际填答情形,划分为高吸引力组(group=1)、中吸引力组(group=2)和低吸引力组(group=3)。数据如表12所示。,实例11,类别 国家 寿命(X1) 成人识字率%(X2) 调整后GDP(X3)1 美国 76 99 5374 1 日本 79.5 99 53591 瑞士 78 99 5372 1 阿根廷 72.1 95.9 5242 1 阿联酋 73.8 77.7 5370 保加利亚 71.2 93
11、 4250 2 古巴 75.3 94.9 34122 巴拉圭 70 91.2 33902 格鲁吉亚 72.8 99 2300 南非 62.9 80.6 3799待判样品: 中国 68.5 79.3 1950 罗马丽亚 69.9 96.9 2840 希腊 77.6 93.8 5233 哥伦比亚 69.3 90.3 5159自己试着输入数据,并且判断下面四个国家的归属?,6 主成分分析,假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介绍公司状况,你能
12、够把这些指标和数字都原封不动地摆出去吗? 当然不能。你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。,每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。在引进主成分分析之前,先看下面的例子。,100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综
13、合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题,一般来说,我们希望这些主成分能够反映原始变量的绝大部分信息(它们通常表示为原始变量的某种线性组合),并具有最大的方差。,7 因子分析,因子分析模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。 因子分析的思想始于1904年Charles Spearman对学生考试成绩的研究。近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用于心理学、医学、气象、地质、经济学等各个领域
14、,也使得因子分析的理论和方法更加丰富。,因子分析有如下特点。 (1)因子变量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少分析中的计算工作量。 (2)因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。,(3)因子变量之间不存在线性相关关系,对变量的分析比较方便。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。,英国统计学家Moser Scott在1961年对英国157个城镇发展水平进行调查时,原始测量的变量有57个,而通过因子分析发现,只需要用5个新的综合变量(它们是原始变量的线性组合),就可以解释95%的原
15、始信息。对问题的研究从57维度降低到5个维度,因此可以进行更容易的分析。,因子分析有两个核心问题:一是如何构造因子变量;二是如何对因子变量进行命名解释。因子分析有下面4个基本步骤。 (1)确定待分析的原有若干变量是否适合于因子分析。 (2)构造因子变量。 (3)利用旋转使得因子变量更具有可解释性。 (4)计算因子变量的得分。,实例12, 研究问题 表13所示为20名大学生关于价值观的9项测验结果,包括合作性、对分配的看法、行为出发点、工作投入程度、对发展机会的看法、社会地位的看法、权力距离、对职位升迁的态度、以及领导风格的偏好。,因子分析与主成分分析的区别与联系,因子分析、主成分分析都是重要的降维方法(数据简化技术),因子分析可以看作是主成分分析的推广和发展。 主成分分析不能作为一个模型来描述,它只能作为一般 的变量变换,主成分是可观测的原始变量的线性组合;因子分析需要构造因子模型,公共因子是潜在的不可观测的变量,一般不能表示为原始变量的线性组合。因子分析是用潜在的不可观测的变量和随机影响变量的线性组合来表示原始变量,即通过这样的分解来分析原始变量的协方差结构(相依关系)。,