1、现代教育与心理统计技术,心理统计软件应用,2 课程内容介绍,数据的输入和保存统计图表 差异量数 集中量数 相关分析 统计估计 假设检验回归分析方差分析因子分析聚类分析判别分析,描述统计,推论统计,实验设计,内容版块,第一讲 数据的输入和保存,1 SPSS的界面,2 数据文件的建立,1.1 定义变量(点击),2 数据文件的建立,1.1 定义变量 定义“测量”(变量的种类): 尺度变量:包括定距变量或定比变量可测量的、有测量单位的变量。根据有无绝对零点,定量变量又可分为定距变量和定比变量两种。定距变量没有绝对零点,而定比变量有绝对零点。 定序变量:又称等级变量,是用数字表示个体在某个有序状态中所处
2、的未知(层次、水平)的变量。例如:我们可将成绩定义为三个等级,1(优秀);2(良好);3(一般) 定类变量:又称类别变量。如:性别(男、女),2 数据文件的建立,1.2 数据输入目前常用的为直接输入法和从其他数据文件中读入数据的方法。这里主要介绍从Exel文件中读入的方法。击选下的,选择,出现对话框,将文件类型选择为Exel(*.xls),打开相应的Exel文件即可。,练习: 1、请将教材P300-P301中的图A-9,A-10中的数据建立为两个不同的文件名,名称分别为a1-1.sav,a1-2.sav。 2、建立一个名为a1-1.xls的数据文件,并将其转换为SPSS格式的文件。,2 数据文
3、件的建立,1.3 文件合并(Merge Files)文件合并可分为增加样品,例如将两个班的相同科目的考试成绩合并在一起,另一种是增加变量,例如将同一个班的语文成绩和数学成绩合在一起。 1.3.1 增加样品(Add Cases) 操作步骤:(1)首先打开一个数据文件成为当前文件。(2)击选的下的命令,打开对话框,选定要合并的外部文件并打开。此时将出现对话框。如图所示。(讲解其他的特殊条件下的使用)(3)按按钮,产生新的数据文件。见P302练习:将文件a1-1.sav与a1-2.sav两个文件合并。,1.3.2 增加变量 操作步骤:打开一个数据文件成为当前文件。击选的下的命令,选定要合并的外部文件
4、并打开。合并的文件请注意保存。练习:将教材P300-P301中的图A-13,A-14中的数据建立为两个不同的文件名,名称分别为a2-1.sav,a2-2.sav。然后将两个按照相同的序号进行合并,并生成一个新的文件a2-3.sav保存。,1 进一步整理数据文件-菜单,在许多情况下,我们需要先对数据进行一些整理(如分组、合并、加权等)才能将其用于最终的统计分析。这些功能基本上都集中在菜单项中,下面我们就对这些对话框做逐一介绍。,第二讲 数据的预分析,1.1 用于数据管理的菜单项,1.1.1 “对个案排序”对话框,主要用于对数据排序。,例2.1 对数据集anxiety.sav按“焦虑”按升序进行排
5、序,“分数”按降序的次序排序。 解:选择菜单=对个案排序,系统弹出个案排序对话框,该对话框并不复杂,其中比较特殊的是下方的排序方式单选钮,有升序和降序两种选择。请注意,该单选钮是和上方的选择框一起使用的,具体方法如下: 确认升序单选钮被选择,将焦虑选入选择框; 选择降序单选钮,将分数选入选择框。 请注意:焦虑和分数后面分别跟着升序和降序,表明前者是按升序、后者按降序排列;由于分数在前,因此排序时以分数优先。,1.2 选择个案对话框,很多时候我们不需要分析全部的数据,而是按某种要求分析其中的一部分(比如只分析男性的身高或者只对前200个数据进行分析以了解大概情况等等),这时使用选择个案 对话框可
6、以大大简化工作。 该对话框界面如下所示:,其中主要的对话框元素为:全部个案单选钮:和下面的4个单选钮为一组,选中它则分析所有的记录; 如果条件满足单选钮:只分析满足条件的记录;按钮:和如果单选钮一起使用,单击后弹出如果对话框; 随机个案样本单选钮:从原数据中按某种条件抽样;按钮:和样本单选钮一起使用,可以设定按百分比抽取记录,或者精确设定从前若干个记录中抽取多少个记录; 基于时间和个案全距单选钮:基于记录序号来选择记录;,使用筛选变量单选钮:使用筛选指示变量来选择记录,必需在下面选入一个筛选指示变量,该变量取值为非0的记录将被选中,进入以后的分析; 筛选单选钮:和下面的删除单选钮为一组,表示未
7、被选中的记录只是被隔离,这些记录的记录号会被加上斜杠以示区别; 删除单选钮:未被选中的记录将被删除,一般不要使用。 当对数据集做出筛选后,所做的筛选将在以后的分析中一直有效,直到再次改变选择条件为止。同时在多数情况下,系统会自动产生一个名为filter_$的筛选指示变量,被选中的记录该变量取值为1,反之则为0。,1.3 分类汇总分类汇总对话框,用于对数据进行分类汇总,所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量值求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。,上图中各个零件的含义如下: 分组变量框:用于选择分组变量; 汇总变量框:用于选择被汇总的变
8、量; 变量名和标签钮:用于定义新产生的汇总变量的名称和标签; 函数钮:用于定义汇总函数,共有三组函数,以最常用的第一组为例,可选的函数有均数、同组的第一个观测值、最后一个观测值、同组记录数、标准差、最小值、和、最大值共8个; 将分类组的个案数另存为变量复选框:用于定义一个新变量以存储同组的记录数; 创建新的数据文件单选钮:定义一个新文件以存储汇总的结果,右侧的文件钮用于具体文件名的定义,默认文件名为AGGR.sav; 替换当前数据文件单选钮:用汇总的结果替换原来的数据。练习:试将anxiety.sav文件以焦虑分组统计不同焦虑程度的被试分数的平均分与标准差。,1.4 加权对话框,在默认情况下,
9、每一行就是一条记录,这在多数情况下没有什么问题,但有时却非常麻烦,想想看如果你需要计算一个四格表卡方,有100例,如果每一行就是一条记录,你就需要输入100条记录!如果希望在计算过程中利用不同的变量对数据进行加权处理,就需要用到加权对话框。该对话框的使用极为简单,界面上有两个单选钮,分别是不权重记录和用某变量权重记录,如果选择后者,则需要选中一个权重变量。,为了统计需要,有时需要根据已经存在的变量建立新的变量。常用的有计算、重新编码、置换缺失值等。,2 数据转换,2.1 计算对话框这主要用于对原变量通过一定的计算,产生新变量的方法。 例2.2 在carpet.sav中建立新变量temp,令其值
10、当”优选”值大于10时为1,否则为2。,首先给变量temp均赋值为1,然后将优选值小于或等于10的记录其temp变量值改为2即可。 第一步:选择菜单=计算,弹出Compute Variable对话框如下:,左上角为需要计算的变量名,在其中键入“temp”,此时“类型与标签”按钮就会变黑,喜欢精确的朋友可以在这里对temp进行详细的定义;左下方为候选变量列表,现在还用不着;中部为类似计算器的软键盘,可以用鼠标按键输入数字和符号,这里我们直接输入“1”,输入的内容回立刻在右上方的数值表达式窗口中出现;软键盘右侧为函数窗口,可以在这里找到并使用所需的SPSS函数;这次也用不到。好,现在“OK”按钮已
11、经变黑,单击他,系统就会自动生成一个新变量temp,并且取值均为1。,第二步,再次选择菜单转换=计算,系统也再次弹出这个对话框,将数值表达式窗口中的1改为2,然后单击中下部的“如果”按钮,系统弹出记录选择对话框如下:,第三步,选择“如果个案满足条件则包括”,将优选选入选择框,选择小于或等于10,按继续,最后按确定。,练习:试选择一个数据文件,对某一变量进行计算生成另一变量。,2.2 重新编码,重新编码对话框用于从原变量值按照某种一一对应的关系生成新变量值,可以将新值赋给原变量,也可以生成一个新变量。 例2.3 在carpet.sav中生成新变量temp3,当优选值小于5时取值为1,520时取值
12、为2,大于20时取值为3。 解:选择菜单转换=重新编码=成不同变量,,1、输出变量框:选入优选 2、输出变量名称框:键入temp:单击更改钮 3、选中优选-temp:单击旧值与新值钮: 4、全距: 从最小值到:键入5:新值单选钮:键入1:单击添加钮 5、全据: 到单选钮:两侧分别键入5、20:新值单选钮:键入2:单击添加钮 6、全据:所有其他值单选钮:新值单选钮:键入3:单击添加钮 7、单击继续 8、单击确定。,进入重新编码为其他变量的窗口,进一步的操作步骤:,1、输出变量框:选入优选 2、输出变量名称框:键入temp:单击更改钮 3、选中优选-temp:单击旧值与新值钮: 4、全距: 从最小
13、值到:键入5:新值单选钮:键入1:单击添加钮 5、全据: 到单选钮:两侧分别键入5、20:新值单选钮:键入2:单击添加钮 6、全据:所有其他值单选钮:新值单选钮:键入3:单击添加钮 7、单击继续 8、单击确定。,2.3 排名次,例2.4 请分组计算a5.sav文件中语文和数学的名次。 解:选择菜单转换=排名次,弹出排名次对话框,2.3 排名次,2.4 置换缺失值对话框,用于填充缺失值,结果存入一个新变量。填充方法有:序列的均数、相邻若干点的均数、相邻若干点的中位数、线性内插、线性外延,默认值为序列的均数。练习:将a5.sav文件建立一个新的数据缺失行,然后将语文和数学的值替换为序列的均数。,第
14、三讲 基础统计,1、描述统计:如频数分析、集中量数和标准量数的计算、相关分析等。2、推断统计:如参数估计、假设检验。3、实验设计:回归分析、方差分析、因子分析等。,1、描述性统计分析,1.1 的特色是产生频数表(P38-43) 1.2 过程进行一般性的统计描述(P44-46) 1.3 过程用于对数据概况不清时的探索性分析; 1.4 过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的卡方检验也在其中完成。,描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在菜单中,最常用的是列
15、在最前面的四个过程:,1.1 频率,1、输入教材P39页表2-1的数据,建立一个名为A2-1的数据库。第1列定义变量名为“性别”,用“ 1”表示“男”,用“2”表示“女” 2、击选 -描述统计-频率 3、选中变量,将其选入框中 4、单击按钮,在打开的对话框中,击选下的所有选项;击选下除了以外的选项 5、单击继续 6、在对话框中单击按钮,在打开的对话框中,击选下的(多用于离散型变量)或(适合对整体的比率分配左图)或(使用与连续变量) 7、单击确定。,1.2 描述统计,1、击选 -描述统计-描述 2、在打开的对话框中将指定为 3、击选 4、在打开的对话框中,击选下的所有选项;击选下除了以外的选项
16、5、单击按钮,击选相关的统计量。 6、单击确定。频率和描述命令都能计算各种统计量,各自的主要特点是,频率分析可以作图,而描述则可以在数据窗口产生标准化变量。,1.3 卡方检验(P85),相关公式:理论次数的计算:每一频数(所在行的频数所在列的频数)/总频数 自由度的确定:(R1)(C1) 配合度检验: 1.提出假设:H0:fofe; H1:fofe 2. 计算2值 3 .确定2检验的自由度,查找相应的临界值。 4、将2值与相应的临界值比较,作出结论。如果2值与临界值有显著差异,则支持H1,反之则支持HO。,1.3 卡方检验,例解: 1、打开数据库“卡方检验”。同P86表3-6。 2、击选 -描
17、述统计-交叉表 3、在打开的对话框中将指定为行,将定义为列。 3、击选,选中和下面的有关选项。 4、击选,选择下的“观察值”和“期望值”。 5、单击确定。,1.4 相关分析,在数据分析中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,此时常用的一种方法是用相关分析。通常用r表示。两个变量间的相关系数是1至1之间。如果变量Y随着变量X的增、减而增、减,即变化的方向一致,这种相关称为正相关。如果变量Y随着变量X的增加而减少,则称为负相关。 SPSS的相关分析功能被集中在菜单的相关子菜单中,他一般包括以下三个过程:,(1)
18、双变量分析过程: 此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。这是相关子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的95%以上。 (2) 偏相关分析过程: 如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。 (3) 距离相关分析过程: 调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。,(1)积差相关:适用条件:
19、两个变量都是连续数据;两变量总体都为正态分布;两变量之间为线性关系;成对数据,样本容量要大。 (2)Spearman和Kendalls tau-b相关:属于非参数检验的方 法。其中以spearman等级相关使用较多。 spearman等级相关适用于两个以等级次序表示的变量,并不要求两个变量总体呈正态分布,也不要求样本的容量必须大于30。 当连续数据不能满足计算积差相关的条件时,可以转换成等级数据从而计算斯皮尔曼等级相关系数。,积差相关系数的原始数据计算公式,斯皮尔曼等级相关系数的计算,斯皮尔曼等级相关系数表示为rR,其计算公式为:,公式中:RX为变量X的等级数,RY为变量Y的等级数, D为两变
20、量的等级数之差,即D=RX-RYn为样本的容量,关于相关系数统计意义的检验,由于我们通常采用抽样的方法,利用样本研究总体的特性。由于抽样误差的存在,样本中两个变量间相关系数不为0,不能说明总体中这两个变量间的相关系数不是0,因此必须经过检验。检验的零假设是:总体中两个变量间的相关系数为哦。SPSS的相关分析过程给出该假设成立的概念。常用的公式如下:该公式是Pearson和Spearman相关系数假设检验t值的计算公式。其中,r是相关系数,n是样本观测个数,n2是自由度,当tt0.05(n2)时,P0.05,拒绝原假设,否则接受原假设,即认为总体两变量的相关系数为0。,双变量相关分析(例:032
21、8),【变量框】:用于选入需要进行相关分析的变量,至少需要选入两个。 【相关系数复选框组】:用于选择需要计算的相关分析指标,有: Pearson复选框 选择进行积距相关分析,即最常用的参数相关分析 Kendalls tau-b复选框 计算Kendalls等级相关系数 Spearman复选框 计算Spearman相关系数,即最常用的非参数相关分析(秩相关) 【显著性检验单选框组】:用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。 【标记显著性相关】:用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P0.05的系数值旁会标
22、记一个星号,P0.01的则标记两个星号。 【选项钮】:弹出Options对话框,选择需要计算的描述统计量和统计分析: Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。,肯德尔和谐系数的计算公式,公式中:表示肯德尔和谐系数K表示等级评定者的数目,即变量数n为被等级评定的对象的数目R为被评定对象获得的
23、K个等级之和SSR为R的离差平方和,即,( 5-10a ),肯德尔和谐系数(P90-93),肯德尔和谐系数,操作流程: 1、建立数据库,切记一个被评对象为一列数据(相当于变量),一个评分者一行数据(相当于样品)。2、选择的下的命令。3、击选需要的选项,按确定。注:如果数据是按通常的编排输入的,则使用下的命令可将原始数据行列转换。,转置对话框,该对话框用于对数据进行行列转置,可以在原数据文件中指定一个变量记录转置后的变量名。原变量名则自动保存在系统产生的名为case_lbl的字符变量中。 该对话框也非常简单,左侧为候选变量框;右上方为Variable框,用于选入需要转置的变量,一般应选入除名称变
24、量外的所有其他变量,如果有变量未选入,则转置时会被自动丢弃;右下方为Name Variable框,用于指定原数据文件中记录转置后变量名的字符变量,但不是必需的,此时系统会将新变量自动按var001、var002.的顺序命名。,信度是指一个量表在相同的条件下重复施测,或两个“等价量表”对同一组被试施测时,所得结果的稳定性或一致性的大小。在经典真实分数模型的假设下,考生在某量表上的实测分数是:X=TE在这一真实分数模型下,可推导出量表的信度为:其中 为被试总体上真实分数方差, 为实测分数方差。由于 实际上求不出,于是人们提出“平行量表”的假设,由此假设导出信度公式:,相关的应用:量表的信度分析(P
25、93101),相关的应用:量表的信度分析(P93101),是两个平行量表的实测分数之间的皮尔逊相关系数。一般来讲,严格意义上的平行量表不易获得,所以人们想出了各种方法去近似地生成“平行量表”,这样就得到了不同的估计信度的方法,常见的方法包括分半信度和Alpha( )系数。 (1)分半系数:在编制量表时,有意将它编号写成由两个尽量平行的子量表组成的一个完成量表,例如偶数序号题属于子量表1,奇数序号题属于子量表2,这样可以求出皮尔逊相关系数 。但是由于量表长度(项目数量)对信度的大小有一定影响,采用分半系数求信度,计算的 会低估整个量表的信度,因而需要矫正。计算公式见P96 公式3.20 (2)A
26、lpha系数:是最常用的信度系数,适用于二值计分和多重计分测验。公式见P97公式3.213.22,相关的应用:量表的信度分析(P93101),操作流程: 1、建立数据文件,定义变量为“item1”、 “item2”、 “item3”(也可定义为别的名称,但切记变量为各个题目)。 2、击选的下的。 3、在打开的对话框中,将各个变量定义为。 4、击选按钮,在打开的对话框中,击选需要的统计量,按。 5、选择适当的模型,默认为Alpha系数。练习:计算信度.sav的Alpha系数和分半系数。,2、推论统计,2.1 参数估计2.2 假设检验,点估计 点估计是用样本构造一个不含任何未知参数的统计量来估计总
27、体参数,这个统计量称为估计量,相应的观测值称为估计值。通常要估计的总体参数有:均值、方差、标准差、比例、相关系数等。通常是用样本的均值作为总体均值的点估计,用样本方差(标准差)作为总体方差(标准差)的点估计。样本的标准化变换为称为Z分数,在SPSS中产生Z分数的命令是“描述”。,2.1 参数估计,区间估计,以样本统计量的抽样分布(概率分布)为理论依据,按一定概率的要求,由样本统计量的值估计总体参数值的所在范围,称为总体参数的区间估计。 对总体参数值进行区间估计,就是要在一定可靠度上求出总体参数的置信区间的上下限。,区间估计,置信度,即置信概率,是作出某种推断时正确的可能性(概率)。置信区间,是
28、指在某一置信度时,总体参数所在的区域距离或区域长度。显著水平:指估计总体参数落在某一区间时,可能犯错误的概率,用符号表示。P-*SPSS中求置信区间和假设检验用同一个命令一次完成。,区间估计(正态总体均值的置信区间),单个总体均值u的置信区间: 通用公式:两个条件: (1)如果总体方差已知, 查正态分布表置信水平为(1a)/2时的Z分数。 (2)如果总体方差未知, 查t值分布表中置信水平为(1a)/2与相应自由度对应的t分数。但是,需指出,SPSS中默认此时也为,区间估计(正态总体均值的置信区间),两个总体均值差异u1u2的置信区间要注意区分配对样本和独立样本。配对样本是两个样本之间存在一一对
29、应的相关关系,也称为相关样本。独立样本是指两个样本相互独立。 (1)配对样本u1u2的置信度为1a的置信区间的计算公式见P49,公式2.12(2) 独立样本u1u2的置信度为1a的置信区间的计算公式见P50,公式2.13,2.2 假设检验,假设检验是关于总体未知分布的有关假设。采用的是概率性质的反证法。两个假设:H0: H1:,2.2 假设检验,正态总体均值的显著性检验单总体均值的t检验 总体为正态,总体标准差已知:(2)总体为正态,总体标准差未知:,例 计算0328.sav中语文和数学水平测试的平均分是否都是70分? 解: 1、打开文件 2、击选的下的 区间估计示例:某位教师认为他所教的学生
30、其语文成绩平均分一般为70分,某次语文考试随机抽取了他所教的班级中十多名被试,其语文成绩见0328.sav中的成绩,能够根据这次考试的结果否定这位老师的结论?,2.2 假设检验,正态总体均值的显著性检验两个总体均值的t检验(P58) (1)配对样本设:H1: H2: 公式见P58,公式2.21 df为n1。例解:配对.sav操作步骤: 击选选择,将要比较的两个变量选入,2.2 假设检验,正态总体均值的显著性检验两个总体均值的t检验(P58) (2)独立样本假设同上。公式见P59, 公式2.22 df为n1n22例解:0328.sav 操作步骤:击选选择,将要比较的变量选入“检验变量”,对分组变
31、量进行定义。,另: 总体的正态性检验SPSS例解(P61),在心理统计研究中,很多条件有要求总体分布为正态。例如前面已经提及的参数检验,积差相关等等。在此介绍常见的几种检验总体正态性的方法。 (1)作图法击选选择,将要检验的变量选入,选择相应的选项。例解:打开正态分布检验.sav,检验“收入”是否符合正态分布。(2)KS检验:(适用于样本容量大于50的情况)击选选择中的,选择要检验的变量,选择相应的选项,练习同上例。,单因素完全随机方差分析,单因素方差分析表,一般线性模型General Linear Model菜单,一般线性模型可不是用一章就可以说清楚的,因为它包括的内容实在太多了。那么,究竟
32、我们用到的哪些分析会包含在其中呢?简而言之:凡是和方差分析粘边的都可以用他来做。比如单因素的方差分析、多因素的方差分析、重复测量的方差分析、协方差分析等等。因此,能真正掌握GLM菜单的用法,会使大家的统计分析能力有极大地提高。,好了,既然一般线性模型的能力如此强大,那么下属的四个子菜单各自的功能是什么呢?请看: 单变量子菜单:当因变量为一个时,多采用这一方法。因此,这一方法的使用最为普遍。 多变量子菜单:当因变量不止一个时,采用这一方法。 重复度量子菜单:顾名思义,重复测量的数据就要用他来分析;用前两个菜单似乎都可以分析出来结果,但在许多情况下该结果是不正确的,应该用重复测量的分析方法才对。
33、方差成分子菜单:用于作方差成份模型的(这个模型实在太深,不是一时半会说的请的,所以我在这里就干脆不讲了)。,方差分析要求满足的条件: (1)总体服从正态分布。在教育与心理研究领域,大多数变量可以假定总体是服从正态分布的,因此,一般方差分析并不要求检验总体的正态性。 (2)方差齐性,即各组样本所来自的总体的方差相同,这是方差分析的一个重要前提,因此,在进行方差分析之前,应当进行方差齐性检验。,统计分析格式 1 , 0.1 1 , 0.2 1 , 0.3 2 , 0.4 2 , 0.5 3 , 0.6 3 , 0.7 3 , 0.8 3 , 0.9,统计表格格式,单因素完全随机设计的统计分析格式:
34、平时我们多记录成“ 第1组、第2组、第3组. ” 等等,如下表左侧所示。样本含量相等或不等。这种记录格式姑且称为统计表格格式,在各种统计软件中,该数据通用的分析格式如表一右侧所示,我们把这种格式称为统计分析格式。看出来区别了吗?统计分析格式中第一列为“分组变量”,指示所在的组号;第二列为原始数据。现在再回到SPSS等统计软件的菜单去,做单因素方差分析知道怎么选变量了吧!,例题:打开单因素方差分析.sav文件。小学一年级的新生中随机抽取18名学生,随机地平分为三个组,分别用三种识字教学法进行教学,期末汉字识字测验成绩作为教学效果的指标,试分析三种教法的教学效果是否有显著差异。要求绘出结果图,并对
35、结果进行解释。,SPSS操作流程:1、打开数据库,选下的,选择2、选择“教法”为固定因子,“成绩”为因变量。3、单击按钮,在对话框中,击选下的,击选。(也可选择再其它选项)、按返回。4、单击,选择相应的两两比较的方法。各种方法的使用条件见教材P153154。按返回。5、单击。,单因素方差分析,单因素方差分析表,结果陈述:()数据的方差分析表明,()的主效应显著,F(dfA,dfw),p 。 多重比较结果表明,()、()之间差异显著(不显著) 。,课堂作业教材P158,例5.2。要求: 建立一个数据文件,这对数据文件绘出方差分析表,并对结果进行解释。做完后传到FTP。,两因素方差分析设再一个实验
36、中有两个因素,因素A取a个水平,因素B取b个水平,。共有ab个水平处理,考虑完全随机设计,即每个被试只接受一个处理,则可选择两因素方差分析。,单因素随机区组设计(两因素方差分析),单因素随机区组设计(两因素方差分析),无交互作用的两因素方差分析 如何判断有无交互作用? 、单因素随机区组设计无交互作用。因为这里主要关注A因素,区组只是作为一个无关变量来控制。 、直观法:绘制交叉效应AB图。 如何绘制?,单因素随机区组设计(两因素方差分析),无交互作用的两因素方差分析 如何判断有无交互作用? 3. 方差分析检验交叉效应是否显著。 例:单因素随机区组.sav 操作流程: 1、击选 -常规线性模型-单
37、因素 2、选中变量,将其选入框中 3、选中、变量,将其选入框中 4、选择需要的统计量、选择无交互作用的模型。 5、单击继续 6、单击确定。,有交互效应的两因素方差分析,有交互效应的两因素方差分析,例题:两因素完全随机设计.SAV。操作方法与无交互作用的方法基本相同,不同在于“模型”需选择有交互效应的模型。 结果陈述:方差分析表明,()的主效应显著,F(dfA,dfE)=,p=. ()的主效应不显著,F(dfB,dfE)=,p=.交互作用显著。(不显著),F(dfAB,dfE)=,P=.多重比较的()方法表明,()与()差异显著,()()差异不显著。,有交互效应的两因素方差分析,绘制AB图对交叉
38、效应做进一步解释。可在EXEL中绘制。 、将结果表导出至EXEL中。 、将结果改为AB表形式 、选择折线图对结果进行绘制。,作业讲解,存在的问题: 、自由度的写法、表格的绘制、多重比较的解释,小结:,、单因素方差分析与检验的不同当单因素的水平为个时,与检验等价。否则不等价。(示例)、单因素完全随机设计与单因素随机区组设计在被试分配上的不同前者将所选被试随机分配至因素的各个水平。而后者则先将被试按照区组进行分配,然后将各个区组随机分配到因素的各个水平。(示例)、两因素完全随机设计与单因素随机区组的不同前者被试随机分配至各个处理,而后者在区组水平不随机。 、完全随机设计与随机区组设计的相同点所有被
39、试只接受其中一个水平的处理。,练习,、试分析ANOVA1.SAV中,不同污染气体暴露组的存活年龄与肺活量是否存在差异。 、试分析ANOVA2.SAV中,使用不同的药剂和年龄对进食量与所增体重的影响。并分析不同药剂的使用与年龄是否存在交互作用。 、试分析ANOVA3.SAV中,不同药剂使用情况对被试的进食量与所增体重的影响,注意,窝别为区组。 、体会单因素方差分析中数据输入的格式。,重复测量实验设计的方差分析,无论是完全随机设计还是随机区组设计,就某个因素而言,所有被试只接受其中一个水平的处理,这些设计中的因素都属于被试间因素。而重复测量实验设计中,至少有一个因素是被试内因素,即每个被试接受该因
40、素所有水平的处理。当一个实验设计中的所有因素都是被试内因素时,称为被试内设计。当一个实验设计中既有被试内因素,又有被试间因素时,称为混合设计。使用重复测量设计必须满足一个前提,就是当同一被试连续接受若干个处理时,前面的处理对后面的处理没有长期的影响,如学习效应、记忆效应等,不能使用重复测量设计。另外,重复测量要随机安排处理的顺序,避免处理的顺序效应。在自然科学中,重复测量设计应用很少,如水稻的品种和施肥量、被试的性别等等,被试不可能属于两个水平。但在教育和心理实验中,重复测量设计较多使用,其优点是可以用少量被试进行实验,减少被试差异带来的误差。,单因素重复测量实验设计的方差分析,单因素完全随机
41、与重复测量设计分配被试的比较,平方和与自由度分解,以4种文章的生字密度对学生阅读理解的影响的研究为例。假设有名被试,每个被试阅读种生字密度不同的文章,并测他们的各篇文章的阅读理解数。则可将结果分解表示为下表。,单因素重复测量实验的方差分析表,例题:单因素重复测量实验设计.SAV,操作流程: 1、打开文件 2、击选的下的 3、输入变量的名称及级别数(水平数) 4、对变量及其水平进行定义,点击 5、将变量的各个水平依序选入“群体内部变量”框内 6、击选相应的选项 7、点击确定,练习:,试分析单因素重复测量设计(练习).SAV中,不同药剂使用情况对白蛋白减少量的影响。结果:方差分析表明,不同药剂使用
42、情况的主效应显著,F(2,18)=32.79,P.001。对各组进行LCD的多重比较,结果表明,第1、2组药剂使用组之间无显著差异,2、3组药剂使用组之间有显著差异。思考:单因素随机区组设计与单因素重复测量设计的关系。,两因素被试内设计的方差分析,两因素完全随机与被试内设计分配被试的比较 例:假设“生字密度、主题熟悉性对阅读理解的影响”的两因素实验,做次重复实验,如果采用被试内设计,只需个被试,而完全随机设计则需要32个被试。注:重复实验与重复测量有何不同?P142见图解。,平方和的分解 SST=SSS+SSA+SSAS(E(A)+SSB+SSBS(E(B)+SSAB+SSABS(E(AB)两
43、因素被试内设计的方差分析表,平方和的分解 SST=SSS+SSA+SSAS(E(A)+SSB+SSBS(E(B)+SSAB+SSABS(E(AB)两因素被试内设计的方差分析表,例:两因素重复测量设计.sav,SPSSS操作流程1、打开相应的文件(数据输入的格式) 2、击选下的下的 3、在打开的对话框中,在右侧输入被试内因素“A”,在右侧输入A的水平“4”,单击“添加”按钮;在右侧输入被试内因素“B”,在右侧输入A的水平“2”,单击“添加”按钮。 4、单击按钮,在对话框中,将-指定为,要注意顺序。 5、选择其他的选项,单击按钮 6、单击按钮。,结果描述,方差分析表明,生字密度的主效应显著,F(3
44、,9)=70.200, P.OO1 ;主题熟悉性的主效应显著,F(1,3)75.000,P.01;交互效应显著,F(3,9)17.264,P.001。采用LCD法进行多重比较,结果表明,对于生字密度,除生字密度1与生字密度2之间无显著差异之外,其余的两两之间均有显著差异。,例:三因素被试内设计.SAV,三因素被试内实验的被试分配A(生字密度)B(文章类型)C(句子长度),结果描述:,方差分析表明,生字密度的主效应显著,F(1,3)=81.667 P.O1 ;文章类型的主效应显著,F(1,3)=51.429,P.05;进行两两和三因素的交互效应分析,结果表明,AB与BC的交互作用显著,分别为F(
45、1,3)=98.00,P.05和F(1,3)=30.00,P.05。三因素的方差分析也显著,F(1,3)=22.615,P.05。,两因素混合设计的方差分析,两因素混合设计被试的分配试分析,上表中有几个因素?各因素水平各有几个?哪个因素是被试内因素?哪个因素是被试间因素?,两因素混合设计的方差分析表,SST=SSB+SSE(B)+SSA+SSAB+SSE(A),例:两因素混合设计.sav,SPSSS操作流程1、打开相应的文件(注意数据输入的格式) 2、击选下的下的 3、在打开的对话框中,在右侧输入被试内因素“A”,在右侧输入A的水平“4”,单击“添加”按钮 4、单击按钮,在对话框中,将-指定为
46、,要注意顺序,将B因素选入因子列表 5、选择“模型”,在跳出的窗口中,将 “b”选入群体间模型,按“继续”。 6、选择其他的选项,单击按钮 7、单击按钮。,小结:实验设计与统计的思路流程,1、首先考虑是采用被试内设计还是被试间设计,因为这直接决定被试的选择。例如,假如是22的两因素实验,如果采用被试内设计,想进行16次重复实验,则只需要16人,而如果采用被试间设计,要进行同样次数的重复实验,则需要416人。假如采用混合实验设计,进行同样次数的重复实验,需要216人。(这点事先就需要考虑清楚) 2、被试的选择需要考虑组与组之间质的平衡,实验处理顺序的平衡。 3、输入SPSS中时,要根据实验设计的
47、类型选择相应的输入格式。如果是被试内设计,则实验处理为变量列,被试在为行。如果是被试间设计,则变量列为变量水平和因变量。 4、根据实验设计的类型选择相应的统计方法,单因素和多因素的被试间设计选取“单变量”;单因素和多因素的重复测量设计和混合设计选取“重复度量”。,回归分析,回归分析研究的主要对象是客观事物变量间的统计关系。它是建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在看起来不确定的现象中的统计规律的统计方法。它与相关分析的主要区别为:一是在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y和变量x处于平等地位。二是相关分析中所涉及的变量y与x全是随机变量
48、;而回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机变量。三是相关分析研究主要是为刻画两类变量间的线形相关的密切程度;而回归分析不仅要揭示因变量y对自变量x的影响大小,还可以由回归方程进行预测和控制。,一元线性回归,回归方程:,p106,这里称 或b1为Y对X的回归系数 计算:平均数法、最小二乘法(原理:使 的平方和最小) 最小二乘法的推导,得出b0、b1的计算公式,一元线性回归的基本假设:,1、变量Y与X为线性关系:X与Y在总体上具有线性关系。 2、正态性假设:指回归分析中的Y服从正态分布,这样,与某一个xi对应的Y值构成变量Y的一个子总体,所有这样的子总体都服从正态分
49、布。各个子总体的方差都相等。 3、独立性假设:独立性假设有两个意思。一个是指某一个X值对应的一组Y值与另一个X值对应的一组Y值没有关系,彼此独立。另一个是指误差项独立,不同的X所产生的误差之间应相互独立,无自相关,而误差项也需与自变量X相互独立,而误差项也需与自变量X相互独立。 4、误差等分散假设:特定水平的误差,除了应呈随机化的常态的常态分配,其变量量也应相等,称为误差等分散性。,等分散性假设图示,例:一元线性回归.sav,SPSS分析流程: 1、打开相应的文件 2、首先画出数据散点图看因变量与自变量是直线关系还是曲线关系,如果是曲线关系,则要做曲线回归,或将数据转换后的数据做直线回归分析,再将结果转换回曲线方程。P118-119 3、单击选择,将自变量与因变量选入相应的位置。 4、选择需要的统计量和图,单击按钮。,