1、第十一章 概化理论,教育科学学院 于泽 邮箱:,考研大纲,概化理论 1方差分量的估计 2概化系数与可靠性指数 3G 研究与D 研究,概化理论简介,一、产生的背景 二、基本原理及概念 三、总结,一、概化理论产生的背景,经典测验理论(Classical Testing Theory, 简称CTT)存在的问题: 在经典测量理论中信度是一组测验分数中真分数方差与观察分数方差的比率,由于误差本身无法直接测量经典测量理论在实际运用中是依据信度操作定义和相关的方法来求解信度系数的,这种方法求解的信度系数往往随测量设计的不同而不同,误差难于控制,也不能有效地分离误差的来源。而事实上,误差变异并非单一的结构,经
2、典测量理论对误差来源的笼统划分与控制成为它在实际应用中最为突出的缺陷。 严格平行测验假设难以真正满足,即要求子测验在内容、均数、变差、信效度方面完全相同。这在实际的测验情景中很难满足。,针对经典测量理论的上述两个缺点,Cronbach,Gleser,Nanda,Rajaratnarn (1972)率先提出了概化理论的基本框架,运用ANOVA(analysis of variance)或MANOVA(multipleanalysis of variance)对方差或协方差分量(variance and covariance component)分解的方法,将测验情景中的各类误差进行分解和控制,实
3、现了对经典测量理论的扩展。,概化理论的基本思想是:任何测量都处在一定的情境关系之中,应该从测量的情境关系中具体地考察测量工作,提出了多种真分数与多种不同的信度系数的观念,并设计了一套方法去系统辨明与实验性研究多种误差方差的来源。,二、GT的基本原理和概念,测量目标和侧面 G研究和D研究 侧面的特征与研究设计 小结,1.测量目标和侧面,测量的总方差可以分解为代表目标测量的方差成分和构成误差的种种方差成分 GT把测量者希望测量的那些实体称为测量目标(object of measurement) GT用侧面(facet)这一概念来表示一组特定的测量条件,并称条件的数量为该侧面的水平(level)。测
4、量工作中要加以认识和予应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素,称为测量侧面(Facets of Measurement)。,如学生阅读能力测验,其目的是对学生阅读能力的测量,因此,阅读能力就成为测量目标,除此外试题的水平和评分者等因素也会影响测验的总变异。这两个因素就是测量侧面。这里对学生阅读能力的测量是在双侧面情境的条件下进行的。测量侧面中的单个事例叫侧面的水平,如有两个评分者甲和乙,则评分者这一侧面就有两个水平。,测量侧面又分为随机侧面和固定侧面。随机侧面是指测量侧面中所包含的各水平中是类似水平的随机样本,而非固定不变的侧面,如大规模考试中评分者每次都有可能不同,
5、由这样变化的评分者所组成的测量侧面就称为随机侧面。固定侧面是指在各次实施中测量侧面的所在水平一直保持不变的测量侧面,如标准化的心理测验中测验的项目总是一样,这样的侧面就叫固定侧面。因此,进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差,但却会使测量目标变得更为局限。比如,把阅读理解题定为对科技说明文,这时,所测的特质就不再是一般的阅读理解能力,而是特定的对科技说明文的理解能力了。这样,测验所得的分数就不能再推广到原来那么宽广的范围了。,GT的主要任务就是区分误差的来源,并把误差方差分解成各个具体的方差分量,为控制和减少测量误差提供依据。GT把观察分数的总体方差(tota
6、l variance)分解成测量目标方差、侧面方差、各种交互作用方差,以及交互作用与其他不明的变异来源的混杂(confound)效应的残差方差部分。,返回,2.概化研究(G研究),G研究的目的是为了求出一个测验在各种不同的因素(如时间、主试、测验形式及测验情境等)条件下,在各种不同能力水平上测验得分的方差,并通过对方差的分析,求出该测验的概化系数,测验使用者就可以由测验的观察分通过线性回归的方法而求出相应的总体分。一个测验的概化系数一般有许多个。如果一个测验受到几个因素的影响,而且第i个因素又有mi个水平,则该测验的G研究所需要说明的个数多达个。总之,G研究关心的问题是,在不同条件下被试得分的
7、稳定性以及在两个以上测验形式之间的等值性、测验观察分数之间的等值性等问题,在不同的设计下,概化系数的估计公式不相同,但都需借助于方差分析才能估计。,观察域 研究者设计的测验情境关系及用一定方法采集的测验数据被称为测验的观察领域。,同一测验资料就可能有多种全域分数,概化理论强调,测量目标是具体的,并不是绝对固定不变的。因而全域分数也就不固定,可以有多种。 一方面,当固定侧面时,侧面本身会转化为测量目标的一部分(如对一般阅读理解能力的测量转变为对科技说明文的测量),测量目标要局限化;,另一方面,当测量中考察目的与应用需要改变时,测量目标对象就可能完全转移。比如,当作文考试结果是要对考生作判断时,测
8、量目标就是考生的作文能力,若要把评分严与评分宽的评分者区分开,评分者的能力就成了测量目标,也即测量目标就完全发生了转移。显然,测量目标不同时,标志测量目标的分数也就不同。测量目标在具体关系条件下的分数叫全域分数。这样,有时对同一批测量资料来说,当测量工作的具体关系变化时全域分数也会变。即同一测验资料就可能有多种全域分数。,G研究结果的解释,方差分量的解释绝对解释:根据方差分量的平方根的大小来解释相对解释:各方差分量占总方差的百分比,小结,概化理论是用方差分析的方法来全面估计出各种方差成分的相对大小,并可直接比较其大小。虽然真分数理论也可以分别地估出某一方差成分的大小,如代表试题侧面的内部一致性
9、系数,代表评分者侧面的评分者信度等,正因为是单独估出的,这些值之间不能直接比较,也只有对主效应作估计,而不能对交互作用进行估计。而概化理论却能做到这一点。它既能估计出主效应,也能估计出交互作用效应,并能对各估计值的大小进行直接比较。 在概化理论中,理论估出各方差成分相对大小的过程,叫概化理论的概括分研究阶段或称G研究阶段。,决策研究(D研究),为作决策或解释收集数据 概化理论并不内静止地分析各种误差来源,还要在G研究的基础上,通过实验性研究,进一步考察不同测验设计条件下的概括力系数的变化状况,如固定侧面或增加侧面水平下的变化状况,从而探求到最佳的控制误差的方法,作出最佳的设计决策,从而改进测验
10、的内容、方式方法提供了有价值的信息。这一阶段称作决策研究或称D研究阶段。,D研究的结果解释,两类决策:绝对决策和相对决策 相对误差方差 和 绝对误差方差(二者的区别) 相对误差方差是所有与测量目标有关的交互效应方差之和,绝对误差方差是出了目标主效应以外的所有效应方差之和 概化系数(G系数,或E2 )是测量目标方差与测量目标方差加上相对误差方差之和的比率 可靠性指标(系数)是测量目标方差与测量目标方差加上绝对误差方差之和的比率,返回,3.测量设计,用概化理论进行信度计算,可以根据具体情况进行不同的测量设计。目前主要从侧面的个数、侧面间的关系、侧面和观察全域的关系三个维度上对测量设计进行分类。 依
11、据侧面的个数,可以将测量设计分为单侧面设计、双侧面设计和多侧面设计。单侧面设计(one facet design)指的是测量对象的观察值除了受测量对象本身的系统变异的影响。而由于实际情况中测量情景关系的复杂性,在测量对象本身的系统变异影响之外,测量对象的观察值会受一个以上因素(测量侧面)的影响,这就需要双侧面设计(two facet design),甚至多侧面设计(multiple facet design)的介入。,测量设计根据侧面间的关系可以分为交叉设计(crossed design)、嵌套设计(nested design)和混合设计如图1。,在交叉设计中,某一侧面的所有水平必须在另一个侧
12、面的所有水平下被观察,在图1(a)中评分者行评分,而在嵌套设计中,某一侧面的不同水平可以在另一侧面的不同水平下被观察,在图1中(b)中,评分者1、2只对项目1进行评分,而评分者3、4只对项目2进行评分,评分者侧面嵌套于项目侧面。混合设计(mixed design)则是交叉设计和嵌套设计的结合体,就是设计中既有交叉的部分,也有嵌套的部分。,测量设计根据侧面和观察全域的关系可以分为固定侧面(fixed facet)设计和随机侧面(random facet)设计。所谓固定测面是指观察样本等于观察全域。如高考有数学、语文、英语、综合等几个子测验,这几个子测验构成了可获得的观察全域,所以高考的子测验侧面
13、就是固定侧面。随机侧面是指满足以下两种条件的侧面:(1)观察样本容量(侧面水平数)远小于观察全域的容量;(2)每个观察样本(侧面水平或条件)是随机地从观察全域中挑选出来的,即观察全域中未被挑选为观察样本的观察可以同等程度地替换观察样本4。正因为有随机侧面的存在,概化理论的数学模型属于一种随机效应模型(random effect model),它所要求的“随机平行测验”的假设也比经典测量理论中的“严格平行测验”更易满足。,侧面的随机或固定,侧面水平数的多少,侧面之间、侧面与被试之间是交叉还是嵌套,共同决定着设计方案的制定。而设计方案不同,两种误差方差和G系数、系数就随之不同。,小结,方差分量的估
14、计 测量的总方差可以分解为代表目标测量的方差成分(要测的心理特质,如阅读能力)和构成误差的种种方差成分(测量侧面即构成测量条件与具体情境关系的因素,如指导语,试题水平)。 因此,对测验进行标准化对是对测量侧面进行固定,比如把阅读内容定位科技文,这时所测的特质就变成了科技文的阅读能力。测量目标在具体关系条件下的分数叫全域分数(就是真分数)。同一测验资料有多种全域分数。,概化系数与可靠性指数 概化系数G和可靠性指数,这两个指数相当于CCT理论中的信度 概化系数G=测量目标方差/(测量目标方差+相对误差方差) 可靠性指数=测量目标方差/(测量目标方差+绝对误差方差) 相对误差方差是所有与测量目标有关
15、的交互效应方差之和,绝对误差方差是出了目标主效应以外的所有效应方差之和,GT的整个研究过程: 概化理论分析的具体过程(以双侧面交叉设计模型为例)【例子是一种情境关系】 一个有几个元素的测验目标;两个测验侧面,以及它们的若干个水平。交叉设计是指,测验目标的每一个元素都要接受所有水平组合的处理。(运用方差分析),第一步:G研究(估计出各种效应的期望均方就可以了)【就是找到各种潜在的误差来源,算出方差分量】 第二部:D研究(根据G研究的结果做出决策)【运用G研究提供的方差分析结果估计各种可能的设计方案相应的误差方差和G系数或系数,对各种调整了测验情境的关系进行分析,优选测验方案】,返回,三、总结,经
16、典测验理论、概化理论与项目反映理论 1 传统的CTT又称为真分数理论,真分数指在测量中不存在测量误差时的真值或观察值 。2 从深入分析测验误差的来源、结构出发,将来自不同测量条件的误差分解。强调对测验情境关系的考察。3 指出了个体某些特征与个体某种反应类型的概率间的关系。,经典测验理论、概化理论与项目反映理论,CTT对误差来源的笼统划分与控制成为它在实际应用中最为突出的缺陷。CTT的另一个突出的局限在于“严格平行测验”(strict parallel test)的理论假设,即要求子测验在内容、均数、变差、信效度方面完全相同。这在实际的测验情景中很难满足 。 在理论假设上,GT扬弃CTT的“经典
17、平行测验假设”,而代之以“随机平行测验假设”,从而使分析问题的条件较容易得到满足。其次,在具体方法上,GT利用方差分析技术,将测验变异分成几个部分,每个部分对应于特定的误差来源,从而更便于测量误差的控制。最后,GT最显著的特点是强调测量的具体情境,它认为,测量的根本目的并不是为了获得特定条件下的测量结果,而是要以此来推断更广泛的条件下可能得到的测量结果,以寻求最优化的测量设计,改进并指导实际的测量工作。 项目反应理论(Item Response Theory, IRT)IRT 认为个体在测验中的表现决定于他的潜特质或能力。个体的项目反应与其潜特质之间的关系被描述成一种单调递增函数,该函数被称作项目特征函数,用项目特征曲线来表示。IRT 使被试能力的估计不再依赖于特定的测验题目和特定样本,因此受到了个人拟合研究者的广泛重视,推动了个人拟合研究的发展。,