1、1测验效度概念的新发展谢小庆(北京语言大学)摘要:在 1985 年教育与心理测验标准(第 5 版)出版之前,效度研究的核心概念是“效标(criterion )”。效度研究被 视为一种用“效标”对测验的效度 进行证明(verify)的过程,效度研究被视为一种对测验分数做出有效(valid)解释的过程。在 1985 年以后,效度研究的核心概念是“ 证据(evidence )”。效度研究被 视为一种通过积累证据对测验的效度进行支持(support)的过程,效度研究被视为一种对测验分数做出合理(reasonable)解释的过程。关于效度的 这种理解,突出地体现在 1999 年出版的教育与心理测验标准(
2、第 6 版)中。美国教育协会和美国国家教育测量学会共同组织编写的教育测量在业内被称为是“测量领域的圣 经” 。在 2006 年教育测量(第 4 版)出版以后,效度研究的核心概念变为“理由(warrant)” 。效度研究被 视为一种通过构造“理由系统”和“理由网络”对效度所进行的“论证(argument )”,效度研究被 视为一种对测验分数做出可接受的(plausible)解释的过程。本文结合作者在考试实践中的一些体会,介 绍了效度概念的新 发展。关键词:测验 考试 效度考试是一把尺子,被用来测量应考者的能力。这把尺子本身可能存在质量问题。只有达到质量标准的考试才能被应用。效度是刻画考试质量的最
3、重要指标,它反映了考试在多大程度上实现了考试目的。在美国教育研究协会(American Educational Research Association,AERA) 、美国心理学会(American Psychological Association,APA )和美国国家教育测量学会(National Council on Measurement in Education,NCME)共同制定的教育与心理测验标准(Standards for Educational and Psychological Testing) 12和美国教育协会(American Council on Education
4、)和美国国家教育测量学会共同组织编写的、被人们称为“教育测量领域的圣经 ”的教育测量(Educational Measurement) 34中,首先讨论的都是考试的效度问题。一、 效度概念的历史演变考试是一把尺子。这把尺子的准确性,需要靠另一把尺子来检验。这“另一把尺子” ,就是“效标(criterion) ”,或“标准” 。在招生名额有限的情况下,当我们准备将一项测验(如手指速度测验或注意力测验)作为“打字员培训班”的招生考试时,我们可以对这项测验的有效性进行检验。我们可以计算经过一个月培训后的学员的打字速度与测验分数之间的相关。如果存在显著的相关,我们可以说这项测验是有效的。这时,经过一个
5、月培训后的打字速度就是“效标” 。2早期的效度研究是围绕“效标”展开的。例如,作为美国高考的学术评估测验(SAT) 的主要效标是大学第一年各科考试成绩的平均,英语 TOEFL考试的效标是英语教师对学生英语水平的评价,汉语水平考试(HSK)的效标是汉语教师对学生汉语水平的评价。在教育部考试中心的资助下,笔者曾经进行过一次关于语文高考的效度研究,采用了 4 种效标:高中成绩,高中任课教师对学生语文水平的评价,高中同学之间的互相评价,大学第一学年的各科成绩平均。 8受国家公务员局委托,笔者曾经对若干年的中央机关公务员录用考试进行效度研究。研究所采用的最主要效标是考生的学历,划分为大专、本科、硕士、博
6、士等几个等级。大学中由任课教师命题的、监管并不严格的课程考试成绩真的比顶尖专家命题的、严格监管的高考成绩更可信吗?真的可以被作为效标去检验高考成绩吗?如果以“学历”作为效标来检验公务员录用考试的成绩,高学历就一定是高能力吗?为什么不直接根据学历来录用公务员呢? “效标”被用来对考试的质量进行检验。在许多情况下,这些效标很容易受到质疑。心理测量学家们发现, “效标”只能在很有限的领域内为测验提供有说服力的效度检验,更多的情况下则是捉襟见肘,难以自圆其说。于是,他们尝试着为“效标”配备了两个助手,一个的名字叫“内容(content) ”,另一个的名字叫“构念(construct ) ”。在可疑的“
7、效标”显然靠不住的时候,心理测量学家说,测验可以是特定知识内容总体的一个代表性样本。只要我能够证明我编制的测验是特定知识内容总体的具有代表性的样本,我就可以说我的测验是有效的,说它具有“内容效度(content validity) ”。例如,高考语文考试可以是中学语文教学内容总体的一个代表性样本。“内容效度”面临双重挑战。首先,我需要证明我编的高考语文试卷是中学语文教学内容总体的一个代表性样本。这并不容易。 “中学语文教学内容总体”本身就是一个充满争议的话题。关于什么是“语文” ,1949 年以来已经争论了60 多年。基本观点有 4 种。一是语言和文字。二是语言和文学。 “唐初四杰”是哪几人?
8、过秦论的作者是谁?红楼梦的主题思想是什么?阿 Q 正传的主题思想是什么?小桔灯采用的是什么描写手法?这些,属于文学问题,不属于语言和文字的范围。三是语言和文化。中国人结婚穿红而不穿白,中国人责“无后”为“不孝之最” ,这些属于中华文化。四是语言和人文。礼义廉耻,仁义礼智信,这些属于“人文” 。根据“语言和人文”的观点,语文还应该包含教化,包含品德教育,包含价值观。语文界的前辈叶圣陶、吕叔湘、张志公等,基本持“语言和文字”的看法。今天,在我国语文教学界最有影响的一批权威人物则持“语言和人文”的看法。 “总体”的边界都不清楚,怎么证明你编的测验是具有代表性的样本?其次,即使我能够证明我的测验是具有
9、代表性的样本,我还需要继续证明那些掌握了“中学语文教学内容总体”的考生更有可能在包括数学系、物理系、生物系在内的大学学习中具有优势。近年来,人们常常提到“钱学森之问” ,追问“为什么中国的大学培养不出杰出人才” 。我还需要继续证明,我编制的作为“中学语文教学内容总体”代表性样本的语文高考试卷,确实可以向那些潜在的“杰出人才”倾斜。显然,这是比证明我的试卷具有取样代表性更困难的任务。当主将“效标”和助手“内容”都招架不住的时候,心理测量学家就只好以3另一个助手“构念”来搪塞。他说,虽然我无法证明我的考试具有“效标关联效度”和“内容效度” ,但我的考试具有“构念效度” 。 “构念效度”成了一个“筐
10、” ,所有无法得到效度证明的考试都可以往里面装。据说, “语文能力”是一个“构念” ,这个“构念”可以用考试来界定,这些界定“构念”的考试具有“构念效度” 。关于“构念效度”虚弱的逻辑基础和循环论证,讨论的文章已经很多,不再赘述。正是由于认识到原有效度概念框架的脆弱,心理测量学家们开始尝试构造新的效度研究范式(Paradigm) 。这种努力,体现在 1985 出版的教育与心理测验标准(第 5 版) 1中,在 1989 年出版(1993 年修订)的教育测量(第3 版) 4和 1999 年出版的教育与心理测验标准(第 6 版) 2中,得到比较完整地阐述。在新的研究范式中,不再将效度划分为效标关联效
11、度、内容效度和构念效度。 “构念”被用来定义效度概念。 “构念”被定义为:“测验所要测量的概念或特性(the concept or the characteristic that a test is designed to measure) ”。(AERA,1999,第 173 页) 。所谓效度,就是测验对构念进行测量的有效程度。从此, “构念效度(construct validity) ”这一短语对于效度来讲已经成为多余(redundant) ”。 (AERA, 1999,第 174 页) 。随着 “构念效度”退出历史舞台,“构念”走到了舞台的中心。在新的研究范式中, “证据(evidenc
12、e) ”取代效标成为效度研究的核心概念。效度研究被视为一种通过积累“证据”对测验的效度提供支持(support)的过程,效度研究被视为一种对测验分数做出合理(reasonable)解释的过程。在教育与心理测验标准(第 6 版) 中,提出了支持考试效度的 5 个方面的证据:基于内容的证据(evidence based on content);基于反应过程的证据(evidence based on response processes);基于内部结构的证据(evidence based on internal structure);基于与其他变量之间关系的证据(evidence based on
13、relations to other variables);基于测验结果的证据(evidence based on consequences of testing)。 29这时,效度研究的逻辑是,虽然我不能“证明”我的考试是有效的,但我可以用尽可能多的“证据”去支持我的考试。尽管我不能确认某项考试一定有效,但我可以从互相竞争的考试中选择得到更多证据支持的考试,我可以根据效度研究结果做出合理的选择。在 2006 年出版的教育测量(第 4 版) 中,将这种效度研究范式称为基于构念效度研究之上的“一元化效度模型(construct validation as the basis for a unif
14、ied model of validity) ”。 (Brennan,2006,第 21 页)在考试实践中,这种效度研究范式继续受到挑战,继续遭到质疑。人们发现,仅仅靠作为证据的“事实(fact) ”或“可观察行为(observable behavior) ”并不足以对测验效度提供足够的支持。只有当“证据”与一些预设的“假设”结合在一起时,才能对测验提供支持。在考试领域中的一个重要的效度研究案例是美国教育测验服务中心(ETS )关于客观性选择题和主观性作文题的比较研究。选择题能否被用于考查写作能力?上世纪 50 年代初,在美国语文教学界曾经存在激烈的争论。为此,ETS从 1954 到 1957
15、 年进行了一项长达 3 年的实证研究。ETS 对英文写作水平考试 (English Composition Achievement Test ,简称 ECT,全部是选择题) 、 普通写作测验 (General Composition Test, 简称 GCT ,两小时的作文考试)和4学习能力倾向测验 (Scholastic Aptitude Test,简称 SAT, )的言语部分(全部是选择题)等三个考试进行了比较研究。采用的效标是语文教师对学生作文水平一年或一年以上的观察结论。1957 年,ETS 公布了他们的研究成果: SAT的效度最高,与语文教师基于长期观察对学生写作能力做出的主观评价最
16、一致。其次是由客观性试题组成的 ECT,最差的是由作文题目组成的 GCT。 5 正是由于这一项研究,才使其后的 40 年中客观性选择题成为美国语言能力测试的主要题型。这是一项关于选择题效度的研究。支持选择题效度的“证据”或“事实”是:选择题与效标之间的相关最高。要想从这一证据得到“选择题优于作文题”的结论,需要一系列的假设。最主要的假设是:任教一年的语文教师对学生的写作能力的评价是有效的。同时,还包含假设:选择题的命题人与作文题的命题人具有相同的水平;作文题的评分人是合格的,可以给出正确的评分;任教一年的语文教师具有正确评价学生写作水平的能力;他们给出的评价具有可比性;他们的评价是认真负责的。
17、显然,只有基于这一系列假设之上, “相关最高”的“证据”才能对选择题的有效性提供支持。这些假设都是可能受到质疑的。为了使结论具有说服力,需要回应这些质疑,需要对这些假设进行论证,有时候需要展开进一步的研究。对这些假设论证得越充分,结论越具有说服力。正是由于认识到仅仅凭借“证据”或“事实”不足以对考试效度提供支持,测量学家在效度研究中引入了基于非形式逻辑的图尔敏(Toulmin)论证模型中的概念“理由(Warrant) ”。 (Brennan,2006,第 27 页) 在“理由”中,不仅包含“证据” ,还包含“假设” 。 “证据”和“假设”共同构成了“理由” 。这时,效度研究不再是仅仅靠“证据”
18、去“支持(support) ”考试的效度,还需要靠“理由”去“论证(argument ) ”考试的效度。在 教育测量(第 4 版) 中,“理由”成为效度研究的核心概念。效度研究被视为一种通过构造“理由系统”和“理由网络”对效度所进行的“论证” ,效度研究被视为一种对测验分数做出可接受的(plausible)解释的过程。新的范式将效度研究视为考试的支持者与考试的反对者之间的一场辩论。支持者努力为考试的效度辩护,反对者对考试的效度提出种种质疑。通过辩论,一方面为考试赢得更多的支持,拓展更多的应用领域,另一方面,界定考试的应用范围,避免考试分数的误用。二、 效度论证的基本过程在新的效度研究范式中,效
19、度研究不再是简单的计算测验分数与效标之间的相关,也不再是简单地收集证据或事实,而是一个持续的、层层深化的、无止境的研究过程。新的效度研究范式主要借鉴了图尔敏论证模型。在图尔敏的模型中,包含了资料(datum,D) 、必要条件(backing,B) 、理由(warrant,W) 、限定(qualifer,Q) 、例外(exception,E)和结论(claim,C )等 6个基本要素。论证的基本过程是:资料(D)和必要条件(B)共同构成了理由( W) ,在接受了例外(E)的反驳之后,经过限定(Q) ,使结论得以成立。图1给出了效度论证的基本过程。5图 1 效度论证的基本过程以高考语文考试的效度论
20、证为例。资料是实证研究结果:高考与大学一年级各科平均成绩具有显著相关。必要条件是:大学中的课程考试成绩可以反映出学生的大学学习水平,研究样本具有足够的代表性,大学课程考试的评分是公正的,高考中不存在作弊现象,大学课程考试中不存在作弊现象,。资料与必要条件共同构成了理由。结论是:高考语文考试对于预测大学学习表现是有效的。例外是:数学系学生的大学各科平均成绩与高考语文成绩之间的相关不显著,某国际物理大赛金奖获得者语文高考成绩很低。限定是:结论不适用于数学系的学生,结论不适用于国际物理大赛金奖获得者。图2给出了高考语文考试效度论证过程。图 2 高考语文考试的效度论证过程6某一个论证层次的资料和必要条
21、件,可以是另一个论证层次的结论。例如,“大学学习成绩可以反映出学生的大学学习表现” ,在关于高考的效度研究中,这是必要条件,同时,这也可以成为另一项关于大学中课程考试效度研究的结论。三、 效度论证的主要环节在新的效度研究范式中,效度研究不再仅仅是计算测验分数与效标之间的相关系数,而是贯穿于从施测到决策的整个测验过程中。在教育测量(第4版)中,讨论了评分(scoring) 、概化(generalization) 、外推(extrapolation)和决策(decision )4个环节中的效度论证。1、评分中的论证2002年全国统一高考的作文题目是“心灵的选择” 。一位考生在作文中讨论了潘金莲的心
22、灵选择,在武大郎和西门庆之间的选择。初评仅得20多分(满分60分) 。评分老师认为文章的思想不健康。经过评分组几十位评卷教师讨论,考虑到这篇文章文笔流畅、行文优美、引经据典,分析有理有据,改成了40多分。再之后,评卷指导委员会认为是一篇不可多得的佳作,给出了接近满分的成绩。 6 两次改判,先后给出了3个不同的分数,实际上体现了评分的不同侧重点。长期以来,在作文评分的思想性、内容丰富性、结构、逻辑、语言、书写、卷面整洁等评分要素的相对比重中,一直是存在争论的。不同的评分规则,会影响到考试的效度,会影响到分数的解释。对此,是需要论证的。在评分环节的论证中,我们需要关注两个问题。第一,评分规则是否合
23、理;第二,评分员是否正确地按照评分规则评分。2、概化中的论证测验是根据样本行为推测行为总体的过程。在测验过程中,总会存在概化推论。在高考语文考试中,我们关心的不是考生在考试中的表现,我们关心的是考生所具有的语文能力,我们需要把考生的考试表现概化到考生的语文能力,需要根据考试成绩推论考生所具有的语文水平。在现行语文高考中仅仅包括阅读和书面表达,没有包括听力和口头表达。如果效度研究的结果显示阅读和听力之间具有很高的相关,书面表达和口头表达之间具有很高的相关,那么,我们就可以将高考成绩概化到听力和口头表达能力,将语文高考的高分解释为“具有包括阅读、听力、口头表达和书面表达能力在内的语言能力” 。这种
24、概化,需要以效度研究为基础,需要基于充分的论证之上。根据高考成绩做出的概化,范围可能很不同。可以概化到“对高中语文教科书的记忆能力” ,可以概化到“阅读和书面表达能力” ,可以概化到“包括阅读、听力、口头表达和书面表达能力在内的语言能力” ,可以概化到“语言和文学能力” ,可以概化到“包括语言、文学、中华文化的语文能力” ,可以概化到“包括语言、文学、中华文化、道德修养和正确价值观的语文能力” 。概化到多7大的范围?这需要根据效度研究的结果做出回答。在概化环节的论证中,我们也需要关注两个问题。第一,试题对目标领域的代表性,控制试题的取样误差。第二,用于效度研究的考生样本对考生总体的代表性,控制
25、考生的取样误差。3、外推中的论证当我们将考试成绩作为招生、招工的依据之一的时候,我们所关注的并不仅仅是考生的某项能力,我们更关注考生未来的学习、工作表现。当我们将高考语文成绩作为招生依据的时候,我们不仅需要从测验分数概化到语文能力,我们还需要继续外推到“完成大学中的学习任务” 。大学中的数学、物理等专业,是否像文、史、哲等专业一样,同样需要较高的语文能力?对此,人们是存在不同看法的。有些物理系的老师认为,物理系的学生只要数学好就可以了,语文成绩并不重要。另一些人不同意这种看法。曾担任复旦大学校长的数学家苏步青先生曾说:“如果允许复旦单独招生,我的意思是每一堂先考语文,考后就判卷子。不合格的,以
26、下课目就不考了。语文你都不行,别的是学不通的。 ”7是否高考语文成绩高的人都可以顺利完成大学的学习任务?是否高考语文成绩低的人难以完成大学的学习任务?语文能力对于在大学中完成数学、物理等专业的学习任务是否重要?这些问题,需要根据效度研究的结果做出回答。4、决策中的论证在我国的公务员录用考试中,包括资格审查,公共科目笔试,专业科目笔试,面试,考察、试用等环节。所谓“考察” ,包括档案审查和实地调查,包括走访报考者原来就读的学校或曾经工作的单位,了解报考者以往的工作和学习表现。在美国的大学招生中,标准化测验 SAT 和 ACT 的成绩大约在招生决策中占三分之一的比重。占比重最大的是高中成绩。之外,
27、推荐信,获奖记录,参加公益活动,参加文娱、体育活动等,都会影响到招生决策。在我国高考中,对少数民族考生有“加分”政策。在美国,多数大学都坚持对少数民族学生、女生和贫困家庭学生的“加分”政策。在招生、招工决策中测验应占多大的比重?高考语文考试对于文科和理科考生是否应划分不同的及格线?是否应对某一特定群体采用“加分”政策?这些问题,也需要根据效度研究的结果做出回答,也需要通过效度论证做出回答。高考对基础教育具有重要的“指挥棒” ,许多考试都具有导向(wash back)作用。考试的这种导向作用,也需要包含在关于决策的效度论证之内。在 1999 年出版的教育与心理测验标准(第 6 版) 中,专列一节
28、讨论了基于测验结果(consequences )的证据。在 2006 年出版的教育测量(第 4 版) 中,将“决策”作为效度论证的一个环节。这些,都体现了对考试的社会影响的重视。四、 效度论证的评价标准关于测验效度的研究是否为测验的分数解释提供了足够的依据?效度论证8是否具有说服力?在教育测量(第4版) 中,给出了关于效度论证的3条评价标准。1. 清晰性(clarity):效度论证应给出一个清晰的效度研究框架。对于理由(W)中所包含的资料(D)和必要条件(B) ,都应给出清晰、详细的说明。同时,对于论证中所包含的概化、外推过程也要给出清晰、详细的说明,使这些推论可以有说服力地支持最后的结论和决
29、策。在这里,尤其要警惕一些隐含的、模糊的、可疑的假设造成误导。2. 完整性(Coherence):在从可观察的事实到结论以至决策的整个推论链条中,首先,每个推论环节都是可信的。其次,整个链条是完整的,连贯的,不存在逻辑上的缺失环节,不存在逻辑跳跃。3. 可接受性(Plausibility):任何一项科学研究都会基于一些预设的前提假设之上。例如,当我们用尺子测量一块衣料的长度时,我们预设的前提假设是“尺子不随温度变化”和“布料不随温度变化” 。当我们用水银温度计测量温度时,我们预设的前提假设是“水银与温度成线性关系” 。显然,这些假设可以受到质疑,但这些假设是可接受的(Plausible) 。在
30、论证的过程中,这些假设可以成为理由(W )的必要条件( B) 。在效度论证中,总会包含许多预设的前提假设,这些假设应该是可接受的。今天,已经有英语和汉语的基于网络的、计算机自动评分的口语考试。对这些口语考试可以进行效度研究。一种效度研究思路是将考试成绩与口语面试成绩进行比较,根据一组考生样本计算网上考试成绩与口语面试成绩之间的相关。计算得到的相关系数是资料(D ) 。预设的前提假设是“面试可以考查出考生的真实口语水平” 。这个假设,是可以接受的。得到的研究结论,也具有说服力。相反,今天我国有上千所大学中开设有大学语文课程。如果一项关于高考语文考试的效度研究以大学中的大学语文成绩作为效标,计算高
31、考语文成绩与大学语文课程之间的相关。这时预设的前提假设是“大学语文课程成绩可以反映出学生的语言能力” 。由于这一假设缺乏可接受性,按此思路得到的研究结论将缺乏说服力。事实上,效度论证中的许多假设可能受到质疑,如“面试可以考查出考生的真实口语水平” 。面试中还可能存在题目取样误差和评分人误差,面试成绩还可能包含来自面试技巧强化辅导的误差因素。对此,还可以展开进一步的研究。在效度论证中,所有预设的前提假设,整个的推理过程,通过推理得到的结论,最终的决策,都应该具有可接受性。像所有的科学研究一样,我们不可能将所有预设的假设全部排除在外。那样,效度研究将永无止境,效度研究将实际上无法进行。我们无法要求
32、所有的前提假设都能得到实证研究的支持,但是,我们可以要求所有的前提假设都是可接受的。对于那些很容易受到质疑、很脆弱的前提假设,我们可以展开实证研究。例如,如果我们围绕某所大学中的大学语文的课程考试进行了一项有说服力的效度研究,研究结果显示这项考试的成绩确实可以反映大学生的语言能力。那么,就可以将这项大学语文的课程考试成绩作为研究高考语文考试效度的效标,可以在关于高考语文考试效度的研究中包含“大学语文课程成绩可以反映出学生的语言能力”这样的假设。9五、小结从 1985 年以来, “效度”概念似乎变得越来越复杂,越来越费解,越来越“玄” 。在今天的所谓学术界,确实存在一些把简单的事情说得很复杂、很
33、玄妙的现象,确实存在一些很善于“浅入深出”的所谓“学者” 。是否心理测量学者们也在效度问题上故弄玄虚呢?笔者不这样认为。笔者认为,正是由于“效标”往往经不起推敲,人们才将注意力转向“证据” 。正是由于“证据”常常受到质疑,人们才提出了“理由”概念,才开始试图构建理由系统和理由网络,才将逻辑学研究中的图尔敏论证模型引入教育和心理测量领域。这并不是教育和心理测量学者们故弄玄虚,这是在考试实践推动下顺理成章的理论发展。从效度概念的发展可以看出,30 年以来,教育和心理测量学者们关于考试效度的看法越来越谨慎,也可以说,越来越不自信。这是由考试测量的对象人的特点所决定的。人具有生命,具有个性,具有能动性
34、。由于人的复杂性,教育和心理测量的复杂性远远超出人们 30 年前的设想,远远比对于长度、重量、温度、电子运动、电流传导、电波传导、火箭速度、星球运行轨道等物理现象的测量,复杂得多。这是教育和心理测量学者们关于考试效度的看法越来越谨慎的内在原因。物理学家所关注的,是怎样解释世界。教育和心理测量学家所关注的,是怎样解释测验分数。在人类进入 21 世纪的时候,物理学家们发现,与 100 年前相比,世界的图像变得非常复杂,变得远比人类进入 20 世纪时所设想的世界图像复杂得多。怎样解释世界?物理学家们变得越发谨慎。他们不再谈论“真理” ,而是说“科学理论”或“科学假说” 。他们不再谈论“客观的世界图像
35、” ,而是说“可能的世界图像” 。他们不再谈论“精确测量” ,而是在接受“测不准原理”的前提下谈论各种可供选择的解释世界的方式。与物理学相仿,进入 21 世纪的时候,心理测量学家们发现,与 30 年前的想象相比,测验的效度研究要复杂得多。怎样对测验分数进行解释?心理学家们也变得越发谨慎。他们不再一般地谈论一个测验的效度,而是论证将一个测验应用于某一特定目的时候,某一次测验的分数解释的效度。参考文献1. American Educational Research Association:Standards for educational and psychological testing(5 t
36、h edition) ,M, Washington, DC:AERA, 19852. American Educational Research Association: Standards for educational and psychological testing (6th edition) ,M Washington, DC:AERA,19993. Brennan, R. L., ed. : Educational measurement (4th edition), C Washington, DC: American Council on Education/Praeger,2
37、0064. Linn, R. L., ed. : Educational measurement (3rd edition) ,C Washington, DC:American Council on Education /ORYX Press,19935. Owen,D. : None of the above, M New York: Rowman & Littlefield Publishers, INC, Lanham, 1999, P27-396单士兵:高考作文两次改判背后的幸与不幸,N南方日报 ,2002 年 7月 22 日107. 苏步青:学林散叶,M 上海:上海人民出版社,1997,第 250 页8. 谢小庆:大学学习能力倾向测验研究报告,C收入教育部考试中心主编能力考试的研究与实践 ,中国人民大学出版社,1999 第 381-400 页9. 谢小庆:对测验效度的一些新认识,J 考试研究, 2002 年第 1 期,第 25-30 页(已经发表于考试研究2013 年第 3 期)