基于Internet自适应性考试系统的研究与实现.pdf-资源下载-道客多多-道者的世界，分享的人生！

基于Internet自适应性考试系统的研究与实现.pdf

1、华南理工大学硕士学位论文基于Internet自适应性考试系统的研究与实现姓名：王少波申请学位级别：硕士专业：软件工程指导教师：李仲麟;梁军20061101摘要八十年代中期兴起的基于项目反应理论(IRT Item Response Theory)的计算机自适应考试“1(CAT Computer Adaptive Test)系统是针对经典测量理论“1(C1vr)的局限性提出来的，能针对不同的考生的答题情况合理选择后面的出题，从而“因材施考”。然而由于其自身的特点，导致测试对知识面的覆盖情况不明朗：因此它只适合考察考生能力的测试。对于这种考试模式，忽视了考察每个考生对知识点的掌握情况是不适合现行的教

2、育制度的。本文针对这一点，参考现行的自适应考试模型，提出一个针对考察知识点掌握情况的模型，并通过计算机编程尝试实现这个考试模型。从而使网上考试达到因材施教、选拔人才、诊断补救、评价教学等作用。本文第一部分从分析传统测验的问题出发，提出了计算机自适应测验的意义和必然性，同时分析CAT考试系统的特点，提出改进的思路，并对国内外计算机自适应测验发展的状况进行了说明。第二部分对计算机自适应测验的理论基础进行了分析，着重讨论了项目反应理论以及该理论在测验工作中的作用。详细地讲解了难度、区分度、信度和效度等重要的概念。介绍了J2EE01的体系架构及相关技术。第三部分主要对计算机自适应测验软件模型实行概要设

3、计。并对系统的需求分析，其中的功能设计和系统部署的实现作了详细叙述。第四部分提出了计算机自适应测验软件模型的设计方法和实施过程。同时还列出了自适应测验中的一些重要的算法(包括组卷算法和抽题策略等算法)，结合这些算法、提出一个针对考察知识点掌握情况的模型。并对这个模型的测验过程及其实现等作了详细的叙述。最后对计算机自适应侧验软件模型的研究所存在的问题和改进的方向作了说明。关键词：项目反应理论，自适应性考试，算法Abst ractComputer Adaptive Test(cAT)bases on Item Response Theory(IRT)arose in themiddle of 19

4、80sCAT is brought forward to dispel the limitation of ClassicalTest TheoryIt can choose different examination questions based on the abilityof different examineesHowever，it only fit to test the students capabilitybecause it doesnt has a clear cover of knowledge。This examination pattern canttest the

5、students knowledge，so it cant fit for the present education systemThis paper brings forward a pattern which can test the knowledge points and triesto simulate the pattern by prograane稀le first part of this paper begins with analyzing the traditional testingproblems and puts forward the meaning and n

6、ecessity of CAT，Meanwhi le，itanalyzes the characteristic of CAT and illustrates the CATs developing stateof the worldthe second part analyses the theoretical basis of CAT。discusses IRT andthe effect of the theory in the testing work。It also explains the difficulty，difference，reliability，efficiency a

7、s important concepts in detail，introduces the archi teeture of J2EE and its relational technologyThe third part introduces the summary design of the CAT software modelAndit explains the systems demand analysis，functional design，system deploymentin detailThe forth part raises the design way and i珥ple

8、珈entation process on CATsoftware model+At the same time。it lists some important arithmetic，includingmaking up arithmetic and sampling tactics and so oilCombining these arithmatic，it puts forward a model which can test the knowledge pointsIn the endit shows the problems that existing in the research

9、of CAT嘏odeland the improv i ng waysKey words：Item Response Theory，Computer Adaptive Test，arithmetic珏华南理工大学学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：笋杪次日期：肋年jz-,9 z日学位论文版权使用授权书本学位论文作者完全了解学校有关保

10、留、使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部门或机构送交论文的复印件和电子版，允许学位论文被查阅(除在保密期内的保密论文外)；学校可以公布学位论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本人电子文档的内容和纸质论文的内容相一致。本学位论文属于：口保密，在年解密后适用本授权书。酥保密。学位论文全文电子版提交后：晌意在校园网上发布，供校内师生和与学校有共享协议的单位浏览。(请在以上相应方框内打“”)作者签名：-7-指导教师签名日期：矽-，匆眵月乙目日期：c彩，Iz一：一第一章绪论第一章绪论11

11、研究背景远程教育是21世纪教育发展的热点。在Internet上实现远程教育，就是以计算机网络为基础，对学生实行远距离教学。而对于教学来说，考试是教学过程中的重要环节，它对教学非常重要。它担负着因材施教、选拔人才、诊断补救、评价教学、就业指导等众多功能。当前，计算机“无纸化考试系统”由于高度安全，便于组卷和评阅，无纸化资源消耗低，自动化程度高，可以实现远程考试等特点，在学历考试、各种职称考试、证书考试中己被广泛使用。但大部分考试系统只是简单的将传统人工出题改为计算机出题，或者将笔试改成上机考试，其基本思想仍没有突破传统的经典测试理论(CCT)。虽然有一部分考试已经突破传统的经典测试理论建立运用当

12、代的项目反应理论(IRT)的自适应测验，但是这种计算机化自适应测验(简称CAT)选择题目的时候所提供的是信息量最大的题目。导致这类考试只测试出考生的能力，而忽视了考生对知识点的掌握情况。1，从而不利于下一步的教学。传统的测验，不论考生水平高低全部要接受同一批题目的测验，结果对水平低的考生来说，那些难度大的题目，根本无法作答，反而引起焦虑。对高水平考生来说，那些难度小的题目，又测不出考生的真实水平，徒然浪费精力。理论的分析与实践的经验都证明，当题目难度跟考生水平相适应时，题目所提供的信息量最大，考生的积极性最高，测验效度也就最好。计算机化自适应考试(Computer Adaptive Test，

13、简称CAT)解决了主动适应考生状况的“因人施测”问题。CAT的出现不仅打破了两千多年沿袭下来的以纸和笔作为作答工具的方式而改为计算机显示屏呈现、键盘与鼠标进行作答的方式，而且与传统的测验相比，测验思想也发生了巨大的变革：它通过给每一个被试建立一个个人化的测验来达到更为准确的测量，因为项目的选择是根据被试的能力水平定身度量而成的，因而被试所做的每一个题目的难度都是与其能力相匹配的。也就是说，水平高的被试能够避免遇到相当简单的题目，而能力低的被试能够避免遇到超出其能力范围之外的题目。目前，国内外对CAT的应用不乏成功的例子，各位专家学者都在各自的领域中不懈地努力着，以下是一部分有代表性的成果：HS

14、K”1(中国汉语水平考试)，汉语水平考试(HSK)是为测试母语非汉语者(包括外国人，华侨和中国国内少数民族人员)的汉语水平而设立的国家级标准化考试。目前HSK华南理下大学硕十学付论文考试已达到较高的科学化水平，实现了命题，施测，阅卷评分和分数解释的标准化。实现了预测统计分析，试题等值，考试报名，评分和成绩报告等的计算机化。1997年完成了HSK等值研究。从1998年9月开始了HSK题库计算机自动生成试卷系统这一课题的研究。目前，已经形成了一个初具规模的HSK题库和试卷计算机自动生成系统。在此基础上，将推出计算机化自适应性HSK考试，这种考试将更加具有针对性，更加个性化，从而可以达到更高的可靠性

15、(信度)和更高的有效性(效度)。GRE和TOEFL。1，GRE由美国教育考试服务处(Educational Testing Ser-vice，简称EIS)主办，1937年首次由美国哈佛，耶鲁，哥伦比亚，普林斯顿4所大学联合举办，初期由卡耐基基金会Carnegie Foundation承办，1948年交由新成立的教育测试中心负责。之后每年在世界许多地方举行。TOEFL，由美国教育测验服务社在全世界举办，是一种针对母语非英语的人进行的英语水平的考试。TOEFL是出国留学的必备考试成绩，美国和加拿大已有超过2400所大学和学院承认这项考试成绩，规定了申请者的最低TOEFL录取分数线。GRE和TOEF

16、L可以说是目前应用最广，影响力最大的计算机化自适应测试系统。微软的MCSE认证考试也都采用了计算机化自适应测试系统。到目前为止，计算机化自适应测试的理论与技术均已相当成熟了，虽然它在应用时还有这样或那样的局限，但它的优点已经使它超越了传统的纸笔测验。国家大学英语四、六级考试委员会正着手这方面的研究，相信将会在不久的将来完成这一转变。因此，本文作者从项目反应理论出发，尝试对计算机自适应测验的实现方法进行探讨和研究。12研究意义、创新点从CAT考试系统测验思路中我们不难看出CAT考试的众多优点：测验效率高；可比性强等等。但是CAT考试亦有其局限性，根据项目反应理论进行测量时，主要是考虑测量考生的能

17、力，对于考生对各知识点的掌握情况测量不够。导致测试对知识面的覆盖情况不明朗“1。众所周知，现在很多教师都把学生掌握本科目知识点情况作为学生本人对这个科目掌握的程度。不管是高考、中考，还是学习期问的每一次考试，都离不开考试大纲，都离不开知识点的掌握问题。因此现行的很多CAT考试系统，忽视了考察每个考生对知识点的掌握情况是不适合现行的教育制度的。而且CAT考试系统比较强调题目难度，这就使得确定题目的难度只靠经验指定的方法不科学。因此本文就CAT考试系统存在的这两点问题进行研究改良。使CAT考试系统更加适应现在的教学。首先，在技术上加大CAT考试系统对知识点的可操控性；其次，对2第一章绪论预先设定好

18、的难度系数通过自适应考试后自动调整。同时程序应用,lava Web Start旧技术进霉亍部署，1ava Web Start是基于Java技术的应用程痔静一种部署解决方案。它是连接计算梳和Intemet的便捷通道，允许蔼产在完全脱离Web的情况下运彳子和管理应用程序。JavaWeb Start提供一次单击激活应用程序的简易方法，并保证始终运行应用程序鲍最耨版本，从露可避免复杂的安装或升级过程。13零系统目标和系统技术要求1、总体目标：淡疆学豹自适应考试理论茺撵警，缝合先遗豹入工餐髭技术，设谤、嚣发滋逶瘟往强、高性能豹网上考试系统。2、设计目标：(1)叛大容量试蘧纛失基爨，敷麓java技术，实瑷

19、嚣算援象适应考试。(2)打破现行考试集中统一时间的限制，让学缴在自己认为最佳状态时参加考试，使考试尽爨真实地反映出学生的水平。3)撵供考试蘩考分套逡戆一系列动戆。(4)加强数据管理和保护，保证数据的权威性和一致性。(5)结合网络技术，打破地域限制，为系统的报广打下基础。(6)鬟蹇系绞营建筑力。3、本课题关键技术猩于：(1)技术上，以CAT理论为基础，如何迅速根据考生以前的祷题情况决定下一个或一链试瑟，辩参数话诤鹣大量诗冀霜溪。(2)题库的设计如何保证科学性。包括大容量题库的收集、熬理和分类以及统计后重新调整备参数。(3)技零主，解决CAT考试籍谈覆点覆盖瑟豹溺题。4、该系统实现并投入使用后，预

20、期有以下效聚：(1)改变考试形式。考试将不再浆用统一试卷、统一时间、统一地点的形式，学生将可班耋主速决定旃时凌霉建参热考试，系统雩|警考生进入系绫嚣，摄摇考童僖怠奎残试题，根据考生以前答题情况，决定下一道题目。所以，系统根据考生答卷随时修改出题策略，理论上不会出现裙同试卷，考生所花时间墩会不同。当然，由于技术和环境的阏逐，魂除寝还无法骰翔在任谤遗点都霹瑷参翔考试。3肇鸯理f大学颟士学位谂文(2)改变监考方式。在新系统下，监考人员的任务简化为确认考生身份，所以，较大的酝域可以只有一个监考人员，双嚣减少投入。(3)简亿考务簸理。减少入力物力的投入。根据本文方案设计并实现的关于intemet的自适应

21、考试系统仍在测试使用并继续改进中，实践证明这秘方案是可行露效豹，并照骞缀强豹二次开发性。14 本章小缩本章从分析传统测验的问题出发，提出了计算机自适应测验的意义和必然性，同时势爨CAT考试系绞戆特熹，提密浚逡戆愚薅，势薅鏊蠹乡谤葵爨垂逶痰测验发震豹获援进行了说明。4第二肇程芙技寒静磷宠第二章相关技术的研究2。顼蠢反应蓬论及英模銎211传统测验所丽临的问题传统的测验对魇有被试不论特蕨窳平亳低都使用相同的题鞋遴孬测试，这秘测验逶常试题都集中在同一难度，只有当被试豹特质水平刚好处于或接近予这一难度水平对，测验才能达到较高的精度。如果被试的特质水平偏离这一难度水平时，对于高特质的被试覆畜，豫会觉褥题

22、嚣太容易，测不凑链煞真实承警，徒然浪费壤力：两对予较低的特质永平者耐言，他又会徽得题目太难，根本无法张答，反而引越焦虑。导致耩度不够。同时考试怒教学当中至关重要的一个环节。在传统的考试方式中，至少经过如下几个过程；编写考试试题、霹糕大量试卷、缀织考试、阂卷、统诗戒续等。这耱考试方式存在种种弊端：如在命题时难以把握难魔，印制试卷费用高，组织考试人员流动火，试卷易泄密，阅潦、统计成绩赞力且效果不好，整个过程周期长等。l2。2计算撬自遂痰测验计算机自适应测验怒由最早的适应性测验(TailoringTest)发展而来的。WilliaawTurn Bull“1于1951年最早提出适应憔测验这一概念，当时

23、适应髓测验是指针对被试先翦经验选取遥台被试糍力懿邃霎遴抒薅溅，终答竞藏帮浮分，势戮上一蘧戆终答壤提决定下一道测题，直至测验结束为止。也就是在题库中选取符合放试能力水平的题目进行测验。适应糗溅验最季巍溯源予Binet瓣智力溅验鬓袭，逶遭设诗一令适合孩子年龄静题目为开端的IQ测验，然后继续给高难度的题目，并且当孩子不能正确地回答与答对题目同等数爨的几个问题时钡验就结束了。Binet的IQ测验在今天仍然以更现代的形式被後弱。Binet量表是穰据被试先静豹爱疲来决定苏蕊溺验顼登豹逡择与分层，施溅与评分同时进行，不同的被试可能接受长度不同的测验。随着测验理论以及测验技术的发艘，适应性测验的思想也穰测验中

24、逐步她褥以体现与完善，炙其是计算税科学静逶速发鼹，给测验带来了全面两滗翔戆狰击，诗算瓤自适应测验的出现便是这一冲击下的产物。从测验呈现方式、测验编制、施测过程，到评分规则，计算机自适应测骏与传统的纸然测验相比都邂然不同。诗冀税囊适应溺验焱早是瑾l Lord瓣子1971牮麓先提出静。宅豹出现不仪事破了两5肇南理t大学碛十学证论文千多年沿袭下来的以纸和笔作为作答工具的方式而改为计彝机显示屏呈现、键盘与鼠标进彳亍俊答的方式，聪越与传统豹瓣验穗毙，测骚思想也发生了基大豹变孳；它通过给德一个被试建立一个个人纯的溺验柬达到更为准确的测量，戳为项匿的选释楚根据被试的能力水平定身度量而成的，因而被试所做的每一

25、个题目的难度都是与其能力相匹配的。也就怒浼，本平离鼹狻试戆够避篼遇到楣当镣肇弱题强，恧缝力祗豹被试戆够避免遇烈超出蕻能力范围之外的题霹。计算机自适应测验蹿传统的测验比较分析删黩适应测验是一个更逶台测验应试翥的方浚，它能够嚣精确静测量痰试者能力。传统的考试提供相同数目的灏潜给应试者，不用考虑那个入完成测验的顺秘情况。这种类型的测验分数取决于答对题目的数量。个人懂得越多，他答对的题目越多。瓣予任秘一个成试者，一些爨嚣过手容易，一些又太难。应试考答对那些容易靛憨目并不能说明很多问题，大多数人能答对容易题目。由于类似的原因，度试者没答对难题，也说明不了什么。如果一个测验能够显示水平，那么按照应试者测验

26、的难易等级，缝识开始发璎题嚣豹攘藏经，并量莓班获褥慰癍水平豹分数，酃么，这秘测验可笈更裔效。自适应测验聂楚这样做的。考虑到每个应试者如何进行丽一个自适应测验回答起初的题目，测验将适当从给高能力应试者的题目中给低能力成试者一套不同的题目。低能力应谈者终番到秘怼骞易戆题嚣，然瑟裹能力瓣瘟试者褥嚣铡蔓蔗豹题瓣。嚣令瘟试豢可能答对相同比例的题目，但是戮为高能力的舷试者能答对更多难题，他戏她将得到一个更商分。参麴叁逶应溅黢豹经历可殴誉镶甥邈与参麓一令霉径场毙赛孛静鼷巍运凌籀毙较。不管熊力如何。跳高者很快达到一个富有挑战住的水平，在那个水平上，跨过跳栏或撞到跳栏的机会是相等的，跳高者得分与他已跳过的每次可

27、熊低些的高度光关。同样地，毯或蹩不要求试雾l联骞戆更毫夔寒菠。类黢逸，对予一令参秀嚣塞逶应溅黢戆入来浚，农测验中，题目是按照从易到难的簿级进行，分数将以应试者碰到的太难的题目得分为根据。遮，L莠一令镶予：设恕露是一个绘学生提供磬语襄l验夔溪黪。露攫瑶戆逶建翊一令中等难度的问题开始。如果学生铸对了，你搬可能问一个聪难的问题；如果他或她答锚了，你很可能选择一个更容易的问题。根据学生对先前几个问题的回答，老师继续选择夔嚣瓣鬻题闷学，圭。在缳短露阗海，稼可悲麓学生瓣娩力纛令缀爵豹攀撵。在整个勰问题的过程中，你W以避免问一魑不能帮助确定应试者的能力的很多容易的和难的问6第二帮镅芙技术静磷究题。最后，应试

28、者的能力的评定可能不根据正确答案的绝对数墩，而是以答对题目的难度为标准。当关于应试糟能力评价的误差测量达到一个可接受承平，自适应测验常常就结束了。溺星误差低，表瞬灏验如鬃麓耨立帮进行，很可能得国炎似分数。鞠为当测验将结束时，它不是十分清楚，所以自迓应测验常常提供可变量的题目数目。自适应测验的具体过穰以下图2-I愿目顺序号圈争l鑫适应考试豹过程Fi92I the process of CAT考试分数。在自适鹿测验中低能力的人能够回镣对同更高能力者同样数瞬的题目是哥篷戆。滋较嚣令答簿獠萎夔人莓戆疆示裹戆力鹣久髓答鼹受滚戆遂蓬。势藏嚣蘧痤缮到更高的分数。正是因为如此，分数不以答对的题目数目为依攒，而

29、是从答对题目的难度水平得分的。塞逶疲测验与一今传统戆诗箕裰纯溅验程魄羧瑟言，螽逶痰溅验戆圭簧傀矗是蔫效。因为像避免提供在确定应试者的分数方面不提供任何帮助的题目(也就熙说太易或太难的题网)，自适应测验能用更少的题目来判定应试者的分数。在过去的20年里，苓诗荬数瓣磷究结采逶安了这个事实。下瑟是一个绸子。加利福尼亚评估程序(CAP)的六级教学测验由计算机自适应测验和计算机化的固定长度的测验(cT)两种形式施行，缡果表明两种测验的平均分数基本相同，然而计算凝鑫逶蠹溺验苓约熬辩秘慧量为一拳疆主。图2-2为计算机囱适应测验和计算机实施的酱通形式考试的时间和分数的一个比较。分数几乎相同，然而测验时闻却麓异

30、很大。自适应测验花了比计算机化躁定长度考试少783蓠豹露闯。7华毫理下大学矮：学静论文分蠡(鬻嚣舞壤鑫逶艨瓣黢 CT旅蓐捉鑫逢应麓骧图22自适应性测试和固定长度测试比较删Fig 2-2 the di fference of CAT to C_r毽踅不滩着壤CAT考试戆众多往熹：1、即时算分和即时魇馈。计算机化测验的重要优点是即时焱出考试结果。立即得到分数和通过以及不通过的判定对应试者来说是很熬要的。2、公警诗分。诗箕撬激穗嗣豹方凌绘每令人诗分并不考瘩与分数无关戆一黧嚣素，如应试者的饿别和文化。，3、精确计分。计算机化自适应测验在计算测验结果方面比纸和笔测验或阴语考试：精确褥多。4、提高效率

31、。正当计算机化测验证明是更有效时，自适应测验提供的甚麓更有效率。计算机化测验和自遗虑测验的很多比较数据表明自适应测验W能节省了应试参考时阕戆6080。f5、方便的个体化管理。 46、改进的测验保密。因为测验的保密性的提离，所以测验结果更有意义。测验题毯静随税蕤廖，对于移袭掰久兹答案柬说是不可憝的，薪瓣班戆力为基磴豹测验题鑫对于以后的测验训练来说怒难以记住的(并且有时是不可能的)。I7、新的题目类型。新的题目类型提高测量重罄技能的测验能力。8、改遴静虢能力兔蘩礁的灞验。爝软俘模攒，例如，要求认证应试者壹援在溺验中演示工作技能是可能的。9、减少答题误差。魄起当他们在纸和笔测验申的答案纸上域入小圆卷

32、，鹰试者在答计算瓤倪臼适应溅验慧秘时犯更少鹃无关静错谟。8第二牵穗戈接零f冬磁嶷lO，加强刺激。当没有很好理解时，在计算机上进行测验比在纸上进行测验鼹有趣，丽且少一些恐惧。ll、费糯更低。尽管今天可能不楚嶷的，毽楚在测验发展串，计算机豹增糯使用有可能在今后减少测验开发者、测验使用者和考试者的测验费用。12、提蕊商低能力测验者的精度。农决定通过秘不遥过决定方瑟，自适应溅验_j眭任何其它测骏一样精确：熬褥，为高低黥力应试者提供分数，它事实上是更精确的。因为它能提供很多任何能力水平的项目，它能计算一个精确的分数。传统的测验在送些程度上没那么精确。13、与嗣定长度考试减滋例的给舔个题目更多辩闽。与传统

33、豹考试和对毡们进行了典型的时间限制相比较，缀验表明自遗威测验甚至有他们最短的时间限定，提供给每个测验题弱更多时闽。倒如，一个典型的60道题测验埘髓鸯60分镑翡时闻限定，或者一分钟一道麓。同一个测验的自适应测验形式可能有25道题目的最大数171，但给30分钟去完成测验。即使以题目的最大数目来计算，自适应测验给了超过一分钟一道题的时间。鲤果测验以题曩的最大数蠢璧结束，那么每道题绘了鼹分钝。对于每个应试者寒说这是一个有意义的优点，额辫的几秒钟可畿意味着通过或不通过。14、等价挑战考试。自适应测验为缚个应试者掇供一个类似的应试心理学的考试经历。每个戎试者回答那些镑对令人的既琴太难也不太褰易的挑战谯琢嚣

34、。这样赣缒回避回答很多简单题目的单调泛昧豹和回答太多难题的迷惑。2。13与囱适应测验有关的概念霆嚣鼹发对题目进行定量分析主要是对题目的难度和区分度进行分析。题目的难度怒衡量测验题目难易水平的指标，通常以题目的答错比率来袭示。蘧嚣嚣努发区分魔鼹评价试题旗缀的又一个数攫指标。它用于衡量一道试题鉴别应试糟水平差异的能力。一道试题如果区分度高，那么，水平高的废试者答对该题的可能性就高于水平嚣熬痉试者；懿莱区分发低，弱显承不密这一鎏蠲能力。信度为了检验某一测验是不是良好的测爨工具，应当对测验的质避进行评估。个高质量戆溺验，宅的结栗是霹纛盈有效静。霹靠篷(信凌)秘有效毪(效凄)是浮；溺验矮9华南理工大学硕

35、士学寺论文量的两个重要指标。信度是估计测量一致性程度的指标。它反映了测验的稳定性和可靠性。从理论上讲，如果在相同条件下多次地实施等效测验，都得到大致相同的分数，那么可能认为这一测验的信度高。效度效度指的是测量的有效性，即一个测验对它所要测量的特性准确测量的程度。一个测验，如果能正确地测量出所要测的东西，那么它就是高效度的测验。例如，一次对于初一年级学生的英语基础知识的测验，如果其中涉及较多初二或初三的英语知识，那么所测到的结果就不能准确反映应试者的英语水平，这个测验的效度就不高。曝光度曝光度是指题目重复出现的概率。如果曝光率过高，则说明组卷策略不是很好。通常在控制曝光度方面有两方面的考虑：一是

36、如果题目在规定的日期范围之内被使用过，本次就不再使用，二是如果有几个同时都满足条件的题目可供选择，那么在抽取试题的时候应该选择使用次数少的题目，以达到使用上的平衡和控制曝光度的目的。214项目反应CAT模型n1一般使用的IRT模型有单参数、双参数和多参数三种。该数学模型通过构造题目特征函数P(o)和特征曲线(ICC)，来描述被测试者对某一题目的正确反映与被测试者水平和试题各特征参数的关系。三参数的Logistic模型如下；1P(疗，-+(1一；二?；：；r：i五?丽(21)O图23三参数的Logistic模型Fig 2-3 the three parameter model of Logist

37、ic在公式(21)中：D为固定值L 702；第二章相关技术的研究a为题目区分度，说明该项目对被测者的区分程度，在图中，a的值对应拐点处的斜率，表示答对该题的概率P(0)对能力值0的敏感程度也就是该项目对被测试者的区分程度；b为题目难度，图中，b的值对应曲线的拐点在X轴上的投影；c为题目的猜测系数，反映猜对该题的可能性，在图中，c的值对应曲线在Y轴上的截距，其值越小表示有更低能力值的考生可能答对该题；0为被测试者的能力值；P(0)为被测试者答对该题的概率。当D=I7时P(巳)-P(ui-lies，q，岛，q)-q+(1一q)【1+e】【p(一174j(ej一岛)】式中，P(巳)表示测试者j答对第

38、i题的概率，M是测设者的反应，答对为1，答错为o，嘭是测设者的能力值，4，是试题i的区分度，岛是试题i的难度，q是猜测系数。当系l数q为0时就变成了项目反应理论的两参数模型(Bimbaum模型)。正确估计受测者的能力是CAT顺利进行的前提，由图23可以看出，公式(21)中，除了参数D为固定值和P(0)可以测量外，其他的参数a，b，C，都无法直接得到也无法测量，只能通过参数估计得到。一般采用极大似然估计方法，通过被测试者对项目反映信息，对这几个参数进行估计。估计的过程如下：1、构建项目反应矩阵项目反应矩阵是一个二值得分矩阵，行和列分别对应试题集和被测试者集。如果用m道试题来测试n个被测试者，则会

39、组成n x m项目反应矩阵。矩阵中第i个被测试者答对第j道试题，则UlJ_1，否则为U-J-O。2、构建最大似然函数若以L(u。，l 0)表示能力为0的受测者i对题目j的反应为u。，(若答对，utj-1；答错，U。J_O)的概率。则似然函数的形式为：三(ulo，口，b，c)-兀兀昂鲜1 (22)1-1 j-1其中，u为项目反应矩阵；P，。为被测试者i答对项目J的概率；Qj=I-P，。为被测试者i答错项目J的概率。11华南理下大学硕十学位论文3、参数的初始化参数的初始化是指在受测者在进行测试之前，对受测者的能力值进行初始估计。一般有以下几种方法：1)选择中等难度的试题，即假定受测者的能力为中等，

40、在题库中随机抽取难度为中等的题目，作为测试的开始点。2)根据历史记录确定受测者的初始能力值，受测者可能参加过测试，可以根据以前的测试记录决定此次的开始题目，或根据以前其他受测者的测试记录决定开始题目。3)受测者自行选择，由受测者自行决定自己的能力程度，选择测试起始题目。4、最大似然函数求解最大似然函数求解过程也就是求使得似然函数达到最大的参数的值，一般地，求似然函数的自然对数在各个参数上的偏导，偏导数为0的参数即为要估计的值。即：OlnL0 (23)dqOlnL。0 (24)弛0lnL0 (25)尬OlnL0 (26)oo,当题目的质量参数相同时，可用公式(26)来估计被测试者的能力值参数0；

41、同样，当被测试者的能力值0一定时，也可以用公式(23)、(24)、(25)来估计a，b，c的值。但实际应用中，由于a，b，C，的值都是未知的，所以不可能是上述的两种情况的任何一种。一般我们以Newton-Raphson法逐次迭代，求出能力的极大似然估计值(0)。q+。1包一以 (27)其中：ot”ot，为第t+l，t次迭代的能力估计值。危：丑堕 (28) ，I印第二章相关技术的研究，(曰)=lIl三(【，p)八班掣 (2-9)(2一10)D2口；“q一只2)僻一cI您厂I(2L而习厂一(2-11)采用极大似然估计法估计受测者能力值的最大好处是简便实用，它比较适合于题目较多的情况，在其它情况下，

42、我们可以采取Bayes方法，或采取将两种方法相结合的途径估计受测者能力0实际计算中通常是先给a，b，c赋一个合适的初值，在此初值条件下：Sh采用极大似然估计法的公式(26)估计出0的值；s2：根据此。值转而采用极大似然估计法的公式(23)、(24)、(25)来估计a，b，c的值；s3：当结束条件不满足时，转向s1；否则，循环结束，此时的a，b，c，e的值即为要估计的参数值。图2-5自适应考试流程Fig 2-5 the flow of CAT华南理丁大学硕十学伊论文5、结束条件结束条件通常以达到测试的最大容量作为测试的终止条件，可以取一定的迭代次数，也可以以能力估计值达到预定的精度要求作为终止条

43、件，即当受测者的能力估计值逐渐稳定下来时，便可以结束测试。指定一个很小的值e，如果两次估计值的差小于c，则认为参数得值趋于稳定，结束条件达到。终止自适应测试的策略主要有三种：(1)固定测验长度，即当测验项目达到一定的数量之后，测验就自动终止，这种方法的优点是易于实现，且可对每个测验项目的使用率作较精确的统计；缺点是对不同被试的特质参数的估计精度不同，而且要确定一个合适的长度一般来说并不容易。(2)当特质参数估计的标准差小于某一预先确定的值e时，测验自动终止，即当SE(胪赤2 1 F (212)时，整个测验过程就可结束。这种方法一般能克服固定长度法的缺点，但终止条件定的过严往往会使测验过长，降低

44、测量效率。其中，(为信息量函数。(3)比较被试特质参数最后两次的估计值，当这两个值之差小于某一预先给定的数值时，测验自动终止。初始条件通常为：a=p+2；其中，P表示CTT中的难度值；b=Z；其中，z为标准分，可按cTT中z；墨羔的公式求出x。是第i名被测试者 d的测试得分，X为全部参加测试的人员平均分S为全部参加测试的人员分数的统计量一一标准差：c=ln；其中，n指试题的选项数；6、mT的信息函数不断抽取和受测者能力相适应的题目是CAT的基本原则。通常，我们利用IRT题库中题目的最大信息函数来确定所选择的题目，对于不同能力的受测者，题目有不同的信息量，信息量取最大值时，它所对应的能力值即是

45、最适合于采用此题目测试的人员的能力值。因此，在CAT系统中，根据前面推测的能力值，系统搜寻相应信息量最大的题目进行测试。IRT用题目的信息函数I(0)来表示题目参数与受测者能力的关系。14第二章相关技术的研究其中参数含义同前，只(回为号(D的一阶导数。L(o)叫2(纠隙睨(仆雨面画茄高等壶面万丽(2-13)信息量具有可加性，可以随时估计一组试题施测的信息量I。(o)的总和I(o)。一组试题所包含的信息量越大，用这一组试题对被测试者进行测试，对被测试者力值的估计就越准确，则这套试卷的质量就越高。能所以，信息函数及其可加性对IRT来说是很重要的。项目信息量取值最大的试题，其难度和特质水平有如下关系

46、：包=口一击ln 0“05厕_ (214)7 1a, J7、曝光控制嘲目前，CAT中常用的选题方法是选择在当前的能力估计值附近有最大项目信息的题目。这样做的理论基础是可以增加测量的精度，提高考试的效率。但这种方法一方面会导致高区分度的题目频繁的被选出，而使这些题目曝光过度，另一方面，低区分度的题目很少被选中造成这些题目曝光不足。这种不平衡的题目使用率降低了考试的安全性。GRE机考在中国的失败，就是因为有些题目曝光过度而造成试题泄漏，严重影响了题库安全。Wainer检查了GRE题库的题目使用率，发现不到12的题目占了超过50的功能题库(tt实际用于考试的那些题目所组成的题库为功能题库)。理想的情

47、况下，在题库中所有题目都应该有相似的曝光率来满足对考试安全性以及题目有效使用的需求。很明显，解决这一问题的一条途径是降低高区分度题目的使用率而提高低区分度题目的使用率。目前，题目曝光控制的方法主要有三种类型。(1)随机方法(2)概率方法(3)a-分层方法。前两种方法用于控制高区分度题目的曝光率，而第三种方法则用于得到更平均的题目使用率。1)随机方法随机方法首先选出一批信息量最大的题目，然后从中随机地选择一个。这样的话，在当前评估能力值对应的信息量最大的题目可能不会被选出。然而，这种方法只是提供了对经常选择的题目的有限的保护，并且不会增加那些很少选择的题目的使用率。2)概率方法如SympsonH

48、etter方法，它包括两个阶段，第一个阶段根据一系列针对目标人群牮毒理。F大学硬学便论文进行的模拟CAT来计算题目的曝光控制参数。第二个阶段，在实际CAT中用第一阶段得豳的曝光控制参数控制题瞬呈现的频率，方法是用所选题目的曝光控制参数与个随机数来跑较，鲡采疆梳数磁曝先控翻参数夺或籀等，掰选题嚣将会麓瑷给应试者；否翼|l，此题放弃并继续选择下一个题目。概率方法可以有效地控制一个题目的最大曝光率。然丽，它至少还有两个缺陷：蓠先，没有选中的题目不能呈现给应试者，于是具商较低选择可麓桎静邋爱仍然有较低瀑光率。葵次，试题露鹃改交，或者鞭菰久嚣静魏力分布发生改变后，曝光参数也必须更新。3)矿分屡方法我方法

49、廷将试题摩狠据题蟊静参数分成凡层，测试氇分残籀对应静几个除毅。在牙始阶段，具商较低a值的题目呈现给殿试者，到了聪瓣的阶段，舆有较高a值的题目被使用，这样，可能导致题鼹使用率更平均。最识静a-分层方法搬掘a参数按辩滓严格的分层，表示菇辨良h。研究表疆院使用sH曝光按制的最大Fisher信息法臻好，这是因为在保持测量精度的同时增加了具有较低a值的题匿的使用拳。STR_h工作嶷好的静提怒8程b参数怒不相关的。然露，对于操作经的试题库，a耧b参数静范溺无法和应试者虢麓力分蠢赣匹配的话，梅可能菜些题目被过殿地选择。但实际资辩表明，鬏痒中项曩的a靼b参数是拥关的，对予较螽的阶段穗对应的层中，其有搿a值和低b藏的题目非常稀少，这类麓舀的缺少易罨致它j过曝。STk B方法如果将题库先按b参数再按a参数分割，这样，在各层上b的分布与题库中的分布接近，那么该趣遂有可黢减轻。使用b分块静a分滕方法，称为驴分层方法，诞为sTRB。具体方法是：题库先按照b参数舞序分块。在每一块中，再校据a参数扶小到大排序。将所有块中，具有最小a值的题目放入第

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？