1、 _一种评卷方案的优化模型摘 要:针对某些考试不必排名只需归类分级的目的,提出了交错分级淘汰制,建立了多目标规划模型确定该法涉及的参数。该方法减小了工作量,降低了系统误差和偶然误差对评卷结果的影响。关键词:交错分级淘汰法;综合评价值;系统误差;优化模型社会上的各种等级考试(如大学生四、六级英语口语考试,分 A、B、C、D 4 个等级)和学校里的各种竞赛活动(如全国大学生数学建模竞赛某赛区要评出特等、一等、二等、三等、无奖 5 个等级)的共同点是评卷结果不必排名只需归类分级。如何保证结果的公正性和科学性,是一个值得探讨的问题。最常见的评卷规则都是与平均值有关的,如平均排序法和去掉最高分、最低分的
2、平均排序法 1。上述方法的共同点是每位评委要给所有的答卷打分,工作量很大;再者,打分时往往出现系统误差。例如,同一批答卷,甲评委平均给 70 分,而乙评委可能给 85 分。如此,各评委的打分不在同一可比较的水平上,直接求平均值不科学,而且各评委打分时有偶然误差。针对此类等级考试和竞赛结果无须排名只需归类分级的特点,结合对全国大学生数学建模竞赛某赛区历年来评阅结果的利弊分析,在加权平均的基础上,提出了交错分级淘汰法评卷方案,即依各等级预定的比例,从低等到高等分批归类。设有 份答卷, 位评委。要将答卷划分 等,第 等预定的比例为Llmn51ki%iaki,210 1%0ia评委对答卷的打分在区间
3、内。当 、 较大时,可分组评卷。,Ln1 系统误差的确定系统误差主要是由对同一批答卷各评委所给平均分不同造成的。经系统误差调整后,对同一批答卷各评委给的平均分要相同。系统误差是对整体 份答卷而言的,可以用抽样的方法近似求得。抽样lm单位数 的多少决定了抽样估计的可信程度 2。定义抽样估计的可信程度 。随机取样本答卷 份,l lml位评委分别给所有的答卷打分,记第 位评委给第 份答卷的打分为 ,则可得nijijxljn,21;,一个 阶的评价矩阵 3,记为lA= nlnlxx212112第 位评委给这 份答卷的平均分,记为illjiix1这 份答卷的平均分,记为 l lnxnilji1记第 位评
4、委的系统误差为 ,则有 ,可得i ixiljiniljiljiniljiii xlx1112 交错分级淘汰法的基本过程2.1 计算 l 份样本答卷的综合评价值第 份答卷的综合评价值,记为 ,则用加权算术平均法可得jmjmy, niijjmxy1l,212.2 对轮改轮数的讨论假设共进行 轮。其中 。)(pp情形 1 k分 等可转化为分 等,此时可看作1。01kpaa情形 2 kp先将分 等转化为分 等,此时可看作1pkipkpkkpkp aaaa 0,1,12,21, ;2.3 p=k 时的交错分级淘汰法让所有评委围坐在圆桌前,然后对评委依次从 编号直至 。随机将剩余的 份答卷从 编号直至 。
5、nm1m若第 位评委给第 份答卷打分,则 记为该分值,否则 记为 0,得一个ij ijyj,21;, ijy阶的评价矩阵 ,记为 。如果第 份答卷被淘汰掉,记矩阵 中第 列为 0 向量,该份答卷不mn3BBj再参与淘汰过程。若第 1 轮中,按编号从小到大等分答卷 ,各评委给自己分得的答卷打分,第 份答卷j的综合评价值,记为 ,则 。将这 份答卷和 份样本答卷依据综合评价值排序,大jyniijjy1ml约淘汰最差的 份答卷。第 2 轮中,各评委将手中剩余答卷向右传给下一位评委且尽量保证lmap%2等分,各评委给新分得的答卷打分,第 份答卷的综合评价值,记为 ,则 。将j 2jyniijjy12第
6、 1 轮中未被淘汰的答卷依据综合评价值排序,淘汰最差的一部分答卷,和第 1 轮中淘汰的答卷组成第等答卷。再淘汰最差的 份答卷。依次类推直至第 轮。记 为第plmap21 ptm轮评委打分的次数。易知 。t,20第 轮对编号在 到 的未淘汰掉的 份答卷,依圆桌会议的原则 ,每位评委给自己未曾打)1(p 4分的答卷打分。第 份答卷的综合评价值,记为 ,则 。依综合评价值,淘汰最j jyniijpjy1差的一部分答卷,和第 轮淘汰的第 等答卷组成第 等答卷。再淘汰最差的 份答卷。1p22lma%21将第 轮的 的评价矩阵 记为plmn3C =lmnnlmyy212112第 轮将矩阵 中的非 0 元素
7、转化为名次分 ,得新的评价矩阵1p 53D =lmnnlzzzz212112由文献5中的评比规则,淘汰最差的一部分答卷为 1 等,和第 轮淘汰的第 等答卷组成第 1 等答p1卷。剩余的答卷为特等。3 对交错分级淘汰法的评估3.1 工作量的估计小样确定系统误差打分 次,第 轮打分 次,第 轮打分 次。不妨假nlpt1tmp)1(pmn定,编号在 到 的答卷与编号在 到 的答卷在每一次,淘汰掉的比例均相同。则,打分的1m1l次数大约为)1(210(ppmnmnlM %)3)(aa )(%( 213 app3.2 抽样估计的可信程度由于计算系统误差时采取样本抽样的方法,故样本答卷的数量多少决定了抽样
8、估计的可信程度 lm3.3 偶然误差的影响力偶然误差是因为某种偶然因素导致评委对某份答卷的打分与其正常情况下的打分有偏差,可以通过其他评委的打分减小偶然误差的影响。定义 1 偶然误差的影响力 np,3.4 对交错分级淘汰法的评价交错分级淘汰法与平均排序法相比,一方面减少了工作量,因为 ;另一方面,以系统lmnM误差为权值将各评委的打分调整到同一可比较的水平上,降低了系统误差对评阅结果的影响;此外,轮改在一定程度上避免了偶然误差造成的误判,又逐级淘汰使得优秀的答卷一定能够被选出。交错分级淘汰,在每一轮淘汰过程中,包括两个相邻的等级;每一个等级,在两轮相邻的淘汰过程中确定。这样一来,对那些处于两个
9、等级间不能明确其等级的答卷,在下一轮的淘汰过程中重新复审,在一定程度上体现了公正性。对于水平稳定的评委组,每个评委的系统误差具有稳定性,任意取一个小样本所得系统误差即可近似代表整个评阅过程的系统误差。反之,根据系统误差的稳定性与否也可评价评委的水平。当然,偶然误差还依然会对评阅结果造成影响,如第一轮的淘汰中有可能去掉好的答卷。4 交错分级淘汰法中参数的确定为了保证评阅工作的公正性和科学性,一方面要减少工作量,即打分的次数尽可能少;另一方面要保证抽样估计的可信程度;此外,要减小偶然误差的影响力。确定样本份数 ,轮数 的问题转化为一个lp三目标规划问题。即 %13%2min 31anannlMpp
10、 231aapnplm1iax,0,.lLlts该问题的决策变量为 和 ,多目标规划问题的求解一般是寻找非劣解。约束法 是一种用单目标p 6规划求多目标规划非劣解的方法。本问题中,选第一个目标作为主目标,其余两个目标变为约束,构造成单目标规划问题。因为本问题中的变量 和 均为离散的量,且有取值区间的限制,故 和 只能取lp ,有限多个值,可以穷举 和 的组合,即可得到不同约束条件下的单目标规划问题。而只要给定了 和,就可确定 和 ,进而可得 的值。这样近似的求得了非劣集 ,最后由决策者在非劣集中,lpMMpl,找出最终解。5 应用实例全国大学生数学建模竞赛某赛区有 40 份答卷,共 5 位评委
11、,要评出特等、一等、二等、三等、无奖(比例各占 12%,15%,25% ,30% ,18%) 。决策者取的最终解为 ,此时系统误差的可靠性150,4,偶然误差的影响力 。运用交错分级淘汰法的评卷结果见表 1。8151,表 1 交错分级淘汰法的评卷结果Tab.1 the results of critically reading of the crossing and classifiable elimination system奖 项 答卷编号特 等 35,21,18,4,36一 等 26,9,23,40,38,8二 等 7,22,16,15,39,14,17,2,27,3三 等 34,12,
12、31,25,37,1,19,33,20,32,28,30无 奖 24,11,13,5,29,10,6任选了 5 份答卷为样本计算系统误差,5 位评委的系统误差分别为:0.952 727, 0.871 259, 1.018 889, 1.024 581, 1.183 226。共改了 150 份次答卷,平均每位评委打分 30 次。运用平均排序法的评阅结果见表 2。表 2 平均排序法的评卷结果Tab.2 The results of critically reading of the sequence system according to average value奖 项 答卷编号特 等 35,2
13、1,4,18,26一 等 36,9,23,40,27,38二 等 31,7,34,8,17,2,3,25,22,15三 等 16,39,14,1,32,12,20,37,19,33,24,13无 奖 28,30,11,5,10,6,29共改了 200 份次答卷,平均每位评委打分 40 份次。交错分级淘汰法相对于平均排序法工作量比值 ,原始数据见表 3。43对照表 1 和表 2 知,两种方法的评卷结果在等级交接处有明显不同,这种不同体现了交错分级淘汰法交错处理那些位于两个等级间不能明确其等级答卷的优越性,将这些不能明确其等级的答卷放在同一轮中评阅,用同一标准去划分等级。例如,第 26 份答卷与第
14、 36 份答卷的算术平均值均为 87.8,在平均排序法中并列第 5 名,而特等只能有 5 份,平均排序法处理此问题容易做出错误的决策;在交错分级淘汰法中,名次分别为 24,20,显然第 36 份答卷应为特等而第 26 份答卷应为一等。由表 3 知,对同一份答卷各评委的打分会有很大的差异,直接求算术平均值没有考虑系统误差对评卷结果的影响,这不科学;交错分级淘汰法中,对评委打的原始分以系统误差为权值计算综合评价值,在一定程度上克服了系统误差对评卷结果的影响。例如,第 14 份答卷各评委打的原始分分别为 69,81,78,85,85,第 14 份答卷的算术平均值为 79.6,在平均排序法中为第三等,
15、在交错分级淘汰法中的综合评价值为 80.82,为第二等。对照两种方法的评卷结果,对多数答卷的分级是保持一致的,说明平均排序法在一定程度上是公平的,虽然这种公平性有局限性。平均排序法即交错分级淘汰法的状态转移矩阵 ,记为 7X = 752013610451其中 表示平均排序法评为 ( =1,2,3,4)等的答卷用交错分级淘汰法评为 ( =1,2,3,4) 等的答ijxi j卷占 等答卷的比例。显然由对角线元素知,两种方法所得特等、一等、二等、三等、无奖的重合率分别为:80%、67%、60% 、58% 、71%。表 3 全国大学生数学建模竞赛某赛区评委打分原始数据Tab.3 The mark of
16、 the papers in a certain province region of the Chinese Mathematical Contest in Modeling答卷编号评委编号1 2 3 4 5 6 7 8 9 101 64 60 63 81 36 30 68 73 78 392 81 87 80 96 76 66 90 87 96 683 75 88 86 84 64 67 79 82 83 634 88 88 87 90 69 68 82 84 90 705 77 85 90 93 60 65 92 85 91 58答卷编号评委编号 11 12 13 14 15 16 17
17、 18 19 201 51 57 51 69 71 74 71 87 62 632 65 70 63 81 84 78 72 95 72 753 57 71 68 78 78 81 88 84 79 754 67 87 89 85 82 74 88 80 76 765 68 92 79 85 85 93 90 94 74 82答卷编号评委编号21 22 23 24 25 26 27 28 29 301 77 74 82 54 60 75 74 57 47 592 95 88 85 66 80 94 81 63 58 733 94 82 83 75 88 92 90 69 63 694 84 7
18、5 88 78 92 86 87 78 60 735 97 84 91 82 84 92 92 76 57 61答卷编号评委编号31 32 33 34 35 36 37 38 39 401 71 65 63 74 80 82 55 72 63 772 92 92 76 83 97 93 69 83 76 923 73 65 71 71 85 77 74 84 77 824 91 85 81 94 93 95 79 86 93 875 85 75 66 89 96 92 89 87 89 90选取的样本答卷不同,所得的系统误差会不同,各评委的系统误差对应一个震荡区间,区间的大小反映了该评委系统误
19、差的稳定性。各评委系统误差的震荡区间分别为:(0.839 8841.070 760),(0.871 259 1.084 337),(0.920 6731.148 276),(0.956 1361.118 310),(0.906 1611.183 226) 。各区间长度分别为:0.230 876,0.213 078,0.227 603,0.162 174,0.277 065。参看图 1,易知评委 4 的系统误差最稳定,评委 5 的系统误差最不稳定。图 1 系统误差稳定性分析图Fig.1 The stability analysis on the systematic errors参考文献:1 胡
20、永宏, 贺思辉. 综合评价方法M. 北京: 科学出版社, 2000. 45-46.2 李洁明, 祁新娥. 统计学原理M. 上海: 复旦大学出版社, 1996. 253-273.3 陶菊春, 吴建民. 综合加权平均法的综合权重确定新探 J. 系统工程理论与实践, 2001,(8): 47-48.4 周义仓, 赫孝良. 数学建模实验M. 西安: 西安交通大学出版社, 1999. 369-371.5 徐飞雄. 评比规则问题OL. http:/ , 2002-05-05.6现代应用数学手册编委会. 运筹学与最优化理论卷 M. 北京:清华大学出版社,1997. 323-324.7 周希杰. 基础各异的教
21、学班的教学效果评估OL. http:/ , 2001-05-05.An optimum model of a critically reading systemAbstract: According to some examinations aim for just classifying the papers, not for ordering them, the crossing and classifiable elimination system is given. A multi-objective programming model is formulated in order t
22、o determine the parameters involved in the system. The workload is decreased in this system; systematic errors and random errors influence on the results of the critically reading is reduced, too.Key words: the crossing and classifiable elimination system; overall evaluating value; systematic errors