收藏 分享(赏)

2001年全国大学生数学建模竞赛题目(本科组).doc

上传人:精品资料 文档编号:7587402 上传时间:2019-05-21 格式:DOC 页数:26 大小:1.25MB
下载 相关 举报
2001年全国大学生数学建模竞赛题目(本科组).doc_第1页
第1页 / 共26页
2001年全国大学生数学建模竞赛题目(本科组).doc_第2页
第2页 / 共26页
2001年全国大学生数学建模竞赛题目(本科组).doc_第3页
第3页 / 共26页
2001年全国大学生数学建模竞赛题目(本科组).doc_第4页
第4页 / 共26页
2001年全国大学生数学建模竞赛题目(本科组).doc_第5页
第5页 / 共26页
点击查看更多>>
资源描述

1、2001 年全国大学生数学建模竞赛题目(本科组) 全部题目(包括数据)可以从以下网址下载: 网易教育频道A 题 血管的三维重建 断面可用于了解生物组织、器官等的形态。例如,将样本染色后切成厚约如 m 的切片,在显微镜下观察该横断面的组织形态结构。如果用切片机连续不断地将样本切成数十、成百的平行切片,可依次逐片观察。根据拍照并采样得到的平行切片数字图象,运用计算机可重建组织、器官等准确的三维形态。假设某些血管可视为一类特殊的管道,该管道的表面是由球心沿着某一曲线(称为中轴线)的球滚动包络而成。例如圆柱就是这样一种管道,其中轴线为直线,由半径固定的球滚动包络形成。现有某管道的相继 100 张平

2、行切片图象,记录了管道与切片的交。图象文件名依次为0.bmp、1.bmp、99.bmp,格式均为 BMP,宽、高均为 512 个象素(pixel)。为简化起见,假设:管道中轴线与每张切片有且只有一个交点;球半径固定;切片间距及图象象素的尺寸均为 1。取坐标系的 Z 轴垂直于切片,第 1 张切片为平面 Z=0,第 100 张切片为平面Z=99。Z= Z 切片图象中象素的坐标依它们在文件中出现的前后次序为(256,256, Z),(256,255, Z),( 256,255, Z)(255,256, Z),(255,255, Z),( 255,255, Z)(255,256, Z),(255,25

3、5, Z),(255 ,255, Z)。试计算管道的中轴线与半径,给出具体的算法,并绘制中轴线在 XY、YZ、ZX平面的投影图。下面是 100 张平行切片图象中的 6 张,全部图象请从网上下载。关于 BMP 图象格式可参考:1 VisualC+ +数字图象处理第 12 页 2.3.1 节。何斌等编著,人民邮电出版社,2001 年 4 月。2http:www.dcs.ed.ac.ukhomemxrgfx2dBMP.txtB 题 公交车调度公共交通是城市交通的重要组成部分,作好公交车的调度对于完善城市交通环境、改进市民出行状况、提高公交公司的经济和社会效益,都具有重要意义。下面考虑一条公交线路上公

4、交车的调度问题,其数据来自我国一座特大城市某条公交线路的客流调查和运营资料。该条公交线路上行方向共14站,下行方向共13站,下面给出的是典型的一个工作日两个运 行 方 向 各 站 上 下 车 的 乘 客 数 量 统 计 。 公 交 公 司 配 给 该 线 路 同 一 型 号 的 大 客 车 , 每辆 标 准 载 客 100人 , 据 统 计 客 车 在 该 线 路 上 运 行 的 平 均 速 度 为 20公 里 小 时 。 运 营 调度 要 求 , 乘 客 候 车 时 间 一 般 不 要 超 过 10分 钟 , 早 高 峰 时 一 般 不 要 超 过 5分 钟 , 车 辆 满载 率 不 应 超

5、 过 120 , 一 般 也 不 要 低 于 50 。试 根 据 这 些 资 料 和 要 求 , 为 该 线 路 设 计 一 个 便 于 操 作 的 全 天 (工 作 日 )的 公 交 车 调度 方 案 , 包 括 两 个 起 点 站 的 发 车 时 刻 表 ; 一 共 需 要 多 少 辆 车 ; 这 个 方 案 以 怎 样 的 程 度照 顾 到 了 乘 客 和 公 交 公 司 双 方 的 利 益 ; 等 等 。如 何 将 这 个 调 度 问 题 抽 象 成 一 个 明 确 、 完 整 的 数 学 模 型 , 指 出 求 解 模 型 的 方 法 ; 根据 实 际 问 题 的 要 求 , 如 果

6、 要 设 计 更 好 的 调 度 方 案 , 应 如 何 采 集 运 营 数 据 。站 名 A13 A12 All A10 A9 A8 A7 A6 A5 A4 A3 A2 A1 A0站 间 距 (公 里 ) 1.6 0.5 1 0.73 2.04 1.26 2.29 1 1.2 0.41 1 1.03 0.535: 006: 00 上 371 60 52 43 76 90 48 83 85 26 45 45 11 0下 0 8 9 13 20 48 45 81 32 18 24 25 85 576: 007: 00 上 1990 376 333 256 589 594 315 622 510

7、176 308 307 68 0下 0 99 105 164 239 588 542 800 407 208 300 288 921 6157: 008: 00 上 3626 634 528 447 948 868 523 958 904 259 465 454 99 0下 0 205 227 272 461 1058 1097 1793 801 469 560 636 1871 14598: 009: 00 上 2064 322 305 235 477 549 271 486 439 157 275 234 60 0下 0 106 123 169 300 634 621 971 440 24

8、5 339 408 1132 7599: 0010: 00 上 1186 205 166 147 281 304 172 324 267 78 143 162 36 0下 0 81 75 120 181 407 411 551 250 136 187 233 774 48310: 0011: 00 上 923 151 120 108 215 214 119 212 201 75 123 112 26 0下 0 52 55 81 136 299 280 442 178 105 153 167 532 38511: 0012: 00 上 957 181 157 133 254 264 135 25

9、3 260 74 138 117 30 0下 0 54 58 84 131 321 291 420 196 119 159 153 534 34012: 0013: 00 上 873 141 140 108 215 204 129 232 221 65 103 112 26 0下 0 46 49 71 111 263 256 389 164 111 134 148 488 33313: 0014: 00 上 779 141 103 84 186 185 103 211 173 66 108 97 23 0下 0 39 41 70 103 221 197 297 137 85 113 116 3

10、84 26314: 0015: 00 上 625 104 108 82 162 180 90 185 170 49 75 85 20 0下 0 36 39 47 78 189 176 339 139 80 97 120 383 23915: 0016: 00 上 635 124 98 82 152 180 80 185 150 49 85 85 20 0下 0 36 39 57 88 209 196 339 129 80 107 110 353 22916: 0017: 00 上 1493 299 240 199 396 404 210 428 390 120 208 197 49 0某路公交

11、汽车各时组每站上下车人数统计表 上行方向:A13 开往 A0站 名 A0 A2 A3 A4 A5 A6 A7 A8 A9 A10 All A12 A13站 间 距 (公 里 ) 1 5610 441,20 972 291320 7310,51, 625: 006: 00 上 22 3 4 2 4 4 3 3 3 1 1 0 0下 0 2 1 1 6 7 7 5 3 4 2 3 96: 007: 00 上 795 143 167 84 151 188 109 137 130 45 53 16 0下 0 70 40 40 184 205 195 147 93 109 75 108 2717: 00

12、8: 00 上 2328 380 427 224 420 455 272 343 331 126 138 45 0下 0 294 156 157 710 780 849 545 374 444 265 373 9588: 009: 00 上 2706 374 492 224 404 532 333 345 354 120 153 46 00下 0 266 158 149 756 827 856 529 367 428 237 376 11679: 0010: 00 上 1556 204 274 125 235 308 162 203 198 76 99 27 0下 0 157 100 80 4

13、10 511 498 336 199 276 136 219 55610: 0011: 00 上 902 147 183 82 155 206 120 150 143 50 59 18 0下 0 103 59 59 246 346 320 191 147 185 96 154 43811: 0012: 00 上 847 130 132 67 127 150 108 104 107 41 48 15 0下 0 94 48 48 199 238 256 175 122 143 68 128 34612: 0013: 00 上 706 90 118 66 105 144 92 95 88 34 40

14、 12 0下 0 70 40 40 174 215 205 127 103 119 65 98 26113: 0014: 00 上 770 97 126 59 102 133 97 102 104 36 43 13 0下 0 75 43 43 166 210 209 136 90 127 60 115 30914: 0015: 00 上 839 133 156 69 130 165 101 118 120 42 49 15 0下 0 80 85 135 194 450 441 731 335 157 255 251 800 55717:0018:00 上 2011 379 311 230 49

15、7 479 296 586 508 140 250 259 61 0下 0 110 118 171 257 694 573 957 390 253 293 378 1228 79318:0019:00 上 691 124 107 89 167 165 108 201 194 53 93 82 22 0下 0 45 48 80 108 237 231 390 150 89 131 125 428 33619:0020;00 上 350 64 55 46 91 85 50 88 89 27 48 47 11 0下 0 22 23 34 63 116 108 196 83 48 64 66 204

16、13920:0021:00 上 304 50 43 36 72 75 40 77 60 22 38 37 9 0下 0 16 17 24 38 80 84 143 59 34 46 47 160 11721:0022:00 上 209 37 32 26 53 55 29 47 52 16 28 27 6 0下 0 14 14 21 33 78 63 125 62 30 40 41 128 9222:0023:00 上 19 3 3 2 5 5 3 5 5 1 3 2 1 0下 0 3 3 5 8 18 17 27 12 7 9 9 32 21某路公交汽车各时组每站上下车人数统计表 上行方向:A

17、13 开往 A0某路公交汽车各时组每站上下车人数统计表 上行方向:A0 开往 A13某路公交汽车各时组每站上下车人数统计表 上行方向:A0 开往 A13DNA 序列的分类模型汤诗杰, 周 亮, 王晓玲指导老师: 孙广中(中国科技大学,合肥 230026)编者按:本文提出了 DNA 序列分类的三种模型其一,基于 A、G、T 、C 四种碱基出现的频率;具二利用了同碱基在序列中的间隔。这一信息是单纯考虑频率所不能包含的;在第三种模型中作者把DNA 序列视为一个信息流考虑每增加一个字符所带来的信息增量尽管文中信息量的定义方式仍可讨论,但本文思想新颖活跃,有其独特之处本文最后的分类方法足以上三种的综合使

18、用摘要:本文针对 DNA 序列分类这个实际问题,提出了相应的数学模型为了很好的体现 DNA 序列的局部性和全局性的特征我们给出厂衡量分类方法优劣的标准,即在满足一定限制条件的情况下是否能充分反映序列的各方面特性依据我们提出的判别标准。单一标准的分类是无法满足要求的,我们的方法是侧重点不同的三种方法的综合集成这三种方法分别体现了序列中元素出现的概率,序列中元素出现的周期性,序列所带有的信息含量利用这个方法完成了对未知类型的人工序列及自然序列的分类工作最后。对分类模型的优缺点进行了分析,并就模型的推广作了讨论1 问题的提出(略)2 问题的分析这是一个比较典型的分类问题,为了表述的严格和方便,我们用

19、数学的方法来重述这个问题已知字母序列 其中 ;有字符12340123,iSSxn ,jxatcg序列集合 A,B,满足 并当 时, 现要,i;120.iSAiBi当 时求考虑当 与集合 A 及集合 B 的关系240ii时在这里,问题的关键就是要从已知的分好类的 20 个字母序列中提取用于分类的特征知道了这些特征,我们就可以比较容易的对那些未标明类型的序列进行分类下面我们将首先对用于分类的标准问题进行必要的讨论3 分类的标准及评价首先,我们提取的特征应该满足以下两个条件:(1)所取特征必须可以标志 A 组和 B 组也就是说,我们利用这些特征应该可以很好的区分已经标示分类的 20 个序列这是比较显

20、然的一个理由(2)所取特征必须是有一定的实际意义的这一点是决不能被忽视的比如,如果不考虑模型的实际意义,我们就可以以序列的开头字母为分类标准:已知在 B 类中的十个序列都是以 gt 开始的,而已知在 A 类中 10 个序列没有以 z2 开始的,甚至以算开始的都没有显然这是满足上面的第一个条件的如果仅因此就认为这种特征是主要的,并简单的利用这个特征将所有待分类的序列分成两类,显然是不甚合理的对于这样的一个复杂的分类问题,需要考虑的因素很多,也是就说,可供我们使用的分类特征有许多如何从众多的因素中提取分类的主要因素,是我们处理这个问题的困难之处上面的第一个条件是我们的分类方法所必须满足的,可以看作

21、是个限制条件;而第二个条件是我们在设计分类方法时必须考虑到的,可以看作是对分类方法优劣的一种衡量,是某种意义下的目标函数4 模型的建立及分析由上面的分析可知,由于 DNA 序列本身的复杂性,我们很难在不知道确切的分类标准的情况下,使用单一的方法来处理这个分类问题由于,DNA 序列同时具有局部性和全局性的特征,我们尝试综合使用几种设计思想不同的方法来处理这个问题,以使该分类方法具有好的分类性能和相当的健壮性下面我们先从不同的角度出发,提出三种侧重点不同的分类方法,第一种从频率角度出发,第二种从字母出现的周期性的角度出发,第三种从序列所带的某方面的信息量出发,并给出它们单独使用时的分类结果我们认为

22、,这三方面综合考虑,可以较好的体现出序列各个方面的特征,最后,从这三种方法出发,得到一个综合系统的分类方法,并利用它得到了最终的 182 个序列的分类结果方法 1 基于字母出现频率不同段的 DNA 中,每个碱基出现的概率并不相同,从生物理论中,我们知道,编码蛋白质的 DNA 中 G、C 含量偏高,而非编码蛋白质的 DNA 中 A、T 含量偏高因此,A、G、T 、C 的频率中会含有很多的信息,下面给出 A、 B 组的频率统计见表 1,表2(略) 由统计的数字可以看出,A 组的碱基构成与 B 组的碱基构成有较大的不同A 组的 G含量较高,B 组的 T 含量较高为做定量化的分析,引入数学中的内积概念

23、,即将A、T 、 G、C 的频率分别作为四维向量的四个分量 ( ),现在我们得到两组向,GTCP量 ,然后将未知的序列 2140 作为一个新的向量 C,要将它归人,(1,230)i A 组或 B 组,我们可以尝试在 Hilbert 空间中将向量归一化后求 C 与 A 组和 B 组的平均距离记 、 、 为归一化后的向量为此,我们计算内积和 ,其中Cii 1010iii与内积定义为欧氏度量引导出的内积(c 1,c 2,c 3,c 4)(a 1,a2,a3,a4)c lal+c2a2+c303+c4a4.即|AGTCGTC未 知(P,)(,P内 积 =未 知内积小的两个序列,我们可以认为它们的相关性

24、小,而内积大的序列,我们就认为其相关性大因此,如果 则认为 C 应归人 A 类,否则认为它应归人 B1010iii B类由此,我们找到了区分 C 组的一种方法,这种比较 的方法,我们1010iiiC和可以归纳为一个目标函数 F1(l),即 101()iiiiCAFlB表 3未知的序号 与 A 组的内积 与 B 组的内积 属于的类型 未知的序号 与 A 组的内积 与 B 组的内积 属于的类型123456789100.8157810.9269220.9397270.7885240.9481940.8012010.953019.07460710.9310070.8977740.9388140.803

25、9520.6568270.9371350.7720760.9301210.766950.9680350.6131930.844082BAABABABAA111213141516171819200.8522310.8669760.8609550.9616890.9603220.9042820.9447240.758620.8856310.755840.9209570.85396709171220.676780.7390890.7475780.7236640.9546520.8118370.941BABAAAABAB方法一讨论 这种方法是从概率统计的角度分析问题,通过对每个字母出现频率的计算,找出

26、 A,B 两类 DNA 链中的频率特性,建立四维向量空间,然后对待求分类的序列统计频率,与已知分类的向量进行内积运算,找出量化的关联性,从而将其分类但这种方法也有其局限性,在统计字母出现的频率时,忽略了字母所在位置以及各个字母之间的相互关系,造成用这种方法对已知分类的序列进行检验时,个别频率特性不明显的序列不太容易分类所以,这种方法虽然有其科学性,但还不够完善,不能完全体现序列的所有特征方法二 基于字母出现周期性在以上进行了基于字母出现频率的分类之后,我们认为,一个序列所含的信息远不止每个字母出现的频率,还有字母出现和它前后若干个字母的相关联性,字母在序列中出现的规律性等等前一个问题我们留到下

27、面讨论,现在我们想办法处理后一个问题对于某单个字母,以 d 为例,假设它在序列中第九,扎。,扎+, ,个位置出现,我们试图找出这些数字之间的关联首先,可以认识到考查乙的分布及绝对值是意义不大的,因为序列是一大段 DNA 中的一个片断,片断的起始段不同会导致乙的不同于是为了抵消打的线性位移,考虑下面一组值1iist1,2ik即字母“出现的间距可以看出,序列 的大小包含的信息是“的“稠密度” ,也可看成一个与12,ns 频率有关的量,前面已经处理过所以我们可以考虑序列 的波动幅度,幅12,nss 度越小,说明 的值越趋于统一,即 a 的出现周期性越大而表征波动幅(,)isk 度的量在统计中是中心矩

28、现求, ;的二阶中心矩,即方差 21121(,)(),ninaniil sVrsss 同理,可以求出 Varg, 、 Vart, 、Var c,由所得数据知,对 Varg 与 Vart,上述方法对 A、B 组的区分率很高,就有良好的可分辨性为了强调这种特征的显著性,我们用 F2Var gVar t 作为这种方法的目标函数由图 1 可以看出点与原点连线的斜率在 A 组中和 B 组中有显著差别,根据这个特征,A 组和 B 组可以很好地区分开来。并且较好地弥补了方法一中的不全面之处方法二讨论 这种方法是从序列中相邻相同字母之间的距离即字母出现的周期性着手分析的它统计了每个字母在序列中两次出现的间隔,

29、并且用方差度量这种间隔的波动大小,由此找到了一个能较好区分 A,B 组的目标函数,综合地考虑了序列全局和局部的性质方法 3 基于序列熵值我们可以把一串 DNA 序列看成一个信息流,这与生物学的基础知识是相应的关于A、B 的分类,可以考虑其单位序列所含信息量(即熵) 的多少从直观上来看,我们可以认为,重复得越多,信息量越少 这是我们通过观察 A、B 组的特点而归纳出的方法设序列为 L(a 1,a2,a3,an),前 m 个字符所带的信息量为 记()mfl1()(),mglfll即 为加上第 m 个字母之后所增加的信息量然后,由 ,得()mgl 1()()mmglfll为整个序列所带的信息量。 即

30、为单位长度所带的信1,()ninflfl则 31|nfFl息量,现在的问题就归结为如何找出一个合适的 。()mgl我们有理由认为:g 具有以下性质:性质 即任意加上一个字符,它或多或少带有一定信息量;1:()0.ml性质 2:第 m 个字符(或者是以它结尾的较短序列)与前面的序列( 信息流)重复得越多, 的值必然越小;()gl性质 3:第 m 个字符(或者是以它结尾的较短序列)如果和与它靠得越近的重复, ()mgl的值越小;和与它离得越远的重复, 的值越大;()mgl性质 04:.fl对此,我们可以构造如下函数: 12()mpbgltt 其中 b 为防止分母为零而设的一个小正数; 1;tiia

31、以第 m-t 个字符结尾的 i 字串且与以第 t 个字符结尾的 i 字串完全相同0it否则a 为一个小于 1 的数,其存在体现了 A的性质 3,即如果越近的位置出现重复,认为字串信息量越少,反之较多的表达式中,t 表示两个相同字串之间的距离,i 表示宇串长度,这个表达式定量的i给出距离和信息量之间的关系又由于长度不同的字串重复对信息量的影响是不同的,所以必须在 前乘上一个权值i,由概率统计的知识可知,这种影响是呈指数上升的,则可选择一适当的常数 c1,使得itti ,这个表达式定量的给出长度和信息量之间的关系1c可以认为,宇串长度太大的重复非常少见,则可将户取为某一固定的正数那么,给出 a、b

32、、c、p 参数,就可以把 严格确定下来通过反复上机搜索,我们认为,取 ,nf 6p即只检查长度为 1 到 6 的字串即可另外,职 可以将 A、B 组 值分得较开,并可以用来处理0.392,.1,3bc3()Fl未知数据方法三讨论 这种方法从序列的信息量(熵) 人手,认为当序列中有大量的重复元素时,信息量就会比重复少的序列所含有的信息少所以,其侧重点是是序列前后的重复性,也就是序列元素的相关性从所给的 A,B 两类中可以很清楚地看到 B 中序列重复量大,所含的信息明显少于 A 组,而这个特征就被我们定义的熵函数凸显出来将 DNA 序列看成一个信息流的方法由于其在实际问题中的广泛背景,将会是一个很

33、有价值的想法,统计学和信息论的一套非常成熟的强大工具也会在 DNA 研究中发挥巨大的作用综合模型的建立以上我们分别用三种方法得出了分类方案,这三种方案分别基于三种不同的方面对问题进行分析第一种方法主要考虑的是单个字母出现的频率;第二种方法主要考虑每个字母的出现是否具有周期性;而第三种方法则考虑的是每条 DNA 所蕴含的信息量我们将这三种方法对 A、B 组自身进行了检验,都得到了较令人满意的结果,但因为每个模型都只突出考虑序列某一方面的特征,所以,总有一些不尽如人意的地方,于是,我们认为应该把三种方法综合起来考虑,使序列各方面的特征都能得到体现,以使分类更加科学下面就是我们将几种方法综合考虑得到

34、最后结果以上我们用三种方法得到了三个目标函数: ,这三个目标函数可以123(),()Fll作为分类的判别标准将它们看成定义在序列空间,作用于实轴上的函数现在,我们必须|, Llagtc是 由 四 个 字 母 组 成 的 序 列 上找到一个函数 F,使得 F 可以体现序列的各个特征。由于 的值域范围差别很大,为了有效的比较这三个函数,我们必须123(),()ll将它们归一化,将 看成一定义在上空间上的随机变量,A,为1,2)iif以 下 同L 的子集,则将 归一化得i(1)1iiiEgVar代入(1)即得 i现估计 投射 L 的点到实轴上后, 的分界点 其中ig()iigAB和 ,ix()|ia

35、Bb以 为例,A 的 10 个样本点和 B 的 10 个样本点不能被一个分界点分开,有极大似然1g估计的思想,分界点应该把尽可能多的点分开,即(0.27658,.4296)ix由于 的分布未知,故只能假设其满足较均匀的分布,则 A,B 的分界点的最好估()igl计为 而 (由 g 的定义) ,恰好,2iiEAB201()()()ii iiEgABgl的 矩 估 计 为是分界点的最佳估计。10(.7658,0.496,0x则同理, 分界是 对应分界点的最佳估计。23x23,g令 ,则其分界点12Faga12300xaa由 F 的构造方法知,F 作用到 A 样本上大于零,作用到 B 样本上小于零,

36、我们确定适当的权值,以此作为 A,B 的分类法即可。根据不同的实际情况,可以相应调节这三个权值,以体现分类中的不同因素所在的比重,在下面的计算中,我们简单的取 a1=1, a2=-1, a3=0.5.得到的结果如表 4,表 5 所示。表 4序号 目标函数值 序号 目标函数值 序号 目标函数值 序号 目标函数值A组123451.802881.758942.58870.275822.1781A组6789101.753551.251151.413711.90111.97282B组1112131415-1.38528-1.22372-0.940004-0.93612-2.27462B组16171819

37、20-2.60295-0.0165438-1.31022-2.6043-3.603表 5序号 目标函数值 类别 序号 目标函数值 类别21222324252627282930-1.964540.8732792.32887-1.480051.21328-1.1841.22569-3.716162.692720.550393BAABABABAA31323334353637383940-1.06638-0.668504-0.8770532.609041.695351.222981.83991-3.014660.499763-2.77993BBBAAAABAB由以上数据可以看出,我们构造的目标函数具有

38、较好的区分度对于 A 组,目标函数值都大于零;而对 B 组,目标函数值都小于零也就是说,用这种方法,对 A、B 组样本的区分率已达到了 100正如前面所说,这种方法综合了序列中的许多信息因此,我们完全可以采用这个标准来区分 C 组表 5 是对 C 组区分的结果对 20 个未标明分类的人工序列的分类结果为:A 类:2 2, 23, 25, 27, 29, 30, 34, 35, 36, 37, 39 B 类 : 2l, 24, 26, 28, 31, 32, 33, 38, 40同样的,我们利用这种方法对所给的 182 个自然序列进行了分类,结果如下所示(略)5 模型的评价及推广在我们的模型基础

39、上提出的分类方法可以很好的验证已知的 20 个序列,并且很好的完成了对未知类型序列的分类我们认为这种模型,同时考虑了序列中元素的局部性质和序列的全局性质,具有相当的实际背景当我们知道分类标准的更多信息时,我们可以很方便的调整模型中的参数,使之符合新的情况,具有很好的自学习性但这个模型比较复杂,在实际计算中参数选择需要花费大量计算时间进行搜索我们在模型中使用的基于信息流的方法中,如果选取更为合适的熵函数,一定可以使它更加符合实际情况;在三种方法综合的时候,所取的权值也是可以采用更为有效的方法选取,如应用层次分析法;还可以选取其他分类方法加入这些都是本模型可以改进的地方参考文献1 姜启源数学模型(

40、 第:版) 高等教育出版社,19922刘郁强等序列空间方法广东科技出版社19963刘祖洞遗传学( 第二版高等教育出版社:19914姜 丹钱玉美信息理论与编码,中国科学技术大学出版社.19925王玲玲等常用统计方法华东师范大学出版社.19946陆 璇应用统计.清华大学出版社1999DNA 序列中的结构与简化模型孟大志(北京工业大学,北京 100022)摘要:本文简述 2000 年全国大学生数学建模竞赛 A 题的科学研究背景,以及题目的立意和设计进而对解答 A 题的大学生们的出色方法进行介绍与评述1 引 子这是我第一次参与全国大学生数学建模竞赛,深深地被这一十分有意义的赛事蒸蒸日上的发展所鼓舞,为

41、在赛事中涌现出来的青年学生们聪明才智和对科学强烈的热爱而惊喜,为自己在这次参与中学到的和感受到的十分有益的影响而兴奋2000 年 7 月清华的唐云教授电话约我为竞赛出一道题,出于个人兴趣,也出于希望青年学生更关注在重大科学问题中运用数学和发展数学,于是就在全世界被人类基因组计划的成果掀起的巨大热潮中,找一个题目,以期诱导有志青年投入这一二十一世纪的科学热点中我和领导建模比赛的全国组委会的一些教授们(叶其孝、姜启源、王强、唐云等 )共同讨论了这个题目,反复修改和润色,希望更适合中国大学生的实际但一直担心这样一个热点科学中引出的问题,一个开放式问题的太大的自由度是否会为难青年学生结果出人意料,特别

42、是重点大学的参赛队,十分热烈地选择 A 题作为他们一显身手的考卷,而且答出了同样出乎意料的水平然而在 A 题的理解、解法及评判的一系列问题中,仍有许多问题需要明确,于是我应组委会之邀,特写此文力窥全豹,也对参与竞赛的师生们作一个交待2 A 题的背景2000 年 6 月 26 日, “人类基因组计划”规定的禁发时间(EMBARGO)北京时间 18:00刚过,新华社、法新社、美联社、路透社各国新闻发布机构以第一条消息发布了人类基因组草图绘就的重要消息美国总统克林顿在白宫举行的庆祝仪式上表示,人类基因组草图是迄今“人类所绘制的最为奇妙的图谱” ;英国首相布莱尔说:“这是 21 世纪第一项伟大的科技成

43、就医学科学领域一场革命,其意义远远超过抗生素的发现” ;日本首相森喜郎在声明中指出,人类基因组草图绘制成功,代表人类在破解自身构成方面向前迈出巨大的一步;许多国家的元首,科技官员和著名科学家纷纷发表谈话,赞扬人类基因组草图的完成,评估这一伟大成果的意义直到 6 月 28 日,中国主席江泽民在中央思想政治工作会议上也对人类基因组的意义作出评价并赞扬了中国科学家在其中的出色工作 1显然,当 7 月份组委会提出建模赛题一事时,顺应这一世纪科学大事,在其中构造赛题,将引导青年学子关注世界科技热点,鼓励学生敢于投身到科学重大问题中去,培养学生用数学为工具去解决科学技术问题的能力方面都具有了特殊的意义20

44、03 年将完成人类基因组 DNA 全序列的测序,它将带给人类一本“自身的说明书” ,这对人类认识自己,保护自身,发展新的生物产业都将是意义重大的在许多科普读物中,将人类基因组全序列这部“书”描绘成一座巨大金矿,解读这部书就是从中发掘出无量的财富,这种比喻一点儿也不过分生命科学称这一研究阶段为“后基因组时期”或“后基因组计划”(PostGenome Project),而将数学与计算机科学融人这一计划之中,又常被人称为生物信息学(Bioinformation)人类基因组研究中已经浮现出大量的数学问题,已为世界上众多数学家关注 2作为解读基因组这一庞大计划的一个十分重要而又基础的部分,就研究基因组的

45、结构,而其中更基础的是 DNA 序列的结构 “结构”这个词在这里的含义是十分广泛的,也就是说,作为由 A、T、C、G 四个字符组成的一个有序字符串,任何呈现规律性的特征都可以称为结构由于规律呈现范围不同,我们又可以分为局部结构与整体结构,或称小尺度结构与大尺度结构,这些结构的揭示将大大有助于人们对于基因与基因组的解读这一点可以形象地比喻为一部 100 万页的书,如果我们能够知道这部“天书”的篇、章、节的结构,甚至段落、语句或词的结构都清楚了,要读懂这部书的内容就变得容易了从这种意义上说,DNA 序列的结构的研究显然是生物信息学中重要的内容之一本届数学建模比赛的 A 题是在这一世界科学发展的大背

46、景下,作为二十世纪最后一届比赛,以翘首二十一世纪的姿态,选择基因组研究为命题的学科领域以后基因组计划中生物信息的 DNA 序列结构作为课题,是顷应时代潮流的具有前瞻性的选题,3 A 题的立意在 A 题设计之前,立意就很明确:源于科学实际,解法充分开放本题取材于 DNA 的结构的研究,这里的结构指的是在 DAN 序列中重复出现的有特征的片断,这种重复出现形成丁规律由于结构的含义是广泛的,担心学生因此而无从下手,我们特别举出三种结构为例,其目的仅仅是为了说明,DNA 序列貌似随机地由A、T、C、G 四个字符组成,但它之所以有 “万能”的功能,正是由于在随机的外衣下隐藏着大量的结构,正是这种结构决定

47、了功能因此,在生物信息学中,人们普遍相信这样一个信条:序列结构一一功能这一信条引导人们成功地在 DNA 序列中挖掘出许多与生物功能相关的自然规律。在 A 题中举出的三种结构是十分基础而且在科学界广泛为人们所接受的一种是四种碱基的丰度,对于 DNA 序列的不同的片段常常表现出碱基丰度的差别,因此碱基的丰度往往成为区别不同序列片段的特征;第二种是三联子对蛋白质的编码,它首先由发现 DNA 双螺旋结构的克里克和南非的分子生物学家西德尼布伦纳确定的,这种不重叠的三联子组成的编码区(Exon)与非编码区的交替出现形成了 DNA 序列中一个重要的结构如果读者想了解这一方面的知识只要在互联网上搜索“Exon

48、Intron Structure”,你会得到供选读的大量文献;A 题举的第三个例子是所谓 DNA 序列的长程相关性,这一规律最早由 CKPeng 等人在 1992 年 Nature 上报导 3,此后人们研究了各种DNA 长序列,分别发现了 DNA 序列在大尺度的范围内具有统计相关性,然而这种相关性的细节及意义至今还是一个迷A 题中举出这三种结构,也为了说明在 DNA 序列的结构中既有大尺度全局性的,也有局部性的,研究和发现 DNA 序列中的这些规律均有重要意义正由于这种结构的多样性和一般性,为求解 A 题确定了解法的开放性虽然事实上许多试卷都把这一结构理解成为编码区与非编码区,但这种局限性的理解并没有比一般性理解结构的试卷更好些A 题定义结构的一般性,有两方面的理由一方面希望在求解 A 题时对生物知识的依赖不要太多,除了最基本的 DNA 序列的背景外,解题中并不需要有更多的基因组结构的知识(例如,是否知道 Exon 与 Intron 并无大关系 )这样做是为了在“数学建模”这一基本的专业性质下平等第二个方面就是

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报