
生物信息学是数据导向的科学, 大规模测序 是其最重要的数据.ppt
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 文币 0人已下载
下载 | 加入VIP,免费下载 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学是数据导向的科学 大规模测序 是其最重要的数据.ppt
- 资源描述:
-
1、测序中的数学问题 李松岗 北京大学 2002/04/04,生物信息学是数据导向的科学, 大规模测序 是其最重要的数据来源之一,大规模测序与实验室测序的不同,实验室测序:手工操作,效率低,结果是第一位的大规模测序:流水线操作,自动化追求稳定、高效、低成本,两种测序策略:,基于BAC的方法:先把基因组打碎成200300kb的片段并制成BAC文库,再选择一些BAC进一步打碎成3kb左右的小片段,测序并拼接。 全基因组鸟枪法:把基因组直接打碎成3kb左右的小片段,测序并拼接。,基于BAC的方法,全基因组DNA随机打成大片段选择并克隆大片段排序,选择再打碎,克隆,测序,拼接,全基因组鸟枪法,基因组DNA
2、 随机打碎 测序并拼接,近来测序技术的进展,从基于BAC的策略转向全基因组鸟枪法毛细管自动测序仪的广泛使用,全基因组鸟枪法测序的拼接,困难:数据量极大大量重复序列造成拼接途径的不确定,拼接软件的新需求,能充分利用正反向测序的配对信息, 避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据程序并行化高效率比对能逐步拼接,水稻基因组拼接步骤:,采用数学模型识别重复序列 把重复序列屏蔽掉后,根据是否具有重叠部分进行分组 采用大型计算机并行拼接 恢复重复序列,延伸contig 构建scanfold,识别重复序列的数学模型,重复序列识别:,若repeat有m个拷贝,且已知随机序列覆盖深度为0,1,2
