分享
分享赚钱 收藏 举报 版权申诉 / 33

类型生物信息学是数据导向的科学, 大规模测序 是其最重要的数据.ppt

  • 上传人:涵涵文库
  • 文档编号:5538237
  • 上传时间:2019-03-06
  • 格式:PPT
  • 页数:33
  • 大小:1.25MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    生物信息学是数据导向的科学 大规模测序 是其最重要的数据.ppt
    资源描述:

    1、测序中的数学问题 李松岗 北京大学 2002/04/04,生物信息学是数据导向的科学, 大规模测序 是其最重要的数据来源之一,大规模测序与实验室测序的不同,实验室测序:手工操作,效率低,结果是第一位的大规模测序:流水线操作,自动化追求稳定、高效、低成本,两种测序策略:,基于BAC的方法:先把基因组打碎成200300kb的片段并制成BAC文库,再选择一些BAC进一步打碎成3kb左右的小片段,测序并拼接。 全基因组鸟枪法:把基因组直接打碎成3kb左右的小片段,测序并拼接。,基于BAC的方法,全基因组DNA随机打成大片段选择并克隆大片段排序,选择再打碎,克隆,测序,拼接,全基因组鸟枪法,基因组DNA

    2、 随机打碎 测序并拼接,近来测序技术的进展,从基于BAC的策略转向全基因组鸟枪法毛细管自动测序仪的广泛使用,全基因组鸟枪法测序的拼接,困难:数据量极大大量重复序列造成拼接途径的不确定,拼接软件的新需求,能充分利用正反向测序的配对信息, 避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据程序并行化高效率比对能逐步拼接,水稻基因组拼接步骤:,采用数学模型识别重复序列 把重复序列屏蔽掉后,根据是否具有重叠部分进行分组 采用大型计算机并行拼接 恢复重复序列,延伸contig 构建scanfold,识别重复序列的数学模型,重复序列识别:,若repeat有m个拷贝,且已知随机序列覆盖深度为0,1,2

    3、的概率:g0 , g1 , g2 ,则一次抽样repeat覆盖深度为0,1,2,的概率P0, P1, P2,为:,n次抽样,其中i次以上 深度在j以上的概率Pij,设一次抽样深度在j以上和以下的概率分别为:Pj,Pj+;,n次抽样,其中i次以上深度在j以上则认为是repeat,此时犯两类错误的概率 为:,设repeat在基因组中的比例为b,出现概率为P,非repeat出现概率为P* ,则:,MDR (Mathematically-Defined Repeat) vs. BDRs (Biologically-Defined Repeats),BDR (25%),BDR (50%?),MDR (4

    4、2.2%),人与水稻基因组中重复序列分布的差别,Contigs:127,550 (N50=6,688 bp),Scaffolds: 102,444 (N50=11,764 bp),Quality: 546 bp at Q20,进一步工作的设想,新拼接程序 步骤: 利用覆盖深度模型纠正测序错误 采用严格比对快速确定所有可能的重叠 利用图论或线性代数方法完成拼接,纠正测序错误,对6X左右鸟枪法测序数据,统计所有20碱基长小片段出现次数; 对每一个read,顺序标出它的小片段出现次数; 若有连续一串1出现,则可能有测序错误存在,应进行纠正。,消除测序错误的好处:,可区分部分重复序列; 可采用严格比对的方法,提高计算速度; 有利于简化拼接算法; 有利于后期数据分析,例如SNP识别等。,

    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:生物信息学是数据导向的科学, 大规模测序 是其最重要的数据.ppt
    链接地址:https://www.docduoduo.com/p-5538237.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开