1、动植物重测序五大研究方案2013/08/01随着越来越多的物种基因组被破译,重测序的应用也日趋广泛。历时半年,华大科技科研团队根据动植物群体样本类型以及研究领域特点,并融合多年的项目经验,隆重推出重测序研究五大方案,为您提供系统全面的一站式服务,助力项目申请和高水平文章的发表! 方 案 一 : 育 成 动 植 物 驯 化 基 因 挖 掘 方 案研 究 目 的 :针对不同的品种/品系,通过群体内 pooling 建库的方法,进行全基因组重测序(5X/群体),采用生物信息学方法全基因组范围内扫描变异位点,并进行选择性清除分析(Selective Sweeps),结合相关区域的基因功能注释信息,挖掘
2、驯化相关的基因,剖析家养动植物的驯化条件、驯化过程及其进化动力。技 术 路 线 : 研 究 方 案 :样本量选择: 家养动植物各品系,及其现存祖先种(每个品系可以选择10 个个体等量 DNA 混合 pooling);测序策略选择: 各品系多个个体 pooling DNA 样品进行 PE101 测序;测序深度选择: 全基因组重测序5X coverage /品系。 适 用 范 围 :驯化动物:如家鹅、家鹅、家鸭、家猫、家牛等;栽培植物:如水稻、玉米、小麦、大豆等粮食作物;苹果、梨、苜蓿、葡萄等经济作物。 方 案 特 色 :1、 高效快速:不需要作图群体,只需要驯化动植物的现有各品种的 DNA 样本
3、;2、 成本降低:通过将同一品系中的多个个体(10 个左右)进行 pooling 测序,在兼顾品系代表性的同时最大限度地降低了测序量;3、 可行性高:目前,运用该思路成功完成驯化研究的动物包括家蚕、家鸡和家犬。 经 典 案 例 : 样品选取: 分布于世界各地的不同品系的狼和犬,其中狼 7 个品系,犬 14 个品系 测序策略 对 12 只狼的 DNA 样本进行 pooling 测序,深度为 6.2X;对 60 只犬的 DNA 样本进行 pooling 测序,测序深度为 29.8X 分析结果 识别了 380 万个遗传变异位点; 在犬的基因组中共发现 36 个明显受驯化选择的区域,包含 122 个基
4、因; 发现 19 个与脑发育相关的基因、 3 个与精子受精过程竞争相关的基因、10 个与淀粉和脂肪代谢相关的基因。参 考 文 献 :1Rubin, C. J. et al. Whole-genome resequencing reveals loci under selection during chicken domestication. Nature 464,587-591;2Leonard, J. A. et al. Ancient DNA evidence for Old World origin of New World dogs. Science 298, 1613-1616. 方
5、 案 二 : eQTL 方 案 研 究 目 的 : 通过测序获得各基因型的表达数据,并作为一个数量性状,进行基因表达的数量定位分析(eQTL),进而寻找控制基因表达的上游调控位点,挖掘受该基因调节的下游基因及与该基因协同作用的基因,并建立基因调控网络,从而在表达及调控两个水平上研究控制复杂性状的遗传基础。技术路线:研 究 方 案 :样本量选择: 分离群体(DH, RIL, F2,F3 ,BC 等),建议样本数 100 个以上。测序策略选择: 有参考基因组:芯片测序/重测序(3-5X/样品)+RNA-Seq(5M clean reads/样品) ;无参考基因组:转录组测序(2-4G clean
6、data /样品) ;项目周期: 样本个数100,需 90 个工作日;样本个数100,需根据实际项目情况而定。 适 用 范 围 :拥有作图群体的动植物。 方 案 特 色 :1、 更精细的遗传连锁图谱(若分子标记连锁图谱未知);2、 更精确的作物农艺、经济性状(或目标性状)相关候选基因定位;3、 更快捷的基因表达调控网络构建;4、 可与其他结果或方案(如 QTL 结果,GWAS 方案等)相互衔接。 经 典 案 例 : 样品选取 368 份玉米自交系( 3 个作图群体:Illinois high-oil 群体,Alexho 单籽粒合成群体,北京高油群体) 测序策略 对样本分别进行转录组测序,平均每
7、个样品 6.6 Gb raw data,获得 103 万个 SNP;使用 Illumina MaizeSNP50 BeadChip 获得 56110 个 SNP,再将两部分 SNP 数据整合用于后续分析。 分析结果 利用 RNA-seq 测序以及 Illumina MaizeSNP50 BeadChip 的办法获得了一百多万个单核苷酸多态性(SNP)位点; 利用全基因组关联分析的方法,对籽粒油份相关性状进行了分析,共发现 74 个基因(loci)与籽粒油份显著关联,其中三分之一是编码油脂代谢的关键酶基因; 发现 26 个与玉米籽粒总含油量显著相关的基因,可以解释总油份 83%的表型变异,为玉米
8、油合成的遗传机制提供了视角,并有助于高油玉米的分子育种。 参 考 文 献 :1 Li H, Peng Z, Yang X, Wang W, et al. Genome-wide association study dissects the genetic architecture of oil biosynthesis in maize kernels.Nat Genet. 2013 Jan;45(1):43-502 West MAL, Kim K, Kliebenstein DJ, et al. Global eQTL mapping reveals the complex genetic
9、architecture of transcript-level variation in Arabidopsis. Genetics, 2007, 175(3):14411450.方 案 三 : 野 生 动 物 种 群 历 史 研 究 方 案 研 究 目 的 :基于第二代高通量测序技术,对于有参考序列的物种,可通过全基因组重测序的方法,获得大量变异信息,讨论群体的遗传结构、影响群体遗传平衡的因素以及物种形成的机制,从而探讨野生动物种群演化机制及野生动物濒危的可能原因,为野生动物资源的保护提供重要的理论依据。技 术 路 线 :研 究 方 案 : 样本选择:群体个数建议大于 30 个。物种内亚群
10、的划分要比较明确,相同亚群内的个体要有一定的代表性。测序策略选择:群体测序深度建议 5-10X;较高的测序深度,可以保证后续挖掘信息的准确性。项目周期:项目的周期以项目规模大小而定。样本量小于 50 个,每个样本 5X 基因组覆盖度的数据,项目的运转周期为 60 个工作日;样本数量更多或单个样本覆盖度更高时,项目的运转周期需根据实际项目情况而定。 适 用 范 围 :1、 珍稀的野生动物,尤其是濒危动物个体或群体;2、 研究与人类生活紧密关联的动物在野生环境下的生活状况和种群变化;3、 研究昆虫或鸟类在迁徙过程中产生的种群历史演化。 方 案 特 色 :1、 高效性 :执行周期短,高通量测序能在短
11、时间内完成多样本测序;2、 检测范围广 :能够检测到全基因组范围的变异信息,即使是低频信息也能被找到;3、 信息挖掘全面性:信息分析内容丰富,包含群体结构分析、进化树分析、连锁不平衡分析、主成分分析等群体相关信息;4、 针对性强: 针对野生动物、迁徙类动物群体演化关系,设计一系列研究方法,解决种群历史变化的问题。 经 典 案 例 : 样品选取: 来自六大山系的 34 只野生大熊猫;其中,秦岭山系 8 只、岷山山系 7 只、邛崃山山系 15 只、大相岭山系1 只、小相岭山系 1 只、凉山山系 2 只。 测序策略选择: 进行全基因组重测序,每个个体测序深度为 4.7X,个体数据量为 10.5Gb。
12、 分析结果: 在这项研究中,研究人员对 34 个野生大熊猫进行了全基因组重测序,发现当前的 6 个熊猫地理种群可以分为三个遗传系,包括秦岭(QIN)、岷山(MIN)和邛崃山- 大小相岭-凉山( QXL); 通过重建熊猫的种群史,研究人员发现了几个重要的进化事件,例如两次种群扩张、两次瓶颈和两次种群分化; 研究结果表明,全球气候变化是上百万年来大熊猫种群波动的主要因素,人类活动有可能是近期熊猫种群分化和数量严重下降的重要原因。 参 考 文 献 :1 Zhao S, Zheng P, Dong S, et al. Whole-genome sequencing of giant pandas pr
13、ovides insights into demographic history and local adaptation. Nat Genet. 2013 Jan;45(1):67-71.2 Zhang B W, et al. Genetic viability and populationhistory of the giant panda, putting an end to theEvolutionary Dead End.Mol. Biol. Evol.,2007, 24:1 801-1810.方 案 四 : 动 植 物 目 标 性 状 GWAS 研 究 方 案 研 究 目 的 :通
14、过全基因组大样本低深度重测序、全基因组芯片分型及大样本简化基因组测序三种策略对动植物重要种质资源进行全基因组的基因型鉴定,并与关注的表型数据进行全基因组关联分析(GWAS),找出与关注表型相关的 SNP 位点,定位数量性状基因。与数量性状相关基因紧密连锁的 SNP 标记,后续可用于分子标记辅助育种,增快育种进程。技 术 路 线 :研 究 方 案 : 样本量选择:自然群体大小至少 300 个样品,选取的个体有代表性。样本间不能有明显的亚群分化(例如生殖隔离等);样本的多态性广;研究的表型性状建议选择几个比较重要的表型性状作为研究的重点,不宜过多。测序策略选择:1) 基于全基因组低深度重测序的 G
15、WAS 研究:全基因组重测序,每个样本 5X 测序深度;2) 基于大样本量的简化基因组测序的 GWAS 研究:简化基因组( RAD/GBS)测序;3) 基于全基因组芯片分型的 GWAS 研究:推荐选择10k SNP 位点数的芯片。 适 用 范 围 :动植物自然群体如粮食作物、家禽家畜种质资源。 方 案 特 色 :1、 标记密度高;2、 无需构建作图群体,自然群体/种质资源都可作为研究材料;3、 可以一次性同时考察多个性状;4、 定位更精确;5、 性状关联位点的贡献率高,应用前景好。 经 典 案 例 : 样品选取: 950 份代表性中国水稻地方品种和国际水稻品种 测序策略 每个样品平均约 1X
16、低深度全基因组重测序 分析结果 通过 GWAS 鉴定出 32 个新的与抽穗期和产量性状相关的变异位点,鉴定出 18 个候选基因。 参 考 文 献 :1 Huang X, Zhao Y, Wei X, Li C. Genome wide association study of flowering time and grain yield traits in a world-wide collection of rice germplasm. Nat. Genet, 2011.2 Morris GP, et al. Population genomic and genome-wide assoc
17、iation studies of agroclimatic traits in sorghum. PNAS, 2013, 110(2):453458.方 案 五 : 动 植 物 单 倍 型 研 究 方 案 研 究 目 的 :单体型图即 HapMap(Haploid Map)是建立存储某一物种常见 SNP 变异以及 LD 值等相关信息的数据库。从常见 SNP 中挑选出更具代表性的标签 SNP(Tag SNP),利用这些相对数据量较少的标签 SNP 集合所包含的基因型信息,就可以代表整个基因组的大部分遗传信息。因此,HapMap 的建立,可获得用于设计高密度 SNP 基因分型芯片的数据库,将大大
18、地简化该物种后续遗传学研究的数据量,从而提高后续相关研究的速度与效率。技 术 路 线 : 研 究 方 案 :样本量选择:已有参考基因组的物种,选择不同地域、不同品种、具有代表性的个体,样本量 100 个左右。测序策略选择:PE91 测序测序深度选择:全基因组重测序 5-20X /样本 适 用 范 围 :已有参考基因组重要作物与家禽家畜等:如青稞、芝麻、梨、梅花、大豆、谷子、猪、马、牛、羊、鸡、鸭、鹅等。 方 案 特 色 :通过全基因组测序的方法获得物种的多态性 SNP 以及该物种 LD 情况,构建单倍型图谱。利用检测到的 tag SNP与表型关联进行全基因组关联分析(GWAS)定位 QTL;或
19、是设计全基因组分型芯片,用于大群体的基因分型。 经 典 案 例 : 样品选取: 103 株玉米(包括驯化前与驯化品系和一个代表性的近缘属 Tripsacum) 测序策略 每个样品约 4.2X 的全基因组测序数据 分析结果 构建了一张含 5500 万个 SNP 位点的第二代玉米 HapMap; 发现染色体结的存在或缺失造成了“种内”玉米基因组大小出现很大的差异;种间玉米基因组大小的变化主要与大量的转座子有关; 综合利用玉米两代 HapMap 的标记数据对 5 个重要的农艺性状进行 GWAS 分析,与 HapMap1 结果保持一致,且关联更紧密。参 考 文 献 :1The Internationa
20、l HapMap Consortium. A Haplotype Map of the Human Genome. Nature 437, 1299-1320. 2005.2The International HapMap Consortium. Integrating common and rare genetic variation in diverse human populations. Nature 467, 52-58. 2010.3Gore, M.A. et al. A first-generation haplotype map of maize. Science 326, 11151117 (2009).