1、基 因 组 学,生物信息学院 黄飞飞 Tel : 18725619016,教材:杨金水. 基因组学(第二版)北京:高等教育出版社,2007 参考书:T.A.布朗著,袁建刚译著,基因组(3rd 版)北京:科学出版社,2009,教材和教参,考核方式考试:课程论文:,基因组学基本概念,基因(gene) 基因组(genome) 基因组学(genomics),作为所有多细胞动物代表的人类基因组由两个独立的部分组成。,Fishing in a More Effective Way!,结构基因组学 功能基因组学 比较基因组学,基因组学的发展:从序列到功能,结构基因组学,结构基因组学:基因组计划,基因定位基因
2、组作图测定核苷酸序列,功能基因组学,功能基因组学:后基因组学(postgenomics)利用结构基因组学提供的信息和产物,在基因组系统水平上全面分析基因的功能的一门学科。,比较基因组学,比较基因组学:研究不同物种之间在基因组结构和功能方面的亲源关系及其内在联系的学科。,基因组学的最新研究,PLoS ONE:大量非灵长类动物基因组数据受到了人类DNA的污染2011-2-18 15:23:23 2月16日发表在公共科学图书馆 综合 PLoS ONE 期刊上的一份研究报告称康涅狄格大学的遗传学家Mark Longo及同事发现由顶级公共测序机构提供的测序结果构建的基因组数据库中的大约1/5的细菌、植物
3、和非灵长类动物基因组数据受到了人类DNA的污染。 样品处理有可能是导致DNA数据库广泛污染的最主要原因。这一研究报告引起了生物研究人员及各大权威媒体的高度关注,科学家 The Scientist 杂志以及自然 Nature 杂志均在其官方网络上第一时间对这一事件进行了报道。,DNA Res:日科学家破译麻风树基因组,日本一个研究小组日前在DNA Research杂志网络版上报告说,他们破译了有“生物柴油树”之称的麻风树的基因组 日本千叶县上总DNA研究所、国立遗传学研究所和大阪大学组成的研究小组把麻风树的基因组分成小片段,分析DNA序列。研究人员破译得出,麻风树基因组共包含约4万个基因,并且拥
4、有许多与脂质合成及抗病相关的基因。研究人员认为,这些都是麻风树不断适应干燥环境,最终获得的性质。 麻风树别名南洋油桐,广泛分布于亚热带及干热河谷地区,其果实有毒,不能食用,但含油率高达60至70,是一种非常有潜力的油料作物。经改性后的麻风树油可适用于各种柴油发动机。,Nature:猩猩基因组测序结果发布,通过对人类、黑猩猩和红毛猩猩三种基因组的对比发现,人类基因组更类似于红毛猩猩的基因组,而不是黑猩猩的基因组。这反映了人类和黑猩猩从同一个祖先进化而来,两个物种拥有相同的红毛猩猩DNA,但是,经过成千上万年,人类和黑猩猩分别进化,在这个过程中,黑猩猩因为某些原因失去了猩猩的DNA,人类则保留了这
5、个DNA.,Nature Genetics:草莓和可可树基因组图谱出炉,据美国物理学家组织网12月26日报道,在26日出版的自然遗传学杂志上,两组科学家表示,他们分别解开了野生草莓和克里奥洛可可树的基因密码,新发现有助于育种专家培育出品质更高的草莓和可可树品种。,高通量测序方法日渐成熟,第2章 遗传图绘制,学习要点:1. 遗传图谱与物理图谱2. 遗传作图的标记3. 遗传作图的方法,结构基因组的研究策略,为何要绘制遗传图与物理图,1)基因组太大,必需分散测序,然后将分散的顺序按原来位置组装,需要图谱进行指导。 2)基因组存在大量重复顺序,会干扰排序,因此要高密度基因组图。 3)遗传图和物理图各有
6、优缺点,必须相互整合校正,DNA测序有一个极大的局限性:即使是最精确的技术,在一个反应中也很难测出大于750bp的序列。这就需要将大分子分解为片段。,问题:分析基因组的重复区域时会发生错误。,因此,必须首先建立一个基因组的图谱,通过 标明基因和其他显著特征的位置,为测序提供指导。 一旦得到了基因组的图谱,测序阶段可以采用以下 方法进行: 全基因组鸟枪法(whole-genome shotgun method) 全基因组鸟枪法是一种快速获得真核基因组的方法。 2. 克隆重叠群法(clone contig method):(作图法测序,限制测序)。 这种逐步测序的方法花时间多,但精确。,全基因组鸟
7、枪法测序和克隆重叠群法测序最后 都必须将DNA序列回归到基因组图上,因此 基因组图的绘制是基因组测序和组装的核心内容 之一,是基因组全面测序的必要前提。 传统上将基因组作图方法分为两类。1. 遗传作图2. 物理作图,2.1 遗传图谱与物理图谱,1)遗传作图(Genetic mapping):采用遗传学分析方法将基因或其它DNA序列标定在染色体上构建连锁图。这一方法包括杂交实验,家系分析。遗传图距单位为厘摩(cM), 每单位厘摩定义为1%交换率。 2)物理作图(Physical mapping):采用分子生物学技术直接将DNA分子标记、基因或克隆标定在基因组实际位置。物理图的距离依作图方法而异,
8、如辐射杂种作图的计算单位为厘镭(cR), 限制性片段作图与克隆作图的图距为DNA的分子长度,即碱基对(bp, kb)。,2.2 遗传作图,任何一类图谱都有可识别的标记。遗传图谱的标记是什么呢?,2.2.1 基因是首先被使用的标记 在经典遗传学中,研究一种性状的遗传必须要求同一性状至少2种不同的存在形式或称表型。 起初只有那些能通过视觉区分的基因表型用于研究。最初的遗传图谱是在20世纪初针对果蝇等生物使用基因作为标记构建的。,2.2.2 用于遗传学作图的DNA标记,基因是非常有用的标记,但并不是理想的。原因: 可用作标记的基因十分有限,许多性状都涉及多基因。 2. 高等生物基因组中存在大量的基因
9、间隔区,遗传图中留下大片的无标记区段。 3. 只有部分基因其等位基因成员可以通过常规实验予以区分,因而产生的遗传图是不完整的。,基因之外的作图工具统称为DNA标记。与基因标记一样,DNA标记必须有至少两个等位基因才是有用的。有三种类型的DNA序列特征可以满足这一要求: 限制性片段长度多态性(restriction fragment length polymorphisms, RFLP) 2. 简单序列长度多态性(simple sequence length polymorphisms, SSLP) 3. 单核苷酸多态性(single nucleotide polymorphisms, SNP)
10、,最早发现的DNA分子标记RFLP:由于同源染色体同一区段DNA序列的差异,当用限制酶处理时,可产生长度不同的限制性片段,RFLP:restriction fragment length polymorphism, 限制性片段长度多态性,同一物种的亚种、品系或个体间基因组DNA 受到同一种限制性内切酶作用而形成不同的酶切图谱的现象,称为限制性片段长度多态性(RFLP)。这是由于基因组DNA某一位点上的变异有可能引起该位点特异性的限制性内切酶识别位点的改变,包括原有位点的消失或出现新的酶切位点,致使酶切片段长度随之发生变化而产生。,RFLP是如何发现的?,在犹他州盐湖城滑雪胜地艾尔塔的一场例行的
11、学术讨论中, 从事经典人类遗传学研究的专家与从事分子生物学研究的专家进行学术交流。分子生物学家从经典遗传学的研究中获得灵感。,David Botstein,David Botstein开创核酸限制性片段 长度多态性分析技术,用于标志不同 个体间的基因差别,为后来的人类基 因组计划奠定了基础。 PRINCETON, N.J. - Princeton University has named David Botstein, a renowned geneticist, educator and pioneer of the Human Genome Project, as the new dire
12、ctor of the Lewis-Sigler Institute for Integrative Genomics.,第1篇有关人类RFLP实验论文,A Highly Polymorphic Locus in Human DNA Arlene R. Wyman and Ray White, MIT A locus in the human genome, not associated with any specific gene, has been found to be a site of restriction fragment length polymorphism. The pol
13、ymorphism was found by hybridizing a 16- kilobase-pair segment of single-copy human DNA, selected from the human genome library cloned in phage CH4A, to a Southern transfer of total human DNA digested with EcoRI. DNAs from a number of individuals from within Mormon pedigrees as well as random indivi
14、duals have been examined. The locus is highly variable, with at least eight alleles present, homozygotes accounting for less than 25% of the individuals examined.-PNAS | November 1, 1980 | vol. 77 | no. 11 | 6754-6758,对RFLP的检测主要是用Southern杂交的方法进行 基本流程: 组织或细胞基因组DNA限制性内切酶消化琼脂糖凝胶电泳印迹转移至滤膜加入探针杂交洗膜放射自显影获得
15、反映个体特异性的RFLP图谱。,RFLP多态性的产生与检测,所用的探针位于染色体的不同位点,可以作为一种分子标记,构建分子图谱。,RFLP标记的主要特点是: (1)遍布于整个基因组; (2)无表型效应,不受发育阶段及器官特异性限制 (3)共显性,可区分纯合子和杂合子; (4)结果稳定、可靠; 用途:RFLP主要用于群体水平和系统发育研究上.进行个体识别;绘制遗传图谱;目的基因定位;检测群体内或群体间序列差异程度;辅助育种等。 自RFLP问世以来,已经在基因定位及分型、遗传连锁图谱的构建、疾病的基因诊断等研究中得到了广泛的应用。,共显性: (两个亲本的性状在一个个体中同时出 现,没有显隐关系),
16、问题: 克隆可表现基因组DNA多态性的探针较为困难 DNA需要量大,实验操作较繁锁,检测周期长成本费用也很高。 RFLP分子标记分布密度过于稀疏。 现已逐步被其他类型分子标记所取代。 RFLP是最早发现的分子标记,也被称为第一代分 子标记。,2. 简单序列长度多态性 (simple sequence length polymorphism, SSLP),1) 可变排列的简单重复序列, 即重复次数不一,在染色体的同一座位重复序列拷贝数不同; 2) SSLP的类型:小卫星序列(minisatellite), 有时又称可变串联重复(VNTR),重复单位较长。重复序列为16-100个核苷酸,主要分布在
17、染色体末端微卫星序列(micrisatellite), 或称简单串联重复(STR),重复单位较短。重复序列只有2-6个核苷酸,分布在整个基因组。,微卫星序列(SSR),共显性,如何检测SSR,根据简单重复顺序两侧的序列设计引物, 经聚丙烯胺凝胶电泳分辩.,SSR技术的优点是: (1)在基因组中随机分布,检测的多态性频率高; (2)PCR特异引物,重复性好; (3)共显性,操作相对简单。 问题是: (1)SSR需要测序和设计引物,因而需要大量的人力、物力和时间; (2)另外其种属特异性强,开发所需的费用高昂,因此一些实验室进行了合作,共同开发微卫星引物。,利用SSR标记的关键是引物的设计对于已经
18、进行基因组全序列测定的生物或遗传学研究比较经典的生物,可以直接从其基因组进行查找和利用有关程序进行引物的设计或利用别人已经发表的引物来进行实验; 而对于没有基因组序列信息的生物,就需要进行有关引物的设计工作。,微卫星序列标记研究,1) 1982年Hamada等首次报道microsatrllite现象 (PNAS, 79:6564, 1982) 2) 1989年Weber等从GenBank中发现人类基因组的8个位点中, 有7个位点存在(CA)n拷贝数的变化(Am.J.Hum.Genet., 44:388, 1989). 3) 现已证实人和老鼠基因组中平均每18-28 kb含有一个多态性(CA)n
19、. 4) 获取方法: a) 机算机搜寻; b) 用限制酶酶切基因组DNA, 构建DNA文库。合成简单寡聚重复核苷酸作为探针从库中筛选.,SSLP标记在基因组中的分布具有多态性频率高以及分布比较均匀的特点,此外SSLP标记可以采用PCR方法直接扩增,经聚丙烯胺凝胶电泳分辩,现已成为主流的分子标记,又称为第二代分子标记。,SSR标记应用:现已证明微卫星DNA 存在于绝大多数真核生物基因组中,因此已广泛应用于遗传图谱构建、品种纯度检测及遗传多样性分析、重要性状基因的定位等。,3. SNP(单核苷酸多态性),SNP是指同一物种不同个体基因组DNA的等位序列上单个核苷酸存在差异的现象。其中最少一种在群体
20、中的频率不小于1;如果出现频率低于1,则视作点突变。,SNP只涉及单个碱基的变异,这种变异可以由单个碱基的转换(包括C与T互换,G与A互换),或颠换(包括C与A、G与T、C与G、A与T互换)引起。,根据SNP在基因中的位置,SNP可分为: 基因编码区SNP(coding SNP, cSNP) 基因周边SNP(peripheral SNP, pSNP) 基因间SNP (intronicSNP, iSNP),从对生物的遗传性状的影响,cSNP又可分为两种: 1.同义cSNP(synonymous cSNP):SNP引起的编码序列的改变并不影响其翻译的蛋白质的氨基酸序列; 2. 非同义cSNP(no
21、n-synonymous cSNP):指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能,这种改变常是导致生物性状改变的直接原因。,SNP标记可用DNA芯片技术检测:将不同的寡核苷酸固定在芯片上,标记待测DNA,一次就可检测很多SNP标记。尽管单一的SNP所提供的信息量远小于现在常用的分子标记,但SNP的数量极其丰富,并且可以自动化检验,因此其具有广泛的应用前景。 SNP数量比微卫星标记数要高出几个数量级。,例如:34个SNP这种相邻的界标构成的单体型(haplotype)就可以有816种:,Haplotype:又称“单倍型”,“单元型”。一条同源染色体上的等位基因
22、或遗传标记所构成的组合。,SNP(single nucleotide polymorphism)的一些特点,1) 直接从STS (sequence-tagged site)测序中寻找SNP. 2)MIT White head Institute 经分析证实, 人类基因组平均每1 kb 含有一个SNP。估计人类基因组有300万个SNP。 SNP在人基因组中的发生频率比较高,是最常见的基因组差异。 3) SNP和人类的健康有着密切的关系。,人类不同群体中存在的SNP,SNP发生在全部人群的至少1%的人中。,大多数SNP位于非编码序列,不影响基因功能。有些SNP位置靠近特定的基因,可作为基因的标志。
23、 其它的SNP位于编码序列内,可改变基因表达的蛋白质,从而影响人类健康。,多肽链是由氨基酸连接而成的。氨基酸具有不同的化学性质。 多肽链须折叠成蛋白质的立体结构才能发挥正常的功能。如果多肽链中一个或多个氨基酸发生了改变,则蛋白质折叠和功能可能会发生改变。,有些SNP尽管位于编码序列内,但并不改变蛋白质的组成。 例:CUG-CUC亮氨酸,有些SNP会给蛋白质带来微小而无害的影响。 例:GAUGAG 天东氨酸变成了谷氨酸。两者都是酸性氨基酸。如果发生位置对蛋白质功能影响不大,结果就是无害的。蛋白质还会发挥正常的功能。,有些SNP会给蛋白质的功能带来有害的影响,称为变异。 例:GAUGUU 天东氨酸
24、变成缬氨酸。由于化学性质完全不同,会严重地影响到蛋白质的折叠和功能。 镰刀形红细胞贫血症 血红蛋白基因中单个碱基的改变导致谷氨酸被缬氨酸取代。变异的血红蛋白不能再携氧,导致疾病。,有些SNP带来的影响在一般情况下不显现,只有在身体暴露在致病因子时才显现。因为这些SNP所在的基因负责调节有害因子的吸收,代谢,排泄等。基因的微小变化会影响人体对疾病的易感性。 例:吸烟肺癌,过量饮酒肝癌。,当人吸烟时,致癌因子的前体进入肺部细胞内。激活蛋白会将致癌因子的前体转变成致癌因子。致癌因子会被解毒蛋白变成水溶性物质并经尿排出体外。,位于激活蛋白基因内的SNP会影响激活蛋白的活性。 有些人的激活蛋白活性超强,
25、可以在肺部产生大量的致癌因子,损害细胞的DNA导致癌症。 有些人的激活蛋白活性超弱,产生的致癌因子较少,患癌症的可能性较低。,SNP还会影响解毒蛋白的活性。 有些人的解毒蛋白活性超强,可以很快将致癌因子排出体外。患癌症的可能性较低。 有些人的解毒蛋白活性超弱,将致癌因子排出体外的速度慢。患癌症的可能性较高。,在染料厂工作的工人会经常接触芳胺,患膀胱癌的可能性较高。 肝脏中有两种酶可作用于芳胺。一种是解毒酶,将芳胺转变成无毒物质并排出体外。另一种是激活酶,可将芳胺转变成致癌因子的前体,并转运至膀胱,可致膀胱癌。,SNP会影响解毒酶的活性。有些人的解毒酶活性较低,将芳胺转变成无毒物质的速度较慢。较
26、多的芳胺会被转变为致癌因子。这些人患膀胱癌的可能性较高。,疗效及副作用的个体差异。控制药物的吸收,转运,代谢,排泄等环节的蛋白SNP。 例:将药物转变成有效成分的蛋白及将药物转变成有毒副产物的蛋白。 解释疗效及副作用。,SNP数量众多,稳定及易于检测。用作基因的标记。 如SNP位于基因的附近并随基因一起遗传。发现了SNP就等于发现了基因。,科学家们正对很多人的基因组进行大规模的测序,以找出所有的SNP,并绘制SNP的图谱。,每个人都有他自己的SNP类型。 根据SNP类型将一个大的人群分为小的群体。,不同SNP类型的人对治疗的反应不同。 将来,在确诊后,根据患者SNP类型来确定治疗方法。,SNP
27、类型还有助于发现疾病基因。 只在疾病患者上发现的SNP是疾病基因的标记。 有的SNP在基因附近,通过SNP可发现疾病基因。,SNP类型还有助于发现患病的危险性。 例:在随机抽取的100正常人中,80人有SNP A,20人有SNP B。而在100个肾癌患者中,60人有SNP A,40人有SNP B。 SNP B的人患肾癌的危险性比SNP A的人高。,通过SNP图谱,研究SNP与疾病易感性,治疗有效性等的关系。 生活方式的干预(吸烟,饮酒),选择适当疗法。,2.3 遗传作图的方法,理论基础:采用一组分子标记构建遗传图 的方法主要依赖于连锁分析。 基本方法:两点测验法和三点测验法,2.3.3 不同模
28、式生物的连锁分析连锁分析分为3大范畴:1. 有性杂交实验2. 系谱分析3. DNA转移,以DNA分子标记构建遗传图的操作程序与经典的遗传作图类似,只是统计的形状改为DNA标记。,分子标记遗传图绘制 标记间的连锁分析,RFLP原理图示:,标记1标记2,人类遗传图谱的构建 系谱分析作图,人类不可能根据需要选择亲本,设计杂交组合,构建分离群体。只能检测现存家庭连续几代成员的基因型。家系分析法。资料有限、必须借助于统计学方法。,系谱分析 遗传病的遗传情况,母亲及四个子女都患有这种疾病。 该疾病基因与一种我们称之为M的微卫星处于同一染色体上。现存的家庭成员中有4个M的等位基因M1、M2、M3、M4。,不
29、完整的家系可以用一种称为优势对数值(lod score)的统计学方法来分析。Lod值代表基因连锁值的对数,主要用于判定所研究的两个标记是否位于同一条染色体上。 设在巴黎的人类多态性中心(CEPH),收集了许多家系标本。研究者只要同意将获得的结果告诉CEPH的资料中心,即可从其处获取样品用于DNA标记作图。,细菌的遗传作图,部分二倍体作图技术:1. 结合2. 转化3. 转导,2.4 遗传图绘制,2.4.1 人类遗传图人类解剖图包括4张小图,包括了人类基因组计划的全部主要内容,它们分别是遗传图(连锁图)、物理图、序列图和转录图 。人类遗传图有6000多个遗传标记作为路标,把基因组分成6000多个区
30、域,只要以连锁分析的方法,找到某一表现型的基因与其中一种遗传标记邻近(即紧密连锁)的证据,就可以把这一基因定位于这一标记所界定的区域内。这样,如果想确定与某种已知疾病有关的基因,即可根据决定疾病性状的位点与选定的遗传标记间的遗传距离,来确定与疾病相关的基因在基因组中的位置。,人类疾病基因研究,致病基因及相关基因的克隆在基因组学研究中占据着核心位置。 对疾病的预防,诊断,治疗等有重要意义。 人类基因组计划的直接动因是要解决包括肿瘤在内的人类疾病的遗传学基础问题。,人类疾病基因研究,单基因病疾病基因研究:例如血友病。多基因病疾病基因研究:例如心脏病,糖尿病,癌症等。,单基因病疾病基因研究,人类基因
31、组计划使我们了解基因组序列。 现在采用定位候选克隆方法 极大地提高了发现疾病基因的效率。,作业1: 什么是定位候选克隆? 举例说明如何进行定位候选克隆技术?,定位候选克隆,导致了遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。,多基因病疾病基因研究,比单基因病困难,目前疾病基因研究的重点 。 用比较基因表达谱的方法来识别疾病状态下基因的激活或抑制。 癌肿基因组解剖计划(Cancer Genome Anatomy Project,CGAP),癌肿基因组解剖学计划 (Cancer Genome Anatomy Project,CGAP),1996年
32、癌肿基因组解剖学计划开始。 主要由美国癌症研究所(National cancer institute)开展。,科学家们发现一个正常细胞在经过一定的分子水平的改变以后就会恶变。这样的变化通常要数年才能完成。癌肿基因组解剖学计划的目的是为研究细胞恶变时发生的分子变化。,癌肿基因组解剖学计划研究在基因组内发生的变化。,在癌症细胞中,基因会发生突变,从而导致蛋白质表达异常。这种变化会导致细胞恶变。,人类基因表达具有组织特异性。某一种组织细胞在一般情况下只表达特定的一组基因,称为表达谱。,通过比较正常组织与癌变组织的表达谱,可以发现癌变组织基因表达的变化。,癌肿基因组解剖学计划通过测量mRNA水平来比较
33、正常组织与癌变组织的表达谱。第一步骤分离mRNA。,第二步骤 将mRNA转变为cDNA。,第三步骤 创建cDNA文库。 将每一个cDNA都装入一个质粒,并导入一个E.coli 细胞内。,第四步骤 分离单个cDNA。,第五步骤 cDNA测序测定polyA附近大约400bp的序列就可确认cDNA。这样的序列成为EST(expressed sequence tag)。EST序列信息保存在公共数据库中。,总结 EST序列代表了细胞内表达的基因。,癌肿基因组解剖学计划对EST序列库的贡献最大。免费向公众开放。 科学家们可以很快获取某个基因的信息;以前所未有的速度发现新的基因。,基因芯片 在芯片的不同位置上有大量不同种类的cDNA。,基因芯片在临床研究中的应用 举例:,如果患者的细胞内某一基因有表达,则样本中含有该基因的mRNA。当孵育时,该mRNA则会与芯片上对应同一基因的cDNA结合。能检测到荧光。,通过这种方法,可以检测到哪些基因在患者癌细胞内得到表达。因此可作出快速准确的诊断。,癌肿基因组解剖学计划帮助全世界的科学家们更好地发现新的基因以及进行基因分析。 科学上的进展又可帮助临床学家开发疾病诊断及治疗的新方法。将更进一步地造福人类。,