1、第十五章 人类基因组学 相关技术,基因组 genome 一个细胞所有染色体的总和。 一个物种的所有DNA分子的总和.基因组学 genomics 阐明整个基因组的结构、结构与功能的关系以及基因之间相互作用的科学。,人类基因组计划 ( Human Genome Project,HGP),“认识你自己。” 铭刻在古希腊阿波罗神庙门楣 上的这句神谕,千百年来鼓舞 着人类对自我进行探索。,20世纪人类科技发展史上的三大创举,90年代人类基因组计划,40年代第一颗原子弹爆炸,60年代人类首次登上月球,(一)什么是人类基因组计划,HGP:是个国际性研究项目,旨在阐明人类基因组DNA的全部核苷酸序列,识别所有
2、人类基因并进行染色体定位及功能分析,同时了解非编码区序列的位置和功能,即完成23对染色体的全序列测定,及遗传图谱、物理图谱、转录图谱和序列图谱的绘制。 同时对模式生物(大肠杆菌、酵母、线虫、果蝇和小鼠等)基因组进行研究。,Whats HGP? “ONE BASE ONE DOLLOR!” A TAXI Driver/A TAX Payer,人类基因组计划的研究概况 1986年,1988年,1988年美国能源部和国家卫生研究院率先在美国开展人类基因组计划,并经国会批准由政府给予资助。此后,成立了一个国际间的合作机构人类基因组织 (Human Genome Organization),由多个国家筹
3、集资金和科研力量,积极参加这一国际性研究计划。,1989年,美国国家卫生研究院成立了人类基因组研究国家中心(NCHGR),沃森出任第一任主任。,1990年,1990年,美国国会批准了“人类基因组计划”,并于10月1日正式启动,由多国科学家参加、被称为“生命科学阿波罗计划”的人类基因组计划正式启动。预计用15年时间,投资至少30亿美元,完成30亿对碱基的测序,并对所有基因进行绘图和排序。美国承担了全部任务的54%,英国33%,日本7%,法国2.8%,德国2.2%。 中国于1999年9月加入人类基因组计划并承担了1%的测序任务。,1998年,1998年,生产DNA测序仪的最大厂家Perkin-El
4、mer(简称PE)公司与文特尔领导的基因研究所合作成立了塞莱拉(Celera)遗传信息公司,并宣布他们将利用最新“全基因组鸟枪法”在3年内完成人类基因组的测序工作,这使得该计划处于一种公私竞争的状态,从而加快了人类基因组的研究步伐。,2000年,2000年6月26日,美国国家人类基因组研究所所长弗朗西斯柯林斯、塞莱拉公司的董事长兼首席科学家克莱格文特尔、美国总统克林顿、英国首相布莱尔联合宣布人类基因组工作草图绘制成功。此后,人类基因组研究进入绘制“完成图”的阶段。,二000年六月二十六日克林顿宣布 人类基因组草图绘制完成,2001年2月16日 人类基因组“精细图”完成,准确率由90上升到99%
5、。 2003年月14日,人类基因组序列图亦称“完成图”(99.99%),提前绘制成功。,2003年,2000年6月公共领域测序计划工作框架图,已经完成基因组测序的部分生物种属,第一节 人类基因组计划的 主要研究内容,1.遗传图谱 2.物理图谱 3.序列图谱 4.基因图谱,一、遗传图谱 genetic map,指通过遗传重组所得到的基因线性排列图也称为遗传连锁图(linkage map) 。 它是通过计算连锁的遗传标志之间的重组频率,确定他们的相对距离, 一般用厘摩(cM,即每次减数分裂的重组频率为1%)来表示。,构建遗传图谱的基本原理:,真核生物遗传过程中会发生减数分裂,此过程中染色体要进行重
6、组和交换,这种重组和交换的概率会随着染色体上任意两点间相对距离的远近而发生相应的变化。根据这一点,人们就可以推断出同一条染色体上两点间的相对距离和位置关系。 cM值越大,两者之间距离越远。人类基因组的遗传大小已经确定为3600cM,理想的分子遗传标记应具备的特点,遗传多态性高; 检测手段简单快捷,易于实现自动化; 遗传共显性,即在分离群中能够分离出等位基因的3种基因型。 标记遍布整个基因组; 准确性,能正确反映动物的真实遗传,即标记是经济性状基因,还是与影响重要性的性状连锁。 实验重复性好(便于数据交换); 开发成本和使用成本尽量低廉;,现代的DNA标记连锁图,RFLP(限制性酶切片段长度多态
7、性)(restriction fragment length polymorphism) STR(短串联重复序列,又称微卫星)(short tandem repeat) 基因组内含量丰富、多态信息含量理想、可利用PCR 的手段进行检测 SNP(单个核苷酸的多态性分析)(single nucleotide polymorphism),RFLP的原理,利用限制性内切酶消化基因组DNA,形成大小不等、数量不同的分子片段, 经电泳分离, 通过Southern印迹将DNA片段转移至支持膜 (尼龙膜或硝酸纤维素膜)上, 然后用放射性同位素(32P)或非同位素 (如地高辛,荧光素)标记的探针与支持膜上的DN
8、A片段进行杂交。 不同基因组DNA酶切位点的改变,会使得RFLP谱带表现出不同程度的多态性.,限制性内切酶的酶切原理:,限制性酶切长度多态性(RFLP),微卫星遗传标记的原理,以微卫星DNA标记两侧特异性序列设计专一引物,通过PCR技术扩增微卫星片段,扩增产物经变性聚丙烯酰胺凝胶电泳分离,不同个体间因核心序列的重复次数不同而产生DNA多态性。,短串联重复序列(STR),微卫星遗传标记示意图,PCR扩增,凝胶电泳,单核苷酸多态性(single nucleotide polymorphisms, SNPs),检测SNP的特异杂交,DNA芯片,二、物理图谱 physical map,物理图谱:是指以
9、已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site, STS)为“路标”,以碱基对(bp,kb,Mb)作为基本测量单位(图距)的基因组图。 序列标签的特点: 基因组中任何单拷贝长度为100500bp的已知序列 在染色体上的位置明确 可用PCR方法进行扩增的单一拷贝,连续克隆系图:,物理图谱是利用限制性内切酶将染色体切成片段,利用载体将所有的人类基因组DNA分段克隆,然后将含有STS序列的对应克隆相互重叠连接以明确其位置。,大片段克隆载体,酵母人工染色体(yeast artificial chromosomes, YAC),酵母人工染色体载体YAC,外源DNA的克
10、隆过程,YAC的主要缺点 1存在高比例的嵌合体,即一个YAC克隆含有两个本来不相连的独立片段; 2部分克隆子不稳定,在转代培养中可能会发生缺失或重排; 3难与酵母染色体区分开,因为YAC与酵母染色体具有相似的结构。 4操作时容易发生染色体机械切割。,以细 菌寄主系统为基础的克隆载体形成嵌合体的频率较低,转化效率高,又易于分离。科学家用“染色体建造“法用F质粒及其调控基因构建细菌载体,克隆大片段DNA。该质粒主要包括oriS, repE(控制F质粒复制)和parA、 parB(控制拷贝数)等成分。,细菌人工染色体(BAC),三、序列图谱,以某一染色体DNA上所含的全部碱基序列绘制图谱,包括: 转
11、录序列 非转录序列是转录序列、非转录序列、调节序列及功能未知序列的总和。,人类染色体上3.16109个bp全部顺序 策略:经庞大的DNA分子分区克隆,并赋予一定的标志(遗传图和物理图的标志),逐段进行序列分析,再将序列根据标志拼接起来获得一个完整的DNA分子的核苷酸排列顺序。 PCR技术 DNA自动测序技术,How many characters are in the “Heaven Book”? 3*109 10,000 books 1 book 100 pages1 page 3,000 charactersCCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAG
12、CCCGCGCTCCTGCCCTGGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACAGACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTC
13、AAAGGCGGGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGA
14、CGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGAGCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAATTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAA
15、CGTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTGTTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAGATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATTTCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGAAGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATT
16、GGGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG (1250 characters) 关键是先要从一个个序列片段中得到这本天书,全基因组鸟枪法测序的主要步骤:第一,建立高度随机、插入片段大小为2kb左右的基因组文库。克隆数要达到一定数量,即经末端测序的克隆片段的碱基总数应达到基因组5倍以上。第二,高效、大规模的末端测序。对文库中每一个克隆,进行两端测序,TIGR在完成流感嗜血杆菌的基因组时,使用了14台测序仪,用三个月时间完成了必需的28,463个测序反应,测序总长度达6倍基因组。第三,序列集合。TIGR发展了新的软件,修改了序列集合规则以最大限度地排除错误
17、的连锁匹配。第四,填补缺口。有两种待填补的缺口,一是没有相应模板DNA的物理缺口,二是有模板DNA但未测序的序列缺口。他们建立了插入片段为15-20kb的文库以备缺口填补。,用鸟枪法完成流感嗜血杆菌基因组测序,DNA序列测定的意义,DNA的序列测定是分子生物学研究中的一项非常重要的和关键的内容。如在基因的分离、定位、基因结构与功能的研究、基因工程中载体的组建、基因表达与调控、基因片段的合成和探针的制备、基因与疾病的关系等等,都要求对DNA一级结构的详细了解。,四、基因图谱,转录图谱 利用EST作为标记所构建的分子遗传图谱被称为转录图谱。 通过从cDNA文库中随机挑取的克隆进行测序所获得的部分c
18、DNA的5或3端序列称为表达序列标签(EST,expressed sequence tags ),一般长300-500bp左右。,研究人类基因组计划所从事4张图谱的常规策略,第二节 人类基因组计划 在医学中的意义,一、基因结构与功能的研究 二、基因组信息与疾病易感性的研究 三、基因组与癌症研究 四、疾病的遗传学背景 五、药物基因组学,HGP将给人类带来的好处,1、将带动一场医学革命用基因图谱看病 基因药物治病基因检测预防隐患 基因治疗疾病,2、获取了操纵生命的工具控制生命的孕育优生优育 延长人的寿命选择最佳生活环境,3、得以进行精确的个体鉴定基因身份证 生物考古,4、将带来巨大的商机生物制药
19、器官培植,BRCA1基因,HGP 可能给人类带来的隐患, 社会平等与基因歧视 科技进步与基因技术滥用 社会公正与基因成果利益的均等分配 技术的不确定性和基因安全,DNA Report,我这辈子没戏了!,个人隐私! 基因注定论?,基因组相关的伦理学问题,要不是你的基因告了密,我们本可以录用你。,第三节 人类基因组计划数据的利用,基因数据库 美国国家生物技术信息中心和位于欧洲和日本的姊妹组织储存着整个基因序列,其中包含已知序列,假设基因和蛋白质。其他组织像加州大学圣塔克鲁斯分校和ENSEMBL提供附加数据,注释和观察和检索数据的有力工具。基因组注释生物信息学,美国的核酸数据库GenBankBans
20、on,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。,计算机运算速度: 18个月增长一倍; DNA序列数据: 14个月增长一倍;,什么是生物信息学?Genome informatics is a scientific disc
21、ipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。,一、NCBI基因组数据库的应用,提供大量信息 人的22条常染色体、X和Y染色体目前序列分析的详细资料; 疾病和基因关系的教学用选择性病例; 其它生物基因组序列:线虫、病毒和细菌等生物。,提供重要站点链接: BLAST,利用这一系统可以将你感兴
22、趣的DNA序列与基因组中的序列信息及基因产物的序列加以比较; Cytogenetics,细胞遗传学数据库,提供序列标签克隆和染色体原位杂交数据; dbSNP,单核苷酸多态性及其它遗传变异的数据库; e-PCR,比较你的序列和序列标志位点的关系及它们在基因组中的位置;,GEO(Gene Expression Omnibus),是基因表达数据库; Homology Gene,推测人、小鼠、大鼠和斑马鱼间的同源基因比较; Homology Map,小鼠和人保守序列框架; Locuslink,基因相关信息; OMIM,基因和遗传病导航站点; refseq,基因组重叠群、mRNA和蛋白质参考序列;,11
23、.SAGEmap,SAGE标签分析的基因表达数据库与序列的关系; 12.Sequencing,人类基因组序列分析进展总结; 13.Mapviewer基因组图谱,序列和基因的交互界面; 14.UniGene,基因群分析; 15.UniSTS,STS的非重复数据库,与基因组图和序列的连接。,(一)OMIM,Online Mendelian Inheritance in Man 人类孟德尔遗传基因网上数据 收集和更新人类基因和遗传病中的变异信息。 OMIM使用数码表示不同的基因和基因的变异体,其中6位数码表示基因,小数点后4位数码代表变异体。,100000-199999 常染色体位点或表型 2000
24、00-299999 常染色体位点或表型1994年5月15日前登录 300000-499999 X染色体连锁位点或表型 500000-599999 Y染色体连锁位点或表型 600000以上 常染色体位点或表型1994年5月15日后登录 如第IX因子编号是306900,各种第IX因子的突变体编号是306900.0001到306900.0101,OMIM可以通过多种途径进行基因和遗传病关系的查询:,用基因的名称如SOD、MAPK等查询相关疾病; 用染色体位点查询相关疾病; 用疾病名称的关键词查询相关基因。,OMIM收集的资料相当详细,包括改基因的发现过程、目前的功能、结构研究情况、动物模型状态以及遗传病突变等,功能基因组学转录组学,后基因组学,