1、第七章 基因组分析一一什么是基因组什么是基因组(genome)?二二基因组分析及数据库建立路线基因组分析及数据库建立路线三三原核生物基因组的特征及其分析原核生物基因组的特征及其分析四四真核生物基因组的特征及其分析真核生物基因组的特征及其分析五五功能基因组学功能基因组学六六比较基因组学比较基因组学第一节第一节什么是基因组什么是基因组(genome)?基因组(基因组(genome) 是指包含在一种生物的DNA(部分病毒是RNA)中的全部遗传信息。 绝大部分基因组,包括所有的细胞生命形式的基因组,是由 DNA组成;一些病毒具有RNA 基因组 ;真核生物真核生物 :指一个物种的单倍体染色体所含有的一整
2、套基因和非编码DNA ;原核生物原核生物 :一般只有一个环状DNA 分子,其上所有的基因和非编码DNA为一个基因组; 真核生物细胞中的细胞器 (如叶绿体、线粒体等) 中的DNA也为环状,构成叶绿体基因组、线粒体基因组。 基因组的大小用碱基对(base pair , bp)的数量来表示: 103为 kb, 106为 Mb。基因组大小与物种基因组大小与物种的关系的关系 基因组的大小大致上与物种进化的复杂性相关; 大多数真核生物的基因组都比原核生物的基因组大,比原核生物的基因组复杂; 随着动物或植物进化程度的上升,每个单倍体的 DNA含量一般趋于增加,但是存在例外( C值佯谬); 思考:为什么会出现
3、 “C值佯谬 ”?基因组基因组基因组大小基因组大小 (kb)型式型式病毒病毒MS 4 单链单链 RNASV40 5 环状双链环状双链 DNAX174 5 环状单链环状单链 DNASARS-CoV 30 单链单链 RNA单纯疱疹病毒单纯疱疹病毒152线性双链线性双链 DNAT2、 T4、 T6 165天花天花267细菌细菌支原体支原体 (M. hominis) 760大肠杆菌大肠杆菌 (E. coli) 4,600 环状双链环状双链 DNA真核生物真核生物 单倍体染色体数目单倍体染色体数目酵母酵母 (S. cerevisiae) 13,000 16线虫线虫 (C. elegans) 100,00
4、0 6拟南芥拟南芥 (A. thaliana) 100,000 5果蝇果蝇 (D. melanognater) 165,000 4人人 (H. sapiens) 3,000,000 23玉米玉米 (Z. mays) 4,500,000 10蝾螈蝾螈 (A. spp.) 76,000,000 14不不同同生生物物基基因因组组大大小小的的比比较较基因数目与物种的关系基因数目与物种的关系 基因数目的多少大致上与物种进化的复杂性相关; 在高等动植物中,巨大的基因组并不意味着有巨量的基因数目。 人类究竟有多少个基因? 理论上:根据基因组的大小,可具有106个基因 “生物体的复杂性并不是简单地与基因数量相
5、关联的。 ”(G. Rubin) 5万 , 6万 , 7万 , 8万 , 14万! ? 4万 , 3万 , ? 打赌!基因数目猜奖基因数目猜奖(Gene Sweepstake)生物学家们为人类基因的数目打赌生物学家们为人类基因的数目打赌生物学家们对基因组里到底有多少基因的猜测一直有极大的不同。 2000年,在纽约冷泉港召开的一个会议上,他们设立了一美元一个(次)的基因数目赌注。胜者将于2003年揭晓,他除了可获得全部赌金外,还可得到一本由 J. Watson亲笔签名的皮革封面双螺旋一书。如果基因组是生命的天书,那么基因就是写成这本书的词汇。生物学家们一直假设,微生物的故事较短,而人类的故事则是
6、一部巨作,人类拥有 8万到 10万个基因。但是UC Berkly的果蝇基因组计划的主任G. Rubin 指出,果蝇的基因比我们所认为的最简单的线虫少了 5,000个。他警告说: “生物体的复杂性并不是简单地与基因数量相关联的 。 ”德国分子生物技术研究所的 A. Rosenthal说,我们得出的结论是整个基因组有不多于 4万个基因。法国的分子遗传学家 H. R. Crollius通过比较现有的人类基因序列与淡水河豚基因序列,提出了更低的人类基因数估计:在 27,700与 34,300之间。华盛顿大学的基因学家 P. Green提出人类基因数大约为35,000。 美国国家人类基因组研究所主任 F
7、. Collins表示他同意Green 的估计,将他1美元的赌金下在 48,011个基因上。但 Rockville的基因组研究所(TIGR)的 J. Quackenbush根据TIGR 的人类基因指数的估计,将他的 1美元赌在 118,259个基因上。加州 Incyte Genomics公司的S. LaBrie 赌的基因数是 153,478个,该公司在 1999年 9月曾宣布人类基因至少有 14万个。但是支持人类基因数目是一个较小数的科学家们也不灰心,他们争论说生物体的复杂性来自于基因如何被管理或表达的,而不是基因数目本身。 Rosenthal解释说: “我们不需要那么多的基因成为高等动物,
8、”他赌的是 38,000个。你赌多少呢?基因轮盘赌基因轮盘赌(Gene Sweepstake)http:/www.ensembl.org/Genesweep/The Gene Sweepstake will run between 2000 and 2003. The rules are: It costs $1 to make a bet in 2000, $5 in 2001 and $20 in 2002. Bets are for one number. Closest number wins, and in case of ties, the pot is split. A gene
9、 is a set of connected transcripts. A transcript is a set of exons via transcription followed (optionally) by pre-mRNA splicing. Two transcripts are connected if they share at least part of one exon in the genomic coordinates. At least one transcript must be expressed outside of the nucleus and one
10、transcript must encode a protein . Assessment of the method used to determine the gene will occur by voting at Cold Spring Harbor Genome Meeting 2002. Researchers will be invited to submit their methods to the community at this time. Assessment of the gene number will occur on the 2003 CSHL Genome m
11、eeting. People betting should write their name, email and number in the Gene Sweepstake book, held at Cold Spring Harbor. One bet per person, per year. Year defined as a calendar year. No pencil bets (ie, you cant change your number).Bets 165Mean 61,710Lowest 27,462Highest 153,478Last Genesweep Vote
12、s Vote distribution Who swept the Gene Sweepstake?The winner was announced at last weeks Homo Sapiens genetics meeting at Cold Spring Harbor Laboratory, New York. The gene champ, Lee Rowen, who directs a sequencing project at the Institute for Systems Biology in Seattle, Washington - beat 460 other
13、hopefuls to take home part of the cash pot.Rowens wager at 25,947 is closest to the current reckoning in a genetic database called Ensembl, of 24,847. Like all good gamblers, her number was “a stab“; one runner-up picked 27,462 because the 27 April, 1962 was his birthday. Recognizing genes - regions
14、 of DNA that code for proteins - has proved tougher than expected. One reason is that predictor programs, which trawl through DNA for landmark sequences characteristic of a gene, are notoriously unreliable. Human gene number wager wonGeneticists draw sweepstake despite uncertainty over final tally3
15、June 2003 人类基因数目之谜人类基因数目之谜目前已经发现和定位了26,000多个功能基因,其中尚有 42%的基因尚不知道功能。 原先曾经预测人类约有14万个基因, Celera公司现将人类基因总数定在26,383到 39,114个之间,只是线虫或果蝇基因数量的两倍,人有而鼠没有的基因只有 300个。根据 Ensembl数据库得到的计算结果,目前的最新估计数目是24,847。 基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义; 人类的基因较其他生物体更 “有效 ” 。 人类的复杂性更主要的体现在蛋白质的复杂网络中,即蛋白质就是构成生命的基本构件。 Celera公司首席科学家
16、Venter认为: “大部分的生物学行为发生在蛋白质水平,而不是基因水平。 ”种类种类数目数目备注备注古古 细菌细菌 (Archaea) 35/53真真 细菌细菌 (Bacteria) 421/619 其中有的测定了其中有的测定了 2个以上的菌株个以上的菌株真核生物真核生物 (Eukaryo) 47/76 包括酵母、线虫、果蝇、蚊子、拟南芥、包括酵母、线虫、果蝇、蚊子、拟南芥、人等人等病毒病毒 (Virus) 1,275/1527 包括不同亚类或不同株系包括不同亚类或不同株系类类 病毒病毒 (Viroid) 39/47 包括不同亚类或不同株系包括不同亚类或不同株系噬菌体噬菌体 (Phage)
17、347/426 包括不同亚类或不同株系包括不同亚类或不同株系细胞器细胞器 (Organelle) 1,097/1412 包括线粒体和叶绿体包括线粒体和叶绿体质粒质粒 (Plasmid) 480/597( http:/www.ebi.ac.uk/genomes/, 2007年 2月 /2008年 3月 )目前已完成测序4,000多个基因组许多其他物种的基因组测序已经完成或正在进行。当今已经进入后基因组时代,即功能基因组时代。Genomes that span the tree of life are being sequenced at a rapid rate. There are sever
18、al web-based resources that document the progress, including:GNN Genome News Networkhttp:/www.genomenewsnetwork.org/GOLD Genomes Online Databasehttp:/ Protein Extraction, Description almost all of its complexityis in single-copy DNA.The human genome is thoughtto contain 30,000-40,000 genes.bony fish
19、amphibianshttp:/www3.kumc.edu/jcalvet/PowerPoint/bioc801b.ppt4 20 Genome sequencing centers contributedto the public sequencing of the human genome.Many of these are listed at the Entrez genomes site.5 There are two main stragies for sequencing genomesWhole Genome Shotgun (from the NCBI website)An a
20、pproach used to decode an organisms genome by shredding it into smaller fragments of DNA which can be sequenced individually. The sequences of thesefragments are then ordered, based on overlaps in the genetic code, and finally reassembled into the complete sequence. The whole genome shotgun (WGS) me
21、thod isapplied to the entire genome all at once, while the hierarchical shotgun method is applied to large, overlapping DNA fragments of known location in the genome.Hierarchical shotgun methodAssemble contigs from various chromosomes, then sequence and assemble them. A contig is a set of overlappin
22、g clones or sequences from which a sequence can be obtained. The sequence may be draft or finished. A contig is thus a chromosome map showing the locations of those regions of a chromosome where contiguous DNA segments overlap. Contig maps are important because they provide the ability to study a co
23、mplete, and often large segment of the genome by examining a series of overlapping clones which then provide an unbroken succession of information about that region.6 When has a genome been fully sequenced?A typical goal is to obtain five to ten-fold coverage.Finished sequence: a clone insert is con
24、tiguouslysequenced with high quality standard of error rate0.01%. There are usually no gaps in the sequence.Draft sequence: clone sequences may contain severalregions separated by gaps. The true order andorientation of the pieces may not be known.7 Repository for genome sequence dataRaw data from ma
25、ny genome sequencing projectsare stored at the trace archive at NCBI or EBI(main NCBI page, bottom right)Blastn search of human trace archive with human RBP48 Genome annotationInformation content in genomic DNA includes:- repetitive DNA elements - nucleotide composition (GC content)- protein-coding
26、genes, other genesThese topics will be discussed later.第三节第三节原核生物基因组的特征原核生物基因组的特征及其分析及其分析一一、原核生物基因组结构的特点原核生物基因组结构的特点1、原核生物基因组一般比真核生物基因组小得多E. coli的基因组 (4.6Mb)约为酵母基因组 (12.1Mb)的 2/52、绝大部分原核生物基因组由一个单一的环状 DNA分子组成3、原核生物的基因通常比真核生物的少E. coli: 4000多个基因,人: 30000个4、基因组结构紧密,重复序列远少于真核生物的基因组。例子:例子:E. coli K-12双链环状
27、 DNA分子,全基因组长为4,600kb ;目前已经定位的基因有4,289个;非编码区占的比例约为11.4% 。5、长开放阅读框(长开放阅读框(ORF,open reading frame)若终止密码子出现在非编码核酸序列中,大约每 21个密码子出现一次( 3/64)绝大部分原核生物蛋白质的长度大于 60个氨基酸;( E. coli:蛋白质编码区域平均长度为 316.8个密码子,不到1.8% 的基因的长度小于 60个密码子)长 ORF表明该区域可能对应于一个原核生物基因的编码序列从统计学角度来看,如果所有的密码子在随机的核酸序列中以相同的频率出现,则不含终止密码子且长度为 N个密码子的序列出现的概率为(61/64)N。长度为 N的 ORF的 95%显著性置信度等价于 5%“随机” 命中的可能性,即 (61/64)N=0.05,这里 N等于60,表示典型长度的ORF 中密码子的数目。