1、第二章 基因和基因组,genes and genomes,一、原核生物和真核生物,原核: 无核结构 真核: 核膜包围染色体 主要区别: 细胞结构、遗传组织、细胞的其他功能,生物进化的三界学说,嗜热细菌古细菌 产甲烷细菌 嗜盐细菌原核 大肠杆菌 真细菌 土壤杆菌原始细胞 枯草杆菌 原生生物真核 真菌植物动物,二、原核生物染色体及其基因,1、E.coli 染色体4.2106bp 双链环状DNA,无核结构。相对集中产生类核,DNA占80%,RNA和蛋白质占20%,1000bp/基因。E.coli 有3000-4000个基因。,相关术语介绍:,操纵子:功能上相关的几个结构基因相连,由一个共同的调节基因
2、和一组共同的控制位点即启动子(promoter)和操作子(operator,也称操纵基因)。在基因表达时协调作用。这种基因表达调控结构组成一个单元,称为操纵子(也称为操纵元)。如E.coli 中的乳糖代谢操纵子 操纵子组成包括结构基因、启动子和被调节基因产物识别的操纵基因,调控子:一个调节基因的产物能调控几个操纵子基因的表达。这样几个操纵子加上它们的调节基因就是调控子结构基因:编码蛋白质的特定DNA序列,常为单拷贝。,RNA基因:仅转录合成RNA的特定DNA序列。多拷贝。 遗传密码:DNA序列和相应蛋白质氨基酸之间的关系。通过mRNA中碱基的排列来联系。 密码子:mRNA中的三联体。 突变热点
3、:DNA序列中特定区段容易发生突变的位点。,顺反互补 -基因的认识,可读框 DNA中具有潜在编码蛋白质氨基酸的核苷酸序列。 编码区:DNA中对应于蛋白质中氨基酸序列的核苷酸序列。 转录单位:包括转录的启动子及其上游的其它调控区域、基因本身和转录的终止序列。 间隔区:基因序列中没有编码功能的区域。包括一些复制、转录、翻译过程的调控区段。,2、噬菌体,x174 单链环状DNA。5386核苷酸,11个基因,3个 mRNA,翻译11种蛋白质,重叠基因和基因内基因。,噬菌体 48502bp ,双链DNA,(环状和线形分子)在E.coli中有两种形态存在,以分离的环状分子存在于寄主的细胞质中和以原噬菌体形
4、式整合到寄主染色体中。,cI,溶原化的原因,三、真核生物基因组,1、真核生物基因组大小与C值矛盾基因组、染色体数目、C值 C值矛盾(C value paradox),人们无法用已知功能来解释基因组的DNA含量,所以产生了C值矛盾。 与预期的编码蛋白质基因数量相比,基因组DNA含量过多。 一些物种间的复杂性变化范围并不大,但C值却很大。,常见试验动物的DNA含量,2、基因组的基因数目,a. 全序列测定,酵母,1.3107bp,平均 每个可读框为1.4kb。基因间的平均间隔 为600bp.则 1.3107bp/1.4kb+600bp=6500(基因)b. 可读框 最大值c. 表达基因数 最小值d.
5、 致死基因数,不等交换改 变基因数目,四、真核生物的染色体,1. 染色质和核小体异染色质组成型异染色质 DNA序列不转录兼性异染色质 X染色体 常染色质,2. 核小体染色体的基本结构单位200bpDNA+组蛋白(H2A, H2B, H3, H4)+ H1,染色质染色体,被压缩8000-10000倍四级结构 核小体螺线体超螺线体染色单体,核小体的组装H3和H4先形成四聚体,一个锁芯样结构,70-80bp DNA缠绕其上形成一圈螺旋,然后H2A和H2B形成异二聚体,结合于四聚体的两个侧面,各异二聚体与30-40bp DNA 结合各产生半圈螺旋,最后H1与DNA结合锁住核小体的进出口。,3、 着丝粒
6、(centromere),功能:染色体分裂的完整性、连续性、两极分离 性酵母菌的着丝粒序列(cen3)插入酵母菌质粒中。使质粒在细胞分裂表现出有规则地向子细胞分配行为。,结构:DNA特殊序列,大多数着丝粒中含110bp的AT富集保守区,在其两侧是高度保守的序列(成分和成分),特征: 不同物种的着丝粒中DNA序列不同,同种生物不同染色体的着丝粒结构也有差别。,4端粒(telomere),线性DNA分子末端特化了的序列,是特殊的二级结构。端粒的DNA由许多短的正向重复序列组成。5端总是在富含C的链上,3端则在富含G的链上。 Cn(A/T)m n=18Gn(T/A)m m=14具有一条单链末端,总是
7、富含G的链,即带有3端。端粒DNA单链末端不被核酸外切酶及单链特异性的内切核酸酶所识别。人类端粒5TTAGGG-3,端粒、着丝粒和DNA复制起点构成了染色体的不可缺少的三要素。人工染色体(artificial chromosome),五 真核生物的基因,1真核生物DNA复性动力学,真核生物DNA复性跨越78个数量级,复性可分为三个组分,每个组分代表基因组中不同复杂性的序列,第一相:快复性组分 约占25 Cot104 2102, Cot1/2 =0.0013 第二相:中间复性组分 占30 Cot0.2100 Cot1/2 =1.9 第三相:慢复性组分 占45 Cot8010000 Cot1/2
8、=630,真核DNA的复杂性大于原核DNA.从Cot曲线可见原核的Cot曲线都呈“S”形。跨度一般分布2个数量级,表明原核DNA都是单一序列。DNA复杂性为最长的没有重复序列的DNA核苷酸对数目。可通过E.coli DNA 作为标准对被测DNA进行复杂性的计算: 4.2106bp样品DNACot1/2(观察可得) X E.coli DNACot1/2(已知),各组分复杂性的计算是独立进行的,独立与标准DNA的Cot曲线比较。 第三相 占45,其Cot 浓度也是总Cot的45%,因而它实际上的Cot1/2 应为63045283,假定同样条件下,E.coli DNA的Cot1/2 4,则代入以上计
9、算DNA复杂性的公式可得第三相慢复性组分的动力学复杂性。,4.2106bp283X 3.0108bp4同理第二组分为 6105bp第一组分为 340bp,化学复杂性是利用化学方法测量的结果。上例中DNA总浓度7.8108bp,其中第3组分化学复杂性为7.8108bp453.15108bp,该数据和按复性动力学估算的结果(3.0108bp)很接近。,根据基因组总长度和每一组分的复杂长度,可计算出每一组分拷贝数,化学复杂长度 基因组DNA总长度组分所占比例 f 动力学复杂长度 动力学复杂长度,7.8108bp45 三相 f 13.0108bp7.8108bp30 二相 f 3506.0105bp7
10、.8108bp25 一相 f 500,000340,2、真核生物的单一序列,重复序列及卫星DNA,根据复性动力学研究结果可将真核DNA分为4种单一序列 非重复序列 轻度重复序列 在基因组中有210个拷贝,组蛋白基因、tRNA基因中度重复序列 在基因组中有10几百个拷贝一 般不编码蛋白质,在基因调控中发挥作用 高度重复序列 拷贝数几百几百万,如rRNA 基因。,高度重复序列切成数百个碱基的片段进行超速离心,会在主要的DNA带的上面有一个次要的 DNA带相伴随。这就是卫星DNA(Satellite DNA), 主要由长串联重复序列组成。一般对应于染色体上的异染色质区,位于着丝点区域 。,小卫星DN
11、A(minisatellite DNA) 由中等大小的串联重复序列组成。位于染色体末端区域, 也可分散存在,一般不转录。有一个基本的核心序列(GGGCAGGAXC)。另一类小卫星DNA是端粒DNA,主要有串联重复单位TTAGGG组成。 微卫星DNA(microsatellite DNA) 重复单位多为二 核苷酸,也有少量三核苷酸和四核苷酸,分散存在于基因组中,可作为基因的标记。,小卫星DNA的应用,原核生物含完全不重复DNA,低等真核大部分为非重复,重复组分不超过30。基本为中度重复,高等真核中近一半为中度或高度重复。,真核DNA的四种类型并非在每一生物中都存在。多倍体植物中没有非重复序列。螃
12、蟹基因组中没有中度重复。,基因组大小和非重复DNA在低等简单的生物中有正 比关系。即基因组增加,非重复DNA长度增加。当基因组大小在3.0109bp以上时,基因组增加,非重复DNA组分不增加,只是重复组分增加。,3. 割裂基因和重叠基因,基因不连续,即为割裂基因(interrupted gene)指基因的编码序列在DNA分子上不是连续排列的,而是被不编码的序列所隔开(鸡卵清 蛋白基因), 外显子(外元,exon) 对应于mRNA 序列,基因两端起始和结束都是外显子。 内含子、(内元, intron)不编码的序列,在成熟mRNA中消失.,鸡的卵清蛋白基因,割裂基因的特性,1、外显子广泛存在于各种
13、生物不同的基因中,编码蛋白质基因、rRNA、tRNA. 真核生物大多数是割裂基因,古细菌中少见,真细菌中没有。 2、外显子排列顺序和其在成熟mRNA中排列顺序相同 3、某种割裂基因在所有组织中都具有相同的内含子成分 4、内含子通常在所有的可读框中都含 有无义密码子,一般无编码功能,外显子与生物进化,通过DNA杂交,如一个外显子与其它基因外显子片段互补,则表明这两个基因可能起源于共同祖先。经基因扩增后的进化过程逐渐扩大差距而形成不同的基因。,基因内含子之间的亲缘关系远不如外显子之间的关系密切,内含子突变后不影响蛋白质的结构,外显子突变后影响蛋白质结构被自然选择淘汰,而表现内含子在进化过程中变化较
14、大、较快,内含子就避免了选择压力而自由积累。,重叠基因,不同起点,不同编码框,外显子的选择性连接可产生不同的mRNA,产生重叠基因。外显子和内含子相对而言存在。,4. 基因家族和基因簇,来源相同,结构相似。功能相关的一组基因为基因家族(gene family) 家族成员有序列相关性。但相关程度和组织形式不同。 基因家族成员分布在特定染色体区域。也可分散存在于同一染色体。甚至不同的染色体,家族成员紧密成簇排列成大段的串联重复单位。并定位于特定的染色体区域内。称为基因簇(gene cluster),血红蛋白基因家族 血红蛋白由两两相同的四个亚基和四个血红素组成,在成人中,亚基为和。不同发育时期血红
15、蛋白组成的亚基不同。这些亚基在结构和功能上可归结为2类:类链和类链 类链的基因彼此靠近而串联在一起构成基因簇。位于11号染色体 类链的基因彼此靠近成簇,位于16号染色体,串联重复基因,组蛋白基因, 编码5种组蛋白的基因:H1、H2A、H2B、H3、H4,彼此靠近而构成一个重复单位。 该基因中没有内含子,但存在不转录的间隔区。 鸡 重复数10,哺乳动物 20个,果蝇100个,,rRNA基因 原核5s, 16s, 23s 真核 5.8s, 18s, 28s, 和 5s 5s的拷贝数多,但不是RNA聚合酶转录,而是RNA聚合酶转录,分散存在。,tRNA 酵母tRNA,长约140kb,有内含子,但各内
16、含子没有序列的共同性 。,串联重复基因和基因家族的区别,串联重复基因各成分间有高度的序列一致性甚至完全相同。基因家族各成员的差别较大。拷贝数较高。常有几十几百个。基因家族拷贝数不高。非转录的间隔区短而一致。基因家族各成员的非转录的间隔长短不一,5、细胞器基因,叶绿体、线粒体含有DNA,环状、非重复。同一线粒体或叶绿体内含有相同环状DNA。 叶绿体、线粒体均编码自身所需的某些蛋白质及rRNA,tRNA。其余所需的蛋白质均由核基因编码。 叶绿体、线粒体的膜不允许核酸的通过。其合成的rRNA,mRNA和tRNA只能在细胞器内行使功能,进行翻译,合成系统是细胞器专用的。,6 、 基因鉴定,构建DNA物
17、理图谱的基本目的就是在特定染色体区域内对基因定位。,基因的编码区和非编码区有以下区别: 1 活化基因都能表达并产生RNA产物-mRNA,mRNA可与DNA的基因序列杂交。 2 基因DNA序列是保守的,编码产物的序列发生突变往往对生物体不利而被自然选择淘汰,所以DNA的编码序列与非编码序列相比在进化上十分保守。,3 编码区如发生突变产生终止密码子,将使其产物丧失功能而使突变基因淘汰,非编码区产生的终止密码子突变则不被淘汰。所以,基因编码区的序列通常比非编码区含较长的可读框。,1. 与RNA或cDNA杂交,利用待测的DNA克隆作为杂交探针,和不同组织中的mRNA或者总RNA进行Northern印迹
18、杂交,出现阳性则表明在克隆片段中可能存在基因。这时可用适当的cDNA文库进一步筛选。 不足之处: 基因表达有组织、发育时期局限性,有时RNA产物或cDNA文库中无此基因产物。 外显子序列在探针中的比例可能很低,杂交信号不高,很难检测出杂交的阳性信号。,2. Zoo-blot 杂交,该法利用基因的保守特性和可读框较长的 特点检测基因的存在。 测试样本首先和不同种类的基因组DNA进行Southern 杂交,产生阳性杂交信号的基因组DNA可能含进化上十分保守的编码序列。然后测序检查能够杂交的序列中是否含有可读框。可分离出未知的但具有某些功能的基因。,3. 外显子捕获 (exon trapping),
19、它所采用的载体含有强启动子和被内含子中断的两个外显子,载体的内含子序列中含有限制酶位点,用于插入待测的DNA片段。,当待测DNA片段插入时,通过转录产生含两个外显子序列的RNA。如待测片段不包含新外显子,在剪接图谱上不会发生变化,mRNA含有与亲代载体相同的序列。,如待测片段含有新外显子而且外显子两侧有部分内含子序列,mRNA加工时,这个外显子两侧的剪接位点被识别。外显子的序列就插入RNA载体的两个外显子间,表明捕捉到了外显子。,4. CG岛鉴定,脊椎动物基因常伴随CG岛( CG island )。CG岛是短的低甲基化的富含CG的序列,常在基因的5端。CG岛内有些稀有的内切酶位点,这些酶切位点的紧密成簇存在表明含有CG岛,然后进行Southern印迹可鉴定基因。 无CG岛的 基因不适 用,5. DNA序列的计算机分析鉴定,同源分析:对DNA核苷酸序列和相应的氨基酸序列与记录在数据库中的DNA和蛋白质比较。序列间明显符合表明与基因有关。 外显子预测:适用于大量DNA序列的检测。扫描DNA序列,检测是否含有外显子与内含子剪接处和剪接分支位点处的保守序列,是否存在相对长的可读框,鉴定可能的外显子。,本章要点,真核生物基因组 染色质何染色体结构 着丝粒结构 DNA复性动力学 单一序列DNA 重复序列DNA 卫星DNA 割裂基因 基因家族和基因簇 基因鉴定的方法和原理,