1、功能基因组学,中英联合实验室,功能基因组学,功能基因组学,后基因组学(Post genomics): 利用结构基因组学提供的信息和产物 通过在基因组或系统水平上全面分析基因的功能 生物学研究从对单一基因或蛋白质的研究转向对多个基因或蛋白质同时进行系统的研究。 功能基因组学的目的 基因功能发现 基因表达分析及突变检测 从基因组整体水平上对基因的活动规律进行阐述。 采用一些新的技术(SAGE、DNA芯片),对成千上万的基因表达进行分析和比较,功能基因组学简介,基因组DNA测序:人类对自身基因组认识的第一步。 功能基因组学:从基因组信息与外界环境相互作用的高度,阐明基因组的功能。 功能基因组学的研究
2、内容: 人类基因组 DNA 序列变异性研究 基因组调控的研究 模式生物体表达的研究 生物信息学,功能基因组学的研究内容,基因的识别估计基因的功能基因功能的确定,基因的识别,预测基因组的全部编码区或称开放阅读框架,目前基因组功能注释的一个主要方面。一是评估未知DNA 片段编码可能性的概率型方法,另一类是通过同源性比较搜寻蛋白质库 / dbEST 库找寻编码区。 研究表明:鉴定和发现表达基因最快的途径是确定cDNA 的部分序列,即EST ,这种序列在大多数情况下已足够用于确认对应的基因。,基因的识别,EST 策略:一种快速有效地在一个基因组中抽样获取有效基因序列的方法。特点:可以用一个未知功能的c
3、DNA, 确定一个短的DNA序列如300400bp,而后,这些短的序列可以用作标签去检索已知的数据库确定一个特异的基因。,表达序列标签(expressed sequence tag,EST),鉴定和发现表达基因的最快途径 随机挑选的cDNA克隆进行一端或二端长为300500pb的测序,这种序列在大多数情况下已足够确认对应的基因 通常从已有的cDNA文库中随机取出几百或几千个克隆,1次测序产生。 只含有基因的外显子,cDNA克隆的测序分析可以了解基因的表达情况 EST的数目可以提示它所代表的基因表达的拷贝数。一个基因在组织中表达的次数越多,其相应的EST也越多。,EST应用,目前主要被用于寻找新
4、基因和了解基因的表达概况 步骤如下: 建立某种生物材料或组织的cDNA文库,从文库中随机取出足够量的cDNA克隆进行自动测序,将所得的EST数据与dbEST等数据库的数据比较,确定哪些代表已知基因,哪些代表未知基因,进一步分析全部EST以获得生物或组织的基因表达概况,并深入研究未知基因 用EST和cDNA序列与己知的DNA序列进行序列相似性比较,可以确定很多基因的内含子位置EST还被用来确定编码区的边界,分析基因组的转录图谱 结合酵母双杂交系统,进行蛋白质互作研究,估计基因的功能(以小麦基因组为例),确定基因的功能毫无疑问仍然是小麦基因组学最大的挑战 ,许多假设的方法正在被用来推测基因功能。,
5、估计基因的功能(以小麦基因组为例),第一步,确立小麦EST 或基因组克隆与其它植物假定的定向进化同源基因的同源性。如果在其它植物中一个基因的功能已知,那就表示小麦EST 具有相似的功能。第二步,在作图群体中EST 与相关表型的连锁,高密度图谱可以用来提高连锁假设的力度,然而小麦基因组中重组频率高的区域和重组频率低的区域呈非随机分布,且小麦单一位点上存在多基因家族,限制了通过连锁进行候选基因的分析。,估计基因的功能(以小麦基因组为例),高分辨率双向蛋白质电泳和外源表达体系:提供一种补充小麦功能基因组学研究的蛋白质组学方法 改进的微阵列方法和蛋白质组学研究方法:确定可能影响到小麦淀粉A 颗粒和B
6、颗粒的特异起始和合成的新基因。,基因功能的确定(以小麦基因组为例),功能互补实验 引起植物表型变异的特异性突变体的研究大多数用于基因发现的精密体系,像模式植物中的增强子、启动子和基因陷阱,都要依靠高度有效的转化体系。,基因功能的确定(以小麦基因组为例),高效转化体系的获得是存在于小麦基因功能证实阶段的一个主要障碍。目前小麦转化效率的平均值范围在0.1%5% 之间,太低的转化率不能用于发展一种建立在转化基础上的基因标签体系。在把玉米的Ac/Ds转座单元转入小麦愈伤组织方面作了一些尝试。玉米的Ac/Ds因子在转基因小麦愈伤组织中的激活和解离已经得到证实,与在其它植物中的观察结果相同。 Ac/Ds转
7、座酶的高水平转录导致了切除频率的下降,因此随着小麦转化和再生效率的提高,根据异源转座子标签来发现基因是可行的。,基因功能的确定(以小麦基因组为例),随着植物功能基因组学研究的不断深入,新的研究技术和方法,如蛋白质组学、DNA 微阵列和生物信息学等也将会应用到小麦功能基因组研究中。,基因功能分析,比较不同组织和不同发育阶段基因表达模式的差异 比较正常状态和疾病状况下基因表达模式的差异 系统了解不同组织在发育过程中、在不同环境条件下,mRNA的表达水平 根据基因的时空表达类型对基因进行分类 通过比较同类基因的调控序列发现新的调控因子 根据基因表达的变化,结合已知调控基因突变体的表达情况研究表达网络
8、。,基因产物蛋白质功能的研究,蛋白质组学(proteomics)在后基因组时代研究重心将从揭示生命的所有遗传信息转移到整体水平上对功能的研究。核心内容包括2个部分:1. 蛋白质组研究体系的建立、完善蛋白质组技术体系和蛋白质组信息学技术体系包括:蛋白质样品制备和鉴定蛋白质相互作用网络的研究技术等2. 与重要的生物学问题有关的功能蛋白质组研究,目前功能基因组研究的主要技术及应用,功能基因表达克隆(functional cloning) 基因芯片(gene chip)或基因微阵列技术(micro array) 基因表达系统分析(serial analysis of gene expression,S
9、AGE)或表达序列标签(expressed sequence tag,EST) 蛋白质组技术(proteomics) 质谱测序技术 生物信息学(bioinformatics) 转基因(transgenics) 基因敲除(gene knock out)这些前沿技术为功能基因组学的研究提供了强有力的技术保障.在植物功能基因组研究方面,目前应用较多的是EST,基因芯片,蛋白质组技术,反向、正向遗传学技术及生物信息学技术等等.,SAGE (serials analysis of gene expression) 基因表达系列分析Velculescu 及其同事于1995年创立,SAGE特点: 进行转录物
10、组研究,也就是转录水平的研究;通过快速和详细分析成千上万个EST,寻找出表达丰度不同的SAGE标签序列,从而接近完整地获得基因组的表达信息;SAGE区别于差异显示、消减杂交等其它技术的主要特点是可用于寻找那些较低丰度的转录物,最大限度地收集基因组的基因表达信息,这使之成为从总体上全面研究基因表达、构建基因表达图谱的首选策略;SAGE可用于在不同环境、不同生理状态及不同生长阶段的细胞和组织表达图谱构建,对不同状态下基因表达水平的定量或定性比较,特别是对疾病组织与正常组织的比较发展迅速;,SAGE 技术的主要理论依据: 来自转录物内特定位置的一小段寡核苷酸序列(911bp)含有鉴定一个转录物特异性
11、的足够信息,可作为区别转录物的标签(tag); 通过简单的方法将这些标签串联在一起,形成大量多联体(concatemer),对每个克隆到载体的多联体进行测序,并应用SAGE软件分析,可确定表达的基因种类,并可根据标签出现的频率确定基因的表达丰度(abundance)。,SAGE 步骤,SAGE实例,蛋白质组(Proteome),蛋白质组定义广义上是指某种细胞或组织中基因组表达的所有蛋白质;狭义上, 可以指不同时期细胞内蛋白质的变化.蛋白质组学定义研究蛋白质组结构和功能的领域称为蛋白质组学.蛋白质组学的研究内容:分析全部蛋白质组所有成分以及它们的数量;确定各种组分所在的空间位置、修饰方法、互作机
12、制、生物活性和特定功能等,蛋白质组分析复杂性,蛋白质有许多加工方式,如磷酸化、糖基化、乙酰化、泛素化等; mRNA 的可变剪接、程序性移码和可控突变,1个基因可编码许多不同的蛋白质,常常表现为组织特异性; 蛋白质之间存在大量的相互作用,如形成同源或异源二聚体、三聚体或多聚体,不同的结合状态有不同的活性; 1种蛋白质可参与多种反应,或多种蛋白质参与1种反应。,蛋白质组研究技术,蛋白质组主要研究技术:双向电泳生物质谱技术蛋白质芯片酵母双杂交,双向凝胶电泳样品制备(包括蛋白质的溶解、变性及还原,从而去除非蛋白质杂质等) 第一向等电聚焦(根据蛋白质电荷差异进行分离) 第二向SDS-PAGE(以蛋白质分
13、子量差异为基础)蛋白质的检测(用考马斯亮蓝、银染、铜染等方法)图谱数字化分析(图象扫描、确定每个蛋白质点的等电点和分子量,寻找差异蛋白),双向电泳图,质谱技术的基本原理:样品分子离子化后,根据不同离子间质核比(m/z)的差异来分离并确定分子量。质谱仪组成:进样装置、离子化源、质量分析器、离子检测器和数据分析系统组成。,质谱技术在蛋白组研究中的应用:A 肽质谱和肽序列分析蛋白质经双向电泳后,分离到的蛋白质被切割下来,进行胶内酶解,或转移到PVDF膜上,进行膜上膜解,然后上样进行测序。但目前质谱法还不能够取代Edman降解法测序,可是其测定速度较快。,B 鉴定翻译后修饰的蛋白质质谱可通过特征离子监
14、测的方法很快确定磷酸化肽,通过串联质谱确定磷酸化位点;质谱可与蛋白酶解和糖苷酶酶解结合,寻找糖肽,鉴定糖基化位点;质谱还参与糖链组成、结构甚至分支情况等的分析。,C 质谱技术的其他作用质谱可对蛋白质二硫键进行定量和定位,分析蛋白质与蛋白质的相互作用,蛋白质与其他分子的相互作用,以及蛋白质的二级结构等。,蛋白质组数据库的建立和生物信息学数据库的建立是蛋白质组研究的最重要的一个方面。蛋白质的数据库包括:蛋白质序列数据库质谱数据库双向电泳图谱数据库有关蛋白质结构的数据库,蛋白质组学的应用,蛋白质组学(Proteomics)是蛋白质的遗传学. 除了发生突变, 基因组结构保持不变, 但是蛋白却由于细胞种
15、类及环境的不同,动态表达为不同结构. 虽然只有部分DNA遗传信息通过mRNA被转录到蛋白质合成过程中, 但事实上细胞活动是在蛋白水平上进行的. 所以蛋白质组学与基因组学同等重要, 甚至更为重要. 尽管重要, 与DNA能够识别互补序列而形成双螺旋链并通过PCR技术扩增相比, 蛋白质不能由序列选择性合成和被周围环境修正, 蛋白质组学刚刚起步. 最终目标将是代谢物组(matabolome)或生理组(physiolome)的靶物, 用以研究蛋白质的真正意义, 但是现在研究还仅停留在观测蛋白质是否被表达的阶段.,蛋白质组,HIV蛋白质组示图,蛋白质组研究技术路线,证实并克隆差异表达基因,大致可分为以下4
16、类:以DDPCR(differential display)为代表,包括以随机引物PCR为基础的mRNA指纹法(arbitrarilyrimed PCR finger- printing of RNA) 差减克隆(subtractive cloning )和正性选择(positive sele- ction) 将差异显示及差减结合起来的方法充分利用人类及模式生物基因组已有信息的方法基因表达的系列分析(serial analysis of gene expressing,SAGE) cDNA微点阵法(cDNA microarrays) 综合性基因鉴定程序(integrated procedure
17、 for gene identification,IPGI),差异显示,差异显示逆转录PCR法(DDRT-PCR)RNA指纹法RNA Fingerprinting,基因组表达及调控的研究,在全细胞的水平,识别所有基因组表达产物: mRNA: c DNA 阵列 蛋白质:二维电泳 质谱 研究生物大分子相互作用:阐明基因组表达在发育过程中的时空整体调控网络。 蛋白质组学:高通量解析蛋白质的高级结构,是连接基因组功能研究和新药开发的桥梁。,基因芯片技术及应用,又称基因微阵列技术,是指将大量(通常每cm2点阵密度高于400)基因探针分子固定于载体(玻片或薄膜后)与标记的样品分子(mRNA、cDNA、基因
18、组DNA等)进行杂交,通过检测每个探针分子的杂交信号强度进而获取样品分子数量和序列信息.该技术的最大优点是可以一次性对大量样品序列进行检测和分析,从而解决了传统核酸印迹杂交(southern blotting和northern blotting等)技术操作繁杂、自动化程度低、操作序列数量少、检测效率低等问题. 目前,通过设计不同的探针阵列组合和使用特定的分析方法,基因芯片技术已广泛应用于基因表达测定、寻找新基因、突变体和多态性分析、DNA测序以及基因组文库作图、疾病诊断和预测、药物筛选等.,基因芯片的应用,使用DNA芯片做基因表达模式研究是现今蛋白质组学中一个非常热门的课题. DNA芯片技术不
19、是研究蛋白质本身而是跟踪mRNA转录过程, 这一过程是合成蛋白质的中间步骤, 被称作转录本组系. DNA包含储存蛋白质遗传信息的外显子, 以及现今对其功能不甚了解的内含子. 外显子和内含子被转录为RNA, 然后去除基因内区仅剪接(splicing)外显子从而得到mRNA. 因此, 研究mRNA序列, 可以估计蛋白质翻译率. 斯坦福大学Affymetrix和Patrick Brown的DNA芯片利用cDNA与mRNA互补的性质跟踪了活细胞中mRNA的定量转化.,基因芯片,基因芯片示意,人类基因组芯片(Genetic Files),美国总统克林顿在1998年10月对全国的演讲中指出:“未来十二年, 基因芯片将为我们一生中的疾病预防指点迷津”。,基因芯片的应用,生物信息学的工具 基因相关性研究 基因功能 药物设计和开发 潜在反义试剂开发 个体化医疗 身份识别 基因诊断 其他与生物有关的领域,特定基因检测 突变检测 多态性分析 基因表达谱,