1、评分大理大学实验报告课程名称 生物信息学 实验名称 生物序列分析 20152016 学年度第 3 学期一、 实验目的掌握这门课程基础。二、实验环境1、硬件配置:Intel(R)Core(TM) i5 4200M CPU2.50HZ 2.50HZ生物信息学实验报告第 2 页 共 44 页三、实验内容第一轮1、世界三大核酸数据库是什么?分别查出主页2、查询 GENBANK 数据量、SWISS-PROT 数据量和 PubMed 中“protein”的研究文件3、用 GENSCAN 预测 AC002390 序列的基因/外显子4、用 CpGplot 预测 AC002390 序列的 CpG 岛第二轮1、用
2、 POLYAH 预测 AC002390 序列的转录终子信号2、用 promoterScan 预测 AC002390 序列的启动子区域3、用 CodonW 分析 waxy 基因所得的 RSCU 值和个数4、用 ProtParam 分析 G00016 序列理化性质第三轮1、用 ProtScale 分析 P02699 序列疏水性2、用 TMpred 分析 P51684 序列跨膜螺旋区3、用 SignaIP 分析 P05019 序列前导肽4、用 COILS 分析 GO45_HUMAN 卷曲螺旋5、生物分子网络主要有哪些?其特点?第四轮1、使用 BLAST 搜索 ZEB1 基因和 ZEB1 蛋白质2、使
3、用 BLAST 搜索 ZEB2 基因和 ZEB2 蛋白质3、使用 BLAST 搜索 FN1 基因和 FN1 蛋白质4、使用 BLAST 搜索 CD44 基因和 CD44 蛋白质5、收集蛋白质互作数据库,并且将其基本信息制成一张表格第五轮1、使用 ClustalX 软件进行多序列比对,文件为 miR-19.fasta2、使用 ClustalX 软件进行多序列比对,文件为 SARS-19.fasta3、使用 MEGA 软件进行系统进化树分析,分析文件为 miR-19.fasta4、使用 MEGA 软件进行系统进化树分析,分析文件为 SARS-19.fasta5、搜集 miRNA 靶基因数据库,并且
4、将其基本信息制成一张表格四、实验结果与分析第一轮1、世界三大核酸数据库是什么?分别查出主页生物信息学实验报告第 3 页 共 44 页图 1:EMBL 数据库主页图 2:DDBJ 数据库主页生物信息学实验报告第 4 页 共 44 页图 3: GenBank 数据库主页分析: 图 1:欧洲分子生物学实验室 EMBL,目的在于促进欧洲国家之间的合作来发展分子生物学的基础研究和改进仪器设备、教育工作等。图 2: DDBJ 主要向研究者收集 DNA 序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,亦接受其他国家呈递的序列,数据库通过WWW 环球网,匿名 FTP,e-mail 或 Gopher
5、方式为广大研究人员服务。图 3:NCBI 中的 GenBank 是指美国国立生物技术信息中心,基本研究包括四项:建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统;实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究;加速生物技术研究者和医药治疗人员对数据库和软件的使用;全世界范围内的生物技术信息收集的合作努力。2、查询 GENBANK 数据量、SWISS-PROT 数据量和 PubMed 中“protein”的研究文件生物信息学实验报告第 5 页 共 44 页生物信息学实验报告第 6 页 共 44 页图 4:查询 GENBANK 的数据量及
6、放大图生物信息学实验报告第 7 页 共 44 页图 5:查询 SWISS-PROT 数据量结果及放大图生物信息学实验报告第 8 页 共 44 页图 6:PUBMED 中 protein 的研究文献3、用 GENSCAN 预测 AC002390 序列的基因/外显子生物信息学实验报告第 9 页 共 44 页图 7:GENSCAN 的操作界面及放大图生物信息学实验报告第 10 页 共 44 页生物信息学实验报告第 11 页 共 44 页生物信息学实验报告第 12 页 共 44 页图 8:用 GENSCAN 预测 AC002390 序列的基因/外显子输出图分析:从上图中可以得知,GENSCAN 可以对
7、序列中的多个基因同时进行识别,且对由序列中识别出的基因按顺序进行编码, P 表示分析结果为外显子的可能性,外显子从 1.011.12 有 11个外显子,从 532657 长度为 126。当 P0.99 时为可能性极高的外显子,预测结果与实际完全吻合;当 0.50.99 时为中等可能性的外显子,预测结果与实际大多数情况下吻合;当 P0.5时为低可能的外显子,预测结果不可靠。4、用 CpGplot 预测 AC002390 序列的 CpG 岛生物信息学实验报告第 13 页 共 44 页图 9:CpGplot 操作界面及放大图生物信息学实验报告第 14 页 共 44 页图 10:用 CpGplot 预
8、测 AC002390 序列的 CpG 岛输出图分析:从上图可知 CGP 岛为位于启动子和第一外显子区域,长度超过 200bp 的为 CPG 岛。 第二轮1、用 POLYAH 预测 AC002390 序列的转录终子信号生物信息学实验报告第 15 页 共 44 页图 11:POLYAH 操作界面及放大图生物信息学实验报告第 16 页 共 44 页图 12:用 POLYAH 预测 AC002390 序列的转录终子信号输出图分析:从结果图中可以看出,AC002390 序列所有可能的 50 个 PloyA 位点的位置(Pos)和权重(LDF) ,列如在 52398 碱基处有 PloyA 信号,权重 2.
9、54,值得注意的是真核生物基因组序列本身存在大量的重复序列。 2、用 promoterScan 预测 AC002390 序列的启动子区域生物信息学实验报告第 17 页 共 44 页图 13:promoterScan 操作界面及放大图生物信息学实验报告第 18 页 共 44 页图 14:用 promoterScan 预测 AC002390 序列的启动子区域输出图分析:promoterScan 以单元的形式列出了所有可能的启动子区域,值得注意的是,因为转录因子长度较短,无论是同源匹配还是模式识别, ,预测结果的假阳性比例都很高,需要结合外显子/内含子预测以及 GpG 岛预测的结果进行综合判断。此外
10、,并非所有的基因的上游区域都符合已知启动子结构的模式。3、用 CodonW 分析 waxy 基因所得的 RSCU 值和个数生物信息学实验报告第 19 页 共 44 页图 15:用 CodonW 分析 waxy 基因所得的 RSCU 值和个数输出图及放大图4、用 ProtParam 分析 G00016 序列理化性质生物信息学实验报告第 20 页 共 44 页图 16:ProtParam 操作界面及放大图生物信息学实验报告第 21 页 共 44 页图 17:用 ProtParam 分析 G00016 序列理化性质输出图第三轮1、用 ProtScale 分析 P02699 序列疏水性生物信息学实验报
11、告第 22 页 共 44 页图 18:ProtScale 操作界面及放大图图 19:phob. / Kyte & Doolittle 标度图 20:标度权值生物信息学实验报告第 23 页 共 44 页图 21:用 ProtScale 分析 P02699 序列疏水性输出图形显示分析:从 Protscale 分析 p02699 序列结果来看,该蛋白存在 7 个高疏水性区域,分别分布在4060 区域、7590 区域、125135 区域、155170 区域、205230 区域、255275 区域、285295 区域;而 4 个主要的最小分值区域则位于 67、147、196、247 氨基酸位点附近,这些
12、区域为高亲水性。2、用 TMpred 分析 P51684 序列跨膜螺旋区生物信息学实验报告第 24 页 共 44 页图 22:TMpred 操作界面及放大图生物信息学实验报告第 25 页 共 44 页图 23:7 个跨膜螺旋区图 24:7 个可能的跨膜螺旋区的相关性列表生物信息学实验报告第 26 页 共 44 页图 25:7 个跨膜螺旋区的图形显示结果分析:从结果图 23 可以看出:286305 是从膜外到膜内的跨膜螺旋, 315335 是从膜内到膜外的跨膜螺旋,351370 是从膜外到膜内的跨膜螺旋,397416 是从膜内到膜外的跨膜螺旋,443466 是从膜外到膜内的跨膜螺旋,483505
13、 是从膜内到膜外的跨膜螺旋,530550 是从膜外到膜内。总分为 12777。3、用 SignaIP 分析 P05019 序列前导肽生物信息学实验报告第 27 页 共 44 页图 26:SignaIP 操作界面及放大图图 27:SignaIP 分析 P05019 序列前导肽输出图分析: 从图中可以得出,前导肽是信号肽的一种,性质为带正电的碱性氨基酸,缺失带负电的酸性氨基酸。4、用 COILS 分析 GO45_HUMAN 卷曲螺旋生物信息学实验报告第 28 页 共 44 页图 28:COILS 操作界面图生物信息学实验报告第 29 页 共 44 页图 29:用 COILS 分析 GO45_HUM
14、AN 卷曲螺旋输出图5、生物分子网络主要有哪些?其特点?在生物系统中包含很多不同层面和不同组织形式的网络。目前,基因转录调控网络、生物代谢与信号传导网络、蛋白质相互作用网络是最常见的生物分子网络。折叠基因调控网络所有生物在生长发育和分化过程中,以及在对外部环境的反应中,各种相关基因有条不紊的表达起着至关重要的作用。基因调控网络包括:基因调控检测、基因转录调控数据库、基因转录调控网络折叠代谢网络在生物化学领域,代谢通路是指细胞中代谢物质在酶的作用下转化为新的代谢物质过程中所发生的一系列生物化学反应。而代谢网络则是指由代谢反应以及调节这些反应的调控机制所组成的描述细胞内代谢和生理过程的网络。折叠信
15、号传导网络生物中的信号传导(signal transduction)则是指细胞将一种类型的信号或刺激转换为其他生物信号最终激活细胞反应的过程。同代谢通路一样,信号传导的过程中多个生物分子在酶的作用下按照一定的顺序发生一系列生理化反应,由此得到了信号传导通路。信号传导网络即是指参与信号传导通路的分子和酶以及其间所发生的生化反应所构成的网络。折叠蛋白质互作网络蛋白质相互作用通常可以分为物理互作和遗传互作。物理互作是指蛋白质间通过空间构象或化学键彼此发生的结合或化学反应,是蛋白质互作的主要研究对象。而遗传互作则是指在特生物信息学实验报告第 30 页 共 44 页殊环境下,蛋白质或编码基因收到其他蛋白质或基因的影响,常常表现为表型变化之间的相互关系。第四轮1、使用 BLAST 搜索 ZEB1 基因和 ZEB1 蛋白质ZEB1 基因:NG_017048.1ZEB1 蛋白质:NP_001310583.1图 30:ZEB1 基因序列