收藏 分享(赏)

生物信息技术第三次作业.doc

上传人:wspkg9802 文档编号:5314618 上传时间:2019-02-20 格式:DOC 页数:5 大小:117KB
下载 相关 举报
生物信息技术第三次作业.doc_第1页
第1页 / 共5页
生物信息技术第三次作业.doc_第2页
第2页 / 共5页
生物信息技术第三次作业.doc_第3页
第3页 / 共5页
生物信息技术第三次作业.doc_第4页
第4页 / 共5页
生物信息技术第三次作业.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、实用生物信息技术课程第 3 次作业1UniProt 数据库检索及数据条目注释信息1. UniProt 蛋白质序列数据库1) 参阅 Swiss-Prot 和 TrEMBL 统计报表(Release Statistics) ,列表说明这两个子库的总数据量,以及不同蛋白质证据(Protein Existence)的数据条目数。2) 列表说明 Swiss-Prot 和 TrEMBL 中数据条目数列前 10 位的物种,包括中文名、英文名和拉丁文学名。表 1 Swiss-Prot 中数据条目数列前 10 位的物种Swiss-Prot中文名 英文名 拉丁文学名1 智人 Human Homo sapiens2

2、 小家鼠 Mouse Mus musculus3 拟南芥 Mouse-ear cress Arabidopsis thaliana4 大鼠 Rat Rattus norvegicus 5 酿酒酵母 Bakers yeast Saccharomyces cerevisiae6 牛 Bovine Bos taurus7 裂殖酵母 Fission yeast Schizosaccharomyces pombe8 大肠杆菌 strain K12 Escherichia coli9 枯草杆菌 strain 168 Bacillus subtilis10 盘基网柄菌 Slime mold Dictyost

3、elium discoideum表 2 TrEMBL 中数据条目数列前 10 位的物种3) 列表说明以下已基本完成基因组测序的重要模式生物数据条目数总数 N、已审阅Protein Existence 数据条目数数据库子库 总数据量蛋白水平证据 转录水平证据 同源性推断 预测 不确定Swiss-Prot 542782 82087 62272 380832 15705 1886TrEMBL 54247468 22013 931313 13573938 39720204 0TrEMBL中文名 英文名 拉丁文学名1 人类免疫缺陷病毒 HIV Human immunodeficiency virus 1

4、2 未培养细菌 Uncultured bacteria uncultured bacterium3 智人 Human Homo sapiens 4 小麦 Wheat Triticum aestivum5 粳稻 Rice Oryza sativa subsp. japonica6 丙型肝炎病毒 HCV Hepatitis C virus7 乙型肝炎病毒 HBV Hepatitis B virus8 大豆 Soybean Glycine max9 宏基因组 mine drainage metagenome mine drainage metagenome10 二棱大麦 Two-rowed barl

5、ey Hordeum vulgare var. distichum实用生物信息技术课程第 3 次作业2序列条目数 Nr、具有蛋白质证据的序列条目数 Np、在参考序列数据库 RefSeq 中具有 mRNA 序列的序列条目数 Nm、在蛋白质结构数据库 PDB 中具有结构的序列条目数 Nb。物种 拉丁文学名 英文名 N Nr Np Nm Nb人 Homo sapiens Human 136495 20270 14233 13627 5211小鼠 Mus musculus Mouse 73479 16658 8208 7472 1465大鼠 Rattus norvegicus Rat 33577 78

6、87 3407 2918 534鸡 Allus domestiaus Chicken 23729 2257 705 481 174非洲爪蟾 Xenopus laevis African clawed frog 16014 3382 578 491 59斑马鱼 Danio rerio Zebrafish 55756 2916 393 306 64黑腹果蝇 Drosophila melanogaster Drosophila melanogaster 39998 3220 1974 1910 351秀丽线虫 Caenorhabditis elegans Caenorhabditis elegans

7、 26657 3461 1489 1475 115酿酒酵母 Saccharomyces cerevisiae Bakers yeast 79276 7807 5322 5252 1098大肠杆菌 K12 Escherichia coli Strain K12 15660 5970 2753 2748 1319拟南芥 Arabidopsis thaliana Mouse-ear cress 53270 12665 12934 13599 5071粳稻 Oryza sativa subsp keng Japonica 籼稻 Oryza sativa indica Indica 玉米 Zea may

8、s Maize 62877 738 347 203 34棉花 Gossypium spp Cotton 5714 252 10 3 22. 序列条目注释信息1) 以人血红蛋白 alpha 亚基为例,说明一般注释信息(General Annotation)主要包括哪些内容。亚基结构:两个 alpha 亚基和两个 beta 亚基的四聚体组成成熟的血红蛋白 A;2个 alpha 亚基和 2 个 deltal 亚基的四聚体组成成熟的血红蛋白 A2;2 个 alpha 亚基和 2个 epsilon 亚基的四聚体组成胚胎早期的的血红蛋白 Gower-2;2 个 alpha 亚基和 2 个gamma 亚基的

9、四聚体组成胎儿期的血红蛋白 F。组织特性:血液红细胞。转录以后修饰:起始的甲硫氨酸在各种 thionville 中没有裂开,并且进行乙酰化。涉及的人类疾病贫血(HEIBAN )MIM:140700】:细胞非球形的 Dacie 类型 1 的溶血性贫血。脾脏切除后,几乎没有好转,红细胞中的嗜碱性的夹杂物被证明为海因茨小体。脾脏切除前分散或点状的嗜碱性粒细胞明显。大多数情况下可能是血红蛋白病的实例。血红蛋白呈现热不稳定性。海因茨小体也观察到与 Ivemark 综合征(无脾与心血管异常)和还原型谷胱甘肽过氧化物酶的缺乏。注释:这类病可能是由于突变效应在基因中的表达。Alpha-地中海贫血( A-THA

10、L)MIM:604131:地中海贫血的一种形式。地中海贫血是常见的单基因疾病,主要在发生地中海和东南亚人口。alpha-地中海贫血的标志是一个失衡globin-chain生产成的人HbA分子。 链水平的产物的范围可以从没有到几乎正常的水平。删除两个 -珠蛋白基因的副本导致 (0)-地中海贫血,也称为纯合子的地中海贫血。由于没有完整的链,主要的胎儿血红蛋白四聚物的gamma链(Bart血红蛋白),基本上没有携带氧的能力。这将导致胎儿组织氧饥饿导致产前杀伤力或早期新生儿死亡。两个基因导致的损失轻微alpha-地中海贫血,也称为杂合的alpha-地中海贫血。 影响个人小红细胞和心肌梗死。假如四分之三

11、的Alpha珠蛋白基因起作用,人基本就没有症状。很少的alpha-地实用生物信息技术课程第 3 次作业3中海贫血类型是由于突变引起的(非删除的alpha-地中海贫血)血红蛋白H病(HBH)MIM:613978 :一种alpha-thalassemia 由于损失三个 基因。 这将导致高水平的四聚物的四种链(血红蛋白H),导致严重和致命的贫血。 治疗,大多数病人死在童年或者青春期的早期阶段。注释:这类病可能是由于突变效应在基因中的表达。其他信息:使血液呈现红色。序列相似性:属于珠蛋白家族。2) 以人血红蛋白 alpha 亚基为例,说明序列特征注释信息(Sequence Annotation)主要包

12、括哪些内容。序列特征注释信息(Sequence Annotation)包括一些重要序列信息的发生位点、序列长度、具体说明、图示以及特征识别。具体重要序列信息包括分子处理如起始氨基酸的去除,重要位点如金属结合位点,氨基酸修饰位点如糖基化,自然突变位点,实验水平的一些信息,以及序列的二级结构。3) 以人血红蛋白 alpha 亚基为例,说明数据库交叉链接(Cross Reference)主要包括哪些数据库。序列数据库:Genbank EMBL DDBJ PIR Uni Gene RefSeq3D 结构数据库:PDB ProteinModelPortal SMR ModBase MobiDB蛋白质相互

13、作用数据库:BioGrid DIP IntAct MINT STRING化学库:ChEMBL DrugBankPTM 数据库: PhosphoSite 二维凝胶数据库:SWISS-2DPAGE UCD-2DPAGE DOSAC-COBS-2DPAGE REPRODUCTION-2DPAGE蛋白质组数据库:PRIDE PaxDb Peptide Atlas协议和材料数据库:DNASU StructuralBiologyKnowledgebase基因组注释数据库:Emsemble KEGG UCSC GeneID物种特异数据库:CTD GeneCards HGNC HPA MIM分子系统数据库:I

14、nParanoid KO OMA TreeFam酶和通路数据库:Reactome 基因表达数据库:Bgee CleanEx Array Genevestigator家族和结构域数据库:Gene3D InterPro PANTHER Pfam PRINTS其他:EvolutionaryTrace Genewiki NextBio ChiTaRS PRO3. 数据库检索1) 写出从 UniProt 数据库中检索已审阅的人珠蛋白(globin)家族 12 个亚基的步骤。列表说明这 12 个珠蛋白的登录号、蛋白质名称、和序列长度。其中与血红蛋白 alpha 亚基差异最大的序列是哪个?相同位点百分比?与

15、血红蛋白 beta 亚基差异最小的序列是哪个?差异位点共多少个?在 UniProtKB 中利用高级检索,依次增加Organism:human、ProteinFamily:globin 两个限定条件后,选中 reviewed 的序列,即可出现库中已审阅的人珠蛋白家族的 12 个亚基。实用生物信息技术课程第 3 次作业4与血红蛋白 alpha 亚基差异最大的序列是神经珠蛋白,相同位点百分比为 22%。与血红蛋白 beta 亚基差异最小的序列是血红蛋白 亚基,差异位点共10 个。2) 写出从 UniProt 数据库中检索以下序列条目的步骤和结果:拟南芥序列条目总数,其中已审阅条目数,已审阅序列中具有

16、蛋白质证据全长序列条目数,上述序列中膜蛋白总数、注释为跨膜蛋白数且具有信号肽的序列数。1,在 UniProtKB 数据库搜索栏中选择 advanced search ,然后根据organism:Arabidopsis thaliana 得到拟南芥序列条目总数为 53221。2,在 results 里点击 reviewed,得到已审阅的条目数为 12720。3,在 results 里点击 complete proteome set,并在 field 中选择ProteinExistence,再选择 Evidence at protein level,得到已审阅序列中具有蛋白质证据全长序列的条目数为

17、 4407。4,在 field 中选择 SubcellularLocation,在 Term 中输入 membrane,搜索后得到膜蛋白总数为 1292。5,在 field 中选择 sequence annotation,在 topic 中选择transmembrane,得到蛋白数为 837。6,在 field 中选择 sequence annotation,在 topic 中选择 signal peptide,得到蛋白数为 112。4. 利用高级检索功能,从 UniProt 数据库中检索你课题相关或最感兴趣的蛋白质,阅读其一般注释信息、序列特征注释信息,相关文献,并通过数据库交叉链接,总结该

18、蛋白质的研究进展。玉米 ARF-1:玉米生长素应答因子 1,属于小 GTP 酶超家族,一般位于高尔基体装饰完成,控制调节种子的发芽。蛋白序列长度为 181,在第一个氨基酸发生甲基化,有 24-31、 67-71 和 126-129 三个核酸结合区域。1996.2.1 发布在 Uniprot 数据库,2013.9.18 完成登录号 蛋白名称 序列长度P02008 血红蛋白 亚基 142P69905 血红蛋白 亚基 142P68871 血红蛋白 亚基 147P02042 血红蛋白 亚基 147P69891 血红蛋白 -1亚基 147P69892 血红蛋白 -2亚基 147P02144 肌红蛋白 1

19、54Q8WWM9 细胞珠蛋白 190Q9NPG2 神经珠蛋白 151P09105 血红蛋白 -1亚基 142P02100 血红蛋白 亚基 147Q6B0K9 血红蛋白 亚基 141实用生物信息技术课程第 3 次作业5修正。生长素是植物生长过程中必不可缺的一类激素,在植物生长发育的各个阶段都起到重要作用。近年来,对植物中的 ARF 基因不论是信号途径的转导还是表达机制的研究都成为热点问题。全面的分析 ARF 家族基因,对于 ARF 基因的分子克隆和分子进化的研究具有重要指导意义。通过 ARF 基因序列的整合比对分析可知典型的 ARF 基因含有三个结构域,分别为 N 末端 DNA 结合域(DBD)

20、 、中间核心区域(MR)、C 末端二聚化结构域(CTD)(结构域 III和 IV)。参考水稻 ARF 基因家族的命名方法,对玉米的 ARF 基因家族进行了命名,分别为ZmARF1-ZmARF35。 有研究通过构建系统进化树分析了 ARF 类型基因的进化关系,结果显示这些基因主要分布于四个分枝,而与拟南芥、杨树、葡萄和水稻的 ARF 基因家族进行比较分析发现玉米与水稻同源性最高,这表明 ARF 类型基因的进化可能是伴随着单/双子叶植物差异分离进化而发生的。并确定 35 个 ARF 基因分散的分布在玉米的十条染色体上,5 号染色体上最多,有 6 个基因; 2、7、8 、9 号染色体最少,各有 1

21、个基因,没有出现明显的基因簇现象,与其他物种的染色体定位具有相同特性。 对玉米 ARF 类型基因的结构进行分析,同属一个进化分类的 ARF 基因其基因结构较为相似,所含内含子与外显子的个数也基本相同;同源性比对分析表明组成 ARF 基因功能核心区域的氨基酸序列具有较高的相似性;基序分析显示玉米 ARF 类型基因的结构比较复杂,包含有 20 种不同的基序,motif1-8 这几种基序出现在绝大多数玉米 ARF 基因中,而motif17,18,20 这三种基序只在少数基因中出现。这些少数存在的基序所在的基因可能在功能上发挥着重大的作用。对玉米的 EST 数据库,分析 35 个玉米 ARF 基因的表

22、达特性,所有的 35 个基因都有 EST 表达的支持,结果表明玉米 ARF 基因可表达的组织部位可分为 7 类,其中 28 个玉米 ARF 基因可在一个或多个组织部位进行特异性表达,但仍尚有 7 个基因不能明确预测其特定的表达部位,只在混合组织中具有表达信息。这种表达模式为深入研究ARF 的作用和功能提供了重要理论依据|P49076|ARF_MAIZE ADP-ribosylation factor OS=Zea mays GN=ARF1 PE=2 SV=2MGLTFTKLFSRLFAKKEMRILMVGLDAAGKTTILYKLKLGEIVTTIPTIGFNVETVEYKNISFTVWDVGGQDKIRPLWRHYFQNTQGLIFVVDSNDRDRVVEARDELHRMLNEDELRDAVLLVFANKQDLPNAMNAAEITDKLGLNSLRQRHWYIQSTCATTGEGLYEGLDWLSSNIATKS

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 职业教育

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报