生物信息学名词解释.doc-资源下载-道客多多-道者的世界，分享的人生！

生物信息学名词解释.doc

1、1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。3.FASTA 序列格式：是将 DNA 或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（）表示一个新文件的开始，其他无特殊要求。4.genbank 序列格式：是 GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一

2、。该文件格式按域划分为 4 个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“/”结尾。5.Entrez 检索系统：是 NCBI 开发的核心检索系统，集成了 NCBI的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。P947.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P988.打分矩阵（scoring matrix）：

3、在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如 PAM）两类方法。P299.空位（gap ）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P2910.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P3711.E 值：衡量序列之间相似性是否显著的期望值。E 值大小说明了可以找到与查询序列（query ）相匹配的随机或无关序列的概率， E值越接近零

4、，越不可能找到其他匹配序列，E 值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P9512.低复杂度区域：BLAST 搜索的过滤选项。指序列中包含的重复度高的区域，如 poly（A）。13.点矩阵（dot matrix ）：构建一个二维矩阵，其 X 轴是一条序列，Y 轴是另一个序列，然后在 2 个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来

5、回答大量的生物学问题。15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。）19.旁系（并系）同源：

6、指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。(书：由于基因重复事件产生的相似序列。)20.外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。21.有根树：能够确定所有分析物种的共同祖先的进化树。22.除权配对算法（UPGMA ）：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。23.邻接法（neighbor-joining method）：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服 UPGMA 算法要求进

7、化速率保持恒定的缺陷。24.最大简约法（MP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。25.最大似然法（ML）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育树。26.一致树（consensus tree）：在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。27.自举法检验（Bootstrap）：放回式抽样统计法。通过对数据集多次重复取样，构建多个进化树，用来检查给定树的分枝可信度。28.开放阅读框（ORF）：开放阅读框是基因序列的一部分，包含

8、一段可以编码蛋白的碱基序列。29.密码子偏好性（codon bias）：氨基酸的同义密码子的使用频率与相应的同功 tRNA 的水平相一致，大多数高效表达的基因仅使用那些含量高的同功 tRNA 所对应的密码子，这种效应称为密码子偏好性。30.基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界，调控区，预测基因组序列中包含的基因。31.结构域（domain）：保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他结构域组合。相同功能的同源结构域具

9、有序列的相似性。32.超家族：进化上相关，功能可能不同的一类蛋白质。33.模体（motif ）：短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般 10-20 个残基。34.序列表谱（ profile）：是一种特殊位点或模体序列，在多序列比较的基础上，氨基酸的权值和空位罚分的表格。35.PAM 矩阵： PAM 指可接受突变百分率。一个氨基酸在进化

10、中变成另一种氨基酸的可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白质之间的比对。一个 PAM 单位是蛋白质序列平均发生 1%的替代量需要的进化时间。36.BLOSUM 矩阵：模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如，在 BLOSUM62 矩阵中，比对的分值来自不超过 62%一致率的一组序列。37.PSI-BLAST：位点特异性迭代比对。是一种专门化的的比对，通过调节序列打分矩阵

11、（scoring matrix）探测远缘相关的蛋白。38.RefSeq：给出了对应于基因和蛋白质的索引号码，对应于最稳定、最被人承认的 Genbank 序列。39.PDB（Protein Data Bank）：PDB 中收录了大量通过实验（X射线晶体衍射，核磁共振 NMR）测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB 数据库的访问号由一个数字和三个字母组成（如，4HHB ），同时支持关键词搜索，还可以 FASTA 程序进行搜索。40.GenPept:是由 GenBank 中的 DNA 序列翻译得到的蛋白质序列。数据量很大，且随核酸序列数据库的更新而更新

12、，但它们均是由核酸序列翻译得到的序列，未经试验证实，也没有详细的注释。41.折叠子（Fold）：在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有特定的空间取向。42.TrEMBL：是与 SWISS-PROT 相关的一个数据库。包含从 EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到 SWISS-PROT 数据库中。43.MMDB(Molecular Modeling Database)：是（NCBI ）所开发的生物信息数据库集成系统 Entrez 的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。与 PDB 相比，对于数据库中的每

13、一个生物大分子结构，MMDB 具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等，还提供生物大分子三维结构模型显示、结构分析和结构比较工具。44.SCOP 数据库：提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白质结构数据库 PDB 中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到 PDB 的连接，序列，参考文献，结构的图像等。可以按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次依次是类（class）、折叠子（fold ）、超家族（super family）、家族（famil

14、y）、单个 PDB 蛋白结构记录。45.PROSITE：是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；PROSITE 还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具有相应的特征。 46.Gene Ontology 协会：编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从 3 个方面描述基因产物的性质，即，分子功能，生物过程，细胞区室。47.表谱（PSSM）：指一张基于多序列比对

15、的打分表，表示一个蛋白质家族，可以用来搜索序列数据库。48.比较基因组学：是在基因组图谱和测序的基础上，利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。49.简约信息位点：指基于 DNA 或蛋白质序列，利用最大简约法构建系统发育树时，如果每个位点的状态至少存在两种，每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。1、生物信息学：生物分子信息的获取、存贮、分析和利用；以数学为基础，应用计算机

16、技术，研究生物学数据的科学。2、相似性（similarity）：两个序列（核酸、蛋白质）间的相关性。3、同源性（homology）：生物进化过程中源于同一祖先的分支之间的关系。4、同一性（identity）：两个序列（核酸、蛋白质）间未发生变异序列的关系。5、序列比对（alignment）：为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。6、生物数据库检索（database query，数据库查询）：对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。7、生物数据库搜索（database search)：通过特定序列相似性比对算法，找出核酸或蛋白质序列数据库

17、中与待检序列具有一定程度相似性的序列。1. 生物信息学：1）生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科；2）它综合运用了数学、计算机学和生物学的各种工具来进行研究；3）目的在于阐明大量生物学数据所包含的生物学意义。2. BLAST（Basic Local Alignment Search Tool）直译：基本局部排比搜索工具意译：基于局部序列排比的常用数据库搜索工具含义：蛋白质和核酸序列数据库搜索软件系统及相关数据库3. PSI-BLAST：是一种迭代的搜索方法，可以提高 BLAST 和 FASTA的相似序列发现率。4. 一致序列：这些序列是指把多序列联配的信息压缩

18、至单条序列，主要的缺点是除了在特定位置最常见的残基之外，它们不能表示任何概率信息。5. HMM 隐马尔可夫模型：一种统计模型，它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。（课件定义）是蛋白质结构域家族序列的一种严格的统计模型，包括序列的匹配，插入和缺失状态，并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。6. 信息位点：由位点产生的突变数目把其中的一课树与其他树区分开的位点。7. 非信息位点：对于最大简约法来说没有意义的点。8. 标度树：分支长度与相邻节点对的差异程度成正比的树。9. 非标度树：只表示亲缘关系无差异程度信息。10. 有根树：单一的节点能指派为共同

19、的祖先，从祖先节点只有唯一的路径历经进化到达其他任何节点。11. 无根树：只表明节点间的关系，无进化发生方向的信息，通过引入外群或外部参考物种，可以在无根树中指派根节点。12. 注释：指从原始序列数据中获得有用的生物学信息。这主要是指在基因组 DNA 中寻找基因和其他功能元件（结构注释），并给出这些序列的功能（功能注释）。13. 聚类分析：一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。14. 无监督分析法：这种方法没有内建的分类标准，组的数目和类型只决定于所使用的算法和数据本身的分析方法。15. 有监督分析法：这种方法引入某些形式的分类系统，从而将表达模式分配到一个或多个预

20、定义的类目中。16. 微阵列芯片：将探针有规律地排列固定于载体上，与标记荧光分子的样品进行杂交，通过扫描仪扫描对荧光信号的强度进行检测，从而迅速得出所要的信息。17. 虚拟消化：是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切（课件定义）。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上，由计算机进行的一种理论上的蛋白裂解反应。18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法，从而使分子质量的准确确定成为可能。质谱分析的两个工具19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。20. 虚拟细胞：一种建模手段，把细胞定义为许多结构，

21、分子，反应和物质流的集合体。21. 先导化合物：是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中，搜索能与生物大分子靶点匹配的化合物，或者搜索能与结合药效团相符的化合物，又称原型物，简称先导物，是通过各种途径或方法得到的具有生物活性的化学结构22. 权重矩阵（序列轮廓）：它们表示完全结构域序列，多序列联配中每个位点的氨基酸都有分值，并且特定位置插入或缺失的可能性均有一定的衡量方法（课件定义）。基础上针对特定的应用目标而建立的数据库。23. 系统发育学（phylogenetic ）：确定生物体间进化关系的科学

22、分支。24. 系统生物学（systems biology）：是研究一个生物系统中所有组分成分（基因、mRNA、蛋白质等）的构成以及在特定条件下这些组分间的相互关系，并分析生物系统在一定时间内的动力学过程25. 蛋白质组（ proteome）：是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。26. ESI 电喷雾离子化：一种适合大分子如蛋白质离子化没有明显降解的质谱技术。一、名词解释1. GenBank：是美国全国卫生研究所维护的基因序列数据库，汇集并注释了所有公开的核酸序列，与日本的 DNA 数据库DDBJ 以及欧洲分子实验室核酸序列数据库 EMBL 一起，都是国际核苷酸

23、序列数据库合作的成员。2. EMBL：EMBL 实验室欧洲分子生物学实验室，EMBL 数据库是非盈利性学术组织 EMBL 建立的综合性数据库，EMBL 核酸数据库是欧洲最重要的核酸序列数据库，它定期地与美国的 GenBank、日本的 DDBJ 数据库中的数据进行交换，并同步更新。3. DDBJ：日本 DNA 数据库，主要向研究者收集 DNA 序列信息并赋予其数据存取号，信息来源主要是日本的研究机构，也接受其他国家呈递的序列。4. BLAST：基本局部比对搜索工具的缩写，是一种序列类似性检索工具。BLAST 采用统计学几分系统，同时采用局部比对算法， BLAST 程序能迅速与公开

24、数据库进行相似性序列比较。 BLAST 结果中的得分是对一种对相似性的统计说明。5. BLASTn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。6. BLASTp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。7. Clustsl X：是 CLUSTAL 多重

25、序列比对程序的 Windows 版本，是用来对核酸与蛋白序列进行多序列比较的程序，也可以对来自不同物种的功能或结构相似的序列进行比对和聚类，通过重建系统发生树判断亲缘关系，并对序列在生物进化过程中的保守性进行估计。8. Entrez：是由 NCBI 主持的一个数据库检索系统，它包括核酸，蛋白以及 Medline 文摘数据库，在这三个数据库中建

26、立了非常完善的联系。因此，可以从一个 DNA 序列查询到蛋白产物以及相关文献，而且，每个条目均有一个类邻 (neighboring)信息，给出与查询条目接近的信息。9. SRS(sequence retrieval system)：序列查询系统，是 EBI 提供的多数据库查询工具之一。有与 Entrez 类似的功能外，还提供了一系列的序列分析工具，可以直接进行在线序列分析处理。10. SWLSSMODE：是目前最著名的蛋白质三级结构预测服务器，建立在已知生物大分子结构基础上，利用

27、同源建模的方法对未知序列的蛋白质三级结构进行预测。11. homology modeling：是目前最为成功且实用的蛋白质结构预测方法，它的前提是已知一个或多个同源蛋白质的结构。当两个蛋白质的序列同源性高于 35%，一般情况下认为他们的三维结构基本相同。12. Ab initio prediction：蛋白质三级结构预测方法从头预测法，在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下，只能采用从头预测方法，即（直接）仅仅根据序列本身来预测其结构。13. molecular phylogenetic tree：分子进化树，精确地反映物种间或群体间在进化过程中发生的极微细的遗传

28、变异，而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代。14. gene tree：基因树，表示一组基因或一组 DNA 顺序进化关系的系统发生树。15. neighborjoining method：邻接法，基于最小进化原理经常被使用的一种算法，它不检验所有可能的拓扑结构，能同时给出拓扑结构和分支长度。在重建系统发生树时，认为在进化分子上，发生趋异的次数可以不同，它是最有效的的基于距离数据重建系统树的方法之一。16. maximum parsimony method：最大简约法基于进化过程中所需核苷酸（或氨基酸）替代数目最少的假说，对所有可能正确的拓扑结构进行计算并

29、挑选出所需替代数最小的拓扑结构作为最优系统树。17. MEGA(Molecular Evolutionary Genetics Analysis)：是一款免费的构树软件，它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度评估等全套功能，能对DNA、mRNA 氨基酸序列及遗传距离进行系统发生分析以及基因分化年代的分析。18. BioEdit：BioEdit 是一个序列编辑器与分析工具软件。功能包括：序列编辑、外挂分析程序、RNA 分析、寻找特征序列、支持超过 20000 个序列的多序列文件、基本序列处理功能、质粒图绘制等等。19. EST：表达序列标签是从一个

30、随机选择的 cDNA 克隆，进行 5端和 3端单一次测序挑选出来获得的短的 cDNA 部分序列 ,代表一个完整基因的一小部分20. GSS：基因组勘测序列，是基因组 DNA 克隆的一次性部分测序得到的序列。包括随机的基因组勘测序列、cosmid/BAC/YAC 末端序列、通过 Exon trapped 获得基因组序列、通过 Alu PCR 获得的序列、以及转座子标记（序列等。21. OR

31、F：核酸序列的开放阅读框，一个 ORF 就是一个潜在的蛋白质编码区。22. promoter：启动子，是 RNA 聚合酶识别、结合并开始转录所必需的一段 DNA 序列。23. 3UTR：3非翻译区的缩写，真核生物的转录终止信号是在3非翻译区的 polyA。24. CpG island：是 DNA 上的一个区域，富含 GC，两者以磷酸酯键相连，长度约几百到几千 bp 不等，常出现在管家基因或频繁表达的基因的启动子附近，在这些部位，CpG 岛具有阻止序列甲基化的作用。25. coiled coil：卷曲螺旋，是蛋白质中由 27 条螺旋链相互缠绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化

32、的元件，在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。26. heptad repeat：七肽重复区是典型的卷曲螺旋结构类型之一，由多个七肽单元连接而成的重复序列。27. structure domain：结构域，是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元，每个结构域自身形成紧实的三维结构，可以独立存在或折叠，但结构域与结构域之间关系较为松散。28. motif：又称模体，实序列中局部的保守区域，或者是一组序列中共有的一小段序列模式。通常由 2、3 个二级结构单位组成，一般为螺旋、折叠和环。motif 作为结构域中的亚单位，表

33、现结构域的各种生物学功能。29. linux operating system：linux 操作系统， Linux 是一类 Unix计算机操作系统的统称。Linux 操作系统也是自由软件和开放源代码发展中最著名的例子。30. BioPerl：是 Perl 语言专门用于生物信息学、基因组学及其他生命科学领域的工具与函数模块集。31. PubMed：是一个免费的生物医学文摘数据库，提供部分论文的摘要及指向全文的链接。作为 Entrez 资讯检索系统的一部分。32. PDB(Protein Data Bank)：P

34、 DB 是目前最主要的收集生物大分子 (蛋白质、核酸和糖 )三维结构的数据库，允许用户用各种方式以及布尔逻辑组合 (AND、 OR 和 NOT)进行检索。33. HGP(human genome project)；人类基因组计划，1990 年由美国能源部(DOE)和国立健康研究院(NIH)资助的一个研究计划。目的是：鉴定出人类的所有基因；确定构成人类基因组的约 30 亿个碱基对的序列；将上述信息储存于专门的数据库中，并开发出相应的分析工具；研究由此而产生的伦理、法律和社会问题并提出相应对策。34

35、. ncRNA：非编码 RNA，是指没有编码蛋白质功能的所有RNA,它缺乏开放阅读框，常由编码蛋白质的基因反转录而来。35. miRNA：是一类小的非编码单链 RNA，由 1925 个核苷酸构成，广泛存在于动植物中，调节着基因表达。Silicon cloning：利用公共数据库信息 , 借助计算机软件分析, 推测目的基因的编码区序列, 辅助全长 cDNA 克隆的方法BLAST：即基本局域联配搜索工具，Basic Local Alignment Search Tool，是一个局部比对搜索工具，用来确定一条查询序列和一个数据库的比对，最早的版本不引入间隙，但现在所用的版本已经允许比对中引入间隙。E

36、ntrez ：是由 NCBI 主持的一个数据库检索系统，它包括核酸，蛋白以及 Medline 文摘数据库，在这三个数据库中建立了非常完善的联系。因此，可以从一个 DNA 序列查询到蛋白产物以及相关文献，而且，每个条目均有一个类邻 (neighboring)信息，给出与查询条目接近的信息。 Entrez 中的数据库包括： Entrez 中核酸数据库为：GenBank, EMBL, DDBJ 蛋白质数据库为：Swiss-Prot, PIR, PFR, PDBPSI-BLAST：是一种迭代的搜索方法，可以提高 BLAST 和 FASTA 的相似序列发现率。ORF：开放阅读框（ORF)是基因序列的

37、一部分，包含一段可以编码蛋白的碱基序列，不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的 ORF。当一个新基因被识别，其 DNA 序列被解读，人们仍旧无法搞清相应的蛋白序列是什么。这是因为在没有其它信息的前提下，DNA 序列可以按六种框架阅读和翻译（每条链三种，对应三种不同的起始密码子）ORF 识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA 。序列而其内部不包含启动子或终止子，符合这些条件的序列有可能对应一个真正的单一的基因产物。 ORF 的识别是证明一个新的 DNA 序列为特定的蛋白质编码基因的部分或全部的先决条件。相似性（simila

38、rity）/（identify）：相似性是指序列比对过程中用来描述检测序列和目标序列之间相同 DNA 碱基或氨基酸残基顺序所占比例的高低。生物数据库检索(database query,数据库查询):对序列,结构以及各种二次数据库中的注释信息进行关键词匹配查找.生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列.E 值：对某个已识别出的相似度值 S，E 值是分值大于等于 S 的期望频率，改值可以被理解为期望随机得到等于 S 或大于 S 值的分值数目。序列比对(alignment) :为确定两个或多

39、个序列之间的相似性以至于同源性,而将它们按照一定的规律排列.同源性(homology):生物进化过程中源于同一祖先的分支之间的关系.Refseq：美国国家生物信息技术中心（ NCBI）提供了具有生物意义上的非冗余的基因和蛋白质序列的 RefSeq 参考序列数据库。3UTR：3非翻译区的缩写，真核生物的转录终止信号是在 3非翻译区的： polyA。CpG island：是 DNA 上的一个区域，富含 GC，两者以磷酸酯键相连，长度：约几百到几千 bp 不等，常出现在管家基因或频繁表达的基因的启动子附近，在这些部位，CpG 岛具有阻止序列甲基化的作用。GSS：基因组勘测序列，是基因组

40、 DNA 克隆的一次性部分测序得到的序：cosmid/BAC/YAC 末端序列、通过 Exon 列。包括随机的基因组勘测序列、 trapped 获得基因组序列、通过 Alu PCR 获得的序列、以及转座子标记（序列等。EST：表达序列标签是从一个随机选择的 cDNA 克隆，进行 5端和 3 端单一次测序挑选出来获得的短的 cDNA 部分序列,代表一个完整基因的一小部分.。MEGA(Molecular Evolutionary Genetics Analysis)：是一款免费的构树软件，：它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度 mRNA 氨基酸序列及遗

41、传距离进行系统发生分评估等全套功能，能对 DNA、析以及基因分化年代的分析。maximum parsimony method：最大简约法基于进化过程中所需核苷酸（或氨基酸）替代数目最少的假说，对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。neighborjoining method：邻接法，基于最小进化原理经常被使用的一种算法，它不检验所有可能的拓扑结构，能同时给出拓扑结构和分支长度。在重建系统发生树时，认为在进化分子上，发生趋异的次数可以不同，它是最有效的的基于距离数据重建系统树的方法之一。molecular phylogenetic tre

42、e：分子进化树，精确地反映物种间或群体间在进：化过程中发生的极微细的遗传变异，而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代。Domain ：功能域。蛋白质中具有某种特定功能的部分，它在序列上未必是连续的。某蛋白质中所有功能域组合其起来决定着该蛋白质的全部功能。EMBL：EMBL 实验室欧洲分子生物学实验室， EMBL 数据库是非盈利：性学术组织 EMBL 建立的综合性数据库，EMBL 核酸数据库是欧洲最重要的核酸序列数据库，它定期地与美国的 GenBank、日本的 DDBJ 数据库中的数据进行交换，并同步更新。BLAST ：Basic Local

43、 Alignment Search Tool，基本的基于局部对准的搜索工具；一种快速查找与给定序列具有连续相同片断的序列的技术。SRS(sequence retrieval system)：序列查询系统，是 EBI 提供的多数据库查询：工具之一。有与 Entrez 类似的功能外，还提供了一系列的序列分析工具，可以直接进行在线序列分析处理。 dynamic programming：动态规划程序；它将一个问题合理分解成一些小的子问题，然后利用部分计算解得到最终答案。Match score maximum likelihood approach methylation microarray

44、 microsatellite MIAME(the minimum information about a microarray experiment) minisatellite mismatch score molecular clock 匹配得分最大似然法：序列比较算法对相同字符匹配设置的得分。指在一系列的序列比对中，考虑每一个字符被替代的概率的一种系统发生学方法；也是一种基于纯统计的系统发生重建方法。一个甲基 ( CH 3 ) 附着在一个核苷酸的含氮碱基或者蛋白质上。在一个固体基片上的已知位置固定了 DNA 探针的有序阵列。在基因组中很多非常短的核酸序列出现的区域，例如串

45、接出现 5 -CA-3 的重复序列；通常在个体间变化很大。PAM unit：PAM 单位是一种进化单位；特别地，指被观察的对象中每 100 个残基发生一个替换所需要的平均进化时间。对两条序列进行编辑操作，通过字符匹配和替换，或者插入和删除。PubMed：是一个免费的生物医学文摘数据库，提供部分论文的摘要及指：向全文的链接。作为 Entrez 资讯检索系统的一部分。motif：又称模体，实序列中局部的保守区域，或者是一组序列中共有的一小：段序列模式。通常由 2、个二级结构单位组成， 3 一般为螺旋、折叠和环。 motif 作为结构域中的亚单位，表现结构域的各种生物学功能。tr

46、ucture domain：结构域，是在蛋白质三级结构中介于二级和三级结构之间：的可以明显区分但又相对独立的折叠单元，每个结构域自身形成紧实的三维结构，可以独立存在或折叠，但结构域与结构域之间关系较为松散。coiled coil：卷曲螺旋，是蛋白质中由 27 条螺旋链相互缠绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件，在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。NCBI ：美国国立生物技术信息中心（National Center for Biotechnology Information），1988 年设立，为美国国家医学图书馆（N

47、LM）和国家健康协会（NIH）下属部门之一。提供生物医学领域的信息学服务，如世界三大核酸数据库之一的 GenBank 数据库，PubMed 医学文献检索数据库等。。Conserved sequence ：保守序列。演化过程中基本上不变的 DNA 中的碱基序列或蛋白质中的氨基酸序列。Tandem repeat sequences：串联重复序列。染色体上同一碱基序列的多拷贝重复，在物理作图中用作标记物。Sequence tagged site：序列示踪位点，简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp 的短DNA序列片断。由于可以通过PCR检测到，STS在将来

48、源于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用，并且 STS 在人类基因组的物理图谱中也具有界标的作用。表达的序列标签（ESTs）就是那些得自 cDNAs 的 STSs。Gene mapping：基因作图。对 DNA 分子（染色体或质粒）中基因的相对位置和距离进行确定的过程。Physical map ：物理图谱。不考虑遗传，DNA 中可识别的界标（如限制性酶切位点和基因等）的位置图。界标之间的距离用碱基对度量。对人类基因组而言，最低分辨率的物理图谱是染色体上的条带图谱；最高分辨率的物理图谱是染色体中完整的核苷酸序列。UniGene ：美国国家生物技术信息中心提供的公用数据

49、库，该数据库将 GenBank 中属于同一条基因的所有片断拼接成完整的基因进行收录。非蛋白质编码区：非蛋白质编码区（“Junk”DNA）占据了人类基因组的大部分，研究表明“Junk”是许多对生命过程富有活力的不同类型的 DNA 的复合体，它们至少包括以下类型的 DNA 成份或由其表达的 RNA 成分：内含子（intron）、卫星（Satellite）DNA、小卫星（minisatellite）DNA、微卫星（microsatellite）DNA、非均一核 RNA （hmRNA）短散置元、（short interspersed elements）长散置元、（long interspersed elements）、伪基因（pseudogenes）等。除此之外，顺式调控元件，如启动子、增强子等也属于非编码序列。PAM 方阵：指的是氨基酸置换矩阵，属于打分矩阵，用序列相似的一组蛋白质的对位排列来确定单步氨基酸变化，以此来预测进化过程中大部分可能的氨基酸变化。BLAST(Basic Local Alignment Search Tool)：基于局部序列排比的常用数据库搜索工具。二级数据库：对于原始生物分子进行整理、分类的结果。是在一级数据库、实验数据和理论分析的基础上针对特定的应

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？