《生物信息学》复习资料new.doc-道客多多

资源描述

1、超二级结构：是介于二级和三级结构之间的一个结构层次。有的模体本身有一定的功能，有的与其他的结构成分协同发挥作用。Conting（叠连群）：又译作连续克隆系。为搞清某段 DNA 的排列顺序而建立的一组克隆。被克隆的 DNA 小片段有相互邻接并部分重叠的关系，从而可以完全覆盖该段 DNA，一个这样的克隆群即为一个 conting。蛋白质组：对应于基因组的概念，指由一个细胞或一个组织的基因所表达的全部相应的蛋白质。蛋白质组是一个动态的概念：和基因不一样。不同组织和不同发育时期都不一样基因在转录后，还有一系列的修饰，翻译等过程都可以影响蛋白质的表达。因此通过对蛋白质组的研究，在此基础上更能阐明遗传、发

2、育、进化、功能调控等基本生物学问题以及与人类健康和疾病相关的生物医学问题。单核苷酸多态性：在 DNA 的某一个位点处的核苷酸，有一部分是 A，另一部分是 T，其他为G 和 C，如果各种情况的比例均为 1%，则称该位点处的核苷酸为多态性的。就一个位点而言，SNP 最多为 4 种。但人类基因组很多，估计平均每 1000bp 就有一个 SNP，因此整个金一组可有 3*1000000 个 SNP 位点，因此产生多态性就是非常多了。已知人类基因组 DNA 序列中最常见的变异形式是 SNP。非蛋白质编码区：非蛋白质编码区占据了人类基因组的大部分，研究表明“Junk”是许多对生命过程富有活力的不同类型的 D

3、NA 的复合体，它们至少包括以下类型的 DNA 成分或由其表达的 RNA 成分：内含子、卫星 DNA、小卫星 DNA、微卫星 DNA、非均一核 RNA、短散置元、长散置元、伪基因等。除此之外，顺式调控原件如启动子、增强子等也属于非编码序列。分裂基因、割裂基因、不连续基因：基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。其中，编码的序列叫外显子，对应于心事 RNA 序列的区域。不编码的叫内含子，通常比外显子大得多。基因两端起始和结束于外显子，对应于转录产物 RNA 和 5和 3 端。如果一个基因含 n 个内含子，则 n+1 个外显子。功能域：蛋白质中具有某种特定功能的部分，它

4、在序列上未必是连续的。某蛋白质中所有功能域组合起来决定着该蛋白质的全部功能。基因家族：一组密切相关的编码相似产物的基因基因组：某一物种的一套完整染色体组中的所有遗传物质。其大小一般以其碱基对总数表示。基因组学：从事基因组的序列测定和表征描述，以及基因活性与细胞功能关系的研究。结构域：指二级结构折叠较紧密的区域，是三级结构的基本单元。人类基因组计划：HGP 主要目标：提供公开的完全的高质量的含有 30 亿 bp 的人类基因组全序列。生物信息学：是分子生物学，信息技术与科学，物理学，数学等学科交叉，结合的产物。其研究核心是基因组信息学及蛋白质组学。其研究目标是揭示基因组信息结构的复杂性及遗传语言的

5、根本规律，揭示生命的遗传语言；描述人类疾病的诊断，治疗内在规律，为人类服务。双重序列对比：两序列间的对比分析。最常见的方法有 Needle-Wunsch 的方法。能够利用的软件有 BLAST、FASTA.序列示踪位点：在人类基因组中只出现一次的位置和序列已知的长约 200500bp 的短 DNA序列片段。由于可以通过 PCR 检测到，STS 在将来源于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用，而且 STS 在人类基因组的物理图谱中也有界标的作用。表达的序列标签就是那些得自 cDNAs 的 STSs。UniGene：美国国家生物技术信息中心提供的公用数据库，该数据库将 GenB

6、ank 中属于同一条基因的所有片段拼接成完整的基因进行收录。、保守序列：演化过程中基本上不变的 DNA 中碱基序列或蛋白质中的氨基酸序列表达序列标签：是随机选取的 cDNA 克隆的部分（末端）序列，即一个 EST 就是对应于某一个 mRNA 的一个 cDNA 克隆的一段序列。一般长度为 300500bp，经一定方法定位后转变为STS。EST 可用于全长基因的聊聊、基因定位、基因表达、基因结构等的分析。表型或表现型：有机体可见的或可计算的外在性质，可以由一个或多个基因决定。序列标签位点：一段长度约为 200300bp 的特定 DNA 序列，每个 STS 序列位点对应于基因组中一个单独的位置。来

7、源于 EST 序列和随机测序等。是由 PCR 方法确定的单拷贝序列。作图时，相当于一个图标。常染色体：与性别决定无关的染色体，人双倍体染色体组含有 46 条染色体，其中 22 对常染色体，一对与性别决定有关的性染色体。单基因病：（孟德尔遗传病）是由单个基因的等位基因的突变所导致的遗传病。DNA 计算机：用碱基序列作为数字编码，用生物实验作为运算过程。通过复制、剪切、拖拽、粘贴、提取等操作将 DNA 碱基序列按不同的方式组合，来解决特定的问题。核糖体：简写为 rRNA，与蛋白质等结合而构成核糖体。后基因时代：即揭示基因组以及其包含的全部基因的功能，以及对基因产物蛋白质结构和功能的研究和预测。蛋白

8、质组学的目标是对所有的蛋白质和蛋白质相互作用进行鉴定和定性。基本的基于局部对准的搜索工具：一种快速查找与给定序列具有连续相同片段的序列的技术。基因表达：基因中的编码信息被转换成行使特定功能的结构产物的过程。基因：遗传的基本单位，携带遗传信息的 DNA 片段，也称遗传因子，是控制性质的基本遗传单位。基因克隆：采用重组 DNA 技术，将不同来源的 DNA 分子在体外进行特异切割，重新连接，组装成一个新的杂合 DNA 分子。在此基础上，这个杂合子能够在一定的宿主细胞中进行扩增，形成大量的子代分子基因作图：对 DNA 分子中基因的相对位置和距离进行确定的过程美国国家生物技术信息中心所提供的在线资源检索

9、器：该资源将 GenBank 序列与原始文献出处链接在一起。启动子：DNA 中被 RNA 聚合酶结合并从此起始转录的位点。全基因组鸟枪法：首先把从细胞核中分离出来的 DNA 中每条染色体，用超声波分为 6000 万片极小的片段，每片含 200010000 个碱基。然后把每一片段自动输入一台计算机进行高速解码，完成后将结果通过电子邮件传送给超级计算机，由其把每一片段重新组装成人体的23 对染色体。简单地说，想把一部几十卷的百科全书剪成纸条，再重新组合起来一样。实践已证明只要采样无误、计算能力足够强大，其正确率不亚于传统方法。这也是人类基因组计划 16 个成员中有相当部分也采用了这一方法的原因。染

10、色体和染色质：染色质的基本结构是由一系列核小体相互连接而成的念珠状。核小体是染色体包装的基本单位。二者是同一物质在不同的细胞周期中存在的不同形式，都是由DNA、RNA、组蛋白、非组蛋白构成的核酸蛋白质复合物。调控区或调控序列：控制基因表达的 DNA 碱基序列。微卫星 DNA：由 16bp 组成的串联重复序列，由于其重复单位短小，又叫简单序列 DNA,或叫短串联重复序列，其中最常见的是双核苷酸重复，即（CA） n和（TG） n，n 可为 1060个。人类共 51045105个（CA） n型微卫星，占 10%，即平均 6kb60kbDNA 就有一个。多位基因非编码区，在编码序列及外显子中也有。其高

11、度多态性主要来源于串联数目的不同。产生的机制是 DNA 复制或修复过程中碱基错配，导致一个或几个重复单位的缺失或插入。物理图谱：不考虑遗传，DNA 中可识别的界标的位置图。界标之间的距离用碱基对度量。对人类基因组而言，最低分辨率的物理图谱是染色体上的条带图谱；最高分辨率的物理图谱是染色体中完整的核苷酸序列。细胞周期：细胞分裂是繁殖的基础。包括从一次细胞分裂结束到下一个细胞分裂开始的全过程。此过程中，细胞内的遗传物质复制然后平均分配到两个子细胞。不同生物细胞的细胞周期时间差异很大，同样生物的不同组织之间也不同。大部分动物体细胞周期为 1824h。遗传密码：以三联体密码子形成编码于 mRNA 中的

12、核苷酸序列，决定着所合成的蛋白质中的氨基酸序列。遗传图谱：又称连锁图谱或遗传连锁图谱是指人类基因组内基因以及专一的多态性 DNA 标记相对位置的图谱，它通过计算连锁的遗传标志之间的重组频率，确定它们的相对距离，一般用厘摩表示。1cM 即每次减数分裂的重组频率为 1%。重组率的大小代表了两基因间的距离，距离越近，两个基因连锁越紧密，重组率越小。这一相对距离为遗传距离。人类基因组平均遗传长度为 3300cM，而 DNA 的平均物理长度为 30 亿个碱基对，因此 1cM 约等于1000000 碱基对的物理长度。转录作用：以 DNA 为模板合成RNA 的过程。sex chromosome：包括序列搜索

13、，结构比较，结构预测，蛋白质域，模体，测序，发育与进化分析，双向电泳成像分析，质谱蛋白鉴定，三维蛋白结构模建与成像，基因组图谱比较，基因预测，非编码区功能位点识别，基因组重叠群集装，后基因组功能分析，结构基因组学以及药物基因组学等。感知器：具有一层神经元，采用阈值激活函数的前向网络。再励学习：他把学习看作为试探评价过程，学习系统选择一个动作作用于环境之后，使环境的状态改变，并产生一个再励信号反馈至学习系统，学习系统依据再励信号与环境当前的状态，再选择下一动作作用于环境，选择原则，是使受到奖励的可能性增大。权重：矩阵元表示碱基在某一特定位置上出现的频率。DNA 序列分析：随着测序技术的迅速发展与

14、普及，越来越多的 DNA 序列已被测定并存储在各种分子数据库中，对这些序列进行着各种相关分析，如基因预测，酶切位点预测，序列比对等。序列比对：Alignment,又叫序列联配，其意义在于从核酸、氨基酸的层次分析序列的相似性，推测其结构功能及进化上的联系，是基因识别是、分子进化、生命起源研究的基础。基本问题是比较两个或两个以上符号序列的相似性或不相似性。人工神经网络：(Artificial Neural Networks,ANN),简称神经网络，是对人类大脑特性的一种描述。简单地讲，它是一个数字模型，可以用电子线路来实现，也可以用计算机程序来模拟，是人工智能研究的一种方法。基因药物：是直接以 D

15、NA 或 RNA 为靶标的药物或以 DNA 或 RNA 自身作为药物。基因工程：通常称为重组 DNA 技术，又称为基因克隆或分子克隆，是用人工方法将外源基因与 DNA 载体结合形成重组 DNA，然后引入某一受体细胞中，命使外源基因复制并产生相应的基因产物，从而获得生物新品种后种崭新育种技术。基因级文库（genomic library）含有某种生物体全部基因的随机片断的重组 DNA 克隆群体，构建基因组文库时，先将原核或真核细胞染色体相连接，经体外包装，转染细菌，得到一组含有不同 DNA 片段的重组噬菌体颗粒。此文库将含有基因组内全部基因片段，它象一个贮存有基因组全部序列的信息库，故称为基因组文

16、库。一级数据库：数据库中的数据直接来源于试验获得的原始数据，只经过简单的归类整理和注释。二级数据库：根据生命科学不同研究领域的实际需要，对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建具有特殊生物学意义和专门用途的二次数据库。直系同源：是指来自于不同物种的由垂直家系（物种形成）进化而来基因，并且典型的保留与原始基因有相同的功能旁系同源：指同一基因组（或同系物种的基因组）中，由于始祖基因的加倍而横向产生的几个同源基因，可能会进化出新的与原来有关的功能。分子钟：某一种蛋白质在不同物种间的取代数与所研究的物种间的分歧时间接近正线性关系，从而将分子水平的这种恒速

17、变异称为“分子钟” 。1、人工神经网络是一类仿生物神经网络原理的信息处理系统，它与传统的信息处理系统有着本质的不同，以并行性，非线性，容错性和自学性为主要特点。2、在每个神经元之间的连接上有一个加权系数，他可以加强或减弱上一个神经元的输出对下一个神经元的刺激。3、突触是神经细胞间传递信息的结构，突触有三部分组成：突触前成分，后成分，突触间隙。4、识别基因的两个途径：基因组 DNA 的外显子识别。基于 EST 策略的基因鉴定。5、生物信息学的核心是基因组信息学。6、生物芯片主要特点是高通量，微型化和自动化。7、目前国际上按检测目标分类，将生物芯片主要分为基因芯片，蛋白芯片和芯片实验室

18、。8、用于基因治疗的病毒载体应具备以下 3 个基本条件：携带外源基因并能包装成病毒颗粒，介导外源基因的转移和表达，对机体不致病。9、 DNA 序列分析：基因预测，酶切位点分析，序列比对等。10、在进行序列两两比对时，有两方面问题直接影响相似性分值：取代矩阵和空位罚分。11、人工神经网络的学习方式可分为三种：有导师的学习，无导师的学习，再励学习。12、寻找药物作用靶标的方法主要包括：表达序列标签数据库搜寻，综合分子特征方法，结构生物方法。13、三维结构搜寻的药物分子设计中三维结构搜寻过程一般包括四步：定义提问结构，解释提问结构，对数据库进行二维及三维关键部位筛选对初筛合格的结构，应用三

19、维限制条件进行逐个原子印证。14、蛋白质组研究的三大关键核心技术是：双向凝胶电电泳技术，质谱鉴定技术，计算机图像数据处理与蛋白质组数据库。15、蛋白质序列分析包括：亲疏水性分析，磷酸化位点，序列比对生物信息数据库的四个类型：即基因组数据库、核酸和蛋白质一级结构序列数据库、生物大分子（主要是蛋白质）三维空间结构数据库、以上 3 类数据库和文献资料为基础构建的二次数据库。国际上主要的三大核酸数据库：EMBL、GenBank 和 DDBJ。EMBL 是由欧洲分子生物学实验室于 1982 年创建的，其名称也由此而来，目前由欧洲生物信息学研究所负责管理。美国国家健康研究院（简称 NIH）也于 80 年代

20、初委托洛斯阿拉莫斯国家实验室建立 GenBank，后移交给国家生物技术信息中心 NCBI，隶属于 NIH 下设的国家医学图书馆（简称 NLM）。DDBJ是 DNA Data Base of Japan 的简称，创建于 1986 年，由日本国家遗传学研究所负责管理。1988 年，EMBL、GenBank 与 DDBJ 共同成立了国际核酸序列联合数据库中心，建立了合作关系。根据协议，这三个数据中心各自搜集世界各国有关实验室和测序机构所发布的序列数据，并通过计算机网络每天都将新发现或更新过的数据进行交换，以保证这三个数据库序列信息的完整度。相似性和同源性的区别和联系：相似性：是指序列比对过程中检测

21、序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。同源性：进化过程中源于同一祖先的分支之间的关系，是严格定义的进行学词汇，即在进化上起源同一。序列比对的数学模型：序列比对的数学模型大体可以分为两类，一类从全长序列出发，考虑序列的整体相似性，即整体比对；第二类考虑序列部分区域的相似性，即局部比对。局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的，这些部位的序列具有相当大的保守性，尽管在序列的其它部位可能插入、删除或突变。此时，局部相似性比对往往比整体比对具有更高的灵敏度，其结果更具生物学意义。举例简述 BLAST 程序包含的几个子程序：1、blastp 是蛋白质序列

22、到蛋白质质库中的一种查询。库中存在的每条已知序列将逐一地同每条查询序列作一对一的序列对比。2、blastx 是核酸序列到蛋白库中的一种查询。现将核苷酸序列翻译成蛋白质序列（一条核苷酸序列可能会被翻译成六条蛋白质），再对每一条做一对一的蛋白序列比较。3、blastn 是核酸到核酸库中一种查询。库中存在的每条已知序列都将同所查序列作一对一的核酸序列比较。4、tblastn 是蛋白序列到核酸库中的一种查询。与 blastx 相反，它是将库中的核酸序列翻译成蛋白序列，再同所查询序列做蛋白对蛋白的对比。5、tblastx 是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成

23、蛋白（每条核酸序列产生六条可能蛋白序列）,这样每次对比都会产生 36 中对比阵列。E 值：衡量序列之间相似性是否显著的期望值。E 值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E 值越接近零，越不可能找到其他匹配序列，E 值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。序列分析的算法有哪些：点阵法、半经验的直观算法、动态规划算法、启发式算法、并行算法、神经网络和隐藏马尔可夫模型等人工神经网络的定义：人工神经网络是一种应用类似于大脑神经突触连接的结构进行信息处理的数学模型。由大量节点（神经元）和之间的相互联接构成。每个节点代表一种特定输

24、出函数，称为激励函数。每两个节点的连接都代表一个对通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数值的逼近，也可能是对一种逻辑策略的表达。简述神经网络的基本特征1、非线性。非线性关系是自然界的普遍特性。大脑的智慧就是一种非线性现象。人工神经元处于激活或抑制二种不同的状态，这种行为在数学上表现为一种非线性关系。具有阙值的神经元构成的网路具有更好的性能，可以提高容错性和存储容量。2、非局限性。一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征，而

25、且可能主要由单元之间的相互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子。3、非常定性。人工神经网络具有自适应、自组织、自学习能力。神经网络不但处理的信息可以有各种变化，而且在处理信息的同时，非线性动力系统本身也在不断变化。经常采用迭式过程描写动力系统的演化过程。4、非凸性。一个系统的演化方向，在一定条件下将取决于某个特定的状态函数。例如能量函数，它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值，故系统具有多个较稳定的平衡态，这将导致系统演化的多样性。人工神经网络的特点：1、高度的并行性；2、高度的非线性全局作用；3、良好的容错性和联

26、想记忆能力；4、很强的自适性和自学能力。三种构建进化树的方法并简述之：三种主要的建树方法分别是距离、最大节约和最大似然。距离法考察数据组中所有序列的两两对比结果，通过序列两两之间的差异决定进化树结构和树枝长度。最大节约方法考察数据组中序列的多重比对结果，优化出进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。最大似然方法考察数据组中序列的多重比对结果，优化出拥有一定拓扑结构和树枝长度的进化树，这个进化树能够以最大的概率导致考察的多重比对结果。利用生物信息学方法进行基因识别的两种途径：1、基于基因组 DNA 的外显子识别；2、基于 EST 策略的基因鉴定。数据库查询和数据库搜索：数据库查询

27、：是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。数据库搜索：是指通过特定的序列相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。蛋白质二级结构的预测方法：1、统计/经验算法，如基于经验统计规则的 Chou-Fasman 方法及基于信息论算法的 GOR 方法；2、物理-化学方法，基于对于蛋白质结构的物理及化学原理的预测，如 Lim 方法；3、机器学习方法，如神经网络方法。蛋白质三级结构预测的理论预测方法：1、同源建模法：对于一个未知结构的蛋白质，找到一个已知结构的同源蛋白质，以蛋白质的结构为模板，为未知结构的蛋白质建立结构模型，序列相似性低于 3

28、0%的蛋白质难以得到理想的结构模型；2、反向折叠法：在已知模板的序列抑制率低于 25%时，使用反向折叠方法进行预测。它可以运用到没有同源结构的情况中，且不需预测二级结构，即直接预测三级结构，从而可以绕过现阶段二级结构预测准确性不超过 65%的限度，是一种有潜力的预测方法。主要原理是把未知蛋白质的序列和已知的结构进行匹配，找出一种或几种匹配最好的结构作为未知蛋白质的预测结构。其实现过程是总结出已知的独立蛋白质结构模式作为未知结构进行匹配的模板，然后经过对现有的数据库的学习总结，得出可以区分正误结构的平均势函数（meanforcefield），以此判别标准来选择最佳的匹配方式。这种方法的局限性在

29、于它假设蛋白质折叠类型是有限的，所以只有未知蛋白质和已知蛋白质结构相似的时候，才有可能预测出未知的蛋白质结构，如未知蛋白质结构是现在还没有出现的结构类型时，则不能应用这种方法。3、从头预测法：在找不到已知结构的蛋白质模板时使用从头预测的方法。从理论上说，从头预测法是最为理想的蛋白质结构预测方法。它要求方法本身可以只根据蛋白质的氨基酸序列来预测蛋白质的二级结构和高级结构，但现在还不能完全达到这个要求。从头预测可以细分为，二级结构预测、超二级结构预测、蛋白质结构类型预测、蛋白质折叠模式预测、详细的三维结构直接预测等。同源建模的基本步骤 1、目标序列与模板序列的匹配；2、根据同源蛋白质的多重序列匹配

30、结果，确定同源蛋白质的结构保守区以及相应的框架结构；3、目标蛋白质结构保守区的主链建模；4、目标蛋白质结构变异区的主链建模；5、侧链的安装和优化；6、对模建结构进行优化和评估。当前生物信息学在基因组研究中当前的主要研究内容是什么？1 人与各种生物的完整基因组的获取和信息分析 2 新基因和新的单核苷酸多态性（SNP）的发现与鉴定：a，基因的电子克隆；b，从基因组 DNA 序列中预测新基因：发现 SNP；3 基因组中非编码区信息结构分析；4 遗传密码起源与生物进化的研究；5 完整基因组的比较研究；6 大规模基因功能表达谱的获取与分析；7 蛋白质结构模拟与药物设计；8 生物信息学的应用与发展研究：a

31、，疾病相关的基因信息及相关算法和软件开发；b，建立与动植物良种繁殖相关的基因组数据库，发展分子标记辅助育种技术；c，研究与发展药物设计软件和基于生物信息的分子生物学技术。简述生物信息学的研究目标1、生物信息学的研究目标：认识生命的起源、进化、遗传和发育的本质，破译隐藏在 DNA序列中的遗传语言，揭示“基因组信息结构的复杂性及遗传语言的根本规律” ，揭示人体生理和病理过程的分子基础，为人类疾病的诊断、预防和治疗提供最合理而有效的方法和途径。2、近期任务：大规模基因组测序中的信息分析，新基因和新单核苷酸多怸（SNPs）的发现与鉴定，完整基因的比较研究，大规模基因功能表达谱的分析，生物大分子的结构模

32、拟与药物设计，生物信息分析的技术与方法研究 3、远期任务:遗传密码起源和生物进化的研究，非编编码区的信息结构分析。生物信息学在基因组研究中的发展趋势：1 高度自动化的实验数据获得、加工和整理；2 序列片段拼接；3 基因区域的预测；4 蛋白质结构预测；5 分子进化研究等。什么是“后基因组计划”？“后基因组时代”生物学的主要任务是什么：“后基因组计划”基因组全序列完全测定完成后，对基因组的结构、表达、修复、功能等进行研究的计划.包括功能基因组、结构基因组和蛋白质组等研究的国际合作计划。“后基因组时代”生物学的主要任务：揭示基因组及其所包含的全部基因功能，并在此基础上阐明遗传、发育、进化、功能调控等

33、生物学基本问题，以及人类健康和疾病相关的生物医学问题。其核心科学问题主要包括：基因组多样性，基因的表达调控和蛋白质产物的功能，以及模式生物基因组研究等。蛋白质组研究的技术路线:1 蛋白质样品制备；2 蛋白质的双向聚丙烯酰胺凝胶电泳（2-DE）；3 蛋白质染色；4 凝胶图像分析；5 蛋白质特异点的鉴定。队特意蛋白质点进行：a，氨基酸组成分析；b，氨基酸序列分析；c，质谱分析等；6 蛋白质数据库配比分析。蛋白质工程：（1）运用蛋白质结构的详细信息、重组 DNA 技术，对蛋白质分子进行重新设计，从而定向地改造蛋白质的性质，使其具有人们希望的优良性质，甚至创造自然界不存在的蛋白质。主要目的是通过改造

34、编码蛋白质基因中的 DNA 顺序，或设计合成新的基因，经过宿主细胞的表达获得被改造了的新的蛋白质。（2）蛋白质工程分子设计是从分子乃至原子水平对天然蛋白质的一级结构序列、三级结构空间构象一级生物功能进行全面分析，在此基础上提出设计方案，或改变某些部位的氨基酸残基，或进行结构域的拼接，以期改善天然蛋白质的性能或得到具有新功能的蛋白质。简述蛋白质组研究的理论基础1、从 mRNA 表达水平并不能预测蛋白表达水平。有人研究了 mRNA 和蛋白质表达的关系，以处于对数生长期的啤酒酵母为研究对象，mRNA 的表达由 SAGE 频率表指示，同位素标记酵母蛋白，共选择 80 个基因，结果没有发现翻译和转录

35、丰度有明显相关。2、蛋白质的动态修饰和加工并非必须来自基因序列。在 mRNA 水平上有许多细胞调节过程是难以观察到的，因为许多调节是在蛋白质的结构域中发生的。许多蛋白只有与其它分子结合后才有功能，蛋白的这种修饰是动态的、可可逆的，这种蛋白修饰的种类和部位通常有能由基因序列决定。3、蛋白质组是动态反映生物系统所处。细胞周期的特定时期、分化的不同阶段、对应的生长和营养状况、温度、应激和病理状态所对应的蛋白质组是有差异的。蛋白质组学的研究可望提供精确、详细的有关细胞或组织状况的分子描述。因为诸如蛋白质合成、降解、加工、修饰的调控过程，只有通过蛋白质的直接分析才能提示。简述隐马可夫模型与“Profil

36、e”的异同与标准的 Profile 相比，Profile HMM 有正规的概率做基础，对于序列的删除和插入状态的记分也有较为可靠的理论依据。而标准的 Profile 纯粹是一种启发式方式的方法。HMM用统计方法估计序列某一位点核甘酸残基出现的正真概率，而标准的 Profile 却是用自身的观察频率给核苷酸残基指派分数。这就意味着用 Profile HMM 方法从 10 至 20 个核苷酸序列构成的队列中提取的信息，相当于用标准的 Profile 从 40 至 50 个核苷酸序列构成的队列中提取的信息。简述隐马可夫模型的三个基本问题1，可能性的评估问题：对于给定模型，如何评估某个观察值序列符合这

37、个模型的可能性，也就是说这个观察值序列在多大程度上符合给定的模型。2，解码问题：对于给定的模型和观察值序列，求可能性最大的状态序列。3，学习问题：对于给定的一个观察值序列，如何根据此序列调整参数A,B,，获得合适的模型。简述结构域在蛋白质三级结构内的独立折叠单元。结构域通常都是几个超二级结构单元的组合，是三级结构的基本单元。结构域（Structural Domain）是介于二级和三级结构之间的另一种结构层次。所谓结构域是指蛋白质亚基结构中明显分开的紧密球状结构区域，又称为辖区。对于较大的蛋白质分子或亚基，多肽链往往由两个或多个在空间上可明显区分的、相对独立的区域性结构缔合而成三级结构，这种

38、相对独立的区域性结构就称为结构域。对于较小的蛋白质分子或亚基来说，结构域和它的三级结构往往是一个意思，也就是说这些蛋白质或亚基是单结构域。结构域自身是紧密装配的，但结构域与结构域之间关系松懈。结构域与结构域之间常常有一段长短不等的肽链相连，形成所谓铰链区。不同蛋白质分子中结构域的数目不同，同一蛋白质分子中的几个结构域彼此相似或很不相同。可以说，结构域可以作为蛋白质分子的基本结构和功能单位。结构域在进化中非常保守。常见结构域的氨基酸残基数在 100400 个之间，最小的结构域只有 4050 个氨基酸残基，大的结构域可超过 400 个氨基酸残基。简述单核苷酸多态性在 DNA 的某一个位点处的核

39、苷酸，有一部分人是 A，另一部分人是 T，其他是 G 和 C。且各种情况的比例均大于 1%，则称该位点处的单核苷酸是多态性的。就一个位点而言，SNP最多为 4 种。SNP 位于基因编码序列则称为 cSNP。若 cSNP 引起蛋白质重要部位氨基酸的变异，则可能导致其功能改变，位于调控序列中的 SNP 则可能影响基因表达的剂量。SNP 是目前最有发展前途的 DNA 标记：由于 SNP 在基因组内的数量巨大，且目前各种新技术开发和检测手段的进步可以允许人们迅速的检测大数量的 SNP 来弥补其低多形态的不足，从目前看来，SNP 有着许多微卫星不可比拟的优越性。除了作图外，SNP 的用途极其广泛。 cS

40、NP 与人类的各种遗传特征的关系研究，有利于对人群甚至个人进行 DNA 水平的鉴定。简述 DNA 复制的特点1、半保留复制：两个子代分子中各有一条链是来自亲代的旧链。两条链均可作为模板 2、复制子：基因组中能独立进行复制的单位称为复制子。即从复制的起点（origin）到复制终止的终点(terminus)的区域 3、复制的方向：大多数细胞及许多病毒的 DNA 都是双向等速复制。即两个复制叉反向对称行进，直到遇到相邻的复制叉。4、半不连续复制：前导链leading strand :以 3到 5方向的母链为模板时，复制合成出一条 5到 3方向的链。其合成方向与复制叉的行进方向是一致的，而且是连续的。滞后链 lagging strand，或叫随从链：以 5到 3方向的母链为模板时，合成方向与复制叉相反，且不连续，产生冈崎片段（Okaxaki fragments）

展开阅读全文