1、第一章 绪论1、生物信息学*采用计算机技术和信息论方法研究 pro 及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等相互渗透而形成的交叉科学。2、发展历程*前基因组时代基因组时代后基因组时代3、研究内容1) 、基因组和蛋白质组2) 、基因芯片3) 、数据库(基因组数据库、蛋白质数据库,其他数据库)第二章 生物信息学的分子生物学基础1、概念基因:是 DNA 分子上具有遗传信息的特点核苷酸序列的总称,即具有遗传效应的 DNA 分子片段基因。基因组:包含细胞或生物体全套遗传信息的全部遗传物质。DNA 变性:DNA
2、复性:DNA 杂交:蛋白质组:由基因表达产生的总蛋白质的总称。2、基因克隆过程*目的基因(DNA、RNA)载体构建转入表达(离子转化、电转化)克隆筛选3、DNA 测序方法*(1).酶促双脱氧法 (2)、化学降解法4、中心法则DNA mRNA 蛋白质5、等电点6、起始密码子:AUG终止密码子:UAA、UAG、UGA7、重组 DNA 导入细胞的过程第三章 生物信息学的计算机基础1、 概念1)数据仓库:是一个面向主题的、集成的、相随稳定的、反映历史变化的数据集合,用于支持决策。2)计算机网络操作系统:为了使用计算机而专门设计的系统软件,它除了具有一般桌面操作系统的全面功能外,还应满足用户使用网络的需
3、要。3)数据挖掘:就是从数据库中抽取具有潜在价值的隐含信息的过程。4)数据库:是统一管理的相关数据的集合5)数据库管理系统:对数据库进行管理的系统软件,提供数据库的建立、查询、更新以及各种数据库控制功能6)数据库技术:是研究数据库的结构。存储、设计、管理和应用的一门软件学科7)数据库系统:采用数据库技术的计算机系统,由数据库、计算机软硬件和数据库和管理员共同组成的系统。8)数据模型:是数据库结构和语义的一种抽象描述,由数据结构、数据操作和完整性约束三部分组成。2、 计算机网络类型1) 、集中模式 2) 、专用服务器模式 3) 、客户机/服务器模式 4) 、对等模式3 数据仓库的基本特点1) 、
4、存储的信息是面向主题来组织的2) 、有一处专门用来存储 510 年或更久的历史数据3) 、具有统一的数据结构和编码规则4) 、是只读数据库,一般不轻易做改动,只能定期刷新。第四章 核酸系列分析1、 概念1) 全局比对:从全长序列出发,考察两个序列之间的全局相似性使用范围:a、解决不同长度序列之间的比对b、全局水平上相似性程度较高的两个序列2)转移矩阵:核酸的碱基一类是嘌呤,一类是嘧啶,如果碱基的变化分别在嘌呤之间或嘧啶之间发生的替换称为转换,嘌呤与嘧啶之间的替换称为颠换。3)相似性:一种很直接的数量关系,比如部分相同或相似的百分比或其他一些合适的度量4)同源性:一些数据中推断出的两个基因或蛋白
5、质序列具有共同的祖先的结论,属于质的判断。2、BLAST 操作流程GenBankBLAST BLASTn粘贴序列 选择数据库、程序等参数Run”BLAST”比对结果第五章 分子进化分析1、 概念1) 系统树:是由一个节点或分支组成的图像,其中任何两个临近的节点都只由一个分枝来连接。2) 分子钟:某一蛋白质在不同物种间取代数与所研究物种间的分歧时间趋于正线性关系,将分子水平的这种恒速变异称3) 分子进化速率:指一个碱基或氨基酸座位每年发生变化。4) 信息位点:是指那些至少存在两个不同的碱基且每个不同碱基至少出现两次的位点5) 非信息位点:指只有一个碱基且只在一个序列中出现的位点6) 组外单位:外
6、群或外部参考物种,先于其他所有被考虑的物种(内群或内部物种) ,从他们的共同祖先中分化出来的那些物种。7) 分子进化:8) 突变率:2 有根树和无根树A B C D A B(C、D)C(B 、D ) D(B、C )(有根树) (无根树) 3 自举检验的步骤1) 取出多重序列比对的复本并把它们切成片段,每个片段包括原比对中不同的一列2) 对所有片段进行打包,从包中随机抽取一片段并复制其信息后把它们放回包中3) 重复抽取和放回过程,直到产生长度和原比对一样的数据集。4、分子系统树构建的主要方法有哪些?各有何特点?算术平均的不加权对群法(UPGMA)距离矩阵法 FM 法邻接法最大简约法(MP)离散特
7、征法最大似然法(ML)5、分析检验方法1)自举检验 2)参数检验第五章 、基因组分析1.基因组学:以基因组分析为手段,研究基因组的结构组成、时序表达模式功能,并提供有关进化信息。主要研究内容:相关基因组收集、处理、存储、分配、分析和基因预测等方面的综合研究。2.原核生物与真核生物基因组结构的区别生物种 真核生物 原核生物 基因组长度 较大 较小结构复杂,有大量 结构简单,非编码基因组结构 非编码重复序列 重复序列少不连续的断裂基因 排列紧密,以操纵子结构 基因排列 无操纵子 调节基因表达 内含子位置保守 内含子、外显子 外显子序列高度保守 内含子极少3、进行模式生物基因组研究的原因?、生物的多
8、样形式在进化过程中形成的,不同的生物有不同的形态结构和生理特征,但对生命活动有重要功能的基因却是高度保守的。因此,可从模式生物着手,先弄清楚低等生物的相对比较简单的基因组和生理功能,再以此为基础进一步研究人体这一复杂系统。 、在很多情况下不可能用人直接进行试验。4.基因组测序的原理?各种测序方法的优缺点?原理:主要通过对基因组进行随机的或有序的切割,以形成小片段的 DNA并进行测序。小片段 DNA 分子的测序,仍然要利用经典的双脱氧末端终止法和化学裂解法。测序结束后,在将数以万计的小片段 DNA 组装成连续的基因组序列过程中,采用不同策略组装优点 缺点鸟枪法测序 速度快,简单易行,成本较低 最
9、终排序结果的拼接组装难克隆重叠群法测序 正确测出含有重复 DNA 构建克隆文库工作量大片段的较大基因组序列5、分子标记方法的内容和特点内容: DNA 杂交的分子标记技术 PCR 为基础的分子标记技术 基于基因芯片技术的分子标记技术特点 :、DNA 杂交的分子标记技术:利于选择隐性基因;之间反映基因间差异;相互独立、互不干扰、PCR 为基础的分子标记技术:分辨率高、稳定性好、效率高;技术简单,检测速度快;成本较低、基于基因芯片技术的分子标记技术:是检测大量 SNP(单核苷酸多态性)的最佳方法6、遗传连锁图的构建方法以遗传多态性为路标和遗传距离为图距的基因组图注:1cM 的遗传距离表示染色体上两个
10、遗传标志之间的重组率为 1%7、物理图谱的类型及构建方法类型:细胞遗传图限制性核酸内切酶酶切图序列标志位点含量图放射性杂交图构建方法:、细胞遗传图:依靠在显微镜下观察确定基因或 DNA 标 记与染色体上可见界标间的相对位置与距离而构建物理图谱。、限制性核酸内切酶酶切图:基因组 DNA 用限制性核酸内切酶做部分酶切,得到的短片段分别用 YAC 或黏粒等做载体进行克隆,克隆片段的重叠区域拼接相连逐渐延伸成长片段。、序列标志位点含量图:根据单拷贝的已知 STS 序列,将不同来源的某一染色体区域的物理图谱和某一 DNA 序列等拼接组合成一个统一的物理图谱、放射性杂交图:细胞射线 染色体 DNA 小片段
11、 其他物种细胞杂合体筛选放射性杂交组含 STS 的片段测序8、构建转录图谱的意义?9、基因组功能注释需要哪些内容?基因识别和基因功能注释10、基因组多态性的类型和特点类型: 基因组单核苷酸的多态性 基因组重复序列的多态性 基因组中拷贝数的多态性特点:?11、功能基因组学的研究策略是什么?从单一基因和蛋白质,扩展到以系统的方式对生物体内所有基因和蛋白质进行研究,从而掌握基因的产物及其在生命活动中的作用。在使用全面、系统的方法进行研究时,通过检测大量基因的表达水平,在整体水平上获得关于基因功能及基因之间相互作用的信息。12、功能基因组学的主要分析方法是什么?mRNA 差异显示逆转录 PCR 法、基
12、因表达差异显示法抑制消减杂交法、基因表达连续分析技术、基因芯片技术13、比较基因组学的基本原理是什么?通过模式生物基因组之间或者模式生物和人类基因组之间的比较和鉴别,在一种生物基因组中找到与另一种生物某个基因功能相似的基因,从而发现新基因。14、比较基因组学的主要研究方法有哪些?基因组全序列的相似性比较 基因组作图比较 15、模式生物基因组比较研究的特点是什么?、模式生物基因组较小,但基因编码序列的比例较高。、模式生物基因组的 G+C 含量高。、模式生物基因组中编码蛋白质的基因具有加倍复制现象。、模式生物基因组中直系同源蛋白质簇 COGs 的结构和数量十分接近,他们与人类疾病基因表达的 COG
13、s 在结构上有许多同源的保守区域。、模式生物基因组直系同源基因的共线性连锁区域,在人类基因组上都可以找到。、模式生物的基因数量比预期的要少。第六章、蛋白质组分析1、蛋白质组学的概念和主要研究的大致方向是什么?蛋白质组学概念:对特定的通路、细胞器、细胞、组织、器官和肌体中包含的所有蛋白质,进行鉴定、表征和定量,提供关于该系统准确和全面数据的学科。研究方向:、人类医学蛋白质组研究、模式生物蛋白质组研究营养学研究 、其他应用 信号转导研究2、简述鸟枪蛋白质组分析方法的步骤蛋白质提取 复杂的细胞 + 组织 蛋白质 复合物 降解 上样肽段混合物 串联液亲和钝化 相色谱 亲 和 标 签 多蛋白 电 复合物
14、 离数 据 串联蛋白质 分 析 质谱 3、蛋白质功能预测的程序是怎么样的?未知蛋白质序列与已知功能的 蛋白质是否相似 确定跨膜螺旋、卷曲螺旋和前导序列 未知序列是否包含保守序列模序 查对 PROSITE 查对 BLOCKS 和数据库 PRINTS 数据库 整理所以肯定的结果并核对一致性 预测蛋白质功能 4、MALDI-TOF-MS 的基本原理是什么?基质辅助激光解析电离飞行时间质谱(MALDI-TOF-MS)原理:是将分析物分散在基质分子中并形成晶体,当用激光照射晶体时,由于基质分子吸收光能,导致能量蓄积并迅速产热,从而使基质晶体升华,基质和分析物迅速膨胀并进入气相,样品分子只吸收少量激光能量
15、,避免了分子化学键的断裂。5、研究蛋白质间相互作用的基本方法有哪些?所依据的原理是什么?方法:、免疫共沉淀方法 (次要)、酵母双杂交系统、噬菌体展示技术、表面等离子体共振原理:、抗体与抗原间的相互作用(次要)、利用融合基因激活报告基因的表达,从而探测蛋白质和蛋白质的相互作用。、该技术是一种噬菌体表面表达筛选技术。以改构的噬菌体为载体,把待选基因片段定向插入噬菌体外壳蛋白质基因区,使外源多肽或蛋白质表达并展示于噬菌体表面,进而通过亲和富集法筛选表达有特异肽或蛋白质的噬菌体。、SPR 生物传感器,利用表面等离子体共振现象和 SPR 谱峰对金属表面上电介质变化敏感的特点,通过将受体蛋白质固定在金属膜上,检测受体蛋白质与液相中配体蛋白质的特异性结合来研究蛋白质的相互作用。