1、博士生入学专业基础课考试大纲考试科目:生物信息学 考试代码:2285 一、 考试要求要求考生全面系统地生物信息学的基本概念、基本原理、典型方法和实用技术,并且能灵活运用所学知识解决生物信息中的具体问题。二、 考试内容1) 生物信息学引论 人类基因组计划与基因组信息学 蛋白质结构与功能关系研究 生物信息学的主要研究内容:生物分子数据的收集与管理,数据库搜索及序列比较,基因组序列分析,基因表达数据的分析与处理,蛋白质结构预测 生物信息学所用的方法与技术:数学统计方法,动态规划方法,机器学习与模式识别技术,数据库技术及数据挖掘,人工神经网络技术,专家系统,分子模型化技术,量子力学和分子力学计算,生物
2、分子的计算机模拟,因特网(Internet)技术2) 生物信息学的生物学基础 蛋白质的结构和功能 遗传信息载体DNA 与分子生物学中心法则 基因组结构 基因表达调控 新生肽链的折叠 生物大分子结构的测定3) 序列比较 序列的相似性:字母表和序列,编辑距离,通过点矩阵分析两条序列的相似之处,序列的两两比对,用于序列相似性的打分矩阵 两两比对算法:序列两两比对基本算法,子序列与完整序列的比对,寻找最大的相似子序列,准全局序列比对 序列多重比对:SP 模型,多重比对的动态规划算法,优化计算方法,星形比对,树形比对,其他多重序列比对算法,统计特征分析 DNA 片段组装:片段组装问题,序列片段组装模型,
3、序列片段覆盖图,贪婪算法,非循环图拓扑排序法4) 基因组信息分析 原核与真核基因组特点 基因组序列分析:基因组序列分析步骤和分析结果评价,核苷酸关联分析 基因识别方法:最长 ORFs 法,基于密码子出现频率的预测方法,同源性方法,神经网络方法,隐马尔可夫模型法,模式判别分析法,基于动态规划的基因结构预测方法,基于剪切比对的基因识别,其他基因识别方法 非编码区域分析和调控元件识别:调控元件的建模,调控元件模式的得分函数,模式驱动的调控元件识别,序列驱动的调控元件识别5) 系统发生分析 分子系统发生与系统发生树 基于距离的系统发生树构建方法 基于特征的系统发生树构建方法 最大似然法、系统发生树的可
4、靠性 全基因组系统发生分析6) 蛋白质结构预测 蛋白质二级结构预测算法 RNA 二级结构的预测算法 蛋白质空间结构预测算法7) 基因表达数据分析 基因表达数据的获取 基因表达数据预处理 基因表达差异的显著性分析:倍数分析,t 检验,贝叶斯分析 基因表达谱聚类分析:相似性度量函数,聚类方法,基于模型的聚类方法,支持向量机,聚类结果的可视化,聚类结果的定量评价 基因表达数据的分类分析:朴素贝叶斯分类法,k-近邻法,其他分类法 主成分分析 PCA 基于基因表达谱的基因调控网络研究:布尔网络模型,线性组合模型,加权矩阵模型,数据整合分析三、 试卷结构考试时间 180 时分钟,满分 100 分1)题型结构 概念题(10 分) 简答题(25 分) 求解题(30 分) 计算题(35 分)2)内容结构 生物信息学引论(10 分) 生物信息学的生物学基础(10 分) 序列比较(15 分) 基因组信息分析(20 分) 系统发生分析(15 分) 蛋白质结构预测(10 分) 基因表达数据分析(20 分)四、 参考书目见招生简章1. 孙啸、陆祖宏、谢建明, 生物信息学基础 ,清华大学出版社。