1、基于统计方法的蛋白质结构和功能预测,博士生:刘滨 导师:王轩 教授 2008-06,主要内容,课题来源及研究的目的和意义 国内外在该方向的研究现状及分析 前期的理论研究与试验论证工作的结果 学位论文的主要研究内容、实施方案及其可行性论证 论文进度安排,预期达到的目标 为完成课题已具备和所需的条件、外协计划及经费 预计研究过程中可能遇到的困难、问题,以及解决的途径,课题来源及研究的目的和意义,课题来源基于自然语言处理技术的蛋白质相互作用预测方法研究-国家自然科学基金面上项目(60673019) 问答式信息检索的理论与方法研究-国家自然科学基金重点项目(60435020),课题来源及研究的目的和意
2、义,研究的目的和意义 远程同源性和折叠检测 在生物信息学中,蛋白质同源性检测是重点研究的课题之一。研究者越来越依赖于通过同源性把蛋白质按照结构和功能进行分类。大多数的方法能够检测出具有高度序列相似性的同源性,然而准确检测低序列相似性的同源性即远程同源性检测仍是一个具有挑战性的问题。 蛋白质相互作用位点预测 蛋白质相互作用位点是将相互作用数据直接应用与药物开发所必须的信息。采用实验的方法确定蛋白质相互作用位点费时费力。此外在实验的过程中还会遇到一些目前无法解决的问题,因此采用理论计算方法来预测蛋白质相互作用位点有重要的现实意义。,主要内容,课题来源及研究的目的和意义 国内外在该方向的研究现状及分
3、析 前期的理论研究与试验论证工作的结果 学位论文的主要研究内容、实施方案及其可行性论证 论文进度安排,预期达到的目标 为完成课题已具备和所需的条件、外协计划及经费 预计研究过程中可能遇到的困难、问题,以及解决的途径,国内外在该方向的研究现状及分析,蛋白质远程同源性和折叠检测 动态规划算法: Smith-Waterman。 启发式算法: BLAST和FASTA。 产生式模型:HMM 判别式模型:SVM计算核函数方法: 1.直接计算的核函数(LA,SW-PSSM) 2.基于特征空间的核函数(SVM-Fisher,SVM- pairwise,SVM-n-peptide,Mismatch,Spectr
4、um等),国内外在该方向的研究现状及分析,蛋白质相互作用位点预测 氨基酸物理化学性质:疏水性,极性 残基的进化保守性:Conservation 序列信息:ET 三维结构特征:ASA,3D-motifs 机器学习方法:SVM,NN,CRF,主要内容,课题来源及研究的目的和意义 国内外在该方向的研究现状及分析 前期的理论研究与试验论证工作的结果 学位论文的主要研究内容、实施方案及其可行性论证 论文进度安排,预期达到的目标 为完成课题已具备和所需的条件、外协计划及经费 预计研究过程中可能遇到的困难、问题,以及解决的途径,前期的理论研究与试验论证工作的结果,主要介绍下面两个问题: 远程同源性和折叠检测
5、问题; 蛋白质相互作用位点预测问题。,远程同源性和折叠检测问题,生成蛋白质序列频率谱首先计算氨基酸i的伪计数值 其中fi是给定氨基酸i的观测频率,pj是给定氨基酸的背景频率,qij是氨基酸i和氨基酸j之间所对应的分数矩阵的分数。氨基酸i的目标频率用如下公式计算。其中是自由参数,使用PSI-BLAST的默认值10。是多序列比对的某一列中出现的氨基酸种类数量减1。,远程同源性和折叠检测问题,蛋白质序列频率谱转化为Top-n-grams,对于每一个氨基酸频率谱,20个标准氨基酸按照其频率进行降序排列,然后频率最大的n个氨基酸按照其频率连接为一个子串。我们称该子串为Top-n-gram。每一个Top-
6、n-gram通过n个氨基酸在子串中的不同位置来区别它们不同的频率。该过程重复执行,直到蛋白质序列频率谱中的所有氨基酸频率谱转化为Top-n-grams。即一个蛋白质频率谱转化为k个Top-n-grams,其中k为蛋白质序列的长度。,远程同源性和折叠检测问题,创建SVM分类器,基于Top-n-grams方法的特征向量维数为20n。在本文中,我们研究了Top-1-grams, Top-2-grams和Top-3-grams,他们特征向量的维数分别为20,400和8000。训练集中的蛋白质通过计算每个Top-n-gram出现次数转化为固定长度的向量。之后这些向量用来训练特定类别的分类器。测试集中的蛋
7、白质向量化方法和训练集中的蛋白质向量化方法一样。测试向量输入特定的分类器进行分类。SVM赋给每个测试集中的蛋白质一个表示正例可能性的分数。该分数值大于0的测试样本被预测为正例反之为反例。,远程同源性和折叠检测问题,潜在语义分析,根据训练集构造一个维数为MN的词-文档矩阵A=aij,其中aij为词i在文档j中的权重,M为特征词总数,N为文档总数。设K为矩阵A的秩,则通过奇异值分解,矩阵A可以被分成三个矩阵:其中矩阵U是左奇异矩阵,V是右奇异矩阵,S是对角矩阵,其对角元素是矩阵A的奇异值,且满足s1s2sK0。在实际中一般保留前R个奇异值,从而达到降维去噪音的目的。,远程同源性和折叠检测问题,评价
8、标准,本文采用两个标准对各种同源性检测方法进行评估:接收机操作特性记分(Receive Operating Characteristic score, ROC分数)和ROC50。ROC分数是根据ROC曲线计算得来的。ROC曲线是反映敏感性和特异性连续变化的综合指标。此曲线以真阳性率为纵坐标,假阳性率为横坐标,由无数个临界值求出的无数对真阳性率和假阳性率绘图而成。其中,ROC曲线与横坐标围成的区域的面积称之为ROC分数。ROC分数为1表示所有样本的分类都正确,为0则表示所有样本都被错分。ROC50分数指假阳性样本数达到50时所对应的ROC分数。,远程同源性和折叠检测问题,实验结果,远程同源性和折
9、叠检测问题,n值对实验结果的影响,下图给出了基于Top-1-grams和基于Top-2-grams的方法在超家族和折叠数据集中每个测试集预测的平均ROC50分数。从该图可以看到这两种序列组成成分互补。因此可以通过结合这两种序列组成成分构成一种新的序列组成成分。对于远程同源性和折叠检测问题,基于这种连接后的序列组成成分方法得到的平均ROC50指标比基于单一的序列组成成分的方法得到的最好的ROC50分数分别高出5%和2.8%。,远程同源性和折叠检测问题,与其他方法对比结果,当基于各种序列组成的方法结合潜在语义分析后,其预测效果都有所提高。这些序列组成成分包括N元文法(N-grams)、模式(pat
10、tern)、模体(motifs)、二进制谱(binary profiles)和Top-n-grams。 本文提出的方法明显优于其他基于序列组成成分的方法并明显优于除了Profile和SW-PSSM之外的其他方法。,远程同源性和折叠检测问题,时间复杂度,执行效率是所有同源性检测方法所关心的问题。在这方面上,SVM-Top-n-gram-combine-LSA与Profile可比,并且优于SVM-pairwise,SVM-LA和SW-PSSM,但是比不使用LSA的方法和PSI-BLAST稍慢。与其他基于序列组成成分的方法比较,SVM-Top-n-gram-combine-LSA需要的运行时间最短。
11、,蛋白质相互作用位点预测问题,产生排序谱,为了计算排序谱,首先需要计算蛋白质序列频率谱,其计算方法与前面介绍的方法相同。考虑到在频率谱中20种标准氨基酸的出现频率不同,首先将他们按照出现频率降序排列,然后通过一个概率阈值把氨基酸频率谱转化为排序谱。即把频率大于给定阈值的氨基酸拼接起来。这种氨基酸子串称之为排序谱。每个排序谱能够区别大于阈值的氨基酸的频率。,蛋白质相互作用位点预测问题,蛋白质序列频率谱转化为排序谱的流程图,蛋白质相互作用位点预测问题,计算蛋白质相互作用位点倾向性,下面公式用来计算排序谱i的相互作用位点倾向性Pi。其中fi, I为排序谱i在相互作用位点区域出现的频率,fi, S为排
12、序谱i在其他表面区域的出现频率。出现频率可以采用极大似然法进行估计:其中Ci, I为排序谱i在相互作用位点区域出现的总次数;NI为结合位点区域出现的排序谱总数;fi, S为排序谱i在其他表面区域出现的总次数;NS为其他表面区域出现的排序谱总数。,蛋白质相互作用位点预测问题,预测方法,本文中创建了四个SVM,他们所采用的特征如下: 第一个SVM:氨基酸的序列谱+可及表面面积; 第二个SVM:氨基酸的序列谱+可及表面面积+氨基酸倾向性; 第三个SVM:氨基酸的序列谱+可及表面面积+二进制谱倾向性; 第四个SVM:氨基酸的序列谱+可及表面面积+排序谱倾向性。,蛋白质相互作用位点预测问题,评估准则,评
13、估准则包括:精度(Precision)、召回率(Recall)、F量度(F-Measure,F1)、准确率(Accuracy)和相关性(Correlation Coefficient, CC),定义如下:,蛋白质相互作用位点预测问题,实验结果,蛋白质相互作用位点预测问题,氨基酸倾向性,可见不同种类的复合物的氨基酸倾向性非常相似。在每类复合体中疏水残基(F、L、M、V和W)和带电氨基酸R倾向于在相互作用位点区域出现,然而极性残基(Q、K和D)和小残基(A和P)不倾向在相互作用位点区域出现。,虽然在四类复合物中许多残基在相互作用位点区域或其他表面区域具有相同趋势的倾向性,但是一些残基在四类复合体中
14、显示出不同的倾向性趋势。例如C在四种复合物中倾向在永久性复合物中出现而不倾向于在短暂性复合物中出现。E和T倾向于在同源性复合物中出现而不倾向于在非同源性复合物中出现。因此在四种类别复合物中不同类型的氨基酸的倾向性的区别微小,大部分氨基酸呈现出相同的倾向性趋势。,蛋白质相互作用位点预测问题,二进制谱倾向性,疏水残基,一些带电残基和他们的组合表现出倾向于在相互作用位点区域出现,例如二进制谱FILMRVY和FLRWY。另一个值得注意的现象是虽然一些氨基酸倾向在表面区域出现,但是这些氨基酸和其他氨基酸的组合倾向于在相互作用位点区域出现,例如AFL和DEG。,蛋白质相互作用位点预测问题,排序谱倾向性,阈
15、值对实验结果的影响 排序谱在相互作用位点区域和其他表面区域出现的频率不同。这种不同可以用来计算排序谱倾向性。在理论上,总的排序谱数量为2020,但是在实际应用中只有很小的一部分出现。出现的排序谱数量依赖于阈值和数据集。阈值通过交叉验证结果选取。阈值Ph对实验结果的影响在下图中给出。,蛋白质相互作用位点预测问题,排序谱倾向性,疏水残基,带电残基和他们的组合表现出倾向于在相互作用位点区域出现,例如排序谱VILMF和LIVWF。 一些氨基酸倾向在表面区域出现,但是这些氨基酸和其他氨基酸的组合倾向于在相互作用位点区域出现,例如VPD、CK和AFI。 虽然有些具有相同氨基酸组成的排序谱具有相同的倾向性,
16、但是许多具有相同氨基酸组成的排序谱具有不同的倾向性。其中一些甚至具有相反的倾向性,例如LFI(-4)和FLI(4)。,蛋白质相互作用位点预测问题,排序谱倾向性比二进制谱倾向性具有更强的区分能力二进制谱倾向性分布图(A)和排序谱倾向性分布图(B),蛋白质相互作用位点预测问题,预测例子,主要内容,课题来源及研究的目的和意义 国内外在该方向的研究现状及分析 前期的理论研究与试验论证工作的结果 学位论文的主要研究内容、实施方案及其可行性论证 论文进度安排,预期达到的目标 为完成课题已具备和所需的条件、外协计划及经费 预计研究过程中可能遇到的困难、问题,以及解决的途径,学位论文的主要研究内容,基于Top
17、-n-grams的远程同源性和折叠检测: 生物序列和自然语言有着密切的关系,例如组成蛋白质序列的氨基酸类似于自然语言中的词,蛋白质结构和功能类似自然语言中的语义。如何找到蛋白质序列中的词是采用自然语言技术解决生物信息学问题的关键。蛋白质序列谱中含有大量的进化信息,如何正确使用这些信息提取蛋白质序列的词是解决远程同源性检测的关键问题。考虑到氨基酸频率谱中不同频率氨基酸的重要性,提出了一种新的蛋白质序列组分即Top-n-grams。这种新的序列组分成功克服了二进制谱的缺点并取得了令人满意的实验结果。,学位论文的主要研究内容,基于N进制谱的远程同源性检测 : 二进制谱方法只是简单的把氨基酸出现的可能
18、性分为能出现与不可能出现。这种简单的划分忽略了许多重要的进化信息。因此我们提出了一种改进的方法即N进制谱。该方法能更加灵活的运用氨基酸频率谱中包含的进化信息并可以把不同种类的氨基酸出现的可能行进行更细的划分。实验结果表明该方法取得了较好的实验效果。,学位论文的主要研究内容,蛋白质相互作用位点预测: 蛋白质相互作用位点预测是生物信息学中一个热门的研究问题。目前基于SVM的方法取得了很好的效果。提高基于SVM方法预测效果的关键是找到一种有效的特征来表示相互作用位点的性质。因为氨基酸出现在相互作用位点区域和其他表面区域的频率不同,因此可以利用这种不同计算氨基酸倾向性。虽然许多研究者采用氨基酸倾向性进
19、行蛋白质相互作用位点预测,但是氨基酸倾向性没有考虑进化信息,因为蛋白质序列频率谱中包含进化的信息,所以可以利用这些进化信息计算一种基于序列谱的倾向性来替代氨基酸倾向性。该倾向性可以广泛应用于蛋白质相互作用位点预测中。,学位论文的主要研究内容,蛋白质结构域边界预测: 结构域指蛋白质中具有独立三级结构并可具有特定的功能的部分,通常由一个基因外显子编码。结构域边界在理论和实际中都有重要的意义。结构域边界预测在结构分析、功能注释、数据库搜索和蛋白质模拟中有着广泛的应用。目前氨基酸的结构域连接区倾向性索引在解决结构域预测问题中取得了很好的效果。但是氨基酸的结构域连接区倾向性索引没有考虑到进化信息,因此这
20、里拟构建一种基于蛋白质序列谱的结构域倾向性。这种倾向性可以包含进化信息在其中。,主要内容,课题来源及研究的目的和意义 国内外在该方向的研究现状及分析 前期的理论研究与试验论证工作的结果 学位论文的主要研究内容、实施方案及其可行性论证 论文进度安排,预期达到的目标 为完成课题已具备和所需的条件、外协计划及经费 预计研究过程中可能遇到的困难、问题,以及解决的途径,论文进度安排,预期达到的目标,2007年3月-2007年9月:阅读相关文献,了解蛋白质组学在国内外研究现状和关键技术。 2007年10月-2008年2月:进行远程同源性和折叠检测研究。 2008年3月-2008年7月:进行蛋白质相互作用位
21、点预测研究。 2008年8月-2009年1月:进行蛋白质结构域预测的研究。 2009年2月-2009年9月:进行蛋白质均值力势能研究。 2009年10月-2010年3月:进行蛋白质相互作用研究。 2010年4月-2010年9月:整理博士期间进行的研究并撰写博士学位论文,准备答辩。,主要内容,课题来源及研究的目的和意义 国内外在该方向的研究现状及分析 前期的理论研究与试验论证工作的结果 学位论文的主要研究内容、实施方案及其可行性论证 论文进度安排,预期达到的目标 为完成课题已具备和所需的条件、外协计划及经费 预计研究过程中可能遇到的困难、问题,以及解决的途径,为完成课题已具备和所需的条件、外协计
22、划及经费,相关硬件资源和网络资源实验室已经具备。有国家自然科学基金的资助,经费有保障。生物数据库大部分都可以免费使用,实验室在生物信息学方面已经有了一定的积累,对一些生物信息学热点问题进行了深入的研究并找到了自然语言技术解决生物问题的切入点,此外已经建立了一些数据集,例如蛋白质相互作用位点数据集和蛋白质结构域数据集。,为完成课题已具备和所需的条件、外协计划及经费,目前发表或已投稿的学术论文情况: (1)Bin Liu, Lei Lin, Xiaolong Wang, Qiwen Dong, Xuan Wang, A discriminative method for protein remot
23、e homology detection based on N-nary profiles, IEEE Proceedings of Bioinformatics Research and Development 2008(BIRD08), 2008. (EI) (2)Bin Liu, Xiaolong Wang, Lei Lin, Qiwen Dong, Xuan Wang, A discriminative method for protein remote homology detection and fold recognition combining Top-n-grams and
24、latent semantic analysis, BMC Bioinformatics. (修改稿在审中),主要内容,课题来源及研究的目的和意义 国内外在该方向的研究现状及分析 前期的理论研究与试验论证工作的结果 学位论文的主要研究内容、实施方案及其可行性论证 论文进度安排,预期达到的目标 为完成课题已具备和所需的条件、外协计划及经费 预计研究过程中可能遇到的困难、问题,以及解决的途径,预计研究过程中可能遇到的困难、问题,以及解决的途径,补充生物知识 对于计算机专业的学生,生物知识非常欠缺,在阅读生物信息学文章的时候,很多的生物术语不知道含义,很多生物问题不知道其意义。因此很难把生物问题抽象为计算机问题。这就需要我们补充生物知识,多和生物系的学生交流。通过互联网的帮助我们可以通过电子邮件和全世界的生物信息学家交流。 构建数据集 虽然有很多的免费公共生物学数据库可以使用,但是这些数据库都为综合数据库。对于研究具体的生物问题,我们需要抽取出符合条件的数据集,这些数据集的准备可能需要通过提取不同数据库中的信息。每个数据库都有自己的格式,因此需要认真研究不同数据集的格式和字段的含义。数据准备过程涉及到非常繁琐的文本文件转化操作,因此处理这些数据的时候要特别小心。把常用的操作写成类,并且不断的完善这些类的功能。,谢谢大家 请各位老师指正,