1、人工智能技术在生物信息学中的应用研究,刘滨,内容,生物信息学概述 生物知识 DNA介绍 蛋白质介绍 人工智能和自然语言处理技术在生物信息学中的应用 蛋白质序列和自然语言的相似性 蛋白质相互作用位点预测 远程同源性和折叠检测 资源 数据库 工具,定义,Bioinformatics由来 生物信息学之父Hwa A. Lim博士 CompBio bioinformatique bio-informatics(bio/informatics) bioinformatics,意义,蛋白质序列,蛋白质结构,数据指数级增长 增长的不平衡性,研究方向,DNA序列分析 基因识别 系统发生行为分析(进化树) 蛋白质
2、结构和功能预测 基因芯片 数据挖掘和基因表达调控信息分析 基因组功能预测 支撑蛋白质组学和各种“组学”研究 利用生物分子的结构信息参与创新药物的设计 生物学虚拟实验模型的构件,DNA介绍,碱 基,碱 基 配 对,DNA的空间结构,蛋白质介绍,20种标准氨基酸的英文简写,肽键,本实验室的人工智能技术和自然语言处理技术在生物信息学中的应用,采用Ngram寻找蛋白白质序列和自然语言的相似性 采用条件随即域(CRF)解决蛋白质相互作用位点预测问题。 采用N-gram, binary profile和N-nary profile模型结合支持向量(SVM)机解决蛋白质远程同源性和折叠识别的问题。 采用潜在
3、语义分析(LSA)提高远程同源性检测效果。,蛋白质序列和自然语言的相似性,蛋白质序列和自然语言的相似性,Dong et al. N-gram Statistics and Linguistic Featrues Analysis of Whole Genome Protein Sequences. Journal of Harbin Institute of Technology. 2004 在此论文中,探索了蛋白质和自然语言之间的关系。,N-gram,例子: SVYDA其中包含的3-gram为: SVY VYD YDA,N-gram 比较分析(人),N-gram 比较分析(褐家鼠),蛋白质组
4、的Zipf定律分析,Zipf定律:对数形式的Zipf定律为:,Zipf定律分析 (人),蛋白质序列和自然语言的关系,蛋白质相互作用位点预测,基于CRF的蛋白质相互作用位点预测,蛋白质相互作用位点预测研究内容 蛋白质相互作用位点预测的意义 为什么采用CRF进行相互作用位点预测 CRF模型 实验结果分析,蛋白质相互作用位点预测研究内容,相互作用位点预测的任务,A R N D C Q E G H I L K M F P S T,W Y V,.,0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0,蛋白质相互作用位点预测的意义,识别相互作用的位点可以帮助构建蛋白质复合体的分子
5、结构模型。与此同时,蛋白质相互作用位点的研究对理解生物体活动机制、蛋白质功能研究、疾病诊断和药物研究有重要意义。,为什么采用CRF进行相互作用位点预测,蛋白质一级结构是一个序列 传统的相互作用位点预测方法都是基于分类的方法,忽略了序列相邻的或者空间相邻的残基对于形成相互作用的接口具有相似的倾向。 为了引入相邻残基间的相互影响的信息,采用了基于序列标记的方法(CRF)。,CRF模型,yi-1,yi,yi+1,X (x1,x2,xi-1,xi,xi+1,xn),链状条件随机域模型,转移特征,状态特征,特征定义,转移特征序列谱状态特征残基的溶剂可接触面积状态特征残基的保守性状态特征,实验结果分析:预
6、测示例,SMC1HD:SCC1-C复合体,CRF预测结果,支持向量机预测结果,正确位点,实验结果分析:预测示例,Ribosomal subunit 30S复合体,CRF预测结果,支持向量机预测结果,正确位点,实验结果分析:预测示例,Sreptococcal pyrogenic enterotoxin C(SpeC)复合体,CRF预测结果,支持向量机预测结果,正确位点,远程同源性和折叠检测,远程同源性和折叠检测研究内容,蛋白质可按其结构和进化关系进行分类。目前广泛使用SCOP 数据库定义的分类体系,包含三个主要层次:家族(family)、超家族(superfamily)和折叠(fold)。 依靠
7、蛋白质一级结构将其按照结构和进化关系进行分类。,意义,在比较建模和折叠识别中,都需要识别和待测序列具有同源性的蛋白质作为模板。因此根据序列来探测蛋白质的同源性是蛋白质结构预测中的重要步骤。,蛋白质同源性检测方法示意图,蛋白质向量化方法,N-grams Binary profiles N-nary profiles,Binary profiles,N-nary profiles,统计方法,统计方法可衡量特征t和类别c之间的相关性。特征t相对于类别c的 值定义如下,潜在语义分析(LSA),用于自动实现知识提取和表示的理论和方法,通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。,采用
8、LSA的可能性,实验结果分析(远程同源性检测结果),实验结果分析(折叠检测结果),远程同源性检测结果(roc50分布),折叠检测结果(roc50分布),核酸序列数据库 (cont.),国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/ 人类基因组数据库 GDB http:/www.gdb.org/ E
9、nsembl http:/www.ensembl.org/ 其他模式生物基因组数据库 鼠基因组数据库 MGD http:/www.informatics.jax.org/ 酵母基因组数据库 SGD http:/genome-www.stanford.edu/Saccharomyces/ 表达序列标记数据库dbEST http:/www.ncbi.nlm.nih.gov/dbEST/ 序列标记位点数据库 dbSTS http:/www.ncbi.nlm.nih.gov/dbSTS/ 面向基因聚类数据库UniGene http:/www.ncbi.nlm.nih.gov/UniGene/,蛋白质序
10、列数据库,PIR http:/pir.georgetown.edu/ SWISS-PROT http:/www.expasy.ch/sprot/sprot-top.html TrEMBL http:/www.ebi.ac.uk/trembl/ UniProt Includes PIR, SWISS-PROT, TrEMBL http:/www.uniprot.org/,生物大分子结构数据库,PDB http:/www.rcsb.org/pdb/home/home.do MMDB http:/130.14.29.110/Structure/MMDB/mmdb.shtml,PDB,其他生物分子数据
11、库,单碱基多态性数据库dbSNP http:/www3.ncbi.nlm.nih.gov/SNP/ 蛋白质结构分类数据库SCOP http:/scop.mrc-lmb.cam.ac.uk/scop/ 蛋白质二级结构数据库DSSP http:/www.sander.embl-heidelberg.de/dssp/ 蛋白质同源序列比对数据库HSSP http:/www.sander.embl-heidelberg.de/hssp/ 人类遗传数据库OMIM http:/www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM 蛋白质指纹数据库PRINTS h
12、ttp:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/ 基因启动子数据库EPD http:/www.epd.isb-sib.ch/ 转录调控区域数据库TRRD http:/wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/ 转录因子数据库TRANSFAC http:/transfac.gbf.de/ 基因本体数据库GO http:/www.geneontology.org/ 生物、医学文献数据库PubMed http:/www.ncbi.nlm.nih.gov/ 人、鼠基因表达数据库BODYMAP http:/bodymap.ims.u-tok
13、yo.ac.jp/ 序列模式数据库PROSITE http:/www.expasy.ch/prosite/ 目录数据库DBCat http:/www.infobiogen.fr/services/dbcat/,其他资源,北京大学生物信息中心 (欧洲分子生物学网络EMBNet的中国节点和亚太生物信息学网络(APBioNet)中国节点) http:/ The Canadian Bioinformatics Resource http:/www.cbr.nrc.ca/ Human Genome Working Draft http:/genome.ucsc.edu/ TIGR (The Instit
14、ute for Genomics Research) http:/www.tigr.org/ Celera http:/ (Model) Organism specific information: Yeast: http:/genome-www.stanford.edu/Saccharomyces/ Arabidopis: http:/www.tair.org/ Mouse: http:/www.jax.org/ Fruitfly: http:/www.fruitfly.org/ Nematode: http:/www.wormbase.org/ Nucleic Acids Research
15、 Database Issue http:/nar.oupjournals.org/ (First issue every year),常用软件,Database interfaces Genbank/EMBL/DDBJ, Medline, SwissProt, PDB, Sequence alignment BLAST, FASTA Multiple sequence alignment Clustal, MultAlin, DiAlign,PSI-Blast Gene finding Genscan, GenomeScan, GeneMark, GRAIL Protein Domain a
16、nalysis and identification pfam, BLOCKS, ProDom, Pattern Identification/Characterization Gibbs Sampler, AlignACE, MEME Protein Folding prediction PredictProtein, SwissModeler,研究中的一些体会,发现问题 紧紧围绕实验室的技术 在试验中发现问题,解决问题。Sun说过“没有失败的试验,只有放弃的试验”。,相关文章,Dong Qiwen, Wang Xiaolong, Lin Lei. N-gram Statistics and
17、 Linguistic Features Analysis of Whole Genome Protein Sequences. Journal of Harbin Institute of Technology. 2004. Li MH, Lin L, Wang XL, Liu T: Protein-protein interaction site prediction based on conditional random fields. Bioinformatics (2007). Dong QW., Wang XL. and Lin L.: Application of Latent Semantic Analysis to Protein Remote Homology Detection. Bioinformatics. 22, 285-290 (2006). Liu B, Lin L, Wang XL, Dong QW, Wang X: A discriminative method for protein remote homology detection based on N-nary profiles. BIRD08 (2008). 孙之荣译,后基因组信息学 ,清华大学出版社.,谢谢!,欢迎您的批评指正,