1、生物信息学在基础科学、药物开发及临床中的应用,张健 医药生物信息学中心 (Medicinal Bioinformatics Center) 上海交通大学医学院,生物信息学-Bioinfomatics,生物信息学是现代生物医药技术发展的必然需求,生物信息学研究方法,数据库,网络服务器,搜索引擎,生物信息学研究方法来自于数理信息学技术的拓展,医药生物信息学中心上海交通大学医学院,高校/科研单位/医院/高科技公司,基因/蛋白/相互作用网络/小分子,转化医学,培训,服务,生物信息学重要数据库,NCBIUniProt/SwissProt PDB/SCOPHPRD/DIPKEGGPubChemBindin
2、gDB DrugBank/TTDThomsonReutersWeb of Science,生物信息学重要数据库-NCBI,http:/www.ncbi.nlm.nih.gov,生物信息学重要数据库-NCBI,生物信息学重要数据库-NCBI,生物信息学重要数据库-NCBI,生物信息学重要数据库-UniProt/SwissProt,http:/web.expasy.org/docs/swiss-prot_guideline.html,生物信息学重要数据库-SwissProt,生物信息学重要数据库-PDB,生物信息学重要数据库-PDB,生物信息学重要数据库-HPRD,生物信息学重要数据库-KEGG,
3、生物信息学重要数据库-KEGG,生物信息学重要数据库-PubChem,生物信息学重要数据库-PubChem,生物信息学重要数据库-BindingDB,生物信息学重要数据库-DrugBank,生物信息学重要数据库-Thomson Reuters,生物信息学重要数据库-Web of Science,生物信息学基础算法-BLAST,生物信息学基础算法-BLAST,BLAST By Joseph Bedell, Ian Korf, Mark Yandell Publisher: OReilly Pub Date: July 2003 ISBN: 0-596-00299-8Pages: 360Slots
4、: 1.0 http:/ Local Alignment Search Tools 序列局部相似比较,认为有生物意义保守序列,而不一定要全局相似。可以由局部相似得出两序列可能有相同功能或功能相关。 可以进行序列位置定位 要比较的是相似性,不是同源性。根据相似性结合其他证据做出判断。,两条序列匹配比较I种子I,ACGGTTCACGTTCCA ACGGTCACACGGTTCACGTTTCCA ACGGTCAC 得分:1*5=5ACGGTTCACGTTTCCAACGGTCAC 得分1*33分Word size=3 如果word size=4,5 则第二个结果就没有了。 (假设相同就得1分,不同得-3
5、分,出现gap-2分,延伸gap-1分) Word size 就是起始种子,两条序列匹配比较I种子II,ACGGTTCACGTTCCA ACG 1,8 CGG 2 GGT 3 GTT 4,10 TTC 5,11 TCA 6 CAC 7,ACGGTCAC ACG 1 2*1=2 CGG 2 1*1=1 GGT 3 1*1=1 GTC 4 TCA 5 1*1=1 CAC 6 1*1=1共 6对种子,Scoring Matrix,BLOSUM:基于有效氨基酸片段之间的相互替代频率,矩阵构建蛋白数量是PAM的20倍以上, BLOSUM-N中。对于序列相似性越大的比对用较大的N,而序列相似性较小的比对用
6、较小的N。 PAM (Point Accepted Matrix):基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界就接受这种替换,得分就高,1个PAM单位代表一个进化变异单位,即1%氨基酸改变(缺点:家族内成员整体构建,累积误差)。PAM-N中,对于序列相似性越大的比对用较小的N,而序列相似性较小的比对用较大的N。,The neighborhood near RGD,E,两条序列匹配比较II延伸,ACGGTTCACGTTCCA ACGGTCACACGGTTCACGTTTCCA ACGGTCAC 得分:1*5=5ACGGTTCACGTTTCCAACGGTCAC 得分1*33分,两条序列
7、匹配比较III终止,y=4 (1,-3,-2,-1)延伸到第7个碱基的时候达到/超过了y的值,这时候延伸停止,返回去找得分最高的比对,结果就是ACGGT的比对,得分为5,两条序列匹配比较III终止,X=4 (1,-3,-2,-1)延伸到第7个碱基的时候达到/超过了X的值,这时候延伸停止,返回去找得分最高的比对,结果就是ACGGT的比对,得分为5,Dynamic Programing动态规划,Dynamic Programming 允许最适比较,允许插入删除,全局,局部,Dynamic Programming allow Optimal Alignment between two sequenc
8、es Allow Insertion and Deletion or Alignment with gaps Needlman and Wunsh Algorithm (1970) for global alignment Smith & Waterman Algorithm (1981) for local alignment Important Steps Create DOTPLOT between two sequences散点图 Compute SUM matrix矩阵求和 Trace Optimal Path追踪最适途径,Steps for Dynamic Programming,
9、。,Row gap,Column gap,Steps for Dynamic Programming,Steps for Dynamic Programming,Steps for Dynamic Programming,BLAST中序列对库做比较,一条查询序列跟库中每条序列做两条序列的比较,把结果排序,得到了这条查询序列跟库中序列局部匹配比较好的结果 多条查询序列会被分解成单条序列与库中序列比较,得到一条一条查询序列结果的简单累积,BLAST类型,核酸核酸 blastn 蛋白质蛋白质 blastp 核酸T蛋白质 blastx蛋白质核酸T tblastn 核酸T核酸 T tblastx,生物信
10、息学基础算法-BLAST,BLAST主页 http:/www.ncbi.nlm.nih.gov/BLAST/教程 http:/www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.htmlBLAST中的相似性分数的统计学意义http:/www.ncbi.nlm.nih.gov/Education/BLASTinfo/information3.html,医药生物信息学中心上海创新知识中心平台,海量数据生物信息学分析 文本挖掘与智能语言分析 活性药物及靶标数据分析 临床样本及生物信息数据分析 活性化合物筛选及优化,4组曙光48核胖节点服务器 2组惠普128核
11、8路高性能服务器 4组艮泰128核12路高性能服务器 4台GPU 484核工作站,12台惠普12核图形工作站 108台联想生物信息学4核工作站 48台联想计算化学4核工作站 2台GPU 248核工作站,生物医药个性化数据库建设服务 数据库咨询及设计服务 网络数据库发展及数据库整合服务 数据库软件设计及服务 基于数据库的数据分析及应用,医药生物信息学中心,头皮屑易感基因生物信息学分析及定位,2012.10-2013.4,医药生物信息学中心,医药信息浏览习惯,文本挖掘算法,医药信息分类模型,骨科,妇产科,消化科,外科,内科,儿科,专科医生医药信息自动推送引擎,2012.3-2012.9,医药生物信
12、息学中心,表观遗传靶标,表观遗传候选药物,HEMD数据库,活性,适应症,功能,结构,分析,筛选,杭州景杰生物科技有限公司-表观遗传药物开发及靶标数据库,2011.3-2012.12,医药生物信息学中心,药物开发智能管理系统,2010.6-今,医药生物信息学中心,医院口腔肿瘤样本库,临床手术样本,生物分析数据,临床样本库,易感基因,表达谱,芯片分析,分子诊断,2012.12-今,医药生物信息学中心公共服务,面向公共开放的生物医药服务数据库及分析系统,海量数据从整合到挖掘与应用,数据整合,数据挖掘,创新应用,简明的规律永远隐藏在繁杂的数据背后,ASD的数据整合、数据挖掘与应用,ASD的数据整合、数
13、据挖掘与应用,ASD V0.1 2009.8 Allosteric ProteinsV0.4 2010.3 Allosteric DiseasesV1.0 2010.7 Allosteric InteractionsV1.5 2011.6 Update EntriesV2.0 2012.8 DNA&RNA,http:/ (一)-新位点识别,Protein Property Analysis,ASD的数据挖掘 (二)-新作用机制识别,基于知识的别构机制识别方法,ASD的数据挖掘 (三)-新化合物筛选,知识为基础的别构小分子筛选规则,数据规律产生新的应用(一),首个CypA别构激动剂,潜在免疫排斥抑制剂,谢谢,