1、基于计算方法的抗菌肽预测 曹隽喆 顾宏 大连理工大学控制科学与工程学院 摘 要: 抗菌肽是由生物体免疫系统所产生的能抵抗微生物感染的一种小分子多肽, 因其具有高效低毒的广谱抗菌活性且几乎无耐药性问题, 被看做是抗生素的最佳替代品, 对解决抗生素滥用问题具有重要的意义.抗菌肽预测是生物信息学的一个重要研究内容, 对抗菌肽及其抗菌功能进行预测能有效帮助了解抗菌肽的作用机理, 为抗菌肽药物的设计和改造提供理论依据.基于计算方法的抗菌肽预测是采用数学理论、计算机技术和生物信息学方法, 通过对抗菌肽数据的分析来挖掘出抗菌肽的生物特征和抗菌活性之间的关联, 从而自动地对抗菌肽的类别做出推断.由于不依赖于生
2、物实验, 而是依靠有效的算法和计算机的高速计算能力来完成预测工作, 计算方法具有高效快捷、成本低廉等特点, 且具有良好的可操作性和批量处理能力, 非常适合大规模预测任务, 因此已经引起了国内外学者越来越多的关注.文中对国内外的相关研究成果进行了阐述和总结, 包括抗菌肽生物信息数据库、主流的预测方法和预测方法的性能检验等.抗菌肽数据库是专门针对抗菌肽建立的数据库, 收录了大量的抗菌肽数据, 使用者不仅可以从中提取所需要的信息, 还可以使用数据库所提供的各类在线工具对数据进行处理.文中对常见的一些抗菌肽数据库进行了介绍, 给出相关数据库的数据收录情况、功能特点和网址链接等, 以方便读者查询使用.接
3、着文中介绍了目前主要使用的抗菌肽预测方法, 包括基于经验分析的预测方法和基于机器学习的预测方法, 前者是根据已知的经验规则或者模式对某类抗菌肽的一些生化属性和抗菌活性之间的关联进行统计或建模来对该类抗菌肽进行识别, 而后者则是利用机器学习技术, 通过对抗菌肽的已知数据信息进行学习, 建立合理的预测算法从中找出抗菌肽的特点和规律, 并将其推广到未知多肽数据来进行预测.随后文中又给出了预测方法的评估方法和评价指标, 这些性能检验结果既是评估一个方法预测性能好坏的标准, 又是与其他方法进行比较的依据.最后, 文中对抗菌肽预测的发展进行了思考和讨论, 并展望了未来的研究方向.关键词: 抗菌肽预测; 计
4、算方法; 特征提取; 机器学习; 算法设计; 作者简介:曹隽喆, 男, 1984 年生, 博士, 讲师, 主要研究方向为机器学习、数据挖掘、生物信息学.E-mail:.作者简介:顾宏, 男, 1961 年生, 博士, 教授, 主要研究领域为机器学习、生物信息学、大数据技术.E-mail:.收稿日期:2016-05-27基金:国家自然科学基金 (61502074) A Review on Prediction of Antimicrobial Peptides Based on Computational MethodsCAO Jun-Zhe GU Hong School of Control
5、Science and Engineering, Dalian University of Technology; Abstract: Antimicrobial peptides represent a diverse class of natural small peptides derived from innate immune system of organisms to combat microorganism infection, and are considered as the best potential candidate substitution of antibiot
6、ics because antimicrobial peptides have properties of high efficiency, low toxicity, broad spectrum antimicrobial activity without drug resistance.Prediction of antimicrobial peptides is an important part of bioinformatics.Predicting antimicrobial peptides and their functional information can assist
7、 to comprehend their mechanism and provide theoretical supports for designing and improving antimicrobial peptide medicines.By using mathematical theory, computer technology and bioinformatics method, prediction of antimicrobialpeptides based on computational methods analyzes antimicrobial peptide d
8、ata to explore the connection between the biological feature and antibacterial function of antimicrobial peptides, to make decisions automatically for the samples attribution.Being independent of biology experiments, the computational method relies on the effective algorithms as well as the computin
9、g power of computers to perform the prediction missions, therefore, this kind of approach is low-cost, efficient, fast, and has excellent operability and processing batch ability to be quite proper for dealing with predicting tasks under large scale data, and then it has already attracted more and m
10、ore attentions of both domestic and foreign scholars.This paper summarizes related researches at home and abroad, including antimicrobial peptide databases, current predicting methods for antimicrobial peptides, and the performance validation of prediction methods.The antimicrobial peptide databases
11、 are a class of databases specially created for researching antimicrobial peptides, which collect a mass of antimicrobial peptide data including information on antimicrobial peptides amino acid residue sequences, sources of the recorded data, activities as well as functions and beyond.In addition, t
12、he users of these databases can not only download and extract the information they need but also process data by using the various online analysis tools provided by the databases.This article introduces some main open-access antimicrobial peptide databases, presents their current inclusion of collec
13、ted data, sample categories, functions, characters, Web sites with links, and so on, to provide convenience and guidance for readers when they try to use these databases. And then some mainstream methods for predicting antimicrobial peptides are proposed, including the approaches based on empirical
14、analysis and the ones based on machine learning.The empirical analysis method gathers statistics of data and establishes a mathematical model for the connection between some antimicrobial peptides biochemistry properties and antimicrobial activities, according to known experiences, rules or pattern,
15、 to recognize this kind of antimicrobial peptides.And the machine learning method aims to mine and learn existing data information in the databases to design a proper algorithm, and finds out the antimicrobial peptides features and laws, and then extends the relevance to unseen peptide samples to de
16、duce their functions for prediction.After that, this paper also introduces the model evaluation methods and validation criterions, which can both evaluate the performance of a prediction approach and provide a reference for comparing the effects of different algorithms.Finally, we discuss the develo
17、pment of antimicrobial peptides prediction, and propose some meaningful research directions in future.Keyword: antimicrobial peptide prediction; computational method; feature extraction; machine learning; algorithm design; Received: 2016-05-271 引言抗菌肽 (Antimicrobial Peptides, AMPs) 1是一类具有天然抗菌活性的小分子多肽
18、, 具有广谱高效的抗菌活性, 且不会使病菌对其产生耐药性2-6.因此, 抗菌肽被认为是抗生素的最佳替代品, 对解决日益严重的抗生素滥用问题具有十分重要的意义, 在制药、食品、基因工程、农业和养殖业等多个领域具有远大的应用前景和发展价值7-8.然而, 目前关于抗菌肽作用机制的理论依据较为缺乏, 抗菌肽以何种机制杀死病菌、具体的作用过程如何、哪些特征对抗菌活性具有重大影响等关键问题至今依然没有完全弄清楚9, 这对抗菌肽的人工制备造成了很大的困难.尤其是近年来一些抗菌肽被发现具有多效抗菌活性, 能够同时对多种不同类型的微生物都具有杀灭效果, 比如银屑素10能同时杀灭大肠杆菌和丝状真菌, 而乳铁素11
19、则对细菌、真菌、病毒、癌细胞都有抑制和抵抗作用.这类多效抗菌肽具有更加广泛强效的抗菌能力, 在临床应用上具有更强的实用性, 但其作用机理更加复杂, 人工改造和设计更为困难, 特别需要深入地探索和研究.为了能充分了解抗菌肽的相关知识, 对抗菌肽进行预测是探索抗菌肽作用机制和规律的重要途径.为了从多肽中发现抗菌肽, 传统的方法是采用实验手段对多肽进行处理, 通过观测其是否具有抗菌活性来得到识别结果, 这类实验方法虽然识别的准确率较高, 然而过程却比较复杂, 需要耗费大量的人力、费用和时间, 且无法对抗菌肽的活性进行预测.随着高通量蛋白质组学的发展, 蛋白质和多肽序列数量急剧增长, 人们需要从海量多
20、肽样本中鉴别出有效的抗菌肽, 并对其潜在的抗菌活性进行科学预测, 而实验方法因其固有的缺陷已经远远无法满足需求, 因此迫切需要找到其他行之有效的方法对抗菌肽的功能信息加以识别和预测12.而随着生物信息学近年来的迅速发展, 基于计算方法的智能预测成为目前解决上述问题最为有效的手段13.计算方法是通过对数据库中数据信息的提取和挖掘, 采用智能计算的方式, 将实际的生物预测问题抽象成为数学问题, 并建立相关的算法来处理.计算方法不仅具有精度高、成本低、高效快捷等优点, 而且相应的生物信息数据库和各类计算工具还具有良好的可操作性和批量处理能力, 能够为相关研究者提供方便自由的服务.更为重要的是这些方法
21、能够挖掘到数据中隐含的信息, 提炼出不易发觉的规律和关联.机器学习、数据挖掘和模式识别等计算方法已经被广泛应用在蛋白质亚细胞定位预测、基因识别等诸多分子生物学问题中, 并取得了良好的成果.计算方法也十分适用于抗菌肽的预测问题.很多研究表明, 与其他多肽相比, 抗菌肽不仅具有一些独特的结构特征和序列模式, 抗菌肽之间还存在某些共性14.例如文献15针对抗菌肽的一级结构, 分析了多条抗菌肽序列 N 端和 C 端前 15个氨基酸残基的构成 (如图 1 和图 2 所示) , 发现抗菌肽的 N 端通常富含亮氨酸、丙氨酸等非极性氨基酸, C 端则通常富含赖氨酸、甘氨酸等极性氨基酸.而抗菌肽和非抗菌肽的序列
22、组成则有着较为明显的区别, 如图 3 所示, 抗菌肽序列中的半胱氨酸、甘氨酸等非电离极性氨基酸的含量高于非抗菌肽, 而天冬氨酸、谷氨酸等酸性氨基酸含量则低于非抗菌肽.另外, 各类抗菌肽在两亲性和电荷性等方面具有一定相似性16, 而不同抗菌肽间的活性差异则与其氨基酸残基排列方式、肽链结构等关系密切17, 某些特定的氨基酸组合或蛋白质二级结构也常出现在特定功能的抗菌肽中, 而一些特殊位置上的氨基酸残基则具有很强的保守性18.图 2 抗菌肽 C 端前 15 个位点上的氨基酸残基序列标识15, 残基标识的大小为氨基酸在该位点出现的倾向性指数, 该指数越大表示该氨基酸被分配到该位点的可能性就越大图 3
23、抗菌肽和非抗菌肽的氨基酸组成总体比较15 下载原图虽然实验方法会揭示抗菌肽的某些性质, 但哪些性质是抗菌肽所独有的, 而哪些是与其他多肽类所共有的往往很难直观地确定, 很可能多种不同性质融合在一起才能产生抗菌肽独特的模式, 一些潜在的关联也无法通过实验来获取.而计算方法则通过对抗菌肽数据的挖掘来抽取出有效信息, 并对此进行学习、分析和预测, 找出实验方法难以发现的内涵性规律, 建立起多肽特征与抗菌活性之间的关联关系, 深层次地探索、挖掘和理解抗菌肽的本质信息.因此, 预测的最终目的不是对实验结果的简单统计和总结, 而是要从已知现象出发推断出未知的功能和构象, 这才是计算方法的最大优势所在.随着
24、生物信息学的不断发展, 基于计算的抗菌肽预测研究也取得了长足进步, 国内外出现了各类卓有成效的成果.由于实现预测主要的两点是数据和方法, 因此现有的成果主要就集中在建立抗菌肽数据库和设计有针对性的预测算法这两方面, 而预测算法则又可以分为基于经验分析的方法和基于机器学习的方法这两大类.这些学术成果结合抗菌肽数据信息, 将数学、统计学、计算机科学、信息技术等与分子生物学相结合, 成为预测抗菌肽各类功能的有效工具.总体来说, 国际上与抗菌肽预测问题相关的研究成果相对多一些, 而国内见诸报道的成果则相对较少, 本文主要对抗菌肽数据库和预测算法方面的国内外研究进展进行介绍.2 抗菌肽生物信息数据库分析
25、预测离不开数据, 过去的十多年里国内外研究人员陆续建立了多个抗菌肽数据库, 收录了大量的抗菌肽数据.使用者不仅可以从中提取所需要的信息, 还可以使用数据库所提供的各类工具对数据进行处理.大型蛋白质数据库 UniProt19和 PDB20就收录了多条具有抗菌功能的蛋白质, 绝大部分抗菌肽都可以在这些蛋白质中找到, 并且其收录的数据通常都具有经人工检验过的信息来源和功能注释.但是这两个数据库主要收录的是蛋白质, 通常不能直接用于预测, 而是需要合理地拆分蛋白质肽链才能提取出有效的短链抗菌肽序列.因此有很多研究人员专门为抗菌肽研究建立了抗菌肽数据库, 这些数据库中收录的都是能够直接用于预测的抗菌肽序
26、列.抗菌肽数据库按收录内容可分为综合数据库和专题数据库两类, 综合数据库收录了各种来源各种类型的抗菌肽数据, 而专题数据库则根据研究角度的不同只收录特定的抗菌肽数据.主要的综合数据库包括 APD21-23、DBAASP24和 CAMP25-27等, 这些数据库数据量往往较大且含有多种类型的抗菌肽数据, 并提供了抗菌肽的查询、序列比对、预测和分析等多种功能和工具.专题数据库则针对某类专门的抗菌肽而建立, 主要是为了研究特定类型的抗菌肽, 如研究抗病毒肽的 AVPdb28、研究抗肿瘤肽的 CancerPPD29、研究抗寄生虫肽的 ParaPep30、研究防御素的Defensins31, 以及研究抗
27、 HIV 病毒肽的 HIPdb32等.此外, 也有根据抗菌肽来源而建立的数据库, 例如专门收录蛙类来源抗菌肽的 DADP33等.与综合数据库相比, 专题数据库由于限定了研究范畴因此收录的数据量相对较小, 但是对抗菌肽的描述和分析则具有较强的针对性, 更适用于对特定抗菌肽的研究.我国目前关于抗菌肽的数据库还比较少, 比较有代表性的是上海复旦大学遗传工程国家重点实验室建立的综合数据库 LAMP34.一些常见的抗菌肽数据库如表 1 所示, 这些数据库存储了基本的抗菌肽数据, 通常会记录抗菌肽的氨基酸序列、物理化学性质、抗菌功能等注释信息, 并对数据进行了初步的统计和分析.一些数据库中还包含了序列比对
28、工具来衡量目标多肽与已收录的抗菌肽之间的相似度, 在样本较为有限的情况下, 这些工具能够为寻找抗菌肽特征及其家族分类提供有用的信息.部分数据库则提供了预测工具, 但主要是用于鉴别抗菌肽和非抗菌肽.不过, 目前的抗菌肽数据库的功能还是较为简单, 所包括的与序列分析和药物发现相关的工具还非常欠缺, 这方面的工作还需要进一步增强.随着预测方法的发展, 整合各个实验室的数据, 建立数据量和功能更加丰富的标准化数据库, 将会为抗菌肽预测方法的深入研究提供更为有力的保障.表 1 常见的抗菌肽数据库 下载原表 3 基于经验分析的抗菌肽预测方法基于经验分析的方法是根据已知的经验规则或者模式对一类抗菌肽的某些生
29、化属性和抗菌活性之间的关联进行统计或建模, 利用验证的方式识别出该类抗菌肽.这种方法主要利用同类抗菌肽样本进行训练, 通常没有非抗菌肽和其他类别抗菌肽的参与, 主要的预测方式是从待测多肽样本中识别并挑选出模型所描述的该类抗菌肽, 一般没有通用的量化指标对这类方法的性能进行统一地评估和比较, 下面介绍一些有代表性的方法.3.1 基于序列比对的方法序列比对是一种将两条或多条序列按照一定规律排列并进行对比的序列分析方法, 其基本思想是找出待测序列和数据库 (或训练集) 中目标序列的相似性.基于序列比对的抗菌肽预测是将多肽的氨基酸序列看成由基本字符组成的字符串, 把待测序列同数据库中已收录的抗菌肽序列
30、按照一定的规律排列在一起进行比较, 并以字符的异同作为预测的依据.通过序列比对可以搜索相似序列, 并利用相似性进行同源性分析.比对过程中需要在检测序列或目标序列中引入空位, 以表示插入或删除, 如图 4 所示.序列比对, 用字符表示相同的残基, “-”表示允许此处插入或删除残基以保证比对残基数目匹配, “+”表示相似残基序列比对的数学模型大体可以分为两类, 一类是从全长序列出发, 考虑序列整体相似性的整体比对, 另一类是考虑序列部分区域相似性的局部比对.抗菌肽大多是由较短序列片段组成的, 其功能位点的序列具有相当大的保守性, 局部相似性比对往往较之整体比对具有更高的灵敏度, 其结果也更具有生物
31、学意义, 因此用于抗菌肽预测的序列比对方法通常采用局部比对.目前最常用的序列比对工具主要包括基于局部相似性的比对搜索程序 FASTA38、BLASTP39, 基于多次双序列两两比对的渐进多序列比对程序 CLUSTALW40, 基于动态规划的 Smith-Waterman 算法41, 以及基于谱隐马尔可夫模型的序列分析工具 HMMER42等.通过序列比对方法, 检验待测多肽序列与数据库中的抗菌肽序列的相似性, 就可以对抗菌肽进行预测.抗菌肽的预测问题中主要采用的是双序列比对程序 BLAST 中用于蛋白质序列比对的算法 BLASTP.Wang 等人43采用 BLASTP44算法是比较有代表性的一种
32、方法, 通过比对待测序列与训练集中的短序列来发现最佳匹配序列来进行预测.该方法先利用 BLASTP 程序进行 scanning 来确定匹配片段, 序列的匹配程序由短序列 (word) 的联配得分总和来决定.短序列的每个碱基均被计分:碱基对完全相同的得较大正值, 不太匹配的得较小正值, 完全不匹配的得负值, 最后将各碱基对的分值相加, 得分高的匹配序列称为高比值片段对 (High-Scoring Segment Pairs, HSP) , 最后根据总得分高低来判断序列间的相似程度.对于一条待测多肽序列 P 和训练集P 1, P2, , Pn, 如果 P 和某一个训练样本 Pk的HSP 值 (Sc
33、ore) 满足式 (1) , 则认为 P 和 Pk属于同一类别;若超过一个训练样本都满足式 (1) , 则 P 的类别在匹配的训练样本中随机进行分配.Ng 等人45也采用类似的序列比对方法来预测抗菌肽, 主要区别在于该方法先将训练集按类别分为正样本集合和负样本集合, 然后将待测样本分别在两个集合上进行 BLASTP 序列比对得到两组中的最大 HSP 值, 在哪个集合上得到的 HSP值大, 就表示待测样本与该集合上全体样本的相似程度更高, 并推断该样本与该集合的类别相同.上述两种序列比对方法比较依赖于训练集的规模和类别丰富程度, 对于某些特殊的待测样本会出现该样本与训练集中全部样本都不相似, 即
34、匹配度为零的情况, 此时不能得到 HSP 值造成无法预测, 只能再采用其他方法来处理, 比如文献43和45分别采用了特征选择方法和 LZ 复杂度方法来应对这一情况, 但都没序列比对方法的精度高.一般来说, 采用序列比对方法时, 训练集中的抗菌肽种类和数量越多, 出现无法预测的概率就越低, 预测的精度也会越高.抗菌肽数据库由于收录了大量的抗菌肽数据, 非常适合序列比对方法, 因此抗菌肽数据库自身提供的预测工具大多基于序列比对方法而建立, 通过比对数据库自身的抗菌肽序列来实现预测.比如 APD23、YADAMP35数据库的预测工具就采用了 BLAST 序列比对程序进行抗菌肽的预测, 如果发现待测样
35、本具有与抗菌肽序列相似的特征 (比如某些疏水性残基有规律地出现在一些位点中) , 就推断该多肽具有很高的概率为抗菌肽.此外, Xiao 等人46使用 ClustalW 多序列比对程序来鉴别从鸡肉组织中提取的 cathelicidin 族多肽的潜在抗菌性, 他们将待测样本与全部已知的cathelicidin 前体细胞中的氨基酸序列进行 ClustalW 算法比对.该方法先两两比对计算样本间氨基酸差异来得到各个样本之间的距离并获得距离矩阵, 再利用邻接法 (Neighbor-Joining) 47构建引导树, 根据引导树从最相近的两条序列开始, 逐步引入临近的序列并反复重建比对, 渐进地比对多个序
36、列, 最终成功鉴别出三条新的鸡类 cathelicidin 抗菌肽.基于序列比对的预测方法简单直观, 相对易于实现, 但是如何给出一个合理优化的相似性度量准则目前还没有很好的标准, 而且对于分歧较大的序列, 预测的准确率以及算法的时间复杂度也都有待提高.另外, 如果出现与训练数据匹配度极低的样本, 该方法只能借助于其他方法来解决.3.2 基于定量构效关系的方法定量构效关系 (Quantitative Structure-Activity Relationships, QSAR) 建模48是另一种常见的基于经验分析的预测方法, 该方法是通过对一系列抗菌肽的结构或理化性质的定量描述, 借助数学和统
37、计学方法建立抗菌活性和 QSAR描述子 (即多肽分子表征) 之间的量化模型, 预测时输入待测样本的相关参数通过计算来求得相应指标数值, 以此来确定变量之间相互依赖的定量关系, 从而检验待测样本是否符合模型描述.抗菌肽的 QSAR 预测方法基本上可分为以下 5 个步骤:(1) 选择一系列已知的抗菌肽;(2) 对抗菌肽进行生物活性的测定;(3) 进行抗菌肽结构的定量表征;(4) 建立数学模型, 确定化学结构与生物活性之间的函数关系;(5) 对待测样本进行模型检验以预测其抗菌性.抗菌肽的 QSAR 预测方法利用计算机对抗菌肽的信息进行数学分析, 利用数学模式来描述抗菌肽分子结构的结构参数、理化参数与
38、抗菌性质之间的相互关系.定量构效关系方法的核心在于如何建立 QSAR 模型, 包括抗菌肽结构的表征方法、理论模型的推导方法和函数关系的建立等.常见的结构表征方法包括分子连接性方法、电拓扑状态指数方法、分子形状分析方法等;主要的建模方法则包括多元线性回归、主成分分析、偏最小二乘法等49.早期的 QSAR 方法大多局限于对单独的一类抗菌肽进行建模, 采用的描述子比较简单但更有针对性.比如 Strm 等人50用根据 20 个乳铁素抗菌肽与 -螺旋和静电荷等相关的 12 种描述子建立了 QSAR 模型;类似地, Frecer51使用了25 种不同的描述子建立了环形抗菌肽模型;而 Hilpert 等人5
39、2则使用 51 种描述子建立了短抗菌肽的 QSAR 模型;重庆理工大学的 Shu 等人53使用主成分分析法得到拓扑结构描述子, 结合偏最小二乘法建立了关于牛科动物抗菌肽的QSAR 模型.上述这些模型根据各自的研究对象采用有针对性的生化指标即 QSAR 描述子, 虽然对于特定类别的抗菌肽具有不错的预测能力, 但只能反映同类抗菌肽的特性, 预测的范围和规模十分有限.为此 Cherkasov 团队的一系列研究15,54-55采用了多肽可以通用的诱导描述子 (Inductive Descriptors) , 以绝对电负性、共价半径、分子间距离等与诱导效应相关的原子规模信息作为参数, 建立了多肽分子内和
40、分子间相互作用与抗菌活性之间的 QSAR 模型.该方法考虑抗菌肽的化学中性分子的电负性特征, 将分子中的带电原子球作为原子电容器来研究, 这样抗菌肽性质描述参数就能够通过基本的原子参数来表示, 如原子的电负性 X, 共价半径 R 和分子间距离 r, 这样抗菌肽分子间的相互作用就可以用带电原子间的相互作用模型来定量地描述, 比如由 n 个原子组成的原子团 G 对第 j 个原子关于原子空间 Rs 和诱导因子 的关系就可以由效应式 (2) 和 (3) 来计算:类似地, 该方法引入 50 个抗菌肽分子的诱导描述子, 并分别找到它们的电负性函数关系来建立 QSAR 模型, 并以此刻画抗菌肽分子特性.预测
41、时, 将待测多肽的相关参数代入模型, 通过观察比对其电负性特征来判断其是否具有抗菌性.定量构效关系方法是建立在实验基础上, 从抗菌肽的分子结构和能量特性等要素出发, 将抗菌肽的抗菌活性看做是其原子和基团间相互作用的外在表现, 具有较高的预测精度.但是由于抗菌肽物质结构相对复杂, 导致 QSAR 模型的计算复杂度较高, 并且受到了分离、纯化和合成等生化技术发展的制约, 定量关系构效方法目前只能基于已确定的抗菌肽样本进行建模, 通常只能应用于对特定类别的抗菌肽进行建模, 无法用于大规模多类别的抗菌肽预测, 而且模型的物理意义比较模糊.3.3 基于模糊逻辑模型的方法模糊逻辑模型是一种通过定义模糊集合
42、和规则库, 根据需要将因变量作为独立变量的一个函数, 从而对因变量进行预测的方法.Mikut 和 Hilpert56提出了一种将模糊逻辑引入到分子描述子的表达中来分析抗菌肽的方法, 并通过模糊规则来描述抗菌肽的性质.该方法先将多肽分子的一些理化特性按照相关的数值展开为一个实值向量, 例如对于长度为 n 的多肽 P, 其第 l 种物化性质为亲水性, 则其亲水性可以表示为一个由其各个氨基酸的亲水性指数组成的向量:然后将该向量转化为模糊集 上的隶属度值, 计算时采用梯形隶属度函数, 并将多肽中各氨基酸的隶属度按下式求出均值:作为多肽 P 在第 l 个物化性质上的隶属度函数值.该值介于 0 和 1 之
43、间, 值为 0表示该序列中没有任何氨基酸具有该特性, 而值为 1 则意味着全部氨基酸都具有这个属性.因此对于一个给定长度的多肽, 属性能够根据若干个氨基酸的函数来计算推断, 这样就可以使用简单的规则来刻画抗菌肽的活性.该方法对于区分有活性和无活性的多肽具有较好的预测准确度.此外, Fernandes 等人57也提出了一种基于模糊模型的抗菌肽分类方法, 他们研究发现抗菌肽的一些物化性质与其抗菌性之间存在着模糊模式, 因此他们通过一个模糊推断系统建立了与多肽两亲性相关的“if-then”规则来获取隶属度函数, 从而得到输入-输出映射, 从而对多肽做出鉴别.进一步地, 该团队将这一模糊模型同自适应神经网络相结合, 建立了用于抗菌肽预测的自适应神经-模糊推理系统58.基于模糊逻辑的方法不需要建立精确的数学模型, 模糊规则相对比较简单, 易于实现.但隶属度函数的建立缺乏系统的方法, 主要依赖经验和试凑, 难以总结统一的规则, 对不同类型的抗菌肽样本往往需要构造新的模糊模型, 方法的泛化性不强.模糊逻辑的计算可以使用开源 MATLAB 工具箱 GaitCAD (http:/ 来实现.3.4 基于语言模型的方法