1、 支持向量机方法在伤寒论方分类建模中的应用作者:孙燕,臧传新,任廷革,李宇航【关键词】 支持向量机;分类;伤寒论支持向量机(Suport Vector Machine,SVM)方法是 20 世纪 90 年代出现的一种新的分类方法,已初步表现出很多优于已有方法的性能。有人把 SVM 方法与其他 16 种已有的方法作了系统的比较,得出 SVM方法最优的结论1。利用支持向量机方法训练得到的分类器具有很好的推广能力,即使训练样本很少,分类器的预测准确率也会很高。1 支持向量机方法SVM 方法是建立在 V.N.Vapnik 等人提出的统计学习理论 (Statistical Learning Theory
2、)2-3基础上的一种新型学习方法,是对结构风险最小化原理的近似。它是统计学习理论中最年轻也最实用的部分,在很多领域得到了成功应用,如人脸检测4、文本分类5、气象预报6 、分子生物学中的基因分类7 等。SVM 分类器的基本原理是使用一个非线性变换,将不可分的空间映射到一个高维的线性可分的空间,并建立一个具有极小 VC 维数的分类器,该分类器仅由大量样本中的极少量支持向量确定,且具有最大的边界宽度。支持向量机算法的技巧在于不直接计算复杂的非线性变换,而是计算非线性变换的点积,即核函数,从而大大简化了计算的过程。因此,统计学习理论和 SVM 方法建立了一套较好的有限样本下机器学习的理论框架和通用方法
3、,有严格的理论基础,其核心思想就是学习机器的复杂性要与有限的训练样本相适用,能较好地解决有限样本、非线性、高维数和局部极小点等实际问题,能建立稳定的预测准确率高的分类器,所以适用于分类模式识别。2 SVM 方法在 伤寒论方分类识别中的应用 自伤寒论问世以来,研究伤寒的著作有千余种,涉及七百余医家。尤其在明清时期,各医家在孙思邈“方证同条,比类相附” 的启发下,运用归类编次的研究方法,从不同的角度充分揭示了伤寒论辨证论治的规律,如按方类证、按法分类、按症类证、按因类证、分经审证等等8,大大丰富和发展了伤寒论的内容。 以上都是医家们人为的分类方法,现在我们利用模式识别的方法从不同的角度、不同的侧面
4、、不同的层次对伤寒论方进行分类训练建模,来尝试对张仲景制方规律和辨证论治规律的机器学习建模,不仅可以用更便于现代人理解的形式再现仲景的思维模式,使中医学的继承和学习更加有效,还可以发现一些隐含的知识,供我们学习借鉴。2.1 数据采集数据来源于刘渡舟主编的伤寒论校注,选择原文中带有方药的条文,将其转换为电子文档并进行预处理后,利用数据库技术导入专门用于“解析 ”和“标引”的“中医方剂数据库”9。2.2 数据一致化处理 由于计算机难以识别不遵循一定模式的数据,不同的表达则认为是不同的知识,而中医学中对同一个药名、药物功效、方名、症状、证候等数据有多种不同的表述方式的现象非常普遍,因此需要对其进行一
5、致化、规范化处理,去除大量数据的噪音影响,保证所得数据具有较好的可信度,所得的结果才能反映真实的规律。 数据预处理是利用“解析” 和“标引”技术,对采集到的伤寒论方剂数据进行处理的过程。所谓“解析”, 实质上就是将文献数据结构化、规范化的过程。我们在“中医方剂数据库” 对一个方剂解析后的字段可达 171 个,其中 22 个大项,149 个子项。主要包括文献位置(书、卷、页、序)、方名、别名、主治病证、方剂组成、方剂功效、制剂工艺、剂型、服用方法、使用禁忌、加减用法、辅助疗法、反应与疗效、病机分析等。所谓“标引”, 即中医学主题词标引,就是用给定的中医学主题词表中的词条,对解析好的数据内容冠以恰
6、当的标识,从而使文献数据标准化、规范化,其目标是把文字媒体的信息解析后并分门别类的加以标识。这样的工作是在一种叫做“文献解析工作单”的电子表格上进行的 ,这是一项十分繁重的、专业性很强的的工作,但是很重要,因为信息解析是整个信息活动的基础,为在大型数据库上进行数据挖掘提供良好的土壤。2.3 伤寒论 方剂功效的宏观量化处理 SVM 方法是完全基于数据的方法,为了与国际通行的软件兼容,笔者采用与SVMLight 类似的数据文件格式10。因此必须对伤寒论方剂功效进行定性定量处理,这也是进行分类训练建模的基础条件。 经过一致化处理后,有关方剂的主要因子,诸如方剂的药物组成及其临床表现症状和体征等数据就
7、可以导入“中医方剂分析系统” 。通过利用近似推理技术实现了方剂有关因子的宏观量化,把定性的语言描述转化为定量的数字表达,提供量值变化的信息提示,可直观、动态地了解方剂组成变化的过程及其影响因素;同时使得每一个方剂因子之间具有了可比性,实现了定性定量的层次,这是目前任何方剂系统都无法做到的。 中医学中存在 “异病同治”的问题,同一个方剂可以治疗不同的疾病和证候,但究竟是方剂的哪些药物功效在发挥作用,目前还没有办法确定。按照中医学的推理规律,一般认为针对不同的体质和病证,同一方剂就会有不同作用趋向,发挥不同的功效。因此笔者根据另一个客观存在的信息方剂治疗的患者的症状/体征,建立了功效-症状 -证候
8、关系库 ,实现了方剂针对具体情况下的证候重聚焦,同时也实现主证、次证自动排序。 这样仅通过对伤寒论方的组成和临床表现,就可以通过机器发现其方剂的功效、适应证候、配伍结构以及整个方剂的综合性、味和归经,同时可以发现该方剂针对的重要症状,为分类模式识别准备了定性定量化的数据。2.4 分类训练对于继承者来说,不能把思路只局限在对某个方剂的认识上,还必须掌握一类方剂的共性特点,发现个性背后的普遍性规律,才能把个性的认识升华到知识的境界去理解,而这种从处方到知识的升华,无疑对中医经验的继承和临床疗效的提高都极具启发性。要实现从处方到知识的升华,只有经过分类处理。 上述的处理结果已经为分类构造了训练和预测
9、因子,首先要对所有因子进行归一化处理,使每一因子的数据落入区间0,1。再选用以径向基函数建立推理试验模型,利用中国气象局培训中心开发的 CMSVM2.0 版本11 的软件作为建模平台,采用逐步筛选的方法确定参数,直至最终确定出用于建立 SVM预测模型的理想参数,进而确定预报模型。 分类可以是多角度的、多维的、非线性的。我们将“中医方剂分析系统” 量化处理的数据结果,从不同的角度如方剂的主治证、治法、病因等对伤寒论方进行训练学习建模,实现对方剂的模式识别。这种分类研究的结果,使得数据的准确性得到了进一步检验,将这些数据应用在大型方剂数据库上,可以强化数据库“主题集合” 的功能;应用在方剂分析软件
10、中 ,可以增加准确分析的力度。3 研究意义和展望 笔者利用业界公认的、临床疗效可靠的伤寒论方进行试验,证明了用 SVM 分类识别方法进行分类建模是成功的。这种方法建立的预测模型可以对我们的方剂库 10 万首方剂从不同的侧面、不同层次进行的预测分类完全实现自动化,解决了长期以来困扰大家的技术问题,由机器完成对未知的方剂进行分类预测,减少了人为干预,结果更加客观,同时节省了大量的人力、物力和财力。 近似推理技术实现了数据因子的量化表达 ,SVM 方法实现了因子之间关系规律的发现,两种技术的结合实现了由解读单个“经验”向发现“知识” 规律的转化。同时也将使中医方剂信息智能分析的能力将得到一个数量级的提高,为方剂组方配伍规律的研究注入新的活力,为挖掘和继承专家临证经验提供了行之有效的方法,这必将推进临床医生学术水平的提高。 中医证候规范化研究是近年来研究的热点和难点,我们这一技术的成功可以为中医证候规范化研究提供可靠的数据。这种基于数据的证候规范化研究,不仅可以提炼证候表现的规律,还可为临床证候的判断提供信息支持。【