1、科技探索争鸣 Science&Technology Vision 科技视界 葡萄酒的模糊聚类及其最佳聚类选择 黄春娥叶志伟孙明星 (北京联合大学生物化学工程学院,中国北京1 00023) 【摘要】已有以品酒员的感官指标来评定葡萄酒质量的方法受品酒员主观因素影响较大,导致葡萄酒质量评定结果存在较大的不确定性。本 文针对葡萄酒质量的评定i-I题,基于葡萄酒及酿酒葡萄的理化指标,根据影响葡萄酒外观、口感和香气的主要理化指标,通过基于模糊等价关 系的模糊聚类分析以及F-统计量选择最佳聚类,并借助于MATLAB编程实现,结合具体葡萄酒理化指标的数据,验证葡萄酒的模糊聚类及其 最佳聚类选择方法的有效性。该
2、方法能客观地评价葡萄酒的质量为葡萄酒质量的评定提供可选择的方法。 【关键词】葡萄酒;理化指标;模糊聚类;F统计量 Fuzzy Clustering and Chose of Optimal Classification on Wine HUANG Chun-e YE Zhi-wei SUN Ming-xing (College of Biochemical Engineering,Beijing Union University,B ing 100023,China) 【AbstractThe existed method of evaluating wine quality placed e
3、mphasis on inviting experienced wine tastes,and is influenced subjectively by the tastes111is will lead to many uncertainties on wine classificationInthis paperbased on fuzzy Cluster analysis method and Fstatistical magnitudewines aye classified by main physical and chemical index of wine and grapea
4、nd optimal classification is chosen IIhis method is checked by combining with specific data and MATLAB program,and good results are achivedThe approach can objective evaluate the wine quality and propose an alternatives 【Key wordsWine;Physical and chemical index;Fuzzy clustering;Fstatistical magnitu
5、de O 引言 表1 影响红葡萄酒外观、口感和香气的主要指标 葡萄酒是以新鲜葡萄或葡萄汁为原料经发酵而成的含有多种营 养成分的饮料酒是世界公认对人体有益的健康酒精饮品其质量受 到高度关注。长期以来,葡萄酒质量的评定都是通过聘请有资质的品 酒员通过品酒员对葡萄酒各项指标打分求和来确定葡萄酒的质量 然而在以品酒员的感官指标来评定葡萄酒质量的方式中主观因素占 据主导地位,葡萄酒质量评定结果存在较大的不确定性一。因此建立 合理、规范、客观的葡萄酒质量评定方法显的尤为重要 酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系葡萄酒和酿 酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量 从 而根据葡萄酒和
6、葡萄的理化指标对葡萄酒进行分类能较客观的评价 葡萄酒的质量。文献3中,通过对2012年“高教社”杯全国大学生数学 建模竞赛题目的分析。综合利用主成分分析和逐步回归法将大量复 杂的葡萄酒理化指标变量简化提炼为与葡萄酒质量关系密切的少数 指标。并表明利用理化指标来评价葡萄酒质量的合理性 模糊聚类 作为一种有效的数据挖掘方法成为聚类分析研究的 热点已有一些研究将其应用于2012年“高教社”杯全国大学生数学 建模竞赛题中的葡萄酒分类中:文献f51中利用基于模糊等价关系的模 糊聚类的方法并通过程序达到了分类的效果但是缺乏对葡萄酒理化 指标的分析,且最终阈值 的取法很难确定;文献61中利用模糊c均 值聚类
7、和主成分分析算法进行分类但其中主成分的选取过于简单 且没有考虑参数c的取值对聚类结果的影响 因此将模糊聚类应用 于葡萄酒的分类并没有取得较好的结果 模糊聚类的研究中,聚类的有效性有着重要的作用成为学者们 关注的问题71。文献89指出了已有模糊聚类中最优聚类方法的不 足,并加以改进;文献1012】提出了模糊聚类中最优聚类的选择,为 模糊聚类最终结果的选取提供了可选择的方法其中基于F统计量 的方法_l 表现出了较好的效果 本文以2012年“高教社”杯全国大学生数学建模竞赛题A的原始 数据为基础基于红、白葡萄酒理化指标分析中对葡萄酒质量有着决 定性作用的理化指标通过模糊聚类分析的方法分别对红、白葡萄
8、酒 进行聚类分析并利用 统计量选择最佳聚类结果 1 葡萄酒理化指标选取圈 本文数据全部来自2012“高教社”杯全国大学生数学建模竞赛 题旧。本竞赛给出了27种红葡萄和葡萄酒以及28种白葡萄和葡萄酒 的理化指标表(含2个表格),芳香物质表(含4个表格)。 文献3】利用偏最dx-乘回归方程分析获得影响红、白葡萄酒的外 观、口感和香气的主要理化指标和芳香物质(如表1、表2所示)。 外观 口感 香气 酒中L值 白藜芦醇 (E)一3,7一二甲基一2,一6一辛二烯一1一醇 干物质含量 还原糖 2一吡咯烷酮 苹果酸 DH值 3,7一二甲基1 6辛二烯一3一醇 主要 白藜芦醇 葡萄总黄酮 癸酸乙酯 指标 总黄
9、酮 酒石酸 乙基氢酸 单宁 固酸比 异山梨糖醇 果梗比 花色苷 2一苯乙基乙酸酯 总糖 乙酸戊酯 表2影响白葡萄酒外观、口感和香气的主要指标 外观 口感 香气 可溶性固形物 苹果酸 香叶基乙醚 DH值 酒总黄酮 1一己醇 白藜芦醇 酒DPPH 壬醛 固酸比 葡萄总黄酮 2一辛酮 主要 柠檬酸 总酚 (Z】一2一庚烯醛 果皮质量 单宁 乙醛 指标 酒a 黄酮醇 壬酸乙酯 出汁率 褐变度 3一甲基一1一丁醇 单宁 多酚氧化酶活力 1一己醇 总酚 酒总酚 百粒质量 花色苷 2基于模糊等价关系的模糊聚类及最优聚类的选取嗍 设分类对象的全体为 = 。, ,而每一对象筏由一组数据 (m个特征指标)缸=0
10、, (R+) (i=t,2,I ol$, 来表征。 21数据标准化 本文中原始数据的标准化方法如下: *,=x-xk(i=1,2,“;k=1,2,m) 其中 = 1 毫 :1y 毫 一 z 经过变换后,每个变量的均值为0,标准差为1,消除了量纲的影 响。若获得的 还不在NNo,1上,则进行如下变化: 作者简介:黄春A(198o_),北京联合大学生物化学工程学院,讲师,研究方向为模糊数学理论及其应用。 科技视界Science&Technology Vision Science&Technology Vision 科技视界 科技探索争鸣 表3 红葡萄酒样品模糊聚类中k的取值及其对应的F值 j 的取
11、值 01735 02253 02875 O3O64 O3170 0-3190 03590 03636 03869 04040 04043 O-4047 04071 对应的F值 NaN OO264 00343 00276 00855 00873 01353 01758 02341 02147 02505 02812 03243 的取值 04280 04287 04640 04705 04863 05465 05630 05715 06078 06899 07301 07424 07876 对应的F值 03454 03485 03579 03707 03736 03788 0-39o7 03759
12、 03774 O38l2 04137 03475 02544 表4白葡萄酒样品模糊聚类中 的取值及其对应的F值 j k的取值 02894 02974 0-3042 0-3060 03094 03243 0327l 03295 03635 03644 03670 03731 0-386O 对应的F值 04759 0572l 07084 05197 0413l 03346 02846 02601 02427 02262 03892 O5942 05229 的取值 03861 03923 03963 04017 04095 04107 042l5 04235 04255 04310 04624 04
13、721 O6013 对应的F值 O5162 O5l82 0485l 04537 04315 04060 O-3455 03340 03677 O4051 0:3088 02879 01962 面 篙研 , = , , 22建立模糊相似矩阵R 在数据标准化的基础上,对数据进行如下变换: f1 I寺荟 i#j 其中M=max( )。 显然I I 【0,1,若r0中出现负值,则令 = 将 变换到 0,1IX间上。从而获得模糊相似矩阵R。 23模糊相似矩阵R的传递闭包T(R) 将模糊相似矩阵R化为模糊等价矩阵R。其过程如下:求R*R= 尺 ,再求出R R =R ,直到R 胡 为止,则模糊等价矩阵 Z
14、)=R =R 。 24利用模糊等价矩阵 进行模糊聚类 根据传递闭包 R)=0 ,给定不同阈值A,求取z ) =( )一,其 由 f1,若 A, 一Q若tua 从而获得普通的分类关系。当A=I时,每个样品自成一类,随着 值的降低,分类由细到粗逐渐归并,最后得到动态聚类情况。 25最优聚类的选取 基于F统计量【-崃确定模糊聚类中的最佳模糊聚类 设有一种分 类将样本集合协。, 分为c类,第 个类中有 个样本,即 = , ),( =1,2, ) 该种分类的 统计量为: 其中; = Fjc k至=l 为各类的中心,; =熹为总体样本的中心 q=l,2,m)。 是一个综合反映分类的类内紧密程度与分类间分散
15、 程度的统计量,其值越大,说明分类的类内越紧密,类问越分散,分类 有效性越好。 3模糊聚类结果 31红葡萄酒聚类结果 根据27种红葡萄酒酒样的理化指标和芳香物质表格提取出影 响其外观、口感和香气的22种主要因素31,获得一个27x22的矩阵。利 用MATLAB编写基于模糊等价关系的模糊聚类程序获得动态聚类 结果,其置信水平 的26个取值如下:0173502253,O2875,03064 03170,03190,03590,03636,03869,04040,04043,04047,04071, O4280,04873,O4640,04705,04863,05465,O5630,05715,O6
16、078, 06900,07301,07424,07876。 根据每种分类计算出对应的F值,如表3所示。当A=07301时, 对应的F最大值04137此时27种红葡萄酒样品被分为24类。其分 类结果除f样品1,样品2,样品9,样品23为一类外其余每个红葡萄酒 样品单独为一类。 3:2白葡萄酒聚类结果 根据28种红葡萄酒酒样的理化指标和芳香物质表格提取出影 响其外观、口感和香气的28种主要因素3-1获得一个2828的矩阵,利 用MATLAB的模糊聚类程序获得动态聚类结果其置信水平A的27 个取值如下:02255,02894,02974,03042,03060,03094,03243, 03271。
17、03295,03635,03644,03670,03731,O3860,03861,03923, 03963,04017,04095,04107,04215,04235,04255,04310,04624, 04721,06013。 根据每种分类计算出对应的F值,如表4所示。当A-03042时, 对应的,最大值O7084此时28种自葡萄酒样品被分为4类其分类 结果除f样品1,样品2和f样品17单独为一类外其余样品归为一 类 一 4结果分析 针对2012年“高教杯”全国大学生数学建模竞赛的题目结合基 于模糊等价关系的模糊聚类分析以及基于F一统计量选择最佳聚类 并通过MATLAB编程实现。从模糊聚
18、类以及最佳聚类的结果分析,该 方法能根据严格的数据分析给出葡萄酒的最佳聚类为葡萄酒的分类 提供参考及可选择的方法。e 【参考文献】 1李华,刘曙东,王华,张予林葡萄酒感官评价结果的统计分析方法研究明中 国食品学报,2006,6(2):126131 2李华。刘勇强,等运用多元统计分析确定葡萄酒感官特性的描述符J_中国 食品学报2007,7(4):114119 3程相,陈家旭,吴文鑫应用多元统计分析葡萄、葡萄酒理化指标与葡萄酒质 量的相关性1中外葡萄与葡萄酒,2013:43I47 4胡宝清模糊理论基础M12版武汉大学出版社,2010:187225 5袁书萍,万家华基于模糊聚类的葡萄酒分类的简单实现
19、叨科技视界,2012,17: 96-98 6刘洋洋,薛凌云酿酒葡萄分级的方法研究叨科技视界,2012,31:57 7唐明会,杨燕模糊聚类有效性的研究进展J计算机工程与科学,2009,31(9): 122124 8谢崇宝,袁宏源,郭元裕l最优分类的模糊划分聚类改进方法J1系统工程, 1997,15(1):58-63 9黄闽英,牟锐对模糊聚类分析法的改进及其在SRM中的应用fJ 计算机工 程与科学201133(6):144149 10孙才志,王敬东,潘俊模糊聚类分析最佳聚类数的确定方法研究叨模糊系 统与数学200115(1):8991 1 1唐明会模糊聚类有效性研究fD1西南交通大学,2007 123陈黎飞,姜青山,王声瑞基于层次划分的最佳聚类数确定方法Journal of Software,2008,19(1):62-72 13http:wwwmcmeduenproblem20122012htmlOL 14安中华,安琼模糊聚类的有效性研究J】l湖北大学学报,2006,28(3):222一 责任编辑:汤静 scienceTechno1。gY Visi。n科技视界J 7 I 塑 囊