1、1酿酒葡萄与葡萄酒理化指标及其质量的分析与评估摘要 本文通过运用 SPSS 首先对两组品酒员对葡萄酒的评价进行了差异显著性分析以及评 Cronbach 系数分析对品酒员评价的可信度进行了分析,得到了两组品酒员评价之间存在显著性差异,并且第一组品酒员的评价结果更为可信。接下来我们取第一组评酒员给每个样品酒所给出的总分的平均分表示该样品葡萄酒质量的量化指标进行相关讨论 我们通过对葡萄及葡萄酒的理化指标归一化处理,将它们之间的联系现实的更为明显,紧接着我们利用因子分析、主成分分析将决定葡萄酒质量的因素维度较低,从而达到简化模型的目的,并通过分析将各成分因子重新命名,再将命名后的主成分和评论员对葡萄酒
2、的评价作为依据对酿酒葡萄等级评定,并引入层次分析法对评定体系进行改进构想。最后利用 MATLAB 求解主成分因子与葡萄酒质量之间的函数关系,并用 BP 人工神经网络进行验证及讨论。最后我们在每一个问题后面进行了深入的反思与总结,得出了一些具体的改进思路及方法,并得出在原有问题上的修正。关键字 SPSS MATLAB Cronbach 系数分析 主成分分析 层次分析法 BP 人工神经网络 模型的改进与修正21. 问题重述随着经济的日益发展,人们生活水平的不断提高,葡萄酒的受众随之增加,品酒行业逐渐专业化。品质是现代葡萄酒生产追求的目标之一,针对酒类的质量检测也成为食品行业工作的重中之重。根据已有
3、数据,运用数学建模的方法,对葡萄酒进行评价是一个重要问题。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。从上述相关关系出发,参考相关数据,针对酿酒葡萄与葡萄酒的理化指标和葡萄酒的质量这几个变量,进行分析并建立数学模型,讨论关于葡萄酒的评价问题:特别注意指出模型中的优点和不足之处,并做出改进方向。2. 符号说明符号 说明 符号 说明第 i 个品酒员对第 j 款酒所给的总分 S 香气指
4、标K 整个品尝的次数 第 i 类芳香物质(1i8)总得分的方差 Q 其他影响因素所有在第 i 位品酒师打分的方差 k 香气指标关于芳香物质函数的常系数Y 葡萄酒的单宁 M 测得葡萄酒评分X1 葡萄酒的总酚 Z 葡萄酒标准分值(真实葡萄酒评分)X2 葡萄酒的黄酮醇 U 外观指标第一组的总平均分 V 口感指标理化指标向量 W 整体评价指标代表原来数据群体的因子 香气指标占总分的权重两类新的性质因子 外观指标占总分的权重口感类物质成分因子 口感指标占总分的权重色泽类物质成分因子 整体评价指标占总分的权重3. 模型建立与求解3.1. 数据处理3.1.2. 数据预处理 由于试题中给出的附件酒样品未按照顺
5、序排列,我们首先将数据进行了预处理,每组数据均按照样品号和品酒员号顺序排列,加和得到每一剂量酒样品的总评分数,并求得各项明细指标的平均值;其次将多组同类理化指标取平均值,以便分析讨论,进行模型的建立与求解。,ija2xSiiS,ijLxy12 iN33.1.3. 数据处理方法数据的预处理和部分图示,采用办公软件 Microsoft Excel 2010;数据的归一化处理,采用办公软件 Microsoft Excel 2010;数据结果的显著差异分析,采用 SPSS 19.0;数据结果的信度分析,采用 SPSS 19.0;数据结果的主成分分析,采用 SPSS 19.0;数据处理的拟合分析,采用
6、MATLAB2012a3.2. 问题 1.1:附件 1 中两组评酒员评价结果的显著性差异分析要比较两组评论员之间是否具有显著性差异,而每组有 10 个评论员,27 或 28 个葡萄酒样品,由于附件中的数据都是单项给出的,整体可比性不强,所以我们先用EXCEL 将数据进行了初步的整理(求出每个品酒员对各样品的总分,以及各个明细样品的平均值) ,以第一组对红葡萄酒样品一的评价为例,处理结果如表 1 所示:表 1. 红葡萄酒样品一的评价项目 品酒员 1 2 3 4 5 6 7 8 9 10 平均值澄清度 5 4 4 4 4 3 4 3 2 4 3 3.5外观分析 色调 10 8 8 6 6 6 6
7、8 6 6 6 6.6纯正度 6 5 5 5 4 5 5 4 4 5 4 4.6浓度 8 6 7 7 6 7 7 7 4 6 4 6.1香气分析质量 16 14 12 12 14 14 12 14 12 12 12 12.8纯正度 6 5 5 5 4 5 6 4 4 5 5 4.8浓度 8 6 6 7 6 6 8 6 6 6 6 6.3持久性 8 7 6 7 6 7 8 7 6 6 6 6.6口感分析质量 22 19 16 19 16 16 19 19 16 16 16 17.2平衡/整体评价 11 10 9 10 9 10 9 9 9 9 10 9.4葡萄酒样品 1总分 100 84 78
8、82 75 79 84 81 69 75 72 77.93.2.1. 初步分析:针对处理后的数据,我们初步的想法是将每组中各个品酒员对每项样品的总分作为一个样本,因此每个样本里将有 270 项数据。针对红葡萄酒评价的两组样本,利用SPSS 进行一次相互独立样本之间的 T 检验,探测两个样本是否具有显著性差异。但随后通过查阅统计分析中 T 检验法的一些特性得到了相反的结论:鉴于本题样本是每十个总分针对一个葡萄酒样本,并不满足独立样本 T 检验方法的适用范围,每组样本中的数据是有一定关联的,因此我们采用了另外一种检验方法配对样本 T 检验法。3.2.2. 二次分析 首先,我们对红葡萄酒的评价进行差
9、异性分析(白葡萄酒的处理方法与其一致) ,将每项葡萄酒样品各项明细评分的平均分作为一个样本(包括总分的平均分) ,则每个样本里共有 11 27=297 项数据,两组数据之间都是针对相同的样品和指标进行评价,所以两组中每项数据都是一一配对,互相关联的。其次,我们对两组葡萄酒的全部总分数据共 27*10*2=540 组,进行综合处理并作图 1、图 2 所示,可以得知两组数据在数值上差异较大,初步判断两组数据具有显著性差异,关于信度分析下文将给出分析讨论。4图 1 图 2 再次,我们以两组红葡萄酒样品 1 为例,对其数据做了归一化处理,利用雷达图表示,如图 3 所示。加强了上述关于显著性差异的推论。
10、图 3. 红葡萄酒样品归一化雷达图表示因此通过以上对数据和检验方法的分析,我们采用配对 T 检验法对两组样本进行差异显著性分析。3.2.3. 基本假设:1. 每组评论员对各项酒的评价分数成正态分布。2. 评论员都具有一定的专业品酒技术,对每种酒的各个指标的评价不会有大的偏差(保证评分的关联度) 。3.2.4. 模型的建立与求解:将处理后的数据导入到 SPSS 软件中,针对两组红葡萄酒评价中的各项指标评分的平均值进行配对样本 T 检验法,设定置信度区间为 95,得到结果如下:表2.成对样本统计量均值 N 标准差 均值的标准误红葡萄酒各项平均分1 13.2856 297 19.39730 1.12
11、555对 1红葡萄酒各项平均分2 12.8209 297 18.63412 1.08126表3.成对样本相关系数N 相关系数 Sig.5表3.成对样本相关系数N 相关系数 Sig.对 1 红葡萄酒各项平均分1 红葡萄酒各项平均分2297 .996 .000表2为描述性统计表,给出了红葡萄酒的各项平均分的平均值,标准差以及标准误。表3为样本间的配对性的测验结果,可以看到测出的P 值(即sig值)等于00.001,因此在95% 的置信水平上差异显著,即两组红葡萄酒的各项平均分的平均值显著相关,验证了我们之前的推论,因此也符合配对样本T检验的前提条件。表4.成对样本检验成对差分差分的 95% 置信区
12、间均值 标准差 均值的标准误 下限 上限 T df Sig.(双侧)对 1 红葡萄酒各项平均分1 红葡萄酒各项平均分2.46468 1.88444 .10935 .24949 .67988 4.250 296 .000表4为最终的配对样本T检验结果报表。其中t表示用公式: 1221XtSrSn所计算出的值,是最终计算出P值的依据。df为自由度,sig(双侧显著性概率)则为我们所需要的P值。可以看到最终结果是P=0.0000.001,因此在95%的置信水平上差异显著,所以两组评论员评分无显著性差异的假设不成立,即两组评论员对红酒的评分具有显著性差异。图四为以上结果的综合图形描绘。图4. 结果的综
13、合图形描绘对于白葡萄酒的组,利用同样的方法进行差异性分析,在 SPSS 软件里同样也得到如下结果,如表 5、表 6、表 7 所示:6表5.成对样本统计量均值 N 标准差 均值的标准误白葡萄酒各项平均分1 13.5019 308 19.64542 1.11940对 1白葡萄酒各项平均分2 13.9149 308 20.21087 1.15162表6.成对样本相关系数N 相关系数 Sig.对 1 白葡萄酒各项平均分1 白葡萄酒各项平均分2308 .996 .000表7.成对样本检验成对差分差分的 95% 置信区间均值 标准差 均值的标准误 下限 上限 T df Sig.(双侧)对 1白葡萄酒各项平
14、均分1 白葡萄酒各项平均分2-.41299 1.93277 .11013 -.62969 -.19628 -3.750 307 .000图5.白葡萄酒成对样本检验如图5所示,此时P 值仍小于 0.001,因此两组评论员对白葡萄酒的评价在95%的置信水平上也具有差异显著性,从而可得出结论:无论是针对红葡萄酒还是白葡萄酒,两组评酒员的评价结果都有显著性差异。3.2.5. 问题反思:对于该问题,我们将每项葡萄酒评分做了平均化处理,再把处理出来的平均分作为样本,这样每个样本中的数据变成了与每个指标得分情况对应的一元数值,然后用配对样本T检验法对其进行差异显著性分析。通过这种方法处理出来的结果具有一定的
15、科学性与准确性。但是由于数据是进行了平均化处理后的数据,因此模型所反映出的7情况不具有完整性,对此我们便有了下面这种改进思路:将每组中10名品酒师对27项样品的评价总分作为一个 的矩阵1027(其中 第i个品酒员对第j款酒所给的总分) 。1, 1,2710. 10,27a ,a每个矩阵分别对应该组品酒师的评分具体情况,再用这两组数据构成的矩阵进行多元数据的T检验,如此处理出的结果就应该更具有完整性与可靠性。但由于本组成员所了解的统计学知识还不足以去运用这样多元性的、更为精确的处理手段,因此就将这作为一个以后改进的思路。3.3. 问题 1.2:附件 1 中两组评酒员评价结果的信度分析我们针对两组
16、中每位品酒师对每种酒所给出的总分得出 的矩阵1027对其中的元素逐行进行可信度分析。1, 1,2710. 10,27aa 3.3.1模型讨论首先我们根据品酒师打分为主观作用,我们选择评价评分者信度的 Kendall W 协同检验模型,通过 SPSS 对红白葡萄 4 组数据进行模拟分析,得到的渐进显著性系数 p均小于 0.05(等于 0.00),协同系数均为 0.50 左右,无法得出明确的结论。经过思考,我们发现Kendall模型对于采用等级评定方式评分的情况是可取的,然而当评分者用其他非等级评定的方式(如百分制)评定时,其信度系数是不合适的,因为其信度系数仅能反映评分者之间的相对一致性,并没有
17、考虑评分者之间存在的评分绝对差别,在这种情况下评分者之间的系统误差也看会被成是随机误差,此时计算出的信度系数不能正确反映评分者信度的高低。所以我们选择内部一致性信度分析。3.3.2. 问题假设为简化模型,排除品酒员主观因素和个人偏好不同而造成的影响,我们做出如下假设:1、每位品酒员鉴定的同一种葡萄酒特质完全相同。 2、对于每一种类葡萄酒被任何一品尝相当于对其质量进行一次客观的测试,每一项指标的评价,相当于一道题目的得分。3、葡萄酒的特质可以从品酒员的品尝时考虑的方面(即客观测试的一系列“题目”)测量出来。3.3.3. 模型的建立及求解对于抽象出来的测试模型,由于每道测试题目表示一个特质指标的评
18、价,所以我们不能采用简单的二分法计分。因而我们选择 Cronbach 系数分析。其中 式中,K 为整个品尝的次数; 为总得分的方差; 为21()nixS2xS2iS8是所有在第 i 位品酒师打分的方差。我们先用 EXCEL 进行数据处理,得到 的矩阵 ,以红葡萄酒为27101,1,027.127,10a 例。表 8. 第一组红葡萄酒 表 9. 第二组红葡萄酒如表 8、表 9 所示,不难看出对于红葡萄酒,第一组标准化 Cronbachs Alpha 较高,即第一组品酒师对红葡萄酒的评价更为可靠。同样地对于白葡萄酒,第一组标准化Cronbachs Alpha 比第二组更高,如表 10、表 11 所
19、示。表 10. 第一组白葡萄酒 表 11. 第二组白葡萄酒即第一组更为可信。再对第一组进行进一步讨论,对于第一组十位品酒师对红白葡萄酒的评价的项已删除的 Cronbachs Alpha 值(详见附录)进行分析,没有任何一位品酒师对于整体的标准化 Cronbachs Alpha 有明显影响,所以十位品酒师的评价分数也均可信。综上所述,无论对于红葡萄酒还是白葡萄酒,两组品酒师的评价均存在显著差异,其中第一组品酒师的评价结果更可信,并且第一组十位品酒师的评价都属于可信范围。3.4. 问题 2:根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级3.4.1. 问题分析如果单用葡萄酒为酿酒葡萄打分,则
20、直接在葡萄酒的外观、香气、口感质量权重中赋予权值,所得之和即可作为对酿酒葡萄的评分。而本题却引入了另一类变量,就是葡萄的理化指标。这是一项很庞大杂乱的数据,所以我们想到利用主成分分析法对这些数据进行主要因子分析,找出这些指标的公共因子,求的每一样品在这些因子上的成份得分系数矩阵,给数据降低维度,再以此作为研究酿酒葡萄等级评定的依据。3.4.2. 模型建立(以红葡萄为例)首先对数据进行归一化处理,再用SPSS因子分析对处理后的数据进行因子分析。并选择具有 Kaiser 标准化的正交旋转法进行处理。得到的结果如表12所示:9表12.成份矩阵 a成份1 2 3 4 5 6 7 8花色苷 .852 总
21、酚 .851 单宁 .759 DPPH自由基 .734 葡萄总黄酮 .704 果梗比 .585 蛋白质 .584 L -.578 黄酮醇 .562 -.524 百粒质量 -.542 出汁率 .533 干物质含量 .847 总糖 .792 还原糖 .777 可溶性固形物 .758 氨基酸总量 .559 白藜芦醇 .812 A .724 可滴定酸 -.599 果皮质量 -.597 .530 B .500 .590 褐变度 .618 .673 多酚氧化酶活力 .661 苹果酸 .639 酒石酸 果穗质量 .610 VC含量 -.546 固酸比 柠檬酸 -.571提取方法 :主成份。 a. 已提取了
22、8 个成份。 SPSS经过因子分析和旋转处理后一共得到了8个主成分,但在8个主成分之中,葡萄的理化指标所载负荷主要是分配在前四个成分当中。而观察这四个成分的高负荷指标,成分一中高负荷的指标主要有单宁、酮类酚类物质以及蛋白质等,而这些物质,特别是单宁,在很大程度上影响到了葡萄酒的口感,因此可将该成分命名为“口感类物质”;成分二中高负荷的指标有糖类、氨基酸类、VC含量等营养成分类物质的指标,10可命名为“营养类物质”;成分三主要有a、b色泽,以及果皮含量指标,可命名为“色泽类物质”;成分四主要有苹果酸,酒石酸等指标,可命名为“酸类物质”。这样通过软件做出的成份得分系数,就可求得对应的因子变量解,如
23、表13所示:表13.成份得分系数矩阵成份1 2 3 4 5 6 7 8氨基酸总量 -.004 .129 -.173 -.069 .000 .210 -.059 .052蛋白质 .089 -.041 -.113 .027 -.041 .053 .139 .140VC含量 .039 -.155 -.002 -.107 .086 .071 -.212 -.110花色苷 .115 -.007 .178 .004 .002 -.064 .012 -.014酒石酸 .009 -.005 -.165 -.015 -.048 -.009 .017 .464苹果酸 .024 .000 .319 -.018 .1
24、20 -.140 -.039 -.043柠檬酸 -.076 -.065 .142 .067 .022 .021 -.122 .509多酚氧化酶活力 -.108 .061 .229 .111 -.100 .142 .106 -.040褐变度 -.030 -.051 .285 -.024 -.023 .065 .006 -.036DPPH自由基 .186 -.013 -.060 .082 .096 .096 .042 -.065总酚 .197 .047 -.041 -.002 .022 -.021 .070 -.115单宁 .171 -.041 .065 .047 .062 .042 -.220
25、.074葡萄总黄酮 .233 .031 -.077 .064 .075 -.043 .046 -.095白藜芦醇 .045 -.041 -.019 .014 .357 .157 -.003 -.103黄酮醇 -.043 .052 .004 .130 .063 .460 -.058 .020总糖 .022 .245 -.041 .020 .046 .017 .125 -.180还原糖 -.047 .178 -.010 -.001 -.016 .009 .024 .008可溶性固形物 .014 .234 .005 .061 .018 .030 .065 -.144可滴定酸 .033 .032 .0
26、05 .051 .033 .012 -.391 .058固酸比 -.006 .084 .040 .015 -.004 -.090 .424 -.084干物质含量 .005 .189 .023 .016 .012 .016 -.050 .056果穗质量 .029 -.003 -.004 .342 .044 -.026 .074 .121百粒质量 .053 .013 -.015 .296 .065 -.015 -.025 -.073果梗比 -.049 -.064 .033 -.120 -.056 .298 -.026 -.036出汁率 .199 -.014 .002 -.021 .003 -.184 -.050 -.021果皮质量 .017 .047 .057 .411 .059 .172 -.098 .028L -.118 -.006 -.034 .107 .080 .192 .199 -.207B .048 .045 .065 .106 .358 -.088 -.064 .082A .007 .013 .001 .052 .360 .019 -.010 -.054提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。 构成得分。并据此算得每个样品在每类成分上的得分,结果如表14所示: