1、1葡萄酒质量的评价摘 要葡萄酒质量的好坏主要依赖于评酒员的感观评价,由于人为主观因素的影响,对于酒质量的评价总会存在随机差异,为此找到一种简单有效的客观方法来评酒,就显得尤为重要了。本文通过研究酿酒葡萄的好坏与所酿葡萄酒的质量的关系,以及葡萄酒和酿酒葡萄检测的理化指标的关系,以及葡萄酒理化指标与葡萄酒质量的关系,旨在通过客观数据建立数学模型,用客观有效的方法来评价葡萄酒质量。首先,采用双因子可重复方差分析方法,对红、白葡萄酒评分结果分别进行检验,利用 Matlab 软件得到样品酒各个分析结果,结合 数据分析,发现对于红葡酒有01的评价结果存在显著性差异,对于白葡萄酒只有 53%的评价结果存在显
2、著性差70.3%异。通过比较可知,两组评酒员对红葡萄酒的评分结果更具有显著性差异,而对于白葡萄酒的评分,评价差异性较为不明显。为了评价两组结果的可信度,借助 Alpha 模型用克伦巴赫 系数衡量,并结合 检验,得出红葡萄酒第一组评酒员的评价结果可F信度更高,而对白葡萄酒的品尝评分,第二组评酒员的评价结果可信度更高。综合来看,主观因素对葡萄酒质量的评价具有不确定性。结合已分析出的两组品酒师可靠性结果,对葡萄酒的理化指标进行加权平均,最终得出十位品酒师对样品酒的综合评价得分。将每一样品酒的综合得分与其所对应酿酒葡萄的理化指标(一级指标)共同构成一个数据矩阵,采用聚类分析法,利用 SPSS软件对葡萄
3、酒样进行分类,根据分类的结果以及各葡萄样品酒综合得分最终将酿酒葡萄分为 A(优质)、B(良好)、C(中等)、D(差)四个等级,客观地反映了酿酒葡萄的理化指标与葡萄酒质量之间的联系。为了分析酿酒葡萄与葡萄酒理化指标之间的联系,采用相关分析法,能有效地反映出两者间的联系,取与葡萄各成分相关性显著的葡萄酒理化指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。由于已经通过回归分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此从酿酒葡萄成分对葡萄酒的理化指标的影响,再研究出葡萄酒理化指标与葡萄酒质量的联系,便可作为一个桥梁,反映出葡萄与葡萄
4、酒理化指标对葡萄酒的质量的作用。研究葡萄酒理化指标与葡萄酒质量的联系,需要运用变量间的相关性及 系数法分析Pearson葡萄酒的理化指标与葡萄酒质量评价指标的相关性,通过比较选出与葡萄酒评价的一级指标相关性程度大的葡萄酒成分,进行回归分析法,建立酿酒葡萄的理化指标与葡萄酒质量之间的拟合方程,结合各个质量一级指标的权重,从而完成了从葡萄酒成分对葡萄酒质量的客观评价。综合计算结果,与酿酒葡萄分级的结果吻合,所以分析结果较客观。2关键词:葡萄酒 双重多因素分析 数据分析 Alpha 模型 聚类分析及欧式距01离相关性分析 多元回归 系数法Pearson1. 问题重述葡萄酒的感官质量是评价葡萄酒质量优
5、劣的重要标志。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。试建立数学模型求解下列问题:1. 分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化
6、指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?32. 问题分析酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,本题要求通过酿酒葡萄的理性指标和酿酒师给予的评分,综合考虑酿酒葡萄的理性指标与葡萄酒的质量的关系。问题一:要求对两组评酒员评价结果有无差异性进行分析,并分析得出哪一组的品酒员的结果更具有可信。通过绘制每个样品酒的均值评分差异图,对每个样品酒的两组评酒员在各个指标的均值进行比较,发现对于红葡萄的评价,两组评酒员还是存在着显著性的差异的,而对于白葡萄
7、酒的评价,两组评酒员的差异性并不是很明显,列举部分红、白葡萄酒评分差异图如下:图表 1 红葡萄酒样品 12 差异图(左边) ,系列 1 为第二组品酒员打分均值,系列 2 为第一组品酒员打分均值。图表 2 红葡萄酒样品 15 差异图(右边) ,横坐标为 10 个指标变量,包括澄清度、色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感质量以及整体评价。针对两组评酒员在大量差异图中表现出来对红、白葡萄酒的评价存在差异,对红、白葡萄酒进行分开地显著性检验。第一步,利用每个样品酒都具有两组评酒员的评价结果,对两组结果进行双因子可重复方差分析,得出题中给出的 27 种葡萄样品酒各个分析结果。
8、比较 27 个显著性检验的结果,若具有显著性差异的样品酒占总样品酒的比例高于 ,有足够的把握认定两组评酒员的评价结果具有显著性差异。第二步,对两组评酒员给予红、白葡萄酒的打分进行可信性分析,将红、白葡萄酒分别进行可信度分析,比较两组评酒员对不同种类葡萄酒的评价是否具有各自的优势。4在进行双因子多重分析和可信性分析之前,需要对原先数据进行如下处理:1.对于附件 1 给出的数据,先将两组品酒员的评价结果按着样品酒进行统一划分,每一样品酒对应着两种评价结果。将每一样品酒的评价结果组成评价矩阵,矩阵以葡萄酒的评价指标为列项,共 10 列,以每个评酒员作为横向量,共 20 行。2.针对红葡萄酒样品 20
9、 评酒员 4 号对色调的评分缺失,利用同组评酒员对红葡萄酒样品 20 色调评分的平均值作为 4 号评酒员的评分值。做可信度分析时,将两组的 27 种酒样品评价结果组成两组评价总矩阵,以葡萄酒的评价指标为列项,共 10 列,以每个评酒员作为横向量,共 270 行,分别用SPSS19.0 对两组矩阵进行信度分析,目的是对量表的可靠性与有效性进行检验,判断出哪一组可信度更高。问题二:问题二要求对酿酒葡萄进行分级,酿酒葡萄的成分直接影响葡萄酒的质量,选取优质营养成分高的酿酒葡萄酿酒,保证了葡萄酒的营养价值和保健价值。但是葡萄酒质量优劣,不单单从营养成分和养身价值上考虑,一瓶优质的葡萄酒,还得具备着可观
10、赏性,纯正的口感、芬芳的酒香等优点,而这些优点,都得由评酒员来给出评价。所以,对酿酒葡萄进行分级,不单单从葡萄的成分上考虑,还得结合最终酿成的葡萄酒质量综合考虑。因此将酿酒葡萄的各成分与评价员给予所酿成的葡萄酒的质量打分综合起来,进行聚类分析,将酿酒葡萄依据综合指数进行分类,结合聚类分析的结果以及综合指标的分数将葡萄划分等级。依据:在进行据聚类分析之前,需要对原始数据进行预先处理1. 分别计算附件一中评酒员各项评分指标的权重并加和,最后求取 10 位评酒员的权重平均值作为葡萄酒样品的综合评价指标。2. 用酿酒葡萄各项理化指标(多次测得的取平均值)以及酒样的综合指标形成一个 31 列 28 行的
11、原始资料阵,并用 SPSS 的 标准化将数据标准化。Z问题三:酿酒葡萄和葡萄酒的理化指标都很多,为了找出它们之间的联系,首先将葡萄的成分与葡萄酒的理性指标列成一个大矩阵,分析葡萄成分与葡萄酒理想指标的相关性,找出它们之间相关性大的指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。1. 酿酒葡萄的成分和葡萄酒的理化指标列成一个大矩阵。2. 通过 SPSS 软件做相关性分析,选取与葡萄酒理化指标相关性程度大的葡萄酒成分 个指标,建立拟合方程。n问题四:酿酒葡萄的理化指标并不能直接与葡萄酒的质量建立联系,由于在问题 3 中已经通过相关性
12、分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此我们分析葡萄酒的理化指标与葡萄酒质量的相关性,计算相关性系数,通过比较选出系数高的即与葡萄酒质量指标相关性程度大的葡萄酒成分,进而用回归分析法建立酿酒葡萄的理化指标与葡萄酒质量之间的关系。1附表一中列出了十位品酒员对葡萄酒外观、香气和口感分析三者的数据,用Matlab7.6.0b,分别对四项指标求 27(28)种红(白)葡萄酒样品权重平均值作为葡萄酒质量的评价指标。2. 通过 SPSS 软件作因子分析分析两者之间的相关性,选取与葡萄酒质量指标相关性程度大的葡萄酒成分 个指标,建立拟合方程。n53. 符号说明*显著性水平置信度ST误差平方和A行组
13、间误差B列组间误差SE组内误差克伦巴赫系数ijd明考斯基距离2ij欧式距离4. 模型假设(1) 假设数据来源真实有效(2) 假设各变量的相差微小,各坐标对欧式距离的贡献是同等的且变差大小相同,欧氏距离效果理想。(3) 假设酿酒工艺条件相同,无其他人为因素影响(4) 为低信度, 则尚可,若0.35CronbachAlp0.350.7CronbachAlp则属于高信度。假设组一与组二评分分别处于不同信度区间,可7信度差异明显。65. 建模过程5.1. 问题一的建模与求解模型建立:利用双因素可重复方差分析结合 0-1 分析检验两组评酒员的评价结果有无显著性差异1.双因子可重复方差分析的统计模型 。假
14、设在两因子方差分析中,因子 共有1 A个水平,记作 ,每个水平下,进行 次试验,因子 共有 个水平。一个r12,.rAtBk典型的双因子方差分析的数据结构如下表所示。表格 1 双因子可重复方差分析的数据结构因子因子 1B2B kBx1x 1x 1A1t 2t tk 1x12x 1kx rA1t 2t tk为因子 的某个水平下第 试验所得结果, 表示因子 的第 个水平,tkx iAi。第 列数据为因子 的第 个水平下所考察的变量取值,每一列为一个总1,2.irjBj体, =1,2, 。所以一个两因子方差分析的数据结构表里,共有 个总体,jk rtk在本题中, 。下表给出因子 所对应的各个指标:,
15、10,tB12B34B56B78B910B指标 外观澄清度外观色调香气纯正度香气浓度香气质量口感纯正度口感浓度口感持久性口感质量整体得分给出双因子可重复方差分析的原假设和备择假设:01:H两 组 评 酒 员 的 评 价 结 果 不 存 在 差 异 .02:H两 组 评 酒 员 的 评 价 结 果 存 在 着 差 异 .71:H各 个 指 标 对 评 价 结 果 不 存 在 影 响 .12:H各 个 指 标 对 评 价 结 果 存 在 影 响 .当原假设 为真时,说明两组评酒员的评价结果不存在显著性差异,反之称两01组评酒员的评价结果存在着显著性影响因素。当原假设 为真时,说明选取的各个1指标对
16、评价结果没有显著性影响,在本题中,显然原假设 是不成立的,后续的检H验将证明这点。2.两因子方差分析的方差分解。(1)误差平方和。每一个观察值 与总平均值 之间的离差平方和称为误差平ijxx方和,记作 ST=ST21rkijij其中 ,称为总均值。1/rkijixt(2)行组间误差。双因子误差平方和分解的第一部分,称为行组间误差,记作SA=SA2.1riikx(3)列组间误差。双因子误差平方和分解的第二部分,称为列组间误差,记作SB=SB2.1kjjrx(4)组内误差。双因子误差平方和分解的第三部分,称为组内误差,记作 SE=E21rkijijijxx行组间误差衡量的是行因子不同水平之间的差异
17、,列组间误差衡量的是列因子不同水平之间的差异。它们的误差值中既包含随即误差也包含了因子影响的系统误差。所以判断行(列)因子是否有显著性影响,主要考察行(列)组间误差和组内误差之间的差异大小。如果行(列)组间误差和组内误差很接近,就认为行(列)因子无显著性影响。反之,认为行(列)因子有显著性影响。两因子方差分析的检验统计量。 21STn:其中 。nrkt根据单因素方差分析推导,有行组间误差服从自由度为 的 分布r2821SAr:列组间误差服从自由度为 的 分布1k22Bk剩余的列组服从自由度为 的 分布rkt21SErkt:则两因素方差分析的检验统计量为如下两个:(1) 行检验统计量。 ,AMF
18、rktSE(2) 列检验统计量。 1,1Bt:双因子可重复方差分析的结果判定当显著性水平为 时,如果 ,拒绝 ,说明两组评酒员1,AFrkt01H的评价结果存在显著性差异;等价的 值检验是,当 值= .100 的概率)。3 . 褐变度 向后(准则: F-to-remove = .100 的概率)。4 . 花色苷 向后(准则: F-to-remove = .100 的概率)。5 . 黄酮醇 向后(准则: F-to-remove = .100 的概率)。表格 8 葡萄酒花色苷与葡萄理化指标的多元线性回归输入/ 移出变量由于当 P0.95,存在显著性相关;|r|0H,接受 ,回归方程不显著= .10
19、0 的概率)。3 . 单宁(mmol/kg)向后(准则: F-to-remove = .100 的概率)。4 . 总酚(mmol/kg)向后(准则: F-to-remove = .100 的概率)。5 . a*(D65)向后(准则: F-to-remove = .100 的概率)。6 . C 平均向后(准则: F-to-remove = .100 的概率)。7 .总黄酮(mmol/kg)向后(准则: F-to-remove = .100 的概率)。b. 因变量: 外观分析. 表格 11 外观分析与葡萄酒理化指标的多元线性回归输入/移出变量由于当 P0.01 时,因变量与变量之间的相关性显著,结
20、合向后推移法,剔除了单宁、总酚、总黄酮、DPPH 半抑制体积、a*(D65)、H 平均、C 平均,筛选出最吻合的变量。系数 a非标准化系数 标准系数模型B 标准 误差 试用版 t Sig.(常量) 6.442 0.663 9.719 0花色苷 -0.001 0.001 -0.377 -1.548 0.010白藜芦醇(mg/kg) 0.237 0.158 0.218 1.497 0.009L*(D65) -0.031 0.009 -0.83 -3.236 0.004表格 12 外观分析与红葡萄酒理化指标的多元线性回归变量筛选结果及系数表格 13 外观分析与红葡萄酒理化指标的多元线性回归 R 方及
21、标准估计的误差根据 R 方值的大小,可判断出多元线性回归方程的契合度,观察模型后退 7 次得到 R方值与标准估计的误差, =0.630,可知方程的吻合性较高。最后得到外观分析与2R红葡萄红酒理化指标的线性回归方程为(其中 、1123()0370.16.42ifxx1x模型汇总模型 R R 方 调整 R 方 标准 估计 的误差7 .794 .630 .563 .519727、 、 分别代表花色苷、白藜芦醇(mg/kg)、L*(D65)的含量、外观综合评分)2x31()ifx同样对香气分析与红葡萄酒理化指标的相关性进行多元回归分析,剔除了总酚、DPPH半抑制体积 、L*(D65)筛选出相关性最吻合
22、的变量如下表所示。表格 14 香气分析与红葡萄酒理化指标的多元线性回归变量筛选结果及系数Anovaf模型 平方和 df 均方 F Sig.回归 3.766 6 .628 2.213 .085残差 5.673 20 .284 1总计 9.439 26 回归 3.754 5 .751 2.773 .045残差 5.685 21 .271 2总计 9.439 26 回归 3.724 4 .931 3.583 .021残差 5.715 22 .260 3总计 9.439 26 回归 3.662 3 1.221 4.859 .009残差 5.777 23 .251 4总计 9.439 26 回归 3.5
23、40 2 1.770 7.202 .004残差 5.898 24 .246 5总计 9.439 26 表格 15 香气分析与红葡萄酒理化指标的多元线性回归方差结合方差的处理结果以及所筛选出来的变量,我们可得出香气分析与红葡萄酒理化指标的线性回归方程为(其中 、 、 、2123()0.45.0.794.8ifxx1x23分别代表单宁、总黄酮(mmol/kg)、白藜芦醇( mg/kg)的含量、香气分析综合2()ifx系数非标准化系数 标准系数模型 B 标准 误差 试用版 t Sig.(常量) 4.798 .284 16.888 .000单宁(mmol/kg).045 .062 .217 .728
24、.004总黄酮(mmol/kg).043 .062 .214 .695 .001白藜芦醇(mg/kg).279 .148 .335 1.882 .00328评分)同理,对口感与红葡萄酒理化指标进行多元回归分析,剔除了 b*(D65)筛选出相关性最吻合的变量如下表所示。29系数 a 非标准化系数 标准系数模型 B 标准 误差 试用版 t Sig.(常量) 10.633 .440 24.149 .000单宁(mmol/kg).246 .110 .797 2.240 .006总酚(mmol/kg)-.545 .171 -1.534 -3.185 .004总黄酮(mmol/kg).253 .092 .
25、840 2.744 .010白藜芦醇(mg/kg).748 .198 .603 3.774 .001H 平均 -.298 .084 -.470 -3.552 .002表格 16 口感分析与红葡萄酒理化指标的多元线性回归变量筛选结果及系数根据 R 方值的大小,可判断出多元线性回归方程的契合度,观察模型后退 3 次得到 R 方值与标准估计的误差,R2=0.644,可知方程的吻合性较高。最后得到口感分析与葡模型汇总模型 R方 调整 方R标准 估计的误差1 .813 .661 .536 .61112532 .810 .656 .553 .59959653 .803 .644 .559 .5955063
26、表格 17 口感分析与红葡萄酒理化指标的多元线性回归 R 方及标准估计的误差红萄酒理化指标的线性回归方程为 312345()0.246.50780.291.63ifxxx(其中 、 、 、 、 、 分别代表单宁、总酚、总黄酮(mmol/kg)、白藜芦1x2453()if醇(mg/kg)、H平均的含量、口感分析综合评分)对平衡及整体评价与红葡萄酒理化指标进行多元回归分析,白藜芦、DPPH 半抑制体积 、b*(D65)。筛选出相关性最吻合的变量如下表所示表格 18 平衡及整体评价与红葡萄酒理化指标的多元线性回归变量筛选结果及系数根据 R 方值的大小,可判断出多元线性回归方程的契合度,观察模型后退
27、4 次得系数 a非标准化系数 标准系数模型 B 标准 误差 试用版 t Sig.(常量) 7.616 .386 19.710 .000总黄酮(mmol/kg).078 .025 .456 3.133 .005H 平均 -.164 .051 -.456 -3.225 .004C 平均 .021 .006 .528 3.626 .00130到 方值与标准估计的误差, =0.655,可知方程的吻合性较高。R2R模型汇总模型 方 调整 方R标准 估计 的误差1 .774 .800 .479 .36802 .774 .799 .503 .35943 .760 .678 .501 .36034 .745
28、.655 .497 .3618表格 19 平衡及整体评价与葡萄酒理化指标的多元线性回归 R 方及标准估计误差最后得到平衡及整体评价与红葡萄酒理化指标的方程 4123()0.78.640.17.6ifxx(其中 、 、 、 分别代表总黄酮(mmol/kg)、H平均、C平均的含量、平衡及1x23i整体评价综合评分)(3) 在红葡萄酒指标中占的百分比分别为 、 、 、 ,从数据中可知,百分kf 1234比依次为: 1234(,)(5%,0,)则建立如下方程 1234()()()()iiiiFfxffxf综合结果得 40.5.01iiiix综合问题三和问题四的结果,我们可以看出葡萄酒的花色苷与酿酒葡萄的各项成分指标具有相关性,并存在线性回归方程,酿酒葡萄某一成分的含量的增加或较少都会引起葡萄酒花色苷含量的变化,即酿酒葡萄对葡萄酒的理化指标具有一定联系,而葡萄酒的理化指标与葡萄酒质量(外观、香气、口感、平衡及整体)综合评分同样具有相关性,并存在线性回归方程,即葡萄酒的理化指标与葡萄酒质量具有一定的联系,综合以上两点,葡萄酒的理化指标以及酿酒葡萄的理化指标,共同影响葡萄酒质量的好坏。