1、一实验目的通过对 Iris 数据进行测试分析,了解正态分布的监督参数估计方法,并利用最大似然估计对 3 类数据分别进行参数估计。在得到估计参数的基础下,了解贝叶斯决策理论,并利用基于最小错误率的贝叶斯决策对 3 类数据两两进行分类。二实验原理Iris data set,也称鸢尾花卉数据集,是一类多重变量分析的数据集。其数据集包含了150 个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾 (Iris setosa),变色鸢尾(Iris versicolor)和维吉尼亚鸢尾(Iris virginica)。四个特征被用作样本的定量分析,分别是花萼和花瓣的长度和宽度。实验中所用的数据集已经分为三类,第
2、一组为山鸢尾数据,第二组为变色鸢尾数据,第三组为维吉尼亚鸢尾数据。1.参数估计不同亚属的鸢尾花数据的 4 个特征组成的 4 维特征向量 服从于不同1234(,)Txx的 4 维正态分布。以第一组为例,该类下的数据的特征向量 服从于 4 维均值列向量1234(,)Tx, 维协方差矩阵 的 4 元正态分布。其概率密度函数为如下:11112()exp()()Tdpx x参数估计既是对获得的该类下的山鸢尾数据样本,通过最大似然估计获得均值向量 ,以1及协方差矩阵 。对于多元正态分布,其最大似然估计公式如下:111Nkx1111()NTkkx其中 为样本个数,本实验中样本个数选为 15,由此公式,完成参
3、数估计。得到山鸢尾N类别的条件概率密度1112()exp()()Tdpx x同理可得变色鸢尾类别的条件概率密度 ,以及维吉尼亚鸢尾类别的条件概率密度()3()px2.基于最小错误率的贝叶斯决策的两两分类在以分为 3 类的数据中各取 15 个样本,进行参数估计,分别得到 3 类的类条件概率密度。以第一组和第二组数据为例,对这两组数据进行分类。因为两类的训练样本均为 15个,且两类花在自然界所占比例近似,所以两类的状态先验概率 , 均设为1()P2)0.5。且由上一步参数估计已经得到两类的类条件概率密度 , 。利用贝叶px斯公式 1112(|)(|)| |()pxPPx得到类别 的状态后验概率。对
4、于两类问题, 。基于最小错误率1 1(|)|1x的贝叶斯决策规则为:若 ,即 ,则将特征向量 分为12(|)(|)x|0.5Px第一类,否则将特征向量 分为第二类。三实验过程 1.参数估计从三类数据中分别随机选取 15 个数据作为样本,对每类所属的正态分布进行参数估计。随机样本选择结果如图 1:图 1. 进行参数估计的样本序号该实验中,样本序号随机选择,所以每次试验结果不相同,这里仅显示出一次实验的结果。按照随机选择的序号将每类的样本从原每组数据中取出,按照实验原理中的多元正态分布参数的最大似然估计公式,分别对每类的均值向量及协方差矩阵进行估计计算。11Nkx1111()NTkkx对三类数据分
5、布参数的估计结果如图 2 所示图 2.三类数据的参数估计结果由参数估计结果得到,每一类所选的 15 个样本,基本可以表现出该类数据的分布特性。样本数据越多,估计效果越好。2.基于最小错误率的贝叶斯决策的两两分类得到三类的分布参数估计值,即得到了三类的类条件概率密度 1112()exp()()Tdpx x12 2212()()()( Td 13 33123()exp()()( Tdpx x对第一组与第二组数据进行分类,基于最小错误率的贝叶斯分类准则如下 1112(|)(|)| |()xPPxpp在该实验中,我们设 , 均为 0.5,所以只需计算12()11 2(|)|xxp第一组与第二组数据各随
6、机选取了 15 个样本进行参数估计,我们对两组数据中剩余的 70个数据进行分类,结果如图 3 所示图 3.第一组与第二组剩余数据的分类结果图 3 中,每一行为一被分类数据,总数为 70。因为一页无法全部显示,分两页进行显示。每一行的前 4 列为待分类数据的 4 个特征,第 5 列表示该数据在原始数据中的位置,第 6列为计算得到的待分类数据属于第一类的后验概率,第 7 列为待分类数据的分类结果。由结果可以看到,第一组中剩余的 35 个数(即上图中前 35 行数据,其在原数据的位置均在50 以内)计算得到的属于第一类的类条件概率密度远大于属于第二类的类条件概率密度,所以由贝叶斯公式可得,其属于第一
7、类的后验概率近似为 1。第二组中剩余的 35 个数(即上图中后 35 行数据,其在原数据的位置均在 51 到 100 之间)计算得到的属于第一类的类条件概率密度远小于属于第二类的类条件概率密度,所以由贝叶斯公式可得,其属于第一类的后验概率均很小,近似为 0。由结果可得,第一组数据与第二组数据其类条件概率密度基本上无重叠部分,所以两类数据基本上完全可分。同理,对第一组与第三组剩余 70 个数据进行分类,结果如图 4.图 4. 第一组与第三组剩余数据分类结果与之前分析类似,第一组与第三组数据基本上完全可分。对第二组和第三组剩余 70 个数据进行分类,结果如图 5图 5.第二组与第三组剩余数据分类结
8、果上图中第 6 列为计算得到的属于第 2 类的后验概率。观察第 14,23 个数据分类结果,第14,23 个数据在原始数据中分别在 71,84,说明这两个数据应属于第二组,但计算出的属于第二类的后验概率为 0.0156,0.0954,均小于 0.5,所以将这两个数据错分为第 3 类。观察这两个数据可得,这两个数据在某些特征与其他属于第二组的数据有明显差异,但与第三组数据差异不大,所以将其错分为了第三类。观察第 57,59,60 个数据分类结果,这三个数据在原始数据中均属于第三类,计算得到的属于第二类的后验概率分别为0.5811,0.9865,0.8322,均大于 0.5,所以将其分为了第二类,观察期特征,与第三组其他数据有明显差异,而与第二组数据差异不大,所以将其错分为第二类。由上述结果可得,第二组与第三组中的某些数据会有变异,造成两组数据不能完全可分。