1、模式识别Pattern recognition,模式识别的定义,模式:某类事物区别于其他事物的一组特征。 模式识别(Pattern Recognition):是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。,模式识别过程,化学模式识别,化学组成:各类天然产物组成不同。有自己的特征组成 属于统计模式识别,统计模式识别中应注意的问题,多测量指标,有的数据大,有的小 大的一定重要,小的一定不重要吗?,数据预处理,一般情况下,对于有不同量纲测量的研究体系,预处理经常采用的方法,中心化:对数据的每一个属性列,将每个样本减去
2、所有样本的该属性列的平均值 自标度化:对数据的每一个属性列,将每个样本减去所有样本的该属性列的平均值,并除以该列的方差。即均值为0,方差归一。 标准化:标准化的处理方法很多,对不同的仪器有不同的方法。如在色谱中,采用面积归一化。以减少进样误差的影响。具体操作时,按样本,将所有数值加和,然后每个数值除以该和。而对质谱,则常用最大归一化的方法,具体操作时,按样本,每个数值都除以样本的最大值。,无监督的模式识别,在建立分类模式之前,不知道样本的分类信息 根据样本自身的特征在空间的自然聚集情况,根据物以类聚的原则,来判断样本的分类情况,聚在一起的被称为一类。 一般以距离来判断样本间的差别情况,例如欧式
3、距离经常作为无监督模式识别的计算依据,PCA,一般情况下,描述一个样本的特征会有很多。 如果将一个特征看做是空间的一维,每个样本是高维空间的一个点 难,人类无法想象高维空间 办法:在高维空间中找到一个合理的平面,将高维空间向低维空间投影,如何找到超平面,应该找怎样的超平面:样本散度最大的超平面。 PCA逐一找散度最大的方向,验证PCA找的最大散度方向,以2类问题为列,设样本类间的差别较大,而类内的差别相对较小。 PCA寻找的最大散度方向上,正好就应该是样本的差异化最大的方向。,样例,原数据,图,PCA后,完善程序PCA的plot,思考 PLOT是对得分矩阵T的被选2列作图 得分矩阵T已知 被选
4、的2个主成分需要确定 在牛顿迭代法的画图程序的基础上实现,解析红木数据,7种红木数据,原始数据,经过PCA分解,效果? 经过数据过滤,经过PCA分解,效果? 数据预处理,,KNN K Nearest Neighbor,有监督的方法 找最有发言权的一组样本投票表决 和未知样本距离近的样本,就是最有发言权的. 表决结果 result =sum(vi/di), di是第i个样本与未知样本的距离vi=1 if si是第一类 else vi =-1result 0 第一类,否则第二类,KNN算法描述,获得先验知识矩阵X和Y,保存备用 获得预报的样本矩阵X1,一行一个样本 让i=0 取X1的第i个样本,记作si 计算 si与所有先验样本的距离,得到一个向量,记作distance 从distance 中,找到k个最小的样本,记录其距离值和对应的样本编号,以得到其分类信息 根据投票表决公式,计算投票值result,对样本进行归类,并保存 i增1,取下一个样本,转到d),直到样本预报结束,