1、http:/- 1 -病理图像分析及识别算法研究 王 玉 山 阙 大 顺武汉理工大学信息工程学院,武 汉(430063)E-mail: 摘 要: 本文医学图像作为研究对象,针对任何一类特征都不能很好地表达医学图像的缺点以及进一步提高医学图像的识别率,本文采用基于直方图的颜色特征、基于小波包和分形相结合的纹理特征和基于不变矩的形状特征等;采用改进后的主元分析法进行特征级数据融合,最后采用多数投票法进行决策 级数据融合,得到最 终识别结 果。关键词:图像识别,特征提取,神经网络,主元分析法,多数投票法中图分类号:TP3911 引言本文主要以肿瘤细胞显微图像为研究对象,研究肿瘤细胞特征提取和识别算法
2、,其目的主要有:一、使其成为病理专家诊断过程中的辅助手段,减轻工作负担;二、作为医学院学生学习研究肿瘤细胞的特点及锻炼诊断技能的有效途径。本文主要完成了病理图像的特征提取和分析,达到了识别癌细胞的目的。2 病理图像的预处理图像的预处理 3是图像进行分析和处理之前的重要一步,主要起到降低噪声干扰,增强图像的作用,对信息微弱的图像进行增强,对失真的图像进行几何矫正等。本文采用的细胞显微图像有的是经过 HE 染色处理过的彩色图像,而计算机图像处理中需要的往往是灰度图像和二值图像。二值图像也可由灰度图像经过阈值化处理得到。采用中值滤波法对图像进行滤波,中值滤波对干扰脉冲和点状噪声有良好的抑制作用,而且
3、对图像边缘能有很好的保持非线性图像增强技术。也讨论了图像锐化 1处理和基于边缘检测的分割算法 3以及 Canny 算子在肿瘤细胞显微图像中的应用。3 病理图像的特征提取由于物理特征和结构特征容易被人们的感觉器官所接受,便于人们直观地识别对象。但是利用计算机自动识别系统,它抽象和处理数学特征的能力要比人强的多。因此提取一些数学参量作为病理图像的识别特征参量。3.1 病理图像灰度统计量特征提取一般很难直接将图像的直方图作为特征,需要通过一些统计量来反映图像的直方图。常用:均值、方差、歪斜度、峰态、能量、 熵等 6 个统计量来反映图像的直方图特征 4。 3.2 病理图像形状特征提取 由于不变矩概念清
4、晰,识别率稳定,对具有旋转和缩放变化的目标有良好的不变性及抗干扰性,能有效地反映图像的本质特征。本文采用基于不变矩 3的形状特征提取,共提取了 7 维不变矩 3特征向量。 3.3 基于病理的纹理特征提取http:/- 2 -本文采取小波包和分形相结合的方法提取纹理特征 3,首先利用小波包分解,进行特征提取。把两次提取的特征值共同作为图像的纹理特征值。(1)首先对纹理图像进行小波包分解,采用db3和shannon熵标准,第一级小波包分解后,可以得到 4 幅子图像。第二级可以得到 16 幅子图像。(2)求每个子图像的能量。纹理特征主要集中在中,高频段部分,所以最低频段的两幅子图的能量可以不考虑。求
5、其余 18 个图像各自的平均能量, , 是小波包分解后子图MiNjjixE12),(像的尺寸, 表示子图像的行值和列值, 是小波包分解的系数。(3)对于 18 幅图像ji,中,依次排序,得到 3 个平均能量最低的 3 幅图像,求这 3 幅图像的分形维数。(4) 特征向量:把得到的 15 幅图像的平均能量,以及能量最低的 3 幅图像的分形维数一起构成一个18 维的特征向量。表 3.1 两幅图像的纹理特征正常细胞 异常细胞基于小波包与分形结合的纹理特征提取3.5800, 3.2215,0.801589.0617,67.0945,6.28922.5708,5.9148,1.0069 1.7350,2
6、.2523,0.8477 5.3333,1.6118,1.0583 1.2778,1.2862,0.77623.3232,3.4763 ,0.6197,70.5205, 53.7977,5.5988 1.8081, 6.5077,0.6341 1.6419, 1.3383,0.5728 7.3939, 1.8269 , 0.8769 1.1262, 1.0977 ,0.6984如表 3.1 示为一个正常细胞与一个异常细胞所提取的纹理特征。通过实验证明,小波包和分形相结合提取纹理特征的方法,在纹理分类中取得良好的效果。4 基于神经网络的决策级融合的医学图像识别4.1 基于主元分析法的多特征融合前
7、面提取的三种特征各有其优缺点:图像颜色特征提取方便,但缺乏空间分布信息;图像纹理特征反映的只是图像的一种局部结构化特征等等。图像特征向量的维数太高,数据量庞大,而且特征之间存在着大量的信息冗余。通过主元分析 2(PCA),既消除特征间的冗余信息,降低了特征空间的维数,同时又保留了所需要的识别信息。对于每一幅图像,共提取上面的 31 维特征。表 4.1 所示的为一幅正常细胞图像和一幅异常细胞图像提取的特征量。表 4.1 两幅细胞图像的特征量基于灰度直方图的颜色特征基于小波包与分形结合的纹理特征基于不变矩的形状特征正常细胞131.5732,3.3120e+003,0.2908,1.7276,0.0
8、071,5.08513.5800, 3.2215, 0.8015,89.0617,67.0945,6.2892, 2.5708,5.9148,1.0069,1.7350,2.2523,0.8477,5.3333,1.6118,1.0583,1.2778,1.2862,0.77622.8038,0.8525,9.2486,3.1033,16.7423,2.6843,0.2254http:/- 3 -异常细胞153.983,4.9352e+003,-0.2936, 1.4547,0.0125, 4.82533.3232, 3.4763,0.6197,70.5205,53.7977,5.5988 ,
9、1.8081,6.5077,0.6341,1.6419,1.3383,0.5728,7.3939,1.8269,0.87691.1262,1.0977 ,0.69843.7531,0.6807,0.1301,0.0160,0.0004, 0.01190.0009本文采用基于 MATLAB 的 princomp 函数进行特征级数据融合 1,通过对各主成分的累积贡献率的分析表明,主元分析后的 8 维向量就可以 98.7692%的表示分析以前的 31 维的特征量,实验结果表明,经过特征量融合后的图像识别率有了新的提高。4.2 基于多数投票法的决策级融合4.2.1 BP 神经网络识别BP 神经网络 1
10、是基于误差反向传播算法的多层前馈网络,可以以任意精度逼近任意连续函数,所以广泛用于非线性建模、函数逼近和模式识别等方面。该函数的调用格式为:(4.1)(,in)netfAlcTraFu其中 net 中存放所建立的网络属性和网格参数,四个输入变量分别为:A R2 的矩阵,每行两元素分别为每个输入向量的最大和最小值;L行向量,每个元素表示每层神经元的个数;C字符串向量,元素为每层神经元的传输函数名;TrainFun字符串变量,为网络的训练函数名。4.2.2 欧氏距离法识别欧式距离是一个通常采用的距离定义,它是在 维空间中两个点之间的真实距离。在m二维和三维空间中的欧氏距离就是两点之间的距离,二维公
11、式为:(4.2)1212()()dsqrtxy推广到 n 维空间,欧式距离的公式是:(4.3)iix其中 , 表示第一个点的第 维坐标, 表示第二个点的第 维坐标。欧i.21i 2i i式距离可看作信号的相似程度,距离越近就越相似。采用欧氏距离分类器对目标参数进行了识别,不仅提高了目标识别正确率,同时还减少了识别时间,取得了较好的实验效果。4.2.3 LVQ(Learning Vector Quantization)神经网络识别LVQ 算法的具体步骤如下:(1)网络初始化,用较小的随机数设定输入层和隐含层之间的权值初始值;(2)输入向量的输入,将向量 送入到输入层;12,.Tnxx(3)计算隐
12、含层权值向量与输入向量的距离,隐含成神经元和输入向量的距离;(4)计算并选择与权值向量的距离最小的神经元把其称为胜出神经元,记为 ;(5)更新连接j权值,如果胜出神经元和预先指定的分类一致,称为正确分类,否则称为不正确分类。正确分类和不正确分类时分别按下面两式: 来调整权值的量;(6)()ijxwij判断是否满足预先设定的最大迭代次数,满足时算法结束,否则返回 2,进入下一轮学习。http:/- 4 -4.2.4 Bayes 法识别贝叶斯分类器 1的分类识别原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率, 该网络中应包含类结点 C,其中 C 的取值来自于类集合 , 还包含12(,
13、.)mc一组结点 , 表示用于分类的特征。应用贝叶斯网络分类器进行分类主12(,.)nX要分成两阶段。第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器;第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。4.3 基于决策级的多数投票法融合多数投票法是决策级数据融合 3的一种简单有效的方法,该方法类似于选举中的投票过程,可以将整个分类系统看作是一个黑箱子,输入一类样本 X,然后输出一个分类标记。用总体判决函数 ,即 。为了便于讨论,将分类器 k 的输出 用J()FX()J()kFX另一种形式表示。定义一个如下的二值特征函数 :()kP(4.4)1i()0kie
14、PC其 他 值多种分类器相融合,采用多数投票法的融合策略,即整个系统的输出以大多数分类器的识别结果为准。当半数以上分类器认为输入 为 时,分类系统就将 分类为 。XiCXiC4.4 实验结果及分析采用细胞级别的切片图像为实验对象,抽取其中 1200 幅,其中正常 600 幅和癌化 600幅两类图像。识别时选取 100 幅正常和 100 幅癌化图像用于训练,剩下用于验证分类效果。表 4.2 四种识别方法和融合后的识别率统计算法/识别率 100 幅 300 幅 1000 幅欧氏距离法识别 94.000% 92.500% 90.540%BP 神经网络识别 87.000% 85.650% 82.825
15、%LVQ 神经网络识别 91.582% 90.025% 87.625%Bayes 法识别 90.125% 88.560% 86.540%融合后 97.540% 94.825% 92.675%实验结果表明:通过主元分析(PCA),不仅既消除特征间的冗余信息,降低了特征空间的维数,同时又保留了所需要的识别信息和提高了识别率;决策级数据融合后的识别率与前四种识别方法的识别率相比较,识别率有了进一步提高。结论本文针对单一特征不能很好表达医学图像和单个分类器识别效果不理想的缺点,通过提取图像颜色、纹理和形状等特征参数,设计了一种基于神经网络的特征级与决策级数据融合相结合的医学图像分类识别算法。大量的实验
16、的理论分析和实验结果均表明经过特征级融合的特征更好地表达医学图像,有效地解决了任何单一特征都不能很好地表达医学图像的不足,经过决策级数据融合可以充分利用不同分类器之间的互补性,能提高医学图像的识别率。http:/- 5 -参考文献1李俊山,李旭辉.数字图像处理.北京:清华大学出版社,2007.2王丽亚,李小平,方凯.纹理图像的特征提取和分类J.微电子学与计算机,2005.3冈萨雷斯,数字图像处理M. 北京:电子工业出版社,2005.4Gonzalez Rafael C.Digital Image Processing.Prentice Hall, 2nd edition, 2005 5Hand
17、 David. Principles of Data Mining. The MIT Press, 2006.Pathological Image Analysis and Recognition AlgorithmWang YuShan Que DaShunSchool of Information Engineering, Wuhan University of Technology , Wuhan 430063, P. R.ChinaAbstract: In this paper, the medical images are researched as an object, for t
18、he shortcoming that a single feature can better express medical images,color, shape and texture features are respectively extracted based on histogram, invariant moment and combining wavelet packet with fractal; Principal component analysis method is used in feature-level data fusion; At last, majority voting algorithm is used in decision-level data fusion, and received the final recognition results.Keyword: Image Recognition, Feature Extraction, Neural Network, PAC, Majority Voting Algorithm