1、宫颈癌细胞识别方法研究引言我国医学有几千年的历史,妇产科一直是医学界中平凡而又有研究价值的一门科学,现在全世界有近一半以上的妇女患有或多或少的妇科疾病,而有些疾病严重影响广大妇女的健康,宫颈癌是常见的妇科恶性肿瘤之一,发病率在女性恶性肿瘤中居第二位,仅次于乳腺癌。全世界每年的宫颈癌新发病例有 46.6 万。据统计,我国每年宫颈癌的新发病例数超过 13 万,每年死于宫颈癌约有 5 万人,占女性癌症死亡率的第一位。宫颈癌简介宫颈癌是指发生在子宫阴道部及宫颈管的恶性肿瘤。宫颈癌的转移,可向邻近组织和器官直接蔓延,向下至阴道穹窿及阴道壁,向上可侵犯子宫体,向两侧可侵犯盆腔组织,向前可侵犯膀胱,向后可侵
2、犯直肠。也可通过淋巴管转移至宫颈旁、髂内、髂外、腹股沟淋巴结,晚期甚至可转移到锁骨上及全身其他淋巴结。血行转移比较少见,常见的转移部位是肺、肝及骨。当宫颈癌的症状出现三个月后就诊者已有 2/3 为癌症晚期。宫颈癌最常见的症状为白带增多和阴道出血,白带可为米汤样或粉红色,且有恶臭;阴道出血开始于性交后、排便后或妇科检查后,绝经后出现阴道流血更应注意。卫生组织癌症专家说,子宫颈癌细胞检测非常安全,也不繁琐,25 至 65 岁的妇女每 3 至 5 年进行一次就可以,该方法对降低子宫颈癌致死率是非常有效的。在进行例行检查时其中一项重要内容就是检验癌细胞的有无和变化,为确诊和治疗提供有力的证据。基于像素
3、的方法直方图阈值法有早期的 p-title 法,即假定亮的背景中存在暗的物体,简单选取使物体目标所占面积达到 p%的阈值。这种方法对于知道物体大致所占比例的图像特别有效,但是适用范围很窄。应用得很多的比较成熟的方法 Otsu 法,即认为阈值 T 把像素点分成 C0 和 C1 两类,选取使类间方差最大的阈值。近年,付忠良对 Otsu 法进行了推广,分别用平均方差、平均邻域方差和平均梯度方差代替 Otsu 方法中的均值,取得很好效果。另外一种重要的阈值选择办法是基于熵值的选择方法。认为最优的阈值是使分割的两部分的熵值之和最大。除了常规熵值(-PiLnPi) ,一些新的熵值定义也被用于该方法。比如
4、P.Sahoo 等用 Renyi 熵(-ln(Pi)取代常规熵,张二虎定义了一种新熵Pie(1-p)并应用于彩色印刷网点图像,效果很好。 基于直方图的形态也有几种不同方法提出。对于直方图呈现明显双峰的图像,可是选择谷底作为阈值。而谷底不明显的图像可以利用凸凹度选择阈值,选择其其峰的肩部的凸凹拐点作为阈值。对于大背景中存在较小物体的这类图像而言,其直方图物体峰往往淹没在背景峰中,无法分辨。很多医学图像也具有这样的特点。 1 9Bhanu 和 Faugeras 提出使用梯度松弛算法解决这类问题:首先给每个点指定一个初始的出现概率,然后根据该像素和 8-邻点的关系进行梯度松弛运算,使梯度方向的灰度差
5、别变大,扩大灰度范围,这样物体峰和背景峰就较好分开。 分水岭算法是从较低的但仍能正确分割出物体的阈值出发,对物体进行分割,物体间会有较宽的边界,然后逐步提高阈值,直至物体的边界接触,从而获得最优的阈值,这是一种自适应的算法,对于物体距离过近的图像可以获得满意的分割效果。对于受光照等原因,灰度分布很不均匀的图像,往往可以采用局部阈值法:将图片分割成若干个小图片,每个小图片相对比较均匀,对每个小图片分别应用全局阈值法,分别判断单峰,双峰,然后综合得到整个图片的分割。在对彩色图像的处理中,一种聚类的方法得到应用。它首先将彩色图像映射到色彩空间,然后通过聚类方法获得类别的数目和阈值,常用的 k-mea
6、ns,c-means 以及 fuzzy 聚类均利用,最后对每个像素点进行标号,从而达到分割目的。 基于像素点的方法由于其是最具局域化的分割方法,基本只考虑了单个像素的性质,没有考虑像素在空间上的关系,虽然它得到了很多的加强,而且在计算代价上面很占优势,但是它对复杂或者噪声和干扰很大的图像不能取得很好效果,甚至会导致错误分割。因此,在生物医学图像应用的很少。基于边界的方法基于边界的分割是“中等层次”的分割,它利用的像素点和其领域的像素点的关系。一般是通过以下步骤实现:(1)使用某种技术寻找候选边界点( 常用如 sobel 算子等);(2)对这些边界点进行评估筛选( 如指定边界概率等);(3)连接
7、(如利用跟踪虫技术等)边界点获得封闭边界从而完成对图像的分割。其中边界点的寻找和评估是这种方法主要的难点所在。一种常用并且重要的边界寻找方法是 LOG(Lapalacian Of Gaussion)算子。其基本过程:高斯平滑拉普拉斯运算零交叉点。这种方法的困难是边界点的定位和边界点的真伪判定。苑玮琦等提出基于局域差分极限的方法。David H 和 YossiRubner 通过对图像噪声的分析,给每个边界点赋予一个真边界点的概率。从不同角度的解决这些不足。1986 年 Canny 对过去的方法和应用作了小结和分析,并且提出了三条准则:(1)好的检测结果。要求尽量的检测出真实边缘点;同时尽可能少的
8、虚报边缘点。(2)定位要准确。要求和实际边缘位置偏差最小。(3)低重复响应。要求对同一个边缘点的响应不要重复或者重复很少。Canny 推导了连续情况下的满足这些条件的数学表达式,并建议了几种边缘算子,开辟了寻找最优化边缘检定算子的道路。对于有纹理的图像,不同纹理之间的边界检测需要用到分型理论。分形理论的基本思想是:客观事物具有自相似的层次结构,局部与整体在形态、功能、信息、时间、空间等方面具有统计意义上的相似性,即自相似性。自相似原理的引入使分形理论成为研究和处理自然与工程中不规则图像的有利工具。广义而言,任何物体的表面都可以认为是具有某种纹理特征的,故任何图像都包含了若干种纹理区域的灰度表面
9、。在这些纹理不同的灰度表面之间的灰度起伏变化显著,外在就表现为边缘。大多数的纹理图像都可以用分形模型进行描述,而纹理特征的变化包含了图像的边缘信息。张坤华等在图像分形模型分数布朗随机场的基础上,通过分析图像的分形参数,提出一种新的边缘检测特征,并利用自适应阈值,实现图像的边缘检测。基于区域的方法基于区域的方法考虑较大范围的区域中的像素的关系,其基本方法是区域的合并和分离。 区域生长法,即通过给定的种子区域出发,不断的合并相似区域,消除较弱的边界,直至满足一定的条件停止生长,从而达到分割图像的目的。它的分割结果不仅仅受到终止条件的影响,还受到生长顺序的影响。一种改进的区域生长方法由 Andrew
10、Mehnert,Paul Jackwy 提出。 流域算法将灰度的大小假想为地形的高低,将局域最低点视为流域的标记点。对每个点计算其梯度,然后沿梯度最大的方向搜索,直至归于某个流域。整个图像按照流域标号,从而完成对图像的分割。在流域标号图中梯度不为零的点就是边界。流域算法的主要缺点是容易导致过渡分割,并且计算量较大。利用多分辨率分析(金字塔算法) 可以改善这些问题。近年来利用先验知识的方法得到很大发展。其中主动轮廓法是很受重视的一类方法。主动轮廓法又称为 Snake 法,主要是通过对区域定义一种能量函数,而后动态优化这个能量函数,使之最大或者最小,从而逼近目标的真实轮廓。其能量的定义主要由轮廓本
11、身的能量(形状、光滑度等)、图像内部的能量(内部点的一致性、内点与边界的符合程度)和其他人为规定的约束能量组成。主要的进展一方面是改良 Snake,一方面是各种搜索全局最优解的工具如遗传算法、Tabu 算法等的应用。它的主要缺点是一般需要预先给出近似的轮廓,而且计算的代价非常高,容易收敛到局部最优解上。 很多时候寻找的是具有一定形状特征的物体,那么可以通过一些变换(比如 Hough 变换)将图像变换到参数空间,在参数空间寻找极大值从而达到图像分割的目的。Hai-Shan Wu 等人为细胞核是椭圆形,并通过 5 参数堆积,对粘连重叠的细胞核分割取得很好的效果。金字塔算法对于图像的多分辨率分析,金
12、字塔算法因为其简单易行得到很广泛的应用。Burt 和Adelson 引入一个基本高斯函数的金字塔编码策略。首先对图像用高斯脉冲响应作低通滤波,滤波之后结果从原图像中减去。图像中的高频信号保留在差值图像中,然后对低通滤波后的图像进行隔行采样,细节也就不会因此而丢失。其过程如下:设 f 0(i , j )为原始图像, g (i , j )为高斯形状的低通滤波器脉冲响应。那么下一层的半分辨率 f1 (i , j )的图像和整分辨率差值图像 h1 ( i , j )为:f1 ( i , j ) = f0 ? g (2 i ,2 j ) 和 h1 ( i, j ) = f0 ( i, j ) f0 ?g
13、 (i , j)这一过程反复迭代进行就可以将原很大的图像分解为分辨率降低一半的系列图像。显然,在较低的分辨率的图像上,噪声和局部的细小边缘得到很强抑制,同时需要处理的数据量也大大减小。 近年,发展了连续的金字塔( 即不再以 1/2 来降低分辨率 )、可调金字塔等改进算法。但是就处理效果来说,多数应用的还是使用普通的拉普拉斯金字塔,只是有些滤波函数不一样。比如可分离的高斯滤波因为计算简便等优点在实际中常常被采用。椭圆拟合在计算机视觉领域,常常需要探测椭圆,特别是在人造场景(很多是圆形的投影) 、生物细胞显微图像等场合。目前,基本上有三类拟合的方法。一类是最小二乘法,一类是遍历方法,一类是 Hou
14、gh 变换方法。实际的图像中,不仅仅是存在噪声,还有某些无法剔除的错误信息,因此简单的最小二乘法不能得到应用,一些鲁棒性很强的方法得到发展,如 Theil-Sen, Repeated Median 方法, K-RANSAC 算法等。 Theil-Sen 方法和 Repeated Median 方法都属于遍历访法,都是通过遍历所有可能的椭圆最小子集实现的。所谓椭圆的最小集合就是能够确定一个椭圆的最小的点集。对于椭圆而言就是 5 个不同的点集。参考文献1孙怀江,腹水脱落癌细胞显微图像分类识别研究D。南京理工大学硕士论文,2002 年2王浩军,宫颈癌癌细胞自动识别与分类方法的研究D。西安交通大学博士论文,2002年3徐长发,李国宽.实用小波方法,华中科技大学出版社, 2004