1、第 30 卷第 3 期 电 子 与 信 息 学 报 Vol.30No.3 2008 年 3 月 Journal of Electronics Structural risk minimization; Total least squares; Local regression 1 引言为解决各种成像设备如显示器、打印机之间色彩的一致性,色彩管理技术通过引入与设备无关色彩空间,建立设备的彩色特性描述,并按用户要求进行成像设备的色彩校正。色彩校正的主要任务是补偿外设个体色彩空间基的偏差,其实现方法可以划分为多重回归、三维插值、神经网络和模糊逻辑等1。 三维插值的校正精度较高,但是需要较大数目的样本
2、,而且很难查找校正颜色点所在几何体2。神经网络和模糊逻辑虽然具有很大的适用性,但其训练时间和计算代价是个问题1,如神经网络的训练时间往往可以达到十几个小时3。较其他方法,多重回归校正假定多项式模型是源色彩空间和目的色彩空间的合理近似描述,因而转换关系简单、容易确定系数,但其校正精度往往较差。分区回归校正算法47在划分后的色彩空间分别进行回归校正,不但可提高精度,而2006-08-14 收到, 2007-04-09 改回 国家部级基金 (413160501)和西安电子科技大学研究生创新基金(05008)资助课题 且还保持多重回归的简单性。一般简单将色彩空间进行均匀划分,其中文献 7提出了基于八叉
3、树的分区回归校正算法,虽然该算法进一步拓展了分区概念,且其校正精度较理想,但是该算法须依每一次分区的校正精度迭代划分从而生成最后的分区,其执行时间较长,且存在校正颜色点分区的归属及误差较大的奇异点等问题。此外,当分区较小时 (各分区仅包含几个样本点时 ), 各分区回归校正算法的校正精度反而不理想了。本文吸收了分区概念的优点,提出校正颜色点的K 近邻集,并结合结构风险最小化原则和全最小二乘法进行色彩校正。实验结果证明本文算法的校正精度和鲁棒性较多重回归校正和分区回归校正都有很大提高。 2 传统多重回归校正的数学分析 多重回归假设色彩空间之间的映射关系可以用一个多项式来线性逼近1。设有输入向量1(
4、, )ii ipxx= x ,其中,ip N ,则估计输出可以表示为8, 9(此处仅仅考虑输出为一维的情况 ): 01(,)pi i i ij ijjyf x=+x (1) 718 电 子 与 信 息 学 报 第 30 卷 其中ijx 可以来自不同的源: 定量输入; 基展开, 如221iixx= ;变量间的交互作用,如312iiixxx= 。如对 Lab 空间数据进行多重回归时,各多项式的项如式 (2)所示。 222(,) (, , , , , , )Lab LabL a b LaLbab (2) 当有样本集11(,),(, )nnyyxx, 其中12(., )iii ipxx x= x ,一
5、般通过最小二乘法极小化残差的平方和来估计参数l T01(, )p = ,如式 (3)所示。 l Targmin( ) ( )= yX yX (3) 其中 X 为输入矩阵 (第 1 列为 1), y 为输出向量。式 (3)的结果为 l(T1T)XX Xy (4) 为了提高多重回归校正的精度并且保持其简单性,许多文献 47提出分区回归校正。 分区回归校正首先将色彩空间分为多个子空间,然后在每个子空间中进行多重回归校正,通常将色彩空间均匀划分。然而在实际的色彩校正过程中,发现如果进一步均匀划分区域,一方面有些区域的样本点很少甚至没有样本点,这就引起了分区回归矩阵的确定以及校正样本点的区域归属等众多问
6、题7,另一方面此时的校正精度可能不但没有提高,反而下降。 3 基于结构风险最小化和全最小二乘法的色彩校正 3.1 邻域上的结构风险最小化 分区回归校正方法之所以优于全局的多重回归校正原因在于,对于校正颜色点,提供主要校正信息的颜色点一般都在该校正颜色点的附近,这也就是四面体插值算法仅利用4 个颜色点就可得到较好的校正效果的原因。因此本文提出在源色彩空间的校正颜色点邻域进行回归校正。邻域为统计学习中的最近邻,即选择最近邻校正颜色点的 K 个数据点,这样就避免了分区回归校正中校正样本点的区域归属问题。 然而,若将多重回归直接应用于邻域上的校正,效果如同上述分区回归校正划分很小的分区一样,精度不但没
7、有提高,反而更差,其原因在于映射后的数据各分量存在较大的相关性。以某次打印机色彩校正时 Lab 样本集数据为例,式(2)中第 1 个分量和第 4 个分量的相关系数 0.9996, 第 2 个分量和第 7 个分量相关系数为 0.9945。 当 X 中的变量高度相关时,行列式TXX几乎接近于零,此时TXX的逆矩阵会含有严重的舍入误差10,式 (3)的计算就不可靠,这也是分区回归校正当分区很小时校正精度反而差的原因了。 为了得到最好的逼近, 定义一个在给定输入 X 下理想响应 y 和学习机器给出的 (,)f X 相应之间的损失,如式 (5)。考虑损失的数学期望值 () Loss(,( ,)d(,)R
8、fF=yX Xy (5) 称式 (5)风险泛函,其中 Loss()为损失函数, (,)F Xy 为联合概率分布函数。学习的目标就是寻找合适的函数 (,)f X ,使其最小化风险泛函。具体到多重回归中的最小二乘法,采用式 (3)作为损失函数来最小化风险泛函。 通常将这样的最小化风险泛函为经验风险最小化原则 (Empirical Risk Minimization, ERM),即,多重回归的经验风险为 2LS Temp2()()()R = = yX yX yX (6) 为了提高学习机器的推广能力,统计学习理论11从 VC维的概念出发,推导出结构风险最小化原则 (Structural Risk Mi
9、nimization, SRM),并得到结论:学习机器的实际风险是由两部分组成的,一是经验风险 (训练误差 ),另一个是置信范围,它和学习机器的 VC 维及其训练样本数有关。在有限训练样本情况下,不但要使得经验风险最小,而且要缩小置信范围,才能取得较小的实际风险,并对未来的样本 (测试样本集 )保持较好的推广性。 色彩校正的过程就是通过色靶上的样本集 (训练样本 )来估计与设备无关色彩空间 (如 Lab 色彩空间 )中均匀划分后的格点数据 (测试样本集 ), 因此提高校正精度即提高校正算法的推广性。故本文算法在邻域上进一步采用结构风险最小化原则求得回归系数,即 lempargmin( ( )
10、( / )hn=+R (7) 其中emp()R 为经验风险, (/)hn 为置信范围, h 为 VC 维,n 是样本数。结合式 (6),可以发现式 (7)和式 (3)的区别在于,置信范围 (/)hn 约束了最小二乘法的经验风险,使得TXX非零,从而避免了在较小分区或邻域中数据分量存在相关性的问题。 3.2 全最小二乘法的经验风险 多重回归中最小二乘法的另外一种表示为:考虑超定方程 =Xy ,其解LS 使得LSmin = yX yX。也 就是说, 最小二乘法假定 y 存在着误差 y : =+Xyy ,其解就是令 y 的误差平方和最小,即 l2TLS2Targmin argmin( )argmin
11、()()= = = yyyyX yX (8) 最小二乘法只考虑了 y 的不精确性, 然而 X 在实际问题中也不可避免含有噪声,具体到色彩校正中,分光测色仪的测量以及打印纸张等均可带来噪声, 因此输入 X 也常常不是精确的,即 ()+=+XXyy 。为合理解决这一问题,提出采用全最小二乘法12, 13。 全最小二乘法的解TLS 为 l2TLS2argmin |= Xy s.t. ()+=+XXyy (9) 利用拉格朗日乘子法, 将式 (9)中的优化问题可以转化为 l22TLS22argmin1=+yX(10) 由式 (10)可以认为,全最小二乘法的经验风险为 第 3 期 丁二锐等: 基于结构风险
12、最小化和全最小二乘法的色彩校正 719 2TLS 2emp 22()1R=+yX(11) 图 1 给出了最小二乘法和全最小二乘法在一维情况下的的区别,可以看出较最小二乘解,全最小二乘解直观上投影距离较短,其残差垂直于回归直线,且残差由 X 和 y 的误差所构成。故全最小二乘法的回归误差小于最小二乘法的回归误差。 图 1 最小二乘法和全最小二乘法的区别 3.3 局部回归校正 由上述讨论,提出在进行色彩校正时将全最小二乘法的残差作为结构风险最小化中的经验风险。一方面结构风险最小化原则消除了邻域数据分量之间的相关性,缩小了实际的风险误差,另一方面全最小二乘法考虑了输入输出数据存在误差的情况,使得校正
13、更加精确。即本文算法可描述为 l TLSRSM_TLSemp2222argmin ( ) ( / )argmin ( / )1Rhnhn=+=+yX(12) 对结构风险最小化中的置信范围选择带有收缩变量的惩罚项。 22(/)hn s = , 01s (13) 则式 (12)变为 l222RSM_TLS 2 22argmin1s=+yX, 01s (14) 式 (14)的输出数据 y (在色彩校正中为目的色彩空间数据 )为一维输出,然而目的色彩空间数据往往是多维的。实际校正中,一种简单的方法是针对目的色彩空间的每一维利用算法得到回归校正系数。 另外,由于局部回归校正需要找到每个校正颜色点的邻域,
14、并优化式 (14)得到相应的校正系数矩阵,因此影响局部回归校正时间的两个重要因素为每个校正颜色点邻域的确定和优化算法的选取。直线搜索由于收敛速度快可以容易解决第 2 个问题。对于第 1 个问题,可以利用邻域的历史局部信息加快邻域的确定过程,从而减轻或避免求解一部分邻域校正系数矩阵。在色彩校正时, ICC profile 规范14规定校正颜色点在与设备无关色彩空间中 (如 Lab)都是均匀的,因此相邻校正颜色点在与设备无关色彩空间中是比较接近的,也就是说前一个校正颜色点的邻域和下一个校正颜色点的邻域在很大程度上是有重叠的或者是完全一样的,因此可以借助历史的 (上一次的 )校正邻域信息来确定下个校
15、正点的邻域信息,进而可以修正上次的校正系数矩阵得到新的校正系数矩阵或者直接采用上次的校正矩阵,这样就可以大大加快算法的运行速度。 4 实验 为了测试本文算法性能,分别将多重回归、分区回归和本文算法进行了实验比较,其中分区回归中的分区采取简单的八分5, 6,邻域样本点数目为 8。以上各种回归算法的次数和项数选择同样的参数,即,回归次数为 1,项数为 4。在确定邻域信息时,实验采取了简单的相等法则,即当上次校正颜色点的邻域和此次校正邻域颜色点的邻域相同时,就直接采用上次的校正矩阵,而不必重新计算校正系数矩阵。实验测试的色彩校正过程为打印机的校正,即 Lab 到 CMY 的色彩转换,黑色 K 墨量的
16、计算可依据 UCR 等算法从得到的CMY 数据中减去一部分底色,形成黑色 K,得到最后输出CMYK。 测试用的打印机为 HP designjet 800PS 大幅面喷墨打印机。分光测色仪为 GetagMacbeth SpetroScan Transmission 分光测色仪。样本集数目为 11 11 11 1331= 。根据 ICC Profile 规范14,选取 Lab 空间内均匀分布的 836个点作为校正样本集,使用E*ab作为评价函数。为消除纸张、墨水和测色设备对校正效果的影响,实验对同一打印机在同一时间段内进行校正,采用同一种 (类 )纸张,并将 3 种算法的校正结果交叉打印。各种算法
17、得到平均误差、最大误差、误差标准差和校正时间如表 1 所示。其中平均误差和最大误差用来评价校正精度,而误差标准差用来评价算法的鲁棒性15。 表1 各种算法的误差比较 算法 平均误差 最大误差 误差标准差 校正时间 (s) 多重回归 5.1570 17.8867 2.1991 0.0469 分区回归校正 3.8333 9.8412 1.3393 0.5163 本文算法 2.7994 7.6947 1.2518 155.1094 从表 1 可以看出,在色彩校正方面,本文算法无论在平均误差、最大误差以及鲁棒性 (误差标准差 )上都优于多重回归校正和分区回归校正方法。虽然本文算法较其他两种回归算法的校
18、正时间要长,但是其校正时间却远远小于三维插值的查找时间和神经网络等方法的训练时间。 5 结束语 与传统的回归色彩校正方法比较,本文提出的算法有以下几个特点: (1)算法进一步扩展了分区概念,提出了邻域上720 电 子 与 信 息 学 报 第 30 卷 校正的概念,消除了邻域数据的相关性,提高了校正精度。(2)算法利用了结构风险最小化原则,摒弃了传统多重回归(最小二乘法 )采用的经验风险最小化的缺点,提高了算法推广能力。 (3)算法采用全最小二乘法残差作为的新的经验风险,考虑到了输入、输出数据存在噪声的问题,使得算法更为健壮,精度更高。 本文算法下一步的工作可以放在如何自适应确定邻域范围并进一步
19、结合色彩校正理论以最大化算法效率。 参 考 文 献 1 Kang H R. Printer-related color processing techniques. Proceedings of SPIE, San Jose, USA, 1995, Vol.2413: 410-419. 2 黄庆梅 , 赵达尊 . 一种彩色打印机标定的预测查找方法 . 北京理工大学学报 , 2003, 23(5): 601-603. Huang Qing-mei and Zhao Da-zun. A prediction- approaching method for the calibration of co
20、lor printers. Journal of Beijing Institute of Technology, 2003, 23(5): 601-603. 3 廖宁放 , 杨卫平 , 曾华等 . 用多隐层 BP网实现的 CRT色度变换 .中国图象图形学报 , 2000, 5(6): 470-472. Liao Ning-fang, Yang Wei-ping, and Zeng Hua, et al CRT color conversion by a multi-layer BP neural network. Journal of Image and Graphics, 2000, 5(
21、6): 470-472. 4 修晓杰 , 王小华 , 朱文华 . 打印机颜色管理模型方法研究 . 宁波大学学报 (理工版 ), 2004, 17(2): 207-210. Xiu Xiao-jie, Wang Xiao-hua, and Zhu Wen-hua. Method of building printer color management model. Journal of Ningbo University (Natural Science & Engineering Edition), 2004, 17(2): 207-210. 5 朱元泓 , 孔令罔 , K Muenger,
22、张旭亮 . 扫描输入数据的颜色校正 . 武汉大学学报 (信息科学版 ), 2004, 29(9): 836-839. Zhu Yuan-hong, Kong Ling-wang, Kurt Muenger, and Zhang Xu-liang. Color correction of scanning input data. Geomatics and Information of Wuhan University, 2004, 29(9): 836-839. 6 Zhu Yuanhong, Kong Lingwang, Kurt Muenger, and Zhang Xuliang. Co
23、lor correction of scanning input data based on LMS and RGB subspaces. Chinese Journal of Scientific Instrument, 2004, 25(4): 284-287. 7 曾平 , 谯婷婷 , 顾伟松 . 3-CCD 扫描输入的分区校正 . 西安 电子科技大学学报 , 2006, 33(1): 19-23. Zeng Ping, Qiao Ting-ting, and Gu Wei-song. Region-division calibration for 3-CCD scanner input
24、. Journal of Xidian University, 2006, 33(1): 19-23. 8 Mou Tong-sheng and Shen Hui-liang. Colorimetric characterization of imaging device by total color difference minimization. Journal of Zhejiang University SCIENCE A, 2006, 7(6): 1041-1045. 9 Mendes L and Carvalho P. Adaptive polynomial regression
25、for colorimetric scanner calibration using genetic algorithms. Proceedings of the IEEE International Workshop on Intelligent Signal Processing, Faro, Portugal, 2005: 22-27. 10 付凌晖 , 王惠文 . 多项式回归的建模方法比较研究 . 数理统计与管理 , 2004, 23(1): 48-52. Fu Ling-hui and Wang Hui-wen. A comparative research of polynomia
26、l regression modeling methods. Application of Statistics and Management, 2004, 23(1): 48-52. 11 Vapnik N Vladimir. Statistical learning theory. New York: Wiley, 1998: 219-268. 12 Xia Minghua, Saber E, Sharma G, and Tekalp A Murat. End-to-end color printer calibration by total least squares regressio
27、n. IEEE Transactions on Image Processing, 1999, 8(5): 700-716. 13 孙金玮 , 刘昕 , 孙圣和 . 基于总体最小二乘法的多功能信号重构方法研究 . 电子学报 , 2004, 32(3): 391-394. Sun Jin-wei, Liu Xin, and Sun Sheng-he. TLS algorithm- based study on multi-functional sensor data reconstruction. Acta Electronica Sinica, 2004, 32(3): 391-394. 14
28、 International Color Consortium. ISO 15076-1:2005 Image technology colour management-architecture, profile format, and data structure- Part 1: Based on ICC. 1: 2004-04. 15 Gupta R Maya and Gray M Robert. Color conversion using maximum entropy estimation. IEEE International Conference on Image Processing, Thessaloniki, 2001, Vol.1: 118-121. 丁二锐: 男, 1980 年生,博士生,从事统计学习在色彩校正中的应用研究 . 王义峰: 男, 1977 年生,博士生,讲师,从事自适应色域匹配的研究 . 曾 平: 男, 1956 年生,教授,博士生导师,从事色彩管理、图形图像处理及电子成像技术的研究 .