1、 分类号 密级 UDC 学 位 论 文间歇工业过程的统计建模、在线监测和质量预测作 者 姓 名 陆宁云指导导师姓名 王福利 教授 院长 东北大学信息科学与工程学院高福荣 教授 香港科技大学化学工程系 申请学位级别 博 士 学 科 类 别 工 学学科专业名称 检测技术与自动化装置 论文提交日期 2004 年 7月 论文答辩日期 . 学位授予日期 答辩委员会主席 评阅人 东 北 大 学2004年 7月A Dissertation in Measurement Technology and Automatic InstrumentMultivariate statistical modeling,
2、online process monitoring and quality prediction for batch processes by LU NingyunSupervisor: Prof. WANG Fuli, Prof. GAO FurongNortheastern UniversityJuly 2004声 明本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包括其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本人签名:日 期:东北
3、大学博士学位论文 摘要摘 要为了迎合现代社会瞬息万变的市场需求,现代过程工业正逐渐倚重于生产小批量、多品种、高附加值产品的间歇过程。由于间歇过程固有的多变量、多工序、变量时变性、反应复杂、工序运行时间不确定;以及间歇过程产品市场占有周期短等多种原因,以主成分分析(PCA)和偏最小二乘(PLS)为核心技术的基于过程数据的多变量统计建模方法逐渐成为一个重要的在线监测、故障诊断和质量改进的工具,用于保障生产过程的安全可靠运行以及连续稳定的产品质量。目前被广泛应用于间歇过程的多向主成分分析(MPCA)和多向偏最小二乘(MPLS)模型,将一次间歇操作的所有数据当作一个样本,虽然可以有效地监视过程的整体运
4、行状况,却很难进一步分析间歇过程中每一个子操作阶段的数据特征。这使得基于 MPCA 的过程监测算法对幅值较小的故障不甚敏感,而在线的过程监测和质量预测算法在很大程度上依赖于对未来测量值预估的准确程度。本论文在深入研究间歇过程数据特征的基础上,重点研究间歇过程的多操作阶段特性,结合 PCA/PLS 在处理高维、高度耦合数据上的优势,提出了一系列基于间歇过程子操作时段的统计建模、过程监测和质量预测算法:1 针对产生等长数据的间歇过程,研究过程变量相关关系随操作时间的变化特征,实现对间歇过程的子操作时段划分,并提出基于子时段的 PCA建模和在线监测算法。2 实际工业过程中,受各种因素的影响,间歇过程
5、的每一次操作周期产生的过程数据长度并不完全相等。因此,针对不等长的间歇过程,提出了改进的间歇过程子时段划分和基于子时段的 PCA建模和在线监测算法。3 对于那些不容易在短期内获取理想建模数据的间歇过程,提出一种只需要一次正常的间歇操作数据就可以进行子时段划分的方法,以及基于子时段PCA模型的在线监测算法;同时提出了一种模型更新策略,随着建模数据的增加逐渐完善模型以便实现准确可靠的过程监测和故障诊断。4 根据多操作时段间歇过程的特点,将间歇过程的产品质量指标划分为“累积型”和“非累积型”两类。对于累积型质量,MPLS 模型是比较理想的选择;而针对非累积型质量指标,本文提出基于子时段 PLS 模型
6、的质量分析东北大学博士学位论文 摘要I和在线质量预测方法。基于子时段的质量分析可以找出产品质量指标和特定子操作时段的关联关系,以及在特定子时段中影响产品质量的关键过程变量。基于子时段的在线质量预测方法不仅模型结构简单实用,而且精度可靠。这些算法不仅可以深入分析间歇过程子操作时段的过程特征,为每个子时段建立简单实用的二维 PCA/PLS 模型,而且子时段 PCA/PLS 模型可以在线监视过程的运行状态或预测产品的质量而不需要未来的过程变量测量数据,这将极大程度地改进并简化了间歇过程的在线监测和质量预测程序。上述算法在注塑过程中所取得的成功应用证明了这些算法的有效性,可以成为其它间歇工业过程的一个
7、可行的建模、监测和质量改进的工具。关键词: 间歇工业过程,过程监测、故障诊断,质量预测,主成分分析,偏最小二乘,注塑过程东北大学博士学位论文 ABSTRACTABSTRACTThe focus of many industries has now shifted to the manufacturing of higher-value-added products that are mainly produced through batch processes to meet todays rapidly changing market. Driven by the increasing ne
8、ed to reduce product-to-market time, and due to the process high dimensionality, complexity, batch-to-batch variation, the data-based multivariate process modeling methods, such as principal component analysis (PCA) and partial least squares (PLS), have become increasingly important on-line monitori
9、ng tools for ensuring process safety and product quality consistency.Multiway PCA and Multiway PLS, the most popular tools for batch process monitoring, are effective in determining whether a batch operation is normal or not, as a post operation analysis. On-line process monitoring or quality analys
10、is based on a MPCA/MPLS model, however, requires the prediction of the unavailable future process data in the evolving batch, which can seriously affect the promptness and accuracy of the monitoring and quality prediction. In addition, The MPCA/MPLS-based methods are ill-suited for multistage batch
11、processes. As they take the entire batch data as a single object, MPCA/MPLS-based methods have difficulty to reveal the changes of process correlation from stage to stage, and insensive to small process shifts. Considering that multiplicity of operation stage is an inherent nature of many batch proc
12、esses, each stage has its own underlying characteristics, and the overall process can exhibit significantly different behaviors over different operation stages, this thesis is focused on multivariate multistage batch processes. A series of stage-based process modeling, monitoring, fault diagnosis an
13、d quality prediction methods have been developed as follows:1. For even-length batch processes, a stage-based modeling and on-line monitoring scheme has been developed based on the fact that changes in the process correlation may relate to its “operation” stages. Dividing the process into “operation
14、” stages by analyzing and clustering the PCA loading matrices and constructing sub-PCA models for each stage can apply the conventional two-way PCA “directly” to a batch process.2. Based on the above-mentioned stage-based modeling and monitoring method, an 东北大学博士学位论文 ABSTRACTIimproved method was dev
15、eloped for the monitoring of unevenlength batch processes, where the total batch duration and durations of various operations stages within the batch are not fixed in length because of changes in operation condition or control objective.3. A new batch monitoring method was proposed for those process
16、es, which have difficulties in collecting sufficient cycles in limited time. The proposed method used a single batch reference data to build an initial monitoring model, and updated the model with the accumulation of new successful batches.4. The product qualities of a batch process can be divided i
17、nto two types: cumulative and non-cumulative. MPLS model is the best choice to analysis and predict the cumulative quality attributes. For non-cumulative quality, a stage-based sub PLS modeling method is developed for exploring the relationship between process stages and quality variation, and for f
18、inding the key process variables that caused the majority of quality variation. These methods can not only obtain the subtle process information in each stage, but develop a two-way sub PCA/PLS model for easier process interpretation and fault diagnosis. Futhermore, they do not require the future pr
19、ocess measurements for online process monitoring and quality prediction. The successful applications to injection molding process show that the proposed methods are effective and may be the feasible tools for batch monitoring and quality improvement of other industrial batch processes. Keywords: Bat
20、ch processes, process monitoring, fault diagnosis, quality prediction, principal component analysis, parital least squares, injection molding process.东北大学博士学位论文 目录II目 录摘 要 .IABSTRACT .III目 录 .V第一章 绪论 .11.1 课题背景及意义 .11.2 多变量统计过程监测及故障诊断 .41.2.1 数据的标准化处理 .41.2.2 主成分分析(PCA)和偏最小二乘(PLS) .51.2.3多变量统计过程监测 9
21、1.2.4 基于变量贡献图的故障诊断 111.2.5 PCA和 PLS的衍生方法及其应用 .121.3 间歇过程的在线监测及故障诊断 121.3.1 间歇过程的数据特点及标准化处理 131.3.2 多向主成分分析(MPCA)及多向偏最小二乘(MPLS) 161.3.3 基于 MPCA的间歇过程统计分析和在线监测 .181.4 本文的主要工作 20第二章 基于间歇过程子操作时段的 PCA建模和在线监测 232.1 引言 232.2 基于间歇过程子操作时段的 PCA建模 242.2.1 基本思想 242.2.2 间歇过程子操作时段的划分 262.2.3 基于子操作时段的 PCA建模 292.3 基
22、于间歇过程子操作时段的 在线监测 312.3.1 计算统计控制限 312.3.2 基于子操作时段 PCA模型的在线过程监测 312.4 三水箱系统中的实验研究 332.4.1 三水箱实验装置 .332.4.2 子时段划分、PCA 模型及过程分析 342.4.3 过程监测及故障诊断 .38东北大学博士学位论文 目录III2.5 注塑过程中的应用研究 432.5.1 注塑过程简介 432.5.2 注塑过程子时段划分、建模及统计分析 452.5.3 注塑过程的在线监测及故障诊断 482.6 本章小结 54第三章 不等长间歇过程的子时段 PCA建模和在线监测 553.1 引言 553.2 处理间歇过程
23、不等长数据的常用方法 563.3 不等长间歇过程的子时段 PCA建模和在线监测 583.3.1 基本思想 583.3.2 不等长间歇过程的数据标准化 593.3.3 不等长间歇过程的子时段划分 603.3.4 建立用于过程监测的子时段 PCA模型 633.3.5 在线过程监测和故障诊断 643.4 注塑过程中的应用研究 673.4.1实验设计和建模数据 .673.4.2不等长注塑过程的子时段划分和 PCA建模 .693.4.3 不等长注塑过程的过程监测和故障诊断 723.5 本章小结 74第四章 基于最少建模数据的子时段 PCA建模和在线监测 784.1 引言 784.2 滑动窗口 PCA建模
24、方法 794.2.1 滑动主成分分析 794.2.2 间歇过程的滑动窗口 PCA建模 794.3 基于滑动窗口 PCA模型的子时段建模和监测 804.3.1 建模数据及标准化 814.3.2子时段划分、PCA 建模和在线监测 .824.3.3子时段模型和控制限的更新 .844.3.4 两点讨论 854.4 注塑过程中的应用研究 874.4.1 建模数据 874.4.2 实验结果分析 874.5 本章小结 88东北大学博士学位论文 目录IV第五章 间歇过程产品质量的统计分析和在线预测 915.1 引言 915.2 基于子时段 PLS模型的质量分析 925.2.1 间歇过程的子时段 PLS建模 9
25、35.2.2 计算 PLS模型中潜变量的个数 945.2.3质量分析的辅助指标 .965.3 基于子时段 PLS模型的在线质量预测 975.4 注塑过程中的应用研究 985.4.1 注塑过程的主要质量参数 985.4.2 实验设计和建模数据 .1005.4.3质量分析结果与讨论 1025.4.4 离线和在线质量预测的结果与分析 .1085.5 本章小节 .109第六章 结束语 .112参考文献 .115致 谢 .128作者攻读博士学位期间完成论文 .130作者简介 .132东北大学博士学位论文 第一章 绪 论-0-第一章 绪论1.1 课题背景及意义为了适应现代社会瞬息万变的市场需求,现代过程工
26、业正逐渐倚重于生产小批量、多品种、高附加值产品的间歇过程。半导体加工、制药过程、注塑过程、发酵过程等都属于典型的间歇过程,间歇过程的产品与现代人的生活息息相关。因此,间歇过程的安全可靠运行以及连续稳定的产品质量逐渐成为过程工业界的关注焦点;而同时,间歇过程建模、在线监测、故障诊断及质量控制也将成为科研人员一个迫切且必要的研究课题。间歇过程的主要特点是在有限的时间内、以预先设计好的工序将原材料加工生产成符合质量要求的产品。虽然间歇过程的每一个操作周期都是严格按照设计好的流程进行,但是由于间歇过程固有的多变量、多工序、变量时变性、反应复杂、工序运行时间不确定;以及间歇过程产品的市场占有周期短等多种
27、原因,过程工程师难以在很短的产品研发周期内,依靠有限的资金投入,建立精确可靠的机理模型或基于知识推理的专家模型。因此,基于机理模型或知识模型的过程监测、故障诊断和质量预测方法较难适用于间歇工业过程。另一方面,随着电子技术和计算机应用技术的飞速发展,现代工业过程大都具有完备、甚至冗余的传感测量装置,可以在线获得大量的过程数据,譬如压力、温度、流量等测量值。显然,这些过程数据中含有关于生产过程运行状态以及可用于预测最终产品质量的有用信息。基于过程数据的统计监测方法 1吸引了科研人员的广泛关注,譬如传统的休哈特(Shewhart)控制图 2,以及衍生而来的累积和控制图(CUSUM) 3,4和指数加权
28、滑动平均控制图(EWMA)等 5。然而,由于缺乏有效的数据处理和信息提取的方法,传统的统计监测方法并没有广泛应用于多变量工业过程,尤其是间歇工业过程。工业过程中那些大量的、随手可得的测量数据,是一座座富含信息的金矿,却没有得到有效的发掘和利用。其中的主要难点在于: 数据维数高。现代工业过程一般拥有几十至上百个测量变量,而且数据采集系统的采样速度以及工业计算机的运行速度也日新月异的增长。这就意味着每一个间歇操作周期内,生产过程将产生成千上万的过程数据。高维的过程数据使得传统的基于数据的建模方法受到严峻的挑战,在提取有用东北大学博士学位论文 第一章 绪 论-1-信息的同时尽可能地降低数据的维数已成
29、为现代工业过程基于数据的建模方法的一个迫切要求。 测量变量之间的相关性。过程变量的外部特征决定于过程的内部运行机制。在自然界,事物总是相生相克、此消彼长、变化无穷。工业过程亦是如此,过程变量之间并非独立无关,而是遵从一定的运行机理体现出复杂的耦合关系。譬如:注塑过程的保压段中,压力、速度和时间存在固定的关系压力越大,加压速度越慢而保压时间则越长。过程变量之间这种复杂的耦合关系同样也给传统的过程监测方法带来极大的困扰。 变量测量值中的时序依存关系。和连续过程不同,间歇过程的一个显著特点就是过程时变性。这一特点亦决定了间歇过程的变量测量值中存在显著的自相关关系。这种自相关关系是多变量过程建模方法中
30、需要考虑的因素。 测量噪声、3i 数据问题。电子传感装置的输出信号容易受到外界噪音源的污染,比如交流电磁场、音波干扰等。基于数据的建模方法需要合适的信号提炼,突出测量数据中的系统性信息,屏蔽掉测量噪音的影响,这样才有可能建立准确的过程模型。另外,实际工业过程的测量数据通常存在 3i问题,即不完整(incomplete)、不连续(inconsistent)和不准确(inaccurate),3i 数据问题已经成为多变量工业过程的数据校正和数据协调领域一个关注焦点。上述问题困扰着基于测量数据的统计过程分析和建模方法,这种迟滞不前的状况一直持续到二十世纪 80年代末,以主成分分析(Principal
31、Component Analysis, PCA)6,7和偏最小二乘法(Partial Least Squares,PLS)8-10等多变量投影技术为核心的多变量统计建模方法揭开了基于过程数据的统计过程监测、故障诊断及质量控制的新篇章。因为 PCA和 PLS只需要正常工况下的历史数据来建立模型而不需要过程的机理知识,同时 PCA和 PLS能够有效地剔除过程数据中的冗余信息、极大地降低数据维数,甚至可以将过程运行状态直接显示于二维的主成分监视图中,这类方法越来越受到研究人员和现场工程师的亲睐。目前,基于这类多变量统计模型的过程监测、故障诊断、控制器设计、质量控制等算法层出不穷 11-62,并且已成
32、功地应用到多个连续生产过程中 63-76。然而,PCA 和 PLS方法并不能直接应用于间歇工业过程,因为间歇过程的建模数据通常是三维矩阵,间歇过程变量测量值的均值和方差随着操作时间不断变化,东北大学博士学位论文 第一章 绪 论-2-并且在不同的操作工序中显示出不同的变化特征。为了有效利用 PCA和 PLS等多变量投影方法在处理高维、高度耦合数据时的独特优势,我们有必要针对间歇过程的数据特征,将多变量统计过程建模方法扩展应用于间歇工业过程,并且在此基础上研究面向间歇过程的基于多变量统计模型的在线监测、故障诊断及质量控制算法。目前,瑞典 Umea 大学 Wold教授的科研组 77-79,美国 Ma
33、ryland 大学 McAvoy教授的科研组 80-83、加拿大 McMaster 大学 MacGregor 教授的科研组 84-89,英国Newcastle 大学 Morris 和 Martin 的科研组 90-94、美国 DuPond 公司的 Kosanovich和 Piovoso 等 95,96、荷兰 Amsterdam 大学 Smilde 教授的科研组 97-107以及中国台湾 Chung-Yuan Christian 大学的 Liu 和 Chen 等人 108-111均已投入大量人力、物力和资源进行间歇过程的多变量统计建模算法及其工业应用的研究工作,而国内在这一方向上的研究工作尚属起
34、步阶段 112-117。在上述科研小组中,Nomikos 和 MacGregor 于 19941995 年提出的基于多向主成分分析(Multiway PCA, MPCA)和多向偏最小二乘 (Multiway PLS, MPLS)的间歇过程监测和质量预测算法 84-86和 Rnnar et al.于 1998年提出的基于分层多模块PCA模型 (Multiblock hierarchical PCA, MBPCA )的自适应间歇过程监测算法 118具有一定的代表性。但是,这两类方法仍有各自的不足之处。Multiway PCA/PLS 实际上是将一次间歇操作的所有过程数据折合成一个数据单元,当作一个
35、数据样本,历史数据库中不同间歇操作周期的数据构成整个样本空间而后进行 PCA/PLS 分析。这种方法可以成功地监测一次完整的间歇操作周期是否正常,但是基于 MPCA/MPLS 模型的在线过程监测和质量预测算法必须要预先估计出未来的过程测量值以便构造一个数据样本,这是因为一个间歇操作周期还未结束时我们是无法获得将来的过程变量测量值。因而,基于 MPCA/MPLS模型的过程监测、故障诊断及质量预测算法很大程度上依赖于对未来测量值预估的准确程度。另一方面,因为 MPCA/MPLS 将一次间歇操作周期的所有数据当作一个整体对待,该模型不太适用于多操作阶段的间歇过程;而多操作阶段特性恰恰是间歇过程的一个
36、显著特点。基于分层多模块 PCA模型的自适应过程监测算法则是将间歇过程的每一个采样时刻的过程数据当作一个子模块并建立相应的底层 PCA 模型,底层数据的潜变量(latent variable) * 构成一个新数据模块并建立上层 PCA模型(即过程监测模型)。* 潜变量是一种通称。主成分分析中的主成分、因子分析中的因子变量、典型相关分析中的典型变量等都属东北大学博士学位论文 第一章 绪 论-3-模型的自适应性体现在根据当前采样时刻的底层 PCA 模型和前一采样时刻的上层 PCA 模型,建立当前时刻的上层 PCA 模型。这个方法虽然不需预估间歇操作周期中的未来测量值,但算法的计算量太大且鲁棒性较差
37、;而且迭代过程中的累积误差将严重影响间歇操作后半段的过程模型的精度。其它一些间歇过程的监测方法大都是 MPCA/MPLS模型在非线性、动态过程中的扩展应用,并没有根本解决上述两类方法中存在的问题。面向间歇过程的多变量统计建模、监测、故障诊断及质量改进这一研究领域中仍有大量的空白和难题没有涉及和解决,因此,这一领域正成为科研工作者和过程工程师的巨大挑战,但也是难得的契机。一系列完善可行的间歇过程建模、监测、诊断和质量改进算法必将推动整个间歇工业过程的长足进步和繁荣发展,为社会提供高质量产品的同时,还可排除安全隐患、保障生命和财产、节约资源、保护环境,提供这些更加重要的无形的社会财富。1.2 多变
38、量统计过程监测及故障诊断统计过程监测的主要目标是快速准确地检测到生产过程中出现的异常工况,即过程偏离理想工作状态时的工况,偏离的幅值以及这种异常状态发生并延续的时间。基于统计方法的故障诊断则是在监测程序发现过程异常状态时,根据过程测量值偏离正常状态的变化幅值和变化了的变量相关性,给出导致这一异常工况的主导过程变量。对生产过程的在线监测和诊断不仅可以为过程工程师提供有关过程运行状态的实时信息、排除安全隐患、保证产品质量;而且可以为生产过程的优化和产品质量的改进提供必要的指导和辅助。统计过程监测及故障诊断方法所依托的主要理论是以主成分分析(PCA)及偏最小二乘(PLS)为核心的多变量统计投影方法。
39、下面将简略介绍 PCA和 PLS的主要原理以及基于 PCA/PLS的统计过程监测方法中所涉及的若干问题。1.2.1 数据的标准化处理数据标准化是基于过程数据的建模方法的一个重要环节。一个好的标准化方法可以很大程度上突出过程变量之间的相关关系、去除过程中存在的一些非线性特性、剔除不同测量量纲对模型的影响、简化数据模型的结构。数据标准化通常于潜变量的范畴。东北大学博士学位论文 第一章 绪 论-4-包含两个步骤 10:数据的中心化处理和无量纲化处理。数据的中心化处理是指将数据进行平移变换,使得新坐标系下的数据和样本集合的重心重合。对于数据阵 ,数据中心化的数学表示式如下,()Xnm* MERGEFO
40、RMAT (1.1),(1,;,1ijijjjijxjn 其中, n 是样本点个数,m 是变量个数, 是样本点索引, 是变量索引。中心ij化处理既不会改变数据点之间的相互位置,也不会改变变量间的相关性。过程变量测量值的量程差异很大,比如注塑过程中机桶温度的测量值往往在几百度左右,而螺杆位移的量程只有几个厘米。若对这些未经过任何处理的测量数据进行主成分分析,很显然在几百度附近变化的温度测量量左右着主成分的方向,而实际上这些温度变化了 35C 相对于其量程来说并不是很大的变化。在工程上,这类问题称为数据的假变异,并不能真正反映数据本身的方差结构。为了消除假变异现象,使每一个变量在数据模型中都具有同
41、等的权重,数据预处理时常常将不同变量的方差归一实现无量纲化,如下式,* MERGEFORMAT (1.2), 2,/(1,;,)ijijjijjxsIjJxI 在数据建模方法中,最常用的数据标准化则是对数据同时作中心化和方差归一化处理,* MERGEFORMAT (1., (1,;,)ijjijxiIjJs 3)本文中所有二维建模数据,在未有特殊说明时,均经过式(1.3)的标准化方法预处理。另外,为了避免过多的符号标记,在不会混淆的基础上,后文中标准化的数据和原始测量数据用同样的标记符号。1.2.2 主成分分析(PCA)和偏最小二乘(PLS)主成分分析是一种多变量统计方法,其主要思想是通过线性
42、空间变换求取主成分变量,将高维数据空间投影到低维主成分空间。由于低维主成分空间可以保东北大学博士学位论文 第一章 绪 论-5-留原始数据空间的大部分方差信息,并且主成分变量之间具有正交性,可以去除原数据空间的冗余信息,主成分分析逐渐成为一种有效的数据压缩和信息提取方法,已在数据处理、模式识别、过程监测等领域得到了越来越广泛的应用。主成分分析的工作对象是一个二维数据阵 , 为数据样本的个数,()Xnm为过程变量的个数 。经过主成分分析,矩阵 被分解为 个子空间的外积和,m即* MERGEFORMAT (1.4)121mTTTTj mXPtpttp其中, 是 维得分(score)向量,也称为主成分
43、向量; 为 维负载jtn jp()m(loading)向量,亦是主成分的投影方向; 和 则分别是主成分得分矩阵和负载P矩阵。主成分得分向量之间是正交的,即对任何 和 ,当 时满足 。ijij0Tijt负载向量之间也是正交的,并且为了保证计算出来的主成分向量具有唯一性,每个负载向量的长度都被归一化,即 时 , 时 。ij0Tijpij1Tijp X=nmn1mmtTpn1m1t1Tp+ =E+nAnTTP图 1.1 主成分分解示意图Figure 1.1 Illustration of principal component decomposition公式(1.4)通常被称为矩阵 的主成分分解,
44、实际上是 个直X(1,)Tjmtp交的主成分子空间,这些子空间的直和构成了原来的数据空间 ,如图 1.1所示。X若将(1.4)等号两侧同时右乘 ,可以得到下式(1.5),称之为主成分变换,也称jp作主成分投影,* MERGEFORMAT (1.5)jjXTPt东北大学博士学位论文 第一章 绪 论-6-即,每一个主成分得分向量 实际上是矩阵 在负载向量 方向上的投影。jtXjp在求取主成分的过程中,主成分得分向量 的内积, ,实际上对应着 的jtjtX协方差矩阵 的特征值 ;而负载向量 是 对应的特征向量。由于主TXjj成分得分需要满足长度递减约束, ,即 ,这个约束使得1t m1m每个主成分具
45、有独特的统计意义。第一主成分提取了 最多的方差信息,第一负X载向量 则是矩阵 的最大方差变异方向;第二主成分提取了残差空间 中最多1p E的方差信息,其中 ,第二负载向量 则是 中方差变异第二大方向,1TEXtp2p依此类推。当矩阵 中的变量存在一定程度的线性相关时, 的方差信息实际上集中在前面几个主成分中;而最后的几个主成分的方差通常是由测量噪声引起的,完全可以忽略不计。因此,主成分分析具有了保留最大方差信息的同时显著降低数据维数的功能。广泛应用于过程监测领域的主成分分析模型如下式所示,* MERGEFORMAT (1.6)1ATTjXPEtp其中, 和 的维数分别为 和 ; 代表主成分模型
46、中所保留的主成TP()n()mA分个数; 由主成分得分和负载向量重构得到,可以说 是由主成分模型反推得X X到的原始数据 的系统性信息; 则为主成分模型的残差信息。E有很多方法可以确定合适的主成分个数,其中主成分累计贡献率法和交叉检验法最为常用,详见参考文献7,119。另外,求取主成分负载向量的两种常见方法,一是数值方法奇异值分解(SVD) ;另一种迭代运算方法NIPALS 算法,受篇幅限制本文也不作介绍,敬请参阅文献7。偏最小二乘的工作对象是两个数据阵 和 ,譬如工业过程中()xXnm()yY的过程变量和质量变量测量值,其中 是样本个数, 是 X的变量个数, 是x ymY的变量个数。偏最小二
47、乘的出现是为了解决传统的多变量回归方法在以下两个方面的不足:东北大学博士学位论文 第一章 绪 论-7- 数据共线性问题。在第一节中曾提到,现代工业过程的测量变量之间存在一定程度的相关性,即变量和变量之间存在耦合关系。变量间的这种相关关系会导致预测矩阵的协方差矩阵 是一个病态矩阵,这将降低最TX小二乘回归方法中回归参数 的估计精度,从而造成回归1()Y模型的不稳定 8-10,120。 小样本数据的回归建模,尤其是样本个数少于变量个数的情况 9,10。一般统计参考书上介绍,普通回归建模方法要求样本点数目是变量个数的两倍以上,而对于样本点个数小于变量个数的情况则无能为力。偏最小二乘相当于多变量回归、
48、主成分分析和典型相关分析三者的有机结合,它能够有效解决上面提到的两个问题,同时可以实现回归建模、数据结构简化和两组变量间的相关分析,给多变量数据分析带来极大的便利 10。偏最小二乘模型包括外部关系(类似于 X和 Y矩阵分别进行主成分分解)和内部关系(类似于 X和 Y的潜变量之间实现最小二乘回归建模) ,外部关系:* MERGEFORMAT (1.7)1ATTaaPEYUQFtpuq内部关系:* MERGEFORMAT (1.8)abut其中 ,是 X空间潜变量 和 Y空间潜变量 的内部回归系数。/()Taabt tu但是,偏最小二乘并不等于“对 和 分别进行主成分分析,然后建立 和t之间的最小方差回归关系