1、1 2009 PerkinElmer Sep. 30, 2013 Jerry Huang 体外诊断医疗 器械分析性能评估 CLSI EP文件介绍(二) 2 “分析性能验证”的意义 厂家 评估检测系统的性能; 满足法规; CE-Marking。 用户 满足 法规(医疗 机构临床实验室管理 办法); ISO15189实验室 认可。 3 CLSI EP文件 介绍 定性 测定的 性能分析( CLSI EP12-A2) 检测结果一致性检验的统计分析方法 4 CLSI EP文件 介绍 定性 测定的 性能分析( CLSI EP12-A2) 5 定性测定的 性能验证 ( CLSI EP12-A2) 特异性 ;
2、 灵敏度; 测定下限; 重复性; 准确性; 抗干扰能力。 1、定性 试验评价指标 6 定性测定的性能验证 ( CLSI EP12-A2) 2、定性检测系统方法学验证流程 检 测 系 统状 态 确 认定 性 检 测 系 统 方 法 学 验 证 流 程验 证 报 告精 密 度E P 1 2临 界 值 精 密 性E P 1 2临 界 值 9 5 % 区 间E P 1 2准 确 度E P 1 2灵 敏 度 特 异 性稳 定 性质 控 品 精 密 性E P 57 定性测定的性能验证 ( CLSI EP12-A2) 3、 Cutoff重复性和测定下限验证 临界点 的定义 同样 一份样本,在多次重复实验中各
3、有 50%的几率获得阳性或阴性的结果时该分析物的浓度 。 临界点 与试剂盒阳性反应判断值( Cutoff值)的区别 a) 这里 的临界点指的是一个处于试剂检测临界点的样本浓度,其一旦确定,是不变 的; b) 试剂盒 Cutoff值 指的是一个判断某一次测定结果的由阴性和阳性对照信号值按一定公式计算出来的信号值,每次测定都会有所差异。 临界点 的 (精密度)重复性指的是什么? 是 为正在评价的检测试剂或系统建立分析物的临界浓度 (C50),并且确保临界浓度 20%的范围处于 95%区间内 (C5C95)。 8 定性测定的性能验证 ( CLSI EP12-A2) 3、 Cutoff重复性和测定下限
4、验证 临界值( Cutoff): 实验结果处于(阴、阳性)分界点时的样品中分析物浓度值,低于此值,定性实验的结果为阴性,高于此值,定性实验的结果为阳性。对定性实验来讲,临界值是唯一的医学决定水平,当样品中被测物浓度处于临界水平时,定性实验重复检查同一样品,将产生 50%的阳性结果和 50%的阴性结果。当样品浓度在临界值以上增加时,阳性结果比率增加;而当样品浓度在临界值以下减低时,阴性结果比率增加。 临床界值的 95%区间: 在样品浓度高于临界值并重复实验产生 95%阳性结果和浓度低于临界值并产生 95%阴性结果之间的样品浓度范围。 一般 通过重复测定临界值附近及“ 95%区间”以外的样品,以得
5、到一致性结果的能力,来评价该试验方法的优良。不同试验检测同一样本的临界值“ 95%区间”及能产生稳定结果的浓度范围可能不同,区分这种差异的能力对试验方法的评价将十分有用。 9 定性测定的性能验证 ( CLSI EP12-A2) 4、精密度曲线 不 精密度曲线 两种 不同方法的不精密度曲线比较 比 对试剂的 C50和 C5C95区间能反映试剂的灵敏度和不精密度。试剂批内与批间 C50的差异越小,说明试剂的重复性越好。 C50浓度也反映出试剂灵敏度的差异, C50浓度小的试剂对低浓度的标本检出能力强,检测灵敏度较高。在同 C50下 C5C95范围越小,说明试剂的精密性越好。 10 定性测定的性能验
6、证 ( CLSI EP12-A2) 5、精密度评价验证 步骤 1. 制备 足够 40次重复检测的 3份样本:分别为处于临界浓度、高于临界浓度 20%和低于临界浓度 20%的样本。 2. 重复 检测样本 40次,确定每一份样本结果为阳性和阴性的百分比。 3. 评价 临界浓度是否准确?评价 +20%至 -20%的浓度范围是否包含于、位于或者超出这种方法的 95%区间? 40 次 测定 的 阳性 结果 准确性 判定 13 40 ( 32 . 5% ) 不正确 27 40 ( 67 . 5% ) 14 26 40 ( 35% 65% ) 正确 C 50 的 可信 度 取决于实际检测结果以及检测的样本数
7、量 。 11 定性测定的性能验证 ( CLSI EP12-A2) 6、精密度评价验证 步骤 类型 样本浓度 阴性或阳性结果所占比例 结论 1 +20% 阳性结果 35 40 ( 87 . 5% ) 1) 20% + 20% 浓度范围在 C5 C95区间之内 ; 2) 用该方法检测浓度超过 C50 20% 的样本检测结果不一致 ; 3) 此结论错误率 5% , 需使用更宽浓度范围的样本 ( 如 30 % ) 进行另外的试验。 - 20% 阴性结果 35 40 ( 87 . 5% ) 2 +20% 阳性结果 36 40 ( 90% ) 1) 20% + 20% 浓度范围包含了 C5 C95区间 ;
8、 2) 用该方法检测 浓度超过 C50 20% 的样本检测结果一致。 - 20% 阴性结果 36 40 ( 90% ) 3 +20% 阳性结果 36 40 ( 90% ) 1) 20% + 20% 浓度范围只是部分在 C5 C95区间内。( + 20% 包含了 C5 C95区间,但 - 2 0% 浓度的样本在 C5 C95区间内 ); 2) 用该方法检测 浓度超过 C50+ 20% 的样本检测结果一致; 浓度 低于 C50 20% 的样本用该方法却不一定能得到一致结果; 3) 需要用低于 C50更大百分率浓度的样本 ( 如- 30%) 进行补充试验。 - 20% 阴性结果 35 40 ( 87
9、 . 5% ) 4 +20% 阳性结果 35 40 ( 87 . 5% ) 1) 20% + 20% 浓度范围只是部分在 C5 C95区间内。( + 20% 在 C5 C95区间内,但 - 20% 包含了 C5 C95区间) ; 2) 用该方法检测 浓度低于 C50 20% 的样本检测结果一致; 浓度 超过 C50+ 20% 的样本用该方法却不一定能得到一致结果 ; 3) 需要用高于 C50更大百分率浓度的样本 ( 如+ 30% ) 进行补充试验。 - 20% 阴性结果 36 40 ( 90% ) 如果 C50估计不准 , 那么 - 20% 到 +20% 浓度范围也会变化 , 这将导致浓度范围
10、的一侧落在C5 C95区间之外。 临界浓度 如果准确,样品重复检测应获得 50%的阳性和 50%的阴性结果。 如果 +20%的样本获得阳性结果的次数 95%,并且 -20%的样本获得阴性结果的次数 95%,那么这个范围位于或超出这种方法的 95%区间。因而,距离临界浓度 20%的样本可用此种方法获得一致的结果 (测定下限 )。 如果 +20%的样本获得阳性结果的次数 95%,并且 /或 -20%的样本获得阴性结果的次数 95%,那么这个范围在这种方法的 95%区间内。因而,距离临界浓度 20%的样本用此种方法不会获得一致的结果,并且此种方法的 95%区间距离临界浓度 20%。 在 一种方法的
11、95%区间距离临界浓度 20%的情况下,需要做另一个或一系列实验以确定真正的 95%区间。 12 定性测定的性能验证 ( CLSI EP12-A2) 7、特异性 验证 特定 病原体以外感染性疾病患者的 样本; 含有 干扰性物质的 样本:类风湿因子 ( RF)阳性、含异嗜性抗体、溶血、脂血、高胆红素 样本; 交叉反应物质的干扰; 健康人群样本。 8、准确性 验证(方法比较) 1) 另 一种定性方法(如使用者目前正在使用的方法); 2) “ 金标准”方法; 3) 某种 定量方法或临床诊断 。 不 一致结果的 处理 如果比较方法不是 100%准确,可以用“金标准”或“参考方法”来检测在试验和比较方法
12、间产生差异的样本 。 参考 血 清盘 1) 曾经 被检测过的、或者被成熟方法检测的,或临床诊断中有意义的临床样本对于评价定性方法来说很有价值; 2) 阳性 样本浓度高低不等,具有代表性,可占整个血清盘样本数的 50%; 3) 阴性 样本可含有干扰物质,可占整个血清盘样本数的 50%。 13 定性测定的性能验证 ( CLSI EP12-A2) 9、方法 学 比较结果 的 计算 试验方法和金标准比较的 2 2 列联表 诊断结果 金标准 ( ) 病例( + ) 对照( ) 总数 试验方法 ( ) 阳性 ( + ) TP FP TP+FP 阴性 ( ) FN TN FN+TN 敏感度 估计 = 100
13、% TP / ( TP + FN ) 特异性 估计 = 100% TN / ( FP + TN ) 患病率 = 100% ( TP + FN ) / N 阳性预测值( PV P ) = 100% TP / ( TP + FP ) 阴性预测值( PV N ) = 100% TN / ( FN + TN ) 效能估计值(预测效率) = 100% ( TP + TN ) / N 1)、已知诊断结果 2)、未知诊断结果 测定结果 对比方法 频率 阳性 阴 性 总数 试验方法 阳性 a b a + b 1 = A 1 阴性 c d c + d 2 = A 2 总数 a + c b + d a + b +
14、 c + d = n 频率 1 = B 1 2 = B 2 阳性 一致率 = a / ( a + c ) 100% 阴性一致率 = d / ( b + d ) 100% 总一致 率 = ( a + d ) / ( a + b + c + d ) 100% 一致 率的 95 % 评分 可信区间计算 公式 : 100% 1 23, 100% 1+ 23对于阳性 一致 率: Q1= 2 + 1 . 962= 2 + 3 . 84 Q2= 1 . 96 1 . 962+ 4 ( a + c ) = 1 . 96 3 . 84 + 4 ( a + c ) Q3= 2 a + c + 1 . 962= 2
15、 ( a + c ) + 7 . 68 对于阴性 一致 率: Q1= 2 + 1 . 962= 2 + 3 . 84 Q2= 1 . 96 1 . 962+ 4 ( b + d ) = 1 . 96 3 . 84 + 4 ( b + d ) Q3= 2 b + d + 1 . 962= 2 ( b + d ) + 7 . 68 对于总 一致 率 : Q1= 2 + + 1 . 962= 2 + + 3 . 84 Q2= 1 . 96 1 . 962+ 4 + + n = 1 . 96 3 . 84 + 4 + + n Q3= 2 n + 1 . 962= 2 n + 7 . 68 14 CLS
16、I EP文件 介绍 检测 结果一致性检验的统计分析方法 15 检测结果一致性检验的统计分析 方法 定性测定结果间的一致性评价 1. Kappa一致性检验 ; 2. 配对四格表资料的卡方检验。 定量测定结果间的一致性评价 1. 配对 t检验 2. 相关系数 3. 组 内相关系数 (intra-class correlation coefficients, ICC) 4. Bland-Altman法 (方法学比对) 5. ATE/LER区域法评价 一致性 16 检测结果一致性检验的统计分析 方法 定性测定结果间的一致性评价 1.Kappa一致性检验 ; 测定结果 对比方法 频率 阳性 阴 性 总数
17、 试验方法 阳性 a b a + b 1 = A 1 阴性 c d c + d 2 = A 2 总数 a + c b + d a + b + c + d = n 频率 1 = B 1 2 = B 2 1) K appa 系数( K )计算 K = 1 , =iin, = , =, =式中, 为 观察 一致 比 , 为期望一致 比 , 为实际一致率, 1 为非期望一致 比 , ii为列表中左上角到右下角主对角线上的实际值, 、 分别为第 i 行、第 i 列的理论值, 、 分别为第 i 行、第 i 列的理论频率, n 为总观察例数。 2) K appa 值的假设检验( U 检验) H0: K =
18、0 , H0: K 0 , = 0 . 05 , U =, = 1 / 1 2式中, U 为标准正态百分位数, n 为总观察例数, 为 K 的标准误, K 除以 构造出 U 统计量,进而可对一致性进行假设检验。 K 的 95% 可信区间为( K 1 . 96 , K + 1 . 96 ) K 的 99% 可信区间为( K 2 . 58 , K + 2 . 58 ) K appa 0 . 8 ,一致性为优 ,认为两系统等效 ; 0 . 6 K appa 0 . 8 ,一致性良好 ,需进行阳性和阴性符合率比较并进行统计学分析 ; 0 . 4 K appa 0 . 6 ,一致性中等 ,需进行阳性和阴
19、性符合率比较并进行统计学分析 ; K appa 0 . 4 ,一致性较差 ,两系统不等效。 注意 : K appa 系数只是“一致性”的度量,不是诊断正确性的度量。 17 检测结果一致性检验的统计分析 方法 定性测定结果间的一致性评价 2.配对 四格表资料 的卡方检验 测定结果 对比方法 频率 阳性 阴 性 总数 试验方法 阳性 a b a + b 1 = A 1 阴性 c d c + d 2 = A 2 总数 a + c b + d a + b + c + d = n 频率 1 = B 1 2 = B 2 a 和 d 是两法测定结果一致的情况, b 和 c 是两法测定结果不一致的情况。当两种
20、处理方法无差别时,对总体有 B =C 。但在抽样研究中抽样误差是不可避免的,样本中的 b 和 c 往往不相等,即 b c 。因此,需要进行假设检验,检验统计量 2的计算公式如下: 2= c 2 + c, = 1 此式用于 + c 40 。若 + c 40 ,可采用以下校正公式: 2= c 1 2 + c, = 1 2 临界值2时,表明两种方法的总体检测结果不相同,反之,表明两种方法的总体检测结果相同。( = 0 . 01 时, 临界值2= 6 . 63 ; = 0 . 05 时, 临界值2= 3 . 84 )。 注意:当 n 很大且 a 和 d 的数值很大(即两法的一致率很高), b 和 c
21、的数值相对较小时,即便是检验结果有统计学意义,其实际意义也往往不大。 18 检测结果一致性检验的统计分析方法 定量测定结果间的一致性评价 1.配对 t检验 原理 是两测量仪器 M、 N结果差值与均数为零的总体进行比较,即 检验 是否 为零; 配对 t检验主要检验的是两测量仪器的系统误差是否有差别,即 对两测量结果的系统误差敏感,但不能兼顾随机误差 ; 配对 t检验的本质是对“差异”的检验。而非对“一致”检验。因为配对 t检验主要是比较均数的差异,当不拒绝无效假设时只能反映总体均数可能相同,却不能反映数据的一致性,而且此时还应考虑检验效能以及 型错误的问题。 系统误差 对均数比较影响较大, t检
22、验对其敏感;随机误差对均数比较的影响较小, t检验对其并不敏感,特别是在两仪器测量均数无差异。而个体测量值间差异较大的情况,此时配对 t检验对于一致性的评价是不准确的; 当样本量较大时,配对 t检验很容易检验出两均数间细小的差异,即使此差异在专业上没有实际意义。可见,配对 t检验作为评价一致性的方法存在明显缺陷。 E(XM X) 19 检测结果一致性检验的统计分析方法 定量测定结果间的一致性评价 2. 相关系数 相关系数 是用于表示两定量资料线形相关关系的密切程度,是基于测量个体间变异以及测量方法间变异计算得到的; 相关系数 反映的是两变量线性关系的密切程度而非一致性; 相关系数 对 系统误差
23、是不 敏感 ; 相关系数 的假设检验是与 0进行比较而非 1,所以假设检验结果对于一致性评价的意义也不大 。 3. 组 内相关系数 (intra-class correlation coefficients, ICC) 反映被测量者变异占总变异的比例 。 ICC = 2 2 +2 +2 其中, 2为被测量者变异, 2为由系统误差造成的变异, 2为由随机误差造成的变异。可以看出, ICC值介于 0 1之间,一般认为 :ICC 0.75则信度“佳”;ICC 0.40则信度“差”;介于两者之间一般认为良好。 ICC大意味着系统误差与随机误差引起的变异均小。 ICC的假设检验也是与 0比较而非与 1比
24、较,所以假设检验结果对一致性判断意义不大。 ICC的应用 受到测量值范围的局 限,有时也会做出错误的判断 。 20 检测结果一致性检验的统计分析方法 定量测定结果间的一致性评价 4.Bland-Altman法 主要原理 是根据两种仪器的测量结果 , 计算出一致性接线 ( Limits of Agreement,LoA。 指量结果差值 D的 “ 均值 2标准差 ” ) , 并用图形直观地反映 , 最后结果临床实际意义 , 确定专业界限 , 从而得出两种仪器的测量结果是否具有良好的一致性; 界值: 有临床意义的一致性界限 ( 由临床医生决定 ) ; 样本量越大 , LoA CI范围越小 , 越容易
25、得到一致性较好的结论; 对数据的分布情况也有一些要求 , 即数据的覆盖范围尽量宽一些 , 太窄的话容易得到错误的结论 , 也不容易发现是否存在差值随均值成比例变化的情形; 主要用于新方法与金标准之间的比较 , 或对两种测量仪器进行一致性评价可以判断仪器出具数据的可替代性; 应对测量的可重复性进行分析 。 要求至少要有一种测量方法对测量对象没有影响 ,以减小因测量对象本身的不一致造成数据的差别 , 影响对测量方法和仪器的分析 。 Bland-Altman法的图形是两组测量值差值对应于测量值均值的散点图 , 又称 D-A图 , 其中: 纵轴: D = 横轴: A = + 2 21 检测结果一致性检
26、验的统计分析方法 定量测定结果间的一致性评价 4.Bland-Altman法 同时 , 考虑到抽样误差 , 除了 LoA, 还要有 LoA的可信区间 ( LoA CI) 。 计算 LoACI所对应的标准误差一般为 1.71SE( d ) , 即可计算出两条一致性界限分别对应的可信区间 。 当 D与 A独立时 ( 两种测量数据具有方差齐性 , 差值不会系统地随测量尺度的扩大而变化 , 差值都服从正态分布 ) 一致性界限可作为评价一致性的指标 。 如果两种仪器测量结果的差异位于一致性界限内 , 并且在临床上是可以接受的 , 则可以认为这两种检测方法具有良好的一致性 , 可互换; 如果两种仪器测量结
27、果的差异超出临床界值或者在临床上不可以接受 , 那么可以认为这两种检测方法一致性较差 。 当 D与 A不独立时 ( 即两种测量数据不具方差齐性 , 差值随着度量等级的变化而变化 ) 不能简单地计算一致性界限 , 需要进行回归分析 , 然后根据 Bradley-Blackwood检验结果判断两种测量数据的一致性 。 当数据的差值与均值成比例变化时 , 需要对原始数据进行对数转换 , 然后再进行作图分析 。 数据进行对数变化并不能彻底消除差值与均值成比例的问题 。 这样做可以使得 LoA与 LoACI明显变窄 , 相比较于采用原始数据有更大的优势 。 Bland-Altman法评价一致性既考虑了随
28、机误差也考虑了系统误差 , 同时可以结合专业意义进行判断 , 具有独特的优势 。 22 检测结果一致性检验的统计分析方法 定量测定结果间的一致性评价 5.ATE/LER区域法评价 一致性 ATE/LER区域法是 FDA推荐用于评价一致性的新指标 , 主要适用于定量资料; 主要原理 是分析一种仪器的测量结果与另一种仪器测量结果的总体吻合度 , 并用图形直观地反映这一结果 , 最后结合临床意义 , 得出两种测量方法是否具有良好的一致性; 图形中各个区域部分的划分需要临床专家和统计学专家共同做出判断 , 以制定临床界值; 当两种检测方法完全一致时 , 散点应分布在图中均等线 Y=X上; 结合临床意义
29、可将图形划分为三个区域: ATE区域 :围绕 Y=X附近的白色区域 , 此区域内误差在临床上可以接受 , 就总体而言 , 观察对象落入 ATE区域内应超过 95%; LER区域 :位于图形最外围的深灰色区域 , 它的划分确定了两种检测方法的差异界限 , 此区域内误差不可忽略 , 并且散点数必须为 0。 若有散点落入此区域 ,表示两种检测方法一致性差 , 检测方法不得用于临床应用; 中间区域 :位于 ATE区域与 LER区域之间的浅灰色区域 , 此区域内误差在一定范围内可以接受 , 就总体而言 , 观察对象落入中间区域内不得超过 5%; 同时满足三个区域的判定标准时 , 此时才可以认为两种方法一
30、致性良好 。 23 检测结果一致性检验的统计分析方法 定量测定结果间的一致性评价 5.ATE/LER区域法评价 一致性 24 检测结果一致性检验的统计分析方法 定量测定结果间的一致性评价 配对 t检验主要是对两组数据均值差异的检验,当接受了有效假设时只能说明总体均数可能相同,而不能反映数据的一致性,系统误差对配对 t检验影响较大,但对随机误差不敏感;相关系数主要反映的是两变量线性关系的密切程度而非一致性,对系统误差缺乏鉴别能力;组内相关系数受测量值范围的局限,在变异系数较小时会做出错误的判断。 Bland-Altman法用 图示的方法,将定量分析和定性分析有机结合,同时反映测量过程中的系统误差和偶然误差,直观反映两组测量结果的差异性,并结合仪器的计量性能,同时可结合专业意义进行判断,对两种或多种测量方法的一致性做出判断,具有独特的优势。 25