1、蛋白质学组中质谱数据定量分析方法研究,谢红卫 国防科学技术大学机电工程与自动化学院自动控制系 2010.5.15,主要内容,研究背景(我们对定量问题的认识)定量数据分析面对的问题定量数据分析的基本方法已有定量软件和应用情况 研究内容和结果定量信息提取方法及问题多批次定量数据的对应及重复实验差异显著性检验计算问题和软件开发 未来工作,第一部分:研究背景,定量数据分析面对的问题,大规模Biomarker 发现 -低丰度蛋白质-信号S/N低+鉴定信息少 重复实验数据综合 蛋白质和肽段预分离技术策略的数据综合 Biomarker验证 -靶标分析-靶标挑选(MRM)肽段分析效率预测(绝对定量)生物样本蛋
2、白质表达的随机变化影响 临床诊断 -直接寻找差异-肽段组学,肽段特征矩阵,LC-MS策略,信号直接对比+有选择鉴定,定量数据分析的基本方法,不包括MRM、iTRAQ和SC定量,标记定量,无标定量,计算问题,图谱定量信息提取-同位素峰簇处理 肽段定量指标计算-比值计算,XIC处理,母离子误差校正 RT对齐-LC-MS策略和LC-MS/MS策略的不同 信号归一化-消除系统误差 差异显著性检验-考虑信号强度影响,质谱信号与定量,无标记:同位素峰,标记:配对的同位素峰,图谱定量信息提取方法,基本方法最大值法,平滑积分法,信号求和,构建3D peaks(MaxQuant),函数拟合 附加处理小波去噪,同
3、位素分布约束,信噪比过滤 结果形式标记定量:比值,定量指标无标定量:定量指标,肽段定量指标计算,可选步骤 去噪处理:小波,平滑滤波 XIC峰形拟合:复杂的类高斯函数 XIC边界确定:信噪比,连续性,局部最小值 母离子匹配误差分布:提高精度?,标记定量:比值计算,MaxQuant采用了最小二乘拟合法 问题:不同试剂标记的肽段XIC平移,差异越大,表现越明显 无标记定量:定量指标计算,RT对齐,LC-MS策略:寻找共同的肽段信号,建立非线性模型 LC-MS/MS策略:利用共同鉴定肽段的RT建立对齐模型 对齐模型:3次样条,局部回归,小波,分段线性,偏移向量等 作用:对LC-MS/MS策略,可以弥补
4、鉴定信息的不足,提高MS图谱信号利用率,信号归一化和差异显著性检验,信号归一化目的:针对无标记定量,消除不同实验间的系 统误差基本方法:寻找不变量 差异显著性检验从肽段到蛋白质的信息综合:平均?筛选?异方差问题:信号越弱,误差分布越宽,一个例子,XIC,定量信息:TGVIVGEDVHNLFTYAK,AVG_ISO_DIS,鉴定信息,数据产生 LTQ/FT分析Yeast样品,SEQUEST搜库,Target-decoy过滤(FDR=0.01),取Scan number最小的记录,定量软件,Cencus、CRAWDAD、MaxQuant 软件在可视化、速度、数据文件格式支持、算法精度和实验策略支持
5、等方面有很大发展空间,定量软件-Mascot,支持的定量类型多种标记定量, MS/MS图谱定量, emPAI, 重复实验Label free, 选择信号最强的3个肽段,数据处理算法特色基于m/z和RT的对齐,多种XIC积分方法,多参数鉴定结果过滤,outliers排除,归一化处理(利用均值),使用方法在搜库前定义修饰和定量的参数(通过修改XML文件实现),搜库,然后使用Distiller定量,第二部分:研究内容和结果,定量信息的提取:Label free,去噪方法 不去噪 Xcalibur默认 小波去噪,谱峰定量信息 最大值 平滑积分 函数拟合 信号加和,同位素峰 单一 最高 全部,XIC处理
6、 小波去噪 平滑去噪 连续性截断 误差分析,XIC定量 平滑积分 函数拟合 信号加和,X,X,X,图谱水平,肽段水平,X,共3*4*3*4*3=432种计算流程比较原则:重复实验的CV值最小,目前结论: (1)不进行去噪处理的信号加和方法最优 (2)高信号水平的处理结果CV值都比较小,定量信息提取:标记定量,图谱水平: 非线性拟合算法,特点 可定义一般模式,支持自定义标记方法,支持多重标记 能够充分利用同位素分布信息 能够直接解决谱峰叠加问题,定量信息提取:标记定量,肽段水平实现了多种算法:XIC面积比,图谱比值平均,主成分分析,最小二乘回归采用了异常值排除策略实现了基于XIC连续性的截断,单
7、一同位素峰最高,问题:同位素峰分布测量误差,第二同位素峰最高,第三同位素峰最高,第四同位素峰最高,数据:FT_yeast, BPRC,高可信鉴定肽段,问题:从质量预测同位素分布,经验公式:从IPI.Human 3.49酶切肽段中统计(胰酶,2个漏切,肽段长度不超过100),Bellew, M., M. Coram, et al., Bioinformatics, 2006. 22(15):.,重复实验的数据处理,RT对齐和交叉搜索,信息的充分利用,不可逆:需要建立,个RT对齐模型,可逆:需要建立n-1个模型,工作:实现了基于局部回归(采用线性函数)的可逆模型和算法,大大减小了计算量,交叉搜索的
8、效果,鉴定次数,定量次数,重复实验的数据处理-信息融合,问题:一个肽段,多个定量结果,怎样给出最终结果? 方法:信号归一化后,求平均值、中值或者最大值 结果:对简单重复来说,分组平均后组间差异更小,例如10次重复,分为两组,求5次平均。,数据:FT_yeast, BPRC,标记定量中比值分布-信号强度,H/D(3)标记实验中发现,比值的标准差随着XIC中peak number的增大而减小,数据:FT,人血浆,BPRC,无标记定量中差异分布,分段估计方差,带有参数的分布模型,极大似然估计直接优化似然函数 初始值的选择决定成败,标记定量软件SILVER,C+语言 GUI 交互操作 批量数据处理 文
9、件格式支持:XML,Mascot dat和html,多线程,图谱、XIC导出,多种输出格式,算法优化,索引文件和速度提升,索引文件和数据结构 Scan number到MS图谱索引:Hash表 图谱中Isotopic peaks定位:二分法查找,无标记定量软件LFQuant,重复实验支持 定量精度和参数优化 速度:1 s可以定量1000个肽段 支持pepXML,protXML,mzXML,mzData,mzML 蛋白质组装和未鉴定肽段搜索 RT对齐、信号归一化,从搜库(SEQUEST)到定量完成的全流程自动化,有GUI界面,LC-MS策略支持软件XICFinder,不需要鉴定信息,直接从MS图谱
10、中解析同位素峰簇 考虑了XIC截断,同位素峰叠加,母离子误差校正等问题 提供了信噪比、同位素分布拟合优度等过滤 测试:发现采用严格过滤规则,则鉴定肽段也可能不能定量,说明和LC-MS/MS策略可以相互补充,第三部分:进一步的思考,预分离和信号归一化,SDS分离 蛋白质多条带分布 条带切割的不均匀性 不同实验之间信号不可比,1D-SDS PAGE 和Label free定量,蛋白质的多条带分布问题没有提及 多条带分布的原因:修饰、误切、可变剪接,信号归一化“局部效应”,仅仅考虑了信号强度因素 RPLC和ESI过程中的离子抑制效应和Matrix effect:信号的局部归一化 寻找RT轴上的校正曲
11、线:不变量,可能方法,仪器加性电子噪声的不变性 图谱信号统计不变量 小波去噪,蛋白质组装与定量,影响图谱质量,从而影响 ID Score,决定碎裂模式, 影响 ID score,蛋白质,肽段,RPLC分离过程中肽段之间相互影响,色谱流出曲线与肽段混合物有关,MS response不仅仅由肽段自身属性决定,还与其它混合在一起的肽段相关,肽段检测效率预测问题,贝叶斯网络,蛋白质,肽段,肽段,肽段,酶切模型,MS图谱(多张,组成XIC),MS/MS图谱(多张,重复鉴定),母离子误差分布,同位素分布匹配,XIC形状,定量指标,序列,物理化学属性,碎裂模式,图谱质量,搜库打分,重复鉴定次数,共享肽段问题:肽段有多个父节点,感谢,北京蛋白质组研究中心-贺福初,钱小红,朱云平研究员 北京蛋白质组研究中心-刘科辉博士,马洁博士 团队主要成员:博士-张纪阳,刘伟博士生-孙汉昌,徐长明,张伟,刘辉,唐海 琳,王腾蛟硕士生-马海滨,谢谢大家!,