1、生物信息学,第五章 基因表达数据分析,苏州大学 沈百荣 首都医科大学 李冬果,生物信息学,第一节 引言 Introduction,基因表达组学与基因组学相比较 表达组信息是动态的; 表达组学的数据,更多的是数值分析; 转录组学中除了模式识别外,系统建模也十分重要。,真核生物基因表达的基本方式,基因表达调控示意图,基因表达的时空性,基因表达测定方法RT-qPCR,近20年来三种不同高通量基因表达测定技术的应用趋势,高通量基因表达测定的应用实例,1.测定组织特异性基因表达 2.基因功能分类 3.癌症的分类和预测 4.临床治疗效果预测 5.基因与小分子药物、疾病之间的关联 6.干细胞的全能型、自我更
2、新和细胞命运决定研究,7.动植物的发育研究 8.环境对细胞基因表达的作用 9.环境监测 10.物种的繁育,第二节 基因表达测定平台与数据库,Microarray Platform and Databases,1.cDNA 芯片2.Affymetrix芯片3.下一代测序技术技术如:Roche-454, Illumina MiSeq,Ion Torrent PGM,一、基因表达测定平台介绍,二、Microarray技术与RNA-Seq技术的比较,1.RNA-Seq技术对没有已知参考基因组信息的非模式生物,也可测定转录信息; 2.RNA-Seq技术可以测定转录边界的精度达到一个碱基,RNA-Seq可
3、以用来研究复杂的转录关系; 3.RNA-Seq可以同时测定序列的变异; 4.RNA-Seq背景信号很小,测定的动态范围很大。,RNA-Seq在基因表达的定量上准确性很高; RNA-Seq在测定技术上和生物上重复性很高; RNA-Seq的测定需要很少的RNA样本。 在应用上RNA-Seq技术对ISOFORM的测定和等位基因的区分比芯片技术有很好的优势。,三、基因表达数据库,疾病相关基因表达数据库,第三节 数据预处理与差异表达分析,Preprocessing of Microarray Data and Analysis of Differentially Expression Gene,一、基因
4、芯片数据预处理,(一)基因芯片数据的提取,cDNA微阵列芯片荧光信号,定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值,原位合成芯片,(二)数据对数化转换,对芯片数据做对数化转换后,数据可近似正态分布,(三)数据过滤,数据过滤的目的是去除表达水平是负值或很小的数据或者明显的噪声数据。 过闪耀现象 物理因素导致的信号污染 杂交效能低 点样问题 其他,(四)补缺失值,1.数据缺失类型 非随机缺失 基因表达丰度过高或过低。 随机缺失 与基因表达丰度无关,数据补缺主要针对随机缺失情况。,高表达基因的数据缺失,2.数据补
5、缺方法,(1)简单补缺法,missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene)average missing values = column (array)average,(2)k近邻法,选择与具有缺失值基因的k个邻居基因 用邻居基因的加权平均估计缺失值 参数 邻居个数 距离函数,(3)回归法,(五)数据标准化,1.为什么要进行数据标准化:存在不同来源的系统误差 染料物理特性差异(热光敏感性,半衰期等) 染料的结合效率 点样针差异 数据
6、收集过程中的扫描设施 不同芯片间的差异 实验条件差异,2.运用哪些基因进行标准化处理 芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同) 不同条件间稳定表达的基因(如持家基因) 控制序列(spiked control) 在不同条件下表达水平相同的合成DNA序列或外源的DNA序列。,3. cDNA芯片数据标准化处理,(1)片内标化(within-slide normalization)方法 全局标化、荧光强度依赖的标准化、点样针组内标准化。,假设: R=k*G 方法:c=log2k:中值或均值,全局标化(global normalization),荧光强度依赖的标化(intensit
7、y dependent normalization),为什么 方法: scatter-plot smoother lowess拟合c(A)为M 对A 的拟合函数 标化后的数据,点样针依赖的标化(within-print-tip- group normalization),为什么一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。 method,(2)染色互换实验(dye-swap experiment)的标化 实验组 对照组 芯片1 cy5(R) cy3(G)芯片2 cy3(G) cy5(R) 前提假设:cc 方法:,线性标化法(linear scaling methods)
8、 与芯片内标化的尺度调整(scale adjustment)方法类似。 非线性标化法(non-linear methods) 分位数标化法(quantile normalization) 两张芯片的表达数据的分位数标化至相同,即分布于对角线上。,(3)片间标化(multiple-slide normalization),4. 芯片数据标准化,对每个探针对计算RR = (PM MM )/ (PM + MM ) 比较R与定义的阈值Tau(小的正值,默认值为0.015 ) 单侧的Wilcoxons Signed Rank test产生p值,根据p值定义定量信号值Present call Margin
9、al call Absent call,(1) 提取定性信号,分析步骤 获取探针水平数据背景值效正标准化处理探针特异背景值效正探针集信号的汇总,(2)提取定量信号,1,分析方法,2,3,4,5,6,M = log2R - log2G A = (log2R + log2G)/2,7,8,9,前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios 的方差也不同。,二、差异表达分析基本原理与方法,(一)倍数法,实验条件下的表达值,对照条件下的表达值,通常以2倍差异为阈值,判断基因是否差异表达,(二)t 检验法,运用t 检验法可以判断基因在两不同条件下的表达差异是否具有显著性,
10、(三)方差分析,两种或多种条件间下基因表达量的比较,用方差分析。它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。,(四)SAM 法(significance analysis of microarrays),1. 多重假设检验问题 型错误(假阳性) 在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。 型错误(假阴性) 不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。,在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的
11、累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(false discovery rate)值等。,2. 分析步骤 计算统计量扰动实验条件,计算扰动后的基因表达的相对差异统计量计算扰动后的平均相对差异统计量,确定差异表达基因阈值 以最小的正值和最大的负值作为统计阈 值,运用该阈值,统计在值中超 过该阈值的假阳性基因个数,估计假阳性发现率FDR值。 调整FDR值的大小得到差异表达基因。,(五)信息熵,运用信息熵进行差异基因挑选时,不需要用到样本的类别信息,所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。,三、
12、差异表达分析应用,以一套阿尔海茨默病相关的基因表达谱数据(GSE5281)为例,详细介绍如何利用BRB-ArrayTools软件进行数据预处理,并对处理过的标准化的基因芯片数据利用SAM软件进行差异表达分析的过程。,GSE5281数据是利用Affymetrix公司的寡核苷酸芯片HG-U133 Plus 2.0 Array检测阿尔海茨默病病人和正常老年人大脑中六个不同区域的基因表达情况,本例仅选择其中一个区域内侧颞回(middle temporal gyrus,MTG)的数据进行说明 。,第一步:导入芯片数据,使用“import data”下的“General Format Importer”导
13、入基因芯片数据,数据间用Tab键分隔(或使用Excell文件),也可使用“Data Import Wizard”进行导入 。,导入芯片数据,第二步:选择文件类型,每张芯片用单独的文件存储,多个文件保存在一个文件夹 “Array are saved in separate files stored in one folder” 若多张芯片数据组织成一个矩阵形式,存储在一个文件中 “Array are saved in horizontally aligned file”,选择记忆芯片数据文件类型,第三步:选择芯片数据文件所存储的路径,注意路径中不能包含中文,第四步:选择基因芯片平台,第五步:选择
14、文件格式,第六步:数据的过滤和标准化,第七步:基因注释,由于基因芯片检测的是探针的表达情况,而探针和基因之间往往不是一一对应,所以,在数据导入后软件会询问是否需要进行基因注释,及是否需要将探针转换成相应的基因名(gene symbol)或Entrez ID,第八步:运行SAM,FDR=0.01, delta=0.68,选出2209个在阿尔海茨默病病人和正常人脑组织中表达发生显著性改变的基因。,SAM的参数设定,第九步:SAM Plot,SAM Plot,第四节 聚类分析与分类分析,Clustering Analysis and Classification,一、聚类目的,基于物体的相似性将物体
15、分成不同的组,二、基因表达谱数据的聚类,对基因进行聚类 识别功能相关的基因 识别基因共表达模式 对样本进行聚类 质量控制 检查样本是否按已知类别分组 发现亚型,样本,基因,三、距离(相似性)尺度函数,几何距离 线性相关系数 非线性相关系数 互信息,四、聚类算法,层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。,(一)层次聚类,在对含非单独对象的类进行合并或分裂时,常用的类间度量方法。,类间相似性度量方法,2000年Alizadeh等运用基因芯片数据,基于层次聚类算法证实了DLBCL肿瘤病人在mRNA层面确
16、实存在两种亚型,(二)k 均值聚类,基本思想,(三)自组织映射聚类,基本思想 在不断的学习过程中,输出层的神经元根据输入样本的特点进行权重调整,最后拓朴结构发生了改变。,(四)双向聚类,双向聚类就是识别基因表达谱矩阵中同质的子矩阵,运用特定的基因子类识别样本子类。,双向聚类识别同质的子结构,五、分类分析,(一)线性判别分类器,(二)k 近邻分类法,(三)PAM方法 (prediction analysis for microarray),基本思想 每类样本的质心向所有样本的质心进行收缩,即收缩每个基因的类均值,收缩的数量由值决定。当收缩过程发生时,某些基因在不同类中将会有相同的类均值,这些基因
17、就不具有类间的区别效能。,基因1,基因2,分析步骤,计算统计量对公式经过变换得到,收缩各类的均值,判断新样本类别,(四)决策树,基本思想 决策树又称多级分类器,它可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决。 决策树的结构:一个树状的结构,内部节点上选用一个属性进行分割,每个分叉都是分割的一个部分,叶子节点表示一个分布。,决策树应用于肿瘤基因表达谱的分类分析,分析步骤:提取分类规则,进行分类预测在构造决策树的过程中最重要的一点是在每一个分割节点确定用哪个属性来分类(或分裂) 这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理,衡量准则 信息增益information
18、 gain基尼指数Gini index,决策树的修剪 消除决策树的过适应问题 消除训练集中的异常和噪声,(五)分类效能评价,1.构建训练集和检验集 n倍交叉验证(n-fold cross validation) Bagging(bootstrap aggregating) 无放回随机抽样 留一法交叉验证 (leave-one-out cross validation,LOOCV),2.分类效能 灵敏度(sensitivity,recall) 特异性(specificity) 阳性预测率(positive predictive value,precision) 阴性预测率(negative predictive value) 均衡正确率(balanced accuracy) 正确率(correct or accuracy),第五节 基因表达谱数据分析软件,Software Tools for Gene Expression Profile Analysis,一、R程序示例,二、BioConductor命令示例,三、差异表达分析软件介绍,SAM执行结果示意图,Cluster 软件界面,Java TreeView示意图,基因芯片数据分析的火山图显示差异基因及p-value,基因拷贝数改变(左)与对应的染色体表意符号图(右),Thank You!,