1、Copy Number Data Analysis1. 什么是基因拷贝数基因拷贝数是指某一种基因或某一段特定的 DNA 序列在单倍体基因组中出现的数目。基因拷贝数变异(CNV)是指较之于参照基因组,DNA 片段缺失或复制大于 1kb 至 Mb 的结构变异,是基因多态性的一种。在肿瘤细胞中 DNA 拷贝数的变化:如正常人类基因组构成成分是成对存在,即 2 个拷贝。肿瘤细胞在细胞分裂过程中出现因缺失或重复而导致的基因拷贝数变化,可以变少如0、1,也可能增加至大于 2 的拷贝数。2、怎样测量/定量基因拷贝数1)Q-PCR:DNA 扩增,最简单,最初的方法即时聚合酶链锁反应(Real-time pol
2、ymerase chain reaction,简称 Real-time PCR、即时PCR) ,又称定量即时聚合酶链锁反应( Quantitative real time polymerase chain reaction,简称 Q-PCR/qPCR/qrt-PCR、定量即时 PCR、即时定量 PCR) ,是一种在 DNA 扩增反应中,以萤光染剂侦测每次聚合酶链锁反应(PCR )循环后产物总量的方法。比较 CT 值确定拷贝数。2)传统细胞遗传学技术FISH(Fluorescence In situ Hybridization 荧光原位杂交)或 SKY在单细胞水平检测基因重排(插入/删除/ 转移
3、) ,低分辨率( 40 -250 kb per clone)将 DNA 探针用生物素和毛地黄毒苷等荧光染料标记,然后将标记的探针直接原位杂交到染色体或 DNA 纤维切片上,再用与荧光素分子偶联的单克隆抗体与探针分子特异结合,通过荧光杂交信号来检测 DNA 序列在染色体或 DNA 纤维上的定位、定性、相对定量分析。 3)CGH(Comparative Genomic Hybridization 比较基因组杂交)定义:将消减杂交、荧光原位杂交相结合,用于检测 DNA 序列的变化(缺失、扩增、复制) ,并将其定位在染色体上的方法。基本原理:用不同的荧光染料分别标记正常人基因组 DNA 与肿瘤细胞 D
4、NA,然后与正常人中期染色体杂交,通过检测染色体上两种荧光(红、绿)的相对强度比率,两组DNA 相异部分会显出颜色偏移,可计算出 DNA 的缺失与放大,从而了解肿瘤组织 DNA拷贝数的改变,并能同时在染色体上定位。CGH 只 能 检 测 不 平 衡 的 染 色 体 改 变 。 结 构 染 色 体 变 异 , 例 如 : 平 衡 的 相 互 易 位或 倒 位 不 能 被 检 测 出 来 , 因 为 拷 贝 数 没 有 变 化 。事先不知道染色体位置也可以检测染色体的缺失和增加,也能够定量4)Array-based CGH(微阵列比较基因组杂交)arrayCGH 的特点基 因 芯 片 又 称 DN
5、A 探 针 微 阵 列 ( microarray) , 它 通 过 在 一 微 小 的 基 片 表 面 固 定大 量 的 基 因 探 针 , 待 检 测 样 品 标 记 后 与 已 固 定 的 核 苷 酸 序 列 进 行 杂 交 , 根 据 检 测 信 号 的有 无 和 强 弱 , 确 定 样 品 中 该 基 因 或 核 苷 酸 序 列 的 含 量 。ArrayCGH 实 际 上 就 是 用 微 阵 列 取 代 传 统 CGH 的 中 期 分 裂 相 , 使 荧 光 标 记 的 测 试DNA 探 针 和 参 照 DNA 探 针 竞 争 性 地 与 微 阵 列 上 的 短 片 段 靶 序 列 杂
6、 交 。 根 据 被 检 组 织基 因 组 的 大 小 和 实 验 要 求 , 微 阵 列 上 的 核 苷 酸 靶 序 列 可 来 源 于 不 同 的 基 因 组 文 库 , 如YAC( 0.2-2Mb) ,BAC(300kb 左 右 ), P1(70-100kb), PAC(130-150kb)和cosmid(30-45kb)等 文 库 。 与 传 统 的 CGH 相 比 , arrayCGH 技 术 在 以 下 两 方 面 具 有 明显 的 优 势 :( 1) 灵 敏 度 和 精 确 性 : 由 于 染 色 体 上 的 DNA 是 以 高 度 密 集 和 超 螺 旋 的 形 式 存 在 着
7、 ,因 此 传 统 CGH 只 有 在 DNA 序 列 缺 失 达 10 20Mb( 细 胞 株 ) 或 20 30Mb( 原 发 肿瘤 ) 以 上 或 序 列 扩 增 时 扩 增 子 与 扩 增 拷 贝 数 之 积 至 少 2Mb 才 能 被 检 测 出 来 。 故 传 统CGH 所 提 供 的 信 息 中 必 然 包 含 为 数 众 多 的 基 因 , 需 要 作 进 一 步 的 精 确 定 位 。arrayCGH 避 开 了 复 杂 的 染 色 体 结 构 , 所 杂 交 的 靶 序 列 仅 为 包 含 了 少 数 基 因 的 一 段 段 短DNA 片 段 , 所 以 能 找 出 传 统
8、 CGH 检 测 不 出 的 DNA 序 列 拷 贝 数 的 差 异 , 并 同 时 将 扩增 或 缺 失 的 范 围 精 确 地 定 位 在 某 个 或 某 几 个 已 知 基 因 或 EST 上 。( 2) 自 动 化 、 程 序 化 : 染 色 体 带 型 的 复 杂 性 和 个 体 差 异 决 定 了 核 型 分 析 不 可 能 全 部 实现 机 械 化 , 必 需 依 靠 经 验 丰 富 的 细 胞 遗 传 学 家 对 核 型 分 析 软 件 得 出 的 结 果 进 行 校 正 后 才能 进 一 步 分 析 基 因 组 的 不 平 衡 性 。 因 此 传 统 的 CGH 技 术 受
9、人 为 因 素 的 限 制 , 需 要 一定 的 经 验 技 术 和 劳 动 力 支 持 。 ArrayCGH 技 术 中 不 需 要 染 色 体 核 型 的 制 备 和 分 析 , 与普 通 的 基 因 芯 片 检 测 表 达 谱 的 过 程 一 样 , 其 结 果 完 全 可 以 由 机 器 和 计 算 机 自 动 操 纵 控 制 ,既 快 速 又 直 观 。Array-based CGH 与 CGH 比较,Array-based CGH 具有以下优点:分辨率更高,灵敏度更高,边界检测准确,拷贝数计算精确,价格实惠(一般都用芯片即微距阵做)Array-based CGH 数据分析流程:Ra
10、w DatDat procesingSegment detction gen AnotationUCS GenomeGen/Locus IdentifcationDat Visualization/SumaryArray-based CGH 平台:1. BAC array2. in-situ synthesized Oligo arrays (NimbleGene, 4.2M probes)3. Printed long Oligo arrays (Agilent CGH arrays, 1M probes)4. SNP arrays ( Affymetrix 6.0 and Illumina
11、 bead arrays)5)靶向性或全基因组测序优点:可以检测到核苷酸水平。缺点:成本太高。以上方法中,Array-based CGH 是最普遍的方法。预测拷贝数变化的方法:Segmentation(分割?):对信号峰进行一些处理,优化信号CN Estimation(拷贝数估计): Hidden Markov Model (HMM 隐马尔科夫模型),不能用于癌症研究用单核苷酸多态性微矩阵分析基因拷贝数和杂合性缺失LOH( 杂 合 性 缺 失 ) : 实 际 就 是 杂 合 子 , 一 对 染 色 体 上 某 一 个 染 色 体 上 基 因 缺 失 ,与 之 配 对 的 染 色 体 上 仍 然
12、 存 在 。SNP calingRaw CEL Dat IntensityCopy Number AnalysiLOHUPD/del LOH Copy NumberDat Integration个体层面分析对单个个体样品或单对样品进行分析a. 对基因拷贝数的放大和删除的显著性检验b. 寻找边界(平滑和分割)c. 拷贝数估计群体水平分析对整个群体或亚群样品进行分析a. 总体显著性水平检验b. 拷贝数放大和删除频率总结c. 寻找变化的常见/并发区域d. 联系(与突变、杂合性缺失、临床变量等进行综合分析)与基因表达谱相联系寻找影响基因表达谱的拷贝数变化,尤其是有大片增加和缺失的区域。如果拷贝数变化发
13、生在整个染色体上,如整个染色体缺失,但在缺失前染色体上的基因并不是全部都表达。将拷贝数变化情况与基因表达谱进行对照,找出表达下调的基因,则这些基因的下调就有可能是由于该染色体缺失造成的,但也可能是其他原因造成的。3.用到的一些软件Affymetrix Chips ()Illumina Chips ()CNAT(); dChip (www.dchip.org): copy number and LOH for SNP arrayCNAG (www.genome.umin.jp)Plink: CNV association analysisGenePattern www.broad.mit.edu
14、/cancer/software/genepattern/BioConductor R Packages (www.bioconductor.org)GLAD package, adaptive weights smoothing (AWS) methodDNAcopy package, circular binary segmentation method4.在线数据库Database of Genomic Variants:人类基因组结构变异的全面总结,以健康样品做对照DECIPHER:亚微观结构的染色体失衡数据库,数据来自 array CGH,集中了先天发育迟缓,学习障碍或先天性语言异常的患者的数据。Progenetix:(佛罗里达大学)不同癌症类型的 CGH 数据库