1、2019/7/2,遗传数据基因定位的统计方法简介,1,遗传数据基因定位的统计方法简介,左晓宇,生物医学研究的统计方法,2019/7/2,遗传数据基因定位的统计方法简介,2,背 景,分子遗传学的最新发展给人类复杂性状的遗传研究提供了机遇。 很多人类疾病,如胰岛素依赖性糖尿病、高血压以及精神分裂症都认为有遗传成分,确定可能影响此类疾病的基因位置对病因研究极为重要。 基因定位的任务:参照某些已明确位置的遗传标记来推测某种表型的易感基因在染色体上的位置。,2019/7/2,遗传数据基因定位的统计方法简介,3,复杂性状疾病的特点:,多基因参与 单一基因作用微弱 遗传模式尚未确定 群体遗传异质性强 外显率
2、低 受一组环境因素的作用 多个生物过程共同参与致病机制,2019/7/2,遗传数据基因定位的统计方法简介,4,关注的目标,人类疾病基因组学研究主要关注的目标: 对那些表型与基因型间并不存在严格一一对应关系的、更为广泛的复杂遗传学机制的揭示。,2019/7/2,遗传数据基因定位的统计方法简介,5,主要方法:,基因定位的主要理论策略、方法: 基于连锁(linkage)的分析方法 基于关联(association)或连锁不平衡(linkage disequilibrium,LD)的分析方法,2019/7/2,遗传数据基因定位的统计方法简介,6,一、基本概念,基因(gene)和位点(locus) 决定
3、某一性状的DNA功能单位称为基因,它是一段具有特定结构的连续的DNA序列。(估计人类核基因有近十万个) 每个基因在染色体上都有特定的位置,即基因座(locus),又称为位点,2019/7/2,遗传数据基因定位的统计方法简介,7,多态性(polymorphism),基因的不同形式,如A和a,相互为等位基因(alleles) 等位基因的组合称为基因型(genotype) 具有相同等位基因的个体称为纯合子(homozygote):如 aa、AA 具有不同等位基因的个体称为杂合子(heterozygote):如 Aa 等位基因的不同形式即为多态性现象,2019/7/2,遗传数据基因定位的统计方法简介,
4、8,复等位现象,一个基因存在很多等位形式,称为复等位现象(multiple allelism)。 例如,人的血型ABO血型。 ABO血型由3个复等位基因决定。这3个复等位基因是IA;IB;i,它们组成6种基因型。但因IA与IB间表示共显性,而IA和IB对i都是显性,所以6种基因型只显现4种表型(phenotype)。,2019/7/2,遗传数据基因定位的统计方法简介,9,IAIA 和 IAi 在表型上相同,都是A型 IBIB 和 IBi 在表型上相同,都是B型 IAIB 杂合体中,IA 和 IB 都是显性,表型是AB型 ii 的表型是O型表型(phenotype):表型是指可观察到的个体性状,
5、如身高,体重,血型,是否患有某种疾病等。,2019/7/2,遗传数据基因定位的统计方法简介,10,基因频率、基因型频率,等位基因的基因频率:一个群体中某一等位基因在其位点上可能出现的比率或百分率。 例如:P(A)=0.3 基因型频率:在某个群体中携带不同基因型的个体所占的比率。 例如:P(Aa)=0.3,2019/7/2,遗传数据基因定位的统计方法简介,11,遗传标记,遗传标记(genetic marker) 在基因定位中,以多态性位点为“标记”或“路标”,用一定的方法将疾病基因确定到染色体的实际位置,2019/7/2,遗传数据基因定位的统计方法简介,12,第一代:包括限制性片段长度多态性(R
6、FLP)、可变串联重复序列(VNTR)。 第二代(微卫星标记):微卫星(MS)是指DNA基因组中小于10个核苷酸的简单重复序列,又称短串联重复(STR)。 第三代(单核苷酸多态性,SNP):主要是指基因组水平上单个核苷酸的变异引起的多态性,其意义已超出了遗传作图的范围,成为研究基因多样性和识别、定位疾病相关基因的一种新型手段。,2019/7/2,遗传数据基因定位的统计方法简介,13,2019/7/2,遗传数据基因定位的统计方法简介,14,单体型/单倍型(haplotype)一条染色体上的两个或者两个以上的多态位点组合。,上图是两个位点组合后的可能的基因型(单体型对)A1B1/A2B2 与 A1
7、B2/A2B1 。单体型对也形成这两个位点组合后的基因型。,2019/7/2,遗传数据基因定位的统计方法简介,15,随机婚配,随机婚配:任何一个女性同任何一个男性婚配的机会相同,此时婚配类型的概率就是婚配的女性基因型频率和男性基因型频率的乘积,如在随机婚配的前提下,一个群体的下一代的基因和基因型频率会与其上一代保持相同,我们称这个群体处于平衡状态。,设一个位点有两种可能的等位基因A和a,且某个群体中这两种等位基因的基因频率分别为 如果这个群体在某一代中这一对等位基因的三种基因型的频率为,我们称这个群体处于平衡状态。,2019/7/2,遗传数据基因定位的统计方法简介,17,Hardy-Weinb
8、erg (H-W)平衡定律,在一个较大的、随机交配的、处于平衡状态的群体中,在无迁移、无选择、无突变的情况下,群体中各种基因(型)频率将保持世代平衡,具有恒定性,这就是Hardy-Weinberg (H-W)平衡定律 在遗传分析中,常常假设Hardy-Weinberg(H-W)平衡 假设的有效性可以用 检验来考察。,2019/7/2,遗传数据基因定位的统计方法简介,18,H-W平衡检验,H0:群体处于H-W平衡H1:群体不处于H-W平衡=0.05O - (observed frequency ) 实际观测的基因型频数E - (expected frequency) 理论基因型频数,对于有两种可
9、能等位基因的座位,在H-W平衡状态下,样本含量为n的随机样本中,不同基因型的期望数目为,2019/7/2,遗传数据基因定位的统计方法简介,19,例23-1:一项高血压遗传研究中,对在某个群体中随机抽取197名个体进行血管紧张素转化酶基因位点的基因型分型,数据如下:AA Aa aa26 93 78 欲检验该群体是否处于H-W平衡。,2019/7/2,遗传数据基因定位的统计方法简介,20,2019/7/2,遗传数据基因定位的统计方法简介,21,检验方法,H0:群体处于H-W平衡;H1:群体不处于H-W平衡;=0.05,2019/7/2,遗传数据基因定位的统计方法简介,22,遗传模式(heredit
10、ary mode),设疾病位点的等位基因D,d。D为致病等位基因,d为正常等位基因。记人群中D、d的频率分别为:记基因型DD,Dd,dd 的外显率(penetrance),即条件患病率 P(affected|genotype) 为fDD, fDd, fdd。,2019/7/2,遗传数据基因定位的统计方法简介,23,在疾病位点处于Hardy-Weinberg平衡下,人群中的患病率:,2019/7/2,遗传数据基因定位的统计方法简介,24,四种遗传模式:,显性遗传模式(dominant) 隐性遗传模式(recessive) 加性遗传模式(additive) 乘积遗传模式(multiplicativ
11、e),2019/7/2,遗传数据基因定位的统计方法简介,25,二、连锁分析,连锁(linkage): 如果两个位点位于同一条染色体上且距离非常近,父亲或母亲同一条染色体上的这两个位点的等位基因就会倾向于一起传递给子女,这种现象称为连锁。 最可能的生物解释:这两个位点的物理位置很近,故作为一个共同的单位传到子代。,2019/7/2,遗传数据基因定位的统计方法简介,26,重组(recombination): 家系的亲代在向子代的传递过程中发生交换,致使原先处于同一条染色体上的基因彼此分离。两位点物理距离越近,发生重组现象的可能性越低,连锁现象越明显,重组现象,2019/7/2,遗传数据基因定位的统
12、计方法简介,27,2019/7/2,遗传数据基因定位的统计方法简介,28,重组体和非重组体示意图,重组体:某一个体由遗传所得单倍体型与他的父亲或母亲自其(外)祖父或(外)祖母遗传所得的单倍型不同。 非重组体:某一个体遗传所得的单倍型与其双亲之一由遗传所得的单倍型相同。,图1:重组体和非重组体示意图,2019/7/2,遗传数据基因定位的统计方法简介,29,重组率,两个位点发生重组的频率称为这两个位点的重组率,用 表示。由“自由组合”定律可知,若两个基因位于不同染色体上,重组率为0.5; 而两个连锁位点,重组率 。 遗传上将1%的重组率定为1个遗传学单位,即1个厘摩(centiMorgan, cM
13、),2019/7/2,遗传数据基因定位的统计方法简介,30,连锁分析是根据染色体上不同等位基因的重组率来计算两对(或两对以上)基因之间的染色体图距,从而确定各个位点间的距离关系。 连锁分析方法一般是以有关遗传标记为“路标”,以被定位基因与其连锁路标的重组率为“遗传学距离”,进行基因定位。,2019/7/2,遗传数据基因定位的统计方法简介,31,连锁分析的两种方法:,基于遗传模式的连锁分析-参数连锁分析方法 不基于遗传模式的连锁分析-非参数连锁分析方法,2019/7/2,遗传数据基因定位的统计方法简介,32,由于连锁导致的共分离现象只有在家系内部才能观察到,所以,检测连锁必须要有家系调查资料。,
14、2019/7/2,遗传数据基因定位的统计方法简介,33,2.1 Lods 连锁分析,Lods连锁分析法:log odds score法,即对数优势记分法 这是基于遗传模式(model-based)的连锁分析方法,应已知 要研究性状的遗传模式; 性状控制位点的等位基因数目; 每种基因型的外显率。,2019/7/2,遗传数据基因定位的统计方法简介,34,Lods是指两个位点按某一重组率 连锁时,产生所观察到的家庭的概率与不存在连锁情况下 产生该家庭的概率之比的对数,即,计算不同 下的Z值,对应最大Z值的 即为所求的重组率。,2019/7/2,遗传数据基因定位的统计方法简介,35,一般地,当 Z 3
15、 时,可以认为存在连锁,相当于P0.001,表示连锁发生的可能性为不发生的1000倍。连锁重组率 值的意义为:,2019/7/2,遗传数据基因定位的统计方法简介,36,例题: 假定控制某种疾病的位点位于常染色体上,遗传模式为显性,疾病位点上有两个等位基因D和d,引起疾病的等位基因D在人群中很少。同时假定一个标记位点有两个等位基因M和m。,2019/7/2,遗传数据基因定位的统计方法简介,37,例:研究者通过调查得到一个家庭的数据(如下图所示)。此家庭数据包含三方面的信息。 家庭成员的患病状态 每一成员的标记基因型 成员之间的亲缘关系。 家庭成员的疾病位点的基因型是不能通过实验手段得到的,因为未
16、知疾病位点的位置。 问题:疾病位点是否与标记位点连锁?,假定:P(有病|DD)= P(有病|Dd)=1, P(有病|dd)=0.,2019/7/2,遗传数据基因定位的统计方法简介,40,结论:由于Z值小于3,故该家庭数据不足以支持疾病位点与标记位点连锁的假设。,2019/7/2,遗传数据基因定位的统计方法简介,41,例题:,例23-2:Machado-Joseph病(MJD)是一种常染色体显性遗传的脊髓小脑共济失调。为了缩短MJD致病基因在第14号染色体上的定位范围,王国相等(1997年)采用第14号染色体上13个新近发现的微卫星DNA多态标记位点对4个中国MJD家系进行了连锁定位分析。这4个
17、多代中国MJD 家系共有成员61名,其中包括患者15名。(图表见生物医学研究的统计方法P462,图23-3),2019/7/2,遗传数据基因定位的统计方法简介,43,参数连锁分析小结,生物学基础:重组现象与连锁现象 资料要求:家系数据(家系越全面,功效越高) 目的:估计重组率,区域定位疾病位点 方法: Lods 连锁分析(似然比检验) 前提条件:需已知疾病位点的遗传模式、等位基因数目、外显率,2019/7/2,遗传数据基因定位的统计方法简介,44,2019/7/2,遗传数据基因定位的统计方法简介,45,问题:,疾病位点与标记位点无连锁,或 =0.5疾病位点与标记位点连锁,或 = 0.5,201
18、9/7/2,遗传数据基因定位的统计方法简介,46,三、关联分析,连锁不平衡的度量与检验 基于群体数据的关联分析 家系关联分析 复等位基因情形的推广,3.1 连锁不平衡,在群体中,位于同一染色体的两个位点的等位基因非随机组合现象称为连锁不平衡(Linkage disequilibrium)连锁不平衡反映了等位基因关联(Allelic association),或两位点不独立(Independence)不平衡程度:关联分析的理论基础,2019/7/2,遗传数据基因定位的统计方法简介,47,连锁不平衡与重组率,等位基因随机组合的两个位点称处于连锁平衡初始状态为连锁不平衡的群体,经过n代随机婚配后,不
19、平衡程度逐渐减少,群体逐渐演变为连锁平衡状态紧密连锁的两位点,由于重组率很小( 0),不平衡状态会持续很多代。,2019/7/2,遗传数据基因定位的统计方法简介,48,连锁与连锁不平衡,2019/7/2,遗传数据基因定位的统计方法简介,49,2019/7/2,遗传数据基因定位的统计方法简介,50,3.2 群体关联分析,关联分析在传统的流行病学里被广泛地应用。常用的一种关联研究设计是病例对照研究。 例如:肺癌与吸烟关系的研究。,2019/7/2,遗传数据基因定位的统计方法简介,51,病例对照研究用于分析基因与疾病的关联 分别随机抽取n1个有病的个体和n2个正常的个体 假定被研究的位点是候选位点,
20、被研究位点很有可能控制疾病发生 假定被研究的位点是标记位点,则疾病位点有可能在该标记位点附近。,表23-1 病例与对照的基因型分布,2019/7/2,遗传数据基因定位的统计方法简介,53,3.2 群体关联分析,例23-5 为了探讨1个SNP标记位点与糖尿病的关系,采用366个病例与390个对照的基因型数据。,表23-8 病例与对照的基因型分布,2019/7/2,遗传数据基因定位的统计方法简介,54,群体关联性分析(population-based association analysis) 采用的统计方法有 检验与logistic 回归。理论基础:连锁不平衡,2019/7/2,遗传数据基因定位
21、的统计方法简介,55,采用Pearson 检验,可检验两组的基因型频率分布是否有差异。“O”- observed frequency (实际观测频数)“E”- expected frequency (理论频数) 这种 检验称为基于基因型的 检验(genotype-based test)。,基因型关联分析,2019/7/2,遗传数据基因定位的统计方法简介,56,另外还有一种基于等位基因的 检验(allele-based test),检验两组的等位基因频率分布的差异。 其前提是等位基因独立地影响外显率,即满足乘积遗传模式。并假定:同一个体的两个等位基因是独立的,相当于满足H-W平衡定律。,等位基因
22、关联分析,表23-8 病例与对照的基因型分布,2019/7/2,遗传数据基因定位的统计方法简介,58,由于格子数减少以及检验样本量的增加,基于等位基因的检验的检验效能高。,Hardy-Weinberg平衡不满足时 的关联分析,常见的引起H-W平衡不满足的原因: 近亲婚配 群体分层、孤立小群体 群体混合、群体迁移 H-W平衡不满足时,等位基因关联的犯一类错误概率会增加 在关联分析前建议对对照群体进行H-W平衡检验 校正方法:基于基因型数据的Armitage趋势检验,2019/7/2,遗传数据基因定位的统计方法简介,61,Armitage趋势检验,针对风险因素有k个水平,且k个水平对结局事件影响程度具有等级趋势假定:基因型致病风险:AAAaaa,影响程度分别设为2、1、0,2019/7/2,遗传数据基因定位的统计方法简介,62,趋势检验统计量为服从自由度为1的2分布,2019/7/2,遗传数据基因定位的统计方法简介,63,2019/7/2,遗传数据基因定位的统计方法简介,64,小结,基本概念 Hardy-Weinberg平衡 连锁分析:Lods连锁分析 关联分析:群体关联分析 基因型关联分析和等位基因关联分析 连锁与连锁不平衡,2019/7/2,遗传数据基因定位的统计方法简介,65,THE END,THANK YOU!,