1、第二讲 X测验,一、学习目标1、了解X2测验的基本原理;2、了解X2测验的应用范围;3、能够处理实际问题。 二、教学重点X2测验的运用。 三、教学难点X2测验原理的理解。 四、教学方法讲述法。 五、教学学时4学时。 六、本章练习3题,第二讲 X测验,一、X检验的意义,判断观察资料对自然规律的代表性如何,即实际数值与理论数值之间符合的程度如何,常用X测验法。,1899年Karl pearson完善了X检验法和X值的抽样分布表(chi-square distribution table),其基本推导及内容为:,1、计数资料对某种理论的符合程度K设0为实际次数,T为理论次数 (0-T) 0i=1n、
2、为所有情况之总体数; K为总情况数。,例:检查F2代400株中红花281株、白花119株、理论为300株、100株。,(300-281)+(100-119)0 无意义。,b、改进,K(0-T) 若结果0,说明观察值与理论值完全吻合;i=1,(0-T)的数值越小,说明实际次数与理论次数越接近,但不能说明实际次数和理论次数之间的差异程度。,例:(5-1)=16. (504-500)16. 绝对数值相等,但差别程度相差很大。,c、将绝对数值折合成理论次数的百分比,即实际次数与理 论次数差异的程度。,二、X的分布及其显著性,从总体中抽取若干个样本,得若干个实际值,按照已定的理论值,可以算出若干个X值,
3、用X值作横坐标,次数为纵坐标就组成了X次数分布图。,a、X值是间断型的,X分布却是连续型的分布。呈偏态分布。b、X分布自由度越小偏态越大,自由度接近无限大时,曲线形 态为常态分布。c、X具有可加性,即把一定个数的X相加,是X的总值的分布也是X分布,其自由度为各个部分自由度之和。,三、X测验的运用,1、适合性的测定,1)、(12)表,例:随机抽取F2代400株,红花281,白花119株。,a、设立零值假设,即是按3:1比例分离。,b、求出理论值,4003/4 300 4001/4100,项 目 4 0 0 红花 白花 实得数 281 119 理论数 300 100 (0-T) -19 19(0-
4、T) T 1.2033 3.6100,(0-T) X= =1.20 3.6100= 4.8133T,这里共分两组 df=2-1=1,X0.05=3.84 XX0.05 .结论:理论与实际不相符,差异显著。,例 2、抽查总数200株,红花142株,白花58株。是否为一对基因控制。,0 142 58T 150 50(0-T) -8 8(0T)2T 0.427 1.280,X=0.427+1.280=1.707 df =1 X0.05=3.84 XX0.05 , 结论:性状是受一对基因控制。,2)、(1n)表,例:玉米杂交试验中,种子紫色甜质(PPss)与种子白色粉质(ppSS)进行杂交,在F2代的
5、1616株植株中,其表型分为四种,分别为:紫色粉质 921株 白色粉质 279株紫色甜质 312株 白色甜质 104株试问两对性状是否为独立遗传?,a、设是独立遗传,F2各表型之比为9:3:3:1,b、 16169/16=909株 16163/16=303株16163/16=303株 16161/16=101株,X=(921-909)/909+(312-303)/303+(279-303)/303+(104-101)/101=2.415,c、 df=4-1=3 X0.05=7.82 XX0.05 , 结论:属独立遗传。,2、独立性检验,生物体性状与性状之间,或生物体性状表现与环境因素相互之间的
6、关系,环境因子是独立的还是相互影响的。,1)、(22)式表,例:研究吸烟习惯与慢性气管炎发病关系。调查了205名吸烟者和 134名不吸烟者,结果如下表:组 别 患气管炎 未患气管炎 合计 % 吸 烟 a. 43 b. 162 205 2.1 不吸烟 c. 13 d. 121 134 9.7 合 计 56 283 339 16.5,a、假设吸烟与患气管炎之间没有联系,二者是独立的。,b、简便计算方法,(ad-bc)2n X2 (a+b)(c+d)(a+c)(b+d),(4312113162)2339 20513456283 X2 =7.4206,c、自由度:将横行自由度与纵行自由度相乘即可。四格
7、表,自由度为1,查=0.01时X值为6.63 XX0.01,有极其显著差异。表明吸烟与患慢性气管炎之间不独立,二者之间有联系。,联系系数用 C=X/N+ X 计算C=7.4206/339+7.4206 =7.4206/346.4206 =0.1464,2)、(2J)表,(2j)表指纵(横)行数为2,横(纵)行数多于2的分类表,用来比较两个以上水平对实验成功率的影响。,例:中山医院研究急性白血病患者与慢性白血病患者之血型构成情况有 无显著不同,资料如下:,血 型 组别 A B O AB 合计 急性 56(63.0) 49(47.4) 59(57.38) 18(16.22) 184 慢性 43(3
8、8.0) 27(28.6) 33(34.62) 9(9.78) 111 合计 101 76 92 26 295,本资料是2行4列,称为24表共8格。,(1)、假设:白血病与血型无关,是互相独立的,根据无关假设求各格 的理论值。,第一格理论数=184101/295=63.0 1016338 第二格理论数=18476/295=47.4 7647.428.6 第三格理论数=18492/295=57.38 9257.3834.62 第四格理论数=18426/295=16.22 2616.229.78,(2)、根据求X公式求X值,X=(58-63.)/63(49-47.4)2/47.4(59-57.38
9、)2/57.38 (9-9.78)/9.78=0.396820.054.0.3239=1.839,自由度df(2-1)(4-1)=3 X0.05=7.815X0.05. 结论:差异不显著。,3、理论曲线拟合的吻合度检验,理论次数与实际次数的一致程度,称作理论曲线拟合的吻合度。两点注意事项:,(1)、各组内理论次数不得小于5,如果小于5时则要进行合并,把相邻的组加在一起进行计算。,(2)、自由度计算:,A、二项分布 df=n-2. b、常态分布 df=n-3. c、普阿松分布 df=n-2.,练 习 题,一、大豆花色一对等位基因的遗传研究,在F2代获得289株分离株数,其中紫色208株,白色81
10、株,问这一资料是否符合3:1的理论数值?,二、有一水稻遗传试验,以有色非糯性与无色糯性品种杂交,其结果如下,有色非糯491株,有色糯性76株,无色非糯90株,无色糯性86株,问是否符合两对等位基因独立分配规律?,三、水稻在三种密度情况下各200株中纹枯病的发病情况如下:,实际情况 密度1 密度2 密度3 总计 病 株 数 26 41 54 121 健 株 数 174 159 14 6 479,试分析密度不同与纹枯病发生有无关系。,第三讲 t测验,一、学习目标1、了解t测验的应用范围;2、能够处理实际问题。 二、教学重点t测验的应用。 三、教学难点t测验原理的理解。 四、教学方法讲述法。 五、教
11、学学时4学时。 六、本章练习3题,一、t测验的意义,样本是总体的一部分,统计值与参数之间只能逼近不可能完全符合,就有误差存在,称为抽样误差。在不同总体中抽样,样本间也存在误差,称为本质的差别。显著性测验的作用主要是检验两种假设,即两个总体是否相等,两个样本是否来自同一总体。,二、t分布及其测验步骤,一)、t分布的意义,1、t分布(tDistribution)。从总体中抽取很多样本,样本平均数与 总体平均数之差,除以该样本的标准误差,称为,这样,一个样本有一个t值,抽多少个样本就有多少个t值,集合很多t值,就形成t值的概率分布。,差值是标准误的多少倍。,1908年,willam seulg Go
12、sset提出在没有总体而以样本为对象时,在重复抽样所得的x和S样本值之间也有某种关系的存在,即以样本为对象,也可以进行差异显著性的测定,而用以下的公式来求出t值。:甲样本的平均数。 :乙样本的平均数。:甲乙两样本平均数差数的估计标准误。此公式的意义为:甲乙两样本平均数的差数相当于差数估计标准误的若干倍,即t值。,二)、步骤,A、设立零值假说,假设二样本来自同一总体,两事物之间没有本质差别。B、根据观察值计算出x(平均数)、二样本变数间差异估计标准误Sd. C、计算出t值,并得出结论。,t 测验主要应用于小样本的抽样估计,可以了解几种不同情况的差异是否显著。如: 1、样本平均数与总体均数的差异显
13、著性; 2、两个样本平均数之间差异显著性; 3、两个样本百分数之间差异显著性等。,三、样本平均数与总体均数之间差异显著性测定,一般情况: 经过几年,多次测定,数值比较稳定在一个范围内,其均数可以当作总体均数。而将某次测验结果当作一次取样对待。,例:某奶牛场有奶牛500头,每年产奶油20,000斤左右,现随意抽取10头奶牛为样本,测得产奶油为每头平均45斤,标准差为13.2斤,问样本平均数(45)与总体平均数(40)之间的差异是否显著?,解:A、假设波动是抽样误差,样本平均数与总体平均 数之间没有显著差异。,B、依据已知数据求出标准误,D、dfn-110-19 P=0.05 t=2.262 t
14、0.05,C、,E、结论:原假设成立,样本平均数与总体平均数之间差异不显著。假设成立,说明样本来自总体,这种结论有95以上的可靠性。,四、大样本均数间差异显著性测验,样本含量增大时,分布接近常态分布,所以只需要算出两个样本平均数的相差数为其估计差数标准误的多少倍就行了,不需要去查表,就可以判断其差异是否显著。,在测定样本平均数与总体平均数之间的差异显著性,衡量差异的单位是平均数估计标准误Sd,对于两个样本之间的差异的衡量,一般都用差异估计标准误,用字母Sd表示,是根据样本的变异量求出其近似值。不同的情况下,估计差异标准误的计算方法不同。,对于大样本资料,其估计差异标准误Sd的求法采用下面公式:
15、,两个样本合并的变异数,总要比一个样本变异数量大些。如果两个样本都是独立地取自同一总体,当这两个样本变得适当大时,它们的变异量应该相等。即:,例:在矮壮素喷洒小麦对产量影响的试验中,采用苗期和抽 穗期两个时期,产量结果如表,问喷药对产量影响是否显著。,不同生长期喷洒矮壮素对小麦产量的影响 处理时期 小区数小区 平均产量(斤) 标准差 苗 期 300 76.5 6.2 抽 穗 期 360 68.5 5.8,若 n1=n2,解:A、设不同时期喷药对产量无效。,B、,C、t76.5-68.8/0.4716.38,d、t2.57. (t0.01 2.57. t0.051.96 )勿需查表,差异极显著。
16、,结论:不同时期喷药对产量有极大影响,苗期喷洒比抽穗期喷洒对产量的影响更大 。,五、小样平均数间差异显著性测定,小样平均数的分布和大样本平均数的分布是有区别的。用以前的方法与实际情况就出入较大,因此,需要寻找更好的方法。,1、样本变量配偶成对时的t值测定法,变量配偶成对的试验(Paired experiment):,a、两样本观察值个数是相等的。,b、每对样本(或处理)所处的环境条件力求一致或接近 。,如:施肥与否对同一品种产量的影响;两种农药对同一 病害的治疗效果,同一胎动物进行不同饲料喂养,对其生长的影响等。,小样本情况下,计算t值比较麻烦的是求差异标准误Sd,Sd是估计差异标准误,求Sd
17、首先要由二成对数之差求出估计差异标准差,设d为二成对数之差数,Sd为估计差异标准差,d 为差异平均数,其估计差数标准差为:,标准差:,其估计差异标准误为:,直接计算t值时,用下式计算:,或者,例:对两个小麦品种进行产量比较试验,分别在10个点进 行,获得产量(斤/区)如下表:10个点可以看作是10个重复二品种在每个点的种植条件是基本一致的,属配偶成对。,t 值计算表点号 甲产量 乙产量 d d 1 378 379 1 1 2 382 390 8 64 3 380 389 9 81 4 376 384 8 64 5 379 379 0 0 6 381 390 9 81 7 382 369 13
18、169 8 375 386 11 121 9 385 388 3 9 10 379 390 11 121 合计 1=3797 2 =3870 d =73 d=711x1379.7 x2387.0,解法A:,1)、设两个品种在产量上无差异。,2)、,3)、,df = n-1= 9 t0.01 = 3.25 t t0.01 P0.01,4)、结论:差异极其显著,两品种在产量上的差异是真实的。,T值取 其绝对值,解法B:,1)、假设两个品种是从差数均数为零的总体中抽出来的,差异是由抽样误差造成(两品种无差异)。,2)、,3)、,5)、结论:二样本均数不是从差数均值为零的总体中抽出来的,差异极显著。,
19、4),df = n-1= 9 t0.01 = 3.25 t t0.01 P0.01,2、样本变量非配偶成对的t值测定法,样本变量非配偶成对,主要是指两个样本行列没有相关性,彼此之间没有内在联系存在,如进行比较时,一个品种可以播种在甲地的n1 小区内。另一品种播种在乙地的n2 小区内,不必在同一块田地进行对比。,对配偶成对与否的资料进行t 测验时,其主要区别是计算两样本差数估计标准的方法有所不同。有两种情况:一是两样本彼此间无联系,但变数个数相等,即:n1 = n2 = n3第二种情况是两样本彼此无相关,而变数个数也不相等,n1 n2 。,A、第一种情况,每个样本及差数的变异量为:,样本1、,样
20、本2、,自由度可按:2(n-1)确定。,B、第二种情况,由于配对与非配对的试验设计不同,差数标准差的公式有所不同, 配对时求合并标准差。,例:不同肥料条件下栽培小麦,蛋白质含量如下:问两种小麦籽粒含蛋白量是否有差别?,样本号 蛋 白 质 含 量 甲x1 乙x2 (x1 x1) (x2 x2)21 12.6 13.1 0.0196 0.0049 2 13.4 13.4 0.4356 0.13693 11.9 12.8 0.7056 0.05294 12.8 13.5 0.0036 0.22095 13.0 13.7 0.0676 0.07296 12.7 0.10897 12.4 0.3969x
21、163.7 x2=91.2 (x1- x1) (x2- x2)x1=12.74 x2=13.03 =11.2320 =0.9943,解:a、假设没有差别,b、列表计算,df122 10 t0.05 2.228,c、 t 0.05 . 差异不显著。,3、两个样本百分数间差异显著性检验,许多计数资料的样本统计数用百分数表示,即某种特征的单位数目在总数目中所占的比重。实验中经常遇到用百分数表示两样本之间的差异是否显著的问题,对于这类问题亦可采用t测验法。,测验的步骤为:,A、设立零值假设,设两个样本来自同一总体,二百分数间差异非本质差异。,B、计算百分数的标准差及均数标准误。,S P q pq =
22、1,C、根据每个样本的标准误就可求出其差异标准误。,Sd,P1q1 n,P2q2n,根据零值假设,即: p1 p2 = 0 两样本来自同一总体的真差为零。Sdpq(1/n1 1/n2)t = p1 p2/ Sd df = (n1 1)(n21),例:以新药物进行杀菌试验,在药物喷洒的田块中取出500株植株观察,其中尚有30株植株为病株,从对照田中抽取531株,病株数为58株,试问药物杀菌是否有效?,药 物 杀 菌 实 验 结 果病 株() 正 常 株 总 数 喷药地块 30 (6.0) 470 500 对照地块 58 (11.0) 473 531,解:A、假设药物无效B、百分数计算喷药地块中病
23、株百分数为:30/5001006.0.对照地块中病株百分数为:58/53110011.0.总体中病株百分数为:P(3058)/500+5310.09.10.090.91.Sd 0.090.91(1/5001/531) 0.019tP1P2/Sd0.060.11/0.0192.63.df t0.012.576 tt0.01. 两者差异特别显著,药物杀菌十分有效。,练 习 题,1、下列14个数据是否来自总体100的集团。93,89,101,99,100,93,86,95,94,103,101, 102,88,104.,2、用药物治疗肺气肿病人,测得服药前后呼吸量变化如下:,分析该药对治疗此病是否有效。,3、简述t检验的意义及其统计原理。,