1、统计中的几个基本概念 一、总体与样本 1、总体:指同质的观察单位某种变量值的集合;(同质是指被研究指标的主要影响因素相同) 总体根据有无时间和空间的限制又分为有限总体和无限总体 2、样本:从总体中按随机抽样的方式抽取一定数量的观察单位所组成的集合,样本要具备以下两个条件: (1)可靠性:样本中的每一个个体均来自既定的同一总体 (2)代表性:样本中受试对象的构成分布与总体构成分布齐同。 随机抽样 足够数量 分层抽样 总体和样本的关系如下:,总体,抽样研究过程,统计推断过程,样本,统计分析的基本思想,总 体,样本,抽样,推断,样本,统计描述,二、变异 1、变异:指同质事物间的差异。是客观存在的现象
2、,可分为以下两类: (1)个体变异:指同一特征或同一条件下个体间的差异。 同质条件:都是鼻咽癌患者 都用相同治疗方法 变异现象:疗效各不相同 (2)随机测量变异:指同一个体重复观测结果未必相等的现象。,三、概率与频率 1、频率:某变量值出现的次数(频数)/重复观察的总次数。对一个随机事件重复观察时,尽管每进行n次试验,所得到的频率可能各不相同,但随着n的增大,频率会逐渐稳定在某个常数附近波动。频率的稳定性说明随机事件发生的可能性大小是事件本身固有的一种客观属性。,2、概率:表示随机事件发生可能性大小的数值。(用P表示)通常由频率的稳定值反映。 确定性事件:(1)必然事件P=1,(2)不可能事件
3、P=0; 随机性事件 (3)概率取值介于01之间。概率越接近0,表明事件发生的 可能性越小。概率越接近1,表 明事件发生的可能性越大。,概率和频率有区别:频率是已经进行试验的结果,描述的是样本中事件出现的可能性大小(样本信息),样本不同,其值也不同,具有偶然性;概率刻画的则是总体中随机事件出现的可能性大小(总体信息),是一种客观存在,是个确定数值,具有必然性。,小概率原理:概率很小的随机事件在一次或少量实际观察中是不可能发生的(尽管理论上有发生的可能) 小概率:P0.05或P0.01,五、参数与统计量 1、参数:根据总体分布特征而计算的总体指标。一般用小写的希腊字母表示。 2、统计量:根据样本
4、计算的相应指标(样本指标)。用拉丁字母表示。,六、假设检验与两类错误1、假设检验:先对总体的参数或分布作出某种假设,然后用适当的方法根据样本对总体提供的信息,运用“小概率原理”推断假设是否成立。,2、两类错误: 型错误: 拒绝实际成立的H0 (弃真) 型错误:不拒绝实际不成立的H0(存伪) (1)由假设检验可知,假设检验实际是在假定H0(1= 2成立)的前提下抽样观察,出现当前样本现象的可能性大小(概率P)来进行推断的,(2)假设检验的结论是概率性结论,无论是拒绝H0还是不拒绝H0,都有犯错误的可能;拒绝H0时可能犯型错误(当H0成立时),这时犯错误的限制为 通过假设检验下结论,平均100次抽
5、样推断犯错误不超过5次;,不拒绝实际不成立的H0时;可能犯型错误,犯错误的概率用 不易确定。为把握度,即1和2确实有差别的话,通过假设检验发现这种差别的能力(检验效能),(3)要同时降低犯两类错误的概率,唯一的办法就是增大样本含量进行观察.,第五章 参数估计,有关抽样的概念 随机抽样:在抽样过程中,要使总体中的每一个观察对象都有同等机会被抽中成为样本。 抽样研究的目的:利用样本信息估计或推断总体特征。,统计分析的基本思想,总 体,样本,抽样,推断,样本,统计描述,第一节 抽样误差,定义:(1)从总体中随机抽取样本所产生的样本指标(统计量)与总体指标(参数)之间的差异。(2)从同一总体中随机抽样
6、,样本指标(统计量)之间的差异。 产生原因:总体中存在个体差异(生物的个体变异) 特点:客观存在,不可避免;有一定范围,可以控制并估计其大小。,假定正常成年男子的红细胞计数服从正态分布,总体均数 =5.00(1012/L)、总体标准差 =0.50(1012/L)。我们借助计算机从该总体中作随机抽样,每次抽10名成年男子的红细胞计数组成一个样本,重复100次抽样。求出每个样本的样本均数和标准差。,= 5.00 =0.50,X2, S2,X1,S1,X3, S3,n=10,100次抽样所得样本均数与标准差,样本均数的抽样分布具有如下特点:, 各样本均数 未必等于总体均数; 各样本均数间存在差异;
7、样本均数的分布为中间多,两边少,左右基本对称。 样本均数的变异范围较之原变量的变异范围大大缩小。,第二节 总体均数的估计 对数值变量资料的统计分析,一般先作集中性和离散性的描述,然后再进行统计推断 第一节 均数的抽样误差和标准误 标准误:是统计量(如样本均数、样本率)的标准差,描述的是样本统计量的离散程度(即抽样误差的大小)。,100次抽样所得样本均数与标准差,标准误的值越大,反映样本统计量的离散程度越大,通过一次抽样得到的某个样本统计量与总体参数(是个定值)相差也越大。,第三节 总体均数的估计 统计推断包括参数估计和假设检验两方面。 参数估计 用样本指标(即样本统计量)来估计总体指标(即参数
8、)。,统计描述,统计分析,统计推断,假设检验,参数估计,区间估计,点估计,统计指标,集中趋势,离散趋势,统计图表,二、t分布 1、 t分布:从同一总体中抽出许多样本(n相同),就可得到许多t值,将这些t值绘成直方图,当样本数无限多时,就得到一条光滑的曲线,这就是t分布曲线,这种t值的分布就称为t分布。 2、 t分布的特点:(1)是单峰分布,以0为中心左右两侧对称;(2)形似标准正态分布,当自由度趋向无穷大时, t分布就成了标准正态分布;(3) t分布是一簇曲线,一个自由度对应一条曲线,自由度越大,曲线的峰越高,尾越低。(图16-1),一、总体均数的点值估计 点值估计:用某一随机样本均数来作总体
9、均数的估计值。如随机抽查120例成年男子,测得血清铜含量均值为14.48(mol/L),以此值作为当地成年男子的总体均数的估计值,叫“点值估计”。由于存在抽样误差,不同的样本可能得到不同的估计值。,二、总体均数的区间估计 区间估计:是按预先给定的概率(称为可信度,符号为1-)利用样本来给总体均数定出一个范围(可信区间)。 用公式表示为:,其含义为:从被估计的总体中随机抽取若干个含量为n的样本,每一个样本可得到一个相应的可信区间,理论上有( 1-)个区间包含总体均数(估计正确),有个区间不包总体均数(估计错误)。当=0.05时,被估计的总体均数不在该区间的概率仅5%,是个小概率,故可认为该区间包
10、含总体均数(总体均数95%可信区间)。,总体均数95%CI表示该区间包括总体均数 的概率为95%,意思是若作100次抽样,可算得100个可信区间,平均有95个区间包括 (估计正确),只有5个区间不包括 (估计错误);由于5%是小概率,在一次实验中可认为小概率不发生,故实际应用时可认为估计的区间包括总体均数。,三、模拟实验模拟抽样成年男子红细胞数。设定:产生100个随机样本,分别计算其95%的可信区间,结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数 ,只有5个可信区间没有包含总体参数。,图4-2 模拟抽样成年男子红细胞数100次的95%可信区间示意图,可信间的两要素:1、准确度
11、:就是CI包含的概率大小;(1-)值越大,可信度越高。 2、精密度:就是区间的长度;长度越小(区间越窄)精密度越高。 *当n确定时,准确度越高则精密度越低,两者是相矛盾的,在实际工作中为兼顾两者,以95%CI更为常用。,第六章 假设检验 第一节 假设检验的概念:在比较样本均数与已知总体均数差异、或两个样本均数及多个样本均数差异时,先对总体的参数或分布作出某种假设,然后用适当的方法根据样本对总体提供的信息,运用“小概率原理”推断假设是否成立。,小概率原理:概率很小的随机事件在一次或少量实际观察中是不可能发生的(尽管理论上有发生的可能) 小概率:P0.05或P0.01,C病,10例,A药,A药,1
12、0例,样本1,样本2,有效率50%,有效率60%,差异,?,试验1,问题:差异是什么原因导致?,抽样误差(个体差异),C病,10例,A药,B药,10例,样本1,样本2,有效率50%,有效率60%,差异,?,试验2,问题:差异是什么原因导致?,A药=B药,抽样误差(个体差异),C病,10例,A药,B药,10例,样本1,样本2,有效率50%,有效率60%,差异,?,试验3,问题:差异是什么原因导致?,A药B药,处理因素(药物因素),C病,10例,A药,B药,10例,样本1,样本2,有效率50%,有效率60%,差异,?,试验4,问题:差异是什么原因导致?,1 处理因素(药物因素) 2 抽样误差(个体
13、差异),A总体=B总体 差异 A总体B总体(抽样误差) (处理因素),A总体,A总体,B总体,B总体,第二节 假设检验的一般步骤 一、建立假设,确定检验水准 1、检验假设(无效假设)H0:1= 2( 或d=0)备择假设 H1:1 2(或d 0)1 2( d 0)2、检验水准,它作为假设检验时预先确定的判断小概率事件的水准,以便由P值和的关系决定是拒绝H0还是不拒绝H0作为判断小概率的标准, 常取0.05或0.01。,二、计算相应的检验统计量 根据设计的类型、资料的类型和分布情况、统计推断目的以及n的大小选用不同的检验方法,计算相应的检验统计量。如完全随机设计实验中,两样本均数比较可计算统计量t
14、值(即作t 检验)。,三、确定P值,作出推断结论:P值是指在H0所规定的总体(例如1= 2)中作随机抽样,获得等于及大于(或等于及小于)现有样本统计量(如t值)的概率;亦即这种样本差异( )来自抽样误差的概率。推断结论:统计结论:1 对H0如何推断?2 对H1如何推断?3 对差异如何推断?专业结论 1 正确2 明确3 符合医学逻辑,第七章 两样本均数比较的假设检验第一节 单样本均数t检验(样本均数与总体均数比较) 总体均数:理论值、标准值或经大量观测所得的稳 定值。 前提条件:正态分布或大样本。 分析目的:推断样本所代表的未知总体均数与已 知的总体均数0是否相等( =0 )。,1、资料类型:
15、(1)给定一个已知的总体均数和一个随机抽取的样本, (2)该随机样本服从正态分布(若原数据是非正态分布,要通过数据变换使之服从正态分布) 2、计算统计量t值:,通过以往大量资料得知某地20岁男子平均身高为168,现随机测量当地16名20岁男子,其身高均数为172,标准差为14。问当地现在20岁男子的平均身高是否比以往高?,一 H0:= 0 H1: 0 =0.05二 t = 1.143 三 查t界值表(t 、V)t0.05 15=1.753 P 0.05 接受H0 ,拒绝H1,差异无统计学意义(差异无显著意义)。现在当地20岁男子平均身高与以往相同。,第二节 成对资料均数的t检验 成对(配对)比
16、较的t检验适用于下列情况: 自身配对:1 同一受试对象处理前后的比较2 同一受试对象接受两种不同处理 异体配对:3 将两个受试者配成对子,施予两种不同处理 要求: 1 配对资料(差值d符合正态分布) 2 假设成对资料差数的总体均数为0( d = 0 ),检验样本差数的均数与0之间差别有无显著性,例7-2 某医院用A、B两种血红蛋白测定仪检测16名健康男青年的血红蛋白含量(g/L),问两种血红蛋白测量仪的检测结果是否有差别?,表7-1两种血红蛋白测量仪的检测结果( g/L ),一 H0:d= 0 H1:0 =0.05二 t = 2.366三 查t界值表(t 、V)t0.05 15=1.753 P
17、 0.05 拒绝H0 ,接受H1,差异有统计学意义(差异有显著意义)。 仪器B检测的血红蛋白值高于仪器A,为研究三棱莪术液的抑瘤效果,将20只小白鼠按体重配成10对,然后把每对中的2只动物随机分到实验组和对照组中。两组动物都接种肿瘤,实验组在接种肿瘤3天后注射30%的三棱莪术液0.5ml,对照组不加任何处理。测量瘤体直径如表16-3,问两组瘤体大小差异是否有统计学意义,从而判断三棱莪术是否有抑制肿瘤生长的作用?,表16-3 三棱莪术液抑瘤实验的结果(cm),#用SPSS分析结果:analyzeCompareMeanspaired-samplesT test,第三节 两独立样本均数t比较目的是推
18、断两样本分别代表的两总体均数是否相等( 1= 2 )。 1、资料类型:随机分组的两组资料,为独立样本满足正态性和方差齐性,例7-4为了解内毒素对肌酐的影响,将20只雄性中年大鼠随机分为甲、乙两组,甲组中的大鼠不给于内毒素,乙组中的每只大鼠则给予3mg/kg的内毒素。分别测得两组大鼠的肌酐(mg/L)结果如下,问内毒素对肌酐是否有影响?甲组( mg/L): 6.2 3.7 5.8 2.7 3.9 6.1 6.7 7.8 3.8 6.9 乙组( mg/L): 8.5 6.8 11.3 9.4 9.3 7.3 5.6 7.9 7.2 8.2,一 H0:1= 2 H1:1 2 =0.05二 t = -
19、3.785三 查t界值表(t 、V)t0.05 18=2.101 P 0.05 拒绝H0 ,接受H1,差异有统计学意义。 内毒素具有升高肌酐的作用。,用SPSS分析结果: analyzeCompare Meansindependent-samples T test,兔咬肌IIb型纤维平均横截面积 (n=5 s,m2),第五节 两样本的方差齐性检验(F检验) 一、两个方差的齐性检验 用检验比较两样本均数的差别,其先决条件之一是两总体方差相等,即 对于两样本方差不等是否由抽样误差所致,需用方差齐性检验(计算F值),例7-6 对例7-4用F检验判断两总体的方差是否齐性?一 H0:21= 22 H1:
20、21 22 =0.05二 F = =1.13三 查F界值表(F 、V) F0.05( 9 9)=4.03P 0.05 拒绝H0 ,接受H1,无统计学意义。 两组资料总体方差齐性,方差不齐时两样本均数的比较,(1)可采用适当的变量变换,使之达到方差齐的要求,再作t检验;(2)作秩和检验;(3)作,*对于用G表示其平均水平的资料,因不能满足参数假设检验的正态性和方差齐性,可将原数据变换以满足要求。例如教材P157例16-5用SPSS11.0软件作假设检验过程如下:(以下为正态性检验情况),以下是方差齐性检验结果:,进行对数变换后,原变量的对数值组成的新变量(变量名为“取对数值”)经检验满足正态性和
21、方差齐性,可以进一步作成组资料的t检验,结果如下:,第九节 假设检验时应注意的问题 1、前提:科学的统计学设计;如随机抽样和分组、注意组间的均衡性和资料的可比性、尽量减少或消除混杂因素的影响。 2、正确选择假设检验的方法:要按照设计类型、资料性质、分布类型和样本大小等情况正确计算统计量。 3、通常为0.05是人为规定的(考虑到犯类、类错误的概率都不是很大);如筛选抗癌中药时,可将定为0.1甚至0.2,这样虽然增加了误选的机会,却减少了漏选的概率,4、合理确定单双侧检验:单双侧检验的选取是由研究目的、结合专业知识决定的;如欲了解A、B两药同用是否比只用A药好,由药理知识知道A、B两药有相加或相乘作用而无拮抗作用,这时就可用单侧检验;否则,A、B两药联合作用的机理不清楚,就只能用双侧检验了。 5、科学地解释假设检验的结论: (1)拒绝H0,可以认为被研究的事物存在本质差异;不拒绝H0,只能说被研究事物可能并无本质差异,也可能是n较小使抽样误差较大所致,如增大n有可能就拒绝H0。,(2)拒绝H0不能理解为被比较的事物数量上相差很大,只是说它们之间的差别由抽样造成的可能性不大(如小于0.05);至于这种差别有无实用价值还得由专业知识决定。(3)假设检验的结论是概率性的结论,无论是拒绝H0还是不拒绝H0,都有可能犯错误;拒绝H0可能犯类错误,不拒绝H0,可能犯类错误。,