1、 2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 1 -1、名词解释1.总体 population:就是根据研究目的确定的同质观察单位的全体,确切的说,是同质的所有观察单位某种变量值的集合2.样本 sample:就是从总体中随机抽取部分观察单位,其实测值的集合3.同质 homogeneity:性质相同的事物称为同质,否则称为异质4.系统误差:是指数据搜集和测量过程中由于仪器不准确、标准不规范等人为原因,造成观察结果偏大或偏小的一种误差,是由确定原因造成的误差。5.随机误差:是由一些非人为的偶然因素,使得结果或大或小,是不确定、不可预知的一种误差,分为随机测量误差和抽样误
2、差6.抽样误差 sampling error:由于随机抽样所引起的样本统计量与总体参数之间的差异以及样本统计量之间的差别称为抽样误差7.定量资料:是通过度量衡的方法,测定每一单个观察单位某项研究指标的量的大小得到的资料,也称计量变量或数值变量。8.定性资料:是将全体观察单位按某种性质或特征分组,然后再分别清点各组观察单位的个数所得到的资料,称定性资料也称计数变量或分类变量。9.等级资料:是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料,又称有序分类资料。10.变异系数:又称变异程度,简称变异度,记为 CV,是相对数,用于比较单位不同或均数相差较大的多组资料的变异程度。公
3、式为 CV=s/X100%11.小概率事件(原理):若在一次观察或试验中发生的可能性很小或几乎不可能发生,可以看做很可能不发生,则称该事件为小概率事件。12.率 rate:是某现象实际发生的观察单位数与可能发生该现象的观察单位总数之比,用以说明某现象发生的频率或强度13.构成比:说明某一事物内部各组成部分所占的比重或分布,等于某一组成部分的观察单位数/同一事物各组成部分的观察单位总数 100%14.医学参考值范围 reference range:指医学领域中特定的“正常”人群(即排除了对所研究指标有影响的疾病和相关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据的大多数个体(一般
4、为 95%)的取值范围15.置信区间:是对这个样本的某个总体参数的区间估计,置信区间展现的是这nX2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 2 -个参数的真实值有一定概率落在测量结果的周围的程度,给出的是被测量参数的测量值的可信程度16.均数为 95%的 CI 值(置信区间):按一定的概率或可信度(1-a)用一个区间来估计总体参数所在的范围,这个范围称作可信度为 1-a 的可信区间(CI)又称置信区间,95%的可信区间中的 95%是可信度,即,所求的可信区间包含总体参数的可信程度为 95%17.标准误 standard error:是反映均数抽样误差大小及样本统计
5、量之间离散程度的指标18.检验水准 size of test:亦称显著性水准,用 表示,它是预先确定的概率值,即小概率事件的标准,一般情况下 取 0.0519.P 值:指 H0 成立,从所规定的总体中随机抽样,所获得等于及大于(或等于及小于)现有样本计算获得的检验统计量值的概率20.类错误 typeerror:如果实际情况与 H0 一致,仅仅因为抽样的原因,使得假设检验的结论为拒绝原本正确的 H0,导致推断结论错误,这样的错误称为类错误。犯类错误的概率用 来控制(假阳性 / 弃真错误)21.第类错误 typeerror:如果实际情况与 H0 不一致,仅仅因为抽样的原因,使得假设检验的结论为不拒
6、绝原本错误的 H0,导致推断结论错误,这样的错误称为类错误。犯类错误的概率用 来控制(假阴性 / 取尾错误)22.检验效能 power of a test:为 1-,即当两总体的确有差别(H 0 不成立) ,按照事先确定的检验水准 ,假设检验能发现该差异(拒绝 H0)的能力,1- 也取单尾23.配对设计:配对设计是将受试对象按配对条件配成对子,每对中的个体接受不同的处理,配对设计一般以主要的非实验因素作为配比条件,而不以实验因素作为配比条件24.完全随机设计:又称成组设计,只有单个研究因素,该因素有多个水平,如在实验中安随机化原则将受试对象随机分配到一个研究因素的多个水平中去,然后观察实验效能
7、25.随机区组设计:又称配伍设计,属于两因素方差分析,用于多个样本均属的比较26.析因设计:当两个因素或多个因素之间存在相互影响或交互作用时,可用该设计来进行分析。该设计不仅可以分析多个因素的独立作用,也可以分析多个因素间的交互作用,是一种高效率的方差分析方法27.卡方检验的基本思想:通过计算实际频数与理论频数的吻合程度来判断所给2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 3 -的处理因素是否有效28.卡方值:实际频数与理论频数的吻合程度,其大小即用卡方值来表示。29.非参数检验:不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验的方法,称为非参数检验30.
8、线性相关关系:如果具有相关关系的随机变量组成的散点图在直角坐标系中呈直线趋势,就称这两个变量存在线性相关关系31. 线性相关方关系:如果两个随机变量中,一个变量有小到大变化时,另一个变量也相应的由小变大(或由大变小) ,并且呈直线趋势,就称这两个变量存在直线相关关系(老师给的定义)32.相关系数:是说明两变量间线性关系的密切程度和相关方向的一个统计指标,样本的相关系数用 r 表示,总体的相关系数用 表示33.回归系数:在回归方程中表示自变量 x 对因变量 y 影响大小的参数,正回归系数表示 y 随 x 增大而增大,负回归系数表示 y 随 x 增大而减小 34.最小二乘法原理:即各实测点到回归直
9、线法的纵向距离的平方和最小,是回归方程可以较好的反映各实测点的分布情况35.双盲:受试对象和实验者都不知道受试对象分在哪一组36.调查设计的四种方法:1)单纯随机抽样:保证总体中每一个个体都有同等的机会被抽出来作为样本的抽样方法2)系统抽样:即先将总体的全部个体按与研究现象无关的特定排序编号,依次每隔若干号码抽取的一个个体组成样本3)分层抽样:先将总体全部个体按某种特征分成若干层,再从每层内随机抽取一定数量的个体合起来组成样本4)整群抽样:先将总体分成若干群体,形成一个抽样框,从中随机抽取几个群体组成样本,对抽中群体的全部个体进行调查2、简答题1.简述频数表的绘制方法(1)找出最大值、最小值和
10、极差:极差=最大值最小值(2)确定组距、组段、组数:频数表一般设 8-15 个组段,常用极差的 1/10 取整作组距,第一组段包括最小值,最后一个组段要包括最大值并写出其下限上限(3)列表划记:把确定的组段序列制成表的形式,得出各组段频数2.简述应用相对数的注意事项(1)计算相对数时分母一般不宜过小。只有当观察单位足够多时,计算出的相2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 4 -对数才比较稳定,且能正确反映实际情况。(2)分析时注意构成比和率的区别。构成比说明事物内部各组成部分所占的比重,即只能说明分布,不能说明某现象发生的频率或强度。(3)合计率的计算。对观察
11、单位不等的几个率,不能直接相加求其平均率,而应用合计的数据来计算。(4)比较相对数时应注意资料的可比性。除了研究因素以外,其他影响因素应尽可能相近或相同比较才有意义。(5)对样本率、构成比的比较应作假设检验,不能凭表面数值大小下结论。3.确定医学参考值范围的原则:(1)制定“正常”人群的入选标准(2)确定样本量的大小,在符合入选标准的人群中随机抽样(3)对样本中的每个个体进行指标测量(4)确定是否要分组制定参考值范围(5)根据该指标 X 的背景意义,确定参考值的范围是双侧还是单侧(6)根据样本资料的分布情况确定采用正态分布法还是百多分位数法4.检验假设的基本步骤:(1)建立检验假设,确定检验水
12、准(2)选择检验方法,计算统计量(3)确定 P 值,做出推断结论5.简述假设检验应用的注意事项(1)假设检验的前提是要有严密的抽样研究设计:应尽量从同质总体中随机抽取,尽量保证组间均衡性,以确保资料具有可比性。(2)正确选定假设检验方法:资料性质、分布类型、设计类型、样本大小等不同,以及分析的目的不同,适用的假设检验的方法也不同。(3)正确理解“差异无统计学意义”:H 0 成立可能性是小概率,也就是说两者差异存在的可能性较大, “差异统计学意义”也不一定具有临床意义。(4)结论不能绝对化:是否拒绝 H0 取决于研究对象有无本质差异和抽样误差大小,以及检验水准的高低,而检验水准与实验设计密切相关
13、。(5)报告结论时应注意:应列出样本计算的检验统计量值,注明采用的是单侧检验还是双侧检验,写出 P 值。4.简述假设检验应注意的问题:(1)选择检验方法必须符合资料的适用条件(2)单侧检验和双侧检验的选择(3)正确理解 P 值得意义(4)结论不能绝对化(5)当假设检验的结果为不拒绝时,应考虑该检验的检验效能,如果检验效能较低,则此时的结论可靠性较差5.方差分析的基本思想:2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 5 -是根据资料的设计类型和研究目的,将全部观察值总的离散程度和自由度分解为相应的几个部分,除了随机误差外,其余每个部分的变异可由某个因素的作用加以解释,
14、如各组均数间的变异可由处理因素的作用加以解释6.在进行双向无序行列表卡方检验时发生偏性的处理方法:P157(1)增大样本量,当样本量增大时理论频数会增大(2)根据专业知识对理论频数较小的行或者列进行合并或者删除(3)改用双向无序行列表的 Fisher 确切概率法7.简述秩和检验的优缺点及应用(1)优点:计算简单便于掌握 缺点:损失信息应用范围广 检验效率低收集资料方便(2)应用:分布型未知能以严重程度、优劣等级、效果大小和名次先后等等级资料分布极度偏态本组内个别变量值偏离过大,远离本组其它变量值方差不齐时筛选或只需获得初步结果。8.秩和检验编秩次的方法:(1)按差值的绝对值大小编秩次,并根据差
15、值的正负给秩次加上正负号(2)若差值为 0,则舍去不计,相应的对子数 n 随之减少(3)若差值的绝对值相等,则取平均秩次9.在进行双向无序行列表卡方检验时发生偏性的处理方法:P157(4)增大样本量,当样本量增大时理论频数会增大(5)根据专业知识对理论频数较小的行或者列进行合并或者删除(6)改用双向无序行列表的 Fisher 确切概率法10.简述应用线性相关分析的注意事项(1)绘散点图了解线性趋势,样本的相关系数接近零时并不意味着两变量间一定无相关性(2)线性相关分析要求两个变量都是随机变量,且仅适用于二元正态分布资料(3)作相关分析时,应该剔除离群值,出现异常点时慎用相关(4)相关要有实际意
16、义,两变量相关并不代表两变量间一定存在内在联系(5)r=0 表明无相关或非线性相关(6)分层资料盲目合并易出假象老师的更简洁:(1)进行相关分析前应先绘制散点图,以提示是否有必要进行线性相关分析(2)样本的相关系数为 0 时,并不意味着两变量一定无相关性2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 6 -(3)一个数值随机变动,而另一个变量的数值却是人为选定的,此时不宜做相关分析(两变量都应是随机的,均符合正态分布)(4)作相关分析时,应该剔除离群值,出现异常点时慎用相关(5)相关分析要有实际意义,相关未必真有内在联系(6)分层资料盲目合并易出现假象11.线性回归分析
17、的适用条件: 线性 独立 正态 方差相等(1)因变量 Y 与自变量 X 呈线性关系 (2)每个个体观察值之间相互独立 (3)因变量 Y 属于正态随机变量 (4)在一定范围内,不同的 X 值所对应的随机变量 Y 的方差相等12.简述应用线性回归的注意事项(1)进行线性回归分析时,应先绘散点图,提示有直线趋势存在时,可作线性回归分析(2)进行线性回归分析时,一般要求因变量 Y 是来自正态总体的随机变量,自变量 X 可以是正态随机变量,也可以是精确测量和严密控制的值(3)进行线性回归分析要有实际意义,不能把毫无关联的两个事物或现象进行进行线性回归分析(4)进行线性回归分析必须进行假设检验,以推断两变
18、量间的线性关系是否存在(5)回归直线不能外延,以自变量取值范围为限13.简述线性回归与相关的区别及联系(1)区别:资料要求不同:相关:两变量均为随机变量,并服从双变量正态分布回归:Y 服从正态分布,X 为选定变量统计意义不同:相关:只反映两变量间相互依存回归:有一个变量推算另一个变量回归关系与原度量衡单位有关,相关关系则无分析目的不同:相关:两变量间线性关系的密切程度及相关方向回归:用函数公式定量表达因变量随自变量变化的关系(2)联系:变量间关系的方向一致:对同一资料,其相关系数 r 与回归系数b的正负号一致 假设检验等价:实际分析中常以 r 的假设检验代替对 b 的检验r 与 b 值可相互换
19、算用回归解释相关:r 2 称决定系数,r 2 越接近 1,回归效果越好。3、填空题1.统计学的研究对象是变异的数据2.医学统计学工作的基本步骤是:设计、搜集资料、整理资料、分析资料,其中最重要的步骤是科研设计3.SPSS 主要有 4 大窗口:数据编辑窗口(Data Editor) 、结果输出窗口2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 7 -(Viewer) 、 程序编辑窗口( Syntax Editor) 、图表编辑窗口(Chart Editor )4.SPSS 能直接调用的数据文件类型常用的有:*.sav 、*.xls、*.dbf 、*.txt 、*.dat5
20、.等比资料的集中趋势常用的描述方法是几何均数 G6.定量资料的集中趋势:均数、几何均数、中位数、百分位数7.定量资料的离散趋势:全距、四分位数间距、方差、标准差、变异系数8.偏态分布的集中趋势常用的描述方法是中位数;偏态分布的离散趋势常用的描述方法是四分位间距9.单位不同或均数相差较大的多组资料常用的描述方法是:变异系数 CV10.参数是指:总体的统计指标;统计量是指:样本的统计指标11.标准正态分布是一种特殊的正态分布,标准正态分布的:=0, 2=1 ,通常用 u(或 Z)表示服从标准正态分布的变量,记为: uN (0,1 2)12.正态分布函数中 代表:总体均数(位置参数) , 代表总体标
21、准差(变异度参数)13.正态分布曲线区间面积为 95%的范围是:(-1.96,+1.96 )99%的范围是:(-2.58,+2.58 )90%的范围是:(-1.64,+1.64 )14.正态分布数据的参数估计 X1.96S;偏态分布数据的参数估计 (P 25,P 75)15.二项分布的条件:每次试验只有两种结果(死亡或者存活) 、实验结果之间彼此独立、每次试验结果发生概率固定不变16.二项分布近似正态分布的条件是:当 n 足够大时(n50) ,只要 不太靠近0 或 1,尤其是 n 和 n( 1-)均大于 517.Poisson 分布的条件:每次试验只有两种结果(死亡或者存活) 、实验结果之间彼
22、此独立、每次试验结果发生概率固定不变 + 总体发生概率 非常小18.Poisson 分布近似正态分布的条件是: 2019.Poisson 分布的两个特性是: 均数与方差相等, 观察结果有可加性20.t 分布 的自由度 越小,t 分布曲线越低平,尾部越高;自由度 越大,t分布 曲线越接近标准正态分布(u 分布)Z 分布 与自由度无关21.医学参考值范围通常表达为 X1.96S;置信区间围通常表达为X1.96S ; 其中范围较宽的是医学参考值范围22.假设检验的基本原理是反证法思想和小概率事件23.配对样本均数的 t 检验,配对设计主要由以下几种形式:两种同质受试对象分别接受两种不同的处理同一受试
23、对象或者同一样本的两个部分分别接受两种不同的处理同一受试对象接受某种处理前后24.t 检验的应用条件有:样本例数 n 较小、样本均是随机样本、符合正态分布、方差齐(两样本)25.t 检验 P 0.05 拒绝 H0 有统计学意义;正态性检验 P0.05 为非正态分布,通常运用秩和检验26.做单侧检验时如果运用了双侧检验可以导致第类错误增大;可以同时减小第类错误和第类错误的方法是增加样本含量27.方差分析应用条件有两观察值互相独立、服从正态分布、方差齐性2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 8 -28.完全随机设计组间变异包含处理效应+随机误差;组内变异包括随机误
24、差;SS 总 =SS 组间 +SS 组内 ; 总 = 组间 + 组内29.随机区组设计的两因素方差分析中,总变异可以分解为三个部分,即处理效应、区组间变异和随机误差SS 总 通常可以分为 SS 处理 、SS 区组 和 SS 误差 ,SS 总 =SS 处理 +SS 区组 +SS 误差v 总 =v 处理 +v 区组 +v 误差30.行 列表 2 检验,要求不能有理论数(T)小于 1,且 1T5 的格子数不超过总格子数的 1/5,否则产生偏倚。处理方法有三种: 增大样本含量 对理论频数较小的行或列进行合并或者删除 改用双向无序行列的 Fisher 确切概率法31.四格表的自由度等于 1;四格表的周边
25、合计数不变时,如果某格子的实际频数有变化,则其理论频数不变32.统计表的制作原则:重点突出、层次清楚、简单明了33.统计表的结构包括标题、标目、线条、数字、备注34.统计表的种类:简单表、复合表35.统计图的结构:标题、图域、标目、刻度、图例36. 表示相互独立的各指标的大小用直条图(单式/ 复式) ;表示全体中各部分的比重用百分条图或圆图(构成图) ;表示连续性资料的发展变化或一事物随另一事物变迁的情况用线图(普通线图、半对数线图) ;比较事物发展速度用半对数图;表示连续性资料的频数分布用直方图;表示两组或多组连续性资料的平均指标和变异指标用箱式图,表示两事物的相关关系用散点图;表示某现象的
26、数量在地域上的分布用统计地图37.箱式图:箱子越长,表示资料数据越分散,即变异程度越大;反之变异程度越小。横线在箱子中点处表示对称分布,否则为偏态分布38.普通线图:横轴、纵轴均为算术尺度半对数线图:横轴为算术尺度,纵轴为对数尺度39.某地调查的 863 例恶性肿瘤死者,分别由省、市、县、乡医院最后确诊。现欲说明各级医院确诊比例,宜绘制圆图/构成图(统计图 )40.非参数检验的优点:计算简单便于掌握、应用范围广、收集资料方便;缺点:损失信息、检验效率低41.线性相关分析的步骤:绘制散点图观察两变量的线性趋势计算相关系数相关系数的假设检验42.回归分析的步骤:绘制散点图求回归方程回归系数的假设检
27、验线性回归方程图43.回归系数的估计原则:最小二乘法原则44.线性相关系数的取值范围:-1r1;r 假设检验方法:r 界值表法、t 检验法45.相关系数的统计推断方法:查表法、t 检验配对设计秩和检验的统计推断方法:查表法、正态近似法完全随机(成组) 设计两样本秩和检验的统计推断方法:查表法、正态近似法完全随机(成组) 设计多样本秩和检验的统计推断方法:查表法、 2正态近似法46.等级相关秩和检验应用范围:偏态分布、分布类型未知、等级资料2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 9 -47.实验设计的基本原则:对照原则、随机化原则、重复原则、盲法原则48.实验设计
28、的基本要素:处理因素、受试对象、实验效应4、计算与分析1.表 1 数据如下,卡方检验如下。问:应该选择哪种方法及哪组数值?新旧防护服是否对皮肤病患病率有影响?表 1 穿新旧两种防护服工人的皮肤病患病率比较皮肤病炎症防护服种类阳性例数(理论频数) 阴性例数(理论频数)患病率 (%)新 1(3.8) 14(11.2) 6.7旧 10(7.2) 18(20.8) 35.7表 2 卡方检验(SPSS)结果值 df 渐进 Sig. (双侧) 精确 Sig.(双侧) 精确 Sig.(单侧)Pearson 卡方 4.329a 1 .037连续校正 b 2.938 1 .087似然比 5.056 1 .025
29、Fisher 的精确检验 .065 .038线性和线性组合 4.228 1 .040有效案例中的 N 43(1)由于 n40,但有 1T5,所以选用 2 检验校正公式,即选择结果的第二行数据进行分析(2)假设检验:建立检验假设:H0: 1 2,即新旧防护服对皮肤病患病率无影响H1: 1, 2,即新旧防护服对皮肤病患病率有影响确定假设检验水准:=0.05计算检验统计量:根据表 2 可得 2=2.938,=1确定 P 值,作出推断结论: 20.05,1=3.84,根据表 2 可得 P=0.0870.05,按=0.05 水准,不拒绝 H0,差异无统计学意义,尚不能认为新旧防护服对皮肤病患病率有影响。
30、2.对 11 份工业污水测定氟离子(mg/L),每份水样同时采用电极法及分光光度法测定,结果见表 3。三人对两种方法测定结果有无差别进行了统计分析,(1) 甲用独立样本 t 检验,t=-0.072,P =0.943;(2)乙则先对每份样品的差值做正态性检验(P0.05),然后用配对设计的符号秩和检验(Wilcoxon Signed Ranks Test),得到 z=1.633,P =0.102; (3)丙用配对设计的 t 检验,t=0.441 ,P =0.669。请问哪个人统计方法运用得当,并对该结果进行恰当分析表 3 两法测定的氟离子浓度结果(mg/L)样品号 电极法 分光光度法 样品号 电
31、极法 分光光度法1 10.5 8.8 7 16.4 14.72 21.6 18.8 8 19.5 17.23 14.9 13.5 9 127 15.54 30.2 27.6 10 18.7 16.35 8.4 9.1 11 9.5 9.52016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 10 -6 7.7 7(1)丙的统计方法运用得当(2)分析:该样本属于同一样本的两个部分分别接受两种不同处理,即应该采用配对样本均数的 t 检验(3)假设检验:建立检验假设:H0: d0,即两种检测方法无差异H1: d0,即两种检测方法有差异确定假设检验水准:=0.05计算检验统计量:t=
32、0.441,=10确定 P 值,作出推断结论:P=0.6690.05,按 =0.05 水准,不拒绝 H0,差异无统计学意义,尚不能认为两种检测方法有差异3.某研究者测定 51 名肿瘤患者蛋白激酶(PKC)水平以及某单核苷酸多态性(SNP)的 3 种基因型 GG、GA、AA(详见下表),他欲分析男、女 PKC 水平间有无差别,用什么统计分析方法?又想了解 3 种基因型 PKC 水平间有无差别,用什么统计方法分析(PKC 数据经正态性检验服从正态分布)性别 基因型 PKC 性别 基因型 PKC 性别 基因型 PKC男 GA 65.8 男 AA 67.6 女 GA 70.4男 GA 71.4 男 A
33、A 68.4 女 GA 74男 GA 76.6 男 AA 71.8 女 GA 75.2男 GA 78.2 男 AA 73.5 女 GA 80.2男 GA 79.8 男 AA 80.6 女 GA 84.5男 GA 80.2 男 AA 60.8 女 GA 85.4男 GA 80.4 男 GG 38.2 女 GA 89.2男 GA 82.4 男 GG 39.2 女 AA 60.5男 GA 82.8 男 GG 39.4 女 AA 52.6男 GA 85.6 男 AA 45.8 女 AA 62.6男 GA 86.8 男 GA 46.8 女 AA 60.4男 GA 87.2 男 GG 49.6 女 AA
34、74.2男 GA 88.6 男 AA 49.6 女 GG 41.2男 AA 53.2 男 AA 52.4 女 GA 41.4男 AA 58.2 男 AA 52.8 女 GA 42.6男 AA 65.5 男 GA 67.8 女 GA 44.5男 AA 67.4 男 AA 68.8 女 AA 52.4(1)分析男女 PKC 水平间有无差别应该用两独立样本的 t 检验建立检验假设:H0: 1 2,即男女 PKC 水平间无差别H1: 1 2,即男女 PKC 水平间有差别确定假设检验水准:=0.05计算检验统计量:t=0.511,=49确定 P 值,作出推断结论:P=0.6120.05,按 =0.05
35、水准,不拒绝 H0,差异无统计学意义,尚不能认为男女 PKC 水平间有差别2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 11 -Independent Samples Test.362 .550 .511 49 .612 2.37059 4.64115 -6.95614 11.69732.498 30.058 .622 2.37059 4.75966 -7.34915 12.09033Equal variancesassumedEqual variancesnot assumedPKC F Sig.Levenes Test forEquality of Varianc
36、est df Sig. (2-tailed) MeanDifference Std. ErrorDifference Lower Upper95% ConfidenceInterval of theDifferencet-test for Equality of Means(2)分析 3 种基因型 PKC 水平间有无差别应选用完全随机设计资料的方差分析,并进行 3 组均数间的两两比较建立检验假设:H0:3 种基因型 PKC 水平总体均数水平相同H1:3 种基因型 PKC 水平总体均数水平不全相同确定假设检验水准:=0.05计算检验统计量:F=16.608确定 P 值,作出推断结论:P=0.00
37、00.05,按 =0.05 水准,拒绝 H0,差异有统计学意义,所以可以认为 3 种基因型 PKC 水平总体均数水平不全相同。为了进一步了解三组间均值两两比较情况,SNK 检验显示 1、2 组,1、3 组和2、3 组之间均有统计学意义,可认为 3 种基因型 PKC 水平完全不相等。Test of Homogeneity of VariancesPKC2.964 2 48 .061LeveneStatistic df1 df2 Sig.ANOVAPKC4918.353 2 2459.176 16.608 .0007107.344 48 148.07012025.697 50Between Gro
38、upsWithin GroupsTotalSum ofSquares df Mean Square F Sig.PKCStudent-Newman-Keulsa,b5 41.520021 61.861925 73.91201.000 1.000 1.000gene132Sig.N 1 2 3Subset for alpha = .05Means for groups in homogeneous subsets are displayed.Uses Harmonic Mean Sample Size = 10.430.a. The group sizes are unequal. The ha
39、rmonic meanof the group sizes is used. Type I error levels arenot guaranteed.b. 2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 12 -4.有 28 份白喉病人的咽喉涂抹标本,把每份标本分别接种在甲、乙两种白喉杆菌培养基上,观察两种白喉杆菌生长情况, “+”号表示生长, “-”号表示不生长,结果如下表。问两种白喉杆菌培养基的效果有无差别?乙种甲种 合计 11(a) 9 (b) 20 1 (c) 7 (d) 8合计 12 16 28(1)建立检验假设 H0:总体 1 2,即两种白喉杆菌培养基的
40、效果相同H1:总体 1, 2,即两种白喉杆菌培养基的效果不同 (2)确定假设检验水准:=0.05(3)计算检验统计量:本例 b=9,c=1,b+c40 ,(4)确定 P 值,作出推断结论: 2=4.90 20.05,1=3.84,P0.05,按 =0.05水准,拒绝 H0,接受 H1,差异有统计学意义,可认为甲、乙两种白喉杆菌培养基的效果有差别,甲培养基培养效果优于乙培养基。四、补充知识点1.频数分布表的用途:描述资料的分布特征和分布类型,便于进一步计算有关指标或进行统计分析,发现特大、特小的可疑值,据此绘制频数分布图2.正态分布图形的特征: 是正态分布的位置参数,描述正态分布的集中趋势位置。
41、正态分布以 x = 为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于 ; 描述正态分布资料数据分布的离散程度,越大,数据分布越分散, 越小,数据分布越集中。 也称为是正态分布的形状参数, 越大,曲线越扁平,反之, 越小,曲线越瘦高3.正态分布的应用:估计频数分布,制定参考值范围,质量控制,正态分布是许多统计方法的理论基础4.t 分布图形的特征:以 0 为中心,左右对称的单峰分布,t 分布是一簇曲线,其形态变化与 n(确切地说与自由度 )大小有关。自由度 越小,t 分布曲线越低平;自由度 越大,t 分布曲线越接近标准正态分布(u 分布)曲线5.医学参考值范围的制定90.419)|
42、(|22016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 13 -6.标准误与标准差7.方差分析的基本思想:就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和及自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS组间可由处理因素的作用加以解释。通过各变异来源的均方与误差均方比值的大小,借助F分布作出统计推断判断各因素对各组均数有无影响。8.卡方检验公式选择当 n40,且所有格子的 T5 时,选用卡方检验基本公式或专用公式当 n40,但有 1T5 时,选用卡方检验校正公式或改用
43、四格表资料Fisher当 n40,或 T1 时,须用四格表资料 Fisher 确切概率法9.配对设计的符号秩和检验方法(1)假设:H 0:差值总体中位数 Md=0 ,H 1:Md 0 , =0.05 (2)求差值 (3)编秩次:依差值的绝对值从小到大编秩次。编秩次时遇差数等于 0,舍去不计,同时样本例数减 1;遇绝对值相等差数,符号相同顺次编秩次,符号相反取平均秩次,且符号相反。 (4)求秩和并确定检验统计量:分别求出正负秩次之和,正秩和以 T+表示,负秩和的绝对值以 T-表示。 T+及 T-之和应等于 n(n+1)/2,任取 T+(或 T-)作检验统计量 T 。 (5)确定 P 值和作出推断
44、结论:当 n50 时,查 T 界值表,得出 P 值。若检验统计量 T 值在上、下界值范围内,其 P 值大于表上方相应概率水平;若 T值在上、下界值上若范围外,其 P 值小于表上方相应概率水平。10.配对设计的形式有:两种同质受试对象分别接受两种不同的处理,同一受试对象或同一样本的两个部分分别接受两种不同的处理,同一受试对象接受某种处理前后。 注意:做 t 检验时,一定要分清是配对样本的 t 检验还是两独立样本的 t检验;做卡方检验时,一定要注意公式的适用条件。2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 14 -大纲:t 检验: 单样本均数的 t 检验、配对样本均数的
45、 t 检验、两独立样本均数的 t 检验方差分析:完全随机设计资料的方差分析、随机区组资料的方差分析、多组均数 比较的方差齐性检验、多组均数间的两两比较一、 名解1、 小概率事件:若在一次观察或实验中某事件发生的概率很小,可以看做很可能不发生,该事件称小概率事件。不同研究问题对小概率的要求不同,习惯上,把 P0.05或 P0.01 称为“小概率事件”,这种小概率事件虽然不是不可能发生,但一般认为小概率事件在一次随机试验中基本不会发生,这就是小概率原理。2、 抽样误差:由于个体差异存在造成的样本均数与样本均数之间、样本均数与总体均数之间的差异。抽样误差是随机的、不可预知的、不可避免的,但抽样误差是
46、有规律的可以被认识的,其大小用标准误表示,可以用适当增加样本含量来减小抽样误差。3、 同质:一个总体中包含许多个体,性质相同的事物为同质,否则称异质。4、 变异:同质事物间,各观察单位的差别。5、 标准差:反映一组数据的平均离散水平或变异程度,适用于对称分布的资料,特别对正态分布或近似正态分布的资料。方差开平方:公式见书。6、 四分位数间距:比极差稳定,并未考虑所有变量值,常用于偏态分布资料的变异度,Q=P75-P257、 均数的标准误:用于表示均数抽样误差大小的指标,反映样本均数之间的离散程度,也反映样本均数抽样误差的大小。8、 标准正态分布:正态分布经转换后变为总体均数为 0,总体标准差为
47、 1 的正态分布称标准正态分布。9、 均数为 95%的 CI 值(置信区间) :按一定的概率或可信度(1-a )用一个区间来估计总体参数所在的范围,这个范围称作可信度为 1-a 的可信区间( CI)又称置信区间,95%的可信区间中的 95%是可信度,即,所求的可信区间包含总体参数的可信程度为95%10、第一类错误:如实际情况与 H0 一致,仅仅由于抽烟的原因,使得假设检验的结论为拒绝原本正确的 H0,导致推断结论错误,这样的错误称为第二类错误:如实际情况和 H0 不一致,由于抽样原因使得假设检验的结论为不拒绝原本错误的 H0,则导致了另一种推断错误,这样的错误称为检验效能:1-b 成为检验效能
48、,即当两总体的确有差别(H0 不成立) ,按照事先确定的检验水准 a,假设检验能发现该差异(拒绝 H0)的能力 ,1-b 也取单尾11、P 值:是指 H0 成立从所规定的总体中随机抽样,所获得等于及大于(或等于及小于)现有样本计算获得的检验统计量值的概率。12、相关系数:定量描述两变量间线性关系的密切程度和相关方向的统计指标。r 无单位,-1 r 1,r 值为正 正相关,为负,负相关,| r|=1 -完全相关,|r|=0 -零相关。13、调查设计的四种方法2016 一附院神内 肖桂贤 2016 年 12 月 25 日星期日- 15 -1)单纯随机抽样:保证总体中每一个个体都有同等的机会被抽出来作为样本的抽样方法2)系统抽样:即先将总体的全部个体按与研究现象无关的特定排序编号,依次每隔若干号码抽取的一个个体组成样本3)分层抽样:先将总体全部个体按某种特征分成若干层,再从每层内随机抽取一定数量的个体合起来组成样本4)整群抽样:先将总体分成若干群体,形成一个抽样框,从中随机抽取几个群体组成样本,对抽中群体的全部个体进行调查14、双盲:受试对象和实验执行者都不知道受试对象分在哪一