收藏 分享(赏)

统计幻灯engppt课件.ppt

上传人:微传9988 文档编号:3493562 上传时间:2018-11-05 格式:PPT 页数:150 大小:512.50KB
下载 相关 举报
统计幻灯engppt课件.ppt_第1页
第1页 / 共150页
统计幻灯engppt课件.ppt_第2页
第2页 / 共150页
统计幻灯engppt课件.ppt_第3页
第3页 / 共150页
统计幻灯engppt课件.ppt_第4页
第4页 / 共150页
统计幻灯engppt课件.ppt_第5页
第5页 / 共150页
点击查看更多>>
资源描述

1、health statistic,present toclinical student ,一、卫生统计学( health statistic)的定义和内容,1.定义: 统计学:研究数据的收集、整理、分析,对不确定的数据作出科学推理的一门科学(即概率论). 卫生统计学: 2.内容: 卫生统计学的基本原理和方法 健康统计 卫生服务统计,二、统计工作的基本步骤,全过程包括:计划与设计、收集资料、整理资料、分析资料1、设计(design): 根据研究目的对统计全过程的一个全面的设想。这是最关键的一步。要求:科学、周密、简捷。 设计包括:实验设计、调查设计、临床实验设计 设计原则:齐同原则、对照原则、重

2、复原则、随机化原则,2、搜集资料(collection of data):,要求:完整、准确、及时。 医学统计资料的来源主要有三个方面:(1) 统计报表:eg法定传染病报表、职业病报表、医院工作报表;报表项目较少,不具备可比性 (2) 日常医疗工作的原始记录和报告卡片;eg:卫生监测记录、健康检查记录 (3)专题调查与实验:A常见专题调查的种类:居民健康状况调查流行病调查(病因学调查)临床远期疗效观察卫生学调查:职业卫生学调查、环境卫生学调查、营养与食品卫生学调查、放射卫生学调查、心理卫生学调查等。,B.调查的内容:,明确调查目的、内容和指标 确定调查对象(总体)、观察单位(个体) 选择调查方

3、法:全面调查(普查:census)非全面调查:典型调查:有意识选择范围抽样调查 确定调查范围:时间、空间、数量范围 选择调查方式:观察法、采访法、填表法、通讯法。,调查设计,特点: 调查计划: 1.明确调查目的和指标 2.确定观察对象和单位 3.调查方法 (1)普查( 全面调查 ): 将组成总体的所有观察单位全部加一调查。(2)抽样调查: 从总体中随机抽取一定数量的观察单位组成样本, 然后用样本信息来推断总体特征。 (3)典型调查( 案例调查 ): 即在对事物作全面分析的基础上, 有目的地选定典型的人、典型的单位进行调查。,确定调查项目和设计调查表:,调查项目: 核查项目(检索项目、备考项):

4、被调查者的姓名、住址等。 分析项目(业务项目):资料不能缺少的分析项目。 调查者项目(审核项目):调查者的姓名和调查日期调查表:调查项目按一定顺序列成的表格。制表要求:简便、清楚多用:选择、填空、符号、数字;少用:文字叙述,调查表形式:,一览表(list):多个观察单位记录在一张表中 适用于调查项目少、样本少的专题调查 单一表(card、调查卡片、个案卡片): 一个观察单位记录在一张表中,适用于调查项目多、样本多的专题调查 编码调查表(code sheet):适用于样本多、分析项目多、分析内容复杂的专题调查,计算机保存。 确定样本大小 制定调查的组织工作:建立组织、确定起止时间、进度、分工、培

5、训调查员可先小范围调查(预调查),4.调查项目和调查表 (1) 分析项目: 直接用于计算调处指标, 以及分析时排除混杂因素影响所必须得到的内容。 (2) 备查项目: 便于核查、补填和更正而设置的, 通常不直接用于分析。 (3) 调查表的格式: 分为一览表和单一表 5.收集资料的方式 6.随机抽样的方法: a.单纯随机抽样 b. 系统抽样 c. 整群抽样 d. 分层抽样;,根据抽样误差的大小分层抽样 系统抽样 单纯随机抽样 整群抽样,3、整理资料(sorting data),系统化、条理化 1)核查资料; 2)分组汇总,拟整理表:按性质(分类变量)或数量(数值变量)分组, 拟定整理表(过渡性的表

6、格,按调查指标合理设计,用于原始资料的归组,表中有合计、总计等项目)。,4.分析资料:计算有关指标,反映数据综合特征,统计描述(descriptive statistic) 包括指标的计算、统计图表的绘制,描述数据的特征和分布规律。 统计推断(inferentical statistic) 用样本统计量通过参数估计、假设检验等统计方法推断总体. 推断总体 1)推断总体分布;是正态还是偏态(常有理论或经验得到) 2)推断总体分布的参数或特征量: 和,三.统计中的几个基本概念,1、变量与变异:变量:个体的研究特征;变异:各观察指标(即个体)之间的差异:包括个体变异和随机测量变异 同质观察单位之间的

7、个体变异,是生物的重要特征,是偶然性的表现。 变量值:变量的观察结果: 定量变量: 数值变量资料 定性变量: 分类变量资料 数值变量(numerical variabal):用定量方法对每个观察单位测定某项指标的所得的资料.一般有度量衡单位(也称计量资料measurement data)。,分类变量(categorical variable),表现为互不相容的类别或属性.分两种: a.无序分类变量:(unordered categories,计数资料enumeration data):将观察单位按某种属性或类别分组,再清点各组的观察单位数。可分为二项式或多项式分类变量。 b.有序分类变量(or

8、dinal categories,等级资料ranked data半定量资料):将观察单位按某种属性(或性质、标志)的不同程度分组,然后清点各组的数据所得的资料。(各组之间有程度的差异). (这类资料与计数资料不同的是:属性的分组有程度的差别,各组按大小顺序排列;与计量资料不同的是:每个观察单位未确切定量,因而又称为半定量资料。) 三种资料间可以相互转化。,2、总体与样本,总体(population):根据研究目的确定的同质的研究对象的全体(性质相同的所有观察单位的某种变量值的集合)。 样本(sample):从总体中随机抽取一部分观察单位进行观察,这部分观察单位对总体有代表性,称为样本。(总体中

9、每一观察单位均有相同的机会被抽取到样本中去。),3.概率(probability)与频率,描述某事物发生的可能性大小的数值,用分数、小数、百分数表示。符号p。P=1 p=0 0p1 随机事件p0.05或p0.01 小概率事件,3.误差(statistic error),测得值与真实值之差。 系统误差(systematic error)因仪器不准等造成的呈倾向性偏大或偏小的误差(可以消除)。 随机测量误差(random measurement error)仪器校正后由于偶然因素造成同一物体多次测量结果不完全一致(不可避免,无倾向性)。 抽样误差(sampling error):消除系统误差和控制

10、随机测量误差后,由于观察单位间存在个体差异, 随机抽样造成的样本指标与总体参数有差异, 这种样本统计量与总体参数间的差别称为抽样误差。,4.参数与统计量:,总体指标均称参数,用希腊字母表示: , ,样本指标均称统计量,用拉丁字母表示X,s。,频数分布的集中趋势和离散趋势,数值变量资料的频数表 频数表的编制 a.求全距(range)R R=最大值-最小值 b.确定组距(class interval)ii=全距/组数 组数取决于资料性质、样本量、分析目的要求:组数一般815组,组距相等 c.划分组段:每组都有开始值、终止值第一组包括最小值,最后一组包括最大值每组段只写组下限,省略组上限各组界限要分

11、明(既不包含也不留空隙),d.归纳记数,拟整理表,方法:划记法(tabulation method):正 适用于样本少、内容简单的资料 分卡法(card sorting method):卡片分组 适用于样本多的资料,Chapter 16 statistic table and statistic chart,present to clinical medical student,outline,Structure, classify, tabulating principle and basic requirement of establishing a table and a graph S

12、everal plotting approach of statistic chart usability condition of statistic chart,一.统计表(statistic table) 两个组成:被说明的事物统计指标 (1) 基本结构与要求: 由标题、标目、线条、数字等组成 a. 标题: 要求中心内容突出, 必要时注明资料的时间、地点。 b. 标目: 横标目: 位于表的左侧, 是表的主语位置。 纵标目: 位于表的上方, 是表的谓语位置。,c 线条: 分顶线、底线、纵标目下面与合计上面的横线,斜线、竖线省略。 d 数字: 一律用阿拉伯数字。表示数值不详或暂缺- 无数值

13、备注: 列于表的下面, 对表中标有( )的数字加以描述。,标题 横标目总称 纵标目横标目合计,种类: 内容上:广义:狭义: 形式上:a.简单表: 被研究的事物只按一个特征或指标分组。b.复合表: 被研究的事物按两个或两个以上相关联的特征或指标分组。 制表原则: 简单明了,重点突出 主谓分明,层次清楚 数据准确,便于对比分析,种类: 内容上:广义:狭义: 形式上:a.简单表: 被研究的事物只按一个特征或指标分组。b.复合表: 被研究的事物按两个或两个以上相关联的特征或指标分组。 制表原则: 简单明了,重点突出 主谓分明,层次清楚 数据准确,便于对比分析,二.统计图(statistic graph

14、),基本要求: a 依据资料的性质选择适当的图形; b 标题简明扼要,必要时注明时间、地点; c 纵轴和横轴应有标目,并注明单位 d 尺度:横轴尺度自左而右, 纵轴尺度自下而上, 数量一律由小到大, 并需等距标明。纵横坐标长度的比例一般为5 7。 e复式图:比较不同事物时, 用不同的线条或颜色表示, 要附图例说明。,3、常用统计图,(1) 直条图(bar graph): 用相同宽度条形的长短.来表示资料数值大小比例关系, 适用于按性质分组,各个独立的、无连续关系的统计图。,(2)百分条图: 适用于表达构成比的资料。,(3) 线图:,用线条的上升和下降来表示某事物( 或某现象 )因时间或条件而变

15、化的趋势。适用于连续性的变量资料。,(4)直方图:,用于表示连续变量的频数分布。常以横轴表示被观察现象, 纵轴表示频数或频率, 以各矩形( 宽度为组距 )的面积代表各组段的频数。,谢谢,outline,Descriptive approach and applicable condition about central tendency & tendency of dispersion counting method of statistical descriptive index Concept and trait of normal distribution Evaluation of r

16、eference range area distribution principle about normal distribution Graph of normal distribution,Statistical distribution of numerical variable,频数分布的集中趋势和离散趋势 数值变量资料的频数表 频数表的编制 a.求全距(range)R R=最大值-最小值 b.确定组距(class interval)ii=全距/组数 组数取决于资料性质、样本量、分析目的要求:组数一般815组,组距相等 c.划分组段:每组都有开始值、终止值第一组包括最小值,最后一组包

17、括最大值每组段只写组下限,省略组上限各组界限(demarcation)要分明(既不包含也不留空隙),频数分布的两个特征,集中趋势和离散趋势,频数分布的类型,对称分布和偏态分布(正偏和负偏),集中趋势的描述:,平均数(average) 1.概念:平均数是集中趋势(central tendency)指标(亦称位置指标), 用以描述同质计量资料频数分布的集中趋势, 反映一组变量值的平均水平, 是一组变量值的代表值。,2.种类:,1) 算术均数: arithmetic mean,样本均数, 符号:X (eksba),拉丁字母,简称均数,总体均数, 符号(miu), 希腊字母 (1)适用范围:对称分布(

18、特别是呈正态分布或近似正态分布)。 (2)计算方法:A.直接法(direct method): 当观察值个数较少时 X =x/n :希腊字母,sigma,求和符号 B.加权法(weighting method): X =x/=x/n 条件: 当观察值个数较多时,步骤,A) 制备频数表 B)求各组组中值(class-mid value)X=(本组段组下限+下组段组下限)/2 C)统计各组段频数f D) fx E) =fx/f各组段f权衡了各组中值因f不同对均数的影响,起权衡作用,权数大,作用大. (3)均数的两个重要特征:A. (X-X )=0B.(X-X )2(X- a)2,2)几何均数(ge

19、ometric mean ,符号G表示),用于描述变量值呈等比数列, 或呈对数正态分布(log-normal distribution)或近似对数正态分布资料。资料作对数变换(log arithmetic transformation) 直接法:当n较小时 G=(x1x2 x3 xn )1/n, G=lg-1( lgX/n ) 加权法: 当n较大时 G=lg-1( lgX/ ) 应用条件:任何一个不能为0,不能同时有正有负 步骤:求倒数 X logX flogX lgX lgX/ lg-1( lgX/ )=G,3)中位数(median, 位置平均数,符号M),是一组变量值从小到大顺序排列后位次

20、居正中间的那个数值。 应用条件:多用于描述偏态分布资料,或一端或两端无确定数值的开资料的集中趋势,或频数分布不明资料,。 计算方法:直接法:当n较小时 n为奇数时 M=X(n+1/2)n为偶数时 M= X(n/2)+X(n/2+1)/2频数表计算方法: 当n较大时用 编频数表(frequency table) PX =L+i/fm( nx% - L ) L:中位数所在组段下限; i: 中位数所在组段组距 fm: 中位数所在组段频数 L:中位数所在组段之前的累积频数 x%:百分位 50%,4)百分位数(percentile,PX ),描述一组有序排列的偏态分布数据某百等分界值大小(简称界值,是一

21、种位置指标) 应用条件:偏态分布(skew distribution)资料 应用: 估计正常值范围:95%: P2.5 P97.5,离散程度的描述,描述变异程度的常用指标: 例:三组同性别同年龄儿童体重(Kg),其集中趋势与离散程度分别是:甲组:26 28 30 32 34 X =30Kg乙组:24 27 30 33 36 X =30Kg丙组:26 29 30 31 34 X =30Kg 三组数据集中位置用X描述 ,X =30Kg, 三组数据离散度不同,分布特征不尽相同。,1)全距(range, R, 极差),一组变量值中最大值与最小值之差。 R=X最大X最小 优点:简单明了,常用于传染病、食

22、物中毒的最长、最短潜伏期 缺点:A .不能反映组内数据的变异度B. N RC. 抽样误差较大,2)四分位间距(quartile, Q),P75 QU P25 QLQ=QUQL(包括全部观察值的一半) 应用:偏态分布资料 优点:较稳定,特别是N较大时,越接近分布的中间越稳定。 缺点:未考虑每个观察的变异度。,3)方差(variance,2 ,s2),离均差平方和的平均值离均差: X, (X)=0 离均差平方和(Sum of squares),(X)2 1 .与变异度有关:变异度越大 ,(X)2越大 2与N多少有关:N越大 , (X)2越大 为消除N的影响,取其均值 (X)2 (XX )2 2 =

23、 S2= (样本方差公式)N n-1缺点:单位平方优点:考虑了每个变量值的变异,方差大小不受样本量多少的影响,4)标准差(standard deviation, s),是最常用的衡量变量值间离散程度的变异指标。(X)2 = N 定义:离均差的平方和的平均值的平方根 意义:1.越大,说明个体差异越大,则平均数代表性就越差2.未知,用s估计,用(XX )2 代替(X)2用样本例数n代替N,,由于抽样误差存在,X =可能性小,当X =按上式算得结果常比实际低, 英国W.S.Gosset提出用n-1代替n校正,(XX )2 S= (样本标准差公式)n-1 自由度 :随机变量能自由取值的个数。(niu)

24、 =n-1(XX)2 X2(X)2/ n fX2(fX)2/n S= = S= n-1 n-1 n-1Lxx=SS=X2(X)2/ n Lxx=SS=fX2(fX)2/n 应用:(1)用来描述资料的变异程度:应用条件:正态分布X +s(2)比较不同资料变异程度大小应用条件:单位相同、均数相近优点:考虑了每个观察值的变异情况,与集中趋势单位一致; 当资料呈正态或近似正态资料时可写成: X S,表示均数的代表性。缺点:计算复杂,5)变异系数:(离散系数 coefficient of dispersion ,CV),CV= (S /X ) *100% 应用: A、比较均数相差悬殊的几组资料的变异程度

25、; B、比较单位不同的多组资料的变异度: 应用条件:正态分布; 单位不同或均数不等 优点:无单位,便于比较,正态分布及其应用,正态分布(又称Gauss分布)概念:: 是医学和生物学中最常见的连续性总体频数分布, 以均数为中心, 两侧逐渐下降并对称, 两端永远不与横轴相交。 正态分布(normal distribution)图形:直方图,当n增大各直条逐渐变窄,其顶点中点将变成一条光滑曲线(频数曲线),形状呈钟形,两头低,中间高,左右对称。,正态分布用N(, 2)表示,为了应用方便, 常对变量X 作 u=( X - )/ 变换, u=( X - )/ 1)原点移到 的位置 2)横轴尺度以 为单位

26、 使=0, =1,则正态分布转换为标准正态分布(standard normal distribution,U分布), 用N(0, 1)表示。 U:称为标准正态变量或标准正态差,特征:,A、均数处最高; B、以均数为中心, 左右对称; C、有两个参数: 和,u 位置参数,图形向右移动变异度参数,数据越分散 D、正态曲线下的面积分布有一定规律: a.曲线与横轴X所夹面积总和为1 b.横轴上某一区间和曲线所夹面积与总面积之比,相当于变量值落在该区间的概率(概率分布),反映该区间例数与总例数之比(频率分布,百分数) c.横轴上某一区间所夹面积可用函数积分求得,正态曲线下的面积分布规律,变量值范围 正态

27、曲线下面积(变量值出现的概率) 1.0 68.27% 1.96 95.00% 2.58 99.00%,3) 正态分布的应用,常用于估计频数分布情况; 制定正常值范围。 正常值:指正常人的各种生理常数。当资料呈正态分布时,最常用X 1.96S估计95%正常值范围, 其含义是指绝大多数正常的变量值都在这个范围内, 绝大多数是包括正常的90%、95%和99%, 最常用95%。 应用:1.估计医学参考值范围 X uS 2.质量控制 X +2S 上下警戒线X +3S 上下控制线,常用的U值表,参考值范围% 单侧 双侧90 1.282 1.64595 1.645 1.9699 2.326 2.58,95%

28、参考值范围 双侧 X 1.96S 单侧 上限 (upper limit) X +1.645S下限(low limit) X -1.645S 99%参考值范围 双侧 X + 2.58S 应用条件: 1.正态分布或近似正态分布资料 2.可转化为正态分布资料: 对数变换(抗体滴度、血清效价、住院天数、潜伏期、检验结果、残留量、有害物质的浓度等) 3.t分布、二项分布、POISSON分布等极限为正态分布 正态分布是X2分布、t分布、F分布的基础,Statistic inference of numerical variable,outline,Concept of sampling error and

29、 that of standard error Evaluation of confidence interval general step and announcement of hypothesis test Application condition of T test and U test Tape 1 error and tape 2 error,总体均数的估计和假设检验,一、均数的抽样误差和标准误(standard error) 1)均数的抽样误差随机抽10个变量值组成样本 第一次:x11 x12 x13 x14 x15 x16 x17 x18 x19 x110 X1 第二次:x2

30、1 x22 x23 x24 x25 x26 x27 x28 x29 x220 X2 类推: 第n次:xn1 xn2 xn3 xn4 xn5 xn6 xn7 xn8 xn9 xn10 X nN(, 2 ),(1)特征,a.样本均数 X 1 X 2 X 3 X n不一定相等. b.为定值,s越大, 抽样误差越大. c.样本均数X 的频数分布呈近似正态分布: X=X /nu,(2)中心极限定律(central limit theorem),a.正态总体中随机抽取许多含量相等的样本,这些样本均数的频数分布呈正态分布N(,2X ) b.偏态总体中随机抽取许多含量相等的样本,当n30时,样本均数的频数分布

31、近似正态分布N(u, 2X )若变量x的总体(正态或偏态)均数为,标准差为,则含量为n的样本均数X的总体均数也为, 样本均数的标准差为X (放回抽样).,(3)均数的抽样误差,A、定义:因随机抽样造成的样本统计量之间以及样本统计量与总体参数之间的差异.记作X , SX . B、抽样误差影响因素: n大小 抽样方法不同, X 不同。抽样误差不可避免.,2)标准误的概念,(1)定义:样本均数的标准差,是说明均数抽样误差大小的指标。标准误愈小,表示抽样误差愈小,样本统计量对总体参数的估计愈可靠。 (2)标准误的计算X =/n(总体标准误)sX =s/n(样本标准误)(当未知,用s代替),(3)标准误

32、的应用,表示样本均数的离散度; 估计总体均数的可信区间; 进行假设检验,(4)标准差与标准误的区别和联系,标准差 标准误 区别: 表示个体之间的变异度 表示样本均数之间的变异度 表示观察值与样本均值之间的离散度 表示样本均数与总体均数之间的离散度可以衡量样本均数抽样误差的大小联系: X =/n,二.t分布(t distribution),(1)t分布的概念:从正态总体中随机抽取许多含量为n的样本,由样本算出样本均值X和sX ,按t公式算出t值,将n个t值作直方图,构成t变量的频数分布图(连续性分布)X1 s1 t1值X2 s2 t2值X3 s3 t3值Xn sn tn,u=( X - )/ X

33、,U变换, Xn 由N(, X 2)变换为标准正态分布(U分布) X 往往用sX 来估计 t = (X - )/ sX t变换(t分布)。 U值称样本检验统计量, t值也称样本检验统计量当n逐渐增大,就成了t曲线,与标准正态分布相比有以下特征:a.二者都是单峰分布, 以0为中心, 左右对称;b. t分布有一个参数,不同,t曲线不同, 越大,峰度越大。逐渐增大时, t分布逐渐逼近标准正态分布; 当=时,t=u, t分布就完全成为标准正态分布了。 c.t分布曲线下的面积有一定规律: t曲线与横轴所夹面积总和为1 横轴上某一区间和曲线所夹面积与总面积之比,相当于t值落在该区间的概率(概率分布) 从总

34、体中随机抽样获得t值落在整个横轴概率为1,获得t值 t,的概率p,单侧: P( t - t,)= , 或P(t t,)= 双侧: P( t - t,)+P(t t,)= ; P( - t, t t,)= 1 - 随机抽样算t值,95%满足:- t, t t,- t, (X - ) / sX t,X - t, sX X + t, sX ;,(3)t界值,t界值表, 横标目为自由度, 纵标目为概率P, 表中数字表示自由度为, P为(检验水准)时, t的界值, 常记为t,。 注意: 不同, t,不同 相同, p越大, t,越小,且单侧P与双侧2P的t值相等, p相同, 越大, t,越小,三.总体均数

35、的估计,包括点值估计和区间估计: a.区间估计的涵义: 意思是从总体中作随机抽样, 每个样本可以算得一个可信区间, 如95%可信区间, 意味着做100个可信区间, 平均有95个可信区间包括总体均数(估计正确), 只有5个可信区间不包括总体均数(估计错误)。,b.区间估计的方法: X - t, SX X + t, SX ; 已知 X - U X X + U X ; 未知但n足够大X - USX X + USX ;,c.可信区间两要素:,准确度:反映区间包含总体均数的概率大小,即1-大小,越趋近1越好 精度: 反映区间的长度, 长度越小越好1- 一定,n越大,精度越高,四.假设检验(hypothe

36、sis test)一般步骤:,X 与不等的原因 1.由于抽样误差引起,若无抽样误差,它们之间相等 2.总体存在质的差异,并非抽样误差引起,若无抽样误差,它们之间仍不相等 (1)概念 所谓假设检验, 就是根据研究目的, 对样本所属总体特征提出一个假设, 然后用适当方法根据样本提供的信息, 推断此假设应当拒绝或不拒绝, 以使研究者了解在假设的条件下, 差异由抽样误差引起的可能性大小。,即推断样本统计量与总体参数之间或样本统计量之间的差异是由抽样误差引起还是总体存在质的差异。 假设检验(对总体而言); 显著性检验(对样本而言),(2) 一般步骤,a.建立假设: 无效假设(null hypothesi

37、s)H0: = 0 即假设样本指标与总体参数(样本与样本指标)是相等的,若不等,它们的差别是由抽样误差引起。 备择假设H1: 0,是与H0相对立的假设;差别不是由抽样误差引起,而是有本质差异 b.确定检验水准(亦称显著性水准,第一类错误),假阳性概率,即本来差异无显著性而判断其有显著性的概率,是一个接受或拒绝H0的概率标准。常取 =0.05或=0.011-:可信度,c.选定检验方法和计算统计量: t检验、U检验、2检验、F检验等。 d.确定P值:P值是指在由H0所规定的总体中作随机抽样,由于抽样误差引起的获得现有样本统计量的概率。X - t= SX 根据t值判断:,若H0成立,理论上从总体中抽

38、得样本均数与总体均数差别 X - 不会很大,则t值不会很大,t值很大的可能性(概率)是很小的,用尾部面积表示,即 t t, 的概率P,即由抽样误差引起两均数有差别的概率很小,根据“小概率事件在依次一次试验中基本上不发生”,故拒绝H0 ,本身有质的差异的概率很大。 t t, P,拒绝H0,接受H1 t t, P,不拒绝H0e.作出统计推断: 当P 时, 统计推断结论为按所取检验水准拒绝H0, 接受H1, 差别有显著性意义。 P0.05,差异无显著性(nonsignificance) P0.05,差异有显著性 P0.01,差异有高度显著性,五.t检验与u检验,1.样本均数与总体均数的比较:应用条件

39、:正态分布H0: = 0 H1: 0 =0.05 t = ( X - )/ sX , = n 1t t, ,P,拒绝H0,接受H1t t, P,不拒绝H0,2.配对设计资料的t检验: 即差值均数与总体均数0比较的t检验 配对方法: 对同对的两个受试对象分别给予两种处理; 对同一受试对象分别给予两种处理; 同一受试对象给予某种处理,比较处理前后有无差别。,H0: d = 0,差值的总体均数等于0 H1: d 0=0.05t = d / Sdd = d / n Sd =Sd / n Sd = d2- (d)2/n/(n-1),3.成组设计两样本均数的t检验:,应用条件: 正态分布总体方差齐:12=

40、22 H0: 1 = 2 H1: 1 2 =0.05 t =(X1 - X2)/ sx1-x2 = n1 + n2 2 sx1-x2= x12- (x1)2/n1+ x22- (x2)2/n2 /( n1+ n2 - 2)(1/n1+1/n2),5两大样本均数的U检验:(Z检验),应用条件:样本例数较大,如两样本均样本n50,样本均数的分布呈近似正态分布或总体标准差已知H0: 1 = 2 H1: 1 2 =0.05U = ( X1 - X2)/ SX1 2+ SX2 2 SX1 2 =Sx12 / n,方差不齐时两小样本均数的比较,1.两样本方差的齐性检验 2.t检验,6.第一类错误与第二类错

41、误,第一类错误(type error):拒绝实际上是成立的H0, 概率为。 第二类错误(type error):不拒绝实际上是不成立H0,概率为 1-:叫可信度:两总体无差别按水准判断其无差别的能力 1-:把握度,即两总体确有差别,按水准能发现它们有差别的能力,客观实际 拒绝H0 不拒绝H0 H0成立 第一类错误() 判断正确(1-) H0 不成立 判断正确(1-) 第一类错误():根据研究者要求确定 :只有与H1结合才有意义,值很难确切估计 n一定, 反之亦然 、根据研究要求适当控制: 当n,一定 ,也相应减少 n一定, 选定来控制若重点减少,可取=0.01若重点减少,可取=0.05 也可取

42、其他水准,7.假设检验时应注意的问题,a.要有严密的抽样研究设计; b.选用假设检验方法应符合其应用条件; c.正确理解差别有无显著性的意义; d. 结论不能绝对化; e.报告结论时注意应列出检验统计量值, 注明采用的是单侧或双侧检验,写出报告,P值的确切范围,8.可信区间和假设检验的关系,Analysis of variance,,outline,application: testing differences between two means and more than two means Hypothesis test of regression equation,方差分析的基本思想

43、1. 总变异=组内变异+组间变异 总变异:随机测量误差+个体变异+处理因素作用 组内变异:随机测量误差+个体之间变异 组间变异:随机测量误差+个体之间变异+处理因素作用F=组间变异均方/组内变异均方,方差分析的应用条件: 1.各随机样本相互独立 2 .均来自正态总体 3.各总体方差均相等,二、完全随机设计的多个样本均数比较 目的:推断多个总体均数是否相等 统计量:F 界值:F( 1, 2 ) 若F F(1, 2), P ,总变异=X2- (X)/n 组内变异 SS组内= Xj2- (Xj)2/n 组间变异 SS组间= nj(x-x )2 F=均方MS组间 / 均方MS组内 组间=k-1 组内=

44、n-k 总=n -1,一 配伍组设计的多个样本均数比较 总变异=处理因素间变异+区组间变异+误差总变异=X2- (X)/n处理因素间变异= nj (x- x )2(x- x )2 区组间变异= nj (x-x ),处理=k-1 组内=b-1 总=n 1 误差=( k-1)( b-1 ),多个样本均数间两两比较 q检验q= (x A- x B)/S(x A- x B)S(x A- x B)= MS误差 /n (n相等) S(x A- x B)= MS误差/2 (1/ n A + 1/ n B ) 根据误差和组数,q值判断,多个方差的齐性检验 变量变换:对数变换、平方根变换、倒数变换、平方根反正弦

45、变换,分类变量资料的统计描述,黄玉兰,一 分类资料的频数表 相对数(relative number):指两个有联系的事物计数数据之比,表示事物相对大小。是计数资料统计描述指标。 二.常用相对数: 分析计数资料的指标。常用的相对数有:( 1 ) 率(rate): 表示某种现象发生的频度或强度。 率= 某现象实际发生例数/可能发生该现象的总例数 比例基数( 习惯上以计算的率保留1 - 2位整数),(2)构成比(constituent ratio),说明一事物内部各组成部分所占的比重或分布。 构成比= 某一组成部分的观察单位数/同一事物各组成部分的观察单位总数 100% ( 3) 相对比(relat

46、ive ratio): 两个有关指标之比, 用以表示两个指标之间的对比关系。分子、分母可以同时是相对数,也可以同时是绝对数。,三.应用相对数时应注意的问题,(1) 计算相对数的分母不宜太小; (2) 分析时不能以比代率; (3) 对观察单位数不等的几个率,不能直接相加,PC=(nP)/n=x/n (4) 资料的对比应注意可比性: a.观察对象同质;b.内部构成相同,否则,应对率进行标准化 (5) 对样本率( 或构成比 )的比较应遵循随机抽样, 要作假设检验。,四.标准化法,基本思想和计算 (1)基本思想: 即采用一个共同的内部构成标准, 使两个样本或多个样本的不同内部构成调整为共同的内部构成标准, 以消除因内部构成不同对样本率的影响。标准化后的率叫标准化率。 (2) 计算方法: 直接法:当各组的率pi已知时间接法:当各组的率pi未知时,但总率P已知时。,(3)直接法选择标准的方法:a 选择有代表性的较稳定的数量较大的人群b 两组资料中,选择人数较大的一组或两组合并数作为标准。 (4)计算方法:a 用标准人数计算:b 用标准人口构成比:,(3) 注意事项:,a.选定标准不同, 算得的标准化率也不同, 因此不能代表实际水平; b.各组间若出现明显交叉, 不宜用标准化法; c.两样本标化率的比较应作假设检验。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 实用文档 > 教育范文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报