1、第二章 数值变量的描述性统计,统计图表; 统计指标。,第一节 频数分布,一. 编制频数表的步骤,求极差 R=84-57cm=27(次/分) 划分组段 确定组数:较大样本时,一般取10组左右。 确定组距:极差/组数=27/10=2.73(次/分) 确定各组段的上下限:上限=下限+组距 统计各组段内的数据频数,编制频数表,表2.1 130名健康成年男子脉搏(次/分)的频数分布表,脉搏组段 (1),频数 (2),频率(%)(3),累计频数(4),累计频率(%)(5),56 59 62 65 68 71 74 77 80 8385 合计,2 5 12 15 25 26 19 15 10 1 130,1
2、.54 3.85 9.23 11.54 19.23 20.00 14.62 11.54 7.69 0.77,2 7 19 34 59 85 104 119 129 130,1.54 5.38 14.62 26.15 45.38 65.38 80.00 91.54 99.23 100.00,二. 频数表的用途,可以揭示资料的分布类型和分布特征,以便于选用相应的统计分析方法。 便于进一步计算指标和统计处理。 便于发现某些特大或特小的可疑值。,第二节 集中趋势的描述,三种平均数 算术均数 几何均数 中位数。,(一)算术均数(x),简称均数,适合于表达呈正态分布资料的平均水平。 直接法:X=,X1+X
3、n,n,=,X,n,例2-2:X,=,81+70+66+69,13,=71.69(次/分),加权法X=,fX,f,例: X=,572+605+6312+84 1,130,=71.12(次/分),(二)几何均数(G),适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。 G= n X1X2XnG=lg-1( ),lgX,n,G=lg-1( ),f lgX,f,例:40名麻疹易感儿童接种麻疹疫苗后一个月,测其血凝抑制抗体滴度,结果如表所示,求几何均数。,抗体滴度,人数f,滴度倒数X,lgX,1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512,1 4 5 8 11
4、 6 4 1,4 8 16 32 64 128 256 512,0.6021 0.9031 1.2041 1.5051 1.8061 2.1072 2.4082 2.7093,G=lg-1(,f lgX,n,)=lg-1(1 0.6021+4 0.9031+ +1 2.7093),40,=lg-1(,40,67.1282,),=48,G=1:48,(三)中位数(M),适合于表达偏态资料、或分布不明的资料的平均水平,尤其适合于表达只知数据的个数、但部分较大或较小数据的具体数值未准确知道的资料的平均水平。,对于原始数据和频数分布表资料,分别用下列两式计算中位数。,M=,(X n/2+X(n/2+1
5、) )/2,(n为偶数),X(n+1)/2,(n为奇数),M = LM +,iM,fM,(,n,2,fL ),其中, LM :中位数所在组下限;iM :中位数所在组的组距;fM :中位数所在组的频数;fL :中位数所在组前一组的累计频数。,2,例2-4 表2.3 107正常人的尿铅含量(g/L)的中位数计算表,含量( g/L )(1),频数f (2),累计频数 f(3),累计频率 %(4),0 4 8 12 16 20 24 28 合计,14 22 29 18 15 6 1 2 107,14 36 65 83 98 104 105 107,13.08 33.64 60.75 77.57 91.
6、59 97.20 98.13 100.00,M=8+ (107/2 - 36) = 10.41(g/L),4,29,第三节 离散程度的描述,例:设有三组同年龄、同性别儿童体重(kg)数据如下: 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34,描述离散程度的指标: 极差、四分位数间距、方差、标准差及变异系数。,一. 极差(全距,R),为一组同质观察值中最大值与最小值之差。 甲组 R=34-26=8 乙组 R=36-24=12 甲组数据分布较乙组集中。,优点:计算简单 缺点: 1.没有充分利用样本信息,只考虑最大值与最小值之差异,不能反映
7、组内其它观察值的变异度。 2.样本含量越大,抽到较大或较小观察值的可能性越大,则极差可能越大,因此,样本含量悬殊时不宜用极差比较分布的离散度。 所以,一般不用极差来反映离散程度。,二. 四分位数间距(Q),1.分位数的概念 分位数是一种位置指标,一个特定的分位数将任何一个频数曲线下的面积分为两部分。 第1四分位数记作Q1,第2、第3四分位数,分别记作Q2、Q3;第1百分位数,记作P1。同理,还有第2、第3、 、第99百分位数,分别记作P2、P3、 、P99。 显然,Q1=P25、Q2=P50=M、Q3=P75,2.百分位数的计算公式 对连续型变量频数表资料,按下式计算第X百分位数PX:PX=L
8、X+,iX,fX,(nX%,fL ),其中, LX :第X百分位数所在组下限;iX :第X百分位数所在组的组距;fX :第X百分位数所在组的频数;fL :第X百分位数所在组前一组的累计频数。,例 某地200例正常成人血铅含量的频数分布如表所示,请计算出血铅含量的95%正常值范围。 200例正常成人血铅含量的频数分布表,血铅含量 频数 累计频数(mol/L) (1) (2),0 0.24 0.48 0.72 0.97 1.21 1.45 1.69 1.93 2.17 2.42 2.66 2.903.14,6 48 43 36 28 13 14 4 4 1 2 0 1,6 54 97 133 16
9、1 174 188 192 196 197 199 199 200,解:即求P95。 nX%=20095%=190 P95 =1.69+ (190-188),0.24,4,=1.81 (mol/L),故某地正常人血铅含量95%的单侧正常值范围的上限为 1.81 (mol/L)。,3.四分位数间距(Q) Q=P75-P25 Q=QU-QL 优缺点:用四分位数间距作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。,例2-10 据书中表2.3资料求四分位数间距Q。P25= 4+,4,22,(107 25%,14
10、)=6.32 (g/L),P75= 12+,4,18,(107 75%,65)=15.39 (g/L),Q= P75 - P25=15.39-6.32=9.07 (g/L),三.方差,2=,(X-)2,N,S2=,(X-X)2,n - 1,n - 1称为自由度,四.标准差, =,(X-)2,N,S=,(X-X)2,n - 1,直接法; s=,X2-( X)2/n,由于(X-X)2 =X2-( X)2/n,所以,n - 1,加权法: s= fX2-( fX)2/f,f - 1,例2-12 求书中表2.2数据的标准差。 解 f=130 fX=9246 fX2=662076S= 662076-924
11、62/130,130-1,= 5.89(次/分),五. 变异系数(CV),CV=,S,X,100%,1.用于比较度量衡单位不同的多组资料的变异度。 2.比较均数相差悬殊的多组资料的变异度。,六. 适用情况,第四节 正态分布,一. 正态分布的概念和特征,正态分布的图形:正态分布的密度函数:f(X)=,1, 2,e,-(X-)2,2 2,-X+ ,通常用N( , 2)表示均数为、方差为2的正态分布。,正态分布的特征,1.正态曲线在横轴上方均数处最高; 2.正态分布以均数为中心,左右对称; 3.正态分布有两个参数,即均数与标准差。 是位置参数,当固定不变时, 越大,曲线沿横轴越向右移动; 越小,曲线
12、沿横轴越向左移动。 是变异度参数,当固定不变时, 越大,曲线越平阔; 越小,曲线越尖峭。 4.正态曲线下的面积分布有一定的规律。,常用的两个区间: 1.96 及2.58 的区间面积分别占总面积(或总观察例数)的95%及99%,如下图所示:,95%,2.5%,2.5%,-1.96 ,+1.96 ,99%,-2.58 ,+2.58 ,0.5%,0.5%,二. 标准正态分布,令 u=,X- ,(u)=,1,2,e,-,u2,2,- u+ ,用N(0,1)表示标准正态分布,三. 正态分布的应用,制定医学参考值范围 许多统计方法的理论基础,参考值范围的制定,正态分布法 百分位数法,%90 95 99,双
13、侧X1.64S X1.96S X2.58S,单 只有下限 X-1.28S X-1.64S X-2.33S,侧 只有上限 X+1.28S X+1.64S X+2.33S,双侧P5P95 P2.5P97.5 P0.5P99.5,单 只有下限 P10 P5 P1,侧 只有下限P90P95P99,补充题 以下是101名30-49岁正常成年男子的血清总胆固醇(mmol/L)测定值的频数表,请据此资料:(1)选择适当的集中趋势指标并计算之;(2)选择适当的离散程度指标并计算之;(3)求该地30-49岁健康男子血清总胆固醇的正常值范围;(4)估计该地30-49岁健康男子血清总胆固醇值小于4.50 mmol/
14、L的概率。,血清总胆固醇 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.07.5 合计,频数f 1 8 9 23 25 17 9 6 2 1 101,fx 2.75 26 33.75 97.75 118.75 89.25 51.75 37.5 13.5 7.25 478.25,fx2 7.56 84.50 126.56 415.44 564.06 468.56 297.56 234.38 91.13 52.56 2342.31,data samp2_1; input x; cards; 75 76 72 69 66 72 57 68 71 72 69 72 73
15、82 80 82 67 69 73 64 74 58 70 64 60 77 66 77 64 67 76 75 75 71 65 62 76 72 71 60 67 75 75 73 79 66 69 79 78 70 72 70 72 78 72 67 72 80 68 70 61 70 73 72 71 81 70 66 75 71 63 77 74 76 68 65 77 69 77 75 79 64 79 73 76 61 80 64 69 70 73 69 68 65 70 69 66 81 63 64 80 74 78 76 84 66 70 73 60 76 82 73 64
16、65 73 73 63 80 68 76 70 79 77 64 70 66 69 73 78 76 ;,例2.1,proc univariate; output out=aa max=max min=min mean=m std=s median=med q1=p25 q3=p75 qrange=q mode=mode range=r; proc print data=aa; data samp211; set aa; p1=m-1.96*s; p2=m+1.96*s; proc print; var p1 p2; data samp212; set samp2_1; if 56x59 th
17、en x=56; if 59=x62 then x=59; if 62=x65 then x=62; if 65=x68 then x=65; if 68=x71 then x=68; if 71=x74 then x=71; if 74=x77 then x=74; if 77=x80 then x=77; if 80=x83 then x=80; if 83=x86 then x=83; proc freq; table x; run;,Univariate ProcedureVariable=XMoments Quantiles(Def=5)N 130 Sum Wgts 130 100%
18、 Max 84 99% 82Mean 71.31538 Sum 9271 75% Q3 76 95% 80Std Dev 5.801677 Variance 33.65945 50% Med 72 90% 79Skewness -0.13923 Kurtosis -0.54176 25% Q1 67 10% 64USS 665507 CSS 4342.069 0% Min 57 5% 61CV 8.135238 Std Mean 0.508841 1% 58T:Mean=0 140.1527 Pr|T| 0.0001 Range 27Num = 0 130 Num 0 130 Q3-Q1 9M
19、(Sign) 65 Pr=|M| 0.0001 Mode 70Sgn Rank 4257.5 Pr=|S| 0.0001ExtremesLowest Obs Highest Obs57( 7) 81( 98)58( 22) 82( 14)60( 109) 82( 16)60( 40) 82( 111)60( 25) 84( 105),OBS M S MAX P75 MED P25 MIN R Q MODE1 71.3154 5.80168 84 76 72 67 57 27 9 70OBS P1 P21 59.9441 82.6867Cumulative CumulativeX Frequen
20、cy Percent Frequency Percent-56 2 1.5 2 1.559 5 3.8 7 5.462 12 9.2 19 14.665 15 11.5 34 26.268 25 19.2 59 45.471 26 20.0 85 65.474 19 14.6 104 80.077 15 11.5 119 91.580 10 7.7 129 99.283 1 0.8 130 100.0,data lx; input x f; cards; 2.75 1 3.25 8 3.75 9 4.25 23 4.75 25 5.25 17 5.75 9 6.25 6 6.75 2 7.25
21、 1 ; proc means; var x; freq f; output out=aa mean=m std=s; data b; set aa; p1=m-1.96*s; p2=m+1.96*s; proc print; var p1 p2; run;,Analysis Variable : XN Mean Std Dev Minimum Maximum-101 4.7351485 0.8816333 2.7500000 7.2500000-OBS P1 P21 3.00715 6.46315,data lx2_2; input x f; y=log10(x); cards; 1 7 2
22、0 11 40 22 80 12 160 8 ; proc means; var y; freq f; output out=outmean mean=logmean; proc print data=outmean; data b; set outmean; g=10*logmean; proc print data=b; var g; run;,Analysis Variable : YN Mean Std Dev Minimum Maximum-60 1.5004448 0.6152123 0 2.2041200-OBS _TYPE_ _FREQ_ LOGMEAN1 0 60 1.500
23、44OBS G1 31.6552,data lx2_3; input x f; cards; 6 26 10 48 14 25 18 6 22 3 ; proc univariate; var x; freq f; run;,Univariate ProcedureVariable=XMoments Quantiles(Def=5)N 108 Sum Wgts 108 100% Max 22 99% 22Mean 10.74074 Sum 1160 75% Q3 14 95% 18Std Dev 3.833864 Variance 14.69851 50% Med 10 90% 14Skewn
24、ess 0.786265 Kurtosis 0.612855 25% Q1 10 10% 6USS 14032 CSS 1572.741 0% Min 6 5% 6CV 35.69459 Std Mean 0.368914 1% 6T:Mean=0 29.11451 Pr|T| 0.0001 Range 16Num = 0 108 Num 0 108 Q3-Q1 4M(Sign) 54 Pr=|M| 0.0001 Mode 10Sgn Rank 2943 Pr=|S| 0.0001ExtremesLowest Obs Highest Obs6( 1) 6( 1)10( 2) 10( 2)14( 3) 14( 3)18( 4) 18( 4)22( 5) 22( 5),