1、统计学基础知识,阚启明,总体与样本,根据研究目的所确定的具有相同性质的观察单位的集合称为总体population 。 有限总体:finite population 无限总体:infinite population从总体中通过随机化过程抽取的部分观察单位称为样本sample 。样本含量sample size抽样sampling,变量与资料,总体确定后,对每个观察单位的某项特征进行测量和观察,这种特性能表现观察单位的变异性,称为变量variable 。 定性变量qualitative variable 定量变量quantitative variable 对变量的测得值称为变量值(value of
2、variable),或观测值(observed value),由变量值构成资料data 。 计量资料measurement data计数资料enumeration count data (无序分类变量资料 unordered categorical variable data) 等级资料ranked ordinal data (有序分类变量资料 ordinal categorical variable data),定量变量(quantitative variable),通过测量所获得的、用具体数值与特定计量单位表达的数据。,定性变量qualitative variable,观测的个体只能归属于
3、几个互不相容类别中的一种时,一般是用非数字来表达其类别。名义变量(nominal variable) 有序(等级)分类变量(ordinal or ranking variable.)二项分类多项无序分类多项有序分类,概率与频率,在相同条件下,独立进行n次试验,随机事件A出现f次,则称f/n为随机事件A出现的频率frequency 。在相同的条件下,进行大量重复实验,若事件的频率稳定的在某一确定值的附近摆动,则称为事件出现的概率probability ,记为: P(A),P=1 必然事件, P=0 不可能事件。,P 0.05称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小。,事件和事
4、件中至少有一个发生而构成的新事件称为事件和的和事件,记作 事件和事件中同时发生而构成的新事件称为事件和的积事件,记作,事件和事件中必有一个发生,但二者不能同时发生,且和的和事件组成整个空间,记作不可能事件,必然事件,事件和互为对立事件, 在事件发生的前提下,事件发生的概率称为条件概率 (condition probability),记为(BA),概率的计算法则,加法定理 P(A+B)=P(A)+P(B)-P(AB) 推论 有限个事件两两互不相容,则P(A1+A2+.A)P(A1)+P(A2)+.+P(An) 推论 有限个事件两两互不相容,且A1+A2+.A=S ,则P(A1+A2+.A) 推论
5、 对立事件的概率满足:P(A)=1-P( ) 乘法定理 A,B为任意事件,P(AB)=P(A)P(B/A);特别的,若A,B相互独立,则P(AB)=P(A)P(B),计量数据统计描述指标,集中趋势指标:描述一组同质的变量值的集中位置或平均水平。常用的有:算术均数、几何均数、中位数。 离散趋势指标:描述一组同质变量值的离散程度或变异大小。常用的有:极差、方差、标准差、变异系数。,算术均数arithmetic mean,简称均数(mean),适用正态或近似正态分布资料。总体均数:,样本均数:,平均数的特征:,对于以定量化测量所得的计量数据存在唯一的均数。 样本均数具有抽样的稳定性与对总体均数的可估
6、性,方便进一步计算与分析。 均数对极值特别敏感,极大值或极小值通常将均数拉向自己。 每个变量值到均数距离之和为零,即每个变量值到均数距离的平方和最小,即,几何均数(geometric mean),是个同质性变量值的连乘积开次方的根,即,对原变量取对数,则,几何均数的特征:,几何均数适用于对数正态分布,如药物的效价、抗体的滴度。 变量服从对数正态分布,即表示变量log()服从正态分布。几何均数用以描述一群服从对数正态分布的测量值在对数数量上的集中性特征与平均水平。 变量在取对数后的log()具有算数均数的所有特征。,中位数median,将一组变量值由小到大依次排列,居以中间位次的观察值,记为。
7、适用各种分布类型资料,尤其是偏态分布资料和一端或两端无确切数值的资料。,样本含量为奇数时,样本含量为偶数时,极差Range,又称全距,用(R)表示,即一组数据的R=最大值 最小值 意义:R值越大,表示该组数据的变异越大。 缺点:只反映数据群的极端差异,数据利用不全,部分信息损失,在例数少时结果不稳定。,方差varince 标准差standard deviation,样本方差总体方差样本标准差总体标准差,变异系数coefficient of variation,应用: 1.单位不同时组间变异程度的比较。 2.比较组单位相同,但均数相差悬殊的组间变异程度比较。,某地岁男童身高的均数为123.1cm
8、,标准差为4.71 体重均数为22.29kg,标准差为2.26 身高的3.83 体重的10.14 ,计数资料的统计描述,绝对数 :是总量指标,反映事物的规模和水平,不利于保密,不可比。 相对数 :是两个有联系的数据的比值,将基数化为相同,便于比较。比ratio:两个绝对数之比比例proportion:比的分子是分母的一部分。率rate:比例与时间有关系时称率。,强度相对数,说明某现象在其可能发生的范围内实际发生的频率或强度,反映事物的普遍及严重程度,又称频率指标或强度指标。,如:,结构相对比,表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布
9、,又称构成比,如:,汉族不同年龄组孕妇携带HBsAg情况,相对比(relative ratio),例:某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为:370/358100% = 103%,应用相对数的注意事项,率、比要区分开 应用相对数指标时要有足够多的样本含量 比可相加,之和为100%;率不可直接相加,合计率为绝对数相加再相除。 样本率或比的取得应遵循随机化原则,内部构成不同要用标准化法处理。 构成比或率比较时,不能凭表面数值大小下结论,要考虑抽样误差,需作假设检验。,甲、乙两种疗法 治疗某病的治愈率比较,直接法:选择治疗人数之和做标准,课堂练习,1.某地
10、某年肝炎发病人数占同年传染病人数的 10.1%,这是一种( )指标。 A.率 B.构成比 C.发病率 D.集中趋势 E.时点患病率2.计算某地某年肺癌发病率,其分母应为( )。 A.该地体检人数 B.该地年平均就诊人数 C.该地年平均人口数 D.该地平均患者人数 E.该地易感人群,率、比的均值和标准差,为事件发生的概率,率的标准差仅仅取决于的大小,没有提供更多的信息,变异度也仅仅与阳性率有关,参数parameter与统计量statistic,描述总体特征的数量称为参数。 如总体均数、总体标准差。 描述样本特征的数量称为统计量。 如样本均数、样本标准差。,随机变量及其分布,设是随机试验,其样本空
11、间为,如果对于内的每一个,都有一个实数()与之对应,则称()为随机变量(random variable),简记为。 设随机变量的所有可能取值为(,),取相应值的概率为,则为离散型的随机变量的概率函数或分布率。,随机变量的常见分布,二项分布Binomial distribution 泊松分布Poisson distribution 正态分布Normal distribution t分布 分布 分布,离散型,连续型,概率分布,统计量分布,正态分布 Normal distribution,又称分布,是分布所应遵循的自然模式。,X为连续随机变量,为X值的总体均数,2 为总体方差,标准正态分布及分布估计
12、方法,为应用的方便,任何正态分布的X通过值转换后,称为标准化的正态分布,即N( =0 , 2=1)。,值为标准化变量值,1,0,2,3,-1,-2,-3,x,累积分布函数,f(X),a b,标准正态分布表,同理:u=(-2.58,2.58)区间的面积为0.99,例3-1:标准正态变量值u=(-1,1)和 u=(-1.96,1.96)区间内的面积(比例)各为多少?, 0.05/2=1.96 (双侧) 0.01/2=2.58(双侧) 0.05=1.64 (单侧) 0.01=2.33(单侧),统计中常用尾部面积的u值,记 为界值。,正态分布的应用,1.估计正态分布X值在特定值范围内的分布比例。2.利用 估计变量值的范围或对极端值做取舍。3.许多统计方法的统计推断建立在正态分布基础上。,例3-2:假设已知95%的变量值分布的范围值为多少?,95%的变量值分布在60.8-139.2范围内,The end,