1、第4章 统计数据的描述(2)离散程度的度量,笑话,有一个统计学家,他把头放在热的平底锅中,把脚放在冰箱中,然后说:”现在,在平均的意义上我感觉很好.” 一个社区的平均家庭收入可能是令人舒服的每年10万美元,但如果这个均值是从200户极穷的人家与20户极富的人家的收入计算得来的,它就不能代表他们中的任何一个. 显然,只了解变量的集中趋势是不够的!,一、测定离散程度的指标及其作用,1.说明数据的分散程度,反映变量的稳定性、均衡性。 数据之间差异越大,变量的稳定性或均衡性越差。 2.衡量平均数的代表性。 离散程度越大,平均数的代表性就越小。 3. 统计推断的重要依据 判别统计推断前提条件是否成立,
2、衡量推断效果好坏的重要尺度。,集中趋势弱、离散趋势强,集中趋势强、离散趋势弱,(一)全距和四分位差 (二)方差和标准差 (三)变异系数 (四)偏度,离散程度的度量,全距(Range):全部数据中最大值与最小值之差。 即:四分位差(interquartile range):第三个四分位数与第一个四分位数之差。 即:,R,IQR,152 154 154 155 155 156 156 156 156 157 158 158 159 159 160 160 160 160 160 160 160 160 160 160 160 160 161 161 161 161 161 161 161 162
3、162 162 162 162 162 162 162 163 163 163 163 164 164 164 165 165 165 165 165 165 165 165 166 166 166 166 166 167 167 167 168 168 168 168 168 168 168 169 170 170 170 170 170 171 171 172 172 172 174,全距174-152=22(cm) 四分位差167-1607(cm),152 154 154 155 155 156 156 156 156 157 158 158 159 159 160 160 160 16
4、0 160 160 160 160 160 160 160 160 161 161 161 161 161 161 161 162 162 162 162 162 162 162 162 163 163 163 163 164 164 164 165 165 165 165 165 165 165 165 166 166 166 166 166 167 167 167 168 168 168 168 168 168 168 169 170 170 170 170 170 171 171 172 172 172 174 185 190 190 200,全距200-152=48(cm) 四分位差1
5、68-1608(cm),极小值,极大值,(一)全距和四分位差 (二)方差和标准差 (三)变异系数 (四)偏度,离散程度的度量,方差(variance):各变量值与其算术平均数离差平方的算术平均数。 标准差(mean square deviation Standard deviation ):是方差的算术平方根。也称均方差、均方根差、离差均方根等。,Var 2 S2,MSD STDEV S,方差及标准差的概念,方差及标准差的计算,简单式,加权式,总体方差及标准差,简单式,样本方差及标准差,方差及标准差的计算,一般的计算过程:列表,第一步计算均值,第二步计算离差,第三步离差平方,第四步乘以权数,简
6、捷计算方法:不计算离差,方差及标准差的作用,方差及标准差的作用,68.27%,95.45%,99.73%,STAT,统计学第二章 统计数据,方差及标准差的作用,标准差可以用来度量相对位置和异常值的检测。,Z分数,标准化的数值,标明 Xi 距离其平均数的标准差个数。,某学生期末考试时,数学成绩为85分,据此计算的分数为0.5;英语成绩为70分,分数也是0.5。则说明该学生两科考试成绩的相对位置是相同的,即都高于平均成绩0.5个标准差。,一个数据集中某个或某几个数据反常地大或小,一般称其为极端值或异常值,应当进一步加以检查、鉴别。一般的建议是:凡分数小于-3或大于+3的数据均可以被认为是异常值。,
7、异常值的诊断,分数法 异常值:,质量控制统计中控制图的原理,控制下限,控制上限,中 心 线,若数据落在控制线外,则认为生产过程失去控制,判断错误的概率小于0.5%。,国外一项研究表明,IQ 值呈正态分布,其平均数为100,标准差为15。问:凡 IQ 值高于145的人都被视为天才,经验法则是否支持这一论断?,结论:支持,统计学第二章 统计数据,152 154 154 155 155 156 156 156 156 157 158 158 159 159 160 160 160 160 160 160 160 160 160 160 160 160 161 161 161 161 161 161
8、161 162 162 162 162 162 162 162 162 163 163 163 163 164 164 164 165 165 165 165 165 165 165 165 166 166 166 166 166 167 167 167 168 168 168 168 168 168 168 169 170 170 170 170 170 171 171 172 172 172 174 185 190 190 200,练习:,前NBA 巨星Michael Jordan 身高78英寸,而WNBA运动员 R.lobo身高76英寸。很明显,Jordan高出2英寸,但谁相对来说更高一
9、些?Jordan在男性中的身高是否超过了lobo在女性中的身高?(男性身高的平均数为69.0英寸,标准差为2.8英寸;女性身高平均数为63.6英寸,标准差为2.5英寸。),是非标志的均值及标准差,其值仅表现为具有某种特征或不具有某种特征两种情况的标志称为是非标志,也称交替标志。,性别:男、女(非男),产品质量:合格、不合格,1 0,1 0,是非标志的均值及标准差,具有某种标志的总体单位数,不具有某种标志的总体单位数,总体单位总数,是非标志的均值及标准差,是非标志的均值:,是非标志的标准差:,某厂某月份生产了1000件产品,其中合格品900件,不合格品100件。求产品质量分布的集中趋势与离散趋势
10、。,集中趋势,离散趋势,不同赞同率下的标准差,赞同率反映两種意见的对立情况,越接近50%,争论的强度越大,可把这種“争论强度”用方差或标准差的方法进行计算和表示,(一)全距和四分位差 (二)平均差 (三)方差和标准差 (四)变异系数 (五)偏度,离散程度的度量,变异现象举例,如果某家人每天的食谱都是一样的,穷还是富?南美安第斯山,穷人老是吃土豆和玉米 变异太小是“单调”、“斋” 宁欺山莫欺水 水裏的危险更多更隐蔽,猝不及防 什么是“戏剧性变化” 现实中的变化小,但无巧不成书,要把许多小概率事件汇集一处,“浓缩”人生,男性笨还是女性笨?,在平均智力水平方面,男女并无明显差别。但在被测为最聪明的2
11、人群和最傻的2人群中,男子人数均为女子的两倍。 参与这项研究的英国爱丁堡大学教授蒂莫西贝茨说:“男性更容易处在顶点和底部。” 泰晤士报提到一種理论,男子为在女性面前更具魅力,会儘量提陞自己的智力。,可比,STAT,统计学第二章 统计数据,身高的差异水平:cm,体重的差异水平:kg,STAT,统计学第二章 统计数据,可比,变异系数(离散系数):数列的离散水平指标与数列均值的比值。,STAT,统计学第二章 统计数据,(一)全距和四分位差 (二)平均差 (三)方差和标准差 (四)变异系数 (五)偏度,离散程度的度量,4.3 统计分佈的形态,相对于正态分佈而言,总体的分佈是否对称?集中趋势是高是低?分
12、别用偏度和峰度指标来反映。 三阶中心矩、四阶中心矩可用来描述 偏度和峰度两个指标可检验数据集的分佈是否接近正态分佈(Skew=0,Kurt=0)。统计实务中常用来进行质量管理(如产品、过程等的一致性、稳定性),一、矩(动差 ),矩(动差 ) 一系列刻画数据分布特征的指标的统称。 变量值与数值 a 之离差的 K 次方的平均数称为变量 x 关于 a 的K 阶矩,即:,K 阶原点矩(当a = 0 时)是数据的K次方的平均数. 一阶原点矩即算术平均数; 二阶原点矩即平方平均数。,K 阶中心矩矩(当a =均值 时)是以均值为中心计算的离差 K 次方的平均数 k=1时,称为一阶中心矩,它恒等于0,即 m1
13、=0; k=2时,称为二阶中心矩,也就是方差,即m2=2。,二、偏度(Skewness),偏度指数据分布的不对称程度或偏斜程度。 以 对称分布 为标准来区分 偏态分布又分左偏(负偏)和右偏(正偏).,偏态的测度方法,一般有:,(一)由均值与众数(中位数)之间的关系求偏态系数:,(二)由三个四分位数之间的关系求偏态系数,值域:-1 Sk 1,偏度系数,(三)利用 3 阶中心矩来计算偏度系数。 测定偏度最常用的方法 原理:若分布不对称,则 3 阶中心矩不为0。不对此程度愈严重, 3 阶中心矩的绝对值愈大。为消除量纲的影响,可除以3。,偏态系数的含义,三、峰度(Kurtosis),峰度是指变量的集中
14、程度和分布曲线的陡峭(或平坦)的程度。 对峰度的度量通常以正态分布曲线为比较标准,分为正态峰度、尖顶峰度和平顶峰度.,尖顶峰度的分布曲线比正态分布曲线更加尖峭、更高更窄; 平顶峰度的分布曲线比正态分配曲线更为平缓、更低更扁平。,峰度系数,原理:分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四阶中心矩m4为基础,为了消除量纲的影响,再除以标准差的四次方4所得到的相对数即可衡量峰度。,当K=0时,分布曲线为正态曲线; 当K0时,为尖顶曲线,表示数据比正态分布更集中在均值附近;K的数值越大,则变量分布曲线之顶端越尖峭; 当K0时,为平顶曲线,表示数据比正态分布更分散;K的数值越小,则变量分
15、布曲线之顶端越平坦。,对于正态分布曲线有: m4 /4=3,故峰度系数为:,峰度系数的含义,峰度系数K0,与正态分布相比该分布一般为扁平。,峰度系数K0,与正态分布相比该分布一般为尖峰。,【例3-13】,根据表3-3的数据,计算使用寿命分布的偏度系数和峰度系数。 解:,计算结果表明,偏度系数几乎为0,峰度系数略小于0,说明该产品使用寿命的分布十分接近对称分布,分布曲线顶峰略比正态分布平坦一些。总的说来,该产品的使用寿命的分布非常接近正态分布。,STAT,统计学第二章 统计数据,离散形态的概念,非对称的,偏斜的分布,对称的、高度适中的分布,既偏斜又低平的分布,偏度(skewness):度量数据分
16、布非对称方向及程度的指标。,SK,STAT,统计学第二章 统计数据,STAT,统计学第二章 统计数据,动差法偏度的计算:,一阶中心矩衡为零,偶数阶中心矩为正数,奇数阶中心矩可以反映分布偏度。,三阶中心矩有计量单位,不便于比较,故用具有相同单位的3相除,去掉单位,本章小结,测度集中趋势的各指标的含义、计算方法、特点和应用场合 测度离散程度的各指标的含义、计算方法、特点和应用场合 偏度与峰度的含义和测度方法 利用 Excel 计算描述统计量,变异指标,1.一个班统计测验分数的平均数为75,标准差为12.使用全距经验法则估计最高和最低的通常分数。在这里,50分能被视为通常的分数吗? 2.女性的身高具
17、有钟形分布,其平均数为63.6英寸,标准差为2.5英寸,使用经验法则,大约有多少比例的女性,其身高位为(1)61.6英寸至66.1英寸(2)56.1英寸至71.1英寸之间? 3.EVCV 和EDVS两 种汽车电池都表明可持续使用48个月,但实际上,它们的平均寿命都达到50个月,但EVCV的标准差为2个月,而EDVS的标准差为6个月,哪一种电池更好的选择,为什么? 4.对于任意一个标准差为S 的,包括N个数值的数据集,每个值都必然落在平均数的 范围内。一个统计教师报告,她的17个学生的班级的考试成绩,平均数为75,标准差为5.KELLy 是班级中自称为最好的学生,声称她得了97分,她说的是真话吗
18、?,8.某小公司九个雇员的每小时工资如下: $6.5 $6.2 $6.5 $7.0 $10 $10 $11 $15 $21 (1)工资的中位数是多少? (2)工资的均值是多大? (3)已经决定,将工资最低的四个人民的每小时工资提高$4.00 新的中位数是多少?新的均值是多少? (4)为何这四个人的工资增高后,工资的中位数和均值没有增加同样的水平?,9一个变量的观察值是1,3 ,3,3,3,3,3,5.另一个变量的观察值是2,2,2,2,4,4,4,4.(1)画出这两个变量的确直方图.(2)按照直方图,两个变量是否具有相同的均值?(3)按照直方图,两个变量是否有相同的标准差?(4)找出这两个数据集的均值和标准差.看可以得出什么结论?,