收藏 分享(赏)

应用2_统计量的计算和箱线图.ppt

上传人:myw993772 文档编号:5953527 上传时间:2019-03-22 格式:PPT 页数:28 大小:1.77MB
下载 相关 举报
应用2_统计量的计算和箱线图.ppt_第1页
第1页 / 共28页
应用2_统计量的计算和箱线图.ppt_第2页
第2页 / 共28页
应用2_统计量的计算和箱线图.ppt_第3页
第3页 / 共28页
应用2_统计量的计算和箱线图.ppt_第4页
第4页 / 共28页
应用2_统计量的计算和箱线图.ppt_第5页
第5页 / 共28页
点击查看更多>>
资源描述

1、语言研究中的统计学 ()2009 年 3 月,山西大学数学科学学院,1,语言研究中的统计学,基本统计量,语言研究中的统计学,2,山西大学数学科学学院,(一)平均数(样本均值),语言研究中的统计学,3,山西大学数学科学学院,1、算术平均 根据频数分布表 根据分组频数分布表 2、加权平均,加权平均数例子,语言研究中的统计学,4,山西大学数学科学学院,例1 有3个班,人数分别为20、30和40,在某次考试中的平均成绩分别为85,75,80,那么这三个班的加权总平均成绩为:例2 综合测评成绩的计算:注意:权大小的确定要有一定的依据。 特别地:如果所有权的和为1,则称为标准权。,(二)中位数,语言研究中

2、的统计学,5,山西大学数学科学学院,顺序样本中间位置的数, 即样本容量(总次数)N的50%位置的数。 1、对未分组数据求中位数 2、根据分组频数分布表求中位数或,L 中位数所在组下限 U 中位数所在组上限 fL L以下各组总次数 fU U以上各组总次数 F 中数所在组次数 i 中数所在组组距,(三)众数,语言研究中的统计学,6,山西大学数学科学学院,一组数据中出现次数最多的数值 注意: 1、如组中各数都相同,则没有众数; 2、也可能出现两个以上的众数; 3、称含有两个众数的次数分布为双众数分布。求法: 从顺序样本中找,样本容量大的,先做频数统计表。,平均数、中位数和众数的关系,7,皮尔逊经验公

3、式(P40) 众数=3*中位数-2*平均数,山西大学数学科学学院,语言研究中的统计学,平均数、中位数和众数的比较,语言研究中的统计学,8,山西大学数学科学学院,1、灵敏度 平均数的计算涉及到每个样本值,所以对数值的变化比较敏感。 2、稳定性 对同一总体而言,均值比较稳定,受抽样影响较小。 3、信息量 平均数既反映了数值的顺序关系,又体现了所有样本的值,同时又稳定,所以它所提供的信息量最大。 4、运算 平均数适合代数运算,且比较简单。,平均数、中位数和众数的比较,语言研究中的统计学,9,山西大学数学科学学院,6、极端值 样本中过大或过小的数值称为极值 平均值不能体现极端值的信息,从而不能很好地反

4、映分布的信息,有时中数和众数更好一点。 7、数据分布 对于对称分布,三数非常接近,特别是正态分布时三数相等; 对偏态分布,三数差异较大,一般地:正偏或右偏时,众数中位数平均数负偏或左偏时,平均数中位数众数,平均数、中位数和众数的比较,语言研究中的统计学,10,山西大学数学科学学院,三数各有优缺点,平均数用得比较多。,正态分布,三数相同,正偏或右偏 众数中位数平均数,负偏或左偏 平均数中位数众数,语言研究中的统计学,11,山西大学数学科学学院,(四)极差,极差又称两极差,是样本值中最大值和最小值之间的差。,Xmax,语言研究中的统计学,12,山西大学数学科学学院,(五)四分差,定义:,分组数据四

5、分点的求法:,语言研究中的统计学,13,山西大学数学科学学院,(六)(绝对)平均差(AD),定义:,分组数据平均差的求法:,注意到:,所以我们需要取绝对值。,其中称右式为离均差:,语言研究中的统计学,14,山西大学数学科学学院,(七)方差与标准差,未分组数据:,变形一,变形二,由次数分布表来求更简单一些。略,语言研究中的统计学,15,山西大学数学科学学院,(七)方差与标准差(续),由分组次数分布表:,式中: f为组频数; d为各组数据的假定平均离均差, 其中Xc为各组组中值,A为估计平均值。 N为总次数,i为组距。,A的确定:取总次数一半的累积次数所对应的那一组的组中值,因为它更接近真正的平均

6、值。,语言研究中的统计学,16,山西大学数学科学学院,离中趋势量的比较,极差可以在一定程度上反映数据的差异情况,为数据分组提供依据; 四分差比两级差稳定可靠,常与中位数结合使用; 平均差优于两级差和四分差,用数值离开平均值的平均距离来反映数据的离散程度,但不适合微分运算; 方差和标准差是最理想的差异量:概念易于理解,适合代数运算和微分运算,能反映所有数据的差异情况,不易受抽样的影响。,一个分数在一组分数中的位置是参照该组分数的典型分数来确定的,也就是说,一个分数可以描述为在典型分之上还是之下或者是等于典型分,以及它离开典型分有多远。这个典型分数用平均分表示,离开典型分的距离用标准差表示,这样我

7、们就可以是“某个分数离开平均分多少个标准差单位”,同时用正负号表示该分数处于平均分之上还是之下。 这实际上就是把原始分数转换为标准差单位数,或以标准差为单位来表示一个分数与平均数的差,此过程称为标准化过程,语言研究中的统计学,17,山西大学数学科学学院,标准化,语言研究中的统计学,18,山西大学数学科学学院,标准分,一个分数离开平均分的“标准差单位数”称为标准分或Z分,常用Z表示。 标准分的性质: 一组分数的标准分的和为零,即 ; 一组分数的标准分之平均值为0,即 ; 一组分数的标准分之标准差为1,即 ; 标准分具有对称性。 标准分的应用: 比较不同质(不同分布)的分数; 将不同质的多个分数合

8、成后再比较。,语言研究中的统计学,19,山西大学数学科学学院,标准分与百分位对照表,五数概括与箱线图,20,对有序样本,容易计算以下五个值(五数): 最小观测值Xmin;最大观测值Xmax;中位数m0.5=Q2; 第一个四分位数Q1= m0.25;第三个四分位数Q3= m0.75;箱线图(Box plot),又称箱须图(Box-whisker Plot) 、盒形图、箱图、盒子图。作法如下: 画一个箱子,其两侧恰为第一4分位数和第三4分位数,在中位数位置画一条竖线。这个箱子包含了50%的数据。 在箱子左右两侧各引一条水平线,分别至最小值和最大值,每条线段包含25%的数据。,山西大学数学科学学院,

9、语言研究中的统计学,箱线图,21,箱线图可以对样本数据的分布形状进行大致的判断。,山西大学数学科学学院,语言研究中的统计学,箱线图,22,箱线图可以对样本数据的分布形状进行大致的判断。例:以下是100个英语句子的长度。,山西大学数学科学学院,语言研究中的统计学,练习,23,山西大学数学科学学院,语言研究中的统计学,练习,24,山西大学数学科学学院,语言研究中的统计学,练习,25,山西大学数学科学学院,语言研究中的统计学,直方图,26,山西大学数学科学学院,语言研究中的统计学,Stem-and-Leaf Plots,27,山西大学数学科学学院,语言研究中的统计学,V1 Stem-and-Leaf

10、 PlotFrequency Stem & Leaf8.00 0 . 6888999919.00 1 . 000112222223333444427.00 1 . 55556666666777777888889999918.00 2 . 0000011122223334449.00 2 . 5666678991.00 3 . 44.00 3 . 56796.00 4 . 0004448.00 Extremes (=47)Stem width: 10Each leaf: 1 case(s),箱线图,28,山西大学数学科学学院,语言研究中的统计学,奇异值用o表示。 表示数值与矩形框的上边(下边)的距离是四分位极差的1.5倍3倍;,极端值用*表示。 表示数值与矩形框的上边(下边)的距离是四分位极差的3倍以上;,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 大学论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报