1、第3章 样本数据特征的初步分析,管理统计学谢湘生广东工业大学管理学院,提示,将你收集到的数据中的信息概括、集中并表示出来,3.1 样本数据结构的基本特征:频次与频率,3.1.1 频次与频率的基本概念,频次(Frequency):在样本数据集合中,同样的数据值(样本值)出现的次数。频率(Percentage或Relative Frequency) 某样本值的频率=该样本值出现的频次/该数据集合的数据总数,例 3.1.1,某商品在抽样商店的单价(单位:元),某商品在不同商店价格排序结果,某商品价格出现的频次、频率统计表,例 3.1.2,某单位16人受教育程度,某单位职工受教育程度的结构,例 3.1
2、.3,家具基色调出现的频次,数据集合中所有取值不同的数据出现的频率,称为该数据集合的频率分布,3.1.2 观察样本数据基本特征(频次和频率)的图形方法,1. 表示频次和频率的饼图(Pie Chart),用饼图表示适用于所有测度等级的数据。但是要求不同的样本值的个数(即不重复的样本值个数)不是太多。,表示频次和频率的饼图的绘制方法,(1)画一个适当大小的圆,然后在圆中对每一个不同的样本数据值画一个具有适当圆心角的扇形。,(2)每一个不同样本值所占据扇形的圆心角的大小由下式计算:,某样本值对应的圆心角的大小=该样本值的频率3600,某商品标不同价格的商店数(频次),某单位职工受教育程度的比例(频率
3、),家具基色调使用比例(频率),饼图主要用于表示分类变量的频率(或频次)结构,但须注意分类变量不重复的取值不能太多。,2. 表示频次和频率的条形图,表示频次和频率的条形图的构成是,(1)横坐标表示样本数据的不同取值。如果样本数据的测度是顺序级以上的,横坐标上的样本数据就应该从小到大排列。如果是刻度级的数据,还应注意各数据刻度保持一致的比例。(2)纵坐标表示相应样本值出现的频次或频率,条形图常用于表示分类变量数据集合的频次(或频率)结构,但分类变量不重复的取值也不能太多。,3.1.3 样本数据集合的基本特征的延伸:累积频率(Cumulative Percentage),1.累积频率的概念与表格表
4、示,对数据测度在顺序级以上的样本数据,设x1 x2 1,dhd,选择h:0h1,合适,其中k,h的选择应注意,要使最终得到的区间长度便于在坐标轴上标示出来。,确定分组区间起点位置的方法,首先把样本数据集合中的最小数据y以取定的量纲为单位取整y;取满足kd1个量纲单位的最大整数k,并以y+0,y+d,y+kd为备选的最小分组区间中点的位置;选出上述备选中点坐标中与y的差的绝对值最小者,并以该点为最小分组区间的中点。,注:若某个数据恰好位于两个分组区间的分界点上,则习惯上将其划归右边的区间,关于直方图的几个概念,组中值:就是一个分组区间中心位置的坐标x:x =(组上界+组下界)/ 2组频次:组内包
5、含的样本数据的个数组频率:组频次 / 样本数据集合中数据的个数,绘直方图:,(1)在横轴上,从小到大依次标出分组区间的边界;,(2)沿纵轴方向,依据各区间的组频次或组频率的大小,分别绘制不同高度的矩形。,身高频次条形图,身高频次直方图,一个数据集,即使是中等规模,对其原始形式直接进行解释也经常是困难的。图形法(以及表格法)提供了组织和汇总数据的方法(手段)。在经济与商务活动中常将数据分为定性数据(品质数据Qualitative data)和定量数据(数量数据 Quantitative data). 对于不同类型数据的汇总,常用的图形方法如下表所示:,3.3 样本数据的位置特征:对数据中心的描述
6、,样本数据集合的另一重要特征,就是样本数据集合中心所处的位置,它在一定程度上反映了样本集合的位置。测度集中趋势就是寻找数据水平的代表值或中心值,样本数据集合中心通常用下面三个概念刻画。样本中位数样本众数样本均值,3.3.1 样本众数(Sample Mode),样本众数的定义1及例子,样本众数的定义1: 样本数据集合中出现频次最高的那个样本值,称为样本众数,简称为众数。,按此定义,对给定的样本数据集合,样本众数可能不唯一。若样本众数是唯一的,称为单一众数,否则称为复众数。,例如 某单位职工受教育程度的结构为(顺序级数据),则对应的样本数据集合的众数为“大学”。,家具基色调出现的频次(名义级数据)
7、,则对应的样本数据集合的众数为“Y(即淡黄褐色)”。,某商品价格出现的频次(刻度级数据),对应的样本数据集合的众数为9.99、10.00和10.01(复众数),样本众数定义2及例子,样本众数的定义2:对刻度级的样本数据集合,其直方图中,最高的矩形(即直方图中的峰peak)对应的数据区间,称为该数据集合的众数区间,简称为众数。,如右图表示的数据集合的众数区间为,1752.5(厘米),众数区间也有单一众数区间与复众数区间之分。,3.3.2 样本中位数(Sample median),设对样本集合中所有数据的排序结果为x1 x2 xn, n为样本容量,则在上述排序的序列中,处于“正中间位置”上的数据,
8、称为样本中位数。,当样本数据集合中的所有数据排序后,正中间位置的数据即中位数Me按下式确定:,正中间位置:,数据集合(已经排序),17.0 17.1 17.2 17.5 17.5 17.6 17.6,其中位数为Me=x4=17.5,数据集合(已经排序),16.8 17.0 17.1 17.2 17.5 17.5 17.6 17.6,其中位数为,对名义级数据,不考虑中位数;对顺序级数据,只在样本容量n为奇数时,考虑中位数。,3.3.3 样本均值(Sample Mean),样本均值仅适合于刻度级数据。,样本数据集合的样本均值(又称为样本平均值),是把样本数据集合中所有数据加起来,然后再除以样本数据
9、集合中样本个数(样本容量)所得到的结果。样本均值的数学定义为:,式中, x1 , x2 , , xn, n为样本容量,有一个叫做萨姆的工人到吉斯莫先生的工厂应聘,吉斯莫对他说:我们这里报酬不错,平均薪金每周300元。你在学徒期间每周得75元,不过很快就可以加工资。萨姆感到工资水平不低,自己好好干,至少可以很快接近平均工资,便应约上班了,我公司员工收入很高,周平均工资300元,吉斯莫,萨姆,收入不低嘛?,但没过几天,萨姆就找吉斯莫理论:你骗了我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?吉斯莫回答:平均工资是300元,我可以向你证明这一点。这是
10、我每周付出的酬金表,共6900元,共分给23个人。我得2400元,我的弟弟得1000元,六个亲戚每人得250元,5个领工每人得200元,10个工人每人100元。你自己算吧。萨姆也不是好惹的:这样算平均工资当然是每周300元,可你还是蒙骗了我!吉斯莫不愿因此惹官司,不得不“开导”萨姆:看来,是你把平均数理解成了中位数或者中等工资。我们这里的中位数是200元。萨姆问:每周100元又是怎么回事呢?吉斯莫回答:那称为众数,是大多数人挣的工资。老弟,你的问题是出在不懂平均数、中位数和众数之间的区别。萨姆竟无言以对,只好愤而辞职。,3.4 样本数据的离散特征,3.4.1 对样本数据的离散特征的点状描述:极
11、值、四分点和百分位点1. 极大值(maximum)与极小值(minimum),极大值是数据集合中的最大值。极小值是数据集合中的最小值。这两个样本值从一定视角反映了样本数据集合中样本值的离散程度。极值的概念适用于顺序级以上的数据。,2. 下四分点(Lower Quartile)与上四分点(Upper Quartile),(1) 概念,下四分点将排序以后的数据集合,分为左右两部分,使左边部分包含25%的样本总个数,右边部分包含75%的样本总个数。,上四分点将排序以后的数据集合,分为左右两部分,使左边部分包含75%的样本总个数,右边部分包含25%的样本总个数。,上、下四分点在一定意义上反映了样本数据
12、的离散程度。,(2)下、上四分点的位置,正中间位置:,下四分点的位置:,上四分点的位置:,(3)下、上四分点的值,当下、上四分点位置为整数时,相应整数位置上的样本值就分别为下四分点Q1的值和上四分点Q3的值。当上述位置计算结果不为整数时,下、上四分点位置不是整数时,下、上四分点的值分别由下两式确定,Q1 = Q1位置左边的样本值 +(Q1位置右边的样本值 - Q1位置左边的样本值) 0.25,Q3 = Q3位置左边的样本值 +(Q1位置右边的样本值 - Q1位置左边的样本值) 0.75,例 3.4.1 考虑如下的样本数据集合,99.8,99.9,100.1,100.2,n=4,下四分点、中位数
13、、上四分点的位置分别为,(4+1) 0.25=1.25,(4+1) 0. 5=2.5,(4+1) 0.75=3.75,Q1的位置,Q2的位置,Q3的位置,现计算下、上四分点Q1、Q3的值和中位数Q2的值.,由前面给出的中位数的计算公式,有,类似地,由下、上四分点的计算公式,得,由于本例中需要对数据进行计算才可得到下、上四分点以及中位数,因此该计算仅适合于刻度级数据。反之若n+1可以被4整除,则得到的下、上四分点及中位数位置是整数,于是下、上四分点以及中位数就是相应位置的样本数据。见例3.4.2。这时这些概念也适合顺序级数据。,3. 上、下百分位点(Percentile),仿照上、下四分点的概念
14、,不难给出上、下十分点的概念。,下十分点把经过排序后的样本数据集合,分成左右两部分,使左边部分包含10%的样本数据,右边包含90%的样本数据。,上十分点把经过排序后的样本数据集合,分成左右两部分,使左边部分包含90%的样本数据,右边包含10%的样本数据。,上、下十分点也在一定意义上反映了样本数据的离散情况。进而可以定义任意小于50%的上下百分点,并借此反映一定意义上的样本数据的离散情况。,3.4.2 对样本数据离散特征的区间描述:极差、四分位距与离差,由于需要涉及样本数据的加减运算,因此区间描述仅适合于刻度级数据。,1. 级差(Range),级差(R)被定义为样本数据的极大值与极小值的差,即,
15、R = 极大值 - 极小值,它反映了样本数据在数轴上的分布范围。,样本离差被定义为每个样本xi与样本均值 之差:,2. 四分位距(Interquartile Range),四分位距(Iqr)指的是样本排序后的上四分点与下四分点的差:,Iqr = Q3 - Q1,它反映了样本数据集合中样本值处于中间的一半数据的分布范围。,3. 样本离差(Sample Deviations)与离差平方和(Sum of Squared Deviations),样本离差又称为样本中心化数据。常用离差平方和的方式来反映样本数据对均值总偏离的情况。,3.4.3 离散状况的统计描述:样本方差(Sample Variance
16、),样本方差s2定义为离差平方和与n 1的比值,即,它反映了样本数据对均值偏离的平均情况。也常用样本标准差(Standard Deviations)s来反映样本数据对均值偏离的平均情况。,3.5 样本数据特征的综合表述: 箱形图,箱形图简明地综合表达了样本数据的中心和离散两方面的特征,它虽不如茎叶图和直方图那么详细,但能扼要地显示出样本数据中心、范围、分布的主要特征(如偏斜程度)等。由于涉及长度概念,因此箱形图仅适用于刻度级数据。,五数概括法,首先将数据按递增顺序排列,然后很容易就能确定最小值、3个四分位数和最大值了。例如对12个月薪数据的样本,按照递增顺序排列如下: 2210 2255 23
17、50 | 2380 2380 2390 | 2420 2440 2450 | 2550 2630 2825 Q12365 M2405 Q32500上述月薪数据以五数概括为:2210,2365,2405,2500,2825。,五数概括法,箱形图的基本构造,下四分点,上四分点,中位数,四分位距,矩形箱体,极小值,极大值,胡须,修正的箱形图,四分位距,矩形箱体,外围点范围,非外围点范围,1.5倍四分位距,箱形图的例子1,某班级男生身高的数据,171 182 175 177 178 181 185 168 170 175 177 180 176 172 165 160 178 186 190 176 163 183,箱形图的例子2,设上述班级新转来一个身高213厘米的巨人。于是现在的身高数据是,171 182 175 177 178 181 185 168 170 175 177 180 176 172 165 160 178 186 190 176 163 183 213,多批数据箱形图 (例题分析),【例】 从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,8门课程考试成绩的箱线图,11名学生8门课程考试成绩的箱形图,