ImageVerifierCode 换一换
格式:PPT , 页数:92 ,大小:924.50KB ,
资源ID:756363      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-756363.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(04第三章-第一节-数据的整理与显示.ppt)为本站会员(天天快乐)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

04第三章-第一节-数据的整理与显示.ppt

1、第三章 统计数据的概括性描述,第三章 统计数据的概括性描述,第一节 统计数据的整理与展示第二节 数据集位置的测度第三节 数据集离散程度的测度第四节 数据集的峰度与偏度,学习目标,了解数据预处理的内容和目的掌握分配数列的整理与显示方法掌握数据集的位置测度的变量与方法掌握数据集的离散程度测度的变量与方法掌握数据集的分布形态测度的变量与方法,案例与背景,统计数据首先需要经过预处理和整理,以便人们对数据分布的类型和特点有了一个大概的了解。但这种了解并不能帮助我们准确地描述出统计数据的分布,还需要更深入的分析,找到能反映数据分布特征的各个代表值。对统计数据分布的特征和规律,可以从本章所介绍的三个方面进行

2、测度和描述:一是数据集位置的测度,反映各数据向其中心值靠拢或聚集的程度;二是数据集离散程度,反映各数据远离其中心值的趋势;三是数据集的峰度与偏度,反映数据分布的形状。这三个方面从不同侧面反映了数据分布特征。本章将重点介绍这些代表值的计算方法、特点及其应用。,第一节 统计数据的整理与展示,3.1.1 数据的预处理3.1.2 频数分布表的编制与图示,3.1.1 数据的预处理,数据的审核检查数据中的错误数据的筛选找出符合条件的数据数据排序升序和降序寻找数据的基本特征,数据审核原始数据(raw data), 审核的内容完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全准确性审核

3、检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等,数据的审核原始数据(raw data),审核数据准确性的方法逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审核计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核,数据的审核二手数据(second hand data),适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要时效性审核尽可能使用最新的数据确认是否必要做进一步的加工整理,数据筛选(data filter),当数

4、据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔,用SPSS进行数据筛选,8名学生的考试成绩数据,数据筛选(data filter),数据排序 (data rank),按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成,数据排序 (方法),分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序

5、汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序递增排序:设一组数据为x1,x2,xn,递增排序后可表示为:x(1)x(2)x(n),3.1.2 频数分布表的编制与图示,频数与频数分布统计分组品质数列的整理和显示变量数列的整理和显示频数分布的类型,1. 频数与频数分布,频数分布数列的概念在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位在各组简的分布,又称次数分配或分布数列。频数(frequency) :又叫次数,落在各类别中的数据(单位)个数,记作 Fi 。 频率(ratio) :又叫比率,各组次数(频

6、数)与总次数(频数)之比。,频率分布的性质:,分配数列的种类,品质分配数列(属性分布数列) :按品质标志分组形成的分配数列。变量分配数列(变量分布数列) :按数量标志分组形成的分配数列。单项数列:总体按单项式分组而形成的变量数列,每个变量值是一个组,顺序排列。 组距数列:总体按组距式分组而形成的变量数列,每个组是由若干个变量值形成的区间表示。,2. 统计分组,统计分组概念:是根据统计研究的目的,选择某一主要标志,将总体单位划分为若干类型或组别,使组内具有同质性,组间具有差异性。统计分组作用划分现象的类型揭示现象内部结构分析现象之间的依存关系,统计分组分组标志的选择,统计分组的关键问题:如何选择

7、分组标志和确定各组的界限。根据统计研究的目的来选择在满足研究目的的前提下,应选择本质的、主要的,而不是非本质的、次要的标志。考虑具体的历史和经济条件。,简单分组、复合分组和分组体系,根据采用的分组标志的多少,可以分为:简单分组复合分组,简单分组,又称单一分组,是对被研究现象总体只按一个标志进行的分组。特点:只能反映现象在某一标志特征方面的差异情况。不能反映现象在其他标志特征方面的差异,说明问题比较简单明了。,简单分组,复合分组,对同一总体选择两个或两个以上标志层叠起来进行的分组。特点:可以从几个不同角度了解总体内部的差别和关系,比简单分组能更全面、更深入地研究问题;分组的组数随着分组标志的增加

8、而成倍地增加。因而在采用复合分组时,选择分组标志的数量要适量,并且要考虑倒只有在总体包括的单位数较多的情况下,才宜于采用复合分组。,复合分组,分组体系,为了从不同侧面反映总体的特征,运用几个标志对总体进行分组,形成的一个完整的体系。分组体系有两种不同的形式:平行分组体系:同一个总体的几个简单分组按某一规定排列起来就构成一个平行分组体系。复合分组体系:由复合分组形成的分组系列。,3. 品质分布数列的整理与显示,分类数据的整理顺序数据的整理,品质分布数列的整理,列出各类别计算各类别的频数制作频数分布表用图形显示数据,分类数据整理频数分布表 (例题分析),【例3.1】一家市场调查公司为研究不同品牌饮

9、料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次 。右边就是记录的原始数据,用SPSS制作频数分布表,分类数据的图示条形图(bar Chart),用宽度相同的条形的高度或长短来表示各类别数据的图形有单式条形图、复式条形图等形式主要用于反映分类数据的频数分布绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图,分类数据的图示条形图 (例题分析),分类数据的图示饼图(pie Chart),也称圆形图,是用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体或样本中各组成

10、部分所占的比例,对于研究结构性问题十分有用绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的,分类数据的图示饼图 (例题分析),顺序数据的整理,累积频数(cumulative frequencies):各类别频数的逐级累加累积频率(cumulative percentages):各类别频率(百分比)的逐级累加,顺序数据的频数分布表(例题分析),【例3.2】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?1非常不满意;2不满意;3一般;4满意

11、;5非常满意。,顺序数据的频数分布表 (例题分析),顺序数据的图示累计频数分布图 (例题分析),甲城市家庭对住房状况评价的累积频数分布,环形图(annular chart),环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于结构比较研究 环形图主要用于展示分类和顺序数据,环形图 (例题分析),4. 变量数列的整理与显示,数据分组 累计频数分布 数值型数据的图示,数据分组,分组方法,分组方法,单变量值分组(要点),将一个变量值作为一组适合

12、于离散变量适合于变量值较少的情况,组距分组 (要点),将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组,等距分组(步骤),确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K,确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距( 最大值 - 最小值) 组数,统计出各组的频数并整理成频数分布表,确定全距(极差):全部变量的最大之与最小值的距离,频数分布表的编制(例题分析),【例3

13、.3】某电脑公司2002年前四个月各天的销售量数据(单位:台)。试对数据进行分组。,频数分布表的编制(步骤),确定组数:根据 Sturges 提出的经验公式得组数K为:,确定各组的组距: 组距( 237 - 141) 10=9.6 10,用SPSS制作频数分布表,组距分组与不等距分组(在表现频数分布上的差异),等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度反映频数分布的实际状况,异距分组(几个概念),标准组距:数列中能被各组组距整除的最大组距。常用数列中的最小组

14、距作为标准组距。,异距分组 (例题分析),异距分组 (例题分析),异距分组 (例题分析),组限和组中值,组限(class limit) :各组的上限界限值组下限(low limit) :一个组的最小值组上限(upper limit) :一个组的最大值闭口组:上限和下限都齐全的组开口组:上限或下限有一个没有的组,组限的确定,组限确定有一个基本原则:即按这样的组限分组后,标志值在各组的变动能反映事物的质的变化。常用的组限表示方法:按连续变量分组,由于相邻两组的上限和下限常时同一数值,每组的界限会重叠,为避免计算各组次数时出现混乱,一般的原则是“上组限不在内,或下组限不在内”。按离散变量分组,则相邻

15、的上限和现象通常是以两个确定的不同整数值来表示,故相邻两组的上下限可以不重合。,等距分组表(上下组限重叠),等距分组表(上下组限间断),等距分组表(使用开口组),组中值(class midpoint),组中值(class midpoint) :下限与上限之间的中点值。,累计频数分布,累计频数分布,在频数分布的基础上将各组频数逐一累计,称为频数分布累计。向上累计:从变量值最低组开始向变量值高的组累计,表明小与该组上限的频数(频率)一共有多少;向下累计:从变量值最高组开始向变量值低的组累计,表明大与该组下限的频数(频率)一共有多少。特点:同一数值的向上累计和向下累计次数之和等于总体总次数。 累计频

16、数分布图:以变量值为横坐标,累计频数和频率为纵坐标。,累计频数分布(例题分析),某电脑公司2002年前4个月的销售量,累计频数分布(例题分析),累计频数分布(例题分析),变量分布数列的图示,分组数据直方图和折线图,分组数据直方图(histogram),用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1,分组数据的图示(直方图的绘制),某电脑公司销售量分布的直方图,分组数据直方图(直方图与条形图的区别),条形图是用条形的长度(横置时)表示各类别频数的

17、多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,分组数据折线图(frequency polygon),折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积

18、相等,二者所表示的频数分布是一致的,分组数据的图示(折线图的绘制),折线图与直方图下的面积相等!,140,150,210,某电脑公司销售量分布的折线图,190,200,180,160,170,220,230,240,数值型数据的图示,未分组数据茎叶图和箱线图,未分组数据茎叶图(stem-and-leaf display),用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字对于n(20 n 300)个数据,茎叶图最大行数不超过 L = 10 lg(n) 茎叶图类似于横置的直方图,但又有区别直方图可观察一组数

19、据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,未分组数据茎叶图(例题分析),未分组数据茎叶图(扩展的茎叶图),未分组数据箱线图(box plot),用于显示未分组的原始数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接,未分组数据单批数据箱线图(箱线图的构成),未分组数据单批数据箱线图(例题分析),分布的形状与箱线图,不同分布的箱线

20、图,未分组数据多批数据箱线图 (例题分析),【例3.4】 从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,未分组数据多批数据箱线图(例题分析),8门课程考试成绩的箱线图,11名学生8门课程考试成绩的箱线图,Min-Max,25%-75%,Median value,45,55,65,75,85,95,105,学生1,学生2,学生3,学生4,学生5,学生6,学生7,学生8,学生9,学生10,学生11,未分组数据多批数据箱线图 (例题分析),数值型数据的图示,时间序列数据线图,时间序列数据

21、线图(line plot), 绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断,时间序列数据线图 (例题分析),【例3.5】已知19912000年我国城乡居民家庭的人均收入数据如表。试绘制线图,时间序列数据线图 (例题分析),数值型数据的图示,多变量数据雷达图,显示多个变量的图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度,多变量数据

22、雷达图(radar chart), 设有n组样本S1,S2,Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是,多变量数据雷达图(雷达图的制作),先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示 再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图,多变量数据雷达图 (例题分析),【例3.6】2000年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图。,多变量数据雷达图 (例题分析),数据类型及图示 (小结),频数分布的类型,频数分布的类型,几种常见的频数分布,本节小结,数据预处理的内容和目的品质分布数列的整理与显示方法变量分布数列的整理与显示方法用SPSS作频数分布表和图形,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报