1、第 2 章 数据的图表展示,2.1 数据的预处理2.2 定性数据的整理与展示 2.3 数值型数据的整理与展示 2.4 合理使用图表,大学生性别及向往的游览地,2.1 数据的预处理 2.1.1 数据审核 2.1.2 数据排序 2.1.3 数据筛选 2.1.4 数据透视表,第 2 章 数据的图表展示,数据的预处理,数据的预处理是在对数据分类或分组之前所做的必要处理。,1.数据审核:,检查数据中的错误。,2.数据筛选:,找出符合条件的数据,3.数据排序:,升序和降序,寻找数据的基本特征,4.数据透视:,按需要汇总,数据审核原始数据,完整性审核应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐
2、全准确性审核数据是否真实反映实际情况,内容是否符合实际数据是否有错误,计算是否正确等,数据的审核二手数据,适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要时效性审核尽可能使用最新的数据,数据筛选,数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,用Excel进行数据筛选,8名学生的考试成绩数据,数据筛选,【例2.1】8名学生4门课程的考试成绩数据。找出统计学成绩等于75分的学生,英语成绩最高的前3名学生,4门课程成绩都大于70分的学生,数据排序,按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题
3、的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据,数据透视表,可以从复杂的数据中提取有用的信息,对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图在利用数据透视表时,数据源表中的首行必须有列标题,数据透视表(pivot table ),【例2.2】在某大学随机抽取30名学生,调查他们的性别、家庭所在地、购买衣物时所考虑的首要因素等,得到的数据如表24所示。试建立一个数据透视表,2.2 定性数据的整理与展示 2.2.1 分类数据的整理与图示 2.2.2 顺序数据的整理与图示,第 2 章 数据的图表展示,数据的整理与显示(基本问题),要弄清所面对的数据类型不同类型的数据,采取不
4、同的处理方式和方法对分类数据和顺序数据主要是作分类整理对数值型数据则主要是作分组整理,2.2.1 分类数据的整理与图示,2.2 定性数据的整理与展示,几个定义,频数:落在各类别中的数据个数比例:某一类别数据个数占全部数据个数的比值百分比:将对比的基数作为100而计算的比值比率:不同类别数值个数的比值,北京奥运会中美俄三国队奖牌数构成,分类数据的整理基本过程,1. 列出各类别2. 计算各类别的频数3. 制作频数分布表4. 用图形显示数据,分类数据整理频数分布表 (例题分析),【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品
5、牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次 。右边就是记录的原始数据,用Excel制作频数分布表,(列联表Excel),不同类型饮料和顾客性别的频数分布,分类数据的图示条形图,用宽度相同的条形的高度或长短来表示各类别数据的图形,主要用于反映分类数据的频数分布。有单式条形图、复式条形图等形式绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图,饮料类型和顾客性别的复式柱形图,例:北京奥运会的金牌分布,帕累托图主次图,按各类别数据出现的频数多少排序后绘制的柱形图 帕累托图在项目管理中主要是为了找出产生大多数问题的关键原因,解决大多数问题,分类数据的图
6、示饼图,也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题,分类数据的图示饼图,例:北京奥运会的金牌分布,北京奥运会的中国奖牌分布,北京奥运会的美国奖牌分布,环形图,环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环用于展示分类和顺序数据,由里到外依次为中国、美国、俄罗斯,1990年、1995年、2000年我国居民人均生活消费支出构成,非常不满意,不满意,一般,满意,非常
7、满意,甲乙两城市家庭对住房状况的评价,甲乙两城市家庭对住房状况的评价,2.2.2 顺序数据的整理与图示,2.2 定性数据的整理与展示,顺序数据的整理,累积频数:各类别频数的逐级累加2. 累积频率:各类别频率(百分比)的逐级累加,【例2.4】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?” 1非常不满意;2不满意;3一般; 4满意;5非常满意。,24132225270300,8.0 44.0 75.0 90.0100.0,顺序数据的图示累计频数分布图 (例题分析),24132225270300,8.0 44.0 75.
8、0 90.0100.0,300276168 75 30,100.092562510,顺序数据的图示累计频数分布图 (例题分析),2.3.1 数据分组,2.3 数值型数据的整理与展示数据,数值型数据的整理,分组方法,组距分组,单变量值分组,等距分组,异距分组,单变量值分组 (要点),1. 将一个变量值作为一组2. 适合于离散变量3. 适合于变量值较少的情况,组距分组 (要点),将变量值的一个区间作为一组适合于连续变量或变量值较多的情况需要遵循“不重不漏”的原则 不重指一项数据只能分在某一组 不漏指每一项数据都能分在其中的一组可采用等距分组,也可采用不等距分组,组距分组几个概念,1. 下限:一个组
9、的最小值2. 上限:一个组的最大值3. 组距:上限与下限之差4. 组中值:下限与上限之间的中点值,组距分组步骤:,第一步,确定组数。确定互不重叠的组的个数。组数一般为5K 15。第二步,确定组距。确定每一组的宽度。 组距( 最大值 - 最小值) 组数 经常用5或10的倍数第三步,确定分组。确定每组变量值两端的界限。第四步,根据分组整理成频数分布表。,首先确定最小值组的下限,然后利用组限和组距的关系依次确定其他组限。毎组上下限通常取5或10的倍数,【例2.5】某电脑公司2005年前四个月各天的销售量数据(单位:台)。试对数据进行分组,(上下组限重叠),(上下组限间断),(使用开口组),非等距分组
10、,人口年龄,2.3.2 数值型数据的图示,2.3 数值型数据的整理与展示数据,分组数据直方图,用于展示分组数据分布的一种图形在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图,分组数据的图示(直方图的绘制),分组数据直方图(直方图与条形图的区别),直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,分组数据 折线图,当数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,即频数分布曲线。 常见的频数分布曲线主要有:正态分布,偏态分布,J形分布,U形分布
11、,数值型数据的图示,STATISTICA,未分组数据茎叶图和箱线图,未分组数据茎叶图,用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留最后一位数字,例:某电脑公司销售量分布的茎叶图,(扩展的茎叶图),茎叶图可以看出,A班考试成绩的分布比较集中,B班考试成绩的分布比A班分散。,未分组数据茎叶图,5. 茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据,未分组
12、数据箱线图,用于显示未分组的原始数据的分布由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接,未分组数据箱线图(箱线图的构成),中位数,未分组数据箱线图(例题分析),最小值141,最大值237,中位数182,25%四分位数170,75%四分位数197,140 150 160 170 180 190 200 210 220 230 240,某电脑公司销售额数据的Median/Quart./Rang箱线图,未分组数据看分布多批
13、数据箱线图,【例2.6】 从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,西方经济学成绩,93,81, 76, 88, 66, 79, 83, 92, 78, 86, 78,74,未分组数据多批数据箱线图(例题分析Median/Quart./Range),8门课程考试成绩的箱线图,6名运动员射击成绩分布的比较,时间序列数据线图(line plot),表示时间序列数据趋势的图形时间一般绘在横轴,数据绘在纵轴图形的长宽比例大致为10 : 74. 一般情况下,纵轴数据下端应从“0”开始,以
14、便于比较。,时间序列数据线图,【例2.7】19932013年我国城乡居民家庭的人均可支配收入数据如表。试绘制线图,时间序列数据线图 (例题分析),两个变量间的关系二维散点图,展示两个变量之间的关系,三个变量间的关系气泡图,显示三个变量之间的关系图中数据点的大小依赖于第三个变量,三个变量间的关系气泡图,也称为蜘蛛图(spider chart)显示多个变量的图示方法可用于研究多个样本之间的相似程度,多变量数据雷达图(radar chart),(例题分析),【例2.9】2010年我国按收入等级分城镇居民家庭平均每人全年消费性支出数据如表,多变量数据雷达图 (例题分析),数据类型及图示 (小结),2.
15、4 合理使用图表 2.4.1 鉴别图形优劣的准则 2.4.2 统计表的设计,第 2 章 数据的图表展示,一张好的图表应包括以下基本特征显示数据让读者把注意力集中在图表的内容上,而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明5种鉴别图表优劣的准则:一张好的图表应当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况,鉴别图表优劣的准则,统计表的结构,行标题,列标题,数字资料,表头,附加,合理安排统计表的结构总标题内容应满足3W 要求数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“”表示必要时可在表的下方加上注释,统计表的设计,本章小结,数据预处理的内容和目的分类和顺序数据的整理与显示方法数值型数据的整理与显示方法合理使用图表用Excel作频数分布表和图形,结 束,THANKS,【例】 某车间记录的某月份60名工人加工零件数的原始数据,试对数据进行统计分组。,